CN103514288B - 客户端类别识别方法和系统 - Google Patents
客户端类别识别方法和系统 Download PDFInfo
- Publication number
- CN103514288B CN103514288B CN201310461792.8A CN201310461792A CN103514288B CN 103514288 B CN103514288 B CN 103514288B CN 201310461792 A CN201310461792 A CN 201310461792A CN 103514288 B CN103514288 B CN 103514288B
- Authority
- CN
- China
- Prior art keywords
- client
- class
- classification
- feedback
- object type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种客户端类别识别方法,包括步骤:获取目标客户端的信息;与检验数据库进行比对,确定反馈类别;对已知类别的客户端进行抽样,建立训练集,确定对象类别的第一属性权重值和反馈类别的第二属性权重值,不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率;构建数学模型;对数学模型进行加权,确定客户端的类别。本发明还提供了一种客户端类别识别系统。操作过程中避免人为主观的筛选和评价,客观地对客户端类别进行识别,同时引入反馈信息对客户端类别体现的作用,更加全面,提高了客户端类别识别的准确性。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种客户端类别识别方法和系统。
背景技术
在网站运营的时候,需要对客户端的类别进行分类管理,以便制定有效的运营策略。一般的网站运营者会通过引导客户端注册的方式收集资料。出于个人隐私保护,大部分客户端的资料都是不真实和不齐全的。因此,需要通过其他的方式收集客户端的资料并识别出客户端类别。
传统的客户端类别识别方法为,搜集客户端操作的对象的类别和次数,构建数学模型,得出客户端在不同类别的倾向值,从而判断客户端的类别。这种方法虽然能通过客户端的操作的对象客观地判断客户端的类别,但是在具体操作的时候需要根据操作的对象进行主观上的评价和筛选,导致其准确性低。
发明内容
基于此,有必要针对现有技术准确性低的问题,提供一种客户端类别识别方法和系统。
一种客户端类别识别方法,包括步骤:
获取目标客户端的信息,包括操作的对象类别,与操作的对象相匹配的操作次数和反馈信息中的文字信息;
将所获取的文字信息与检验数据库进行比对,确定反馈信息中所指向的客户端的反馈类别;
对已知类别的客户端进行抽样,建立关于对象类别、操作次数和反馈类别的训练集,确定对象类别的第一属性权重值,反馈类别的第二属性权重值,不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率;
根据目标客户端的信息中的对象类别、操作次数、反馈类别,以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型;
然后利用第一属性权重值和第二属性权重值对数学模型进行加权,确定客户端在各种类别中的倾向值,根据倾向值确定客户端的类别。
一种客户端类别识别系统,包括:
信息获取模块:获取目标客户端的信息,包括操作的对象类别,与操作的对象相匹配的操作次数和反馈信息中的文字信息;
文字比对模块:将所获取的文字信息与检验数据库进行比对,确定反馈信息中所指向的客户端的反馈类别;
参数计算模块:对已知类别的客户端进行抽样,建立关于对象类别、操作次数和反馈类别的训练集,确定对象类别的第一属性权重值,反馈类别的第二属性权重值,不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率;
建模模块:根据目标客户端的信息中的对象类别、操作次数、反馈类别,以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型;
加权模块:利用第一属性权重值和第二属性权重值对数学模型进行加权,确定客户端在各种类别中的倾向值,根据倾向值确定客户端的类别。
本发明的有益效果:
对已知类别的客户端进行抽样,建立训练集,确认客观反映操作的对象类别与客户端类别的关联性的第一属性权重值,以及反馈类别与客户端类别的关联性的第二属性权重值。以目标客户端操作对象的类别及操作次数作为主要特征建立数学模型,然后利用第一属性权重值和第二属性权重值对数学模型进行加权。操作过程中避免人为主观的筛选和评价,客观地对客户端类别进行识别,同时引入反馈信息对客户端类别体现的作用,更加全面,提高了客户端类别识别的准确性。
附图说明
图1为本发明一个实施例的客户端类别识别方法的流程示意图;
图2为本发明一个实施例中确定反馈类别的流程示意图;
图3为本发明一个实施例的客户端类别识别系统的结构示意图。
具体实施方式
下面结合附图对本发明的实施例做详细的说明。
首先是对本发明的一种客户端类别识别方法的介绍:
参考图1,一种客户端类别识别方法,包括步骤:
S110:获取目标客户端的信息,包括操作的对象类别,与操作的对象相匹配的操作次数和反馈信息中的文字信息。针对目标客户端进行信息采集,包括目标客户端操作的对象类别、操作次数,以及目标客户端在操作完成后反馈回来的文字信息。
S120:将所获取的文字信息与检验数据库进行比对,确定反馈信息中所指向的客户端的反馈类别。目标客户端所反馈回来的信息会在一定程度上反映了客户端类别。将采集到的目标客户端的反馈信息中的文字信息与检验数据库进行一一比对,就可以得到目标客户端在不同类别中的倾向值,借此确定目标客户端的反馈类别。
S130:对已知类别的客户端进行抽样,建立关于对象类别、操作次数和反馈类别的训练集,确定对象类别的第一属性权重值,反馈类别的第二属性权重值,不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率。对已知类别的客户端进行抽样,在数据分析的基础上确定体现对象类别与客户端类别之间关联性的第一属性权重值,体现反馈类别与客户端类别之间关联性的第二属性权重值,另外还有一些在后续数学建模用到的参数值,包括不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率。
S140:根据目标客户端的信息中的对象类别、操作次数、反馈类别,以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型,如朴素贝叶斯数学模型。
S150:利用第一属性权重值和第二属性权重值对数学模型进行加权,确定客户端在各种类别中的倾向值,根据倾向值确定客户端的类别。
上述客户端类别识别方法,对已知类别的客户端进行抽样,建立训练集,确认客观反映操作的对象类别与客户端类别的关联性的第一属性权重值,以及反馈类别与客户端类别的关联性的第二属性权重值。以目标客户端操作对象的类别及操作次数作为主要特征建立数学模型,然后利用第一属性权重值和第二属性权重值对数学模型进行加权。操作过程中避免人为主观的筛选和评价,客观地对客户端类别进行识别,同时引入反馈信息对客户端类别体现的作用,考虑更加全面,提高了客户端类别识别的准确性。
参考图2,在其中一个实施例中,在S120中,将所获取的文字信息与检验数据库进行比对,确定反馈信息中所指向的客户端的反馈类别,包括步骤:
S121:截取文字信息的部分字段。
S122:将所截取的字段与检验数据库中相同的字段进行匹配。
S123:获取检验数据库中相同的字段在不同客户端类别中的倾向值。
S124:将倾向值较大的客户端类别判定为客户端的反馈类别。
通过与检验数据库中相同字段的匹配,快速找出反馈信息中指向的反馈类别。
在其中一个实施例中,在S130中,所述确定对象类别的第一属性权重值,反馈类别的第二属性权重值,包括步骤:
获取对象的各种类别和对应的次数。
根据各种类别的次数确定对应的对象类别的第一属性权重值、反馈类别的第二属性权重值。
为了方便理解,假设客户端类型包括类型f和类型m,则:
第一属性权重值的具体计算方法为:
其中chi(ct)为对象类别的第一属性权重值,f1为操作过对象类别ct的f类客户端的数量,m1为操作过对象类别ct的m类客户端的数量,f0为没有没有操作过对象类别ct的f类客户端的数量,m0为没有操作过品类ct的m类客户端的数量。
第二属性权重值的具体计算方法为:
其中chi(b)为反馈类别的第二属性权重值,fb1为反馈类别为m类的f类客户端的数量,mb1为反馈类别为m类的m类客户端的数量,fb0为反馈类别为f类的f类客户端的数量,mb0为反馈类别为f类的m类客户端的数量。
在其中一个实施例中,在S130中,所述确定不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率,包括步骤:
获取训练集中的对象类别、操作次数和反馈类别。
确定各种客户端类别的操作次数在所有反馈类别的总操作次数中的出现概率。
确定各种对象类别的操作次数在所有客户端类别的总操作次数中的出现概率。
在其中一个实施例中,在S150中,所述根据倾向值确定客户端的类别,包括步骤:
比较各种客户端类别的倾向值的大小。
选取倾向值较大的类别作为客户端类别。
接着是对本发明的一种客户端类别识别系统的介绍:
参考图3,一种客户端类别识别系统,包括:
信息获取模块110:用于获取目标客户端的信息,包括操作的对象类别,与操作的对象相匹配的操作次数和反馈信息中的文字信息。
文字比对模块120:用于将所获取的文字信息与检验数据库进行比对,确定反馈信息中所指向的客户端的反馈类别。
参数计算模块130:用于对已知类别的客户端进行抽样,建立关于对象类别、操作次数和反馈类别的训练集,确定对象类别的第一属性权重值,反馈类别的第二属性权重值,不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率。
建模模块140:用于根据目标客户端的信息中的对象类别、操作次数、反馈类别,以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型。
加权模块150:用于利用第一属性权重值和第二属性权重值对数学模型进行加权,确定客户端在各种类别中的倾向值,根据倾向值确定客户端的类别。
上述客户端类别识别系统,对已知类别的客户端进行抽样,建立训练集,确认客观反映操作的对象类别与客户端类别的关联性的第一属性权重值,以及反馈类别与客户端类别的关联性的第二属性权重值。以目标客户端操作对象的类别及操作次数作为主要特征建立数学模型,然后利用第一属性权重值和第二属性权重值对数学模型进行加权。操作过程中避免人为主观的筛选和评价,客观地对客户端类别进行识别,同时引入反馈信息对客户端类别体现的作用,考虑更加全面,提高了客户端类别识别的准确性。
在其中一个实施例中,所述文字比对模块120的运算过程中,进一步用于:
截取文字信息的部分字段。
将所截取的字段与检验数据库中相同的字段进行匹配。
获取检验数据库中相同的字段在不同客户端类别中的倾向值。
将倾向值较大的客户端类别判定为客户端的反馈类别。
在其中一个实施例中,所述参数计算模块130确定对象类别的第一属性权重值,反馈类别的第二属性权重值过程中,进一步用于:
获取对象的各种类别和对应的次数。
根据各种类别的次数确定对应的对象类别的第一属性权重值、反馈类别的第二属性权重值。
在其中一个实施例中,所述参数计算模块130确定不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率,包括步骤:
获取训练集中的对象类别、操作次数和反馈类别。
确定各种客户端类别的操作次数在所有反馈类别的总操作次数中的出现概率。
确定各种对象类别的操作次数在所有客户端类别的总操作次数中的出现概率。
在其中一个实施例中,所述加权模块150根据倾向值确定客户端的类别过程中,进一步用于:
比较各种客户端类别的倾向值的大小。
选取倾向值较大的类别作为客户端类别。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种客户端类别识别方法,其特征在于,包括步骤:
获取目标客户端的信息,包括操作的对象类别,与操作的对象相匹配的操作次数和反馈信息中的文字信息;
将所获取的文字信息与检验数据库进行比对,确定反馈信息中所指向的客户端的反馈类别,包括步骤:截取文字信息的部分字段;将所截取的字段与检验数据库中相同的字段进行匹配;获取检验数据库中相同的字段在不同客户端类别中的倾向值;将倾向值较大的客户端类别判定为客户端的反馈类别;
对已知类别的客户端进行抽样,建立关于对象类别、操作次数和反馈类别的训练集,确定对象类别的第一属性权重值,反馈类别的第二属性权重值,不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率;
根据目标客户端的信息中的对象类别、操作次数、反馈类别,以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型;
利用第一属性权重值和第二属性权重值对数学模型进行加权,确定客户端在各种类别中的倾向值,根据倾向值确定客户端的类别。
2.根据权利要求1所述的客户端类别识别方法,其特征在于,所述确定对象类别的第一属性权重值,反馈类别的第二属性权重值,包括步骤:
获取对象的各种类别和对应的次数;
根据各种类别的次数确定对应的对象类别的第一属性权重值、反馈类别的第二属性权重值。
3.根据权利要求1所述的客户端类别识别方法,其特征在于,所述确定不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率,包括步骤:
获取训练集中的对象类别、操作次数和反馈类别;
确定各种客户端类别的操作次数在所有反馈类别的总操作次数中的出现概率;
确定各种对象类别的操作次数在所有客户端类别的总操作次数中的出现概率。
4.根据权利要求1所述的客户端类别识别方法,其特征在于,所述根据倾向值确定客户端的类别,包括步骤:
比较各种客户端类别的倾向值的大小;
选取倾向值较大的类别作为客户端类别。
5.一种客户端类别识别系统,其特征在于,包括:
信息获取模块:用于获取目标客户端的信息,包括操作的对象类别,与操作的对象相匹配的操作次数和反馈信息中的文字信息;
文字比对模块:用于将所获取的文字信息与检验数据库进行比对,确定反馈信息中所指向的客户端的反馈类别;所述文字比对模块进一步用于:截取文字信息的部分字段;将所截取的字段与检验数据库中相同的字段进行匹配;获取检验数据库中相同的字段在不同客户端类别中的倾向值;将倾向值较大的客户端类别判定为客户端的反馈类别;
参数计算模块:用于对已知类别的客户端进行抽样,建立关于对象类别、操作次数和反馈类别的训练集,确定对象类别的第一属性权重值,反馈类别的第二属性权重值,不同反馈类别中各种客户端类别的出现概率,以及不同客户端类别中各种对象类别的出现概率;
建模模块:用于根据目标客户端的信息中的对象类别、操作次数、反馈类别,以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型;
加权模块:用于利用第一属性权重值和第二属性权重值对数学模型进行加权,确定客户端在各种类别中的倾向值,根据倾向值确定客户端的类别。
6.根据权利要求5所述的客户端类别识别系统,其特征在于,所述参数计算模块进一步用于:
获取对象的各种类别和对应的次数;
根据各种类别的次数确定对应的对象类别的第一属性权重值、反馈类别的第二属性权重值。
7.根据权利要求5所述的客户端类别识别系统,其特征在于,所述参数计算模块进一步用于:
获取训练集中的对象类别、操作次数和反馈类别;
确定各种客户端类别的操作次数在所有反馈类别的总操作次数中的出现概率;
确定各种对象类别的操作次数在所有客户端类别的总操作次数中的出现概率。
8.根据权利要求5所述的客户端类别识别系统,其特征在于,所述加权模块进一步用于:
比较各种客户端类别的倾向值的大小;
选取倾向值较大的类别作为客户端类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310461792.8A CN103514288B (zh) | 2013-09-30 | 2013-09-30 | 客户端类别识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310461792.8A CN103514288B (zh) | 2013-09-30 | 2013-09-30 | 客户端类别识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103514288A CN103514288A (zh) | 2014-01-15 |
CN103514288B true CN103514288B (zh) | 2016-08-24 |
Family
ID=49897012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310461792.8A Active CN103514288B (zh) | 2013-09-30 | 2013-09-30 | 客户端类别识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103514288B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787619A (zh) * | 2014-12-25 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置及系统 |
CN107958270B (zh) * | 2017-12-05 | 2020-07-31 | 北京小度信息科技有限公司 | 类别识别方法、装置、电子设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521248A (zh) * | 2011-11-14 | 2012-06-27 | 北京亿赞普网络技术有限公司 | 一种网络用户分类方法及其装置 |
US8229873B1 (en) * | 2009-09-18 | 2012-07-24 | Google Inc. | News topic-interest-based recommendations twiddling |
CN103123634A (zh) * | 2011-11-21 | 2013-05-29 | 北京百度网讯科技有限公司 | 一种版权资源识别方法及装置 |
-
2013
- 2013-09-30 CN CN201310461792.8A patent/CN103514288B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8229873B1 (en) * | 2009-09-18 | 2012-07-24 | Google Inc. | News topic-interest-based recommendations twiddling |
CN102521248A (zh) * | 2011-11-14 | 2012-06-27 | 北京亿赞普网络技术有限公司 | 一种网络用户分类方法及其装置 |
CN103123634A (zh) * | 2011-11-21 | 2013-05-29 | 北京百度网讯科技有限公司 | 一种版权资源识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103514288A (zh) | 2014-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rusticus et al. | Impact of sample size and variability on the power and type I error rates of equivalence tests: A simulation study | |
CN109034194B (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN110991486B (zh) | 多人协作图像标注质量控制的方法和装置 | |
CN101902470B (zh) | 一种基于表单特征的Web安全漏洞动态检测方法 | |
CN104392071B (zh) | 一种基于复杂网络的高速列车系统安全评估方法 | |
CN104461896B (zh) | 基于可信属性的航天系统关键软件评价方法 | |
CN106845579A (zh) | 提高产品质量检验正确性的信息化控制方法及控制系统 | |
WO2024067387A1 (zh) | 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质 | |
CN104133769B (zh) | 基于心理学行为分析的众包欺诈检测方法 | |
CN104462757A (zh) | 基于监测数据的Weibull分布可靠性序贯验证试验方法 | |
CN102930495B (zh) | 一种基于隐写测评的隐写分析方法 | |
CN105512454A (zh) | 基于功能核磁共振的抑郁症患者自杀风险客观评估模型 | |
US20090055245A1 (en) | Survey fraud detection system and method | |
CN110502277A (zh) | 一种基于bp神经网络的代码坏味检测方法 | |
Rapp et al. | A comparison of reliability measures for continuous and discontinuous recording methods: Inflated agreement scores with partial interval recording and momentary time sampling for duration events | |
CN110020637A (zh) | 一种基于多粒度级联森林的模拟电路间歇故障诊断方法 | |
CN115033591B (zh) | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 | |
CN104898039B (zh) | 基于故障传播概率模型的故障模式优选方法 | |
CN103514288B (zh) | 客户端类别识别方法和系统 | |
CN105708451A (zh) | 一种脑电信号质量实时判定方法 | |
CN106611530A (zh) | 一种信息处理方法及系统 | |
CN105824785A (zh) | 基于惩罚回归的快速异常点检测方法 | |
CN111221915B (zh) | 基于CWK-means的在线学习资源质量分析方法 | |
CN106295957A (zh) | 职业胜任力模型系统及分析方法 | |
CN105677854A (zh) | 基于粗糙集的学生单科成绩决策分析方法及分析器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |