CN103514288B

CN103514288B - 客户端类别识别方法和系统

Info

Publication number: CN103514288B
Application number: CN201310461792.8A
Authority: CN
Inventors: 郑梓力
Original assignee: Guangzhou Pinwei Software Co Ltd
Current assignee: Guangzhou Pinwei Software Co Ltd
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2016-08-24
Anticipated expiration: 2033-09-30
Also published as: CN103514288A

Abstract

一种客户端类别识别方法，包括步骤：获取目标客户端的信息；与检验数据库进行比对，确定反馈类别；对已知类别的客户端进行抽样，建立训练集，确定对象类别的第一属性权重值和反馈类别的第二属性权重值，不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率；构建数学模型；对数学模型进行加权，确定客户端的类别。本发明还提供了一种客户端类别识别系统。操作过程中避免人为主观的筛选和评价，客观地对客户端类别进行识别，同时引入反馈信息对客户端类别体现的作用，更加全面，提高了客户端类别识别的准确性。

Description

客户端类别识别方法和系统

技术领域

本发明涉及互联网技术领域，特别是涉及一种客户端类别识别方法和系统。

背景技术

在网站运营的时候，需要对客户端的类别进行分类管理，以便制定有效的运营策略。一般的网站运营者会通过引导客户端注册的方式收集资料。出于个人隐私保护，大部分客户端的资料都是不真实和不齐全的。因此，需要通过其他的方式收集客户端的资料并识别出客户端类别。

传统的客户端类别识别方法为，搜集客户端操作的对象的类别和次数，构建数学模型，得出客户端在不同类别的倾向值，从而判断客户端的类别。这种方法虽然能通过客户端的操作的对象客观地判断客户端的类别，但是在具体操作的时候需要根据操作的对象进行主观上的评价和筛选，导致其准确性低。

发明内容

基于此，有必要针对现有技术准确性低的问题，提供一种客户端类别识别方法和系统。

一种客户端类别识别方法，包括步骤：

获取目标客户端的信息，包括操作的对象类别，与操作的对象相匹配的操作次数和反馈信息中的文字信息；

将所获取的文字信息与检验数据库进行比对，确定反馈信息中所指向的客户端的反馈类别；

对已知类别的客户端进行抽样，建立关于对象类别、操作次数和反馈类别的训练集，确定对象类别的第一属性权重值，反馈类别的第二属性权重值，不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率；

根据目标客户端的信息中的对象类别、操作次数、反馈类别，以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型；

然后利用第一属性权重值和第二属性权重值对数学模型进行加权，确定客户端在各种类别中的倾向值，根据倾向值确定客户端的类别。

一种客户端类别识别系统，包括：

信息获取模块：获取目标客户端的信息，包括操作的对象类别，与操作的对象相匹配的操作次数和反馈信息中的文字信息；

文字比对模块：将所获取的文字信息与检验数据库进行比对，确定反馈信息中所指向的客户端的反馈类别；

参数计算模块：对已知类别的客户端进行抽样，建立关于对象类别、操作次数和反馈类别的训练集，确定对象类别的第一属性权重值，反馈类别的第二属性权重值，不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率；

建模模块：根据目标客户端的信息中的对象类别、操作次数、反馈类别，以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型；

加权模块：利用第一属性权重值和第二属性权重值对数学模型进行加权，确定客户端在各种类别中的倾向值，根据倾向值确定客户端的类别。

本发明的有益效果：

对已知类别的客户端进行抽样，建立训练集，确认客观反映操作的对象类别与客户端类别的关联性的第一属性权重值，以及反馈类别与客户端类别的关联性的第二属性权重值。以目标客户端操作对象的类别及操作次数作为主要特征建立数学模型，然后利用第一属性权重值和第二属性权重值对数学模型进行加权。操作过程中避免人为主观的筛选和评价，客观地对客户端类别进行识别，同时引入反馈信息对客户端类别体现的作用，更加全面，提高了客户端类别识别的准确性。

附图说明

图1为本发明一个实施例的客户端类别识别方法的流程示意图；

图2为本发明一个实施例中确定反馈类别的流程示意图；

图3为本发明一个实施例的客户端类别识别系统的结构示意图。

具体实施方式

下面结合附图对本发明的实施例做详细的说明。

首先是对本发明的一种客户端类别识别方法的介绍：

参考图1，一种客户端类别识别方法，包括步骤：

S110：获取目标客户端的信息，包括操作的对象类别，与操作的对象相匹配的操作次数和反馈信息中的文字信息。针对目标客户端进行信息采集，包括目标客户端操作的对象类别、操作次数，以及目标客户端在操作完成后反馈回来的文字信息。

S120：将所获取的文字信息与检验数据库进行比对，确定反馈信息中所指向的客户端的反馈类别。目标客户端所反馈回来的信息会在一定程度上反映了客户端类别。将采集到的目标客户端的反馈信息中的文字信息与检验数据库进行一一比对，就可以得到目标客户端在不同类别中的倾向值，借此确定目标客户端的反馈类别。

S130：对已知类别的客户端进行抽样，建立关于对象类别、操作次数和反馈类别的训练集，确定对象类别的第一属性权重值，反馈类别的第二属性权重值，不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率。对已知类别的客户端进行抽样，在数据分析的基础上确定体现对象类别与客户端类别之间关联性的第一属性权重值，体现反馈类别与客户端类别之间关联性的第二属性权重值，另外还有一些在后续数学建模用到的参数值，包括不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率。

S140：根据目标客户端的信息中的对象类别、操作次数、反馈类别，以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型，如朴素贝叶斯数学模型。

S150：利用第一属性权重值和第二属性权重值对数学模型进行加权，确定客户端在各种类别中的倾向值，根据倾向值确定客户端的类别。

上述客户端类别识别方法，对已知类别的客户端进行抽样，建立训练集，确认客观反映操作的对象类别与客户端类别的关联性的第一属性权重值，以及反馈类别与客户端类别的关联性的第二属性权重值。以目标客户端操作对象的类别及操作次数作为主要特征建立数学模型，然后利用第一属性权重值和第二属性权重值对数学模型进行加权。操作过程中避免人为主观的筛选和评价，客观地对客户端类别进行识别，同时引入反馈信息对客户端类别体现的作用，考虑更加全面，提高了客户端类别识别的准确性。

参考图2，在其中一个实施例中，在S120中，将所获取的文字信息与检验数据库进行比对，确定反馈信息中所指向的客户端的反馈类别，包括步骤：

S121：截取文字信息的部分字段。

S122：将所截取的字段与检验数据库中相同的字段进行匹配。

S123：获取检验数据库中相同的字段在不同客户端类别中的倾向值。

S124：将倾向值较大的客户端类别判定为客户端的反馈类别。

通过与检验数据库中相同字段的匹配，快速找出反馈信息中指向的反馈类别。

在其中一个实施例中，在S130中，所述确定对象类别的第一属性权重值，反馈类别的第二属性权重值，包括步骤：

获取对象的各种类别和对应的次数。

根据各种类别的次数确定对应的对象类别的第一属性权重值、反馈类别的第二属性权重值。

为了方便理解，假设客户端类型包括类型f和类型m，则：

第一属性权重值的具体计算方法为：

chi (ct) = \frac{{(m_{1} \times f_{0} - f_{1} \times m_{0})}^{2}}{(m_{1} + f_{1}) \times (m_{0} + f_{0}) \times (m_{1} + m_{0}) \times (f_{1} + f_{0})},

其中chi(ct)为对象类别的第一属性权重值，f₁为操作过对象类别ct的f类客户端的数量，m₁为操作过对象类别ct的m类客户端的数量，f₀为没有没有操作过对象类别ct的f类客户端的数量，m₀为没有操作过品类ct的m类客户端的数量。

第二属性权重值的具体计算方法为：

chi (b) = \frac{{(m_{b 1} \times f_{b 0} - f_{b 1} \times m_{b 0})}^{2}}{(m_{b 1} + f_{b 1}) \times (m_{b 0} + f_{b 0}) \times (m_{b 1} + m_{b 0}) \times (f_{b 1} + f_{b 0})},

其中chi(b)为反馈类别的第二属性权重值，f_b1为反馈类别为m类的f类客户端的数量，m_b1为反馈类别为m类的m类客户端的数量，f_b0为反馈类别为f类的f类客户端的数量，m_b0为反馈类别为f类的m类客户端的数量。

在其中一个实施例中，在S130中，所述确定不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率，包括步骤：

获取训练集中的对象类别、操作次数和反馈类别。

确定各种客户端类别的操作次数在所有反馈类别的总操作次数中的出现概率。

确定各种对象类别的操作次数在所有客户端类别的总操作次数中的出现概率。

在其中一个实施例中，在S150中，所述根据倾向值确定客户端的类别，包括步骤：

比较各种客户端类别的倾向值的大小。

选取倾向值较大的类别作为客户端类别。

接着是对本发明的一种客户端类别识别系统的介绍：

参考图3，一种客户端类别识别系统，包括：

信息获取模块110：用于获取目标客户端的信息，包括操作的对象类别，与操作的对象相匹配的操作次数和反馈信息中的文字信息。

文字比对模块120：用于将所获取的文字信息与检验数据库进行比对，确定反馈信息中所指向的客户端的反馈类别。

参数计算模块130：用于对已知类别的客户端进行抽样，建立关于对象类别、操作次数和反馈类别的训练集，确定对象类别的第一属性权重值，反馈类别的第二属性权重值，不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率。

建模模块140：用于根据目标客户端的信息中的对象类别、操作次数、反馈类别，以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型。

加权模块150：用于利用第一属性权重值和第二属性权重值对数学模型进行加权，确定客户端在各种类别中的倾向值，根据倾向值确定客户端的类别。

上述客户端类别识别系统，对已知类别的客户端进行抽样，建立训练集，确认客观反映操作的对象类别与客户端类别的关联性的第一属性权重值，以及反馈类别与客户端类别的关联性的第二属性权重值。以目标客户端操作对象的类别及操作次数作为主要特征建立数学模型，然后利用第一属性权重值和第二属性权重值对数学模型进行加权。操作过程中避免人为主观的筛选和评价，客观地对客户端类别进行识别，同时引入反馈信息对客户端类别体现的作用，考虑更加全面，提高了客户端类别识别的准确性。

在其中一个实施例中，所述文字比对模块120的运算过程中，进一步用于：

截取文字信息的部分字段。

将所截取的字段与检验数据库中相同的字段进行匹配。

获取检验数据库中相同的字段在不同客户端类别中的倾向值。

将倾向值较大的客户端类别判定为客户端的反馈类别。

在其中一个实施例中，所述参数计算模块130确定对象类别的第一属性权重值，反馈类别的第二属性权重值过程中，进一步用于：

获取对象的各种类别和对应的次数。

在其中一个实施例中，所述参数计算模块130确定不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率，包括步骤：

获取训练集中的对象类别、操作次数和反馈类别。

在其中一个实施例中，所述加权模块150根据倾向值确定客户端的类别过程中，进一步用于：

比较各种客户端类别的倾向值的大小。

选取倾向值较大的类别作为客户端类别。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种客户端类别识别方法，其特征在于，包括步骤：

将所获取的文字信息与检验数据库进行比对，确定反馈信息中所指向的客户端的反馈类别，包括步骤：截取文字信息的部分字段；将所截取的字段与检验数据库中相同的字段进行匹配；获取检验数据库中相同的字段在不同客户端类别中的倾向值；将倾向值较大的客户端类别判定为客户端的反馈类别；

利用第一属性权重值和第二属性权重值对数学模型进行加权，确定客户端在各种类别中的倾向值，根据倾向值确定客户端的类别。

2.根据权利要求1所述的客户端类别识别方法，其特征在于，所述确定对象类别的第一属性权重值，反馈类别的第二属性权重值，包括步骤：

获取对象的各种类别和对应的次数；

3.根据权利要求1所述的客户端类别识别方法，其特征在于，所述确定不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率，包括步骤：

获取训练集中的对象类别、操作次数和反馈类别；

确定各种客户端类别的操作次数在所有反馈类别的总操作次数中的出现概率；

4.根据权利要求1所述的客户端类别识别方法，其特征在于，所述根据倾向值确定客户端的类别，包括步骤：

比较各种客户端类别的倾向值的大小；

选取倾向值较大的类别作为客户端类别。

5.一种客户端类别识别系统，其特征在于，包括：

信息获取模块：用于获取目标客户端的信息，包括操作的对象类别，与操作的对象相匹配的操作次数和反馈信息中的文字信息；

文字比对模块：用于将所获取的文字信息与检验数据库进行比对，确定反馈信息中所指向的客户端的反馈类别；所述文字比对模块进一步用于：截取文字信息的部分字段；将所截取的字段与检验数据库中相同的字段进行匹配；获取检验数据库中相同的字段在不同客户端类别中的倾向值；将倾向值较大的客户端类别判定为客户端的反馈类别；

参数计算模块：用于对已知类别的客户端进行抽样，建立关于对象类别、操作次数和反馈类别的训练集，确定对象类别的第一属性权重值，反馈类别的第二属性权重值，不同反馈类别中各种客户端类别的出现概率，以及不同客户端类别中各种对象类别的出现概率；

建模模块：用于根据目标客户端的信息中的对象类别、操作次数、反馈类别，以及从训练集中确定的不同反馈类别中各种客户端类别的出现概率和不同客户端类别中各种对象类别的出现概率构建数学模型；

加权模块：用于利用第一属性权重值和第二属性权重值对数学模型进行加权，确定客户端在各种类别中的倾向值，根据倾向值确定客户端的类别。

6.根据权利要求5所述的客户端类别识别系统，其特征在于，所述参数计算模块进一步用于：

获取对象的各种类别和对应的次数；

7.根据权利要求5所述的客户端类别识别系统，其特征在于，所述参数计算模块进一步用于：

获取训练集中的对象类别、操作次数和反馈类别；

8.根据权利要求5所述的客户端类别识别系统，其特征在于，所述加权模块进一步用于：

比较各种客户端类别的倾向值的大小；

选取倾向值较大的类别作为客户端类别。