CN106095798A

CN106095798A - 一种基于特征数据库的性别特征的识别方法、系统及终端

Info

Publication number: CN106095798A
Application number: CN201610373490.9A
Authority: CN
Inventors: 曹杰; 冯雨晖; 宿晓坤; 李学超
Original assignee: BEIJING HONGMA MEDIA CULTURE DEVELOPMENT CO LTD
Current assignee: BEIJING HONGMA MEDIA CULTURE DEVELOPMENT CO LTD
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2016-11-09

Abstract

本发明提供一种基于特征数据库的性别特征的识别方法、系统及终端。该方法包括：抽取特征数据库的基础特征信息；构建基于所述基础特征信息的N‑gram模型和决策树模型；获取采用投票机制且分别应用所述N‑gram模型和决策树模型识别出的性别判断结果和准确率；输出准确率高的性别判断结果。本发明提供的一种基于特征数据库的性别特征的识别方法、系统及终端，构建了N‑gram模型和决策树模型两种模型并行方案对电商领域的用户性别进行识别，提高了性别识别的准确性。

Description

一种基于特征数据库的性别特征的识别方法、系统及终端

技术领域

本发明涉及电子商务领域，尤其涉及一种基于特征数据库的性别特征的识别方法、系统及终端。

背景技术

电子商务是利用微电脑技术和网络技术进行的商务活动，通常是指在全球各地广泛的商业贸易活动中，在因特网开放的网络环境下，基于浏览器/服务器应用方式，买卖双方不谋面地进行各种商贸活动，实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。各国政府、学者、企业界人士根据自己所处的地位和对电子商务参与的角度和程度的不同，给出了许多不同的定义。电子商务分为：ABC、B2B、B2C、C2C、B2M、M2C、B2A(即B2G)、C2A(即C2G)、O2O电子商务模式等等。电子商务的形成与交易离不开以下三方面的关系：交易平台、平台经营者和站内经营者。

网购的普及使得电子商务整体市场保持高速增长，目前电子商务领域的用户群体数量庞大，在电商或者社交等以用户为基础的相关行业中，往往需要了解用户的真实性别，以对其进行分类，方便研究其行为特征及偏好。

发明人在研究的过程中发现，网络作为一个虚拟世界，用户在畅游时，本身都有一种警惕性，从而隐藏自己部分真实身份，无法通过消费特征、行为特征等有效区分用户群体的性别特征。

发明内容

本发明的主要目的在于提供一种基于特征数据库的性别特征的识别方法、系统及终端，以克服现有的电子商务领域的性别特征识别难的技术问题。

本发明一方面提供了一种基于特征数据库的性别特征的识别方法，包括：

抽取特征数据库的基础特征信息；

构建基于所述基础特征信息的N-gram模型和决策树模型；

获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率；

输出准确率高的性别判断结果。

进一步的，所述特征信息库，包括但不限于：注册信息、访问日志数据和/或订单信息。

更进一步的，所述基础特征信息包括但不限于：

注册信息中的用户名信息、归属地域信息和/或性别中的一种或多种；

访问日志中的访问时间、访问渠道、访问IP归属地域和/或访问产品分类信息中的一种或多种；

订单信息中的下单时间、下单渠道、下单时IP归属地域、下单产品分类、下单电话归属商和/或付款方式中的一种或多种。

进一步的，构建基于所述基础特征信息的N-gram模型，包括：

基于所述基础特征信息中顺序接收的输入信息，应用如下公式构建基于所述基础特征信息的N-gram模型：

P(T)＝P(W1W2W3Wn)＝P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)；

其中，P(T)为准确率，T为性别，W为基础特征信息中接收的输入信息，W1为基础特征信息中第一个接收的输入信息，W2为基础特征信息中第二个接收的输入信息，W3为基础特征信息中第三个接收的输入信息，Wn为基础特征信息中第n个接收的输入信息，Wn-1为基础特征信息中第n-1个接收的输入信息。

进一步的，构建基于所述基础特征信息的决策树模型，包括：

提取所述基础特征信息中的特征变量作为训练集数据，所述特征变量包括离散变量和连续变量；

将所述训练集数据的特征变量输入至决策树模型中，决策树基于信息增益率进行变量选择和分割点选择之后，输出规则集。

进一步的，所述决策树基于信息增益率进行变量选择，包括：

所述决策树基于信息增益率进行最佳分类特征属性的选择。

进一步的，所述获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率，包括：

获取基础特征信息的原始数据；

基于所述原始数据，提取所述原始数据的原始变量特征和衍生变量特征；

分别应用N-gram模型和决策树模型识别所述原始变量特征和衍生变量特征，获得N-gram模型对基础特征信息的N-gram预测结果sex1，和N-gram准确率per1；决策树模型对基础特征信息的决策树预测结果sex2，和决策树准确率per2。

进一步的，所述输出准确率高的性别判断结果，包括：

判断N-gram模型对基础特征信息的N-gram准确率per1大于决策树模型对基础特征信息的决策树准确率per2，则N-gram模型对基础特征信息的N-gram预测结果sex1作为对基础特征信息的预测结果进行输出；或

判断N-gram模型对基础特征信息的N-gram准确率per1小于决策树模型对基础特征信息的决策树准确率per2，则决策树模型对基础特征信息的决策树预测结果sex2作为对基础特征信息的预测结果进行输出；或

判断N-gram模型对基础特征信息的N-gram准确率per1等于决策树模型对基础特征信息的决策树准确率per2，则决策树模型或N-gram模型对基础特征信息的决策树预测结果作为对基础特征信息的预测结果进行输出。

本发明另一方面还提供了一种基于特征数据库的性别特征的识别系统，该系统包括：

抽取单元，用于抽取特征数据库的基础特征信息；

构建单元，用于构建基于所述基础特征信息的N-gram模型和决策树模型；

获取单元，用于获取采用投票机制且分别应用所述N-gram模型和决策树模型识别的性别判断结果和准确率；

输出单元，用于准确率高的性别判断结果。

进一步的，所述构建单元，包括：

第一构建子单元，用于基于所述基础特征信息中顺序接收的输入信息，应用如下公式构建基于所述基础特征信息的N-gram模型：

P(T)＝P(W1W2W3Wn)＝P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)；

其中，P(T)为准确率，T为性别，W为基础特征信息中接收的输入信息，W1为基础特征信息中第一个接收的输入信息，W2为基础特征信息中第二个接收的输入信息，W3为基础特征信息中第三个接收的输入信息，Wn为基础特征信息中第n个接收的输入信息，Wn-1为基础特征信息中第n-1个接收的输入信息；

第二构建子单元，用于提取所述基础特征信息中的特征变量作为训练集数据，所述特征变量包括离散变量和连续变量；将所述训练集数据的特征变量输入至决策树模型中，决策树基于信息增益率进行变量选择和分割点选择之后，输出规则集。

进一步的，所述第二构建子单元，包括：

选择单元，用于基于信息增益率进行最佳分类特征属性的选择。

进一步的，所述获取单元，包括：

第一获取子单元，用于获取基础特征信息的原始数据；

提取单元，用于基于所述原始数据，提取所述原始数据的原始变量特征和衍生变量特征；

第二获取子单元，用于分别应用N-gram模型和决策树模型识别所述原始变量特征和衍生变量特征，获得N-gram模型对基础特征信息的N-gram预测结果sex1，和N-gram准确率per1；决策树模型对基础特征信息的决策树预测结果sex2，和决策树准确率per2。

进一步的，所述输出单元，包括

第一输出单元，用于判断N-gram模型对基础特征信息的N-gram准确率per1大于决策树模型对基础特征信息的决策树准确率per2，则N-gram模型对基础特征信息的N-gram预测结果sex1作为对基础特征信息的预测结果进行输出；或

第二输出单元，用于判断N-gram模型对基础特征信息的N-gram准确率per1小于决策树模型对基础特征信息的决策树准确率per2，则决策树模型对基础特征信息的决策树预测结果sex2作为对基础特征信息的预测结果进行输出；或

第三输出单元，用于判断N-gram模型对基础特征信息的N-gram准确率per1等于决策树模型对基础特征信息的决策树准确率per2，则决策树模型或N-gram模型对基础特征信息的决策树预测结果作为对基础特征信息的预测结果进行输出。

本发明另一方面还提供了一种基于特征数据库的性别特征的识别终端，包括所述的系统。

本发明通过抽取特征数据库的基础特征信息；构建基于所述基础特征信息的N-gram模型和决策树模型；获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率；输出准确率高的性别判断结果，构建了N-gram模型和决策树模型两种模型并行方案对电商领域的用户性别进行识别，提高了性别识别的准确性。

附图说明

图1为根据本发明的及一种基于特征数据库的性别特征的识别方法的实施例一的流程图；

图2为根据本发明的及一种基于特征数据库的性别特征的识别系统的实施例二的结构框图之一。

具体实施方式

下面结合附图对本发明实施例提供的一种特定群体的识别方法、系统及终端进行详细描述。

实施例一

如图1所示，本发明一方面提供了一种基于特征数据库的性别特征的识别方法，包括：

在步骤S110中，抽取特征数据库的基础特征信息。

其中，所述特征信息库，包括但不限于：注册信息、访问日志数据和/或订单信息。所述基础特征信息包括但不限于：注册信息中的用户名信息、归属地域信息和/或性别中的一种或多种；访问日志中的访问时间、访问渠道、访问IP归属地域和/或访问产品分类信息中的一种或多种；订单信息中的下单时间、下单渠道、下单时IP归属地域、下单产品分类、下单电话归属商和/或付款方式中的一种或多种。不同行业可以有不同的提取特征。

一个应用实例，提取注册信息的基础信息特征：如，注册用户名最后一个字(若为英文，则记为空)；注册时填写的归属地域(省级)；注册时填写的性别(无法判断真假)。

另一个应用实例，提取访问日志数据的基础信息特征：如，访问时间(上午、中午、下午、晚上、凌晨)；访问渠道(PC端、IOS、安卓、M站)；访问时IP归属地域(北京、上海、广州等城市)；访问产品分类(如演出行业的演唱会、话剧歌剧、曲艺相声等)。

另一个应用实例，提取订单信息的基础信息特征：如，下单时间(上午、中午、下午、晚上、凌晨)；下单渠道(PC端、IOS、安卓、M站)；下单时IP归属地域(北京、上海、广州等城市)；下单产品分类(如演出行业的演唱会、话剧歌剧、曲艺相声等)；下单电话归属商(移动、联通、电信)；付款方式(网上银行、微信支付、支付宝支付等)。

在步骤S120中，构建基于所述基础特征信息的N-gram模型和决策树模型。

所述基础特征信息的N-gram模型和决策树模型为并行建立，基于特征数据库，应用N-gram模型，进行建模；基于访问特征、订单信息，应用决策树模型，进行建模；其中，N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，又称之为汉语语言模型。该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

构建基于所述基础特征信息的N-gram模型的优选实施例中，考虑注册时输入信息的有序性，将每次输入(or选择)的信息假想为第n个词，因此，第n次输入的结果只与前面N-1次输入相关，整个注册信息填完的概率就是各个信息填写概率的乘积。构建基于所述基础特征信息的N-gram模型，包括：

P(T)＝P(W1W2W3Wn)＝P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)；

其中，P(T)为准确率，T为性别，W为基础特征信息中接收的输入信息，W1为基础特征信息中第一个接收的输入信息，W2为基础特征信息中第二个接收的输入信息，W3为基础特征信息中第三个接收的输入信息，Wn为基础特征信息中第n个接收的输入信息，Wn-1为基础特征信息中第n-1个接收的输入信息，每个序列及性别的出现概率，即为一个N-Gram规则。

一个应用实施例，W1为用户名最后一个字，如“花”，W2为用户选择的出生年份，如“1900年”，W3为用户选择的地域，如“海外”，T为用户的真实性别，如“男”。

则：P(T)＝P(W1)P(W2|W1)P(W3|W1W2)

＝P(“花”)P(“1900年”|“花”)P(W3|“1900年”*“花”)

＝0.15*0.2*0.3＝0.009

其中,上述数字为示例数字，具体来源如下：

0.15：所有训练集用户中最后一个字为“花”的用户名数量占比；

0.2：所有最后一个字为“花”的训练集用户中，注册出生年龄为1900年的用户占所有最后一个字为“花”的训练集用户比重；

0.3：所有训练集用户中注册年龄为1900年且最后一个字为“花”的用户中，选择地域为“海外”的用户数。

即：注册时依次填写的信息中，W1、W2、W3的特征为“花”、“1900年”、“海外”时，用户为男的概率为0.009，即：该序列的概率为0.009。

其中，构建基于所述基础特征信息的决策树模型，包括：提取所述基础特征信息中的特征变量作为训练集数据，所述特征变量包括离散变量和连续变量；将所述训练集数据的特征变量输入至决策树模型中，决策树基于信息增益率进行变量选择和分割点选择之后，输出规则集。所述决策树基于信息增益率进行变量选择，包括：所述决策树基于信息增益率进行最佳分类特征属性的选择。

其中，决策树模型在系统固化中可以直接调用相关的算法包进行训练，只要调整好相关参数，满足实际要求即可。

优选实施例，构建基于所述基础特征信息的决策树模型包括：

提取所述基础特征信息中的特征变量作为训练集数据，特征变量包括：访问特征：最近一次访问时间(离散变量)；常用访问渠道(离散变量)；访问时常用IP归属地域(离散变量)；访问产品分类(离散变量)；近一年访问频次(连续变量)。订单信息：最近一次下单时间(离散变量)；常用下单渠道(离散变量)；下单时常用IP归属地域(离散变量)；下单产品分类(离散变量)；下单常用电话归属商(离散变量)；常用付款方式(离散变量)。

将训练集数据(百万级)的上述特征变量输入到决策树模型中，决策树基于信息增益率进行变量选择(即最佳分类特征属性的选择)和分割点选择。

利用基础特征信息如注册信息、访问行为、下单行为等行为特征，构建基于所述基础特征信息的N-gram模型和决策树模型，预测用户的性别，精准的构建用户画像，为营销等场景打下坚实的数据基础。

在步骤S130中，获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率。

其中，包括：获取基础特征信息的原始数据；基于所述原始数据，提取所述原始数据的原始变量特征和衍生变量特征；分别应用N-gram模型和决策树模型识别所述原始变量特征和衍生变量特征，获得N-gram模型对基础特征信息的N-gram预测结果sex1，和N-gram准确率per1；决策树模型对基础特征信息的决策树预测结果sex2，和决策树准确率per2。

其中，原始变量特征指的是原始数据中就包含的变量，如用户访问时间；

衍生变量特征指的是对原始数据进行加工后得到的特征变量，如用户访问偏好类型(夜猫子型、上班型、下班型等)，这种是对原始数据进行基于业务的非常规定义后得出的，在原始数据中并不是直接包含的特征变量。

在步骤S140中，输出准确率高的性别判断结果。

包括：判断N-gram模型对基础特征信息的N-gram准确率per1大于决策树模型对基础特征信息的决策树准确率per2，则N-gram模型对基础特征信息的N-gram预测结果sex1作为对基础特征信息的预测结果进行输出；或

实施例二

如图2所示，本发明实施例另一方面还提供了一种基于特征数据库的性别特征的识别系统，该系统包括：

抽取单元21，用于抽取特征数据库的基础特征信息。

构建单元22，用于构建基于所述基础特征信息的N-gram模型和决策树模型。

其中，所述基础特征信息的N-gram模型和决策树模型为并行建立，所述构建单元22，包括：

第一构建子单元221，用于基于所述基础特征信息中顺序接收的输入信息，应用如下公式构建基于所述基础特征信息的N-gram模型：

P(T)＝P(W1W2W3Wn)＝P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)；其中，P(T)为准确率，T为性别，W为基础特征信息中接收的输入信息，W1为基础特征信息中第一个接收的输入信息，W2为基础特征信息中第二个接收的输入信息，W3为基础特征信息中第三个接收的输入信息，Wn为基础特征信息中第n个接收的输入信息，Wn-1为基础特征信息中第n-1个接收的输入信息。

N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，又称之为汉语语言模型。该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。

构建基于所述基础特征信息的N-gram模型的优选实施例中，考虑注册时输入信息的有序性，将每次输入(or选择)的信息假想为第n个词，因此，第n次输入的结果只与前面N-1次输入相关，整个注册信息填完的概率就是各个信息填写概率的乘积。

则：P(T)＝P(W1)P(W2|W1)P(W3|W1W2)

＝P(“花”)P(“1900年”|“花”)P(W3|“1900年”*“花”)

＝0.15*0.2*0.3＝0.009

其中,上述数字为示例数字，具体来源如下：

第二构建子单元222，用于提取所述基础特征信息中的特征变量作为训练集数据，所述特征变量包括离散变量和连续变量；将所述训练集数据的特征变量输入至决策树模型中，决策树基于信息增益率进行变量选择和分割点选择之后，输出规则集。进一步的，所述第二构建子单元，包括：选择单元，用于基于信息增益率进行最佳分类特征属性的选择。

获取单元23，用于获取采用投票机制且分别应用所述N-gram模型和决策树模型识别的性别判断结果和准确率。

所述获取单元23，包括：第一获取子单元231，用于获取基础特征信息的原始数据。

提取单元232，用于基于所述原始数据，提取所述原始数据的原始变量特征和衍生变量特征。

第二获取子单元233，用于分别应用N-gram模型和决策树模型识别所述原始变量特征和衍生变量特征，获得N-gram模型对基础特征信息的N-gram预测结果sex1，和N-gram准确率per1；决策树模型对基础特征信息的决策树预测结果sex2，和决策树准确率per2。

输出单元24，用于准确率高的性别判断结果。

所述输出单元，包括：第一输出单元241，用于判断N-gram模型对基础特征信息的N-gram准确率per1大于决策树模型对基础特征信息的决策树准确率per2，则N-gram模型对基础特征信息的N-gram预测结果sex1作为对基础特征信息的预测结果进行输出；或

第二输出单元242，用于判断N-gram模型对基础特征信息的N-gram准确率per1小于决策树模型对基础特征信息的决策树准确率per2，则决策树模型对基础特征信息的决策树预测结果sex2作为对基础特征信息的预测结果进行输出；或

第三输出单元243，用于判断N-gram模型对基础特征信息的N-gram准确率per1等于决策树模型对基础特征信息的决策树准确率per2，则决策树模型或N-gram模型对基础特征信息的决策树预测结果作为对基础特征信息的预测结果进行输出。

本发明通过抽取单元抽取特征数据库的基础特征信息；并通过构建单元构建基于所述基础特征信息的N-gram模型和决策树模型；通过获取单元获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率；最后通过输出单元输出准确率高的性别判断结果，构建了N-gram模型和决策树模型两种模型并行方案对电商领域的用户性别进行识别，提高了性别识别的准确性。

实施例三

本发明另一方面还提供了一种基于特征数据库的性别特征的识别终端，包括实施例二所述的系统。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于特征数据库的性别特征的识别方法，其特征在于，包括：

抽取特征数据库的基础特征信息；

构建基于所述基础特征信息的N-gram模型和决策树模型；

输出准确率高的性别判断结果。

2.如权利要求1所述的方法，其特征在于，所述特征信息库，包括但不限于：注册信息、访问日志数据和/或订单信息。

3.如权利要求1或2所述的方法，其特征在于，所述基础特征信息包括但不限于：

4.如权利要求1-3之一所述的方法，其特征在于，构建基于所述基础特征信息的N-gram模型，包括：

P(T)＝P(W1W2W3Wn)＝P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)；

5.如权利要求1-4之一所述的方法，其特征在于，构建基于所述基础特征信息的决策树模型，包括：

6.如权利要求5所述的方法，其特征在于，所述决策树基于信息增益率进行变量选择，包括：

所述决策树基于信息增益率进行最佳分类特征属性的选择。

7.如权利要求1-6之一所述的方法，其特征在于，所述获取采用投票机制且分别应用所述N-gram模型和决策树模型识别出的性别判断结果和准确率，包括：

获取基础特征信息的原始数据；

8.如权利要求1-7所述的方法，其特征在于，所述输出准确率高的性别判断结果，包括：

9.一种基于特征数据库的性别特征的识别系统，其特征在于，该系统包括：

抽取单元，用于抽取特征数据库的基础特征信息；

输出单元，用于准确率高的性别判断结果。

10.如权利要求9所述的系统，其特征在于，所述构建单元，包括：

P(T)＝P(W1W2W3Wn)＝P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)；

11.如权利要求10所述的系统，其特征在于，所述第二构建子单元，包括：

12.如权利要求9-11之一所述的系统，其特征在于，所述获取单元，包括：

第一获取子单元，用于获取基础特征信息的原始数据；

13.如权利要求9-12之一所述的系统，其特征在于，所述输出单元，包括

14.一种基于特征数据库的性别特征的识别终端，包括如权利要求9-13任一项所述的系统。