CN109933648A

CN109933648A - 一种真实用户评论的区分方法和区分装置

Info

Publication number: CN109933648A
Application number: CN201910149762.0A
Authority: CN
Inventors: 吴明平; 黄楷; 梁新敏; 吴明辉
Original assignee: BEIJING XUEZHITU NETWORK TECHNOLOGY Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-06-25
Anticipated expiration: 2039-02-28
Also published as: CN109933648B

Abstract

本发明提供了一种真实用户评论的区分方法和区分装置，解决通过评论数据无法有效获得真实用户评论排除虚假用户的技术问题。方法包括：对行业文本的文本特征进行比较，根据比较相似度确定新分类类别；根据新分类类别调整初始分类规则形成更新分类规则，利用更新分类规则进行行业文本分类。利用初始分类规则对行业文本进行分类形成对真实用户评论的最基本分类。基于文本相似特征形成新的分类规则，进一步准确用户分类，使得行业文本信息中真实用户评论与非正常用户评论得以区别，可更加精确的识别到各种数据类别。同时在随着不断地从规则到新文本特征信息，再从新文本特征信息到规则的迭代，使得规则和真实用户观点信息均在不断地完善和增长。

Description

一种真实用户评论的区分方法和区分装置

技术领域

本发明涉及语义识别技术领域，具体涉及一种真实用户评论的区分方法和区分装置。

背景技术

用户在互联网各平台发表的评论、原创博文等文本信息，反映了用户对于某个事件的持有态度或者某个品牌产品的评价，这些信息可用于发掘用户的兴趣特征和行为模式，进行更加精确的舆情分析，从而实现个性化的精准营销。从文本中进行真实用户评论信息的抽取是实现上述技术目的关键。

目前，对于挖掘真实用户文本的方法一类是以文本内容分析为主，但是忽略了规模数据量化处理和反馈结果的客观性与准确性，误差较大，人工成本较高。另一类则是从用户个人信息出发，判断此用户是否是真实用户，但是存在较大的误判风险与局限，首先用户类别的识别存在一定的误差率，其次，同一个用户在某些平台中发布的文本类型也是不唯一的，而且此种方法无法分辨出非真实用户评论的文本存在哪些类别，使得进一步挖掘全量文本数据的文本特征比较困难。现有技术利用部分文本的文本特征进行类别人工聚类可以获得相对稳定的文本分类，并通过适配分类规则对大规模文本进行自动匹配分类。但这种分类方法对全量文本数据中的潜在分类缺少必要的识别手段。

发明内容

鉴于上述问题，本发明实施例提供一种真实用户评论的区分方法和区分装置，解决通过评论数据无法有效获得真实用户评论排除虚假用户的技术问题。

本发明实施例的真实用户评论的区分方法，包括：

对行业文本的文本特征进行比较，根据所述比较相似度确定新分类类别；

根据所述新分类类别调整初始分类规则形成更新分类规则，利用所述更新分类规则进行所述行业文本分类。

本发明一实施例中，所述行业文本的形成过程包括：

确定所述行业文本的数据源，对数据源同步采集行业数据；

确定所述行业数据中包含的信息类型；

量化所述行业数据中所述信息类型，形成所述行业文本和对应的文本特征。

本发明一实施例中，所述信息类型至少包括文本信息来源、文本信息属性或用户属性中的一种，其中：

所述文本信息来源至少包括主流新闻发布平台、专业网站移动端、以及微博、微信、视频或博客中的一种；

所述文本信息属性至少包括文本阅读量、发布时间或文本长度中的一种；

所述用户属性包至少包括昵称、性别、年龄、是否水军标识或粉丝数中的一种。

本发明一实施例中，所述初始分类规则的形成过程包括：

利用所述文本特征对所述行业文本进行聚类确定文本基本分类；

在所述文本基本分类基础上利用所述数据源的数据分类维度对所述行业文本进行分类确定文本附加分类；

根据所述文本基本分类和所述文本附加分类形成对应的所述初始分类规则。

本发明一实施例中，所述聚类采用半监督方式，所述数据分类维度至少包括所述数据源的字段、对所述数据源的过滤关键词或过滤检索式。

本发明一实施例中，所述根据所述比较相似度确定新分类类别包括：

建立所述行业文本的simhash签名，通过所述simhash签名间的汉明距离确定行业文本间的相似度；

根据所述相似度获得相似行业文本的比例，根据比例确定所述新分类类别。

本发明一实施例中，所述所述比较相似度包括：

对单一行业文本进行分词获取语料的词向量特征；

对所述语料的词向量特征Hash化；

对Hash化语料的向量特征进行加权排序；

对所述加权排序后的向量特征合并形成散列化字符串；

对所属散列化字符串降维形成simhash签名；

根据simhash签名判断所述行业文本间的汉明距离。

本发明一实施例中，所述汉明距离小于等于位数阈值判定两个行业文本间具有相似度，大于位数阈值判定两个行业文本间不具有相似度。

本发明一实施例中，所述相似行业文本的数量等于或大于全量行业文本数量的设定比例阈值时，确定相似行业文本形成所述新分类类别。

本发明一实施例中，所述调整初始分类规则过程包括：

对所述新分类类别的行业文本进行分类效果校验，根据校验结果调整所述初始分类规则。

本发明一实施例中，所述校验结果确认是新分类类别时的修正过程包括：

确认所述新分类类别属于非正常用户发布的行业文本；

将所述新分类类别设置为单独类别或现有分类类别的分属类别；

为所述新分类类别匹配新分类规则，覆盖此类非正常用户发布的行业文本。

本发明一实施例中，所述校验结果确认是正常行业文本误判为其他类别行业文本时的修正过程包括

检查所述正常行业文本符合的分类规则或者关键词；

将所述分类规则或者关键词放入全量行业文本中进行搜索；

若是所述分类规则或者关键词匹配的行业文本在全量行业文本中真实用户数据较多，记录所述分类规则或者关键词。

本发明一实施例中，所述校验结果是其他类别行业文本误判为正常行业文本时的修正过程包括：

确定所述行业文本存在的疑似虚假特征的词语规则或者关键词；

将所述词语规则或者关键词放入全量行业文本中进行搜索；

若是所述词语规则或者关键词匹配的行业文本在全量行业文本中真实用户数据较少，记录所述词语规则或者关键词。

本发明一实施例中，所述形成更新分类规则包括：

通过对比分类规则形成的分类行业文本间的相似度进行规则聚合。

本发明一实施例中，所述形成更新分类规则包括：

通过统计分类规则形成的分类行业文本在全量行业文本中的占比进行分类规则淘汰。

本发明一实施例中，还包括：

对所述行业文本再次比较形成所述更新分类规则的迭代优化。

本发明实施例的真实用户评论的区分装置，包括：

存储器，用于存储如权利要求1至15任一所述的真实用户评论的区分方法的处理过程的程序代码；

处理器，用于执行所述程序代码。

本发明实施例的真实用户评论的区分装置，其特征在于，包括：

相似度比较模块，用于对行业文本的文本特征进行比较，根据所述比较相似度确定新分类类别；

规则更新模块，用于根据所述新分类类别调整初始分类规则形成更新分类规则，利用所述更新分类规则进行所述行业文本分类。

本发明一实施例中，还包括：

迭代优化模块，用于对所述行业文本再次比较形成所述更新分类规则的迭代优化。

本发明实施例的真实用户评论的区分方法和区分装置利用小量的初始分类规则(包括关键字)对行业文本进行分类形成行业文本中针对真实用户评论的最基本分类。同时利用行业文本间的特征相似性对比获得非正常用户的文本相似特征，基于文本相似特征形成新的分类规则，结合初始分类规则实现对行业文本的进一步准确用户分类，使得行业文本信息中真实用户评论与非正常用户评论得以区别，可更加精确的识别到各种数据类别，为行业文本的定制化精准分析提供了基础。同时在随着不断地从规则到新文本特征信息，再从新文本特征信息到规则的迭代，使得规则和真实用户观点信息均在不断地完善和增长。

附图说明

图1所示为本发明实施例真实用户评论的区分方法的主要流程示意图。

图2所示为本发明一实施例真实用户评论的区分方法中行业文本形成的流程示意图。

图3所示为本发明一实施例真实用户评论的区分方法中行业文本间比较相似性的流程示意图。

图4所示为本发明一实施例真实用户评论的区分方法中调整初始分类规则形成更新分类规则的流程示意图。

图5所示为本发明实施例真实用户评论的区分装置的主要架构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一实施例的真实用户评论的区分方法如图1所示。在图1中，本实施例包括：

步骤100：对行业文本的文本特征进行比较，根据比较相似度确定新分类类别。

本领域技术人员可以理解行业文本包括对商业事件做出的反馈信息，是针对特定行业的用户、行为、产品等商业元素组合形成的评价、讨论文本。行业文本可以采集自不同的数据源，数据源包括多样性的数据平台。比较可以采用行业文本间文本特征的量化比较、行业文本的相关关键字的单独或组合比较、行业文本的文本属性比较或行业文本的用户属性比较等。比较相似度可以采用行业文本全局特征的差异比较，也可以采用行业文本局部特征的差异比较。

步骤200：根据新分类类别调整初始分类规则形成更新分类规则，利用更新分类规则进行行业文本分类。

本领域技术人员可以理解初始分类规则是通过关键字匹配算法、拟合模型或通用分类处理过程适配行业文本的确定分类类别实现对全量文本数据的分类。与确定的新分类类别对应形成的分类规则与初始分类规则相结合形成针对所有确定分类类别的更新分类规则。

本发明实施例的真实用户评论的区分方法利用小量的初始分类规则(包括关键字)对行业文本进行分类形成行业文本中针对真实用户评论的最基本分类。同时利用行业文本间的特征相似性对比获得非正常用户的文本相似特征，基于文本相似特征形成新的分类规则，结合初始分类规则实现对行业文本的进一步准确用户分类，使得行业文本信息中真实用户评论与非正常用户评论得以区别，可更加精确的识别到各种数据类别，为行业文本的定制化精准分析提供了基础。

在本发明一实施例中，如图1所示，真实用户评论的区分方法还包括：

步骤300：对行业文本再次比较形成更新分类规则的迭代优化。

利用更新分类规则对行业文本分类可以形成确定时间周期内、确定数据源和确定行业文本的全量文本数据的完整分类。利用分类行业文本的相似性确定新分类类别，利用新分类类别适配形成分类规则，同时利用新的分类规则指导分类。更新分类规则与行业文本分类迭代改进。可进一步更加精确地识别到各种类别的数据，支持新类别发掘。

本发明一实施例真实用户评论的区分方法中行业文本的形成过程如图2 所示。在图2中，行业文本的形成过程包括：

步骤010：确定行业文本的数据源，对数据源同步采集行业数据。

真实用户评论是真实用户针对确定行业类别内的商业事件作出的以文字为主的针对性评价。行业类别包括但不限于汽车、美妆、服务、环境、演出或明星等。同一行业的真实用户评论会分布在不同数据平台、数据汇聚端或数据发布端的行业(文本)数据中。数据源包括但不限于主流新闻发布平台、专业网站移动端、以及微博、微信、视频和博客等互联网平台的行业数据。

步骤020：确定行业数据中包含的信息类型。

信息类型包括但不限于文本信息来源，例如主流新闻发布平台、专业网站移动端、以及微博、微信、视频或博客等。

信息类型包括但不限于文本信息属性，例如文本阅读量、发布时间或文本长度等。

信息类型包括但不限于用户属性，例如昵称、性别、年龄、是否水军标识或粉丝数等。

在本发明一实施例中，确定行业数据中包含的信息类型的过程中也可以包括对行业数据的分句、分词和词语清洗。

步骤030：量化行业数据中各信息类型，形成行业文本和对应的文本特征。

量化采用向量化过程，根据信息类型建立行业文本的量化维度空间，形成行业文本和与行业文本对应的文本特征(的量化信息)。行业数据中包括上述信息类型的文本内容经量化后形成行业文本和对应的文本特征。

本发明一实施例中，，如图2所示，初始分类规则的形成过程包括：

步骤040：利用文本特征对行业文本进行聚类确定文本基本分类。

聚类过程采用有监督式学习方式进行聚类分类，利用人工的半监督方式和聚类分类后的人工校验确定文本基本分类的准确率。

步骤050：在文本基本分类基础上利用数据源的数据分类维度对行业文本进行分类确定文本附加分类。

数据源的数据分类维度包括但不限于数据源的字段、对数据源的过滤关键词或过滤检索式，通过数据分类维度进行行业文本分类后利用人工校验确定文本附加分类。

在本发明一实施例中，文本基本分类与文本附加分类可以形成并列的分类类别，也可以形成包含逻辑的分类类别。

步骤060：根据文本基本分类和文本附加分类形成对应的初始分类规则。

针对文本基本分类和文本附加分类形成对应每个分类的自动化分类规则针对全量行业文本进行自动化分类。利用数学描述形成的分类规则结合人工校验具有确定类别的分类准确性。

本发明一实施例真实用户评论的区分方法中行业文本间比较相似性过程如图3所示。在图3中，行业文本间比较相似度的过程包括：

步骤110：建立行业文本的simhash签名，通过simhash签名间的汉明距离确定行业文本间的相似度。

行业文本的simhash签名具有定长位数，simhash签名可以反映行业文本的局部敏感特征，通过局部敏感特征的量化对比可以确定行业文本间的相似性。

在本发明一实施例中，simhash签名的形成过程包括：

对单一行业文本进行分词；采用jieba分词算法分词。在jieba分词过程中同时加入行业词包与有关停用词包，得到有效语料的词特征向量。

Hash化：对有效语料特征向量进行初步散列化。

加权：为行业文本的每一个有效语料初步散列化的特征向量进行加权。即W(权值)＝Hash(特征向量散列化值)*weight(权重值)，本发明一实施例中，采用TF-ID(Ftermfrequency inverse document frequency)算法获取有效语料的权重值。

例如特征向量散列化值中遇到1则hash值和权值正相乘，遇到0则hash 值和权值负相乘，并首先根据特征向量权重值进行有效语料特征向量优先排序。再根据词序排序。

合并：将初步散列化的各有效语料特征向量进行同位合并形成单一行业文本的一个散列化字符串。

降维：利用对于n-bit签名的累加结果得到该单一行业文本的simhash 值。

例如如果对应比特位的数值大于0则置1，否则置0，从而得到该行业文本的simhash签名。

本发明实施例的汉明距离以行业文本间进行比较的simhash签名中的差异位个数为依据。

在本发明一实施例中，以差异位个数为3作为判断阈值，小于等于3判定两个行业文本间具有相似度，大于3判定两个行业文本间不具有相似度。

步骤120：根据相似度获得相似行业文本的比例，根据比例确定新分类类别。

在本发明一实施例中，当相似行业文本的数量等于或大于全量行业文本数量的5％时，确定相似行业文本形成新分类类别。

本发明一实施例真实用户评论的区分方法中根据新分类类别调整初始分类规则过程如图4所示。在图4中，调整初始分类规则过程包括：

步骤210：对新分类类别的行业文本进行分类效果校验，根据校验结果调整初始分类规则。

分类效果校验可以采用人工校验或半人工校验。通过分类效果校验确定新分类类别中行业文本的文本特征是否具有一致性，与其他分类类别比较是否独立。

步骤220：当校验结果确认是新分类类别时，形成如下第一修正处理过程：

确认该新分类类别属于非正常用户发布的行业文本；

将新分类类别设置为单独类别或现有分类类别的分属类别；

为新分类类别匹配新分类规则，覆盖此类非正常用户发布的行业文本。

步骤230：当校验结果确认是正常行业文本误判为其他类别(非正常用户发布的)行业文本时，形成如下第二修正处理过程：

检查正常行业文本符合的分类规则或者关键词；

将分类规则或者关键词放入全量行业文本中进行搜索；

若是分类规则或者关键词匹配的行业文本在全量行业文本中真实用户数据较多(例如匹配的行业文本占比为全量行业文本的5％)，记录分类规则或者关键词。

步骤240：当校验结果确认是其他类别(非正常用户发布的)行业文本误判为正常行业文本，形成如下第三修正处理过程：

确定行业文本存在的疑似虚假特征的词语规则或者关键词；

将词语规则或者关键词放入全量行业文本中进行搜索；

若是词语规则或者关键词匹配的行业文本在全量行业文本中真实用户数据较少(例如匹配的行业文本占比为全量行业文本的10％)，记录词语规则或者关键词。

步骤250：通过对分类规则或者关键词进行全量行业文本测试结果调整初始分类规则。

在本发明一实施例中，如图4所示，形成更新分类规则包括：

步骤260：通过对比分类规则形成的分类行业文本间的相似度进行规则聚合。

利用上述行业文本相似度的比较方法对各分类规则形成的分类行业文本之间进行比较确定最相近的分类，使最相近的分类适度聚合。

步骤270：通过统计分类规则形成的分类行业文本在全量行业文本中的占比进行分类规则淘汰。

对每个分类规则对应的行业文本数量进行统计，确定行业文本数量最多的若干分类规则予以保留，或者对于行业文本数量低于全量行业文本的0.1％的分类规则予以淘汰。

步骤280：在形成更新分类规则后通过抽样进行人工校验确定分类规则有效性，对于错误率较大的分类规则进行修正处理。以使整个规则体系更加准确完整。

本发明一实施例真实用户评论的区分装置，包括：

存储器，用于存储本发明实施例的真实用户评论的区分方法的处理过程的程序代码；

处理器，用于执行本发明实施例的真实用户评论的区分方法的处理过程的程序代码。

可以采用DSP(Digital Signal Processing)数字信号处理器、FPGA (Field-Programmable Gate Array)现场可编程门阵列、MCU(Microcontroller Unit)系统板、SoC(system on a chip)系统板或包括I/O的PLC(Programmable Logic Controller)最小系统。

本发明一实施例真实用户评论的区分装置如图5所示。在图5中，本实施例包括：

相似度比较模块10，用于对行业文本的文本特征进行比较，根据比较相似度确定新分类类别；

规则更新模块20，用于根据新分类类别调整初始分类规则形成更新分类规则，利用更新分类规则进行行业文本分类。

在本发明一实施例中，如图5所示，还包括：

迭代优化模块30，用于对行业文本再次比较形成更新分类规则的迭代优化。

在本发明一实施例中，如图5所示，还包括：

数据源数据采集单元01，用于确定行业文本的数据源，对数据源同步采集行业数据；

信息类型确定单元02，用于确定行业数据中包含的信息类型；

行业文本形成单元03，用于量化行业数据中各信息类型，形成行业文本和对应的文本特征。

在本发明一实施例中，如图5所示，还包括：

基本分类单元04，用于利用文本特征对行业文本进行聚类确定文本基本分类；

附加分类单元05，用于在文本基本分类基础上利用数据源的数据分类维度对行业文本进行分类确定文本附加分类；

初始规则形成单元06，用于根据文本基本分类和文本附加分类形成对应的初始分类规则。

在本发明一实施例中，如图5所示，相似度比较模块10包括：

相似度比较单元11，用于建立行业文本的simhash签名，通过simhash 签名间的汉明距离确定行业文本间的相似度；

新类别识别单元12，用于根据相似度获得相似行业文本的比例，根据比例确定新分类类别。

在本发明一实施例中，如图5所示，规则更新模块20包括：

分类效果校验单元21，用于对新分类类别的行业文本进行分类效果校验，根据校验结果调整初始分类规则；

第一修正处理单元22，用于当校验结果确认是新分类类别时，形成第一修正处理过程；

第二修正处理单元23，用于当校验结果确认是正常行业文本误判为其他类别行业文本时，形成第二修正处理过程；

第三修正处理单元24，用于当校验结果确认是其他类别行业文本误判为正常行业文本，形成第三修正处理过程；

规则调整单元25，用于通过对分类规则或者关键词进行全量行业文本测试结果调整初始分类规则。

在本发明一实施例中，如图5所示，规则更新模块20还包括：

规则聚合单元26，用于通过对比分类规则形成的分类行业文本间的相似度进行规则聚合；

规则淘汰单元27，用于通过统计分类规则形成的分类行业文本在全量行业文本中的占比进行分类规则淘汰；

规则校验单元28，用于在形成更新分类规则后通过抽样进行人工校验确定分类规则有效性，对于错误率较大的分类规则进行修正处理过程。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种真实用户评论的区分方法，其特征在于，包括：

2.如权利要求1所述的真实用户评论的区分方法，其特征在于，所述行业文本的形成过程包括：

确定所述行业文本的数据源，对数据源同步采集行业数据；

确定所述行业数据中包含的信息类型；

3.如权利要求2所述的真实用户评论的区分方法，其特征在于，所述信息类型至少包括文本信息来源、文本信息属性或用户属性中的一种，其中：

4.如权利要求2所述的真实用户评论的区分方法，其特征在于，所述初始分类规则的形成过程包括：

5.如权利要求4所述的真实用户评论的区分方法，其特征在于，所述聚类采用半监督方式，所述数据分类维度至少包括所述数据源的字段、对所述数据源的过滤关键词或过滤检索式。

6.如权利要求1所述的真实用户评论的区分方法，其特征在于，所述根据所述比较相似度确定新分类类别包括：

7.如权利要求6所述的真实用户评论的区分方法，其特征在于，所述所述比较相似度包括：

对单一行业文本进行分词获取语料的词向量特征；

对所述语料的词向量特征Hash化；

对Hash化语料的向量特征进行加权排序；

对所述加权排序后的向量特征合并形成散列化字符串；

对所属散列化字符串降维形成simhash签名；

根据simhash签名判断所述行业文本间的汉明距离。

8.如权利要求6所述的真实用户评论的区分方法，其特征在于，所述汉明距离小于等于位数阈值判定两个行业文本间具有相似度，大于位数阈值判定两个行业文本间不具有相似度。

9.如权利要求6所述的真实用户评论的区分方法，其特征在于，所述相似行业文本的数量等于或大于全量行业文本数量的设定比例阈值时，确定相似行业文本形成所述新分类类别。

10.如权利要求1所述的真实用户评论的区分方法，其特征在于，所述调整初始分类规则过程包括：

11.如权利要求10所述的真实用户评论的区分方法，其特征在于，所述校验结果确认是新分类类别时的修正过程包括：

确认所述新分类类别属于非正常用户发布的行业文本；

12.如权利要求10所述的真实用户评论的区分方法，其特征在于，所述校验结果确认是正常行业文本误判为其他类别行业文本时的修正过程包括

检查所述正常行业文本符合的分类规则或者关键词；

将所述分类规则或者关键词放入全量行业文本中进行搜索；

13.如权利要求10所述的真实用户评论的区分方法，其特征在于，所述校验结果是其他类别行业文本误判为正常行业文本时的修正过程包括：

将所述词语规则或者关键词放入全量行业文本中进行搜索；

14.如权利要求10所述的真实用户评论的区分方法，其特征在于，所述形成更新分类规则包括：

15.如权利要求10所述的真实用户评论的区分方法，其特征在于，所述形成更新分类规则包括：

16.如权利要求1所述的真实用户评论的区分方法，其特征在于，还包括：

17.一种真实用户评论的区分装置，包括：

处理器，用于执行所述程序代码。

18.一种真实用户评论的区分装置，其特征在于，包括：

19.如权利要求17所述的真实用户评论的区分装置，其特征在于，还包括：