CN110222179B

CN110222179B - 一种通讯录文本分类方法、装置及电子设备

Info

Publication number: CN110222179B
Application number: CN201910450578.XA
Authority: CN
Inventors: 曲波
Original assignee: Shenzhen Xiaoying Information Technology Co ltd
Current assignee: Shenzhen Xiaoying Information Technology Co ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2022-10-25
Anticipated expiration: 2039-05-28
Also published as: CN110222179A

Abstract

本发明提供一种通讯录文本分类方法、装置及电子设备，方法包括：根据预设分词模型对源通讯录文本进行分词，且对分词结果进行过滤，计算过滤后的分词结果中的各分词的统计权重；获取统计权重大于预设权重阈值的分词以作为初选分词；根据先验知识对初选分词进行规整处理，以获得选定分词；根据选定分词生成关键词向量列表，以获得关于关键词向量列表的聚类结果；根据预设的风险标签统计结果对聚类结果的风险等级进行划分和排序。本发明可以将通讯录文本进行分类并提供风险等级划分，在市场营销、客户管理和风险控制等细分领域可以获取更为综合的通讯录画像信息，进一步结合风险信息，为具体业务提供有效支撑。

Description

一种通讯录文本分类方法、装置及电子设备

技术领域

本发明涉及信息技术领域，特别是涉及一种通讯录文本分类方法、装置及电子设备。

背景技术

在信息技术领域，通讯录文本是较常见的信息类型，一般通过在用户的授权同意下合法获得。通讯录中一般存在着多维的信息，如社交圈子、职业、受教育程度、生活习惯等。但由于用户填写通讯录时会伴随比较大的主观性和随意性，天然不具备统一格式的可能性，再考虑到通讯录中存在大量的人名，这些对于利用通讯录进行风险分类带来很多的噪音。很多对于通讯录的风险分类应用仅限于有限关键字的匹配上，不能充分地利用通讯录中的多维信息。

由于较之文章一类的文本分类问题，通讯录文本结构有一定的独特性，所以在对类似通讯录这种具有可交换性质且含有大量噪音的文本，处理方法尚待深入发掘，现需要一种更加完整高效的技术方法，同时结合风险信息，提高通讯录文本分类效果和风险区分力，增强其在风险管控业务线上的应用效能。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种通讯录文本分类方法、装置及电子设备，用于解决现有技术中不能对通讯录文本进行有效的分类和进行风险划分等的问题。

为实现上述目的及其他相关目的，本发明提供一种通讯录文本分类方法，包括：获取源通讯录文本；根据预设分词模型对所述源通讯录文本进行分词以获得分词结果；根据预设的过滤条件对所述分词结果进行过滤；根据预设的权重计算参数计算过滤后的所述分词结果中的各分词的统计权重；获取所述统计权重大于预设权重阈值的分词以作为初选分词；根据先验知识对所述初选分词进行规整处理，以获得选定分词；根据所述选定分词生成关键词向量列表；将所述关键词向量列表和预设的主题分类输入预设的概率生成模型中，以获得关于所述关键词向量列表的聚类结果；根据预设的风险标签统计结果对所述聚类结果的风险等级进行划分，且根据预设的排序方式对所述聚类结果的风险等级进行排序。

于本发明一具体实施例中，根据条件随机场模型或隐马尔科夫模型对所述源通讯录文本进行分词；其中，所述分词结果包括关于所述源通讯录文本的词、字和/或符号。

于本发明一具体实施例中，所述预设分词模型包括人名属性标签。

于本发明一具体实施例中，根据词频法、TF-IDF法或S-TFIWF法计算过滤后的所述分词结果中的各分词的所述统计权重。

于本发明一具体实施例中，所述根据先验知识对所述初选分词进行规整处理的步骤至少包括以下处理方式中的一种：方式一：去除所述初选分词中的非中文字符、标点符号、单个字和/或与人名属性匹配的词；方式二：对所述初选分词中与预设地名匹配的词、与预设的亲戚关系名词匹配的词和/或与预设的软件生成无效词相匹配的词进行过滤；方式三：对所述初选分词中具有部分重叠的词，选取所述部分重叠的词中词长度最短的词以保留；方式四：将所述初选分词中，词的相似度大于预设相似度阈值的多个词映射为同一个指定的词。

于本发明一具体实施例中，所述预设的概率生成模型基于贝叶斯推断；其中，所述主题分类作为概率生成模型的隐变量，且通过对所述隐变量与所述关键词向量列表的关键词的联合概率分布的计算，输出关于所述关键词的聚类，以获得关于所述关键词向量列表的聚类结果。

于本发明一具体实施例中，以所述选定分词的词频作为向量值，且以所述选定分词对应的向量长度作为列表长度，且根据所述向量值和所述列表长度生成所述关键词向量列表。

于本发明一具体实施例中，所述概率生成模型采用LDA主题模型；其中，所述LDA主题模型包括文章主题先验分布参数以及主题单词先验分布参数，且所述文章主题先验分布参数以及主题单词先验分布参数均小于1。

于本发明一具体实施例中，以降序的排序方式对所述聚类结果的风险等级进行排序。

为实现上述目的及其他相关目的，本发明还提供一种通讯录文本分类装置，包括：文本获取模块，用以获取源通讯录文本；分词模块，用以根据预设分词模型对所述源通讯录文本进行分词以获得分词结果；过滤模块，用以根据预设的过滤条件对所述分词结果进行过滤；权重统计模块，用以根据预设的权重计算参数计算过滤后的所述分词结果中的各分词的统计权重；初选分词获取模块，用以获取所述统计权重大于预设权重阈值的分词以作为初选分词；选定分词获取模块，用以根据先验知识对所述初选分词进行规整处理，以获得选定分词；向量列表生成模块，用以根据所述选定分词生成关键词向量列表；聚类模块，用以将所述关键词向量列表和预设的主题分类输入预设的概率生成模型中，以获得关于所述关键词向量列表的聚类结果；风险等级获取模块，用以根据预设的风险标签统计结果对所述聚类结果的风险等级进行划分，且根据预设的排序方式对所述聚类结果的风险等级进行排序。

为实现上述目的及其他相关目的，本发明还提供一种电子设备，包括：处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如上任一项所述的通讯录文本分类方法。

如上所述，本发明提供一种通讯录文本分类方法、装置及电子设备，所述方法包括：获取源通讯录文本；根据预设分词模型对所述源通讯录文本进行分词以获得分词结果；根据预设的过滤条件对所述分词结果进行过滤；根据预设的权重计算参数计算过滤后的所述分词结果中的各分词的统计权重；获取所述统计权重大于预设权重阈值的分词以作为初选分词；根据先验知识对所述初选分词进行规整处理，以获得选定分词；根据所述选定分词生成关键词向量列表；将所述关键词向量列表和预设的主题分类输入预设的概率生成模型中，以获得关于所述关键词向量列表的聚类结果；根据预设的风险标签统计结果对所述聚类结果的风险等级进行划分，且根据预设的排序方式对所述聚类结果的风险等级进行排序。本发明可以将通讯录文本进行分类并提供风险等级划分，在市场营销、客户管理和风险控制等细分领域可以获取更为综合的通讯录画像信息，进一步结合风险信息，为具体业务提供有效支撑。

附图说明

图1显示为本发明的通讯录文本分类方法在一具体实施例中的流程示意图。

图2显示为本发明一具体实施例中分类结果示意图。

图3显示为本发明的通讯录文本分类装置在一具体实施例中的组成示意图。

图4显示为本发明的电子设备在一具体实施例中的组成示意图。

元件标号说明

1 通讯录文本分类装置

11 文本获取模块

12 分词模块

13 过滤模块

14 权重统计模块

15 初选分词获取模块

16 选定分词获取模块

17 向量列表生成模块

18 聚类模块

19 风险等级获取模块

2 电子设备

21 处理器

22 存储器

S11～S19 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1，显示为本发明的通讯录文本分类方法在一具体实施例中的流程示意图。所述通讯录文本分类方法，包括：

S11：获取源通讯录文本；在一具体实施例中，该源通讯录文本为中文通讯录文本。

S12：根据预设分词模型对所述源通讯录文本进行分词以获得分词结果；在一些实施例中，可根据条件随机场模型或隐马尔科夫模型对所述源通讯录文本进行分词；其中，所述分词结果包括关于所述源通讯录文本的词、字和/或符号。所述预设分词模型可包括人名属性标签，从而得到疑似人名的分词字段。分词模型训练语料可为新闻语料以及微博网络文本语料。

S13：根据预设的过滤条件对所述分词结果进行过滤；

S14：根据预设的权重计算参数计算过滤后的所述分词结果中的各分词的统计权重；其中，可根据词频法、TF-IDF法、S-TFIWF法或其他变种方法计算过滤后的所述分词结果中的各分词的所述统计权重。

S15：获取所述统计权重大于预设权重阈值的分词以作为初选分词；

S16：根据先验知识对所述初选分词进行规整处理，以获得选定分词；

在一些实施例中，所述根据先验知识对所述初选分词进行规整处理的步骤至少包括以下处理方式中的一种：

方式一：去除所述初选分词中的非中文字符(即对中文通讯录文本进行文本分类)、标点符号、单个字和/或与人名属性匹配的词；在另一些实施例中，当对英文或者其他语言的通讯录文本进行分类时，则可以去除初选分词中的非通讯录文本语言的字符，例如，对英文的通讯录文本进行分类时，则可以去除初选分词中的非英文字符。

方式二：对所述初选分词中与预设地名匹配的词、与预设的亲戚关系名词匹配的词和/或与预设的软件生成无效词相匹配的词进行过滤；

方式三：对所述初选分词中具有部分重叠的词，选取所述部分重叠的词中词长度最短的词以保留；

方式四：将所述初选分词中，词的相似度大于预设相似度阈值的多个词映射为同一个指定的词。例如：'民警'、'派出所'、'公安局'、'公安'、'警官'、'警察'及'武警'等词均映射为‘警察’。

在另一些实施例中，所述根据先验知识对所述初选分词进行规整处理的步骤还包括：对一些特殊的需要区分的情况进行特殊匹配，例如：‘京东白条’和‘白条’仅选择后者；‘微信’+‘粉丝’和‘姓名’+‘-粉丝’这两者都需要考虑且需要区分‘微信’和‘粉丝’，则对关键字‘微信’和‘-粉丝’进行包含匹配，而不是单纯对‘粉丝’进行匹配。

S17：根据所述选定分词生成关键词向量列表；在一些实施例中，以所述选定分词的词频作为向量值，且以所述选定分词对应的向量长度作为列表长度，且根据所述向量值和所述列表长度生成所述关键词向量列表。

S18：将所述关键词向量列表和预设的主题分类输入预设的概率生成模型中，以获得关于所述关键词向量列表的聚类结果；在一些实施例中，所述预设的概率生成模型基于贝叶斯推断；其中，所述主题分类作为概率生成模型的隐变量，且通过对所述隐变量与所述关键词向量列表的关键词的联合概率分布的计算，输出关于所述关键词的聚类，以获得关于所述关键词向量列表的聚类结果。

在一些实施例中，所述概率生成模型采用LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)主题模型；其中，所述LDA主题模型包括文章主题先验分布参数以及主题单词先验分布参数，且所述文章主题先验分布参数以及主题单词先验分布参数均小于1。

即，所述基于贝叶斯推断的概率生成模型可以选取基于LDA的主题模型以及其衍生方法，如在原主题模型的基础上引入风险标签作为先验参数。在一些实施例中，基于LDA的主题模型需要调整若干参数：两个先验Dirichlet概率分布参数，即文章-主题先验分布参数和主题-单词先验分布参数，两个参数作为伪计数对于该场景效果影响不大，保守做法可在小于1的值之内进行调整；主题个数，目前尚没有一个公认的标准作为主题数的选参标准，可以混淆度为基准调整；模型训练迭代次数，以混淆度不变化小于一定阈值确定。

其中，在一些实施例中，模型的训练的经典算法有Variantial Bayes、CollapsedGibbsSampling以及Metropolis Hasting方法。Variantial Bayes可能会收敛于次优解，后两者在运算效率上需要更多优化。

在一些实施例中，需要根据主题结果不断对模型参数和关键词选取列表进行调整，实例中混淆度可以较好反应主题结果的区分度。在出现较多主题关键词特征不明显时，需要去掉造成混淆的关键词、加入新的关键词或映射关键词可以相比调参更有效地提升模型效果。

S19：根据预设的风险标签统计结果对所述聚类结果的风险等级进行划分，且根据预设的排序方式对所述聚类结果的风险等级进行排序。例如，以降序的排序方式对所述聚类结果的风险等级进行排序。

在一些实施例中，通过结合风险标签，对大量样本的主题结果进行统计分析，可以归纳发现不同主题可以具有稳定的风险特征。在进行统计的时候，需要选取主题特征明显的样本来发现规律。再通过主题概率合并的方式，可以将部分样本的特征推广到全样本上。随着推广到全样本，风险特征一定会有一定程度的衰退，但实践证明结果仍可以保持一定的风险区分力，并超过以往的水平。

具体的，将合并后的风险特征可以通过模型构建为风险特征分数来量化，这里可以使用逻辑回归等线性模型计算概率，也可以通过主题概率直接构建基尼系数或者熵，效果基本类似。通过构建风险特征分数，则可以更好地从通讯录维度提供风险评估支持。

参阅图2，显示为本发明一具体实施例中分类结果示意图。以下结合具体实例，对本发明的通讯录文本分类方法的技术方案做进一步的说明：

所述源通讯录文本例如为“李工设计院马工张总挖机老曹@Ai冯启红”。对所述源通讯录文本及进行分词和规整，本实施例中的分词规整结果例如为“某工某工总挖机”。其中，去掉了无效符号‘@Ai’和疑似人名‘冯启红’，将含有‘李工’和‘马工’字段映射成为两个‘某工’关键字，‘张总’映射为‘总’关键字，另外匹配到了‘挖机’关键字。规整后字段仅包含关键字和其出现次数。

且在规整后的文本基础上进行词频统计，使用词频作为输入向量，向量长度为预先确定的关键词列表长度。这里在‘某工’、‘总’和‘挖机’三个关键字为止，向量值分别为2，1，1，即词频。

之后，使用通讯录文本分类方法中训练的模型，对输入向量进行主题分类的预测输出，再结合中文通讯录文本风险分类方法中得到的如图2所示的主题分类和风险的函数关系，对风险进行预测输出。例如这里对示例文本的预测可能为0.9的概率属于主题2，其中，图3所示，主题2的关键词概率定义为“某工:0.2311总:0.0872挖机:0.0614监理:0.0529工地:0.0508工人:0.0409施工:0.0399钢筋:0.0365吊车:0.0347”；进一步地其风险概率分可能为0.1，即相对较低水平。

本发明的通讯录文本分类方法充分考虑对于风险无关的噪音过滤，考虑通讯录关键字之间的可交换性，使用基于概率生成的方式进行文本分类，争取更好的通讯录文本风险分类效果。

参阅图3，显示为本发明的通讯录文本分类装置在一具体实施例中的组成示意图。所述通讯录文本分类装置1包括：文本获取模块11、分词模块12、过滤模块13、权重统计模块14、初选分词获取模块15、选定分词获取模块16、向量列表生成模块17、聚类模块18以及风险等级获取模块19。

所述文本获取模块11用以获取源通讯录文本；

所述分词模块12用以根据预设分词模型对所述源通讯录文本进行分词以获得分词结果；

所述过滤模块13用以根据预设的过滤条件对所述分词结果进行过滤；

所述权重统计模块14用以根据预设的权重计算参数计算过滤后的所述分词结果中的各分词的统计权重；

所述初选分词获取模块15用以获取所述统计权重大于预设权重阈值的分词以作为初选分词；

所述选定分词获取模块16用以根据先验知识对所述初选分词进行规整处理，以获得选定分词；

所述向量列表生成模块17用以根据所述选定分词生成关键词向量列表；

所述聚类模块18用以将所述关键词向量列表和预设的主题分类输入预设的概率生成模型中，以获得关于所述关键词向量列表的聚类结果；

所述风险等级获取模块19用以根据预设的风险标签统计结果对所述聚类结果的风险等级进行划分，且根据预设的排序方式对所述聚类结果的风险等级进行排序。

所述通讯录文本分类装置1为与所述通讯录文本分类方法对应的装置项，两者技术方案一一对应，所有关于所述通讯录文本分类方法的描述均可应用于本实施例中，在此不加赘述。

参阅图4，显示为本发明的电子设备在一具体实施例中的组成示意图。所述电子设备2例如为台式电脑、笔记本电脑、智能手机或智能手表等具有智能数据处理能力的设备。所述电子设备2包括处理器21和存储器22，所述存储器22用于存储计算机程序，所述处理器21用于执行所述存储器22存储的计算机程序，以使所述电子设备2执行的通讯录文本分类方法，所述的通讯录文本分类方法参阅图1和关于图1的相关描述。

所述存储器22可包括高速随机存取存储器，并且还可包括非易失性存储器，例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。在某些实施例中，存储器22还可以包括远离一个或多个处理器21的存储器22，例如经由RF电路或外部端口以及通信网络访问的网络附加存储器，其中所述通信网络可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等，或其适当组合。存储器控制器可控制设备的诸如CPU和外设接口之类的其他组件对存储器22的访问。

所述处理器21可操作地与存储器22和/或非易失性存储设备耦接。更具体地，处理器21可执行在存储器22和/或非易失性存储设备中存储的指令以在计算设备中执行操作，诸如生成图像数据和/或将图像数据传输到电子显示器。如此，处理器21可包括一个或多个通用微处理器、一个或多个专用处理器(ASIC)、一个或多个现场可编程逻辑阵列(FPGA)、或它们的任何组合。

综上所述，本发明提供一种通讯录文本分类方法、装置及电子设备，所述方法包括：获取源通讯录文本；根据预设分词模型对所述源通讯录文本进行分词以获得分词结果；根据预设的过滤条件对所述分词结果进行过滤；根据预设的权重计算参数计算过滤后的所述分词结果中的各分词的统计权重；获取所述统计权重大于预设权重阈值的分词以作为初选分词；根据先验知识对所述初选分词进行规整处理，以获得选定分词；根据所述选定分词生成关键词向量列表；将所述关键词向量列表和预设的主题分类输入预设的概率生成模型中，以获得关于所述关键词向量列表的聚类结果；根据预设的风险标签统计结果对所述聚类结果的风险等级进行划分，且根据预设的排序方式对所述聚类结果的风险等级进行排序。本发明可以将通讯录文本进行分类并提供风险等级划分，在市场营销、客户管理和风险控制等细分领域可以获取更为综合的通讯录画像信息，进一步结合风险信息，为具体业务提供有效支撑。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种通讯录文本分类方法，其特征在于，包括：

获取源通讯录文本；

根据预设分词模型对所述源通讯录文本进行分词以获得分词结果；

根据预设的过滤条件对所述分词结果进行过滤；

根据预设的权重计算参数计算过滤后的所述分词结果中的各分词的统计权重；

获取所述统计权重大于预设权重阈值的分词以作为初选分词；

根据先验知识对所述初选分词进行规整处理，以获得选定分词；

根据所述选定分词生成关键词向量列表；其中，以所述选定分词的词频作为向量值，且以所述选定分词对应的向量长度作为列表长度，且根据所述向量值和所述列表长度生成所述关键词向量列表；

将所述关键词向量列表和预设的主题分类输入预设的概率生成模型中，以获得关于所述关键词向量列表的聚类结果；其中，所述概率生成模型采用LDA主题模型；其中，所述LDA主题模型包括文章主题先验分布参数以及主题单词先验分布参数，且所述文章主题先验分布参数以及主题单词先验分布参数均小于1；

根据预设的风险标签统计结果对所述聚类结果的风险等级进行划分，且根据预设的排序方式对所述聚类结果的风险等级进行排序。

2.根据权利要求1所述的通讯录文本分类方法，其特征在于，根据条件随机场模型或隐马尔科夫模型对所述源通讯录文本进行分词；其中，所述分词结果包括关于所述源通讯录文本的词、字和/或符号。

3.根据权利要求1所述的通讯录文本分类方法，其特征在于，所述预设分词模型包括人名属性标签。

4.根据权利要求1所述的通讯录文本分类方法，其特征在于，根据词频法、TF-IDF法或S-TFIWF法计算过滤后的所述分词结果中的各分词的所述统计权重。

5.根据权利要求1所述的通讯录文本分类方法，其特征在于，所述根据先验知识对所述初选分词进行规整处理的步骤至少包括以下处理方式中的一种：

方式一：去除所述初选分词中的非中文字符、标点符号、单个字和/或与人名属性匹配的词；

方式四：将所述初选分词中，词的相似度大于预设相似度阈值的多个词映射为同一个指定的词。

6.根据权利要求1所述的通讯录文本分类方法，其特征在于，所述预设的概率生成模型基于贝叶斯推断；其中，所述主题分类作为概率生成模型的隐变量，且通过对所述隐变量与所述关键词向量列表的关键词的联合概率分布的计算，输出关于所述关键词的聚类，以获得关于所述关键词向量列表的聚类结果。

7.根据权利要求1所述的通讯录文本分类方法，其特征在于，以降序的排序方式对所述聚类结果的风险等级进行排序。

8.一种通讯录文本分类装置，其特征在于，包括：

文本获取模块，用以获取源通讯录文本；

分词模块，用以根据预设分词模型对所述源通讯录文本进行分词以获得分词结果；

过滤模块，用以根据预设的过滤条件对所述分词结果进行过滤；

权重统计模块，用以根据预设的权重计算参数计算过滤后的所述分词结果中的各分词的统计权重；

初选分词获取模块，用以获取所述统计权重大于预设权重阈值的分词以作为初选分词；

选定分词获取模块，用以根据先验知识对所述初选分词进行规整处理，以获得选定分词；

向量列表生成模块，用以根据所述选定分词生成关键词向量列表；其中，以所述选定分词的词频作为向量值，且以所述选定分词对应的向量长度作为列表长度，且根据所述向量值和所述列表长度生成所述关键词向量列表；

聚类模块，用以将所述关键词向量列表和预设的主题分类输入预设的概率生成模型中，以获得关于所述关键词向量列表的聚类结果；其中，所述概率生成模型采用LDA主题模型；其中，所述LDA主题模型包括文章主题先验分布参数以及主题单词先验分布参数，且所述文章主题先验分布参数以及主题单词先验分布参数均小于1；

风险等级获取模块，用以根据预设的风险标签统计结果对所述聚类结果的风险等级进行划分，且根据预设的排序方式对所述聚类结果的风险等级进行排序。

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行如权利要求1至7中任一项所述的通讯录文本分类方法。