CN108563696B

CN108563696B - 一种发掘潜在风险词的方法、装置及设备

Info

Publication number: CN108563696B
Application number: CN201810238380.0A
Authority: CN
Inventors: 张鹏; 高民权; 王嘉浩
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2021-05-25
Anticipated expiration: 2038-03-22
Also published as: CN108563696A

Abstract

本说明书实施例公开了一种发掘潜在风险词的方法、装置及设备。在本说明实施例中，建立包含的各顶点与各目标文本中的各词一一对应的点图，然后根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，得到有向图。进而，可以根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分，针对每个顶点，根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多，该顶点对应的评分越高。可以根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

Description

一种发掘潜在风险词的方法、装置及设备

技术领域

本说明书涉及信息技术领域，尤其涉及一种发掘潜在风险词的方法、装置及设备。

背景技术

在诸多行业，风险控制(简称风控)工作的重要性不言而喻。例如，电子支付平台的风控工作可以是从受理的转账业务中识别出涉嫌洗钱的转账业务。

实践中，业务相关文本(如业务的附言)可以为风险识别工作提供线索。以业务的附言为例，业务的附言是用户发送业务请求时，附带发送的消息。例如，张三向电子支付平台发送向李四转账1000元的转账请求，并附言“请收米”，该附言即是张三向李四发送的消息。

具体地，工作人员可以对已知存在风险的业务的业务相关文本进行分析，发掘出若干风险词，然后根据发掘出的风险词，对业务进行风险识别。以反洗钱的场景为例，电子支付平台的工作人员可以对已知涉嫌洗钱的转账业务的附言进行分析，将附言中包含的某些与洗钱较为相关的词，作为风险词(例如，上文中的“收米”是赌博犯罪分子进行洗钱时习惯使用的词，表达“收钱”的意思)，并将之交由电子支付平台的业务系统进行保存。业务系统当受理一笔转账业务时，可以判断该转账业务的附言中是否包含自身保存的至少一个风险词，若是，则确定该转账业务涉嫌洗钱。

实际上，人工所发掘出的风险词(本文将之称为已知风险词)往往较少。对于大量认定为无风险却实际存在风险的业务而言，这些业务的业务相关文本中包含大量的风险词未被发掘(本文将未被发掘的风险词称为潜在风险词)，这些潜在风险词所表达的含义与已知风险词所表达的含义相近。例如，赌博犯罪分子在进行洗钱时，为了避开业务系统的风险识别，可以在的附言中使用“接水”一词，表达与“收米”相近的含义。为了使业务系统能够依据更多的风险词对受理的业务进行更为准确的风险识别，可以将已知风险词作为样本，训练模型，训练得到的模型可以判断一个词是否与已知风险词的含义相近，可以将所述模型认定的与已知风险词含义相近的词作为潜在风险词。

基于现有技术，需要一种更为准确的发掘潜在风险词的方法。

发明内容

本说明书实施例提供一种发掘潜在风险词的方法、装置及设备，以解决现有的发掘潜在风险词的方法存在的准确性较低的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种发掘潜在风险词的方法，包括：

获取若干目标文本，各目标文本中的部分词为已知风险词；

对各目标文本进行处理，得到各目标文本中的各词的词向量；

确定包含的各顶点与各词一一对应的点图；

根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，得到有向图；

根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分；针对每个顶点，根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多，该顶点对应的评分越高；

根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

本说明书实施例提供的一种发掘潜在风险词的装置，包括：

获取模块，获取若干目标文本，各目标文本中的部分词为已知风险词；

处理模块，对各目标文本进行处理，得到各目标文本中的各词的词向量；

点图生成模块，确定包含的各顶点与各词一一对应的点图；

有向图生成模块，根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，得到有向图；

计算模块，根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分；针对每个顶点，根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多，该顶点对应的评分越高；

确定模块，根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

本说明书实施例提供的一种发掘潜在风险词的设备，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取若干目标文本，各目标文本中的部分词为已知风险词；

确定包含的各顶点与各词一一对应的点图；

根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

由以上本说明书实施例提供的技术方案可见，在本说明书实施例中，建立包含的各顶点与各目标文本中的各词一一对应的点图，然后根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，得到有向图。进而，可以根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分，针对每个顶点，根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多，该顶点对应的评分越高。可以根据评分大于指定阈值的顶点对应的词，确定潜在风险词。通过本说明书实施例，可以仅使用较少的已知风险词，就确定出表征各目标文本中每个词与已知风险词含义近似程度的有向图，进而可以根据所述有向图，计算得到每个词对应评分，每个词对应的评分是每个词与已知风险词含义近似程度的量化表示。如此一来，无需使用识别准确性不高的模型进行潜在风险词的发掘，而是通过所述有向图的方式进行潜在风险词的发掘，有效提升了发掘潜在风险词的方法的准确性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种发掘潜在风险词的方法流程图；

图2a～2j是本说明书实施例提供的得到有向图的过程示意图；

图3是本说明书实施例提供的一种发掘潜在风险词的装置示意图；

图4是本说明书实施例提供的一种发掘潜在风险词的设备示意图。

具体实施方式

在现有技术中，为了发掘出潜在风险词，通常以若干已知风险词为黑样本(可以将每个已知风险词标注为0)，以若干无风险词(与已知风险词的含义相差很远的词)为白样本(可以将每个已知风险词标注为1)，训练用于判断一个词是否为风险词的模型(也就是分类器)。实际使用所述模型时，将待识别的词输入到所述模型，由所述模型输出待识别的词是否为风险词的结果。

众所周知，若要求训练得到的分类器的识别准确性较高，则需要使用海量的已标注样本(即需要使用海量的已知风险词)进行训练。然而，实践中，已知风险词往往较少(一般为十几个)，以这些已知风险词为黑样本不足以训练得到足够准确的分类器。不够准确的分类器用于识别潜在风险词的准确性较低。

而本发明的核心思想是，根据已知风险词的词向量与其他词的词向量的距离，仅凭少量已知风险词，就可以确定出表征各目标文本中每个词与已知风险词含义近似程度的有向图。进而可以根据所述有向图，计算得到每个词对应评分，每个词对应的评分是每个词与已知风险词含义近似程度的量化表示。如此，就可以仅使用少量已知风险词就实现对潜在风险词的发掘。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。通过本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1是本说明书实施例提供的一种发掘潜在风险词的方法流程图，包括以下步骤：

S100：获取若干目标文本。

本方法的执行主体可以是能够进行数据分析计算的设备(如服务器、个人计算机、手机、平板电脑等)，本文将之称为分析设备。

在本说明书实施例中，所述目标文本可以是业务的业务相关文本，如业务的附言，也可以是对业务的业务相关文本进行指定操作后得到的文本。

具体地，获取若干目标文本的方式具体可以是，获取若干业务相关文本，针对每个业务相关文本，从该业务相关文本中去除指定类型的字符信息(如姓名、机构名称、数字等一般不具有风险的字符信息)，得到该业务相关文本对应的中间文本。然后，针对每个中间文本，判断该中间文本的长度是否为指定长度，若是，则将该中间文本作为目标文本，否则，将该中间文本处理成指定长度的文本，将处理后的该中间文本作为目标文本。

进一步地，将中间文本处理成指定长度的文本的方式包括：当所述中间文本的长度大于指定长度时，从中间文本中删减字符(如删减中间文本末尾的字符)；当所述中间文本的长度小于指定长度时，向该中间文本中添加字符(如向中间文本末尾添加空字符)。

S102：对各目标文本进行处理，得到各目标文本中的各词的词向量。

在本说明书实施例中，对各目标文本进行处理主要包括两个方面：其一，对各目标文本进行分词处理，得到各目标文本中的各词；其二，采用词向量算法，确定每个词的词向量。

在本说明书实施例中，可以采用各种常见的分词算法对各目标文本进行分词处理，本说明书对此不做具体限制。

在本说明书实施例中，可以采用多种不同的词向量算法得到各词的词向量，例如，可以采用word2vec、fasttext等词向量算法，得到各词的词向量。

此外，可以利用神经网络算法，得到各词的词向量。具体而言，可以初始化各词的词向量；根据各目标文本，确定若干异常文本；以各目标文本和各异常文本为样本，针对每个样本，根据该样本包含的词的词向量，确定该样本对应的特征矩阵；以各样本对应的特征矩阵为输入，采用神经网络算法训练用于识别文本是否异常的模型；针对训练过程中的每次迭代，判断该次迭代中确定的训练效果表征值是否满足第一指定条件；若是，则结束训练，并输出各词的词向量；否则，根据该次迭代中确定的训练效果表征值调整模型参数和各词的词向量，并开始下一次迭代。所述第一指定条件通常是神经网络算法中的损失函数的值收敛。

其中，可以对各目标文本进行若干次随机的编辑操作，得到若干异常文本；所述编辑操作包括从文本中删除词的操作、更换文本中词的操作、将文本中任意两个词的位置进行交换的操作中的至少一种。

需要说明的是，上述使用神经网络算法得到各词的词向量的方法，实际上是以各目标文本(即正常文本)和若干异常文本为样本，采用神经网络算法训练用于识别文本是否异常的模型，在训练过程中，不仅需要根据每次迭代中确定的训练效果表征值调整模型参数，还需要根据每次迭代中确定的训练效果表征值调整各词的词向量。当训练结束时，输出的各词的词向量可以较为准确的表征各目标文本中各词之间的含义相似程度。

其中，本文所述的含义相似程度，并不是单纯指两个词的字面意思的相似程度，而是指两个词在各目标文本中所起到的表达作用的接近程度。由于各目标文本实际上是业务相关文本或对业务相关文本进行指定操作后得到的文本，因此根据各目标文本得到的各词的词向量可以表征各词在业务相关文本中所表达的作用的相近程度。例如，在反洗钱场景下，转账业务的附言中出现的“收米”和“接水”两词的字面意思相差较远，但是二者在附言中所起到的表达作用相同，都表达“收钱”的意思。

此外还需要说明的是，在本说明书实施例中，具体可以以各目标文本和各异常文本为样本，使用卷积神经网络算法训练用于识别文本是否异常的模型。如此，可以实现以下技术效果：其一，word2vec、fasttext等词向量算法通常仅关注文本中某个词与其相邻的少数几个其他词的联系，却不会关注文本中某个词与整个文本上下文的联系，而卷积神经网络算法关注文本中某个词与整个文本上下文的联系，使得得到的词向量更能准确地表征各目标文本中各词之间的含义相似程度。其二，可以使用具有并行计算架构(ComputeUnified Device Architecture，CUDA)的图形处理器(Graphics Processing Unit，GPU)，实现基于卷积神经网络算法的模型训练过程，提升训练速度，较快得到各词的词向量。

另外，有时得到的各词的词向量的维度过多，可能导致后续根据词向量进行计算的效率较低。此时，可以对各词的词向量进行降维处理(即减少词向量的维度)。例如，可以使用局部敏感哈希算法，对各词的词向量进行降维处理，不再赘述。

S104：确定包含的各顶点与各词一一对应的点图。

在本说明书实施例中，所述点图由若干顶点组成。其中，所述点图中的各顶点的位置关系可以是各词的词向量在空间中的位置关系(如后文中将要说明的图2a所示)，也可以是随机指定的位置关系。

S106：根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，得到有向图。

众所周知，对于图而言，图中的顶点之间可以具有连接关系，具有连接关系的两个顶点之间通过一条边连接，称为顶点的边。针对每个顶点而言，若该顶点的边由该顶点指向其他顶点，则将该顶点的边称为该顶点的“出边”，若该顶点的边由其他顶点指向该顶点，则将该顶点的边称为该顶点的“入边”。一个顶点可以具有不止一个出边和不止一个入边。当所述点图中的顶点具有出边和/或入边时，所述点图就变成有向图。

对本领域技术人员而言，受本发明的核心思想(根据已知风险词的词向量与其他词的词向量的距离，仅凭少量已知风险词，就可以确定出表征各目标文本中每个词与已知风险词含义近似程度的有向图)所启示，可以想到各种实施方式确定所述点图中每个顶点的入边和/或出边，以得到所述有向图，这些实施方式都在本申请所要求的保护范围之内。

在本说明书实施例中，所述有向图可以是通过如下方式得到：

将一个已知风险词对应的顶点作为目标顶点；根据所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离，从其他顶点中确定出满足第一指定条件的待连接顶点；确定所述目标顶点指向每个待连接顶点的边，作为所述目标顶点的出边；选择一个顶点重新作为目标顶点，直至所述点图中所有顶点皆具有出边，或所述点图中具有出边的顶点的数量达到指定数量。

其中，当已知风险词不止一个时，将一个已知风险词对应的顶点作为目标顶点实际上是指从各已知风险词中随机选择一个已知风险词作为目标顶点。

具体地，可以按所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离由小到大的顺序，依次选择N个其他顶点，作为待连接顶点；N为大于0的自然数。

具体地，选择一个顶点重新作为目标顶点的方式可以是，将各已知风险词对应的顶点中不具有出边的顶点作为备选顶点，以及，将各仅具有入边的顶点作为备选顶点；针对每个备选顶点，根据该备选顶点对应的词向量与所述目标顶点对应的词向量的距离以及该备选顶点对应的特征数，确定该备选顶点对应的参考值；其中，若该备选顶点为已知风险词对应的顶点，则该备选顶点对应的特征数为指定自然数，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是根据分别从各已知风险词对应的顶点到该备选顶点的各路径中包含的出边的数量确定的；将参考值最小的备选顶点重新作为目标顶点。从一个顶点到另一个顶点的路径中包含的出边的数量实际上是从一个顶点到另一个顶点所需的步数。

其中，从A顶点到B顶点的路径通常是由A顶点的出边、B顶点的出边以及从A顶点到B顶点所经过所有顶点的出边组成的。可参见图2j(后文中将对图2a～j进行说明)，在图2j中，从顶点1到顶点9的路径有两个，第一个路径为顶点1-顶点4-顶点9，第二个路径为顶点1-顶点5-顶点9。

进一步地，针对每个备选顶点，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是分别从各已知风险词对应的顶点到该备选顶点的最短路径中包含的出边数量与所述指定自然数的和。

进一步地，针对每个备选顶点，该备选顶点对应的参考值的计算方式可以是：将该备选顶点对应的词向量与所述目标顶点对应的词向量的距离乘该备选顶点对应的特征数得到的乘积，作为该备选顶点对应的参考值；所述指定自然数为0。

图2a～2j是本说明书实施例提供的得到有向图的过程示意图。基于上述的得到有向图的方法，其中，所述N为2，所述指定自然数为0。如图2a所示，所述点图包含的各顶点与各词一一对应，图2a所示的点图中，各顶点之间的位置关系即是各词的词向量在空间中的位置关系，但是，这仅是为了方便描述(体现各顶点对应的词的词向量之间的距离大小)，并不构成对本方案的限制，实际上，在步骤S104中确定的点图包含的各顶点之间并不一定存在特定的位置关系。继续参见图2a，假设各目标文本包含的词有9个，其中有3个已知风险词，这3个已知风险词分别对应于顶点1、顶点2、顶点3(即图2a中的实心顶点)。顶点4～9(即图2a中的空心顶点)不是已知风险词对应的顶点。如图2b所示，首先随机选择一个已知风险词对应的顶点(如选择顶点1)作为目标顶点，确定距离所述目标顶点(顶点1)最近的两个其他顶点(顶点4和顶点5)作为待连接顶点，然后确定顶点1指向顶点4的边，作为顶点1的出边，以及确定顶点1指向顶点5的边，作为顶点1的出边。

继续参见图2b，将各已知风险词对应的顶点中不具有出边的顶点(顶点2、顶点3)作为备选顶点，以及将各仅具有入边的顶点(顶点4、顶点5)作为备选顶点。针对每个备选顶点(顶点2、顶点3、顶点4或顶点5)，计算该备选顶点的参考值。以顶点2为例，顶点2的参考值为顶点2对应的词向量与顶点1(目标顶点)对应的词向量的距离，乘以顶点2对应的特征数(由于顶点2是已知风险词对应的顶点，因此顶点2对应的特征数为指定自然数0)得到的值，即为0。以顶点4为例，顶点4的参考值为顶点4对应的词向量与顶点1对应的词向量的距离，乘以顶点4对应的特征数得到的值。顶点4对应的特征数为从各已知风险词对应的顶点(顶点1、2、3)到顶点4的各路径中的最短路径包含的出边数量(即为1)与所述指定自然数0的和，即为1。显然，顶点2和顶点3分别对应的参考值都为0，小于顶点4和顶点5对应的参考值。对于参考值相同的备选顶点，可以随机选择一个备选顶点重新作为目标顶点，以重新执行上述的确定所述目标顶点的出边的步骤。

参见图2c，将顶点2重新作为目标顶点，继续确定顶点2指向顶点3和顶点6的边(顶点3和顶点6满足第一指定条件)，作为顶点2的出边。接下来，将顶点3～9作为备选顶点，在各备选顶点中，将参考值最小的顶点3重新作为目标顶点(如图2d所示)。如此反复执行上述的确定所述目标顶点的出边的步骤，直至所有顶点(1～9)皆具有出边，也即直到所述顶点都充当过目标顶点。后续过程可参见图2e～图2j，不再赘述。

S108：根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分。

在本说明书实施例中，所述有向图中每个顶点对应的评分实际上是每个词与已知风险词含义近似程度的量化表示。针对每个顶点，根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多，该顶点对应的评分越高。其中，以某个指定顶点为起点的各路径是指，针对每个其他顶点，从该指定顶点到该其他顶点的路径。举例来说，如图2j所示，以顶点1为起点的各路径包括：

a、顶点1-顶点4；

b、顶点1-顶点5；

c、顶点1-顶点4-顶点8；

d、顶点1-顶点4-顶点9；

e、顶点1-顶点5-顶点4；

f、顶点1-顶点5-顶点9；

g、顶点1-顶点4-顶点8-顶点9

h、顶点1-顶点4-顶点9-顶点5；

i、顶点1-顶点5-顶点9-顶点4；

j、顶点1-顶点5-顶点4-顶点8；

k、顶点1-顶点5-顶点4-顶点9；

l、顶点1-顶点4-顶点8-顶点9-顶点5；

m、顶点1-顶点5-顶点9-顶点4-顶点8。

值得强调的是，本领域技术人员在了解到所述评分的作用之后，能够想到各种实施方式对所述有向图中每个顶点对应的评分进行计算，这些实施方式都在本申请所要求保护的范围之内。

在本说明书实施例中，具体可以通过如下方式计算各顶点对应的评分：

初始化所述有向图中各顶点对应的评分；针对每个顶点，根据该顶点的评分，确定该顶点的每个入边对应的分值；根据该顶点的各出边和入边对应的分值，对该顶点对应的评分进行更新；根据更新后的该顶点对应的评分，重新确定该顶点的每个入边对应的分值，直至指定数量的顶点对应的评分满足第二指定条件。

其中，针对每个顶点，当确定更新后的该顶点对应的评分与更新前的该顶点对应的评分的差的绝对值小于指定值时，确定该顶点对应的评分满足所述第二指定条件。所述指定值可以根据需要指定。

在本说明书实施例中，针对每个顶点，确定该顶点的入边对应的分值的方式具体可以是：针对每个顶点，将该顶点的评分与该顶点的入边的数量的商，作为该顶点的每个入边对应的分值。

在本说明书实施例中，可以采用以下公式计算更新后的顶点对应的评分：

S＝M-X+Y；

其中，S是更新后的顶点对应的评分，M是更新前的顶点对应的评分，X是顶点的各入边对应的分值的和，Y是顶点的各出边对应的分值的和。

S110：根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

在本说明书实施例中，所述指定阈值可以根据需要指定。由于评分大于指定阈值的顶点通常包括已知风险词对应的顶点，因此，可以将评分大于指定阈值的顶点对应的词中除已知风险词之外的词确定为潜在风险词。

通过图1所示的发掘潜在风险词的方法，可以仅使用较少的已知风险词，就确定出表征各目标文本中每个词与已知风险词含义近似程度的有向图，进而可以根据所述有向图，计算得到每个词对应评分，每个词对应的评分是每个词与已知风险词含义近似程度的量化表示。如此一来，无需使用识别准确性不高的模型进行潜在风险词的发掘，而是通过所述有向图的方式进行潜在风险词的发掘，有效提升了发掘潜在风险词的方法的准确性。

基于图1所示的发掘潜在风险词的方法，本说明书实施例还对应提供了一种发掘潜在风险词的装置，如图3所示，包括：

获取模块301，获取若干目标文本，各目标文本中的部分词为已知风险词；

处理模块302，对各目标文本进行处理，得到各目标文本中的各词的词向量；

点图生成模块303，确定包含的各顶点与各词一一对应的点图；

有向图生成模块304，根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，得到有向图；

计算模块305，根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分；针对每个顶点，根据所述有向图所能确定出的以该顶点为起点的各路径中包含的其他顶点的数量越多，该顶点对应的评分越高；

确定模块306，根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

所述处理模块302，对各目标文本进行分词处理，得到各目标文本中的各词；初始化各词的词向量；根据各目标文本，确定若干异常文本；以各目标文本和各异常文本为样本，针对每个样本，根据该样本包含的词的词向量，确定该样本对应的特征矩阵；以各样本对应的特征矩阵为输入，采用神经网络算法训练用于识别文本是否异常的模型；针对训练过程中的每次迭代，判断该次迭代中确定的训练效果表征值是否满足第一指定条件；若是，则结束训练，并输出各词的词向量；否则，根据该次迭代中确定的训练效果表征值调整模型参数和各词的词向量，并开始下一次迭代。

所述处理模块302，对各目标文本进行若干次随机的编辑操作，得到若干异常文本；其中，所述编辑操作包括从文本中删除词的操作、更换文本中词的操作、将文本中任意两个词的位置进行交换的操作中的至少一种。

所述有向图生成模块304，将一个已知风险词对应的顶点作为目标顶点；根据所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离，从其他顶点中确定出满足第一指定条件的待连接顶点；确定所述目标顶点指向每个待连接顶点的边，作为所述目标顶点的出边；选择一个顶点重新作为目标顶点，直至所述点图中所有顶点皆具有出边，或所述点图中具有出边的顶点的数量达到指定数量。

所述有向图生成模块304，按所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离由小到大的顺序，依次选择N个其他顶点，作为待连接顶点；N为大于0的自然数。

所述有向图生成模块304，将各已知风险词对应的顶点中不具有出边的顶点作为备选顶点，以及，将各仅具有入边的顶点作为备选顶点；针对每个备选顶点，根据该备选顶点对应的词向量与所述目标顶点对应的词向量的距离以及该备选顶点对应的特征数，确定该备选顶点对应的参考值；其中，若该备选顶点为已知风险词对应的顶点，则该备选顶点对应的特征数为指定自然数，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是根据分别从各已知风险词对应的顶点到该备选顶点的各路径中包含的出边的数量确定的；备选顶点对应的词向量与所述目标顶点对应的词向量的距离越小，备选顶点对应的参考值越小，备选顶点对应的特征数越小，备选顶点对应的参考值越小将参考值最小的备选顶点重新作为目标顶点。

针对每个备选顶点，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是分别从各已知风险词对应的顶点到该备选顶点的最短路径中包含的出边数量与所述指定自然数的和。

所述有向图生成模块304，将该备选顶点对应的词向量与所述目标顶点对应的词向量的距离乘该备选顶点对应的特征数得到的乘积，作为该备选顶点对应的参考值；所述指定自然数为0。

所述计算模块305，初始化所述有向图中各顶点对应的评分；针对每个顶点，根据该顶点的评分，确定该顶点的每个入边对应的分值；根据该顶点的各出边和入边对应的分值，对该顶点对应的评分进行更新；根据更新后的该顶点对应的评分，重新确定该顶点的每个入边对应的分值，直至指定数量的顶点对应的评分满足第二指定条件。

针对每个顶点，当确定更新后的该顶点对应的评分与更新前的该顶点对应的评分的差的绝对值小于指定值时，确定该顶点对应的评分满足所述第二指定条件。

所述计算模块305，将该顶点的评分与该顶点的入边的数量的商，作为该顶点的每个入边对应的分值。

采用以下公式计算更新后的顶点对应的评分：

S＝M-X+Y；

所述确定模块306，将评分大于指定阈值的顶点对应的词中除已知风险词之外的词确定为潜在风险词。

基于图1所示的发掘潜在风险词的方法，本说明书实施例还对应提供了一种发掘潜在风险词的设备，如图4所示，该设备包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取若干目标文本，各目标文本中的部分词为已知风险词；

确定包含的各顶点与各词一一对应的点图；

根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于图4所示的设备而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种发掘潜在风险词的方法，包括：

获取若干目标文本，各目标文本中的部分词为已知风险词；

确定包含的各顶点与各词一一对应的点图；

根据评分大于指定阈值的顶点对应的词，确定潜在风险词。

2.如权利要求1所述的方法，对各目标文本进行处理，得到各目标文本中的各词的词向量，具体包括：

对各目标文本进行分词处理，得到各目标文本中的各词；

初始化各词的词向量；

根据各目标文本，确定若干异常文本；

以各目标文本和各异常文本为样本，针对每个样本，根据该样本包含的词的词向量，确定该样本对应的特征矩阵；

以各样本对应的特征矩阵为输入，采用神经网络算法训练用于识别文本是否异常的模型；

针对训练过程中的每次迭代，判断该次迭代中确定的训练效果表征值是否满足第一指定条件；

若是，则结束训练，并输出各词的词向量；

否则，根据该次迭代中确定的训练效果表征值调整模型参数和各词的词向量，并开始下一次迭代。

3.如权利要求2所述的方法，根据各目标文本，确定若干异常文本，具体包括：

对各目标文本进行若干次随机的编辑操作，得到若干异常文本；其中，所述编辑操作包括从文本中删除词的操作、更换文本中词的操作、将文本中任意两个词的位置进行交换的操作中的至少一种。

4.如权利要求1所述的方法，根据已知风险词的词向量与其他词的词向量的距离，确定所述点图中每个顶点的入边和/或出边，具体包括：

将一个已知风险词对应的顶点作为目标顶点；

根据所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离，从其他顶点中确定出满足第一指定条件的待连接顶点；

确定所述目标顶点指向每个待连接顶点的边，作为所述目标顶点的出边；

选择一个顶点重新作为目标顶点，直至所述点图中所有顶点皆具有出边，或所述点图中具有出边的顶点的数量达到指定数量。

5.如权利要求4所述的方法，根据所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离，从其他顶点中确定出满足第一指定条件的待连接顶点，具体包括：

按所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离由小到大的顺序，依次选择N个其他顶点，作为待连接顶点；N为大于0的自然数。

6.如权利要求4所述的方法，选择一个顶点重新作为目标顶点，具体包括：

将各已知风险词对应的顶点中不具有出边的顶点作为备选顶点，以及，将各仅具有入边的顶点作为备选顶点；

针对每个备选顶点，根据该备选顶点对应的词向量与所述目标顶点对应的词向量的距离以及该备选顶点对应的特征数，确定该备选顶点对应的参考值；其中，若该备选顶点为已知风险词对应的顶点，则该备选顶点对应的特征数为指定自然数，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是根据分别从各已知风险词对应的顶点到该备选顶点的各路径中包含的出边的数量确定的；备选顶点对应的词向量与所述目标顶点对应的词向量的距离越小，备选顶点对应的参考值越小；备选顶点对应的特征数越小，备选顶点对应的参考值越小；

将参考值最小的备选顶点重新作为目标顶点。

7.如权利要求6所述的方法，针对每个备选顶点，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是分别从各已知风险词对应的顶点到该备选顶点的最短路径中包含的出边数量与所述指定自然数的和。

8.如权利要求6所述的方法，根据该备选顶点对应的词向量与所述目标顶点对应的词向量的距离以及该备选顶点对应的特征数，确定该备选顶点对应的参考值，具体包括：

将该备选顶点对应的词向量与所述目标顶点对应的词向量的距离乘该备选顶点对应的特征数得到的乘积，作为该备选顶点对应的参考值；所述指定自然数为0。

9.如权利要求1所述的方法，根据所述有向图中每个顶点的入边和/或出边，计算各顶点分别对应的评分，具体包括：

初始化所述有向图中各顶点对应的评分；

针对每个顶点，根据该顶点的评分，确定该顶点的每个入边对应的分值；

根据该顶点的各出边和入边对应的分值，对该顶点对应的评分进行更新；

根据更新后的该顶点对应的评分，重新确定该顶点的每个入边对应的分值，直至指定数量的顶点对应的评分满足第二指定条件。

10.如权利要求9所述的方法，针对每个顶点，当确定更新后的该顶点对应的评分与更新前的该顶点对应的评分的差的绝对值小于指定值时，确定该顶点对应的评分满足所述第二指定条件。

11.如权利要求9所述的方法，根据该顶点的评分，确定该顶点的每个入边对应的分值，具体包括：

将该顶点的评分与该顶点的入边的数量的商，作为该顶点的每个入边对应的分值。

12.如权利要求9～11任一项所述的方法，采用以下公式计算更新后的顶点对应的评分：

S＝M-X+Y；

13.如权利要求1所述的方法，根据评分大于指定阈值的顶点对应的词，确定潜在风险词，具体包括：

将评分大于指定阈值的顶点对应的词中除已知风险词之外的词确定为潜在风险词。

14.一种发掘潜在风险词的装置，包括：

点图生成模块，确定包含的各顶点与各词一一对应的点图；

15.如权利要求14所述的装置，所述处理模块，对各目标文本进行分词处理，得到各目标文本中的各词；初始化各词的词向量；根据各目标文本，确定若干异常文本；以各目标文本和各异常文本为样本，针对每个样本，根据该样本包含的词的词向量，确定该样本对应的特征矩阵；以各样本对应的特征矩阵为输入，采用神经网络算法训练用于识别文本是否异常的模型；针对训练过程中的每次迭代，判断该次迭代中确定的训练效果表征值是否满足第一指定条件；若是，则结束训练，并输出各词的词向量；否则，根据该次迭代中确定的训练效果表征值调整模型参数和各词的词向量，并开始下一次迭代。

16.如权利要求15所述的装置，所述处理模块，对各目标文本进行若干次随机的编辑操作，得到若干异常文本；其中，所述编辑操作包括从文本中删除词的操作、更换文本中词的操作、将文本中任意两个词的位置进行交换的操作中的至少一种。

17.如权利要求14所述的装置，所述有向图生成模块，将一个已知风险词对应的顶点作为目标顶点；根据所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离，从其他顶点中确定出满足第一指定条件的待连接顶点；确定所述目标顶点指向每个待连接顶点的边，作为所述目标顶点的出边；选择一个顶点重新作为目标顶点，直至所述点图中所有顶点皆具有出边，或所述点图中具有出边的顶点的数量达到指定数量。

18.如权利要求17所述的装置，所述有向图生成模块，按所述目标顶点对应的词向量与除所述目标顶点外的每个其他顶点对应的词向量的距离由小到大的顺序，依次选择N个其他顶点，作为待连接顶点；N为大于0的自然数。

19.如权利要求17所述的装置，所述有向图生成模块，将各已知风险词对应的顶点中不具有出边的顶点作为备选顶点，以及，将各仅具有入边的顶点作为备选顶点；针对每个备选顶点，根据该备选顶点对应的词向量与所述目标顶点对应的词向量的距离以及该备选顶点对应的特征数，确定该备选顶点对应的参考值；其中，若该备选顶点为已知风险词对应的顶点，则该备选顶点对应的特征数为指定自然数，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是根据分别从各已知风险词对应的顶点到该备选顶点的各路径中包含的出边的数量确定的；备选顶点对应的词向量与所述目标顶点对应的词向量的距离越小，备选顶点对应的参考值越小，备选顶点对应的特征数越小，备选顶点对应的参考值越小将参考值最小的备选顶点重新作为目标顶点。

20.如权利要求19所述的装置，针对每个备选顶点，若该备选顶点不是已知风险词对应的顶点，则该备选顶点对应的特征数是分别从各已知风险词对应的顶点到该备选顶点的最短路径中包含的出边数量与所述指定自然数的和。

21.如权利要求19所述的装置，所述有向图生成模块，将该备选顶点对应的词向量与所述目标顶点对应的词向量的距离乘该备选顶点对应的特征数得到的乘积，作为该备选顶点对应的参考值；所述指定自然数为0。

22.如权利要求14所述的装置，所述计算模块，初始化所述有向图中各顶点对应的评分；针对每个顶点，根据该顶点的评分，确定该顶点的每个入边对应的分值；根据该顶点的各出边和入边对应的分值，对该顶点对应的评分进行更新；根据更新后的该顶点对应的评分，重新确定该顶点的每个入边对应的分值，直至指定数量的顶点对应的评分满足第二指定条件。

23.如权利要求22所述的装置，针对每个顶点，当确定更新后的该顶点对应的评分与更新前的该顶点对应的评分的差的绝对值小于指定值时，确定该顶点对应的评分满足所述第二指定条件。

24.如权利要求22所述的装置，所述计算模块，将该顶点的评分与该顶点的入边的数量的商，作为该顶点的每个入边对应的分值。

25.如权利要求22～24任一项所述的装置，采用以下公式计算更新后的顶点对应的评分：

S＝M-X+Y；

26.如权利要求14所述的装置，所述确定模块，将评分大于指定阈值的顶点对应的词中除已知风险词之外的词确定为潜在风险词。

27.一种发掘潜在风险词的设备，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取若干目标文本，各目标文本中的部分词为已知风险词；

确定包含的各顶点与各词一一对应的点图；

根据评分大于指定阈值的顶点对应的词，确定潜在风险词。