CN110880142A

CN110880142A - 一种风险实体获取方法及装置

Info

Publication number: CN110880142A
Application number: CN201911159795.XA
Authority: CN
Inventors: 蔡远航; 郑少杰; 付勇; 范增虎
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-03-13
Anticipated expiration: 2039-11-22
Also published as: CN110880142B; WO2021098651A1

Abstract

本发明公开了一种风险实体获取方法及装置，其中方法为：确定包含风险词的第一风险信息；所述风险词来源于预收集的风险词库；对所述第一风险信息进行片段划分，获取多个风险片段信息；相邻的两个风险片段信息具有首尾重叠区域；针对任一风险片段信息，若确定所述风险片段信息为第一文本类型，则获取所述风险片段信息中的风险实体。

Description

一种风险实体获取方法及装置

技术领域

本发明涉及金融科技(Fintech)领域和人工智能领域，尤其涉及一种风险实体获取方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链(Blockchain)、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变。目前，金融科技领域的风控意识愈加强烈，各个金融科技企业对于发放给用户的贷款能否回收的问题，越来越重视。

因此，目前一些金融科技企业通过收集风险实体进行风险控制。风险实体为风险用户的一项基本属性信息(如风险用户的姓名、住址、电话号码等)。目前收集风险实体的主要方式是，当某个用户出现高风险行为(如恶意欠款)后，再将该用户及各风险实体纳入黑名单，但这种方式是滞后于风险行为的发生的，不能及时获取风险实体，不利于及时判别用户是否为风险用户。

发明内容

本申请实施例提供一种风险实体获取方法及装置，解决了现有技术中不能及时获取风险实体的问题。

第一方面，本申请实施例提供一种风险实体获取方法，包括：确定包含风险词的第一风险信息；所述风险词来源于预收集的风险词库；对所述第一风险信息进行片段划分，获取多个风险片段信息；相邻的两个风险片段信息具有首尾重叠区域；针对任一风险片段信息，若确定所述风险片段信息为第一文本类型，则获取所述风险片段信息中的风险实体。

上述方法中，根据预收集的风险词库中的风险词，确定出包含风险词的第一风险信息，并对所述第一风险信息进行片段划分，获取多个风险片段信息，并且对任一风险片段信息，由于相邻的两个风险片段信息具有首尾重叠区域，因此风险实体必定会完整地落在某个风险片段信息中，针对任一风险片段信息，若确定所述风险片段信息为第一文本类型，则获取所述风险片段信息中的风险实体，从而只要有第一风险信息，就可以根据第一风险信息进行判断，及时获取到发布信息中的风险实体。

一种可选实施方式中，确定所述风险片段信息为第一文本类型，包括：对所述风险片段信息进行分词，对分词后的每个词向量进行叠加，获得所述风险片段信息的文档向量；将所述文档向量输入第一二分类模型；所述第一二分类模型用于确定所述风险片段信息是否为第二文本类型；在确定所述风险片段信息为第二文本类型后，将所述文档向量输入第二二分类模型，确定所述风险片段信息为所述第一文本类型；所述第一文本类型是所述第二文本类型中的一种。

上述方法中，由于第一文本类型是所述第二文本类型中的一种，直接判别第一文本类型不易与第二文本类型中的其他文本类型区分开，因此首先对所述风险片段信息进行分词，对分词后的每个词向量进行叠加，获得所述风险片段信息的文档向量；先将所述文档向量输入第一二分类模型，确定所述风险片段信息为第二文本类型，将风险片段信息与非第二文本类型区分开；并在确定所述风险片段信息为第二文本类型后，才将所述文档向量输入第二二分类模型，确定所述风险片段信息为所述第一文本类型，从而将风险片段信息与第二文本类型中的非第一文本类型区分开，从而对风险片段信息的判断更加精确。

一种可选实施方式中，所述风险片段信息中的风险实体包括多种类别的风险实体；所述获取所述风险片段信息中的风险实体，包括：将所述风险片段信息中与预设匹配规则匹配到的词语，作为所述风险片段信息中的风险实体的第一类别的风险实体组合；针对所述第一类别组合中任一风险实体，从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子；通过实体标注模型，从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合；将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语，作为所述风险片段信息中的风险实体。

上述方法中，根据不同的类别，通过与预设匹配规则匹配直接得到风险实体第一类别的风险实体组合，或者通过实体标注模型从所述原句和所述相邻句子中得到第二类别的风险实体组合，并将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语，作为所述风险片段信息中的风险实体，从而根据风险实体的类别分别抽取，提升了风险实体的抽取效率和准确率。

一种可选实施方式中，所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式；所述将所述风险片段信息中与预设匹配规则匹配到的词语，作为所述风险片段信息中的风险实体的第一类别的风险实体组合；包括：将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配；其中，每个正则匹配表达式都对应一种风险实体子类型；针对所述至少一个正则匹配表达式中任一正则匹配表达式，将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体，作为所述第一风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。

上述方式下，在第一类别的风险实体组合获取的过程中，通过第一类别包括的至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配，由于每个正则匹配表达式都对应一种风险实体子类型，因此可根据每个正则匹配表达式匹配相应类型的风险实体，作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体，从而更细粒度地获取第一类别的风险实体组合。

一种可选实施方式中，所述实体标注模型为长短期记忆LSTM神经网络；所述LSTM神经网络是根据句子向量集训练的；所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型；将所述原句和所述相邻句子输入预训练的风险实体标注模型，将所述原句和所述相邻句子中标注为风险实体的词语，作为第二风险实体组合；包括：针对所述原句和所述相邻句子中任一句子，将所述句子输入所述LSTM神经网络，获得所述句子中每个字的字类型；确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型，则将所述至少一个连续的字组成的词语标注为风险实体，并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。

上述方式下，所述实体标注模型为长短期记忆LSTM神经网络,LSTM神经网络对序列化数据的预测判别有突出的性能，况且LSTM神经网络是根据句子向量集训练，每个句子向量的句子中每个字的字类型，首先通过LSTM神经网络，更细粒度的预测原句和相邻句子中任一句子中每个字的字类型，并确定句子中字类型均对应相同的风险实体子类型的连续的至少一个字，通过细粒度对各个字的判别，更准确地获取到第二类别的风险实体组合中的风险实体。

一种可选实施方式中，所述获取所述风险片段信息中的风险实体之后，还包括：将所述风险片段信息中的风险实体存入风险实体数据库；根据所述风险实体数据库，获取预设周期内采集的信息中包含风险实体的第二风险信息；对所述第二风险信息切词，并按照长度为2的窗口和长度为3的窗口，获得所述第二风险信息的双词词组列表和三词词组列表；将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除，从而更新所述双词词组列表；将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除，从而更新所述三词词组列表；将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除，从而更新所述双词词组列表和所述三词词组列表；其中，风险指数与第二频次与第一频次的比值呈负相关；所述第一频次为词组在风险文本中出现的频次；所述第二频次为词组在非风险文本中出现的频次；根据更新后的所述双词词组列表和更新后的所述三词词组列表，更新所述风险词库。

上述方式下，在获取所述风险片段信息中的风险实体之后，将所述风险片段信息中的风险实体存入风险实体数据库，从而及时更新所述风险实体数据库，根据所述风险实体数据库，获取预设周期内采集的信息中包含风险实体的第二风险信息；对所述第二风险信息切词，并按照长度为2的窗口和长度为3的窗口，获得所述第二风险信息的双词词组列表和三词词组列表；并根据各词组的语义搭配度和风险指数从双词词组列表和三词词组列表中删除词组，由于，风险指数与第二频次与第一频次的比值呈负相关；从而可以准确地得到新的风险词，实现了通过新获取的风险实体及时更新风险词库。

第二方面，本申请提供一种风险实体获取装置，包括：确定模块，用于确定包含风险词的第一风险信息；所述风险词来源于预收集的风险词库；处理模块，用于对所述第一风险信息进行片段划分，获取多个风险片段信息；相邻的两个风险片段信息具有首尾重叠区域；针对任一风险片段信息，若确定所述风险片段信息为第一文本类型，则获取所述风险片段信息中的风险实体。

一种可选实施方式中，所述处理模块具体用于：对所述风险片段信息进行分词，对分词后的每个词向量进行叠加，获得所述风险片段信息的文档向量；将所述文档向量输入第一二分类模型；所述第一二分类模型用于确定所述风险片段信息为第二文本类型；在确定所述风险片段信息为第二文本类型后，将所述文档向量输入第二二分类模型，确定所述风险片段信息是否为所述第一文本类型；所述第一文本类型是所述第二文本类型中的一种。

一种可选实施方式中，所述风险片段信息中的风险实体包括多种类别的风险实体；所述处理模块具体用于：将所述风险片段信息中与预设匹配规则匹配到的词语，作为所述风险片段信息中的风险实体的第一类别的风险实体组合；针对所述第一类别组合中任一风险实体，从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子；通过实体标注模型，从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合；将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语，作为所述风险片段信息中的风险实体。

一种可选实施方式中，所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式；所述处理模块具体用于：将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配；其中，每个正则匹配表达式都对应一种风险实体子类型；针对所述至少一个正则匹配表达式中任一正则匹配表达式，将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体，作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。

一种可选实施方式中，所述实体标注模型为长短期记忆LSTM神经网络；所述LSTM神经网络是根据句子向量集训练的；所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型；所述处理模块具体用于：针对所述原句和所述相邻句子中任一句子，将所述句子输入所述LSTM神经网络，获得所述句子中每个字的字类型；确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型，则将所述至少一个连续的字组成的词语标注为风险实体，并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。

一种可选实施方式中，所述获取所述风险片段信息中的风险实体之后，所述处理模块具体用于：将所述风险片段信息中的风险实体存入风险实体数据库，以更新所述风险实体数据库；根据所述风险实体数据库，获取预设周期内采集的信息中包含风险实体的第二风险信息；对所述第二风险信息切词，并按照长度为2的窗口和长度为3的窗口，获得所述第二风险信息的双词词组列表和三词词组列表；将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除，从而更新所述双词词组列表；将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除，从而更新所述三词词组列表；将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除，从而更新所述双词词组列表和所述三词词组列表；其中，风险指数与第二频次与第一频次的比值呈负相关；所述第一频次为词组在风险文本中出现的频次；所述第二频次为词组在非风险文本中出现的频次；根据更新后的所述双词词组列表和更新后的所述三词词组列表，更新所述风险词库。

上述第二方面及第二方面各个实施例的有益效果，可以参考上述第一方面及第一方面各个实施例的有益效果，这里不再赘述。

第三方面，本申请实施例提供一种计算机设备，包括程序或指令，当所述程序或指令被执行时，用以执行上述第一方面及第一方面各个实施例的方法。

第四方面，本申请实施例提供一种存储介质，包括程序或指令，当所述程序或指令被执行时，用以执行上述第一方面及第一方面各个实施例的方法。

附图说明

图1为本申请实施例提供的一种风险实体获取方法可应用的架构示意图；

图2为本申请实施例提供的一种风险实体获取方法的步骤流程示意图；

图3为本申请实施例提供的LSTM神经网络的结构示意图；

图4为本申请实施例提供的一种风险实体获取装置的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互结合。

在金融机构(银行机构、保险机构或证券机构)在进行业务(如银行的贷款业务、存款业务等)运转过程中，需要进行风险控制(如各个金融科技企业对于发放给用户的贷款能否回收)，目前常通过收集风险实体进行风险控制。风险实体为风险用户的一项基本属性信息(如风险用户的姓名、住址、电话号码等)。但是，目前的方法是当某个用户出现了高风险行为(如恶意欠款)后，才收集用户及各风险实体，这种方式是滞后于风险行为，不能及时获取风险实体。这种情况不符合银行等金融机构的需求，无法保证金融机构各项业务的高效运转。

为此，本申请提出一种风险实体获取方法。如图1所示，为该风险实体获取方法可应用的架构示意图。

该架构分为四个部分：数据采集模块：该模块用于获取互联网上的发布信息(新闻数据)，具体可以包括媒体网站的新闻数据，论坛贴吧数据，社交网站数据以及QQ交流群数据，并存储在该架构的本地。风险实体抽取模块：用于根据风险词库，从发布信息中找到包含风险词的风险信息，并从风险信息中抽取风险实体。风险词抽取模块，用于根据风险实体库，获取基于风险实体的风险信息，并从风险信息中抽取风险词。风险信息展示模块，用于对风险词库、风险实体库及风险信息进行展示。

下面结合图2，详细说明本申请提供的一种风险实体获取方法。

步骤201：确定包含风险词的第一风险信息。

所述风险词来源于预收集的风险词库。

步骤202：对所述第一风险信息进行片段划分，获取多个风险片段信息。相邻的两个风险片段信息具有首尾重叠区域。

步骤203：针对任一风险片段信息，若确定所述风险片段信息为第一文本类型，则获取所述风险片段信息中的风险实体。

步骤201是从大量的多条发布信息中检索出风险信息的步骤，也就是说，风险信息是多条发布信息中包含风险词的发布信息，第一风险信息是风险信息的其中一条，每条风险信息都可以按照第一风险信息的处理方式去处理。举例来说，如图3所示，第一风险信息为：招聘兼职恶意刷单员，中介代办黑户洗白广告，0首付0月供买车广告等。分析：a.仅仅根据新闻正文包含风险词“0首付”，“0月供”，“0利率”，“黑户洗白”，“差评刷单”，“无需审核”，“无抵押无担保”，来作为风险实体的抽取文本是不可靠的，这样会把很多风险防范类或者政策类的发布信息保留下来，比如“小区居民谨防参与‘无抵押无担保’的二手车贷款，以防被骗，造成自身的财产损失”，“禁止企业用户参与差评刷单服务”等。其中，咨询热线“180********”为风险实体。因此，需要对第一风险信息继续判断。

步骤202中，可以使用结巴分词来对第一风险信息进行片段划分。结巴分词是一种开源的中文分词工具，可以对输入的中文文本进行切词以及词性标注。为了保证不遗漏风险实体，相邻的两个风险片段信息具有首尾重叠区域，从而可以多次检验同一位置的信息。举例来说，用一个长度为90的窗口，步长为30，对风险信息进行滑动切分，得到一个风险片段信息列表。

步骤203中，针对任一风险片段信息，都会确定所述风险片段信息是否为第一文本类型，若是，则获取所述风险片段信息中的风险实体。以确定所述风险片段信息是第一文本类型的情况为例，具体实施方式可以为：

对所述风险片段信息进行分词，对分词后的每个词向量进行叠加，获得所述风险片段信息的文档向量；将所述文档向量输入第一二分类模型；所述第一二分类模型用于确定所述风险片段信息是否为第二文本类型；在确定所述风险片段信息为第二文本类型后，将所述文档向量输入第二二分类模型，确定所述风险片段信息为所述第一文本类型；所述第一文本类型是所述第二文本类型中的一种。

举例来说，第二文本类型包括广告文本类型和无意义文本类型。无意义文本类型指以搞笑玩梗，恶作剧，无聊发泄情绪等没有任何实际意义的文本类型。第一文本类型为广告文本类型。下面以此例子具体说明第一二分类模型和第二二分类模型的获得过程：

通过第一二分类模型和第二二分类模型两个二分类模型的来确定风险片段信息为广告文本类型的动机是：风险实体在互联网上多出现在广告文本类型的发布消息，因此可以先进行广告文本类型的识别，在此基础上进一步判断风险片段信息是否为广告文本类型。但是某些广告文本类型的风险片段信息和无意义文本在词语分布上非常接近，直接训练一个高准确率的广告文本类型的二分类模型是比较困难的。因此，可以首先训练一个识别“第二文本类型”的二分类模型，即判断风险片段信息是否为第二文本类型(包括广告文本类型和无意义文本类型)。另外，由于一些恶意的风险信息如“招聘兼职恶意刷单员”，为了防止被搜索引擎或者网络社区管理员轻易识别并删除，通常会被混入正常新闻内容中进行发布。这样一来，直接使用新闻正文训练的二分类模型的准确率会大打折扣。然后再训练一个区分包括广告文本类型和无意义文本类型的二分类模型，通过两个步骤来得到识别出广告文本类型的二分类模型，提高识别准确率。

第一步、训练“第二文本类型”的第一二分类模型，具体训练过程如下：

随机抽取6万篇发布信息，对每篇发布信息依次标注是否为“第二文本类型”(这样便于让“第二文本类型”的发布信息在训练样本中的分布，与真实数据中的分布是一致的)，将每篇发布信息用切词工具(如结巴切词)切词后，把每个词的词向量叠加得到该发布信息的文档向量。然后将这6万文档向量随机分为三份，4.2万向量作为训练集，1.2万向量作为测试集，0.6万向量作为验证集，并用预设二分类模型来(如XGBoost模型、fasttext模型)训练出第一二分类模型。

第二步、训练“第一文本类型”的第一二分类模型，具体训练过程如下：

获取3万篇标注了广告文本类型的发布信息，以及3万篇无意义文本类型的发布信息，将每篇发布信息用切词工具(如结巴切词)切词后，把每个词的词向量叠加得到该发布信息的文档向量。然后将这6万文档向量随机分为三份，4.2万向量作为训练集，1.2万向量作为测试集，0.6万向量作为验证集，并用用预设二分类模型来(如XGBoost模型、fasttext模型)训练出第二二分类模型。

需要说明的是，XGBoost二分类模型是由多个分类回归树组合得到的集成模型。而在树模型的训练过程中，通常需要设置一个最大树深度d，当树的深度超过d后进行剪枝处理，防止树模型在训练集上过拟合，但是这个d值如果设置太小，又会造成模型欠拟合的情况。因此，设置一个合理的d值十分重要。接下来描述如何挑选一个最优的最大树深度值。i)首先设置最大树深度为3；ii)在训练集上训练一个XGBoost模型，在测试集上计算当前模型的准确率，并记录下来；iii)依次设置最大树深度为4,5,6,…,20，重复步骤ii，记录下每个模型在测试集上的准确率；iv)挑选在测试集上准确率最大的XGBoost模型对应的最大树深度d值，作为最终的参数选择，最后计算该模型在验证集上的准确率，这个值就是最终的模型性能结果，作为后续模型改进的一个参考值。

步骤103中，确定了所述风险片段信息为第一文本类型后，所述风险片段信息中的风险实体包括多种类别的风险实体(如字符类和汉字类)；获取所述风险片段信息中的风险实体的方式可以为：

将所述风险片段信息中与预设匹配规则匹配到的词语，作为所述风险片段信息中的风险实体的第一类别的风险实体组合；针对所述第一类别组合中任一风险实体，从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子；通过实体标注模型，从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合；将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语，作为所述风险片段信息中的风险实体。

下面举例说明上述实施方式的动机：

举例来说，第一类别的风险实体组合为手机号码、座机号码、微信号码、QQ号码、邮箱、人名、机构名和地名，其中手机号码、座机号码、微信号码、QQ号码、邮箱和机构名可以直接用于后续贷前贷中风控来过滤风险用户。因此，可以考虑到风险实体的用户在互联网上发布完风险信息(如兼职招聘，中介代办，卖车广告等)后，是需要别人来主动联系的，所以大多数风险信息中都会包含有风险实体的联系方式，所以针对步骤b保留下来的新闻数据，首先从中抽取可能存在的联系方式，然后在联系方式的前后抽取对应的人名，机构名和地名。

具体来说，以预设匹配规则为所述第一类别包括的至少一个正则匹配表达式为例；将所述风险片段信息中与预设匹配规则匹配到的词语，作为所述风险片段信息中的风险实体的第一类别的风险实体组合的方式具体可以为：

将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配；其中，每个正则匹配表达式都对应一种风险实体子类型(如手机号码)；针对所述至少一个正则匹配表达式中任一正则匹配表达式(如手机号码的正则匹配表达式)，将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体，作为所述第一风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。

举例来说，手机号码的正则匹配表达式为：

^1[3|4|5|7|8][0-9]\d{8}$。

座机号码的正则匹配表达式为：

^0\d{2,3}-\d{7,8}$。

QQ号码的正则匹配表达式为：^[1-9]\d{4,9}$。

邮箱的正则匹配表达式为：

^[a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$。

若风险片段信息中不包含上述任意一种联系方式，则结束处理；若包含，则继续获取第二类别的风险实体组合，以所述实体标注模型为长短期记忆LSTM神经网络为例说明。所述LSTM神经网络是根据句子向量集训练的；所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型。将所述原句和所述相邻句子输入预训练的风险实体标注模型，将所述原句和所述相邻句子中标注为风险实体的词语，作为第二风险实体组合，具体可以采用以下实施方式：

针对所述原句和所述相邻句子中任一句子，将所述句子输入所述LSTM神经网络，获得所述句子中每个字的字类型；确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型，则将所述至少一个连续的字组成的词语标注为风险实体，并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。

举例来说，将包含第一类别的风险实体组合中风险实体(如手机号码)的句子，以及该句的前一条和后一条句子，分别输入实体标注模型，从中抽取可能包含的人名，机构名和地名。

从句子中抽取人名，机构名和地名的问题可以抽象为一个序列标注的问题，因此实体标注模型的训练步骤可以为：

用“B-PER”表示人名的首字(B-PER为字类型，对应人名的风险实体子类型)，“E-PER”表示人名的尾字，“B-ORG”表示机构名的首字，“E-ORG”表示机构名的尾字，“B-LOC”表示地名的首字，“E-LOC”表示地名的尾字，“O”表示其他字。举例来说，句子“中国银行李四在深圳出席会议”可以被标注为“中\B-ORG国\O银\O行\E-ORG李\B-PER四\E-PER在O\深\B-LOC圳\E-LOC出\O席\O会\O议\O”，B-PER和E-PER，B-ORG和E-ORG，B-LOC和E-LOC之间的字串分别表示人名，机构名和地名。共标注2万条句子，将句子中各个字的字向量(由word2vec工具提前训练得到)，按照顺序依次输入如图3示出结构的神经网络中，来训练一个实体标注模型。LSTM神经网络从下到上分别为输入层，双向LSTM层和CRF层。输入的字向量首先会经过双向LSTM神经元节点的处理，输出是对应字被标记为B-PER、E-PER、B-ORG、E-ORG、B-LOC、E-LOC和O的概率值。双向LSTM神经元节点的输出会作为CRF层的输入被进一步处理，网络最终的输出就是句中各个字的标注结果。其中双向LSTM层的神经元节点的参数采用正交初始化，所有神经元节点的激活函数采用ReLU函数。

在第一类别的风险实体组合和第二类别的风险实体组合都获取到之后，可以将第一类别的风险实体组合和第二类别的风险实体组合中抽取到的所有词语组合为一个json格式的数据存入风险实体库，json结构中包含如下键值：手机号码、座机号码、微信号码、QQ号码、邮箱、人名、机构名、地名、实体所在的新闻ID，新闻标题，新闻发布源，新闻发布时间和新闻链接。

步骤203之后，还可以执行以下方法更新风险词库：

第一步、将所述风险片段信息中的风险实体存入风险实体数据库；根据所述风险实体数据库，获取预设周期内采集的信息中包含风险实体的第二风险信息。

举例来说，第一步中，对最近7天内采集的所有新闻数据，依次判断是否包含风险实体库中的风险实体，若包含则将其定义为第二风险信息，保留下来作为下一步的输入。由于人名和地名会存在重名的情况，无法唯一确定特定的风险实体，因此这里判断包含风险实体的标准是：包含某个风险实体的手机号码，座机号码，微信号码，QQ号码，邮箱和机构名中的任意一个。

第二步、对所述第二风险信息切词，并按照长度为2的窗口和长度为3的窗口，获得所述第二风险信息的双词词组列表和三词词组列表；将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除，从而更新所述双词词组列表；将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除，从而更新所述三词词组列表；将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除，从而更新所述双词词组列表和所述三词词组列表；其中，风险指数与第二频次与第一频次的比值呈负相关；所述第一频次为词组在风险文本中出现的频次；所述第二频次为词组在非风险文本中出现的频次；根据更新后的所述双词词组列表和更新后的所述三词词组列表，更新所述风险词库。

将第二风险信息的依次过滤标点符号，并用切词工具进行切词，得到正文的词列表。然后用一个长度为2的窗口在词列表上滑动，得到所有可能的双词词组，同理用一个长度为3的窗口在词列表上滑动，得到所有可能的三词词组。例如，正文切词后的词列表为[A,B,C,D,E,F]，得到的双词词组列表为[AB,BC,CD,DE,EF]，三词词组列表为[ABC,BCD,CDE,DEF]。

接下来根据词频来分析上述的双词词组与三词词组是被偶然组合在一起的，还是作为一个固定搭配被频繁的使用，前者比如“企业用户”，后者比如“黑户洗白”，而后者也是本场景需要筛选的词组。用P(A)表示词语A在所有风险新闻中出现的概率，那么一个双词词组AB会被固定搭配使用的语义搭配度为

一个三词词组ABC的语义搭配度为

依次计算所有双词和三词词组被固定搭配使用的语义搭配度，语义搭配度越高证明词组被固定搭配使用的概率越高，因此将语义搭配度低于第一预设阈值(如10)的双词词组与可能性低于第二预设阈值(如100)的三词词组从双词词组列表或三词词组列表中删除。

接下来在对双词词组列表或三词词组列表的风险指数进行评估，需要说明的是，风险指数与第二频次与第一频次的比值呈负相关。举例来说用第一频次D′(AB)和第二频次D(AB)分别表示词组AB在风险文本中出现的频次和非风险文本中出现的频次(具体可通过查表获得统计频次)，那么一个词组所携带的风险指数可以表示为：

三词词组所携带的风险指数的表示同双词词组，不再赘述。依次计算所有双词和三词词组所携带的风险指数β，将β值小于第三预设阈值(如5)的词组从双词词组列表或从三词词组列表中删除。最后判断保留下来的双词词组和三词词组，是否已经存在于风险词库中，若存在，则跳过，若不存在，则将该词加入风险词库中。

该步骤之后，还可以对风险信息进行展示，具体来说：

风险实体及风险信息展示：通过网页形式对风险实体库内的数据进行展示，同时展示包含该风险实体的风险信息列表。可以由业务分析员进行人工审核，将正确的风险实体加入黑名单，删除误召回的无风险实体；

风险关键词和风险信息展示：通过网页形式对风险词库内的数据进行展示，同时展示包含该风险词的风险信息列表，由业务分析员进行人工审核，删除误召回的无风险词。

如图4所示，本申请提供一种风险实体获取装置，包括：确定模块401，用于确定包含风险词的第一风险信息；所述风险词来源于预收集的风险词库；处理模块402，用于对所述第一风险信息进行片段划分，获取多个风险片段信息；相邻的两个风险片段信息具有首尾重叠区域；针对任一风险片段信息，若确定所述风险片段信息为第一文本类型，则获取所述风险片段信息中的风险实体。

一种可选实施方式中，所述处理模块402具体用于：对所述风险片段信息进行分词，对分词后的每个词向量进行叠加，获得所述风险片段信息的文档向量；将所述文档向量输入第一二分类模型；所述第一二分类模型用于确定所述风险片段信息为第二文本类型；在确定所述风险片段信息为第二文本类型后，将所述文档向量输入第二二分类模型，确定所述风险片段信息是否为所述第一文本类型；所述第一文本类型是所述第二文本类型中的一种。

一种可选实施方式中，所述风险片段信息中的风险实体包括多种类别的风险实体；所述处理模块402具体用于：将所述风险片段信息中与预设匹配规则匹配到的词语，作为所述风险片段信息中的风险实体的第一类别的风险实体组合；针对所述第一类别组合中任一风险实体，从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子；通过实体标注模型，从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合；将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语，作为所述风险片段信息中的风险实体。

一种可选实施方式中，所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式；所述处理模块402具体用于：将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配；其中，每个正则匹配表达式都对应一种风险实体子类型；针对所述至少一个正则匹配表达式中任一正则匹配表达式，将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体，作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。

一种可选实施方式中，所述实体标注模型为长短期记忆LSTM神经网络；所述LSTM神经网络是根据句子向量集训练的；所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型；所述处理模块402具体用于：针对所述原句和所述相邻句子中任一句子，将所述句子输入所述LSTM神经网络，获得所述句子中每个字的字类型；确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型，则将所述至少一个连续的字组成的词语标注为风险实体，并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。

一种可选实施方式中，所述获取所述风险片段信息中的风险实体之后，所述处理模块402具体用于：将所述风险片段信息中的风险实体存入风险实体数据库，以更新所述风险实体数据库；根据所述风险实体数据库，获取预设周期内采集的信息中包含风险实体的第二风险信息；对所述第二风险信息切词，并按照长度为2的窗口和长度为3的窗口，获得所述第二风险信息的双词词组列表和三词词组列表；将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除，从而更新所述双词词组列表；将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除，从而更新所述三词词组列表；将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除，从而更新所述双词词组列表和所述三词词组列表；其中，风险指数与第二频次与第一频次的比值呈负相关；所述第一频次为词组在风险文本中出现的频次；所述第二频次为词组在非风险文本中出现的频次；根据更新后的所述双词词组列表和更新后的所述三词词组列表，更新所述风险词库。

本申请实施例提供一种计算机设备，包括程序或指令，当所述程序或指令被执行时，用以执行本申请实施例提供的一种风险实体获取方法及任一可选方法。

本申请实施例提供一种存储介质，包括程序或指令，当所述程序或指令被执行时，用以执行本申请实施例提供的一种风险实体获取方法及任一可选方法。

最后应说明的是：本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种风险实体获取方法，其特征在于，包括：

确定包含风险词的第一风险信息；所述风险词来源于预收集的风险词库；

对所述第一风险信息进行片段划分，获取多个风险片段信息；相邻的两个风险片段信息具有首尾重叠区域；

针对任一风险片段信息，若确定所述风险片段信息为第一文本类型，则获取所述风险片段信息中的风险实体。

2.如权利要求1所述的方法，其特征在于，确定所述风险片段信息为第一文本类型，包括：

对所述风险片段信息进行分词，对分词后的每个词向量进行叠加，获得所述风险片段信息的文档向量；

将所述文档向量输入第一二分类模型；所述第一二分类模型用于确定所述风险片段信息是否为第二文本类型；

在确定所述风险片段信息为第二文本类型后，将所述文档向量输入第二二分类模型，确定所述风险片段信息为所述第一文本类型；所述第一文本类型是所述第二文本类型中的一种。

3.如权利要求1所述的方法，其特征在于，所述风险片段信息中的风险实体包括多种类别的风险实体；所述获取所述风险片段信息中的风险实体，包括：

将所述风险片段信息中与预设匹配规则匹配到的词语，作为所述风险片段信息中的风险实体的第一类别的风险实体组合；

针对所述第一类别组合中任一风险实体，从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子；通过实体标注模型，从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合；

将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语，作为所述风险片段信息中的风险实体。

4.如权利要求3所述的方法，其特征在于，所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式；所述将所述风险片段信息中与预设匹配规则匹配到的词语，作为所述风险片段信息中的风险实体的第一类别的风险实体组合；包括：

将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配；其中，每个正则匹配表达式都对应一种风险实体子类型；

针对所述至少一个正则匹配表达式中任一正则匹配表达式，将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体，作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。

5.如权利要求3所述的方法，其特征在于，所述实体标注模型为长短期记忆LSTM神经网络；所述LSTM神经网络是根据句子向量集训练的；所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型；所述通过实体标注模型，从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合；包括：

针对所述原句和所述相邻句子中任一句子，将所述句子输入所述LSTM神经网络，获得所述句子中每个字的字类型；

确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型，则将所述至少一个连续的字组成的词语标注为风险实体，并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。

6.如权利要求1-5任一所述的方法，其特征在于，所述获取所述风险片段信息中的风险实体之后，还包括：

将所述风险片段信息中的风险实体存入风险实体数据库，以更新所述风险实体数据库；

根据所述风险实体数据库，获取预设周期内采集的信息中包含风险实体的第二风险信息；

对所述第二风险信息切词，并按照长度为2的窗口和长度为3的窗口，获得所述第二风险信息的双词词组列表和三词词组列表；

将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除，从而更新所述双词词组列表；将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除，从而更新所述三词词组列表；

将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除，从而更新所述双词词组列表和所述三词词组列表；其中，风险指数与第二频次与第一频次的比值呈负相关；所述第一频次为词组在风险文本中出现的频次；所述第二频次为词组在非风险文本中出现的频次；

根据更新后的所述双词词组列表和更新后的所述三词词组列表，更新所述风险词库。

7.一种风险实体获取装置，其特征在于，包括：

确定模块，用于确定包含风险词的第一风险信息；所述风险词来源于预收集的风险词库；

处理模块，用于对所述第一风险信息进行片段划分，获取多个风险片段信息；相邻的两个风险片段信息具有首尾重叠区域；针对任一风险片段信息，若确定所述风险片段信息为第一文本类型，则获取所述风险片段信息中的风险实体。

8.如权利要求7所述的装置，其特征在于，所述处理模块具体用于：

将所述文档向量输入第一二分类模型；所述第一二分类模型用于确定所述风险片段信息为第二文本类型；

在确定所述风险片段信息为第二文本类型后，将所述文档向量输入第二二分类模型，确定所述风险片段信息是否为所述第一文本类型；所述第一文本类型是所述第二文本类型中的一种。

9.一种计算机设备，其特征在于，包括程序或指令，当所述程序或指令被执行时，如权利要求1至6中任意一项所述的方法被执行。

10.一种存储介质，其特征在于，包括程序或指令，当所述程序或指令被执行时，如权利要求1至6中任意一项所述的方法被执行。