CN110688460B

CN110688460B - 风险识别的方法、装置、可读存储介质以及电子设备

Info

Publication number: CN110688460B
Application number: CN201910939475.XA
Authority: CN
Inventors: 何威; 邢轲; 高久翀
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-11-03
Anticipated expiration: 2039-09-30
Also published as: CN110688460A

Abstract

本说明书公开了一种风险识别的方法、装置、可读存储介质以及电子设备。在获取待识别信息后，根据该待识别信息以及预先保存的各风险类别对应的特征向量，确定该待识别信息所属的风险类别，其中，在确定各风险类别对应的特征向量时，可以获取用户历史上发布的历史信息，提取出该历史信息中的若干候选词，针对每个预设的风险类别，从若干候选词中选取该风险类别对应的核心关键词，确定出该风险类别对应的其他关键词，根据该核心关键词以及该其他关键词确定该风险类别对应的特征向量。由于针对每个预设的风险类别，该风险类别对应的特征向量能表征出该风险类别的特性，因此后续能有效识别出待识别信息的风险类别，有效提高了风险类别识别的准确性。

Description

风险识别的方法、装置、可读存储介质以及电子设备

技术领域

本说明书涉及计算机领域，尤其涉及一种风险识别的方法、装置、可读存储介质以及电子设备。

背景技术

在信息技术飞速发展的今天，人们可以在社交平台、社区论坛等网站中发布信息，然而，一些不法份子可能会在这些网站上发布一些风险信息，从而给他人造成一定的影响或损失。

为保证用户不受风险信息的影响，为各用户营造一个良好的信息发布环境。服务平台需要对风险信息以及风险信息所属的风险类别进行及时的识别。在现有技术中，服务平台主要通过两种方法对于风险信息所属的风险类别进行识别，第一种方法为人工识别风险信息所属的风险类别；第二种方法为人工构建与风险信息所属风险类别相关的关键词表，并通过该关键词表来对风险信息所属的风险类别进行识别。其中，当待识别信息中包含一个风险类别对应关键词表中的不低于设定数量的关键词时，则可将该风险类别作为该风险信息所属的风险类别。

然而上述提到的两种方式不仅会消耗大量的人工成本、同时效率低下。并且，不结合具体的语境而仅仅通过待识别信息中是否有关键词表中的关键词，则很可能会出现误识别的情况，所以，现有技术提供的方式也无法保证识别出的风险类别的准确性。

所以，如何快速、高效、准确地对风险信息所属的风险类别进行识别，则是一个亟待解决的问题。

发明内容

本说明书提供一种风险识别的方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种风险识别的方法，包括：

获取待识别信息；

根据所述待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别，其中，各风险类别对应的特征向量通过以下步骤确定：

获取用户历史上发布的历史信息，并从所述历史信息中提取出若干候选词；

针对每个预设的风险类别，从所述若干候选词中选取该风险类别对应的核心关键词；

根据所述核心关键词，从所述若干候选词中剩余的候选词中选取至少一个与所述核心关键词关联的候选词，作为该风险类别对应的其他关键词；

根据所述核心关键词以及该风险类别对应的其他关键词，确定该风险类别对应的特征向量并保存。

可选地，所述针对每个预设的风险类别，从所述若干候选词中选取该风险类别对应的核心关键词，包括：

针对每个预设的风险特征，根据预设的特征关联模型，确定每个候选词与该风险特征之间的相关度；

根据该风险特征与每个候选词之间的相关度，确定该风险特征对应的关联词集；

根据与该风险类别相匹配的至少一个风险特征所对应的关联词集，选取该风险类别对应的核心关键词。

可选地，所述根据该风险特征与每个候选词之间的相关度，确定该风险特征对应的关联词集，包括：

根据该风险特征与每个候选词之间的相关度从大到小的顺序，将每个候选词针对该风险特征进行排序；

将位于设定排位前的候选词作为该风险特征对应的关联词；

根据该风险特征对应的关联词，确定该风险特征对应的关联词集。

可选地，所述根据与该风险类别相匹配的至少一个风险特征所对应的关联词集，选取该风险类别对应的核心关键词，包括：

从与该风险类别相匹配的至少一个风险特征所对应的关联词集中确定与该风险类别对应的至少一个候选核心关键词；

针对每个候选核心关键词，根据该候选核心关键词与所述至少一个风险特征之间的相关度，确定该候选核心关键词对应的关键词评分；

将关键词评分最高的候选核心关键词作为该风险类别对应的核心关键词。

可选地，所述根据该候选核心关键词与所述至少一个风险特征之间的相关度，确定该候选核心关键词对应的关键词评分，包括：

从该候选核心关键词与所述至少一个风险特征之间的相关度中，确定最高相关度；

根据所述最高相关度，确定该候选核心关键词对应的关键词评分。

可选地，所述根据所述核心关键词，从所述若干候选词中剩余的候选词中选取至少一个与所述核心关键词关联的候选词，作为该风险类别对应的其他关键词，包括：

确定所述核心关键词的词向量，以及与该风险类别相匹配的至少一个风险特征所对应的关联词集中包含的除所述核心关键词以外的每个关联词的词向量；

针对所述每个关联词，根据该关联词的词向量以及所述核心关键词的词向量，确定该关联词与所述核心关键词之间的相关度；

根据确定出的每个关联词与所述核心关键词之间的相关度从大到小的顺序，对每个关联词进行排序，得到排序结果；

根据所述排序结果，确定该风险类别对应的其他关键词。

可选地，所述根据所述核心关键词以及该风险类别对应的其他关键词，确定该风险类别对应的特征向量，包括：

确定所述核心关键词的词向量，以及该风险类别对应的每个其他关键词的词向量；

针对该风险类别对应的每个其他关键词，根据该其他关键词的词向量以及所述核心关键词的词向量，确定所述核心关键词与该其他关键词对应的相关度，作为该其他关键词的相关度；

根据所述核心关键词的词向量、所述每个其他关键词的词向量，以及所述每个其他关键词的相关度，确定该风险类别对应的特征向量。

可选地，所述根据所述待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别，包括：

根据所述待识别信息，判断所述待识别信息是否为风险信息；

若确定所述待识别信息为风险信息，根据所述待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别。

可选地，所述根据所述待识别信息，判断所述待识别信息是否为风险信息，包括：

确定所述待识别信息对应的文本向量；

将所述文本向量输入到预设的识别模型中，以判断所述待识别信息是否为风险信息。

根据所述待识别信息中包含的至少部分词的词向量，确定所述待识别信息对应的待匹配向量；

根据所述待匹配向量，以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别。

可选地，所述根据所述待识别信息中包含的至少部分词的词向量，确定所述待识别信息对应的待匹配向量，包括：

针对每个风险类别，将该风险类别对应的核心关键词，以及该风险类别对应的其他关键词，作为该风险类别对应的风险关联词；

根据各风险类别对应的风险关联词，从所述待识别信息中提取出所述待识别信息包含的风险关联词；

针对提取出的每个风险关联词，确定该风险关联词的词向量；

根据提取出的每个风险关联词的词向量，确定所述待识别信息对应的待匹配向量。

本说明书提供了一种风险识别的装置，包括：

获取模块，其配置为用于获取待识别信息；

识别模块，其配置为用于根据所述待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别，其中，各风险类别对应的特征向量通过以下模块所执行的步骤来确定：

提取模块，其配置为用于获取用户历史上发布的历史信息，并从所述历史信息中提取出若干候选词；

第一选取模块，其配置为用于针对每个预设的风险类别，从所述若干候选词中选取该风险类别对应的核心关键词；

第二选取模块，其配置为用于根据所述核心关键词，从所述若干候选词中剩余的候选词中选取至少一个与所述核心关键词关联的候选词，作为该风险类别对应的其他关键词；

保存模块，其配置为用于根据所述核心关键词以及该风险类别对应的其他关键词，确定该风险类别对应的特征向量并保存。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述风险识别的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述风险识别的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在获取待识别信息后，可以根据该待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定该待识别信息所属的风险类别，其中，在确定各风险类别对应的特征向量时，可以获取用户历史上发布的历史信息，并提取出该历史信息中的若干候选词，针对每个预设的风险类别，从若干候选词中选取该风险类别对应的核心关键词。确定出该风险类别对应的其他关键词，并根据该核心关键词以及该其他关键词确定该风险类别对应的特征向量并保存。

从上述方法中可以看出，针对每个预设的风险类别，服务平台通过确定该风险类别对应的核心关键词、其他关键词来得到该风险类别对应的特征向量，能够有效的表征出该风险类别的特性。所以，服务平台后续基于确定出的各风险类别对应的特征向量，能够有效的识别出待识别信息的风险类别。所以相对现有技术来说，可以有效的提高风险类别识别的准确性。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书提供的一种信息保存的流程示意图；

图2为本说明书提供的一种风险识别的流程示意图；

图3为本说明书提供的一种风险识别的装置示意图；

图4为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书中技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

在本说明书中，服务平台在获取到待识别信息后，可以基于预先保存的各风险类别对应的特征向量，对该待识别信息进行风险识别。所以，在本说明书中风险识别的方法主要涉及两个部分，一部分为信息保存，即，预先确定并保存每个预设的风险类别对应的特征向量，而另一部分是基于预先保存的风险类别对应的特征向量，来对获取到的待识别信息进行风险识别，下面将对这两个部分进行逐一的详细说明。

图1为本说明书提供的一种信息保存的流程示意图，具体包括以下步骤：

S101：获取用户历史上发布的历史信息，并从所述历史信息中提取出若干候选词。

在本说明书中，服务平台可以获取大量用户在历史上发布的历史信息。这些历史信息可以是用户在该服务平台上发布的信息，当然也可以是用户在其他服务平台上发布的信息。

服务平台获取到大量的历史信息后，可以对这些历史信息做预处理，这里提到的预处理可以包括：对这些历史信息进行文本分词、通过词性词频对这些历史信息中的一些词进行过滤，清洗掉一些对历史信息区分效果较弱，影响较小的词等方式。服务平台可以将经过预先处理后的历史信息中包含的词进行提取，得到若干候选词。

S102：针对每个预设的风险类别，从所述若干候选词中选取该风险类别对应的核心关键词。

服务平台从上述历史信息获取到若干候选词后，可以针对每个预设的风险类别，从若干候选词中选取该风险类别对应的核心关键词。该风险类别对应的核心关键词为若干候选词中最能体现出该风险类别显著特点的词。而这里提到的每个预设的风险类别可以是人为根据实际经验以及实际需求而进行设定的。

具体的，针对每个风险类别，服务平台可以先确定出与该风险类别相匹配的至少一个风险特征所对应的关联词集，进而根据确定出的关联词集，来选取该风险类别对应的核心关键词。其中，服务平台可以针对每个预设的风险特征，根据预设的特征关联模型，确定每个候选词与该风险特征之间的相关度。在这里，服务平台可以将上述经过预处理的历史信息输入到预设的特征关联模型中，得到每个候选词与该风险特征之间的相关度。例如，服务平台可以将上述历史信息，输入到预先通过无监督训练得到的文档主题生成模型(Latent Dirichlet Allocation，LDA)，从而得到每个候选词与各风险特征之间的相关度。

需要指出的是，上述提到的风险特征可以描述风险类别的某种特点，而对于每个风险类别来说，该风险类别可以对应一个或多个风险特征。例如，若风险类别为诈骗类别，则该风险类别对应的风险特征包括：费用、奖项等特征。

对于每个风险特征来说，该风险特征可以涉及一个或多个关联词，例如，在上述示例中，诈骗类别对应的风险特征包括费用、奖项，而对于费用这一风险特征来说，诸如汇款、手续费、奖金等词均能够在一定程度上涉及到这一风险特征；同理，对于奖项这一风险特征来说，诸如中奖、特等奖等词也能够涉及到这一风险特征。所以，在本说明书中，一个风险特征可以对应一个关联词集，该关联词集中包含有涉及该风险特征的关联词。

所以，服务平台确定出该风险特征与每个候选词之间的相关度后，可以基于这些相关度，确定出该风险特征对应的关联词集。具体的，服务平台确定该风险特征对应的关联词集时，可以按照确定出的该风险特征与每个候选词之间的相关度从大到小的顺序，将每个候选词针对该风险特征进行排序。而后，可以将该排序中位于设定排位前的候选词进行选取，作为该风险特征对应的关联词，进而通过选取出的这些关联词构建出该风险特征对应的关联词集。

在构建出每个风险特征对应的关联词集后，服务平台可以根据与该风险类别相匹配的至少一个风险特征所对应的关联词集，选取出该风险类别对应的能够有效的反映出该风险类别显著特点的核心关键词。在本说明书中，可以通过人工选取的方式，从与该风险类别相匹配的至少一个风险特征对应的关联词集中选取出该风险类别对应的核心关键词。而人工选取核心关键词时，可能会出现针对该风险类别选取出多个核心关键词的情况出现。对于这种情况来说，服务平台可以将人工从与该风险类别相匹配的至少一个风险特征所对应的关联词集中选取的多个关联词作为候选核心关键词，并进一步地从这些候选核心关键词中确定出该风险类别对应的核心关键词。

针对每个候选核心关键词，服务平台可以根据该候选核心关键词与上述至少一个风险特征之间的相关度，确定该候选核心关键词对应的关键词评分。其中，服务平台可以确定出这个候选核心关键词与上述至少一个风险特征的所有相关度，并从这些相关度中确定出最高相关度，进而将该最高相关度作为该候选核心关键词的关键词评分。当然，确定候选核心关键词的关键词评分所采用的方式并不唯一，除了上述提到的方式外，服务平台还可以从上述这些相关度中确定出平均相关度，进而将该平均相关度作为该候选核心关键词的关键词评分。在确定出各候选核心关键词的关键词评分后，服务平台可以将关键词评分最高的候选核心关键词作为该风险类别对应的核心关键词。

除了人工选取候选核心关键词的方式外，在本说明书中，服务平台也可以针对与该风险类别相匹配的每个风险特征，根据与该风险特征对应的关联词集中各关联词的相关度，确定出该风险特征对应的候选核心关键词，进而根据确定出的各候选核心关键词，确定出该风险类别对应的核心关键词。其中，针对与该风险类别相匹配的每个风险特征，服务平台可以将该风险特征对应的关联词集中与该风险特征相关度最高的关联词，作为该风险特征对应的候选核心关键词。而通过确定出的各候选核心关键词，来进一步地确定该风险类别对应的核心关键词所采用的方式与上述相同，在此就不详细进行说明了。

S103：根据所述核心关键词，从所述若干候选词中剩余的候选词中选取至少一个与所述核心关键词关联的候选词，作为该风险类别对应的其他关键词。

为了能够准确有效的确定出用于表征风险类别实质特点的特征向量，除了需要确定出该风险类别对应的核心关键词外，还需要进一步地确定出除该核心关键词外与该风险类别有紧密关联关系的其他关键词，进而通过该核心关键词以及这些其他关键词，才能确定出能够有效表征该风险类别实质特点的特征向量。

所以，在本说明书中，服务平台针对每个风险类别，可以进一步地确定出该风险类别对应的其他关键词。其中，这里提到的该风险类别对应的其他关键词是指与该核心关键词在实际应用中相关性较高，联系较为紧密的词。

具体的，服务平台可以先确定该核心关键词的词向量，以及除该核心关键词以外，与该风险类别相匹配的至少一个风险特征所对应的关联词集中包含的每个关联词的词向量。针对这里的每个关联词，服务平台可以根据该关联词的词向量以及该核心关键词的词向量，确定该关联词与该核心关键词之间的相关度。

其中，服务平台可以通过预设的方式确定出该关联词的词向量以及该核心关键词的词向量，这里提到的预设的方式可以是指word2vec。由于word2vec这种方式是基于词语间的上下文关系来确定词向量的，所以，通过这一方式所确定出的词向量，能更准确地根据实际语言环境表征出词与词之间的关联性。当然，服务平台也可以通过其他的方式来确定词向量，如，Glove、ELMo等。

在确定出上述词向量后，服务平台可以进一步地确定出该关联词与该核心关键词之间的相关度，其中，根据词向量确定该关联词与该核心关键词之间的相关度的方式可以有很多，如，余弦夹角、欧式距离等，在此不做具体的限定。

服务平台可以根据确定出的每个关联词与该核心关键词之间的相关度从大到小的顺序，对每个关联词进行排序，得到排序结果，并将位于设定排位前的关联词作为该风险类别对应的其他关键词。例如若服务平台确定出上述排序结果后，可以将排在前8位的关联词，作为该风险类别对应的其他关键词。

需要说明的是，由于后续需要根据该核心关键词以及该风险类别对应的其他关键词来确定该风险类别对应的特征向量，所以，该风险类别对应的其他关键词的数量不应过少，因为如果该风险类别对应的其他关键词的数量过少，则可能确定出的该风险类别的特征向量没有充分的表征出该风险类别的实质特点。当然，为了保证后续确定该风险类别对应特征向量的效率，该风险类别对应的其他关键词的数量也不应过多。该风险类别对应的其他关键词的数量可以根据实际的需求而适当设定。

S104：根据所述核心关键词以及该风险类别对应的其他关键词，确定该风险类别对应的特征向量并保存。

针对每个风险类别，服务平台确定出了该风险类别的核心关键词以及该风险类别对应的其他关键词后，可以根据该核心关键词的词向量以及该风险类别对应的其他关键词的词向量，确定该风险类别对应的特征向量。

具体的，服务平台可以根据确定出的该核心关键词的词向量、该风险类别对应的其他关键词的词向量，以及该核心关键词与该风险类别对应的其他关键词之间的相关度，确定该风险类别对应的特征向量并保存，进而在后续过程中，通过保存的各风险类别对应的特征向量，来对获取到的待识别信息进行风险识别。其中，服务平台具体可以通过以下公式来确定该风险类别对应的特征向量。

在该公式中，V为该风险类别对应的特征向量，V_key为该核心关键词对应的词向量，Vr_i为该风险类别对应的第i个其他关键词的词向量，Wr_i为该风险类别对应的第i个其他关键词与核心关键词之间的相关度，N为该风险类别对应的其他关键词的数量。这里提到的核心关键词与其他关键词之间的相关度可以通过计算核心关键词的词向量与其他关键词的词向量之间相似度的方式来进行确定。

当然，服务平台也可以根据其他方式确定该风险类别对应的特征向量。例如，可以通过确定该核心关键词以及该风险类别对应的每个其他关键词的词向量均值，来得到该风险类别对应的特征向量。

从上述方法可以看出，由于该风险类别对应的特征向量是基于该风险类别对应的核心关键词以及该风险类别对应的其他关键词来进行确定的，所以，最终确定出的该风险类别对应的特征向量能够有效的表征出该风险类别的特性。因此，基于确定出的各风险类别对应的特征向量，能够有效的识别出后续获取到的待识别信息的风险类别，从而提高风险识别的准确性。并且，整个上述过程可以通过服务平台来自动实现，无需人工参与，相比于现有技术来说，极大的降低了人力成本，从而进一步地提高了风险识别的效率。下面将针对如何通过保存的各风险类别对应的特征向量对待识别信息进行风险识别进行详细说明。

图2为本说明书提供的一种风险识别的流程示意图，具体包括以下步骤：

S201:获取待识别信息。

服务平台可以获取需要进行风险识别的信息，这里可以将需要进行风险识别的信息称之为待识别信息。该待识别信息可以是指用户在服务平台上发布的信息，也可以是指用户在其他平台上发布，但是需要通过该服务平台来进行风险识别的信息。

S202：根据所述待识别信息，判断所述待识别信息是否为风险信息。

服务平台可以将获取到的待识别信息进行诸如文本分词、停用词过滤等预处理，并进一步地确定出预处理后的待识别信息的文本向量。其中，确定该文本向量的方式可以有很多，例如，服务平台可以采用Doc2vec的方式，来确定出该待识别信息的文本向量，而其他的方式在此就不详细举例说明了。

服务平台可以将上述文本向量输入到预设的识别模型中，以判断该待识别信息是否为风险信息。若该待识别信息不为风险信息，无需继续识别该待识别信息的风险类别。若该待识别信息为风险信息，则服务平台可以根据预先保存的各风险类别对应的特征向量确定该待识别信息对应的风险类别。其中，这里提到的识别模型的具体形式可以有多种，如，支持向量机(Support Vector Machine，SVM)、深度神经网络等，在此就不做具体的限定。

S203：若确定所述待识别信息为风险信息，根据所述待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别。

若服务平台根据上述方式确定该待识别信息为风险信息，则可以根据预先保存的各风险类别对应的特征向量对该待识别信息所属的风险类别进行风险识别。

具体的，服务平台可以根据该待识别信息中包含的至少部分词的词向量，确定该待识别信息对应的待匹配向量。其中，服务平台可以将该待识别信息中所有词都转换成相应的词向量，进而确定出该待识别信息对应的待匹配向量，也可以通过该待识别信息中出现的与风险相关的词的词向量，确定出该待匹配向量。这里提到的与风险相关的词可以是指服务平台预先确定出的各风险类别对应的核心关键词以及其他关键词。

换句话说，服务平台在确定出各风险类别对应的特征向量后，可以针对每个风险类别，将该风险类别对应的核心关键词以及其他关键词作为该风险类别对应的风险关联词。服务平台可以将各风险类别对应的风险关联词构成相应的风险关联词集合进行保存。基于此，服务平台在确定该待识别信息对应的文本向量时，可以从该待识别信息中提取出该风险关联词集合所包含的风险关联词，进而根据提取出的这些风险关联词的词向量，确定出该待匹配向量。

具体的，针对提取出的每个风险关联词，服务平台可以确定该风险关联词的词向量。而后，根据提取出的每个风险关联词的词向量，可以计算出风险关联词的词向量的均值，进而将该均值作为该待识别信息对应的待匹配向量。

在确定出上述待匹配向量，服务平台可以将该待匹配向量与预先保存的各风险类别对应的特征向量进行匹配，以确定出该待识别信息所属的风险类别。具体的匹配方式可以通过计算待匹配向量与各风险类别对应的特征向量之间的相似度来实现。而计算向量相似度的方式可以有多种，如，余弦夹角、欧式距离等，在此不做具体的限定。

针对每个风险类别，若服务平台确定出该待匹配向量与该风险类别对应的特征向量之间相似度不低于设定相似度，则可以确定该风险类别为该待识别信息所属的风险类别。而需要说明的是，在实际应用中，服务平台可能会确定出有多个风险类别对应的特征向量与该待匹配向量之间的相似度均不低于该设定相似度。基于此，服务平台可以将特征向量与该待匹配向量之间的相似度都不低于设定相似度的风险类别，均作为该待识别信息所属的风险类别。当然，服务平台也可以在特征向量与该待匹配向量之间的相似度均不低于设定相似度的风险类别中，确定出特征向量与该待匹配向量之间相似度最大的风险类别，进而将该风险类别作为该待识别信息所属的风险类别。

从上述过程可以看出，在识别出待识别信息为风险信息的情况下，可以基于预先保存的各风险类别对应的特征向量，快速、准确的识别出该待识别信息所属的风险类别，从而在保证风险识别准确率的情况下，有效的提高了风险识别的效率。

还需说明的是，在本说明书中，服务平台中保存有针对不同风险类别对应的风险策略，不同风险策略中记录了其对应的风险类别的风险信息的具体处理方式。所以，在确定出上述待识别信息所属的风险类别后，可以进一步地查询出该风险类别所对应的风险策略，进而根据该风险策略，对该待识别信息进行风险处理。这样不仅实现了对风险信息的及时处理，提高了风险信息的处理效率，同时给工作人员在对风险信息的处理过程中带来了极大的便利。

以上为本说明书的一个或多个实施例提供的风险识别的方法，基于同样的思路，本说明书还提供了相应的风险识别的装置，如图3所示。

图3为本说明书提供的一种风险识别的装置示意图，具体包括：

获取模块301，其配置为用于获取待识别信息；

识别模块302，其配置为用于根据所述待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别，其中，各风险类别对应的特征向量通过以下模块所执行的步骤来确定：

提取模块303，其配置为用于获取用户历史上发布的历史信息，并从所述历史信息中提取出若干候选词；

第一选取模块304，其配置为用于针对每个预设的风险类别，从所述若干候选词中选取该风险类别对应的核心关键词；

第二选取模块305，其配置为用于根据所述核心关键词，从所述若干候选词中剩余的候选词中选取至少一个与所述核心关键词关联的候选词，作为该风险类别对应的其他关键词；

保存模块306，其配置为用于根据所述核心关键词以及该风险类别对应的其他关键词，确定该风险类别对应的特征向量并保存。

可选地，所述第一选取模块304，其配置为用于针对每个预设的风险特征，根据预设的特征关联模型，确定每个候选词与该风险特征之间的相关度；根据该风险特征与每个候选词之间的相关度，确定该风险特征对应的关联词集；根据与该风险类别相匹配的至少一个风险特征所对应的关联词集，选取该风险类别对应的核心关键词。

可选地，所述第一选取模块304，其配置为用于根据该风险特征与每个候选词之间的相关度从大到小的顺序，将每个候选词针对该风险特征进行排序；将位于设定排位前的候选词作为该风险特征对应的关联词；根据该风险特征对应的关联词，确定该风险特征对应的关联词集。

可选地，所述第一选取模块304，其配置为用于从与该风险类别相匹配的至少一个风险特征所对应的关联词集中确定与该风险类别对应的至少一个候选核心关键词；针对每个候选核心关键词，根据该候选核心关键词与所述至少一个风险特征之间的相关度，确定该候选核心关键词对应的关键词评分；将关键词评分最高的候选核心关键词作为该风险类别对应的核心关键词。

可选地，所述第一选取模块304，其配置为用于从该候选核心关键词与所述至少一个风险特征之间的相关度中，确定最高相关度；根据所述最高相关度，确定该候选核心关键词对应的关键词评分。

可选地，所述第二选取模块305，其配置为用于确定所述核心关键词的词向量，以及与该风险类别相匹配的至少一个风险特征所对应的关联词集中包含的除所述核心关键词以外的每个关联词的词向量；针对所述每个关联词，根据该关联词的词向量以及所述核心关键词的词向量，确定该关联词与所述核心关键词之间的相关度；根据确定出的每个关联词与所述核心关键词之间的相关度从大到小的顺序，对每个关联词进行排序，得到排序结果；根据所述排序结果，确定该风险类别对应的其他关键词。

可选地，所述保存模块306，其配置为用于确定所述核心关键词的词向量，以及该风险类别对应的每个其他关键词的词向量；针对该风险类别对应的每个其他关键词，根据该其他关键词的词向量以及所述核心关键词的词向量，确定所述核心关键词与该其他关键词对应的相关度，作为该其他关键词的相关度；根据所述核心关键词的词向量、所述每个其他关键词的词向量，以及所述每个其他关键词的相关度，确定该风险类别对应的特征向量。

由于该风险类别对应的核心关键词以及其他关键词能够更加准确有效的反映出该风险类别实际上涉及的一些特征，所以，基于该核心关键词以及该其他关键词所确定出的该风险类别对应的特征向量，能够有效的表征出该风险类别的实质特点，从而便于后续能够准确的判断出待识别信息所属的风险类别。

可选地，所述识别模块302，其配置为用于根据所述待识别信息，判断所述待识别信息是否为风险信息；若确定所述待识别信息为风险信息，根据所述待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别。

可选地，所述识别模块302，其配置为用于确定所述待识别信息对应的文本向量；将所述文本向量输入到预设的识别模型中，以判断所述待识别信息是否为风险信息。

可选地，所述识别模块302，其配置为用于根据所述待识别信息中包含的至少部分词的词向量，确定所述待识别信息对应的待匹配向量；根据所述待匹配向量，以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别。

可选地，所述识别模块302，其配置为用于针对每个风险类别，将该风险类别对应的核心关键词，以及该风险类别对应的其他关键词，作为该风险类别对应的风险关联词；根据各风险类别对应的风险关联词，从所述待识别信息中提取出所述待识别信息包含的风险关联词；针对提取出的每个风险关联词，确定该风险关联词的词向量；根据提取出的每个风险关联词的词向量，确定所述待识别信息对应的待匹配向量。

从这里可以看出，在确定出该待识别信息对应的待匹配向量时，实际上可以根据该待识别信息中包含的风险关联词的词向量进行确定。换一个角度来说，通过该这种方式来确定该待匹配向量，实际上是去除了该待识别信息中包含的除风险关联词以外的其他词所造成的干扰，从而保证了确定出的待匹配向量能够尽可能的反映出该待识别信息的风险特征。

从上述装置可以看出，针对每个预设的风险类别，上述装置通过确定该风险类别对应的核心关键词以及其他关键词来得到该风险类别对应的特征向量，能够有效的表征出该风险类别的特性。所以，该装置后续基于确定出的各风险类别对应的特征向量，能够有效的识别出待识别信息的风险类别。所以相对现有技术来说，可以有效的提高风险类别识别的准确性。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述风险识别的方法。

本说明书还提供了图4所示的电子设备的示意结构图。如图4所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述风险识别的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种风险识别的方法，其特征在于，包括：

获取待识别信息；

确定所述核心关键词的词向量，以及该风险类别对应的每个其他关键词的词向量，针对该风险类别对应的每个其他关键词，根据该其他关键词的词向量以及所述核心关键词的词向量，确定所述核心关键词与该其他关键词对应的相关度，作为该其他关键词的相关度，根据所述核心关键词的词向量、所述每个其他关键词的词向量，以及所述每个其他关键词的相关度，确定该风险类别对应的特征向量并保存。

2.如权利要求1所述的方法，其特征在于，所述针对每个预设的风险类别，从所述若干候选词中选取该风险类别对应的核心关键词，包括：

3.如权利要求2所述的方法，其特征在于，所述根据该风险特征与每个候选词之间的相关度，确定该风险特征对应的关联词集，包括：

将位于设定排位前的候选词作为该风险特征对应的关联词；

4.如权利要求2所述的方法，其特征在于，所述根据与该风险类别相匹配的至少一个风险特征所对应的关联词集，选取该风险类别对应的核心关键词，包括：

5.如权利要求4所述的方法，其特征在于，所述根据该候选核心关键词与所述至少一个风险特征之间的相关度，确定该候选核心关键词对应的关键词评分，包括：

6.如权利要求2所述的方法，其特征在于，所述根据所述核心关键词，从所述若干候选词中剩余的候选词中选取至少一个与所述核心关键词关联的候选词，作为该风险类别对应的其他关键词，包括：

根据所述排序结果，确定该风险类别对应的其他关键词。

7.如权利要求1所述的方法，其特征在于，所述根据所述待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别，包括：

8.如权利要求7所述的方法，其特征在于，所述根据所述待识别信息，判断所述待识别信息是否为风险信息，包括：

确定所述待识别信息对应的文本向量；

9.如权利要求1或7所述的方法，其特征在于，所述根据所述待识别信息以及预先确定并保存的各风险类别对应的特征向量，确定所述待识别信息所属的风险类别，包括：

10.一种风险识别的装置，其特征在于，包括：

获取模块，其配置为用于获取待识别信息；

保存模块，其配置为用于确定所述核心关键词的词向量，以及该风险类别对应的每个其他关键词的词向量，针对该风险类别对应的每个其他关键词，根据该其他关键词的词向量以及所述核心关键词的词向量，确定所述核心关键词与该其他关键词对应的相关度，作为该其他关键词的相关度，根据所述核心关键词的词向量、所述每个其他关键词的词向量，以及所述每个其他关键词的相关度，确定该风险类别对应的特征向量并保存。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～9任一项所述的方法。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～9任一项所述的方法。