CN108520343B

CN108520343B - 风险模型训练方法、风险识别方法、装置、设备及介质

Info

Publication number: CN108520343B
Application number: CN201810250165.2A
Authority: CN
Inventors: 金戈; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2022-07-19
Anticipated expiration: 2038-03-26
Also published as: CN108520343A; WO2019184118A1

Abstract

本发明公开一种风险模型训练方法、风险识别方法、装置、设备及介质，该风险模型训练方法包括：获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联；基于所述机构标识按照同等比例对所述原始训练数据进行划分，获取正负样本；对所述正负样本文本向量化处理，获取向量化表示的目标训练数据；采用条件随机场算法对所述目标训练数据进行训练，获取目标风险模型。该风险模型训练方法有效解决当前业内无法对公共平台中用户所发表的数据的安全性进行识别的问题。

Description

风险模型训练方法、风险识别方法、装置、设备及介质

技术领域

本发明涉及数据预测领域，尤其涉及一种风险模型训练方法、风险识别方法、装置、设备及介质。

背景技术

随着互联网技术的发展，越来越多的用户习惯在公共社交平台上发表或传播宣传信息，例如用于进行业务宣传的宣传广告等。由于公共社交平台不能对用户上传的宣传信息进行审核，使得通过公共社交平台传播的宣传信息的风险性无法估计，即无法评估这些宣传信息的真实性，其他用户误信这些宣传信息的描述而进行相应的操作，可能导致财产损失。例如，一保险机构的业务人员A可能通过一公共社交平台发表某一保险的宣传广告，以吸引客户购买相关保险，如果该业务人员A上传的虚假的宣传广告，而客户B基于该虚假的宣传广告购买了保险，可能对客户B造成财产损失。当前业内还没有针对特定领域(如保险领域)的用于识别风险的风险模型，无法识别公共社交平台上的宣传信息的风险，使得公共社交平台上传播的宣传信息可能会导致其他用户财产损失。

发明内容

本发明实施例提供一种风险模型训练方法、风险识别方法、装置、设备及介质，以解决当前业内没有针对公共社交平台上传的宣传信息进行识别的风险模型的问题。

第一方面，本发明实施例提供一种风险模型训练方法，包括：

获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联；

基于所述机构标识按照同等比例对所述原始训练数据进行划分，获取正负样本；

对所述正负样本进行文本向量化处理，获取向量化表示的目标训练数据；

采用条件随机场算法对所述目标训练数据进行训练，获取目标风险模型。

第二方面，本发明实施例提供一种风险模型训练装置，包括：

原始训练数据获取模块，用于获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联；

正负样本获取模块，用于基于所述机构标识按照同等比例对所述原始训练数据进行划分，获取正负样本；

目标训练数据获取模块，用于对所述正负样本进行文本向量化处理，获取向量化表示的目标训练数据；

目标风险模型获取模块，用于采用条件随机场算法对所述目标训练数据进行训练，获取目标风险模型。

第三方面，本发明实施例提供一种风险识别方法，包括：

获取与机构标识相对应的待识别数据；

将所述待识别数据输入到与所述机构标识相对应的目标风险模型进行识别，获取风险识别概率，所述目标风险模型是采用第一方面风险模型训练方法训练后获取的模型；

若风险识别概率大于预设概率，则判定所述待识别数据为高风险数据。

第四方面，本发明实施例提供一种风险识别装置，包括：

待识别数据获取模块，用于获取与机构标识相对应的待识别数据；

风险识别概率获取模块，用于将所述待识别数据输入到与所述机构标识相对应的目标风险模型进行识别，获取风险识别概率，所述目标风险模型是采用第一方面风险模型训练方法训练后获取的模型；

高风险数据判定模块，用于若风险识别概率大于预设概率，则判定所述待识别数据为高风险数据。

第五方面，本发明实施例提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述风险模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现所述风险识别方法的步骤。

第六方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述风险模型训练方法的步骤；或者，所述计算机程序被处理器执行时实现所述风险识别方法的步骤。

本发明实施例提供的一种风险模型训练方法、装置、设备及介质中，先获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联，以便基于机构标识按照同等比例对原始训练数据进行划分，获取正负样本，能够有效防止模型训练过拟合的情况，以使通过正负样本训练获得的风险模型的识别效果更加精准。然后，对正负样本进行文本向量化处理，获取向量化表示的目标训练数据，以便将目标训练数据输入到神经网络模型进行训练，减少模型训练的计算量，提高模型训练的效率。最后，采用条件随机场算法对目标训练数据进行训练，获取目标风险模型，解决了其他判别式模型难以避免的标记偏置问题，提高模型识别的准确率。

本发明实施例提供的一种风险识别方法、装置、设备及介质中，获取与机构标识相关联的待识别数据，该待识别数据与用户ID关联，然后，将待识别数据输入到目标风险模型进行识别，获取风险识别概率。最后，最后，对风险识别概率进行判断，若风险识别概率大于预设概率，则待识别数据为高风险数据，以便于识别用户在公共社交平台或机构内部通信平台上传播的待识别数据的风险性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1中提供的风险模型训练方法的一流程图。

图2是图1中步骤S13的一具体示意图。

图3是图2中步骤S132的一具体示意图。

图4是图1中步骤S14的一具体示意图。

图5是本发明实施例2中提供的风险模型训练装置的一原理框图。

图6是本发明实施例3中提供的风险识别方法的一流程图。

图7是本发明实施例4中提供的风险识别装置的一原理框图。

图8是本发明实施例6中提供的计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1示出本实施例中风险模型训练方法的流程图。该风险模型训练方法应用在社交平台上，或者银行、证券、保险等金融机构或需要进行风险识别的其他机构上，用于训练特定领域的风险模型，以便基于该风险模型对用户通过社交平台或者机构内部通信平台发表的特定领域的宣传信息进行风险识别，达到自主锁定风险源的目的。如图1所示，该风险模型训练方法包括如下步骤：

S11：获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联。

其中，原始训练数据包括但不限于特定领域语料库中的语料数据。本实施例中的特定领域具体指保险领域，特定领域语料库具体指以保险业务为主题的文本库。语料数据是指在语言的实际使用中真实出现过的语言材料数据。机构标识是用于识别机构数据的唯一标识，该机构标识包括目标机构标识和非目标机构标识。本实施例中的目标机构标识是指需要训练风险模型的机构的标识，即目标机构的标识。具体地，原始训练数据包括目标机构的语料数据和非目标机构的语料数据，例如，在需要训练平安保险机构的风险模型时，获取到的平安保险的语料数据为目标机构的语料数据，而人寿保险或者其他保险机构的语料数据为非目标机构的语料数据。可以理解地，其他非保险机构(如银行)的语料数据也可以作为非目标机构的语料数据。通过将每一原始训练数据与机构标识相关联，以使后续能够基于机构标识对原始训练数据进行划分，为模型训练提供支持。

S12：基于机构标识按照同等比例对原始训练数据进行划分，获取正负样本。

其中，正样本是指携带有目标机构标识的原始训练数据，负样本是指携带有非目标机构标识的原始训练数据。本实施例中，根据机构标识对原始训练数据按照同等比例进行划分(1:1)，即目标机构标识对应的原始训练数据与非目标机构标识对应的原始训练数据按同等比例划分，即可获取正负样本，能够有效防止模型训练过拟合的情况，以使通过正负样本训练获得的风险模型的识别效果更加精准。

S13：对正负样本进行文本向量化处理，获取向量化表示的目标训练数据。

其中，文本向量化处理是指对文本进行向量化表示的处理。具体地，由于模型是不能直接对词或字进行计算，因此在对原始训练数据进行训练时，需要对原始训练数据进行文本向量化处理，以获取向量化表示的目标训练数据，以便进行风险模型训练。

S14：采用条件随机场算法对目标训练数据进行训练，获取目标风险模型。

其中，目标风险模型是采用条件随机场算法对目标训练数据进行训练所获取到的准确率较高的模型。该目标风险模型与一机构标识相关联，以便后续采用该目标风险模型进行风险识别时，可基于该机构标识查询获取到对应的目标风险模型。

条件随机场(conditional random field，CRF)算法是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布的算法，其特点是假设输出随机变量构成马尔可夫随机场，条件随机场既具有判别式模型的优点，又具有产生式模型中的考虑上下文标记间的转移概率，以序列化形式进行全局参数优化和解码的特征的优点，解决了其他判别式模型难以避免的标记偏置问题。判别式模型(Discriminative Model)是直接对条件概率p(y|x；θ)建模。产生式模型(Generative Model)则会对x和y的联合分布p(x,y)建模。

本实施例中，先获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联，以便基于机构标识对原始训练数据按照同等比例进行划分，获取正负样本，能够有效防止模型训练过拟合的情况，以使通过正负样本训练获得的风险模型的识别效果更加精准。然后，对正负样本进行文本向量化处理，获取向量化表示的目标训练数据，以便基于目标训练数据进行模型训练时，减少模型训练的计算量，提高模型训练的效率。最后，采用条件随机场算法对目标训练数据进行训练，获取目标风险模型，以使该目标风险识别模型具有生成式模型的优点(即考虑到上下文标记间的转移概率的优点)，并解决了其他判别式模型难以避免的标记偏置问题，提高模型识别的准确率。

在一具体实施方式中，如图2所示，步骤S13中，即对正负样本进行文本向量化处理，获取向量化表示的目标训练数据，具体包括如下步骤：

S131：采用结巴分词工具对正负样本进行分词和去停用词处理，获取至少一个词次。

其中，停用词处理是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据之前或之后会自动过滤掉某些停用词的处理。分词处理是指按照词典将断句中的词进行切分的处理。词次是对正负样本进行分词后所得到的词元素。正样本是与目标机构标识相对应的原始训练数据，而负样本是与非目标机构标识相对应的原始训练数据。在原始训练数据中，可能会出现中文和/或英文，在后续进行分词时，中文字符和英文字符的分词操作是不同的，因此需要在进行分词之前还需对原始训练数据进行中英文区分。

本实施例中，对原始训练数据进行中英文区分的方法包括但不限于正则表达式。其中，正则表达式是对字符串操作的一种逻辑公式，是指用事先定义好的一些特定字符或者这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。具体地，采用正则表达式对中英文进行区分的方法如下：匹配中文字符的正则表达式为

[u4e00-u9fa5]，匹配英文字符的正则表达式为[a-zA-Z]。基于中文字符的正则表达式和英文字符的正则表达式对原始训练数据进行中英文区分，以获取对应的区分文本(包括中文字符和英文字符)，以使后续进行分词时能够快速的进行分词操作，提高模型训练的效率。

本实施例中，对正负样本进行分词的方法包括但不限于采用结巴分词工具对正负样本的中文字符进行分词。结巴分词工具是一种常用的中文分析工具，它可以有效地将句子里的词语一个个的提取出来，具有准确率高、效率高的优点。具体地，结巴分词工具中配置有停用词词典，还可以基于该停用词词典对正负样本进行去停用词处理，以排除停用词(如“我”“个”“下”)干扰，减少模型训练的计算量，提高模型训练的效率。

本实施例中，由于结巴分词工具是对中文字符进行切分的工具，因此对于英文字符可以采用预先存储的中英文对照表对英文字符进行映射，获取中文字符，然后采用结巴分词工具进行分词，提高模型的泛化能力。

S132：对至少一个词次进行向量化处理，获取向量化表示的目标训练数据。

其中，目标训练数据是对至少一个词次进行向量化处理得到的文本数据。具体地，采用TDF-IF算法对每一个词次在原始训练数据中的权值进行计算，并将其作为向量的一个维度，以实现对至少一个词次进行向量化表示，获取目标训练数据，以方便模型的训练，加快模型的训练效率。

本实施例中，采用结巴分词工具对正负样本进行分词和去停用词处理，获取至少一个词次，以提高模型的准确率和训练效率。在进行分词之前，还可采用中英文对照表对区分出来的英文字符进行映射，获取转换中文字符，以便采用结巴分词工具对转换中文字符进行分词，以提高模型的泛化能力。最后，对至少一个词次进行向量化处理，获取目标训练数据，为后续风险模型训练的输入提供方便。

在一具体实施方式中，如图3所示，步骤S132中，即对至少一个词次进行向量化处理，获取向量化表示的目标训练数据，具体包括如下步骤：

S1321：采用TF-IDF算法对至少一个词次进行运算，获取每一词次对应的词频。

其中，TF-IDF(term frequency–inverse document frequency)算法是一种用于信息检索与数据挖掘的常用加权算法，具有计算简单，效率快的优点。具体地，采用TF-IDF算法对每一个词次进行运算，以获取每一个词次在原始训练数据中的出现次数，即为词频。TF-IDF算法的计算公式为

其中，u表示词次在原始训练数据中的出现次数，U表示原始训练数据中的总词次，T为词频。本实施例中，采用TF-IDF算法对至少一个词次进行运算，获取每一词次对应的词频，计算过程简单，有利于提高风险模型的训练效率。

S1322：将每一词次对应的词频作为向量的维度，获取以向量形式表示的目标训练数据。

具体地，将每一个词次对应的词频作为向量的一个维度，获取以向量表示的目标训练数据。例如，原始训练数据为“保险期限-1年”，将原始训练数据进行分词后得到的词次为“保险”、“期限”、“1年”，假设通过步骤S1321计算出的各词次(“保险”、“期限”、“1年”)的词频依序为0.2、0.3和0.4，则将词次进行向量化处理得到的目标训练数据为(0.2，0.3，0.4)，以便输入模型进行训练，从而提高风险模型的训练效率。

本实施例中，先采用TF-IDF算法对每一个词次进行运算，以获取每一个词次在原始训练数据中的出现次数即词频，容易计算，有利于提高风险模型的训练效率。然后，将每一个词次对应的词频作为向量的一个维度，获取以向量表示的目标训练数据，以便输入模型进行训练，进一步提高风险模型的训练效率。

在一具体实施方式中，如图4所示，步骤S14中，即采用条件随机场算法对目标训练数据进行训练，获取目标风险模型，具体包括如下步骤：

S141：采用极大似然估计算法对目标训练数据进行计算，获取原始风险模型。

其中，极大似然估计算法是利用已知的样本的结果，在使用某个模型的基础上，反推最有可能导致这样结果的模型参数值的估计算法。由于该算法利用了分布函数形式,因此具有得到的估计精度较高的优点。具体地，条件随机场的模型为

其中，w_k表示特征函数的权值，Z(x)表示规范化因子。上述公式表示给定输入序列x(即目标训练数据中的语料数据),对输出序列y(即机构标识)预测的条件概率。其中f_k表示特征函数，特征函数通常取值为1或0；当满足特征条件时取值为1,否则为0。具体地，采用极大似然估计算法，对条件随机场的模型参数进行估计。首先对上述公式(即条件随机场的模型公式)取对数，得到如下计算公式

即原始风险模型。其中，f_k表示特征函数；λ_k表示特征函数对应的权值，即条件随机场模型中的参数w_k；(xⁱ,yⁱ)表示目标训练数据，θ＝{λ_k}。

S142：采用梯度下降算法对原始风险模型进行优化，获取目标风险模型。

其中，梯度下降算法(Gradient Descent)也称为最速下降算法，是在求解机器学习算法的模型参数，即无约束优化问题时，最常采用的方法之一。具体地，采用梯度下降算法对原始风险模型进行多次迭代求导优化求解，得到最小化的损失函数和模型参数值，即在多次迭代求导优化至导数为0时得到所需的模型参数θ，基于此模型参数，获取目标风险模型。本实施例中，对步骤S141中的极大似然函数进行求导，得到计算公式为

其中，

表示正则化项，正则化项即惩罚函数，该项对模型向量进行“惩罚”，从而避免过拟合问题。正则化项本质上是一种先验信息。本实施例中，采用梯度下降算法对原始风险模型中的模型参数进行优化，获取目标风险模型，该梯度下降算法计算简单，容易实现。

本实施例中，先对条件随机场模型进行取对数运算，得到似然函数，然后采用极大似然估计算法，对条件随机场模型的模型参数进行估计，由于极大似然估计算法利用了分布函数形式,因此具有得到的估计精度较高的优点，以提高风险模型的准确率。最后，采用梯度下降算法对原始风险模型的模型参数进行优化，获取目标风险模型，以简化模型计算的步骤，提高模型训练的效率。

本实施例中，先获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联，以便基于机构标识对原始训练数据按照同等比例进行划分，获取正负样本，能够有效防止模型训练过拟合的情况，以使通过正负样本训练获得的风险模型的识别效果更加精准。然后，采用结巴分词工具对正负样本进行分词和去停用词处理，获取至少一个词次，以提高模型的准确率和训练效率。并且，在进行分词之前，还可采用中英文对照表对区分出来的英文字符进行映射，获取转换中文字符，以便采用结巴分词工具对转换中文字符进行分词，以提高模型的泛化能力。接着，采用TF-IDF算法对每一个词次进行运算，以获取每一个词次在原始训练数据中的出现次数即词频，容易计算，有利于提高风险模型的训练效率。将每一个词次对应的词频作为向量的一个维度，获取以向量表示的目标训练数据，以便输入模型进行训练，进一步提高风险模型的训练效率，为后续风险模型训练的输入提供方便。最后，采用条件随机场算法对目标训练数据进行训练，获取目标风险模型，以使该目标风险识别模型具有生成式模型的优点，即考虑到上下文标记间的转移概率的优点，并解决了其他判别式模型难以避免的标记偏置问题，提高模型识别的准确率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

图5示出与实施例1中风险模型训练方法一一对应的风险模型训练装置的原理框图。如图5所示，该风险模型训练装置包括原始训练数据获取模块11、正负样本获取模块12、目标训练数据获取模块13和目标风险模型获取模块14。其中，原始训练数据获取模块11、正负样本获取模块12、目标训练数据获取模块13和目标风险模型获取模块14的实现功能与实施例中风险模型训练方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

原始训练数据获取模块11，用于获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联。

正负样本获取模块12，用于基于机构标识按照同等比例对原始训练数据进行划分，获取正负样本。

目标训练数据获取模块13，用于对正负样本进行文本向量化处理，获取向量化表示的目标训练数据。

目标风险模型获取模块14，用于采用条件随机场算法对目标训练数据进行训练，获取目标风险模型。

优选地，目标训练数据获取模块13包括词次获取单元131和目标训练数据获取单元132。

词次获取单元131，用于采用结巴分词工具对正负样本进行分词和去停用词处理，获取至少一个词次。

目标训练数据获取单元132，用于对至少一个词次进行向量化处理，获取向量化表示的目标训练数据。

优选地，目标训练数据获取单元132包括词频获取子单元1321和目标训练数据获取子单元1322。

词频获取子单元1321，用于采用TF-IDF算法对至少一个词次进行运算，获取每一词次对应的词频。

目标训练数据获取子单元1322，用于将每一词次对应的词频作为向量的维度，获取以向量形式表示的目标训练数据。

优选地，目标风险模型获取模块14包括原始风险模型获取单元141和目标风险模型获取单元142。

原始风险模型获取单元141，用于原始风险模型获取单元141，用于采用极大似然估计算法对目标训练数据进行计算，获取原始风险模型。

目标风险模型获取单元142，用于采用梯度下降算法对原始风险模型进行优化，获取目标风险模型。

实施例3

图6示出本实施例中风险模型训练方法的流程图。该风险模型训练方法应用在社交平台上，或者银行、证券、保险等金融机构或需要进行风险识别的其他机构上，以便采用目标风险模型对用户在社交平台或机构内部通信平台发表的特定领域的宣传信息进行风险识别，达到自主锁定风险源的目的。如图6所示，该风险模型训练方法包括如下步骤：

S21：获取与机构标识相对应的待识别数据，待识别数据与用户ID关联。

其中，待识别数据是采用爬虫工具实时采集发表在社交平台或者机构内部通信平台上的需要识别是否存在风险的数据。用户ID是用于识别用户的唯一标识，该用户ID可以是用户登录社交平台或者机构内部通信平台的用户帐号。本实施例中，该待识别数据具体为保险领域的相关数据。具体地，获取机构标识对应的待识别数据，该待识别数据与用户ID相关联，即用户在社交平台或者机构内部通信平台上公开发表过的数据为待识别数据，调用与机构标识相对应的目标风险模型对该待识别数据进行识别，以确定该待识别数据的风险。

具体地，该待识别数据可以采用爬虫工具从社交平台或者机构内部通信平台上公开的数据中爬取，以获取与机构标识相关联的待识别数据。本实施例中，爬虫工具包括但不限于ForeSpider数据采集软件。ForeSpider数据采集软件是可视化的通用性爬虫软件，可以通过简单的两步配置操作就可以采集，软件还自带免费的数据库，可以采集直接入库。在ForeSpider里有一个内置浏览器，在浏览器终输入账号和密码即可登录，还可以设置自动登录，以便下次爬虫时自动登录，实时获取待识别数据，达到实时进行风控的效果。

S22：将待识别数据输入到目标风险模型进行识别，获取风险识别概率。

本实施例中，将待识别数据输入到与机构标识相对应的目标风险模型中进行识别，在目标风险模型中对输入的待识别数据进行计算，并输出风险识别概率。具体地，在获取用户的待识别数据后，将待识别数据在与机构标识相对应的目标风险模型中进行计算，获取风险识别概率。本实施例中，该识别概率可以为0-1之间的实数。

S23：若风险识别概率大于预设概率，则判定待识别数据为高风险数据。

其中，预设概率是预先设置的用于评价与用户相关联的待识别数据是否存在风险的概率。本实施例中，将待识别数据在目标风险模型中进行处理获取的识别概率，与预设概率进行比较。若识别概率大于预设概率，则判定待识别数据为高风险数据。若识别概率小于或等于预设概率，则待识别数据为低风险数据。

进一步地，待识别数据与用户ID相关联，该用户ID与机构标识相关联，若判断判定待识别数据为高风险数据，则说明该用户为高风险用户，即离职高风险用户。例如，若用户为机构标识对应的银行、证券、保险等金融机构或需要进行风险识别的其他机构的员工，该员工在社交平台或者机构内部通信平台上以用户ID为登录账号发表一待识别数据时，在通过与机构标识对应的目标风险模型对该待识别数据进行识别，以确定该待识别数据是否为机构标识对应的目标机构的真实语料数据；若是，则说明该员工传播目标机构的宣传信息(即该识别数据)，不是离职高风险用户。若否，则说明该员工传播非目标机构(即其他机构)的宣传信息(即该识别数据)，可以据此确定该员工是否有跳槽打算，是离职高风险用户，以便于机构内部人员管理。

本实施例中，先采用爬虫工具从公开数据中进行实时爬取，以获取与机构标识相关联的待识别数据，达到实时进行风控的效果，然后，将待识别数据在目标风险模型中进行计算，获取风险识别识别概率。最后，对风险识别概率进行判断，若风险识别概率大于预设概率，则待识别数据为高风险数据，以便于识别用户在公共社交平台或机构内部通信平台上传播的待识别数据的风险性。

实施例4

图7示出与实施例3中风险识别方法一一对应的风险识别装置的原理框图。如图7所示，该风险识别装置包括待识别数据获取模块21、风险识别概率获取模块22和高风险数据判定模块23。其中，待识别数据获取模块21、风险识别概率获取模块22和高风险数据判定模块23的实现功能与实施例3中风险识别方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

待识别数据获取模块21，用于获取与机构标识相对应的待识别数据。

风险识别概率获取模块22，用于将待识别数据输入到与机构标识相对应的目标风险模型进行识别，获取风险识别概率，目标风险模型是采用实施例1中风险模型训练方法训练后获取的模型。

高风险数据判定模块23，用于若风险识别概率大于预设概率，则判定待识别数据为高风险数据。

实施例5

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中风险模型训练方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例2中风险模型训练装置中各模块/单元的功能，为避免重复，这里不再赘述；或者，该计算机程序被处理器执行时实现实施例3中风险识别方法，为避免重复，这里不再赘述；或者，该计算机程序被处理器执行时实现实施例4中风险识别装置中各模块/单元的功能，为避免重复，这里不再赘述。

实施例6

图8是本发明一实施例提供的计算机设备的示意图。如图8所示，该实施例的计算机设备80包括：处理器81、存储器82以及存储在存储器82中并可在处理器81上运行的计算机程序83。处理器81执行计算机程序83时实现上述实施例1中风险模型训练方法的步骤，为避免重复，此处不一一赘述。或者，处理器81执行计算机程序83时实现上述实施例2中风险模型训练装置中各模块/单元的功能，为避免重复，此处不一一赘述；或者，处理器81执行计算机程序83时实现上述实施例3中风险识别方法的步骤，为避免重复，此处不一一赘述；或者，处理器81执行计算机程序83时实现上述实施例4中风险识别装置中各模块/单元的功能，为避免重复，此处不一一赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种风险模型训练方法，其特征在于，包括：

获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联，其中，所述原始训练数据包括特定领域语料库中的语料数据，所述语料数据是指在语言的实际使用中真实出现过的语言材料数据；

基于所述机构标识按照同等比例对所述原始训练数据进行划分，获取正负样本，其中，正样本是指携带有目标机构标识的原始训练数据，负样本是指携带有非目标机构标识的原始训练数据；

采用条件随机场算法对所述目标训练数据进行训练，获取目标风险模型；

其中，所述采用条件随机场算法对所述目标训练数据进行训练，获取目标风险模型，包括：

采用极大似然估计算法对所述目标训练数据进行计算，获取原始风险模型；

采用梯度下降算法对所述原始风险模型进行优化，获取目标风险模型；

所述极大似然估计算法的计算公式为

其中，f_k表示特征函数，λ_k表示特征函数对应的权值，x为目标训练数据中的语料数据，y为所述机构标识，Z(xⁱ)表示归一化项；

所述梯度下降算法的计算公式为

其中，L表示原始风险模型，

表示正则化项。

2.如权利要求1所述的风险模型训练方法，其特征在于，所述对所述正负样本进行文本向量化处理，获取向量化表示的目标训练数据，包括：

采用结巴分词工具对所述正负样本进行分词和去停用词处理，获取至少一个词次；

对至少一个所述词次进行向量化处理，获取向量化表示的目标训练数据。

3.如权利要求2所述的风险模型训练方法，其特征在于，所述对至少一个所述词次进行向量化处理，获取向量化表示的目标训练数据，包括：

采用TF-IDF算法对至少一个所述词次进行运算，获取每一所述词次对应的词频；

将每一所述词次对应的词频作为向量的维度，获取以向量形式表示的目标训练数据。

4.一种风险识别方法，其特征在于，包括:

获取与机构标识相对应的待识别数据；

将所述待识别数据输入到与所述机构标识相对应的目标风险模型进行识别，获取风险识别概率，所述目标风险模型是采用权利要求1-3任一项风险模型训练方法训练后获取的模型；

5.一种风险模型训练装置，其特征在于，包括：

原始训练数据获取模块，用于获取至少两个机构的原始训练数据，每一原始训练数据与机构标识关联，其中，所述原始训练数据包括特定领域语料库中的语料数据，所述语料数据是指在语言的实际使用中真实出现过的语言材料数据；

正负样本获取模块，用于基于所述机构标识按照同等比例对所述原始训练数据进行划分，获取正负样本，其中，正样本是指携带有目标机构标识的原始训练数据，负样本是指携带有非目标机构标识的原始训练数据；

目标风险模型获取模块，用于采用条件随机场算法对所述目标训练数据进行训练，获取目标风险模型；其中，所述目标风险模型获取模块，还用于采用极大似然估计算法对所述目标训练数据进行计算，获取原始风险模型；

所述目标风险模型获取模块，还用于采用梯度下降算法对所述原始风险模型进行优化，获取目标风险模型；所述极大似然估计算法的计算公式为

所述梯度下降算法的计算公式为

其中，L表示原始风险模型，

表示正则化项。

6.一种风险识别装置，其特征在于，包括：

风险识别概率获取模块，用于将所述待识别数据输入到与所述机构标识相对应的目标风险模型进行识别，获取风险识别概率，所述目标风险模型是采用权利要求1-3任一项风险模型训练方法训练后获取的模型；

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-3任一项所述风险模型训练方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求4所述风险识别方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3任一项所述风险模型训练方法的步骤；或者，所述计算机程序被处理器执行时实现如权利要求4所述风险识别方法的步骤。