CN114095282B

CN114095282B - 一种基于短文本特征提取的风控处理方法及设备

Info

Publication number: CN114095282B
Application number: CN202210069597.XA
Authority: CN
Inventors: 周维浩
Original assignee: Hangyin Consumer Finance Co ltd
Current assignee: Hangyin Consumer Finance Co ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-04-15
Anticipated expiration: 2042-01-21
Also published as: CN114095282A

Abstract

本申请提供了一种基于短文本特征提取的风控处理方法及设备，属于信息安全防护技术领域。该方法通过获取风控主体的待处理短文本，将待处理短文本输入短文本识别模型，确定待处理短文本的第一意图。确定风控主体的若干待测信息。根据用户画像模型以及各待测信息，生成风控主体所对应的用户画像数据。根据用户画像数据、各待测信息以及短文本识别模型，确定风控主体的若干第二意图。将第一意图与各第二意图进行匹配，以确定第一意图是否存在匹配度大于第一预设阈值的第二意图。若存在，根据各待测信息中的短文本，生成待处理短文本相应的风控聊天短文本。将风控聊天短文本与待处理短文本进行比对，以根据比对结果，确定风控主体是否为风险用户。

Description

一种基于短文本特征提取的风控处理方法及设备

技术领域

本申请涉及信息安全防护技术领域，尤其涉及一种基于短文本特征提取的风控处理方法及设备。

背景技术

风险控制（风控）是指风险管理者采用各种措施和方法，消灭或减少风险事件发生的各种可能性，或风险控制者减少风险事件发生时造成的损失。但是，总会有些事情是不能控制的，风险总是存在的。作为管理者会采取各种措施减小风险事件发生的可能性，或者把可能的损失控制在一定的范围内，以避免在风险事件发生时带来的难以承担的损失。

目前，互联网的发展，带动了经济的迅速发展，同时也给风控带来了巨大挑战。互联网大数据时代的到来，使得每个人所能够掌握的信息存在严重的不对称现象，人们在线上进行的活动、业务等，往往存在各种风险。在线上聊天过程中，双方都不能确定是否是本人正在与自己聊天，而进行转账或私密文件传输或私密信息交互时，为了确认对方是否本人往往需要进行电话或者视频通话的方式。但是，在一些不方便的场景下，对方可能不能进行电话或视频通话，这样的增加了信息传输的风险。

基于此，亟需一种能够在线上聊天过程中，对聊天内容的风控处理方法，通过识别对方身份，提高聊天中双方的信息交换的安全性。

发明内容

本申请实施例提供了一种基于短文本特征提取的风控处理方法及设备，用于解决线上聊天的信息交互存在风险，线上聊天的安全性低的技术问题。

一方面，本申请提供了一种基于短文本特征提取的风控处理方法，该方法包括：

获取风控主体的待处理短文本。将待处理短文本输入预设的短文本识别模型，确定待处理短文本的第一意图。确定风控主体的若干待测信息。其中，待测信息来自风控主体发表的动态、历史聊天记录。根据预设的用户画像模型以及各待测信息，生成风控主体所对应的用户画像数据。根据用户画像数据、各待测信息以及短文本识别模型，确定风控主体的若干第二意图。将第一意图与各第二意图进行匹配，以确定第一意图是否存在匹配度大于第一预设阈值的第二意图。在确定第一意图存在匹配度大于第一预设阈值的第二意图的情况下，根据各待测信息中的短文本，生成待处理短文本相应的风控聊天短文本。其中，风控聊天短文本用于表达第一意图。将风控聊天短文本与待处理短文本进行比对，以根据风控聊天短文本与待处理短文本的比对结果，确定风控主体是否为风险用户。

在本申请的一种实现方式中，将各待测信息进行分词处理，并确定分词处理后的各待测信息中的第一关键词。确定各待测信息中第一关键词相应的共现邻接词。其中，共现邻接词为各待测信息中第一关键词以外的关键词。根据各第一关键词及其共现邻接词，生成若干关键词三元组。其中，关键词三元组由一个第一关键词及其相应的两个共现邻接词，在各待测信息中的两两之间的共现次数组成。根据各关键词三元组，生成若干主题词语集。其中，主题词语集包括第一关键词相应的各关键词三元组中，两个共现邻接词组成的词对。基于待测信息中的词语在主题词语集的词对共现次数，确定待测信息的主题分布概率。根据主题分布概率，确定待测信息的主题标签，以通过各主题标签，生成若干第一待定意图，以根据各第一待定意图及用户画像数据，确定若干第二意图。

在本申请的一种实现方式中，通过短文本识别模型，确定用户画像数据相应的若干第二待定意图。其中，短文本识别模型为预先训练好的用于语义意图识别的神经网络模型。基于预设意图类型库以及第二待定意图，确定风控主体的若干第二意图。

在本申请的一种实现方式中，确定风控主体在区块链平台的主体账户。通过区块链平台中的第三方节点，获取主体账户的若干待测信息。其中，待测信息至少包括以下一项或多项：发表文章摘要、网站评论、聊天记录。确定风控主体是否为风险用户之后，方法还包括：将风控聊天短文本与待处理短文本比对结果，发送至区块链平台的第三方节点。接收第三方节点基于比对结果生成的反馈信息。其中，反馈信息包括：短信、语音。确定反馈信息是否为可信比对结果，以确定比对结果的可信度。其中，可信度用于确定风控主体是否为风险用户。

在本申请的一种实现方式中，通过互联网爬取技术，获取待处理短文本的来源平台的若干用户特征数据。其中，用户特征数据包括：用户评论、发表文章、发表动态。或者，通过预设特征样本库，确定若干用户特征数据。将用户特征数据进行短文本特征提取，并将短文本特征提取后的用户特征数据输入用户画像模型，对用户画像模型进行训练，直至通过用户画像模型，输出用户特征数据的用户画像数据的准确度大于预设值。

在本申请的一种实现方式中，根据风控主体相应的信息交互终端的选取操作，确定风控主体的各聊天文本。基于信息交互终端的记录时间戳，将各聊天文本中满足预设要求的文本进行归类处理，得到若干文本块。其中，预设要求为各聊天文本相应的记录时间戳的间隔小于预设时间值。确定各文本块中各词语的出现频率是否满足预设条件。预设条件为文本块中词语的出现频率为文本块中各词语的出现频率的最大值。根据满足预设条件的各词语，生成待关联序列。确定待关联序列中各词语的余弦相似度大于第二预设阈值的各词语，相应的文本块，作为待处理文本块。根据待处理文本块相应的记录时间戳，生成待处理短文本。

在本申请的一种实现方式中，根据各待测信息中的短文本中，各待测词语的分类属性及各待测标点符号的使用频率，对各待测词语及各待测标点符号分别进行分类处理。其中，分类属性至少包括：词性、词语频率、词语情感。分类处理后的各待测词语以及各待测标点符号，输入预先训练的编码器，得到编码向量。将编码向量输入训练好的解码器，确定风控聊天短文本。其中，解码器用于输出与第一意图相应的风控聊天短文本。

在本申请的一种实现方式中，生成分享控件，并发送分享控件至待处理短文本相应的信息交互终端的显示界面。基于信息交互终端的用户对分享控件的操作，将待处理短文本的比对结果，发送至第三方节点相应平台。

在本申请的一种实现方式中，将风控聊天短文本与待处理短文本分别进行分词处理，得到两组待比对文本组。将两组待比对文本组，按照语序，比对待比对文本组中各词语及各标点符号的相似度。其中，相似度至少包括以下一项或多项：词语或标点符号在文本中的位置数据的相似度、词语或标点符号的使用频率的相似度。在相似度大于第三预设阈值的情况下，确定风控主体不是风险用户。

另一方面，本申请实施例还提供了一种基于短文本特征提取的风控处理设备，该设备包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

获取风控主体的待处理短文本。将待处理短文本输入预设的短文本识别模型，确定待处理短文本的第一意图。确定风控主体的若干待测信息。其中，待测信息来自风控主体发表的动态、历史聊天记录。根据预设的用户画像模型以及各待测信息，生成风控主体所对应的用户画像数据。根据用户画像数据、各待测信息以及短文本识别模型，确定风控主体的若干第二意图。将第一意图与各第二意图进行匹配，以确定第一意图是否存在匹配度大于第一预设阈值的第二意图。在确定第一意图是否存在匹配度大于第一预设阈值的第二意图的情况下，根据各待测信息中的短文本，生成待处理短文本相应的风控聊天短文本。其中，风控聊天短文本用于表达第一意图。将风控聊天短文本与待处理短文本进行比对，以根据风控聊天短文本与待处理短文本的比对结果，确定风控主体是否为风险用户。

本申请通过上述方案，可以在线上聊天过程中，保证信息交互的安全，降低信息传输风险，可以通过短文本识别，识别对方身份是否为风险用户，提高聊天中双方的信息交换的安全性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种基于短文本特征提取的风控处理方法的一种流程示意图；

图2为本申请实施例中一种基于短文本特征提取的风控处理方法的另一种流程示意图；

图3为本申请实施例中一种基于短文本特征提取的风控处理方法中的一种示意图；

图4为本申请实施例中一种基于短文本特征提取的风控处理方法的再一种流程示意图；

图5为本申请实施例中一种基于短文本特征提取的风控处理方法中的主题分布概率的一种示意图；

图6为本申请实施例中一种基于短文本特征提取的风控处理方法中的情感分布曲线的一种示意图；

图7为本申请实施例中一种基于短文本特征提取的风控处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着网络技术发展，人们的社交活动逐渐从线下转移到线上。好友聊天、结识新朋友等，都可以通过网络实现。但是，网络聊天过程中，若进行转账、私密文件传输、私密信息交互，仅通过文字、图片等聊天内容时，不能轻易辨识对方身份，增加了信息传输的风险。

基于此，本申请实施例提供了一种基于短文本特征提取的风控处理方法及设备，用来解决线上聊天的信息交互存在风险，线上聊天的安全性低的技术问题。

以下结合附图，详细说明本申请的各个实施例。

本申请实施例提供了一种基于短文本特征提取的风控处理方法，如图1所示，该方法可以包括步骤S101-S108：

S101，服务器获取风控主体的待处理短文本。

在本申请实施例中，风控主体可以是聊天过程中的任意一方，例如用户A与用户B进行网络聊天，在用户A想要确认用户B的身份、保证聊天安全的情况下，用户B作为风控主体；若有必要，用户A也可以作为风控主体，本申请对于风控主体的数量不作具体限定。

需要说明的是，服务器作为基于短文本特征提取的风控处理方法的执行主体，仅为示例性存在，执行主体不仅限于服务器。

由于聊天过程中，聊天内容随时间而增多，若均作为待处理短文本，将影响风控处理效率。因此，在服务器获取风控主体的待处理短文本之前，如图2所示，本申请可以执行以下方法，具体包括以下步骤：

S201，服务器根据风控主体相应的信息交互终端的选取操作，确定风控主体的各聊天文本。

在本申请实施例中，该风控主体相应的信息交互终端可以是对风控主体进行风控处理的用户的终端设备。例如风控主体与用户A在沟通时，用户A所使用的终端设备，可以作为风控主体相应的信息交互终端。用户A可以对信息交互终端进行操作，例如点击、滑动、触摸等选取操作，选取风控主体与用户A在信息交互终端的显示界面产生的聊天文本，然后发送给服务器。如图3所示，风控主体、信息交互终端、服务器之间可以进行通信。信息交互终端可以是个人的终端如手机、电脑，也可以是企业、集团等大型服务器终端、服务器集群。本申请对于信息交互终端的具体类型，不作具体限定。

S202，服务器基于信息交互终端的记录时间戳，将各聊天文本中满足预设要求的文本进行归类处理，得到若干文本块。

其中，预设要求为各聊天文本相应的记录时间戳的间隔小于预设时间值。

在本申请实施例中，信息交互终端在接收到风控主体相应终端发送的聊天文本后，可以记录接收到聊天文本的时间，作为聊天文本的记录时间戳。服务器可以将各记录时间戳的间隔进行计算，并将计算得到的记录时间戳的间隔小于预设时间值的聊天文本，作为一个文本块。预设时间值可以根据实际的聊天场景进行选择，也可以根据风控主体与相应聊天对象的类型，进行确定，例如风控主体所在聊天场景为购买二手车的场景，预设时间值可以选择为5分钟；风控主体所在聊天场景为好朋友聊天场景，预设时间值可以选择1分钟。

举例说明，风控主体发送至信息交互终端的聊天文本，可以是在某日上午发送的N条聊天，N条聊天文本中，有N-1个记录时间戳的间隔小于预设时间值，那么服务器将N条聊天文本进行归类，生成一个文本块；若有N-2个记录时间戳的间隔小于预设时间值，那么服务器将N条聊天文本进行归类，生成两个文本块。

在本申请的一个实施例中，服务器根据聊天文本生成的若干文本块，可以生成若干文本块图像（灰度图像），并根据各文本块图像的灰度值，生成相应的第一哈希值，将各第一哈希值进行拼接运算，得到聊天文本的第二哈希值。服务器将第二哈希值以及各文本块图像，存储于区块链的某一区块。

通过上述方案，可以在区别于当前信息交互终端的终端，查询风控主体的待测信息时，将上述文本块图像中的聊天文本作为待测信息。

S203，服务器确定各文本块中各词语的出现频率是否满足预设条件。

预设条件为文本块中词语的出现频率为文本块中各词语的出现频率的最大值。

在本申请实施例中，服务器可以计算各文本块中的各词语的出现频率，如文本块中的词语总数为10个，其中词语a出现了两次，那么词语a的出现频率就是0.2。

在服务器计算出各文本块中的各词语的出现频率之后，可以确定词语的出现频率是否为文本块中各词语的出现频率的最大值。例如第一文本块有3个词语，分别的出现频率为：0.7、0.2、0.1，第二文本块有5个词语，分别的出现频率为：0.5、0.2、0.15、0.1、0.05，那么第一文本块中词语的出现频率的最大值为0.7，第二文本块中词语的出现频率最大值为0.5。

S204，服务器根据满足预设条件的各词语，生成待关联序列。

在本申请实施例中，服务器确定满足预设条件的各词语，即各文本块中词语的出现频率为最大值的词语，将满足预设条件的各词语，组成包含多个词语的待关联序列。待关联序列如[词语b，词语c，词语d，···，词语x]

S205，服务器确定待关联序列中各词语的余弦相似度大于第二预设阈值的各词语，相应的文本块，作为待处理文本块。

在本申请实施例中，服务器得到待关联序列之后，可以确定待关联序列中各词语的相关词汇。

具体地，待关联序列如[眼睛，楼梯]，服务器可以从预先设置的网站如中国知网、百度词条，也可以从新华字典、阅览新闻材料等电子材料中，确定待关联序列中，“眼睛”出现的语句，“眼睛”的近义词，以及“眼睛”词性、常用连接词，通过确定“楼梯”出现的语句，“楼梯”的近义词，以及“楼梯”词性、常用连接词。

服务器根据待关联序列，将获取到待关联序列中各词语相应的若干出现语句，若干近义词，词性，常用连接词，生成“眼睛”的关联树，该关联树包括若干出现语句中“眼睛”的前后名词、前后动词、前后介词，“眼睛”预设数量的近义词，词性、常用连接词。“楼梯”的关联树生成方式，可以如“眼睛”的关联树的生成方式。关联树以待关联序列中的词语为“树根”，与该词语相关的前后名词、前后动词、前后介词、近义词、词性、常用连接词作为树枝。服务器确定树枝相应的词语对应的二进制数，并将各二进制数组合为该“树根”词语相应的词语向量。

服务器得到待关联序列中各词语的词语向量之后，通过余弦相似度计算公式计算各词语的余弦相似度，具体公式如下：

其中，

为词语

与词语

的余弦相似度，

为词语

的第

个词语向量，

为词语

的第

个词语向量，

为词语向量总数。

在本申请实施例中，第二预设阈值可以通过计算聊天过程中，出现的同义词的相似度值得到，服务器将聊天过程中，出现的同义词的相似度值一一计算得到后，可以将相似度值的最小值作为第二预设阈值，也可以将相似度值的平均值作为第二预设阈值。

S206，服务器根据待处理文本块相应的记录时间戳，生成待处理短文本。

服务器得到待处理文本块之后，根据待处理文本块中的各文本的记录时间戳，即聊天过程中信息交互终端接收到待处理文本块中的聊天内容的时间，依次排序后，服务器生成待处理短文本。

通过按照记录时间戳，生成待处理短文本的技术方案，可以保证语句的连贯性，避免出现聊天内容主体偏离或语句混乱等问题发生，从而保证风控处理时的风控处理效率。

S102，服务器将待处理短文本输入预设的短文本识别模型，确定待处理短文本的第一意图。

本申请实施例中，服务器将待处理短文本输入预设的短文本识别模型，确定待处理短文本的第一意图，具体包括：

首先，服务器将待处理短文本输入短文本识别模型，以根据待处理短文本的语序，依次确定若干意图识别词向量。

短文本识别模型可以对待处理短文本进行分词处理，然后根据待处理短文本的语序，依次识别可以用于意图识别的词向量，作为意图识别词向量。短文本识别模型可以是预先训练的卷积神经网络模型，用于识别文本中可以作为意图识别的词向量，以及通过意图识别词向量生成短文本的意图。

具体地，如短文本中有“还贷”“买房”等意图识别词向量，则短文本识别模型可以识别到意图为“借钱”。

然后，服务器根据待处理短文本中的标点符号，对各意图识别词向量进行拼接处理，以得到相应的意图识别句向量。

根据待处理短文本中的标点符号位置，可以意图识别词向量进行拼接处理，以实现意图识别词向量分句的目的，从而得到意图识别句向量。

最后，服务器通过短文本识别模型，确定各意图识别句向量相应的语义信息，以根据各语义信息，生成待处理短文本的第一意图。

通过上述方案，可以通过短文本识别模型，对短文本进行意图识别，从而准确地得到待处理短文本的第一意图，保证风控处理的准确性。

S103，服务器确定风控主体的若干待测信息。

其中，待测信息来自风控主体发表的动态、历史聊天记录。

在本申请实施例中，基于短文本特征提取的风控处理方法可以应用于预先搭建的区块链平台，服务器、风控主体、信息交互终端对应于区块链平台的任一节点。确定风控主体的若干待测信息，具体包括：

服务器确定风控主体在区块链平台的主体账户。

服务器通过区块链平台中的第三方节点，获取主体账户的若干待测信息。其中，待测信息至少包括以下一项或多项：发表文章摘要、网站评论、聊天记录。

通过区块链平台，可以保证风控主体的待测信息不可篡改，而且可以通过多个节点的数据，对风控主体进行处理，保证风控处理时的信息安全，提高风控处理的准确性。

S104，服务器根据预设的用户画像模型以及各待测信息，生成风控主体所对应的用户画像数据。

在本申请实施例中，在服务器根据预设的用户画像模型以及各待测信息，生成风控主体所对应的用户画像数据之前，还包括：

首先，服务器通过互联网爬取技术，获取待处理短文本的来源平台的若干用户特征数据。

其中，用户特征数据包括：用户评论、发表文章、发表动态。

或者，服务器通过预设特征样本库，确定若干用户特征数据。

服务器可以通过爬虫软件，在待处理短文本的来源平台，例如微博平台、微信平台上得到用户在过去的用户评论、发表文章、发表动态等数据，作为用户特征数据。也可以是通过用户在网络上的注册信息、填写个人信息等数据，生成该用户的个人信息的预设特征样本库。

接着，服务器将用户特征数据进行短文本特征提取，并将短文本特征提取后的用户特征数据输入用户画像模型，对用户画像模型进行训练，直至通过用户画像模型，输出用户特征数据的用户画像数据的准确度大于预设值。

上述过程为用户画像模型的训练过程，保证用户画像模型输出准确地用户画像数据。

用户画像模型可以是通过用户特征数据预先训练好的数学模型、神经网络模型等，用户画像模型可以在处理待测信息时，根据待测信息中计算得到的情感词语、基本属性词语等，情感词语可反应用户的性格是否积极，基本属性词语可以包括职业、外观、年龄等。本申请还可以在训练中加入对待测信息分类的更多属性词语，以保证用户画像模型得到用户画像数据的准确度更高。

用户画像模型可以根据待测信息，输出用户画像数据，例如用户画像数据为：30岁、经理、积极、运动等。

S105，服务器根据用户画像数据、各待测信息以及短文本识别模型，确定风控主体的若干第二意图。

在本申请实施例中，服务器确定风控主体的若干第二意图，如图4所示，具体包括以下步骤：

S401，服务器将各待测信息进行分词处理，并确定分词处理后的各待测信息中的第一关键词。

待测信息有若干条，每个待测信息中包括若干词，服务器可以将每个词均作为该待测信息中的第一关键词，也可以选择待测信息中的一个词语作为第一关键词，本申请对此不作具体限定。

S402，服务器确定各待测信息中第一关键词相应的共现邻接词。

其中，共现邻接词为各待测信息中第一关键词以外的关键词。

服务器可以确定在待测信息中与第一关键词，共同出现的关键词，作为第一关键词的共现邻接词。如果待测信息中每个词都是第一关键词，那么服务器选中的一个第一关键词，与该第一关键词共同出现的其他第一关键词，即为共现邻接词。

S403，服务器根据各第一关键词及其共现邻接词，生成若干关键词三元组。

其中，关键词三元组由一个第一关键词及其相应的两个共现邻接词，在各待测信息中的两两之间的共现次数组成。

服务器可以选择第一关键词的共现邻接词中的两个关键词，组成第一关键词的关键词三元组，关键词三元组包括第一关键词与其两个共现邻接词，在各个待测信息中的共现次数。

在本申请的一个实施例中，由于第一关键词的共现邻接词不止两个，本申请只将两个关键词作为组成关键词三元组的组成部分，而不限定第一关键词不可出现于另一关键词三元组。例如有五个共现邻接词[a、b、c、d、e]，第一个关键词三元组为：[a，b，c]，第二个关键词三元组为：[c，d，e]，第三个关键词三元组为[b，c，d]……十组关键词三元组。

S404，服务器根据各关键词三元组，生成若干主题词语集。

其中，主题词语集包括第一关键词相应的各关键词三元组中，两个共现邻接词组成的词对。

在本申请实施例中，得到若干关键词三元组后，服务器可以得到第一关键词相应的共现邻接词组成的词对，例如上述举例中，第一关键词a存在词对d-c、d-e、c-d……，这些词对组成了主体词语集。

S405，服务器基于待测信息中的词语在主题词语集的词对共现次数，确定待测信息的主题分布概率。

服务器可以统计主题词语集中各词对的共现次数，例如d-c在各待测信息中共现次数有n次，d-e在各待测信息中共现次数有m次，n、m为大于1的自然数，n小于m。根据各词对的词对共现次数，可以生成待测信息的主题分布概率，主题分布概率如图5所示，通过图5可以确定待测信息中，主题词语集的词对共现次数具体分布情况。其中，横坐标为词对，纵坐标为概率。

S406，服务器根据主题分布概率，确定待测信息的主题标签，以通过各主题标签，生成若干第一待定意图，以根据各第一待定意图及用户画像数据，确定第二意图。

在本申请实施例中，服务器可以根据主题分布概率，得到待测信息的主题标签，例如图5中，词对2的分布概率大于其他词对的分布概率，那么主题标签可以为词对2所对应的主题标签，例如词对2为：小米、电子产品，主题标签可以是手机。再例如词对2为：小米、粥，主题标签为食物。

根据得到的主题标签，服务器可以生成该主题标签所对应的第一待定意图。具体地，服务器可以确定各待测信息相应主题标签是否为类似的主题标签，若类似则进行组合处理，若不类似则不组合处理，然后根据处理后的主题标签，得到若干第一待定意图。

在本申请另一实施例中，本申请实施例中也可以直接将各主题标签输入短文本识别模型，得到若干第一待定意图。

此外，本申请实施例还可以通过用户画像数据，得到若干第二意图，具体方法如下。

S407，服务器通过短文本识别模型，确定用户画像数据相应的若干第二待定意图。

其中，短文本识别模型为预先训练好的用于语义意图识别的神经网络模型。

在得到第一待定意图后，服务器可以将步骤S104得到的用户画像数据，输入短文本识别模型中，得到用户画像数据相应的若干第二待定意图。

S408，服务器基于预设意图类型库以及所述第二待定意图，确定所述风控主体的若干所述第二意图。

由于用户画像数据中的词语可能具有不连贯、差别明显的特点，可以通过预设意图类型库，进行限定由用户画像模型得到第二待定意图属于同一风控主体。预设意图类型库可以通过爬虫软件进行爬取各网站数据得到。

在本申请的另一个实施例中，本申请可以通过待测信息得到的第一待定意图与用户画像数据得到的第二待定意图，得到第二意图，具体地：

服务器基于预设意图类型库，将第二待定意图与第一待定意图进行匹配，匹配内容可以是匹配第二待定意图是否与第一待定意图一致，以确定第二待定意图与第一待定意图中，匹配度大于第四预设阈值的若干第二意图。例如第一待定意图为“上班代步买汽车”，第二待定意图为“买电动汽车”，那第二待定意图与第一待定意图匹配度大于第四预设阈值，若第二待定意图为“买玩具汽车”，第一待定意图与第二待定意图的匹配度小于第四预设阈值。

预设意图类型库可以通过爬虫软件进行爬取各网站数据得到，第二待定意图与第一待定意图可能相同，也可能不同。为了更为准确地得到第二意图，本申请可以通过预设意图类型库，将各第一待定意图与各第二待定意图中，类型相同的待定意图进行匹配，并确定计算得到的匹配度是否大于第四预设阈值，将匹配度大于第四预设阈值的第一待定意图和第二待定意图，作为相同意图，以将该相同意图作为一个第二意图。其中，上述第四预设阈值可以是若干意图样本数据的匹配度平均值。

通过上述方案，本申请可以生成与风控主体匹配的若干第二意图，从而根据第二意图对风控主体进行风控处理，保证风控处理的准确、合理、高效。并且，本申请上述实施例可以通过待测信息的主体标签，生成的第一待定意图，确定第二意图，也可以通过用户画像数据，生成的第二待定意图，确定第二意图；还可以通过第一待定意图与第二待定意图，综合确定第二意图，可以准确地得到风控主体具有的第二意图，降低在风控处理时，误差因素的加入，导致风控处理不精确。

S106，服务器将第一意图与各第二意图进行匹配，以确定第一意图是否存在匹配度大于第一预设阈值的第二意图。

在本申请实施例中，服务器可以计算第一意图与各第二意图之间的匹配度，该第一预设阈值的获取方式可以与第四预设阈值的获取方式相同，也可以不同。如第一预设阈值与第四预设阈值所采用的样本数据不同时，第一预设阈值的样本数据为第一意图相应的第一样本数据与第二意图相应的第二样本数据进行匹配度计算得到。第一样本数据、第二样本数据可以是在风控处理时的历史数据。

S107，服务器确定第一意图存在匹配度大于第一预设阈值的第二意图，根据各待测信息中的短文本，生成待处理短文本相应的风控聊天短文本。

其中，风控聊天短文本用于表达第一意图。

在本申请实施例中，服务器生成待处理短文本相应的风控聊天短文本，具体包括：

首先，服务器根据各待测信息中的短文本中，各待测词语的分类属性及各待测标点符号的使用频率，对各待测词语及各待测标点符号分别进行分类处理。

其中，分类属性至少包括：词性、词语频率、词语情感。

在实际使用过程中，分类属性可以增加更多属性，保证分类处理的准确性。

然后，服务器分类处理后的各待测词语以及各待测标点符号，输入预先训练的编码器，得到编码向量。

在本申请实施例中，服务器可以将分类处理后的各待测词语以及各待测标点符号，输入预先训练后的编码器中，编码器可以根据各待测词语以及各待测标点符号的分类属性。在本申请实施例中，输入至各待测词语以及各待测标点符号的顺序按照待处理短文本的语序进行输入编码器，编码器可以输出该待处理短文本相应的特征向量，作为编码向量。该编码器的模型结果可以是transformer、LSTM或GRU等模型结构。

最后，服务器将编码向量输入训练好的解码器，确定风控聊天短文本。

其中，解码器用于输出与第一意图相应的风控聊天短文本。

解码器由风控主体的待测信息、聊天历史记录等数据训练得到，可以生成与风控主体的聊天习惯相同的短文本。编码向量输入解码器之后，解码器可以根据风控主体的聊天习惯以及第一意图，对编码向量进行解码，以得到与第一意图相应的风控聊天短文本。

举例说明，在本申请实施例中，若第一意图与各第二意图进行匹配时，确定第一意图与各第二意图中的各匹配度中，存在大于第一预设阈值的第二意图，那么服务器将会根据该第一意图，以及待测信息，生成符合风控主体的语言习惯的风控聊天短文本。

例如，待处理短文本为：唉，我最近房贷压力大，能不能帮帮忙，风控主体的第一意图为“借钱”，服务器确定第一意图存在匹配度大于第一预设阈值的第二意图“缺钱”时，服务器将根据风控主体的待测信息的语言习惯，包括标点符号习惯、用词习惯、性格等，生成第一意图的风控聊天短文本。

例如，风控聊天短文本为：嘿！借钱还房贷我！

通过上述方案，服务器利用编码器与解码器，可以生成与风控主体相关的风控聊天短文本，进一步保证了风控处理的风控准确度。

在本申请的另一个实施例中，服务器确定第一意图不存在匹配度大于第一预设阈值的第二意图时，可以提醒风控主体相应的信息交互终端，以使信息交互终端谨慎聊天。

在本申请的另一个实施例中，在第一意图不存在匹配度大于第一预设阈值的第二意图的情况下，还可以通过执行以下方法进行风控处理，具体如下：

首先，服务器在第一意图不存在匹配度大于第一预设阈值的第二意图的情况下，根据第一意图，生成干扰聊天短文本。

其中，干扰聊天短文本为预先设置用于确认风控主体身份的短文本。干扰聊天短文本可以包括以下一项或多项：身份确认文本、居住地确认文本、社交圈确认文本。

其次，服务器接收风控主体对干扰聊天短文本的反馈信息。

再次，服务器在反馈信息不对应风控主体的账号信息的情况下，确定风控主体为风险用户。

在本申请实施例中，服务器中可以预先存储有风控主体的账号信息，例如身份信息，居住地信息，社交圈信息等。

接着，服务器在反馈信息对应风控主体的账号信息的情况下，对各待处理短文本进行情感分析，以确定待处理短文本的情感得分。

其中，情感得分用于表征风控主体的情感程度。

服务器可以存储有用于情感分析的神经网络模型，用于确定待处理短文本的情感，情感得分可以区分待处理短文本所包含的情感信息，例如积极、消极、高兴、伤心等。

然后，服务器基于待处理短文本的情感得分及预设情感分布曲线，确定待处理短文本的情感得分是否大于情感分布曲线的第一阈值且小于情感分布曲线的第二阈值，以确定待处理短文本对应风控主体的风控信用度。

其中，情感分布曲线根据风控主体的预设时间内用户画像数据生成，用于表征预设时间内风控主体的情感变化。

在申请实施例中，预设情感分布曲线如图6所示，t1为第一阈值，t2为第二阈值，该第一阈值与第二阈值可以根据风控主体的待测信息或用户画像数据得到，用于反应风控主体平时的情感得分波动。

本申请通过上述方案，可以在第一意图不存在匹配度大于第一预设阈值的第二意图的情况下，通过确定风控主体是否知道身份信息，居住地信息，社交圈信息，判断风控主体是否本人或机器人，并根据待处理短文本所表现的情感等分，判断风控主体是否与风控主体本人的情感一致，从而可以准确地对风控主体进行风控处理，保证了聊天的安全性。

而且本申请上述实施例，通过生成的干扰聊天短文本，可以在无法根据待处理短文本确定风控主体是否为风险用户时，保证能够准确地识别风控主体是否为风险用户，从而保证本申请在风控处理时，能够准确进行识别风控主体是否为风险用户，进一步保证在线上交互的安全性。

S108，服务器将风控聊天短文本与待处理短文本进行比对，以根据风控聊天短文本与待处理短文本的比对结果，确定风控主体是否为风险用户。

在本申请实施例中，服务器将风控聊天短文本与待处理短文本进行比对，以根据风控聊天短文本与待处理短文本的比对结果，确定风控主体是否为风险用户，具体包括：

首先，服务器将风控聊天短文本与待处理短文本分别进行分词处理，得到两组待比对文本组。

然后，服务器将两组待比对文本组，按照语序，比对待比对文本组中各词语及各标点符号的相似度。

其中，相似度至少包括以下一项或多项：词语或标点符号在文本中的位置数据的相似度、词语或标点符号的使用频率的相似度。

在本申请实施例中，标点符号相似度可以是文本中的标点符号的用法，比如在一句话“这是一句话。”中，一句话跟着句号，而有人不习惯网络聊天用句号，可能是“这是一句话”或者“这是一句话！”。而且，标点符号的使用频率，使用类型，使用位置等，都存在差异，因此，服务器可以通过对该标定符号的标点符号的相似度进行比对，完成待比对文本组进行比对。

最后，服务器在相似度大于第三预设阈值的情况下，确定风控主体不是风险用户。

在确定所述风控聊天短文本与所述待处理短文本比对结果之后，本申请还包括：

服务器生成分享控件，并发送分享控件至待处理短文本相应的信息交互终端的显示界面。

分享控件可以是按钮、滑动通道、转盘等控件，本申请对此不作具体限定。

然后，服务器基于信息交互终端的用户对分享控件的操作，将待处理短文本的比对结果，发送至第三方节点相应平台。

用户可以对分享控件进行点击、滑动等操作，将待处理短文本的比对结果发送到第三方节点的平台或者直接分享给好友等人，以记录风控主体的待处理短文的比对结果。或者根据比对结果，通过第三方节点进一步地对风控主体进行风控处理。通过比对结果的分享，可以在风控主体为风险用户时，防止其他人上当受骗，也可以在风控主体不为风险用户，而被误判时，给风险用户解除嫌疑，提高了用户对风控处理方法的使用体验。

在本申请的一个实施例中，确定风控主体是否为风险用户之后，还包括：

首先，服务器将风控聊天短文本与待处理短文本比对结果，发送至区块链平台的第三方节点。

然后，服务器接收第三方节点基于比对结果生成的反馈信息。

其中，反馈信息包括：短信、语音。

反馈信息例如“比对结果错误”“比对结果准确”。

最后，服务器确定反馈信息是否为可信比对结果，以确定比对结果的可信度。

其中，可信度用于确定风控主体是否为风险用户。

在本申请实施例中，反馈信息可以为可信、不可信、不确定，可信时，可信度可以为1，不可信时，可信度为0，不确定时可信度为0.5。可信度为0时，风控主体为风险用户。

本申请通过上述方案，服务器将风控主体的待处理短文本进行识别第一意图的操作，然后根据风控主体发表的动态、历史聊天记录等待测信息，生成风控主体的用户画像数据，进一步地根据用户画像数据和待测信息，确定风控主体的第二意图。服务器根据第一意图以及第二意图的匹配结果，去生成用于与待处理短文本比对的风控聊天短文本，以根据比对结果对风控主体进行风控处理。上述方案可以在线上聊天过程中，保证信息交互的安全，降低信息传输风险，在无法确认聊天对方身份时，可以进行安全地信息交换，降低隐私泄露和/或财产被骗取等问题发生概率。

图7为本申请实施例提供的一种基于短文本特征提取的风控处理设备，该设备包括：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备与方法是一一对应的，因此，设备也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备的有益技术效果。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于短文本特征提取的风控处理方法，其特征在于，所述方法包括：

获取风控主体的待处理短文本；

将所述待处理短文本输入预设的短文本识别模型，确定所述待处理短文本的第一意图；

确定所述风控主体的若干待测信息；其中，所述待测信息来自所述风控主体发表的动态、历史聊天记录；

根据预设的用户画像模型以及各所述待测信息，生成所述风控主体所对应的用户画像数据；

根据所述用户画像数据、各所述待测信息以及所述短文本识别模型，确定所述风控主体的若干第二意图；

将所述第一意图与各所述第二意图进行匹配，以确定所述第一意图是否存在匹配度大于第一预设阈值的所述第二意图；

若存在，根据各所述待测信息中的短文本，生成所述待处理短文本相应的风控聊天短文本；其中，所述风控聊天短文本用于表达所述第一意图；

将所述风控聊天短文本与所述待处理短文本进行比对，以根据所述风控聊天短文本与所述待处理短文本的比对结果，确定所述风控主体是否为风险用户。

2.根据权利要求1所述方法，其特征在于，确定所述风控主体的若干第二意图，具体包括：

将各所述待测信息进行分词处理，并确定分词处理后的各所述待测信息中的第一关键词；

确定各所述待测信息中所述第一关键词相应的共现邻接词；其中，所述共现邻接词为各所述待测信息中所述第一关键词以外的关键词；

根据各所述第一关键词及其所述共现邻接词，生成若干关键词三元组；其中，所述关键词三元组由一个所述第一关键词及其相应的两个所述共现邻接词，在各所述待测信息中的两两之间的共现次数组成；

根据各所述关键词三元组，生成若干主题词语集；其中，所述主题词语集包括所述第一关键词相应的各所述关键词三元组中，两个所述共现邻接词组成的词对；

基于所述待测信息中的词语在所述主题词语集的词对共现次数，确定所述待测信息的主题分布概率；

根据所述主题分布概率，确定所述待测信息的主题标签，以通过各所述主题标签，生成若干第一待定意图，以根据各所述第一待定意图及所述用户画像数据，确定若干所述第二意图。

3.根据权利要求1所述方法，其特征在于，根据所述用户画像数据、各所述待测信息以及所述短文本识别模型，确定所述风控主体的若干第二意图，具体包括：

通过所述短文本识别模型，确定所述用户画像数据相应的若干第二待定意图；其中，所述短文本识别模型为预先训练好的用于语义意图识别的神经网络模型；

基于预设意图类型库以及所述第二待定意图，确定所述风控主体的若干所述第二意图。

4.根据权利要求1所述方法，其特征在于，所述方法应用于预先搭建的区块链平台，所述风控主体对应于所述区块链平台的任一节点；

确定所述风控主体的若干待测信息，具体包括：

确定所述风控主体在所述区块链平台的主体账户；

通过所述区块链平台中的第三方节点，获取所述主体账户的若干待测信息；其中，所述待测信息至少包括以下一项或多项：发表文章摘要、网站评论、聊天记录；

确定所述风控主体是否为风险用户之后，所述方法还包括：

将所述风控聊天短文本与所述待处理短文本比对结果，发送至所述区块链平台的第三方节点；

接收所述第三方节点基于所述比对结果生成的反馈信息；其中，所述反馈信息包括：短信、语音；

确定所述反馈信息是否为可信比对结果，以确定所述比对结果的可信度；其中，所述可信度用于确定所述风控主体是否为风险用户。

5.根据权利要求1所述方法，其特征在于，根据预设的用户画像模型以及各所述待测信息，生成所述风控主体所对应的用户画像数据之前，所述方法还包括：

通过互联网爬取技术，获取所述待处理短文本的来源平台的若干用户特征数据；其中，所述用户特征数据包括：用户评论、发表文章、发表动态；或者，

通过预设特征样本库，确定若干用户特征数据；

将所述用户特征数据进行短文本特征提取，并将短文本特征提取后的所述用户特征数据输入所述用户画像模型，对所述用户画像模型进行训练，直至通过所述用户画像模型，输出所述用户特征数据的用户画像数据的准确度大于预设值。

6.根据权利要求1所述方法，其特征在于，获取风控主体的待处理短文本之前，所述方法还包括：

根据所述风控主体相应的信息交互终端的选取操作，确定所述风控主体的各聊天文本；

基于所述信息交互终端的记录时间戳，将各所述聊天文本中满足预设要求的文本进行归类处理，得到若干文本块；其中，所述预设要求为各所述聊天文本相应的所述记录时间戳的间隔小于预设时间值；

确定各所述文本块中各词语的出现频率是否满足预设条件；所述预设条件为所述文本块中所述词语的所述出现频率为所述文本块中各所述词语的出现频率的最大值；

根据满足所述预设条件的各所述词语，生成待关联序列；

确定所述待关联序列中各所述词语的余弦相似度大于第二预设阈值的各所述词语，相应的所述文本块，作为待处理文本块；

根据所述待处理文本块相应的所述记录时间戳，生成所述待处理短文本。

7.根据权利要求1所述方法，其特征在于，生成所述待处理短文本相应的风控聊天短文本，具体包括：

根据各所述待测信息中的短文本中，各待测词语的分类属性及各待测标点符号的使用频率，对各所述待测词语及各待测标点符号分别进行分类处理；其中，所述分类属性至少包括：词性、词语频率、词语情感；

分类处理后的各所述待测词语以及各所述待测标点符号，输入预先训练的编码器，得到编码向量；

将所述编码向量输入训练好的解码器，确定所述风控聊天短文本；其中，所述解码器用于输出与所述第一意图相应的所述风控聊天短文本。

8.根据权利要求1所述方法，其特征在于，在确定所述风控聊天短文本与所述待处理短文本比对结果之后，所述方法还包括：

生成分享控件，并发送所述分享控件至所述待处理短文本相应的信息交互终端的显示界面；

基于所述信息交互终端的用户对所述分享控件的操作，将所述待处理短文本的所述比对结果，发送至第三方节点相应平台。

9.根据权利要求1所述方法，其特征在于，将所述风控聊天短文本与所述待处理短文本进行比对，以根据所述风控聊天短文本与所述待处理短文本比对结果，确定所述风控主体是否为风险用户，具体包括：

将所述风控聊天短文本与所述待处理短文本分别进行分词处理，得到两组待比对文本组；

将两组所述待比对文本组，按照语序，比对所述待比对文本组中各词语及各标点符号的相似度；其中，所述相似度至少包括以下一项或多项：词语或标点符号在文本中的位置数据的相似度、词语或标点符号的使用频率的相似度；

在所述相似度大于第三预设阈值的情况下，确定所述风控主体不是风险用户。

10.一种基于短文本特征提取的风控处理设备，其特征在于，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取风控主体的待处理短文本；