CN110738562B

CN110738562B - 一种风险提醒信息的生成方法、装置及设备

Info

Publication number: CN110738562B
Application number: CN201910981823.XA
Authority: CN
Inventors: 赵乾坤; 肖凯; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2023-04-25
Anticipated expiration: 2039-10-16
Also published as: CN110738562A

Abstract

本申请公开一种风险提醒信息的生成方法、装置以及设备，所述方法包括：获取投诉数据，并将所述投诉数据确定出数据类别；在所述投诉数据中筛选出第一关键词，并将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中，生成对应于所述数据类别的风险提醒信息，其中，所述风险提醒信息生成模型用于生成所述数据类别的风险提醒信息。本发明通过获取投诉数据，并将该投诉数据划分出数据类别，进而生成对应于所述数据类别的风险提醒信息，解决了现有技术中的风险提醒信息存在提醒效果不好的问题，减少对用户造成的损失。

Description

一种风险提醒信息的生成方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种风险提醒信息的生成方法、装置及设备。

背景技术

在金融系统的风险控制的业务场景中，一旦识别出风险行为(包括盗用、欺诈等)，便需要向用户发送风险提醒信息，其中，风险提醒信息包括短信提醒信息、页面提醒信息等形式，这些形式的风险提醒信息对用户存在的风险行为进行提醒是非常常用的管控方式。

现有的风险提醒实现过程中，一般会针对风险行为由人工撰写一套或几套固定的文案模板，用于对用户进行风险提醒。但是，这些固定的提醒文案更新周期长，甚至不更新，这将会造成提醒文案的效果逐步衰减，特别是在欺诈这种对抗性强的风险场景中，由于受骗人受到骗子话术的深度影响等原因，往往对固定的提醒文案视而不见，不能达到很好的提醒效果，进而可能对用户造成很大的损失。

发明内容

有鉴于此，本申请实施例提供了一种风险提醒信息的生成方法、装置及设备，用于解决现有技术中的风险提醒信息存在提醒效果不好的问题。

本申请实施例采用下述技术方案：

本申请实施例提供一种风险提醒信息的生成方法，所述方法包括：

获取投诉数据，并将所述投诉数据确定出数据类别；

在所述投诉数据中筛选出第一关键词，并将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中，生成对应于所述数据类别的风险提醒信息，其中，所述风险提醒信息生成模型用于生成所述数据类别的风险提醒信息。

进一步的，所述将所述投诉数据划分出数据类别，具体包括：

接收用户输入的所述投诉数据对应的数据类别，以确定出所述投诉数据的数据类别。

预先储存所述投诉数据对应的数据类别；

查找所述投诉数据中的与所述数据类别相同的词语，并将查找出的词语确定为所述投诉数据对应的数据类别。

进一步的，所述在所述投诉数据中筛选出第一关键词，具体包括：

对所述数据类别对应的所述投诉数据进行切词处理，得出预选第一关键词；

根据预先设置的第一关键词提取方法，在所述预选第一关键词中筛选出所述第一关键词，其中，第一关键词提取方法用于筛选出所述第一关键词。

进一步的，所述根据预先设置的第一关键词提取方法，在所述预选第一关键词中筛选出所述第一关键词，具体包括：

计算出预选第一关键词的词频及逆文档频率，其中，所述词频为预选第一关键词在所述数据类别中出现的次数，所述逆文档频率为预选第一关键词与当前数据类别的相关率；

将预选第一关键词的词频乘以预选第一关键词的逆文档频率得出结果值，根据所述结果值筛选出预设数量的第一关键词。

进一步的，所述在所述投诉数据中筛选出第一关键词之后，所述方法还包括：

根据不同时间段所述第一关键词的词频，计算出所述第一关键词的新颖度，并将所述第一关键词的新颖度由大到小进行排序；

所述将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中，具体包括:

根据所述第一关键词的排序将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中。

进一步的，所述将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中之前，所述方法还包括：

收集风险提醒信息相关的数据；

在所述风险提醒信息相关的数据中分别筛选出第二关键词；

根据所述风险提醒信息相关的数据与所述风险提醒信息相关的数据对应的第二关键词构建训练样本,并将所述训练样本输入至神经网络得出所述风险提醒信息生成模型。

本申请实施例提供一种风险提醒信息的生成装置，所述装置包括：

获取单元，用于获取投诉数据，并将所述投诉数据确定出数据类别；

筛选单元，用于在所述投诉数据中筛选出第一关键词，并将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中，生成对应于所述数据类别的风险提醒信息，其中，所述风险提醒信息生成模型用于生成所述数据类别的风险提醒信息。

进一步的，所述获取单元具体用于：

预先储存所述投诉数据对应的数据类别；

进一步的，所述筛选单元具体用于：

进一步的，所述装置还包括：

计算单元，用于根据不同时间段所述第一关键词的词频，计算出所述第一关键词的新颖度，并将所述第一关键词的新颖度由大到小进行排序；

所述筛选单元具体用于:

进一步的，所述装置还包括：

收集单元，用于收集风险提醒信息相关的数据；

所述筛选单元还用于在所述风险提醒信息相关的数据中分别筛选出第二关键词；

构建单元，用于根据所述风险提醒信息相关的数据与所述风险提醒信息相关的数据对应的第二关键词构建训练样本，并将所述训练样本输入至神经网络得出所述风险提醒信息生成模型。

本申请实施例提供一种风险提醒信息的生成设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行下述单元：

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

本发明通过获取投诉数据，并将该投诉数据划分出数据类别，进而生成对应于所述数据类别的风险提醒信息，解决了现有技术中的风险提醒信息存在提醒效果不好的问题，减少对用户造成的损失。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为说明书实施例一提供的风险提醒信息的生成方法的流程示意图；

图2为说明书实施例一提供的Seq2Seq结构的神经网络结构示意图；

图3为说明书实施例一提供的场景示意图；

图4为说明书实施例二提供的风险提醒信息的生成装置的结构示意图。

具体实施方式

现有的风险提醒信息，一般会针对风险行为由人工撰写一套或几套固定的文案模板，但是提醒作为一种弱管控方式，其管控的效果往往会有很大的局限性，特别是在欺诈等风险场景中，由于受骗人受到骗子话术的深度影响等原因，往往对通用的提醒文案视而不见，因此对于提醒文案的优化就显得特别重要，只有针对性强的文案才能达到阻断风险交易发生的效果。但现有的风险提醒信息存在更新周期长，甚至不更新，将会造成文案的效果逐步衰减，特别是在欺诈这种对抗性强的风险场景中，固定的文案很难达到很好的提醒效果，进而可能对用户造成很大的损失。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书实施例一提供的一种风险提醒信息的生成方法的流程示意图，该流程示意图包括：

步骤S101，获取投诉数据，并将投诉数据确定出数据类别。

在说明书实施例的步骤S101中，投诉数据可以为用户遭受的风险行为后所编写的投诉文本，也可以为互联网上爬取到的文本资料，在该文本资料中包含用户遭受的风险行为。风险行为可以包括盗用风险、欺诈风险等，若对风险行为进一步分类，还可以按照欺诈手法细分为“兼职刷单”、“假冒客服”、“假冒公检法”、“贷款提额”等数据类别。

在说明书实施例的步骤S101中，投诉数据对应的数据类别可以在此步骤执行前进行划分，并将划分出的所有的数据类别预先储存在风险提醒系统中。将投诉数据划分出数据类别采用的方法可以有两种方案，第一种方案为：接收用户输入的投诉数据对应的数据类别，以确定出所述投诉数据的数据类别。由于划分出的所有的数据类别已经预先储存于风险提醒系统中，用户将投诉数据上传至风险提醒系统时，可以手动输入该投诉数据对应的数据类别，由此就可以将投诉数据划分对应的数据类别，比如，风险提醒系统中储存有“兼职刷单类”，用户的投诉数据为“在网站兼职刷单，但是没有返款，不回复”，同时用户在上传投诉数据时手段输入该投诉数据对应的数据类别为“兼职刷单”，此时风险提醒系统就可以将该投诉数据划分为“兼职刷单”。

此外，将投诉数据划分出数据类别采用的方法还可以采用第二种方案：由于风险提醒系统中预先储存有所有的数据类别，在用户将投诉数据上传至风险提醒系统后，查找该投诉数据中与数据类别相同的词语，并将查找出的词语确定为该投诉数据对应的数据类别，比如，风险提醒系统中储存有“兼职刷单”的数据类别，用户的投诉数据为“在网站兼职刷单，但是没有返款，不回复”，在查找该投诉数据中与数据类别相同的词语为“兼职刷单”，则可以将查找出的“兼职刷单”确定为该投诉数据对应的数据类别。其中，投诉数据对应的数据类别至少为一种，用户在输入投诉数据的数据类别时也是可以选择多个数据类别的，若是用户在上传投诉数据时输入了对应的数据类别，可以不用执行上述的第二种方案，当然，用户在输入数据类别时也可能存在误差，也可以在用户输入了投诉数据对应的数据类别后仍执行上述的第二种方案，对用户输入的投诉数据对应的数据类别进行检查，若是检查出用户输入的投诉数据对应的数据类别与第二种方案不同，可以将该投诉数据进行标记，等待工作人员进行处理；若是用户在上传投诉数据时未输入对应的数据类别，则需要由第二种方案对该投诉数据确定出对应的数据类别。

在说明书实施例的步骤S101中，风险提醒系统可以将相同数据类别的投诉数据归并到同一数据类别中，方便后续步骤的实施。

步骤S102，在投诉数据中筛选出第一关键词，并将第一关键词与数据类别输入至预先建立的风险提醒信息生成模型中，生成对应于数据类别的风险提醒信息，其中，风险提醒信息生成模型用于生成数据类别的风险提醒信息。

在说明书实施例的步骤S102中，在数据类别对应的投诉数据中筛选出第一关键词，具体包括：对数据类别对应的所有投诉数据进行切词处理，得出预选第一关键词；根据预先设置的第一关键词提取方法，在预选第一关键词中筛选出所述第一关键词，其中，第一关键词提取方法用于筛选出所述第一关键词。切词处理可以是将投诉数据中的文字根据词义及语法进行切割，得出预选第一关键词，比如，投诉数据为“在网站兼职刷单，但是没有返款，不回复”时，可以根据词义及语法将投诉数据进行切割，得出“在”、“网站”、“兼职刷单”、“但是”、“没有”、“返款”、“不复回”的预选第一关键词。根据预先设置的第一关键词提取方法，在预选第一关键词中筛选出所述第一关键词，具体包括：计算出预选第一关键词的词频及逆文档频率，其中，所述词频为预选第一关键词在所述数据类别中出现的次数，逆文档频率为预选第一关键词与当前数据类别的相关率，即可用于剔除并非只在当前数据类别出现的预设词，这些预设词可能在当前数据类别的投诉数据中的词频高，但这些预设词与当前数据类别的相关率并不高，若是将该预设词选定为第一关键词，对后续生成风险提醒信息将会造成影响，所以本申请对预选第一关键词设置逆文档频率进行调节，比如，兼职刷单类的投诉数据为“在网站兼职刷单，但是没有返款，不回复”时，可以将预设词设定为“在”、“但是”、“没有”，上述预设词与当前数据类别的相关率不高，完全可能在其他数据类别的投诉数据中出现，而“网站”、“兼职刷单”、“返款”在其他数据类别的投诉数据并不常见，所以通过设置预选第一关键词的逆文档频率，来保障所筛选出的第一关键词更加准确，可以将预选第一关键词的词频设为TF(Term Frequency)，词频值越高说明当前的预选第一关键词在当前数据类别出现的次数越高，将预选第一关键词的逆文档频率设为IDF(InverseDocument Frequency)，越是与当前数据类别相关率不高，当前预选第一关键词的逆文档频率越小，具体参见下述计算公式：

式中，n_i，j表示第一关键词i在文档j中的出现次数，k为大于等于1的整数，|D|表示所有投诉数据的个数，|j：t_i∈dj|表示包含第一关键词i的文档个数。

进一步的，在说明书实施例的步骤S102中，将预选第一关键词的词频乘以预选第一关键词的逆文档频率得出结果值，根据所述结果值筛选出预设数量的第一关键词，可以先设定好临界结果值，即超过临界结果的预选第一关键词确定为最终需要的第一关键词；还可以先设定好所需第一关键词的数量，将所有预选第一关键词的结果值根据大小进行排列，进而选取出所需的第一关键词，比如，预先设定需要10个第一关键词，将所有预选第一关键词的结果值根据大小进行排列，最后可由结果值最大的开始，选取出10个预选第一关键词，即为最终需要的第一关键词。

进一步的，在所述投诉数据中筛选出第一关键词之后，本实施例还需执行：根据不同时间段所述第一关键词的词频，计算出所述第一关键词的新颖度，并将所述第一关键词的新颖度由大到小进行排序。

所述将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中，具体包括:根据所述第一关键词的排序将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中，其中，风险提醒信息生成模型可以采用seq2seq的模型架构，先输入的第一关键词对生成的风险提醒信息的内容影响更大，因此先输入新颖度高的第一关键词，可以使得风险提醒信息的内容更有针对性和个性化，提升风险提醒信息的提醒效果。本步骤是用于确定各个第一关键词的新颖度，以便风险提醒信息产生更大的作用。为了使得生成的风险提醒信息能对最新发生的案件更有针对性，可以对近期投诉数据中新出现的第一关键词给予更高的新颖度。为了上述功能，可以应用下述的计算公式：

其中，N为衡量新颖度的标准，该值越大，说明短期内词频高而长期较低，是短期内的热点词，为了避免0值情况，对TF计算进行了拉普拉斯平滑，比如，某一个第一关键词在短期内(可以选为1个月)统计词频与长期(可以选为6个月)统计词频比值作为衡量新颖度的标准，

为第一关键词短期的词频，

为第一关键词长期的词频，k为大于等于1的整数。

进一步的，在步骤S102之前，还需执行：收集风险提醒信息相关的数据；在所述风险提醒信息相关的数据中分别筛选出第二关键词；根据所述风险提醒信息相关的数据与所述风险提醒信息相关的数据对应的第二关键词构建训练样本,并将所述训练样本输入至神经网络得出所述风险提醒信息生成模型。

具体的，风险提醒信息相关的数据可以来自人工撰写的有关风险提醒信息，还可以从互联网上爬取风险提醒信息相关的文本资料，并将这些风险提醒信息相关的数据构建成资料数据库。针对每个风险提醒信息相关的数据筛选出第二关键词，刷选的第二关键词的方法同上述筛选第一关键词的方法。根据风险提醒信息相关的数据与风险提醒信息相关的数据对应的第二关键词构建训练样本，具体包括：将每个风险提醒信息相关的数据对应的第二关键词作为输入序列，将该第二关键词对应的风险提醒信息相关的数据作为输出序列，构建成一条训练样本，将多个风险提醒信息相关的数据与第二关键对应的风险提醒信息相关的数据对应的第二关键词构建成多个训练样本，最终将多个训练样本输入至神经网络得出风险提醒信息生成模型。神经网络可以采用基于Seq2Seq结构生成的神经网络，Seq2Seq模型是基于输入序列，预测未知输出序列的模型。参见图2，Seq2Seq结构的神经网络有两个部分组成，对输入序列的Encoder编码阶段和生成输出序列的Decoder解码阶段，其中，Encoder是将输入序列通过非线性变换编码成一个指定长度的向量C(中间语义表示)，得到C有多种方式，最简单的方法就是把Encoder的最后一个隐状态赋值给C，还可以对最后的隐状态做一个变换得到C，也可以对所有的隐状态做变换。Decoder是根据向量C(encoder的输出结果)和之前生成的历史信息y1,y2,...来生成i时刻要生成的单词yi。Encoder可以采用各种类型的RNN(Recurrent Neural Network，循环神经网络)等，以及在encoder和decoder之间加入attention机制。Attention类似于人的注意力机制，其本质上是学习特征的权重分布，在模型解码时，告诉模型哪些特征是重要的。在本实施例的方案中，输入为多个第一关键词(也可以称为第一关键词序列)，输出是对应的文案词嵌入序列，比如，参见图3，输入的第一关键词序列为：“刷单、代付、诈骗”，输出的风险提醒信息为：“警惕代付方式兼职刷单诈骗”。

进一步的，风险提醒信息系统生成对应于所述数据类别的风险提醒信息后，还可以执行对该风险提醒信息进行评估和筛选，以确定出最终的风险提醒信息。针对生成的风险提醒信息，可以通过计算第一关键词覆盖率进行初步筛选，挑选出满足覆盖率阈值(比如，覆盖率>75％)的风险提醒信息。比如，输入的第一关键词序列：“刷单、代付、诈骗”，若输出风险提醒信息为：“警惕兼职刷单骗局，号称企业代付等方式的刷单皆为诈骗，请及时止付！”，则关键词覆盖率为100％(三个关键词都有覆盖)，风险提醒信息通过；若输出的风险提醒信息为：“警惕兼职刷单诈骗方式，请及时止付”，则关键词覆盖率为67％(涵盖两个词)，风险提醒信息不通过，并发出提示信息，提醒工作人员手动进行修改，以使得风险提醒信息的提醒效果更好。

需要说明的是，本申请是获取到投诉数据后，将该投诉数据确定出数据类别，并生成该数据类别对应的风险提醒信息。当风险提醒系统检测出现该数据类别的风险行为时，发出该数据类别对应的风险提醒信息。上述的检测行为是发生在生成该数据类别对应的风险提醒信息之后。

与上述实施例一对应的，图4为本说明书实施例二提供的一种风险提醒信息的生成装置的结构示意图，该结构示意图包括：获取单元1、筛选单元2、计算单元3、收集单元4以及构建单元5。

获取单元1用于获取投诉数据，并将所述投诉数据确定出数据类别。

筛选单元2用于在所述投诉数据中筛选出第一关键词，并将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中，生成对应于所述数据类别的风险提醒信息，其中，所述风险提醒信息生成模型用于生成所述数据类别的风险提醒信息。

获取单元1具体用于：

接收用户输入的所述投诉数据对应的数据类别，以确定出所述投诉数据的数据类别；或者，

预先储存所述投诉数据对应的数据类别；

筛选单元2具体用于：

计算单元3用于根据不同时间段所述第一关键词的词频，计算出所述第一关键词的新颖度，并将所述第一关键词的新颖度由大到小进行排序；

筛选单元2具体用于:

收集单元4用于收集风险提醒信息相关的数据。

筛选单元2还用于在所述风险提醒信息相关的数据中分别筛选出第二关键词。

构建单元5用于根据所述风险提醒信息相关的数据与所述风险提醒信息相关的数据对应的第二关键词构建训练样本，并将所述训练样本输入至神经网络得出所述风险提醒信息生成模型。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种风险提醒信息的生成方法，所述方法包括：

获取投诉数据，并将所述投诉数据确定出数据类别，所述投诉数据包括用户遭受的风险行为后所编写的投诉文本、互联网上爬取的包含用户遭受风险行为的文本资料中至少一种；

在所述投诉数据中筛选出第一关键词，根据不同时间段所述第一关键词的词频计算出所述第一关键词的新颖度，并将所述第一关键词的新颖度由大到小进行排序；并将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中，具体包括：根据所述第一关键词的排序先将新颖度高的第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中；

生成对应于所述数据类别的风险提醒信息，其中，所述风险提醒信息生成模型用于生成所述数据类别的风险提醒信息。

2.根据权利要求1所述的风险提醒信息的生成方法，所述将所述投诉数据划分出数据类别，具体包括：

3.根据权利要求1所述的风险提醒信息的生成方法，所述将所述投诉数据划分出数据类别，具体包括：

预先储存所述投诉数据对应的数据类别；

4.根据权利要求1所述的风险提醒信息的生成方法，所述在所述投诉数据中筛选出第一关键词，具体包括：

5.根据权利要求4所述的风险提醒信息的生成方法，所述根据预先设置的第一关键词提取方法，在所述预选第一关键词中筛选出所述第一关键词，具体包括：

6.根据权利要求5所述的风险提醒信息的生成方法，所述在所述投诉数据中筛选出第一关键词之后，所述方法还包括：

7.根据权利要求1所述的风险提醒信息的生成方法，所述将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中之前，所述方法还包括：

收集风险提醒信息相关的数据；

在所述风险提醒信息相关的数据中分别筛选出第二关键词；

8.一种风险提醒信息的生成装置，所述装置包括：

获取单元，用于获取投诉数据，并将所述投诉数据确定出数据类别，所述投诉数据包括用户遭受的风险行为后所编写的投诉文本、互联网上爬取的包含用户遭受风险行为的文本资料中至少一种；

筛选单元，用于在所述投诉数据中筛选出第一关键词，根据不同时间段所述第一关键词的词频计算出所述第一关键词的新颖度，并将所述第一关键词的新颖度由大到小进行排序；并将所述第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中，具体包括：根据所述第一关键词的排序先将新颖度高的第一关键词与所述数据类别输入至预先建立的风险提醒信息生成模型中；生成对应于所述数据类别的风险提醒信息，其中，所述风险提醒信息生成模型用于生成所述数据类别的风险提醒信息。

9.根据权利要求8所述的风险提醒信息的生成装置，所述获取单元具体用于：

10.根据权利要求8所述的风险提醒信息的生成装置，所述获取单元具体用于：

预先储存所述投诉数据对应的数据类别；

11.根据权利要求8所述的风险提醒信息的生成装置，所述筛选单元具体用于：

12.根据权利要求11所述的风险提醒信息的生成装置，所述筛选单元具体用于：

13.根据权利要求12所述的风险提醒信息的生成装置，所述装置还包括：

所述筛选单元具体用于:

14.根据权利要求8所述的风险提醒信息的生成装置，所述装置还包括：

收集单元，用于收集风险提醒信息相关的数据；

15.一种风险提醒信息的生成设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行权利要求8至14中任一项所述的装置。