CN114626370A

CN114626370A - 训练方法、风险预警方法、装置、设备、介质和程序产品

Info

Publication number: CN114626370A
Application number: CN202210280252.9A
Authority: CN
Inventors: 罗奕康; 戴菀庭; 崔震; 聂砂; 王伊妍
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-14

Abstract

本公开提供了一种风险预警模型的训练方法、装置、设备、存储介质和程序产品。该方法包括：获取来自M个数据源的N条第一训练样本；根据所述训练文本获得文本向量，以及根据所述所属数据源的信息获得数据源向量；获得所述N条第一训练样本对应的N个训练向量；将每个所述训练向量输入风险预警模型，获得预测结果；根据所述预测结果和所述标签信息之间的误差，训练所述风险预警模型。本公开实施例能够将数据源和训练文本相结合提供给模型一个先验的信息，可以在训练过程中令模型学习到数据源相关的训练文本特点以及风险特点。本公开还提供了一种风险预警方法、装置、设备、存储介质和程序产品。

Description

训练方法、风险预警方法、装置、设备、介质和程序产品

技术领域

本公开涉及人工智能领域，更具体地，涉及一种训练方法、风险预警方法、装置、设备、介质和程序产品。

背景技术

随着互联网的发展，在海量的公开信息中预先确定风险舆情，进而及时对风险进行处理显得尤为重要。例如对财经新闻文本中涉及风险舆情的内容快速且准确地识别出，并确定出风险舆情对应的事件主体，从而达到风险预警的目的。

通过人工监测网络信息以实现风险预警的方式已不能满足需求。相关技术中利用机器学习等方式获得风险预警模型，来实现自动化的风险监控识别。但是在训练风险预警模型的过程中发现，模型训练效率较差，难以学习到有效信息，导致风险预警的效果不佳。

发明内容

鉴于上述问题，本公开提供了提高训练效率和预警效果的训练方法、风险预警方法、装置、设备、介质和程序产品。

本公开实施例的一个方面，提供了一种风险预警模型的训练方法，包括：获取来自M个数据源的N条第一训练样本，其中，每条所述第一训练样本包括训练文本及其所属数据源的信息，和所述训练文本的标签信息，所述标签信息包括风险实体标签和风险事件标签，N、M分别为大于或等于1的整数；根据所述训练文本获得文本向量，以及根据所述所属数据源的信息获得数据源向量；将每条所述第一训练样本对应的所述文本向量和所述数据源向量进行合并，获得所述N 条第一训练样本对应的N个训练向量；将每个所述训练向量输入风险预警模型，获得预测结果，其中，所述预测结果包括预测风险实体和预测风险事件；根据所述预测结果和所述标签信息之间的误差，训练所述风险预警模型。

根据本公开的实施例，所述所属数据源的信息包括风险事件分布信息，所述方法还包括获取所述风险事件分布信息，具体包括：从所述N条第一训练样本中获取来自所述所属数据源的S条第一训练样本，其中，S为大于或等于1的整数，S小于或等于N；确定所述S 条第一训练样本中每条第一训练样本对应的风险事件标签；根据所述 S条第一训练样本中每种风险事件标签的比例，得到所述风险事件分布信息。

根据本公开的实施例，所述根据所述所属数据源的信息获得数据源向量包括：根据所述N条第一训练样本中风险事件标签的种类数量，确定所述数据源向量的第一维度，其中，每种所述风险事件标签对应于所述数据源向量中的一个位置；以及将所述S条第一训练样本中每种风险事件标签的比例，作为所述数据源向量中对应位置的向量值。

根据本公开的实施例，所述所属数据源的信息包括所属数据源的数据源标识，所述M个数据源对应M个数据源标识，所述根据所述所属数据源的信息获得数据源向量包括：对所述M个数据源标识中每个数据源标识进行向量编码；根据所述每个数据源标识编码后的结果，获得所述数据源向量。

根据本公开的实施例，根据所述训练文本获得文本向量包括：将所述训练文本输入至预训练模型，获得所述文本向量。

根据本公开的实施例，所述预训练模型包括编码层，所述编码层用于根据所述训练文本获得所述文本向量，所述方法还包括：根据所述编码层构建向量转换模型；将所述数据源向量输入至所述向量转换模型进行转换；其中，所述将每条所述第一训练样本对应的所述文本向量和所述数据源向量进行合并包括：将转换后的所述数据源向量与所述文本向量进行相加或拼接。

根据本公开的实施例，在获取所述N条第一训练样本之后，所述方法还包括：确定所述N条第一训练样本中每种风险事件标签的数量，其中，每条所述第一训练样本对应一种风险事件标签；基于所述每种风险事件标签的数量，确定出第一风险事件标签，其中，所述第一风险事件标签为数量最多的一种风险事件标签；对第二风险事件标签对应的P条第一训练样本进行数据增强，得到Q条第二训练样本，其中，所述Q条第二训练样本用于训练所述风险预警模型，所述第二风险事件标签为除所述第一风险事件标签之外的任一种标签， P、Q分别为大于或等于1的整数。

根据本公开的实施例，所述对第二风险事件标签对应的P条第一训练样本进行数据增强包括：对所述P条第一训练样本中每条第一训练样本的训练文本进行如下操作，根据所述训练文本的字符数量，在所述训练文本中插入第一预设数量的标点，其中，所述第一预设数量小于或等于所述字符数量。

根据本公开的实施例，所述方法还包括：替换所述第一训练样本和/或所述第二训练样本中的风险实体。

根据本公开的实施例，所述训练所述风险预警模型包括训练X 次所述风险预警模型，X为大于或等于2的整数，所述方法还包括在每次训练所述风险预警模型后，得到新的所述第二训练样本，直至完成X次训练，具体包括：在每次训练所述风险预警模型之前，进行所述数据增强和/或替换风险实体的操作。

本公开实施例的另一方面提供了一种风险预警方法，包括：获得待识别文本，以及所述待识别文本的所属数据源的信息；根据所述待识别文本获得第一待识别向量，以及根据所述所属数据源的信息获得第二待识别向量；将所述第一待识别向量和所述第二待识别向量进行合并，获得第三待识别向量；将所述第三待识别向量输入风险预警模型，获得预测结果，其中，所述预测结果包括预测风险实体和预测风险事件，所述风险预警模型由如上所述的方法训练获得。

本公开实施例的另一方面提供了一种风险预警模型的训练装置，包括：第一获取模块，用于获取来自M个数据源的N条第一训练样本，其中，每条所述第一训练样本包括训练文本及其所属数据源的信息，和所述训练文本的标签信息，所述标签信息包括风险实体标签和风险事件标签，N、M分别为大于或等于1的整数；第一向量模块，用于根据所述训练文本获得文本向量，以及根据所述所属数据源的信息获得数据源向量；第一合并模块，用于将每条所述第一训练样本对应的所述文本向量和所述数据源向量进行合并，获得所述N条第一训练样本对应的N个训练向量；第一输入模块，用于将每个所述训练向量输入风险预警模型，获得预测结果，其中，所述预测结果包括预测风险实体和预测风险事件；模型训练模块，用于根据所述预测结果和所述标签信息之间的误差，训练所述风险预警模型。

本公开实施例的另一方面提供了一种风险预警模型装置，包括：第二获取模块，用于获取待识别文本，以及所述待识别文本的所属数据源的信息；第二向量模块，用于根据所述待识别文本获得第一待识别向量，以及根据所述所属数据源的信息获得第二待识别向量；第二合并模块，用于将所述第一待识别向量和所述第二待识别向量进行合并，获得第三待识别向量；第二输入模块，用于将所述第三待识别向量输入风险预警模型，获得预测结果，其中，所述预测结果包括预测风险实体和预测风险事件，所述风险预警模型由如上所述的装置训练获得。

本公开实施例的另一方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行如上所述的方法。

本公开实施例的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上所述的方法。

本公开实施例的另一方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述的方法。

上述一个或多个实施例具有如下有益效果：

1)在训练文本内容基础上增加该文本的数据源信息，并以此获得训练向量。从而能够将数据源和训练文本相结合提供给模型一个先验的信息，可以在训练过程中令模型学习到数据源相关的训练文本特点以及风险特点，带来了额外的参数更新指导，让模型即使面对分布错综复杂的语料也能快速学习到有效信息，提高训练效率。

2)利用本公开实施例的训练方法得到的风险预警模型能够考虑待识别文本及其所属数据源信息，较为准确地输出预测风险实体和预测风险事件，提高了风险预警效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的训练方法或风险预警方法的应用场景图；

图2示意性示出了根据本公开实施例的训练方法的流程图；

图3示意性示出了根据本公开的另一实施例的训练方法的流程图；

图4示意性示出了根据本公开实施例的获取风险事件分布信息的流程图；

图5示意性示出了根据本公开实施例的获得数据源向量的流程图；

图6示意性示出了根据本公开的另一实施例的获得数据源向量的流程图；

图7示意性示出了根据本公开实施例的合并文本向量和数据源向量的流程图；

图8示意性示出了根据本公开实施例的风险预警方法的流程图；

图9示意性示出了根据本公开实施例的训练装置的结构框图；

图10示意性示出了根据本公开实施例的风险预警装置的结构框图；

图11示意性示出了根据本公开实施例的适于实现训练方法或风险预警方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有 B和C、和/或具有A、B、C的系统等)。

在利用自然语言处理技术通过信息抽取，来训练风险预警模型的过程中，存在如下问题：

无论是在模型训练还是风险预警期间，输入数据来源于网络爬取或数据接入。而数据源本身就潜在涵盖了一些预警风险实体的类别信息。如新闻类网站可能涵盖的各种各样的风险实体，股市评论类网站包含更多股价相关的风险实体，对所有数据源的数据一视同仁的处理可能会极大增加训练成本。

另外，不同的数据来源带来的文本语料格式也各不相同，利用自然语言处理技术提取语义向量时，可能不同的数据源提取到的语义向量效果不同。如A网站来源的文本语料格式为“【贵州茅台】股价上涨1.4％，【天地银行】股价下跌2.9％....”，B网站来源的文本语料格式为“贵州茅台今日开盘后股价上涨1.4％，与之对应的，天地银行股价下跌2.9％”。

本公开的实施例提供了一种训练方法，能够在训练文本内容基础上增加该文本的数据源信息，并以此进行特征融合获得训练向量。从而能够将数据源和训练文本的结合提供给模型一个先验的信息，模型可以在训练过程中学习到数据源相关训练文本特点(例如文本语料格式特点)以及风险特点(例如每个数据源侧重的风险实体或事件特点)，更为置信的输出风险预测结果，能够在模型训练过程中带来了额外的参数更新指导，让模型即使面对分布错综复杂的语料也能快速学习到有效信息，提高训练效率。

本公开的实施例还提供了一种风险预警方法，利用本公开实施例的训练方法得到的风险预警模型能够考虑待识别文本及其所属数据源信息，较为准确地输出预测风险实体和预测风险事件，提高了风险预警效果。

在本公开的技术方案中，所涉及的相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理，均获得了各数据源的授权或同意，符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

图1示意性示出了根据本公开实施例的训练方法或风险预警方法的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括终端设备 101、102、103，网络104和服务器105。网络104用以在终端设备 101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的训练方法或风险预警方法一般可以由服务器105执行。相应地，本公开实施例所提供的训练装置或风险预警装置一般可以设置于服务器105中。本公开实施例所提供的训练方法或风险预警方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的训练装置或风险预警装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/ 或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将基于图1描述的场景，通过图2～图8对本公开实施例的训练方法和风险预警方法进行详细描述。

图2示意性示出了根据本公开实施例的训练方法的流程图。

如图2所示，该实施例的训练方法包括操作S210～操作S250。

在操作S210，获取来自M个数据源的N条第一训练样本，其中，每条第一训练样本包括训练文本及其所属数据源的信息，和训练文本的标签信息，标签信息包括风险实体标签和风险事件标签，N、M分别为大于或等于1的整数。

示例性地，数据源为文本内容的来源。例如新闻媒体、公司官网、社交网站或政府网站等。文本内容包括新闻文本、公司财报、个人发布的信息或政策文件等。训练文本为属于上述文本内容的至少一句或至少一段话。所属数据源即为每个训练文本的来源，所属数据源的信息可以包括数据源标识、风险事件分布信息、作者信息、文体风格或文本格式数据等。风险实体标签包括该训练文本中涉及风险的实体名称，如法人或个人名称。风险事件例如包括亏损风险事件、违约失信风险事件、破产风险事件、领导层变动风险事件、评级恶化风险事件或财务造假风险事件等。

其中，文体风格是指不同的文本内容会有不同的文体，如新闻文本和公司财报的叙事风格具有明显差异。将文体风格转化为向量可以进一步令模型学习到有效信息。进一步地，不同的作者在描述同一类文本内容时，叙事风格也具有明显差异。或者不同的作者所关注的风险事件种类不同，例如甲作者往往针对亏损事件发表文本。

训练文本示例如下：

“不过受金融行业政策和整体环境影响，2018年，甲公司及旗下子公司业绩均出现亏损，商业保利业务、助贷业务、车贷业务等高达 19.72亿元的应收账款无法收回，计提坏账准备达1.12亿元，加之部分助贷业务出现逾期，确认逾期负债3.97亿元。”

示例性地，上述训练文本的风险实体标签为“甲公司”，风险事件标签为“亏损事件主体”。其所属数据源为A财经媒体网站。

在操作S220，根据训练文本获得文本向量，以及根据所属数据源的信息获得数据源向量。

根据本公开的实施例，根据训练文本获得文本向量包括：将训练文本输入至预训练模型，获得文本向量。

预训练模型可以包括BERT模型、Roberta-wwm-ext-large模型、 ERNIE模型、NEZHA模型或XLNet模型等。以BERT模型为例， BERT(Bidirectional Encoder RepresentationFrom Transformers)是一个经过预训练的语言模型，其运用多层双向的transformer编码器，能够生成融合左右上下文信息的深层双向的语言表征。

在操作S230，将每条第一训练样本对应的文本向量和数据源向量进行合并，获得N条第一训练样本对应的N个训练向量。

示例性地，每条第一训练样本首先分别得到文本向量和数据源向量，然后进行合并得到一条训练向量。

在操作S240，将每个训练向量输入风险预警模型，获得预测结果，其中，预测结果包括预测风险实体和预测风险事件。

示例性地，风险预警模型可以是神经网络模型，例如卷积神经网络网络、长短期记忆神经网络或双向长短期记忆网络等。风险预警模型可以处理训练向量，并经由如sigmod、softmax、条件随机场(CRF) 等其中的至少一个输出分类结果。

在操作S250，根据预测结果和标签信息之间的误差，训练风险预警模型。

示例性地，训练模型的过程中可以输入正样本(如N条第一训练样本)和负样本。其中，负样本可以为无实体的训练文本。具体地，无实体表示这条文本不能表示某实体具有规定范围内风险的含义，例如“方正证券：半导体盈利成长全面加速，国产替代进入2.0时代。方正证券指出，国产集成电路设计公司业绩全面提速。封测环节景气拐点已现”。其中，方正证券并非是风险实体。

示例性地，利用如交叉熵损失函数、指数损失函数或均方误差损失函数等计算预测结果和标签信息之间的误差。训练模型的过程即为令损失函数收敛的过程，例如误差小于或等于某个预设阈值，可以认为训练完成。

本公开的实施例提供的训练方法能够在训练文本内容基础上增加该文本的数据源信息，并以此获得训练向量。从而能够将数据源和训练文本的结合提供给模型一个先验的信息，模型可以在训练过程中学习到数据源相关训练文本特点(例如文本语料格式特点、作者文体特点)以及风险特点(例如每个数据源侧重的风险实体或事件特点)，更为置信的输出风险预测结果，能够在模型训练过程中带来了额外的参数更新指导，让模型即使面对分布错综复杂的语料也能快速学习到有效信息，提高训练效率。

图3示意性示出了根据本公开的另一实施例的训练方法的流程图。

如图3所示，该实施例的训练方法除了包括操作S210～操作S250，在操作S210之后，还可以包括操作S310～操作S330。操作S210～操作S250可参照上述实施例，在此不做赘述。

在操作S310，确定N条第一训练样本中每种风险事件标签的数量，其中，每条第一训练样本对应一种风险事件标签。

在操作S320，基于每种风险事件标签的数量，确定出第一风险事件标签，其中，第一风险事件标签为数量最多的一种风险事件标签。

例如100条第一训练样本中共存在3种风险事件标签，如20条亏损风险事件、30条违约风险事件和50条评级下滑风险事件(仅为示例)。第一风险事件标签为评级下滑风险事件。

在操作S330，对第二风险事件标签对应的P条第一训练样本进行数据增强，得到Q条第二训练样本，其中，Q条第二训练样本用于训练风险预警模型，第二风险事件标签为除第一风险事件标签之外的任一种标签，P、Q分别为大于或等于1的整数。

示例性地，第二风险事件标签可以为上述亏损风险事件或违约风险事件的任一个。这里把亏损风险事件和违约风险事件的标签数量皆进行数据增强。如对20条有亏损风险事件的第一训练样本进行数据增强，得到30条有亏损风险事件的第二训练样本。对30条有违约风险事件的第一训练样本进行数据增强，得到20条有违约风险事件的第二训练样本。那么，最终会获得50条亏损风险事件、50条违约风险事件和50条评级下滑风险事件的训练样本(包括第一训练样本和第二训练样本)。

需要说明的是，在操作S220中可以根据训练文本和新增的第二训练文本获得文本向量，以及对应的数据源向量。

相关技术中，对于收集到的训练样本，经常有风险分布不均匀的情况，可能导致模型在训练过程中难以收敛。因此，通过进行数据增强来获得新的训练样本，从而令各种风险事件标签具有相同或类似的分布，可以提高训练效率。

根据本公开的实施例，对第二风险事件标签对应的P条第一训练样本进行数据增强包括：对P条第一训练样本中每条第一训练样本的训练文本进行如下操作：根据训练文本的字符数量，在训练文本中插入第一预设数量的标点，其中，第一预设数量小于或等于字符数量。

示例性，在训练文本中的非实体位置(风险实体名称字符之间的位置)随机插入标点，标点可以包括空格、顿号、句号、逗号、引号、感叹号、省略号中的至少一个。第一预设数量可以是字符数量的一定比例。例如10个字符数量插入五分之一数量的标点。

新获得的一条第二训练样本示例如下：

不、过受金融行业政策和整体环境，影响，2018年，甲公司及旗下子公司业绩均出现亏损，商业，保利业务、助贷业务、车贷业务等高达19.72亿元的，应收账款无法收回，计提，坏账准、备达1.12 亿元，加之部分助贷业务出现逾期，确认、逾期负债3.97亿元。

以Bert模型为例，将第一训练样本输入至Bert模型之后，可以根据上下文语义信息生成语义向量。而提取语义信息的过程中，每个字符的位置信息是考虑在内的。因此，通过插入标点，相对于原有的标点结构而言，至少部分字符的位置信息发生了变化。那么相对于 Bert模型而言，第二训练样本为一条新的训练样本，可以得到不同的语义向量。从而克服了各种风险事件标签分布不均衡的问题。

根据本公开的实施例的训练方法，还包括替换第一训练样本和/ 或第二训练样本中的风险实体。

示例性地，替换风险实体可以是独立于插入标点符号的方式，将 N条第一训练样本中的风险实体部分或全部替换，得到新的第二训练样本。还可以是在利用插入标点的方式获得第二训练样本之后，随机选择第一训练样本和第二训练样本进行实体替换。还可以是对第一训练样本和第二训练样本中的每个实体，均具有50％(仅为示例)的概率进行随机替换。

如将上述训练文本的甲公司替换，替换实体后的示例如下：

不、过受金融行业政策和整体环境，影响，2018年，乙公司及旗下子公司业绩均出现亏损，商业，保利业务、助贷业务、车贷业务等高达19.72亿元的，应收账款无法收回，计提，坏账准备达1.12亿元，加之部分助贷业务出现逾期，确认、逾期负债3.97亿元。

相关技术中，可能存在某实体在某类风险中占比很大，导致模型针对该类风险事件实际上只学到了该实体，最终模型鲁棒性不高。例如：财务造假相关新闻中，一半以上都是在说乙公司，这样很可能模型将乙公司这个实体做为财务造假的特征，以后即使出现乙公司是亏损事件主体，也会误判为财务造假。根据本公开的实施例，通过替换实体的方式可以避免实体分布不均衡的情况，提高风险预警模型的鲁棒性。

图4示意性示出了根据本公开实施例的获取风险事件分布信息的流程图。

如图4所示，上述所属数据源的信息包括风险事件分布信息，该实施例的获取风险事件分布信息包括操作S410～操作S430。

在操作S410，从N条第一训练样本中获取来自所属数据源的S 条第一训练样本，其中，S为大于或等于1的整数，S小于或等于N。

在操作S420，确定S条第一训练样本中每条第一训练样本对应的风险事件标签。

在操作S430，根据S条第一训练样本中每种风险事件标签的比例，得到风险事件分布信息。

示例性地，风险事件分布信息包括所属数据源的风险事件分布比例。例如2000条第一训练样本中有100条来自A财经媒体。其中，共4种风险事件标签，分别有40条亏损风险事件的训练样本、30条领导层变动风险事件的训练样本、20条财务造假风险事件的训练样本和10条破产风险事件的训练样本。上述4种风险事件标签分别为 40％、30％、20％和10％的比例。

根据本公开的实施例，通过获得每个数据源的风险事件分布信息，可以令风险预警模型通过风险事件分布信息，学习到对应数据源下的不同风险事件权重，从而更准确地更新模型参数。

图5示意性示出了根据本公开实施例的获得数据源向量的流程图。

如图5所示，该实施例的获得数据源向量包括操作S510～操作 S520。

在操作S510，根据N条第一训练样本中风险事件标签的种类数量，确定数据源向量的第一维度，其中，每种风险事件标签对应于数据源向量中的一个位置。

例如共有6种风险事件标签，种类数量为6，则第一维度为1*6(1 行6列)。如亏损风险事件、违约失信风险事件、破产风险事件、领导层变动风险事件、评级恶化风险事件或财务造假风险事件对应于1 行6列向量中的一个位置。

在操作S520，将S条第一训练样本中每种风险事件标签的比例，作为数据源向量中对应位置的向量值。

来自A财经媒体的训练样本共4种风险事件标签，亏损风险事件、领导层变动风险事件、财务造假风险事件和破产风险事件分别为 40％、30％、20％和10％的比例。则数据源向量为[0.4，0，0.1，0.3， 0，0.2]。

图6示意性示出了根据本公开的另一实施例的获得数据源向量的流程图。

如图6所示，所属数据源的信息包括所属数据源的数据源标识， M个数据源对应M个数据源标识，该实施例的获得数据源向量包括操作S610～操作S620。

在操作S610，对M个数据源标识中每个数据源标识进行向量编码。

示例性地，数据源标识可以为数据源名称。向量编码可以使用 One hot、词嵌入、二进制编码等方法。以One hot为例，其又称独热向量编码。例如共有4个数据源，名称分别为A财经新闻、B公司、 C博客和D政务网站，各自的向量编码为[1，0，0，0]、[0，1，0， 0]、[0，0，1，0]和[0，0，0，1]。

在操作S620，根据每个数据源标识编码后的结果，获得数据源向量。

在一些实施例中，若数据源信息仅包括数据源标识，可以直接将向量编码作为数据源向量。在另一些实施例中，若数据源信息包括数据源标识和风险事件分布信息，数据源向量可以为两者的拼接。以上述A财经新闻举例，拼接获得[0.4，0，0.1，0.3，0，0.2，1，0，0，0]。也可以在此基础上进行矩阵变换，在此不做限定。

根据本公开的实施例，将数据源标识作为输入训练风险预警模型，可以令模型学习到该数据源下各个维度的特点。在每条训练文本皆与数据源标识拼接之后，模型通过处理N条训练文本后通过梯度下降的方式更新神经网络各层的权重。因此，在学习的过程中可以根据数据源标识和训练文本的对应关系，得到各个数据源的格式特点、风险事件分布、文体特点等。

根据本公开的实施例，若将数据源标识和风险事件分布信息一起输入，那么对于模型而言，风险事件分布信息相当于确定的先验信息，省却了学习的过程。根据数据源标识可以学习其他如格式特点、文体特点等。

根据本公开的实施例，还可以将作者信息、文体风格或文本格式数据等向量化输入至风险预警模型，提供确定的先验信息。

图7示意性示出了根据本公开实施例的合并文本向量和数据源向量的流程图。

如图7所示，该实施例的合并文本向量和数据源向量包括操作 S710～操作S730。

在操作S710，根据预训练模型中的编码层构建向量转换模型。

在一些实施例中，Bert模型中包括Token Embedding层(即编码层)，该Embedding层内部就是先将句子中每个词的数据表示转化为 one hot表示，然后对编码后的数据进行矩阵的转换获得文本向量。根据Embedding层获得文本向量的计算方式，构件向量转换模型，实现与Embedding层相同的向量获取过程。

在操作S720，将数据源向量输入至向量转换模型进行转换。

在操作S730，将转换后的数据源向量与文本向量进行相加或拼接。

示例性地，向量转换模型的作用在于，转换后的数据源向量与文本向量相同维度，便于实现相加或拼接操作，以利于后续的神经网络进行处理。

根据本公开的实施例，训练风险预警模型包括训练X次风险预警模型，X为大于或等于2的整数，方法还包括在每次训练风险预警模型后，得到新的第二训练样本，直至完成X次训练，具体包括：在每次训练风险预警模型之前，进行数据增强和/或替换风险实体的操作。

示例性地，一次训练风险预想模型可以称为一次Epoch。一次 Epoch为深度学习中所有的训练样本完成一次前向传播运算以及一次反向传播运算。在每一个Epoch开始之前，基于N条第一训练样本进行数据增强，令每个Epoch在使用到N条第一训练样本基础上，获得新的第二训练样本加入训练。其作用在于，每一轮的训练都可以让模型见到新的样本，从而让模型可以学习到更丰富的语义信息，避免模型的过拟合，最终提升鲁棒性。

根据本公开的实施例，在每次训练风险预警模型过程中，还可以进行动态负采样。具体地，可以在每一个Epoch随机抽取负样本，负样本数量也和第一风险事件标签的数量统一，例如：在100个无实体的文本中随机抽取30条。

图8示意性示出了根据本公开实施例的风险预警方法的流程图。

如图8所示，该实施例的风险预警方法包括操作S810～操作S840。

在操作S810，获得待识别文本，以及待识别文本的所属数据源的信息。

在操作S820，根据待识别文本获得第一待识别向量，以及根据所属数据源的信息获得第二待识别向量。

示例性地，第一待识别向量和第二待识别向量的获得方式可以参照上述实施例描述的文本向量和数据源向量的获得方式，在此不做赘述。

在操作S830，将第一待识别向量和第二待识别向量进行合并，获得第三待识别向量。

示例性地，第三待识别向量的获得方式可以参照上述实施例描述的训练向量的获得方式，在此不做赘述。

在操作S840，将第三待识别向量输入风险预警模型，获得预测结果，其中，预测结果包括预测风险实体和预测风险事件，风险预警模型由图2～图7介绍的方法训练获得。

本公开的实施例提供了一种风险预警方法，利用本公开实施例的训练方法得到的风险预警模型能够考虑待识别文本及其所属数据源信息，较为准确地输出预测风险实体和预测风险事件，提高了风险预警效果。

基于上述训练方法和风险预警方法，本公开还提供了一种训练装置和风险识别装置。以下将结合图9和图10对上述装置进行详细描述。

图9示意性示出了根据本公开实施例的训练装置的结构框图。

如图9所示，该实施例的训练装置900包括第一获取模块910、第一向量模块920、第一合并模块930、第一输入模块940和模型训练模块950。

第一获取模块910可以执行操作S210，用于获取来自M个数据源的N条第一训练样本，其中，每条第一训练样本包括训练文本及其所属数据源的信息，和训练文本的标签信息，标签信息包括风险实体标签和风险事件标签，N、M分别为大于或等于1的整数。

第一向量模块920可以执行操作S220，用于根据训练文本获得文本向量，以及根据所属数据源的信息获得数据源向量。

根据本公开的实施例，第一向量模块920还可以执行操作S410～操作S430，操作S510～操作S520，操作S510～操作S520，在此不做赘述。

第一合并模块930可以执行操作S230，用于将每条第一训练样本对应的文本向量和数据源向量进行合并，获得N条第一训练样本对应的N个训练向量。

根据本公开的实施例，第一向量模块920还可以执行操作S710～操作S730，在此不做赘述。

第一输入模块940可以执行操作S240，用于将每个训练向量输入风险预警模型，获得预测结果，其中，预测结果包括预测风险实体和预测风险事件。

模型训练模块950可以执行操作S250，用于根据预测结果和标签信息之间的误差，训练风险预警模型。

根据本公开的实施例，训练装置900还可以包括数据增强模块。数据增强模块可以用于执行操作S310～操作S330，在此不做赘述。

图10示意性示出了根据本公开实施例的风险预警装置的结构框图。

如图10所示，该实施例的风险预警装置1000包括第二获取模块 1010、第二向量模块1020、第二合并模块1030、第二输入模块1040。

第二获取模块1010可以执行操作S810，用于获取待识别文本，以及待识别文本的所属数据源的信息。

第二向量模块1020可以执行操作S820，用于根据待识别文本获得第一待识别向量，以及根据所属数据源的信息获得第二待识别向量。

第二合并模块1030可以执行操作S830，用于将第一待识别向量和第二待识别向量进行合并，获得第三待识别向量。

第二输入模块1040可以执行操作S840，用于将第三待识别向量输入风险预警模型，获得预测结果，其中，预测结果包括预测风险实体和预测风险事件，风险预警模型由权利要求12的装置训练获得。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例，训练装置900或风险预警装置1000中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。

根据本公开的实施例，训练装置900或风险预警装置1000中的至少一个模块可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，训练装置900或风险预警装置1000中的至少一个模块可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图11所示，根据本公开实施例的电子设备1100包括处理器 1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1103中，存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1100还可以包括输入/输出(I/O) 接口1105，输入/输出(I/O)接口1105也连接至总线1104。电子设备1100还可以包括连接至I/O接口1105的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。

在该计算机程序被处理器1101执行时执行本公开实施例的系统/ 装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1109被下载和安装，和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++， python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网 (LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种风险预警模型的训练方法，包括：

获取来自M个数据源的N条第一训练样本，其中，每条所述第一训练样本包括训练文本及其所属数据源的信息，和所述训练文本的标签信息，所述标签信息包括风险实体标签和风险事件标签，N、M分别为大于或等于1的整数；

根据所述训练文本获得文本向量，以及根据所述所属数据源的信息获得数据源向量；

将每条所述第一训练样本对应的所述文本向量和所述数据源向量进行合并，获得所述N条第一训练样本对应的N个训练向量；

将每个所述训练向量输入风险预警模型，获得预测结果，其中，所述预测结果包括预测风险实体和预测风险事件；

根据所述预测结果和所述标签信息之间的误差，训练所述风险预警模型。

2.根据权利要求1所述的方法，其中，所述所属数据源的信息包括风险事件分布信息，所述方法还包括获取所述风险事件分布信息，具体包括：

从所述N条第一训练样本中获取来自所述所属数据源的S条第一训练样本，其中，S为大于或等于1的整数，S小于或等于N；

确定所述S条第一训练样本中每条第一训练样本对应的风险事件标签；

根据所述S条第一训练样本中每种风险事件标签的比例，得到所述风险事件分布信息。

3.根据权利要求2所述的方法，其中，所述根据所述所属数据源的信息获得数据源向量包括：

根据所述N条第一训练样本中风险事件标签的种类数量，确定所述数据源向量的第一维度，其中，每种所述风险事件标签对应于所述数据源向量中的一个位置；以及

将所述S条第一训练样本中每种风险事件标签的比例，作为所述数据源向量中对应位置的向量值。

4.根据权利要求1或3中任一项所述的方法，其中，所述所属数据源的信息包括所属数据源的数据源标识，所述M个数据源对应M个数据源标识，所述根据所述所属数据源的信息获得数据源向量包括：

对所述M个数据源标识中每个数据源标识进行向量编码；

根据所述每个数据源标识编码后的结果，获得所述数据源向量。

5.根据权利要求4所述的方法，其中，根据所述训练文本获得文本向量包括：

将所述训练文本输入至预训练模型，获得所述文本向量。

6.根据权利要求5所述的方法，其中，所述预训练模型包括编码层，所述编码层用于根据所述训练文本获得所述文本向量，所述方法还包括：

根据所述编码层构建向量转换模型；

将所述数据源向量输入至所述向量转换模型进行转换；

其中，所述将每条所述第一训练样本对应的所述文本向量和所述数据源向量进行合并包括：

将转换后的所述数据源向量与所述文本向量进行相加或拼接。

7.根据权利要求1所述的方法，其中，在获取所述N条第一训练样本之后，所述方法还包括：

确定所述N条第一训练样本中每种风险事件标签的数量，其中，每条所述第一训练样本对应一种风险事件标签；

基于所述每种风险事件标签的数量，确定出第一风险事件标签，其中，所述第一风险事件标签为数量最多的一种风险事件标签；

对第二风险事件标签对应的P条第一训练样本进行数据增强，得到Q条第二训练样本，其中，所述Q条第二训练样本用于训练所述风险预警模型，所述第二风险事件标签为除所述第一风险事件标签之外的任一种标签，P、Q分别为大于或等于1的整数。

8.根据权利要求7所述的方法，其中，所述对第二风险事件标签对应的P条第一训练样本进行数据增强包括：对所述P条第一训练样本中每条第一训练样本的训练文本进行如下操作，

根据所述训练文本的字符数量，在所述训练文本中插入第一预设数量的标点，其中，所述第一预设数量小于或等于所述字符数量。

9.根据权利要求1或7中任一项所述的方法，其中，所述方法还包括：替换所述第一训练样本和/或所述第二训练样本中的风险实体。

10.根据权利要求9所述的方法，其中，所述训练所述风险预警模型包括训练X次所述风险预警模型，X为大于或等于2的整数，所述方法还包括在每次训练所述风险预警模型后，得到新的所述第二训练样本，直至完成X次训练，具体包括：

在每次训练所述风险预警模型之前，进行所述数据增强和/或替换风险实体的操作。

11.一种风险预警方法，包括：

获得待识别文本，以及所述待识别文本的所属数据源的信息；

根据所述待识别文本获得第一待识别向量，以及根据所述所属数据源的信息获得第二待识别向量；

将所述第一待识别向量和所述第二待识别向量进行合并，获得第三待识别向量；

将所述第三待识别向量输入风险预警模型，获得预测结果，其中，所述预测结果包括预测风险实体和预测风险事件，所述风险预警模型由权利要求1～10中任一项所述的方法训练获得。

12.一种风险预警模型的训练装置，包括：

第一获取模块，用于获取来自M个数据源的N条第一训练样本，其中，每条所述第一训练样本包括训练文本及其所属数据源的信息，和所述训练文本的标签信息，所述标签信息包括风险实体标签和风险事件标签，N、M分别为大于或等于1的整数；

第一向量模块，用于根据所述训练文本获得文本向量，以及根据所述所属数据源的信息获得数据源向量；

第一合并模块，用于将每条所述第一训练样本对应的所述文本向量和所述数据源向量进行合并，获得所述N条第一训练样本对应的N个训练向量；

第一输入模块，用于将每个所述训练向量输入风险预警模型，获得预测结果，其中，所述预测结果包括预测风险实体和预测风险事件；

模型训练模块，用于根据所述预测结果和所述标签信息之间的误差，训练所述风险预警模型。

13.一种风险预警装置，包括：

第二获取模块，用于获取待识别文本，以及所述待识别文本的所属数据源的信息；

第二向量模块，用于根据所述待识别文本获得第一待识别向量，以及根据所述所属数据源的信息获得第二待识别向量；

第二合并模块，用于将所述第一待识别向量和所述第二待识别向量进行合并，获得第三待识别向量；

第二输入模块，用于将所述第三待识别向量输入风险预警模型，获得预测结果，其中，所述预测结果包括预测风险实体和预测风险事件，所述风险预警模型由权利要求12所述的装置训练获得。

14.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～11中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～11中任一项所述的方法。

16.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～11中任一项所述的方法。