CN113591467B

CN113591467B - 事件主体识别方法及装置、电子设备、介质

Info

Publication number: CN113591467B
Application number: CN202110903634.8A
Authority: CN
Inventors: 刘文强
Original assignee: Beijing Jindi Credit Service Co ltd
Current assignee: Beijing Jindi Credit Service Co ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-11-03
Anticipated expiration: 2041-08-06
Also published as: CN113591467A

Abstract

本公开的实施例提供了一种事件主体识别方法及装置、电子设备、介质，其中，方法包括：获取待分析文本，待分析文本包括信息文本和信息文本对应的至少一个事件类型；利用预先训练得到的事件主体识别模型，预测信息文本中分别与至少一个事件类型中各事件类型关联的事件主体；输出各事件类型和各事件类型关联的事件主体。本公开技术方案能够对舆情信息中事件主体进行识别。

Description

事件主体识别方法及装置、电子设备、介质

技术领域

本公开涉及数据处理技术领域，特别涉及事件主体识别方法及装置、电子设备、介质。

背景技术

舆情是指在一定的社会空间内，围绕社会事件的发生、发展和变化，作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。

随着互联网技术的快速发展，网络的开发性和灵活性让其成为反映社会舆情的主要载体之一。通过对企业的舆情新闻进行信息提取和结构化存储，可以让用户方便的获取到其关注企业的全面舆情信息，这不仅有利于对企业的舆情信息进行分析，准确判断企业的发展趋势，还可以进一步生成舆情报告和各种统计报表，以便于决策。

针对企业的舆情信息，尤其是舆情信息存在多个事件时，如何将舆情信息中的事件与主体(即企业)关联，使事件对应到相关企业下，以使用户准确了解关联企业主体发生的事件，对于准确判断企业的发展趋势具有重要的意义。

发明内容

本公开的目的在于提供一种事件主体识别方法及装置、电子设备、介质和程序，以实现对舆情信息中事件主体的识别。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种事件主体识别方法，包括：

获取待分析文本，待分析文本包括信息文本和信息文本对应的至少一个事件类型；

利用预先训练得到的事件主体识别模型，预测信息文本中分别与至少一个事件类型中各事件类型关联的事件主体；

输出各事件类型和各事件类型关联的事件主体。

可选地，在本公开的示例性实施例中，获取待分析文本，包括：

获取信息文本；

对信息文本进行事件主体识别，得到至少一个事件类型；

将信息文本和至少一个事件类型按照预设格式拼接，或者，分别将信息文本和各事件类型按照预设格式拼接，得到待分析文本。

可选地，在本公开的示例性实施例中，将信息文本和至少一个事件类型按照预设格式拼接，包括：将信息文本、至少一个事件类型中的各事件类型及对应的事件类型含义按照预设格式拼接；或者，

分别将信息文本和各事件类型按照预设格式拼接，包括：分别针对各事件类型，将信息文本、各事件类型及对应的事件类型含义，按照预设格式拼接。

可选地，在本公开的示例性实施例中，利用预先训练得到的事件主体识别模型，预测信息文本中分别与至少一个事件类型中各事件类型关联的事件主体，包括：

利用事件主体识别模型，分别预测各事件类型关联的事件主体在信息文本中的起始位置和终止位置；

基于各事件类型关联的事件主体的起始位置和终止位置，从信息文本中提取得到各事件类型关联的事件主体。

可选地，在本公开的示例性实施例中，预测各事件类型关联的事件主体在信息文本中的起始位置和终止位置，包括：

分别针对各事件类型，预测信息文本中的各字符是否事件类型关联的事件主体的起始位置的概率值，以及各字符是否事件类型关联的事件主体的终止位置的概率值；

基于起始位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的起始位置；

基于终止位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的终止位置。

可选地，在本公开的示例性实施例中，基于起始位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的起始位置；基于终止位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的终止位置，包括：

获取起始位置的概率值中，大于预设概率阈值的概率值的个数，得到第一数量；

获取终止位置的概率值中，大于预设概率阈值的概率值的个数，得到第二数量；

比较第一数量与第二数量是否相等；

若第一数量与第二数量相等，以第一数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为起始位置，以第二数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为终止位置。

可选地，在本公开的示例性实施例中，基于起始位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的起始位置；基于终止位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的终止位置，还包括：

若第一数量与第二数量不相等，以第一数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为起始位置，以第二数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为终止位置；并针对第一数量与第二数量中数值少的起始位置的概率值或终止位置的概率值，使用修正函数召回数值少的起始位置的概率值或终止位置的概率值中大于修正函数阈值的概率值，以补齐第一数量与第二数量之间的差值，并以大于修正函数阈值的概率值的字符在信息文本中的位置作为相应的起始位置或终止位置。

可选地，在本公开的示例性实施例中，获取信息文本之后，还包括：

识别信息文本的长度是否大于预设长度；

若信息文本的长度大于预设长度，以预设长度为单位，将信息文本分割为多个文本段，并分别以多个文本段中的各文本段作为信息文本，执行对信息文本进行事件主体识别，得到至少一个事件类型的操作、以及将信息文本和至少一个事件类型按照预设格式拼接，或者，分别将信息文本和各事件类型按照预设格式拼接，得到待分析文本的操作。

否则，若信息文本的长度不大于预设长度，直接执行对信息文本进行事件主体识别，得到至少一个事件类型的操作。

可选地，在本公开的示例性实施例中，利用预先训练得到的事件主体识别模型，预测信息文本中分别与至少一个事件类型中各事件类型关联的事件主体之后，还包括：

将多个文本段对应的事件类型关联的事件主体进行汇总，得到待分析文本对应的各事件类型关联的事件主体。

可选地，在本公开的示例性实施例中，输出各事件类型和各事件类型关联的事件主体，包括：

输出待分析文本对应的各事件类型关联的事件主体。

可选地，在本公开的示例性实施例中，事件主体识别模型的训练包括：

将多个预训练语料中的各预训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型，以使事件类型识别模型学习各预训练语料中事件类型和事件主体之间的关联信息；

将多个第一训练语料中的各第一训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型，经事件主体识别模型输出各第一训练语料中各事件类型和各事件类型关联的事件主体；

基于多个第一训练语料的事件类型标注信息和对应的事件主体标注信息，与输出的各事件类型和各事件类型关联的事件主体，对事件主体识别模型进行训练。

可选地，在本公开的示例性实施例中，事件主体标注信息包括：事件主体在第一训练语料中的起始位置标注信息和终止位置标注信息；

经事件主体识别模型输出各第一训练语料中各事件类型和各事件类型关联的事件主体，包括：

分别针对各第一训练语料，经事件主体识别模型预测各事件类型关联的事件主体在第一训练语料中的起始位置和终止位置；

基于各事件类型关联的事件主体的起始位置和终止位置，从第一训练语料中提取得到各事件类型关联的事件主体。

可选地，在本公开的示例性实施例中，将多个预训练语料中的各预训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型，包括：将多个预训练语料中的各预训练语料、事件类型标注信息、事件类型标注信息对应的事件类型含义和事件类型对应的事件主体标注信息输入事件主体识别模型；

将多个第一训练语料中的各第一训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型，包括：将多个第一训练语料中的各第一训练语料、事件类型标注信息、事件类型标注信息对应的事件类型含义和事件类型对应的事件主体标注信息输入事件主体识别模型。

可选地，在本公开的示例性实施例中，对信息文本进行事件主体识别，得到至少一个事件类型，包括：

利用事件类型识别模型，预测信息文本是否事件类型列表中各事件类型的概率值，得到第一预测结果；其中，事件类型列表包括预先设定的多个事件类型；

基于所述第一预测结果，确定信息文本对应的事件类型，得到至少一个事件类型。

根据本公开的第二方面，提供一种事件主体识别装置，包括：

文本获取模块，用于获取待分析文本，待分析文本包括信息文本和信息文本对应的至少一个事件类型；

预测模块，用于利用预先训练得到的事件主体识别模型，预测信息文本中分别与至少一个事件类型中各事件类型关联的事件主体；

输出模块，用于输出各事件类型和所述各事件类型关联的事件主体。

根据本公开的第三方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述事件主体识别方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述事件主体识别方法。

根据本公开的第五方面，提供一种计算机程序，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现上述事件主体识别方法。

由上述技术方案可知，本公开示例性实施例中的事件主体识别方法及装置、电子设备、计算机可读存储介质和计算机程序至少具备以下优点和积极效果：

本公开实施例中的事件主体识别方法及装置、电子设备、介质和程序，通过获取待分析文本，该待分析文本包括信息文本和信息文本对应的至少一个事件类型，然后，利用预先训练得到的事件主体识别模型，预测信息文本中分别与上述至少一个事件类型中各事件类型关联的事件主体，进而输出各事件类型和各事件类型关联的事件主体。本公开实施例能够识别信息文本(例如舆情信息)中各事件的事件主体，将信息文本中的事件类型与事件主体关联，使事件类型对应到相关事件主体下，以使用户准确了解关联事件主体发生的事件，从而有助于用户准确判断事件主体的发展趋势；另外，能够识别信息文本中所有事件类型的事件主体识别，同时能够针对事件类型识别所有的事件主体，从而实现对信息文本多事件类型、多事件主体的全面识别，提高信息挖掘效果。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一个系统架构示意图；

图2示出本公开第一示例性实施例中事件主体识别方法的流程示意图；

图3示出本公开第二示例性实施例中事件主体识别方法的流程示意图；

图4示出本公开第三示例性实施例中事件主体识别方法的流程示意图；

图5示出本公开第四示例性实施例中事件主体识别方法的流程示意图；

图6示出本公开第一示例性实施例中事件主体识别装置的框图；

图7示出本公开第二示例性实施例中事件主体识别装置的框图；

图8示出本公开示例性实施例中电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。

在本公开中，除非另有明确的规定和限定，“连接”等术语应做广义理解，例如，可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

图1示出了可以应用本公开实施例的一个系统架构示意图。如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。

应当理解的是，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机、台式计算机、数字电影放映机等。

网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如：有线、无线通信链路或者光纤电缆等。

服务器105可以是提供各种信息文本的服务器，例如：各种网站、自媒体平台、数据库等的服务器。在其中一些实施方式中，用户利用终端设备103(也可以是终端设备101或102)实时或者定期从服务器105获取信息文本，并执行本公开实施例的事件主体识别方法得到各事件类型和各事件类型关联的事件主体，并以结构化信息存储方式存储在结构化数据库中，以便后续分析使用。

图2示出本公开第一示例性实施例中事件主体识别方法的流程示意图。本实施例可应用在电子设备上，如图2所示，本实施例的事件主体识别方法包括如下步骤：

步骤201，获取待分析文本，该待分析文本包括信息文本和该信息文本对应的至少一个事件类型。

本公开实施例中的信息文本中的字符可以为中文字符，也可以为英文字符，或者，还可以为数字等任意类型的字符，本公开实施例对信息文本中字符的类型不作具体限定。另外，本公开实施例中的信息文本可以是任意领域的文本，本公开实施例对信息文本的内容和所属领域不做限定。

在其中一些实施方式中，本公开实施例中的信息文本可以是企业的舆情新闻文本，该舆情新闻文本可以是原始的舆情新闻文本，也可以是对原始的舆情新闻文本进行预处理后的舆情新闻文本，其中的预处理例如可以是去除原始的舆情新闻文本中的表情符号、错误的标点符号等等，本公开实施例对舆情新闻文本的具体内容和表现形式、是否预处理以及预处理的具体方式不做限制。例如，企业的舆情新闻文本可以为“1月27日，泰康人寿与平阴县中医医院成功举办“健保通”项目合作签约仪式。中国中铁、中国铁建集中换帅！”。

本公开实施例中的信息文本，例如企业的舆情新闻文本，是非结构化信息。

本公开实施例中，可以实时或者按照一定周期从各网站、论坛、自媒体平台等获取信息文本，或者，也可以接收用户输入的信息文本，并获取其对应的至少一个事件类型，生成待分析文本，本公开实施例对获取信息文本、待分析文本的途径和方式不做限定。

其中，事件是涉及参与者的特定发生，可以经常被描述为状态的改变。

本公开实施例中，事件类型是指事件依据其内容所属的领域，可以依据事件的内容将事件划分为多个事件类型，例如在其中一个示例中，可以将事件类型划分为如下所示的22种类型：违法违规、法律纠纷、高管变动、高管负面、企业裁员、企业盈亏、达成合作、市场竞争、监管约谈、警告处罚、抽查检查、监管政策，立案调查、对外投资、融资进程、自杀猝死、安全事故、暴雷事件、产品推广、用户投诉，下架/召回、非事件。本公开实施例对具体划分的事件类型的数量和具体划分方式不做限定。

步骤202，利用预先训练得到的事件主体识别模型，预测上述信息文本中分别与上述至少一个事件类型中各事件类型关联的事件主体。

步骤203，输出上述各事件类型和上述各事件类型关联的事件主体。

基于本实施例，通过获取待分析文本，该待分析文本包括信息文本和信息文本对应的至少一个事件类型，然后，利用预先训练得到的事件主体识别模型，预测信息文本中分别与上述至少一个事件类型中各事件类型关联的事件主体，进而输出各事件类型和各事件类型关联的事件主体。本公开实施例能够识别信息文本(例如舆情信息)中各事件的事件主体，将信息文本中的事件类型与事件主体关联，使事件类型对应到相关事件主体下，以使用户准确了解关联事件主体发生的事件，从而有助于用户准确判断事件主体的发展趋势；另外，能够识别信息文本中所有事件类型的事件主体识别，同时能够针对事件类型识别所有的事件主体，从而实现对信息文本多事件类型、多事件主体的全面识别，提高信息挖掘效果。

图3示出本公开第二示例性实施例中事件主体识别方法的流程示意图。如图3所示，在图2所示实施例的基础上，步骤201可以包括：

步骤301，获取信息文本。

步骤302，对上述信息文本进行事件主体识别，得到上述至少一个事件类型。

步骤303，将上述信息文本和上述至少一个事件类型按照预设格式拼接，或者，分别将上述信息文本和上述各事件类型按照预设格式拼接，得到上述待分析文本。

基于本实施例，将事件类型与信息文本拼接以明确事件类型信息，进行事件主体提取，有助于提升事件主体抽取的准确性。

可选地，在其中一些实施方式中，可以使用阅读理解方式，将信息文本中存在的多事件类型拆分，如达成合作、高管变动，分别与信息文本按照预设格式进行拼接，例如，[CLS]达成合作[SEP]信息文本。其中，[CLS]表示起始符，[SEP]表示分隔符。

即，在一个实现方式中，可以将上述信息文本和上述至少一个事件类型按照如下预设格式拼接：事件类型1，事件类型2，…，[SEP]信息文本；或者，[CLS]事件类型1，事件类型2，…，信息文本[SEP]事件类型1，事件类型2，…。

在另一个实现方式中，可以分别将上述信息文本和上述各事件类型按照如下预设格式拼接：事件类型1[SEP]信息文本，事件类型2[SEP]信息文本，…；或者，信息文本[SEP]事件类型1，信息文本[SEP]事件类型2，…。

例如，一个待分析文本为：{"text":"1月27日，AA人寿与BB中医医院成功举办“CC”项目合作签约仪式。DD公司、EE公司换帅！","event":"达成合作，高管变动"}。其中，text为信息文本标识，信息文本为“1月27日，AA人寿与BB中医医院成功举办“CC”项目合作签约仪式。DD公司、EE公司换帅换帅！”。event为事件标识，事件类型为“达成合作”和“高管变动”两种类型。

可选地，在其中一些实施方式中，在步骤303中，可以将上述信息文本、上述至少一个事件类型中的各事件类型及对应的事件类型含义按照预设格式拼接。

其中的事件类型含义，用于描述事件类型的含义，例如事件类型“达成合作”的含义为在企业间代表不同企业进行合作、签约等行为。针对不同事件类型含义，如达成合作，可设置事件类型含义如“2家或者多家企业达成一致，完成合作的企业有哪些？”，从而上述待分析文本示例变为：{"text":"1月27日，AA人寿与BB中医医院成功举办“CC”项目合作签约仪式。DD公司、EE公司换帅！","event":"达成合作，高管变动"，"qas":{"达成合作":"2家或者多家企业达成一致，完成合作的企业有哪些？"，"高管变动":"指企业的高级管理人员如董事、经理等的职位变更的主体有哪些？"}}。其中，"qas"表示各事件类型及对应的事件类型含义。针对上述待分析文本，事件主体识别模型输出的预测结果可以是："subject":{"达成合作":"AA人寿,BB中医医院","高管变动":"DD公司,EE公司"}。

或者，在另一些实施方式中，在步骤303中，也可以分别针对各事件类型，将上述信息文本、上述各事件类型及对应的事件类型含义，按照预设格式拼接。

基于上述实施例中，通过增加额外的事件类型含义，使事件主体识别模型与预测的信息文本进行语义交互，可以更加准确的提取事件主体。

图4示出本公开第三示例性实施例中事件主体识别方法的流程示意图。如图4所示，在图2和图3所示实施例的基础上，步骤202可以包括：

步骤401，利用事件主体识别模型，分别预测各事件类型关联的事件主体在上述信息文本中的起始位置和终止位置。

步骤402，基于各事件类型关联的事件主体的起始位置和终止位置，从上述信息文本中提取得到上述各事件类型关联的事件主体。

可选地，在其中一些实施方式中，在步骤401中，可以分别针对各事件类型，分别预测信息文本中的各字符是否该事件类型关联的事件主体的起始位置的概率值，以及各字符是否该事件类型关联的事件主体的终止位置的概率值；然后，基于上述起始位置的概率值与预设概率阈值(例如0.5)之间的关系，确定该事件类型关联的事件主体的起始位置；基于上述终止位置的概率值与预设概率阈值之间的关系，确定该事件类型关联的事件主体的终止位置。

例如，可以通过激活函数sigmoid对事件主体完成起始位置的概率预测与终止位置的概率预测，即二分类，判断信息文本中各字符是否为事件主体的起始位置或终止位置，然后根据预测出的结果，从信息文本中截取出事件主体(即企业主体)，得到的事件主体集合即为事件类型的多主体，基于同样方式，可以实现，即可完成对事件主体识别模型的训练。

基于本实施例，抽取事件主体的起始位置和结束位置时，引入预设概率阈值，基于预设概率阈值的对起始位置、终止位置进行预测，可提升召回率；另外，可在事件主体抽取任务上，解决多事件多主体的抽取问题，并提升准确度。

进一步地，在具体实现中，可以获取上述起始位置的概率值中，大于上述预设概率阈值的概率值的个数，得到第一数量；获取上述终止位置的概率值中，大于上述预设概率阈值的概率值的个数，得到第二数量。然后，比较第一数量与第二数量是否相等。若第一数量与第二数量相等，以第一数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为上述起始位置，以第二数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为上述终止位置。否则，若第一数量与第二数量不相等，以第一数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为上述起始位置，以第二数量的、概率值大于预设概率阈值的字符在上述信息文本中的位置作为上述终止位置；并针对上述第一数量与上述第二数量中数值少的上述起始位置的概率值或上述终止位置的概率值，使用修正函数召回上述数值少的起始位置的概率值或终止位置的概率值中大于修正函数阈值的概率值，以补齐第一数量与第二数量之间的差值，并以大于修正函数阈值的概率值的字符在信息文本中的位置作为相应的起始位置或终止位置。

一般对是否起始位置、终止位置的概率值进行二分类预测，预设概率阈值设置为0.5，但是经过测试，本实施例可以新增修正函数阈值为0.45，对提取的事件主体的长度执行修正函数逻辑，可在保证提取事件主体正常的情况下，提升召回，即事件类型存在多事件主体，可尽量将所有事件主体都提取出来。

例如，针对如下待分析文本具体实例：[CLS]达成合作[SEP]1月27日，泰康人寿与平阴县中医医院成功举办“健保通”项目合作签约仪式。中国中铁、中国铁建集中换帅！[SEP]，各字符及起始位置的概率值二分类结果为：

1月27日，泰康人寿与平阴县中医医院成功举办“健保通”项目合作签约仪式。中国中铁、中国铁建集中换帅！

0 0 0 0 0 0 1 0 0 0 0 1 0 0 0…

则由此确定起始位置在：泰、平。这里的1是概率值二分类结果，中间结果为概率值，如0 0 0 0 0 0.5 0 0 0 0 0.45 0 0 0…。预设概率阈值为0.45，那么概率值0.5、0.45处最终标签(label，即二分类结果)为1，转换label为1的字符在信息文本中的位置，如第一个1位置6，第二个为11。

各字符及终止位置的概率值二分类结果为：

0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0…

则由此确定终止位置在：寿、院，中间结果为概率值，如0 0 0 0 0 0 0 0 0.48 00 0 0 00 0 0.65 0 0 0…

预设概率阈值为0.45，那么概率值0.48、0.65处的最终label为1，转换label为1字符在信息文本中的位置，如第一个1位置9，第二个为17。

然后根据起始位置与终止位置提取事件主体，位置【6，9】为泰康人寿；位置【11，17】为平阴县中医医院，所以事件类型“达成合作”的事件主体为泰康人寿与平阴县中医医院。

继续针对上述待分析文本具体实例：[CLS]达成合作[SEP]1月27日，泰康人寿与平阴县中医医院成功举办“健保通”项目合作签约仪式。中国中铁、中国铁建集中换帅！[SEP]，各字符及起始位置的概率值二分类结果为：

起始位置二分类：

0 0 0 0 0 0 1 0 0 0 0 1 0 0 0…

则由此确定起始位置在：泰、平。这里的1是概率值二分类结果，中间结果为概率值，如0 0 0 0 0 0.5 0 0 0 0 0.35 0 0 0…。

预设概率阈值为0.45，那么概率值0.5处最终label为1，概率值0.35处会被过滤，但是根据下方的终止位置的概率值二分类结果，有2个终止位置，且第二处终止位置的概率值还比较大，为0.65，推测必定有一个起始位置未识别出来，使用修正函数，查找是否有略低于阈值0.45的概率，一般设置修正函数阈值为0.3，大于0.3且终止位置包含大于0.45概率值的预设阈值标签时，召回修正这个概率值0.35的起始位置。转换label为1的字符在信息文本中的位置，如第一个1位置6，第二个为11。

各字符及终止位置的概率值二分类结果为：

0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0…

则由此确定终止位置在：寿、院，中间结果为概率值，如0 0 0 0 0 0 0 0 0.48 00 0 00 0 0 0.65 0 0 0…

可选地，在其中一些实施方式中，在步骤301之后，还可以识别信息文本的长度是否大于预设长度。其中的预设长度不大于事件主体识别模型可支持的文本长度。若该信息文本的长度大于预设长度(例如512个字节)，以预设长度为单位，将上述信息文本分割为多个文本段，并分别以上述多个文本段中的各文本段作为信息文本，执行步骤302-303的操作。相应地，在步骤202之后，可以将上述多个文本段对应的事件类型关联的事件主体进行汇总，得到待分析文本对应的各事件类型关联的事件主体。在步骤203中，输出待分析文本对应的各事件类型关联的事件主体。否则，若信息文本的长度不大于预设长度，则直接执行302及之后的流程。

由于模型可支持一次输入的文本长度有限，例如对于大型预训练语言模型bert等支持的文本长度为0-512个字节，本实施例中，可以针对长度大于预设长度的信息文本，以上述预设长度为单位，将上述信息文本分割为多个文本段，执行后续操作，最后再进行汇总，可以在模型支持的文本长度范围内实现对信息文本中事件类型和事件主体的全面识别。

可选地，在其中一些实施方式中，在步骤301之后，还可以识别上述信息文本中是否存在预设垃圾语料词集合中的词语。若上述信息文本中存在预设垃圾语料词集合中的词语，不执行后续操作；或者过滤掉预设垃圾语料词集合中的词语，并针对过滤掉预设垃圾语料词集合中的词语后的信息文本，执行步骤302操作。否则，若上述信息文本中不存在预设垃圾语料词集合中的词语，直接执行步骤302操作。

基于本实施例，可以通过预设垃圾语料词集合预判信息文本的质量，完成对垃圾信息文本或者信息文本中低质量词语的过滤，从而保证进行事件主体识别的信息文本的质量和事件主体识别的有效性，提高事件主体识别的准确性。

可选地，在其中一些实施方式中，本公开上述实施例的事件主体识别模型、事件主体识别模型，均可以选用预训练语言模型，例如BERT模型、RoBERTa模型、ERNIE模型等大型预训练语言模型，本公开实施例对具体采用的语言模型不做限制。

预训练语言模型可以通过建模海量数据中的实体概念等先验语义知识，学习完整概念的语义表示，对语义知识单元的表示更贴近真实世界，在基于字特征输入建模的同时，直接对先验语义知识单元进行建模，具有较强的语义表示能力。

图5示出本公开第四示例性实施例中事件主体识别方法的流程示意图。如图5所示，在上述实施例的基础上，可以采用如下方式，训练得到上述事件主体识别模型：

步骤501，将多个预训练语料中的各预训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型，以使事件类型识别模型学习各预训练语料中事件类型和事件主体之间的关联信息。

可选地，在其中一些实施方式中，可以采用无监督的训练方式预训练事件主体识别模型，即让事件主体信息学习预设数量的预训练语料对应的事件主体信息，或者对事件主体识别模型的预训练次数达到预设次数，本公开实施例对事件主体识别模型的预训练方式不做限定。

步骤502，将多个第一训练语料中的各第一训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型，经事件主体识别模型输出各第一训练语料中各事件类型和各事件类型关联的事件主体。

例如，一个第一训练语料或者预训练语料为：

{

"text":"1月27日，泰康人寿与平阴县中医医院成功举办“健保通”项目合作签约仪式。中国中铁、中国铁建集中换帅！","event":"达成合作","subject":{"达成合作":"泰康人寿,平阴县中医医院"}

}

{"text":"1月27日，泰康人寿与平阴县中医医院成功举办“健保通”项目合作签约仪式。中国中铁、中国铁建集中换帅！","event":"高管变动","subject":{"高管变动":"中国中铁,中国铁建"}}

可以按照上述格式标注一段信息文本，及信息文本出现的多种事件类型和各事件类型对应的多事件主体，使事件主体识别模型可以学习信息文本中多种事件类型与事件主体的交互语境。使事件主体识别模型对事件与多主体及信息文本的关系进行联合学习，训练好事件主体识别模型后，就可以完成对信息文本进行多事件的多主体抽取了。

步骤503，基于多个第一训练语料的事件类型标注信息和对应的事件主体标注信息，与输出的各事件类型和各事件类型关联的事件主体，对事件主体识别模型进行训练。

可选地，在其中一些实施方式中，可以采用有监督的训练方式训练事件主体识别模型，迭代执行步骤502-503，对事件主体识别模型进行训练，直至满足第一预设训练完成条件，例如，对事件主体识别模型的迭代训练次数达到预设次数，和/或事件主体识别模型输出的各事件主体关联的事件主体与对应的事件主体标注信息计算得到的损失函数的函数值小于预设阈值等。本公开实施例对预设训练完成条件不做限定。

可选地，在其中一些实施方式中，使用BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型，作为步骤501得到的事件主体识别模型，然后通过迭代执行步骤502-503使用大量第一训练语料对事件主体识别模型进行精调(fine-tuning)，来实现对事件主体识别模型的训练。

基于本实施例，可以利用大量的预训练语料预训练事件主体识别模型，然后利用大量的第一训练语料训练事件主体识别模型，使事件主体识别模型可以充分学习到各第一训练语料中各事件类型和各事件类型关联的事件主体，这样，在事件主体识别模型训练完成后，可以预测各事件类型关联的事件主体信息，从而实现事件主体信息的全面、准确预测。

可选地，在其中一些实施方式中，上述事件主体标注信息可以包括：事件主体在第一训练语料中的起始位置标注信息和终止位置标注信息。相应地，步骤502中，可以分别针对各第一训练语料，经事件主体识别模型预测各事件类型关联的事件主体在第一训练语料中的起始位置和终止位置，然后，基于各事件类型关联的事件主体的起始位置和终止位置，从第一训练语料中提取得到各事件类型关联的事件主体。

可选地，在其中一些实施方式中，上述各预训练语料、以及各第一训练语料的标注信息还可以包括各事件类型标注信息对应的事件类型含义。即，在步骤501中，将多个预训练语料中的各预训练语料、事件类型标注信息、事件类型标注信息对应的事件类型含义和事件类型对应的事件主体标注信息输入事件主体识别模型。在步骤503中，将多个第一训练语料中的各第一训练语料、事件类型标注信息、事件类型标注信息对应的事件类型含义和事件类型对应的事件主体标注信息输入事件主体识别模型。

可选地，在其中一些实施方式中，在步骤302中，可以利用预先训练得到的事件类型识别模型，预测信息文本是否事件类型列表中各事件类型的概率值，得到第一预测结果，其中，事件类型列表包括预先设定的多个事件类型；然后，基于第一预测结果，确定信息文本对应的事件类型，得到至少一个事件类型。

基于本实施例，通过获取信息文本，并利用预先训练得到的事件类型识别模型，预测信息文本是否事件类型列表中各事件类型的概率值，得到第一预测结果，其中的事件类型列表包括预先设定的多个事件类型，例如事件类型列表中可以包括如下所示的22种事件类型：违法违规、法律纠纷、高管变动、高管负面、企业裁员、企业盈亏、达成合作、市场竞争、监管约谈、警告处罚、抽查检查、监管政策、立案调查、对外投资、融资进程、自杀猝死、安全事故、暴雷事件、产品推广、用户投诉、下架/召回、非事件。然后，基于第一预测结果确定信息文本对应的事件类型。本公开实施例能够对信息文本(例如舆情信息)实现有效的事件识别；另外，能够准确预测信息文本是否事件类型列表中各事件类型的概率值，进而可以准确确定信息文本对应的事件类型，提高了识别信息文本对应事件类型的准确性。另外，由于分别预测上述信息文本是否事件类型列表中各事件类型的概率值，而非直接预测属于哪类事件，各事件类型之间独立不互斥，可以实现多事件类型的识别，可以实现对信息文本信息完整的事件类型识别。

可选地，在其中一些实施方式中，第一预测结果可以包括：针对事件类型列表中各事件类型，上述信息文本是各事件类型的概率值和不是各事件类型的概率值，例如，第一预测结果中，上述信息文本是“违法违规”这一事件类型的概率值和不是“违法违规”这一事件类型的概率值。

可选地，在其中一些实施方式中，可以分别针对事件类型列表中各事件类型，获取第一预测结果中是该事件类型的概率值大于不是该事件类型的概率值的事件类型，作为上述信息文本对应的事件类型。例如，第一预测结果中，上述信息文本是事件类型列表中“违法违规”这一事件类型的概率值是0.7839257717132568，不是“违法违规”这一事件类型的概率值是0.21607419848442078；是事件类型列表中“法律纠纷”这一事件类型的概率值是0.04098828509449959，不是“法律纠纷”这一事件类型的概率值是0.9590117335319519。由于信息文本是事件类型列表中“违法违规”这一事件类型的概率值大于不是事件类型列表中“违法违规”这一事件类型的概率值，则上述信息文本对应的事件类型是“违法违规”。

或者，在另一些实施方式中，可以分别针对事件类型列表中各事件类型，分别针对事件类型列表中各事件类型，获取第一预测结果中是该事件类型的概率值大于第一预设阈值(如第一预设阈值为0.5)的事件类型，作为上述信息文本对应的事件类型。例如，假设第一预设阈值为0.52，第一预测结果中，上述信息文本是事件类型列表中“违法违规”这一事件类型的概率值是0.7839257717132568，不是“违法违规”这一事件类型的概率值是0.21607419848442078；是事件类型列表中“法律纠纷”这一事件类型的概率值是0.04098828509449959，不是“法律纠纷”这一事件类型的概率值是0.9590117335319519。由于信息文本是事件类型列表中“违法违规”这一事件类型的概率值大于第一预设阈值0.52，则上述信息文本对应的事件类型是“违法违规”。

或者，在另一些实施方式中，可以分别针对事件类型列表中各事件类型，获取第一预测结果中，是事件类型列表中各事件类型的概率值最大的前N个事件类型作为上述信息文本对应的事件类型，其中，N的取值为大于0的整数。例如，假设事件类型列表中包括：违法违规、高管变动、企业裁员、安全事故四个事件类型，N的取值是2，第一预测结果中，上述信息文本是事件类型列表中“违法违规”、“高管变动”、“企业裁员”和“安全事故”的概率值分别是0.7839257717132568、0.21607419848442078、0.04098828509449959、0.9590117335319519，由于是事件类型列表中各事件类型的概率值最大的前2个事件类型为“安全事故”和“违法违规”，则上述信息文本对应的事件类型是“安全事故”和“违法违规”。

例如，在一个具体示例中，信息文本为“A10系列今天发布预期的规格在欧洲的价格以及观看直播的方法。A公司已做好充分准备，准备今天在全球范围内推出备受期待的A10系列。A10系列将替代A9系列，并且很可能包括A10，A10Pro和A10ProMax。预计这些设备将具有全新设计，改进的摄像头，升级的规格等”。

将该信息文本输入事件类型识别模型，得到的第一预测结果为：'multi_pred':'产品推广','multi_pred_probs':[[0.4144411087036133,0.5855588912963867]]，其中，'multi_pred'表示事件类型，'multi_pred_probs'表示信息文本是否事件类型'产品推广'的概率值，0.4144411087036133表示信息文本是事件类型'产品推广'的概率值，0.5855588912963867表示信息文本不是事件类型'产品推广'的概率值。该示例以一个事件类型为例说明，若事件类型列表中包括M个事件类型，则第一预测结果中包括是否为M个事件类型的概率值，其中，M为大于0的整数。例如，事件类型列表中包括违法违规和法律纠纷2个事件类型时，第一预测结果可以为：multi_pred':'违法违规|法律纠纷','multi_pred_probs':[[0.21607419848442078,0.7839257717132568],[0.04098828509449959,0.9590117335319519]]。

图6示出本公开第一示例性实施例中事件主体识别装置的框图。本公开任一实施例提供的事件主体识别装置可用于实现本公开上述实施例中事件主体识别方法。本公开任一实施例提供的事件主体识别装置可以设置在终端设备上，也可以设置在服务端上，或者部分设置在终端设备上，部分设置在服务端上，例如，可以设置在图1中的服务器105上，但本公开并不限定于此。

如图6所示，该实施例的事件主体识别装置包括：文本获取模块601、预测模块602和输出模块。其中：

文本获取模块601，用于获取待分析文本，该待分析文本包括信息文本和信息文本对应的至少一个事件类型。

预测模块602，用于利用预先训练得到的事件主体识别模型，预测上述信息文本中分别与至少一个事件类型中各事件类型关联的事件主体。

输出模块603，用于输出各事件类型和各事件类型关联的事件主体。

可选地，在其中一些实施方式中，文本获取模块601可以包括：信息获取单元，用于获取信息文本；事件主体识别单元，用于对信息文本进行事件主体识别，得到至少一个事件类型；拼接单元，用于将信息文本和至少一个事件类型按照预设格式拼接，或者，分别将信息文本和各事件类型按照预设格式拼接，得到待分析文本。

可选地，在其中一些实施方式中，拼接单元，具体用于：将信息文本、至少一个事件类型中的各事件类型及对应的事件类型含义按照预设格式拼接；或者，分别针对各事件类型，将信息文本、各事件类型及对应的事件类型含义，按照预设格式拼接。

可选地，在其中一些实施方式中，预测模块602包括：事件主体识别模型，分别预测各事件类型关联的事件主体在信息文本中的起始位置和终止位置；提取单元，用于基于各事件类型关联的事件主体的起始位置和终止位置，从信息文本中提取得到各事件类型关联的事件主体。

可选地，在其中一些实施方式中，事件主体识别模型，具体用于：分别针对各事件类型，分别预测信息文本中的各字符是否事件类型关联的事件主体的起始位置的概率值，以及各字符是否事件类型关联的事件主体的终止位置的概率值；基于起始位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的起始位置；基于终止位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的终止位置。

可选地，在其中一些实施方式中，事件主体识别模型基于起始位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的起始位置；基于终止位置的概率值与预设概率阈值之间的关系，确定事件类型关联的事件主体的终止位置，具体用于：获取起始位置的概率值中，大于预设概率阈值的概率值的个数，得到第一数量；获取终止位置的概率值中，大于预设概率阈值的概率值的个数，得到第二数量；比较第一数量与第二数量是否相等。若第一数量与第二数量相等，以第一数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为起始位置，以第二数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为终止位置。否则，若第一数量与第二数量不相等，以第一数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为起始位置，以第二数量的、概率值大于预设概率阈值的字符在信息文本中的位置作为终止位置；并对第一数量与第二数量中数值少的起始位置的概率值或终止位置的概率值，使用修正函数召回数值少的起始位置的概率值或终止位置的概率值中大于修正函数阈值的概率值，以补齐第一数量与第二数量之间的差值，并以大于修正函数阈值的概率值的字符在信息文本中的位置作为相应的起始位置或终止位置。

可选地，在其中一些实施方式中，文本获取模块还可以包括：长度识别单元，用于识别信息文本的长度是否大于预设长度；分割单元，用于若信息文本的长度大于预设长度，以预设长度为单位，将信息文本分割为多个文本段；事件主体识别单元，具体用于分别以多个文本段中的各文本段作为信息文本，执行对信息文本进行事件主体识别，得到至少一个事件类型；否则，若信息文本的长度不大于预设长度，对信息文本进行事件主体识别，得到至少一个事件类型；拼接单元，具体用于分别以多个文本段中的各文本段作为信息文本，将信息文本和至少一个事件类型按照预设格式拼接，或者，分别将信息文本和各事件类型按照预设格式拼接，得到待分析文本。相应地，该实施例中，事件主体识别装置还可以包括：汇总模块701，用于将多个文本段对应的事件类型关联的事件主体进行汇总，得到待分析文本对应的各事件类型关联的事件主体；输出模块603，具体用于输出待分析文本对应的各事件类型关联的事件主体。如图7所示，示出本公开第二示例性实施例中事件主体识别装置的框图；

另外，再参见图7，本公开实施例的事件主体识别装置还可以包括训练模块702，用于：将多个预训练语料中的各预训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型，以使事件类型识别模型学习各预训练语料中事件类型和事件主体之间的关联信息；将多个第一训练语料中的各第一训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入事件主体识别模型，经事件主体识别模型输出各第一训练语料中各事件类型和各事件类型关联的事件主体；基于多个第一训练语料的事件类型标注信息和对应的事件主体标注信息，与输出的各事件类型和各事件类型关联的事件主体，对事件主体识别模型进行训练。

可选地，在其中一些实施方式中，上述事件主体标注信息包括：事件主体在第一训练语料中的起始位置标注信息和终止位置标注信息。相应地，分别针对各第一训练语料，经事件主体识别模型预测各事件类型关联的事件主体在第一训练语料中的起始位置和终止位置；基于各事件类型关联的事件主体的起始位置和终止位置，从第一训练语料中提取得到各事件类型关联的事件主体。

可选地，在其中一些实施方式中，训练模块702具体用于：将多个预训练语料中的各预训练语料、事件类型标注信息、事件类型标注信息对应的事件类型含义和事件类型对应的事件主体标注信息输入事件主体识别模型，以使事件类型识别模型学习各预训练语料中事件类型和事件主体之间的关联信息；将多个第一训练语料中的各第一训练语料、事件类型标注信息、事件类型标注信息对应的事件类型含义和事件类型对应的事件主体标注信息输入事件主体识别模型，经事件主体识别模型输出各第一训练语料中各事件类型和各事件类型关联的事件主体；基于多个第一训练语料的事件类型标注信息和对应的事件主体标注信息，与输出的各事件类型和各事件类型关联的事件主体，对事件主体识别模型进行训练。

可选地，在其中一些实施方式中，事件主体识别单元，具体用于：利用预先训练得到的事件类型识别模型，预测信息文本是否事件类型列表中各事件类型的概率值，得到第一预测结果，其中，事件类型列表包括预先设定的多个事件类型；基于第一预测结果，确定信息文本对应的事件类型，得到至少一个事件类型。

本公开实施例提供的事件主体识别装置中的各个模块、单元和子单元的具体实现可以参照上述事件主体识别方法中的内容，在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之，上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。

本公开实施例还提供了一种电子设备，包括：

处理器；以及

存储器，用于存储处理器的可执行指令；

其中，处理器配置为经由执行可执行指令来执行上述任一实施例的事件主体识别方法。

图8示出本公开示例性实施例中电子设备的框图。如图8所示，示例电子设备80包括用于执行软件例程的处理器801尽管为了清楚起见示出了单个处理器，但是电子设备80也可以包括多处理器系统。处理器801连接到基础通讯设施802，用于与电子设备80的其他组件进行通信。基础通讯设施802可以包括例如通信总线、交叉开关或网络。

电子设备80还包括诸如随机存取存储器(Random Access Memory，RAM)之类的存储器，存储器可包括主存储器803和辅助存储器810。辅助存储器810可以包括，例如硬盘驱动器811和/或可移动存储驱动器812，可移动存储驱动器812可以包括软盘驱动器，磁带驱动器，光盘驱动器等。可移动存储驱动器812以常规方式对可移动存储单元813进行读取和/或写入。可移动存储单元813可以包括由可移动存储驱动器812读取和写入的软盘、磁带、光盘等。相关领域技术人员可以理解，可移动存储单元813包括其上存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。

在一种可选实施方式中，辅助存储器810可以额外包括或选择性包括用于允许将计算机程序或其他指令加载到电子设备80中的其他类似装置。这样的装置可以包括例如可移动存储单元821和接口820。可移动存储单元821和接口820的示例包括：程序卡带(cartridge)和卡带接口(例如可在视频游戏控制台设备中找到的程序卡带和卡带接口)、可移动存储芯片(例如EPROM或PROM)和相关联的插槽、以及其他可移动存储单元821和允许软件和数据从可移动存储单元821传输到电子设备80的接口820。

电子设备80还包括至少一个通信接口840。通信接口840允许软件和数据经由通信路径841在电子设备80和外部设备之间传输。在本发明的各种实施例中，通信接口840允许数据在电子设备80和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输。通信接口840可用于在不同的电子设备80之间交换数据，这些电子设备80形成互连的计算机网络的一部分。通信接口840的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等等。通信接口840可以是有线的或者可以是无线的。经由通信接口840传输的软件和数据为信号形式，该信号可以是能够被通信接口840接收的电、磁、光或其他信号。这些信号经由通信路径841被提供给通信接口。

如图8所示，电子设备80还包括显示器接口831和音频接口832，显示器接口831执行用于将图像渲染到关联的显示器830的操作，音频接口832用于执行通过关联的扬声器833播放音频内容的操作。

在本公开文件中，术语“计算机程序产品”部分程度上可以指代：可移动存储单元813、可移动存储单元821、安装在硬盘驱动器811中的硬盘、或承载着软件通过通信路径841(无线链路或电缆)到通信接口840的载波。计算机可读存储介质是指将记录的指令和/或数据提供给电子设备80以执行和/或处理的任何非暂时的有形的存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光TM光盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘、或诸如PCMCIA卡之类的计算机可读卡等等，这些部件无论是在电子设备80的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向电子设备80提供软件、应用程序、指令和/或数据，这种传输介质的示例包括无线电或红外传输信道、到另一台计算机或另一个联网设备的网络连接、以及包括电子邮件传输和记录在网站上的信息等的互联网或内联网。

计算机程序(也被称为计算机程序代码)存储在主存储器803和/或辅助存储器810中。也可以经由通信接口840来接收计算机程序。此类计算机程序在被执行时使电子设备80能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中，计算机程序在被执行时，使处理器801能够执行上述实施例的特征。因此，此类计算机程序代表计算机系统80的控制器。

软件可以存储在计算机程序产品中，并使用可移动存储驱动器812、硬盘驱动器811或接口820加载到电子设备80中。替代地，可以通过通信路径841将计算机程序产品下载到计算机系统80。该软件在由处理器801执行时促使电子设备80执行本文描述的实施例的功能。

应该理解，图8的实施例仅以示例的方式给出。因此，在一些实施例中，可以省略电子设备80的一个或多个特征。而且，在一些实施例中，电子设备80的一个或多个特征可以被组合在一起。另外，在一些实施例中，电子设备80的一个或多个特征可以被分成一个或多个组成部分。

可以理解的是，图8所示的要素起到了提供执行以上实施例中所描述的服务器的各种功能和操作的途径的作用。

在一种实施方式中，服务器通常可以被描述为包括至少一个处理器和至少一个包括计算机程序代码的存储器的物理设备。至少一个存储器和计算机程序代码被配置为与至少一个处理器一起促使物理设备执行必要的操作。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现图2-5所示事件主体识别方法的功能。

本公开实施例还提供了一种计算机程序，包括计算机可读代码，当该计算机可读代码在设备上运行时，设备中的处理器执行用于实现图2-5所示事件主体识别方法的功能。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被电子设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种事件主体识别方法，其特征在于，包括：

获取待分析文本，所述待分析文本包括信息文本和所述信息文本对应的至少一个事件类型；

利用预先训练得到的事件主体识别模型，预测所述信息文本中分别与所述至少一个事件类型中各事件类型关联的事件主体；

输出所述各事件类型和所述各事件类型关联的事件主体；

其中，所述利用预先训练得到的事件主体识别模型，预测所述信息文本中分别与所述至少一个事件类型中各事件类型关联的事件主体，包括：

利用所述事件主体识别模型，分别预测各事件类型关联的事件主体在所述信息文本中的起始位置和终止位置；

基于所述各事件类型关联的事件主体的起始位置和终止位置，从所述信息文本中提取得到所述各事件类型关联的事件主体；

所述预测各事件类型关联的事件主体在所述信息文本中的起始位置和终止位置，包括：

针对各事件类型，分别预测所述信息文本中的各字符是否为所述事件类型关联的事件主体的起始位置的概率值，以及各字符是否为所述事件类型关联的事件主体的终止位置的概率值；

基于所述起始位置的概率值与预设概率阈值之间的关系，确定所述事件类型关联的事件主体的起始位置；

基于所述终止位置的概率值与预设概率阈值之间的关系，确定所述事件类型关联的事件主体的终止位置；

所述基于所述起始位置的概率值与预设概率阈值之间的关系，确定所述事件类型关联的事件主体的起始位置；基于所述终止位置的概率值与预设概率阈值之间的关系，确定所述事件类型关联的事件主体的终止位置，包括：

获取所述起始位置的概率值中大于所述预设概率阈值的概率值的个数，得到第一数量；

获取所述终止位置的概率值中大于所述预设概率阈值的概率值的个数，得到第二数量；

比较所述第一数量与所述第二数量是否相等；

若所述第一数量与所述第二数量不相等，以所述第一数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述起始位置，以所述第二数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述终止位置；并对所述第一数量与所述第二数量中数值少的所述起始位置的概率值或所述终止位置的概率值，使用修正函数召回所述数值少的所述起始位置的概率值或所述终止位置的概率值中大于修正函数阈值的概率值，以补齐所述第一数量与所述第二数量之间的差值，并以所述大于修正函数阈值的概率值的字符在所述信息文本中的位置作为相应的所述起始位置或所述终止位置。

2.根据权利要求1所述的方法，其特征在于，所述获取待分析文本，包括：

获取所述信息文本；

对所述信息文本进行事件类型识别，得到所述至少一个事件类型；

将所述信息文本和所述至少一个事件类型按照预设格式拼接，或者，分别将所述信息文本和所述各事件类型按照预设格式拼接，得到所述待分析文本。

3.根据权利要求2所述的方法，其特征在于，所述将所述信息文本和所述至少一个事件类型按照预设格式拼接，包括：将所述信息文本、所述至少一个事件类型中的各事件类型及对应的事件类型含义按照预设格式拼接；或者，

所述分别将所述信息文本和所述各事件类型按照预设格式拼接，包括：分别针对各事件类型，将所述信息文本、所述各事件类型及对应的事件类型含义，按照预设格式拼接。

4.根据权利要求1所述的方法，其特征在于，所述基于所述起始位置的概率值与预设概率阈值之间的关系，确定所述事件类型关联的事件主体的起始位置；基于所述终止位置的概率值与预设概率阈值之间的关系，确定所述事件类型关联的事件主体的终止位置，还包括：

若所述第一数量与所述第二数量相等，以所述第一数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述起始位置，以所述第二数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述终止位置。

5.根据权利要求2所述的方法，其特征在于，获取所述信息文本之后，还包括：

识别所述信息文本的长度是否大于预设长度；

若所述信息文本的长度大于预设长度，以所述预设长度为单位，将所述信息文本分割为多个文本段，并分别以所述多个文本段中的各文本段作为信息文本，执行所述对所述信息文本进行事件类型识别，得到所述至少一个事件类型的操作、以及所述将所述信息文本和所述至少一个事件类型按照预设格式拼接，或者，分别将所述信息文本和所述各事件类型按照预设格式拼接，得到所述待分析文本的操作；

否则，若所述信息文本的长度不大于预设长度，直接执行所述对所述信息文本进行事件类型识别，得到所述至少一个事件类型的操作。

6.根据权利要求5所述的方法，其特征在于，所述利用预先训练得到的事件主体识别模型，预测所述信息文本中分别与所述至少一个事件类型中各事件类型关联的事件主体之后，还包括：

将所述多个文本段对应的事件类型关联的事件主体进行汇总，得到所述待分析文本对应的各事件类型关联的事件主体。

7.根据权利要求6所述的方法，其特征在于，所述输出所述各事件类型和所述各事件类型关联的事件主体，包括：

输出所述待分析文本对应的各事件类型关联的事件主体。

8.根据权利要求1-7任一所述的方法，其特征在于，所述事件主体识别模型的训练包括：

将多个预训练语料中的各预训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入所述事件主体识别模型，以使所述事件主体识别模型学习所述各预训练语料中事件类型和事件主体之间的关联信息；

将多个第一训练语料中的各第一训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入所述事件主体识别模型，经所述事件主体识别模型输出所述各第一训练语料中各事件类型和所述各事件类型关联的事件主体；

基于所述多个第一训练语料的事件类型标注信息和对应的事件主体标注信息，与输出的各事件类型和所述各事件类型关联的事件主体，对所述事件主体识别模型进行训练。

9.根据权利要求8所述的方法，其特征在于，所述事件主体标注信息包括：所述事件主体在所述第一训练语料中的起始位置标注信息和终止位置标注信息；

所述经所述事件主体识别模型输出所述各第一训练语料中各事件类型和所述各事件类型关联的事件主体，包括：

分别针对所述各第一训练语料，经所述事件主体识别模型预测各事件类型关联的事件主体在所述第一训练语料中的起始位置和终止位置；

基于所述各事件类型关联的事件主体的起始位置和终止位置，从所述第一训练语料中提取得到所述各事件类型关联的事件主体。

10.根据权利要求9所述的方法，其特征在于，所述将多个预训练语料中的各预训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入所述事件主体识别模型，包括：将多个预训练语料中的各预训练语料、事件类型标注信息、所述事件类型标注信息对应的事件类型含义和事件类型对应的事件主体标注信息输入所述事件主体识别模型；

所述将多个第一训练语料中的各第一训练语料、事件类型标注信息和事件类型对应的事件主体标注信息输入所述事件主体识别模型，包括：将多个第一训练语料中的各第一训练语料、事件类型标注信息、所述事件类型标注信息对应的事件类型含义和事件类型对应的事件主体标注信息输入所述事件主体识别模型。

11.根据权利要求2所述的方法，其特征在于，所述对所述信息文本进行事件类型识别，得到所述至少一个事件类型，包括：

利用事件类型识别模型，预测所述信息文本是否为事件类型列表中各事件类型的概率值，得到第一预测结果；其中，所述事件类型列表包括预先设定的多个事件类型；

基于所述第一预测结果，确定所述信息文本对应的事件类型，得到所述至少一个事件类型。

12.一种事件主体识别装置，其特征在于，包括：

文本获取模块，用于获取待分析文本，所述待分析文本包括信息文本和所述信息文本对应的至少一个事件类型；

预测模块，用于利用预先训练得到的事件主体识别模型，预测所述信息文本中分别与所述至少一个事件类型中各事件类型关联的事件主体；

输出模块，用于输出所述各事件类型和所述各事件类型关联的事件主体；

其中，所述预测模块包括：

事件主体识别模型，用于针对各事件类型，分别预测所述信息文本中的各字符是否为所述事件类型关联的事件主体的起始位置的概率值，以及各字符是否为所述事件类型关联的事件主体的终止位置的概率值；获取所述起始位置的概率值中大于预设概率阈值的概率值的个数，得到第一数量；获取所述终止位置的概率值中大于预设概率阈值的概率值的个数，得到第二数量；比较所述第一数量与所述第二数量是否相等；若所述第一数量与所述第二数量不相等，以所述第一数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述起始位置，以所述第二数量的、概率值大于所述预设概率阈值的字符在所述信息文本中的位置作为所述终止位置；并对所述第一数量与所述第二数量中数值少的所述起始位置的概率值或所述终止位置的概率值，使用修正函数召回所述数值少的所述起始位置的概率值或所述终止位置的概率值中大于修正函数阈值的概率值，以补齐所述第一数量与所述第二数量之间的差值，并以所述大于修正函数阈值的概率值的字符在所述信息文本中的位置作为相应的所述起始位置或所述终止位置；

提取单元，用于基于所述各事件类型关联的事件主体的起始位置和终止位置，从所述信息文本中提取得到所述各事件类型关联的事件主体。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-11中任意一项所述的事件主体识别方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-11中任意一项所述的事件主体识别方法。