CN114912450A

CN114912450A - 信息生成方法与装置、训练方法、电子设备和存储介质

Info

Publication number: CN114912450A
Application number: CN202210838370.7A
Authority: CN
Inventors: 金沛然; 刘冠辰; 徐健; 王志新; 高杰; 韩国民
Original assignee: Henan Wenshubao Intelligent Technology Research Institute Co ltd; Tianjin Hengda Wenbo Science& Technology Co ltd
Current assignee: Henan Wenshubao Intelligent Technology Research Institute Co ltd; Tianjin Hengda Wenbo Science& Technology Co ltd
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-08-16
Anticipated expiration: 2042-07-18
Also published as: CN114912450B

Abstract

本发明公开了一种信息生成方法与装置、训练方法、电子设备和存储介质，本发明属于人工智能技术领域，该信息生成方法包括：获取采用文博领域语言风格描述目标历史事件的多个目标汉语语句；将目标汉语语句输入初编码层，输出多个初编码字向量；将初编码字向量输入风格化编码网络，输出多个词向量；将多个词向量输入解码器，输出与目标历史事件关联的三元组。本发明可解决传统识别模型对文博领域语言识别准确度不高的问题，可实现在文博领域的知识图谱自动构建，提高相关领域从业者的工作效率。

Description

信息生成方法与装置、训练方法、电子设备和存储介质

技术领域

本发明属于人工智能技术领域，具体涉及一种信息生成方法与装置、训练方法、电子设备和存储介质。

背景技术

文博领域文本语言风格独特，包含大量古代中文，语法结构与现代普通话结构相差甚远，在实体关系抽取时，往往因语法结构的特殊性导致实体关系对难以鉴别，古汉语自身的语义特点也使得字面意思不能准确理解。

目前应用于通用语言风格的实体关系抽取技术使用语言预训练模型对输入语句进行编码，但语言预训练模型是由通用文本的预料库进行训练，对专有领域的文本适应性较差，因此难以在文博领域的文本中取得较好的效果。

发明内容

有鉴于此，本发明提供了一种文博领域事件信息生成方法，以至少部分解决上述技术问题。

上述文博领域事件信息生成方法包括：

获取采用文博领域语言风格描述目标历史事件的多个目标汉语语句，目标汉语语句中包括长实体词组和非长实体词组；

将多个目标汉语语句输入初编码层，以便通过初编码层对每个目标汉语语句进行初编码后，输出多个初编码字向量，其中初编码字向量为目标汉语语句中的每个字的第一上下文特征表示；

将多个初编码字向量输入风格化编码网络，以便通过风格化编码网络对多个初编码字向量进行文博领域风格化编码后，输出多个词向量，其中词向量包括目标汉语语句中的长实体词组和非长实体词组的上下文特征表示；

将多个词向量输入解码器，以便通过解码器对多个词向量进行解码后输出与目标历史事件关联的事件信息，其中事件信息包括与目标历史事件关联的多个三元组，其中每个三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系，第一实体和第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代。

根据本发明的实施例，上述方法还包括：

利用与目标历史事件关联的多个三元组，生成与目标历史事件关联的知识图谱，知识图谱包括第一图形元素、第二图形元素、第三图形元素，第一图形元素与第一实体关联，第二图形元素与第二实体关联，第三图形元素与第一实体和第二实体之间的关系关联。

根据本发明的实施例，风格化编码网络包括语言风格化层和可学习字典层，通过风格化编码网络对多个初编码字向量进行文博领域风格化编码后，输出多个词向量包括：

将多个初编码字向量输入语言风格化层，以便通过语言风格化层对多个初编码字向量进行特征优化后输出多个风格化字向量，其中风格化字向量为目标汉语语句中的每个字的第二上下文特征表示；

将多个风格化字向量输入可学习字典层，以便利用可学习字典层对多个风格化字向量进行词编码后，输出多个词向量。

根据本发明的实施例，语言风格化层包括加掩码的双向自注意力网络、前馈神经网络；可学习字典层包括加掩码的单向自注意力网络、前馈神经网络。

本发明的另一方面提供了一种文本识别模型训练方法，包括：

获取训练文本，其中训练文本为采用文博领域语言风格描述预选历史事件的多个预选汉语语句，训练文本中包括长实体词组和非长实体词组；

构建训练文本的文本标签，其中文本标签包括与预选历史事件关联的多个标签三元组，其中每个标签三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系，第一实体和第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代；

将多个预选汉语语句输入初编码层，以便通过初编码层对每个预选汉语语句进行初编码后，输出多个初编码字训练向量，其中初编码字训练向量为预选汉语语句中的每个字的第一上下文特征表示；

将多个初编码字训练向量输入待训练风格化编码网络，以便通过待训练风格化编码网络对多个初编码字训练向量进行文博领域风格化编码后，输出多个词训练向量，其中词训练向量包括训练文本中的长实体词组和非长实体词组的上下文特征表示；

将多个词训练向量输入解码器，以便通过解码器对多个词训练向量进行解码后输出与预选历史事件关联的多个训练三元组；

计算训练三元组和标签三元组之间的交叉熵损失值，当交叉熵损失值满足预设条件时，得到经训练得到的文本识别模型。

根据本发明的实施例，待训练风格化编码网络包括待训练语言风格化层和待训练可学习字典层，将多个初编码字训练向量输入待训练风格化编码网络，以便通过待训练风格化编码网络对多个初编码字训练向量进行文博领域风格化编码后，输出多个词训练向量包括：

从多个初编码字训练向量中确定第一类训练向量，其中多个初编码字训练向量中，除第一类训练向量之外的向量为第二类训练向量；

将第一类训练向量两次输入待训练语言风格化层，以通过待训练语言风格化层两次输出不同的向量作为正例向量，其中两次输入待训练语言风格化层的第一类训练向量被施加不同的随机掩码；

将第二类训练向量输入待训练语言风格化层，以通过待训练语言风格化层输出负例向量，其中正例向量和负例向量为预选汉语语句中的每个字的第二上下文特征表示；

将正例向量和负例向量输入待训练可学习字典层，以便利用待训练可学习字典层对正例向量和负例向量进行词编码后，输出多个词训练向量。

根据本发明的实施例，训练文本包括多个训练子集，构建训练文本的文本标签包括：

利用训练文本中的前M个训练子集，和前M个训练子集的文本标签训练第M-1版文本识别模型，得到经训练得到的第M版文本识别模型；

将训练文本中的第M+1个训练子集输入第M版文本识别模型，以利用第M版文本识别模型输出与第M+1个训练子集关联的三元组，作为第M+1个训练子集的文本标签。

本发明的另一方面提供了一种文博领域事件信息生成装置，包括：

第一获取模块，用于获取采用文博领域语言风格描述目标历史事件的多个目标汉语语句，目标汉语语句中包括长实体词组和非长实体词组；

第一编码模块，用于将多个目标汉语语句输入初编码层，以便通过初编码层对每个目标汉语语句进行初编码后，输出多个初编码字向量，其中初编码字向量为目标汉语语句中的每个字的第一上下文特征表示；

第二编码模块，用于将多个初编码字向量输入风格化编码网络，以便通过风格化编码网络对多个初编码字向量进行文博领域风格化编码后，输出多个词向量，其中词向量包括目标汉语语句中的长实体词组和非长实体词组的上下文特征表示；

第一解码模块，用于将多个词向量输入解码器，以便通过解码器对多个词向量进行解码后输出与目标历史事件关联的事件信息，其中事件信息包括与目标历史事件关联的多个三元组，其中每个三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系，第一实体和第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代。

根据本发明的实施例，上述装置还包括：

生成模块，用于利用与目标历史事件关联的多个三元组，生成与目标历史事件关联的知识图谱，知识图谱包括第一图形元素、第二图形元素、第三图形元素，第一图形元素与第一实体关联，第二图形元素与第二实体关联，第三图形元素与第一实体和第二实体之间的关系关联。

根据本发明的实施例，风格化编码网络包括语言风格化层和可学习字典层，第二编码模块包括：

第一编码单元，用于将多个初编码字向量输入语言风格化层，以便通过语言风格化层对多个初编码字向量进行特征优化后输出多个风格化字向量，其中风格化字向量为目标汉语语句中的每个字的第二上下文特征表示；

第二编码单元，用于将多个风格化字向量输入可学习字典层，以便利用可学习字典层对多个风格化字向量进行词编码后，输出多个词向量。

本发明的另一方面提供了一种文本识别模型训练装置，包括：

第二获取模块，用于获取训练文本，其中训练文本为采用文博领域语言风格描述预选历史事件的多个预选汉语语句，训练文本中包括长实体词组和非长实体词组；

构建模块，用于构建训练文本的文本标签，其中文本标签包括与预选历史事件关联的多个标签三元组，其中每个标签三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系，第一实体和第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代；

第三编码模块，用于将多个预选汉语语句输入初编码层，以便通过初编码层对每个预选汉语语句进行初编码后，输出多个初编码字训练向量，其中初编码字训练向量为预选汉语语句中的每个字的第一上下文特征表示；

第四编码模块，用于将多个初编码字训练向量输入待训练风格化编码网络，以便通过待训练风格化编码网络对多个初编码字训练向量进行文博领域风格化编码后，输出多个词训练向量，其中词训练向量包括训练文本中的长实体词组和非长实体词组的上下文特征表示；

第二解码模块，用于将多个词训练向量输入解码器，以便通过解码器对多个词训练向量进行解码后输出与预选历史事件关联的多个训练三元组；

计算模块，用于计算训练三元组和标签三元组之间的交叉熵损失值，当交叉熵损失值满足预设条件时，得到经训练得到的文本识别模型。

根据本发明的实施例，待训练风格化编码网络包括待训练语言风格化层和待训练可学习字典层，第四编码模块包括：

确定单元，用于从多个初编码字训练向量中确定第一类训练向量，其中多个初编码字训练向量中，除第一类训练向量之外的向量为第二类训练向量；

第三编码单元，用于将第一类训练向量两次输入待训练语言风格化层，以通过待训练语言风格化层两次输出不同的向量作为正例向量，其中两次输入待训练语言风格化层的第一类训练向量被施加不同的随机掩码；

第四编码单元，用于将第二类训练向量输入待训练语言风格化层，以通过待训练语言风格化层输出负例向量，其中正例向量和负例向量为预选汉语语句中的每个字的第二上下文特征表示；

第五编码单元，用于将正例向量和负例向量输入待训练可学习字典层，以便利用待训练可学习字典层对正例向量和负例向量进行词编码后，输出多个词训练向量。

根据本发明的实施例，训练文本包括多个训练子集，构建模块包括：

训练单元，用于利用训练文本中的前M个训练子集，和前M个训练子集的文本标签训练第M-1版文本识别模型，得到经训练得到的第M版文本识别模型；

输入输出单元，用于将训练文本中的第M+1个训练子集输入第M版文本识别模型，以利用第M版文本识别模型输出与第M+1个训练子集关联的三元组，作为第M+1个训练子集的文本标签。

本发明的另一个方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述信息生成方法。

本发明的另一个方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述信息生成方法。

附图说明

图1示意性示出了根据本发明实施例的文博领域事件信息生成方法的应用场景图；

图2示意性示出了根据本发明一实施例的文博领域事件信息生成方法的流程图；

图3示意性示出了根据本发明另一实施例的文博领域事件信息生成方法的流程图；

图4示意性示出了根据本发明实施例的文博领域事件信息生成装置的结构框图；

图5示意性示出了根据本发明实施例的适于实现文博领域事件信息生成方法的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

文博领域（文物与博物馆学技术领域）的纯文本数据机构化是自动构建文博领域知识图谱的关键技术。在实现本发明实施例的过程中发现，文博领域文本语言风格独特，包含大量古代中文，语法结构与现代普通话结构相差甚远，在实体关系抽取时，往往因语法结构的特殊性导致实体关系对难以鉴别，古汉语自身的语义特点也使得字面意思不能准确理解。

例如，相关技术中对中文实体关系抽取方法中，首先对句子进行依存分析，再结合中文语法启发式规则和依存分析的结果抽取关系词语，然后根据距离确定命名实体位置，最后进行三元组输出。在实现本发明的过程中发现，该方法适用于大规模语料库，具有良好的可移植性。但是该方法只适用于通用汉语的实体关系的抽取，不能适用于文博领域文本的实体关系的抽取。

图1示意性示出了根据本发明实施例的文博领域事件信息生成方法的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等（仅为示例）。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果（例如根据用户请求获取或生成的网页、信息、或数据等）反馈给终端设备。

在本发明的应用场景下，用户可以使用终端设备101、102、103通过网络104与服务器105交互，向服务器105发起用于获取相关历史事件信息实体关系的请求，响应于用户请求，服务器105执行本发明实施例的事件信息生成方法，获取采用文博领域语言风格描述目标历史事件的多个目标汉语语句，将目标汉语语句输入训练好的文本识别模型中，通过模型输出相关历史事件信息实体关系，并通过终端设备101、102、103向用户返回。

需要说明的是，本发明实施例所提供的信息生成方法一般可以由服务器105执行。相应地，本发明实施例所提供的信息生成装置一般可以设置于服务器105中。本发明实施例所提供的信息生成方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本发明实施例所提供的信息生成装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将基于图1描述的场景，通过图2~图5对发明实施例的信息生成方法进行详细描述。

图2示意性示出了根据本发明一实施例的文博领域事件信息生成方法的流程图。

如图2所示，该实施例的信息生成方法包括操作S201~操作S204。

在操作S201，获取采用文博领域语言风格描述目标历史事件的多个目标汉语语句，目标汉语语句中包括但不限于长实体词组、非长实体词组、古代中文、相关领域专有名词等；

在操作S202，将多个目标汉语语句输入初编码层，以便通过初编码层对每个目标汉语语句进行初编码后，输出多个初编码字向量，其中初编码字向量为目标汉语语句中的每个字的第一上下文特征表示；

在操作S203，将多个初编码字向量输入风格化编码网络，以便通过风格化编码网络对多个初编码字向量进行文博领域风格化编码后，输出多个词向量，其中词向量包括目标汉语语句中的长实体词组和非长实体词组的上下文特征表示；

在操作S204，将多个词向量输入解码器，以便通过解码器对多个词向量进行解码后输出与目标历史事件关联的事件信息，其中事件信息包括与目标历史事件关联的多个三元组，其中每个三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系，第一实体和第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代。

根据本发明的实施例，在上述操作S201中，可通过从数据库中获取多个待识别的汉语语句，其中汉语语句采用文博领域语言风格描述目标历史事件，例如，针对历史事件：张xx出使xx王朝，其中一个语句可以是：“张xx于唐开元十年出使xx王朝，历13年，获大量大乘佛教经典”。其中，汉语语句中包括长实体词组和非长实体词组，例如上述示例中的“大乘佛教经典”则为一个长实体词组，“王朝”为非长实体词组。因文博领域语言风格中长实体较多，传统的语言识别方法无法准确识别长实体，例如传统识别方法对“大乘佛教经典”的识别结果可能是识别为“大乘”、“佛教”、“经典”三个实体，但是在该语境下，其实质为一个实体，可见传统识别方法无法准确识别长实体。

根据本发明的实施例，上述方法通过利用训练好的文本识别模型对待测文本进行识别。文本识别模型可包括初编码层、风格化编码网络和解码器。其中，风格化编码网络可包括语言风格化层和可学习字典层。

具体地，初编码层语言对每个目标汉语语句中的每个进行初编码，输出汉语语句中的每个字的第一上下文特征表示。初编码层可采用预训练语言模型（包括但不限于BERT、ERNIE、GloVe、ELMo等），用以对文本信息进行编码。

因初编码层采用通用的语言模型，对文博领域语言风格的汉字向量表示欠佳，因此，在操作S203，本发明的实施例将初编码层输出的向量进一步经过训练好的风格化编码网络，用以对初编码字向量进行文博领域风格化编码后，输出多个词向量。风格化编码网络不仅可以优化初编码层的输出向量表示，提取出文博领域的特定关键词的向量表示，还可以将文博领域的专有长实体词组提取出来，解决传统识别模型无法准确识别长实体的问题。通过风格化编码网络的进一步优化编码，输出与历史事件有关的关键词向量，其中词向量包括目标汉语语句中的长实体词组的上下文特征表示，可将目标汉语语句中的长实体识别提取出来。

进一步地，在操作S204，经过解码器对多个词向量进行解码后输出与目标历史事件关联的事件三元组，其中三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系，第一实体和第二实体的实体类别包括但不限于：人物、事件、时间、地点、事物、文物、年代、编号、材质、年代、挖掘地点、文献著作等等。形成的三元组，例如可以包括但不限于以下类型：

人物实体-相关事件-事件实体；

事件实体-事件时间-时间实体；

事件实体-事件地点-地点实体；

文物本体-相关事件-事件实体；

文物本体-相关人物-人物实体；

文物本体-发现地点-地点实体；

文物本体-研究学者-人物实体；

例如，针对：人物实体-相关事件-事件实体的三元组类型，可以是：杨xx-研究-xx遗书；文物本体-发现地点-地点实体的三元组类型，可以是：xx经卷-xx地点编号-xx国家图书馆等等。

根据本发明的实施例，优选地，在得到与目标历史事件关联的事件三元组之后，可进一步利用相关工具对抽取出的三元组数据进行实体融合，合并冗余、重复的实体，以及利用词组的基于上下文的特征向量实现实体消岐，处理一词多意的现象。

根据本发明的实施例，进一步地，在得到与目标历史事件关联的事件三元组之后，可利用与目标历史事件关联的多个三元组，生成与目标历史事件关联的知识图谱，知识图谱包括第一图形元素、第二图形元素、第三图形元素，第一图形元素与第一实体关联，第二图形元素与第二实体关联，第三图形元素与第一实体和第二实体之间的关系关联。例如，第一图形元素、第二图形元素可以是圆形、方形、三角形、不规则多边形等具有文字标识的图形，其中的文字标识为通过模型输出的实体词组，第三图形元素用于表示第一实体和第二实体之间的关联关系，例如可以采用线条、箭头之类的具有指向性图形元素。

根据本发明的实施例，上述信息生成方法提供了一种基于自然语言处理的适用于文博领域语言风格、语法结构的实体关系抽取方法，相对目前已有的实体关系抽取算法，针对文博领域中的专有词汇、长实体、实体关系嵌套重叠、一词多义、文言文等有较好的适应性，提高了针对文博领域文本数据的实体关系抽取效率，作为自动构建知识图谱的关键技术，可以实现在文博领域的知识图谱自动构建，提高了相关领域从业者的工作效率，解决了传统识别模型对文博领域语言识别准确度不高的问题。

图3示意性示出了根据本发明另一实施例的文博领域事件信息生成方法的流程图。

如图3所示，进一步地，用于文博领域语言风格文本识别的模型可包括初编码层（预训练语言模型，包括但不限于BERT、ERNIE、GloVe、ELMo等）、语言风格化层、可学习字典层和线性分类解码器。

初编码层语言对每个目标汉语语句中的每个进行初编码，输出汉语语句中的每个字的第一上下文特征表示。

之后，将初编码层输出的向量进一步经过训练好的语言风格化层，以便通过语言风格化层对多个初编码字向量进行特征优化后输出多个风格化字向量，其中风格化字向量为目标汉语语句中的每个字的第二上下文特征表示。语言风格化层包括加掩码的双向自注意力网络、前馈神经网络。风格化编码网络可以优化初编码层的输出向量表示，更好地提取出文博领域的特定的向量表示。语言风格化层为多层Transformer结构，可实现对相关领域的文博语言文本进行学习，得到文本的单个字基于上下文特征表示，得到相关文博领域的高均匀性、一致性的基于字符的文本特征向量表示。

然后，将语言风格化层输出的多个风格化字向量输入可学习字典层，以便利用可学习字典层对多个风格化字向量进行词编码后，输出多个词向量。可学习字典层包括加掩码的单向自注意力网络、前馈神经网络。可学习字典层基于多层Transformer结构，对相关领域的文博语言文本进行学习，得到文本中词组基于上下文的特征向量表示，任意一层Transformer结构中均包括一个加掩码的单向自注意力网络和一个前馈神经网络，使用单向注意力网络可以使模型按顺序读取前一层网络输出的字向量，实现词向量的编码。该层网络使用单个字的特征向量表示作为输入，利用单向自注意力网络学习所有可能的词组的特征表示。使用利用分类网络和反馈机制训练该多层Transformer结构，从所有可能的词组中筛选出正确选项，从而获得相关文博领域词组的特征向量表示并获得相关领域的字典，可提升实体抽取的效果，并自动构建文博领域的字典，用于提升模型对相关领域的专有名词，长实体的抽取能力。

最后，利用线性分类解码器，对可学习字典层输出的基于词组的上下文特征向量表示进行解码，利用线束搜索算法将可配对的实体以及关系组合成三元组。

根据本发明的实施例，因文博领域语言风格中长实体较多，传统的语言识别方法无法准确识别长实体，训练好的可学习字典层可自动构建文博领域的字典，通过可学习字典层，可以将文博领域的专有长实体词组提取出来，解决传统识别模型无法准确识别长实体的问题。通过该层输出的与历史事件有关的关键词向量包括目标汉语语句中的长实体词组的上下文特征表示，可将目标汉语语句中的长实体识别提取出来。

根据本发明的实施例，上述方法基于Transformer网络实现了文博领域文博的实体关系抽取，包括一个单字特征提取网络和一个词组特征提取网络，相比于传统识别网络模型，该网络可以更好的获得文博领域的单字以及词组的特征表示，从而可以得到对相关文本信息很好的学习效果，对文博领域常见的文言文，长实体，专业名词均有较好效果。

本发明的另一方面提供了一种文本识别模型训练方法，包括以下操作：

根据本发明的实施例，关于文本识别模型训练方法中具体操作方法的描述，可参考前述实施例中有关文博领域事件信息生成方法的说明，在此不再赘述。

根据本发明的实施例，上述训练方法采用文博领域语言风格的文本训练模型，适用于文博领域语言风格、语法结构的实体关系抽取模型的训练，训练好的模型，针对文博领域中的专有词汇、长实体、实体关系嵌套重叠、一词多义、文言文等有较好的适应性，提高了针对文博领域文本数据的实体关系抽取效率，作为自动构建知识图谱的关键技术，可以实现在文博领域的知识图谱自动构建，提高了相关领域从业者的工作效率，解决了传统识别模型对文博领域语言无法准确的问题。

根据本发明的实施例，上述训练方法中，待训练风格化编码网络包括待训练语言风格化层和待训练可学习字典层，将多个初编码字训练向量输入待训练风格化编码网络，以便通过待训练风格化编码网络对多个初编码字训练向量进行文博领域风格化编码后，输出多个词训练向量包括以下操作：

根据本发明的实施例，上述训练方法结合有监督的实体关系抽取方式可以更高精度的获取三元组数据；利用语言风格化层可以对相关文博领域的文本更好的编码；利用可学习字典层可以学习相关领域的词组的特征表示，对专业词汇和长实体取得更好的抽取效果。

根据本发明的实施例，上述训练方法中，针对语言风格化层，采用对比学习的策略对该结构进行训练，将同一个向量两次输入该层网络，利用随机掩码的方式得到不同的输出向量作为正例，将同一批处理的语句的输出向量作为负例，利用infoNCE 损失函数训练该层网络。通过基于利用对比学习策略，利用正例以及负例训练语言风格化层，可使得训练好的语言风格化层对相关文博领域的文本实现更好的编码，提高模型对古代中文和专有领域词汇的理解能力。

根据本发明的实施例，在构建训练文本的文本标签之前，可对搜集到的文本数据进行清洗，利用指代消岐技术补充文本中缺失的主语以及宾语，将长文本拆分成句子级的文本，并指定抽取实体关系数据结构大纲，即确定多个三元组类型：如：人物实体-相关事件-事件实体；事件实体-事件时间-时间实体；事件实体-事件地点-地点实体等等。

根据本发明的实施例，构建训练文本的文本标签可以是基于实体关系数据结构大纲，将部分文本进行人工标注，利用人工标注的标签，构建全部文本的文本标签，具体可包括：

例如，具体实施方式可以是：

操作1、获取训练文本中的第一训练子集（少部分文本）的标签，可以是提前人工标注好存储在数据库中；

操作2、利用第一训练子集和第一训练子集的标签训练文本识别模型，得到经训练得到的第1版文本识别模型；

操作3、将训练文本中的未被标注过的第二训练子集（少部分文本）输入初训练的第1版文本识别模型，输出与第二训练子集关联的三元组，可进行人工修正，作为第二训练子集的文本标签；

操作4、利用前两个训练子集和前两个训练子集的文本标签训练第1版文本识别模型，得到经训练得到的第2版文本识别模型；

操作5、将训练文本中的未被标注过的第三训练子集（少部分文本）输入第2版文本识别模型，输出与第三训练子集关联的三元组，可进行人工修正，作为第三训练子集的文本标签；

重复4、5步骤，直至所有的文本都被标注。

根据本发明的实施例，上述方法基于少部分人工标注的标签，自动构建全部文本的文本标签，相比于传统的人工打标的方式，可提高文本标签的构建速度，且模型经过多次重复训练，对标签的预测准确度较高，保证了标签的可参考性。

基于上述文博领域事件信息生成方法，本发明还提供了一种文博领域事件信息生成装置。以下将结合图4对该装置进行详细描述。

图4示意性示出了根据本发明实施例的文博领域事件信息生成装置的结构框图。

如图4所示，该实施例的文博领域事件信息生成装置400包括第一获取模块401、第一编码模块402、第二编码模块403、第一解码模块404。

其中，第一获取模块401，用于获取采用文博领域语言风格描述目标历史事件的多个目标汉语语句，目标汉语语句中包括长实体词组和非长实体词组；

第一编码模块402，用于将多个目标汉语语句输入初编码层，以便通过初编码层对每个目标汉语语句进行初编码后，输出多个初编码字向量，其中初编码字向量为目标汉语语句中的每个字的第一上下文特征表示；

第二编码模块403，用于将多个初编码字向量输入风格化编码网络（风格化编码网络包括语言风格化层和可学习字典层），以便通过风格化编码网络对多个初编码字向量进行文博领域风格化编码后，输出多个词向量，其中词向量包括目标汉语语句中的长实体词组和非长实体词组的上下文特征表示；

第一解码模块404，用于将多个词向量输入解码器，以便通过解码器对多个词向量进行解码后输出与目标历史事件关联的事件信息，其中事件信息包括与目标历史事件关联的多个三元组，其中每个三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系，第一实体和第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代。

根据本发明的实施例，上述装置还包括生成模块，用于利用与目标历史事件关联的多个三元组，生成与目标历史事件关联的知识图谱，知识图谱包括第一图形元素、第二图形元素、第三图形元素，第一图形元素与第一实体关联，第二图形元素与第二实体关联，第三图形元素与第一实体和第二实体之间的关系关联。

根据本发明的实施例，风格化编码网络包括语言风格化层和可学习字典层，第二编码模块包括第一编码单元、第二编码单元。

其中，第一编码单元，用于将多个初编码字向量输入语言风格化层，以便通过语言风格化层对多个初编码字向量进行特征优化后输出多个风格化字向量，其中风格化字向量为目标汉语语句中的每个字的第二上下文特征表示；第二编码单元，用于将多个风格化字向量输入可学习字典层，以便利用可学习字典层对多个风格化字向量进行词编码后，输出多个词向量。

本发明的另一方面提供了一种文本识别模型训练装置，包括第二获取模块、构建模块、第三编码模块、第四编码模块、第二解码模块、计算模块。

其中，第二获取模块，用于获取训练文本，其中训练文本为采用文博领域语言风格描述预选历史事件的多个预选汉语语句，训练文本中包括长实体词组和非长实体词组。

构建模块，用于构建训练文本的文本标签，其中文本标签包括与预选历史事件关联的多个标签三元组，其中每个标签三元组包括第一实体、第二实体以及第一实体和第二实体之间的关系，第一实体和第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代。

第三编码模块，用于将多个预选汉语语句输入初编码层，以便通过初编码层对每个预选汉语语句进行初编码后，输出多个初编码字训练向量，其中初编码字训练向量为预选汉语语句中的每个字的第一上下文特征表示。

第四编码模块，用于将多个初编码字训练向量输入待训练风格化编码网络，以便通过待训练风格化编码网络对多个初编码字训练向量进行文博领域风格化编码后，输出多个词训练向量，其中词训练向量包括训练文本中的长实体词组和非长实体词组的上下文特征表示。

第二解码模块，用于将多个词训练向量输入解码器，以便通过解码器对多个词训练向量进行解码后输出与预选历史事件关联的多个训练三元组。

根据本发明的实施例，待训练风格化编码网络包括待训练语言风格化层和待训练可学习字典层，第四编码模块包括确定单元、第三编码单元、第四编码单元、第五编码单元。

其中，确定单元，用于从多个初编码字训练向量中确定第一类训练向量，其中多个初编码字训练向量中，除第一类训练向量之外的向量为第二类训练向量；第三编码单元，用于将第一类训练向量两次输入待训练语言风格化层，以通过待训练语言风格化层两次输出不同的向量作为正例向量，其中两次输入待训练语言风格化层的第一类训练向量被施加不同的随机掩码；第四编码单元，用于将第二类训练向量输入待训练语言风格化层，以通过待训练语言风格化层输出负例向量，其中正例向量和负例向量为预选汉语语句中的每个字的第二上下文特征表示；第五编码单元，用于将正例向量和负例向量输入待训练可学习字典层，以便利用待训练可学习字典层对正例向量和负例向量进行词编码后，输出多个词训练向量。

根据本发明的实施例，训练文本包括多个训练子集，构建模块包括训练单元、输入输出单元。

其中，训练单元，用于利用训练文本中的前M个训练子集，和前M个训练子集的文本标签训练第M-1版文本识别模型，得到经训练得到的第M版文本识别模型；输入输出单元，用于将训练文本中的第M+1个训练子集输入第M版文本识别模型，以利用第M版文本识别模型输出与第M+1个训练子集关联的三元组，作为第M+1个训练子集的文本标签。

根据本发明的实施例，第一获取模块401、第一编码模块402、第二编码模块403、第一解码模块404中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，第一获取模块401、第一编码模块402、第二编码模块403、第一解码模块404中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获取模块401、第一编码模块402、第二编码模块403、第一解码模块404中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图5所示，根据本发明实施例的电子设备500包括处理器501，其可以根据存储在只读存储器（ROM）502中的程序或者从存储部分508加载到随机访问存储器（RAM）503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 503中，存储有电子设备500操作所需的各种程序和数据。处理器 501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备500还可以包括输入/输出（I/O）接口505，输入/输出（I/O）接口505也连接至总线504。电子设备500还可以包括连接至I/O接口505的以下部件中的一项或多项：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文博领域事件信息生成方法，其特征在于，包括：

获取采用文博领域语言风格描述目标历史事件的多个目标汉语语句，所述目标汉语语句中包括长实体词组和非长实体词组；

将所述多个目标汉语语句输入初编码层，以便通过所述初编码层对每个所述目标汉语语句进行初编码后，输出多个初编码字向量，其中所述初编码字向量为所述目标汉语语句中的每个字的第一上下文特征表示；

将所述多个初编码字向量输入风格化编码网络，以便通过所述风格化编码网络对所述多个初编码字向量进行文博领域风格化编码后，输出多个词向量，其中所述词向量包括所述目标汉语语句中的长实体词组和非长实体词组的上下文特征表示；

将所述多个词向量输入解码器，以便通过所述解码器对所述多个词向量进行解码后输出与所述目标历史事件关联的事件信息，其中所述事件信息包括与所述目标历史事件关联的多个三元组，其中每个所述三元组包括第一实体、第二实体以及所述第一实体和所述第二实体之间的关系，所述第一实体和所述第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代。

2.根据权利要求1所述的方法，其特征在于，还包括：

利用与所述目标历史事件关联的多个三元组，生成与所述目标历史事件关联的知识图谱，所述知识图谱包括第一图形元素、第二图形元素、第三图形元素，所述第一图形元素与所述第一实体关联，所述第二图形元素与所述第二实体关联，所述第三图形元素与所述第一实体和所述第二实体之间的关系关联。

3.根据权利要求1所述的方法，其特征在于，所述风格化编码网络包括语言风格化层和可学习字典层，所述通过所述风格化编码网络对所述多个初编码字向量进行文博领域风格化编码后，输出多个词向量包括：

将所述多个初编码字向量输入所述语言风格化层，以便通过所述语言风格化层对所述多个初编码字向量进行特征优化后输出多个风格化字向量，其中所述风格化字向量为所述目标汉语语句中的每个字的第二上下文特征表示；

将所述多个风格化字向量输入所述可学习字典层，以便利用所述可学习字典层对所述多个风格化字向量进行词编码后，输出多个词向量。

4.根据权利要求3所述的方法，其特征在于：

所述语言风格化层包括加掩码的双向自注意力网络、前馈神经网络；

所述可学习字典层包括加掩码的单向自注意力网络、前馈神经网络。

5.一种文本识别模型训练方法，其特征在于，包括：

获取训练文本，其中所述训练文本为采用文博领域语言风格描述预选历史事件的多个预选汉语语句，所述训练文本中包括长实体词组和非长实体词组；

构建所述训练文本的文本标签，其中所述文本标签包括与所述预选历史事件关联的多个标签三元组，其中每个所述标签三元组包括第一实体、第二实体以及所述第一实体和所述第二实体之间的关系，所述第一实体和所述第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代；

将所述多个预选汉语语句输入初编码层，以便通过所述初编码层对每个所述预选汉语语句进行初编码后，输出多个初编码字训练向量，其中所述初编码字训练向量为所述预选汉语语句中的每个字的第一上下文特征表示；

将所述多个初编码字训练向量输入待训练风格化编码网络，以便通过所述待训练风格化编码网络对所述多个初编码字训练向量进行文博领域风格化编码后，输出多个词训练向量，其中所述词训练向量包括所述训练文本中的长实体词组和非长实体词组的上下文特征表示；

将所述多个词训练向量输入解码器，以便通过所述解码器对所述多个词训练向量进行解码后输出与所述预选历史事件关联的多个训练三元组；

计算所述训练三元组和所述标签三元组之间的交叉熵损失值，当所述交叉熵损失值满足预设条件时，得到经训练得到的文本识别模型。

6.根据权利要求5所述的方法，其特征在于，所述待训练风格化编码网络包括待训练语言风格化层和待训练可学习字典层，将所述多个初编码字训练向量输入待训练风格化编码网络，以便通过所述待训练风格化编码网络对所述多个初编码字训练向量进行文博领域风格化编码后，输出多个词训练向量包括：

从所述多个初编码字训练向量中确定第一类训练向量，其中所述多个初编码字训练向量中，除所述第一类训练向量之外的向量为第二类训练向量；

将所述第一类训练向量两次输入所述待训练语言风格化层，以通过所述待训练语言风格化层两次输出不同的向量作为正例向量，其中两次输入所述待训练语言风格化层的第一类训练向量被施加不同的随机掩码；

将所述第二类训练向量输入所述待训练语言风格化层，以通过所述待训练语言风格化层输出负例向量，其中所述正例向量和所述负例向量为所述预选汉语语句中的每个字的第二上下文特征表示；

将所述正例向量和所述负例向量输入所述待训练可学习字典层，以便利用所述待训练可学习字典层对所述正例向量和所述负例向量进行词编码后，输出多个词训练向量。

7.根据权利要求5所述的方法，其特征在于，所述训练文本包括多个训练子集，构建所述训练文本的文本标签包括：

利用所述训练文本中的前M个训练子集，和所述前M个训练子集的文本标签训练第M-1版文本识别模型，得到经训练得到的第M版文本识别模型；

将所述训练文本中的第M+1个训练子集输入所述第M版文本识别模型，以利用所述第M版文本识别模型输出与所述第M+1个训练子集关联的三元组，作为所述第M+1个训练子集的文本标签。

8.一种文博领域事件信息生成装置，其特征在于，包括：

第一获取模块，用于获取采用文博领域语言风格描述目标历史事件的多个目标汉语语句，所述目标汉语语句中包括长实体词组和非长实体词组；

第一编码模块，用于将所述多个目标汉语语句输入初编码层，以便通过所述初编码层对每个所述目标汉语语句进行初编码后，输出多个初编码字向量，其中所述初编码字向量为所述目标汉语语句中的每个字的第一上下文特征表示；

第二编码模块，用于将所述多个初编码字向量输入风格化编码网络，以便通过所述风格化编码网络对所述多个初编码字向量进行文博领域风格化编码后，输出多个词向量，其中所述词向量包括所述目标汉语语句中的长实体词组和非长实体词组的上下文特征表示；

第一解码模块，用于将所述多个词向量输入解码器，以便通过所述解码器对所述多个词向量进行解码后输出与所述目标历史事件关联的事件信息，其中所述事件信息包括与所述目标历史事件关联的多个三元组，其中每个所述三元组包括第一实体、第二实体以及所述第一实体和所述第二实体之间的关系，所述第一实体和所述第二实体的实体类别包括以下至少之一：人物、事件、时间、地点、事物、文物、年代。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1~4中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1~4中任一项所述的方法。