CN113468330A

CN113468330A - 信息获取方法、装置、设备及介质

Info

Publication number: CN113468330A
Application number: CN202110762048.6A
Authority: CN
Inventors: 汪贻俊; 孙长志; 周浩; 李磊
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-10-01
Anticipated expiration: 2041-07-06
Also published as: CN113468330B; WO2023280106A1

Abstract

本公开实施例涉及一种信息获取方法、装置、设备及介质，其中该方法包括：设置与样本集合中每个样本句子对应的标签表，其中，标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签；将每个样本句子作为待训练模型的输入信息，将对应的标签表作为待训练模型的输出信息进行模型训练；根据训练后的模型参数生成信息抽取模型，以根据信息抽取模型提取目标句子信息。由此，通过句子的字符构建标签表，在标签表中标注句子字符或者字符之间的信息类别，从而，基于标签表训练的信息抽取模型可以高效准确的提取相关句子的信息类别等信息。

Description

信息获取方法、装置、设备及介质

技术领域

本公开涉及数据处理领域，尤其涉及一种信息获取方法、装置、设备及介质。

背景技术

随着计算机技术的发展，句子的信息类别抽取成为较为常见的一种数据处理方式，比如，当信息类别包括实体词字符类别及其对应的关系类别时，实体词字符类别及其对应的关系类别的抽取通常作为信息抽取中的一个关键环节，被应用在问答系统，知识库等下游自然语言处理任务中。

相关技术中，基于流水线方法进行句子的信息类别抽取，即预先构建两个模型，其中一个模型用于字符的抽取，另一个模型用于根据字符进行有关信息类别的抽取，其中，另一个模型在抽取信息类别时，依赖于其中一个模型对字符的抽取结果，在抽取的字符的基础上进行信息类别的抽取。

然而，上述流水线方式在进行信息类别抽取时，由于依赖于字符的抽取结果，因此，字符抽取的误差必然会传播到信息类别的抽取中，导致句子中字符信息类别抽取不准确。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种信息获取方法，所述方法包括：设置与样本集合中每个样本句子对应的标签表，其中，所述标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签；将所述样本集合中每个样本句子作为待训练模型的输入信息，将与每个所述样本句子对应的所述标签表作为所述待训练模型的输出信息，根据预设的目标函数进行模型训练；根据训练后的模型参数生成信息抽取模型，以根据所述信息抽取模型提取目标句子信息。

本公开实施例还提供了一种信息获取装置，所述装置包括：设置模块，用于设置与样本集合中每个样本句子对应的标签表，其中，所述标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签；模型训练模块，用于将所述样本集合中每个样本句子作为待训练模型的输入信息，将与每个所述样本句子对应的所述标签表作为所述待训练模型的输出信息，根据预设的目标函数进行模型训练；提取模块，用于根据训练后的模型参数生成信息抽取模型，以根据所述信息抽取模型提取目标句子信息。

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的信息获取方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开实施例提供的信息获取方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供的信息获取方案，设置与样本集合中每个样本句子对应的标签表，其中，标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签，进而，将样本集合中每个样本句子作为待训练模型的输入信息，将与每个样本句子对应的标签表作为待训练模型的输出信息，根据预设的目标函数进行模型训练，最后，根据训练后的模型参数生成信息抽取模型，以根据信息抽取模型提取目标句子信息。由此，通过句子的字符构建标签表，在标签表中标注句子字符或者字符之间的信息类别，从而，基于标签表训练的信息抽取模型可以高效准确的提取相关句子的信息类别等信息。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的一种信息获取方法的流程示意图；

图2为本公开实施例提供的一种标签表的结构示意图；

图3为本公开实施例提供的一种信息提取模型训练场景的示意图；

图4为本公开实施例提供的一种信息获取场景示意图；

图5为本公开实施例提供的一种信息提取过程的示意图；

图6为本公开实施例提供的另一种信息获取方法的流程示意图；

图7为本公开实施例提供的另一种标签表的结构示意图；

图8为本公开实施例提供的一种实体关系抽取模型提取场景的示意图；

图9为本公开实施例提供的另一种实体关系抽取模型提取场景的示意图；

图10是根据本公开一个实施例的信息获取装置的结构示意图；以及

图11为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

为了解决上述问题，本公开实施例提供了一种信息获取方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的一种信息获取方法的流程示意图，该方法可以由信息获取装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤101，设置与样本集合中每个样本句子对应的标签表，其中，标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签。

正如以上提到的，本公开是为了对句子的信息类别抽取，该信息类别可以为任意类别的可由句子中的字符总结的信息(比如信息类别可以为实体词字符类别以及实体词字符之间的关系类别，比如，信息类别可以为字符之间的所属语义领域类别等)，字符可以指的是样本句子中的每个字符。

为了避免分开抽取字符以及字符之间的信息类别导致的抽取误差，在本实施例中，设置与样本集合中每个样本句子对应的标签表，该标签表由行和列组成，行和列均由每个样本句子的字符组成，若是样本句子中包括n个字符，则标签表中的行和列均由n个字符组成，标签表是n*n的正方形表，包括了n*n个单元格。

其中，标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，这里的相同设置是要么均按照在对应样本句子中从前往后的顺序设置，要么是均按照在对应样本句子中从后往前的顺序设置，要么是均按照在对应样本句子中散乱的顺序设置，即需要保证标签表的行和列设置的对应字符的顺序相同，保证同样编号的行和列对应的字符是对应样本句子中相同的字符，比如，如果样本句子为英文，则标签表的行字符和列字符按照对应英文句子的单词顺序进行相同设置，如果样本句子为中文，则标签表的行字符和列字符按照对应中文句子的字符顺序进行相同设置。

另外，对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签，从而，每个样本句子对应的标签表中包含了2个维度的信息，一个维度是字符的信息类别(标签表字符是所有的字符，无需字符的前期抽取，字符是不是具有对应的信息类别，在标签表中得到体现)，另一个维度是字符之间的信息类别，无需构建2个单独的模型分别挖掘字符和信息类别，且在本公开实施例中，信息类别的确定仅仅需要标签表中的抽取结果的标注，不依赖于字符的抽取，保证了信息类别的确定效率和准确率。

举例而言，如图2所示，当样本句子1中包括10个字符为“A,B,C,D,E,F,G,H,I,J”，则构建的标签表为10*10的尺寸，标签表中根据样本句子1中所有字符由前往后的顺序设置(标签表中以数字表示对应的信息类别)。在得到的标签表中，在对应行和列的字符对应的单元格中标注对应的信息类别标签，该标签表中对没有对应信息类别的单元格标注“无信息类别”对应的信息类别标签(本公开实施例中均以┴表示“无信息类别”或“空信息类别”)，不同单元格标注的信息类别标签可以相同，可以不同。由此，基于标签表，除了对有具体信息类别的单元格对应的字符标注之外，对无信息类别的单元格对应的字符也可以得到体现，因此，无需提前抽取对应的具有信息类别的字符，且基于标签表的信息类别标签的标注，遍历了每个字符以及相关句子中所有字符对，从而，保证了信息类别抽取的准确性。

步骤102，将样本集合中每个样本句子作为待训练模型的输入信息，将与每个样本句子对应的标签表作为待训练模型的输出信息，根据预设的目标函数进行模型训练。

在本实施例中，当确定了每个样本句子的标签表之后，显然就获知了样本句子的信息类别，因此，为了在有关应用场景中对样本句子进行信息类别的识别，在本公开的实施例中，将样本集合中每个样本句子作为待训练模型的输入信息，将与每个样本句子对应的标签表作为待训练模型的输出信息，根据预设的目标函数进行模型训练，训练得到的信息抽取模型即可用于对有关句子进行信息类别的抽取。

不难理解的是，在进行模型训练时，为了保证模型的训练效果，预先设置模型训练的目标函数，该目标函数用于约束该信息抽取模型可以由样本句子获取对应的标签表，该目标函数作用在信息抽取模型的模型参数的构建上，模型参数根据目标函数约束的样本句子和对应的样本标签之间的关系学习得到。

在本实施例中，由于标签表构建完成后，标签表具有体现本身对应的信息类别的一些天然的属性，预设的目标函数即用于发现这些天然的属性并用来根据这些天然的属性约束模型的训练，从而，可以保证模型参数可以体现信息类别下的标签表的天然属性来生成有关句子的标签表。其中，该标签表的天然的属性可以为对应信息类别下的标签表的形状特征、位置特征、隐含特征(可以从标签表直接唯一推导得到的任意特征)，若是标签表使用颜色进行信息类别的标注，则对应的天然的属性还可以包括颜色特征等。

在本公开的一个实施例中，可以基于向量的形式推导出和标签表的天然属性对应的目标函数，比如，如图3所示，样本句子2的标签表对应的天然属性包括L1和L2，样本句子2包含了4个字符“X1、X2、X3、X4”，对应英文中的单词或者中文中的单字，提取这四个字符对应的向量“h1、h2、h3、h4”，为了在向量维度挖掘样本句子2与对应的天然属性对应的目标函数，获取每个字符向量中的2个参考子向量，参考子向量可以根据场景需要确定。在本实施例中，可以提取每个字符的向量的头向量h_i ^head和尾向量h_i ^end作为对应的参考子向量，其中头向量是该字符充当关系发出者角色时对应的向量，尾向量是该字符充当关系接收者角色时对应的向量(其中，i为1-4中的任意一个自然数)。

进一步的，基于在样本句子2对应标签表中的天然属性L1和L2，根据每个字符的向量的头向量h_i ^head和尾向量h_i ^end，分别构建与天然属性L1对应的向量表M1，和与天然属性L2对应的向量表M2，其中，向量表M1中的向量值可以总结得到在天然属性L1下对应的向量约束函数1，向量表M2中的向量值可以总结得到在天然属性L2下对应的向量约束函数2，基于向量约束函数1和向量约束函数2得到样本句子2对应的信息类别的参考目标函数，根据样本集合中所有样本句子对应的信息类别的参考目标函数得到最终的目标函数。

其中，继续参照图3，为了约束向量表体现对应的天然属性的倾向性，可以通过设置头向量

和尾向量

组合生成向量表的权重参数的值来实现，通过不同的权重参数的值，使得对应的向量表更加倾向于体现对应的天然属性，其中，在根据头向量

和尾向量

组合生成向量表时，每个字符的头向量和4个字符的尾向量利用双仿射模型计算得到对应的4个向量值，4个头向量最后得到对应的4*4向量表，向量表中的每个单元格的灰色度体现了基于组合向量计算得到的向量值，图中向量表中灰色度的不同，表示对应单元格下的2个字符之间在对应天然属性下的属性的体现度的不同。

由此，得到目标函数后，基于目标函数进行模型训练，可以使得模型参数学习得到对应信息类别下的标签表的天然属性。

步骤103，根据训练后的模型参数生成信息抽取模型，以根据信息抽取模型提取目标句子信息。

在本实施例中，根据训练后的模型参数生成信息抽取模型，以根据信息抽取模型提取目标句子信息，该目标句子信息为输入的目标句子的有关字符的类别，即如图4所示，将目标句子输入对应的信息抽取模型，可以获知对应的标签表，由于标签表中标注了对应的类别标签，因此，可以基于标签表提取有关句子的信息类别。

继续以上述图3所示的场景为例，信息抽取模型本质上是根据目标句子的在预设的目标函数下，训练得到的与每个天然属性对应的向量表的拼接后，对拼接后的向量表解码得到对应的标签。

参照图5，在如图3所示的解码过程中，若是输入的为样本句子2，则在获取与天然属性L1对应的向量表M1，和与天然属性L2对应的向量表M2后，为了综合对应信息类别下所有的天然属性，将向量表M1和M2拼接得到拼接向量表，拼接的时候可以直接拼接向量表M1和M2得到拼接后的向量表P1，也可以转置向量表M1后再拼接M2得到拼接后的向量表P2，进而，根据天然属性对应的向量值分布特点，分别对拼接后的向量表P1和向量表P2的向量值进一步去噪处理后，对去噪处理后的2个向量表中的向量值求取均值后得到向量表P3，对向量表P3按照天然属性对应的向量值分布特点进行信息类别的识别确定。

综上，本公开实施例的信息获取方法，设置与样本集合中每个样本句子对应的标签表，其中，标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签，进而，将样本集合中每个样本句子作为待训练模型的输入信息，将与每个样本句子对应的标签表作为待训练模型的输出信息，根据预设的目标函数进行模型训练，最后，根据训练后的模型参数生成信息抽取模型，以根据信息抽取模型提取目标句子信息。由此，通过句子的字符构建标签表，在标签表中标注句子字符或者字符之间的信息类别，从而，基于标签表训练的信息抽取模型可以高效准确的提取相关句子的信息类别等信息。

为了使得本领域的技术人员更加清楚的理解本公开实施例的信息获取方法，下面以信息类别为字符类别和字符之间的关系类别的抽取为例进行说明，说明如下：

在本公开的一个实施例中，如图6所示，对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签，包括：

步骤601，对标签表中由行字符和列字符组成的各单元格标注是否具有实体类别标签或关系类别标签。

本实施例中的信息类别为实体类别或者关系类别，即在标签表中即可以获知实体词对应的字符的类别，比如字符的类别是人名实体词等，也可以获知实体词之间的关系类别，比如社会关系类别等。

举例而言，如图7所示，当样本句子3包括字符为“David Perkins and his wifeare village doctors in California”，则构建的标签表均按照样本句子3中英文字符由前到后的顺序设置时，参照标签表中的实体类别标签或者关系类别标签，“DavidPerkins”，“his”，“wife”和“doctors”的实体类别标签是人名实体(PER)，“village"，"California“的实体类别标签是是地理位置实体(GPE)，这些实体之间存在5个关系，比如“David”、“Perkins”和“wife“存在人与人之间的社会关系(PER-SOC)，“David”、“Perkins”和“California“存在物理位置的近邻关系(PHYS)，“doctors”和“village"存在地方机构与职业之间的职业归属关系(ORG-AFF)。

步骤602，根据训练后的模型参数生成实体关系抽取模型，以根据实体关系抽取模型提取目标句子实体以及实体之间的关系。

在本实施例中，根据训练后的模型参数生成实体关系抽取模型，以根据实体关系抽取模型提取目标句子实体以及实体之间的关系。

正如以上所提到的，具有实体类别标签或关系类别标签的标签表具有对应的天然的属性，该天然的属性为：在标签表的对角线上分布实体类别标签，即对应的标签表对的对角线上由行字符和列字符组成的单元格标注是否具有实体类别标签，对标签表的非对角线上由行字符和列字符组成的单元格标注是否具有关系类别标签，其中，关系类别标签以标签表的对角线对称分布或者非对称分布。

继续参照图7，天然属性对应到这张表中，“David”、“Perkins”对应左上角一个二乘二的正方形，"California“对应右下角的一个单元(正方形)，而“David”、“Perkins”之间的关系PHYS对应于右上角的一个二乘一的矩形，上三角区域表示正向，比如，上三角区域的PHYS表示对应行的字符和对应列的字符有关系类别，但是对应列的字符和对应行的字符没有关系类别，下三角区域表示逆向，比如，下三角区域的ORG-AFF表示对应列的字符和对应行的字符有关系类别，但是对应行的字符和对应列的字符没有关系类别。

在本实施例中，参照图8，上述天然属性对应的预设目标函数包括第一损失函数L_entry、第二损失函数L_sym和第三损失函数L_imp，其中，在一些可能的实施例中，根据双仿射分类算法确定与每个样本句子对应的标签表中、与各单元格对应的表示实体类别标签或者关系类别标签的标签分类概率，对与各单元格对应的表示实体类别标签或者关系类别标签的标签分类概率进行计算，确定第一损失函数。其中，第一损失函数对应的天然属性是：每个标签表单元格的类别标签都是相对独立的，因此，基于每个单元格的标签分类概率对应上述天然属性。

在本实施例中，该第一损失函数可以为如下公式(1)，其中，在公式(1)中，s表示样本句子，i和j为自然数，y_i,j为对应样本句子的信息类别标签，Y_i,j为信息类别的随机变量，该变量的取值是任意的信息类别标签，P(Y_i,j|s)＝softmax(dropout(g_i,j))，softmax表示标签表的第i行第j列对应的评分向量g_i,j预测的对应标签的分类概率，

在本实施例中，可以对标签表的对角线上的实体类别标签概率，以及以对角线对称分布的关系类别标签概率进行计算，确定第二损失函数，在本实施例中，第二损失函数对应的天然属性是：每个标签类别对应的形状约束可以是正方形或者是矩形的，即对称性的约束，比如，标签表中的行字符“David”、“Perkins”“wife”与列字符“David”、“Perkins”“wife”类别关系沿着对角线对称，第二损失函数用于约束这种对称性。

其中，在本实施例中，第二损失函数可以为如下公式(2)，其中，在该公式(2)中，P_i,j,t表示i行第j列单元格的类别标签，P_j,i,t表示j行第i列单元格的为类别t时的概率，y_sym表示和对角线对称的类别标签集合，t表示对称的标签集合中的某个类别标签，(i，j)表示第i行第j列单元格：

在本公开的实施例中，还根据预设算法对标签表的对角线上的实体类别标签概率进行计算，确定第三损失函数。其中，第三损失函数对应的天然属性可以理解为标签表中的隐含约束，比如，若是一个实体关系存在，则隐含的是必然存在两个实体，这就意味着，关系类别的概率不大于对应的实体类别概率，对于标签表对角线上的每个字符向量，其在实体类型上的可能概率，必然不低于同一行或者同一列的其他字符在关系类型上的可能概率，因此，基于这种隐含的概率约束构建第三损失函数。

在本公开的一个实施例中，第三损失函数可以为如下公式(3)，其中，在公式(3)中，[]_*表示铰链损失函数计算算法，y_e表示实体类别集合，y_r表示关系类别集合，l表示关系类别，t表示实体类别，i表示标签表中的第i行或者第i列：

进而，上述训练实体关系抽取模型的目标函数为L_entry+L_sym+L_imp。

进一步的，参照图9，在基于上述实体关系抽取模型的目标函数训练实体关系模型时，若是样本句子为s，该样本语句s中包含的字符为X1、X2、X3、X4时，则根据预训练语言模型PLM构建所有字符的向量为h1、h2、h3、h4，其中，为了更好的进行天然属性的体现，在本实施例中，采用两个多层感知器MLP每个字符的向量提取头部的MLP和尾部的MLP，即在每个字符的向量上提取头向量

和尾向量

其中，在本实施例中，头向量

和尾向量

的提取公式为公式(4)所示，其中，在公式(4)中，

表示实数域，d是特征向量的维度，

进而，根据h1字符的头向量和h1、h2、h3、h4的尾向量拼接成4个组合向量，对着4个组合向量根据双仿射算法等算法计算每两个组合向量对应的得分向量，根据所有的得分向量生成向量表1，其中，为了保证向量表1体现第一损失函数对应的约束，在计算得分向量时根据第一损失函数对应的权重参数计算，根据该权重参数确定上述得分向量，其中，具体计算可参照公式(5)和(6)，其中，在公式(5)中，g_i,j表示得分向量，

R表示实数域，Y表示类别标签空间，b是预设的偏差，

表示向量拼接，公式(6)中仅仅示出了向量h1(表示公式(5)中的

)和h2(表示公式(5)中的

)的拼接，Biaff为双仿射算法，U₁和U₂表示对应的权重参数。

同样的，根据h2字符的头向量和h1、h2、h3、h4的尾向量拼接成4个组合向量，对着4个组合向量根据双峰算法等算法计算每两个组合向量对应的得分向量，根据所有的得分向量生成向量表2，为了保证向量表2体现第二损失函数对应的约束，在计算得分向量时根据第二损失函数对应的权重参数计算。根据h3字符的头向量和h1、h2、h3、h4的尾向量拼接成4个组合向量，对着4个组合向量根据双峰算法等算法计算每两个组合向量对应的得分向量，根据所有的得分向量生成向量表3，为了保证向量表3体现第二损失函数对应的约束，在计算得分向量时根据第三损失函数对应的权重参数计算。

基于对应的得分向量，可以最终得到约束对应相关属性的第一损失函数、第二损失函数和第三损失函数对应的向量表，基于第一损失函数向量表(

其中，P^row是将P按行展成的二维矩阵，

为，R表示实数域，Y为类别标签空间)第二损失函数和第三损失函数对应的向量拼接得到第一个拼接向量表，基于第一损失函数向量表的转置(

其中，P^col是将P按列展成的二维矩阵)，第二损失函数和第三损失函数对应的向量拼接得到第二个拼接向量表。

容易理解的是标签表中的天然属性包括：行和列对应的字符是完全相同的，行上的实体词字符如与列上的实体词字符具有类别关系，则必然，对应列的实体词字符与对应行的实体词字符具有类别关系等，这种天然属性关系可以反应在根据损失函数得到的拼接向量表中的行和列中，因此，可以计算第一个拼接向量表相邻行的欧式距离(也就是l₂距离)得到一个l₂-dist，以及第二个拼接向量表相邻列的欧式距离得到另一个l₂-dist，进而，根据对两个l₂-dist取均值后，根据得到的向量表的向量值根据上述天然属性进行单元格的标签类型的划分。

在本实施例中，即还需要从实体关系抽取模型预测的目标标签表中恢复出所有的实体和关系，相当于是一个逆转化的过程，也就是解码过程。

在本实施例中，首先，根据实体关系抽取模型对目标句子的各字符进行处理，生成与目标句子对应的目标标签表，其中，目标标签表中由各行字符和各列字符组成的各单元格对应的预测分值，该预测分值可以理解为上述根据行和列的欧式距离取均值后，根据得到的向量表的向量值，对目标标签表中由各行字符和各列字符组成的各单元格对应的预测分值进行计算，确定目标标签表中与实体类别标签相关的分割位置，即根据上述天然属性进行单元格的标签类型的划分，在本实施例中，根据分割位置检测目标标签表中对角线上单元格的预测分值是否满足实体类别标签，如果满足，则标注对应的实体类别标签，根据分割位置检测目标标签表中非对角线上单元格的预测分值是否满足关系类别标签，如果满足，则标注对应的关系类别标签，根据目标标签表中标注的实体类别标签和关系类别标签，生成与目标句子对应的实体和实体之间的关系。

也可以理解，在解码得到的向量表中具有很多天然的属性，比如实体必然对应一个正方形，并且这个正方形一定在对角线上(关于对角线对称)，而关系一定对应一个矩形，这个矩形一定和对角线不重叠，要么在上三角，要么在下三角。另外，还有一个最重要的性质就是一个实体中包含的对应的多个字符所对应的行(列)一定是一模一样的，并且和非这个实体词字符对应的行(列)一定是不一样的，基于这个性质，我们的算法第一步就是将实体的位置确定出来。

具体来说，就是看根据行和列的欧式距离取均值后得到的向量表中，相邻的两行(列)是不是一致的，如果是一致的那就是在一个实体里，如果不是一致的那就说明这两个单词必然不属于同一个实体，它们之间存在实体的边界，由此就能把所有的实体边界高效得找出来。找出所有的实体边界后，就相当于把具体划成了很多个部分，每一个部分都有可能是一个实体。接下来就逐个判断每一个部分是不是实体，即确定很多个部分中可能作为实体所对应的正方形部分，根据这个正方形的所有向量值，得到这个部分的实体标签或者不是实体。找到所有的实体词字符后，接下来判断任意两个实体是不是存在关系，可以遍历正方形部分中所有的实体对，根据实体对对应的矩形中包括的所有向量确定预测结果，得到实体对之间存在关系类别或者不存在关系类别。

综上，本公开实施例的信息获取方法，可以构建实体关系抽取模型，基于实体关系抽取模型准确高效的到实体类别或者关系类别。

为了实现上述实施例，本公开还提出了一种信息获取装置，图10是根据本公开一个实施例的信息获取装置的结构示意图，如图10所示，该信息获取装置包括设置模块1010、模型训练模块1020和提取模块1030，其中，

设置模块1010，用于设置与样本集合中每个样本句子对应的标签表，其中，标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签；

模型训练模块1020，用于将样本集合中每个样本句子作为待训练模型的输入信息，将与每个样本句子对应的标签表作为待训练模型的输出信息，根据预设的目标函数进行模型训练；

提取模块1030，用于根据训练后的模型参数生成信息抽取模型，以根据信息抽取模型提取目标句子信息。

本公开实施例所提供的信息获取装置可执行本公开任意实施例所提供的信息获取方法，具备执行方法相应的功能模块和有益效果。

为了实现上述实施例，本公开还提出一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述实施例中的信息获取方法。

图11为本公开实施例提供的一种电子设备的结构示意图。

下面具体参考图11，其示出了适于用来实现本公开实施例中的电子设备1100的结构示意图。本公开实施例中的电子设备1100可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，电子设备1100可以包括处理装置(例如中央处理器、图形处理器等)1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储装置1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有电子设备1100操作所需的各种程序和数据。处理装置1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

通常，以下装置可以连接至I/O接口1105：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1106；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1107；包括例如磁带、硬盘等的存储装置1108；以及通信装置1109。通信装置1109可以允许电子设备1100与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备1100，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1109从网络上被下载和安装，或者从存储装置1108被安装，或者从ROM 1102被安装。在该计算机程序被处理装置1101执行时，执行本公开实施例的信息获取方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

设置与样本集合中每个样本句子对应的标签表，其中，标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对标签表中由行字符和列字符组成的各单元格标注对应的信息类别标签，进而，将样本集合中每个样本句子作为待训练模型的输入信息，将与每个样本句子对应的标签表作为待训练模型的输出信息，根据预设的目标函数进行模型训练，最后，根据训练后的模型参数生成信息抽取模型，以根据信息抽取模型提取目标句子信息。由此，通过句子的字符构建标签表，在标签表中标注句子字符或者字符之间的信息类别，从而，基于标签表训练的信息抽取模型可以高效准确的提取相关句子的信息类别等信息。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，本公开提供了一种信息获取方法，包括：设置与样本集合中每个样本句子对应的标签表，其中，所述标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签；

将所述样本集合中每个样本句子作为待训练模型的输入信息，将与每个所述样本句子对应的所述标签表作为所述待训练模型的输出信息，根据预设的目标函数进行模型训练；

根据训练后的模型参数生成信息抽取模型，以根据所述信息抽取模型提取目标句子信息。

根据本公开的一个或多个实施例，本公开提供的信息获取方法中，还包括：

如果所述样本句子为英文，则所述标签表的行字符和列字符按照对应英文句子的单词顺序进行相同设置；

如果所述样本句子为中文，则所述标签表的行字符和列字符按照对应中文句子的字符顺序进行相同设置。

根据本公开的一个或多个实施例，本公开提供的信息获取方法中，所述对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签，包括：

对标签表中由所述行字符和所述列字符组成的各单元格标注是否具有实体类别标签或关系类别标签；

所述根据训练后的模型参数生成信息抽取模型，以根据所述信息抽取模型提取目标句子信息，包括：

根据训练后的模型参数生成实体关系抽取模型，以根据所述实体关系抽取模型提取目标句子实体以及实体之间的关系。

根据本公开的一个或多个实施例，本公开提供的信息获取方法中，所述对标签表中由所述行字符和所述列字符组成的各单元格标注是否具有实体类别标签或关系类别标签，包括：

对所述标签表的对角线上由所述行字符和所述列字符组成的单元格标注是否具有实体类别标签；以及

对所述标签表的非对角线上由所述行字符和所述列字符组成的单元格标注是否具有关系类别标签，其中，所述关系类别标签以所述标签表的对角线对称分布或者非对称分布。

根据本公开的一个或多个实施例，本公开提供的信息获取方法中，所述实体关系抽取模型对应的预设的目标函数包括：

根据双仿射分类算法确定与每个所述样本句子对应的所述标签表中、与所述各单元格对应的表示所述实体类别标签或者所述关系类别标签的标签分类概率；

对与所述各单元格对应的表示所述实体类别标签或者所述关系类别标签的标签分类概率进行计算，确定第一损失函数。

根据本公开的一个或多个实施例，本公开提供的信息获取方法中，所述实体关系抽取模型对应的预设的目标函数还包括：

对所述标签表的对角线上的实体类别标签概率，以及以所述对角线对称分布的关系类别标签概率进行计算，确定第二损失函数。

根据预设算法对所述标签表的对角线上的实体类别标签概率进行计算，确定第三损失函数。

根据本公开的一个或多个实施例，本公开提供的信息获取方法中，所述根据训练后的模型参数生成实体关系抽取模型，以根据所述实体关系抽取模型提取目标句子实体以及实体之间的关系，包括：

根据所述实体关系抽取模型对所述目标句子的各字符进行处理，生成与所述目标句子对应的目标标签表，其中，所述目标标签表中由各行字符和各列字符组成的各单元格对应的预测分值；

对所述目标标签表中由各行字符和各列字符组成的各单元格对应的预测分值进行计算，确定所述目标标签表中与实体类别标签相关的分割位置；

根据所述分割位置检测所述目标标签表中对角线上单元格的预测分值是否满足实体类别标签，如果满足，则标注对应的实体类别标签；

根据所述分割位置检测所述目标标签表中非对角线上单元格的预测分值是否满足关系类别标签，如果满足，则标注对应的关系类别标签；

根据所述目标标签表中标注的所述实体类别标签和所述关系类别标签，生成与所述目标句子对应的实体和实体之间的关系。

根据本公开的一个或多个实施例，本公开提供了一种信息获取装置，包括：设置模块，用于设置与样本集合中每个样本句子对应的标签表，其中，所述标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签；

模型训练模块，用于将所述样本集合中每个样本句子作为待训练模型的输入信息，将与每个所述样本句子对应的所述标签表作为所述待训练模型的输出信息，根据预设的目标函数进行模型训练；

提取模块，用于根据训练后的模型参数生成信息抽取模型，以根据所述信息抽取模型提取目标句子信息。

根据本公开的一个或多个实施例，本公开提供的信息获取装置中，还包括：顺序设置模块，用于：

在所述样本句子为英文时，所述标签表的行字符和列字符按照对应英文句子的单词顺序进行相同设置；

在所述样本句子为中文时，所述标签表的行字符和列字符按照对应中文句子的字符顺序进行相同设置。

根据本公开的一个或多个实施例，本公开提供的信息获取装置中，所述设置模块，具体用于：

根据本公开的一个或多个实施例，本公开提供的信息获取装置中，对所述标签表的对角线上由所述行字符和所述列字符组成的单元格标注是否具有实体类别标签；以及

根据本公开的一个或多个实施例，本公开提供的信息获取装置中，所述实体关系抽取模型对应的预设的目标函数还包括：

预设的目标函数还包括：

根据本公开的一个或多个实施例，本公开提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开提供的任一所述的信息获取方法。

根据本公开的一个或多个实施例，本公开提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开提供的任一所述的信息获取方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种信息获取方法，其特征在于，包括：

设置与样本集合中每个样本句子对应的标签表，其中，所述标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签，包括：

4.根据权利要求3所述的方法，其特征在于，所述对标签表中由所述行字符和所述列字符组成的各单元格标注是否具有实体类别标签或关系类别标签，包括：

5.根据权利要求3所述的方法，其特征在于，所述实体关系抽取模型对应的预设的目标函数包括：

6.根据权利要求5所述的方法，其特征在于，所述实体关系抽取模型对应的预设的目标函数还包括：

7.根据权利要求6所述的方法，其特征在于，所述实体关系抽取模型对应的预设的目标函数还包括：

8.根据权利要求3所述的方法，其特征在于，所述根据训练后的模型参数生成实体关系抽取模型，以根据所述实体关系抽取模型提取目标句子实体以及实体之间的关系，包括：

9.一种信息获取装置，其特征在于，包括：

设置模块，用于设置与样本集合中每个样本句子对应的标签表，其中，所述标签表的行字符和列字符按照对应样本句子的字符顺序进行相同设置，以及对所述标签表中由所述行字符和所述列字符组成的各单元格标注对应的信息类别标签；

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8中任一所述的信息获取方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8中任一所述的信息获取方法。