CN116127974A

CN116127974A - 一种面向雷达的实体关系联合抽取方法

Info

Publication number: CN116127974A
Application number: CN202310006802.2A
Authority: CN
Inventors: 王丽军; 徐晶; 徐杰; 何欢; 冯渝荏; 贺媛媛; 旷生玉; 李高云
Original assignee: University of Electronic Science and Technology of China; CETC 29 Research Institute
Current assignee: University of Electronic Science and Technology of China; CETC 29 Research Institute
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-05-16

Abstract

本发明公开了一种面向雷达的实体关系联合抽取方法，先对雷达文本语料进行中文分词和进行向量化处理，然后基于词向量获取雷达文本语料中的实体个数及单个实体的起/止位置，并计算出计算各个实体的实体向量；接着计算任意两实体间的关系向量以及基于注意力权重的关系向量，通过将两个关系向量拼接后输入至全连接神经网络，最后通过全连接神经网络抽取实体关系，这样从雷达领域样本语料中快速抽取关于雷达特征的实体关系。

Description

一种面向雷达的实体关系联合抽取方法

技术领域

本发明属于雷达领域技术领域，更为具体地讲，涉及一种面向雷达的实体关系联合抽取方法。

背景技术

随着现代社会计算机技术的快速发展，加之人工智能技术及知识图谱技术的广泛使用，传统的依据某些已知参数人工判断可能的雷达型号缺乏理论依据，往往依赖于专家的潜在判断规则，具有一定的局限性，难以满足提升工作效率，提高判断准确性的要求。

现有的雷达种类层出不穷，更新换代快，雷达参数变化多样。基于部分观测参数，依赖专家经验的人工预测雷达型号的方法存在瓶颈，在大数据时代有广阔的提升空间。

实体抽取与关系抽取任务是自然语言处理与知识图谱人工智能技术的交汇任务，其任务目标为从非结构化的文本数据中，自动抽取出三元组知识，即<实体-关系-实体>或<实体-属性-属性值>形式的数据。该任务提取的固定格式的高质量的数据，是构建雷达领域知识库的关键组成部分。同时数据的准确率将直接影响下游任务的准确率，所以实体抽取与关系抽取是具体应用前的关键一环。

当前雷达领域知识库大多依赖人工构建，规模不足以支撑基于人工智能的下游任务，难以从大数据中提取关键信息。研究面向雷达领域的实体抽取与关系抽取技术，能直接引导该任务向大数据时代靠近，以自动化的方式构建雷达领域知识库，在保证知识抽取效率的同时也有可靠的数据质量支撑，是展开下游任务的关键所在。

发明内容

本发明的目的在于克服现有技术的不足，提供一种面向雷达的实体关系联合抽取方法，从雷达领域样本语料中快速抽取关于雷达特征的实体关系。

为实现上述发明目的，本发明面向雷达的实体关系联合抽取方法，其特征在于，包括以下步骤：

(1)、对雷达文本语料进行中文分词操作，再根据训练库FastText中的中文词向量对中文词进行向量化操作，得到雷达文本语料对应的向量

其中，

表示第k个中文词的向量表示，w表示向量维度，K表示雷达文本语料分词操作后得到中文词的数量；

(2)、获取雷达文本语料中的实体个数及单个实体的起/止位置；

(2.1)、将向量

输入至Transformer模型，通过Transformer模型中的编码器提取结合上下文信息的向量

表示第k个中文词结合上下文信息后的向量表示；

(2.2)、设置两个并行的全连接神经网络，其中，第一个全连接神经网络用于判断实体的起始位置，另一个全连接神经网络用于判断实体的结束位置；

将向量

同时输入至两个并行的全连接神经网络，通过全连接神经网络输出一串由“0”或“1”组成的序列，其中，“1”表示实体的起/止位置，“0”表示不是实体的起/止位置；

在第一个全连接神经网络输出的序列中，标记所有“1”所在位置为实体的起位置，第二个全连接神经网络输出的序列中，标记所有“1”所在位置为实体的止位置，然后统计实体个数；

最后，按照就近原则，将第一串序列中第一次出现“1”位置与第二串序列中第一次出现“1”位置作为第一个实体的起/止位置，然后以此类推；

(3)、计算各个实体的实体向量；

根据各个实体的起/止位置，对于单个中文词组成的实体，将中文词结合了上下文信息后的向量表示实体向量；对于多个中文词组成的实体，将多个中文词对应的向量相加后归一化，作为实体的实体向量；

(4)、计算任意两实体间的关系向量；

随机选取两个实体，一个记为头实体，对应的实体向量记为h^w，令一个记为尾实体，对应的实体向量记为t^w；

利用尾实体向量t^w减去头实体向量h^w，得到实体间的关系向量r^w；

(5)、计算任意两实体间基于注意力权重的关系向量；

其中，Attention_i表示第i个中文词的注意力权重，

表示第i个中文词结合上下文信息后的向量表示，m表示两实体间中文词的个数，

两实体间基于注意力权重的关系向量；

(6)、抽取实体关系；

(6.1)、将关系向量

拼接关系向量r^w之后，得到一个2w维的关系向量R^2w；

(6.2)、将关系向量R^2w输入至维度为2w，隐藏层维度为p，输出维度为n的全连接神经网络，从而得到n个概率值，然后利用Softmax函数取最高概率对应的关系作为实体对之间的关系。

本发明的发明目的是这样实现的：

本发明面向雷达的实体关系联合抽取方法，先对雷达文本语料进行中文分词和进行向量化处理，然后基于词向量获取雷达文本语料中的实体个数及单个实体的起/止位置，并计算出计算各个实体的实体向量；接着计算任意两实体间的关系向量以及基于注意力权重的关系向量，通过将两个关系向量拼接后输入至全连接神经网络，最后通过全连接神经网络抽取实体关系。

同时，本发明面向雷达的实体关系联合抽取方法还具有以下有益效果：

(1)、本发明提供的一种面向雷达的实体关系联合抽取方法，能够有效处理实体重叠问题，与传统的先抽取实体，后抽取关系的抽取方法相比，利用了两者任务的交互关系与内在联系，缓解了两个独立任务的误差累积与传递。

(2)、本发明提供的一种面向雷达的实体关系联合抽取方法，提出了一种基于TransE模型的关系特征提取方法。该方法通过建模将关系表示为两实体向量相减，有效提取了实体对之间的关系特征。

(3)、本发明提供的一种面向雷达的实体关系联合抽取方法，提出了一种基于注意力机制的关系特征提取方法。该方法利用实体对之间的关系与两实体之间的文本有关这一特点，通过判断实体之间的中文词汇与头尾实体的相似度，赋予词汇一定的关系权重，该权重与其对应的词向量相乘并累积，从而提取实体对之间的关系特征，在一定程度上提高了雷达领域实体关系联合抽取的准确性。

附图说明

图1是本发明一种面向雷达的实体关系联合抽取方法流程图；

图2是实体起止位置示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种面向雷达的实体关系联合抽取方法流程图。

在本实施例中，如图1所示，本发明一种面向雷达的实体关系联合抽取方法，包括以下步骤：

S1、对雷达文本语料进行中文分词操作，再根据训练库FastText中的中文词向量对中文词进行向量化操作，得到雷达文本语料对应的向量

其中，

表示第k个中文词的向量表示，w表示向量维度，K表示雷达文本语料分词操作后得到中文词的数量，在本实施例中，初始化为w＝300维的字向量；

在本实施例中，以雷达文本语料“AN/SPS-64系列雷达由雷神公司研制，常用工作频段为I波段”为例：由于雷达文本语料为非结构化的文本字段，在输入模型前，首先需要进行分词操作，分词完成后，原语句被处理为：“AN/SPS-64”、“系列”、“雷达”、“由”、“雷神”、“公司”、“研制”、“，”、“常用”、“工作”、“频段”、“为”、“I”、“波段”共14个词。

随后，通过FastText中文词向量库将文本字词映射成对应的300维大小的字词向量，而对于不在FastText库中的字词，则随机初始化为300维的字向量。最终样本语料中每个词对应生成300维的词向量，表示为

S2、获取雷达文本语料中的实体个数及单个实体的起/止位置；

S2.1、将词向量

在本实施例中，词向量

经过Transformer模型的交互后，提取了样本语料中的单词与上下文间的信息，有利于提高实体起止位置的预测准确率。

S2.2、设置两个并行的全连接神经网络，输入维度与词向量维度相同，均为300维，隐藏层维度为512维，输出维度与词向量的个数相同，本实施例为14维；其中，第一个全连接神经网络用于判断实体的起始位置，另一个全连接神经网络用于判断实体的结束位置；

将向量

在本实施例中，如图2所示，两个并行的全连接神经网络分别输出的序列为：“1、0、0、0、1、0、0、0、0、0、0、0、1、0”与“1、0、0、0、0、1、0、0、0、0、0、0、0、1”。其中，第一个序列表示位置1、位置5、位置13的字词，即“AN/SPS-64”、“雷神”、“I”，对应实体的起始位置。第二个序列表示位置1、位置6、位置14的字词，即“AN/SPS-64”、“公司”、“波段”，对应实体的结束位置。由于实体的结束位置后于实体的起始位置，对起始位置向后匹配，对结束位置向前匹配，对两个全连接神经网络的输出处理后，得到3个可能的实体：“AN/SPS-64”、“雷神公司”、“I波段”。

S3、计算各个实体的实体向量；

根据各个实体的起/止位置，对于单个中文词组成的实体，将中文词结合了上下文信息后的向量表示实体向量，例如，在两串二进制序列中，位置1所在的单词构成了一个实体，那么对应的实体向量为

对于多个中文词组成的实体，将多个中文词对应的向量相加后归一化，作为实体的实体向量。例如位置5与位置6所在的两个中文词构成了一个实体，则对应的实体向量需要先将

和

相加，再归一化处理，从而得到该实体的实体向量；

S4、计算任意两实体间的关系向量；

基于TransE模型的思想，对于关系三元组<头实体-关系-尾实体>，关系可由两个实体的向量差值表示，即“头实体向量+关系向量＝尾实体向量”；随机选取两个实体，一个记为头实体，对应的实体向量记为h^w，令一个记为尾实体，对应的实体向量记为t^w；

因此基于上述关系三元组，我们利用尾实体向量t^w减去头实体向量h^w，得到实体间的关系向量r^w；

S5、计算任意两实体间基于注意力权重的关系向量；

其中，Attention_i表示第i个中文词的注意力权重，dot( )表示点乘，

两实体间基于注意力权重的关系向量；

在本实施例中，以“AN/SPS-64,雷神公司”实体对为例，两个实体及实体之间字词所对应的向量

其中，h³⁰⁰表示实体“AN/SPS-64”对应的实体向量，t³⁰⁰表示实体“雷神公司”对应的实体向量，

分别表示两个实体对之间的单词“系列”、“雷达”、“由”对应的向量。

S6、抽取实体关系；

S6.1、将关系向量

拼接关系向量r^w之后，得到一个2w维的关系向量R^2w；

S6.2、将关系向量R^2w输入至维度为2w，隐藏层维度为p，输出维度为n的全连接神经网络，从而得到n个概率值，然后利用Softmax函数取最高概率对应的关系作为实体对之间的关系。

在本实施例中，全连接神经网络的输入维度词向量维度的2倍为600，隐藏层维度为1024，输出维度根据实际雷达文本语料的需要进行设置，通常情况下，当设置实体关系种类为d时，对应的输出维度为d+1；在本实施例，根据雷达文本语料设立了8种刻画雷达实体不同特征的实体标签，分别为：“雷达型号”、“功能”、“国家”、“研制单位”、“雷达体制”、“工作频段”、“重复频率”、“脉冲宽度”。设立了7种描述实体对之间的关系，分别为：“雷达型号-用途-功能”、“雷达型号-隶属于-国家”、“雷达型号-研制于-研制单位”、“雷达型号-雷达体制-雷达体制”、“雷达型号-工作频段-工作频段”、“雷达型号-重复频率-重复频率”、“雷达型号-脉冲宽度-脉冲宽度”。那么全连接神经网络的输出维度为8。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。