CN116127974A - 一种面向雷达的实体关系联合抽取方法 - Google Patents

一种面向雷达的实体关系联合抽取方法 Download PDF

Info

Publication number
CN116127974A
CN116127974A CN202310006802.2A CN202310006802A CN116127974A CN 116127974 A CN116127974 A CN 116127974A CN 202310006802 A CN202310006802 A CN 202310006802A CN 116127974 A CN116127974 A CN 116127974A
Authority
CN
China
Prior art keywords
entity
vector
entities
radar
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310006802.2A
Other languages
English (en)
Inventor
王丽军
徐晶
徐杰
何欢
冯渝荏
贺媛媛
旷生玉
李高云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
CETC 29 Research Institute
Original Assignee
University of Electronic Science and Technology of China
CETC 29 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China, CETC 29 Research Institute filed Critical University of Electronic Science and Technology of China
Priority to CN202310006802.2A priority Critical patent/CN116127974A/zh
Publication of CN116127974A publication Critical patent/CN116127974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向雷达的实体关系联合抽取方法,先对雷达文本语料进行中文分词和进行向量化处理,然后基于词向量获取雷达文本语料中的实体个数及单个实体的起/止位置,并计算出计算各个实体的实体向量;接着计算任意两实体间的关系向量以及基于注意力权重的关系向量,通过将两个关系向量拼接后输入至全连接神经网络,最后通过全连接神经网络抽取实体关系,这样从雷达领域样本语料中快速抽取关于雷达特征的实体关系。

Description

一种面向雷达的实体关系联合抽取方法
技术领域
本发明属于雷达领域技术领域,更为具体地讲,涉及一种面向雷达的实体关系联合抽取方法。
背景技术
随着现代社会计算机技术的快速发展,加之人工智能技术及知识图谱技术的广泛使用,传统的依据某些已知参数人工判断可能的雷达型号缺乏理论依据,往往依赖于专家的潜在判断规则,具有一定的局限性,难以满足提升工作效率,提高判断准确性的要求。
现有的雷达种类层出不穷,更新换代快,雷达参数变化多样。基于部分观测参数,依赖专家经验的人工预测雷达型号的方法存在瓶颈,在大数据时代有广阔的提升空间。
实体抽取与关系抽取任务是自然语言处理与知识图谱人工智能技术的交汇任务,其任务目标为从非结构化的文本数据中,自动抽取出三元组知识,即<实体-关系-实体>或<实体-属性-属性值>形式的数据。该任务提取的固定格式的高质量的数据,是构建雷达领域知识库的关键组成部分。同时数据的准确率将直接影响下游任务的准确率,所以实体抽取与关系抽取是具体应用前的关键一环。
当前雷达领域知识库大多依赖人工构建,规模不足以支撑基于人工智能的下游任务,难以从大数据中提取关键信息。研究面向雷达领域的实体抽取与关系抽取技术,能直接引导该任务向大数据时代靠近,以自动化的方式构建雷达领域知识库,在保证知识抽取效率的同时也有可靠的数据质量支撑,是展开下游任务的关键所在。
发明内容
本发明的目的在于克服现有技术的不足,提供一种面向雷达的实体关系联合抽取方法,从雷达领域样本语料中快速抽取关于雷达特征的实体关系。
为实现上述发明目的,本发明面向雷达的实体关系联合抽取方法,其特征在于,包括以下步骤:
(1)、对雷达文本语料进行中文分词操作,再根据训练库FastText中的中文词向量对中文词进行向量化操作,得到雷达文本语料对应的向量
Figure BDA0004037288440000021
其中,
Figure BDA0004037288440000022
表示第k个中文词的向量表示,w表示向量维度,K表示雷达文本语料分词操作后得到中文词的数量;
(2)、获取雷达文本语料中的实体个数及单个实体的起/止位置;
(2.1)、将向量
Figure BDA0004037288440000023
输入至Transformer模型,通过Transformer模型中的编码器提取结合上下文信息的向量
Figure BDA0004037288440000024
Figure BDA0004037288440000025
表示第k个中文词结合上下文信息后的向量表示;
(2.2)、设置两个并行的全连接神经网络,其中,第一个全连接神经网络用于判断实体的起始位置,另一个全连接神经网络用于判断实体的结束位置;
将向量
Figure BDA0004037288440000026
同时输入至两个并行的全连接神经网络,通过全连接神经网络输出一串由“0”或“1”组成的序列,其中,“1”表示实体的起/止位置,“0”表示不是实体的起/止位置;
在第一个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的起位置,第二个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的止位置,然后统计实体个数;
最后,按照就近原则,将第一串序列中第一次出现“1”位置与第二串序列中第一次出现“1”位置作为第一个实体的起/止位置,然后以此类推;
(3)、计算各个实体的实体向量;
根据各个实体的起/止位置,对于单个中文词组成的实体,将中文词结合了上下文信息后的向量表示实体向量;对于多个中文词组成的实体,将多个中文词对应的向量相加后归一化,作为实体的实体向量;
(4)、计算任意两实体间的关系向量;
随机选取两个实体,一个记为头实体,对应的实体向量记为hw,令一个记为尾实体,对应的实体向量记为tw
利用尾实体向量tw减去头实体向量hw,得到实体间的关系向量rw
(5)、计算任意两实体间基于注意力权重的关系向量;
Figure BDA0004037288440000031
Figure BDA0004037288440000032
其中,Attentioni表示第i个中文词的注意力权重,
Figure BDA0004037288440000033
表示第i个中文词结合上下文信息后的向量表示,m表示两实体间中文词的个数,
Figure BDA0004037288440000034
两实体间基于注意力权重的关系向量;
(6)、抽取实体关系;
(6.1)、将关系向量
Figure BDA0004037288440000035
拼接关系向量rw之后,得到一个2w维的关系向量R2w
(6.2)、将关系向量R2w输入至维度为2w,隐藏层维度为p,输出维度为n的全连接神经网络,从而得到n个概率值,然后利用Softmax函数取最高概率对应的关系作为实体对之间的关系。
本发明的发明目的是这样实现的:
本发明面向雷达的实体关系联合抽取方法,先对雷达文本语料进行中文分词和进行向量化处理,然后基于词向量获取雷达文本语料中的实体个数及单个实体的起/止位置,并计算出计算各个实体的实体向量;接着计算任意两实体间的关系向量以及基于注意力权重的关系向量,通过将两个关系向量拼接后输入至全连接神经网络,最后通过全连接神经网络抽取实体关系。
同时,本发明面向雷达的实体关系联合抽取方法还具有以下有益效果:
(1)、本发明提供的一种面向雷达的实体关系联合抽取方法,能够有效处理实体重叠问题,与传统的先抽取实体,后抽取关系的抽取方法相比,利用了两者任务的交互关系与内在联系,缓解了两个独立任务的误差累积与传递。
(2)、本发明提供的一种面向雷达的实体关系联合抽取方法,提出了一种基于TransE模型的关系特征提取方法。该方法通过建模将关系表示为两实体向量相减,有效提取了实体对之间的关系特征。
(3)、本发明提供的一种面向雷达的实体关系联合抽取方法,提出了一种基于注意力机制的关系特征提取方法。该方法利用实体对之间的关系与两实体之间的文本有关这一特点,通过判断实体之间的中文词汇与头尾实体的相似度,赋予词汇一定的关系权重,该权重与其对应的词向量相乘并累积,从而提取实体对之间的关系特征,在一定程度上提高了雷达领域实体关系联合抽取的准确性。
附图说明
图1是本发明一种面向雷达的实体关系联合抽取方法流程图;
图2是实体起止位置示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种面向雷达的实体关系联合抽取方法流程图。
在本实施例中,如图1所示,本发明一种面向雷达的实体关系联合抽取方法,包括以下步骤:
S1、对雷达文本语料进行中文分词操作,再根据训练库FastText中的中文词向量对中文词进行向量化操作,得到雷达文本语料对应的向量
Figure BDA0004037288440000041
其中,
Figure BDA0004037288440000042
表示第k个中文词的向量表示,w表示向量维度,K表示雷达文本语料分词操作后得到中文词的数量,在本实施例中,初始化为w=300维的字向量;
在本实施例中,以雷达文本语料“AN/SPS-64系列雷达由雷神公司研制,常用工作频段为I波段”为例:由于雷达文本语料为非结构化的文本字段,在输入模型前,首先需要进行分词操作,分词完成后,原语句被处理为:“AN/SPS-64”、“系列”、“雷达”、“由”、“雷神”、“公司”、“研制”、“,”、“常用”、“工作”、“频段”、“为”、“I”、“波段”共14个词。
随后,通过FastText中文词向量库将文本字词映射成对应的300维大小的字词向量,而对于不在FastText库中的字词,则随机初始化为300维的字向量。最终样本语料中每个词对应生成300维的词向量,表示为
Figure BDA0004037288440000043
S2、获取雷达文本语料中的实体个数及单个实体的起/止位置;
S2.1、将词向量
Figure BDA0004037288440000051
输入至Transformer模型,通过Transformer模型中的编码器提取结合上下文信息的向量
Figure BDA0004037288440000052
在本实施例中,词向量
Figure BDA0004037288440000053
经过Transformer模型的交互后,提取了样本语料中的单词与上下文间的信息,有利于提高实体起止位置的预测准确率。
S2.2、设置两个并行的全连接神经网络,输入维度与词向量维度相同,均为300维,隐藏层维度为512维,输出维度与词向量的个数相同,本实施例为14维;其中,第一个全连接神经网络用于判断实体的起始位置,另一个全连接神经网络用于判断实体的结束位置;
将向量
Figure BDA0004037288440000054
同时输入至两个并行的全连接神经网络,通过全连接神经网络输出一串由“0”或“1”组成的序列,其中,“1”表示实体的起/止位置,“0”表示不是实体的起/止位置;
在第一个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的起位置,第二个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的止位置,然后统计实体个数;
最后,按照就近原则,将第一串序列中第一次出现“1”位置与第二串序列中第一次出现“1”位置作为第一个实体的起/止位置,然后以此类推;
在本实施例中,如图2所示,两个并行的全连接神经网络分别输出的序列为:“1、0、0、0、1、0、0、0、0、0、0、0、1、0”与“1、0、0、0、0、1、0、0、0、0、0、0、0、1”。其中,第一个序列表示位置1、位置5、位置13的字词,即“AN/SPS-64”、“雷神”、“I”,对应实体的起始位置。第二个序列表示位置1、位置6、位置14的字词,即“AN/SPS-64”、“公司”、“波段”,对应实体的结束位置。由于实体的结束位置后于实体的起始位置,对起始位置向后匹配,对结束位置向前匹配,对两个全连接神经网络的输出处理后,得到3个可能的实体:“AN/SPS-64”、“雷神公司”、“I波段”。
S3、计算各个实体的实体向量;
根据各个实体的起/止位置,对于单个中文词组成的实体,将中文词结合了上下文信息后的向量表示实体向量,例如,在两串二进制序列中,位置1所在的单词构成了一个实体,那么对应的实体向量为
Figure BDA0004037288440000055
对于多个中文词组成的实体,将多个中文词对应的向量相加后归一化,作为实体的实体向量。例如位置5与位置6所在的两个中文词构成了一个实体,则对应的实体向量需要先将
Figure BDA0004037288440000061
Figure BDA0004037288440000062
相加,再归一化处理,从而得到该实体的实体向量;
S4、计算任意两实体间的关系向量;
基于TransE模型的思想,对于关系三元组<头实体-关系-尾实体>,关系可由两个实体的向量差值表示,即“头实体向量+关系向量=尾实体向量”;随机选取两个实体,一个记为头实体,对应的实体向量记为hw,令一个记为尾实体,对应的实体向量记为tw
因此基于上述关系三元组,我们利用尾实体向量tw减去头实体向量hw,得到实体间的关系向量rw
S5、计算任意两实体间基于注意力权重的关系向量;
Figure BDA0004037288440000063
Figure BDA0004037288440000064
其中,Attentioni表示第i个中文词的注意力权重,dot( )表示点乘,
Figure BDA0004037288440000065
表示第i个中文词结合上下文信息后的向量表示,m表示两实体间中文词的个数,
Figure BDA0004037288440000066
两实体间基于注意力权重的关系向量;
在本实施例中,以“AN/SPS-64,雷神公司”实体对为例,两个实体及实体之间字词所对应的向量
Figure BDA0004037288440000067
其中,h300表示实体“AN/SPS-64”对应的实体向量,t300表示实体“雷神公司”对应的实体向量,
Figure BDA0004037288440000068
分别表示两个实体对之间的单词“系列”、“雷达”、“由”对应的向量。
S6、抽取实体关系;
S6.1、将关系向量
Figure BDA0004037288440000069
拼接关系向量rw之后,得到一个2w维的关系向量R2w
S6.2、将关系向量R2w输入至维度为2w,隐藏层维度为p,输出维度为n的全连接神经网络,从而得到n个概率值,然后利用Softmax函数取最高概率对应的关系作为实体对之间的关系。
在本实施例中,全连接神经网络的输入维度词向量维度的2倍为600,隐藏层维度为1024,输出维度根据实际雷达文本语料的需要进行设置,通常情况下,当设置实体关系种类为d时,对应的输出维度为d+1;在本实施例,根据雷达文本语料设立了8种刻画雷达实体不同特征的实体标签,分别为:“雷达型号”、“功能”、“国家”、“研制单位”、“雷达体制”、“工作频段”、“重复频率”、“脉冲宽度”。设立了7种描述实体对之间的关系,分别为:“雷达型号-用途-功能”、“雷达型号-隶属于-国家”、“雷达型号-研制于-研制单位”、“雷达型号-雷达体制-雷达体制”、“雷达型号-工作频段-工作频段”、“雷达型号-重复频率-重复频率”、“雷达型号-脉冲宽度-脉冲宽度”。那么全连接神经网络的输出维度为8。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种面向雷达的实体关系联合抽取方法,其特征在于,包括以下步骤:
(1)、对雷达文本语料进行中文分词操作,再根据训练库FastText中的中文词向量对中文词进行向量化操作,得到雷达文本语料对应的向量
Figure FDA0004037288430000011
其中,
Figure FDA0004037288430000012
表示第k个中文词的向量表示,w表示向量维度,K表示雷达文本语料分词操作后得到中文词的数量;
(2)、获取雷达文本语料中的实体个数及单个实体的起/止位置;
(2.1)、将向量
Figure FDA0004037288430000013
输入至Transformer模型,通过Transformer模型中的编码器提取结合上下文信息的向量
Figure FDA0004037288430000014
Figure FDA0004037288430000015
表示第k个中文词结合上下文信息后的向量表示;
(2.2)、设置两个并行的全连接神经网络,其中,第一个全连接神经网络用于判断实体的起始位置,另一个全连接神经网络用于判断实体的结束位置;
将向量
Figure FDA0004037288430000016
同时输入至两个并行的全连接神经网络,通过全连接神经网络输出一串由“0”或“1”组成的序列,其中,“1”表示实体的起/止位置,“0”表示不是实体的起/止位置;
在第一个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的起位置,第二个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的止位置,然后统计实体个数;
最后,按照就近原则,将第一串序列中第一次出现“1”位置与第二串序列中第一次出现“1”位置作为第一个实体的起/止位置,然后以此类推;
(3)、计算各个实体的实体向量;
根据各个实体的起/止位置,对于单个中文词组成的实体,将中文词结合了上下文信息后的向量表示实体向量;对于多个中文词组成的实体,将多个中文词对应的向量相加后归一化,作为实体的实体向量;
(4)、计算任意两实体间的关系向量;
随机选取两个实体,一个记为头实体,对应的实体向量记为hw,令一个记为尾实体,对应的实体向量记为tw
利用尾实体向量tw减去头实体向量hw,得到实体间的关系向量rw
(5)、计算任意两实体间基于注意力权重的关系向量;
Figure FDA0004037288430000021
Figure FDA0004037288430000022
其中,Attentioni表示第i个中文词的注意力权重,
Figure FDA0004037288430000023
表示第i个中文词结合上下文信息后的向量表示,m表示两实体间中文词的个数,
Figure FDA0004037288430000024
两实体间基于注意力权重的关系向量;
(6)、抽取实体关系;
(6.1)、将关系向量
Figure FDA0004037288430000025
拼接关系向量rw之后,得到一个2w维的关系向量R2w
(6.2)、将关系向量R2w输入至维度为2w,隐藏层维度为p,输出维度为n的全连接神经网络,从而得到n个概率值,然后利用Softmax函数取最高概率对应的关系作为实体对之间的关系。
2.根据权利要求1所述的面向雷达的实体关系联合抽取方法,其特征在于,所述向量维度w为300。
CN202310006802.2A 2023-01-04 2023-01-04 一种面向雷达的实体关系联合抽取方法 Pending CN116127974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310006802.2A CN116127974A (zh) 2023-01-04 2023-01-04 一种面向雷达的实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310006802.2A CN116127974A (zh) 2023-01-04 2023-01-04 一种面向雷达的实体关系联合抽取方法

Publications (1)

Publication Number Publication Date
CN116127974A true CN116127974A (zh) 2023-05-16

Family

ID=86311146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310006802.2A Pending CN116127974A (zh) 2023-01-04 2023-01-04 一种面向雷达的实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN116127974A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117233723A (zh) * 2023-11-14 2023-12-15 中国电子科技集团公司第二十九研究所 一种基于cnn类激活图的雷达跟踪包络提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117233723A (zh) * 2023-11-14 2023-12-15 中国电子科技集团公司第二十九研究所 一种基于cnn类激活图的雷达跟踪包络提取方法
CN117233723B (zh) * 2023-11-14 2024-01-30 中国电子科技集团公司第二十九研究所 一种基于cnn类激活图的雷达跟踪包络提取方法

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN108388651B (zh) 一种基于图核和卷积神经网络的文本分类方法
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN110134944A (zh) 一种基于强化学习的指代消解方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113127624B (zh) 问答模型的训练方法及装置
CN110134946A (zh) 一种针对复杂数据的机器阅读理解方法
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN116127974A (zh) 一种面向雷达的实体关系联合抽取方法
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN117725999A (zh) 一种基于提示学习和外部知识嵌入的关系抽取方法
CN117611005A (zh) 客服服务质量的评估方法、装置、设备及存储介质
CN113268989A (zh) 多音字处理方法及装置
CN117556005A (zh) 质量评估模型的训练方法、多轮对话质量评估方法和装置
CN110705277A (zh) 一种基于循环神经网络的中文词义消岐方法
CN115759081A (zh) 一种基于短语相似度的攻击模式抽取方法
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN113705194B (zh) 简称抽取方法及电子设备
CN110472243B (zh) 一种中文拼写检查方法
CN113761874A (zh) 事件事实性预测方法、装置、电子设备与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination