CN116127974A - 一种面向雷达的实体关系联合抽取方法 - Google Patents
一种面向雷达的实体关系联合抽取方法 Download PDFInfo
- Publication number
- CN116127974A CN116127974A CN202310006802.2A CN202310006802A CN116127974A CN 116127974 A CN116127974 A CN 116127974A CN 202310006802 A CN202310006802 A CN 202310006802A CN 116127974 A CN116127974 A CN 116127974A
- Authority
- CN
- China
- Prior art keywords
- entity
- vector
- entities
- radar
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 116
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 240000002989 Euphorbia neriifolia Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Radar Systems Or Details Thereof (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向雷达的实体关系联合抽取方法,先对雷达文本语料进行中文分词和进行向量化处理,然后基于词向量获取雷达文本语料中的实体个数及单个实体的起/止位置,并计算出计算各个实体的实体向量;接着计算任意两实体间的关系向量以及基于注意力权重的关系向量,通过将两个关系向量拼接后输入至全连接神经网络,最后通过全连接神经网络抽取实体关系,这样从雷达领域样本语料中快速抽取关于雷达特征的实体关系。
Description
技术领域
本发明属于雷达领域技术领域,更为具体地讲,涉及一种面向雷达的实体关系联合抽取方法。
背景技术
随着现代社会计算机技术的快速发展,加之人工智能技术及知识图谱技术的广泛使用,传统的依据某些已知参数人工判断可能的雷达型号缺乏理论依据,往往依赖于专家的潜在判断规则,具有一定的局限性,难以满足提升工作效率,提高判断准确性的要求。
现有的雷达种类层出不穷,更新换代快,雷达参数变化多样。基于部分观测参数,依赖专家经验的人工预测雷达型号的方法存在瓶颈,在大数据时代有广阔的提升空间。
实体抽取与关系抽取任务是自然语言处理与知识图谱人工智能技术的交汇任务,其任务目标为从非结构化的文本数据中,自动抽取出三元组知识,即<实体-关系-实体>或<实体-属性-属性值>形式的数据。该任务提取的固定格式的高质量的数据,是构建雷达领域知识库的关键组成部分。同时数据的准确率将直接影响下游任务的准确率,所以实体抽取与关系抽取是具体应用前的关键一环。
当前雷达领域知识库大多依赖人工构建,规模不足以支撑基于人工智能的下游任务,难以从大数据中提取关键信息。研究面向雷达领域的实体抽取与关系抽取技术,能直接引导该任务向大数据时代靠近,以自动化的方式构建雷达领域知识库,在保证知识抽取效率的同时也有可靠的数据质量支撑,是展开下游任务的关键所在。
发明内容
本发明的目的在于克服现有技术的不足,提供一种面向雷达的实体关系联合抽取方法,从雷达领域样本语料中快速抽取关于雷达特征的实体关系。
为实现上述发明目的,本发明面向雷达的实体关系联合抽取方法,其特征在于,包括以下步骤:
(1)、对雷达文本语料进行中文分词操作,再根据训练库FastText中的中文词向量对中文词进行向量化操作,得到雷达文本语料对应的向量其中,表示第k个中文词的向量表示,w表示向量维度,K表示雷达文本语料分词操作后得到中文词的数量;
(2)、获取雷达文本语料中的实体个数及单个实体的起/止位置;
(2.2)、设置两个并行的全连接神经网络,其中,第一个全连接神经网络用于判断实体的起始位置,另一个全连接神经网络用于判断实体的结束位置;
在第一个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的起位置,第二个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的止位置,然后统计实体个数;
最后,按照就近原则,将第一串序列中第一次出现“1”位置与第二串序列中第一次出现“1”位置作为第一个实体的起/止位置,然后以此类推;
(3)、计算各个实体的实体向量;
根据各个实体的起/止位置,对于单个中文词组成的实体,将中文词结合了上下文信息后的向量表示实体向量;对于多个中文词组成的实体,将多个中文词对应的向量相加后归一化,作为实体的实体向量;
(4)、计算任意两实体间的关系向量;
随机选取两个实体,一个记为头实体,对应的实体向量记为hw,令一个记为尾实体,对应的实体向量记为tw;
利用尾实体向量tw减去头实体向量hw,得到实体间的关系向量rw;
(5)、计算任意两实体间基于注意力权重的关系向量;
(6)、抽取实体关系;
(6.2)、将关系向量R2w输入至维度为2w,隐藏层维度为p,输出维度为n的全连接神经网络,从而得到n个概率值,然后利用Softmax函数取最高概率对应的关系作为实体对之间的关系。
本发明的发明目的是这样实现的:
本发明面向雷达的实体关系联合抽取方法,先对雷达文本语料进行中文分词和进行向量化处理,然后基于词向量获取雷达文本语料中的实体个数及单个实体的起/止位置,并计算出计算各个实体的实体向量;接着计算任意两实体间的关系向量以及基于注意力权重的关系向量,通过将两个关系向量拼接后输入至全连接神经网络,最后通过全连接神经网络抽取实体关系。
同时,本发明面向雷达的实体关系联合抽取方法还具有以下有益效果:
(1)、本发明提供的一种面向雷达的实体关系联合抽取方法,能够有效处理实体重叠问题,与传统的先抽取实体,后抽取关系的抽取方法相比,利用了两者任务的交互关系与内在联系,缓解了两个独立任务的误差累积与传递。
(2)、本发明提供的一种面向雷达的实体关系联合抽取方法,提出了一种基于TransE模型的关系特征提取方法。该方法通过建模将关系表示为两实体向量相减,有效提取了实体对之间的关系特征。
(3)、本发明提供的一种面向雷达的实体关系联合抽取方法,提出了一种基于注意力机制的关系特征提取方法。该方法利用实体对之间的关系与两实体之间的文本有关这一特点,通过判断实体之间的中文词汇与头尾实体的相似度,赋予词汇一定的关系权重,该权重与其对应的词向量相乘并累积,从而提取实体对之间的关系特征,在一定程度上提高了雷达领域实体关系联合抽取的准确性。
附图说明
图1是本发明一种面向雷达的实体关系联合抽取方法流程图;
图2是实体起止位置示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种面向雷达的实体关系联合抽取方法流程图。
在本实施例中,如图1所示,本发明一种面向雷达的实体关系联合抽取方法,包括以下步骤:
S1、对雷达文本语料进行中文分词操作,再根据训练库FastText中的中文词向量对中文词进行向量化操作,得到雷达文本语料对应的向量其中,表示第k个中文词的向量表示,w表示向量维度,K表示雷达文本语料分词操作后得到中文词的数量,在本实施例中,初始化为w=300维的字向量;
在本实施例中,以雷达文本语料“AN/SPS-64系列雷达由雷神公司研制,常用工作频段为I波段”为例:由于雷达文本语料为非结构化的文本字段,在输入模型前,首先需要进行分词操作,分词完成后,原语句被处理为:“AN/SPS-64”、“系列”、“雷达”、“由”、“雷神”、“公司”、“研制”、“,”、“常用”、“工作”、“频段”、“为”、“I”、“波段”共14个词。
随后,通过FastText中文词向量库将文本字词映射成对应的300维大小的字词向量,而对于不在FastText库中的字词,则随机初始化为300维的字向量。最终样本语料中每个词对应生成300维的词向量,表示为
S2、获取雷达文本语料中的实体个数及单个实体的起/止位置;
S2.2、设置两个并行的全连接神经网络,输入维度与词向量维度相同,均为300维,隐藏层维度为512维,输出维度与词向量的个数相同,本实施例为14维;其中,第一个全连接神经网络用于判断实体的起始位置,另一个全连接神经网络用于判断实体的结束位置;
在第一个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的起位置,第二个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的止位置,然后统计实体个数;
最后,按照就近原则,将第一串序列中第一次出现“1”位置与第二串序列中第一次出现“1”位置作为第一个实体的起/止位置,然后以此类推;
在本实施例中,如图2所示,两个并行的全连接神经网络分别输出的序列为:“1、0、0、0、1、0、0、0、0、0、0、0、1、0”与“1、0、0、0、0、1、0、0、0、0、0、0、0、1”。其中,第一个序列表示位置1、位置5、位置13的字词,即“AN/SPS-64”、“雷神”、“I”,对应实体的起始位置。第二个序列表示位置1、位置6、位置14的字词,即“AN/SPS-64”、“公司”、“波段”,对应实体的结束位置。由于实体的结束位置后于实体的起始位置,对起始位置向后匹配,对结束位置向前匹配,对两个全连接神经网络的输出处理后,得到3个可能的实体:“AN/SPS-64”、“雷神公司”、“I波段”。
S3、计算各个实体的实体向量;
根据各个实体的起/止位置,对于单个中文词组成的实体,将中文词结合了上下文信息后的向量表示实体向量,例如,在两串二进制序列中,位置1所在的单词构成了一个实体,那么对应的实体向量为对于多个中文词组成的实体,将多个中文词对应的向量相加后归一化,作为实体的实体向量。例如位置5与位置6所在的两个中文词构成了一个实体,则对应的实体向量需要先将和相加,再归一化处理,从而得到该实体的实体向量;
S4、计算任意两实体间的关系向量;
基于TransE模型的思想,对于关系三元组<头实体-关系-尾实体>,关系可由两个实体的向量差值表示,即“头实体向量+关系向量=尾实体向量”;随机选取两个实体,一个记为头实体,对应的实体向量记为hw,令一个记为尾实体,对应的实体向量记为tw;
因此基于上述关系三元组,我们利用尾实体向量tw减去头实体向量hw,得到实体间的关系向量rw;
S5、计算任意两实体间基于注意力权重的关系向量;
在本实施例中,以“AN/SPS-64,雷神公司”实体对为例,两个实体及实体之间字词所对应的向量其中,h300表示实体“AN/SPS-64”对应的实体向量,t300表示实体“雷神公司”对应的实体向量,分别表示两个实体对之间的单词“系列”、“雷达”、“由”对应的向量。
S6、抽取实体关系;
S6.2、将关系向量R2w输入至维度为2w,隐藏层维度为p,输出维度为n的全连接神经网络,从而得到n个概率值,然后利用Softmax函数取最高概率对应的关系作为实体对之间的关系。
在本实施例中,全连接神经网络的输入维度词向量维度的2倍为600,隐藏层维度为1024,输出维度根据实际雷达文本语料的需要进行设置,通常情况下,当设置实体关系种类为d时,对应的输出维度为d+1;在本实施例,根据雷达文本语料设立了8种刻画雷达实体不同特征的实体标签,分别为:“雷达型号”、“功能”、“国家”、“研制单位”、“雷达体制”、“工作频段”、“重复频率”、“脉冲宽度”。设立了7种描述实体对之间的关系,分别为:“雷达型号-用途-功能”、“雷达型号-隶属于-国家”、“雷达型号-研制于-研制单位”、“雷达型号-雷达体制-雷达体制”、“雷达型号-工作频段-工作频段”、“雷达型号-重复频率-重复频率”、“雷达型号-脉冲宽度-脉冲宽度”。那么全连接神经网络的输出维度为8。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种面向雷达的实体关系联合抽取方法,其特征在于,包括以下步骤:
(1)、对雷达文本语料进行中文分词操作,再根据训练库FastText中的中文词向量对中文词进行向量化操作,得到雷达文本语料对应的向量其中,表示第k个中文词的向量表示,w表示向量维度,K表示雷达文本语料分词操作后得到中文词的数量;
(2)、获取雷达文本语料中的实体个数及单个实体的起/止位置;
(2.2)、设置两个并行的全连接神经网络,其中,第一个全连接神经网络用于判断实体的起始位置,另一个全连接神经网络用于判断实体的结束位置;
在第一个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的起位置,第二个全连接神经网络输出的序列中,标记所有“1”所在位置为实体的止位置,然后统计实体个数;
最后,按照就近原则,将第一串序列中第一次出现“1”位置与第二串序列中第一次出现“1”位置作为第一个实体的起/止位置,然后以此类推;
(3)、计算各个实体的实体向量;
根据各个实体的起/止位置,对于单个中文词组成的实体,将中文词结合了上下文信息后的向量表示实体向量;对于多个中文词组成的实体,将多个中文词对应的向量相加后归一化,作为实体的实体向量;
(4)、计算任意两实体间的关系向量;
随机选取两个实体,一个记为头实体,对应的实体向量记为hw,令一个记为尾实体,对应的实体向量记为tw;
利用尾实体向量tw减去头实体向量hw,得到实体间的关系向量rw;
(5)、计算任意两实体间基于注意力权重的关系向量;
(6)、抽取实体关系;
(6.2)、将关系向量R2w输入至维度为2w,隐藏层维度为p,输出维度为n的全连接神经网络,从而得到n个概率值,然后利用Softmax函数取最高概率对应的关系作为实体对之间的关系。
2.根据权利要求1所述的面向雷达的实体关系联合抽取方法,其特征在于,所述向量维度w为300。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310006802.2A CN116127974A (zh) | 2023-01-04 | 2023-01-04 | 一种面向雷达的实体关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310006802.2A CN116127974A (zh) | 2023-01-04 | 2023-01-04 | 一种面向雷达的实体关系联合抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127974A true CN116127974A (zh) | 2023-05-16 |
Family
ID=86311146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310006802.2A Pending CN116127974A (zh) | 2023-01-04 | 2023-01-04 | 一种面向雷达的实体关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127974A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117233723A (zh) * | 2023-11-14 | 2023-12-15 | 中国电子科技集团公司第二十九研究所 | 一种基于cnn类激活图的雷达跟踪包络提取方法 |
-
2023
- 2023-01-04 CN CN202310006802.2A patent/CN116127974A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117233723A (zh) * | 2023-11-14 | 2023-12-15 | 中国电子科技集团公司第二十九研究所 | 一种基于cnn类激活图的雷达跟踪包络提取方法 |
CN117233723B (zh) * | 2023-11-14 | 2024-01-30 | 中国电子科技集团公司第二十九研究所 | 一种基于cnn类激活图的雷达跟踪包络提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN108388651B (zh) | 一种基于图核和卷积神经网络的文本分类方法 | |
CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN110134944A (zh) | 一种基于强化学习的指代消解方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN110134946A (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN111914555B (zh) | 基于Transformer结构的自动化关系抽取系统 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN115545041B (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN116127974A (zh) | 一种面向雷达的实体关系联合抽取方法 | |
CN110610006A (zh) | 基于笔画和字形的形态学双通道中文词嵌入方法 | |
CN117725999A (zh) | 一种基于提示学习和外部知识嵌入的关系抽取方法 | |
CN117611005A (zh) | 客服服务质量的评估方法、装置、设备及存储介质 | |
CN113268989A (zh) | 多音字处理方法及装置 | |
CN117556005A (zh) | 质量评估模型的训练方法、多轮对话质量评估方法和装置 | |
CN110705277A (zh) | 一种基于循环神经网络的中文词义消岐方法 | |
CN115759081A (zh) | 一种基于短语相似度的攻击模式抽取方法 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN113705194B (zh) | 简称抽取方法及电子设备 | |
CN110472243B (zh) | 一种中文拼写检查方法 | |
CN113761874A (zh) | 事件事实性预测方法、装置、电子设备与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |