CN114764566B - 用于航空领域的知识元抽取方法 - Google Patents
用于航空领域的知识元抽取方法 Download PDFInfo
- Publication number
- CN114764566B CN114764566B CN202210375009.5A CN202210375009A CN114764566B CN 114764566 B CN114764566 B CN 114764566B CN 202210375009 A CN202210375009 A CN 202210375009A CN 114764566 B CN114764566 B CN 114764566B
- Authority
- CN
- China
- Prior art keywords
- entity
- character
- vector
- relation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 127
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 32
- 230000002787 reinforcement Effects 0.000 claims abstract description 31
- 238000010606 normalization Methods 0.000 claims abstract description 11
- 238000005457 optimization Methods 0.000 claims description 24
- 230000007246 mechanism Effects 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 8
- 238000012805 post-processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种用于航空领域的知识元抽取方法,具体实施步骤包括:将航空领域的结构化标注数据输入到Bert模型,输出结构化标注数据的特征向量;将输出的特征向量和Word2Vec模型学习到的特征向量进行融合,并做Concat叠加步骤;将得到的字向量输入到层次归一化层,得到标准化的字向量;利用高层强化学习过程对得到的每个字向量进行解码,按句识别字向量中的关系触发词;建立面向航空领域长实体的头尾指针模型,得到预测出的关系和尾实体起止位置序列;将预测出的实体输出后,根据实体的标签信息进行就近原则以及匹配方式进行匹配。本发明面向航空领域,基于郑码、五笔、拼音和笔画等特征融入的方式,与Bert输出的向量相结合,提升了准确率与召回率。
Description
技术领域
本发明涉及开放关系抽取技术领域,特别涉及一种用于航空领域的知识元抽取方法。
背景技术
信息抽取(IE)是自然语言处理(NLP)的一个重要领域,旨在从非结构化文本中提取结构信息。关系抽取作为信息抽取中一项重要任务,关注实体之间的关系抽取。一个完整的关系抽取系统由一个命名实体识别器组成,用于从文本中识别命名实体(例如人员、组织、位置),一个实体链接器用于将实体链接到现有知识图谱,以及一个关系分类器用于根据给定上下文确定实体之间的关系。
现有的关系抽取技术中,是针对一些关系标注了一份关系抽取数据集之后,来抽取出一些有价值的三元组,如果换一个场景,原先的模型几乎抽取不到三元组,需要重新定义关系类型(schema)并标注数据集,而且这个标注过程相当耗时。
因此,具有通用性的开放关系抽取模型更具有实用价值,开放关系抽取模型无需在新的业务场景标注新的关系类型和数据,可直接抽取三元组经过属性归一和实体对齐形成知识元,知识元代表了一个实体的属性和相应的属性值或关系和相应的关系值,由主实体-关系-尾实体三部分组成的三元组;也可通过统计分析这些三元组的关系词和实体类型初步得到知识体系schema,用于快速构建限定关系抽取的数据标注方案。
此外,有研究显示低频的关系也是有意义的,只要抽取结果是正确的,一个高频的关系和低频的关系的回答方式并没有差异,因此只要能保证开放关系抽取的准确率达到一定水平,相较于限定关系抽取而言则具有不可替代的优势。
现有的针对开放关系抽取的技术大多受限于高质量标注数据的匮乏、模型抽取特征能力不够或生成的关系、难以解决一对多的问题、以及实体匹配问题。然而在实际应用中,高质量的标注数据通常需要花费大量时间,这些技术缺陷导致现有的技术不能很好的满足实际需要。
面对复杂且多样化的航空百科语料,本发明公开一种具有准确率和召回率的开放知识元抽取方法,除了识别文本中主副实体外,由模型自主判断文本中可作为关系的部分,形成三元组。
发明内容
针对现有技术存在的问题,本发明提供一种用于航空领域的知识元抽取方法,利用多特征融合方法,并采用分层强化学习的框架,利用融合Bert与关系位置特征的实体关系抽取方法,通过指针网络对得到的每个字向量进行解码,按句识别字向量中的关系触发词,并配合分层强化学习过程,针对不同的识别结果对模型参数进行不同的参数优化,从而解决了头实体不全以及一个约束对应多个知识元的问题,提高了抽取三元组的召回率和准确率。
本发明提供了一种用于航空领域的知识元抽取方法,具体步骤如下:
S1、模型预训练:将航空领域的结构化标注数据输入到Bert模型,得到微调预训练的Bert模型,并输出结构化标注数据的特征向量
S2、特征融合:将S1输出的特征向量和Word2Vec模型学习到的特征向量进行融合,并做Concat叠加步骤:
S21、利用官方发布的汉字—郑码映射表将非结构化的文本数据依字转换为对应的郑码序列;
S22、利用Word2Vec模型得到每个字的郑码特征向量,所述郑码特征向量的具体表达式为:
p=fzhengma(X) (1)
其中,X表示字符的输入序列,fzhengma表示将输入的非结构化文本数据字符序列映射为郑码序列的函数,p表示根据字符的输入序列映射得到的郑码特征序列,pi表示xi对应的郑码序列,ezhengma表示郑码序列和郑码特征向量序列的映射表,表示与输入序列xi对应的郑码特征向量;
S23、利用Word2Vec模型得到每个字的笔画特征向量,所述笔画特征特征向量的具体表达式为:
p=fbihua(X) (3)
其中,fbihua表示将输入的X字符序列映射为笔画序列的函数,p表示根据输入的X字符序列得到的笔画序列,pi表示输入字符xi对应的笔画序列,ebihua表示笔画序列和笔画特征向量的映射表,表示与输入序列X中的第i个输入字符对应的笔画特征向量;
S24、利用Word2vec模型得到每个字的五笔特征向量向量和拼音特征向量
S25、将S22-S24得到的和/>进行Concat拼接特征处理叠加得到字向量,所述拼接特征处理的具体表达式如下:
其中,分别代表着对BERT、郑码、五笔、拼音和笔画特征向量,k为0.5,/>代表第i个字符对应的融合后向量;
S3、归一化处理:将S2得到的字向量输入到层次归一化层,得到标准化的字向量,随后将标准化的字向量输入BiLSTM模型,得到包含上下文语义信息的字向量,并利用对抗训练进行参数更新;
S4、实体关系预测:利用高层强化学习过程对S3得到的每个字向量进行解码,按句识别字向量中的关系触发词:
S41、对于识别出的不同结果,设定对于整体模型的参数优化机制,若识别出关系触发词,则根据识别出的不同类别的关系实体对高层强化学习过程进行模型参数优化,而后触发低层强化学习过程进行实体识别,对当前关系对应的实体进行解码;
S42、若未识别出关系触发词,则停止解码;
S5、建立面向航空领域长实体的头尾指针模型,通过头指针和尾指针做五分类来识别关系实体的起始位置和结束位置,并利用S4中的参数优化机制,得到预测的关系和尾实体的起止位置序列;
S6、模型后处理:将预测出的实体输出后,根据实体的标签信息进行就近原则以及匹配方式进行匹配:
S61、将预测出的实体以就近原则将识别出的关系实体和尾实体一一配对,得到三元组;
S62、依据LTP依存句法抽取航空领域标注数据中的知识元信息,得到知识元的三元组;
S63、依据关系和尾实体距离抽取航空领域标注数据中的多个知识元信息进行匹配,得到多个知识元的三元组;
S64、抽取航空领域标注数据中知识元混淆的知识元信息:若知识元中关系实体包含尾实体、前一个知识元的尾实体包含下一个知识元的关系,则根据知识元组的位置及数据信息,找到相应混淆的位置,做对应的截断,从而得到对应知识元的三元组。
可优选的是,所述步骤S41具体包括:
S411、获取当前时刻的状态向量并计算输入文本中每个字与当前关系触发词的距离;
S412、根据句子最大长度m及位置特征大小n随机初始化位置嵌入矩阵P;
S413、通过字向量在向量矩阵中的坐标查询位置嵌入矩阵P得到每个字的关系位置特征pft;
S414、并根据S413获得的当前时刻的状态及当前低层强化学习过程对应的高层强化学习过程的动作/>采用头尾指针网络进行实体标记的解码,产生动作/> 所述头尾指针网络的表达式如下:
其中,为对模型给予不同参数优化机制的标准,π为具体的实体识别策略,f为低层强化学习函数,/>为当前时刻的状态向量,/>为当前高层强化学习过程的动作,H和T分别为关系和尾实体,B和I分别为实体头部和中部,N代表结果为非实体或非关系。
可优选的是,所述步骤S61具体包括:
S611、若预测出的实体包含主实体,则使用预测的主实体和关系尾实体对配成三元组;
S612、若预测出的实体不包含主实体,则使用标题作为主实体和关系尾实体配对为三元组。
可优选的是,所述步骤S62具体包括:
S621、若要抽取航空人物中国籍的知识元信息:则采用LTP命名实体识别标题是否为人物,并引入判断句子位置和国家名称的字典,如果标题识别为人物且当前句子在段落前两列且语料中有国籍信息且本段数据还未匹配出国籍知识元,则匹配出对应的国籍知识元作为航空人物的国籍知识元;
S622、若要抽取航空人物中祖籍的知识元信息:则采用LTP命名实体识别标题是否为人物,如果实体识别结果中出现人物信息,则将市人或县人字符往前遍历至前一个分隔符为止之间的信息作为该航空人物的祖籍知识元;
S623、若要抽取航空人物中职业的知识元信息:则采用LTP命名实体识别标题是否为人物,如果实体识别结果中出现人物信息,则遍历著名后续的字符至家、员或师之间的信息作为航空人物的职业知识元。
可优选的是,所述步骤S63具体包括:
S631、若抽取出头实体不为标题的知识元,如果已抽取头实体,则将此头实体与头实体位置后面对应的知识元进行匹配作为抽取的知识元;
S632、若抽取约束不全的知识元,则将约束的起始位置与知识元关系的起始位置进行对比,如果约束的起始位置更加靠前,则表明此约束也适用于当前的知识元,则进行相应的约束匹配作为抽取的知识元。
可优选的是,在S1中,所述微调预训练的Bert模型,其包括数据预处理、自动断句、校验和标注。
可优选的是,在S21中,处理非结构化数据的过程或依字转换的结果,其均包括数据预处理、自动断句、校验和标注。
可优选的是,在S4中,所述当前时刻的状态向量其包括当前字wt的隐含层状态ht、当前字相对于关系触发字的位置特征向量pft、实体识别过程上一个时间步动作/>对应的实体标签向量/>实体识别过程上一时间步的状态st-1和状态向量/>经过全连接层变换得到的上下文向量ct′。
可优选的是,在S5中,所述五分类,其包括非标签、头实体、关系、尾实体和约束。
本发明与现有技术相比,具有如下优点:
1.本发明是面向航空领域的多特征融合方法,基于郑码、五笔、拼音和笔画等特征融入的方式,与Bert输出的向量相结合,提升了知识元抽取的准确率与召回率。
2.本发明采用分层强化学习的框架,利用融合Bert与关系位置特征的实体关系抽取方法,使用基于强化学习思想的参数优化机制,对于识别出的不同结果给予不同的参数优化机制,解决了一部分的实体嵌套和实体识别问题。
3.本发明提出使用指针网络代替条件随机场进行实体预测,使用指针网络预测实体的起止位置,进而提取实体,在一定程度上可以避免超长实体被切分开的情况,更加适用于超长实体的预测。
4.本发明解决了头实体不全以及一个约束对应多个知识元的问题,提高了抽取三元组的高效性和准确率。
5.本发明是面向航空领域的预训练模型+多特征融合+面向航空领域语料特点的对抗训练+融合BERT与关系位置特征的实体关系抽取方法+航空领域的规则优化方法的多个模型和步骤的组合,有效地提升了航空知识百科中开放关系抽取的效果。
附图说明
图1为本发明用于航空领域的知识元抽取方法的流程图;
图2为本发明用于航空领域的知识元抽取方法中强化学习方法的流程图;
图3为本发明用于航空领域的知识元抽取方法中后处理规则的流程图。
具体实施方式
为详尽本发明之技术内容、所达成目的及功效,以下将结合说明书附图进行详细说明。
如图1所示,用于航空领域的知识元抽取方法是这样实现的:
S1、模型预训练:将航空领域的结构化标注数据输入到Bert模型,得到微调预训练的Bert模型,其包括数据预处理、自动断句、人工校验和人工标注,并输出结构化标注数据的特征向量
S2、特征融合:将S1输出的特征向量和Word2Vec模型学习到的特征向量进行融合,并做Concat叠加步骤,辅助判断。
具体而言,提取非结构化的文本数据中每个字的字形和笔画的特征向量,将每个字与官网公布的郑码、拼音、五笔和笔画做匹配,利用Word2vec模型训练字的郑码等特征,获得属于每个字的字形等特征向量,并与Bert输出的字隐含向量做Concat叠加步骤,得到的结果作为字的向量。
S3、归一化处理:将S2得到的字向量输入到层次归一化层,通过将字向量的均值调为0,方差调为1,得到标准化的字向量,随后将标准化的字向量输入BiLSTM模型,得到包含上下文语义信息的字向量,并利用对抗训练,在BiLSTM模型的梯度上累加扰动进行参数更新,增加BiLSTM模型的泛化能力和鲁棒性。
具体而言,S2得到的字向量由当前时刻输入词、细胞状态、临时细胞状态、隐藏状态值、遗忘门、记忆门和输出门组成。
S4、实体关系预测:利用高层强化学习过程对S3得到的每个字向量进行解码,按句识别字向量中的关系触发词。
S5、标签预测:建立面向航空领域长实体的头尾指针模型,通过头指针和尾指针做五分类来识别关系实体的起始位置和结束位置,并利用S4中的参数优化机制,得到预测出的关系和尾实体起止位置序列。
具体而言,所述五分类,其包括非标签、头实体、关系、尾实体和约束。
S6、模型后处理:将预测出的实体输出后,根据实体的标签信息进行就近原则以及特别设计的匹配方式进行匹配。
进一步的,步骤S1中Bert模型是一个预训练模型,具有预测上下文和捕捉位置信息的特点,在航空领域标准指标抽取算法中,Bert模型的输入是带有位置信息的字,输出是带有位置信息的具有丰富语义的字向量。
进一步的,步骤S2中所述的特征融合的方法包括:
S21、利用航空领域中官方发布的汉字—郑码映射表将非结构化的文本数据依字转换为对应的郑码、笔画、五笔和拼音。
优选地,依字转换得到的结果,其包括每个字对应的数字序号、每个字在句中的位置信息和句子总的片段信息。
具体而言,步骤S21中所述的处理非结构化数据的过程,其包括数据预处理、自动断句、人工校验和人工标注。
S22、根据word2vec模型获取字上下文语义思想,利用Word2Vec模型得到每个字的郑码特征向量,所述郑码向量化的具体表达式为:
p=fzhengma(X) (1)
其中,X表示字符的输入序列,fzhengma表示将输入的非结构化文本数据字符序列映射为郑码序列的函数,p表示根据字符的输入序列映射得到的郑码序列,之后按照字符在X中i序号在郑码向量中查找xi对应的郑码特征向量,pi表示xi对应的郑码序列,ezhengma表示郑码序列和郑码特征向量序列的映射表,表示与输入序列xi对应的郑码特征向量。
S23、根据word2vec模型获取字上下文语义思想,利用Word2Vec模型得到每个字的笔画特征向量,所述笔画特征向量化的具体表达式为:
p=fbihua(X) (3)
其中,fbihua表示将输入的X字符序列映射为笔画序列的函数,p表示根据输入的X字符序列得到的笔画序列,pi表示输入字符xi对应的笔画序列,ebihua表示笔画序列和笔画特征向量的映射表,表示与输入序列X中的第i个输入字符对应的笔画特征向量,其中,i的有效取值是从0到序列长度减一的整数。
S24、根据word2vec模型获取字上下文语义思想,利用Word2vec模型得到每个字的五笔特征向量化和拼音特征向量化/>
S25、将S22-S24得到的和/>进行Concat叠加得到字向量,所述拼接特征处理的具体表达式如下:
其中,分别代表着对BERT、郑码、五笔、拼音、笔画特征向量,设定k的目的是为了降低笔画数目分布不均衡对整体向量的影响;经过多次测试发现k取0.5的效果较为理想;/>代表第i个字符对应的融合后向量表示。
进一步的,步骤S3中所述的归一化处理的具体过程包括:字向量在BiLSTM模型的传递过程中,每一时间步中先根据前一时刻的隐藏状态和当前时刻的输入字计算出遗忘门的值以及记忆门的值,分别用于辅助判断后期向后传递时需要遗忘和记忆的向量;然后再由记忆门和遗忘门以及临时细胞状态和上一时刻细胞状态计算出当前细胞状态,为即将输出的向量做辅助判断;最后,根据前一时刻的隐藏状态,当前时刻的输入词以及当前时刻细胞状态计算出输出门的值以及特征向量进一步提取特征后的隐藏向量。同时,将文本从后到前输入BiLSTM模型,从后向再提取一遍特征。将前向特征与后向特征做拼接处理,最终得到了拥有前后向方向性的特征向量。
进一步的,如图2所示,步骤S4中所述的预测实体关系的具体实施方法包括:
S41、对于识别出的不同结果,设定对于整体模型的参数优化机制,若识别出关系触发词,则根据识别出的不同类别的关系实体对高层强化学习过程进行参数优化机制,而后触发低层强化学习过程进行实体识别,对当前关系对应的实体进行解码:
S411、获取当前时刻的状态向量并计算输入文本中每个字与当前关系触发词的距离。
具体而言,获取的当前时刻的状态向量其包括当前字wt的隐含层状态ht、当前字相对于关系触发字的位置特征向量pft、实体识别过程上一个时间步动作/>对应的实体标签向量/>实体识别过程上一时间步的状态st-1和状态向量/>经过全连接层变换得到的上下文向量ct′。
S412、根据句子最大长度m及位置特征大小n随机初始化位置嵌入矩阵P。
S413、通过字向量在向量矩阵中的坐标查询位置嵌入矩阵P得到每个字的关系位置特征pft。
S414、并根据S413获得的当前时刻的状态及当前低层强化学习过程对应的高层强化学习过程的动作/>采用头尾指针网络进行实体标记的解码,产生动作/> 所述头尾指针网络的表达式如下:
其中,为对模型给予不同参数优化机制的标准,π为具体的实体识别策略,f为低层强化学习函数,/>为当前时刻的状态向量,/>为当前高层强化学习过程的动作,H和T分别为关系和尾实体,B和I分别为实体头部和中部,N代表结果为非实体或非关系。
S42、若未识别出关系触发词,则停止解码。
具体而言,将解码出的实体,与正确标签进行对比,当识别出的实体为实体头部时给予较高的参数优化机制;当识别出的实体为实体中间部分时给予一般的参数优化机制;当识别出其它类型时,给予相应较低的参数优化机制。通过此种方式,大幅提高模型预测实体头部,相应提高预测实体中部的能力,借此解决预测实体重叠的问题。
进一步的,如图3所示,步骤S6中所述的模型后处理的具体过程为:
S61、将预测出的实体以就近原则将识别出的关系实体和尾实体一一配对。
S611、若预测出的实体包含主实体,则使用预测的主实体和关系尾实体对配成三元组,并输出保存。
S612、若预测出的实体不包含主实体,则使用标题作为主实体和关系尾实体配对为三元组,并输出保存。
S62、依据LTP依存句法抽取航空领域标注数据中的知识元信息。
S621、若要抽取航空人物中国籍的知识元信息:则采用LTP命名实体识别标题是否为人物,并引入判断句子位置和国家名称的字典,如果标题识别为人物且当前句子在段落前两列且语料中有国籍信息且本段数据还未匹配出国籍知识元,则匹配出对应的国籍知识元作为航空人物的国籍知识元。
S622、若要抽取航空人物中祖籍的知识元信息:则采用LTP命名实体识别标题是否为人物,如果实体识别结果中出现“***市人”或“***县人”等信息,则将“市人”或“县人”字符往前遍历至前一个分隔符为止之间的信息作为该航空人物的祖籍知识元。
S623、若要抽取航空人物中职业的知识元信息:则采用LTP命名实体识别标题是否为人物,如果实体识别结果中出现“著名**家”或“著名**员”或“著名**师”等信息,则遍历“著名”后续的字符至“家”或“员”或“师”等字符之间的信息作为航空人物的职业知识元。
S63、依据关系和尾实体距离抽取航空领域标注数据中的多个知识元信息进行匹配,从而获得多个知识元三元组。
S631、若抽取出头实体不为标题的知识元,如果已抽取头实体,则将此头实体与头实体位置后面对应的知识元进行匹配作为抽取的知识元。
S632、若抽取约束不全的知识元,则将约束的起始位置与知识元关系的起始位置进行对比,如果约束的起始位置更加靠前,则表明此约束也适用于当前的知识元,则进行相应的约束匹配作为抽取的知识元。
S64、抽取航空领域标注数据中知识元混淆的知识元信息:若知识元中关系实体包含尾实体、前一个知识元的尾实体包含下一个知识元的关系,则根据元组的位置及数据信息,找到相应混淆的位置,并做对应的截断,可有效解决知识元内容混淆问题。
以下结合实施例对本发明一种用于航空领域的知识元抽取方法做进一步描述:
首先在开始抽取时,先将航空领域的结构化标注数据按8:1:1的比例分为训练集、验证集和测试集,并将航空领域的结构化标注数据按照BIO标注格式标注。接着按着本发明知识元抽取方法的具体步骤进行操作,具体实施过程如下:
S1、模型预训练:将按着BIO标注格式标注好的航空领域的结构化标注数据,例如,输入文本为‘航天工业城已于1994年建成。’,将句子按字以及标点符号分为15个字符,输入到Bert模型,得到微调预训练的Bert模型,并输出结构化标注数据的特征向量
S2、特征融合:按照航空领域中官方发布的汉字—郑码映射表将输入文本‘航天工业城已于1994年建成。’依字转换相应的郑码、五笔、笔画和拼音序列,将得到的这些特征序列输入到通过Word2vec模型学习到的郑码、五笔向量表,将输入文本转为相应的郑码特征序列、五笔特征序列、笔画和拼音特征向量。最后将Bert,郑码、五笔、笔画和拼音的特征向量做Concat拼接操作,得到最后的字特征向量:X=[x1,x2,...,x24]T。
S3、归一化处理:将S2中得到的特征向量X输入到层次归一化层,将X转为均值为0方差为1的标准化向量,以防止模型过拟合。同时,在通过BiLSTM层计算正常梯度后,在原样本上加一个干扰值,再次计算梯度并进行反向传播,进而更新模型的参数,并且从BiLSTM层输出一个拥有上下文信息的特征向量X。此步骤中,通过添加干扰值,增强模型的泛化能力。
在本发明的一个优选实施例中,采取FGM(Fast Gradient Method)对抗训练算法,具体步骤如下:
S31、根据样本计算前向损失函数结果loss,做loss的反向传播计算梯度grad,但不更新梯度。
S32、提取出模型中预先挑选好的需要进行扰乱的embedding层的梯度,计算其norm,继而计算出扰乱后的梯度r_adv,再将r_adv累加到原始的embedding的样本上,即r+x,得到对抗性的扰乱样本。
S33、根据得到的扰乱样本,计算新的loss,并对新的loss做反向传播,此时的对抗样本的梯度是累加到原始样本的梯度上的。
S34、将被修改的embedding层恢复到原始状态。
S35、利用S33获得的原始梯度加对抗梯度,对模型参数进行更新。
S4、实体关系预测:将S3获得的特征向量X输入到有强化学习过程的标签解码层中,按句识别字向量中的关系触发词。具体地,将示例文本‘航天工业城已于1994年建成。’中,首先通过头尾指针做一个五分类,判断句中关系实体的位置:示例中,如识别出关系‘建成’中的‘建’,由于是关系实体头部,给予整个模型较高参数优化机制,借此鼓励模型倾向于识别关系实体头部;如识别出‘成’,作为关系实体中部,给予整个模型一般的参数优化机制,至此识别出关系实体‘建成’。通过识别出的关系实体,引发低层强化学习过程,通过获取当前时刻的状态向量并计算输入文本中每个字与当前关系触发词的距离;根据句子最大长度m及位置特征大小n随机初始化位置嵌入矩阵P;通过字向量在向量矩阵中的坐标查询位置嵌入矩阵P得到每个字的关系位置特征pft;并根据S413获得的当前时刻的状态/>及当前低层强化学习过程对应的高层强化学习过程的动作/>采用头尾指针网络解码出尾实体‘1994年’,再依据上述的参数优化机制,给予整个模型不同的参数优化机制。
S5、标签预测:建立面向航空领域长实体的头尾指针模型,通过头指针做一次五分类预测,尾指针做一次五分类预测,找出句中的实体的起止位置。
S6、模型后处理:将预测出的关系实体‘建成’与尾实体‘1994年’做匹配,由于未识别出头实体,采用标题‘航空工业城’为头实体,匹配出三元组‘航空工业城##建成##1994年’。
基于上述实施例,本发明是基于航空领域提出的一种多特征融合的知识元抽取方法,解决了头实体不全、一个约束对应多个知识元以及实体嵌套和实体识别的问题,从而也减少了提取高质量的标注数据花费的时间。本发明在该方法中利用指针网络对得到的每个字向量进行解码,按句识别字向量中的关系触发词,使其更能适用于超长实体的预测,提高了整个方法预测的准确率,缩短了搜素时间;最终通过多个优化方法的组合和规整,提升了在航空知识百科中开放关系抽取的效果。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (9)
1.一种用于航空领域的知识元抽取方法,其特征在于,其具体步骤如下:
S1、模型预训练:将航空领域的结构化标注数据输入到Bert模型,得到微调预训练的Bert模型,并输出结构化标注数据的特征向量
S2、特征融合:将S1输出的特征向量和Word2Vec模型学习到的特征向量进行融合,并做Concat叠加步骤:
S21、利用汉字—郑码映射表将非结构化的文本数据依字转换为对应的郑码序列;
S22、利用Word2Vec模型得到每个字的郑码特征向量,所述郑码特征向量的具体表达式为:
p1=fzhengma(X) (1)
其中,X表示字符的输入序列,fzhengma表示将输入的非结构化文本数据字符序列映射为郑码序列的函数,p1表示根据字符的输入序列映射得到的郑码序列,pi表示xi对应的郑码序列,ezhengma表示郑码序列和郑码特征向量的映射表,表示与输入字符xi对应的郑码特征向量;
S23、利用Word2Vec模型得到每个字的笔画特征向量,所述笔画特征向量的具体表达式为:
p2=fbihua(X) (3)
其中,fbihua表示将字符的输入序列X映射为笔画序列的函数,p2表示根据字符的输入序列X得到的笔画序列,p′i表示输入字符xi对应的笔画序列,ebihua表示笔画序列和笔画特征向量的映射表,表示与输入序列X中的第i个输入字符对应的笔画特征向量;
S24、利用Word2vec模型得到每个字的五笔特征向量和拼音特征向量/>
S25、将得到的和/>进行Concat拼接特征处理,叠加得到字向量/>所述拼接特征处理的具体表达式如下:
其中,分别代表着对BERT、郑码、五笔、拼音和笔画特征向量,k为0.5,/>代表第i个字符对应的字向量;
S3、归一化处理:将S2得到的字向量输入到层次归一化层,得到标准化的字向量,随后将标准化的字向量输入BiLSTM模型,得到包含上下文语义信息的第一字向量,并利用对抗训练进行参数更新;
S4、实体关系预测:利用高层强化学习过程对S3得到的每个第一字向量进行解码,按句识别第一字向量中的关系触发词:
S41、对于识别出的不同结果,设定对于整体模型的参数优化机制,若识别出关系触发词,则根据识别出的不同类别的关系实体对高层强化学习过程进行模型参数优化,而后触发低层强化学习过程进行实体识别,对当前关系对应的实体进行解码;
S42、若未识别出关系触发词,则停止解码;
S5、标签预测:建立面向航空领域长实体的头尾指针模型,通过头指针和尾指针做五分类来识别关系实体的起始位置和结束位置,并利用S4中的参数优化机制,得到预测的关系实体和尾实体的起止位置序列;
S6、模型后处理:将预测出的实体输出后,根据预测出的实体的标签信息基于就近原则以及匹配方式对预测出的实体进行匹配:
S61、将预测出的实体以就近原则将识别出的关系实体和尾实体一一配对,得到三元组;
S62、依据LTP依存句法抽取航空领域标注数据中的知识元信息,得到知识元的三元组;
S63、依据关系实体和尾实体的距离抽取航空领域标注数据中的多个知识元信息进行匹配,得到多个知识元的三元组;
S64、抽取航空领域标注数据中知识元混淆的知识元信息:若知识元中关系实体包含尾实体或者前一个知识元的尾实体包含下一个知识元的关系实体,则根据知识元组的位置及数据信息,找到相应混淆的位置,做对应的截断,从而得到对应知识元的三元组。
2.根据权利要求1所述的用于航空领域的知识元抽取方法,其特征在于,所述步骤S41具体包括:
S411、获取当前时刻的状态向量并计算输入文本中每个字与当前关系触发词的距离;
S412、根据句子最大长度m及位置特征大小n随机初始化位置嵌入矩阵P;
S413、通过第一字向量在向量矩阵中的坐标查询位置嵌入矩阵P得到每个字的关系位置特征pft;
S414、并根据获得的当前时刻的状态及当前低层强化学习过程对应的高层强化学习过程的动作/>采用头尾指针网络进行实体标记的解码,产生动作所述头尾指针网络的表达式如下:
其中,为对模型给予不同参数优化机制的标准,π为具体的实体识别策略,f为低层强化学习函数,/>为当前时刻的状态向量,/>为当前高层强化学习过程的动作,H和T分别为关系实体和尾实体,B和I分别为实体头部和中部,N代表结果为非实体或非关系。
3.根据权利要求1所述的用于航空领域的知识元抽取方法,其特征在于,所述步骤S61具体包括:
S611、若预测出的实体包含主实体,则使用预测的主实体和关系实体、尾实体配对成三元组;
S612、若预测出的实体不包含主实体,则使用标题作为主实体和关系实体、尾实体配对为三元组。
4.根据权利要求1或者3所述的用于航空领域的知识元抽取方法,其特征在于,所述步骤S62具体包括:
S621、若要抽取航空人物国籍的知识元信息:则采用LTP命名实体识别标题是否为人物,并引入判断句子位置和国家名称的字典,如果标题识别为人物且当前句子在段落前两列且语料中有国籍信息且本段数据还未匹配出国籍知识元,则匹配出对应的国籍知识元作为航空人物的国籍知识元;
S622、若要抽取航空人物中祖籍的知识元信息:则采用LTP命名实体识别标题是否为人物,如果实体识别结果中出现人物信息,则将“市人”或“县人”字符往前遍历至前一个分隔符之间的信息作为该航空人物的祖籍知识元;
S623、若要抽取航空人物中职业的知识元信息:则采用LTP命名实体识别标题是否为人物,如果实体识别结果中出现人物信息,则遍历“著名”字符后续的字符至“家”、“员”或“师”字符之间的信息作为航空人物的职业知识元。
5.根据权利要求1或者3所述的用于航空领域的知识元抽取方法,其特征在于,所述步骤S63具体包括:
S631、若抽取出头实体不为标题的知识元,如果已抽取头实体,则将此头实体与头实体位置后面对应的知识元进行匹配作为抽取的知识元;
S632、若抽取约束不全的知识元,则将约束的起始位置与知识元关系的起始位置进行对比,如果约束的起始位置更加靠前,则表明该约束也适用于当前的知识元,则进行相应的约束匹配作为抽取的知识元。
6.根据权利要求1所述的用于航空领域的知识元抽取方法,其特征在于,在S1中,所述微调预训练的Bert模型,其包括数据预处理、自动断句、校验和标注。
7.根据权利要求1所述的用于航空领域的知识元抽取方法,其特征在于,在S21中,处理非结构化数据的过程或依字转换的结果,其均包括数据预处理、自动断句、校验和标注。
8.根据权利要求2所述的用于航空领域的知识元抽取方法,其特征在于,在S4中,所述当前时刻的状态向量其包括当前字wt的隐含层状态ht、pft、实体识别过程上一个时间步动作/>对应的实体标签向量/>实体识别过程上一时间步的状态st-1和状态向量/>经过全连接层变换得到的上下文向量ct′。
9.根据权利要求1所述的用于航空领域的知识元抽取方法,其特征在于,在S5中所述五分类,其包括非标签、头实体、关系、尾实体和约束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375009.5A CN114764566B (zh) | 2022-04-11 | 2022-04-11 | 用于航空领域的知识元抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375009.5A CN114764566B (zh) | 2022-04-11 | 2022-04-11 | 用于航空领域的知识元抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114764566A CN114764566A (zh) | 2022-07-19 |
CN114764566B true CN114764566B (zh) | 2024-01-23 |
Family
ID=82365352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210375009.5A Active CN114764566B (zh) | 2022-04-11 | 2022-04-11 | 用于航空领域的知识元抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114764566B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756345A (zh) * | 2023-08-15 | 2023-09-15 | 杭州同花顺数据开发有限公司 | 一种实体链接方法和系统 |
CN117408247B (zh) * | 2023-12-15 | 2024-03-29 | 南京邮电大学 | 一种基于关系指针网络的智能制造三元组抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597815A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多嵌入命名实体识别方法、装置、设备及存储介质 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
WO2022041294A1 (zh) * | 2020-08-26 | 2022-03-03 | 华南理工大学 | 一种结合知识库中的三元组和实体类型的生成问题方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10726346B2 (en) * | 2016-11-09 | 2020-07-28 | Cognitive Scale, Inc. | System for performing compliance operations using cognitive blockchains |
-
2022
- 2022-04-11 CN CN202210375009.5A patent/CN114764566B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597815A (zh) * | 2020-05-22 | 2020-08-28 | 北京慧闻科技(集团)有限公司 | 一种多嵌入命名实体识别方法、装置、设备及存储介质 |
WO2022041294A1 (zh) * | 2020-08-26 | 2022-03-03 | 华南理工大学 | 一种结合知识库中的三元组和实体类型的生成问题方法 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
基于知识元的学术论文内容创新性智能化评价研究;李贺;杜杏叶;;图书情报工作(第01期);95-106 * |
Also Published As
Publication number | Publication date |
---|---|
CN114764566A (zh) | 2022-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023060795A1 (zh) | 关键词自动提取方法、装置、设备及存储介质 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN114764566B (zh) | 用于航空领域的知识元抽取方法 | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
WO2023040493A1 (zh) | 事件检测 | |
CN113408287B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110956044A (zh) | 一种基于注意力机制的司法场景用文案输入识别分类方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN113988075A (zh) | 基于多任务学习的网络安全领域文本数据实体关系抽取法 | |
CN114611520A (zh) | 一种文本摘要生成方法 | |
CN112463960B (zh) | 一种实体关系的确定方法、装置、计算设备及存储介质 | |
CN117371534A (zh) | 一种基于bert的知识图谱构建方法及系统 | |
CN113626553B (zh) | 一种基于预训练模型的级联二进制中文实体关系提取方法 | |
CN113807102B (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
CN115658919A (zh) | 一种文化信息数字化存储方法 | |
CN114595338A (zh) | 基于混合特征表示的实体关系联合抽取系统及方法 | |
CN114091464A (zh) | 一种融合五维特征的高普适性多对多关系三元组抽取方法 | |
CN115329755B (zh) | 实体链接模型处理方法、装置和实体链接处理方法、装置 | |
CN117933254B (zh) | 基于多特征融合与渐进对比的中文实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |