CN116383398A - 一种专业领域术语实体词向量自校正方法、系统及装置 - Google Patents
一种专业领域术语实体词向量自校正方法、系统及装置 Download PDFInfo
- Publication number
- CN116383398A CN116383398A CN202310147442.8A CN202310147442A CN116383398A CN 116383398 A CN116383398 A CN 116383398A CN 202310147442 A CN202310147442 A CN 202310147442A CN 116383398 A CN116383398 A CN 116383398A
- Authority
- CN
- China
- Prior art keywords
- entity
- term
- relation
- domain
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 130
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012937 correction Methods 0.000 title claims description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 82
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000010276 construction Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 230000000692 anti-sense effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000004973 liquid crystal related substance Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000009795 derivation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000011946 reduction process Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 235000019580 granularity Nutrition 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 241000566137 Sagittarius Species 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明提供了一种专业领域术语实体词向量自校正方法、系统及装置,涉及人工智能技术领域,方法主要包括:通过下游关系抽取任务,微调预训练语言模型,编码领域术语实体解释文本得到领域术语实体语义词向量;通过关系抽取模型,构建领域术语知识图谱,并通过领域术语知识图谱构建实体关系矩阵;通过实体关系矩阵校正所述领域术语实体语义词向量,输出包含专业领域语义与结构信息的实体词向量集。本方案利用训练好的关系抽取模型进行关系抽取,挖掘专业领域术语实体之间的关系,构建领域术语知识图谱,通过实体关系矩阵校正术语实体词向量,从而方便有效地生成具有该领域专业知识的实体词词向量集。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种专业领域术语实体词向量自校正方法、系统及装置。
背景技术
目前,在人工智能环境下的自然语言处理领域中,自然语言文本语料是以不同的粒度进行切分的,而每个被切分出来的子词都可以通过机器学习或深度学习的方法转换为词向量,实现从文本到数学语言的转换。
从文本语料到词向量的转化是让机器了解及学习人类信息知识的关键步骤。传统转化方法主要是通过One-Hot、TF-IDF、TextRank等词袋模型来实现文本向词向量的转换。词袋模型将整段文本以词为单位切分,忽略了词的出现顺序,将每个词嵌入到一个高维向量中,一篇文章便表示成一个高维稀疏矩阵。这类方法造成了维度灾难,且仅按照词为单位切分文本,完全没有考虑每个词在具体文本中的上下文信息。Word2vec、Glove、FastText等词向量固定表征模型的出现在一定程度上解决了这个问题,Word2vec、FastText主要基于文本局部语料,利用滑动窗口机制来提取文本特征,实现词向量的生成;Glove是基于全部文本语料,构建共现矩阵来生成词向量。这一系列方法在计算效率和词向量的语义信息学习上有了较大优化,然而通过这些模型生成的一套词向量是固定的,无法解决同一词在不同语境下存在多义的问题。
随着例如Bert、GPT等大规模预训练语言模型的出现,实现了真正动态学习语义信息的功能。模型能在学习的过程中不断调整每个词在语义空间中的向量分布,使得每个词向量根据不同的语境学到了不同的语义。但是,诸如Word2vec、GloVe或Bert等语言模型都是在公共领域、开源数据集上实现的词向量生成,且模型在训练文本语料中仅学习到了文本语义信息,并未学习到词语之间存在的关系结构等信息。2018年,Google利用ConceptNet语义网络中概念节点之间的结构信息去修正Word2vec、GloVe等提供的语义词向量集,但类似于ConceptNet、WordNet等语义网络都是在开源数据集上通过人工编制的方式来构建,如果直接应用到某些专业领域,会因为缺乏领域术语词汇及其之间的关系而无法达到词向量修正的目的。
发明内容
本发明的目的在于提供一种专业领域术语实体词向量自校正方法、系统及装置,以解决现有技术中存在的至少一种上述技术问题。
第一方面,为解决上述技术问题,本发明提供的方法,包括:
步骤1、通过下游关系抽取任务,微调预训练语言模型,编码领域术语实体解释文本得到领域术语实体语义词向量;
步骤2、通过关系抽取模型,构建领域术语知识图谱,并通过领域术语知识图谱构建实体关系矩阵;
步骤3、通过实体关系矩阵校正所述领域术语实体语义词向量,输出包含专业领域语义与结构信息的实体词向量集。
在一种可行的实施例中,所述步骤1包括:
步骤11、通过领域术语解释文本的数据特征,定义领域术语之间的关系;
步骤12、标记领域术语解释文本的原始语料,在原始语料中通过第一特殊符号标记头实体的开始位置及结束位置,通过第二特殊符号标记尾实体的开始位置及结束位置,将每条语料中头实体和尾实体之间的关系拼接到句首并通过加注第三特殊符号作为该条语料的关系标签;
通过预训练语言模型的分词器,以字为粒度对语料进行切分,将每条解释文本序列,拼接成预设字符长度的输入序列。若原始文本序列长度超过了预设字符长度,则进行截断;若原始文本序列长度不足预设字符长度,则以“0”补齐;根据头尾实体的位置,构建二者的掩码序列,所述掩码序列在实体对应的位置为“1”,非实体对应的位置为“0”,便于后续提取术语实体词向量;
步骤13、将处理后的输入序列输入至预训练语言模型,所述模型将每条输入序列转换为向量矩阵,通过多层自注意力机制层进行编码,得到每个子词的向量表示;由于句向量包含文本序列的整体语义,故抽取句向量代表及术语实体对向量,并通过若干全连接层映射至同一语义空间后进行拼接,输入至全连接层后,再连接SoftMax层预测关系;
步骤14、通过多轮训练,当模型关系抽取任务损失函数值收敛至稳定值后,保存模型。通过微调后的预训练语言模型编码领域术语实体,根据实体掩码序列将头尾实体的向量表示进行输出,得到该领域的术语实体词向量。
在一种可行的实施例中,所述步骤11中定义领域术语的方法是:基于现有领域术语知识图谱,通过远程监督方式,在现有领域术语知识图谱中查找已存在的领域术语之间的关系。特别的,由于该方法可能引入大量噪声数据,所以需要人工判定所述关系是否符合领域术语解释文本中两实体间的真实关系:若符合则保留该关系;若不符合则舍去该关系。
在一种可行的实施例中,所述步骤11中定义领域术语的方法还可以是:基于显示关系的关键词,例如“由…组成”、“包括”、“…又称为…”、“…是…”、“…隶属于…”、“…亦称…”等,定义五类关系:属种关系、整体部分关系、同义关系、反义关系及其他关系。
在一种可行的实施例中,所述步骤2包括:
步骤21、基于原始语料,构建与每条原始语料对应的唯一索引,将该索引及原始语料一起输入关系抽取模型,但不参与训练,该索引用于将模型输出的关系标签与此索引所映射的原始语料中的术语实体对连接起来,共同构成三元组,例如(A,R,B),其中A表示头实体,R表示模型输出的关系标签,B表示尾实体。
步骤22、将若干个三元组,通过关系连接成领域术语知识图谱,将关系权重赋值,得到权重矩阵,例如同义关系赋值为3、属种关系赋值为2、整体部分关系赋值为1、其他关系赋值为0、反义关系赋值为-1,如下表所示:
头实体 | 尾实体 | 关系 | 赋值 |
前锋 | 射手 | 同义 | 3.0 |
球队后备力量 | 球队实力 | 属种 | 2.0 |
点球 | 定位球 | 整体部分 | 1.0 |
球队后勤 | 草坪保养 | 其他 | 0.0 |
进攻 | 防守 | 反义 | -1.0 |
步骤23、基于所述领域术语知识图谱构建实体关系矩阵。具体来讲,通过N个术语节点构建N*N邻接矩阵,所述邻接矩阵中每行的值表示某个术语节点到该图谱中其他节点的路径信息:与该术语节点直接相连的术语节点,矩阵对应的值为这两个节点之间所有关系的权重和;与该术语节点不直接相连的术语节点,矩阵对应的值为0。通过范数归一方法,使每行所有权重的绝对值和为1,将该图谱中某个节点到其余节点的权重归一化,具体公式可以为:
xi-new=xi/||x||1;
其中,xi表示一行中的第i个值;
根据每个权重值计算术语节点之间的PPMI正点互信息,具体公式可以为:
PPMI=max{0,PMI}
其中,PMI(x,y)表示点互信息值,用于衡量两个随机变量之间的关联性,当两个事物(x,y)完全无关,即两个事物同时出现的概率p(x,y)为0时,会导致PMI(x,y)趋向于负无穷,为避免出现这种情况,通常使用正点互信息PPMI进行计算;
通过正点互信息计算后,术语节点之间的权重矩阵转化为实体关系矩阵,将矩阵中各术语节点之间归一化后的权重和转化为节点之间的点互信息值,可以将简单的权重和转变为直观的相关性。
在一种可行的实施例中,在得到实体关系矩阵后还包括降维处理,用于去除无效信息,具体过程包括通过SVD奇异值将实体关系矩阵分解为左奇异矩阵U(m*m维方阵)、奇异值对角矩阵∑(m*n维,仅对角线有值,其余全为0)和右奇异矩阵V(n*n维方阵);选取前K个奇异值,则左奇异矩阵U从m*m维下降为m*k维,右奇异矩阵V从n*n维下降为k*n维。
通过这种方法,可以对实体关系矩阵进行大幅压缩,具体原理是因为所述奇异值对角矩阵∑中,奇异值从大到小排列,且衰减速度快,大多数情况下前10%,甚至1%的奇异值之和就占据了总和的99%。因此,仅仅保留前一部分奇异值以及对应的左右奇异矩阵,舍去其余数据即可达到降维的目的,从而舍去了无效信息,压缩了矩阵大小,具体公式可以为:
A=U∑VT;
U=AAT V=ATA ∑i=AVi/Uii∈(0,k)
m,n→k 0<k<min(A.shape)。
在一种可行的实施例中,所述步骤3包括:
步骤31、对每个领域术语实体语义词向量预测新向量,所述新向量既在语义空间中靠近原始语义向量,又要根据实体关系矩阵中术语的结构信息,靠近领域术语知识图谱中的相关邻居节点。所述新向量与邻居节点之间的距离定义为欧式距离。具体公式可以为:
其中,表示校正过程的目标函数,所述校正过程为不断最小化所述目标函数;/>表示术语i的实体语义词向量;qi表示新向量;qj是qi在领域术语知识图谱中所有的邻居节点,二者之间存在关系(i,j)∈E;E表示术语i与术语j之间的某种关系;/>及βij均为向量校正常量;
步骤33、进行多次迭代,直至达到迭代结束条件,用于迫使新向量不断向原始语义向量及邻居节点靠近,所述欧式距离不断迭代减小。
通过上述步骤,使每轮迭代均通过实体关系矩阵中每个领域术语的结构信息与所有语义向量分别进行点积求和计算,从而将每个领域术语节点的结构信息注入至领域术语的语义向量中。
第二方面,基于相同的发明思路,本申请还提供了一种专业领域术语实体词向量自校正系统,包括:数据采集模块、数据处理模块及结果生成模块:
所述数据采集模块,用于采集领域术语原始语料;
所述数据处理模块包括预处理单元、模型训练单元、关系抽取单元、语义向量编码单元、术语图谱构建单元、结构矩阵构建单元及校正单元:
所述预处理单元,标记所述领域术语原始语料,构建关系抽取模型的训练集,标记形式可以为:关系标签+第三特殊符号+领域术语解释文本;所述领域术语解释文本包括带有第一特殊符号的头实体及带有第二特殊符号的尾实体;
所述模型训练单元,基于所述训练集,训练所述关系抽取模型,得到训练后的关系抽取模型;
所述关系抽取单元,基于所述领域术语原始语料,通过训练后的所述关系抽取模型,抽取术语实体对所对应的关系,得到三元组;
所述语义向量编码单元,用于从所述关系抽取模型的编码层获取术语实体词向量;
所述术语图谱构建单元,用于将所述三元组通过关系连接成领域术语知识图谱;
所述结构矩阵构建单元,用于将所述领域术语知识图谱中的结构信息记录并转化为实体关系矩阵;
所述校正单元,通过所述实体关系矩阵校正术语实体词向量;
所述结果生成模块,用于将校正后的术语实体词向量整理成实体词向量集并外发。
第三方面,基于相同的发明思路,本申请还提供了一种专业领域术语实体词向量自校正装置,包括处理器、存储器、总线,所述存储器存储可由处理器读取的指令及数据;所述处理器用于调用所述存储器中的指令及数据,以执行如上任一所述的专业领域术语实体词向量自校正方法;所述总线连接各功能部件之间传送信息。
采用上述技术方案,本发明具有如下有益效果:
本发明提供的一种专业领域术语实体词向量自校正方法、系统及装置,利用训练好的关系抽取模型进行关系抽取,挖掘专业领域术语实体之间的关系,构建领域术语知识图谱,通过实体关系矩阵校正术语实体词向量,从而方便有效地生成具有该领域专业知识的实体词向量集。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的专业领域术语实体词向量自校正方法流程图;
图2为本发明实施例提供的标记原始语料的例图;
图3为本发明实施例提供的中文Bert自编码预训练语言模型的结构图;
图4为本发明实施例提供的关系抽取模型提取领域术语实体语义词向量说明图;
图5为本发明实施例提供的基于所述领域术语知识图谱构建实体关系矩阵到的说明图;
图6为本发明实施例提供的通过SVD对实体关系矩阵进行降维处理的说明图;
图7为本发明实施例提供的对每个领域术语实体语义词向量预测新向量的说明图;
图8为本发明实施例提供的通过实体关系矩阵校正术语实体词向量的说明图;
图9为本发明实施例提供的专业领域术语实体词向量自校正系统图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
下面结合具体的实施方式对本发明做进一步的解释说明。
如图1所示,为解决上述技术问题,本发明实施例提供的方法,包括:
步骤1、通过下游关系抽取任务,微调预训练语言模型-例如中文Bert模型,编码领域术语实体解释文本得到领域术语实体语义词向量;
步骤2、通过关系抽取模型,构建领域术语知识图谱,并通过领域术语知识图谱构建实体关系矩阵;
步骤3、通过实体关系矩阵校正领域术语实体语义词向量,输出包含专业领域语义与结构信息的实体词向量集。
进一步地,所述步骤1包括:
步骤11、通过领域术语解释文本的数据特征,定义领域术语之间的关系;
步骤12、标记领域术语解释文本的原始语料,在原始语料中通过第一特殊符号“&”标记头实体的开始位置及结束位置,通过第二特殊符号“$”标记尾实体的开始位置及结束位置,将每条语料中头实体和尾实体之间的关系拼接到句首并通过加注第三特殊符号“\t”作为该条语料的关系标签,如图2所示;
通过中文Bert模型的分词器,以字为粒度对语料进行切分,将每条解释文本序列,拼接成384个字符长度的输入序列。若原始文本序列长度超过了384个字符长度,则进行截断;若原始文本序列长度不足384个字符长度,则以“0”补齐;根据头尾实体的位置,构建二者的掩码序列,所述掩码序列在实体对应的位置为“1”,非实体对应的位置为“0”,便于后续提取术语实体词向量,如图3所示;
步骤13、将处理后的输入序列输入至中文Bert模型,所述模型将每条输入序列转换为384*768向量矩阵,通过多层自注意力机制层进行编码,得到每个子词的向量表示;由于句向量包含文本序列的整体语义,故抽取句向量代表[CLS]及术语实体对向量[A]及[B],并通过三个全连接层映射至同一语义空间后进行拼接,形成一个1*2304的向量;输入至2304*5的全连接层后,再连接SoftMax层预测关系;
步骤14、通过多轮训练,当模型关系抽取任务损失函数值收敛至稳定值F1,且F1值达到最大值后,保存模型,通过微调后的模型编码领域术语实体,从Bert编码层根据实体掩码序列将头尾实体的向量表示进行输出,得到该领域的术语实体词向量,如图4所示。
进一步地,所述步骤11中定义领域术语的方法是:基于现有领域术语知识图谱,通过远程监督方式,在现有领域术语知识图谱中查找已存在的领域术语之间的关系。特别的,由于该方法可能引入大量噪声数据,所以需要人工判定所述关系是否符合领域术语解释文本中两实体间的真实关系:若符合则保留该关系;若不符合则舍去该关系。
进一步地,所述步骤11中定义领域术语的方法还可以是:基于表示关系的关键词,例如“由…组成”、“包括”、“…又称为…”、“…是…”、“…隶属于…”、“…亦称…”等,定义五类关系:属种关系、整体部分关系、同义关系、反义关系及其他关系。
进一步地,所述步骤2包括:
步骤21、基于原始语料,构建与每条原始语料对应的唯一索引,将该索引及原始语料一起输入关系抽取模型,但不参与训练,该索引用于将模型输出的关系标签与此索引所映射的原始语料中的术语实体对连接起来,共同构成三元组,例如(A,R,B),其中A表示头实体,R表示模型输出的关系标签,B表示尾实体。
步骤22、将N个不同的三元组(Ai Rj Bi)(i∈N,j∈{0,1,2,3,4})通过关系连接成领域术语知识图谱,对不同关系的权重进行赋值,得到权重矩阵:将同义关系赋值为3,将属种关系赋值为2,将整体部分关系赋值为1,将其他关系赋值为0,将反义关系赋值为-1,如下表所示:
头实体 | 尾实体 | 关系 | 赋值 |
前锋 | 射手 | 同义 | 3.0 |
球队后备力量 | 球队实力 | 属种 | 2.0 |
点球 | 定位球 | 整体部分 | 1.0 |
球队后勤 | 草坪保养 | 其他 | 0.0 |
进攻 | 防守 | 反义 | -1.0 |
步骤23、基于所述领域术语知识图谱构建实体关系矩阵。具体来讲,通过N个术语节点构建N*N邻接矩阵,所述邻接矩阵中每行的值表示某个术语节点到该图谱中其他节点的路径信息:与该术语节点直接相连的术语节点,矩阵对应的值为这两个节点之间所有关系的权重和;与该术语节点不直接相连的术语节点,矩阵对应的值为0,如图5所示。通过L1范数归一方法,使每行所有权重的绝对值和为1,将该图谱中某个节点到其余节点的权重归一化,具体公式可以为:
xi-new=xi/||x||1;
其中,xi表示一行中的第i个值;
根据每个权重值计算术语节点之间的PPMI正点互信息,具体公式可以为:
PPMI=max{0,PMI}
其中,PMI(x,y)表示点互信息值,用于衡量两个随机变量之间的关联性,当两个事物(x,y)完全无关,即两个事物同时出现的概率p(x,y)为0时,会导致PMI(x,y)趋向于负无穷,为避免出现这种情况,通常使用正点互信息PPMI进行计算,即用“0”代替“-∞”;
通过正点互信息计算后,术语节点之间的权重矩阵转化为实体关系矩阵,将矩阵中各术语节点之间归一化后的权重和转化为节点之间的点互信息值,可以将简单的权重和转变为直观的相关性。
进一步地,在正点互信息计算后还包括降维处理,用于去除无效信息,具体过程包括通过SVD奇异值将实体关系矩阵分解为左奇异矩阵U(m*m维方阵)、奇异值对角矩阵∑(m*n维,仅对角线有值,其余全为0)和右奇异矩阵V(n*n维方阵);选取前K个奇异值,则左奇异矩阵U从m*m维下降为m*k维,右奇异矩阵V从n*n维下降为k*n维,如图6所示。
通过这种方法,可以对实体关系矩阵进行大幅压缩,具体原理是因为所述奇异值对角矩阵∑中,奇异值从大到小排列,且衰减速度快,大多数情况下前10%,甚至1%的奇异值之和就占据了总和的99%。因此,仅仅保留前一部分奇异值以及对应的左右奇异矩阵,舍去其余数据即可达到降维的目的,从而舍去了无效信息,压缩了矩阵大小,具体公式可以为:
A=U∑VT;
U=AAT V=ATA ∑i=AVi/Ui i∈(0,k)
m,n→k 0<k<min(A.shape)。
进一步地,所述步骤3包括:
步骤31、对每个领域术语实体语义词向量预测新向量,所述新向量既在语义空间中靠近原始语义向量,又要根据实体关系矩阵中术语的结构信息,靠近领域术语知识图谱中的相关邻居节点。所述新向量与邻居节点之间的距离定义为欧式距离,如图7所示。具体公式可以为:
其中,表示校正过程的目标函数,所述校正过程为不断最小化所述目标函数;/>表示术语i的实体语义词向量;qi表示新向量;qj是qi在领域术语知识图谱中所有的邻居节点,二者之间存在关系(i,j)∈E;E表示术语i与术语j之间的某种关系;/>及βij均为向量校正常量;
步骤33、经过多次更新迭代,直至达到迭代结束条件。迫使新向量不断向原始语义向量及邻居节点靠近,故所述欧式距离不断迭代减小。
进一步地,所述迭代结束条件为所述欧式距离达到预设长度或迭代次数达到预设次数。
通过上述步骤,使每轮迭代均通过实体关系矩阵中每个领域术语的结构信息与所有语义向量分别进行点积求和计算,从而将每个领域术语节点的结构信息注入至领域术语的语义向量中,如图8所示。
另一方面,如图9所示,本发明实施例还提供了一种专业领域术语实体词向量自校正系统,包括:数据采集模块、数据处理模块及结果生成模块:
所述数据采集模块,用于采集领域术语原始语料;
所述数据处理模块包括预处理单元、模型训练单元、关系抽取单元、语义向量编码单元、术语图谱构建单元、结构矩阵构建单元及校正单元:
所述预处理单元,标记所述领域术语原始语料,构建关系抽取模型的训练集,具体标记形式可以为:关系标签+第三特殊符号+领域术语解释文本;所述领域术语解释文本包括带有第一特殊符号的头实体及带有第二特殊符号的尾实体,例如:关系标签+\t+术语解释文本(&头实体&,…,$尾实体$);
所述模型训练单元,基于所述训练集,训练所述关系抽取模型,得到训练后的关系抽取模型;
所述关系抽取单元,基于所述领域术语原始语料,通过训练后的所述关系抽取模型,抽取术语实体对所对应的关系,得到三元组;
所述语义向量编码单元,用于从所述关系抽取模型的编码层获取术语实体词向量;
所述术语图谱构建单元,用于将所述三元组通过关系连接成领域术语知识图谱;
所述结构矩阵构建单元,用于将所述领域术语知识图谱中的结构信息记录并转化为实体关系矩阵-Entity2Entity矩阵;
所述校正单元,通过所述实体关系矩阵校正术语实体词向量;
所述结果生成模块,用于将校正后的术语实体词向量整理成实体词向量集并外发。
又一方面,本发明实施例还提供了一种专业领域术语实体词向量自校正装置,包括处理器、存储器、总线,所述存储器存储可由处理器读取的指令及数据;所述处理器用于调用所述存储器中的指令及数据,以执行如上任一所述的专业领域术语实体词向量自校正方法;所述总线连接各功能部件之间传送信息。
本方案在又一种实施方式下,可以通过设备的方式来实现,该设备可以包括执行上述各个实施方式中各个或几个步骤的相应模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
处理器执行上文所描述的各个方法和处理。例如,本方案中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其它实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
该设备可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线将包括一个或多个处理器、存储器和/或硬件模块的各种电路连接到一起。总线还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路连接。
总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,ExtendedIndustry Standard Component)总线等,总线可以分为地址总线、数据总线、控制总线等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种专业领域术语实体词向量自校正方法,其特征在于,包括:
步骤1、通过下游关系抽取任务,微调预训练语言模型,编码领域术语实体解释文本得到领域术语实体语义词向量;
步骤2、通过关系抽取模型,构建领域术语知识图谱,并通过领域术语知识图谱构建实体关系矩阵;
步骤3、通过实体关系矩阵校正所述领域术语实体语义词向量,输出包含专业领域语义与结构信息的实体词向量集。
2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
步骤11、通过领域术语解释文本的数据特征,定义领域术语之间的关系;
步骤12、标记领域术语解释文本的原始语料,在原始语料中通过第一特殊符号标记头实体的开始位置及结束位置,通过第二特殊符号标记尾实体的开始位置及结束位置,将每条语料中头实体和尾实体之间的关系拼接到句首并通过加注第三特殊符号作为该条语料的关系标签;通过预训练语言模型的分词器,以字为粒度对语料进行切分,将每条解释文本序列,拼接成预设字符长度的输入序列;
步骤13、将处理后的输入序列输入至预训练语言模型,所述模型将每条输入序列转换为向量矩阵,通过多层自注意力机制层进行编码,得到每个子词的向量表示;抽取句向量代表及术语实体对向量,并通过若干全连接层映射至同一语义空间后进行拼接,输入至全连接层后,再连接SoftMax层预测关系;
步骤14、通过多轮训练,当模型关系抽取任务损失函数值收敛至稳定值后,保存模型,通过微调后的预训练语言模型编码领域术语实体,根据实体掩码序列将头尾实体的向量表示进行输出,得到该领域的术语实体词向量。
3.根据权利要求2所述的方法,其特征在于,所述步骤11中定义领域术语的方法包括:基于显示关系的关键词,定义五类关系:属种关系、整体部分关系、同义关系、反义关系及其他关系。
4.根据权利要求2所述的方法,其特征在于,所述步骤2包括:
步骤21、基于原始语料,构建与每条原始语料对应的索引,将所述索引及原始语料输入关系抽取模型,输出关系标签,并得到由原始语料中的术语实体对及所述关系标签构成的三元组;
步骤22、将若干个三元组,通过关系连接成领域术语知识图谱,并将关系权重赋值,得到权重矩阵;
步骤23、基于所述领域术语知识图谱构建实体关系矩阵。
5.根据权利要求4所述的方法,其特征在于,所述步骤23包括:将领域术语知识图谱中N个术语节点构建成N*N邻接矩阵,通过范数归一方法,将某个术语节点到其余术语节点的权重归一化,通过正点互信息计算,将权重矩阵转化为实体关系矩阵。
6.根据权利要求5所述的方法,其特征在于,在得到实体关系矩阵后还进行降维处理,具体包括:通过SVD奇异值将实体关系矩阵分解为m*m维左奇异矩阵、奇异值对角矩阵(m*n维,仅对角线有值,其余全为0)和n*n维右奇异矩阵;选取前K个奇异值,则左奇异矩阵从m*m维下降为m*k维,右奇异矩阵从n*n维下降为k*n维。
8.根据权利要求7所述的方法,其特征在于,所述迭代结束条件为达到预设迭代次数。
9.一种专业领域术语实体词向量自校正系统,其特征在于,包括:数据采集模块、数据处理模块及结果生成模块:
所述数据采集模块,用于采集领域术语原始语料;
所述数据处理模块包括预处理单元、模型训练单元、关系抽取单元、语义向量编码单元、术语图谱构建单元、结构矩阵构建单元及校正单元:
所述预处理单元,标记所述领域术语原始语料,构建关系抽取模型的训练集;
所述模型训练单元,基于所述训练集,训练所述关系抽取模型;
所述关系抽取单元,基于所述领域术语原始语料,通过训练后的所述关系抽取模型,抽取术语实体对所对应的关系,得到三元组;
所述语义向量编码单元,用于从所述关系抽取模型的编码层获取术语实体词向量;
所述术语图谱构建单元,用于将所述三元组通过关系连接成领域术语知识图谱;
所述结构矩阵构建单元,用于将所述领域术语知识图谱中的结构信息记录并转化为实体关系矩阵;
所述校正单元,通过所述实体关系矩阵校正术语实体词向量;
所述结果生成模块,用于将校正后的术语实体词向量整理成实体词向量集并外发。
10.一种专业领域术语实体词向量自校正装置,其特征在于,包括处理器、存储器及总线,所述存储器存储可由处理器读取的指令及数据;所述处理器用于调用所述存储器中的指令及数据,以执行如权利要求1~8任一所述的方法;所述总线连接各功能部件之间传送信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310147442.8A CN116383398A (zh) | 2023-02-20 | 2023-02-20 | 一种专业领域术语实体词向量自校正方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310147442.8A CN116383398A (zh) | 2023-02-20 | 2023-02-20 | 一种专业领域术语实体词向量自校正方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116383398A true CN116383398A (zh) | 2023-07-04 |
Family
ID=86975849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310147442.8A Pending CN116383398A (zh) | 2023-02-20 | 2023-02-20 | 一种专业领域术语实体词向量自校正方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383398A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116564539A (zh) * | 2023-07-10 | 2023-08-08 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
-
2023
- 2023-02-20 CN CN202310147442.8A patent/CN116383398A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116564539A (zh) * | 2023-07-10 | 2023-08-08 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
CN116564539B (zh) * | 2023-07-10 | 2023-10-24 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN110968660B (zh) | 基于联合训练模型的信息抽取方法和系统 | |
CN110647620B (zh) | 一种基于置信超平面和词典信息的知识图谱表示学习方法 | |
US20230244704A1 (en) | Sequenced data processing method and device, and text processing method and device | |
CN111753024A (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN110348012B (zh) | 确定目标字符的方法、装置、存储介质及电子装置 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN112860904B (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
US20210081612A1 (en) | Relationship estimation model learning device, method, and program | |
CN112463924B (zh) | 面向智能问答基于内部相关性编码的文本意图匹配方法 | |
Yin et al. | Sentiment lexical-augmented convolutional neural networks for sentiment analysis | |
CN111930894B (zh) | 长文本匹配方法及装置、存储介质、电子设备 | |
CN112905762A (zh) | 一种基于同等注意力图网络的视觉问答方法 | |
CN116383398A (zh) | 一种专业领域术语实体词向量自校正方法、系统及装置 | |
CN110795558B (zh) | 标签获取方法和装置、存储介质及电子装置 | |
CN112463989A (zh) | 一种基于知识图谱的信息获取方法及系统 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN109033304B (zh) | 基于在线深层主题模型的多模态检索方法 | |
CN114398943A (zh) | 样本增强方法及其装置 | |
CN113824575B (zh) | 故障节点识别的方法、装置、计算设备及计算机存储介质 | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN115423105A (zh) | 一种预训练语言模型构建方法、系统及装置 | |
CN115545005A (zh) | 一种融合知识和约束图的远程监督关系抽取方法 | |
CN112131363B (zh) | 自动问答方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |