CN116362221A - 融合多模态语义关联图谱的航空文献关键词相似度判定方法 - Google Patents
融合多模态语义关联图谱的航空文献关键词相似度判定方法 Download PDFInfo
- Publication number
- CN116362221A CN116362221A CN202310402987.9A CN202310402987A CN116362221A CN 116362221 A CN116362221 A CN 116362221A CN 202310402987 A CN202310402987 A CN 202310402987A CN 116362221 A CN116362221 A CN 116362221A
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- aviation
- similarity
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 68
- 238000012549 training Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000000877 morphologic effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000004927 fusion Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种融合多模态语义关联图谱的航空文献关键词相似度判定方法,其包括:获取航空领域关键词,构建航空文献关键词的关联关系图谱;构建航空文献关键词多模态关联图谱并基于获取的数据集构建图像‑文本跨模态检索模型;构建多维度相似词语召回排序模型,计算融合文本内容和图像内容的航空关键词语义相似度并构建相似关键词词典;本发明构建的航空领域航空文献以及关键词的关联关系图谱,提高航空领域关键词质量;以多模态关联图谱的形式构建的关键词之间的内在联系,优化关键词之间语义表达仅能针对文本一个模态信息的问题;通过构建的融合文本和图像的语义相似度计算模型,形成可以用于航空标准领域搜索引擎的近义词词典。
Description
技术领域
本发明属于航空信息处理领域,特别涉及一种融合多模态语义关联图谱的航空文献关键词相似度判定方法。
背景技术
在航空标准知识服务系统应用过程中,用户的一个重点需求就是对已有标准的相似度查询,关系到新标准的立项和已有标准的沿用。标准知识服务系统的搜索引擎主要以关键词作为召回和排序的依据,用户在使用过程中经常需要输入多个语义相近的关键词才能获取到完善、准确、无遗漏的结果,这使得标准查询效率低下,往往可能会造成查询结果的遗漏。针对航空标准知识服务系统中的搜索引擎可以通过引入相似关键词词典的方式以提高语义搜索的召回率,但是在构建航空领域语义相似词词典时问题较多,主要包括以下几个方面:
当前航空领域权威的关键词词库数量很少,缺少质量高、数量足、可用性强的同义词、近义词词表;在判断语义相似度的过程中,主要依靠自然语言处理的方式来判定相似度,对于词汇这种短文本,由于缺少足够的上下文信息导致效果不好;在判断航空领域词汇语义相似度时主要通过机器学习的方式进行航空领域词汇相似度学习的方法需要人工标注大量的语料并进行训练才可得到相似度判定模型。
本发明主要解决下述三个问题:
1、通过构建航空领域航空文献以及关键词的关联关系图谱,解决航空领域高质量关键词缺失的问题;
2、通过构建航空领域多模态关联图谱,表示出关键词之间的文本语义联系和图像内容联系,以多模态关联图谱的形式构建关键词之间的内在联系,解决关键词之间语义表达只有文本一个模态信息的问题;
3、通过构建一套无监督融合文本内容和图像内容的语义相似度计算模型,计算关键词之间的相似关系,形成可以用于航空标准领域搜索引擎的近义词词典,解决关键词语义相似度判断方法缺失的问题。
发明内容
本发明的目的是构建航空领域航空文献以及关键词的关联关系图谱,获取航空领域高质量的可用关键词,构建航空领域多模态关联图谱,表示出关键词之间的文本语义联系和图像内容联系,进而构建融合多模态语义关联图谱的航空文献关键词相似度判定方法,形成可以用于航空标准领域搜索引擎的近义词词典,解决关键词语义相似度判断方法不准确的问题。
为实现上述目标,本发明提供了一种融合多模态语义关联图谱的航空文献关键词相似度判定方法,其具体包括以下步骤:
S1、构建航空文献关键词的关联关系图谱;
S11、获取航空领域关键词,构建航空文献的关键词数据集;利用航空标准库中的标准名称作为输入,根据文献题录利用互联网检索与航空标准相关的航空文献以及关键词信息,作为航空文献关键词数据集;
S12、针对每个关键词wi,进行词频统计,将所有的关键词作为集合W,关键词wi∈W,其词频c(wi)是关键词wi在航空文献关键词数据集中出现的次数;
S13、若一关键词wi与检索对象关键词wj在同一篇航空文献的关键词列表中出现,则定义所述关键词wi与检索对象关键词wj存在直接共现关系,关键词wi与检索对象关键词wj的共现概率计算方法为:将所有的关键词作为W,关键词wi∈W,检索对象关键词wj∈W,在此情况下关键词wi出现时检索对象关键词wj出现的概率为p(wj|wi):
其中p(wj|wi)表示关键词wi出现时检索对象wj出现的概率,c(wi,wj)表示wi与wj同时出现的次数,c(wi)表示关键词wi出现的次数;
S14、借助步骤S13的计算结果,获取全部关键词的共现矩阵M,其中共现矩阵向量Mij表示p(wj|wi);
S15、构建面向航空文献题目的句向量编码器,对航空文献题目进行特征提取,构建航空文献题目之间的相似度关系;
S16、将步骤S15获取的每个航空文献题目之间的余弦相似度的前端结果用图的形式表示,构建航空文献关键词的关联关系图谱;图谱中节点包括文献题目、文献关键词以及文献题目包含关键词,关系包括其中,Ti表示第i个文献题目,Wi表示第i个关键词,指的是Ti文献中包含Wi关键词;/>其中,Ti表示第i个文献题目,Tj表示第j个文献题目,Simcosij表示Ti与Tj之间的相似度,指的是第i个文献题目Ti和第j个文献题目Tj之间具备Simcosij相似度,/>其中Wi表示第i个文献关键词,Wj表示第j个文献关键词,指的是关键词Wi出现时关键词Wj同时出现的概率;
S2、构建航空文献关键词多模态关联图谱;
S21、借助步骤S11获取的关键词,利用第一图片搜索和第二图片搜索,获取与关键词相关的图像;
S22、进行图像清洗,去除掉文件损坏的图像以及gif格式图像,并将png、jpeg格式的图像均转换为jpg格式的图像,形成具备关键词标签的第一图像数据集,对于每张图像ik,均有标签ik-l∈W;
S23、图像的多维特征描述符计算;针对步骤S21以及步骤S22获取的第一图像数据集,分别计算深度神经网络描述符、灰度直方图描述符、颜色布局描述符、颜色矩描述符以及方向梯度直方图描述符;
S24、图像-文本跨模态检索模型训练;针对步骤S22获取的第一图像数据集,构建图像-文本跨模态检索模型;
S3、构建多维度相似词语召回排序模型,计算融合文本内容和图像内容的航空关键词语义相似度;
S31、构建基于词形相似度的召回排序模型;
S32、构建基于词义相似度的召回排序模型;
S33、获取相似候选词序列;给出任意一个关键词wi,获取与关键词wi相似的候选词列表Wcan;
进一步,步骤S15具体包括以下步骤:
S151、将航空文献题目作为训练数据,用SimCSE模型无监督训练文本句向量编码器;
S152、将训练好的编码器对所有航空文献题目进行向量编码,并计算每个航空文献题目之间的余弦相似度,取相似度前端结果进行分析:
其中,A,B分别表示两个文献题目的特征向量,Ai,Bi分别表示每一维特征向量的数值。
进一步,步骤S23具体包括以下步骤:
其中,pr(rk)是图像的是像素的灰度级,nk是具有灰度rk的像素的个数,n是图像中总的像素个数;
进一步,步骤S24具体包括以下步骤:
S241、根据第一图像数据集得到图像ik与标签ik-label,将标签ik-label扩展内容描述ik-sentence,内容描述ik-sentence与图像ik组成文本-图像对P;
S242、构建文本编码器,使用Transformer模型,生成文本模态向量vT,向量维度为N;
S243、构建图像编码器,使用ResNet和Vision Transformer(ViT)模型,生成图像模态向量vI维度为N;
S244、将文本模态向量vT和图像模态向量vI线性投射到同一向量空间,计算两模态之间的余弦相似度,从而使N个匹配的图文对相似度最大,不匹配的图文对相似度最小,使用对称的交叉熵损失cross-entropy loss进行训练,训练过程中选取60%的图片进行随机裁剪增强;
S245、对模型进行训练,获取文本-图像跨模态检索模型crosssearchtxt-img。
进一步,步骤S31具体包括以下步骤:
S311、构建分词词典dic,分词词典dic中包含目标领域内的术语和关键词;
S312、利用分词工具和分词词典dic对所有关键词W进行细粒度分词;
S313、针对关键词W以及相对应进行细粒度分词后的特征词FW,利用BM25算法定义关键词wi与关键词wj之间的关键词相似度值,给定一个关键词wi,其中包含特征词fwi1,fwi2…fwin,关键词wj与关键词wi的相关性分数scorekeyword(wj,wi)为:
其中IDF(fwik)表示查询项的逆文档频率,衡量这个特征词提供了多少信息;f(fwik,wj)表示特征词fwik在关键词wj中出现的频率,k1,b表示调节因子,通常k1=2,b=0.75,,其中|wj|表示关键词wj的长度,avgdl表示为所有关键词的平均长度。
进一步,步骤S32具体包括以下步骤:
S322、借助余弦相似度来获取关键词wi与关键词wj之间的向量相似度值scoreveccos(wi,wj):
优选的,步骤S33具体包括以下步骤:
S331、通过步骤S313中的词形相似度计算公式,从所有关键词W中获取与wi具备词形相似度排名前五关键词候选列表Wkcan,按词形相似度值从高到底排列包括wkcan1,wkcan2,wkcan3,wkcan4,wkcan5,后进行归一化处理,获取候选关键词wkcanj与关键词wi的词形相似度值scorekeyword(wkcanj,wi),j=1…5;
S332、通过步骤S322中的词义相似度计算公式,从所有关键词W中得到与wi具备词义相似度排名前五关键词列表的关键词列表Wvcan:wvcan1,wvcan2,wvcan3,wvcan4,wvcan5,词义相似度值从高到底排列,并进行归一化处理,获取候选关键词wkcanj与关键词wi的词义相似度值scoreveccos(wi,wvcanj),j=1…5;
S333、将步骤S331和步骤S332中获取的候选词进行合并,获取综合候选词序列Wcan=Wkcan∪Wvcan,Wkcan是所有词形相似的候选关键词列表,Wvcan是所有词义相似的候选关键词列表,其中每个候选关键词的相似度值为:
优选的,步骤S34具体包括以下步骤:
S341、定义共同共现词termco,其中termco与目标关键词w在同一篇航空文献的关键词列表中出现;同时termco与候选关键词wcan也在同一篇航空文献的关键词中出现;具有此关系时称目标关键词w与候选关键词wcan具备间接共现关系;
S342、利用步骤S1获取的航空文献关键词的关联关系图谱,计算间接共现相似度值;
优选的,步骤S35具体包括以下步骤:
S351、将目标关键词w输入步骤S24构建的文本-图像跨模态检索模型crosssearchtxt-img,获取结果排名第一的图像结果Iw;
优选的,在步骤S244中,使N个匹配的图文对相似度最大,不匹配的图文对相似度最小的判断表达式为:
其中,yi表示第i个图文对,匹配为1,不匹配为0,pi是模型将图文对yi预测为正例的概率,N为图文对的个数。
与现有技术相比,本发明具有以下有益效果:
1、通过构建航空领域航空文献以及关键词的关联关系图谱,充分挖掘了一个领域内航空文献中关键词之间的关系和隐含的相似度逻辑,扩充了关键词词库,解决航空领域高质量关键词缺失的问题;
2、通过构建航空领域多模态关联图谱,表示出关键词之间的文本语义联系和图像内容联系,以多模态关联图谱的形式构建关键词之间的内在联系,解决关键词之间语义表达只有文本一个模态信息的问题;
3、通过构建一套无监督融合文本内容和图像内容的语义相似度计算模型,融合了文本模态在词形和词义两方面的相似特征,以及图像模态的视觉特征来挖掘关键词之间的语义关系,计算关键词之间的相似度,形成可以用于航空标准领域搜索引擎的近义词词典,解决关键词语义相似度判断方法缺失的问题。
附图说明
图1为本发明融合多模态语义关联图谱的航空文献关键词相似度判定方法的流程框图;
图2为本发明构建的航空文献关键词的关联关系图谱示意图;
图3为本发明融合多模态语义关联图谱的航空文献关键词相似度判定方法中颜色布局描述符的计算方法流程图;
图4为本发明融合多模态语义关联图谱的航空文献关键词相似度判定方法中方向梯度直方图描述符的计算方法流程图;
图5为本发明融合多模态语义关联图谱的航空文献关键词相似度判定方法训练得到的文本-图像跨模态检索模型crosssearchtxt-img示意图。
具体实施方式
以下将参考附图详细说明本发明的示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
如图1所示,本发明提供一种的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其包括:
S1、构建航空文献关键词的关联关系图谱;
S11、获取航空领域关键词,构建航空文献的关键词数据集;利用航空标准库中的标准名称作为输入,从互联网,例如知网开放的论文题录查询接口中检索与航空标准相关的科研论文以及关键词信息,作为航空领域的关键词库。
S12、针对每个关键词wi,进行词频统计,将所有的关键词作为集合W,关键词wi∈W,其词频c(wi)是关键词wi在航空文献关键词数据集中出现的次数;
S13、若一关键词wi与检索对象关键词wj在同一篇航空文献的关键词列表中出现,则定义所述关键词wi与检索对象关键词wj存在直接共现关系,wi与wj的共现概率计算方法为:将所有的关键词作为W,关键词wi∈W,检索对象关键词wj∈W,在此情况下关键词wi出现时检索对象关键词wj出现的概率为p(wj|wi):
其中p(wj|wi)表示关键词wi出现时检索对象wj出现的概率,c(wi,wj)表示wi与wj同时出现的次数,c(wi)表示关键词wi出现的次数;
S14、借助步骤S13的计算结果,获取全部关键词的共现矩阵M,其中共现矩阵向量Mij表示p(wj|wi);
S15、构建面向航空文献题目的句向量编码器,对航空文献题目进行特征提取,构建航空文献题目之间的相似度关系;
S151、将航空文献题目作为训练数据,用SimCSE模型无监督训练文本句向量编码器。
S152、将训练好的编码器对所有航空文献题目进行向量编码,并计算每个航空文献题目之间的余弦相似度,取相似度前端、即相似度排名前十位的结果:
其中,A,B分别表示两个文献题目的特征向量,Ai,Bi分别表示每一维特征向量的数值。
S16、将步骤S15获取的每个航空文献题目之间的余弦相似度的前端结果用图的形式表示,构建航空文献关键词的关联关系图谱;图谱中节点包括文献题目、文献关键词以及文献题目包含关键词,关系包括其中,Ti表示第i个文献题目,Wi表示第i个关键词,指的是Ti文献中包含Wi关键词;/>其中,Ti表示第i个文献题目,Tj表示第j个文献题目,Simcosij表示Ti与Tj之间的相似度,指的是第i个文献题目Ti和第j个文献题目Tj之间具备Simcosij相似度,/>其中Wi表示第i个文献关键词,Wj表示第j个文献关键词,指的是关键词Wi出现时关键词Wj同时出现的概率;
S2、构建航空领域关键词多模态关联图谱。
S21、借助步骤S11获取的关键词,利用第一图片搜索和第二图片搜索,获取与关键词相关的图像,其中第一图片搜索为google图片搜索,第二图片搜索为bing图片搜索。
S22、进行图像清洗,去除掉文件损坏的图像以及gif格式图像,并将png、jpeg格式的图像均转换为jpg格式的图像,形成具备关键词标签的第一图像数据集,对于每张图像ik,均有标签ik-lab∈W。
S23、图像的多维特征描述符计算;针对步骤S21以及步骤S22获取的第一图像数据集,分别计算深度神经网络描述符、灰度直方图描述符、颜色布局描述符、颜色矩描述符以及方向梯度直方图描述符。
其中,pr(rk)是图像的是像素的灰度级,nk是具有灰度rk的像素的个数,n是图像中总的像素个数。
S233、计算颜色布局描述符,如图3所示,颜色布局描述符是mpeg-7多媒体内容标准描述中一种高效的局部颜色特征描述,提取过程包括图像分割、代表颜色选择、DCT变换和Z字形扫描,最终获取颜色布局特征向量
S24、图像-文本跨模态检索模型训练;针对步骤S22获取的第一图像数据集,构建图像-文本跨模态检索模型,主要包括训练数据集、文本编码器、图像编码器,通过训练得到航空领域关键词图文跨模态检索模型。
S241、根据第一图像数据集得到图像ik与标签ik-label,将标签ik-label扩展内容描述ik-sentence,内容描述ik-sentence与图像ik组成文本-图像对P。
S242、构建文本编码器,使用Transformer模型,生成文本模态向量vT,向量维度为N。
S243、构建图像编码器,使用ResNet和Vision Transformer(ViT)模型,生成图像模态向量vI维度为N。
S244、将文本模态向量vT和图像模态向量vI线性投射到同一向量空间,计算两模态之间的余弦相似度,使N个匹配的图文对相似度最大,不匹配的图文对相似度最小,其判定表达式为:
其中,yi表示第i个图文对,匹配为1,不匹配为0,pi是模型将图文对yi预测为正例的概率,N为图文对的个数。
使用对称的交叉熵损失cross-entropy loss进行训练,训练过程中随机选取60%的图片进行随机裁剪增强。
S245、对模型进行训练,获取的文本-图像跨模态检索模型crosssearchtxt-img如图5所示。
S3、构建多维度相似词语召回排序模型,计算融合文本内容和图像内容的航空关键词语义相似度;多维度相似词语召回排序模型主要通过构建关键词之间的词形相似性simword(i,j)和词义相似性simvec(i,j),综合计算关键词i和关键词j之间的相似程度。
S31、构建基于词形相似度的召回排序模型。
S311、构建分词词典dic,分词词典dic中包含目标领域内的术语和关键词。
S312、利用分词工具和词典dic对所有关键词W进行细粒度分词,每个关键词wi的特征词,如“拉瓦尔喷管”可分为“拉瓦尔喷管”、“拉瓦尔”和“喷管”三个特征词。
S313、针对关键词W以及相对应进行细粒度分词后的特征词FW,利用BM25算法定义关键词wi与关键词wj之间的关键词相似度值,给定一个关键词wi,其中包含特征词fwi1,fwi2…fwin,关键词wj与关键词wi的相关性分数scorekeyword(wj,wi)为:
其中IDF(fwik)表示查询项的逆文档频率,衡量这个特征词提供了多少信息;f(fwik,wj)表示特征词fwik在关键词wj中出现的频率,k1,b表示调节因子,通常k1=2,b=0.75,,其中|wj|表示关键词wj的长度,avgdl表示为所有关键词的平均长度。
S32、构建基于词义相似度的召回排序模型。
S322、借助余弦相似度来获取关键词wi与关键词wj之间的向量相似度值scoreveccos(wi,wj):
S33、获取相似候选词序列;给出任意一个关键词wi,获取与wi相似的候选词列表Wcan。
S331、通过步骤S313中的词形相似度计算公式,从所有关键词W中获取与wi具备词形相似度排名前五关键词候选列表Wkcan,按词形相似度值从高到底排列包括wkcan1,wkcan2,wkcan3,wkcan4,wkcan5,后进行归一化处理,获取候选关键词wkcanj与关键词wi的词形相似度值scorekeyword(wkcanj,wi),j=1…5。
S332、通过步骤S322中的词义相似度计算公式,从所有关键词W中得到与wi具备词义相似度排名前五关键词列表的关键词列表Wvcan:wvca,wvcan2,wvcan3,wvcan4,wvcan5,词义相似度值从高到底排列,并进行归一化处理,获取候选关键词wkcanj与关键词wi的词义相似度值scoreveccos(wi,wvcanj),j=1…5。
S333、将步骤S331和步骤S332中获取的候选词进行合并,获取综合候选词序列Wcan=Wkcan∪Wvcan,Wkcan是所有词形相似的候选关键词列表,Wvcan是所有词义相似的候选关键词列表,其中每个候选关键词的相似度值为:
S341、定义共同共现词termco,其中termco与目标关键词w在同一篇航空文献的关键词列表中出现;同时termco与候选关键词wcan也在同一篇航空文献的关键词中出现;具有此关系时称目标关键词w与候选关键词wcan具备间接共现关系。
S342、利用步骤S1获取的航空文献关键词的关联关系图谱,计算间接共现相似度值。
S351、将目标关键词w输入步骤S24构建的文本-图像跨模态检索模型crosssearchtxt-img,获取结果排名第一的图像结果Iw。
本发明通过扩大领域关键词的近义词词库的手段,进而提高领域搜索/推荐引擎对于用户输入关键词的联想能力。利用航空文献中的关键词以及互联网上的相关图像,构建了可以表达关键词关联关系的多模态图谱,利用机器学习和图谱分析技术挖掘更多的近义关键词。通过构建一套无监督融合文本内容和图像内容的语义相似度计算模型,融合了文本模态在词形和词义两方面的相似特征,以及图像模态的视觉特征来挖掘关键词之间的语义关系,计算关键词之间的相似度,形成可以用于航空标准领域搜索引擎的近义词词典,解决关键词语义相似度判断方法缺失的问题。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (10)
1.一种融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于:其包括以下步骤:
S1、构建航空文献关键词的关联关系图谱;
S11、获取航空领域关键词,构建航空文献的关键词数据集;利用航空标准库中的标准名称作为输入,根据文献题录利用互联网检索与航空标准相关的航空文献以及关键词信息,作为航空文献关键词数据集;
S12、针对每个关键词wi,进行词频统计,将所有的关键词作为集合W,关键词wi∈W,其词频c(wi)是关键词wi在航空文献关键词数据集中出现的次数;
S13、若一关键词wi与检索对象关键词wj在同一篇航空文献的关键词列表中出现,则定义所述关键词wi与检索对象关键词wj存在直接共现关系,关键词wi与检索对象关键词wj的共现概率计算方法为:将所有的关键词作为W,关键词wi∈W,检索对象关键词wj∈W,在此情况下关键词wi出现时检索对象关键词wj出现的概率为p(wj|wi):
其中p(wj|wi)表示关键词wi出现时检索对象wj出现的概率,c(wi,wj)表示wi与wj同时出现的次数,c(wi)表示关键词wi出现的次数;
S14、借助步骤S13的计算结果,获取全部关键词的共现矩阵M,其中共现矩阵向量Mij表示p(wj|wi);
S15、构建面向航空文献题目的句向量编码器,对航空文献题目进行特征提取,构建航空文献题目之间的相似度关系;
S16、将步骤S15获取的每个航空文献题目之间的余弦相似度的前端结果用图的形式表示,构建航空文献关键词的关联关系图谱;图谱中节点包括文献题目、文献关键词以及文献题目包含关键词,关系包括其中,Ti表示第i个文献题目,Wi表示第i个关键词,指的是Ti文献中包含Wi关键词;/>其中,Ti表示第i个文献题目,Tj表示第j个文献题目,Simcosij表示Ti与Tj之间的相似度,指的是第i个文献题目Ti和第j个文献题目Tj之间具备Simcosij相似度,/>其中Wi表示第i个文献关键词,Wj表示第j个文献关键词,指的是关键词Wi出现时关键词Wj同时出现的概率;
S2、构建航空文献关键词多模态关联图谱;
S21、借助步骤S11获取的关键词,利用第一图片搜索和第二图片搜索,获取与关键词相关的图像;
S22、进行图像清洗,去除掉文件损坏的图像以及gif格式图像,并将png、jpeg格式的图像均转换为jpg格式的图像,形成具备关键词标签的第一图像数据集,对于每张图像ik,均有标签ik-label∈W;
S23、图像的多维特征描述符计算;针对步骤S21以及步骤S22获取的第一图像数据集,分别计算深度神经网络描述符、灰度直方图描述符、颜色布局描述符、颜色矩描述符以及方向梯度直方图描述符;
S24、图像-文本跨模态检索模型训练;针对步骤S22获取的第一图像数据集,构建图像-文本跨模态检索模型;
S3、构建多维度相似词语召回排序模型,计算融合文本内容和图像内容的航空关键词语义相似度;
S31、构建基于词形相似度的召回排序模型;
S32、构建基于词义相似度的召回排序模型;
S33、获取相似候选词序列;给出任意一个关键词wi,获取与关键词wi相似的候选词列表Wcan;
3.根据权利要求2所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S23具体包括以下步骤:
其中,pr(rk)是图像的是像素的灰度级,nk是具有灰度rk的像素的个数,n是图像中总的像素个数;
4.根据权利要求3所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S24具体包括以下步骤:
S241、根据第一图像数据集得到图像ik与标签ik-lab,将标签ik-label扩展内容描述ik-sentence,内容描述ik-sentence与图像ik组成文本-图像对P;
S242、构建文本编码器,使用Transformer模型,生成文本模态向量vT,向量维度为N;
S243、构建图像编码器,使用ResNet和Vision Transformer(ViT)模型,生成图像模态向量vI维度为N;
S244、将文本模态向量vT和图像模态向量vI线性投射到同一向量空间,计算两模态之间的余弦相似度,从而使N个匹配的图文对相似度最大,不匹配的图文对相似度最小,使用对称的交叉熵损失cross-entropy loss进行训练,训练过程中选取60%的图片进行随机裁剪增强;
S245、对模型进行训练,获取文本-图像跨模态检索模型crosssearchtxt-img。
5.根据权利要求1所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S31具体包括以下步骤:
S311、构建分词词典dic,分词词典dic中包含目标领域内的术语和关键词;
S312、利用分词工具和分词词典dic对所有关键词W进行细粒度分词;
S313、针对关键词W以及相对应进行细粒度分词后的特征词FW,利用BM25算法定义关键词wi与关键词wj之间的关键词相似度值,给定一个关键词wi,其中包含特征词fwi1,fwi2…fwin,关键词wj与关键词wi的相关性分数scorekeyword(wj,wi)为:
其中IDF(fwik)表示查询项的逆文档频率,衡量这个特征词提供了多少信息;f(fwik,wj)表示特征词fwik在关键词wj中出现的频率,k1,b表示调节因子,通常k1=2,b=0.75,,其中|wj|表示关键词wj的长度,avgdl表示为所有关键词的平均长度。
7.根据权利要求1所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S33具体包括以下步骤:
S331、通过步骤S313中的词形相似度计算公式,从所有关键词W中获取与wi具备词形相似度排名前五关键词候选列表Wkcan,按词形相似度值从高到底排列包括wkcan1,wkcan,wkcan,wkcan4,wkcan5,后进行归一化处理,获取候选关键词wkcanj与关键词wi的词形相似度值scorekeyword(wkcanj,wi),j=1…5;
S332、通过步骤S322中的词义相似度计算公式,从所有关键词W中得到与wi具备词义相似度排名前五关键词列表的关键词列表Wvcan:wvcan1,wvcan2,wvcan3,wvcan4,wvcan,词义相似度值从高到底排列,并进行归一化处理,获取候选关键词wkcanj与关键词wi的词义相似度值scoreveccos(wi,wvcanj),j=1…5;
S333、将步骤S331和步骤S332中获取的候选词进行合并,获取综合候选词序列Wcan=Wkcan∪Wvcan,Wkcan是所有词形相似的候选关键词列表,Wvcan是所有词义相似的候选关键词列表,其中每个候选关键词的相似度值为:
8.根据权利要求1所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S34具体包括以下步骤:
S341、定义共同共现词termco,其中termco与目标关键词w在同一篇航空文献的关键词列表中出现;同时termco与候选关键词wcan也在同一篇航空文献的关键词中出现;具有此关系时称目标关键词w与候选关键词wcan具备间接共现关系;
S342、利用步骤S1获取的航空文献关键词的关联关系图谱,计算间接共现相似度值;
9.根据权利要求1所述的融合多模态语义关联图谱的航空文献关键词相似度判定方法,其特征在于,步骤S35具体包括以下步骤:
S351、将目标关键词w输入步骤S24构建的文本-图像跨模态检索模型crosssearchtxt-img,获取结果排名第一的图像结果Iw;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310402987.9A CN116362221A (zh) | 2023-04-14 | 2023-04-14 | 融合多模态语义关联图谱的航空文献关键词相似度判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310402987.9A CN116362221A (zh) | 2023-04-14 | 2023-04-14 | 融合多模态语义关联图谱的航空文献关键词相似度判定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116362221A true CN116362221A (zh) | 2023-06-30 |
Family
ID=86908821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310402987.9A Pending CN116362221A (zh) | 2023-04-14 | 2023-04-14 | 融合多模态语义关联图谱的航空文献关键词相似度判定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116362221A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776854A (zh) * | 2023-08-25 | 2023-09-19 | 湖南汇智兴创科技有限公司 | 在线多版本文献内容关联方法、装置、设备及介质 |
CN117763239A (zh) * | 2024-01-10 | 2024-03-26 | 人民网股份有限公司 | 信息推荐方法及装置、计算设备、计算机存储介质 |
CN117910460A (zh) * | 2024-03-18 | 2024-04-19 | 国网江苏省电力有限公司南通供电分公司 | 一种基于bge模型的电力科研知识关联性构建方法及系统 |
CN117932161A (zh) * | 2024-03-22 | 2024-04-26 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
CN118332091A (zh) * | 2024-06-06 | 2024-07-12 | 中电信数智科技有限公司 | 基于大模型技术的古籍知识库智能问答方法、装置和设备 |
-
2023
- 2023-04-14 CN CN202310402987.9A patent/CN116362221A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776854A (zh) * | 2023-08-25 | 2023-09-19 | 湖南汇智兴创科技有限公司 | 在线多版本文献内容关联方法、装置、设备及介质 |
CN116776854B (zh) * | 2023-08-25 | 2023-11-03 | 湖南汇智兴创科技有限公司 | 在线多版本文献内容关联方法、装置、设备及介质 |
CN117763239A (zh) * | 2024-01-10 | 2024-03-26 | 人民网股份有限公司 | 信息推荐方法及装置、计算设备、计算机存储介质 |
CN117910460A (zh) * | 2024-03-18 | 2024-04-19 | 国网江苏省电力有限公司南通供电分公司 | 一种基于bge模型的电力科研知识关联性构建方法及系统 |
CN117910460B (zh) * | 2024-03-18 | 2024-06-07 | 国网江苏省电力有限公司南通供电分公司 | 一种基于bge模型的电力科研知识关联性构建方法及系统 |
CN117932161A (zh) * | 2024-03-22 | 2024-04-26 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
CN117932161B (zh) * | 2024-03-22 | 2024-05-28 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
CN118332091A (zh) * | 2024-06-06 | 2024-07-12 | 中电信数智科技有限公司 | 基于大模型技术的古籍知识库智能问答方法、装置和设备 |
CN118332091B (zh) * | 2024-06-06 | 2024-08-09 | 中电信数智科技有限公司 | 基于大模型技术的古籍知识库智能问答方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116362221A (zh) | 融合多模态语义关联图谱的航空文献关键词相似度判定方法 | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
Rath et al. | A search engine for historical manuscript images | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
WO2018120899A1 (zh) | 一种商标查询结果近似度评价和排序方法、装置 | |
WO2023065617A1 (zh) | 基于预训练模型和召回排序的跨模态检索系统及方法 | |
CN107480200B (zh) | 基于词标签的词语标注方法、装置、服务器及存储介质 | |
CN112270188B (zh) | 一种提问式的分析路径推荐方法、系统及存储介质 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
CN114461839B (zh) | 基于多模态预训练的相似图片检索方法、装置及电子设备 | |
CN114048354B (zh) | 基于多元表征和度量学习的试题检索方法、装置及介质 | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN115270738A (zh) | 一种研报生成方法、系统及计算机存储介质 | |
CN114048305A (zh) | 一种基于图卷积神经网络的行政处罚文书的类案推荐方法 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN109492168A (zh) | 一种基于旅游照片的可视化旅游兴趣推荐信息生成方法 | |
CN112148886A (zh) | 一种内容知识图谱的构建方法及系统 | |
Wei et al. | Representing word image using visual word embeddings and RNN for keyword spotting on historical document images | |
Gong et al. | A semantic similarity language model to improve automatic image annotation | |
CN112836008B (zh) | 基于去中心化存储数据的索引建立方法 | |
CN112989811B (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN113902764A (zh) | 基于语义的图像-文本的跨模态检索方法 | |
CN113342950A (zh) | 基于语义联合的答案选取方法及系统 | |
CN116775929A (zh) | 一种基于多层次细粒度语义对齐的跨模态检索方法 | |
Tian et al. | Research on image classification based on a combination of text and visual features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |