CN117910460A - 一种基于bge模型的电力科研知识关联性构建方法及系统 - Google Patents
一种基于bge模型的电力科研知识关联性构建方法及系统 Download PDFInfo
- Publication number
- CN117910460A CN117910460A CN202410306464.9A CN202410306464A CN117910460A CN 117910460 A CN117910460 A CN 117910460A CN 202410306464 A CN202410306464 A CN 202410306464A CN 117910460 A CN117910460 A CN 117910460A
- Authority
- CN
- China
- Prior art keywords
- keywords
- keyword
- electric power
- paraphrasing
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011160 research Methods 0.000 title claims abstract description 56
- 238000010276 construction Methods 0.000 title claims description 21
- 239000013598 vector Substances 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000007906 compression Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000005611 electricity Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000003381 stabilizer Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于BGE模型的电力科研知识关联性构建方法及系统,该方法包括以下步骤:收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库;获取电力领域关键词的释义,构建电力领域关键词词典;利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,将所得电力领域关键词词库的释义全部向量化;根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性和语境相关性。本发明将构建的电力领域关键词释义经过RetroMAE预训练和嵌入层,分别处理后进行向量的拼接,得到多维度的释义向量表示,从两个方向聚合对象语义信息,可得到每个层面的最终表征,保证了语义信息不被削弱,提高了语义表征的能力。
Description
技术领域
本发明涉及电力科研知识关联性构建技术领域,具体涉及基于BGE模型的电力科研知识关联性构建方法及系统。
背景技术
电力行业,在现代社会中扮演着关键的基础设施角色,其在全球范围内的重要性不可低估。电力科学研究领域拥有丰富的文献资源,这些资料蕴含着宝贵的信息。通过有效地挖掘和整理这些文献,可以有力支持电力领域的科研活动,推动解决现有问题和促进创新。此外,这些研究成果还能够为政策制定提供科学依据,从而更好地满足社会的电力需求。
电力科研知识关联性研究主要存在以下难点:
1)没有办法快速获得电力科研知识的关键词词库;
2)电力科研知识的关键词之间并没有关联;
3)网络上的电力科研知识很多,但是没有办法快速获得其中的关键词信息,来定位知识的细分领域。
因此,现有技术需要一种利用关键词本身蕴含的语义及其所在的语境来得到电力科研知识的关键词之间的相关性的方法,从而缓解相关性判断准确率不高和判断效率低的问题。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于BGE模型的电力科研知识关联性构建方法,解决了电力领域实体关系的关联性构建中由于没有深度研究关键词之间的相关性导致的准确率不高以及处理时间较长的问题,本发明还提供基于BGE模型的电力科研知识关联性构建系统。
技术方案:根据本发明的第一方面,提供基于BGE模型的电力科研知识关联性构建方法,该方法包括以下步骤:
S1收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库;
S2获取电力领域关键词的释义,构建电力领域关键词词典;
S3利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,最终将所得的电力领域关键词词库的释义全部向量化,以此来表示关键词的向量语义表征;
所述利用融合词典信息BGE模型对每个电力领域关键词的释义向量化包括:将待处理电力领域关键词的释义作为输入向量输入到RetroMAE预训练算法中,得到第一关键词释义向量化表示,将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示,将第一关键词释义向量化表示和第二关键词释义向量化表示进行拼接,得到待处理关键词的释义向量化表示;
S4根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性,并根据电力领域关键词词库的关联性计算语境相关性,并将计算结果可视化存储于Neo4j中。
进一步的,包括:
所述步骤S3中,将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示,具体包括:
S31将输入的关键词释义文本中的每一个字符t,所述关键词释义文本对应的长度为n,同时向前或者向后进行长度单位为1的字符组合,即共有n-1种字符组合,记为t 1~t n-1;
S32在构建的所述电力领域关键词典中的关键词匹配所有包含t i 的词,其中,,将所有匹配到的电力关键词分别编码到B(t)、M(t)、E(t)、S(t)四个集合中,其中,B(t)表示该电力关键词个数大于2且以t i 开头,M(t)表示该电力关键词中的t i 不在开头或结尾,E(t)表示该电力关键词字符个数大于2且以字符t i 结尾,S(t)表示该电力关键词仅由t i 组成;
S33获得每个字符所对应的B、M、E、S词语集合之后,对电力领域关键词的集合做压缩处理,其目的是将每个集合的词嵌入压缩为一个特征向量,即第二关键词释义向量化。
进一步的,包括:
所述特征向量表示为:/>其中,v(S)表示集合S对应的特征向量,/>是关键词经过预训练好的词嵌入层得到的向量表示,x s表示由上述四个词语集合生成的向量表示拼接后的维度特征向量;/>为集合B中电力领域关键词对应向量表示的长度,/>为集合M中电力领域关键词对应向量表示的长度,/>为集合E中电力领域关键词对应向量表示的长度,/>为集合S中电力领域关键词对应向量表示的长度。
进一步的,包括:
所述步骤S4中,根据电力领域关键词词库的关联性计算语境相关性具体包括:
利用爬取出的文献信息,构建电力领域关键词的共现矩阵,利用共现矩阵计算语境相关性,得到不同关键词的语境相关性的量化值,所述语境相关性采用逐点互信息与点二列联表联合衡量两个离散事件之间相关性的统计指标,计算方式如下:
;其中,P(w 1,w 2)是待检测关键词w 1和待检测关键词w 2在一篇文献中同时发生的概率,P(w 1)和P(w 2)分别是待检测关键词w 1和待检测关键词w 2在一篇文献中单独发生的概率,m表示爬取文献的总数,n表示的是/>,O ij 表示点二列联表表格中第i行第j列的观察到的频数也就是在某一篇文章i中待检测关键词w 1和待检测关键词w 2出现的频数,Related的值越大,证明两个待检测关键词之间的相关性越高。
进一步的,包括:
所述步骤S4中,根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性,具体包括:将通过融合词典信息BGE模型得到的含有关键词信息的空间向量进行相似度计算,得到关键词之间的相似度,并设定一个阈值,将关键词之间相似度大于该阈值的两个关键词定义为相似;
所述相似度的计算公式为:;其中,A i 与B i 表示两个待处理关键词对应维度下的释义的向量表示,n为两个待处理关键词的释义向量化表示的维度。
另一方面,本发明还提供基于BGE模型的电力科研知识关联性构建系统,该系统包括:
预处理模块,用于收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库;
词典构建模块,用于获取电力领域关键词的释义,构建电力领域关键词词典;
语义表征模块,用于利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,最终将所得的电力领域关键词词库的释义全部向量化,以此来表示关键词的向量语义表征;
所述语义表征模块,包括:
第一关键词释义向量化表示单元,用于将待处理电力领域关键词的释义作为输入向量输入到RetroMAE预训练算法中,得到第一关键词释义向量化表示;
第二关键词释义向量化表示单元,用于将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示;
拼接单元,用于将第一关键词释义向量化表示和第二关键词释义向量化表示进行拼接,得到待处理关键词的释义向量化表示;
语义相关性计算模块,用于根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性,并根据电力领域关键词词库的关联性计算语境相关性,并将计算结果可视化存储于Neo4j中。
进一步的,包括:
所述第二关键词释义向量化表示单元具体包括:
字符组合单元,用于将输入的关键词释义文本中的每一个字符t,所述关键词释义文本对应的长度为n,同时向前或者向后进行长度单位为1的字符组合,即共有n-1种字符组合,记为t 1~t n-1;
匹配单元,用于在构建的所述电力领域关键词典中匹配所有包含t i 的词,其中,,将所有匹配到的电力关键词分别编码到B(t)、M(t)、E(t)、S(t)四个集合中,其中,B(t)表示该电力关键词个数大于2且以t i 开头,M(t)表示该电力关键词中的t i 不在开头或结尾,E(t)表示该电力关键词字符个数大于2且以字符t i 结尾,S(t)表示该电力关键词仅由t i 组成;
压缩处理单元,用于将获得每个字符所对应的B、M、E、S词语集合之后,对电力领域关键词的集合做压缩处理,其目的是将每个集合的词嵌入压缩为一个特征向量,即第二关键词释义向量化。
进一步的,包括:
所述特征向量表示为:/>其中,v(S)表示集合S对应的特征向量,/>是关键词经过预训练好的词嵌入层得到的向量表示,x s表示由上述四个词语集合生成的向量表示拼接后的维度特征向量;/>为集合B中电力领域关键词对应向量表示的长度,/>为集合M中电力领域关键词对应向量表示的长度,/>为集合E中电力领域关键词对应向量表示的长度,/>为集合S中电力领域关键词对应向量表示的长度。
进一步的,包括:
所述语义相关性计算模块中,根据电力领域关键词词库的关联性计算语境相关性具体包括:
利用爬取出的文献信息,构建电力领域关键词的共现矩阵,利用共现矩阵计算语境相关性,得到不同关键词的语境相关性的量化值,所述语境相关性采用逐点互信息与点二列联表联合衡量两个离散事件之间相关性的统计指标,计算方式如下:
;其中,P(w 1,w 2)是待检测关键词w 1和待检测关键词w 2在一篇文献中同时发生的概率,P(w 1)和P(w 2)分别是待检测关键词w 1和待检测关键词w 2在一篇文献中单独发生的概率,m表示爬取文献的总数,n表示的是/>,O ij 表示点二列联表表格中第i行第j列的观察到的频数也就是在某一篇文章i中待检测关键词w 1和待检测关键词w 2出现的频数,Related的值越大,证明两个待检测关键词之间的相关性越高。
最后,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现上述所述的基于BGE模型的电力科研知识关联性构建方法。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明将构建的电力领域关键词释义经过RetroMAE预训练和带有词典信息的嵌入层,分别处理后进行两种向量表示的拼接,得到多维度的释义向量表示,从两个方向聚合对象语义信息,BGE模型可以将文本在向量空间中进行高效而全面的语义表征,从而使计算机能够更好地理解和处理文本的语义信息,带有词典信息的嵌入层可以更好的捕捉嵌套实体的边界信息,因此,可得到每个层面的最终表征,保证了语义信息不被削弱,提高了语义表征的能力;
(2)本发明针对电力领域构建带有词典信息的嵌入层,可以有效避免单字匹配搜索关键词词库产生的冗余或是不相关的关键词,同时还可以减少检索到关键词的数量,减少了电力关键词的集合做压缩处理所需的时间,从而提高关键词匹配的准确率也相应的提高了匹配速度;
(2)本发明使用融合词典信息BGE模型,并同时计算关键词间的语义相似度与语境相关性,较传统方法可以更好的获得关键词之间的关联性,提高关键词之间关联性的计算准确度。
附图说明
图1为本发明实施例所述的基于BGE模型的电力科研知识关联性构建方法流程图;
图2为本发明实施例所述的利用融合词典信息BGE模型对每个电力领域关键词的释义向量化方法流程图;
图3为本发明实施例所述的第二关键词释义向量化表示方法流程图;
图4为本发明实施例所述的RetroMAE预训练算法的解码Enhanced Decoding结构图;
图5为本发明实施例所述的基于BGE模型的电力科研知识关联性构建系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,如图1所示,本发明提供基于BGE模型的电力科研知识关联性构建方法,该方法包括以下步骤:
S1收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库。
收集文献信息是用合法的爬虫方法爬取知网中的电力科研文献知识,包括文献标题、文献摘要、文献关键词,爬虫方法是用Scrapy框架,在公开的文件、网站等处检索不同的电力关键词比如电力系统、电源、电机、电力电子,然后进行分布式爬取。
S2获取电力领域关键词的释义,构建电力领域关键词词典。
将得到的所有文献关键词进行去重去噪,得到电力领域关键词词库,然后利用自动化检索技术,逐一查询关键词词库中关键词的释义解释,得到电力科研领域关键词字典。具体的:获取电力科研领域关键词的释义是利用自动化的查询工具,遍历步骤S1中的文献关键词搜索电力科研领域关键词的释义并存储,构建出电力科研领域关键词词典是将得到的所有文献关键词整理,进行去重去噪,然后将电力科研领域关键词的释义与关键词一一对应,得到带有释义解释的电力科研领域关键词词库词典。
S3利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,最终将所得的电力领域关键词词库的释义全部向量化,以此来表示关键词的向量语义表征。
在本地上构建了开源的中文句子向量模型BGE,然后对BGE模型进行改进,获得融合词典信息的字符嵌入模型得到改进的BGE模型,然后使用融合词典信息BGE模型得到电力科研领域关键词释义的句子特征向量,用该句子向量表示关键词的空间向量。
改进的融合词典信息BGE模型用于增强语义检索,构建可以表述句子特征信息的多维向量,以此来表示关键词的向量语义表征。
本发明中改进的融合词典信息BGE模型用于将文本在向量空间中进行高效而全面的语义表征,从而使计算机能够更好地理解和处理文本的语义信息。
输入融合词典信息BGE模型的文本会分别作为两个输入,一个经过RetroMAE预训练,将低掩码率的输入编码为语义向量,然后将高掩码率的输入与语义向量拼接以重建原始输入,这使得BGE可以利用无标签语料来实现语言模型对语义表征任务的适配;一个经过预训练的带有词典信息的嵌入层,这使得该模型可以更好的捕捉嵌套实体的边界信息。从两个方向聚合对象语义信息,BGE模型可以将文本在向量空间中进行高效而全面的语义表征,从而使计算机能够更好地理解和处理文本的语义信息,带有词典信息的嵌入层可以更好的捕捉嵌套实体的边界信息,因此,可得到每个层面的最终表征,保证了语义信息不被削弱,提高了语义表征的能力。
具体的,本实施例中利用融合词典信息BGE模型对每个电力领域关键词的释义向量化包括以下步骤,如图2所示:
S31将待处理电力领域关键词的释义作为输入向量输入到RetroMAE预训练算法中,得到第一关键词释义向量化表示,本发明实施例中,具体实现该方法的步骤为:
RetroMAE预训练算法使用了一种自监督学习方法,其中,它首先通过对文本采用低掩码率,即随机删除关键词,以编码语义信息,然后将这个编码得到的语义向量与相同文本的高掩码率版本拼接在一起。通过这个拼接过程,模型试图通过学习从语义向量到原始文本的映射来适应语言模型,具体而言,通过尝试在高频率掩盖的情况下重建原始输入。整个预训练过程利用无标签语料库,无需依赖有标签的任务,旨在更好地捕捉文本的语义表征。
解码是指RetroMAE预训练算法的输出会进行Enhanced Decoding,具体如说明书附图4所示,将编码器得到的两个不同的输入H 1与H 2进行注意力机制计算得到Q,K,V,其中是句子嵌入,/>是token嵌入(没有被掩码的token嵌入),/>是位置嵌入,公式如下:;然后输出的A和H 1进行残差连接被用来重建原始输入,通过以下目标函数进行优化,得到1024维关键词释义的向量化表示,即第一关键词释义向量化表示;/>。使用融合词典信息BGE模型,将文本在向量空间中进行高效而全面的语义表征,从而使计算机能够更好地理解和处理文本的语义信息,得到1024维度的特征向量来表示句子的内容。
S32将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示,具体的,如图3所示。
S321将输入的关键词释义文本中的每一个字符t,关键词释义文本对应的长度为n,同时向前或者向后进行长度单位为1的字符组合,即共有n-1种字符组合,记为t 1~t n-1;
S322在之前构建的所述电力领域关键词典中的关键词匹配所有包含t i 的词,其中,,将所有匹配到的电力关键词分别编码到B(t)、M(t)、E(t)、S(t)四个集合中,其中,B(t)表示该电力关键词个数大于2且以t i 开头,M(t)表示该电力关键词中的t i 不在开头或结尾,E(t)表示该电力关键词字符个数大于2且以字符t i 结尾,S(t)表示该电力关键词仅由t i 组成;S323获得每个字符所对应的B、M、E、S词语集合之后,对电力领域关键词的集合做压缩处理,其目的是将每个集合中的词嵌入压缩为一个特征向量/>,即第二关键词释义向量化。
现举例如下:如关键词“电力”对应释义文本为:电力是电能作为动力的能源,去除其中的多余字符。其中,有效字符包括:{电,力,电,能,作,为,动,力,能,源},因此,n=10,同时向前或者向后进行长度单位为1的字符组合,即共有9种字符组合,记为t 1~t 9,即:电力,力电,电能,能作,作为,为动,动力,力能,能源。以t1为例,遍历构建的所述电力领域关键词典,匹配所有包含t 1 的关键词,可能匹配到的关键词包括:电力系统、电力网、电力、电力电子、电力线、电力稳压、电力稳压器等。
并将对应的关键词编码到对应的集合中,根据各集合的定义可知:
B(t)={电力系统,电力网,电力电子,电力线,电力稳压,电力稳压器},M(t)={},E(t)={},S(t)={电力},以此类推,将其他的t 2-t 9分别编码到对应的集合中。
进一步的,本实施例中,特征向量表示为:/>根据上述计算公式与每个集合中的词,将对应集合中的所有词分别做一个词嵌入向量再求和,然后再除以词语个数,然后每个集合就是个128位的向量。
其中,v(S)表示集合S对应的特征向量,是关键词经过预训练好的词嵌入层得到的向量表示,x s表示由上述四个词语集合生成的向量表示拼接后的维度特征向量,维度为:4*128=512维度特征向量。/>为集合B中电力领域关键词对应向量表示的长度,/>为集合M中电力领域关键词对应向量表示的长度, />为集合E中电力领域关键词对应向量表示的长度,/>为集合S中电力领域关键词对应向量表示的长度。该方法的益处在于与传统融合词典信息相比,更好的利用了电力领域关键词特征,因为电力领域关键词多为3字以上,该方法可以由单字匹配改进为两字匹配,可以有效避免单字匹配搜索关键词词库产生的冗余或是不相关的关键词,同时还可以减少检索到关键词的数量,减少了电力关键词的集合做压缩处理所需的时间。
S33将第一关键词释义向量化表示和第二关键词释义向量化表示进行拼接,得到待处理关键词的释义向量化表示。
最后将经过RetroMAE预训练算法,与经过预训练的带有词典信息的嵌入层的输出向量进行拼接,得到了含有句子与词典信息的1028+512=1536维度特征向量。
S4根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性,并根据电力领域关键词词库的关联性计算语境相关性,并将计算结果可视化存储于Neo4j中。
计算关键词间的语义相似度包括:将通过融合词典信息BGE模型得到的含有关键词信息的空间向量进行相似度计算,来得到关键词之间的相似度,可以设定一个阈值,将关键词之间相似度大于该阈值的两个关键词定义为相似;
相似度是基于余弦相似度与欧几里德距离改进后的计算方法,用于度量两个向量之间相似度的计算,通常应用于文本数据挖掘和信息检索等领域;
相似度的计算公式为:;其中,A i 与B i 表示两个待处理关键词对应维度下的释义的向量表示,n为两个待处理关键词的释义向量化表示的维度。
本发明实施例将计算的结果大于0.85的两个待处理关键词定义为相似,用此方法得到关键词之间的相关性表示。
优选地,步骤4中所述的计算关键词之间的语境相关性包括:结合文本构建关键词之间的共现矩阵,计算关键词间PMI(Pointwise Mutual Information,逐点互信息)与点二列联表(2x2 Contingency Table)联合衡量两个离散事件之间相关性的统计指标来表示关键词间的语境相关性,可以设定一个阈值,将关键词之间语境相关性大于该阈值的两个关键词定义为相关;
所述的PMI(逐点互信息)是一种用于衡量两个离散事件之间相关性的统计指标,它通常用于自然语言处理、信息检索和数据挖掘等领域,PMI可以确定两个事件在给定条件下出现的相关性有多高。
语境相关性采用逐点互信息与点二列联表联合衡量两个离散事件之间相关性的统计指标,关键词之间的语境相关性采用了结合文本构建关键词之间的共现矩阵,通过文本中关键词的交互信息来计算关键词间的语境相关性计算方式如下:;其中,P(w 1,w 2)是待检测关键词w 1和待检测关键词w 2在一篇文献中同时发生的概率,P(w 1)和P(w 2)分别是待检测关键词w 1和待检测关键词w 2在一篇文献中单独发生的概率,m表示爬取文献的总数,n表示的是/>,O ij 表示点二列联表表格中第i行第j列的观察到的频数也就是在某一篇文章i中待检测关键词w 1和待检测关键词w 2出现的频数,Related的值越大,证明两个待检测关键词之间的相关性越高。
步骤4中所述的数据可视化,具体为,将爬取到的电力科研文献知识与电力科研知识关键词存入到图数据库Neo4j中,每一个关键词与每一个文献是一个Neo4j节点,电力科研文献知识与其对应的电力科研知识关键词之间存在(包含)关系,关键词之间的关联性存在(语义相似或者语境相关)关系。
本发明构建了一个自动进行电力领域关键词知识图谱生成的框架,具体来说,构造了一个可以融合词典信息BGE模型,提出了一种针对电力科研知识构建电力科研关键词关联性知识图谱的方法,并将抽取到的数据存入到Neo4j中,作用在于可以快速得到电力科研文献的关键词,及其相关联的关键词,或是通过相关联的关键词获得电力科研文献,可以精准得到所需及其相关联的电力科研知识。如当我们检索稳压二极管时,同时可以检索与其相关联的电力关键词如电压稳定器或整流器,增加的查询的多样性。
另一方面,如图5所示,本发明还提供基于BGE模型的电力科研知识关联性构建系统,该系统包括:
预处理模块,用于收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库;
词典构建模块,用于获取电力领域关键词的释义,构建电力领域关键词词典;
语义表征模块,用于利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,最终将所得的电力领域关键词词库的释义全部向量化,以此来表示关键词的向量语义表征;
所述语义表征模块,包括:
第一关键词释义向量化表示单元,用于将待处理电力领域关键词的释义作为输入向量输入到RetroMAE预训练算法中,得到第一关键词释义向量化表示;
第二关键词释义向量化表示单元,用于将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示;
拼接单元,用于将第一关键词释义向量化表示和第二关键词释义向量化表示进行拼接,得到待处理关键词的释义向量化表示;
语义相关性计算模块,用于根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性,并根据电力领域关键词词库的关联性计算语境相关性,并将计算结果可视化存储于Neo4j中。
进一步的,包括:
所述第二关键词释义向量化表示单元具体包括:
字符组合单元,用于将输入的关键词释义文本中的每一个字符t,所述关键词释义文本对应的长度为n,同时向前或者向后进行长度单位为1的字符组合,即共有n-1种字符组合,记为t 1~t n-1;
匹配单元,用于在构建的所述电力领域关键词典中匹配所有包含t i 的词,其中,,将所有匹配到的电力关键词分别编码到B(t)、M(t)、E(t)、S(t)四个集合中,其中,B(t)表示该电力关键词个数大于2且以t i 开头,M(t)表示该电力关键词中的t i 不在开头或结尾,E(t)表示该电力关键词字符个数大于2且以字符t i 结尾,S(t)表示该电力关键词仅由t i 组成;
压缩处理单元,用于将获得每个字符所对应的B、M、E、S词语集合之后,对电力领域关键词的集合做压缩处理,其目的是将每个集合的词嵌入压缩为一个特征向量,即第二关键词释义向量化。
进一步的,包括:
所述特征向量表示为:/>其中,v(S)表示集合S对应的特征向量,/>是关键词经过预训练好的词嵌入层得到的向量表示,x s表示由上述四个词语集合生成的向量表示拼接后的维度特征向量;/>为集合B中电力领域关键词对应向量表示的长度,/>为集合M中电力领域关键词对应向量表示的长度,/>为集合E中电力领域关键词对应向量表示的长度,/>为集合S中电力领域关键词对应向量表示的长度。
进一步的,包括:
所述语义相关性计算模块中,根据电力领域关键词词库的关联性计算语境相关性具体包括:
利用爬取出的文献信息,构建电力领域关键词的共现矩阵,利用共现矩阵计算语境相关性,得到不同关键词的语境相关性的量化值,所述语境相关性采用逐点互信息与点二列联表联合衡量两个离散事件之间相关性的统计指标,计算方式如下:
;其中,P(w 1,w 2)是待检测关键词w 1和待检测关键词w 2在一篇文献中同时发生的概率,P(w 1)和P(w 2)分别是待检测关键词w 1和待检测关键词w 2在一篇文献中单独发生的概率,m表示爬取文献的总数,n表示的是/>,O ij 表示点二列联表表格中第i行第j列的观察到的频数也就是在某一篇文章i中待检测关键词w 1和待检测关键词w 2出现的频数,Related的值越大,证明两个待检测关键词之间的相关性越高。
本系统对应的其他技术细节与方法相同,在此说明书中不再赘述。
最后,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现上述所述的基于BGE模型的电力科研知识关联性构建方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于BGE模型的电力科研知识关联性构建方法,其特征在于,该方法包括以下步骤:
S1收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库;
S2获取电力领域关键词的释义,构建电力领域关键词词典;
S3利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,最终将所得的电力领域关键词词库的释义全部向量化,以此来表示关键词的向量语义表征;
所述利用融合词典信息BGE模型对每个电力领域关键词的释义向量化包括:将待处理电力领域关键词的释义作为输入向量输入到RetroMAE预训练算法中,得到第一关键词释义向量化表示,将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示,将第一关键词释义向量化表示和第二关键词释义向量化表示进行拼接,得到待处理关键词的释义向量化表示;
S4根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性,并根据电力领域关键词词库的关联性计算语境相关性。
2.根据权利要求1所述的基于BGE模型的电力科研知识关联性构建方法,其特征在于,所述步骤S3中,将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示,具体包括:
S31将输入的关键词释义文本中的每一个字符t,所述关键词释义文本对应的长度为n,同时向前或者向后进行长度单位为1的字符组合,即共有n-1种字符组合,记为t 1~t n-1;
S32在构建的所述电力领域关键词典中的关键词匹配所有包含t i 的词,其中,,将所有匹配到的电力关键词分别编码到B(t)、M(t)、E(t)、S(t)四个集合中,其中,B(t)表示该电力关键词个数大于2且以t i 开头,M(t)表示该电力关键词中的t i 不在开头或结尾,E(t)表示该电力关键词字符个数大于2且以字符t i 结尾,S(t)表示该电力关键词仅由t i 组成;
S33获得每个字符所对应的B、M、E、S词语集合之后,对电力领域关键词的集合做压缩处理,其目的是将每个集合的词嵌入压缩为一个特征向量,即第二关键词释义向量化。
3.根据权利要求2所述的基于BGE模型的电力科研知识关联性构建方法,其特征在于,所述特征向量表示为:
其中,v(S)表示集合S对应的特征向量,/>是关键词经过预训练好的词嵌入层得到的向量表示,x s表示由上述四个词语集合生成的向量表示拼接后的维度特征向量;/>为集合B中电力领域关键词对应向量表示的长度,/>为集合M中电力领域关键词对应向量表示的长度,/>为集合E中电力领域关键词对应向量表示的长度,/>为集合S中电力领域关键词对应向量表示的长度。
4.根据权利要求3所述的基于BGE模型的电力科研知识关联性构建方法,其特征在于,所述步骤S4中,根据电力领域关键词词库的关联性计算语境相关性具体包括:
利用爬取出的文献信息,构建电力领域关键词的共现矩阵,利用共现矩阵计算语境相关性,得到不同关键词的语境相关性的量化值,所述语境相关性采用逐点互信息与点二列联表联合衡量两个离散事件之间相关性的统计指标,计算方式如下:
;其中,P(w 1,w 2)是待检测关键词w 1和待检测关键词w 2在一篇文献中同时发生的概率,P(w 1)和P(w 2)分别是待检测关键词w 1和待检测关键词w 2在一篇文献中单独发生的概率,m表示爬取文献的总数,n表示的是/>,O ij 表示点二列联表表格中第i行第j列的观察到的频数也就是在某一篇文章i中待检测关键词w 1和待检测关键词w 2出现的频数,Related的值越大,证明两个待检测关键词之间的相关性越高。
5.根据权利要求1所述的基于BGE模型的电力科研知识关联性构建方法,其特征在于,所述步骤S4中,根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性,具体包括:将通过融合词典信息BGE模型得到的含有关键词信息的空间向量进行相似度计算,得到关键词之间的相似度,并设定一个阈值,将关键词之间相似度大于该阈值的两个关键词定义为相似;
所述相似度的计算公式为:;其中,A i 与B i 表示两个待处理关键词对应维度下的释义的向量表示,n为两个待处理关键词的释义向量化表示的维度。
6.一种基于BGE模型的电力科研知识关联性构建系统,其特征在于,该系统包括:
预处理模块,用于收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库;
词典构建模块,用于获取电力领域关键词的释义,构建电力领域关键词词典;
语义表征模块,用于利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,最终将所得的电力领域关键词词库的释义全部向量化,以此来表示关键词的向量语义表征;
所述语义表征模块,包括:
第一关键词释义向量化表示单元,用于将待处理电力领域关键词的释义作为输入向量输入到RetroMAE预训练算法中,得到第一关键词释义向量化表示;
第二关键词释义向量化表示单元,用于将待处理电力领域关键词的释义作为输入向量再次输入到带有词典信息的嵌入层中,得到第二关键词释义向量化表示,将第一关键词释义向量化表示和第二关键词释义向量化表示进行拼接,得到待处理关键词的释义向量化表示;
语义相关性计算模块,用于根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性,并根据电力领域关键词词库的关联性计算语境相关性。
7.根据权利要求6所述的基于BGE模型的电力科研知识关联性构建系统,其特征在于,所述第二关键词释义向量化表示单元具体包括:
字符组合单元,用于将输入的关键词释义文本中的每一个字符t,所述关键词释义文本对应的长度为n,同时向前或者向后进行长度单位为1的字符组合,即共有n-1种字符组合,记为t 1~t n-1;
匹配单元,用于在构建的所述电力领域关键词典中匹配所有包含t i 的词,其中,,将所有匹配到的电力关键词分别编码到B(t)、M(t)、E(t)、S(t)四个集合中,其中,B(t)表示该电力关键词个数大于2且以t i 开头,M(t)表示该电力关键词中的t i 不在开头或结尾,E(t)表示该电力关键词字符个数大于2且以字符t i 结尾,S(t)表示该电力关键词仅由t i 组成;
压缩处理单元,用于将获得每个字符所对应的B、M、E、S词语集合之后,对电力领域关键词的集合做压缩处理,其目的是将每个集合的词嵌入压缩为一个特征向量,即第二关键词释义向量化。
8.根据权利要求7所述的基于BGE模型的电力科研知识关联性构建系统,其特征在于,所述特征向量表示为:/>其中,v(S)表示集合S对应的特征向量,/>是关键词经过预训练好的词嵌入层得到的向量表示,x s表示由上述四个词语集合生成的向量表示拼接后的维度特征向量;/>为集合B中电力领域关键词对应向量表示的长度,/>为集合M中电力领域关键词对应向量表示的长度,/>为集合E中电力领域关键词对应向量表示的长度,/>为集合S中电力领域关键词对应向量表示的长度。
9.根据权利要求6所述的基于BGE模型的电力科研知识关联性构建系统,其特征在于,所述语义相关性计算模块中,根据电力领域关键词词库的关联性计算语境相关性具体包括:
利用爬取出的文献信息,构建电力领域关键词的共现矩阵,利用共现矩阵计算语境相关性,得到不同关键词的语境相关性的量化值,所述语境相关性采用逐点互信息与点二列联表联合衡量两个离散事件之间相关性的统计指标,计算方式如下:;其中,P(w 1,w 2)是待检测关键词w 1和待检测关键词w 2在一篇文献中同时发生的概率,P(w 1)和P(w 2)分别是待检测关键词w 1和待检测关键词w 2在一篇文献中单独发生的概率,m表示爬取文献的总数,n表示的是/>,O ij 表示点二列联表表格中第i行第j列的观察到的频数也就是在某一篇文章i中待检测关键词w 1和待检测关键词w 2出现的频数,Related的值越大,证明两个待检测关键词之间的相关性越高。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-5任一项所述的基于BGE模型的电力科研知识关联性构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410306464.9A CN117910460B (zh) | 2024-03-18 | 一种基于bge模型的电力科研知识关联性构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410306464.9A CN117910460B (zh) | 2024-03-18 | 一种基于bge模型的电力科研知识关联性构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117910460A true CN117910460A (zh) | 2024-04-19 |
CN117910460B CN117910460B (zh) | 2024-06-07 |
Family
ID=
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840325A (zh) * | 2019-01-28 | 2019-06-04 | 山西大学 | 基于点互信息的文本语义相似性度量方法 |
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
CN116362221A (zh) * | 2023-04-14 | 2023-06-30 | 中国航空综合技术研究所 | 融合多模态语义关联图谱的航空文献关键词相似度判定方法 |
CN116432662A (zh) * | 2023-04-17 | 2023-07-14 | 北京达佳互联信息技术有限公司 | 文本处理模型的训练方法、文本处理方法及装置 |
CN117539990A (zh) * | 2023-11-03 | 2024-02-09 | 重庆数智逻辑科技有限公司 | 一种问题处理方法、装置、电子设备和存储介质 |
US20240086650A1 (en) * | 2022-09-06 | 2024-03-14 | Huazhong University Of Science And Technology | Relation extraction system and method adapted to financial entities and fused with prior knowledge |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840325A (zh) * | 2019-01-28 | 2019-06-04 | 山西大学 | 基于点互信息的文本语义相似性度量方法 |
WO2021164199A1 (zh) * | 2020-02-20 | 2021-08-26 | 齐鲁工业大学 | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 |
US20240086650A1 (en) * | 2022-09-06 | 2024-03-14 | Huazhong University Of Science And Technology | Relation extraction system and method adapted to financial entities and fused with prior knowledge |
CN116362221A (zh) * | 2023-04-14 | 2023-06-30 | 中国航空综合技术研究所 | 融合多模态语义关联图谱的航空文献关键词相似度判定方法 |
CN116432662A (zh) * | 2023-04-17 | 2023-07-14 | 北京达佳互联信息技术有限公司 | 文本处理模型的训练方法、文本处理方法及装置 |
CN117539990A (zh) * | 2023-11-03 | 2024-02-09 | 重庆数智逻辑科技有限公司 | 一种问题处理方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
SHITAO XIAO 等: "RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder", ARXIV, 27 October 2022 (2022-10-27) * |
吴旭东 等: "改进的主客观结合的词语语义相似度算法", 计算机技术与发展, no. 09, 10 September 2012 (2012-09-10) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Learning to extract attribute value from product via question answering: A multi-task approach | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN112307218A (zh) | 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN109408578B (zh) | 一种针对异构环境监测数据融合方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN111899089A (zh) | 基于知识图谱的企业风险预警方法及系统 | |
US20210350125A1 (en) | System for searching natural language documents | |
Landthaler et al. | Extending Full Text Search for Legal Document Collections Using Word Embeddings. | |
CN113168499A (zh) | 检索专利文档的方法 | |
US20210397790A1 (en) | Method of training a natural language search system, search system and corresponding use | |
CN110765277A (zh) | 一种基于知识图谱的移动端的在线设备故障诊断平台 | |
CN110851584B (zh) | 一种法律条文精准推荐系统和方法 | |
CN115982403B (zh) | 一种多模态哈希检索方法及装置 | |
CN110866102A (zh) | 检索处理方法 | |
CN111813874B (zh) | 太赫兹知识图谱构建方法及系统 | |
CN114925157A (zh) | 一种基于预训练模型的核电站维修经验文本匹配方法 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN111241410A (zh) | 一种行业新闻推荐方法及终端 | |
Mi et al. | Knowledge-aware cross-modal text-image retrieval for remote sensing images | |
CN113342950A (zh) | 基于语义联合的答案选取方法及系统 | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
CN106919565B (zh) | 一种基于MapReduce的文档检索方法及系统 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN117910460B (zh) | 一种基于bge模型的电力科研知识关联性构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |