CN116720497B - 一种基于语义分析的电网文档关联性层级分析方法及系统 - Google Patents
一种基于语义分析的电网文档关联性层级分析方法及系统 Download PDFInfo
- Publication number
- CN116720497B CN116720497B CN202310685323.8A CN202310685323A CN116720497B CN 116720497 B CN116720497 B CN 116720497B CN 202310685323 A CN202310685323 A CN 202310685323A CN 116720497 B CN116720497 B CN 116720497B
- Authority
- CN
- China
- Prior art keywords
- vector
- semantic
- data
- document
- power grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 374
- 230000004927 fusion Effects 0.000 claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims description 36
- 238000000354 decomposition reaction Methods 0.000 claims description 35
- 230000009466 transformation Effects 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语义分析技术领域,揭露了一种基于语义分析的电网文档关联性层级分析方法及系统,所述方法包括:根据数据类型对电网文档中的文档数据进行分类,得到数据类型对应的分类数据;对分类数据进行嵌入编码以及语义编码,得到编码向量;对编码向量进行不同维度的语义特征提取,对不同维度的语义特征向量进行特征融合,得到融合语义特征向量;计算融合语义向量的语义通道权重,根据语义通道权重对融合语义向量进行加权计算,得到目标语义特征向量;根据目标语义特征向量计算语义相似度,基于语义相似度计算文档相似度,根据文档相似度对电网文档集中的每个电网文档进行关联性层级划分。本发明可以提高电网文档关联性层级分析的准确度。
Description
技术领域
本发明涉及语义分析技术领域,尤其涉及一种基于语义分析的电网文档关联性层级分析方法及系统。
背景技术
电网文档,例如PDF文档、word文档、RTF(Rich Text Format,富文本格式)文档和HTML(HyperText Markup Language,超文本标记语言)文档等格式的电子文档中是进行电网系统的信息存储以及信息传递的主要方式。因此,从电子文档中提取有价值的信息进行语义分析成为了近年来自然语言处理技术领域的研究热点,通过语义分析能够对电网文档进行关联性层级的分析,进而确定电网文档时间的层级关系,更好地对电网文档进行关联分类。
现有的文档关联性层级分析方法主要是通过文档的标题或文档中每个词语出现的频率选取关键词进行相似度分析,或使用特征提取的方法进行电网文档的关联性层级分析,但相似度分析利用的电网文档的文档信息较少,使得关联性层级分析的准确度较差,同时文档特征的提取过程中一般只采用一种尺寸的卷积核,这样的特征提取是粗粒度的,特征信息的准确度较差,进而导致电网文档的关联性层级分析的准确度较差,因此如何准确地对电网文档进行关联性层级分析成为亟待解决的问题。
发明内容
本发明提供一种基于语义分析的电网文档关联性层级分析方法及系统,其主要目的在于解决电网文档关联性层级划分的准确度较差的问题。
为实现上述目的,本发明提供的一种基于语义分析的电网文档关联性层级分析方法,包括:
获取电网文档集,提取所述电网文档集中的每个电网文档的数据类型,根据所述数据类型对所述每个电网文档的文档数据进行分类,得到所述数据类型对应的分类数据;
对所述分类数据进行嵌入编码,得到所述分类数据的嵌入向量,对所述嵌入向量进行语义编码,得到所述分类数据对应的编码向量;
对所述编码向量进行不同维度的语义特征提取,得到不同维度的语义特征向量,对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量;
计算所述融合语义向量的语义通道权重,根据所述语义通道权重对所述融合语义向量进行语义加权计算,得到所述分类数据的目标语义特征向量;
根据所述目标语义特征向量计算所述分类数据的语义相似度,基于所述语义相似度计算所述每个电网文档的文档相似度,根据所述文档相似度对所述电网文档集中的每个电网文档进行关联性层级划分。
可选地,所述提取所述电网文档集中的每个电网文档的数据类型,根据所述数据类型对所述每个电网文档的文档数据进行分类,得到所述数据类型对应的分类数据,包括:
识别所述每个电网文档中的数据格式,根据所述数据格式提取所述每个电网文档的数据类型;
根据所述数据类型对所述每个电网文档中的文档数据进行聚类,得到所述数据类型对应的分类数据。
可选地,所述对所述分类数据进行嵌入编码,得到所述分类数据的嵌入向量,包括:
将所述分类数据转化为数据向量,对所述数据向量进行线性映射,得到所述数据向量的低维数据向量;
利用预构建的编码器对所述低维数据向量进行嵌入编码,得到所述分类数据的嵌入向量。
可选地,所述对所述嵌入向量进行语义编码,得到所述分类数据对应的编码向量,包括:
利用预设的权重矩阵计算所述编码向量的查询向量、数据向量及钥匙向量;
根据所述查询向量、所述数据向量及所述钥匙向量生成所述分类数据的编码向量;
利用如下公式生成所述分类数据的编码向量:
其中,为所述分类数据的编码向量,softmax为激活函数,Q为所述查询向量,KT为所述钥匙向量的转置向量,dk为所述钥匙向量的模,V为所述数据向量。
可选地,所述对所述编码向量进行不同维度的语义特征提取,得到不同维度的语义特征向量,包括:
对所述编码向量进行全局池化,得到池化向量;
利用预构建的语义提取网络中的不同层级的前馈神经网络对所述池化向量进行线性激活及全连接,得到所述不同层级的前馈神经网络对应的特征向量;
将所述特征向量进行特征拼接,得到不同维度的语义特征向量。
可选地,所述对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量,包括:
对所述不同维度的语义特征向量进行维度映射,得到相同维度的特征向量;
将所述相同维度的特征向量进行向量拼接,得到融合语义特征向量。
可选地,所述计算所述融合语义向量的语义通道权重,包括:
根据所述融合语义向量的向量维度对所述融合语义向量进行向量分解,得到维度分解向量;
对所述维度分解向量进行向量变换以及非线性映射,得到所述维度分解向量对应的变换语义向量及映射语义向量;
根据所述变换语义向量及所述映射语义向量计算所述维度分解向量对应的语义通道权重。
可选地,所述对所述维度分解向量进行向量变换以及非线性映射,得到所述维度分解向量对应的变换语义向量及映射语义向量,包括:
利用如下公式计算所述对所述维度分解向量进行向量变换以及非线性映射:
v=ZWv+bv,
u=sigmoid(ZWu+bu)
其中,v为所述维度分解向量对应的变换语义向量,Z为所述维度分解向量,Wv,bv为预设的进行向量变换的向量偏置,u为映射语义向量,sigmoid为激活函数,Wu,bu预设的进行非线性映射的向量偏置。
可选地,所述基于所述语义相似度计算所述每个电网文档的文档相似度,包括:
计算每个所述电网文档中数据类型的数据占比,根据所述数据占比确定每个数据类型的数据权重;
根据所述语义相似度确定每个所述电网文档之间的目标语义相似度;
根据所述目标语义相似度与所述每个数据类型的数据权重进行加权求和计算,得到每个所述电网文档之间的文档相似度。
为了解决上述问题,本发明还提供一种基于语义分析的电网文档关联性层级分析系统,所述系统包括:
数据分类模块,用于获取电网文档集,提取所述电网文档集中的每个电网文档的数据类型,根据所述数据类型对所述每个电网文档的文档数据进行分类,得到所述数据类型对应的分类数据;
嵌入编码及语义编码模块,用于对所述分类数据进行嵌入编码,得到所述分类数据的嵌入向量,对所述嵌入向量进行语义编码,得到所述分类数据对应的编码向量;
语义特征提取模块,用于对所述编码向量进行不同维度的语义特征提取,得到不同维度的语义特征向量,对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量;
语义加权计算模块,用于计算所述融合语义向量的语义通道权重,根据所述语义通道权重对所述融合语义向量进行语义加权计算,得到所述分类数据的目标语义特征向量;
关联性层级划分模块,用于根据所述目标语义特征向量计算所述分类数据的语义相似度,基于所述语义相似度计算所述每个电网文档的文档相似度,根据所述文档相似度对所述电网文档集中的每个电网文档进行关联性层级划分。
本发明实施例通过对电网文档进行数据分类,能够分别对分类数据进行嵌入编码,以及语义编码,得到分类数据对应的编码向量,能够针对性地对电网文档进行语义分析,以提高语义分析的精确度;对编码向量进行不同维度的语义特征提取,能够提高语义提取的特征全面性以及特征提取的丰富度,进而对不同维度的不同维度的语义特征向量进行特征融合能够得到特征信息更准确的融合语义特征向量;再对融合语义向量进行语义加权计算,进一步地提高分类数据的目标语义特征向量的准确度;根据目标语义特征向量计算分类数据的语义相似度,通过语义相似度计算每个电网文档的文档相似度,以增加文档相似度计算时不同数据类型的语义范围,进而提高关联性层级划分的准确度。因此本发明提出的基于语义分析的电网文档关联性层级分析方法及系统,可以解决电网文档关联性层级分析准确度较差的问题。
附图说明
图1为本发明一实施例提供的基于语义分析的电网文档关联性层级分析方法的流程示意图;
图2为本发明一实施例提供的对编码向量进行不同维度的语义特征提取的流程示意图;
图3为本发明一实施例提供的计算融合语义向量的语义通道权重的流程示意图;
图4为本发明一实施例提供的基于语义分析的电网文档关联性层级分析系统的功能模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于语义分析的电网文档关联性层级分析方法。所述基于语义分析的电网文档关联性层级分析方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于语义分析的电网文档关联性层级分析方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于语义分析的电网文档关联性层级分析方法的流程示意图。在本实施例中,所述基于语义分析的电网文档关联性层级分析方法包括:
S1、获取电网文档集,提取所述电网文档集中的每个电网文档的数据类型,根据所述数据类型对所述每个电网文档的文档数据进行分类,得到所述数据类型对应的分类数据。
本发明实施例中,所述电网文档集是每个电网工作系统中记录工作数据的电子文档,每个电网文档中可能包括数值数据、文字数据以及图片数据等不同数据类型的信息,因此,需要对电网文档的数据类型进行分类,根据不同的数据类型针对性地记性数据分析,进而提高后续电网文档关联性层级分析的准确度。
本发明实施例中,所述提取所述电网文档集中的每个电网文档的数据类型,根据所述数据类型对所述每个电网文档的文档数据进行分类,得到所述数据类型对应的分类数据,包括:
识别所述每个电网文档中的数据格式,根据所述数据格式提取所述每个电网文档的数据类型;
根据所述数据类型对所述每个电网文档中的文档数据进行聚类,得到所述数据类型对应的分类数据。
本发明实施例中,通过识别电网文档中文档数据的数据格式确定数据类型,例如,字符型格式为数值数据,jpg为图片数据,通过数据类型将电网文档中数据类型相同的文档数据进行聚类,得到每个电网文档不同数据类型对应的分类数据,通过分类数据对电网文档进行分类针对性地语义分析,以提高语义分析的精确度。
S2、对所述分类数据进行嵌入编码,得到所述分类数据的嵌入向量,对所述嵌入向量进行语义编码,得到所述分类数据对应的编码向量。
本发明实施例中,所述嵌入编码是根据分类数据的数据类型将分类数据进行映射到预构建的向量空间,使得嵌入向量能够保留分类数据较多的原始信息。
本发明实施例中,所述对所述分类数据进行嵌入编码,得到所述分类数据的嵌入向量,包括:
将所述分类数据转化为数据向量,对所述数据向量进行线性映射,得到所述数据向量的低维数据向量;
利用预构建的编码器对所述低维数据向量进行嵌入编码,得到所述分类数据的嵌入向量。
本发明实施例中,所述线性映射是将数据向量映射到低维的向量空间,以保留数据向量的流形结构,提高后续语义提取的准确度。
本发明实施例中,所述编码器是是一种无监督的神经网络模型,通过编码器能够训练数据集,可以将输入的信息复制到输出,因此潜在的表示形式输出为有效属性,进而能够通过学习低维数据向量的隐含特征,得到分类数据的嵌入向量。
本发明实施例中,所述语义编码是通过嵌入向量提取分类数据对应的语义编码信息,通过特征提取,将分类数据转换为相应的语义编码向量。
本发明实施例中,所述对所述嵌入向量进行语义编码,得到所述分类数据对应的编码向量,包括:
利用预设的权重矩阵计算所述编码向量的查询向量、数据向量及钥匙向量;
根据所述查询向量、所述数据向量及所述钥匙向量生成所述分类数据的编码向量。
本发明实施例中,查询向量、数据向量及钥匙向量是注意力机制中用于提取特征的向量,通过查询向量Q、钥匙向量K以及数据向量V能够得到嵌入向量中每一个字符与所有字符的注意力得分,最后自注意力加权,得到一个获取上下语义信息的编码向量,进而能够对嵌入向量进行语义编码,得到分类数据的编码向量。
本发明实施例中,利用如下公式生成所述分类数据的编码向量:
其中,为所述分类数据的编码向量,softmax为激活函数,Q为所述查询向量,KT为所述钥匙向量的转置向量,dk为所述钥匙向量的模,V为所述数据向量。
本发明实施例中,通过对分类数据进行嵌入编码以及语义编码,得到包含分类数据流形结构以及语义特征信息的编码向量,使得编码向量保留了分类数据中较多的特征信息,以保证后续语义特征提取到额准确度。
S3、对所述编码向量进行不同维度的语义特征提取,得到不同维度的语义特征向量,对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量。
本发明实施例中,语义特征包含着不同维度,低维的语义特征包含着整体的编码向量特征,但特征细节较差,高维的语义特征信息包含着更精确的特征信息,但丢失了编码向量的整体信息,因此,通过不同维度的语义特征向量能够得到更精确地语义特征向量,具体地,本发明实施例可以使用具有多头注意力机制的语义提取神经网络进行语义特征提取,其中,语义提取神经网络中包括多个前馈神经层,通过前馈神经提取不同尺度维度的特征信息,进而得到不同维度的语义特征向量。
本发明实施例中,参阅图2所示,所述对所述编码向量进行不同维度的语义特征提取,得到不同维度的语义特征向量,包括:
S21、对所述编码向量进行全局池化,得到池化向量;
S22、利用预构建的语义提取网络中的不同层级的前馈神经网络对所述池化向量进行线性激活及全连接,得到所述不同层级的前馈神经网络对应的特征向量;
S23、将所述特征向量进行特征拼接,得到不同维度的语义特征向量。
本发明实施例中,所述语义提取网络中包括多个前馈神经网络层,将前馈神经网络划分为不同层级,例如,语义提取网络中包括12个前馈神经网络层,将前4个前馈神经网络层作为第一层级,将前8个前馈神经网络层作为第二层级,全部的12个前馈神经网络作为第三层级,则不同层级的前馈神经网络进行语义提取的特征维度不一致,因此,通过不同层级的前馈神经网络层得到特征信息维度不同的特征向量,将不同层级的每个前馈神经网络得到的特征向量进行特征拼接,进而得到不同维度的语义特征向量。
本发明实施例中,不同维度的语义特征向量关注的语义信息不同,例如,低维的语义信息关注整体的特征信息,缺乏对细节的关注,高维的语义特征信息更关注细节特征,缺乏对特征信息整体的关注,因此,需要对不同维度的语义特征向量进行特征融合,以得到更精确的融合语义特征向量。
本发明实施例中,所述对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量,包括:
对所述不同维度的语义特征向量进行维度映射,得到相同维度的特征向量;
将所述相同维度的特征向量进行向量拼接,得到融合语义特征向量。
本发明实施例中,将不同维度的语义特征向量进行维度映射,使得特征具有相同的向量维度,例如,映射到3维的向量空间,得到3维的特征向量,同时不同的特征向量又包含不同维度的特征信息,进而使得不同维度的语义特征向量进行特征融合,得到特征信息更丰富更全面的融合语义特征向量。
S4、计算所述融合语义向量的语义通道权重,根据所述语义通道权重对所述融合语义向量进行语义加权计算,得到所述分类数据的目标语义特征向量。
本发明实施例中,在利用前馈神经网络进行语义特征向量提取时,根据前馈神经网络中的注意力机制确定融合语义向量的向量通道维度,例如,双通道的前馈神经网络则融合语义向量的向量通道为双通道,进而通过计算向量通道的语义通道权重计算分类数据的目标语义特征向量。
本发明实施例中,参阅图3所示,所述计算所述融合语义向量的语义通道权重,包括:
S31、根据所述融合语义向量的向量维度对所述融合语义向量进行向量分解,得到维度分解向量;
S32、对所述维度分解向量进行向量变换以及非线性映射,得到所述维度分解向量对应的变换语义向量及映射语义向量;
S33、根据所述变换语义向量及所述映射语义向量计算所述维度分解向量对应的语义通道权重。
本发明实施例中,利用如下公式计算所述对所述维度分解向量进行向量变换以及非线性映射:
v=ZWv+bv,
u=sigmoid(ZWu+bu)
其中,v为所述维度分解向量对应的变换语义向量,Z为所述维度分解向量,Wv,bv为预设的进行向量变换的向量偏置,u为映射语义向量,sigmoid为激活函数,Wu,bu预设的进行非线性映射的向量偏置。
本发明实施例中,通过向量变换能够进一步地提取维度分解向量的特征信息,再通过非线性激活函数sigmoid将向量数值压缩至(0,1)的数值空间,通过计算变换语义向量及映射语义向量的内乘积,得到对应的语义通道权重。
本发明实施例中,通过将语义通道权重与融合语义向量的通道对应相乘,能够根据不同通道的权重针对性地对融合语义向量进行加权计算,能够提高分类数据的目标语义特征向量的准确度,进而提高后续关联性层级划分的准确度。
S5、根据所述目标语义特征向量计算所述分类数据的语义相似度,基于所述语义相似度计算所述每个电网文档的文档相似度,根据所述文档相似度对所述电网文档集中的每个电网文档进行关联性层级划分。
本发明实施例中,所述语义相似度是计算相同的数据类型下每个分类数据的目标语义特征向量之间的相似度,根据目标语义特征向量计算分类数据的语义相似度,进而通过电网文档中分类数据的语义相似度计算每个电网文档之间的文档相似度,通过文档相似度确定每个电网文档之间的关联性,从而进行关联性层级划分。
本发明实施例中,所述根据所述目标语义特征向量计算所述分类数据的语义相似度,包括:
利用如下公式计算所述分类数据的语义相似度:
其中,所述S(Ia,Ib)为目标语义特征向量Ia与目标语义特征向量Ib对应的分类数据的语义相似度,Distance(Ia,Ib)表示目标语义特征向量Ia与目标语义特征向量Ib之间的向量距离。
本发明实施例中,文档相似度表示每个电网文档之间的语义相似度,通过每个电网文档不同数据类型之间分类数据的语义相似度确定,以提高电网文档之间语义相似度计算的准确度。
本发明实施例中,所述基于所述语义相似度计算所述每个电网文档的文档相似度,包括:
计算每个所述电网文档中数据类型的数据占比,根据所述数据占比确定每个数据类型的数据权重;
根据所述语义相似度确定每个所述电网文档之间的目标语义相似度;
根据所述目标语义相似度与所述每个数据类型的数据权重进行加权求和计算,得到每个所述电网文档之间的文档相似度。
本发明实施例中,通过语义相似度确定每个电网文档之间分类数据对应的目标语义相似度,通过每个电网文档中数据类型的数据权重与对应的目标语义相似度进行加权并求和,以得到每个电网文档之间的文档相似度。
本发明实施例中,关联性层级划分是根据每个电网文档之间的文档相似度对每个文档之间的关联性进行划分,文档相似度越大,电网文档之间对应的关联性越高,关联性层级越高,本发明实施例可以根据预设的阈值对文档相似度进行划分,例如,文档相似度大于90%,则电网文档之间的关联性层级为第一级,文档相似度在70%-90%之间,电网文档之间的关联性层级为第二级,文档相似度在40%-70%之间,电网文档之间的关联性层级为第三级,小于40%的为第四级,进而通过文档相似度对每个电网文档之间的关联性层级进行划分。
本发明实施例中,通过分类数据的语义相似度计算文档相似度,能够提高文档相似度的计算准确度,根据不同的数据类型更精确地计算电网文档之间的文档相似度,增加文档相似度计算的语义范围,进一步地提高文档相似度计算的准确度,实现对电网文档进行更精确地划分。
本发明实施例通过对电网文档进行数据分类,能够分别对分类数据进行嵌入编码,以及语义编码,得到分类数据对应的编码向量,能够针对性地对电网文档进行语义分析,以提高语义分析的精确度;对编码向量进行不同维度的语义特征提取,能够提高语义提取的特征全面性以及特征提取的丰富度,进而对不同维度的不同维度的语义特征向量进行特征融合能够得到特征信息更准确的融合语义特征向量;再对融合语义向量进行语义加权计算,进一步地提高分类数据的目标语义特征向量的准确度;根据目标语义特征向量计算分类数据的语义相似度,通过语义相似度计算每个电网文档的文档相似度,以增加文档相似度计算时不同数据类型的语义范围,进而提高关联性层级划分的准确度。因此本发明提出的基于语义分析的电网文档关联性层级分析方法,可以解决电网文档关联性层级分析准确度较差的问题。
如图4所示,是本发明一实施例提供的基于语义分析的电网文档关联性层级分析系统的功能模块图。
本发明所述基于语义分析的电网文档关联性层级分析系统400可以安装于电子设备中。根据实现的功能,所述基于语义分析的电网文档关联性层级分析系统400可以包括数据分类模块401、嵌入编码及语义编码模块402、语义特征提取模块403、语义加权计算模块404及关联性层级划分模块405。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述数据分类模块401,用于获取电网文档集,提取所述电网文档集中的每个电网文档的数据类型,根据所述数据类型对所述每个电网文档的文档数据进行分类,得到所述数据类型对应的分类数据;
所述嵌入编码及语义编码模块402,用于对所述分类数据进行嵌入编码,得到所述分类数据的嵌入向量,对所述嵌入向量进行语义编码,得到所述分类数据对应的编码向量;
所述语义特征提取模块403,用于对所述编码向量进行不同维度的语义特征提取,得到不同维度的语义特征向量,对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量;
所述语义加权计算模块404,用于计算所述融合语义向量的语义通道权重,根据所述语义通道权重对所述融合语义向量进行语义加权计算,得到所述分类数据的目标语义特征向量;
所述关联性层级划分模块405,用于根据所述目标语义特征向量计算所述分类数据的语义相似度,基于所述语义相似度计算所述每个电网文档的文档相似度,根据所述文档相似度对所述电网文档集中的每个电网文档进行关联性层级划分。
详细地,本发明实施例中所述基于语义分析的电网文档关联性层级分析系统400中所述的各模块在使用时采用与上述图1至图3中所述的基于语义分析的电网文档关联性层级分析方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
本发明还提供一种电子设备,所述电子设备可以包括处理器、存储器、通信总线以及通信接口,还可以包括存储在所述存储器中并可在所述处理器上运行的计算机程序,如基于语义分析的电网文档关联性层级分析方法程序。
其中,所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如执行基于语义分析的电网文档关联性层级分析方法程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于语义分析的电网文档关联性层级分析方法程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。
所述通信接口用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理系统与所述至少一个处理器逻辑相连,从而通过电源管理系统实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
具体地,所述处理器对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或系统也可以由一个单元或系统通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (7)
1.一种基于语义分析的电网文档关联性层级分析方法,其特征在于,所述方法包括:
获取电网文档集,提取所述电网文档集中的每个电网文档的数据类型,根据所述数据类型对所述每个电网文档的文档数据进行分类,得到所述数据类型对应的分类数据;
对所述分类数据进行嵌入编码,得到所述分类数据的嵌入向量,对所述嵌入向量进行语义编码,得到所述分类数据对应的编码向量;
对所述编码向量进行不同维度的语义特征提取,得到不同维度的语义特征向量,对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量;所述对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量,包括:对所述不同维度的语义特征向量进行维度映射,得到相同维度的特征向量;将所述相同维度的特征向量进行向量拼接,得到融合语义特征向量;
计算所述融合语义特征向量的语义通道权重,根据所述语义通道权重对所述融合语义特征向量进行语义加权计算,得到所述分类数据的目标语义特征向量;所述计算所述融合语义特征向量的语义通道权重,包括:根据所述融合语义特征向量的向量维度对所述融合语义特征向量进行向量分解,得到维度分解向量;对所述维度分解向量进行向量变换以及非线性映射,得到所述维度分解向量对应的变换语义向量及映射语义向量;根据所述变换语义向量及所述映射语义向量计算所述维度分解向量对应的语义通道权重;
利用如下公式计算所述对所述维度分解向量进行向量变换以及非线性映射:
v=ZWv+bv,
u=sigmoid(ZWu+bu)
其中,v为所述维度分解向量对应的变换语义向量,Z为所述维度分解向量,Wv,bv为预设的进行向量变换的向量偏置,u为映射语义向量,sigmoid为激活函数,Wu,bu为预设的进行非线性映射的向量偏置;
根据所述目标语义特征向量计算所述分类数据的语义相似度,基于所述语义相似度计算所述每个电网文档的文档相似度,根据所述文档相似度对所述电网文档集中的每个电网文档进行关联性层级划分。
2.如权利要求1所述的基于语义分析的电网文档关联性层级分析方法,其特征在于,所述提取所述电网文档集中的每个电网文档的数据类型,根据所述数据类型对所述每个电网文档的文档数据进行分类,得到所述数据类型对应的分类数据,包括:
识别所述每个电网文档中的数据格式,根据所述数据格式提取所述每个电网文档的数据类型;
根据所述数据类型对所述每个电网文档中的文档数据进行聚类,得到所述数据类型对应的分类数据。
3.如权利要求1所述的基于语义分析的电网文档关联性层级分析方法,其特征在于,所述对所述分类数据进行嵌入编码,得到所述分类数据的嵌入向量,包括:
将所述分类数据转化为数据向量,对所述数据向量进行线性映射,得到所述数据向量的低维数据向量;
利用预构建的编码器对所述低维数据向量进行嵌入编码,得到所述分类数据的嵌入向量。
4.如权利要求1所述的基于语义分析的电网文档关联性层级分析方法,其特征在于,所述对所述嵌入向量进行语义编码,得到所述分类数据对应的编码向量,包括:
利用预设的权重矩阵计算所述编码向量的查询向量、数据向量及钥匙向量;
根据所述查询向量、所述数据向量及所述钥匙向量生成所述分类数据的编码向量;
利用如下公式生成所述分类数据的编码向量:
其中,为所述分类数据的编码向量,softmax为激活函数,Q为所述查询向量,KT为所述钥匙向量的转置向量,dk为所述钥匙向量的模,V为所述数据向量。
5.如权利要求1所述的基于语义分析的电网文档关联性层级分析方法,其特征在于,所述对所述编码向量进行不同维度的语义特征提取,得到不同维度的语义特征向量,包括:
对所述编码向量进行全局池化,得到池化向量;
利用预构建的语义提取网络中的不同层级的前馈神经网络对所述池化向量进行线性激活及全连接,得到所述不同层级的前馈神经网络对应的特征向量;
将所述特征向量进行特征拼接,得到不同维度的语义特征向量。
6.如权利要求1所述的基于语义分析的电网文档关联性层级分析方法,其特征在于,所述基于所述语义相似度计算所述每个电网文档的文档相似度,包括:
计算每个所述电网文档中数据类型的数据占比,根据所述数据占比确定每个数据类型的数据权重;
根据所述语义相似度确定每个所述电网文档之间的目标语义相似度;
根据所述目标语义相似度与所述每个数据类型的数据权重进行加权求和计算,得到每个所述电网文档之间的文档相似度。
7.一种基于语义分析的电网文档关联性层级分析系统,其特征在于,所述系统包括:
数据分类模块,用于获取电网文档集,提取所述电网文档集中的每个电网文档的数据类型,根据所述数据类型对所述每个电网文档的文档数据进行分类,得到所述数据类型对应的分类数据;
嵌入编码及语义编码模块,用于对所述分类数据进行嵌入编码,得到所述分类数据的嵌入向量,对所述嵌入向量进行语义编码,得到所述分类数据对应的编码向量;
语义特征提取模块,用于对所述编码向量进行不同维度的语义特征提取,得到不同维度的语义特征向量,对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量;所述对所述不同维度的语义特征向量进行特征融合,得到融合语义特征向量,包括:对所述不同维度的语义特征向量进行维度映射,得到相同维度的特征向量;将所述相同维度的特征向量进行向量拼接,得到融合语义特征向量;
语义加权计算模块,用于计算所述融合语义特征向量的语义通道权重,根据所述语义通道权重对所述融合语义特征向量进行语义加权计算,得到所述分类数据的目标语义特征向量;所述计算所述融合语义特征向量的语义通道权重,包括:根据所述融合语义特征向量的向量维度对所述融合语义特征向量进行向量分解,得到维度分解向量;对所述维度分解向量进行向量变换以及非线性映射,得到所述维度分解向量对应的变换语义向量及映射语义向量;根据所述变换语义向量及所述映射语义向量计算所述维度分解向量对应的语义通道权重;
利用如下公式计算所述对所述维度分解向量进行向量变换以及非线性映射:
v=ZWv+bv,
u=sigmoid(ZWu+bu)
其中,v为所述维度分解向量对应的变换语义向量,Z为所述维度分解向量,Wv,bv为预设的进行向量变换的向量偏置,u为映射语义向量,sigmoid为激活函数,Wu,bu为预设的进行非线性映射的向量偏置;
关联性层级划分模块,用于根据所述目标语义特征向量计算所述分类数据的语义相似度,基于所述语义相似度计算所述每个电网文档的文档相似度,根据所述文档相似度对所述电网文档集中的每个电网文档进行关联性层级划分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685323.8A CN116720497B (zh) | 2023-06-09 | 2023-06-09 | 一种基于语义分析的电网文档关联性层级分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310685323.8A CN116720497B (zh) | 2023-06-09 | 2023-06-09 | 一种基于语义分析的电网文档关联性层级分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116720497A CN116720497A (zh) | 2023-09-08 |
CN116720497B true CN116720497B (zh) | 2024-02-13 |
Family
ID=87865540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310685323.8A Active CN116720497B (zh) | 2023-06-09 | 2023-06-09 | 一种基于语义分析的电网文档关联性层级分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116720497B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151117B (zh) * | 2023-10-30 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 电网轻量级非结构化文档内容自动识别方法、装置及介质 |
CN117315431B (zh) * | 2023-11-29 | 2024-03-22 | 中国人民解放军陆军军医大学第二附属医院 | 一种基于深度学习实现辐射后的造血效果分析方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763325A (zh) * | 2018-05-04 | 2018-11-06 | 北京达佳互联信息技术有限公司 | 一种网络对象处理方法及装置 |
CN114330372A (zh) * | 2021-08-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、相关装置及设备 |
CN114780746A (zh) * | 2022-04-22 | 2022-07-22 | 润联软件系统(深圳)有限公司 | 基于知识图谱的文档检索方法及其相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112765358B (zh) * | 2021-02-23 | 2023-04-07 | 西安交通大学 | 一种基于噪声标签学习的纳税人行业分类方法 |
-
2023
- 2023-06-09 CN CN202310685323.8A patent/CN116720497B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763325A (zh) * | 2018-05-04 | 2018-11-06 | 北京达佳互联信息技术有限公司 | 一种网络对象处理方法及装置 |
CN114330372A (zh) * | 2021-08-03 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、相关装置及设备 |
CN114780746A (zh) * | 2022-04-22 | 2022-07-22 | 润联软件系统(深圳)有限公司 | 基于知识图谱的文档检索方法及其相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116720497A (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
CN116720497B (zh) | 一种基于语义分析的电网文档关联性层级分析方法及系统 | |
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN114398557B (zh) | 基于双画像的信息推荐方法、装置、电子设备及存储介质 | |
CN115238670B (zh) | 信息文本抽取方法、装置、设备及存储介质 | |
CN116662488A (zh) | 业务文档检索方法、装置、设备及存储介质 | |
CN113627530A (zh) | 相似问题文本生成方法、装置、设备及介质 | |
CN116257488B (zh) | 岩土工程勘察大数据归档方法、装置、电子设备及介质 | |
CN116720525A (zh) | 基于问诊数据的疾病辅助分析方法、装置、设备及介质 | |
CN116737947A (zh) | 实体关系图构建方法、装置、设备及存储介质 | |
CN116738044A (zh) | 基于个性化实现高校图书馆的图书推荐方法、装置及设备 | |
CN116701635A (zh) | 培训视频文本二分类方法、装置、设备及存储介质 | |
CN116468025A (zh) | 电子病历结构化方法、装置、电子设备及存储介质 | |
CN116307736A (zh) | 风险画像自动生成的方法、装置、设备及存储介质 | |
CN116341646A (zh) | Bert模型的预训练方法、装置、电子设备及存储介质 | |
CN116340516A (zh) | 实体关系的聚类提取方法、装置、设备及存储介质 | |
CN117874202B (zh) | 一种基于大模型的智能问答方法及系统 | |
CN113704411B (zh) | 基于词向量的相似客群挖掘方法、装置、设备及存储介质 | |
CN114546882B (zh) | 智能问答系统测试方法、装置、电子设备及存储介质 | |
CN111680513B (zh) | 特征信息的识别方法、装置及计算机可读存储介质 | |
CN116361471A (zh) | 新闻分类方法、装置、电子设备及计算机可读存储介质 | |
CN116595175A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN116663557A (zh) | 文档图结构的信息提取方法、装置、设备及存储介质 | |
CN116486972A (zh) | 电子病历生成方法、装置、设备及存储介质 | |
CN116225416A (zh) | 网页代码创建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |