CN116091120B - 一种基于知识图谱技术的全栈式电价咨询与管理系统 - Google Patents
一种基于知识图谱技术的全栈式电价咨询与管理系统 Download PDFInfo
- Publication number
- CN116091120B CN116091120B CN202310377236.6A CN202310377236A CN116091120B CN 116091120 B CN116091120 B CN 116091120B CN 202310377236 A CN202310377236 A CN 202310377236A CN 116091120 B CN116091120 B CN 116091120B
- Authority
- CN
- China
- Prior art keywords
- matrix
- speech
- reconstruction
- singular value
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005611 electricity Effects 0.000 title claims abstract description 19
- 238000005516 engineering process Methods 0.000 title claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 270
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 45
- 230000009467 reduction Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Game Theory and Decision Science (AREA)
- Water Supply & Treatment (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- Public Health (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及数据处理技术领域,提出了一种基于知识图谱技术的全栈式电价咨询与管理系统,包括:获取原始矩阵及当前词性矩阵;获取历史词性矩阵;对原始矩阵进行奇异值分解,获取每个奇异值的第一重构矩阵,根据历史词性矩阵获取词性分布曲线,根据第一重构矩阵的词性分布及当前词性矩阵,与词性分布曲线的差异获取每个奇异值的干扰信息程度;获取每个奇异值的若干第二重构矩阵,根据第二重构矩阵之间的相似程度获取每个奇异值的语义信息量;获取每个奇异值的选择程度,得到第三重构矩阵;获取历史重构矩阵,根据第三重构矩阵及历史重构矩阵进行聚类,生成知识图谱。本发明旨在对政策文档进行降维并聚类以提高知识图谱准确性。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种基于知识图谱技术的全栈式电价咨询与管理系统。
背景技术
构建新能源为主的新型电力系统是实现可持续发展,推动碳达峰和碳中和目标的重要措施;随着新能源建设的大力发展,可再生能源的政策也在不断发生变化;由于其发电类型及消纳方式等因素不同,其享受的补助标准及适用拨付原则也不尽相同;全栈式平台是打破“信息孤岛”,实现资源信息共享,构建完整高效体系结构的一种有效方式;而知识图谱技术通过可视化技术来完整地描述知识资源信息及其之间的相互联系。因此本发明创新地应用知识图谱技术构建全栈式电价咨询与管理系统,形成新能源政策文件池,支持智能查询、信息提取、关联分析等功能,实现政策体系完整、政策历史脉络清晰展现等目的,帮助相关人员切实弄通悟透政策要点,进而规避政策执行风险。
在根据采集的政策文档构建知识图谱的过程中,往往是对采集的政策文档进行处理,并通过数据预处理及知识融合等操作,把具有相关联系的政策文档进行聚类;而在聚类过程中,由于文本数据的特性,存在文本向量维度高且干扰信息较大的缺点,使得在进行相关联系的政策文档聚类时,得到的聚类结果不准确,因此往往需要在前处理过程中对政策文档中的文本数据进行降维。
奇异值分解是一种应用较为广泛的数据降维方法,对政策文档得到的词矩阵进行奇异值分解,通过保存较大奇异值对应的子矩阵并进行重构即可得到降维后的词矩阵;然而在奇异值分解过程中,由于较大的奇异值对应的子矩阵中包含的信息较多,这些子矩阵中在包含有效信息的同时还包含较多干扰信息;同时可能出现由于奇异值较小,但其对应的子矩阵中包含重要语义信息而被删除,进而使重构后的词矩阵包含有干扰信息且一些重要语义信息丢失,造成在政策文档聚类过程中的错误分类,进而使知识图谱不够准确而影响到全栈式电价咨询与管理系统的正常应用。
发明内容
本发明提供一种基于知识图谱技术的全栈式电价咨询与管理系统,以解决现有的政策文档降维后丢失重要信息的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种基于知识图谱技术的全栈式电价咨询与管理系统,该系统包括:
政策文档采集模块:采集当前政策文档数据,获取原始矩阵及当前词性矩阵;获取若干历史政策文档数据,得到每个历史政策文档数据的历史词矩阵及历史词性矩阵;
数据降维重构模块:对原始矩阵进行奇异值分解,获取若干奇异值及对应子矩阵,分别将每个奇异值对应子矩阵去除后进行矩阵重构得到每个奇异值的第一重构矩阵,根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第一重构矩阵的第一词性矩阵;根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,根据历史词性矩阵获取每一行的词性分布曲线,根据第一词性曲线及当前词性曲线与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度;
根据组合奇异值数量获取每个奇异值对应的包含该奇异值的奇异值组合,根据奇异值组合获取每个奇异值的若干第二重构矩阵,根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第二重构矩阵的第二词性矩阵,获取第二词性矩阵中每一行的第二词性曲线,获取第二重构矩阵中每一行的句向量,根据两个第二重构矩阵中相同行之间的第二词性曲线及句向量之间的关系获取两个第二重构矩阵之间的语义相似程度,将任意一个奇异值的所有任意两个第二重构矩阵之间的语义相似程度的均值作为该奇异值及对应子矩阵的语义信息量;
根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度,将所有选择程度降序排列,选取较大的组合奇异值数量的选择程度,根据选取的选择程度对应的奇异值及对应子矩阵获取第三重构矩阵;
知识图谱生成模块,对每个历史政策文档数据降维得到历史重构矩阵,根据第三重构矩阵及历史重构矩阵进行聚类,根据聚类结果生成知识图谱。
可选的,所述获取原始矩阵及当前词性矩阵,包括的具体方法为:
通过分词处理获取当前政策文档数据的若干分词,以当前政策文档数据中的每个句子为一行,将每个句子中的分词利用数字进行排序,每个矩阵元素代表一个分词,得到的矩阵记为原始矩阵;
获取当前政策文档数据中每个分词的词性,以当前政策文档数据中的每个句子为一行,将每个句子中的分词的词性利用数字进行排序,每个矩阵元素代表一个分词的词性,得到的矩阵记为当前词性矩阵。
可选的,所述根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,包括的具体方法为:
根据当前词性矩阵及第一词性矩阵,以横坐标为列数,纵坐标为词性数值,分别获取第一词性矩阵中每一行的第一词性曲线,及当前词性矩阵中每一行的当前词性曲线。
可选的,所述根据历史词性矩阵获取每一行的词性分布曲线,包括的具体方法为:
获取历史词性矩阵中每一行的历史词性曲线,对所有历史词性矩阵中的相同行的历史词性曲线,通过最小二乘法进行拟合,得到的曲线记为该行的词性分布曲线。
可选的,所述获取每个奇异值及对应子矩阵的干扰信息程度,包括的具体方法为:
可选的,所述获取两个第二重构矩阵之间的语义相似程度,包括的具体方法为:
其中,表示第个奇异值的第个第二重构矩阵和第个第二重构矩阵之间
的语义相似程度,表示语义信息常量,表示第个奇异值的第个第二重构矩
阵中第行的句向量,表示第个奇异值的第个第二重构矩阵中第行的句向量,
表示第个奇异值的第个第二词性矩阵中第行的第二词性曲线,表示第个奇异值的
第个第二词性矩阵中第行的第二词性曲线,表示两个向量之间的余弦相似度,表示两条曲线的之间DTW距离。
可选的,所述对每个历史政策文档数据降维得到历史重构矩阵,包括的具体方法为:
以任意一个历史政策文档数据为例,获取该历史政策文档数据的历史词矩阵及历史词性矩阵,对历史词矩阵进行奇异值分解,按照干扰信息程度及语义信息量的获取方法得到该历史词矩阵中每个奇异值的干扰信息程度及语义信息量,进而得到每个奇异值的选择程度,重构得到该历史词矩阵对应的历史政策文档数据的历史重构矩阵。
本发明的有益效果是:本发明通过分析政策文档获取词矩阵,并对词矩阵进行奇异值分解后,根据每个奇异值及对应子矩阵进行重构词矩阵,根据重构前后词矩阵的干扰信息差异及语义信息差异,来量化每个奇异值及对应子矩阵的干扰信息程度以及语义信息量,进而获取每个奇异值及对应的矩阵的选择程度;避免了传统的奇异值分解进行降维的过程中,仅保留较大的奇异值而不考虑其中含有干扰信息的缺点,并删除包含有部分有效信息的较小奇异值而使得有效信息被删除的错误操作;使得降维后的政策文档数据表征的语义信息更加准确,进而实现政策文档精准聚类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种基于知识图谱技术的全栈式电价咨询与管理系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种基于知识图谱技术的全栈式电价咨询与管理系统结构框图,该系统包括:
政策文档采集模块S101,采集当前政策文档数据,转换获取原始矩阵及当前词性矩阵;获取若干历史政策文档数据,得到每个历史政策文档数据的历史词矩阵及历史词性矩阵。
本实施例的目的是对当前的政策文档进行降维,进而将降维后的政策文档进行聚类整理并生成知识图谱,因此首先需要采集政策文档;本实施例采集到的政策文档数据为PDF格式,记为当前政策文档数据,将当前政策文档数据通过JieBa分词处理,获取到若干分词,并对每个分词的词性进行标注。
进一步的,将采集到的当前政策文档数据转换为词矩阵,记为原始矩阵;具体的转
化过程为:将每个分词按出现顺序从1开始利用正整数进行数字排序,矩阵中的每一行代表
一个句子,每个矩阵元素代表一个分词,由于每个句子的分词数不相同,则缺少分词的矩阵
元素使用“0”进行表示;例如:一个句子为“新能源政策开始实施注意问题”,经过JieBa分词
后得到的分词为“新能源、政策、开始、实施、注意、问题”,相应的数字排序为“新能源”为
“1”,“政策”为“2”,“开始”为“3”,…,“问题”为“6”,则对应的矩阵中该行中各个矩阵元素为;下一个句子为“新能源政策的实施过程”,新增分词的排序“的”为“7”,“过程”
为“8”,则对应的矩阵中该行中各个矩阵元素为;需要说明的是,JieBa分词为公
知技术,本实施例不再赘述;对于各个句子中相同分词的判断,本实施例利用字符串匹配及
识别的方法进行判断,为现有技术不再赘述。
进一步的,通过原始矩阵的构建方法根据每个分词的词性构建词性矩阵,将形容词、动词等词性依次按出现顺序从1开始利用正整数进行数字排序,得到当前政策文档数据的词性矩阵,记为当前词性矩阵;需要说明的是,原始矩阵中为0的矩阵元素,在词性矩阵中相同位置的矩阵元素仍用“0”进行表示;词性矩阵中的每一行代表一个句子中每个分词的词性,每个矩阵元素代表一个分词的词性。
进一步的,获取若干历史政策文档数据,并按照上述方法获取每个历史政策文档数据的词矩阵,记为历史词矩阵;获取每个历史政策文档数据的词性矩阵,记为历史词性矩阵;需要说明的是,历史政策文档数据即为已有的政策文档,当前政策文档数据即为新增的政策文档,需要将新增的政策文档与若干历史政策文档进行归类整理,进而生成知识图谱。
数据降维重构模块S102:
(1)对原始矩阵进行奇异值分解,获取若干奇异值及对应子矩阵,分别将每个奇异值对应子矩阵去除后进行矩阵重构每个奇异值的第一重构矩阵,根据历史词性矩阵获取词性分布曲线,根据第一重构矩阵的词性分布及当前词性矩阵,与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度。
需要说明的是,对原始矩阵进行奇异值分解后,由于传统的根据奇异值进行重构会导致干扰信息未被去除而有效信息丢失,因此需要对奇异值的干扰信息及有效信息进行量化;对于干扰信息,由于政策文档中文本内容相较于普通文本更加规整,对应的一些非规律性的内容就可能表现为特殊分词,词性较之规整文本也不同,进而影响词性分布,这些非规律性内容为干扰信息的可能性就较大,可以通过词性分布的差异来判断干扰信息;通过分别去除每个奇异值对应子矩阵得到的重构矩阵,以及原始矩阵在词性分布上,与历史词性矩阵整合得到的词性分布曲线上的差异,获取每个奇异值及对应子矩阵的干扰信息程度。
其中,表示奇异值的数量,表示第个奇异值,及表示第个奇异值的对应
子矩阵,表示矩阵的转置矩阵;该展开式为原始矩阵的奇异值分解展开式,而利用奇异
值进行重构则可以根据展开式进行重构,即是将选择的奇异值及对应子矩阵按照展开式方
法进行累加重构即可完成,具体矩阵重构方法为现有技术,本实施例不再赘述。
进一步的,以第个奇异值为例,将所有奇异值中去除第个奇异值进行矩阵重构,
得到的矩阵中每个元素向上取整,将原始矩阵中为0的矩阵元素,在取整后的矩阵中相同位
置的矩阵元素也替换为0,记为第个奇异值的第一重构矩阵;此时第一重构矩阵中每个元
素依然代表一个分词,且原始矩阵中作为补充元素的位置在第一重构矩阵中仍为补充元
素,即该位置没有分词;根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所
对应分词的词性,获取第一重构矩阵的第一词性矩阵;以横坐标为列数,纵坐标为词性数
值,获取第一词性矩阵中每一行的第一词性曲线,记为第个奇异值每一行的第一词性曲
线;以相同坐标系获取当前词性矩阵中每一行的当前词性曲线。
进一步的,按照上述方法获取历史词性矩阵中每一行的历史词性曲线,对所有历史词性矩阵中的相同行的历史词性曲线,通过最小二乘法进行拟合,得到的曲线记为该行的词性分布曲线,最小二乘法进行多曲线拟合为现有技术,本实施例不再赘述;词性分布曲线量化了若干历史词性矩阵中每一行的词性分布,进而根据第一词性曲线与词性分布曲线的差异判断每个奇异值的干扰信息程度;需要说明的是,原始矩阵中的行数与各个历史词矩阵中的行数均保持一致,即获取原始矩阵与各个历史词矩阵中的最大行数,将所有矩阵的行数都补充至最大行数,缺少的行进行补“0”处理。
其中,表示词性矩阵中的行数,表示第行的词性分布曲线,表示第行的当前
词性曲线,表示第个奇异值第行的第一词性曲线,表示两条曲线之间的DTW距
离,为现有技术,本实施例不再赘述;当前词性曲线与词性分布曲线的DTW距离越大,相似程
度越小,原始矩阵中包含的干扰信息越多;而对于去除掉第个奇异值对应子矩阵的第一重
构矩阵,其与词性分布曲线的DTW距离和当前词性曲线与词性分布曲线的DTW距离之间的差
异越小,则表明去除掉的第个奇异值对应子矩阵中包含的干扰信息越少,相应的干扰信息
程度就越小;按照上述方法获取原始矩阵得到的每个奇异值及对应子矩阵的干扰信息程
度。
至此,获取到了每个奇异值及对应子矩阵的干扰信息程度,用于后续对原始矩阵进行降维重构的奇异值选取。
(2)获取每个奇异值对应的若干奇异值组合,根据奇异值组合获取每个奇异值的若干第二重构矩阵,根据同一奇异值的若干第二重构矩阵之间的相似程度获取每个奇异值及对应子矩阵的语义信息量。
需要说明的是,首先构造若干奇异值组合,组合内的奇异值数量预先给出,并用于后续原始矩阵降维重构的奇异值选取数量;以任意一个奇异值为例,获取包含该奇异值的若干奇异值组合,根据这些奇异值组合分别重构得到该奇异值的若干第二重构矩阵,第二重构矩阵之间的交集部分即可反映该奇异值及对应子矩阵的语义信息量;第二重构矩阵之间的交集可以通过每一行的相似程度来量化,每一行都可能存在同义词,即意义相同但文字不同,同义词之间词性相同,则可以根据不同第二重构矩阵相同行之间的词性分布的相似程度来表征交集部分,进而得到奇异值及对应子矩阵的语义信息量。
具体的,给出组合奇异值数量,本实施例采用进行计算,用于构建奇异值数
量为的奇异值组合,以第个奇异值为例,获取包含第个奇异值的一个奇异值组合,这个
奇异值组合中的奇异值数量为,那么可以获取到多个这样的奇异值组合,分别根据每个奇
异值组合及对应子矩阵重构矩阵得到若干矩阵,得到的矩阵中每个元素向上取整,将原始
矩阵中为0的矩阵元素,在取整后的矩阵中相同位置的矩阵元素也替换为0,记为第个奇异
值的第二重构矩阵,由于存在多个第个奇异值对应的奇异值组合,因此第个奇异值对应
多个第二重构矩阵;根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应
分词的词性,获取第二重构矩阵的第二词性矩阵;以横坐标为列数,纵坐标为词性数值,获
取第二词性矩阵中每一行的第二词性曲线。
其中,表示语义信息常量,本实施例采用进行计算,用于反映相似程度与交
集之间的关系;表示第个奇异值的第个第二重构矩阵中第行的句向量,表
示第个奇异值的第个第二重构矩阵中第行的句向量,句向量获取方法为现有技术,可以
通过Word2vec模型获取,本实施例不再赘述;表示第个奇异值的第个第二词性矩阵
中第行的第二词性曲线,表示第个奇异值的第个第二词性矩阵中第行的第二词
性曲线;表示两个向量之间的余弦相似度,表示两条曲线的之间DTW距离;分子
分母加1的目的是为避免分母为0的情况影响计算结果;不同第二重构矩阵中相同行的句向
量之间余弦相似度越大,两行的语义相似程度越大;DTW距离越小,词性分布曲线的相似程
度越大,两行的语义相似程度越大;按照上述方法获取第个奇异值中任意两个第二重构矩
阵之间的语义相似程度,将所有语义相似程度的均值作为第个奇异值及对应子矩阵的语
义信息量;按照上述方法获取每个奇异值及对应子矩阵的语义信息量。
至此,获取到了每个奇异值及对应子矩阵的语义信息量,用于后续对原始矩阵进行降维重构的奇异值选取。
(3)根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度,根据选择程度选取若干奇异值及对应子矩阵获取第三重构矩阵。
需要说明的是,对于任意一个奇异值,已经获取到了其干扰信息程度及语义信息量,干扰信息程度越大的奇异值,其对应子矩阵中包含越多干扰信息,对于整个政策文档的无效信息越多;语义信息量越大的奇异值,对应子矩阵包含越多语义信息,应尽量保留该奇异值及对应子矩阵进行重构,以避免降维后的词矩阵中丢失有效语义信息。
具体的,获取每个奇异值的语义信息量与干扰信息程度的比值,将所有奇异值得
到的比值进行线性归一化,归一化得到的结果即为每个奇异值及对应子矩阵的选择程度;
将所有奇异值按照选择程度降序排列,选取前个奇异值及对应子矩阵进行重构,得到重构
的矩阵即为第三重构矩阵;需要说明的是,即为预设的组合奇异值数量,矩阵重构为公知
技术,本实施例不再赘述。
至此,获取到了原始矩阵中每个奇异值的选择程度,并重构得到了第三重构矩阵,完成了对于当前政策文档数据的降维处理。
知识图谱生成模块S103,对每个历史政策文档数据降维得到历史重构矩阵,根据第三重构矩阵及历史重构矩阵进行聚类,根据聚类结果生成知识图谱。
需要说明的是,经过奇异值分解原始矩阵,获取每个奇异值的选择程度进而得到当前政策文档数据的第三重构矩阵,第三重构矩阵即为当前政策文档数据的降维矩阵;要对当前政策文档数据及历史政策文档数据进行聚类,则同样需要对每个历史政策文档数据进行降维获取相应的历史重构矩阵。
具体的,对任意一个历史词矩阵按照S102中的原始矩阵处理过程进行奇异值分解,按照干扰信息程度及语义信息量的获取方法得到该历史词矩阵中每个奇异值的干扰信息程度及语义信息量;需要说明的是,计算干扰信息程度过程中获取词性分布曲线的方法不变,即词性分布曲线计算仍包含该历史词矩阵;进而得到每个奇异值的选择程度,并重构得到该历史词矩阵对应的历史政策文档数据的历史重构矩阵;按照上述方法获取每个历史政策文档数据的历史重构矩阵。
进一步的,根据降维后的第三重构矩阵及若干历史重构矩阵进行聚类,聚类方法可以采用矩阵之间的相似程度进行DBSCAN聚类,具体聚类方法本实施例不做限定;对聚类结果中每一类的政策文档进行信息提取及知识融合等处理,经过质量评估后将合格部分加入到知识库中,生成知识图谱;其中知识图谱的相关生成过程为现有技术,本实施例不再赘述。
至此,完成了根据若干政策文档生成的知识图谱,进而构建全栈式电价咨询与管理系统,形成新能源政策文件池,支持智能查询、信息提取、关联分析等功能;本实施例采用的对政策文档数据的降维方法,最大程度地保留有效语义信息并降低数据维度,使得政策文档间的聚类结果更加准确,进而可以将相关联系性较强的政策文档更好地整合,对于生成的知识图谱更加准确;使得全栈式电价咨询与管理系统可以对政策文档进行智能解析,进而关联相关的政策文档,不断更新优化电价等新能源政策方面的知识图谱;同时可以更好地展现政策历史脉络,帮助相关人员更加准确的悟透政策要点,避免了将不相关的政策文档进行联系而生成错误的知识图谱。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,该系统包括:
政策文档采集模块:采集当前政策文档数据,获取原始矩阵及当前词性矩阵;获取若干历史政策文档数据,得到每个历史政策文档数据的历史词矩阵及历史词性矩阵;
数据降维重构模块:对原始矩阵进行奇异值分解,获取若干奇异值及对应子矩阵,分别将每个奇异值对应子矩阵从原始矩阵中去除后进行矩阵重构得到每个奇异值的第一重构矩阵,根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第一重构矩阵的第一词性矩阵;根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,根据历史词性矩阵获取每一行的词性分布曲线,根据第一词性曲线及当前词性曲线与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度;
构造若干奇异值组合,奇异值组合内的奇异值数量为a个,获取包含当前奇异值的若干奇异值组合,根据所述包含当前奇异值的若干奇异值组合分别重构得到当前奇异值的若干第二重构矩阵,根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第二重构矩阵的第二词性矩阵,获取第二词性矩阵中每一行的第二词性曲线,获取第二重构矩阵中每一行的句向量,根据两个第二重构矩阵中相同行之间的第二词性曲线及句向量之间的关系获取两个第二重构矩阵之间的语义相似程度,将任意一个奇异值的所有任意两个第二重构矩阵之间的语义相似程度的均值作为该奇异值及对应子矩阵的语义信息量;
根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度,将所有选择程度降序排列,选取最大的前a个选择程度,根据选取的选择程度对应的奇异值及对应子矩阵获取第三重构矩阵;
知识图谱生成模块,对每个历史政策文档数据降维得到历史重构矩阵,根据第三重构矩阵及历史重构矩阵进行聚类,根据聚类结果生成知识图谱;
所述获取原始矩阵及当前词性矩阵,包括的具体方法为:
通过分词处理获取当前政策文档数据的若干分词,以当前政策文档数据中的每个句子为一行,将每个句子中的分词利用数字进行排序,每个矩阵元素代表一个分词,得到的矩阵记为原始矩阵;
获取当前政策文档数据中每个分词的词性,以当前政策文档数据中的每个句子为一行,将每个句子中的分词的词性利用数字进行排序,每个矩阵元素代表一个分词的词性,得到的矩阵记为当前词性矩阵;
所述分别将每个奇异值对应子矩阵从原始矩阵中去除后进行矩阵重构得到每个奇异值的第一重构矩阵的具体过程为:
将原始矩阵记为A,根据奇异值分解的原始矩阵A展开式为:
2.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,包括的具体方法为:
根据当前词性矩阵及第一词性矩阵,以横坐标为列数,纵坐标为词性数值,分别获取第一词性矩阵中每一行的第一词性曲线,及当前词性矩阵中每一行的当前词性曲线。
3.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述根据历史词性矩阵获取每一行的词性分布曲线,包括的具体方法为:
获取历史词性矩阵中每一行的历史词性曲线,对所有历史词性矩阵中的相同行的历史词性曲线,通过最小二乘法进行拟合,得到的曲线记为该行的词性分布曲线。
5.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述获取两个第二重构矩阵之间的语义相似程度,包括的具体方法为:
6.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述对每个历史政策文档数据降维得到历史重构矩阵,包括的具体方法为:
以任意一个历史政策文档数据为例,获取该历史政策文档数据的历史词矩阵及历史词性矩阵,对历史词矩阵进行奇异值分解,按照干扰信息程度及语义信息量的获取方法得到该历史词矩阵中每个奇异值的干扰信息程度及语义信息量,进而得到每个奇异值的选择程度,重构得到该历史词矩阵对应的历史政策文档数据的历史重构矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310377236.6A CN116091120B (zh) | 2023-04-11 | 2023-04-11 | 一种基于知识图谱技术的全栈式电价咨询与管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310377236.6A CN116091120B (zh) | 2023-04-11 | 2023-04-11 | 一种基于知识图谱技术的全栈式电价咨询与管理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116091120A CN116091120A (zh) | 2023-05-09 |
CN116091120B true CN116091120B (zh) | 2023-06-23 |
Family
ID=86201115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310377236.6A Active CN116091120B (zh) | 2023-04-11 | 2023-04-11 | 一种基于知识图谱技术的全栈式电价咨询与管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091120B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992673A (zh) * | 2019-04-10 | 2019-07-09 | 广东工业大学 | 一种知识图谱生成方法、装置、设备及可读存储介质 |
CN112347246A (zh) * | 2020-10-15 | 2021-02-09 | 中科曙光南京研究院有限公司 | 一种基于谱分解的自适应文档聚类方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10664540B2 (en) * | 2017-12-15 | 2020-05-26 | Intuit Inc. | Domain specific natural language understanding of customer intent in self-help |
CN111832316B (zh) * | 2020-06-30 | 2024-05-24 | 北京小米松果电子有限公司 | 语义识别的方法、装置、电子设备和存储介质 |
CN114090787A (zh) * | 2021-11-15 | 2022-02-25 | 国网江苏省电力有限公司信息通信分公司 | 一种基于互联网电力政策信息的知识图谱构建方法 |
CN115357715A (zh) * | 2022-08-29 | 2022-11-18 | 西安理工大学 | 基于奇异值分解和领域预训练的短文本聚类方法 |
-
2023
- 2023-04-11 CN CN202310377236.6A patent/CN116091120B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992673A (zh) * | 2019-04-10 | 2019-07-09 | 广东工业大学 | 一种知识图谱生成方法、装置、设备及可读存储介质 |
CN112347246A (zh) * | 2020-10-15 | 2021-02-09 | 中科曙光南京研究院有限公司 | 一种基于谱分解的自适应文档聚类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116091120A (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239529B (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN110362797B (zh) | 一种研究报告生成方法及相关设备 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN113590823A (zh) | 一种合同审批方法、装置、存储介质及电子设备 | |
CN113946684A (zh) | 电力基建知识图谱构建方法 | |
Downey et al. | Computational feature-sensitive reconstruction of language relationships: Developing the ALINE distance for comparative historical linguistic reconstruction | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113297852B (zh) | 一种医学实体词的识别方法和装置 | |
CN113723056A (zh) | Icd编码转化方法、装置、计算设备和存储介质 | |
CN116091120B (zh) | 一种基于知识图谱技术的全栈式电价咨询与管理系统 | |
CN112509644A (zh) | 一种分子优化方法、系统、终端设备及可读存储介质 | |
CN116719920A (zh) | 动态采样的对话生成模型训练方法、装置、设备及介质 | |
Gonzales | Sociolinguistic analysis with missing metadata? Leveraging linguistic and semiotic resources through deep learning to investigate English variation and change on Twitter | |
CN116775855A (zh) | 基于Bi-LSTM的TextRank中文摘要自动生成方法 | |
CN114417816A (zh) | 文本评分方法、文本评分模型、文本评分设备及存储介质 | |
CN114756617A (zh) | 一种工程档案结构化数据提取方法、系统、设备和存介质 | |
CN114822734A (zh) | 基于循环卷积神经网络的中医病案分析方法 | |
CN112632985A (zh) | 语料的处理方法、装置、存储介质及处理器 | |
Maharani et al. | Classification of Public Sentiment on Fuel Price Increases Using CNN | |
CN116894436B (zh) | 基于医学命名实体识别的数据增强方法及系统 | |
Cheah et al. | Bringing data science to qualitative analysis | |
CN117973343B (zh) | 一种城轨工程投资估算指标智能处理方法及系统 | |
CN117457135B (zh) | 一种地址数据治理方法和循环神经网络模型构建方法 | |
CN117332777B (zh) | 一种充电桩故障的统计分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231128 Address after: 033000 Bottom Shop, Building 1, Jingyiyuan Community, Fenghuang Road, Linxian County, Lvliang City, Shanxi Province Patentee after: Shanxi Changtai Energy Co.,Ltd. Address before: 100000 Building 2, 1st Floor, No. 1 Courtyard, Jiuqiao Road, Daxing District Economic and Technological Development Zone (Daxing), Beijing -101-77 Patentee before: Beijing Zhiyi Yangfan Technology Co.,Ltd. |
|
TR01 | Transfer of patent right |