CN116091120B - 一种基于知识图谱技术的全栈式电价咨询与管理系统 - Google Patents

一种基于知识图谱技术的全栈式电价咨询与管理系统 Download PDF

Info

Publication number
CN116091120B
CN116091120B CN202310377236.6A CN202310377236A CN116091120B CN 116091120 B CN116091120 B CN 116091120B CN 202310377236 A CN202310377236 A CN 202310377236A CN 116091120 B CN116091120 B CN 116091120B
Authority
CN
China
Prior art keywords
matrix
speech
reconstruction
singular value
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310377236.6A
Other languages
English (en)
Other versions
CN116091120A (zh
Inventor
洪杨
罗卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Changtai Energy Co ltd
Original Assignee
Beijing Zhiyi Yangfan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyi Yangfan Technology Co ltd filed Critical Beijing Zhiyi Yangfan Technology Co ltd
Priority to CN202310377236.6A priority Critical patent/CN116091120B/zh
Publication of CN116091120A publication Critical patent/CN116091120A/zh
Application granted granted Critical
Publication of CN116091120B publication Critical patent/CN116091120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Water Supply & Treatment (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Human Resources & Organizations (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据处理技术领域,提出了一种基于知识图谱技术的全栈式电价咨询与管理系统,包括:获取原始矩阵及当前词性矩阵;获取历史词性矩阵;对原始矩阵进行奇异值分解,获取每个奇异值的第一重构矩阵,根据历史词性矩阵获取词性分布曲线,根据第一重构矩阵的词性分布及当前词性矩阵,与词性分布曲线的差异获取每个奇异值的干扰信息程度;获取每个奇异值的若干第二重构矩阵,根据第二重构矩阵之间的相似程度获取每个奇异值的语义信息量;获取每个奇异值的选择程度,得到第三重构矩阵;获取历史重构矩阵,根据第三重构矩阵及历史重构矩阵进行聚类,生成知识图谱。本发明旨在对政策文档进行降维并聚类以提高知识图谱准确性。

Description

一种基于知识图谱技术的全栈式电价咨询与管理系统
技术领域
本发明涉及数据处理领域,具体涉及一种基于知识图谱技术的全栈式电价咨询与管理系统。
背景技术
构建新能源为主的新型电力系统是实现可持续发展,推动碳达峰和碳中和目标的重要措施;随着新能源建设的大力发展,可再生能源的政策也在不断发生变化;由于其发电类型及消纳方式等因素不同,其享受的补助标准及适用拨付原则也不尽相同;全栈式平台是打破“信息孤岛”,实现资源信息共享,构建完整高效体系结构的一种有效方式;而知识图谱技术通过可视化技术来完整地描述知识资源信息及其之间的相互联系。因此本发明创新地应用知识图谱技术构建全栈式电价咨询与管理系统,形成新能源政策文件池,支持智能查询、信息提取、关联分析等功能,实现政策体系完整、政策历史脉络清晰展现等目的,帮助相关人员切实弄通悟透政策要点,进而规避政策执行风险。
在根据采集的政策文档构建知识图谱的过程中,往往是对采集的政策文档进行处理,并通过数据预处理及知识融合等操作,把具有相关联系的政策文档进行聚类;而在聚类过程中,由于文本数据的特性,存在文本向量维度高且干扰信息较大的缺点,使得在进行相关联系的政策文档聚类时,得到的聚类结果不准确,因此往往需要在前处理过程中对政策文档中的文本数据进行降维。
奇异值分解是一种应用较为广泛的数据降维方法,对政策文档得到的词矩阵进行奇异值分解,通过保存较大奇异值对应的子矩阵并进行重构即可得到降维后的词矩阵;然而在奇异值分解过程中,由于较大的奇异值对应的子矩阵中包含的信息较多,这些子矩阵中在包含有效信息的同时还包含较多干扰信息;同时可能出现由于奇异值较小,但其对应的子矩阵中包含重要语义信息而被删除,进而使重构后的词矩阵包含有干扰信息且一些重要语义信息丢失,造成在政策文档聚类过程中的错误分类,进而使知识图谱不够准确而影响到全栈式电价咨询与管理系统的正常应用。
发明内容
本发明提供一种基于知识图谱技术的全栈式电价咨询与管理系统,以解决现有的政策文档降维后丢失重要信息的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种基于知识图谱技术的全栈式电价咨询与管理系统,该系统包括:
政策文档采集模块:采集当前政策文档数据,获取原始矩阵及当前词性矩阵;获取若干历史政策文档数据,得到每个历史政策文档数据的历史词矩阵及历史词性矩阵;
数据降维重构模块:对原始矩阵进行奇异值分解,获取若干奇异值及对应子矩阵,分别将每个奇异值对应子矩阵去除后进行矩阵重构得到每个奇异值的第一重构矩阵,根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第一重构矩阵的第一词性矩阵;根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,根据历史词性矩阵获取每一行的词性分布曲线,根据第一词性曲线及当前词性曲线与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度;
根据组合奇异值数量获取每个奇异值对应的包含该奇异值的奇异值组合,根据奇异值组合获取每个奇异值的若干第二重构矩阵,根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第二重构矩阵的第二词性矩阵,获取第二词性矩阵中每一行的第二词性曲线,获取第二重构矩阵中每一行的句向量,根据两个第二重构矩阵中相同行之间的第二词性曲线及句向量之间的关系获取两个第二重构矩阵之间的语义相似程度,将任意一个奇异值的所有任意两个第二重构矩阵之间的语义相似程度的均值作为该奇异值及对应子矩阵的语义信息量;
根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度,将所有选择程度降序排列,选取较大的组合奇异值数量的选择程度,根据选取的选择程度对应的奇异值及对应子矩阵获取第三重构矩阵;
知识图谱生成模块,对每个历史政策文档数据降维得到历史重构矩阵,根据第三重构矩阵及历史重构矩阵进行聚类,根据聚类结果生成知识图谱。
可选的,所述获取原始矩阵及当前词性矩阵,包括的具体方法为:
通过分词处理获取当前政策文档数据的若干分词,以当前政策文档数据中的每个句子为一行,将每个句子中的分词利用数字进行排序,每个矩阵元素代表一个分词,得到的矩阵记为原始矩阵;
获取当前政策文档数据中每个分词的词性,以当前政策文档数据中的每个句子为一行,将每个句子中的分词的词性利用数字进行排序,每个矩阵元素代表一个分词的词性,得到的矩阵记为当前词性矩阵。
可选的,所述根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,包括的具体方法为:
根据当前词性矩阵及第一词性矩阵,以横坐标为列数,纵坐标为词性数值,分别获取第一词性矩阵中每一行的第一词性曲线,及当前词性矩阵中每一行的当前词性曲线。
可选的,所述根据历史词性矩阵获取每一行的词性分布曲线,包括的具体方法为:
获取历史词性矩阵中每一行的历史词性曲线,对所有历史词性矩阵中的相同行的历史词性曲线,通过最小二乘法进行拟合,得到的曲线记为该行的词性分布曲线。
可选的,所述获取每个奇异值及对应子矩阵的干扰信息程度,包括的具体方法为:
Figure SMS_1
其中,
Figure SMS_3
表示第
Figure SMS_5
个奇异值及对应子矩阵的干扰信息程度,
Figure SMS_8
表示词性矩阵中的行 数,
Figure SMS_4
表示第
Figure SMS_6
行的词性分布曲线,
Figure SMS_9
表示第
Figure SMS_11
行的当前词性曲线,
Figure SMS_2
表示第
Figure SMS_7
个奇异值第
Figure SMS_10
行 的第一词性曲线,
Figure SMS_12
表示两条曲线之间的DTW距离。
可选的,所述获取两个第二重构矩阵之间的语义相似程度,包括的具体方法为:
Figure SMS_13
其中,
Figure SMS_18
表示第
Figure SMS_24
个奇异值的第
Figure SMS_30
个第二重构矩阵和第
Figure SMS_14
个第二重构矩阵之间 的语义相似程度
Figure SMS_23
Figure SMS_29
表示语义信息常量,
Figure SMS_35
表示第
Figure SMS_19
个奇异值的第
Figure SMS_26
个第二重构矩 阵中第
Figure SMS_32
行的句向量,
Figure SMS_37
表示第
Figure SMS_17
个奇异值的第
Figure SMS_22
个第二重构矩阵中第
Figure SMS_28
行的句向量,
Figure SMS_34
表示第
Figure SMS_16
个奇异值的第
Figure SMS_21
个第二词性矩阵中第
Figure SMS_27
行的第二词性曲线,
Figure SMS_33
表示第
Figure SMS_15
个奇异值的 第
Figure SMS_25
个第二词性矩阵中第
Figure SMS_31
行的第二词性曲线,
Figure SMS_36
表示两个向量之间的余弦相似度,
Figure SMS_20
表示两条曲线的之间DTW距离。
可选的,所述对每个历史政策文档数据降维得到历史重构矩阵,包括的具体方法为:
以任意一个历史政策文档数据为例,获取该历史政策文档数据的历史词矩阵及历史词性矩阵,对历史词矩阵进行奇异值分解,按照干扰信息程度及语义信息量的获取方法得到该历史词矩阵中每个奇异值的干扰信息程度及语义信息量,进而得到每个奇异值的选择程度,重构得到该历史词矩阵对应的历史政策文档数据的历史重构矩阵。
本发明的有益效果是:本发明通过分析政策文档获取词矩阵,并对词矩阵进行奇异值分解后,根据每个奇异值及对应子矩阵进行重构词矩阵,根据重构前后词矩阵的干扰信息差异及语义信息差异,来量化每个奇异值及对应子矩阵的干扰信息程度以及语义信息量,进而获取每个奇异值及对应的矩阵的选择程度;避免了传统的奇异值分解进行降维的过程中,仅保留较大的奇异值而不考虑其中含有干扰信息的缺点,并删除包含有部分有效信息的较小奇异值而使得有效信息被删除的错误操作;使得降维后的政策文档数据表征的语义信息更加准确,进而实现政策文档精准聚类。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种基于知识图谱技术的全栈式电价咨询与管理系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种基于知识图谱技术的全栈式电价咨询与管理系统结构框图,该系统包括:
政策文档采集模块S101,采集当前政策文档数据,转换获取原始矩阵及当前词性矩阵;获取若干历史政策文档数据,得到每个历史政策文档数据的历史词矩阵及历史词性矩阵。
本实施例的目的是对当前的政策文档进行降维,进而将降维后的政策文档进行聚类整理并生成知识图谱,因此首先需要采集政策文档;本实施例采集到的政策文档数据为PDF格式,记为当前政策文档数据,将当前政策文档数据通过JieBa分词处理,获取到若干分词,并对每个分词的词性进行标注。
进一步的,将采集到的当前政策文档数据转换为词矩阵,记为原始矩阵;具体的转 化过程为:将每个分词按出现顺序从1开始利用正整数进行数字排序,矩阵中的每一行代表 一个句子,每个矩阵元素代表一个分词,由于每个句子的分词数不相同,则缺少分词的矩阵 元素使用“0”进行表示;例如:一个句子为“新能源政策开始实施注意问题”,经过JieBa分词 后得到的分词为“新能源、政策、开始、实施、注意、问题”,相应的数字排序为“新能源”为 “1”,“政策”为“2”,“开始”为“3”,…,“问题”为“6”,则对应的矩阵中该行中各个矩阵元素为
Figure SMS_38
;下一个句子为“新能源政策的实施过程”,新增分词的排序“的”为“7”,“过程” 为“8”,则对应的矩阵中该行中各个矩阵元素为
Figure SMS_39
;需要说明的是,JieBa分词为公 知技术,本实施例不再赘述;对于各个句子中相同分词的判断,本实施例利用字符串匹配及 识别的方法进行判断,为现有技术不再赘述。
进一步的,通过原始矩阵的构建方法根据每个分词的词性构建词性矩阵,将形容词、动词等词性依次按出现顺序从1开始利用正整数进行数字排序,得到当前政策文档数据的词性矩阵,记为当前词性矩阵;需要说明的是,原始矩阵中为0的矩阵元素,在词性矩阵中相同位置的矩阵元素仍用“0”进行表示;词性矩阵中的每一行代表一个句子中每个分词的词性,每个矩阵元素代表一个分词的词性。
进一步的,获取若干历史政策文档数据,并按照上述方法获取每个历史政策文档数据的词矩阵,记为历史词矩阵;获取每个历史政策文档数据的词性矩阵,记为历史词性矩阵;需要说明的是,历史政策文档数据即为已有的政策文档,当前政策文档数据即为新增的政策文档,需要将新增的政策文档与若干历史政策文档进行归类整理,进而生成知识图谱。
数据降维重构模块S102:
(1)对原始矩阵进行奇异值分解,获取若干奇异值及对应子矩阵,分别将每个奇异值对应子矩阵去除后进行矩阵重构每个奇异值的第一重构矩阵,根据历史词性矩阵获取词性分布曲线,根据第一重构矩阵的词性分布及当前词性矩阵,与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度。
需要说明的是,对原始矩阵进行奇异值分解后,由于传统的根据奇异值进行重构会导致干扰信息未被去除而有效信息丢失,因此需要对奇异值的干扰信息及有效信息进行量化;对于干扰信息,由于政策文档中文本内容相较于普通文本更加规整,对应的一些非规律性的内容就可能表现为特殊分词,词性较之规整文本也不同,进而影响词性分布,这些非规律性内容为干扰信息的可能性就较大,可以通过词性分布的差异来判断干扰信息;通过分别去除每个奇异值对应子矩阵得到的重构矩阵,以及原始矩阵在词性分布上,与历史词性矩阵整合得到的词性分布曲线上的差异,获取每个奇异值及对应子矩阵的干扰信息程度。
具体的,首先对原始矩阵进行奇异值分解,获取到
Figure SMS_40
个奇异值及对应子矩阵,奇异 值分解为现有技术,本实施例不再赘述;原始矩阵记为
Figure SMS_41
,则根据奇异值分解的原始矩阵
Figure SMS_42
展 开式为:
Figure SMS_43
其中,
Figure SMS_45
表示奇异值的数量,
Figure SMS_48
表示第
Figure SMS_50
个奇异值,
Figure SMS_46
Figure SMS_47
表示第
Figure SMS_49
个奇异值的对应 子矩阵,
Figure SMS_51
表示矩阵
Figure SMS_44
的转置矩阵;该展开式为原始矩阵的奇异值分解展开式,而利用奇异 值进行重构则可以根据展开式进行重构,即是将选择的奇异值及对应子矩阵按照展开式方 法进行累加重构即可完成,具体矩阵重构方法为现有技术,本实施例不再赘述。
进一步的,以第
Figure SMS_52
个奇异值为例,将所有奇异值中去除第
Figure SMS_53
个奇异值进行矩阵重构, 得到的矩阵中每个元素向上取整,将原始矩阵中为0的矩阵元素,在取整后的矩阵中相同位 置的矩阵元素也替换为0,记为第
Figure SMS_54
个奇异值的第一重构矩阵;此时第一重构矩阵中每个元 素依然代表一个分词,且原始矩阵中作为补充元素的位置在第一重构矩阵中仍为补充元 素,即该位置没有分词;根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所 对应分词的词性,获取第一重构矩阵的第一词性矩阵;以横坐标为列数,纵坐标为词性数 值,获取第一词性矩阵中每一行的第一词性曲线,记为第
Figure SMS_55
个奇异值每一行的第一词性曲 线;以相同坐标系获取当前词性矩阵中每一行的当前词性曲线。
进一步的,按照上述方法获取历史词性矩阵中每一行的历史词性曲线,对所有历史词性矩阵中的相同行的历史词性曲线,通过最小二乘法进行拟合,得到的曲线记为该行的词性分布曲线,最小二乘法进行多曲线拟合为现有技术,本实施例不再赘述;词性分布曲线量化了若干历史词性矩阵中每一行的词性分布,进而根据第一词性曲线与词性分布曲线的差异判断每个奇异值的干扰信息程度;需要说明的是,原始矩阵中的行数与各个历史词矩阵中的行数均保持一致,即获取原始矩阵与各个历史词矩阵中的最大行数,将所有矩阵的行数都补充至最大行数,缺少的行进行补“0”处理。
具体的,以第
Figure SMS_56
个奇异值为例,获取该奇异值及对应子矩阵的干扰信息程度
Figure SMS_57
的计 算方法为:
Figure SMS_58
其中,
Figure SMS_59
表示词性矩阵中的行数,
Figure SMS_63
表示第
Figure SMS_66
行的词性分布曲线,
Figure SMS_60
表示第
Figure SMS_64
行的当前 词性曲线,
Figure SMS_67
表示第
Figure SMS_69
个奇异值第
Figure SMS_61
行的第一词性曲线,
Figure SMS_62
表示两条曲线之间的DTW距 离,为现有技术,本实施例不再赘述;当前词性曲线与词性分布曲线的DTW距离越大,相似程 度越小,原始矩阵中包含的干扰信息越多;而对于去除掉第
Figure SMS_65
个奇异值对应子矩阵的第一重 构矩阵,其与词性分布曲线的DTW距离和当前词性曲线与词性分布曲线的DTW距离之间的差 异越小,则表明去除掉的第
Figure SMS_68
个奇异值对应子矩阵中包含的干扰信息越少,相应的干扰信息 程度就越小;按照上述方法获取原始矩阵得到的每个奇异值及对应子矩阵的干扰信息程 度。
至此,获取到了每个奇异值及对应子矩阵的干扰信息程度,用于后续对原始矩阵进行降维重构的奇异值选取。
(2)获取每个奇异值对应的若干奇异值组合,根据奇异值组合获取每个奇异值的若干第二重构矩阵,根据同一奇异值的若干第二重构矩阵之间的相似程度获取每个奇异值及对应子矩阵的语义信息量。
需要说明的是,首先构造若干奇异值组合,组合内的奇异值数量预先给出,并用于后续原始矩阵降维重构的奇异值选取数量;以任意一个奇异值为例,获取包含该奇异值的若干奇异值组合,根据这些奇异值组合分别重构得到该奇异值的若干第二重构矩阵,第二重构矩阵之间的交集部分即可反映该奇异值及对应子矩阵的语义信息量;第二重构矩阵之间的交集可以通过每一行的相似程度来量化,每一行都可能存在同义词,即意义相同但文字不同,同义词之间词性相同,则可以根据不同第二重构矩阵相同行之间的词性分布的相似程度来表征交集部分,进而得到奇异值及对应子矩阵的语义信息量。
具体的,给出组合奇异值数量
Figure SMS_72
,本实施例采用
Figure SMS_73
进行计算,用于构建奇异值数 量为
Figure SMS_76
的奇异值组合,以第
Figure SMS_70
个奇异值为例,获取包含第
Figure SMS_75
个奇异值的一个奇异值组合,这个 奇异值组合中的奇异值数量为
Figure SMS_77
,那么可以获取到多个这样的奇异值组合,分别根据每个奇 异值组合及对应子矩阵重构矩阵得到若干矩阵,得到的矩阵中每个元素向上取整,将原始 矩阵中为0的矩阵元素,在取整后的矩阵中相同位置的矩阵元素也替换为0,记为第
Figure SMS_78
个奇异 值的第二重构矩阵,由于存在多个第
Figure SMS_71
个奇异值对应的奇异值组合,因此第
Figure SMS_74
个奇异值对应 多个第二重构矩阵;根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应 分词的词性,获取第二重构矩阵的第二词性矩阵;以横坐标为列数,纵坐标为词性数值,获 取第二词性矩阵中每一行的第二词性曲线。
进一步的,以第
Figure SMS_79
个奇异值的第
Figure SMS_80
个第二重构矩阵和第
Figure SMS_81
个第二重构矩阵为例,获取 两个第二重构矩阵之间的语义相似程度
Figure SMS_82
的具体计算方法为:
Figure SMS_83
其中,
Figure SMS_86
表示语义信息常量,本实施例采用
Figure SMS_90
进行计算,用于反映相似程度与交 集之间的关系;
Figure SMS_94
表示第
Figure SMS_88
个奇异值的第
Figure SMS_97
个第二重构矩阵中第
Figure SMS_98
行的句向量,
Figure SMS_103
表 示第
Figure SMS_96
个奇异值的第
Figure SMS_102
个第二重构矩阵中第
Figure SMS_84
行的句向量,句向量获取方法为现有技术,可以 通过Word2vec模型获取,本实施例不再赘述;
Figure SMS_95
表示第
Figure SMS_89
个奇异值的第
Figure SMS_93
个第二词性矩阵 中第
Figure SMS_101
行的第二词性曲线,
Figure SMS_105
表示第
Figure SMS_87
个奇异值的第
Figure SMS_99
个第二词性矩阵中第
Figure SMS_100
行的第二词 性曲线;
Figure SMS_104
表示两个向量之间的余弦相似度,
Figure SMS_85
表示两条曲线的之间DTW距离;分子 分母加1的目的是为避免分母为0的情况影响计算结果;不同第二重构矩阵中相同行的句向 量之间余弦相似度越大,两行的语义相似程度越大;DTW距离越小,词性分布曲线的相似程 度越大,两行的语义相似程度越大;按照上述方法获取第
Figure SMS_92
个奇异值中任意两个第二重构矩 阵之间的语义相似程度,将所有语义相似程度的均值作为第
Figure SMS_91
个奇异值及对应子矩阵的语 义信息量;按照上述方法获取每个奇异值及对应子矩阵的语义信息量。
至此,获取到了每个奇异值及对应子矩阵的语义信息量,用于后续对原始矩阵进行降维重构的奇异值选取。
(3)根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度,根据选择程度选取若干奇异值及对应子矩阵获取第三重构矩阵。
需要说明的是,对于任意一个奇异值,已经获取到了其干扰信息程度及语义信息量,干扰信息程度越大的奇异值,其对应子矩阵中包含越多干扰信息,对于整个政策文档的无效信息越多;语义信息量越大的奇异值,对应子矩阵包含越多语义信息,应尽量保留该奇异值及对应子矩阵进行重构,以避免降维后的词矩阵中丢失有效语义信息。
具体的,获取每个奇异值的语义信息量与干扰信息程度的比值,将所有奇异值得 到的比值进行线性归一化,归一化得到的结果即为每个奇异值及对应子矩阵的选择程度; 将所有奇异值按照选择程度降序排列,选取前
Figure SMS_106
个奇异值及对应子矩阵进行重构,得到重构 的矩阵即为第三重构矩阵;需要说明的是,
Figure SMS_107
即为预设的组合奇异值数量,矩阵重构为公知 技术,本实施例不再赘述。
至此,获取到了原始矩阵中每个奇异值的选择程度,并重构得到了第三重构矩阵,完成了对于当前政策文档数据的降维处理。
知识图谱生成模块S103,对每个历史政策文档数据降维得到历史重构矩阵,根据第三重构矩阵及历史重构矩阵进行聚类,根据聚类结果生成知识图谱。
需要说明的是,经过奇异值分解原始矩阵,获取每个奇异值的选择程度进而得到当前政策文档数据的第三重构矩阵,第三重构矩阵即为当前政策文档数据的降维矩阵;要对当前政策文档数据及历史政策文档数据进行聚类,则同样需要对每个历史政策文档数据进行降维获取相应的历史重构矩阵。
具体的,对任意一个历史词矩阵按照S102中的原始矩阵处理过程进行奇异值分解,按照干扰信息程度及语义信息量的获取方法得到该历史词矩阵中每个奇异值的干扰信息程度及语义信息量;需要说明的是,计算干扰信息程度过程中获取词性分布曲线的方法不变,即词性分布曲线计算仍包含该历史词矩阵;进而得到每个奇异值的选择程度,并重构得到该历史词矩阵对应的历史政策文档数据的历史重构矩阵;按照上述方法获取每个历史政策文档数据的历史重构矩阵。
进一步的,根据降维后的第三重构矩阵及若干历史重构矩阵进行聚类,聚类方法可以采用矩阵之间的相似程度进行DBSCAN聚类,具体聚类方法本实施例不做限定;对聚类结果中每一类的政策文档进行信息提取及知识融合等处理,经过质量评估后将合格部分加入到知识库中,生成知识图谱;其中知识图谱的相关生成过程为现有技术,本实施例不再赘述。
至此,完成了根据若干政策文档生成的知识图谱,进而构建全栈式电价咨询与管理系统,形成新能源政策文件池,支持智能查询、信息提取、关联分析等功能;本实施例采用的对政策文档数据的降维方法,最大程度地保留有效语义信息并降低数据维度,使得政策文档间的聚类结果更加准确,进而可以将相关联系性较强的政策文档更好地整合,对于生成的知识图谱更加准确;使得全栈式电价咨询与管理系统可以对政策文档进行智能解析,进而关联相关的政策文档,不断更新优化电价等新能源政策方面的知识图谱;同时可以更好地展现政策历史脉络,帮助相关人员更加准确的悟透政策要点,避免了将不相关的政策文档进行联系而生成错误的知识图谱。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,该系统包括:
政策文档采集模块:采集当前政策文档数据,获取原始矩阵及当前词性矩阵;获取若干历史政策文档数据,得到每个历史政策文档数据的历史词矩阵及历史词性矩阵;
数据降维重构模块:对原始矩阵进行奇异值分解,获取若干奇异值及对应子矩阵,分别将每个奇异值对应子矩阵从原始矩阵中去除后进行矩阵重构得到每个奇异值的第一重构矩阵,根据第一重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第一重构矩阵的第一词性矩阵;根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,根据历史词性矩阵获取每一行的词性分布曲线,根据第一词性曲线及当前词性曲线与词性分布曲线的差异获取每个奇异值及对应子矩阵的干扰信息程度;
构造若干奇异值组合,奇异值组合内的奇异值数量为a个,获取包含当前奇异值的若干奇异值组合,根据所述包含当前奇异值的若干奇异值组合分别重构得到当前奇异值的若干第二重构矩阵,根据第二重构矩阵中每个矩阵元素在原始矩阵中相同矩阵元素所对应分词的词性,获取第二重构矩阵的第二词性矩阵,获取第二词性矩阵中每一行的第二词性曲线,获取第二重构矩阵中每一行的句向量,根据两个第二重构矩阵中相同行之间的第二词性曲线及句向量之间的关系获取两个第二重构矩阵之间的语义相似程度,将任意一个奇异值的所有任意两个第二重构矩阵之间的语义相似程度的均值作为该奇异值及对应子矩阵的语义信息量;
根据干扰信息程度及语义信息量获取每个奇异值及对应子矩阵的选择程度,将所有选择程度降序排列,选取最大的前a个选择程度,根据选取的选择程度对应的奇异值及对应子矩阵获取第三重构矩阵;
知识图谱生成模块,对每个历史政策文档数据降维得到历史重构矩阵,根据第三重构矩阵及历史重构矩阵进行聚类,根据聚类结果生成知识图谱;
所述获取原始矩阵及当前词性矩阵,包括的具体方法为:
通过分词处理获取当前政策文档数据的若干分词,以当前政策文档数据中的每个句子为一行,将每个句子中的分词利用数字进行排序,每个矩阵元素代表一个分词,得到的矩阵记为原始矩阵;
获取当前政策文档数据中每个分词的词性,以当前政策文档数据中的每个句子为一行,将每个句子中的分词的词性利用数字进行排序,每个矩阵元素代表一个分词的词性,得到的矩阵记为当前词性矩阵;
所述分别将每个奇异值对应子矩阵从原始矩阵中去除后进行矩阵重构得到每个奇异值的第一重构矩阵的具体过程为:
将原始矩阵记为A,根据奇异值分解的原始矩阵A展开式为:
Figure QLYQS_1
其中,
Figure QLYQS_3
表示奇异值的数量,/>
Figure QLYQS_5
表示第/>
Figure QLYQS_7
个奇异值,/>
Figure QLYQS_4
及/>
Figure QLYQS_6
表示第/>
Figure QLYQS_8
个奇异值的对应子矩阵,/>
Figure QLYQS_9
表示矩阵/>
Figure QLYQS_2
的转置矩阵;
从原始矩阵A展开式的所有奇异值中去除第
Figure QLYQS_10
个奇异值进行矩阵重构,得到的矩阵中每个元素向上取整,将原始矩阵中为0的矩阵元素,在取整后的矩阵中相同位置的矩阵元素也替换为0,记为第/>
Figure QLYQS_11
个奇异值的第一重构矩阵。
2.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述根据当前词性矩阵及第一词性矩阵获取每一行的当前词性曲线及第一词性曲线,包括的具体方法为:
根据当前词性矩阵及第一词性矩阵,以横坐标为列数,纵坐标为词性数值,分别获取第一词性矩阵中每一行的第一词性曲线,及当前词性矩阵中每一行的当前词性曲线。
3.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述根据历史词性矩阵获取每一行的词性分布曲线,包括的具体方法为:
获取历史词性矩阵中每一行的历史词性曲线,对所有历史词性矩阵中的相同行的历史词性曲线,通过最小二乘法进行拟合,得到的曲线记为该行的词性分布曲线。
4.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述获取每个奇异值及对应子矩阵的干扰信息程度,包括的具体方法为:
Figure QLYQS_12
其中,
Figure QLYQS_13
表示第/>
Figure QLYQS_18
个奇异值及对应子矩阵的干扰信息程度,/>
Figure QLYQS_20
表示词性矩阵中的行数,/>
Figure QLYQS_15
表示第/>
Figure QLYQS_16
行的词性分布曲线,/>
Figure QLYQS_21
表示第/>
Figure QLYQS_22
行的当前词性曲线,/>
Figure QLYQS_14
表示第/>
Figure QLYQS_17
个奇异值第/>
Figure QLYQS_19
行的第一词性曲线,/>
Figure QLYQS_23
表示两条曲线之间的DTW距离。
5.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述获取两个第二重构矩阵之间的语义相似程度,包括的具体方法为:
Figure QLYQS_24
其中,
Figure QLYQS_41
表示第/>
Figure QLYQS_44
个奇异值的第/>
Figure QLYQS_48
个第二重构矩阵和第/>
Figure QLYQS_25
个第二重构矩阵之间的语义相似程度/>
Figure QLYQS_31
,/>
Figure QLYQS_36
表示语义信息常量,/>
Figure QLYQS_39
表示词性矩阵中的行数,/>
Figure QLYQS_33
表示第/>
Figure QLYQS_40
个奇异值的第/>
Figure QLYQS_42
个第二重构矩阵中第/>
Figure QLYQS_46
行的句向量,/>
Figure QLYQS_43
表示第/>
Figure QLYQS_45
个奇异值的第/>
Figure QLYQS_47
个第二重构矩阵中第/>
Figure QLYQS_49
行的句向量,/>
Figure QLYQS_28
表示第/>
Figure QLYQS_29
个奇异值的第/>
Figure QLYQS_35
个第二词性矩阵中第/>
Figure QLYQS_37
行的第二词性曲线,
Figure QLYQS_27
表示第/>
Figure QLYQS_30
个奇异值的第/>
Figure QLYQS_34
个第二词性矩阵中第/>
Figure QLYQS_38
行的第二词性曲线,/>
Figure QLYQS_26
表示两个向量之间的余弦相似度,/>
Figure QLYQS_32
表示两条曲线的之间DTW距离。
6.根据权利要求1所述的一种基于知识图谱技术的全栈式电价咨询与管理系统,其特征在于,所述对每个历史政策文档数据降维得到历史重构矩阵,包括的具体方法为:
以任意一个历史政策文档数据为例,获取该历史政策文档数据的历史词矩阵及历史词性矩阵,对历史词矩阵进行奇异值分解,按照干扰信息程度及语义信息量的获取方法得到该历史词矩阵中每个奇异值的干扰信息程度及语义信息量,进而得到每个奇异值的选择程度,重构得到该历史词矩阵对应的历史政策文档数据的历史重构矩阵。
CN202310377236.6A 2023-04-11 2023-04-11 一种基于知识图谱技术的全栈式电价咨询与管理系统 Active CN116091120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310377236.6A CN116091120B (zh) 2023-04-11 2023-04-11 一种基于知识图谱技术的全栈式电价咨询与管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310377236.6A CN116091120B (zh) 2023-04-11 2023-04-11 一种基于知识图谱技术的全栈式电价咨询与管理系统

Publications (2)

Publication Number Publication Date
CN116091120A CN116091120A (zh) 2023-05-09
CN116091120B true CN116091120B (zh) 2023-06-23

Family

ID=86201115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310377236.6A Active CN116091120B (zh) 2023-04-11 2023-04-11 一种基于知识图谱技术的全栈式电价咨询与管理系统

Country Status (1)

Country Link
CN (1) CN116091120B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992673A (zh) * 2019-04-10 2019-07-09 广东工业大学 一种知识图谱生成方法、装置、设备及可读存储介质
CN112347246A (zh) * 2020-10-15 2021-02-09 中科曙光南京研究院有限公司 一种基于谱分解的自适应文档聚类方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664540B2 (en) * 2017-12-15 2020-05-26 Intuit Inc. Domain specific natural language understanding of customer intent in self-help
CN111832316B (zh) * 2020-06-30 2024-05-24 北京小米松果电子有限公司 语义识别的方法、装置、电子设备和存储介质
CN114090787A (zh) * 2021-11-15 2022-02-25 国网江苏省电力有限公司信息通信分公司 一种基于互联网电力政策信息的知识图谱构建方法
CN115357715A (zh) * 2022-08-29 2022-11-18 西安理工大学 基于奇异值分解和领域预训练的短文本聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992673A (zh) * 2019-04-10 2019-07-09 广东工业大学 一种知识图谱生成方法、装置、设备及可读存储介质
CN112347246A (zh) * 2020-10-15 2021-02-09 中科曙光南京研究院有限公司 一种基于谱分解的自适应文档聚类方法及系统

Also Published As

Publication number Publication date
CN116091120A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN107239529B (zh) 一种基于深度学习的舆情热点类别划分方法
CN110362797B (zh) 一种研究报告生成方法及相关设备
CN114091450B (zh) 一种基于图卷积网络的司法领域关系抽取方法和系统
CN113590823A (zh) 一种合同审批方法、装置、存储介质及电子设备
CN113946684A (zh) 电力基建知识图谱构建方法
Downey et al. Computational feature-sensitive reconstruction of language relationships: Developing the ALINE distance for comparative historical linguistic reconstruction
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113297852B (zh) 一种医学实体词的识别方法和装置
CN113723056A (zh) Icd编码转化方法、装置、计算设备和存储介质
CN116091120B (zh) 一种基于知识图谱技术的全栈式电价咨询与管理系统
CN112509644A (zh) 一种分子优化方法、系统、终端设备及可读存储介质
CN116719920A (zh) 动态采样的对话生成模型训练方法、装置、设备及介质
Gonzales Sociolinguistic analysis with missing metadata? Leveraging linguistic and semiotic resources through deep learning to investigate English variation and change on Twitter
CN116775855A (zh) 基于Bi-LSTM的TextRank中文摘要自动生成方法
CN114417816A (zh) 文本评分方法、文本评分模型、文本评分设备及存储介质
CN114756617A (zh) 一种工程档案结构化数据提取方法、系统、设备和存介质
CN114822734A (zh) 基于循环卷积神经网络的中医病案分析方法
CN112632985A (zh) 语料的处理方法、装置、存储介质及处理器
Maharani et al. Classification of Public Sentiment on Fuel Price Increases Using CNN
CN116894436B (zh) 基于医学命名实体识别的数据增强方法及系统
Cheah et al. Bringing data science to qualitative analysis
CN117973343B (zh) 一种城轨工程投资估算指标智能处理方法及系统
CN117457135B (zh) 一种地址数据治理方法和循环神经网络模型构建方法
CN117332777B (zh) 一种充电桩故障的统计分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231128

Address after: 033000 Bottom Shop, Building 1, Jingyiyuan Community, Fenghuang Road, Linxian County, Lvliang City, Shanxi Province

Patentee after: Shanxi Changtai Energy Co.,Ltd.

Address before: 100000 Building 2, 1st Floor, No. 1 Courtyard, Jiuqiao Road, Daxing District Economic and Technological Development Zone (Daxing), Beijing -101-77

Patentee before: Beijing Zhiyi Yangfan Technology Co.,Ltd.

TR01 Transfer of patent right