CN112307171B - 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 - Google Patents
一种基于电力知识库的制度标准检索方法及系统和可读存储介质 Download PDFInfo
- Publication number
- CN112307171B CN112307171B CN202011199806.XA CN202011199806A CN112307171B CN 112307171 B CN112307171 B CN 112307171B CN 202011199806 A CN202011199806 A CN 202011199806A CN 112307171 B CN112307171 B CN 112307171B
- Authority
- CN
- China
- Prior art keywords
- system standard
- keywords
- knowledge base
- standard
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 230000005611 electricity Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明一种基于电力知识库的制度标准检索方法及系统和可读存储介质,易于领域迁移,提高检测效率和覆盖率。所述方法包括:步骤1,提取输入的电力制度标准句子的关键词;步骤2,根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;步骤3,将检索关键词库中的词语两两组合分别形成检索词组,集合得到查询词组集合;步骤4,以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;步骤5,根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出。
Description
技术领域
本发明涉及电力领域制度标准条款检索领域,具体为一种基于电力知识库的制度标准检索方法及系统和可读存储介质。
背景技术
在自然语言处理和知识检索时,基于领域知识库的检索系统是一个利用领域知识的重要手段,它接收自然语言问句作为系统的输入,且其能够通过领域知识库检索直接给出准确且专业的答案。领域知识库检索系统通常能够作为领域的办公助手,后者为用户提供专业的领域知识检索服务。
基于知识库的检索通常包括用户意图分析和知识检索两部分内容。用户意图通常通过识别查询字符串中的实体或关键词获取。知识检索则将能够表示问句关键词或实体作为查询输入,检索知识库中语义相关项,并将查询结果作输出。
在“互联网+”不断发展的背景下,电力制度标准越来越多,同时对交互内容和交互形式的多样化提出了更高的要求,传统的知识库和知识检索已无法适应目前制度标准的快速检索查询,知识图谱作为一种基础知识表示方法被引入了电力制度标准检索领域。知识图谱(Knowledge Graph)描述了客观世界的概念、实体、事件及其之间的关系,使用知识图谱描述,将电力领域繁杂的领域知识关联起来,使概念、实体之间的关系更加清晰,在词基础上,电力领域制度标准的检索更加精准和高效。
当前的电力制度标准查询智能化有待完善,传统的关键词匹配检索方式存在数据稀疏问题,例如使用关键词检索出的制度标准条目少,或检索结果条目众多但语义相关性弱,业务人员在工作中无法快速准确地获得预期的制度标准文本。
发明内容
针对现有技术中存在的在制度标准检索中无法获得准确制度标准文本或者因检索关键词不足导致检索结果数据稀疏问题,本发明提供一种基于电力知识库的制度标准检索方法及系统和可读存储介质,设计合理,使用方便,易于领域迁移,提高检测效率和覆盖率。
本发明是通过以下技术方案来实现:
一种基于电力知识库的制度标准检索方法,包括:
步骤1,提取输入的电力制度标准句子的关键词;
步骤2,根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;
步骤3,将检索关键词库中的词语两两组合分别形成检索词组,集合得到查询词组集合;
步骤4,以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;
步骤5,根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出。
优选的,步骤1中,使用电力制度标准文本关键词抽取方法获取能够表征输入句子的关键词,将该关键词作为输入句子的查询字符串;
进一步,电力制度标准文本关键词抽取方法具体包括:
步骤1-1,通过置信度传播算法计算种子词与候选关键词的语义相似度,相似度大于阈值的候选关键词获取为电力领域的关键词;
步骤1-2,若步骤1-1中未获取到关键词,对于电力制度标准文本文件进行词性标注和句法分析,获得词性分析序列和句法分析序列,使用领域规则模板进行关键词提取。
再进一步,所述的词性分析序列为adj|n|n|v|q|p|x,句法分析序列为ATT|SBV|HED|VOB|WP;所述的领域规则模板为((adj|n)+|(adj|n)*(p)?(adj|n)*),将模板中的n提取为关键词;
其中,adj、n、v、q、p、x分别表示形容词、名词、动词、量词、介词、字符串;ATT、SBV、HED、VOB、WP分别表示定中关系、主谓关系、核心、动宾关系、结束;|表示两项之间的任意一项,+表示表达式至少出现一次,*表示表达式不出现或出现任意次,?表示匹配表达式0次或1次。
优选的,步骤2中,基于步骤1中所得关键词,使用完全匹配方式在电力制度标准知识库中检索,获取与电力制度标准知识库中对应的实体词;
基于步骤1中所得关键词,使用语义匹配方式在电力制度标准知识库中检索,获取与关键词语义相似度最高的设定数量的词作为关键词的关联实体词。
优选的,步骤3中,采用2-GRAM文法对检索关键词库中的词语两两排列组合。
优选的,步骤4的具体步骤如下,
步骤4-1,对每一个检索词组检索电力制度标准知识库,得到对应的制度标准ID;
步骤4-2,对每一个检索词组中的关键词的制表标准ID求交集,获得该词组对应的置信度高的制度标准ID集合;
步骤4-3,对查询词集合中所有词组的置信度高的制度标准ID集合求并集,得到全局ID集合并排序,输出置信度最高的制度标准ID。
其中,{w1,w2}表示一个检索词组,wi表示第i个检索关键词,Set(wi)表示第i个检索关键词在电力制度标准知识库中关联的制度标准ID集合,n和m分别表示对应关键词的制度标准文本k的数量;
则获得该词组对应的置信度高的制度标准ID集合如下,
S1=set(w1)∩set(w2),weightid=avg(weight1,weight2);
从而得到全局ID集合如下,
Setres=S1∪S2∪S3...={(id1,weight1),(id2,weight2),(id3,weight3)...}。
一种基于电力知识库的制度标准检索系统,包括,
关键词提取模块,用于提取输入的电力制度标准句子的关键词;
检索关键词库生成模块,用于根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;
查询关键词组生成模块,用于将检索关键词库中的词语两两组合分别形成检索词组,集合得到查询词组集合;
制度标准ID检索及生成模块,用于以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;
制度标准内容生成模块,用于根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述基于电力知识库的制度标准检索方法的步骤。
与现有技术相比,本发明具有以下有益的技术效果:
本发明基于电力知识库的制度标准检索方法,基于电力制度标准知识库对关键词进行扩展,形成二元检索关键词组的检索单元,在集中检索结果的同时,提高了检索的准确性;再从电力制度标准知识库中进行以制度标准ID为结果进行检索输出,利用权重排序对关联词对的检索结果进行输出,能够提高电力制度标准的检索效率和覆盖率,降低业务人员查阅制度标准的时间代价。
附图说明
图1为本发明实例中所述的电力制度标准检索方法流程图。
图2为本发明实例中所述的关键词提取的流程示意图
图3为本发明实例中所述的候选检索关键词集合生成的流程示意图。
图4为本发明实例中所述的制度标准ID检索的流程示意图。
图5为本发明实例中所述的电力制度标准检索系统结构框图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明一种基于电力知识库的制度标准检索方法及系统,属于自然语言处理和知识检索技术领域,能够应用于电力营销领域。如图1所示,所述的方法包括:
步骤1:通过关键词提取,获取输入句子的制度标准查询字符串;使用电力制度标准文本关键词抽取方法获取能够表征输入句子的关键词,将该关键词作为输入句子的查询字符串;
如图2所示,所述步骤1具体包括:
步骤1-1:基于置信度传播算法的关键词提取;
步骤1-2:若步骤1-1中未获取到关键词,对于电力制度标准文本文件进行词性标注和句法分析,获得词性分析序列和句法分析序列,使用领域规则模板进行关键词提取。词性分析序列如:adj|n|n|v|q|p|x,句法分析序列如ATT|SBV|HED|VOB|WP。根据业务领域经验,定义特定序列,如((adj|n)+|(adj|n)*(p)?(adj|n)*),n作为查询词进行检索。其中adj、n、v、q、p、x分别表示形容词、名词、动词、量词、介词、字符串,ATT、SBV、HED、VOB、WP分别表示定中关系、主谓关系、核心、动宾关系、结束,|表示两项之间的任意一项、+表示表达式至少出现一次、*表示表达式不出现或出现任意次、?表示匹配表达式0次或1次;
步骤2:根据步骤1中所得的关键词,使用完全匹配和语义匹配的方式从电力制度标准知识库中检索,获取该关键词匹配的实体词及该关键词的关联实体词,形成关联词库,作为见过关键词库。其中,电力制度标准知识涉及的实体、关系、句子级别制度标准文本ID以三元组的形式存储于图数据库中形成电力制度标准知识库。
如图3所示,所述步骤2具体包括:
步骤2-1:基于步骤1中所得关键词,使用完全匹配方式在电力制度标准知识库中检索,获取与电力制度标准知识库中对应的实体词;
步骤2-2:基于步骤1中所得关键词,使用语义匹配方式在电力制度标准知识库中检索,获取与关键词语义相似度最高的n个词作为关键词的关联实体词;
步骤2-3:基于步骤2-1和步骤2-2所得实体词和关联实体词,形成检索关键词库;
步骤3:基于步骤2中所得的检索关键词库,将其中的词语两两组合分别形成检索词组,获取用于检索的查询词集合;
步骤4:电力制度标准知识库包含图数据库和关系型数据库。根据数据颗粒度的差异,制度标准句子级别的长文本数据存储在关系型数据库中,包括句子内容和全局ID索引。同时,图数据库中除了存储实体、属性等信息外,每个节点词还关联其所在句子的全局ID及关联权重值。基于步骤3中所得的查询词组集合,使用每个词组进行检索,获取相关制度标准的全局ID集合。
如图4所示,所述步骤4具体包括:
步骤4-1:对每一个检索词组{w1,w2}检索电力制度标准知识库,得到对应的制度标准ID;
步骤4-2:对每一个查询词集合中的词组求交集,获得该词组对应的置信度ID集合;
步骤4-3:对查询词集合中所有词组的置信度ID集合求并集,得到全局ID集合并排序,输出置信度最高的制度标准ID;
步骤5、基于步骤4中所得制度标准ID,从存储全量制度标准的关系型数据库中进行检索,获取制度标准文本数据作为结果。
以下将本发明应用与电力营销领域中,进行实际使用和实例,知识库的制度标准检索方法流程图。如图1所示,具体方法如下:
所述步骤1具体包括:
步骤1.1:通过置信度传播算法计算种子词与候选关键词的语义相似度,相似度大于阈值的即认为是电力领域关键词。其中语义向量词典,是使用电力制度标准数据离线训练;将中文维基百科作为训练字向量的数据集,并利用连续词袋模型(CBOW)进行字向量的训练,最后通过词汇中各个字向量进行相加得到词的向量表示。
步骤1.2:如果未提取到关键词,则使用领域规则模板进行提取。领域规则模板是通业务专家根据电力营销领域数据归纳总结的专家经验。具体实现为首先使用分词工具进行词性标注,使用专家总结的词性模板匹配名词短语,如((a|n)+|(a|n)*(p)?(a|n)*)。对该步骤,比如“查询电费电量流程”得到词性标注序列为“v|n|n”(查询|v电费电量|n流程|n),若词性模板为((a|n)+|(a|n)*(p)?(a|n*)),得到关键词“电费电量流程”。
步骤2:根据步骤1中所得的关键词,使用完全匹配和语义匹配的方式从电力制度标准知识库中检索,获取该关键词匹配的实体词及该关键词的关联实体词,形成关联词库,作为见过关键词库。其中,电力制度标准知识涉及的实体、关系、句子级别制度标准文本ID以(实体,关系,ID)三元组的形式存储于图数据库中形成电力制度标准知识库。
所述步骤2具体包括:
步骤2-1:基于步骤1中所得关键词,使用完全匹配方式在电力制度标准知识库中检索,获取与电力制度标准知识库中对应的实体词;
步骤2-2:基于步骤1中所得关键词,使用语义匹配方式在电力制度标准知识库中检索,获取与该关键词语义相似度最高的n个词作为关键词的关联实体词。
步骤2-3:基于步骤2-1和步骤2-2所得实体词和关联实体词,形成检索关键词库。
基于以上步骤,在知识库检索到的“电费电量流程”关键词的实体关联词为“电费”、“电价标准”、“电价政策”等......
步骤3:基于2中所得的检索关键词库,将其中的词语两两组合,获取用于检索的查询词集合。具体的由于查询字符串多为短句,结合实际情况本发明取2-GRAM文法,排列组合得到个检索关键词组,每个词组定义为{w1,w2},检索关键词组的集合定义为{{w1,w2},{w3,w4}...}。
基于以上步骤得到{电费电量流程,电费}、{电费电量流程,电价标准}、{电价标准,电价政策}等词组。
步骤4:电力制度标准知识库包含图数据库和关系型数据库。根据数据颗粒度的差异,制度标准句子级别的长文本数据存储在关系型数据库中,包括句子内容和全局ID索引。同时,图数据库中除了存储实体、属性等信息外,每个节点词还关联其所在句子的全局ID及关联权重。基于步骤3中所得的查询词组集合,使用结构化查询语句对知识库进行检索,获取相关制度标准的全局ID集合。具体步骤如下:
步骤4.1:对每一个检索词组{w1,w2}检索电力制度标准知识库,得到对应的制度标准ID;每个关键词与其所在的制度标准句子文本存在一个相关度,记为weight,该权重分数包含在已构建的电力制度标准知识库中,可直接从电力制度标准知识库中检索得到。
定义wi表示第i个检索关键词,Set(wi)表示第i个检索关键词在电力制度标准知识库中关联的制度标准ID集合,其中每个制度标准ID元素包含制度标准文本k在关系型数据库中的全局索引idk和其与关键词i的关联权重形式化表示如下:
基于以上步骤实例,得到:
Set(电费电量流程)={(0001,0.9),(0002,0.6),...}
Set(电费)={(0001,0.8),(0004,0.1)Λ}
步骤4.2:对每一个查询词集合中的词组求交集,获得该词组对应的置信度ID集合,即:
S1=set(w1)∩set(w2),设置超参数,对于求交后的每个制度标准ID的权重取其平均值,即weightid=avg(weight1,weight2)。以同样的方法获得其它词组置信度ID集合,S2=set(w3)∩set(w4)...。通过该步骤的处理,对于每个词组的计算结果,求交集后,保留置信度高的n个作为结果。
基于以上步骤,
S1=set(电费电量流程)∩set(电费),weight0001=avg(0.9,0.8)=0.85。
步骤4.3:基于步骤4.2中获得的结果,对查询词集合中所有词组的置信度ID集合求并集,得到全局ID集合,
Setres=S1∪S2∪S3...={(id1,weight1),(id2,weight2),(id3,weight3)...};
最后,按照权重大小对全局ID集合中的置信度ID进行排序,置信度ID中制度标准ID的权重越高,表示结果的置信度越高,得到置信度最高的制度标准ID。
基于以上步骤,得到权重由高到低的制度标准排名为{0001,0003,...}。
步骤5:基于步骤4中所得制度标准ID,使用关系型数据库查询语句;从存储全量制度标准文本的关系型数据库中进行检索,获取制度标准文本数据作为结果。
基于以上步骤,结果为:
ID:0001《电费电价管理标准》
ID:0002《国家电网公司电价工作管理办法》
与此同时,与上述方法对应的,本发明提供一种基于电力知识库的制度标准检索系统,包括:
模块1:关键词提取模块,给定电力制度标准作为查询输入,经关键词提取或句法分析后,生成查询关键词,为模块二提供知识库检索关键词集合。
模块2:基于知识库的候选检索词集合生成模块,基于模块1生成的关键词,检索图数据库,获取与原始词语义相关的实体词与原始关键词的关联实体词共同形成查询关键词集合,也就是候选检索词集合。
模块3:查询关键词组生成模块,基于模块2的关键词集合,根据2-gram文法,生成两两组合的关键词组,作为联合查询关键词,为模块4提供查询关键词组。
模块4:制度标准ID检索及生成模块,基于模块3中的查询关键词组,检索图数据库中相关制度标准,并计算出置信度最高的制度标准ID作为检索结果。
模块5:制度标准内容生成模块。根据模块4生成的制度标准ID,检索存储详细制度标准内容的关系型数据库,定位制度标准并进行展示。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (6)
1.一种基于电力知识库的制度标准检索方法,其特征在于,包括:
步骤1,提取输入的电力制度标准句子的关键词;
步骤2,根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;
步骤3,将检索关键词库中的词语两两组合分别形成检索词组;
步骤4,以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;
步骤5,根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出;
步骤1中,使用电力制度标准文本关键词抽取方法获取能够表征输入句子的关键词,将该关键词作为输入句子的查询字符串;
电力制度标准文本关键词抽取方法具体包括:
步骤1-1,通过置信度传播算法计算种子词与候选关键词的语义相似度,相似度大于阈值的候选关键词获取为电力领域的关键词;
步骤1-2,若步骤1-1中未获取到关键词,对于电力制度标准文本文件进行词性标注和句法分析,获得词性分析序列和句法分析序列,使用领域规则模板进行关键词提取;
所述的词性分析序列为adj|n|n|v|q|p|x,句法分析序列为ATT|SBV|HED|VOB|WP;所述的领域规则模板为((adj|n)+|(adj|n)*(p)?(adj|n)*),将模板中的n提取为关键词;
其中,adj、n、v、q、p、x分别表示形容词、名词、动词、量词、介词、字符串;ATT、SBV、HED、VOB、WP分别表示定中关系、主谓关系、核心、动宾关系、结束;|表示两项之间的任意一项,+表示表达式至少出现一次,*表示表达式不出现或出现任意次,?表示匹配表达式0次或1次;
步骤4的具体步骤如下,
步骤4-1,对每一个检索词组检索电力制度标准知识库,得到对应的制度标准ID;
步骤4-2,对每一个检索词组中的关键词的制表标准ID求交集,获得该词组对应的置信度高的制度标准ID集合;
步骤4-3,对查询词集合中所有词组的置信度高的制度标准ID集合求并集,得到全局ID集合并排序,输出置信度最高的制度标准ID。
2.根据权利要求1所述的一种基于电力知识库的制度标准检索方法,其特征在于,步骤2中,基于步骤1中所得关键词,使用完全匹配方式在电力制度标准知识库中检索,获取与电力制度标准知识库中对应的实体词;
基于步骤1中所得关键词,使用语义匹配方式在电力制度标准知识库中检索,获取与关键词语义相似度最高的设定数量的词作为关键词的关联实体词。
3.根据权利要求1所述的一种基于电力知识库的制度标准检索方法,其特征在于,步骤3中,采用2-GRAM文法对检索关键词库中的词语两两排列组合。
其中,{w1,w2}表示一个检索词组,wi表示第i个检索关键词,Set(wi)表示第i个检索关键词在电力制度标准知识库中关联的制度标准ID集合,n和m分别表示对应关键词的制度标准文本k的数量;
则获得该词组对应的置信度高的制度标准ID集合如下,
S1=set(w1)∩set(w2),weightid=avg(weight1,weight2);
从而得到全局ID集合如下,
Setres=S1∪S2∪S3...={(id1,weight1),(id2,weight2),(id3,weight3)...}。
5.一种采用权利要求1所述方法的基于电力知识库的制度标准检索系统,其特征在于,包括,
关键词提取模块,用于提取输入的电力制度标准句子的关键词;
检索关键词库生成模块,用于根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;
查询关键词组生成模块,用于将检索关键词库中的词语两两组合分别形成检索词组,集合得到查询词组集合;
制度标准ID检索及生成模块,用于以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;
制度标准内容生成模块,用于根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于电力知识库的制度标准检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011199806.XA CN112307171B (zh) | 2020-10-30 | 2020-10-30 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011199806.XA CN112307171B (zh) | 2020-10-30 | 2020-10-30 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307171A CN112307171A (zh) | 2021-02-02 |
CN112307171B true CN112307171B (zh) | 2022-02-11 |
Family
ID=74332427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011199806.XA Active CN112307171B (zh) | 2020-10-30 | 2020-10-30 | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307171B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905746A (zh) * | 2021-03-08 | 2021-06-04 | 国能大渡河流域水电开发有限公司 | 一种基于知识图谱技术的制度档案知识挖掘处理方法 |
CN113112246A (zh) * | 2021-05-06 | 2021-07-13 | 成都文驰科技有限公司 | 一种引用标准有效性检测方法 |
CN113420978A (zh) * | 2021-06-18 | 2021-09-21 | 中国神华能源股份有限公司国华电力分公司 | 一种自动检测方法和电子设备 |
CN115309790A (zh) * | 2022-10-12 | 2022-11-08 | 国网山东省电力公司新泰市供电公司 | 一种电力系统中电力数据的查询监控系统 |
CN116186232A (zh) * | 2023-04-26 | 2023-05-30 | 中国电子技术标准化研究院 | 一种标准知识智能问答实现方法、装置、设备和介质 |
CN117891839B (zh) * | 2024-03-14 | 2024-06-07 | 福建省政务门户网站运营管理有限公司 | 一种智能化检索方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答系统 |
CN105677864A (zh) * | 2016-01-08 | 2016-06-15 | 国网冀北电力有限公司 | 电网调度结构化数据的检索方法及装置 |
CN109409678A (zh) * | 2018-09-28 | 2019-03-01 | 南方电网科学研究院有限责任公司 | 一种应用于电网的高效多功能技术标准信息系统 |
CN109739964A (zh) * | 2018-12-27 | 2019-05-10 | 北京拓尔思信息技术股份有限公司 | 知识数据提供方法、装置、电子设备和存储介质 |
CN110147436A (zh) * | 2019-03-18 | 2019-08-20 | 清华大学 | 一种基于教育知识图谱与文本的混合自动问答方法 |
CN111367499A (zh) * | 2019-12-10 | 2020-07-03 | 中国航空综合技术研究所 | 一种基于标准指标库的产品需求定义和追溯方法 |
CN111651569A (zh) * | 2020-04-24 | 2020-09-11 | 中国电力科学研究院有限公司 | 一种电力领域的知识库问答方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140279644A1 (en) * | 2013-03-15 | 2014-09-18 | Gerry McCrory | Systems and Methods for College Application and Offer Management |
CN104598445B (zh) * | 2013-11-01 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
CN109871527A (zh) * | 2017-12-01 | 2019-06-11 | 武汉楚鼎信息技术有限公司 | 一种基于分词的语义识别方法 |
CN109189752A (zh) * | 2018-10-12 | 2019-01-11 | 国网山东省电力公司电力科学研究院 | 基于智能检索技术的电力营销知识库系统 |
CN110928978A (zh) * | 2019-10-21 | 2020-03-27 | 南通市质量和标准化研究所 | 一种标准文献分类检索方法 |
CN111309928A (zh) * | 2020-02-21 | 2020-06-19 | 广东电网有限责任公司 | 一种基于贝叶斯和语义分析的运维知识库构建方法 |
-
2020
- 2020-10-30 CN CN202011199806.XA patent/CN112307171B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答系统 |
CN105677864A (zh) * | 2016-01-08 | 2016-06-15 | 国网冀北电力有限公司 | 电网调度结构化数据的检索方法及装置 |
CN109409678A (zh) * | 2018-09-28 | 2019-03-01 | 南方电网科学研究院有限责任公司 | 一种应用于电网的高效多功能技术标准信息系统 |
CN109739964A (zh) * | 2018-12-27 | 2019-05-10 | 北京拓尔思信息技术股份有限公司 | 知识数据提供方法、装置、电子设备和存储介质 |
CN110147436A (zh) * | 2019-03-18 | 2019-08-20 | 清华大学 | 一种基于教育知识图谱与文本的混合自动问答方法 |
CN111367499A (zh) * | 2019-12-10 | 2020-07-03 | 中国航空综合技术研究所 | 一种基于标准指标库的产品需求定义和追溯方法 |
CN111651569A (zh) * | 2020-04-24 | 2020-09-11 | 中国电力科学研究院有限公司 | 一种电力领域的知识库问答方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112307171A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307171B (zh) | 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 | |
CN107993724B (zh) | 一种医学智能问答数据处理的方法及装置 | |
EP0965089B1 (en) | Information retrieval utilizing semantic representation of text | |
CN113157885B (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
US20240281659A1 (en) | Augmenting machine learning language models using search engine results | |
Zhang et al. | Effective subword segmentation for text comprehension | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
Cowan et al. | Named entity recognition in travel-related search queries | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN111651569B (zh) | 一种电力领域的知识库问答方法及系统 | |
Bai et al. | Enhanced natural language interface for web-based information retrieval | |
CN111753067A (zh) | 一种技术交底文本创新性评估方法、装置和设备 | |
CN114969001B (zh) | 一种数据库元数据字段匹配方法、装置、设备及介质 | |
JP2023031294A (ja) | コンピュータ実装方法、コンピュータプログラム、コンピュータシステム(テキスト要素の特異度ランク付け及びその応用) | |
CN114328860A (zh) | 一种基于多模型匹配的交互咨询方法、装置和电子设备 | |
CN115186671A (zh) | 一种基于外延的将名词短语映射到描述逻辑概念的方法 | |
Zhang et al. | Text Similarity Measurement Method Based on BiLSTM-SECapsNet Model | |
Shunmughavel et al. | A Concept-based Ontology Mapping Method for Effective Retrieval of Bio-Medical Documents | |
Khattak et al. | Context-aware search in dynamic repositories of digital documents | |
Noraset et al. | WebSAIL wikifier at ERD 2014 | |
Rei et al. | Parser lexicalisation through self-learning | |
Faiz et al. | Retrieving relevant passages using n-grams for open-domain question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |