CN112307171A - 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 - Google Patents

一种基于电力知识库的制度标准检索方法及系统和可读存储介质 Download PDF

Info

Publication number
CN112307171A
CN112307171A CN202011199806.XA CN202011199806A CN112307171A CN 112307171 A CN112307171 A CN 112307171A CN 202011199806 A CN202011199806 A CN 202011199806A CN 112307171 A CN112307171 A CN 112307171A
Authority
CN
China
Prior art keywords
system standard
knowledge base
keywords
standard
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011199806.XA
Other languages
English (en)
Other versions
CN112307171B (zh
Inventor
徐会芳
谈元鹏
彭国政
孙林檀
李子乾
张宏达
王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Co ltd Customer Service Center
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center, State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Co ltd Customer Service Center
Priority to CN202011199806.XA priority Critical patent/CN112307171B/zh
Publication of CN112307171A publication Critical patent/CN112307171A/zh
Application granted granted Critical
Publication of CN112307171B publication Critical patent/CN112307171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Water Supply & Treatment (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明一种基于电力知识库的制度标准检索方法及系统和可读存储介质,易于领域迁移,提高检测效率和覆盖率。所述方法包括:步骤1,提取输入的电力制度标准句子的关键词;步骤2,根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;步骤3,将检索关键词库中的词语两两组合分别形成检索词组,集合得到查询词组集合;步骤4,以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;步骤5,根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出。

Description

一种基于电力知识库的制度标准检索方法及系统和可读存储 介质
技术领域
本发明涉及电力领域制度标准条款检索领域,具体为一种基于电力知识库的制度标准检索方法及系统和可读存储介质。
背景技术
在自然语言处理和知识检索时,基于领域知识库的检索系统是一个利用领域知识的重要手段,它接收自然语言问句作为系统的输入,且其能够通过领域知识库检索直接给出准确且专业的答案。领域知识库检索系统通常能够作为领域的办公助手,后者为用户提供专业的领域知识检索服务。
基于知识库的检索通常包括用户意图分析和知识检索两部分内容。用户意图通常通过识别查询字符串中的实体或关键词获取。知识检索则将能够表示问句关键词或实体作为查询输入,检索知识库中语义相关项,并将查询结果作输出。
在“互联网+”不断发展的背景下,电力制度标准越来越多,同时对交互内容和交互形式的多样化提出了更高的要求,传统的知识库和知识检索已无法适应目前制度标准的快速检索查询,知识图谱作为一种基础知识表示方法被引入了电力制度标准检索领域。知识图谱(Knowledge Graph)描述了客观世界的概念、实体、事件及其之间的关系,使用知识图谱描述,将电力领域繁杂的领域知识关联起来,使概念、实体之间的关系更加清晰,在词基础上,电力领域制度标准的检索更加精准和高效。
当前的电力制度标准查询智能化有待完善,传统的关键词匹配检索方式存在数据稀疏问题,例如使用关键词检索出的制度标准条目少,或检索结果条目众多但语义相关性弱,业务人员在工作中无法快速准确地获得预期的制度标准文本。
发明内容
针对现有技术中存在的在制度标准检索中无法获得准确制度标准文本或者因检索关键词不足导致检索结果数据稀疏问题,本发明提供一种基于电力知识库的制度标准检索方法及系统和可读存储介质,设计合理,使用方便,易于领域迁移,提高检测效率和覆盖率。
本发明是通过以下技术方案来实现:
一种基于电力知识库的制度标准检索方法,包括:
步骤1,提取输入的电力制度标准句子的关键词;
步骤2,根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;
步骤3,将检索关键词库中的词语两两组合分别形成检索词组,集合得到查询词组集合;
步骤4,以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;
步骤5,根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出。
优选的,步骤1中,使用电力制度标准文本关键词抽取方法获取能够表征输入句子的关键词,将该关键词作为输入句子的查询字符串;
进一步,电力制度标准文本关键词抽取方法具体包括:
步骤1-1,通过置信度传播算法计算种子词与候选关键词的语义相似度,相似度大于阈值的候选关键词获取为电力领域的关键词;
步骤1-2,若步骤1-1中未获取到关键词,对于电力制度标准文本文件进行词性标注和句法分析,获得词性分析序列和句法分析序列,使用领域规则模板进行关键词提取。
再进一步,所述的词性分析序列为adj|n|n|v|q|p|x,句法分析序列为ATT|SBV|HED|VOB|WP;所述的领域规则模板为((adj|n)+|(adj|n)*(p)?(adj|n)*),将模板中的n提取为关键词;
其中,adj、n、v、q、p、x分别表示形容词、名词、动词、量词、介词、字符串;ATT、SBV、HED、VOB、WP分别表示定中关系、主谓关系、核心、动宾关系、结束;|表示两项之间的任意一项,+表示表达式至少出现一次,*表示表达式不出现或出现任意次,?表示匹配表达式0次或1次。
优选的,步骤2中,基于步骤1中所得关键词,使用完全匹配方式在电力制度标准知识库中检索,获取与电力制度标准知识库中对应的实体词;
基于步骤1中所得关键词,使用语义匹配方式在电力制度标准知识库中检索,获取与关键词语义相似度最高的设定数量的词作为关键词的关联实体词。
优选的,步骤3中,采用2-GRAM文法对检索关键词库中的词语两两排列组合。
优选的,步骤4的具体步骤如下,
步骤4-1,对每一个检索词组检索电力制度标准知识库,得到对应的制度标准ID;
步骤4-2,对每一个检索词组中的关键词的制表标准ID求交集,获得该词组对应的置信度高的制度标准ID集合;
步骤4-3,对查询词集合中所有词组的置信度高的制度标准ID集合求并集,得到全局ID集合并排序,输出置信度最高的制度标准ID。
进一步,每个制度标准ID元素包含制度标准文本k在关系型数据库中的全局索引idk和其与关键词i的关联权重
Figure BDA0002754373040000033
形式化表示如下:
Figure BDA0002754373040000031
Figure BDA0002754373040000032
其中,{w1,w2}表示一个检索词组,wi表示第i个检索关键词,Set(wi)表示第i个检索关键词在电力制度标准知识库中关联的制度标准ID集合,n和m分别表示对应关键词的制度标准文本k的数量;
则获得该词组对应的置信度高的制度标准ID集合如下,
S1=set(w1)∩set(w2),weightid=avg(weight1,weight2);
从而得到全局ID集合如下,
Setres=S1∪S2∪S3...={(id1,weight1),(id2,weight2),(id3,weight3)...}。
一种基于电力知识库的制度标准检索系统,包括,
关键词提取模块,用于提取输入的电力制度标准句子的关键词;
检索关键词库生成模块,用于根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;
查询关键词组生成模块,用于将检索关键词库中的词语两两组合分别形成检索词组,集合得到查询词组集合;
制度标准ID检索及生成模块,用于以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;
制度标准内容生成模块,用于根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述基于电力知识库的制度标准检索方法的步骤。
与现有技术相比,本发明具有以下有益的技术效果:
本发明基于电力知识库的制度标准检索方法,基于电力制度标准知识库对关键词进行扩展,形成二元检索关键词组的检索单元,在集中检索结果的同时,提高了检索的准确性;再从电力制度标准知识库中进行以制度标准ID为结果进行检索输出,利用权重排序对关联词对的检索结果进行输出,能够提高电力制度标准的检索效率和覆盖率,降低业务人员查阅制度标准的时间代价。
附图说明
图1为本发明实例中所述的电力制度标准检索方法流程图。
图2为本发明实例中所述的关键词提取的流程示意图
图3为本发明实例中所述的候选检索关键词集合生成的流程示意图。
图4为本发明实例中所述的制度标准ID检索的流程示意图。
图5为本发明实例中所述的电力制度标准检索系统结构框图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明一种基于电力知识库的制度标准检索方法及系统,属于自然语言处理和知识检索技术领域,能够应用于电力营销领域。如图1所示,所述的方法包括:
步骤1:通过关键词提取,获取输入句子的制度标准查询字符串;使用电力制度标准文本关键词抽取方法获取能够表征输入句子的关键词,将该关键词作为输入句子的查询字符串;
如图2所示,所述步骤1具体包括:
步骤1-1:基于置信度传播算法的关键词提取;
步骤1-2:若步骤1-1中未获取到关键词,对于电力制度标准文本文件进行词性标注和句法分析,获得词性分析序列和句法分析序列,使用领域规则模板进行关键词提取。词性分析序列如:adj|n|n|v|q|p|x,句法分析序列如ATT|SBV|HED|VOB|WP。根据业务领域经验,定义特定序列,如((adj|n)+|(adj|n)*(p)?(adj|n)*),n作为查询词进行检索。其中adj、n、v、q、p、x分别表示形容词、名词、动词、量词、介词、字符串,ATT、SBV、HED、VOB、WP分别表示定中关系、主谓关系、核心、动宾关系、结束,|表示两项之间的任意一项、+表示表达式至少出现一次、*表示表达式不出现或出现任意次、?表示匹配表达式0次或1次;
步骤2:根据步骤1中所得的关键词,使用完全匹配和语义匹配的方式从电力制度标准知识库中检索,获取该关键词匹配的实体词及该关键词的关联实体词,形成关联词库,作为见过关键词库。其中,电力制度标准知识涉及的实体、关系、句子级别制度标准文本ID以三元组的形式存储于图数据库中形成电力制度标准知识库。
如图3所示,所述步骤2具体包括:
步骤2-1:基于步骤1中所得关键词,使用完全匹配方式在电力制度标准知识库中检索,获取与电力制度标准知识库中对应的实体词;
步骤2-2:基于步骤1中所得关键词,使用语义匹配方式在电力制度标准知识库中检索,获取与关键词语义相似度最高的n个词作为关键词的关联实体词;
步骤2-3:基于步骤2-1和步骤2-2所得实体词和关联实体词,形成检索关键词库;
步骤3:基于步骤2中所得的检索关键词库,将其中的词语两两组合分别形成检索词组,获取用于检索的查询词集合;
步骤4:电力制度标准知识库包含图数据库和关系型数据库。根据数据颗粒度的差异,制度标准句子级别的长文本数据存储在关系型数据库中,包括句子内容和全局ID索引。同时,图数据库中除了存储实体、属性等信息外,每个节点词还关联其所在句子的全局ID及关联权重值。基于步骤3中所得的查询词组集合,使用每个词组进行检索,获取相关制度标准的全局ID集合。
如图4所示,所述步骤4具体包括:
步骤4-1:对每一个检索词组{w1,w2}检索电力制度标准知识库,得到对应的制度标准ID;
步骤4-2:对每一个查询词集合中的词组求交集,获得该词组对应的置信度ID集合;
步骤4-3:对查询词集合中所有词组的置信度ID集合求并集,得到全局ID集合并排序,输出置信度最高的制度标准ID;
步骤5、基于步骤4中所得制度标准ID,从存储全量制度标准的关系型数据库中进行检索,获取制度标准文本数据作为结果。
以下将本发明应用与电力营销领域中,进行实际使用和实例,知识库的制度标准检索方法流程图。如图1所示,具体方法如下:
所述步骤1具体包括:
步骤1.1:通过置信度传播算法计算种子词与候选关键词的语义相似度,相似度大于阈值的即认为是电力领域关键词。其中语义向量词典,是使用电力制度标准数据离线训练;将中文维基百科作为训练字向量的数据集,并利用连续词袋模型(CBOW)进行字向量的训练,最后通过词汇中各个字向量进行相加得到词的向量表示。
步骤1.2:如果未提取到关键词,则使用领域规则模板进行提取。领域规则模板是通业务专家根据电力营销领域数据归纳总结的专家经验。具体实现为首先使用分词工具进行词性标注,使用专家总结的词性模板匹配名词短语,如((a|n)+|(a|n)*(p)?(a|n)*)。对该步骤,比如“查询电费电量流程”得到词性标注序列为“v|n|n”(查询|v电费电量|n流程|n),若词性模板为((a|n)+|(a|n)*(p)?(a|n*)),得到关键词“电费电量流程”。
步骤2:根据步骤1中所得的关键词,使用完全匹配和语义匹配的方式从电力制度标准知识库中检索,获取该关键词匹配的实体词及该关键词的关联实体词,形成关联词库,作为见过关键词库。其中,电力制度标准知识涉及的实体、关系、句子级别制度标准文本ID以(实体,关系,ID)三元组的形式存储于图数据库中形成电力制度标准知识库。
所述步骤2具体包括:
步骤2-1:基于步骤1中所得关键词,使用完全匹配方式在电力制度标准知识库中检索,获取与电力制度标准知识库中对应的实体词;
步骤2-2:基于步骤1中所得关键词,使用语义匹配方式在电力制度标准知识库中检索,获取与该关键词语义相似度最高的n个词作为关键词的关联实体词。
步骤2-3:基于步骤2-1和步骤2-2所得实体词和关联实体词,形成检索关键词库。
基于以上步骤,在知识库检索到的“电费电量流程”关键词的实体关联词为“电费”、“电价标准”、“电价政策”等......
步骤3:基于2中所得的检索关键词库,将其中的词语两两组合,获取用于检索的查询词集合。具体的由于查询字符串多为短句,结合实际情况本发明取2-GRAM文法,排列组合得到
Figure BDA0002754373040000081
个检索关键词组,每个词组定义为{w1,w2},检索关键词组的集合定义为{{w1,w2},{w3,w4}...}。
基于以上步骤得到{电费电量流程,电费}、{电费电量流程,电价标准}、{电价标准,电价政策}等词组。
步骤4:电力制度标准知识库包含图数据库和关系型数据库。根据数据颗粒度的差异,制度标准句子级别的长文本数据存储在关系型数据库中,包括句子内容和全局ID索引。同时,图数据库中除了存储实体、属性等信息外,每个节点词还关联其所在句子的全局ID及关联权重。基于步骤3中所得的查询词组集合,使用结构化查询语句对知识库进行检索,获取相关制度标准的全局ID集合。具体步骤如下:
步骤4.1:对每一个检索词组{w1,w2}检索电力制度标准知识库,得到对应的制度标准ID;每个关键词与其所在的制度标准句子文本存在一个相关度,记为weight,该权重分数包含在已构建的电力制度标准知识库中,可直接从电力制度标准知识库中检索得到。
定义wi表示第i个检索关键词,Set(wi)表示第i个检索关键词在电力制度标准知识库中关联的制度标准ID集合,其中每个制度标准ID元素包含制度标准文本k在关系型数据库中的全局索引idk和其与关键词i的关联权重
Figure BDA0002754373040000091
形式化表示如下:
Figure BDA0002754373040000092
Figure BDA0002754373040000093
基于以上步骤实例,得到:
Set(电费电量流程)={(0001,0.9),(0002,0.6),...}
Set(电费)={(0001,0.8),(0004,0.1)Λ}
步骤4.2:对每一个查询词集合中的词组求交集,获得该词组对应的置信度ID集合,即:
S1=set(w1)∩set(w2),设置超参数,对于求交后的每个制度标准ID的权重取其平均值,即weightid=avg(weight1,weight2)。以同样的方法获得其它词组置信度ID集合,S2=set(w3)∩set(w4)...。通过该步骤的处理,对于每个词组的计算结果,求交集后,保留置信度高的n个作为结果。
基于以上步骤,
S1=set(电费电量流程)∩set(电费),weight0001=avg(0.9,0.8)=0.85。
步骤4.3:基于步骤4.2中获得的结果,对查询词集合中所有词组的置信度ID集合求并集,得到全局ID集合,
Setres=S1∪S2∪S3...={(id1,weight1),(id2,weight2),(id3,weight3)...};
最后,按照权重大小对全局ID集合中的置信度ID进行排序,置信度ID中制度标准ID的权重越高,表示结果的置信度越高,得到置信度最高的制度标准ID。
基于以上步骤,得到权重由高到低的制度标准排名为{0001,0003,...}。
步骤5:基于步骤4中所得制度标准ID,使用关系型数据库查询语句;从存储全量制度标准文本的关系型数据库中进行检索,获取制度标准文本数据作为结果。
基于以上步骤,结果为:
ID:0001《电费电价管理标准》
ID:0002《国家电网公司电价工作管理办法》
与此同时,与上述方法对应的,本发明提供一种基于电力知识库的制度标准检索系统,包括:
模块1:关键词提取模块,给定电力制度标准作为查询输入,经关键词提取或句法分析后,生成查询关键词,为模块二提供知识库检索关键词集合。
模块2:基于知识库的候选检索词集合生成模块,基于模块1生成的关键词,检索图数据库,获取与原始词语义相关的实体词与原始关键词的关联实体词共同形成查询关键词集合,也就是候选检索词集合。
模块3:查询关键词组生成模块,基于模块2的关键词集合,根据2-gram文法,生成两两组合的关键词组,作为联合查询关键词,为模块4提供查询关键词组。
模块4:制度标准ID检索及生成模块,基于模块3中的查询关键词组,检索图数据库中相关制度标准,并计算出置信度最高的制度标准ID作为检索结果。
模块5:制度标准内容生成模块。根据模块4生成的制度标准ID,检索存储详细制度标准内容的关系型数据库,定位制度标准并进行展示。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于电力知识库的制度标准检索方法,其特征在于,包括:
步骤1,提取输入的电力制度标准句子的关键词;
步骤2,根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;
步骤3,将检索关键词库中的词语两两组合分别形成检索词组;
步骤4,以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;
步骤5,根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出。
2.根据权利要求1所述的一种基于电力知识库的制度标准检索方法,其特征在于,步骤1中,使用电力制度标准文本关键词抽取方法获取能够表征输入句子的关键词,将该关键词作为输入句子的查询字符串。
3.根据权利要求2所述的一种基于电力知识库的制度标准检索方法,其特征在于,电力制度标准文本关键词抽取方法具体包括:
步骤1-1,通过置信度传播算法计算种子词与候选关键词的语义相似度,相似度大于阈值的候选关键词获取为电力领域的关键词;
步骤1-2,若步骤1-1中未获取到关键词,对于电力制度标准文本文件进行词性标注和句法分析,获得词性分析序列和句法分析序列,使用领域规则模板进行关键词提取。
4.根据权利要求3所述的一种基于电力知识库的制度标准检索方法,其特征在于,所述的词性分析序列为adj|n|n|v|q|p|x,句法分析序列为ATT|SBV|HED|VOB|WP;所述的领域规则模板为((adj|n)+|(adj|n)*(p)?(adj|n)*),将模板中的n提取为关键词;
其中,adj、n、v、q、p、x分别表示形容词、名词、动词、量词、介词、字符串;ATT、SBV、HED、VOB、WP分别表示定中关系、主谓关系、核心、动宾关系、结束;|表示两项之间的任意一项,+表示表达式至少出现一次,*表示表达式不出现或出现任意次,?表示匹配表达式0次或1次。
5.根据权利要求1所述的一种基于电力知识库的制度标准检索方法,其特征在于,步骤2中,基于步骤1中所得关键词,使用完全匹配方式在电力制度标准知识库中检索,获取与电力制度标准知识库中对应的实体词;
基于步骤1中所得关键词,使用语义匹配方式在电力制度标准知识库中检索,获取与关键词语义相似度最高的设定数量的词作为关键词的关联实体词。
6.根据权利要求1所述的一种基于电力知识库的制度标准检索方法,其特征在于,步骤3中,采用2-GRAM文法对检索关键词库中的词语两两排列组合。
7.根据权利要求1所述的一种基于电力知识库的制度标准检索方法,其特征在于,步骤4的具体步骤如下,
步骤4-1,对每一个检索词组检索电力制度标准知识库,得到对应的制度标准ID;
步骤4-2,对每一个检索词组中的关键词的制表标准ID求交集,获得该词组对应的置信度高的制度标准ID集合;
步骤4-3,对查询词集合中所有词组的置信度高的制度标准ID集合求并集,得到全局ID集合并排序,输出置信度最高的制度标准ID。
8.根据权利要求7所述的一种基于电力知识库的制度标准检索方法,其特征在于,每个制度标准ID元素包含制度标准文本k在关系型数据库中的全局索引idk和其与关键词i的关联权重
Figure FDA0002754373030000021
形式化表示如下:
Figure FDA0002754373030000022
Figure FDA0002754373030000023
其中,{w1,w2}表示一个检索词组,wi表示第i个检索关键词,Set(wi)表示第i个检索关键词在电力制度标准知识库中关联的制度标准ID集合,n和m分别表示对应关键词的制度标准文本k的数量;
则获得该词组对应的置信度高的制度标准ID集合如下,
S1=set(w1)∩set(w2),weightid=avg(weight1,weight2);
从而得到全局ID集合如下,
Setres=S1∪S2∪S3...={(id1,weight1),(id2,weight2),(id3,weight3)...}。
9.一种基于电力知识库的制度标准检索系统,其特征在于,包括,
关键词提取模块,用于提取输入的电力制度标准句子的关键词;
检索关键词库生成模块,用于根据关键词在电力制度标准知识库中检索,获取与关键词语义对应的实体词和语义相似的关联实体词,共同形成检索关键词库;
查询关键词组生成模块,用于将检索关键词库中的词语两两组合分别形成检索词组,集合得到查询词组集合;
制度标准ID检索及生成模块,用于以检索词组中的词作为联合查询关键词,在电力制度标准知识库中检索相关的制度标准ID,并计算出置信度最高的制度标准ID作为检索结果;
制度标准内容生成模块,用于根据置信度最高的制度标准ID,检索存储详细制度标准内容的关系型数据库,得到制度标准文本数据并输出。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于电力知识库的制度标准检索方法的步骤。
CN202011199806.XA 2020-10-30 2020-10-30 一种基于电力知识库的制度标准检索方法及系统和可读存储介质 Active CN112307171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011199806.XA CN112307171B (zh) 2020-10-30 2020-10-30 一种基于电力知识库的制度标准检索方法及系统和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011199806.XA CN112307171B (zh) 2020-10-30 2020-10-30 一种基于电力知识库的制度标准检索方法及系统和可读存储介质

Publications (2)

Publication Number Publication Date
CN112307171A true CN112307171A (zh) 2021-02-02
CN112307171B CN112307171B (zh) 2022-02-11

Family

ID=74332427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011199806.XA Active CN112307171B (zh) 2020-10-30 2020-10-30 一种基于电力知识库的制度标准检索方法及系统和可读存储介质

Country Status (1)

Country Link
CN (1) CN112307171B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905746A (zh) * 2021-03-08 2021-06-04 国能大渡河流域水电开发有限公司 一种基于知识图谱技术的制度档案知识挖掘处理方法
CN113112246A (zh) * 2021-05-06 2021-07-13 成都文驰科技有限公司 一种引用标准有效性检测方法
CN113420978A (zh) * 2021-06-18 2021-09-21 中国神华能源股份有限公司国华电力分公司 一种自动检测方法和电子设备
CN115309790A (zh) * 2022-10-12 2022-11-08 国网山东省电力公司新泰市供电公司 一种电力系统中电力数据的查询监控系统
CN116186232A (zh) * 2023-04-26 2023-05-30 中国电子技术标准化研究院 一种标准知识智能问答实现方法、装置、设备和介质
CN117891839A (zh) * 2024-03-14 2024-04-16 福建省政务门户网站运营管理有限公司 一种智能化检索方法及系统
CN117891839B (zh) * 2024-03-14 2024-06-07 福建省政务门户网站运营管理有限公司 一种智能化检索方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
US20140279644A1 (en) * 2013-03-15 2014-09-18 Gerry McCrory Systems and Methods for College Application and Offer Management
CN105677864A (zh) * 2016-01-08 2016-06-15 国网冀北电力有限公司 电网调度结构化数据的检索方法及装置
US20160247068A1 (en) * 2013-11-01 2016-08-25 Tencent Technology (Shenzhen) Company Limited System and method for automatic question answering
CN109189752A (zh) * 2018-10-12 2019-01-11 国网山东省电力公司电力科学研究院 基于智能检索技术的电力营销知识库系统
CN109409678A (zh) * 2018-09-28 2019-03-01 南方电网科学研究院有限责任公司 一种应用于电网的高效多功能技术标准信息系统
CN109739964A (zh) * 2018-12-27 2019-05-10 北京拓尔思信息技术股份有限公司 知识数据提供方法、装置、电子设备和存储介质
CN109871527A (zh) * 2017-12-01 2019-06-11 武汉楚鼎信息技术有限公司 一种基于分词的语义识别方法
CN110147436A (zh) * 2019-03-18 2019-08-20 清华大学 一种基于教育知识图谱与文本的混合自动问答方法
CN110928978A (zh) * 2019-10-21 2020-03-27 南通市质量和标准化研究所 一种标准文献分类检索方法
CN111309928A (zh) * 2020-02-21 2020-06-19 广东电网有限责任公司 一种基于贝叶斯和语义分析的运维知识库构建方法
CN111367499A (zh) * 2019-12-10 2020-07-03 中国航空综合技术研究所 一种基于标准指标库的产品需求定义和追溯方法
CN111651569A (zh) * 2020-04-24 2020-09-11 中国电力科学研究院有限公司 一种电力领域的知识库问答方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279644A1 (en) * 2013-03-15 2014-09-18 Gerry McCrory Systems and Methods for College Application and Offer Management
US20160247068A1 (en) * 2013-11-01 2016-08-25 Tencent Technology (Shenzhen) Company Limited System and method for automatic question answering
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN105677864A (zh) * 2016-01-08 2016-06-15 国网冀北电力有限公司 电网调度结构化数据的检索方法及装置
CN109871527A (zh) * 2017-12-01 2019-06-11 武汉楚鼎信息技术有限公司 一种基于分词的语义识别方法
CN109409678A (zh) * 2018-09-28 2019-03-01 南方电网科学研究院有限责任公司 一种应用于电网的高效多功能技术标准信息系统
CN109189752A (zh) * 2018-10-12 2019-01-11 国网山东省电力公司电力科学研究院 基于智能检索技术的电力营销知识库系统
CN109739964A (zh) * 2018-12-27 2019-05-10 北京拓尔思信息技术股份有限公司 知识数据提供方法、装置、电子设备和存储介质
CN110147436A (zh) * 2019-03-18 2019-08-20 清华大学 一种基于教育知识图谱与文本的混合自动问答方法
CN110928978A (zh) * 2019-10-21 2020-03-27 南通市质量和标准化研究所 一种标准文献分类检索方法
CN111367499A (zh) * 2019-12-10 2020-07-03 中国航空综合技术研究所 一种基于标准指标库的产品需求定义和追溯方法
CN111309928A (zh) * 2020-02-21 2020-06-19 广东电网有限责任公司 一种基于贝叶斯和语义分析的运维知识库构建方法
CN111651569A (zh) * 2020-04-24 2020-09-11 中国电力科学研究院有限公司 一种电力领域的知识库问答方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905746A (zh) * 2021-03-08 2021-06-04 国能大渡河流域水电开发有限公司 一种基于知识图谱技术的制度档案知识挖掘处理方法
CN113112246A (zh) * 2021-05-06 2021-07-13 成都文驰科技有限公司 一种引用标准有效性检测方法
CN113420978A (zh) * 2021-06-18 2021-09-21 中国神华能源股份有限公司国华电力分公司 一种自动检测方法和电子设备
CN115309790A (zh) * 2022-10-12 2022-11-08 国网山东省电力公司新泰市供电公司 一种电力系统中电力数据的查询监控系统
CN116186232A (zh) * 2023-04-26 2023-05-30 中国电子技术标准化研究院 一种标准知识智能问答实现方法、装置、设备和介质
CN117891839A (zh) * 2024-03-14 2024-04-16 福建省政务门户网站运营管理有限公司 一种智能化检索方法及系统
CN117891839B (zh) * 2024-03-14 2024-06-07 福建省政务门户网站运营管理有限公司 一种智能化检索方法及系统

Also Published As

Publication number Publication date
CN112307171B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN112307171B (zh) 一种基于电力知识库的制度标准检索方法及系统和可读存储介质
CN107993724B (zh) 一种医学智能问答数据处理的方法及装置
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN113157885B (zh) 一种面向人工智能领域知识的高效智能问答系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
Zhang et al. Effective subword segmentation for text comprehension
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN107092605A (zh) 一种实体链接方法及装置
Cowan et al. Named entity recognition in travel-related search queries
CN111651569B (zh) 一种电力领域的知识库问答方法及系统
Dhandapani et al. Question answering system over semantic web
Bai et al. Enhanced natural language interface for web-based information retrieval
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN114969001B (zh) 一种数据库元数据字段匹配方法、装置、设备及介质
JP2023031294A (ja) コンピュータ実装方法、コンピュータプログラム、コンピュータシステム(テキスト要素の特異度ランク付け及びその応用)
CN115186671A (zh) 一种基于外延的将名词短语映射到描述逻辑概念的方法
Rao et al. Automatic identification of concepts and conceptual relations from patents using machine learning methods
Zhang et al. Text Similarity Measurement Method Based on BiLSTM-SECapsNet Model
Khattak et al. Context-aware search in dynamic repositories of digital documents
Rei et al. Parser lexicalisation through self-learning
CN117407511B (zh) 一种基于Bert模型的电力安全规程智能问答方法及系统
Faiz et al. Retrieving relevant passages using n-grams for open-domain question answering
Kim Searching based on query documents
Yousefi et al. Medical Documents Search Engine in the Comprehensive Hospital System Using Ontology-Based Semantic Similarity Measurement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant