CN113342842A - 基于计量知识的语义查询方法、装置和计算机设备 - Google Patents
基于计量知识的语义查询方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113342842A CN113342842A CN202110649564.8A CN202110649564A CN113342842A CN 113342842 A CN113342842 A CN 113342842A CN 202110649564 A CN202110649564 A CN 202110649564A CN 113342842 A CN113342842 A CN 113342842A
- Authority
- CN
- China
- Prior art keywords
- query
- target
- graph
- knowledge
- synonymous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000005259 measurement Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 25
- 238000013519 translation Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000005611 electricity Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2445—Data retrieval commands; View definitions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于计量知识的语义查询方法、装置、计算机设备和存储介质。所述方法包括:获取用户输入的查询问题;对所述查询问题进行复述转写,生成同义问题集合;所述同义问题集合包括多个与所述查询问题的语义相匹配的同义问题;基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句;基于预先建立的计量知识图谱,利用所述目标查询语句进行图谱查询,得到与所述目标查询语句相匹配的目标图谱元素,并将所述目标图谱元素作为所述查询问题的答案。采用本方法能够准确理解用户语义,实现知识与文档的混合检索。
Description
技术领域
本申请涉及语义查询技术领域,特别是涉及一种基于计量知识的语义查询方法、装置、计算机设备和存储介质。
背景技术
随着电网数字化的深入,计量自动化系统的采集数据日益增加,计量自动化相关制度文档日益复杂。当原始数据有着多样化的来源和形式时,急需一套查询流程便利、且查询结果准确的查询方法,从而实现对计量数据与文档的查询。现有的计量自动化系统查询方法基于关键词进行查询,然而,若输入少量关键词,则查询结果中包含大量无关信息;若输入大量关键词,则很容易造成无法返回任何结果。因此,现有的查询方法存在无法分析用户语义、无法识别关键词歧义的缺点,无法正确理解用户的查询意图,不能适应新一代计量自动化系统的发展。
发明内容
基于此,有必要针对上述技术问题,提供一种能够准确分析用户语义以提高查询准确性的基于计量知识的语义查询方法、装置、计算机设备和存储介质。
一种基于计量知识的语义查询方法,所述方法包括:
获取用户输入的查询问题;
对所述查询问题进行复述转写,生成同义问题集合;所述同义问题集合包括多个与所述查询问题的语义相匹配的同义问题;
基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句;
基于预先建立的计量知识图谱,利用所述目标查询语句进行图谱查询,得到与所述目标查询语句相匹配的目标图谱元素,并将所述目标图谱元素作为所述查询问题的答案;其中,所述计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与所述实体相关联的属性、以及关系。
在其中一个实施例中,所述对所述查询问题进行复述转写,生成同义问题集合,包括:
将所述查询问题输入至机器翻译模型中,由所述机器翻译模型对所述查询问题进行编码解码,得到同义问题集合;其中,所述机器翻译模型为预先训练好的双向循环神经网络模型。
在其中一个实施例中,所述基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句,包括:
获取预先建立的问题模板库,所述问题模板库中的问题模板用于规定一类问题的问句形式,并预先关联有对应的查询模板;所述查询模板中具有至少一个待填充的槽位;
在所述问题模板库中进行查询,分别确定与所述同义语句集合中各个同义语句相匹配的目标问题模板;
确定与各目标问题模板分别相关联的目标查询模板;
将各所述目标问题模板中的关键词,分别与预先建立的计量知识图谱中的图谱元素进行匹配,将匹配上的图谱元素作为与相应问题模板对应的相关图谱元素;
将所述相关图谱元素填充至对应的目标查询模板的槽位中,得到目标查询语句。
在其中一个实施例中,所述计量知识图谱的建立步骤包括:
获取结构化的计量知识信息和非结构化的计量知识信息;
对所述非结构化的计量知识信息进行第一知识抽取处理,得到至少一组的第一图谱元素;
对所述结构化的计量知识信息进行第二知识抽取处理,得到至少一组的第二图谱元素;
根据所述第一图谱元素和所述第二图谱元素,构建计量知识图谱。
在其中一个实施例中,所述非结构化的计量知识信息包括与计量领域相关的文档信息,所述对所述非结构化的计量知识信息进行第一知识抽取处理,得到至少一组的第一图谱元素,包括:
对所述非结构化的计量知识信息进行分词处理,获得多个实词序列;
分别依次提取所述多个实词序列中的图谱元素,得到至少一组的第一图谱元素。
在其中一个实施例中,所述结构化的计量知识信息为具有特定格式、并利用关系型数据库进行存储的计量知识信息,所述对所述结构化的计量知识信息进行第二知识抽取处理,得到至少一组的第二图谱元素,包括:
利用知识提取工具,对存储有结构化的计量知识信息的关系型数据库进行提取,得到至少一组的第二图谱元素。
在其中一个实施例中,所述利用所述目标查询语句进行图谱查询,得到与所述目标查询语句相匹配的目标图谱元素,并将所述目标图谱元素作为所述查询问题的答案,包括:
利用所述目标查询语句,通过图匹配的方式在所述计量知识图谱中进行查询,得到至少一个实体或至少一个关系;
将所得到的所述至少一个实体或至少一个关系作为所述查询问题的答案。
一种基于计量知识的语义查询装置,所述装置包括:
获取模块,用于获取用户输入的查询问题;
处理模块,用于对所述查询问题进行复述转写,生成同义问题集合;所述同义问题集合包括多个与所述查询问题的语义相匹配的同义问题;
所述处理模块,还用于基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句;
所述处理模块,还用于基于预先建立的计量知识图谱,利用所述目标查询语句进行图谱查询,得到与所述目标查询语句相匹配的目标图谱元素,并将所述目标图谱元素作为所述查询问题的答案;其中,所述计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与所述实体相关联的属性、以及关系。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取用户输入的查询问题;
对所述查询问题进行复述转写,生成同义问题集合;所述同义问题集合包括多个与所述查询问题的语义相匹配的同义问题;
基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句;
基于预先建立的计量知识图谱,利用所述目标查询语句进行图谱查询,得到与所述目标查询语句相匹配的目标图谱元素,并将所述目标图谱元素作为所述查询问题的答案;其中,所述计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与所述实体相关联的属性、以及关系。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取用户输入的查询问题;
对所述查询问题进行复述转写,生成同义问题集合;所述同义问题集合包括多个与所述查询问题的语义相匹配的同义问题;
基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句;
基于预先建立的计量知识图谱,利用所述目标查询语句进行图谱查询,得到与所述目标查询语句相匹配的目标图谱元素,并将所述目标图谱元素作为所述查询问题的答案;其中,所述计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与所述实体相关联的属性、以及关系。
上述基于计量知识的语义查询方法、装置、计算机设备和存储介质,通过对用户输入的查询问题进行复述转写,生成包括多个与查询问题的语义相匹配的同义问题的同义问题集合,能够准确理解用户语义,并提高语义查询的召回率;并基于预先建立的问题模板库,确定各同义问题对应的问题模板,并根据关键词确定相应的目标查询语句,能够提高语义查询的准确率,避免关键词歧义造成的影响;最后基于预先建立的计量知识图谱,利用目标查询语句进行图谱查询,得到与目标查询语句相匹配的目标图谱元素,并将目标图谱元素作为该查询问题的答案,能够综合准确率和召回率,实现知识与文档的混合检索,大大提高了计量知识查询的准确性。
附图说明
图1为一个实施例中基于计量知识的语义查询方法的流程示意图;
图2为一个实施例中基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句步骤的流程示意图;
图3为一个实施例中计量知识图谱的建立步骤的流程示意图;
图4为一个实施例中终端建立计量知识图谱的步骤的流程示意图;
图5为一个实施例中计量知识图谱的示意图;
图6为一个实施例中基于计量知识的语义查询装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种应用于电网领域的基于计量知识的语义查询方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
本实施例中,该方法包括以下步骤:
步骤S102,获取用户输入的查询问题。
其中,查询问题指的是用户所需查询的语句,可以为实体名,例如“X市日电量”,也可以为自然语言描述的具体问题,例如“X市5月哪一天用电量最高”。
具体地,终端通过输入装置获取用户输入的查询问题。输入装置可以是终端的显示屏,也可以是终端上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等,本申请对此不作限定。
步骤S104,对查询问题进行复述转写,生成同义问题集合;同义问题集合包括多个与查询问题的语义相匹配的同义问题。
其中,复述转写指的是在保持语义不变的前提下,将用户输入的查询问题转换为不同的表达方式,例如,可以将“电表抄取情况”复述转写为“自动抄表率”等。通过将用户输入的查询问题进行复述转写,可以用更多的表达方式、更多的语句来描述用户的目的或需求,从而使得语义查询的召回率更高。召回率指的是语义查询搜索出的若干答案和所有答案的比率,衡量的是查询的查全率。
具体地,终端对获取的查询问题进行复述转写,并针对查询问题生成多个语义一致的同义问题,这些同义问题构成一个同义问题集合。
在一些实施例中,终端对查询问题进行复述转写,生成同义问题集合,包括:将查询问题输入至机器翻译模型中,由机器翻译模型对查询问题进行编码解码,得到同义问题集合。
其中,机器翻译模型为预先训练好的双向循环神经网络模型,包含编码层和解码层。具体地,终端将查询问题输入至机器翻译模型中,该机器翻译模型中的编码器将查询问题转换为中间变量,即将输入的序列映射到一个固定长度的向量,该机器翻译模型中的解码器根据该向量逐字生成另一个序列,即输出同义问题。
上述实施例中,终端通过将用户输入的查询问题进行复述转写,可以用更多的表达方式、更多的语句来描述用户的目的或需求,从而使得语义查询的召回率更高。
步骤S106,基于预先建立的问题模板库,分别生成同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各目标问题模板分别相匹配的目标查询语句。
其中,问题模板库为预先建立的问题模板库,其中的问题模板用于规定一类问题的问句形式。举例而言,可以利用例如概念化的方式,将具体的实体抽象成其所属的概念,从而用概念替换实体,将具体的问题表示为问题模板,由此构建问题模板库。例如,在电网领域,“xx小区”可以被抽象为“用电客户”,“10kv中压配电线路”可以被抽象为“线路线段”等。又如,“广州有哪些发电源”可以抽象成以下问题模板:“{城市}有多少个{电厂}”或者“属于{城市}的{电厂}的数量有多少个”等,这些问题模板用来表示这一类的查询问题。
当基于复述得到的同义问题集合分别进行模板匹配,确定相应的问题模板后,终端需将所确定的问题模板转化为相应的查询模板。在一些实施例中,各问题模板预先关联有对应的查询模板,由此,当问题模板确定后,相应的查询模板即随之确定。
其中,查询模板为具有特定格式的代码段,适用于知识图谱的语义查询。一条查询模板中具有至少一个待填充的槽位,该待填充的槽位例如可以通过变量来表示。当终端生成查询模板后,需要对该查询模板进行实例化,即将同义问题集合中的同义问题与知识图谱进行本体映射(Ontology Mapping),从而确定填充至各槽位的实体、属性、或关系。其中,实体、属性、以及关系是知识图谱的组成元素,为了便于描述,本申请实施例中简称为图谱元素。
其中,实体是对客观对象的抽象,例如一个人、一个城市都可以看做一个实体。在知识图谱中,实体由节点来表示。关系是实体与实体之间的关系的抽象。例如,广州市区变电站(实体)→所属地(关系)→广州(实体),其中“所属地”为两个实体之间的关系,用于描述广州市区变电站的地理位置。属性是对实体与实体之间的关系的抽象。例如,广州的概念是“城市”,广州市区变电站的概念是“变电站”,则可以由属性表示为:变电站(类型)→地理位置(属性)→城市(类型)。类型是对具有相同特点或属性的实体集合的抽象。
示例性地,查询模板例如为SPARQL(SPARQL Protocol and RDF Query Language)查询模板。SPARQL查询模板的核心是对于一组变量及变量之间的关系的描述。例如,对于用户输入的查询问题:“X市5月消耗了多少电量”,相应的问题模板例如为:“{城市}{月份}的{用电量}是多少”;由此,相对应的SPARQL查询模板例如为:select?n where{?s:name'X市'.?s:month'5'.?n:electricity consumption?n}。
由于在实际的应用场景中,用户输入的自然语言可能并不准确或者并不直接,甚至存在错别字、或者歧义。为了解决该问题以提高准确率,在一些实施例中,如图2所示,终端基于预先建立的问题模板库,分别生成同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各目标问题模板分别相匹配的目标查询语句,包括:
步骤S202,获取预先建立的问题模板库。
步骤S204,在问题模板库中进行查询,分别确定与同义语句集合中各个同义语句相匹配的目标问题模板。
步骤S206,确定与各目标问题模板分别相关联的目标查询模板。
步骤S208,将各目标问题模板中的关键词,分别与预先建立的计量知识图谱中的图谱元素进行匹配,将匹配上的图谱元素作为与相应问题模板对应的相关图谱元素。
步骤S210,将相关图谱元素填充至对应的目标查询模板的槽位中,得到目标查询语句。
具体地,终端可以离线获取问题模板库,例如建立或存储在本地存储空间的问题模板库;终端也可以在线获取问题模板库,例如访问存储在云服务器的问题模板库等。在获取问题模板库后,终端在该问题模板库中进行查询,对于每一个同义语句,查找与之相匹配的问题模板,并将该问题模板作为目标问题模板。在一些实施例中,终端可以基于同义问题和问题模板中的问题模板之间的相似度,在问题模板库中找到相似度最大的问题模板,并将该相似度最大的问题模板作为目标问题模板。
终端将各目标问题模板中的关键词,分别与预先建立的计量知识图谱中的图谱元素进行匹配,将匹配上的图谱元素作为与相应问题模板对应的相关图谱元素。其中,关键词可以是从用户输入的查询问题中得到,也可以是与查询问题匹配的同义问题中得到,也可以是与同义问题相匹配的问题模板中得到。关键词可以是实体、属性、关系、以及类型等中的一种或多种。
在一些实施例中,终端将各目标问题模板中的关键词,分别与预先建立的计量知识图谱中的图谱元素进行匹配,得到多个图谱元素,通过计算各图谱元素与对应的关键词之间的文本相似度,确定相似度最高的图谱元素作为与相应问题模板对应的相关图谱元素。
其中,终端可以基于编辑距离算法对每个图谱元素进行文本相似度打分。编辑距离是指两个字符串之间,由一个转成另一个所需的最少编辑次数,如替换、插入和删减操作,编辑距离越大,相似度越小。文本相似度的计算公式为:文本相似度=1-编辑距离/两个字符串长度的最大值。
由此,终端可以确定一个查询模板中各个图谱元素与相应关键词之间的文本相似度分值,进而可以确定一个查询模板的分值。一个查询模板的分值即为该查询模板中的全部实体的分值的平均值。由于之前通过复述转写获得了多个同义问题,并分别得到了多个查询模板,因此,终端根据各个查询模板的分值,将分值最高的查询模板作为目标查询模板。
示例性地,用户输入的查询问题是“广东省会的用电量”,“广东省会”这一关键词是从查询问题中得来,然而计量知识图谱中并没有“广东省会”这一实体,只有“广州”这一实体。因此,终端将提取的关键词与计量知识图谱中的图谱元素进行匹配,将匹配上的图谱元素作为与相应问题模板对应的相关图谱元素。例如,终端将知识图谱中的“广州”作为与“广东省会”相匹配的相关图谱元素。
在确定相关图谱元素后,终端将相关图谱元素填充至对应的目标查询模板的槽位中,得到目标查询语句。例如,对于用户输入的查询问题“广东省会的用电量”,相应的问题模板例如为:“{城市}的{用电量}是多少”。而终端在知识图谱中确定相关的实体为“广州”,由此,相对应的SPARQL查询语句例如为:select?n where{?s:name'广州'.?n:electricityconsumption?n}。
由此,终端通过匹配问题模板以及匹配相应的查询语句,能够提高语义查询的准确率,避免关键词歧义造成的影响。
步骤S108,基于预先建立的计量知识图谱,利用目标查询语句进行图谱查询,得到与目标查询语句相匹配的目标图谱元素,并将目标图谱元素作为查询问题的答案。
其中,计量知识图谱为计量领域相关的知识图谱,例如为计量自动化系统相关的知识图谱。其中,计量自动化系统为涵盖发电、输电、变电、配电、以及用电各个环节,并实现电能量数据的采集、检测、统计、以及分析等工作的系统。
承前所述,计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与实体相关联的属性、以及关系,是知识图谱的基本组成元件,此处不再赘述。此外,图谱元素还可以包括前述实施例中提及的类型、域、以及值等。域是类型的集合。值用于描述实体,例如用电量为1000亿千瓦·时(值)。在一些实施例中,图谱元素可以表示为SPO三元组,包括主体(Subject)、谓词(Predicate)、客体(Object)。其中,主体通常为实体,客体可以为实体或属性的值,谓词可以为关系或属性。
计量知识图谱由RDF(Resource Description Framework,资源描述框架)来描述,RDF是一种使用XML语法来表示的数据模型。计量知识图谱属于领域知识图谱,涉及的知识范围有限且较为可控,因此采用自顶向下的方法构建计量知识图谱,能够保证知识图谱的精度。
具体地,终端利用目标查询语句在计量知识图谱中进行图谱查询,得到与目标查询语句相匹配的至少一个目标图谱元素。在一些实施例中,终端可以将全部的目标图谱元素均作为查询问题的答案,并呈现给用户。在另一些实施例中,终端可以对多个目标图谱元素进行筛选,选择其中一个匹配程度最高的目标图谱元素作为查询问题的答案,并呈现给用户。
在一些实施例中,终端利用目标查询语句进行图谱查询,得到与目标查询语句相匹配的目标图谱元素,并将目标图谱元素作为查询问题的答案,包括:利用目标查询语句,通过图匹配的方式在计量知识图谱中进行查询,得到至少一个实体或至少一个关系;将所得到的至少一个实体或至少一个关系作为查询问题的答案。
以SPARQL查询语句为例,与SQL查询语句类似,由于SPARQL查询语句可以返回一条或多条结果,每条结果包含的是对语句中包含的每个变量的映射,即指明了该变量与一个图谱元素之间的对应关系。于是,根据每条结果,通过将查询图模式中的变量根据映射关系替换为对应的图谱元素,从而构成待查询的RDF知识图谱的一个子图,这个子图与上述图模式相匹配。
具体地,终端利用目标查询语句通过图匹配的方式在计量知识图谱中进行查询,得到相匹配的至少一个实体或至少一个关系;并将所得到的至少一个实体或至少一个关系作为查询问题的答案。例如,用户输入的查询问题为“广东省会的用电量”,终端利用例如SPARQL查询语句进行查询,并确定与实体“广州”关联的实体“用电量”的值“1000亿千瓦·时”。
上述基于计量知识的语义查询方法,通过对用户输入的查询问题进行复述转写,生成包括多个与查询问题的语义相匹配的同义问题的同义问题集合,能够准确理解用户语义,并提高语义查询的召回率;并基于预先建立的问题模板库,确定各同义问题对应的问题模板,并根据关键词确定相应的目标查询语句,能够提高语义查询的准确率,避免关键词歧义造成的影响;最后基于预先建立的计量知识图谱,利用目标查询语句进行图谱查询,得到与目标查询语句相匹配的目标图谱元素,并将目标图谱元素作为查询问题的答案,能够综合准确率和召回率,实现结构化的计量知识与非结构化的计量知识文档的混合检索。
在一些实施例中,如图3所示,计量知识图谱的建立步骤包括:
步骤S302,获取结构化的计量知识信息和非结构化的计量知识信息。
其中,终端获取用于构建知识图谱的计量领域相关的知识信息,包括结构化的信息和非结构化的数据。其中,结构化的信息具有特定格式,通常利用关系型数据库进行存储,例如用户日电量、以及用户负荷曲线等。而非结构化的信息相较于结构化的信息而言更为抽象,例如包括文档信息、图片信息、视频信息、以及语音信息等中的一种或多种,例如由自然语言构成的运维日志、功能规范、以及协议标准等。具体地,终端可以从数据库中获取结构化的计量知识信息和非结构化的计量知识信息。
步骤S304,对非结构化的计量知识信息进行第一知识抽取处理,得到至少一组的第一图谱元素。
具体地,终端对非结构化的计量知识信息进行知识抽取处理,得到至少一组SPO三元组。在一些实施例中,终端对非结构化的计量知识信息进行第一知识抽取处理,得到至少一组的第一图谱元素,包括:对非结构化的计量知识信息进行分词处理,获得多个实词序列;分别依次提取多个实词序列中的图谱元素,得到至少一组的第一图谱元素。
以该非结构化的计量知识信息为智能电能表功能规范文档为例,终端利用分词工具对文档逐句进行分词,将每一条规范转化为实词序列。此后,终端利用人工标注的方式对多个实词序列进行主体提取,确定各实词序列相应的多个主体,例如“智能电能表”等。与主体提取类似,终端可以利用机器学习的方式对多个实词序列进行关系提取,确定各实词序列相应的多个谓词。之后,终端依据各实词序列相应的多个主体和多个谓词,确定各实词序列相应的客体。即,在确定主体和谓词之后,所剩下的实词为客体。依据各实词序列相应的主体、谓词、以及客体,终端由此获得多个包含主体、谓词、以及客体的映射关系的SPO三元组。
步骤S306,对结构化的计量知识信息进行第二知识抽取处理,得到至少一组的第二图谱元素。
具体地,终端可以利用知识提取工具,对存储有结构化的计量知识信息的关系型数据库进行提取,得到至少一组的第二图谱元素。示例性地,终端在存储结构化的计量知识信息的关系型数据库中,利用D2RQ工具提取其中的SPO三元组。
步骤S308,根据第一图谱元素和第二图谱元素,构建计量知识图谱。
具体地,终端利用所提取的结构化的计量知识信息和非结构化的计量知识信息中的图谱元素(例如为SPO三元组),构建计量知识图谱。在实际的应用场景中,终端可以直接生成知识图谱的RDF文件。
需要说明的是,步骤S304和步骤S306并未规定先后执行顺序,二者可以具有先后执行顺序,也可以并行执行。
由此,终端通过对结构化的计量知识信息和非结构化的计量知识信息分别进行相应的知识抽取,能够实现对计量数据与文档的混合检索与查询,例如用电客户希望查询用电量等数据,电网运维人员希望查询各项用电指标或者查阅相关的管理制度,由此终端能够针对不同的用户的需求进行精准的语义查询。
在一个具体的实施方式中,如图4所示,终端建立知识图谱的流程例如为:
步骤S402,获取计量知识。
步骤S404,判断该计量知识是否为结构化数据;若是,跳转至步骤S406并继续执行;若否,则跳转至步骤S408并继续执行。
步骤S406,利用D2RQ工具将存储结构化的计量知识信息的关系型数据库直接输出为RDF格式。
步骤S408,利用分词工具进行分词处理。
步骤S410,利用人工标注的方式进行主体抽取。
步骤S412,利用机器学习的方式自动进行关系抽取。
步骤S414,输出RDF格式的文件。
由此,终端通过对结构化的计量知识信息和非结构化的计量知识信息分别进行相应的知识抽取,能够实现对计量数据与文档的混合检索与查询。
在一些实施例中,终端得到的知识图谱例如如图5所示,各节点表示实体,实体与实体之间的关系由带指向性的箭头表示。例如“变电站”与“电厂”均为实体,二者之间的关系为“变电站”属于“电厂”的下一级(在图5中表示为带方向的指向性箭头)。同理,实体“计量点”属于实体“用电客户”的下一级,实体“用电客户”与实体“台区”均属于实体“线路线段”的下一级,而实体“线路线段”属于实体“变电站”的下一级。其中,实体“用电客户”与实体“运行终端”相关联,实体“计量点”分别与实体“台区”和实体“运行电能表”相关联,实体“运行电能表”属于实体“运行终端”的下一级,且实体“运行电能表”的文档为实体“电能表运行规范”。实体“运行终端”与实体“用电客户”相关联。此外,实体“运行终端”分别属于实体“台区”和实体“计量主站”的下一级,实体“计量主站”的文档为实体“运维日志”。
在建立计量知识图谱后,终端可以基于所建立的计量知识图谱进行图谱搜索,从而得到查询问题相应的答案。
应该理解的是,虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种基于计量知识的语义查询装置600,包括:获取模块610和处理模块620,其中:
获取模块610,用于获取用户输入的查询问题。
处理模块620,用于对查询问题进行复述转写,生成同义问题集合;同义问题集合包括多个与查询问题的语义相匹配的同义问题。
处理模块620,还用于基于预先建立的问题模板库,分别生成同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各目标问题模板分别相匹配的目标查询语句。
处理模块620,还用于基于预先建立的计量知识图谱,利用目标查询语句进行图谱查询,得到与目标查询语句相匹配的目标图谱元素,并将目标图谱元素作为查询问题的答案;其中,计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与实体相关联的属性、以及关系。
在一些实施例中,处理模块还用于将查询问题输入至机器翻译模型中,由机器翻译模型对查询问题进行编码解码,得到同义问题集合;其中,机器翻译模型为预先训练好的双向循环神经网络模型。
在一些实施例中,处理模块还用于获取预先建立的问题模板库,问题模板库中的问题模板用于规定一类问题的问句形式,并预先关联有对应的查询模板;查询模板中具有至少一个待填充的槽位;在问题模板库中进行查询,分别确定与同义语句集合中各个同义语句相匹配的目标问题模板;确定与各目标问题模板分别相关联的目标查询模板;将各目标问题模板中的关键词,分别与预先建立的计量知识图谱中的图谱元素进行匹配,将匹配上的图谱元素作为与相应问题模板对应的相关图谱元素;将相关图谱元素填充至对应的目标查询模板的槽位中,得到目标查询语句。
在一些实施例中,还包括预处理模块,预处理模块用于获取结构化的计量知识信息和非结构化的计量知识信息;对非结构化的计量知识信息进行第一知识抽取处理,得到至少一组的第一图谱元素;对结构化的计量知识信息进行第二知识抽取处理,得到至少一组的第二图谱元素;根据第一图谱元素和第二图谱元素,构建计量知识图谱。
在一些实施例中,非结构化的计量知识信息包括与计量领域相关的文档信息,预处理模块还用于对非结构化的计量知识信息进行分词处理,获得多个实词序列;分别依次提取多个实词序列中的图谱元素,得到至少一组的第一图谱元素。
在一些实施例中,结构化的计量知识信息为具有特定格式、并利用关系型数据库进行存储的计量知识信息,预处理模块还用于利用知识提取工具,对存储有结构化的计量知识信息的关系型数据库进行提取,得到至少一组的第二图谱元素。
在一些实施例中,处理模块还用于利用目标查询语句,通过图匹配的方式在计量知识图谱中进行查询,得到至少一个实体或至少一个关系;将所得到的至少一个实体或至少一个关系作为查询问题的答案。
关于基于计量知识的语义查询装置的具体限定可以参见上文中对于基于计量知识的语义查询方法的限定,在此不再赘述。上述基于计量知识的语义查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于计量知识的语义查询方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取用户输入的查询问题;对查询问题进行复述转写,生成同义问题集合;同义问题集合包括多个与查询问题的语义相匹配的同义问题;基于预先建立的问题模板库,分别生成同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各目标问题模板分别相匹配的目标查询语句;基于预先建立的计量知识图谱,利用目标查询语句进行图谱查询,得到与目标查询语句相匹配的目标图谱元素,并将目标图谱元素作为查询问题的答案;其中,计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与实体相关联的属性、以及关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将查询问题输入至机器翻译模型中,由机器翻译模型对查询问题进行编码解码,得到同义问题集合;其中,机器翻译模型为预先训练好的双向循环神经网络模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取预先建立的问题模板库,问题模板库中的问题模板用于规定一类问题的问句形式,并预先关联有对应的查询模板;查询模板中具有至少一个待填充的槽位;在问题模板库中进行查询,分别确定与同义语句集合中各个同义语句相匹配的目标问题模板;确定与各目标问题模板分别相关联的目标查询模板;将各目标问题模板中的关键词,分别与预先建立的计量知识图谱中的图谱元素进行匹配,将匹配上的图谱元素作为与相应问题模板对应的相关图谱元素;将相关图谱元素填充至对应的目标查询模板的槽位中,得到目标查询语句。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取结构化的计量知识信息和非结构化的计量知识信息;对非结构化的计量知识信息进行第一知识抽取处理,得到至少一组的第一图谱元素;对结构化的计量知识信息进行第二知识抽取处理,得到至少一组的第二图谱元素;根据第一图谱元素和第二图谱元素,构建计量知识图谱。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对非结构化的计量知识信息进行分词处理,获得多个实词序列;分别依次提取多个实词序列中的图谱元素,得到至少一组的第一图谱元素。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:利用知识提取工具,对存储有结构化的计量知识信息的关系型数据库进行提取,得到至少一组的第二图谱元素。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:利用目标查询语句,通过图匹配的方式在计量知识图谱中进行查询,得到至少一个实体或至少一个关系;将所得到的至少一个实体或至少一个关系作为查询问题的答案。
上述计算机设备,通过对用户输入的查询问题进行复述转写,生成包括多个与查询问题的语义相匹配的同义问题的同义问题集合,能够准确理解用户语义,并提高语义查询的召回率;并基于预先建立的问题模板库,确定各同义问题对应的问题模板,并根据关键词确定相应的目标查询语句,能够提高语义查询的准确率,避免关键词歧义造成的影响;最后基于预先建立的计量知识图谱,利用目标查询语句进行图谱查询,得到与目标查询语句相匹配的目标图谱元素,并将目标图谱元素作为查询问题的答案,能够综合准确率和召回率,实现知识与文档的混合检索。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取用户输入的查询问题;对查询问题进行复述转写,生成同义问题集合;同义问题集合包括多个与查询问题的语义相匹配的同义问题;基于预先建立的问题模板库,分别生成同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各目标问题模板分别相匹配的目标查询语句;基于预先建立的计量知识图谱,利用目标查询语句进行图谱查询,得到与目标查询语句相匹配的目标图谱元素,并将目标图谱元素作为查询问题的答案;其中,计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与实体相关联的属性、以及关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将查询问题输入至机器翻译模型中,由机器翻译模型对查询问题进行编码解码,得到同义问题集合;其中,机器翻译模型为预先训练好的双向循环神经网络模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取预先建立的问题模板库,问题模板库中的问题模板用于规定一类问题的问句形式,并预先关联有对应的查询模板;查询模板中具有至少一个待填充的槽位;在问题模板库中进行查询,分别确定与同义语句集合中各个同义语句相匹配的目标问题模板;确定与各目标问题模板分别相关联的目标查询模板;将各目标问题模板中的关键词,分别与预先建立的计量知识图谱中的图谱元素进行匹配,将匹配上的图谱元素作为与相应问题模板对应的相关图谱元素;将相关图谱元素填充至对应的目标查询模板的槽位中,得到目标查询语句。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取结构化的计量知识信息和非结构化的计量知识信息;对非结构化的计量知识信息进行第一知识抽取处理,得到至少一组的第一图谱元素;对结构化的计量知识信息进行第二知识抽取处理,得到至少一组的第二图谱元素;根据第一图谱元素和第二图谱元素,构建计量知识图谱。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对非结构化的计量知识信息进行分词处理,获得多个实词序列;分别依次提取多个实词序列中的图谱元素,得到至少一组的第一图谱元素。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:利用知识提取工具,对存储有结构化的计量知识信息的关系型数据库进行提取,得到至少一组的第二图谱元素。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:利用目标查询语句,通过图匹配的方式在计量知识图谱中进行查询,得到至少一个实体或至少一个关系;将所得到的至少一个实体或至少一个关系作为查询问题的答案。
上述计算机可读存储介质,通过对用户输入的查询问题进行复述转写,生成包括多个与查询问题的语义相匹配的同义问题的同义问题集合,能够准确理解用户语义,并提高语义查询的召回率;并基于预先建立的问题模板库,确定各同义问题对应的问题模板,并根据关键词确定相应的目标查询语句,能够提高语义查询的准确率,避免关键词歧义造成的影响;最后基于预先建立的计量知识图谱,利用目标查询语句进行图谱查询,得到与目标查询语句相匹配的目标图谱元素,并将目标图谱元素作为查询问题的答案,能够综合准确率和召回率,实现知识与文档的混合检索。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于计量知识的语义查询方法,其特征在于,所述方法包括:
获取用户输入的查询问题;
对所述查询问题进行复述转写,生成同义问题集合;所述同义问题集合包括多个与所述查询问题的语义相匹配的同义问题;
基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句;
基于预先建立的计量知识图谱,利用所述目标查询语句进行图谱查询,得到与所述目标查询语句相匹配的目标图谱元素,并将所述目标图谱元素作为所述查询问题的答案;其中,所述计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与所述实体相关联的属性、以及关系。
2.根据权利要求1所述的方法,其特征在于,所述对所述查询问题进行复述转写,生成同义问题集合,包括:
将所述查询问题输入至机器翻译模型中,由所述机器翻译模型对所述查询问题进行编码解码,得到同义问题集合;其中,所述机器翻译模型为预先训练好的双向循环神经网络模型。
3.根据权利要求1所述的方法,其特征在于,所述基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句,包括:
获取预先建立的问题模板库,所述问题模板库中的问题模板用于规定一类问题的问句形式,并预先关联有对应的查询模板;所述查询模板中具有至少一个待填充的槽位;
在所述问题模板库中进行查询,分别确定与所述同义语句集合中各个同义语句相匹配的目标问题模板;
确定与各目标问题模板分别相关联的目标查询模板;
将各所述目标问题模板中的关键词,分别与预先建立的计量知识图谱中的图谱元素进行匹配,将匹配上的图谱元素作为与相应问题模板对应的相关图谱元素;
将所述相关图谱元素填充至对应的目标查询模板的槽位中,得到目标查询语句。
4.根据权利要求1所述的方法,其特征在于,所述计量知识图谱的建立步骤包括:
获取结构化的计量知识信息和非结构化的计量知识信息;
对所述非结构化的计量知识信息进行第一知识抽取处理,得到至少一组的第一图谱元素;
对所述结构化的计量知识信息进行第二知识抽取处理,得到至少一组的第二图谱元素;
根据所述第一图谱元素和所述第二图谱元素,构建计量知识图谱。
5.根据权利要求4所述的方法,其特征在于,所述非结构化的计量知识信息包括与计量领域相关的文档信息,所述对所述非结构化的计量知识信息进行第一知识抽取处理,得到至少一组的第一图谱元素,包括:
对所述非结构化的计量知识信息进行分词处理,获得多个实词序列;
分别依次提取所述多个实词序列中的图谱元素,得到至少一组的第一图谱元素。
6.根据权利要求4所述的方法,其特征在于,所述结构化的计量知识信息为具有特定格式、并利用关系型数据库进行存储的计量知识信息,所述对所述结构化的计量知识信息进行第二知识抽取处理,得到至少一组的第二图谱元素,包括:
利用知识提取工具,对存储有结构化的计量知识信息的关系型数据库进行提取,得到至少一组的第二图谱元素。
7.根据权利要求1所述的方法,其特征在于,所述利用所述目标查询语句进行图谱查询,得到与所述目标查询语句相匹配的目标图谱元素,并将所述目标图谱元素作为所述查询问题的答案,包括:
利用所述目标查询语句,通过图匹配的方式在所述计量知识图谱中进行查询,得到至少一个实体或至少一个关系;
将所得到的所述至少一个实体或至少一个关系作为所述查询问题的答案。
8.一种基于计量知识的语义查询装置,其特征在于,所述装置包括:
获取模块,用于获取用户输入的查询问题;
处理模块,用于对所述查询问题进行复述转写,生成同义问题集合;所述同义问题集合包括多个与所述查询问题的语义相匹配的同义问题;
所述处理模块,还用于基于预先建立的问题模板库,分别生成所述同义问题集合中各个同义问题对应的目标问题模板,并根据各同义问题中的关键词,确定与各所述目标问题模板分别相匹配的目标查询语句;
所述处理模块,还用于基于预先建立的计量知识图谱,利用所述目标查询语句进行图谱查询,得到与所述目标查询语句相匹配的目标图谱元素,并将所述目标图谱元素作为所述查询问题的答案;其中,所述计量知识图谱中包括有多个图谱元素,图谱元素包括实体、与所述实体相关联的属性、以及关系。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649564.8A CN113342842A (zh) | 2021-06-10 | 2021-06-10 | 基于计量知识的语义查询方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649564.8A CN113342842A (zh) | 2021-06-10 | 2021-06-10 | 基于计量知识的语义查询方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113342842A true CN113342842A (zh) | 2021-09-03 |
Family
ID=77476619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110649564.8A Pending CN113342842A (zh) | 2021-06-10 | 2021-06-10 | 基于计量知识的语义查询方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342842A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722446A (zh) * | 2021-11-01 | 2021-11-30 | 南方电网数字电网研究院有限公司 | 电力系统操作数据生成方法、装置、计算机设备 |
CN113947084A (zh) * | 2021-09-24 | 2022-01-18 | 盛景智能科技(嘉兴)有限公司 | 基于图嵌入的问答知识检索方法、装置及设备 |
CN114025027A (zh) * | 2021-11-02 | 2022-02-08 | 浙江三维万易联科技有限公司 | 数据传输脚本的运行方法、装置、存储介质和电子装置 |
CN114088847A (zh) * | 2022-01-19 | 2022-02-25 | 华谱科仪(北京)科技有限公司 | 基于色谱分析的样品确定方法、装置、存储介质及服务器 |
CN114357195A (zh) * | 2022-01-12 | 2022-04-15 | 中国平安人寿保险股份有限公司 | 基于知识图谱的问答对生成方法、装置、设备及介质 |
CN114625843A (zh) * | 2022-04-06 | 2022-06-14 | 山东省科院易达科技咨询有限公司 | 基于知识图谱的查询方法及装置 |
CN114817510A (zh) * | 2022-06-23 | 2022-07-29 | 清华大学 | 问答方法、问答数据集生成方法及装置 |
CN114996419A (zh) * | 2022-05-09 | 2022-09-02 | 成都数之联科技股份有限公司 | 武器装备的智能问答方法、装置、电子设备及存储介质 |
CN116028597A (zh) * | 2023-03-27 | 2023-04-28 | 南京燧坤智能科技有限公司 | 对象检索方法、装置、非易失性存储介质及计算机设备 |
CN117009492A (zh) * | 2023-09-28 | 2023-11-07 | 之江实验室 | 基于本地知识库与自然语言大模型的图查询方法与系统 |
CN117540799A (zh) * | 2023-10-20 | 2024-02-09 | 上海歆广数据科技有限公司 | 一种个案图谱创建生成方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
US20170228372A1 (en) * | 2016-02-08 | 2017-08-10 | Taiger Spain Sl | System and method for querying questions and answers |
CN109598002A (zh) * | 2018-11-15 | 2019-04-09 | 重庆邮电大学 | 基于双向循环神经网络的神经机器翻译方法和系统 |
CN110457431A (zh) * | 2019-07-03 | 2019-11-15 | 深圳追一科技有限公司 | 基于知识图谱的问答方法、装置、计算机设备和存储介质 |
CN112800170A (zh) * | 2019-11-14 | 2021-05-14 | 华为技术有限公司 | 问题的匹配方法及装置、问题的回复方法及装置 |
-
2021
- 2021-06-10 CN CN202110649564.8A patent/CN113342842A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170228372A1 (en) * | 2016-02-08 | 2017-08-10 | Taiger Spain Sl | System and method for querying questions and answers |
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN109598002A (zh) * | 2018-11-15 | 2019-04-09 | 重庆邮电大学 | 基于双向循环神经网络的神经机器翻译方法和系统 |
CN110457431A (zh) * | 2019-07-03 | 2019-11-15 | 深圳追一科技有限公司 | 基于知识图谱的问答方法、装置、计算机设备和存储介质 |
CN112800170A (zh) * | 2019-11-14 | 2021-05-14 | 华为技术有限公司 | 问题的匹配方法及装置、问题的回复方法及装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947084A (zh) * | 2021-09-24 | 2022-01-18 | 盛景智能科技(嘉兴)有限公司 | 基于图嵌入的问答知识检索方法、装置及设备 |
CN113722446A (zh) * | 2021-11-01 | 2021-11-30 | 南方电网数字电网研究院有限公司 | 电力系统操作数据生成方法、装置、计算机设备 |
CN114025027A (zh) * | 2021-11-02 | 2022-02-08 | 浙江三维万易联科技有限公司 | 数据传输脚本的运行方法、装置、存储介质和电子装置 |
CN114025027B (zh) * | 2021-11-02 | 2023-10-03 | 三维通信股份有限公司 | 数据传输脚本的运行方法、装置、存储介质和电子装置 |
CN114357195A (zh) * | 2022-01-12 | 2022-04-15 | 中国平安人寿保险股份有限公司 | 基于知识图谱的问答对生成方法、装置、设备及介质 |
CN114088847A (zh) * | 2022-01-19 | 2022-02-25 | 华谱科仪(北京)科技有限公司 | 基于色谱分析的样品确定方法、装置、存储介质及服务器 |
CN114088847B (zh) * | 2022-01-19 | 2022-04-08 | 华谱科仪(北京)科技有限公司 | 基于色谱分析的样品确定方法、装置、存储介质及服务器 |
CN114625843A (zh) * | 2022-04-06 | 2022-06-14 | 山东省科院易达科技咨询有限公司 | 基于知识图谱的查询方法及装置 |
CN114996419A (zh) * | 2022-05-09 | 2022-09-02 | 成都数之联科技股份有限公司 | 武器装备的智能问答方法、装置、电子设备及存储介质 |
CN114817510A (zh) * | 2022-06-23 | 2022-07-29 | 清华大学 | 问答方法、问答数据集生成方法及装置 |
CN116028597A (zh) * | 2023-03-27 | 2023-04-28 | 南京燧坤智能科技有限公司 | 对象检索方法、装置、非易失性存储介质及计算机设备 |
CN116028597B (zh) * | 2023-03-27 | 2023-07-21 | 南京燧坤智能科技有限公司 | 对象检索方法、装置、非易失性存储介质及计算机设备 |
CN117009492A (zh) * | 2023-09-28 | 2023-11-07 | 之江实验室 | 基于本地知识库与自然语言大模型的图查询方法与系统 |
CN117009492B (zh) * | 2023-09-28 | 2024-01-09 | 之江实验室 | 基于本地知识库与自然语言大模型的图查询方法与系统 |
CN117540799A (zh) * | 2023-10-20 | 2024-02-09 | 上海歆广数据科技有限公司 | 一种个案图谱创建生成方法及系统 |
CN117540799B (zh) * | 2023-10-20 | 2024-04-09 | 上海歆广数据科技有限公司 | 一种个案图谱创建生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113342842A (zh) | 基于计量知识的语义查询方法、装置和计算机设备 | |
US10924551B2 (en) | IRC-Infoid data standardization for use in a plurality of mobile applications | |
CN113918512A (zh) | 电网运行规则知识图谱构建系统及方法 | |
CN115099315A (zh) | 基于CityGML的多源异构地理信息数据语义融合转换方法 | |
CN113626571A (zh) | 答句生成方法、装置、计算机设备和存储介质 | |
CN117312531A (zh) | 知识图谱增强的基于大语言模型配电网故障归因分析方法 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN117033534A (zh) | 地理信息处理方法、装置、计算机设备和存储介质 | |
CN117009373A (zh) | 实体查询方法、查询端、请求端和电子设备 | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
CN115688729A (zh) | 一种输变电工程造价数据集成管理系统及其方法 | |
CN114968325A (zh) | 代码注释的生成方法及装置、处理器和电子设备 | |
CN113792160A (zh) | 一种多源数据的知识图谱扩展融合方法 | |
CN113434658A (zh) | 火电机组运行问答生成方法、系统、设备及可读存储介质 | |
Cao et al. | Constructing a Knowledge Base of Coding Conventions from Online Resources. | |
CN117609281B (zh) | 一种Text2Sql方法、系统、电子设备及存储介质 | |
CN118484516B (zh) | 面向行业大模型的多层次主题式检索增强生成方法及系统 | |
CN117931858B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
Haibo et al. | Construction of Knowledge Graph of Power Communication Planning based on Deep Learning | |
EP4428710A1 (en) | Natural language to query language transformation | |
Yang et al. | Graph embedding code prediction model integrating semantic features | |
Huiying et al. | Ontology-based enterprise content retrieval method | |
He et al. | Knowledge graph question answering system based on code defect | |
Liu et al. | Multi-Feature Extraction Method of Power Customer’s Portrait based on Knowledge Map and Label Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210903 |