CN117743506A - 一种基于自然语言的数据关联查询方法及系统 - Google Patents
一种基于自然语言的数据关联查询方法及系统 Download PDFInfo
- Publication number
- CN117743506A CN117743506A CN202311133157.7A CN202311133157A CN117743506A CN 117743506 A CN117743506 A CN 117743506A CN 202311133157 A CN202311133157 A CN 202311133157A CN 117743506 A CN117743506 A CN 117743506A
- Authority
- CN
- China
- Prior art keywords
- result
- recognition
- identification
- traversing
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims description 40
- 238000013507 mapping Methods 0.000 claims description 16
- 230000037213 diet Effects 0.000 claims description 7
- 235000005911 diet Nutrition 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 abstract description 5
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 abstract 1
- 235000013305 food Nutrition 0.000 description 8
- 241000282472 Canis lupus familiaris Species 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 206010037660 Pyrexia Diseases 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 210000001015 abdomen Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000001754 anti-pyretic effect Effects 0.000 description 2
- 239000002221 antipyretic Substances 0.000 description 2
- 229940125716 antipyretic agent Drugs 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 206010068319 Oropharyngeal pain Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009835 boiling Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 208000023409 throat pain Diseases 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于自然语言的数据关联查询方法及系统,涉及数据查询技术领域,所述方法包括:先进行智能识别,然后调取预设数据库中的本体知识库进行遍历,根据两个识别结果得到SQL,然后通过次SQL在预设数据库中遍历,得到第一结果集,然后在词向量文件库中进行相似度对比,如果满足预定阈值则得到第二结果集,通过两个结果集获取最终答案。和本申请解决了现有技术对自然语言根据语义进行识别,不能将该自然语言存在的场景或者表达方式联系起来,很难精确识别语句的意图或者精确的分词用来完成对实体的抽取的技术问题。加入文本向量匹配机制和本体知识库,进行误差去除,有效地提高了单一模型对非特征化数据预测结果的准确性和查询的命中率。
Description
技术领域
本发明涉及数据查询技术领域,具体涉及用于一种基于自然语言的数据关联查询方法及系统。
背景技术
随着信息技术的迅猛发展,互联网上产生了海量的数据。通常,这些数据存储在数据库中,并通过结构化查询语言,进行查询。自然语言作为人类最复杂的符号系统,其主观性和多义性对意图识别和实体抽取造成很大难点。这两个因素导致了语句存在大量的主观加工和词汇组合,程序很难精确识别语句的意图或精确地分词用来完成对实体的抽取。同样经过自然语言处理后的问题需要对目标进行查询的精准命中,难度主要在数据层的数据资产积累和对其的分类工作。
现有技术是首先分解自然查询语言结构,获取相应的词汇集,在对词汇集处理(如词根、同义词识别等)的基础上,将词汇集映射成术语集(本体中的类、属性、实例等),之后,根据术语集构造查询图,补充缺失的术语及属性,生成SQL再进行查询。
现有技术还存在,对自然语言根据语义进行识别,不能将该自然语言存在的场景或者表达方式联系起来,很难精确识别语句的意图或者精确地分词用来完成对实体的抽取的技术问题。
发明内容
本申请解决了现有技术通过首先分解自然查询语言结构,获取相应的词汇集,在对词汇集处理(如词根、同义词识别等)的基础上,将词汇集映射成术语集(本体中的类、属性、实例等),之后,根据术语集构造查询图,补充缺失的术语及属性,生成SQL再进行查询。不能将该自然语言存在的场景或者表达方式联系起来,很难精确识别语句的意图或者精确地分词用来完成对实体的抽取的技术问题。
鉴于上述问题,本申请实施例提供了一种基于自然语言的数据关联查询方法及系统;
第一方面,本申请实施例提供了一种基于自然语言的数据关联查询方法及系统,所述方法包括:获取输入问题,并通过智能识别模型,智能识别模型包括第一识别层和第二识别层,通过所述第一识别层对所述输入问题进行意图识别,得到意图识别结果,通过所述第二识别层对所述输入问题进行实体识别,得到实体识别结果,其中,所述第一识别层为基于DIET Classifier构建的识别层,所述第二识别层为基于Mitie Entity Extractor构建的识别层,组合所述意图识别结果和所述实体识别结果得到所述识别结果判断所述识别结果是否符合预定识别要求,若是符合,调取预设数据库中的本体知识库并进行遍历得到遍历结果,对所述识别结果和所述遍历结果进行转换,得到SQL语句,将所述SQL语句在所述预设数据库中遍历,得到第一结果集,获取所述输入问题与词向量文件库中第一词向量的第一相似度,所述词向量文件库包含于所述预设数据库,若所述第一相似度满足预定相似度阈值,将匹配到的所述第一词向量的第一词向量数据添加至第二结果集,结合所述第一结果集与所述第二结果集,得到所述输入问题的答案数据。
第二方面,本申请实施例提供了一种基于自然语言的数据关联查询系统,所述系统包括:结果识别模块,所述结果识别模块用于获取输入问题,并通过智能识别模型对所述输入问题进行识别,得到识别结果,结果判断模块,所述结果判断模块用于判断所述识别结果是否符合预定识别要求,知识库遍历模块,所述知识库遍历模块用于先判断,若是符合,调取预设数据库中的本体知识库并进行遍历得到遍历结果,SQL和第一结果集获取模块,所述SQL和第一结果集获取模块用于对所述识别结果和所述遍历结果进行转换,得到SQL语句,将所述SQL语句在所述预设数据库中遍历,得到第一结果集,第一相似度获取模块,所述第一相似度获取模块用于获取所述输入问题与词向量文件库中第一词向量的第一相似度,所述词向量文件库包含于所述预设数据库,第二结果集获取模块,所述第二结果集获取模块是若所述第一相似度满足预定相似度阈值,将匹配到的所述第一词向量的第一词向量数据添加至第二结果集,答案数据输出模块,所述答案数据输出模块用于结合所述第一结果集与所述第二结果集,得到所述输入问题的答案数据。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供了一种基于自然语言的数据关联查询方法及系统,涉及物流运输技术领域,所述方法包括:先获取输入问题,通过智能识别模型对所述问题进行识别,智能识别模型包括两层,其中,第一层识别层基于DIET Classifier构建的识别层、第二识别层是基于Mitie Entity Extractor构建的识别层,第一识别层可以对输入问题及逆行意图识别,得到意图识别结果,第二层识别层可以对输入问题进行实体识别,得到意图识别结果,组合意图识别和实体识别结果得到综合的识别结果,然后判别得到的识别结果是否符合预定识别要求,预定识别要求,要求的是实体识别的结果不可以为空,如果符合,则调取预设数据库中的本体知识库并进行遍历得到遍历结果,如果不符合,就对得到一个结果集,对其进行空集标记,其中,本体知识库中包括了多个本体的实体,多个本体实体中的各个本体实体均对应一个实体名称集合,就在所述的本体在所述多个本体实体中匹配所述实体识别结果对应的目标本体实体,匹配所述目标本体实体的目标实体名称集,并将所述目标实体名称集添加至所述遍历结果,根据识别结果和遍历结果进行转换,得到SQL语句,再根据得到的SQL语句在预设数据库中再遍历一次,得到第一结果集。然后根据输入问题与语向量文件库中第一词向量的第一相似度,语向量文件库是小于等于预设数据库的,如果得到的第一相似度满足预定相似度阈值,然后将匹配到的所述第一词向量的第一词向量数据添加至第二结果集,再对所述第一结果集与所述第二结果集进行并集运算处理,得到第一处理结果集,判断所述第一处理结果集是否符合预设处理要求,若是符合,对所述第一处理结果集中的数据进行组织处理,得到所述答案数据,若是不符合,返回“未找到对应答案”。
本申请解决了现有技术通过首先分解自然查询语言结构,获取相应的词汇集,在对词汇集处理(如词根、同义词识别等)的基础上,将词汇集映射成术语集(本体中的类、属性、实例等),之后,根据术语集构造查询图,补充缺失的术语及属性,生成SQL再进行查询。不能将该自然语言存在的场景或者表达方式联系起来,很难精确识别语句的意图或者精确地分词用来完成对实体的抽取的技术问题。
加入文本向量匹配机制和本体知识库,进行误差识别去除,得到大数据量编制后积累并验证的本体知识库中的词表映射,得到同一实体标准名和别称的映射集,使用该集可以有效的提高本地资源查询命中的准确性,计算问题和本地知识库的相关程度,通过大量数据验证得出较为合适的阈值,并通过阈值筛选本地知识库的内容组成补充结果集,并将主流程通过模型预测后生成的结果集和补充结果集去重合并,经过比较核对后得出较为准确的结果,有效地提高了单一模型对非特征化数据预测结果的准确性和查询的命中率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供了一种基于自然语言的数据关联查询方法及系统流程示意图;
图2为本申请实施例提供了一种基于自然语言的数据关联查询方法中根据组合所述意图识别结果和所述实体识别结果得到所述识别结果方法流程示意图;
图3为本申请实施例提供了一种基于自然语言的数据关联查询方法中调取预设数据库中的本体知识库并进行遍历得到遍历结果方法流程示意图;
图4为本申请实施例提供了一种基于自然语言的数据关联查询方法及系统的结构示意图。
附图标记说明:结果识别模块10,结果判断模块20,知识库遍历模块30,SQL和第一结果集获取模块40,第一相似度获取模块50,第二结果集获取模块60,答案数据输出模块70。
具体实施方式
本申请解决了现有技术通过首先分解自然查询语言结构,获取相应的词汇集,在对词汇集处理(如词根、同义词识别等)的基础上,将词汇集映射成术语集(本体中的类、属性、实例等),之后,根据术语集构造查询图,补充缺失的术语及属性,生成SQL再进行查询。不能将该自然语言存在的场景或者表达方式联系起来,很难精确识别语句的意图或者精确地分词用来完成对实体的抽取的技术问题。
加入文本向量匹配机制和本体知识库,进行误差识别去除,得到大数据量编制后积累并验证的本体知识库中的词表映射,得到同一实体标准名和别称的映射集,使用该集可以有效的提高本地资源查询命中的准确性,计算问题和本地知识库的相关程度,通过大量数据验证得出较为合适的阈值,并通过阈值筛选本地知识库的内容组成补充结果集,并将主流程通过模型预测后生成的结果集和补充结果集去重合并,经过比较核对后得出较为准确的结果,有效地提高了单一模型对非特征化数据预测结果的准确性和查询的命中率。
本申请实施例中的技术方案为解决上述问题,总体解决思路如下:
先获取输入问题,通过智能识别模型对所述问题进行识别,智能识别模型包括两层,其中,第一层识别层基于DIET Classifier构建的识别层、第二识别层是基于MitieEntity Extractor构建的识别层,第一识别层可以对输入问题及逆行意图识别,得到意图识别结果,第二层识别层可以对输入问题进行实体识别,得到意图识别结果,组合意图识别和实体识别结果得到综合的识别结果。
然后判别得到的识别结果是否符合预定识别要求,预定识别要求,要求的是实体识别的结果不可以为空,如果符合,则调取预设数据库中的本体知识库并进行遍历得到遍历结果,如果不符合,就对得到一个结果集,对其进行空集标记,其中,本体知识库中包括了多个本体的实体,多个本体实体中的各个本体实体均对应一个实体名称集合,就在所述的本体在所述多个本体实体中匹配所述实体识别结果对应的目标本体实体,匹配所述目标本体实体的目标实体名称集,并将所述目标实体名称集添加至所述遍历结果,根据识别结果和遍历结果进行转换,得到SQL语句,再根据得到的SQL语句在预设数据库中再遍历一次,得到第一结果集。
然后根据输入问题与语向量文件库中第一词向量的第一相似度,语向量文件库是小于等于预设数据库的,如果得到的第一相似度满足预定相似度阈值,然后将匹配到的所述第一词向量的第一词向量数据添加至第二结果集,再对所述第一结果集与所述第二结果集进行并集运算处理,得到第一处理结果集,判断所述第一处理结果集是否符合预设处理要求,若是符合,对所述第一处理结果集中的数据进行组织处理,得到所述答案数据,若是不符合,返回“未找到对应答案”。
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述方案进行详细介绍:
实施例一
如图1所示一种基于自然语言的数据关联查询方法,其特征在于,所应用于智能查询系统,所述方法包括:
获取输入问题,并通过智能识别模型对所述输入问题进行识别,得到识别结果;
具体而言,智能识别模型是一种基于深度学习的模型,从早期的传统机器学习方法,基于高维稀疏特征的训练方式,到现在主流的深度学习方法,使用基于神经网络的低维稠密向量特征训练模型。主要用于自然语言处理,而自然语言的基础研究便是人机语言交互,以机器能够理解的算法来反映人类的语言,核心是基于统计学的语言模型。智能识别模型主要是可以将问题和实际场景结合起来,用来区分现象、原因与后果。而不是将,现象和后果当成原因。输入问题就是人们有不懂的问题,在此模型进行查阅的问题,比如,发烧这个问题,发烧了大家想到的第一件事是吃退烧药。定不要先预设原因,而是应该将现象描述得清清楚楚,后期通过各种方式自然有判断的依据。比如,发烧只是一个现象,其根本原因是因为感染,炎症或者过敏等。吃退烧药不解决发烧的问题。可以是我因为嗓子疼发烧了,嗓子疼嗓子发炎导致发烧,那么就根据这个问题给出对应的答案。又比如,锅里的水沸腾了,原因是底下有火。解决问题并不是扬汤止沸,而应该是釜底抽薪。识别结果就是通过结合问题再结合具体场景进行答案匹配,相同的问题可能会有多个答案,但是根据不同场景就会对应不同的,此模型识别出的就是结合场景和意图相对准确的答案,提高了问答效率。
判断所述识别结果是否符合预定识别要求;
具体而言,预定识别要求就是提前设定的阈值,比如小狗因为吃过期食物拉肚子了,要怎么办吃什么药可以治疗,预定要求就是识别根据意图和实体来区分,意图就是治疗,实体就是小狗、吃过期食物、拉肚子,等这些元素,根据判断符合这些元素信息码,可以减少的检索答案数量,提高了效率。
若是符合,调取预设数据库中的本体知识库并进行遍历得到遍历结果;
具体而言,预设数据库符合预定识别要求的问题从所有答案中筛选出的相对具体的数据库,本体知识库就是经过大数据量编制后积累并验证的本体知识库中的词表映射,得到同一实体标准名和别称的映射集,使用该集可以有效地提高本地资源查询命中的准确性。遍历就是,如果本体知识库有索引标识,索引标识就是对每一个数据进行标号,不同的数据对应不同的索引,如果是有50000个数据,遍历就是沿着从0-49999的顺序对每个数据结点均进行访问,找出符合本问题的结果。
对所述识别结果和所述遍历结果进行转换,得到SQL语句;
具体而言,根据识别结果可以得到相应的意图和实体,根据遍历结果可以得到意图和实体的历史搜索数据,根据识别结果中的数据在遍历结果中匹配,得到一个更准确的数据,通过这个获取相应的SQL语句。使得到的SQL更为准确。
将所述SQL语句在所述预设数据库中遍历,得到第一结果集;
具体而言,预设数据库就是所有的数据,此处所有的数据为根据意图和实体大体区分过的数据,每个数据包含一个,而索引标识就是对每一个数据进行标号,不同的数据对应不同的索引,如果是有50000个数据,遍历就是沿着从0-49999的顺序对每个数据结点均进行访问,找到多个匹配结果,将此匹配结果作为第一结果集输出。
获取所述输入问题与词向量文件库中第一词向量的第一相似度,所述词向量文件库包含于所述预设数据库;
具体而言,词向量文件库包含于预设数据库,比如预设数据库中含有A、B、C三个数据集合,词向量文件库含有A或者B或者C或者A、B或者A、C或者B、C数据集合,这样词向量文件库就是包含预设数据库的,词向量文件库是Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量的文件库。它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高自然语言处理任务的性能,例如语法分析和情感分析等,比如输入问题为在教室怎么安装书桌子,第一词向量为词向量文件库中的任一元素,第一词向量所含有的在为在房间安装桌子,根据意图和实体匹配,获得第一相似度,相似度比如,上述问题,都是安装桌子,环境不同,相似度就很高。
若所述第一相似度满足预定相似度阈值,将匹配到的所述第一词向量的第一词向量数据添加至第二结果集;
具体而言,预定相似度阈值为设定的可接受大小,比如相似度在70%以上才判断为满足要求,如果相似度为75%都是满足的,但如果为69%则判断为不满足,将满足的第一词向量添加进入第二结果集。第二结果集和第一结果集并列。
结合所述第一结果集与所述第二结果集,得到所述输入问题的答案数据。
具体而言,结合第一结果集和第二结果集,将两者进行并集,将得到的总集合作为答案,比如第一结果集中为A、C,第二结果集为B、D,则得到的总集为A、B、C、D,将此作为最终输入问题的答案数据。
进一步地,如图2所示,本申请方法,其特征在于,所述智能识别模型包括第一识别层和第二识别层,所述获取输入问题,并通过智能识别模型对所述输入问题进行识别,得到识别结果,还包括:
具体而言,智能识别模型包括第一识别层和第二识别层,都分别对应不同的识别方向。
通过所述第一识别层对所述输入问题进行意图识别,得到意图识别结果;
具体而言,第一识别层是对输入问题的意图进行识别,意图识别是指通过自然语言文本来自动识别出用户的意图或目的的一项技术任务。意图识别的准确性能在很大程度上影响着搜索的准确性和对话系统的智能性。其常见的实现方法是围绕词典模板的规则分类、过往日志的匹配和分类模型等方案设计的。得到输入问题的意图识别结果。
通过所述第二识别层对所述输入问题进行实体识别,得到实体识别结果;
具体而言,第二识别层是对输入问题进行实体识别,实体抽取也叫命名实体识别(NER)主要抽取的是文本中的原子信息元素,如人名、事务名、组织/机构名、地理位置、事件/日期、字符值等对算法或流程下一步进行时需求的数据。根据这些元素进行匹配数据,得到实体识别结果。
其中,所述第一识别层为基于DIET Classifier构建的识别层,所述第二识别层为基于Mitie Entity Extractor构建的识别层;
具体而言,第一层构建DIET Classifier是纯监督的方式,没有任何预训练的情况下,无须大规模预训练,监督学习是机器学习中的一种训练方式,是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习,是从标记的训练数据来推断一个功能的机器学习任务。就是根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优模型。能够清晰地想到自己想要什么结果,也就是说,在监督学习中训练数据既有特征又有标签,通过训练让机器找到特征和标签之间的联系,这样在当遇到只有特征而没有标签的数据时,就可以为其判断出标签。关键功能是能够将预训练模型的得到的词向量,和可自由组合的稀疏的单词特征和n-gram特征结合起来。第二层构建Mitie Entity Extractor除了理解用户的语义以外,还需要从用户获取必要的信息,用于信息检索的变量,我们简称为slot(槽),而填槽的内容大部分来自用户对话中的命名实体,极个别也有用户的意图作为slot。举例来说,用户意图为订火车票,那机器人必须知道是从哪里出发目的地是哪里,这个信息就需要从用户对话中提取地名这个命名实体。使用MitieNLP提取命名实体。需要引入MitieNLP语言模型,虽然在pipeline里面也需要配置MitieTokenizer,MitieFeaturizer,但实际上在MitieEntityExtractor执行的时候,它会自己重新生成Feature。这种方法结合和HMM和SVM。相比单纯的HMM,这种方法基于最大margin标准。相比于CRF或者最大熵的HMM。
组合所述意图识别结果和所述实体识别结果得到所述识别结果。
进一步地,将意图识别地结果和实体识别地结果综合起来,就相当于知道了什么人在什么地方要做什么,想要解决地是什么,比如意图是治疗,实体是小狗,坏食物,拉肚子等因素,得到地相关就是小狗吃坏食物拉肚子地治疗方法。以此结合得到综合的识别结果。
进一步地,本申请方法还包括所述预定识别要求是指所述实体识别结果不为空。
具体而言,所述的预定识别要求指的是实体识别结果不为空,要治疗真的要治疗,找不到实体,就判别实体集为空,在数据库中就为NULL。
进一步地,如图3所示,本申请方法,其特征在于,所述本体知识库中包括多个本体实体,且所述多个本体实体中的各个本体实体均对应一个实体名称集,所述调取预设数据库中的本体知识库并进行遍历得到遍历结果,还包括:
具体而言,所述本体知识库中包含多个本体实体,比如小狗吃过期食物吃坏肚子的治疗方法,包含多个本体如小狗、过期食物、吃坏肚子,其中比如小狗也分好多比如小型狗、大型狗,狗的年龄,幼年期还是成熟期都是不一样的,也可以分为这些类别的不同实体。
在所述多个本体实体中匹配所述实体识别结果对应的目标本体实体;
匹配所述目标本体实体的目标实体名称集,并将所述目标实体名称集添加至所述遍历结果。
具体而言,目标本体实体就是结合实际情况比如在小狗中选择大型狗、幼年期,作为目标本体实体。可以进行字符串equals对比。将匹配过的集合作为目标实体名称集,将其添加进入遍历结果中。
进一步地,本申请方法,其特征在于,所述遍历结果还包括所述目标实体名称集中各实体名称的各上下级映射。
具体而言,上下级映射比如在网络连接中,第一层路由的Lan口接到下层路由的Wan口,第二层路由下面有一个服务器接在它的Lan口上,通过对第二层路由器设置端口映射将局域网的服务器映射到了第一层上,即在第一层路由的局域网里面可以访问到第二层路由中的服务器。
进一步地,本申请方法还包括特征在于,在所述判断所述识别结果是否符合预定识别要求之后,若是不符合,对所述第一结果集进行空集标记。
具体而言,如果不符合预设要求,预定识别要求就是提前设定的阈值,比如小狗因为吃过期食物拉肚子了,要怎么办吃什么药可以治疗,预定要求就是识别根据意图和实体来区分,意图就是治疗,实体就是小狗、吃过期食物、拉肚子,等这些元素,如果不符合,则输出一个空集。
进一步地,本申请方法,其特征在于,所述结合所述第一结果集与所述第二结果集,得到所述输入问题的答案数据,包括:
对所述第一结果集与所述第二结果集进行并集运算处理,得到第一处理结果集;
具体而言,具体而言,结合第一结果集和第二结果集,将两者进行并集,将得到的总集合作为答案,比如第一结果集中为A、C,第二结果集为B、D,则得到的总集为A、B、C、D,将此作为第一处理结果集。
判断所述第一处理结果集是否符合预设处理要求;
若是符合,对所述第一处理结果集中的数据进行组织处理,得到所述答案数据,若是不符合,返回“未找到对应答案”。
具体而言,判断第一处理结果集的内容是否符合预设要求,可以通过第一结果集是否为空集,可以遍历一下表数据如果遍历结果为0则表为空或者select count(*)fromtableName,tableName为表名称,如果没有数据则说明为空,如果符合要求则将第一处理结果集作为答案数据进行输出,如果不符合要求,则输出“未找到对应答案”。
实施例二
基于与前述实施例一种基于自然语言的数据关联查询方法相同的发明构思,如图4所示,本申请提供了一种基于自然语言的数据关联查询系统,所述系统包括:
结果识别模块10,所述结果识别模块10用于获取输入问题,并通过智能识别模型对所述输入问题进行识别,得到识别结果;
结果判断模块20,所述结果判断模块20用于判断所述识别结果是否符合预定识别要求;
知识库遍历模块30,所述知识库遍历模块30用于先判断,若是符合,调取预设数据库中的本体知识库并进行遍历得到遍历结果;
SQL和第一结果集获取模块40,所述SQL和第一结果集获取模块40用于对所述识别结果和所述遍历结果进行转换,得到SQL语句,将所述SQL语句在所述预设数据库中遍历,得到第一结果集;
第一相似度获取模块50,所述第一相似度获取模块50用于获取所述输入问题与词向量文件库中第一词向量的第一相似度,所述词向量文件库包含于所述预设数据库;
第二结果集获取模块60,所述第二结果集获取模块60是若所述第一相似度满足预定相似度阈值,将匹配到的所述第一词向量的第一词向量数据添加至第二结果集;
答案数据输出模块70,所述答案数据输出模块70用于结合所述第一结果集与所述第二结果集,得到所述输入问题的答案数据。
进一步地,该系统还包括:
智能识别模型第一识别层模块,所述智能识别模型第一识别层模块是通过所述第一识别层对所述输入问题进行意图识别,得到意图识别结果;
智能识别模型第二识别层模块,所述智能识别模型第二识别层模块是通过所述第二识别层对所述输入问题进行实体识别,得到实体识别结果;
识别层构建模块,所述识别层构建模块用于其中,所述第一识别层为基于DIETClassifier构建的识别层,所述第二识别层为基于Mitie Entity Extractor构建的识别层;
识别结果识别模块,所述识别结果识别模块用于组合所述意图识别结果和所述实体识别结果得到所述识别结果。
进一步地,该系统还包括:
预定要求模块,所述预定要求模块是指判断所述预定识别要求所述的识别结果不为空;
进一步地,该系统还包括:
本体实体匹配模块,所述本体实体匹配模块用于在所述多个本体实体中匹配所述实体识别结果对应的目标本体实体;
遍历结果匹配模块,所述遍历结果匹配模块用于匹配所述目标本体实体的目标实体名称集,并将所述目标实体名称集添加至所述遍历结果。
进一步地,该系统包括:
个上下级映射模块,所述个上下级映射模块用于所述遍历结果还包括所述目标实体名称集中各实体名称的各上下级映射。
进一步地,该系统包括:
空集标记模块,所述空集标记模块用于所述判断所述识别结果是否符合预定识别要求之后,若是不符合,对所述第一结果集进行空集标记。
进一步地,该系统包括:
第一结果集得到模块,所述第一结果集得到模块用于对所述第一结果集与所述第二结果集进行并集运算处理,得到第一处理结果集;
预设处理要求模块,所述预设处理要求模块用于判断所述第一处理结果集是否符合预设处理要求;
答案返回模块,所述答案返回模块用于先判断符合性,若是符合,对所述第一处理结果集中的数据进行组织处理,得到所述答案数据,若是不符合,返回“未找到对应答案”。
说明书通过前述对一种基于自然语言的数据关联查询方法详细描述,本领域技术人员可以清楚地知识本实施例中一种基于自然语言数据关联查询系统,对于实施例公开的数据库而言,由于其与实施例公开的方法相对应,所以描述得比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其他实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种基于自然语言的数据关联查询方法,其特征在于,所应用于智能查询系统,所述方法包括:
获取输入问题,并通过智能识别模型对所述输入问题进行识别,得到识别结果;
判断所述识别结果是否符合预定识别要求;
若是符合,调取预设数据库中的本体知识库并进行遍历得到遍历结果;
对所述识别结果和所述遍历结果进行转换,得到SQL语句;
将所述SQL语句在所述预设数据库中遍历,得到第一结果集;
获取所述输入问题与词向量文件库中第一词向量的第一相似度,所述词向量文件库包含于所述预设数据库;
若所述第一相似度满足预定相似度阈值,将匹配到的所述第一词向量的第一词向量数据添加至第二结果集;
结合所述第一结果集与所述第二结果集,得到所述输入问题的答案数据。
2.根据权利要求1所述方法,其特征在于,所述智能识别模型包括第一识别层和第二识别层,所述获取输入问题,并通过智能识别模型对所述输入问题进行识别,得到识别结果,包括:
通过所述第一识别层对所述输入问题进行意图识别,得到意图识别结果;
通过所述第二识别层对所述输入问题进行实体识别,得到实体识别结果;
其中,所述第一识别层为基于DIET Classifier构建的识别层,所述第二识别层为基于Mitie Entity Extractor构建的识别层;
组合所述意图识别结果和所述实体识别结果得到所述识别结果。
3.根据权利要求2所述方法,其特征在于,所述预定识别要求是指所述实体识别结果不为空。
4.根据权利要求3所述方法,其特征在于,所述本体知识库中包括多个本体实体,且所述多个本体实体中的各个本体实体均对应一个实体名称集,所述调取预设数据库中的本体知识库并进行遍历得到遍历结果,包括:
在所述多个本体实体中匹配所述实体识别结果对应的目标本体实体;
匹配所述目标本体实体的目标实体名称集,并将所述目标实体名称集添加至所述遍历结果。
5.根据权利要求4所述方法,其特征在于,所述遍历结果还包括所述目标实体名称集中各实体名称的各上下级映射。
6.根据权利要求3所述方法,其特征在于,在所述判断所述识别结果是否符合预定识别要求之后,若是不符合,对所述第一结果集进行空集标记。
7.根据权利要求1所述方法,其特征在于,所述结合所述第一结果集与所述第二结果集,得到所述输入问题的答案数据,包括:
对所述第一结果集与所述第二结果集进行并集运算处理,得到第一处理结果集;
判断所述第一处理结果集是否符合预设处理要求;
若是符合,对所述第一处理结果集中的数据进行组织处理,得到所述答案数据,若是不符合,返回“未找到对应答案”。
8.一种基于自然语言的数据关联查询系统,其特征在于,所述系统包括:
结果识别模块,所述结果识别模块用于获取输入问题,并通过智能识别模型对所述输入问题进行识别,得到识别结果;
结果判断模块,所述结果判断模块用于判断所述识别结果是否符合预定识别要求;
知识库遍历模块,所述知识库遍历模块用于先判断,若是符合,调取预设数据库中的本体知识库并进行遍历得到遍历结果;
SQL和第一结果集获取模块,所述SQL和第一结果集获取模块用于对所述识别结果和所述遍历结果进行转换,得到SQL语句,将所述SQL语句在所述预设数据库中遍历,得到第一结果集;
第一相似度获取模块,所述第一相似度获取模块用于获取所述输入问题与词向量文件库中第一词向量的第一相似度,所述词向量文件库包含于所述预设数据库;
第二结果集获取模块,所述第二结果集获取模块是若所述第一相似度满足预定相似度阈值,将匹配到的所述第一词向量的第一词向量数据添加至第二结果集;
答案数据输出模块,所述答案数据输出模块用于结合所述第一结果集与所述第二结果集,得到所述输入问题的答案数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311133157.7A CN117743506B (zh) | 2023-09-04 | 2023-09-04 | 一种基于自然语言的数据关联查询方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311133157.7A CN117743506B (zh) | 2023-09-04 | 2023-09-04 | 一种基于自然语言的数据关联查询方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117743506A true CN117743506A (zh) | 2024-03-22 |
CN117743506B CN117743506B (zh) | 2024-05-28 |
Family
ID=90253305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311133157.7A Active CN117743506B (zh) | 2023-09-04 | 2023-09-04 | 一种基于自然语言的数据关联查询方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743506B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073919A (zh) * | 2010-11-24 | 2011-05-25 | 中南大学 | 一种决策问题智能分析处理方法 |
CN102890674A (zh) * | 2011-07-18 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 一种查询词的处理方法和装置 |
CN103268348A (zh) * | 2013-05-28 | 2013-08-28 | 中国科学院计算技术研究所 | 一种用户查询意图识别方法 |
US20150112952A1 (en) * | 2013-10-17 | 2015-04-23 | Wistron Corporation | Method of data sorting |
CN106372956A (zh) * | 2015-07-23 | 2017-02-01 | 苏宁云商集团股份有限公司 | 一种基于用户搜索日志进行意图实体识别的方法和系统 |
WO2017146348A1 (ko) * | 2016-02-24 | 2017-08-31 | 주식회사 케이앤컴퍼니 | 위치 기반 빅데이터 시스템 |
CN107330798A (zh) * | 2017-06-05 | 2017-11-07 | 大连理工大学 | 一种基于种子节点传播的社交网络间用户身份识别方法 |
CN108052547A (zh) * | 2017-11-27 | 2018-05-18 | 华中科技大学 | 基于问句和知识图结构分析的自然语言问答方法及系统 |
CN108920543A (zh) * | 2018-06-13 | 2018-11-30 | 珠海格力电器股份有限公司 | 查询和交互的方法及装置、计算机装置、存储介质 |
CN109299289A (zh) * | 2018-11-30 | 2019-02-01 | 国信优易数据有限公司 | 一种查询图构建方法、装置、电子设备及计算机存储介质 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN109542929A (zh) * | 2018-11-28 | 2019-03-29 | 山东工商学院 | 语音查询方法、装置和电子设备 |
CN110309400A (zh) * | 2018-02-07 | 2019-10-08 | 鼎复数据科技(北京)有限公司 | 一种智能理解用户查询意图的方法及系统 |
CN110765257A (zh) * | 2019-12-30 | 2020-02-07 | 杭州识度科技有限公司 | 一种知识图谱驱动型的法律智能咨询系统 |
CN111401077A (zh) * | 2020-06-02 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 语言模型的处理方法、装置和计算机设备 |
CN112380238A (zh) * | 2020-11-16 | 2021-02-19 | 平安科技(深圳)有限公司 | 数据库数据查询方法、装置、电子设备及存储介质 |
CN112527997A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 |
CN114547072A (zh) * | 2022-02-10 | 2022-05-27 | 招商银行股份有限公司 | 自然语言查询转换sql方法、系统、设备及存储介质 |
-
2023
- 2023-09-04 CN CN202311133157.7A patent/CN117743506B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073919A (zh) * | 2010-11-24 | 2011-05-25 | 中南大学 | 一种决策问题智能分析处理方法 |
CN102890674A (zh) * | 2011-07-18 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 一种查询词的处理方法和装置 |
CN103268348A (zh) * | 2013-05-28 | 2013-08-28 | 中国科学院计算技术研究所 | 一种用户查询意图识别方法 |
US20150112952A1 (en) * | 2013-10-17 | 2015-04-23 | Wistron Corporation | Method of data sorting |
CN106372956A (zh) * | 2015-07-23 | 2017-02-01 | 苏宁云商集团股份有限公司 | 一种基于用户搜索日志进行意图实体识别的方法和系统 |
WO2017146348A1 (ko) * | 2016-02-24 | 2017-08-31 | 주식회사 케이앤컴퍼니 | 위치 기반 빅데이터 시스템 |
CN107330798A (zh) * | 2017-06-05 | 2017-11-07 | 大连理工大学 | 一种基于种子节点传播的社交网络间用户身份识别方法 |
CN108052547A (zh) * | 2017-11-27 | 2018-05-18 | 华中科技大学 | 基于问句和知识图结构分析的自然语言问答方法及系统 |
CN110309400A (zh) * | 2018-02-07 | 2019-10-08 | 鼎复数据科技(北京)有限公司 | 一种智能理解用户查询意图的方法及系统 |
CN108920543A (zh) * | 2018-06-13 | 2018-11-30 | 珠海格力电器股份有限公司 | 查询和交互的方法及装置、计算机装置、存储介质 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN109542929A (zh) * | 2018-11-28 | 2019-03-29 | 山东工商学院 | 语音查询方法、装置和电子设备 |
CN109299289A (zh) * | 2018-11-30 | 2019-02-01 | 国信优易数据有限公司 | 一种查询图构建方法、装置、电子设备及计算机存储介质 |
CN110765257A (zh) * | 2019-12-30 | 2020-02-07 | 杭州识度科技有限公司 | 一种知识图谱驱动型的法律智能咨询系统 |
CN111401077A (zh) * | 2020-06-02 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 语言模型的处理方法、装置和计算机设备 |
CN112380238A (zh) * | 2020-11-16 | 2021-02-19 | 平安科技(深圳)有限公司 | 数据库数据查询方法、装置、电子设备及存储介质 |
CN112527997A (zh) * | 2020-12-18 | 2021-03-19 | 中国南方电网有限责任公司 | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 |
CN114547072A (zh) * | 2022-02-10 | 2022-05-27 | 招商银行股份有限公司 | 自然语言查询转换sql方法、系统、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
孟奎;刘梦赤;胡婕;: "基于字符级循环网络的查询意图识别模型", 计算机工程, no. 03, 15 March 2017 (2017-03-15), pages 187 - 192 * |
寇月;申德荣;李冬;聂铁铮;: "一种基于语义及统计分析的Deep Web实体识别机制", 软件学报, no. 02, 15 February 2008 (2008-02-15), pages 24 - 38 * |
李晓明, 潘艳蓉, 张莲梅: "异构电力信息系统综合查询的设计与实现", 电力系统自动化, no. 03, 15 March 2004 (2004-03-15), pages 86 - 90 * |
黄襄念, 程萍, 彭健, 杨波: "一个联机识别自然手写汉字的多分类器集成系统", 中文信息学报, no. 05, 20 October 2000 (2000-10-20), pages 38 - 42 * |
Also Published As
Publication number | Publication date |
---|---|
CN117743506B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
US9824083B2 (en) | System for natural language understanding | |
CN111767408A (zh) | 一种基于多种神经网络集成的因果事理图谱构建方法 | |
CN111914556B (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN112836046A (zh) | 一种四险一金领域政策法规文本实体识别方法 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN102637192A (zh) | 一种自然语言问答的方法 | |
CN116150335A (zh) | 一种军事场景下文本语义检索方法 | |
CN111324691A (zh) | 一种基于知识图谱的少数民族领域智能问答方法 | |
CN111026884A (zh) | 一种提升人机交互对话语料质量与多样性的对话语料库生成方法 | |
CN116662582A (zh) | 基于自然语言的特定领域业务知识检索方法及检索装置 | |
Barskar et al. | An approach for extracting exact answers to question answering (qa) system for english sentences | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN113590779B (zh) | 一种空管领域知识图谱的智能问答系统构建方法 | |
Xu | Bootstrapping relation extraction from semantic seeds | |
CN111597349A (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
Peng et al. | MPSC: A multiple-perspective semantics-crossover model for matching sentences | |
Kaur et al. | Natural language processing interface for synonym | |
Ahkouk et al. | Comparative study of existing approaches on the Task of Natural Language to Database Language | |
CN117743506B (zh) | 一种基于自然语言的数据关联查询方法及系统 | |
Saikh et al. | COVIDRead: A large-scale question answering dataset on COVID-19 | |
Prnjak et al. | CLEF 2023 JOKER Task 1, 2, 3: Pun Detection, Pun Interpretation, and Pun Translation. | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
Berezkin et al. | A method for creating structural models of text documents using neural networks | |
CN113569124A (zh) | 医疗标题匹配方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |