CN111506595A - 一种数据查询方法、系统及相关设备 - Google Patents

一种数据查询方法、系统及相关设备 Download PDF

Info

Publication number
CN111506595A
CN111506595A CN202010311841.XA CN202010311841A CN111506595A CN 111506595 A CN111506595 A CN 111506595A CN 202010311841 A CN202010311841 A CN 202010311841A CN 111506595 A CN111506595 A CN 111506595A
Authority
CN
China
Prior art keywords
preset
natural language
filtering
data
filtering condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010311841.XA
Other languages
English (en)
Other versions
CN111506595B (zh
Inventor
吴粤敏
宁义双
宁可
张刚
彭璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN202010311841.XA priority Critical patent/CN111506595B/zh
Publication of CN111506595A publication Critical patent/CN111506595A/zh
Application granted granted Critical
Publication of CN111506595B publication Critical patent/CN111506595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据查询方法、系统及相关设备,用于实现数据库的自然语言查询功能。本发明实施例方法包括:将预设BERT模型作为编码器,并设置解码器对所述编码器进行解码得到输出值集合,所述输出值集合包括过滤条件数量、过滤条件的字段名、过滤条件对应的操作类型、多个过滤条件的关系;采用预设样本数据对所述预设BERT模型及解码器进行训练,得到深度学习模型;接收客户端发送的自然语言查询语句,并采用所述深度学习模型对所述自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合;根据所述过滤条件集合在数据库中查询对应的目标数据,并返回给所述客户端。

Description

一种数据查询方法、系统及相关设备
技术领域
本发明涉及数据库查询技术领域,尤其涉及一种数据查询方法、系统及相关设备。
背景技术
数据库中存在着海量有价值的结构化数据,现有的数据查询系统往往通过SQL语句来与数据库进行交互查询数据库,或通过精心设计的交互界面,手动的、机械的输入查询条件,即用户输入关键词并选择字段名,然后利用字符串匹配的方法去数据库中匹配相应字段中的数据,以实现查询数据库的目的。
现有的查询系统需要用户学习掌握一定的SQL专业知识,并需要用户输入关键词并手动选择字段名,输入方式不符合用户的自然语言表达方式,用户体验不好。
发明内容
本发明实施例提供了一种数据查询方法、系统及相关设备,用于实现数据库的自然语言查询功能。
本发明实施例第一方面提供了一种数据查询方法,可包括:
将预设BERT模型作为编码器,并设置解码器对所述编码器进行解码得到输出值集合,所述输出值集合包括过滤条件数量、过滤条件的字段名、过滤条件对应的操作类型、多个过滤条件的关系;
采用预设样本数据对所述预设BERT模型及解码器进行训练,得到深度学习模型;
接收客户端发送的自然语言查询语句,并采用所述深度学习模型对所述自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合;
根据所述过滤条件集合在数据库中查询对应的目标数据,并返回给所述客户端。
可选的,作为一种可能的实施方式,每一条所述预设样本数据包括样本ID、自然语言问句、过滤条件的字段名及过滤条件集合,在采用预设样本数据对所述预设BERT模型及解码器进行训练之前,本发明实施例中的数据查询方法还可以包括:
当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设词典中是否存在与所述预设词语的相似度大于阈值的目标词语,若存在,则在预设样本数据中记录所述目标词语对应的字段作为过滤条件的字段名;
和/或,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设同义词典中是否存在与所述预设词语的相似度大于阈值的同义词语,若存在,则采用所述同义词语替换所述预设词语。
可选的,作为一种可能的实施方式,在根据所述过滤条件集合在数据库中查询对应的目标数据之前,本发明实施例中的数据查询方法还可以包括:
采用依存句法分析算法对所述自然语言查询语句进行分析计算得到自然语言查询语句中词汇的依存关系,并根据所述依存关系对所述过滤条件集合中的过滤条件进行修正。
可选的,作为一种可能的实施方式,在根据所述过滤条件集合在数据库中查询对应的目标数据之前,本发明实施例中的数据查询方法还可以包括:
对所述过滤条件集合中的字段值类型进行校验,若字段值类型与对应的目标过滤条件的取值类型不符合,则删除所述目标过滤条件。
本发明实施例第二方面提供了一种数据查询系统,可包括:
深度学习模型,所述深度学习模型以预设BERT模型作为编码器,并设置有解码器对所述编码器进行解码得到输出值集合,所述输出值集合包括过滤条件数量、过滤条件的字段名、过滤条件对应的操作类型、多个过滤条件的关系;
训练模块,用于采用预设样本数据对所述深度学习模型进行训练;
接收模块,用于接收客户端发送的自然语言查询语句,并采用所述深度学习模型对所述自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合;
查询模块,用于根据所述过滤条件集合在数据库中查询对应的目标数据,并返回给所述客户端。
可选的,作为一种可能的实施方式,每一条所述预设样本数据包括样本ID、自然语言问句、过滤条件的字段名及过滤条件集合,本发明实施例中的数据查询系统,还可以包括:
信息增强模块,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设词典中是否存在与所述预设词语的相似度大于阈值的目标词语,若存在,则在预设样本数据中记录所述目标词语对应的字段作为过滤条件的字段名;
同义词词典模块,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设同义词典中是否存在与所述预设词语的相似度大于阈值的同义词语,若存在,则采用所述同义词语替换所述预设词语。
可选的,作为一种可能的实施方式,本发明实施例中的数据查询系统,还可以包括:
分析模块,用于采用依存句法分析算法对所述自然语言查询语句进行分析计算得到自然语言查询语句中词汇的依存关系,并根据所述依存关系对所述过滤条件集合中的过滤条件进行修正。
可选的,作为一种可能的实施方式,本发明实施例中的数据查询系统,还可以包括:
验证模块,用于对所述过滤条件集合中的字段值类型进行校验,若字段值类型与对应的目标过滤条件的取值类型不符合,则删除所述目标过滤条件。
本发明实施例第三方面提供了一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,将预设BERT模型作为编码器,并设置解码器对编码器进行解码得到输出值集合,采用预设样本数据对预设BERT模型及解码器进行训练,得到深度学习模型。当接收客户端发送的自然语言查询语句时,可以采用深度学习模型对自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合,根据过滤条件集合在数据库中查询对应的目标数据,并返回给客户端。相对于现有技术,基于自然语言实现了数据库的数据查询功能,提高了用户体验。
附图说明
图1为本发明实施例中一种数据查询方法的一个实施例示意图;
图2为本发明实施例中一种数据查询系统的一个实施例示意图;
图3为本发明实施例中一种计算机装置的一个实施例示意图。
具体实施方式
本发明实施例提供了一种数据查询方法、系统及相关设备,用于实现数据库的自然语言查询功能。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有的查询系统往往通过传统的字符串匹配方法来缓解这个问题,即用户输入关键词并选择字段名,然后利用字符串匹配的方法去数据库中匹配相应字段中的数据,最终返回相应的答案。现有的查询系统不符合用户的表达方式,有诸多限制,用户体验有待提升。
为了便于理解,下面对本发明实施例中的具体流程进行描述,请参阅图1,本发明实施例中一种数据查询方法的一个实施例可包括:
101、将预设BERT模型作为编码器,并设置解码器对编码器进行解码得到输出值集合;
BERT(Bidirectional Encoder Representations from Transformers)模型是谷歌公司推出的语言表征模型,基于Transformer的双向编码器表示。BERT模型与最近的其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。预训练的BERT表示可以通过一个额外的输出层进行微调,本发明实施例中将预设BERT模型作为编码器,并设置解码器对编码器进行解码得到输出值集合,该输出值集合包括过滤条件数量、过滤条件的字段名、过滤条件对应的操作类型、多个过滤条件的关系。
具体的,本发明实施例中可以将解码层分成了五个子模块来得到最终的输出。五个子模块可以分别为:Where-number:首先利用全连接层抽取更高级的特征,最后利用分类函数softmax来预测条件的数量;Where-col:首先利用全连接层抽取更高级的特征,最后利用分类函数softmax用来预测条件所涉及的字段名;Where-op:首先利用全连接层抽取更高级的特征,最后利用分类函数softmax用来预测字段所对应的操作,包括“=”、“>”、“<”等情况;Where-value:首先利用全连接层抽取更高级的特征,最后利用两个分类函数softmax来预测字段所对应的值的开头以及结尾位置;Where-relation:首先利用全连接层抽取更高级的特征,最后利用分类函数softmax用来预测多个条件间的关系,包括“AND”、“OR”等等。
102、采用预设样本数据对预设BERT模型及解码器进行训练,得到深度学习模型;
在设置BERT模型的解码器之后,可以采用预设样本数据对预设BERT模型及解码器组合形成的深度学习模型进行训练,得到深度学习模型。
可选的,作为一种可能的实施方式,本发明实施例中的预设样本数据可以通过如下方式,通过百度百科等网页数据采集通用领域的语料库,利用了网页中的表格数据,同时搜集了普通用户对表格中数据的各种各样的问法,由SQL专家来对数据进行标注生成预设样本数据。例如,可以收集通用领域的语料库规模为60000条样本,其中50000条用做训练集,剩下的10000条为验证集。每一条样本数据可以包括样本ID、自然语言问句、过滤条件的字段名及过滤条件集合等,举例如下:
{样本id:“A0001”,
问题:“天猫19年双十一的成交额有多少?”,
过滤条件:时间=“2019.11.11”}。
103、接收客户端发送的自然语言查询语句,并采用深度学习模型对自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合;
在完成机器学习训练,得到深度学习模型之后,客户端可以基于预设的交互界面接收到用户输入的自然语言查询语句,进而数据查询系统可以接收客户端发送的自然语言查询语句,并采用深度学习模型对自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合,该过滤条件集合中可以包含一个或多个过滤条件,具体此处不做限定。
104、根据过滤条件集合在数据库中查询对应的目标数据,并返回给客户端。
在获取到过滤条件集合之后,数据查询系统可以根据过滤条件集合中的过滤条件查询对应的目标数据,并返回给客户端。
优选的,本发明实施例中为数据库中每一种类型的数据配置一种专属的交互界面,建立该交互界面与预设数据表单的映射关系,在获取到自然语言查询语句的过滤条件集合之后,可以根据映射关系查询该自然语言查询语句的交互界面对应的预设数据表单,直接在预设数据表单中查询满足过滤条件集合的目标数据,以提高查询效率。
本发明实施例中,将预设BERT模型作为编码器,并设置解码器对编码器进行解码得到输出值集合,采用预设样本数据对预设BERT模型及解码器进行训练,得到深度学习模型。当接收客户端发送的自然语言查询语句时,可以采用深度学习模型对自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合,根据过滤条件集合在数据库中查询对应的目标数据,并返回给客户端。相对于现有技术,基于自然语言实现了数据库的数据查询功能,提高了用户体验。
实际运用中,基于机器学习的模型训练中,样本数据的处理可以直接影响训练之后的模型输出结果的准确性。为了进一步提高BERT模型输出结果的准确性,本发明实施例可以对采集到的语料库进行预处理得到更加完善的样本数据,具体可以有以下两种方式。
在上述图1所示的实施例的基础上,本发明实施例中一种数据查询方法的另一个实施例中,在采用预设样本数据对预设BERT模型进行训练之前,方法还可以包括:
当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设词典中是否存在与预设词语的相似度大于阈值的目标词语,若存在,则在预设样本数据中记录目标词语对应的字段作为过滤条件的字段名;
样本数据中的某些字段所对应的值具有在一定范围内或者可枚举完成的特征,为了能够利用到这些特征信息,该模块为某些字段构建了词典信息。接着,可以通过相似度计算方法(如余弦距离、TF-IDF等),将与问题最为相近的字段名作为过滤条件的一个字段名,达到信息增强的目的,提高模型训练效率。可选的,本发明实施例中可以为一个训练样本或一类训练样本设置一张表格记录其采用的字段及字段值。
例如,在费用报销单查询场景中,费用报销单有“报销日期”、“部门”、“状态”等字段名。本发明实施例可以构造字段“部门”的词典,其中词典的值包括“杭州分公司”、“苏州分公司”、“北京分公司”等。当用户输入“杭州分公司的报销单有哪些”时,信息增强模块利用相似度计算方法,将“杭州分公司”与“部门”匹配,将“杭州分公司”作为字段“部门”的特征值,进而将字段“部门”作为该条样本数据中的过滤条件的一个字段,达到对数据进行预处理的目的。
在上述图1所示的实施例的基础上,本发明实施例中一种数据查询方法的另一个实施例中,在采用预设样本数据对预设BERT模型进行训练之前,方法还可以包括:当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设同义词典中是否存在与预设词语的相似度大于阈值的同义词语,若存在,则采用同义词语替换预设词语。
普通用户对于同一个问题的问法是多种多样的,为了减少这种由于问法的多样性所带来的歧义等问题,影响到最终模型过滤条件生成的质量,本发明实施例中构造了同义词词典来对用户的自然语言进行归一化。利用同义词词典,将用户的输入尽量映射为统一的、利于模型可以处理的问句,来提升模型的表现。
例如,在费用报销单查询场景中,本方案构造了同义词词典将“申请的”映射为“报销的”。当用户输入问句“我上周申请的今天审核的报销单有哪些”时,通过该模块,用户的输入会变为“我上周报销的今天审核的报销单有哪些?”。
可以理解的是,上述示出的两种对采集到的语料库进行预处理过程可以单独实施任一种,也可以同时实施两种,具体此处不作限定。
在上述实施例的基础上,为了进一步提高数据查询的准确率,本发明实施例中在深度学习模型得到过滤条件集合之后,根据过滤条件集合在数据库中查询对应的目标数据之前,还可以对过滤条件集合进行校验,具体可以包括以下两种校验方式。
在上述所示的实施例的基础上,本发明实施例中一种数据查询方法的另一个实施例中,在根据过滤条件集合在数据库中查询对应的目标数据之前,方法还包括:
采用依存句法分析算法对自然语言查询语句进行分析计算得到自然语言查询语句中词汇的依存关系,并根据依存关系对过滤条件集合中的过滤条件进行修正。
在研究中我们发现当面对复杂的用户问法时,模型的预测结果通过会出现少提取出过滤条件或无法提取出列对应过滤条件。当深度学习模型无法提取出列对应过滤条件或少提取出过滤条件时,本发明技术方案通过利用依存句法分析确定句子的句法结构或者句子中词汇之间的依存关系,以帮助纠正模型的提取结果。
例如,在费用报销单场景中,当用户输入问句“我上周提交的今天审核的报销单有哪些”,“上周”、“提交”、“今天”、“审核”这四个词语对于模型来说都是关键词,利用依存句法分析得到这些词汇的依存关系,便能够生成正确的过滤条件,即“报销日期=上周AND审核日期=今天”,基于正确的过滤条件可以校验或替换错误的过滤条件。
在上述所示的实施例的基础上,本发明实施例中一种数据查询方法的另一个实施例中,在根据过滤条件集合在数据库中查询对应的目标数据之前,方法还包括:
对过滤条件集合中的字段值类型进行校验,若字段值类型与对应的目标过滤条件的取值类型不符合,则删除目标过滤条件。
对于某些字段名,其值必须为人名或者地名等通用实体。因此,我们可以利用命名实体识别,来对模型中提取出的字段值做进一步的验证,利用这一方法可以将模型生成的错误条件进行删除。
例如,在费用报销单场景中,当用户输入问句“我上周提交的今天审核的报销单有哪些”,若模型返回“审核人=上周”的结果,该模块可以判断出“上周”并不是一个人名,因此,通过该模块可以过滤掉模型产生的错误,达到对模型结果进行后处理的目的,提高数据查询的准确率。
可以理解的是,上述示出的两种对过滤条件集合进行校验过程可以单独实施任一种,也可以同时实施两种,具体此处不作限定。
请参阅图2,本发明实施例还提供了一种数据查询系统,可包括:
深度学习模型201,深度学习模型以预设BERT模型作为编码器,并设置有解码器对编码器进行解码得到输出值集合,输出值集合包括过滤条件数量、过滤条件的字段名、过滤条件对应的操作类型、多个过滤条件的关系;
训练模块202,用于采用预设样本数据对深度学习模型进行训练;
接收模块203,用于接收客户端发送的自然语言查询语句,并采用深度学习模型对自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合;
查询模块204,用于根据过滤条件集合在数据库中查询对应的目标数据,并返回给客户端。
本发明实施例中,将预设BERT模型作为编码器,并设置解码器对编码器进行解码得到输出值集合,采用预设样本数据对预设BERT模型及解码器进行训练,得到深度学习模型。当接收客户端发送的自然语言查询语句时,可以采用深度学习模型对自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合,根据过滤条件集合在数据库中查询对应的目标数据,并返回给客户端。相对于现有技术,基于自然语言实现了数据库的数据查询功能,提高了用户体验。
可选的,作为一种可能的实施方式,每一条预设样本数据包括样本ID、自然语言问句、过滤条件的字段名及过滤条件集合,本发明实施例中的数据查询系统,还可以包括:
信息增强模块,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设词典中是否存在与预设词语的相似度大于阈值的目标词语,若存在,则在预设样本数据中记录目标词语对应的字段作为过滤条件的字段名;
同义词词典模块,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设同义词典中是否存在与预设词语的相似度大于阈值的同义词语,若存在,则采用同义词语替换预设词语。
可选的,作为一种可能的实施方式,本发明实施例中的数据查询系统,还可以包括:
分析模块,用于采用依存句法分析算法对自然语言查询语句进行分析计算得到自然语言查询语句中词汇的依存关系,并根据依存关系对过滤条件集合中的过滤条件进行修正。
可选的,作为一种可能的实施方式,本发明实施例中的数据查询系统,还可以包括:
验证模块,用于对过滤条件集合中的字段值类型进行校验,若字段值类型与对应的目标过滤条件的取值类型不符合,则删除目标过滤条件。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上面从模块化功能实体的角度对本发明实施例中的网图表编辑器进行了描述,请参阅图3,下面从硬件处理的角度对本发明实施例中的计算机装置进行描述:
该计算机装置1可以包括存储器11、处理器12和输入输出总线13。处理器11执行计算机程序时实现上述图1所示的数据查询方法实施例中的步骤,例如图1所示的步骤101至104。或者,处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。
本发明的一些实施例中,处理器具体用于实现如下步骤:
将预设BERT模型作为编码器,并设置解码器对编码器进行解码得到输出值集合,输出值集合包括过滤条件数量、过滤条件的字段名、过滤条件对应的操作类型、多个过滤条件的关系;
采用预设样本数据对预设BERT模型进行训练,得到深度学习模型;
接收客户端发送的自然语言查询语句,并采用深度学习模型对自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合;
根据过滤条件集合在数据库中查询对应的目标数据,并返回给客户端。
可选的,每一条预设样本数据包括样本ID、自然语言问句、过滤条件的字段名及过滤条件集合,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设词典中是否存在与预设词语的相似度大于阈值的目标词语,若存在,则在预设样本数据中记录目标词语对应的字段作为过滤条件的字段名;
和/或,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设同义词典中是否存在与预设词语的相似度大于阈值的同义词语,若存在,则采用同义词语替换预设词语。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
采用依存句法分析算法对自然语言查询语句进行分析计算得到自然语言查询语句中词汇的依存关系,并根据依存关系对过滤条件集合中的过滤条件进行修正。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
对过滤条件集合中的字段值类型进行校验,若字段值类型与对应的目标过滤条件的取值类型不符合,则删除目标过滤条件。
其中,存储器11至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是计算机装置1的内部存储单元,例如该计算机装置1的硬盘。存储器11在另一些实施例中也可以是计算机装置1的外部存储设备,例如计算机装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括计算机装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于计算机装置1的应用软件及各类数据,例如计算机程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行计算机程序01等。
该输入输出总线13可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。
进一步地,计算机装置还可以包括有线或无线网络接口14,网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该计算机装置1与其他电子设备之间建立通信连接。
可选地,该计算机装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的,用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在计算机装置1中处理的信息以及用于显示可视化的用户界面。
图3仅示出了具有组件11-14以及计算机程序01的计算机装置1,本领域技术人员可以理解的是,图3示出的结构并不构成对计算机装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,可以实现如下步骤:
将预设BERT模型作为编码器,并设置解码器对编码器进行解码得到输出值集合,输出值集合包括过滤条件数量、过滤条件的字段名、过滤条件对应的操作类型、多个过滤条件的关系;
采用预设样本数据对预设BERT模型进行训练,得到深度学习模型;
接收客户端发送的自然语言查询语句,并采用深度学习模型对自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合;
根据过滤条件集合在数据库中查询对应的目标数据,并返回给客户端。
可选的,每一条预设样本数据包括样本ID、自然语言问句、过滤条件的字段名及过滤条件集合,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设词典中是否存在与预设词语的相似度大于阈值的目标词语,若存在,则在预设样本数据中记录目标词语对应的字段作为过滤条件的字段名;
和/或,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设同义词典中是否存在与预设词语的相似度大于阈值的同义词语,若存在,则采用同义词语替换预设词语。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
采用依存句法分析算法对自然语言查询语句进行分析计算得到自然语言查询语句中词汇的依存关系,并根据依存关系对过滤条件集合中的过滤条件进行修正。
可选的,作为一种可能的实施方式,处理器还可以用于实现如下步骤:
对过滤条件集合中的字段值类型进行校验,若字段值类型与对应的目标过滤条件的取值类型不符合,则删除目标过滤条件。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据查询方法,其特征在于,包括:
将预设BERT模型作为编码器,并设置解码器对所述编码器进行解码得到输出值集合,所述输出值集合包括过滤条件数量、过滤条件的字段名、过滤条件对应的操作类型、多个过滤条件的关系;
采用预设样本数据对所述预设BERT模型及解码器进行训练,得到深度学习模型;
接收客户端发送的自然语言查询语句,并采用所述深度学习模型对所述自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合;
根据所述过滤条件集合在数据库中查询对应的目标数据,并返回给所述客户端。
2.根据权利要求1所述的方法,其特征在于,每一条所述预设样本数据包括样本ID、自然语言问句、过滤条件的字段名及过滤条件集合,在采用预设样本数据对所述预设BERT模型及解码器进行训练之前,所述方法还包括:
当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设词典中是否存在与所述预设词语的相似度大于阈值的目标词语,若存在,则在预设样本数据中记录所述目标词语对应的字段作为过滤条件的字段名;
和/或,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设同义词典中是否存在与所述预设词语的相似度大于阈值的同义词语,若存在,则采用所述同义词语替换所述预设词语。
3.根据权利要求1或2所述的方法,其特征在于,在根据所述过滤条件集合在数据库中查询对应的目标数据之前,所述方法还包括:
采用依存句法分析算法对所述自然语言查询语句进行分析计算得到自然语言查询语句中词汇的依存关系,并根据所述依存关系对所述过滤条件集合中的过滤条件进行修正。
4.根据权利要求1或2所述的方法,其特征在于,在根据所述过滤条件集合在数据库中查询对应的目标数据之前,所述方法还包括:
对所述过滤条件集合中的字段值类型进行校验,若字段值类型与对应的目标过滤条件的取值类型不符合,则删除所述目标过滤条件。
5.一种数据查询系统,其特征在于,包括:
深度学习模型,所述深度学习模型以预设BERT模型作为编码器,并设置有解码器对所述编码器进行解码得到输出值集合,所述输出值集合包括过滤条件数量、过滤条件的字段名、过滤条件对应的操作类型、多个过滤条件的关系;
训练模块,用于采用预设样本数据对所述深度学习模型进行训练;
接收模块,用于接收客户端发送的自然语言查询语句,并采用所述深度学习模型对所述自然语言查询语句进行处理,并根据生成的输出值集合得到过滤条件集合;
查询模块,用于根据所述过滤条件集合在数据库中查询对应的目标数据,并返回给所述客户端。
6.根据权利要求5所述的系统,其特征在于,每一条所述预设样本数据包括样本ID、自然语言问句、过滤条件的字段名及过滤条件集合,所述系统还包括:
信息增强模块,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设词典中是否存在与所述预设词语的相似度大于阈值的目标词语,若存在,则在预设样本数据中记录所述目标词语对应的字段作为过滤条件的字段名;
同义词词典模块,当识别到预设样本数据中的自然语言问句中包含预设词语时,判断预设同义词典中是否存在与所述预设词语的相似度大于阈值的同义词语,若存在,则采用所述同义词语替换所述预设词语。
7.根据权利要求5或6所述的系统,其特征在于,还包括:
分析模块,用于采用依存句法分析算法对所述自然语言查询语句进行分析计算得到自然语言查询语句中词汇的依存关系,并根据所述依存关系对所述过滤条件集合中的过滤条件进行修正。
8.根据权利要求5或6所述的系统,其特征在于,还包括:
验证模块,用于对所述过滤条件集合中的字段值类型进行校验,若字段值类型与对应的目标过滤条件的取值类型不符合,则删除所述目标过滤条件。
9.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述方法的步骤。
CN202010311841.XA 2020-04-20 2020-04-20 一种数据查询方法、系统及相关设备 Active CN111506595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010311841.XA CN111506595B (zh) 2020-04-20 2020-04-20 一种数据查询方法、系统及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010311841.XA CN111506595B (zh) 2020-04-20 2020-04-20 一种数据查询方法、系统及相关设备

Publications (2)

Publication Number Publication Date
CN111506595A true CN111506595A (zh) 2020-08-07
CN111506595B CN111506595B (zh) 2024-03-19

Family

ID=71864830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010311841.XA Active CN111506595B (zh) 2020-04-20 2020-04-20 一种数据查询方法、系统及相关设备

Country Status (1)

Country Link
CN (1) CN111506595B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036492A (zh) * 2020-09-01 2020-12-04 腾讯科技(深圳)有限公司 样本集处理方法、装置、设备及存储介质
CN112988785A (zh) * 2021-05-10 2021-06-18 浙江大学 基于语言模型编码和多任务解码的sql转换方法及系统
CN113220801A (zh) * 2021-05-17 2021-08-06 支付宝(杭州)信息技术有限公司 一种结构化数据分类方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094212A1 (en) * 2007-10-09 2009-04-09 Jon Scott Zaccagnino Natural local search engine
WO2017010652A1 (ko) * 2015-07-15 2017-01-19 포항공과대학교 산학협력단 자동질의응답 방법 및 그 장치
CN107748784A (zh) * 2017-10-26 2018-03-02 邢加和 一种通过自然语言实现结构化数据搜索的方法
CN109766355A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 一种支持自然语言的数据查询方法和系统
CN110334186A (zh) * 2019-07-08 2019-10-15 北京三快在线科技有限公司 数据查询方法、装置、计算机设备及计算机可读存储介质
CN110516244A (zh) * 2019-08-26 2019-11-29 西安艾尔洛曼数字科技有限公司 一种基于bert的句子自动填充方法
CN110888897A (zh) * 2019-11-12 2020-03-17 杭州世平信息科技有限公司 一种根据自然语言生成sql语句的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090094212A1 (en) * 2007-10-09 2009-04-09 Jon Scott Zaccagnino Natural local search engine
WO2017010652A1 (ko) * 2015-07-15 2017-01-19 포항공과대학교 산학협력단 자동질의응답 방법 및 그 장치
CN107748784A (zh) * 2017-10-26 2018-03-02 邢加和 一种通过自然语言实现结构化数据搜索的方法
CN109766355A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 一种支持自然语言的数据查询方法和系统
CN110334186A (zh) * 2019-07-08 2019-10-15 北京三快在线科技有限公司 数据查询方法、装置、计算机设备及计算机可读存储介质
CN110516244A (zh) * 2019-08-26 2019-11-29 西安艾尔洛曼数字科技有限公司 一种基于bert的句子自动填充方法
CN110888897A (zh) * 2019-11-12 2020-03-17 杭州世平信息科技有限公司 一种根据自然语言生成sql语句的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036492A (zh) * 2020-09-01 2020-12-04 腾讯科技(深圳)有限公司 样本集处理方法、装置、设备及存储介质
CN112036492B (zh) * 2020-09-01 2024-02-02 腾讯科技(深圳)有限公司 样本集处理方法、装置、设备及存储介质
CN112988785A (zh) * 2021-05-10 2021-06-18 浙江大学 基于语言模型编码和多任务解码的sql转换方法及系统
CN113220801A (zh) * 2021-05-17 2021-08-06 支付宝(杭州)信息技术有限公司 一种结构化数据分类方法、装置、设备及介质
CN113220801B (zh) * 2021-05-17 2022-07-29 支付宝(杭州)信息技术有限公司 一种结构化数据分类方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111506595B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN110502608B (zh) 基于知识图谱的人机对话方法及人机对话装置
CN109359175B (zh) 电子装置、诉讼数据处理的方法及存储介质
CN107833603B (zh) 电子病历文档分类方法、装置、电子设备及存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN111506595A (zh) 一种数据查询方法、系统及相关设备
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN106649557B (zh) 一种缺陷报告与邮件列表语义关联挖掘方法
CN109522397B (zh) 信息处理方法及装置
CN113283238B (zh) 文本数据处理的方法和装置、电子设备和存储介质
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN110046356A (zh) 标签嵌入在微博文本情绪多标签分类中的应用研究
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
CN113806548A (zh) 基于深度学习模型的信访要素抽取方法及抽取系统
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN116775639A (zh) 数据处理方法、存储介质及电子设备
CN114996360B (zh) 数据分析方法、系统、可读存储介质及计算机设备
CN110555212A (zh) 基于自然语言处理的文档校验方法、装置和电子设备
CN110287396A (zh) 文本匹配方法及装置
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN115587244A (zh) 一种用户兴趣维度采集与推荐方法、装置、设备及存储介质
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant