CN109241259B - 基于er模型的自然语言查询方法、装置及系统 - Google Patents

基于er模型的自然语言查询方法、装置及系统 Download PDF

Info

Publication number
CN109241259B
CN109241259B CN201810974201.XA CN201810974201A CN109241259B CN 109241259 B CN109241259 B CN 109241259B CN 201810974201 A CN201810974201 A CN 201810974201A CN 109241259 B CN109241259 B CN 109241259B
Authority
CN
China
Prior art keywords
data
recognition
query
model
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810974201.XA
Other languages
English (en)
Other versions
CN109241259A (zh
Inventor
顾杨青
马晓东
车伟
张军民
蔡冬阳
白锐
张凯敏
何平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd filed Critical Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority to CN201810974201.XA priority Critical patent/CN109241259B/zh
Publication of CN109241259A publication Critical patent/CN109241259A/zh
Application granted granted Critical
Publication of CN109241259B publication Critical patent/CN109241259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于ER模型的自然语言查询方法、装置及系统,所述查询方法包括:接收客户端输入的关键字;对所述关键字进行意图识别,得到意图识别结果;根据意图识别结果,返回关键字命中的数据条目;接收客户端在所述关键字命中的数据条目中选择的目标条目;根据ER模型,在数据库中查找与所述目标条目关联的数据内容;返回查找到的数据内容,作为查询结果。本发明基于自然语言识别与ER模型技术进行信息检索,从用户输入的自然语言中识别出意图,从企业众多的数据库中定位、组织相应数据,提供数据内容给使用者,降低数据使用的门槛和提升使用效率。

Description

基于ER模型的自然语言查询方法、装置及系统
技术领域
本发明涉及信息管理技术应用领域,特别涉及一种基于ER模型的自然语言查询方法、装置及系统。
背景技术
随着数字化的蓬勃发展,企业各类数据正爆炸式增长。但往往看到的情况是,由于数据以不同形式散布在不同的系统之中。当员工去寻找数据的时候,往往在克服企业内部沟通障碍后,依然难以有效运用数据。这是由于以下几个方面的原因造成的:第一、数据量庞大,无法全面查询信息;第二、数据分散在不同系统,需要对系统全面熟悉;第三、面对具体业务问题,具体支持的数据不知从哪里获取;第四、信息系统经常定期升级,需要员工定期学习和掌握;第五、系统本身的部署和应用需要较长周期。
与此相对应的是,通过百度谷歌等搜索引擎快速检索信息已经成为一种很普遍的行为,但是,针对企业应用系统与互联网搜索有着巨大不同,企业搜索产品对核心技术的要求更高。搜索速度要更快,结果要更准确,支持不同类文档和媒体,同时要求部署便捷,与企业已有的信息系统、知识库系统融合,还要注意安全防范和隐私保护。而目前对于企业级数据尚缺少类似的便于自然语言的整体搜索解决方案。
发明内容
为了解决现有技术的问题,本发明提供了一种基于ER模型的自然语言查询方法、装置及系统,本发明通过基于自然语言的语义搜索,帮助业务人员,快速从数据仓库的海量数据准确定位要找的信息,技术方案如下:
一方面,本发明提供了一种基于ER模型的自然语言查询方法,包括:
接收客户端输入的关键字;
对所述关键字进行意图识别,得到意图识别结果;
根据意图识别结果,返回关键字命中的数据条目;
接收客户端在所述关键字命中的数据条目中选择的目标条目;
根据ER模型,在数据库中查找与所述目标条目关联的数据内容;
返回查找到的数据内容,作为查询结果。
进一步地,对所述关键字进行的意图识别包括NLP语义识别和字典翻译识别,其中,
所述NLP语义识别包括:对所述关键字进行分词,对分词结果进行词性标注,并按照对应预设的权重值大小进行排序,得到词性标注序列;
所述字典翻译识别包括:根据预建立的数据库字典,匹配词性标注序列中的每一个分词结果所涉及的表,其中,所述数据库字典的预建立过程包括:集合各个数据库的表结构、样本信息、解析日志和设计文档,并将其关联组织成一个可扩展的整体。
进一步地,所述根据ER模型,在数据库中查找与所述目标条目关联的数据内容包括:
条目解析,对客户端选择的目标条目进行解析,得到所述目标条目涉及的表名、字段名和表间关联信息;
数据定位,根据预建立的数据库字典中的物理数据的存储部署状态,定位选择最佳数据源;
数据查找,根据所述目标条目涉及的表名、字段名和表间关联信息,以及定位选择的最佳数据源,组装成查询语句,以发起对不同数据库的查询;
关联组织,根据数据查找后返回的查询结果进行数据组织,包括行数据的链接及数据的合并。
进一步地,所述意图识别还包括图谱关系查找识别,所述图谱关系查找识别包括为分词结果匹配概念实体、关系查找、属性查找及递归深度查找中的一种或多种。
进一步地,所述意图识别还包括数据关系识别和用户偏好识别,其中,
所述数据关系识别包括:根据分词结果所涉及的表,结合预建立的数据库字典中的数据关系信息,进行递归查找,输出多层数据关联关系的数据条目;
所述用户偏好识别包括:根据命中的条目数量和/或用户查询历史,计算命中条目的输出优先级。
进一步地,所述关联组织后还包括脱敏控制,完成数据组织后,对敏感数据进行脱敏保护,将脱敏后的结果返回至客户端。
另一方面,本发明还提供了一种基于ER模型的自然语言查询装置,包括以下模块:
关键字模块,用于接收客户端输入的关键字;
意图识别模块,用于对所述关键字进行意图识别,得到意图识别结果;
数据条目模块,用于根据意图识别结果,返回关键字命中的数据条目;
条目选择模块,用于接收客户端在所述关键字命中的数据条目中选择的目标条目;
ER模型查找模块,用于根据ER模型,在数据库中查找与所述目标条目关联的数据内容;
查询结果模块,用于返回查找到的数据内容,作为查询结果。
进一步地,所述意图识别模块包括NLP语义识别单元和字典翻译识别单元,其中,
所述NLP语义识别单元用于:对所述关键字进行分词,对分词结果进行词性标注,并按照对应预设的权重值大小进行排序,得到词性标注序列;
所述字典翻译识别单元用于:根据预建立的数据库字典,匹配词性标注序列中的每一个分词结果所涉及的表,其中,所述数据库字典的预建立过程包括:集合各个数据库的表结构、样本信息、解析日志和设计文档,并将其关联组织成一个可扩展的整体。
进一步地,所述ER模型查找模块包括:
条目解析单元,用于对客户端选择的目标条目进行解析,得到所述目标条目涉及的表名、字段名和表间关联信息;
数据定位单元,用于根据预建立的数据库字典中的物理数据的存储部署状态,定位选择最佳数据源;
数据查找单元,用于根据所述目标条目涉及的表名、字段名和表间关联信息,以及定位选择的最佳数据源,组装成查询语句,以发起对不同数据库的查询;
关联组织单元,用于根据数据查找后返回的查询结果进行数据组织,包括行数据的链接及数据的合并。
再一方面,本发明还提供了一种基于ER模型的自然语言查询系统,包括服务器、至少一个人机交互客户端、多个数据库及预建立的知识库,其中,所述服务器至少包括如上所述的自然语言查询装置,所述知识库包括公共汉语词典、行业术语库、搜索历史行为及数据库字典。
本发明提供的技术方案带来的有益效果如下:
a.可采用软件编程实现,以检索模块形式供系统调用,以达到灵活支持检索的目的,轻量部署、快捷使用;
b.可设置检索服务器,在服务器上加载检索模块,并发布为webservice方式,以提供给远程应用系统进行调用;
c.对业务人员没有知识背景要求,极大了便捷了业务人员的应用;
d.系统将查询词句反馈检索服务器,经过中文分词,关键词和er模型映射处理,最后输出可能命中条目和匹配度排序;应用系统输出可选条目,实时呈现给业务人员。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于ER模型的自然语言查询方法的流程图;
图2是本发明实施例提供的对查询关键字进行意图识别的方法流程图;
图3是本发明实施例提供的对查询关键字进行意图识别的完整方法流程图;
图4是本发明实施例提供的利用ER模型进行数据库查找的方法流程图;
图5是本发明实施例提供的基于ER模型的自然语言查询装置的模块框图;
图6是本发明实施例提供的查询装置的引擎流程图;
图7是本发明实施例提供的对NLP分词进行后续图谱关系查找识别的流程图;
图8是本发明实施例提供的根据意图识别结果返回关键字命中的数据条目的界面示意图;
图9是本发明实施例提供的根据目标条目返回关联信息的界面示意图;
图10是本发明实施例提供的对公司名称进行意图识别的实例图;
图11是图6的引擎细化路径检索流程图;
图12是本发明实施例提供的对非自然语言进行NLP语义识别的流程图;
图13是本发明实施例提供的NLP语义识别与数据库字典识别的接口示意图;
图14是本发明实施例提供的数据关系识别的信息流转图;
图15是本发明实施例提供的初始化知识库建立的过程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明的一个实施例中,提供了一种基于ER模型的自然语言查询方法,参见图1,所述方法包括以下流程:
S1、接收客户端输入的关键字;
S2、对所述关键字进行意图识别,得到意图识别结果。
当对输入的关键字进行搜索时,搜的不只是数据库表结构,需要对关键字,结合数据库关系、业务关系,猜测可能搜索的内容。其中,意图识别包括NLP语义识别和字典翻译识别,最后输出关键字可以命中的条目,参见图2,具体包括以下流程:
S21、对所述关键字进行分词,对分词结果进行词性标注,并按照对应预设的权重值大小进行排序,得到词性标注序列;
S22、根据预建立的数据库字典,匹配词性标注序列中的每一个分词结果所涉及的表,其中,所述数据库字典的预建立过程包括:集合各个数据库的表结构、样本信息、解析日志和设计文档,并将其关联组织成一个可扩展的整体。
比如输入关键词“长丰公司”,参见图10,根据NLP识别“长丰公司”是一个企业名称,转换为字段名或表名到数据字典翻译识别,发现系统有1张标准名师企业客户表和5张表包含企业名称字段,输出企业名称根据企业名称表,在表中找到企业号,根据企业号关联到订单,工单,客服等,在无IT人员的帮助下,找到各类相关数据,并输出给意图命中的数据条目。
在一个可选的实施例中,所述意图识别还包括图谱关系查找识别,参见图7,所述图谱关系查找识别包括为分词结果匹配概念实体、关系查找、属性查找及递归深度查找中的一种或多种。
在本发明的另一个可选的实施例中,所述意图识别在NLP语义识别和字典翻译识别之后还包括数据关系识别和用户偏好识别,参见图3,具体包括:
S21、NLP语义识别;
S22、字典翻译识别;
S23、根据分词结果所涉及的表,结合预建立的数据库字典中的数据关系信息,进行递归查找,输出多层数据关联关系的数据条目;
S24、根据命中的条目数量和/或用户查询历史,计算命中条目的输出优先级。
S3、根据意图识别结果,返回关键字命中的数据条目;
S4、接收客户端在所述关键字命中的数据条目中选择的目标条目;
S5、根据ER模型,在数据库中查找与所述目标条目关联的数据内容。
使用者在上一步输出的条目中,参见图8,选择某个条目之后(点击“详细”按钮),系统能够给出这个条目对应的数据内容清单,显示如图9的清单页面,根据ER模型进行翻译查询的步骤参见图4,具体包括以下流程:
S51、条目解析。
具体地,对客户端选择的目标条目进行解析,解析输入的条目所涉及到表名、字段名、关联信息,得到所述目标条目涉及的表名、字段名和表间关联信息。
S52、数据定位。
具体地,在实际的企业数据中,同一数据往往在多数据库中存在,经常按时间、安全备份等进行分库存储。数据定位需要结合数据字典中登记的数据信息和当前查询的时间范围,数据库的查询性能分配控制,根据物理数据的存储部署情况,定位到选择最佳数据源。
S53、数据查找。
根据输入条目涉及的表、字段、关联条件,以及上一步定位的数据库位置,组装成数据库的SQL语言,分别发起对不同数据库的查询。
S54、关联组织。
根据数据查找后返回的查询结果进行数据组织,包括行数据的链接及数据的合并。
在一个优选地实施例中,S54之后还包括:
S55、脱敏控制。
在进行数据查询时,对可能涉及的敏感数据启动保护措施,保护措施支持敏感字段的脱敏保护和当前使用者可看数据行集保护。完成数据组织后,对敏感数据进行脱敏保护,将脱敏后的结果返回至客户端交互界面,如图9所示。
S6、返回查找到的数据内容,作为查询结果。
另一方面,本发明还提供了一种基于ER模型的自然语言查询装置,参见图5,包括以下模块:
关键字模块510,用于接收客户端输入的关键字;
意图识别模块520,用于对所述关键字进行意图识别,得到意图识别结果;
数据条目模块530,用于根据意图识别结果,返回关键字命中的数据条目;
条目选择模块540,用于接收客户端在所述关键字命中的数据条目中选择的目标条目;
ER模型查找模块550,用于根据ER模型,在数据库中查找与所述目标条目关联的数据内容;
查询结果模块560,用于返回查找到的数据内容,作为查询结果。
进一步地,所述意图识别模块520包括NLP语义识别单元521和字典翻译识别单元522,其中,
所述NLP语义识别单元521用于:对所述关键字进行分词,对分词结果进行词性标注,并按照对应预设的权重值大小进行排序,得到词性标注序列;
所述字典翻译识别单元522用于:根据预建立的数据库字典,匹配词性标注序列中的每一个分词结果所涉及的表,其中,所述数据库字典的预建立过程包括:集合各个数据库的表结构、样本信息、解析日志和设计文档,并将其关联组织成一个可扩展的整体。
进一步地,所述ER模型查找模块550包括:
条目解析单元551,用于对客户端选择的目标条目进行解析,得到所述目标条目涉及的表名、字段名和表间关联信息;
数据定位单元552,用于根据预建立的数据库字典中的物理数据的存储部署状态,定位选择最佳数据源;
数据查找单元553,用于根据所述目标条目涉及的表名、字段名和表间关联信息,以及定位选择的最佳数据源,组装成查询语句,以发起对不同数据库的查询;
关联组织单元554,用于根据数据查找后返回的查询结果进行数据组织,包括行数据的链接及数据的合并。
再一方面,本发明还提供了一种基于ER模型的自然语言查询系统,参见图6,所述查询系统包括服务器、至少一个人机交互客户端、多个数据库及预建立的知识库,其中,所述服务器至少包括如上所述的自然语言查询装置,所述知识库包括公共汉语词典、行业术语库、搜索历史行为及数据库字典。
本发明具有轻量部署和快捷使用的特点。具体来说,本发明提供的方法可以采用软件编程实现,以检索模块形式供系统调用,以达到灵活支持检索的目的。可设置检索服务器,在服务器上加载检索模块,并发布为webservice方式,服务器可以是tomcate、iis或webspere等,检索模块通过webservice方式,可以提供给远程应用系统进行调用。本发明支持中文查询,对业务人员没有知识背景要求,极大了便捷了业务人员的应用。业务人员仅需要输入中文查询词句,应用系统将查询词句反馈检索服务器,经过中文分词,关键词和er模型映射处理,最后输出可能命中条目和匹配度排序;应用系统输出可选条目,实时呈现给业务人员。
如图6所示,人机交互界面用于使用者与查询系统进行交互,其包括3个模块:搜索页面、推荐条目清单列表和数据内容清单查看分析。用户通过搜索页面输入搜索关键字,并提交给系统,系统返回给用户推荐命中的数据条目,用户在条目列表中选中具体的条目,再提交给系统,系统后台从各个数据库查询组织数据返回给使用者,使用者查看数据内容清单进行数据查看、统计分析。知识库是对本系统的配置信息的统一存储管理,主要包括公共汉语词典、行业术语、用户的历史查询信息记录、数据库字典库。初始化完成知识库的建立,建立过程要点如下:建立公共汉语词典,通过国家发布的汉语字典库,包括常用的汉字、地名库,百家姓等信息;建立行业术语库,针对电力等行业专有名词,比如特高压、电压等术语,用于分词识别,断句使用;建立用户搜索历史行为,记录每个用户每次搜索,统计用户的搜索偏号,用于用于搜索意图识别时进行优先级控制;记录数据库字典,收集企业各个数据库的数据结构信息和设计文档,能够从各个数据库自动采集数据库表结构、样本信息、解析日志和设计文档等,将这些信息进行关联组织、稽核评估,确保每一份数据的信息完整、可靠、可信。
以一个案例对系统运行过程原理进行说明,例如:当业务人员收到客户投诉时候,要确定是否计划停电、变电器异常、区域维修限电等原因,需要分别协调多部门查询和客户相关营业系统,电力生产系统,保障运维系统等信息,关联用户近期用电历史记录、用电客服信息、用户所在区域用电状态等,然后才能分析判定客户投诉的主要原因,并提出整改解决建议。处理过程往往协同部门多,周期长,时效慢;本系统是针对如何改进这个使用场景提出的解决方案。
首先,系统初始化时,数据字典收集模块,采用AI、SQL深度解析技术实现对数据智能自动盘点。参见图15,从各个数据库自动采集数据库表结构、样本信息、解析日志和设计文档等,将这些信息进行关联组织、稽核评估,确保每一份数据的信息完整、可靠、可信。同时将这些数据转换为业务概念实体,如客户,地点,事物,事件以及他们相互之间的联系,整合不同来源的不同数据为一个可扩展的整体。
初始化完成后,当输入一个关键字进行查询的完整过程原理如图11所示,以一个查询实例为例对图11的具体说明如下:
1.1、当使用者输入关键字:“王全胜最近余额投诉”提交给意图识别模块;
1.2、提交查询关键字后,系统返回关键字命中数据条目清单,清单内容包括标题、内容描述等,按照权重进行排序。使用者可以选择条目,提交数据内容查询;
1.3、系统根据数据条目进行对数据库查询,返回数据内容,所述数据内容包括字段标题,字段说明,字段的数据。对敏感数据系统只返回脱敏后的内容,涉及到组织结构,系统只返回使用者所在机构权限范围内的数据。
2.1、查询意图识别首先进行NLP分词、词性的解析,权重的识别,如图12所示。
2.2、根据2.1的分析结果,结合数据字典进行数据字典识别,输出第一层命中的条目。参见图13,“王全胜”经过NLP识别查询的词类型是客户姓名,在经过数据字典查找匹配可以发现客户信息表存在客户姓名字段,因此可以定位出第一层命中的表对象。
2.3、根据2.2的分析结果涉及的表,结合数据字典中数据关系信息,进行递归查找发现发现相关的表,输出第N层的数据关联关系的条目。如图14所示,标号为①代表客户姓名为王全胜的账户余额,标号为②代表客户姓名为“王全胜”、投诉类型为“余额投诉”的投诉记录。
2.4、用户偏好识别。偏好识别是计算命中条目的输出优先级。优先的计算规则为:命中的条目越多,优先级越高,同等优先级下,用户历史查询越多的越高。
3.1、条目解析。对使用者提交的数据条目进行解析。解析内容包括的条目所涉及到表名、字段名、关联信息。比如当使用者提交的条目为:客户姓名为王全胜投诉类型为余额投诉的投诉记录时,系统解析出表:客户信息表,客服工单信息表,关联字段为客户信息表.客户编号=客服投诉表.客户编号。
3.2、数据定位。在实际的企业数据中,同一数据往往在多数据库中存在,经常按时间、安全备份等进行分库存储。数据定位需要结合数据字典中登记的数据信息和当前查询的时间范围,数据库的查询性能分配控制,根据物理数据的存储部署情况,定位到选择最佳数据源。比如客户表在CRM系统和数据中心存在,系统根据数据库的定位会优先定位到数据中心的表进行查询。
3.3、数据查找。在本例中,系统会先发起对客户表的查询查询条件为客户名称like王全胜数据,再得到客户名称为王全胜的客户信息记录。从记录中取出客户编号,再发起对客服工单表查询,查询条件为投诉客户编号为客户信息记录中括号编号,投诉类型为余额投诉的所有记录。
3.4、关联组织。根据3.3步查询返回的两个结果按照客户编号进行连接形成既有客户信息和投诉信息的完整记录集。
3.5、脱敏控制。对3.4的结果,对敏感数据进行脱敏保护,将脱敏后的结果返回给交互界面。
本发明基于自然语言识别与ER模型技术进行信息检索,从用户输入的自然语言中识别出意图,从企业众多的数据库中定位、组织相应数据,提供数据内容给使用者,降低数据使用的门槛和提升使用效率。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于ER模型的自然语言查询方法,其特征在于,包括:
接收客户端输入的关键字;
对所述关键字进行意图识别,得到意图识别结果,所述意图识别包括NLP语义识别、字典翻译识别、数据关系识别和用户偏好识别,其中,所述NLP语义识别包括:对所述关键字进行分词,对分词结果进行词性标注,并按照对应预设的权重值大小进行排序,得到词性标注序列;所述字典翻译识别包括:根据预建立的数据库字典,匹配词性标注序列中的每一个分词结果所涉及的表,其中,所述数据库字典的预建立过程包括:集合各个数据库的表结构、样本信息、解析日志和设计文档,并将其关联组织成一个可扩展的整体;所述数据关系识别包括:根据分词结果所涉及的表,结合预建立的数据库字典中的数据关系信息,进行递归查找,输出多层数据关联关系的数据条目;所述用户偏好识别包括:根据命中的条目数量和/或用户查询历史,计算命中条目的输出优先级;
根据意图识别结果,返回关键字命中的数据条目;
接收客户端在所述关键字命中的数据条目中选择的目标条目;
根据ER模型,在数据库中查找与所述目标条目关联的数据内容;
返回查找到的数据内容,作为查询结果。
2.根据权利要求1所述的基于ER模型的自然语言查询方法,其特征在于,所述根据ER模型,在数据库中查找与所述目标条目关联的数据内容包括:
条目解析,对客户端选择的目标条目进行解析,得到所述目标条目涉及的表名、字段名和表间关联信息;
数据定位,根据预建立的数据库字典中的物理数据的存储部署状态,定位选择最佳数据源;
数据查找,根据所述目标条目涉及的表名、字段名和表间关联信息,以及定位选择的最佳数据源,组装成查询语句,以发起对不同数据库的查询;
关联组织,根据数据查找后返回的查询结果进行数据组织,包括行数据的链接及数据的合并。
3.根据权利要求1所述的基于ER模型的自然语言查询方法,其特征在于,所述意图识别还包括图谱关系查找识别,所述图谱关系查找识别包括为分词结果匹配概念实体、关系查找、属性查找及递归深度查找中的一种或多种。
4.根据权利要求2所述的基于ER模型的自然语言查询方法,其特征在于,所述关联组织后还包括脱敏控制,完成数据组织后,对敏感数据进行脱敏保护,将脱敏后的结果返回至客户端。
5.一种基于ER模型的自然语言查询装置,其特征在于,包括以下模块:
关键字模块,用于接收客户端输入的关键字;
意图识别模块,用于对所述关键字进行意图识别,得到意图识别结果,所述意图识别包括NLP语义识别、字典翻译识别、数据关系识别和用户偏好识别,其中,所述NLP语义识别包括:对所述关键字进行分词,对分词结果进行词性标注,并按照对应预设的权重值大小进行排序,得到词性标注序列;所述字典翻译识别包括:根据预建立的数据库字典,匹配词性标注序列中的每一个分词结果所涉及的表,其中,所述数据库字典的预建立过程包括:集合各个数据库的表结构、样本信息、解析日志和设计文档,并将其关联组织成一个可扩展的整体;所述数据关系识别包括:根据分词结果所涉及的表,结合预建立的数据库字典中的数据关系信息,进行递归查找,输出多层数据关联关系的数据条目;所述用户偏好识别包括:根据命中的条目数量和/或用户查询历史,计算命中条目的输出优先级;数据条目模块,用于根据意图识别结果,返回关键字命中的数据条目;
条目选择模块,用于接收客户端在所述关键字命中的数据条目中选择的目标条目;
ER模型查找模块,用于根据ER模型,在数据库中查找与所述目标条目关联的数据内容;
查询结果模块,用于返回查找到的数据内容,作为查询结果。
6.根据权利要求5所述的基于ER模型的自然语言查询装置,其特征在于,所述意图识别模块包括NLP语义识别单元和字典翻译识别单元,其中,
所述NLP语义识别单元用于:对所述关键字进行分词,对分词结果进行词性标注,并按照对应预设的权重值大小进行排序,得到词性标注序列;
所述字典翻译识别单元用于:根据预建立的数据库字典,匹配词性标注序列中的每一个分词结果所涉及的表,其中,所述数据库字典的预建立过程包括:集合各个数据库的表结构、样本信息、解析日志和设计文档,并将其关联组织成一个可扩展的整体。
7.根据权利要求6所述的基于ER模型的自然语言查询装置,其特征在于,所述ER模型查找模块包括:
条目解析单元,用于对客户端选择的目标条目进行解析,得到所述目标条目涉及的表名、字段名和表间关联信息;
数据定位单元,用于根据预建立的数据库字典中的物理数据的存储部署状态,定位选择最佳数据源;
数据查找单元,用于根据所述目标条目涉及的表名、字段名和表间关联信息,以及定位选择的最佳数据源,组装成查询语句,以发起对不同数据库的查询;
关联组织单元,用于根据数据查找后返回的查询结果进行数据组织,包括行数据的链接及数据的合并。
8.一种基于ER模型的自然语言查询系统,其特征在于,包括服务器、至少一个人机交互客户端、多个数据库及预建立的知识库,其中,所述服务器至少包括如权利要求5-7中任意一项所述的自然语言查询装置,所述知识库包括公共汉语词典、行业术语库、搜索历史行为及数据库字典。
CN201810974201.XA 2018-08-24 2018-08-24 基于er模型的自然语言查询方法、装置及系统 Active CN109241259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810974201.XA CN109241259B (zh) 2018-08-24 2018-08-24 基于er模型的自然语言查询方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810974201.XA CN109241259B (zh) 2018-08-24 2018-08-24 基于er模型的自然语言查询方法、装置及系统

Publications (2)

Publication Number Publication Date
CN109241259A CN109241259A (zh) 2019-01-18
CN109241259B true CN109241259B (zh) 2021-01-05

Family

ID=65067958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810974201.XA Active CN109241259B (zh) 2018-08-24 2018-08-24 基于er模型的自然语言查询方法、装置及系统

Country Status (1)

Country Link
CN (1) CN109241259B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918453B (zh) * 2019-02-13 2021-03-12 中国三峡建设管理有限公司 一种以自然语言搜索关系型复杂管理信息系统数据的方法及系统
US11086861B2 (en) * 2019-06-20 2021-08-10 International Business Machines Corporation Translating a natural language query into a formal data query
CN111400340B (zh) * 2020-03-12 2024-01-09 杭州城市大数据运营有限公司 一种自然语言处理方法、装置、计算机设备和存储介质
CN112131016A (zh) * 2020-09-15 2020-12-25 北京值得买科技股份有限公司 应用程序内部数据处理方法、装置及设备
CN113515550B (zh) * 2021-04-14 2023-01-03 上海易校信息科技有限公司 一种在应用/系统间进行关联和筛选数据的方法
CN116701437B (zh) * 2023-08-07 2023-10-20 上海爱可生信息技术股份有限公司 数据转化方法、数据转化系统、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN103218463A (zh) * 2012-12-31 2013-07-24 威盛电子股份有限公司 检索方法、检索系统以及自然语言理解系统
CN103646032A (zh) * 2013-11-11 2014-03-19 漆桂林 一种基于本体和受限自然语言处理的数据库查询方法
CN104252451A (zh) * 2013-06-25 2014-12-31 上海能感物联网有限公司 汉语自然语文本遥控查询指路机信息的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720674B2 (en) * 2004-06-29 2010-05-18 Sap Ag Systems and methods for processing natural language queries
KR20180055189A (ko) * 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
CN103218463A (zh) * 2012-12-31 2013-07-24 威盛电子股份有限公司 检索方法、检索系统以及自然语言理解系统
CN104252451A (zh) * 2013-06-25 2014-12-31 上海能感物联网有限公司 汉语自然语文本遥控查询指路机信息的方法
CN103646032A (zh) * 2013-11-11 2014-03-19 漆桂林 一种基于本体和受限自然语言处理的数据库查询方法

Also Published As

Publication number Publication date
CN109241259A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109241259B (zh) 基于er模型的自然语言查询方法、装置及系统
US8862458B2 (en) Natural language interface
US11789952B2 (en) Ranking enterprise search results based on relationships between users
US9569506B2 (en) Uniform search, navigation and combination of heterogeneous data
US20200073953A1 (en) Ranking Entity Based Search Results Using User Clusters
CA2723204C (en) Statistical measure and calibration of search criteria where one or both of the search criteria and database is incomplete
CA2772746C (en) Trusted query system and method
US7949654B2 (en) Supporting unified querying over autonomous unstructured and structured databases
US8489573B2 (en) Search engine
EP2503477B1 (en) A system and method for contextual resume search and retrieval based on information derived from the resume repository
US20100306206A1 (en) System and method for high precision and high recall relevancy searching
US10565201B2 (en) Query processing management in a database management system
US20130124194A1 (en) Systems and methods for manipulating data using natural language commands
US20100174704A1 (en) Searching method and system
US11308177B2 (en) System and method for accessing and managing cognitive knowledge
CN112269816B (zh) 一种政务预约事项相关性检索方法
US11789931B2 (en) User-interactive defect analysis for root cause
CN103365914A (zh) 基于搜索引擎的数据库查询系统和方法
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
CN115757689A (zh) 一种信息查询系统、方法及设备
KR20140026796A (ko) 맞춤형 특허분석 서비스 시스템 및 그 방법
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
CN112183110A (zh) 一种基于数据中心的人工智能数据应用系统及应用方法
CN114707006A (zh) 一种基于数据字典的多选项智能检索方法
US20160019204A1 (en) Matching large sets of words

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant