CN113868389A - 基于自然语言文本的数据查询方法、装置及计算机设备 - Google Patents

基于自然语言文本的数据查询方法、装置及计算机设备 Download PDF

Info

Publication number
CN113868389A
CN113868389A CN202111131440.7A CN202111131440A CN113868389A CN 113868389 A CN113868389 A CN 113868389A CN 202111131440 A CN202111131440 A CN 202111131440A CN 113868389 A CN113868389 A CN 113868389A
Authority
CN
China
Prior art keywords
feature
natural language
language text
label
data table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111131440.7A
Other languages
English (en)
Inventor
王水桃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202111131440.7A priority Critical patent/CN113868389A/zh
Publication of CN113868389A publication Critical patent/CN113868389A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于自然语言文本的数据查询方法、装置及计算机设备,涉及人工智能技术领域,可解决利用自然语言进行信息搜索时,转换精确度低,容易使转换后的数据库执行语言存在偏差,进而导致信息的搜索结果不够精准的技术问题。包括:对数据库中的各个预设数据表进行预处理,提取出各个预设数据表的第一字特征以及第一标签特征;接收用于查询表格数据的自然语言文本,并对自然语言文本进文本特征提取,确定自然语言文本对应的第二字特征以及第二标签特征;根据各个预设数据表的第一字特征、第一标签特征,以及自然语言文本对应的第二字特征以及第二标签特征,并基于预设筛选规则在预设数据表中筛选与自然语言文本匹配度最高的目标数据表。

Description

基于自然语言文本的数据查询方法、装置及计算机设备
技术领域
本申请涉及人工智能技术领域,尤其涉及到一种基于自然语言文本的数据查询方法、装置及计算机设备。
背景技术
随着数据规模的不断增大和数据开放程度的不断提高,如何提升公众,尤其是非专业人员,使用数据的能力,提供友好方便的查询检索服务,成为有待解决的关键问题。这一问题的研究对于推进我国数据开放进程、推进大数据发展具有重要意义。
自然语言是人们表达需求的自然形式,若能将自然语言查询自动转换为查询语句,可方便的满足用户的查询需求。然而,自然语言在表达上的模糊性和抽象性与结构化查询语言的准确性、确定性为准确的查询转换带来了极大挑战。
在基于用户输入的自然语言进行信息搜索的过程中,现有的处理思路往往是通过某种算法建立一个直接从纯自然语言到数据库(如:SQL)执行语言的映射关系,通过该映射关系就可以将自然语言直接转化为数据库执行语言,从而完成信息搜索。然而这种方式没有体现深层的语义信息,往往会存在转换精确度不够的问题,即可能导致转换后的数据库执行语言存在偏差,进而导致信息的搜索结果不够精准。
发明内容
有鉴于此,本申请提供了一种基于自然语言文本的数据查询方法、装置及计算机设备,可用于解决利用自然语言进行信息搜索时,存在转换精确度不够的问题,可能导致转换后的数据库执行语言存在偏差,进而导致信息的搜索结果不够精准的技术问题。
根据本申请的一个方面,提供了一种基于自然语言文本的数据查询方法,该方法包括:
对数据库中的各个预设数据表进行预处理,提取出各个所述预设数据表的第一字特征以及第一标签特征,其中,所述第一字特征为对所述预设数据表进行切词处理后得到的第一维度下的特征,所述第一标签特征为对所述预设数据表进行标签数据提取后得到的第二维度下的特征;
接收用于查询表格数据的自然语言文本,并对所述自然语言文本进文本特征提取,确定所述自然语言文本对应的第二字特征以及第二标签特征,其中,所述第二字特征为按照预设分词技术对所述自然语言文本进行切词处理后,得到的所述第一维度下的特征,所述第二标签特征为利用训练完成的标签特征提取模型在所述自然语言文本中提取的所述第二维度下的特征;
根据各个所述预设数据表的所述第一字特征、所述第一标签特征,以及所述自然语言文本对应的所述第二字特征以及所述第二标签特征,并基于预设筛选规则在所述预设数据表中筛选与所述自然语言文本匹配度最高的目标数据表。
根据本申请的另一个方面,提供了一种基于自然语言文本的数据查询装置,该装置包括:
提取模块,用于对数据库中的各个预设数据表进行预处理,提取出各个所述预设数据表的第一字特征以及第一标签特征,其中,所述第一字特征为对所述预设数据表进行切词处理后得到的第一维度下的特征,所述第一标签特征为对所述预设数据表进行标签数据提取后得到的第二维度下的特征;
确定模块,用于接收用于查询表格数据的自然语言文本,并对所述自然语言文本进文本特征提取,确定所述自然语言文本对应的第二字特征以及第二标签特征,其中,所述第二字特征为按照预设分词技术对所述自然语言文本进行切词处理后,得到的所述第一维度下的特征,所述第二标签特征为利用训练完成的标签特征提取模型在所述自然语言文本中提取的所述第二维度下的特征;
筛选模块,用于根据各个所述预设数据表的所述第一字特征、所述第一标签特征,以及所述自然语言文本对应的所述第二字特征以及所述第二标签特征,并基于预设筛选规则在所述预设数据表中筛选与所述自然语言文本匹配度最高的目标数据表。
根据本申请的又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于自然语言文本的数据查询方法。
根据本申请的再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于自然语言文本的数据查询方法。
借由上述技术方案,本申请提供的一种基于自然语言文本的数据查询方法、装置及计算机设备,与目前利用自然语言进行信息搜索的实现方式相比,本申请可首先对数据库中的各个预设数据表进行预处理,提取出各个预设数据表的第一字特征以及第一标签特征;进而在接收到用于查询表格数据的自然语言文本后,对自然语言文本进文本特征提取,确定出自然语言文本对应的第二字特征以及第二标签特征,其中,第一字特征和第二特征同属于第一维度下的特征,第一标签特征和第二标签特征同属于第二维度下的特征;最后,可利用各个预设数据表的第一字特征以及自然语言文本对应的第二字特征进行第一维度下的特征匹配,利用各个预设数据表的第一标签特征以及自然语言文本对应的第二标签特征进行第二维度下的特征匹配;进而根据两个维度下的特征匹配结果,在预设数据表中筛选出与自然语言文本匹配度最高的目标数据表。通过本申请中的技术方案,可通过双重特征匹配的方式,筛选出与自然语言文本在字特征维度以及标签特征维度匹配的目标数据表。通过字特征的匹配,可进一步提高特征匹配的速度,并且使用标签特征还可增加模型的语义信息,使其更符合数据表的结构化形式蕴含的语义特征,进而能够保证信息搜索结果的精准度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于自然语言文本的数据查询方法的流程示意图;
图2示出了本申请实施例提供的另一种基于自然语言文本的数据查询方法的流程示意图;
图3示出了本申请实施例提供的一种基于自然语言文本的数据查询装置的结构示意图;
图4示出了本申请实施例提供的另一种基于自然语言文本的数据查询装置的结构示意图。
具体实施方式
本申请实施例可以基于人工智能技术实现基于自然语言文本对数据的智能化查询。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在依据自然语言进行信息搜索时,存在转换精确度不够的问题,可能导致转换后的数据库执行语言存在偏差,进而导致信息的搜索结果不够精准的技术问题,本申请提供了一种基于自然语言文本的数据查询方法,如图1所示,该方法包括:
101、对数据库中的各个预设数据表进行预处理,提取出各个预设数据表的第一字特征以及第一标签特征。
其中,第一字特征为对预设数据表进行切词处理后得到的第一维度下的特征,第一标签特征为对预设数据表进行标签数据提取后得到的第二维度下的特征。
本申请中的技术方案可应用于数据自主查询,问答服务等人机交互场景中,旨在通过用户自然语言的输入,实现对机器人数据库执行语句的精准化生成,并使机器人能够响应于数据库执行语句为用户反馈执行相应的交互操作。在本申请的实施例中,以数据查询为例对本申请中的技术方案进行说明。
在本实施例中,具体可应用于表格问答服务,当表格问答服务启动时,首先需要预处理数据库中的预设数据表,将每张数据表的字特征和标签特征提取出来,用字典的方式写入内存中,以便后续能够根据自然语言文本进行相关数据表的及时反馈,不再需要一问一加载,能够实现实时问答响应的效果。
对于本实施例的执行主体可为基于自然语言文本的数据查询装置,可配置在客户端侧或服务端侧,可首先对数据库中的各个预设数据表进行预处理,提取出各个预设数据表的第一字特征以及第一标签特征,并存储至内存中;在接收到用于查询表格数据的自然语言文本后,对自然语言文本进文本特征提取,确定出自然语言文本对应的第二字特征以及第二标签特征;进而基于第一字特征、第一标签特征,以及第二字特征以及第二标签特征,在预设数据表中筛选出与自然语言文本匹配度最高的目标数据表。
102、接收用于查询表格数据的自然语言文本,并对自然语言文本进文本特征提取,确定自然语言文本对应的第二字特征以及第二标签特征。
其中,自然语言文本可包括用户在对话框输入的文本数据,还可包括用户通过语音输入或图片输入,系统对输入语音以及输入图片进行文本转化处理后得到的文本数据等;第二字特征为按照预设分词技术对自然语言文本进行切词处理后,得到的第一维度下的特征,第二标签特征为利用训练完成的标签特征提取模型在自然语言文本中提取的第二维度下的特征。
在具体的应用场景中,系统在接收到用户的上传数据后,可首先提取上传数据的数据类型,并根据不同的数据类型采取不同的文本转化方案。当数据类型为文本类型时,可首先对上传数据进行识别,进一步将上传数据中出现的相关字符、不同语种、繁体字替换为标准的汉语简体表达,以方便后续对上传数据的特征提取;当数据类型为语音类型时,由于地域的差别,往往会导致上传数据在转换为文本形式时,出现大量的方言或者俚语,进而容易影响特征提取结果,故针对语音类型的上传数据,可首先利用语言转换工具对上传数据进行校准处理,将不标准的普通话转换为标准的普通话,进而生成标准的转化文本;当数据类型为图片类型时,可首先对图片类型的上传数据进行文本提取,具体可应用于现有的图片文本提取技术,如光学字符识别(Optical Character Recognition,OCR)。对于校准后的文本类型的自然语言文本、或由语音类型或图片类型的输入数据转化后的自然语言文本,可进一步执行本实施例步骤,进行文本特征的提取,确定出自然语言文本对应的第二字特征以及第二标签特征。
103、根据各个预设数据表的第一字特征、第一标签特征,以及自然语言文本对应的第二字特征以及第二标签特征,并基于预设筛选规则在预设数据表中筛选与自然语言文本匹配度最高的目标数据表。
其中,预设筛选规则为将各个预设数据表的第一字特征以及自然语言文本对应的第二字特征进行第一维度下的特征匹配,将各个预设数据表的第一标签特征以及自然语言文本对应的第二标签特征进行第二维度下的特征匹配;进而根据两个维度下的特征匹配结果,筛选出与自然语言文本特征匹配度最高的预设数据表作为目标数据表。
对于本实施例,可将字特征和标签特征作为两个独立的特征分析维度,分别计算自然语言文本与各个预设数据表的特征相似度,并根据两种维度下特征相似度的整合,得到最终各个预设数据表和自然语言文本特征匹配度,进而从预设数据表中筛选与自然语言文本匹配度最高的目标数据表。
通过本实施例中基于自然语言文本的数据查询方法,可首先对数据库中的各个预设数据表进行预处理,提取出各个预设数据表的第一字特征以及第一标签特征;进而在接收到用于查询表格数据的自然语言文本后,对自然语言文本进文本特征提取,确定出自然语言文本对应的第二字特征以及第二标签特征,其中,第一字特征和第二特征同属于第一维度下的特征,第一标签特征和第二标签特征同属于第二维度下的特征;最后,可利用各个预设数据表的第一字特征以及自然语言文本对应的第二字特征进行第一维度下的特征匹配,利用各个预设数据表的第一标签特征以及自然语言文本对应的第二标签特征进行第二维度下的特征匹配;进而根据两个维度下的特征匹配结果,在预设数据表中筛选出与自然语言文本匹配度最高的目标数据表。通过本申请中的技术方案,可通过双重特征匹配的方式,筛选出与自然语言文本在字特征维度以及标签特征维度匹配的目标数据表。通过字特征的匹配,可进一步提高特征匹配的速度,并且使用标签特征还可增加模型的语义信息,使其更符合数据表的结构化形式蕴含的语义特征,进而能够保证信息搜索结果的精准度。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种基于自然语言文本的数据查询方法,如图2所示,该方法包括:
201、利用训练完成的N元模型对数据库中各个预设数据表内的数据进行切词划分,得到第一字特征。
其中,N元模型的切词策略是将训练好的N-gram模型进行路径计算得到最优切分策略路径。绝大多数句子由于歧义的存在,肯定会有多种切分路径,之前的最大匹配算法就是就是用一种贪婪的规则方式选择最优的路径,N-gram模型则是用统计得到的先验概率来得到概率最大的路径。在本申请中,具体可使用1-gram模型对各个预设数据表内的数据进行切词划分,将数据库中各个预设数据表输入1-gram模型中,即可得到表格内数据对应的第一字特征。对于本实施例,对文本划分时,采用逐字划分的方式,将每个划分得到的文本字符作为一个独立的字特征,可略去N-gram复杂的扫描过程,提高特征匹配的速度。例如“南京市长江大桥”的划分结果为[“南”,“京”,“市”,“长”,“江”,“大”,“桥”]。
以下述的天气表为例:
Figure BDA0003280614660000071
Figure BDA0003280614660000081
可提取出第一字特征:{天气表:{深,圳,市,广,州,市,2019.1.1,2019.1.1,16℃,11℃,9℃,10℃,阴,小,雨,东,北,风,3级,2级,优,良}}。
202、提取预设数据表对应的表头数据,并将表头数据确定为第一标签特征。
对于本实施例,鉴于数据库中存储的是结构化的数据,每个值都会归属于某个表的某一列,其实也是一种隐性的语义分类,故在提取预设数据表对应的第一标签特征时,可直接将预设数据表中的表头数据确定为第一标签特征。例如,对于实施例步骤201中的天气表,可提取出第一标签特征:{天气表:{地区,时间,最高温度,最低温度,天气,风向,风力,空气指数}}。
203、接收用于查询表格数据的自然语言文本,并基于预设分词技术将自然语言文本切分为第一词语,并得到第一词序列。
在具体的应用场景中,系统在接收到用户的上传数据后,可首先提取上传数据的数据类型,并根据不同的数据类型采取不同的文本转化方案,以得到用于查询表格数据的自然语言文本,具体文本转化方法可参考实施例步骤102中的相关描述,在此不再赘述。
相应的,对于本实施例,在接收用于查询表格数据的自然语言文本后,可首先基于预设分词技术或应用1-gram模型对自然语言文本进行切词处理。在基于预设分词技术对自然语言文本进行切词处理时,可利用现有的切词工具(如CRF分词器)对输入文本进行词语切分,得到各个独立的第一词语以及分词后的第一词序列,其中,每个第一词语标记有对应的目标词性。具体的,在获取自然语言文本后,需要对自然语言文本进行切词处理,并生成一个词序列,各个第一词语作为词序列中的元素,按照在自然语言文本中的出现位置依次排列,进一步得到第一词序列,其中,对应第一词序列的格式为:[词1,词2,词3,…词N]。
204、基于第一词语的目标词性确定与预设停用词性匹配的第二词语,以便从第一词序列中剔除第二词语,得到第二词序列,将第二词序列中的第一词语确定为自然语言文本的第二字特征。
对于本实施例,在具体的应用场景中,作为一种优选方式,为了提高特征匹配速度,在利用上述方法获取得到标记好目标词性的第一词语后,还可进一步对第一词语进行识别,剔除第一词序列中存在的一些停用词性,进一步得到仅包含有效第一词语的第二词序列。其中,预设停用词性可为语气助词、副词、介词、连接词等,这些预设停用词性通常自身并无什么明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“哎”,“哎哟”,“请”,“的”,“让”等。由于这些词很少单独表达文档相关程度的信息,且这些功能词对于特征提取基本没有什么帮助,故为了节省存储空间和提高搜索效率,可事先过滤掉这些没有意义的词。具体可基于现有的停用词词表来实现对停用词的识别与滤除,比如“百度停用词表”、“哈工大停用词表”等。例如,用户输入的自然语言为:帮我查一下下一周深圳的天气预报,基于分词技术对自然语言文本进行切词处理,可得到第一词序列:{帮,我,查,一,下,下,一,周,深,圳,的,天,气,预,报},删去停用词后可得到第二词序列,即确定出自然语言文本的第二字特征:{帮,查,下,周,深,圳,天,气,预,报}。
205、将自然语言文本输入训练完成的标签特征提取模型中,获取自然语言文本的第二标签特征。
需要说明的是,在执行本实施例步骤之前,需要预先训练标签特征提取模型。其中,标签特征提取模型可选用线性回归模型、逻辑回归模型、朴素贝叶斯模型、决策树模型、SVM(支持向量机)模型、神经网络模型、KNN模型、条件随机场(CRF)模型等。相应的,在训练标签特征提取模型时,首先需要构建训练数据集,在训练数据集中可包括与各个预设数据表查询关系匹配的问题文本,其中问题文本由辅助文本+基本句式+辅助文本组成,根据对历史问题文本的句式分析,可构建生成预设数量个基本句式下的问题文本,示意性的,基本句式可为:
基本句式一:{V}的{N},其中V是预设数据表中记录的值(第一字特征),N是预设数据表的列名(第一标签特征),如:深圳市的空气质量,加上辅助文本后:帮我查一下深圳市的空气质量如何?
基本句式二(有连词):{V1}和{V2}的{N},如:深圳市和广州市的天气。其中连词可选择【和、与、逗号、顿号、并且…】。
基本句式三(有数量词):{V}超过{N}的有多少,如:最高温度超过14℃的有多少,加上辅助文本后,最高温度超过14℃的有多少天呢?其中数量词可选择【多少、哪些、什么…】。
进而可为构建的问题文本配置对应的标签,具体可将问题文本中的V以其列名为标签,利用配置好标签的问题文本即可构建得到训练数据集。进一步的,将配置好标签的训练数据集输入标签特征提取模型中,利用训练数据集中的问题文本以及对应的标签训练标签特征提取模型,实现输入文本数据到标签的映射训练;在标签特征提取模型训练过程中,利用测试数据集对标签特征提取模型进行验证,若判定标签特征提取模型的提取精度大于预设阈值,则判定标签特征提取模型训练完成,即可投入对未知标签的自然语言文本的标签提取。
相应的,在预先训练标签特征提取模型时,实施例步骤具体可以包括:构建训练数据集,训练数据集中包括与各个预设数据表查询关系匹配的问题文本,以及与问题文本匹配的预置特征标签;将配置好特征标签的训练数据集输入标签特征提取模型中,将训练数据集中的问题文本作为输入特征,将问题文本对应的预置特征标签作为标签数据训练标签特征提取模型;获取标签特征提取模型输出的预测标签特征,并根据预置特征标签与预测标签特征计算标签特征提取模型的损失函数;若确定损失函数小于预设阈值,则判定标签特征提取模型训练完成;若确定损失函数大于或等于预设阈值,则迭代更新标签特征提取模型的模型参数,并将问题文本作为输入特征,将预置特征标签作为标签数据迭代训练更新模型参数后的标签特征提取模型,直至标签特征提取模型的损失函数小于预设阈值。
对于本实施例,在确定自然语言文本对应的第二标签特征时,可应用上述预先训练完成的标签特征提取模型提取自然语言文本所对应的标签集。例如用户输入的自然语言文本是“帮我查一下下一周深圳的天气预报”,使用标签特征提取模型,可从自然语言文本中提取出第二标签特征:{时间(下一周),地区(深圳),天气}。
206、利用第一字特征和第二字特征,计算各个预设数据表与自然语言文本的第一特征相似度。
对于本实施例,作为一种可选方式,具体的,可统计自然语言文本的第二字特征与各预设数据表的第一字特征的交集字数,并对交集字数做归一化处理,得到各个预设数据表与自然语言文本的第一特征相似度的第一聚合结果,如设为
Figure BDA0003280614660000111
每一维度对应一张表。
其中,在对每一维度进行归一化处理时,具体可将自然语言文本的第二字特征与将该维度下预设数据表的第一字特征的重合字数,除以各预设数据表对应第一字特征的字数之和,即可得到上述第一聚合结果。
相应的,实施例步骤206具体可以包括:计算各个预设数据表对应第一字特征与自然语言文本对应第二字特征的第一交集字数;并对第一交集字数进行归一化处理,得到各个预设数据表与自然语言文本的第一特征相似度。
207、根据第一标签特征和第二标签特征,计算各个预设数据表与自然语言文本的第二特征相似度。
对于本实施例,作为一种可选方式,具体的,可统计自然语言文本的第二标签特征与各预设数据表的第一标签特征的交集数量,并对交集数量做归一化处理,得到各个预设数据表与自然语言文本的第二特征相似度的第二聚合结果,如设为
Figure BDA0003280614660000112
每一维度对应一张表。
其中,在对每一维度进行归一化处理时,具体可将自然语言文本的第二标签特征与将该维度下预设数据表的第一标签特征的重合数量,除以各预设数据表对应第一标签特征的标签数量之和,即可得到上述第二聚合结果。
相应的,实施例步骤207具体可以包括:计算各个预设数据表对应第一标签特征与自然语言文本对应第二标签特征的第二交集字数;并对第二交集字数进行归一化处理,得到各个预设数据表与自然语言文本的第二特征相似度。
208、计算第一特征相似度和第二特征相似度的加和结果,并根据加和结果在预设数据表中筛选出与自然语言文本特征相似度最高的目标数据表。
对于本实施例,作为一种可选方式,可将上述第一聚合结果和第二聚合结果进行相加,得到各个预设数据表与自然语言文本关于特征相似度的第三聚合结果,进而可依据第三聚合结果筛选出与自然语言文本特征相似度最高的目标数据表。例如,将A和B相加,设为
Figure BDA0003280614660000121
再按大到小排序,取排序第一位作为预测结果,如可将目前排序最高的0.81对应维度下的预设数据表确定为与自然语言文本特征匹配的目标数据表。
相应的,实施例步骤208具体可以包括:确定各个预设数据表与自然语言文本关于第一特征相似度的第一聚合结果;确定各个预设数据表与自然语言文本关于第二特征相似度的第二聚合结果;依据第一聚合结果和第二聚合结果计算各个预设数据表关于第一特征相似度和第二特征相似度的加和,得到各个预设数据表与自然语言文本关于特征相似度的第三聚合结果;将第三聚合结果中对应特征相似度最高的预设数据表确定为目标数据表。
借由上述基于自然语言文本的数据查询方法,可首先对数据库中的各个预设数据表进行预处理,提取出各个预设数据表的第一字特征以及第一标签特征;进而在接收到用于查询表格数据的自然语言文本后,对自然语言文本进文本特征提取,确定出自然语言文本对应的第二字特征以及第二标签特征,其中,第一字特征和第二特征同属于第一维度下的特征,第一标签特征和第二标签特征同属于第二维度下的特征;最后,可利用各个预设数据表的第一字特征以及自然语言文本对应的第二字特征进行第一维度下的特征匹配,利用各个预设数据表的第一标签特征以及自然语言文本对应的第二标签特征进行第二维度下的特征匹配;进而根据两个维度下的特征匹配结果,在预设数据表中筛选出与自然语言文本匹配度最高的目标数据表。通过本申请中的技术方案,可通过双重特征匹配的方式,筛选出与自然语言文本在字特征维度以及标签特征维度匹配的目标数据表。通过字特征的匹配,可进一步提高特征匹配的速度,并且使用标签特征还可增加模型的语义信息,使其更符合数据表的结构化形式蕴含的语义特征,进而能够保证信息搜索结果的精准度。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种基于自然语言文本的数据查询装置,如图3所示,该装置包括:提取模块31、确定模块32、筛选模块33;
提取模块31,可用于对数据库中的各个预设数据表进行预处理,提取出各个预设数据表的第一字特征以及第一标签特征,其中,第一字特征为对预设数据表进行切词处理后得到的第一维度下的特征,第一标签特征为对预设数据表进行标签数据提取后得到的第二维度下的特征;
确定模块32,可用于接收用于查询表格数据的自然语言文本,并对自然语言文本进文本特征提取,确定自然语言文本对应的第二字特征以及第二标签特征,其中,第二字特征为按照预设分词技术对自然语言文本进行切词处理后,得到的第一维度下的特征,第二标签特征为利用训练完成的标签特征提取模型在自然语言文本中提取的第二维度下的特征;
筛选模块33,可用于根据各个预设数据表的第一字特征、第一标签特征,以及自然语言文本对应的第二字特征以及第二标签特征,并基于预设筛选规则在预设数据表中筛选与自然语言文本匹配度最高的目标数据表。
在具体的应用场景中,在对数据库中的各个预设数据表进行预处理,提取各个预设数据表的第一字特征以及第一标签特征时,提取模块31,具体可用于利用训练完成的N元模型对数据库中各个预设数据表内的数据进行切词划分,得到第一字特征;提取预设数据表对应的表头数据,并将表头数据确定为第一标签特征。
相应的,在基于自然语言文本确定自然语言文本对应的第二字特征以及第二标签特征时,确定模块32,具体可用于基于预设分词技术将自然语言文本切分为第一词语,并得到第一词序列;基于第一词语的目标词性确定与预设停用词性匹配的第二词语,以便从第一词序列中剔除第二词语,得到第二词序列;将第二词序列中的第一词语确定为自然语言文本的第二字特征;将自然语言文本输入训练完成的标签特征提取模型中,获取自然语言文本的第二标签特征。
在具体的应用场景中,为了训练得到能够提取自然语言文本的第二标签特征的标签特征提取模型,如图4所示,该装置还包括:构建模块34、训练模块35、计算模块36、判定模块37、更新模块38;
构建模块34,可用于构建训练数据集,训练数据集中包括与各个预设数据表查询关系匹配的问题文本,以及与问题文本匹配的预置特征标签;
训练模块35,可用于将配置好特征标签的训练数据集输入标签特征提取模型中,将训练数据集中的问题文本作为输入特征,将问题文本对应的预置特征标签作为标签数据训练标签特征提取模型;
计算模块36,可用于获取标签特征提取模型输出的预测标签特征,并根据预置特征标签与预测标签特征计算标签特征提取模型的损失函数;
判定模块37,可用于若确定损失函数小于预设阈值,则判定标签特征提取模型训练完成;
更新模块38,可用于若确定损失函数大于或等于预设阈值,则迭代更新标签特征提取模型的模型参数,并将问题文本作为输入特征,将预置特征标签作为标签数据迭代训练更新模型参数后的标签特征提取模型,直至标签特征提取模型的损失函数小于预设阈值。
相应的,在根据各个预设数据表的第一字特征、第一标签特征,以及自然语言文本对应的第二字特征以及第二标签特征,并基于预设筛选规则在预设数据表中筛选与自然语言文本匹配度最高的目标数据表时,筛选模块33,具体可用于利用第一字特征和第二字特征,计算各个预设数据表与自然语言文本的第一特征相似度;根据第一标签特征和第二标签特征,计算各个预设数据表与自然语言文本的第二特征相似度;计算第一特征相似度和第二特征相似度的加和结果,并根据加和结果在预设数据表中筛选出与自然语言文本特征相似度最高的目标数据表。
在具体的应用场景中,在利用第一字特征和第二字特征,计算各个预设数据表与自然语言文本的第一特征相似度时,筛选模块33,具体可用于计算各个预设数据表对应第一字特征与自然语言文本对应第二字特征的第一交集字数;并对第一交集字数进行归一化处理,得到各个预设数据表与自然语言文本的第一特征相似度;
相应的,在根据第一标签特征和第二标签特征,计算各个预设数据表与自然语言文本的第二特征相似度时,筛选模块33,具体可用于计算各个预设数据表对应第一标签特征与自然语言文本对应第二标签特征的第二交集字数;并对第二交集字数进行归一化处理,得到各个预设数据表与自然语言文本的第二特征相似度。
在具体的应用场景中,在计算第一特征相似度和第二特征相似度的加和结果,并根据加和结果在预设数据表中筛选出与自然语言文本特征相似度最高的目标数据表时,筛选模块33,具体可用于确定各个预设数据表与自然语言文本关于第一特征相似度的第一聚合结果;确定各个预设数据表与自然语言文本关于第二特征相似度的第二聚合结果;依据第一聚合结果和第二聚合结果计算各个预设数据表关于第一特征相似度和第二特征相似度的加和,得到各个预设数据表与自然语言文本关于特征相似度的第三聚合结果;将第三聚合结果中对应特征相似度最高的预设数据表确定为目标数据表。
需要说明的是,本实施例提供的一种基于自然语言文本的数据查询装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种非易失性存储介质,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的基于自然语言文本的数据查询方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;非易失性存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的基于自然语言文本的数据查询方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可首先对数据库中的各个预设数据表进行预处理,提取出各个预设数据表的第一字特征以及第一标签特征;进而在接收到用于查询表格数据的自然语言文本后,对自然语言文本进文本特征提取,确定出自然语言文本对应的第二字特征以及第二标签特征,其中,第一字特征和第二特征同属于第一维度下的特征,第一标签特征和第二标签特征同属于第二维度下的特征;最后,可利用各个预设数据表的第一字特征以及自然语言文本对应的第二字特征进行第一维度下的特征匹配,利用各个预设数据表的第一标签特征以及自然语言文本对应的第二标签特征进行第二维度下的特征匹配;进而根据两个维度下的特征匹配结果,在预设数据表中筛选出与自然语言文本匹配度最高的目标数据表。通过本申请中的技术方案,可通过双重特征匹配的方式,筛选出与自然语言文本在字特征维度以及标签特征维度匹配的目标数据表。通过字特征的匹配,可进一步提高特征匹配的速度,并且使用标签特征还可增加模型的语义信息,使其更符合数据表的结构化形式蕴含的语义特征,进而能够保证信息搜索结果的精准度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种基于自然语言文本的数据查询方法,其特征在于,包括:
对数据库中的各个预设数据表进行预处理,提取出各个所述预设数据表的第一字特征以及第一标签特征,其中,所述第一字特征为对所述预设数据表进行切词处理后得到的第一维度下的特征,所述第一标签特征为对所述预设数据表进行标签数据提取后得到的第二维度下的特征;
接收用于查询表格数据的自然语言文本,并对所述自然语言文本进文本特征提取,确定所述自然语言文本对应的第二字特征以及第二标签特征,其中,所述第二字特征为按照预设分词技术对所述自然语言文本进行切词处理后,得到的所述第一维度下的特征,所述第二标签特征为利用训练完成的标签特征提取模型在所述自然语言文本中提取的所述第二维度下的特征;
根据各个所述预设数据表的所述第一字特征、所述第一标签特征,以及所述自然语言文本对应的所述第二字特征以及所述第二标签特征,并基于预设筛选规则在所述预设数据表中筛选与所述自然语言文本匹配度最高的目标数据表。
2.根据权利要求1所述的方法,其特征在于,所述对数据库中的各个预设数据表进行预处理,提取出各个所述预设数据表的第一字特征以及第一标签特征,包括:
利用训练完成的N元模型对数据库中各个预设数据表内的数据进行切词划分,得到第一字特征;
提取所述预设数据表对应的表头数据,并将所述表头数据确定为第一标签特征。
3.根据权利要求1所述的方法,其特征在于,所述对所述自然语言文本进文本特征提取,确定所述自然语言文本对应的第二字特征以及第二标签特征,包括:
基于预设分词技术将所述自然语言文本切分为第一词语,并得到第一词序列;
基于所述第一词语的目标词性确定与预设停用词性匹配的第二词语,以便从所述第一词序列中剔除所述第二词语,得到第二词序列;
将所述第二词序列中的第一词语确定为所述自然语言文本的第二字特征;
将所述自然语言文本输入训练完成的标签特征提取模型中,获取所述自然语言文本的第二标签特征。
4.根据权利要求3所述的方法,其特征在于,在将所述自然语言文本输入训练完成的标签特征提取模型中,获取所述自然语言文本的第二标签特征之前,还包括:
构建训练数据集,所述训练数据集中包括与各个所述预设数据表查询关系匹配的问题文本,以及与所述问题文本匹配的预置特征标签;
将配置好特征标签的训练数据集输入标签特征提取模型中,将所述训练数据集中的问题文本作为输入特征,将所述问题文本对应的预置特征标签作为标签数据训练所述标签特征提取模型;
获取所述标签特征提取模型输出的预测标签特征,并根据所述预置特征标签与所述预测标签特征计算所述标签特征提取模型的损失函数;
若确定所述损失函数小于预设阈值,则判定所述标签特征提取模型训练完成;
若确定所述损失函数大于或等于预设阈值,则迭代更新所述标签特征提取模型的模型参数,并将所述问题文本作为输入特征,将所述预置特征标签作为标签数据迭代训练更新模型参数后的标签特征提取模型,直至所述标签特征提取模型的损失函数小于预设阈值。
5.根据权利要求1所述的方法,其特征在于,所述根据各个所述预设数据表的所述第一字特征、所述第一标签特征,以及所述自然语言文本对应的所述第二字特征以及所述第二标签特征,并基于预设筛选规则在所述预设数据表中筛选与所述自然语言文本匹配度最高的目标数据表,包括:
利用所述第一字特征和所述第二字特征,计算各个所述预设数据表与所述自然语言文本的第一特征相似度;
根据所述第一标签特征和所述第二标签特征,计算各个所述预设数据表与所述自然语言文本的第二特征相似度;
计算第一特征相似度和第二特征相似度的加和结果,并根据所述加和结果在所述预设数据表中筛选出与所述自然语言文本特征相似度最高的目标数据表。
6.根据权利要求5所述的方法,其特征在于,所述利用所述第一字特征和所述第二字特征,计算各个所述预设数据表与所述自然语言文本的第一特征相似度,包括:
计算各个所述预设数据表对应第一字特征与所述自然语言文本对应第二字特征的第一交集字数;
并对所述第一交集字数进行归一化处理,得到各个所述预设数据表与所述自然语言文本的第一特征相似度;
所述根据所述第一标签特征和所述第二标签特征,计算各个所述预设数据表与所述自然语言文本的第二特征相似度,包括:
计算各个所述预设数据表对应第一标签特征与所述自然语言文本对应第二标签特征的第二交集字数;
并对所述第二交集字数进行归一化处理,得到各个所述预设数据表与所述自然语言文本的第二特征相似度。
7.根据权利要求5所述的方法,其特征在于,所述计算第一特征相似度和第二特征相似度的加和结果,并根据所述加和结果在所述预设数据表中筛选出与所述自然语言文本特征相似度最高的目标数据表,包括:
确定各个所述预设数据表与所述自然语言文本关于所述第一特征相似度的第一聚合结果;
确定各个所述预设数据表与所述自然语言文本关于所述第二特征相似度的第二聚合结果;
依据所述第一聚合结果和所述第二聚合结果计算各个所述预设数据表关于所述第一特征相似度和所述第二特征相似度的加和,得到各个所述预设数据表与所述自然语言文本关于特征相似度的第三聚合结果;
将所述第三聚合结果中对应特征相似度最高的预设数据表确定为目标数据表。
8.一种基于自然语言文本的数据查询装置,其特征在于,包括:
提取模块,用于对数据库中的各个预设数据表进行预处理,提取出各个所述预设数据表的第一字特征以及第一标签特征,其中,所述第一字特征为对所述预设数据表进行切词处理后得到的第一维度下的特征,所述第一标签特征为对所述预设数据表进行标签数据提取后得到的第二维度下的特征;
确定模块,用于接收用于查询表格数据的自然语言文本,并对所述自然语言文本进文本特征提取,确定所述自然语言文本对应的第二字特征以及第二标签特征,其中,所述第二字特征为按照预设分词技术对所述自然语言文本进行切词处理后,得到的所述第一维度下的特征,所述第二标签特征为利用训练完成的标签特征提取模型在所述自然语言文本中提取的所述第二维度下的特征;
筛选模块,用于根据各个所述预设数据表的所述第一字特征、所述第一标签特征,以及所述自然语言文本对应的所述第二字特征以及所述第二标签特征,并基于预设筛选规则在所述预设数据表中筛选与所述自然语言文本匹配度最高的目标数据表。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的基于自然语言文本的数据查询方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于自然语言文本的数据查询方法。
CN202111131440.7A 2021-09-26 2021-09-26 基于自然语言文本的数据查询方法、装置及计算机设备 Pending CN113868389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111131440.7A CN113868389A (zh) 2021-09-26 2021-09-26 基于自然语言文本的数据查询方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111131440.7A CN113868389A (zh) 2021-09-26 2021-09-26 基于自然语言文本的数据查询方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN113868389A true CN113868389A (zh) 2021-12-31

Family

ID=78990864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111131440.7A Pending CN113868389A (zh) 2021-09-26 2021-09-26 基于自然语言文本的数据查询方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN113868389A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252183A (zh) * 2023-10-07 2023-12-19 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质
CN117252183B (zh) * 2023-10-07 2024-04-02 之江实验室 一种基于语义的多源表格自动匹配方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN110162627B (zh) 数据增量方法、装置、计算机设备及存储介质
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
CN111090727A (zh) 语言转换处理方法、装置及方言语音交互系统
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN113177412A (zh) 基于bert的命名实体识别方法、系统、电子设备及存储介质
CN116775847A (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN112395385A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN116523031B (zh) 语言生成模型的训练方法、语言生成方法及电子设备
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN114860942B (zh) 文本意图分类方法、装置、设备及存储介质
CN113821593A (zh) 一种语料处理的方法、相关装置及设备
CN112328773A (zh) 基于知识图谱的问答实现方法和系统
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN113868389A (zh) 基于自然语言文本的数据查询方法、装置及计算机设备
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN114722774A (zh) 数据压缩方法、装置、电子设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination