CN111651474B - 一种自然语言至结构化查询语言的转换方法及系统 - Google Patents

一种自然语言至结构化查询语言的转换方法及系统 Download PDF

Info

Publication number
CN111651474B
CN111651474B CN202010491307.1A CN202010491307A CN111651474B CN 111651474 B CN111651474 B CN 111651474B CN 202010491307 A CN202010491307 A CN 202010491307A CN 111651474 B CN111651474 B CN 111651474B
Authority
CN
China
Prior art keywords
natural language
text
structured query
input
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010491307.1A
Other languages
English (en)
Other versions
CN111651474A (zh
Inventor
徐驰
罗明宇
林健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongyun Ruilian Wuhan Computing Technology Co ltd
Original Assignee
Dongyun Ruilian Wuhan Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongyun Ruilian Wuhan Computing Technology Co ltd filed Critical Dongyun Ruilian Wuhan Computing Technology Co ltd
Priority to CN202010491307.1A priority Critical patent/CN111651474B/zh
Publication of CN111651474A publication Critical patent/CN111651474A/zh
Priority to PCT/CN2020/118904 priority patent/WO2021243903A1/zh
Priority to US17/574,582 priority patent/US20220138193A1/en
Application granted granted Critical
Publication of CN111651474B publication Critical patent/CN111651474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种自然语言至结构化查询语言的转换方法及系统,该方法包括:获取用户输入的自然语言问题文本;根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果;若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言。采用本申请实施例,能够降低结构化数据库的访问门槛,方便非技术人员直接查询使用结构化数据库。

Description

一种自然语言至结构化查询语言的转换方法及系统
技术领域
本申请涉及数据处理技术领域,尤其涉及一种自然语言至结构化查询语言的转换方法及系统。
背景技术
近年来深度学习行业发展迅速,深度学习技术不仅在计算机视觉、语音识别、自动驾驶等领域取得了令人瞩目的进步,而且在自然语言处理(Natural LanguageProcessing,NLP)领域也有长足的发展。深度学习中的神经网络模型在自然语言处理领域中诸如命名实体识别、词性标注、情感分析、阅读理解、机器翻译等任务中的表现已经全面超越了传统方法。
在信息技术高速发展的今天,每天都会产生大量的数据,并保存在各式各样的数据库中。通常,查询数据库中的数据需要通过结构化查询语言(SQL)这样的程序式查询语言来进行交互。但是对于许多非专业人员来说,掌握SQL语言存在一定的技术门槛。为了让非专业用户也能按需查询数据库,如何通过自然语言查询数据库中的目标数据成为了新兴的研究热点。
现有的类似工作大多是基于传统的语言规则或模板匹配的方式,算法的泛化性和灵活性有一定的局限。
发明内容
本申请实施例公开了一种自然语言至结构化查询语言的转换方法及系统,能降低结构化数据库的访问门槛,方便非技术人员直接查询使用结构化数据库。
第一方面,本申请实施例提供了一种自然语言至结构化查询语言的转换方法,该方法包括:
获取用户输入的自然语言问题文本;
根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果,其中,所述预设数据集中包含自然语言问题与对应的结构化查询语言;
若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言,其中,所述目标自然语言问题为所述预设数据集中与所述输入的自然语言问题文本的相似度最高的一个自然语言问题,且所述输入的自然语言问题文本与所述目标自然语言问题的相似度大于相似度阈值,所述转换算法模型为基于深度学习算法模型进行模型训练得到的。
在上述方法中,能够降低结构化数据库的访问门槛,方便非技术人员直接查询使用结构化数据库,与传统的基于语言规则或模板匹配的算法相比,基于深度学习的算法灵活性和泛化性更具优势。
结合第一方面,在一种可能的实施方式中,所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之后,还包括:
若所述预设数据集中存在所述目标自然语言问题,则将所述自然语言问题文本转换为与所述目标自然语言问题对应的结构化查询语言。
结合第一方面,在一种可能的实施方式中,所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之前,还包括:
选择预设场景下的数据库作为样本数据库,其中,所述样本数据库中包含自然语言问题与对应的结构化查询语言;
采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为所述预设数据集;
通过文本相似度模型提取所述预设数据集中自然语言问题的特征向量,其中,所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。
结合第一方面,在一种可能的实施方式中,所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之前,还包括:
通过文本相似度模型提取所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量;
通过所述文本相似度模型计算所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。
结合第一方面,在一种可能的实施方式中,所述若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言之前,还包括:
选择预设场景下的数据库作为样本数据库,其中,所述样本数据库中包含自然语言问题与对应的结构化查询语言;
采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为训练样本数据集;
基于深度学习算法模型,使用所述训练样本数据集进行模型训练,得到所述转换算法模型。
结合第一方面,在一种可能的实施方式中,所述深度学习算法模型为文本编码器算法模型,在所述模型训练的过程中,将所述训练样本数据集作为训练数据输入,并将转换为结构化查询语言任务定义为所述样本数据库的表格列信息映射到结构化查询语言元素的分类任务、以及从所述自然语言问题中提取条件值的任务集合。
结合第一方面,在一种可能的实施方式中,所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之后,还包括:
获取所述用户输入的自然语言问题文本转换后的结构化查询语言。
第二方面,本申请实施例提供一种自然语言至结构化查询语言的转换系统,该自然语言至结构化查询语言的转换系统包括实现第一方面,或者第一方面的任一项可能的实现方式所描述的方法中的全部或者部分功能模块。
第三方面,本申请实施例提供一种自然语言至结构化查询语言的转换系统,该自然语言至结构化查询语言的转换系统包括至少一个处理器、通信接口和存储器,所述存储器、所述通信接口和所述至少一个处理器通过线路互联,所述至少一个存储器中存储有计算机程序;所述计算机程序被所述处理器执行时,实现第一方面,或者第一方面的任一项可能的实现方式所描述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当计算机程序在处理器上运行时,实现第一方面,或者第一方面的任一项可能的实现方式所描述的方法。
通过实施本申请实施例,能够降低结构化数据库的访问门槛,方便非技术人员直接查询使用结构化数据库,与传统的基于语言规则或模板匹配的算法相比,基于深度学习的算法灵活性和泛化性更具优势。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的一种自然语言至结构化查询语言的转换方法的流程示意图;
图2是本申请实施例提供的又一种自然语言至结构化查询语言的转换方法的流程示意图;
图3是本申请实施例提供的一种文本相似度模型的结构示意图;
图4是本申请实施例提供的又一种自然语言至结构化查询语言的转换方法的流程示意图;
图5是本申请实施例提供的一种深度学习算法模型的结构示意图;
图6是本申请实施例提供的又一种文本相似度模型的结构示意图;
图7是本申请实施例提供的又一种深度学习算法模型的结构示意图;
图8是本申请实施例提供的一种自然语言至结构化查询语言的转换系统的结构示意图;
图9是本申请实施例提供的又一种自然语言至结构化查询语言的转换系统的结构示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行描述。
请参见图1,图1是本申请实施例提供的一种自然语言至结构化查询语言的转换方法,该方法可以运行在某种计算机中,如智能手机、笔记本电脑、服务器等,该方法包括但不限于如下步骤:
步骤S101、获取用户输入的自然语言问题文本。
具体的说,该自然语言问题文本是针对某个具体数据库的内容,进行查询的自然语言问题。
步骤S102、根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果。
具体的说,所述预设数据集中包含自然语言问题与对应的结构化查询语言。在本申请实施例中,系统能使用文本相似度模型算法,获取所述输入的自然语言问题文本与所述预设数据集中自然语言问题的相似度,以将所述输入的自然语言问题文本转换为结构化查询语言。而使用文本相似度模型算法获取文本之间的相似度可以通过如下步骤来实现。
首先,通过文本相似度模型提取所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量。
具体的说,使用所述相似度模型对自然语言问题文本进行处理,获取该自然语言问题文本嵌入到高维向量空间的向量值,即该自然语言问题文本的特征向量。而将所述输入的自然语言问题文本与所述预设数据集中自然语言问题均嵌入到高维向量空间中,即可获得所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量。
然后,通过所述文本相似度模型计算所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。
具体的说,通过所述文本相似度模型计算所述输入的自然语言问题文本的特征向量与所述预设数据集中任意一个自然语言问题的特征向量的距离,即可得到所述输入的自然语言问题文本与该任意一个自然语言问题的相似度,该相似度的值表示所述输入的自然语言问题文本与预设数据集中自然语言问题的相似程度。
最后,判断所述输入的自然语言问题文本与所述预设数据集中每个自然语言问题的相似度与相似度阈值之间的大小关系。
具体的说,所述相似度阈值为预设的阈值,用于判断所述输入的自然语言问题文本与所述预设数据集中每个自然语言问题的近似程度。如果所述输入的自然语言问题文本与所述预设数据集中某些自然语言问题的相似度值大于所述相似度阈值,就认为这两句话表达的是同一个意思。若存在与所述输入的自然语言问题文本的相似度大于所述相似度阈值的自然语言问题,则执行步骤S103;若不存在与所述输入的自然语言问题文本的相似度大于所述相似度阈值的自然语言问题,则执行步骤S104。
步骤S103、若所述预设数据集中存在目标自然语言问题,则将所述自然语言问题文本转换为与所述目标自然语言问题对应的结构化查询语言。
具体的说,所述目标自然语言问题为所述预设数据集中与所述输入的自然语言问题文本的相似度最高的一个自然语言问题,且所述输入的自然语言问题文本与所述目标自然语言问题的相似度大于所述相似度阈值。
步骤S104、若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言。
具体的说,所述转换算法模型为基于深度学习算法模型进行模型训练得到的。所述预设数据集中不存在目标自然语言问题,即所述输入的自然语言问题文本与所述预设数据集中每个自然语言问题的相似度小于预设的相似度阈值。在本申请实施例中,系统是使用深度学习神经网络文本编码模型算法,将文本进行编码,并进行推理计算,得到转换后的结构化查询语言。而在使用深度学习神经网络文本编码算法模型对文本进行编码时,文本内容包括所述输入的自然语言问题文本以及上述具体数据库的表格列信息。
步骤S105、获取所述用户输入的自然语言问题文本转换后的结构化查询语言。
具体的说,若存在与所述输入的自然语言问题文本的相似度大于所述相似度阈值的自然语言问题,则系统将与所述目标自然语言问题对应的结构化查询语言,作为所述用户输入的自然语言问题文本转换后的结构化查询语言;若不存在与所述输入的自然语言问题文本的相似度大于所述相似度阈值的自然语言问题,则系统使用所述转换算法模型,将所述输入的自然语言问题文本输入所述转换算法模型,得到转换后的结构化查询语言。
进一步,请参阅图2,在本实施例中,在执行所述步骤S102之前,还可以执行步骤S201~S203。
步骤S201、选择预设场景下的数据库作为样本数据库。
具体的说,在不同业务场景下,选择该业务场景下对应的数据库,作为样本数据库,且所述样本数据库中包含自然语言问题与对应的结构化查询语言。
步骤S202、采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为所述预设数据集。
具体的说,针对所述样本数据库,收集自然语言问题与对应的结构化查询语言,并将收集到的自然语言问题与对应的结构化查询语言进行一一对应映射,作为所述预设数据集。
步骤S203、通过文本相似度模型提取所述预设数据集中自然语言问题的特征向量。
具体的说,所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。请参阅图3,图3为本申请提供的一所述文本相似度模型的结构图。所述预设数据集中自然语言问题文本对应图3中的自然语言问题文本301,使用文本特征提取器302,将自然语言问题文本301嵌入到高维向量空间中,得到高维特征向量303。每个自然语言问题文本就是这个高维向量空间中的一个独立的向量。
进一步,请参阅图4,在本实施例中,在执行所述步骤S104之前,还可以执行步骤S401~S403。
步骤S401、选择预设场景下的数据库作为样本数据库。
具体的说,在不同业务场景下,选择该业务场景下对应的数据库,作为样本数据库。且所述样本数据库中包含自然语言问题与对应的结构化查询语言。
步骤S402、采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为训练样本数据集。
具体的说,针对所述样本数据库,收集自然语言问题与对应的结构化查询语言,并将收集到的自然语言问题与对应的结构化查询语言进行一一对应映射,作为所述训练样本数据集。
步骤S403、基于深度学习算法模型,使用所述训练样本数据集进行模型训练,得到所述转换算法模型。
具体的说,所述深度学习算法模型是使用文本编码器算法模型,在所述模型训练的过程中,将所述训练数据集,即自然语言问题与对应的结构化查询语言作为训练数据输入,并将转换为结构化查询语言任务定义为所述样本数据库的表格列信息映射到select、aggregate、condition col、condition op、group by、order by等结构化查询语言元素的分类任务,以及从所述自然语言问题中提取condition value(条件值)的任务集合,使所述深度学习算法模型学习到自然语言至结构化查询语言的转换算法模型。请参阅图5,图5为本申请提供的一所述深度学习算法模型的结构图,所述深度学习算法模型的结构包括数据输入单元501、文本特征提取器502、结构化查询语言组件分类器503和结构化查询语言生成器504,所述深度学习算法模型的各个模块和单元的详细描述如下:
所述数据输入单元501,用于融合自然语言问题和所述样本数据库的表格列信息;
所述文本特征提取器502,用于对所述数据输入单元501的文本进行编码,得到编码后的高维向量值;
所述结构化查询语言组件分类器503,用于将结构化查询语言定义为所述文本特征提取器502输出的高维向量映射到select、aggregate、condition col、condition op、group by、order by等结构化查询语言元素的分类任务,以及提取conditionvalue的任务集合。将所述文本特征提取器502输出的高维向量中的代表各个表格列信息的部分分别使用分类算法进行分类,得到各个表格列在select、aggregate、condition col、conditionop、group by、order by等分类任务的结果,同时将所述文本特征提取器502输出的高维向量中的代表自然语言问题文本的部分中提取出condition value的值。
所述结构化查询语言生成器504,用于将所述结构化查询语言组件分类器503中得到的select、aggregate、condition col、condition op、group by、order by等分类任务的结果以及提取出condition value进行汇总,得到完整的结构化查询语言。
下面结合附图,以一个具体的示例对本发明进行说明。
步骤S101,获取用户输入的自然语言问题文本。
具体的说,用户为操作本系统的操作员,假设当前样本数据库为电信运营商的用户信息表,该操作员想了解电信运营商的用户数情况,可输入相应的查询语句:“我想查询北京市2019年的用户数量”,则此文本内容就是步骤S101中获取的用户输入的自然语言问题文本。
步骤S201,选择预设场景下的数据库作为样本数据库。
具体的说,使用上述电信运营商的用户信息表作为样本数据库。
步骤S202、采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为所述预设数据集。
具体的说,以所述预设数据集中的两对数据为例,所述预设数据集包括:
自然语言问题:“2019年北京市用户数量是多少”—结构化查询语言:“selectcount(user_id)from user_info where acct_year=”2019"and city=“北京””;
自然语言问题:“2019年北京市用户出账总收入是多少”—结构化查询语言:“select sum(total_fee)from user_info where acct_year=”2019"and city=“北京””。
步骤S203、通过文本相似度模型提取所述预设数据集中自然语言问题的特征向量。
具体的说,请参阅图6,图6为本申请提供的一所述文本相似度模型的结构图,所述输入的自然语言问题文本为自然语言问题文本601,使用双向Transformer编码器Bert603对所述输入的自然语言问题文本“我想查询北京市2019年的用户数量”编码,得到自然语言问题文本对应的高维向量604;所述预设数据集为自然语言问题至结构化查询语言数据集602,同时将所述预先录入的自然语言问题至结构化查询语言数据集602中的自然语言问题也使用同样的方式进行编码,得到数据集自然语言问题对应的高维向量605;计算所述自然语言问题文本对应的高维向量604与所述数据集自然语言问题对应的高维向量605的余弦距离606,所述余弦距离606即相似度值,且分别为(0.95,0.21)。
步骤S204、判断相似度值是否大于相似度阈值。
具体的说,所述文本相似度模型通过余弦距离值与阈值大小判断单元607来判断相似度值是否大于相似度阈值。假设所述相似度阈值为0.9,由于0.95>0.9,则在上述余弦距离606的值(0.95,0.21)中,所述自然语言问题文本601“我想查询北京市2019年的用户数量”与所述预先录入的自然语言问题至结构化查询语言数据集602中“2019年北京市用户数量是多少”的意义相同,即所述预先录入的自然语言问题至结构化查询语言数据集602中存在所述目标自然语言问题,且所述目标自然语言问题为“2019年北京市用户数量是多少”。
由于所述预先录入的自然语言问题至结构化查询语言数据集602中存在所述目标自然语言问题,则执行步骤S103:若所述预设数据集中存在所述目标自然语言问题,则将所述自然语言问题文本转换为与所述目标自然语言问题对应的结构化查询语言。
具体的说,将所述预先录入的自然语言问题至结构化查询语言数据集602中的自然语言问题“2019年北京市用户数量是多少”对应的结构化查询语言“select count(user_id)from user_info where acct_year=”2019"and city=“北京””作为“我想查询北京市2019年的用户数量”转换后的结构化查询语言。
假设上述操作员输入的查询语句是:“我想查询北京市2019年新增用户数量”,使用上述文本相似度模型,计算得到该自然语言问题文本601与所述预先录入的自然语言问题至结构化查询语言数据集602的余弦距离606分别为(0.72,0.14),而这两个值均小于所述相似度阈值0.9,说明在所述预先录入的自然语言问题至结构化查询语言数据集602中没有相似的自然语言问题,即所述预先录入的自然语言问题至结构化查询语言数据集602中不存在所述目标自然语言问题。
由于所述预先录入的自然语言问题至结构化查询语言数据集602中不存在所述目标自然语言问题,则执行步骤S104、若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言。
具体的说,请参阅图7,图7为本申请提供的一所述深度学习算法模型的结构图,所述深度学习算法模型包括数据输入单元701、双向Transformer编码器Bert702、结构化查询语言组件分类器704、结构化查询语言生成器705,所述深度学习算法模型的各个模块和单元的详细描述如下:
所述数据输入单元701,用于将所述输入的自然语言问题文本“我想查询北京市2019年新增用户数量”和所述样本数据库的多个表格列名信息进行融合,并使用分隔符隔开。
所述双向Transformer编码器Bert702,用于对所述数据输入单元701的文本进行编码。
具体的说,经过所述双向Transformer编码器Bert702得到编码后的高维向量为编码后的文本向量703,所述编码后的文本向量703包括自然语言问题文本向量和多个表格列向量以及相应的分隔符向量。
所述结构化查询语言组件分类器704,用于将结构化查询语言定义为所述编码后的文本向量703输出的高维向量映射到select、aggregate、condition col、condition op、group by、order by等结构化查询语言元素的分类任务,以及从所述自然语言问题中提取condition value的任务集合。
具体的说,所述结构化查询语言组件分类器704用于将所述双向Transformer编码器Bert702输出的高维向量中的代表各个表格列信息的分隔符向量分别连接到select分类器(输出当前列是否被select)、aggregate分类器(输出当前列的aggregate操作符)、condition col分类器(输出当前列是否属于条件列)、condition op分类器(输出当前列的条件运算符)、group by分类器(输出当前列是否被group by)、order by分类器(输出当前列是否被order by),使用分类算法进行分类,得到各个表格列在select、aggregate、condition col、condition op、group by、orderby等分类任务的结果。
对于condition value任务,将所述双向Transformer编码器Bert702输出的高维向量中的代表自然语言问题文本的部分使用文本抽取算法(输出value的起始index两个值)提取出若干个备选condition value,再与condition col、condition op的分类结果进行排列组合方式的融合,使用分类算法(输出当前备选value值是否是最终的结果),得到最终的condition value。
所述结构化查询语言生成器705,用于将所述结构化查询语言组件分类器704中得到的select、aggregate、condition col、condition op、group by、order by等分类任务的结果以及提取出condition value进行汇总,得到完整的结构化查询语言。
具体的说,以所述输入的自然语言问题文本“我想查询北京市2019年新增用户数量”为例,所述深度学习算法模型执行的步骤如下:
第一、将所述输入的自然语言问题文本“我想查询北京市2019年新增用户数量”和所述样本数据库的表格列信息输入所述数据输入单元701,进行融合。
第二,经过所述双向Transformer编码器Bert902,得到所述编码后的文本向量703。
第三、将所述编码后的文本向量703输入到结构化查询语言组件分类器704,其中:对于select分类器,列user_id的输出结果为true,其他列的输出结果为false;对于aggregate分类器,列user_id的输出结果为count,其他列的输出结果为none;对于condition col分类器,列acct_year、user_states、city的输出结果为true,其他列输出结果为false;对于condition op分类器,列acct_year、user_states、city的值都是“=”,其他列的值都是none;对于group by和order by分类器,所有列的值都是none。对于condition value任务,从所述编码后的文本向量中的自然语言问题文本部分提取出备选condition value,包括“北京”、“2019”、“新增”,再与上述condition col的结果(acct_year、user_states、city)和condition op的结果(=、=、=)进行排列组合方式的融合,即使用Condition Value提取器分别判断(acct_year=“2019”、acct_year=“新增”、acct_year=“北京”)、(user_states=“2019”、user_states=“新增”、user_states=“北京”)、(city=“2019”、city=“新增”、city=“北京”)的输出结果哪个是true,这里判断出acct_year=“2019”为true,user_states=“新增”为true,city=“北京”为true。
第四、使用所述结构化查询语言生成器705将所述结构化查询语言组件分类器704输出的结果进行融合,得到所述操作员输入的查询语句“我想查询北京市2019年新增用户数量”对应的结构化查询语言“select count(user_id)from user_info where acct_year=”2019"and user_states=“新增”and city=“北京””。
在本申请实施例中,在执行步骤S104之前,还会执行步骤S401~S403来训练所述深度学习算法模型。
步骤S401、选择预设场景下的数据库作为样本数据库。
具体的说,选择电信运营商用户信息表作为样本数据库。
步骤S402、采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为训练样本数据集。
具体的说,对于所述训练样本数据集而言,数据的数量越多越好,此处仅以所述训练样本数据集的两对数据为例,所述训练样本数据集包括:
自然语言问题:“2019年北京市用户数量是多少”–结构化查询语言:“selectcount(user_id)fromuser_info where acct_year=”2019"and city=“北京””;
自然语言问题:“2019年北京市用户出账总收入是多少”–结构化查询语言:“select sum(total_fee)from user_info where acct_year=”2019"and city=“北京””。
步骤S403、基于深度学习算法模型,使用所述训练样本数据集进行模型训练,得到所述转换算法模型。
具体的说,将所述训练样本数据集中自然语言问题和所述样本数据库的表结构信息进行拼接作为输入,而对应的结构化查询语言作为输出,建立深度学习算法模型,进行模型训练,得到自然语言至结构化查询语言的转换算法模型。其中,所述深度学习算法模型是使用双向Transformer编码器模型(BERT),将输入数据进行编码;将输出的结构化查询语言定义为select、aggregate、condition col、condition op、group by、orderby等结构化查询语言元素的分类任务,以及从所述自然语言问题中提取condition value的任务集合。使所述深度学习算法模型学习到自然语言问题至结构化查询语言的转换算法模型。
在上述方法中,能够降低结构化数据库的访问门槛,方便非技术人员直接查询使用结构化数据库,与传统的基于语言规则或模板匹配的算法相比,基于深度学习的算法灵活性和泛化性更具优势。
请参见图8,图8是本申请提供的一种自然语言至结构化查询语言的转换系统80,该自然语言至结构化查询语言的转换系统80包括自然语言问题文本获取单元801、文本相似度模型单元802和深度学习算法模型单元803,该自然语言至结构化查询语言的转换系统80的各个模块和单元的详细描述如下。
所述自然语言问题文本获取单元801,用于获取用户输入的自然语言问题文本。
所述文本相似度模型单元802,用于根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果,其中,所述预设数据集中包含自然语言问题与对应的结构化查询语言。
所述深度学习算法模型单元803,用于若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言,其中,所述目标自然语言问题为所述预设数据集中与所述输入的自然语言问题文本的相似度最高的一个自然语言问题,且所述输入的自然语言问题文本与所述目标自然语言问题的相似度大于相似度阈值,所述转换算法模型为基于深度学习算法模型进行模型训练得到的。
在一种可选的方案中,所述文本相似度模型单元802,还用于在所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之后,若所述预设数据集中存在所述目标自然语言问题,则将所述自然语言问题文本转换为与所述目标自然语言问题对应的结构化查询语言。
在一种可选的方案中,所述文本相似度模型单元802,还用于在所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之前,选择预设场景下的数据库作为样本数据库,其中,所述样本数据库中包含自然语言问题与对应的结构化查询语言;采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为所述预设数据集;通过文本相似度模型提取所述预设数据集中自然语言问题的特征向量,其中,所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。
在一种可选的方案中,所述文本相似度模型单元802,还用于在所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之前,通过文本相似度模型提取所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量;通过所述文本相似度模型计算所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。
在一种可选的方案中,所述深度学习算法模型单元803,还用于在所述若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言之前,选择预设场景下的数据库作为样本数据库,其中,所述样本数据库中包含自然语言问题与对应的结构化查询语言;采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为训练样本数据集;基于深度学习算法模型,使用所述训练样本数据集进行模型训练,得到所述转换算法模型。
在一种可选的方案中,所述深度学习算法模型为文本编码器算法模型,在所述模型训练的过程中,将所述训练样本数据集作为训练数据输入,并将转换为结构化查询语言任务定义为所述样本数据库的表格列信息映射到结构化查询语言元素的分类任务、以及从所述自然语言问题中提取条件值的任务集合。
在一种可选的方案中,还包括信息转换单元804,所述信息转换单元804用于在所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之后,获取所述用户输入的自然语言问题文本转换后的结构化查询语言。
图8所示的自然语言至结构化查询语言的转换系统中各个模块和单元的具体实现及有益效果还可以对应参照如上所述的方法实施例的相应描述,此处不再赘述。
请参见图9,图9是本申请提供的一自然语言至结构化查询语言的转换系统90,该自然语言至结构化查询语言的转换系统90包括处理器901、存储器902和通信接口903,所述处理器901和存储器902通过总线904相互连接。
存储器902包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmableread only memory,EPROM)、或便携式只读存储器(compact disc read-onlymemory,CD-ROM),该存储器902用于相关计算机程序及数据。通信接口903用于接收和发送数据。
处理器901可以是一个或多个中央处理器(central processing unit,CPU),在处理器901是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
该自然语言至结构化查询语言的转换系统90中的处理器901用于读取所述存储器902中存储的计算机程序代码,执行以下操作:
获取用户输入的自然语言问题文本;
根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果,其中,所述预设数据集中包含自然语言问题与对应的结构化查询语言;
若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言,其中,所述目标自然语言问题为所述预设数据集中与所述输入的自然语言问题文本的相似度最高的一个自然语言问题,且所述输入的自然语言问题文本与所述目标自然语言问题的相似度大于相似度阈值,所述转换算法模型为基于深度学习算法模型进行模型训练得到的。
在一种可能的实施方式中,在所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之后,还执行:
若所述预设数据集中存在所述目标自然语言问题,则将所述自然语言问题文本转换为与所述目标自然语言问题对应的结构化查询语言。
在一种可能的实施方式中,在所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之前,还执行:
选择预设场景下的数据库作为样本数据库,其中,所述样本数据库中包含自然语言问题与对应的结构化查询语言;
采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为所述预设数据集;
通过文本相似度模型提取所述预设数据集中自然语言问题的特征向量,其中,所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。
在一种可能的实施方式中,在所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之前,还执行:
通过文本相似度模型提取所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量;
通过所述文本相似度模型计算所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。
在一种可能的实施方式中,在所述若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言之前,还执行:
选择预设场景下的数据库作为样本数据库,其中,所述样本数据库中包含自然语言问题与对应的结构化查询语言;
采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为训练样本数据集;
基于深度学习算法模型,使用所述训练样本数据集进行模型训练,得到所述转换算法模型。
在一种可能的实施方式中,所述深度学习算法模型为文本编码器算法模型,在所述模型训练的过程中,将所述训练样本数据集作为训练数据输入,并将转换为结构化查询语言任务定义为所述样本数据库的表格列信息映射到结构化查询语言元素的分类任务、以及从所述自然语言问题中提取条件值的任务集合。
在一种可能的实施方式中,在所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之后,还执行:
获取所述用户输入的自然语言问题文本转换后的结构化查询语言。
图9所示的自然语言至结构化查询语言的转换系统中各个模块和单元的具体实现及有益效果还可以对应参照如上所述的方法实施例的相应描述,此处不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当计算机程序在自然语言至结构化查询语言的转换系统上运行时,实现如上所述的方法。
综上所述,上述方法能够降低结构化数据库的访问门槛,方便非技术人员直接查询使用结构化数据库,与传统的基于语言规则或模板匹配的算法相比,基于深度学习的算法灵活性和泛化性更具优势。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims (9)

1.一种自然语言至结构化查询语言的转换方法,其特征在于,包括:
获取用户输入的自然语言问题文本;
根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果,其中,所述预设数据集中包含自然语言问题与对应的结构化查询语言;
若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言,其中,所述目标自然语言问题为所述预设数据集中与所述输入的自然语言问题文本的相似度最高的一个自然语言问题,且所述输入的自然语言问题文本与所述目标自然语言问题的相似度大于相似度阈值,所述转换算法模型为基于深度学习算法模型进行模型训练得到的;
所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之前,还包括:
选择预设场景下的数据库作为样本数据库,其中,所述样本数据库中包含自然语言问题与对应的结构化查询语言;
采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为所述预设数据集;
通过文本相似度模型提取所述预设数据集中自然语言问题的特征向量,其中,所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。
2.根据权利要求1所述的方法,其特征在于,所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之后,还包括:
若所述预设数据集中存在所述目标自然语言问题,则将所述自然语言问题文本转换为与所述目标自然语言问题对应的结构化查询语言。
3.根据权利要求1所述的方法,其特征在于,所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之前,还包括:
通过文本相似度模型提取所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量;
通过所述文本相似度模型计算所述输入的自然语言问题文本的特征向量与所述预设数据集中自然语言问题的特征向量的距离,以所述距离作为所述特征向量用于计算所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度。
4.根据权利要求1所述的方法,其特征在于,所述若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言之前,还包括:
选择预设场景下的数据库作为样本数据库,其中,所述样本数据库中包含自然语言问题与对应的结构化查询语言;
采集针对所述样本数据库中自然语言问题与对应的结构化查询语言的数据集映射,作为训练样本数据集;
基于深度学习算法模型,使用所述训练样本数据集进行模型训练,得到所述转换算法模型。
5.根据权利要求4所述的方法,其特征在于,所述深度学习算法模型为文本编码器算法模型,在所述模型训练的过程中,将所述训练样本数据集作为训练数据输入,并将转换为结构化查询语言任务定义为所述样本数据库的表格列信息映射到结构化查询语言元素的分类任务、以及从所述自然语言问题中提取条件值的任务集合。
6.根据权利要求1所述的方法,其特征在于,所述根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果之后,还包括:
获取所述用户输入的自然语言问题文本转换后的结构化查询语言。
7.一种自然语言至结构化查询语言的转换系统,其特征在于,包括:
自然语言问题文本获取单元,用于获取用户输入的自然语言问题文本;
文本相似度模型单元,用于根据所述输入的自然语言问题文本与预设数据集中自然语言问题的相似度,确定将所述输入的自然语言问题文本转换为结构化查询语言的转换结果,其中,所述预设数据集中包含自然语言问题与对应的结构化查询语言;
深度学习算法模型单元,用于若所述预设数据集中不存在目标自然语言问题,则通过转换算法模型将所述输入的自然语言问题文本转换为结构化查询语言,其中,所述目标自然语言问题为所述预设数据集中与所述输入的自然语言问题文本的相似度最高的一个自然语言问题,且所述输入的自然语言问题文本与所述目标自然语言问题的相似度大于相似度阈值,所述转换算法模型为基于深度学习算法模型进行模型训练得到的。
8.根据权利要求7所述的系统,其特征在于,还包括信息转换单元,用于获取所述用户输入的自然语言问题文本转换后的结构化查询语言。
9.一种自然语言至结构化查询语言的转换系统,其特征在于,包括至少一个处理器、通信接口和存储器,所述通信接口、所述存储器和所述至少一个处理器通过线路互联,所述至少一个存储器中存储有计算机程序;所述计算机程序被所述处理器执行时,实现权利要求1-6任一项所述的方法。
CN202010491307.1A 2020-06-02 2020-06-02 一种自然语言至结构化查询语言的转换方法及系统 Active CN111651474B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010491307.1A CN111651474B (zh) 2020-06-02 2020-06-02 一种自然语言至结构化查询语言的转换方法及系统
PCT/CN2020/118904 WO2021243903A1 (zh) 2020-06-02 2020-09-29 自然语言至结构化查询语言的转换方法及系统
US17/574,582 US20220138193A1 (en) 2020-06-02 2022-01-13 Conversion method and systems from natural language to structured query language

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010491307.1A CN111651474B (zh) 2020-06-02 2020-06-02 一种自然语言至结构化查询语言的转换方法及系统

Publications (2)

Publication Number Publication Date
CN111651474A CN111651474A (zh) 2020-09-11
CN111651474B true CN111651474B (zh) 2023-07-25

Family

ID=72351095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010491307.1A Active CN111651474B (zh) 2020-06-02 2020-06-02 一种自然语言至结构化查询语言的转换方法及系统

Country Status (3)

Country Link
US (1) US20220138193A1 (zh)
CN (1) CN111651474B (zh)
WO (1) WO2021243903A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651474B (zh) * 2020-06-02 2023-07-25 东云睿连(武汉)计算技术有限公司 一种自然语言至结构化查询语言的转换方法及系统
CN114090620B (zh) * 2022-01-19 2022-09-27 支付宝(杭州)信息技术有限公司 查询请求的处理方法及装置
US12106067B2 (en) * 2022-01-24 2024-10-01 Jpmorgan Chase Bank, N.A. Voice assistant system and method for performing voice activated machine translation
CN114579608B (zh) * 2022-04-26 2022-08-02 阿里巴巴达摩院(杭州)科技有限公司 基于表格数据的人机交互方法、装置及设备
CN114637765A (zh) * 2022-04-26 2022-06-17 阿里巴巴达摩院(杭州)科技有限公司 基于表格数据的人机交互方法、装置及设备
CN116991977B (zh) * 2023-09-25 2023-12-05 成都不烦智能科技有限责任公司 一种基于大语言模型的领域向量知识精准检索方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159220A (zh) * 2019-12-31 2020-05-15 北京百度网讯科技有限公司 用于输出结构化查询语句的方法和装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8024177B2 (en) * 2007-09-28 2011-09-20 Cycorp, Inc. Method of transforming natural language expression into formal language representation
US20170270159A1 (en) * 2013-03-14 2017-09-21 Google Inc. Determining query results in response to natural language queries
CN107451153B (zh) * 2016-05-31 2020-03-31 北京京东尚科信息技术有限公司 输出结构化查询语句的方法和装置
US10037360B2 (en) * 2016-06-20 2018-07-31 Rovi Guides, Inc. Approximate template matching for natural language queries
US20180210883A1 (en) * 2017-01-25 2018-07-26 Dony Ang System for converting natural language questions into sql-semantic queries based on a dimensional model
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答系统
US10678786B2 (en) * 2017-10-09 2020-06-09 Facebook, Inc. Translating search queries on online social networks
US10664472B2 (en) * 2018-06-27 2020-05-26 Bitdefender IPR Management Ltd. Systems and methods for translating natural language sentences into database queries
CN109408526B (zh) * 2018-10-12 2023-10-31 平安科技(深圳)有限公司 Sql语句生成方法、装置、计算机设备及存储介质
US10872083B2 (en) * 2018-10-31 2020-12-22 Microsoft Technology Licensing, Llc Constructing structured database query language statements from natural language questions
US20200133952A1 (en) * 2018-10-31 2020-04-30 International Business Machines Corporation Natural language generation system using graph-to-sequence model
CN109933602B (zh) * 2019-02-28 2021-05-04 武汉大学 一种自然语言与结构化查询语言的转换方法及装置
CN110688394B (zh) * 2019-09-29 2021-11-23 浙江大学 面向新型供电城轨列车大数据运维的nl生成sql方法
CN110888897B (zh) * 2019-11-12 2020-07-14 杭州世平信息科技有限公司 一种根据自然语言生成sql语句的方法及装置
CN110993093B (zh) * 2019-11-15 2023-02-24 北京邮电大学 基于深度学习的眼科预问诊方法与装置
CN111177184A (zh) * 2019-12-24 2020-05-19 深圳壹账通智能科技有限公司 基于自然语言的结构化查询语言转换方法、及其相关设备
US11561969B2 (en) * 2020-03-30 2023-01-24 Adobe Inc. Utilizing logical-form dialogue generation for multi-turn construction of paired natural language queries and query-language representations
CN111651474B (zh) * 2020-06-02 2023-07-25 东云睿连(武汉)计算技术有限公司 一种自然语言至结构化查询语言的转换方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159220A (zh) * 2019-12-31 2020-05-15 北京百度网讯科技有限公司 用于输出结构化查询语句的方法和装置

Also Published As

Publication number Publication date
WO2021243903A1 (zh) 2021-12-09
CN111651474A (zh) 2020-09-11
US20220138193A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
CN111651474B (zh) 一种自然语言至结构化查询语言的转换方法及系统
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN106991085B (zh) 一种实体的简称生成方法及装置
CN110795532A (zh) 一种语音信息的处理方法、装置、智能终端以及存储介质
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN112256845B (zh) 意图识别方法、装置、电子设备和计算机可读存储介质
CN112348111B (zh) 视频中的多模态特征融合方法、装置、电子设备及介质
CN113656561A (zh) 实体词识别方法、装置、设备、存储介质及程序产品
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及系统
CN117743517A (zh) 基于人工智能的智慧冰雪旅游管理系统及方法
CN117093686A (zh) 智能问答匹配方法、装置、终端及存储介质
CN114461853B (zh) 视频场景分类模型的训练样本生成方法、装置及设备
CN116431827A (zh) 信息处理方法、装置、存储介质及计算机设备
CN115272242A (zh) 一种基于YOLOv5的光学遥感图像目标检测方法
CN111063446A (zh) 用于标准化医疗文本数据的方法、装置、设备及存储介质
CN118260439A (zh) 密集架系统的信息管理系统及方法
CN118035463A (zh) 一种电网调度多模态知识图谱构建方法及系统
CN117688151A (zh) 基于知识库的问答方法、装置、计算机设备及存储介质
CN116955704A (zh) 搜索方法、装置、设备及计算机可读存储介质
CN117077071A (zh) 一种基于数据分级的数据分析方法及系统
CN113886420B (zh) Sql语句的生成方法、装置、电子设备及存储介质
CN113705241B (zh) 面向高考咨询基于多视角注意力的智能语义匹配方法与装置
CN113051385B (zh) 意图识别的方法、介质、装置和计算设备
CN114116975A (zh) 一种多意图识别方法及系统
CN118410200B (zh) 遥感图像检索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant