CN111008213B - 用于生成语言转换模型的方法和装置 - Google Patents

用于生成语言转换模型的方法和装置 Download PDF

Info

Publication number
CN111008213B
CN111008213B CN201911335116.XA CN201911335116A CN111008213B CN 111008213 B CN111008213 B CN 111008213B CN 201911335116 A CN201911335116 A CN 201911335116A CN 111008213 B CN111008213 B CN 111008213B
Authority
CN
China
Prior art keywords
structured query
query sentence
actual
matching
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911335116.XA
Other languages
English (en)
Other versions
CN111008213A (zh
Inventor
张傲
张帅
王丽杰
孙珂
李婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201911335116.XA priority Critical patent/CN111008213B/zh
Publication of CN111008213A publication Critical patent/CN111008213A/zh
Application granted granted Critical
Publication of CN111008213B publication Critical patent/CN111008213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本公开的实施例公开了用于生成语言转换模型的方法和装置。该方法的一具体实施方式包括:将自然语言查询语句输入初始模型,得到实际结构化查询语句,判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,基于该匹配值,更新该初始模型的网络参数,生成语言转换模型。该实施方式将实际结构化查询语句与目标结构化查询语句的匹配值应用于生成语言转换模型的过程中,提高了语言转换模型输出的准确性。

Description

用于生成语言转换模型的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于生成语言转换模型的方法和装置。
背景技术
随着大数据时代的到来,数据库存储了大量的个人或者企业的生产运营数据,通常查询数据库中的数据需要通过结构化查询语言(SQL,Structured Query Language)来进行交互。例如在问答场景中,用户有大量的查询诉求,需要通过结构化查询语言来满足。
NL2SQL(Natural Language to SQL)是一项将用户的自然语句转为可执行SQL语句的技术,有很大的实际应用价值,对改善用户与数据库之间的交互方式有很大意义。
发明内容
本公开的实施例提出了用于生成语言转换模型的方法和装置。
第一方面,本公开的实施例提供了一种用于生成语言转换模型的方法,该方法包括:将自然语言查询语句输入初始模型,得到实际结构化查询语句;判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值;基于匹配值,更新初始模型的网络参数,生成语言转换模型。
在一些实施例中,匹配值包括第一匹配值;判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:判断实际结构化查询语句中的第一指令关键词与目标结构化查询语句中的第二指令关键词是否相同,以及判断第一指令关键词在实际结构化查询语句中的排列顺序与第二指令关键词在目标结构化查询语句中的排列顺序是否相同,得出第一判断结果;基于第一判断结果,确定实际结构化查询语句与目标结构化查询语句的匹配值。
在一些实施例中,匹配值包括第二匹配值;判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:判断实际结构化查询语句中子句中的对象、与目标结构化查询语句中同一类型子句中的对象是否相同,得出第二判断结果;基于第二判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在一些实施例中,匹配值包括第三匹配值;判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:判断实际结构化查询语句中的子句中的对象的第一数据类型、与目标结构化查询语句中同一类型子句中的同一类型对象所关联的第二对象的第二数据类型是否相同,得出第三判断结果;基于第三判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在一些实施例中,匹配值包括第四匹配值;判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:判断实际结构化查询语句中的条件子句中的记录值的列号与目标结构化查询语句的条件子句中的字段的列号是否相同,得出第四判断结果;基于第四判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
第二方面,本公开的实施例提供了一种用于生成语言转换模型的装置,该装置包括:输出单元,被配置成将自然语言查询语句输入初始模型,得到实际结构化查询语句;判断单元,被配置成判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值;生成单元,被配置成基于匹配值,更新初始模型的网络参数,生成语言转换模型。
在一些实施例中,匹配值包括第一匹配值;判断单元进一步被配置成:判断实际结构化查询语句中的第一指令关键词与目标结构化查询语句中的第二指令关键词是否相同,以及判断第一指令关键词在实际结构化查询语句中的排列顺序与第二指令关键词在目标结构化查询语句中的排列顺序是否相同,得出第一判断结果;基于第一判断结果,确定实际结构化查询语句与目标结构化查询语句的匹配值。
在一些实施例中,匹配值包括第二匹配值;判断单元进一步被配置成:判断实际结构化查询语句中子句中的对象、与目标结构化查询语句中同一类型子句中的对象是否相同,得出第二判断结果;基于第二判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在一些实施例中,匹配值包括第三匹配值;判断单元进一步被配置成:判断实际结构化查询语句中的子句中的对象的第一数据类型、与目标结构化查询语句中同一类型子句中的同一类型对象所关联的第二对象的第二数据类型是否相同,得出第三判断结果;基于第三判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在一些实施例中,匹配值包括第四匹配值;判断单元进一步被配置成:判断实际结构化查询语句中的条件子句中的记录值的列号与目标结构化查询语句的条件子句中的字段的列号是否相同,得出第四判断结果;基于第四判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
第三方面,本公开的实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本公开的实施例提供的用于生成语言转换模型的方法和装置,首先将自然语言查询语句输入初始模型,得到实际结构化查询语句,然后判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,最后基于该匹配值,更新该初始模型的网络参数,生成语言转换模型,从而实现了将实际结构化查询语句与目标结构化查询语句的匹配值应用于生成语言转换模型的过程中,提高了语言转换模型输出的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于生成语言转换模型的方法的一个实施例的流程图;
图3是根据本公开的实施例的用于生成语言转换模型的方法的一个应用场景的示意图;
图4是根据本公开的用于生成语言转换模型的装置的一个实施例的结构示意图;
图5是适于用来实现本公开的实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了可以应用本公开的用于生成语言转换模型的方法或用于生成语言转换模型的装置的示例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供传输链路的介质。网络104可以包括各种连接类型,例如有线、无线传输链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息。终端设备101、102、103上可以安装有各种通讯客户端应用,例如,信息查询类软件、数据库类软件、自然语言处理类软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以接收用户输入的自然语言查询语句,而后输出上述自然语言查询语句转换的结构化查询语句。终端设备101、102、103包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是对终端设备101、102、103上运行的程序提供支持的服务器,服务器105接收用户通过终端设备101、102、103输入的结构化查询语句,将自然语言查询语句转换为结构化查询语句,并向终端发送该结构化查询语句。
服务器105也可以是数据库服务器,终端设备101、102、103可以向服务器105发送数据查找请求,服务器105响应于数据查找请求向终端设备101、102、103提供相应的数据。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在没有专门的数据库服务器和网络的情况下,数据库也可以存储在终端设备101、102、103上。
需要说明的是,本公开的实施例所提供的用于生成语言转换模型的方法一般由服务器105执行,相应地,用于生成语言转换模型的装置一般设置于服务器105中。
继续参考图2,示出了根据本公开的用于生成语言转换模型的方法的一个实施例的流程200。该用于生成语言转换模型的方法包括以下步骤:
步骤201,将自然语言查询语句输入初始模型,得到实际结构化查询语句。
在本实施例中,用于生成语言转换模型的方法的执行主体(如图1所示的服务器105)可以将用户输入的文字、图像或语音形式的自然语言查询语句输入初始模型,通过对自然语言查询语句进行语言转换,输出与自然语言查询语句对应的实际结构化查询语句。若自然语言查询语句为图像或语音形式,则通过图像识别或语音识别技术将其转换为文字形式,例如自然语言查询语句可以是“查找小明的国籍”、“获取年龄大于50岁的用户的姓名”等。在这里,初始模型可以是未经训练的深度学习模型或未训练完成的深度学习模型,初始化的深度学习模型的各层可以设置有初始参数,参数在深度学习模型的训练过程中可以被不断地调整。
初始模型可以是各种类型的未经训练或未训练完成的人工神经网络或者对多种未经训练或未训练完成的人工神经网络进行组合所得到的模型,例如,初始模型可以是未经训练的卷积神经网络,也可以是未经训练的循环神经网络,还可以是对未经训练的卷积神经网络、未经训练的循环神经网络和未经训练的全连接层进行组合所得到的模型。
结构化查询语言是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
步骤202,判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在本实施例中,上述执行主体可以将初始模型输出的实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句对比,确定两者的匹配度。实际结构化查询语句与目标结构化查询语句的匹配值可以用于表征实际结构化查询语句与目标结构化查询语句之间的匹配程度。
在这里,与自然语言查询语句对应的目标结构化查询语句可以作为初始模型的期望输出。预设的匹配条件可以是结构化查询语句中能够被提取的条件,例如实际结构化查询语句中的条件子句中的记录值是否与目标结构化查询语句中的条件子句中的记录值相同。例如,上述执行主体可以通过深度神经网络或者关键词匹配算法计算实际结构化查询语句与目标结构化查询语句之间的相似度值,作为匹配值。或者,上述执行主体可以将自然语言查询语句分词处理获取自然语言查询语句中的关键词,计算实际结构化查询语句与自然语言查询语句包含相同的关键词的数量、与所有关键词数量的比值,作为匹配值。例如,也可以通过预设的匹配公式,计算实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,具体的预设的匹配公式可以为:
Figure SMS_1
其中,
Figure SMS_2
为匹配值,/>
Figure SMS_3
为实际结构化查询语句,yg为目标结构化查询语句,condi为预设的匹配条件的个数,passed_condi为满足匹配条件的个数。
在本实施例的一些可选的实现方式中,匹配值包括第一匹配值;判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:判断实际结构化查询语句中的第一指令关键词与目标结构化查询语句中的第二指令关键词是否相同,以及判断第一指令关键词在实际结构化查询语句中的排列顺序与第二指令关键词在目标结构化查询语句中的排列顺序是否相同,得出第一判断结果;基于第一判断结果,确定实际结构化查询语句与目标结构化查询语句的第一匹配值。
在该实现方式中,上述执行主体可以将实际结构化查询语句中的第一指令关键词与目标结构化查询语句中的第二指令关键词对比、以及将第一指令关键词在实际结构化查询语句中的排列顺序与第二指令关键词在目标结构化查询语句中的排列顺序对比,得出第一判断结果,进而确定出第一匹配值。在这里,指令关键词可以用于表示结构化查询语句的各个指令功能,例如可以是结构化查询语句中的“select”、“from”、“where”等。例如,实际结构化查询语句为select A where B,目标结构化查询语句为select C where D,则实际结构化查询语句中排列顺序为第一的指令关键词为select、排列顺序为第二的指令关键词为where,目标结构化查询语句中排列顺序为第一的指令关键词为select、排列顺序为第二的指令关键词为where,在这里需要判断2个指令关键词是否相同,则预设的匹配条件个数为2个,实际结构化查询语句与目标结构化查询语句的指令关键词相同,则第一判断结果为满足匹配条件的个数为2个,则上述执行主体可以根据预设的匹配公式,计算出第一匹配值为1。通过该实现方式,可以判断模型输出的实际结构化查询语句是否符合预期输出的目标结构化查询语句的语法结构。
在本实施例的一些可选的实现方式中,匹配值还可以包括第二匹配值;判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:判断实际结构化查询语句中子句中的对象、与目标结构化查询语句中同一类型子句中的对象是否相同,得出第二判断结果;基于第二判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在该实现方式中,上述执行主体可以对比实际结构化查询语句中的子句与目标结构化查询语句中同一类型子句中的对象是否相同,得出第二判断结果,进一步确定出第二匹配值。
在这里,结构化查询语句中可以包括不同类型的子句,例如查询子句(select子句)、条件子句(where子句)、分组语句(group by子句)、排序语句(order by子句)、数量限制语句(limit子句)、聚合条件语句(having子句)等。若实际结构化查询语句中的查询子句为select SUM(A),目标结构化查询语句中的查询子句为select SUM(B),则实际结构化查询语句中的查询子句中有SUM、A两个对象,目标结构化查询语句中有SUM、B两个对象,在这里需要判断查询子句中的两个对象是否相同,则预设的匹配条件的个数为2个,实际结构化查询语句与目标结构化查询语句只有相同的SUM的对象,则第二判断结果为满足匹配条件的个数为1个,则可以根据预设的匹配公式,计算出第二匹配值为0.5。通过该实现方式,可以判断模型输出的实际结构化查询语句与预期输出的目标结构化查询语句中相同类型的子句所包含的对象是否匹配。
在本实施例的一些可选的实现方式中,匹配值还可以包括第三匹配值;判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:判断实际结构化查询语句中的子句中的对象的第一数据类型、与目标结构化查询语句中同一类型子句中的同一类型对象所关联的第二对象的第二数据类型是否相同,得出第三判断结果;基于第三判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在该实现方式中,上述执行主体可以对比实际结构化查询语句的子句中的对象的第一数据类型、与目标结构化查询语句中同一类型子句中的同一类型对象所关联的第二对象的第二数据类型是否相同,得出第二结果,进一步确定出第三匹配值。每个字句中的对象类型也不同,例如查询子句中可以包括聚合函数对象(例如min、max、count、sum、avg),条件子句中可以包括字段对象、条件运算符对象(例如<、>、=)、记录值对象。
例如,实际结构化查询语句中的查询子句为where age<lisa、目标结构化查询语句的查询子句为where age<25,则目标结构化查询语句的查询子句中的“age”的数据类型为数字、“<”的数据类型为数字、“25”的数据类型为数字,实际结构化查询语句中的查询子句中“age”的数据类型为数字、“<”的数据类型为数字、“lisa”的数据类型为文本,在这里需要判断实际结构化查询语句中查询子句的“<”的数据类型与目标结构化查询语句中查询子句的“age”的数据类型、实际结构化查询语句中查询子句的“lisa”的数据类型与目标结构化查询语句中查询子句的“<”的数据类型,则预设的匹配条件的个数为2个,实际结构化查询语句中查询子句的“<”的数据类型与目标结构化查询语句中查询子句的“age”的数据类型相同、实际结构化查询语句中查询子句的“lisa”的数据类型与目标结构查询语句中查询子句的“<”的数据类型不同,则第三判断结果为满足匹配条件的个数为1个,则可以根据预设的匹配公式,计算出第三匹配值为0.5。
例如在查询子句中,通常在聚合函数(例如min、max、count、sum、avg)、字段(列名)之间进行数据类型的对比,因为聚合函数avg只能在数字之间的执行求平均值的操作,所以聚合函数avg的数据类型为数字;而若查询子句中,avg(Name)中字段Name的数据类型为文本,聚合函数avg无法在文本之间执行求平均值的操作,聚合函数avg与字段Name之间数据类型不同、两者之间的操作关系是不成立的。
例如在条件子句、聚合条件子句中,通常在字段(列名)、条件运算符(例如<、>、=)和记录值之间进行数据类型的对比,字段的数据类型可以根据数据库中对字段的定义,条件运算符的数据类型可以是人为设定的。例如,字段Name的数据类型为文本;Name列的取值的数据类型也为文本;因为条件运算符“<”可以比较数字之间的大小,所以条件运算符“<”的数据类型为数字,例如Age<25中字段Age与条件运算符“<”的数据类型都是数字、条件运算符“<”与记录值“25”的数据类型都是数字,所以条件运算符“<”两边的操作是成立的;而若条件子句中,Name<Lisa,则字段Name是数据类型是文本,条件运算符“<”的数据类型是数字,记录值“Lisa”的数据类型是文本,则字段Name与条件运算符“<”的数据类型不同,条件运算符“<”与记录值“Lisa”的数据类型不同,条件运算符“<”两边的操作是不成立的;例如条件运算符“=”数据类型可以是数字、也可以是文本,例如Age=25中条件运算符“=”两边的操作是成立的、Name=Lisa中条件运算符“=”两边的操作是成立的。上述执行主体可以判断子句中条件运算符与两边对象的数据类型是否相同,确定条件子句中条件运算符与两边对象的操作是否成立。
通过该实现方式,判断实际结构化查询语句中的子句中的对象的第一数据类型、与目标结构化查询语句中同一类型子句中的同一类型对象所关联的第二对象的第二数据类型是否相同,确定所关联的对象之间的操作是否成立。
在本实施例的一些可选的实现方式中,匹配值还可以包括第四匹配值;判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:判断实际结构化查询语句中的条件子句中的记录值的列号与目标结构化查询语句的条件子句中的字段的列号是否相同,得出第四判断结果;基于第四判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在该实现方式中,上述执行主体可以对比实际结构化查询语句中的条件子句中的记录值的列号与目标结构化查询语句的条件子句中的字段的列号是否相同,得出第四判断结果,进而确定出第四匹配值。在这里,条件子句可以是条件子句(where子句)、也可以是聚合条件子句(having子句)。条件子句中的字段可以是数据库中表中的列名,每个字段包含某一个专题的信息,例如列名为Name,则字段为Name。条件子句中的记录值可以是数据库中表中的某一列的值,例如Name列中的值为具体的名字值。例如,实际结构化查询语句中的查询子句为where age<lisa、目标结构化查询语句的查询子句为where age<25,则目标结构化查询语句的查询子句中的字段为“age”,“age”在该表的第三列,列号为3,实际结构化查询语句中的查询子句中的记录值为“25”,“25”在该表的第四列,列号为4,在这里需要判断实际结构化查询语句中的查询子句中的记录值“25”的列号3与目标结构化查询语句的查询子句中的字段“age”的列号4,则预设的匹配条件的个数为1个,实际结构化查询语句中的查询子句中的记录值“25”的列号3与目标结构化查询语句的查询子句中的字段“age”的列号4不同,则第四判断结果为满足匹配条件的个数为0个,则可以根据预设的匹配公式,计算出第四匹配值为0。
数据库具有表-列名、列-值的关系约束关系,即在确定某个表的某列的情况下,该列的取值就相对确定了,例如Name列的取值是具体的姓名值(例如Lisa、Lily),年龄列的取值是具体的整数值(例如23、25),Nationality列的取值是具体的国家值(例如China、Sweden)。通过该实现方式,判断实际结构化查询语句中的条件子句中的记录值的列号与目标结构化查询语句的条件子句中的字段的列号是否相同,以确定实际结构化结构语句是否符合数据库中固有的列-值的约束关系。
具体地,在以上可选的实现方式中,可以选择以上四种可选的实现方式中任意一者来得到匹配值。或者,也可以选择以上四种可选的实现方式中任意两者或两者以上来得到匹配值。可以理解的是,若选择以上四种可选的实现方式中任意两者或两者以上来得到匹配值,可以将通过这些可选实现方式得到的匹配值进行加权求和,并将加权求和之后的匹配值作为最终的匹配值。例如,可以根据以上四种可选实现方式得到匹配值,例如最终的匹配值可以通过如下第一计算公式得到:
r=W1×r1十W2×r2十W3×r3十W4×r4
其中,r为总匹配值,r1为第一匹配值,r2为第二匹配值,r3为第三匹配值,r4为第四匹配值,w1为第一匹配值的权重,w2为第二匹配值的权重,w3为第三匹配值的权重,w4为第四匹配值的权重,其中,r1、r2、r3、r4可以通过上述的匹配公式进行计算;最终的匹配值还可以通过如下第二计算公式得到:
Figure SMS_4
其中,
Figure SMS_5
为匹配值,ci是第i组匹配条件,m为匹配条件的组数,/>
Figure SMS_6
为实际结构化查询语句,yg为目标结构化查询语句,condi为预设的匹配条件的个数,passed_condi为满足匹配条件的个数。
步骤203,基于匹配值,更新初始模型的网络参数,生成语言转换模型。
在本实施例中,上述执行主体可以基于步骤202确定出的匹配值,反馈至初始模型,更新初始模型的网络参数,即实现了初始模型参数的优化,响应于匹配值达到预设的目标匹配值,初始模型训练完成,将训练完成的初始模型确定为语言转换模型。例如可以将匹配值应用计算反馈至模型的奖励值,可以通过以下公式计算出具体奖励值:
Figure SMS_7
其中,N为实际结构化查询语句的个数,ωi为每个实际结构化查询语句的权重,p(yi)是初始模型输出实际结构化查询语句的概率,
Figure SMS_8
为匹配值,rb为匹配阈值。
由此可以看出,匹配值
Figure SMS_9
大于匹配阈值rb,则生成正值的奖励值反馈至初始模型,反之,匹配值/>
Figure SMS_10
小于匹配阈值rb,则生成负值的惩罚值反馈至初始模型。语言转换模型用于将自然语言查询语句转化为结构化查询语句。
继续参见图3,图3是根据本公开的实施例的用于生成语言转换模型的方法的一个应用场景的示意图。在图3的应用场景中,上述执行主体可以将“查询年龄大于23的用户的姓名”自然语言查询语句301输入至初始模型302,输出“SELECT Name WHERE Age>Sweden”实际结构化查询语句303,将“SELECT Name WHERE Age>Sweden”实际结构化查询语句303与“查询年龄大于23的用户的姓名”自然语言查询语句301对应的“SELECT Name WHERE Age>23”目标结构化查询语句304对比,确定实际结构化查询语303句与自然语言查询语句对应的目标结构化查询语句304的匹配值305,基于匹配值305,更新初始模型302的网络参数,判断匹配值305达到预先设置的目标匹配值,生成语言转换模型306。
本公开的上述实施例提供的方法,首先将自然语言查询语句输入初始模型,得到实际结构化查询语句,然后判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,最终基于匹配值,更新初始模型的网络参数,生成语言转换模型,从而实现了将实际结构化查询语句与目标结构化查询语句的匹配值应用于生成语言转换模型的过程中,提高了语言转换模型输出的准确性。
如图4所示,本实施例提供的用于生成语言转换模型的装置400包括输出单元401、判断单元402和生成单元403。其中,输出单元401,被配置成将自然语言查询语句输入初始模型,得到实际结构化查询语句;判断单元402,被配置成判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值;生成单元403,被配置成基于匹配值,更新初始模型的网络参数,生成语言转换模型。在本实施例中,用于生成语言转换模型的装置400中:输出单元401、判断单元402和生成单元403的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述判断单元进一步被配置成:判断实际结构化查询语句中的第一指令关键词与目标结构化查询语句中的第二指令关键词是否相同,以及判断第一指令关键词在实际结构化查询语句中的排列顺序与第二指令关键词在目标结构化查询语句中的排列顺序是否相同,得出第一判断结果;基于第一判断结果,确定实际结构化查询语句与目标结构化查询语句的第一匹配值。
在本实施例的一些可选的实现方式中,上述判断单元进一步被配置成:判断实际结构化查询语句中子句中的对象、与目标结构化查询语句中同一类型子句中的对象是否相同,得出第二判断结果;基于第二判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在本实施例的一些可选的实现方式中,上述判断单元进一步被配置成:判断实际结构化查询语句中的子句中的对象的第一数据类型、与目标结构化查询语句中同一类型子句中的同一类型对象所关联的第二对象的第二数据类型是否相同,得出第三判断结果;基于第三判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
在本实施例的一些可选的实现方式中,上述判断单元进一步被配置成:判断实际结构化查询语句中的条件子句中的记录值的列号与目标结构化查询语句的条件子句中的字段的列号是否相同,得出第四判断结果;基于第四判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
本公开的上述实施例提供的装置,输出单元401将自然语言查询语句输入初始模型,得到实际结构化查询语句,判断单元402判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,生成单元403基于匹配值,更新初始模型的网络参数,生成语言转换模型,从而实现了将实际结构化查询语句与目标结构化查询语句的匹配值应用于生成语言转换模型的过程中,提高了语言转换模型输出的准确性。
下面参考图5,下面参考图5,其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器)500的结构示意图。图5示出的服务器仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线604。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置505;包括例如液晶显示器(LCD,LiquidCrystal Display)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM 502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(Radio Frequency,射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将自然语言查询语句输入初始模型,得到实际结构化查询语句,判断实际结构化查询语句是否满足预设的匹配条件,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,基于匹配值,更新初始模型的网络参数,生成语言转换模型。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括输出单元、判断单元、生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,生成单元还可以被描述为“生成语言转换模型的单元”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于生成语言转换模型的方法,包括:
将自然语言查询语句输入初始模型,得到实际结构化查询语句;
判断实际结构化查询语句是否满足预设的匹配条件,基于预设的匹配条件个数和满足的匹配条件个数,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值;
基于所述匹配值,更新所述初始模型的网络参数,生成语言转换模型;
其中,所述匹配值包括第一匹配值;所述判断实际结构化查询语句是否满足预设的匹配条件,基于预设的匹配条件个数和满足的匹配条件个数,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:
判断实际结构化查询语句中的第一指令关键词与目标结构化查询语句中的第二指令关键词是否相同,以及判断所述第一指令关键词在实际结构化查询语句中的排列顺序与所述第二指令关键词在目标结构化查询语句中的排列顺序是否相同,得出第一判断结果;
基于所述第一判断结果,确定实际结构化查询语句与目标结构化查询语句的匹配值。
2.根据权利要求1所述的方法,其中,所述匹配值包括第二匹配值;所述判断实际结构化查询语句是否满足预设的匹配条件,基于预设的匹配条件个数和满足的匹配条件个数,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:
判断实际结构化查询语句中子句中的对象、与目标结构化查询语句中同一类型子句中的对象是否相同,得出第二判断结果;
基于所述第二判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
3.根据权利要求1所述的方法,其中,所述匹配值包括第三匹配值;所述判断实际结构化查询语句是否满足预设的匹配条件,基于预设的匹配条件个数和满足的匹配条件个数,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:
判断实际结构化查询语句中的子句中的对象的第一数据类型、与目标结构化查询语句中同一类型子句中的同一类型对象所关联的第二对象的第二数据类型是否相同,得出第三判断结果;
基于所述第三判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
4.根据权利要求1所述的方法,其中,所述匹配值包括第四匹配值;所述判断实际结构化查询语句是否满足预设的匹配条件,基于预设的匹配条件个数和满足的匹配条件个数,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值,包括:
判断实际结构化查询语句中的条件子句中的记录值的列号与目标结构化查询语句的条件子句中的字段的列号是否相同,得出第四判断结果;
基于所述第四判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
5.一种用于生成语言转换模型的装置,包括:
输出单元,被配置成将自然语言查询语句输入初始模型,得到实际结构化查询语句;
判断单元,被配置成判断实际结构化查询语句是否满足预设的匹配条件,基于预设的匹配条件个数和满足的匹配条件个数,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值;
生成单元,被配置成基于所述匹配值,更新所述初始模型的网络参数,生成语言转换模型;
其中,所述匹配值包括第一匹配值;所述判断单元进一步被配置成:
判断实际结构化查询语句中的第一指令关键词与目标结构化查询语句中的第二指令关键词是否相同,以及判断所述第一指令关键词在实际结构化查询语句中的排列顺序与所述第二指令关键词在目标结构化查询语句中的排列顺序是否相同,得出第一判断结果;
基于所述第一判断结果,确定实际结构化查询语句与目标结构化查询语句的匹配值。
6.根据权利要求5所述的装置,其中,所述匹配值包括第二匹配值;所述判断单元进一步被配置成:
判断实际结构化查询语句中子句中的对象、与目标结构化查询语句中同一类型子句中的对象是否相同,得出第二判断结果;
基于所述第二判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
7.根据权利要求5所述的装置,其中,所述匹配值包括第三匹配值;所述判断单元进一步被配置成:
判断实际结构化查询语句中的子句中的对象的第一数据类型、与目标结构化查询语句中同一类型子句中的同一类型对象所关联的第二对象的第二数据类型是否相同,得出第三判断结果;
基于所述第三判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
8.根据权利要求5所述的装置,其中,所述匹配值包括第四匹配值;所述判断单元进一步被配置成:
判断实际结构化查询语句中的条件子句中的记录值的列号与目标结构化查询语句的条件子句中的字段的列号是否相同,得出第四判断结果;
基于所述第四判断结果,确定实际结构化查询语句与自然语言查询语句对应的目标结构化查询语句的匹配值。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN201911335116.XA 2019-12-23 2019-12-23 用于生成语言转换模型的方法和装置 Active CN111008213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911335116.XA CN111008213B (zh) 2019-12-23 2019-12-23 用于生成语言转换模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911335116.XA CN111008213B (zh) 2019-12-23 2019-12-23 用于生成语言转换模型的方法和装置

Publications (2)

Publication Number Publication Date
CN111008213A CN111008213A (zh) 2020-04-14
CN111008213B true CN111008213B (zh) 2023-05-26

Family

ID=70116739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911335116.XA Active CN111008213B (zh) 2019-12-23 2019-12-23 用于生成语言转换模型的方法和装置

Country Status (1)

Country Link
CN (1) CN111008213B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611344B (zh) * 2020-05-06 2023-06-13 北京智通云联科技有限公司 基于字典和知识图谱的复杂属性查询方法、系统及设备
CN112783921A (zh) * 2021-01-26 2021-05-11 中国银联股份有限公司 一种数据库操作方法及装置
CN113254619A (zh) * 2021-06-21 2021-08-13 北京沃丰时代数据科技有限公司 针对用户询问的自动答复方法、装置和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156135A (zh) * 2015-04-10 2016-11-23 华为技术有限公司 查询数据的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294582B (zh) * 2016-07-28 2019-10-29 上海未来伙伴机器人有限公司 基于自然语言的人机交互方法及系统
KR20190019748A (ko) * 2017-08-18 2019-02-27 삼성전자주식회사 자연어 생성 방법 및 장치
EP3502927A1 (en) * 2017-12-20 2019-06-26 Facebook, Inc. Methods and systems for responding to inquiries based on social graph information
CN109766355A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 一种支持自然语言的数据查询方法和系统
US20190325292A1 (en) * 2019-06-28 2019-10-24 Intel Corporation Methods, apparatus, systems and articles of manufacture for providing query selection systems
CN110442332A (zh) * 2019-07-04 2019-11-12 深圳壹账通智能科技有限公司 自然语言转换成程序语言的方法、装置及计算机设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156135A (zh) * 2015-04-10 2016-11-23 华为技术有限公司 查询数据的方法及装置

Also Published As

Publication number Publication date
CN111008213A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
JP7166322B2 (ja) モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US20200057946A1 (en) Techniques for building a knowledge graph in limited knowledge domains
CN111008213B (zh) 用于生成语言转换模型的方法和装置
CN111159220B (zh) 用于输出结构化查询语句的方法和装置
WO2022121801A1 (zh) 信息处理方法、装置和电子设备
CN109740167B (zh) 用于生成信息的方法和装置
US11321534B2 (en) Conversation space artifact generation using natural language processing, machine learning, and ontology-based techniques
WO2020182123A1 (zh) 用于推送语句的方法和装置
US20210110111A1 (en) Methods and systems for providing universal portability in machine learning
WO2022115291A1 (en) Method and system for over-prediction in neural networks
US11688393B2 (en) Machine learning to propose actions in response to natural language questions
WO2022188534A1 (zh) 信息推送的方法和装置
US11694029B2 (en) Neologism classification techniques with trigrams and longest common subsequences
WO2023217019A1 (zh) 文本处理方法、装置、存储介质、电子设备及系统
CN113393288B (zh) 订单处理信息生成方法、装置、设备和计算机可读介质
US20230041339A1 (en) Method, device, and computer program product for user behavior prediction
CN109800438B (zh) 用于生成信息的方法和装置
CN110990528A (zh) 一种问答方法、装置及电子设备
CN111046146B (zh) 用于生成信息的方法和装置
CN113779370B (zh) 一种地址检索方法和装置
CN116911714B (zh) 物品运输方法、装置、电子设备和计算机可读介质
CN117493375A (zh) 一种结构化查询语句相似度检测方法、装置及设备
CN117312641A (zh) 智能获取信息的方法、装置、设备及存储介质
CN113298488A (zh) 行业问题库构建方法、装置、电子设备和计算机可读介质
CN114298004A (zh) 复述文本生成方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant