CN117609468A - 生成检索语句的方法及装置 - Google Patents
生成检索语句的方法及装置 Download PDFInfo
- Publication number
- CN117609468A CN117609468A CN202311659932.2A CN202311659932A CN117609468A CN 117609468 A CN117609468 A CN 117609468A CN 202311659932 A CN202311659932 A CN 202311659932A CN 117609468 A CN117609468 A CN 117609468A
- Authority
- CN
- China
- Prior art keywords
- information
- data table
- data
- current query
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 48
- 230000004927 fusion Effects 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种生成检索语句的方法及装置,以一种新的生成检索语句的模式,通过针对各个数据表建立数据表信息集,并将用户输入的当前查询信息与数据表信息集进行语义匹配,确定候选数据表,再根据候选数据表的表信息对当前查询信息进行扩展,从而利用推理模型生成检索语句。该实施方式可以提高生成检索语句的有效性。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种生成检索语句的方法及装置。
背景技术
检索语句主要用于管理关系型数据库系统,利用检索语句能够对数据库中的数据进行存取、查询、更新等操作。常见的检索语句包括:SQL(Structured Query Language,结构化查询语言)以及诸如HiveQL(hiveStructured Query Language,hive结构化查询语言)之类的类SQL数据查询语言。通常,生成检索语句的方式主要为人工编写代码的方式,因而,数据分析人员需要在了解业务的同时,还需要了解关系型数据库的表结构,当表结构调整时,也需要第一时间将调整后的表结构同步到数据分析人员,以供数据分析人员编写出合理的检索语句。随着关系型数据库规模的不断发展,为了编写出合理的检索语句,数据分析人员需要投入较大的精力以及时间。导致编写检索语句的效率不高。在很多现实场景下,数据检索的这类门槛会带来工作效率的降低。例如,用户想查询满足条件A的数据X,但不知道数据X存放在哪个数据库的哪张表中,条件A应该通过哪个字段判断,此时用户就需要多次询问相关业务人员确定查询目标,再进行编码查询。因此,如何降低需求和操作之间的门槛,提高用户触达所需数据的效率,成为数据检索领域的重要技术问题。
发明内容
本说明书一个或多个实施例描述了一种生成检索语句的方法及装置,用以解决背景技术提到的一个或多个问题。
根据第一方面,提供一种生成检索语句的方法,包括:获取用户通过自然语言描述查询目标的当前查询信息;将所述当前查询信息与数据信息表集进行语义匹配,以确定满足预定匹配条件的若干候选数据表,所述数据表信息集的各个元素分别对应各个数据表的表信息;针对各个候选数据表,分别将各个候选数据表的表信息与所述当前查询信息一起输入预先训练的推理模型,以根据所述推理模型的输出结果确定若干个候选检索语句。
在一个实施例中,所述数据表信息集的单个元素为由单个数据表的表信息生成的语义向量,所述将所述当前查询信息与数据信息表集进行语义匹配包括:对所述当前查询信息进行分词,以得到若干分词词汇;将各个分词词汇分别对应的各个词向量融合为当前语义向量;分别确定数据信息表集中的各个语义向量与当前语义向量的相似度。
在一个实施例中,所述数据表信息集的单个元素为由单个数据表的表信息生成的关键词集,所述将所述当前查询信息与数据信息表集进行语义匹配包括:对所述当前查询信息进行分词,以得到当前关键词集;分别确定数据信息表集中的各个关键词集与当前关键词集的相似度。
在一个实施例中,所述预定匹配条件包括以下至少一项:对应的相似度由大到小排列在前预定数量;对应的相似度超过预定阈值。
在一个实施例中,所述针对各个候选数据表,分别将各个候选数据表的表信息与所述当前查询信息一起输入预先训练的推理模型包括:针对单个候选数据表,将相应表信息中的预定信息项与所述当前查询信息进行字符拼接后一起输入预先训练的推理模型。
在一个实施例中,所述预定信息项包括表标识。
在一个实施例中,所述针对各个候选数据表,分别将各个候选数据表的表信息与所述当前查询信息一起输入预先训练的推理模型包括:针对单个候选数据表,将相应表信息对应的语义向量与所述当前查询信息对应的当前语义向量融合,得到融合向量;
将所述融合向量输入预先训练的推理模型。
在一个实施例中,所述推理模型的各个输出结果还对应有评估分数,所述根据所述推理模型的输出结果确定若干个候选检索语句包括:根据评估分数的高低,确定若干个输出结果作为候选检索语句。
根据第二方面,提供一种生成检索语句的装置,包括:
获取单元,配置为获取用户通过自然语言描述查询目标的当前查询信息;
匹配单元,配置为将所述当前查询信息与数据信息表集进行语义匹配,以确定满足预定匹配条件的若干候选数据表,所述数据表信息集的各个元素分别对应各个数据表的表信息;
生成单元,配置为针对各个候选数据表,分别将各个候选数据表的表信息与所述当前查询信息一起输入预先训练的推理模型,以根据所述推理模型的输出结果确定若干个候选检索语句。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的装置和方法,以一种新的生成检索语句的模式,通过针对各个数据表建立数据表信息集,并将用户输入的当前查询信息与数据表信息集进行语义匹配,确定候选数据表,再根据候选数据表的表信息对当前查询信息进行扩展,从而利用推理模型生成检索语句。该实施方式无需人工专业知识背景的学习,节约相应人力成本,且可以通过匹配模式来确定候选数据表,解除推理模型对数据表的依赖,轻量级的数据表信息集可以实时更新,不担心遗忘,同时无需灌输大量知识数据让推理模型记忆,也可以大大缩短推理模型训练时长。另外,利用数据表信息对查询信息进行扩展,使得推理模型接收到的信息量多于用户提供的信息量,推理模型基于得到的更完整的信息,产生更准确的检索语句。总之,本说明书提供的生成检索语句的流程可以提高检索语句的有效性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1本说明书技术构思下的一个具体实施架构示意图;
图2示出了根据本说明书实施例的生成检索语句的流程示意图;
图3示出了生成检索语句的一个具体例子的执行流程意图;
图4示出了根据本说明书一个实施例的生成检索语句的装置的结构框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1示出了本说明书实施例的一个具体实施架构示意图。如图1所示,在本说明书提供的实施架构中,可以包括服务端和若干用户终端。其中,用户终端作为人机交互接口,可以接收用户输入的查询信息,该查询信息中可以包含查询目标。其中,查询信息可以通过自然语言描述。例如,在保险业务查询场景下,用户输入自然语言描述的查询信息“查询投保借款明细的保单号”,其中,“投保借款明细的保单号”为查询目标。用户终端可以通过网络连接,将用户输入的查询信息发送至服务端。服务端可以通过相应的计算平台,结合数据库信息,通过预先训练的推理模型,针对查询目标生成相应的检索语句,并反馈至用户终端,以供用户利用检索语句向数据库进行数据查询。
其中,推理模型可以是规则模型,也可以是预先训练的机器学习模型,用于根据查询目标生成相应的SQL或类SQL语言的检索语句。以规则模型为例,可以根据数据库信息和查询目标匹配到目标数据库(或数据表),然后根据查询目标确定目标字段和查询条件,填充到预定查询语句模板,从而生成相应的检索语句。
值得说明的是,图1仅为本说明书实施例的一个具体实施架构示例。例如,实践中,推理过程也可以在用户终端进行,此时,计算平台可以设于用户终端,用户终端的数据库信息可以经由服务端更新,也可以经由用户终端更新。另外,这里的用户,是相对于服务端而言的,其可能是单个网络用户,也可能是数据使用的业务方,例如某保险业务公司等,本说明书对此不做限定。
图1示出的实施架构下,用户无需了解相关技术或业务知识去编写SQL,而是直接使用自然语言提出问题即可从大范围数据中检索所需数据资产,并生成推荐的检索方式,如SQL语句。从而,可以避免相应的人工编写检索语句的成本,以及为了人工编写检索语句付出的时间成本、沟通成本等。
然而,常规的推理模型往往以数据表为基础,所记住的知识通常是非实时的,其知识更新依赖于周期性训练,受限于模型参数规模,一轮更新训练可能间隔数日甚至数月,面对会动态变化的数据检索场景,过时数据可能导致错误结论。在数据检索的场景下,如果推理模型未训练过用户需要检索的数据知识,或被训练过与用户需求相似但并非用户所需的知识,就会产生“幻觉”推理等,回答出错误检索内容。另外,纯问答的推理模型可能无法记住所有数据检索的场景,例如:企业中有100万张数据表,每张表平均有10个字段,用户提问可能包括对某个字段的查询、对某几个字段的组合查询、条件查询、分组查询等等,可能的查询数据量将产生组合爆炸(数据量级剧增)问题,在推理模型的参数量有限的情况下,无法记全无限膨胀的场景。同时,训练推理模型的时间成本和训练成本也是极高的,一旦模型不理想,付出的代价较大。
有鉴于此,本说明书提供一种技术构思,一方面,将数据表的表信息加入数据表信息集,用于与用户输入的查询信息匹配,以确定候选数据表,然后将各个候选数据表的表信息与所述查询目标信息一起作为查询信息,另一方面,利用训练好的大模型作为推理模型处理经表信息扩展的查询信息,从而生成检索语句。该技术构思提供了一种检索语句生成的新模式,而不依赖于数据表是否在推理模型中训练过,因此,不要求模型训练数据的实时性,也无需灌输大量知识数据让模型记忆,数据表信息可以实时更新,不会出现模型死记硬背会“遗忘”知识的问题。如此,可以提高通过自然语言生成检索语句的准确性和有效性。
图2示出了根据一个实施例的生成检索语句流程示意图。该流程的执行主体可以是具有一定计算能力的计算机、设备、服务器,更具体地,例如为图1示出的计算平台。如图2所示,生成检索语句流程可以包括:步骤202,获取用户通过自然语言描述查询目标的当前查询信息;步骤204,将当前查询信息与数据表信息集进行语义匹配,以确定满足预定匹配条件的若干候选数据表,数据表信息集的各个元素分别对应各个数据表的表信息;步骤206,针对各个候选数据表,分别将各个候选数据表的表信息与当前查询信息一起输入预先训练的推理模型,以根据推理模型的输出结果确定若干个候选检索语句。
首先,在步骤202中,获取用户通过自然语言描述查询目标的当前查询信息。
可以理解,当前查询信息是当前用户输入的描述查询目标的信息。该信息可以通过自然语言描述,而不要求专业和规范。查询目标则是待获取的信息。可选地,查询目标中可以包含与条件、字段等中的一项相关的信息。
参考图3所示,在一个保险数据的查询场景中,用户输入的当前查询信息为“查询至多10条投保借款明细的保单号”,其中查询目标为“至多10条投保借款明细的保单号”,这里,“至多10条”、可以是对查询目标的条件限定,“投保借款明细”可以对应着查询的字段信息,“保单号”可以是字段信息,也可以是数据表中的数据标识。在本说明书的技术构思下,对用户输入的当前查询信息并不要求精准描述查询字段。
在具体的应用场景中,可以直接从本地获取当前用户输入的当前查询信息,也可以是从用户终端获取用户输入的查询信息作为当前查询信息,在此不做限定。
接着,通过步骤204,将当前查询信息与数据表信息集进行语义匹配,以确定满足预定匹配条件的若干候选数据表。
其中,数据表信息集用于存储各个数据表的表信息。具体而言,数据表信息集中的单个元素可以对应单个数据表的表信息。这里,数据表的表信息可以是对数据表进行描述的各种信息,例如可以包括表标识(如表名Table X等)、表的功能(所记录的信息,如购物表)等,还可以包括但不限于表结构信息(如字段、表ID、主键Key中的至少一项)、创建时间等等中的一项或多项。
数据表信息集中的单个元素可以是描述相应数据表的表信息的关键词集、语义向量等中的一项。数据表信息集可以是预先对数据表信息进行信息过滤、加工而构建的。在新的数据表产生时,可以对新的数据表的相关信息过滤加工后得到相应的表信息加入数据表信息集。在可选的实施例中,数据表信息集可以经由用户终端维护和更新。
以关键词集为例,可以将表信息分词后得到的各个词汇加入相应关键词集。作为一个具体例子,假设一个数据表为购物表,包括购买日期、商品名称、金额、商户、消费用户等字段,则相应的关键词集可以包括Table X(表标识)、购买日期、商品名称、商户、消费者等等中的一个或多个词汇。
语义向量则可以对单个数据表的表信息通过向量形式表示。例如,可以对表信息对应的各个词汇的词向量融合为单个表向量。这里,词向量可以通过Word2Vec、独热编码(one hot)、词频-逆向文件频率(TF-IDF)等等各种方式确定。可以理解,由于各个表信息的词汇数量可能各不相同,因此,词向量的融合可以采用诸如加和、求均值、嵌入(embedding)等等之一的可以确保融合后的向量维数固定的方式进行。以嵌入为例,可以将各个词向量作为预先通过大量语料训练的语言嵌入模型的输入,得到预定维数的输出向量,作为相应的数据表语义向量。
当前查询信息与数据表信息集进行语义匹配,可以是与数据表信息集中的各个元素分别匹配。具体而言,可以对当前查询信息进行处理,得到与数据表信息集中的元素形式一致的处理结果,例如得到的处理结果为关键词集或语义向量,然后将处理结果与数据表信息集中的各个元素一一匹配。
其中,关键词集的匹配可以通过Jaccard系数(杰卡德相似系数)、文本匹配模型(如bert模型等)等等方法进行。以Jaccard系数为例,两个关键词集A、B的Jaccard相似系数为A、B的交集中的词汇数量与A、B的并集中的词汇数量的比值。语义向量的匹配则可以通过余弦相似度、欧氏距离等等向量相似度来衡量,在此不再赘述。
如此,可以得到当前查询信息与数据表信息集中各个元素分别对应的各个相似度。数据表信息集中各个元素与各个数据表一一对应,例如,在数据表信息集的单个元素为向量形式的情况下,可以查询向量与数据表的对应关系,确定相应的数据表。于是,根据各个相似度的大小,可以将与数据表信息集中若干个元素对应的数据表作确定为候选数据表。例如,可以根据相似度由大到小的顺序,将对应相似度排列靠前的预定数量的数据表确定为候选信息表;再例如,可以将所对应的相似度大于预定阈值的数据表确定为候选信息表;等等。
在可选的实施例中,当前查询信息与数据信息表集的语义匹配可以采用常规技术中的匹配模块进行。例如,采用LangChain中的大模型架构进行语义匹配。LangChain具有将语言模型连接到其他数据源,以及允许语言模型与其环境进行交互的特点。通过将数据表信息集作为外接知识库,将当前查询信息作为输入,可以直接调用Lang Chain模块从数据表信息集中匹配当前查询信息相对应的数据项(元素),从而确定相应的候选数据表。
然后,经由步骤206,针对各个候选数据表,分别将各个候选数据表的表信息与当前查询信息一起输入预先训练的推理模型,以根据推理模型的输出结果确定若干个候选检索语句。
可以理解,针对单个候选数据表,可以将其表信息作为当前查询信息的扩展信息,与当前查询信息一起构成生成检索语句的语料信息。其中,作为扩展信息的表信息可以基于数据表信息集的相应元素确定。扩展信息可以是数据信息表集记录的全部信息项,也可以是其中的部分信息项。例如,可以仅将表标识作为扩展信息,或者将表标识和字段标识(如商品名称、购买日期等)作为扩展信息,等等。
通过语料信息生成检索语句的过程可以通过预先训练的推理模型实现。扩展信息和当前查询信息可以通过拼接或融合等方式进行处理,并作为推理模型的输入。这里的拼接可以是字符拼接,也可以是语义向量的拼接,在此不再赘述。同理,融合可以是字符的融合,也可以是语义向量的融合,字符的融合可以经由对字符的重组、合并、增删等方式进行,例如当前查询信息“查询至多10条投保借款明细的保单号”与扩展信息“Table X”的融合结果可以为“从Table X数据表中查询至多10条投保借款明细的保单号”。这种融合可以经由人工进行,也可以经由语言模型进行,在此不做限定。语义向量的融合则可以是对两者分别对应的语义向量的加和、求平均等等。
这里,推理模型是用于将预料信息转换成检索语句的信息。推理模型可以是规则模型,也可以是经样本集训练的机器学习模型。其中,规则模型可以设置多个预定检索语句结构,单个检索语句结构可以保留目标数据表、目标字段、查询数据行数等预定信息,在使用语料信息中的相关数据对预定检索语句结构进行填充后,可以得到有效的检索语句。预先训练的机器学习模型则是以语料信息和检索语句组成的数据对作为样本,通过选定的机器学习模型处理样本语料信息,并把相应的检索语句作为样本标签,调整模型参数,从而训练出推理模型。
根据一些可能的设计,推理模型可以通过大模型实现。其中,大模型通常是一种基于预训练的网络模型,其可以实现海量语料的泛化和微调,适用于多种自然语言任务。在大模型的AI框架下,可以对样本采用根据步骤202、步骤204生成的语料信息作为输入,以及相应检索语句作为标签,对经过预训练的大模型进行场景适应性训练,使得大模型可以作为推理模型完成根据查询信息生成检索语句的推理功能。这里的大模型可以是任意常规的大语言模型,在此不再例举。
值得说明的是,在一些可选的实现方式中,推理模型还可以对输入的语料信息进行过滤,例如过滤掉一些存在诸如表信息错误、推理错误之类的问题的语料信息。在全部语料信息均存在以上问题导致无法推理的情况下,推理模型可以反馈推理错误的结果。在至少一条语料信息可以正常推理的情况下,推理模型的输出结果可以对应到至少一个检索语句。则该至少一个检索语句可以称为候选检索语句。在可选的实施例中,推理模型的输出结果对应的候选检索语句可以被推送给用户以供用户进行选择。
图3作为一个具体示例,用户可以对应有自建的数据信息表集(图3中的自建知识库DB),作为LangChain模块的外接知识库,语义匹配例如可以是通过LangChain模块实现的文本相似度匹配。
如图3所示,假设用户通过输入的当前查询信息为:“查询满足条件属性1为X的数据A”,则通过解析当前查询信息,并调用LangChain模块查询自建的数据信息表集知识库,匹配到与“查询满足条件X的数据A”相似的数据项。假设匹配结果为如下表1所示的数据项:
表1语义匹配数据项示意
表名 | 表中文名 | 原始表结构信息 |
table_name_A | 数据A所在的表 | 属性1,属性2,... |
进一步地,可以将匹配结果清洗后与用户问题拼接,拼接结果例如为:查询满足条件X的数据A,数据表为table_name_A,表结构为属性1,属性2,...
然后,将拼接结果输入推理模型进行推理,以推理模型为Text to SQL形式的大模型(数量级超过预定数量级,如百亿级)为例,推理结果可以对应有相应的打分,并按照打分高低进行排序(Ranking),并提供给用户。在图3的示例中,例如可以产生精确的推理结果即SQL检索语句,例如包括:SELECT A FROM table_name_A where属性1="X"。
本说明书的技术构思下提供的生成检索语句的方法,以一种新的生成检索语句的模式,通过针对各个数据表建立数据表信息集,并将用户输入的当前查询信息与数据表信息集进行语义匹配,确定候选数据表,再根据候选数据表的表信息对当前查询信息进行扩展,从而利用推理模型生成检索语句。该实施方式无需人工专业知识背景的学习,节约相应人力成本,且可以通过匹配模式来确定候选数据表,解除推理模型对数据表的依赖,轻量级的数据表信息集可以减少用户提供的数据信息量,且可以实时更新,不担心遗忘,同时无需灌输大量知识数据让推理模型记忆,也可以大大缩短推理模型训练时长。另外,利用数据表信息对查询信息进行扩展,使得推理模型接收到的信息量多于用户提供的信息量,推理模型基于得到的更完整的信息,产生更准确的检索语句。总之,本说明书提供的生成检索语句的流程可以提高生成检索语句的有效性。
根据另一方面的实施例,还提供一种生成检索语句的装置。该装置可以设于具有一定计算能力的计算机、终端、服务器,更具体地,如图1所示的服务端。图4示出了根据一个实施例的生成检索语句的装置400。如图4所示,装置400可以包括:
获取单元401,配置为获取用户通过自然语言描述查询目标的当前查询信息;
匹配单元402,配置为将当前查询信息与数据信息表集进行语义匹配,以确定满足预定匹配条件的若干候选数据表,数据表信息集的各个元素分别对应各个数据表的表信息;
生成单元403,配置为针对各个候选数据表,分别将各个候选数据表的表信息与当前查询信息一起输入预先训练的推理模型,以根据推理模型的输出结果确定若干个候选检索语句。
在一个实施例中,数据表信息集的单个元素为由单个数据表的表信息生成的语义向量,匹配单元402进一步可以配置为:对当前查询信息进行分词,以得到若干分词词汇;将各个分词词汇分别对应的各个词向量融合为当前语义向量;分别确定数据信息表集中的各个语义向量与当前语义向量的相似度。
在另一个实施例中,数据表信息集的单个元素为由单个数据表的表信息生成的关键词集,匹配单元402进一步可以配置为:对所述当前查询信息进行分词,以得到当前关键词集;分别确定数据信息表集中的各个关键词集与当前关键词集的相似度。
其中,预定匹配条件可以包括以下至少一项:对应的相似度由大到小排列在前预定数量;对应的相似度超过预定阈值。
根据可选的实现方式,生成单元403针对单个候选数据表,可以将相应表信息中的预定信息项与当前查询信息进行字符拼接后一起输入预先训练的推理模型,也可以将相应表信息对应的语义向量与当前查询信息对应的当前语义向量融合,得到融合向量,以将融合向量输入预先训练的推理模型。
根据一个可能的设计,推理模型的各个输出结果还对应有评估分数,生成单元403可以根据评估分数的高低,确定若干个输出结果作为候选检索语句。
值得说明的是,图4所示的装置400与图2描述的方法相对应,图2示出的方法实施例中的相应描述同样适用于装置400,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当上述计算机程序在计算机中执行时,令计算机执行结合图2等所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,该存储器中存储有可执行代码,在处理器执行上述可执行代码时,实现结合图2等所描述的方法。本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所描述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所描述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。
Claims (11)
1.一种生成检索语句的方法,包括:
获取用户通过自然语言描述查询目标的当前查询信息;
将所述当前查询信息与数据信息表集进行语义匹配,以确定满足预定匹配条件的若干候选数据表,所述数据表信息集的各个元素分别对应各个数据表的表信息;
针对各个候选数据表,分别将各个候选数据表的表信息与所述当前查询信息一起输入预先训练的推理模型,以根据所述推理模型的输出结果确定若干个候选检索语句。
2.如权利要求1所述的方法,其中,所述数据表信息集的单个元素为由单个数据表的表信息生成的语义向量,所述将所述当前查询信息与数据信息表集进行语义匹配包括:
对所述当前查询信息进行分词,以得到若干分词词汇;
将各个分词词汇分别对应的各个词向量融合为当前语义向量;
分别确定数据信息表集中的各个语义向量与当前语义向量的相似度。
3.如权利要求1所述的方法,其中,所述数据表信息集的单个元素为由单个数据表的表信息生成的关键词集,所述将所述当前查询信息与数据信息表集进行语义匹配包括:
对所述当前查询信息进行分词,以得到当前关键词集;
分别确定数据信息表集中的各个关键词集与当前关键词集的相似度。
4.如权利要求2或3所述的方法,其中,所述预定匹配条件包括以下至少一项:对应的相似度由大到小排列在前预定数量;对应的相似度超过预定阈值。
5.如权利要求1所述的方法,其中,所述针对各个候选数据表,分别将各个候选数据表的表信息与所述当前查询信息一起输入预先训练的推理模型包括:
针对单个候选数据表,将相应表信息中的预定信息项与所述当前查询信息进行字符拼接后一起输入预先训练的推理模型。
6.如权利要求5所述的方法,其中,所述预定信息项包括表标识。
7.如权利要求1所述的方法,其中,所述针对各个候选数据表,分别将各个候选数据表的表信息与所述当前查询信息一起输入预先训练的推理模型包括:
针对单个候选数据表,将相应表信息对应的语义向量与所述当前查询信息对应的当前语义向量融合,得到融合向量;
将所述融合向量输入预先训练的推理模型。
8.如权利要求1所述的方法,其中,所述推理模型的各个输出结果还对应有评估分数,所述根据所述推理模型的输出结果确定若干个候选检索语句包括:
根据评估分数的高低,确定若干个输出结果作为候选检索语句。
9.一种生成检索语句的装置,包括:
获取单元,配置为获取用户通过自然语言描述查询目标的当前查询信息;
匹配单元,配置为将所述当前查询信息与数据信息表集进行语义匹配,以确定满足预定匹配条件的若干候选数据表,所述数据表信息集的各个元素分别对应各个数据表的表信息;
生成单元,配置为针对各个候选数据表,分别将各个候选数据表的表信息与所述当前查询信息一起输入预先训练的推理模型,以根据所述推理模型的输出结果确定若干个候选检索语句。
10.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
11.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311659932.2A CN117609468A (zh) | 2023-12-05 | 2023-12-05 | 生成检索语句的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311659932.2A CN117609468A (zh) | 2023-12-05 | 2023-12-05 | 生成检索语句的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117609468A true CN117609468A (zh) | 2024-02-27 |
Family
ID=89953383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311659932.2A Pending CN117609468A (zh) | 2023-12-05 | 2023-12-05 | 生成检索语句的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609468A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118377783A (zh) * | 2024-06-27 | 2024-07-23 | 卓世智星(青田)元宇宙科技有限公司 | Sql语句生成方法及装置 |
-
2023
- 2023-12-05 CN CN202311659932.2A patent/CN117609468A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118377783A (zh) * | 2024-06-27 | 2024-07-23 | 卓世智星(青田)元宇宙科技有限公司 | Sql语句生成方法及装置 |
CN118377783B (zh) * | 2024-06-27 | 2024-09-17 | 卓世智星(青田)元宇宙科技有限公司 | Sql语句生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11334635B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
CN110543517B (zh) | 一种基于Elasticsearch实现海量数据复杂查询方法、装置及介质 | |
US20210019341A1 (en) | Implementing a software action based on machine interpretation of a language input | |
US7827125B1 (en) | Learning based on feedback for contextual personalized information retrieval | |
WO2021174783A1 (zh) | 近义词推送方法、装置、电子设备及介质 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
US20160078047A1 (en) | Method for obtaining search suggestions from fuzzy score matching and population frequencies | |
US20060184517A1 (en) | Answers analytics: computing answers across discrete data | |
CN112035599A (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN111782763A (zh) | 基于语音语义的信息检索方法、及其相关设备 | |
US12008047B2 (en) | Providing an object-based response to a natural language query | |
CN112988784B (zh) | 数据查询方法、查询语句生成方法及其装置 | |
CN110597844A (zh) | 异构数据库数据统一访问方法及相关设备 | |
Wirawan et al. | Balinese historian chatbot using full-text search and artificial intelligence markup language method | |
Delpeuch | A survey of OpenRefine reconciliation services | |
CN117076636A (zh) | 一种智能客服的信息查询方法、系统和设备 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
CN117609468A (zh) | 生成检索语句的方法及装置 | |
US20230142351A1 (en) | Methods and systems for searching and retrieving information | |
CN116414940A (zh) | 标准问题的确定方法、装置及相关设备 | |
CN111126073B (zh) | 语义检索方法和装置 | |
Hovy et al. | Data Acquisition and Integration in the DGRC's Energy Data Collection Project | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
CN114153993A (zh) | 一种用于智能问答的知识图谱自动化构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |