CN112835927A - 一种结构化查询语句的生成方法、装置和设备 - Google Patents
一种结构化查询语句的生成方法、装置和设备 Download PDFInfo
- Publication number
- CN112835927A CN112835927A CN202110317852.3A CN202110317852A CN112835927A CN 112835927 A CN112835927 A CN 112835927A CN 202110317852 A CN202110317852 A CN 202110317852A CN 112835927 A CN112835927 A CN 112835927A
- Authority
- CN
- China
- Prior art keywords
- structured query
- semantic
- target text
- target
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 230000004048 modification Effects 0.000 claims description 13
- 238000012986 modification Methods 0.000 claims description 13
- 238000002372 labelling Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 11
- 239000000047 product Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000000370 acceptor Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供了一种结构化查询语句的生成方法、装置和设备,涉及大数据技术领域,其中,该方法包括:获取目标文本;基于所述目标文本生成目标依存句法树;基于所述目标依存句法树,确定所述目标文本的语义依存结构;利用所述语义依存结构,确定结构化查询参数集;其中,所述结构化查询参数集中包含所述目标文本对应的多个生成结构化查询语句所需的结构化查询参数值;根据所述结构化查询参数集和语义依存结构,生成所述目标文本对应的结构化查询语句。在本说明书实施例中,可以基于语义依存结构准确地生成目标文本的结构化查询语句,使得非技术背景的业务人员也可以便捷地利用结构化查询语句来访问大数据。
Description
技术领域
本说明书实施例涉及大数据技术领域,特别涉及一种结构化查询语句的生成方法、装置和设备。
背景技术
随着大数据技术的迅速发展和广泛应用,数据已经成为生产要素之一。许多业务人员的日常工作已经离不开大数据,通过结构化查询语句查询数据湖的场景越来越多,许多非技术背景的业务人员也需要通过编写结构化查询语句来访问大数据,以获得所需要的信息。然而编写结构化查询语句对于非技术背景的业务人员来说不是一件轻松的事情,需要一个学习过程才能熟练掌握,从而给很多业务人员带来了不便。
现有技术中通常是基于语法分析技术生成结构化查询语句,但是由于语法结构的多样性,当用户输入不同语法结构的句子时,系统可能无法跨越句子表层语法结构的束缚正确理解其深层语义信息,从而生成正确的结构化查询语句。由此可见,采用现有技术中的技术方案无法准确地基于用户输入的语句生成对应的结构化查询语句。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书实施例提供了一种结构化查询语句的生成方法、装置和设备,以解决现有技术中无法准确地基于用户输入的语句生成对应的结构化查询语句的问题。
本说明书实施例提供了一种结构化查询语句的生成方法,包括:获取目标文本;基于所述目标文本生成目标依存句法树;基于所述目标依存句法树,确定所述目标文本的语义依存结构;其中,所述语义依存结构用于表征所述目标文本中各成分之间的语义关联;利用所述语义依存结构,确定结构化查询参数集;其中,所述结构化查询参数集中包含所述目标文本对应的多个生成结构化查询语句所需的结构化查询参数值;根据所述结构化查询参数集和语义依存结构,生成所述目标文本对应的结构化查询语句。
本说明书实施例还提供了一种结构化查询语句的生成装置,包括:获取模块,用于获取目标文本;转换模块,用于基于所述目标文本生成目标依存句法树;第一确定模块,用于基于所述目标依存句法树,确定所述目标文本的语义依存结构;其中,所述语义依存结构用于表征所述目标文本中各成分之间的语义关联;第二确定模块,用于利用所述语义依存结构,确定结构化查询参数集;其中,所述结构化查询参数集中包含所述目标文本对应的多个生成结构化查询语句所需的结构化查询参数值;生成模块,用于根据所述结构化查询参数集和语义依存结构,生成所述目标文本对应的结构化查询语句。
本说明书实施例还提供了一种结构化查询语句的生成设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述结构化查询语句的生成方法的步骤。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述结构化查询语句的生成方法的步骤。
本说明书实施例提供了一种结构化查询语句的生成方法,可以通过获取目标文,基于所述目标文本生成目标依存句法树,从而可以确定目标文本的句法结构。由于语义信息与句子的句法和词义信息有着密切的联系,因此,为了跨越句子表层语法结构的束缚获取深层语义信息,可以基于上述目标依存句法树进行语义依存分析,确定所述目标文本的语义依存结构,其中,上述语义依存结构用于表征所述目标文本中各成分之间的语义关联。进一步的,可以利用所述语义依存结构,确定目标文本对应的多个生成结构化查询语句所需的结构化查询参数值,得到结构化查询参数集。并根据所述结构化查询参数集和语义依存结构,生成所述目标文本对应的结构化查询语句。从而可以基于语义依存结构准确地生成目标文本的结构化查询语句,使得非技术背景的业务人员也可以便捷地利用结构化查询语句来访问大数据。
附图说明
此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,并不构成对本说明书实施例的限定。在附图中:
图1是根据本说明书实施例提供的结构化查询语句的生成方法的步骤示意图;
图2是根据本说明书实施例具体实施例提供的语义依存结构的示意图;
图3是根据本说明书实施例提供的结构化查询语句的生成装置的结构示意图;
图4是根据本说明书实施例提供的结构化查询语句的生成设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本说明书实施例的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书实施例,而并非以任何方式限制本说明书实施例的范围。相反,提供这些实施方式是为了使本说明书实施例公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本说明书实施例的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本说明书实施例公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
虽然下文描述流程包括以特定顺序出现的多个操作,但是应该清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
请参阅图1,本实施方式可以提供一种结构化查询语句的生成方法。该结构化查询语句的生成方法可以用于准确地基于目标文本生成对应的结构化查询语句。上述结构化查询语句的生成方法可以包括以下步骤。
S101:获取目标文本。
在本实施方式中,可以获取目标文本。上述目标文本可以为需要生成结构化查询语句的文本,可以是用户输入的也可以是系统自动抓取的,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,上述目标文本中可以包含至少两个字符,上述目标文本可以为一段自然语言,例如:我想查上海分行2020年的日均存款余额。当然,目标文本不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,获取目标文本的方式可以包括:接收用户输入的目标样本,或者,可以从预设数据库中拉取得到。其中,上述预设数据库可以为存储用户实时提交、产生的数据的数据库,获取的渠道可以是WEB(全球广域网)页面、电子邮件或其他用户界面。当然可以理解的是,还可以采用其它可能的方式获取上述样本数据集,例如,在WEB页面中按照一定的查找条件搜索目标文本,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
S102:基于目标文本生成目标依存句法树。
在本实施方式中,可以对目标文本先进行依存句法分析,从而生成目标依存句法树。其中,句法分析(syntactic parsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。
在本实施方式中,依存句法分析可以包括句法结构分析和依存关系分析,句法结构分析作用是识别出句子中的短语结构以及短语之间的层次句法关系,依存关系分析作用是识别句子中词汇与词汇之间的相互依存关系。依存句法分析可以将句子分析成一颗依存句法树,描述出各个词语之间的依存关系,也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。依存句法认为“谓语”中的动词是一个句子的中心,其他成分与动词直接或间接地产生联系。
在本实施方式中,可以利用第三方产品例如:语言技术平台LTP等基于目标文本生成目标依存句法树。当然可以理解的是,还可以采用其它可能的方式基于目标文本生成目标依存句法树,例如:深度学习算法等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
S103:基于目标依存句法树,确定目标文本的语义依存结构;其中,语义依存结构用于表征目标文本中各成分之间的语义关联。
在本实施方式中,由于语义信息与句子的句法和词义信息有着密切的联系,因此,为了跨越句子表层语法结构的束缚获取深层语义信息,可以基于上述目标依存句法树进行语义依存分析,确定目标文本的语义依存结构,其中,上述语义依存结构用于表征目标文本中各成分之间的语义关联。
在本实施方式中,语义结构和句法结构是两种独立的结构,任何结构都包括两方面内容:一是成分,二是成分关系。在成分方面,语义结构有施事、客事、谓词等成分,句法结构有主语、谓语、宾语等成分。语义结构的最小单位是语义词(又叫义位),最大单位是义句;句法结构的最小单位是词汇词(又叫词位)。存在直接语法结构关系的成分在语义结构上不一定有联系,而不存在直接语法结构关系的成分在语义上也许存在直接的语义关系。所以,语义指向分析能更好地反映语法结构和语义结构之间的关系,从而可以进行形式和意义的结合,以更好地揭示句子内部的结构规律。
在本实施方式中,语义依存分析是一种深层的语义分析理论,同时融合了句子的依存结构和语义信息,更好地表达了句子的结构与隐含信息。语义依存分析与依存句法分析使用的依存结构建立规则是不同的,语义依存分析直接反映语义信息,因此具有语义关系的词对直接构成弧,而不需要经过介词或是助词。对于并列结构,语义依存分析是以最后一个并列成分作为核心节点,而依存句法则以第一个并列成分作为核心节点。语义依存与句法依存分析的另一不同点在于语序的影响,语义依存的部分关系是不受语序影响的,比如施事、客事、内容等。
在本实施方式中,上述语义依存结构可以以图片的形式展示,也可以以文本描述的形式展示,当然可以理解的是,还可以采用其它可能的形式展示,例如:表格等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,可以利用第三方产品例如:NLP(自然语言处理)产品等确定目标文本的语义依存结构。当然可以理解的是,还可以采用其它可能的方式确定目标文本的语义依存结构,例如:语言技术平台LTP、深度学习算法等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
S104:利用语义依存结构,确定结构化查询参数集;其中,结构化查询参数集中包含目标文本对应的多个生成结构化查询语句所需的结构化查询参数值。
在本实施方式中,由于上述语义依存结构可以表征目标文本的深层语义,因此,可以利用上述语义依存结构确定目标文本对应的多个生成结构化查询语句所需的结构化查询参数值,从而得到结构化查询参数集。
在本实施方式中,结构化查询语句(SQL语句)主要由Select语句、From语句和Where语句组成。其中,Select语句表示查询内容,包括需要查询的列、以及对这些列的聚合操作(如求和、计数、求平均值等);From语句表示查询的表;Where语句表示查询条件,包括条件列、条件操作符(如大于、小于、等于)、以及条件值。可以先根据上述语义依存结构确定生成目标文本对应的结构化查询语句需要获取哪些结构化查询参数,进而可以从预设数据库中获取该些结构化查询参数的值,从而得到结构化查询参数集。
在本实施方式中,结构化查询语句(SQL语句)主要由Select语句、From语句和Where语句组成,因此,上述结构化查询参数集中可以包含:表名、字段名、结构化查询函数名等结构化查询参数。当然,结构化查询参数不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
S105:根据结构化查询参数集和语义依存结构,生成目标文本对应的结构化查询语句。
在本实施方式中,由于结构化查询参数集中包含了目标文本对应的多个生成结构化查询语句所需的结构化查询参数值,语义依存结构可以表征目标文本的深层语义,因此,可以根据结构化查询参数集和语义依存结构,生成目标文本对应的结构化查询语句。
在本实施方式中,结构化查询语言(Structured Query Language,SQL),是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
在本实施方式中,可以基于结构化查询语言的模板格式,结合目标文本对应的多个生成结构化查询语句所需的结构化查询参数值和目标文本中各个成分之间的语义关联生成结构化查询语句。例如:目标文本为我想查上海分行2020年的日均存款余额,生成的结构化查询语言可以为Select avg(balance)from DCM_SAVING_ACCT where year=’2020’and org_name=’上海分行’。其中,上述balance为客事实体“余额”对应的数据湖表的字段名,avg()为算子实体“日均”对应的结构化查询函数,DCM_SAVING_ACCT为金融产品实体“存款”对应的数据湖表名,year为日期实体“2020年”对应的字段名,org_name为机构实体“分行”对应的字段名。
在本实施方式中,在确定成功生成目标文本对应的结构化查询语句之后可以将生成的结构化查询语句反馈给用户,以便用户可以基于生成的结构化查询语句访问大数据,从而获得所需的信息,使得非技术背景的业务人员也可以便捷地利用结构化查询语句来访问大数据。
从以上的描述中,可以看出,本说明书实施例实现了如下技术效果:可以通过获取目标文,基于目标文本生成目标依存句法树,从而可以确定目标文本的句法结构。由于语义信息与句子的句法和词义信息有着密切的联系,因此,为了跨越句子表层语法结构的束缚获取深层语义信息,可以基于上述目标依存句法树进行语义依存分析,确定目标文本的语义依存结构,其中,上述语义依存结构用于表征目标文本中各成分之间的语义关联。进一步的,可以利用语义依存结构,确定目标文本对应的多个生成结构化查询语句所需的结构化查询参数值,得到结构化查询参数集。并根据结构化查询参数集和语义依存结构,生成目标文本对应的结构化查询语句。从而可以基于目标文本得到语义依存结构准确地生成目标文本的结构化查询语句,使得非技术背景的业务人员也可以便捷地利用结构化查询语句来访问大数据。
在一个实施方式中,基于目标文本生成目标依存句法树,可以包括:对目标文本进行预处理,得到预处理结果;其中,预处理包括:分词和词性标注。对预处理结果进行命名实体识别,可以得到识别结果。进一步的,可以根据预处理结果和识别结果进行语法成分分析,得到目标依存句法树。
在本实施方式中,可以先对目标文本进行预处理,对目标文本进行合理分词并标注词性。可以利用中文语料词库确定目标文本中各个汉字间的关联概率,概率大的组成词组,从而形成分词结果并标注词性。上述中文语料库可以为北京大学CCL(Center forChinese Linguistics)语料库等,中文语料库中可以包含大量中文语料,可用于统计各个汉字之间的关联关系和关联概率。例如:“我想查上海分行2020年的日均存款余额”的分词结果可以为“我想查上海分行2020年的日均存款余额”。
在本实施方式中,词性指以词的特点作为划分词类的根据,词性标注就是在给定句子中判定每个词的语法范畴,词可以分成实词和虚词,实词中又包括体词、谓词等,体词中又可以分出名词和代词等。可以利用第三方产品例如:语言技术平台LTP等进行分词和词性标注。当然可以理解的是,还可以采用其它可能的方式进行分词和词性标注,例如:结巴分词、深度学习算法等,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,可以根据分词结果和词性标注结果进行命名实体识别,可以将目标文本中可能出现的专有名词均作为实体加以识别。命名实体一般可以包括人名、地名、组织机构名、时间、日期、货币和百分比等,在一些实施例中可以根据应用场景进一步扩展实体范围,例如各领域的专有名词。在金融场景中需要扩展的专有名词可以包括:金融产品(存款、贷款、中间业务等)、指标名称(余额、交易额、发生额等)、统计算子(汇总、日均、次数等)、会计科目等。
在本实施方式中,可以根据分词结果、词性标注结果和命名实体识别结果对目标文本进行语法成分分析,可以包括主语、谓语、宾语、定语、状语、补语等语法成分,并以语法树的形式呈现,从而可以准确地得到目标依存句法树。
在一个实施方式中,利用语义依存结构,确定结构化查询参数集,可以包括:将语义依存结构转换为可扩展标记语言的格式,得到目标语义依存结构信息。进一步的,可以根据命名实体与结构化查询参数之间的对应关系,从预设知识图谱中查询目标语义依存结构信息包含的各个命名实体对应的结构化查询参数值,得到结构化查询参数集。
在本实施方式中,由于XML(可扩展标记语言)报文形式是通用结构化文本格式,易于保存和解析,因此,可以将语义依存结构以可扩展标记语言的格式进行传输。对应的,也可以将结构化查询参数集以可扩展标记语言的格式进行传输。当然可以理解的是,还可以采用其它可能的形式传输,具体的可以根据实际情况确定,本说明书实施例对此不作限定。
在本实施方式中,可以根据命名实体与结构化查询参数之间的对应关系,从预设知识图谱中查询目标语义依存结构信息包含的各个命名实体对应的结构化查询参数值。由于结构化查询语句具有其特殊的语言结构,因此,文本中不同的命名实体在结构化查询语句中均可以有对应的结构化查询参数。例如:金融产品实体对应的结构化查询参数为数据湖表名、算子实体(日均)检索对应的结构化查询参数为结构化查询函数名、客事实体对应的结构化查询参数为数据湖表的字段名等。
在本实施方式中,可以预先配置命名实体与结构化查询参数之间的对应关系,并存储在预设数据库中,以便需要时及时调用。在金融场景中,目标文本中可能会涉及的命名实体包含金融产品实体、指标名称实体、日期实体、机构实体、算子实体等,可以针对这些实体分别在预设知识图谱中检索表名、字段名和SQL函数名。如果应用场景继续拓展,可进一步拓展命名实体(及对应检索目标)的范围。
在本实施方式中,SQL语句主要由Select语句、From语句和Where语句组成,其中,在目标文本为我想查上海分行2020年的日均存款余额时,Select语句需要查询的列就是目标语义依存结构信息中客事实体(余额)对应的数据湖表的字段名,对该列的聚合操作就是算子实体(日均)对应的SQL函数名;From需要查询的是目标语义依存结构信息中金融产品实体(存款)对应的数据湖表名;Where语句需要查询的是目标语义依存结构信息中日期实体(2020年)对应的字段名、机构实体(分行)对应的字段名。当然,命名实体与结构化查询参数之间的对应关系不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,上述知识图谱是大规模语义网络知识库,采取符号化的知识表示方式,利用三元组来描述具体的知识,并以有向图的形式对其进行表示和存储,具有语义丰富、结构友好、易于理解等优点。预设知识图谱可以是根据数据湖表名、字段名以及所采用的数据湖SQL引擎支持的函数名构建的,从而可以基于预设知识图谱准确地查询到目标语义依存结构信息包含的各个命名实体对应的结构化查询参数值。
在一个实施方式中,上述结构化查询参数可以包括:表名、字段名、结构化查询函数名等,当然,结构化查询参数不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在一个实施方式中,根据结构化查询参数集和语义依存结构,生成目标文本对应的结构化查询语句,可以包括:在确定结构化查询参数集中包含至少一个结构化查询参数值的情况下,根据结构化查询参数集和语义依存结构,生成目标文本对应的结构化查询语句。在确定结构化查询参数集中不存在结构化查询参数值的情况下,可以反馈异常提示信息。
在本实施方式中,在生成目标文本对应的结构化查询语句之前,可以先确定检索到的结构化查询参数集中是否包含相应的数据,如果确定包含少一个结构化查询参数值的情况下,可以根据语义依存结构和结构化查询参数集进行SQL语句的组装,从而生成目标文本对应的结构化查询语句。
在本实施方式中,如果确定结构化查询参数集中不存在结构化查询参数值,可以给出缺省答案,向用户反馈异常提示信息。其中,上述异常提示信息可以为:很抱歉,没有能查到相关数据!当然,异常提示信息不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在本实施方式中,在生成目标文本对应的结构化查询语句之前,可以先确定检索到的结构化查询参数集中是否包含相应的数据,再基于确定的结果反馈对应的信息,从而进一步提高了结构化查询语句生成的准确性和有效性。
在一个实施方式中,基于目标依存句法树,确定目标文本的语义依存结构,可以包括:对目标依存句法树进行语义角色标注,得到语义角色标注结果;其中,语义角色标注结果用于表征目标文本的谓词的论元结构。进一步的,可以基于目标依存句法树和语义角色标注结果进行语义依存分析,得到目标文本的语义依存结构。
在本实施方式中,可以对目标依存句法树进行语义角色标注,语义角色标注可以分析目标文本中的谓词-论元结构,用语义角色来描述句子中各成分与谓词之间的关系,是浅层语义分析。语义角色标注的任务是找出句子中谓词的相应语义角色成分,包括核心语义角色(如施事者、受事者等)和附属语义角色(如地点、时间、方式、原因等)。
在本实施方式中,论元只是谓词所指示的事件图景中的参与者,由扩展谓词的功能语类将之引进句法结构,这个参与者跟谓词的关系可密切可疏松,引进的参与者构成谓词的论元结构。论元可以理解为有指称功能的名词短语,包括名称、变量、接应词、代词等。此外,还可以包括小句。
在本实施方式中,可以基于目标依存句法树和语义角色标注结果进行语义依存分析,得到目标文本的语义依存结构。语义依存分析可以分析目标文本各成分之间的语义关联(不仅限于谓词与论元之间),从而可以跨越句子表层语法结构的束缚获取深层语义信息,是深层语义分析。在一个实施例中,在目标文本为我想查上海分行2020年的日均存款余额时,上述语义依存结构可以如图2中所示,其中,谓词“查”是句子的核心;“我”是施事(AGT);“余额”是客事(CONT),同时也是命名实体-指标名称实体;“2020年”、“日均”、“存款”、“分行”都是客事的修饰(FEAT),同时这些修饰本身也是命名实体,“2020年”是日期实体(TIME),“日均”是算子实体,“存款”是金融产品实体,“分行”是机构实体;Root是根节点,mDEPD是依附标记,mPUNC是标点标记。当然,语义依存结构不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
在一个实施方式中,上述语义依存结构中包含目标文本中各个词之间的语义关联(不仅限于谓词与论元之间),语义关联包括:施事、客事、客事的修饰等。当然,语义关联不限于上述举例,所属领域技术人员在本说明书实施例技术精髓的启示下,还可能做出其它变更,但只要其实现的功能和效果与本说明书实施例相同或相似,均应涵盖于本说明书实施例保护范围内。
基于同一发明构思,本说明书实施例中还提供了一种结构化查询语句的生成装置,如下面的实施例。由于结构化查询语句的生成装置解决问题的原理与结构化查询语句的生成方法相似,因此结构化查询语句的生成装置的实施可以参见结构化查询语句的生成方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图3是本说明书实施例的结构化查询语句的生成装置的一种结构框图,如图3所示,可以包括:获取模块301、转换模块302、第一确定模块303、第二确定模块304、生成模块305,下面对该结构进行说明。
获取模块301,可以用于获取目标文本;
转换模块302,可以用于基于目标文本生成目标依存句法树;
第一确定模块303,可以用于基于目标依存句法树,确定目标文本的语义依存结构;其中,语义依存结构用于表征目标文本中各成分之间的语义关联;
第二确定模块304,可以用于利用语义依存结构,确定结构化查询参数集;其中,结构化查询参数集中包含目标文本对应的多个生成结构化查询语句所需的结构化查询参数值;
生成模块305,可以用于根据结构化查询参数集和语义依存结构,生成目标文本对应的结构化查询语句。
本说明书实施例实施方式还提供了一种电子设备,具体可以参阅图4所示的基于本说明书实施例提供的结构化查询语句的生成方法的电子设备组成结构示意图,电子设备具体可以包括输入设备41、处理器42、存储器43。其中,输入设备41具体可以用于输入目标文本。处理器42具体可以用于获取目标文本;基于目标文本生成目标依存句法树;基于目标依存句法树,确定目标文本的语义依存结构;其中,语义依存结构用于表征目标文本中各成分之间的语义关联;利用语义依存结构,确定结构化查询参数集;其中,结构化查询参数集中包含目标文本对应的多个生成结构化查询语句所需的结构化查询参数值;根据结构化查询参数集和语义依存结构,生成目标文本对应的结构化查询语句。存储器43具体可以用于存储目标文本对应的结构化查询语句等数据。
在本实施方式中,输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。输入设备还可以获取接收其他模块、单元、设备传输过来的数据。处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。存储器具体可以是现代信息技术中用于保存信息的记忆设备。存储器可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该电子设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本说明书实施例实施方式中还提供了一种基于结构化查询语句的生成方法的计算机存储介质,计算机存储介质存储有计算机程序指令,在计算机程序指令被执行时可以实现:获取目标文本;基于目标文本生成目标依存句法树;基于目标依存句法树,确定目标文本的语义依存结构;其中,语义依存结构用于表征目标文本中各成分之间的语义关联;利用语义依存结构,确定结构化查询参数集;其中,结构化查询参数集中包含目标文本对应的多个生成结构化查询语句所需的结构化查询参数值;根据结构化查询参数集和语义依存结构,生成目标文本对应的结构化查询语句。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
虽然本说明书实施例提供了如上述实施例或流程图所述的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本说明书实施例提供的执行顺序。所述的方法的在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本说明书实施例的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本说明书实施例的优选实施例而已,并不用于限制本说明书实施例,对于本领域的技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。
Claims (10)
1.一种结构化查询语句的生成方法,其特征在于,包括:
获取目标文本;
基于所述目标文本生成目标依存句法树;
基于所述目标依存句法树,确定所述目标文本的语义依存结构;其中,所述语义依存结构用于表征所述目标文本中各成分之间的语义关联;
利用所述语义依存结构,确定结构化查询参数集;其中,所述结构化查询参数集中包含所述目标文本对应的多个生成结构化查询语句所需的结构化查询参数值;
根据所述结构化查询参数集和语义依存结构,生成所述目标文本对应的结构化查询语句。
2.根据权利要求1所述的方法,其特征在于,基于所述目标文本生成目标依存句法树,包括:
对所述目标文本进行预处理,得到预处理结果;其中,所述预处理包括:分词和词性标注;
对所述预处理结果进行命名实体识别,得到识别结果;
根据所述预处理结果和所述识别结果进行语法成分分析,得到所述目标依存句法树。
3.根据权利要求2所述的方法,其特征在于,利用所述语义依存结构,确定结构化查询参数集,包括:
将所述语义依存结构转换为可扩展标记语言的格式,得到目标语义依存结构信息;
根据命名实体与结构化查询参数之间的对应关系,从预设知识图谱中查询所述目标语义依存结构信息包含的各个命名实体对应的结构化查询参数值,得到结构化查询参数集。
4.根据权利要求3所述的方法,其特征在于,所述结构化查询参数包括:表名、字段名、结构化查询函数名。
5.根据权利要求2所述的方法,其特征在于,根据所述结构化查询参数集和语义依存结构,生成所述目标文本对应的结构化查询语句,包括:
在确定所述结构化查询参数集中包含至少一个结构化查询参数值的情况下,根据所述结构化查询参数集和语义依存结构,生成所述目标文本对应的结构化查询语句;
在确定所述结构化查询参数集中不存在结构化查询参数值的情况下,反馈异常提示信息。
6.根据权利要求1所述的方法,其特征在于,基于所述目标依存句法树,确定所述目标文本的语义依存结构,包括:
对所述目标依存句法树进行语义角色标注,得到语义角色标注结果;其中,所述语义角色标注结果用于表征所述目标文本的谓词的论元结构;
基于所述目标依存句法树和所述语义角色标注结果进行语义依存分析,得到所述目标文本的语义依存结构。
7.根据权利要求1所述的方法,其特征在于,所述语义依存结构中包含所述目标文本中各个词之间的语义关联,所述语义关联包括:施事、客事、客事的修饰。
8.一种结构化查询语句的生成装置,其特征在于,包括:
获取模块,用于获取目标文本;
转换模块,用于基于所述目标文本生成目标依存句法树;
第一确定模块,用于基于所述目标依存句法树,确定所述目标文本的语义依存结构;其中,所述语义依存结构用于表征所述目标文本中各成分之间的语义关联;
第二确定模块,用于利用所述语义依存结构,确定结构化查询参数集;其中,所述结构化查询参数集中包含所述目标文本对应的多个生成结构化查询语句所需的结构化查询参数值;
生成模块,用于根据所述结构化查询参数集和语义依存结构,生成所述目标文本对应的结构化查询语句。
9.一种结构化查询语句的生成设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110317852.3A CN112835927A (zh) | 2021-03-25 | 2021-03-25 | 一种结构化查询语句的生成方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110317852.3A CN112835927A (zh) | 2021-03-25 | 2021-03-25 | 一种结构化查询语句的生成方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112835927A true CN112835927A (zh) | 2021-05-25 |
Family
ID=75930564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110317852.3A Pending CN112835927A (zh) | 2021-03-25 | 2021-03-25 | 一种结构化查询语句的生成方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112835927A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392124A (zh) * | 2021-06-15 | 2021-09-14 | 中国工商银行股份有限公司 | 一种基于结构化语言的数据查询方法及装置 |
CN115271683A (zh) * | 2022-09-26 | 2022-11-01 | 西南交通大学 | 基于标准知识图谱元结构的bim自动标准审查系统 |
CN116484870A (zh) * | 2022-09-09 | 2023-07-25 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备、介质及计算机产品 |
CN117591543A (zh) * | 2024-01-19 | 2024-02-23 | 成都工业学院 | 一种中文自然语言的sql语句生成方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
US20110270607A1 (en) * | 2006-10-10 | 2011-11-03 | Konstantin Zuev | Method and system for semantic searching of natural language texts |
CN107451153A (zh) * | 2016-05-31 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 输出结构化查询语句的方法和装置 |
CN111459967A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 结构化查询语句生成方法、装置、电子设备及介质 |
CN112100200A (zh) * | 2020-09-27 | 2020-12-18 | 四川长虹电器股份有限公司 | 一种基于维度模型自动化生成sql语句的方法 |
-
2021
- 2021-03-25 CN CN202110317852.3A patent/CN112835927A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270607A1 (en) * | 2006-10-10 | 2011-11-03 | Konstantin Zuev | Method and system for semantic searching of natural language texts |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN107451153A (zh) * | 2016-05-31 | 2017-12-08 | 北京京东尚科信息技术有限公司 | 输出结构化查询语句的方法和装置 |
CN111459967A (zh) * | 2020-03-03 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 结构化查询语句生成方法、装置、电子设备及介质 |
CN112100200A (zh) * | 2020-09-27 | 2020-12-18 | 四川长虹电器股份有限公司 | 一种基于维度模型自动化生成sql语句的方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392124A (zh) * | 2021-06-15 | 2021-09-14 | 中国工商银行股份有限公司 | 一种基于结构化语言的数据查询方法及装置 |
CN113392124B (zh) * | 2021-06-15 | 2024-03-22 | 中国工商银行股份有限公司 | 一种基于结构化语言的数据查询方法及装置 |
CN116484870A (zh) * | 2022-09-09 | 2023-07-25 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备、介质及计算机产品 |
CN116484870B (zh) * | 2022-09-09 | 2024-01-05 | 北京百度网讯科技有限公司 | 提取文本信息的方法、装置、设备及介质 |
CN115271683A (zh) * | 2022-09-26 | 2022-11-01 | 西南交通大学 | 基于标准知识图谱元结构的bim自动标准审查系统 |
CN115271683B (zh) * | 2022-09-26 | 2023-01-13 | 西南交通大学 | 基于标准知识图谱元结构的bim自动标准审查系统 |
CN117591543A (zh) * | 2024-01-19 | 2024-02-23 | 成都工业学院 | 一种中文自然语言的sql语句生成方法和装置 |
CN117591543B (zh) * | 2024-01-19 | 2024-04-02 | 成都工业学院 | 一种中文自然语言的sql语句生成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354188B2 (en) | Extracting facts from unstructured information | |
US8060357B2 (en) | Linguistic user interface | |
US9448995B2 (en) | Method and device for performing natural language searches | |
US11080295B2 (en) | Collecting, organizing, and searching knowledge about a dataset | |
Maedche et al. | Mining ontologies from text | |
US20170357625A1 (en) | Event extraction from documents | |
CN112835927A (zh) | 一种结构化查询语句的生成方法、装置和设备 | |
WO2010107327A1 (en) | Natural language processing method and system | |
Sahu et al. | Prashnottar: a Hindi question answering system | |
Abdelnabi et al. | Generating UML class diagram using NLP techniques and heuristic rules | |
US11693855B2 (en) | Automatic creation of schema annotation files for converting natural language queries to structured query language | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
Zait et al. | Addressing lexical and semantic ambiguity in natural language requirements | |
US20220245361A1 (en) | System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework | |
Wimalasuriya et al. | Using multiple ontologies in information extraction | |
Tatu et al. | Automatic extraction of actionable knowledge | |
Makrynioti et al. | PaloPro: a platform for knowledge extraction from big social data and the news | |
Zaraket et al. | Arabic temporal entity extraction using morphological analysis | |
CN115062609B (zh) | 一种汉语增强依存句法的方法及装置 | |
Kim et al. | Improving the performance of a named entity recognition system with knowledge acquisition | |
US20220229986A1 (en) | System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework | |
US20220229990A1 (en) | System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework | |
US20220237383A1 (en) | Concept system for a natural language understanding (nlu) framework | |
Al-Lahham | Index term selection heuristics for Arabic text retrieval | |
Mukherjee et al. | Natural language query handling using extended knowledge provider system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |