CN114462359A - 逻辑语句生成方法、装置、电子设备及存储介质 - Google Patents
逻辑语句生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114462359A CN114462359A CN202111655993.2A CN202111655993A CN114462359A CN 114462359 A CN114462359 A CN 114462359A CN 202111655993 A CN202111655993 A CN 202111655993A CN 114462359 A CN114462359 A CN 114462359A
- Authority
- CN
- China
- Prior art keywords
- triple
- natural language
- triples
- language text
- logic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000000605 extraction Methods 0.000 claims description 63
- 235000019580 granularity Nutrition 0.000 claims description 17
- 230000036651 mood Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 6
- 238000010276 construction Methods 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 description 23
- 230000003993 interaction Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000013518 transcription Methods 0.000 description 8
- 230000035897 transcription Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 239000003550 marker Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- COCAUCFPFHUGAA-MGNBDDOMSA-N n-[3-[(1s,7s)-5-amino-4-thia-6-azabicyclo[5.1.0]oct-5-en-7-yl]-4-fluorophenyl]-5-chloropyridine-2-carboxamide Chemical compound C=1C=C(F)C([C@@]23N=C(SCC[C@@H]2C3)N)=CC=1NC(=O)C1=CC=C(Cl)C=N1 COCAUCFPFHUGAA-MGNBDDOMSA-N 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种逻辑语句生成方法、装置、电子设备及存储介质,首先获取自然语言文本,并抽取自然语言文本的各三元组;各三元组均包括主语、谓语以及宾语中至少一个元素,各三元组中各元素均基于自然语言文本确定;然后对各三元组进行序列标注,确定各三元组之间的逻辑信息;最后基于各三元组以及逻辑信息,确定自然语言文本对应的逻辑语句。该方法可以自动生成自然语言文本对应的逻辑语句,整个过程不需要人工介入,可以降低生成逻辑语句的人力成本,缩短生成逻辑语句所需的时长。而且,该方法同样适用于对更新后的自然语言文本。此外,生成的逻辑语句可以应用于知识图谱的构建,便于开展大量下游实际应用任务。
Description
技术领域
本发明涉及文本分析技术领域,尤其涉及一种逻辑语句生成方法、装置、电子设备及存储介质。
背景技术
随着人工智能和大数据的快速发展,使用信息化自动化技术代替或者辅助人工工作,已成为各行各业的发展方向。
但是由于信息化数据通常是以自然语言文本的形式存在,导致智能设备无法快速理解和利用,不利于信息化数据的智能化应用。因此,如何将自然语言文本进行结构化和参数化,将其转写为逻辑语句进行表达,是当前急需解决的问题。
目前,在将自然语言文本转写成逻辑语句时,通常采用人工转写的方式实现。这种方式人力成本较高,耗时较长,对转写人员的专业性要求很高。而且,当自然语言文本更新后,需要转写人员重新进行转写,转写效率低下。
为此,现急需提供一种逻辑语句生成方法。
发明内容
本发明提供一种逻辑语句生成方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
本发明提供一种逻辑语句生成方法,包括:
获取自然语言文本,并抽取所述自然语言文本的各三元组;所述各三元组均包括主语、谓语以及宾语中至少一个元素,所述各三元组中各元素均基于所述自然语言文本确定;
对所述各三元组进行序列标注,确定所述各三元组之间的逻辑信息;
基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句。
根据本发明提供的一种语句生成方法,所述抽取所述自然语言文本的各三元组,包括:
对所述自然语言文本进行要素识别,确定所述自然语言文本的要素标签;
基于所述要素标签,对所述自然语言文本中的三元组进行迭代抽取,确定所述各三元组。
根据本发明提供的一种语句生成方法,所述各三元组均基于对应的三元组标签进行表征;
相应地,所述基于所述要素标签,对所述自然语言文本中的三元组进行迭代抽取,确定所述各三元组,包括:
对于当前迭代轮次,将所述自然语言文本作为三元组抽取模型的第一输入、所述当前迭代轮次的前一迭代轮次对应的三元组标签作为所述三元组抽取模型的第二输入,由所述三元组抽取模型抽取所述当前迭代轮次对应的三元组标签;其中,所述第二输入的初始输入为所述要素标签;
若所述当前迭代轮次对应的三元组标签与所述前一迭代轮次对应的三元组标签一致,则迭代抽取动作结束;
否则,将所述当前迭代轮次的下一迭代轮次作为所述当前迭代轮次,继续由所述三元组抽取模型抽取所述当前迭代轮次对应的三元组标签,直至所述当前迭代轮次对应的三元组标签与所述前一迭代轮次对应的三元组标签一致。
根据本发明提供的一种语句生成方法,所述各三元组包含有不同粒度的三元组;
所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,包括:
若不同粒度的三元组中存在第一三元组和第二三元组,且所述第一三元组中包含有所述第二三元组,则基于除所述第二三元组外的其他三元组以及所述其他三元组之间的逻辑信息,确定所述逻辑语句。
根据本发明提供的一种语句生成方法,所述三元组的类型包括缺失元素三元组;
相应地,所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,之前包括:
基于所述缺失元素三元组以及所述自然语言文本,确定所述缺失元素三元组中的缺失元素及其在所述自然语言文本中的位置信息;
基于所述位置信息,将所述缺失元素添加至所述缺失元素三元组内。
根据本发明提供的一种语句生成方法,所述逻辑信息包括逻辑连接词以及所述自然语言文本的语气等级信息;
相应地,所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,包括:
将所述逻辑连接词、用于表征所述三元组的三元组标签以及所述语气等级信息进行拼接,得到所述逻辑语句。
根据本发明提供的一种语句生成方法,所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,之后还包括:
基于所述各三元组中各元素以及所述逻辑语句,确定所述自然语言文本对应的结构化自然语言语句。
本发明还提供一种逻辑语句生成装置,包括:
三元组抽取模块,用于获取自然语言文本,并抽取所述自然语言文本的各三元组;所述各三元组均包括主语、谓语以及宾语中至少一个元素,所述各三元组中各元素均基于所述自然语言文本确定;
逻辑信息确定模块,用于对所述各三元组进行序列标注,确定所述各三元组之间的逻辑信息;
逻辑语句生成模块,用于基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述逻辑语句生成方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述逻辑语句生成方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述逻辑语句生成方法的步骤。
本发明提供的逻辑语句生成方法、装置、电子设备及存储介质,首先获取自然语言文本,并抽取自然语言文本的各三元组;各三元组均包括主语、谓语以及宾语中至少一个元素,各三元组中各元素均基于自然语言文本确定;然后对各三元组进行序列标注,确定各三元组之间的逻辑信息;最后基于各三元组以及逻辑信息,确定自然语言文本对应的逻辑语句。该方法可以自动生成自然语言文本对应的逻辑语句,整个过程不需要人工介入,可以降低生成逻辑语句的人力成本,缩短生成逻辑语句所需的时长。而且,该方法同样适用于对更新后的自然语言文本。此外,生成的逻辑语句可以应用于知识图谱的构建,便于开展大量下游实际应用任务。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的逻辑语句生成方法的流程示意图;
图2是本发明提供的要素识别模型的结构示意图;
图3是本发明提供的自然语言文本1中包含的要素示意图;
图4是本发明提供的三元组抽取模型的结构示意图;
图5是本发明提供的抽取自然语言文本2的三元组的完整流程示意图;
图6是本发明提供的阅读理解模型的结构示意图;
图7是本发明提供的逻辑信息确定模型的结构示意图;
图8是本发明提供的逻辑语句生成装置的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于目前采用人工转写的方式将自然语言文本转写成逻辑语句,人力成本较高,耗时较长,而且对转写人员的专业性要求很高。当自然语言文本更新后,需要转写人员重新进行转写,转写效率低下。基于此,本发明实施例中提供了一种逻辑语句生成方法。
图1为本发明实施例中提供的一种逻辑语句生成方法的流程示意图,如图1所示,该方法包括:
S1,获取自然语言文本,并抽取所述自然语言文本的各三元组;所述各三元组均包括主语、谓语以及宾语中至少一个元素,所述各三元组中各元素均基于所述自然语言文本确定;
S2,对所述各三元组进行序列标注,确定所述各三元组之间的逻辑信息;
S3,基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句。
具体地,本发明实施例中提供的逻辑语句生成方法,其执行主体为逻辑语句生成装置,该装置可以配置于服务器内,该服务器可以是本地服务器,也可以是云端服务器,本地服务器具体可以是计算机、平板电脑以及智能手机等,本发明实施例中对此不作具体限定。
首先执行步骤S1,获取自然语言文本。该自然语言文本是指符合人们日常语言规则的文本,其内容可以属于任何领域,例如建筑领域、金融领域、通信领域、人机交互领域等,此处不作具体限定。此处,自然语言文本可以是一篇内容完整的文档,也可以是语义完整的语句文本,即对应于具有完整语义的一句话。以建筑领域为例,自然语言文本可以每一条建筑规范文本。
自然语言文本中通常包含有若干个至少包含有主语、谓语以及宾语中至少一个元素的三元组。其中,主语是指三元组中所要表达、描述的人或物,通常可以为指代性词语、名词性词语等。谓语是指对主语动作状态或特征的陈述或说明,通常可以为动作性词语、描述性词语、属性词语等。宾语是指相对于主语而言地位次之的人或物,也可以为指代性词语、名词性词语等。在自然语言文本中还可以包含有连接各三元组或各三元组中各元素使其语义通顺的其他部分,该其他部分可以是除主语、谓语以及宾语之外的部分,例如可以是介词、助词等。
可以理解的是,若一个三元组中同时包含有主语、谓语以及宾语这三个元素,则该三元组为一个完整三元组。特别地,考虑到自然语言中可能存在省略语句,自然语言文本的三元组中可能存在只有主语、谓语以及宾语中的一个或两个元素的情况,此时的三元组为缺失元素三元组。此处,可以通过对自然语言文本进行序列标注的方式抽取出自然语言文本的三元组,也可以通过其他方式进行抽取,此处不作具体限定。三元组的数量可以为一个或多个,每个三元组的类别均可能是完整三元组或缺失元素三元组。
然后,执行步骤S2,可以通过对各三元组进行序列标注的方式,确定出各三元组之间的逻辑信息。该逻辑信息是指可以用于生成逻辑语句的相关信息,例如可以包括逻辑语句中的逻辑连接词以及自然语言文本的语气等级信息。此处,逻辑语句可以为条件语句,则其逻辑连接词可以是then、and、or等。自然语言文本的语气等级信息用于表征自然语言文本的语气程度,可以通过对自然语言文本中包含的语气等级词语按语气程度高低进行划分得到。语气等级词语可以为必须、禁止、应、不应、宜、可等。
由于在抽取到自然语言文本的各三元组之后,即可确定各三元组中各元素以及各三元组的开始位置和结束位置。因此,本发明实施例中,通过对各三元组的开始位置、结束位置或三元组中的某个位置进行标注,进而得到各三元组之间的逻辑信息,此处对标注位置不作具体限定。
最后,执行步骤S3,结合自然语言文本的各三元组以及各三元组的结束位置对应的逻辑信息,可以确定出自然语言文本对应的逻辑语句。此处,自然语言文本对应的逻辑语句可以包括一个或多个,各逻辑语句可以通过逻辑信息将各三元组进行拼接得到。
可以理解的是,虽然本发明实施例中涉及的各三元组是自然语言文本中的所有三元组,但是由于实际的语言规则为保证可读性会存在对逻辑语句的生成没有帮助的信息,即存在冗余三元组,因此生成的各逻辑语句中并非一定包含有所有三元组。而且,考虑到三元组的语义完整性,生成的各逻辑语句中可能仅包含有一个三元组,也可以包含有多个三元组,视实际情况而定。
本发明实施例中提供的逻辑语句生成方法,首先获取自然语言文本,并抽取自然语言文本的各三元组;各三元组均包括主语、谓语以及宾语中至少一个元素,各三元组中各元素均基于自然语言文本确定;然后对各三元组进行序列标注,确定各三元组之间的逻辑信息;最后基于各三元组以及逻辑信息,确定自然语言文本对应的逻辑语句。该方法可以自动生成自然语言文本对应的逻辑语句,整个过程不需要人工介入,可以降低生成逻辑语句的人力成本,缩短生成逻辑语句所需的时长。而且,该方法同样适用于对更新后的自然语言文本。此外,生成的逻辑语句可以应用于知识图谱的构建,便于开展大量下游实际应用任务。
在上述实施例的基础上,本发明实施例中提供的语句生成方法,所述抽取所述自然语言文本的各三元组,包括:
对所述自然语言文本进行要素识别,确定所述自然语言文本的要素标签;
基于所述要素标签,对所述自然语言文本中的三元组进行迭代抽取,确定所述各三元组。
具体地,本发明实施例中,在抽取各三元组时,可以先对自然语言文本进行要素识别,确定出自然语言文本中包含的各要素,并将各要素进行标注,得到各要素对应的要素标签。
其中,各要素的类型可以包括实体(entity)、属性(attribute,简写为attr)、操作(operate)、属性值(value)等。要素识别可以采用要素识别模型实现,该要素识别模型可以是基于语言表征模型(Bidirectional Encoder Representation from Transformers,BERT)编码的BIOES序列标注模型。B(begin)、I(inside)、O(other)、E(end)、S(single)是指用于对各要素进行标注的标签(tag),B用于标记要素的开始位置,I用于标记要素的中间位置,E用于标记要素的结束位置,O用于标记无关字符,S用于标记单个字符构成的要素。要素标签即为组成要素的各字对应的标签的组合。
例如,B-entity表示实体类型要素的开始位置,I-entity实体类型要素的中间位置,E-entity表示实体要素的结束位置。
本发明实施例中利用的要素识别模型可以包括输入层、编码层、编解码层、标注层以及输出层,输入层、编码层、标注层以及输出层依次连接。其中,编码层可以基于BERT模型结构构建,标注层可以基于条件随机场(conditional random field,CRF)构建,编解码层可以基于双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)模型结构构建。
此处,可以将自然语言文本输入至要素识别模型的输入层,并通过编码层可以对自然语言文本进行编码,得到编码特征(BERT Embedding)。然将编码特征输入至编解码层,得到序列特征。进一步地,将序列特征输入至标注层,得到自然语言文本中各个字对应的标签。最后将各个字对应的标签由输出层输出。
此处,要素识别模型可以通过携带有要素标签的文本样本训练得到。
如图2所示,以自然语言文本1:“楼梯梯段净宽不应小于1.10m,不超过六层的住宅,一边设有栏杆的梯段净宽不应小于1.00m。”为例,则将其输入至要素识别模型,可以得到的要素标签可以表示为“B-entity E-entity B-attr I-attr I-attr E-attr B-valueI–value I-value I-value I-value I-value I-value I-value E-value O...”,此处O则表示1.10m之后的逗号。进一步地,自然语言文本1中包含的要素可以通过图3进行表示。即自然语言文本中的“楼梯”、“住宅”、“栏杆”均为entity,“梯段净宽”、“一边”均为attr,“不应小于1.10m”、“不超过六层”、“不应小于1.00m”均为value,“设有”为operate。
然后,结合要素标签,对自然语言文本中的三元组进行迭代抽取,确定自然语言文本的各三元组。在对自然语言文本中的三元组进行抽取时,可以先将要素标签作为一个初始的辅助信息,对自然语言文本进行一轮语义识别,得到若干三元组。然后将得到的若干三元组的相关信息作为辅助信息,继续对自然语言文本进行新一轮语义识别,确定出若干个三元组。上述过程即为迭代抽取的过程,重复上述过程,直至某一轮语义识别得到的三元组与该轮语义识别依据的辅助信息对应的三元组相同,则可以确定迭代抽取过程结束。
可以理解的是,迭代抽取的过程是指进行多轮抽取,每轮抽取可以得到若干个三元组,且每轮得到的三元组的相关信息均可以作为得到下一轮语义识别的辅助信息。其中,每一轮得到的三元组的数量可以为一个或多个,此处不作具体限定。
最终,迭代抽取的过程中各轮抽取得到的三元组可以共同作为自然语言文本的各三元组。
本发明实施例中,通过要素识别得到的要素标签,以迭代抽取的方式获取自然语言文本的各三元组,可以使得到的三元组更加准确。
在上述实施例的基础上,本发明实施例中提供的语句生成方法,所述各三元组均基于对应的三元组标签进行表征;
相应地,所述基于所述要素标签,对所述自然语言文本中的三元组进行迭代抽取,确定所述各三元组,包括:
对于当前迭代轮次,将所述自然语言文本作为三元组抽取模型的第一输入、所述当前迭代轮次的前一迭代轮次对应的三元组标签作为所述三元组抽取模型的第二输入,由所述三元组抽取模型抽取所述当前迭代轮次对应的三元组标签;其中,所述第二输入的初始输入为所述要素标签;
若所述当前迭代轮次对应的三元组标签与所述前一迭代轮次对应的三元组标签一致,则迭代抽取动作结束;
否则,将所述当前迭代轮次的下一迭代轮次作为所述当前迭代轮次,继续由所述三元组抽取模型抽取所述当前迭代轮次对应的三元组标签,直至所述当前迭代轮次对应的三元组标签与所述前一迭代轮次对应的三元组标签一致。
具体地,由于各三元组之间可能存在嵌套现象,很难用一个模型一次性输出所有嵌套的三元组。为此,本发明实施例中提供了一种迭代式的三元组抽取模型,通过多轮迭代,按层次识别出所有嵌套的三元组。其中,三元组抽取模型可以采用序列标注模型进行构建。
该三元组抽取模型可以包括输入层、编码层、交互层、标注层以及输出层,输入层、编码层、标注层以及输出层依次连接。输入层包括第一输入和第二输入,输出层与第二输入连接。编码层可以基于BERT模型结构构建,标注层可以基于CRF构建,交互层可以基于BiLSTM模型结构构建。
在三元组抽取模型中,每个三元组均通过对应的三元组标签进行表征。三元组标签的组成可以包括:B-t(begin-triple)、I-t(inside-triple)、E-t(end-triple)、subject、predictate、object以及other。其中,B-t表示三元组的开始位置,I-t表示三元组的中间位置,E-t表示三元组的结束位置。subject表示三元组的主语,predictate表示三元组的谓语,object表示三元组的宾语,other代表三元组的其他部分。
三元组抽取模型引入了迭代的思想,结合当前的三元组标签作为输入,依次识别出下一轮次的三元组标签。
三元组抽取模型的工作流程具体如下:
对于当前迭代轮次,将自然语言文本作为三元组抽取模型的第一输入、当前迭代轮次的前一迭代轮次对应的三元组标签作为三元组抽取模型的第二输入,由三元组抽取模型抽取当前迭代轮次对应的三元组标签。此处,当前迭代轮次可以是首次迭代轮次,也可以是非首次迭代轮次。若当前迭代轮次为首次迭代轮次,则当前迭代轮次的前一迭代轮次对应的三元组标签为空,此时将第二输入的初始输入限定为要素标签。即首次迭代轮次,第一输入为自然语言文本,第二输入为要素标签。若当前迭代轮次为非首次迭代轮次,则第一输入为自然语言文本,第二输入为当前迭代轮次的前一迭代轮次对应的三元组标签。
然后,由三元组抽取模型的编码层分别对第一输入与第二输入进行编码,得到第一编码特征(BERT Embedding)以及第二编码特征(Tag Embedding),并将第一编码特征以及第二编码特征进行拼接,得到拼接结果。将该拼接结果输入至交互层,由交互层对编码特征进行交互,得到交互特征,并将该交互特征输入至标注层,得到自然语言文本中各三元组的三元组标签。最后将各三元组的三元组标签由输出层输出。
此后,将当前迭代轮次对应的三元组标签与前一迭代轮次对应的三元组标签进行比较,若二者一致,则迭代抽取动作结束。此前各迭代轮次得到的所有三元组标签对应的三元组即为自然语言文本的三元组。若二者不一致,则需要将当前迭代轮次对应的三元组标签作为第二输入,重新进行新一迭代轮次的抽取,直至某一迭代轮次抽取得到的三元组标签与该迭代轮次对应的第二输入一致,则确定迭代抽取动作结束。
此处,三元组抽取模型可以通过携带有要素标签以及三元组标签的文本样本训练得到。
如图4所示,以自然语言文本2:“旅馆的客房应设置宽度不小于1.2m的无障碍走道。”为例,其要素标签为“B-entity E-entity B-attr I-attr I-attr E-attr B-valueI–value I-value I-value I-value I-value I-value I-value E-value O”。将二者分别作为第一输入和第二输入,通过三元组抽取模型的编码层分别对第一输入与第二输入进行编码,得到第一编码特征(BERT Embedding)以及第二编码特征(Tag Embedding),并将第一编码特征以及第二编码特征进行拼接,得到拼接结果。将该拼接结果输入至交互层,由交互层对编码特征进行交互,得到交互特征,并将该交互特征输入至标注层,得到自然语言文本中各三元组的三元组标签。最后将各三元组的三元组标签由输出层输出。
上述自然语言文本2中的“旅馆的客房”、“宽度不小于1.2m的无障碍走道”均为三元组,“设置”为operate。由此可知,三元组标签可以表示为“B-t-subject I-t-subject I-t-other I-t-object E-t-object OB-operate E-operate B-t-predicate I-t-value I-t-value I-t-value I-t-value I-t-value I-t-value I-t-value I-t-other I-t-subject I-t-subject I-t-subject I-t-subject E-t-subject”。
本发明实施例中,通过三元组抽取模型实现对自然语言文本中的三元组的迭代抽取,可以充分提取出自然语言文本中涉及的各个三元组。为保证三元组的迭代抽取,三元组抽取模型配置为具有两个输入,可以在输入层引入上一迭代轮次的输出结果,以保证迭代抽取的效率。
图5为抽取自然语言文本的三元组的完整流程示意图,如图5所示,自然语言文本2:“旅馆的客房应设置宽度不小于1.2m的无障碍走道。”,其要素组成为:“旅馆”对应的entity1,“客房”对应的entity2,“设置”对应的operate1,“宽度”对应的attribute1,“不小于1.2m”对应的value1,“无障碍走到”对应的entity3。进而,entity1和entity2构成triple1<客房,constraint,旅馆>,attribute1、value1以及entity3构成triple2<无障碍走道,宽度,不小于1.2m>,triple1、operate1以及triple2构成triple3<triple1,操作,triple2>。
三元组抽取时,先①根据自然语言文本2得到各要素,各要素对应有要素标签;然后进入迭代抽取过程,即②根据自然语言文本2以及要素标签得到第一迭代轮次的三元组,各三元组对应有三元组标签;③根据自然语言文本2以及第一迭代轮次的三元组标签,得到第二迭代轮次的三元组标签;④根据自然语言文本2以及第二迭代轮次的三元组标签,得到第三迭代轮次的三元组标签。由于③和④得到的结果一致,则迭代抽取动作结束,得到自然语言文本2中的所有三元组,分别为triple1、triple2以及triple3。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成方法,所述各三元组包含有不同粒度的三元组;
所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,包括:
若不同粒度的三元组中存在第一三元组和第二三元组,且所述第一三元组中包含有所述第二三元组,则基于除所述第二三元组外的其他三元组以及所述其他三元组之间的逻辑信息,确定所述逻辑语句。
具体地,本发明实施例中,由于三元组抽取模型采用迭代抽取的方式,利用前一迭代轮次抽取得到当前迭代轮次的三元组标签。因此当前迭代轮次与前一迭代轮次相比,得到的三元组标签对应的三元组的粒度不同,且当前迭代轮次对应的三元组的粒度比前一迭代轮次对应的三元组的粒度更粗。对于同一迭代轮次,得到的各三元组标签对应的三元组的粒度相同。特别地,若迭代轮次为1轮,则得到的各三元组标签对应的三元组的粒度相同。
由此,本发明实施例中自然语言文本的三元组存在嵌套情况,即一个第一三元组中包含有另外若干第二三元组,第一三元组的粒度粗于第二三元组。三元组抽取模型可以结合当前的细粒度结果,由细到粗依次识别出更粗一级粒度的结果。
以自然语言文本3:“套内入口过道净宽不宜小于1.20m”为例,则其中可以包含有三元组S1:(入口,constraint,套内)、三元组S2:(过道,constraint,S1)以及三元组S3(S2,净宽,≥1.2m)(入口)。其中,三元组S1为第二三元组,三元组S2和S3均为第一三元组。三元组S1抽取结果的json可以表示为:
三元组S2抽取结果的json可以表示为:
三元组S3抽取结果的json可以表示为:
又例如,以自然语言文本4:“通往卧室、起居室(厅)的过道净宽不应小于1.00m;”为例,则其中可以包含三元组S4:(过道,通往,卧室,起居室(厅)入口)以及三元组S5:(S4,净宽,≥1.2m)。其中,三元组S4为第二三元组,三元组S5为第一三元组。三元组S4抽取结果的json可以表示为:
三元组S5抽取结果的json可以表示为:
此后,则可以忽略各第一三元组中包含的第二三元组,直接根据除第二三元组之外的其他三元组之间的逻辑信息,确定逻辑语句。即可以通过其他三元组之间的逻辑信息,将其他三元组进行逻辑连接,进而得到逻辑语句。
本发明实施例中,对于三元组嵌套的情况,可以直接根据最外层三元组,即除第二三元组之外的其他三元组确定逻辑语句,如此可以简化逻辑语句的组成,降低逻辑语句的复杂度,便于逻辑语句的快速生成。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成方法,所述三元组的类型包括缺失元素三元组;
相应地,所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,之前包括:
基于所述缺失元素三元组以及所述自然语言文本,确定所述缺失元素三元组中的缺失元素及其在所述自然语言文本中的位置信息;
基于所述位置信息,将所述缺失元素添加至所述缺失元素三元组内。
具体地,本发明实施例中,由于三元组既包括完整三元组也包括缺失元素三元组。对于完整三元组,则可以直接根据该完整三元组以及其结束位置的逻辑信息,确定自然语言文本的逻辑语句。
而对于缺失元素三元组而言,其语义并不完整,若直接根据缺失元素三元组以及其结束位置的逻辑信息,确定自然语言文本的逻辑语句。得到的逻辑语句可能无法恢复出自然语言文本对应的结构化自然语句,导致其逻辑语句无法应用。为此,本发明实施例中,对于缺失元素三元组,需要对其进行缺失元素的补全。
缺失元素补全可以通过如下方法确定:
首先,可以根据缺失元素三元组以及自然语言文本,确定缺失元素三元组中的缺失元素及其在自然语言文本中的位置信息。位置信息的确定,可以采用阅读理解模型实现。如图6所示,阅读理解模型可以包括输入层、编码层、交互层以及输出层,输入层可以包括query以及context,输出层即为answer。编码层可以分别对query以及context进行编码,分别得到对应的编码特征(BERT Embedding),经交互层对各编码特征进行交互,得到交互特征。最后交互层经输出层输出缺失元素在context中的位置信息。本发明实施例中,缺失元素三元组可以作为query,自然语言文本可以作为context,缺失元素在context中的位置信息可以作为answer。
其中,位置信息可以包括起始位置(start position)和结束位置(endposition),起始位置可以用0表示,结束位置可以用1表示,此处不作具体限定。
图6中,自然语言文本5:“楼梯踏步宽度不应小于0.26,踏步高度不应大于0.175m”,缺失元素三元组为“踏步高度不应大于0.175m”。
此处,阅读理解模型可以通过缺失元素文本样本以及携带有所述缺失元素文本样本中缺失元素的位置标签的缺失元素文本样本对应的完整文本样本训练得到。
在确定出缺失元素三元组中的缺失元素及其在自然语言文本中的位置信息之后,可以根据缺失元素在自然语言文本中的位置信息,将缺失元素添加至缺失元素三元组内,添加后即得到完整三元组。
本发明实施例中,将缺失元素三元组中的缺失元素进行补全,进而使其变为完整三元组,如此可以使其语义完整,便于后续顺利恢复出自然语言文本对应的结构化自然语句,提高了逻辑语句的可用性。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成方法,所述逻辑信息包括逻辑连接词以及所述自然语言文本的语气等级信息。
具体地,若逻辑语句为条件语句,则其逻辑连接词可以是then、and、or等。语气等级信息可以通过对自然语言文本中包含的语气等级词语按语气程度高低进行划分得到。例如语气等级词语可以为必须、禁止、应、不应、宜、可等。则语气等级信息可以包括level_1(L1)、level_2(L2)、level_3(L3)以及level_4(L4)这4个级别,分别对应于必须、禁止;应、不应;宜;可。如表1所示。
表1 语气等级信息
level_1 | 必须、禁止 | level_3 | 宜 |
level_2 | 应、不应 | level_4 | 可 |
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成方法,对所述三元组进行序列标注,确定所述三元组之间的逻辑信息,包括:
首先,为各三元组添加位置标注字符,该位置标注字符可以包括开始位置标注字符、中间位置标注字符以及结束位置标注字符中的至少一个,开始位置标注字符可以在每个三元组的第一个元素之前,中间位置标注字符可以在每个三元组的中间任一元素之前或之后,结束位置标注字符可以在每个三元组的最后一个元素之后。开始位置标注字符可以根据需要进行表示,例如可以设置为“<t>”,中间位置标注字符可以根据需要进行表示,例如可以设置为“<m>”结束位置标注字符可以根据需要进行表示,例如可以设置为“</t>”。
然后,将添加位置标注字符的自然语言文本输入至逻辑信息确定模型,可以得到三元组的位置标注字符对应的逻辑信息。该逻辑信息确定模型可以是序列标注模型,其输入可以是添加标注字符的自然语言文本,输出为位置标注字符对应的标注信息。
以结束位置标注字符对应的标注信息表征逻辑信息为例,逻辑信息确定模型的输出为一个标注信息序列,自然语言文本的文本字符对应的标注信息为0,开始位置标注字符对应的标注信息为X,结束位置标注字符对应的标注信息即用于表征逻辑信息。此处,标注信息可以包括and、or、then、X、L1、L2、L3以及L4等。
逻辑信息确定模型包括输入层、编码层、编解码层、标注层以及输出层,输入层、编码层、编解码层、标注层以及输出层依次连接。编码层可以基于BERT模型结构构建,编解码层可以基于BiLSTM模型结构构建,标注层可以基于CRF构建。输入层用于获取添加位置标注字符的自然语言文本。编码层用于对添加位置标注字符的自然语言文本进行编码,得到编码特征(BETR Embedding)。编解码层用于对编码特征进行编解码,得到序列特征。标注层用于对序列特征进行标注,得到位置标注字符对应的标注信息。
此处,逻辑信息确定模型可以通过携带有位置标注字符及其对应的标注信息的文本样本训练得到。
例如,若对于自然语言文本6“十二层及十二层以上的住宅,每栋楼设置电梯不应少于两台,其中应设置一台可容纳担架的电梯。”,其中包含有三个三元组,分别为triple1(十二层及十二层以上的住宅)、triple2(每栋楼设置电梯不应少于两台)以及triple3(其中应设置一台可容纳担架的电梯),且三者之间并不存在嵌套,因此可以利用各三元组的位置标注字符确定其对应的标注信息。此时逻辑信息确定模型的输入层获取到添加位置标注字符的自然语言文本6:“<t>十二层及十二层以上的住宅</t>,<t>每栋楼设置电梯不应少于两台</t>,<t>其中应设置一台可容纳担架的电梯</t>。”,则输出层输出的位置标注字符对应的标注信息为“XOOOOOOOOOOthenOXOOOOOOOOOOOOandOXOOOOOOOOOOOOOOL2O”,各三元组的结束位置对应的逻辑信息分别为“then”、“and”以及“L2”。
若对于上述自然语言文本1,其中包含有四个三元组,分别为triple1(楼梯梯段净宽不应小于1.10m)、triple2(不超过六层的住宅)、triple3(栏杆的梯段净宽)以及triple4(一边设有栏杆的梯段净宽不应小于1.00m),且triple3和triple4之间存在嵌套,因此可以仅利用triple1、triple2以及triple4的位置标注字符确定其对应的标注信息。此时逻辑信息确定模型的输入层获取到添加位置标注字符的自然语言文本1:“<t>楼梯梯段净宽不应小于1.10m</t>,<t>不超过六层的住宅</t>,<t>一边设有栏杆的梯段净宽不应小于1.00m</t>。”,则输出层输出的位置标注字符对应的标注信息为“XOOOOOOOOOOOOOOOL3OXOOOOOOOOthenOXOOOOOOOOOOOOOOOOOOOOL3O”,进而triple1、triple2以及triple4的结束位置对应的逻辑信息分别为“L3”、“then”、“L3”。图7中以自然语言文本1为例进行说明。
若对于上述自然语言文本2,虽然其中包含有3个三元组,但是由于triple1和triple2均包含在triple3内,因此可以仅利用triple3的位置标注字符确定其对应的标注信息。此时逻辑信息确定模型的输入层获取到添加位置标注字符的自然语言文本2:“<t>旅馆的客房应设置宽度不小于1.2m的无障碍走道</t>。”,则输出层输出的位置标注字符对应的标注信息为“XOOOOOOOOOOOOOOOOOOOOL2O”,进而triple3的结束位置对应的逻辑信息为“L2”。
若对于自然语言文本7“卧室的使用面积应符合下列规定:双人卧室不应小于9m2;单人卧室不应小于5m2;兼起居的卧室不应小于12m2”,其中包含有五个三元组,分别为triple1(卧室的使用面积应符合下列规定)、triple2(双人卧室不应小于9m2)、triple3(单人卧室不应小于5m2)、triple4(兼起居的卧室)以及triple5(兼起居的卧室不应小于12m2),且triple4和triple5之间存在嵌套,因此可以仅利用triple1、triple2、triple3以及triple5的位置标注字符确定其对应的标注信息,进而triple1、triple2、triple3以及triple5的结束位置对应的逻辑信息分别为“X”、“L2”、“L3”、“L3”。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成方法,所述逻辑信息包括逻辑连接词以及所述自然语言文本的语气等级信息;
相应地,所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,包括:
将所述逻辑连接词、用于表征所述三元组的三元组标签以及所述语气等级信息进行拼接,得到所述逻辑语句。
具体地,本发明实施例中,由于逻辑信息中包括逻辑连接词以及自然语言文本的语气等级信息。因此在确定自然语言文本对应的逻辑语句时,可以将逻辑连接词、用于表征三元组的三元组标签以及语气等级信息进行拼接,即可得到逻辑语句。其中,拼接方式可以根据需要进行设置,例如采用各三元组的结束位置对应的逻辑连接词将用于表征三元组的三元组标签进行连接,并在末尾添加对应的语气等级信息。例如,对于自然语言文本6,其对应的逻辑语句可以表示为“if triple1 then triple2 and triple3 level_2”。对于自然语言文本1,其对应的逻辑语句可以表示为“if_then triple1 level_2;if triple2 thentriple4 level_2”。对于自然语言文本2,其对应的逻辑语句可以表示为“if_then triple3level_2”。对于自然语言文本7,其对应的逻辑语句可以表示为“if_then triple2 level_2;if_then triple3 level_2;if_then triple5 level_2”。
本发明实施例中,将逻辑连接词、用于表征三元组的三元组标签以及语气等级信息进行拼接,可以使得到的逻辑语句更加简化,其包含信息更加丰富,有助于该逻辑语句的后续应用。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成方法,所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,之后还包括:
基于所述各三元组中各元素以及所述逻辑语句,确定所述自然语言文本对应的结构化自然语言语句。
具体地,本发明实施例中,在确定出自然语言文本对应的逻辑语句之后,还可以根据各三元组中各元素以及逻辑语句,确定出自然语言文本对应的结构化自然语言语句。其中,结构化自然语言语句可以是机器能够识别的语句。结构化自然语言语句可以通过将三元组中各元素代入至逻辑语句内确定。
例如,对于自然语言文本2,其三元组中各元素、逻辑语句以及结构化自然语言语句可以为:
自然语言文本2:旅馆的客房应设置宽度不小于1.2m的无障碍走道。三元组:triple1<客房,constraint,旅馆>;
triple2<无障碍走到,宽度,>=1.2m>;
triple3<triple1,设置,triple2>
逻辑语句:if_then triple3 level_2
结构化自然语言语句:当客房属于旅馆时,客房应设置无障碍走道,且走道宽度>=1.2m。
又例如,对于自然语言文本7,其三元组、逻辑语句以及结构化自然语言语句可以为:
自然语言文本7:卧室的使用面积应符合下列规定:双人卧室不应小于9m2;单人卧室不应小于5m2;兼起居的卧室不应小于12m2。
三元组:triple1<卧室.使用面积,符合,下列规定>;
triple2<双人卧室,使用面积,>=9m2>;
triple3<单人卧室,使用面积,>=5m2>;
triple4<卧室,Attr,兼起居>;
triple5<triple4,使用面积,>=12m2>;
逻辑语句:if_then triple2 level_2;
if_then triple3 level_2;
if_then triple5 level_2;
结构化自然语言语句:
①双人卧室使用面积应>=9m2
②单人卧室使用面积应>=5m2
③当卧室满足兼起居时,卧室使用面积应>=12m2。
本发明实施例中,根据三元组以及逻辑语句确定出自然语言文本对应的结构化自然语言语句,可以保证结构化自然语言语句的机器可读性。
如图8所示,在上述实施例的基础上,本发明实施例中提供了一种逻辑语句生成装置,包括:
三元组抽取模块81,用于获取自然语言文本,并抽取所述自然语言文本的各三元组;所述各三元组均包括主语、谓语以及宾语中至少一个元素,所述各三元组中各元素均基于所述自然语言文本确定;
逻辑信息确定模块82,用于对所述各三元组进行序列标注,确定所述各三元组之间的逻辑信息;
逻辑语句生成模块83,用于基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成装置,所述三元组抽取模块,用于:
对所述自然语言文本进行要素识别,确定所述自然语言文本的要素标签;
基于所述要素标签,对所述自然语言文本中的三元组进行迭代抽取,确定所述各三元组。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成装置,所述各三元组均基于对应的三元组标签进行表征;
相应地,所述三元组抽取模块,具体用于:
对于当前迭代轮次,将所述自然语言文本作为三元组抽取模型的第一输入、所述当前迭代轮次的前一迭代轮次对应的三元组标签作为所述三元组抽取模型的第二输入,由所述三元组抽取模型抽取所述当前迭代轮次对应的三元组标签;其中,所述第二输入的初始输入为所述要素标签;
若所述当前迭代轮次对应的三元组标签与所述前一迭代轮次对应的三元组标签一致,则迭代抽取动作结束;
否则,将所述当前迭代轮次的下一迭代轮次作为所述当前迭代轮次,继续由所述三元组抽取模型抽取所述当前迭代轮次对应的三元组标签,直至所述当前迭代轮次对应的三元组标签与所述前一迭代轮次对应的三元组标签一致。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成装置,所述各三元组包含有不同粒度的三元组;
所述逻辑语句生成模块,用于:
若不同粒度的三元组中存在第一三元组和第二三元组,且所述第一三元组中包含有所述第二三元组,则基于除所述第二三元组外的其他三元组以及所述其他三元组之间的逻辑信息,确定所述逻辑语句。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成装置,所述三元组的类型包括缺失元素三元组;
相应地,还包括:缺失元素补全模块,用于:
基于所述缺失元素三元组以及所述自然语言文本,确定所述缺失元素三元组中的缺失元素及其在所述自然语言文本中的位置信息;
基于所述位置信息,将所述缺失元素添加至所述缺失元素三元组内。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成装置,所述逻辑信息包括逻辑连接词以及所述自然语言文本的语气等级信息;
相应地,所述逻辑语句生成模块,还具体用于:
将所述逻辑连接词、用于表征所述三元组的三元组标签以及所述语气等级信息进行拼接,得到所述逻辑语句。
在上述实施例的基础上,本发明实施例中提供的逻辑语句生成装置,还包括转换模块,用于:
基于所述各三元组中各元素以及所述逻辑语句,确定所述自然语言文本对应的结构化自然语言语句。
具体地,本发明实施例中提供的逻辑语句生成装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(Processor)910、通信接口(Communications Interface)920、存储器(Memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行上述各实施例中提供的逻辑语句生成方法,该方法包括:获取自然语言文本,并抽取所述自然语言文本的各三元组;所述各三元组均包括主语、谓语以及宾语中至少一个元素,所述各三元组中各元素均基于所述自然语言文本确定;对所述各三元组进行序列标注,确定所述各三元组之间的逻辑信息;基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例中提供的逻辑语句生成方法,该方法包括:获取自然语言文本,并抽取所述自然语言文本的各三元组;所述各三元组均包括主语、谓语以及宾语中至少一个元素,所述各三元组中各元素均基于所述自然语言文本确定;对所述各三元组进行序列标注,确定所述各三元组之间的逻辑信息;基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例中提供的逻辑语句生成方法,该方法包括:获取自然语言文本,并抽取所述自然语言文本的各三元组;所述各三元组均包括主语、谓语以及宾语中至少一个元素,所述各三元组中各元素均基于所述自然语言文本确定;对所述各三元组进行序列标注,确定所述各三元组之间的逻辑信息;基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种逻辑语句生成方法,其特征在于,包括:
获取自然语言文本,并抽取所述自然语言文本的各三元组;所述各三元组均包括主语、谓语以及宾语中至少一个元素,所述各三元组中各元素均基于所述自然语言文本确定;
对所述各三元组进行序列标注,确定所述各三元组之间的逻辑信息;
基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句。
2.根据权利要求1所述的语句生成方法,其特征在于,所述抽取所述自然语言文本的各三元组,包括:
对所述自然语言文本进行要素识别,确定所述自然语言文本的要素标签;
基于所述要素标签,对所述自然语言文本中的三元组进行迭代抽取,确定所述各三元组。
3.根据权利要求2所述的语句生成方法,其特征在于,所述各三元组均基于对应的三元组标签进行表征;
相应地,所述基于所述要素标签,对所述自然语言文本中的三元组进行迭代抽取,确定所述各三元组,包括:
对于当前迭代轮次,将所述自然语言文本作为三元组抽取模型的第一输入、所述当前迭代轮次的前一迭代轮次对应的三元组标签作为所述三元组抽取模型的第二输入,由所述三元组抽取模型抽取所述当前迭代轮次对应的三元组标签;其中,所述第二输入的初始输入为所述要素标签;
若所述当前迭代轮次对应的三元组标签与所述前一迭代轮次对应的三元组标签一致,则迭代抽取动作结束;
否则,将所述当前迭代轮次的下一迭代轮次作为所述当前迭代轮次,继续由所述三元组抽取模型抽取所述当前迭代轮次对应的三元组标签,直至所述当前迭代轮次对应的三元组标签与所述前一迭代轮次对应的三元组标签一致。
4.根据权利要求3所述的逻辑语句生成方法,其特征在于,所述各三元组包含有不同粒度的三元组;
所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,包括:
若不同粒度的三元组中存在第一三元组和第二三元组,且所述第一三元组中包含有所述第二三元组,则基于除所述第二三元组外的其他三元组以及所述其他三元组之间的逻辑信息,确定所述逻辑语句。
5.根据权利要求1所述的逻辑语句生成方法,其特征在于,所述三元组的类型包括缺失元素三元组;
相应地,所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,之前包括:
基于所述缺失元素三元组以及所述自然语言文本,确定所述缺失元素三元组中的缺失元素及其在所述自然语言文本中的位置信息;
基于所述位置信息,将所述缺失元素添加至所述缺失元素三元组内。
6.根据权利要求1-5中任一项所述的逻辑语句生成方法,其特征在于,所述逻辑信息包括逻辑连接词以及所述自然语言文本的语气等级信息;
相应地,所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,包括:
将所述逻辑连接词、用于表征所述三元组的三元组标签以及所述语气等级信息进行拼接,得到所述逻辑语句。
7.根据权利要求1-5中任一项所述的逻辑语句生成方法,其特征在于,所述基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句,之后还包括:
基于所述各三元组中各元素以及所述逻辑语句,确定所述自然语言文本对应的结构化自然语言语句。
8.一种逻辑语句生成装置,其特征在于,包括:
三元组抽取模块,用于获取自然语言文本,并抽取所述自然语言文本的各三元组;所述各三元组均包括主语、谓语以及宾语中至少一个元素,所述各三元组中各元素均基于所述自然语言文本确定;
逻辑信息确定模块,用于对所述各三元组进行序列标注,确定所述各三元组之间的逻辑信息;
逻辑语句生成模块,用于基于所述各三元组以及所述逻辑信息,确定所述自然语言文本对应的逻辑语句。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述逻辑语句生成方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述逻辑语句生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111655993.2A CN114462359A (zh) | 2021-12-30 | 2021-12-30 | 逻辑语句生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111655993.2A CN114462359A (zh) | 2021-12-30 | 2021-12-30 | 逻辑语句生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114462359A true CN114462359A (zh) | 2022-05-10 |
Family
ID=81408102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111655993.2A Pending CN114462359A (zh) | 2021-12-30 | 2021-12-30 | 逻辑语句生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462359A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105760462A (zh) * | 2016-02-05 | 2016-07-13 | 首都师范大学 | 基于关联数据查询的人机交互方法及装置 |
US20170177715A1 (en) * | 2015-12-21 | 2017-06-22 | Adobe Systems Incorporated | Natural Language System Question Classifier, Semantic Representations, and Logical Form Templates |
CN111914568A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 文本修辞句的生成方法、装置、设备及可读存储介质 |
CN112434532A (zh) * | 2020-11-05 | 2021-03-02 | 西安交通大学 | 一种支持人机双向理解的电网环境模型及建模方法 |
CN112765330A (zh) * | 2020-12-31 | 2021-05-07 | 科沃斯商用机器人有限公司 | 文本数据处理方法、装置、电子设备和存储介质 |
-
2021
- 2021-12-30 CN CN202111655993.2A patent/CN114462359A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170177715A1 (en) * | 2015-12-21 | 2017-06-22 | Adobe Systems Incorporated | Natural Language System Question Classifier, Semantic Representations, and Logical Form Templates |
CN105760462A (zh) * | 2016-02-05 | 2016-07-13 | 首都师范大学 | 基于关联数据查询的人机交互方法及装置 |
CN111914568A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 文本修辞句的生成方法、装置、设备及可读存储介质 |
CN112434532A (zh) * | 2020-11-05 | 2021-03-02 | 西安交通大学 | 一种支持人机双向理解的电网环境模型及建模方法 |
CN112765330A (zh) * | 2020-12-31 | 2021-05-07 | 科沃斯商用机器人有限公司 | 文本数据处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11922121B2 (en) | Method and apparatus for information extraction, electronic device, and storage medium | |
CN109661664B (zh) | 一种信息处理的方法及相关装置 | |
CN110569366A (zh) | 文本的实体关系抽取方法、装置及存储介质 | |
US9639523B2 (en) | System and method for processing natural language | |
CN110633577A (zh) | 文本脱敏方法以及装置 | |
CN110309282B (zh) | 一种答案确定方法及装置 | |
CN111753545A (zh) | 嵌套实体识别方法、装置、电子设备和存储介质 | |
CN110188454A (zh) | 建筑设备与建筑信息模型匹配方法及装置 | |
WO2018174816A1 (en) | Method and apparatus for semantic coherence analysis of texts | |
Richter | Formal background | |
CN112446215A (zh) | 一种实体关系联合抽取方法 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
CN113987199A (zh) | 一种规范自动解译的bim智能审图方法、系统和介质 | |
CN115455202A (zh) | 一种应急事件事理图谱构建方法 | |
CN109299470A (zh) | 文本公告中触发词的抽取方法及系统 | |
CN111241843B (zh) | 基于复合神经网络的语义关系推断系统和方法 | |
CN111524043A (zh) | 诉讼风险评估问卷自动生成的方法和装置 | |
CN113051904A (zh) | 一种面向小规模知识图谱的链接预测方法 | |
WO2021217866A1 (zh) | 用于ai智能面试的识别的方法、装置、计算机设备及存储介质 | |
CN112232052A (zh) | 文本拼接方法、装置、计算机设备及存储介质 | |
CN114462359A (zh) | 逻辑语句生成方法、装置、电子设备及存储介质 | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
EP4064038A1 (en) | Automated generation and integration of an optimized regular expression | |
CN113590846B (zh) | 法律知识图谱构建方法及相关设备 | |
CN114429121A (zh) | 一种面向试题语料情感与原因句子对的抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |