CN109062904A

CN109062904A - 逻辑谓词提取方法和装置

Info

Publication number: CN109062904A
Application number: CN201810964841.2A
Authority: CN
Inventors: 谢德刚; 梅阳阳; 郑文娟
Original assignee: Shanghai Mutual Education And Education Technology Co Ltd
Current assignee: Shanghai Mutual Education Intelligent Technology Co.,Ltd.
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2018-12-21
Anticipated expiration: 2038-08-23
Also published as: CN109062904B

Abstract

一种逻辑谓词提取方法，用于对数学实体的识别，包括步骤：S1：采用词典与算法结合的方法进行序列标注和分词；S2：基于序列标注和分词结果，使用语法树自下而上的递归找到数学实体与数学实体之间的关系，从而根据预设定的规则提取谓词逻辑。

Description

逻辑谓词提取方法和装置

技术领域

本发明属于人工智能技术领域，特别涉及自然语言处理技术领域中的数学实体逻辑谓词提取方法和装置。

背景技术

目前人工智能领域迅速发展，自然语言处理技术应用广泛，而自然语言处理技术在数学等专业领域的研究较少。由于数学知识领域独特的语言特点，现有的自然语言处理算法直接应用于该领域的效果不佳。在初等数学题目描述的自然语言理解中，数学知识的表示是实现初等数学题意理解的基础，是人工智能推理的关键，现有的比较好的数学知识表示方法有谓词逻辑表示法，但目前已有的算法技术不能有效地利用数学中句法和句式的特征，导致在一些句子较复杂的数学题目中，数学实体识别和逻辑谓词提取准确度不高，对智能解题过程影响很大。

发明内容

本发明的目的是提供一种基于序列标注和语法树的逻辑谓词提取方法和装置，即根据文本序列标注结果和语法树递归关系提取数学逻辑谓词，有效解决了一些长文本数学题目中复合逻辑关系的提取。

本发明中，谓词是用来刻划个体词(可以独立存在的对象——事或物)的性质的词，即刻画对象之间的某种关系表现的词，谓词逻辑的语言就是围绕对象和关系建立起来的。在本发明中，逻辑谓词的设计基于数学知识表达的特点，包括数学实体的性质状态以及实体之间的关系。例如有下表：

序列标注是指对给定的一串序列中的每一个元素标注一个标签。一般来说，一个序列指的是一个句子，而一个元素指的是句子中的一个字或者词。序列标注是NLP问题中常见的基本问题之一，比如信息提取问题可以认为是一个序列标注问题，如提取人名、地名等。

语法树是句子结构的图形表示，它代表了句子的推导结果，有利于理解句子语法结构的层次。简单说，语法树就是按照某一规则进行推导时所形成的树。

本发明实施例之一，一种逻辑谓词提取方法，用于对数学实体的识别，包括以下步骤：

S1：采用词典与算法结合的方法进行序列标注和分词；

S2：基于序列标注和分词结果，使用语法树自下而上的递归找到数学实体与数学实体之间的关系，从而根据预设定的规则提取谓词逻辑。

所述步骤S1具体包括以下步骤：

S11、建立数学领域专有词库扩展词典，储存重点词语和词性；

S12、收集合理规范的数学题目作为训练样本，进行初步分词后，对训练样本进行人工标注；

S13、基于人工标注的训练样本生成预标注序列；

S14、对预标注序列进行分析，提取训练样本文本中的公式和数学命名实体，并对提取的公式实体按照识别的标记打标签，而对未识别的部分统一标记后再通过词典进行词性标注；

S15、基于步骤S11～S14训练的模型，对新的数学题目文本数据进行标注，并对每个新标注的文本题目判断其loss值，对loss值进行一个阈值划分，较低的使用部分规则判断，要求文本整体loss值与单个标签的loss值均在一定范围内，满足要求的即可直接作为新的训练集；

loss值较高的文本则再次进行人工标注后得到新的训练集，把这两部分训练集均加入原来的训练集中重新生成模型，循环本步骤，并在每次训练模型后，针对序列标注结果中出现的部分分类错误的标签进行修复，直到模型逐渐趋于稳定。

所述步骤S2具体包括以下步骤：

S21、基于数学题目的文本表达特点建立停用词表、关系词表和数学词表；

S22、针对数学文本中出现的缺省实体，包括缺省实体名称的句子以及指代型的缺省数学实体的句子，先设定规则将缺省数学实体部分补充完整；

S23、采用自下而上递归算法构造句法树，对于每个题目文本先建立实体树，然后建立关系树；

S24、使用CRF算法对数学题目文本进行序列标注时，序列标注从最小的子树开始，自下而上一层一层合并最小子树成为新的节点，不断赋予新的状态，直到无法继续，从而语法树构造完毕；

S25、语法树构造结束后，从下而上开始解析句法树，先找到最小子树，对最小子树的内容进行解析后产生新的状态，从而一层层向上递归，直到最上面也即最外面一层谓词逻辑被找到时停止递归，在该步骤中，按照一个完整的句法子树应产生一个谓词的原则，对整个谓词结构进行填补直到得到句子中完整的谓词逻辑表示。

本发明的一种基于序列标注和语法树的逻辑谓词提取方法，首先在序列建模方面，采用半监督算法，使用自动生成和人工标注结合的方法获取大量训练样本，且在序列建模过程中针对数学实体的识别部分，采用词典与算法结合的方法进行序列标注和分词，即通过建立数学领域专有词库扩展词典，将不需要进行序列建模的词语统一标记后再采用词典的方法进行分词和词性标注；再基于序列标注和分词的结果，使用语法树自下而上的递归找到实体与实体之间的关系，从而根据预设定的规则提取谓词逻辑。本发明根据文本序列标注结果和语法树递归关系提取数学逻辑谓词，有效解决了一些长文本数学题目中复合逻辑关系的提取，相比将具有复合逻辑关系的句子根据句式特点拆为简单逻辑的句子的方法适用范围更广，可以有效地推动了自然语言处理领域中的关键技术针对数学领域的研究和应用。

本发明实施例的有益效果包括：

1，本发明采用序列标注和分词的结果构建句法树时，可以通过模型与规则的相互调节，使模型更加灵活，一方面减少了模型中使用规则的局限性，另一方面增加了模型的稳定性。且根据文本序列标记结果和语法树递归关系提取数学逻辑谓词，有效解决了一些长文本数学题目中复合逻辑关系的提取，相比将具有复合逻辑关系的句子根据句式特点拆为简单逻辑的句子的方法适用范围更广。

2，本发明在常规的中文分词规范的基础上，并通过建立数学领域专有词库扩展词典，将不需要进行序列建模的词语(如题目中大部分的中文表达)统一标记后再采用词典的方法进行分词和词性标注，可减少序列标记模型的复杂度，并使得模型泛化能力更强，提升了模型的准确率。

3，在序列建模方面，本发明采用半监督算法，使用自动生成和人工标注结合的方法获取大量训练样本，不断增加模型的准确率，并根据数学文本的特点，利用递归的方法逐层分析，便于捕捉词语与表达式、表达式与表达式之间的关系。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1是本发明实施例中逻辑谓词提取方法的流程图。

图2是本发明实施例中序列标注结果示意图。

图3是本发明实施例中数学实体间递归关系示意图。

具体实施方式

在本文中涉及到的数学题目、数学文本、原始数学题目是同一个概念术语，另外，本文中涉及的训练样本是指：数学题目按照一定的规则标注后成为训练样本。数学实体是指数学表达式，以及由表达式和词语组成的符号。

根据一个或者多个实施例，如图1所示，基于序列标注和语法树的逻辑谓词提取方法，包括如下步骤：

S1：在数学实体识别部分，采用词典与算法结合的方法进行序列标注和分词。

S2：基于序列标注和分词结果，使用语法树自下而上的递归找到实体与实体之间的关系，从而根据预设定的规则提取谓词逻辑。

在初等数学题目中，分词的难点在于公式界限不明，公式多样难以匹配，并且部分公式采用中文描述法进行说明，采用一般的分词方法效果较差。本发明实施例在常规的中文分词规范的基础上，并通过建立数学领域专有词库扩展词典，将不需要进行序列建模的词语(如题目中大部分的中文表达)统一标记后再采用词典的方法进行分词和词性标注，可减少序列标记模型的复杂度，并使得模型泛化能力更强，提升了模型的准确率。

在序列建模方面，本发明实施例采用半监督算法，使用自动生成和人工标注结合的方法获取大量训练样本，不断增加模型的准确率，并根据数学文本的特点，利用递归的方法逐层分析，便于捕捉词语与表达式、表达式与表达式之间的关系。

在本实施例中，所述步骤S1具体包括以下步骤：

建立数学领域专有词库扩展词典，储存重点词语和词性，如有限集合、实数集等。

收集一些合理规范的数学题目作为训练样本，基于初步分词后，对文本中重点对象进行人工标注。

基于人工标注的数据样本采用条件随机场开源工具CRF++训练模型，生成预标注序列。

对预标注序列进行分析，提取文本中的公式和数学命名实体，并对提取的公式、实体按照识别的标记打标签，而对未识别的部分统一标记后再通过词典进行词性标注。部分标记如下表1所示。

表1

基于前一步训练的模型，对新的数据进行标注，并对每个新标注的文本题目判断其loss值，对loss值进行一个阈值划分，较低的使用部分规则判断，要求文本整体loss值与单个标签的loss值均在一定范围内，满足要求的即可直接作为新的训练集；loss值较高的文本则再次进行人工标注后得到新的训练集，把这两部分训练集均加入原来的训练集中重新生成模型。循环上述步骤，直到模型逐渐趋于稳定。

针对序列标注结果中出现的部分分类错误的标签进行修复。如在数学集合章节中，集合A＝{x|(x+2)*(x-1)>0}，其中A是一个名称，集合是一个类别，而在基于CRF的序列标注中，A被识别为一个类别，可以使用对一个名称进行修饰来矫正标记的正误。

在本实施例中，所述步骤S2具体包括以下步骤：

基于数学文本表达特点建立停用词表，关系词表，数学词表等。

利用算法分析数学题目，针对数学文本中出现的缺省实体，包括缺省实体名称的句子以及指代型的缺省实体的句子，先设定规则将缺省实体部分补充完整。

采用自下而上递归算法构造句法树。因数学题目中一般只包含实体、实体的类别以及实体之间的关系，基于此，对于每个句子先建立实体树，然后建立关系树。

使用CRF算法对题目文本进行序列标注时，序列标注的结果为最小子树，从最小的子树开始，合并满足规则的最小子树成为新的节点，赋予新的状态，自下而上一层一层合并，不断赋予新的状态，直到无法继续，从而语法树构造完毕。

对语法树进行解析以便提取逻辑谓词，即找到一棵完整的实体树，判断树的名称和类型(包括求解的问题类型)，并通过对树的递归查找确定谓词类别。先查找子树确定其谓词，对已经确定了谓词的子树则用谓词代替子树得到新的状态。通过一层层关系向上递归，直到最上面也即最外面一层谓词逻辑被找到时停止递归，整个语法树的解析过程也是一层层对谓词结构进行填补直到得到文本中完整的谓词逻辑表示。

在本实施例中中，构建句法树时使用自下而上的文法分析，需先定义数学文本中每种表达的优先级，每次向上递归都赋予一个树新的状态，直到无法递归。这些递归关系往往存在于数学表达中的固定搭配以及一些包含实体间特殊关系的关键字或词语上，如是、为、满足等。通过这些递归关系，不仅可以更加准确的定义命名实体，而且可以找到实体与实体之间的关系。

在本实施例方案中，采用序列标注的结果构建句法树，去除一些停用词，并根据句式特点拆解句子，可以保证句法树的稳定性，使得此方法可应用在更加复杂的句子上。并且采用序列标注的结果构建句法树时，可以通过模型与规则的相互调节，使模型更加灵活，一方面减少了模型中使用规则的局限性，另一方面增加了模型的稳定性。

根据一个或者多个实施例，一种逻辑谓词提取装置，该装置用于对数学实体的识别，该装置包括存储器；以及耦合到所述存储器的处理器，该处理器被配置为执行存储在所述存储器中的指令，所述处理器执行以下操作：

S1：采用词典与算法结合的方法进行序列标注和分词；

S2：基于序列标注和分词结果，使用语法树自下而上的递归找到数学实体与数学实体之间的关系，从而根据预设定的规则提取谓词逻辑，

根据一个或者多个实施例，以实例对基于序列标记和语法树的逻辑谓词提取方法进行详细的说明：

这里选择一道数学题目进行输入，题目信息为：

已知函数y＝lg(x)的定义域为M，集合A＝{x|(x+1)*(x-2)<0},求集合CMA.

1.使用训练好的CRF模型进行序列预标注，预标注后的结果如下表2所示(其中第一列为描述，第二列为词性特征，第三列为预标注结果)：

表2

2.对预标注中的统一标记再通过词典进行词性标注，得到最后的序列标注结果。

3.基于序列标注的结果构建句法树，先定义数学文本中每种表达的优先级，再在数学表达中的固定搭配以及一些包含实体间特殊关系的关键字或词语上寻找递归关系。

本例中固定搭配的句子有：集合A＝{x|(x+1)*(x-2)<0}、求集合CMA，为一个描述对应一个名称、一个名称对应一个表达式等，这种表述很常见。部分结果如图2所示。

本例中需要基于关键字或词语进行结构分析的句子有：已知函数y＝lg(x)的定义域为M，关键字为“是”，连接着前后实体间的某种特殊关系。递归关系结果如图3所示。

数学表达中的固定搭配可以递归出一个结构关系，而关键字则可以在多个实体中提取关系。

4.语法树构造结束后，从下而上开始解析句法树，先找到最小子树，对最小子树的内容进行解析后产生新的状态，从而一层层向上递归，直到最上面也即最外面一层谓词逻辑被找到时停止递归。在此过程中，按照一个完整的句法子树应产生一个谓词的原则，对整个谓词结构进行填补直到得到句子中完整的谓词逻辑表示。

值得说明的是，虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种逻辑谓词提取方法，用于对数学实体的识别，包括以下步骤：

S1：采用词典与算法结合的方法进行序列标注和分词；

2.根据权利要求1所述的逻辑谓词提取方法，其特征在于，

所述步骤S1具体包括以下步骤：

S13、基于人工标注的训练样本生成预标注序列；

3.根据权利要求2所述的逻辑谓词提取方法，其特征在于，

所述步骤S2具体包括以下步骤：

S22、针对数学题目的文本中出现的缺省实体，包括缺省实体名称的句子以及指代型的缺省数学实体的句子，先设定规则将缺省数学实体部分补充完整；

S24、使用CRF算法对数学题目的文本进行序列标注时，序列标注从最小的子树开始，自下而上一层一层合并最小子树成为新的节点，不断赋予新的状态，直到无法继续，从而语法树构造完毕；

4.一种逻辑谓词提取装置，该装置用于对数学实体的识别，其特征在于，该装置包括存储器；以及

耦合到所述存储器的处理器，该处理器被配置为执行存储在所述存储器中的指令，所述处理器执行以下操作：

S1：采用词典与算法结合的方法进行序列标注和分词；

所述步骤S1具体包括以下步骤：

S13、基于人工标注的训练样本生成预标注序列；

loss值较高的文本则再次进行人工标注后得到新的训练集，把这两部分训练集均加入原来的训练集中重新生成模型，循环本步骤，并在每次训练模型后，针对序列标注结果中出现的部分分类错误的标签进行修复，直到模型逐渐趋于稳定，

所述步骤S2具体包括以下步骤：