CN109190099B

CN109190099B - 句模提取方法及装置

Info

Publication number: CN109190099B
Application number: CN201810964831.9A
Authority: CN
Inventors: 梅阳阳; 谢德刚; 郑文娟
Original assignee: Shanghai Hujiao Education Technology Co ltd
Current assignee: Shanghai Mutual Education Intelligent Technology Co.,Ltd.
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2022-12-13
Anticipated expiration: 2038-08-23
Also published as: CN109190099A

Abstract

一种句模提取方法，用于对数学题目文本的句模提取，包括以下步骤：S1，首选进行预处理，采用词典与算法相结合的方法对数学题目进行序列标注、分词和分句，并做标准化处理；S2，基于分词和分句结果，计算词对的互信息，初步筛选出句模，并根据句模出现次数确定句模。本发明根据数学短语化句式的特点和对文本序列标注结果的预处理，可以有效地提取数学领域中的句子模板，大大提高了对数学题目知识表达的逻辑谓词的提取效果，促进了自动解题系统对题意的准确理解，相比传统人工总结编写句模的方法适用性更广，可以有效地推动了自然语言处理领域中的关键技术针对数学领域的研究和应用。

Description

句模提取方法及装置

技术领域

本发明属于人工智能技术领域，特别涉及自然语言处理技术领域中，一种数学文本句模自动提取生成方法及装置。

背景技术

随着人工智能的迅速发展，自然语言处理技术应用广泛，其中句模的使用比较普遍，同样在数学自动化解题系统等专业项目，句模的使用对数学题目文本题意的提取也是很有帮助的。但现有的句模方法主要是基于人工总结编写，非常耗费人力和时间，当数据量很大且涉及内容多、范围广时，仅靠人工总结编写句模的弊端很容易就暴露出来了，根本无法满足对日益庞大的数据进行分析的要求。

发明内容

本发明的目的是提供一种基于互信息的数学文本句模自动提取生成方法及其装置，以解决现有技术中智能依靠人工编写的问题。

互信息是信息论里一种有用的信息度量，它可以看成是一个变量中包含的关于另一个随机变量的信息量。设两个随机变量(X,Y)的联合分布为p(x,y)，边际分布分别为p(x),p(y)，互信息I(X；Y)是联合分布p(x,y)与边际分布p(x)p(y)乘积的相对熵。本发明使用两个词语出现在同一个短句中的概率作为p(x,y)，符合数学模版提取的理论基础，是一个非常好的衡量标准。

本发明实施例之一，一种句模提取方法，用于对数学题目文本的句模提取，包括以下步骤：

S1，首选进行预处理，采用词典与算法相结合的方法对数学题目进行序列标注、分词和分句，并做标准化处理；

S2，基于分词和分句结果，计算词对的互信息，初步筛选出句模，并根据句模出现次数确定句模。

该实施例中，先使用crf算法对数学题目文本进行序列标注、分词，识别其中的公式实体，并利用序列标注的结果使句子初步规范化。再根据数学领域中常见短语化表达的语言特点和序列标注结果对句子进行拆分，计算短句中每个词对的互信息，对短句内互信息大于某一阈值的词对进行模板的提取，并统计出现次数，对出现频率大于某一阈值的，识别为一个句模。

本发明的实施例针对数学领域较为规范统一的语言特点专门设计了一种自动生成句模的方法用于对文本题意的准确理解。对于数学语言常见表达中短语化的特点，先对句子进行拆分，针对每个词语，计算短句中每个单词的互信息，对单句内互信息大于某一阈值的单词对进行模版的提取，并统计出现次数，对出现频率大于某一阈值的单词对即识别为一个句模。

本发明根据数学短语化句式的特点以及对文本序列标注结果的预处理，利用算法有效地提取数学领域中的句子模板，大大提高了对数学题目知识表达的逻辑谓词的提取效果，促进了自动解题系统对题意的准确理解，相比传统人工总结编写句模的方法适用性更广，并有效地推动了自然语言处理领域中的关键技术针对数学领域的研究和应用。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1本发明实施例中基于互信息的数学文本句模自动生成方法的流程图。

具体实施方式

根据一个或者多个实施例，如图1所示，一种基于互信息的数学文本句模自动生成方法，包括如下步骤：

S1：在预处理部分，采用词典与算法相结合的方法进行序列标注、分词，并做标准化处理。

S2：基于分词和分句结果，计算词对的互信息初步确定句模并根据句模出现次数确定句模。

所述步骤S1具体包括以下步骤：

S11.使用crf算法基于人工标注数据对数学题目进行序列标注，识别出实体和断句点。

S12.基于序列标注结果对识别出的公式实体进一步做标准化处理，使用其标注名称进行替换。

S13.对非公式实体部分进行词典分词。

crf算法是自然语言处理领域常用的序列标注算法，本实施例采用crf算法结合人工提取的特征，利用通过规则和人工同时标记的大量数据完成本项任务。本实施例只对数学公式进行识别与分类，非公式部分采用词典进行分词和标注，可以大量节省人工标记的成本并且提高模型准确率。

针对分词任务，本发明在常规的中文分词方法上，先进行公式的统一替换处理，再根据自己建立的数学领域专有名词并结合公开的词典采用词典进行分词。在数学领域缺少大规模标注数据和语言较为规范统一且严谨的情况下利用该方法进行分词在速度和准确率上都有着优越的表现。

所述步骤S2具体包括以下步骤：

S21.使用crf算法基于人工标注数据再次通过序列标注进行分句。

S22.基于分句结果，计算每个句子内任意两词共同出现的次数。

S23.基于分词结果，计算每个词单独出现的次数。

S24.计算每个词对的互信息，即在同一短句内出现的次数和单独出现次数的比值。

S25.统计单个句子内互信息大于某一阈值的单词对，并把它标记成一个子序列。如果单词对中间有其它词语，则用占位符[T]表示。

S26.统计子序列的出现次数，即不仅统计此序列的次数，也包含此序列被其他长序列包含的次数。

S27.划定阈值，对出现次数高于某值的序列，则认为是一个句模。

因为数学题目中数学符号较多，常规基于标点符号分句的方法不适用于此领域。而本发明采用crf算法结合人工标记数据，并用起始条件，中间条件，问题，三个大标签，采用BMES标记法解决了数学领域分句的问题，效率显著。

在本实施例中，根据数学短语化句式的特点以及对文本序列标注结果的预处理，基于互信息理论，利用算法有效地提取文本中互信息大于某一阈值且出现频率大的单词对，从而实现数学领域中句子模板的自动生成，大大提高了对数学题目知识表达的逻辑谓词的提取效果，促进了自动解题系统对题意的准确理解。

根据一个或者多个实施例，一种句模提取装置，所述装置用于对数学题目文本的句模提取，其特征在于，该装置包括存储器；以及

耦合到所述存储器的处理器，该处理器被配置为执行存储在所述存储器中的指令，所述处理器执行以下操作：

根据一个或者多个实施例，以一个实际例子对本发明的一种基于互信息的数学文本句模自动生成方法进行详细的说明。

这里选择一道数学题目进行输入，题目信息为：已知定义域为R的奇函数f(x)在[0,1]上单调递增,且对于任意的x,y都有f(x+y)＝f(x)*f(1-y)+f(1-x)*f(y).求f(0)和f(1)的值。方法包括：

1.使用crf算法基于人工标注数据对数学题目进行序列标注，主要对题目文本中公式实体部分进行标记，目的在于准确识别出公式实体。对文本中公式识别所用的标记方法如表1所示。

表1：

2.对题目文本中识别出的公式部分使用其标注名称进行替换，上述文本经过标准化替换后结果如下：

已知定义域为Set的奇函数Function在Interval上单调递增,且对于任意的expr,expr都有Fexpr.求Fexpr和Fexpr的值。

3.使用开源词典加入数学领域专有名词，对上述处理后的句子进行分词，用/表示分词点，分词结果如下：

已知/定义域/为/Set/的/奇函数/Function/在/Interval/上/单调递增/,/且/对于/任意/expr/,/expr/都有/Fexpr/./求/Fexpr/和/Fexpr/的值。

4.基于人工标注数据使用crf算法再次通过序列标注进行分句，对句子进行分句的

标记方法如表2所示。

表2：

使用训练好的模型进行序列标注可以得到以下三个短句：

(1).已知/定义域/为/Set/的/奇函数/Function/在/Interval/上/单调递增/,

(2).且/对于/任意/expr/,/expr/都有/Fexpr/,

(3).求/Fexpr/和/Fexpr/的值.

5.分别统计上述词语在整个训练样本中出现次数和互信息。对短句1中词与词之间的关系表举例，如表3所示。

表3：

6.基于统计量可以计算互信息，将互信息较强的词语记录下来初步形成一个模板如下：

①已知/定义域/为/Set/的/奇函数

②奇函数/Function/在/Interval/上/单调递增

③对于任意的[T]都有[T]

④求[T]的值

7.对各个模板进行统计，统计出现次数，如果此模板在更长的模板里面，也统计进去。如模板“任意的[T]”出现在短句“对任意的[T]都有[T]”中时，则对“任意的[T]”的统计量加1。最后把统计量高于某一阈值的模板选为最终模板。

8.对以上的模板进行统计，经过统计后可以得到模板的出现次数，并根据出现次数确定最后的模板。经过判断，上例句子中含有如下模版：

①定义域/为/Set

②定义域/为/Set/的/奇函数

③奇函数/Function

④Function/在/Interval/上/单调递增

⑤任意的[T]都有[T]

⑥[T]的值。

值得说明的是，虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种句模提取方法，用于对数学题目文本的句模提取，包括以下步骤：

S2，基于分词和分句结果，计算词对的互信息，初步筛选出句模，并根据句模出现次数确定句模；

所述步骤S1具体包括以下步骤：

S11.使用crf算法基于人工标注数据对数学题目进行序列标注，识别出实体和断句点；

S12.基于序列标注结果对识别出的公式实体进一步做标准化处理，使用其标注名称进行替换；

S13.对非公式实体部分进行词典分词；

所述步骤S2具体包括以下步骤：

S21.使用crf算法基于人工标注数据再次通过序列标注进行分句；

S22.基于分句结果，计算每个句子内任意两词共同出现的次数；

S23.基于分词结果，计算每个词单独出现的次数；

S24.计算每个词对的互信息，即在同一短句内出现的次数和单独出现次数的比值；

S25.统计单个句子内互信息大于某一阈值的单词对，并把它标记成一个子序列，如果单词对中间有其它词语，则用占位符[T]表示；

S26.统计子序列的出现次数，即不仅统计此序列的次数，也包含此序列被其他长序列包含的次数；

2.一种句模提取装置，所述装置用于对数学题目文本的句模提取，其特征在于，该装置包括存储器；以及

所述步骤S1具体包括以下步骤：

S13.对非公式实体部分进行词典分词；

所述步骤S2具体包括以下步骤：

S23.基于分词结果，计算每个词单独出现的次数；