CN107092593A

CN107092593A - 初等数学分层抽样应用题的句子语义角色识别方法及系统

Info

Publication number: CN107092593A
Application number: CN201710237750.4A
Authority: CN
Inventors: 刘清堂; 吴林静; 范桂林; 黄景修; 王轩; 劳传媛; 孙丁辉; 郑重
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University
Priority date: 2017-04-12
Filing date: 2017-04-12
Publication date: 2017-08-25
Anticipated expiration: 2037-04-12
Also published as: CN107092593B

Abstract

本发明公开了一种初等数学分层抽样应用题的句子语义角色识别方法及系统，本发明首先定义了分层抽样应用题求解中涉及到的五类核心句子语义角色，然后通过基于特征词/模式与概率相结合的方法对应用题文本中的每一个句子进行角色判定，从而实现分层抽样应用题的自动题意理解。该方法为分层抽样应用题的自动求解提供基础，促进人工智能技术的发展。

Description

初等数学分层抽样应用题的句子语义角色识别方法及系统

技术领域

本发明属于计算机技术领域，涉及一种语义角色识别方法及系统，具体涉及一种初等数学分层抽样应用题文本中的句子的语义角色判定方法及系统。

背景技术

数学问题的自动求解一直是人工智能领域的一项富有挑战性和吸引力的工作。在几何和代数领域的数学问题自动求解都取得了很大的进展。如由吴文俊院士所提出的吴方法可以对初等数学中的几何定理进行机器证明，被公认为机器证明领域的里程碑。张景中院士提出的平面几何定理的可读机器证明的方法和智能教学软件超级画板，是机器自动求解领域的一座丰碑，同时为基础教育事业做出了巨大贡献。代数领域的三角函数自动化简、方程及方程组的自动求解也取得了极大的进展。但是，对于应用题的自动求解则相对研究较少。目前的研究主要集中在初等数学代数问题尤其是加减法的应用题求解问题上。研究者们选择加减法应用题作为研究对象的主要原因在于初等数学中的加减法类应用题题意相对清晰、涉及到的参数较少、求解规则相对简单。对于情境和求解规则较为复杂的应用题，如高考数学试卷中应用题的自动求解研究则极为少见，目前尚未发现相关的研究文献。其主要原因在于高中学段的数学应用题情境多变、求解规则复杂、语义中包含的参数较多，这些都给题意的自动识别带来了困难。

发明内容

为了解决上述技术问题，本发明针对初等数学高考应用题中的分层抽样类应用题，通过对分层抽样应用题文本中的句子进行语义角色的识别，提供了一种语义角色识别方法及系统，以实现应用题的题意理解，为应用题的自动求解提供基础。

本发明的方法所采用的技术方案是：一种初等数学分层抽样应用题的句子语义角色识别方法，其特征在于，包括以下步骤：

步骤1：将分层抽样应用题的文本以“，”和“。”作为分割标志，分割为多个单句，形成单句集合；

步骤2：对单句集合中每一个句子的特征词/模式所属语义角色和数量进行统计，得到统计结果；

步骤3：将单句集合中既不包含数值信息也不包含任何特征词/模式的单句删除，保留所有含有数值信息或含有特征词/模式的单句；

步骤4：根据统计结果对每个句子的语义角色进行判断；若可以判断则将句子标注为对应的语义角色；若不能根据统计结果进行判断，则将其语义角色标注为待定；

步骤5：在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测，最终得到所有句子的语义角色判定结果。

本发明的系统所采用的技术方案是：一种初等数学分层抽样应用题的句子语义角色识别系统，其特征在于：包括单句切分器、特征词/模式统计器、句子筛选器、基于特征词/模式的角色判定器和基于概率的角色判定器；

所述单句切分器用于将分层抽样应用题的文本以“，”和“。”作为分割标志，分割为多个单句，形成单句集合；

所述特征词/模式统计器用于对单句集合中每一个句子进行特征词/模式所属语义角色和数量的统计，得到统计结果；

所述句子筛选器用于将单句集合中既不包含数值信息也不包含任何特征词/模式的单句删除，保留所有含有数值信息或含有特征词/模式的单句；

所述基于特征词/模式的角色判定器用于根据统计结果对每个句子的语义角色进行判断；若可以判断则将句子标注为对应的语义角色；若不能根据统计结果进行判断，则将其语义角色标注为待定；

所述基于概率的角色判定器用于在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测，最终得到所有句子的语义角色判定结果。

本发明首先定义了分层抽样应用题求解中涉及到的五类核心句子语义角色，然后通过基于特征词/模式与概率相结合的方法对应用题文本中的每一个句子进行角色判定，从而实现分层抽样应用题的自动题意理解。本发明为分层抽样应用题的自动求解提供基础，促进人工智能技术的发展。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种初等数学分层抽样应用题的句子语义角色识别方法，包括以下步骤：

分层抽样应用题中涉及到语义角色及其相应特征词/模式为：

其中，“！”表示其后的词汇不出现，如模式“依次+…+！抽取”表示“依次”后面没有出现“抽取”。“{}”表示词汇在句子中出现的顺序不受限制。如“{分别}+…+{抽取}”表示“分别….抽取”和“抽取…分别”均可与该模式进行匹配。“[]”表示其中的词汇可以出现，也可以不出现。

步骤3：将单句集合中既不包含数值信息也不包含任何特征词/模式的单句从单句集合中删除；

步骤4：根据步骤3的结果对每个句子的语义角色进行判断；若可以判断，则将句子标注为对应的语义角色；若不能根据统计结果进行判断，则将其语义角色标注为待定；

根据统计结果对每个句子的语义角色进行判断，其判断规则包括：

规则1：如果一个句子仅包含一种语义角色的特征词/模式，则将该语义角色作为当前句子的语义角色。

规则2：若多个句子包含“总体”角色的特征词/模式，则选择数值信息最大的句子标注为“总体”，同时将其它句子的“总体”角色特征词/模式数量置为0(一个题目仅包含一个总体，且总体的数值应最大)。

规则3：如果一个句子包含两种及两种以上角色的特征词/模式，选择包含特征词/模式数量最多的角色作为句子的角色标注结果。

规则4：若一个子句同时包含“样本”角色特征词/模式和“样本中的层”角色特征词/模式，且两种角色的特征词/模式数量相等，则该句优先被判定为“样本中的层”，同时，将该句的“样本”特征词/模式数量置为0。

若经过上述4条规则进行判定后，题目中所有句子的语义角色均已经被确定，则判断结束。若存在一个或多个句子无法通过上述4条规则进行判定，则将其语义角色标识为待定。

语义角色概率模型的建立方法包括以下子步骤：

步骤A.1：从高考数学试卷和高中数学教材的课后习题中采集若干分层抽样应用题文本，每一道题被称为一个训练样本，所有题目合称为训练集；

步骤A.2：对每一个训练样本中的所有包含数值信息的句子进行语义角色标注，其中语义角色的分类与步骤3中的语义角色相同，每一道题中所有句子的语义角色按照句子顺序连接在一起形成一个语义角色序列；

步骤A.3：统计训练集中各种语义角色出现的次数，并计算相关模式出现的概率；根据模式中包含的语义角色的个数，将模式分为一元模式、二元模式和三元模式；

一元模式：

二元模式：

三元模式：

其中，r、s、q、表示不同的语义角色，rs表示语义角色r和语义角色s在语义角色序列中按顺序出现，qrs表示语义角色q、语义角色r和语义角色s在语义角色序列中按顺序出现；number(r)表示角色r在训练集中出现的次数，N表示训练集中所有角色的总次数；P(r|s)表示s确定时r的条件概率，P(q|rs)表示rs确定时q的条件概率，其中，number(s)表示角色s在训练集中出现的次数，number(rs)表示训练集中rs两种角色连续出现的次数，number(qrs)表示角色qrs在训练集中连续出现的次数；

将所有模式的概率存储起来即为语义角色概率模型。

在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测，其具体实现包括以下子步骤：

步骤5.1：将题目中不能够通过步骤4进行判定的句子的语义角色用步骤2中列举的五种不同语义角色逐一进行替换，生成一个候选语义角色序列，所有候选语义角色序列形成当前题目角色判定的所有可能结果集合；该集合中包含的候选语义角色序列的个数为5ⁿ，其中n为角色待定的句子的个数；

步骤5.2：依次计算每个候选语义角色序列的概率，任一序列S(S₁,S₂,……S_n)的概率通过如下公式进行计算：

P(S)＝P(S₁)×P(S₂|S₁)×P(S₃|S₁S₂)×…P(S_i|S_i-2S_i-1)×...×P(S_n|S_n-2S_n-1)

其中，S_i为一个语义角色，n为当前序列所包含的语义角色的个数，1≤i≤n，公式右边所有P的值通过查询语义角色概率模型中的概率值获得；

步骤5.3：将所有候选语义角色序列按照概率大小进行降序排序，选择概率最大的序列作为当前题目的句子角色预测结果。

本发明还提供了一种初等数学分层抽样应用题的句子语义角色识别系统，包括单句切分器、特征词/模式统计器、句子筛选器、基于特征词/模式的角色判定器和基于概率的角色判定器。

系统的输入为分层抽样应用题文本，经过本系统处理后，输出为题目文本中每个句子的语义角色识别结果。系统的具体实施流程为：第一步，通过单句切分器对句子进行切分，形成单句集合。第二步，特征词/模式统计器对单句集合中每一个句子进行特征词/模式所属语义角色和数量的统计，得到统计结果。第三步，句子筛选器将单句集合中既不包含数值信息也不包含任何特征词/模式的单句从单句集合中删除。第四步，基于特征词/模式的角色判定器根据步骤三的结果对每个句子的语义角色进行判断。若可以判断，则将句子标注为对应的语义角色；若不能根据特征词/模式的统计结果进行判断，则将其语义角色标注为待定。第五步，基于概率的角色判定器在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测，最终得到所有句子的语义角色判定结果。下面结合实例对系统具体实施流程进行说明。

(1)单句切分器的工作原理是对分层抽样应用题的文本以“，”和“。”作为分割标志，分割为多个单句，形成单句集合。如以下例子：

“某市A、B、C三个区共有高中学生20000人，其中A区高中学生9000人，B区高中学生6000人，为了进行新课程学习作业量的调查，现采用分层抽样的方法从这三个区所有高中学生中抽取一个容量为600人的样本，则应从A区抽取( )人。”

以“，”和“。”作为分隔符，则该应用题被切分为6个单句，分别为：

单句1：某市A、B、C三个区共有高中学生20000人；

单句2：其中A区高中学生9000人；

单句3：B区高中学生6000人；

单句4：为了进行新课程学习作业量的调查；

单句5：现采用分层抽样的方法从这三个区所有高中学生中抽取一个容量为600人的样本；

单句6：则应从A区抽取( )人；

(2)特征词/模式统计器依次统计单句集合中的每一个单句中所包含的各种语义角色的特征词/模式的数量，并进行记录。上例中6个单句所包含的不同角色类别的特征词/模式数量分别如下：

单句1：总体特征词/模式1个：“共有”；

单句2：总体中的层特征词/模式1个：“其中”；

单句3：无特征词/模式；

单句4：无特征词/模式；

单句5：样本特征词/模式4个：“分层抽样”、“抽取”、“样本”、“容量”；样本中的层特征词/模式1个：“从…抽取”；

单句6：样本特征词/模式1个：“抽取”；样本中的层特征词/模式1个：“从…抽取”；

(3)句子筛选器将单句集合中既不包含数值信息也不包含特征词/模式的单句删除，保留所有含有数值信息或者含有特征词/模式的单句。在步骤(2)所获得的6个单句中，由于单句4既不包含数值信息也不包含特征词/模式，因此该单句被从单句集合中删除；

(4)基于特征词/模式的角色判定器根据句子所包含的不同语义角色的特征词/模式的数量，对句子所属的语义角色进行判断，判断结果如下：

单句1仅含有总体特征词/模式，根据规则1将其语义角色识别为“总体(T)”；

单句2仅含有总体中的层特征词/模式，根据规则1将其语义角色识别为“总体中的层(C)”；

单句3无特征词/模式，将其语义角色标识为“待定”；

单句5包含两类特征词/模式，但样本特征词/模式的数量大于样本中的层的特征词/模式数量，根据规则3将其语义角色标识为“样本(S)”；

单句6包含两类特征词/模式，样本和样本中的层各有1个特征词/模式，根据规则4该句被优先判定为“样本中的层(B)”；

本例经过基于特征词/模式的角色判定器识别之后所形成的语义角色序列为“TC*SB”，其中“*”表示该子句的语义角色待定。

(5)语义角色概率模型的建立方法如下：

(5-1)本例从高考数学试卷和高中数学教材的课后习题中采集了150道分层抽样应用题文本作为训练集。

(5-2)通过手工标注的方式对每一个训练样本中的所有包含数值信息的句子进行语义角色标注，其中语义角色的分类与步骤2中的语义角色相同，每一道题中所有句子的语义角色按照句子顺序连接在一起形成一个语义角色序列。如“TCCCSB”表示某一应用题中所有单句的语义角色依次分别为“总体-总体中的层-总体中的层-总体中的层-样本-样本中的层”。

(5-3)统计训练集中各种语义角色出现的次数，并计算各类模式出现的概率。其中一元模式5个，二元模式25个，三元模式125个。在本实例中，部分模式的概率值如下：P(T)＝0.1321，P(TC)＝0.4921，P(CB|S)＝0.3043。

(6)基于概率的角色判定器的具体工作步骤如下：

(6-1)将步骤4所得到的语义角色序列中未能识别出的句子用五种不同的语义角色逐一进行替换，生成一个候选语义角色序列，所有候选语义角色序列形成当前题目角色判定的所有可能结果集合。本实例中步骤4所形成的语义角色序列为“TC*SB”，将“*”分别用5种不同的角色进行代替，所形成的候选集合包含5个序列，分别为：

{TCTSB，TCCSB，TCSSB，TCBSB，TCRSB}；

(6-2)依次计算每个候选语义角色序列的概率，任一序列S(S₁,S₂,……S_n)(其中S_i为一个语义角色，n为当前序列所包含的语义角色的个数，1≤i≤n)的概率通过如下公式进行计算：

其中，公式右边所有P的值都通过查询语义角色概率模型中的概率值获得。

如P(TCTSB)＝P(T)*P(C|T)*P(T|TC)*P(S|CT)*P(B|TS)；

在本实例中，五个候选语义角色序列的概率分别为：

P(TCTSB)＝2.1422384999178066E-9；

P(TCSSB)＝3.3170144514856367E-9；

P(TCBSB)＝2.675244264132981E-7；

P(TCRSB)＝0.0012578616352201257；

P(TCCSB)＝0.015176374077112387；

(6-3)将所有候选语义角色序列按照概率大小进行降序排序，选择概率最大的序列作为当前题目的句子角色预测结果。本实例中，P(TCCSB)的概率大于其它候选序列的概率，因此，将TCCSB作为最终的句子角色判定结果，即：单句3的语义角色被识别为“总体中的层”。句子语义角色标注完成。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种初等数学分层抽样应用题的句子语义角色识别方法，其特征在于，包括以下步骤：

步骤2：对单句集合中每一个句子进行特征词/模式所属语义角色和数量的统计，得到统计结果；

步骤4：根据步骤3的结果对每个句子的语义角色进行判断；若可以判断则将句子标注为对应的语义角色；若不能根据统计结果进行判断，则将其语义角色标注为待定；

2.根据权利要求1所述的初等数学分层抽样应用题的句子语义角色识别方法，其特征在于：步骤2中，分层抽样应用题中涉及到语义角色及其相应特征词/模式为：

其中，“！”表示其后的词汇不出现，“{}”表示词汇在句子中出现的顺序不受限制，“[]”表示其中的词汇可以出现，也可以不出现。

3.根据权利要求2所述的初等数学分层抽样应用题的句子语义角色识别方法，其特征在于，步骤4中所述根据统计结果对每个句子的语义角色进行判断，其判断规则包括：

规则1：如果一个句子仅包含一种语义角色的特征词/模式，则将该语义角色作为当前句子的语义角色；

规则2：若多个句子包含“总体”角色的特征词/模式，则选择数值信息最大的句子标注为“总体”，同时将其它句子的“总体”角色特征词/模式数量置为0；

规则3：如果一个句子包含两种及两种以上角色的特征词/模式，选择包含特征词/模式数量最多的角色作为句子的角色标注结果；

规则4：若一个子句同时包含“样本”角色特征词/模式和“样本中的层”角色特征词/模式，且两种角色的特征词/模式数量相等，则该句优先被判定为“样本中的层”，同时，将该句的“样本”角色特征词/模式数量置为0。

4.根据权利要求2所述的初等数学分层抽样应用题的句子语义角色识别方法，其特征在于，步骤5中所述语义角色概率模型的建立方法包括以下子步骤：

一元模式：

二元模式：

三元模式：

将所有模式的概率存储起来即为语义角色概率模型。

5.根据权利要求4所述的初等数学分层抽样应用题的句子语义角色识别方法，其特征在于，步骤5中所述在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测，其具体实现包括以下子步骤：

步骤5.1：将题目中不能够通过步骤4进行判定句子的语义角色依次用步骤2中列举的五种不同语义角色逐一进行替换，生成一个候选语义角色序列，所有候选语义角色序列形成当前题目角色判定的所有可能结果集合；该集合中包含的候选语义角色序列的个数为5ⁿ，其中n为角色待定的句子的个数；

其中，S_i为一个语义角色，n为当前序列所包含的语义角色的个数，1≤i≤n，所有P的值通过查询语义角色概率模型中的概率值获得；

6.一种初等数学分层抽样应用题的句子语义角色识别系统，其特征在于：包括单句切分器、特征词/模式统计器、句子筛选器、基于特征词/模式的角色判定器和基于概率的角色判定器；

所述句子筛选器用于将单句集合中不包含数值信息的单句删除，保留所有含有数值信息的单句；