CN107092593A - 初等数学分层抽样应用题的句子语义角色识别方法及系统 - Google Patents

初等数学分层抽样应用题的句子语义角色识别方法及系统 Download PDF

Info

Publication number
CN107092593A
CN107092593A CN201710237750.4A CN201710237750A CN107092593A CN 107092593 A CN107092593 A CN 107092593A CN 201710237750 A CN201710237750 A CN 201710237750A CN 107092593 A CN107092593 A CN 107092593A
Authority
CN
China
Prior art keywords
role
sentence
mrow
semantic
semantic role
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710237750.4A
Other languages
English (en)
Other versions
CN107092593B (zh
Inventor
刘清堂
吴林静
范桂林
黄景修
王轩
劳传媛
孙丁辉
郑重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201710237750.4A priority Critical patent/CN107092593B/zh
Publication of CN107092593A publication Critical patent/CN107092593A/zh
Application granted granted Critical
Publication of CN107092593B publication Critical patent/CN107092593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种初等数学分层抽样应用题的句子语义角色识别方法及系统,本发明首先定义了分层抽样应用题求解中涉及到的五类核心句子语义角色,然后通过基于特征词/模式与概率相结合的方法对应用题文本中的每一个句子进行角色判定,从而实现分层抽样应用题的自动题意理解。该方法为分层抽样应用题的自动求解提供基础,促进人工智能技术的发展。

Description

初等数学分层抽样应用题的句子语义角色识别方法及系统
技术领域
本发明属于计算机技术领域,涉及一种语义角色识别方法及系统,具体涉及一种初等数学分层抽样应用题文本中的句子的语义角色判定方法及系统。
背景技术
数学问题的自动求解一直是人工智能领域的一项富有挑战性和吸引力的工作。在几何和代数领域的数学问题自动求解都取得了很大的进展。如由吴文俊院士所提出的吴方法可以对初等数学中的几何定理进行机器证明,被公认为机器证明领域的里程碑。张景中院士提出的平面几何定理的可读机器证明的方法和智能教学软件超级画板,是机器自动求解领域的一座丰碑,同时为基础教育事业做出了巨大贡献。代数领域的三角函数自动化简、方程及方程组的自动求解也取得了极大的进展。但是,对于应用题的自动求解则相对研究较少。目前的研究主要集中在初等数学代数问题尤其是加减法的应用题求解问题上。研究者们选择加减法应用题作为研究对象的主要原因在于初等数学中的加减法类应用题题意相对清晰、涉及到的参数较少、求解规则相对简单。对于情境和求解规则较为复杂的应用题,如高考数学试卷中应用题的自动求解研究则极为少见,目前尚未发现相关的研究文献。其主要原因在于高中学段的数学应用题情境多变、求解规则复杂、语义中包含的参数较多,这些都给题意的自动识别带来了困难。
发明内容
为了解决上述技术问题,本发明针对初等数学高考应用题中的分层抽样类应用题,通过对分层抽样应用题文本中的句子进行语义角色的识别,提供了一种语义角色识别方法及系统,以实现应用题的题意理解,为应用题的自动求解提供基础。
本发明的方法所采用的技术方案是:一种初等数学分层抽样应用题的句子语义角色识别方法,其特征在于,包括以下步骤:
步骤1:将分层抽样应用题的文本以“,”和“。”作为分割标志,分割为多个单句,形成单句集合;
步骤2:对单句集合中每一个句子的特征词/模式所属语义角色和数量进行统计,得到统计结果;
步骤3:将单句集合中既不包含数值信息也不包含任何特征词/模式的单句删除,保留所有含有数值信息或含有特征词/模式的单句;
步骤4:根据统计结果对每个句子的语义角色进行判断;若可以判断则将句子标注为对应的语义角色;若不能根据统计结果进行判断,则将其语义角色标注为待定;
步骤5:在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测,最终得到所有句子的语义角色判定结果。
本发明的系统所采用的技术方案是:一种初等数学分层抽样应用题的句子语义角色识别系统,其特征在于:包括单句切分器、特征词/模式统计器、句子筛选器、基于特征词/模式的角色判定器和基于概率的角色判定器;
所述单句切分器用于将分层抽样应用题的文本以“,”和“。”作为分割标志,分割为多个单句,形成单句集合;
所述特征词/模式统计器用于对单句集合中每一个句子进行特征词/模式所属语义角色和数量的统计,得到统计结果;
所述句子筛选器用于将单句集合中既不包含数值信息也不包含任何特征词/模式的单句删除,保留所有含有数值信息或含有特征词/模式的单句;
所述基于特征词/模式的角色判定器用于根据统计结果对每个句子的语义角色进行判断;若可以判断则将句子标注为对应的语义角色;若不能根据统计结果进行判断,则将其语义角色标注为待定;
所述基于概率的角色判定器用于在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测,最终得到所有句子的语义角色判定结果。
本发明首先定义了分层抽样应用题求解中涉及到的五类核心句子语义角色,然后通过基于特征词/模式与概率相结合的方法对应用题文本中的每一个句子进行角色判定,从而实现分层抽样应用题的自动题意理解。本发明为分层抽样应用题的自动求解提供基础,促进人工智能技术的发展。
附图说明
图1为本发明实施例的方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种初等数学分层抽样应用题的句子语义角色识别方法,包括以下步骤:
步骤1:将分层抽样应用题的文本以“,”和“。”作为分割标志,分割为多个单句,形成单句集合;
步骤2:对单句集合中每一个句子的特征词/模式所属语义角色和数量进行统计,得到统计结果;
分层抽样应用题中涉及到语义角色及其相应特征词/模式为:
其中,“!”表示其后的词汇不出现,如模式“依次+…+!抽取”表示“依次”后面没有出现“抽取”。“{}”表示词汇在句子中出现的顺序不受限制。如“{分别}+…+{抽取}”表示“分别….抽取”和“抽取…分别”均可与该模式进行匹配。“[]”表示其中的词汇可以出现,也可以不出现。
步骤3:将单句集合中既不包含数值信息也不包含任何特征词/模式的单句从单句集合中删除;
步骤4:根据步骤3的结果对每个句子的语义角色进行判断;若可以判断,则将句子标注为对应的语义角色;若不能根据统计结果进行判断,则将其语义角色标注为待定;
根据统计结果对每个句子的语义角色进行判断,其判断规则包括:
规则1:如果一个句子仅包含一种语义角色的特征词/模式,则将该语义角色作为当前句子的语义角色。
规则2:若多个句子包含“总体”角色的特征词/模式,则选择数值信息最大的句子标注为“总体”,同时将其它句子的“总体”角色特征词/模式数量置为0(一个题目仅包含一个总体,且总体的数值应最大)。
规则3:如果一个句子包含两种及两种以上角色的特征词/模式,选择包含特征词/模式数量最多的角色作为句子的角色标注结果。
规则4:若一个子句同时包含“样本”角色特征词/模式和“样本中的层”角色特征词/模式,且两种角色的特征词/模式数量相等,则该句优先被判定为“样本中的层”,同时,将该句的“样本”特征词/模式数量置为0。
若经过上述4条规则进行判定后,题目中所有句子的语义角色均已经被确定,则判断结束。若存在一个或多个句子无法通过上述4条规则进行判定,则将其语义角色标识为待定。
步骤5:在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测,最终得到所有句子的语义角色判定结果。
语义角色概率模型的建立方法包括以下子步骤:
步骤A.1:从高考数学试卷和高中数学教材的课后习题中采集若干分层抽样应用题文本,每一道题被称为一个训练样本,所有题目合称为训练集;
步骤A.2:对每一个训练样本中的所有包含数值信息的句子进行语义角色标注,其中语义角色的分类与步骤3中的语义角色相同,每一道题中所有句子的语义角色按照句子顺序连接在一起形成一个语义角色序列;
步骤A.3:统计训练集中各种语义角色出现的次数,并计算相关模式出现的概率;根据模式中包含的语义角色的个数,将模式分为一元模式、二元模式和三元模式;
一元模式:
二元模式:
三元模式:
其中,r、s、q、表示不同的语义角色,rs表示语义角色r和语义角色s在语义角色序列中按顺序出现,qrs表示语义角色q、语义角色r和语义角色s在语义角色序列中按顺序出现;number(r)表示角色r在训练集中出现的次数,N表示训练集中所有角色的总次数;P(r|s)表示s确定时r的条件概率,P(q|rs)表示rs确定时q的条件概率,其中,number(s)表示角色s在训练集中出现的次数,number(rs)表示训练集中rs两种角色连续出现的次数,number(qrs)表示角色qrs在训练集中连续出现的次数;
将所有模式的概率存储起来即为语义角色概率模型。
在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测,其具体实现包括以下子步骤:
步骤5.1:将题目中不能够通过步骤4进行判定的句子的语义角色用步骤2中列举的五种不同语义角色逐一进行替换,生成一个候选语义角色序列,所有候选语义角色序列形成当前题目角色判定的所有可能结果集合;该集合中包含的候选语义角色序列的个数为5n,其中n为角色待定的句子的个数;
步骤5.2:依次计算每个候选语义角色序列的概率,任一序列S(S1,S2,……Sn)的概率通过如下公式进行计算:
P(S)=P(S1)×P(S2|S1)×P(S3|S1S2)×…P(Si|Si-2Si-1)×...×P(Sn|Sn-2Sn-1)
其中,Si为一个语义角色,n为当前序列所包含的语义角色的个数,1≤i≤n,公式右边所有P的值通过查询语义角色概率模型中的概率值获得;
步骤5.3:将所有候选语义角色序列按照概率大小进行降序排序,选择概率最大的序列作为当前题目的句子角色预测结果。
本发明还提供了一种初等数学分层抽样应用题的句子语义角色识别系统,包括单句切分器、特征词/模式统计器、句子筛选器、基于特征词/模式的角色判定器和基于概率的角色判定器。
系统的输入为分层抽样应用题文本,经过本系统处理后,输出为题目文本中每个句子的语义角色识别结果。系统的具体实施流程为:第一步,通过单句切分器对句子进行切分,形成单句集合。第二步,特征词/模式统计器对单句集合中每一个句子进行特征词/模式所属语义角色和数量的统计,得到统计结果。第三步,句子筛选器将单句集合中既不包含数值信息也不包含任何特征词/模式的单句从单句集合中删除。第四步,基于特征词/模式的角色判定器根据步骤三的结果对每个句子的语义角色进行判断。若可以判断,则将句子标注为对应的语义角色;若不能根据特征词/模式的统计结果进行判断,则将其语义角色标注为待定。第五步,基于概率的角色判定器在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测,最终得到所有句子的语义角色判定结果。下面结合实例对系统具体实施流程进行说明。
(1)单句切分器的工作原理是对分层抽样应用题的文本以“,”和“。”作为分割标志,分割为多个单句,形成单句集合。如以下例子:
“某市A、B、C三个区共有高中学生20000人,其中A区高中学生9000人,B区高中学生6000人,为了进行新课程学习作业量的调查,现采用分层抽样的方法从这三个区所有高中学生中抽取一个容量为600人的样本,则应从A区抽取( )人。”
以“,”和“。”作为分隔符,则该应用题被切分为6个单句,分别为:
单句1:某市A、B、C三个区共有高中学生20000人;
单句2:其中A区高中学生9000人;
单句3:B区高中学生6000人;
单句4:为了进行新课程学习作业量的调查;
单句5:现采用分层抽样的方法从这三个区所有高中学生中抽取一个容量为600人的样本;
单句6:则应从A区抽取( )人;
(2)特征词/模式统计器依次统计单句集合中的每一个单句中所包含的各种语义角色的特征词/模式的数量,并进行记录。上例中6个单句所包含的不同角色类别的特征词/模式数量分别如下:
单句1:总体特征词/模式1个:“共有”;
单句2:总体中的层特征词/模式1个:“其中”;
单句3:无特征词/模式;
单句4:无特征词/模式;
单句5:样本特征词/模式4个:“分层抽样”、“抽取”、“样本”、“容量”;样本中的层特征词/模式1个:“从…抽取”;
单句6:样本特征词/模式1个:“抽取”;样本中的层特征词/模式1个:“从…抽取”;
(3)句子筛选器将单句集合中既不包含数值信息也不包含特征词/模式的单句删除,保留所有含有数值信息或者含有特征词/模式的单句。在步骤(2)所获得的6个单句中,由于单句4既不包含数值信息也不包含特征词/模式,因此该单句被从单句集合中删除;
(4)基于特征词/模式的角色判定器根据句子所包含的不同语义角色的特征词/模式的数量,对句子所属的语义角色进行判断,判断结果如下:
单句1仅含有总体特征词/模式,根据规则1将其语义角色识别为“总体(T)”;
单句2仅含有总体中的层特征词/模式,根据规则1将其语义角色识别为“总体中的层(C)”;
单句3无特征词/模式,将其语义角色标识为“待定”;
单句5包含两类特征词/模式,但样本特征词/模式的数量大于样本中的层的特征词/模式数量,根据规则3将其语义角色标识为“样本(S)”;
单句6包含两类特征词/模式,样本和样本中的层各有1个特征词/模式,根据规则4该句被优先判定为“样本中的层(B)”;
本例经过基于特征词/模式的角色判定器识别之后所形成的语义角色序列为“TC*SB”,其中“*”表示该子句的语义角色待定。
(5)语义角色概率模型的建立方法如下:
(5-1)本例从高考数学试卷和高中数学教材的课后习题中采集了150道分层抽样应用题文本作为训练集。
(5-2)通过手工标注的方式对每一个训练样本中的所有包含数值信息的句子进行语义角色标注,其中语义角色的分类与步骤2中的语义角色相同,每一道题中所有句子的语义角色按照句子顺序连接在一起形成一个语义角色序列。如“TCCCSB”表示某一应用题中所有单句的语义角色依次分别为“总体-总体中的层-总体中的层-总体中的层-样本-样本中的层”。
(5-3)统计训练集中各种语义角色出现的次数,并计算各类模式出现的概率。其中一元模式5个,二元模式25个,三元模式125个。在本实例中,部分模式的概率值如下:P(T)=0.1321,P(TC)=0.4921,P(CB|S)=0.3043。
(6)基于概率的角色判定器的具体工作步骤如下:
(6-1)将步骤4所得到的语义角色序列中未能识别出的句子用五种不同的语义角色逐一进行替换,生成一个候选语义角色序列,所有候选语义角色序列形成当前题目角色判定的所有可能结果集合。本实例中步骤4所形成的语义角色序列为“TC*SB”,将“*”分别用5种不同的角色进行代替,所形成的候选集合包含5个序列,分别为:
{TCTSB,TCCSB,TCSSB,TCBSB,TCRSB};
(6-2)依次计算每个候选语义角色序列的概率,任一序列S(S1,S2,……Sn)(其中Si为一个语义角色,n为当前序列所包含的语义角色的个数,1≤i≤n)的概率通过如下公式进行计算:
P(S)=P(S1)×P(S2|S1)×P(S3|S1S2)×…P(Si|Si-2Si-1)×...×P(Sn|Sn-2Sn-1)
其中,公式右边所有P的值都通过查询语义角色概率模型中的概率值获得。
如P(TCTSB)=P(T)*P(C|T)*P(T|TC)*P(S|CT)*P(B|TS);
在本实例中,五个候选语义角色序列的概率分别为:
P(TCTSB)=2.1422384999178066E-9;
P(TCSSB)=3.3170144514856367E-9;
P(TCBSB)=2.675244264132981E-7;
P(TCRSB)=0.0012578616352201257;
P(TCCSB)=0.015176374077112387;
(6-3)将所有候选语义角色序列按照概率大小进行降序排序,选择概率最大的序列作为当前题目的句子角色预测结果。本实例中,P(TCCSB)的概率大于其它候选序列的概率,因此,将TCCSB作为最终的句子角色判定结果,即:单句3的语义角色被识别为“总体中的层”。句子语义角色标注完成。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种初等数学分层抽样应用题的句子语义角色识别方法,其特征在于,包括以下步骤:
步骤1:将分层抽样应用题的文本以“,”和“。”作为分割标志,分割为多个单句,形成单句集合;
步骤2:对单句集合中每一个句子进行特征词/模式所属语义角色和数量的统计,得到统计结果;
步骤3:将单句集合中既不包含数值信息也不包含任何特征词/模式的单句从单句集合中删除;
步骤4:根据步骤3的结果对每个句子的语义角色进行判断;若可以判断则将句子标注为对应的语义角色;若不能根据统计结果进行判断,则将其语义角色标注为待定;
步骤5:在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测,最终得到所有句子的语义角色判定结果。
2.根据权利要求1所述的初等数学分层抽样应用题的句子语义角色识别方法,其特征在于:步骤2中,分层抽样应用题中涉及到语义角色及其相应特征词/模式为:
其中,“!”表示其后的词汇不出现,“{}”表示词汇在句子中出现的顺序不受限制,“[]”表示其中的词汇可以出现,也可以不出现。
3.根据权利要求2所述的初等数学分层抽样应用题的句子语义角色识别方法,其特征在于,步骤4中所述根据统计结果对每个句子的语义角色进行判断,其判断规则包括:
规则1:如果一个句子仅包含一种语义角色的特征词/模式,则将该语义角色作为当前句子的语义角色;
规则2:若多个句子包含“总体”角色的特征词/模式,则选择数值信息最大的句子标注为“总体”,同时将其它句子的“总体”角色特征词/模式数量置为0;
规则3:如果一个句子包含两种及两种以上角色的特征词/模式,选择包含特征词/模式数量最多的角色作为句子的角色标注结果;
规则4:若一个子句同时包含“样本”角色特征词/模式和“样本中的层”角色特征词/模式,且两种角色的特征词/模式数量相等,则该句优先被判定为“样本中的层”,同时,将该句的“样本”角色特征词/模式数量置为0。
4.根据权利要求2所述的初等数学分层抽样应用题的句子语义角色识别方法,其特征在于,步骤5中所述语义角色概率模型的建立方法包括以下子步骤:
步骤A.1:从高考数学试卷和高中数学教材的课后习题中采集若干分层抽样应用题文本,每一道题被称为一个训练样本,所有题目合称为训练集;
步骤A.2:对每一个训练样本中的所有包含数值信息的句子进行语义角色标注,其中语义角色的分类与步骤3中的语义角色相同,每一道题中所有句子的语义角色按照句子顺序连接在一起形成一个语义角色序列;
步骤A.3:统计训练集中各种语义角色出现的次数,并计算相关模式出现的概率;根据模式中包含的语义角色的个数,将模式分为一元模式、二元模式和三元模式;
一元模式:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mi>b</mi> <mi>e</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> <mi>N</mi> </mfrac> <mo>;</mo> </mrow>
二元模式:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>|</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mi>b</mi> <mi>e</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>r</mi> <mi>s</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mi>b</mi> <mi>e</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>
三元模式:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>|</mo> <mi>r</mi> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mi>b</mi> <mi>e</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>q</mi> <mi>r</mi> <mi>s</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>n</mi> <mi>u</mi> <mi>m</mi> <mi>b</mi> <mi>e</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>r</mi> <mi>s</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>;</mo> </mrow>
其中,r、s、q、表示不同的语义角色,rs表示语义角色r和语义角色s在语义角色序列中按顺序出现,qrs表示语义角色q、语义角色r和语义角色s在语义角色序列中按顺序出现;number(r)表示角色r在训练集中出现的次数,N表示训练集中所有角色的总次数;P(r|s)表示s确定时r的条件概率,P(q|rs)表示rs确定时q的条件概率,其中,number(s)表示角色s在训练集中出现的次数,number(rs)表示训练集中rs两种角色连续出现的次数,number(qrs)表示角色qrs在训练集中连续出现的次数;
将所有模式的概率存储起来即为语义角色概率模型。
5.根据权利要求4所述的初等数学分层抽样应用题的句子语义角色识别方法,其特征在于,步骤5中所述在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测,其具体实现包括以下子步骤:
步骤5.1:将题目中不能够通过步骤4进行判定句子的语义角色依次用步骤2中列举的五种不同语义角色逐一进行替换,生成一个候选语义角色序列,所有候选语义角色序列形成当前题目角色判定的所有可能结果集合;该集合中包含的候选语义角色序列的个数为5n,其中n为角色待定的句子的个数;
步骤5.2:依次计算每个候选语义角色序列的概率,任一序列S(S1,S2,……Sn)的概率通过如下公式进行计算:
P(S)=P(S1)×P(S2|S1)×P(S3|S1S2)×…P(Si|Si-2Si-1)×...×P(Sn|Sn-2Sn-1)
其中,Si为一个语义角色,n为当前序列所包含的语义角色的个数,1≤i≤n,所有P的值通过查询语义角色概率模型中的概率值获得;
步骤5.3:将所有候选语义角色序列按照概率大小进行降序排序,选择概率最大的序列作为当前题目的句子角色预测结果。
6.一种初等数学分层抽样应用题的句子语义角色识别系统,其特征在于:包括单句切分器、特征词/模式统计器、句子筛选器、基于特征词/模式的角色判定器和基于概率的角色判定器;
所述单句切分器用于将分层抽样应用题的文本以“,”和“。”作为分割标志,分割为多个单句,形成单句集合;
所述特征词/模式统计器用于对单句集合中每一个句子进行特征词/模式所属语义角色和数量的统计,得到统计结果;
所述句子筛选器用于将单句集合中不包含数值信息的单句删除,保留所有含有数值信息的单句;
所述基于特征词/模式的角色判定器用于根据统计结果对每个句子的语义角色进行判断;若可以判断则将句子标注为对应的语义角色;若不能根据统计结果进行判断,则将其语义角色标注为待定;
所述基于概率的角色判定器用于在语义角色概率模型的帮助下对语义角色待定的句子进行角色预测,最终得到所有句子的语义角色判定结果。
CN201710237750.4A 2017-04-12 2017-04-12 初等数学分层抽样应用题的句子语义角色识别方法及系统 Active CN107092593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710237750.4A CN107092593B (zh) 2017-04-12 2017-04-12 初等数学分层抽样应用题的句子语义角色识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710237750.4A CN107092593B (zh) 2017-04-12 2017-04-12 初等数学分层抽样应用题的句子语义角色识别方法及系统

Publications (2)

Publication Number Publication Date
CN107092593A true CN107092593A (zh) 2017-08-25
CN107092593B CN107092593B (zh) 2020-11-03

Family

ID=59637042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710237750.4A Active CN107092593B (zh) 2017-04-12 2017-04-12 初等数学分层抽样应用题的句子语义角色识别方法及系统

Country Status (1)

Country Link
CN (1) CN107092593B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071607A1 (zh) * 2017-10-09 2019-04-18 华为技术有限公司 一种语音信息处理方法、装置及终端
CN109801527A (zh) * 2019-01-31 2019-05-24 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110781681A (zh) * 2019-10-12 2020-02-11 电子科技大学 一种基于翻译模型的初等数学应用题自动求解方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329666A (zh) * 2008-06-18 2008-12-24 南京大学 基于语料库及树型结构模式匹配的汉语句法自动分析方法
JP2010271800A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 回答文書分類装置、回答文書分類方法及びプログラム
CN103823794A (zh) * 2014-02-25 2014-05-28 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN104778257A (zh) * 2015-04-20 2015-07-15 百度在线网络技术(北京)有限公司 应用题搜索方法和装置
US20160035238A1 (en) * 2013-03-14 2016-02-04 Educloud Co. Ltd. Neural adaptive learning device using questions types and relevant concepts and neural adaptive learning method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329666A (zh) * 2008-06-18 2008-12-24 南京大学 基于语料库及树型结构模式匹配的汉语句法自动分析方法
JP2010271800A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 回答文書分類装置、回答文書分類方法及びプログラム
US20160035238A1 (en) * 2013-03-14 2016-02-04 Educloud Co. Ltd. Neural adaptive learning device using questions types and relevant concepts and neural adaptive learning method
CN103823794A (zh) * 2014-02-25 2014-05-28 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN104778257A (zh) * 2015-04-20 2015-07-15 百度在线网络技术(北京)有限公司 应用题搜索方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAO-CHUN LIANG ET AL: "A Tag-based English Math Problem Solver with Understanding,Reasoning and Explanation", 《PROCEEDINGS OF NAACL-HLT 2016(DEMONSTRATIONS)》 *
陈丽江 等: "统计与规则结合识别动词的跨分句论元", 《计算机工程与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019071607A1 (zh) * 2017-10-09 2019-04-18 华为技术有限公司 一种语音信息处理方法、装置及终端
US11308965B2 (en) 2017-10-09 2022-04-19 Huawei Technologies Co., Ltd. Voice information processing method and apparatus, and terminal
CN109801527A (zh) * 2019-01-31 2019-05-24 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110781681A (zh) * 2019-10-12 2020-02-11 电子科技大学 一种基于翻译模型的初等数学应用题自动求解方法及系统
CN110781681B (zh) * 2019-10-12 2023-04-28 电子科技大学 一种基于翻译模型的初等数学应用题自动求解方法及系统

Also Published As

Publication number Publication date
CN107092593B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN108021616B (zh) 一种基于循环神经网络的社区问答专家推荐方法
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
CN105589844B (zh) 一种用于多轮问答系统中缺失语义补充的方法
CN105824959B (zh) 舆情监控方法及系统
CN112084299B (zh) 一种基于bert语义表示的阅读理解自动问答方法
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
CN110516245A (zh) 细粒度情感分析方法、装置、计算机设备及存储介质
CN107122416A (zh) 一种中文事件抽取方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN105868184A (zh) 一种基于循环神经网络的中文人名识别方法
CN109299271A (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108090070A (zh) 一种中文实体属性抽取方法
CN107247751B (zh) 基于lda主题模型的内容推荐方法
CN111783428B (zh) 基于深度学习的应急管理类客观题自动生成系统
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN110209816A (zh) 基于对抗模仿学习的事件识别及分类方法、系统、装置
CN107092593A (zh) 初等数学分层抽样应用题的句子语义角色识别方法及系统
CN104778160B (zh) 一种英语作文内容切题分析方法
CN107133212A (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN112182249A (zh) 针对航空安全报告的自动分类方法和装置
CN111737427A (zh) 融合论坛互动行为与用户阅读偏好的慕课论坛帖推荐方法
Yirtici et al. Regional-CNN-based enhanced Turkish sign language recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170825

Assignee: Wuhan Hezhongxing Trading Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2023980052458

Denomination of invention: A Sentence Semantic Role Recognition Method and System for Elementary Mathematical Stratified Sampling Application Problems

Granted publication date: 20201103

License type: Common License

Record date: 20231219

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170825

Assignee: Hubei ZHENGBO Xusheng Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001275

Denomination of invention: A Sentence Semantic Role Recognition Method and System for Elementary Mathematical Stratified Sampling Application Problems

Granted publication date: 20201103

License type: Common License

Record date: 20240124

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20170825

Assignee: Hubei Rongzhi Youan Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001548

Denomination of invention: A Sentence Semantic Role Recognition Method and System for Elementary Mathematical Stratified Sampling Application Problems

Granted publication date: 20201103

License type: Common License

Record date: 20240126