CN107423286A - 初等数学代数型题自动解答的方法与系统 - Google Patents
初等数学代数型题自动解答的方法与系统 Download PDFInfo
- Publication number
- CN107423286A CN107423286A CN201710541317.XA CN201710541317A CN107423286A CN 107423286 A CN107423286 A CN 107423286A CN 201710541317 A CN201710541317 A CN 201710541317A CN 107423286 A CN107423286 A CN 107423286A
- Authority
- CN
- China
- Prior art keywords
- topic
- algebraically
- type
- mathematical relationship
- syntactic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 241000831652 Salinivibrio sharmensis Species 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002153 concerted effect Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
- G06F17/12—Simultaneous equations, e.g. systems of linear equations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Optimization (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Mathematics (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种初等数学代数型题目自动解答的方法,包括以下步骤:题目输入;题目理解,对各个类别初等数学代数型题目进行分类并对题目文本进行分词和词性标注;使用句法语义混合模型提取直陈述数学关系,并根据题目类型添加隐含类型数学关系,形成一个代数关系组;机器求解,对所形成的代数关系组中的实体分配变量,将代数关系组转化成代数方程组,同时得到实体和变量的对照表,机器自动求解这个代数方程组;类人解答生成,根据变量的求解先后顺序和实体‑变量对照表,对代数关系组求解过程恢复出变量的语义,结合题目文本形成类人的解答过程。本发明能够大大提高解答数学代数型题目的自动化程度。
Description
技术领域
本发明涉及人工智能中的自然语言文本理解及机器推理领域,尤其涉及初等数学代数型题目自动解答方法及系统。
背景技术
初等数学代数型题目是涉及代数关系的数学题,包括算术文字题、代数题、平面几何计算题、行程类题目等等。自20世纪50年代人工智能领域建立以来,初等数学题目自动解答就多次成为活跃研究问题,在相关领域的技术进步和智能化教育需求的合力推动下它近年来再次成为了研究热点,一些面向智能化教育服务的几何专家系统、解答系统、在线解答系统等陆续投入实际应用中。本专利主要发明初等数学代数型题目的自动解答的方法、算法和系统。本专利将在科研、教育上有巨大的应用前景。
目前初等数学代数型题目自动解答主要有以下三类技术:
1.基于形式框架(Schema)的初等数学代数型题目自动解答
即预先建立不同类型题目的解题框架,在解答时先识别题目的类型,进而根据类型选择对应的解题框架,抽取题目中的知识并放到知识框中。由知识框和解题框一起推断各个框架的关系并计算未知量而形成解答过程。研究者Kinsch(1995)提出了自动求解算术文字题的解题理论和金氏框架解题法,但只能解答一步的算术文字题。中国的研究者马玉慧(2012)扩展了金里奇的知识框表示,实现了多步小学数学应用题的机器求解。华盛顿大学的Hosseini(2014)采用动词分类及解题过程框来解决算术应用题,是金氏解题理论的另一种实现方式。该类方法由于没有公认的问题分类方法和系统,对于较为复杂的问题,难以采用题目类型来匹配适合的知识框和解题框。
2.基于形式语言的初等数学代数型题目自动解答
即将所要解答的题目用比自然语言简单的形式语言来表示,并建立将自然语言转换成形式语言的方法来进一步推理解答题目。微软研究院的Shi(2015)开发了Dolphin系统来自动完成算术文字题的语义分析与推理,创立具有结构化语义的DOL语言用以表示题目文本,利用语义分析器实现将数学问题文本变换为DOL树,进而通过对DOL树的分析,推导出其中所包含的数量关系,从而完成题目理解。台湾学者Liang(2016)提出了基于语义和标签的解答简单算术文字题的方法,将文字题目转化成固定的语义结构从而理解题目,通过推理模块选择题目问题中相关的部分进行推理,最终给出类人的解题表达。这种方法针对具体类别设计具体的形式语言表示,也就是没有统一的形式语言表示,难以扩展到其他类别的题目解答中。
3.基于统计的初等数学代数型题目自动解答
即使用统计模型来识别题目中的实体、数量和操作符,进而求解题目的答案。MIT的Kushman(2014)提出使用统计模型来获取问题中的变量和参数与方程模板参数之间的对应关系,从而实例化得到解题所需要的线性方程组。这种方法通过对大量的样本学习来解答题目,没有经过题目语言分析和题目理解,因此对题目中的不相关信息较为敏感,对较复杂的题目解题的性能严重下降。
综上所述,自动解答在解答方法、题目理解的深度以及大规模推广应用等方面还亟需进一步深入研究。首先,现有的自动解答方法来源于多个不同领域的专家学者,建立的算法往往相互独立,无论在解答效率还是在适应范围上都存在很大差异,缺乏适合初等数学自动解答的完备方法和体系。其次,现有的题目理解往往采用规则或符号逻辑等浅层分析技术,缺乏句法语义等深度语义知识的有效利用,导致题目理解的能力不足。最后,当前的自动解答系统能够解答的题目类型和范围非常有限,在代数型题目自动解答方面,只能解答部分算术文字题,缺乏解答其它类型代数型题目的理论和方法,同时题目输入、题目理解的自动化程度不高,无法满足大规模推广应用的要求。
发明内容
本发明的目的在于针对初等数学代数型题目,创立解题范围更广和类人化程度更高的自动解答方法和算法。
为实现上述目的,本发明提供了一种初等数学代数型题目自动解答的方法,包括以下步骤:
题目输入
输入初等数学代数型题目的题目图像,并识别出题目图像中所有的题目内容,得到题目文本;
题目理解
对各个类别初等数学代数型题目,建立该类型题目的关键词集合;使用词袋模型对输入的题目内容提取特征向量,使用训练好的分类器进行分类,得到输入题目的类别信息;
使用已有的分词软件对题目文本进行分词和词性标注,并将题目分割为n个简单的分句O(j),其中1≤j≤n,n为自然数;
标注出每一个简单句子O(j)中所包含的代数关键词,该些代数关键词结合词性标注用于匹配每个句子所对应的句法语义模型;使用句法语义混合模型提取直陈述数学关系,并根据题目类型添加隐含类型数学关系,所有的数学关系形成一个代数关系组;其中句法语义混合模型为一个三元组M=(K,P,R),其中K代表关键字元素,P是POS词性模式,R为相关实体之间的数学关系;代数型题目的句法语义模型池为Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
机器求解
对所形成的代数关系组中的实体分配变量,将代数关系组转化成代数方程组,同时得到实体和变量的对照表,机器自动求解这个代数方程组的过程如下:先求解这个代数方程组中的可解部分,部分求解后实现降维和简化,重复这个过程求解整个方程组;
类人解答生成
根据变量的求解先后顺序和实体-变量对照表,对代数关系组求解过程恢复出变量的语义,结合题目文本形成类人的解答过程。
接上述技术方案,步骤“使用句法语义混合模型提取直陈述数学关系,并根据题目类型添加隐含类型数学关系”具体过程如下:
a.根据题目所属类别信息载入相应类别的句法语义混合模型池Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
b.对于每一个分句O(j),使用句法语义模型Mi中的Ki和Pi分别和该分句进行匹配,若匹配成功,则将句法语义模型Mi中的Ri输出到Δ中,Δ为数学关系集合;若不匹配,则继续匹配下一个模型,直至有句法语义模型被匹配为止;
c.循环处理每一个分句,直至所有分句均被处理,此时题目中的直陈述关系提取完毕;
d.将题目所属类别与预先设置的数学关系对照表进行匹配查找,从数学关系对照表中得到题目文本对应类型的一个或多个隐含类型数学关系,并添加到Δ中;
e.输出Δ,此时Δ包含了题目中所有的数学关系,这些数学关系形成了一个代数关系组。
本发明还提供了一种初等数学代数型题目自动解答系统,包括:
题目输入模块,用于输入初等数学代数型题目的题目图像,并识别出题目图像中所有的题目内容,得到题目文本;
题目理解模块包括关键词集合模块、分类模块、分词标注模块和数学关系提取模块;
所述关键词集合模块,用于对各个类别初等数学代数型题目,建立该类型题目的关键词集合;
所述分类模块,用于使用词袋模型对输入的题目内容提取特征向量,使用训练好的分类器进行分类,得到输入题目的类别信息;
所述分词标注模块,用于使用已有的分词软件完成对题目文本的分词和词性标注,并将题目分割为n个简单的分句O(j),其中1≤j≤n,n为自然数;标注出每一个简单句子O(j)中所包含的代数关键词,这些代数关键词结合词性标注用于匹配每个句子所对应的句法语义模型;
所述数学关系提取模块,用于使用句法语义混合模型提取直陈述数学关系,并根据题目类型添加隐含类型数学关系,所有的数学关系形成一个代数关系组;其中句法语义混合模型为一个三元组M=(K,P,R),其中K代表关键字元素,P是POS词性模式,R为相关实体之间的数学关系;代数型题目的句法语义模型池为Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
机器求解模块,用于对所形成的代数关系组中的实体分配变量,将代数关系组转化成代数方程组,同时得到实体和变量的对照表,机器自动求解这个代数方程组的过程如下:先求解这个代数方程组中的可解部分,部分求解后实现降维和简化,重复这个过程求解整个方程组;
类人解答生成模块,用于根据变量的求解先后顺序和实体-变量对照表,对代数关系组求解过程恢复出变量的语义,结合题目文本形成类人的解答过程。
接上述技术方案,所述数学关系提取模块具体用于:
a.载入句法语义混合模型池Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
b.对于每一个分句O(j),使用句法语义模型Mi中的Ki和Pi分别和该分句进行匹配,若匹配成功,则将句法语义模型Mi中的Ri输出到Δ中,Δ为数学关系集合;若不匹配,则继续匹配下一个模型,直至有句法语义模型被匹配为止;
c.循环处理每一个分句,直至所有分句均被处理,此时题目中的直陈述关系提取完毕;
d.将题目所属类别与预先设置的数学关系对照表进行匹配查找,从数学关系对照表中得到题目文本对应类型的一个或多个隐含类型数学关系,并添加到Δ中;
e.输出Δ,此时Δ包含了题目中所有的数学关系,这些数学关系形成了一个代数关系组。
接上述技术方案,该系统还包括展示模块,用于将类人解答生成模块生成的结果展示出来。
本发明可带来以下有益效果:本发明基于数学关系组抽取的题目理解方法,提出基于句法语义混合模型提取直陈述数学关系的新方法和基于机器学习算法提取隐含数学关系的方法。相比于采用规则或符号逻辑等浅层分析技术,句法语义等深度语义知识得到有效利用,大大提高了自动解答系统对题目理解的能力。
附图说明
图1是本发明自动解答方法和题目理解方法应用于初等代数型题的自动解答的示意图;
图2是本发明创立的初等数学自动解答的流程图;
图3是本发明创立的题目理解方法的示意图;
图4是初等数学代数型题目的题目理解方法流程图;
图5是一道算术文字题目的分词标注和分句示意图;
图6是使用算术类的句法语义模型提取一个算术文字题单句中代数关系的示意图;
图7是使用机器学习算法SVM对一道行程类问题添加隐含关系的示意图;
图8是机器求解一道算数文字题目和生成类人解答过程的示意图;
图9是本发明实施例初等数学代数型题目自动解答系统的框架图。
具体实施方式
下面结合附图对本发明做详细地说明。
本发明公开了两个发明内容,一个是创立新的题目理解方法和自动解答方法,该方法可以应用于初等数学代数型题的自动解答,另一个是初等数学代数型题目解答系统。该自动解答方法是一种自动解答的一般性方法,普遍适用于初等数学多个分支的自动解答,能够大大提高当前自动解答系统的自适应能力。
如图1所示,本发明初等数学题目自动解答方法11主要用于初等数学代数型题目的类人解答方法12。
本发明首先将对创立的新的题目理解方法和自动解答方法进行详细描述,并针对初等数学代数型题目给出具体的实施例,然后对初等数学题目解答系统进行介绍。
(1)新的题目理解方法和自动解答方法
对于初等数学内容和解答过程的思考而得到两点认识:1)数学题是关于数学关系的描述,而求解过程也是数学关系的推导;2)人在解答数学题过程中是联合人所知道的数学关系与题目提供的数学关系一起推导题目所要的答案。人在解题过程添加的数学关系对于机器来说就是隐含关系。显然,机器必须知道全部的题目提供的关系和隐含关系才能解答这个题目。根据这两点认识,本发明提出题目可以由“题目本身提供的直陈述关系和隐含关系的联合”等价表示的思想,进一步提出基于数学关系组提取的题目理解方法和适用于初等数学多个分支的自动解答方法。
如图2所示,该自动解答方法包含以下四个步骤:
1)题目输入26:实现由题目图像状态21到题目电子化内容状态22的等价转换。
2)题目理解27:实现由题目内容状态22到数学关系组状态23的等价转换。
3)机器求解28:实现数学关系组23到机器解答过程24的等价转换。
4)类人解答生成29:将机器解答过程24转化为类人的解答过程25。
本发明提出的自动解答方法和题目理解方法每一步的具体实施方式分别如下:
(1.1)题目输入
对于输入的题目图像,使用OCR(optical character recognition)技术识别出题目图像中所有的题目内容,实现题目由题目图像状态21到题目电子化内容状态22的等价转换。这里题目的电子化内容22是题目的自然语言描述文本。
(1.2)题目理解
本发明提出初等数学题目的题目理解是对题目中所包含的数学关系组23提取的过程(如图3所示),它包括直陈述类型数学关系271和隐含类型数学关系272的提取。
本专利突破性的提出句法语义混合模型(syntax-semantics models),形成了基于句法语义模型提取直陈述数学关系的方法。句法语义混合模型由语义部分、句法部分和输出关系组成,这里句法是指题目文本的词性变化模型,而语义部分主要是指数学关键词结构。一个句法语义模型定义为一个三元组M=(K,P,R),其中K代表关键字元素,P是POS词性(属性)模式,R为相关实体之间的数学关系。令Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m}表示为某一类初等数学题所准备的句法语义模型池,为所要解答的题目类型建立这样的模型池是实现直陈述关系提取的关键问题。
下面将对初等数学代数型题目的自然语言描述的题目文本的理解过程进行描述。
(1.2)初等数学代数型题目的题目理解
实现初等数学代数型题目的理解42主要有以下步骤(如图4所示):
步骤一:题目分类421。对各个类别初等数学代数型题目,建立该类型题目的关键词集合。使用词袋模型(bag-of-word model)对输入的题目内容提取特征向量,使用训练好的SVM分类器进行分类,从而得到输入题目的类别信息C。
步骤二:分词和词性标注422。使用已有的分词软件完成对题目文本O的分词和词性标注,并将题目分割为n个简单的分句O(j)(1≤j≤n),如图5所示。
步骤三:数学关键词的标注423。对每一个简单句子O(j),标注出其中所包含的代数关键词,如“有”、“是…的…倍”、“比…多…”。这些关键词结合词性标注用于匹配每个句子所对应的句法语义模型。
步骤四:使用句法语义混合模型提取直陈述数学关系424,并根据题目类型添加隐含类型数学关系425。具体执行过程如下:
a.根据题目所属类别C,载入相应类别的句法语义模型池∑={Mi|i=1,2,…,m};
b.对于每一个分句O(j),使用模型Mi中的Ki和Pi分别和该分句进行匹配,若匹配成功,则将模型Mi中的Ri输出到Δ中;若不匹配,则继续匹配下一个模型,直至有模型被匹配为止。
如图6所示,使用模型(n和n共mq;a+b=c*d n n m q)提取句子“苹果和梨子共15个”中的数学关系,其中“n和n共mq”是句法P和语义K的混合,词性标签n、m、q分别是名词、数词和量词,“和、共”是数学关键词。“a+b=c*d”是该模型匹配的数学关系R,其中a、b、c、d是该数学关系中的变量,“n n m q”是表示数学关系中的变量和句子中的实体之间的对照表,它是联系句子和数学关系组的纽带,其中第一个n的名词对应变量a,第二个n的名词对应变量b,第三个m的数词对应变量c,第四个q的量词对应变量d。进而形成了一个代数关系A+B=15*C和一个实体-变量表。
c.循环处理每一个分句,直至所有分句均被处理,此时题目中的直陈述关系提取完毕。
d.数学关系对照表T中包含了题目所属类型和该类型下所隐含的数学关系的对照。通过将题目所属类别C与数学关系对照表T进行匹配查找,可以从T中得到题目文本对应类型C的一个数学关系R或多个数学关系,添加到Δ中。如图7所示,将题目分类为行程类问题后,查找对应的数学关系对照表,并根据题目关键字添加隐含关系“时间=路程/速度”。
e.输出Δ,此时Δ包含了题目中所有的数学关系,这些数学关系形成了一个代数关系组426。
如图8所示,该实施例对一个算术文字题解答,算数文字题目101,经过题目理解,最终形成了一个代数方程组102,以及一个变量和实体的对照表102。
(1.3)机器求解
对于代数型题目,首先对所形成的代数关系组中的实体分配变量,将代数关系组转化成代数方程组,同时得到实体和变量的对照表。机器求解这个代数方程组的过程如下:先求解这个代数方程组中的可解部分,部分求解后可实现降维和简化,重复这个过程可求解整个方程组。图8给出一个机器求解代数方程的例子。其中的数学题目是一个算术文字题101,其代数方程等价表示是一个二阶代数方程组102,依次求解这个方程组即可实现对所形成的代数关系组的机器求解。
(1.4)类人解答生成。
对于代数型题目,根据变量的求解先后顺序和实体-变量对照表,对步骤2.3中代数关系组求解过程恢复出变量的语义,结合题目文本形成类人的解答过程。如图8所示,从代数方程组中依次求解出C,D,F,根据这一顺序,结合实体-变量对照表103和题目文本,将求解过程转化为类人的表达106.
(2)一种初等数学题目自动解答系统
本发明实施例初等数学代数型题目自动解答系统,如图9所示。包括:
题目输入模块,用于输入初等数学代数型题目的题目图像,并识别出题目图像中所有的题目内容,得到题目文本;
题目理解模块包括关键词集合模块、分类模块、分词标注模块和数学关系提取模块;
所述关键词集合模块,用于对各个类别初等数学代数型题目,建立该类型题目的关键词集合;
所述分类模块,用于使用词袋模型对输入的题目内容提取特征向量,使用训练好的分类器进行分类,得到输入题目的类别信息;
所述分词标注模块,用于使用已有的分词软件完成对题目文本的分词和词性标注,并将题目分割为n个简单的分句O(j),其中1≤j≤n,n为自然数;标注出每一个简单句子O(j)中所包含的代数关键词,该些代数关键词结合词性标注用于匹配每个句子所对应的句法语义模型;
所述数学关系提取模块,用于使用句法语义混合模型提取直陈述数学关系,并根据题目类型添加隐含类型数学关系,所有的数学关系形成一个代数关系组;其中句法语义混合模型为一个三元组M=(K,P,R),其中K代表关键字元素,P是POS词性模式,R为相关实体之间的数学关系;代数型题目的句法语义模型池为Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
机器求解模块,用于对所形成的代数关系组中的实体分配变量,将代数关系组转化成代数方程组,同时得到实体和变量的对照表,机器自动求解这个代数方程组的过程如下:先求解这个代数方程组中的可解部分,部分求解后实现降维和简化,重复这个过程求解整个方程组;
类人解答生成模块,用于根据变量的求解先后顺序和实体-变量对照表,对代数关系组求解过程恢复出变量的语义,结合题目文本形成类人的解答过程。
进一步地,所述数学关系提取模块具体用于:
a.根据题目所属类别信息载入相应类别的句法语义混合模型池Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
b.对于每一个分句O(j),使用句法语义模型Mi中的Ki和Pi分别和该分句进行匹配,若匹配成功,则将句法语义模型Mi中的Ri输出到Δ中,Δ为数学关系集合;若不匹配,则继续匹配下一个模型,直至有句法语义模型被匹配为止;
c.循环处理每一个分句,直至所有分句均被处理,此时题目中的直陈述关系提取完毕;
d.将题目所属类别与预先设置的数学关系对照表进行匹配查找,从数学关系对照表中得到题目文本对应类型的一个或多个隐含类型数学关系,并添加到Δ中;
e.输出Δ,此时Δ包含了题目中所有的数学关系,这些数学关系形成了一个代数关系组。
该系统还包括展示模块,用于将类人解答生成模块生成的结果展示出来。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种初等数学代数型题目自动解答的方法,其特征在于,包括以下步骤:
题目输入
输入初等数学代数型题目的题目图像,并识别出题目图像中所有的题目内容,得到题目文本;
题目理解
对各个类别初等数学代数型题目,建立该类型题目的关键词集合;使用词袋模型对输入的题目内容提取特征向量,使用训练好的分类器进行分类,得到输入题目的类别信息;
使用已有的分词软件对题目文本进行分词和词性标注,并将题目分割为n个简单的分句O(j),其中1≤j≤n,n为自然数;
标注出每一个简单句子O(j)中所包含的代数关键词,该些代数关键词结合词性标注用于匹配每个句子所对应的句法语义模型;使用句法语义混合模型提取直陈述数学关系,并根据题目类型添加隐含类型数学关系,所有的数学关系形成一个代数关系组;其中句法语义混合模型为一个三元组M=(K,P,R),其中K代表关键字元素,P是POS词性模式,R为相关实体之间的数学关系;代数型题目的句法语义模型池为Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
机器求解
对所形成的代数关系组中的实体分配变量,将代数关系组转化成代数方程组,同时得到实体和变量的对照表,机器自动求解这个代数方程组的过程如下:先求解这个代数方程组中的可解部分,部分求解后实现降维和简化,重复这个过程求解整个方程组;
类人解答生成
根据变量的求解先后顺序和实体-变量对照表,对代数关系组求解过程恢复出变量的语义,结合题目文本形成类人的解答过程。
2.根据权利要求1所述的初等数学代数型题目自动解答的方法,其特征在于,步骤“使用句法语义混合模型提取直陈述数学关系,并根据题目类型添加隐含类型数学关系”具体过程如下:
a.根据题目所属类别信息载入相应类别的句法语义混合模型池Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
b.对于每一个分句O(j),使用句法语义模型Mi中的Ki和Pi分别和该分句进行匹配,若匹配成功,则将句法语义模型Mi中的Ri输出到Δ中,Δ为数学关系集合;若不匹配,则继续匹配下一个模型,直至有句法语义模型被匹配为止;
c.循环处理每一个分句,直至所有分句均被处理,此时题目中的直陈述关系提取完毕;
d.将题目所属类别与预先设置的数学关系对照表进行匹配查找,从数学关系对照表中得到题目文本对应类型的一个或多个隐含类型数学关系,并添加到Δ中;
e.输出Δ,此时Δ包含了题目中所有的数学关系,这些数学关系形成了一个代数关系组。
3.一种初等数学代数型题目自动解答系统,其特征在于,包括:
题目输入模块,用于输入初等数学代数型题目的题目图像,并识别出题目图像中所有的题目内容,得到题目文本;
题目理解模块包括关键词集合模块、分类模块、分词标注模块和数学关系提取模块;
所述关键词集合模块,用于对各个类别初等数学代数型题目,建立该类型题目的关键词集合;
所述分类模块,用于使用词袋模型对输入的题目内容提取特征向量,使用训练好的分类器进行分类,得到输入题目的类别信息;
所述分词标注模块,用于使用已有的分词软件完成对题目文本的分词和词性标注,并将题目分割为n个简单的分句O(j),其中1≤j≤n,n为自然数;标注出每一个简单句子O(j)中所包含的代数关键词,这些代数关键词结合词性标注用于匹配每个句子所对应的句法语义模型;
所述数学关系提取模块,用于使用句法语义混合模型提取直陈述数学关系,并根据题目类型添加隐含类型数学关系,所有的数学关系形成一个代数关系组;其中句法语义混合模型为一个三元组M=(K,P,R),其中K代表关键字元素,P是POS词性模式,R为相关实体之间的数学关系;代数型题目的句法语义模型池为Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
机器求解模块,用于对所形成的代数关系组中的实体分配变量,将代数关系组转化成代数方程组,同时得到实体和变量的对照表,机器自动求解这个代数方程组的过程如下:先求解这个代数方程组中的可解部分,部分求解后实现降维和简化,重复这个过程求解整个方程组;
类人解答生成模块,用于根据变量的求解先后顺序和实体-变量对照表,对代数关系组求解过程恢复出变量的语义,结合题目文本形成类人的解答过程。
4.根据权利要求3所述的初等数学代数型题目自动解答系统,其特征在于,所述数学关系提取模块具体用于:
a.载入句法语义混合模型池Σ={Mi=(Ki,Pi,Ri)|i=1,2,…,m};
b.对于每一个分句O(j),使用句法语义模型Mi中的Ki和Pi分别和该分句进行匹配,若匹配成功,则将句法语义模型Mi中的Ri输出到Δ中,Δ为数学关系集合;若不匹配,则继续匹配下一个模型,直至有句法语义模型被匹配为止;
c.循环处理每一个分句,直至所有分句均被处理,此时题目中的直陈述关系提取完毕;
d.将题目所属类别与预先设置的数学关系对照表进行匹配查找,从数学关系对照表中得到题目文本对应类型的一个或多个隐含类型数学关系,并添加到Δ中;
e.输出Δ,此时Δ包含了题目中所有的数学关系,这些数学关系形成了一个代数关系组。
5.根据权利要求3所述的初等数学代数型题目自动解答系统,其特征在于,该系统还包括展示模块,用于将类人解答生成模块生成的结果展示出来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710541317.XA CN107423286A (zh) | 2017-07-05 | 2017-07-05 | 初等数学代数型题自动解答的方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710541317.XA CN107423286A (zh) | 2017-07-05 | 2017-07-05 | 初等数学代数型题自动解答的方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107423286A true CN107423286A (zh) | 2017-12-01 |
Family
ID=60426289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710541317.XA Pending CN107423286A (zh) | 2017-07-05 | 2017-07-05 | 初等数学代数型题自动解答的方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423286A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992482A (zh) * | 2017-12-26 | 2018-05-04 | 科大讯飞股份有限公司 | 数学主观题解答步骤的规约方法及系统 |
CN108228568A (zh) * | 2018-01-24 | 2018-06-29 | 上海互教教育科技有限公司 | 一种数学题目语义理解方法 |
CN109657046A (zh) * | 2018-12-24 | 2019-04-19 | 上海仁静信息技术有限公司 | 内容分析处理方法、装置、电子设备及存储介质 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN109902160A (zh) * | 2019-01-30 | 2019-06-18 | 华中师范大学 | 电路题目自动解答的方法及系统 |
CN110555143A (zh) * | 2018-03-27 | 2019-12-10 | 北京世纪好未来教育科技有限公司 | 题目自动解答方法及计算机存储介质 |
CN110599838A (zh) * | 2019-09-20 | 2019-12-20 | 北京猿力未来科技有限公司 | 一种数学自动出题方法及装置 |
CN110675705A (zh) * | 2019-09-17 | 2020-01-10 | 海南阿凡题科技有限公司 | 几何辅助线的自动生成方法 |
CN110751137A (zh) * | 2019-09-04 | 2020-02-04 | 中山大学 | 一种自动求解数学题的方法和系统 |
CN110781681A (zh) * | 2019-10-12 | 2020-02-11 | 电子科技大学 | 一种基于翻译模型的初等数学应用题自动求解方法及系统 |
CN111259632A (zh) * | 2020-02-10 | 2020-06-09 | 暗物智能科技(广州)有限公司 | 一种基于语义对齐的树结构数学应用题求解方法及系统 |
CN111339312A (zh) * | 2020-02-18 | 2020-06-26 | 清华大学 | 用于求解高中数学求值题的知识图谱及其构建和求解方法 |
CN111767307A (zh) * | 2020-07-06 | 2020-10-13 | 北京猿力未来科技有限公司 | 对象处理方法及系统、数学题目批改方法及系统 |
CN112000798A (zh) * | 2019-05-27 | 2020-11-27 | 广东小天才科技有限公司 | 一种语文题型的答案获取方法及装置 |
CN112580653A (zh) * | 2020-12-24 | 2021-03-30 | 广州久邦世纪科技有限公司 | 一种自动解题的方法和装置 |
CN112906862A (zh) * | 2021-02-09 | 2021-06-04 | 柳州智视科技有限公司 | 基于算式和题目求解同类数学题的方法 |
CN112949410A (zh) * | 2021-02-05 | 2021-06-11 | 华中师范大学 | 人工智能理科文字题解题方法、装置、设备及存储介质 |
CN112949421A (zh) * | 2021-02-05 | 2021-06-11 | 华中师范大学 | 人工智能理科图文题解题方法、装置、设备及存储介质 |
CN112966492A (zh) * | 2021-02-09 | 2021-06-15 | 柳州智视科技有限公司 | 利用已知知识解决问题的方法 |
CN113139657A (zh) * | 2021-04-08 | 2021-07-20 | 北京泰豪智能工程有限公司 | 一种机器思维实现方法及装置 |
CN113408294A (zh) * | 2021-05-31 | 2021-09-17 | 北京泰豪智能工程有限公司 | 语义工程平台的构建方法及语义工程平台 |
US20210406467A1 (en) * | 2020-06-24 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating triple sample, electronic device and computer storage medium |
CN117272992A (zh) * | 2023-08-21 | 2023-12-22 | 华中师范大学 | 一种融合物性知识提示的数学应用题机器解答系统及方法 |
CN117494674A (zh) * | 2023-11-15 | 2024-02-02 | 华中师范大学 | 一种基于已有习题改编的几何证明题自动生成方法及系统 |
-
2017
- 2017-07-05 CN CN201710541317.XA patent/CN107423286A/zh active Pending
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992482B (zh) * | 2017-12-26 | 2021-12-07 | 科大讯飞股份有限公司 | 数学主观题解答步骤的规约方法及系统 |
CN107992482A (zh) * | 2017-12-26 | 2018-05-04 | 科大讯飞股份有限公司 | 数学主观题解答步骤的规约方法及系统 |
CN108228568A (zh) * | 2018-01-24 | 2018-06-29 | 上海互教教育科技有限公司 | 一种数学题目语义理解方法 |
CN108228568B (zh) * | 2018-01-24 | 2021-06-04 | 上海互教教育科技有限公司 | 一种数学题目语义理解方法 |
CN110555143A (zh) * | 2018-03-27 | 2019-12-10 | 北京世纪好未来教育科技有限公司 | 题目自动解答方法及计算机存储介质 |
CN110555143B (zh) * | 2018-03-27 | 2021-10-15 | 北京世纪好未来教育科技有限公司 | 题目自动解答方法及计算机存储介质 |
CN109766540B (zh) * | 2018-12-10 | 2022-05-03 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN109657046A (zh) * | 2018-12-24 | 2019-04-19 | 上海仁静信息技术有限公司 | 内容分析处理方法、装置、电子设备及存储介质 |
CN109657046B (zh) * | 2018-12-24 | 2021-11-16 | 上海仁静信息技术有限公司 | 内容分析处理方法、装置、电子设备及存储介质 |
CN109902160A (zh) * | 2019-01-30 | 2019-06-18 | 华中师范大学 | 电路题目自动解答的方法及系统 |
CN112000798A (zh) * | 2019-05-27 | 2020-11-27 | 广东小天才科技有限公司 | 一种语文题型的答案获取方法及装置 |
CN110751137A (zh) * | 2019-09-04 | 2020-02-04 | 中山大学 | 一种自动求解数学题的方法和系统 |
CN110675705A (zh) * | 2019-09-17 | 2020-01-10 | 海南阿凡题科技有限公司 | 几何辅助线的自动生成方法 |
CN110675705B (zh) * | 2019-09-17 | 2021-06-29 | 海南阿凡题科技有限公司 | 几何辅助线的自动生成方法 |
CN110599838A (zh) * | 2019-09-20 | 2019-12-20 | 北京猿力未来科技有限公司 | 一种数学自动出题方法及装置 |
CN110781681A (zh) * | 2019-10-12 | 2020-02-11 | 电子科技大学 | 一种基于翻译模型的初等数学应用题自动求解方法及系统 |
CN110781681B (zh) * | 2019-10-12 | 2023-04-28 | 电子科技大学 | 一种基于翻译模型的初等数学应用题自动求解方法及系统 |
CN111259632A (zh) * | 2020-02-10 | 2020-06-09 | 暗物智能科技(广州)有限公司 | 一种基于语义对齐的树结构数学应用题求解方法及系统 |
CN111259632B (zh) * | 2020-02-10 | 2023-04-11 | 暗物智能科技(广州)有限公司 | 一种基于语义对齐的树结构数学应用题求解方法及系统 |
CN111339312A (zh) * | 2020-02-18 | 2020-06-26 | 清华大学 | 用于求解高中数学求值题的知识图谱及其构建和求解方法 |
US20210406467A1 (en) * | 2020-06-24 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating triple sample, electronic device and computer storage medium |
CN111767307A (zh) * | 2020-07-06 | 2020-10-13 | 北京猿力未来科技有限公司 | 对象处理方法及系统、数学题目批改方法及系统 |
CN112580653A (zh) * | 2020-12-24 | 2021-03-30 | 广州久邦世纪科技有限公司 | 一种自动解题的方法和装置 |
CN112949421B (zh) * | 2021-02-05 | 2023-07-25 | 华中师范大学 | 人工智能理科图文题解题方法、装置、设备及存储介质 |
CN112949410A (zh) * | 2021-02-05 | 2021-06-11 | 华中师范大学 | 人工智能理科文字题解题方法、装置、设备及存储介质 |
CN112949421A (zh) * | 2021-02-05 | 2021-06-11 | 华中师范大学 | 人工智能理科图文题解题方法、装置、设备及存储介质 |
CN112949410B (zh) * | 2021-02-05 | 2024-01-16 | 华中师范大学 | 人工智能理科文字题解题方法、装置、设备及存储介质 |
CN112906862A (zh) * | 2021-02-09 | 2021-06-04 | 柳州智视科技有限公司 | 基于算式和题目求解同类数学题的方法 |
CN112966492A (zh) * | 2021-02-09 | 2021-06-15 | 柳州智视科技有限公司 | 利用已知知识解决问题的方法 |
CN113139657A (zh) * | 2021-04-08 | 2021-07-20 | 北京泰豪智能工程有限公司 | 一种机器思维实现方法及装置 |
CN113139657B (zh) * | 2021-04-08 | 2024-03-29 | 北京泰豪智能工程有限公司 | 一种机器思维实现方法及装置 |
CN113408294A (zh) * | 2021-05-31 | 2021-09-17 | 北京泰豪智能工程有限公司 | 语义工程平台的构建方法及语义工程平台 |
CN113408294B (zh) * | 2021-05-31 | 2024-06-14 | 北京泰豪智能工程有限公司 | 语义工程平台的构建方法及语义工程平台 |
CN117272992A (zh) * | 2023-08-21 | 2023-12-22 | 华中师范大学 | 一种融合物性知识提示的数学应用题机器解答系统及方法 |
CN117494674A (zh) * | 2023-11-15 | 2024-02-02 | 华中师范大学 | 一种基于已有习题改编的几何证明题自动生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423286A (zh) | 初等数学代数型题自动解答的方法与系统 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN107423287A (zh) | 平面几何证明题自动解答方法及系统 | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN107590133A (zh) | 基于语义的招聘职位与求职简历匹配的方法及系统 | |
CN108664632A (zh) | 一种基于卷积神经网络和注意力机制的文本情感分类算法 | |
CN106503055A (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN106095865A (zh) | 一种商标文本相似性评审方法 | |
CN111475655B (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN109902160B (zh) | 电路题目自动解答的方法及系统 | |
CN110781681B (zh) | 一种基于翻译模型的初等数学应用题自动求解方法及系统 | |
CN107729312A (zh) | 基于序列标注建模的多粒度分词方法及系统 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
Morton et al. | A novel framework for math word problem solving | |
CN110309509A (zh) | 一种语义知识库构建方法 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN114265937A (zh) | 科技情报的智能分类分析方法、系统、存储介质及服务器 | |
CN113641809A (zh) | 一种基于XLNet-BiGRU-CRF的智能问答方法 | |
CN114297399A (zh) | 知识图谱生成方法、系统、存储介质及电子设备 | |
CN116383352A (zh) | 一种基于知识图谱的零样本构建领域智能问答系统的方法 | |
Capuano et al. | Ontology-driven generation of training paths in the legal domain. | |
CN112949410B (zh) | 人工智能理科文字题解题方法、装置、设备及存储介质 | |
Yang | Data Mining Based College English Teaching Assistant Expert System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171201 |