CN109190099B - 句模提取方法及装置 - Google Patents
句模提取方法及装置 Download PDFInfo
- Publication number
- CN109190099B CN109190099B CN201810964831.9A CN201810964831A CN109190099B CN 109190099 B CN109190099 B CN 109190099B CN 201810964831 A CN201810964831 A CN 201810964831A CN 109190099 B CN109190099 B CN 109190099B
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- segmentation
- mathematical
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种句模提取方法,用于对数学题目文本的句模提取,包括以下步骤:S1,首选进行预处理,采用词典与算法相结合的方法对数学题目进行序列标注、分词和分句,并做标准化处理;S2,基于分词和分句结果,计算词对的互信息,初步筛选出句模,并根据句模出现次数确定句模。本发明根据数学短语化句式的特点和对文本序列标注结果的预处理,可以有效地提取数学领域中的句子模板,大大提高了对数学题目知识表达的逻辑谓词的提取效果,促进了自动解题系统对题意的准确理解,相比传统人工总结编写句模的方法适用性更广,可以有效地推动了自然语言处理领域中的关键技术针对数学领域的研究和应用。
Description
技术领域
本发明属于人工智能技术领域,特别涉及自然语言处理技术领域中,一种数学文本句模自动提取生成方法及装置。
背景技术
随着人工智能的迅速发展,自然语言处理技术应用广泛,其中句模的使用比较普遍,同样在数学自动化解题系统等专业项目,句模的使用对数学题目文本题意的提取也是很有帮助的。但现有的句模方法主要是基于人工总结编写,非常耗费人力和时间,当数据量很大且涉及内容多、范围广时,仅靠人工总结编写句模的弊端很容易就暴露出来了,根本无法满足对日益庞大的数据进行分析的要求。
发明内容
本发明的目的是提供一种基于互信息的数学文本句模自动提取生成方法及其装置,以解决现有技术中智能依靠人工编写的问题。
互信息是信息论里一种有用的信息度量,它可以看成是一个变量中包含的关于另一个随机变量的信息量。设两个随机变量(X,Y)的联合分布为p(x,y),边际分布分别为p(x),p(y),互信息I(X;Y)是联合分布p(x,y)与边际分布p(x)p(y)乘积的相对熵。本发明使用两个词语出现在同一个短句中的概率作为p(x,y),符合数学模版提取的理论基础,是一个非常好的衡量标准。
本发明实施例之一,一种句模提取方法,用于对数学题目文本的句模提取,包括以下步骤:
S1,首选进行预处理,采用词典与算法相结合的方法对数学题目进行序列标注、分词和分句,并做标准化处理;
S2,基于分词和分句结果,计算词对的互信息,初步筛选出句模,并根据句模出现次数确定句模。
该实施例中,先使用crf算法对数学题目文本进行序列标注、分词,识别其中的公式实体,并利用序列标注的结果使句子初步规范化。再根据数学领域中常见短语化表达的语言特点和序列标注结果对句子进行拆分,计算短句中每个词对的互信息,对短句内互信息大于某一阈值的词对进行模板的提取,并统计出现次数,对出现频率大于某一阈值的,识别为一个句模。
本发明的实施例针对数学领域较为规范统一的语言特点专门设计了一种自动生成句模的方法用于对文本题意的准确理解。对于数学语言常见表达中短语化的特点,先对句子进行拆分,针对每个词语,计算短句中每个单词的互信息,对单句内互信息大于某一阈值的单词对进行模版的提取,并统计出现次数,对出现频率大于某一阈值的单词对即识别为一个句模。
本发明根据数学短语化句式的特点以及对文本序列标注结果的预处理,利用算法有效地提取数学领域中的句子模板,大大提高了对数学题目知识表达的逻辑谓词的提取效果,促进了自动解题系统对题意的准确理解,相比传统人工总结编写句模的方法适用性更广,并有效地推动了自然语言处理领域中的关键技术针对数学领域的研究和应用。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1本发明实施例中基于互信息的数学文本句模自动生成方法的流程图。
具体实施方式
根据一个或者多个实施例,如图1所示,一种基于互信息的数学文本句模自动生成方法,包括如下步骤:
S1:在预处理部分,采用词典与算法相结合的方法进行序列标注、分词,并做标准化处理。
S2:基于分词和分句结果,计算词对的互信息初步确定句模并根据句模出现次数确定句模。
所述步骤S1具体包括以下步骤:
S11.使用crf算法基于人工标注数据对数学题目进行序列标注,识别出实体和断句点。
S12.基于序列标注结果对识别出的公式实体进一步做标准化处理,使用其标注名称进行替换。
S13.对非公式实体部分进行词典分词。
crf算法是自然语言处理领域常用的序列标注算法,本实施例采用crf算法结合人工提取的特征,利用通过规则和人工同时标记的大量数据完成本项任务。本实施例只对数学公式进行识别与分类,非公式部分采用词典进行分词和标注,可以大量节省人工标记的成本并且提高模型准确率。
针对分词任务,本发明在常规的中文分词方法上,先进行公式的统一替换处理,再根据自己建立的数学领域专有名词并结合公开的词典采用词典进行分词。在数学领域缺少大规模标注数据和语言较为规范统一且严谨的情况下利用该方法进行分词在速度和准确率上都有着优越的表现。
所述步骤S2具体包括以下步骤:
S21.使用crf算法基于人工标注数据再次通过序列标注进行分句。
S22.基于分句结果,计算每个句子内任意两词共同出现的次数。
S23.基于分词结果,计算每个词单独出现的次数。
S24.计算每个词对的互信息,即在同一短句内出现的次数和单独出现次数的比值。
S25.统计单个句子内互信息大于某一阈值的单词对,并把它标记成一个子序列。如果单词对中间有其它词语,则用占位符[T]表示。
S26.统计子序列的出现次数,即不仅统计此序列的次数,也包含此序列被其他长序列包含的次数。
S27.划定阈值,对出现次数高于某值的序列,则认为是一个句模。
因为数学题目中数学符号较多,常规基于标点符号分句的方法不适用于此领域。而本发明采用crf算法结合人工标记数据,并用起始条件,中间条件,问题,三个大标签,采用BMES标记法解决了数学领域分句的问题,效率显著。
在本实施例中,根据数学短语化句式的特点以及对文本序列标注结果的预处理,基于互信息理论,利用算法有效地提取文本中互信息大于某一阈值且出现频率大的单词对,从而实现数学领域中句子模板的自动生成,大大提高了对数学题目知识表达的逻辑谓词的提取效果,促进了自动解题系统对题意的准确理解。
根据一个或者多个实施例,一种句模提取装置,所述装置用于对数学题目文本的句模提取,其特征在于,该装置包括存储器;以及
耦合到所述存储器的处理器,该处理器被配置为执行存储在所述存储器中的指令,所述处理器执行以下操作:
S1,首选进行预处理,采用词典与算法相结合的方法对数学题目进行序列标注、分词和分句,并做标准化处理;
S2,基于分词和分句结果,计算词对的互信息,初步筛选出句模,并根据句模出现次数确定句模。
根据一个或者多个实施例,以一个实际例子对本发明的一种基于互信息的数学文本句模自动生成方法进行详细的说明。
这里选择一道数学题目进行输入,题目信息为:已知定义域为R的奇函数f(x)在[0,1]上单调递增,且对于任意的x,y都有f(x+y)=f(x)*f(1-y)+f(1-x)*f(y).求f(0)和f(1)的值。方法包括:
1.使用crf算法基于人工标注数据对数学题目进行序列标注,主要对题目文本中公式实体部分进行标记,目的在于准确识别出公式实体。对文本中公式识别所用的标记方法如表1所示。
表1:
2.对题目文本中识别出的公式部分使用其标注名称进行替换,上述文本经过标准化替换后结果如下:
已知定义域为Set的奇函数Function在Interval上单调递增,且对于任意的expr,expr都有Fexpr.求Fexpr和Fexpr的值。
3.使用开源词典加入数学领域专有名词,对上述处理后的句子进行分词,用/表示分词点,分词结果如下:
已知/定义域/为/Set/的/奇函数/Function/在/Interval/上/单调递增/,/且/对于/任意/expr/,/expr/都有/Fexpr/./求/Fexpr/和/Fexpr/的值。
4.基于人工标注数据使用crf算法再次通过序列标注进行分句,对句子进行分句的
标记方法如表2所示。
表2:
使用训练好的模型进行序列标注可以得到以下三个短句:
(1).已知/定义域/为/Set/的/奇函数/Function/在/Interval/上/单调递增/,
(2).且/对于/任意/expr/,/expr/都有/Fexpr/,
(3).求/Fexpr/和/Fexpr/的值.
5.分别统计上述词语在整个训练样本中出现次数和互信息。对短句1中词与词之间的关系表举例,如表3所示。
表3:
6.基于统计量可以计算互信息,将互信息较强的词语记录下来初步形成一个模板如下:
①已知/定义域/为/Set/的/奇函数
②奇函数/Function/在/Interval/上/单调递增
③对于任意的[T]都有[T]
④求[T]的值
7.对各个模板进行统计,统计出现次数,如果此模板在更长的模板里面,也统计进去。如模板“任意的[T]”出现在短句“对任意的[T]都有[T]”中时,则对“任意的[T]”的统计量加1。最后把统计量高于某一阈值的模板选为最终模板。
8.对以上的模板进行统计,经过统计后可以得到模板的出现次数,并根据出现次数确定最后的模板。经过判断,上例句子中含有如下模版:
①定义域/为/Set
②定义域/为/Set/的/奇函数
③奇函数/Function
④Function/在/Interval/上/单调递增
⑤任意的[T]都有[T]
⑥[T]的值。
值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (2)
1.一种句模提取方法,用于对数学题目文本的句模提取,包括以下步骤:
S1,首选进行预处理,采用词典与算法相结合的方法对数学题目进行序列标注、分词和分句,并做标准化处理;
S2,基于分词和分句结果,计算词对的互信息,初步筛选出句模,并根据句模出现次数确定句模;
所述步骤S1具体包括以下步骤:
S11.使用crf算法基于人工标注数据对数学题目进行序列标注,识别出实体和断句点;
S12.基于序列标注结果对识别出的公式实体进一步做标准化处理,使用其标注名称进行替换;
S13.对非公式实体部分进行词典分词;
所述步骤S2具体包括以下步骤:
S21.使用crf算法基于人工标注数据再次通过序列标注进行分句;
S22.基于分句结果,计算每个句子内任意两词共同出现的次数;
S23.基于分词结果,计算每个词单独出现的次数;
S24.计算每个词对的互信息,即在同一短句内出现的次数和单独出现次数的比值;
S25.统计单个句子内互信息大于某一阈值的单词对,并把它标记成一个子序列,如果单词对中间有其它词语,则用占位符[T]表示;
S26.统计子序列的出现次数,即不仅统计此序列的次数,也包含此序列被其他长序列包含的次数;
S27.划定阈值,对出现次数高于某值的序列,则认为是一个句模。
2.一种句模提取装置,所述装置用于对数学题目文本的句模提取,其特征在于,该装置包括存储器;以及
耦合到所述存储器的处理器,该处理器被配置为执行存储在所述存储器中的指令,所述处理器执行以下操作:
S1,首选进行预处理,采用词典与算法相结合的方法对数学题目进行序列标注、分词和分句,并做标准化处理;
S2,基于分词和分句结果,计算词对的互信息,初步筛选出句模,并根据句模出现次数确定句模;
所述步骤S1具体包括以下步骤:
S11.使用crf算法基于人工标注数据对数学题目进行序列标注,识别出实体和断句点;
S12.基于序列标注结果对识别出的公式实体进一步做标准化处理,使用其标注名称进行替换;
S13.对非公式实体部分进行词典分词;
所述步骤S2具体包括以下步骤:
S21.使用crf算法基于人工标注数据再次通过序列标注进行分句;
S22.基于分句结果,计算每个句子内任意两词共同出现的次数;
S23.基于分词结果,计算每个词单独出现的次数;
S24.计算每个词对的互信息,即在同一短句内出现的次数和单独出现次数的比值;
S25.统计单个句子内互信息大于某一阈值的单词对,并把它标记成一个子序列,如果单词对中间有其它词语,则用占位符[T]表示;
S26.统计子序列的出现次数,即不仅统计此序列的次数,也包含此序列被其他长序列包含的次数;
S27.划定阈值,对出现次数高于某值的序列,则认为是一个句模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810964831.9A CN109190099B (zh) | 2018-08-23 | 2018-08-23 | 句模提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810964831.9A CN109190099B (zh) | 2018-08-23 | 2018-08-23 | 句模提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190099A CN109190099A (zh) | 2019-01-11 |
CN109190099B true CN109190099B (zh) | 2022-12-13 |
Family
ID=64919640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810964831.9A Active CN109190099B (zh) | 2018-08-23 | 2018-08-23 | 句模提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190099B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947923A (zh) * | 2019-03-21 | 2019-06-28 | 江西风向标教育科技有限公司 | 一种基于词向量的初等数学题型自动提取方法及系统 |
CN110188180B (zh) * | 2019-05-31 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 相似问题的确定方法、装置、电子设备及可读存储介质 |
CN113127610B (zh) * | 2019-12-31 | 2024-04-19 | 北京猎户星空科技有限公司 | 一种数据处理方法、装置、设备及介质 |
CN113408271B (zh) * | 2021-06-16 | 2021-11-30 | 北京来也网络科技有限公司 | 基于rpa及ai的信息抽取方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808422A (zh) * | 2006-01-26 | 2006-07-26 | 罗际城 | 拟人化语意运算平台的立体结构化运算方法 |
CN101546304A (zh) * | 2008-03-24 | 2009-09-30 | 富士施乐株式会社 | 基于例句集合的翻译装置、方法以及短语翻译装置 |
CN107038163A (zh) * | 2016-02-03 | 2017-08-11 | 常州普适信息科技有限公司 | 一种面向海量互联网信息的文本语义建模方法 |
CN107153640A (zh) * | 2017-05-08 | 2017-09-12 | 成都准星云学科技有限公司 | 一种面向初等数学领域的分词方法 |
CN107273350A (zh) * | 2017-05-16 | 2017-10-20 | 广东电网有限责任公司江门供电局 | 一种实现智能问答的信息处理方法及其装置 |
CN107463553A (zh) * | 2017-09-12 | 2017-12-12 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 |
CN108228568A (zh) * | 2018-01-24 | 2018-06-29 | 上海互教教育科技有限公司 | 一种数学题目语义理解方法 |
-
2018
- 2018-08-23 CN CN201810964831.9A patent/CN109190099B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808422A (zh) * | 2006-01-26 | 2006-07-26 | 罗际城 | 拟人化语意运算平台的立体结构化运算方法 |
CN101546304A (zh) * | 2008-03-24 | 2009-09-30 | 富士施乐株式会社 | 基于例句集合的翻译装置、方法以及短语翻译装置 |
CN107038163A (zh) * | 2016-02-03 | 2017-08-11 | 常州普适信息科技有限公司 | 一种面向海量互联网信息的文本语义建模方法 |
CN107153640A (zh) * | 2017-05-08 | 2017-09-12 | 成都准星云学科技有限公司 | 一种面向初等数学领域的分词方法 |
CN107273350A (zh) * | 2017-05-16 | 2017-10-20 | 广东电网有限责任公司江门供电局 | 一种实现智能问答的信息处理方法及其装置 |
CN107463553A (zh) * | 2017-09-12 | 2017-12-12 | 复旦大学 | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 |
CN108228568A (zh) * | 2018-01-24 | 2018-06-29 | 上海互教教育科技有限公司 | 一种数学题目语义理解方法 |
Non-Patent Citations (8)
Title |
---|
一种基于情感句模的文本情感分类方法;陈涛等;《中文信息学报》;20130915(第05期);67-74 * |
信息过滤中的中文自动分词技术研究;孙铁利等;《计算机工程与科学》;20090315(第03期);80-83 * |
初等数学问题题意理解方法研究及应;汪中科;《中国优秀硕士学位论文全文数据库基础学科辑》;20180815;A002-l * |
基于句模的初等数学问题题意理解方法研究及应用;吴宣乐;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》;20170215(第2期);I138-4365 * |
情感倾向性分析及应用研究综述;李建华等;《信息安全学报》;20170415(第02期);48-62 * |
改进的基于句模匹配算法的问句理解方法;马莉等;《计算机工程》;20091020(第20期);2772-2776 * |
相关事件挖掘与角色联系发现的研究;彭会良等;《计算机科学》;20101215(第12期);149-155 * |
马莉等.改进的基于句模匹配算法的问句理解方法.《计算机工程》.2009,(第20期),2772-2776. * |
Also Published As
Publication number | Publication date |
---|---|
CN109190099A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190099B (zh) | 句模提取方法及装置 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN110363194A (zh) | 基于nlp的智能阅卷方法、装置、设备及存储介质 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
WO2019228466A1 (zh) | 命名实体识别的方法、装置、设备及存储介质 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN109359290B (zh) | 试题文本的知识点确定方法、电子设备及存储介质 | |
CN109062904B (zh) | 逻辑谓词提取方法和装置 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN104391885A (zh) | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN107943786A (zh) | 一种中文命名实体识别方法及系统 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN110781681A (zh) | 一种基于翻译模型的初等数学应用题自动求解方法及系统 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN112148862A (zh) | 一种问题意图识别方法、装置、存储介质及电子设备 | |
CN113934814B (zh) | 古诗文主观题自动评分方法 | |
CN116151220A (zh) | 分词模型训练方法、分词处理方法和装置 | |
CN111046649A (zh) | 一种文本分割方法和装置 | |
CN112232681A (zh) | 一种面向计算分析类非选择题的智能评卷方法 | |
CN109325098B (zh) | 用于数学题目语义解析的指代消解方法 | |
CN115688799A (zh) | 一种汉语自监督词义理解方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Building 10, Lane 2277, Zuchongzhi Road, Pudong New Area Free Trade Pilot Zone, Shanghai, 200000 Patentee after: Shanghai Mutual Education Intelligent Technology Co.,Ltd. Address before: Room 211, Building 29, No.368, Zhangjiang Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201210 Patentee before: SHANGHAI HUJIAO EDUCATION TECHNOLOGY Co.,Ltd. |
|
CP03 | Change of name, title or address |