CN107679154A

CN107679154A - 一种基于时间轴的历史题解题方法、系统及介质

Info

Publication number: CN107679154A
Application number: CN201710888726.7A
Authority: CN
Inventors: 陈清财; 潘囿丞; 王晓龙; 郑志辉; 刘乐
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-02-09
Anticipated expiration: 2037-09-27
Also published as: CN107679154B

Abstract

本发明提供了一种基于时间轴的历史题解题方法、系统及介质，该历史题解题方法包括：时间轴知识库构建步骤、历史词条时间字典构建步骤、问题时间属性分析步骤、相关词条筛选步骤、基于时间轴的文档片段筛选步骤、候选答案生成步骤。本发明的有益效果是：本发明通过构建的时间轴知识库和历史词条时间字典，自动地发现历史简答题题目中的时间信息，并将问题分类为时间限定类问题和非时间限定类问题。对于时间限定类问题，在生成候选答案的过程中加入基于时间轴的时间判断方法，生成和问题中时间相符合的候选答案。避免因为时间信息的遗漏而导致候选答案和问题的时间节点不符。

Description

一种基于时间轴的历史题解题方法、系统及介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于时间轴的历史题解题方法、系统及介质。

背景技术

传统的智能问答系统(Question Answering)，可以使用自然语言进行提问，系统给出简洁、准确的答案。

在计算问题和文本的相关度的过程中，并非问题中的所有词都被考虑到，因而存在问题中时间信息与答案中时间信息不符的情况，并且有些历史事件的影响是超越了历史事件本身的时间跨度的，因而在抽取与历史事件相关的文本片段的过程中也可能会抽取到时间不太符合的片段。

然而时间因素对于历史问答题的重要性不可小觑，如果答案中涉及的时间和问题中的时间不相符的话，答案将被认定为错误。因此在答案的生成过程中对于有时间限定的题目加入相应的时间信息是很有必要的，既能缩小抽取答案片段的文档范围，也能确保答案在时间属性上是符合的。

因而如何有效的组织知识库，提取出知识库中知识的时间信息，并将知识库中内容的时间信息与问题中的时间信息进行结合，在文本相似度的基础之上加上时间相似度来进一步对答案进行限定，使得答案的时间属性与问题的时间属性相符合，是本发明重点研究的问题。

发明内容

本发明提供了一种基于时间轴的历史题解题方法，包括如下步骤：

时间轴知识库构建步骤：从历史知识库筛选出包含时间属性的词条，并按照时间轴顺序进行组织，构建一个基于时间轴的知识库，历史知识库包括百度百科和维基百科；

历史词条时间字典构建步骤：利用现有时间轴知识库，对常见的含有时间属性的历史词条，构建其对应的时间字典，每一个词条都有对应的时间属性，常见的含有时间属性的历史词条是工作人员从时间轴知识库中筛选出来的；

问题时间属性分析步骤：对历史简答题的时间属性进行分析，将问题分类为时间限定类和非时间限定类；

相关词条筛选步骤：在时间轴知识库中筛选出与问题相关度最高的前n条历史词条作为候选答案的出处(在实际应用中n设定为10)；

基于时间轴的文档片段筛选步骤：该步骤针对那些有时间信息的时间限定类问题，在得到n条相关的历史词条后，对每一个词条中的内容进行筛选留下与问题时间相关的内容；

候选答案生成步骤：通过再次计算问题与文档片段的相似度，选择得分最高的片段作为问题的候选答案。

作为本发明的进一步改进，在时间轴知识库构建步骤中，对时间轴知识库的构建包括如下步骤：

历史知识库词条筛选步骤：对历史知识库中的词条利用分类器进行筛选，保留其中与历史相关的词条；

历史词条时间信息获取步骤：对历史知识库中的历史词条，利用分类器和规则得到每个词条内容中的时间信息，并进行统一化处理，最终选择合适的时间段或时间点作为该词条的时间信息；

时间轴知识库词条筛选步骤：利用历史知识库中词条得到的时间信息对词条进行筛选，保留包含时间信息的历史词条；

时间轴知识库组织步骤：将有时间属性的历史词条，按照相应的时间先后顺序进行组织，构成一个时间轴知识库，其中所有词条都遵循时间顺序。

作为本发明的进一步改进，在所述历史知识库词条筛选步骤中，包括如下步骤：

获取百度百科词条步骤：使用网络爬虫爬取百度百科词条，并解析网页内容保存为xml文件；

获取维基百科词条步骤：使用网络爬虫爬取维基百科词条，并解析网页内容保存为xml文件；

分类历史相关词条步骤：利用分类器对百度百科和维基百科中的词条进行分类，得到历史相关的词条进行保留；

在所述历史词条时间信息获取步骤中，包括如下步骤：

历史词条时间信息抽取步骤：使用分类器和规则相结合的方法抽取历史词条中与该词条相关的时间信息；

历史词条时间信息统一化步骤：对历史词条中获取的不同形式的时间信息进行统一化处理，统一成系统容易处理的形式，如：1949-10-01(代表1949年10月1日)；

历史词条时间信息选择步骤：对一个历史词条中可能存在的多个时间信息进行筛选，赋予该词条时间点属性或时间段属性。

作为本发明的进一步改进，在所述历史词条时间字典构建步骤中，包括如下步骤：

历史词条选择步骤：对时间轴知识库中的所有历史词条进行人工的筛选，选择常见的、包含时间的历史事件(辛亥革命)、历史朝代(魏晋南北朝)等词条；

时间字典构建步骤：对选择的历史词条，构建一个词条名和时间段或时间点相对应的字典。

作为本发明的进一步改进，在所述问题时间属性分析步骤中，对已历史简答题问题进行分析包括如下步骤：

显式时间信息查找步骤：用规则查找历史简答题的问题中是否包含显式的时间信息，如18世纪60年代等，若包含，则将题目归类为时间限定类，并提取出时间表达式；

隐式时间信息查找步骤：若用规则没有查找到问题中包含显示的时间表达式，则利用历史词条时间字典对问题进行查找，判断问题中是否包含隐式的时间表达式；

时间信息判断步骤：对于题目中包含显式时间表达式或隐式时间表达式的题目分类为时间限定类问题和非时间限定类问题；

问题时间表达式统一步骤：对于时间限定类问题中的时间表达式进行格式化处理，统一成和时间轴中时间表达一致的形式；

在所述问题时间表达式统一步骤中，包括如下步骤：

显式时间表达式统一步骤：针对问题中显式的时间表达式，进行格式的统一；

隐式时间表达式统一步骤：针对问题中隐式的时间表达式，利用历史词条时间字典中词条对应的时间作为问题的时间，对问题的时间进行统一化处理。

作为本发明的进一步改进，在所述相关词条筛选步骤中，包括如下步骤：

检索关键词选择步骤：对历史简答题的问题进行分词，并选择检索关键词；

相关词条选择步骤：使用Lucene全文检索，利用问题关键词对知识库中的词条进行全文检索，检索的到相关性最高的前n条词条。

作为本发明的进一步改进，在所述基于时间轴的文档片段筛选步骤中，对获得的n个相关文档的筛选包括如下步骤：

时间信息比较步骤：针对时间限定类题目，在得到的n条相关的历史词条中，利用时间轴中的时间信息和文档片段中的时间信息和问题本身的时间信息进行比较，看时间信息是否匹配；

文档片段筛选步骤：在和问题的时间信息进行比较之后，留下与问题时间信息相符的文档片段或者不包含时间信息的文档片段。

作为本发明的进一步改进，在所述候选答案生成步骤中，包括如下步骤：

文档滑动窗口操作步骤：对一个历史词条的整个文本，以m句话为一个窗口进行滑动(m一般设定为6)；

滑动窗口片段相似度计算步骤：对每一个滑动窗口中的m句文档片段，计算和问题关键词的相似度得分；

候选答案选择步骤：根据滑动窗口文档片段的相似度评分对文档片段进行排序，选择得分最高的片段作为问题的候选答案。

本发明还提供了一种基于时间轴的历史题解题系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的方法的步骤。

本发明的有益效果是：本发明提出一种基于时间轴的解题方法与系统，通过构建的时间轴知识库和历史词条时间字典，自动地发现历史简答题题目中的时间信息，并将问题分类为时间限定类问题和非时间限定类问题。对于时间限定类问题，在生成候选答案的过程中加入基于时间轴的时间判断方法，生成和问题中时间相符合的候选答案。避免因为时间信息的遗漏而导致候选答案和问题的时间节点不符。

附图说明

图1为本发明流程图。

图2为本发明时间轴知识库构建流程图。

图3为本发明历史知识库词条筛选流程图。

图4为SVM分类器用于知识库词条分类流程。

图5为历史词条时间信息获取流程图。

图6为SVM分类器用于分类包含时间的语句分类流程。

图7为历史词条时间字典构建流程图。

图8问题时间属性分析流程图。

图9问题时间表达式统一流程。

图10为相关词条筛选流程图。

图11为基于时间轴的文档片段筛选流程图。

图12为候选答案生成流程图。

具体实施方式

如图1所示，本发明公开了一种基于时间轴的历史题解题方法，包括如下步骤：

步骤100：时间轴知识库构建，即：构建一个基于时间轴顺序的历史知识库，知识库中的历史词条都具备时间属性，并且按照时间顺序进行组织。如图2所示，在时间轴知识库构建步骤中，包括如下步骤：

步骤110：历史知识库词条筛选，即：对维基百科和百度百科的词条使用历史分类器进行分类，得到历史知识库中词条。如图3所示，在历史知识库词条筛选步骤中，包括如下步骤：

步骤111：获取百度百科词条，即：利用网络爬虫爬取百度百科词条，并解析网页保存为xml格式。

步骤112：获取维基百科词条，即：利用网络爬虫爬取维基百科词条，并解析网页保存为xml格式。

步骤113：分类历史相关词条：利用历史分类器对百度百科和维基百科中的词条进行分类，得到历史相关的词条进行保留。历史分类器可以使用SVM分类器，SVM分类器用于历史词条分类如图4所示。

步骤120：历史词条时间信息获取，即：对历史知识库中的历史词条，利用分类器和规则得到每个词条内容中的时间信息，并进行统一化处理，最终选择合适的时间段或时间点作为该词条的时间信息。如图5所示，历史词条时间信息获取包括如下步骤：

步骤121：历史词条时间信息抽取，即：使用分类器和规则相结合的方法抽取历史词条中与该词条相关的时间信息。此处具体操作如下：

将每一个历史词条中的文档内容按句进行划分，对每一句话使用训练好的SVM时间分类器进行分类，该分类器将包含时间信息的本文分为正类，其余为负类，该分类器用于文本分类如图6所示。

对于文档中划分出来包含时间信息的语句，再进一步筛选其中是否包含词条名，如果存在同时包含词条名和时间信息的语句，则舍弃其余的只包含时间信息的语句，以保证时间信息和词条名的相关性；对于少数不存在词条名和时间信息都包含的语句的词条，则单纯用分类出来的包含时间信息的语句抽取具体时间即可。对每一个词条，经过分类器的分类以及筛选之后得到的包含时间信息的语句列表进行分析，主要处理以下两种形式的时间表达式：

1.1949年10月1日、1950年春……

2.19世纪50年代、19世纪上半叶、19世纪初期……

然后对词条的时间语句列表中的语句使用规则匹配出时间表达式片段。

步骤122：历史词条时间信息统一化，即：对历史词条中获取的不同形式的时间信息进行统一化处理，统一成系统容易处理的形式，如：1949-10-01(代表1949年10月1日)。

步骤123：历史词条时间信息选择，即：对一个历史词条中可能存在的多个时间信息进行筛选，赋予该词条时间点属性或时间段属性。此处考虑到在如上步骤中得到的一个词条的时间表达式可能存在一个或多个，针对存在一个时间表达式的词条，则将该时间设定为该词条的时间点属性值；针对存在多个时间表达式的词条，则将时间表达式中的最大值和最小值设定为该词条时间段属性的结束时间和开始时间。

具体的，例如一个人物的历史词条，抽取出的时间段属性即可认为是该人物的出生时间和去世时间；一个历史事件的词条，抽取出的时间点或时间段属性即可认为是该历史事件的时间跨度信息。

步骤130：时间轴知识库词条筛选，即：利用历史知识库中词条得到的时间信息对词条进行筛选，保留包含时间信息的历史词条。

步骤140：时间轴知识库组织，即：将有时间属性的历史词条，按照相应的时间先后顺序进行组织，构成一个基于时间轴的知识库。

步骤200：历史词条时间字典构建，即：利用构建好的时间轴知识库，对一些常见的含有时间属性的历史词条，构建其对应的时间字典，每一个词条对应其具体的时间点或时间段。如图7所示，历史词条时间字典构建包括如下步骤：

步骤210：历史词条选择，即：利用时间轴知识库中的所有词条，人工的进行筛选，选择出常见的包含时间的历史事件、历史朝代等词条。

步骤220：时间字典构建，即：对选择的历史词条，构建一个词条名和时间段或时间点相对应的字典。字典的格式及部分举例如下：

字典中每一行可能存在三列或两列，其中第一列都是字典中的词条。对于有三列的词条，代表该词条具备的是时间段属性，第二列和第三列分别是时间段的开始和结束；对于只有两列的词条，代表该词条具有的是时间点属性，第二列代表的是该词条时间点属性的具体值。因为在整个历史进程中，时间的跨度比较大，所以此处时间的粒度是到年，而没有精确到具体的月、日。

步骤300：问题时间属性分析，即：通过对历史简答题问题的时间属性进行分析，将问题分为时间限定类和非时间限定类。如图8所示，问题时间属性分析包括如下步骤：

步骤310：显式时间信息查找，即：主要使用规则查找问题中的显式时间信息。考虑到问题中的时间信息是解题的关键，因此对问题中时间信息的查找情况比较多，主要查找的时间信息如下所示：

1.1919年[和1945年](时间点)

2.1920年到1950年、1930年以后(时间段)

3.19世纪30年代、19世纪20到50年代(时间段)

4.18世纪到19世纪(时间段)

5.19世纪初期、20世纪上半叶(时间段)

步骤320：隐式时间信息查找，即：对于上一步中使用规则没有查找到显式时间表达式的问题，进一步使用历史词条时间字典查找问题中是否包含隐式的时间表达式。该步骤中主要查找的是例如辛亥革命、清朝等本身带有时间属性的文本片段。

步骤330：时间信息判断，即：根据题目中是否包含显式时间表达式或隐式时间表达式，将题目分为时间限定类问题和非时间限定类问题。

步骤340：问题时间表达式统一：即：对时间限定类问题中的显式或隐式时间表达式进行统一化处理，都统一成1949-10-01(1949年10月1日)这样的格式。如图9所示，问题时间表达式统一包括如下步骤：

步骤341：显式时间表达式统一，即：针对问题中存在的显示时间表达式，进行格式统一。

步骤342：隐式时间表达式统一，即：针对问题中存在的隐式的时间表达式，利用历史词条时间字典进行格式的统一。例如问题中出现了辛亥革命，则该问题的时间属性可以认定为是在辛亥革命发生的时候，如果问题中是提到的辛亥革命之后，则该问题的时间属性可以认定是在辛亥革命发生之后的时间段。

步骤400：相关词条筛选，即：在时间轴知识库中筛选出与问题相关度最高的前n条历史词条作为候选答案的出处。如图10所示，相关词条筛选包括如下步骤：

步骤410：检索关键词选择，即：对历史简答题的问题进行分词，并选择检索关键词。

步骤420：相关词条选择，即：使用问题关键词，利用Lucene全文检索工具对知识库中词条进行检索，得到相关性最高的前n条历史词条。

在使用Lucene进行全文检索的步骤中，采用的是BM25算法计算问题关键字和文本的相似度。

步骤500：基于时间轴的文档片段筛选，即：该步骤主要针对时间限定类问题，在得到n条相关的历史词条后，筛选留下与问题时间信息符合的内容。如图11所示，基于时间轴的文档片段筛选包括如下步骤：

步骤510：时间信息比较，即：对时间限定类题目，使用时间轴与规则相结合的方式比较文档中的时间和问题的时间。对文档按句进行划分，每一句查找是否包含显式或隐式的时间片段，若存在，则将时间片段格式进行统一。在实际的应用过程中，一个历史问题或者文档中的一句话都可能同时包含多个时间信息，在这样的情况下，只要有一个时间信息是匹配的，则认为两者的时间信息是匹配的。

步骤520：文档片段筛选，即：将文档中包含时间片段的句子和问题中的时间片段进行比较，留下与问题中时间相匹配的或者不包含时间的文档片段。

步骤600：候选答案生成，即：通过再次计算文档片段与问题的相似度，选择得分最高的文档片段作为问题的候选答案。如图11所示，候选答案生成包括如下步骤：

步骤610：文档片段滑窗操作，即：对检索到相关度靠前的n条历史词条的文本内容进行滑动窗口的操作，以m句话为一个窗口进行滑动，每次向后滑动。在实际的应用中，m的取值为6。

步骤620：滑动窗口片段相似度计算，即：对每个窗口中的m句话和问题进行相似度计算，得到一个相似度评分。该步骤中的相似度计算采用的是TF-I DF公式计算问题和文档片段的相似度。

步骤630：候选答案选择，即：根据得到的相似度评分，选择得分最高的片段作为问题的候选答案。

本发明还公开了一种基于时间轴的历史题解题系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。

本发明提出一种基于时间轴的历史题解题方法与系统，主要针对历史简答题，构建了基于时间轴的知识库，在问题分析的过程中，加入了对问题时间属性的分析，将问题分为时间限定类和非时间限定类，对于时间限定类的问题，在答案生成的过程中也加入了时间信息对答案进行筛选，以此保证得到答案和问题的时间跨度是一致的，从而提高获得正确答案的可能性。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。

本发明所针对的高考历史简答问答系统，面向高考历史中的简答题部分，对题目进行自然语言分析，通过检索相应的历史知识库生成答案片段。

该历史问答系统通过检索知识库生成答案片段，首先对题目的问题进行自然语言处理抽取关键字，然后通过计算问题关键字和候选答案的文本相似度，抽取文本片段作为问题的候选答案。该历史问答系统的知识库来源主要是通过爬虫收集的百度百科、维基百科以及课本知识。知识库中知识按照词条名、词条内容进行组织，简答题答案则是从词条内容部分进行提取。

本发明的技术效果是：本发明提出一种基于时间轴的解题方法与系统，通过构建的时间轴知识库和历史词条时间字典，自动地发现历史简答题题目中的时间信息，并将问题分类为时间限定类问题和非时间限定类问题。对于时间限定类问题，在生成候选答案的过程中加入基于时间轴的时间判断方法，生成和问题中时间相符合的候选答案。避免因为时间信息的遗漏而导致候选答案和问题的时间节点不符。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于时间轴的历史题解题方法，其特征在于，包括如下步骤：

时间轴知识库构建步骤：从历史知识库筛选出包含时间属性的词条，并按照时间轴顺序进行组织，构建一个基于时间轴的知识库；

相关词条筛选步骤：在时间轴知识库中筛选出与问题相关度最高的前n条历史词条作为候选答案的出处；

2.根据权利要求1所述的历史题解题方法，其特征在于，在时间轴知识库构建步骤中，对时间轴知识库的构建包括如下步骤：

3.根据权利要求2所述的历史题解题方法，其特征在于，在所述历史知识库词条筛选步骤中，包括如下步骤：

在所述历史词条时间信息获取步骤中，包括如下步骤：

历史词条时间信息统一化步骤：对历史词条中获取的不同形式的时间信息进行统一化处理；

4.根据权利要求1所述的历史题解题方法，其特征在于，在所述历史词条时间字典构建步骤中，包括如下步骤：

历史词条选择步骤：对时间轴知识库中的所有历史词条进行人工的筛选，选择常见的、包含时间的历史事件、历史朝代词条；

5.根据权利要求1所述的历史题解题方法，其特征在于，在所述问题时间属性分析步骤中，对已历史简答题问题进行分析包括如下步骤：

显式时间信息查找步骤：用规则查找历史简答题的问题中是否包含显式的时间信息，若包含，则将题目归类为时间限定类，并提取出时间表达式；隐式时间信息查找步骤：若用规则没有查找到问题中包含显示的时间表达式，则利用历史词条时间字典对问题进行查找，判断问题中是否包含隐式的时间表达式；

在所述问题时间表达式统一步骤中，包括如下步骤：

6.根据权利要求1所述的历史题解题方法，其特征在于，在所述相关词条筛选步骤中，包括如下步骤：

检索关键词选择步骤：对历史简答题的问题进行分词，并选择检索关键词；相关词条选择步骤：使用Lucene全文检索，利用问题关键词对知识库中的词条进行全文检索，检索的到相关性最高的前n条词条。

7.根据权利要求1所述的历史题解题方法，其特征在于，在所述基于时间轴的文档片段筛选步骤中，对获得的n个相关文档的筛选包括如下步骤：时间信息比较步骤：针对时间限定类题目，在得到的n条相关的历史词条中，利用时间轴中的时间信息和文档片段中的时间信息和问题本身的时间信息进行比较，看时间信息是否匹配；

8.根据权利要求1所述的历史题解题方法，其特征在于，在所述候选答案生成步骤中，包括如下步骤：

文档滑动窗口操作步骤：对一个历史词条的整个文本，以m句话为一个窗口进行滑动；

9.一种基于时间轴的历史题解题系统，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的方法的步骤。