CN101261690A

CN101261690A - 一种问题自动生成的系统及其方法

Info

Publication number: CN101261690A
Application number: CNA2008101044317A
Authority: CN
Inventors: 刘文印
Original assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Current assignee: BEIJING BAIWENBAIDA NETWORK TECHNOLOGIES Co Ltd
Priority date: 2008-04-18
Filing date: 2008-04-18
Publication date: 2008-09-10

Abstract

本发明公开了一种问题自动生成的系统及其方法，应用于服务器中，当服务器输出一页面时，对于页面中的文字内容进行分析，自动生成与所述文字内容相关的问题，包括：步骤一，扫描页面中的文字，识别页面中的属于各领域的领域概念以识别文字所属领域；步骤二，利用依存关系分析工具、该所属领域的语义词典、该所属领域的语义分析工具分析各个句子，形成具有明确语义与语法关系的具体问题源及问题源表达式；步骤三，在一模板库中，搜索与所述问题源表达式匹配的问题源表达式，获取与所述问题源表达式对应的问题及答案。利用本发明的技术方案，可针对一页面中显示的文章，自动生成与该文章内容相关的问题，帮助用户高速有效的理解文章的内容，提高阅读效率。

Description

一种问题自动生成的系统及其方法

技术领域

本发明涉及知识工程领域、自然语言处理领域及计算机网络信息技术领域，特别是涉及一种问题自动生成的系统及其方法。

背景技术

当今的信息爆炸时代，用户可通过多种渠道获取信息，特别是通过互联网或某些IT应用系统的方式，已逐渐得到广大用户的青睐。但是，在提供信息的同时，如何使用户得到较高的理解程度也直接关系到用户体验，是信息提供商目前比较关心、希望解决的问题。

尤其当页面中显示一段较长的文字内容时，如果能够根据文字内容提供相关的提示或提问，将有助于用户快速理解文章，评估自己对该文章的理解程度，以及进一步学习。

发明内容

本发明所要解决的问题是提供一种问题自动生成的系统及其方法，针对某一领域的文章，自动生成相应的该领域问题。用户可以利用生成的问题，评估自己对该文章的理解程度，以及进一步学习。

为了实现上述目的，本发明公开了一种问题自动生成的方法，应用于服务器中，当所述服务器输出一页面时，对于所述页面中的文字内容进行分析，并自动生成与所述文字内容相关的问题，所述方法包括如下步骤：

步骤一，扫描页面中的文字，识别页面中的属于各领域的领域概念以识别文字所属领域；

步骤二，利用依存关系分析工具、该所属领域的语义词典、该所属领域的语义分析工具分析各个句子，形成具有明确语义与语法关系的具体问题源及问题源表达式；

步骤三，在一模板库中，搜索与所述问题源表达式匹配的问题源表达式，获取与所述问题源表达式对应的问题及答案。

所述步骤一中进一步包括：

设置一概念-领域索引表，其中包含有多个领域概念与其对应的领域之间的关联度值；

根据所述领域概念在所述概念-领域索引表中检索对应的关联值；

根据所述领域概念的关联值获得所述文字所属的领域。

所述步骤二进一步包括：

利用依存关系分析工具分析句子的语法结构，对于符合名词短语+动词短语，名词短语+介词短语或者名词短语+连接词+名词短语形式的句子，形成所述具体问题源的步骤；

利用语义词典，获取所述文字中每个语义概念在所述语义词典中的概念类型，作为语义标签，利用所述语义分析工具，分析句子的语义关系，获得所述具体问题源的问题源表达式的步骤。

所述模板库包括：问题源表达式、与所述问题源表达式对应的问题、答案。

所述搜索与所述问题源表达式匹配的问题源表达式的步骤进一步包括：判断动词是否相同、语义标签是否相同和语法结构是否相同。

本发明还公开了一种问题自动生成的系统，设置于服务器中，当所述服务器输出一页面时，所述系统用于对所述页面中的文字内容进行分析，并自动生成与所述文字内容相关的问题，所述系统包括：

领域概念识别模块，用于扫描页面中的文字，识别页面中的属于各领域的领域概念以识别文字所属领域；

语法关系分析模块，用于利用依存关系分析工具、该所属领域的语义词典、该所属领域的语义分析工具，分析各个句子，形成具有明确语义与语法关系的具体问题源及问题源表达式；

模板匹配模块，用于在一模板库中，搜索与所述问题源表达式匹配的问题源表达式，以获取与所述问题源表达式对应的问题及答案。

所述领域概念识别模块中进一步包括一概念-领域索引表，其中包含有多个领域概念与其对应的领域之间的关联度值，所述领域概念识别模块根据所述领域概念在所述概念-领域索引表中检索对应的关联值，并根据所述领域概念的关联值获得所述文字所属的领域。

所述依存关系分析工具，用于分析句子的语法结构，对于符合名词短语+动词短语，名词短语+介词短语或者名词短语+连接词+名词短语形式的句子，形成所述具体问题源；

所述语义词典，用于获取所述文字中每个语义概念在所述语义词典中的概念类型，作为语义标签；

所述语义分析工具，用于分析句子的语义关系，结合所述文字中每个语义概念的语义标签，获得所述具体问题源的问题源表达式。

所述模板库中包括：问题源表达式、与所述问题源表达式对应的问题、答案。

所述模板匹配模块根据动词是否相同、语义标签是否相同和语法结构是否相同，判断是否搜索到与所述问题源表达式匹配的问题源表达式。

利用本发明的技术方案，可针对一页面中显示的文章，自动生成与该文章内容相关的问题，帮助用户高速有效的理解文章的内容，提高阅读效率。

附图说明

图1所示为本发明的问题自动生成的系统的结构示意图；

图2所示为本发明的问题自动生成的方法的流程图；

图3所示为本发明的实施例的依存关系结构图。

具体实施方式

以下配合实施例以及附图，详细描述本发明的技术特征。

本发明公开了一种问题自动生成系统及其方法。该系统用于对呈现给用户终端的页面中的文字内容，自动生成与该段文字内容相匹配的问题，以帮助用户理解该段文字，评估理解程度，协助用户进行高效的学习。

请参阅图1所示为本发明的问题自动生成的系统的结构示意图。该问题自动生成系统10可设置于网络服务器中，或IT应用系统的控制管理单元中。

该问题自动生成系统10包括：功能控制模块11、领域概念识别模块12、语法关系分析模块13、模板匹配模块14、模板库15。

该功能控制模块11用于控制是否启动该根据页面内容自动生成问题的功能，和/或，提供该问题自动生成系统10的参数设置功能。

领域概念识别模块12用于扫描页面中的文字，识别页面中的属于各领域的领域概念以识别该页面中的文字所属领域。该领域概念即一领域中的专用概念，如通信领域中的3G。

语法关系分析模块13用于分析页面中的句子的语法结构和语义标签间的语法关联，确定句子的语法及语义关系，获得所述句子的具体问题源及作为其抽象表示的问题源表达式。

语法关系分析模块13包括有语义分析工具131、语义词典132及依存关系分析工具133。

该语义分析工具131可包括现有技术中常用的通信领域的d-Ear Parser、医学领域的MMTx，以及其他领域的常见语义分析工具；语义词典132可包括信息处理领域的SKCC、医学领域的UMLS中的Metathesaurus、英汉医学词典、医学主题词表，以及其他领域中的常见词典。依存关系分析工具133可用于分析句子的语法成分、词性及各个成分间的限定关系。

模板匹配模块14用于根据语法关系分析模块13所确定的问题源表达式，在模板库15中查找匹配的问题源表达式，并根据所找到的问题源表达式获取对应的问题以及答案。

模板库15中存储有分属不同领域的手工创建的模板，每个模板包括问题源表达式、该问题源表达式对应的一个或多个问题及每个问题的正确答案。其中，问题源表达式是一类具有相同结构及相关语义的(知识)陈述句的泛化或抽象表示，包括若干语义标签以及用于限定语义关系的动词。

问题源表达式所属的领域，由语义标签体现，每个语义标签即对应在自然语言形式的文字中，一语义概念在语义词典中的概念类型。该语义标签即为在语法关系的基础上，对构成语法关系的元素设置的用于标识其对应语义的标签。每个问题源表达式对应一个或多个问题，选取问题源表达式中的一个语义标签作为问题目标(即所期望的答案)，即有了一个与该问题目标对应的问题，该问题目标即该问题的正确答案。该语义标签对应的语义概念即为具体的答案值。在模板库中，对不同领域的模板分类管理。

在某些实施例中，也可不设置该功能控制模块11，即默认该问题自动生成功能处于开启状态，或者，不设置该领域概念识别模块12，即保留特定领域的语义分析工具131及语义词典132，仅为特定领域的内容自动生成问题，或者，可设置自动生成的问题的数量。

如图2所示为本发明的问题自动生成的方法的流程图。

步骤201，当功能控制模块11捕捉到当前显示页面发生改变的信号时，判断问题自动生成功能是否开启，如果是，执行步骤202，如果否，重复执行步骤201；

步骤202，利用领域概念识别模块12扫描页面中的每个句子，识别文中的领域概念以识别文字所属领域；

步骤203，对于每个句子，通过语法关系分析模块13，分析句子的语法及语义关系，获得所述句子的具体问题源及其对应的问题源表达式；该步骤特别是利用了该语法关系分析模块13中该文字所属领域的语义分析工具、语义辞典；

步骤204，模板匹配模块14将分析得到的具体问题源的问题源表达式在模板库15中的问题源表达式进行匹配；

步骤205，根据该匹配的问题源表达式，获取对应的问题以及答案，输出至页面。

其中，管理员可通过功能控制模块11启动/关闭该问题自动生成系统，设置对页面的特定位置范围内的显示内容执行该问题自动生成，设置该问题自动生成系统的运行时间，和/或，设置为仅针对特定领域(例如仅针对医学、法律等)的文字内容生成问题。

以下详细说明本申请的实现过程。

当功能控制模块11判断问题自动生成功能处于开启状态后，开始以句号为标志，扫描当前页面中的每个句子，以判断该段文字所属的领域。

在服务器的存储装置中，事先存储有一概念-领域索引表。该概念-领域索引表是根据事先所收集的不同领域的文章及语义词典，针对每一领域，分别选取其中最能代表该领域、不存在跨领域的含义的代表性概念，即，领域概念，形成一领域概念集合。然后为该领域概念与其对应的领域之间分别设定一个关联度值，或概率，通过对当前页面中所包含的领域概念以及其对应的关联度值，可计算得到包含该领域概念的内容属于该领域的可能性。

故而，在扫描过程中，对于扫描得到的每个单词，首先将其于该领域概念集合中的每个单词进行匹配，对于匹配成功的单词，根据该概念-领域索引表获取于该单词对应的关联度值。然后根据贝叶斯定理计算该文章属于每个领域的概率，并取最大概率对应的领域作为结果，或者取最大概率且概率高于一预定值的对应领域作为结果。

其中，具体的计算算法为：

T＝{w_i}，i＝1，...n

D = \arg \underset{j}{ma} P (D_{j} / T)

T：一篇文章；

w_i：文章中的第i个领域概念；

n：文章包含领域概念的数目；

D_j：第j个领域；

P(D_j|T)：文章T属于领域D_j的概率；

P(D_j|w_i)：包含第i个领域概念的文章属于领域D_j的概率；

D：文章T应属于的领域。

在获得所属领域后，接下来需利用该领域的依存关系分析工具133、该领域的领域的语义分析工具131及该领域的语义词典132分析句子的语法及语义关系。

例如作为扫描对象的文章包括一个句子为：

ARB drugs are also suitable as first line agents to treathypertension.

通过上述扫描过程，利用该概念-领域索引表，计算得到该文章属于医学领域的概率最高。故而，系统在后续将调用医学领域的语义词典，医学语义分析工具。

接下来，利用斯坦福大学的依存关系分析工具，分析该句子的语法关系。语法关系是句子形式上的约束关系，在本发明中主要涉及到语法成分、词性及各个成分间的限定关系。上例对应的依存关系结构为：

ARB/NNP drugs/NNS are/VBP also/RB suitable/JJ as/IN first/JJline/NN agents/NNS to/TO treat/VB hypertension/NN./.如图3所示。

其中，NNP代表专有名词，NNS代表名词复数，JJ代表形容词，NN代表名词，VB代表动词，VBP代表动词第三人称单数，PP代表介词短语，VP代表动词短语，CC代表搭配，NP代表名词短语，RB代表副词，ADVP代表副词组。

通过分析得到ARB是NNP、drugs是NN，它们一起构成了一个名词短语；treat是VB，hypertension是NN，它们一起构成了一个动宾短语。

具体的语法分析流程为，利用依存关系分析工具将句子进行语法依存关系的分析匹配，得到如图3所示的结果。对应该流程，首先检测句子的语法结构是否满足下面三种句式中的一种：NP+VP，NP+PP或者NP+CC+NP，大部分的句子关系都可以通过这些形式发现，不符合上述句式的句子将被忽略。图3所述实施例，显然符合NP+VP的结构。进而，对符合形式要求的句子，去掉ADVP，对于ADVP以下包括的成分，删除JJ，PP，RB，IN，TO等非主干成分。得到句子主干，即具体问题源：

ARB drugs treat hypertension.

下面利用医学领域的语义词典及语义分析工具，识别出具体问题源中的语义概念，获得其语义标签，以及分析具体问题源的语义关系，以获得具体问题源的抽象表示，即问题源表达式。

在医学领域中，作为语义词典的统一医学语言系统(Unified MedicalLanguage System，简称UMLS)是从语义网络生成的，是为了理解医学概念而建立的一个系统。UMLS系统中设计了索引词典(Metathesaurus)和语义网络(Semantic Network)两个知识库，并建立一个系统，来检索问题与各数据库系统中所存有的大量生物医学文献间概念上的关联。语义关系对应着UMLS语义网络中的关系，是句子逻辑上的知识结构，它将一个普通的句子用一种抽象的表达来揭示出其内在的涵义。MetaMapTransfer(MMTx)是一个MetaMap的JAVA实现，是一种医学领域的语义分析工具。它可以把名词短语映射到最匹配的UMLS术语(集)上。对于每个医学短语，MetaMap利用UMLS的专家语典可以得到它的同义词、缩写形式、首字母缩写及其他拼写形式，这些不同形式都可以看作这一概念的候选。

继续上述例子，通过MMTx把ARB drugs和hypertension映射到统一医学语言系统(UMLS)，发现它们所属的类型分别是<Medicine>和<Disease>。则将该类型分别作为ARB drugs和hypertension的语义标签。

对于treat限定的这两个医学概念，左边ARB drugs短语是一种药物，右边hypertension短语是疾病，它们符合语义网络语义限定。故而，可以得知该具体问题源的语义关系为治疗关系。将这些医学概念用它们在统一医学语言系统中所属的类型代替，得到这些医学具体问题源的抽象表示，即问题源表达式：

<Medicine>treat<Disease>

接下来，结合具体问题源，用具体问题源的问题源表达式匹配模板库中的问题源。

模板库中的问题源为人工建立，具体建立过程例如为：收集如下关于药品治疗的句子，然后利用MMTx来识别出句子中的医学概念。利用MetaMap将任意的文字映射到UMLS的索引词典中，结果如下：

As an added benefit，<Substance>ACE inhibitors</Substance>mayreduce an<Finding>enlarged heart</Finding>(left ventricularhypertrophy)in patients with<Disease>hypertension</Disease>.

<Medicine>Acetaminophen</Medicine>is used for the relief of<Disease>fever</Disease>as well as aches and<Symptom>pains<Symptom>associated with many conditions.

In patients who have<Disease>hypertension</Disease>in additionto certain second diseases，a combination of an<Medicine>ACEinhibitor</Medicine>and an<Medicine>ARB</Medicine>drug may beeffective in controlling the hypertension and also benefiting thesecond disease.

通过对医学领域文章的分析，得到与治疗关系相关的概念类型有药品、症状、疾病，其中症状是辅助概念类型，在问题源中不列出这一元素。分析每个句子的语法结构，利用如上所述的依存关系分析工具，分析各个句子的语法关系，根据如上所述的流程去除非主干部分，得到句子主干，即具体问题源，同时，利用如上所述的方法，将具体问题源中的语义概念映射到对应的语义辞典，得到其语义标签，获得具体问题源的抽象表示，即问题源表达式。

在对大量句子的分析中，包括<Medicine>和<Disease>的问题源表达式同样可以包括reduce、treat、be effective in、be drugs of、be used for等动作词汇。

基于以上的分析，模板库中可包括如下药物治疗的问题源表达式：

<Medicine>[reduce，treat，be effective in，be drugs of，be usedfor]<Disease>

则对应该问题源表达式可对应设置如下问题：

问题1(动作词汇以treat为例)：[]treat<Disease>。

正确答案(问题目标)：<Medicine>。

问题2(动作词汇以treat为例)：<Medicine>treat[]。

正确答案(问题目标)：<Disease>。

在用具体问题源的问题源表达式匹配模板库中的问题源表达式的步骤中，包括：判断动词词汇是否一致；

具体问题源的句子中所包含的语义概念的概念类型已经通过语义词典来识别出来，即已获得语义标签，判断它与模板库中的问题源表达式中包含的语义标签是否完全相同；

动词词汇与语义标签的限定关系，即语法结构是否相同。

如果匹配成功，根据匹配到模板库中的问题源对应的具体问题源中选取某个语义概念作为问题目标(同时也是正确答案)，即可得到与该问题目标对应的问题，具体问题源中的其他关联的语义概念出现在问题题干中。然后再从该领域语义词典中随机选取若干与该问题目标不同的概念，与该问题目标一起作为该问题的答案的选项，供用户选择。

例如，本申请中作为实施例的问题源表达式的动词为treat，即可与模板库中存在上述问题源表达式匹配成功。

故而，利用与该问题源表达式对应的具体问题源中的语义概念，即可生成如下问题：

问题1：[]treat hypertension.(或What can be used forhypertension？)

A.ARB drugs B.vitamin

C.surgeon D.medicine

答案：A。

问题2：ARB drugs treat[].(或What can ARB drugs be used for？)

A.vitamin B.hypertension

C.surgeon D.medicine

答案：B。

在本发明的一个实施例中，针对100篇关于头痛各个方面的医学文章，用23个模板进行测试。用户有6人，对医学知识和概念的了解水平都不尽相同。每个学习者做十余篇文章，籍此测试问题生成的准确度和帮助理解的作用。实验的结果如表1所示。

表1.实验结果：

文章	模板	问题精确度	准确率
文章	模板	问题精确度	准确率	100	23	88％	83％

从结果中可以发现，文章中大多数的问题都是准确的，并且可以正确的作答。医学知识比较匮乏的用户在学习过程中受益更多。

本发明的保护范围不限于上述说明，本领域的一般技术人员按本发明的构思，可以对其做出修改或变动，它们应属于本发明的构思范围内。

Claims

1、一种问题自动生成的方法，应用于服务器中，其特征在于，当所述服务器输出一页面时，对于所述页面中的文字内容进行分析，并自动生成与所述文字内容相关的问题，所述方法包括如下步骤：

2、如权利要求1所述的方法，其特征在于，所述步骤一中进一步包括：

根据所述领域概念的关联值获得所述文字所属的领域。

3、如权利要求1所述的方法，其特征在于，所述步骤二进一步包括：

4、如权利要求1所述的方法，其特征在于，所述模板库中包括：问题源表达式、与所述问题源表达式对应的问题、答案。

5、如权利要求3所述的方法，其特征在于，所述搜索与所述问题源表达式匹配的问题源表达式的步骤进一步包括：判断动词是否相同、语义标签是否相同和语法结构是否相同。

6、一种问题自动生成的系统，设置于服务器中，其特征在于，当所述服务器输出一页面时，所述系统用于对所述页面中的文字内容进行分析，并自动生成与所述文字内容相关的问题，所述系统包括：

7、如权利要求6所述的系统，其特征在于，所述领域概念识别模块中进一步包括一概念-领域索引表，其中包含有多个领域概念与其对应的领域之间的关联度值，所述领域概念识别模块根据所述领域概念在所述概念-领域索引表中检索对应的关联值，并根据所述领域概念的关联值获得所述文字所属的领域。

8、如权利要求6所述的系统，其特征在于，所述依存关系分析工具，用于分析句子的语法结构，对于符合名词短语+动词短语，名词短语+介词短语或者名词短语+连接词+名词短语形式的句子，形成所述具体问题源；

9、如权利要求6所述的系统，其特征在于，所述模板库中包括：问题源表达式、与所述问题源表达式对应的问题、答案。

10、如权利要求8所述的系统，其特征在于，所述模板匹配模块根据动词是否相同、语义标签是否相同和语法结构是否相同，判断是否搜索到与所述问题源表达式匹配的问题源表达式。