CN102136006A

CN102136006A - 基于人类概念学习的文本理解复杂度的度量方法

Info

Publication number: CN102136006A
Application number: CN2011100771477A
Authority: CN
Inventors: 张俊; 骆祥峰; 蔡传亮; 张顺香; 胡庆亮
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2011-03-30
Filing date: 2011-03-30
Publication date: 2011-07-27

Abstract

本发明涉及一种基于人类概念学习的文本理解复杂度的度量方法。它先保留文本中的名词和名词短语，作为文本的关键词集合，然后将出现次数多的关键词作为文本断言，再挖掘文本中的关联规则，最后根据人类概念学习过程计算文本理解的复杂度。本发明其本质为将文本的理解过程抽象为人类概念学习的过程，通过对概念中属性（关键词）以及属性间关系（关联规则）的算术运算来度量文本的理解复杂度。本发明从人类概念学习的角度出发，通过分析词以及词之间逻辑关系对文本的理解复杂度进行度量，从而为基于机器的文本理解提供技术支持。

Description

基于人类概念学习的文本理解复杂度的度量方法

技术领域

本发明涉及一种基于人类概念学习的文本理解复杂度的度量方法，更为具体的说，涉及一种依据人类概念学习的过程来计算文本中的词被人所理解的难易程度以及词之间逻辑关系被理解的难易程度，并以此来度量文本理解复杂度的方法。

背景技术

人类学习概念的过程与理解文本的过程非常相似，都离不开对词以及词和词之间逻辑关系的理解。传统的文本理解复杂度度量方法往往局限于对文本进行简单的语法分析和语义分析，而没有从机器理解的角度对文本进行分析，或者仅仅对文本中的句子进行简单的逻辑分析，而并未对文本中的词或者词之间的逻辑关系进行定量的分析。本发明从人类概念学习的角度出发，通过分析词以及词之间逻辑关系对文本的理解复杂度进行度量，从而为基于机器的文本理解提供技术支持。

发明内容

本发明的目的在于针对目前在机器理解文本过程中存在的不足，提供一种基于人类概念学习的文本理解复杂度的度量方法。其本质为将文本的理解过程抽象为人类概念学习的过程，通过对概念中属性（关键词）以及属性间关系（关联规则）的算术运算来度量文本的理解复杂度，从而为基于机器的文本理解提供技术支持。

为实现上述目的，本发明的构思是：首先提取文本中能够表达该篇文本的关键词（名词和名词短语），再根据每个关键词在文本中出现的频数确定文本断言，文本断言即文本中具有常识性知识的关键词；然后根据经典的关联规则挖掘方法提取文本中的关联规则；再依据人类概念代数复杂度的计算方法，计算该文本的理解复杂度。

根据上述的发明构思，本发明采用下述技术方案：

(1) 利用词性标注工具，对文本中的词进行词性标注，提取关键词，即保留文本中的名词和名词短语；

(2) 计算文本中关键词出现的频数，按照频数从大到小排序，将排名靠前的关键词作为文本断言；

(3) 用Apriori关联规则挖掘算法提取文本中的关联规则；

(4) 根据上述步骤得到的文本断言和关联规则，依照人类概念代数复杂度的计算方法，计算文本的理解复杂度。

上述步骤(4)中所述的人类概念代数复杂度（记作

Figure 2011100771477100002DEST_PATH_IMAGE001

，表示文本T的人类概念代数复杂度）的计算方法如下：

上述计算方法中的K表示文本T中关联规则的阶数，亦即关联规则的前键中关键词词的数量，且K为0时表示文本断言；D-1表示在文本T中关联规则的最大阶数；

Figure 2011100771477100002DEST_PATH_IMAGE003

表示阶数为K的关联规则中前键与后键中关键词的个数之和；

表示在关键词集合X（通过步骤(1)获得）上，阶数为K的关联规则个数。

本发明与现有的文本理解复杂度度量方法相比，具有如下的优点：本发明先将文本表示为由文本断言与关联规则组成的形式，再依据人类概念代数复杂度计算方法计算文本理解的复杂度，其本质为将文本的理解过程抽象为人类概念学习的过程，通过对概念中属性（关键词）以及属性间关系（关联规则）的算术运算来度量文本的理解复杂度，本方法计算文本中关键词和关联规则来计算文本理解复杂度，不但符合人类概念学习的过程，而其便于计算进行处理。

具体实施方式

本发明的一个优选实例详述如下：本基于人类概念学习的文本理解复杂度的度量方法的具体实施操作步骤如下：

1. 利用词性标注工具，对文本中的词进行词性标注，提取关键词，即保留文本中的名词和名词短语，得到该文本的关键词集合X={keyword₁, keyword₂,…, keyword_n}；

2. 计算文本中关键词出现的频数，按照频数从大到小排序。关键词出现的频数越高，说明该关键词越容易让人理解，可以将其理解为一种常识性知识。因此，按照频数排序得到的关键词排名，将排名靠前的关键词作为该文本的文本断言。并且，根据人类学习的特点，文本断言的个数不超过九个。通过本步骤可得到形如{keyword₁, keyword₂,…, keyword_m}（m<n）的文本断言集合；

3. 用Apriori关联规则挖掘算法提取文本中的关联规则，关联规则是形如X→Y的蕴含式，其中X和Y具有较高的共现度。选取合适的支持度（关键词共同出现的频率）和置信度（关键词出现的条件概率）阈值。在本发明中，根据人类概念学习的过程，发现置信度高于0.5的关联规则能较好的表示文本内容，故而在此基础上，挖掘基于关键词集合X上的文本关联规则，得到形如{keyword_i→keyword_j, keyword_s→keyword_k,…, keyword_s, keyword_n, keyword_f→keyword_m}的关联规则集合；

4. 根据上述步骤得到的文本断言和关联规则，基于人类概念学习的过程，计算人类概念代数复杂度

，作为文本理解的复杂度。其中，K表示文本T中关联规则的阶数，当 K为0时表示文本断言；D-1表示在文本T中关联规则的最大阶数；

表示阶数为K的关联规则中前键与后键中关键词的个数之和；

表示在关键词集合X上，阶数为K的关联规则个数。

一个基于人类概念学习的文本理解复杂度的度量方法实例如下：

1. 假设一篇文本中有这样两个句子：

S1：That boy stands on the left, whose t-shirt is red.

S2: Two girls stand on the right, whose skirts are also red.

从该文本中提取关键词集合X={boy, left, t-shirt, red, girls, red, skirts}。

2. 计算关键词在文本中出现的频数，可得文本断言集合{red}。

3. 挖掘文本中的关联规则，可得到关联规则集合{boy→left，t-shirt→red，girls→right，skirts→red }。

4. 基于人类概念学习的过程，计算人类概念代数复杂度，可得由这2个句子组成的文本的理解复杂度为1*1+2*4=10。