CN105975475A

CN105975475A - 基于中文短语串的细粒度主题信息抽取方法

Info

Publication number: CN105975475A
Application number: CN201610207374.XA
Authority: CN
Inventors: 黄翰; 丁东辉; 林伟佳; 郝志峰; 杨晓伟
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-09-28

Abstract

本发明提出了一种基于中文短语串的细粒度主题信息抽取方法，首先对输入的原始文本集进行预处理，主要分为中文分词、停用词处理和词性标注。在进行预处理的同时，进行扩展词汇输入，从而提高中文分词的准确度。预处理阶段完成后，得到处理后的结构化文本集合。然后进行基于词性的正则表达式匹配，得到一个初步的短语筛选结果。然后统计每个词语的串频信息，选取种子词，对短语进行扩展，最终得到短语抽取结果。通过实验证明，该文本抽取方法能够有效且精炼地抽取文本短语，具有一定的可靠性和应用性。

Description

基于中文短语串的细粒度主题信息抽取方法

技术领域

本发明一般涉及文本挖掘领域，具体涉及基于中文短语串的细粒度主题信息抽取方法。

背景技术

随着互联网时代的不断发展，信息呈现爆炸式的增长。近几年，“大数据”和云计算技术一直被炒得很热，也在一些领域中得到了不同的应用。本方法是基于中文短语串的主题信息抽取，属于文本挖掘技术。在信息爆炸的时代，人们被动地接受大量的无效信息，如电子邮件、广告以及互联网上的虚假消息等，浪费了人们大量的时间和精力。虽然搜索引擎在一定程度上能够帮助人们获取到特定的信息，但还是不能更深入地挖掘出背后隐藏的有用信息。故人们迫切地需要在网络中搜索到精确的信息，提供更全面的网络话题挖掘服务。从而人们在知道网络所覆盖主题的一般性描述的同时，也能够学习其他人的评价和讨论话题的具体细节。

由于中文文字的复杂性和缺乏对中文文本挖掘技术的研究，导致国内的文本挖掘技术发展比较晚。主要分为两类：一是基于词语规则的方法基于词语规则方法本质是总结并分析不同词语之间相互关系来进行规则归纳，并对待处理文本执行后续工作；二是基于文本语义的规则方法，基于语义方法本质是搜索通用知识库来进行文本语义信息的抽取。

发明内容

本发明以文本短语为基本语义信息单位，针对中文短语抽取进行研究。本发明提供了基于中文短语串的细粒度主题信息抽取方法。本发明的目的在于通过提供的文本集合，能够有效地挖掘和提炼出里面潜在的信息，从而提供决策支持。

本发明的目的通过如下技术方案实现。

一种基于中文短语串的细粒度主题信息抽取方法，其包括以下步骤：

(a)对原始文本进行常规的文本分析的预处理步骤，包括中文分词、停用词处理和词性标注；

(b)针对语料中存在的大量专有名词引入另外的扩展词库来进行处理，从而得到结构化的文本集合；

(c)利用步骤(a,b)中得到的结构化文本集合，进行基于词性长度的正则表达式匹配，以7个词语作为短语长度的上限；

(d)利用步骤(c)过滤得到的短语抽取的中间结果，进行词语串频信息统计，包括前缀短语串频集合和后缀短语串频集合的信息统计；

(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析；

基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。

进一步地，在文本预处理阶段，对原始文本进行处理的步骤主要是中文分词、停用词处理和词性标注。由于中文的词与词之间不像英文那样有固定的间隔符，所以对原始文本第一步操作是中文分词和停用词处理，本文使用的是基于词库的分词算法，正向最大匹配、逆向匹配和逐词遍历匹配法。在进行预处理的同时，由于大量专有名词主体的存在，本文引入额外的扩展词库，为了提高中文分词的准确度和精密度，扩展词库需要不断地更新维护。之后进行词性标注，主要分为四种词性，名词n、动词v、形容词adj和副词adv。

进一步地，通过对搜狗语料库的新闻文章进行调查，主要的中文短语含词的数目在4个和5个，90％以上的中文短语含词数目不超过7个，故本方法的上限为7个词。对其中的语料短语进行结构上的分析，短语的词性包括4种词性:名词n，动词v，形容词adj和副词adv。参考目前中文语法范畴，主要分为以下四种类型的短语：

(1)并列短语：n+n/v+v/adj+adj/adv+adv

(2)偏正短语：adj+n/adv+adj/adv+v

(3)动宾短语：v+n/v+v/v+adj

(4)主谓结构：n+v/n+adj

正则表达式(Regular Expressions)的本质核心是通过语法格式匹配字符，现在已经是公认的ISO标准，且被广泛地应用到各种信息技术领域。许多计算机应用平台和脚本语言现在都已经支持正则表达式。根据中文短语7个词最长匹配原则，下面将列举按照词性有效长度的词性短语组成的正则表达式：

a.1种词性有效长度的短语

(1)n+

b.2个词性有效长度的短语

(1)n+adv*v+

(2)v+adv*v+

(3)n+adv*adj+

(4)v+adj*n+

(5)adj+n+

c.3个词性有效长度的短语

(1)n+adv*v+adj*n+

(2)n+adv*v+adv*adj+

(3)adj+n+adv*v+

(4)adj+n+adv*adj+

(5)adv+adj+n+

(6)adv+v+adv*v+

(7)adv+v+adj*n+

d.4个词性有效长度的短语

(1)n+adv*v+adv*adj+

(2)adj+n+adv*v+adj*n+

(3)adj+n+adv*v+adv*adj+

(4)adv+adj+n+adv*adj+

(5)adv+adj+n+adv*v+

e.5个词性有效长度的词语

(1)adv+adj+n+adv*v+adv*adj+

(2)adv+adj+n+adv*v+adj*n+

以上基本包含了7个词语长度以下5个词性有效长度以下的短语结构的组成方式。

进一步地，步骤(d)中，词语串频信息包括前缀词语串频集合和后缀词语串频集合。前缀词语串频集合是指候选种子词的前缀词语所组成的集合，包括前缀词语的词语内容以及出现频次。同理后缀词语串频集合是指候选种子词的后缀词语所组成的集合，也包括后缀词语的词语内容以及出现频次。本方法用数学集合进行表示，对于某一种子词t，前缀词语串频集合pre_s(prefix‐set)定义如下：

pre_s_t＝{(ew₁,ef₁),(ew₂,ef₂),...,(ew_n,ef_n)}

其中(ew_i,ef_i)表示第i个前缀词ew_i和第i个前缀词ew_i出现的频次ef_i。类似地后缀词语串频集合post‐set(postfix‐set)定义如下：

post_s_t＝{(ow₁,of₁),(ow₂,of₂),…(ow_n,of_n)}

其中(ow_j,of_j)表示第j个前缀词ow_j和第j个前缀词ow_j出现的频次of_j。

对于种子词，最频繁前缀词是前缀词语集合中频次最高的前缀词max_ew_t，而最频繁后缀词是后缀词语集合中频次最高的后缀词max_ow_t。其定义分别如下，k、l分别表示频数最大的前缀词和后缀词的下标：

\max_{ew}_{t} = {{ew}_{k} | {ef}_{k} = \underset{1 \leq i \leq n}{m a x} ({ef}_{i})}

\max_{ow}_{t} = {{ow}_{l} | {of}_{l} = \underset{1 \leq j \leq n}{m a x} ({of}_{i})}

前缀词最高频比max_p_freq_t是最频繁前缀词的频次比上所有前缀词频次求和。

\max_e_{freq}_{t} = \frac{\max_{ew}_{t}}{\underset{1 \leq i \leq n}{Σ} ({ef}_{i})}

后缀词最高频比max_s_freq_t是最频繁后缀词的频次比上所有后缀词频次求和。

\max_o_{freq}_{t} = \frac{\max_{ow}_{t}}{\underset{1 \leq j \leq n}{Σ} ({of}_{j})}

进一步地，步骤(e)中，前缀词语串频集合pre_s和后缀词语串频集合pos_s代表了种子词在上下文中出现的信息。pre_s和post_s的集合越大，表示该种子词与其他词语进行组合的概率越大，从而进行对词语的扩展。通过对文档分析，pre_s和post_s中每个前缀词语和后缀词语相对应的频次ef和of大小决定了对应的前缀词语或后缀词语能否会成为种子词的扩展。通过定义一个阈值(threshold)f_trh与ef和of进行比较，当ef和of的值大于等于阈值f_trh，则判断前缀或后缀词语符合短语扩展的条件从而能够进行短语扩展。假设b_i,t为布尔变量表示某个前缀或后缀词语能否作为种子词t的扩展词来来进行短语扩展，那么定义

b_{i, t} = \{\begin{matrix} 1, e f_{i} &GreaterEqual; f_{t r h} \\ 0, {ef}_{i} < f_{t r h} \end{matrix}

b_{j, t} = \{\begin{matrix} 1, o j_{i} &GreaterEqual; f_{t r h} \\ 0, {of}_{j} < f_{t r h} \end{matrix}

进一步地，步骤(f)中，基于对种子词的分析，可以得出pre_s和post_set的集合越大越容易成为种子词。但是单纯计算pre_s和post_s的集合元素的个数进行求和是有所欠缺的。在选择候选种子词上，仿照笛卡尔乘积的思想，对pre_s和post_s集合中元素的个数分别加上1，再计算乘积作为判断依据，用seed_value来表示：

seed_value_t＝(|pre_s_i|+1)·(|post_s_i|+1)

之所以对两个乘数加上1，主要是考虑到避免某些词语的pre_s或者post_s元素个数为0从而导致其的值为0，然而实际上该词语在进行选取候选种子词时依然有其自身贡献度。

假设seed_word是用于扩展所选择的候选种子词，{t₁,t₂,…t_n}是短语中的词语集合，k为最大种子词的下标，m为最大种子词的下标，那么

s e e d_w o r d = {t_{m} | s e e d_{value}_{k} = \underset{1 \leq i \leq n}{m a x} {s e e d_{value}_{i}}}

在选取候选种子词后，进行前缀短语扩展和后缀短语扩展。在扩展的过程中，终止短语扩展的条件是，达到短语扩展终止条件或者当找不到新的前缀词或者后缀词作为新的种子词。

与现有技术相比，本发明具有如下优点和技术效果：

本发明考虑使用的是较低层次的短语作为语义单元。中文短语串相对于句子而言也有类似的语法结构(主谓结构、动宾结构等等)，为了满足最基本的语义要求。中文的句子短语串相对来说处于低层次的词汇水平，并且在词汇短语之间能够搭配表达的信息远远多出纯粹词汇之间拼凑出的信息。目前在表示文本特征的步骤中，词汇仅仅只是以一个标签的属性值的形式存在，词汇本身并没有为特征表示提供更多的语义信息。本方法不需要对语料样本进行词性语义模型的建立和知识库输入，通用性相对更强，具有比较好的短语抽取效果。

附图说明

图1为基于种子词“股市”的前缀词语串频集合和后缀词语串频集合示意图。

具体实施方式

以下结合实施例对本发明的实施方式作进一步说明，但本发明的实施不限于此。

下面是针对中国经济在网络上进行搜索，摘录了一些句子文本集合进行举例说明，进行接下来步骤的实施。

(1)全球经济贸易增长乏力，原因是2008年以来的国际经济危机还没有完全退出，它的影响还在。

(2)因全随着中国经济总量成为世界第二，很多大国对中国有了一些防范心理，周边国家也对中国有些芥蒂。

(3)中国进入中等收入阶段，贫富差距仍然比较大，社会矛盾一部分在加剧，老百姓对权利的诉求在增加。

(4)资源越来越短缺，环境污染的压力仍然很大。大气、水、土壤，这些污染的增量控制可以有所成效，但是已经污染了的存量部分的解决还需要时间。

(5)作为世界第二大经济体，中国经济走势受到大家关注，中国经济的一举一动与世界经济的关联度可谓与日俱增。

(6)目前资本市场的改革和发展还不能完全适应国民经济健康稳定发展的需要，也不能完全支持国家经济金融安全的需要。随着全面深化改革的持续推进，资本市场的深改也将提速，以实现与经济“新常态”相匹配。

(7)目前我国经济发展处于工业化中后期，虽然近年来消费在经济增加值中所占比重越来越大，但是以制造业为核心的实体经济仍然是我国经济的主体。

(8)在“十三五”规划期间，稳健增长的中国经济将为亚太经济带来新的活力。

(9)只有通过股市融资，才能“提高直接融资比重，降低杠杆率”，也才能有效化解过剩产能，让那些有创新活力的企业，主要通过股权融资做优、做强、做大。股市，特别是加快股票融资，肩负着经济转型产业升级的重任。

(10)中国经济增长需要进一步推进改革，更多取决于结构改革。

第一步，进行文本预处理，中文分词、停用词处理和词性标注，得到一个结构化的文本集合。

第二步，进行基于词性的正则表达式的匹配，主要有以下4中词性(名词n，动词v，形容词adj，和副词adv)的正则表达式匹配，最高词长度为7。

短语抽取结果有：“全球经济贸易增长乏力”、“国际经济危机”、“中国经济总量”、“中国经济走势”、“世界第二大经济体”、“适应国民经济健康稳定发展的需要”、“稳健增长的中国经济”、“经济转型产业升级的重任”、“国家经济金融安全”、“消费在经济增加值中所占比重越来越大”、“世界经济的关联度可谓与日俱增”等。

第三步，对上述文本集合进行词语串频信息统计。按公式计算出的候选种子词“股市”的词语串频信息如下：

前缀词语串频集合pre_s：{(中国，5)，(国际，2)，(全球，1)，(世界，1)，(实体，1)}

最频繁前缀词语max_ew_t：中国

前缀词最高频比max_e_freq：

后缀词语串频集合post_s：{(增长，3)，(发展，2)，(稳定，2)，(危机，1)，(转型，1)，(升级，1)}

最频繁后缀词语max_ow：增长

后缀词最高频比max_s_freq：

基于种子词“经济”的前缀词语串频集合和后缀词语串频集合见说明书附图1所示。

第四步，对词语串频信息参数进行分析。

定义一个阈值f_trh来与ef和of进行对比，当ef和of的值大于等于阈值f_trh，则判断前缀词语或者后缀词语满足短语扩展条件从而进行短语扩展。根据f_trh的公式计算，当f_trh＝2时，那么“经济”作为其种子词将会在文本中扩展为“中国经济”和“世界经济”，“经济增长”，“经济发展”，“经济稳定”，“中国经济发展”和“世界经济发展”。

从实例中可以看到，通过本方法抽取出的中文短语串较好地表达了这些文档的文本特征，也直观的反映了文本的语义信息，有助于对中文自然语言的处理提供指导性的意见。

Claims

1.一种基于中文短语串的细粒度主题信息抽取方法，其特征在于，包括以下步骤：

(c)利用步骤(a),(b)中得到的结构化文本集合，进行基于词性长度的正则表达式匹配，以7个词语作为短语长度的上限；

(e)基于步骤(d)统计得到的信息进行词语串频信息参数分析；

(f)基于步骤(e)进行候选种子词选取与短语扩展向前进行短语扩展和向后进行短语扩展。

2.根据权利要求1所述基于中文短语串的细粒度主题信息抽取方法，其特征在于：步骤(c)中分析结构化文本集合其中的语料短语的结构，主要是4种词性的词语:动词v，名词n，形容词adj和副词adv；参考目前中文语法范畴，主要分为以下四种类型的短语：

(1)并列短语：n+n/v+v/adj+adj/adv+adv

(2)偏正短语：adj+n/adv+adj/adv+v

(3)动宾短语：v+n/v+v/v+adj

(4)主谓结构：n+v/n+adj；

基于中文短语以7个字为上限的长度，对词性长度进行统计，主要分为：

a.1种词性有效长度的短语

(1)n+

b.2个词性有效长度的短语

(1)n+adv*v+

(2)v+adv*v+

(3)n+adv*adj+

(4)v+adj*n+

(5)adj+n+

c.3个词性有效长度的短语

(1)n+adv*v+adj*n+

(2)n+adv*v+adv*adj+

(3)adj+n+adv*v+

(4)adj+n+adv*adj+

(5)adv+adj+n+

(6)adv+v+adv*v+

(7)adv+v+adj*n+

d.4个词性有效长度的短语

(1)n+adv*v+adv*adj+

(2)adj+n+adv*v+adj*n+

(3)adj+n+adv*v+adv*adj+

(4)adv+adj+n+adv*adj+

(5)adv+adj+n+adv*v+

e.5个词性有效长度的词语

(1)adv+adj+n+adv*v+adv*adj+

(2)adv+adj+n+adv*v+adj*n+。

3.根据权利要求1所述基于中文短语串的细粒度主题信息抽取方法，其特征在于：步骤(d)中，前缀词语串频和后缀词语串频集合指的是候选种子词的前缀词语、后缀短语所组成的集合，包含了词语的出现频次和内容；对于某一种子词t，用数学集合进行表示，前缀词语串频集合缩写pre_s_t定义如下：

pre_s_t＝{(ew₁,ef₁),(ew₂,ef₂),...,(ew_n,ef_n)}

其中(ew_i,ef_i)是第i个前缀词ew_i，ef_i是前缀词ew_i出现的频次，n表示前缀词总的个数；同理，后缀词语串频集合(postfix‐set)定义如下：

post_s_t＝{(ow₁,of₁),(ow₂,of₂),...,(ow_n,of_n)}

其中(ew_j,ef_j)是第j个后缀词，of_j是第j个后缀词ow_j出现的频次；对于种子词t，最频繁前缀词是前缀词语集合中频次最高的前缀词max_ew_t，而最频繁后缀词是后缀词语集合中频次最高的后缀词max_ow_t；其定义分别如下，k、l分别表示频数最大的前缀词和后缀词的下标：

前缀词最高频次比max_e_freq_t是最频繁前缀词的频次比上所有前缀词频次的和；后缀词最高频次比max_o_freq_t是最频繁后缀词的频次比上所有后缀词频次的和，

4.根据权利要求1所述基于中文短语串的细粒度主题信息抽取方法，其特征在于：步骤(e)中，前缀词语串频集合pre_s和后缀词语串频集合pos_s代表了种子词在上下文中出现的信息；pre_s和post_s的集合越大，表示该种子词与其他词语进行组合的概率越大，从而进行对词语的扩展；通过对文档分析，pre_s和post_s中每个前缀词语和后缀词语相对应的频次ef和of大小决定了对应的前缀词语或后缀词语能否会成为种子词的扩展；通过定义一个阈值f_trh与ef和of进行比较，当ef和of的值大于等于阈值f_trh，则判断前缀或后缀词语符合短语扩展的条件从而能够进行短语扩展；假设b_i,t为布尔变量表示某个前缀或后缀词语能否作为种子词t的扩展词来来进行短语扩展，那么定义

。

5.根据权利要求4所述基于中文短语串的细粒度主题信息抽取方法，其特征在于：基于对种子词的分析，可以得出pre_s和post_set的集合越大越容易成为种子词；但是单纯计算pre_s和post_s的集合元素的个数进行求和是有所欠缺的；在选择候选种子词上，仿照笛卡尔乘积的思想，对pre_s和post_s集合中元素的个数分别加上1，再计算乘积作为判断依据，用seed_value来表示：

seed_value_t＝(|pre_s_i|+1)·(|post_s_i|+1)

假设seed_word是用于扩展所选择的候选种子词，{t₁,t₂,…t_n}是短语中的词语集合，m为最大种子词的下标，那么