CN102054006B

CN102054006B - 一种从海量数据中提取有效信息的方法及装置

Info

Publication number: CN102054006B
Application number: CN200910237185.7A
Authority: CN
Inventors: 刘怀军; 姜中博; 方高林
Original assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2009-11-10
Filing date: 2009-11-10
Publication date: 2015-01-14
Anticipated expiration: 2029-11-10
Also published as: CN102054006A; WO2011057497A1; RU2012123216A; US8645418B2; RU2517368C2; BR112012011091B1; BR112012011091A2; US20120221602A1

Abstract

本发明公开了一种从海量数据中提取有效信息的方法及装置。本发明方案中，对海量的分类数据进行词汇的DF分布统计；根据词汇的DF分布统计对词汇进行多个单一角度度量；根据词汇的各单一角度度量进行词汇的多角度度量，得到词汇的重要度权重。本发明方案中利用概率统计和信息熵技术，提出一种词汇质量多角度评价的改进方案，输入的是海量的分类数据，输出的是高质量的词汇。根据本发明提供的方案，能够从海量的分类数据中，深入挖掘和评价词汇的重要性，综合各种评价获取高质量的词汇。

Description

一种从海量数据中提取有效信息的方法及装置

技术领域

本发明涉及互联网信息处理技术，特别是指一种从海量数据中提取有效信息的方法及装置。

背景技术

随着互联网(Internet)的迅猛发展，“信息过载”的问题日益突出。人们在享受互联网带来的方便快捷的同时，也被其包含的海量信息所淹没。如何能够更有效、更准确地从互联网的海量数据中提取有效信息，成为基于互联网的网络信息查询的当务之急。

目前涌现了各种各样的互联网平台，向用户不断地提供着海量的信息。常见的互联网平台如搜索引擎，例如Google、百度、搜搜等；又如互动问答平台，例如知道、问问，知识堂等；再如广为流行的博客平台，例如Qzone、新浪博客。

这些互联网平台均需要通过自然语言处理技术，从海量数据中抽取有效的核心信息来进行处理。自然语言处理，就是要对一篇文章的语义进行挖掘，如文本的分类、聚类，摘要提取，相关性计算，等等。由于文章都是由词汇构成的，这样，自然语言处理中的每一项具体技术都离不开最底层的词汇理解。因此，准确挖掘和评价句子中每个词汇的重要度，便成为一个重要的研究问题。

例如，对于句子“中国有着悠久的历史，长城、兵马俑都是中国的骄傲。”，其中的词汇“中国”、“长城”、“兵马俑”、“历史”，显然相对于其他词汇重要。

词汇质量挖掘评价，就是要对一批候选词划分一个合理的质量等级。例如，划分重要、普通、常用词三个等级，然后将重要的词挑选出来，并将普通的词和常用词挑选出来；这样，在对文章进行语义分析时，就可以优先考察重要的词，然后把普通词作为补充，而常用词则完全可以过滤。

目前基于海量数据的词汇质量评价方法，一般是通过统计词汇的文档频率(DF，Document Frequency)、计算逆文档频率(IDF，Inverse DocumentFrequency)来衡量，即默认为不经常出现的词、即低频词都是不重要的词。但是，基于海量数据计算的DF或IDF，很难准确区分词汇的重要性。例如，基于一批语料的结算结果为：词汇“点亮”的IDF是2.89，而词汇“哈哈”的IDF是4.76。另外，对于非规范化数据，如问答平台、博客的数据，低频词可能是错误的词。例如，基于同样的语料，用户输入的错误英文串“asfsdfsfda”、“高启也”(由例句“高启也曾对新王朝抱有期待”分词得到)这样分词错误的词汇。

另外，在文本分类中，通常通过信息增益(IG，Information Gain)、卡方χ²等特征值方法来度量词汇对类别的贡献度。但只是通过选择特征值排序在前的n个词作为有效特征，n为整数，可以根据词汇质量挖掘评价的需要进行选择，然后通过TF-IDF来计算分类权重，其中TF(Term Frequency)为词汇频率。基于IG、卡方选择特征词的方法，只是用来选择特征词汇，在规范化较强、规模不是很大的数据上可以取得较好的效果；在海量的口语化数据上，单一的度量则无法整体反映词汇的重要程度，不能用来有效地计算词汇的重要度。例如，基于相同的语料，词汇“的”的卡方是96292.63382，而词汇“荆州”的卡方却只有4445.62836，但是显然是卡方较低的“荆州”一词比较重要。

发明内容

有鉴于此，本发明的主要目的在于提供一种从海量数据中提取有效信息的方法及装置，准确确定词汇的重要度，从而从海量数据中准确地提取有效信息。

为达到上述目的，本发明的技术方案是这样实现的：

一种从海量数据中提取有效信息的方法，该方法包括：对海量的分类数据进行词汇的文档频率(DF)分布统计；根据词汇的DF分布统计对词汇进行多个单一角度度量；根据词汇的各单一角度度量进行词汇的多角度度量，得到词汇的重要度权重；根据词汇的重要度权重从海量数据中提取有效信息；

其中，所述单一角度度量包括：逆文档频率(IDF)、平均逆文档频率(AVAIDF)、卡方、信息增益(IG)、互信息(MI)、期望交叉熵(ECE)、信息熵(ENT)和选择倾向性。

较佳地，所述对海量的分类数据进行词汇的DF分布统计，包括：统计词汇在各个类别的分类数据中的DF分量；将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。

较佳地，进行所述IG度量时，具体包括：将所有候选词汇基于DF进行区间划分；基于划分得到的各个区间对应的分类数据计算词汇的IG。

较佳地，所述根据词汇的各单一角度度量进行词汇的多角度度量得到词汇的重要度权重，包括：按照词汇的DF对各个候选词汇进行级别划分；根据词汇所在级别区间确定词汇的多角度度量，得到词汇在对应级别区间的重要度权重。

所述按照词汇的DF对各个候选词汇进行级别划分，包括：根据各词汇在所有分类数据中的DF划分级别区间；根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。

较佳地，所述对海量的分类数据进行词汇的DF分布统计之前进一步，包括：对海量的分类数据中的词汇进行预处理；和/或，

所述得到词汇的重要度权重之后，进一步包括：根据词汇的重要度权重对词汇进行质量分级。

所述根据词汇的重要度权重对词汇进行质量分级，包括：

针对各个级别区间分别设置重要阈值和常用阈值，所述级别区间是根据各词汇在所有分类数据中的DF划分得到的；在各个级别区间内依据设置的所述两个阈值与词汇在对应级别区间的重要度权重之间的关系对词汇进行质量分级；对各个级别区间对应的词汇的重要度权重进行归一处理，得到词汇的综合重要度权重；基于词汇的所述综合重要度权重，针对不同级别区间的所有同一质量等级的词汇进行相应质量等级的综合质量分级；

或者，

对各个级别区间对应的词汇的重要度权重进行归一处理，得到词汇的综合重要度权重，所述级别区间是根据各词汇在所有分类数据中的DF划分得到的；针对归一处理后的区间设置重要阈值和常用阈值；依据设置的所述两个阈值与词汇的综合重要度权重之间的关系对所有词汇进行综合质量分级。

一种从海量数据中提取有效信息的装置，该装置包括：

DF分布统计单元，用于对海量的分类数据进行词汇的DF分布统计；

单角度度量单元，用于基于词汇的DF分布统计对词汇进行多个单一角度度量；

多角度度量单元，用于根据词汇的各单一角度度量进行词汇的多角度度量，得到词汇的重要度权重，根据词汇的重要度权重从海量数据中提取有效信息；

其中，所述单角度度量单元包括：IDF模块、AVAIDF模块、卡方模块、IG模块、MI模块、ECE模块、ENT模块和选择倾向性模块。

较佳地，所述DF分布统计单元包括：

DF分量统计模块，用于统计词汇在各个类别的分类数据中的DF分量；

DF计算模块，用于将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。

所述IG模块包括：

区间划分模块，用于将所有候选词汇基于DF进行区间划分；

IG计算模块，用于基于划分得到的各个区间对应的分类数据计算词汇的IG。

较佳地，所述多角度度量单元包括：

级别划分模块，用于按照词汇的DF对各个候选词汇进行级别划分；

多角度度量确定模块，用于根据词汇所在级别区间确定词汇的多角度度量，得到词汇在对应级别区间的重要度权重。

所述级别划分模块包括：

级别区间划分模块，用于根据各词汇在所有分类数据中的DF划分级别区间；

词汇划分模块，用于根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。

较佳地，所述装置进一步包括：

预处理单元，用于对海量的分类数据中的词汇进行预处理；和/或，

质量分级单元，用于根据词汇的重要度权重对词汇进行质量分级。

所述质量分级单元包括：

阈值设置模块，用于针对各个级别区间分别设置重要阈值和常用阈值，所述级别区间是根据各词汇在所有分类数据中的DF划分得到的；

区间分级模块，用于在各个级别区间内依据设置的所述两个阈值与词汇在对应级别区间的重要度权重之间的关系对词汇进行质量分级；

归一处理模块，用于对各个级别区间对应的重要度权重进行归一处理，得到词汇的综合重要度权重；

综合分级模块，用于基于词汇的所述综合重要度权重，针对不同级别区间的所有同一质量等级的词汇进行相应质量等级的综合质量分级；

或者，所述质量分级单元包括：

归一处理模块，用于对各个级别区间对应的词汇的重要度权重进行归一处理，得到词汇的综合重要度权重，所述级别区间是根据各词汇在所有分类数据中的DF划分得到的；

阈值设置模块，用于针对归一处理后的区间设置重要阈值和常用阈值；

综合分级模块，用于依据设置的所述两个阈值与词汇的综合重要度权重之间的关系对所有词汇进行综合质量分级。

本发明方案中利用概率统计和信息熵技术，提出一种词汇质量多角度评价的改进方案，输入的是海量的分类数据，输出的是高质量的词汇。根据本发明提供的方案，能够从海量的分类数据中，深入挖掘和评价词汇的重要性，综合各种评价获取高质量的词汇。

本发明方案能够很多有关词汇质量挖掘评价的环境，例如，应用在搜索引擎数据中，能够准确挖掘出高质量的词汇，提取更为准确的高质量的关键词，用于搜索相关性排序，以及用户查询串的分析；又如，应用在问答互动平台、博客平台、新闻中，能够准确提取文本中的标签词，得到比较精准的高质量的标签词，用来分析用户行为，方便用户个性化定制和推荐；再如，应用在文本分类、聚类、摘要中，能够实现特征词的准确提取，进行文本语义信息挖掘；还能够在垃圾过滤、广告分类中，准确而有效地提取与类别相关的关键词。

附图说明

图1为本发明中实现词汇质量挖掘评价的流程示意图；

图2为线性归一与对数归一的对比曲线示意图；

图3为本发明中实现词汇质量挖掘评价的装置结构示意图；

图4A为本发明中质量分级单元的结构示意图一；

图4B为本发明中质量分级单元的结构示意图二。

具体实施方式

本发明中，对海量的分类数据进行词汇的DF分布统计；根据词汇的DF分布统计对词汇进行多个单一角度度量；根据词汇的各单一角度度量进行词汇的多角度度量，得到词汇的重要度权重。

图1为本发明中实现词汇质量挖掘评价的流程示意图，如图1所示，实现词汇质量挖掘评价的具体处理过程包括：

步骤101：对海量的分类数据进行词汇的DF分布统计。

本发明方案中输入的是海量的分类数据。海量的分类数据是指已经分类的海量文本数据，例如，海量的分类数据可以是按科技、体育、娱乐等类别分类的新闻数据；又如，海量的分类数据可以是按电脑数码、科学教育、游戏等类别分类的来自互动问答平台的分类数据。

进行词汇的DF分布统计，是词汇质量挖掘评价的第一个阶段，目的是得到后续计算所需要的统计量。对海量的分类数据进行词汇的DF分布统计主要包括统计各个词汇在各个类别的分类数据中的DF分量和在所有分类数据中的DF。

进行词汇的DF分布统计之前，首先对海量的分类数据进行分词得到词汇，并可以对得到的词汇进一步进行一些预处理，例如，繁体字、简体字的统一，大小写的统一，全角、半角的统一等，以使进行词汇质量挖掘评价的词汇规范化，具有统一的形式。

统计词汇w在各个类别的分类数据中的DF分量，得到分布向量FW＝{df₁，df₂，...，df_n}，其中，df_i即为词汇w在类别i的分类数据中的DF分量，i＝1，2，...，n，n为类别的数量。例如，以电脑数码和科学教育这两类为例，词汇“电脑”在这两类数据中的DF分量分别是1191437和48281，那么DF分布向量则表示为{1191437，48281}。

计算词汇w在所有分类数据中的DF，具体为词汇w的各个DF分量的总和，即i＝1，2，...，n，n为类别的数量。

步骤102：基于词汇的DF分布统计对词汇进行多个单一角度度量。

完成词汇的DF分布统计后，利用概率论和信息熵理论，进行多个单一角度的度量，具体可以从以下几个特征选择的角度来考虑。

①IDF

IDF是在所有分类数据中基于DF的大小对词汇的质量进行度量，具体表示为其中，DF是词汇w在所有分类数据中的DF。

②平均逆文档频率(AVAIDF，Average Inverse Document Frequency)

AVAIDF是在各个类别的分类数据中计算词汇的IDF，并且对所有词汇的IDF取平均，具体表示为其中，i＝1，2，...，n，n为类别的数量。

IDF和AVAIDF这两种度量方式存在的问题是：对于高频词，度量值、即IDF(w)和AVAIDF(w)都较低；而对于低频词，度量值却都较高。因此，如果只基于IDF和AVAIDF进行词汇质量挖掘评价，则会使所得结果的准确度较低。

③卡方χ²

卡方χ²用来度量词汇与类别的相关程度，表示为

χ^{2} (w) = \{\begin{matrix} Σ \frac{{(A - T)}^{2}}{T}, T &GreaterEqual; θ \\ Σ \frac{{(| A - T | - λ)}^{2}}{T}, 1 \leq T < θ, 0 < λ < 1 \end{matrix},

其中，A为词汇w在某一类别的分类数据中的实际分布值；T为词汇w在相应类别的分类数据中的理论分布值；θ为理论分布值的阈值；λ为校正因子。

结合步骤101，df_i即为A，因此，卡方χ²的公式具体表示为

χ^{2} (w) = \{\begin{matrix} \underset{i}{Σ} \frac{{({df}_{i} - T)}^{2}}{T}, T &GreaterEqual; θ \\ \underset{i}{Σ} \frac{{(| {df}_{i} - T | - λ)}^{2}}{T}, 1 \leq T < θ, 0 < λ < 1 \end{matrix},

其中，i＝1，2，...n，n为类别的数量。

卡方这种度量方式存在的问题是：高频词与低频词的卡方不具有较强的可比性，这主要是因为卡方公式的每一项即中分子与分母的量级不同，这样会使高频词的卡方基本偏高，而低频词的卡方基本偏低，因此，无法通过卡方的比较确定词汇的重要度。另外，对于出现频率非常低的词汇，采用卡方进行度量的结果准确度较低。

④IG

IG用来度量词汇对类别提供的信息量大小。

IG的通用表达形式由两部分组成：整个类别的熵，以及特征F的各个属性在类间分布熵的期望值，表示为对词汇的重要度进行度量时，特征F的属性一般被划分为{在类别中出现，不在类别中出现}，这样，IG体现的就是整个分类提供的信息熵与考虑相应词汇后整个类别的信息熵之间的差值。

采用IG进行度量时的具体表示为

(w) = - \underset{i}{Σ} (c_{i}) \log P (c_{i}) + P (w) \underset{i}{Σ} (c_{i} | w) \log \frac{P (c_{i} | w)}{P (c_{i})} (\overset{&OverBar;}{w}) \underset{i}{Σ} \log \frac{P (c_{i} | \overset{&OverBar;}{w})}{P (c_{i})},

其中，c_i用来表示类别，i＝1，2，...n，n为类别的数量。

该公式分为三部分：第一部分是整个类别的信息熵的负值，对应Entropy(C)；第二部分是包含词汇w的信息熵与词汇w出现的概率的乘积；第三部分是不包含词汇w的信息熵与词汇w不出现的概率的乘积，第二部分和第三部分共同构成

IG这种度量方式存在的问题是：对于出现频率很高的超高频词和出现频率很低的超低频词，{在类别中出现，不在类别中出现}这两种特征的属性分布严重失衡，IG的度量值都基本接近于0，单纯从得到的IG是无法有效区分的。因此，本发明针对IG存在的问题，基于属性分布均衡、并且能够合理反映词汇)重要度的原则，提出一种改进方案。

首先将所有候选词汇基于DF进行区间划分，基于DF对词汇进行区间划分时可以采用对数梯度、或线性梯度、或指数梯度、或对数结合线性梯度、或指数结合线性梯度等方式。

下面以基于DF采用对数梯度对词汇进行区间划分为例，对具体实现给出详细描述。

词汇w_j在类别c_i的分类数据中的DF分量为df_i，计算，得到区间，将词汇w_j映射至对应区间，即其中，step为梯度，一般为整数，可以根据IG的计算精度要求进行设置；表示对x向下取整，即不大于x的最大的整数。这)样，每个区间内均为DF分量在一定范围的词汇。

基于DF对词汇进行区间划分后，基于各个区间计算词汇的IG(w)，即计算IG(w)时，不再是基于所有分类数据进行计算，而只是基于相应区间对应的分类数据进行计算。

最后，按所划分的区间、以及得到的映射至各个区间的相应词汇的IG便能够初步确定各个词汇的重要度，可以按词汇的重要度将各个词汇的IG归一到一个统一的区间、如[low，up]区间，这样，由IG在区间中的位置便能够获知词汇的重要度。

通过以上描述可见，通过将词汇基于DF进行区间划分，能够使词汇的{在类别中出现，不在类别中出现}这两种特征的属性分布比较均衡，从而较为准确地确定词汇的重要度。

⑤互信息(MI，Mutual Information)

MI也是用来度量词汇与类别的相关程度的，表示为其中，A为词汇w在某一类别的分类数据中的实际分布值，即df_i；T为词汇w在相应类别的分类数据中的理论分布值。

⑥期望交叉熵(ECE，Expected Cross Entropy)

ECE用来反映类别分布和出现词汇w后类别分布概率之间的距离，表示为

ECE (w) = \underset{i}{Σ} P (c_{i} / w) \log \frac{P (c_{i} / w)}{P (c_{i})},

其中，

P (c_{i}) = \frac{{df}_{i}}{DF},

c_i用来表示类别，i＝1，2，...，n，n为类别的数量。

⑦信息熵(ENT，Entropy)

ENT用来反映词汇w在各个类别的分布均匀性，ENT越小，越说明词汇w在各个类别之间分布不均匀，这样的词汇，其领域性就越强，重要度也就越大。ENT具体表示为

ENT (w) = - \underset{i}{Σ} P (c_{i} / w) \log P (c_{i} / w),

其中，

P (c_{i}) = \frac{{df}_{i}}{DF},

i＝1，2，...，n，n为类别的数量。

MI、ECE、ENT这三种度量方式存在的问题是：均只考虑了词汇在类别之间分布的差异性，没有综合考虑词汇本身出现的概率。但是实际上，如果词汇的DF低，则相应词汇出现的概率就小，其在各个类别的分布的可信度就会相应较低。

⑧选择倾向性(SELPRE)

选择倾向性用来度量词汇语义的集中程度，即一个词汇与其他词汇搭配能力的强弱。

通常，语义集中、重要的词汇只能搭配一些特殊的词汇，而泛化的词汇则可以与很多词汇搭配。因此，首先统计一个两种词性之间词搭配的分布。本发明方案中，可以设定名词的搭配词汇为动词和形容词，形容词的搭配词汇为名词，动词的搭配词汇也是名词。词汇的选择倾向性表示为其中，P(m/w)表示词汇w与词汇m搭配的条件概率，P(m)表示词汇w搭配词汇m出现的概率。

选择倾向性度量方式存在的问题是：未考虑词汇在类别之间的差异性，因此，根据选择倾向性不能确定词汇是否为与类别密切相关的领域词。

以上各种度量方式中，除ENT外，其余都是度量值越大，表明词汇的重要度越高。通过以上描述可见，无论采用哪种单独的度量方式进行词汇质量挖掘评价，都无法得到准确的结果，因此，必须对各个角度的度量值进行有效的优化组合，通过综合度量得到能够准确度量词汇质量的重要度权重。

步骤103：根据词汇的各单一角度度量进行词汇的多角度度量，得到词汇的重要度权重。

具体包括：按照词汇的DF对各个候选词汇进行级别划分，并根据词汇所在级别区间确定词汇的多角度度量。

首先，根据各词汇在所有分类数据中的DF划分四个级别区间，这四个级别区间分别为超高频词、中高频词、中低频词和超低频词。其中，超高频词是指DF很高的词汇，相应词汇出现在大部分文档中；超低频词是指DF很低的词汇，只出现在极少数文档中；中高频词是指DF介于超高频词和超低频词的DF之间、虽然DF低于超高频词的DF但仍然较高的词汇，相应词汇出现在很多文档中；中低频词是指DF介于超高频词和超低频词的DF之间、虽然DF高于超低频词的DF但仍然较低的词汇，相应词汇出现在较少部分的文档中。将这四个级别区间分别标记可以为：SuperHigh、MidHigh、MidLow、SuperLow，本发明方案的实现中并不限于以上标记方式。根据DF划分四个级别区间时，可以采用对数梯度、或线性梯度、或指数梯度、或对数结合线性梯度、或指数结合线性梯度等方式。不同级别区间的长度可以不同。

其次，根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。

接下来，根据步骤102中得到的各单一角度度量的特点，进行度量的有效组合，得到组合度量。

IDF和AVAIDF都是基于DF的，这样，在同一个根据DF划分的级别区间上，各自对于词汇重要度的区分所产生的作用不大，但是二者差值的绝对值、即|IDF(w)-AVAIDF(w)|却能够度量相应词汇在各个类别的分布差异，从而反映相应词汇是否为高质量的词汇。因此，得到公式Diff(w)＝|AVAIDF(w)-IDF(w)|，该组合度量方式有效克服了单一度量方式在超高频词和超低频词两个级别区间内，对词汇质量区分不准确的缺点。例如，对于词汇“点亮”，Diff(点亮)＝|5.54-2.89|＝2.65，而对于词汇“哈哈”，Diff(哈哈)＝|5.16-4.76|＝0.4；这主要是由于“点亮”一词在某一类别中大量出现，在其他类别中却出现较少，而“哈哈”则在各个类别中均会大量出现，通过Diff(w)便能够比较准确地确定出重要的词汇，Diff(w)越大说明词汇相对越重要。

由于MI、ECE和ENT都是基于词汇在各个类别的分布概率的，可以基于这三种度量方式同时验证一个词汇的重要度。因此，对MI(w)、ECE(w)和ENT(w)进行线性归一，并且由于ENT与词汇重要度的关系相反，需要递减归一，得到LineNorm₁(MI(w))、LineNorm₂(ECE(w))和LineNormDesc(ENT(w))，将这三个度量的线性组合作为一个度量，具体表示为

ProbBased (w) = \frac{LineNor m_{1} (MI (w)) + LineNor m_{2} (ECE (w)) + LineNormDesc (ENT (w))}{3} .

IG和卡方除了与词汇在各个类别的分布概率相关外，还与DF有关，可以基于这两种度量方式同时验证一个词汇的重要度。因此，对χ²(w)和IG(w)进行对数归一，得到LogNorm(χ²(w))和LogNorm(IG(w))，将这两个度量组合在一起进行度量，具体表示为

ProbDFRel (w) = \frac{LogNor m_{1} (χ^{2} (w)) + LogNor m_{2} (IG (w))}{2} .

选择倾向性是基于词汇的搭配关系的，作为一个独立的度量，进行线性归一后表示为Sel Pre(w)＝LineNorm₃(SELPRE(w))。

由于以上所述的各个度量有的是基于DF的度量，有的是基于词汇的分布概率的度量，度量值的区间均不相同，因此，需要将各个度量都归一到一个统一的区间上，本发明方案中采用线性归一和对数归一两种方法。两种归一的对比曲线如图2所示，通过图2可以看出，在原区间的范围内，两种归一方式的变化趋势各不相同。如果变量x是概率或DF的对数的函数，则一般采用线性归一方式，否则则采用对数归一方式。另外，也可以根据对数据分析的经验来选择归一方式。

线性归一是通过线性方法，将一个区间映射到另一个区间，采用的公式为LineNorm(x)＝kx+b，其中，k＞0，x即为MI(w)、ECE(w)和SELPRE(w)。对数归一是通过对数方法，将一个区间映射到另一个区间，采用的公式为LogNorm(x)＝log(kx+b)，其中，k＞0，x即为χ²(w)和IG(w)。以上所述都是递增性归一，即k＞0；如果k＜0，则为递减性归一，采用的公式应为LineNormDesc(x)＝kx+b或LogNormDesc(x)＝log(kx+b)，其中的x可以为ENT(w)。其中的k和b可以通过映射后的区间端点计算得到。

得到组合度量后，便可以根据词汇所在级别区间确定词汇的多角度度量，这里，分别为四个级别区间制定相应的多角度度量方式。

由于对于超高频(SuperHigh)区间和中高频(MidHigh)区间内的词汇，上述几种组合度量的可信度都比较高，因此可以采用链式方式进行多角度度量，SuperHigh区间和MidHigh区间内的词汇的多角度度量具体表示为SuperHigh(w)＝MidHigh(w)＝Diff(w)*Pr obBased(w)*Pr obDF Rel(w)*Sel Prc(w)。

对于中低频(MidLow)区间内的词汇，DF不是很高，搭配的词汇也比较少，组合度量Sel Pr e(w)的可信度便有所降低，因此，MidLow区间内的词汇的多角度度量具体表示为MidLow(w)＝Diff(w)*Pr obBased(w)*Pr obDF Rel(w)+Sel Pr e(w)。

对于超低频(SuperLow)区间内的词汇，IG和卡方的可信度均降低，并且搭配的词汇很少，因此不再考虑选择倾向性。这样，SuperLow区间内的词汇的多角度度量具体表示为SuperLow(w)＝Diff(w)*(ProbBased(w)+ProbDFRel(w))。

采用上述根据词汇所在级别区间确定词汇的多角度度量后，步骤102中提到的各单一角度度量所存在的问题便能够迎刃而解。下面通过示例来看一下区分难度最大的高频区间(包括SuperHigh区间和MidHigh区间)和SuperLow区间。

高频区间内，分析两个词汇“点亮”和“哈哈”。虽然二者的IDF接近，但是“点亮”更多分布在“QQ游戏”类，而“哈哈”在各个类别中的分布都比较接近，这样通过Diff(w)便能够进行区分。另外，“点亮”的卡方是1201744，“哈哈”卡方是3412，在对χ²(w)进行归一后，二者的区分度更大，IG也基本如此，这样通过ProbDF Rel(w)也能够明显区分这两个词质量。同时，ProbBased(w)主要是度量词汇在各类别的分布均匀性的，因此也能够明显区分这两个词。对于Sel Prc(w)，“哈哈”是很泛化的词，可以与很多词汇搭配，而“点亮”通常只能应用在图标和QQ产品相关的上下文中。这样，得到“点亮”的多角度度量是9.65，而“哈哈”的多角度度量是1.27，可以准确确定“点亮”是高质量词汇，而“哈哈”是低质量词汇。

SuperLow区间内，分析“楚江镇”(湖南省一个镇名)和随意输入的“fdgfdg”。虽然DF都非常低，IDF均在14左右；但是“楚江镇”更多分布在“地区”类，而“fdgfdg”在各个类别中都会出现。这样，Diff(楚江镇)＝2.12，Diff(fdgfdg)＝1.05。虽然“楚江镇”和“fdgfdg”的卡方都比较小，但结合Diff(w)，二者的区分度就会比较明显。同时，“楚江镇”的ProbBased(w)也明显比“fdgfdg”的ProbBased(w)大。最后得到的多角度度量是“楚江镇”为9.71，而“fdgfdg”为1.13，可以准确确定“楚江镇”是高质量词汇，而“fdgfdg”是低质量词汇。

综上所述，这种将多角度度量与按DF划分级别区间相结合的方案，使得各个组合度量在相应级别区间内都能够区分词汇质量，以上在各级别区间中得到的SuperHigh(w)、MidHigh(w)、MidLow(w)或SuperLow(w)即为词汇在相应级别区间内的重要度权重，可以统一表示为WgtPart(w)。

步骤104：根据词汇的重要度权重对词汇进行质量分级。

得到词汇的重要度权重后，可以进一步地根据词汇的重要度权重对词汇进行质量分级，由此得到的高质量的词，就可以应用在文本处理的各个领域。

一种处理方式是：

首先，针对各个级别区间分别设置重要阈值α和常用阈值β，这两个阈值可以根据词汇质量挖掘评价的需求进行设置，如果需要的重要词汇多一些，则可以将α设置得低一些，如果需要的重要词汇较少，则可以将α设置得高一些，如果需要将大量词汇划分至常用词，则可以将β设置得高一些，如果只需要将少量词汇划分至常用词，则可以将β设置得低一些。如果步骤103中划分了四个级别区间，则应该针对每个级别区间设置一对α和β，这样，一共需要设置四对α和β。

然后，在各个级别区间内依据设置的所述两个阈值与词汇在对应级别区间的重要度权重之间的关系对词汇进行质量分级，各个级别区间的词汇质量等级

针对各级别区间对词汇进行质量分级后，只是得到了词汇在相应级别区间内的质量等级，但是，在一篇文章中选择重要的词汇和普通的词汇进行分析时，往往需要一个统一可比的度量标准来进一步区分不同词汇的作用及差异。上述通过按照词汇的DF对各个候选词汇进行级别划分后，虽然每个级别区间内的词汇都根据重要度进行了有效区分，但是由于各个级别区间中WgtPart(w)的极值都不同，使得不同级别区间内的词汇的WgtPart(w)不具有可比性，因此，还需要再进行一次归一处理，即对各个级别区间对应的WgtPart(w)进行归一处理，得到词汇的综合重要度权重Wgt(w)，例如，通过线性归一得到词汇的综合重要度权重Wgt(w)＝LineNorm(WgtPart(w))。另外，也可以通过对数归一得到词汇的综合重要度权重。

最后，基于归一处理后得到的Wgt(w)，针对不同级别区间的所有同一质量等级的词汇进行相应质量等级的综合质量分级。例如，步骤103中划分了四个级别区间，则针对四个级别区间内的所有质量等级为重要的词汇进行综合质量分级，针对归一处理后的区间设置非常重要阈值ε₁和一般重要阈值ε₂，对所有词汇进行质量分级，具体表示为依此类推，

另一种处理方式是：

由于各个级别区间中WgtPart(w)的极值都不同，使得不同级别区间内的词汇的WgtPart(w)不具有可比性，因此，还需要再进行一次归一处理，即对各个级别区间对应的WgtPart(w)进行归一处理，得到词汇的综合重要度权重，例如，通过线性归一得到词汇的综合重要度权重Wgt(w)＝LineNorm(WgtPart(w))。另外，也可以通过对数归一得到词汇的综合重要度权重。

然后，针对归一处理后的区间设置重要阈值α′和常用阈值β′，依据设置的所述两个阈值与词汇的综合重要度权重之间的关系对所有词汇进行质量分级，

以上各个步骤可以在任意需要实现词汇质量挖掘评价的设备上执行，如计算机、某网站的服务器，本发明方案的实现中对此不做限制。

图3为本发明中实现词汇质量挖掘评价的装置结构示意图，如图3所示，该装置包括：DF分布统计单元、单角度度量单元和多角度度量单元，其中，DF分布统计单元用于对海量的分类数据进行词汇的DF分布统计；单角度度量单元用于基于词汇的DF分布统计对词汇进行多个单一角度度量；多角度度量单元用于根据词汇的各单一角度度量进行词汇的多角度度量，得到词汇的重要度权重。

该装置可以进一步包括：预处理单元，用于对海量的分类数据中的词汇进行预处理，例如，繁体字、简体字的统一，大小写的统一，全角、半角的统一等，以使进行词汇质量挖掘评价的词汇规范化，具有统一的形式。

该装置也可以进一步包括：质量分级单元，用于根据词汇的重要度权重对词汇进行质量分级。

所述DF分布统计单元包括：DF分量统计模块和DF计算模块，其中，DF分量统计模块用于统计词汇在各个类别的分类数据中的DF分量；DF计算模块用于将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF。

所述单角度度量单元中包括多个实现单一角度度量的模块，所述单角度度量单元可以包括：IDF模块、AVAIDF模块、卡方模块、IG模块、MI模块、ECE模块、ENT模块和选择倾向性模块。其中，IG模块具体包括：区间划分模块和IG计算模块，其中，区间划分模块用于将所有候选词汇基于DF进行区间划分；IG计算模块用于基于划分得到的各个区间对应的分类数据计算词汇的IG。区间划分模块基于DF进行区间划分时，可以采用对数梯度、或线性梯度、或指数梯度、或对数结合线性梯度、或指数结合线性梯度等方式。

所述多角度度量单元包括：级别划分模块和多角度度量确定模块，其中，级别划分模块用于按照词汇的DF对各个候选词汇进行级别划分；多角度度量确定模块用于根据词汇所在级别区间确定词汇的多角度度量，得到词汇在对应级别区间的重要度权重。其中，所述级别划分模块包括：级别区间划分模块和词汇划分模块，其中，级别区间划分模块用于根据各词汇在所有分类数据中的DF划分级别区间；词汇划分模块用于根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。

所述质量分级单元可以包括：阈值设置模块、区间分级模块、归一处理模块和综合分级模块，如图4A所示，其中，阈值设置模块用于针对各个级别区间分别设置重要阈值和常用阈值，所述级别区间是根据各词汇在所有分类数据中的DF划分得到的；区间分级模块用于在各个级别区间内依据设置的所述两个阈值与词汇在对应级别区间的重要度权重之间的关系对词汇进行质量分级；归一处理模块用于对各个级别区间对应的重要度权重进行归一处理，得到词汇的综合重要度权重；综合分级模块用于基于词汇的所述综合重要度权重，针对不同级别区间的所有同一质量等级的词汇进行相应质量等级的综合质量分级。

所述质量分级单元也可以包括：归一处理模块、阈值设置模块和综合分级模块，如图4B所示，其中，归一处理模块用于对各个级别区间对应的词汇的重要度权重进行归一处理，得到词汇的综合重要度权重，所述级别区间是根据各词汇在所有分类数据中的DF划分得到的；阈值设置模块用于针对归一处理后的区间设置重要阈值和常用阈值；综合分级模块用于依据设置的所述两个阈值与词汇的综合重要度权重之间的关系对所有词汇进行综合质量分级。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种从海量数据中提取有效信息的方法，其特征在于，该方法包括：

对海量的分类数据进行词汇的文档频率DF分布统计；

根据词汇的DF分布统计对词汇进行多个单一角度度量；

根据词汇的各单一角度度量进行词汇的多角度度量，得到词汇的重要度权重；

根据词汇的重要度权重从海量数据中提取有效信息；

其中，所述单一角度度量包括：逆文档频率IDF、平均逆文档频率AVAIDF、卡方、信息增益IG、互信息MI、期望交叉熵ECE、信息熵ENT和选择倾向性；

所述对海量的分类数据进行词汇的DF分布统计，包括：统计词汇在各个类别的分类数据中的DF分量；将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF；

进行所述IG度量时，具体包括：将所有候选词汇基于DF进行区间划分；基于划分得到的各个区间对应的分类数据计算词汇的IG；

所述根据词汇的各单一角度度量进行词汇的多角度度量得到词汇的重要度权重，包括：按照词汇的DF对各个候选词汇进行级别划分；根据词汇所在级别区间确定词汇的多角度度量，得到词汇在对应级别区间的重要度权重。

2.根据权利要求1所述的方法，其特征在于，所述按照词汇的DF对各个候选词汇进行级别划分，包括：根据各词汇在所有分类数据中的DF划分级别区间；根据词汇在所有分类数据中的DF将相应词汇划分至对应级别区间。

3.根据权利要求1或2所述的方法，其特征在于，

所述对海量的分类数据进行词汇的DF分布统计之前进一步，包括：对海量的分类数据中的词汇进行预处理；和/或，

4.根据权利要求3所述的方法，其特征在于，所述根据词汇的重要度权重对词汇进行质量分级，包括：

或者，

5.一种从海量数据中提取有效信息的装置，其特征在于，该装置包括：

文档频率DF分布统计单元，用于对海量的分类数据进行词汇的DF分布统计；

其中，所述单角度度量单元包括：逆文档频率IDF模块、平均逆文档频率AVAIDF模块、卡方模块、信息增益IG模块、互信息MI模块、期望交叉熵ECE模块、信息熵ENT模块和选择倾向性模块；

所述DF分布统计单元包括：

DF计算模块，用于将词汇的各个DF分量的总和作为词汇在所有分类数据中的DF；

所述IG模块包括：

区间划分模块，用于将所有候选词汇基于DF进行区间划分；

IG计算模块，用于基于划分得到的各个区间对应的分类数据计算词汇的IG；

所述多角度度量单元包括：

6.根据权利要求5所述的装置，其特征在于，所述级别划分模块包括：

7.根据权利要求5或6所述的装置，其特征在于，所述装置进一步包括：

8.根据权利要求7所述的装置，其特征在于，

所述质量分级单元包括：

或者，所述质量分级单元包括：