CN105760474A

CN105760474A - 一种基于位置信息的文档集的特征词提取方法及系统

Info

Publication number: CN105760474A
Application number: CN201610084750.0A
Authority: CN
Inventors: 吴成龙; 王巍
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2016-02-14
Filing date: 2016-02-14
Publication date: 2016-07-13
Anticipated expiration: 2036-02-14
Also published as: CN105760474B

Abstract

本发明公开了一种基于位置信息的文档集的特征词提取方法及系统，其对文档集进行空间向量模型处理；获取每个特征词在每篇文档集中的文档位置信息，并根据所述文档位置信息计算所述文档位置信息权重；根据所述文档位置信息权重采用加权词频计算特征词在文档集的TF?IDF权重，并对所述TF?IDF权重进行排序获取文档集特征词。本方法在TF?IDF权重加入文档集位置信息权重，提高了文档集特征词提取的精准度，提高文档集自动化分类的准确度，降低人力纠正成本。

Description

一种基于位置信息的文档集的特征词提取方法及系统

技术领域

本发明涉及文档集特征词提取技术领域，特别涉及一种基于位置信息的文档集的特征词提取方法及系统。

背景技术

信息时代每天信息不断增长，文档集的特征词选取就是从原始高维的特征词中选取具有代表意义的部分特征词，然后利用选取的特征词用以后续的文档集处理，以提高分类效率和解决分类器在高维情形下表现不稳定的缺点。

常用的特征词选取方法主要有，TF-IDF，信息增益，卡方检验，互信息等，其中IF-IDF方法形式简洁、结构简单，并且准确率较高。然而传统的TF-IDF方法主要以下不足：1)、没有充分考虑到文档段落在文档中的位置权重信息；2)、没有充分考虑特征词在段落内的位置权重信息。从而存在文档集的特征词提取精度不高，需要人工纠正的问题。

因而现有技术还有待改进和提高。

发明内容

本发明要解决的技术问题在于，针对现有技术的不足，提供一种基于位置信息的文档集的特征词提取方法及系统，其解决现有TF-IDF 特征词提取方法存在文档集的特征词提取精度不高，需要人工纠正的问题。

为了解决上述技术问题，本发明所采用的技术方案如下：

一种基于位置信息的文档集的特征词提取方法，其包括：

S1、对文档集进行空间向量模型处理；

S2、获取每个特征词在每篇文档集中的文档位置信息，并根据所述文档位置信息计算所述文档置信息权重；

S3、根据所述文档集位置信息权重采用加权词频计算特征词在文档集的TF-IDF权重，并对所述TF-IDF权重进行排序获取文档集的特征词。

所述基于位置信息的文档集的特征词提取方法，其中，所述步骤S1之后还包括：

S0、对文档集进行停词、去停词处理，获取特征词候选文档集。

所述基于位置信息的文档集的特征词提取方法，其中，所述文档位置信息为：

所述特征词所处段落位于所属文档的段落位置信息和所述特征词位于所属段落的特征词位置信息。

所述基于位置信息的文档集的特征词提取方法，其中，所述步骤S2具体包括：

S21、获取所述空间向量模型中每个特征词所述段落位于所属文档的段落位置信息及所述特征词位于所属段落的特征词位置信息；

S22、将所述文档划分为若干部分，计算所述段落位置信息对于每一部分的权重，并将每一部分的权重求和得到段落位置信息权重；

S23、将所述段落划分为若干部分，计算所述特征词位置信息对于每一部分的权重，并将每一部分的权重求和得到特征词位置信息权重。

所述基于位置信息的文档集的特征词提取方法，其中，所述段落位置信息权重的计算公式如下：

W_{段落-文档}＝α₁I(k＜＝ceil(K*p₁))+...+α_aI(ceil(K*p_a-1)＜k＜＝ceil(K*p_a))

其中，t表示特征词；K表示文档段落总数，按段落顺序将段落标记为1，2，...k，...K；I(·)为示性函数；ceil(x)表示取整函数；α₁，...，α_a表示权重系数且为正整数，p₁，...，p_a表示权重分位数且为常数，a表示将文档划分部分数，按划分部分的顺序记为1，...，a。

所述基于位置信息的文档集的特征词提取方法，其中，所述特征词位置信息权重的计算公式如下：

W_{特征词→段落}＝β₁I(J_kt＜＝ceil(J_k*q₁))+...+β_bI(ceil(J_k*q_b-1)＜J_kt＜＝ceil(J_k*q_b))

其中，t表示特征词；K表示文档集段落总数，按段落顺序将段落标记为1，2，...k，...K；J_k表示k段落包含的词语数量，按词语顺序给予编号1，...，J_k；J_kt记特征词出现的段落编号；I(·)为示性函数，ceil(x)表示取整函数；β₁，...，β_b为权重系数且为正整数，q₁，...，q_b表示权重分位数且为常数；b表示将段落拆分部分数，按划分部分的顺序记为1，...，b。

所述基于位置信息的文档集的特征词提取方法，其中，所述步骤S3具体包括：

S31、根据所述段落位置信息权重和特征词位置信息权重采用加权计算所述特征词的词频，并计算所述特征词的逆向文档集频率；

S32、根据所述词频及逆向文档集频率计算所述特征词的TF-IDF权重；

S33、将所述特征词的TF-IDF权重按照从大到小的顺序进行排序，并提取特征词。

所述基于位置信息的文档集的特征词提取方法，其中，所述特征词加权频率为计算公式为：

其中，n_t表示特征词t在文档中出现的频次。

一种基于位置信息的文档集特的征词提取系统，其包括：

处理模块，用于对文档集进行空间向量模型处理；

获取模块，用于获取每个特征词在每个文档集中的文档位置信息，并根据所述文档位置信息计算所述文档位置信息权重；

提取模块，用于根据所述文档位置信息权重采用加权词频计算特征词在文档的TF-IDF权重，并对所述TF-IDF权重进行排序获取文档集的特征词。

所述基于位置信息的文档集的特征词提取系统，其还包括：

预处理模块，用于预先对文档集进行停词、去停词处理，获取特征词候选文档集。

有益效果：与现有技术相比，本发明所提供基于位置信息的文档集的特征词提取方法及系统，其对文档集进行空间向量模型处理；获取每个特征词在每篇文档集中的文档位置信息，并根据所述文档位置信息计算所述文档位置信息权重；根据所述文档置信息权重采用加权词频计算特征词在文档集的TF-IDF权重，并对所述TF-IDF权重进行排序获取文档集的特征词。本方法在TF-IDF权重加入文档集位置信息权重，提高了文档集的特征词提取的精准度，提供文档集自动化分类的准确度，降低人力纠正成本。

附图说明

图1为本发明提供基于位置信息的文档集的特征词提取方法的流程图。

图2为本发明提供基于位置信息的文档集的特征词提取系统的结构原理图。

图3为本发明提供一种终端的原理示意图。

具体实施方式

本发明提供基于位置信息的文档集的特征词提取方法及系统，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

词频(term frequency，TF)指的是某一个给定的词语在该文件中出现的频率。

{tf}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k . j}}

逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目|D|除以包含该词语之文件的数目|{j:t_i∈d_j}|，再将得到的商取对数得到：

{idf}_{i} = l o g \frac{| D |}{| {j : t_{i} &Element; d_{j}} |}

TF-IDF权重为：

tf·idf_i,j＝tf_i,j×idf_i

下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

请参见图1，图1为本发明基于位置信息的文档集的特征词提取方法较佳实施例的流程图。所述方法包括：

S100、对文档集进行空间向量模型处理。

具体地，文档集可以多个文档构成的文档语料库，当然，此处的文档集可以包括诸如微博数据库、博客等各种媒介数据库或字典等信息或信息的集合。

进一步，对文档集进行空间向量模型处理是将文档集表示为向量空间模型VSM(Vector space model)。也就是把对文档集内容的处理简化为向量空间中的向量运算，并且以空间上的相似度表达语义的相似度。

例如，文档集{d1，d2，d3}的全部词为{w1，w2，...，wn}，于是此文档集可以表示为：

	w1	w2	...	wn
					d1	f11	f12	...	f1n
d2	f21	f22	...	f2n
					d3	F31	F32	...	F3n

其中，{fij}表示特征词wj在文档di中的权重。于是一篇文档便可以利用向量表示为：di＝(fi1，...，fin)，进而将文档集转换为一般向量空间的计算处理。当文档集中的特征词比较多时，也就是说n较大时，那么把文档表示为n维向量，一方面可能造成向量稀疏性，造成分类器的效果降低，另一方面造成分类的效率下降。从而可以在n个特征词中选择有代表性的m(m<n)个特征词，把文档表示为m维向量，从而构建3*m维向量空间，在3*m维向量空间中进行向量运算，以解决特征词高维稀疏性问题。

进一步，在将文档集进行空间向量模型处理之前，还可包括对待提取特征词文档集进行分词、去停词处理，获取特征词候选文档集。

具体地，对所述文档集集中的每个分句进行分词处理中，分词方法在此不作具体限定，其可以采用中科院ICTCLAS分词系统对文档集集中的每个分句进行分词处理，也可以采用其他诸如基于字符串匹配的分词方法、基于理解的分词方法等方法或对应的系统进行分词处理。例如，对文档集中的分句“马航失联”进行分词，得到“马/名词”、“航/名词”、“失/动词”、“联/动词”的四个词语。在本实施例中，对文档集中的每个分句进行分词处理后，得到大量词语，这些词语的集合即为分词结果表。

进一步，由于在文档集中会存在不具实际意义的词，例如，“的”，“其实”，“一下”等。那么为了节省存储空间和提高搜索效率，在对文档集提取特征词时可以采用去停词的方法先自动过滤掉某些字或词。在实际应用中，可以预先构建停词词典，根据所述停词词典对文档集进行去除停词处理，得到特征词候选文档集。

S200、获取每个特征词在每篇文档中的文档位置信息，并根据所述文档位置信息计算所述文档位置信息权重。

具体地，获取每个特征词在每篇文档中的文档位置信息指的是获取每一个特征词所处段落位于所属文档的段落位置信息和所述特征词位于所属段落的特征词位置信息。再计算段落位置信息的权重和特征词位置信息的权重，根据段落位置信息权重和特征词位置信息权重计算文档位置信息权重。

具体地，所述段落位置信息指的是所述特征词所处的段落在所属文档中的位置。也就是说，所述特征词所处的段落在所属文档中的标号，例如，所述段落为第一段，那么段落位置信息为1，所述段落为第三段，那么段落位置信息为3。所述特征词位置信息指的是所述特征词在其属于的段落中的位置。也就是说，所述特征词是所述段落中的第几个字，例如，所述特征词是段落中的第5个字，那么特征词位置信息为5，特征词是段落中的第20个字，那么特征词位置信息为20。

进一步，以计算特征词t为例，计算单个特征词t权重为例对段落位置信息计算段落位置信息权重和根据特征词t信息计算文档位置信息权重加以说明。

假设特征词t出现文档集d_i中，且文档集d_i包含K_i个段落，及并按段落顺序将段落标记为1，2，...，K_i，设特征词t出现的段落序号为k，且k段落包含的词语数量为J_ik，并将词语按顺序给予编号1，...，J_ik，记特征词t出现的段落编号为J_ikt。

首先将文档集段落分割成a部分，分割点为：

{ceil(K_i*p₁),...,ceil(K_i*p_a)}，且对应每个分割区间的权重系数分别为{α₁,...,α_a}＞0，其中，α₁，...，α_a可以取正整数。然后再将段落k分割为b部分，分割点为：{ceil(J_ik*q₁)),...,ceil(J_ik*q_b)}，且对应每个分割区间的权重分别为{β₁,...,β_b}＞0，其中，β₁，...，β_b可以取正整数。其中：0＜p₁＜...＜p_a＝1，0＜q₁＜...＜q_b＝1；ceil(x)表示取整函数，也就是去大于或等于x的最小整数。

那么段落k在全文的位置权重和特征词t在段落k内位置权重计算公式分别为：

W_{段落→文档}＝α₁I(k＜＝ceil(K_i*p₁))+...+α_aI(ceil(K_i*p_a-1)＜k＜＝ceil(K_i*p_a))

W_{特征词→段落}＝β₁I(J_ikt＜＝ceil(J_ik*q₁))+...+β_bI(ceil(J_ik*q_b-1)＜J_ikt＜＝ceil(J_ik*q_b))

其中，I(·)为示性函数。

S300、根据所述文档位置信息权重采用加权词频计算特征词t在文档集的TF-IDF权重，并对所述TF-IDF权重进行排序获取文档集的特征词t。

具体地，根据所述段落位置信息权重和特征词t段落位置信息权重采用加权词频计算文档集的TF-IDF权重，并对所述TF-IDF权重进行排序获取文档集的特征词t。首先，根据所述段落位置信息权重和特征词t位置信息权重采用加权频率，其计算公式为：

其中，n_t表示特征词t在文档中出现的频次。

计算所述特征词t的词频，并计算所述特征词t的逆向文档集频率；根据所述词频及逆向文档集频率计算所述特征词t的TF-IDF权重；最后将所述特征词t的TF-IDF权重按照从大到小的顺序进行排序，并提取特征词t。

为了进一步理解根据段落位置信息计算段落位置信息权重和根据特征词信息计算特征词位置信息权重的过程，给出一个具体例子加以说明。其中，文档为：

标题：家电：能效领跑者细则终落地利好节能零部件企业；

第一段：为15年内第三次推出节能政策，16年家电行业或加速走向节能化。....。

第二段：激励措施以荣誉鼓励为主，政策可持续性强。...。

第三段：节能型零部件供应商将直接受益，...促进节能产品占比提升，节能零部件企业将获得更高的市占率与利润率(节能零部件利润率一般高于普通零部件)...。

这里以计算特征词“节能”权重词频为例。所示文档共4段落，“节能”分别出现在第1，3段。那么段落位置信息的公式：

W_{段落→文档}(特征)＝α₁I(J_ikt＜＝ceil(K_i*p₁))+...+α_aI(ceil(K_i*p_a-1)＜J_ikt＜＝ceil(K_i*p_a)) (1)

计算段落位置信息权重。

文档共4段，Ki＝4；将文档划分为4部分，其分割点分位数为：p₁＝0.25，p₂＝0.5，p₃＝0.75，p₄＝1；那么分割点分别为：ceil(4*0.25)＝1，ceil(4*0.5)＝2，ceil(4*0.75)＝3，ceil(4*1)＝4，另权重系数α₁＝3，α₂＝1，α₃＝1，α₄＝2；那么于根据公式(1)得到第一段位置权重为W¹ _{段落→文档}＝3,第三段位置权重为W³ _{段落→文档}＝1。

下面计算特征词“节能”在第一段内特征词位置信息权重：第一段总的词频为106，“节能”出现在第一段6，15，65，101位置；

根据特征词位置信息公式:

W_{特征词→段落}＝β₁I(J_ikt＜＝ceil(J_ik*q₁))+...+β_bI(ceil(J_ik*q_b-1)＜J_ikt＜＝ceil(J_ik*q_b)) (2)

计算特征词位置信息权重。

首先将第一段划分为4部分，分割点分位数为q₁＝0.25，q₂＝0.5，q₃＝0.75，q₄＝1，那么分割点为ceil(106*0.25)＝27，ceil(106*0.5)＝53，ceil(106*0.75)＝80，ceil(106*1)＝106；取权重系数为β₁＝3，β₂＝1，β₃＝1，β₄＝2。

由于，6，15<＝27,对应系数β₁＝3；53<65<＝80,对应系数β₃＝1；80<101<＝106,对应系数β₄＝2；那么根据公式(2)得，“节能”在第一段的权重W_{特征词→段落}＝3+3+1+2＝9。“节能”出现在第三段1，11，16，29，70位置。同理采用同第一段的分割点位数和权重系统，根据公式(2)得，“节能”在第三段的权重W_{特征词→段落}＝3+3+3+1+1＝11。

设特征词t在文档出现的频率为n_i,j，于是根据位置信息的加权频率为：

可以特征词t在全文当的权重

下面给出一个采用本发明方法提取特征词与现有TF-IDF方法提取特征词例子。

从东方财富的财经资讯得到1112条新闻资讯，包括“电力行业”“保险”，...，“家电行业”等44个类别。

利用本发明的提取方法的特征词如表1。(每个类别提取前20个特征词)

表1利用本发明的提取方法提取的特征词

利用现有TF-IDF提取方法提取的关键特征词如表2。(每个类别提取前20个特征词)

表2利用现有TF-IDF提取方法提取的特征词

通过上面提取的特征词，进一步利用常用的SVM(支持向量机)分类器进行文本分类，所得结果如表3下：

正确率(P)＝正确分类的个数/分类得到总条数

召回率(R)＝正确分类的个数/样本中的总条数

F1＝2*P*R/(P+R)

表3根据表1和表2特征词采用SVM分类器进行文本分类结果

可以看出，加入位置信息的特征词提取算法，相比传统的TF-IDF方法更加有效。

本发明还提供了一种基于位置信息的文档集的特征词提取系统，其包括：

处理模块100，用于对文档集进行空间向量模型处理；

获取模块200，用于获取每个特征词在每个文档集中的文档位置信息，并根据所述文档位置信息计算所述文档位置信息权重；

提取模块300，用于根据所述文档位置信息权重采用加权词频计算特征词在文档集的TF-IDF权重，并对所述TF-IDF权重进行排序获取文档集特征词。

所述基于位置信息的文档集的特征词提取系统，其还包括：

预处理模块，用于预先构建停词词典，根据所述停词词典对待提取特征词文档集进行停词、去停词处理，获取特征词候选文档集

本领域的技术人员可以清楚地了解到上述实施例方法及系统可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台智能终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

因而，本发明还提供了一种终端，如图3所示，其包括：

处理器1000；

用于存储处理器可执行指令的存储器2000；

其中，所述处理器1000被配置为：

对文档集进行空间向量模型处理；

获取每个特征词在每个文档中的文档位置信息，并根据所述文档位置信息计算所述文档位置信息权重；

根据所述文档位置信息权重采用加权词频计算特征词在文档集的TF-IDF权重，并对所述TF-IDF权重进行排序获取文档集的特征词。

所述处理组件通常控制智能终端的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件可以包括一个或多个处理器来执行命令，以完成上述的方法的全部或部分步骤。此外，处理组件可以包括一个或多个模块，便于处理组件和其他组件之间的交互。例如，处理部件可以包括多媒体模块，以方便多媒体组件和处理组件之间的交互。

存储器被配置为存储各种类型的数据以支持在设备的操作。这些数据的示例包括用于在智能终端上操作的任何应用程序或方法的命令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述智能终端可以智能穿戴设备，例如，智能手表等。

在示例性实施例中，智能终端可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括命令的非临时性计算机可读存储介质，例如包括命令的存储器，上述命令可由智能终端的处理器执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的命令由智能终端的处理器执行时，使得智能终端能够执行上述基于位置信息的文档集的特征词提取方法，所述方法包括：

对文档集进行空间向量模型处理；

获取每个特征词在每篇文档中的文档位置信息，并根据所述文档位置信息计算所述文档位置信息权重；

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于位置信息的文档集的特征词提取方法，其特征在于，其包括：

A、对文档集进行空间向量模型处理；

B、获取每个特征词在每篇文档中的文档位置信息，并根据所述文档位置信息计算所述文档位置信息权重；

C、根据所述文档位置信息权重采用加权词频计算特征词在文档集的TF-IDF权重，并对所述TF-IDF权重进行排序获取文档集的特征词。

2.根据权利要求1所述基于位置信息的文档集的特征词提取方法，其特征在于，所述步骤A之后还包括：

A0、预先构建停词词典，根据所述停词词典对待提取特征词的文档集进行停词、去停词处理，获取特征词候选文档集。

3.根据权利要求1所述基于位置信息的文档集的特征词提取方法，其特征在于，所述文档位置信息为：

特征词所处段落位于所属文档的段落位置信息和特征词位于所属段落的特征词位置信息。

4.根据权利要求3所述基于位置信息的文档集的特征词提取方法，其特征在于，所述步骤B具体包括：

B1、获取所述空间向量模型中每个特征词所属段落位于所属文档的段落位置信息及所述特征词位于所属段落的特征词位置信息；

B2、将所述文档划分为若干部分，计算所述段落位置信息对于每一部分的权重，并将每一部分的权重求和得到段落位置信息权重；

B3、将所述段落划分为若干部分，计算所述特征词位置信息对于每一部分的权重，并将每一部分的权重求和得到特征词位置信息权重。

5.根据权利要求4所述基于位置信息的文档集的特征词提取方法，其特征在于，所述段落位置信息权重的计算公式如下：

6.根据权利要求4所述基于位置信息的文档集的特征词提取方法，其特征在于，所述特征词位置信息权重的计算公式如下：

7.根据权利要求4所述基于位置信息的文档集的特征词提取方法，其特征词在于，所述步骤C具体包括：

C1、根据所述段落位置信息权重和特征词位置信息权重采用加权计算所述特征词的词频，并计算所述特征词的逆向文档集频率；

C2、根据所述词频及逆向文档集频率计算所述特征词的TF-IDF权重；

C3、将所述特征词的TF-IDF权重按照从大到小的顺序进行排序，并提取特征词。

8.根据权利要求7所述基于位置信息的文档集特征词提取方法，其特征在于，所述特征词加权频率为计算公式为：

其中，n_t表示特征词t在文档中出现的频次。

9.一种基于位置信息的文档集的特征词提取系统，其特征在于，其包括：

处理模块，用于对文档集进行空间向量模型处理；

获取模块，用于获取每个特征词在每篇文档中的文档位置信息，并根据所述文档位置信息计算所述文档位置信息权重；

提取模块，用于根据所述位置信息权重采用加权词频计算特征词在文档集的TF-IDF权重，并对所述TF-IDF权重进行排序获取文档集的特征词。

10.根据权利要求9所述基于位置信息的文档集的特征词提取系统，其特征在于，其还包括：

预处理模块，用于预先构建停词词典，根据所述停词词典对待提取特征词文档集进行停词、去停词处理，获取特征词候选文档集。