CN103473323A

CN103473323A - 一种基于卡方算法进行角色特征提取的方法

Info

Publication number: CN103473323A
Application number: CN2013104172426A
Authority: CN
Inventors: 程芸芸; 王清霞; 李振钊; 赵威; 刘铁军; 刘秀磊
Original assignee: BEIJING PYC SOFTWARE Co Ltd
Current assignee: Beijing Genesis Technology Co., Ltd.
Priority date: 2013-09-13
Filing date: 2013-09-13
Publication date: 2013-12-25

Abstract

本发明公开了一种基于卡方算法进行角色特征提取的方法，该方法包括：A、选定多个角色，将与所述角色对应的文档提取出来，并对所述的文档进行分词；B、根据卡方算法对所述分词进行特征提取，获取所述角色下特征词需要的数据；C、根据卡方特征评估函数计算各个特征的评分值，并对词条进行分析，然后按所述评分值对所述特征进行排序，并选取若干个评分值最高的特征词条作为特征词。采用该方法，能够在进行角色搜索时，较好的提高返回结果的相关性；根据某个系统中的样本，提取该系统下的角色对应的特征词，使得在进行角色搜索时，加入特征词，设置权重，能够提高搜索结果跟用户的相关性。

Description

一种基于卡方算法进行角色特征提取的方法

技术领域

本发明涉及计算机应用技术，尤其涉及一种基于卡方（CHI）算法进行角色特征提取的方法。

背景技术

目前有关文本表示的研究，主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。

图1为特征项必备的特性示意图。如图1所示，在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类系统都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。

由于信息增益的定义过于复杂，因此应用较多的是交叉熵和互信息。其中互信息的效果要好于交叉熵，这是因为互信息是对不同的主题类分别抽取特征词，而交叉熵与特征在全部主题类内的分布有关，是对全部主题类来抽取特征词。这些方法，在英文特征提取方面都有各自的优势，但用于中文文本并没有很高的效率。主要有2个方面的原因: 1) 特征提取的计算量太大，特征提取效率太低，而特征提取的效率直接影响到整个文本分类系统的效率；2) 经过特征提取后生成的特征向量维数太高，而且不能直接计算出特征向量中各个特征词的权重。

若把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于卡方算法（CHI）进行角色特征提取的方法，将卡方算法的统计量用于度量特征w和主题类C之间的独立性，在进行角色搜索时，能较好的提高返回结果的相关性；根据某个系统中的样本（分词之后的），提取该系统下的角色对应的特征词，使得在进行角色搜索时，加入特征词，设置权重，以提高搜索结果跟用户的相关性。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于卡方算法进行角色特征提取的方法，该方法包括：

A、选定多个角色，将与所述角色对应的文档提取出来，并对所述的文档进行分词；

B、根据卡方算法对所述分词进行特征提取，获取所述角色下特征词需要的数据；

C、根据卡方特征评估函数计算各个特征的评分值，并对词条进行分析，然后按所述评分值对所述特征进行排序，并选取若干个评分值最高的特征词条作为特征词。

其中，所述卡方算法依据卡方特征评估函数进行，所述卡方特征评估函数为：

其中，参数A代表词条term在该角色下的文档个数，B代表term不在该角色下的文档个数；C代表该角色下不包含该term的文档个数；D代表既不包含该term也不包含该角色的文档个数。

所述文档个数针对角色所在的系统而言。

步骤B所述获取所述角色下特征词需要的数据，具体为：

在进行角色搜索时，在查询语句中加入特征词，然后从所述数据库中查询，先看缓存中是否存在所述特征词，若有，则从所述缓存中查询；否则，就从数据中查询。

本发明所提供的基于卡方算法（CHI）进行角色特征提取的方法，具有以下优点：

应用本发明方法，能够在进行角色搜索时，在查询（Query）语句中加入提取出的特征词，根据用户的信息（上下文信息，使用信息等）产生与员工角色相关的分类知识，进一步提高企业员工的工作效率。实验证明，采用卡方估计特征选择算法的准确率最高，其分类效果受训练集影响较小，比较稳定。应用于角色搜索，加入特征词，能够给用户返回相关性较大的文档。

附图说明

图1为特征项的特性示意图；

图2为本发明进行角色特征提取的流程示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的角色特征提取方法作进一步详细的说明。

图2为本发明进行角色特征提取的流程示意图。如图2所示，该基于角色的特征提取方法，主要包含以下几个流程：

从可扩展标记语言/数据库（XML/DB）读取数据并对其进行分词处理；进行特征提取；然后将提取结果存放在数据库（DB）中；在进行角色搜索时，在查询（Query）语句中加入特征词，然后从所述数据库中查询，先看缓存（cache）中是否存在所述特征词，若有，则从cache中查询；否则，就从数据中查询。

本发明为解决角色特征提取问题，主要采用了以下技术，下面对这些技术进行简单介绍。

1）中文分词和文本处理技术。主要处理文本块中域，如许可证（permission）、域名（domain）、主题（title）和内容（content）等，进而将这些域组合成文本特征。上述域，本发明中主要用在制作训练集时。

这里，制作训练集的步骤为：从页面信息（pageInfo）表中读出许可证（permission）、域名（domain）、主题（title）和内容（content）四个域的值，然后对各个域进行处理如下：

（1）permission域：原先存储的是用户（nick）ID，但对角色ID进行特征抽取时，需要根据用户ID找到对应的角色（role）ID，数据库中有用户ID与角色ID对应的表。

（2）domain域：原先存储的是每个系统的中文名，我们在生成训练文档时是将其转换成系统（system）ID的，这个对应关系在数据库中也有对应。

（3）title域。

（4）content域。

（5）对title域和content域进行分词。

2）文本分类特征提取技术。根据卡方算法（CHI）提取特征词，得到某个系统下某个角色的特征词需要的数据：

上述卡方特征提取评估函数中：

参数A代表词条（term）在该角色下的文档个数，B代表term不在该角色下的文档个数；C代表该角色下不包含该term的文档个数；D代表既不包含该term也不包含该角色的文档个数。

其中，这里的文档个数都是针对角色所在的系统而言。

3）结果排序技术。通常根据卡方特征评估函数计算各个特征的评分值，并对term进行分析，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为特征词。

参考图2，本发明的基于卡方算法进行角色特征提取的一个实施例如下。

对于某一个系统中的某两个角色，如培训主管和技术人员来说：

1）将与该角色对应的文档提取出来，如培训主管角色对应的角色（role）Id=1，该角色对应的用户（nick）Id有1和2；技术人员角色对应的角色（role）Id=2，则该角色对应的用户（nick）Id有3，则从数据库中将许可证（permission）中包含1、2和3的文档提取出来。假设有四篇文档，对于有些文档是可以被所有用户看到的，这样的文档不作考虑。

（1）设所述的四篇文档对应的标题和内容分别如下：

title1：人员培训列表；

content1：简单产品信息培训信息，以及行政培训。

title2：人员相关信息列表；

content2：公司花名册中对员工信息进行统计展示，详情查看信息列表。

title3：搜索引擎技术；

content3：总结搜索引擎的排名规律，对网站进行合理优化，使网站排名提高。

title4：网站优化技术；

content4：分析相关关键词的搜索热度，筛选出最适合您网站的热门关键词，向国内外各大搜索引擎、地址目录提交您的网站，根据搜索排名算法的变化，做出相应调整，维护您网站的排名。

（2）对上述四篇文档进行分词，并将每篇文档中的一些重复的词，不符合需求的词（单个的词，英文词）过滤掉；上述四篇文档分词后的数据有：

doc1：人员，培训，列表，内容，起止，时间，产品，信息，简单，行政。

doc2：人员，相关，信息，列表，公司，花名册，员工，进行，统计，展示，详情，查看。

doc3：技术，总结，搜索，引擎，排名，规律，网站，进行，合理，优化，提高。

doc4：网站，优化，技术，分析，相关，关键词，搜索，热度，筛选，适合，热门，国内，各大，引擎，地址，目录，提交，根据，排名，算法，变化，做出，相应，调整，维护。

（3）进行特征抽取。根据卡方公式，可以计算出每个角色对应的词的卡方值，并分析词在多个角色中出现的次数，当出现的次数超过了角色数的3/4，这样的词筛选掉，然后对卡方值进行排序，将卡方值最大的N个词作为特征词。

2）培训主管对应的特征词有：培训，内容，产品，信息，统计；

技术人员对应的特征词有：技术，搜索，排名，优化，网站。

3）将所述特征词保存到数据库中。

4）在该角色对应的用户进行搜索时，从数据库中取出对应的特征词，添加到查询（query）中，并设置权重，可以得到文档中包含这些特征词的文档分数提高，排名比较靠前。

查询词	不使用特征抽取方式，搜索结果的排序	使用特征抽取方法，搜索结果的排序
			网站排名	doc3，doc4	doc4，doc3
人员列表	doc2，doc1	doc1，doc2

当用户输入网站排名时，通过使用lucene自定义的评分，考虑到词频，文档频率，已经文档的长度，能够得到两个查询结果，并且doc3文档的评分较高，但是通过使用了特征抽取方式，将特征词添加到query中，可以发现，doc4中包含的网站，以及排名的词频更加大，通过添加权重，可以得到doc4文档的分数提高较多，比doc3文档的分数大，因此跟用户就更加相关。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于卡方算法进行角色特征提取的方法，其特征在于，该方法包括：

2.根据权利要求1所述基于卡方算法进行角色特征提取的方法，其特征在于，所述卡方算法依据卡方特征评估函数进行，所述卡方特征评估函数为：

Figure 2013104172426100001DEST_PATH_IMAGE002

3.根据权利要求2所述基于卡方算法进行角色特征提取的方法，其特征在于，所述文档个数针对角色所在的系统而言。

4.根据权利要求1所述基于卡方算法进行角色特征提取的方法，其特征在于，步骤B所述获取所述角色下特征词需要的数据，具体为：