CN103473323A - 一种基于卡方算法进行角色特征提取的方法 - Google Patents

一种基于卡方算法进行角色特征提取的方法 Download PDF

Info

Publication number
CN103473323A
CN103473323A CN2013104172426A CN201310417242A CN103473323A CN 103473323 A CN103473323 A CN 103473323A CN 2013104172426 A CN2013104172426 A CN 2013104172426A CN 201310417242 A CN201310417242 A CN 201310417242A CN 103473323 A CN103473323 A CN 103473323A
Authority
CN
China
Prior art keywords
role
feature
card side
feature words
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013104172426A
Other languages
English (en)
Inventor
程芸芸
王清霞
李振钊
赵威
刘铁军
刘秀磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Genesis Technology Co., Ltd.
Original Assignee
BEIJING PYC SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING PYC SOFTWARE Co Ltd filed Critical BEIJING PYC SOFTWARE Co Ltd
Priority to CN2013104172426A priority Critical patent/CN103473323A/zh
Publication of CN103473323A publication Critical patent/CN103473323A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于卡方算法进行角色特征提取的方法,该方法包括:A、选定多个角色,将与所述角色对应的文档提取出来,并对所述的文档进行分词;B、根据卡方算法对所述分词进行特征提取,获取所述角色下特征词需要的数据;C、根据卡方特征评估函数计算各个特征的评分值,并对词条进行分析,然后按所述评分值对所述特征进行排序,并选取若干个评分值最高的特征词条作为特征词。采用该方法,能够在进行角色搜索时,较好的提高返回结果的相关性;根据某个系统中的样本,提取该系统下的角色对应的特征词,使得在进行角色搜索时,加入特征词,设置权重,能够提高搜索结果跟用户的相关性。

Description

一种基于卡方算法进行角色特征提取的方法
技术领域
本发明涉及计算机应用技术,尤其涉及一种基于卡方(CHI)算法进行角色特征提取的方法。
背景技术
目前有关文本表示的研究,主要集中于文本表示模型的选择和特征词选择算法的选取上。用于表示文本的基本单位通常称为文本的特征或特征项。
图1为特征项必备的特性示意图。如图1所示,在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,目前大多数中文文本分类系统都采用词作为特征项,称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算。
由于信息增益的定义过于复杂,因此应用较多的是交叉熵和互信息。其中互信息的效果要好于交叉熵,这是因为互信息是对不同的主题类分别抽取特征词,而交叉熵与特征在全部主题类内的分布有关,是对全部主题类来抽取特征词。这些方法,在英文特征提取方面都有各自的优势,但用于中文文本并没有很高的效率。主要有2个方面的原因: 1) 特征提取的计算量太大,特征提取效率太低,而特征提取的效率直接影响到整个文本分类系统的效率;2) 经过特征提取后生成的特征向量维数太高,而且不能直接计算出特征向量中各个特征词的权重。
若把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于卡方算法(CHI)进行角色特征提取的方法,将卡方算法的统计量用于度量特征w和主题类C之间的独立性,在进行角色搜索时,能较好的提高返回结果的相关性;根据某个系统中的样本(分词之后的),提取该系统下的角色对应的特征词,使得在进行角色搜索时,加入特征词,设置权重,以提高搜索结果跟用户的相关性。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于卡方算法进行角色特征提取的方法,该方法包括:
A、选定多个角色,将与所述角色对应的文档提取出来,并对所述的文档进行分词;
B、根据卡方算法对所述分词进行特征提取,获取所述角色下特征词需要的数据;
C、根据卡方特征评估函数计算各个特征的评分值,并对词条进行分析,然后按所述评分值对所述特征进行排序,并选取若干个评分值最高的特征词条作为特征词。
其中,所述卡方算法依据卡方特征评估函数进行,所述卡方特征评估函数为:
其中,参数A代表词条term在该角色下的文档个数,B代表term不在该角色下的文档个数;C代表该角色下不包含该term的文档个数;D代表既不包含该term也不包含该角色的文档个数。
所述文档个数针对角色所在的系统而言。
步骤B所述获取所述角色下特征词需要的数据,具体为:
在进行角色搜索时,在查询语句中加入特征词,然后从所述数据库中查询,先看缓存中是否存在所述特征词,若有,则从所述缓存中查询;否则,就从数据中查询。
本发明所提供的基于卡方算法(CHI)进行角色特征提取的方法,具有以下优点:
应用本发明方法,能够在进行角色搜索时,在查询(Query)语句中加入提取出的特征词,根据用户的信息(上下文信息,使用信息等)产生与员工角色相关的分类知识,进一步提高企业员工的工作效率。实验证明,采用卡方估计特征选择算法的准确率最高,其分类效果受训练集影响较小,比较稳定。应用于角色搜索,加入特征词,能够给用户返回相关性较大的文档。
附图说明
图1为特征项的特性示意图;
图2为本发明进行角色特征提取的流程示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的角色特征提取方法作进一步详细的说明。
图2为本发明进行角色特征提取的流程示意图。如图2所示,该基于角色的特征提取方法,主要包含以下几个流程:
从可扩展标记语言/数据库(XML/DB)读取数据并对其进行分词处理;进行特征提取;然后将提取结果存放在数据库(DB)中;在进行角色搜索时,在查询(Query)语句中加入特征词,然后从所述数据库中查询,先看缓存(cache)中是否存在所述特征词,若有,则从cache中查询;否则,就从数据中查询。
本发明为解决角色特征提取问题,主要采用了以下技术,下面对这些技术进行简单介绍。
1)中文分词和文本处理技术。主要处理文本块中域,如许可证(permission)、域名(domain)、主题(title)和内容(content)等,进而将这些域组合成文本特征。上述域,本发明中主要用在制作训练集时。
这里,制作训练集的步骤为:从页面信息(pageInfo)表中读出许可证(permission)、域名(domain)、主题(title)和内容(content)四个域的值,然后对各个域进行处理如下:
(1)permission域:原先存储的是用户(nick)ID,但对角色ID进行特征抽取时,需要根据用户ID找到对应的角色(role)ID,数据库中有用户ID与角色ID对应的表。
(2)domain域:原先存储的是每个系统的中文名,我们在生成训练文档时是将其转换成系统(system)ID的,这个对应关系在数据库中也有对应。
(3)title域。
(4)content域。
(5)对title域和content域进行分词。
2)文本分类特征提取技术。根据卡方算法(CHI)提取特征词,得到某个系统下某个角色的特征词需要的数据:
Figure 908016DEST_PATH_IMAGE002
 上述卡方特征提取评估函数中:
参数A代表词条(term)在该角色下的文档个数,B代表term不在该角色下的文档个数;C代表该角色下不包含该term的文档个数;D代表既不包含该term也不包含该角色的文档个数。
其中,这里的文档个数都是针对角色所在的系统而言。
3)结果排序技术。通常根据卡方特征评估函数计算各个特征的评分值,并对term进行分析,然后按评分值对这些特征进行排序,选取若干个评分值最高的作为特征词。
参考图2,本发明的基于卡方算法进行角色特征提取的一个实施例如下。
对于某一个系统中的某两个角色,如培训主管和技术人员来说:
1)将与该角色对应的文档提取出来,如培训主管角色对应的角色(role)Id=1,该角色对应的用户(nick)Id有1和2;技术人员角色对应的角色(role)Id=2,则该角色对应的用户(nick)Id有3,则从数据库中将许可证(permission)中包含1、2和3的文档提取出来。假设有四篇文档,对于有些文档是可以被所有用户看到的,这样的文档不作考虑。
(1)设所述的四篇文档对应的标题和内容分别如下:
title1:人员培训列表;
content1:简单产品信息培训信息,以及行政培训。
title2:人员相关信息列表;
content2:公司花名册中对员工信息进行统计展示,详情查看信息列表。
title3:搜索引擎技术;
content3:总结搜索引擎的排名规律,对网站进行合理优化,使网站排名提高。
title4:网站优化技术;
content4:分析相关关键词的搜索热度,筛选出最适合您网站的热门关键词,向国内外各大搜索引擎、地址目录提交您的网站,根据搜索排名算法的变化,做出相应调整,维护您网站的排名。
(2)对上述四篇文档进行分词,并将每篇文档中的一些重复的词,不符合需求的词(单个的词,英文词)过滤掉;上述四篇文档分词后的数据有:
doc1:人员,培训,列表,内容,起止,时间,产品,信息,简单,行政。
doc2:人员,相关,信息,列表,公司,花名册,员工,进行,统计,展示,详情,查看。
doc3:技术,总结,搜索,引擎,排名,规律,网站,进行,合理,优化,提高。
doc4:网站,优化,技术,分析,相关,关键词,搜索,热度,筛选,适合,热门,国内,各大,引擎,地址,目录,提交,根据,排名,算法,变化,做出,相应,调整,维护。
(3)进行特征抽取。根据卡方公式,可以计算出每个角色对应的词的卡方值,并分析词在多个角色中出现的次数,当出现的次数超过了角色数的3/4,这样的词筛选掉,然后对卡方值进行排序,将卡方值最大的N个词作为特征词。
2)培训主管对应的特征词有:培训,内容,产品,信息,统计;
技术人员对应的特征词有:技术,搜索,排名,优化,网站。
3)将所述特征词保存到数据库中。
4)在该角色对应的用户进行搜索时,从数据库中取出对应的特征词,添加到查询(query)中,并设置权重,可以得到文档中包含这些特征词的文档分数提高,排名比较靠前。
查询词 不使用特征抽取方式,搜索结果的排序 使用特征抽取方法,搜索结果的排序
网站排名 doc3,doc4 doc4,doc3
人员列表 doc2,doc1 doc1,doc2
当用户输入网站排名时,通过使用lucene自定义的评分,考虑到词频,文档频率,已经文档的长度,能够得到两个查询结果,并且doc3文档的评分较高,但是通过使用了特征抽取方式,将特征词添加到query中,可以发现,doc4中包含的网站,以及排名的词频更加大,通过添加权重,可以得到doc4文档的分数提高较多,比doc3文档的分数大,因此跟用户就更加相关。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (4)

1.一种基于卡方算法进行角色特征提取的方法,其特征在于,该方法包括:
A、选定多个角色,将与所述角色对应的文档提取出来,并对所述的文档进行分词;
B、根据卡方算法对所述分词进行特征提取,获取所述角色下特征词需要的数据;
C、根据卡方特征评估函数计算各个特征的评分值,并对词条进行分析,然后按所述评分值对所述特征进行排序,并选取若干个评分值最高的特征词条作为特征词。
2.根据权利要求1所述基于卡方算法进行角色特征提取的方法,其特征在于,所述卡方算法依据卡方特征评估函数进行,所述卡方特征评估函数为:
Figure 2013104172426100001DEST_PATH_IMAGE002
其中,参数A代表词条term在该角色下的文档个数,B代表term不在该角色下的文档个数;C代表该角色下不包含该term的文档个数;D代表既不包含该term也不包含该角色的文档个数。
3.根据权利要求2所述基于卡方算法进行角色特征提取的方法,其特征在于,所述文档个数针对角色所在的系统而言。
4.根据权利要求1所述基于卡方算法进行角色特征提取的方法,其特征在于,步骤B所述获取所述角色下特征词需要的数据,具体为:
在进行角色搜索时,在查询语句中加入特征词,然后从所述数据库中查询,先看缓存中是否存在所述特征词,若有,则从所述缓存中查询;否则,就从数据中查询。
CN2013104172426A 2013-09-13 2013-09-13 一种基于卡方算法进行角色特征提取的方法 Pending CN103473323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013104172426A CN103473323A (zh) 2013-09-13 2013-09-13 一种基于卡方算法进行角色特征提取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013104172426A CN103473323A (zh) 2013-09-13 2013-09-13 一种基于卡方算法进行角色特征提取的方法

Publications (1)

Publication Number Publication Date
CN103473323A true CN103473323A (zh) 2013-12-25

Family

ID=49798171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013104172426A Pending CN103473323A (zh) 2013-09-13 2013-09-13 一种基于卡方算法进行角色特征提取的方法

Country Status (1)

Country Link
CN (1) CN103473323A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504037A (zh) * 2014-12-15 2015-04-08 深圳市宜搜科技发展有限公司 实体词热度计算方法及装置
CN110570469A (zh) * 2019-08-16 2019-12-13 广州威尔森信息科技有限公司 一种汽车图片角度位置的智能识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166485A1 (en) * 2011-12-23 2013-06-27 Florian Hoffmann Automated observational decision tree classifier

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166485A1 (en) * 2011-12-23 2013-06-27 Florian Hoffmann Automated observational decision tree classifier

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHAOHUI ZHENG等: "Feature selection for text categorization on imbalanced data", 《ACM》 *
刘俊晖等: "企业内部基于角色协作的个性化搜索系统", 《计算机工程》 *
刘海峰等: "一种基于词频信息的改进CHI文本特征选择", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504037A (zh) * 2014-12-15 2015-04-08 深圳市宜搜科技发展有限公司 实体词热度计算方法及装置
CN104504037B (zh) * 2014-12-15 2018-07-06 深圳市宜搜科技发展有限公司 实体词热度计算方法及装置
CN110570469A (zh) * 2019-08-16 2019-12-13 广州威尔森信息科技有限公司 一种汽车图片角度位置的智能识别方法
CN110570469B (zh) * 2019-08-16 2020-08-25 广州威尔森信息科技有限公司 一种汽车图片角度位置的智能识别方法

Similar Documents

Publication Publication Date Title
CN109101477B (zh) 一种企业领域分类及企业关键词筛选方法
Huston et al. Evaluating verbose query processing techniques
WO2016058267A1 (zh) 一种基于网站主页特征分析的中文网站分类方法和系统
CN104077407B (zh) 一种智能数据搜索系统及方法
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN103838798B (zh) 页面分类系统及页面分类方法
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN101609450A (zh) 基于训练集的网页分类方法
CN105593851A (zh) 用于跟踪与通过关联的文本和图像可识别的实体相关的微博消息的方法和装置
CN108363694B (zh) 关键词提取方法及装置
CN111324801B (zh) 基于热点词的司法领域热点事件发现方法
Man Feature extension for short text categorization using frequent term sets
Kansheng et al. Efficient text classification method based on improved term reduction and term weighting
Wan TimedTextRank: adding the temporal dimension to multi-document summarization
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN106649308B (zh) 一种分词词库更新方法及系统
KR101179613B1 (ko) 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
CN102929977A (zh) 一种面向新闻网站的事件跟踪方法
CN110309387A (zh) 一种大数据资讯聚合阅读推荐方法
Zhang et al. A hot spot clustering method based on improved kmeans algorithm
Wu et al. Userbert: Contrastive user model pre-training
CN103473323A (zh) 一种基于卡方算法进行角色特征提取的方法
Li et al. Cleaning web pages for effective web content mining
Mahdabi et al. Report on the CLEF-IP 2011 Experiments: Exploring Patent Summarization.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING CHUANGSHI TAIKE TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: BEIJING PENGYUCHENG SOFTWARE TECHNOLOGY CO., LTD.

Effective date: 20150113

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150113

Address after: 100088 Beijing City, Haidian District Zhichun Road Jinqiu International Building No. 6 A block 1602

Applicant after: Beijing Genesis Technology Co., Ltd.

Address before: 100088 Beijing City, Haidian District Zhichun Road Jinqiu International Building No. 6 A block 1602

Applicant before: Beijing PYC Software Co., Ltd.

CB02 Change of applicant information

Address after: 100088 Beijing City, Haidian District Zhichun Road No. 6 (Jinqiu International Building) A District 1309, 1310, 1601.

Applicant after: Beijing Transtec Technology Co., Ltd.

Address before: 100088 Beijing City, Haidian District Zhichun Road Jinqiu International Building No. 6 A block 1602

Applicant before: Beijing Genesis Technology Co., Ltd.

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131225