CN103186612A - 一种词汇分类的方法、系统和实现方法 - Google Patents
一种词汇分类的方法、系统和实现方法 Download PDFInfo
- Publication number
- CN103186612A CN103186612A CN2011104566768A CN201110456676A CN103186612A CN 103186612 A CN103186612 A CN 103186612A CN 2011104566768 A CN2011104566768 A CN 2011104566768A CN 201110456676 A CN201110456676 A CN 201110456676A CN 103186612 A CN103186612 A CN 103186612A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- document
- sorted
- classification
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种词汇分类的方法、系统和实现方法,首先获取文档分类训练集,包括文档及其所属的文档类别信息,对所有文档进行预处理,形成待分类词汇,获取每个待分类词汇在一个文档类别中的TF值和IDF值,并对两者求和得到TF-IDF,除以每个待分类词汇在其文档所属的所有文档类别中的TF-IDF之和,获得的商值作为待分类词汇属于文档类别的概率,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。采用了本发明的技术方案,能够自动完成词汇分类,而且投入很少,效果更加准确。
Description
技术领域
本发明涉及文档分析技术领域,尤其涉及一种词汇分类的方法、系统和实现方法。
背景技术
在文档分析技术领域中,分类词库是一个比较重要的技术,可以用于多种用途和领域。例如,用户行为分析里面,利用用户对关键词的输入,可以判断用户的基本类别。收集用户输入的搜索关键词,可以通过分类词库获取关键词的类别,进而对用户类别标示。
表1
词汇 | 类别 | 置信概率 |
姚明 | 体育 | 90% |
娱乐 | 10% | |
基金 | 金融 | 72% |
公益 | 28% |
如表1,词汇分类可以用于词典编辑、语义分析等等领域。分类词库描述了词汇与类别的关系,其中,置信概率为可选项,词汇可以同时属于多个类别。
在词汇分类中,TF-IDF(Term Frequency-Inverse DocumentFrequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
在一份给定的文件里,词频(Term Frequency,TF)指的是某一个给定的词汇在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件。(同一个词汇在长文件里可能会比短文件有更高的词频,而不管该词汇重要与否。)
逆向文件频率(Inverse Document Frequency,IDF)是一个词汇普遍重要性的度量。某一特定词汇的IDF,可以由总文件数目除以包含该词汇之文件的数目,再将得到的商取对数得到。
某一特定文件内的高词汇频率,以及该词汇在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词汇,保留重要的词汇。
现有技术的TF-IDF表示了一个词汇对一个文档的重要程度,但是对于目前现状来讲,还有以下问题:
1、TF-IDF仅表示了词汇统计结果,及词汇个数对某个文档的重要程度,而现状训练集多来自于网页,即网页内容与分类的对应。网页中信息不仅仅为文本,还有更丰富的信息,如文本出现的位置,文本字体大小,pagerank值(某个网页被引用的次数可以表示网页重要程度)等,这些信息TF-IDF没有用到。
2、TF-IDF现有的对应文档关系,某个文档与类别对应是一一对应关系,而现有训练集中,往往一个网页对应不同分类,即同时存在于多个分类。例如,新浪的分类中,一级分类为体育,二级分类随着时事变更,足球和世界杯这两个分类会同时存在,那里面会有部分网页是重复的,这种情况,现有技术没有解决方法。
3、现有的网页对分类的贡献程度没有明确表示,而网页对分类的重要程度是可以获得且具有很大的应用价值。
发明内容
本发明的目的是针对现有技术中TF-IDF存在的问题而提出的一种词汇分类的方法、系统和实现方法,能够自动完成词汇分类,而且投入很少,效果更加准确。
为实现本发明的目的,采用了以下技术方案:
本发明的一个具体实施方式提供了一种词汇分类的方法,包括以下步骤:
获取文档分类训练集,所述文档分类训练集包括文档和所述文档所属的文档类别信息;
对所有文档进行预处理,形成待分类词汇;
获取每个待分类词汇在一个文档类别中的词汇频率值TF;
获取每个待分类词汇在一个文档类别中的逆文档频率值IDF;
采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF获得每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF;
获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和;
每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF除以所述待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和获得的商值作为所述待分类词汇属于所述文档类别的概率;
所述待分类词汇所在文档属于的文档类别作为所述待分类词汇的类别,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。
优选地,当一个文档同时属于不少于两个文档类别的情况下,还包括以下步骤:
获得一件文档所属的全部文档类别中的全部词汇;
获得所述文档所属的全部文档类别中任意不少于两个的文档都出现的词汇;
从所述的全部词汇中删除所述任意不少于两个的文档都出现的词汇,获得区别词汇;
获得所有区别词汇在所述文档所属的全部文档类别中的概率,并求和;
获得所有区别词汇在所述文档所属的一个文档类别中的概率,并求和;
将在所述一个文档类别中的词汇概率的和与所述全部文档类别中的词汇概率的和相除,获得的商作为所述文档对所述一个文档类别的贡献程度。
对所有文档进行预处理进一步包括以下步骤:
对文档进行分词;
去除其中停用词;
形成待分类词汇;
保留待分类词汇的位置信息和字体信息。
获取每个待分类词汇在一个文档类别中的词汇频率值TF进一步包括以下步骤:
采用以下公式获取待分类词汇在一个文档类别中的出现次数FC:
FC=求和(1*(位置因子+字体因子)),其中位置因子根据待分类词汇的位置信息确定,字体因子根据待分类词汇的字体信息确定;
采用以下公式获取待分类词汇在一个文档类别中的词汇频率值TF:
TF=log((1+FC)/SQRT(MAX FC)),其中MAX FC是一个文档类别中所有待分类词汇出现次数最多的待分类词汇的出现次数,SQRT是取平方的函数。
优选地,还包括以下步骤:
对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化。
获取每个待分类词汇在一个文档类别中的逆文档频率值IDF进一步包括以下步骤:
采用以下公式获取待分类词汇在一个文档类别中的出现次数:
DF=求和(1*(位置因子+字体因子)),其中位置因子根据待分类词汇的位置信息确定,字体因子根据待分类词汇的字体信息确定;
采用以下公式获取待分类词汇在一个文档类别中的逆文档频率值IDF:
LogIDF=log(LabelDocumentCount/DF),其中LabelDocumentCount是一个文档类别中全部词汇的总数。
优选地,采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF之和作为每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF。
位置因子根据待分类词汇的位置信息确定进一步包括以下步骤:
获取位置信息,所述位置包括标题、正文、侧面链接和广告;
对不同的位置设置不同的位置因子,位置因子在0至1的范围。
字体因子根据待分类词汇的字体信息确定进一步包括以下步骤:
获取字体信息,字体信息包括字体大小;
将文档中最大字体的字体因子设置为1;
其他字体按照与最大字体的比例设置字体因子。
优选地,所述文档是网页文档。
本发明的另一个具体实施方式提供了一种词汇分类的系统,包括文档分类训练集模块、文档预处理模块、词频统计模块、词汇频率-逆文档频率值计算模块和词汇类别生成模块,其中,
文档分类训练集模块用于存储文档分类训练集,并将文档分类训练集提供给文档预处理模块;
文档预处理模块用于对所有文档进行预处理,形成待分类词汇;
词频统计模块用于统计待分类词汇在文档出现的频率,并发送给词汇频率-逆文档频率值计算模块;
词汇频率-逆文档频率值计算模块用于获取每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF,采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF获得每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF,获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和,并将每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF除以所述待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和获得的商值作为所述待分类词汇属于所述文档类别的概率;
词汇类别生成模块用于将所述待分类词汇所在文档属于的文档类别作为所述待分类词汇的类别,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。
进一步地,词频统计模块还用于对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化。
优选地,还包括文档贡献程度计算模块,文档贡献程度计算模块用于获得一件文档所属的全部文档类别中的全部词汇,获得所述文档所属的全部文档类别中都出现的词汇,从所述的全部词汇中删除所述都出现的词汇,获得区别词汇,获得所有区别词汇在所述文档所属的全部文档类别中的词汇概率,并求和,获得所有区别词汇在所述文档所属的一个文档类别中的词汇概率,并求和,将在所述一个文档类别中的词汇概率的和与所述全部文档类别中的词汇概率的和相除,获得的商作为所述文档对所述一个文档类别的贡献程度。
本发明的另一个具体实施方式提供了一种词汇分类的实现方法,包括以下步骤:
A.获取文档分类训练集,所述文档分类训练集包括文档和所述文档所属的文档类别信息;
B.对所有文档进行预处理,形成待分类词汇列表;
C.主控节点将所述待分类词汇列表分区,以行为单位,将一行待分类词汇列表及文档类别分配到一个计算节点上;
D.计算节点计算其中每个待分类词汇m在每个文档类别n中的词汇频率值TFmn,输出“TF”、待分类词汇m和文档类别n作为关键词,以及对应的词汇频率值TFmn作为值;
E.如果待分类词汇m在文档类别n中的文档出现,计算节点设置DFmn为1,输出“DF”和待分类词汇m作为关键词,DFmn作为值;
F.主控节点通知每个计算节点接受指定关键词,每个计算节点收到所用相同关键词,进行判断,如果是“TF”开头,则统计待分类词汇m在文档类别n出现的词汇频率值TF,并采用以下公式计算加权TF值:
LogTF=log(1+TFmn)/SQRTmaxTFmn,其中maxTFmn为所有TF中的最大值,SQRT为取平方运算,
输出“TF”、待分类词汇m和文档类别n作为关键词,以及加权TF值作为值;
如果是“DF”开头,则根据关键词求和,输出“DF”和待分类词汇m作为关键词,和DFm作为值;
G.主控节点将步骤F的输出分配给对应的计算节点;
H.计算节点进行关键词判断,如果是“DF”开头,则计算:
LogIDF=log(labelDocumentCount/值DFm),其中LabelDocumentCount是待分类词汇列表的总数,
输出“TF”、待分类词汇m和文档类别n作为关键词,以及LogIDF作为值;
如果是“TF”开头,输出原来的关键词和值;
I、计算节点对相同关键词进行求和,LogTFIDF=LogTF+LogIDF,输出“LogTFIDF”、待分类词汇m和文档类别n作为关键词,以及LogTFIDF作为值;
J.主控节点将步骤H和步骤I的输出分配给对应的计算节点;
K.计算节点获得“LogTFIDF”、待分类词汇m和文档类别n的关键词,以及LogTFIDF的值,输出“weightTFIDF”和待分类词汇m作为关键词,以及LogTFIDF作为值;
L.计算节点获得相同的关键词输入集合,进行求和,获得值c,输出“weightTFIDF”、待分类词汇m和文档类别n作为关键词,以及值c为值;
M.总控节点将步骤H和步骤I的输出分配给对应的计算节点;
N.计算节点获得“LogTFIDF”、待分类词汇m和文档类别n的关键词,以及LogTFIDF的值,以“LogTFIDF”和待分类词汇m作为关键词从步骤L的输出中查找对应的结果v,获得待分类词汇对应文档类别的概率gailv=LogTFIDF/v。
优选地,如果所述文档是网页信息,词汇频率值TFmn的计算包括位置因子和字体因子。
采用本发明的技术方案,实现了自动化词汇分类,人工投入极少,经过训练集的一次学习,可以学习22万词汇量;通过扩展了TFIDF技术,引入了网页中文本的位置信息及字体大小信息,使得效果更加准确;利用词汇分类可以针对同一网页属于多个类别的情况,得到网页对不同类别的贡献程度,这是以往无法得到的;采用并行计算方式,提高了效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施方式,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施方式一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明具体实施方式一中的词汇分类系统的结构示意图。
图2是本发明具体实施方式二中的词汇分类的流程图。
图3是本发明具体实施方式三中的词汇分类实现的流程图。
具体实施方式
以下结合附图对本发明的优选实施方式进行说明,应当理解,此处所描述的优选实施方式仅用于说明和解释本发明,并不用于限定本发明。
图1是本发明具体实施方式一中的词汇分类系统的结构示意图。如图1所示,该词汇分类系统包括文档分类训练集模块、文档预处理模块、词频统计模块、词汇频率-逆文档频率值计算模块、词汇类别生成模块和文档贡献程度计算模块。
其中,文档分类训练集模块存储文档分类训练集,并将文档分类训练集提供给文档预处理模块。
文档预处理模块对所有文档进行预处理,形成待分类词汇。
词频统计模块统计待分类词汇在文档出现的频率,并对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化,发送给词汇频率-逆文档频率值计算模块。
词汇频率-逆文档频率值计算模块获取每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF,采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF获得每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF,获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和,并将每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF除以待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和获得的商值作为待分类词汇属于文档类别的概率。
词汇类别生成模块将待分类词汇所在文档属于的文档类别作为待分类词汇的类别,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。
文档贡献程度计算模块获得一件文档所属的全部文档类别中的全部词汇,获得文档所属的全部文档类别中都出现的词汇,从的全部词汇中删除都出现的词汇,获得区别词汇,获得所有区别词汇在文档所属的全部文档类别中的概率,并求和,获得所有区别词汇在文档所属的一个文档类别中的概率,并求和,将在一个文档类别中的词汇概率的和与全部文档类别中的词汇概率的和相除,获得的商作为文档对一个文档类别的贡献程度。
图2是本发明具体实施方式二中的词汇分类的流程图。如图2所示,该词汇分类的流程包括以下步骤:
步骤201、获取文档分类训练集,该文档可以是网页文档,也可以是其他类型文档,文档分类训练集包括文档和文档所属的文档类别信息。文档分类训练集可以手工收集,也可以通过网络下载,文档分类训练集基本格式如表2所示。
表2
步骤202、对所有文档进行预处理,形成待分类词汇,见表3。预处理具体包括以下步骤:
对文档进行分词;
去除其中停用词;
形成待分类词汇;
保留待分类词汇的位置信息和字体信息。
表3
步骤203、获取每个待分类词汇在一个文档类别中的扩展词汇频率值TF。首先采用以下公式获取待分类词汇在一个文档类别中的出现次数FC:
FC=求和(1*(位置因子+字体因子)),其中位置因子根据待分类词汇的位置信息确定,字体因子根据待分类词汇的字体信息确定。
位置信息中的位置包括标题、正文、侧面链接和广告,对不同的位置设置不同的位置因子,位置因子在0至1的范围,可以进行定义,例如标题为1,正文0.8、侧面链接0.2,等等。
字体信息包括字体大小,将文档中最大字体的字体因子设置为1,其他字体按照与最大字体的比例设置字体因子。见表4。
表4
再采用以下公式获取待分类词汇在一个文档类别中的扩展词汇频率值TF:
TF=log((1+FC)/SQRT(MAX FC)),其中MAX FC是一个文档类别中所有待分类词汇出现次数最多的待分类词汇的出现次数,SQRT是取平方的函数,当然这里还可以有多种变种。
然后对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化。
步骤204、获取每个待分类词汇在一个文档类别中的扩展逆文档频率值IDF。
首先采用以下公式获取待分类词汇在一个文档类别中的出现次数:
DF=求和(1*(位置因子+字体因子)),其中位置因子根据待分类词汇的位置信息确定,字体因子根据待分类词汇的字体信息确定。
位置信息中的位置包括标题、正文、侧面链接和广告,对不同的位置设置不同的位置因子,位置因子在0至1的范围,可以进行定义,例如标题为1,正文0.8、侧面链接0.2,等等。
字体信息包括字体大小,将文档中最大字体的字体因子设置为1,其他字体按照与最大字体的比例设置字体因子。
再采用以下公式获取待分类词汇在一个文档类别中的扩展逆文档频率值IDF:
LogIDF=log(LabelDocumentCount/DF),其中LabelDocumentCount是一个文档类别中全部词汇的总数。
步骤205、采用每个待分类词汇在一个文档类别中的扩展词汇频率值TF和扩展逆文档频率值IDF之和作为每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF,这是TF-IDF变种,求和是因为之前分别对分子分母求了log,所以商可以转换为求和运算。
步骤206、获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和。
步骤207、每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF除以待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和获得的商值作为待分类词汇属于文档类别的概率。
步骤208、待分类词汇所在文档属于的文档类别作为待分类词汇的类别,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。见表5。
表5
词 | 类别 | 概率 |
钓鱼岛 | 军事 | 65.45% |
地理 | 20.87% | |
娱乐 | 13.67% |
步骤209、当一个文档同时属于多个文档类别的情况下,可以获取一件文档对一个文档类别的贡献程度。具体包括以下步骤:
获得一件文档所属的全部文档类别中的全部词汇。
获得文档所属的全部文档类别中在两个或者两个以上文档都出现的词汇。
从的全部词汇中删除上一步骤获得的在两个或者两个以上文档都出现的词汇,获得区别词汇。
获得所有区别词汇在文档所属的全部文档类别中的概率,并求和。
获得所有区别词汇在文档所属的一个文档类别中的概率,并求和。
将在一个文档类别中的词汇概率的和与全部文档类别中的词汇概率的和相除,获得的商作为文档对一个文档类别的贡献程度。
本发明的技术方案可以采用分布式方法实现,并通过并行计算完成。并行思路设计包括主控节点及计算节点,主控节点负责数据分发和任务调度,计算节点负责任务的执行。
整个过程分为两大步骤,一为映射阶段(map),二为合并阶段(reduce)。
图3是本发明具体实施方式三中的词汇分类实现的流程图。如图3所示,该词汇分类实现的流程包括以下步骤:
步骤301、获取文档分类训练集,文档分类训练集包括文档和文档所属的文档类别信息。
步骤302、对所有文档进行预处理,形成待分类词汇列表。
映射阶段:
步骤303、主控节点将待分类词汇列表分区,以行为单位,将一行待分类词汇列表及文档类别分配到一个计算节点上。
步骤304、计算节点计算其中每个待分类词汇m在每个文档类别n中的词汇频率值TFmn,输出“TF”、待分类词汇m和文档类别n作为关键词,以及对应的词汇频率值TFmn作为值。如果所述文档是网页信息,词汇频率值TFmn的计算包括位置因子和字体因子。
步骤305、如果待分类词汇m在文档类别n中的文档出现,计算节点设置DFmn为1,输出“DF”和待分类词汇m作为关键词,DFmn作为值。
合并阶段:
步骤306、主控节点通知每个计算节点接受指定关键词,每个计算节点收到所用相同关键词,进行判断,如果是“TF”开头,则统计待分类词汇m在文档类别n出现的词汇频率值TF,并采用以下公式计算加权TF值:
LogTF=log(1+TFmn)/SQRTmaxTFmn,其中maxTFmn为所有TF中的最大值,SQRT为取平方运算,
输出“TF”、待分类词汇m和文档类别n作为关键词,以及加权TF值作为值;
如果是“DF”开头,则根据关键词求和,输出“DF”和待分类词汇m作为关键词,和DFm作为值。
映射阶段:
步骤307、主控节点将步骤306的输出分配给对应的计算节点。
映射阶段:
步骤308、计算节点进行关键词判断,如果是“DF”开头,则计算:
LogIDF=log(labelDocumentCount/值DFm),其中LabelDocumentCount是待分类词汇列表的总数,
输出“TF”、待分类词汇m和文档类别n作为关键词,以及LogIDF作为值;
如果是“TF”开头,输出原来的关键词和值.
合并阶段:
步骤309、计算节点对相同关键词进行求和,LogTFIDF=LogTF+LogIDF,输出“LogTFIDF”、待分类词汇m和文档类别n作为关键词,以及LogTFIDF作为值。
映射阶段:
步骤310、主控节点将步骤308和步骤309的输出分配给对应的计算节点。
步骤311、计算节点获得“LogTFIDF”、待分类词汇m和文档类别n的关键词,以及LogTFIDF的值,输出“weightTFIDF”和待分类词汇m作为关键词,以及LogTFIDF作为值。
合并阶段:
步骤312、计算节点获得相同的关键词输入集合,进行求和,获得值c,输出“weightTFIDF”、待分类词汇m和文档类别n作为关键词,以及值c为值。
映射阶段:
步骤313、总控节点将步骤308和步骤309的输出分配给对应的计算节点。
步骤314、计算节点获得“LogTFIDF”、待分类词汇m和文档类别n的关键词,以及LogTFIDF的值,以“LogTFIDF”和待分类词汇m作为关键词从步骤L的输出中查找对应的结果v,获得待分类词汇对应文档类别的概率gailv=LogTFIDF/v。
另外,可以根据词汇分类得到同一网页对于不同文档类别的贡献程度。同样,此部分也可采用并行方法实现,并行思路如mapreduce思路或者其他。
最后应说明的是:以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,尽管参照前述实施方式对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种词汇分类的方法,其特征在于,包括以下步骤:
获取文档分类训练集,所述文档分类训练集包括文档和所述文档所属的文档类别信息;
对所有文档进行预处理,形成待分类词汇;
获取每个待分类词汇在一个文档类别中的词汇频率值TF;
获取每个待分类词汇在一个文档类别中的逆文档频率值IDF;
采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF获得每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF;
获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和;
每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF除以所述待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和获得的商值作为所述待分类词汇属于所述文档类别的概率;
所述待分类词汇所在文档属于的文档类别作为所述待分类词汇的类别,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。
2.根据权利要求1所述的一种词汇分类的方法,其特征在于,当一个文档同时属于不少于两个文档类别的情况下,还包括以下步骤:
获得一件文档所属的全部文档类别中的全部词汇;
获得所述文档所属的全部文档类别中任意不少于两个的文档都出现的词汇;
从所述的全部词汇中删除所述任意不少于两个的文档都出现的词汇,获得区别词汇;
获得所有区别词汇在所述文档所属的全部文档类别中的概率,并求和;
获得所有区别词汇在所述文档所属的一个文档类别中的概率,并求和;
将在所述一个文档类别中的词汇概率的和与所述全部文档类别中的词汇概率的和相除,获得的商作为所述文档对所述一个文档类别的贡献程度。
3.根据权利要求2所述的一种词汇分类的方法,其特征在于,对所有文档进行预处理进一步包括以下步骤:
对文档进行分词;
去除其中停用词;
形成待分类词汇;
保留待分类词汇的位置信息和字体信息。
4.根据权利要求3所述的一种词汇分类的方法,其特征在于,获取每个待分类词汇在一个文档类别中的词汇频率值TF进一步包括以下步骤:
采用以下公式获取待分类词汇在一个文档类别中的出现次数FC:
FC=求和(1*(位置因子+字体因子)),其中位置因子根据待分类词汇的位置信息确定,字体因子根据待分类词汇的字体信息确定;
采用以下公式获取待分类词汇在一个文档类别中的词汇频率值TF:
TF=log((1+FC)/SQRT(MAX FC)),其中MAX FC是一个文档类别中所有待分类词汇出现次数最多的待分类词汇的出现次数,SQRT是取平方的函数。
5.根据权利要求4所述的一种词汇分类的方法,其特征在于,还包括以下步骤:
对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化。
6.根据权利要求3所述的一种词汇分类的方法,其特征在于,获取每个待分类词汇在一个文档类别中的逆文档频率值IDF进一步包括以下步骤:
采用以下公式获取待分类词汇在一个文档类别中的出现次数:
DF=求和(1*(位置因子+字体因子)),其中位置因子根据待分类词汇的位置信息确定,字体因子根据待分类词汇的字体信息确定;
采用以下公式获取待分类词汇在一个文档类别中的逆文档频率值IDF:
LogIDF=log(LabelDocumentCount/DF),其中LabelDocumentCount是一个文档类别中全部词汇的总数。
7.根据权利要求1或者2所述的一种词汇分类的方法,其特征在于,采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF之和作为每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF。
8.根据权利要求4或者6所述的一种词汇分类的方法,其特征在于,位置因子根据待分类词汇的位置信息确定进一步包括以下步骤:
获取位置信息,所述位置包括标题、正文、侧面链接和广告;
对不同的位置设置不同的位置因子,位置因子在0至1的范围。
9.根据权利要求4或者6所述的一种词汇分类的方法,其特征在于,字体因子根据待分类词汇的字体信息确定进一步包括以下步骤:
获取字体信息,字体信息包括字体大小;
将文档中最大字体的字体因子设置为1;
其他字体按照与最大字体的比例设置字体因子。
10.根据权利要求1或者2所述的一种词汇分类的方法,其特征在于,所述文档是网页文档。
11.一种词汇分类的系统,其特征在于,包括文档分类训练集模块、文档预处理模块、词频统计模块、词汇频率-逆文档频率值计算模块和词汇类别生成模块,其中,
文档分类训练集模块用于存储文档分类训练集,并将文档分类训练集提供给文档预处理模块;
文档预处理模块用于对所有文档进行预处理,形成待分类词汇;
词频统计模块用于统计待分类词汇在文档出现的频率,并发送给词汇频率-逆文档频率值计算模块;
词汇频率-逆文档频率值计算模块用于获取每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF,采用每个待分类词汇在一个文档类别中的词汇频率值TF和逆文档频率值IDF获得每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF,获取每个待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和,并将每个待分类词汇在一个文档类别中的词汇频率-逆文档频率值TF-IDF除以所述待分类词汇在其文档所属的所有文档类别中的词汇频率-逆文档频率值TF-IDF之和获得的商值作为所述待分类词汇属于所述文档类别的概率;
词汇类别生成模块用于将所述待分类词汇所在文档属于的文档类别作为所述待分类词汇的类别,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。
12.根据权利要求11所述的一种词汇分类的系统,其特征在于,词频统计模块还用于对每个待分类词汇在一个文档类别中的词汇频率值TF进行归一化。
13.根据权利要求11所述的一种词汇分类的系统,其特征在于,还包括文档贡献程度计算模块,文档贡献程度计算模块用于获得一件文档所属的全部文档类别中的全部词汇,获得所述文档所属的全部文档类别中都出现的词汇,从所述的全部词汇中删除所述都出现的词汇,获得区别词汇,获得所有区别词汇在所述文档所属的全部文档类别中的概率,并求和,获得所有区别词汇在所述文档所属的一个文档类别中的概率,并求和,将在所述一个文档类别中的词汇概率的和与所述全部文档类别中的词汇概率的和相除,获得的商作为所述文档对所述一个文档类别的贡献程度。
14.一种词汇分类的实现方法,其特征在于,包括以下步骤:
A.获取文档分类训练集,所述文档分类训练集包括文档和所述文档所属的文档类别信息;
B.对所有文档进行预处理,形成待分类词汇列表;
C.主控节点将所述待分类词汇列表分区,以行为单位,将一行待分类词汇列表及文档类别分配到一个计算节点上;
D.计算节点计算其中每个待分类词汇m在每个文档类别n中的词汇频率值TFmn,输出“TF”、待分类词汇m和文档类别n作为关键词,以及对应的词汇频率值TFmn作为值;
E.如果待分类词汇m在文档类别n中的文档出现,计算节点设置DFmn为1,输出“DF”和待分类词汇m作为关键词,DFmn作为值;
F.主控节点通知每个计算节点接受指定关键词,每个计算节点收到所用相同关键词,进行判断,如果是“TF”开头,则统计待分类词汇m在文档类别n出现的词汇频率值TF,并采用以下公式计算加权TF值:
LogTF=log(1+TFmn)/SQRTmaxTFmn,其中maxTFmn为所有TF中的最大值,SQRT为取平方运算,
输出“TF”、待分类词汇m和文档类别n作为关键词,以及加权TF值作为值;
如果是“DF”开头,则根据关键词求和,输出“DF”和待分类词汇m作为关键词,和DFm作为值;
G.主控节点将步骤F的输出分配给对应的计算节点;
H.计算节点进行关键词判断,如果是“DF”开头,则计算:
LogIDF=log(labelDocumentCount/值DFm),其中LabelDocumentCount是待分类词汇列表的总数,
输出“TF”、待分类词汇m和文档类别n作为关键词,以及LogIDF作为值;
如果是“TF”开头,输出原来的关键词和值;
I、计算节点对相同关键词进行求和,LogTFIDF=LogTF+LogIDF,输出“LogTFIDF”、待分类词汇m和文档类别n作为关键词,以及LogTFIDF作为值;
J.主控节点将步骤H和步骤I的输出分配给对应的计算节点;
K.计算节点获得“LogTFIDF”、待分类词汇m和文档类别n的关键词,以及LogTFIDF的值,输出“weightTFIDF”和待分类词汇m作为关键词,以及LogTFIDF作为值;
L.计算节点获得相同的关键词输入集合,进行求和,获得值c,输出“weightTFIDF”、待分类词汇m和文档类别n作为关键词,以及值c为值;
M.总控节点将步骤H和步骤I的输出分配给对应的计算节点;
N.计算节点获得“LogTFIDF”、待分类词汇m和文档类别n的关键词,以及LogTFIDF的值,以“LogTFIDF”和待分类词汇m作为关键词从步骤L的输出中查找对应的结果v,获得待分类词汇对应文档类别的概率gailv=LogTFIDF/v。
15.根据权利要求14所述的一种词汇分类的实现方法,其特征在于,如果所述文档是网页信息,词汇频率值TFmn的计算包括位置因子和字体因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110456676.8A CN103186612B (zh) | 2011-12-30 | 2011-12-30 | 一种词汇分类的方法、系统和实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110456676.8A CN103186612B (zh) | 2011-12-30 | 2011-12-30 | 一种词汇分类的方法、系统和实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103186612A true CN103186612A (zh) | 2013-07-03 |
CN103186612B CN103186612B (zh) | 2016-04-27 |
Family
ID=48677781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110456676.8A Active CN103186612B (zh) | 2011-12-30 | 2011-12-30 | 一种词汇分类的方法、系统和实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103186612B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361010A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种纠正新闻分类的自动分类方法 |
CN104572775A (zh) * | 2013-10-28 | 2015-04-29 | 深圳市腾讯计算机系统有限公司 | 广告分类方法、装置及服务器 |
CN105808529A (zh) * | 2016-03-10 | 2016-07-27 | 武汉传神信息技术有限公司 | 一种语料划分领域的方法和装置 |
WO2017028566A1 (zh) * | 2015-08-19 | 2017-02-23 | 中兴通讯股份有限公司 | 一种云环境资源关注点的采集方法、装置及服务器 |
CN106484729A (zh) * | 2015-08-31 | 2017-03-08 | 华为技术有限公司 | 一种词汇生成、分类方法及装置 |
CN107451168A (zh) * | 2016-05-30 | 2017-12-08 | 中华电信股份有限公司 | 基于词汇统计的档案分类系统及方法 |
CN109635289A (zh) * | 2018-11-30 | 2019-04-16 | 上海智臻智能网络科技股份有限公司 | 词条分类方法及审计信息抽取方法 |
CN109712680A (zh) * | 2019-01-24 | 2019-05-03 | 易保互联医疗信息科技(北京)有限公司 | 基于hl7规范的医疗数据生成方法及系统 |
CN110008407A (zh) * | 2019-04-09 | 2019-07-12 | 苏州浪潮智能科技有限公司 | 一种信息检索方法及装置 |
CN110347841A (zh) * | 2019-07-18 | 2019-10-18 | 北京香侬慧语科技有限责任公司 | 一种文档内容分类的方法、装置、存储介质及电子设备 |
CN110390094A (zh) * | 2018-04-20 | 2019-10-29 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
CN110941714A (zh) * | 2018-09-21 | 2020-03-31 | 武汉安天信息技术有限责任公司 | 分类规则库构建方法、应用分类方法及装置 |
CN113032562A (zh) * | 2021-03-18 | 2021-06-25 | 中国人民解放军火箭军工程大学 | 一种多次迭代对折词汇层级分类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168054A1 (en) * | 2007-01-05 | 2008-07-10 | Hon Hai Precision Industry Co., Ltd. | System and method for searching information and displaying search results |
CN102054006A (zh) * | 2009-11-10 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
CN102207961A (zh) * | 2011-05-25 | 2011-10-05 | 盛乐信息技术(上海)有限公司 | 一种网页自动分类方法及装置 |
-
2011
- 2011-12-30 CN CN201110456676.8A patent/CN103186612B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080168054A1 (en) * | 2007-01-05 | 2008-07-10 | Hon Hai Precision Industry Co., Ltd. | System and method for searching information and displaying search results |
CN102054006A (zh) * | 2009-11-10 | 2011-05-11 | 腾讯科技(深圳)有限公司 | 一种词汇质量挖掘评价方法及装置 |
CN102207961A (zh) * | 2011-05-25 | 2011-10-05 | 盛乐信息技术(上海)有限公司 | 一种网页自动分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
杨健 等: "基于隐马尔可夫模型的文本分类算法", 《计算机应用》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572775B (zh) * | 2013-10-28 | 2019-02-15 | 深圳市腾讯计算机系统有限公司 | 广告分类方法、装置及服务器 |
CN104572775A (zh) * | 2013-10-28 | 2015-04-29 | 深圳市腾讯计算机系统有限公司 | 广告分类方法、装置及服务器 |
WO2015062359A1 (en) * | 2013-10-28 | 2015-05-07 | Tencent Technology (Shenzhen) Company Limited | Method and device for advertisement classification, server and storage medium |
CN104361010A (zh) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | 一种纠正新闻分类的自动分类方法 |
WO2017028566A1 (zh) * | 2015-08-19 | 2017-02-23 | 中兴通讯股份有限公司 | 一种云环境资源关注点的采集方法、装置及服务器 |
CN106484729A (zh) * | 2015-08-31 | 2017-03-08 | 华为技术有限公司 | 一种词汇生成、分类方法及装置 |
CN105808529A (zh) * | 2016-03-10 | 2016-07-27 | 武汉传神信息技术有限公司 | 一种语料划分领域的方法和装置 |
CN105808529B (zh) * | 2016-03-10 | 2018-06-08 | 语联网(武汉)信息技术有限公司 | 一种语料划分领域的方法和装置 |
CN107451168A (zh) * | 2016-05-30 | 2017-12-08 | 中华电信股份有限公司 | 基于词汇统计的档案分类系统及方法 |
CN107451168B (zh) * | 2016-05-30 | 2023-08-04 | 台湾中华电信股份有限公司 | 基于词汇统计的档案分类系统及方法 |
CN110390094B (zh) * | 2018-04-20 | 2023-05-23 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
CN110390094A (zh) * | 2018-04-20 | 2019-10-29 | 伊姆西Ip控股有限责任公司 | 对文档进行分类的方法、电子设备和计算机程序产品 |
CN110941714A (zh) * | 2018-09-21 | 2020-03-31 | 武汉安天信息技术有限责任公司 | 分类规则库构建方法、应用分类方法及装置 |
CN109635289A (zh) * | 2018-11-30 | 2019-04-16 | 上海智臻智能网络科技股份有限公司 | 词条分类方法及审计信息抽取方法 |
CN109712680A (zh) * | 2019-01-24 | 2019-05-03 | 易保互联医疗信息科技(北京)有限公司 | 基于hl7规范的医疗数据生成方法及系统 |
CN109712680B (zh) * | 2019-01-24 | 2021-02-09 | 易保互联医疗信息科技(北京)有限公司 | 基于hl7 规范的医疗数据生成方法及系统 |
CN110008407B (zh) * | 2019-04-09 | 2021-05-04 | 苏州浪潮智能科技有限公司 | 一种信息检索方法及装置 |
CN110008407A (zh) * | 2019-04-09 | 2019-07-12 | 苏州浪潮智能科技有限公司 | 一种信息检索方法及装置 |
CN110347841A (zh) * | 2019-07-18 | 2019-10-18 | 北京香侬慧语科技有限责任公司 | 一种文档内容分类的方法、装置、存储介质及电子设备 |
CN113032562A (zh) * | 2021-03-18 | 2021-06-25 | 中国人民解放军火箭军工程大学 | 一种多次迭代对折词汇层级分类方法及系统 |
CN113032562B (zh) * | 2021-03-18 | 2024-02-02 | 中国人民解放军火箭军工程大学 | 一种多次迭代对折词汇层级分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103186612B (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103186612B (zh) | 一种词汇分类的方法、系统和实现方法 | |
Prusa et al. | Using random undersampling to alleviate class imbalance on tweet sentiment data | |
Wen et al. | Emotion classification in microblog texts using class sequential rules | |
CN107247745B (zh) | 一种基于伪相关反馈模型的信息检索方法及系统 | |
CN101364239B (zh) | 一种分类目录自动构建方法及相关系统 | |
Panchenko et al. | Unsupervised does not mean uninterpretable: The case for word sense induction and disambiguation | |
CN102831128B (zh) | 一种对互联网上的同名人物信息进行分类的方法及装置 | |
CN102567304B (zh) | 一种网络不良信息的过滤方法及装置 | |
Kang et al. | Modeling user interest in social media using news media and wikipedia | |
CN104239373B (zh) | 为文档添加标签的方法及装置 | |
CN105069102A (zh) | 信息推送方法和装置 | |
CN103268348A (zh) | 一种用户查询意图识别方法 | |
CN105760493A (zh) | 一种电力营销服务热点95598工单自动分类方法 | |
CN111832289A (zh) | 一种基于聚类和高斯lda的服务发现方法 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN102646132A (zh) | 宽带用户属性识别方法和装置 | |
Xu et al. | Text similarity algorithm based on semantic vector space model | |
CN108984711B (zh) | 一种基于分层嵌入的个性化app推荐方法 | |
CN106095912A (zh) | 用于生成扩展查询词的方法和装置 | |
Ravindran et al. | K-means document clustering using vector space model | |
CN104536957B (zh) | 农用土地流转信息检索方法和系统 | |
CN101853298A (zh) | 一种面向事件的查询扩展方法 | |
Li et al. | PRIS at TAC2012 KBP Track. | |
CN103177126A (zh) | 用于搜索引擎的色情用户查询识别方法及设备 | |
US8886651B1 (en) | Thematic clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |