CN107704500B

CN107704500B - 一种基于语义分析与多重余弦定理的新闻分类方法

Info

Publication number: CN107704500B
Application number: CN201710749893.3A
Authority: CN
Inventors: 龙华; 祁俊辉; 邵玉斌; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2021-05-14
Anticipated expiration: 2037-08-28
Also published as: CN107704500A

Abstract

本发明涉及一种基于语义分析与多重余弦定理的新闻分类方法，属于信息处理技术领域。本发明创新性地重新定义词权重，利用多重余弦定理，对现阶段的新闻分类方法进行改进。摒弃单纯利用TFIDF值做词权重的方法，而是创新性地将TFIDF值、词性、词长等加权累加，且特别针对人物、地点、专业术语等特殊词项还额外增加了权重；另一方面，对新闻计算其匹配度还使用了多重余弦定理，分别对其计算实意词匹配度和关键词匹配度，再由相关定义确定其属于何种新闻类别。

Description

一种基于语义分析与多重余弦定理的新闻分类方法

技术领域

本发明涉及一种基于语义分析与多重余弦定理的新闻分类方法，属于信息处理技术领域。

背景技术

新闻分类是信息处理中的一个重要方向，通过将大量新闻类文本组织成少数有意义的簇，并保证同一簇内的文本在一定程度上是相似的，达到改善检索的目的。

目前，对文本的相似度量方法主要分为两类：基于统计学和基于语义分析。这两类方法都有各自的优缺点，其中，对于数量级在百万以下的新闻类文本分类很大程度上依靠的是余弦定理。但是现阶段，利用计算机依靠余弦定理对新闻分类的技术并不成熟，准确性欠佳、分类易出错、灵活性差等现象一直存在，在很多情况下还需要人工进行分类。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种基于语义分析与多重余弦定理的新闻分类方法，词权重不再是单纯的TFIDF值，而是创新性地将TFIDF值、词性、词长等加权累加，且针对特殊词项还额外增加了权重；另一方面，对新闻计算其匹配度还使用了多重余弦定理，分别对其计算实意词匹配度和关键词匹配度，再由相关定义确定其属于何种新闻类别。本发明对现阶段的新闻分类方法进行改进，主要解决了现有技术准确性欠佳、分类易出错、灵活性差等现象，致力于增加目前利用计算机依靠余弦定理对新闻分类的准确性。

本发明的技术方案是：一种基于语义分析与多重余弦定理的新闻分类方法，具体步骤为：

Step1：获取待分类新闻文本X，对待分类新闻文本X进行预处理：先采用命名实体识别技术，将待分类新闻文本X中特殊词项挑选出来，对剩余文本进行分词、去停用词、同义词替换操作，生成待分类新闻文本X的实意词集合X:{x₁,x₂…x_m}，其中，实意词集合X:{x₁,x₂…x_m}包含特殊词项；

Step2：求权重：以TFIDF值为主，词性、词长为辅，遍历Step1中得到的待分类新闻文本X的实意词集合X:{x₁,x₂…x_m}，对每个实意词x_i,i∈[1,m]求其权重，并生成实意词权重集合Y:{y₁,y₂…y_m}；应当注意的是，对特殊词项应加以额外权重。

Step3：选取关键词：以实意词x_i,i∈[1,m]为key，权重y_i,i∈[1,m]为value，对Step2中得到的实意词权重y_i,i∈[1,m]排序，选取权重最高的n个实意词作为关键词，并生成关键词集合X':{x₁',x₂'…x_n'}和关键词权重集合Y':{y₁',y₂'…y_n'}；

Step4：对各预设新闻文本模板{P₁,P₂…P_q}同样进行如上步骤所述的预处理、求权重、选取关键词操作，并将数据保存至数据库以备调用；其中，每个预设新闻文本模板P_i,i∈[1,q]对应一种新闻类别，即新闻共q个类别；

Step4.1：计算实意词匹配度R(X,P_i),i∈[1,q]：以待分类新闻文本X的实意词集合X:{x₁,x₂…x_m}和实意词权重集合Y:{y₁,y₂…y_m}，生成实意词特征向量F_X＝{f_x1,f_x2…f_xg}，同样对预设新闻文本模板P_i,i∈[1,q]也以此生成实意词特征向量

由余弦定理确定待分类新闻文本X与预设新闻文本模板P_i,i∈[1,q]之间的实意词匹配度R(X,P_i),i∈[1,q]；g为实意词特征向量F_X＝{f_x1,f_x2…f_xg}的长度；

Step4.2：计算关键词匹配度R(X',P_i),i∈[1,q]：以待分类新闻文本X的关键词集合X':{x₁',x₂'…x_n'}和关键词权重集合Y':{y₁',y₂'…y_n'}，生成关键词特征向量F_X'＝{f_x'₁,f_x'₂…f_x'_g}，同样对预设新闻本文模板P_i,i∈[1,q]也以此生成关键词特征向量

由余弦定理确定待分类新闻文本X与预设新闻文本模板P_i,i∈[1,q]之间的关键词匹配度R(X',P_i),i∈[1,q]；g为关键词特征向量F_X'＝{f_x'₁,f_x'₂…f_x'_g}的长度；

Step5：对所有预设新闻文本模板{P₁,P₂…P_q}，都依据Step4.1和Step4.2计算实意词匹配度R(X,P_i),i∈[1,q]和关键词匹配度R(X',P_i),i∈[1,q]，因为一篇文章可能同属多类，故若

1≥R(X,P_i)≥r,i∈[1,q]

或

r＞R(X,P_i)≥(r-r'),i∈[1,q]，且1≥R(X',P_i)≥r,i∈[1,q]

则认为此待分类新闻文本X属于该预设新闻文本模板P_i,i∈[1,q]所属的新闻类，r

为新闻文本分类阈值，r'为存在误差。

所述步骤Step1中，特殊词项包括人名、地名、组织机构名称、专业术语。

所述步骤Step2中计算权重的公式为：

其中，

为词x_i,i∈[1,m]的TFIDF值，

为词x_i,i∈[1,m]的词性转化值，

为词x_i,i∈[1,m]的长度，w_tfidf、w_pro、w_len分别为其各参数权重，且满足：

w_tfidf＞w_pro＞w_len＞0，且w_tfidf+w_pro+w_len＝1

另外，由于特殊词项存在特别，故不设置其参数权重，且对于任何词汇xi,i∈[1,m]，若为特殊词项，则

统一为1(可根据实际情况调整)，否则为0，

为特殊词项的额外加权。

所述步骤Step2中，先对所有词xi,i∈[1,m]查语义词典，获得该词所属词性，对于不同词性的词xi,i∈[1,m]，其对应的词性转化值

应满足：

pro_n＞por_v＞por_adj＞poro_ther＞0

其中，pro_n、por_v、por_adj、por_other分别对应于名词、动词、形容词、其他词性的词性转化值。

所述步骤Step1和Step3中，实意词集合X:{x₁,x₂…x_m}和关键词集合X':{x₁',x₂'…x_n'}应满足：m＞n＞0

其中，n值可根据实际分类情况调整，以提高准确性。

所述步骤Step4属提前性任务，且只需进行一次，正常化对待分类新闻文本进行分类时无需执行此步骤，所需数据直接调用数据库即可；并且，新闻分类的粗细程度，是由各预设新闻文本模板{P₁,P₂…P_q}所划分的新闻类别决定的，对于不同程度的分类，需调整步骤Step5中所述的新闻文本分类阈值r和存在误差r'，以提高准确性。

所述步骤Step4.1中，实意词特征向量F_X＝{f_x1,f_x2…f_xg}的长度g由待分类新闻文本的实意词集合X:{x₁,x₂…x_m}和预设新闻文本模板的实意词集合P_i:{p_i1,p_i2…p_ik},i∈[1,q]中集合长度(词的个数)决定，即实意词特征向量F_X＝{f_x1,f_x2…f_xg}的长度g为待分类新闻文本的实意词集合X:{x₁,x₂…x_m}和预设新闻文本模板的实意词集合P_i:{p_i1,p_i2…p_ik},i∈[1,q]的并集集合长度：k为实意词的数量，值为集合中元素的个数；

g＝len(X∪P_i)

同理，所述步骤Step4.2中关键词特征向量F_X'＝{f_x'1,f_x'2…f_x'g}的长度g为待分类新闻文本的关键词集合X':{x₁',x₂'…x_n'}和预设新闻文本模板的关键词集合P_i':{p_i1',p_i2'…p_ik'},i∈[1,q]的并集集合长度：k为关键词的数量，值为集合中元素的个数；

g＝len(X'∪P_i')。

所述步骤Step4.1和Step4.2中，计算所得的实意词匹配度R(X,P_i),i∈[1,q]和关键词匹配度R(X',P_i),i∈[1,q]理应满足：

本发明的有益效果是：创新性地重新定义词权重，利用多重余弦定理，对现阶段的新闻分类方法进行改进。摒弃单纯利用TFIDF值做词权重的方法，而是创新性地将TFIDF值、词性、词长等加权累加，且特别针对人物、地点、专业术语等特殊词项还额外增加了权重；另一方面，对新闻计算其匹配度还使用了多重余弦定理，分别对其计算实意词匹配度和关键词匹配度，再由相关定义确定其属于何种新闻类别。本发明与现有技术相比，主要解决了现有技术准确性欠佳、分类易出错、灵活性差等现象，致力于增加目前利用计算机依靠余弦定理对新闻分类的准确性。

附图说明

图1是本发明总流程示意图；

图2是本发明预处理流程示意图；

图3是本发明求权重流程示意图；

图4是本发明计算匹配度及分类流程示意图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-4所示，一种基于语义分析与多重余弦定理的新闻分类方法，具体步骤为：

Step1：获取待分类新闻文本X，对待分类新闻文本X进行预处理：先采用命名实体识别技术，将待分类新闻文本X中特殊词项挑选出来，对剩余文本进行分词、去停用词、同义词替换等操作，生成待分类新闻文本X的实意词集合X:{x₁,x₂…x_m}，其中，实意词集合X:{x₁,x₂…x_m}包含特殊词项；

Step4：对各预设新闻文本模板{P₁,P₂…P_q}同样进行如上步骤所述的预处理、求权重、选取关键词等操作，并将数据保存至数据库以备调用；其中，每个预设新闻文本模板P_i,i∈[1,q]对应一种新闻类别，即新闻共q个类别；

由余弦定理确定待分类新闻文本X与预设新闻文本模板P_i,i∈[1,q]之间的实意词匹配度R(X,P_i),i∈[1,q]；

Step4.2：计算关键词匹配度R(X',P_i),i∈[1,q]：以待分类新闻文本X的关键词集合X':{x₁',x₂'…x_n'}和关键词权重集合Y':{y₁',y₂'…y_n'}，生成关键词特征向量F_X'＝{f_x'1,f_x'2…f_x'g}，同样对预设新闻本文模板P_i,i∈[1,q]也以此生成关键词特征向量

由余弦定理确定待分类新闻文本X与预设新闻文本模板P_i,i∈[1,q]之间的关键词匹配度R(X',P_i),i∈[1,q]；

Step5：对所有预设新闻文本模板{P₁,P₂…P_q}，都依据Step4.1和Step4.2所计算实意词匹配度R(X,P_i),i∈[1,q]和关键词匹配度R(X',P_i),i∈[1,q]，因为一篇文章可能同属多类，故若

1≥R(X,P_i)≥r,i∈[1,q]

或

r＞R(X,P_i)≥(r-r'),i∈[1,q]，且1≥R(X',P_i)≥r,i∈[1,q]

则认为此待分类新闻文本X属于该预设新闻文本模板P_i,i∈[1,q]所属的新闻类。

所述步骤Step1中，特殊词项包括人名、地名、组织机构名称、专业术语。所述步骤Step1中，对文本进行分词、去停用词、同义词替换等操作，可以采用分词包、停用词库、同义词库等。

所述步骤Step2中计算权重的公式为：

其中

为词x_i,i∈[1,m]的TFIDF值

为词x_i,i∈[1,m]的词性转化值

，为词x_i,i∈[1,m]的长度，w_tfidf、w_pro、w_len分别为其各参数权重，且满足：

w_tfidf＞w_pro＞w_len＞0，且w_tfidf+w_pro+w_len＝1

另外，由于特殊词项存在特别，故不设置其参数权重，且对于任何词汇x_i,i∈[1,m]，若为特殊词项，则

统一为1(可根据实际情况调整)，否则为0。

所述步骤Step2中，先对所有词x_i,i∈[1,m]查语义词典，获得该词所属词性，对于不同词性的词x_i,i∈[1,m]，其对应的词性转化值

应满足：

pro_n＞por_v＞por_adj＞por_other＞0

所述步骤Step1和Step3中，实意词集合X:{x₁,x₂…x_m}和关键词集合X':{x₁',x₂'…x_n'}应满足：

m＞n＞0

其中，n值可根据实际分类情况调整，以提高准确性。

所述步骤Step3.x中，除各预设新闻文本模板对应一种新闻类别外，预设新闻文本模板应能代表该新闻类别的特征，理应包括该新闻类别中的一些代表性词汇，如人名、地名、组织机构名称、专业术语等。考虑到某些领域中经常会增加、删除或修改特殊词项，故预设新闻文本模板需时常更新(或自动学习)，并且命名实体识别技术需使用最新版，以提高准确性。

g＝len(X∪P_i)

同理，所述步骤Step4.2中关键词特征向量F_X'＝{f_x'1,f_x'2…f_x'g}的长度g为待分类新闻文本的关键词集合X':{x₁',x₂'…x_n'}和预设新闻文本模板的关键词集合P_i':{p_i1',p_i2'…p_ik'},i∈[1,q]的并集集合长度：

g＝len(X'∪P_i')。

若不满足，则视为计算错误，需重新计算。

所述步骤Step5中，新闻文本分类阈值r和存在误差r'可根据实际分类情况调整其参数值，以提高准确性。

实施例2：如图1-4所示，在实施例1的基础上，对于大多数文本相似度量方法，都会忽略人名、地名、组织机构名称、专业术语等一些特殊词项，因为这些特殊词项不提供有效信息。但本发明认为人名、地名、组织机构名称、专业术语等这些特殊词项是衡量一篇新闻文本归属何类的重要指标。例如，一篇新闻文本中若经常出现国家领导人名字等词汇，无需浏览全文，基本可以确定该新闻文本应归属政治类别。再如，一篇新闻文本中若经常出现一些运动员名字等词汇，无需浏览全文，基本可以确定该新闻文本应归属体育类别。这也是本发明强调对特殊词项增加额外权重的原因。

实施例3：如图1-4所示，在实施例1的基础上，本发明将词长也作为衡量词权重的一个指标。据研究，中文词语长度服从一定条件下的χ²分布，也就是说，长度越长的词汇，越不容易出现在文本中，这也就决定了长度越长的词汇具有很好的类区分能力。例如，一篇新闻文本中若出现“中华人民共和国”等词汇，无需浏览全文，基本可以确定该新闻文本应归属国际新闻类别，因为国内新闻大多使用简写“中国”，而非“中华人民共和国”。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于语义分析与多重余弦定理的新闻分类方法，其特征在于：

Step2：求权重：以TFIDF值为主，词性、词长为辅，遍历Step1中得到的待分类新闻文本X的实意词集合X:{x₁,x₂…x_m}，对每个实意词x_i,i∈[1,m]求其权重，并生成实意词权重集合Y:{y₁,y₂…y_m}；

由余弦定理确定待分类新闻文本X与预设新闻文本模板P_i,i∈[1,q]之间的关键词匹配度R(X',P_i),i∈[1,q]；g为关键词特征向量F_X'＝{f_x'1,f_x'2…f_x'g}的长度；

Step5：对所有预设新闻文本模板{P₁,P₂…P_q}，都依据Step4.1和Step4.2计算实意词匹配度R(X,P_i),i∈[1,q]和关键词匹配度R(X',P_i),i∈[1,q]，因为一篇文章可能同属多类，故若1≥R(X,P_i)≥r,i∈[1,q]

或

r＞R(X,P_i)≥(r-r'),i∈[1,q]，且1≥R(X',P_i)≥r,i∈[1,q]

则认为此待分类新闻文本X属于该预设新闻文本模板P_i,i∈[1,q]所属的新闻类，r为新闻文本分类阈值，r'为存在误差。

2.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法，其特征在于：

3.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法，其特征在于：

所述步骤Step2中计算权重的公式为：

其中，

为词x_i,i∈[1,m]的TFIDF值，

为词x_i,i∈[1,m]的词性转化值，

w_tfidf＞w_pro＞w_len＞0，且w_tfidf+w_pro+w_len＝1

统一为1，否则为0，

为特殊词项的额外加权。

4.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法，其特征在于：所述步骤Step2中，先对所有词x_i,i∈[1,m]查语义词典，获得该词所属词性，对于不同词性的词x_i,i∈[1,m]，其对应的词性转化值

应满足：

pro_n＞por_v＞por_adj＞por_other＞0

5.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法，其特征在于：所述步骤Step1和Step3中，实意词集合X:{x₁,x₂…x_m}和关键词集合X':{x₁',x₂'…x_n'}应满足：

m＞n＞0

其中，n值可根据实际分类情况调整，以提高准确性。

6.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法，其特征在于：所述步骤Step4属提前性任务，且只需进行一次，正常化对待分类新闻文本进行分类时无需执行此步骤，所需数据直接调用数据库即可；并且，新闻分类的粗细程度，是由各预设新闻文本模板{P₁,P₂…P_q}所划分的新闻类别决定的，对于不同程度的分类，需调整步骤Step5中所述的新闻文本分类阈值r和存在误差r'，以提高准确性。

7.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法，其特征在于：所述步骤Step4.1中，实意词特征向量F_X＝{f_x1,f_x2…f_xg}的长度g由待分类新闻文本的实意词集合X:{x₁,x₂…x_m}和预设新闻文本模板的实意词集合P_i:{p_i1,p_i2…p_ik},i∈[1,q]中集合长度决定，即实意词特征向量F_X＝{f_x1,f_x2…f_xg}的长度g为待分类新闻文本的实意词集合X:{x₁,x₂…x_m}和预设新闻文本模板的实意词集合P_i:{p_i1,p_i2…p_ik},i∈[1,q]的并集集合长度：k为实意词的数量，值为集合中元素的个数；

g＝len(X∪P_i)

g＝len(X'∪P_i')。

8.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法，其特征在于：所述步骤Step4.1和Step4.2中，计算所得的实意词匹配度R(X,P_i),i∈[1,q]和关键词匹配度R(X',P_i),i∈[1,q]理应满足：

若不满足，则视为计算错误，需重新计算。