CN107704500B - 一种基于语义分析与多重余弦定理的新闻分类方法 - Google Patents

一种基于语义分析与多重余弦定理的新闻分类方法 Download PDF

Info

Publication number
CN107704500B
CN107704500B CN201710749893.3A CN201710749893A CN107704500B CN 107704500 B CN107704500 B CN 107704500B CN 201710749893 A CN201710749893 A CN 201710749893A CN 107704500 B CN107704500 B CN 107704500B
Authority
CN
China
Prior art keywords
news
news text
word
classified
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710749893.3A
Other languages
English (en)
Other versions
CN107704500A (zh
Inventor
龙华
祁俊辉
邵玉斌
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201710749893.3A priority Critical patent/CN107704500B/zh
Publication of CN107704500A publication Critical patent/CN107704500A/zh
Application granted granted Critical
Publication of CN107704500B publication Critical patent/CN107704500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于语义分析与多重余弦定理的新闻分类方法,属于信息处理技术领域。本发明创新性地重新定义词权重,利用多重余弦定理,对现阶段的新闻分类方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词性、词长等加权累加,且特别针对人物、地点、专业术语等特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。

Description

一种基于语义分析与多重余弦定理的新闻分类方法
技术领域
本发明涉及一种基于语义分析与多重余弦定理的新闻分类方法,属于信息处理技术领域。
背景技术
新闻分类是信息处理中的一个重要方向,通过将大量新闻类文本组织成少数有意义的簇,并保证同一簇内的文本在一定程度上是相似的,达到改善检索的目的。
目前,对文本的相似度量方法主要分为两类:基于统计学和基于语义分析。这两类方法都有各自的优缺点,其中,对于数量级在百万以下的新闻类文本分类很大程度上依靠的是余弦定理。但是现阶段,利用计算机依靠余弦定理对新闻分类的技术并不成熟,准确性欠佳、分类易出错、灵活性差等现象一直存在,在很多情况下还需要人工进行分类。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于语义分析与多重余弦定理的新闻分类方法,词权重不再是单纯的TFIDF值,而是创新性地将TFIDF值、词性、词长等加权累加,且针对特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。本发明对现阶段的新闻分类方法进行改进,主要解决了现有技术准确性欠佳、分类易出错、灵活性差等现象,致力于增加目前利用计算机依靠余弦定理对新闻分类的准确性。
本发明的技术方案是:一种基于语义分析与多重余弦定理的新闻分类方法,具体步骤为:
Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;
Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};应当注意的是,对特殊词项应加以额外权重。
Step3:选取关键词:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};
Step4:对各预设新闻文本模板{P1,P2…Pq}同样进行如上步骤所述的预处理、求权重、选取关键词操作,并将数据保存至数据库以备调用;其中,每个预设新闻文本模板Pi,i∈[1,q]对应一种新闻类别,即新闻共q个类别;
Step4.1:计算实意词匹配度R(X,Pi),i∈[1,q]:以待分类新闻文本X的实意词集合X:{x1,x2…xm}和实意词权重集合Y:{y1,y2…ym},生成实意词特征向量FX={fx1,fx2…fxg},同样对预设新闻文本模板Pi,i∈[1,q]也以此生成实意词特征向量
Figure GDA0002873810550000021
由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的实意词匹配度R(X,Pi),i∈[1,q];g为实意词特征向量FX={fx1,fx2…fxg}的长度;
Step4.2:计算关键词匹配度R(X',Pi),i∈[1,q]:以待分类新闻文本X的关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'},生成关键词特征向量FX'={fx'1,fx'2…fx'g},同样对预设新闻本文模板Pi,i∈[1,q]也以此生成关键词特征向量
Figure GDA0002873810550000022
由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的关键词匹配度R(X',Pi),i∈[1,q];g为关键词特征向量FX'={fx'1,fx'2…fx'g}的长度;
Step5:对所有预设新闻文本模板{P1,P2…Pq},都依据Step4.1和Step4.2计算实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q],因为一篇文章可能同属多类,故若
1≥R(X,Pi)≥r,i∈[1,q]
r>R(X,Pi)≥(r-r'),i∈[1,q],且1≥R(X',Pi)≥r,i∈[1,q]
则认为此待分类新闻文本X属于该预设新闻文本模板Pi,i∈[1,q]所属的新闻类,r
为新闻文本分类阈值,r'为存在误差。
所述步骤Step1中,特殊词项包括人名、地名、组织机构名称、专业术语。
所述步骤Step2中计算权重的公式为:
Figure GDA0002873810550000023
其中,
Figure GDA0002873810550000024
为词xi,i∈[1,m]的TFIDF值,
Figure GDA0002873810550000025
为词xi,i∈[1,m]的词性转化值,
Figure GDA0002873810550000026
为词xi,i∈[1,m]的长度,wtfidf、wpro、wlen分别为其各参数权重,且满足:
wtfidf>wpro>wlen>0,且wtfidf+wpro+wlen=1
另外,由于特殊词项存在特别,故不设置其参数权重,且对于任何词汇xi,i∈[1,m],若为特殊词项,则
Figure GDA0002873810550000027
统一为1(可根据实际情况调整),否则为0,
Figure GDA0002873810550000028
为特殊词项的额外加权。
所述步骤Step2中,先对所有词xi,i∈[1,m]查语义词典,获得该词所属词性,对于不同词性的词xi,i∈[1,m],其对应的词性转化值
Figure GDA0002873810550000029
应满足:
pron>porv>poradj>porother>0
其中,pron、porv、poradj、porother分别对应于名词、动词、形容词、其他词性的词性转化值。
所述步骤Step1和Step3中,实意词集合X:{x1,x2…xm}和关键词集合X':{x1',x2'…xn'}应满足:m>n>0
其中,n值可根据实际分类情况调整,以提高准确性。
所述步骤Step4属提前性任务,且只需进行一次,正常化对待分类新闻文本进行分类时无需执行此步骤,所需数据直接调用数据库即可;并且,新闻分类的粗细程度,是由各预设新闻文本模板{P1,P2…Pq}所划分的新闻类别决定的,对于不同程度的分类,需调整步骤Step5中所述的新闻文本分类阈值r和存在误差r',以提高准确性。
所述步骤Step4.1中,实意词特征向量FX={fx1,fx2…fxg}的长度g由待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]中集合长度(词的个数)决定,即实意词特征向量FX={fx1,fx2…fxg}的长度g为待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]的并集集合长度:k为实意词的数量,值为集合中元素的个数;
g=len(X∪Pi)
同理,所述步骤Step4.2中关键词特征向量FX'={fx'1,fx'2…fx'g}的长度g为待分类新闻文本的关键词集合X':{x1',x2'…xn'}和预设新闻文本模板的关键词集合Pi':{pi1',pi2'…pik'},i∈[1,q]的并集集合长度:k为关键词的数量,值为集合中元素的个数;
g=len(X'∪Pi')。
所述步骤Step4.1和Step4.2中,计算所得的实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q]理应满足:
Figure GDA0002873810550000031
本发明的有益效果是:创新性地重新定义词权重,利用多重余弦定理,对现阶段的新闻分类方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词性、词长等加权累加,且特别针对人物、地点、专业术语等特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。本发明与现有技术相比,主要解决了现有技术准确性欠佳、分类易出错、灵活性差等现象,致力于增加目前利用计算机依靠余弦定理对新闻分类的准确性。
附图说明
图1是本发明总流程示意图;
图2是本发明预处理流程示意图;
图3是本发明求权重流程示意图;
图4是本发明计算匹配度及分类流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-4所示,一种基于语义分析与多重余弦定理的新闻分类方法,具体步骤为:
Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换等操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;
Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};应当注意的是,对特殊词项应加以额外权重。
Step3:选取关键词:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};
Step4:对各预设新闻文本模板{P1,P2…Pq}同样进行如上步骤所述的预处理、求权重、选取关键词等操作,并将数据保存至数据库以备调用;其中,每个预设新闻文本模板Pi,i∈[1,q]对应一种新闻类别,即新闻共q个类别;
Step4.1:计算实意词匹配度R(X,Pi),i∈[1,q]:以待分类新闻文本X的实意词集合X:{x1,x2…xm}和实意词权重集合Y:{y1,y2…ym},生成实意词特征向量FX={fx1,fx2…fxg},同样对预设新闻文本模板Pi,i∈[1,q]也以此生成实意词特征向量
Figure GDA0002873810550000041
由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的实意词匹配度R(X,Pi),i∈[1,q];
Step4.2:计算关键词匹配度R(X',Pi),i∈[1,q]:以待分类新闻文本X的关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'},生成关键词特征向量FX'={fx'1,fx'2…fx'g},同样对预设新闻本文模板Pi,i∈[1,q]也以此生成关键词特征向量
Figure GDA0002873810550000042
由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的关键词匹配度R(X',Pi),i∈[1,q];
Step5:对所有预设新闻文本模板{P1,P2…Pq},都依据Step4.1和Step4.2所计算实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q],因为一篇文章可能同属多类,故若
1≥R(X,Pi)≥r,i∈[1,q]
r>R(X,Pi)≥(r-r'),i∈[1,q],且1≥R(X',Pi)≥r,i∈[1,q]
则认为此待分类新闻文本X属于该预设新闻文本模板Pi,i∈[1,q]所属的新闻类。
所述步骤Step1中,特殊词项包括人名、地名、组织机构名称、专业术语。所述步骤Step1中,对文本进行分词、去停用词、同义词替换等操作,可以采用分词包、停用词库、同义词库等。
所述步骤Step2中计算权重的公式为:
Figure GDA0002873810550000043
其中
Figure GDA0002873810550000044
为词xi,i∈[1,m]的TFIDF值
Figure GDA0002873810550000045
为词xi,i∈[1,m]的词性转化值
Figure GDA0002873810550000046
,为词xi,i∈[1,m]的长度,wtfidf、wpro、wlen分别为其各参数权重,且满足:
wtfidf>wpro>wlen>0,且wtfidf+wpro+wlen=1
另外,由于特殊词项存在特别,故不设置其参数权重,且对于任何词汇xi,i∈[1,m],若为特殊词项,则
Figure GDA0002873810550000047
统一为1(可根据实际情况调整),否则为0。
所述步骤Step2中,先对所有词xi,i∈[1,m]查语义词典,获得该词所属词性,对于不同词性的词xi,i∈[1,m],其对应的词性转化值
Figure GDA0002873810550000048
应满足:
pron>porv>poradj>porother>0
其中,pron、porv、poradj、porother分别对应于名词、动词、形容词、其他词性的词性转化值。
所述步骤Step1和Step3中,实意词集合X:{x1,x2…xm}和关键词集合X':{x1',x2'…xn'}应满足:
m>n>0
其中,n值可根据实际分类情况调整,以提高准确性。
所述步骤Step4属提前性任务,且只需进行一次,正常化对待分类新闻文本进行分类时无需执行此步骤,所需数据直接调用数据库即可;并且,新闻分类的粗细程度,是由各预设新闻文本模板{P1,P2…Pq}所划分的新闻类别决定的,对于不同程度的分类,需调整步骤Step5中所述的新闻文本分类阈值r和存在误差r',以提高准确性。
所述步骤Step3.x中,除各预设新闻文本模板对应一种新闻类别外,预设新闻文本模板应能代表该新闻类别的特征,理应包括该新闻类别中的一些代表性词汇,如人名、地名、组织机构名称、专业术语等。考虑到某些领域中经常会增加、删除或修改特殊词项,故预设新闻文本模板需时常更新(或自动学习),并且命名实体识别技术需使用最新版,以提高准确性。
所述步骤Step4.1中,实意词特征向量FX={fx1,fx2…fxg}的长度g由待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]中集合长度(词的个数)决定,即实意词特征向量FX={fx1,fx2…fxg}的长度g为待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]的并集集合长度:k为实意词的数量,值为集合中元素的个数;
g=len(X∪Pi)
同理,所述步骤Step4.2中关键词特征向量FX'={fx'1,fx'2…fx'g}的长度g为待分类新闻文本的关键词集合X':{x1',x2'…xn'}和预设新闻文本模板的关键词集合Pi':{pi1',pi2'…pik'},i∈[1,q]的并集集合长度:
g=len(X'∪Pi')。
所述步骤Step4.1和Step4.2中,计算所得的实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q]理应满足:
Figure GDA0002873810550000051
若不满足,则视为计算错误,需重新计算。
所述步骤Step5中,新闻文本分类阈值r和存在误差r'可根据实际分类情况调整其参数值,以提高准确性。
实施例2:如图1-4所示,在实施例1的基础上,对于大多数文本相似度量方法,都会忽略人名、地名、组织机构名称、专业术语等一些特殊词项,因为这些特殊词项不提供有效信息。但本发明认为人名、地名、组织机构名称、专业术语等这些特殊词项是衡量一篇新闻文本归属何类的重要指标。例如,一篇新闻文本中若经常出现国家领导人名字等词汇,无需浏览全文,基本可以确定该新闻文本应归属政治类别。再如,一篇新闻文本中若经常出现一些运动员名字等词汇,无需浏览全文,基本可以确定该新闻文本应归属体育类别。这也是本发明强调对特殊词项增加额外权重的原因。
实施例3:如图1-4所示,在实施例1的基础上,本发明将词长也作为衡量词权重的一个指标。据研究,中文词语长度服从一定条件下的χ2分布,也就是说,长度越长的词汇,越不容易出现在文本中,这也就决定了长度越长的词汇具有很好的类区分能力。例如,一篇新闻文本中若出现“中华人民共和国”等词汇,无需浏览全文,基本可以确定该新闻文本应归属国际新闻类别,因为国内新闻大多使用简写“中国”,而非“中华人民共和国”。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.一种基于语义分析与多重余弦定理的新闻分类方法,其特征在于:
Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;
Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};
Step3:选取关键词:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};
Step4:对各预设新闻文本模板{P1,P2…Pq}同样进行如上步骤所述的预处理、求权重、选取关键词操作,并将数据保存至数据库以备调用;其中,每个预设新闻文本模板Pi,i∈[1,q]对应一种新闻类别,即新闻共q个类别;
Step4.1:计算实意词匹配度R(X,Pi),i∈[1,q]:以待分类新闻文本X的实意词集合X:{x1,x2…xm}和实意词权重集合Y:{y1,y2…ym},生成实意词特征向量FX={fx1,fx2…fxg},同样对预设新闻文本模板Pi,i∈[1,q]也以此生成实意词特征向量
Figure FDA0002873810540000011
由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的实意词匹配度R(X,Pi),i∈[1,q];g为实意词特征向量FX={fx1,fx2…fxg}的长度;
Step4.2:计算关键词匹配度R(X',Pi),i∈[1,q]:以待分类新闻文本X的关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'},生成关键词特征向量FX'={fx'1,fx'2…fx'g},同样对预设新闻本文模板Pi,i∈[1,q]也以此生成关键词特征向量
Figure FDA0002873810540000012
由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的关键词匹配度R(X',Pi),i∈[1,q];g为关键词特征向量FX'={fx'1,fx'2…fx'g}的长度;
Step5:对所有预设新闻文本模板{P1,P2…Pq},都依据Step4.1和Step4.2计算实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q],因为一篇文章可能同属多类,故若1≥R(X,Pi)≥r,i∈[1,q]
r>R(X,Pi)≥(r-r'),i∈[1,q],且1≥R(X',Pi)≥r,i∈[1,q]
则认为此待分类新闻文本X属于该预设新闻文本模板Pi,i∈[1,q]所属的新闻类,r为新闻文本分类阈值,r'为存在误差。
2.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:
所述步骤Step1中,特殊词项包括人名、地名、组织机构名称、专业术语。
3.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:
所述步骤Step2中计算权重的公式为:
Figure FDA0002873810540000013
其中,
Figure FDA0002873810540000014
为词xi,i∈[1,m]的TFIDF值,
Figure FDA0002873810540000015
为词xi,i∈[1,m]的词性转化值,
Figure FDA0002873810540000016
为词xi,i∈[1,m]的长度,wtfidf、wpro、wlen分别为其各参数权重,且满足:
wtfidf>wpro>wlen>0,且wtfidf+wpro+wlen=1
另外,由于特殊词项存在特别,故不设置其参数权重,且对于任何词汇xi,i∈[1,m],若为特殊词项,则
Figure FDA0002873810540000022
统一为1,否则为0,
Figure FDA0002873810540000023
为特殊词项的额外加权。
4.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step2中,先对所有词xi,i∈[1,m]查语义词典,获得该词所属词性,对于不同词性的词xi,i∈[1,m],其对应的词性转化值
Figure FDA0002873810540000024
应满足:
pron>porv>poradj>porother>0
其中,pron、porv、poradj、porother分别对应于名词、动词、形容词、其他词性的词性转化值。
5.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step1和Step3中,实意词集合X:{x1,x2…xm}和关键词集合X':{x1',x2'…xn'}应满足:
m>n>0
其中,n值可根据实际分类情况调整,以提高准确性。
6.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step4属提前性任务,且只需进行一次,正常化对待分类新闻文本进行分类时无需执行此步骤,所需数据直接调用数据库即可;并且,新闻分类的粗细程度,是由各预设新闻文本模板{P1,P2…Pq}所划分的新闻类别决定的,对于不同程度的分类,需调整步骤Step5中所述的新闻文本分类阈值r和存在误差r',以提高准确性。
7.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step4.1中,实意词特征向量FX={fx1,fx2…fxg}的长度g由待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]中集合长度决定,即实意词特征向量FX={fx1,fx2…fxg}的长度g为待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]的并集集合长度:k为实意词的数量,值为集合中元素的个数;
g=len(X∪Pi)
同理,所述步骤Step4.2中关键词特征向量FX'={fx'1,fx'2…fx'g}的长度g为待分类新闻文本的关键词集合X':{x1',x2'…xn'}和预设新闻文本模板的关键词集合Pi':{pi1',pi2'…pik'},i∈[1,q]的并集集合长度:k为关键词的数量,值为集合中元素的个数;
g=len(X'∪Pi')。
8.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step4.1和Step4.2中,计算所得的实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q]理应满足:
Figure FDA0002873810540000021
若不满足,则视为计算错误,需重新计算。
CN201710749893.3A 2017-08-28 2017-08-28 一种基于语义分析与多重余弦定理的新闻分类方法 Active CN107704500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710749893.3A CN107704500B (zh) 2017-08-28 2017-08-28 一种基于语义分析与多重余弦定理的新闻分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710749893.3A CN107704500B (zh) 2017-08-28 2017-08-28 一种基于语义分析与多重余弦定理的新闻分类方法

Publications (2)

Publication Number Publication Date
CN107704500A CN107704500A (zh) 2018-02-16
CN107704500B true CN107704500B (zh) 2021-05-14

Family

ID=61171219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710749893.3A Active CN107704500B (zh) 2017-08-28 2017-08-28 一种基于语义分析与多重余弦定理的新闻分类方法

Country Status (1)

Country Link
CN (1) CN107704500B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086271A (zh) * 2018-08-01 2018-12-25 昆明理工大学 一种基于多重余弦定理的文章相关度计算方法
CN109359291A (zh) * 2018-08-28 2019-02-19 昆明理工大学 一种命名实体识别方法
CN110750639A (zh) * 2019-07-02 2020-02-04 厦门美域中央信息科技有限公司 一种基于向量空间模型的文本分类及r语言实现
CN113010669B (zh) * 2020-12-24 2022-06-21 华戎信息产业有限公司 一种新闻分类方法和系统
CN114996463B (zh) * 2022-07-18 2022-11-01 武汉大学人民医院(湖北省人民医院) 一种病例的智能分类方法和装置
CN117131257B (zh) * 2023-10-26 2023-12-26 环球数科集团有限公司 一种基于aigc的资讯文档收集系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法
CN102289522A (zh) * 2011-09-19 2011-12-21 北京金和软件股份有限公司 一种对于文本智能分类的方法
US8375036B1 (en) * 2009-01-09 2013-02-12 Google Inc. Book content item search
CN103092877A (zh) * 2011-11-04 2013-05-08 百度在线网络技术(北京)有限公司 一种关键词推荐方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4637969B1 (ja) * 2009-12-31 2011-02-23 株式会社Taggy ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375036B1 (en) * 2009-01-09 2013-02-12 Google Inc. Book content item search
CN102289522A (zh) * 2011-09-19 2011-12-21 北京金和软件股份有限公司 一种对于文本智能分类的方法
CN102289523A (zh) * 2011-09-20 2011-12-21 北京金和软件股份有限公司 一种文本智能提取标签的方法
CN103092877A (zh) * 2011-11-04 2013-05-08 百度在线网络技术(北京)有限公司 一种关键词推荐方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A novel feature selection based on Tibetan grammar for Tibetan text classification;Tao Jiang et al;《2015 6th IEEE International Conference on Software Engineering and Service Science (ICSESS)》;20151130;第445-448页 *
An automatic classifier for exam questions with WordNet and Cosine similarity;K. Jayakodi et al;《2016 Moratuwa Engineering Research Conference (MERCon)》;20160530;第12-17页 *
中文文本分类中的特征选择和权重计算方法研究;宋惟然;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315;第2014年卷(第03期);第I138-1135页 *
基于改进的TFIDF关键词自动提取算法研究;杨凯艳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160415;第2016年卷(第04期);第I138-1535页 *

Also Published As

Publication number Publication date
CN107704500A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
CN107704500B (zh) 一种基于语义分析与多重余弦定理的新闻分类方法
CN107577785B (zh) 一种适用于法律识别的层次多标签分类方法
WO2018120899A1 (zh) 一种商标查询结果近似度评价和排序方法、装置
KR102020756B1 (ko) 머신러닝을 이용한 리뷰 분석 방법
US8671040B2 (en) Credit risk mining
Ye et al. Sentiment classification for movie reviews in Chinese by improved semantic oriented approach
RU2375747C2 (ru) Проверка релевантности между ключевыми словами и содержанием веб-сайта
CN103425777B (zh) 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
Liu et al. Exploring phrase-based classification of judicial documents for criminal charges in chinese
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN107145560B (zh) 一种文本分类方法及装置
CN108763402A (zh) 基于依存关系、词性和语义词典的类中心向量文本分类法
Huang et al. A patent keywords extraction method using TextRank model with prior public knowledge
US20190340517A2 (en) A method for detection and characterization of technical emergence and associated methods
CN116644184B (zh) 基于数据聚类的人力资源信息管理系统
Ahmad et al. A review of feature selection in sentiment analysis using information gain and domain specific ontology
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
CN114528848B (zh) 一种基于指标阈值和语义解析的安全分析和自动评估方法
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法
Chen et al. Sentiment classification of tourism based on rules and LDA topic model
CN114997288A (zh) 一种设计资源关联方法
CN110399493B (zh) 一种基于增量学习的作者消歧方法
CN111104483A (zh) 基于机器学习的ict系统故障分析及辅助判别方法
Mekala et al. A Novel Document Representation Approach for Authorship Attribution.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant