CN107704500B - 一种基于语义分析与多重余弦定理的新闻分类方法 - Google Patents
一种基于语义分析与多重余弦定理的新闻分类方法 Download PDFInfo
- Publication number
- CN107704500B CN107704500B CN201710749893.3A CN201710749893A CN107704500B CN 107704500 B CN107704500 B CN 107704500B CN 201710749893 A CN201710749893 A CN 201710749893A CN 107704500 B CN107704500 B CN 107704500B
- Authority
- CN
- China
- Prior art keywords
- news
- news text
- word
- classified
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000004458 analytical method Methods 0.000 title claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000005303 weighing Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 3
- 238000009825 accumulation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于语义分析与多重余弦定理的新闻分类方法,属于信息处理技术领域。本发明创新性地重新定义词权重,利用多重余弦定理,对现阶段的新闻分类方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词性、词长等加权累加,且特别针对人物、地点、专业术语等特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。
Description
技术领域
本发明涉及一种基于语义分析与多重余弦定理的新闻分类方法,属于信息处理技术领域。
背景技术
新闻分类是信息处理中的一个重要方向,通过将大量新闻类文本组织成少数有意义的簇,并保证同一簇内的文本在一定程度上是相似的,达到改善检索的目的。
目前,对文本的相似度量方法主要分为两类:基于统计学和基于语义分析。这两类方法都有各自的优缺点,其中,对于数量级在百万以下的新闻类文本分类很大程度上依靠的是余弦定理。但是现阶段,利用计算机依靠余弦定理对新闻分类的技术并不成熟,准确性欠佳、分类易出错、灵活性差等现象一直存在,在很多情况下还需要人工进行分类。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于语义分析与多重余弦定理的新闻分类方法,词权重不再是单纯的TFIDF值,而是创新性地将TFIDF值、词性、词长等加权累加,且针对特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。本发明对现阶段的新闻分类方法进行改进,主要解决了现有技术准确性欠佳、分类易出错、灵活性差等现象,致力于增加目前利用计算机依靠余弦定理对新闻分类的准确性。
本发明的技术方案是:一种基于语义分析与多重余弦定理的新闻分类方法,具体步骤为:
Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;
Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};应当注意的是,对特殊词项应加以额外权重。
Step3:选取关键词:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};
Step4:对各预设新闻文本模板{P1,P2…Pq}同样进行如上步骤所述的预处理、求权重、选取关键词操作,并将数据保存至数据库以备调用;其中,每个预设新闻文本模板Pi,i∈[1,q]对应一种新闻类别,即新闻共q个类别;
Step4.1:计算实意词匹配度R(X,Pi),i∈[1,q]:以待分类新闻文本X的实意词集合X:{x1,x2…xm}和实意词权重集合Y:{y1,y2…ym},生成实意词特征向量FX={fx1,fx2…fxg},同样对预设新闻文本模板Pi,i∈[1,q]也以此生成实意词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的实意词匹配度R(X,Pi),i∈[1,q];g为实意词特征向量FX={fx1,fx2…fxg}的长度;
Step4.2:计算关键词匹配度R(X',Pi),i∈[1,q]:以待分类新闻文本X的关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'},生成关键词特征向量FX'={fx'1,fx'2…fx'g},同样对预设新闻本文模板Pi,i∈[1,q]也以此生成关键词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的关键词匹配度R(X',Pi),i∈[1,q];g为关键词特征向量FX'={fx'1,fx'2…fx'g}的长度;
Step5:对所有预设新闻文本模板{P1,P2…Pq},都依据Step4.1和Step4.2计算实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q],因为一篇文章可能同属多类,故若
1≥R(X,Pi)≥r,i∈[1,q]
或
r>R(X,Pi)≥(r-r'),i∈[1,q],且1≥R(X',Pi)≥r,i∈[1,q]
则认为此待分类新闻文本X属于该预设新闻文本模板Pi,i∈[1,q]所属的新闻类,r
为新闻文本分类阈值,r'为存在误差。
所述步骤Step1中,特殊词项包括人名、地名、组织机构名称、专业术语。
所述步骤Step2中计算权重的公式为:
wtfidf>wpro>wlen>0,且wtfidf+wpro+wlen=1
pron>porv>poradj>porother>0
其中,pron、porv、poradj、porother分别对应于名词、动词、形容词、其他词性的词性转化值。
所述步骤Step1和Step3中,实意词集合X:{x1,x2…xm}和关键词集合X':{x1',x2'…xn'}应满足:m>n>0
其中,n值可根据实际分类情况调整,以提高准确性。
所述步骤Step4属提前性任务,且只需进行一次,正常化对待分类新闻文本进行分类时无需执行此步骤,所需数据直接调用数据库即可;并且,新闻分类的粗细程度,是由各预设新闻文本模板{P1,P2…Pq}所划分的新闻类别决定的,对于不同程度的分类,需调整步骤Step5中所述的新闻文本分类阈值r和存在误差r',以提高准确性。
所述步骤Step4.1中,实意词特征向量FX={fx1,fx2…fxg}的长度g由待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]中集合长度(词的个数)决定,即实意词特征向量FX={fx1,fx2…fxg}的长度g为待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]的并集集合长度:k为实意词的数量,值为集合中元素的个数;
g=len(X∪Pi)
同理,所述步骤Step4.2中关键词特征向量FX'={fx'1,fx'2…fx'g}的长度g为待分类新闻文本的关键词集合X':{x1',x2'…xn'}和预设新闻文本模板的关键词集合Pi':{pi1',pi2'…pik'},i∈[1,q]的并集集合长度:k为关键词的数量,值为集合中元素的个数;
g=len(X'∪Pi')。
所述步骤Step4.1和Step4.2中,计算所得的实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q]理应满足:
本发明的有益效果是:创新性地重新定义词权重,利用多重余弦定理,对现阶段的新闻分类方法进行改进。摒弃单纯利用TFIDF值做词权重的方法,而是创新性地将TFIDF值、词性、词长等加权累加,且特别针对人物、地点、专业术语等特殊词项还额外增加了权重;另一方面,对新闻计算其匹配度还使用了多重余弦定理,分别对其计算实意词匹配度和关键词匹配度,再由相关定义确定其属于何种新闻类别。本发明与现有技术相比,主要解决了现有技术准确性欠佳、分类易出错、灵活性差等现象,致力于增加目前利用计算机依靠余弦定理对新闻分类的准确性。
附图说明
图1是本发明总流程示意图;
图2是本发明预处理流程示意图;
图3是本发明求权重流程示意图;
图4是本发明计算匹配度及分类流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-4所示,一种基于语义分析与多重余弦定理的新闻分类方法,具体步骤为:
Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换等操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;
Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};应当注意的是,对特殊词项应加以额外权重。
Step3:选取关键词:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};
Step4:对各预设新闻文本模板{P1,P2…Pq}同样进行如上步骤所述的预处理、求权重、选取关键词等操作,并将数据保存至数据库以备调用;其中,每个预设新闻文本模板Pi,i∈[1,q]对应一种新闻类别,即新闻共q个类别;
Step4.1:计算实意词匹配度R(X,Pi),i∈[1,q]:以待分类新闻文本X的实意词集合X:{x1,x2…xm}和实意词权重集合Y:{y1,y2…ym},生成实意词特征向量FX={fx1,fx2…fxg},同样对预设新闻文本模板Pi,i∈[1,q]也以此生成实意词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的实意词匹配度R(X,Pi),i∈[1,q];
Step4.2:计算关键词匹配度R(X',Pi),i∈[1,q]:以待分类新闻文本X的关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'},生成关键词特征向量FX'={fx'1,fx'2…fx'g},同样对预设新闻本文模板Pi,i∈[1,q]也以此生成关键词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的关键词匹配度R(X',Pi),i∈[1,q];
Step5:对所有预设新闻文本模板{P1,P2…Pq},都依据Step4.1和Step4.2所计算实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q],因为一篇文章可能同属多类,故若
1≥R(X,Pi)≥r,i∈[1,q]
或
r>R(X,Pi)≥(r-r'),i∈[1,q],且1≥R(X',Pi)≥r,i∈[1,q]
则认为此待分类新闻文本X属于该预设新闻文本模板Pi,i∈[1,q]所属的新闻类。
所述步骤Step1中,特殊词项包括人名、地名、组织机构名称、专业术语。所述步骤Step1中,对文本进行分词、去停用词、同义词替换等操作,可以采用分词包、停用词库、同义词库等。
所述步骤Step2中计算权重的公式为:
wtfidf>wpro>wlen>0,且wtfidf+wpro+wlen=1
pron>porv>poradj>porother>0
其中,pron、porv、poradj、porother分别对应于名词、动词、形容词、其他词性的词性转化值。
所述步骤Step1和Step3中,实意词集合X:{x1,x2…xm}和关键词集合X':{x1',x2'…xn'}应满足:
m>n>0
其中,n值可根据实际分类情况调整,以提高准确性。
所述步骤Step4属提前性任务,且只需进行一次,正常化对待分类新闻文本进行分类时无需执行此步骤,所需数据直接调用数据库即可;并且,新闻分类的粗细程度,是由各预设新闻文本模板{P1,P2…Pq}所划分的新闻类别决定的,对于不同程度的分类,需调整步骤Step5中所述的新闻文本分类阈值r和存在误差r',以提高准确性。
所述步骤Step3.x中,除各预设新闻文本模板对应一种新闻类别外,预设新闻文本模板应能代表该新闻类别的特征,理应包括该新闻类别中的一些代表性词汇,如人名、地名、组织机构名称、专业术语等。考虑到某些领域中经常会增加、删除或修改特殊词项,故预设新闻文本模板需时常更新(或自动学习),并且命名实体识别技术需使用最新版,以提高准确性。
所述步骤Step4.1中,实意词特征向量FX={fx1,fx2…fxg}的长度g由待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]中集合长度(词的个数)决定,即实意词特征向量FX={fx1,fx2…fxg}的长度g为待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]的并集集合长度:k为实意词的数量,值为集合中元素的个数;
g=len(X∪Pi)
同理,所述步骤Step4.2中关键词特征向量FX'={fx'1,fx'2…fx'g}的长度g为待分类新闻文本的关键词集合X':{x1',x2'…xn'}和预设新闻文本模板的关键词集合Pi':{pi1',pi2'…pik'},i∈[1,q]的并集集合长度:
g=len(X'∪Pi')。
所述步骤Step4.1和Step4.2中,计算所得的实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q]理应满足:
若不满足,则视为计算错误,需重新计算。
所述步骤Step5中,新闻文本分类阈值r和存在误差r'可根据实际分类情况调整其参数值,以提高准确性。
实施例2:如图1-4所示,在实施例1的基础上,对于大多数文本相似度量方法,都会忽略人名、地名、组织机构名称、专业术语等一些特殊词项,因为这些特殊词项不提供有效信息。但本发明认为人名、地名、组织机构名称、专业术语等这些特殊词项是衡量一篇新闻文本归属何类的重要指标。例如,一篇新闻文本中若经常出现国家领导人名字等词汇,无需浏览全文,基本可以确定该新闻文本应归属政治类别。再如,一篇新闻文本中若经常出现一些运动员名字等词汇,无需浏览全文,基本可以确定该新闻文本应归属体育类别。这也是本发明强调对特殊词项增加额外权重的原因。
实施例3:如图1-4所示,在实施例1的基础上,本发明将词长也作为衡量词权重的一个指标。据研究,中文词语长度服从一定条件下的χ2分布,也就是说,长度越长的词汇,越不容易出现在文本中,这也就决定了长度越长的词汇具有很好的类区分能力。例如,一篇新闻文本中若出现“中华人民共和国”等词汇,无需浏览全文,基本可以确定该新闻文本应归属国际新闻类别,因为国内新闻大多使用简写“中国”,而非“中华人民共和国”。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (8)
1.一种基于语义分析与多重余弦定理的新闻分类方法,其特征在于:
Step1:获取待分类新闻文本X,对待分类新闻文本X进行预处理:先采用命名实体识别技术,将待分类新闻文本X中特殊词项挑选出来,对剩余文本进行分词、去停用词、同义词替换操作,生成待分类新闻文本X的实意词集合X:{x1,x2…xm},其中,实意词集合X:{x1,x2…xm}包含特殊词项;
Step2:求权重:以TFIDF值为主,词性、词长为辅,遍历Step1中得到的待分类新闻文本X的实意词集合X:{x1,x2…xm},对每个实意词xi,i∈[1,m]求其权重,并生成实意词权重集合Y:{y1,y2…ym};
Step3:选取关键词:以实意词xi,i∈[1,m]为key,权重yi,i∈[1,m]为value,对Step2中得到的实意词权重yi,i∈[1,m]排序,选取权重最高的n个实意词作为关键词,并生成关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'};
Step4:对各预设新闻文本模板{P1,P2…Pq}同样进行如上步骤所述的预处理、求权重、选取关键词操作,并将数据保存至数据库以备调用;其中,每个预设新闻文本模板Pi,i∈[1,q]对应一种新闻类别,即新闻共q个类别;
Step4.1:计算实意词匹配度R(X,Pi),i∈[1,q]:以待分类新闻文本X的实意词集合X:{x1,x2…xm}和实意词权重集合Y:{y1,y2…ym},生成实意词特征向量FX={fx1,fx2…fxg},同样对预设新闻文本模板Pi,i∈[1,q]也以此生成实意词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的实意词匹配度R(X,Pi),i∈[1,q];g为实意词特征向量FX={fx1,fx2…fxg}的长度;
Step4.2:计算关键词匹配度R(X',Pi),i∈[1,q]:以待分类新闻文本X的关键词集合X':{x1',x2'…xn'}和关键词权重集合Y':{y1',y2'…yn'},生成关键词特征向量FX'={fx'1,fx'2…fx'g},同样对预设新闻本文模板Pi,i∈[1,q]也以此生成关键词特征向量由余弦定理确定待分类新闻文本X与预设新闻文本模板Pi,i∈[1,q]之间的关键词匹配度R(X',Pi),i∈[1,q];g为关键词特征向量FX'={fx'1,fx'2…fx'g}的长度;
Step5:对所有预设新闻文本模板{P1,P2…Pq},都依据Step4.1和Step4.2计算实意词匹配度R(X,Pi),i∈[1,q]和关键词匹配度R(X',Pi),i∈[1,q],因为一篇文章可能同属多类,故若1≥R(X,Pi)≥r,i∈[1,q]
或
r>R(X,Pi)≥(r-r'),i∈[1,q],且1≥R(X',Pi)≥r,i∈[1,q]
则认为此待分类新闻文本X属于该预设新闻文本模板Pi,i∈[1,q]所属的新闻类,r为新闻文本分类阈值,r'为存在误差。
2.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:
所述步骤Step1中,特殊词项包括人名、地名、组织机构名称、专业术语。
5.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step1和Step3中,实意词集合X:{x1,x2…xm}和关键词集合X':{x1',x2'…xn'}应满足:
m>n>0
其中,n值可根据实际分类情况调整,以提高准确性。
6.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step4属提前性任务,且只需进行一次,正常化对待分类新闻文本进行分类时无需执行此步骤,所需数据直接调用数据库即可;并且,新闻分类的粗细程度,是由各预设新闻文本模板{P1,P2…Pq}所划分的新闻类别决定的,对于不同程度的分类,需调整步骤Step5中所述的新闻文本分类阈值r和存在误差r',以提高准确性。
7.根据权利要求1所述的基于语义分析与多重余弦定理的新闻分类方法,其特征在于:所述步骤Step4.1中,实意词特征向量FX={fx1,fx2…fxg}的长度g由待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]中集合长度决定,即实意词特征向量FX={fx1,fx2…fxg}的长度g为待分类新闻文本的实意词集合X:{x1,x2…xm}和预设新闻文本模板的实意词集合Pi:{pi1,pi2…pik},i∈[1,q]的并集集合长度:k为实意词的数量,值为集合中元素的个数;
g=len(X∪Pi)
同理,所述步骤Step4.2中关键词特征向量FX'={fx'1,fx'2…fx'g}的长度g为待分类新闻文本的关键词集合X':{x1',x2'…xn'}和预设新闻文本模板的关键词集合Pi':{pi1',pi2'…pik'},i∈[1,q]的并集集合长度:k为关键词的数量,值为集合中元素的个数;
g=len(X'∪Pi')。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710749893.3A CN107704500B (zh) | 2017-08-28 | 2017-08-28 | 一种基于语义分析与多重余弦定理的新闻分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710749893.3A CN107704500B (zh) | 2017-08-28 | 2017-08-28 | 一种基于语义分析与多重余弦定理的新闻分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107704500A CN107704500A (zh) | 2018-02-16 |
CN107704500B true CN107704500B (zh) | 2021-05-14 |
Family
ID=61171219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710749893.3A Active CN107704500B (zh) | 2017-08-28 | 2017-08-28 | 一种基于语义分析与多重余弦定理的新闻分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704500B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086271A (zh) * | 2018-08-01 | 2018-12-25 | 昆明理工大学 | 一种基于多重余弦定理的文章相关度计算方法 |
CN109359291A (zh) * | 2018-08-28 | 2019-02-19 | 昆明理工大学 | 一种命名实体识别方法 |
CN110750639A (zh) * | 2019-07-02 | 2020-02-04 | 厦门美域中央信息科技有限公司 | 一种基于向量空间模型的文本分类及r语言实现 |
CN113010669B (zh) * | 2020-12-24 | 2022-06-21 | 华戎信息产业有限公司 | 一种新闻分类方法和系统 |
CN114996463B (zh) * | 2022-07-18 | 2022-11-01 | 武汉大学人民医院(湖北省人民医院) | 一种病例的智能分类方法和装置 |
CN117131257B (zh) * | 2023-10-26 | 2023-12-26 | 环球数科集团有限公司 | 一种基于aigc的资讯文档收集系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102289523A (zh) * | 2011-09-20 | 2011-12-21 | 北京金和软件股份有限公司 | 一种文本智能提取标签的方法 |
US8375036B1 (en) * | 2009-01-09 | 2013-02-12 | Google Inc. | Book content item search |
CN103092877A (zh) * | 2011-11-04 | 2013-05-08 | 百度在线网络技术(北京)有限公司 | 一种关键词推荐方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4637969B1 (ja) * | 2009-12-31 | 2011-02-23 | 株式会社Taggy | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 |
-
2017
- 2017-08-28 CN CN201710749893.3A patent/CN107704500B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8375036B1 (en) * | 2009-01-09 | 2013-02-12 | Google Inc. | Book content item search |
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102289523A (zh) * | 2011-09-20 | 2011-12-21 | 北京金和软件股份有限公司 | 一种文本智能提取标签的方法 |
CN103092877A (zh) * | 2011-11-04 | 2013-05-08 | 百度在线网络技术(北京)有限公司 | 一种关键词推荐方法和装置 |
Non-Patent Citations (4)
Title |
---|
A novel feature selection based on Tibetan grammar for Tibetan text classification;Tao Jiang et al;《2015 6th IEEE International Conference on Software Engineering and Service Science (ICSESS)》;20151130;第445-448页 * |
An automatic classifier for exam questions with WordNet and Cosine similarity;K. Jayakodi et al;《2016 Moratuwa Engineering Research Conference (MERCon)》;20160530;第12-17页 * |
中文文本分类中的特征选择和权重计算方法研究;宋惟然;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315;第2014年卷(第03期);第I138-1135页 * |
基于改进的TFIDF关键词自动提取算法研究;杨凯艳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160415;第2016年卷(第04期);第I138-1535页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107704500A (zh) | 2018-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704500B (zh) | 一种基于语义分析与多重余弦定理的新闻分类方法 | |
CN107577785B (zh) | 一种适用于法律识别的层次多标签分类方法 | |
WO2018120899A1 (zh) | 一种商标查询结果近似度评价和排序方法、装置 | |
US8671040B2 (en) | Credit risk mining | |
Ye et al. | Sentiment classification for movie reviews in Chinese by improved semantic oriented approach | |
CN103425777B (zh) | 一种基于改进贝叶斯分类的短信智能分类及搜索方法 | |
CN108763402A (zh) | 基于依存关系、词性和语义词典的类中心向量文本分类法 | |
CN107145560B (zh) | 一种文本分类方法及装置 | |
JP2012118977A (ja) | 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム | |
Huang et al. | A patent keywords extraction method using TextRank model with prior public knowledge | |
CN104111925A (zh) | 项目推荐方法和装置 | |
US20190340517A2 (en) | A method for detection and characterization of technical emergence and associated methods | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
JP2009110508A (ja) | オブジェクト間の競合指標計算方法およびシステム | |
CN106227802A (zh) | 一种基于中文自然语言处理和多核分类器的多信源股价预测方法 | |
WO2020253353A1 (zh) | 预设用户的资源获取资质生成方法及相关设备 | |
CN114139634A (zh) | 一种基于成对标签权重的多标签特征选择方法 | |
CN110399493B (zh) | 一种基于增量学习的作者消歧方法 | |
GB2572320A (en) | Hate speech detection system for online media content | |
Zahedi et al. | Improving text classification performance using PCA and recall-precision criteria | |
CN111104483A (zh) | 基于机器学习的ict系统故障分析及辅助判别方法 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
Mekala et al. | A Novel Document Representation Approach for Authorship Attribution. | |
Wang et al. | A joint chinese named entity recognition and disambiguation system | |
Yang et al. | Court similar case recommendation model based on word embedding and word frequency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |