CN110597996A - 一种基于头脑风暴优化算法的中文网页分类方法 - Google Patents

一种基于头脑风暴优化算法的中文网页分类方法 Download PDF

Info

Publication number
CN110597996A
CN110597996A CN201910895749.XA CN201910895749A CN110597996A CN 110597996 A CN110597996 A CN 110597996A CN 201910895749 A CN201910895749 A CN 201910895749A CN 110597996 A CN110597996 A CN 110597996A
Authority
CN
China
Prior art keywords
algorithm
chinese
classification
optimization
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910895749.XA
Other languages
English (en)
Other versions
CN110597996B (zh
Inventor
程适
雷秀娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201910895749.XA priority Critical patent/CN110597996B/zh
Publication of CN110597996A publication Critical patent/CN110597996A/zh
Application granted granted Critical
Publication of CN110597996B publication Critical patent/CN110597996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于头脑风暴优化算法的中文网页分类方法。该方法包括:对中文文档进行分词,并根据词频建立中文文档的单词索引;根据中文文档的单词索引,建立中文文档分词向量;采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;根据优化后的中文文档分类算法,对中文文档进行分类;并采用头脑风暴优化算法,对中文文档的分类结果和分类效率进行优化。本发明将头脑风暴优化算法和分类算法进行结合,对分类算法和数据训练集的选择进行优化,可以提高分类效率和分类正确率,从而优化了最终推荐结果。

Description

一种基于头脑风暴优化算法的中文网页分类方法
技术领域
本发明涉及计算机信息技术领域,更具体的涉及一种基于头脑风暴优化算法的中文网页分类方法。
背景技术
随着互联网的发展与进步,我们每天都会产生和接收海量的信息,虽然满足了信息时代对数据的需求,但也使得用户难以有效的利用信息,无法依靠个人之力从海量的信息中找到对自己有价值的信息,在这样一个“信息过载”的时代,对信息的筛选过滤以及针对用户个性化定制的需求便呼之欲出。此时能为用户提供个性化推荐功能的新闻推荐系统便应运而生,各类新闻推荐系统算法也不断在发展,其目的为对新闻相似性进行度量分析,实现对用户感兴趣的新闻进行精准推荐。
目前,常见的新闻分类往往不够准确,或者为用户提供不准确或者重复的新闻,例如,新闻类别错误、相同新闻重复推荐等,从而影响用户新闻软件或新闻网页的使用体验;而实际推荐系统中,用户需要更加高效准确高效的新闻推荐服务。如何针对用户进行个性化定制推荐,是现今新闻推荐系统优化和发展的方向。
发明内容
本发明实施例提供一种基于头脑风暴优化算法的中文网页分类方法,用以解决上述背景技术中提出的问题。
本发明实施例提供一种基于头脑风暴优化算法的中文网页分类方法,包括:
对中文文档进行分词,并根据词频建立中文文档的单词索引;
根据中文文档的单词索引,建立中文文档分词向量;
采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;
采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;
根据优化后的中文文档分类算法,对中文文档进行分类;并采用头脑风暴优化算法,对中文文档的分类结果和分类效率进行优化。
进一步地,所述对中文文档进行分词,并根据词频建立中文文档的单词索引;具体包括:
对网页长文本信息进行预处理;去掉每个网页中无关词汇,对句子进行分词,将长文本转化为包含多个词语的词袋,每个词语为一个变量;一个网页被转化为包含词汇多个变量的链表或称为一个长向量,长向量用X=(x1,x2,...,xn)表示,其中,X为一个网页包含的所有词组的集合,x1到xn为单个词组。
进一步地,所述根据中文文档的单词索引,建立中文文档分词向量;具体包括:
计算词汇的出现频率,去掉无关词汇,调整其余每个词汇的权重信息;对中文文档建立词频-逆文本频率指数序列;选择部分文档进行类别标注,作为分类样例。
进一步地,所述中文文档分类算法包括:k最近邻算法、k加权最近邻算法。
进一步地,所述采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;具体包括:
对于k最近邻算法,中文文档分类算法的性能优化如下:
其中,y'为最大预测样本值;v是类别标记;yi是根据最近样本得到的类别,如果分类相同I(·)为1,否则为0;xi为第i个词组;
对于k最近邻算法,中文文档分类算法的参数优化如下:
将k作为优化决策变量,设定初步优化目标函数:
将不同的k取值作为解,将分类的错误率作为函数值。
进一步地,所述采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;具体包括:
对于k最近邻算法,中文文档分类算法训练集的样本数目优化如下:
将k和每个类别的训练样本数目ni作为优化决策变量,设定初步优化目标函数:
其中,N={n1,...ni,...nm},m为分类的总类别数,ni为类别i的训练样本数目;将不同的k和N的取值作为解,将分类的错误率作为函数值;
对于k最近邻算法,中文文档分类算法训练集的样本选择优化如下:
将k和每个类别的训练样本Xt作为优化决策变量,设定初步优化目标函数:
其中,m为分类的总类别数,ni为类别i的训练样本数目,Xt i,1表示类别i的第一个训练样本;将不同的k和Xt的取值作为解,将分类的错误率作为函数值。
本发明实施例提供一种基于头脑风暴优化算法的中文网页分类方法,与现有技术相比,其有益效果如下:
由于新闻文本的分类算法的优劣影响了推荐系统的最终效果,本发明将头脑风暴优化算法和分类算法进行结合,对分类算法和数据训练集的选择进行优化,即利用头脑风暴优化算法来优化分类算法中的参数,可以提高分类效率和分类正确率,从而优化了最终推荐系统的结果,进而解决了普通优化算法数据训练集的样本代表性不足(传统方式下的训练样本集往往采用随即划分的方式,数据缺乏样本的代表性)、分类性能较低和分类结果一般的问题。
附图说明
图1为本发明实施例提供的一种基于头脑风暴优化算法的中文网页分类方法流程图;
图2为本发明实施例提供的头脑风暴优化算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1~2,本发明实施例提供一种基于头脑风暴优化算法的中文网页分类方法,该方法具体包括:
S1、对于待分类中文文档,建立文档分类类别库。例如,对于新闻类文档,可建立体育新闻,娱乐新闻,时政新闻等类别。
S2、对中文文档进行分词,去掉文档类的无关词汇,如“停用词”(Stop Words),对剩余有意义的词汇根据词频建立文档的单词索引。网页长文本信息预处理,每个网页去掉无意义词汇,对句子进行分词,将长文本转化为包含大量词语的词袋,每个词语为一个变量。一个网页被转化为包含大量词汇变量的链表或称为一个长向量,该向量可用X={x1,x2,...,xn}表示,其中,X为一个网页包含的所有词组的集合,x1到xn为单个词组。
S3:根据文档的单词索引,对待分类的所有文档,建立中文文档分词向量。计算词汇的出现频率,去掉无关词汇(停用词),调整其余每个词汇的权重信息;对文档建立词频-逆文本频率指数序列;选择部分文档进行类别标注,作为分类样例。
S4:使用头脑风暴优化算法,对文档分类算法,例如KNN算法,进行算法性能和参数优化的调优。下面以k最近邻(k Nearest Neighbor,KNN)算法为例,对使用头脑风暴优化算法进行性能和参数优化。在KNN算法中,算法存在着参数k,传统方法的k取值往往依赖于算法设计者的经验进行设置,难以得到最优分类参数。
对于KNN算法,目的是找到取的最大预测样本值y',其计算公式为:
其中v是类别标记,yi是根据最近样本得到的类别,如果分类相同I(·)为1,否则为0。
对于分类算法,难以设定合适的参数,对于KNN算法,将k作为优化决策变量,设定初步优化目标函数:
将不同的k取值作为解,将分类的错误率作为函数值。将头脑风暴优化算法应用于k的设置,可以迅速找到k的最优设置,提高计算效率。
此方法同样适用于其他具有参数的分类算法,如k加权最近邻(k weightedNearest Neighbor,KWNN)算法等。
S5、使用头脑风暴优化算法对分类时的训练集进行优化,选择最具有类别代表性的样本作为分类集合。将优化后的训练集应用于分类算法的训练,提高分类算法的分类准确率。
在分类时,测试数据分为训练样本和测试样本,对于实际中文文本分类问题,样本的种类很多,每个种类训练样本的数目较小,而测试样本的数目巨大。而对于多分类问题,针对每个类别,选择合适数目的样本进入训练样本集,是提高分类效率的有效手段。下面以基础的KNN算法为例进行说明。
对于每个分类类别,难以设定合适的样本数目和优化参数。对于KNN算法,将k和每个类别的训练样本数目ni作为优化决策变量,设定初步优化目标函数:
其中,N={n1,...ni,...nm},m为分类的总类别数,ni为类别i的训练样本数目。将不同的k和N的取值作为解,将分类的错误率作为函数值。将头脑风暴优化算法应用于k和N的设置,可以迅速找到k和和N的最优组合,提高分类正确率。
此方法同样适用于其他具有测试样本和分类样本的分类算法,如k加权最近邻(kweighted Nearest Neighbor,KWNN)算法等。
上述优化中,仅考虑了每个分类类别的训练样本数目,而对于文本分类问题,每个训练文本包含的信息不同,选择合适的训练文本,可以提高分类的效率。下面以基础的KNN算法为例进行说明。
对于每个分类类别,选择最优的样本进入训练样本集,并设定合适的优化参数,对于KNN算法,将k和每个类别的训练样本Xt作为优化决策变量,设定初步优化目标函数:
其中m为分类的总类别数,ni为类别i的训练样本数目,Xt i,1表示类别i的第一个训练样本。将不同的k和Xt的取值作为解,将分类的错误率作为函数值。将头脑风暴优化算法应用于k和Xt的设置,可以迅速找到k和Xt的最优组合,提高分类正确率。
此方法同样适用于其他具有测试样本和分类样本的分类算法,如k加权最近邻(kweighted Nearest Neighbor,KWNN)算法等。
S6:将基于头脑风暴优化算法和优化分类算法的结合算法应用到待分类文档,优化文档的分类结果和分类效率。
综上所述,本发明提供一种基于头脑风暴优化算法的高效中文网页分类方法,用以解决现有新闻推荐技术中存在新闻文本分类错误较多,相同新闻重复推荐,推荐大量用户不感兴趣的新闻,这些现象都影响了新闻软件的使用效率,降低了用户的使用体验评分。具体地,本发明首先通过将中文网页分类问题建模为离散优化问题;再通过头脑风暴优化算法结合文本分类算法对文本分类结果进行优化,使得分类结果更加准确;同时,通过对算法参数和优化样本选择等改进,提高了算法运行的稳定性,从而实现了文本推荐系统的高效稳定的中文网页分类。
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种基于头脑风暴优化算法的中文网页分类方法,其特征在于,包括:
对中文文档进行分词,并根据词频建立中文文档的单词索引;
根据中文文档的单词索引,建立中文文档分词向量;
采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;
采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;
根据优化后的中文文档分类算法,对中文文档进行分类。
2.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法,其特征在于,所述对中文文档进行分词,并根据词频建立中文文档的单词索引;具体包括:
对网页长文本信息进行预处理;去掉每个网页中无关词汇,对句子进行分词,将长文本转化为包含多个词语的词袋,每个词语为一个变量;一个网页被转化为包含词汇多个变量的链表或称为一个长向量,长向量用X=(x1,x2,...,xn)表示,其中,X为一个网页包含的所有词组的集合,x1到xn为单个词组。
3.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法,其特征在于,所述根据中文文档的单词索引,建立中文文档分词向量;具体包括:
计算词汇的出现频率,去掉无关词汇,调整其余每个词汇的权重信息;对中文文档建立词频-逆文本频率指数序列;选择部分文档进行类别标注,作为分类样例。
4.如权利要求1所述的基于头脑风暴优化算法的中文网页分类方法,其特征在于,所述中文文档分类算法包括:k最近邻算法、k加权最近邻算法。
5.如权利要求4所述的基于头脑风暴优化算法的中文网页分类方法,其特征在于,所述采用头脑风暴优化算法,对中文文档分类算法的性能和参数进行优化;具体包括:
对于k最近邻算法,中文文档分类算法的性能优化如下:
其中,y'为最大预测样本值;v是类别标记;yi是根据最近样本得到的类别,如果分类相同I(·)为1,否则为0;xi为第i个词组;
对于k最近邻算法,中文文档分类算法的参数优化如下:
将k作为优化决策变量,设定初步优化目标函数:
将不同的k取值作为解,将分类的错误率作为函数值。
6.如权利要求4所述的基于头脑风暴优化算法的中文网页分类方法,其特征在于,所述采用头脑风暴优化算法,对中文文档分类算法训练集的样本选择和样本数目进行优化;具体包括:
对于k最近邻算法,中文文档分类算法训练集的样本数目优化如下:
将k和每个类别的训练样本数目ni作为优化决策变量,设定初步优化目标函数:
其中,N={n1,...ni,...nm},m为分类的总类别数,ni为类别i的训练样本数目;将不同的k和N的取值作为解,将分类的错误率作为函数值;
对于k最近邻算法,中文文档分类算法训练集的样本选择优化如下:
将k和每个类别的训练样本Xt作为优化决策变量,设定初步优化目标函数:
其中,m为分类的总类别数,ni为类别i的训练样本数目,Xt i,1表示类别i的第一个训练样本;将不同的k和Xt的取值作为解,将分类的错误率作为函数值。
CN201910895749.XA 2019-09-21 2019-09-21 一种基于头脑风暴优化算法的中文网页分类方法 Active CN110597996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910895749.XA CN110597996B (zh) 2019-09-21 2019-09-21 一种基于头脑风暴优化算法的中文网页分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910895749.XA CN110597996B (zh) 2019-09-21 2019-09-21 一种基于头脑风暴优化算法的中文网页分类方法

Publications (2)

Publication Number Publication Date
CN110597996A true CN110597996A (zh) 2019-12-20
CN110597996B CN110597996B (zh) 2023-04-14

Family

ID=68862111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910895749.XA Active CN110597996B (zh) 2019-09-21 2019-09-21 一种基于头脑风暴优化算法的中文网页分类方法

Country Status (1)

Country Link
CN (1) CN110597996B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004285328A (ja) * 2003-02-28 2004-10-14 Toyobo Co Ltd ポリエステル樹脂
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法
CN105005792A (zh) * 2015-07-13 2015-10-28 河南科技大学 一种基于knn算法的稿件翻译优化方法
CN107330627A (zh) * 2017-07-05 2017-11-07 山东大学 一种创新创意的大数据处理方法、服务器及系统
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置
CN108288048A (zh) * 2018-02-09 2018-07-17 中国矿业大学 基于改进头脑风暴优化算法的面部情绪识别特征选择方法
CN109063209A (zh) * 2018-09-20 2018-12-21 新乡学院 一种基于概率模型的网页推荐解决方法
CN109508372A (zh) * 2018-06-27 2019-03-22 华北电力大学 一种基于司法领域知识抽取的高效司法文档分类方法
CN109711794A (zh) * 2017-10-25 2019-05-03 埃森哲环球解决方案有限公司 基于人工智能和机器学习的项目管理辅助
CN110134466A (zh) * 2018-02-02 2019-08-16 北京三星通信技术研究有限公司 信息处理方法和终端设备
CN110175640A (zh) * 2019-05-22 2019-08-27 镇江四联机电科技有限公司 一种基于机器学习的电液伺服阀故障诊断方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004285328A (ja) * 2003-02-28 2004-10-14 Toyobo Co Ltd ポリエステル樹脂
CN104063472A (zh) * 2014-06-30 2014-09-24 电子科技大学 一种优化训练样本集的knn文本分类方法
CN105005792A (zh) * 2015-07-13 2015-10-28 河南科技大学 一种基于knn算法的稿件翻译优化方法
CN107330627A (zh) * 2017-07-05 2017-11-07 山东大学 一种创新创意的大数据处理方法、服务器及系统
CN107943824A (zh) * 2017-10-17 2018-04-20 广东广业开元科技有限公司 一种基于lda的大数据新闻分类方法、系统及装置
CN109711794A (zh) * 2017-10-25 2019-05-03 埃森哲环球解决方案有限公司 基于人工智能和机器学习的项目管理辅助
CN110134466A (zh) * 2018-02-02 2019-08-16 北京三星通信技术研究有限公司 信息处理方法和终端设备
CN108288048A (zh) * 2018-02-09 2018-07-17 中国矿业大学 基于改进头脑风暴优化算法的面部情绪识别特征选择方法
CN109508372A (zh) * 2018-06-27 2019-03-22 华北电力大学 一种基于司法领域知识抽取的高效司法文档分类方法
CN109063209A (zh) * 2018-09-20 2018-12-21 新乡学院 一种基于概率模型的网页推荐解决方法
CN110175640A (zh) * 2019-05-22 2019-08-27 镇江四联机电科技有限公司 一种基于机器学习的电液伺服阀故障诊断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JINGZHONG WANG ET AL.: "An improved KNN algorithm for text classification", 《2010 INTERNATIONAL CONFERENCE ON INFORMATION, NETWORKING AND AUTOMATION》 *
李伟男: "Web文本信息抽取与分类方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
沈兆琪: "基于竞争机制的头脑风暴优化算法及应用研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Also Published As

Publication number Publication date
CN110597996B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
US7689531B1 (en) Automatic charset detection using support vector machines with charset grouping
US8645418B2 (en) Method and apparatus for word quality mining and evaluating
CN106407406B (zh) 一种文本处理方法和系统
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN108228541B (zh) 生成文档摘要的方法和装置
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN105786793A (zh) 解析口语文本信息的语义的方法和装置
US8560466B2 (en) Method and arrangement for automatic charset detection
CN111695349A (zh) 文本匹配方法和文本匹配系统
CN113255340B (zh) 面向科技需求的主题提取方法、装置和存储介质
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
US20100296728A1 (en) Discrimination Apparatus, Method of Discrimination, and Computer Program
CN111475607B (zh) 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
Al Qadi et al. A scalable shallow learning approach for tagging arabic news articles
CN110597996B (zh) 一种基于头脑风暴优化算法的中文网页分类方法
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
CN109388800B (zh) 一种基于加窗词向量特征的短文本情感分析方法
CN114595684A (zh) 一种摘要生成方法、装置、电子设备及存储介质
CN112632229A (zh) 文本聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant