CN108280206A - 一种基于语义增强的短文本分类方法 - Google Patents
一种基于语义增强的短文本分类方法 Download PDFInfo
- Publication number
- CN108280206A CN108280206A CN201810090256.4A CN201810090256A CN108280206A CN 108280206 A CN108280206 A CN 108280206A CN 201810090256 A CN201810090256 A CN 201810090256A CN 108280206 A CN108280206 A CN 108280206A
- Authority
- CN
- China
- Prior art keywords
- short text
- language material
- training
- term vector
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义增强的短文本分类方法,所述方法包括:步骤1)构建短文本分类器,从互联网资源中获取领域相关的短文本训练集,对每一条短文本进行扩充语料和训练词向量,训练短文本分类器;步骤2)对待分类的短文本进行扩充语料和训练词向量后,输入步骤1)的短文本分类器进行分类,得到分类结果。本发明提供了一整套短文本语义增强并对其进行文本分类的方法,针对短文本信息量少、语义稀疏的特点,利用高质量扩充语料、高精度词向量的方法对短文本进行语义增强表示,同时,本发明使用高效的文本分类算法,最大限度的捕捉文本有限特征,并有效缩短了分类器的训练时间。
Description
技术领域
本发明涉及计算语言学领域,尤其涉及计算机自然语言处理领域,特别涉及一种基于语义增强的短文本分类方法。
背景技术
目前,随着电子科技产业的迅速发展,我们生活中每天都有众多的微博、评论、微信等短文本通过网络传递到我们的移动终端,这些短文本信息呈现出爆炸式的快速增长。为了更好的应对如此快速增长的信息量,文本分类技术应运而生。短文本具有文本信息量少和特征稀疏等特点,因此相对长文本,短文本自动分类的实现更具挑战。面对这一挑战,研究者们针对短文本的内容较短和特征稀疏特点,对短文本进行语料扩充,然后再对扩展后的文本使用已有分类方法分类。短文本扩充的方法大体可以分成两类:利用网络资源、领域词汇表等外部相关资源对短文本进行扩充;构建或使用已有的知识库、概率主题模型(Latent Dirichlet Allocation,LDA)抽取短文本中特征相关的实体、主题内容,从而达到扩充语料目的。同时,为了更精确的表示短文本仅有的特征间的语义联系,近来众多研究者使用已有信息训练词向量,从而降其添加到分类器中提高分类性能。分类方法上,诸多学者将目前热门的机器学习、深度学习方法应用在短文本分类上从而取得了不错的分类效果。
然而,目前的短文本语料扩充方法过于复杂,扩充语料的质量无法保证;同时,目前诸多方法使用深度学习算法构建的词向量表示语义关系,除使用不同算法训练词向量外,词向量对语义的表示效果主要依赖于训练词向量的训练集,而已有方法都使用未加工的现成语料作为训练集。由于已有语料包含范围广、冗余信息多,因此无法准确表达语义关系。
发明内容
本发明的目的在于克服现有短文本语料扩充方法过于复杂、扩充语料质量较低、词向量训练集不精准的缺陷,提出一种较为简单的高质量语料扩充方法,从而在对短文本进行高质量语料扩充和使用精准语料训练词向量两方面增强了语义表示性能。
为了实现以上目的,本发明提出了一种基于语义增强的短文本分类方法,所述方法包括:
步骤1)构建短文本分类器,从互联网资源中获取领域相关的短文本训练集,对每一条短文本进行扩充语料和训练词向量,训练短文本分类器;
步骤2)对待分类的短文本进行扩充语料和训练词向量后,输入步骤1)的短文本分类器进行分类,得到分类结果。
作为上述方法的一种改进,所述步骤1)包括:
步骤101)使用短文本训练集中的每一条短文本信息作为互联网搜索引擎的输入检索关键词信息,选取相似性最高的第一条检索结果作为扩充语料;
步骤102)抽取出第一条检索结果的标题信息、摘要信息以及关键词信息作为语料,并将其作为原短文本信息的附加语料;
步骤103)从扩充语料中得到高质量领域相关语料,对该语料进行切分词汇、去除停用词操作得到清洁语料,然后使用计算关键词方法再一次提取关键词,将再次提取的关键词附加在清洁语料后,最后将附加关键词的清洁语料作为新训练集训练词向量,从而得到精准语义词向量;
步骤104)将语料扩充阶段得到的高质量领域相关语料作为训练段文本分类器的训练集,与步骤103)得到的精准语义关系词向量作为辅助信息联合起来,训练短文本分类器。
作为上述方法的一种改进,所述短文本分类器采用的分类算法为朴素贝叶斯算法、支持向量机算法、K近邻算法、长短记忆网络算法、卷积神经网络算法或fasttext算法。
作为上述方法的一种改进,所述步骤2)包括:
步骤201)将待分类的短文本作为互联网搜索引擎的输入检索关键词信息,选取相似性最高的第一条检索结果作为扩充语料;
步骤202)抽取出第一条检索结果的标题信息、摘要信息以及关键词信息作为语料,并将其作为待分类的短文本的附加语料;
步骤203)从扩充语料中得到高质量领域相关语料,对该语料进行切分词汇、去除停用词操作得到清洁语料,然后使用计算关键词方法再一次提取关键词,将再次提取的关键词附加在清洁语料后,最后将附加关键词的清洁语料作为新训练集训练词向量,从而得到待分类的短文本的精准语义词向量;
步骤204)将扩充语料和精准语义词向量联合起来输入短文本分类器,得到待分类的短文本的分类结果。
本发明的优势在于:
1、本发明提供了一整套短文本语义增强并对其进行文本分类的方法,针对短文本信息量少、语义稀疏的特点,利用高质量扩充语料、高精度词向量的方法对短文本进行语义增强表示,同时,本发明使用高效的文本分类算法,最大限度的捕捉文本有限特征,并有效缩短了分类器的训练时间;
2、本发明的方法解决了短文本分类效果不佳的问题;实验证明将本发明的方法应用到短文本分类中使分类性能明显提升,本发明方法在NLPCC2017新闻标题分类评测任务上达到了82.9%的精确度。
附图说明
图1是本发明的基于语义增强的短文本分类方法的示意图。
图2是本发明的基于语义增强的短文本分类方法的详细流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
参考图1,本发明的基于语义增强的短文本分类方法包括语料扩充法、训练词向量法两种方法,利用语料扩充方法得到的高质量领域相关语料作为新训练集,与利用训练词向量法训练出的精准语义关系词向量作为辅助信息联合训练文本分类器,从而得到最优分类效果。
具体过程参考图2,首先,使用短文本训练集中的每一条短文本信息作为互联网搜索引擎的输入检索关键词信息,搜索引擎一般会列出多条检索结果,由于搜索引擎内置排序算法,本发明认为搜索引擎的第一条检索结果与输入的短文信息相似性最高,因此本发明只选取相似性最高的第一条检索结果作为扩充语料。
由于文本信息的语义具有领域相关性,例如,“光盘”一词在计算机领域指“CD”、“DVD”等存储设备,而在日常生活领域指“盘子”、“碟子”等餐具。因此,把文本限定到指定的领域有助于更准确的描述文本信息的语义。介于以上考虑,本发明在语料扩充时只采取第一条搜索引擎结果基本限定了该短文本信息所处领域,因此更有利于准确描述其语义信息。
同时,由于第一条检索结果中仍有很多冗余信息,容易对语义划分产生干扰,因此本发明在设计过程中仅抽取出第一条检索结果的标题信息、摘要信息、以及关键词信息等最具代表性的语料,并将其作为原短文本信息的附加语料,从而增加了语义特征词汇数量,从而进一步增强语义表示。
如图2所示,另外一种增强语义表示的方法是训练词向量法,目前已有方法一般用初始未扩充语料或纽约时报等现有语料直接作为训练集训练词向量,而本发明设计了一种更加精准的词向量训练语料作为训练集,从而使得到的词向量能够更精准的表示语义信息。本发明在设计过程中,首先将扩充语料部分得到的高质量领域相关语料进行再加工,其方法为将高质量语料进行切分词汇、去除停用词操作得到清洁语料,然后使用计算关键词方法再一次提取关键词,然后将再次提取的关键词附加在清洁语料后作为语义增强信息得到。最后将附加关键词的清洁语料作为新训练集训练词向量。从而得到精准语义词向量。
所述词向量工具指word2vec、fasttext,所述预处理后的扩充语料指对扩充语料进行切分词汇、去除停用词处理,所述合适分类算法指朴素贝叶斯算法(Bayes,NB)、支持向量机算法(support vectormachine,SVM)、K近邻算法(k-nearestneighbors,KNN)、长短记忆网络算法(Long Short Term Memory networks,LSTM)、卷积神经网络算法(convolution neural network,CNN)、fasttext算法。
为了验证本发明提出的两种语义增强方法的效果,在发明者检测发明方法的实际效果中采用了文本分类来评估总体效能,如图2所示,将语料扩充阶段得到的高质量领域相关语料作为训练文本分类器的训练集,将精准语义词向量作为训练文本分类器的辅助语义表示方法,使用发明中提及的两种方法联合构造文本分类器,实验结果证明,本发明提出的两种语义增强方法均能够显著提升文本分类器的分类性能。
由于短文本相比于普通长文本来说具有词汇量少、语义表述能力弱等缺点,因此,构建短文本分类器具有更大的挑战性。
为克服短文本的以上缺点,本发明首先利用相关文本资源对短文本进行语料扩充,其中相关资源指与待分类短文本处于相同领域的语料资源,例如,待分类的短文本是新闻标题,在扩充语料时就需使用新闻领域的语料对待分类短文本中的每条新闻标题进行语料扩充。同时,由于本专利所指语料扩充是指从相关领域语料中提取关键词扩充到待分类语料中,因此,并没有将短文本分类转化为长文本分类问题,从短文本角度训练了分类器。
其次,近期研究表明词向量在语义表示方面效果不错,但现有方法都是利用所有领域的语料共同训练出的词向量表示语义关系。由于同一词汇在不同领域内具有不同的含义,例如,“熊、牛”,这两个词汇在生物领域内指两种不同的动物,而在金融领域内更多的是指股市的下跌与上涨。因此,本专利在利用待分类语料所在领域训练特定领域词向量表示待分类语料,从而更精准的提升了待分类语料的语义表示。
基于以上两种语义扩充方法,本申请利用扩充后的语料、特定领域精准词向量共同训练短文本分类器,在测试过程中,使用同样的方法处理待分类文本,最后文本分类器给出待分类文本的特定类别。在实验过程中,本专利使用十八个类别(娱乐、运动、汽车、社会、教育、国际、金融、游戏、旅行、军事、历史、婴儿、时尚、饮食、探索、故事、养生、散文)的新闻标题作为训练语料,每个类别使用4000-10000条新闻标题作为训练语料,使用2000条新闻标题作为待分类测试语料。具体实施过程中本申请采用机器学习、CNN、fasttext等多种方法训练词向量和分类器,其中效果最佳的是fasttext,其对于十八个类别的分类精确度位82.9%,并在NLPCC2017新闻标题分类任务评测中排名第一。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于语义增强的短文本分类方法,所述方法包括:
步骤1)构建短文本分类器,从互联网资源中获取领域相关的短文本训练集,对每一条短文本进行扩充语料和训练词向量,训练短文本分类器;
步骤2)对待分类的短文本进行扩充语料和训练词向量后,输入步骤1)的短文本分类器进行分类,得到分类结果。
2.根据权利要求1所述的基于语义增强的短文本分类方法,其特征在于,所述步骤1)包括:
步骤101)使用短文本训练集中的每一条短文本信息作为互联网搜索引擎的输入检索关键词信息,选取相似性最高的第一条检索结果作为扩充语料;
步骤102)抽取出第一条检索结果的标题信息、摘要信息以及关键词信息作为语料,并将其作为原短文本信息的附加语料;
步骤103)从扩充语料中得到高质量领域相关语料,对该语料进行切分词汇、去除停用词操作得到清洁语料,然后使用计算关键词方法再一次提取关键词,将再次提取的关键词附加在清洁语料后,最后将附加关键词的清洁语料作为新训练集训练词向量,从而得到精准语义词向量;
步骤104)将语料扩充阶段得到的高质量领域相关语料作为训练段文本分类器的训练集,与步骤103)得到的精准语义关系词向量作为辅助信息联合起来,训练短文本分类器。
3.根据权利要求1或2所述的基于语义增强的短文本分类方法,其特征在于,所述短文本分类器采用的分类算法为朴素贝叶斯算法、支持向量机算法、K近邻算法、长短记忆网络算法、卷积神经网络算法或fasttext算法。
4.根据权利要求3所述的基于语义增强的短文本分类方法,其特征在于,所述步骤2)包括:
步骤201)将待分类的短文本作为互联网搜索引擎的输入检索关键词信息,选取相似性最高的第一条检索结果作为扩充语料;
步骤202)抽取出第一条检索结果的标题信息、摘要信息以及关键词信息作为语料,并将其作为待分类的短文本的附加语料;
步骤203)从扩充语料中得到高质量领域相关语料,对该语料进行切分词汇、去除停用词操作得到清洁语料,然后使用计算关键词方法再一次提取关键词,将再次提取的关键词附加在清洁语料后,最后将附加关键词的清洁语料作为新训练集训练词向量,从而得到待分类的短文本的精准语义词向量;
步骤204)将扩充语料和精准语义词向量联合起来输入短文本分类器,得到待分类的短文本的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810090256.4A CN108280206B (zh) | 2018-01-30 | 2018-01-30 | 一种基于语义增强的短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810090256.4A CN108280206B (zh) | 2018-01-30 | 2018-01-30 | 一种基于语义增强的短文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108280206A true CN108280206A (zh) | 2018-07-13 |
CN108280206B CN108280206B (zh) | 2020-05-26 |
Family
ID=62807048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810090256.4A Active CN108280206B (zh) | 2018-01-30 | 2018-01-30 | 一种基于语义增强的短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280206B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
CN109740728A (zh) * | 2018-12-10 | 2019-05-10 | 杭州世平信息科技有限公司 | 一种基于多种神经网络组合的量刑计算方法 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN110968676A (zh) * | 2019-12-05 | 2020-04-07 | 天津大学 | 基于lda模型与lstm网络的文本数据语义时空模式探索方法 |
CN111460147A (zh) * | 2020-03-24 | 2020-07-28 | 哈尔滨工程大学 | 一种基于语义增强的标题短文本分类方法 |
CN111581381A (zh) * | 2020-04-29 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 文本分类模型的训练集合的生成方法、装置和电子设备 |
CN112257410A (zh) * | 2020-10-15 | 2021-01-22 | 江苏卓易信息科技股份有限公司 | 一种非平衡文本的相似度计算方法 |
CN112541076A (zh) * | 2020-11-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN112784052A (zh) * | 2021-03-15 | 2021-05-11 | 中国平安人寿保险股份有限公司 | 文本分类方法、装置、设备及计算机可读存储介质 |
CN112883158A (zh) * | 2021-02-25 | 2021-06-01 | 北京精准沟通传媒科技股份有限公司 | 对短文本分类的方法、装置、介质以及电子设备 |
CN113010669A (zh) * | 2020-12-24 | 2021-06-22 | 华戎信息产业有限公司 | 一种新闻分类方法和系统 |
WO2021151306A1 (zh) * | 2020-06-19 | 2021-08-05 | 平安科技(深圳)有限公司 | 智能问答语料分析方法、装置、电子设备及可读存储介质 |
WO2022142613A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 训练语料扩充方法及装置、意图识别模型训练方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
CN106202518A (zh) * | 2016-07-22 | 2016-12-07 | 桂林电子科技大学 | 基于chi和分类别关联规则算法的短文本分类方法 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
-
2018
- 2018-01-30 CN CN201810090256.4A patent/CN108280206B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
CN106202518A (zh) * | 2016-07-22 | 2016-12-07 | 桂林电子科技大学 | 基于chi和分类别关联规则算法的短文本分类方法 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
Non-Patent Citations (3)
Title |
---|
ERWIN B. SETIAWAN等: "Feature Expansion using Word Embedding for Tweet Topic Classification", 《2016 10TH INTERNATIONAL CONFERENCE ON TELECOMMUNICATION SYSTEMS SERVICES AND APPLICATIONS》 * |
卢玲 等: "结合语义扩展和卷积神经网络的中文短文本分类方法", 《计算机应用》 * |
孟欣 等: "基于word embedding的短文本特征扩展与分类", 《小型微型计算机系统》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033402A (zh) * | 2018-08-02 | 2018-12-18 | 上海应用技术大学 | 安全领域专利文本的分类方法 |
CN109740728A (zh) * | 2018-12-10 | 2019-05-10 | 杭州世平信息科技有限公司 | 一种基于多种神经网络组合的量刑计算方法 |
CN110866117B (zh) * | 2019-10-25 | 2021-09-03 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN110866117A (zh) * | 2019-10-25 | 2020-03-06 | 西安交通大学 | 一种基于语义增强与多层次标签嵌入的短文本分类方法 |
CN110968676A (zh) * | 2019-12-05 | 2020-04-07 | 天津大学 | 基于lda模型与lstm网络的文本数据语义时空模式探索方法 |
CN111460147A (zh) * | 2020-03-24 | 2020-07-28 | 哈尔滨工程大学 | 一种基于语义增强的标题短文本分类方法 |
CN111460147B (zh) * | 2020-03-24 | 2023-06-23 | 哈尔滨工程大学 | 一种基于语义增强的标题短文本分类方法 |
CN111581381A (zh) * | 2020-04-29 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 文本分类模型的训练集合的生成方法、装置和电子设备 |
CN111581381B (zh) * | 2020-04-29 | 2023-10-10 | 北京字节跳动网络技术有限公司 | 文本分类模型的训练集合的生成方法、装置和电子设备 |
WO2021151306A1 (zh) * | 2020-06-19 | 2021-08-05 | 平安科技(深圳)有限公司 | 智能问答语料分析方法、装置、电子设备及可读存储介质 |
CN112257410A (zh) * | 2020-10-15 | 2021-01-22 | 江苏卓易信息科技股份有限公司 | 一种非平衡文本的相似度计算方法 |
CN112541076A (zh) * | 2020-11-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN112541076B (zh) * | 2020-11-09 | 2024-03-29 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN113010669A (zh) * | 2020-12-24 | 2021-06-22 | 华戎信息产业有限公司 | 一种新闻分类方法和系统 |
WO2022142613A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 训练语料扩充方法及装置、意图识别模型训练方法及装置 |
CN112883158A (zh) * | 2021-02-25 | 2021-06-01 | 北京精准沟通传媒科技股份有限公司 | 对短文本分类的方法、装置、介质以及电子设备 |
CN112784052A (zh) * | 2021-03-15 | 2021-05-11 | 中国平安人寿保险股份有限公司 | 文本分类方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108280206B (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280206A (zh) | 一种基于语义增强的短文本分类方法 | |
US10719664B2 (en) | Cross-media search method | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN106570708B (zh) | 一种智能客服知识库的管理方法及系统 | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
Fatima et al. | Text Document categorization using support vector machine | |
Pong-Inwong et al. | Improved sentiment analysis for teaching evaluation using feature selection and voting ensemble learning integration | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN113254655B (zh) | 文本分类方法、电子设备及计算机存储介质 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111859961A (zh) | 一种基于改进TopicRank算法的文本关键词抽取方法 | |
Wang et al. | Semi-supervised self-training for sentence subjectivity classification | |
Celikyilmaz et al. | A graph-based semi-supervised learning for question-answering | |
CN115329085A (zh) | 一种社交机器人分类方法及系统 | |
Gonsior et al. | Active Learning for Spreadsheet Cell Classification. | |
Parvathi et al. | Identifying relevant text from text document using deep learning | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
Cahyani et al. | Relevance classification of trending topic and twitter content using support vector machine | |
Putra et al. | Document Classification using Naïve Bayes for Indonesian Translation of the Quran | |
Tizhoosh et al. | Poetic features for poem recognition: A comparative study | |
CN112527985A (zh) | 未知问题处理方法、装置、设备及介质 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN108804524B (zh) | 基于层次化分类体系的情感判别和重要性划分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210408 Address after: No.26 Fucheng Road, Haidian District, Beijing 100142 Patentee after: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA Address before: 100142 courtyard 26, Fucheng Road, Haidian District, Beijing Patentee before: Yin Zhongbo Patentee before: MILITARY SCIENCE INFORMATION RESEARCH CENTER OF MILITARY ACADEMY OF THE CHINESE PLA |