CN108388914A - 一种基于语义计算的分类器构建方法、分类器 - Google Patents

一种基于语义计算的分类器构建方法、分类器 Download PDF

Info

Publication number
CN108388914A
CN108388914A CN201810159255.0A CN201810159255A CN108388914A CN 108388914 A CN108388914 A CN 108388914A CN 201810159255 A CN201810159255 A CN 201810159255A CN 108388914 A CN108388914 A CN 108388914A
Authority
CN
China
Prior art keywords
vector
text
classification
grader
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810159255.0A
Other languages
English (en)
Other versions
CN108388914B (zh
Inventor
宋俊平
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201810159255.0A priority Critical patent/CN108388914B/zh
Publication of CN108388914A publication Critical patent/CN108388914A/zh
Application granted granted Critical
Publication of CN108388914B publication Critical patent/CN108388914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息检索及其数据库结构技术领域,公开了一种基于语义计算的分类器构建方法、分类器,利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;通过分类标签获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类。本发明的非监督学习阶段无需标注数据,仅仅需要用户定义少量特征词即可完成分类器的创建,上线速度快,无需等待漫长的标注数据积累;非监督学习阶段可以充分利用现有的有限标注数据,通过提取有效特征词来指导和提高非监督分类能力。

Description

一种基于语义计算的分类器构建方法、分类器
技术领域
本发明属于信息检索及其数据库结构技术领域,尤其涉及一种基于语义计算的分类器构建方法、分类器。
背景技术
目前,业内常用的现有技术是这样的:伴随着全球化进程的不断深化和互联网的迅速发展,文本数据正呈现出爆炸式的增长,但数据来源各异、形式多样,为文档的管理和使用带来了极大的挑战。文本分类技术是利用机器学习方法对文本集按照一定的分类体系或标准自动进行分类标记,从而实现对海量数据的归类存档和快速查询检索。目前,文本分类技术已经相对成熟,也在很多领域得到了广泛的应用。文本分类最原始的方法是对各个分类定义一些关键词规则,然后利用文本和分类的关键词匹配程度来进行分类。随着机器学习的发展,诞生了许多基于机器学习的文本分类器,如朴素贝叶斯(Bayes)和支持向量机(SVM)等。目前,深度学习的流行使文本分类的性能得到了极大的提高,例如基于长短时记忆网络(LSTM)或卷积神经网络(CNN)等神经网络模型在很多文本分类任务中都能达到90%以上。
综上所述,现有技术存在的问题是:现有基于机器学习的文本分类方法通常是监督学习的,其往往需要繁重的人工标注去产生优良的训练分类器,这就导致如下两个问题的产生:
(1)人工标注数据往往需要繁重的人工劳动,标注准确率要求高,这往往要求三个人去标注同一个文本,从而标注工作周期长,人工成本高,上线投产速度慢;
(2)在缺乏语料的情况下,分类器训练的模型较差,往往不能满足系统应用的实效性要求。
解决上述技术问题的难度和意义:非监督的文本分类只需要用户为每个分类定义一些启发式的关键词,来自动完成分类任务,极大较少人工参与的工作量,加快分类器的构建速度。
发明内容
针对现有技术存在的问题,本发明提供了一种基于语义计算的分类器构建方法、分类器。
本发明是这样实现的,一种基于非监督学习的文本所属分类方法,所述基于非监督学习的文本所属分类方法利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;通过分类标签获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类。
进一步,非监督分类直接从类别的内在特征出发,进行分类类别的特征表示,通过特征词和预先训练的词向量,利用向量加权平均的方法计算出类向量,计算方法为:
其中Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量。
进一步,文本正文的语义向量通过计算文章所含词的词向量的加权平均和得到,利用textrank算法对文本中字符进行重要性排序,一个字符的权重计算公式为:
其中d为阻尼系数,In(Wi)为指向当前字符的字符集合,Out(Wj)为当前字符指向的字符集合,ωji为两个字符共现权重;通过加权平均和的方式获得文本语义向量,用公式表示为:
其中,Vector(s)表示标题或者正文的向量,Vi表示标题或正文中第i个字的向量,WS(Wi)是计算好的第i个字的重要性权重。
本发明的另一目的在于提供一种应用所述基于非监督学习的文本所属分类方法的分类器。
本发明的另一目的在于提供一种利用所述的基于非监督学习的文本所属分类方法的基于语义计算的分类器构建方法,所述基于语义计算的分类器构建方法包括:
(1)半监督阶段,从训练数据中自动提取出类别特征加入到非监督学习模型;
(2)监督学习阶段,引入了监督学习方法,,训练好后将监督学习接口迁移到分类接口上,经过用户确认后替换原来非监督的分类方法。
进一步,所述半监督阶段利用textrank算法从类别下标注数据中提取特征词,将特征词加入到非监督分类中的类特征词池中,类向量计算方法更新为:
其中Vectorhw为非监督提取出特征词向量,ω4为非监督学习指导权重,WS(Wi)为非监督提取出特征词权重。
本发明的另一目的在于提供一种应用所述基于语义计算的分类器构建方法的分类器。
本发明的另一目的在于提供一种所述基于语义计算的分类器构建方法的基于语义计算的分类器构建系统,所述基于语义计算的分类器构建系统包括:
非监督学习模块,用于获得文本所属的最可能的分类;
半监督模块,用于从训练数据中自动提取出类别特征加入到非监督学习模型;
监督学习模块,用于训练好后将监督学习接口迁移到分类接口上,经过用户确认后替换原来非监督的分类方法。
综上所述,本发明的优点及积极效果为:在不需要训练分类器的情况下,能够对分类和文本进行语义表征,并通过计算分类和文本之间的语义关系来实现分类的功能。包含了非监督阶段、半监督阶段和监督学习阶段,各个分类阶段能够满足各个阶段要求,可以灵活切换,各个阶段实时在线学习,可以做到无缝切换,提高了现场运行性能。本发明的非监督学习阶段无需标注数据,仅仅需要用户定义少量特征词即可完成分类器的创建,因此上线速度快,无需等待漫长的标注数据积累;非监督学习阶段可以充分利用现有的有限标注数据,通过提取有效特征词来指导和提高非监督分类能力;监督学习阶段利用丰富的标注数据,训练优良的分类模型,在线上达到预期效果后可以灵活进行上线。
为了验证非监督学习方法的有效性,本发明采用公开的清华数据集作为测试集进行实验对比,我们从清华数据集中14个分类中的每一个分类中随机抽取100个文档,然后运行监督的SVM方法和本发明阐述的非监督分类方法,最后将获得的准确率、召回率和F1等参数统计如下:
方法/参数 准确率(%) 召回率(%) F1(%)
监督SVM方法 86.1 82.3 84.2
本非监督方法 82.5 79.3 80.9
从上表可以看出,本发明中的非监督学习方法,在F1值上达到了80.9%,比监督的SVM方法仅仅低了3%左右,这充分说明了非监督学习方法在容错允许的范围内能够达到监督学习方法的相当效果。
附图说明
图1是本发明实施例提供的基于语义计算的分类器构建方法流程图。
图2是本发明实施例提供的基于语义计算的分类器构建方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了快速构建分类器,并在使用过程中逐步提升分类效果,本发明提出了一种渐进式的分类器构建技术;只需要用户为每个分类定义一些启发式的关键词,自动完成分类任务,极大较少人工参与的工作量,加快分类器的构建速度。
如图1所示,本发明实施例提供的基于语义计算的分类器构建方法包括以下步骤:
S101:非监督学习阶段(无训练数据阶段),利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;然后通过分类标签(包括分类名和用户自定义的一些关键词)来获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;最后通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类;
S102:半监督阶段(训练数据积累阶段),随着分类器的使用,用户不断积累数据,并不断的对数据进行人工纠正,形成少量的训练数据,从训练数据中自动提取出类别特征加入到非监督学习模型中,指导非监督学习,提高分类的准确率;
S103:监督学习阶段(训练数据阶段),当日积月累,训练数据已经足够丰富时,本发明引入了监督学习方法,如支持向量机(SVM)进行模型的训练,训练好后将监督学习接口迁移到分类接口上,经过用户确认后替换原来非监督的分类方法。
本发明的核心技术是基于语义计算的非监督分类方法,依赖的最基础的算法是词向量的训练。词向量通俗的讲就是词的分布式表征(Distributed Representation)方法,即将自然语言中的抽象的词转化为容易计算的N维向量,并且词之间蕴含的深度语义关联也可以通过计算词向量间的相似度获得。目前词向量的训练方法主要是谷歌的word2vec(google发布的一个工具包,利用神经网络为单词寻找一个连续向量空间中的表示)和斯坦福的全局向量模型GloVe(Global Vectors for Word Representation,斯坦福发布的词向量训练工具)。
非监督分类的非监督性表现在无需利用类别的标注数据,而直接从类别的内在特征出发,进行分类类别的特征表示,内在特征主要是指分类本身的名称和人工定义的分类特征词。通过这些特征词和预先训练的词向量,利用向量加权平均的方法可以计算出类向量,其计算方法为:
其中,Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量。类别特征转化为类向量,而不是直接用特征词词典组成的优势是,类向量本身蕴含了丰富的语义,并采用数学向量表示,便于进行数学运算。
本发明引入了排斥特征词概念,排斥特征词指的是那些虽然可以作为该类别的特征词,但是它更能代表另一个语义相似类的类别,因此需要将这类词在该类中进行惩罚,在另一个类中进行加权,从而使语义空间上相似类能够明显区分。基于排斥特征词思想,上式将被改写为:
其中Vectorrw为排斥特征词向量,ω3为惩罚权重。
为了达到非监督分类的目的,需将预分类的文章进行语义向量表征,这样才能通过计算文章向量和类向量之间的语义相似度来区分类别。文章正文的语义向量可以通过计算文章所含词的词向量的加权平均和来得到,具体步骤为:首先,利用textrank算法(TextRank是在Google的PageRank算法启发下,针对文本里的词或句子设计的权重算法)对文本中字符进行重要性排序,一个字符的权重计算公式为:
其中d为阻尼系数(一般取值为0.85),nIW(i)为指向当前字符的字符集合,Out(Wj)为当前字符指向的字符集合,ωji为两个字符共现权重。然后通过加权平均和的方式获得文本语义向量,用公式表示为:
其中,Vector(s)表示标题或者正文的向量,Vi表示标题或正文中第i个字的向量,WS(Wi)是计算好的第i个字的重要性权重。
非监督分类对于无训练数据、急需上线应用的情况是一种非常有效的手段,但非监督分类的缺点是用户自定义特征太少,分类准确率太低。因此,在线上运行系统提供一种在线数据标注工具,供用户实现在线人工标注数据,随着项目的线上运行,标注数据逐渐积累,但是这些少量的标注数据仍然达不到训练模型的量。为了利用这些数据提高非监督分类的准确率,本发明提出一种半监督方案,其基本思想是,首先利用textrank算法从类别下标注数据中提取特征词,然后将这些特征词加入到非监督分类中的类特征词池中,从而达到提高类特征表示能力,此时类向量计算方法更新为:
其中Vectorhw为非监督提取出特征词向量,ω4为非监督学习指导权重,WS(Wi)为非监督提取出特征词权重。
随着标注数据的积累,当达到设定的阈值量时,系统启动监督学习,学习训练模型,本框架采用最经典的支持向量机(SVM)方法训练分类器模型。在训练完成模型后将监督学习和半监督学习两个分类器同时上线运行,比较两种分类器性能,当监督学习性能优于非监督学习预先设计比例时,监督学习替代非监督学习进行线上运行,反之则继续积累数据训练模型,直到监督学习达到预设效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于非监督学习的文本所属分类方法,其特征在于,所述基于非监督学习的文本所属分类方法利用神经网络模型在维基百科数据上训练词向量,获得词的分布式表征;通过分类标签获得分类的向量表示,同时利用加权平均的方法获得文本的向量表示;通过计算分类向量和文本向量之间的语义关系来获得文本所属的最可能的分类。
2.如权利要求1所述的基于非监督学习的文本所属分类方法,其特征在于,非监督分类直接从类别的内在特征出发,进行分类类别的特征表示,通过特征词和预先训练的词向量,利用向量加权平均的方法计算出类向量,计算方法为:
其中Vectorrw为排斥特征词向量,ω3为惩罚权重;Vectorc为要求的类向量,是一个N维的浮点向量,Vectorcw和Vectorfw分别为分类类名和分类特征词的词向量,ω1和ω2分别为两类特征词分别表示的权重,N表示每个类别特征词的数量。
3.如权利要求1所述的基于非监督学习的文本所属分类方法,其特征在于,文本正文的语义向量通过计算文章所含词的词向量的加权平均和得到,利用textrank算法对文本中字符进行重要性排序,一个字符的权重计算公式为:
其中d为阻尼系数,In(Wi)为指向当前字符的字符集合,Out(Wj)为当前字符指向的字符集合,ωji为两个字符共现权重;通过加权平均和的方式获得文本语义向量,用公式表示为:
其中,Vector(s)表示标题或者正文的向量,Vi表示标题或正文中第i个字的向量,WS(Wi)是计算好的第i个字的重要性权重。
4.一种应用权利要求1~3任意一项所述基于非监督学习的文本所属分类方法的分类器。
5.一种利用权利要求1所述的基于非监督学习的文本所属分类方法的基于语义计算的分类器构建方法,其特征在于,所述基于语义计算的分类器构建方法包括:
(1)半监督阶段,从训练数据中自动提取出类别特征加入到非监督学习模型;
(2)监督学习阶段,引入了监督学习方法,训练好后将监督学习接口迁移到分类接口上,经过用户确认后替换原来非监督的分类方法。
6.如权利要求5所述的基于语义计算的分类器构建方法,其特征在于,所述半监督阶段利用textrank算法从类别下标注数据中提取特征词,将特征词加入到非监督分类中的类特征词池中,类向量计算方法更新为:
其中Vectorhw为非监督提取出特征词向量,ω4为非监督学习指导权重,WS(Wi)为非监督提取出特征词权重。
7.一种应用权利要求5~6任意一项所述基于语义计算的分类器构建方法的分类器。
8.一种如权利要求1所述基于语义计算的分类器构建方法的基于语义计算的分类器构建系统,其特征在于,所述基于语义计算的分类器构建系统包括:
非监督学习模块,用于获得文本所属的最可能的分类;
半监督模块,用于从训练数据中自动提取出类别特征加入到非监督学习模型;
监督学习模块,用于训练好后将监督学习接口迁移到分类接口上,经过用户确认后替换原来非监督的分类方法。
CN201810159255.0A 2018-02-26 2018-02-26 一种基于语义计算的分类器构建方法、分类器 Active CN108388914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810159255.0A CN108388914B (zh) 2018-02-26 2018-02-26 一种基于语义计算的分类器构建方法、分类器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810159255.0A CN108388914B (zh) 2018-02-26 2018-02-26 一种基于语义计算的分类器构建方法、分类器

Publications (2)

Publication Number Publication Date
CN108388914A true CN108388914A (zh) 2018-08-10
CN108388914B CN108388914B (zh) 2022-04-01

Family

ID=63069192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810159255.0A Active CN108388914B (zh) 2018-02-26 2018-02-26 一种基于语义计算的分类器构建方法、分类器

Country Status (1)

Country Link
CN (1) CN108388914B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165288A (zh) * 2018-09-17 2019-01-08 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109872162A (zh) * 2018-11-21 2019-06-11 阿里巴巴集团控股有限公司 一种处理用户投诉信息的风控分类识别方法及系统
CN112579777A (zh) * 2020-12-23 2021-03-30 华南理工大学 一种未标注文本的半监督分类方法
CN113032558A (zh) * 2021-03-11 2021-06-25 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113361615A (zh) * 2021-06-16 2021-09-07 中国人民解放军军事科学院军事科学信息研究中心 基于语义相关性的文本分类方法
CN116863403A (zh) * 2023-07-11 2023-10-10 仲恺农业工程学院 一种农作物大数据环境监测方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
CN106547735A (zh) * 2016-10-25 2017-03-29 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN106570076A (zh) * 2016-10-11 2017-04-19 深圳大学 一种计算机文本分类系统
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN106570076A (zh) * 2016-10-11 2017-04-19 深圳大学 一种计算机文本分类系统
CN106547735A (zh) * 2016-10-25 2017-03-29 复旦大学 基于深度学习的上下文感知的动态词或字向量的构建及使用方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王春梅等: "科研动态搜索引擎的自动分类方法研究", 《科学与管理》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271632B (zh) * 2018-09-14 2023-05-26 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109271632A (zh) * 2018-09-14 2019-01-25 重庆邂智科技有限公司 一种监督的词向量学习方法
CN109165288B (zh) * 2018-09-17 2019-08-27 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109165288A (zh) * 2018-09-17 2019-01-08 北京神州泰岳软件股份有限公司 一种多语义监督的词向量训练方法及装置
CN109543032A (zh) * 2018-10-26 2019-03-29 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备和存储介质
CN109872162A (zh) * 2018-11-21 2019-06-11 阿里巴巴集团控股有限公司 一种处理用户投诉信息的风控分类识别方法及系统
CN112579777A (zh) * 2020-12-23 2021-03-30 华南理工大学 一种未标注文本的半监督分类方法
CN112579777B (zh) * 2020-12-23 2023-09-19 华南理工大学 一种未标注文本的半监督分类方法
CN113032558A (zh) * 2021-03-11 2021-06-25 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113032558B (zh) * 2021-03-11 2023-08-29 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113361615A (zh) * 2021-06-16 2021-09-07 中国人民解放军军事科学院军事科学信息研究中心 基于语义相关性的文本分类方法
CN116863403A (zh) * 2023-07-11 2023-10-10 仲恺农业工程学院 一种农作物大数据环境监测方法、装置及电子设备
CN116863403B (zh) * 2023-07-11 2024-01-02 仲恺农业工程学院 一种农作物大数据环境监测方法、装置及电子设备

Also Published As

Publication number Publication date
CN108388914B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN108388914A (zh) 一种基于语义计算的分类器构建方法、分类器
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN102033949B (zh) 基于修正的k近邻文本分类方法
Tiun et al. Classification of functional and non-functional requirement in software requirement using Word2vec and fast Text
CN105045875B (zh) 个性化信息检索方法及装置
CN108595425A (zh) 基于主题与语义的对话语料关键词抽取方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN103577462B (zh) 一种文档分类方法及装置
CN115630640B (zh) 一种智能写作方法、装置、设备及介质
CN110543595B (zh) 一种站内搜索系统及方法
CN102033950A (zh) 电子产品命名实体自动识别系统的构建方法及识别方法
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及系统
CN102289522A (zh) 一种对于文本智能分类的方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN102662923A (zh) 一种基于机器学习的本体实例学习方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN111104510A (zh) 一种基于词嵌入的文本分类训练样本扩充方法
CN109299464B (zh) 基于网络链接和文档内容的主题嵌入、文档表示方法
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN115329085A (zh) 一种社交机器人分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant