CN112417153B - 文本分类方法、装置、终端设备和可读存储介质 - Google Patents

文本分类方法、装置、终端设备和可读存储介质 Download PDF

Info

Publication number
CN112417153B
CN112417153B CN202011308990.7A CN202011308990A CN112417153B CN 112417153 B CN112417153 B CN 112417153B CN 202011308990 A CN202011308990 A CN 202011308990A CN 112417153 B CN112417153 B CN 112417153B
Authority
CN
China
Prior art keywords
word
subject
vector
text
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011308990.7A
Other languages
English (en)
Other versions
CN112417153A (zh
Inventor
王欣芝
廖康宁
杨斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubo Network Technology Shanghai Co ltd
Original Assignee
Hubo Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubo Network Technology Shanghai Co ltd filed Critical Hubo Network Technology Shanghai Co ltd
Priority to CN202011308990.7A priority Critical patent/CN112417153B/zh
Publication of CN112417153A publication Critical patent/CN112417153A/zh
Application granted granted Critical
Publication of CN112417153B publication Critical patent/CN112417153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了文本分类方法、装置、终端设备和可读存储介质,该方法包括:获取各个基础词对应的基础词向量和各个主题词对应的主题词向量;对各个主题词向量进行降维处理,以获得各个主题词向量对应的低维主题词向量;确定各个主题词的类别总数和同类主题词的数目;计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和平均主题词向量拼接;将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定文本内容对应第i个类别的概率值。本发明的技术方案使得各个词向量与类别相关的特征增强,与类别不相关的特征减弱,使得文本分类模型能更快速、更准确的确定文本内容的对应类别。

Description

文本分类方法、装置、终端设备和可读存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本分类方法、装置、终端设备和可读存储介质。
背景技术
在大数据时代,网络上的文本数据日益增长,采用文本分类技术对海量数据进行科学地组织和管理显得尤为重要。文本分类应用场景有很多、例如敏感信息分类、舆情分类、主题划分等等。但是,目前文本分类的效率完全依赖于文本分类模型的训练,以及用于训练文本分类模型的语料库,并未充分考虑文本中的主题关键词,导致文本分类模型训练时间过程,并且在语料库的构建过程中浪费大量的人力资源。
发明内容
鉴于上述问题,本发明提出一种文本分类方法、模型、终端设备和可读存储介质。
本发明的一个实施例提出一种文本分类方法,该方法包括:
对获取的文本内容进行分词处理;
根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;
对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;
对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;
确定所述各个主题词的类别总数和同类主题词的数目;
计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;
将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。
本发明的另一个实施例所述的文本分类方法,将各个拼接向量依次输入至预先训练达标的文本分类模型,包括:
将各个拼接向量依次输入至所述文本分类模型的门控循环单元,以获得各个拼接词向量对应的预测词向量;
计算所有预测词向量的平均预测词向量;
利用softmax函数和所述平均预测词向量计算所述文本内容对应所述第i个类别的概率值。
上述门控循环单元包括以下函数:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure BDA0002789187580000021
Figure BDA0002789187580000022
yt=σ(W0·ht)
rt表示所述门控循环单元的重置门,zt表示所述门控循环单元的更新门,ht-1表示上一时刻隐藏层的保留信息,xt表示所述拼接向量;
Figure BDA0002789187580000023
表示候选隐含记忆,ht是当前时刻隐藏层的保留信息,σ()表示sigmoid激活函数,用于将rt和zt结果压缩在0到1之间,tanh()表示tanh激活函数,用于将/>
Figure BDA0002789187580000031
结果缩放至-1到1之间,Wr、Wz、/>
Figure BDA0002789187580000032
Wo表示门控循环单元的参数。
本发明实施例所述预设的主题词集合,利用以下方式预先获取:
在确定某一类别的主题词时,确定该类别的文本中的每一个词语的词频-逆向文档频率;
所述词频-逆向文档频率大于预设阈值的词语作为该类别的主题词,收录至所述主题词集合。
本发明实施例所述词频-逆向文档频率通过以下公式确定:
Figure BDA0002789187580000033
fj表示所述该类别的文本中第j个词语的词频-逆向文档频率,mj表示第j个词语在所述该类别的文本中出现的次数,M表示所述该类别的文本的词汇总数,P表示预定数目的对比文本总数,pj表示在所述预定数目的对比文本中包括第j个词语的目标文本数目。
本发明实施例中对主题词向量进行降维处理,包括:
利用所述主题词向量和所述主题词向量的转置向量确定协方差矩阵;
确定所述协方差矩阵的特征值和所述特征值对应的特征向量;
将所述特征向量按照对应的特征值从大到小排列;
确定排序靠前的预定数目行特征向量,所述预定数目行特征向量作为降维矩阵;
利用所述降维矩阵对所述主题词向量进行降维。
本发明的再一个实施例提出一种文本分类装置,该装置包括:
文本分词处理模块,用于对获取的文本内容进行分词处理;
词语类型区分模块,用于根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;
词语向量表示模块,用于对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;
词语向量降维模块,用于对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;
主题数目统计模块,用于确定所述各个主题词的类别总数和同类主题词的数目;
词语向量拼接模块,用于计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;
类别概率计算模块,用于将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。
上述的文本分类装置,将各个拼接向量依次输入至预先训练达标的文本分类模型,包括:
将各个拼接向量依次输入至所述文本分类模型的门控循环单元,以获得各个拼接词向量对应的预测词向量;计算所有预测词向量的平均预测词向量;利用softmax函数和所述平均预测词向量计算所述文本内容对应所述第i个类别的概率值。
本发明实施例涉及一种终端设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器上运行时执行本发明实施例所述的文本分类方法。
本发明实施例涉及一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行本发明实施例所述的文本分类方法。
本发明公开的文本分类方法包括:对获取的文本内容进行分词处理;根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;确定所述各个主题词的类别总数和同类主题词的数目;计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。本发明的技术方案通过将各个基础词向量分别和所述平均主题词向量拼接,使得各个输入文本分类模型的词向量与类别相关的特征增强,与类别不相关的特征减弱,使得文本分类模型能更快速、更准确的确定文本内容的对应类别。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本发明实施例提出的一种文本分类方法的流程示意图;
图2示出了本发明实施例提出的一种拼接向量的拼接过程示意图;
图3示出了本发明实施例提出的一种门控循环单元的结构示意图;
图4示出了本发明实施例提出的一种文本分类方装置的结构示意图。
主要元件符号说明:
1-文本分类装置;10-文本分词处理模块;20-词语类型区分模块;30-词语向量表示模块;40-词语向量降维模块;50-主题数目统计模块;60-词语向量拼接模块;70-类别概率计算模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
本发明公开的文本分类方法,可以用于以下情景:
敏感信息分类,证券、银行、保险等行业对信息资产安全性有很高要求,面对内部庞大的信息资产数据,要对敏感数据数据进行有效管理,对资源分级分类进行标记必不可少,再根据标记对数据安全等级进行识别,并保留标记记录作为审计依据。
舆情分类,网络舆情作为公众表达意见的渠道,反映了一定的社会条件和公众意见。因此,舆情处理流程的第一步应该是建立一个高效的网络舆情信息采集机制,使用舆情分类,可多层次全方位的监测全网舆情,及时发现舆情信息并监测舆情的发展趋势,防止舆情危机的产生。
主题划分,利用主题划分能通过文章里面的词,划分成不同分类,当给用户做推荐的时候,可以根据用户浏览文章的记录,推荐相似分类的文章。
本发明公开的文本分类方法利用词频-逆向文档频率规则预先构建主题词集合,根据主题词集合从文本内容对应的各个词语中确定主题词和基础词;对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;确定所述各个主题词的类别总数和同类主题词的数目;计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。通过将各个基础词向量分别和所述平均主题词向量拼接,使得与类别相关的特征增强,与类别不相关的特征减弱,使得文本分类模型能更快速、更准确的确定文本内容的对应类别。
实施例1
本实施例,参见图1,示出了一种文本分类方法包括以下步骤:
S10:对获取的文本内容进行分词处理。
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。中文分词根据实现原理和特点,主要分为以下2个类别:
基于词典分词算法,也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的充分大的词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。
基于统计的机器学习算法,这类目前常用的是算法包括:条件随机场(conditional random field,CRF)、支持向量机(support vector machines,SVM)、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。
S20:根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词。
预设的主题词集合,可以利用以下方式预先获取:
在确定某一类别的主题词时,确定该类别的文本中的每一个词语的词频-逆向文档频率;所述词频-逆向文档频率大于预设阈值的词语作为该类别的主题词,收录至所述主题词集合。
进一步的,词频-逆向文档频率通过以下公式确定:
Figure BDA0002789187580000091
fj表示该类别的文本中第j个词语的词频-逆向文档频率,mj表示第j个词语在所述该类别的文本中出现的次数,M表示所述该类别的文本的词汇总数,P表示预定数目的对比文本总数,pj表示在所述预定数目的对比文本中包括第j个词语的目标文本数目。
可以理解,词频-逆向文档频率是对一个词语在一份文档中出现的频次深度和在多个文档中包括该词语的文档数的广度的权衡,如果一个词语在一篇文档中频繁出现词频高,但在其他文档中基本不出现,这样的词语或特征就可以更好的区分不同类型的文档。相反的,类似于“我们”,“了”这类词在一份文档内出现的频次很高,同时在不同的文档中出现的频次也很高,所以计算出的总的词频-逆向文档频率比较低,相较而言该词对文档的区分度就不是很高,对于文档分类而言作用不大,显然,提前过滤掉这类词语,将有效减少计算量。
根据主题词集合可以从所述文本内容对应的各个词语中确定主题词和基础词,示范性的,主题词集合中包括多个主题词,例如,“体育”、“音乐”、“古典”、“绘画”和“美术”等与类别相关的主题词,文本内容包括“体育”和“赛事”,可以将“体育”和“赛事”依次和主题词集合中包括的多个主题词进行比对,若在主题词集合中可以找到与之相同的词语,则该词语为主题词,若在主题词集合中不能找到与之相同的词语,则该词语为基础词。显然,在上述所举实例中,“体育”为主题词,“赛事”为基础词。
S30:对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量。
word2vec模型是一种神经网络模型,预先训练好的word2vec模型的隐藏层包括多个权重,利用word2vec模型的隐藏层的权重可以为各个词语进行向量化编码,即把文字信息转化为向量形式的数字信息,便于文本分类模型识别。示范性的,可以将分词后的文本内容转换成one-hot编码,例如,“体育赛事伴随着悠扬的古典音乐而开幕”中的每一个词都对应一个one-hot编码,“体育”的one-hot编码为[1,0,0,0,0,0,0,0,0,0],“赛事”的one-hot编码为[0,1,0,0,0,0,0,0,0,0]。进一步的,在对“体育”进行向量化编码时,将“体育”的one-hot编码[1,0,0,0,0,0,0,0,0,0]作为输入向量,输入至word2vec模型的隐含层的权重里,只有对应1这个位置的权重被激活,从而被激活的权重和输入向量组成一个新的向量,新的向量可以用来表示“体育”,因为每个词语的one-hot编码里面1的位置是不同的,所以,每个词语经过word2vec进行向量化编码后的新向量可以用来唯一表示对应的词。
S40:对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量。
对主题词向量进行降维处理,包括:利用所述主题词向量和所述主题词向量的转置向量确定协方差矩阵;确定所述协方差矩阵的特征值和所述特征值对应的特征向量;将所述特征向量按照对应的特征值从大到小排列;确定排序靠前的预定数目行特征向量,所述预定数目行特征向量作为降维矩阵;利用所述降维矩阵对所述主题词向量进行降维。
示范性的,主题词向量维度是100*1,对应的主题词转置向量是1*100,利用主题词向量和主题词转置向量可以确定协方差矩阵维度是100*100,对应的特征向量的维度是100*100,将所述特征向量按照对应的特征值从大到小排列,选择排序靠前的10行作为降维矩阵,即10*100,降维矩阵的维度为10*100和主题词向量的维度为100*1,相乘后可以得到降维后的主题词向量的维度是10*1。
S50:确定所述各个主题词的类别总数和同类主题词的数目。
示范性的,“体育赛事伴随着悠扬的古典音乐而开幕”中包括3个主题词:“体育”、“古典”和“音乐”,“古典”和“音乐”是同类主题词,即音乐类数目为两个,体育类数目为1个。
S60:计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数。
拼接结果如下表所示:
原始分词 音乐类拼接 体育类拼接
本届 本届(古典+音乐) 本届(体育)
体育 体育(古典+音乐) 体育(体育)
赛事 赛事(古典+音乐) 赛事(体育)
伴随 伴随(古典+音乐) 伴随(体育)
着(古典+音乐) 着(体育)
悠扬 悠扬(古典+音乐) 悠扬(体育)
的(古典+音乐) 的(体育)
古典 古典(古典+音乐) 古典(体育)
音乐 音乐(古典+音乐) 音乐(体育)
而(古典+音乐) 而(体育)
开幕 开幕(古典+音乐) 开幕(体育)
其中,音乐类数目为两个,应计算“古典”和“音乐”的平均主题词向量,各个基础词向量分别和音乐类的平均主题词向量拼接。
示范性的,如图2所示,各个基础词向量的维度是100*1,主题词向量的维度从100*1降维至10*1维的低维主题词向量,对于某一类别中的多个低维主题词向量计算平均主题词向量,然后,将各个基础词向量分别和所述平均主题词向量拼接。其中,拼接为纵向拼接,拼接向量的维度是110*1。
S70:将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。
文本分类模型可以是能够利用先验知识的构建和自学习的循环神经网络(Recurrent Neural Network,RNN)模型。示范性的,文本内容:“本届体育赛事伴随着悠扬的古典音乐而开幕”对应的输出为体育类:0.8,音乐类:0.7。
本实施例公开的文本分类方法包括:对获取的文本内容进行分词处理;根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;确定所述各个主题词的类别总数和同类主题词的数目;计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。本实施例的技术方案通过将各个基础词向量分别和所述平均主题词向量拼接,使得各个输入文本分类模型的词向量与类别相关的特征增强,与类别不相关的特征减弱,使得文本分类模型能更快速、更准确的确定文本内容的对应类别。
实施例2
进一步的,本实施例,参见图3,示出了文本分类模型包括门控循环单元,将各个拼接向量依次输入至预先训练达标的文本分类模型,包括:
将各个拼接向量依次输入至文本分类模型的门控循环单元,以获得各个拼接词向量对应的预测词向量;计算所有预测词向量的平均预测词向量;利用softmax函数和所述平均预测词向量计算所述文本内容对应所述第i个类别的概率值。
进一步的,门控循环单元包括以下函数:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure BDA0002789187580000131
Figure BDA0002789187580000132
yt=σ(W0·ht)
rt表示门控循环单元的重置门,zt表示所述门控循环单元的更新门,ht-1表示上一时刻隐藏层的保留信息,xt表示所述拼接向量;
Figure BDA0002789187580000133
表示候选隐含记忆,ht是当前时刻隐藏层的保留信息,σ()表示sigmoid激活函数,用于将rt和zt结果压缩在0到1之间,tanh()表示tanh激活函数,用于将/>
Figure BDA0002789187580000134
结果缩放至-1到1之间,Wr、Wz、/>
Figure BDA0002789187580000135
Wo表示门控循环单元的参数。
其中,重置门是决定上一时刻隐藏状态的信息中有多少是需要被遗忘的。当该值接近或等于0,则说明上一时刻信息在当前记忆内容中被遗忘,接近或等于1则说明在当前记忆内容中继续保留。更新门的作用是决定上一层隐藏层状态中有多少信息传递到当前隐藏状态ht-1中,或者说前一时刻和当前时刻的信息有多少需要继续传递的。当zt越接近或等于0为说明上一层隐藏状态的信息在该隐藏层被遗忘,接近或等于1则说明在该隐藏层继续保留。
RNN模型由于具有短期记忆功能,因此天然就比较适合处理自然语言等序列问题,尤其是门控循环单元后,能够解决长期依赖问题,捕获输入两个目标向量之间的长距离联系。
实施例3
本实施例,参见图4,示出了一种文本分类装置1包括:文本分词处理模块10、词语类型区分模块20、词语向量表示模块30、词语向量降维模块40、主题数目统计模块50、词语向量拼接模块60和类别概率计算模块70。
文本分词处理模块10,用于对获取的文本内容进行分词处理;词语类型区分模块20,用于根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;词语向量表示模块30,用于对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;词语向量降维模块40,用于对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;主题数目统计模块50,用于确定所述各个主题词的类别总数和同类主题词的数目;词语向量拼接模块60,用于计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;类别概率计算模块70,用于将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。
将各个拼接向量依次输入至预先训练达标的文本分类模型,包括:将各个拼接向量依次输入至所述文本分类模型的门控循环单元,以获得各个拼接词向量对应的预测词向量;计算所有预测词向量的平均预测词向量;利用softmax函数和所述平均预测词向量计算所述文本内容对应所述第i个类别的概率值。
本实施例公开的文本分类装置1通过文本分词处理模块10、词语类型区分模块20、词语向量表示模块30、词语向量降维模块40、主题数目统计模块50、词语向量拼接模块60和类别概率计算模块70的配合使用,用于执行上述实施例所述的文本分类方法,上述实施例所涉及的实施方案以及有益效果在本实施例中同样适用,在此不再赘述。
可以理解,本发明实施例涉及一种终端设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器上运行时执行本发明实施例所述的文本分类方法。
可以理解,本发明实施例涉及一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行本发明实施例所述的文本分类方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种文本分类方法,其特征在于,该方法包括:
对获取的文本内容进行分词处理;
根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;其中,所述预设的主题词集合,利用以下方式预先获取:在确定某一类别的主题词时,确定该类别的文本中的每一个词语的词频-逆向文档频率;所述词频-逆向文档频率大于预设阈值的词语作为该类别的主题词,收录至所述主题词集合;
对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;
对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;
确定所述各个主题词的类别总数和同类主题词的数目;
计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;
将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。
2.根据权利要求1所述的文本分类方法,其特征在于,将各个拼接向量依次输入至预先训练达标的文本分类模型,包括:
将各个拼接向量依次输入至所述文本分类模型的门控循环单元,以获得各个拼接词向量对应的预测词向量;
计算所有预测词向量的平均预测词向量;
利用softmax函数和所述平均预测词向量计算所述文本内容对应所述第i个类别的概率值。
3.根据权利要求2所述的文本分类方法,其特征在于,所述门控循环单元包括以下函数:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure FDA0004254114810000021
Figure FDA0004254114810000022
yt=σ(W0·ht)
rt表示所述门控循环单元的重置门,zt表示所述门控循环单元的更新门,ht-1表示上一时刻隐藏层的保留信息,xt表示所述拼接向量;
Figure FDA0004254114810000023
表示候选隐含记忆,ht是当前时刻隐藏层的保留信息,σ()表示sigmoid激活函数,用于将rt和zt结果压缩在0到1之间,tanh()表示tanh激活函数,用于将/>
Figure FDA0004254114810000024
结果缩放至-1到1之间,Wr、Wz、/>
Figure FDA0004254114810000025
Wo表示门控循环单元的参数。
4.根据权利要求1所述的文本分类方法,其特征在于,所述词频-逆向文档频率通过以下公式确定:
Figure FDA0004254114810000026
fj表示所述该类别的文本中第j个词语的词频-逆向文档频率,mj表示第j个词语在所述该类别的文本中出现的次数,M表示所述该类别的文本的词汇总数,P表示预定数目的对比文本总数,pj表示在所述预定数目的对比文本中包括第j个词语的目标文本数目。
5.根据权利要求1所述的文本分类方法,其特征在于,对主题词向量进行降维处理,包括:
利用所述主题词向量和所述主题词向量的转置向量确定协方差矩阵;
确定所述协方差矩阵的特征值和所述特征值对应的特征向量;
将所述特征向量按照对应的特征值从大到小排列;
确定排序靠前的预定数目行特征向量,所述预定数目行特征向量作为降维矩阵;
利用所述降维矩阵对所述主题词向量进行降维。
6.一种文本分类装置,其特征在于,该装置包括:
文本分词处理模块,用于对获取的文本内容进行分词处理;
词语类型区分模块,用于根据预设的主题词集合从所述文本内容对应的各个词语中确定主题词和基础词;其中,所述预设的主题词集合,利用以下方式预先获取:在确定某一类别的主题词时,确定该类别的文本中的每一个词语的词频-逆向文档频率;所述词频-逆向文档频率大于预设阈值的词语作为该类别的主题词,收录至所述主题词集合;
词语向量表示模块,用于对各个基础词和各个主题词进行向量化编码,以获取所述各个基础词对应的基础词向量和所述各个主题词对应的主题词向量;
词语向量降维模块,用于对各个主题词向量进行降维处理,以获得所述各个主题词向量对应的低维主题词向量;
主题数目统计模块,用于确定所述各个主题词的类别总数和同类主题词的数目;
词语向量拼接模块,用于计算第i个类别中的k个低维主题词向量的平均主题词向量,将各个基础词向量分别和所述平均主题词向量拼接,i≤n,n为所述类别总数;
类别概率计算模块,用于将各个拼接向量依次输入至预先训练达标的文本分类模型,以确定所述文本内容对应所述第i个类别的概率值。
7.根据权利要求6所述的文本分类装置,其特征在于,将各个拼接向量依次输入至预先训练达标的文本分类模型,包括:
将各个拼接向量依次输入至所述文本分类模型的门控循环单元,以获得各个拼接词向量对应的预测词向量;
计算所有预测词向量的平均预测词向量;
利用softmax函数和所述平均预测词向量计算所述文本内容对应所述第i个类别的概率值。
8.一种终端设备,其特征在于,包括存储器和处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至5任一项所述的文本分类方法。
9.一种可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至5任一项所述的文本分类方法。
CN202011308990.7A 2020-11-20 2020-11-20 文本分类方法、装置、终端设备和可读存储介质 Active CN112417153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011308990.7A CN112417153B (zh) 2020-11-20 2020-11-20 文本分类方法、装置、终端设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011308990.7A CN112417153B (zh) 2020-11-20 2020-11-20 文本分类方法、装置、终端设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN112417153A CN112417153A (zh) 2021-02-26
CN112417153B true CN112417153B (zh) 2023-07-04

Family

ID=74774091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011308990.7A Active CN112417153B (zh) 2020-11-20 2020-11-20 文本分类方法、装置、终端设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112417153B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076420B (zh) * 2021-03-31 2022-10-18 南京邮电大学 一种基于e2lsh算法的文本数据流分类方法及装置
CN113268548A (zh) * 2021-04-02 2021-08-17 国网福建省电力有限公司信息通信分公司 一种基于数据中台数据分级分类方法
CN113570129A (zh) * 2021-07-20 2021-10-29 武汉钢铁有限公司 带钢酸洗浓度的预测方法及计算机可读存储介质
CN113627176B (zh) * 2021-08-17 2024-04-19 北京计算机技术及应用研究所 一种利用主元分析计算汉语词向量的方法
CN114491040B (zh) * 2022-01-28 2022-12-02 北京百度网讯科技有限公司 信息挖掘方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108170818A (zh) * 2017-12-29 2018-06-15 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读介质
CN110019779A (zh) * 2017-09-13 2019-07-16 中移(杭州)信息技术有限公司 一种文本分类方法、模型训练方法及装置
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110196910A (zh) * 2019-05-30 2019-09-03 珠海天燕科技有限公司 一种语料分类的方法及装置
CN110245228A (zh) * 2019-04-29 2019-09-17 阿里巴巴集团控股有限公司 确定文本类别的方法和装置
CN110569351A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种约束性用户偏好的网络媒体新闻分类方法
CN111767397A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 一种电力系统二次设备故障短文本数据分类方法
CN111881291A (zh) * 2020-06-19 2020-11-03 山东师范大学 一种文本情感分类方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10824815B2 (en) * 2019-01-02 2020-11-03 Netapp, Inc. Document classification using attention networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019779A (zh) * 2017-09-13 2019-07-16 中移(杭州)信息技术有限公司 一种文本分类方法、模型训练方法及装置
CN107609121A (zh) * 2017-09-14 2018-01-19 深圳市玛腾科技有限公司 基于LDA和word2vec算法的新闻文本分类方法
CN108170818A (zh) * 2017-12-29 2018-06-15 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读介质
CN110245228A (zh) * 2019-04-29 2019-09-17 阿里巴巴集团控股有限公司 确定文本类别的方法和装置
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110196910A (zh) * 2019-05-30 2019-09-03 珠海天燕科技有限公司 一种语料分类的方法及装置
CN110569351A (zh) * 2019-09-02 2019-12-13 北京猎云万罗科技有限公司 一种约束性用户偏好的网络媒体新闻分类方法
CN111881291A (zh) * 2020-06-19 2020-11-03 山东师范大学 一种文本情感分类方法及系统
CN111767397A (zh) * 2020-06-30 2020-10-13 国网新疆电力有限公司电力科学研究院 一种电力系统二次设备故障短文本数据分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Text classification research with attention-based recurrent neural networks;Lei Huang等;《International journal of computers communication & control》;第13卷(第1期);50-61页 *
一种基于深度学习与Labeled-LDA的文本分类方法;庞宇明;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-2153 *

Also Published As

Publication number Publication date
CN112417153A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112417153B (zh) 文本分类方法、装置、终端设备和可读存储介质
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110059181B (zh) 面向大规模分类体系的短文本标签方法、系统、装置
CN110020438B (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110263325B (zh) 中文分词系统
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
US11288324B2 (en) Chart question answering
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN107832458A (zh) 一种字符级的基于嵌套深度网络的文本分类方法
CN112507039A (zh) 基于外部知识嵌入的文本理解方法
CN113011194B (zh) 融合关键词特征和多粒度语义特征的文本相似度计算方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113553848A (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
Abdollahpour et al. Image classification using ontology based improved visual words
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
CN110633468B (zh) 一种关于对象特征提取的信息处理方法及装置
Tian et al. Chinese short text multi-classification based on word and part-of-speech tagging embedding
CN112989052B (zh) 一种基于组合-卷积神经网络的中文新闻长文本分类方法
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN114881172A (zh) 一种基于加权词向量和神经网络的软件漏洞自动分类方法
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant