CN110019779B - 一种文本分类方法、模型训练方法及装置 - Google Patents

一种文本分类方法、模型训练方法及装置 Download PDF

Info

Publication number
CN110019779B
CN110019779B CN201710822563.2A CN201710822563A CN110019779B CN 110019779 B CN110019779 B CN 110019779B CN 201710822563 A CN201710822563 A CN 201710822563A CN 110019779 B CN110019779 B CN 110019779B
Authority
CN
China
Prior art keywords
text
word
sample
vector
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710822563.2A
Other languages
English (en)
Other versions
CN110019779A (zh
Inventor
贺菁菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710822563.2A priority Critical patent/CN110019779B/zh
Publication of CN110019779A publication Critical patent/CN110019779A/zh
Application granted granted Critical
Publication of CN110019779B publication Critical patent/CN110019779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文字处理技术,尤其涉及一种文本分类方法、模型训练方法及装置。用以解决现有技术中存在文本分类不准确,以及识别精度低的问题。该方法为:对文本长度小于预设长度门限值的待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,根据获取的对应字词组合集合中的每一个字词组合预设的词向量,计算待处理文本的文本向量,并基于待处理文本的文本向量,对待处理文本进行测试分类,获得待处理文本在预设的每一种类别标签下的评估值,选取评估值满足预设条件的类别标签作为测试分类结果,这样,可以有效地保留了待处理文本的原始信息,从而在后续测试分类过程中显著提高了待处理文本的识别精度。

Description

一种文本分类方法、模型训练方法及装置
技术领域
本发明涉及一种文字处理技术,尤其涉及一种文本分类方法、模型训练方法及装置。
背景技术
互联网已经成为人们日常信息交流中的重要载体和传播渠道,对网络文本信息进行分类,能有效解决网络信息杂乱问题,现有技术主要采用如下两种方法对文本进行分类:
方法一、One-hot编码法:
One-hot编码法需要一个存储有大量词汇的词典库,然后将文本中的词与词典库中的词进行匹配,若词典库中包含文本中的词,则将该文本中的词设置为1,否则设置为0。
采用One-hot编码法可能会造成稀疏问题,即对于存在多个词的文本,只有其中数量很少的几个词出现在词典库中,而对于词典库中没有的新词无法进行分类,容易造成识别精度低的问题。
而且,One-hot编码法忽略了文本上下文关系,丢失了文本语义信息,对于在不同语境下使用的同一个词无法进行准确的分类,在一定程度上降低了识别精度。
方法二、词嵌入方法:
词嵌入法通过采用神经网络方式得到包含多个文本特征的词向量,这种方法较好的结合了上下文的语义信息,很大程度上解决了One-hot编码法存在的稀疏问题。
但是,词嵌入方法需要大量时间对样本词汇进行训练,很大程度上降低了文本识别的效率,影响了文本识别的实时性;并且,词嵌入方法主要针对长文本的处理效果比较好,但对于特征量较少的短文本来说,采用词嵌入方法的识别精度较低。
发明内容
本发明实施例提供一种文本分类方法、模型训练方法及相关装置,用以解决现有技术中存在文本分类不准确,以及识别精度低的问题。
本发明实施例提供的具体技术方案如下:
一种文本分类方法,包括:
获取文本长度小于预设长度门限值的待处理文本,并对所述待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,所述字词组合集合包含有若干由至少一个字组成的字词组合;
分别获取对应所述字词组合集合中的每一个字词组合预设的词向量,以及根据各个字词组合对应的词向量,计算所述待处理文本的文本向量,其中,一个字词组合对应的词向量中的每一个分量表征所述一个字词组合的一个特征;
基于所述待处理文本的文本向量,对所述待处理文本进行测试分类,获得所述待处理文本在预设的每一种类别标签下的评估值,选取评估值满足预设条件的类别标签作为测试分类结果。
可选的,获取文本长度小于预设长度门限值的待处理文本之前,包括:
获取海量的样本文本,其中,样本文本的文本长度小于所述预设长度门限值;
分别针对每一个样本文本进行分字处理以及相邻字组合,获得相应的字词组合集合;
分别针对每一个样本文本循环执行以下操作,直到确定设定比例的样本文本的测试分类结果与实际分类结果相匹配为止:
确定一个样本文本包含的每一个字词组合当前对应的词向量;
基于获得的各个词向量,计算所述一个样本文本的文本向量;
基于所述一个样本文本的文本向量,对所述一个样本文本进行测试分类,获得测试分类结果;
判断所述一个样本文本的测试分类结果与所述一个样本文本的实际分类结果是否匹配;若是,则结束对所述一个样本文本的操作,并将所述一个样本文本中的每一个字词组合和当前对应的词向量之间的关联关系进行保存,否则,基于所述一个样本文本对应的每一个词向量在测试分类中产生的损失值,对相应的词向量的取值进行调整。
可选的,对所述待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,包括:
对所述待处理文本进行分字处理,确定所述待处理文本包含的若干单字;
基于所述待处理文本的文本长度,确定字词组合时使用的步长;
基于所述步长,分别针对所述若干单字中的每一个单字进行相邻字组合,获得若干词;
将所述若干字和所述若干词,作为若干字词组合,获得字词组合集合。
可选的,所述根据各个字词组合对应的词向量,计算所述待处理文本的文本向量,包括:
分别针对每一个维度,将每一个字词组合对应的词向量在相应维度上的特征值求和取平均值;
分别基于每一个维度对应的平均值,作为所述待处理文本的文本向量中相应维度上的特征值。
可选的,基于所述待处理文本的文本向量,计算所述待处理文本在预设的每一种类别标签下的评估值,包括:
确定预设的若干类别标签;
将所述待处理文本的文本向量中的各个特征值作为输入参量;
基于获得的各个输入参量,采用softmax回归算法计算所述待处理文本的文本向量在每一个所述类别标签下的评估值。
可选的,选取评估值满足预设条件的类别标签作为测量分类结果,包括:
将各个所述评估值与预设的评估门限值进行比较,将达到所述评估门限值的评估值对应的类别标签作为测试分类结果;
按照所述评估值由高到低依次排序,选取前K个所述评估值对应的类别标签作为测试分类结果。
一种文本分类模型的训练方法,包括:
获取海量的样本文本,其中,样本文本的文本长度小于所述预设长度门限值;
分别针对每一个样本文本进行分字处理以及相邻字组合,获得相应的字词组合集合;
分别针对每一个样本文本循环执行以下操作,直到确定设定比例的样本文本的测试分类结果与实际分类结果相匹配为止:
确定一个样本文本包含的每一个字词组合当前对应的词向量;
基于获得的各个词向量,计算所述一个样本文本的文本向量;
基于所述一个样本文本的文本向量,对所述一个样本文本进行测试分类,获得测试分类结果;
判断所述一个样本文本的测试分类结果与所述一个样本文本的实际分类结果是否匹配;
若是,则结束对所述一个样本文本的操作,并将所述一个样本文本中的每一个字词组合和当前对应的词向量之间的关联关系进行保存;
否则,基于所述一个样本文本对应的每一个词向量在测试分类中产生的损失值,对相应的词向量的取值进行调整。
一种文本分类装置,包括:
处理单元,用于获取文本长度小于预设长度门限值的待处理文本,并对所述待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,所述字词组合集合包含有若干由至少一个字组成的字词组合;
计算单元,用于分别获取对应所述字词组合集合中的每一个字词组合预设的词向量,以及根据各个字词组合对应的词向量,计算所述待处理文本的文本向量,其中,一个字词组合对应的词向量中的每一个分量表征所述一个字词组合的一个特征;
分类单元,用于基于所述待处理文本的文本向量,对所述待处理文本进行测试分类,获得所述待处理文本在预设的每一种类别标签下的评估值,选取评估值满足预设条件的类别标签作为测试分类结果。
一种文本分类模型的训练装置,包括:
处理单元,用于获取海量的样本文本,其中,样本文本的文本长度小于所述预设长度门限值,以及分别针对每一个样本文本进行分字处理以及相邻字组合,获得相应的字词组合集合;
训练单元,用于分别针对每一个样本文本循环执行以下操作,直到确定设定比例的样本文本的测试分类结果与实际分类结果相匹配为止:
确定一个样本文本包含的每一个字词组合当前对应的词向量;
基于获得的各个词向量,计算所述一个样本文本的文本向量;
基于所述一个样本文本的文本向量,对所述一个样本文本进行测试分类,获得测试分类结果;
判断所述一个样本文本的测试分类结果与所述一个样本文本的实际分类结果是否匹配;若是,则结束对所述一个样本文本的操作,并将所述一个样本文本中的每一个字词组合和当前对应的词向量之间的关联关系进行保存,否则,基于所述一个样本文本对应的每一个词向量在测试分类中产生的损失值,对相应的词向量的取值进行调整。
一种计算机设备,包括:
至少一个处理器,以及与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,执行上述任一项所述的方法。
一种存储介质,包括:
所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行上述任一项所述的方法。
本发明有益效果如下:
本发明实施例中,对文本长度小于预设长度门限值的待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,根据获取的对应字词组合集合中的每一个字词组合预设的词向量,计算待处理文本的文本向量,并基于待处理文本的文本向量,对待处理文本进行测试分类,获得待处理文本在预设的每一种类别标签下的评估值,选取评估值满足预设条件的类别标签作为测试分类结果,这样,将待处理文本划分成单字并进行相邻字组合,可以有效地保留若干字的特征和若干词的大量特征,即通过结合上下文语义,有效地保留了待处理文本的原始信息,从而在后续测试分类过程中显著提高了待处理文本的识别精度。
附图说明
图1为本发明实施例中样本文本训练流程图;
图2为本发明实施例中待处理文本分类流程图;
图3为本发明实施例中一种文本分类装置的功能结构示意图;
图4为本发明实施例中一种文本分类模型训练装置的功能结构示意图。
具体实施方式
为了提高短中文文本分类的准确率和效率,本发明实施例中,将待处理文本进行分字处理获得若干字词组合的词向量,根据词向量获得待处理文本的文本向量,基于文本向量,计算出待处理文本在每一种类别标签下的评估值,获得分类结果。
下面结合附图对本发明优选的实施方式进行详细说明。
本发明实施例中,在进行中文文本分类之前,可选的,可以先预设一个长度门限值,筛选出中文文本长度小于预设长度门限值的中文文本作为待处理文本。
进一步地,预设若干类别标签,类别标签的数量以及名称可以根据需求设定,在此不作限定。
例如,在一个实施例中,可以将类别标签按照文本所属领域进行分类,比如可以设置“政治”、“广告”、“艺术”、“互联网”、“气候”等类别标签。
获得了上述信息后,可以开始进行词嵌入模型的训练,具体的,参阅图1所示,本发明实施例中,词嵌入模型的训练流程如下:
步骤100:分类器获取中文的样本文本。
首先,将文本长度小于预设长度门限值且已知类别的中文文本作为样本文本。
例如,在一个实施例中,预设的长度门限值为20,则将文本长度小于20的中文文本作为样本文本。
通常情况下,文本长度小于预设的长度门限值的中文文本被称为短文本,本发明实施例采用的技术方案主要针对短文本有较好的处理效果。
具体的,样本文本可以从中文语料库中直接提取,也可以直接从网络上提取,所获得的样本文本涉及的领域要足够多,以增加样本文本的类别数量。
步骤101,分类器对获得的样本文本进行分字处理以及相邻字组合,获得若干由至少一个字组成的字词组合,组成字词组合集合。
下面以任意一个样本文本(以下称为样本文本S)为例,可以采用但不限于以下方式获得字词组合集合:
a)将样本文本S进行分字处理。
具体的,将样本文本S分成若干单字,并删除所有单字中的非汉字字符,具体如下:
S=(C1,C2,……,Ci,……,CM)
其中,Ci为S中的第i个字,M为文本总长度。
例如:假设样本文本S为“未来72小时全省各地东南风3级”,则可以将样本文本S分成单字,并删除样本文本S中的数字“72”和“3”,具体如下:
S=(未,来,小,时,全,省,各,地,东,南,风,级)
b)基于分字处理结果进行相邻字组合,获得若干由至少一个字组成的字词组合,组成字词组合集合。
可选的,在一个实施例中,可以采用变长N-gram方法将样本文本S中的相邻单字进行组合,具体执行过程如下:
首先,将样本文本的长度与预设的长度阈值TH进行比较,获得比较结果。
其次,根据比较结果,设置相应的步长N。
例如,在设置步长N时,可以采用以下表达式:
Figure BDA0001406666170000081
其中,X1、X2分别是预设的整数集合,M表示样本文本的长度,TH表示预设的长度阈值。
通过上述表达式可以看出,若样本文本的长度≥长度阈值,则从X1中随机选择一个整数作为步长N,而若样本文本的长度<长度阈值,则从X2中随机选择一个整数作为步长N。
最后,将相邻的单字组合成若干个字词组合,其中,字词组合中的单字数量不能大于计算出的步长N。
例如,假设预设的一个长度阈值TH=10,整数集合X1=(3,4,5,6),整数集合X2=(1,2,3)。
假设样本文本S1=(未,来,小,时,全,省,各,地,东,南,风,级),样本文本的长度M=12,大于预设的长度阈值TH,则从整数集合X1=(3,4,5,6)中随机选取数字“3”作为字词组合的步长N。
则在样本文本S1中,分别针对每一个单字,按照步长3对相邻单字进行组合,获得若干词,结合之前划分出的若干单字(即将若干单字和若干词统称为字词组合),生成字词组合集合T1,具体如下:
T1=(未,来,……,风、级,未来小,来小时,……,东南风,南风级)
又例如,假设预设的一个长度阈值TH=10,整数集合X1=(3,4,5,6),整数集合X2=(1,2,3)。
假设样本文本S2=(飞,机,模,型,制,作,方,法),样本文本的长度M=8,小于预设的长度阈值TH,则从整数集合X2=(1,2,3)中随机选取数字“2”作为字词组合的步长N。
则在样本文本S2中,分别针对每一个单字,按照步长2对相邻单字进行组合,生成字词组合集合T2,具体如下:
T2=(飞,机,……,法,飞机,机模,……,作方,方法)
步骤102:分类器分别确定上述字词组合集合中的每一个字词组合对应的词向量。
具体的,在执行步骤102时,分类器会判断是否已针对样本文本执行过测试分类:
(1)若分类器未针对上述样本文本执行过测试分类,则说明分类器是初次获得上述字词组合集合,即分类器此时尚未获知上述字词组合集合中各个字词组合对应的词向量中每一个分量的取值,那么,分类器会采用以下方式设置字词组合集合中每一个字词组合的词向量。
首先,在确定每一个字词组合对应的词向量之前,可以预设词向量的维度为D,其中,词向量中的每一个维度的分量表征字词组合的一个特征。
例如,可以设置每一个词向量的维度为5,则可以采用一个字词组合的5个特征值作为相应词向量的每一个分量。
其次,分别将每一个字词组合的出现频率,设置为对应的词向量中的每一个分量的初始值。
具体的,在确定每一个字词组合的词向量时,可以采用但不限于以下方法:
a)基于预设的维度D,确定一个字词组合的词向量包含的分量数目。
其中,一个维度对应一个分量,而一个字词组合对应的一个分量表示该字词组合的一个特征。
而的所谓的特征可以是字词组合中单字的个数,也可以是字词组合在样本文本对应的字词组合集合中的出现频率,只要是能够量化的特征,都可以作为字词组合的特征,而后续实施例中,将以上述“出现频率”为例进行介绍,在此不作限定。
具体的,在一个实施例中,假设预设的维度D=5,则字词组合的词向量C是一个5维的向量,具体如下:
C=(x,x,x,x,x)
其中,x为词向量的一个特征值。
b)分别将每一个字词组合在字词组合集合中的出现频率,设置成对应的词向量中每一个分量的初始值。
例如,在一个实施例中,假设字词组合在字词组合集合中的出现频率为1,则将1作为相应词向量的分量,得到字词组合的词向量C,具体如下:
C=(1,1,1,1,1)
(2)若分类器已针对上述样本文本执行过测试分类,则分类器此时已经采用后续的算法,根据上述字词组合集合中各个字词组合,对上述样本文本执行了至少一轮测试分类,且测试分类结果与样本文本的实际分类结果不匹配。
此时,分类器需要在每一个字词组合在上一轮测试分类时使用的词向量的基础上,调整各个词向量中的各个分量的取值,以便进行下一轮的测试分类。
较佳的,可以根据上一轮测试分类获得的测试分类结果与样本文本的实际分类结果之间的差距,对各个字词组合对应的词向量进行调整。
以任意一个字词组合x对应的词向量x为例,可以对词向量x中的全部分量进行调整,也可以对词向量x中的部分分量进行调整。
进一步地,词向量x中的各个分量的取值可以采用预设公式进行调整,也可以采用特征值替换方式进行调整(如,重新基于字词组合x提取新的特征作为分量)。上述两种方式仅为举例,实际应用中,还存在多种实现方式,在此不作限定。
例如,若样本文本的测试分类结果与实际分类结果不匹配,针对样本文本中的每一个字词组合对应的词向量进行调整。
下面以一个字词组合x为例,将字词组合x对应的词向量C在上一轮训练中各个分量的取值进行调整。
具体的,在一个实施例中,基于字词组合x对应的词向量的每一个分量的在上一轮训练过程中softmax算法中的损失值,对词向量C的每一个分量进行调整;其中,所谓的损失值是指采用softmax算法计算出的词向量中各个分量的取值与预估的取值之间的差值的绝对值,或者该差值的平方值,在此不再赘述。
具体的,以3个词向量C1、C2、C3为例,在上一轮的softmax回归计算中,每一个词向量相应的损失值C1损失、C2损失、C3损失分别为:
C1损失=(0.1,0.1,0.25,0.2,0.1)
C2损失=(0.2,0.1,0.15,0.2,0.1)
C3损失=(0.3,0.2,0.4,0.2,0.15)
可选的,可以将词向量C1、C2、C3中的每一个分量的特征值与相应分量的损失值相减,得到调整后的词向量C1'、C2'、C3'如下:
C1'=(0.9,0.9,0.75,0.8,0.9)
C2'=(0.8,0.9,0.85,0.8,0.9)
C3'=(0.7,0.8,0.6,0.8,0.85)
步骤103:根据样本文本包含的各个字词组合的词向量,计算样本文本的文本向量。
首先,分别针对每一个维度,将每一个字词组合对应的词向量在相应维度上的特征值求和取平均值;
例如,以调整后的词向量C1'、C2'、C3'为例,将词向量C1'、C2'、C3'的相同维度位置的特征值求和取平均值,分别获得每个维度上的平均值为:0.8,0.87,0.73,0.8,0.88。
其次,分别基于每一个维度对应的平均值,作为样本文本的文本向量中相应维度上的特征值。
例如,仍以调整后的词向量C1'、C2'、C3'为例,根据计算出词向量在相同维度上的平均值,获得样本文本的文本向量V,具体如下:
V=(0.8,0.87,0.73,0.8,0.88)
其中,文本向量V也是D维的。
步骤104:分类器采用softmax回归算法,基于样本文本的文本向量对相应的样本文本进行测试分类,获得测试分类结果。具体的,在一个实施例中,需要预设一个筛选条件,将满足筛选条件的类别标签作为样本文本的测试分类结果。
可选的,可以预设一个评估门限值作为筛选条件,将测试获得的所有评估值大于评估门限值的类别标签作为测试分类结果。
进一步的,也可以预设一个K值(K≥1)作为筛选条件,将测试获得的所有评估值由高到低依次排序,选择前K个评估值对应的类别标签作为测试分类结果。
例如,以上述样本文本的文本向量V为例,分别计算文本向量V在每一个类别标签下的评估值,其次,将样本文本的文本向量中的各个特征值作为输入参量,采用softmax回归算法,分别计算样本文本的文本向量在每一个类别标签下的评估值。
例如,假设分别存在“政治”、“广告”、“艺术”、“气候”4个类别标签,计算文本向量V在每一个类别标签下的评估值分别为60,85,70,95。
最后,基于预设的筛选条件,确定满足筛选条件的类别标签作为测试分类结果。
例如,假设预设的筛选条件为:评估门限值=90,则选取评估值大于90的类别标签“气候”作为样本文本的测试分类结果。
又例如,假设预设的筛选条件为:筛选标准K=2,则将获得的各个评估值由高到低依次排序,选择评估值最大的前两个“气候”、“广告”作为测试分类结果。
步骤105:判断样本文本的测试分类结果与样本文本的实际分类结果是否匹配?若是,则执行步骤106;否则,返回步骤102。
若样本文本测试分类结果与实际分类结果匹配,则将字词组合集合中每一个字词组合与当前对应的词向量之间的关联关系作为词嵌入模型的样本进行保存,以便于在后续采用词嵌入模型对待处理文本进行实际测试分类时使用。
若样本文本测试分类结果与实际的分类结果不匹配,则记录上述字词组合集合中每一个字词组合及当前对应的词向量,并返回步骤102,以便做下一步调整。
实际应用中,由于是采用海量样本文本对词嵌入模型进行训练,因此,可以预设一个比例门限值,在对海量样本文本进行测试分类的过程中,若测试分类结果与实际分类结果相匹配的样本文本数目,在样本文本总数目中的占比达到上述比例门限值(如,95%),则可以认为词嵌入模型训练完毕。
步骤106:分类器保存当前的词嵌入模型。
当然,实际应用中,需要采用海量样本文本对词嵌入模型进行训练,而上述步骤100-步骤105仅以一个样本文本为例进行介绍,在此不再赘述。
在完成了上述词嵌入模型的训练之后,便可以采用词嵌入模型对待测试样本文本进行测试分类。
具体的,参阅图2所示,本发明实施例中,分类器基于词嵌入模型对待处理文本进行测试分类的详细流程如下:
步骤200:分类器获取待处理文本。
与步骤100同理,本发明实施例中,分类器处理的待处理文本均为文本长度小于预设长度门限值的中文文本。
例如,在一个实施例中,预设的长度门限值为20,则主要针对文本长度小于20的短中文文本进行处理。
具体的,待处理文本可以来自用户的沟通信息中的语言文本,也可以来自网络上的学术性的文本。
例如,基于预设的长度门限值,获得一个待处理文本为“管弦乐团古典主题音乐会”。
步骤201:分类器对获得的待处理文本进行分字处理以及相邻字组合,获得若干由至少一个字组成的字词组合,组成字词组合集合。
与步骤101同理,本发明实施例中,将待处理文本进行分字处理。
较佳的,将待处理文本分成若干单字,并删除所有单字中的非汉字字符,具体如下:
S=(管,弦,乐,团,古,典,主,题,音,乐,会)
其次,基于上述分字处理结果进行相邻字组合,采用变长N-gram方法获得若干由至少一个字组成的字词组合,组成字词组合集合。
例如,预设一个长度阈值TH=10,整数集合X1=(3,4,5,6),整数集合X2=(1,2,3)。
待处理文本S=(管,弦,乐,团,古,典,主,题,音,乐,会)的文本的长度M=11,大于预设的长度阈值TH,则从整数集合X1=(3,4,5,6)中随机选取数字“3”作为字词组合的步长N。
在待处理文本中,分别针对每一个单字,按照步长3对相邻单字进行组合,获得若干词,结合之前划分出的若干单字(即将若干单字和若干词统称为字词组合),可以生成字词组合集合T,具体如下:
T=(管,弦,……,乐,会,管弦乐,弦乐团,……,题音乐,音乐会)
步骤202:分类器基于预设的词嵌入模型,获取对应待处理文本中的每一个字词组合对应的词向量。
具体的,首先,基于待处理文本的字词组合集合,在词嵌入模型中查找相同的字词组合。
例如,待处理文本中有“弦”、“题音乐”等字词组合,则在词嵌入模型中查找“弦”、“题音乐”。
其次,将词嵌入模型中查找出的每一个字词组合对应的词向量直接赋值给待处理文本的字词组合作为待处理字词组合的词向量。
例如,待处理文本中的字词组合在词嵌入模型中对应的字词组合的词向量分别为C1、C2、C3,可以直接获得待处理词向量的特征值,具体如下:
C1=(0.8,0.9,0.85,0.8,0.9)
C2=(0.9,0.6,0.87,0.92,0.78)
C3=(0.7,0.8,0.6,0.75,0.85)
步骤203:分类器根据各个字词组合的词向量,计算待处理文本的文本向量。
与步骤103同理,本发明实施例中,将待处理文本包含的各个字词组合的词向量在每一个相同维度上的特征值求和取平均值,并将获得的每一个维度对应的平均值待处理中文的文本向量中相应维度上的特征值。
例如,根据待处理文本中的词向量C1、C2、C3为例,将相同维度位置的特征值求和取平均值,计算出待处理文本向量,具体如下:
V待处理=(0.8,0.76,0.77,0.82,0.84)
步骤204:分类器采用softmax回归算法,基于待处理文本的文本向量对相应的待处理文本进行分类,获得分类结果。
与步骤104同理,本发明实施例中,预设一个筛选条件,将满足筛选条件的类别标签作为样本文本的测试分类结果。
可选的,假设预设的筛选条件为:评估门限值=90,获得的所有评估值大于评估门限值的类别标签作为分类结果。
基于预设的筛选条件,将样本文本的文本向量中的各个特征值作为输入参量,采用softmax回归算法,分别计算待处理文本的文本向量在每一个类别标签下的评估值,确定满足筛选条件的类别标签作为分类结果。
假设分别存在“政治”、“广告”、“艺术”、“气候”4个类别标签,计算出文本向量V待处理在每一个类别标签下的评估值分别为75,85,98,30,则将评估值大于90的类别标签“艺术”作为待处理文本的分类结果。
步骤205:分类器输出待处理文本的类别标签。
具体的,在实际应用中,分类器可以输出待处理文本的类别标签,也可以直接根据待处理文本的类别标签进行归档整理,
基于上述实施例,参阅图3所示,本发明实施例中,一种文本分类装置(如,分类器)至少包括处理单元30、计算单元31和分类单元32,其中,
处理单元30,用于获取文本长度小于预设长度门限值的待处理文本,并对所述待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,所述字词组合集合包含有若干由至少一个字组成的字词组合;
计算单元31,用于分别获取对应所述字词组合集合中的每一个字词组合预设的词向量,以及根据各个字词组合对应的词向量,计算所述待处理文本的文本向量,其中,一个字词组合对应的词向量中的每一个分量表征所述一个字词组合的一个特征;
分类单元32,用于基于所述待处理文本的文本向量,对所述待处理文本进行测试分类,获得所述待处理文本在预设的每一种类别标签下的评估值,选取评估值满足预设条件的类别标签作为测试分类结果。
参阅图4所示,本发明实施例中,一种文本分类模型的训练装置(如,分类器)至少包括处理单元40和训练单元41,其中,
处理单元40,用于获取海量的样本文本,其中,样本文本的文本长度小于所述预设长度门限值,以及分别针对每一个样本文本进行分字处理以及相邻字组合,获得相应的字词组合集合;
训练单元41,用于分别针对每一个样本文本循环执行以下操作,直到确定设定比例的样本文本的测试分类结果与实际分类结果相匹配为止:
确定一个样本文本包含的每一个字词组合当前对应的词向量;
基于获得的各个词向量,计算所述一个样本文本的文本向量;
基于所述一个样本文本的文本向量,对所述一个样本文本进行测试分类,获得测试分类结果;
判断所述一个样本文本的测试分类结果与所述一个样本文本的实际分类结果是否匹配;若是,则结束对所述一个样本文本的操作,并将所述一个样本文本中的每一个字词组合和当前对应的词向量之间的关联关系进行保存,否则,基于所述一个样本文本对应的每一个词向量在测试分类中产生的损失值,对相应的词向量的取值进行调整。
本发明实施例中,还提供了一计算机设备,包括:
至少一个处理器,以及与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,执行上述任意一种方法。
本发明实施例中,还提供了一种存储介质,包括:
所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行上述任意一种方法。
综上所述,本发明实施例中,对文本长度小于预设长度门限值的待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,根据获取的对应字词组合集合中的每一个字词组合预设的词向量,计算待处理文本的文本向量,并基于待处理文本的文本向量,对待处理文本进行测试分类,获得待处理文本在预设的每一种类别标签下的评估值,选取评估值满足预设条件的类别标签作为测试分类结果,这样,将待处理文本划分成单字并进行相邻字组合,可以有效地保留若干字的特征和若干词的大量特征,即通过结合上下文语义,有效地保留了待处理文本的原始信息,从而在后续测试分类过程中显著提高了待处理文本的识别精度。
进一步地,可以基于待处理文本的文本长度,确定字词组合时使用的步长,针对若干单字中的每一个单字进行相邻字组合,获得若干长度不大于步长的字词组合,通过各个字词组合对应的词向量在每一个相同维度位置上的特征值求和取平均值,获得待处理文本的文本向量,再通过softmax回归算法计算待处理文本的文本向量在每一个类别标签下的评估值,将达到评估门限值的评估值对应的类别标签作为测试分类结果,这样,采用特征值表征字词组合对应的词向量中的每一个分量,有效的降低了词向量的维数,很大程度上提高了对样本文本的训练速度。
进一步地,使用字词组合的频率值作为对应词向量的初始值,保证了词向量的收敛速度,可以提高识别效率。而采用softmax回归算法对样本文本进行训练,可以针对多分类的文本有较好的处理效果,增加了样本文本的数量,提高词嵌入模型对待处理文本的识别精度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
获取海量的样本文本,其中,样本文本的文本长度小于预设长度门限值;
分别针对每一个样本文本进行分字处理以及相邻字组合,获得相应的字词组合集合;
分别针对每一个样本文本循环执行以下操作,直到确定设定比例的样本文本的测试分类结果与实际分类结果相匹配为止:
确定一个样本文本包含的每一个字词组合当前对应的词向量;
基于获得的各个词向量,计算所述一个样本文本的文本向量;
基于所述一个样本文本的文本向量,对所述一个样本文本进行测试分类,获得测试分类结果;
判断所述一个样本文本的测试分类结果与所述一个样本文本的实际分类结果是否匹配;若是,则结束对所述一个样本文本的操作,并将所述一个样本文本中的每一个字词组合和当前对应的词向量之间的关联关系进行保存,否则,基于所述一个样本文本对应的每一个词向量在测试分类中产生的损失值,对相应的词向量的取值进行调整;
获取文本长度小于所述预设长度门限值的待处理文本,并对所述待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,所述字词组合集合包含有若干由至少一个字组成的字词组合;
分别获取对应所述字词组合集合中的每一个字词组合预设的词向量,以及根据各个字词组合对应的词向量,计算所述待处理文本的文本向量,其中,一个字词组合对应的词向量中的每一个分量表征所述一个字词组合的一个特征;
基于所述待处理文本的文本向量,对所述待处理文本进行测试分类,获得所述待处理文本在预设的每一种类别标签下的评估值,选取评估值满足预设条件的类别标签作为测试分类结果。
2.如权利要求1所述的方法,其特征在于,对所述待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,包括:
对所述待处理文本进行分字处理,确定所述待处理文本包含的若干单字;
基于所述待处理文本的文本长度,确定字词组合时使用的步长;
基于所述步长,分别针对所述若干单字中的每一个单字进行相邻字组合,获得若干词;
将所述若干字和所述若干词,作为若干字词组合,获得字词组合集合。
3.如权利要求1所述的方法,其特征在于,所述根据各个字词组合对应的词向量,计算所述待处理文本的文本向量,包括:
分别针对每一个维度,将每一个字词组合对应的词向量在相应维度上的特征值求和取平均值;
分别基于每一个维度对应的平均值,作为所述待处理文本的文本向量中相应维度上的特征值。
4.如权利要求1所述的方法,其特征在于,基于所述待处理文本的文本向量,计算所述待处理文本在预设的每一种类别标签下的评估值,包括:
确定预设的若干类别标签;
将所述待处理文本的文本向量中的各个特征值作为输入参量;
基于获得的各个输入参量,采用softmax回归算法计算所述待处理文本的文本向量在每一个所述类别标签下的评估值。
5.如权利要求4所述的方法,其特征在于,选取评估值满足预设条件的类别标签作为测量分类结果,包括:
将各个所述评估值与预设的评估门限值进行比较,将达到所述评估门限值的评估值对应的类别标签作为测试分类结果
按照所述评估值由高到低依次排序,选取前K个所述评估值对应的类别标签作为测试分类结果。
6.一种文本分类模型的训练方法,其特征在于,包括:
获取海量的样本文本,其中,样本文本的文本长度小于预设长度门限值;
分别针对每一个样本文本进行分字处理以及相邻字组合,获得相应的字词组合集合;
分别针对每一个样本文本循环执行以下操作,直到确定设定比例的样本文本的测试分类结果与实际分类结果相匹配为止:
确定一个样本文本包含的每一个字词组合当前对应的词向量;
基于获得的各个词向量,计算所述一个样本文本的文本向量;
基于所述一个样本文本的文本向量,对所述一个样本文本进行测试分类,获得测试分类结果;
判断所述一个样本文本的测试分类结果与所述一个样本文本的实际分类结果是否匹配;
若是,则结束对所述一个样本文本的操作,并将所述一个样本文本中的每一个字词组合和当前对应的词向量之间的关联关系进行保存;
否则,基于所述一个样本文本对应的每一个词向量在测试分类中产生的损失值,对相应的词向量的取值进行调整。
7.一种文本分类装置,其特征在于,包括:
处理单元,用于获取海量的样本文本,其中,样本文本的文本长度小于预设长度门限值,分别针对每一个样本文本进行分字处理以及相邻字组合,获得相应的字词组合集合,分别针对每一个样本文本循环执行以下操作,直到确定设定比例的样本文本的测试分类结果与实际分类结果相匹配为止:确定一个样本文本包含的每一个字词组合当前对应的词向量,基于获得的各个词向量,计算所述一个样本文本的文本向量,基于所述一个样本文本的文本向量,对所述一个样本文本进行测试分类,获得测试分类结果,判断所述一个样本文本的测试分类结果与所述一个样本文本的实际分类结果是否匹配;若是,则结束对所述一个样本文本的操作,并将所述一个样本文本中的每一个字词组合和当前对应的词向量之间的关联关系进行保存,否则,基于所述一个样本文本对应的每一个词向量在测试分类中产生的损失值,对相应的词向量的取值进行调整,获取文本长度小于预设长度门限值的待处理文本,并对所述待处理文本进行分字处理以及相邻字组合,获得相应的字词组合集合,所述字词组合集合包含有若干由至少一个字组成的字词组合;
计算单元,用于分别获取对应所述字词组合集合中的每一个字词组合预设的词向量,以及根据各个字词组合对应的词向量,计算所述待处理文本的文本向量,其中,一个字词组合对应的词向量中的每一个分量表征所述一个字词组合的一个特征;
分类单元,用于基于所述待处理文本的文本向量,对所述待处理文本进行测试分类,获得所述待处理文本在预设的每一种类别标签下的评估值,选取评估值满足预设条件的类别标签作为测试分类结果。
8.一种文本分类模型的训练装置,其特征在于,包括:
处理单元,用于获取海量的样本文本,其中,样本文本的文本长度小于预设长度门限值,以及分别针对每一个样本文本进行分字处理以及相邻字组合,获得相应的字词组合集合;
训练单元,用于分别针对每一个样本文本循环执行以下操作,直到确定设定比例的样本文本的测试分类结果与实际分类结果相匹配为止:
确定一个样本文本包含的每一个字词组合当前对应的词向量;
基于获得的各个词向量,计算所述一个样本文本的文本向量;
基于所述一个样本文本的文本向量,对所述一个样本文本进行测试分类,获得测试分类结果;
判断所述一个样本文本的测试分类结果与所述一个样本文本的实际分类结果是否匹配;若是,则结束对所述一个样本文本的操作,并将所述一个样本文本中的每一个字词组合和当前对应的词向量之间的关联关系进行保存,否则,基于所述一个样本文本对应的每一个词向量在测试分类中产生的损失值,对相应的词向量的取值进行调整。
9.一种计算机设备,其特征在于,包括:
至少一个处理器,以及与所述至少一个处理器连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令,执行如权利要求1-6任一项所述的方法。
10.一种存储介质,其特征在于,包括:
所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法。
CN201710822563.2A 2017-09-13 2017-09-13 一种文本分类方法、模型训练方法及装置 Active CN110019779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710822563.2A CN110019779B (zh) 2017-09-13 2017-09-13 一种文本分类方法、模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710822563.2A CN110019779B (zh) 2017-09-13 2017-09-13 一种文本分类方法、模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN110019779A CN110019779A (zh) 2019-07-16
CN110019779B true CN110019779B (zh) 2021-06-08

Family

ID=67186232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710822563.2A Active CN110019779B (zh) 2017-09-13 2017-09-13 一种文本分类方法、模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN110019779B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855635B (zh) * 2019-10-25 2022-02-11 新华三信息安全技术有限公司 Url识别方法、装置及数据处理设备
CN111460149B (zh) * 2020-03-27 2023-07-25 科大讯飞股份有限公司 文本分类方法、相关设备及可读存储介质
CN112417153B (zh) * 2020-11-20 2023-07-04 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112860885B (zh) * 2021-01-13 2022-08-09 支付宝(杭州)信息技术有限公司 一种文本处理的方法和装置
CN113761209B (zh) * 2021-09-17 2023-10-10 泰康保险集团股份有限公司 文本拼接方法及装置、电子设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
CN105930368A (zh) * 2016-04-13 2016-09-07 深圳大学 一种情感分类方法及系统
CN106547885A (zh) * 2016-10-27 2017-03-29 桂林电子科技大学 一种文本分类系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
CN105930368A (zh) * 2016-04-13 2016-09-07 深圳大学 一种情感分类方法及系统
CN106547885A (zh) * 2016-10-27 2017-03-29 桂林电子科技大学 一种文本分类系统及方法

Also Published As

Publication number Publication date
CN110019779A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN110209823B (zh) 一种多标签文本分类方法及系统
CN107085581B (zh) 短文本分类方法和装置
CN111144127B (zh) 文本语义识别方法及其模型的获取方法及相关装置
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
US8620837B2 (en) Determination of a basis for a new domain model based on a plurality of learned models
CN111444967A (zh) 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN111243601B (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN107180084A (zh) 词库更新方法及装置
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN108985133B (zh) 一种人脸图像的年龄预测方法及装置
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
JP2013196680A (ja) 共学習に基づく概念認識方法および概念認識装置
CN108470025A (zh) 局部话题概率生成正则化自编码文本嵌入表示方法
JP2019082841A (ja) 生成プログラム、生成方法及び生成装置
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN111159332A (zh) 一种基于bert的文本多意图识别方法
US9330662B2 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
CN106710588B (zh) 语音数据句类识别方法和装置及系统
WO2023134074A1 (zh) 文本主题的生成方法、装置、设备及存储介质
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
JP2015001695A (ja) 音声認識装置、音声認識方法及びプログラム
Soni et al. Emotion based social media text classification using optimized improved ID3 classifier
US11983202B2 (en) Computer-implemented method for improving classification of labels and categories of a database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant