CN112307209B - 一种基于字符向量的短文本分类方法及系统 - Google Patents
一种基于字符向量的短文本分类方法及系统 Download PDFInfo
- Publication number
- CN112307209B CN112307209B CN202011225990.0A CN202011225990A CN112307209B CN 112307209 B CN112307209 B CN 112307209B CN 202011225990 A CN202011225990 A CN 202011225990A CN 112307209 B CN112307209 B CN 112307209B
- Authority
- CN
- China
- Prior art keywords
- character
- classified
- training
- text
- short text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 117
- 230000011218 segmentation Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000015654 memory Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 13
- 230000006870 function Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 241000736839 Chara Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于字符向量的短文本分类方法及系统,该方法包括:获取待分类短文,利用待分类短文生成字符序列样本,将字符序列样本输入预设网络模型进行特征提取,生成字符向量;对待分类短文进行词语切分,生成词序列样本,并根据词序列样本,对字符向量进行字符组合,生成字符向量组合;将待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到待分类短文的文本类型。本发明根据据词序列样本对字符向量进行字符组合,最后根据待分类短文的字符向量组合得到待分类短文的文本类型;利用字符向量对待分类短文进行分类,避免了传统分类方法中以词序列作为训练模型导致训练样本中的词种类有限的问题,保证分类过程的准确性与鲁棒性。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于字符向量的短文本分类方法及系统。
背景技术
随着云服务、大数据、人工智能等新技术的发展以及应用,为了加强社会综合治理,整合综治信息数据,综治信息系统平台建设备受关注。系统平台收录了大量的非结构化的短文本数据,并且目前部分平台收录的文本数据标签类别信息不完整,有大量未标或标错的数据,而针对大量的文本数据,依靠人工整理归类的方式既耗时,又容易出错,自然语言处理技术在文本分类方面已经能取得较为优异的分类效果,可以利用少批量优质的训练数据训练分类器,自动整理归类其他未标注的数据,有效降低人工成本。目前分类训练的过程中,以词序列作为训练模型会导致训练样本中的词种类有限,因此不能保证分类过程的准确性与鲁棒性。
发明内容
有鉴于此,本发明实施例提供了一种基于字符向量的短文本分类方法及系统,解决了以词序列作为训练模型会导致训练样本中的词种类有限,因此不能保证分类过程的准确性与鲁棒性的问题。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供基于字符向量的短文本分类方法,包括如下步骤:获取待分类短文,利用所述待分类短文生成字符序列样本,将所述字符序列样本输入预设网络模型进行特征提取,生成字符向量;对所述待分类短文进行词语切分,生成词序列样本,并根据所述词序列样本,对所述字符向量进行字符组合,生成字符向量组合;将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型。
在一实施例中,所述分类预测模型通过以下方式进行训练得到的:获取不同类别的样本数据集,根据预设样本数量对各所述样本数据集进行筛选,得到有效类别样本数据集,所述样本数据集带有类别标识信息,所述类别标识信息包括所述样本数据集中短文样本的目标文本类型;利用所述样本数据集生成字符序列训练样本,对所述字符序列训练样本进行填充,并将填充后的所述字符序列训练样本输入预设网络模型进行特征提取,生成预训练字符向量;对所述样本数据集中的短文样本进行词语切分,生成词序列训练样本,并对所述词序列训练样本进行填充,根据填充后的所述词序列训练样本,对所述预训练字符向量进行字符组合,生成字符向量训练组合;将不同类别的样本数据集对应的字符训练向量组合输入分类预测模型进行模型训练,得到训练完成的分类预测模型。
在一实施例中,所述将不同类别的样本数据集对应的字符训练向量组合输入分类预测模型进行模型训练,得到训练完成的分类预测模型,包括:将不同类别的样本数据集对应的字符训练向量组合输入分类预测模型中,输出预测文本类型;根据所述预测文本类型及所述目标文本类型,更新所述分类预测模型中的参数,得到训练完成的分类预测模型。
在一实施例中,所述在将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型之前,所述短文本分类方法还包括:获取所述有效类别样本数据集的各类别关键词,判断所述待分类短文中是否存在所述关键词,当所述待分类短文中存在所述关键词时,将所述待分类短文的文本类型标记为所述关键词对应的目标文本类型;当所述待分类短文中不存在所述关键词时,将待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型。
在一实施例中,所述将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型,包括:将所述待分类短文对应的字符训练向量组合输入分类预测模型进行模型训练,得到待分类短文对应各目标文本类型的预测概率值;判断所述预测概率值是否大于预设阈值;当所述预测概率值大于预设阈值时,将所述所述预测概率值对应的目标文本类型确定为待分类短文对应的文本类型。
在一实施例中,所述将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型,还包括:将所述待分类短文对应的字符训练向量组合分别输入多个不同的分类预测模型进行模型训练,分别得到待分类短文对应各目标文本类型的预测概率值;根据各所述分类预测模型的权重及各所述预测概率值,得到所述待分类短文对应各目标文本类型的目标预测概率值;获取各所述目标预测概率值中的最大概率值,判断所述最大概率值是否大于预设阈值;当最大概率值大于预设阈值时,将所述最大概率值对应的目标文本类型确定为待分类短文对应的文本类型。
在一实施例中,在所述生成字符向量组合之后,所述短文本分类方法还包括:所述根据预设样本数量对各所述样本数据集进行筛选,得到有效类别样本数据集,包括:如果当前样本数据集的样本数量大于第一预设阈值,对所述当前样本数据集进行欠采样,得到第一有效类别样本数据集;如果当前样本数据集的样本数量小于第二预设阈值,剔除所述当前样本数据集,得到第二有效类别样本数据集;将所述第一有效类别样本数据集与所述第二有效类别样本数据集进行合并,得到有效类别样本数据集。
第二方面,本发明实施例提供了基于字符向量的短文本分类系统,包括如下模块:第一处理模块,用于获取待分类短文,利用所述待分类短文生成字符序列样本,将所述字符序列样本输入预设网络模型进行特征提取,生成字符向量;第二处理模块,用于对所述待分类短文进行词语切分,生成词序列样本,并根据所述词序列样本,对所述字符向量进行字符组合,生成字符向量组合;第三处理模块,用于将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现本发明方法实施例及任意一种可选方式所述的基于字符向量的短文本分类方法。
本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本发明方法实施例及任意一种可选方式所述的基于字符向量的短文本分类方法。
本发明技术方案,具有如下优点:
本发明提供的一种基于字符向量的短文本分类方法及系统,通过切词工具对待分类短文进行词语切分,生成词序列样本,然后网络模型对待分类短文的字符序列样本进行特征提取,生成字符向量,根据据词序列样本,对字符向量进行字符组合,生成字符向量组合,最后根据待分类短文的字符向量组合得到待分类短文的文本类型;利用字符向量对待分类短文进行分类,避免了传统分类方法中以词序列作为训练模型导致训练样本中的词种类有限的问题,进而保证了分类过程的准确性与鲁棒性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于字符向量的短文本分类方法的一个具体示例的流程图;
图2为本发明实施例提供的基于字符向量的短文本分类方法的另一个具体示例的流程图;
图3为本发明实施例提供的在生成字符向量组合之后,基于字符向量的短文本分类方法的另一个具体示例的流程图;
图4为本发明实施例提供的基于字符向量的短文本分类系统的功能模块组成图;
图5为本发明实施例提供的电子设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
目前加强社会综合治理的系统平台收录了矛盾纠纷排查、城区管理网格信息、数字城管等大量的非结构化文本数据。目前部分地方平台收录的文本数据标签类别信息不完整,有大量未标或标错的数据,而针对大量的文本数据,依靠人工整理归类的方式既耗时,又容易出错,自然语言处理技术在文本分类方面已经能取得较为优异的分类效果,可以利用少批量优质的训练数据训练分类器,自动整理归类其他未标注的数据,有效降低人工成本。目前样本数据集不均衡现象比较严重,有些类别样本数量仅有十几条,而有些类别样本数量有上万条,对于样本不均衡现象,现有技术基本上会采用文本增强技术、过采样、欠采样等手段,在实践过程中采用上述方法,少样本类别预测结果不理想。并且目前分类训练的过程中,以词序列作为训练模型会导致训练样本中的词种类有限,因此不能保证分类过程的准确性与鲁棒性。
因此,本发明实施例提供一种基于字符向量的短文本分类方法,如图1所示,包括如下步骤:
步骤S1:获取待分类短文,利用待分类短文生成字符序列样本,将字符序列样本输入预设网络模型进行特征提取,生成字符向量。
本发明实施例中,获取需要进行分类预测的待分类短文,利用现有的转换手段,将待分类短文生成字符序列样本,例如:通过JS、Java、C等语音将文本转换为字符,还可以通过各种转换函数集成的转换器进行转换,将字符序列样本输入预设网络模型进行特征提取,生成字符向量,其中预设网络模型选择TextCnn网络模型,对于文本分类问题,TextCnn在文本分类问题上有着更加卓越的表现,TextCNN通过一维卷积来获取句子中n-gram的特征表示,TextCNN对文本浅层特征的抽取能力很强,在短文本领域如搜索、对话领域专注于意图分类时效果很好,应用广泛,且速度快,因此本发明实施例选择此网络模型进行特征提取。
需要说明的是,本发明实施例中仅举例说明转换字符序列样本的方法及预设网络模型的选择,在实际应用中可以根据实际需求进行其他选择,本发明并不以此为限。
步骤S2:对待分类短文进行词语切分,生成词序列样本,并根据词序列样本,对字符向量进行字符组合,生成字符向量组合。
本发明实施例中,利用切词工具对待分类短文进行词语切分,生成词序列样本,目前常用的切词工具有Paoding、IKAnalyzer、Ictclas4j,可以根据实际需要进行选择,完成切词之后,根据生成的词序列样本,对字符向量进行字符组合,生成字符向量组合。举例说明字符向量组合的生成过程,例如分词之后,一个词有两个字符charA和charB,然后组合的新向量(即字符向量组合)combineC如下:
charA=[wa1,wa2,...,wan]
charB=[wb1,wb2,...,wbn]
conbineC=[wa1+wb1,wa2+wb2,...,wan+wbn]
步骤S3:将待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到待分类短文的文本类型。本发明实施例中,将传统神经网络TextCnn和Transformer模型第一层的向量嵌入层删除,并在分类预测模型中的增加一层前馈神经网络提取组合向量的特征表示,替换的前馈神经网络包含一个隐含层和一个全连接层,激活函数采用ReLU函数:
yi=f(wi1x1i+wi1x2i+...+winxni+bi)
f(x)=max(0,x)
分类模型网络构建完成后,训练集按批次(训练样本的数量)大小进行划分,采用随机梯度下降算法对模型进行参数更新,得到训练完成的分类预测模型,然后将待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到待分类短文的文本类型。需要说明的是,本发明实施例仅举例说明选择激活函数为ReLU函数,本发明仅以此为例,并不以此为限。
本发明提供的基于字符向量的短文本分类方法,通过切词工具对待分类短文进行词语切分,生成词序列样本,然后网络模型对待分类短文的字符序列样本进行特征提取,生成字符向量,根据据词序列样本,对字符向量进行字符组合,生成字符向量组合,最后根据待分类短文的字符向量组合得到待分类短文的文本类型;利用字符向量对待分类短文进行分类,避免了传统分类方法中以词序列作为训练模型导致训练样本中的词种类有限的问题,进而保证了分类过程的准确性与鲁棒性。
在一具体实施例中,通过如下步骤对分类预测模型进行训练:
步骤S01:获取不同类别的样本数据集,根据预设样本数量对各样本数据集进行筛选,得到有效类别样本数据集,样本数据集带有类别标识信息,类别标识信息包括样本数据集中短文样本的目标文本类型。
本发明实施例中,获取已知样本的文本类型的,不同类别(不同文本类型)的样本数据集,其中,样本数据集带有类别标识信息,类别标识信息包括样本数据集中短文样本的目标文本类型。根据统计可知,综治平台收录的文本数据集中样本平均长度为41个,并且数据集标签类别(文本类型)有多个,可以根据预设样本数量对各样本数据集进行筛选,得到有效类别样本数据集,目的是将样本数据集中的样本数量过少的类别过滤掉,保证各类别的样本数量相对均衡。
步骤S02:利用样本数据集生成字符序列训练样本,对字符序列训练样本进行填充,并将填充后的字符序列训练样本输入预设网络模型进行特征提取,生成预训练字符向量。
本发明实施例中,利用样本数据集生成字符序列训练样本,其中生成字符序列训练样本的方法与上述方法相同,在此不再赘述,得到字符序列训练样本后,需要对字符序列训练样本进行填充;将填充后的字符序列训练样本输入预设网络模型进行特征提取,生成预训练字符向量,其中生成预训练字符向量的方法与生成字符向量的方法相同。需要说明的是,本发明实施例中的样本填充办法还可以选择其他同义词替换,随机插入等方法,是根据实际需求进行选择的,本发明并不以此为限。
步骤S03:对样本数据集中的短文样本进行词语切分,生成词序列训练样本,并对词序列训练样本进行填充,根据填充后的词序列训练样本,对预训练字符向量进行字符组合,生成字符向量训练组合。
本发明实施例中,对样本数据集中的短文样本进行词语切分,生成词序列训练样本,其中生成词序列训练样本的方法与上述词序列样本的生成方法相同,在此不再赘述,然后对词序列训练样本进行填充,根据填充后的词序列训练样本,对预训练字符向量进行字符组合,生成字符向量训练组合。需要说明的是,本发明实施例中的填充方法及生成字符向量训练组合均与上述的填充方法及生成字符向量组合的方法相同,在此不再赘述。
步骤S04:将不同类别的样本数据集对应的字符训练向量组合输入分类预测模型进行模型训练,得到训练完成的分类预测模型。
在一具体实施例中,上述步骤S04,还包括如下步骤:
步骤S041:将不同类别的样本数据集对应的字符训练向量组合输入分类预测模型中,输出预测文本类型。
步骤S042:根据预测文本类型及目标文本类型,更新分类预测模型中的参数,得到训练完成的分类预测模型。
在一具体实施例中,上述步骤S01,还包括如下步骤:
根据预设样本数量对各样本数据集进行筛选,将样本数量与预设样本数量差别过大的标注类别的样本进行筛选过滤,将剩余的数据集确定为筛选数据集,其中每个筛选数据集代表一个标注类别,并且其数据量满足要求。需要说明的是,本发明实施例中的预设样本数量是根据实际经验进行设定的,本发明并不以此为限。
步骤S011:如果当前样本数据集的样本数量大于第一预设阈值,对当前样本数据集进行欠采样,得到第一有效类别样本数据集。本发明实施例中,如果当前样本数据集的样本数量大于第一预设阈值,则说明样本数量过大,需要进行欠采样,以保证数据均衡,得到第一有效类别样本数据集,需要说明的是,本发明实施例中的欠采样方法及第一预设阈值都是根据实际需求及相关经验进行设定的,本发明并不以此为限。
步骤S012:如果当前样本数据集的样本数量小于第二预设阈值,剔除当前样本数据集,得到第二有效类别样本数据集。本发明实施例中,如果当前样本数据集的样本数量小于第二预设阈值,说明当前样本数据集的样本数量过少,则将此当前样本数据集剔除掉,得到第二有效类别样本数据集。需要说明的是,本发明实施例中的第二预设阈值都是根据实际需求及相关经验进行设定的,本发明并不以此为限。
步骤S013:将第一有效类别样本数据集与第二有效类别样本数据集进行合并,得到有效类别样本数据集。
在一具体实施例中,如图2所示,在上述步骤S3之前,本发明实施例提供的基于字符向量的短文本分类方法,还包括如下步骤:
步骤S201:获取有效类别样本数据集的各类别关键词,判断待分类短文中是否存在关键词,当待分类短文中存在关键词时,将待分类短文的文本类型标记为关键词对应的目标文本类型。本发明实施例中,获取有效类别样本数据集的各类别关键词,提取关键词的过程也是根据实际经验进行确定的,当待分类短文中存在关键词时,则可以直接将此待分类短文的文本类型标记为关键词对应的目标文本类型。
步骤S202:当待分类短文中不存在关键词时,将待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到待分类短文的文本类型。
在一具体实施例中,上述步骤S3,包括如下步骤:
步骤S31:将待分类短文对应的字符训练向量组合输入分类预测模型进行模型训练,得到待分类短文对应各目标文本类型的预测概率值。
步骤S32:当预测概率值大于预设阈值时,将预测概率值对应的目标文本类型确定为待分类短文对应的文本类型。
本发明实施例中将待分类短文对应的字符训练向量组合输入分类预测模型进行模型训练会输出概率值,得到待分类短文对应各目标文本类型的预测概率值,然后判断预测概率值是否大于预设阈值,如果预测概率值大于预设阈值,将预测概率值对应的目标文本类型确定为待分类短文对应的文本类型,如果预测概率值不大于预设阈值,则发出需要人工进行复核的提醒消息。
在一具体实施例中,如图3所示,上述步骤S3,还包括如下步骤:
步骤S300:将待分类短文对应的字符训练向量组合分别输入多个不同的分类预测模型进行模型训练,分别得到待分类短文对应各目标文本类型的预测概率值。
本发明实施例中,选择已经训练好的TextCnn和Transformer模型能获得待分类短文每个类别的预测概率值,选择这两个已经训练好的模型分别作为分类预测模型,分别得到这两个模型对应的待分类短文对应各目标文本类型的预测概率值。需要说明的是,本发明实施例仅举例说明选择这两个模型作为分类预测模型,在实际应用中还可以选择其他网络模型,并且网络模型的个数也是可以根据实际进行调整,本发明并不以此为限。
步骤S301:根据各分类预测模型的权重及各预测概率值,得到待分类短文对应各目标文本类型的目标预测概率值。
本发明实施例中,选好多个分类预测模型之后,会分别设定一个权重值,对待分类短文的各待预测概率值进行加权平均,得到的平均值即为待分类短文的对应不同类别(目标文本类型)的目标预测概率值。
步骤S302:获取各目标预测概率值中的最大概率值,判断最大概率值是否大于预设阈值。
步骤S303:当最大概率值大于预设阈值时,将最大概率值对应的目标文本类型确定为待分类短文对应的文本类型。
步骤S304:当最大概率值不大于预设阈值时,发出待复核的消息。
本发明实施例中,为提高输出结果的准确率,设置预设阈值,只有大于概率阈值的类别被采纳,低于该阈值的需要人工校核,进一步保证了分类结果的准确性。
本发明提供的基于字符向量的短文本分类方法,通过切词工具对待分类短文进行词语切分,生成词序列样本,然后网络模型对待分类短文的字符序列样本进行特征提取,生成字符向量,根据据词序列样本,对字符向量进行字符组合,生成字符向量组合,最后根据待分类短文的字符向量组合得到待分类短文的文本类型;利用字符向量对待分类短文进行分类,避免了传统分类方法中以词序列作为训练模型导致训练样本中的词种类有限的问题,进而保证了分类过程的准确性与鲁棒性;对样本数据集进行过滤,避免了样本不均衡的现象;在判断概率值得过程中设置阈值,进一步保证了输出结果的准确性。
本发明实施例提供一种基于字符向量的短文本分类系统,如图4所示,包括:
第一处理模块1,用于获取待分类短文,利用待分类短文生成字符序列样本,将字符序列样本输入预设网络模型进行特征提取,生成字符向量;此模块执行上述步骤S1所描述的方法,在此不再赘述。
第二处理模块2,用于对待分类短文进行词语切分,生成词序列样本,并根据词序列样本,对字符向量进行字符组合,生成字符向量组合;此模块执行上述步骤S2所描述的方法,在此不再赘述。
第三处理模块3,用于将待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到待分类短文的文本类型;此模块执行上述中的步骤S3所描述的方法,在此不再赘述。
本发明提供的基于字符向量的短文本分类系统,通过切词工具对待分类短文进行词语切分,生成词序列样本,然后网络模型对待分类短文的字符序列样本进行特征提取,生成字符向量,根据据词序列样本,对字符向量进行字符组合,生成字符向量组合,最后根据待分类短文的字符向量组合得到待分类短文的文本类型;利用字符向量对待分类短文进行分类,避免了传统分类方法中以词序列作为训练模型导致训练样本中的词种类有限的问题,进而保证了分类过程的准确性与鲁棒性;对样本数据集进行过滤,避免了样本不均衡的现象;在判断概率值得过程中设置阈值,进一步保证了输出结果的准确性。
本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器901和存储器902,其中处理器901和存储器902可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种基于字符向量的短文本分类方法,其特征在于,包括:
获取待分类短文,利用所述待分类短文生成字符序列样本,将所述字符序列样本输入预设网络模型进行特征提取,生成字符向量;
对所述待分类短文进行词语切分,生成词序列样本,并根据所述词序列样本,对所述字符向量进行字符组合,生成字符向量组合;
将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型;
所述分类预测模型通过以下方式进行训练得到的:
获取不同类别的样本数据集,根据预设样本数量对各所述样本数据集进行筛选,得到有效类别样本数据集,所述样本数据集带有类别标识信息,所述类别标识信息包括所述样本数据集中短文样本的目标文本类型;
利用所述样本数据集生成字符序列训练样本,对所述字符序列训练样本进行填充,并将填充后的所述字符序列训练样本输入预设网络模型进行特征提取,生成预训练字符向量;
对所述样本数据集中的短文样本进行词语切分,生成词序列训练样本,并对所述词序列训练样本进行填充,根据填充后的所述词序列训练样本,对所述预训练字符向量进行字符组合,生成字符向量训练组合;
将不同类别的样本数据集对应的字符训练向量组合输入分类预测模型进行模型训练,得到训练完成的分类预测模型。
2.根据权利要求1所述的基于字符向量的短文本分类方法,其特征在于,所述将不同类别的样本数据集对应的字符训练向量组合输入分类预测模型进行模型训练,得到训练完成的分类预测模型,包括:
将不同类别的样本数据集对应的字符训练向量组合输入分类预测模型中,输出预测文本类型;
根据所述预测文本类型及所述目标文本类型,更新所述分类预测模型中的参数,得到训练完成的分类预测模型。
3.根据权利要求1所述的基于字符向量的短文本分类方法,其特征在于,所述在将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型之前,所述短文本分类方法还包括:
获取所述有效类别样本数据集的各类别关键词,判断所述待分类短文中是否存在所述关键词,当所述待分类短文中存在所述关键词时,将所述待分类短文的文本类型标记为所述关键词对应的目标文本类型;
当所述待分类短文中不存在所述关键词时,将待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型。
4.根据权利要求1所述的基于字符向量的短文本分类方法,其特征在于,所述将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型,包括:
将所述待分类短文对应的字符训练向量组合输入分类预测模型进行模型训练,得到待分类短文对应各目标文本类型的预测概率值;
当所述预测概率值大于预设阈值时,将所述所述预测概率值对应的目标文本类型确定为待分类短文对应的文本类型。
5.根据权利要求1所述的基于字符向量的短文本分类方法,其特征在于,所述将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型,还包括:
将所述待分类短文对应的字符训练向量组合分别输入多个不同的分类预测模型进行模型训练,分别得到待分类短文对应各目标文本类型的预测概率值;
根据各所述分类预测模型的权重及各所述预测概率值,得到所述待分类短文对应各目标文本类型的目标预测概率值;
获取各所述目标预测概率值中的最大概率值,判断所述最大概率值是否大于预设阈值;
当最大概率值大于预设阈值时,将所述最大概率值对应的目标文本类型确定为待分类短文对应的文本类型。
6.根据权利要求1所述的基于字符向量的短文本分类方法,其特征在于,所述根据预设样本数量对各所述样本数据集进行筛选,得到有效类别样本数据集,包括:
如果当前样本数据集的样本数量大于第一预设阈值,对所述当前样本数据集进行欠采样,得到第一有效类别样本数据集;
如果当前样本数据集的样本数量小于第二预设阈值,剔除所述当前样本数据集,得到第二有效类别样本数据集;
将所述第一有效类别样本数据集与所述第二有效类别样本数据集进行合并,得到有效类别样本数据集。
7.一种基于字符向量的短文本分类系统,其特征在于,包括:
第一处理模块,用于获取待分类短文,利用所述待分类短文生成字符序列样本,将所述字符序列样本输入预设网络模型进行特征提取,生成字符向量;
第二处理模块,用于对所述待分类短文进行词语切分,生成词序列样本,并根据所述词序列样本,对所述字符向量进行字符组合,生成字符向量组合;
第三处理模块,用于将所述待分类短文对应的字符向量组合输入训练完成的分类预测模型,得到所述待分类短文的文本类型;
所述分类预测模型通过以下方式进行训练得到的:
获取不同类别的样本数据集,根据预设样本数量对各所述样本数据集进行筛选,得到有效类别样本数据集,所述样本数据集带有类别标识信息,所述类别标识信息包括所述样本数据集中短文样本的目标文本类型;
利用所述样本数据集生成字符序列训练样本,对所述字符序列训练样本进行填充,并将填充后的所述字符序列训练样本输入预设网络模型进行特征提取,生成预训练字符向量;
对所述样本数据集中的短文样本进行词语切分,生成词序列训练样本,并对所述词序列训练样本进行填充,根据填充后的所述词序列训练样本,对所述预训练字符向量进行字符组合,生成字符向量训练组合;
将不同类别的样本数据集对应的字符训练向量组合输入分类预测模型进行模型训练,得到训练完成的分类预测模型。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现如权利要求1-6中任一项所述的基于字符向量的短文本分类方法。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-6中任一项所述的基于字符向量的短文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011225990.0A CN112307209B (zh) | 2020-11-05 | 2020-11-05 | 一种基于字符向量的短文本分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011225990.0A CN112307209B (zh) | 2020-11-05 | 2020-11-05 | 一种基于字符向量的短文本分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307209A CN112307209A (zh) | 2021-02-02 |
CN112307209B true CN112307209B (zh) | 2024-04-26 |
Family
ID=74325139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011225990.0A Active CN112307209B (zh) | 2020-11-05 | 2020-11-05 | 一种基于字符向量的短文本分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307209B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626671B (zh) * | 2021-08-12 | 2024-10-01 | 平安国际智慧城市科技股份有限公司 | 基于字符匹配的数据分类方法、装置、设备以及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975594A (zh) * | 2016-05-09 | 2016-09-28 | 清华大学 | 基于组合特征向量和SVMperf的情感分类方法及装置 |
CN107832458A (zh) * | 2017-11-27 | 2018-03-23 | 中山大学 | 一种字符级的基于嵌套深度网络的文本分类方法 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
CN109376240A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 一种文本分析方法及终端 |
CN109614494A (zh) * | 2018-12-29 | 2019-04-12 | 东软集团股份有限公司 | 一种文本分类方法及相关装置 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110825845A (zh) * | 2019-10-23 | 2020-02-21 | 中南大学 | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 |
WO2020147393A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
CN111488455A (zh) * | 2020-04-03 | 2020-08-04 | 上海携旅信息技术有限公司 | 模型训练的方法、文本分类的方法、系统、设备及介质 |
CN111767403A (zh) * | 2020-07-07 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
WO2020207431A1 (zh) * | 2019-04-12 | 2020-10-15 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908635B (zh) * | 2017-09-26 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | 建立文本分类模型以及文本分类的方法、装置 |
-
2020
- 2020-11-05 CN CN202011225990.0A patent/CN112307209B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975594A (zh) * | 2016-05-09 | 2016-09-28 | 清华大学 | 基于组合特征向量和SVMperf的情感分类方法及装置 |
CN107832458A (zh) * | 2017-11-27 | 2018-03-23 | 中山大学 | 一种字符级的基于嵌套深度网络的文本分类方法 |
CN108334605A (zh) * | 2018-02-01 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类系统及计算机装置 |
CN109376240A (zh) * | 2018-10-11 | 2019-02-22 | 平安科技(深圳)有限公司 | 一种文本分析方法及终端 |
CN109614494A (zh) * | 2018-12-29 | 2019-04-12 | 东软集团股份有限公司 | 一种文本分类方法及相关装置 |
WO2020147393A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 基于卷积神经网络的文本分类方法及相关设备 |
WO2020207431A1 (zh) * | 2019-04-12 | 2020-10-15 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110825845A (zh) * | 2019-10-23 | 2020-02-21 | 中南大学 | 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法 |
CN111488455A (zh) * | 2020-04-03 | 2020-08-04 | 上海携旅信息技术有限公司 | 模型训练的方法、文本分类的方法、系统、设备及介质 |
CN111767403A (zh) * | 2020-07-07 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于双通道卷积神经网络的问句意图分类研究;杨志明;王来奇;王泳;;中文信息学报(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112307209A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107403198B (zh) | 一种基于级联分类器的官网识别方法 | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN111159454A (zh) | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 | |
CN112115267A (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN110750993A (zh) | 分词方法及分词器、命名实体识别方法及系统 | |
CN111523324B (zh) | 命名实体识别模型的训练方法及装置 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN109948160B (zh) | 短文本分类方法及装置 | |
CN107291775B (zh) | 错误样本的修复语料生成方法和装置 | |
CN111539612B (zh) | 一种风险分类模型的训练方法和系统 | |
CN110472246A (zh) | 工单分类方法、装置及存储介质 | |
CN112307209B (zh) | 一种基于字符向量的短文本分类方法及系统 | |
CN111177421B (zh) | 一种面向数字人文的电子邮件历史事件轴生成方法及装置 | |
CN113515620A (zh) | 电力设备技术标准文档排序方法、装置、电子设备和介质 | |
CN111724810B (zh) | 一种音频分类方法和装置 | |
CN112035218A (zh) | 一种提供模型服务的方法、装置及设备 | |
CN115587173A (zh) | 一种对话文本预测方法、装置、设备、存储介质 | |
CN118277560A (zh) | 短信文本分类方法及装置 | |
CN110119770B (zh) | 决策树模型构建方法、装置、电子设备及介质 | |
CN113747480B (zh) | 5g切片故障的处理方法、装置及计算设备 | |
CN111324732B (zh) | 模型训练方法、文本处理方法、装置及电子设备 | |
CN113486147A (zh) | 一种文本处理方法、装置、电子设备及计算机可读介质 | |
CN113470048A (zh) | 场景分割方法、装置、设备及计算机可读存储介质 | |
CN110069770B (zh) | 一种数据处理系统、方法及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |