CN109739985A - 文本自动分类方法、设备及存储介质 - Google Patents

文本自动分类方法、设备及存储介质 Download PDF

Info

Publication number
CN109739985A
CN109739985A CN201811602377.9A CN201811602377A CN109739985A CN 109739985 A CN109739985 A CN 109739985A CN 201811602377 A CN201811602377 A CN 201811602377A CN 109739985 A CN109739985 A CN 109739985A
Authority
CN
China
Prior art keywords
text
categories
samples
test sample
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811602377.9A
Other languages
English (en)
Inventor
耿俊杰
周胜臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zebra Network Technology Co Ltd
Original Assignee
Zebra Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zebra Network Technology Co Ltd filed Critical Zebra Network Technology Co Ltd
Priority to CN201811602377.9A priority Critical patent/CN109739985A/zh
Publication of CN109739985A publication Critical patent/CN109739985A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种文本自动分类方法、设备及存储介质,该方法包括:获取待分类文本;基于文本分类模型,得到所述待分类文本的文本类别,所述文本分类模型是以文本样本集合及其文本类别为样本采用LSTM长短时记忆人工神经网络训练获得的。本实施例提供的方法能够解决对文本进行分类时,存在分类速度慢,准确性低的问题。

Description

文本自动分类方法、设备及存储介质
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种文本自动分类方法、设备及存储介质。
背景技术
近几年,汽车行业飞速发展,人们在享受汽车带来的便利的同时,针对汽车使用或故障问题也日渐增做。
当客户对汽车使用或故障问题进行咨询或投诉时,在解答过程中,工作人员首先需要对汽车使用或故障问题的文本进行分类,而现有对客户咨询或投诉具体分类以人工处理,存在分类速度慢,准确性低的问题。
发明内容
本申请实施例提供一种文本自动分类方法、设备及存储介质,以克服对文本进行分类时,存在分类速度慢,准确性低的问题。
第一方面,本申请实施例提供一种文本自动分类方法,包括:
获取待分类文本;
基于文本分类模型,得到所述待分类文本的文本类别,所述文本分类模型是以文本样本集合及其文本类别为样本采用LSTM长短时记忆人工神经网络训练获得的。
在一种可能的设计中,所述方法还包括:
获取文本样本集合及其文本类别,所述文本样本集合包括不同文本类别的文本样本;
根据所述文本样本集合及其文本类别,采用LSTM长短时记忆人工神经网络进行训练,得到所述文本分类模型。
在一种可能的设计中,所述获取文本样本集合及其文本类别,包括:
获取多个历史文本,并将所述多个历史文本作为所述文本样本集合;
根据所述多个历史文本的关键词,确定所述多个历史文本的文本类别。
在一种可能的设计中,所述根据所述文本样本集合及其文本类别,采用LSTM长短时记忆人工神经网络进行训练,得到所述文本分类模型,包括:
提取所述文本样本集合中每个文本样本的语句特征向量,并将每个文本样本的语句特征向量作为训练集的特征向量;
将所述训练集的特征向量作为LSTM长短时记忆人工神经网络的第一层输入量,得到训练集的特征向量在邻域内特征点的平均值;
将所述训练集的特征向量在邻域内特征点的平均值作为LSTM长短时记忆人工神经网络的第二层输入量,得到文本样本的分布概率函数;
将所述分布概率函数作为所述文本分类模型,其中,所述文本分类模型的输出是所述文本样本的文本类别及对应的概率。
在一种可能的设计中,所述基于文本分类模型,得到所述待分类文本的文本类别,包括:
提取所述待分类文本的语句特征向量;
将所述待分类文本的语句特征向量作为所述文本分类模型的输入量,得到所述待分类文本的文本类别及对应的概率;
将概率最大的文本类别作为所述待分类文本的文本类别。
在一种可能的设计中,所述方法还包括:
获取测试样本集合,所述测试样本集合包括多个测试样本文本及其标准文本类别;
基于所述文本分类模型,得到所述多个测试样本文本的实际文本类别,并对应添加至所述测试样本集合中;
若所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量达到预设阈值,则确定所述文本分类模型通过可行性验证;
所述基于所述文本分类模型,得到所述待分类文本的文本类别,包括:
基于通过可行性验证的文本分类模型,得到所述待分类文本的文本类别。
在一种可能的设计中,所述方法还包括:
若所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量低于所述预设阈值,则将所述测试样本集合中的实际文本类别替换标准文本类别,并将替换后的测试样本集合作为新样本,采用LSTM长短时记忆人工神经网络进行训练,得到更新后的文本分类模型。
第二方面,本申请实施例提供一种文本自动分类设备,包括:
待分类文本获取模块,用于获取待分类文本;
文本类别获取模块,用于基于文本分类模型,得到所述待分类文本的文本类别,所述文本分类模型是以文本样本集合及其文本类别为样本采用LSTM长短时记忆人工神经网络训练获得的。
在一种可能的设计中,所述文本自动分类设备还包括:获取模块和文本分类模型建立模块;
所述获取模块,用于获取文本样本集合及其文本类别,所述文本样本集合包括不同文本类别的文本样本;
所述文本分类模型建立模块,用于根据所述文本样本集合及其文本类别,采用LSTM长短时记忆人工神经网络进行训练,得到所述文本分类模型。
在一种可能的设计中,还包括:存储模块;
所述存储模块用于在接收到所有碰撞车辆的用户返回的同意反馈信息时,将所述初步的定责结果作为最终的定责结果,并存储所述最终的定责结果和所述视图信息。
在一种可能的设计中,所述获取模块,具体用于:
获取多个历史文本,并将所述多个历史文本作为所述文本样本集合;
根据所述多个历史文本的关键词,确定所述多个历史文本的文本类别。
在一种可能的设计中,所述文本分类模型建立模块,具体用于:
提取所述文本样本集合中每个文本样本的语句特征向量,并将每个文本样本的语句特征向量作为训练集的特征向量;
将所述训练集的特征向量作为LSTM长短时记忆人工神经网络的第一层输入量,得到训练集的特征向量在邻域内特征点的平均值;
将所述训练集的特征向量在邻域内特征点的平均值作为LSTM长短时记忆人工神经网络的第二层输入量,得到文本样本的分布概率函数;
将所述分布概率函数作为所述文本分类模型,其中,所述文本分类模型的输出是所述文本样本的文本类别及对应的概率。
在一种可能的设计中,所述文本类别获取模块,具体用于:
提取所述待分类文本的语句特征向量;
将所述待分类文本的语句特征向量作为所述文本分类模型的输入量,得到所述待分类文本的文本类别及对应的概率;
将概率最大的文本类别作为所述待分类文本的文本类别。
在一种可能的设计中,所述文本自动分类设备还包括:测试样本集合获取模块、实际文本类别获取模块、以及确定模块;
所述测试样本集合获取模块,用于获取测试样本集合,所述测试样本集合包括多个测试样本文本及其标准文本类别;
所述实际文本类别获取模块,用于基于所述文本分类模型,得到所述多个测试样本文本的实际文本类别,并对应添加至所述测试样本集合中;
所述确定模块,用于在所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量达到预设阈值时,确定所述文本分类模型通过可行性验证;
所述文本分类获取模块还用于:基于通过可行性验证的文本分类模型,得到所述待分类文本的文本类别。
在一种可能的设计中,所述文本自动分类设备还包括:更新模块;
所述更新模块,用于在所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量低于所述预设阈值时,将所述测试样本集合中的实际文本类别替换标准文本类别,并将替换后的测试样本集合作为新样本,采用LSTM长短时记忆人工神经网络进行训练,得到更新后的文本分类模型。
第三方面,本申请实施例提供一种文本自动分类设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的文本自动分类方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的文本自动分类方法。
本实施例提供的文本自动分类方法、设备及存储介质,先获取待分类文本,再基于以文本样本集合及其文本类别为样本采用LSTM长短时记忆人工神经网络训练获得的文本分类模型,获得待分类文本的文本类别,实现文本的自动分类。本方案中通过文本分类模型能够直接、客观地对待分类文本进行分类,从而实现文本分类的自动化处理,能够解决分类速度慢,准确性低的问题,从而能够提高处理的可信度和准确性。本方案的过程简单快捷,无需耗费较长的时间,省时省力,从而提高分类诊断与解决问题的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文本自动分类方法的流程示意图一;
图2为本申请实施例提供的文本自动分类方法的流程示意图二;
图3为本申请实施例提供的文本自动分类方法的流程示意图三;
图4为本申请实施例提供的文本自动分类方法的流程示意图四;
图5为本申请实施例提供的文本自动分类方法的流程示意图五;
图6为本申请实施例提供的文本自动分类方法的流程示意图六;
图7为本申请实施例提供的文本自动分类设备的结构示意图一;
图8为本申请实施例提供的文本自动分类设备的结构示意图二;
图9为本申请实施例提供的文本自动分类系统的结构示意图;
图10为本申请实施例提供的文本自动分类设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为本申请实施例一提供的文本自动分类方法的流程示意图一,本实施例的执行主体可以为终端,也可以为服务器,本实施例此处对执行主体不做限定。如图1所示,该方法包括:
S101、获取待分类文本。
实际应用中,本实施例的执行主体可以为文本自动分类设备,该文本自动分类设备的实现方式有多种,例如,该文本自动分类设备可以为程序软件,也可以为存储有相关计算机程序的介质,例如,U盘、云盘等;或者,该文本自动分类设备还可以为加载或安装有相关计算机程序的实体装置,例如,芯片、服务器、终端等。
本实施例中,获取待分类文本可以通过以下方式实现:采集客户的反馈信息,并对所述反馈信息进行分析,获取分析结果,所述分析结果为待分类文本,其中,所述反馈信息包括客户需咨询或投诉的问题。
S102、基于文本分类模型,得到所述待分类文本的文本类别,所述文本分类模型是以文本样本集合及其文本类别为样本采用LSTM长短时记忆人工神经网络训练获得的。
本实施例中,基于已获得的文本分类模型,对所述待分类文本进行分类,得到待分类文本的文本类别。其中,待分类文本可以包括咨询文本和投诉文本等两大类文本,其中咨询文本可以包括激活绑定车机、使用蓝牙车控钥匙等文本,投诉文本可以包括车机没有通信信号、用户行程轨迹无法查看等文本,所述文本类别可以包括下述至少两项:绑定激活类、蓝牙钥匙类、网络信号类、以及行程轨迹类等。
本实施例提供的文本自动分类方法,先获取待分类文本,再基于以文本样本集合及其文本类别为样本采用LSTM长短时记忆人工神经网络训练获得的文本分类模型,获得待分类文本的文本类别,实现文本的自动分类。本方案中通过文本分类模型能够直接、客观地对待分类文本进行分类,从而实现文本分类的自动化处理,并且能够提高处理的可信度和准确性。本方案的过程简单快捷,无需耗费较长的时间,省时省力,从而提高分类诊断与解决问题的效率。
图2为本申请实施二例提供的文本自动分类方法的流程示意图二,本实施例在图1实施例的基础上,对本实施例的具体实现过程进行了详细说明。如图2所示,所述文本自动分类方法,还可以包括:
S201、获取文本样本集合及其文本类别,所述文本样本集合包括不同文本类别的文本样本;
S202、根据所述文本样本集合及其文本类别,采用LSTM长短时记忆人工神经网络进行训练,得到所述文本分类模型。
在具体实现过程中,可以从预设文本库中获取文本样本集合及其文本类别,所述文本样本集合包括不同文本类别的文本样本。其中,预设文本库中的文本类别,可以是通过人工手动归类标记的,比如绑定激活、信号网络、蓝牙钥匙、行程轨迹等类别标签。基于文本样本集合及其文本类别作,采用LSTM长短时记忆人工神经网络进行训练,建立文本分类模型,后续等待接收或获取待分类文本,直接可以通过文本分类模型,对待分类文本进行分类,实现自动归类。
图3为本申请实施例三提供的文本自动分类方法的流程示意图三,本实施例在图2实施例的基础上,本实施例对S201的具体实现过程进行了详细说明。如图3所示,所述获取文本样本集合及其文本类别,包括:
S301、获取多个历史文本,并将所述多个历史文本作为所述文本样本集合;
S302、根据所述多个历史文本的关键词,确定所述多个历史文本的文本类别。
本实施例中,可以从预设文本库中获取多个历史文本,所述多个历史文本形成文本样本集合,文本样本集合中包括不同文本类别的文本样本,并为多个历史文本分配标签,所述标签用于表示文本类别。其中,为多个历史文本分配标签具体过程可以包括:根据所述多个历史文本的关键词,从预设关键词库中查找对应的文本类别,确定所述多个历史文本的文本类别。其中,预设关键词库中包括多个关键词及其对应的文本类别,能够标准化文本类别,保证建模过程中模型的准确性。
参见图4,图4为本申请实施例四提供的文本自动分类方法的流程示意图四,本实施例在图2所示实施例的基础上,本实施例对S202的具体实现过程进行了详细说明。如图4所示,所述根据所述文本样本集合及其文本类别,采用LSTM长短时记忆人工神经网络进行训练,得到所述文本分类模型,包括:
S401、提取所述文本样本集合中每个文本样本的语句特征向量,并将每个文本样本的语句特征向量作为训练集的特征向量。
本实施例中,首先提取所述文本样本集合中每个文本样本的词向量,具体过程为:对获取到的所述文本样本集合中每个文本样本进行词性划分,得到与所述文本样本集合中每个文本样本对应的词性信息,对所述词性信息进行词向量训练,得到与所述每个文本样本对应的多个词向量。再提取所述文本样本集合中每个文本样本的语句特征向量:对所述多个词向量根据预设词向量压缩顺序进行压缩编码处理,得到所述文本样本集合中每个文本样本对应的语句特征向量。其中,将每个文本样本的语句特征向量作为训练集的特征向量。
S402、将所述训练集的特征向量作为LSTM长短时记忆人工神经网络的第一层输入量,得到训练集的特征向量在邻域内特征点的平均值;
S403、将所述训练集的特征向量在邻域内特征点的平均值作为LSTM长短时记忆人工神经网络的第二层输入量,得到文本样本的分布概率函数;
S404、将所述分布概率函数作为所述文本分类模型,其中,所述文本分类模型的输出是所述文本样本的文本类别及对应的概率。
本实施例中,基于LSTM长短时记忆人工神经网络,通过一条链状神经网络即一个递归神经网络,对相同神经网络的多重复制,神经网络会将信息传递给下一时刻多层网络,即将所述训练集的特征向量作为LSTM长短时记忆人工神经网络的第一层输入量,得到训练集的特征向量在邻域内特征点的平均值,将训练集的特征向量在邻域内特征点的平均值作为LSTM长短时记忆人工神经网络的第二层输入量,得到文本样本的分布概率函数,所述文本样本的分布概率函数即为所述文本分类模型,其中,所述文本分类模型的输出是所述文本样本的文本类别及对应的概率,通过建立文本分类模型,能够自动对待分类文本进行归类,从而确定分类后为客户准确、快速地解决问题。
参见图5,图5为本申请实施例提供的文本自动分类方法的流程示意图五,本实施例在图4实施例的基础上,本实施例对S102的具体实现过程进行了详细说明。如图5所示,所述基于文本分类模型,得到所述待分类文本的文本类别,包括:
S501、提取所述待分类文本的语句特征向量;
S502、将所述待分类文本的语句特征向量作为所述文本分类模型的输入量,得到所述待分类文本的文本类别及对应的概率;
S503、将概率最大的文本类别作为所述待分类文本的文本类别。
在具体实现过程中,在获取带分类文本后,首先获得文本分类模型的输入量,再将输入量输入到文本分类模型中,然后获得所述待分类文本的文本类别及对应的概率,另外,获得所述待分类文本的文本类别可能为多个,若得到所述待分类的文本对应的文本类别为多个文本类别,则将概率最大的文本类别作为所述待分类的文本对应的文本类别,保证结果的准确性。
获得文本分类模型的输入量即为提取所述待分类文本的语句特征向量,其中,提取所述待分类文本的语句特征向量与S401的语句特征向量的提取过程类似,在此不再赘述。
参见图6,图6为本申请实施例提供的文本自动分类方法的流程示意图六,本实施例在上述实施例的基础上,对本实施例的具体实现过程进行了详细说明。如图6所示,该方法,还可以包括:
S601、获取测试样本集合,所述测试样本集合包括多个测试样本文本及其标准文本类别。
本实施例中,可以从预设文本库中获取多个测试样本文本及其标准文本类别,所述标准文本类别为为多个测试样本文本初始配置或获得文本类别,并将所述多个测试样本文本及其标准文本类别作为测试样本集合,用以检测文本分类模型的准确性或可行性。
S602、基于所述文本分类模型,得到所述多个测试样本文本的实际文本类别,并对应添加至所述测试样本集合中。
本实施例中,基于获取的测试样本集合,提取测试样本集合中每个测试样本文本的语句特征向量,基于所述文本分类模型,将每个测试样本文本的语句特征向量作为输入量,可以得到所述多个测试样本文本的实际文本类别,并添加至所述测试样本集合中,其中,测试后的测试样本集合包括所述多个测试样本文本、及其标准文本类别和实际文本类别。
S603、若所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量达到预设阈值,则确定所述文本分类模型通过可行性验证。
本实施例中,比对所述测试样本集合中每个测试样本对应的实际文本类别与标准文本类别是否一致,并统计其实际文本类别与标准文本类别一致的测试样本文本的数量,若实际文本类别与标准文本类别一致的测试样本文本的数量达到预设阈值,则说明所述文本分类模型通过可行性验证,其中,所述预设阈值为所述测试样本集合中多个测试样本文本的总数量的80%。
S604、所述基于所述文本分类模型,得到所述待分类文本的文本类别,包括:
基于通过可行性验证的文本分类模型,得到所述待分类文本的文本类别。
在具体实现过程中,确定所述文本分类模型通过可行性验证后,所述文本分类模型为通过可行性验证的文本分类模型,在获取待分类文本后,可以基于通过可行性验证的文本分类模型,得到所述待分类文本的文本类别,增强文本分类模型的可靠性,从而增强其文本分类模型的泛化能力。
可选的,在图6的基础上,本实施例在图6的基础上,对本实施例的具体实现过程进行了详细说明。所述方法还包括:
若所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量低于所述预设阈值,则将所述测试样本集合中的实际文本类别替换标准文本类别,并将替换后的测试样本集合作为新样本,采用LSTM长短时记忆人工神经网络进行训练,得到更新后的文本分类模型。
本实施例中,对实际文本类别与标准文本类别一致的测试样本文本的数量低于所述预设阈值的测试样本集合进行了维护:删除所述测试样本集合中的标准文本类别,且将实际文本类别作为更新后的测试样本集合中的标准文本类别,即将所述测试样本集合中的实际文本类别替换标准文本类别,再将替换后的测试样本集合作为新样本,采用LSTM长短时记忆人工神经网络进行训练,得到更新后的文本分类模型,实现对文本分类模型的维护和更新,不断优化文本分类模型,从而提高对文本分类的准确度,从而有效提高为客户问题的诊断与解决问题的效率。
本实施例提供的文本自动分类方法,通过测试样本集合,检测文本分类模型是否需要更新或维护,不断优化文本分类模型,基于文本分类模型,实现文本分类的自动化处理,能够解决分类速度慢,准确性低的问题,从而能够提高处理的可信度和准确性。且本方案的过程简单快捷,无需耗费较长的时间,省时省力,从而提高分类诊断与解决问题的效率。
图7为本申请实施例提供的文本自动分类设备的结构示意图一。如图7所示,该文本自动分类设备70包括:待分类文本获取模块701以及文本类别获取模块702;
所述待分类文本获取模块701,用于获取待分类文本;
所述文本类别获取模块702,用于基于文本分类模型,得到所述待分类文本的文本类别,所述文本分类模型是以文本样本集合及其文本类别为样本采用LSTM长短时记忆人工神经网络训练获得的。
本实施例提供的设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的设计中,还包括:获取模块和文本分类模型建立模块;
所述获取模块,用于获取文本样本集合及其文本类别,所述文本样本集合包括不同文本类别的文本样本;
所述文本分类模型建立模块,用于根据所述文本样本集合及其文本类别,采用LSTM长短时记忆人工神经网络进行训练,得到所述文本分类模型。
在一种可能的设计中,所述获取模块,具体用于:
获取多个历史文本,并将所述多个历史文本作为所述文本样本集合;
根据所述多个历史文本的关键词,确定所述多个历史文本的文本类别。
在一种可能的设计中,所述文本分类模型建立模块,具体用于:
提取所述文本样本集合中每个文本样本的语句特征向量,并将每个文本样本的语句特征向量作为训练集的特征向量;
将所述训练集的特征向量作为LSTM长短时记忆人工神经网络的第一层输入量,得到训练集的特征向量在邻域内特征点的平均值;
将所述训练集的特征向量在邻域内特征点的平均值作为LSTM长短时记忆人工神经网络的第二层输入量,得到文本样本的分布概率函数;
将所述分布概率函数作为所述文本分类模型,其中,所述文本分类模型的输出是所述文本样本的文本类别及对应的概率。
在一种可能的设计中,所述文本类别获取模块702,具体用于:
提取所述待分类文本的语句特征向量;
将所述待分类文本的语句特征向量作为所述文本分类模型的输入量,得到所述待分类文本的文本类别及对应的概率;
将概率最大的文本类别作为所述待分类文本的文本类别。
图8为本申请实施例提供的文本自动分类设备的结构示意图二。如图8所示,该文本自动分类设备70还包括:测试样本集合获取模块703、实际文本类别获取模块704、以及确定模块705;
所述测试样本集合获取模块703,用于获取测试样本集合,所述测试样本集合包括多个测试样本文本及其标准文本类别;
所述实际文本类别获取模块704,用于基于所述文本分类模型,得到所述多个测试样本文本的实际文本类别,并对应添加至所述测试样本集合中;
所述确定模块705,用于在所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量达到预设阈值时,确定所述文本分类模型通过可行性验证;
所述文本分类获取模块702还用于:基于通过可行性验证的文本分类模型,得到所述待分类文本的文本类别。
在一种可能的设计中,该文本自动分类设备70还包括:更新模块;
所述更新模块,用于在所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量低于所述预设阈值时,将所述测试样本集合中的实际文本类别替换标准文本类别,并将替换后的测试样本集合作为新样本,采用LSTM长短时记忆人工神经网络进行训练,得到更新后的文本分类模型。
本实施例提供的设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图9为本发明实施例提供的文本自动分类系统的架构示意图为本申请实施例提供的一种架构示意图。如图9所示,本实施例提供的系统包括终端901、以及上述实施例所述的文本自动分类设备902。其中,终端901可以是手机(用户端)、平板、车载终端等。本实施例对终端901的实现方式不做特别限制,只要该终端901能够与用户(客户)进行信息交互即可。
下面结合具体的应用场景说明文本自动分类过程为:
当客户需要咨询或是投诉汽车问题时,通过终端901将需要咨询或是投诉汽车问题生成待分类文本,再将所述待分类文本上传至上述实施例所述的文本自动分类设备902,然后通过文本自动分类设备902得到所述待分类文本的文本类别,并将所述待分类文本的文本类别推送给工作人员,以使工作人员可以准确地为客户解决问题。
上述文本分类过程是自动完成,只需要用户通过网络传输就可以完成待分类文本的分类,能够解决现有对客户咨询或投诉具体分类以人工处理,存在分类速度慢,准确性低的问题。
图10为本申请实施例提供的文本自动分类设备的硬件结构示意图。如图10所示,本实施例的文本自动分类设备100包括:处理器1001以及存储器1002;其中
存储器1002,用于存储计算机执行指令;
处理器1001,用于执行存储器存储的计算机执行指令,以实现上述实施例中接收设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的文本自动分类方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (16)

1.一种文本自动分类方法,其特征在于,包括:
获取待分类文本;
基于文本分类模型,得到所述待分类文本的文本类别,所述文本分类模型是以文本样本集合及其文本类别为样本采用LSTM长短时记忆人工神经网络训练获得的。
2.根据权利要求1所述的方法,所述方法还包括:
获取文本样本集合及其文本类别,所述文本样本集合包括不同文本类别的文本样本;
根据所述文本样本集合及其文本类别,采用LSTM长短时记忆人工神经网络进行训练,得到所述文本分类模型。
3.根据权利要求2所述的方法,所述获取文本样本集合及其文本类别,包括:
获取多个历史文本,并将所述多个历史文本作为所述文本样本集合;
根据所述多个历史文本的关键词,确定所述多个历史文本的文本类别。
4.根据权利要求2所述的方法,所述根据所述文本样本集合及其文本类别,采用LSTM长短时记忆人工神经网络进行训练,得到所述文本分类模型,包括:
提取所述文本样本集合中每个文本样本的语句特征向量,并将每个文本样本的语句特征向量作为训练集的特征向量;
将所述训练集的特征向量作为LSTM长短时记忆人工神经网络的第一层输入量,得到训练集的特征向量在邻域内特征点的平均值;
将所述训练集的特征向量在邻域内特征点的平均值作为LSTM长短时记忆人工神经网络的第二层输入量,得到文本样本的分布概率函数;
将所述分布概率函数作为所述文本分类模型,其中,所述文本分类模型的输出是所述文本样本的文本类别及对应的概率。
5.根据权利要求4所述的方法,所述基于文本分类模型,得到所述待分类文本的文本类别,包括:
提取所述待分类文本的语句特征向量;
将所述待分类文本的语句特征向量作为所述文本分类模型的输入量,得到所述待分类文本的文本类别及对应的概率;
将概率最大的文本类别作为所述待分类文本的文本类别。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
获取测试样本集合,所述测试样本集合包括多个测试样本文本及其标准文本类别;
基于所述文本分类模型,得到所述多个测试样本文本的实际文本类别并对应添加至所述测试样本集合中;
若所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量达到预设阈值,则确定所述文本分类模型通过可行性验证;
所述基于所述文本分类模型,得到所述待分类文本的文本类别,包括:
基于通过可行性验证的文本分类模型,得到所述待分类文本的文本类别。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量低于所述预设阈值,则将所述测试样本集合中的实际文本类别替换标准文本类别,并将替换后的测试样本集合作为新样本,采用LSTM长短时记忆人工神经网络进行训练,得到更新后的文本分类模型。
8.一种文本自动分类设备,其特征在于,包括:
待分类文本获取模块,用于获取待分类文本;
文本类别获取模块,用于基于文本分类模型,得到所述待分类文本的文本类别,所述文本分类模型是以文本样本集合及其文本类别为样本采用LSTM长短时记忆人工神经网络训练获得的。
9.根据权利要求8所述的设备,其特征在于,还包括:获取模块和文本分类模型建立模块;
所述获取模块,用于获取文本样本集合及其文本类别,所述文本样本集合包括不同文本类别的文本样本;
所述文本分类模型建立模块,用于根据所述文本样本集合及其文本类别,采用LSTM长短时记忆人工神经网络进行训练,得到所述文本分类模型。
10.根据权利要求9所述的设备,其特征在于,所述获取模块,具体用于:
获取多个历史文本,并将所述多个历史文本作为所述文本样本集合;
根据所述多个历史文本的关键词,确定所述多个历史文本的文本类别。
11.根据权利要求9所述的设备,其特征在于,所述文本分类模型建立模块,具体用于:
提取所述文本样本集合中每个文本样本的语句特征向量,并将每个文本样本的语句特征向量作为训练集的特征向量;
将所述训练集的特征向量作为LSTM长短时记忆人工神经网络的第一层输入量,得到训练集的特征向量在邻域内特征点的平均值;
将所述训练集的特征向量在邻域内特征点的平均值作为LSTM长短时记忆人工神经网络的第二层输入量,得到文本样本的分布概率函数;
将所述分布概率函数作为所述文本分类模型,其中,所述文本分类模型的输出是所述文本样本的文本类别及对应的概率。
12.根据权利要求11所述的设备,其特征在于,所述文本类别获取模块,具体用于:
提取所述待分类文本的语句特征向量;
将所述待分类文本的语句特征向量作为所述文本分类模型的输入量,得到所述待分类文本的文本类别及对应的概率;
将概率最大的文本类别作为所述待分类文本的文本类别。
13.根据权利要求8-12任一项所述的设备,其特征在于,还包括:测试样本集合获取模块、实际文本类别获取模块、以及确定模块;
所述测试样本集合获取模块,用于获取测试样本集合,所述测试样本集合包括多个测试样本文本及其标准文本类别;
所述实际文本类别获取模块,用于基于所述文本分类模型,得到所述多个测试样本文本的实际文本类别,并对应添加至所述测试样本集合中;
所述确定模块,用于在所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量达到预设阈值时,确定所述文本分类模型通过可行性验证;
所述文本分类获取模块还用于:基于通过可行性验证的文本分类模型,得到所述待分类文本的文本类别。
14.根据权利要求13所述的设备,其特征在于,还包括:更新模块;
所述更新模块,用于在所述测试样本集合中,其实际文本类别与标准文本类别一致的测试样本文本的数量低于所述预设阈值时,将所述测试样本集合中的实际文本类别替换标准文本类别,并将替换后的测试样本集合作为新样本,采用LSTM长短时记忆人工神经网络进行训练,得到更新后的文本分类模型。
15.一种文本自动分类设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的文本自动分类方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的文本自动分类方法。
CN201811602377.9A 2018-12-26 2018-12-26 文本自动分类方法、设备及存储介质 Pending CN109739985A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811602377.9A CN109739985A (zh) 2018-12-26 2018-12-26 文本自动分类方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811602377.9A CN109739985A (zh) 2018-12-26 2018-12-26 文本自动分类方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN109739985A true CN109739985A (zh) 2019-05-10

Family

ID=66361244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811602377.9A Pending CN109739985A (zh) 2018-12-26 2018-12-26 文本自动分类方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109739985A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442842A (zh) * 2019-06-20 2019-11-12 平安科技(深圳)有限公司 合同内容的提取方法及装置、计算机设备、存储介质
CN110489521A (zh) * 2019-07-15 2019-11-22 北京三快在线科技有限公司 文本类别检测方法、装置、电子设备和计算机可读介质
CN110674297A (zh) * 2019-09-24 2020-01-10 支付宝(杭州)信息技术有限公司 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN111078888A (zh) * 2019-12-20 2020-04-28 电子科技大学 一种自动分类社交网络用户评论数据的方法
CN112528673A (zh) * 2020-12-14 2021-03-19 中国联合网络通信集团有限公司 文本批量处理方法、系统、终端设备及计算机存储介质
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649561A (zh) * 2016-11-10 2017-05-10 复旦大学 面向税务咨询业务的智能问答系统
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
US20180300608A1 (en) * 2017-04-12 2018-10-18 Yodlee, Inc. Neural Networks for Information Extraction From Transaction Data
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649561A (zh) * 2016-11-10 2017-05-10 复旦大学 面向税务咨询业务的智能问答系统
CN108628868A (zh) * 2017-03-16 2018-10-09 北京京东尚科信息技术有限公司 文本分类方法和装置
US20180300608A1 (en) * 2017-04-12 2018-10-18 Yodlee, Inc. Neural Networks for Information Extraction From Transaction Data
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN108509596A (zh) * 2018-04-02 2018-09-07 广州市申迪计算机系统有限公司 文本分类方法、装置、计算机设备和存储介质
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周鑫鹏: "基于深度学习的问题分类的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442842A (zh) * 2019-06-20 2019-11-12 平安科技(深圳)有限公司 合同内容的提取方法及装置、计算机设备、存储介质
CN110489521A (zh) * 2019-07-15 2019-11-22 北京三快在线科技有限公司 文本类别检测方法、装置、电子设备和计算机可读介质
CN110674297A (zh) * 2019-09-24 2020-01-10 支付宝(杭州)信息技术有限公司 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN110674297B (zh) * 2019-09-24 2022-04-29 支付宝(杭州)信息技术有限公司 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN111078888A (zh) * 2019-12-20 2020-04-28 电子科技大学 一种自动分类社交网络用户评论数据的方法
CN111078888B (zh) * 2019-12-20 2021-12-10 电子科技大学 一种自动分类社交网络用户评论数据的方法
CN112528673A (zh) * 2020-12-14 2021-03-19 中国联合网络通信集团有限公司 文本批量处理方法、系统、终端设备及计算机存储介质
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114579740B (zh) * 2022-01-20 2023-12-05 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109739985A (zh) 文本自动分类方法、设备及存储介质
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN109325148A (zh) 生成信息的方法和装置
CN109117777A (zh) 生成信息的方法和装置
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN106407178A (zh) 一种会话摘要生成方法及装置
CN108447471A (zh) 语音识别方法及语音识别装置
CN109684475A (zh) 投诉的处理方法、装置、设备以及存储介质
CN108682420A (zh) 一种音视频通话方言识别方法及终端设备
CN111353028B (zh) 用于确定客服话术簇的方法及装置
CN109918984A (zh) 保险单号码识别方法、装置、电子设备及存储介质
CN109783624A (zh) 基于知识库的答案生成方法、装置和智能会话系统
CN109284374A (zh) 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
CN109800309A (zh) 课堂话语类型分类方法及装置
CN110189751A (zh) 语音处理方法及设备
CN113903363B (zh) 基于人工智能的违规行为检测方法、装置、设备及介质
CN109828906A (zh) Ui自动化测试方法、装置、电子设备及存储介质
CN111428217A (zh) 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质
CN109033148A (zh) 一种面向多分类的不平衡数据预处理方法、装置及设备
CN112417121A (zh) 客户意图识别方法、装置、计算机设备及存储介质
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN110472246A (zh) 工单分类方法、装置及存储介质
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510