CN110597958A - 文本分类模型训练和使用方法及装置 - Google Patents
文本分类模型训练和使用方法及装置 Download PDFInfo
- Publication number
- CN110597958A CN110597958A CN201910864487.0A CN201910864487A CN110597958A CN 110597958 A CN110597958 A CN 110597958A CN 201910864487 A CN201910864487 A CN 201910864487A CN 110597958 A CN110597958 A CN 110597958A
- Authority
- CN
- China
- Prior art keywords
- word
- field
- utterance
- domain
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015654 memory Effects 0.000 claims abstract description 25
- 238000002372 labelling Methods 0.000 claims abstract description 13
- 230000014509 gene expression Effects 0.000 claims description 36
- 230000000875 corresponding Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002457 bidirectional Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000001537 neural Effects 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G06F18/214—
Abstract
本发明公开文本分类模型训练和使用方法及装置,其中,一种文本分类模型训练方法,包括:定义基础领域、每个领域内的强说法和每个领域内的弱说法;根据基础领域、强说法和弱说法,对用户说法进行人工标注;采用双向长短时记忆网络对文本分类建立文本分类模型,其中,文本分类模型的输入包括每个词的词向量和词库特征向量的拼接,模型的输出是每个领域的强弱说法表示;提取用户说法中每个词的词向量和每个词的词库特征向量;将每个词的词向量和词库特征向量输入至文本分类模型并获取文本分类模型的输出;以及利用人工标注的用户说法作为输出的目标对模型进行训练和更新。本申请的方法和装置可以对用户说法进行更精准的分类,极大地提升用户体验。
Description
技术领域
本发明属于文本分类技术领域,尤其涉及文本分类模型训练和使用方法及装置。
背景技术
相关技术中,存在基于规则匹配的文本领域分类,基于特征工程的文本领域分类和基于深度学习的文本领域分类。
其中,基于规则匹配的文本领域分类:每个领域,人工设计相应的规则和权重去匹配用户的说法。把所有匹配上的领域按权重高低输出领域。
基于特征工程的文本领域分类:人工提取文本特征(如ngram特征)作为分类模型的输入,特征提取的过程决定了模型结果的上限。最常用的模型有SVM(Support VectorMachine)、最大熵模型等。
基于深度学习的文本领域分类:没有复杂的人工提取特征的过程,模型自动获取特征表达能力,端到端的解决问题。常用模型有:CNN(Convolutional Neural Network)、LSTM(Long Short Term Memory Network)等。
发明人在实现本申请的过程中发现,现有技术的上述方案至少存在以下缺陷:
基于规则匹配的文本领域分类:需耗费大量人力设计匹配规则,权重全靠人为经验确定,泛化性差;设计的规则不具有通用性,每个领域都要特殊定制规则。
基于特征工程的文本领域分类:需耗时耗力地人工提取特征,且常用的特征提取方法存在数据稀疏和维度爆炸等问题,一旦特征提取的不好,模型很难取得较好的性能,且不同任务特征不具有通用性,需根据不同的任务定制特征。
基于深度学习的文本领域分类:虽然该方法能自动提取文本的特征,但是现在工业界用的模型对于各个领域通用的说法以及领域表达能力不强的说法分类能力较差,这类说法增加了模型的困惑度,限制了模型性能的提升。
发明内容
本发明实施例提供一种文本分类模型训练和使用方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种文本分类模型训练方法,包括:定义基础领域、每个领域内的强说法和每个领域内的弱说法;根据基础领域、强说法和弱说法,对用户说法进行人工标注;采用双向长短时记忆网络对文本分类建立文本分类模型,其中,所述文本分类模型的输入包括每个词的词向量和词库特征向量的拼接,所述模型的输出是每个领域的强弱说法表示;提取用户说法中每个词的词向量和每个词的词库特征向量;将每个词的所述词向量和所述词库特征向量输入至所述文本分类模型并获取所述文本分类模型的输出;以及利用人工标注的用户说法作为所述输出的目标对所述模型进行训练和更新。
第二方面,本发明实施例提供一种文本分类模型使用方法,包括:接收并提取用户说法中每个词包含的词库信息并转换成词库特征向量,以及提取所述用户说法中每个词的词向量;将所述词向量和所述词库特征向量拼接后作为根据第一方面所述的方法训练后的模型的输入;以及接收所述模型的输出,其中,所述输出包括所述用户说法的对于每个领域的强弱说法的表示。
第三方面,本发明实施例提供一种文本分类模型训练装置,包括:定义模块,配置为定义基础领域、每个领域内的强说法和每个领域内的弱说法;人工标注模块,配置为根据基础领域、强说法和弱说法,对用户说法进行人工标注;建模模块,配置为采用双向长短时记忆网络对文本分类建立文本分类模型,其中,所述文本分类模型的输入包括每个词的词向量和词库特征向量的拼接,所述模型的输出是每个领域的强弱说法表示;提取模块,配置为提取用户说法中每个词的词向量和每个词的词库特征向量;输入输出模块,配置为将每个词的所述词向量和所述词库特征向量输入至所述文本分类模型并获取所述文本分类模型的输出;以及训练更新模块,配置为利用人工标注的用户说法作为所述输出的目标对所述模型进行训练和更新。
第四方面,本发明实施例提供一种文本分类模型使用装置,包括:接收提取模块,配置为接收并提取用户说法中每个词包含的词库信息并转换成词库特征向量,以及提取所述用户说法中每个词的词向量;拼接输入模块,配置为将所述词向量和所述词库特征向量拼接后作为根据第一方面所述的方法训练后的模型的输入;以及领域输出模块,配置为接收所述模型的输出,其中,所述输出包括所述用户说法的对于每个领域的强弱说法的表示。
第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的文本分类模型训练和使用方法的步骤。
第六方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的文本分类模型训练和使用方法的步骤。
本申请的方法和装置提供的方案通过训练和使用文本分类模型,先建立一个文本识别模型,采用词向量和词库特征向量作为输出,更好地表征用户说法的领域特征,之后利用人工标注的标准答案作为目标对模型进行训练,对模型的参数进行更新,使得模型最后能输出更加准确的领域分类结果。在进一步的实施例中,在对输出的对于每个领域的强弱说法的表示之后,再进行领域分类和Nbest输出,可以对用户说法进行更精准的领域分类,极大地提升用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种文本分类模型训练方法流程图;
图2为本发明一实施例提供的一种文本分类模型使用方法流程图;
图3为本发明一实施例提供的一种文本分类模型训练和使用方法的一个具体示例的系统流程图;
图4为本发明一实施例提供的一种文本分类模型训练和使用方法的一个具体示例的BLSTM网络结构图;
图5为本发明一实施例提供的一种文本分类模型训练装置的框图;
图6为本发明一实施例提供的一种文本分类模型使用装置的框图;
图7是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的文本分类模型训练方法一实施例的流程图,本实施例的文本分类模型训练方法可以适用于对文本分类模型进行训练。
如图1所示,在步骤101中,定义基础领域、每个领域内的强说法和每个领域内的弱说法;
在步骤102中,根据基础领域、强说法和弱说法,对用户说法进行人工标注;
在步骤103中,采用双向长短时记忆网络对文本分类建立文本分类模型;
在步骤104中,提取用户说法中每个词的词向量和每个词的词库特征向量;
在步骤105中,将每个词的词向量和词库特征向量输入至文本分类模型并获取文本分类模型的输出;
在步骤106中,利用人工标注的用户说法作为输出的目标对模型进行训练和更新。
在本实施例中,对于步骤101,文本分类模型训练装置首先定义基础领域,每个领域内的强说法和每个领域内的弱说法,其中,基础领域即划分出一个公共的领域(取名“基础”领域),该领域是所有领域公共说法的集合。每个领域的强说法是领域表达能力强的说法,唯一对应于该领域的说法,即明确指向某个领域的说法,例如“导航去国图”是“导航”领域的强说法。弱说法则是领域表达能力弱的说法,即单从句子表面意思很那判断出领域的说法。弱说法只能领域延续,不能领域跳转。例如“苏州”,由于“苏州”可以对应“导航去苏州”,也可以对应“查询苏州的天气”,所以不能判断是属于“导航”领域还是“天气”领域,因此该句属于导航领域和天气领域的弱说法。
之后,对于步骤102,根据基础领域、强说法和弱说法,对用户说法进行人工标注,因为领域和说法的强弱都是可以人为判断出来的,所以可以采用人工标注的方式得到一批训练测试数据。之后,对于步骤103,采用双向长短时记忆网络对文本分类建立文本分类模型,其中,文本分类模型的输入包括每个词的词向量和词库特征向量的拼接,模型的输出是每个领域的强弱说法表示,建模然后确定模型的输入输出,之后可以通过输入用户说法对应的词向量和词库特征向量的方式,经过模型之后输出每个领域的强弱说法表示。
之后,对于步骤104,提取用户说法中每个词的词向量和每个词的词库特征向量,从而通过提取用户说法中每个词的词向量和每个词的词库特征向量,可以更好地表征用户说法的领域信息,从而更易于输出更加准确的领域分类结果。然后,对于步骤105,分类模型训练装置将每个词的词向量和词库特征向量输入至文本分类模型并获取文本分类模型的输出,从而可以将数据处理之后作为模型的输入数据。最后,对于步骤106,分类模型训练装置利用人工标注的用户说法作为输出的目标对模型进行训练和更新。从而可以用人工标注的用户说法作为模型需要达到的目标或者标签对模型进行训练,更新模型的参数使得模型的输出更加接近人工标注。
本实施例的方法通过建立一个文本识别模型,采用词向量和词库特征向量作为输入,更好地表征用户说法的领域特征,之后利用人工标注的标准答案作为目标对模型进行训练,对模型的参数进行更新,使得模型最后能输出更加准确的领域分类结果。
在一些可选的实施例中,在每个领域的强弱说法表示中,0表示本领域的弱说法,-1表示不是本领域的说法,1表示本领域的强说法。
请参考图2,其示出了本申请文本分类模型使用方法一实施例的流程图,本实施例的文本分类模型训练方法可以适用于具备智能语音对话功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持智能语音对话的智能终端等。
如图2所示,在步骤201中,接收用户说法,提取用户说法中每个词包含的词库信息并转换成词库特征向量,以及提取用户说法中每个词的词向量;
在步骤202中,将词向量和词库特征向量拼接后作为根据上述实施例的方法训练后的模型的输入;
在步骤203中,接收模型的输出,其中,输出包括用户说法的对于每个领域的强弱说法的表示。
在本实施例中,对于步骤201,文本分类模型使用装置接收到用户说法之后,提取该用户说法中每个词的词向量以及每个词包含的词库信息的词库特征向量。之后,对于步骤202,文本分类模型使用装置将该词向量和词库特征向量拼接后输入至根据上一实施例的方法训练后的模型。之后,对于步骤203,文本分类模型使用装置接收模型输出的用户说法对于每个领域的强弱说法的表示。
在本实施例中,通过采用上一实施例训练好的模型对输入的与用户说法对应的词向量和词库特征向量进行处理。从而最后输出对于每个领域的强弱说法的表示。由于不仅有词向量还有词库特征向量,可以更好地表征领域分类结果。
在进一步的实施例中,得到了对于每个领域的强弱说法的表示之后,还要采用一些方法从中筛选出最终领域分类结果。
在一些可选的实施例中,0表示本领域的弱说法,-1表示不是本领域的说法,1表示本领域的强说法,其中,当模型判定所述用户说法为对应领域的强说法的概率大于等于预设阈值时,输出标签为1;当模型判定所述用户说法为对应领域的弱说法的概率大于等于预设阈值时,输出标签为0;当模型判断所述用户说法不是对应领域的说法的概率大于等于预设阈值时,输出标签为-1,上述方法还包括:若用户说法采集自首轮对话,选择领域输出为1的至少一个领域;将所述至少一个领域的模型判定的概率按照从大到小的顺序进行排序;输出排在前N位的概率对应的领域作为最终领域分类结果通过采用上述方式对首轮对话中的用户说法进行领域选择和Nbest输出,可以使得最终领域分类结果更加严谨,并且与用户说法实际所在的领域更加接近。
在进一步可选的实施例中,上述方法还包括:若用户说法采集自非首轮对话,获取领域输出标签为1或者0的至少一个领域;判断上一轮对话所在的领域是否属于至少一个领域;若属于,将上一轮对话所在的领域作为用户说法的最终领域分类结果;以及若不属于,输出至少一个领域中标签为1的领域作为最终领域分类结果。通过上述方法对非首轮对话中的用户说法进行领域选择,可以使得最终领域分类结果延续上一轮对话所在的领域或者属于强说法对应的领域,从而更加符合用户说法实际对应的领域。
进一步可选的,上述方法还包括:若不存在任意一个领域的输出大于等于预设阈值,输出null领域作为最终领域分类结果。从而对于领域无法确定的输出,输出null领域作为最终领域分类结果。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人对现有技术进行仔细研究后发现,现有技术方案的缺陷主要是由于以下原因导致的:
基于规则匹配的文本领域分类:耗时耗力,且泛化性差。
基于特征工程的文本领域分类:需人为有经验的设计特征,且特征有数据稀疏和维度爆炸等问题。
基于深度学习的文本领域分类:主要的原因是没有把领域知识加到模型中,可细分为以下三点:a.定义领域时未能考虑到相同的句子在不同上下文背景下领域是不一样的;如“第一个”,若上一轮对话属于“音乐”领域,则该说法属于“音乐”领域,若上一轮对话属于“地图”领域,则该说法应进“地图”领域;b.各个领域内没有区分强弱说法。强说法指领域表示能力强的说法。如:“音乐”领域内,用户说“播放歌曲忘情水”,该句明确表达了要听歌曲的意图,故它属于强说法,无论上一轮对话属于哪个领域,系统都要跳转到“音乐”领域进行对话。弱说法是领域表达能力弱的说法,如用户说“男女对唱”,单从句子表面意思不知道用户是要听男女对唱这类歌曲,那么该句则属于“音乐”领域的弱说法,弱说法只有在上一轮对话属于“音乐”领域时才能被分到“音乐”领域,若上一轮对话属于其他非音乐领域,则该句属于“null”(未定义的领域统称null);c.模型没有考虑到领域内专属词库对模型分类能力的贡献。由于领域内的词库内容直接影响着领域分类的结果,故把词库的特征加到模型中是非常有必要的。如:“音乐”领域的“歌曲名”词库。如果能提前告诉模型“忘情水”是一首歌的名字,那么对模型正确分类出“播放忘情水”属于“音乐”领域定有帮助。
本领域技术人员为了解决上述缺陷,可能会采用以下方案:
通常采用的方法有:a.设计更多的匹配规则;b.设计更为丰富、符合该任务的特征,但比较耗时耗力;c.人工收集并标注大量的数据;d.选择更为复杂的深度学习模型。
不容易想到本申请的方案的原因:a.将各个领域内相同的说法独立出来单独作为一个公共领域,这个公共领域是一个临时的、可变的领域,模型输出的领域结果并非最终的领域输出,需要加上领域选择的逻辑,把这个公共领域映射到其他领域,所以不容易想到。b.在每个领域设定强弱说法,一个领域的说法成千上万,要明确的区分出来并不容易,而本发明通过语义槽来定义强弱说法,简单明确。如:影视领域,用户的说法只包含“影视类型”这一个语义槽,则该类说法都为弱说法。c.基于深度学习的模型能自动提取文本的特征,人为加入额外词库特征不容易想到。
本申请的方案提出了一种文本分类模型训练和使用装置:
a.把各个领域通用的说法单独定义一个领域,取名“基础”领域,进入“基础”领域的句子,会根据上一轮对话所属的领域来选择最终的领域。比如:跟“序列号”相关的说法“第一个”、“第一季”、“第一集”等;跟“操作”相关的说法“打开”、“关闭”、“播放”;这些说法的组合,如“播放第一个”等。当上一轮对话属于“音乐”领域,则该说法保留在“音乐”,当上一轮对话属于“影视”,则该说法进入“影视”领域。
b.每个领域内定义强说法和弱说法,对于强说法的句子,不管上一轮对话属于什么领域,都会跳转到该领域;对于弱说法,上一轮对话只有在当前领域下,弱说法才会保留在当前领域,否则领域为“null”。如:“影视”领域内,“播放电影无间道”属于强说法,无论上一轮对话属于哪个领域,系统都要跳转到“影视”领域进行对话。例如“悬疑”属于“影视”领域的弱说法,若上一轮对话属于“影视”领域时则该句保留在“影视”领域,否则该句进“null”领域。
c.领域分类使用基于深度学习的分类方法,模型采用双向的LSTM。模型的输入加入词库特征信息,即该词属于哪个词库的用向量表示,模型输出是每个领域对应的强说法、弱说法、非本领域的说法的概率。
用户在人机对话的过程中往往会涉及到不同的领域,比如,“我要听周杰伦的歌曲”和“导航去苏州大学”是两个完全不同的领域,前者属于“音乐”领域、后者属于“地图”领域。给用户的每一个句子划定一个领域(即领域分类)是口语语义理解第一步,也是至关重要的一步。领域分类的结果直接影响着后续语义槽填充任务的正确与否,一旦领域分错,语义槽的填充必然出错。
然而,在不同的场景下,相同的句子其所属的领域却是不同的,很多时候只根据当前句子无法判断出领域,需要结合对话上下文才能给出确切的领域。例如,用户说“第一个”,此时如果上一轮对话属于“地图”领域,那么该句就应该进入“地图”领域。若上一轮对话属于“音乐”领域,则该句应该进入“音乐”领域。又如用户说“播放匆匆那年”,“匆匆那年”既是一首歌也是一个电影名字,单从这句话很难判断出用户的真正意图,如果上一轮对话在“音乐”,则用户的意图为播放歌曲的可能性更大;若当前对话场景是在影视领域,则用户的意图是播放电影的概率更大一些。如果当前是用户开启的首轮对话,那么“影视”和“音乐”的可能性都有,领域分类应该把这两个领域同时给出。
因此,领域分类的任务就是根据对话上下文的状态给当前用户说的句子划定出所有可能的领域。发明人发现,不同的领域存在很多相同说法,且在同一领域内,不同的句子所属领域的表达能力是不一样的,若不对说法有一个清晰的类别划分,会极大增加模型对这类句子分类的困惑度,领域分类很难达到满意的性能。如果有一个公共的领域,并且在领域内划分出强弱说法,这样就可以根据不同的上下文选择最终的领域,减少模型的困惑度,提高模型的性能。
系统实现过程如图3所示,各个步骤说明如下:
基础领域和强弱说法定义:划分出一个公共的领域(取名“基础”领域),该领域是所有领域公共说法的集合,进入该领域的句子,会根据上下文的状态选择最终的领域。每个领域内,划分出强说法和弱说法。强说法是领域表达能力强的说法,如“我要听刘德华的歌”是“音乐”领域的强说法。弱说法是领域表达能力弱的说法,即单从句子表面意思很那判断出领域的说法。弱说法只能领域延续,不能领域跳转。如:“悬疑”是“影视”领域的弱说法,上一轮对话状态如果是“影视”,则该句保留在“影视”领域。否则,该句进入“null”领域。
语料标注:根据领域和强弱说法的定义,对用户的说法标注领域。
特征提取:提取用户说法中所有词包含的词库信息并转换成向量的形式作为模型输入的一部分。把这些词库信息告诉模型会大大提升模型的分类能力。如“播放匆匆那年”,该句中“播放”属于“操作”这个词库,“匆匆那年”属于“歌曲名”和“电影名”两个词库。知道这些信息后,模型把该句分类成“音乐”和“影视”领域的概率就会提高。
模型训练:采用双向长短时记忆网络(BLSTM,bidirectional long-short termmemory network)进行建模。模型的输入是每个词的词向量和词库特征向量的拼接,模型的输出层是一个线性分类器,他把BLSTM的两端的隐层作为输入,输出是每个领域的强弱说法表示,其中“-1”表示不是本领域的说法,“0”表示是本领域的弱说法,“1”表示是本领域的强说法。具体过程见图4。
领域选择:模型给出领域及对应的强弱说法后,需根据上一轮对话所在的领域(dlg_domain)选择最终的领域。领域的选择使用举手的策略,模型给出的概率大于0.5表示领域举手成功。在首轮情况下,选择所有强说法举手的领域;若强说法都没有举手,领域为“null”。在非首轮的情况下,若dlg_domain在所有举手的领域中,则最终的领域保留在dlg_domain,否则选择其他所有强说法举手的领域;若没有强说法举手,则领域为null。
Nbest领域输出:根据领域选择的结果,按照概率的大小输出最终的Nbest领域分类结果
我们使用两个测试集对模型进行性能评估,分别是人工转写音频的正确文本和语音系统识别出的文本,正确文本共2万个句子,识别文本共6万个句子。我们的模型在两个测试集上的表现都优于规则匹配系统和基于特征工程的SVM系统。具体结果见表1。
测试集 | 规则系统 | SVM | 我们的系统 |
正确文本 | 80.19 | 85.56 | 89.09 |
识别文本 | 77.26 | 85.33 | 87.67 |
表1.性能比较
发明人在实现本申请的过程中还尝试过如下方案:
一个可行是beta版是不加词库特征,只用词向量作为模型的输入。该模型更为简单,但是难以捕捉词库对领域的贡献,故对于语法相近但是词库属于不同领域的说法、模型难以区分出正确的领域。
请参考图5,其示出了本发明一实施例提供的文本分类模型训练装置的框图。
如图5所示,一种文本分类模型训练装置500,包括定义模块510、人工标注模块520、建模模块530、提取模块540、输入输出模块550和训练更新模块560。
其中,定义模块510,配置为定义基础领域、每个领域内的强说法和每个领域内的弱说法;人工标注模块520,配置为根据基础领域、强说法和弱说法,对用户说法进行人工标注;建模模块530,配置为采用双向长短时记忆网络对文本分类建立文本分类模型,其中,所述文本分类模型的输入包括每个词的词向量和词库特征向量的拼接,所述模型的输出是每个领域的强弱说法表示;提取模块540,配置为提取用户说法中每个词的词向量和每个词的词库特征向量;输入输出模块550,配置为将每个词的所述词向量和所述词库特征向量输入至所述文本分类模型并获取所述文本分类模型的输出;以及训练更新模块560,配置为利用人工标注的用户说法作为所述输出的目标对所述模型进行训练和更新。
请参考图6,其示出了本发明一实施例提供的文本分类模型使用装置的框图。
如图6所示,一种文本分类模型使用装置600,包括接收提取模块610、拼接输入模块620和领域输出模块630。
接收提取模块610,配置为接收并提取用户说法中每个词包含的词库信息并转换成词库特征向量,以及提取所述用户说法中每个词的词向量;拼接输入模块620,配置为将所述词向量和所述词库特征向量拼接后作为根据权利要求1所述的方法训练后的模型的输入;以及领域输出模块630,配置为接收所述模型的输出,其中,所述输出包括所述用户说法的对于每个领域的强弱说法的表示。
应当理解,图5和图6中记载的诸模块与参考图1和图2中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图5和图6中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如训练获取模块可以描述为获取针对文本分类模型训练语音数据的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如训练获取模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本分类模型训练和使用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
定义基础领域、每个领域内的强说法和每个领域内的弱说法;
根据基础领域、强说法和弱说法,对用户说法进行人工标注;
采用双向长短时记忆网络对文本分类建立文本分类模型,其中,所述文本分类模型的输入包括每个词的词向量和词库特征向量的拼接,所述模型的输出是每个领域的强弱说法表示;
提取用户说法中每个词的词向量和每个词的词库特征向量;
将每个词的所述词向量和所述词库特征向量输入至所述文本分类模型并获取所述文本分类模型的输出;
利用人工标注的用户说法作为所述输出的目标对所述模型进行训练和更新。
作为另一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
接收并提取用户说法中每个词包含的词库信息并转换成词库特征向量,以及提取所述用户说法中每个词的词向量;
将所述词向量和所述词库特征向量拼接后作为根据上一实施例所述的方法训练后的模型的输入;
接收所述模型的输出,其中,所述输出包括所述用户说法的对于每个领域的强弱说法的表示。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本分类模型训练和使用装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至文本分类模型训练和使用装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项文本分类模型训练和使用方法。
图7是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。文本分类模型训练和使用方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例文本分类模型训练和使用方法。输入装置730可接收输入的数字或字符信息,以及产生与文本分类模型训练和使用装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于文本分类模型训练装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
定义基础领域、每个领域内的强说法和每个领域内的弱说法;
根据基础领域、强说法和弱说法,对用户说法进行人工标注;
采用双向长短时记忆网络对文本分类建立文本分类模型,其中,所述文本分类模型的输入包括每个词的词向量和词库特征向量的拼接,所述模型的输出是每个领域的强弱说法表示;
提取用户说法中每个词的词向量和每个词的词库特征向量;
将每个词的所述词向量和所述词库特征向量输入至所述文本分类模型并获取所述文本分类模型的输出;
利用人工标注的用户说法作为所述输出的目标对所述模型进行训练和更新。
作为另一种实施方式,上述电子设备应用于语音唤醒模型的使用装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
接收并提取用户说法中每个词包含的词库信息并转换成词库特征向量,以及提取所述用户说法中每个词的词向量;
将所述词向量和所述词库特征向量拼接后作为根据上一实施例所述的方法训练后的模型的输入;
接收所述模型的输出,其中,所述输出包括所述用户说法的对于每个领域的强弱说法的表示。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本分类模型训练方法,包括:
定义基础领域、每个领域内的强说法和每个领域内的弱说法;
根据基础领域、强说法和弱说法,对用户说法进行人工标注;
采用双向长短时记忆网络对文本分类建立文本分类模型,其中,所述文本分类模型的输入包括每个词的词向量和词库特征向量的拼接,所述模型的输出是每个领域的强弱说法表示;
提取用户说法中每个词的词向量和每个词的词库特征向量;
将每个词的所述词向量和所述词库特征向量输入至所述文本分类模型并获取所述文本分类模型的输出;
利用人工标注的用户说法作为所述输出的目标对所述模型进行训练和更新。
2.根据权利要求1所述的方法,其中,在所述每个领域的强弱说法表示中,0表示本领域的弱说法对应的标签,-1表示不是本领域的说法对应的标签,1表示本领域的强说法对应的标签,所述方法还包括:
当所述模型判定所述用户说法为对应领域的强说法的概率大于等于预设阈值时,输出标签为1;
当模型判定所述用户说法为对应领域的弱说法的概率大于等于预设阈值时,输出标签为0;
当模型判断所述用户说法不是对应领域的说法的概率大于等于预设阈值时,输出标签为-1。
3.一种文本分类模型使用方法,包括:
接收并提取用户说法中每个词包含的词库信息并转换成词库特征向量,以及提取所述用户说法中每个词的词向量;
将所述词向量和所述词库特征向量拼接后作为根据权利要求1或2中任一项所述的方法训练后的模型的输入;
接收所述模型的输出,其中,所述输出包括所述用户说法的对于每个领域的强弱说法的表示。
4.根据权利要求3所述的方法,其中,0表示本领域的弱说法对应的标签,-1表示不是本领域的说法对应的标签,1表示本领域的强说法对应的标签,所述方法还包括:
若所述用户说法采集自首轮对话,选择领域输出标签为1的至少一个领域;
将所述至少一个领域的模型判定的概率按照从大到小的顺序进行排序;
输出排在前N位的概率对应的领域作为最终领域分类结果。
5.根据权利要求4所述的方法,其中,所述方法还包括:
若所述用户说法采集自非首轮对话,获取领域输出标签为1或者0的至少一个领域;
判断上一轮对话所在的领域是否属于所述至少一个领域;
若属于,将所述上一轮对话所在的领域作为所述用户说法的最终领域分类结果;
若不属于,输出所述至少一个领域中标签为1的领域作为最终领域分类结果。
6.根据权利要求4或5所述的方法,其中,所述方法还包括:
若不存在任意一个领域输出标签为1时,输出null领域作为最终领域分类结果。
7.一种文本分类模型训练装置,包括:
定义模块,配置为定义基础领域、每个领域内的强说法和每个领域内的弱说法;
人工标注模块,配置为根据基础领域、强说法和弱说法,对用户说法进行人工标注;
建模模块,配置为采用双向长短时记忆网络对文本分类建立文本分类模型,其中,所述文本分类模型的输入包括每个词的词向量和词库特征向量的拼接,所述模型的输出是每个领域的强弱说法表示;
提取模块,配置为提取用户说法中每个词的词向量和每个词的词库特征向量;
输入输出模块,配置为将每个词的所述词向量和所述词库特征向量输入至所述文本分类模型并获取所述文本分类模型的输出;
训练更新模块,配置为利用人工标注的用户说法作为所述输出的目标对所述模型进行训练和更新。
8.一种文本分类模型使用装置,包括:
接收提取模块,配置为接收并提取用户说法中每个词包含的词库信息并转换成词库特征向量,以及提取所述用户说法中每个词的词向量;
拼接输入模块,配置为将所述词向量和所述词库特征向量拼接后作为根据权利要求1所述的方法训练后的模型的输入;
领域输出模块,配置为接收所述模型的输出,其中,所述输出包括所述用户说法的对于每个领域的强弱说法的表示。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864487.0A CN110597958B (zh) | 2019-09-12 | 2019-09-12 | 文本分类模型训练和使用方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864487.0A CN110597958B (zh) | 2019-09-12 | 2019-09-12 | 文本分类模型训练和使用方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110597958A true CN110597958A (zh) | 2019-12-20 |
CN110597958B CN110597958B (zh) | 2022-03-25 |
Family
ID=68859482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910864487.0A Active CN110597958B (zh) | 2019-09-12 | 2019-09-12 | 文本分类模型训练和使用方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110597958B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135603A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 意图识别方法、服务器及存储介质 |
WO2022089613A1 (zh) * | 2020-10-30 | 2022-05-05 | 第四范式(北京)技术有限公司 | 应用机器学习的文本分类方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN108388553A (zh) * | 2017-12-28 | 2018-08-10 | 广州索答信息科技有限公司 | 对话消除歧义的方法、电子设备及面向厨房的对话系统 |
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109190116A (zh) * | 2018-08-15 | 2019-01-11 | 苏州思必驰信息科技有限公司 | 语义解析方法、系统、电子设备及存储介质 |
CN109858034A (zh) * | 2019-02-25 | 2019-06-07 | 武汉大学 | 一种基于注意力模型和情感词典的文本情感分类方法 |
-
2019
- 2019-09-12 CN CN201910864487.0A patent/CN110597958B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN108388553A (zh) * | 2017-12-28 | 2018-08-10 | 广州索答信息科技有限公司 | 对话消除歧义的方法、电子设备及面向厨房的对话系统 |
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109190116A (zh) * | 2018-08-15 | 2019-01-11 | 苏州思必驰信息科技有限公司 | 语义解析方法、系统、电子设备及存储介质 |
CN109858034A (zh) * | 2019-02-25 | 2019-06-07 | 武汉大学 | 一种基于注意力模型和情感词典的文本情感分类方法 |
Non-Patent Citations (1)
Title |
---|
王莹: "基于深度学习的文本分类研究", 《中国优秀硕士学位论文全文数据库 信息技术辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135603A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 意图识别方法、服务器及存储介质 |
WO2022089613A1 (zh) * | 2020-10-30 | 2022-05-05 | 第四范式(北京)技术有限公司 | 应用机器学习的文本分类方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110597958B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509619B (zh) | 一种语音交互方法及设备 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN109036391A (zh) | 语音识别方法、装置及系统 | |
CN108428446A (zh) | 语音识别方法和装置 | |
CN110597958B (zh) | 文本分类模型训练和使用方法及装置 | |
CN108470188B (zh) | 基于图像分析的交互方法及电子设备 | |
JP2020004382A (ja) | 音声対話方法及び装置 | |
CN111081280B (zh) | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 | |
CN109976702A (zh) | 一种语音识别方法、装置及终端 | |
CN112487139A (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN109492126B (zh) | 一种智能交互方法及装置 | |
CN106970906A (zh) | 一种基于语句分段的语义分析方法 | |
CN110765270B (zh) | 用于口语交互的文本分类模型的训练方法及系统 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
CN111680129B (zh) | 语义理解系统的训练方法及系统 | |
CN114297372A (zh) | 个性化的笔记生成方法及系统 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN111681676A (zh) | 视频物体识别构建音频方法、系统、装置及可读存储介质 | |
CN112560431A (zh) | 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品 | |
CN110827802A (zh) | 语音识别训练和解码方法及装置 | |
CN111681680A (zh) | 视频识别物体获取音频方法、系统、装置及可读存储介质 | |
CN111489742A (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |