CN111143558B - 基于单个分层多任务模型的消息识别方法和系统 - Google Patents

基于单个分层多任务模型的消息识别方法和系统 Download PDF

Info

Publication number
CN111143558B
CN111143558B CN201911278041.6A CN201911278041A CN111143558B CN 111143558 B CN111143558 B CN 111143558B CN 201911278041 A CN201911278041 A CN 201911278041A CN 111143558 B CN111143558 B CN 111143558B
Authority
CN
China
Prior art keywords
message
user
probability
features
single hierarchical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911278041.6A
Other languages
English (en)
Other versions
CN111143558A (zh
Inventor
刘佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911278041.6A priority Critical patent/CN111143558B/zh
Publication of CN111143558A publication Critical patent/CN111143558A/zh
Application granted granted Critical
Publication of CN111143558B publication Critical patent/CN111143558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开涉及一种基于单个分层多任务模型的消息识别方法和系统。所述方法包括:接收来自用户的消息;使用单个分层多任务模型对所述消息进行识别以得到N个任务输出,其中所述N个任务输出之一是所述消息被分类成N‑1个类别中的每一类别的概率,所述N个任务输出中的其他N‑1个任务输出中的每一者分别是所述消息被分类成所述N‑1个类别中的相应一者下的特定子类的概率,从而所述N个任务输出包括所述消息属于哪一类别下子类的概率;将所述消息在第M类别中的概率乘以其在该类别下的特定子类的概率,以获得所述消息属于该子类的概率,其中0<M≤N‑1;以及基于所得到的概率来识别所述消息,其中所述消息被识别为属于具有最高概率的子类。

Description

基于单个分层多任务模型的消息识别方法和系统
技术领域
本发明涉及基于单个分层多任务模型的消息识别方法和系统。
背景技术
当今,IVR(即,Interactive Voice Response,互动式语音应答)系统普遍应用于各个领域和行业。在这一系统中,通常需要对用户的问题进行聚集,用一个适合对外展示的标题展示,可以用一个或多个答案解决用户问题。这一般需要将同一类的用户问题进行聚集,使得每个问题可以划分到一个具体的业务线(即,对应的标准问题)。
然而,现有系统存在各种缺陷,不能很好地将用户问题分类到合适的业务线。例如,在用户问题涉及训练语料较少的业务线的情况下,这一用户问题很容易被误分类到训练语料较多的相近业务线。
本公开正是针对但不限于上述缺陷作出的改进。
发明内容
根据本公开的一方面,提供了一种基于单个分层多任务模型的消息识别方法,包括:接收来自用户的消息;使用单个分层多任务模型对所述消息进行识别以得到N个任务输出,其中所述N个任务输出之一是所述消息被分类成N-1个类别中的每一类别的概率,所述N个任务输出中的其他N-1个任务输出中的每一者分别是所述消息被分类成所述N-1个类别中的相应一者下的特定子类的概率,从而所述N个任务输出包括所述消息属于哪一类别下子类的概率;将所述消息在第 M类别中的概率乘以其在该类别下的特定子类的概率,以获得所述消息属于该子类的概率,其中0<M≤N-1;以及基于所得到的概率来识别所述消息,其中所述消息被识别为属于具有最高概率的子类。
在一实施例中,对所述消息进行识别还包括:将所述消息转换成文本特征,所述文本特征包括字和/或词粒度的向量;将所述文本特征输入到所述单个分层多任务模型来通过CNN和第一LSTM网络进行识别。
在另一实施例中,所述方法还包括:接收与所述用户相关联的用户因子特征;以及使用所述单个分层多任务模型来通过DNN处理所述用户因子特征。
在又一实施例中,所述方法还包括:接收与所述用户相关联的行为轨迹特征、服务轨迹特征中的一者或两者;以及使用所述单个分层多任务模型来通过第二和/ 或第三LSTM网络处理所述行为轨迹特征和/或服务轨迹特征。
在又一实施例中,所述方法还包括:由所述单个分层多任务模型将针对所述文本特征、所述用户因子特征、所述行为轨迹特征和/或所述服务轨迹特征的处理结果进行归并,以得到所述N个任务输出。
在又一实施例中,所述归并包括:将针对所述文本特征、所述用户因子特征、所述行为轨迹特征和/或所述服务轨迹特征的处理结果进行嵌入操作;以及使经嵌入的各处理结果由所述N个任务共享来分别得出所述消息被分类成N-1个类别中的每一类别的概率以及所述消息被分类成所述N-1个类别中的相应一者下的特定子类的概率。
在又一实施例中,所述N-1个类别各自包括一个或多个子类且都包括用于表示所述消息不属于本类别的一个子类。
在又一实施例中,所述消息的识别结果被表示为一个标签向量,所述标签向量包括所述消息所属的类别以及该类别下的所属子类。
在又一实施例中,所述单个分层多任务模型是使用如下样本集来训练的:所述样本集中的每一样本只属于一个类别下的特定一个子类,并且每一样本具有对应于N个任务的N个标签,所述N个标签中的第一标签标识该样本所属的类别并且所述N个标签中的后续N-1个标签按预定类别次序来标识该样本所属类别下的子类。
根据本公开的第二方面,提供了一种基于单个分层多任务模型的消息识别系统,包括:用于接收来自用户的消息的输入组件;用于对所述消息进行识别的单个分层多任务模型;以及用于输出对所述消息的识别结果的输出组件,其中所述识别结果包括N个任务输出,其中所述N个任务输出之一包括所述消息被分类成 N-1个类别中的每一类别的概率,所述N个任务输出中的其他N-1个任务输出中的每一者分别包括所述消息被分类成所述N-1个类别中的相应一者下的特定子类的概率,其中所述消息属于第M类别中特定子类的概率是通过将所述消息在第M 类别中的概率乘以其在该类别下的特定子类概率来得到的,其中0<M≤N-1,并且所述消息被识别为属于概率最高的子类。
在一实施例中,所述单个分层多任务模型包括:用于处理所述消息的文本特征的CNN和第一LSTM网络,所述文本特征包括字和/或词粒度的向量。
在另一实施例中,所述输入组件还接收以下中的一者或多者:与所述用户相关联的用户因子特征以及与所述用户相关联的行为轨迹特征和/或服务轨迹特征;并且所述单个分层多任务模型还相应地包括以下中的一者或多者:用于处理所述用户相关联的用户因子特征的DNN、用于处理与所述用户相关联的行为轨迹特征的第二LSTM网络、以及用于处理与所提供的服务相关联的服务轨迹特征的第三 LSTM网络。
在又一实施例中,所述单个分层多任务模型还包括又一隐藏层,用于将针对所述文本特征、所述用户因子特征、所述行为轨迹特征和/或所述服务轨迹特征的处理结果进行归并以得到所述N个任务输出,以供所述输出组件输出。
在又一实施例中,所述归并包括:将针对所述文本特征、所述用户因子特征、所述行为轨迹特征和/或所述服务轨迹特征的处理结果进行嵌入操作;以及使经嵌入的各处理结果由所述N个任务共享来分别得出所述消息被分类成N-1个类别中的每一类别的概率以及所述消息被分类成所述N-1个类别中的相应一者下的特定子类的概率。
在又一实施例中,所述N-1个类别各自包括一个或多个子类且都包括用于表示所述消息不属于本类别的一个子类。
在又一实施例中,所述消息的识别结果被表示为一个标签向量,所述标签向量包括所述消息所属的类别以及该类别下的所属子类。
在又一实施例中,所述单个分层多任务模型是使用如下样本集来训练的:所述样本集中的每一样本只属于一个类别下的特定一个子类,并且每一样本具有对应于N个任务的N个标签,所述N个标签中的第一标签标识该样本所属的类别并且所述N个标签中的后续N-1个标签按预定类别次序来标识该样本所属类别下的子类。
根据本公开的第三方面,提供了一种基于单个分层多任务模型的消息识别系统,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据本公开的第一方面所述的方法。
各方面一般包括如基本上在本文参照附图所描述并且如通过附图所解说的方法、装备、系统、计算机程序产品和处理系统。
前述内容已较宽泛地勾勒出根据本公开的示例的特征和技术优势以使下面的详细描述可以被更好地理解。附加的特征和优势将在此后描述。所公开的概念和具体示例可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。此类等效构造并不背离所附权利要求书的范围。本文所公开的概念的特性在其组织和操作方法两方面以及相关联的优势将因结合附图来考虑以下描述而被更好地理解。每一附图是出于解说和描述目的来提供的,且并不定义对权利要求的限定。
附图说明
为了能详细理解本公开的以上陈述的特征所用的方式,可参照各方面来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中解说。然而应该注意,附图仅解说了本公开的某些典型方面,故不应被认为限定其范围,因为本描述可允许有其他等同有效的方面。不同附图中的相同附图标记可标识相同或相似的元素。
图1是现有的示例分层模型的示意图;
图2是根据本公开的各方面的示例基于单个分层多任务模型的消息识别系统的示意图;
图3是根据本公开的各方面的示例单个分层多任务模型的示意图;
图4是根据本公开的各方面的示例基于单个分层多任务模型的消息识别方法的流程图;
图5是根据本公开的各方面的另一示例基于单个分层多任务模型的消息识别系统的示意图。
具体实施方式
以下结合附图1-5阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。
术语解释:
标准问题:简称标问。指同一类的用户问题聚集,用一个适合对外展示的标题展示,可以用一个或多个答案解决用户问题。每个问题可以划分到一个具体的业务线。
在现有的消息识别系统中,其一般是通过混合网络做消息识别(例如,IVR 的消息识别)。其接收用户描述的文本以及用户因子状态和/或行为轨迹信息来通过混合网络的分类模型进行消息识别。经识别的消息被打上具体的标问标签(对于IVR系统而言,消息被分类到具体的标准问题)。
可以明白,上述现有消息分类模型使用的是一种较为扁平的分类,即一个分类任务直接输出一个消息被分类成所有标问的概率。这样,现有的分类方法没有考虑不同类别之间的关系,是完全互斥的,而是只考虑了样本的输入特征,但对标签(即,各个标问)的学习较少。
这样,现有的方法在各种类别语料分布不均时会导致问题。例如,有的类别语料较多,因而很容易被分中;而对于类别语料较少的类目,就不容易分中 (即,输入文本较不容易被分成此类目)。举例而言,在用户咨询订单退货的较多而保险业务咨询比较少的情况下,当用户说“退保”时,很容易被误分到“退货”这一标问。
另外,现有的分层模型一般是由多个模型组成,如图1所示,其示出了现有的示例分层模型100的示意图。
可以看到,现有的分层模型是通过先分类到某个大类或者某个业务,再调用该具体业务的模型进行识别。例如,如图1所示,对于涉及国际、安全、保险、理财、……、购物等业务的某公司的IVR系统而言,其首先通过业务分类层将来自用户的消息(例如,用户的语音消息)分类到不同的业务(即,层1 业务分类),例如国际、安全、保险、理财、……、购物,等等;随后使用相应业务的模型来识别该消息是该业务下的哪一类问题(即,层2,各业务线模型)。本领域技术人员可以明白,各个业务分类的数目是取决于分层模型100 所应用到的具体场景的,即取决于使用该分层模型的企业或私人用户所提供的服务(即,业务)的数目。
然而,这一分层结构虽然能够优化每个模型(例如,如“退保”就更容易先被分到“保险”大类,再调用保险模型再去识别保险的问题也更容易些),但这种分层任务也会存在一个问题。例如,每个具体业务的模型的训练语料都会变少,样本不足时模型训练容易过拟合。另外,还需要分别训练和维护多个模型,成本也比较高。
为此,本公开利用分层的思想,既考虑输入特征(例如,用户消息),也考虑标签(例如,消息所属类别)之间的关系,提出了一种基于单个分层多任务模型的消息识别方法和系统,它基于多任务学习的方式来作单模型的分层学习和分类。本公开对标准问题库中的标问按业务进行分类打标,即每个标问都有个类别并且通过单个多任务模型来学习分类,从而通过将多个任务整合在一起来在单个模型内部进行分层。
下面结合图2-4来描述本公开的系统和方法的各示例实施例。
如图2所示,其示出了根据本公开的各方面的基于单个分层多任务模型的消息识别系统200的示意图。如图所示,系统200可包括输入组件201、单个分层多任务模型203以及输出组件205。
结合图2,输入组件201可以接收来自用户的消息。例如,如图2所示,来自用户的消息可以是语音消息或任何其他合适的文本消息。在一实施例中,这一消息被转换成文本特征,例如图2所示的文本特征向量(W1,W2,……, Wn,其中n是大于等于1的整数),这一文本特征包括字和/或词粒度的向量。
这一文本特征可以被送给单个分层多任务模型203以供进行分类和识别。在一优选实施例中,单个分层多任务模型203可包括用于处理表示用户消息的文本特征的CNN(,即卷积神经网络)和第一LSTM(即,长短期记忆)网络。在该实施例中,结合图2,单个分层多任务模型203可在CNN隐藏层对文本特征进行卷积和池化来作出分类识别,并且也在LSTM隐藏层对这一文本特征作出分类识别。本领域技术人员可以明白,可以采取任何其他合适的神经网络或分类技术来处理这一文本特征,例如DNN(深神经网络)、RNN(循环神经网络) 等等。
在一实施例中,输入组件201还接收以下中的一者或多者:与用户相关联的用户因子特征以及与用户相关联的行为轨迹特征和/或服务轨迹特征。在一示例中,用户因子特征可包括用户的各个属性,诸如用户的身份、用户的性别、用户的等级,等等。同样,用户的行为轨迹特征可包括与用户相关联的行为历史等等。本领域技术人员可以明白,用户行为轨迹分析是本领域的一种数据分析方法,它主要根据每位用户在应用或网站中的行为日志,来分析用户在应用或网站中各个模块的流转规律与特点,挖掘用户的访问或点击模式,进而实现一些特定的业务用途。相应地,服务轨迹特征可包括系统200所提供的服务的轨迹。例如,如果系统200被用于电信企业的业务咨询,则服务轨迹可包括电话业务、网络业务、终端机业务等用户咨询的服务轨迹。
继续以上实施例,在输入组件201还接收与用户相关联的用户因子特征以及与用户相关联的行为轨迹特征和/或服务轨迹特征中的一者或多者的情况下,单个分层多任务模型203还相应地包括以下中的一者或多者:用于处理用户因子特征的DNN、用于处理与用户相关联的行为轨迹特征的第二LSTM网络、以及用于处理与所提供的服务相关联的服务轨迹特征的第三LSTM网络。结合图2,单个分层多任务模型203可在DNN隐藏层对用户因子特征(在图2中表示为向量(F1, F2,……,Fm),其中m是大于等于1的整数)进行分类识别,可在第二LSTM 隐藏层对用户行为轨迹特征(在图2中表示为向量(B_1,B_2,……,B_p),其中p是大于等于1的整数)作出分类识别,并且还可在第三LSTM隐藏层对服务轨迹特征(在图2中表示为向量(S_1,S_2,……,S_q),其中q是大于等于 1的整数)作出分类识别。本领域技术人员可以明白,可以采取任何其他合适的神经网络或分类技术来处理这一文本特征,例如DNN(深神经网络)、RNN(循环神经网络)等等。
在又一实施例中,单个分层多任务模型203还包括又一隐藏层(例如,CNN、 DNN、RNN,等等),用于将针对文本特征、用户因子特征、行为轨迹特征和/或服务轨迹特征的处理结果进行归并以得到多个任务输出,以供输出组件205输出。
如图2所示,输出结果包括第一层的业务分类和第二层的N个对应业务下的子类,在此,N是系统200所提供的服务中包括的业务的数目。参考图2,业务分类结果包括该用户消息被分类成N个业务中的每一业务的概率,例如图 2中的BUS_A表示该用户消息被分类成业务A的概率,以此类推。而对于每一业务而言,输出结果还包括了该用户消息被分类成这N个业务中相应一者下的特定标问的概率。例如,结合图2,对于业务A而言,LABEL_A1表示该用户消息被分类成业务A下的第一标问的概率,LABEL_A2表示该用户消息被分类成业务A下的第二标问的概率,以此类推。
在一实施例中,用户消息属于第M类别中特定子类的概率是通过将消息在第 M类别中的概率乘以其在该类别下的特定子类概率来得到的,其中0<M≤N-1。例如,结合图2,用户消息属于业务A下的第一标问的概率可被计算为BUS_A乘以 LABEL_A1,以此类推。
在该实施例中,用户消息被识别为属于概率最高的子类。结合图2,具有最高概率的那一个标问即是用户消息所属的标问。
如可从图2看到的,在又一实施例中,对于每一业务,输出结果都可被表示为一个向量,且该向量可包括一个表示用户消息不属于本业务的一个元素,例如,如图2中的“Other”所示。如此,输出结果一次性地输出了多个任务的结果,从而既结合分层的思想,又输出具体的业务分类和相应业务下具体的标问。
举例而言,在系统200所提供的服务具有N个业务的情况下(其中N大于等于1),则单个分层多任务模型203就具有N+1个任务。其中,N个任务分别对应 N个业务自身的分类识别,还有1个任务可以看作是最上层的业务分类,这一业务分类会有N个结果(分别对应于业务1-N)。而在N个具体业务的任务中,每一业务下标问的数量是可变的,且每个任务都新增了Other类别(即,表示为输出向量中的一个元素),用以表示此用户消息不属于本业务。
本领域技术人员可以明白,在现有的单个分类模型的情况下,一个样本只具有对应于标问Id的一个标签(比如表示为stdid)。而通过本公开的上述系统结构,输出结果可具有N+1个标签,分别对应N+1个任务。一个标问只会属于一个业务,分层任务指定标问的业务类别,其它非该业务的任务标签标可被设为“Other”。例如,对于输出结果(安全otherstdid other other other)而言,它具有6个标签,对应6个任务。第一个标签『安全』可以表示它的业务为『安全』,后面5个标签定义的顺序是预定次序的各个业务,例如可以是(国际、安全、保险、理财、购物)。由此可以看到,在非安全任务下,输出结果的标签都为“other”,在对应的安全任务下,标签为具体的标问stdid。
在又一实施例中,单个分层多任务模型203是使用如以上描述的输出结果那样的样本集来训练的。在该实施例中,样本集中的每一样本只属于一个类别下的特定一个子类,并且每一样本具有对应于N个任务的N个标签,所述N个标签中的第一标签标识该样本所属的类别并且所述N个标签中的后续N-1个标签按预定类别次序来标识该样本所属类别下的子类。
本领域技术人员可以明白,为方便起见,图2中的输入组件被示为还接收与所述用户相关联的用户因子特征以及与所述用户相关联的行为轨迹特征和/或服务轨迹特征。然而,可以明白,本公开的各实施例可以在缺少以上各项中的一者或全部的情况下实施。
另外,可以注意到,图2中使用了不同的标号n,m,p,q来分别表示文本特征向量、用户因子特征向量、行为轨迹特征向量和服务轨迹特征向量中的元素的数目,但本领域技术人员可以明白,这些向量中的元素的数目可以是任何合适的相同或不同数目。
在又一实施例中,作为图2的单个分层多任务模型的替换,现结合如下示例场景来描绘本公开的单个分层多任务模型:某公司采用使用了本公开的单个分层多任务模型的IVR系统来为用户提供多个业务的咨询和导航,诸如保险、安全、理财、国际,等等。用户问题被总结成共计若干(例如,5000)个标准问题,即来自用户的消息可被分类成这些若干标准问题之一。在这一示例场景下,图3示出了根据本公开的各方面的示例基于单个分层多任务模型300的示意图。
本领域技术人员可以明白,图3中的混合网络310对应于图2中的对文本特征、用户因子特征、行为轨迹特征和/或服务轨迹特征等进行处理的CNN、DNN、 LSTM等各个隐藏层,而图3中的模型的其余部分对应于图2中的用于将针对文本特征、用户因子特征、行为轨迹特征和/或服务轨迹特征的处理结果进行归并以得到多个任务输出的又一隐藏层。
结合图3,可以看到,来自混合网络310的处理结果首先经受嵌入(Embedding) 处理,随后经嵌入的结果由N个任务共享,其中N-1是该公司提供的业务的数目。在图3中,任务1被指定为确定用户消息属于各个业务的相应概率,例如,P(保险线)表示该消息属于保险业务的概率,P(国际线)表示该消息属于国际业务的概率,等等。其他N-1个任务分别对应于该公司所提供的N-1个业务中的相应一个业务,用于确定该消息属于该业务下的各具体标问的概率。例如,在图3中,任务2对应于保险业务,其产生该消息属于保险业务下的问题1、问题2……的相应概率;任务N对应于国际业务,其产生该消息属于国际业务下的问题5001、问题5002……的相应概率;以此类推。还可以看到,任务2-N中的每一者所产生的概率中均包括用以表示该用户消息不属于该业务的“other”类别。
本领域技术人员可以明白,用户消息属于诸业务的相应概率的总和可被归一化为1(例如,P(保险线)+…+P(国际线)=1),例如采用softmax函数等等。
可以看到,在一优选实施例中,图3中采用了乘法运算将用户消息属于各个业务的相应概率以及该业务下的相应标问的概率作了计算,并最终形成该用户消息属于各标问的概率。从而,在图3的模型中,可以产生用户消息属于诸标问的概率,并且具有最高概率的标问可被标识为用户消息所属的标问。如此,作为正样本的补充,图3的模型还可以采用负样本来进行训练。
下面参考图4,其解说了根据本公开的各方面的示例基于单个分层多任务模型的消息识别方法400的流程图。该方法400可以由根据本公开的各实施例的基于单个分层多任务模型的消息识别系统(例如,图2的系统200)来执行。
如图4所示,方法400可包括在框405接收来自用户的消息。例如,在IVR 系统的示例中,用户可以拨打电话来说出消息(例如上文示例中的“退保”,等等)。在该示例中,图2的系统200的输入组件201可以接收来自用户的这一消息。
随后,在框410,方法400可包括使用单个分层多任务模型对所述消息进行识别以得到N个任务输出,其中N是大于等于1的整数。在一实施例中,所述N 个任务输出之一是所述消息被分类成N-1个类别中的每一类别的概率,所述N个任务输出中的其他N-1个任务输出中的每一者分别是所述消息被分类成所述N-1 个类别中的相应一者下的特定子类的概率,从而所述N个任务输出包括所述消息属于哪一类别下子类的概率。例如,结合图2,与业务分类相关的输出结果包括用户消息被分类成N个业务中的每一业务的概率,例如图2中的BUS_A表示该用户消息被分类成业务A的概率,以此类推。而对于每一业务而言,输出结果还包括了该用户消息被分类成这N个业务中相应一者下的特定标问的概率。例如,结合图2,对于业务A而言,LABEL_A1表示该用户消息被分类成业务A下的第一标问的概率,LABEL_A2表示该用户消息被分类成业务A下的第二标问的概率,以此类推。
在一实施例中,所述N-1个类别各自都包括用于表示所述消息不属于本类别的一个子类。例如,结合图2,其输出向量中的“Other”元素表示该消息不属于此业务的概率。
接着,在框415,方法400可包括将所述消息在第M类别中的概率乘以其在该类别下的特定子类的概率,以获得所述消息属于该子类的概率,其中0<M≤N-1,并且在框420,方法400可包括基于所得到的概率来识别所述消息,其中所述消息被识别为属于具有最高概率的子类。例如,结合图2,用户消息属于业务A下的第一标问的概率可被计算为BUS_A乘以LABEL_A1,以此类推。在该实施例中,用户消息被识别为属于概率最高的子类。结合图2,具有最高概率的那一个标问即是用户消息所属的标问。
在一实施例中,在框410对所述消息进行识别还可包括将所述消息转换成文本特征,所述文本特征包括字和/或词粒度的向量,以及将所述文本特征输入到所述单个分层多任务模型来通过CNN和第一LSTM网络进行识别。例如,结合图2,来自用户的消息被转换成文本特征,例如图2所示的文本特征向量(W1, W2,……,Wn,其中n是大于等于1的整数),这一文本特征包括字和/或词粒度的向量。这一文本特征随后可以被送给单个分层多任务模型203所包括的用于处理表示用户消息的文本特征的CNN和第一LSTM网络。
在另一实施例中,方法400还可任选地包括接收与所述用户相关联的用户因子特征,并可使用所述单个分层多任务模型来通过DNN处理所述用户因子特征。在又一实施例中,方法400还可任选地包括接收与所述用户相关联的行为轨迹特征、服务轨迹特征中的一者或两者,并使用所述单个分层多任务模型来通过第二和/或第三LSTM网络处理所述行为轨迹特征和/或服务轨迹特征。例如,结合图2,用户因子特征可包括用户的身份、用户的等级,等等。同样,用户的行为轨迹特征可包括与用户相关联的行为历史等等。相应地,服务轨迹特征可包括系统200所提供的服务的轨迹。例如,如果系统200被用于电信企业的业务咨询,则服务轨迹可包括电话业务、网络业务、终端机业务等的轨迹。继续参考图2,单个分层多任务模型203可在DNN隐藏层对用户因子特征(在图2中表示为向量(F1,F2,……, Fm),其中m是大于等于1的整数)进行分类识别,可在第二LSTM隐藏层对用户行为轨迹特征(在图2中表示为向量(B_1,B_2,……,B_p),其中p是大于等于1的整数)作出分类识别,并且还可在第三LSTM隐藏层对服务轨迹特征(在图2中表示为向量(S_1,S_2,……,S_q),其中q是大于等于1的整数) 作出分类识别。
在这一实施例中,方法400还可包括由所述单个分层多任务模型将针对所述文本特征、所述用户因子特征、所述行为轨迹特征和/或所述服务轨迹特征的处理结果进行归并,以得到所述N个任务输出。例如,如图2所示,单个分层多任务模型203将来自CNN、第一LSTM网络、DNN、第二LSTM网络以及第三LSTM 网络的结果归并在一起以得到相应的识别结果。
在又一实施例中,所述消息的识别结果可被表示为一个标签向量,所述标签向量包括所述消息所属的类别以及该类别下的所属子类。例如,输出结果可以是(安全otherstdid other other other),第一个标签『安全』可以表示它的业务为『安全』,后面5个标签定义的顺序是预定次序的各个业务,例如可以是(国际、安全、保险、理财、购物)。由此可以看到,在非安全任务下,输出结果的标签都为“other”,在对应的安全任务下,标签为具体的标问stdid。
在一替换实施例中,所述单个分层多任务模型是使用如下样本集来训练的:所述样本集中的每一样本只属于一个类别下的特定一个子类,并且每一样本具有对应于N个任务的N个标签,所述N个标签中的第一标签标识该样本所属的类别并且所述N个标签中的后续N-1个标签按预定类别次序来标识该样本所属类别下的子类。结合以上示例,输出结果可被作为用于训练单个分层多任务模型的样本。
如此,本公开的方法和系统比不使用分层的识别准确率更高,且比使用现有的多个模型分层的识别准确率更高。
图5是解说根据本公开的各方面的另一示例基于单个分层多任务模型的消息识别系统500的示意图。
如图所示,系统500包括处理器505和存储器510。存储器510存储有计算机可执行指令515,这些指令可由处理器505执行来实现以上结合图2-4描述的方法。
本领域技术人员可以明白,尽管本公开结合IVR系统描述了各个具体实施例,但本公开的方法和系统也可适用于需要对用户需求进行分类的各种其他合适的场景。
以上具体实施方式包括对附图的引用,附图形成具体实施方式的部分。附图通过说明来示出可实践的特定实施例。这些实施例在本文中也称为“示例”。此类示例可以包括除所示或所述的那些元件以外的元件。然而,还构想了包括所示或所述元件的示例。此外,还构想出的是使用所示或所述的那些元件的任何组合或排列的示例,或参照本文中示出或描述的特定示例(或其一个或多个方面),或参照本文中示出或描述的其他示例(或其一个或多个方面)。
在所附权利要求书中,术语“包括”和“包含”是开放式的,也就是说,在权利要求中除此类术语之后列举的那些元件之外的元件的系统、设备、制品或过程仍被视为落在那项权利要求的范围内。此外,在所附权利要求书中,术语“第一”、“第二”和“第三”等仅被用作标记,并且不旨在表明对它们的对象的数字顺序。
另外,本说明书中所解说的各操作的次序是示例性的。在替换实施例中,各操作可以按与附图所示的不同次序执行,且各操作可以合并成单个操作或拆分成更多操作。
以上描述旨在是说明性的,而非限制性的。例如,可结合其他实施例来使用以上描述的示例(或者其一个或多个方面)。可诸如由本领域普通技术人员在审阅以上描述之后来使用其他实施例。摘要允许读者快速地确定本技术公开的性质。提交该摘要,并且理解该摘要将不用于解释或限制权利要求的范围或含义。此外,在以上具体实施方式中,各种特征可以共同成组以使本公开流畅。然而,权利要求可以不陈述本文中公开的每一特征,因为实施例可以表征所述特征的子集。此外,实施例可以包括比特定示例中公开的特征更少的特征。因此,所附权利要求书由此被结合到具体实施方式中,一项权利要求作为单独的实施例而独立存在。本文中公开的实施例的范围应当参照所附权利要求书以及此类权利要求所赋予权利的等价方案的完整范围来确定。

Claims (16)

1.一种基于单个分层多任务模型的消息识别方法,包括:
接收来自用户的消息;
使用单个分层多任务模型对所述消息进行识别以得到N个任务输出,其中所述N个任务输出之一是所述消息被分类成N-1个类别中的每一类别的概率,所述N个任务输出中的其他N-1个任务输出中的每一者分别是所述消息被分类成所述N-1个类别中的相应一者下的特定子类的概率,从而所述N个任务输出包括所述消息属于哪一类别下子类的概率;
将所述消息在第M类别中的概率乘以其在该类别下的特定子类的概率,以获得所述消息属于该子类的概率,其中0<M≤N-1;以及
基于所得到的概率来识别所述消息,其中所述消息被识别为属于具有最高概率的子类;
所述使用单个分层多任务模型对所述消息进行识别以得到N个任务输出包括:
将所述消息转换成文本特征,所述文本特征包括字和/或词粒度的向量,将所述文本特征输入到所述单个分层多任务模型来进行识别;
接收与所述用户相关联的用户因子特征,以及使用所述单个分层多任务模型来处理所述用户因子特征做出分类识别;
接收与所述用户相关联的行为轨迹特征、服务轨迹特征中的一者或两者,以及使用所述单个分层多任务模型来处理所述行为轨迹特征和/或服务轨迹特征做出分类识别;
由所述单个分层多任务模型将针对所述文本特征、所述用户因子特征、所述行为轨迹特征和/或所述服务轨迹特征的处理结果进行归并,以得到所述N个任务输出。
2.如权利要求1所述的方法,其特征在于,所述将所述文本特征输入到所述单个分层多任务模型来进行识别包括:
将所述文本特征输入到所述单个分层多任务模型来通过CNN和第一LSTM网络进行识别。
3.如权利要求1所述的方法,其特征在于,所述使用所述单个分层多任务模型来处理所述用户因子特征包括:
使用所述单个分层多任务模型来通过DNN处理所述用户因子特征。
4.如权利要求1所述的方法,其特征在于,所述使用所述单个分层多任务模型来处理所述行为轨迹特征和/或服务轨迹特征包括:
使用所述单个分层多任务模型来通过第二和/或第三LSTM网络处理所述行为轨迹特征和/或服务轨迹特征。
5.如权利要求1所述的方法,其特征在于,所述归并包括:
将针对所述文本特征、所述用户因子特征、所述行为轨迹特征和/或所述服务轨迹特征的处理结果进行嵌入操作;
使经嵌入的各处理结果由所述N个任务共享来分别得出所述消息被分类成N-1个类别中的每一类别的概率以及所述消息被分类成所述N-1个类别中的相应一者下的特定子类的概率。
6.如权利要求1所述的方法,其特征在于,所述N-1个类别各自包括一个或多个子类且都包括用于表示所述消息不属于本类别的一个子类。
7.如权利要求1所述的方法,其特征在于,所述消息的识别结果被表示为一个标签向量,所述标签向量包括所述消息所属的类别以及该类别下的所属子类。
8.如权利要求1所述的方法,其特征在于,所述单个分层多任务模型是使用如下样本集来训练的:
所述样本集中的每一样本只属于一个类别下的特定一个子类,并且每一样本具有对应于N个任务的N个标签,所述N个标签中的第一标签标识该样本所属的类别并且所述N个标签中的后续N-1个标签按预定类别次序来标识该样本所属类别下的子类。
9.一种基于单个分层多任务模型的消息识别系统,包括:
用于接收来自用户的消息的输入组件;
用于对所述消息进行识别的单个分层多任务模型;以及
用于输出对所述消息的识别结果的输出组件,其中所述识别结果包括N个任务输出,其中所述N个任务输出之一包括所述消息被分类成N-1个类别中的每一类别的概率,所述N个任务输出中的其他N-1个任务输出中的每一者分别包括所述消息被分类成所述N-1个类别中的相应一者下的特定子类的概率,
其中所述消息属于第M类别中特定子类的概率是通过将所述消息在第M类别中的概率乘以其在该类别下的特定子类概率来得到的,其中0<M≤N-1,并且所述消息被识别为属于概率最高的子类;
所述单个分层多任务模型用于处理所述消息的文本特征,所述文本特征包括字和/或词粒度的向量;
所述输入组件还接收:与所述用户相关联的用户因子特征以及与所述用户相关联的行为轨迹特征和/或服务轨迹特征;所述单个分层多任务模型还用于处理所述用户相关联的用户因子特征;所述单个分层多任务模型还用于处理与所述用户相关联的行为轨迹特征和\或服务轨迹特征;
所述单个分层多任务模型还包括又一隐藏层,用于将针对所述文本特征、所述用户因子特征、所述行为轨迹特征和/或所述服务轨迹特征的处理结果进行归并以得到所述N个任务输出,以供所述输出组件输出。
10.如权利要求9所述的系统,其特征在于,所述单个分层多任务模型包括:
用于处理所述消息的文本特征的CNN和第一LSTM网络。
11.如权利要求9所述的系统,其特征在于,所述单个分层多任务模型还包括用于处理所述用户相关联的用户因子特征的DNN;所述单个分层多任务模型还包括用于处理与所述用户相关联的行为轨迹特征的第二LSTM网络和\或用于处理与所提供的服务相关联的服务轨迹特征的第三LSTM网络。
12.如权利要求9所述的系统,其特征在于,所述归并包括:
将针对所述文本特征、所述用户因子特征、所述行为轨迹特征和/或所述服务轨迹特征的处理结果进行嵌入操作;以及
使经嵌入的各处理结果由所述N个任务共享来分别得出所述消息被分类成N-1个类别中的每一类别的概率以及所述消息被分类成所述N-1个类别中的相应一者下的特定子类的概率。
13.如权利要求9所述的系统,其特征在于,所述N-1个类别各自包括一个或多个子类且都包括用于表示所述消息不属于本类别的一个子类。
14.如权利要求9所述的系统,其特征在于,所述消息的识别结果被表示为一个标签向量,所述标签向量包括所述消息所属的类别以及该类别下的所属子类。
15.如权利要求9所述的系统,其特征在于,所述单个分层多任务模型是使用如下样本集来训练的:
所述样本集中的每一样本只属于一个类别下的特定一个子类,并且每一样本具有对应于N个任务的N个标签,所述N个标签中的第一标签标识该样本所属的类别并且所述N个标签中的后续N-1个标签按预定类别次序来标识该样本所属类别下的子类。
16.一种基于单个分层多任务模型的消息识别系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-8中的任一项所述的方法。
CN201911278041.6A 2019-12-12 2019-12-12 基于单个分层多任务模型的消息识别方法和系统 Active CN111143558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911278041.6A CN111143558B (zh) 2019-12-12 2019-12-12 基于单个分层多任务模型的消息识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911278041.6A CN111143558B (zh) 2019-12-12 2019-12-12 基于单个分层多任务模型的消息识别方法和系统

Publications (2)

Publication Number Publication Date
CN111143558A CN111143558A (zh) 2020-05-12
CN111143558B true CN111143558B (zh) 2023-05-30

Family

ID=70518190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911278041.6A Active CN111143558B (zh) 2019-12-12 2019-12-12 基于单个分层多任务模型的消息识别方法和系统

Country Status (1)

Country Link
CN (1) CN111143558B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881968B (zh) * 2020-07-22 2024-04-09 平安科技(深圳)有限公司 多任务分类方法、装置及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071193A (zh) * 2016-11-28 2017-08-18 阿里巴巴集团控股有限公司 互动应答系统接入用户的方法和装置
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法
CN110196711A (zh) * 2019-04-10 2019-09-03 杭州实在智能科技有限公司 基于人工智能的插件式工单辅助决策方法及其系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140250032A1 (en) * 2013-03-01 2014-09-04 Xerox Corporation Methods, systems and processor-readable media for simultaneous sentiment analysis and topic classification with multiple labels
WO2017161233A1 (en) * 2016-03-17 2017-09-21 Sri International Deep multi-task representation learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071193A (zh) * 2016-11-28 2017-08-18 阿里巴巴集团控股有限公司 互动应答系统接入用户的方法和装置
CN109885671A (zh) * 2019-02-28 2019-06-14 重庆邮电大学 基于多任务学习的问答方法
CN110196711A (zh) * 2019-04-10 2019-09-03 杭州实在智能科技有限公司 基于人工智能的插件式工单辅助决策方法及其系统

Also Published As

Publication number Publication date
CN111143558A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
US11676067B2 (en) System and method for creating data to train a conversational bot
US9575936B2 (en) Word cloud display
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN107301229B (zh) 基于语义分析的反馈指派方法及系统
US20140279774A1 (en) Classifying Resources Using a Deep Network
CN112732911A (zh) 基于语义识别的话术推荐方法、装置、设备及存储介质
CN109740620A (zh) 人群画像分类模型的建立方法、装置、设备和存储介质
US11042710B2 (en) User-friendly explanation production using generative adversarial networks
CN111428504B (zh) 一种事件抽取方法和装置
KR20190072823A (ko) Rnn 문장임베딩과 elm 알고리즘을 이용한 은행업무 관련 고객상담을 위한 도메인 특화 화행분류 방법
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN110598869A (zh) 基于序列模型的分类方法、装置、电子设备
CN111179055A (zh) 授信额度调整方法、装置和电子设备
CN115935182A (zh) 模型训练方法、多轮对话中的话题分割方法、介质及装置
CN112235470A (zh) 基于语音识别的来电客户跟进方法、装置及设备
CN111143558B (zh) 基于单个分层多任务模型的消息识别方法和系统
CN113627194A (zh) 信息抽取方法及装置、通信消息分类方法及装置
CN112667790A (zh) 智能问答方法、装置、设备及存储介质
US11626108B2 (en) Machine learning system for customer utterance intent prediction
CN112133308B (zh) 一种用于语音识别文本多标签分类的方法和装置
US20210241297A1 (en) Artificial Intelligence Sales Technology Stack Prospecting
US20240177172A1 (en) System And Method of Using Generative AI for Customer Support
CN113256180B (zh) 一种基于机器学习的客服工单信息智能动态加载方法和系统
US20240062219A1 (en) Granular taxonomy for customer support augmented with ai

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant