CN111159378B - 对问题描述信息进行分类的方法及装置 - Google Patents
对问题描述信息进行分类的方法及装置 Download PDFInfo
- Publication number
- CN111159378B CN111159378B CN201911396839.0A CN201911396839A CN111159378B CN 111159378 B CN111159378 B CN 111159378B CN 201911396839 A CN201911396839 A CN 201911396839A CN 111159378 B CN111159378 B CN 111159378B
- Authority
- CN
- China
- Prior art keywords
- description information
- vector
- sequence
- user
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例中提供了一种对问题描述信息进行分类的方法及装置,方法包括:首先对用户提供的问题描述信息进行分词处理以得到词序列,并通过BERT模型分析该词序列以得到编码向量序列,其中,该编码向量序列中的各个编码向量与该词序列中的各个词一一对应;接着通过第一深度神经网络分析该编码向量序列以得到第一特征向量。同时,还可以获取用于指示该用户的账户状态的至少两项账户状态描述信息,并对至少两项账户状态描述信息进行特征提取以得到第二特征向量。之后,即可根据第一特征向量和第二特征向量确定问题描述信息对应的分类类别。
Description
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及对问题描述信息进行分类的方法及装置。
背景技术
通过智能客服机器人与用户进行智能问答或者为用户指定人工客服的过程中,往往会针对用户提供的问题描述信息,执行相应的分类处理过程以确定该问题描述信息对应的分类类别。
通常的,分类类别可以是预先设置的标准问题,也可以是某个人工客服技能组的标识,以便向用户提供该标准问题对应的标准答案,或者为用户指定属于该标识所指示的人工客服技能组中的人工客服,使得指定的人工客服与用户进行进一步的对话,从而解决用户存在的问题。
因此,希望有一种新的技术方案,以期能够更为准确的确定用户提供的问题描述信息对应的分类类别。
发明内容
本说明书一个或多个实施例中提供了一种对问题描述信息进行分类的方法及装置,能够更为准确的确定用户提供的问题描述信息对应的分类类别。
第一方面,提供了一种对对问题描述信息进行分类的方法,该方法包括:
对用户提供的问题描述信息进行分词处理,得到词序列;
通过BERT模型分析所述词序列,得到编码向量序列,所述编码向量序列中的各个编码向量与所述词序列中的各个词一一对应;
通过第一DNN分析所述编码向量序列,得到第一特征向量;
获取用于指示所述用户的账户状态的至少两项账户状态描述信息,并对所述至少两项账户状态描述信息进行特征提取,得到第二特征向量;
至少根据所述第一特征向量和所述第二特征向量,确定所述问题描述信息对应的分类类别。
在一种可能的实施方式中,所述分类类别包括标准问题或人工客服技能组的标识。
在一种可能的实施方式中,所述至少两项账户状态描述信息包括:账户是否被锁定、借款额度、是否存在逾期还款中的至少两项。
在一种可能的实施方式中,所述问题描述信息包括所述用户向智能客服机器人提供的用户问句。
在一种可能的实施方式中,所述问题描述信息包括所述用户与智能客服机器人进行多轮对话的过程中,向所述智能客服机器人提供的用户问句以及与所述用户问句相关的应答信息。
在一种可能的实施方式中,所述对所述至少两项账户状态描述信息进行特征提取,得到第二特征向量,包括:
针对各项所述账户状态描述信息中属于离散型的第一账户状态描述信息,对所述第一账户状态描述信息进行独热编码,得到所述第一账户状态描述信息对应的第一编码;
针对各项所述账户状态描述信息中属于连续型的第二账户状态描述信息,对所述第二账户状态描述信息进行归一化处理,并根据归一化处理的结果得到第二编码;
形成由各项所述账户状态描述信息对应的第一编码或第二编码组成的编码序列;
通过第二DNN分析所述编码序列,得到第二特征向量。
在一种可能的实施方式中,所述方法还包括:
获取用于指示所述用户的行为轨迹的历史行为描述信息序列,并对所述历史行为描述信息序列中的各项历史行为描述信息进行特征提取,得到第三特征向量;
所述至少根据所述第一特征向量和所述第二特征向量,确定所述问题描述信息对应的分类类别,包括:根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述问题描述信息对应的分类类别。
在一种可能的实施方式中,所述根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述问题描述信息对应的分类类别,包括:
拼接所述第一特征向量、所述第二特征向量和所述第三特征向量,得到综合向量;
通过分类器分析所述综合向量,得到所述问题描述信息对应的分类类别。
在一种可能的实施方式中,各项所述历史行为描述信息中的任意一项历史行为描述信息,指示了所述用户点击的服务、查询的信息、收到的提示以及求助的类型中的任意一项。
在一种可能的实施方式中,所述对所述历史行为描述信息序列中的各项历史行为描述信息进行特征提取,得到第三特征向量,包括:
确定所述历史行为描述信息序列中的各项历史行为描述信息分别对应的表示向量,并利用各个所述表示向量组成表示向量序列;
通过预置的特征提取模型分析所述表示向量序列,得到第三特征向量。
在一种可能的实施方式中,所述特征提取模型包括循环神经网络(RNN,recurrentneural network)、长短期记忆网络(LSTM,long short-term memory)或门控循环单元(GRU,gated recurrent unit)。
第二方面,提供了一种对问题描述信息进行分类的装置,所述装置包括:
分词处理单元,用于对用户提供的问题描述信息进行分词处理,得到词序列;
第一调用单元,用于通过BERT模型分析所述词序列,得到编码向量序列,所述编码向量序列中的各个编码向量与所述词序列中的各个词一一对应;
第二调用单元,用于通过第一DNN分析所述编码向量序列,得到第一特征向量;
第一特征提取单元,用于获取用于指示所述用户的账户状态的至少两项账户状态描述信息,并对所述至少两项账户状态描述信息进行特征提取,得到第二特征向量;
分类处理单元,用于至少根据所述第一特征向量和所述第二特征向量,确定所述问题描述信息对应的分类类别。
在一种可能的实施方式中,所述分类类别包括标准问题或人工客服技能组的标识。
在一种可能的实施方式中,所述至少两项账户状态描述信息包括:账户是否被锁定、借款额度、是否存在逾期还款中的至少两项。
在一种可能的实施方式中,所述问题描述信息包括所述用户向智能客服机器人提供的用户问句。
在一种可能的实施方式中,所述问题描述信息包括所述用户与智能客服机器人进行多轮对话的过程中,向所述智能客服机器人提供的用户问句以及与所述用户问句相关的应答信息。
在一种可能的实施方式中,所述第一特征提取单元,具体用于:
针对各项所述账户状态描述信息中属于离散型的第一账户状态描述信息,对所述第一账户状态描述信息进行独热编码,得到所述第一账户状态描述信息对应的第一编码;
针对各项所述账户状态描述信息中属于连续型的第二账户状态描述信息,对所述第二账户状态描述信息进行归一化处理,并根据归一化处理的结果得到第二编码;
形成由各项所述账户状态描述信息对应的第一编码或第二编码组成的编码序列;
通过第二DNN分析所述编码序列,得到第二特征向量。
在一种可能的实施方式中,所述装置还包括:
第二特征提取单元,用于获取用于指示所述用户的行为轨迹的历史行为描述信息序列,并对所述历史行为描述信息序列中的各项历史行为描述信息进行特征提取,得到第三特征向量;
所述分类处理单元,具体用于根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述问题描述信息对应的分类类别。
在一种可能的实施方式中,所述分类处理单元,具体用于:
拼接所述第一特征向量、所述第二特征向量和所述第三特征向量,得到综合向量;
通过分类器分析所述综合向量,得到所述问题描述信息对应的分类类别。
在一种可能的实施方式中,各项所述历史行为描述信息中的任意一项历史行为描述信息,指示了所述用户点击的服务、查询的信息、收到的提示以及求助的类型中的任意一项。
在一种可能的实施方式中,所述第二特征提取单元,具体用于:
确定所述历史行为描述信息序列中的各项历史行为描述信息分别对应的表示向量,并利用各个所述表示向量组成表示向量序列;
通过预置的特征提取模型分析所述表示向量序列,得到第三特征向量。
在一种可能的实施方式中,所述特征提取模型包括RNN、LSTM或GRU。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算设备中执行时,计算设备执行如第一方面中任一项所述的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如第一方面中任一项所述的方法。
通过本说明书一个或多个实施例中提供的方法及装置,首先通过BERT模型和DNN相结合的方式,对用户提供的问题描述信息进行综合分析,得到的第一特征向量能够更为准确的表达用户的真实意图;之后,进一步对该第一特征向量和能够用于表达用户的账户状态的第二特征向量进行综合分析,即可更为准确的确定出用户提供的问题描述信息所对应的分类类别。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书实施例适用的一种业务场景的示意图;
图2为本说明书实施例中提供的一种对问题描述信息进行分类的方法的流程示意图;
图3为针对示例性的问题描述信息进行分类的过程示意图;
图4为本说明书实施例中提供的一种对问题描述信息进行分类的装置的结构示意图。
具体实施方式
随着企业/组织不断完善并扩展其业务范围,其发布的单个应用程序所能够为用户提供的各项功能/服务也趋于多样化。比如,支付宝APP提供了余额宝、花呗、借呗、口碑、保险、生活缴费、蚂蚁信用、蚂蚁庄园等等一系列的功能/服务。相应的,用户在使用应用程序的过程中,存在并提出的问题也趋于多样化。
为了更好的服务于用户,解决用户存在并提出的各种问题,如图1所示,企业/组织通常会将人工客服划分为多个能够各自解决某一类问题的技能组,和/或制定若干标准问题以及与各个标准问题相对应的标准答案。然后再通过一个智能客服机器人和用户进行对话,得到用户提供的问题描述信息。其中,用户提供的问题描述信息,可以包括用户与智能客服机器人进行对话的过程中向智能客服机器人提供的用户问句;或者,用户提供的问题描述信息可以包括用户与智能客服机器人进行多轮对话的过程中,向智能客服机器人提供的用户问句以及与该用户问句相关的各个应答信息。
具体而言,智能客服机器人接收用户提供的用户问句,并基于该用户问句进行一个或多个轮次的“向该用户提供询问消息、接收该用户根据该询问消息提供的应答消息”的过程,通常被称为智能客服机器人与用户进行多轮对话的过程。
在实际业务场景中,用户提供的问题描述信息通常会因为过于口语化而无法直接表达用户的真实意图。因此,需要通过相应的算法模型对用户提供的问题描述信息进行分类处理,得到问题描述信息所对应的分类类别。其中,该分类类别可以是能够更为直观的表达用户的真实意图的标准问题,也可以是有助于解决用户可能存在的问题的人工客服技能组的标识。
本申请实施例中,当问题描述信息对应的分类类别是标准问题时,还可以进一步向用户提供该标准问题对应的标准答案,解决用户存在的问题。
本申请实施例中,当问题描述信息对应的分类类别是人工客服技能组的标识时,还可以进一步为用户指定属于该标识所指示的人工客服技能组中的人工客服,以便指定的人工客服与用户进行进一步的对话以解决用户存在的问题。需要说明的是,基于用户提供的问题描述信息,为该用户指定人工客服的过程,通常也被称为“派单”过程。
在一种方案中,可以采用深度神经网络DNN来分析用户提供的问题描述信息。DNN是一种泛化能力很强的算法模型,可以用于对问题描述信息进行分类。
为了更加具有针对性地分析用户提供的问题描述信息,进一步提高分类准确性,本说明书实施例中至少提供了一种对问题描述信息进行分类的方法及装置,首先通过BERT模型和DNN相结合的方式,对用户提供的问题描述信息进行综合分析,得到的第一特征向量能够更为准确的表达用户的真实意图;之后,进一步对该第一特征向量和能够用于表达用户的账户状态的第二特征向量进行综合分析,即可更为准确的确定出用户提供的问题描述信息所对应的分类类别。
下面结合附图,对本说明书所提供的各个非限制性实施例进行详细描述。
图2示出了本说明书实施例中提供的一种对问题描述信息进行分类的方法的流程图。该方法的执行主体可以为计算设备,该计算设备中可以部署本说明书任意一个实施例中提供的对问题描述信息进行分类的装置,该计算设备包括但不限于服务器或一般计算机。
如图2所示,对问题描述信息进行分类的方法至少可以包括如下步骤21~步骤29:步骤21,对用户提供的问题描述信息进行分词处理,得到词序列;步骤23,通过BERT模型分析所述词序列,得到编码向量序列,所述编码向量序列中的各个编码向量与所述词序列中的各个词一一对应;步骤25,通过第一DNN分析所述编码向量序列,得到第一特征向量;步骤27,获取用于指示所述用户的账户状态的至少两项账户状态描述信息,并对所述至少两项账户状态描述信息进行特征提取,得到第二特征向量;步骤29,至少根据所述第一特征向量和所述第二特征向量,确定所述问题描述信息对应的分类类别。
首先,在步骤21,计算设备可以对用户提供的问题描述信息进行分词处理以得到词序列。
具体地,可以通过调用各种现有的分词工具,或者基于包含有大量样本词的词库,对问题描述信息进行分词处理以得到相应的词序列,这里不再针对如何实现对问题描述信息进行分词处理进行赘述。
对于问题描述信息,如前所述,在一种可能的实施方式中,用户向智能客服机器人提供的用户问句可以被确定为该用户提供的问题描述信息。
在另一种可能的实施方式中,可以根据用户向智能客服机器人提供用户问句以及与该用户问句相关的各个应答消息的先后顺序,依次排列用户问句以及与该用户问句相关的各个应答消息,得到该用户提供的问题描述信息。
示例性的,某个应用程序的用户与智能客服机器人进行对话的过程中,用户可以首先向智能客服机器人发送一个用户问句X。然后,智能客服机器人为了更加清楚的了解用户的真实意图,可能在接收到该用户问句之后,基于该用户问句X向用户提供相应的询问消息,使得用户根据该询问消息向智能客服机器人提供与该用户问句相关的应答消息Y。其中,由X、Y依次排列形成的文本,可以被智能客服机器人作为该用户提供的问题描述信息,并将该问题描述信息提供给本说说明书任意一个实施例中提供的对问题描述信息进行分类的装置;或者,X和Y可以由智能客服机器人提供给本说明书任意一个实施例中提供的对问题描述信息进行分类的装置,由该装置对X、Y进行排列以形成该用户提供的问题描述信息。
接着,在步骤23,计算设备可以通过BERT模型分析所述词序列,得到编码向量序列,所述编码向量序列中的各个编码向量与所述词序列中的各个词一一对应。
具体地,请参考图3,BERT模型至少可以包含一个向量转化层以及一个或多个Transformer编码器层,各个Transformer编码器层可以分别包含一定数量的Transformer编码器(Trm)。
首先,在应用BERT模型分析词序列时,词序列可以被输入到BERT模型的向量转化层,其中,词序列前还可以插入用于表征整个词序列并且指示该词序列的起始位置的特殊符,该特殊符可以是随机数或者预先设置的参数。比如,通过BERT模型分析词序列(A1、…、Am、…、An)时,可以将包含特殊符CLS的词序列(CLS、A1、…、Am、…、An)输入到向量转化层。
然后,在BERT模型的向量转化层,可以对包含特殊符和词序列中的各个词进行词嵌入,得到特殊符和各个词分别对应的嵌入向量;将包含特殊符的词序列划分为一个或多个子序列,并为不同的子序列分别分配不同的特征向量;以及,根据特殊符和词序列中的各个词在包含该特殊符的词序列中的位置,得到特殊符和词序列中的各个词分别对应的位置向量。之后,对于特殊符和词序列中的各个词,即可针对其各自对应的嵌入向量、位置向量以及特征向量进行求和,得到特殊符和词序列中的各个词分别对应的输入向量,并形成与包含特殊符的词序列对应的输入向量序列。
举例来说,问题描述信息中包含用户问句X和应答信息Y,词序列(A1、…、Am)是对用户问句X进行分词处理所得到的,词序列(Am+1、…、An)是对应答信息Y进行分词处理所得到;那么,即可将包含特殊符的词序列(CLS、A1、…、Am、…、An),划分为第一子序列(CLS、A1、…、Am)和第二子序列(Am+1、…、An),然后为第一子序列分配特征向量EX,并为第二子序列分配特征向量EY。其中,EX不同于EY,且EX和EY至少可以根据其各自对应的子序列在包含特殊符的词序列(CLS、A1、…、Am、…、An)中的位置进行确定。
如此,在BERT模型的向量转化层,得到的输入向量序列中的各个输入向量,不仅可以表达该输入向量对应的词自身,还考虑了该输入向量对应的词在问题描述信息中的位置以及该词所属的句子在问题描述信息中的位置对该词的影响,从而能够更好的表达该问题描述信息中与该输入向量相对应的词。
可以理解,输入向量序列可以被向量转化层输入到BERT模型的位于底层的Transformer编码器层。
相应的,在位于底层的Transformer编码器层,可以对输入向量序列所包含的各个输入向量进行编码处理,得到由各个输入向量分别对应的编码向量所组成的编码向量序列。其中,对于与词序列中的各个词对应的各个输入向量而言,Transformer编码器在针对该输入向量进行编码处理的过程中,关注了问题描述信息中与该输入向量相对应的词的上下文内容,得到的编码向量能够更好的表达问题描述信息中与该输入向量相对应的词期望表达的语义;相应的,对于特殊符对应的输入向量,通常能够较好的表达整个问题描述信息的语义。
需要说明的是,在BERT模型包含多个Transformer编码器层的情况下,位于底层的Transformer编码器层中得到的编码向量序列,可以作为与其连接的下一个Transformer编码器层的输入向量序列并输入与其连接的下一个Transformer编码器层。
相应的,对于BERT模型的位于顶层的Transformer编码器层,其得到的编码向量序列,在去除该编码向量序列中位于首位且与特殊符相对应的编码向量之后,剩余的由词序列中的各个词分别对应的编码向量所组成的编码向量序列,即可用于在后续各个步骤中对其进行进一步的分析处理。
也就是说,如果输入向量转化层的包含特殊符的词序列为(CLS、A1、…、Am、…、An),向量转化层中得到的输入向量序列为(ECLS、E1、…、Em、…、En),该BERT模型的位于顶层的Transformer编码器层中得到并输出的编码向量序列为(TCLS、T1、…、Tm、…、Tn),则最终用于后续各个步骤中进行进一步分析的编码向量序列为(T1、…、Tm、…、Tn)。
之后,在步骤25,计算设备可以通过第一DNN分析所述编码向量序列,得到第一特征向量。
本说明书实施例中,并不将BERT模型得到并输出的与特殊符相对应的编码向量,作为对问题描述信息进行分类的依据,而是进一步利用DNN来分析由词序列中的各个词所分别对应编码向量组成的编码向量序列。通过BERT模型和DNN相结合的方式,对用户提供的问题描述信息进行综合分析,得到的第一特征向量能够更为准确的表达问题描述信息,即得到的第一特征向量能够更为准确的表达用户的真实意图。
进一步的,在步骤27,计算设备还可以获取用于指示所述用户的账户状态的至少两项账户状态描述信息,并对所述至少两项账户状态描述信息进行特征提取,得到第二特征向量。
本说明书实施例中,至少两项账户状态描述信息包括但不限于账户是否被锁定、借款额度、是否存在逾期还款中的至少两项,比如还可以包括逾期还款金额。可以理解,对于不同的应用程序,各自需要获取的账户状态描述信息可能有所不同。
其中,对于一项账户状态描述信息,可能通过离散型参数或者连续型参数来表示该账户状态描述信息;也就是说,各项账户状态描述信息的参数类型可能被划分为离散型和连续型两种类型。比如,对于账户是否被锁定,可以通过预置的两个离散型参数来分别表示该用户的账户已经被锁定、该用户的账户未被锁定,账户是否被锁定的参数类型则可以被划分为离散型。又如,对于借款额度,其参数类型则会被划分为连续型。
相应的,在一种可能的实施方式中,可以在获取到用于指示用户的账户状态的至少两项账户状态描述信息之后,针对各项账户状态描述信息中属于离散型的第一账户状态描述信息,对该第一账户状态描述信息进行独热编码,得到该第一账户状态描述信息对应的第一编码;以及,针对各项账户状态描述信息中属于连续型的第二账户状态描述信息,对该第二账户状态描述信息进行归一化处理,并根据归一化处理的结果得到第二编码;之后,即可形成由各项账户状态描述信息对应的第一编码或第二编码所组成的编码序列;并通过第二DNN分析该编码序列,得到第二特征向量。
在一个更为具体的示例中,对第二账户状态描述信息进行归一化处理之后,可以根据归一化处理的结果,确定与该结果相对应的特征值,然后基于预置的编码规则对该特征值进行编码处理,得到该第二账户状态描述信息对应的第二编码。
需要说明的是,各项账户状态描述信息分别对应的第一编码或第二编码,本质上是相互独立的多个因子,利用各项账户状态描述信息对应的第一编码或第二编码组成编码序列,有利于第二DNN根据编码序列中的各个编码在该编码序列中的位置,得知该编码序列中的各个编码所表达的用户状态描述信息的类型。实际上,也可以根据各项账户状态描述信息分别对应的第一编码或第二编码在编码序列中的位置,将各项账户状态描述信息分别对应的第一编码或第二编码依次输入第二DNN。
最后,在步骤29,计算设备还可以至少根据所述第一特征向量和所述第二特征向量,确定所述问题描述信息对应的分类类别。
在一种可能的实施方式中,可以拼接该第一特征向量和第二特征向量以得到一个综合向量,由分类器对该综合向量进行分析处理,得到该问题描述信息对应的分类类别。
在另一种可能的实施方式中,可以对该第一特征向量和第二特征向量进行求和以得到一个综合向量,由分类器对该特征向量进行分析处理,得到该问题描述信息对应的分类类别。
总而言之,本说明书实施例可以通过如图2所示的各个步骤,实现通过BERT模型和DNN相结合的方式,对用户提供的问题描述信息进行综合分析,得到的第一特征向量能够更为准确的表达用户的真实意图;然后进一步对该第一特征向量和能够用于表达用户的账户状态的第二特征向量进行综合分析,即可更为准确的确定出用户提供的问题描述信息所对应的分类类别。
进一步的,对于一个应用程序的用户,该用户提供问题描述信息之前,与该应用程序相关且存在时序的若干项行为,可能在一定程度上反应该用户提供的问题描述信息所期望表达的真实意图。因此,为了更为准确的确定用户提供的问题描述信息对应的分类类别,在如图2所示实施例的基础上,如图3所示,在一种可能的实施方式中,计算设备还可以进一步获取用于指示所述用户的行为轨迹的历史行为描述信息序列,并对所述历史行为描述信息序列中的各项历史行为描述信息进行特征提取,得到第三特征向量。相应的,计算设备可以根据如图2所示实施例中得到的第一特征向量、第二特征向量以及该第三特征向量,确定用户提供的问题描述信息对应的分类类别。
在一个更为具体的示例中,可以拼接第一特征向量、第二特征向量和第三特征向量,得到综合向量,然后通过分类器分析该综合向量,得到用户提供的问题描述信息所对应的分类类别。
在另一个更为具体的示例中,可以对第一特征向量、第二特征向量和第三特征向量进行求和以得到一个综合向量,然后通过分类器分析该综合向量,得到用户提供的问题描述信息所对应的分类类别。
本说明书实施例中,各项历史行为描述信息中的任意一项历史行为描述信息,包括但不限于指示了用户点击的服务、查询的信息、收到的提示以及求助的类型中的任意一项。可以理解,对于不同的应用程序,历史行为描述信息可以指示的行为类型可能有所不同。
通常的,可以通过日志方式或者其它方式,记录用户相对于该应用程序各项行为。比如,用户在时刻t1点击了支付宝APP提供的服务“生活缴费”,即可针对用户的该行为生成一条行为记录,该行为记录包含行为描述信息和前述行为的发生时刻t1;在一个示例中,该行为描述信息可以包含用户在t1时刻相对于支付宝APP发生的行为所对应的行为类型“点击服务”,以及包含该行为的实施对象“生活缴费”,如此,包含行为类型“点击服务”和实施对象“生活缴费”的行为描述信息,即可指示用户在t1时刻点击的服务是“生活缴费”。又如,用户在t2时刻通过支付宝APP接收到一条通知消息“X日为您本月的花呗还款提醒日,请及时还款”,即可针对用户的该行为生成一条行为记录,该行为记录包括行为描述信息和前述行为的发生时刻t2;在一个示例中,该行为描述信息可以包含用户在t2时刻相对于支付宝APP发生的行为所对应的行为类型“接收提示”以及该行为的实施对象“X日为您本月的花呗还款提醒日,请及时还款”,如此,包含行为类型“接收提示”和实施对象“X日为您本月的花呗还款提醒日,请及时还款”的行为描述信息,即可指示用户在t2时刻接收的提示信息为“X日为您本月的花呗还款提醒日,请及时还款”。
相应的,如果用户t3时刻向智能客服机器人提供一个“用户问句”,则可以从与该用户相关的各条行为记录中获取到t3时刻之前最新记录的若干条历史行为记录,从这些历史行为记录中分别提取相应的行为描述信息以作为历史行为描述信息,并根据这些历史行为记录中各自包含的发生时刻,顺序排列各个历史行为描述信息以形成历史行为描述信息序列。
相应的,在一个示例中,在获取到历史行为描述信息序列之后,可以首先确定历史行为描述信息序列中的各项历史行为描述信息分别对应的表示向量,并利用各个表示向量组成与历史行为描述信息序列相对应的表示向量序列;然后通过预置的特征提取模型分析表示向量序列以得到第三特征向量。
本说明书实施例中,特征提取模型包括但不限于RNN、LSTM或GRU。RNN、LSTM以及GRU均能够较好的处理存在时序的序列数据,通过RNN、LSTM或者GRU处理历史行为描述信息序列时,得到的第三特征向量能够较好的表达该用户的行为轨迹。
可以理解,实施本说明书任意一个实施例中提供的方法时,可能需要预先训练用于分析问题描述信息所对应的词序列的BERT模型、用于分析编码向量序列的深度神经网络、用于分析各项账户状态描述信息分别对应的编码的深度神经网络、用于分析历史行为描述信息序列所对应的表示向量序列的特征提取模型以及分类器。对于前述的各个算法模型,这些算法模型中存在一部分算法模型可能需要各自独立的进行训练,当然,也可以对这些算法模型进行联合训练,这里不再对这些算法模型的训练过程进行赘述。
基于与前述各个方法实施例相同的构思,如图4所示,本说明书实施例中还提供了一种对问题描述信息进行分类的装置,该装置可以部署在计算设备中,该装置至少可以包括:
分词处理单元41,用于对用户提供的问题描述信息进行分词处理,得到词序列;
第一调用单元43,用于通过BERT模型分析所述词序列,得到编码向量序列,所述编码向量序列中的各个编码向量与所述词序列中的各个词一一对应;
第二调用单元45,用于通过第一DNN分析所述编码向量序列,得到第一特征向量;
第一特征提取单元47,用于获取用于指示所述用户的账户状态的至少两项账户状态描述信息,并对所述至少两项账户状态描述信息进行特征提取,得到第二特征向量;
分类处理单元49,用于至少根据所述第一特征向量和所述第二特征向量,确定所述问题描述信息对应的分类类别。
在一种可能的实施方式中,所述分类类别包括标准问题或人工客服技能组的标识。
在一种可能的实施方式中,所述至少两项账户状态描述信息包括:账户是否被锁定、借款额度、是否存在逾期还款中的至少两项。
在一种可能的实施方式中,所述问题描述信息包括所述用户向智能客服机器人提供的用户问句。
在一种可能的实施方式中,所述问题描述信息包括所述用户与智能客服机器人进行多轮对话的过程中,向所述智能客服机器人提供的用户问句以及与所述用户问句相关的应答信息。
在一种可能的实施方式中,所述第一特征提取单元47,具体用于:针对各项所述账户状态描述信息中属于离散型的第一账户状态描述信息,对所述第一账户状态描述信息进行独热编码,得到所述第一账户状态描述信息对应的第一编码;针对各项所述账户状态描述信息中属于连续型的第二账户状态描述信息,对所述第二账户状态描述信息进行归一化处理,并根据归一化处理的结果得到第二编码;形成由各项所述账户状态描述信息对应的第一编码或第二编码组成的编码序列;通过第二DNN分析所述编码序列,得到第二特征向量。
在一种可能的实施方式中,所述装置还包括:第二特征提取单元,用于获取用于指示所述用户的行为轨迹的历史行为描述信息序列,并对所述历史行为描述信息序列中的各项历史行为描述信息进行特征提取,得到第三特征向量;所述分类处理单元49,具体用于根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述问题描述信息对应的分类类别。
在一种可能的实施方式中,所述分类处理单元49,具体用于:拼接所述第一特征向量、所述第二特征向量和所述第三特征向量,得到综合向量;通过分类器分析所述综合向量,得到所述问题描述信息对应的分类类别。
在一种可能的实施方式中,各项所述历史行为描述信息中的任意一项历史行为描述信息,指示了所述用户点击的服务、查询的信息、收到的提示以及求助的类型中的任意一项。
在一种可能的实施方式中,所述第二特征提取单元,具体用于:确定所述历史行为描述信息序列中的各项历史行为描述信息分别对应的表示向量,并利用各个所述表示向量组成表示向量序列;通过预置的特征提取模型分析所述表示向量序列,得到第三特征向量。
在一种可能的实施方式中,所述特征提取模型包括RNN、LSTM或GRU。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能所对应的计算机程序存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令/代码进行传输,以便这些功能所对应的计算机程序被计算机执行时,通过计算机实现本发明任意一个实施例中所述的方法。
相应的,本说明书实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算设备中执行时,计算设备执行本说明书任意一个实施例中提供的对问题描述信息进行分类的方法。
本说明书实施例中还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书任意一个实施例中提供的对问题描述信息进行分类的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例中相同、相似的部分互相参见即可,每个实施例中重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (22)
1.一种对问题描述信息进行分类的方法,所述方法包括:
对用户提供的问题描述信息进行分词处理,得到词序列;
通过BERT模型分析所述词序列,得到编码向量序列;以及,去除所述编码向量序列中位于首位且与特殊符相对应的编码向量,使得所述编码向量序列中剩余的各个编码向量与所述词序列中的各个词一一对应;
通过第一深度神经网络DNN分析去除位于首位且与特殊符相对应的编码向量后的所述编码向量序列,得到第一特征向量;
获取用于指示所述用户的账户状态的至少两项账户状态描述信息,并对所述至少两项账户状态描述信息进行特征提取,得到第二特征向量;
至少根据所述第一特征向量和所述第二特征向量,确定所述问题描述信息对应的分类类别。
2.根据权利要求1所述的方法,其中,所述分类类别包括标准问题或人工客服技能组的标识。
3.根据权利要求1所述的方法,其中,所述至少两项账户状态描述信息包括:账户是否被锁定、借款额度、是否存在逾期还款中的至少两项。
4.根据权利要求1所述的方法,其中,
所述问题描述信息包括所述用户向智能客服机器人提供的用户问句;
或者,所述问题描述信息包括所述用户与智能客服机器人进行多轮对话的过程中,向所述智能客服机器人提供的用户问句以及与所述用户问句相关的应答信息。
5.根据权利要求1所述的方法,其中,所述对所述至少两项账户状态描述信息进行特征提取,得到第二特征向量,包括:
针对各项所述账户状态描述信息中属于离散型的第一账户状态描述信息,对所述第一账户状态描述信息进行独热编码,得到所述第一账户状态描述信息对应的第一编码;
针对各项所述账户状态描述信息中属于连续型的第二账户状态描述信息,对所述第二账户状态描述信息进行归一化处理,并根据归一化处理的结果得到第二编码;
形成由各项所述账户状态描述信息对应的第一编码或第二编码组成的编码序列;
通过第二DNN分析所述编码序列,得到第二特征向量。
6.根据权利要求1至5中任一所述的方法,其中,所述方法还包括:
获取用于指示所述用户的行为轨迹的历史行为描述信息序列,并对所述历史行为描述信息序列中的各项历史行为描述信息进行特征提取,得到第三特征向量;
所述至少根据所述第一特征向量和所述第二特征向量,确定所述问题描述信息对应的分类类别,包括:根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述问题描述信息对应的分类类别。
7.根据权利要求6所述的方法,其中,所述根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述问题描述信息对应的分类类别,包括:
拼接所述第一特征向量、所述第二特征向量和所述第三特征向量,得到综合向量;
通过分类器分析所述综合向量,得到所述问题描述信息对应的分类类别。
8.根据权利要求6所述的方法,其中,各项所述历史行为描述信息中的任意一项历史行为描述信息,指示了所述用户点击的服务、查询的信息、收到的提示以及求助的类型中的任意一项。
9.根据权利要求6所述的方法,其中,所述对所述历史行为描述信息序列中的各项历史行为描述信息进行特征提取,得到第三特征向量,包括:
确定所述历史行为描述信息序列中的各项历史行为描述信息分别对应的表示向量,并利用各个所述表示向量组成表示向量序列;
通过预置的特征提取模型分析所述表示向量序列,得到第三特征向量。
10.根据权利要求9所述的方法,其中,所述特征提取模型包括循环神经网络RNN、长短期记忆网络LSTM或门控循环单元GRU。
11.一种对问题描述信息进行分类的装置,所述装置包括:
分词处理单元,用于对用户提供的问题描述信息进行分词处理,得到词序列;
第一调用单元,用于通过BERT模型分析所述词序列,得到编码向量序列;以及,去除所述编码向量序列中位于首位且与特殊符相对应的编码向量,使得所述编码向量序列中剩余的各个编码向量与所述词序列中的各个词一一对应;
第二调用单元,用于通过第一深度神经网络DNN分析去除位于首位且与特殊符相对应的编码向量后的所述编码向量序列,得到第一特征向量;
第一特征提取单元,用于获取用于指示所述用户的账户状态的至少两项账户状态描述信息,并对所述至少两项账户状态描述信息进行特征提取,得到第二特征向量;
分类处理单元,用于至少根据所述第一特征向量和所述第二特征向量,确定所述问题描述信息对应的分类类别。
12.根据权利要求11所述的装置,其中,所述分类类别包括标准问题或人工客服技能组的标识。
13.根据权利要求11所述的装置,其中,所述至少两项账户状态描述信息包括:账户是否被锁定、借款额度、是否存在逾期还款中的至少两项。
14.根据权利要求11所述的装置,其中,
所述问题描述信息包括所述用户向智能客服机器人提供的用户问句;
或者,所述问题描述信息包括所述用户与智能客服机器人进行多轮对话的过程中,向所述智能客服机器人提供的用户问句以及与所述用户问句相关的应答信息。
15.根据权利要求11所述的装置,其中,所述第一特征提取单元,具体用于:
针对各项所述账户状态描述信息中属于离散型的第一账户状态描述信息,对所述第一账户状态描述信息进行独热编码,得到所述第一账户状态描述信息对应的第一编码;
针对各项所述账户状态描述信息中属于连续型的第二账户状态描述信息,对所述第二账户状态描述信息进行归一化处理,并根据归一化处理的结果得到第二编码;
形成由各项所述账户状态描述信息对应的第一编码或第二编码组成的编码序列;
通过第二DNN分析所述编码序列,得到第二特征向量。
16.根据权利要求11至15中任一所述的装置,其中,所述装置还包括:
第二特征提取单元,用于获取用于指示所述用户的行为轨迹的历史行为描述信息序列,并对所述历史行为描述信息序列中的各项历史行为描述信息进行特征提取,得到第三特征向量;
所述分类处理单元,具体用于根据所述第一特征向量、所述第二特征向量和所述第三特征向量,确定所述问题描述信息对应的分类类别。
17.根据权利要求16所述的装置,其中,所述分类处理单元,具体用于:
拼接所述第一特征向量、所述第二特征向量和所述第三特征向量,得到综合向量;
通过分类器分析所述综合向量,得到所述问题描述信息对应的分类类别。
18.根据权利要求16所述的装置,其中,各项所述历史行为描述信息中的任意一项历史行为描述信息,指示了所述用户点击的服务、查询的信息、收到的提示以及求助的类型中的任意一项。
19.根据权利要求16所述的装置,其中,所述第二特征提取单元,具体用于:
确定所述历史行为描述信息序列中的各项历史行为描述信息分别对应的表示向量,并利用各个所述表示向量组成表示向量序列;
通过预置的特征提取模型分析所述表示向量序列,得到第三特征向量。
20.根据权利要求19所述的装置,其中,所述特征提取模型包括循环神经网络RNN、长短期记忆网络LSTM或门控循环单元GRU。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算设备中执行时,计算设备执行权利要求1-10中任一项所述的方法。
22.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396839.0A CN111159378B (zh) | 2019-12-30 | 2019-12-30 | 对问题描述信息进行分类的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396839.0A CN111159378B (zh) | 2019-12-30 | 2019-12-30 | 对问题描述信息进行分类的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159378A CN111159378A (zh) | 2020-05-15 |
CN111159378B true CN111159378B (zh) | 2023-07-18 |
Family
ID=70559296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911396839.0A Active CN111159378B (zh) | 2019-12-30 | 2019-12-30 | 对问题描述信息进行分类的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159378B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861201A (zh) * | 2020-07-17 | 2020-10-30 | 南京汇宁桀信息科技有限公司 | 一种基于大数据分类算法的政务智能派单的方法 |
CN111931717B (zh) * | 2020-09-22 | 2021-01-26 | 平安科技(深圳)有限公司 | 基于语义和图像识别的心电信息提取方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020426A (zh) * | 2019-01-21 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 将用户咨询分配到客服业务组的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885756B (zh) * | 2016-09-30 | 2020-05-08 | 华为技术有限公司 | 基于深度学习的对话方法、装置及设备 |
CN106503236B (zh) * | 2016-10-28 | 2020-09-11 | 北京百度网讯科技有限公司 | 基于人工智能的问题分类方法以及装置 |
CN110008318A (zh) * | 2019-02-12 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 问题派发方法及装置 |
CN110046806B (zh) * | 2019-03-29 | 2022-12-09 | 创新先进技术有限公司 | 用于客服派单的方法、装置和计算设备 |
CN110209824B (zh) * | 2019-06-13 | 2021-06-22 | 中国科学院自动化研究所 | 基于组合模型的文本情感分析方法、系统、装置 |
-
2019
- 2019-12-30 CN CN201911396839.0A patent/CN111159378B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020426A (zh) * | 2019-01-21 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 将用户咨询分配到客服业务组的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111159378A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9910845B2 (en) | Call flow and discourse analysis | |
US20210029248A1 (en) | Hierarchical interface for adaptive closed loop communication system | |
US9892414B1 (en) | Method, medium, and system for responding to customer requests with state tracking | |
CN110020426B (zh) | 将用户咨询分配到客服业务组的方法及装置 | |
US20210020165A1 (en) | Alert generator for adaptive closed loop communication system | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
CN109514586B (zh) | 实现智能客服机器人的方法及系统 | |
CN111160514B (zh) | 一种对话的方法和系统 | |
US20190019197A1 (en) | Determining to dispatch a technician for customer support | |
CN111177325B (zh) | 一种自动生成答案的方法和系统 | |
CN111178940B (zh) | 一种自动生成销售话术图谱的方法和系统 | |
CN110399472B (zh) | 面试提问提示方法、装置、计算机设备及存储介质 | |
US11900071B2 (en) | Generating customized digital documents using artificial intelligence | |
CN111159378B (zh) | 对问题描述信息进行分类的方法及装置 | |
CN111182162A (zh) | 基于人工智能的电话质检方法、装置、设备和存储介质 | |
CN108920640A (zh) | 基于语音交互的上下文获取方法及设备 | |
CN109543005A (zh) | 客服机器人对话状态识别方法及装置、设备、存储介质 | |
US20220067500A1 (en) | Decoupling memory and computation to enable privacy across multiple knowledge bases of user data | |
CN108986825A (zh) | 基于语音交互的上下文获取方法及设备 | |
CN113268610A (zh) | 基于知识图谱的意图跳转方法、装置、设备及存储介质 | |
CN110955770A (zh) | 一种智能对话系统 | |
US20230237276A1 (en) | System and Method for Incremental Estimation of Interlocutor Intents and Goals in Turn-Based Electronic Conversational Flow | |
US10410655B2 (en) | Estimating experienced emotions | |
CN110008318A (zh) | 问题派发方法及装置 | |
CN116049411B (zh) | 一种信息匹配方法、装置、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |