CN111221945A - 基于用户问句生成标准问题的方法和装置 - Google Patents

基于用户问句生成标准问题的方法和装置 Download PDF

Info

Publication number
CN111221945A
CN111221945A CN202010329631.3A CN202010329631A CN111221945A CN 111221945 A CN111221945 A CN 111221945A CN 202010329631 A CN202010329631 A CN 202010329631A CN 111221945 A CN111221945 A CN 111221945A
Authority
CN
China
Prior art keywords
question sentences
user question
user
sentences
splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010329631.3A
Other languages
English (en)
Other versions
CN111221945B (zh
Inventor
蒋亮
温祖杰
张家兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010329631.3A priority Critical patent/CN111221945B/zh
Publication of CN111221945A publication Critical patent/CN111221945A/zh
Application granted granted Critical
Publication of CN111221945B publication Critical patent/CN111221945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供一种基于用户问句生成标准问题的方法和装置,方法包括:获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;提取所述第一多轮对话中第一数目轮的用户问句;对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。能够提高标准问题的生产效率,相应提升标准问题的覆盖率。

Description

基于用户问句生成标准问题的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及基于用户问句生成标准问题的方法和装置。
背景技术
随着人工智能的发展,智能客服应运而生。智能客服即通过机器人客服与用户对话,解答用户问题。在智能客服中,通常预先确定一批提问方式很标准的问题,简称为标准问题,用于对用户提问进行匹配来识别用户真实意图。
现有技术中,通常通过人工挖掘的方式生产标准问题,例如,运营人员凭经验或者从线上用户问题中人工选择标准问题。这需要运营人员对业务有深入的了解,能够想象用户可能问到的各种问题。这对运营人员十分有难度,标准问题的生产效率低,也导致提升标准问题的覆盖率很困难。
因此,希望能有改进的方案,能够提高标准问题的生产效率,相应提升标准问题的覆盖率。
发明内容
本说明书一个或多个实施例描述了一种基于用户问句生成标准问题的方法和装置,能够提高标准问题的生产效率,相应提升标准问题的覆盖率。
第一方面,提供了一种基于用户问句生成标准问题的方法,方法包括:
获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;
提取所述第一多轮对话中第一数目轮的用户问句;
对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;
将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。
在一种可能的实施方式中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,包括:
判断所述第一数目是否小于或等于预设数目;
若所述第一数目小于或等于所述预设数目,则对所述第一数目轮的用户问句进行拼接处理,得到所述第一输入文本。
进一步地,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,还包括:
若所述第一数目大于所述预设数目,则将所述第一数目轮的用户问句按照顺序分为多组用户问句,每组用户问句包含的用户问句的数目不大于所述预设数目,且相邻的两组用户问句具有交集;
对所述各组用户问句分别进行拼接处理,得到各组用户问句分别对应的所述第一输入文本。
在一种可能的实施方式中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,包括:
识别所述第一数目轮的用户问句中的闲聊语句;
删除所述第一数目轮的用户问句中的闲聊语句,得到第二数目轮的用户问句;
对所述第二数目轮的用户问句进行拼接处理,得到第一输入文本。
在一种可能的实施方式中,所述文本生成模型基于训练样本预先训练;
所述训练样本通过如下方式获取:
获取用户与机器人客服的第二多轮对话;
从所述第二多轮对话中提取用户问句和匹配成功的标准问题,以作为训练样本。
在一种可能的实施方式中,所述获取目标用户与人工客服的第一多轮对话之前,所述方法还包括:
确定在所述第一多轮对话之前,所述目标用户与机器人客服进行了第三多轮对话,所述第三多轮对话中未得到匹配成功的标准问题。
在一种可能的实施方式中,所述文本生成模型包括编码器和解码器;
所述将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题,包括:
将所述第一输入文本输入所述编码器,得到语义向量;
将所述语义向量输入所述解码器,得到所述第一多轮对话对应的标准问题。
第二方面,提供了一种基于用户问句生成标准问题的装置,装置包括:
获取单元,用于获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;
提取单元,用于提取所述获取单元获取的第一多轮对话中第一数目轮的用户问句;
拼接单元,用于对所述提取单元提取的第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;
生成单元,用于将所述拼接单元得到的第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;然后提取所述第一多轮对话中第一数目轮的用户问句;接着对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;最后将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。由上可见,本说明书实施例,基于目标用户与人工客服的多轮对话,利用预先训练的文本生成模型,生成标准问题,这种自动生成的方式相对于人工挖掘的方式,能够提高标准问题的生产效率,相应提升标准问题的覆盖率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的基于用户问句生成标准问题的方法流程图;
图3示出根据一个实施例的文本生成模型的结构图;
图4示出根据一个实施例的基于用户问句生成标准问题的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及基于用户问句生成标准问题。可以理解的是,在智能客服中,通常采用配置知识库(标准问题+标准答案)的方式来回答用户的问题,知识库需要长期的积累才能逐步完善。生产知识库最重要的是生产标准问题,通常做法是运营人员凭经验或者从线上用户问题中人工选择标准问题。这需要运营人员对业务有深入的了解,能够想象用户可能问到的各种问题。这对运营人员十分有难度,也导致提升知识库的覆盖率很困难。
参照图1,在人工客服对用户进行服务时,用户跟人工客服的对话形成对话日志数据,本说明书实施例,不是从该日志对话数据中人工挖掘标准问题,而是基于该日志对话数据中的用户问句,利用预先训练的文本生成模型生成标准问题。这种自动生成的方式相对于人工挖掘的方式,能够提高标准问题的生产效率,相应提升标准问题的覆盖率。
其中,上述文本生成模型为一种神经网络模型,输入是一段或多段文本,输出是生成的一段文本。
图2示出根据一个实施例的基于用户问句生成标准问题的方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中基于用户问句生成标准问题的方法包括以下步骤:步骤21,获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;步骤22,提取所述第一多轮对话中第一数目轮的用户问句;步骤23,对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;步骤24,将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案。可以理解的是,第一多轮对话对应目标用户与人工客服的一次会话。
其中,第一数目由第一多轮对话的实际对话轮数决定,可以为一个较大的数值,例如50;也可以为一个较小的数值,例如2。
以图1中的用户跟人工客服的对话作为第一多轮对话为例,该第一多轮对话包括两轮对话,分别为用户问句1和客服答案1,以及用户问句2和客服答案2。
在一个示例中,在执行步骤21之前,所述方法还包括:
确定在所述第一多轮对话之前,所述目标用户与机器人客服进行了第三多轮对话,所述第三多轮对话中未得到匹配成功的标准问题。
该示例对应一个典型的场景,该场景下,用户首先与机器人客服进行对话,若对话中未得到匹配成功的标准问题,则由人工客服为用户提供服务,解答用户问题,可以理解的是,基于该场景下用户与人工客服的对话,往往能够得到知识库中未覆盖的标准问题,避免重复生成知识库中已有的标准问题。
然后在步骤22,提取所述第一多轮对话中第一数目轮的用户问句。可以理解的是,本说明书实施例,基于用户问句生成标准问题,与多轮对话中的客服答案无关,因此可以仅提取所述第一多轮对话中第一数目轮的用户问句。
以图1中的用户跟人工客服的对话作为第一多轮对话为例,提取的用户问句包括用户问句1和用户问句2。
接着在步骤23,对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本。可以理解的是,通常地,在用户与人工客服的对话过程中,用户通常需要多轮表述才能说明自己想要问的问题,因此,拼接处理后的第一输入文本更能够表达用户意图。
在一个示例中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,包括:
判断所述第一数目是否小于或等于预设数目;
若所述第一数目小于或等于所述预设数目,则对所述第一数目轮的用户问句进行拼接处理,得到所述第一输入文本。
其中,根据通常地用户表达清楚一个问题所需要的对话轮数来预先设定上述预设数目,例如,上述预设数目为5、10或15等。
以图1中的用户跟人工客服的对话作为第一多轮对话为例,该第一多轮对话包括两轮对话,第一数目为2,预设数目为10,由于2小于10,则可以对用户问句1和用户问句2进行拼接处理,得到第一输入文本。
进一步地,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,还包括:
若所述第一数目大于所述预设数目,则将所述第一数目轮的用户问句按照顺序分为多组用户问句,每组用户问句包含的用户问句的数目不大于所述预设数目,且相邻的两组用户问句具有交集;
对所述各组用户问句分别进行拼接处理,得到各组用户问句分别对应的所述第一输入文本。
举例来说,若第一数目为50,预设数目为10,由于50大于10,则可以先对这50轮的用户问句按照顺序分为多组用户问句,分组的方式可以有多种,例如,可以采用表一所示的分组方式。
表一:各组用户问句对应关系表
第一组 用户问句1-10
第二组 用户问句6-15
第三组 用户问句11-20
第四组 用户问句16-25
第五组 用户问句21-30
第六组 用户问句26-35
第七组 用户问句31-40
第八组 用户问句36-45
第九组 用户问句41-50
参见表一,可以理解的是,用户问句的编号对应于用户问句的轮数,例如用户问句1为第一轮的用户问句,表一所示的示例中,每组用户问句包含的用户问句的数目均等于所述预设数目,且相邻的两组用户问句具有交集,例如第一组用户问句和第二组用户问句都包括用户问句6-10。
本说明书实施例中,在对用户问句进行分组时,相邻的两组用户问句具有交集,这种分组方式可以避免将对应于同一用户问题的多轮用户问句截断,对所述各组用户问句分别进行拼接处理,得到各组用户问句分别对应的所述第一输入文本中,有较大概率存在能够反映用户意图的输入文本。
在一个示例中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,包括:
识别所述第一数目轮的用户问句中的闲聊语句;
删除所述第一数目轮的用户问句中的闲聊语句,得到第二数目轮的用户问句;
对所述第二数目轮的用户问句进行拼接处理,得到第一输入文本。
可以理解的是,闲聊语句不能够反映用户意图,比如,类似“您好”这种打招呼的话,或者类似“谢谢”这种表示感谢的话。
最后在步骤24,将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。可以理解的是,一个第一输入文本对应可以生成一个标准问题,若前述步骤23中进行了分组处理,得到各组用户问句分别对应的所述第一输入文本,则步骤24可以得到各组用户问句分别对应的标准问题。
在一个示例中,所述文本生成模型基于训练样本预先训练;
所述训练样本通过如下方式获取:
获取用户与机器人客服的第二多轮对话;
从所述第二多轮对话中提取用户问句和匹配成功的标准问题,以作为训练样本。
例如,用户与机器人客服的多轮对话中,用户问句:我用了花呗买东西,现在想还钱,要怎么办。匹配成功的标准问题:花呗如何付款。该组用户问句和匹配成功的标准问题就可以作为一组训练样本,用于训练文本生成模型。
图3示出根据一个实施例的文本生成模型的结构图。参照图3,所述文本生成模型包括编码器和解码器;所述将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题,包括:将所述第一输入文本输入所述编码器,得到语义向量;将所述语义向量输入所述解码器,得到所述第一多轮对话对应的标准问题。
在一个示例中,文本生成模型可以相当于采用序列到序列(sequence tosequence,Seq2Seq)结构,利用两个循环神经网络(recurrent neural network,RNN),一个RNN作为编码器,另一个RNN作为解码器。编码器负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义向量,这个过程称为编码。而解码器则负责根据语义向量生成指定的序列,这个过程也称为解码。
本说明书实施例中,文本生成模型的结构有多种,并不限于上述基于RNN的模型结构,还可以采用基于卷积神经网络(convolutional neural networks,CNN)、长短期记忆网络(long short-term memory,LSTM)、基于转换器的双向编码器表示(bidirectionalencoder representation from transformers,BERT)模型等实现的模型结构。
在一个具体的应用中,在步骤21中获取的第一多轮对话包括,用户问句1:我用了花呗,怎么还款。客服答案1:花呗如何还款的答案,用户问句2:每个月什么时候还钱,客服答案2:花呗还款日期的答案,用户问句3:那我想提前还了怎么操作,客服答案3:花呗如何提前还款的答案;在步骤22和步骤23中提取出对话中属于用户输入的部分,并将其拼接成一个长句,例如,我用了花呗,怎么还款,每个月什么时候还钱,那我想提前还了怎么操作;在步骤24中将拼接得到的长句输入训练好的文本生成模型,得到生成的标准问题。
通过本说明书实施例提供的方法,首先获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;然后提取所述第一多轮对话中第一数目轮的用户问句;接着对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;最后将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。由上可见,本说明书实施例,基于目标用户与人工客服的多轮对话,利用预先训练的文本生成模型,生成标准问题,这种自动生成的方式相对于人工挖掘的方式,能够提高标准问题的生产效率,相应提升标准问题的覆盖率。
根据另一方面的实施例,还提供一种基于用户问句生成标准问题的装置,该装置用于执行本说明书实施例提供的基于用户问句生成标准问题的方法。图4示出根据一个实施例的基于用户问句生成标准问题的装置的示意性框图。如图4所示,该装置400包括:
获取单元41,用于获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;
提取单元42,用于提取所述获取单元41获取的第一多轮对话中第一数目轮的用户问句;
拼接单元43,用于对所述提取单元42提取的第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;
生成单元44,用于将所述拼接单元43得到的第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。
可选地,作为一个实施例,所述拼接单元43包括:
判断子单元,用于判断所述第一数目是否小于或等于预设数目;
第一拼接子单元,用于若所述判断子单元判断出所述第一数目小于或等于所述预设数目,则对所述第一数目轮的用户问句进行拼接处理,得到所述第一输入文本。
进一步地,所述拼接单元43还包括:
分组子单元,用于若所述判断子单元判断出所述第一数目大于所述预设数目,则将所述第一数目轮的用户问句按照顺序分为多组用户问句,每组用户问句包含的用户问句的数目不大于所述预设数目,且相邻的两组用户问句具有交集;
第二拼接子单元,用于对所述分组子单元得到的各组用户问句分别进行拼接处理,得到各组用户问句分别对应的所述第一输入文本。
可选地,作为一个实施例,所述拼接单元43包括:
识别子单元,用于识别所述第一数目轮的用户问句中的闲聊语句;
删除子单元,用于删除所述第一数目轮的用户问句中的所述识别子单元识别的闲聊语句,得到第二数目轮的用户问句;
第三拼接子单元,用于对所述删除子单元得到的第二数目轮的用户问句进行拼接处理,得到第一输入文本。
可选地,作为一个实施例,所述文本生成模型基于训练样本预先训练;
所述训练样本通过如下方式获取:
获取用户与机器人客服的第二多轮对话;
从所述第二多轮对话中提取用户问句和匹配成功的标准问题,以作为训练样本。
可选地,作为一个实施例,所述装置还包括:
确定单元,用于在所述获取单元41获取目标用户与人工客服的第一多轮对话之前,确定在所述第一多轮对话之前,所述目标用户与机器人客服进行了第三多轮对话,所述第三多轮对话中未得到匹配成功的标准问题。
可选地,作为一个实施例,所述文本生成模型包括编码器和解码器;
所述生成单元44包括:
编码子单元,用于将所述第一输入文本输入所述编码器,得到语义向量;
解码子单元,用于将所述编码子单元得到的语义向量输入所述解码器,得到所述第一多轮对话对应的标准问题。
通过本说明书实施例提供的装置,首先获取单元41获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;然后提取单元42提取所述第一多轮对话中第一数目轮的用户问句;接着拼接单元43对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;最后生成单元44将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。由上可见,本说明书实施例,基于目标用户与人工客服的多轮对话,利用预先训练的文本生成模型,生成标准问题,这种自动生成的方式相对于人工挖掘的方式,能够提高标准问题的生产效率,相应提升标准问题的覆盖率。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (16)

1.一种基于用户问句生成标准问题的方法,所述方法包括:
获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;
提取所述第一多轮对话中第一数目轮的用户问句;
对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;
将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。
2.如权利要求1所述的方法,其中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,包括:
判断所述第一数目是否小于或等于预设数目;
若所述第一数目小于或等于所述预设数目,则对所述第一数目轮的用户问句进行拼接处理,得到所述第一输入文本。
3.如权利要求2所述的方法,其中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,还包括:
若所述第一数目大于所述预设数目,则将所述第一数目轮的用户问句按照顺序分为多组用户问句,每组用户问句包含的用户问句的数目不大于所述预设数目,且相邻的两组用户问句具有交集;
对所述各组用户问句分别进行拼接处理,得到各组用户问句分别对应的所述第一输入文本。
4.如权利要求1所述的方法,其中,所述对所述第一数目轮的用户问句至少进行拼接处理,得到第一输入文本,包括:
识别所述第一数目轮的用户问句中的闲聊语句;
删除所述第一数目轮的用户问句中的闲聊语句,得到第二数目轮的用户问句;
对所述第二数目轮的用户问句进行拼接处理,得到第一输入文本。
5.如权利要求1所述的方法,其中,所述文本生成模型基于训练样本预先训练;
所述训练样本通过如下方式获取:
获取用户与机器人客服的第二多轮对话;
从所述第二多轮对话中提取用户问句和匹配成功的标准问题,以作为训练样本。
6.如权利要求1所述的方法,其中,所述获取目标用户与人工客服的第一多轮对话之前,所述方法还包括:
确定在所述第一多轮对话之前,所述目标用户与机器人客服进行了第三多轮对话,所述第三多轮对话中未得到匹配成功的标准问题。
7.如权利要求1所述的方法,其中,所述文本生成模型包括编码器和解码器;
所述将所述第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题,包括:
将所述第一输入文本输入所述编码器,得到语义向量;
将所述语义向量输入所述解码器,得到所述第一多轮对话对应的标准问题。
8.一种基于用户问句生成标准问题的装置,所述装置包括:
获取单元,用于获取目标用户与人工客服的第一多轮对话,所述第一多轮对话包括第一数目轮的用户问句和客服答案;
提取单元,用于提取所述获取单元获取的第一多轮对话中第一数目轮的用户问句;
拼接单元,用于对所述提取单元提取的第一数目轮的用户问句至少进行拼接处理,得到第一输入文本;
生成单元,用于将所述拼接单元得到的第一输入文本输入预先训练的文本生成模型,得到所述第一多轮对话对应的标准问题。
9.如权利要求8所述的装置,其中,所述拼接单元包括:
判断子单元,用于判断所述第一数目是否小于或等于预设数目;
第一拼接子单元,用于若所述判断子单元判断出所述第一数目小于或等于所述预设数目,则对所述第一数目轮的用户问句进行拼接处理,得到所述第一输入文本。
10.如权利要求9所述的装置,其中,所述拼接单元还包括:
分组子单元,用于若所述判断子单元判断出所述第一数目大于所述预设数目,则将所述第一数目轮的用户问句按照顺序分为多组用户问句,每组用户问句包含的用户问句的数目不大于所述预设数目,且相邻的两组用户问句具有交集;
第二拼接子单元,用于对所述分组子单元得到的各组用户问句分别进行拼接处理,得到各组用户问句分别对应的所述第一输入文本。
11.如权利要求8所述的装置,其中,所述拼接单元包括:
识别子单元,用于识别所述第一数目轮的用户问句中的闲聊语句;
删除子单元,用于删除所述第一数目轮的用户问句中的所述识别子单元识别的闲聊语句,得到第二数目轮的用户问句;
第三拼接子单元,用于对所述删除子单元得到的第二数目轮的用户问句进行拼接处理,得到第一输入文本。
12.如权利要求8所述的装置,其中,所述文本生成模型基于训练样本预先训练;
所述训练样本通过如下方式获取:
获取用户与机器人客服的第二多轮对话;
从所述第二多轮对话中提取用户问句和匹配成功的标准问题,以作为训练样本。
13.如权利要求8所述的装置,其中,所述装置还包括:
确定单元,用于在所述获取单元获取目标用户与人工客服的第一多轮对话之前,确定在所述第一多轮对话之前,所述目标用户与机器人客服进行了第三多轮对话,所述第三多轮对话中未得到匹配成功的标准问题。
14.如权利要求8所述的装置,其中,所述文本生成模型包括编码器和解码器;
所述生成单元包括:
编码子单元,用于将所述第一输入文本输入所述编码器,得到语义向量;
解码子单元,用于将所述编码子单元得到的语义向量输入所述解码器,得到所述第一多轮对话对应的标准问题。
15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项的所述的方法。
16.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项的所述的方法。
CN202010329631.3A 2020-04-24 2020-04-24 基于用户问句生成标准问题的方法和装置 Active CN111221945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010329631.3A CN111221945B (zh) 2020-04-24 2020-04-24 基于用户问句生成标准问题的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010329631.3A CN111221945B (zh) 2020-04-24 2020-04-24 基于用户问句生成标准问题的方法和装置

Publications (2)

Publication Number Publication Date
CN111221945A true CN111221945A (zh) 2020-06-02
CN111221945B CN111221945B (zh) 2020-08-04

Family

ID=70831774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010329631.3A Active CN111221945B (zh) 2020-04-24 2020-04-24 基于用户问句生成标准问题的方法和装置

Country Status (1)

Country Link
CN (1) CN111221945B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460126A (zh) * 2020-06-12 2020-07-28 支付宝(杭州)信息技术有限公司 一种用于人机对话系统的回复生成方法、装置及电子设备
CN112560443A (zh) * 2020-12-29 2021-03-26 平安银行股份有限公司 选择题生成模型训练方法、选择题生成方法、设备及介质
CN116089589A (zh) * 2023-02-10 2023-05-09 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783626A (zh) * 2018-12-29 2019-05-21 联想(北京)有限公司 问题生成方法、智能问答系统、介质以及计算机系统
CN110413753A (zh) * 2019-07-22 2019-11-05 阿里巴巴集团控股有限公司 问答样本的扩展方法及装置
CN110543554A (zh) * 2019-08-12 2019-12-06 阿里巴巴集团控股有限公司 针对多轮对话的分类方法和装置
CN110569344A (zh) * 2019-08-22 2019-12-13 阿里巴巴集团控股有限公司 确定对话文本对应的标准问句的方法和装置
CN110955766A (zh) * 2019-11-29 2020-04-03 支付宝(杭州)信息技术有限公司 一种自动扩充智能客服标准问题对的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783626A (zh) * 2018-12-29 2019-05-21 联想(北京)有限公司 问题生成方法、智能问答系统、介质以及计算机系统
CN110413753A (zh) * 2019-07-22 2019-11-05 阿里巴巴集团控股有限公司 问答样本的扩展方法及装置
CN110543554A (zh) * 2019-08-12 2019-12-06 阿里巴巴集团控股有限公司 针对多轮对话的分类方法和装置
CN110569344A (zh) * 2019-08-22 2019-12-13 阿里巴巴集团控股有限公司 确定对话文本对应的标准问句的方法和装置
CN110955766A (zh) * 2019-11-29 2020-04-03 支付宝(杭州)信息技术有限公司 一种自动扩充智能客服标准问题对的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李维勇 等: "一种基于深度学习的中文生成式自动摘要方法", 《广西师范大学学报(自然科学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460126A (zh) * 2020-06-12 2020-07-28 支付宝(杭州)信息技术有限公司 一种用于人机对话系统的回复生成方法、装置及电子设备
CN111460126B (zh) * 2020-06-12 2020-09-25 支付宝(杭州)信息技术有限公司 一种用于人机对话系统的回复生成方法、装置及电子设备
CN112560443A (zh) * 2020-12-29 2021-03-26 平安银行股份有限公司 选择题生成模型训练方法、选择题生成方法、设备及介质
CN112560443B (zh) * 2020-12-29 2022-11-29 平安银行股份有限公司 选择题生成模型训练方法、选择题生成方法、设备及介质
CN116089589A (zh) * 2023-02-10 2023-05-09 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置
CN116089589B (zh) * 2023-02-10 2023-08-29 阿里巴巴达摩院(杭州)科技有限公司 问句生成方法及装置

Also Published As

Publication number Publication date
CN111221945B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111221945B (zh) 基于用户问句生成标准问题的方法和装置
US11449678B2 (en) Deep learning based dialog method, apparatus, and device
CN110555095B (zh) 人机对话方法和装置
CN110543552B (zh) 对话交互方法、装置及电子设备
CN110266899B (zh) 客户意图的识别方法和客服系统
CN112365894B (zh) 基于ai的复合语音交互方法、装置及计算机设备
CN111177359A (zh) 多轮对话方法和装置
CN110704590B (zh) 扩充训练样本的方法和装置
CN110019742B (zh) 用于处理信息的方法和装置
CN112084317A (zh) 预训练语言模型的方法和装置
CN110689880A (zh) 一种应用于电力调度领域的语音识别方法及装置
CN111400480A (zh) 针对多轮对话的用户意图识别方法和装置
CN110390109B (zh) 分析多条群聊消息间关联关系的方法和装置
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
CN111563161A (zh) 一种语句识别方法、语句识别装置及智能设备
CN117370512A (zh) 回复对话的方法、装置、设备及存储介质
CN111104502A (zh) 外呼系统的对话管理方法、系统、电子设备和存储介质
CN110888971B (zh) 机器人客服与用户的多轮交互方法和装置
CN113486674A (zh) 基于人工智能的针对多轮对话进行语义分析的方法和装置
CN113782022B (zh) 基于意图识别模型的通信方法、装置、设备及存储介质
CN117349425B (zh) 知识条目的生成方法、装置、设备和存储介质
CN114996430B (zh) 一种端到端之间的主动对话的方法
CN111858874B (zh) 对话服务处理方法、装置、设备及计算机可读存储介质
CN117312530A (zh) 问卷调查、模型训练方法、装置、设备、介质及产品
CN115018516A (zh) 语义切分模型的训练方法、意图理解方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant