CN110413746A - 对用户问题进行意图识别的方法及装置 - Google Patents

对用户问题进行意图识别的方法及装置 Download PDF

Info

Publication number
CN110413746A
CN110413746A CN201910553116.0A CN201910553116A CN110413746A CN 110413746 A CN110413746 A CN 110413746A CN 201910553116 A CN201910553116 A CN 201910553116A CN 110413746 A CN110413746 A CN 110413746A
Authority
CN
China
Prior art keywords
model
training
customer
corpus
customer problem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910553116.0A
Other languages
English (en)
Other versions
CN110413746B (zh
Inventor
蒋亮
温祖杰
梁忠平
张家兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910553116.0A priority Critical patent/CN110413746B/zh
Publication of CN110413746A publication Critical patent/CN110413746A/zh
Application granted granted Critical
Publication of CN110413746B publication Critical patent/CN110413746B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供一种对用户问题进行意图识别的方法和装置,根据该方法的一个实施方式,获取用户问题,同时获取用户问题的关联信息,关联信息包括与用户提出问题的情景相关的信息,然后对用户问题和关联信息进行拼接处理,得到拼接文本,再将拼接文本输入预先训练的预测模型,以根据预测模型的输出结果确定用户问题对应的意图类别,其中,预测模型中的至少一个特征提取层,预先在第一模型中依次通过通用语料、客服语料,按照预定预测任务进行预训练,第一模型包括至少一个特征提取层和至少一个预测层。由于利用更多的用户信息,并对模型的准确度进行优化,从而可以提高对用户问题中包含的意图识别的准确度。

Description

对用户问题进行意图识别的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机对用户问题的意图进行识别的方法和装置。
背景技术
随着人工智能的发展,智能问答系统的应用越来越普遍。例如,在智能客服领域,当用户提出问题时,通过智能问答系统,可以自动对用户问题进行语义分析,为用户提供答案。常规技术中,往往基于传统方法或者一些简单模型对用户问题进行分类,分类效果不理想。另外,用户个人认知水平及表达方式各不相同,单一地分析当前语句,或者用户问题较模糊,难以进行准确度的分类。
发明内容
本说明书一个或多个实施例描述了一种对用户问题进行意图识别的方法和装置,可以解决背景技术中提到的至少一个问题。
根据第一方面,提供了一种对用户问题进行意图识别的方法,包括:获取所述用户问题,以及所述用户问题的关联信息,所述关联信息包括与用户提出问题的情景相关的信息;对所述用户问题和所述关联信息进行拼接处理,得到拼接文本;将所述拼接文本输入预先训练的预测模型,以根据所述预测模型的输出结果确定所述用户问题对应的意图类别,其中,所述预测模型包括至少一个特征提取层和一个分类器,所述至少一个特征提取层预先在第一模型中依次通过通用语料、客服语料,按照预定预测任务进行预训练,所述第一模型包括所述至少一个特征提取层和至少一个预测层。
在一个实施例中,所述关联信息包括场景信息、上文信息,所述将所述用户问题和所述关联信息进行拼接,得到拼接文本包括,将所述场景信息、所述上文信息、所述用户问题依次拼接。
在一个实施例中,所述第一模型是包括预测语料中随机覆盖的字符及两个语句的上下文关系的多任务模型,所述第一模型预先通过以下方式训练:获取通用语料对应的多个第一训练样本,训练所述第一模型,其中,各个第一训练样本分别对应从通用语料中抽取的两个语句组成的语句对,各个语句对中被随机覆盖掉的预定百分比的字符,并对应有根据抽取位置确定的是否上下文关系的标签;获取客服语料对应的各个第二训练样本,进一步对经过通用语料训练后的第一模型进行训练,其中,各个第二训练样本分别对应从客服语料中抽取的两个语句组成的语句对。
在进一步的实施例中,所述预测模型通过以下方式训练:获取经过客服语料训练后的所述第一模型中的至少一个特征提取层,并将所获取的至少一个特征提取层和预先确定的分类器组合,形成预测模型;获取多个用户问题分别对应的各个第三训练样本,其中,各个第三训练样本对应有相应的用户问题及其关联信息的拼接文本,以及预先标注的意图类别标签;依次将各个第三训练样本对应的拼接文本输入预测模型,并将预测模型的输出结果和对应的意图类别标签的对比调整模型参数,从而对预测模型进行训练。
在一个实施例中,所述方法还包括:根据所述意图类别从预先存储的答案库中为所述用户问题匹配对应的答案;将匹配到的答案反馈给用户。
根据第二方面,提供一种对用户问题进行意图识别的装置,包括:获取单元,配置为获取所述用户问题,以及所述用户问题的关联信息,所述关联信息包括与用户提出问题的情景相关的信息;拼接单元,配置为对所述用户问题和所述关联信息进行拼接处理,得到拼接文本;预测单元,配置为将所述拼接文本输入预先训练的预测模型,以根据所述预测模型的输出结果确定所述用户问题对应的意图类别,其中,所述预测模型包括至少一个特征提取层和一个分类器,所述至少一个特征提取层预先在第一模型中依次通过通用语料、客服语料,按照预定预测任务进行预训练,所述第一模型包括所述至少一个特征提取层和至少一个预测层。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,在对用户问题进行意图识别的过程中,一方面,预测模型的输入数据不仅包括用户问题本身,还包括与用户问题的情景相应的关联信息;另一方面,在预测模型训练之前,先对特征提取层在第一模型中基于预定预测任务进行预训练,预训练过程在通用语料训练的基础上,又通过客服语料进行优化,提升针对客服场景的模型准确度。这样,利用更多的用户信息,并对模型的准确度进行优化,从而可以提高对用户问题中包含的意图识别的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的对用户问题进行意图识别的方法流程图;
图3示出预测模型的一个具体例子的输入示意图;
图4示出对训练预测模型的一个具体流程的示意图;
图5示出根据一个实施例的对用户问题进行意图识别的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。在该实施场景中,用户可以通过终端上的各种应用和相应的应用服务器交互,以使用应用所提供的功能。其中,这里的终端可以是诸如计算机、平板电脑、智能手机之类的硬件设备。终端上运行的应用1可以由应用1服务器提供服务,终端上运行的应用2可以由应用2服务器提供服务。每个用户对应的终端上安装的应用也可以不相同,例如第一个用户对应的终端上只安装了应用1,第二个用户对应的终端上安装了应用1和应用2,第三个用户对应的终端上安装了应用2,等等。值得说明的是,这里的终端和应用服务器的数量仅为示例,真实架构中可以设置任意数量,在此不作限定。
终端应用上的各种应用还可以对应有客服平台,客服平台例如设置在图1示出的客服服务器上。客服平台往往用于为用户解决应用使用过程中遇到的各种问题。例如,支付类应用支付不成功却显示扣款成功、借款应用如何还款,等等。在一些情况下,一个开发者,或一个应用平台上可能开发有或设置有多个应用,例如,某支付平台上设置有借款应用、贷款应用、理财应用等等。这些应用可以对应同一个客服平台。
客服平台可以获取用户提出的问题,并为用户提供答案。客服平台在针对用户问题提供答案的过程中,要先识别用户问题中包含的真实意图,才能给出更准确的符合用户需求的答案。本说明书提供的实施例中,对用户问题的意图识别过程中,一方面使用更多的关联信息,另一方面,预测模型包括至少一个特征提取层和一个分类器,其中的至少一个特征提取层预先可以在第一模型中和至少一个预测层一起,利用通用语料、客服语料依次进行预训练。具体地,可以先通过通用语料训练训练第一模型,调整模型参数,在用客服语料对模型参数进一步调整。之后,可以把第一模型中的至少一个提取特征层提取出来,连接一个分类器,组成预测模型,再进行训练。在以上过程中,利用的信息包括了用户问题的关联信息,并且预训练阶段使用客服语料对至少一个特征提取层的参数进行优化,用于提高特征提取的准确度,如此,同时对利用的信息和模型的准确性进行优化,可以提高对用户问题中包含的意图识别的准确度。
下面具体描述对用户问题进行意图识别的过程。
如图2所示,示出了根据一个实施例的对用户问题进行意图识别的流程。该对用户问题进行意图识别的流程的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器,例如图1所示的客服平台等。如图2示,该方法包括以下步骤:步骤201,获取用户问题,以及用户问题的关联信息,关联信息包括与用户提出问题的情景相关的信息;步骤202,对用户问题和关联信息进行拼接处理,得到拼接文本;步骤203,将拼接文本输入预先训练的预测模型,以根据预测模型的输出结果确定用户问题对应的意图类别,其中,预测模型包括至少一个特征提取层和一个分类器,至少一个特征提取层预先在第一模型中依次通过通用语料、客服语料,按照预定预测任务进行预训练,第一模型包括上述至少一个特征提取层和至少一个预测层。
首先,步骤201,获取用户问题,以及用户问题的关联信息。其中,用户问题可以是用户在对应用的使用过程中遇到的各种问题,例如,对于借款平台上的借款如何还款、借款逾期怎么办,等等。
可以理解,实践中,用户问题的表达方式、表达习惯等涉及较多的人为因素,并不是每个用户都能够清楚明了地在一条文本信息或语音信息中表达出问题的场景及问题关键所在。例如,一个文本信息包含“如何还款”,其可能是逾期还款,也可能是正常还款。为此,在步骤201中,在获取用户问题的同时,还可以获取用户问题的关联信息。这里的关联信息通常是与用户提出问题的情景相关的各种信息。例如场景信息、上下文信息,等等。
在一个实施例中,上述关联信息可以包括场景信息。场景信息是最基本的关联信息,不同的应用场景可能涉及相同的用户问题。例如借款平台和贷款平台可能都涉及“如何还款”的问题,而两个平台的运作机制和规则可能是不同的。再例如,一个大的购物平台下可能区分自营子平台和第三方入驻子平台,两个子平台也可能都涉及“如何退货”的问题。因此,在识别用户意图时要考虑用户问题主要是针对哪个具体场景(如上述的平台或子平台)的。
其中,场景信息可以通过用户在提出问题时发送的文本信息获取,也可以通过用户点击客服的通道入口(即用户点击跳转到客服平台的按钮或超链接所在的页面)确定,在此不作限定。
在一个实施例中,上述关联信息还可以包括上文信息或下文信息。通常,一些习惯简短表达的用户,用户提出问题之前可能还会交代一下背景,例如,一个用户发出的三条文本信息为“你好”、“我逾期了”、“该怎么还款”。这里,仅从用户问题“该怎么还款”无法判断是正常还款还是逾期还款,然而,结合上文信息“我逾期了”,就可以确定是逾期还款。一些用户问题的表达也可能和下文信息关联,例如表达三条文本信息为“你好”、“我怎么还款”、“逾期了”。因此,上文信息或下文信息有助于准确判断用户意图,关联信息还可以包含上文信息和/或下文信息。
在其他实施例中,关联信息还可以包括其他信息,例如支付平台上的消费信息、当前时间信息(在还款日之前还是之后),等等。
接着,在步骤202中,对用户问题和关联信息进行拼接处理,得到拼接文本。可以理解,对于用户问题和关联信息,不管是语音形式,还是文本形式,都可以统一成字符表示的形式,即文本形式。因此,对用户问题和关联信息进行拼接,可以进行文本的拼接,得到的是拼接文本。
在一个实施例中,用户问题和关联信息可以按照预定的顺序直接拼接,例如,在关联信息包括场景信息、上文信息的情况下,按照场景信息、上文信息、用户问题,进行拼接。如场景信息为“借款平台”(如花呗等),上文信息为“我逾期了”,用户问题为“怎么还款”,则拼接文本可以为“借款平台我逾期了怎么还款”。在一些实现中,用户问题前面没有上文信息,但可以根据用户点击客服通道的入口界面(如借款平台页面)确定场景信息,则可以将场景信息和用户问题直接进行拼接即可。
在另一个实施例中,还可以对用户问题和关联信息提取关键词,对关键词进行拼接。关键词例如可以通过诸如tf-idf(term frequency-inverse document frequency,词频-逆文本频率)指数、词袋模型(Bag of words model)之类的方法确定。其中,以tf-idf方法为例,可以先对语料库中的语料进行训练,确定各个词汇的tf-idf指数,在对用户问题、关联信息提取关键词时,可以先对其进行分词、去停用词处理,剩下的词汇按照tf-idf指数由大到小的顺序选择tf-idf指数最大的N个词汇作为对应的关键词。
在其他实施例中,用户问题和关联信息的拼接还可以是其他合理的方式,在此不再赘述。
然后,在步骤203中,将拼接文本输入预先训练的预测模型,以根据预测模型的输出结果确定用户问题对应的意图类别。其中,
其中,预测模型可以包括至少一个特征提取层和一个分类器,至少一个特征提取层预先可以在第一模型中,和至少一个预测层一起依次通过通用语料、客服语料进行预训练。这里的第一模型包括上述至少一个特征提取层和至少一个预测层。然后,经过预训练的至少一个特征提取层可以和预先确定的分类器进行拼接形成预测模型的初始模型。对拼接的初始模型进行训练,得到上述的预测模型。
下面结合附图介绍预测模型的训练过程。
首先,选择包含至少一个特征提取层和至少一个预测层的第一模型,进行预训练。其中,第一模型可以具有预定预测任务,例如对输入的文本随机去掉一些字符,并对这些字符进行预测,以及预测两个语句是上下文语句的概率等等。
特征提取层用于提取语义特征,预测层用于根据所提取的语义特征进行相关预测任务。例如,一个特征提取层可以是一个编码神经网络(如Encode层),一个预测层可以是一个解码神经网络(如Decode层)。预训练过程主要通过预定预测任务,利用语料库对特征提取层提取语义特征过程中涉及的第一模型参数进行训练。通过预训练,特征提取层可以完成对输入文本的语义特征提取。
可以理解,在本说明书实施例中,预训练过程中,可以先通过通用语料进行训练。通用语料覆盖范围广,通过通用语料在预定任务上的训练,可以使得模型对各种文本都具有一定的适应性。
第一模型首先通过通用语料进行无监督训练。这里说的无监督训练,是指通用语料本身没有标签。也就是说输入第一模型中的语料是没有经过预先标注的。在训练过程中,每次从通用语料中抽取两个语句,对应到一个训练样本。为了便于描述,这里称为第一训练样本。其中,这里的“第一”仅用于区分训练样本类型,而不作为顺序上的限定。根据语料来源或特点,可以对抽取的数据定义标签。以第一模型的预定任务为预测随机覆盖的字符为例,把从通用语料中个抽取的语句(对应一个第一训练样本)中一些字符随机覆盖之后,被覆盖的这些字符就是第一模型句子学习的目标,或者称为标签。第一模型用剩下的字符可以预测出字符,再比较预测的字符和被覆盖的字符是不是一致来学习。再比如预定任务是预测两个句子是否上下文关系,从通用语料中任选两句话对应一个第一训练样本,根据这两句话是不是相邻来定义这个第一训练样本对应的标签。如果选择的是相邻的两句话,比如“今天阳光明媚”、“我想出去玩”这两句在通用语料中是连续的两句话,那么标签就是上下文(或数字标签1),“今天天气真好”、“小狗很可爱”这两句话在通用语料中不是连续的两句话,那么标签就是非上下文(或数字标签-1、0等)。第一模型预测出抽取到的两句话是不是上下文关系,再根据抽取时确定的标签调整模型参数来学习。
通过在大量通用语料上的训练之后,还可以在客服语料上对第一模型的参数进行微调。这里的客服语料通常是与用户问题相关的语料,例如“我逾期了”、“该怎么还款”这样的具有上下文关系的客服语料,客服语料通常是用户发送的信息形成的语料。实践中,客服语料可以通过多个用户中每个用户在一次和客服沟通过程中的全部用户文本。通过客服语料获取对应的各个第二训练样本,每个第二训练样本可以对应从客服语料中抽取的两个语句组成的语句对。每个第二训练样本也可以对应有诸如被覆盖的字符、是否上下文关系之类的标签。通过客服语料进一步对经过通用语料训练后的第一模型进行训练,进行模型参数微调,是因为客服场景是特殊应用场景,通过在专门的应用场景下的参数微调,可以提高第一模型的准确度。
在一个实施例中,第一模型可以为BERT(Bidirectional EncoderRepresentation from Transformers,多层双向转换解码,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息)。如图3所示,第一模型的输入部分是个线性序列,两个句子通过分隔符分割,最前面和最后增加两个标识符号。句子可以通过各种分词方法分割成多个词汇。每个词汇有三个嵌入向量(embedding):位置嵌入向量、单词嵌入向量和句子嵌入向量。
为更清楚地进行描述,以图3所示的例子进行说明。如图3所示,输入有A句[我在上班]和B句[做图书管理员]这两个自然句,由于神经网络只能进行数值计算,可以将每个单词及特殊符号都转化为词嵌入向量。其中特殊符[SEP]是用于分割两个句子的符号,第一句可以加上分割码A,第二句可以加上分割码B。因为要建模句子之间的关系,BERT有一个任务是预测B句是不是A句后面的一句话,而这个分类任务会借助A/B句最前面的特殊符[CLS]实现,该特殊符可以视为汇集了整个输入序列的表征。
其中,位置嵌入向量是NLP(自然语言处理)中表明句子中词汇顺序的重要特征,其可以通过对词汇的位置信息进行编码确定。位置编码是BERT中的Transformer架构本身决定的,因为基于完全注意力的方法并不能像CNN或RNN那样编码词与词之间的位置关系,但是正因为这种属性才能无视距离长短建模两个词之间的关系。因此为了令Transformer感知词与词之间的位置关系,可以使用位置编码给每个词加上位置信息,该位置信息可以通过位置嵌入向量来表示。位置嵌入向量可以通过模型学习得到。
单词嵌入向量,在第一个特征提取层,其可以是根据预先通过语料库训练的词向量模型中确定的相应词汇的词向量。这里的词向量模型可以是诸如word2vec之类的模型,在此不作限定。在后续的特征提取层中,单词嵌入向量是前一层的输出向量。
句子嵌入向量可以是词汇对应的句子整体的一个嵌入向量。由于第一模型的输入数据是两个句子,每个句子可以分配一个句子整体的嵌入向量,句子对应的每个词汇也可以使用该句子整体的嵌入向量。
对每个词汇,将对应的三个嵌入向量叠加,就形成了BERT的输入。
在BERT模型训练过程中,随机用特殊符号掩盖部分输入词,然后对那些被掩盖的词进行预测。预训练的目标是构建语言模型,BERT模型采用的是双向转换(bidirectionalTransformer)。这是因为在预训练语言模型来处理下游任务时,需要的不仅仅是某个词左侧的语言信息,还需要右侧的语言信息。
在训练的过程中,第一模型可以随机地掩盖每个序列中15%的词汇,其目标是基于其上下文来预测被掩盖单词的原始词汇。与从左到右的语言模型预训练不同,第一模型(BERT)中的目标允许表示融合左右两侧的上下文,这使得可以预训练深度双向转换器。Transformer编码器不知道它将被要求预测哪些词汇,或者哪些词汇已经被随机替换,因此它必须对每个输入词保持分布式的上下文表示。此外,由于随机替换在所有词中只发生1.5%,所以并不会影响模型对于语言的理解。
训练过程中还可以将随机覆盖一部分词汇的语料数据分为两部分,一部分数据中的两个语句对是上下文连续的,另一部分数据中的两个语句对是上下文不连续的。然后让Transformer模型来识别这些语句对中,哪些语句对是连续的(是上下文),哪些语句对不连续(非上下文)。
通过对第一模型在通用语料上的训练,可以使得第一模型覆盖更广泛的语料范围,进一步在客服语料上的训练,使得第一模型能够进一步优化,以适应客服场景。
可以理解,第一模型通常可以由输入层、至少一个特征提取层和至少一个输出层组成。输入层用于接收输入数据,特征提取层用于对输入数据进行特征提取,输出层用于进行预测任务。在本说明书实施例中,第一模型的输入层和至少一个特征提取层可以完成输入文本的特征提取。因此,可以采用迁移嫁接方式,获取第一模型的输入层和至少一个特征提取层,与预先确定的分类器一起组成用户问题意图识别的预测模型。输入层也可以看作一个初步的特征提取层。其中的分类器例如可以通过softmax之类的激活函数实现,用于对特征提取层提取到的特征进行运算,输出一个分类标识,如“5”,对应到“借款平台正常还款”的意图类别。该预测模型的特征提取层的参数已经经过训练,可以进行较准确的特征提取。而分类器是未经过训练的,因此,可以将组合成的预测模型进一步训练。
预测模型的训练过程中,首先,可以获取与多个用户问题分别对应的各个第三训练样本。其中,各个第三训练样本对应有相应的用户问题及其关联信息的拼接文本,以及预先标注的意图类别标签。例如,一个训练样本对应的用户问题“怎么还款”,及其关联信息“借款平台”、“我逾期了”,拼接成的拼接文本为“借款平台我逾期了怎么还款”,意图类别标签可以是对应“借款平台逾期还款”的标签,改标签可以通过数字或符号表示,如“3”。
依次将各个第三训练样本对应的拼接文本输入训练中的预测模型,并将预测模型的输出结果和对应的意图类别标签的对比调整模型参数,从而对预测模型进行训练。在具体的预测模型训练过程中,至少一个特征提取层的参数也可以经过微调。
为了更清楚地描述预测模型的训练过程,结合图4示出的一个具体实施例子进一步阐述。如图4所示,首先,对第一模型进行预训练,其中,第一模型包括至少一个特征提取层和具有预定预测任务的预测层。该第一模型例如是BERT模型。该第一模型依次经过通用语料和客服语料进行训练。然后,根据第一模型对预测模型进行初始化。初始的预测模型包括经过预训练的第一模型中的至少一个特征提取层和一个分类器。初始化预测模型的过程可以理解成第一模型训练完成后,取其中的至少一个特征提取层和一个选定的分类器生成初始的训练模型,也可以理解为将第一模型中至少一个特征提取层的模型参数对应地初始化到初始的预测模型。在预测模型的训练阶段,对于每个样本用户问题,可以将其关联信息,如场景信息、上文信息和用户问题进行拼接处理,形成拼接文本输入当前的预测模型。利用预测模型预测拼接文本对应的意图类别,并与意图类别标签(正确意图类别)对比,调整模型参数,从而完成预测模型的训练。
在本步骤203中,将步骤202中得到的拼接文本输入训练好的预测模型,经过至少一个特征提取层提取拼接文本的语义特征,经过分类器对语义特征的运算,得到相应意图类别的标识。根据该标识,可以确定相应意图类别。例如,预测模型的输出结果为标识“3”,可以确定意图类别为“借款平台逾期还款”。
根据一个可能的设计,在步骤203之后,对用户问题进行意图识别的流程还可以包括为用户问题匹配对应的答案的步骤。该步骤中,可以根据识别到的意图类别从预先存储的答案库中为上述用户问题匹配对应的答案,并将匹配到的答案反馈给用户。
在一个实施例中,可以预先存储有各个意图类别与答案库中的各个答案之间的映射关系,例如,意图类别“3”(对应借款平台逾期还款),对应答案“7”(如对应还款时需同时缴纳千分之一的逾期惩罚金等)。
在一个实施例中,该为用户问题匹配对应的答案的步骤和步骤203还可以是结合在一起的步骤。换句话说,经过意图识别,预测模型可以直接给出对应到相应答案的输出结果。此时,对预测模型进行训练的第三训练样本可以包括用户问题和对应的客服答案标签。
回顾以上过程,在对用户问题进行意图识别的过程中,一方面,预测模型的输入数据不仅包括用户问题本身,还包括与用户问题的情景相应的关联信息;另一方面,在预测模型训练之前,先对特征提取层在第一模型中基于预定预测任务进行预训练,预训练过程在通用语料训练的基础上,又通过客服语料进行优化,提升针对客服场景的模型准确度。这样,利用更多的用户信息,并对模型的准确度进行优化,从而可以提高对用户问题中包含的意图识别的准确度。
根据另一方面的实施例,还提供一种对用户问题进行意图识别的装置。图5示出根据一个实施例的用于对用户问题进行意图识别的装置的示意性框图。如图5所示,用于对用户问题进行意图识别的装置500包括:获取单元51,配置为获取用户问题,以及用户问题的关联信息,关联信息包括与用户提出问题的情景相关的信息;拼接单元52,配置为对用户问题和关联信息进行拼接处理,得到拼接文本;预测单元53,配置为将拼接文本输入预先训练的预测模型,以根据预测模型的输出结果确定用户问题对应的意图类别,其中,预测模型包括至少一个特征提取层和一个分类器,至少一个特征提取层预先在第一模型中依次通过通用语料、客服语料,按照预定预测任务进行预训练,第一模型包括至少一个特征提取层和至少一个预测层。
在可选的实施例中,关联信息包括场景信息、上文信息,拼接单元52还配置为,将场景信息、上文信息、用户问题依次拼接。
根据一个可能的设计,第一模型是包括预测语料中随机覆盖的字符及两个语句的上下文关系的多任务模型,装置500还包括第一训练单元(未示出),配置为预先通过以下方式训练第一模型:
获取通用语料对应的多个第一训练样本,训练第一模型,其中,各个第一训练样本分别对应从通用语料中抽取的两个语句组成的语句对,各个语句对中被随机覆盖掉的预定百分比的字符,并对应有根据抽取位置确定的是否上下文关系的标签;
获取客服语料对应的各个第二训练样本,进一步对经过通用语料训练后的第一模型进行训练,其中,各个第二训练样本分别对应从客服语料中抽取的两个语句组成的语句对,各个语句对中被随机覆盖掉的预定百分比的字符,并对应有根据抽取位置确定的是否上下文关系的标签。
在一个进一步的实施例中,装置500还包括第二训练单元(未示出),配置为通过以下方式训练预测模型:
获取经过客服语料训练后的第一模型中的至少一个特征提取层,并将所获取的至少一个特征提取层和预先确定的分类器组合,形成预测模型;
获取多个用户问题分别对应的各个第三训练样本,其中,各个第三训练样本对应有相应的用户问题及其关联信息的拼接文本,以及预先标注的意图类别标签;
依次将各个第三训练样本对应的拼接文本输入预测模型,并将预测模型的输出结果和对应的意图类别标签的对比调整模型参数,从而对预测模型进行训练。
在一个实施例中,装置500还包括答复单元,配置为:
根据所识别的意图类别从预先存储的答案库中为用户问题匹配对应的答案;将匹配到的答案反馈给用户。
值得说明的是,图5所示的装置500是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置500,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (12)

1.一种对用户问题进行意图识别的方法,所述方法包括:
获取所述用户问题,以及所述用户问题的关联信息,所述关联信息包括与用户提出问题的情景相关的信息;
对所述用户问题和所述关联信息进行拼接处理,得到拼接文本;
将所述拼接文本输入预先训练的预测模型,以根据所述预测模型的输出结果确定所述用户问题对应的意图类别,其中,所述预测模型包括至少一个特征提取层和一个分类器,所述至少一个特征提取层预先在第一模型中依次通过通用语料、客服语料,按照预定预测任务进行预训练,所述第一模型包括所述至少一个特征提取层和至少一个预测层。
2.根据权利要求1所述的方法,其中,所述关联信息包括场景信息、上文信息,所述将所述用户问题和所述关联信息进行拼接,得到拼接文本包括,将所述场景信息、所述上文信息、所述用户问题依次拼接。
3.根据权利要求1所述的方法,其中,所述第一模型是包括预测语料中随机覆盖的字符及两个语句的上下文关系的多任务模型,所述第一模型预先通过以下方式训练:
获取通用语料对应的多个第一训练样本,训练所述第一模型,其中,各个第一训练样本分别对应从通用语料中抽取的两个语句组成的语句对,各个语句对中被随机覆盖掉的预定百分比的字符,并对应有根据抽取位置确定的是否上下文关系的标签;
获取客服语料对应的各个第二训练样本,进一步对经过通用语料训练后的第一模型进行训练,其中,各个第二训练样本分别对应从客服语料中抽取的两个语句组成的语句对,各个语句对中被随机覆盖掉的预定百分比的字符,并对应有根据抽取位置确定的是否上下文关系的标签。
4.根据权利要求3所述的方法,其中,所述预测模型通过以下方式训练:
获取经过客服语料训练后的所述第一模型中的至少一个特征提取层,并将所获取的至少一个特征提取层和预先确定的分类器组合,形成预测模型;
获取多个用户问题分别对应的各个第三训练样本,其中,各个第三训练样本对应有相应的用户问题及其关联信息的拼接文本,以及预先标注的意图类别标签;
依次将各个第三训练样本对应的拼接文本输入预测模型,并将预测模型的输出结果和对应的意图类别标签的对比调整模型参数,从而对预测模型进行训练。
5.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述意图类别从预先存储的答案库中为所述用户问题匹配对应的答案;
将匹配到的答案反馈给用户。
6.一种对用户问题进行意图识别的装置,所述装置包括:
获取单元,配置为获取所述用户问题,以及所述用户问题的关联信息,所述关联信息包括与用户提出问题的情景相关的信息;
拼接单元,配置为对所述用户问题和所述关联信息进行拼接处理,得到拼接文本;
预测单元,配置为将所述拼接文本输入预先训练的预测模型,以根据所述预测模型的输出结果确定所述用户问题对应的意图类别,其中,所述预测模型包括至少一个特征提取层和一个分类器,所述至少一个特征提取层预先在第一模型中依次通过通用语料、客服语料,按照预定预测任务进行预训练,所述第一模型包括所述至少一个特征提取层和至少一个预测层。
7.根据权利要求6所述的装置,其中,所述关联信息包括场景信息、上文信息,所述拼接单元还配置为,将所述场景信息、所述上文信息、所述用户问题依次拼接。
8.根据权利要求6所述的装置,其中,所述第一模型是包括预测语料中随机覆盖的字符及两个语句的上下文关系的多任务模型,所述装置还包括第一训练单元,配置为预先通过以下方式训练所述第一模型:
获取通用语料对应的多个第一训练样本,训练所述第一模型,其中,各个第一训练样本分别对应从通用语料中抽取的两个语句组成的语句对,各个语句对中被随机覆盖掉的预定百分比的字符,并对应有根据抽取位置确定的是否上下文关系的标签;
获取客服语料对应的各个第二训练样本,进一步对经过通用语料训练后的第一模型进行训练,其中,各个第二训练样本分别对应从客服语料中抽取的两个语句组成的语句对,各个语句对中被随机覆盖掉的预定百分比的字符,并对应有根据抽取位置确定的是否上下文关系的标签。
9.根据权利要求8所述的装置,其中,所述装置还包括第二训练单元,配置为通过以下方式训练所述预测模型:
获取经过客服语料训练后的所述第一模型中的至少一个特征提取层,并将所获取的至少一个特征提取层和预先确定的分类器组合,形成预测模型;
获取多个用户问题分别对应的各个第三训练样本,其中,各个第三训练样本对应有相应的用户问题及其关联信息的拼接文本,以及预先标注的意图类别标签;
依次将各个第三训练样本对应的拼接文本输入预测模型,并将预测模型的输出结果和对应的意图类别标签的对比调整模型参数,从而对预测模型进行训练。
10.根据权利要求6所述的装置,其中,所述装置还包括答复单元,配置为:
根据所述意图类别从预先存储的答案库中为所述用户问题匹配对应的答案;
将匹配到的答案反馈给用户。
11.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-5中任一项的所述的方法。
12.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-5中任一项所述的方法。
CN201910553116.0A 2019-06-25 2019-06-25 对用户问题进行意图识别的方法及装置 Active CN110413746B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910553116.0A CN110413746B (zh) 2019-06-25 2019-06-25 对用户问题进行意图识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910553116.0A CN110413746B (zh) 2019-06-25 2019-06-25 对用户问题进行意图识别的方法及装置

Publications (2)

Publication Number Publication Date
CN110413746A true CN110413746A (zh) 2019-11-05
CN110413746B CN110413746B (zh) 2024-02-09

Family

ID=68359634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910553116.0A Active CN110413746B (zh) 2019-06-25 2019-06-25 对用户问题进行意图识别的方法及装置

Country Status (1)

Country Link
CN (1) CN110413746B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909145A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 针对多任务模型的训练方法及装置
CN110909144A (zh) * 2019-11-28 2020-03-24 中信银行股份有限公司 问答对话方法、装置、电子设备及计算机可读存储介质
CN110909541A (zh) * 2019-11-08 2020-03-24 杭州依图医疗技术有限公司 指令生成方法、系统、设备和介质
CN111310848A (zh) * 2020-02-28 2020-06-19 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置
CN111651986A (zh) * 2020-04-28 2020-09-11 银江股份有限公司 事件关键词提取方法、装置、设备及介质
CN111797198A (zh) * 2020-06-14 2020-10-20 武汉大学 一种从文本中识别软件体系结构坏味道讨论的方法
CN111831901A (zh) * 2020-03-26 2020-10-27 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、设备和存储介质
CN112131357A (zh) * 2020-08-21 2020-12-25 国网浙江省电力有限公司杭州供电公司 一种基于智能对话模型的用户意图识别方法及装置
CN112182229A (zh) * 2020-11-05 2021-01-05 江西高创保安服务技术有限公司 一种文本分类模型构建方法、文本分类方法及装置
CN112256844A (zh) * 2019-11-21 2021-01-22 北京沃东天骏信息技术有限公司 文本分类方法及装置
CN112256845A (zh) * 2020-09-14 2021-01-22 北京三快在线科技有限公司 意图识别方法、装置、电子设备和计算机可读存储介质
CN112270188A (zh) * 2020-11-12 2021-01-26 佰聆数据股份有限公司 一种提问式的分析路径推荐方法、系统及存储介质
CN112270189A (zh) * 2020-11-12 2021-01-26 佰聆数据股份有限公司 一种提问式的分析节点生成方法、系统及存储介质
CN112287639A (zh) * 2020-10-30 2021-01-29 上海中通吉网络技术有限公司 一种智能客服工单分类方法
CN112560498A (zh) * 2020-12-08 2021-03-26 苏州思必驰信息科技有限公司 情感检测方法和装置
CN112989839A (zh) * 2019-12-18 2021-06-18 中国科学院声学研究所 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN113609851A (zh) * 2021-07-09 2021-11-05 浙江连信科技有限公司 心理学上想法认知偏差的识别方法、装置及电子设备
CN113761139A (zh) * 2020-08-10 2021-12-07 北京沃东天骏信息技术有限公司 一种意图预判的方法和装置
CN114077831A (zh) * 2020-08-21 2022-02-22 北京金山数字娱乐科技有限公司 一种问题文本分析模型的训练方法及装置
CN114372454A (zh) * 2020-10-14 2022-04-19 腾讯科技(深圳)有限公司 文本信息抽取方法、模型训练方法、装置及存储介质
WO2023272616A1 (zh) * 2021-06-30 2023-01-05 东莞市小精灵教育软件有限公司 一种文本理解方法、系统、终端设备和存储介质
CN116644170A (zh) * 2023-06-28 2023-08-25 南京领行科技股份有限公司 回复文本生成方法、装置、通信设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109508377A (zh) * 2018-11-26 2019-03-22 南京云思创智信息科技有限公司 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨春妮等: "结合句法特征和卷积神经网络的多意图识别模型", 《计算机应用》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909541A (zh) * 2019-11-08 2020-03-24 杭州依图医疗技术有限公司 指令生成方法、系统、设备和介质
CN112256844A (zh) * 2019-11-21 2021-01-22 北京沃东天骏信息技术有限公司 文本分类方法及装置
CN110909144A (zh) * 2019-11-28 2020-03-24 中信银行股份有限公司 问答对话方法、装置、电子设备及计算机可读存储介质
CN110909145B (zh) * 2019-11-29 2022-08-09 支付宝(杭州)信息技术有限公司 针对多任务模型的训练方法及装置
CN110909145A (zh) * 2019-11-29 2020-03-24 支付宝(杭州)信息技术有限公司 针对多任务模型的训练方法及装置
CN112989839A (zh) * 2019-12-18 2021-06-18 中国科学院声学研究所 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN111310848A (zh) * 2020-02-28 2020-06-19 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置
CN111310848B (zh) * 2020-02-28 2022-06-28 支付宝(杭州)信息技术有限公司 多任务模型的训练方法及装置
CN111831901A (zh) * 2020-03-26 2020-10-27 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、设备和存储介质
CN111651986B (zh) * 2020-04-28 2024-04-02 银江技术股份有限公司 事件关键词提取方法、装置、设备及介质
CN111651986A (zh) * 2020-04-28 2020-09-11 银江股份有限公司 事件关键词提取方法、装置、设备及介质
CN111797198A (zh) * 2020-06-14 2020-10-20 武汉大学 一种从文本中识别软件体系结构坏味道讨论的方法
CN113761139A (zh) * 2020-08-10 2021-12-07 北京沃东天骏信息技术有限公司 一种意图预判的方法和装置
CN114077831A (zh) * 2020-08-21 2022-02-22 北京金山数字娱乐科技有限公司 一种问题文本分析模型的训练方法及装置
CN112131357A (zh) * 2020-08-21 2020-12-25 国网浙江省电力有限公司杭州供电公司 一种基于智能对话模型的用户意图识别方法及装置
CN112256845A (zh) * 2020-09-14 2021-01-22 北京三快在线科技有限公司 意图识别方法、装置、电子设备和计算机可读存储介质
CN114372454A (zh) * 2020-10-14 2022-04-19 腾讯科技(深圳)有限公司 文本信息抽取方法、模型训练方法、装置及存储介质
CN112287639A (zh) * 2020-10-30 2021-01-29 上海中通吉网络技术有限公司 一种智能客服工单分类方法
CN112182229A (zh) * 2020-11-05 2021-01-05 江西高创保安服务技术有限公司 一种文本分类模型构建方法、文本分类方法及装置
CN112270189A (zh) * 2020-11-12 2021-01-26 佰聆数据股份有限公司 一种提问式的分析节点生成方法、系统及存储介质
CN112270188A (zh) * 2020-11-12 2021-01-26 佰聆数据股份有限公司 一种提问式的分析路径推荐方法、系统及存储介质
CN112270188B (zh) * 2020-11-12 2023-12-12 佰聆数据股份有限公司 一种提问式的分析路径推荐方法、系统及存储介质
CN112560498A (zh) * 2020-12-08 2021-03-26 苏州思必驰信息科技有限公司 情感检测方法和装置
WO2023272616A1 (zh) * 2021-06-30 2023-01-05 东莞市小精灵教育软件有限公司 一种文本理解方法、系统、终端设备和存储介质
CN113609851A (zh) * 2021-07-09 2021-11-05 浙江连信科技有限公司 心理学上想法认知偏差的识别方法、装置及电子设备
CN116644170A (zh) * 2023-06-28 2023-08-25 南京领行科技股份有限公司 回复文本生成方法、装置、通信设备及存储介质

Also Published As

Publication number Publication date
CN110413746B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN110413746A (zh) 对用户问题进行意图识别的方法及装置
US11651163B2 (en) Multi-turn dialogue response generation with persona modeling
CN111198937B (zh) 对话生成及装置、计算机可读存储介质、电子设备
CN112346567B (zh) 基于ai的虚拟交互模型生成方法、装置及计算机设备
CN111368548A (zh) 语义识别方法及装置、电子设备和计算机可读存储介质
CN110083110A (zh) 基于自然智能的端到端控制方法和控制系统
CN111428504B (zh) 一种事件抽取方法和装置
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN107861954A (zh) 基于人工智能的信息输出方法和装置
CN110046232A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
CN110059166A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
CN110009480A (zh) 司法催收路径的推荐方法、装置、介质、电子设备
CN110059168A (zh) 对基于自然智能的人机交互系统进行训练的方法
CN110399473B (zh) 为用户问题确定答案的方法和装置
CN110059167A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
CN110008317A (zh) 自然智能的自然表达处理方法、回应方法、设备及系统
CN117271745A (zh) 一种信息处理方法、装置及计算设备、存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
CN116304014A (zh) 训练实体类型识别模型的方法、实体类型识别方法及装置
KR102446305B1 (ko) 하이라이팅 기능이 포함된 감정 분석 서비스를 위한 방법 및 장치
CN113051607A (zh) 一种隐私政策信息提取方法
CN117077656B (zh) 论证关系挖掘方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant