CN110569344B - 确定对话文本对应的标准问句的方法和装置 - Google Patents

确定对话文本对应的标准问句的方法和装置 Download PDF

Info

Publication number
CN110569344B
CN110569344B CN201910780701.4A CN201910780701A CN110569344B CN 110569344 B CN110569344 B CN 110569344B CN 201910780701 A CN201910780701 A CN 201910780701A CN 110569344 B CN110569344 B CN 110569344B
Authority
CN
China
Prior art keywords
neural network
state
network model
text
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910780701.4A
Other languages
English (en)
Other versions
CN110569344A (zh
Inventor
王雅芳
龙翀
张晓彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910780701.4A priority Critical patent/CN110569344B/zh
Publication of CN110569344A publication Critical patent/CN110569344A/zh
Application granted granted Critical
Publication of CN110569344B publication Critical patent/CN110569344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Robotics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供一种确定对话文本对应的标准问句的方法和装置。方法包括:获取目标用户与机器人之间的第一对话文本;将所述第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;获取所述目标用户针对所述第一标准问句的第二对话文本;将所述第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;根据所述奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句。能够在确定对话文本对应的标准问句时,满足用户述求。

Description

确定对话文本对应的标准问句的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及确定对话文本对应的标准问句的方法和装置。
背景技术
在机器人回答用户问题时,由于用户问句通常口语化,机器人与用户之间常常要进行多轮对话后,才能确定用户的述求。。针对多轮对话场景,在每一轮对话中都需要确定对话文本对应的标准问句,以便由机器人提供该标准问句对应的答案。其中,标准问句也称为标准问题,是根据业务整理的一些用户可能问的问题。每个问题有一个问题标识。
现有技术中,在确定对话文本对应的标准问句时,常常无法满足用户述求。
因此,希望能有改进的方案,能够在确定对话文本对应的标准问句时,满足用户述求。
发明内容
本说明书一个或多个实施例描述了一种确定对话文本对应的标准问句的方法和装置,能够在确定对话文本对应的标准问句时,满足用户述求。
第一方面,提供了一种确定对话文本对应的标准问句的方法,方法包括:
获取目标用户与机器人之间的第一对话文本;
将所述第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;
获取所述目标用户针对所述第一标准问句的第二对话文本;
将所述第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;
根据所述奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句。
在一种可能的实施方式中,所述方法还包括:
获取所述目标用户的预设历史行为的行为特征;和/或,
获取用于指示所述目标用户的行为轨迹的序列数据;
将所述行为特征和/或所述序列数据输入所述第一神经网络模型。
进一步地,所述第一神经网络模型包括:
第一网络,用于对所述第一对话文本进行特征提取,得到第一特征向量;
第二网络,用于对所述行为特征进行特征提取,得到第二特征向量;
第三网络,用于对所述序列数据进行特征提取,得到第三特征向量;
分类网络,用于对所述第一特征向量、所述第二特征向量和所述第三特征向量拼接后得到综合特征向量,根据所述综合特征向量确定所述第一标准问句。
进一步地,所述第一网络包括:
长短期记忆网络(long short-term memory,LSTM),用于对所述第一对话文本进行特征提取,得到第一特征子向量;
深度神经网络(deep neural networks,DNN),用于对所述第一对话文本进行特征提取,得到第二特征子向量;
卷积神经网络(convolutional neural networks,CNN),用于对所述第一对话文本进行特征提取,得到第三特征子向量;
拼接网络,用于对所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到速搜第一特征向量。
进一步地,所述第二网络包括:
深度神经网络DNN,用于对所述行为特征进行特征提取,得到所述第二特征向量。
进一步地,所述第三网络包括:
长短期记忆网络LSTM,用于对所述序列数据进行特征提取,得到所述第三特征向量。
在一种可能的实施方式中,所述确定所述第一状态和所述第一动作组成的状态动作对的奖励,包括:
当所述第二对话文本为用于否认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为预先设定的负数。
进一步地,所述确定所述第一状态和所述第一动作组成的状态动作对的奖励,包括:
当所述第二对话文本为用于确认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为之前对话文本的累计奖励与预先设定的对话总轮数阈值之和。
在一种可能的实施方式中,所述根据所述奖励对所述第一神经网络模型进行强化训练,包括:
根据所述奖励调整所述第一神经网络模型输出各标准问句的各概率;
根据调整后的各概率对所述第一神经网络模型进行强化训练。
在一种可能的实施方式中,所述根据所述奖励对所述第一神经网络模型进行强化训练,包括:
根据所述状态动作对和所述奖励,利用时间差分法对所述第二神经网络模型进行训练,所述第二神经网络模型用于确定当前状态下采取目标动作后会获得的未来的奖励的期望;
将所述状态动作对输入训练后的所述第二神经网络模型,根据训练后的所述第二神经网络模型的输出,以最大化奖励为目标对所述第一神经网络模型进行强化训练。
第二方面,提供了一种确定对话文本对应的标准问句的装置,装置包括:
获取单元,用于获取目标用户与机器人之间的第一对话文本;
确定单元,用于将所述获取单元获取的第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;
所述获取单元,还用于获取所述目标用户针对所述确定单元得到的第一标准问句的第二对话文本;
奖励单元,用于将所述获取单元获取的第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;
训练单元,用于根据所述奖励单元确定的奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取目标用户与机器人之间的第一对话文本;然后将所述第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;接着获取所述目标用户针对所述第一标准问句的第二对话文本;再将所述第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;最后根据所述奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句。由上可见,本说明书实施例,采用强化学习建模多轮对话,状态对应于对话文本,动作对应于根据当前状态猜测的标准问句,根据动作作用于环境后的状态确定奖励,用强化学习框架将前后对话关联起来,从而能够在确定对话文本对应的标准问句时,满足用户述求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的针对多轮对话的处理方法流程图;
图3示出根据一个实施例的确定对话文本对应的标准问句的方法流程图;
图4示出根据一个实施例的第一神经网络模型的结构示意图;
图5示出根据另一个实施例的第一神经网络模型的结构示意图;
图6示出根据一个实施例的确定对话文本对应的标准问句的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及确定对话文本对应的标准问句,其中,上述对话文本具体为用户与机器人之间的多轮对话中用户的对话文本。参照图1,第一阶段,进行的是用户跟机器对话,也就是说,由机器人回答用户问题,其中,机器人具体可以为机器人客服。第二阶段,进行的是用户跟小二对话,可以理解的是,小二即人工客服,也就是说,由人工客服回答用户问题。在第一阶段,用户与机器人之间的多轮对话的轮数达到预先设定的对话总轮数阈值时,会进入第二阶段,由人工客服回答用户问题。
可以理解的是,可以预先针对用户跟机器对话的轮数设定阈值,例如,设定阈值为3,第一阶段,当用户跟机器对话的轮数达到3轮,且用户仍然表示机器确定的标准问句不满足其述求时,由第一阶段切换为第二阶段,由人工客服回答用户问题。
图2示出根据一个实施例的针对多轮对话的处理方法流程图,该方法涵盖了图1所示的第一阶段和第二阶段的处理过程。在第一阶段,引导用户说出需求,机器跟用户对话,详细分析用户需求,进行问题识别,也就是确定对话文本对应的标准问句。当问题识别不成功时,进入第二阶段,智能派单,小二跟用户对话并且标注用户问题,其中,智能派单即确定多轮对话对应的人工客服技能组,标注用户问题即标注对话文本对应的标准问句。
在一个示例中,机器在接收到用户问句后,针对用户问句,确定该用户问句对应的标准问句,并将确定的标准问句展示给用户,由用户确认该标准问句是否满足其述求,如果用户确认该标准问句不满足其述求,则由用户补充部分描述,机器会针对与用户之间的多轮对话,再次确定该多轮对话对应的标准问句。当机器与用户之间的对话轮数达到预设阈值,并且仍然不满足用户述求时,确定多轮对话对应的人工客服技能组,由人工客服跟用户对话并且标注多轮对话对应的标准问句。
本说明书实施例,多轮对话对应的标准问句即对话文本对应的标准问句,当用户与机器人之间已经进行了多轮对话时,可以将用户的各轮对话的对话文本结合起来确定用户述求,也就是说,将用户的各轮对话的对话文本结合起来确定标准问句。
本说明书实施例,各轮对话的对话文本之间具有时间上的先后顺序,因此可以采用强化学习框架将前后对话关联起来,状态之间有前后关系。
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体(agent)如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。强化学习与其他机器学习算法不同的地方在于:其中没有监督者,只有一个奖励(reward)信号;反馈是延迟的,不是立即生成的;时间在强化学习中具有重要的意义;有机体的行为会影响之后一系列的数据。
本说明书实施例,通过强化学习建模多轮对话,做问题识别。
图3示出根据一个实施例的确定对话文本对应的标准问句的方法流程图,该方法可以基于图1所示的应用场景。如图3所示,该实施例中确定对话文本对应的标准问句的方法包括以下步骤:步骤31,获取目标用户与机器人之间的第一对话文本;步骤32,将所述第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;步骤33,获取所述目标用户针对所述第一标准问句的第二对话文本;步骤34,将所述第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;步骤35,根据所述奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句。下面描述以上各个步骤的具体执行方式。
首先在步骤31,获取目标用户与机器人之间的第一对话文本。可以理解的是,若目标用户与机器人之间已经进行了多轮对话,则第一对话文本可以为最后一轮对话中目标用户的对话文本,或者,第一对话文本可以为各轮对话中目标用户的对话文本拼接后的对话文本。
然后在步骤32,将所述第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句。可以理解的是,可以仅将对话文本作为第一神经网络模型的输入,或者,为了使第一神经网络模型的分类结果更为准确,还可以将目标用户的其他特征作为第一神经网络模型的输入,结合目标用户的其他特征来确定标准问句。
在一个示例中,获取所述目标用户的预设历史行为的行为特征;和/或,获取用于指示所述目标用户的行为轨迹的序列数据;将所述行为特征和/或所述序列数据输入所述第一神经网络模型。
进一步地,所述第一神经网络模型包括:
第一网络,用于对所述第一对话文本进行特征提取,得到第一特征向量;
第二网络,用于对所述行为特征进行特征提取,得到第二特征向量;
第三网络,用于对所述序列数据进行特征提取,得到第三特征向量;
分类网络,用于对所述第一特征向量、所述第二特征向量和所述第三特征向量拼接后得到综合特征向量,根据所述综合特征向量确定所述第一标准问句。
进一步地,所述第一网络包括:
长短期记忆网络(long short-term memory,LSTM),用于对所述第一对话文本进行特征提取,得到第一特征子向量;
深度神经网络(deep neural networks,DNN),用于对所述第一对话文本进行特征提取,得到第二特征子向量;
卷积神经网络(convolutional neural networks,CNN),用于对所述第一对话文本进行特征提取,得到第三特征子向量;
拼接网络,用于对所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到速搜第一特征向量。
进一步地,所述第二网络包括:
深度神经网络DNN,用于对所述行为特征进行特征提取,得到所述第二特征向量。
进一步地,所述第三网络包括:
长短期记忆网络LSTM,用于对所述序列数据进行特征提取,得到所述第三特征向量。
图4示出根据一个实施例的第一神经网络模型的结构示意图,该结构适应于仅将对话文本作为第一神经网络模型的输入。参照图4,所述第一神经网络模型包括LSTM、DNN和CNN;其中,所述LSTM用于对对话文本进行特征提取,得到第一特征子向量41;所述DNN用于对对话文本进行特征提取,得到第二特征子向量42;所述CNN用于对对话文本进行特征提取,得到第三特征子向量43;所述第一特征子向量41、所述第二特征子向量42和所述第三特征子向量43拼接后得到第一特征向量44。
图5示出根据另一个实施例的第一神经网络模型的结构示意图,该结构适应于将对话文本和用户的其他特征作为第一神经网络模型的输入。参照图5,该第一神经网络模型包括第一网络51、第二网络52和第三网络53。其中,第一网络51用于输入对话文本,即用于接收短文本输入(short text input);第二网络52用于输入行为特征,即用于接收因子输入(factor input);第三网络53用于输入序列数据,即用于接收行为输入(behaviorinput)。分类网络,用于对第一网络51、第二网络52和第三网络53输出的特征向量拼接后得到综合特征向量,最后由分类器(例如softmax)根据所述综合特征向量确定标准问句。
本说明书实施例,LSTM可以替换为循环神经网络(recurrent neural networks,RNN)或门控循环单元(gated recurrent unit,GRU)。
接着在步骤33,获取所述目标用户针对所述第一标准问句的第二对话文本。可以理解的是,目标用户与机器人的对话过程是一个多轮交互的过程,首先目标用户输入第一对话文本,机器人输出第一标准问句,目标用户输入第二对话文本,也就是说,第一对话文本和第二对话文本在时间上有先后顺序,并且,通常地,第二对话文本用于确认或否认所述第一标准问句。
再在步骤34,将所述第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励。可以理解的是,奖励作为一种反馈,可以用于对第一神经网络模型进行训练。
在一个示例中,当所述第二对话文本为用于否认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为预先设定的第一数值;当所述第二对话文本为用于确认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为预先设定的第二数值,其中,第一数值小于第二数值。例如,第一数值为-1,第二数值为+1。这种奖励的设定方式比较简单,并且能够体现状态动作对是否匹配。
在另一个示例中,当所述第二对话文本为用于否认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为预先设定的负数。进一步地,当所述第二对话文本为用于确认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为之前对话文本的累计奖励与预先设定的对话总轮数阈值之和。例如,预先设定的对话总轮数阈值为4,机器人在前两轮对话中均猜错了标准问句,在第三轮对话中猜对了标准问句,则第三轮对应的状态动作对的奖励为-2+4,也就是奖励为+2。这种奖励的设定方式结合了对话轮数,能够让第一神经网络模型尽快猜对用户的问题,对话轮数越少越好。
最后在步骤35,根据所述奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句。可以理解的是,经过强化训练后,第一神经网络模型会表现的越来越好。
在一个示例中,根据所述奖励调整所述第一神经网络模型输出各标准问句的各概率;根据调整后的各概率对所述第一神经网络模型进行强化训练。具体地,可以采用策略梯度(policy gredient,PG)算法。
在另一个示例中,根据所述状态动作对和所述奖励,利用时间差分法对所述第二神经网络模型进行训练,所述第二神经网络模型用于确定当前状态下采取目标动作后会获得的未来的奖励的期望;将所述状态动作对输入训练后的所述第二神经网络模型,根据训练后的所述第二神经网络模型的输出,以最大化奖励为目标对所述第一神经网络模型进行强化训练。具体地,可以采用玩家(actor)-评委(critic)算法,比如深度确定性的策略梯度(deep deterministic policy gradient,DDPG)算法和深度增强学习(proximal policyoptimization,PPO)算法。对于actor-critic算法,其中actor部分,输入是状态,输出是动作,上述动作具体为标准问句,actor可以采用图4或图5所示的模型;其中critic部分,输入是状态动作对,输出是该状态动作对的价值,critic可以采用模型或函数。
通过本说明书实施例提供的方法,首先获取目标用户与机器人之间的第一对话文本;然后将所述第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;接着获取所述目标用户针对所述第一标准问句的第二对话文本;再将所述第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;最后根据所述奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句。由上可见,本说明书实施例,采用强化学习建模多轮对话,状态对应于对话文本,动作对应于根据当前状态猜测的标准问句,根据动作作用于环境后的状态确定奖励,用强化学习框架将前后对话关联起来,从而能够在确定对话文本对应的标准问句时,满足用户述求。
根据另一方面的实施例,还提供一种确定对话文本对应的标准问句的装置,该装置用于执行本说明书实施例提供的确定对话文本对应的标准问句的方法。图6示出根据一个实施例的确定对话文本对应的标准问句的装置的示意性框图。如图6所示,该装置600包括:
获取单元61,用于获取目标用户与机器人之间的第一对话文本;
确定单元62,用于将所述获取单元61获取的第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;
所述获取单元61,还用于获取所述目标用户针对所述确定单元62得到的第一标准问句的第二对话文本;
奖励单元63,用于将所述获取单元61获取的第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;
训练单元64,用于根据所述奖励单元63确定的奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句。
可选地,作为一个实施例,所述获取单元61,还用于获取所述目标用户的预设历史行为的行为特征;和/或,获取用于指示所述目标用户的行为轨迹的序列数据;
所述确定单元62,还用于将所述获取单元61获取的所述行为特征和/或所述序列数据输入所述第一神经网络模型。
进一步地,所述第一神经网络模型包括:
第一网络,用于对所述第一对话文本进行特征提取,得到第一特征向量;
第二网络,用于对所述行为特征进行特征提取,得到第二特征向量;
第三网络,用于对所述序列数据进行特征提取,得到第三特征向量;
分类网络,用于对所述第一特征向量、所述第二特征向量和所述第三特征向量拼接后得到综合特征向量,根据所述综合特征向量确定所述第一标准问句。
进一步地,所述第一网络包括:
长短期记忆网络LSTM,用于对所述第一对话文本进行特征提取,得到第一特征子向量;
深度神经网络DNN,用于对所述第一对话文本进行特征提取,得到第二特征子向量;
卷积神经网络CNN,用于对所述第一对话文本进行特征提取,得到第三特征子向量;
拼接网络,用于对所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到所述第一特征向量。
进一步地,所述第二网络包括:
深度神经网络DNN,用于对所述行为特征进行特征提取,得到所述第二特征向量。
进一步地,所述第三网络包括:
长短期记忆网络LSTM,用于对所述序列数据进行特征提取,得到所述第三特征向量。
可选地,作为一个实施例,所述奖励单元63,具体用于当所述第二对话文本为用于否认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为预先设定的负数。
进一步地,所述奖励单元63,还用于当所述第二对话文本为用于确认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为之前对话文本的累计奖励与预先设定的对话总轮数阈值之和。
可选地,作为一个实施例,所述训练单元64,具体用于:
根据所述奖励调整所述第一神经网络模型输出各标准问句的各概率;
根据调整后的各概率对所述第一神经网络模型进行训练。
可选地,作为一个实施例,所述训练单元64,具体用于:
根据所述状态动作对和所述奖励,利用时间差分法对所述第二神经网络模型进行训练,所述第二神经网络模型用于确定当前状态下采取目标动作后会获得的未来的奖励的期望;
将所述状态动作对输入训练后的所述第二神经网络模型,根据训练后的所述第二神经网络模型的输出,以最大化奖励为目标对所述第一神经网络模型进行训练。
通过本说明书实施例提供的装置,首先获取单元61获取目标用户与机器人之间的第一对话文本;然后确定单元62将所述第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;接着获取单元61获取所述目标用户针对所述第一标准问句的第二对话文本;再由奖励单元63将所述第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;最后训练单元64根据所述奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句。由上可见,本说明书实施例,采用强化学习建模多轮对话,状态对应于对话文本,动作对应于根据当前状态猜测的标准问句,根据动作作用于环境后的状态确定奖励,用强化学习框架将前后对话关联起来,从而能够在确定对话文本对应的标准问句时,满足用户述求。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (18)

1.一种确定对话文本对应的标准问句的方法,所述方法包括:
获取目标用户与机器人之间的第一对话文本;
将所述第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;
获取所述目标用户针对所述第一标准问句的第二对话文本;
将所述第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;
根据所述奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句;
其中,所述方法还包括:
获取所述目标用户的预设历史行为的行为特征;和/或,
获取用于指示所述目标用户的行为轨迹的序列数据;
将所述行为特征和/或所述序列数据输入所述第一神经网络模型;
其中,所述第一神经网络模型包括:
第一网络,用于对所述第一对话文本进行特征提取,得到第一特征向量;
第二网络,用于对所述行为特征进行特征提取,得到第二特征向量;
第三网络,用于对所述序列数据进行特征提取,得到第三特征向量;
分类网络,用于对所述第一特征向量、所述第二特征向量和所述第三特征向量拼接后得到综合特征向量,根据所述综合特征向量确定所述第一标准问句。
2.如权利要求1所述的方法,其中,所述第一网络包括:
长短期记忆网络LSTM,用于对所述第一对话文本进行特征提取,得到第一特征子向量;
深度神经网络DNN,用于对所述第一对话文本进行特征提取,得到第二特征子向量;
卷积神经网络CNN,用于对所述第一对话文本进行特征提取,得到第三特征子向量;
拼接网络,用于对所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到所述第一特征向量。
3.如权利要求1所述的方法,其中,所述第二网络包括:
深度神经网络DNN,用于对所述行为特征进行特征提取,得到所述第二特征向量。
4.如权利要求1所述的方法,其中,所述第三网络包括:
长短期记忆网络LSTM,用于对所述序列数据进行特征提取,得到所述第三特征向量。
5.如权利要求1所述的方法,其中,所述确定所述第一状态和所述第一动作组成的状态动作对的奖励,包括:
当所述第二对话文本为用于否认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为预先设定的负数。
6.如权利要求5所述的方法,其中,所述确定所述第一状态和所述第一动作组成的状态动作对的奖励,包括:
当所述第二对话文本为用于确认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为之前对话文本的累计奖励与预先设定的对话总轮数阈值之和。
7.如权利要求1所述的方法,其中,所述根据所述奖励对所述第一神经网络模型进行强化训练,包括:
根据所述奖励调整所述第一神经网络模型输出各标准问句的各概率;
根据调整后的各概率对所述第一神经网络模型进行强化训练。
8.如权利要求1所述的方法,其中,所述根据所述奖励对所述第一神经网络模型进行强化训练,包括:
根据所述状态动作对和所述奖励,利用时间差分法对第二神经网络模型进行训练,所述第二神经网络模型用于确定当前状态下采取目标动作后会获得的未来的奖励的期望;
将所述状态动作对输入训练后的所述第二神经网络模型,根据训练后的所述第二神经网络模型的输出,以最大化奖励为目标对所述第一神经网络模型进行强化训练。
9.一种确定对话文本对应的标准问句的装置,所述装置包括:
获取单元,用于获取目标用户与机器人之间的第一对话文本;
确定单元,用于将所述获取单元获取的第一对话文本作为第一状态输入第一神经网络模型,通过所述第一神经网络模型输出第一动作,所述第一动作对应于第一标准问句;
所述获取单元,还用于获取所述目标用户针对所述确定单元得到的第一标准问句的第二对话文本;
奖励单元,用于将所述获取单元获取的第二对话文本作为第二状态,根据所述第二状态,确定所述第一状态和所述第一动作组成的状态动作对的奖励;
训练单元,用于根据所述奖励单元确定的奖励对所述第一神经网络模型进行强化训练,强化训练后的所述第一神经网络模型用于确定后续的对话文本对应的标准问句;
其中:
所述获取单元,还用于获取所述目标用户的预设历史行为的行为特征;和/或,获取用于指示所述目标用户的行为轨迹的序列数据;
所述确定单元,还用于将所述获取单元获取的所述行为特征和/或所述序列数据输入所述第一神经网络模型;
其中,所述第一神经网络模型包括:
第一网络,用于对所述第一对话文本进行特征提取,得到第一特征向量;
第二网络,用于对所述行为特征进行特征提取,得到第二特征向量;
第三网络,用于对所述序列数据进行特征提取,得到第三特征向量;
分类网络,用于对所述第一特征向量、所述第二特征向量和所述第三特征向量拼接后得到综合特征向量,根据所述综合特征向量确定所述第一标准问句。
10.如权利要求9所述的装置,其中,所述第一网络包括:
长短期记忆网络LSTM,用于对所述第一对话文本进行特征提取,得到第一特征子向量;
深度神经网络DNN,用于对所述第一对话文本进行特征提取,得到第二特征子向量;
卷积神经网络CNN,用于对所述第一对话文本进行特征提取,得到第三特征子向量;
拼接网络,用于对所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到所述第一特征向量。
11.如权利要求9所述的装置,其中,所述第二网络包括:
深度神经网络DNN,用于对所述行为特征进行特征提取,得到所述第二特征向量。
12.如权利要求9所述的装置,其中,所述第三网络包括:
长短期记忆网络LSTM,用于对所述序列数据进行特征提取,得到所述第三特征向量。
13.如权利要求9所述的装置,其中,所述奖励单元,具体用于当所述第二对话文本为用于否认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为预先设定的负数。
14.如权利要求13所述的装置,其中,所述奖励单元,还用于当所述第二对话文本为用于确认所述第一标准问句的文本时,确定所述第一状态和所述第一动作组成的状态动作对的奖励为之前对话文本的累计奖励与预先设定的对话总轮数阈值之和。
15.如权利要求9所述的装置,其中,所述训练单元,具体用于:
根据所述奖励调整所述第一神经网络模型输出各标准问句的各概率;
根据调整后的各概率对所述第一神经网络模型进行训练。
16.如权利要求9所述的装置,其中,所述训练单元,具体用于:
根据所述状态动作对和所述奖励,利用时间差分法对第二神经网络模型进行训练,所述第二神经网络模型用于确定当前状态下采取目标动作后会获得的未来的奖励的期望;
将所述状态动作对输入训练后的所述第二神经网络模型,根据训练后的所述第二神经网络模型的输出,以最大化奖励为目标对所述第一神经网络模型进行训练。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项的所述的方法。
CN201910780701.4A 2019-08-22 2019-08-22 确定对话文本对应的标准问句的方法和装置 Active CN110569344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910780701.4A CN110569344B (zh) 2019-08-22 2019-08-22 确定对话文本对应的标准问句的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910780701.4A CN110569344B (zh) 2019-08-22 2019-08-22 确定对话文本对应的标准问句的方法和装置

Publications (2)

Publication Number Publication Date
CN110569344A CN110569344A (zh) 2019-12-13
CN110569344B true CN110569344B (zh) 2023-06-02

Family

ID=68774478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910780701.4A Active CN110569344B (zh) 2019-08-22 2019-08-22 确定对话文本对应的标准问句的方法和装置

Country Status (1)

Country Link
CN (1) CN110569344B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221945B (zh) * 2020-04-24 2020-08-04 支付宝(杭州)信息技术有限公司 基于用户问句生成标准问题的方法和装置
CN111753076B (zh) * 2020-08-12 2022-08-26 腾讯科技(深圳)有限公司 对话方法、装置、电子设备及可读存储介质
CN113240436A (zh) * 2021-04-22 2021-08-10 北京沃东天骏信息技术有限公司 在线客服话术质检的方法和装置
CN114492465B (zh) * 2022-02-14 2023-06-16 平安科技(深圳)有限公司 对话生成模型训练方法和装置、对话生成方法、电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804611A (zh) * 2018-05-30 2018-11-13 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统
CN109992657A (zh) * 2019-04-03 2019-07-09 浙江大学 一种基于强化动态推理的对话式问题生成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106448670B (zh) * 2016-10-21 2019-11-19 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话系统
EP3596727B1 (en) * 2017-05-15 2022-04-13 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN107342078B (zh) * 2017-06-23 2020-05-05 上海交通大学 对话策略优化的冷启动系统和方法
US10424302B2 (en) * 2017-10-12 2019-09-24 Google Llc Turn-based reinforcement learning for dialog management
CN109086329B (zh) * 2018-06-29 2021-01-05 出门问问信息科技有限公司 基于话题关键词引导的进行多轮对话方法及装置
CN108897896B (zh) * 2018-07-13 2020-06-02 深圳追一科技有限公司 基于强化学习的关键词抽取方法
CN109063035B (zh) * 2018-07-16 2021-11-09 哈尔滨工业大学 一种面向出行领域的人机多轮对话方法
CN109597876B (zh) * 2018-11-07 2023-04-11 中山大学 一种基于强化学习的多轮对话答复选择模型及其方法
CN110008322B (zh) * 2019-03-25 2023-04-07 创新先进技术有限公司 多轮对话场景下的话术推荐方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804611A (zh) * 2018-05-30 2018-11-13 浙江大学 一种基于自我评论序列学习的对话回复生成方法及系统
CN109992657A (zh) * 2019-04-03 2019-07-09 浙江大学 一种基于强化动态推理的对话式问题生成方法

Also Published As

Publication number Publication date
CN110569344A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110569344B (zh) 确定对话文本对应的标准问句的方法和装置
CN110427617B (zh) 推送信息的生成方法及装置
CN112365894B (zh) 基于ai的复合语音交互方法、装置及计算机设备
CN106448670A (zh) 基于深度学习和强化学习的自动回复对话系统
CN110543554A (zh) 针对多轮对话的分类方法和装置
CN111309914B (zh) 基于多个模型结果对多轮对话的分类方法和装置
WO2020062006A1 (en) Intent and context-aware dialogue based virtual assistance
CN110647621A (zh) 机器人客服引导对话中选择话术的方法和装置
CN113360622B (zh) 用户对话信息的处理方法、装置及计算机设备
Shukla et al. What should I ask? using conversationally informative rewards for goal-oriented visual dialog
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN108628908B (zh) 分类用户提问-回答界限的方法、装置和电子设备
US11995523B2 (en) Systems and methods for determining training parameters for dialog generation
CN111199149B (zh) 一种对话系统的语句智能澄清方法及系统
JP2019020684A (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
CN111078856A (zh) 一种群聊对话处理方法、装置及电子设备
CN114821744A (zh) 基于表情识别的虚拟人物驱动方法、装置及设备
CN111400466A (zh) 一种基于强化学习的智能对话方法及装置
CN111324736B (zh) 人机对话模型训练方法、人机对话方法及系统
CN112199486A (zh) 一种办公场景的任务型多轮对话方法及系统
CN112084317A (zh) 预训练语言模型的方法和装置
CN113901189A (zh) 一种数字人交互方法、装置、电子设备及存储介质
CN110503943B (zh) 一种语音交互方法以及语音交互系统
CN111400479B (zh) 针对多轮对话的问题识别方法和装置
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant