CN115982336A - 动态对话状态图学习方法、装置、系统及存储介质 - Google Patents

动态对话状态图学习方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN115982336A
CN115982336A CN202310116431.3A CN202310116431A CN115982336A CN 115982336 A CN115982336 A CN 115982336A CN 202310116431 A CN202310116431 A CN 202310116431A CN 115982336 A CN115982336 A CN 115982336A
Authority
CN
China
Prior art keywords
representation
state diagram
utterance
node
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310116431.3A
Other languages
English (en)
Other versions
CN115982336B (zh
Inventor
周正斌
王震
花福军
钟凯
肖美虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Information Technology Co ltd
Original Assignee
Creative Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Information Technology Co ltd filed Critical Creative Information Technology Co ltd
Priority to CN202310116431.3A priority Critical patent/CN115982336B/zh
Publication of CN115982336A publication Critical patent/CN115982336A/zh
Application granted granted Critical
Publication of CN115982336B publication Critical patent/CN115982336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种动态对话状态图学习方法、装置、系统及存储介质,该方法包括获取当前对话话语的表示;对所述当前对话话语的表示进行增强处理;其中,所述增强处理包括结构化增强表示和非结构化增强表示;根据当前对话话语的表示,生成对话状态图,并将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图;基于更新后的对话状态图,确定对话整体的状态表示。本发明针对多轮对话的特征,通过动态地生成更新对话状态图,并能为对话话语生成表示,对话状态图和这些表示可以被利用到对话系统中,有效提升对话话语的学习和表示能力,解决了目前对话状态图生成忽略了当前对话整体状态对话语标识产生影响的技术问题。

Description

动态对话状态图学习方法、装置、系统及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及到一种动态对话状态图学习方法、装置、系统及存储介质。
背景技术
随着深度学习的快速发展,自然语言处理领域中的各种任务的效果都得到了提升。在自然语言处理的多轮对话的研究中,最基本且最具有挑战性的任务类型是对话理解,其作用是使机器能够阅读和理解上下文。与纯文本阅读相比,多轮对话中经常存在交叉依赖关系,即在对话中说话者的转换是随机的,打破了普通非对话文本的连续性,并且话语的顺序影响着对话的模式,不同时刻发生的对话话语也对多轮对话的理解有不同的贡献,总的来说,最近说出的话语将更具有决定性。与单轮对话相比,多轮对话的话语可能会省略之前话语提到过的信息,或是用代词替代,这增加了机器理解对话话语的难度。最重要的,在一个对话历史中可能会有多个对话话题,并且在对话中话题的转变是很常见且难以检测的。
在以往处理多轮对话话语的方法中,大多数方法将话语表示输入到RNN中,如LSTM、GRU,来编码多轮对话中新发生的话语。这种方式虽然能够对多轮对话进行表示,但是它将对话的结构统一看作是一条链,然而基于多轮对话的特性,对话结构应该会更复杂。之后有人提出了对更复杂的对话结构进行编码,并根据对话结构来增强话语表示,大量实验证明了这种方法的有效性。而在对话结构生成的模型中,目前的方法是直接将新话语的单词表示输入到LSTM或Bi-LSTM中来获取话语表示,这种方式忽略了当前对话整体状态对话语表示产生的影响,这样可能会使机器在对新的话语进行理解时忽略一些信息,导致机器不能很好的理解话语并更新对话状态图。
因此需要设计一种动态对话状态图学习的方法,能够在对话语进行表示时更好地考虑对话结构和对话历史信息,并更好地生成更新对话状态图。
发明内容
本发明的主要目的在于提供一种动态对话状态图学习方法、装置、系统及存储介质,旨在解决目前对话状态图生成忽略了当前对话整体状态对话语标识产生影响的技术问题。
为实现上述目的,本发明提供一种动态对话状态图学习方法,所述方法包括以下步骤:
获取当前对话话语的表示;
对所述当前对话话语的表示进行增强处理;其中,所述增强处理包括结构化增强表示和非结构化增强表示;
根据当前对话话语的表示,生成对话状态图,并将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图;
基于更新后的对话状态图,确定对话整体的状态表示。
可选的,所述获取当前对话话语的表示步骤,具体包括:将当前对话话语中单词的初始表示和对话整体状态的表示输入到BERT,通过BERT来获取对话话语中单词的表示,再将单词的表示输入到Bi-LSTM中来获取对话话语的表示。
可选的,所述结构化增强表示,具体包括:按照已有的对话状态图中根节点到新对话话语对应节点的路径,将路径中的对话话语表示输入到LSTM,以获取当前话语的结构化增强表示。
可选的,所述非结构化增强表示,具体包括:按照对话话语发生的顺序将对话话语表示输入到LSTM,以获得当前话语的非结构化增强表示。
可选的,所述将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图,具体包括:将新对话话语的表示与对话状态图中存在的节点话语的结构化增强表示和非结构化表示连接,根据连接的表示分别使用两个神经网络来判断新节点与已存在的哪个节点连接,以及连接的边的类型。
可选的,所述根据连接的表示分别使用两个神经网络来判断新节点与已存在的哪个节点连接,以及连接的边的类型步骤,具体包括:
将新对话话语的表示、非结构化表示和对话状态图中存在的对话话语的非结构化表示、结构化增强表示连接,并计算所有已存在节点的分数,将分数最高的节点作为新节点的父节点,并将新节点添加到对话状态图中,表达式具体为:
Figure SMS_1
其中,当前添加的新节点为j,目前图中已存在的各个节点为k,
Figure SMS_2
为节点j的话语表示,
Figure SMS_5
Figure SMS_7
分别为节点j和节点k的非结构化增强表示,
Figure SMS_4
为节点k的结构化增强表示,
Figure SMS_6
为连接操作,
Figure SMS_8
为上述表示的连接,用于之后计算节点k的分数,
Figure SMS_9
为一个两层的神经网络,
Figure SMS_3
为节点k的分数;
计算新节点与其父节点连接边的类型,选择分数最高的类型作为新节点和其父节点连接的边的类型,表达式具体为:
Figure SMS_10
其中
Figure SMS_11
为新节点j的话语表示、非结构化增强表示和其父节点k的结构化增强表示、非结构化增强表示的连接,
Figure SMS_12
为每个边类型的分数向量。
可选的,所述基于更新后的对话状态图,确定对话整体的状态表示,具体包括:通过Tree-structure LSTM对对话状态图中的节点进行一次编码,最后取根节点的Tree-structure LSTM输出来作为对话整体状态的表示。
此外,为了实现上述目的,本发明还提供了一种动态对话状态图学习装置,所述动态对话状态图学习装置包括:
获取模块,用于获取当前对话话语的表示;
增强处理模块,用于对所述当前对话话语的表示进行增强处理;其中,所述增强处理包括结构化增强表示和非结构化增强表示;
更新模块,用于根据当前对话话语的表示,生成对话状态图,并将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图;
确定模块,用于基于更新后的对话状态图,确定对话整体的状态表示。
此外,为了实现上述目的,本发明还提供了一种动态对话状态图学习系统,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的动态对话状态图学习程序,所述动态对话状态图学习程序被所述处理器执行时实现如上所述的动态对话状态图学习方法的步骤。
此外,为了实现上述目的,本发明还提供了一种存储介质,所述存储介质上存储有动态对话状态图学习程序,所述动态对话状态图学习程序被处理器执行时实现如上所述的动态对话状态图学习方法的步骤。
本发明实施例提出的一种动态对话状态图学习方法、装置、系统及存储介质,该方法包括获取当前对话话语的表示;对所述当前对话话语的表示进行增强处理;其中,所述增强处理包括结构化增强表示和非结构化增强表示;根据当前对话话语的表示,生成对话状态图,并将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图;基于更新后的对话状态图,确定对话整体的状态表示。本发明针对多轮对话的特征,通过动态地生成更新对话状态图,并能为对话话语生成表示,对话状态图和这些表示可以被利用到对话系统中,有效提升对话话语的学习和表示能力,解决了目前对话状态图生成忽略了当前对话整体状态对话语标识产生影响的技术问题。
附图说明
图1为本发明实施例中一种动态对话状态图学习系统的结构示意图。
图2为本发明实施例中一种动态对话状态图学习方法的流程示意图。
图3为本发明实施例中一种动态对话状态图学习方法的实例示意图。
图4为本发明实施例中一种动态对话状态图学习方法的原理示意图。
图5为本发明实施例中一种动态对话状态图学习装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在对话结构生成的模型中,目前的方法是直接将新话语的单词表示输入到LSTM或Bi-LSTM中来获取话语表示,这种方式忽略了当前对话整体状态对话语表示产生的影响,这样可能会使机器在对新的话语进行理解时忽略一些信息,导致机器不能很好的理解话语并更新对话状态图。
为了解决这一问题,提出本发明的动态对话状态图学习方法的各个实施例。本发明提供的动态对话状态图学习方法针对多轮对话的特征,通过动态地生成更新对话状态图,并能为对话话语生成表示,对话状态图和这些表示可以被利用到对话系统中,有效提升对话话语的学习和表示能力,解决了目前对话状态图生成忽略了当前对话整体状态对话语标识产生影响的技术问题。
本发明实施例提供了一种动态对话状态图学习系统,参照图1,图1为本发明实施例方案涉及的动态对话状态图学习系统的结构示意图。
通常,系统包括:至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的动态对话状态图学习程序,所述动态对话状态图学习程序配置为实现如前所述的动态对话状态图学习方法的步骤。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关动态对话状态图学习操作,使得动态对话状态图学习模型可以自主训练学习,提高效率和准确度。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的动态对话状态图学习方法。
在一些实施例中,终端还可选包括有:通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地,外围设备包括:射频电路304、显示屏305和电源306中的至少一种。
通信接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。通信接口303通过外围设备用于接收用户上传的多个移动终端的移动轨迹以及其他数据。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信,从而可获取多个移动终端的移动轨迹以及其他数据。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(NearField Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,电子设备的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图1中示出的结构并不构成对动态对话状态图学习系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例提供了一种动态对话状态图学习方法,参照图2,图2为本发明动态对话状态图学习方法实施例的流程示意图。
本实施例中,所述动态对话状态图学习方法,包括以下步骤:
步骤S100,获取当前对话话语的表示。
本实施例中,获取当前对话话语的表示,具体包括:将当前对话话语中单词的初始表示和对话整体状态的表示输入到BERT,通过BERT来获取对话话语中单词的表示,再将单词的表示输入到Bi-LSTM中来获取对话话语的表示。
步骤S200,对所述当前对话话语的表示进行增强处理;其中,所述增强处理包括结构化增强表示和非结构化增强表示。
本实施例中,结构化增强表示,具体包括:按照已有的对话状态图中根节点到新对话话语对应节点的路径,将路径中的对话话语表示输入到LSTM,以获取当前话语的结构化增强表示。非结构化增强表示,具体包括:按照对话话语发生的顺序将对话话语表示输入到LSTM,以获得当前话语的非结构化增强表示。
步骤S300,根据当前对话话语的表示,生成对话状态图,并将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图。
本实施例中,将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图,具体包括:将新对话话语的表示与对话状态图中存在的节点话语的结构化增强表示和非结构化表示连接,根据连接的表示分别使用两个神经网络来判断新节点与已存在的哪个节点连接,以及连接的边的类型。
需要说明的是,根据连接的表示分别使用两个神经网络来判断新节点与已存在的哪个节点连接,以及连接的边的类型,可通过计算所有已存在节点的分数和新节点与其父节点连接边的类型来确定节点连接和边的类型。
在优选的实施例中,将新对话话语的表示、非结构化表示和对话状态图中存在的对话话语的非结构化表示、结构化增强表示连接,并计算所有已存在节点的分数,将分数最高的节点作为新节点的父节点,并将新节点添加到对话状态图中,表达式具体为:
Figure SMS_13
其中,当前添加的新节点为j,目前图中已存在的各个节点为k,
Figure SMS_15
为节点j的话语表示,
Figure SMS_18
Figure SMS_20
分别为节点j和节点k的非结构化增强表示,
Figure SMS_16
为节点k的结构化增强表示,
Figure SMS_17
为连接操作,
Figure SMS_19
为上述表示的连接,用于之后计算节点k的分数,
Figure SMS_21
为一个两层的神经网络,
Figure SMS_14
为节点k的分数。
在优选的实施例中,计算新节点与其父节点连接边的类型,选择分数最高的类型作为新节点和其父节点连接的边的类型,表达式具体为:
Figure SMS_22
其中
Figure SMS_23
为新节点j的话语表示、非结构化增强表示和其父节点k的结构化增强表示、非结构化增强表示的连接,
Figure SMS_24
为每个边类型的分数向量。
步骤S400,基于更新后的对话状态图,确定对话整体的状态表示。
具体而言,在确定对话整体的状态表示时,通过Tree-structure LSTM对对话状态图中的节点进行一次编码,最后取根节点的Tree-structure LSTM输出来作为对话整体状态的表示。
为了更清楚的解释本申请,下面提供一种运用于具体场景的实例。
如图3所示,本实例提供一种动态对话状态图学习方法,包括:基于BERT和Bi-LSTM的对话话语表示,基于LSTM的对话话语增强表示,动态对话状态图更新,基于Tree-structure LSTM的对话状态表示。
其中,所述基于BERT和Bi-LSTM的对话话语表示,将当前对话话语中单词的初始表示和对话整体状态的表示输入到BERT,来获取对话话语中单词的表示,再将单词表示输入到Bi-LSTM,取Bi-LSTM的第一个和最后一个输出来作为对话话语的表示;
所述基于LSTM的对话话语增强表示,通过将对话话语表示输入到LSTM中来对对话话语表示进行增强,包括结构化增强表示和非结构化增强表示;所述结构化增强表示,按照已有的对话状态图中根节点到新对话话语对应节点的路径,将路径中的对话话语表示输入到LSTM,以获取当前话语的结构化增强表示;所述非结构化增强表示,按照对话话语发生的顺序将对话话语表示输入到LSTM,以获得当前话语的非结构化增强表示;
所述动态对话状态图更新,将对话的新话语视为新节点,并将新话语的表示与对话状态图中存在的节点话语的结构化增强表示和非结构化增强表示连接,根据连接的表示分别使用两个神经网络来判断新节点与已存在的哪个节点连接,以及连接的边的类型;
所述基于Tree-structure LSTM的对话状态表示,通过Tree-structure LSTM对对话状态图中的节点进行一次编码,最后取根节点的Tree-structure LSTM输出来作为对话整体状态的表示。
如图4所示,所述基于BERT和Bi-LSTM的对话话语表示,包括以下步骤:
Step1:连接当前话语的单词的表示和当前对话状态表示,当前话语单词和对话状态表示使用特殊字符分隔,根据当前状态对话轮数当前对话状态表示有以下两种情况:(1)若当前对话轮数等于一,则当前对话状态表示为一个随机初始化的向量;(2)若当前对话轮数大于一,则当前对话状态表示为上一轮Tree-structure LSTM生成的对话状态表示;
Step2:将Step1中得到的表示连接输入到BERT中,并重新得到话语单词的表示;
Step3:将Step2中得到的话语单词表示输入到Bi-LSTM中,以得到当前话语表示,具体的,将Step2中得到的话语单词表示分别以单词在当前话语中的正向、反向的顺序输入到两个LSTM中,最后将这两个LSTM的输出连接得到当前话语的表示;
所述基于LSTM的对话话语增强表示,包括以下步骤:
Step1:按照对话话语说出的顺序,将对话话语表示输入到一个LSTM中,以这个LSTM的输出为对话话语的非结构化增强表示;
Step2:根据已有的对话状态图中根节点到每个节点的路径,按照这些路径的顺序将节点的对应对话话语表示输入到LSTM中,以这个LSTM的输出为对话话语的结构化增强表示,若考虑边关系类型,则这部分LSTM的输入为节点对应对话话语表示和父节点连接到该节点的边类型的表示的连接;
所述基于Tree-structure LSTM的对话状态表示,包括以下步骤:
Step1:将对话状态图视为树,聚合节点的孩子节点的信息,计算方法如下:
Figure SMS_25
其中,
Figure SMS_26
为节点k的表示,
Figure SMS_30
为节点j的孩子节点表示的聚合,
Figure SMS_32
为节点j的孩子节点的集合,
Figure SMS_28
为权重矩阵,
Figure SMS_29
为偏差向量,
Figure SMS_31
为节点j的输入,
Figure SMS_33
Figure SMS_27
分别为sigmoid激活函数和双曲正切激活函数;
Step2:计算每个节点的遗忘门,计算方法如下:
Figure SMS_34
其中,
Figure SMS_35
表示节点j的表示对节点k的表示的遗忘门;
Step3:计算节点的cell状态和输出,计算方法如下:
Figure SMS_36
其中
Figure SMS_37
为节点j的cell状态,
Figure SMS_38
为节点j的输出,
Figure SMS_39
为向量元素相乘运算;
Step4:从对话状态图的叶子节点开始计算Step1、Step2和Step3,并向节点的父节点遍历计算,直到计算完所有节点;
所述动态对话状态图更新,包括以下步骤:
Step1:创建对话状态图,增加一个虚拟根节点,并随机初始化这个节点的表示,并计算虚拟节点的非结构化增强表示和结构化增强表示;
Step2:计算新对话话语的表示,并计算该话语的非结构化增强表示;
Step3:将新对话话语的表示、非结构化表示和对话状态图中存在的对话话语的非结构化增强表示、结构化增强表示连接,并计算所有已存在节点的分数,若新节点为j,则计算方法如下:
Figure SMS_40
其中,目前图中已存在的各个节点为k,
Figure SMS_42
为节点j的话语表示,
Figure SMS_44
Figure SMS_46
分别为节点j和节点k的非结构化增强表示,
Figure SMS_43
为节点k的结构化增强表示,
Figure SMS_45
为连接操作,
Figure SMS_47
为上述表示的连接,用于之后计算节点k的分数,
Figure SMS_48
为一个两层的神经网络,
Figure SMS_41
为节点k的分数,之后将分数最高的节点作为新节点的父节点,并将新节点添加到对话状态图中;
Step4:计算新节点与其父节点连接边的类型,若新节点为j,其父节点为k,则计算方法如下:
Figure SMS_49
其中
Figure SMS_50
为新节点j的话语表示、非结构化增强表示和其父节点k的结构化增强表示、非结构化增强表示的连接,
Figure SMS_51
为每个边类型的分数向量,最后选择分数最高的类型作为新节点和其父节点连接的边的类型;
Step5:计算新节点的结构化增强表示,并使用Tree-structure LSTM计算对话整体的状态;
Step6:重复Step2、Step3、Step4和Step5,直到将一个对话中所有话语作为节点加入到对话状态图中。
由此,本申请针对多轮对话的特征,提出了一种动态对话状态图学习的方法,该方法通过BERT和Bi-LSTM来获取对话话语的表示,利用LSTM来获取对话话语的结构化和非结构化增强表示,并使用这些表示来动态地更新对话状态图,最后使用Tree-structure LSTM来获取对话整体的状态表示。此方式能够动态地生成更新对话状态图,并能为对话话语生成表示,对话状态图和这些表示可以被利用到对话系统中,有效提升对话话语的学习和表示能力。
本发明实施例提供了一种动态对话状态图学习装置,参照图5,图5为本发明动态对话状态图学习装置实施例的结构框图。
如图5所示,本发明实施例提出的动态对话状态图学习装置包括:
获取模块10,用于获取当前对话话语的表示;
增强处理模块20,用于对所述当前对话话语的表示进行增强处理;其中,所述增强处理包括结构化增强表示和非结构化增强表示;
更新模块30,用于根据当前对话话语的表示,生成对话状态图,并将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图;
确定模块40,用于基于更新后的对话状态图,确定对话整体的状态表示。
本发明动态对话状态图学习装置的其他实施例或具体实现方式可参照上述各方法和系统实施例,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有动态对话状态图学习程序,所述动态对话状态图学习程序被处理器执行时实现如上文所述的动态对话状态图学习方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

Claims (10)

1.一种动态对话状态图学习方法,其特征在于,所述方法包括以下步骤:
获取当前对话话语的表示;
对所述当前对话话语的表示进行增强处理;其中,所述增强处理包括结构化增强表示和非结构化增强表示;
根据当前对话话语的表示,生成对话状态图,并将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图;
基于更新后的对话状态图,确定对话整体的状态表示。
2.如权利要求1所述的动态对话状态图学习方法,其特征在于,获取当前对话话语的表示步骤,具体包括:将当前对话话语中单词的初始表示和对话整体状态的表示输入到BERT,通过BERT来获取对话话语中单词的表示,再将单词的表示输入到Bi-LSTM中来获取对话话语的表示。
3.如权利要求1所述的动态对话状态图学习方法,其特征在于,所述结构化增强表示,具体包括:按照已有的对话状态图中根节点到新对话话语对应节点的路径,将路径中的对话话语表示输入到LSTM,以获取当前话语的结构化增强表示。
4.如权利要求1所述的动态对话状态图学习方法,其特征在于,所述非结构化增强表示,具体包括:按照对话话语发生的顺序将对话话语表示输入到LSTM,以获得当前话语的非结构化增强表示。
5.如权利要求1所述的动态对话状态图学习方法,其特征在于,所述将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图,具体包括:将新对话话语的表示与对话状态图中存在的节点话语的结构化增强表示和非结构化表示连接,根据连接的表示分别使用两个神经网络来判断新节点与已存在的哪个节点连接,以及连接的边的类型。
6.如权利要求5所述的动态对话状态图学习方法,其特征在于,所述根据连接的表示分别使用两个神经网络来判断新节点与已存在的哪个节点连接,以及连接的边的类型步骤,具体包括:
将新对话话语的表示、非结构化表示和对话状态图中存在的对话话语的非结构化表示、结构化增强表示连接,并计算所有已存在节点的分数,将分数最高的节点作为新节点的父节点,并将新节点添加到对话状态图中,表达式具体为:
Figure QLYQS_1
其中,当前添加的新节点为j,目前图中已存在的各个节点为k,
Figure QLYQS_3
为节点j的话语表示,
Figure QLYQS_5
Figure QLYQS_7
分别为节点j和节点k的非结构化增强表示,
Figure QLYQS_4
为节点k的结构化增强表示,
Figure QLYQS_6
为连接操作,
Figure QLYQS_8
为上述表示的连接,用于之后计算节点k的分数,
Figure QLYQS_9
为一个两层的神经网络,
Figure QLYQS_2
为节点k的分数;
计算新节点与其父节点连接边的类型,选择分数最高的类型作为新节点和其父节点连接的边的类型,表达式具体为:
Figure QLYQS_10
其中
Figure QLYQS_11
为新节点j的话语表示、非结构化增强表示和其父节点k的结构化增强表示、非结构化增强表示的连接,
Figure QLYQS_12
为每个边类型的分数向量。
7.如权利要求1所述的动态对话状态图学习方法,其特征在于,所述基于更新后的对话状态图,确定对话整体的状态表示,具体包括:通过Tree-structure LSTM对对话状态图中的节点进行一次编码,最后取根节点的Tree-structure LSTM输出来作为对话整体状态的表示。
8.一种动态对话状态图学习装置,其特征在于,所述动态对话状态图学习装置包括:
获取模块,用于获取当前对话话语的表示;
增强处理模块,用于对所述当前对话话语的表示进行增强处理;其中,所述增强处理包括结构化增强表示和非结构化增强表示;
更新模块,用于根据当前对话话语的表示,生成对话状态图,并将新对话话语对应的新节点加入对话状态图,以动态地更新对话状态图;
确定模块,用于基于更新后的对话状态图,确定对话整体的状态表示。
9.一种动态对话状态图学习系统,其特征在于,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的动态对话状态图学习程序,所述动态对话状态图学习程序被所述处理器执行时实现如权利要求1至7中任一项所述的动态对话状态图学习方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有动态对话状态图学习程序,所述动态对话状态图学习程序被处理器执行时实现如权利要求1至5中任一项所述的动态对话状态图学习方法的步骤。
CN202310116431.3A 2023-02-15 2023-02-15 动态对话状态图学习方法、装置、系统及存储介质 Active CN115982336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310116431.3A CN115982336B (zh) 2023-02-15 2023-02-15 动态对话状态图学习方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310116431.3A CN115982336B (zh) 2023-02-15 2023-02-15 动态对话状态图学习方法、装置、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115982336A true CN115982336A (zh) 2023-04-18
CN115982336B CN115982336B (zh) 2023-05-23

Family

ID=85976244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310116431.3A Active CN115982336B (zh) 2023-02-15 2023-02-15 动态对话状态图学习方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115982336B (zh)

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE202017106466U1 (de) * 2017-02-16 2018-01-22 Google Llc Streaming-Dialogmanagement in Echtzeit
US20180341684A1 (en) * 2017-05-23 2018-11-29 International Business Machines Corporation Adaptive conversational disambiguation system
CN108921032A (zh) * 2018-06-04 2018-11-30 四川创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN109074402A (zh) * 2016-04-11 2018-12-21 脸谱公司 基于示例会话使用自然语言机器学习来响应用户请求的技术
CN110162608A (zh) * 2019-02-26 2019-08-23 腾讯科技(深圳)有限公司 计算机实现的对话管理的方法、用于对话管理的设备以及计算机可读存储介质
CN110249326A (zh) * 2017-02-08 2019-09-17 语义设备公司 自然语言内容生成器
CN111274372A (zh) * 2020-01-15 2020-06-12 上海浦东发展银行股份有限公司 用于人机交互的方法、电子设备和计算机可读存储介质
CN112487173A (zh) * 2020-12-18 2021-03-12 北京百度网讯科技有限公司 人机对话方法、设备和存储介质
CN112487135A (zh) * 2020-12-18 2021-03-12 苏州思必驰信息科技有限公司 将文本转化为结构化查询语言的方法及装置
CN113553860A (zh) * 2021-06-10 2021-10-26 合肥工业大学 基于多任务学习的回复多样性多轮对话生成方法和系统
CN113641806A (zh) * 2021-07-28 2021-11-12 北京百度网讯科技有限公司 对话方法、系统、电子设备及存储介质
CN113692617A (zh) * 2019-04-30 2021-11-23 微软技术许可有限责任公司 使用对话上下文来改善语言理解
US20210375269A1 (en) * 2020-06-01 2021-12-02 Salesforce.Com, Inc. Systems and methods for domain adaptation in dialog act tagging
US20220092403A1 (en) * 2020-09-18 2022-03-24 International Business Machines Corporation Dialog data processing
CN114691852A (zh) * 2022-06-01 2022-07-01 阿里巴巴达摩院(杭州)科技有限公司 人机对话系统及方法
CN115062627A (zh) * 2021-05-27 2022-09-16 罗科仕科技(北京)股份有限公司 用于基于人工智能的计算机辅助说服系统的方法和装置
CN115169538A (zh) * 2022-07-19 2022-10-11 西北工业大学 基于增强网络对比约束的多通道社交圈子识别装置及方法
CN115374253A (zh) * 2021-05-17 2022-11-22 中移(成都)信息通信科技有限公司 多轮对话的统计方法、装置、电子设备及计算机存储介质
CN115392217A (zh) * 2021-04-26 2022-11-25 甲骨文国际公司 用于保持修辞流的技术
CN115455197A (zh) * 2022-09-01 2022-12-09 电子科技大学 一种融合位置感知细化的对话关系抽取方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109074402A (zh) * 2016-04-11 2018-12-21 脸谱公司 基于示例会话使用自然语言机器学习来响应用户请求的技术
CN110249326A (zh) * 2017-02-08 2019-09-17 语义设备公司 自然语言内容生成器
DE202017106466U1 (de) * 2017-02-16 2018-01-22 Google Llc Streaming-Dialogmanagement in Echtzeit
US20180341684A1 (en) * 2017-05-23 2018-11-29 International Business Machines Corporation Adaptive conversational disambiguation system
CN108921032A (zh) * 2018-06-04 2018-11-30 四川创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN110162608A (zh) * 2019-02-26 2019-08-23 腾讯科技(深圳)有限公司 计算机实现的对话管理的方法、用于对话管理的设备以及计算机可读存储介质
CN113692617A (zh) * 2019-04-30 2021-11-23 微软技术许可有限责任公司 使用对话上下文来改善语言理解
CN111274372A (zh) * 2020-01-15 2020-06-12 上海浦东发展银行股份有限公司 用于人机交互的方法、电子设备和计算机可读存储介质
US20210375269A1 (en) * 2020-06-01 2021-12-02 Salesforce.Com, Inc. Systems and methods for domain adaptation in dialog act tagging
US20220092403A1 (en) * 2020-09-18 2022-03-24 International Business Machines Corporation Dialog data processing
CN112487135A (zh) * 2020-12-18 2021-03-12 苏州思必驰信息科技有限公司 将文本转化为结构化查询语言的方法及装置
CN112487173A (zh) * 2020-12-18 2021-03-12 北京百度网讯科技有限公司 人机对话方法、设备和存储介质
CN115392217A (zh) * 2021-04-26 2022-11-25 甲骨文国际公司 用于保持修辞流的技术
CN115374253A (zh) * 2021-05-17 2022-11-22 中移(成都)信息通信科技有限公司 多轮对话的统计方法、装置、电子设备及计算机存储介质
CN115062627A (zh) * 2021-05-27 2022-09-16 罗科仕科技(北京)股份有限公司 用于基于人工智能的计算机辅助说服系统的方法和装置
CN113553860A (zh) * 2021-06-10 2021-10-26 合肥工业大学 基于多任务学习的回复多样性多轮对话生成方法和系统
CN113641806A (zh) * 2021-07-28 2021-11-12 北京百度网讯科技有限公司 对话方法、系统、电子设备及存储介质
CN114691852A (zh) * 2022-06-01 2022-07-01 阿里巴巴达摩院(杭州)科技有限公司 人机对话系统及方法
CN115169538A (zh) * 2022-07-19 2022-10-11 西北工业大学 基于增强网络对比约束的多通道社交圈子识别装置及方法
CN115455197A (zh) * 2022-09-01 2022-12-09 电子科技大学 一种融合位置感知细化的对话关系抽取方法

Also Published As

Publication number Publication date
CN115982336B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
US11195520B2 (en) Always-on keyword detector
CN110349572B (zh) 一种语音关键词识别方法、装置、终端及服务器
US11790212B2 (en) Quantization-aware neural architecture search
KR20210148873A (ko) 언어 모델의 트레이닝 방법, 장치, 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램
JP2022177220A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
JP2022018095A (ja) マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体
CN114970522B (zh) 语言模型的预训练方法、装置、设备、存储介质
CN110225386B (zh) 一种显示控制方法、显示设备
JP7224447B2 (ja) 符号化方法、装置、機器およびプログラム
CN112259089A (zh) 语音识别方法及装置
CN113641829B (zh) 图神经网络的训练与知识图谱的补全方法、装置
CN117539975A (zh) 大语言模型的提示词信息的生成方法、装置、设备及介质
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
CN113468857B (zh) 风格转换模型的训练方法、装置、电子设备以及存储介质
CN111276127B (zh) 语音唤醒方法、装置、存储介质及电子设备
US20200272977A1 (en) Method of managing multi tasks and electronic device therefor
Zhang et al. XNORCONV: CNNs accelerator implemented on FPGA using a hybrid CNNs structure and an inter‐layer pipeline method
CN116127319B (zh) 多模态负样本构建、模型预训练方法、装置、设备及介质
CN115292467B (zh) 信息处理与模型训练方法、装置、设备、介质及程序产品
CN115982336B (zh) 动态对话状态图学习方法、装置、系统及存储介质
US20220300717A1 (en) Method and apparatus for generating dialogue state
CN113886688B (zh) 对象的关联关系预测方法、装置、终端设备以及存储介质
CN113689866B (zh) 一种语音转换模型的训练方法、装置、电子设备及介质
CN116257611A (zh) 问答模型的训练方法、问答处理方法、装置及存储介质
CN113361575B (zh) 模型训练方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant