CN112966077B - 对话状态的确定方法、装置、设备及存储介质 - Google Patents
对话状态的确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112966077B CN112966077B CN202110221184.4A CN202110221184A CN112966077B CN 112966077 B CN112966077 B CN 112966077B CN 202110221184 A CN202110221184 A CN 202110221184A CN 112966077 B CN112966077 B CN 112966077B
- Authority
- CN
- China
- Prior art keywords
- current
- dialog
- state
- conversation
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种对话状态的确定方法、装置、设备及存储介质,属于人工智能技术领域。该方法包括:从当前对话的当前输入语句中提取当前对话意图;响应于所述当前对话意图为第一类型意图,基于对话特征信息对所述当前对话的当前对话状态进行重新确认,得到重确认的当前对话状态;基于所述当前对话意图对所述重确认的当前对话状态进行状态转移,得到下一轮对话的对话状态。该方法在对话状态跟踪的过程中,首先确认当前对话意图的类型,在当前对话意图为可导致对话状态转移这一类型的对话意图时,针对当前对话状态进行重新确认以保证确认出的下一轮对话的对话状态的正确性,减少对话状态跳转错误的情况。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种对话状态的确定方法、装置、设备及存储介质。
背景技术
近年来,人工智能技术发展迅速,以智能语音系列为代表,“外呼机器人”已广泛地应用于服务行业、电商行业、以及金融行业等各行各业。
“外呼机器人”通常采用对话系统的流水线(pipeline)模式,过程如下:自动语音识别(Automatic Speech Recognition,ASR)模块将输入语音转换为文本,自然语言理解(Natural Language Understanding,NLU)模块解析上述文本的对话意图和槽位,对话管理(Dialog Management,DM)基于上述对话意图和槽位对多轮对话过程的对话状态进行跟踪、以及生成回复语句。
在采用状态机针对对话状态进行状态跟踪时,经常会出现对话状态跳转错误的情况,一旦出现对话状态错误难以纠正,比如,当对话状态出现状态超前的情况时,对话状态难以回退。
发明内容
本申请实施例提供了一种对话状态的确定方法、装置、设备及存储介质,该方法在对话状态跟踪(Dialogue State Tracking,DST)的过程中,首先确认当前对话意图的类型,在当前对话意图为可导致对话状态转移这一类型的对话意图时,针对当前对话状态进行重新确认以保证确认出的下一轮对话的对话状态的正确性,减少对话状态跳转错误的情况。所述技术方案如下:
根据本申请的一个方面,提供了一种对话状态的确定方法,该方法包括:
从当前对话的当前输入语句中提取当前对话意图;
响应于所述当前对话意图为第一类型意图,基于对话特征信息对所述当前对话的当前对话状态进行重新确认,得到重确认的当前对话状态;
基于所述当前对话意图对所述重确认的当前对话状态进行状态转移,得到下一轮对话的对话状态;
其中,所述第一类型意图是指具备转移对话状态性质的对话意图,所述对话特征信息用于表征上一轮对话的上一个输入语句和所述当前输入语句之间的关联关系。
根据本申请的另一个方面,提供了一种对话状态的确定装置,该装置包括:
意图提取模块,用于从当前对话的当前输入语句中提取当前对话意图;
状态重确认模块,用于响应于所述当前对话意图为第一类型意图,基于对话特征信息对所述当前对话的当前对话状态进行重新确认,得到重确认的当前对话状态;
状态确认模块,用于基于所述当前对话意图对所述重确认的当前对话状态进行状态转移,得到下一轮对话的对话状态;
其中,所述第一类型意图是指具备转移对话状态性质的对话意图,所述对话特征信息用于表征上一轮对话的上一个输入语句和所述当前输入语句之间的关联关系。
根据本申请的另一方面,提供了一种计算机设备,上述计算机设备包括:处理器和存储器,上述存储器存储有计算机程序,上述计算机程序由上述处理器加载并执行以实现如上所述的对话状态的确定方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序由处理器加载并执行以实现如上所述的对话状态的确定方法。
根据本申请的另一个方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上所述的对话状态的确定方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
该方法在对话状态跟踪的过程中,从当前对话的当前输入语句中提取得到当前对话意图,对当前对话意图进行类型判断,在确定当前对话意图为可导致对话状态转移这一类型的对话意图之后,进一步地基于上一轮对话的上一个输入语句与当前输入语句之间的对话特征信息,针对当前对话状态进行重新确认以保证当前对话状态的正确性,进而基于重确认的当前对话状态准确地确定出的下一轮对话的对话状态,减少对话状态跳转错误的情况,避免对话状态误差累积的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的对话系统的组件架构框图;
图2示出了本申请一个示例性实施例提供的计算机系统的结构框图;
图3示出了本申请一个示例性实施例提供的对话状态的确定方法的流程图;
图4示出了本申请另一个示例性实施例提供的对话状态的确定方法的流程图;
图5示出了本申请另一个示例性实施例提供的对话状态的确定方法的流程图;
图6示出了本申请一个示例性实施例提供的对话状态的确定装置的框图;
图7示出了本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍:
对话状态(Dialog State),是一种将到t时刻为止的对话历史简化为可供系统选择下一时刻动作(action)信息的数据结构,t为正整数。
对话意图,是指用户终端输入的语句语义所希望达到的目的。比如,输入语句为“今天魔都的天气如何?”,此时输入语句所表达的是查询天气,那么查询天气就是这个输入语句的对话意图。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(NaturalLanguageProcessing,NLP)是人工智能的一个子领域。在一些实施例中,本申请提供的对话状态的确定方法应用于基于NLP的对话系统中;示例性的,针对任务型对话采用pipeline模式来处理,如图1,pipeline模式下的对话系统的组件架构包括:ASR模块101、NLU模块102、DM模块103、任务管理器104、自然语言生成(NaturalLanguage Generation,NLG)模块105和语音合成(Text To Speech,TTS)模块106。
其中,ASR模块101将通过用户终端输入的语音转换为文本信号,即得到输入语句。NLU模块102对输入语句进行对话意图识别和槽值(slot)填充,对话意图识别本质上来说是一文本分类任务;槽值即是意图所带的参数,槽值填充本质上来说是一序列标注任务;比如,针对输入语句“今天魔都的天气如何?”,在对话意图识别时将其分类到“询问天气”这个对话意图,在槽值填充时采用序列标注的方法标注出地点“魔都”和日期“今天”这两个信息槽。DM模块103进行DST和对话策略学习(Dialogue Policy Learning,DPL)的管理,示例性的,本申请中的DM模块103中引入了意图管理子模块1031和状态重确认子模块1032,结合意图管理子模块1031与状态重确认子模块1032执行本申请提供的对话状态的确定方法步骤,以进行多轮对话状态跟踪,实现DST管理;DPL根据对话状态决定下一步的系统动作,由NLG模块105根据上述系统动作生成相应的文本内容。在DM模块103进行DST和DPL的过程中,由任务管理器104提供知识库支持。当用户终端采用的是语音交互时,由TTS模块106将NLG模块105输出的文本内容转换为对应的语音。
图2示出了本申请一个示例性实施例提供的计算机系统,该计算机系统包括终端220和服务器240,终端220与服务器240之间通过有线或者无线网络相互连接。
示例性的,终端220可以包括笔记本电脑、台式电脑、智能手机、平板电脑、智能音箱、智能机器人中的至少一种。
终端220包括第一存储器和第一处理器。第一存储器中存储有第一程序;上述第一程序被第一处理器调用执行以实现对话状态的确定方法中终端侧步骤。第一存储器可以包括但不限于以下几种:随机存取存储器(Random Access Memory,RAM)、只读存储器(ReadOnly Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、以及电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)。
第一处理器可以是一个或者多个集成电路芯片组成。可选地,第一处理器可以是通用处理器,比如,中央处理器(Central Processing Unit,CPU)或者网络处理器(NetworkProcessor,NP)。可选地,第一处理器用于向服务器240发送输入语音或者输入文本,以请求对话系统针对输入语音或者输入文本的回复;或者,第一处理器用于执行本申请提供的对话状态的确定方法,以针对输入语音或者输入文本进行回复。
可选地,终端220中包括显示器;显示器用于显示输入语句与回复语句之间对话的文本内容。
可选地,终端220中包括麦克风;麦克风用于采集语音形式的输入语句。
可选地,终端220中包括扬声器;扬声器用于播放语音形式的回复语句。
服务器240包括第二存储器和第二处理器。第二存储器中存储有第二程序,上述第二程序被第二处理器调用来实现本申请提供的对话状态的确定方法中服务器侧步骤。可选地,第二存储器可以包括但不限于以下几种:RAM、ROM、PROM、EPROM、EEPROM。可选地,第二处理器可以是通用处理器,比如,CPU或者NP。示例性的,服务器240支持图1所示的对话系统,在接收到终端220发送的输入语句或者输入语音之后反馈回复语句。示例性的,上述对话系统可以应用于社交聊天机器人、智能个人助理、语音助手等程序软件中。
图3示出了本申请一个示例性实施例提供的对话状态的确定方法的流程图,以该方法应用于图2所示计算机系统的服务器中为例,该方法包括:
步骤301,从当前对话的当前输入语句中提取当前对话意图。
示例性的,针对当前输入语句的获取,服务器接收终端发送的当前输入语音,将当前输入语音转换为文本形式的输入语句,得到当前输入语句;或者,服务器接收终端发送的当前输入语句;上述当前输入语音或者当前输入语句是用户通过终端输入的。
可选地,服务器中设置有意图识别模型;服务器调用意图识别模型从当前输入语句中提取出当前对话意图。
示例性的,上述意图识别模型可以是仅针对对话意图识别的模型,即上述意图识别模型的输出数据为对话意图;或者,上述意图识别模型还可以是对话意图识别和槽值填充的联合模型,即上述意图识别模型的输出数据包括对话意图和槽值。
服务器在提取出当前对话意图之后,判断当前对话意图的类型,若当前对话意图为第一类型意图,执行步骤302至步骤303;若当前对话意图为第二类型意图,执行步骤304。
步骤302,响应于当前对话意图为第一类型意图,基于对话特征信息对当前对话的当前对话状态进行重新确认,得到重确认的当前对话状态。
其中,第一类型意图是指具备转移对话状态性质的对话意图,也即可导致对话状态转移的对话意图。
可选地,上述第一类型意图包括肯定意图、否定意图、选择类意图中的至少一种,其中,肯定意图即是肯定性质的对话意图,否定意图即是否定性质的对话意图,选择类意图即是针对至少两个可选项目进行选择的对话意图。
示例性的,对话意图可能会从肯定意图转移至否定意图,或者,从否定意图转移至肯定意图。比如,机器提问“您想做骑手吗”,终端输入“我想啊”,机器回复“好的,稍后给你发一条确认短信”,终端输入“返现比例多高啊”,机器回复“我们的返现比例是x%”,终端输入“那我不想当骑手了”;在终端输入“那我不想当骑手了”之前,对于是否要成为一个骑手这一事件,终端输入的“我想啊”这一语句传达的是肯定意图,但是经过多轮对话之后,终端输入的“那我不想当骑手了”这一语句传达的是否定意图,即在上述三轮对话中对话意图从肯定意图转移至了否定意图,相应地,对话状态也应该从对“做骑手”的肯定转移至否定。
但是,这种对话意图的转移不容易被对话系统捕捉到,容易导致确定出的对话状态出现错误,因此,为了避免因此当前对话状态错误,导致的下一轮对话状态的错误累积,在确定当前对话意图为第一类型意图时,基于对话特征信息对当前对话状态进行重新确认,其中,对话特征信息用于表征上一轮对话的上一个输入语句和当前输入语句之间的关联关系。也即服务器在当前对话意图为第一类型意图时,基于上一个输入语句和当前输入语句之间的关联关系来重新确定当前对话状态。
步骤303,基于当前对话意图对重确认的当前对话状态进行状态转移,得到下一轮对话的对话状态。
对于对话状态的跟踪,服务器基于重确认的当前对话状态和当前对话意图生成一个反应对话历史的数据结构,得到下一轮对话的对话状态。
步骤304,响应于当前对话意图为第二类型意图,将当前对话状态确认为下一轮对话的对话状态。
其中,第二类型意图是指不具备转移对话状态性质的对话意图,也即不可导致对话状态转移的对话意图。
可选地,第二类型意图包括常见问题(Frequently Asked Questions,FAQ)类意图。示例性的,FAQ类意图可以是问题询问意图、闲聊意图、等待意图等;比如,上述多轮对话中终端输入“返现比例多高啊”这一语句传达的即是问题询问意图。
综上所述,本实施例提供的对话状态的确定方法,从当前对话的当前输入语句中提取得到当前对话意图,对当前对话意图进行类型判断,在确定当前对话意图为可导致对话状态转移这一类型的对话意图之后,进一步地基于上一轮对话的上一个输入语句与当前输入语句之间的对话特征信息,针对当前对话状态进行重新确认以保证当前对话状态的正确性,进而基于重确认的当前对话状态准确地确定出的下一轮对话的对话状态,减少对话状态跳转错误的情况,避免对话状态误差累积的问题。
而在确定当前对话意图为不可导致对话状态转移这一类型的对话意图时,直接将当前对话状态确定为下一轮对话的对话状态,在保证了下一轮对话的对话状态的准确性的前提下,最大限度的保证对话状态的确定效率。
示例性的,针对当前对话状态的重新确认方式进行说明,其中图3中步骤302可以包括步骤401至步骤404,如图4,步骤如下:
步骤401,响应于当前对话意图为第一类型意图,获取上一个输入语句和当前输入语句之间的对话特征信息。
其中,对话特征信息用于表征相邻两个输入语句之间关联关系;比如,上述关联关系可以包括上一个输入语句与当前输入语句是同一句话。
示例性的,上述对话特征信息包括上一个输入语句的内容、当前输入语句的内容、上一个输入语句与当前输入语句的输入时间之间的时间间隔,上一个输入语句与当前输入语句的字数,当前输入语句输入时上一个回复语句的播放状态,当前输入语句输入时上一个回复语句的播放完成比例,当前输入语句输入时上一个回复语句的播放持续时间中的至少一项。其中,上一个回复语句是对话系统针对上一个输入语句的回复,上一个回复语句的播放状态是指上一个回复语句未播放、或者正在播放、或者播放完成的状态,上一个回复语句的播放完成比例是指上一个回复语句这一句话的播放进度,上一个回复语句的播放持续时长是指上一个回复语句这一句话播放完所花费的时长。
步骤402,基于对话特征信息确认上一个输入语句与当前输入语句之间是否存在状态跳转。
可选地,服务器将上述对话特征信息输入分类模型,确认上一个输入语句与当前输入语句之间是否存在状态跳转,也即是确定是否状态回退。示例性的,服务器将上述对话特征信息输入分类模型,由分类模型针对上一个输入语句和当前输入语句,结合上述对话特征信息来确认是否状态回退。
示例性的,上述分类模型包括但不限于:极端梯度提升(eXtreme GradientBoosting,XGBoost)模型,梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型,逻辑回归模型,双向编码表征(Bidirectional Encoder Representation fromTransformers,BERT)模型。
示例性的,服务器基于对话特征信息判断上一个输入语句与当前输入语句是否处于同一轮对话,当上一个输入语句与当前输入语句不是处于同一轮对话时,确定上一个输入语句与当前输入语句之间存在状态跳转,也即上一个输入语句与当前输入语句之间存在状态跳转,执行步骤404;当上一个输入语句与当前输入语句是处于同一轮对话时,确定上一个输入语句与当前输入语句之间不存在状态跳转,执行步骤403。
比如,机器提问“你们提供古装摄影吗”,终端输入“额。。。”,机器提问“你们提供儿童摄影吗”,终端输入“提供”,一轮对话中的“额。。。”与二轮对话中的“提供”实际上是一句话,只是二者是分开输入的;而对于“额。。。”的回复,机器提问“你们提供儿童摄影吗”,这个时候发生了状态超前的情况,因此,服务器需要确定上一个输入语句与当前输入语句之间是否存在关联关系,从而确定是否会出现状态超前的情况,也即上一轮对话的对话状态与当前对话状态之间是否需要状态跳转,若存在状态跳转,执行步骤404;若不存在状态跳转,执行步骤403。
步骤403,响应于不存在状态跳转,基于上一个输入语句、当前输入语句和当前对话意图重新确认当前对话的对话状态,得到重确认的当前对话状态。
服务器中设置有对话意图与对话状态的映射关系,其中,每一个对话意图映射有至少一个对话状态。当不存在状态跳转时,服务器基于对话意图与对话状态的映射关系,确定与当前对话意图对应的n个候选对话状态;基于上一个输入语句和当前输入语句,调用匹配模型从n个候选对话状态中匹配出重确认的当前对话状态。
可选地,上述n个候选对话状态中每一个候选对话状态对应m个历史回复语句,历史回复语句是指在当前对话所在的多轮对话环境中位于当前输入语句之前的回复语句,m为非负整数;对于重确认的当前对话状态的匹配,服务器基于上一个输入语句和当前输入语句,调用匹配模型对m个历史回复语句中的每一个历史回复语句进行匹配评分,得到每一个历史回复语句的匹配分数;从n个候选对话状态对应的历史回复语句的匹配分数中确定出最大匹配分数;将最大匹配分数对应的候选对话状态确定为重确认的当前对话状态。
示例性的,由匹配模型对每一个历史回复语句与当前输入语句进行匹配,计算出待定匹配分数;之后按照匹配轮次进行衰减,得到该历史回复语句的最终匹配分数。示例性的,待定匹配分数的衰减可以采用以匹配轮次和待定匹配分数为自变量、最终匹配分数为因变量的衰减函数来实现。
示例性的,匹配模型包括但不限于:BERT模型,双生神经网络(Siamese neuralnetwork)模型,双塔模型。
还需要说明的是,在确定上一个输入语句与当前输入语句之间不存在状态跳转之后,还可以直接将上一轮对话的对话状态确定为重确认的当前对话状态,更高效地确认出准确的当前对话状态。
服务器在确定当前对话意图是第一类型意图之后,首先确认是否对当前对话状态执行状态回退操作,可以以避免出现状态超前的现象。
步骤404,响应于存在状态跳转,将当前对话状态确认为重确认的当前对话状态。
综上所述,本实施例提供的对话状态的确认方法,在当前对话状态的重新确认过程中,来判断相邻两个输入语句之间的关联关系,引入了状态回退的状态处理方式,避免发生状态超前的现象,提高了当前对话状态的准确性,由于下一轮对话的对话状态是基于当前对话状态确定出的,因此,进一步地的提高了最终确定出的下一轮对话的对话状态的准确性。
在一些实施例中,服务器在对话意图的类型判断过程中,还针对当前对话意图与历史回复语句所对应的回复类型进行匹配,示例性的,可以在步骤302之前增加步骤501至步骤502,如图5,步骤如下:
步骤501,响应于当前对话意图不符合上一个历史回复语句所对应的回复类型时,将当前对话意图确定为第二类型意图。
上一个历史回复语句是指当前对话中位于当前输入语句之前的回复语句。示例性的,服务器基于上一个历史回复语句的语义来确定对应的回复类型,上一个历史回复语句也是服务器基于上一个输入语句提供的回复;比如,服务器基于上一个历史回复语句的语义来确定当前输入语句需要回复是、或否、或名词释义、或业务查询、或闲聊等回复类型;比如,上一个历史回复语句所对应的回复类型是需要回复是或否,而当前对话意图是业务查询的意图,确定当前对话意图不符合上一个历史回复语句所对应的回复类型,此时,服务器直接将当前对话意图确定为第二类型意图。
步骤502,响应于当前对话意图符合上一个历史回复语句所对应的回复类型时,确定当前对话意图的类型。
在当前对话意图符合上一个历史回复语句所对应的回复类型时,服务器则执行步骤302或者步骤304来确定当前对话意图的类型。
综上所述,本实施例提供的对话状态的确定方法,在当前对话意图不符合上一个历史回复语句所对应的回复类型,可以视为是重新确定了一个话题,此时不会出现状态转移的情况,直接将当前对话意图确定为不可导致状态转移的对话意图,在保证对话状态确认的准确性的前提下,提高了对话状态的确认效率。
图6示出了本申请一个示例性实施例提供的对话状态的确定装置的框图,该装置可以通过软件、硬件、或者二者结合实现成为计算机设备的部分或者全部,计算机设备可以包括服务器或者终端。该装置包括:
意图提取模块601,用于从当前对话的当前输入语句中提取当前对话意图;
状态重确认模块602,用于响应于当前对话意图为第一类型意图,基于对话特征信息对当前对话的当前对话状态进行重新确认,得到重确认的当前对话状态;
状态确认模块603,用于基于当前对话意图对重确认的当前对话状态进行状态转移,得到下一轮对话的对话状态;
其中,第一类型意图是指具备转移对话状态性质的对话意图,对话特征信息用于表征上一轮对话的上一个输入语句和当前输入语句之间的关联关系。
在一些实施例中,状态重确认模块602,用于:
获取上一个输入语句和当前输入语句之间的对话特征信息;
基于对话特征信息确认上一个输入语句与当前输入语句之间是否存在状态跳转;
响应于不存在状态跳转,基于上一个输入语句、当前输入语句和当前对话意图重新确认当前对话的对话状态,得到重确认的当前对话状态。
在一些实施例中,状态重确认模块602,用于:
基于对话意图与对话状态的映射关系,确定与当前对话意图对应的n个候选对话状态;
基于上一个输入语句和当前输入语句,调用匹配模型从n个候选对话状态中匹配出重确认的当前对话状态,n为正整数。
在一些实施例中,n个候选对话状态中每一个候选对话状态对应m个历史回复语句,历史回复语句是指在当前对话所在的多轮对话环境中位于当前输入语句之前的回复语句,m为非负整数;
状态重确认模块602,用于:
基于上一个输入语句和当前输入语句,调用匹配模型对m个历史回复语句中的每一个历史回复语句进行匹配评分,得到每一个历史回复语句的匹配分数;
从n个候选对话状态对应的历史回复语句的匹配分数中确定出最大匹配分数;
将最大匹配分数对应的候选对话状态确定为重确认的当前对话状态。
在一些实施例中,状态重确认模块602,用于:
获取上一个输入语句和当前输入语句之间的对话特征信息;
基于对话特征信息确认上一个输入语句与当前输入语句之间是否存在状态跳转;
响应于不存在状态跳转,将上一轮对话的对话状态确定为重确认的当前对话状态。
在一些实施例中,状态重确认模块602,用于:
响应于存在状态跳转,将当前对话状态确认为重确认的当前对话状态。
在一些实施例中,状态确认模块603,用于:
响应于当前对话意图为第二类型意图,将当前对话状态确定为下一轮对话的对话状态;
其中,第二类型意图是指不具备转移对话状态性质的对话意图。
在一些实施例中,该装置还包括:意图类型确认模块604;
意图类型确认模块604,用于响应于当前对话意图不符合上一个历史回复语句所对应的回复类型,将当前对话意图确定为第二类型意图。
在一些实施例中,
第一类型意图包括肯定意图、否定意图、选择类意图中的至少一种;
第二类型意图包括常见问题FAQ类意图。
综上所述,本实施例提供的对话状态的确定装置,在对话状态跟踪的过程中,从当前对话的当前输入语句中提取得到当前对话意图,对当前对话意图进行类型判断,在确定当前对话意图为可导致对话状态转移这一类型的对话意图之后,进一步地基于上一轮对话的上一个输入语句与当前输入语句之间的对话特征信息,针对当前对话状态进行重新确认以保证当前对话状态的正确性,进而基于重确认的当前对话状态准确地确定出的下一轮对话的对话状态,减少对话状态跳转错误的情况,避免对话状态误差累积的问题。
图7示出了本申请一个示例性实施例提供的计算机设备的结构示意图。该计算机设备可以是执行如本申请提供的对话状态的确定方法的设备,该计算机设备可以是终端或者服务器。具体来讲:
计算机设备700包括中央处理单元(CPU,Central Processing Unit)701、包括随机存取存储器(RAM,Random Access Memory)702和只读存储器(ROM,Read Only Memory)703的系统存储器704,以及连接系统存储器704和中央处理单元701的系统总线705。计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,Input Output System)706,和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。
基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说,大容量存储设备707可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM,Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。
计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(DVD,Digital Versatile Disc)或固态硬盘(SSD,Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。
根据本申请的各种实施例,计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在系统总线705上的网络接口单元711连接到网络712,或者说,也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
在一个可选的实施例中,提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的对话状态的确定方法。
在一个可选的实施例中,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的对话状态的确定方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的对话状态的确定方法。
本申请还提供了一种计算机程序产品,上述计算机程序产品包括计算机指令,上述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从上述计算机可读存储介质读取上述计算机指令,上述处理器执行上述计算机指令,使得上述计算机设备执行如上所述的对话状态的确定方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种对话状态的确定方法,其特征在于,所述方法包括:
从当前对话的当前输入语句中提取当前对话意图;
响应于所述当前对话意图为第一类型意图,获取上一个输入语句和所述当前输入语句之间的对话特征信息;
基于所述对话特征信息确认所述上一个输入语句与所述当前输入语句之间是否存在状态跳转;
响应于不存在所述状态跳转,基于对话意图与对话状态的映射关系,确定与所述当前对话意图对应的n个候选对话状态,所述n个候选对话状态中每一个候选对话状态对应m个历史回复语句,所述历史回复语句是指在所述当前对话所在的多轮对话环境中位于所述当前输入语句之前的回复语句,m为非负整数;
基于所述上一个输入语句和所述当前输入语句,调用匹配模型对所述m个历史回复语句中的每一个历史回复语句进行匹配评分,得到所述每一个历史回复语句的匹配分数;
从所述n个候选对话状态对应的历史回复语句的匹配分数中确定出最大匹配分数;
将所述最大匹配分数对应的候选对话状态确定为重确认的当前对话状态;响应于存在所述状态跳转,将当前对话状态确认为所述重确认的当前对话状态;
基于所述当前对话意图对所述重确认的当前对话状态进行状态转移,得到下一轮对话的对话状态;
其中,所述第一类型意图是指具备转移对话状态性质的对话意图,所述对话特征信息用于表征上一轮对话的上一个输入语句和所述当前输入语句之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述基于对话特征信息对所述当前对话的当前对话状态进行重新确认,得到重确认的当前对话状态,包括:
获取所述上一个输入语句和所述当前输入语句之间的所述对话特征信息;
基于所述对话特征信息确认所述上一个输入语句与所述当前输入语句之间是否存在状态跳转;
响应于不存在所述状态跳转,将所述上一轮对话的对话状态确定为所述重确认的当前对话状态。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
响应于所述当前对话意图为第二类型意图,将所述当前对话状态确定为所述下一轮对话的对话状态;
其中,所述第二类型意图是指不具备转移对话状态性质的对话意图。
4.根据权利要求3所述的方法,其特征在于,所述响应于所述当前对话意图为第一类型意图,基于对话特征信息对所述当前对话的当前对话状态进行重新确认,得到重确认的当前对话状态之前,包括:
响应于所述当前对话意图不符合所述上一个历史回复语句所对应的回复类型,将所述当前对话意图确定为所述第二类型意图。
5.根据权利要求3所述的方法,其特征在于,
所述第一类型意图包括肯定意图、否定意图、选择类意图中的至少一种;
所述第二类型意图包括常见问题FAQ类意图。
6.一种对话状态的确定装置,其特征在于,所述装置包括:
意图提取模块,用于从当前对话的当前输入语句中提取当前对话意图;
状态重确认模块,用于响应于所述当前对话意图为第一类型意图,获取上一个输入语句和所述当前输入语句之间的对话特征信息;基于所述对话特征信息确认所述上一个输入语句与所述当前输入语句之间是否存在状态跳转;响应于不存在所述状态跳转,
基于对话意图与对话状态的映射关系,确定与所述当前对话意图对应的n个候选对话状态,所述n个候选对话状态中每一个候选对话状态对应m个历史回复语句,所述历史回复语句是指在所述当前对话所在的多轮对话环境中位于所述当前输入语句之前的回复语句,m为非负整数;基于所述上一个输入语句和所述当前输入语句,调用匹配模型对所述m个历史回复语句中的每一个历史回复语句进行匹配评分,得到所述每一个历史回复语句的匹配分数;从所述n个候选对话状态对应的历史回复语句的匹配分数中确定出最大匹配分数;将所述最大匹配分数对应的候选对话状态确定为重确认的当前对话状态;响应于存在所述状态跳转,将当前对话状态确认为所述重确认的当前对话状态;
状态确认模块,用于基于所述当前对话意图对所述重确认的当前对话状态进行状态转移,得到下一轮对话的对话状态;
其中,所述第一类型意图是指具备转移对话状态性质的对话意图,所述对话特征信息用于表征上一轮对话的上一个输入语句和所述当前输入语句之间的关联关系。
7.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至5任一所述的对话状态的确定方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至5任一所述的对话状态的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221184.4A CN112966077B (zh) | 2021-02-26 | 2021-02-26 | 对话状态的确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110221184.4A CN112966077B (zh) | 2021-02-26 | 2021-02-26 | 对话状态的确定方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966077A CN112966077A (zh) | 2021-06-15 |
CN112966077B true CN112966077B (zh) | 2022-06-07 |
Family
ID=76275876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110221184.4A Active CN112966077B (zh) | 2021-02-26 | 2021-02-26 | 对话状态的确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966077B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532361A (zh) * | 2019-08-09 | 2019-12-03 | 深圳追一科技有限公司 | 用户意图的识别方法、装置、计算机设备和存储介质 |
CN111339781A (zh) * | 2020-02-10 | 2020-06-26 | 科大讯飞华南人工智能研究院(广州)有限公司 | 意图识别方法、装置、电子设备和存储介质 |
CN111737411A (zh) * | 2020-05-20 | 2020-10-02 | 华为技术有限公司 | 人机对话中的响应方法、对话系统及存储介质 |
CN112100349A (zh) * | 2020-09-03 | 2020-12-18 | 深圳数联天下智能科技有限公司 | 一种多轮对话方法、装置、电子设备及存储介质 |
CN112365892A (zh) * | 2020-11-10 | 2021-02-12 | 杭州大搜车汽车服务有限公司 | 人机对话方法、装置、电子装置及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414462B (zh) * | 2020-02-21 | 2023-06-30 | 网易(杭州)网络有限公司 | 一种对话语句确定方法、装置、计算机设备和介质 |
CN111368046B (zh) * | 2020-02-24 | 2021-07-16 | 北京百度网讯科技有限公司 | 人机对话方法、装置、电子设备及存储介质 |
CN111737987B (zh) * | 2020-06-24 | 2023-01-20 | 深圳前海微众银行股份有限公司 | 意图识别方法、装置、设备及存储介质 |
-
2021
- 2021-02-26 CN CN202110221184.4A patent/CN112966077B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110532361A (zh) * | 2019-08-09 | 2019-12-03 | 深圳追一科技有限公司 | 用户意图的识别方法、装置、计算机设备和存储介质 |
CN111339781A (zh) * | 2020-02-10 | 2020-06-26 | 科大讯飞华南人工智能研究院(广州)有限公司 | 意图识别方法、装置、电子设备和存储介质 |
CN111737411A (zh) * | 2020-05-20 | 2020-10-02 | 华为技术有限公司 | 人机对话中的响应方法、对话系统及存储介质 |
CN112100349A (zh) * | 2020-09-03 | 2020-12-18 | 深圳数联天下智能科技有限公司 | 一种多轮对话方法、装置、电子设备及存储介质 |
CN112365892A (zh) * | 2020-11-10 | 2021-02-12 | 杭州大搜车汽车服务有限公司 | 人机对话方法、装置、电子装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112966077A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4016330A1 (en) | Speech dialog processing method and apparatus | |
CN109514586B (zh) | 实现智能客服机器人的方法及系统 | |
US10140977B1 (en) | Generating additional training data for a natural language understanding engine | |
US10853421B2 (en) | Segmented sentence recognition method and device for human-machine intelligent question answer system | |
CN111917878B (zh) | 消息处理方法、装置、设备及存储介质 | |
CN116737908A (zh) | 知识问答方法、装置、设备和存储介质 | |
CN112084317A (zh) | 预训练语言模型的方法和装置 | |
CN113111658B (zh) | 校验信息的方法、装置、设备和存储介质 | |
CN113055751B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN113569017B (zh) | 一种模型处理方法、装置、电子设备及存储介质 | |
CN112966077B (zh) | 对话状态的确定方法、装置、设备及存储介质 | |
CN116186219A (zh) | 一种人机对话交互方法方法、系统及存储介质 | |
CN111970311B (zh) | 会话切分方法、电子设备及计算机可读介质 | |
CN111091011B (zh) | 领域预测方法、领域预测装置及电子设备 | |
CN114328821A (zh) | 基于控制槽位和业务数据槽位的多轮对话控制方法及装置 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 | |
CN113554062A (zh) | 多分类模型的训练方法、设备和存储介质 | |
CN113868396A (zh) | 基于知识图谱的任务类智能对话构建方法及系统 | |
CN113160009A (zh) | 信息推送方法、相关装置、以及计算机介质 | |
CN113326359A (zh) | 一种对话应答及应答策略匹配模型的训练方法和装置 | |
CN113539245B (zh) | 语言模型自动训练方法及系统 | |
CN115510203B (zh) | 问题答案确定方法、装置、设备、存储介质及程序产品 | |
EP3893143A1 (en) | Corpus processing method, apparatus and storage medium | |
KR20220032972A (ko) | 객관식 타입의 전사 결과 선택을 통한 크라우드소싱 기반의 음성 데이터 전사 방법 | |
CN116822605A (zh) | 对话状态识别模型训练及对话状态识别方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |