CN114781401A - 一种数据处理方法、装置、设备和存储介质 - Google Patents

一种数据处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114781401A
CN114781401A CN202210487960.XA CN202210487960A CN114781401A CN 114781401 A CN114781401 A CN 114781401A CN 202210487960 A CN202210487960 A CN 202210487960A CN 114781401 A CN114781401 A CN 114781401A
Authority
CN
China
Prior art keywords
data
intention
interaction
voice
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210487960.XA
Other languages
English (en)
Inventor
李超
蒋宁
吴海英
杨锋
刘磊
杨砚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN202210487960.XA priority Critical patent/CN114781401A/zh
Publication of CN114781401A publication Critical patent/CN114781401A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开一种数据处理方法、装置、数据处理设备和计算机可读存储介质,以解决如何准确的识别用户意图的问题。方法包括:响应于目标对象输入的互动数据,确定所述互动数据对应的至少两种描述数据;一种描述数据以一种数据形式表示所述互动数据;分别基于每种描述数据对所述目标对象进行意图识别,得到每种描述数据对应的意图信息;通过对所述每种描述数据对应的意图信息进行融合处理,确定所述目标对象的互动意图;基于所述互动意图输出与所述互动数据匹配的响应信息。上述方案可以综合更多的信息来确定互动意图,降低了进行互动意图识别时所考虑因素的片面性和局限性,提高了互动意图的识别准确度,同时,保证了对于互动数据较高的利用率。

Description

一种数据处理方法、装置、设备和存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种数据处理方法、装置、设备和存储介质。
背景技术
意图识别,是指通过分类的办法,将待进行意图识别的对象,分类到相应的意图(或称意图种类)。
意图识别的一种典型应用场景,是应用于智能聊天机器人,智能聊天机器人目前在各领域广泛应用,包括智能客服、智能音箱、娱乐产品等。而智能语音机器人作为其进阶形态,以更自然方便的语音交互方式,越来越受到业界的青睐。智能语音交互大多数为多轮对话场景,即用户说了一句话,机器人通过语音转文本技术把语音信号转换为文本然后进行意图识别,根据识别到的意图选择下一句要播放给用户的话,通过语音合成技术将确定的话说给用户听,用户再说一句话后重复这一过程,直到用户挂机或者走到结束节点。
可见,在智能语音机器人与用户交互过程中,识别用户意图是维持高质量交互的重要环节。因此,目前在人工智能领域,如何准确的识别用户意图成为研究的重点问题。
发明内容
本申请实施例提供一种数据处理方法、装置、设备和存储介质,用以解决现有技术存在的如何准确的识别用户意图的问题。
本申请实施例还提供一种数据处理装置、设备和计算机可读存储介质,均用以解决采用现有技术存在的如何准确的识别用户意图的问题。
本申请实施例采用下述技术方案:
一种数据处理方法,包括:
响应于目标对象输入的互动数据,确定所述互动数据对应的至少两种描述数据;一种描述数据以一种数据形式表示所述互动数据;
分别基于每种描述数据对所述目标对象进行意图识别,得到每种描述数据对应的意图信息;
通过对所述每种描述数据对应的意图信息进行融合处理,确定所述目标对象的互动意图;
基于所述互动意图输出与所述互动数据匹配的响应信息。
一种数据处理装置,包括:
描述数据获取单元,用于响应于目标对象输入的互动数据,确定所述互动数据对应的至少两种描述数据;一种描述数据以一种数据形式表示所述互动数据;
意图信息识别单元,用于分别基于每种描述数据对所述目标对象进行意图识别,得到每种描述数据对应的意图信息;
互动意图确定单元,用于通过对所述每种描述数据对应的意图信息进行融合处理,确定所述目标对象的互动意图;
信息输出单元,用于基于所述互动意图输出与所述互动数据匹配的响应信息。
一种数据处理设备,包括:存储器及处理器,其中,
所述存储器,用于存储计算机程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述计算机程序,以用于执行上述的方法的步骤。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述的方法的步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
分别对目标对象的互动数据对应的至少两种描述信息进行意图识别,然后将这些识别到的意图进行融合来确定目标对象的互动意图,相比于只基于单一的数据形式比如语音信号来确定互动意图,本申请实施例提供的方案可以综合以不同数据形式表示互动数据的描述数据来确定互动意图,降低了进行互动意图识别时所考虑因素的片面性和局限性,提高了互动意图的识别准确度。
同时,由于是根据互动数据对应的至少两种描述数据来确定互动意图,从而可以在互动数据对应不止一种类型的描述数据的情况下,充分利用不同类型的描述数据在确定互动意图时所起的作用,保证了互动数据的利用率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为智能语音机器人按照现有技术进行智能语音交互的实现流程示意图;
图2为本申请实施例提供的一种智能语音机器人与数据处理设备进行信息交互的示意图;
图3为本申请实施例1提供的一种数据处理方法的具体实现流程示意图;
图4为Bagging算法的原理图;
图5为本申请实施例提供的一种数据处理系统的结构示意图;
图6为在数据处理系统中,对用户进行意图识别的交互示意图;
图7为实施例2中的意图识别模型的架构示意图;
图8为本申请实施例提供的一种数据处理装置的具体结构示意图;
图9为本申请实施例提供的一种数据处理设备的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
本申请在研究智能语音机器人时,发现智能语音机器人在智能语音交互功能方面,大多涉及至少一轮或多轮对话场景,如图1所示为本申请实施例提供的一种用户与智能语音机器人进行交互的流程示意图。在图1中,数字1~6,表示步骤的序号,比如1表示步骤1,2表示步骤2。如图1所示,该流程图包含6个步骤,如下:
步骤1:用户说一句话时,智能语音机器人利用语音接入模块采集该句话的语音信号;
步骤2:语音接入模块将语音信号发送给如图1所示的ASR——可称为自动语音识别(Automatic Speech Recognition,ASR)模块;ASR模块采用ASR技术,把用户的语音信号转为文本数据;
步骤3:ASR模块将所述文本数据提供给问答知识库——可称为问答知识库模块;问答知识库模块基于文本数据识别用户意图;根据所述文本数据和所述用户意图,从问答知识库模块预先存储的对话文本中,选择与所述文本数据和所述用户意图匹配的对话文本,作为下一句要播放给用户的话所对应的对话文本;
具体地,问答知识库模块中,可以预先存储用户与智能语音机器人进行对话时,所可能涉及的各类问题分别对应的用户意图,以及智能语音机器人针对用户意图可以进行的对话内容所对应的对话文本。
一个具体的实例如下表所示:
Figure BDA0003630647570000051
问答知识库模块基于由用户的语音信号转换得到的文本数据,以及如上表所示的存储的数据,可以判断所述文本数据的内容是否命中表中的问题以及问题对应的用户意图——比如,假设文本数据的内容包括“忘记密码了,确认要进行密码找回”,该内容中的“忘记密码”命中问题中的关键字“忘记密码”;而“确认”的语义表示肯定,命中了表中的用户意图“肯定”——那么,问答知识库模块就可以确定所述文本数据对应的用户意图为“肯定”。
进而,问答知识库模块可以选择与文本数据的内容所命中的问题和用户意图“肯定”均匹配的对话文本“请在页面输入您的手机号码收到的验证信息”,作为下一句要播放给用户的话所对应的对话文本。
步骤4:问答知识库模块将确定的下一句要播放给用户的话所对应的对话文本,发送给TTS(即语音合成,英文全称为Text To Speech,简称TTS)模块,由TTS模块根据接收到的该对话文本,采用TTS技术合成语音数据;
步骤5:语音合成模块将合成的语音数据发送给语音接入模块;
步骤6:语音接入模块将语音合成模块发送来的语音数据转化为语音信号后,“说”给用户。
用户再说一句话后重复上述步骤1~步骤6这一过程,直到用户挂机或者对话流程走到结束节点。这整个过程构成了一通多轮对话的“流程”。
从图1的交互流程可以看出,智能语音机器人正确理解用户所说话的意图后,可以回复给用户一个相匹配的语音信号,从而维持与用户之间高质量的语音交互。基于此,考虑到准确识别用户意图在包括上述场景在内的各类场景下的重要性,为实现准确识别用户意图,本申请实施例提供了一种数据处理方案。
本申请实施例提供的数据处理方案考虑到用户发送给智能语音机器人的一个交互数据可能具有多种描述数据,或者说一个交互数据可以有多种模态,比如交互数据如果是一段视频数据,那么这段视频数据对应的描述数据可以包括视频数据中包括的文本数据、视频数据中的语音数据以及视频数据中目标对象的唇语数据。每一种描述信息都可以用来进行意图识别,最后将每种描述信息对应的意图识别结果进行融合得到用户的交互意图。这样得到的交互意图充分参考了交互数据的多种描述数据,可以得到较为准确的交互意图。
同时,根据互动数据对应的至少两种描述数据来确定互动意图,可以在互动数据对应不止一种类型的描述数据的情况下,充分利用不同类型的描述数据在确定互动意图时所起的作用,保证了互动数据的利用率。
本申请实施例提供的数据处理方案可由数据处理设备执行,该数据处理设备可以是智能语音机器人;或者,该数据处理设备也可以是除智能语音机器人外的其他设备,比如数据处理设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、车载终端等终端设备;或者,数据处理设备还可以是服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
可选的,如果数据处理设备是除智能语音机器人外的其他设备,则智能语音机器人与数据处理设备之间可以进行信息交互。数据处理设备通过本申请实施例的数据处理方案预测到用户的交互意图后,可以指示智能语音聊天机器人输出响应用户的互动数据的响应信息。
举例来说,参见图2,为本申请实施例提供的一种智能语音机器人与数据处理设备进行信息交互的示意图,智能语音机器人接收到用户输入的互动数据后,可以将互动数据传输给数据处理设备,数据处理设备采用本申请的上述数据处理方案确定交互意图,然后基于交互意图确定出与互动数据相匹配的响应信息,然后将响应信息发送给智能语音聊天机器人,由智能语音聊天机器人输出该响应信息。
或者,参见图2,数据处理设备确定出交互意图后,可以将交互意图发送至智能语音机器人,由智能语音机器人基于交互意图确定与交互数据匹配的响应信息并输出。
实施例1
基于上述描述,本申请实施例1提供了一种数据处理方法,用以解决如何准确的识别用户意图的问题。该方法的执行主体,可以是任意的可实现该方法的数据处理设备,如服务器、手机、个人电脑、智能可穿戴设备、智能语音机器人,等等。以下以执行主体为智能语音机器人为例,对该方法进行介绍。
请参见图3,为本申请实施例提供的该数据处理方法的流程示意图。图3所示的数据处理方法可包括以下步骤:
步骤31,智能语音机器人响应于目标对象输入的互动数据,确定所述互动数据对应的至少两种描述数据;
其中,一种描述数据以一种数据形式表示所述互动数据。所述目标对象,比如可以是用户,也可以是能够通过媒体表达意图的任何目标对象,例如虚拟人物等。
互动数据,是指以媒体作为载体所承载的数据。由于该数据在本申请实施例1中,可起到作为目标对象和智能语音机器人的互动媒介的作用,因此可称为“互动”数据。相应地,基于所述互动数据所最终确定出的意图,可称为“互动意图”。
所述的媒体,若从媒体的信息表现形式进行类型划分,可以包括文本、图像、视频、语音和图形等,相应地,所述互动数据的类型,也可以对应地包括文本类、图像类、视频类、语音类、图形类,等。
在一种可选的实施方式中,一方面,考虑到诸如用户等目标对象可以发出可视、可触、可听、可嗅或可尝的信号,来表达自己的意图,另一方面,考虑到人工智能能够具备人类的“五感”——视觉、触觉、听觉、嗅觉和味觉,因此,按照媒体所承载的数据对应的感官类型对互动数据进行划分,本申请实施例中所述的互动数据的类型也可以包括:
可视化媒体承载的数据(如图像数据或视频数据)、可触媒体承载的数据(如可穿戴设备采集的皮肤温度数据)、可听媒体承载的数据(如语音数据)、可嗅媒体承载的数据(如气味传感器采集的人体气味的数据)和可尝媒体承载的数据(如基于人工智能的“电子舌头”识别的液体味道的数据)。
但凡是能够采用媒体进行承载,且能够用于表征意图的数据,均可以属于本申请实施例所述的“互动数据”的范畴。
以如图1所示的智能语音机器人面向用户的智能语音交互场景为例,目标(用户)的互动数据,比如可以是以文本、图像、视频、音频或者图形作为媒体所承载的数据;或者,可以是可视化媒体承载的数据、可触媒体承载的数据、可听媒体承载的数据、可嗅媒体承载的数据或者可尝媒体承载的数据。该些互动数据可用于表征用户的意图,因此,通过对用户的互动数据进行意图识别,可以得到相应的意图信息。
举例来说,在该场景下,目标对象(如用户)可以基于自身使用的数据处理设备,采用向数据处理设备输入文本,或者利用数据处理设备录制语音、拍摄图像或者拍摄视频的方式,产生对应类型的互动数据,并将互动数据提供给智能语音机器人,以使得智能语音机器人获得互动数据。
本申请实施例中所述的描述数据,是指可以以某种数据形式表示互动数据的数据。在实际应用场景中,一些类型的互动数据,可以仅用某一种数据形式的描述数据来表示。比如,文本类的互动数据,可以仅用“文本”这一数据形式的描述数据来表示,此时,可以认为互动数据和描述数据的概念范畴相同。
而一些类型的互动数据,则可以用不同数据形式的描述数据来表示。比如,语音类的互动数据,可以由“文本”这一数据形式的描述数据,或由“音频”这一数据形式的描述数据来表示。其中,文本形式的描述数据即为文本数据,比如可以通过对语音类的互动数据进行语音转文本处理处理而得到;音频形式的描述数据即为语音数据,可以是语音类的所述互动数据本身,也可以是对语音类的所述互动数据进行采样得到的。
又比如,视频类的互动数据(该互动数据中包含语音数据和图像数据),尤其是例如包含有目标对象的唇部动作特征数据的视频类的互动数据,可以由相应的文本数据、语音数据和唇语数据这三种描述数据中的任何一种来表示。其中,这里所说的文本数据,可以通过对该互动数据进行语音转文本处理得到;所述的语音数据,可以通过对所述互动数据进行音频提取处理得到;所述的唇语数据,可以通过对所述互动数据进行唇语提取得到。
本申请实施例中,通过执行步骤31,智能语音机器人可以获取目标对象输入的互动数据对应的至少两种描述数据,以便后续能够融合基于不同数据形式的描述数据,来识别出目标对象的互动意图。
针对步骤31的具体执行方式而言,沿用上例,若所述互动数据的数据类型为视频类,所述至少两种描述数据中包括唇语数据,则确定所述互动数据对应的唇语数据,可以包括:从所述互动数据中识别出人脸特征数据;若所述人脸特征数据中包含所述目标对象的口型变化特征数据,则获取所述目标对象在时间上存在连续性的口型变化特征数据,作为所述唇语数据。
其中,这里所说的时间上存在连续性,可以包括但不限于:沿着视频类的所述互动数据对应的视频播放时间轴,连续出现若干口型变化特征数据。时间上存在连续性的口型变化特征数据,一般可以表明目标对象是在讲话/发声。因此可以获取这样的口型变化特征数据,作为唇语数据。
在确定互动数据对应的至少两种描述数据后,执行步骤32。
步骤32,智能语音机器人分别基于每种描述数据对目标对象进行意图识别,以得到每种描述数据对应的意图信息;
本申请实施例中,对目标对象进行意图识别,可以包括对意图内容进行识别,和/或,对意图类型进行识别。对应地,识别得到的意图信息,可以包括意图内容和/或意图类型。
其中,意图内容,是指目标对象要做的事情本身。
比如,目标对象向智能语音机器人问了一个问题,询问今天重庆的天气如何。那么,“询问天气”、“询问重庆的天气”、“询问今天的天气”、“询问今天重庆的天气”,都属于意图内容的范畴。
又比如,目标对象向智能语音机器人输入了视频类的互动数据,互动数据中包含目标对象的口型变化特征数据,且口型变化特征数据对应的唇语在表达“周杰伦有什么新歌”,那么,“查询新歌”、“想听新歌”、“想听周杰伦的歌”、“想听周杰伦的新歌”、“查询周杰伦的新歌”,都属于意图内容的范畴。
基于每种描述数据对目标对象进行意图识别时,具体是识别到比较精准的程度——如“想听周杰伦的新歌”,还是识别到比较粗放的程度——如“想听歌”,跟具体采用的意图内容识别算法有关。
相关技术中已经有诸多可以实现基于不同类型的描述数据进行意图内容识别的算法,比如针对语音数据的NLU算法或者针对唇语数据的唇语识别算法等,均可应用于本申请实施例中对获取到的互动数据对应的语音数据或者唇语数据进行意图内容的识别。
意图类型,是意图的一种属性,根据实际需求,意图类型可以有不同的划分方式。
比如,可以根据用户情感的两极性,将意图类型划分为“肯定”和“否定”这两种类型。举例而言,用户说出一句话“肯定是我本人”,对应的意图类型为“肯定”,而若这句话为“我对答案不太满意”,则对应的意图类型为“否定”。
又比如,还可以根据所述两极性,将意图类型划分为“肯定”、“中立”和“否定”这三种类型。
再比如,还可以通过人工分类等方式,搜集一些特定场景下用户可能询问的问题类型,基于问题类型划分意图类型。以搜索歌曲场景为例,意图类型可以包括“歌曲”、“视频”、“歌单”、“电台”、“专辑”以及“歌词”等。
本申请实施例中,对如何划分意图类型不做限定。
本申请实施例中,可以采用相关技术进行意图类型的识别,比如采用语义识别算法针对文本数据识别意图类型等。
为便于读者理解步骤32的具体实现方式,以下以所述互动数据对应的至少两种描述数据包括文本数据、视频数据和语音数据为例,对步骤32的具体实现方式进行说明:
对于文本数据,可以采用关键词匹配的方式,对文本数据中包含的意图类型进行识别,以获得识别出的意图类型,作为第一意图类型——比如文本数据中包含“不”或“否”等表示否定态度的关键词,则意图类型为“否定”,而若不包含关键词“不”,而是包含“是”或者“确定”等标识肯定态度的关键词,则意图类型为“肯定”;根据所述文本数据,确定包含所述文本数据所表征的意图内容的文本,作为第一文本数据(第一文本数据即可作为意图内容)。所述第一文本数据可以就是文本数据本身,也可以是对所述文本数据进行语义识别后提炼出的意图内容的文本表达。
特别地,若预先设置有前文所述的问答知识库模块,则可以根据作为描述数据的文本数据与存储于问答知识库模块的问答知识库中的关键字的匹配结果,确定文本数据对应的意图信息。具体实现方式可参考前文对图1所示流程的相关说明,此处不再赘述。
这里所说作为描述数据的文本数据,可以是目标对象(如用户)直接通过文本输入装置——如智能语音机器人自带或外接的键盘,或者与语音机器人建立起通信连接的手机等用户终端的键盘等——而输入智能语音机器人的文本数据。或者,智能语音机器人也可以采集用户的语音信号,进而采用ASR技术,将采集到的语音信号转换为文本数据。
对于视频数据,可以采用唇语识别技术,对视频数据中用户的唇动进行跟踪,进而识别出用户的讲话内容,基于讲话内容,可以确定出用户的意图类型,作为第二意图类型。比如,沿用上例,第二意图类型也可以是“肯定”和“否定”中的某一种。此外,可以将识别出的讲话内容转化为文本,作为与第二意图类型对应的第二文本数据。由于第二文本数据可以表征用户的意图,因此可作为意图内容。
在一种可选的实施方式中,还可以根据预先设置的唇语数据与语义的对应关系,确定与描述数据所包含的唇语数据对应的语义,并根据确定出的唇语数据对应的语义,确定描述数据所包含的唇语数据对应的意图信息。
对于语音数据,可以采用自然语言理解(Natural Language Understanding,NLU)技术对所述语音数据进行自然语言理解,以识别出用户的讲话内容作为语音内容识别结果,并通过对语音内容识别结果进行语义分析,可以确定出用户的意图类型,作为第三意图类型,比如,沿用上例,第三意图类型也可以是“肯定”和“否定”中的某一种。此外,可以将语音内容识别结果转化为文本数据,作为与第三意图类型对应的第三文本数据。由于第三文本数据可以表征用户的意图,因此可作为意图内容。
步骤33,智能语音机器人通过对执行步骤32得到的每种描述数据对应的意图信息进行融合处理,确定目标对象的互动意图;
在一种可选的实施方式中,可以获取意图识别模型,将所得到的每种描述数据对应的意图信息,输入训练好的意图识别模型,以获得所述训练好的意图识别模型所预测出的意图信息,作为所述互动意图。
在一种可选的实施方式中,在基于意图识别模型进行互动意图的预测阶段,可以但不限于采用集成学习(Ensemble Learning,EL)方法来实现。
就EL方法的原理而言,是采用多个弱分类器组成一个强分类器,然后利用该强分类器对数据进行预测,从而提高整体分类器的泛化能力。
EL技术包括多种算法,比如装袋(又称引导聚集,英文全称为Boostrapaggregating,简称Bagging)算法、随机森林(Rondom Forest)算法、提升(Boosting)算法等等。
在一种可选的实施方式中,本申请实施例可以采用Bagging算法来进行预测。以下先介绍意图识别模型是如何训练的,进而再介绍如何采用Bagging算法进行互动意图的识别。
沿用前例,假设所述互动数据对应的至少两种描述数据包括文本数据、视频数据和语音数据,那么,按照EL方法的原理,相应的,待训练的意图识别模型,可以是基于三种类型的分类器构建的。这三种分类器比如可以为:问答知识学习器、NLU学习器和唇语识别学习器。
三种类型的分类器,构成一个强分类器,作为待训练的意图识别模型。
针对待训练的意图识别模型的训练过程,可以包括:基于训练样本集,对待训练的意图识别模型进行训练。
其中,训练样本集包括:训练视频数据样本对应的意图标签、训练视频数据样本对应的多种描述数据样本中每种描述数据样本对应的关联数据样本,以及每种描述数据样本对应的意图子标签。
对应于上述三种类型的分类器,这里所述的训练视频数据样本对应的多种描述数据样本,包括文本数据样本、语音数据样本以及唇语数据样本。
所述的每种描述数据样本对应的关联数据样本,可以指每种描述数据样本本身,也可以是指分别对每种描述数据样本进行意图识别所得到的意图信息。如前文所述,意图信息可以包括意图内容和/或意图类型。
基于训练样本集,可以通过循环执行训练流程,直至训练流程满足训练结束条件时结束循环,将训练流程满足训练结束条件时完成训练的意图识别模型,作为用于预测所述互动意图的意图识别模型。
其中,一次训练流程可以包括如下步骤:
子步骤1:将对应于同一训练视频数据样本的各描述数据样本的关联数据样本,分别输入待训练的意图识别模型中包含的相应的分类器;
具体地,可以将文本数据样本对应的关联数据样本、视频数据样本对应的关联数据样本和语音数据样本对应的关联数据样本,分别对应输入待训练的意图识别模型所包含的问答知识学习器、NLU学习器和唇语识别学习器。
一个具体的示例如下:
假设分别对视频数据样本所对应描述数据样本——文本数据样本、视频数据样本和语音数据样本——进行意图识别,所得到作为相应的关联数据样本的三种意图信息,以及为三种意图信息标注(可采用人工标注方式进行标注)的意图子标签,依次如下:
“本人进行密码找回+肯定”,1;
“本人忘记密码+肯定”,1;
“本人忘记密码+肯定”,1。
其中,“+”符号前的内容为意图内容,“+”符号后的内容为意图类型,意图内容和意图类型共同构成意图信息。数字1为意图子标签,代表正样本。
相应地,视频数据样本也可标注标签“1”(意图标签),代表视频数据样本为正样本。
负样本的构建方式与此类似,但不同的是,作为负样本的关联数据样本,被标注的意图子标签为“0”,以便与正样本相区分。
相应地,视频数据样本也可标注标签“0”(意图标签),代表视频数据样本为负样本。
训练样本集中任一视频数据样本的意图标签,以及该视频数据样本的三种描述数据样本的关联数据样本、关联数据样本被标注的意图子标签,构成一组训练样本。
在构建完各训练样本后,按照Bagging算法,可以采用随机采样(bootstrapsample)的方式,从所述各训练样本构成的原始样本集合中,有放回地重复随机抽取至少一组样本,构成随机采样样本集合。
在一个具体的实例中,假设原始样本集合为{a,b,c,d},其中,a、b、c、d分别代表一组训练样本,那么采用上述方式得到的随机采样样本集合,可能为:{c,b,c,a}或{a,c,b,b}…等等。
基于随机采样样本集合,在子步骤1中,具体可以是将抽取出的各组训练样本所分别包含的关联数据样本,输入待训练的意图识别模型。
子步骤2:获取所述待训练的意图识别模型针对子步骤1中所述的训练视频数据样本的意图识别结果的分类损失的函数值;
子步骤3:根据所述函数值,通过调整所述待训练的意图识别模型的参数值,得到更新后的意图识别模型作为待训练的意图识别模型。
以下结合图4所示的Bagging算法的原理图,对子步骤2和子步骤3进行说明。
如图4所示,以某一组训练样本为例,将该组训练样本中的关联数据样本,对应输入T个弱学习器中的各弱学习器后,按照Bagging算法的结合策略,可以以T个弱学习器投出最多票数的意图信息分布或者意图信息分布之一,作为待训练的意图识别模型(相当于图4中的强学习器)针对该组训练样本对应的视频数据样本的意图识别结果;根据该意图识别结果,以及该组训练样本中的视频数据样本被标注的标签,可以计算待训练的意图识别模型(强学习器)的分类损失的函数值;根据该函数值,可以调整待训练的意图识别模型(强学习器)的参数值。
这样,就完成了对于待训练的意图识别模型的参数值的一次迭代更新。
若此时待训练的意图识别模型未收敛,或迭代更新次数未达到预设次数阈值,则可以跳转为执行子步骤1,从而开始另一次迭代更新。
在所述另一次迭代更新过程中,将各组训练样本中的关联数据样本输入T个弱学习器,而后执行子步骤2和子步骤3。
依次类推,直至符合训练结束条件时,将最后一次调整参数值后的待训练的意图识别模型,作为用于预测互动意图的意图识别模型。
以上即为意图识别模型的训练过程。
在意图识别模型训练好之后,在步骤33中,就可以将通过执行步骤32得到的所述各意图信息,输入训练好的意图识别模型,以获得所述训练好的意图识别模型所预测出的意图信息,作为目标对象的互动意图。
沿用前例,假设目标对象输入的互动数据对应的至少两种描述数据包括文本数据、唇语数据和语音数据,针对该些数据执行步骤32得到的相应意图信息包括:
第一意图类型和第一文本数据;
第二意图类型和第二文本数据;
第三意图类型和第三文本数据。
那么,可以将第一意图类型和第一文本数据进行拼接得到第一待融合意图;将第二意图类型和第二文本数据进行拼接得到第二待融合意图;将第三意图类型和第三文本数据进行拼接得到第三待融合意图。
第一待融合意图、第二待融合意图和第三待融合意图,可以分别对应输入训练好的意图识别模型所包含的问答知识学习器、唇语识别学习器和NLU学习器,从而得到该意图识别模型所预测出的意图信息,作为目标对象的互动意图。
采用本申请实施例1提供的上述方法,由于对目标对象的互动数据对应的至少两种描述信息进行意图识别,然后将这些识别到的意图进行融合来确定目标对象的互动意图,相比于只基于单一的数据形式比如语音信号来确定互动意图,本申请实施例提供的方案可以综合以不同数据形式表示互动数据的描述数据来确定互动意图,降低了进行互动意图识别时所考虑因素的片面性和局限性,提高了互动意图的识别准确度。
同时,由于是根据互动数据对应的至少两种描述数据来确定互动意图,从而可以在互动数据对应不止一种类型的描述数据的情况下,充分利用不同类型的描述数据在确定互动意图时所起的作用,保证了互动数据的利用率。
步骤34,智能语音机器人基于确定出的目标对象的互动意图,输出与互动数据匹配的响应信息。
在一种实施方式中,步骤34的具体实现方式可以包括如下子步骤:
子步骤341:智能语音机器人根据确定出的互动意图,选取与互动意图对应的对话文本;
比如,智能语音机器人可以但不限于通过查询前文所示表格的方式,选取与互动意图匹配的对话文本。
子步骤342:智能语音机器人根据对话文本,采用TTS技术合成相应的语音数据;
子步骤343:智能语音机器人将语音数据转换为语音信号进行输出。
比如,可以由智能语音机器人自身直接将语音数据转换为语音信号后,由智能语音机器人自身或外接的语音信号输出装置进行输出。
或者,智能语音机器人可以将语音数据发送给目标对象所使用的数据处理设备,由所述数据处理设备将所述语音数据转换为语音信号后,由所述数据处理设备自身或外接的语音信号输出装置进行输出。
通过执行上述步骤31~步骤34,智能语音机器人可以实现在准确理解目标对象的互动意图的基础上,输出与互动意图相对应的响应信息,从而实现基于目标对象的交互进行准确的响应。
由于本申请实施例提供的该方法,可以支持目标对象通过输入可由至少两种描述数据来表示的互动数据,来准确传递目标对象的互动意图,从而丰富了目标对象在诸如与智能语音机器人进行互动时的互动方式。当目标对象为用户时,该方法可以达到提升用户体验的目的。
实施例2
基于上述的数据处理方法实施例,本申请实施例提供了一种数据处理系统,参见图5,为本申请实施例提供的一种数据处理系统的结构示意图。在图5所示的数据处理系统中可包括数据接收模块501和数据处理设备502,所述数据处理设备502可以指图3实施例中的智能语音机器人,或者其他设备。
数据接收模块501与数据处理设备502相连接,数据接收模块501可以用于接收用户输入的互动数据,并将互动数据传输给数据处理设备502。
在一个实施例中,数据处理设备502主要用于响应于目标对象输入的互动数据,确定互动数据对应的至少两种描述数据,一种描述数据以一种数据形式表示互动数据;然后分别基于每种描述数据对目标对象进行意图识别,得到每种描述数据对应的意图信息,并通过每种描述数据对应的意图信息进行融合处理,确定目标对象的互动意图,最后基于互动意图输出与互动数据匹配的响应信息。
在一个实施例中,若所述互动数据的数据类型包括语音类,则所述至少两种描述数据包括:对所述互动数据进行语音转文本处理得到的文本数据、以及对所述互动数据进行音频提取处理得到的语音数据;若所述互动数据的数据类型包括视频类,则所述至少两种描述数据包括如下任意两种或多种:对所述互动数据进行语音转文本处理得到文本数据、对所述互动数据进行音频提取处理得到的语音数据、对所述互动数据进行唇语提取得到的唇语数据。
在一个实施例中,数据处理设备502中可以包括唇语提取模块5027,唇语提取模块5027可以用于对视频类的互动数据进行唇语提取得到该互动数据对应的唇语数据,该唇语数据作为互动数据的一种描述数据。
具体实现中,通过唇语提取模块5027从所述互动数据中识别出人脸特征数据;若所述人脸特征数据中包含所述目标对象的口型变化特征数据,则获取所述目标对象在时间上存在连续性的口型变化特征数据,作为所述唇语数据。
在一个实施例中,数据处理设备502还包括自然语言处理模块(又可以称为NLU模块)5025、文本处理模块(又可以称为问答知识库模块)5022以及唇语识别模块5028。若互动数据对应的至少两种描述数据包括文本数据、语音数据以及唇语数据,数据处理设备502在用于分别基于每种描述数据对所述目标对象进行意图识别,得到每种描述数据对应的意图信息时,具体包括如下步骤:
利用所述文本处理模块5022根据所述文本数据和预先设置的问答知识库中的关键字的匹配结果,确定所述文本数据对应的意图信息;其中,所述关键字用于表征意图;
采用所述自然语言处理模块5025基于自然语言处理技术对所述语音数据的语音内容进行识别,得到语音内容识别结果,并根据所述语音内容识别结果,确定所述语音数据对应的意图信息;
通过所述唇语识别模块5028根据预先设置的唇语数据与语义的对应关系,确定与所述描述数据所包含的唇语数据对应的语义,并根据所述语义,确定所述描述数据所包含的唇语数据对应的意图信息。
在一个实施例中,数据处理设备502还包括意图识别模块5024,数据处理设备502在通过对所述每种描述数据对应的意图信息进行融合处理,得到所述目标对象的互动意图时,具体执行如下步骤:通过所述意图识别模块5024获取意图识别模型,所述意图识别模型包括问答知识学习器、自然语言理解学习器、唇语识别学习器;通过所述问答知识学习器、自然语言理解学习器、唇语识别学习器,分别对所述文本数据对应的意图信息、所述语音数据对应的意图信息,以及所述唇语数据对应的意图信息进行意图预测,以得到每种描述数据对应的预测意图信息;按照融合规则将所述每种描述数据对应的预测意图信息进行融合,得到所述互动意图。
采用本申请实施例2提供的上述系统,由于对用户的互动数据对应的至少两种描述信息进行意图识别,然后将这些识别到的意图进行融合来确定目标对象的互动意图,相比于只基于单一的数据形式比如语音信号来确定互动意图,本申请实施例提供的方案可以综合以不同数据形式表示互动数据的描述数据来确定互动意图,降低了进行互动意图识别时所考虑因素的片面性和局限性,提高了互动意图的识别准确度。
同时,由于是根据互动数据对应的至少两种描述数据来确定互动意图,从而可以在互动数据对应不止一种类型的描述数据的情况下,充分利用不同类型的描述数据在确定互动意图时所起的作用,保证了互动数据的利用率。
此外,由于本申请实施例提供的该系统,可以支持用户通过输入可由至少两种描述数据来表示的互动数据,来准确传递用户的互动意图,从而丰富了用户在进行互动时的互动方式,达到提升用户体验的目的。
实施例3
本申请实施例3中,主要结合实际,介绍实施例1中提供的一种数据处理方法在实际场景中的应用。
该实际场景具体为智能语音机器人与用户之间基于视频电话进行智能语音交互的场景。基于本申请实施例1所提供的该方法的发明构思,如图5所示,该场景可以包含用户和提供智能语音机器人服务的数据处理系统。具体地,数据处理系统,可以是呼叫中心。下文所述的呼叫中心,指代数据处理系统。
呼叫中心中设置有数据接收模块501(该数据接收模块501比如具体可以是视频接入模块,下文以视频接入模块指代数据接收模块501)和数据处理设备502(该数据处理设备502,比如具体可以是智能语音机器人,下文以智能语音机器人指代数据处理设备502)。
智能语音机器人,包含有如图5所示的语音转文本模块(又可以称为ASR模块)5021、问答知识库模块(又可以称为前述的文本处理模块)5022、语音提取模块5023、意图识别模块5024、自然语言处理模块(又称为NLU)5025、语音合成模块(又称为TTS模块)5026、唇语提取模块5027和唇语识别模块5028。
结合图6,以下对上述各模块的功能进行说明。
图6所示数字1~13,表示该流程包含的各步骤的编号,各步骤具体如下:
步骤1:用户利用自己的智能手机,基于运营商分配的热线号码和线路,呼入视频电话到呼叫中心的语音接入模块;视频接入模块为呼叫中心接入用户(也可称客户)向呼叫中心呼入的视频电话;
步骤2:视频接入模块将客户的语音流转发给ASR模块5021;ASR模块5021基于ASR技术,将语音流转成文本;
步骤3:ASR模块5021将执行步骤2得到的文本发送给问答知识库模块5022;问答知识库模块5022对ASR转成的文本进行意图类型识别,得到意图类型(称第一意图的意图类型);
具体地,问答知识库模块5022可以通过识别ASR转成的文本中是否包含表征意图类型的关键字/关键词,来确定意图类型。比如,若该文本中包含关键字“是”,“好”且不包含关键字“不”,则可以确定意图类型为“肯定”;而若该文本中包含关键字“不”,则可以确定意图类型为“否定”。
步骤4:问答知识库模块5022将第一意图的意图类型和ASR转成的文本(称第一文本)发送给用户意图识别模块5024;
步骤5:视频接入模块将客户的语音流转发给语音提取模块5023;语音提取模块5023对语音流进行降噪等用于提升语音信号质量的预处理,得到处理后的语音流并转换为语音数据(二进制数据);
步骤6:语音提取模块5023将处理后的语音数据发送给NLU模块5025;NLU模块5025对语音数据进行NLU,以识别出用户的讲话内容,并将讲话内容转化为文本(称第三文本);此外,基于识别出的讲话内容,确定相应的意图类型(称第三意图的意图类型);
步骤7:NLU模块5025将第三意图的意图类型和第三文本发送给用户意图识别模块5024;
步骤8:视频接入模块将所述的视频电话的通话过程中所采集到的用户的视频流转发给唇语提取模块5027;唇语提取模块5027采用机器视觉技术,从所述视频流中识别出人脸特征数据后,基于识别出的人脸特征数据中包含的口型变化特征数据,锁定正在说话的人,提取此人的人脸特征数据中连续出现的口型变化特征数据;
步骤9:唇语提取模块5027将提取的口型变化特征数据编码为二进制数据后,发送给唇语识别模块5028;唇语识别模块5028根据唇语提取模块5027发送过来的二进制数据,采用诸如耦合3D卷积神经网络技术,识别出用户的讲话内容,并将讲话内容转化为文本(称第二文本);此外,基于识别出的讲话内容,确定相应的意图类型(称第二意图的意图类型),具体确定方式可参见实施例1中的相关说明,此处不再赘述;
步骤10:唇语识别模块5028将第二文本和第二意图的意图类型,发送给用户意图识别模块5024;
步骤11:客户意图识别模块拼接第一文本和第一意图的意图类型作为第一意图信息,拼接第二文本和第二意图的意图类型作为第二意图信息,拼接第三文本和第三意图的意图类型作为第三意图信息;基于各意图信息,采用Bagging算法来确定互动意图——即,通过将各意图信息输入采用Bagging算法训练好的意图识别模型,从而得到该模型所预测出的意图信息,作为用户的互动意图;根据互动意图,从问答知识库模块5022所预先保存的问答知识库中,选择与互动意图相匹配的问答文本,作为下一句要播放给用户的话对应的文本发送给TTS模块5026;
步骤12:TTS模块5026根据客户意图识别模块发送来的文本,采用TTS技术合成语音流后,将该语音流发送给视频接入模块;
步骤13:视频接入模块将TTS模块5026发送来的语音流,发送给用户的手机。
至此,完成智能语音机器人与用户之间基于视频电话的一轮对话。
需要说明的是,实施例3中的意图识别模型,可以基于如图7所示的NLU学习器、问答知识学习器和唇语识别学习器构建。
意图识别模型的具体训练过程,可以包括如下步骤:
S1:对根据训练视频数据样本确定出的文本数据样本、唇语数据样本和语音数据样本分别进行意图识别,得到三种意图信息;
所述的意图信息,可以包括意图类型以及作为意图内容的文本。
S2:根据三种意图信息构建训练样本集;训练样本集中包括:训练视频数据样本对应的意图标签、上述三种意图信息,以及每种意图信息对应的意图子标签;
其中,意图标签可以包括但不限于采用人工标注的方式进行。
S3:将训练样本集合划分为训练集和测试集;
S4:基于训练集,采用Bagging算法对由NLU学习器、问答知识学习器和唇语识别学习器构建的待训练的意图识别模型进行训练,以得到待测试的意图识别模型;
需要说明的是,在采用Bagging算法对待训练的意图识别模型进行训练的过程中,若要针对待训练的意图识别模型的分类结果(即意图识别结果)进行投票,投票结果y和各基础学习器(即NLU学习器、问答知识学习器和唇语识别学习器)各自的投票权重ωi以及各自的投票结果ai之间的关系可以如下式所示:
y=∑ωi*ai
在一种可选的实施方式中,NLU学习器的投票权重可以设置为40,而问答知识学习器和唇语识别学习器的投票权重均可设置为30。
当投票结果y大于预设阈值时,可以将待训练的意图识别模型对于训练视频数据样本的分类结果,确定为与加权和(按照上式计算)中占比最大的那个投票结果一致;而当投票结果y不大于该预设阈值时,则可以将该分类结果,确定与该加权和中占比最小的那个投票结果一致。
S5:采用测试集,对待测试的意图识别模型进行测试,若待测试的意图识别模型在测试集上的误差小于预定的误差阈值,则可以将待测试的意图识别模型,确定为训练好的意图识别模型。
本申请实施例3提供的上述在实际场景中的实施流程,由于融合来源于不同类型描述数据的意图信息来得到用户的互动意图,能够比较全面、准确地反映出用户的真实意愿,因此相比于现有技术而言,最终得到的互动意图的准确性相对较高。
实施例4
为解决现有技术存在的如何准确的识别用户意图的问题,出于与本申请上述各实施例相同的发明构思,本申请实施例4提供一种数据处理装置。该数据处理装置可以部署在任意的数据处理设备中。该装置的具体结构示意图如图8所示,包括如下功能单元:
描述数据获取单元81,用于响应于目标对象输入的互动数据,确定所述互动数据对应的至少两种描述数据;一种描述数据以一种数据形式表示所述互动数据;
意图信息识别单元82,用于分别基于每种描述数据对所述目标对象进行意图识别,得到每种描述数据对应的意图信息;
互动意图确定单元83,用于通过对所述每种描述数据对应的意图信息进行融合处理,确定所述目标对象的互动意图;
信息输出单元84,用于基于所述互动意图输出与所述互动数据匹配的响应信息。
可选的,所述互动数据的数据类型包括以下任意一种或多种:语音类以及视频类;
若所述互动数据的数据类型包括语音类,则所述至少两种描述数据可以包括:
对所述互动数据进行语音转文本处理得到的文本数据、以及对所述互动数据进行音频提取处理得到的语音数据。
若所述互动数据的数据类型包括视频类,则所述至少两种描述数据可以包括如下任意两种或多种:
对所述互动数据进行语音转文本处理得到文本数据、对所述互动数据进行音频提取处理得到的语音数据、对所述互动数据进行唇语提取得到的唇语数据。
可选的,若所述互动数据的数据类型为视频类,所述至少两种描述数据中包括所述唇语数据,则描述数据获取单元81在确定互动数据对应的至少两种描述数据时,执行如下步骤:
通过所述唇语提取模块从所述互动数据中识别出人脸特征数据;
若所述人脸特征数据中包含所述目标对象的口型变化特征数据,则获取所述目标对象在时间上存在连续性的口型变化特征数据,作为所述唇语数据。
可选的,若所述互动数据为视频类,所述至少两种描述数据包括文本数据、语音数据以及唇语数据,则意图信息识别单元82在分别基于每种描述数据对所述目标对象进行意图识别,得到每种描述数据对应的意图信息时,执行如下步骤:利用文本处理模块根据所述文本数据和预先设置的问答知识库中的关键字的匹配结果,确定所述文本数据对应的意图信息;其中,所述关键字用于表征意图;采用自然语言处理模块基于自然语言处理技术对所述语音数据的语音内容进行识别,得到语音内容识别结果,并根据所述语音内容识别结果,确定所述语音数据对应的意图信息;通过唇语识别模块根据预先设置的唇语数据与语义的对应关系,确定与所述描述数据所包含的唇语数据对应的语义,并根据所述语义,确定所述描述数据所包含的唇语数据对应的意图信息。
可选的,所述文本数据对应的意图信息,包括:作为意图内容的所述文本数据,以及意图类型;所述语音数据对应的意图信息,包括:所述语音内容识别结果的文本数据,以及意图类型;所述唇语数据对应的意图信息,包括:所述唇语数据对应的语义的文本数据以及意图类型。
可选的,若所述互动数据的数据类型为视频类,所述至少两种描述数据包括文本数据、语音数据以及唇语数据,则互动意图确定单元83在通过对所述每种描述数据对应的意图信息进行融合处理,得到所述目标对象的互动意图时,执行如下步骤:
通过意图识别模块获取意图识别模型,所述意图识别模型包括问答知识学习器、自然语言理解学习器、唇语识别学习器;
通过所述问答知识学习器、自然语言理解学习器、唇语识别学习器,分别对所述文本数据对应的意图信息、所述语音数据对应的意图信息,以及所述唇语数据对应的意图信息进行意图预测,以得到每种描述数据对应的预测意图信息;按照融合规则将所述每种描述数据对应的预测意图信息进行融合,得到所述互动意图。
可选的,本申请实施例4提供的该数据处理装置还可以包括:训练单元85。
所述训练单元85用于:基于训练样本集对所述意图识别模型进行训练。
其中,所述训练样本集包括:训练视频数据样本对应的意图标签、所述训练视频数据样本对应的多种描述数据样本中每种描述数据样本对应的关联数据样本,以及每种描述数据样本对应的意图子标签;
所述训练视频数据样本对应的多种描述数据样本,包括文本数据样本、语音数据样本以及唇语数据样本。
可选的,所述数据处理装置,可以部署在数据处理系统中。数据处理系统还包括数据接收模块,所述目标对象输入的互动数据是通过所述数据接收模块接收到的。
可选的,所述目标对象输入的互动数据可以包括所述目标对象输入智能聊天机器人的互动数据。则所述信息输出单元84,具体可以用于:
根据所述互动意图,选取与所述互动意图对应的对话文本;
根据所述对话文本,采用语音合成技术,合成相应的语音数据;
将所述语音数据转换为语音信号,由所述智能聊天机器人进行输出。
对于本申请实施例提供的该装置的各功能单元的具体功能的详细实现方式,可以参考本申请实施例1中关于数据处理方法的相关介绍,此处不再赘述。
采用本申请实施例提供的该装置,由于分别对目标对象的互动数据对应的至少两种描述信息进行意图识别,然后将这些识别到的意图进行融合来确定目标对象的互动意图,相比于只基于单一的数据形式比如语音信号来确定互动意图,本申请实施例提供的方案可以综合以不同数据形式表示互动数据的描述数据来确定互动意图,降低了进行互动意图识别时所考虑因素的片面性和局限性,提高了互动意图的识别准确度。
同时,由于是根据互动数据对应的至少两种描述数据来确定互动意图,从而可以在互动数据对应不止一种类型的描述数据的情况下,充分利用不同类型的描述数据在确定互动意图时所起的作用,保证了互动数据的利用率。
实施例5
出于与本申请前述各实施例相同的发明构思,本申请实施例5提供一种数据处理设备,用以解决现有技术存在的如何准确的识别用户意图的问题。
如图9所示,所述数据处理设备包括:存储器91及处理器92。存储器91可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器91可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器92,与存储器91耦合,用于执行存储器91中存储的计算机程序,以用于执行本申请实施例1中所述的一种数据处理方法。
处理器92在执行存储器91中的计算机程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步的,如图9所示,数据处理设备还包括:显示器94、通信组件93、电源组件95、音频组件96等其它组件。图9中仅示意性给出部分组件,并不意味着数据处理设备只包括图9所示组件。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的方法的步骤或功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (12)

1.一种数据处理方法,其特征在于,包括:
响应于目标对象输入的互动数据,确定所述互动数据对应的至少两种描述数据;一种描述数据以一种数据形式表示所述互动数据;
分别基于每种描述数据对所述目标对象进行意图识别,得到每种描述数据对应的意图信息;
通过对所述每种描述数据对应的意图信息进行融合处理,确定所述目标对象的互动意图;
基于所述互动意图输出与所述互动数据匹配的响应信息。
2.如权利要求1所述的方法,其特征在于,所述互动数据的数据类型包括以下任意一种或多种:语音类以及视频类;
若所述互动数据的数据类型包括语音类,则所述至少两种描述数据包括:对所述互动数据进行语音转文本处理得到的文本数据、以及对所述互动数据进行音频提取处理得到的语音数据;
若所述互动数据的数据类型包括视频类,则所述至少两种描述数据包括如下任意两种或多种:对所述互动数据进行语音转文本处理得到文本数据、对所述互动数据进行音频提取处理得到的语音数据、对所述互动数据进行唇语提取得到的唇语数据。
3.如权利要求2所述的方法,其特征在于,所述数据处理方法由数据处理设备执行,所述数据处理设备包括唇语提取模块;若所述互动数据的数据类型为视频类,所述至少两种描述数据中包括所述唇语数据,则所述确定所述互动数据对应的至少两种描述数据,包括:
通过所述唇语提取模块从所述互动数据中识别出人脸特征数据;
若所述人脸特征数据中包含所述目标对象的口型变化特征数据,则获取所述目标对象在时间上存在连续性的口型变化特征数据,作为所述唇语数据。
4.如权利要求3所述的方法,其特征在于,所述数据处理设备还包括自然语言处理模块、文本处理模块以及唇语识别模块,若所述互动数据为视频类,所述至少两种描述数据包括文本数据、语音数据以及唇语数据,则所述分别基于每种描述数据对所述目标对象进行意图识别,得到每种描述数据对应的意图信息,包括:
利用所述文本处理模块根据所述文本数据和预先设置的问答知识库中的关键字的匹配结果,确定所述文本数据对应的意图信息;其中,所述关键字用于表征意图;
采用所述自然语言处理模块基于自然语言处理技术对所述语音数据的语音内容进行识别,得到语音内容识别结果,并根据所述语音内容识别结果,确定所述语音数据对应的意图信息;
通过所述唇语识别模块根据预先设置的唇语数据与语义的对应关系,确定与所述描述数据所包含的唇语数据对应的语义,并根据所述语义,确定所述描述数据所包含的唇语数据对应的意图信息。
5.如权利要求4所述的方法,其特征在于:
所述文本数据对应的意图信息,包括:作为意图内容的所述文本数据,以及意图类型;
所述语音数据对应的意图信息,包括:所述语音内容识别结果的文本数据,以及意图类型;
所述唇语数据对应的意图信息,包括:所述唇语数据对应的语义的文本数据以及意图类型。
6.如权利要求2所述的方法,其特征在于,所述数据处理设备还包括意图识别模块,若所述互动数据的数据类型为视频类,所述至少两种描述数据包括文本数据、语音数据以及唇语数据,则所述通过对所述每种描述数据对应的意图信息进行融合处理,得到所述目标对象的互动意图,包括:
通过所述意图识别模块获取意图识别模型,所述意图识别模型包括问答知识学习器、自然语言理解学习器、唇语识别学习器;
通过所述问答知识学习器、自然语言理解学习器、唇语识别学习器,分别对所述文本数据对应的意图信息、所述语音数据对应的意图信息,以及所述唇语数据对应的意图信息进行意图预测,以得到每种描述数据对应的预测意图信息;
按照融合规则将所述每种描述数据对应的预测意图信息进行融合,得到所述互动意图。
7.如权利要求6所述的方法,其特征在于,所述获取意图识别模型之前,所述方法还包括:
基于训练样本集对所述意图识别模型进行训练;
其中,所述训练样本集包括:训练视频数据样本对应的意图标签、所述训练视频数据样本对应的多种描述数据样本中每种描述数据样本对应的关联数据样本,以及每种描述数据样本对应的意图子标签;
所述训练视频数据样本对应的多种描述数据样本,包括文本数据样本、语音数据样本以及唇语数据样本。
8.如权利要求3所述的方法,其特征在于,所述数据处理设备部署在数据处理系统中,所述数据处理系统还包括数据接收模块,所述目标对象输入的互动数据是通过所述数据接收模块接收到的。
9.如权利要求1所述的方法,其特征在于,所述目标对象输入的互动数据包括所述目标对象输入智能聊天机器人的互动数据;则所述基于所述互动意图输出与所述互动数据匹配的响应信息,包括:
根据所述互动意图,选取与所述互动意图对应的对话文本;
根据所述对话文本,采用语音合成技术,合成相应的语音数据;
将所述语音数据转换为语音信号,由所述智能聊天机器人进行输出。
10.一种数据处理装置,其特征在于,包括:
描述数据获取单元,用于响应于目标对象输入的互动数据,确定所述互动数据对应的至少两种描述数据;一种描述数据以一种数据形式表示所述互动数据;
意图信息识别单元,用于分别基于每种描述数据对所述目标对象进行意图识别,得到每种描述数据对应的意图信息;
互动意图确定单元,用于通过对所述每种描述数据对应的意图信息进行融合处理,确定所述目标对象的互动意图;
信息输出单元,用于基于所述互动意图输出与所述互动数据匹配的响应信息。
11.一种数据处理设备,其特征在于,包括:存储器及处理器,其中,
所述存储器,用于存储计算机程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述计算机程序,以用于执行权利要求1~9任一权项所述的方法的步骤。
12.一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现权利要求1~9任一权项所述的方法的步骤。
CN202210487960.XA 2022-05-06 2022-05-06 一种数据处理方法、装置、设备和存储介质 Pending CN114781401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210487960.XA CN114781401A (zh) 2022-05-06 2022-05-06 一种数据处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210487960.XA CN114781401A (zh) 2022-05-06 2022-05-06 一种数据处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114781401A true CN114781401A (zh) 2022-07-22

Family

ID=82434354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210487960.XA Pending CN114781401A (zh) 2022-05-06 2022-05-06 一种数据处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114781401A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019046463A1 (en) * 2017-08-29 2019-03-07 Zhoa Tiancheng SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE
CN110221693A (zh) * 2019-05-23 2019-09-10 南京双路智能科技有限公司 一种基于人机交互的智能零售终端操作系统
WO2020232867A1 (zh) * 2019-05-21 2020-11-26 平安科技(深圳)有限公司 唇语识别方法、装置、计算机设备及存储介质
WO2021047186A1 (zh) * 2019-09-09 2021-03-18 深圳壹账通智能科技有限公司 咨询对话处理的方法、装置、设备及存储介质
WO2021135548A1 (zh) * 2020-06-05 2021-07-08 平安科技(深圳)有限公司 语音的意图识别方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019046463A1 (en) * 2017-08-29 2019-03-07 Zhoa Tiancheng SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE
WO2020232867A1 (zh) * 2019-05-21 2020-11-26 平安科技(深圳)有限公司 唇语识别方法、装置、计算机设备及存储介质
CN110221693A (zh) * 2019-05-23 2019-09-10 南京双路智能科技有限公司 一种基于人机交互的智能零售终端操作系统
WO2021047186A1 (zh) * 2019-09-09 2021-03-18 深圳壹账通智能科技有限公司 咨询对话处理的方法、装置、设备及存储介质
WO2021135548A1 (zh) * 2020-06-05 2021-07-08 平安科技(深圳)有限公司 语音的意图识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US11475897B2 (en) Method and apparatus for response using voice matching user category
CN111415677B (zh) 用于生成视频的方法、装置、设备和介质
US11450311B2 (en) System and methods for accent and dialect modification
CN107481720B (zh) 一种显式声纹识别方法及装置
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN108305643B (zh) 情感信息的确定方法和装置
CN104488027B (zh) 声音处理系统
US10607595B2 (en) Generating audio rendering from textual content based on character models
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
US10803850B2 (en) Voice generation with predetermined emotion type
US20220076674A1 (en) Cross-device voiceprint recognition
CN109582822A (zh) 一种基于用户语音的音乐推荐方法及装置
CN113067953A (zh) 客户服务方法、系统、装置、服务器及存储介质
KR20190117840A (ko) 대화 이해 ai 시스템에 의한 고객 상담의 제공 중에 사람 상담 직원으로 하여금 해당 고객을 위한 이후 상담을 진행하도록 전환하는 방법 및 컴퓨터 판독가능 기록 매체
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
CN116737883A (zh) 人机交互方法、装置、设备及存储介质
CN112053205A (zh) 通过机器人情绪识别的产品推荐方法及装置
CN115222857A (zh) 生成虚拟形象的方法、装置、电子设备和计算机可读介质
CN114065720A (zh) 会议纪要生成方法、装置、存储介质及电子设备
US20210407504A1 (en) Generation and operation of artificial intelligence based conversation systems
CN110517672A (zh) 用户意图识别方法、用户指令执行方法、系统及设备
CN111415662A (zh) 用于生成视频的方法、装置、设备和介质
CN116403601A (zh) 情绪识别模型训练方法及情绪识别方法、装置以及存储介质
CN107943299B (zh) 情感呈现方法和装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination