CN116915528A

CN116915528A - 一种多模态交互信息的识别方法、装置、设备和存储介质

Info

Publication number: CN116915528A
Application number: CN202211434316.2A
Authority: CN
Inventors: 杨一帆; 蔡旭浦; 荣玉军; 罗红
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-10-20

Abstract

本申请实施例公开了一种多模态交互信息的识别方法、装置、设备和存储介质，方法包括：获得交互场景下的待识别交互信息；获得多模态场景识别信息；其中，多模态场景识别信息是与待识别交互信息关联的场景信息；根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题；获得目标问题对应的富媒体响应方式，并以富媒体响应方式输出目标问题的答案。

Description

一种多模态交互信息的识别方法、装置、设备和存储介质

技术领域

本申请涉及通信技术领域，尤其是涉及一种多模态交互信息的识别方法、装置、设备和存储介质。

背景技术

随着电子设备如家庭智能设备的不断普及，可以提供多媒体内容的智能家居设备逐渐成为每个家庭中都会首先选择的一类智能设备。智能家居设备在使用过程中，例如传统机顶盒在进行语音交互过程中，仅通过语音信息进行相关意图解析，存在无法准确解析用户意图的问题。

发明内容

本申请实施例期望提供一种多模态交互信息的识别方法，解决相关技术中仅通过语音信息进行相关意图解析，存在无法准确解析用户意图的问题。

本申请的技术方案是这样实现的：

一种多模态交互信息的识别方法，方法包括：

获得交互场景下的待识别交互信息；

获得多模态场景识别信息；其中，多模态场景识别信息是与待识别交互信息关联的场景信息；

根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题；

获得目标问题对应的富媒体响应方式，并以富媒体响应方式输出目标问题的答案。

一种多模态交互信息的识别装置，装置包括：

获得模块，用于获得交互场景下的待识别交互信息；

获得模块，用于获得多模态场景识别信息；其中，多模态场景识别信息是与待识别交互信息关联的场景信息；

处理模块，用于根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题；

获得模块，用于获得目标问题对应的富媒体响应方式；

输出模块，用于以富媒体响应方式输出目标问题的答案。

一种电子设备，所述电子设备包括：处理器、存储器和通信总线；

所述通信总线用于实现处理器和存储器之间的通信连接；

所述处理器用于执行存储器中存储的多模态交互信息的识别程序，以实现如上述的多模态交互信息的识别方法的步骤。

一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述的多模态交互信息的识别方法的步骤。

本申请实施例所提供的一种多模态交互信息的识别方法，通过获得交互场景下的待识别交互信息；获得多模态场景识别信息；其中，多模态场景识别信息是与待识别交互信息关联的场景信息；根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题，即结合多模态场景识别信息实现目标问题的辅助定位；进一步地，获得目标问题对应的富媒体响应方式，并以富媒体响应方式输出目标问题的答案，如此，还可以针对目标问题匹配对应的富媒体响应方式，实现在交互过程中灵活匹配目标问题的输出方式即解答方式的目的。

附图说明

图1为本申请实施例提供的多模态交互信息的识别方法的流程示意图一；

图2为本申请实施例提供的调用多模态知识图谱进行问题澄清的交互场景示意图；

图3为本申请实施例提供的多模态交互场景的流程示意图；

图4为本申请实施例提供的多模态交互信息的识别装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

应理解，说明书通篇中提到的“本申请实施例”或“前述实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“本申请实施例中”或“在前述实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中应用。在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

传统机顶盒在进行语音交互过程中，仅通过语音信息进行相关意图解析，存在无法准确解析用户意图的问题。

此外，传统机顶盒在使用过程中，不同牌照方会有自己的内容；不同机顶盒有自己的特色能力，在用户使用过程中，遇到一些实时更新内容、新功能时，难以排查问题。在遇到各种类型投诉时，无法准确分析内容。而且用户口语化语音很多，语义解析难度很大。传统机顶盒在人机交互过程中，需要收集很多用户数据进行智能决策。比如声纹信息、图片信息、电子签名信息等等，只有充分收集好这类信息，才能准确解析用户意图，进而进行精准答复。传统机顶盒在进行语音交互时，仅仅通过语音信息进行相关意图解析，但实际上，用户除了语音交互外，还会结合大屏点击信息进行语义理解。仅仅通过语音一种维度进行信息解析，无法实现多模态的智能交互。

目前市面上机顶盒安装的智能客服，不能排查功能使用过程中遇到的问题，仅仅通过配置的知识库内容反馈解决方案。针对内容类、新增功能、业务性问题时，无法实时更新和排查。用户在描述问题时，口语化语言很多，语句解析难度大，近似词语难以合并和归类，无法准确解析用户意图。

机顶盒在人机交互过程中，难以同时收集多维度信息，并结合语音进行意图识别和回复。系统提供的解决办法，目前以文字描述为主，实际上对于复杂问题和操作，在大屏端适合用视频、图文等方式进行步骤介绍。这时需要对问题进行归类分析、根据实际咨询情况进行有针对性的富媒体解答回复。

系统提供的解决办法，目前以文字描述为主，实际上对于复杂问题和操作，在大屏端适合用视频、图文等方式进行步骤介绍。这时需要对问题进行归类分析、根据实际咨询情况进行有针对性的富媒体解答回复。

本申请实施例提供一种多模态交互信息的识别方法，应用于多模态交互信息的识别装置，参照图1所示，该方法包括以下步骤：

步骤101、获得交互场景下的待识别交互信息。

本申请实施例中，多模态交互信息的识别装置包括但不限于中间件，可以理解地，中间件是一种独立的系统软件或服务程序，分布式应用软件借助这种软件在不同的技术之间共享资源，中间件位于客户机服务器的操作系统之上，管理计算资源和网络通信。其中，中间件支持多模态交互信息的识别服务，可以看作是支持多模态智能交互的客服。

在一些实施例中，交互场景下的待识别交互信息包括但不限于人机交互过程中用户提出的问题。在另一些实施例中，交互场景下的待识别交互信息包括但不限于人机交互过程中，多模态交互信息的识别装置提示用户进行信息补全后，得到的用户提出的问题。

在一些交互场景中，人机交互可以理解为电子设备与用户之前的交互。其中，电子设备包括但不限于智能家居设备、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)、虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机、上网本、个人数字助理(personal digital assistant，PDA)等，还可以包括数据库、服务器以及基于终端人工智能的服务响应系统，本申请实施例对电子设备的具体类型不作任何限制。

本申请实施例中，电子设备为智能家居设备时，包括但不限于家庭智能设备，例如智能电视、机顶盒、中控平台、音箱等提供多媒体信息内容的智能家居设备。

步骤102、获得多模态场景识别信息。

其中，多模态场景识别信息是与待识别交互信息关联的场景信息。

本申请实施例中，多模态场景识别信息用于人机交互过程中，结合各类信息进行智能化解析。

步骤103、根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题。

本申请实施例中，根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题，也就是说，结合多模态场景识别信息对待识别交互信息进行分析处理，实现目标问题的辅助定位。

步骤104、获得目标问题对应的富媒体响应方式，并以富媒体响应方式输出目标问题的答案。

本申请实施例中，富媒体(Rich Media)，是指具有动画、声音、视频或交互性的信息传播方式；本申请在定位出目标问题的情况下，针对不同的目标问题，可以匹配对应的富媒体响应方式即输出方式，并以匹配到的富媒体响应方式输出目标问题的答案，实现在交互过程中灵活匹配目标问题的输出方式即解答方式的目的。

本申请实施例提供的多模态交互信息的识别方法，通过获得交互场景下的待识别交互信息；获得多模态场景识别信息；其中，多模态场景识别信息是与待识别交互信息关联的场景信息；根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题，即结合多模态场景识别信息实现目标问题的辅助定位；进一步地，获得目标问题对应的富媒体响应方式，并以富媒体响应方式输出目标问题的答案，如此，还可以针对目标问题匹配对应的富媒体响应方式，实现在交互过程中灵活匹配目标问题的输出方式即解答方式的目的。

本申请一些实施例中，步骤101获得交互场景下的待识别交互信息，可以通过如下步骤实现：

A11、获得交互场景下的原始交互信息。

A12、调用多模态知识图谱确定原始交互信息包含的实体关联的属性信息。

本申请实施例中，在交互场景下，用户口语化语言解析难度很大，不同词语经常表示同一意图，而且口语信息提供量较少，需要问答引擎主动咨询用户，明确问题场景。为此，本申请采用多模态智能交互方式，调用多模态知识图谱实现用户问题辅助定位。多模态知识图谱用于将用户提到的实体关联到对应的属性，然后，根据这些属性情况咨询用户，引导补全信息，进而反馈给用户明确的答案。

A13、根据属性信息生成提示信息，并输出提示信息。

A14、获得针对提示信息反馈的待识别交互信息。

其中，待识别交互信息包括针对提示信息进行补充后的信息。

本申请实施例中将多模态知识图谱与问答系统进行了结合，实现了“追话术”即话术追踪。电子设备根据大屏端业务知识结构，构建图数据库，实现属性角度的追问逻辑。用户遇到问题后，在反馈过程中，往往不是一句话包含所有的问题信息，这时需要多次提示用户要表达的内容，进行不同实体领域的“追问”，进行问题信息补全。并且根据所追问的属性要求，进行多模态信息收集。

在一个引导补全信息的场景中，当原始交互信息例如用户提问的信息不明确，这时需要不断提示用户补全信息，这类场景需要根据用户说出的信息抽取实体，查询对应的属性、关系，再输出提示信息，提示用户补全内容。从问答周报数据中分析，平均每天有接近45％的投诉都是不明确的，需要跟用户确认补全信息。经实验数据发现针对问答业务，在用户反馈信息少时，可以执行2-3轮信息补全逻辑，如还无法定位到问题，再进行相似问题提示。该补全过程，跟人机交互场景涉及的具体业务、实体强相关，本申请借助多模态知识图谱实现补全过程。

例如用户说，我要投诉网络不好，解析出实体为网络，查询网络涉及的属性，包括宽带业务问题、网速问题、路由器问题等等。用户补全信息为网速问题后，查询网速涉及属性，包括网络时延、网速带宽等，直到确认某个具体问题结束。

在一个调用多模态知识图谱进行问题澄清的交互场景中，交互流程参照图2所示：

步骤201、电子设备调用智能问答入口，获得交互场景下的原始交互信息。

这里，原始交互信息包括问答文本查询(query)。

步骤202、电子设备调用问答算法，若能定位到单个问题则直接返回答案。

也就是说，如果用户提问很明确，可以精确命中一个问题，那可以直接回复解决方法。

步骤203、电子设备针对原始交互信息解析槽位。

步骤204、电子设备调用多模态知识图谱根据槽位确认实体。

步骤205、电子设备调用图数据库中根据实体查询对应属性，并接收到图数据库返回的属性结果。其中，属性结果包括原始交互信息包含的实体关联的属性信息。

本申请实施例中，不同技能对应的槽位属性不同，如视频场景，张三作为演员检索；音乐场景，张三作为歌手检索。针对文本场景识别，本申请结合场景识别结果，反向推出词槽最可能的结果，避免了同一词语对应不同词槽的问题。

步骤206、电子设备根据属性结果返回需要用户补全信息的清单。

步骤207、电子设备调用智能问答入口输出第一轮补全提示。其中，第一轮补全提示是根据步骤206反馈的清单生成的。

步骤208、电子设备调用智能问答入口获得针对第一轮补全提示反馈的待识别交互信息。

可以理解地，这里以一次补全提示为例进行说明，在实际应用中，可以进行多次补全提示，最终得到补全信息后的待识别交互信息。

步骤209、电子设备调用问答算法返回针对待识别交互信息的答案。

也就是说，如果用户提问不明确，这时需要不断提示用户补全信息，这类场景需要根据用户说出的信息抽取实体，查询对应的属性、关系，再提示用户补全内容。从问答周报数据中分析，平均每天有接近45％的投诉都是不明确的，需要跟用户确认补全信息。

由此可知，在交互场景下，智能问答在无法根据原始交互信息例如用户语句确认问题时，则调用多模态知识图谱服务进行问题澄清，多次输出提示信息，引导补全信息，得到针对提示信息反馈的待识别交互信息，如此，可以更准确地解析用户意图。

进一步地，在交互场景中，除了采用多模态智能交互方式引导补全信息以得到待识别交互信息，还可以结合多模态场景识别信息实现目标问题的辅助定位，下面介绍多模态场景识别信息的获得方式：

本申请一些实施例中，步骤102获得多模态场景识别信息，可以通过如下步骤实现：

B21、调用南向接口与电子设备的操作系统进行交互，以提示交互场景下支持的系统服务。

本申请实施例中，南向接口称为南向接口S，用于与电子设备的操作系统进行交互，以提示交互场景下支持的系统服务，对外暴露操作系统各项服务。

B22、调用第一北向接口与语音业务平台进行交互，以获得系统服务支持的交互场景下的业务数据和/或配置信息。

本申请实施例中，第一北向接口称为N1接口，用于与语音业务平台进行交互，以获得系统服务支持的交互场景下的业务数据和/或配置信息。

一些调用N1接口的示例场景中，例如认证平台通过N1接口获取鉴权信息，语音业务平台通过N1接口获取设备信息，下发业务数据；网管平台则通过N1接口下发网管命令、机顶盒参数、配置信息等。本申请中的N1接口包括但不限于播放器北向接口、浏览器北向接口、终端网管北向接口。

可见，多模态在语音识别过程中，也能够灵活调用各项能力，包括本地电子设备不支持的能力，调用接口在家庭局域网环境请求网关需要的能力，获取到具备能力的在线设备后，进行相关操作的执行，获得对应的业务数据和/或配置信息。

B23、调用第二北向接口与第三方应用软件进行交互，以获得交互场景下的应用数据信息。

其中，多模态场景识别信息包括业务数据和/或配置信息，以及应用数据信息。

本申请实施例中，第二北向接口称为N2接口，用于与第三方应用软件进行交互，以获得交互场景下的应用数据信息。

一些调用N2接口的示例场景中，调用N2接口与第三方应用软件进行交互，包括但不限于如下能力的实现：播放控制能力实现、页面渲染能力实现，数据存储实现。本申请中的N2接口包括但不限于播放器北向接口，浏览器北向接口，数据中心北向接口。

可见，在人机交互过程中，可以调用对应的接口，以获得交互场景下的多模态场景识别信息，多模态场景识别信息包括调用接口接收到的各类数据，包括但不限于文本、语音、图像、视觉信息等等。进一步地，结合多模态场景识别信息实现目标问题的辅助定位时，可以采用语义理解的方式实现，结合各类信息进行智能化解析。示例性的，多模态场景识别信息包括大屏端显示文字信息时，会优先命中；用户在其他终端有信息输入时，会结合到语义理解引擎中，从而与待识别交互信息相结合，实现目标问题的辅助定位。其中，图像包括但不限于人脸图像和/或人脸信息，获取的人脸图像和人脸信息等均是符合法律规定的，而且均明示过当事人并得到当事人的同意。

由上述可知，本申请通过N1接口与语音相关业务平台进行交互，通过N2接口与第三方应用进行交互，通过南向接口S与终端操作系统进行交互。从总体功能上看，中间件通过北向接口为上层业务提供了能力支持，通过南向接口对终端操作系统提出了能力要求。

在一些实施例中，当三方牌照方有新增时，会按照中间件规范进行协议对接，原有中间件协议不改动，牌照方会进行适配，无需升级该中间件。该中间件能力要求包括：浏览器、播放器、网管、数据相关能力要求，具体规则主要包含通用能力。该中间件负责与牌照方交互，在收到内容名称后，后台会主动请求拨测终端，拨测终端请求牌照方自研，进而验证资源情况。

本申请实施例中，中间件包含六大功能：浏览器功能、播放器功能、网管功能、设置功能、错误码功能、数据中心功能，为机顶盒业务提供统一能力支撑。集成该中间件后，可以一方面统一三方应用对接，另一方面对外暴露操作系统各项服务。

本申请一些实施例中，步骤103根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题，可以通过如下步骤实现：

C31、获得待识别交互信息包含的实体的样本表征矩阵。

这里，样本表征矩阵表示为

C32、获得多模态场景识别信息对应的场景加权参数和场景调节矩阵。

这里，场景加权参数表示为s_w、场景调节矩阵表示为b_w。

这里，s_w是场景加权，场景为当前的交互场景，例如应屏幕显示的场景，如屏幕显示在视频频道，会对应视频加权。

C33、通过激活函数，对样本表征矩阵、场景加权参数和场景调节矩阵进行非线性变换，得到转换后的样本表征特征。

这里，激活函数表示为squash()；通过squash()对变化的目的是将语音解析结果跟屏幕输入的信息结合，能够综合多维度输入信息进行综合判别。

在一些实施例中，通过激活函数，对样本表征矩阵、场景加权参数和场景调节矩阵进行非线性变换，得到转换后的样本表征特征可以通过如下公式(1)实现：

C34、对转换后的样本表征特征进行场景加权求和处理，得到融合后的场景特征。

这里，为了提升模型效果，本申请对每个实体大类中的k个样本取平均来表示类向量可以通过如下公式(2)计算：

其中，N_i为类别i中样本的总数。将融合后的场景特征标记为则有：其中，w表示某个场景中，正负场景得分的权重值，且w₁+w₂＝0。通过上述训练能够对每个实体打上正场景(即高可能性)标签和负场景(即低可能性)标签。k个样本是在总的样本表征中选取特征明显的前k个进入计算，降低计算复杂度。

需要说明的是，这里提到正负场景对用户交互判别的影响。每位用户在语音或点击交互时都有偏向性，由于语音交互模糊性较强，每次交互都有多种理解可能。本次加权用于加强用户偏好的命中。示例性的，用户语音点播后，在当前界面驻留时间越长代表当前操作偏好越强，w₁越高。反之，如果用户驻留时间极短，认为是负场景，后续命中偏向降低。

C35、根据融合后的场景特征和样本表征矩阵，定位目标问题。

这里，在得到的情况下，再经过squash()进行压缩，使其非线性映射到区间[0，1]，得到新的类向量c_i，c_i可以通过如下公式(3)计算：

进一步地，通过迭代多次以获得实体对应的场景向量。最后，根据实体对应的场景向量和样本表征矩阵，定位目标问题。

在一个可实现的场景中，用户在视频播放过程中，语音呼入“暂停”后，画面停止，这时用户选择画面上的商品，即可跳转外部商品链接。进一步，用户在呼入“暂停”后，电子设备侧会上传截图相关实体信息，这时云端会使用加强型中文预训练模型例如ALBERT算法模型进行模型预训练，训练好后会同步电子设备侧。在下次该用户语音识别到类似场景后，云端会将语句文本发到端侧，采用电子设备侧模型进行语义理解，实现人机交互。如此，电子设备可以基于自然语言处理(Natural Language Processing，NLP)引擎，根据不同用户喜好习惯进行针对性的语义理解，并且在电子设备侧执行，响应速度能达到毫秒级。比如用户问“蓝色衬衫价格多少”，如果识别到是既有场景，会将文本发到电子设备侧，电子设备侧模型进行解析并执行相关操作。

本申请采用加强型中文预训练模型例如ALBERT通过E矩阵来分解这个嵌入(embedding)矩阵，让整体embedding参数变小，将V×H转换成V×E+E×H，其中E为i×j矩阵对应于前述的通过调整E矩阵参数，能帮助模型所需的计算参数减少。

本申请实施例中，在实体识别任务之中融入了文本的场景识别结果，通过模型结构强化文本的场景理解能力，使得识别出的实体大概率能够对应到正确的场景中，较好地解决了多场景下一词多义的问题，大大提升了实体识别任务的准确率。避免了相关技术中，无法处理一词多义，不能很好的将识别出的实体对应到正确的场景下的问题。

本申请一些实施例中，C35根据融合后的场景特征和样本表征矩阵，定位目标问题，可以通过如下步骤实现：

C351、根据融合后的场景特征，从本地的场景复合模型中筛选对应的场景模型。

云端生成符合模型并下发到电子设备侧，命中场景中，使用命中的模型进行语义识别，以满足不同用户个性化需求。

可见，多模态对人机交互的客服系统的提升也反应在场景识别方面。本申请对于用户经常使用场景，电子设备侧会记录场景标识，包含图片和语音，并上传云端生成微型场景复合模型，下发到电子设备侧。进一步地，电子设备可以本地的场景复合模型进行筛选，在命中场景后，使用筛选到的场景模型进行语义识别，如此，人机交互过程中的语义识别可以满足不同用户的个性化需求，确保识别出的实体大概率能够对应到正确的场景中。

C352、通过场景模型对样本表征矩阵进行识别，定位目标问题。

本申请结合场景识别结果，反向推出词槽最可能的结果，避免了同一词语对应不同词槽的问题。

本申请一些实施例中，步骤104获得目标问题对应的富媒体响应方式，可以通过如下步骤实现：

D41、获得待识别交互信息包含的实体所需填充参数、所需追问参数和实体命中参数。

D42、获得目标问题对应的解答步骤复杂度系数、追问数目系数和咨询量系数。

D43、根据实体所需填充参数、所需追问参数、实体命中参数、解答步骤复杂度系数、追问数目系数和咨询量系数，生成目标问题的评分结果。

D44、基于评分结果确定目标问题对应的富媒体响应方式。

其中，所需填充参数包括所需填充属性数目和平均填充属性数目，所需追问参数包括所需追问属性数目和平均追问数据数目，实体命中参数包括实体命中频率和平均问题命中频率。

本申请实施例中，针对用户反馈的问题不同，会根据解答办法的复杂度、涉及追问数目、用户咨询量进行综合打分，根据评分结果，设定大屏端智能客服的富媒体响应。示例性的，打分公式如下：

问题综合得分＝x×(解答步骤复杂度系数)+y×(追问数目系数)+z×(咨询量系数)；

其中，x＝当前实体所需填充属性数目/平均填充属性数目；y＝当前实体所需追问属性数目/平均追问数据数目；z＝当前实体命中频率/平均问题命中频率。

示例性的，当综合得分大于0.7时，平台反馈需要进行视频介绍，当前问题复杂度高，命中率高；当综合得分大于0.4时，平台反馈需要进行图文介绍，当前问题复杂度中等，命中率中等；当综合得分小于0.4时，平台反馈进行文字介绍，当前问题复杂度低，命中率低。

可见，本申请对目标问题的反馈模式提出了智能化设定，相关技术中问题的反馈都是人为配置的反馈模式，而且，不同电子设备反馈形式相同，无法进行更多信息的呈现。本申请能够综合问题复杂度、电子设备功能承载力、用户使用习惯数据等因素进行智能化反馈。

本申请提供的多模态交互信息的识别，具备一整套富媒体评级能力，并进行实时消息同步。由于用户反馈的问题各种各样，对于不同问题，会根据解答办法的复杂度、涉及追问数目、用户咨询量进行综合打分，得分高的会提示运营人员配置视频介绍，中等得分会配置图文介绍，最简单一档会配置文字解答。

本申请实施例中，对于需要语音播报的智能设备，除了预设的离线语音外，在线调用云端的语音流也会做缓存。缓存在本地设备的语音，有保存时间，对于常见语句，会对缓存语音做持久化，并不断更新端侧离线数据，达到迅速响应和拟人化响应的效果。该语音拟人化保护点已列入QB-E-067-2018《互联网电视机顶盒终端技术规范》的能力评测指标。智能终端设备会根据功能范围，预制部分拟人化语音，用于播报。并且该部分可以作为固件进行升级。

智能终端在收到需要从文本到语音(Text To Speech，TTS)播报的指令时，先去请求端侧语音库，没有的话，再去请求云端进行语音合成。合成后，会缓存在本地，后续有相同命中会记录调用次数。智能硬件播报语音在一周内(可设置)无相似播报，会删除语音缓存。

智能终端经过一段时间的迭代后，端侧已缓存了绝大多数拟人化语音文件，智能终端家庭场景的语音回复已具备拟人化能力。

端侧在多模态智能交互过程中，也能够灵活调用各项能力，包括本终端不支持的能力，会在家庭局域网环境请求网关需要的能力，获取到具备能力的在线设备后，进行相关执行。

家庭场景中，各类智能终端设备完成蓝牙、无线等在线连接，各类终端都会连接到智能家庭中控上，并上报设备信息，包括设备各类标识、能力标识(比如有播报能力、摄像能力、屏幕展示能力、声纹能力等等)、当然状态等等。

用户语音完成识别和解析后，下发指令到终端，会标识执行指令所需的能力，当前智能硬件如果不具备该执行能力，会请求智能家庭中控，查询是否有家庭连接设备空闲。如果有空闲支持该能力的终端设备，会将指令转发到对应设备执行。

智能终端侧在收到用户模糊反馈时，需要明确用户意图，这时会请求家庭中控，查询是否有空闲设备支撑该能力，完成意图确认工作。比如，用户用遥控器购买车票，在购买确认时，调用摄像头完成验证；在需要签字确认时，调用手写板完成签字确认。这样充分发挥各类终端能力，实现多模态智能交互。

需要说明的是，电子设备侧在离线语音方面，也具备多模态学习能力。对于需要语音播报目标问题的答案的电子设备，除了预设的离线语音外，在线调用云端的语音流也会做缓存。缓存在本地的电子设备的语音，有保存时间，对于常见语句，会对缓存语音做持久化，并不断更新电子设备侧离线数据。

在一个故障排查的人机交互场景中，以电子设备为机顶盒为例，智能客服系统的拨测流程如下：用户按住机顶盒的遥控器说“我要投诉”后，进入投诉页面。用户在投诉页面反馈投诉内容，比如“小猪佩奇无法播放”。这时机顶盒识别出来语句后，上传到云端，云端多模态知识图谱引擎解析出影视名称为“小猪佩奇”后，再根据机顶盒所属城市等地理位置信息，去拨测平台检测。如果拨测平台测试该位置内容源信息正常，则提示用户检测家庭网络状况进行排查。需要说明的是，可以是将识别出来的语句上传到云端进行解析，还可以在机顶盒侧采用多模态知识图谱引擎解析，本申请对此不做具体地限定。

在一个可实现的拨测场景中，本申请提供一种支持实时大屏问题排查的智能客服系统，该系统包括五部分：拨测平台、三方能力平台、中控、问题评级模块、多模态知识图谱引擎，能够实现反馈的问题动态拨测，参照中间件包含的六大功能、以及前述的N1接口和N2接口，接入魔百盒无需硬件改造，即可支持动态故障排查。

在一个可实现的多模态交互场景中，参照图3所示：

步骤301、电子设备获得交互场景下的待识别交互信息和多模态场景识别信息。

示例性的，用户在终端点播内容，终端开启拾音，进行自动语音识别技术(Automatic Speech Recognition，ASR)语音识别后，进行NLP语义分析。

步骤302、电子设备根据多模态场景识别信息，进行待识别交互信息的实体归属词槽定位。

步骤303、电子设备确定实体是否具备关系模板。

步骤304、电子设备确定实体具备关系模板，检索实体关系。

步骤305、电子设备确定实体不具备关系模板，不检索实体关系，直接拿到槽位。

步骤306、电子设备确定是否判断出句式意图和关键槽位。

步骤307、电子设备确定判断出句式意图和关键槽位，进入问答模块，根据实体属性进行追问。

步骤308、电子设备确定未判断出句式意图和关键槽位，根据混合模型进行深度识别。

步骤309、电子设备根据用户回复进行答案检索。

步骤310、电子设备根据问题各项属性和频次进行富媒体评分。

本申请的多模态交互过程中，识别出的意图进行入栈保存。用户使用其他模态设备时，云端会去意图栈拉取当前意图，进而执行对应的操作。通过大屏端人机交互，终端侧会记录用户的各项反馈，包括语音反馈和视觉反馈，进而捕捉用户对内容的评价。在检索过程中，引擎通过用户的浏览情况提取主题，并将主题进行加权操作。当涉及模糊场景下，会有二次询问，端侧在多模态学习过程中，也能够灵活调用各项能力，包括本终端不支持的能力，会在家庭局域网环境请求网关需要的能力，获取到具备能力的在线设备后，进行相关执行。

在一个可实现的多模态交互流程中，用户在终端点播内容，对于需要语音播报的智能设备，除了预设的离线语音外，在线调用云端的语音流也会做缓存。缓存在本地设备的语音，有保存时间，对于常见语句，会对缓存语音做持久化，并不断更新端侧离线数据，达到迅速响应和拟人化响应的效果。对于用户经常使用场景，端侧会记录场景标识，包含图片和语音，并上传云端生成微型场景复合模型，在命中场景后，会使用场景模型进行语义识别，以便满足不同用户个性化需求。

在一个可实现的多模态交互流程中，还可以将多数功能放在云端实现，云端的模块包括：多模态识别引擎模块、实体管理模块、会话中控模块、技能模块、拨测模块、问题评级模块；其中，语音信息处理模块：该模块用于将用户语音文件转为文本信息，在转化过程中，会结合用户上传的各领域热词，进行优先匹配。多模态识别引擎模块：该模块根据拿到的用户所说的文本信息，将解析得到的实体进行合并或新增，根据图谱关系进行属性检索。会话中控模块：该模块将图谱解析结果分发到技能域。云端根据各类技能域，做相应逻辑处理。当图谱检索到该实体需要多个属性时，会触发云端的多轮交互，进行信息补全。实体管理模块：该模块用于根据相似度算法，进行实体融合和新增。问题评级模块：由于用户反馈的问题各种各样，对于不同问题，会根据解答办法的复杂度、涉及追问数目、用户咨询量进行综合打分，得分高的会提示运营人员配置视频介绍，中等得分会配置图文介绍，最简单一档会配置文字介绍信息。

由上述内容可知，本申请提供的多模态交互信息的识别方法，具有如下有益效果：

(1)、用户口语化语言解析难度很大，不同词语经常表示同一意图，而且口语信息提供量较少，需要问答引擎主动咨询用户，明确问题场景。本提案采用多模态智能交互技术实现用户问题辅助定位。

(2)、机顶盒在人机交互过程中，需要接收各类数据，包括文本、语音、图像、视觉等等。在语义理解过程中，如何结合各类信息进行智能化解析是本发明的关键。比如大屏端显示文字信息时，会优先命中；用户在其他终端有信息输入时，会结合到语义理解引擎中。

(3)、解决方案反馈模式创新，相关技术中的解决方案反馈都是人为配置的反馈模式，无法穷举每一类问题，不同终端反馈形式相同，无法进行更多信息的呈现。现有解决方案，能够综合问题复杂度、端侧设备功能承载力、用户使用习惯等因素进行智能化反馈。

(4)、端侧在离线语音方面，也具备多模态学习能力。对于需要语音播报的智能设备，除了预设的离线语音外，在线调用云端的语音流也会做缓存。缓存在本地设备的语音，有保存时间，对于常见语句，会对缓存语音做持久化，并不断更新端侧离线数据。

(5)、多模态对客服系统的提升也反应在场景识别方面。对于用户经常使用场景，端侧会记录场景标识，包含图片和语音，并上传云端生成微型场景复合模型，在命中场景后，会使用场景模型进行语义识别，这样语义识别会满足不同用户个性化需求。

(6)、多模态在语音识别过程中，也能够灵活调用各项能力，包括本终端不支持的能力，会在家庭局域网环境请求网关需要的能力，获取到具备能力的在线设备后，进行相关执行。

本申请的实施例提供一种多模态交互信息的识别装置，该多模态交互信息的识别装置可以应用于图1对应的实施例提供的一种多模态交互信息的识别装置方法中，参照图4所示，该多模态交互信息的识别装置400包括：

获得模块401，用于获得交互场景下的待识别交互信息；

获得模块401，用于获得多模态场景识别信息；其中，多模态场景识别信息是与待识别交互信息关联的场景信息；

处理模块402，用于根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题；

获得模块401，用于获得目标问题对应的富媒体响应方式；

输出模块403，用于以富媒体响应方式输出目标问题的答案。

本申请一些实施例中，获得模块401，用于获得待识别交互信息包含的实体的样本表征矩阵；获得多模态场景识别信息对应的场景加权参数和场景调节矩阵；通过激活函数，对样本表征矩阵、场景加权参数和场景调节矩阵进行非线性变换，得到转换后的样本表征特征；对转换后的样本表征特征进行场景加权求和处理，得到融合后的场景特征；根据融合后的场景特征和样本表征矩阵，定位目标问题。

本申请一些实施例中，处理模块402，用于根据融合后的场景特征，从本地的场景复合模型中筛选对应的场景模型；通过场景模型对样本表征矩阵进行识别，定位目标问题。

本申请一些实施例中，获得模块401，用于获得交互场景下的原始交互信息；调用多模态知识图谱确定原始交互信息包含的实体关联的属性信息；根据属性信息生成提示信息，并输出提示信息；获得针对提示信息反馈的待识别交互信息；其中，待识别交互信息包括针对提示信息进行补充后的信息。

本申请一些实施例中，获得模块401，用于获得待识别交互信息包含的实体所需填充参数、所需追问参数和实体命中参数；获得目标问题对应的解答步骤复杂度系数、追问数目系数和咨询量系数；根据实体所需填充参数、所需追问参数、实体命中参数、解答步骤复杂度系数、追问数目系数和咨询量系数，生成目标问题的评分结果；基于评分结果确定目标问题对应的富媒体响应方式。

本申请一些实施例中，所需填充参数包括所需填充属性数目和平均填充属性数目，所需追问参数包括所需追问属性数目和平均追问数据数目，实体命中参数包括实体命中频率和平均问题命中频率。

本申请一些实施例中，获得模块401，用于调用南向接口与电子设备的操作系统进行交互，以提示交互场景下支持的系统服务；调用第一北向接口与语音业务平台进行交互，以获得系统服务支持的交互场景下的业务数据和/或配置信息；调用第二北向接口与第三方应用软件进行交互，以获得交互场景下的应用数据信息；其中，多模态场景识别信息包括业务数据和/或配置信息，以及应用数据信息。

本申请实施例提供的多模态交互信息的识别装置，通过获得交互场景下的待识别交互信息；获得多模态场景识别信息；其中，多模态场景识别信息是与待识别交互信息关联的场景信息；根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题，即结合多模态场景识别信息实现目标问题的辅助定位；进一步地，获得目标问题对应的富媒体响应方式，并以富媒体响应方式输出目标问题的答案，如此，还可以针对目标问题匹配对应的富媒体响应方式，实现在交互过程中灵活匹配目标问题的输出方式即解答方式的目的。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

本申请的实施例提供一种电子设备，该电子设备可以应用于图5对应的实施例提供的一种多模态交互信息的识别方法中，参照图5所示，该电子设备500包括：

处理器501、存储器502和通信总线503，其中：通信总线503用于实现处理器501和存储器502之间的通信连接。

处理器501用于执行存储器502中存储的多模态交互信息的识别程序，以实现以下步骤：

获得交互场景下的待识别交互信息；

本申请一些实施例中，处理器501用于执行存储器502中存储的多模态交互信息的识别程序，以实现以下步骤：

获得待识别交互信息包含的实体的样本表征矩阵；

获得多模态场景识别信息对应的场景加权参数和场景调节矩阵；

通过激活函数，对样本表征矩阵、场景加权参数和场景调节矩阵进行非线性变换，得到转换后的样本表征特征；

对转换后的样本表征特征进行场景加权求和处理，得到融合后的场景特征；

根据融合后的场景特征和样本表征矩阵，定位目标问题。

根据融合后的场景特征，从本地的场景复合模型中筛选对应的场景模型；

通过场景模型对样本表征矩阵进行识别，定位目标问题。

获得交互场景下的原始交互信息；

调用多模态知识图谱确定原始交互信息包含的实体关联的属性信息；

根据属性信息生成提示信息，并输出提示信息；

获得针对提示信息反馈的待识别交互信息；其中，待识别交互信息包括针对提示信息进行补充后的信息。

获得待识别交互信息包含的实体所需填充参数、所需追问参数和实体命中参数；

获得目标问题对应的解答步骤复杂度系数、追问数目系数和咨询量系数；

根据实体所需填充参数、所需追问参数、实体命中参数、解答步骤复杂度系数、追问数目系数和咨询量系数，生成目标问题的评分结果；

基于评分结果确定目标问题对应的富媒体响应方式。

调用南向接口与电子设备的操作系统进行交互，以提示交互场景下支持的系统服务；

调用第一北向接口与语音业务平台进行交互，以获得系统服务支持的交互场景下的业务数据和/或配置信息；

调用第二北向接口与第三方应用软件进行交互，以获得交互场景下的应用数据信息；其中，多模态场景识别信息包括业务数据和/或配置信息，以及应用数据信息。

本申请实施例提供的电子设备，通过获得交互场景下的待识别交互信息；获得多模态场景识别信息；其中，多模态场景识别信息是与待识别交互信息关联的场景信息；根据待识别交互信息和多模态场景识别信息，定位待识别交互信息命中的目标问题，即结合多模态场景识别信息实现目标问题的辅助定位；进一步地，获得目标问题对应的富媒体响应方式，并以富媒体响应方式输出目标问题的答案，如此，还可以针对目标问题匹配对应的富媒体响应方式，实现在交互过程中灵活匹配目标问题的输出方式即解答方式的目的。

本申请的实施例提供一种计算机存储介质，该计算机存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如下步骤：

获得交互场景下的待识别交互信息；

本申请一些实施例中，该一个或者多个程序可被一个或者多个处理器执行，以实现如下步骤：

获得待识别交互信息包含的实体的样本表征矩阵；

根据融合后的场景特征和样本表征矩阵，定位目标问题。

通过场景模型对样本表征矩阵进行识别，定位目标问题。

获得交互场景下的原始交互信息；

根据属性信息生成提示信息，并输出提示信息；

基于评分结果确定目标问题对应的富媒体响应方式。

需要说明的是，上述计算机存储介质/存储器可以是只读存储器(Read OnlyMemory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种多模态交互信息的识别方法，其特征在于，所述方法包括：

获得交互场景下的待识别交互信息；

获得多模态场景识别信息；其中，所述多模态场景识别信息是与所述待识别交互信息关联的场景信息；

根据所述待识别交互信息和所述多模态场景识别信息，定位所述待识别交互信息命中的目标问题；

获得所述目标问题对应的富媒体响应方式，并以所述富媒体响应方式输出所述目标问题的答案。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别交互信息和所述多模态场景识别信息，定位所述待识别交互信息命中的目标问题，包括：

获得所述待识别交互信息包含的实体的样本表征矩阵；

获得所述多模态场景识别信息对应的场景加权参数和场景调节矩阵；

通过激活函数，对所述样本表征矩阵、所述场景加权参数和所述场景调节矩阵进行非线性变换，得到转换后的样本表征特征；

对所述转换后的样本表征特征进行场景加权求和处理，得到融合后的场景特征；

根据所述融合后的场景特征和所述样本表征矩阵，定位所述目标问题。

3.根据权利要求2所述的方法，其特征在于，所述根据所述融合后的场景特征和所述样本表征矩阵，定位所述目标问题，包括：

根据所述融合后的场景特征，从本地的场景复合模型中筛选对应的场景模型；

通过所述场景模型对所述样本表征矩阵进行识别，定位所述目标问题。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述获得交互场景下的待识别交互信息，包括：

获得所述交互场景下的原始交互信息；

调用多模态知识图谱确定所述原始交互信息包含的实体关联的属性信息；

根据所述属性信息生成提示信息，并输出所述提示信息；

获得针对所述提示信息反馈的所述待识别交互信息；其中，所述待识别交互信息包括针对所述提示信息进行补充后的信息。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述获得所述目标问题对应的富媒体响应方式，包括：

获得所述待识别交互信息包含的实体所需填充参数、所需追问参数和实体命中参数；

获得所述目标问题对应的解答步骤复杂度系数、追问数目系数和咨询量系数；

根据所述实体所需填充参数、所述所需追问参数、所述实体命中参数、所述解答步骤复杂度系数、所述追问数目系数和所述咨询量系数，生成所述目标问题的评分结果；

基于所述评分结果确定所述目标问题对应的富媒体响应方式。

6.根据权利要求5所述的方法，其特征在于，所述所需填充参数包括所需填充属性数目和平均填充属性数目，所述所需追问参数包括所需追问属性数目和平均追问数据数目，所述实体命中参数包括实体命中频率和平均问题命中频率。

7.根据权利要求1至3中任一项所述的方法，其特征在于，所述获得多模态场景识别信息，包括：

调用南向接口与电子设备的操作系统进行交互，以提示所述交互场景下支持的系统服务；

调用第一北向接口与语音业务平台进行交互，以获得所述系统服务支持的所述交互场景下的业务数据和/或配置信息；

调用第二北向接口与第三方应用软件进行交互，以获得所述交互场景下的应用数据信息；其中，所述多模态场景识别信息包括所述业务数据和/或所述配置信息，以及所述应用数据信息。

8.一种多模态交互信息的识别装置，其特征在于，所述装置包括：

获得模块，用于获得交互场景下的待识别交互信息；

获得模块，用于获得多模态场景识别信息；其中，所述多模态场景识别信息是与所述待识别交互信息关联的场景信息；

处理模块，用于根据所述待识别交互信息和所述多模态场景识别信息，定位所述待识别交互信息命中的目标问题；

所述获得模块，用于获得所述目标问题对应的富媒体响应方式；

输出模块，用于以所述富媒体响应方式输出所述目标问题的答案。

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令，实现如权利要求1至7中任一项所述的多模态交互信息的识别方法。

10.一种存储介质，其特征在于，存储有可执行指令，当所述可执行指令被执行时，用于引起处理器执行权利要求1至7中任一项所述的多模态交互信息的识别方法。