CN115273833A

CN115273833A - 语音处理方法、装置、电子设备和介质

Info

Publication number: CN115273833A
Application number: CN202210763967.XA
Authority: CN
Inventors: 李霞; 王娜; 任晓楠
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-11-01

Abstract

本公开涉及一种语音处理方法、装置、电子设备和介质，尤其涉及语音交互技术领域；其中，该方法包括：获取语音输入数据对应的多个候选纠错文本；基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本；对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息；基于控制信息控制智能设备响应语音输入数据。本公开实施例通过属性信息能够从多个候选纠错文本中确定出与语音输入数据对应的目标纠错文本，提高语音处理过程的准确性，使得智能设备能够输出符合语音输入数据的响应结果。

Description

语音处理方法、装置、电子设备和介质

技术领域

本公开涉及语音交互技术领域，尤其涉及一种语音处理方法、装置、电子设备和介质。

背景技术

随着语音助手的普及，越来越多的智能设备，如各种家电设备、终端设备等都具备语音交互功能，方便用户通过语音控制智能设备。在语音控制智能设备的过程中，语音识别模块用于将用户输入的语音识别为文本，当识别的文本出现错误时，会直接影响后续的语义分析结果，以及智能设备执行的操作，因此，语音处理过程中文本纠错尤为重要。

目前的文本纠错方法通常是基于词典、拼音相似度、编辑距离、基于词面词、基于语义层以及基于热度等多种原理组合实现，将概率最大的文本作为纠错结果，但是上述文本纠错方法得到的纠错文本的准确率难以保证，可能与实际文本相差较大，从而导致后续的语义分析结果不准确，难以实现用户的实际需求，导致用户的使用体验较差。

发明内容

为了解决上述技术或者至少部分地解决上述技术问题，本公开提供了一种语音处理方法、装置、电子设备和介质，可以从多个候选纠错文本中确定出与语音输入数据对应的目标纠错文本，提高语音处理过程的准确性，使得智能设备能够输出符合语音输入数据的响应结果，从而提高用户的使用体验。

为了实现上述目的，本公开实施例提供的技术方案如下：

第一方面，本公开提供了一种语音处理方法，该方法包括：

获取语音输入数据对应的多个候选纠错文本；

基于智能设备启动的目标应用程序的属性信息，从所述多个候选纠错文本中确定与所述目标应用程序的属性信息匹配的目标纠错文本；

对所述目标纠错文本进行语义分析，获取与所述目标纠错文本对应的控制信息；

基于所述控制信息控制所述智能设备响应所述语音输入数据。

作为本公开实施例一种可选的实施方式，所述方法还包括：

确定所述智能设备未启动所述目标应用程序，确定所述智能设备对应的目标功能；

基于所述目标功能，从所述多个候选纠错文本中确定所述目标纠错文本。

作为本公开实施例一种可选的实施方式，所述基于智能设备启动的目标应用程序的属性信息，从所述多个候选纠错文本中获取与所述目标应用程序的属性信息匹配的目标纠错文本之前，还包括：

确定用户的历史记录数据中不包含所述多个候选纠错文本。

作为本公开实施例一种可选的实施方式，所述方法还包括：

确定用户的历史记录数据中包含所述多个候选纠错文本中的至少两个候选纠错文本，则基于所述历史记录数据的时间先后顺序，从所述至少两个候选纠错文本中确定所述目标纠错文本。

作为本公开实施例一种可选的实施方式，所述方法还包括：

若基于所述属性信息或者基于所述目标功能，未确定所述目标纠错文本，则向所述智能设备对应的用户发出语音提示信息，其中所述语音提示信息用于指示用户反馈与所述语音输入数据对应的目标信息；

基于所述目标信息，确定所述目标纠错文本。

作为本公开实施例一种可选的实施方式，所述方法还包括：

获取所述多个候选纠错文本分别对应的召回概率；

若至少两个召回概率之间的差值大于预设阈值，则将所述至少两个召回概率中较大的召回概率所对应的候选纠错文本确定为目标纠错文本。

作为本公开实施例一种可选的实施方式，所述获取语音输入数据对应的多个候选纠错文本，包括：

获取语音输入数据，对所述语音输入数据进行语音识别，得到初始识别文本；

对所述初始识别文本分别进行纠错，得到所述多个候选纠错文本。

第二方面，本公开提供了一种语音处理装置，该装置包括：

第一获取模块，用于获取语音输入数据对应的多个候选纠错文本；

文本确定模块，用于基于智能设备启动的目标应用程序的属性信息，从所述多个候选纠错文本中确定与所述目标应用程序的属性信息匹配的目标纠错文本；

第二获取模块，用于对所述目标纠错文本进行语义分析，获取与所述目标纠错文本对应的控制信息；

控制模块，用于基于所述控制信息控制所述智能设备响应所述语音输入数据。

作为本公开实施例一种可选的实施方式，所述装置还包括：

第一确定模块，用于确定所述智能设备未启动所述目标应用程序，确定所述智能设备对应的目标功能；

第二确定模块，用于基于所述目标功能，从所述多个候选纠错文本中确定所述目标纠错文本。

作为本公开实施例一种可选的实施方式，所述装置还包括：

第三确定模块，用于在基于智能设备启动的目标应用程序的属性信息，从所述多个候选纠错文本中获取与所述目标应用程序的属性信息匹配的目标纠错文本之前，确定用户的历史记录数据中不包含所述多个候选纠错文本。

作为本公开实施例一种可选的实施方式，所述装置还包括：

第四确定模块，用于确定用户的历史记录数据中包含所述多个候选纠错文本中的至少两个候选纠错文本，则基于所述历史记录数据的时间先后顺序，从所述至少两个候选纠错文本中确定所述目标纠错文本。

作为本公开实施例一种可选的实施方式，所述装置还包括：

发送模块，用于若基于所述属性信息或者基于所述目标功能，未确定所述目标纠错文本，则向所述智能设备对应的用户发出语音提示信息，其中所述语音提示信息用于指示用户反馈与所述语音输入数据对应的目标信息；

第五确定模块，用于基于所述目标信息，确定所述目标纠错文本。

作为本公开实施例一种可选的实施方式，所述装置还包括：

概率获取模块，用于获取所述多个候选纠错文本分别对应的召回概率；

第六确定模块，用于若至少两个召回概率之间的差值大于预设阈值，则将所述至少两个召回概率中较大的召回概率所对应的候选纠错文本确定为目标纠错文本。

作为本公开实施例一种可选的实施方式，所述第一获取模块，具体用于：

第三方面，本公开还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开实施例中的任一种所述的语音处理方法。

第四方面，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实施例中的任一种所述的语音处理方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：首先获取语音输入数据对应的多个候选纠错文本，接着基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本，然后对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息，最后基于控制信息控制智能设备响应语音输入数据，通过属性信息能够从多个候选纠错文本中确定出与语音输入数据对应的目标纠错文本，提高语音处理过程的准确性，使得智能设备能够输出符合语音输入数据的响应结果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例中一种语音处理方法的应用场景示意图；

图2A为根据本公开一个或多个实施例的电子设备的硬件配置框图；

图2B为根据本公开一个或多个实施例的电子设备的软件配置示意图；

图2C为根据本公开一个或多个实施例的智能设备中包含的应用程序的图标控件界面显示示意图；

图3A为本公开实施例提供的一种语音处理方法的流程示意图；

图3B为本公开实施例提供的一种语音处理方法的原理示意图；

图4A为本公开实施例提供的另一种语音处理方法的流程示意图；

图4B为本公开实施例提供的另一种语音处理方法的原理示意图；

图4C为本公开实施例提供的又一种语音处理方法的原理示意图；

图5A为本公开实施例提供的又一种语音处理方法的流程示意图；

图5B为本公开实施例提供的又一种语音处理方法的原理示意图；

图6A为本公开实施例提供的又一种语音处理方法的流程示意图；

图6B为本公开实施例提供的又一种语音处理方法的原理示意图；

图6C为本公开提供的语音处理过程的整体架构图；

图6D为本公开提供的目标纠错文本确定过程的架构图；

图7A为本公开实施例提供的又一种语音处理方法的流程示意图；

图7B为本公开实施例提供的又一种语音处理方法的流程示意图；

图8是本公开实施例提供的一种语音处理装置的结构示意图；

图9是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

随着科技的不断发展，各种家居设备、终端设备以及办公设备等不断趋于智能化，为人们的生活带来了极大的便利。越来越多的智能设备具备语音交互功能，方便用户通过语音实现与智能设备的交互，例如，通过语音控制智能设备进行搜索查询、播放XX节目等。智能设备通过对用户的语音输入数据进行识别，得到识别文本，再对识别文本进行语义分析，确定用户的真实意图，并基于该真实意图执行后续的控制过程。随着语音及自然语言处理相关技术的发展，语音处理作为一种常用的人机交互技术，已广泛应用于各类电子产品中，以其自然方便的交互方式受到了广大用户的喜爱，逐渐成为了智能产品时代的主流交互控制方式。

在语音处理过程中，文本纠错是一项重要任务，尤其是在语音交互过程中，用户说出语音指令后，受用户口音、语速以及音量等因素影响，以及语音识别设备(即智能设备)的硬件能力、软件能力等设备能力影响，识别出的文本可能与语音指令不一致。又或者是用户习惯性记忆错误，如“巴XX小XX”用户经常会记忆成“巴X巴X小XX”。因此，如果不对识别出的文本进行文本纠错，而是直接根据识别出的文本进行语义分析，得到的意图识别结果可能不符合用户真正意图，进而也难以输出符合用户真正意图的响应结果。

目前的文本纠错方法通常是基于词典、拼音相似度、编辑距离、基于词面词、基于语义层以及基于热度等多种原理组合进行纠错，结合候选纠错文本的召回概率输出最终的纠错文本。上述方法存在的问题：最终的纠错文本是概率最大的纠错文本，但是准确率难以保证，可能与实际文本相差较大，从而导致后续的语义分析结果不准确，难以实现用户的实际需求，导致用户的使用体验较差。

图1为本公开实施例中一种语音处理方法的应用场景示意图。如图1所示，示例性的，假设在智能家居场景中的智能设备包括智能音箱100、智能洗衣机101和智能显示设备102(即智能电视机)，用户想要控制某个智能设备时，可以发出语音指令，语音识别系统获取到语音输入数据(即语音指令)之后，通过对该语音输入数据先进行语音识别可以得到初始识别文本，再通过纠错模块对初始识别文本进行纠错，能够得到多个候选纠错文本，再从多个候选纠错文本中决策出目标纠错文本，后续通过语义分析，得到与目标纠错文本对应的控制信息，最后基于该控制信息能够控制智能设备实现相应的操作。

上述过程中，从多个候选纠错文本中决策出的目标纠错文本更符合用户的实际需求，能够提升文本纠错的准确性，进而提升用户体验。

需要说明的是：智能家居场景是语音处理过程的其中一个应用场景，本实施例对此不做具体限制。智能家居场景中可以包含多种智能设备，图1只是进行示例性说明，不对智能设备的种类和个数进行具体限定。

本公开实施例提供的语音处理方法，可以基于电子设备或者电子设备中的功能模块或者功能实体实现。

其中，电子设备可以为个人计算机(personal computer，PC)、服务器、手机、平板电脑、笔记本电脑、大型计算机等，电子设备中可以部署有语音识别系统，用于进行语音处理，本公开实施例对此不作具体限定。

示例性的，图2A为根据本公开一个或多个实施例的电子设备的硬件配置框图。如图2A所示，电子设备包括：调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。其中，控制器250包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG音视频数据信号。通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。电子设备可以通过通信器220与服务器203或者本地智能设备205建立控制信号和数据信号的发送和接收。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。用户接口280可用于接收控制装置(如：红外遥控器等)的控制信号。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制电子设备的工作和响应用户的操作。控制器250控制电子设备的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，简称GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口和控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

图2B为根据本公开一个或多个实施例的电子设备的软件配置示意图，如图2B所示，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包括但不限于以上举例。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层，至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

图2C为根据本公开一个或多个实施例的智能设备(主要为智能播放设备，例如智能电视、数字影院系统或者影音服务器等)中包含的应用程序的图标控件界面显示示意图，如图2C中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播VOD应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。直播电视应用程序，可以通过不同的信号源提供直播电视。视频点播VOD应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。应用程序中心，可以提供储存各种应用程序。

本申请实施例提供的语音处理方法可以基于上述电子设备实现。

本公开实施例提供的语音处理过程，首先获取语音输入数据对应的多个候选纠错文本，接着基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本，然后对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息，最后基于控制信息控制智能设备响应语音输入数据，通过属性信息能够从多个候选纠错文本中确定出与语音输入数据对应的目标纠错文本，提高语音处理过程的准确性，使得智能设备能够输出符合语音输入数据的响应结果，提高用户的使用体验和满意度。

为了更加详细的说明本方案，以下将以示例性的方式结合图3A进行说明，可以理解的是，图3A中所涉及的步骤在实际实现时可以包括更多的步骤，或者更少的步骤，并且这些步骤之间的顺序也可以不同，以能够实现本申请实施例中提供的语音处理方法为准。

图3A为本公开实施例提供的一种语音处理方法的流程示意图，图3B为本公开实施例提供的一种语音处理方法的原理示意图。本实施例可适用于通过语音交互对各智能设备进行语音控制的情况。本实施例方法可由语音处理装置来执行，该装置可采用硬件/或软件的方式来实现，并可配置于电子设备中。

如图3A所示，该方法具体包括如下步骤：

S310，获取语音输入数据对应的多个候选纠错文本。

其中，语音输入数据为用户发出的声音数据，其表征了用户的实际意图，即：希望智能设备做的事情，例如用户对电视机说“我想看A导演的电影XXX之恋”。多个候选纠错文本可以理解为通过对语音输入数据进行语音理解和纠错所得到的，均与语音输入数据相关。多个候选纠错文本可以用一个数组表示，该数组中可以包括每个候选纠错文本的名称、属性以及召回概率等。召回概率用于表征各候选纠错文本分别与实际文本之间的相似度数值。

在语音处理过程中，纠错过程尤其重要，本实施例中在语音处理过程中，需要获取语音输入数据，可以通过收音模块获取，还可以通过其他方式获取，在获取到语音输入数据之后，通过语音识别模块和纠错模块，分别对语音输入数据进行识别和纠错能够得到多个候选纠错文本。

示例性的，多个候选纠错文本可以如下表1所示：

S320，基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本。

其中，目标应用程序为用户在智能设备中启动的应用程序，例如XX音乐、XX播放器等。属性信息为目标应用程序支持的功能，例如XX音乐支持音频播放功能，XX播放器支持电视剧、电影、综艺等节目的播放功能。

在得到多个候选纠错文本之后，不同的候选纠错文本可能需要在相应的智能设备下才能得到实际的响应，因此需要获取智能设备启动的目标应用程序的属性信息，确定该目标应用程序所支持的功能，从而能够根据该属性信息，从多个候选纠错文本中确定出与该属性信息相匹配的目标纠错文本。

示例性的，假设用户在智能设备中启动的目标应用程序为音乐应用程序，其属性信息为支持音频播放功能，相应的，目标纠错文本则以音乐相关的候选纠错文本优先；假设用户在智能设备中启动的目标应用程序为影视应用程序，其属性信息为支持视频节目播放功能，相应的，目标纠错文本则以影视相关的候选纠错文本优先。

假设语音输入数据为：播放XX的小X孩，现有技术的方案中，无论当前启动的是音乐应用程序还是影视应用程序，目标纠错文本都是：播放XX的小孩；本方案中，基于智能设备启动的目标应用程序的属性信息，在启动音乐应用程序时，目标纠错文本为：播放我XX的X孩；在启动影视应用程序时，目标纠错文本为：播放XX的小孩。其中，XX的小孩为影视名，我XX的X孩为音乐名。

具体的，结合了属性信息的本方案与现有技术方案的对比可以如下表2所示：

表2

因此，相比于现有技术的方案，本方案的准确率更高。

S330，对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息。

在得到目标纠错文本之后通过语义理解技术进行语义分析，能够得到目标纠错文本中包含的控制信息，该控制信息中可以包括用户的意图和语义槽信息。

示例性的，假设目标纠错文本为：播放A导演的电影XXX之恋，通过语义分析，能够得到控制信息，该控制信息可以包括：

用户的意图：视频播放意图，以及语义槽信息：导演-A、视频类型-电影以及电影名-XXX之恋。

S340，基于控制信息控制智能设备响应语音输入数据。

通过语义分析得到的控制信息就能够控制智能设备响应语音输入数据，从而满足用户的实际需求，达到语音交互控制的目的。

示例性的，假设控制信息包括：视频播放意图、导演-A、视频类型-电影以及电影名-XXX之恋，通过“A、电影以及XXX之恋”进行内容搜索，即可搜索到相关媒资内容，基于视频播放意图，能够播放该媒资内容。

在一些实施例中，所述方法还可以具体包括：

若语音输入数据对应的候选纠错文本的个数为一个，则将该候选纠错文本确定为目标纠错文本。

本实施例中，如果候选纠错文本只有一个，那么该候选纠错文本即可确定为目标纠错文本，此时无需进行决策，能够直接确定出目标纠错文本。

本实施例中提供的语音处理方法，首先获取语音输入数据对应的多个候选纠错文本，接着基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本，然后对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息，最后基于控制信息控制智能设备响应语音输入数据，通过属性信息能够从多个候选纠错文本中确定出与语音输入数据对应的目标纠错文本，提高语音处理过程的准确性，使得智能设备能够输出符合语音输入数据的响应结果，提高用户的使用体验和满意度。

图4A为本公开实施例提供的另一种语音处理方法的流程示意图，图4B为本公开实施例提供的另一种语音处理方法的原理示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的，本实施例主要对确定目标功能的其中一种实现过程进行说明。

如图4A所示，该方法具体包括如下步骤：

S410，获取语音输入数据对应的多个候选纠错文本。

S420，确定智能设备未启动目标应用程序，确定智能设备对应的目标功能。

其中，目标功能为智能设备自身所支持的功能，例如智能音箱主要报、音频播放等功能；电视机支持主要支持影视播放功能。

在得到多个候选纠错文本之后，若确定智能设备未启动任何目标应用程序，则确定智能设备所支持的目标功能。

S430，基于目标功能，从多个候选纠错文本中确定目标纠错文本。

由于不同的智能设备所支持的目标功能不同，因此在确定了目标功能之后，基于目标功能，能够从多个候选纠错文本中确定出与目标功能匹配的目标纠错文本。

假设语音输入数据为：播放XX的小X孩，现有技术的方案中，无论智能设备是电视机还是空调，目标纠错文本都是：播放XX的小孩；本方案中，基于智能设备对应的目标功能，在智能设备为电视机(支持视频播放功能)时，目标纠错文本为：播放XX的小孩；在智能设备为空调(支持音频播放功能)时，目标纠错文本为：播放我XX的X孩。其中，XX的小孩为影视名，我XX的X孩为音乐名。

具体的，结合了目标功能的本方案与现有技术方案的对比可以如下表3所示：

表3

S440，对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息。

S450，基于控制信息控制智能设备响应语音输入数据。

在一些实施例中，可选的，所述方法还可以具体包括：

基于所述目标信息，确定所述目标纠错文本。

具体的，如果基于属性信息或者基于目标功能，未确定目标纠错文本，则触发用户澄清模块，通过该模块向智能设备对应的用户发出语音提示信息，并根据用户反馈的与语音输入数据对应的目标信息，确定目标纠错文本。

示例性的，当基于属性信息或者基于目标功能，未确定目标纠错文本，则向智能设备对应的用户反馈“没太听清您的话，您是想搜索歌曲A，还是电视剧B，您可以对我说第一个或者第二个？”，通过用户反馈的目标信息能够确定目标纠错文本，而不是推断用户的实际意图，导致后续的处理结果错误。相应的，在用户反馈了目标信息之后，可以将目标信息保存至用户的历史记录数据中，有利于后续减少多次询问对用户的干扰或者用户的抵触情绪。

本实施例中，通过上述方法确定目标纠错文本，更符合用户的实际需求，避免了因为推断所造成的错误。

示例性的，图4C为本公开实施例提供的又一种语音处理方法的原理示意图。图中所示的语音处理过程已经在上述实施例中描述过，为了避免重复，此处不再赘述。

图5A为本公开实施例提供的又一种语音处理方法的流程示意图，图5B为本公开实施例提供的又一种语音处理方法的原理示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的，本实施例主要对确定目标功能的另一种实现过程进行说明。

如图5A所示，该方法具体包括如下步骤：

S510，获取语音输入数据对应的多个候选纠错文本。

S520，确定用户的历史记录数据中是否包含多个候选纠错文本。

在用户许可的情况下，获取用户的历史记录数据，将多个候选纠错文本分别与历史记录数据进行对比，从而能够确定用户的历史记录数据中是否包含多个候选纠错文本。

若是，执行S560；若否，执行S530。

S530，基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本。

若用户的历史记录数据中不包含多个候选纠错文本，则基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本。

S540，对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息。

S550，基于控制信息控制智能设备响应语音输入数据。

S560，确定用户的历史记录数据中包含多个候选纠错文本中的至少两个候选纠错文本，则基于历史记录数据的时间先后顺序，从至少两个候选纠错文本中确定目标纠错文本。

若确定用户的历史记录数据中包含多个候选纠错文本中的至少两个候选纠错文本，则基于历史记录数据的时间先后顺序，具体是根据最近时间的历史记录，从至少两个候选纠错文本中确定出目标纠错文本。

相应的，在执行了S560之后，还需要执行S540-S550。

示例性的，结合了用户的历史记录数据(XX恋人)的本方案与现有技术方案的对比可以如下表4所示：

表4

语音输入数据	目前方案	本方案(结合用户的历史记录数据)
			播放XX猎人	XX恋人	XX恋人
播放半X猎人	半X猎人	XX恋人
			播放半XX人第二期	半X猎人	XX恋人

本实施例中提供的语音处理方法，首先获取语音输入数据对应的多个候选纠错文本，接着确定用户的历史记录数据中是否包含多个候选纠错文本，若不包含，则基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本；若确定用户的历史记录数据中包含多个候选纠错文本中的至少两个候选纠错文本，则基于历史记录数据的时间先后顺序，从至少两个候选纠错文本中确定目标纠错文本，然后对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息，最后基于控制信息控制智能设备响应语音输入数据，上述方法中，通过确定用户的历史记录数据中是否包含多个候选纠错文本，有两种不同方式分别确定目标纠错文本，保证能够确定出准确的目标纠错文本，提高语音处理过程的准确性，使得智能设备能够输出符合语音输入数据的响应结果。

图6A为本公开实施例提供的又一种语音处理方法的流程示意图，图6B为本公开实施例提供的又一种语音处理方法的原理示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的，本实施例主要对确定目标功能的又一种实现过程进行说明。

如图6A所示，该方法具体包括如下步骤：

S610，获取语音输入数据对应的多个候选纠错文本。

S620，获取所述多个候选纠错文本分别对应的召回概率。

在得到多个候选纠错文本之后，通过对应的数组能够获取多个候选纠错文本分别对应的召回概率。

S630，若至少两个召回概率之间的差值大于预设阈值，则将至少两个召回概率中较大的召回概率所对应的候选纠错文本确定为目标纠错文本。

其中，预设阈值可以是预先设定的数值，例如0.1，也可以视具体情况而定，本实施例对此不做限定。

在获取到多个候选纠错文本分别对应的召回概率之后，计算各召回概率之间的差值，如果有至少两个召回概率之间的差值大于预设阈值，则将至少两个召回概率中较大的召回概率所对应的候选纠错文本确定为目标纠错文本。

示例性的，假设候选纠错文本1的召回概率是0.96，候选纠错文本2的召回概率0.85，二者差值为0.11，大于预设阈值，此时将候选纠错文本1确定为目标纠错文本。

本实施例中，在召回概率之间的差值较大时，无需再进行决策，直接将最大的召回概率所对应的候选纠错文本确定为目标纠错文本，高效快捷。

S640，对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息。

S650，基于控制信息控制智能设备响应语音输入数据。

在一些实施例中，所述方法还可以具体包括：

若各召回概率之间的差值小于或者等于预设阈值，则基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本。

本实施例中，在各召回概率之间的差值小于或者等于预设阈值时，无法直接确定出目标纠错文本，此时通过属性信息确定目标纠错文本，有利于后续步骤的顺利进行。

本实施例中提供的语音处理方法，首先获取语音输入数据对应的多个候选纠错文本，接着获取所述多个候选纠错文本分别对应的召回概率，若至少两个召回概率之间的差值大于预设阈值，则将至少两个召回概率中较大的召回概率所对应的候选纠错文本确定为目标纠错文本，然后对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息，最后基于控制信息控制智能设备响应语音输入数据，上述方法中直接基于召回概率确定目标纠错文本，高效快捷，能够节省时间，提高效率，进而提高语音处理过程的准确性，使得智能设备能够输出符合语音输入数据的响应结果。

示例性的，图6C为本公开提供的语音处理过程的整体架构图。图6C中的决策模块主要用于基于智能设备启动的目标应用程序的属性信息、智能设备对应的目标功能以及用户的历史记录数据中的任一种确定目标纠错文本，用户澄清模块用于向智能设备对应的用户发送出语音提示信息，语音提示信息用于指示用户反馈与语音输入数据对应的目标信息，从而基于目标信息，确定目标纠错文本，其余过程均在上述实施例中描述过，为了避免重复，此处不再赘述。

示例性的，图6D为本公开提供的目标纠错文本确定过程的架构图。图6D中主要展示了基于决策模块和用户澄清模块确定目标纠错文本的过程，具体实现细节均在上述实施例中描述过，为了避免重复，此处不再赘述。

图7A为本公开实施例提供的又一种语音处理方法的流程示意图，图7B为本公开实施例提供的又一种语音处理方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的，本实施例主要对得到多个候选纠错文本的过程进行说明。

如图7A所示，该方法具体包括如下步骤：

S710，获取语音输入数据，对语音输入数据进行语音识别，得到初始识别文本。

在获取到语音输入数据之后，通过语音识别功能对该语音输入数据进行语音识别，能够得到对应的初始识别文本。

S720，对初始识别文本分别进行纠错，得到所述多个候选纠错文本。

在得到初始识别文本之后，由于初始识别文本可能并不准确，或者存在一些错误，此时，需要对初始识别文本进行纠错，得到与初始识别文本对应的多个候选纠错文本。

S730，基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本。

S740，对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息。

S750，基于控制信息控制智能设备响应语音输入数据。

人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。其中，语音识别技术(Automatic Speech Recognition，ASR)是人工智能领域的重要技术之一。目前的语音识别系统通常可以包括：ASR模块、语义理解(Natural-language understanding，NLU)模块、对话管理(Dialog Management，DM)模块、自然语言生成(Natural-languagegeneration，NLG)模块和语音合成(Text To Speech，TTS)模块等。

其中，ASR模块用于将语音输入数据转换成文本；NLU模块用于将输入的文本转换为机器可以理解的语义信息；DM模块基于对话的状态，根据语义信息，提供相应的业务；NLG模块用于根据业务的信息生成自然语言文本；TTS模块用于将自然语言文本变成语音。

在本实施例中，通过上述语音识别系统和纠错模块，可以实现如下语音交互过程：

假设语音输入数据为：我想看B导演的电视剧XX传。

1、ASR模块：将语音输入数据转化为初始识别文本；

2、纠错模块：对初始识别文本进行纠错，得到多个候选纠错文本；

2、决策模块：从多个候选纠错文本中确定出目标纠错文本，即：播放B导演的电视剧XX传；

3、NLU模块：对目标纠错文本进行语义分析，得到对应的控制信息，即：影视查询意图，语义槽信息：导演-B、视频类型-电视剧以及电视剧名-XX传；

3、DM模块：根据控制信息，提供相应的业务，如影视查询、视频播放等；

4、NLG模块：生成反馈播报语内容，如“XX传画面唯美，剧情感人”；

5、TTS：将影视查询结果和播报语内容进行组装，通过智能设备播放XX传，并将播报语内容“XX传画面唯美，剧情感人”转化为语音播报给用户。

本实施例中提供的语音处理方法，首先获取语音输入数据，对语音输入数据进行语音识别，得到初始识别文本，接着对初始识别文本分别进行纠错，得到所述多个候选纠错文本，然后基于智能设备启动的目标应用程序的属性信息，从多个候选纠错文本中确定与目标应用程序的属性信息匹配的目标纠错文本，对目标纠错文本进行语义分析，获取与目标纠错文本对应的控制信息，最后基于控制信息控制智能设备响应语音输入数据，上述方法中，在语音识别过程中加入纠错过程，能够得到多个候选纠错文本，进而有利于后续确定目标纠错文本、语义分析以及控制智能设备响应语音输入数据的过程。

图8是本公开实施例提供的一种语音处理装置的结构示意图，该装置配置于电子设备中，可实现本申请任意实施例所述的语音处理方法。该装置具体包括如下：

第一获取模块801，用于获取语音输入数据对应的多个候选纠错文本；

文本确定模块802，用于基于智能设备启动的目标应用程序的属性信息，从所述多个候选纠错文本中确定与所述目标应用程序的属性信息匹配的目标纠错文本；

第二获取模块803，用于对所述目标纠错文本进行语义分析，获取与所述目标纠错文本对应的控制信息；

控制模块804，用于基于所述控制信息控制所述智能设备响应所述语音输入数据。

作为本公开实施例一种可选的实施方式，所述装置还包括：

作为本公开实施例一种可选的实施方式，所述第一获取801，具体用于：

本公开实施例所提供的语音处理装置可执行本公开任意实施例所提供的语音处理方法，具备执行方法相应的功能模块和有益效果，为避免重复，这里不再赘述。

本公开实施例提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开实施例中的任一种所述的语音处理方法。

图9是本公开实施例提供的一种电子设备的结构示意图。如图9所示，该电子设备包括处理器910和存储装置920；电子设备中处理器910的数量可以是一个或多个，图9中以一个处理器910为例；电子设备中的处理器910和存储装置920可以通过总线或其他方式连接，图9中以通过总线连接为例。

存储装置920作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本公开实施例中的语音处理方法对应的程序指令/模块。处理器910通过运行存储在存储装置920中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现本公开实施例所提供的语音处理方法。

存储装置920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置920可进一步包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本实施例提供的一种电子设备可用于执行上述任意实施例提供的语音处理方法，具备相应的功能和有益效果。

本公开实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述语音处理方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

获取语音输入数据对应的多个候选纠错文本；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1所述的方法，其特征在于，所述基于智能设备启动的目标应用程序的属性信息，从所述多个候选纠错文本中获取与所述目标应用程序的属性信息匹配的目标纠错文本之前，还包括：

确定用户的历史记录数据中不包含所述多个候选纠错文本。

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求2所述的方法，其特征在于，还包括：

基于所述目标信息，确定所述目标纠错文本。

6.根据权利要求1所述的方法，其特征在于，还包括：

获取所述多个候选纠错文本分别对应的召回概率；

7.根据权利要求1-6任一项所述的方法，其特征在于，所述获取语音输入数据对应的多个候选纠错文本，包括：

8.一种语音处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。