CN113113007A

CN113113007A - 语音数据的处理方法和装置、电子设备和存储介质

Info

Publication number: CN113113007A
Application number: CN202110339932.9A
Authority: CN
Inventors: 李森
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-07-13

Abstract

本申请提供了一种语音数据的处理方法和装置、电子设备和存储介质，其中，该方法包括：通过语音交互设备采集目标对象的第一语音数据；在检测到对语音交互设备执行了第一操作的情况下，通过语音交互设备采集目标对象的第二语音数据，其中，第一操作用于指示语音交互设备继续采集语音数据；对第一语音数据和第二语音数据进行语音识别，得到目标识别结果；通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果。通过本申请，解决了相关技术中的语音交互方式存在由于无法准确采集到用户的语音交互数据导致的语音交互体验欠佳的问题。

Description

语音数据的处理方法和装置、电子设备和存储介质

技术领域

本申请涉及数据处理领域，尤其涉及一种语音数据的处理方法和装置、电子设备和存储介质。

背景技术

目前，通过语音交互设备(例如，陪伴机器人)可以为用户提供语音交互功能，以满足用户的生理和心理需求。

但是，对于一些特殊用户(例如，老年用户)，由于在说话时会遇到舌尖现象、言语失误、语言组织困难等问题，容易出现语音表达出现暂停的时长相比一般用户更长，导致不能准确收集到这些特殊用户所发出的语音交互数据，使得用户与语言交互设备之间的交互体验欠佳。

由此可见，相关技术中的语音交互方式存在由于无法准确采集到用户的语音交互数据导致的语音交互体验欠佳的问题。

发明内容

本申请提供了一种语音数据的处理方法和装置、电子设备和存储介质，以至少解决相关技术中的语音交互方式存在由于无法准确采集到用户的语音交互数据导致的语音交互体验欠佳的问题。

根据本申请实施例的一个方面，提供了一种语音数据的处理方法，包括：通过语音交互设备采集目标对象的第一语音数据；在检测到对所述语音交互设备执行了第一操作的情况下，通过所述语音交互设备采集所述目标对象的第二语音数据，其中，所述第一操作用于指示所述语音交互设备继续采集语音数据；对所述第一语音数据和所述第二语音数据进行语音识别，得到目标识别结果；通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果。

可选地，对所述第一语音数据和所述第二语音数据进行语音识别，得到目标识别结果包括：获取与目标语音数据对应的语音帧序列，其中，所述目标语音数据是对所述第一语音数据和第二语音数据进行拼接所得到的语音数据，所述语音帧序列为按照时间顺序对所述目标语音数据包含的多个语音帧进行排序得到的序列；将所述语音帧序列输入到目标网络模型，得到所述目标网络模型输出的所述目标识别结果，其中，所述目标网络模型用于根据所述语音帧序列中的各个语音帧、以及位于所述各个语音帧之前的至少一个语音帧的识别结果对所述各个语音帧进行识别，得到所述各个语音帧的识别结果，并根据所述各个语音帧的识别结果，确定所述目标识别结果。

可选地，将所述语音帧序列输入到目标网络模型，得到所述目标网络模型输出的所述目标识别结果包括：依次将所述各个语音帧的语音特征、以及所述各个语音帧的前一个语音帧的识别结果输入到所述目标网络模型的隐藏层，得到所述各个语音帧的识别结果，其中，所述各个语音帧的识别结果用于指示与所述各个语音帧对应的音素；将与所述各个语音帧对应的音素进行组合，得到所述目标识别结果，其中，所述目标识别结果为与所述各个语音帧对应的音素所组合出的至少一个单词。

可选地，在所述通过语音交互设备采集目标对象的第一语音数据之前，所述方法还包括：通过所述语音交互设备获取所述目标对象输入的唤醒指令，其中，所述唤醒指令用于唤醒所述语音交互设备；控制所述语音交互设备发出第一提示语音，其中，所述第一提示语音用于指示所述目标对象执行语音输入操作。

可选地，通过所述语音交互设备获取所述目标对象输入的唤醒指令包括：通过所述语音交互设备采集所述目标对象输入的第三语音数据；将所述第三语音数据和与所述唤醒指令对应的参考语音数据进行匹配，其中，所述参考语音数据为所述目标对象输入的、唤醒过所述语音交互设备的历史语音数据；在所述第三语音数据与所述参考语音数据的匹配度大于或者等于第一阈值的情况下，确定所述目标对象输入了所述唤醒指令。

可选地，通过所述语音交互设备获取所述目标对象输入的唤醒指令包括：通过所述语音交互设备采集所述目标对象输入的第四语音数据；在所述唤醒指令为多个的情况下，将所述第四语音数据与多个所述唤醒指令中的每个所述唤醒指令分别进行匹配；在所述第四语音数据与目标唤醒指令的匹配程度大于或者等于第二阈值的情况下，确定所述目标对象输入了所述目标唤醒指令，其中，所述目标唤醒指令为多个所述唤醒指令中的一个。

可选地，在所述通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果之前，所述方法还包括：控制所述语音交互设备发出第二提示语音，其中，所述第二提示语音用于指示所述语音交互设备待输出所述目标处理结果。

可选地，在所述通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果之后，所述方法还包括：在检测到对所述语音交互设备执行了第二操作的情况下，通过所述语音交互设备向所述目标对象再次输出所述目标处理结果，其中，所述第二操作用于指示所述语音交互数据再次输出所述目标处理结果。

根据本申请实施例的另一个方面，还提供了一种语音数据的处理装置，包括：第一采集单元，用于通过语音交互设备采集目标对象的第一语音数据；第二采集单元，用于在检测到对所述语音交互设备执行了第一操作的情况下，通过所述语音交互设备采集所述目标对象的第二语音数据，其中，所述第一操作用于指示所述语音交互设备继续采集语音数据；识别单元，用于对所述第一语音数据和所述第二语音数据进行语音识别，得到目标识别结果；输出单元，用于通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果。

可选地，所述识别单元包括：获取模块，用于获取与目标语音数据对应的语音帧序列，其中，所述目标语音数据是对所述第一语音数据和第二语音数据进行拼接所得到的语音数据，所述语音帧序列为按照时间顺序对所述目标语音数据包含的多个语音帧进行排序得到的序列；识别模块，用于将所述语音帧序列输入到目标网络模型，得到所述目标网络模型输出的所述目标识别结果，其中，所述目标网络模型用于根据所述语音帧序列中的各个语音帧、以及位于所述各个语音帧之前的至少一个语音帧的识别结果对所述各个语音帧进行识别，得到所述各个语音帧的识别结果，并根据所述各个语音帧的识别结果，确定所述目标识别结果。

可选地，所述识别模块包括：输入子模块，用于依次将所述各个语音帧的语音特征、以及所述各个语音帧的前一个语音帧的识别结果输入到所述目标网络模型的隐藏层，得到所述各个语音帧的识别结果，其中，所述各个语音帧的识别结果用于指示与所述各个语音帧对应的音素；组合子模块，用于将与所述各个语音帧对应的音素进行组合，得到所述目标识别结果，其中，所述目标识别结果为与所述各个语音帧对应的音素所组合出的至少一个单词。

可选地，所述装置还包括：第一输入单元，用于在所述通过语音交互设备采集目标对象的第一语音数据之前，通过所述语音交互设备获取所述目标对象输入的唤醒指令，其中，所述唤醒指令用于唤醒所述语音交互设备；第一控制单元，用于控制所述语音交互设备发出第一提示语音，其中，所述第一提示语音用于指示所述目标对象执行语音输入操作。

可选地，第一输入单元包括：第一输入模块，用于通过所述语音交互设备采集所述目标对象输入的第三语音数据；第一匹配模块，用于将所述第三语音数据和与所述唤醒指令对应的参考语音数据进行匹配，其中，所述参考语音数据为所述目标对象输入的、唤醒过所述语音交互设备的历史语音数据；第一确定模块，用于在所述第三语音数据与所述参考语音数据的匹配度大于或者等于第一阈值的情况下，确定所述目标对象输入了所述唤醒指令。

可选地，第一输入单元包括：第二输入模块，用于通过所述语音交互设备采集所述目标对象输入的第四语音数据；第二匹配模块，用于在所述唤醒指令为多个的情况下，将所述第四语音数据与多个所述唤醒指令中的每个所述唤醒指令分别进行匹配；第二确定模块，用于在所述第四语音数据与目标唤醒指令的匹配程度大于或者等于第二阈值的情况下，确定所述目标对象输入了所述目标唤醒指令，其中，所述目标唤醒指令为多个所述唤醒指令中的一个。

可选地，该装置还包括：第二控制单元，用于在通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果之前，控制所述语音交互设备发出第二提示语音，其中，所述第二提示语音用于指示所述语音交互设备待输出所述目标处理结果。

可选地，该装置还包括：第二输入单元，在所述通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果之后，在检测到对所述语音交互设备执行了第二操作的情况下，通过所述语音交互设备向所述目标对象再次输出所述目标处理结果，其中，所述第二操作用于指示所述语音交互数据再次输出所述目标处理结果。

根据本申请实施例的又一个方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；其中，存储器，用于存储计算机程序；处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。

根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。

在本申请实施例中，采用按照用户操作控制语音交互设备持续进行数据采集的方式，通过语音交互设备采集目标对象的第一语音数据；在检测到对语音交互设备执行了第一操作的情况下，通过语音交互设备采集目标对象的第二语音数据，其中，第一操作用于指示语音交互设备继续采集语音数据；对第一语音数据和第二语音数据进行语音识别，得到目标识别结果；通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果，由于根据检测到的用户操作继续采集语音数据，可以在语音表达出现暂停时持续采集语音数据，而不会被语音交互设备打断，同时，由于对多次采集到的语音数据一起进行语音识别，无需用户反复输入相同的语音数据，可以避免由此造成的语音输入不准确，达到提高语音数据采集的准确性、提升用户的语音交互体验的技术效果，进而解决了相关技术中的语音交互方式存在由于无法准确采集到用户的语音交互数据导致的语音交互体验欠佳的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种可选的语音数据的处理方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的语音数据的处理方法的流程示意图；

图3是根据本申请实施例的一种可选的循环神经网络语音识别的示意图；

图4是根据本申请实施例的一种可选的语音数据控制系统的示意图；

图5是根据本申请实施例的另一种可选的语音数据的处理方法的流程示意图；

图6是根据本申请实施例的一种可选的语音数据的处理装置的结构框图；

图7是根据本申请实施例的一种可选的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有” 以及他们的任何变形，意图在于覆盖不排他的包含，比如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面，提供了一种语音数据的处理方法。可选地，在本实施例中，上述语音数据的处理方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端102 进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)。在应用中，还可在服务器上或独立于服务器设置数据库，用于为服务器 104提供数据存储服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI(Wireless Fidelity，无线保真)，蓝牙。终端102可以并不限定于为PC、手机、平板电脑等。

本申请实施例的语音数据的处理方法可以由服务器104来执行，也可以由终端102(例如，语音交互设备)来执行，还可以是由服务器104和终端102共同执行。其中，终端102执行本申请实施例的语音数据的处理方法也可以是由安装在其上的客户端来执行。

以由语音交互设备来执行本实施例中的语音数据的处理方法为例，图2是根据本申请实施例的一种可选的语音数据的处理方法的流程示意图，如图2所示，该方法的流程可以包括以下步骤：

步骤S202，通过语音交互设备采集目标对象的第一语音数据。

本实施例中的语音数据的处理方法可以应用于人机语音交互的场景中，人机语音交互可以是通过语音交互设备采集用户的语音数据并对语音数据进行反馈。例如，人机语音交互可以是目标对象与语音交互设备之间的语音交互。上述目标对象可以对应于使用语音交互设备进行语音交互的目标用户，比如，老年用户。上述语音交互设备可以是与目标对象进行语音交互的设备，比如，陪伴机器人。

本实施例以老年用户和陪伴机器人之间语音交互的场景为例说明上述语音数据的处理方法，对于其他人机语音交互的场景，本实施例中的语音数据的处理方法同样使用。

语音交互设备上可以运行有用于进行语音交互的客户端。目标对象(目标用户)可以使用帐号和密码、动态密码、关联应用登录等方式登录到语音交互设备上运行的上述客户端。或者，语音交互设备也可以不需要登录，直接进行语音交互，本实施例中对此不作限定。

在需要进行语音交互时(例如，查询天气)，目标对象可以进行语音输入。语音交互设备可以采集到目标对象输入的第一语音数据，该第一语音数据可以是目标对象需要语音交互设备识别出的一段语音数据。

步骤S204，在检测到对语音交互设备执行了第一操作的情况下，通过语音交互设备采集目标对象的第二语音数据，其中，第一操作用于指示语音交互设备继续采集语音数据。

在采集到第一语音数据之后(第一语音数据的语音输入结束之后)，如果语音交互设备检测到对其执行了第一操作，响应检测到的第一操作，语音交互设备可以继续采集目标对象输入的语音数据，得到第二语音数据，该第一操作用于指示语音交互设备继续采集语音数据，该第二语音数据可以是目标对象需要语音交互设备识别出的另一段语音数据。

检测对语音交互设备执行的操作可以是在采集到第一语音数据之后的第一预设时间内进行的。第一预设时间可以是语音交互设备预先配置的等待时间。如果在采集到第一语音数据之后的第一预设时间内检测到对语音交互设备执行了第一操作，语音交互设备可以继续进行语音采集，如果超过第一预设时间，即使检测到对语音交互设备执行了第一操作，语音交互设备可以不再进行语音采集。

第一预设时间可以是预先配置的一小段时长(比如，5s)，可以是系统默认的时间，也可以是用户(例如，目标对象)自定义的时间，本实施例中对此不作限定。

对于第一操作，其可以是预先配置的一个操作或者操作集合，不同的语音交互设备可以采用相同或不同的第一操作来控制语音交互设备继续采集语音数据。

第一操作可以采用多种实现方式。作为一种可选的实施方式，在语音交互设备的周边可以设置有一个或多个按钮，一个或多个按钮可以是物理按钮，也可以是虚拟按钮(触控按钮)。第一操作可以是对语音交互设备上的第一按钮执行的选取操作(比如，点击操作)。作为另一种可选的实施方式，在语音交互设备上可以设置有第一触控检测区域，第一操作可以是对语音交互设备上的第一触控检测区域执行的触控操作。本实施例中对于第一操作的实现方式不作限定。

例如，交互机器人上的按钮A可以用于控制继续采集语音数据，第一操作可以是对按钮A执行的按压操作。如果交互机器人检测到按钮A被按下，则可以确定需要继续采集语音数据。

又例如，交互机器人上的触控检测区域B可以用于控制继续采集语音数据，第一操作可以是对触控检测区域B执行的触控操作。如果交互机器人检测到触控检测区域B被触碰，则可以确定需要继续采集语音数据。

可选地，在本实施例中，在通过语音交互设备采集目标对象的第一语音数据之后，如果检测到对语音交互设备执行了第三操作，响应检测到的第三操作，语音交互设备可以清除已采集的第一语音数据，重新采集输入的语音数据。

与前述类似地，检测对语音交互设备执行的操作可以是在采集到第一语音数据之后的第一预设时间内进行的。对于第三操作，其可以是预先配置的一个操作或者操作集合，不同的语音交互设备可以采用相同或不同的第三操作来控制语音交互设备重新采集语音数据。第三操作可以采用多种实现方式，本实施例中对于第三操作的实现方式不作限定。

示例性地，由于老年用户的认知负荷等级较低，对应的认知特征为语言表现能力下降，包括词汇提取困难、发音变化、言语失误、容易忽略语音交互设备的状态等。针对语音数据提取困难、舌尖现象、言语失误等问题，可以在语音交互设备上增加语音采集延时的控制策略和语音数据重新采集的控制策略。

步骤S206，对第一语音数据和第二语音数据进行语音识别，得到目标识别结果。

在采集到第二语音数据之后，语音交互设备可以将第一语音数据和第二语音数据一起进行语音识别，得到与第一语音数据和第二语音数据对应的目标识别结果。

在进行语音识别时，语音交互设备可以首先对第一语音数据和第二语音数据进行拼接，得到目标语音数据，并对目标语音数据进行识别，得到目标识别结果。可选地，语音交互设备也可以将第一语音数据和第二语音数据发送至服务器端，由服务器执行的语音识别的步骤。

目标识别结果可以是从第一语音数据和第二语音数据中识别出的一个或多个词的词序列，可以用于表示目标对象的语音交互信息，也就是，目标对象所需交互的内容。

在进行语音识别时，可以首先对目标语音数据进行分帧处理，得到多个语音帧，多个语音帧包含第一语音数据内的语音帧和第二语音数据内的语音帧；然后，识别出每个语音帧的状态，将若干个语音帧的状态可以组合成一个音素，并将若干个音素组合成一个单词，最终将获取的至少一个单词组合成目标识别结果。

步骤S208，通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果。

对于目标识别结果，语音交互设备或者服务器端可以通过对目标识别结果进行语义分析，获取目标对象所需交互的内容，并获取与该目标识别结果匹配的目标处理结果(反馈结果)。如果由服务器执行获取与目标识别结果匹配的目标处理结果的步骤，服务器可以将目标处理结果发送给语音交互设备。

语音交互设备在获取到与目标识别结果匹配的目标处理结果之后，可以通过其上的输出装置向目标对象输出目标处理结果，输出装置可以是语音交互设备上的扬声器等。

在输出目标处理结果的同时，语音交互设备也可以在其屏幕上显示目标处理结果，或者，在其屏幕上显示提示信息，以提示目标对象语音交互设备当前正在输出目标处理结果。

通过上述步骤S202至步骤S208，通过语音交互设备采集目标对象的第一语音数据；在检测到对语音交互设备执行了第一操作的情况下，通过语音交互设备采集目标对象的第二语音数据，其中，第一操作用于指示语音交互设备继续采集语音数据；对第一语音数据和第二语音数据进行语音识别，得到目标识别结果；通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果，解决了相关技术中的语音交互方式存在由于无法准确采集到用户的语音交互数据导致的语音交互体验欠佳的问题，提高了语音数据采集的准确性、提升了用户的语音交互体验。

作为一种可选实施例，对第一语音数据和第二语音数据进行语音识别，得到目标识别结果包括：

S11，获取与目标语音数据对应的语音帧序列，其中，目标语音数据是对第一语音数据和第二语音数据进行拼接所得到的语音数据，语音帧序列为按照时间顺序对目标语音数据包含的多个语音帧进行排序得到的序列。

S12，将语音帧序列输入到目标网络模型，得到目标网络模型输出的目标识别结果，其中，目标网络模型用于根据语音帧序列中的各个语音帧、以及位于各个语音帧之前的至少一个语音帧的识别结果对各个语音帧进行识别，得到各个语音帧的识别结果，并根据各个语音帧的识别结果，确定目标识别结果。

为了进行语音识别，可以首先将第一语音数据和第二语音数据进行拼接，得到目标语音数据。在得到目标语音数据之后，可以对目标语音数据进行分帧，得到多个语音帧，每个语音帧为一小段(例如，10ms～30ms)的语音数据，并对多个语音帧按照时间顺序进行排序，得到语音帧序列。语音帧序列中的各个语音帧可以表征为与各个语音帧对应的语音特征。

对于语音帧序列，可以将语音帧序列中的各个语音帧依次输入到用于进行语音识别的网络模型，得到该网络模型输出的各个语音帧的识别结果。语音识别所采用的网络模型可以有多种，例如，GMM(Gaussian Mixture Mode，高斯混合模型)，DNN(Deep NeuralNetworks，深度神经网络)。

语音是一种各帧之间具有很强相关性的复杂时变信号，这种相关性可以体现在说话时的协同发音现象上，往往前后好几个字对所要说的字都有影响，也就是语音的各帧之间具有长时相关性。在训练GMM时，输入特征一般只是单帧的信号，由于其未考虑各帧之间的长时相关性，导致语音识别结果的准确性较低。

而DNN可以采用拼接帧作为输入，采用拼接帧的方式可以学到一定程度的上下文信息，因此，相比GMM，DNN可以具有较大的性能提升。但是，由于 DNN输入的窗长是固定的，学习到的是固定输入到输入的映射关系，从而导致 DNN对于时序信息的长时相关性的建模较弱。

鉴于上述，可选地，在本实施例中，在进行语音识别时，可以使用具有记忆功能的网络模型，即，目标网络模型，该网络模型可以用于根据输入的语音帧、以及位于该语音帧之前的至少一个语音帧的识别结果对该语音帧进行识别，得到该语音帧的识别结果。由于每个语音帧的识别结果是根据本语音帧、以及本语音帧之前的语音帧的识别结果确定的，其可以利用语音的长时相关性，因此能够提高识别结果的准确性。

比如，目标网络模型可以是具备记忆功能的网络模型，对于当前语音帧，其可以根据当前语音帧、以及当前语音帧之前的至少一个语音帧的识别结果对该语音帧进行识别，得到当前语音帧的识别结果。

在得到各个语音帧的识别结果之后，目标网络模型可以根据各个语音帧的识别结果，确定目标识别结果。各个语音帧的识别结果可以是将各个语音帧识别成的状态，根据各个语音帧的识别结果，确定目标识别结果可以包括：把各个语音帧的识别结果(状态)合成为一个或多个音素，把一个或多个音素合成为一个或多个单词，目标识别结果为上述一个或多个单词。

通过本实施例，通过使用具备记忆功能的网络模型进行语音识别，根据一个语音帧和该语音帧之前的至少一个语音帧的识别结果得到当前语音帧的识别结果，可以提高识别结果的准确性。

作为一种可选实施例，将语音帧序列输入到目标网络模型，得到目标网络模型输出的目标识别结果包括：

S21，依次将各个语音帧的语音特征、以及各个语音帧的前一个语音帧的识别结果输入到目标网络模型的隐藏层，得到各个语音帧的识别结果，其中，各个语音帧的识别结果用于指示与各个语音帧对应的音素；

S22，将与各个语音帧对应的音素进行组合，得到目标识别结果，其中，目标识别结果为与各个语音帧对应的音素所组合出的至少一个单词。

目标网络模型可以具有隐藏层(隐层)，不同的语音帧可以对应于不同的隐藏层。在隐藏层上可以增加一个反馈连接，目标网络模型的隐藏层在当前时刻的输入有一部分是前一时刻隐藏层的输出，使得目标网络模型可以通过循环反馈连接看到前面所有时刻的信息，这赋予了目标网络模型记忆功能。使得目标网络模型可以适用于对时序信号进行建模。

可选地，目标网络模型可以包含循环神经网络，循环神经网络具备对处理过的信息留有记忆的功能，可以利用语音的长时相关性，来提高语音识别的准确性。

例如，如图3所示，循环神经网络包括一个输入层xt，一个输出层ht和一个隐藏层A。隐藏层A不仅仅与输入层和输出层存在联系，其与自身也存在一个循环的回路，这样，上一个时刻的网络状态信息将会作用于下一个时刻的网络状态。

使用目标网络模型进行语音识别时，可以依次将各个语音帧的语音特征、以及各个语音帧的前一个语音帧的识别结果输入到目标网络模型的隐藏层，该隐藏层的输入包括：各个语音帧的语音特征，各个语音帧的前一个语音帧的识别结果。一个语音帧的识别结果用于表示该语音帧为音素集合中的各个音素的概率，或者，用于表示音素集合中与该语音帧对应的概率最大的音素(状态)。

例如，如图3所示，以语音帧序列内的第一语音帧x0和第二语音帧x1为例，将x0通过循环神经网络的输入层输入到隐藏层内，隐藏层对x0进行去重和识别后，识别结果除了通过输出层输出之外，还将其作为x1对应的隐藏层的输入，这时，x1对应的隐藏层的输入就包括了x1以及x0的隐藏层输出的识别结果，然后依次类推，从而得到各个语音帧的识别结果。

根据与各个语音帧对应的音素，可以对与各个语音帧对应的音素进行组合，例如，根据与各个语音帧对应的音素，将相邻的至少一个音素进行组合，多个音素进行组合就形成了多个单词，多个单词组成的文字即为目标识别结果。

通过本实施例，通过在隐藏层上增加一个反馈连接，隐藏层在当前时刻的输入有一部分是前一时刻隐藏层的输出，使得网络模型可以通过循环反馈连接看到前面所有时刻的信息，从而可以利用语音的长时相关性，提高语音识别的准确性。

作为一种可选实施例，通过语音交互设备采集目标对象的第一语音数据之前，上述方法还包括：

S31，通过语音交互设备获取目标对象输入的唤醒指令，其中，唤醒指令用于唤醒语音交互设备；

S32，控制语音交互设备发出第一提示语音，其中，第一提示语音用于指示目标对象执行语音输入操作。

为了避免采集到无用语音数据，在采集第一语音数据时，语音交互设备可以处于唤醒状态，语音交互设备只有在唤醒状态下才会控制对采集到的语音数据进行识别。在语音交互设备处于休眠状态时，语音交互设备可以通过唤醒指令进行唤醒，该唤醒指令中包含了语音交互设备的唤醒词。语音交互设备的唤醒词可以是默认的唤醒词，也可以是用户自定义的唤醒词。上述唤醒指令为与目标对象自定义的唤醒词对应的唤醒指令。

语音交互设备的唤醒环节要求目标对象可以认知到唤醒方式、记住唤醒指令，认知负荷等级为高。然而，由于目标对象(例如，老年用户)的认知特征为记忆力退化，将直接导致语音交互任务的失败。为了提高唤醒指令的易记忆性，可以采用自定义唤醒词的控制策略。

例如，自定义的唤醒词为“AAA设备”，将该自定义唤醒词保存在语音交互设备中，便于目标对象根据自己的习惯和喜好轻松地唤醒语音交互设备。

在获取到目标对象输入的唤醒指令之后，语音交互设备可以即刻进入唤醒状态。这时，语音交互设备可以向目标对象发出一个提示信息(即提示语音)来提示其已经被唤醒，例如，提示语音可以是“我在”、“在”等。

语音交互设备可以是针对一些特定用户的语音交互设备，在被唤醒时，如果语音交互设备仅输出提示其已经被唤醒的提示语音，可能并不能引起特定用户的注意。在本实施例中，在被唤醒时，语音交互设备可以通过发出用于指示目标对象执行语音输入操作的第一提示语音(比如，“准备好了，请说”)来提示目标对象进行语音输入。第一提示语音的时长可以超过一定时长阈值，和/或，第一提示语音的音量可以超过一定音量阈值，和/或，第一提示语音的语速可以低于一定语速阈值。

例如，语音交互设备可以是针对老年用户(也可以是其他特定用户)的陪伴机器人，由于与语音交互设备进行语音交互的目标对象是老年用户，而老年用户的认知能力下降，感知器官弱化，需要语音交互设备输出较长的语音提示来引起老年用户的注意，让其知晓可以进行语音输入。

此外，对于针对特定用户的语音交互设备，语音交互设备可以进一步通过视觉感官来引起特定用户的注意力，视觉感官的提示方式可以包括但不限于：灯光效果，图形界面的动画效果等。比如，语音交互设备内可以设置有指示灯，语音交互设备在发出第一提示语音的同时，可以控制指示灯的常亮、闪烁、发出彩色灯光等。

例如，语音交互设备内可以设置有指示灯以及与指示灯连接的光敏传感器，该光敏传感器可以根据当前所处位置的光线强度来控制指示灯的亮度，比如，当光敏传感器检测到室外强光，则自动调亮指示灯的亮度。当光敏传感器检测到夜晚弱光，则自动调低指示灯的亮度，防止由于指示灯太亮对目标对象的眼睛产生伤害。

示例性地，在语音交互设备被唤醒后，进入输入状态确认环节，老年用户的认知负荷等级为中，对应的老年用户认知特征为感知觉弱化，不容易意识到语音交互设备反映的状态。针对这一特征，根据感官代偿的原理，采用指示灯加语音提示双重确认。

其中，感官代偿主要调用视觉通道和听觉通道，视觉通道的反馈有灯光效果、图形界面动效、实体动作等，听觉通道的反馈有如声音动效、语音提示等。当语音交互设备被唤醒后，语音交互设备准确采集老年用户的语音输入前，会点亮指示灯并发出预设的语音提醒信息，例如“准备好了，请说”，利用视觉通道和听觉通道，使老年用户认知到语音交互设备开始采集他的语音指令。

通过本实施例，利用用户的听觉感官(和视觉感官)，使目标对象认知到语音交互设备所处的状态，可以提高语音数据采集的效率，同时可以提高用户的语音交互体验。

作为一种可选实施例，通过语音交互设备获取目标对象输入的唤醒指令包括：

S41，通过语音交互设备采集目标对象输入的第三语音数据；

S42，将第三语音数据和与唤醒指令对应的参考语音数据进行匹配，其中，参考语音数据为目标对象输入的、唤醒过语音交互设备的历史语音数据；

S43，在第三语音数据与参考语音数据的匹配度大于或者等于第一阈值的情况下，确定目标对象输入了唤醒指令。

为了提高语音交互设备的唤醒效率，语音交互设备内可以保存有与唤醒指令对应的参考语音数据，该参考语音数据可以是目标对象输入的、曾唤醒过语音交互设备的历史语音数据。例如，如果用户曾经使用某一段语音数据唤醒过语音交互设备，则语音交互设备可以将其作为参考语音数据进行保存。

语音交互设备可以采集到目标对象输入的第三语音数据，将采集的第三语音数据与参考语音数据进行匹配，匹配可以是语音帧之间的匹配，也可以是语音数据包络的匹配，还可以是其他可以用于匹配两个语音数据的方式，本实施例中对此不作限定。

如果第三语音数据与参考语音数据的匹配度大于或者等于第一阈值(例如，80％)，语音交互设备可以确定目标对象输入了唤醒指令，即，确定获取到唤醒指令，可以唤醒语音交互设备。第一阈值可以是允许自定义的数值，也可以是根据历史经验配置的数值，本实施例中对于第一阈值、以及第一阈值的配置方式不作限定。

通过本实施例，通过保存用户输入的、唤醒过语音交互设备的语音数据作为参考，与新输入的语音数据进行匹配，由于是同一用户的语音数据，可以适用于不同用户的特点，提高语音交互设备唤醒的准确性，同时可以提高设备唤醒的灵活性。

S51，通过语音交互设备采集目标对象输入的第四语音数据；

S52，在唤醒指令为多个的情况下，将第四语音数据与多个唤醒指令中的每个唤醒指令分别进行匹配；

S53，在第四语音数据与目标唤醒指令的匹配程度大于或者等于第二阈值的情况下，确定目标对象输入了目标唤醒指令，其中，目标唤醒指令为多个唤醒指令中的一个。

为了提高语音交互设备唤醒的灵活性，可以在语音交互设备中配置多个唤醒指令，比如，唤醒指令1：“A设备”，唤醒指令2：“AA设备”等，每个唤醒指令都可以唤醒语音交互设备。

在语音交互设备处于休眠状态时，语音交互设备可以采集目标对象输入的第四语音数据，识别第四语音数据中包含的词，将第四语音数据中包含的词与多个唤醒指令中的每个唤醒指令分别进行匹配，确定第四语音数据与各个唤醒指令的匹配程度。

若存在一个唤醒指令(即目标唤醒指令)与第四语音数据的匹配度大于或者等于第二阈值(例如，81％)，语音交互设备可以确定目标对象输入了唤醒指令，即，确定获取到唤醒指令。其中，第一阈值可以是允许自定义的数值，也可以是根据历史经验配置的数值，本实施例中对于第二阈值、以及第二阈值的配置方式不作限定。

通过本实施例，通过配置语音交互设备的多个唤醒词，通过任意唤醒词均可唤醒语音交互设备，可以提高唤醒语音交互设备的灵活性。

作为一种可选实施例，在通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果之前，上述方法还包括：

S61，控制语音交互设备发出第二提示语音，其中，第二提示语音用于指示语音交互设备待输出目标处理结果。

语音交互设备可以是前述针对一些特定用户的语音交互设备，例如，针对老年用户的陪伴机器人。由于这些特定用户的注意力难以保持集中，需要有一段反应时间。如果在得到目标处理结果之后直接进行语音反馈，对于这些特定用户来说可能是猝不及防的，导致这些特定用户没有接收到语音反馈的开头部分，从而影响到这些特定用户对语音反馈的获取。

可选地，在本实施例中，在向目标对象输出目标处理结果之前，语音交互设备可以先给目标对象一个语音提示信息(第二提示语音，例如，“处理完毕”)，来提示目标对象它进入输出目标处理结果的状态，第二提示语音可以以语音播放的方式来提示目标对象。第二提示语音的时长可以超过一定时长阈值，和/或，第二提示语音的音量可以超过一定音量阈值，和/或，第二提示语音的语速可以低于一定语速阈值。

同时，对于针对特定用户的语音交互设备，语音交互设备可以进一步通过视觉感官来引起特定用户的注意力，视觉感官的提示方式可以与前述类似，本实施例中在此不作赘述。

示例性地，在处理结果的输出环节，若目标对象是老年用户，当语音交互设备进行目标处理结果的输出时，可以采用先提示后反馈的设计策略：先以简短的音效提示老年用户，之后再进行语音反馈。提示音效造成的时间窗使得老年用户有一定时间将注意力集中到接收语音反馈上，增加老年用户对反馈句子的处理和理解。

作为一种可选实施例，在通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果之后，上述方法还包括：

S71，在检测到对语音交互设备执行了第二操作的情况下，通过语音交互设备向目标对象再次输出目标处理结果，其中，第二操作用于指示语音交互数据再次输出目标处理结果。

为了保证用户可以准确获知目标处理结果，在向目标对象输出目标处理结果之后，如果语音交互设备检测到对其执行了第二操作，响应检测到的第二操作，语音交互设备可以向目标对象再次输出目标处理结果，该第二操作用于语音交互数据再次输出目标处理结果。

检测对语音交互设备执行的操作可以是在采集到第一语音数据之后的第二预设时间内进行的。第二预设时间可以是语音交互设备预先配置的等待时间。如果向目标对象输出目标处理结果之后的第二预设时间内检测到对语音交互设备执行了第二操作，语音交互设备可以再次输出目标处理结果，如果超过第二预设时间，即使检测到对语音交互设备执行了第二操作，语音交互设备可以不再输出目标处理结果。

第二预设时间可以是预先配置的一小段时长(比如，5s)，可以是系统默认的时间，也可以是用户(例如，目标对象)自定义的时间，本实施例中对此不作限定。

对于第二操作，其可以是预先配置的一个操作或者操作集合，不同的语音交互设备可以采用相同或不同的第二操作来控制语音交互设备再次输出处理结果。

第二操作可以采用多种实现方式。作为一种可选的实施方式，在语音交互设备的周边可以设置有一个或多个按钮，一个或多个按钮可以是物理按钮，也可以是虚拟按钮(触控按钮)。第二操作可以是对语音交互设备上的第二按钮执行的选取操作(比如，点击操作)。作为另一种可选的实施方式，在语音交互设上可以设置有第二触控检测区域，第二操作可以是对语音交互设备上的第二触控检测区域执行的触控操作。本实施例对于第二操作不做限定。

通过本实施例，通过根据用户的操作重复进行语音反馈，可以保证用户准确获知语音反馈。

下面结合可选示例对本申请实施例中的语音数据的处理方法进行解释说明。在本示例中提供的是一种针对老年用户的语音交互控制方式，语音交互设备为陪伴机器人。

陪伴机器人可以采用如图4所示的语音数据控制系统，该系统包括：输入模块，处理模块，通信模块，输出模块。输入模块可以包括：按键，话筒(麦克风或者麦克风阵列)，光敏传感器，其中，按键可以包括重新输入按键(第一按钮)、重复输出按键(第二按钮)、语音清除按钮。通信模块可以包括：蓝牙、wifi。输出模块包括：扬声器(例如，喇叭)和指示灯。处理模块可以包括：微处理器。

在本示例中，通过输入模块采集目标对象的语音数据、目标对象的按键操作和目标对象所处的位置的光线强度，将目标对象的语音数据、目标对象的按键选取操作和光线强度输入到微处理器中进行处理，微处理器控制输出模块输出语音处理结果。此外，从图4中可知，微处理器也可以和通信模块连接，通过蓝牙或无线的方式获取到目标对象输入的语音数据，之后将语音识别结果通过蓝牙或无线发送回目标对象。

图5是根据本申请实施例的另一种可选的语音数据的处理方法的流程示意图，如图5所示，该方法包括以下步骤：

步骤S502，开始；

步骤S504，判断陪伴机器人是否被唤醒；若是，执行步骤S506，否则，执行步骤S502，其中，在唤醒环节，可以自定义唤醒词功能，以方便老年用户唤醒设备；

步骤S506，进行输入状态确认，其中，在输入状态确认环节，陪伴机器人可以增添视觉和听觉双重提示：驱动指示灯亮并发出预设的语音提醒信息，例如“我准备好了，请说”，然后驱动话筒采集目标对象的语音信息；

步骤S508，获取语音输入，在输入环节，可以驱动话筒采集用户语音信息；

步骤S510，在输入结束后的一段时间内判断是否延长输入，如果是，执行步骤S508，继续采集语音输入，否则，执行步骤S514，其中，在输入环节，可以增加延长输入设置，如果在输入结束的5s内检测到延长输入按键按下，则继续采集信号，直到结束；

步骤S512，在输入结束后的一段时间内是否重新输入，如果是，执行步骤 S508，重新采集语音输入，否则，执行步骤S514，其中，在输入环节，可以增加重新输入设置，如果在输入结束后的5s内检测到重新输入按键按下，则复位，清除已采集的语音信息，重新采集信号，直到结束；

步骤S514，如果未检测到延长输入按键和重新输入按键，进行输出状态确认，其中，在输出状态确认环节，可以驱动指示灯亮并发出预设的语音提醒信息；

步骤S516，对输入的语音数据进行语音处理，得到对应的处理结果；

步骤S518，输出处理结果，其中，在输出环节，语音处理完成之后，可以驱动指示灯亮并发出预设的语音提醒信息，例如，“处理完毕”，然后输出处理结果；

步骤S520，在输出环节，可以增加重复输出设置，判断是否重复输出，如果在输出结束后的5s内检测到重复输出按键被按下，则执行步骤S518，否则，执行步骤S522；

步骤S522，结束。

通过本示例，在唤醒环节，通过自定义唤醒词功能，便于老年用户唤醒设备；在状态确认环节，通过增添视觉和听觉双重提示，便于提醒老年用户，提高识别效果；在输入环节，通过增加延长输入和重新输入设置，便于老年用户的使用；在输出环节，通过增加重复输出设置，便于老年用户接收与理解信息。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述语音数据的处理方法的语音数据的处理装置。图6是根据本申请实施例的一种可选的语音数据的处理装置的结构框图，如图6所示，该装置可以包括：

(1)第一采集单元602，用于通过语音交互设备采集目标对象的第一语音数据；

(2)第二采集单元604，与第一采集单元602相连，用于在检测到对语音交互设备执行了第一操作的情况下，通过语音交互设备采集目标对象的第二语音数据，其中，第一操作用于指示语音交互设备继续采集语音数据；

(3)识别单元606，与第二采集单元604相连，用于对第一语音数据和第二语音数据进行语音识别，得到目标识别结果；

(4)输出单元608，与识别单元606相连，用于通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果。

需要说明的是，该实施例中的第一采集单元602可以用于执行上述步骤 S202，该实施例中的第二采集单元604可以用于执行上述步骤S204，该实施例中的识别单元606可以用于执行上述步骤S206；该实施例中的输出单元608可以用于执行上述步骤S208。

通过上述模块，通过语音交互设备采集目标对象的第一语音数据；在检测到对语音交互设备执行了第一操作的情况下，通过语音交互设备采集目标对象的第二语音数据，其中，第一操作用于指示语音交互设备继续采集语音数据；对第一语音数据和第二语音数据进行语音识别，得到目标识别结果；通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果，解决了相关技术中的语音交互方式存在由于无法准确采集到用户的语音交互数据导致的语音交互体验欠佳的问题，提高了语音数据采集的准确性、提升了用户的语音交互体验。

作为一种可选的实施例，识别单元606包括：

获取模块，用于获取与目标语音数据对应的语音帧序列，其中，目标语音数据是对第一语音数据和第二语音数据进行拼接所得到的语音数据，语音帧序列为按照时间顺序对目标语音数据包含的多个语音帧进行排序得到的序列；

识别模块，用于将语音帧序列输入到目标网络模型，得到目标网络模型输出的目标识别结果，其中，目标网络模型用于根据语音帧序列中的各个语音帧、以及位于各个语音帧之前的至少一个语音帧的识别结果对各个语音帧进行识别，得到各个语音帧的识别结果，并根据各个语音帧的识别结果，确定目标识别结果。

作为一种可选的实施例，识别模块包括：

输入子模块，用于依次将各个语音帧的语音特征、以及各个语音帧的前一个语音帧的识别结果输入到目标网络模型的隐藏层，得到各个语音帧的识别结果，其中，各个语音帧的识别结果用于指示与各个语音帧对应的音素；

组合子模块，用于将与各个语音帧对应的音素进行组合，得到目标识别结果，其中，目标识别结果为与各个语音帧对应的音素所组合出的至少一个单词。

作为一种可选的实施例，该装置还包括：

第一输入单元，用于在通过语音交互设备采集目标对象的第一语音数据之前，通过语音交互设备获取目标对象输入的唤醒指令，其中，唤醒指令用于唤醒语音交互设备；

第一控制单元，用于控制语音交互设备发出第一提示语音，其中，第一提示语音用于指示目标对象执行语音输入操作。

作为一种可选的实施例，第一输入单元包括：

第一输入模块，用于通过语音交互设备采集目标对象输入的第三语音数据；

第一匹配模块，用于将第三语音数据和与唤醒指令对应的参考语音数据进行匹配，其中，参考语音数据为目标对象输入的、唤醒过语音交互设备的历史语音数据；

第一确定模块，用于在第三语音数据与参考语音数据的匹配度大于或者等于第一阈值的情况下，确定目标对象输入了唤醒指令。

作为一种可选的实施例，第一输入单元包括：

第二输入模块，用于通过语音交互设备采集目标对象输入的第四语音数据；

第二匹配模块，用于在唤醒指令为多个的情况下，将第四语音数据与多个唤醒指令中的每个唤醒指令分别进行匹配；

第二确定模块，用于在第四语音数据与目标唤醒指令的匹配程度大于或者等于第二阈值的情况下，确定目标对象输入了目标唤醒指令，其中，目标唤醒指令为多个唤醒指令中的一个。

作为一种可选的实施例，该装置还包括：

第二控制单元，用于在通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果之前，控制语音交互设备发出第二提示语音，其中，第二提示语音用于指示语音交互设备待输出目标处理结果。

作为一种可选的实施例，该装置还包括：

第二输入单元，在通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果之后，在检测到对语音交互设备执行了第二操作的情况下，通过语音交互设备向目标对象再次输出目标处理结果，其中，第二操作用于指示语音交互数据再次输出目标处理结果。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的又一个方面，还提供了一种用于实施上述语音数据处理的方法的电子设备，该电子设备可以是终端、服务器、或者其组合。

图7是根据本申请实施例的一种可选的电子设备的结构框图，如图7所示，包括处理器702、通信接口704、存储器706和通信总线708，其中，处理器702、通信接口704和存储器706通过通信总线708完成相互间的通信，其中，

存储器706，用于存储计算机程序；

处理器702，用于执行存储器706上所存放的计算机程序时，实现如下步骤：

S1，通过语音交互设备采集目标对象的第一语音数据；

S2，在检测到对语音交互设备执行了第一操作的情况下，通过语音交互设备采集目标对象的第二语音数据，其中，第一操作用于指示语音交互设备继续采集语音数据；

S3，对第一语音数据和第二语音数据进行语音识别，得到目标识别结果；

S4，通过语音交互设备向目标对象输出与目标识别结果匹配的目标处理结果。

可选地，在本实施例中，上述的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，比如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，上述存储器706中可以但不限于包括上述语音数据的处理装置中的第一采集单元602、第二采集单元604、识别单元606以及输出单元608。此外，还可以包括但不限于上述语音数据的处理装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于以下至少之一：CPU、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、 FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

此外，上述电子设备还包括：显示器，用于显示目标处理结果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图7所示的结构仅为示意，实施上述方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、 PAD等终端设备。图7其并不对上述电子设备的结构造成限定。比如，电子设备还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行本申请实施例中上述任一项语音数据的处理方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S1，通过语音交互设备采集目标对象的第一语音数据；

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、 RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，比如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，比如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音数据的处理方法，其特征在于，包括：

通过语音交互设备采集目标对象的第一语音数据；

在检测到对所述语音交互设备执行了第一操作的情况下，通过所述语音交互设备采集所述目标对象的第二语音数据，其中，所述第一操作用于指示所述语音交互设备继续采集语音数据；

对所述第一语音数据和所述第二语音数据进行语音识别，得到目标识别结果；

通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一语音数据和所述第二语音数据进行语音识别，得到目标识别结果包括：

获取与目标语音数据对应的语音帧序列，其中，所述目标语音数据是对所述第一语音数据和第二语音数据进行拼接所得到的语音数据，所述语音帧序列为按照时间顺序对所述目标语音数据包含的多个语音帧进行排序得到的序列；

将所述语音帧序列输入到目标网络模型，得到所述目标网络模型输出的所述目标识别结果，其中，所述目标网络模型用于根据所述语音帧序列中的各个语音帧、以及位于所述各个语音帧之前的至少一个语音帧的识别结果对所述各个语音帧进行识别，得到所述各个语音帧的识别结果，并根据所述各个语音帧的识别结果，确定所述目标识别结果。

3.根据权利要求2所述的方法，其特征在于，所述将所述语音帧序列输入到目标网络模型，得到所述目标网络模型输出的所述目标识别结果包括：

依次将所述各个语音帧的语音特征、以及所述各个语音帧的前一个语音帧的识别结果输入到所述目标网络模型的隐藏层，得到所述各个语音帧的识别结果，其中，所述各个语音帧的识别结果用于指示与所述各个语音帧对应的音素；

将与所述各个语音帧对应的音素进行组合，得到所述目标识别结果，其中，所述目标识别结果为与所述各个语音帧对应的音素所组合出的至少一个单词。

4.根据权利要求1所述的方法，其特征在于，在所述通过语音交互设备采集目标对象的第一语音数据之前，所述方法还包括：

通过所述语音交互设备获取所述目标对象输入的唤醒指令，其中，所述唤醒指令用于唤醒所述语音交互设备；

控制所述语音交互设备发出第一提示语音，其中，所述第一提示语音用于指示所述目标对象执行语音输入操作。

5.根据权利要求4所述的方法，其特征在于，所述通过所述语音交互设备获取所述目标对象输入的唤醒指令包括：

通过所述语音交互设备采集所述目标对象输入的第三语音数据；

将所述第三语音数据和与所述唤醒指令对应的参考语音数据进行匹配，其中，所述参考语音数据为所述目标对象输入的、唤醒过所述语音交互设备的历史语音数据；

在所述第三语音数据与所述参考语音数据的匹配度大于或者等于第一阈值的情况下，确定所述目标对象输入了所述唤醒指令。

6.根据权利要求4所述的方法，其特征在于，所述通过所述语音交互设备获取所述目标对象输入的唤醒指令包括：

通过所述语音交互设备采集所述目标对象输入的第四语音数据；

在所述唤醒指令为多个的情况下，将所述第四语音数据与多个所述唤醒指令中的每个所述唤醒指令分别进行匹配；

在所述第四语音数据与目标唤醒指令的匹配程度大于或者等于第二阈值的情况下，确定所述目标对象输入了所述目标唤醒指令，其中，所述目标唤醒指令为多个所述唤醒指令中的一个。

7.根据权利要求1所述的方法，其特征在于，在所述通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果之前，所述方法还包括：

控制所述语音交互设备发出第二提示语音，其中，所述第二提示语音用于指示所述语音交互设备待输出所述目标处理结果。

8.根据权利要求1至7中任一项所述的方法，其特征在于，在所述通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果之后，所述方法还包括：

在检测到对所述语音交互设备执行了第二操作的情况下，通过所述语音交互设备向所述目标对象再次输出所述目标处理结果，其中，所述第二操作用于指示所述语音交互数据再次输出所述目标处理结果。

9.一种语音数据的处理装置，其特征在于，包括：

第一采集单元，用于通过语音交互设备采集目标对象的第一语音数据；

第二采集单元，用于在检测到对所述语音交互设备执行了第一操作的情况下，通过所述语音交互设备采集所述目标对象的第二语音数据，其中，所述第一操作用于指示所述语音交互设备继续采集语音数据；

识别单元，用于对所述第一语音数据和所述第二语音数据进行语音识别，得到目标识别结果；

输出单元，用于通过所述语音交互设备向所述目标对象输出与所述目标识别结果匹配的目标处理结果。

10.一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，其特征在于，

所述存储器，用于存储计算机程序；

所述处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至8中任一项所述的方法步骤。

11.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至8中任一项中所述的方法步骤。