CN112786047B

CN112786047B - 一种语音处理方法、装置、设备、存储介质及智能音箱

Info

Publication number: CN112786047B
Application number: CN202110120267.4A
Authority: CN
Inventors: 杨彦哲; 苏富波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-11-18
Anticipated expiration: 2041-01-28
Also published as: CN112786047A

Abstract

本申请公开了一种语音处理方法、装置、设备、存储介质及智能音箱，涉及人工智能技术领域，进一步涉及语音处理技术，包括：获取目标用户的用户语音数据的频率数据和响度数据；根据所述频率数据和响度数据确定所述用户语音数据对应的应答文本；根据所述应答文本向所述目标用户输出目标应答内容。本申请实施例能够丰富语音交互功能，从而提高用户体验。

Description

一种语音处理方法、装置、设备、存储介质及智能音箱

技术领域

本申请涉及数据处理技术领域，具体涉及人工智能领域中的语音处理技术。

背景技术

随着人工智能技术的发展，智能语音设备，例如智能带屏音箱以及智能音响等，逐渐被广大用户使用。用户可以通过语音与上述智能语音设备交互，使得上述智能语音设备可以根据用户发出的语音做出应答。

发明内容

本申请实施例提供了一种语音处理方法、装置、设备、存储介质及智能音箱，以丰富语音交互功能，提高用户体验。

第一方面，本申请实施例提供了一种语音处理方法，包括：

获取目标用户的用户语音数据的频率数据和响度数据；

根据所述频率数据和响度数据确定所述用户语音数据对应的应答文本；

根据所述应答文本向所述目标用户输出目标应答内容。

第二方面，本申请实施例提供了一种语音处理装置，包括：

频率响度获取模块，用于获取目标用户的用户语音数据的频率数据和响度数据；

应答文本获取模块，用于根据所述频率数据和响度数据确定所述用户语音数据对应的应答文本；

目标应答内容输出模块，用于根据所述应答文本向所述目标用户输出目标应答内容。

第三方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面实施例所提供的语音处理方法。

第四方面，本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面实施例所提供的语音处理方法。

第五方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面实施例所提供的语音处理方法。

第六方面，本申请实施例还提供了一种智能音箱，包括箱体，还包括第三方面实施例所提供的的电子设备。

本申请实施例通过获取目标用户的用户语音数据的频率数据和响度数据，以根据获取的频率数据和响度数据确定用户语音数据对应的应答文本，进而根据确定的应答文本向目标用户输出目标应答内容，解决现有智能语音设备中语音交互功能单一的问题，从而丰富语音交互功能，进而提高用户体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的一种语音处理方法的流程图；

图2是本申请实施例提供的一种语音处理方法的流程图；

图3是本申请实施例提供的一种频率响度映射关系列表的效果示意图；

图4是本申请实施例提供的一种语音处理装置的结构图；

图5是用来实现本申请实施例的语音处理方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在一个示例中，图1是本申请实施例提供的一种语音处理方法的流程图，本实施例可适用于根据用户语音的频率和响度与用户进行语音交互的情况，该方法可以由语音处理装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在电子设备中。该电子设备可以是具有语音交互功能的智能语音设备。相应的，如图1所示，该方法包括如下操作：

S110、获取目标用户的用户语音数据的频率数据和响度数据。

其中，目标用户可以是与具有语音交互功能的电子设备进行语音交互的用户。用户语音数据可以是目标用户向电子设备发送的语音数据。

在本申请实施例中，目标用户可以与具有语音交互功能的电子设备进行语音交互。目标用户可以向该电子设备发送任意内容的语音数据与电子设备进行语音交互。该语音数据可以包括语音指令，也可以不包括语音指令，本申请实施例并不对目标用户向电子设备发送的语音数据的内容进行限定。示例性的，目标用户可以向该电子设备发送的语音数据为“你咋就这个样子嘛！”。相应的，电子设备可以实时获取目标用户的语音数据作为用户语音数据，并进一步获取用户语音数据的频率数据和响度数据，以用于后续的语音处理操作。

S120、根据所述频率数据和响度数据确定所述用户语音数据对应的应答文本。

其中，应答文本可以是针对用户语音数据的频率数据和响度数据的特性所确定的回复文本。

相应的，在获取到目标用户的用户语音数据的频率数据和响度数据之后，电子设备可以进一步根据频率数据和响度数据确定用户语音数据对应的应答文本。可以理解的是，用户不同，其对应的用户语音数据的频率数据和响度数据也不同。示例性的，女性用户的用户语音数据的频率和响度相对较高，男性用户的用户语音数据的频率和响度相对较低。同时，当用户处于不同的情绪状态时，其对应的用户语音数据的频率和响度也会存在差异。因此，电子设备可以针对不同的频率和响度对应的用户语音数据确定不同的应答文本，以丰富电子设备与目标用户之间的互动方式。

示例性的，当目标用户的用户语音数据的频率和响度都较低时，可以将提醒目标用户声音过小的内容作为应答文本，如“啥，你说啥”等。当目标用户的用户语音数据的频率和响度都较高时，可以将提醒目标用户声音过大的内容作为应答文本，如“江湖一声吼，世界抖一抖”等。

需要说明的是，由于目标用户的用户语音数据可以包括语音指令，也可以不包括语音指令，因此电子设备可以判断用户语音数据中是否存在语音指令的情况确定用户语音数据对应的应答文本。示例性的，如果用户语音数据不包括唤醒词，则应答文本可以不包括针对用户语音数据的任何指令形式的反馈内容，仅对用户语音数据的频率大小和响度大小做出适应性的反馈，也即只根据目标用户的音色进行反馈的文本内容。例如，当目标用户的用户语音数据的频率和响度都较高时，可以将提醒目标用户声音过大的反馈内容作为应答文本，如“江湖一声吼，世界抖一抖”等。如果用户语音数据包括唤醒词，则应答文本除了可以包括针对用户语音数据的唤醒指令形式的反馈内容，还可以包括对用户语音数据的频率大小和响度大小做出适应性的反馈，也即同时包括根据目标用户的音色进行反馈的文本内容。例如，当目标用户的用户语音数据包括唤醒词“小白你好”，且该用户语音数据的频率和响度都较低时，可以将回应唤醒的内容和提醒目标用户声音过小的反馈内容同时作为应答文本，如“主人你好，你的声音就像小蜜蜂，飞到西来飞到东”等。

S130、根据所述应答文本向所述目标用户输出目标应答内容。

其中，目标应答内容可以是根据应答文本针对目标用户确定的应答内容。

相应的，在电子设备根据频率数据和响度数据确定用户语音数据对应的应答文本之后，即可根据确定的应答文本向目标用户输出目标应答内容。示例性的，电子设备可以根据应答文本生动而形象地生成目标应答内容，并采用语音播报的方式或图音结合等方式输出目标应答内容等，本申请实施例并不对目标应答内容的具体内容和输出方式进行限定。

由此可见，本申请实施例所提供的语音处理方法可以检测到用户语音数据后，无论该用户语音数据是否包括语音指令，均可以根据用户语音数据的频率和响度确定对应的应答文本，并根据应答文本向目标用户输出对应的目标应答内容，可以实现根据目标用户的音色进行反馈，丰富了智能语音设备的语音交互功能，提高了用户体验，可以广泛应用于多种语音交互场景中，如智能音箱根据用户麦克风输入音色给出反馈，以提高用户活跃度，并收集用户声音数据，为后续产品迭代以及进一步提升用户体验提供判断数据依据。

在一个示例中，图2是本申请实施例提供的一种语音处理方法的流程图，本申请实施例在上述各实施例的技术方案的基础上，进行了优化改进，给出了获取目标用户的用户语音数据、确定用户语音数据对应的应答文本以及向目标用户输出目标应答内容的多种具体可选的实现方式。

如图2所示的一种语音处理方法，包括：

S210、获取录制音频数据。

其中，录制音频数据可以是电子设备实施录音采集的音频数据，可以用于确定目标用户的用户语音数据。

在本申请实施例中，电子设备可以实时开启全程的录音采集功能，以实时采集周围的音频数据作为录制音频数据。可选的，电子设备只要处于开启状态即可采用麦克风等音频设备实时、全程地采集音频数据。

可以理解的是，当没有用户与电子设备进行语音交互时，录制音频数据中没有任何语音信号。当目标用户发出语音时，电子设备可以随时采集该音频数据。相应的，录制音频数据中可以包括目标用户的语音数据。

S220、将所述录制音频数据存储至音频数据缓冲区。

其中，音频数据缓冲区可以是电子设备中用于存储录制音频数据的缓存区域。

相应的，在电子设备获取到录制音频数据后，可以将录制音频数据实时存储至音频数据缓冲区，以根据音频数据缓冲区存储的音频数据判断是否存在用户语音数据。

S230、从所述音频数据缓冲区读取片段音频数据。

S240、根据各所述片段音频数据确定所述用户语音数据。

其中，片段音频数据可以是音频数据缓冲区存储的部分录制音频数据。

在本申请实施例中，在判断录制音频数据中是否包括用户语音数据时，可以依次从音频数据缓冲区存储的录制音频数据中读取片段音频数据，并根据读取的各个片段音频数据来识别并获取用户语音数据。

上述技术方案，电子设备通过全程实时录制音频得到的录制音频数据来确定用户语音数据，可以实现对用户语音数据的实时采集，也即只要目标用户发出语音信息，电子设备即可实时获取，而无需目标用户预先开启电子设备的语音交互功能。

在本申请的一个可选实施例中，所述从所述音频数据缓冲区读取片段音频数据，可以包括：确定音频数据分析时间窗口；根据所述音频数据分析时间窗口从所述音频数据缓冲区按照顺序依次截取录制音频数据作为各所述片段音频数据。

其中，音频数据分析时间窗口可以是对音频数据缓冲区中存储的录制音频数据进行分析的时间窗口，可以从音频数据缓冲区中读取各个片段音频数据。

具体的，在从音频数据缓冲区读取片段音频数据之前，首先可以确定一个音频数据分析时间窗口，以根据确定的音频数据分析时间窗口从音频数据缓冲区存储的录制音频数据中按照顺序依次截取一段录制音频数据作为各片段音频数据。可选的，可以根据音频数据分析时间窗口按照一定步长依次截取片段音频数据，该步长可以小于或等于片段音频数据中包括的音频数据的数量。通过音频数据分析时间窗口获取的片段音频数据可以实现对全部缓存的音频数据的分段分析。

示例性的，假设音频数据分析时间窗口为10毫秒，根据该音频数据分析时间窗口截取到的片段音频数据可以包括200个数据点。相应的，如果步长为5毫秒，则根据音频数据分析时间窗口截取的第一个片段音频数据为音频数据缓冲区中第1-200个数据，根据音频数据分析时间窗口截取的第一个片段音频数据为音频数据缓冲区中第6-205个数据，以此类推，直至完成对音频数据缓冲区中所有数据的截取，从而得到所有的片段音频数据。

在本申请的一个可选实施例中，所述根据各所述片段音频数据确定所述用户语音数据，可以包括：计算各所述片段音频数据对应的片段平均频率和片段平均响度；根据所述片段平均频率和所述片段平均响度确定开始片段音频数据和终止片段音频数据；将所述开始片段音频数据和所述终止片段音频数据之间的中间缓存音频数据作为所述用户语音数据。

其中，片段平均频率可以是根据片段音频数据中所有音频数据对应的频率值计算得到的平均值，片段平均响度可以是根据片段音频数据中所有音频数据对应的响度值计算得到的平均值。开始片段音频数据可以是包括部分用户语音数据的片段音频数据，该部分用户语音数据可以是目标用户开始输入的部分语音数据。开始片段音频数据表征目标用户开始输入语音，在该片段音频数据之后的大部分片段音频数据均为部分用户语音数据。终止片段音频数据可以是包括部分用户语音数据的片段音频数据，该部分用户语音数据可以是目标用户终止输入的部分语音数据。终止片段音频数据表征目标用户终止输入语音，在该片段音频数据之后的大部分片段音频数据均为环境音频数据或噪声数据等。中间缓存音频数据可以是音频数据缓冲区中在开始片段音频数据和终止片段音频数据之间缓存的录制音频数据。

在本申请实施例中，电子设备在获取到各片段音频数据后，可以分别计算每个片段音频数据对应的片段平均频率和片段平均响度，以根据计算得到的片段平均频率和片段平均响度确定表征目标用户开始输入语音的开始片段音频数据和目标用户终止输入语音的终止片段音频数据。相应的，在确定开始片段音频数据和终止片段音频数据之后，即可将音频数据缓冲区中在开始片段音频数据和终止片段音频数据之间缓存的中间缓存音频数据确定为用户语音数据。通过利用片段平均频率和片段平均响度可以快速判断开始片段音频数据和终止片段音频数据，从而根据开始片段音频数据和终止片段音频数据快速确定用户语音数据。

在本申请的一个可选实施例中，所述根据所述片段平均频率和所述片段平均响度确定开始片段音频数据和终止片段音频数据，可以包括：在确定第一片段音频数据对应的片段平均频率大于或等于预设频率阈值，且所述片段平均响度大于或等于预设响度阈值的情况下，将所述第一片段音频数据确定为所述开始片段音频数据；在确定第二片段音频数据对应的片段平均频率小于所述预设频率阈值，且所述片段平均响度小于所述预设响度阈值的情况下，将所述第二片段音频数据确定为所述终止片段音频数据。

其中，预设频率阈值可以是预先设定的用于判断目标用户开始输入语音数据的频率值，预设响度阈值可以是预先设定的用于判断目标用户开始输入语音数据的响度值。可选的，预设频率阈值可以是1850Hz，预设响度阈值可以是60dB，预设频率阈值和预设响度阈值可以根据实际需求设定，本申请实施例并不对预设频率阈值和预设响度阈值的具体数值进行限定。第一片段音频数据可以是各片段音频数据中片段平均频率大于或等于预设频率阈值，且片段平均响度大于或等于预设响度阈值的第一个片段音频数据。第二片段音频数据可以是在开始片段音频数据之后的各片段音频数据中，片段平均频率小于预设频率阈值，且片段平均响度小于预设响度阈值的第一个片段音频数据。

具体的，可以按照片段音频数据的生成顺序依次判断各个片段音频数据。可以理解的是，目标用户输入一次语音数据可以对应生成一对开始片段音频数据和终止片段音频数据。因此，在分析某一片段音频数据时，如果确定第一个片段音频数据对应的片段平均频率大于或等于预设频率阈值，且片段平均响度大于或等于预设响度阈值，则将该片段音频数据确定为开始片段音频数据。如果确定开始片段音频数据之后的第一个片段音频数据对应的片段平均频率小于预设频率阈值，且片段平均响度小于预设响度阈值，则将该片段音频数据确定为终止片段音频数据。

示例性的，假设音频数据分析时间窗口为10毫秒，根据该音频数据分析时间窗口截取到的片段音频数据可以包括200个数据点，根据该音频数据分析时间窗口按照10毫秒的步长总共获取了500个片段音频数据，预设频率阈值为1850Hz，预设响度阈值为60dB。可以理解的是，步长和音频数据分析时间窗口相同，则各片段音频数据中包括的音频数据不会包括重叠数据。如果前50个片段音频数据的片段平均频率和片段平均响度均为0，第51个片段音频数据的片段平均频率为100Hz，片段平均响度为10dB，第52个片段音频数据的片段平均频率为1900Hz，片段平均响度为70dB，则可以将第52个片段音频数据作为开始片段音频数据。其中，第53-495个片段音频数据均存在部分用户语音数据，各个片段音频数据的片段平均频率和片段平均响度可能会大于阈值，也可能会小于或等于阈值。第496个片段音频数据的片段平均频率为1500Hz，片段平均响度为50dB，则可以将第496个片段音频数据确定为终止片段音频数据。相应的，第53-495个片段音频数据包括的录制音频数据可以确定为用户语音数据。由于第52和第496个片段音频数据仅包括开始阶段和终止阶段的一部分音频数据，对用户语音数据的频率和响度数值的计算影响不大，因此用户语音数据中可以忽略开始片段音频数据和终止片段音频数据。

上述技术方案，通过利用片段平均频率、片段平均响度、预设频率阈值和预设响度阈值等进行对比，以根据对比结果可以快速、准确地从录制音频数据中确定用户语音数据。

S250、确定所述用户语音数据的用户平均频率、用户平均响度以及频率响度映射关系列表。

其中，用户平均频率可以是根据用户语音数据计算的平均频率，用户平均响度可以是根据用户语音数据计算的平均响度，频率响度映射关系列表可以用于对用户语音数据确定对应的应答文本。

相应的，在确定应答文本之前，可以根据获取的用户语音数据计算用户平均频率和用户平均响度，同时可以确定用于确定应答文本的频率响度映射关系列表。可选的，频率响度映射关系列表可以包括声音分类、声音大小、声音高低以及对应话术文案等相关数据。

S260、根据所述用户平均频率和所述用户平均响度对所述频率响度映射关系列表进行匹配，得到目标声音分类。

S270、获取所述目标声音分类对应的预存应答文本。

S280、根据所述预存应答文本确定所述用户语音数据对应的应答文本。

其中，目标声音分类可以是根据用户平均频率、用户平均响度以及频率响度映射关系列表确定的目标用户匹配的声音分类。预存应答文本可以是目标声音分类对应存储的应答文本，可选的，预存应答文本的数量为至少一个。

具体的，可以根据计算得到的用户平均频率和用户平均响度查询频率响度映射关系列表，以确定用户语音数据匹配的目标声音分类，并获取目标声音分类对应的预存应答文本，以从预存应答文本中选择一个应答文本作为用户语音数据对应的应答文本。

图3是本申请实施例提供的一种频率响度映射关系列表的效果示意图。在一个具体的示例中，如图3所示，频率响度映射关系列表可以包括声音分类、声音大小、高低(音调)和对应话术文案等四个类型数据。其中，声音分类主要是根据声音大小和高低确定对应的分类类型。图3中声音分类只示意型列举了10种类型，本申请实施例并不对声音分类的具体分类数量和分类类型进行限定。图3中声音大小用于匹配用户语音数据中的用户平均响度，高低则可以用于匹配用户语音数据中的用户平均频率。如图3所示，声音大小可以根据响度数值划分不同的范围确定，音调则可以根据设定的频率阈值确定。示例性的，假设设定的频率阈值为2000Hz，大于或等于2000Hz的频率值可以划定为高音调，小于2000Hz的频率值则可以划定为低音调。相应的，声音大小和高低音调的组合可以唯一确定一个声音分类，每个声音分类可以对应存储一个或多个话术文案。假设用户语音数据的用户平均频率为2500Hz，用户平均响度为80dB，则可以确定用户语音数据对应的声音分类为第一种声音分类“河东狮吼”。如果声音分类“河东狮吼”仅存储了一种话术文案“江湖一声吼，世界抖一抖”，则可以直接将该话术文案作为用户语音数据的对应的应答文本。如果声音分类“河东狮吼”存储多种话术文案“，则可以从存储的各话术文案中随机选择一个话术文案作为用户语音数据的对应的应答文本。

上述技术方案，通过利用频率响度映射关系列表确定用户语音数据对应的应答文本，可以提高应答文本的确定效率。

S290、根据所述应答文本向所述目标用户输出目标应答内容。

在本申请的一个可选实施例中，所述根据所述应答文本向所述目标用户输出目标应答内容，可以包括：根据所述应答文本生成目标应答图片并确定目标应答音频；将所述目标应答图片和所述目标应答音频作为所述目标应答内容同时向所述目标用户输出。

其中，目标应答图片可以是根据应答文本生成的，包括应答文本内容的图片，目标应答音频可以是与应答文本所匹配的音频。

在本申请实施例中，为了进一步提高用户参与语音交互的积极性和活跃度，提高用户体验，在向目标用户输出目标应答内容时，可以根据匹配得到的应答文本生成目标应答图片。可选的，目标应答图片可以采用生动形象的版面设计方式提醒应答文本内容。同时，还可以确定应答文本匹配的目标应答音频，以在向目标用户显示目标应答图片的同时播放目标应答音频，从而提升目标用户与电子设备的语音交互兴趣。可选的，不同的应答文本可以对应确定相同的目标应答音频，也可以对应确定不同的目标应答音频，本申请实施例对此并不进行限制。如果电子设备不具备显示功能，还可以采用音频播报的方式播放应答文本，同时可以设置不同应答文本的播放音效，以提高应答文本语音播放的生动性。

上述技术方案，通过从音频数据缓冲区读取片段音频数据确定用户语音数据，可以快速从录制音频数据中获取用户语音数据。同时，根据用户语音数据的用户平均频率、用户平均响度以及频率响度映射关系列表确定用户语音数据对应的应答文本，并根据丰富多样的方式向目标用户输出目标应答文本，可以快速确定语音交互结果，提高语音交互效率，丰富语音交互功能，进而提高用户体验。

在一个示例中，图4是本申请实施例提供的一种语音处理装置的结构图，本申请实施例可适用于根据用户语音的频率和响度与用户进行语音交互的情况，该装置通过软件和/或硬件实现，并具体配置于电子设备中。该电子设备可以是具有语音交互功能的智能语音设备。

如图4所示的一种语音处理装置300，包括：频率响度获取模块310、应答文本获取模块320和目标应答内容输出模块330。其中，

频率响度获取模块310，用于获取目标用户的用户语音数据的频率数据和响度数据；

应答文本获取模块320，用于根据所述频率数据和响度数据确定所述用户语音数据对应的应答文本；

目标应答内容输出模块330，用于根据所述应答文本向所述目标用户输出目标应答内容。

可选的，语音处理装置还包括：录制音频数据获取模块，用于获取录制音频数据；录制音频数据存储模块，用于将所述录制音频数据存储至音频数据缓冲区；片段音频数据读取模块，用于从所述音频数据缓冲区读取片段音频数据；用户语音数据确定模块，用于根据各所述片段音频数据确定所述用户语音数据。

可选的，片段音频数据读取模块具体用于：确定音频数据分析时间窗口；根据所述音频数据分析时间窗口从所述音频数据缓冲区按照顺序依次截取录制音频数据作为各所述片段音频数据。

可选的，用户语音数据确定模块具体用于：计算各所述片段音频数据对应的片段平均频率和片段平均响度；根据所述片段平均频率和所述片段平均响度确定开始片段音频数据和终止片段音频数据；将所述开始片段音频数据和所述终止片段音频数据之间的中间缓存音频数据作为所述用户语音数据。

可选的，用户语音数据确定模块具体用于：在确定第一片段音频数据对应的片段平均频率大于或等于预设频率阈值，且所述片段平均响度大于或等于预设响度阈值的情况下，将所述第一片段音频数据确定为所述开始片段音频数据；在确定第二片段音频数据对应的片段平均频率小于所述预设频率阈值，且所述片段平均响度小于所述预设响度阈值的情况下，将所述第二片段音频数据确定为所述终止片段音频数据。

可选的，应答文本获取模块320具体用于：确定所述用户语音数据的用户平均频率、用户平均响度以及频率响度映射关系列表；根据所述用户平均频率和所述用户平均响度对所述频率响度映射关系列表进行匹配，得到目标声音分类；获取所述目标声音分类对应的预存应答文本；根据所述预存应答文本确定所述用户语音数据对应的应答文本。

可选的，目标应答内容输出模块330具体用于：根据所述应答文本生成目标应答图片并确定目标应答音频；将所述目标应答图片和所述目标应答音频作为所述目标应答内容同时向所述目标用户输出。

上述语音处理装置可执行本申请任意实施例所提供的语音处理方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请任意实施例提供的语音处理方法。

由于上述所介绍的语音处理装置为可以执行本申请实施例中的语音处理方法的装置，故而基于本申请实施例中所介绍的语音处理方法，本领域所属技术人员能够了解本实施例的语音处理装置的具体实施方式以及其各种变化形式，所以在此对于该语音处理装置如何实现本申请实施例中的语音处理方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中语音处理方法所采用的装置，都属于本申请所欲保护的范围。

在一个示例中，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如语音处理方法。例如，在一些实施例中，语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

在上述实施例的基础上，本发明实施例还提供了一种智能音箱，包括箱体，还包括上述实施例所述的电子设备、设置在箱体上的音频采集设备和音频播放设备。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音处理方法，包括：

通过实时开启的全程的录音采集功能，获取目标用户的用户语音数据，并获取目标用户的用户语音数据的频率数据和响度数据；

如果所述用户语音数据不包括唤醒词，则根据所述频率数据和响度数据，仅生成提醒用户声音频率过大或者过小，响度过大或者过小的反馈内容作为应答文本；

如果所述用户语音数据包括唤醒词，则根据所述唤醒词、所述频率数据和响度数据，生成回应唤醒的内容和提醒用户声音频率过大或者过小，响度过大或者过小的反馈内容共同作为应答文本；

根据所述应答文本向所述目标用户输出目标应答内容。

2.根据权利要求1所述的方法，还包括：

获取录制音频数据；

将所述录制音频数据存储至音频数据缓冲区；

从所述音频数据缓冲区读取片段音频数据；

根据各所述片段音频数据确定所述用户语音数据。

3.根据权利要求2所述的方法，其中，所述从所述音频数据缓冲区读取片段音频数据，包括：

确定音频数据分析时间窗口；

根据所述音频数据分析时间窗口从所述音频数据缓冲区按照顺序依次截取录制音频数据作为各所述片段音频数据。

4.根据权利要求2所述的方法，其中，所述根据各所述片段音频数据确定所述用户语音数据，包括：

计算各所述片段音频数据对应的片段平均频率和片段平均响度；

根据所述片段平均频率和所述片段平均响度确定开始片段音频数据和终止片段音频数据；

将所述开始片段音频数据和所述终止片段音频数据之间的中间缓存音频数据作为所述用户语音数据。

5.根据权利要求4所述的方法，其中，所述根据所述片段平均频率和所述片段平均响度确定开始片段音频数据和终止片段音频数据，包括：

在确定第一片段音频数据对应的片段平均频率大于或等于预设频率阈值，且所述片段平均响度大于或等于预设响度阈值的情况下，将所述第一片段音频数据确定为所述开始片段音频数据；

在确定第二片段音频数据对应的片段平均频率小于所述预设频率阈值，且所述片段平均响度小于所述预设响度阈值的情况下，将所述第二片段音频数据确定为所述终止片段音频数据。

6.根据权利要求1所述的方法，其中，所述根据所述频率数据和响度数据确定所述用户语音数据对应的应答文本，包括：

确定所述用户语音数据的用户平均频率、用户平均响度以及频率响度映射关系列表；

根据所述用户平均频率和所述用户平均响度对所述频率响度映射关系列表进行匹配，得到目标声音分类；

获取所述目标声音分类对应的预存应答文本；

根据所述预存应答文本确定所述用户语音数据对应的应答文本。

7.根据权利要求1所述的方法，还包括：

根据所述应答文本生成目标应答图片并确定目标应答音频；

将所述目标应答图片和所述目标应答音频作为所述目标应答内容同时向所述目标用户输出。

8.一种语音处理装置，包括：

频率响度获取模块，用于通过实时开启的全程的录音采集功能，获取目标用户的用户语音数据，并获取目标用户的用户语音数据的频率数据和响度数据；

应答文本获取模块，用于如果所述用户语音数据不包括唤醒词，则根据所述频率数据和响度数据，仅生成提醒用户声音频率过大或者过小，响度过大或者过小的反馈内容作为应答文本；

9.根据权利要求8所述的装置，还包括：

录制音频数据获取模块，用于获取录制音频数据；

录制音频数据存储模块，用于将所述录制音频数据存储至音频数据缓冲区；

片段音频数据读取模块，用于从所述音频数据缓冲区读取片段音频数据；

用户语音数据确定模块，用于根据各所述片段音频数据确定所述用户语音数据。

10.根据权利要求9所述的装置，其中，所述片段音频数据读取模块具体用于：

确定音频数据分析时间窗口；

11.根据权利要求9所述的装置，其中，所述用户语音数据确定模块具体用于：

12.根据权利要求11所述的装置，其中，所述用户语音数据确定模块具体用于：

13.根据权利要求8所述的装置，其中，所述应答文本获取模块具体用于：

获取所述目标声音分类对应的预存应答文本；

14.根据权利要求8所述的装置，其中，所述目标应答内容输出模块具体还用于：

根据所述应答文本生成目标应答图片并确定目标应答音频；

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的语音处理方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的语音处理方法。

17.一种智能音箱，包括箱体，还包括权利要求15所述的电子设备。