CN109348068A

CN109348068A - 一种信息处理方法、装置及存储介质

Info

Publication number: CN109348068A
Application number: CN201811467790.9A
Authority: CN
Inventors: 杨坤; 姜春雨; 孙刚; 陈鹤群
Original assignee: MIGU Digital Media Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: MIGU Digital Media Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-02-15

Abstract

本发明实施例公开了一种信息处理方法，包括：获取接收到的音频问询指令的音频参数；基于所述音频参数确定与所述音频问询指令对应的目标反馈方式。本发明实施例还提供了一种信息处理装置及存储介质。采用本发明的方法，能够根据用户当前语速、用户当前所处环境以及用户相关状态信息对反馈内容进行个性化调整，灵活地提供各种符合用户真实需要的反馈内容。

Description

一种信息处理方法、装置及存储介质

技术领域

本发明涉及智能终端技术领域，尤其涉及一种信息处理方法、装置及存储介质。

背景技术

随着计算机技术的不断发展，越来越多的智能化应用软件(Application，APP)被开发出来，并运用在了各种领域，极大的方便了人们的日常生活。其中，智能语音交互系统是一种比较常见的为用户提供日常生活服务的APP。

现有的智能语音交互系统(如智能音响)可以对用户通过语音输入的相关指令进行响应，并针对用户的语音问题做出特定的语音反馈。

但是，目前智能语音交互设备针对每类问题的反馈方式较为单一，而该反馈方式所包括的内容也是固定不变的，这就导致智能语音交互设备在针对不同用户在不同情境(或者不同场合)下的同一类问题的提问，往往会做出相似的反馈，这样的反馈信息非常死板，无法做到根据用户的不同，灵活地提供各种符合用户真实需要的反馈内容，极大地影响了用户的使用体验。

发明内容

为解决上述技术问题，本发明实施例提供了一种信息处理方法、装置及存储介质，能够根据用户的不同，灵活地提供各种符合用户真实需要的反馈内容。

本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种信息处理方法，所述方法包括：

获取接收到的音频问询指令的音频参数；

基于所述音频参数确定与所述音频问询指令对应的目标反馈方式。

在上述方案中，所述获取接收到的音频问询指令的音频参数，包括：

获取所述音频问询指令的语速；

获取所述音频问询指令的声学特征。

在上述方案中，所述获取所述音频问询指令的语速，包括：

将所述音频问询指令转化为文本指令；

获取所述文本指令中包含的文本数量；

获取所述音频问询指令的识别耗时；

根据所述文本指令中包含的文本数量和所述音频问询指令的识别耗时确定所述音频问询指令的语速。

在上述方案中，所述基于所述音频参数确定与所述音频问询指令对应的目标反馈方式，包括：

根据所述音频问询指令的语速，在预设的与所述音频问询指令对应的反馈方式中确定第一反馈方式。

在上述方案中，所述根据所述音频问询指令的语速，在预设的与所述音频问询指令对应的反馈方式中确定第一反馈方式，包括：

根据所述音频问询指令的语速与预设的语速阈值的关系，在预设的与所述音频问询指令对应的反馈方式中确定所述第一反馈方式。

基于所述音频问询指令的声学特征确定用户身份；

获取所述用户身份对应的用户信息。

基于所述用户信息，确定用于渲染所述第一反馈方式的特征；

基于所述特征对所述第一反馈方式进行渲染，获得目标反馈方式。

在上述方案中，所述方法还包括：基于所述目标反馈方式响应所述音频问询指令。

第二方面，本发明实施例提供了一种信息处理装置，所述装置包括：

获取单元，用于获取接收到的音频问询指令的音频参数；

确定单元，用于基于所述音频参数确定与所述音频问询指令对应的目标反馈方式。

第三方面，本发明实施例提供了另一种信息处理装置，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，执行权利要求1至8任一项所述方法的步骤。

第四方面，本发明实施例提供了一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。

本发明实施例提供的信息处理方法、装置及存储介质，能够基于接收到的音频问询指令的语速以及当前环境音等音频参数，确定对应的第一反馈方式；并根据音频问询指令的声学特征确定用户身份，从而获取到用户信息，进一步基于用户信息对所述第一反馈方式进行个性化渲染，获得目标反馈方式。采用本发明的方法，能够根据用户当前语速、用户当前所处环境以及用户相关状态信息对反馈内容进行个性化调整，灵活地提供各种符合用户真实需要的反馈内容，从而避免了现有智能语音交互设备一成不变的语音反馈，极大地提高了用户的使用体验。

附图说明

图1为本发明实施例提供的一种信息处理方法的流程示意图；

图2为本发明实施例提供的一种获取音频问询指令的音频参数的流程示意图；

图3为本发明实施例提供的一种确定目标反馈方式的流程示意图；

图4为本发明实施例提供的一种信息处理装置的结构示意图；

图5为本发明实施例提供的一种获取单元的结构示意图；

图6为本发明实施例提供的一种确定单元的结构示意图；

图7为本发明实施例提供的另一种信息处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明的技术方案，可以应用于智能终端设备，例如智能手机、智能音响等，也可以应用于安装在智能终端设备上的具有语音识别、语义解析、内容服务、话术生成、从文本到语音(Text To Speech，TTS)播报反馈等功能的应用软件(Application，APP)。本发明实施例以应用于智能终端设备上的语音助手APP为例，对本发明的技术方案进行具体的描述。

实施例一

本发明实施例一提供了一种信息处理方法,如图1所示，所述方法包括以下步骤：

步骤S101：获取接收到的音频问询指令的音频参数。

在具体实施时，语音助手APP可以对用户输入的音频问询指令进行识别，获取音频问询指令的语速、声学特征以及当前环境音等音频参数。

本发明实施例中，如图2所示，步骤S101可以通过以下过程实现：

步骤S1011：获取所述音频问询指令的语速。

本发明实施例中，所述获取所述音频问询指令的语速，包括：将所述音频问询指令转化为文本指令；获取所述文本指令中包含的文本数量；获取所述音频问询指令的识别耗时；根据所述文本指令中包含的文本数量和所述音频问询指令的识别耗时确定所述音频问询指令的语速。

在具体实施时，语音助手APP在接收到用户输入的音频问询指令后，首先会对所述音频问询指令进行自动语音识别(Automatic Speech Recognition，ASR)，其目的主要是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。所述ASR过程主要采用设置在智能设备中的解码器来实现，将用户输入的音频问询指令识别为文本形式的文本指令，语音助手APP可以通过统计该段文本中所包含的文字数量，以获得用户输入的音频问询指令所对应的文字数量。

在一般情况下，语音助手APP对用户输入的音频问询指令的识别耗时仅与用户输入的音频问询指令的时间长度有关。用户输入的音频问询指令的时间长度越长，对应地语音助手APP对该段音频问询指令的识别耗时就越长。

识别耗时可以通过语音端点检测的方式获取到，例如，识别耗时等于语音助手APP检测到的语音尾点时间减去语音助手APP检测到的语音起点时间。

需要说明的是，语音助手APP可以在对音频问询指令进行ASR的过程中，对所述音频问询指令的语速进行确认；或者，也可以在对音频问询指令进行ASR以后，再来确定音频问询指令的语速。

用户输入的音频问询指令的语速等于所述音频问询指令对应的文本指令所包含的文字数量除以所述音频问询指令的识别耗时。

步骤S1012：获取所述音频问询指令的声学特征。

在具体实施时，语音助手APP可以通过对接收到的音频问询指令进行声学特征提取，获取所述音频问询指令的声学特征。

步骤S102：基于所述音频参数确定与所述音频问询指令对应的目标反馈方式。

本发明实施例中，如图3所示，步骤S102可以通过以下过程实现：

步骤S1021：根据所述音频问询指令的语速，在预设的与所述音频问询指令对应的反馈方式中确定第一反馈方式。

本发明实施例中，所述根据所述音频问询指令的语速，在预设的与所述音频问询指令对应的反馈方式中确定第一反馈方式，包括：根据所述音频问询指令的语速与预设的语速阈值的关系，在预设的与所述音频问询指令对应的反馈方式中确定所述第一反馈方式。

在具体实施时，语音助手APP针对同一音频问询指令，可以预先设置至少两种符合不同语速的反馈方式，以满足不同语速的需求。例如对于语速非常快的音频问询指令，此时根据语速可以确定用户的情绪状态可能是非常着急，则此时可以设置第二类型反馈方式作为所述第一反馈方式，仅包括音频问询指令的主要结果信息即可；而对于语速较为正常的音频问询指令，此时根据语速可以确定用户的情绪状态正常，则此时可以设置第一类型反馈方式作为所述第一反馈方式，在该反馈方式中不仅包括音频问询指令的主要结果信息，还可以进一步包括与主要信息相关的其他部分信息。

例如，对于“今天天气怎么样”的音频问询指令，分别设置有第一类型反馈方式和第二类型反馈方式，以使得语音助手APP可以根据实际需要生成符合语速需求的两种语音反馈信息。第一类型反馈方式可以为：“今天天气晴朗，白天高温35°，夜间低温22°，天气有些热，注意防晒”，而第二类型反馈方式可以为：“晴朗，22°到35°”。

此外，在本发明实施例中，为了可以确定用户语速的快慢，语音助手APP可以根据日常数据统计，预先默认设置一个语速阈值，则当确定用户语速大于所述语速阈值，则表明语速较快，而当确定用户语速小于或等于所述语速阈值，则表明语速正常。

需要说明的是，在实际生活中不同用户正常说话的语速快慢也是不一样的，可能针对用户A，每秒钟说3个字是正常的说话语速，而对于用户B来说，每秒钟说3个字已经是很快的说话语速了。因而为了避免由于语速阈值不准确，而导致对用户语速快慢识别不准确的问题。在本发明实施例中，在用户开始使用语音助手APP时，语音助手APP可以引导用户按照正常语速输入几段语音，进而据此确定出该用户的正常语速，并根据该用户的正常语速设置语速阈值。

需要说明的是，语音助手APP可以预设多种语速所对应的多种反馈方式，即可以通过这种方式根据语速更加准确的识别出用户当前的情绪状态，进而据此给出更符合用户当前情绪状态的反馈内容。当语音助手APP预设了两种以上的反馈方式时，语音助手APP同样可以设置相应数量的语速阈值，以对用户不同情绪状态所对应的语速进行区分。

步骤S1022：基于所述音频问询指令的声学特征确定用户身份；获取所述用户身份对应的用户信息。

在具体实施时，为了实现语音助手APP能够通过语音识别出用户身份的功能，在用户开始使用语音助手APP时，语音助手APP可以引导用户录入多段语音，以提取所述多段语音的声学特征，进而获取到该用户的声纹特征，并将该声纹特征与该用户账号信息(如用户ID或者其他可以反映用户身份的信息)关联保存。

当用户使用语音助手APP时，语音助手APP可以基于接收到的音频问询指令的声学特征，确定所述音频问询指令所对应的声纹特征，进而根据该声纹特征确定输入所述音频问询指令的用户身份。

在确定出当前用户的身份(比如用户ID等)后，语音助手APP可以在其他用户日常使用APP的数据库中查找与该用户相关的用户信息，例如用户当天的日程安排、用户的使用习惯以及用户的兴趣爱好等。语音助手APP可以首先向用户弹出授权提示，并在用户同意授权后，与用户日常使用的APP之间进行相互授权，以使得语音助手APP具备访问其他APP数据的权限。或者，在使用语音助手APP时，用户也可以自行输入一些自身相关的信息，并保存在语音助手APP的数据库中。

步骤S1023：基于所述用户信息，确定用于渲染所述第一反馈方式的特征；基于所述特征对所述第一反馈方式进行渲染，获得目标反馈方式。

在具体实施时，语音助手APP根据用户信息，例如用户当天的日程安排、用户的使用习惯以及用户的兴趣爱好等，确定用于渲染所述第一反馈方式的特征，进而语音助手APP可以根据所述用于渲染所述第一反馈方式的特征，对预先确定的第一反馈方式进行个性化渲染，从而获得最终的目标反馈方式。

例如，用户喜欢动漫海贼王，语音助手APP可以将第一反馈方式中的反馈语音的音效调整为动漫海贼王中路飞的音效，或者将第一反馈方式中呈现给用户的背景界面调整为动漫海贼王中路飞的卡通形象，从而获得最终的目标反馈方式。或者例如，用户当天有约会日程，语音助手APP可以在第一反馈方式中增加约会时间提醒或者约会出行线路提示信息，从而获得最终的目标反馈方式。

本发明实施例中，所述方法还包括：

步骤S103：基于所述目标反馈方式响应所述音频问询指令。

在具体实施时，可以通过上述步骤确定好的个性化的目标反馈方式对音频问询指令进行响应，例如反馈具有动漫海贼王中路飞的音效的语音播报信息。

采用本发明实施例的方法，能够根据用户当前语速、用户当前所处环境以及用户相关状态信息对反馈内容进行个性化调整，灵活地提供各种符合用户真实需要的反馈内容，从而避免了现有智能语音交互设备一成不变的语音反馈，极大地提高了用户的使用体验。

实施例二

本发明实施例二提供了一种信息处理装置40,如图4所示，所述信息处理装置40包括：获取单元401和确定单元402；其中

所述获取单元401，用于获取接收到的音频问询指令的音频参数；

本发明实施例中，如图5所示，所述获取单元401具体可以包括：第一获取模块4011和第二获取模块4012，其中，

所述第一获取模块4011，用于获取所述音频问询指令的语速；

本发明实施例中，所述第一获取模块4011，具体用于将所述音频问询指令转化为文本指令；获取所述文本指令中包含的文本数量；获取所述音频问询指令的识别耗时；根据所述文本指令中包含的文本数量和所述音频问询指令的识别耗时确定所述音频问询指令的语速。

在具体实施时，语音助手APP在接收到用户输入的音频问询指令后，首先会对所述音频问询指令进行自动语音识别ASR，其目的主要是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。所述ASR过程主要采用设置在智能设备中的解码器来实现，将用户输入的音频问询指令识别为文本形式的文本指令，语音助手APP可以通过统计该段文本中所包含的文字数量，以获得用户输入的音频问询指令所对应的文字数量。

在一般情况下，当解码器工作正常且用户与智能终端之间距离较近的情况下，语音助手APP对用户输入的音频问询指令的识别耗时仅与用户输入的音频问询指令的时间长度有关。用户输入的音频问询指令的时间长度越长，对应地语音助手APP对该段音频问询指令的识别耗时就越长。

第二获取模块4012，用于获取所述音频问询指令的声学特征。

所述确定单元402，用于基于所述音频参数确定与所述音频问询指令对应的目标反馈方式。

本发明实施例中，如图6所示，所述确定单元402具体可以包括：第一确定模块4021、第二确定模块4022和第三确定模块4023，其中，

所述第一确定模块4021，用于根据所述音频问询指令的语速，在预设的与所述音频问询指令对应的反馈方式中确定第一反馈方式。

本发明实施例中，所述第一确定模块4021，具体用于根据所述音频问询指令的语速与预设的语速阈值的关系，在预设的与所述音频问询指令对应的反馈方式中确定所述第一反馈方式。

在具体实施时，语音助手APP的后台开发人员针对同一音频问询指令，可以预先设置至少两种符合不同语速的反馈方式，以满足不同语速的需求。例如对于语速非常快的音频问询指令，此时根据语速可以确定用户的情绪状态可能是非常着急，则此时可以设置第二类型反馈方式作为所述第一反馈方式，仅包括音频问询指令的主要结果信息即可；而对于语速较为正常的音频问询指令，此时根据语速可以确定用户的情绪状态正常，则此时可以设置第一类型反馈方式作为所述第一反馈方式，在该反馈方式中不仅包括音频问询指令的主要结果信息，还可以进一步包括与主要信息相关的其他部分信息。

此外，在本发明实施例中，为了可以确定用户语速的快慢，语音助手APP的后台开发人员可以根据日常数据统计，预先默认设置一个语速阈值，则当确定用户语速大于所述语速阈值，则表明语速较快，而当确定用户语速小于或等于所述语速阈值，则表明语速正常。

所述第二确定模块4022，用于基于所述音频问询指令的声学特征确定用户身份；获取所述用户身份对应的用户信息。

所述第三确定模块4023，用于基于所述用户信息，确定用于渲染所述第一反馈方式的特征；基于所述特征对所述第一反馈方式进行渲染，获得目标反馈方式。

本发明实施例中，所述方法还包括：

响应单元403，用于基于所述目标反馈方式响应所述音频问询指令。

实施例三

基于前述的实施例，本发明实施例三还提供了另一种信息处理装置70，如图7所示，所述装置包括处理器702和用于存储能够在处理器702上运行的计算机程序的存储器701；其中，所述处理器702用于运行所述计算机程序时，以实现：

获取接收到的音频问询指令的音频参数；

本发明实施例中，所述处理器702获取所述音频问询指令的语速；

获取所述音频问询指令的声学特征。

本发明实施例中，所述处理器702将所述音频问询指令转化为文本指令；

获取所述文本指令中包含的文本数量；

获取所述音频问询指令的识别耗时；

本发明实施例中，所述处理器702根据所述音频问询指令的语速，在预设的与所述音频问询指令对应的反馈方式中确定第一反馈方式。

本发明实施例中，所述处理器702根据所述音频问询指令的语速与预设的语速阈值的关系，在预设的与所述音频问询指令对应的反馈方式中确定所述第一反馈方式。

本发明实施例中，所述处理器702基于所述音频问询指令的声学特征确定用户身份；

获取所述用户身份对应的用户信息。

本发明实施例中，所述处理器702基于所述用户信息，确定用于渲染所述第一反馈方式的特征；

本发明实施例中，所述处理器702还用于基于所述目标反馈方式响应所述音频问询指令。

所述处理器702可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过所述处理器702中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器702可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器702可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器701，所述处理器702读取存储器701中的信息，结合其硬件完成前述方法的步骤。

可以理解，本发明实施例的存储器(存储器701)可以是易失性存储器或者非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-OnlyMemory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

这里需要指出的是：以上媒体播放行为的检测装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明终端实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

实施例四

在示例性实施例中，本发明实施例四还提供了一种存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器701，上述计算机程序可由处理器702处理，以实现：

本发明实施例中，所述处理器702获取接收到的音频问询指令的音频参数；

获取所述音频问询指令的声学特征。

获取所述文本指令中包含的文本数量；

获取所述音频问询指令的识别耗时；

获取所述用户身份对应的用户信息。

所述存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

这里需要指出的是：以上存储介质实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明终端实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

需要说明的是：本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息处理方法，其特征在于，所述方法包括：

获取接收到的音频问询指令的音频参数；

2.根据权利要求1所述的方法，其特征在于，所述获取接收到的音频问询指令的音频参数，包括：

获取所述音频问询指令的语速；

获取所述音频问询指令的声学特征。

3.根据权利要求2所述的方法，其特征在于，所述获取所述音频问询指令的语速，包括：

将所述音频问询指令转化为文本指令；

获取所述文本指令中包含的文本数量；

获取所述音频问询指令的识别耗时；

4.根据权利要求3所述的方法，其特征在于，所述基于所述音频参数确定与所述音频问询指令对应的目标反馈方式，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述音频问询指令的语速，在预设的与所述音频问询指令对应的反馈方式中确定第一反馈方式，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述音频参数确定与所述音频问询指令对应的目标反馈方式，包括：

基于所述音频问询指令的声学特征确定用户身份；

获取所述用户身份对应的用户信息。

7.根据权利要求6所述的方法，其特征在于，所述基于所述音频参数确定与所述音频问询指令对应的目标反馈方式，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：基于所述目标反馈方式响应所述音频问询指令。

9.一种信息处理装置，其特征在于，所述装置包括：

获取单元，用于获取接收到的音频问询指令的音频参数；

10.一种信息处理装置，其特征在于，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，所述处理器用于运行所述计算机程序时，执行权利要求1至8任一项所述方法的步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。