CN110097884A

CN110097884A - 一种语音交互方法和装置

Info

Publication number: CN110097884A
Application number: CN201910502349.8A
Authority: CN
Inventors: 王夏鸣
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-08-06
Anticipated expiration: 2039-06-11
Also published as: CN110097884B

Abstract

本发明实施例公开了一种语音交互方法和装置，该方法包括：在检测到语音输入功能被唤醒时，获取语音输入信息；根据预存的第一噪声频谱信息，对所述语音输入信息进行分离操作，生成人声频谱信息和第二噪声频谱信息；根据所述第二噪声频谱信息确定第一音量幅值，并根据所述人声频谱信息确定人声平均幅值；根据所述第一音量幅值与所述人声平均幅值之间的幅值关系，提供匹配的语音提醒信息。本发明实施例的技术方案，通过获取到的周围环境的噪声信息，对用户输入的语音信息进行分离，生成人声频谱信息，实现了对用户输入语音的音量引导，保证了用户的说话声音符合语音输入功能的识别要求，提高了语音识别正确率。

Description

一种语音交互方法和装置

技术领域

本发明实施例涉及智能识别技术领域，尤其涉及一种语音交互方法和装置。

背景技术

随着软件技术的不断进步，各种各样的应用程序(Application，简称APP)出现在人们视野中，语音识别功能作为用户与应用程序之间的一个无形纽带，已经成为了应用程序开发中一个极为重要的组成部分。

现在的语音识别功能，由于使用场景的多样性，例如在家中、车中或商场中等等，识别过程中不可避免的会因为环境噪音而影响识别效果，但用户并不清楚当前噪声环境对识别效果会造成多大的影响，经常会在用户发出语音指令后，经过语音识别处理，获取到语音处理结果时，才发现语音识别出现大量错误，需要重新输入语音指令，造成了语音识别功能的识别效率和准确率较低。

发明内容

本发明实施例提供了一种语音交互方法和装置，实现了对用户输入语音的音量大小的引导，保证了用户的说话声音符合语音输入功能的识别要求，提高了语音识别正确率。

第一方面，本发明实施例提供了一种语音交互方法，包括：

在检测到语音输入功能被唤醒时，获取语音输入信息；

根据预存的第一噪声频谱信息，对所述语音输入信息进行分离操作，生成人声频谱信息和第二噪声频谱信息；

根据所述第二噪声频谱信息确定第一音量幅值，并根据所述人声频谱信息确定人声平均幅值；

根据所述第一音量幅值与所述人声平均幅值之间的幅值关系，提供匹配的语音提醒信息。

第二方面，本发明实施例提供了一种语音交互装置，包括：

语音输入信息获取模块，用于在检测到语音输入功能被唤醒时，获取语音输入信息；

分离操作执行模块，用于根据预存的第一噪声频谱信息，对所述语音输入信息进行分离操作，生成人声频谱信息和第二噪声频谱信息；

人声平均幅值获取模块，用于根据所述第二噪声频谱信息确定第一音量幅值，并根据所述人声频谱信息确定人声平均幅值；

语音提醒信息提供模块，用于根据所述第一音量幅值与所述人声平均幅值之间的幅值关系，提供匹配的语音提醒信息。

第三方面，本发明实施例提供了一种车机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的语音交互方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的语音交互方法。

本发明实施例的技术方案，通过获取到的周围环境的噪声信息，对用户输入的语音信息进行分离，生成人声频谱信息，并与最小音量值比较，在判断音量值较小后，向用户发送语音提醒，实现了对用户输入语音的音量引导，保证了用户的说话声音符合语音输入功能的识别要求，同时也使终端设备获得了较好的信噪比声音信号，提高了语音识别正确率。

附图说明

图1是本发明实施例一提供的语音交互方法的流程图；

图2A是本发明实施例二提供的语音交互方法的流程图；

图2B是本发明具体应用场景一提供的语音交互方法的流程图；

图3是本发明实施例三提供的语音交互装置的结构框图；

图4是本发明实施例四提供的车机设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语音交互方法的流程图，本实施例可适用于用户进行语音输入时，引导用户的输入音量，该方法可以由本发明实施例中的语音交互装置来执行，该装置可以通过软件和/或硬件实现，并一般可以集成在终端设备中，典型的，可以集成在车机中，该方法具体包括如下步骤：

S110、在检测到语音输入功能被唤醒时，获取语音输入信息。

在检测到终端设备的语音输入功能被唤醒时，通过麦克风获取语音输入信息；所述终端设备可以是手机或平板电脑等移动终端，也可以是其它电子终端，例如，车机等；车机是指安装在汽车里面的车载信息娱乐产品，其在功能上实现人与车或者车与外界的信息通讯。所述麦克风，即传声器，其功能是将声音信号转换为电信号，包括电阻式麦克风、电容式麦克风和电感式麦克风等多种类型；可选的，在本发明实施例中，对终端设备的类型不作具体限定，对麦克风的类型也不作具体限定。

可选的，可以通过点击物理按键的方式唤醒语音输入功能，例如，通过开启终端设备上的语音输入功能按键唤醒语音输入功能；也可以通过点击虚拟按键的方式唤醒语音输入功能，例如，通过开启终端设备屏幕上的虚拟按键唤醒语音输入功能；还可以通过其它方式，例如，通过晃动终端设备开启语音输入功能，在本发明实施例中，对语音输入功能被唤醒的方式不作具体限定。

S120、根据预存的第一噪声频谱信息，对所述语音输入信息进行分离操作，生成人声频谱信息和第二噪声频谱信息。

频谱，也即频率谱密度，是振荡幅值按照振荡频率排列的分布曲线，横坐标为振荡频率，纵坐标为振动振幅；噪声的来源很多，例如，街道上的汽车声、餐馆里酒杯的碰撞声以及建筑工地的机器声等等，不同的环境或场景下，噪声源不同，噪声的频谱也不相同；第一噪声频谱信息，即周围环境的噪声频谱信息，包括周围环境的噪声频率以及对应的噪声幅值，预存于终端设备中；第一噪声频谱信息可以是终端设备实际检测的周围环境的噪声信息，也可以是通过网络获取的周围环境的噪声信息，还可以是根据所处的当前场景，预估的周围环境的噪声信息。

可选的，在获取所述语音输入信息之后，还包括：根据所述语音输入信息，确定语音频谱信息。具体的，获取到语音输入信息后，根据获取的语音信息的语音频率和语音幅值确定语音频谱信息。

可选的，将所述语音频谱信息与所述第一噪声频谱信息的差值作为所述人声频谱信息，将所述第一噪声频谱信息作为所述第二噪声频谱信息。具体的，语音输入信息中包括了用户输入的语音信息以及噪声的干扰信息，因此，语音频谱信息减去第一噪声频谱信息，也即减去周围环境的噪声频谱信息，差值即为人声频谱信息，也即由用户发出的语音信息的频谱。

S130、根据所述第二噪声频谱信息确定第一音量幅值，并根据所述人声频谱信息确定人声平均幅值。

可选的，根据所述第二噪声频谱信息确定噪声平均幅值，并将所述噪声平均幅值与设定信噪比的比值作为所述第一音量幅值。信噪比(SIGNAL-NOISE RATIO，SN)，是电子设备或者电子系统中语音信号与噪声的比例，信噪比越高，则语音信号中的噪声越小；第一音量幅值是最小音量值，也即语音能输入终端设备并被识别需要的最小音量；将噪声平均幅值与预先设定的信噪比的比值作为第一音量幅值。

S140、根据所述第一音量幅值与所述人声平均幅值之间的幅值关系，提供匹配的语音提醒信息。

若确定所述人声平均幅值小于或等于所述第一音量幅值，表明此时人声的音量较小，则发送音量提高提醒，以使用户提高音量。

特别的，若确定所述人声平均幅值大于或等于预设的第二音量幅值，即设定的最大音量值，则发送音量减小提醒，以使用户降低音量，避免用户输入的语音音量过大，影响语音输入效果。

可选的，可以通过语音播报和/或界面显示的方式发送音量提醒，还可以通过震动的方式提醒用户。

可选的，在获取到人声平均幅值后，可以在终端设备的屏幕界面上显示该人声平均幅值、音量最小值和音量最大值，以方便用户了解自己的声音大小情况。

实施例二

图2A为本发明实施例二提供的一种语音交互方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，在检测到语音输入功能被唤醒时，获取语音输入信息之前，还包括：定期获取周围环境信息，并根据获取的所述周围环境信息更新所述第一噪声频谱信息。相应的，本实施例的方法具体包括如下步骤：

S210、定期获取周围环境信息，并根据获取的所述周围环境信息更新所述第一噪声频谱信息。

以第一预设时间作为采样周期，获取第一预设时间内的周围环境信息，并以第二预设时间作为采样最小间隔时间，也即每一次采样的间隔时间，其中，第一预设时间大于第二预设时间。根据第一预设时间内获取的周围环境信息，获取对应的频谱信息，并将所述频谱信息作为第一噪声频谱信息。

S220、根据所述第一噪声频谱信息获取噪声音量平均幅值和噪声音量幅值方差。

S230、若所述噪声音量平均幅值小于或等于第一预设阈值，且所述噪声音量幅值方差小于或等于第二预设阈值，则发送适合语音输入提醒；若所述噪声音量平均幅值大于第一预设阈值，或所述噪声音量幅值方差大于第二预设阈值，则判定所述噪声环境不适合语音输入，则发送噪声过大提醒。

若所述噪声音量平均幅值小于或等于平均幅值的预设阈值，且所述噪声音量幅值方差小于或等于第二预设阈值，表明此时周围环境的噪声音量在允许的范围内，且噪声变化较为稳定，适合语音输入，因此发送适合语音输入提醒；若所述噪声音量平均幅值大于第一预设阈值，或所述噪声音量幅值方差大于第二预设阈值，表明此时周围环境的噪声音量不在允许的范围内，不适合语音输入，因此发送噪声过大提醒。

可选的，可以通过指示灯闪烁、语音播报和/或界面显示的方式向用户发送适合语音输入提醒或噪声过大提醒。

本发明实施例的技术方案，通过获取周围环境信息确定第一噪声频谱信息，并由此计算获得噪声音量平均幅值和噪声音量幅值方差，并根据与预设阈值的比较，向用户发送适合语音输入提醒或噪声过大提醒，实现了在用户进行语音输入前对周围环境噪声的预判，避免了语音识别率较低的场景下依然进行语音输入导致语音无法被识别的情况发生，减少了用户语音识别的错误概率，提升了用户体验。

具体应用场景一

图2B是本发明具体应用场景一在上述实施例的基础上提供的一种语音交互方法的流程图，该方法具体包括如下步骤：

S301、开启环境噪声检测功能。

S302、周期性的采集第一预设时间内的环境噪声。

S303、根据获取的环境噪声，计算噪声音量平均幅值、噪声音量幅值方差和第一噪声频谱信息。

S304、判断是否噪声音量平均幅值小于或等于第一预设阈值，且噪声音量幅值方差小于或等于第二预设阈值；若是，执行S305；若否，执行S306。

S305、提示用户适合语音输入；执行S307。

S306、提示用户不适合语音输入；执行S307。

S307、开启语音输入功能。

用户可以参考提示信息，决定是否开启语音输入功能；特别的，无论根据环境噪声判断是否适合语音输入，都不会影响用户对语音输入功能的使用，用户都可以正常开启语音输入功能。

S308、周期性的采集第一预设时间内的语音输入。

S309、根据第一噪声频谱信息，对所述语音输入信息进行分离操作。

S310、获得人声频谱信息和第二噪声频谱信息。

S311、根据第二噪声频谱信息确定噪声平均幅值，并根据人声频谱信息确定人声平均幅值。

S312、将噪声平均幅值与设定信噪比的比值作为最小音量值。

S313、判断人声平均幅值是否小于最小音量值；若是，执行S314；若否，执行S315。

S314、提示用户提高音量。

S315、判断人声平均幅值是否大于最大音量值；若是，执行S316；若否，执行S317。

S316、提示用户减小音量。

S317、不对用户进行音量提示。

本发明具体应用场景提供的技术方案，通过检测环境噪声，将获取的噪声音量平均幅值和噪声音量幅值方差分别与预设阈值比较，向用户发送是否适合语音输入的提醒，实现了对环境噪声的预判，同时，通过检测环境噪声对，对用户输入的语音信息进行分离，生成人声频谱信息并与音量阈值比较，以提示用户是否需要改变音量，实现了对用户输入语音的音量引导，保证了用户的说话声音符合语音输入功能的识别要求，同时也使终端设备获得了较好的信噪比声音信号，提高了语音识别正确率。

实施例三

图3是本发明实施例三所提供的一种语音交互装置的结构框图，具体包括：语音输入信息获取模块310、分离操作执行模块320、人声平均幅值获取模块330和语音提醒信息提供模块340。

语音输入信息获取模块310，用于在检测到语音输入功能被唤醒时，获取语音输入信息；

分离操作执行模块320，用于根据预存的第一噪声频谱信息，对所述语音输入信息进行分离操作，生成人声频谱信息和第二噪声频谱信息；

人声平均幅值获取模块330，用于根据所述第二噪声频谱信息确定第一音量幅值，并根据所述人声频谱信息确定人声平均幅值；

语音提醒信息提供模块340，用于根据所述第一音量幅值与所述人声平均幅值之间的幅值关系，提供匹配的语音提醒信息。

可选的，在上述技术方案的基础上，语音提醒信息提供模块340，具体用于：

若确定所述人声平均幅值小于或等于所述第一音量幅值，则发送音量提高提醒；

若确定所述人声平均幅值大于或等于预设的第二音量幅值，则发送音量减小提醒。

可选的，在上述技术方案的基础上，人声平均幅值获取模块330，具体包括：

第一音量幅值确定单元，用于根据所述第二噪声频谱信息确定噪声平均幅值，并将所述噪声平均幅值与设定信噪比的比值作为所述第一音量幅值。

可选的，在上述技术方案的基础上，语音交互装置，还包括：

语音频谱信息获取模块，用于根据所述语音输入信息，确定语音频谱信息。

可选的，在上述技术方案的基础上，分离操作执行模块320，具体包括：

第二噪声频谱信息获取单元，用于将所述语音频谱信息与所述第一噪声频谱信息的差值作为所述人声频谱信息，将所述第一噪声频谱信息作为所述第二噪声频谱信息。

第一噪声频谱信息更新模块，用于定期获取周围环境信息，并根据获取的所述周围环境信息更新所述第一噪声频谱信息。

幅值及方差计算模块，用于根据所述第一噪声频谱信息获取噪声音量平均幅值和噪声音量幅值方差；

适合语音输入提醒模块，用于若所述噪声音量平均幅值小于或等于第一预设阈值，且所述噪声音量幅值方差小于或等于第二预设阈值，则发送适合语音输入提醒；

噪声过大提醒模块，用于若所述噪声音量平均幅值大于第一预设阈值，或所述噪声音量幅值方差大于第二预设阈值，则判定所述噪声环境不适合语音输入，则发送噪声过大提醒。

上述装置可执行本发明任意实施例所提供的语音交互方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的方法。

实施例四

图4为本发明实施例四提供的语音交互设备的结构示意图，如图4所示，该设备包括处理器40、存储器41、输入装置42和输出装置43；设备中处理器40的数量可以是一个或多个，图4中以一个处理器40为例；设备处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的由客户端执行的语音交互装置对应的模块(语音输入信息获取模块310、分离操作执行模块320、人声平均幅值获取模块330和语音提醒信息提供模块340)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的语音交互方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。

实施例五

本发明实施例五还提供了一种计算机可读存储介质，所述计算机可读存储介质在由计算机处理器执行时用于执行语音交互方法，该方法包括：

在检测到语音输入功能被唤醒时，获取语音输入信息；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的语音交互方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音交互装置的实施例中，所包括的各个模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音交互方法，其特征在于，包括：

在检测到语音输入功能被唤醒时，获取语音输入信息；

2.根据权利要求1所述的方法，其特征在于，根据所述第一音量幅值与所述人声平均幅值之间的幅值关系，提供匹配的语音提醒信息，包括：

若确定所述人声平均幅值小于或等于所述第一音量幅值，则发送音量提高提醒。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第二噪声频谱信息确定第一音量幅值，包括：

根据所述第二噪声频谱信息确定噪声平均幅值，并将所述噪声平均幅值与设定信噪比的比值作为所述第一音量幅值。

4.根据权利要求2所述的方法，其特征在于，根据所述第一音量幅值与所述人声平均幅值之间的幅值关系，提供匹配的语音提醒信息，还包括：

5.根据权利要求1所述的方法，其特征在于，在获取所述语音输入信息之后，还包括：

根据所述语音输入信息，确定语音频谱信息；

所述根据第一噪声频谱信息，对所述语音输入信息进行分离操作，生成人声频谱信息和第二噪声频谱信息，包括：

将所述语音频谱信息与所述第一噪声频谱信息的差值作为所述人声频谱信息，将所述第一噪声频谱信息作为所述第二噪声频谱信息。

6.根据权利要求1-5任一项所述的方法，其特征在于，在检测到语音输入功能被唤醒时，获取语音输入信息之前，还包括：

定期获取周围环境信息，并根据获取的所述周围环境信息更新所述第一噪声频谱信息。

7.根据权利要求6所述的方法，其特征在于，在定期获取周围环境信息，并根据获取的所述周围环境信息更新所述第一噪声频谱信息之后，还包括：

根据所述第一噪声频谱信息获取噪声音量平均幅值和噪声音量幅值方差；

若所述噪声音量平均幅值小于或等于第一预设阈值，且所述噪声音量幅值方差小于或等于第二预设阈值，则发送适合语音输入提醒；

若所述噪声音量平均幅值大于第一预设阈值，或所述噪声音量幅值方差大于第二预设阈值，则判定所述噪声环境不适合语音输入，则发送噪声过大提醒。

8.一种语音交互装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述语音提醒信息提供模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述人声平均幅值获取模块，具体包括：

11.根据权利要求8所述的装置，其特征在于，还包括：

语音频谱信息获取模块，用于根据所述语音输入信息，确定语音频谱信息；

所述分离操作执行模块，具体包括：

12.根据权利要求8-11任一项所述的装置，其特征在于，还包括：

13.根据权利要求12所述的装置，其特征在于，还包括：