CN108417208A

CN108417208A - 一种语音输入方法和装置

Info

Publication number: CN108417208A
Application number: CN201810251995.7A
Authority: CN
Inventors: 孙权
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Current assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-08-17
Anticipated expiration: 2038-03-26
Also published as: CN108417208B

Abstract

本申请公开了语音输入方法和装置，该方法包括：接收原始语音信号；将所述原始语音信号转换为数字语音信号；根据语音分离算法在所述数字语音信号中分离出与预存储的模板语音特征匹配的目标数字语音信号；根据所述目标数字语音信号进行语音输入。采用本发明实施例，能提高对混合有多用户的语音的识别率。

Description

一种语音输入方法和装置

技术领域

本发明涉及语音处理领域，尤其涉及一种语音输入方法和装置。

背景技术

语音输入是一种将用户的语音识别成文本输入到特定的文本框中的技术，语音输入解放了用户的双手，降低了输入文本的难度，随着语音输入的准确率的提升，越来越多的终端设备上支持语音输入功能。在目前的语音输入方案中，在安静的环境下，对单个用户的语音识别率非常高，但是在多个用户同时发出语音时，终端设备根据这种混合了多个用户进行识别时容易发生错误，语音输入的准确率非常低。

发明内容

本发明实施例所要解决的技术问题在于，提供一种语音输入方法和装置，实现了对多个用户的混合语音进行识别，提高语音输入的准确率。

第一方面，本申请提供了一种唤醒性能的控制方法，包括：终端设备接收原始语音信号；终端设备将原始语音信号转换为数字语音信号；终端设备根据语音分离算法在数字语音信号中分离出有预存储的模板语音特征匹配的目标数字语音信号；终端设备根据目标数字语音信号进行语音输入。

其中，预存储的模板语音特征和登录该终端设备的账号关联，登录终端设备的方式包括但不限于密码验证、指纹验证或人脸验证等。模板语音特征可通过音色、响度和音域中的至少一种来描述，模板语音特征包括至少一个子语音特征，例如模板语音特征。

在一种可能的设计中，还包括：

终端设备在进行通话时，例如：主叫或被叫时，终端设备获取用户在通话过程中的通话语音信号；终端设备提取通话语音信号的语音特征；根据语音特征更新预存储的模板语音特征。例如，将提取到的语音特征加入到模板语音特征中。

在一种可能的设计中，根据语音分离算法从数字语音信号中分离出与预存储的语音模板匹配的目标数字语音信号包括：

根据语音分离算法从数字语音信号中分离出至少一个数字语音片段；其中，不同的数字语音片段对应不同的用户身份；

确定每个数字语音片段的语音特征；

计算每个数字语音片段的语音特征和预存储的模板语音特征之间的相似度值，将相似度值最大的数字语音片段作为目标数字语音信号。

在一种可能的设计中，将所述原始语言信号转换为数字语音信号之前，还包括：

根据预设的频率范围对原始语音信号进行滤波处理。

在一种可能的设计中，所述预存储的模板语音特征包括：音色、响度和音域中的至少一种。

第二方面，本申请提供了一种语音输入装置，该控制装置具有实现上述方法中终端设备行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

接收模块，用于接收原始语音信号；

转换模块，用于将所述原始语音信号转换为数字语音信号；

匹配模块，用于根据语音分离算法在所述数字语音信号中分离出与预存储的模板语音特征匹配的目标数字语音信号；

控制模块，用于根据所述目标数字语音信号进行语音输入。

在一种可能的设计中，语音输入装置还包括：

获取模块，用于在进行通话时，获取用户在通话过程中的通话语音信号；

提取模块，用于提取所述通话语音信号的语音特征；

更新模块，用于根据所述语音特征更新预存储的模板语音特征。

在一种可能的设计中，所述匹配模块具体用于：

根据所述语音分离算法从所述数据语音信号中分离出至少一个数字语音片段；其中，不同的数字语音片段对应不同的用户身份；

确定每个数字语音片段的语音特征；

计算每个数字语音片段的语音特征和预存储的模板语音特征之间的相似度值，将相似度值最大的数字语音片段作为所述目标数字语音信号。

在一种可能的设计中，语音输入装置还包括：

滤波模块，用于根据预设频率范围对所述原始语音信号进行滤波处理。

在一种可能的设计中，所述模板语音特征包括：音色、响度和音域中的至少一种。

第三方面，本申请提供了一种语音输入装置，包括：接收器、发射器、存储器和处理器；其中，所述存储器中存储一组程序代码，且所述处理器用于调用所述存储器中存储的程序代码，执行第一方面和第一方面各可能的实施方式中的方法。

基于同一发明构思，由于该装置解决问题的原理以及有益效果可以参见上述各可能的终端设备的方法实施方式以及所带来的有益效果，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

本申请的又一方面提了供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请的又一方面提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

根据以上实施例的描述，终端设备从数字语音信号中分离预存储的模板语音特征匹配的数字语音信号，在混合有多个用户的语音信号的数字语音信号中分离出指定用户的数字语音信号，根据指定的语音信号进行语音输入，提高语音输入的准确率。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例提供的一种语音输入方法的流程示意图；

图2是本发明实施例提供的一种语音输入方法的另一流程示意图；

图3是本发明实施例提供的一种语音输入装置的结构示意图；

图4是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

请参见图1，图1是本发明实施例提供的一种语音输入方法的流程示意图，该方法包括但不限于如下步骤：

S101、接收原始语音信号。

具体的，终端设备内设置有语音采集部件，语音采集部件可以为一个或多个麦克风，在麦克风的数量为多个的情况下，多个麦克风分布在终端设备的不同位置，多个麦克风组成麦克风阵列，通过多个采集通道接收外部的原始语音信号。采集到的原始语音信号为模拟信号，原始语音信号可能混合有多个用户的语音信号。例如：在嘈杂的环境中，用户A和用户B同时说话，终端设备采集到的原始语音信号混合有用户A和用户B的语音信号。

S102、将原始语音信号转换为数字语音信号。

具体的，终端设备将原始语音信号进行采样和量化得到数字语音信号，采样方法和量化位宽本实施例不作限制。

S103、根据语音分离算法在数字语音信号中分离出与预存储的模板语音特征匹配的目标数字语音信号；

具体的，语音分离算法是指从一段多用户语音中将每个用户的语音分离出来，输出结果为每个用户各自的语音的算法。语音分离算法可以是现有的基于距离度量的分割聚类算法和基于模型搜索的分割聚类算法。如果数字语音信号为混合有多个用户的语音信号，终端设备根据语音分离算法对数字语音信号进行分割和聚类得到每个用户各自的数字语音信号，终端设备预存储有模板语音特征，根据模板语音特征在多个用户各自的数字语音信号中进行匹配，得到目标数字语音信号。其中，该预存储的模板语音特征可以与登录该终端设备的账户关联。

需要说明的是，模板语音特征可以是一个包括至少一个子语音特征的数据库，即同一个用户可关联至少一个子语音特征。例如：用户A关联子语音特征1、子语音特征2和子语音特征3。

S104、根据目标数字语音信号进行语音输入。

具体的，终端设备对目标数字语音信号进行识别，得到相应的文本信息，将文本信息输入到用户界面上指定的文本框内。

在图1所描述的方法中，终端设备从数字语音信号中分离预存储的模板语音特征匹配的数字语音信号，在混合有多个用户的语音信号的数字语音信号中分离出指定用户的数字语音信号，根据指定的语音信号进行语音输入，提高语音输入的准确率。

参见图2，为本发明实施例提供的一种语音输入方法的另一流程示意图，在本发明实施例中，所述方法包括：

S201、接收原始语音信号。

具体的，原始语音信号为模拟信号，原始语音信号可能混合有多个用户的语音信号。例如：在会议环境中，用户A和用户B同时说话，终端设备采集到的原始语音信号混合有用户A和用户B的语音信号。终端设备内设置有语音采集部件，语音采集部件可以为一个或多个麦克风，在麦克风的数量为多个的情况下，多个麦克风分布在终端设备的不同位置，多个麦克风组成麦克风阵列，通过多个采集通道接收外部的原始语音信号终端设备内设置有语音采集部件，语音采集部件可以为一个或多个麦克风，在麦克风的数量为多个的情况下，多个麦克风分布在终端设备的不同位置，多个麦克风组成麦克风阵列，通过多个采集通道接收外部的原始语音信号，以实现对原始语音信号的增强。

S202、根据预设频率范围对原始语音信号进行滤波处理。

具体的，终端设备根据预设频率范围对原始语音信号进行滤波处理，其中，预设频率范围可以是人发出声音的范围，例如：预设频率范围为20Hz至20000Hz之间，终端设过滤掉不在人生范围内的语音信号，以减小后续的运算量。

S203、将滤波处理后的原始语音信号进行模数转换得到数字语音信号。

S204、根据语音分离算法从数字语音信号中分离出至少一个数字语音片段。

具体的，语音分离算法是指从一段多用户语音中将每个用户的语音分离出来，输出结果为每个用户各自的语音的算法。语音分离算法可以是现有的基于距离度量的分割聚类算法和基于模型搜索的分割聚类算法，基于距离度量的分割聚类算法是利用一定的距离度量准则来判断两段语音时属于同一个说话人还是属于不同的说话人，对于不同的应用场景或说话人需要设定不同的阈值；基于模型搜索的分割聚类算法是利用得到的说话人模型来对原始多人语音按窗进行搜索，以便找出该说话者发音的时间信息。如果数字语音信号为混合有多个用户的语音信号，终端设备根据语音分离算法对数字语音信号进行分割和聚类得到每个用户各自的数字语音片段。

S205、确定每个数字语音片段的语音特征。

具体的，语音特征包括音色、响度和音域中的至少一种，其中，音色是不同的声音的频率表现在波形方面总是有与众不同的特性，响度是又称音量，是人耳感受到的声音强弱，是人对声音大小的一个主观感觉量，响度的大小决定于声音接收处的波幅，就同一声源来说，波幅传播的愈远，响度愈小。音域是最低频率至最高频率之间的范围。

S206、计算每个数字语音片段的语音特征和预存储的模板语音特征之间的相似度值，将相似度值最大的数字语音片段作为目标数字语音信号。

具体的，终端设备预存储有模板语音特征，模板语音特征包括音色、响度和音域中的至少一种，其中，模板语音特征可以和登录该终端设备的账户有关，登录方式包括但不限于密码、指纹或人脸。终端设备可根据欧式距离或余弦相似度算法等计算每个数字语音片段的语音特征和模板语音特征之间的相似度值，相似度值的大小和相似程度呈正相关性。终端设备将相似度值最大的数字语音片段作为目标数字语音信号。

可选的，同一个用户的语音特征可能会随着身体状态的变化而发生变化，本实施例中，为了适应这种动态的变化，终端设备在通话过程中，获取用户的通话语音数据，该用户为登录该终端设备的用户，终端设备提取通话语音信号的语音特征，根据该语音特征更新预存储的模板语音特征。

具体的，模板语音特征可以是一个包括至少一个子语音特征的语音特征数据库，即同一个用户关联至少一个子语音特征。终端设备检测到用户发起通话时，通过麦克风记录用户通话过程中的通话语音信号，将通话语音信号存储在本地的存储器中，根据历史存储的通话语音信号和当前的通话语音信号利用大数据算法提取该用户的语音特征，将该语音特征添加到到语音特征数据库中，作为该用户的一个新的语音特征。随着学习时间的增加，同一个用户关联的语音特征数据库中的子语音特征的数量会逐渐增加，这样能准确的对用户不同时间和不同身体状态下的语音特征进行准确识别。

S207、根据目标数字语音信号进行语音输入。

具体的，终端设备将目标数字语音信号进行文本识别，将识别出来的文本信息输入到指定的文本框中。

在图2所描述的方法中，终端设备从数字语音信号中分离预存储的模板语音特征匹配的数字语音信号，在混合有多个用户的语音信号的数字语音信号中分离出指定用户的数字语音信号，根据指定的语音信号进行语音输入，提高语音输入的准确率。

上述详细阐述了本发明实施例的方法，下面提供了本发明实施例的装置。

请参见图3，图3是本发明实施例提供的一种语音输入装置的结构示意图，该控制装置3可以包括接收模块301、转换模块302、匹配模块303和控制模块304，其中，各个单元的详细描述如下。

接收模块301，用于接收原始语音信号。

转换模块302，用于将所述原始语音信号转换为数字语音信号。

匹配模块303，用于根据语音分离算法在所述数字语音信号中分离出与预存储的模板语音特征匹配的目标数字语音信号。

控制模块304，用于根据所述目标数字语音信号进行语音输入。

可选的，语音输入装置3还包括：

提取模块，用于提取所述通话语音信号的语音特征；

可选的，所述匹配模块303具体用于：

确定每个数字语音片段的语音特征；

可选的，语音输入装置3还包括：

可选的，所述模板语音特征包括：音色、响度和音域中的至少一种。模板语音特征包括至少一个语音特征。

需要说明的是，各个单元的实现还可以对应参照图1和2所示的方法实施例的相应描述。

所述语音输入3可以为终端设备，所述语音输入3也可以为实现相关功能的现场可编程门阵列(field-programmable gate array，FPGA)，专用集成芯片，系统芯片(systemon chip，SoC)，中央处理器(central processor unit，CPU)，网络处理器(networkprocessor，NP)，数字信号处理电路，微控制器(micro controller unit，MCU)，还可以采用可编程控制器(programmable logic device，PLD)或其他集成芯片。

在图3所描述的语音输入装置3中，根据采集到的场景参数信息识别当前的使用场景，根据当前的使用场景自适应的调节唤醒性能，确保在不同的使用场景具有良好的唤醒率和误唤醒率。

参见图4，位本发明实施例提供的一种终端设备结构示意图，本发明实施例中的终端设备包括但不限于搭载或者其它操作系统的终端设备，诸如移动电话。也可以是其它终端设备，诸如具有触敏表面(例如，触摸屏显示器和/或触控板)的膝上型计算机或平板电脑或台式计算机。

在下面的讨论中，介绍了一种包括显示器和触敏表面的终端设备。然而应当理解，终端设备可以包括一个或多个其他物理用户接口设备，诸如物理键盘、鼠标和/或操作杆。

终端设备通常支持多种应用程序，诸如以下中的一种或多种：画图应用程序、呈现应用程序、文字处理应用程序、网页创建应用程序、盘编辑应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息应用程序、锻炼支持应用程序、相片管理应用程序、数字相机应用程序、数字视频摄像机应用程序、网络浏览应用程序、数字音乐播放器应用程序、和/或数字视频播放器应用程序。

可在终端设备上执行的各种应用程序可使用至少一个共用的物理用户接口设备，诸如触敏表面。触敏表面的一种或多种功能以及显示在终端设备上的相应信息可从一种应用程序调整和/或变化至下一种应用程序和/或在相应应用程序内被调整和/或变化。这样，终端设备的共用物理架构(诸如触敏表面)可利用对于用户而言直观清楚的用户界面来支持各种应用程序。

现在关注具有触敏显示器的终端设备的实施例。图4是示出根据一些实施例的具有触敏显示器的终端设备的结构示意图。触敏显示器有时为了方便被称为“触摸屏”，并且也可被称为是或者被叫做触敏显示器系统，也可以被称为具有触敏表面(touch-sensitivesurface)和显示屏(display)的显示器系统。终端设备包括处理器401、存储器402、发送器403和接收器404，其中，处理器401、存储器402、发送器403和接收器404可通过总线或其他方式连接。

其中，终端设备还可包括存储器控制器、外围设备接口、RF电路系统、音频电路系统、扬声器、麦克风、输入/输出(I/O)子系统、其他输入控制设备和外部端口。终端设备4可包括一个或多个光学传感器。这些部件可通过一根或多根通信总线或信号线进行通信。例如：输入/输出(I/O)子系统包括显示控制器、光学传感控制器和其他输入控制器。

其中，终端设备4还包括电力系统，电力系统为终端设备4提供工作的电源。

应当理解，终端设备4只是一个示例，并且终端设备4可具有比所示出的更多或更少的部件，可组合两个或更多个部件，或者可具有这些部件的不同配置或布置。图4中所示的各种部件可以硬件、软件方式或软硬件组合来实现，包括一个或多个信号处理和/或专用集成电路。

存储器402可以包括高速随机存取存储器，并且还可包括非易失性存储器，诸如一个或多个磁盘存储设备、闪存存储器设备、或其他非易失性固态存储器设备。终端设备4的其他部件(诸如CPU和外围设备接口)对存储器402的访问可由存储器控制器来控制。

外围设备接口可以被用来将设备的输入和输出外围设备耦接到CPU和存储器402。该一个或多个处理器401运行或执行存储在存储器402中的各种软件程序和/或指令集，以执行终端设备4的各种功能以及处理数据。在一些实施例中，该一个或多个处理器401包括图像信号处理器和双核或多核处理器。例如，存储器402中存储有程序代码(如操作系统和应用程序等代码)，处理器401读取存储器402中的存储器代码用于执行：

指示接收器403接收原始语音信号；

将所述原始语音信号转换为数字语音信号；

根据语音分离算法在所述数字语音信号中分离出与预存储的模板语音特征匹配的目标数字语音信号；

根据所述目标数字语音信号进行语音输入。

可选的，处理器401还用于在进行通话时，获取用户在通话过程中的通话语音信号；

提取所述通话语音信号的语音特征；

根据所述语音特征更新预存储的模板语音特征。

可选的，处理器执行所述根据语音分离算法从所述数字语音信号中分离出与预存储的语音模板匹配的目标数字语音信号包括：

确定每个数字语音片段的语音特征；

可选的，处理器401还用于根据预设频率范围对所述原始语音信号进行滤波处理。

可选的，所述预存储的模板语音特征包括：音色、响度和音域中的至少一种。

本发明实施例的具体实现过程可参照图1和图2的描述，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种语音输入方法，其特征在于，包括：

接收原始语音信号；

将所述原始语音信号转换为数字语音信号；

根据所述目标数字语音信号进行语音输入。

2.如权利要求1所述的方法，其特征在于，还包括：

在进行通话时，获取用户在通话过程中的通话语音信号；

提取所述通话语音信号的语音特征；

根据所述语音特征更新预存储的模板语音特征。

3.如权利要求1或2所述的方法，其特征在于，所述根据语音分离算法从所述数字语音信号中分离出与预存储的语音模板匹配的目标数字语音信号包括：

确定每个数字语音片段的语音特征；

4.如权利要求1所述的方法，其特征在于，所述将所述原始语音信号转换为数字语音信号之前，还包括：

根据预设频率范围对所述原始语音信号进行滤波处理。

5.如权利要求1所述的方法，其特征在于，所述预存储的模板语音特征包括：音色、响度和音域中的至少一种。

6.一种语音输入装置，其特征在于，包括：

接收模块，用于接收原始语音信号；

转换模块，用于将所述原始语音信号转换为数字语音信号；

控制模块，用于根据所述目标数字语音信号进行语音输入。

7.如权利要求6所述的方法，其特征在于，还包括：

提取模块，用于提取所述通话语音信号的语音特征；

8.如权利要求6或7所述的装置，其特征在于，所述匹配模块具体用于：

确定每个数字语音片段的语音特征；

9.如权利要求6所述的装置，其特征在于，还包括：

10.如权利要求6所述的装置，其特征在于，所述模板语音特征包括：音色、响度和音域中的至少一种。