CN104795066A

CN104795066A - 语音识别方法和装置

Info

Publication number: CN104795066A
Application number: CN201410022569.8A
Authority: CN
Inventors: 王晓利; 曾勇波; 张永生
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2014-01-17
Filing date: 2014-01-17
Publication date: 2015-07-22
Also published as: JP2015135494A

Abstract

本发明公开了语音识别方法，包括：记录客户端设备所在位置附近的背景音；根据记录的客户端设备所在位置附近的背景音生成噪音模型；根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理；以及对降噪后的语音文件进行语音识别得到识别后的文本。本发明还公开了执行上述方法的边缘节点、语音识别引擎以及控制服务器。在本发明中，用于干扰消除的背景音是由客户端设备所在位置附近的边缘节点捕获并记录的，能及时并且准确地反映出客户端设备所在位置附近的环境噪音或外部声音情况，因此，以此背景音声称噪音模型并进行降噪可以获得非常好的降噪效果，从而可以大大提高语音识别的识别率。

Description

语音识别方法和装置

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音识别方法和装置。

背景技术

语音识别技术简要来说就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括声音特征提取技术、模式匹配准则及模型训练技术等方面。

目前语音识别技术已经得到快速的发展以及广泛的使用。但是，在环境噪声较大的环境下，例如在体育场等嘈杂环境下，语音识别技术的应用却受到了很大的限制。可以理解，用户说话时的背景噪声越大，语音识别的识别率就会越低。甚至受到背景噪声的影响，很多时候无法完成语音结束检测（Utterance Ending Detection），也即无法检测出用户什么时候停止说话的。

发明内容

为了解决上述问题，本发明的实施例提出了一种语音识别的方法及执行该方法的装置，可以提高噪声环境下语音识别的识别率。

本发明实施例所述的语音识别方法包括：记录客户端设备所在位置附近的背景音，并根据记录的背景音生成噪音模型；根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理；以及对降噪后的语音文件进行语音识别得到识别后的文本。

上述记录用户所在位置附近的背景音包括：服务所述用户的边缘节点记录自身周围的背景音。

其中，上述语音文件包含时间戳；则根据记录的背景音生成噪音模型包括：所述边缘节点根据语音文件对应的时间戳查找所述时间戳所指示时间对应的背景音，根据所述背景音生成噪音模型。

上述根据记录的背景音生成噪音模型包括：边缘节点根据接收到语音文件的时间查找与所述时间对应的背景音，并根据查找到的背景音生成噪音模型。

或者，上述根据记录的背景音生成噪音模型包括：边缘节点在收到客户端上传的语音信号后开始记录背景音，并根据记录的背景音生成噪音模型。

又或者，上述根据记录的背景音生成噪音模型包括：语音识别引擎向控制服务器发送背景音记录上传请求；以及在收到控制服务器上传的背景音后，语音识别引擎根据控制服务器上传的背景音生成噪音模型。

上述根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括：所述边缘节点根据生成的噪音模型对语音文件进行降噪处理，并对降噪处理后的语音文件进行语音输入结束检测；对降噪后的语音文件进行语音识别得到识别后的文本包括：边缘节点对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本，并将识别后的文本上传至应用服务器。

又或者，根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括：所述边缘节点根据生成的噪音模型对语音文件进行降噪处理，对降噪处理后的语音文件进行语音输入结束检测，并将语音输入结束检测处理后的语音文件上传至语音识别引擎；对降噪后的语音文件进行语音识别得到识别后的文本包括：语音识别引擎对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本，并将识别后的文本上传至应用服务器。

再或者，根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括：所述边缘节点根据生成的噪音模型对语音文件进行降噪处理，并将降噪处理后的语音文件上传至语音识别引擎；对降噪后的语音文件进行语音识别得到识别后的文本包括：语音识别引擎对降噪处理后的语音文件进行语音输入结束检测，对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本，并将识别后的文本上传至应用服务器。

上述根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理包括：所述语音识别引擎根据生成的噪音模型对从边缘节点接收的语音文件进行降噪处理，并对降噪处理后的语音文件进行语音输入结束检测；对降噪后的语音文件进行语音识别得到识别后的文本包括：所述语音识别引擎对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本，并将识别后的文本上传至应用服务器。

上述方法在根据记录的用户所在位置附近的背景音生成噪音模型之前进一步包括：对记录的背景音进行传播损耗估计，并根据传播损耗估计结果对自身记录的背景音进行补偿。

本发明实施例所述的边缘节点包括：背景音记录模块401，用于记录自身所在位置附近的背景音。

边缘节点可以进一步包括：请求接收模块1201，用于接收来自控制服务器的背景音记录上传请求；以及背景音上传模块1202，用于将自身记录的背景音上传至控制服务器。

或者，上述边缘节点进一步包括：噪音模型生成模块402，用于根据记录的背景音生成噪音模型；降噪模块403，用于根据生成的噪音模型对接收的语音文件进行降噪处理；语音输入结束检测模块404，用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分；语音识别模块405，用于对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本；以及文本上传模块406，用于将识别后的文本上传至应用服务器。

又或者，上述边缘节点进一步包括：噪音模型生成模块402，用于根据记录的背景音生成噪音模型；降噪模块403，用于根据生成的噪音模型对接收的语音文件进行降噪处理；语音输入结束检测模块404，用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分；以及文件上传模块601，用于将语音输入结束检测后的语音文件上传至语音识别引擎。

再或者，上述边缘节点进一步包括：噪音模型生成模块402，用于根据记录的背景音生成噪音模型；降噪模块403，用于根据生成的噪音模型对接收的语音文件进行降噪处理；以及第二文件上传模块901，用于将降噪后的语音文件上传至语音识别引擎。

上述边缘节点进一步包括：传播损耗估计模块，用于对所记录的背景音进行传播损耗估计，并根据传播损耗估计结果对所记录的背景音进行补偿。

本发明实施例所述的语音识别引擎包括：语音库701，用于存储各种不同类型声音，针对同一文本内容的发音；语言库702，用于存储各种不同语言的词汇信息；搜索和解码单元703，用于根据语音库和语言库，对所接收的语音文件进行搜索和解码得到识别后的文本；以及文本上传模块406，用于将识别后的文本上传至应用服务器。

上述语音识别引擎进一步包括：语音输入结束检测模块404，用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分。

更进一步，语音识别引擎可以包括：控制模块1401，用于在收到语音文件后判断是否需要进行降噪处理，如果不需要降噪处理，则触发语音输入结束检测模块404对语音文本进行语音输入结束检测；而如果需要降噪处理，则控制请求模块1402向控制服务器发送背景音记录上传请求；请求模块1402，用于向控制服务器发送背景音记录上传请求；背景音接收模块1403，用于从控制服务器接收服务客户端设备的边缘节点记录的背景音；噪音模型生成模块402，用于根据所接收的背景音生成噪音模型；以及降噪模块403，用于根据生成的噪音模型对接收的语音文件进行降噪处理，并触发语音输入结束检测模块404对语音文本进行语音输入结束检测。

本发明实施例所述的控制服务器包括：上传请求接收模块1301，用于接收来自语音识别引擎的背景音记录上传请求；匹配模块1302，用于根据背景音记录上传请求中携带的客户端设备的位置信息确定为该客户端设备服务的边缘节点；以及转发模块1303，用于向该边缘节点转发背景音记录上传请求；并将该边缘节点上传的背景音转发至语音识别引擎。

在本发明的各个实施例中，用于干扰消除的背景音是由用户所在位置附近的边缘节点捕获并记录的，能及时并且准确地反映出用户所在位置附近的环境噪音或外部声音情况，因此，以此背景音声称噪音模型并进行降噪可以获得非常好的降噪效果，从而可以大大提高语音识别的识别率。

附图说明

图1为本发明实施例所述的语音识别方法流程图；

图2为本发明实施例所述的语音识别方法流程图；

图3为本发明实施例所述的客户端设备内部结构示意图；

图4为本发明实施例所述的边缘节点内部结构示意图；

图5为本发明另一实施例所述的语音识别方法流程图；

图6为本发明另一实施例所述的边缘节点内部结构示意图；

图7为本发明另一实施例所述的语音识别引擎内部结构示意图；

图8为本发明又一实施例所述的语音识别方法流程图；

图9为本发明又一实施例所述的边缘节点内部结构示意图；

图10为本发明又一实施例所述的语音识别引擎内部结构示意图；

图11为本发明再一实施例所述的语音识别方法流程图；

图12为本发明再一实施例所述的边缘节点内部结构示意图；

图13为本发明再一实施例所述的控制服务器内部结构示意图；以及

图14为本发明再一实施例所述的语音识别引擎内部结构示意图。

具体实施方式

在目前的移动通信系统中，为了提升业务密集区域如体育馆或者购物中心等区域的网络容量，在第三代合作伙伴项目（3rd Generation Partnership Project，3GPP）第12版本（Rel-12）的规定中，除了宏小区（Macro Cell）之外，还可以在业务密集区域部署小小区（Small Cell），由这些小小区承载大部分的数据流量，从而可以大大增加网络的容量。此外，在WLAN中也部署了承载数据业务的AP。其中，小小区基站以及AP均可以称为边缘节点（Edge Node）。

基于上述小小区应用环境或WLAN应用环境，为了解决现有在噪声环境下语音识别识别率低的问题，本发明的实施例提出了一种语音识别方法。该方法的具体实现流程如图1所示，主要包括：

步骤101：记录客户端设备所在位置附近的背景音，例如环境噪音或外放声源等；

步骤102：根据记录的背景音生成噪音模型；

步骤103：根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理；以及

步骤104：对降噪后的语音文件进行语音识别得到识别后的文本。

在上述方法中，上述来自客户端设备的语音文件可以是由用户使用的客户端设备，例如移动终端等，接收并记录的文件，例如MP3、WAV等文件，并将上述语音文件上传至边缘节点。为了减少传输信息量，客户端设备也可以进一步对记录的MP3或WAV文件进行特征提取（例如，提取MFCC特征）的处理，并将特征提取后的特征文件作为语音文件上传到边缘节点。此外，根据本发明一个实施例的客户端设备可以对自身生成的语音文件打上时间戳，以指示记录来自客户端设备的语音文件的时间，也即与语音文件对应的时间信息。

在上述步骤101中，上述客户端设备所在位置附近的背景音可以由该客户端设备的服务小小区基站或AP，也即边缘节点记录。具体地，可以在边缘节点内部安装声音捕获装置，由声音捕获装置捕获并记录自身周围的背景音，然后反馈给边缘节点。在本发明的一个实施例中，边缘节点可以一直记录自身周围的背景音，并为所记录的背景音打上时间戳，以指示与所记录的背景音对应的时间信息；边缘节点也可以实时监测背景音的强度，当发现背景音的强度超度了预设门限之后才开始记录。或者，根据本发明的另一个实施例，边缘节点并不用一直记录自身周围的背景音，而是在收到客户端设备上传的语音信号后，才开始记录附近的背景音，所记录的背景音足够生成噪音模型即可。

在上述步骤102中，用于生成噪音模型的背景音的记录时间应当与上述客户端设备语音信号的记录时间相对应。具体而言，如果客户端设备上传的语音文件上带有时间戳，且边缘节点可以一直记录自身周围的背景音，则边缘节点在收到客户端设备上传的语音文件后，会首先根据语音文件对应的时间戳找到该时间戳所指示时间对应的背景音，再根据该背景音生成噪音模型。或者，如果客户端设备上传的语音文件上没有时间戳，但是边缘节点可以一直记录自身周围的背景音，则边缘节点会在收到客户端上传的语音信号后，根据接收到语音文件的时间找到与该时间对应的背景音，再根据该背景音生成噪音模型。又或者，边缘节点会在收到客户端上传的语音文件后才开始记录自身周围的背景音，然后根据自身记录的附近的环境噪音生成噪音模型。具体而言，在本发明的实施例中可以根据多种方法生成噪音模型，例如，利用高斯混合模型（GMM）或非复矩阵因式分解（NMF）来生成。

在上述步骤103中，可以由边缘节点根据生成的噪音模型对来自客户端设备的语音文件进行降噪处理；也可以由位于云端的语音识别引擎进行降噪处理。

在上述步骤104中，可以由边缘节点对降噪后的语音信号进行语音识别得到识别后的文本；或者也可以由云端的语音识别引擎进行语音识别。

下面就结合具体的附图2至4详细说明本发明的一个实施例。在本实施例中，对语音文件的降噪处理、语音输入结束检测以及语音识别处理都在边缘节点处完成。

图2显示了根据本实施例的语音识别方法。如图2所示，该方法主要包括以下步骤：

步骤201：客户端设备记录来自用户的语音信号。

在本步骤中，在用户按下进行语音识别的按键后，客户端设备就开始记录来自用户的语音信号。

步骤202：客户端设备根据记录的语音信号生成语音文件。上述语音文件包括但不限于MP3、WAVE以及MFCC等文件。

更进一步，在本步骤中，客户端设备可以在生成的语音文件中添加时间戳，以指示语音文件对应的时间信息。

步骤203：客户端设备将生成的语音文件上传至为客户端设备提供服务的边缘节点。

步骤204：边缘节点记录自身所在位置附近的背景音。

如前所述，在本步骤中，边缘节点可以在接收到客户端设备上传的语音文件后开始记录自身所在位置附近的背景音。此外，边缘节点还可以持续记录自身所在位置附近的背景音。

步骤205：边缘节点根据记录的背景音生成噪音模型。

在生成噪音模型时，如果从客户端设备接收到的语音文件中有时间戳，则边缘节点会根据语音文件对应的时间戳找到该时间戳所指示时间对应的背景音，然后根据该背景音生成噪音模型；或者，如果客户端设备上传的语音文件上没有时间戳，则边缘节点会在收到客户端上传的语音信号后，根据接收到语音文件的时间找到与该时间对应的背景音，然后根据该背景音生成噪音模型；又或者边缘节点会在收到客户端上传的语音信号后开始记录背景音，并根据记录的背景音生成噪音模型。

具体而言，根据本发明的一个实施例只有当背景音的音量大于预先设置的音量门限时客户端设备才会记录自身周围的背景音；而在背景音的音量小于或等于该音量门限时，边缘节点可以不记录背景音而直接将自身周围的背景音设置为0。

步骤206：边缘节点根据生成的噪音模型对接收的语音文件进行降噪处理。

步骤207：边缘节点根据降噪处理后的语音文件，进行语音输入结束检测，确定用户在什么时刻结束语音输入。

具体而言，在本步骤中，边缘节点会将降噪处理后的语音文件在各个时刻上的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分。

步骤208：边缘节点对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本。

步骤209：边缘节点将识别后的文本上传至应用服务器。

本领域技术人员可以理解，由于客户端设备和边缘节点所处的位置不同，因此背景音的大小也可能会不同，为了减小不同位置上背景音的差异对降噪效果的影响，在上述方法的步骤205之前，即生成噪音模型之前，边缘节点还可以进一步进行背景音的传播损耗估计，并根据传播损耗估计结果对自身记录的背景音进行补偿，得到更为接近客户端设备处的背景音。

具体而言，在具体的实现中，可以根据声源的不同类型进行不同的处理。比如对于点声源，可以采用基于距离的方法，即边缘节点可以根据背景音的声源与客户端设备之间的距离以及背景音的声源与边缘节点之间的距离进行传播损耗估计，以对将边缘节点处记录的背景音进行补偿，得到更为接近客户端设备处的背景音。具体方法如下：

假设背景音的声源与客户端设备之间的距离为d1，背景音的声源与边缘节点之间的距离为d2。假设在边缘节点处接收到的来自客户端设备的信号为Y1，而边缘节点处接收到的来自背景音的声源的信号为Y2。则可以确定客户端设备接收的语音信号可以用如下的公式（1）来表示。其中，背景音的声源与边缘节点之间的距离d2可以预先设定（例如在音乐厅，播放音乐的喇叭和边缘节点之间的距离是固定且已知的）；而背景音的声源与客户端设备之间的距离d1可以通过GPS来确定。

\hat{x} = Y_{1} - Y_{2} \cdot \frac{d_{2}^{2}}{d_{1}^{2}} - - - (1)

此外，边缘节点还可以采用基于功率密度的方法，即根据从客户端设备接收的语音文件中背景音的功率密度以及自身记录的背景音的功率密度进行传播损耗估计，以对将边缘节点处记录的背景音进行补偿，得到更为接近客户端设备处的背景音。需要说明的是，这一方法适合于各种声源类型。具体方法如下：

首先，客户端设备确定所接收语音信号中背景音的功率密度P_UE，上述功率密度P_UE可以从客户端设备接收的语音信号中的语言停顿中得到；

客户端设备将确定的语音信号中背景音的功率密度P_UE上传给边缘节点；

边缘节点确定自身所记录背景音的功率密度P_eNB；以及

边缘节点通过比较语音信号中背景音的功率密度P_UE以及边缘节点自身所记录背景音的功率密度P_eNB确定传播损耗，对边缘节点自身所记录背景音进行补偿，得到更为接近客户端设备处的背景音。

图3显示了执行本实施例所述语音识别方法的客户端设备的内部结构。如图3所示，本实施例所述的客户端设备包括：

语音信号记录模块301，用于接收并记录来自客户端设备的语音信号；

语音文件生成模块302，用于对根据记录的语音信号生成语音文件；以及

上传模块303，用于将生成的语音文件上传至客户端设备所在的边缘节点。

如前所述，上述客户端设备还可以包括：时间戳模块，用于在生成的语音文件中添加时间戳，以指示语音文件对应的时间信息。

图4显示了执行本实施例的语音识别方法的边缘节点的内部结构。如图4所示，本实施例所述的边缘节点包括：

背景音记录模块401，用于记录自身所在位置附近的背景音；

如前所述，背景音记录模块401可以在接收到客户端设备上传的语音文件后开始记录自身所在位置附近的背景音；还可以持续记录自身所在位置附近的背景音；

噪音模型生成模块402，用于根据记录的背景音生成噪音模型；

降噪模块403，用于根据生成的噪音模型对接收的语音文件进行降噪处理；

语音输入结束检测模块404，用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分；

语音识别模块405，用于对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本；以及

文本上传模块406，用于将识别后的文本上传至应用服务器。

其中，语音识别模块404可以包括：语音库、语言库以及搜索和解码单元，其中语音库用于存储各种不同类型声音，针对同一文本内容的发音；语言库用于存储各种不同语言的词汇信息；搜索和解码单元用于根据语音库和语言库，对所接收的语音文件进行搜索和解码得到识别后的文本。

本领域技术人员可以理解，由于客户端设备和边缘节点所处的位置不同，因此背景音的大小也可能会不同，为了减小上述差异对降噪效果的影响，上述边缘节点还可以进一步包括：传播损耗估计模块，用于进行背景音的传播损耗估计，并根据传播损耗估计结果对自身记录的背景音进行补偿，得到更为接近客户端设备处的背景音。具体方法可以用如前所述的基于距离的方法或基于功率密度的方法。

下面再结合具体的附图5至7详细说明本发明的另一个实施例。在本实施例中，对语音文件的降噪处理和语音输入结束检测在边缘节点处完成；而语音识别处理在云端的语音识别引擎处完成。

图5显示了根据本实施例的语音识别方法。如图5所示，该方法主要包括以下步骤：

步骤201：客户端设备接收并记录来自用户的语音信号。

步骤202：客户端设备根据记录的语音信号生成语音文件。

步骤203：客户端设备将生成的语音文件上传至客户端设备所在的边缘节点。

步骤204：边缘节点记录自身所在位置附近的背景音。

步骤205：边缘节点根据记录的背景音生成噪音模型。

在本发明的实施例中，相同的步骤标号代表相同的内容，因此以上步骤201至207和之前实施例中描述的步骤201至207相同，在此就不再赘述了。

步骤501：边缘节点将语音输入结束检测后的语音文件上传至语音识别引擎。

步骤502：语音识别引擎对语音文件进行语音识别得到识别后的文本。

具体而言，在本步骤中，语音识别引擎可以对降噪后的语音文件进行语音识别。

步骤503：语音识别引擎将识别后的文本上传至应用服务器。

此外，如前所述，在上述步骤205之前，即生成噪音模型之前，边缘节点还可以进一步进行背景音的传播损耗估计，并根据传播损耗估计结果对自身记录的背景音进行补偿，得到更为接近客户端设备处的背景音。具体而言，边缘节点可以通过基于距离的方法或基于功率密度的方法对背景音进行传播损耗估计。

在本实施例中，客户端设备的内部结构也将如图3所示。也即在本实施例中，客户端设备也将包括语音信号记录模块301、特征提取模块302以及上传模块303。此外，客户端设备还可以包括时间戳模块。

图6显示了执行本实施例的语音识别方法的边缘节点的内部结构。如图6所示，本实施例所述的边缘节点包括：背景音记录模块401、噪音模型生成模块402、降噪模块403、语音输入结束检测模块404以及文件上传模块601，用于将语音输入结束检测后的语音文件上传至语音识别引擎。

在本发明的实施例中，相同的模块标号代表相同的内容，因此以上模块401至404和之前实施例中描述的模块401至404相同，在此就不再赘述了。

上述边缘节点还可以进一步包括：传播损耗估计模块，用于进行背景音的传播损耗估计，并根据传播损耗估计结果对自身记录的背景音进行补偿，得到更为接近客户端设备处的背景音。具体方法可以用如前所述的基于距离的方法或基于功率密度的方法。

图7显示了执行本实施例的语音识别方法的语音识别引擎的内部结构。如图7所示，本实施例所述的语音识别引擎包括：语音库701、语言库702以及搜索和解码单元703，其中，语音库701用于存储各种不同类型声音，针对同一文本内容的发音；语言库702用于存储各种不同语言的词汇信息；搜索和解码单元703用于根据语音库和语言库，对所接收的语音文件进行搜索和解码得到识别后的文本。语音识别引擎还包括：文本上传模块406，用于将识别后的文本上传至应用服务器。

作为上述实施例的变形，在上述实施例中，边缘节点在收到客户端设备上传的语音文件后也可以先不进行步骤205至206的降噪处理，而是把接收到的语音文件进行语音输入结束检测后直接上传至云端的语音识别引擎进行语音识别处理。如果语音识别引擎判断语音识别的识别率大于预先设置的识别门限，则语音识别引擎可以直接将识别后的文本上传给应用服务器。而如果语音识别引擎判断语音识别的识别率小于或等于预先设置的识别门限，则语音识别引擎将向为该客户端设备提供服务的边缘节点发送降噪请求。在这种情况下，边缘节点在收到语音识别引擎的降噪请求后将执行上述步骤205至206进行降噪处理，并在再次执行语音输入结束检测处理后，将处理后的语音文件重新上传到语音识别引擎，由语音识别引擎再次进行语音识别，以提高语音识别的识别率。

下面就结合具体的附图8至10详细说明本发明的又一个实施例。在本实施例中，对语音文件的降噪处理在边缘节点处完成，而语音输入结束检测以及语音识别处理将在云端的语音识别引擎处完成。

图8显示了根据本实施例的语音识别方法。如图8所示，该方法主要包括以下步骤：

步骤201：客户端设备接收并记录来自用户的语音信号。

步骤202：客户端设备根据记录的语音信号生成语音文件。

步骤204：边缘节点记录自身所在位置附近的背景音。

步骤205：边缘节点根据记录的背景音生成噪音模型。

在本发明的实施例中，相同的步骤标号代表相同的内容，因此以上步骤201至206和之前实施例中描述的步骤201至206相同，在此就不再赘述了。

步骤801：边缘节点将降噪处理后的语音文件上传至语音识别引擎。

步骤802：语音识别引擎根据降噪处理后的语音文件，进行语音输入结束检测，确定用户在什么时刻结束语音输入。

具体而言，在本步骤中，语音识别引擎会将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分。

步骤503：语音识别引擎将识别后的文本上传至应用服务器。

图9显示了执行本实施例的语音识别方法的边缘节点的内部结构。如图9所示，本实施例所述的边缘节点包括：背景音记录模块401、噪音模型生成模块402、降噪模块403、以及第二文件上传模块901，用于将降噪后的语音文件上传至语音识别引擎。

在本发明的实施例中，相同的模块标号代表相同的内容，因此以上模块401至403和之前实施例中描述的模块401至403相同，在此就不再赘述了。

图10显示了执行本实施例的语音识别方法的语音识别引擎的内部结构。如图10所示，本实施例所述的语音识别引擎包括：语音输入结束检测模块404、语音库701、语言库702、搜索和解码单元703以及文本上传模块406。以上模块404、406以及模块701至703和之前实施例中描述的模块404、406以及模块701至703相同，在此就不再赘述了。

作为上述实施例的变形，在上述实施例中，边缘节点在收到客户端设备上传的语音文件后也可以先不进行步骤205至206的降噪处理，而是把接收到的语音文件直接上传至云端的语音识别引擎进行语音输入结束检测以及语音识别处理。如果语音识别引擎判断语音识别的识别率大于预先设置的识别门限，则语音识别引擎可以直接将识别后的文本上传给应用服务器。而如果语音识别引擎判断语音识别的识别率小于或等于预先设置的识别门限，则语音识别引擎将向为该客户端设备提供服务的边缘节点发送降噪请求。在这种情况下，边缘节点在收到语音识别引擎的降噪请求后将执行上述步骤205至206进行降噪处理，并将处理后的语音文件重新上传到语音识别引擎，由语音识别引擎再次进行语音输入结束检测以及语音识别，以提高语音识别的识别率。

下面就结合具体的附图11至14详细说明本发明的又一个实施例。在本实施例中，对语音文件的降噪处理、语音输入结束检测以及语音识别处理均将在云端的语音识别引擎处完成。

本实施例中，除了客户端设备、边缘节点以及语音识别引擎之外，语音识别系统还将包括控制服务器，用于接收或者/和管理边缘节点记录的背景音，并根据客户端设备所在的位置以及来自客户端设备的语音信号记录的时间向语音识别引擎提供相应的背景音。

图11显示了根据本实施例的语音识别方法。如图11所示，该方法主要包括以下步骤：

步骤201：客户端设备接收并记录来自用户的语音信号。

步骤202：客户端设备根据记录的语音信号生成语音文件。

步骤1101：客户端设备将生成的语音文件通过客户端设备所在的边缘节点上传至语音识别引擎。

步骤1102：语音识别引擎对所接收语音文件进行语音输入结束检测，确定用户在什么时刻结束语音输入。具体而言，在本步骤中，语音识别引擎会将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分。

步骤1103：语音识别引擎对语音文件进行语音识别得到识别后的文本。

步骤1104：如果语音识别引擎判断语音识别的识别率大于预先设置的识别门限，则执行步骤503，即语音识别引擎将识别后的文本上传给应用服务器；如果语音识别引擎判断语音识别的识别率小于或等于预先设置的识别门限，则执行步骤1105；

步骤1105：语音识别引擎将向控制服务器发送背景音记录上传请求，该背景音记录上传请求中携带客户端设备的位置信息。

步骤1106：控制服务器在收到来自语音识别引擎的背景音记录上传请求后，根据背景音记录上传请求中携带的客户端设备的位置信息确定为该客户端设备服务的边缘节点，并向该边缘节点转发背景音记录上传请求。

步骤1107：边缘节点在收到来自控制服务器的背景音记录上传请求后，将自身记录的背景音通过控制服务器上传至语音识别引擎。

步骤1108：语音识别引擎根据接收的背景音生成噪音模型。

步骤1109：语音识别引擎根据生成的噪音模型对接收的语音文件进行降噪处理。

步骤502：语音识别引擎对语音输入结束检测后的语音文件进行语音识别得到识别后的文本。

步骤503：语音识别引擎将识别后的文本上传至应用服务器。

此外，如前所述，在上述步骤1107之前，即在上传所记录的背景音之前，边缘节点还可以进一步进行背景音的传播损耗估计，并根据传播损耗估计结果对自身记录的背景音进行补偿，得到更为接近客户端设备处的背景音。具体而言，边缘节点可以通过基于距离的方法或基于功率密度的方法对背景音进行传播损耗估计。

在本实施例中，客户端设备的内部结构也将如图3所示。也即在本实施例中，客户端设备也将包括语音信号记录模块301、特征提取模块302以及上传模块303。客户端设备还可以包括时间戳模块。

图12显示了执行本实施例的语音识别方法的边缘节点的内部结构。如图12所示，本实施例所述的边缘节点包括：背景音记录模块401以及请求接收模块1201，用于接收来自控制服务器的背景音记录上传请求；和背景音上传模块1202，用于将自身记录的背景音上传至控制服务器。如前所述，上述边缘节点还可以进一步包括：传播损耗估计模块。

图13显示了执行本实施例的语音识别方法的控制服务器的内部结构，如图13所示，本实施例所述的控制服务器包括：

上传请求接收模块1301，用于接收来自语音识别引擎的背景音记录上传请求；

匹配模块1302，用于根据背景音记录上传请求中携带的客户端设备的位置信息确定为该客户端设备服务的边缘节点；

转发模块1303，用于向该边缘节点转发背景音记录上传请求；并将该边缘节点上传的背景音转发至语音识别引擎。

图14显示了执行本实施例的语音识别方法的语音识别引擎的内部结构。如图14所示，本实施例所述的语音识别引擎包括：

控制模块1401，用于在收到语音文件后判断是否需要进行降噪处理，如果不需要降噪处理（例如第一次对该语音文件进行语音识别），则触发语音输入结束检测模块404对语音文本进行语音输入结束检测；而如果需要降噪处理（例如之前语音识别的识别率较低），则控制请求模块1402向控制服务器发送背景音记录上传请求；

请求模块1402，用于向控制服务器发送背景音记录上传请求；

背景音接收模块1403，用于从控制服务器接收服务客户端设备的边缘节点记录的背景音；

噪音模型生成模块402，用于根据所接收的背景音生成噪音模型；

降噪模块403，用于根据生成的噪音模型对接收的语音文件进行降噪处理，并触发语音输入结束检测模块404对语音文本进行语音输入结束检测。

语音识别引擎还包括：语音库701、语言库702、搜索和解码单元703以及文本上传模块406。搜索和解码单元703用于根据语音库和语言库，对语音输入结束检测后的语音文件进行搜索和解码得到识别后的文本；文本上传模块406用于将识别后的文本上传至应用服务器。

从上述实施例可以看出，在本发明的实施例中，用于干扰消除的背景音是由客户端设备所在位置附近的边缘节点捕获并记录的，能及时并且准确地反映出客户端设备所在位置附近的环境噪音或外部声音情况，因此，以此背景音声称噪音模型并进行降噪可以获得非常好的降噪效果，从而可以大大提高语音识别的识别率。此外，除了上述方法，本发明的实施例还可以进一步对所记录的背景音进行传播损耗估计，以补偿客户端设备处的背景音和边缘节点处背景音的不同，从而进一步提高降噪的效果，进而提高语音识别的识别率。

更进一步，本发明实施例提出的语音识别方法以及装置对于各种类型的环境噪音或者外部声音都有很好的降噪效果，可以应用到各种环境中。

而且，本发明实施例提出的语音识别方法以及装置对客户端的要求并不高，因此容易推广。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

记录客户端设备所在位置附近的背景音，并根据记录的背景音生成噪音模型；

根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理；以及

对降噪后的语音文件进行语音识别得到识别后的文本。

2.根据权利要求1所述的方法，其特征在于，所述记录客户端设备所在位置附近的背景音包括：服务所述客户端设备的边缘节点记录自身周围的背景音。

3.根据权利要求1所述的方法，其特征在于，所述语音文件包含时间戳；

所述根据记录的背景音生成噪音模型包括：所述边缘节点根据所述语音文件对应的时间戳查找所述时间戳所指示时间对应的背景音，根据所述背景音生成噪音模型。

4.根据权利要求1所述的方法，其特征在于，所述根据记录的背景音生成噪音模型包括：边缘节点根据接收到所述语音文件的时间查找与所述时间对应的背景音，并根据该背景音生成噪音模型。

5.根据权利要求1所述的方法，其特征在于，所述根据记录的背景音生成噪音模型包括：边缘节点在收到客户端上传的语音信号后开始记录背景音，并根据记录的背景音生成噪音模型。

6.根据权利要求1所述的方法，其特征在于，所述根据记录的背景音生成噪音模型包括：

语音识别引擎向控制服务器发送背景音记录上传请求；以及

在收到控制服务器上传的背景音后，语音识别引擎根据控制服务器上传的背景音生成噪音模型。

7.根据权利要求6所述的方法，其特征在于，所述根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理包括：所述语音识别引擎根据生成的噪音模型对从边缘节点接收的语音文件进行降噪处理，并对降噪处理后的语音文件进行语音输入结束检测；

所述对降噪后的语音文件进行语音识别得到识别后的文本包括：所述语音识别引擎对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本，并将识别后的文本上传至应用服务器。

8.根据权利要求1所述的方法，其特征在于，所述根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理包括：所述边缘节点根据生成的噪音模型对语音文件进行降噪处理，并对降噪处理后的语音文件进行语音输入结束检测；

所述对降噪后的语音文件进行语音识别得到识别后的文本包括：边缘节点对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本，并将识别后的文本上传至应用服务器。

9.根据权利要求1所述的方法，其特征在于，所述根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理包括：所述边缘节点根据生成的噪音模型对语音文件进行降噪处理，对降噪处理后的语音文件进行语音输入结束检测，并将语音输入结束检测处理后的语音文件上传至语音识别引擎；

所述对降噪后的语音文件进行语音识别得到识别后的文本包括：语音识别引擎对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本，并将识别后的文本上传至应用服务器。

10.根据权利要求1所述的方法，其特征在于，所述根据生成的噪音模型对来自所述客户端设备的语音文件进行降噪处理包括：所述边缘节点根据生成的噪音模型对语音文件进行降噪处理，并将降噪处理后的语音文件上传至语音识别引擎；

所述对降噪后的语音文件进行语音识别得到识别后的文本包括：语音识别引擎对降噪处理后的语音文件进行语音输入结束检测，对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本，并将识别后的文本上传至应用服务器。

11.根据权利要求1所述的方法，其特征在于，在根据记录的背景音生成噪音模型之前，进一步包括：对记录的背景音进行传播损耗估计，并根据传播损耗估计结果对自身记录的背景音进行补偿。

12.一种边缘节点，其特征在于，包括：

背景音记录模块（401），用于记录自身所在位置附近的背景音。

13.根据权利要求12所述的边缘节点，其特征在于，进一步包括：

请求接收模块（1201），用于接收来自控制服务器的背景音记录上传请求；以及

背景音上传模块（1202），用于将自身记录的背景音上传至控制服务器。

14.根据权利要求12所述的边缘节点，其特征在于，进一步包括：

噪音模型生成模块（402），用于根据记录的背景音生成噪音模型；

降噪模块（403），用于根据生成的噪音模型对接收的语音文件进行降噪处理；

语音输入结束检测模块（404），用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分；

语音识别模块（405），用于对语音输入结束检测处理后的语音文件进行语音识别得到识别后的文本；以及

文本上传模块（406），用于将识别后的文本上传至应用服务器。

15.根据权利要求12所述的边缘节点，其特征在于，进一步包括：

语音输入结束检测模块（404），用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分；以及

文件上传模块（601），用于将语音输入结束检测后的语音文件上传至语音识别引擎。

16.根据权利要求12所述的边缘节点，其特征在于，进一步包括：

降噪模块（403），用于根据生成的噪音模型对接收的语音文件进行降噪处理；以及

第二文件上传模块（901），用于将降噪后的语音文件上传至语音识别引擎。

17.根据权利要求14、15或16所述的边缘节点，其特征在于，进一步包括：

传播损耗估计模块，用于对所记录的背景音进行传播损耗估计，并根据传播损耗估计结果对所记录的背景音进行补偿。

18.一种语音识别引擎，其特征在于，包括：

语音库（701），用于存储各种不同类型声音，针对同一文本内容的发音；

语言库（702），用于存储各种不同语言的词汇信息；

搜索和解码单元（703），用于根据语音库和语言库，对所接收的语音文件进行搜索和解码得到识别后的文本；以及

19.根据权利要求18所述的语音识别引擎，其特征在于，进一步包括：

语音输入结束检测模块（404），用于将降噪处理后的语音文件在各个时刻的幅值与预先设置的静音门限进行比较，如果从某个时刻开始，各个时刻的幅值小于预先设置的静音门限，则从语音文件中删除这个时刻之后的部分。

20.根据权利要求19所述的语音识别引擎，其特征在于进一步包括：

控制模块（1401），用于在收到语音文件后判断是否需要进行降噪处理，如果不需要降噪处理，则触发语音输入结束检测模块（404）对语音文本进行语音输入结束检测；而如果需要降噪处理，则控制请求模块（1402）向控制服务器发送背景音记录上传请求；

请求模块（1402），用于向控制服务器发送背景音记录上传请求；

背景音接收模块（1403），用于从控制服务器接收服务客户端设备的边缘节点记录的背景音；

噪音模型生成模块（402），用于根据所接收的背景音生成噪音模型；以及

降噪模块（403），用于根据生成的噪音模型对接收的语音文件进行降噪处理，并触发语音输入结束检测模块（404）对语音文本进行语音输入结束检测。

21.一种控制服务器，其特征在于，包括：

上传请求接收模块（1301），用于接收来自语音识别引擎的背景音记录上传请求；

匹配模块（1302），用于根据背景音记录上传请求中携带的客户端设备的位置信息确定为该客户端设备服务的边缘节点；以及

转发模块（1303），用于向该边缘节点转发背景音记录上传请求；并将该边缘节点上传的背景音转发至语音识别引擎。