CN111292753A

CN111292753A - 一种离线语音识别方法、装置和设备

Info

Publication number: CN111292753A
Application number: CN202010129483.0A
Authority: CN
Inventors: 陈昊亮; 许敏强
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-16

Abstract

本申请公开了一种离线语音识别方法、装置和设备，包括：响应于离线语音识别请求，将接收到的语音数据进行预置帧长的语音分帧处理，得到若干帧待处理语音数据；将若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据；将匹配语音数据转换为文本数据，将文本数据按语音分帧顺序依次显示。本申请中提供的离线语音识别方法，不需要依靠与本地终端在线连接的服务器来进行语音识别，能够在离线情况下将说话人的语音转换问文本进行显示，弥补了在线语音识别方式的不足，解决现有的在线语音识别方式受限于网络覆盖率和终端的网络稳定性，可靠性较差的技术问题。

Description

一种离线语音识别方法、装置和设备

技术领域

本申请涉及语音处理技术领域，尤其涉及一种离线语音识别方法、装置和设备。

背景技术

随着语音识别技术的推广，将语音转换成文本已经成为一种广受人们欢迎的自动语音识别技术。现有的移动终端或本地终端上往往安装有语音转文本的软件，，在现有的移动终端或本地终端上进行语音识别通常是在线识别，通过连接的服务器来进行在线语音识别，将说话人的语音数据转换为文本进行显示，但是在线进行语音转文本的语音识别方式受限于网络覆盖率和终端的网络稳定性，可靠性较差。因此，提供离线语音识别方式来弥补在线语音识别方式的不足，是本领域技术人员亟待解决的技术问题。

发明内容

本申请提供了一种离线语音识别方法、装置和设备，用于弥补在线语音识别方式的不足，解决现有的在线语音识别方式受限于网络覆盖率和终端的网络稳定性，可靠性较差的技术问题。

有鉴于此，本申请第一方面提供了一种离线语音识别方法，包括：

响应于离线语音识别请求，将接收到的语音数据进行预置帧长的语音分帧处理，得到若干帧待处理语音数据；

将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据；

将所述匹配语音数据转换为文本数据，将所述文本数据按语音分帧顺序依次显示。

可选地，所述预置帧长为标准的两字词组发音时长。

可选地，所述将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据，之前还包括：

构建所述预置本地语音数据库；

将所述预置本地语音数据库的词组按预置规则进行分类；

提取各类词组的典型声纹特征。

可选地，所述将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据，包括：

提取所述若干帧语音数据的各帧的声纹特征；

计算所述各帧的声纹特征与所述预置本地语音数据库中的各典型声纹特征的余弦相似度，将余弦相似度最大的典型声纹特征对应的匹配语音数据进行输出。

本申请第二方面提供了一种离线语音识别装置，包括：

语音分帧单元，用于响应于离线语音识别请求，将接收到的语音数据进行预置帧长的语音分帧处理，得到若干帧待处理语音数据；

声纹比对单元，用于将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据；

显示单元，用于将所述匹配语音数据转换为文本数据，将所述文本数据按语音分帧顺序依次显示。

可选地，所述预置帧长为标准的两字词组发音时长。

可选地，还包括预处理单元，所述预处理单元用于：

构建所述预置本地语音数据库；

将所述预置本地语音数据库的词组按预置规则进行分类；

提取各类词组的典型声纹特征。

可选地，所述声纹比对单元具体用于：

提取所述若干帧语音数据的各帧的声纹特征；

本申请第三方面提供了一种离线语音识别方法设备，所述设备包括处理器和存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的离线语音识别方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一种所述的离线语音识别方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中提供了一种离线语音识别方法，包括：响应于离线语音识别请求，将接收到的语音数据进行预置帧长的语音分帧处理，得到若干帧待处理语音数据；将若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据；将匹配语音数据转换为文本数据，将文本数据按语音分帧顺序依次显示。本申请中提供的离线语音识别方法，不需要依靠与本地终端在线连接的服务器来进行语音识别，能够在离线情况下将说话人的语音转换问文本进行显示，弥补了在线语音识别方式的不足，解决现有的在线语音识别方式受限于网络覆盖率和终端的网络稳定性，可靠性较差的技术问题。

附图说明

图1为本申请实施例中提供的一种离线语音识别方法的一个流程示意图；

图2为本申请实施例中提供的一种离线语音识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供了一种离线语音识别方法的一个实施例，包括：

步骤101、响应于离线语音识别请求，将接收到的语音数据进行预置帧长的语音分帧处理，得到若干帧待处理语音数据。

需要说明的是，在本地终端获取到说话人语音数据时，若本地终端处于离线状态或网络较差状态，将生成离线语音识别请求，触发离线语音识别，此时本地终端的离线语音识别软件将响应于离线语音识别请求，将本地终端接收到的语音数据进行预置帧长的语音分帧处理，得到若干帧待处理语音数据。语音分帧可以将长语音分成多段短语音，便于处理，预置帧长可选为标准的两字词组发音时长。

步骤102、将若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据。

需要说明的是，预置本地语音数据库存储有语音数据和语音对应文本数据，将语音进行分帧之后，将各帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据。

在将若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据，之前先构建预置本地语音数据库，将预置本地语音数据库的词组按预置规则进行分类，提取各类词组的典型声纹特征。提取若干帧语音数据的各帧的声纹特征；计算各帧的声纹特征与所述预置本地语音数据库中的各典型声纹特征的余弦相似度，将余弦相似度最大的典型声纹特征对应的匹配语音数据进行输出。

步骤103、将匹配语音数据转换为文本数据，将文本数据按语音分帧顺序依次显示。

需要说明的是，在得到匹配语音数据之后，根据预置本地语音数据库的语音文本对应关系，将匹配语音数据转换为文本数据，按语音分帧顺序依次进行文本显示。

本申请实施例中提供的离线语音识别方法，不需要依靠与本地终端在线连接的服务器来进行语音识别，能够在离线情况下将说话人的语音转换问文本进行显示，弥补了在线语音识别方式的不足，解决现有的在线语音识别方式受限于网络覆盖率和终端的网络稳定性，可靠性较差的技术问题

为了便于理解，请参阅图2，本申请中提供了一种离线语音识别装置的实施例，包括：

语音分帧单元，用于响应于离线语音识别请求，将接收到的语音数据进行预置帧长的语音分帧处理，得到若干帧待处理语音数据。

声纹比对单元，用于将若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在预置本地语音数据库中的最接近的匹配语音数据。

显示单元，用于将匹配语音数据转换为文本数据，将文本数据按语音分帧顺序依次显示。

进一步地，预置帧长为标准的两字词组发音时长。

进一步地，还包括预处理单元，预处理单元用于：

构建预置本地语音数据库；

将预置本地语音数据库的词组按预置规则进行分类；

提取各类词组的典型声纹特征。

进一步地，声纹比对单元具体用于：

提取若干帧语音数据的各帧的声纹特征；

计算各帧的声纹特征与预置本地语音数据库中的各典型声纹特征的余弦相似度，将余弦相似度最大的典型声纹特征对应的匹配语音数据进行输出。

本申请中提供了一种离线语音识别方法设备的实施例，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述的离线语音识别方法实施例中的离线语音识别方法。

本申请中提供了一种计算机可读存储介质的实施例，计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述的离线语音识别方法实施例中的离线语音识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机系统(可以是个人计算机，服务器，或者网络系统等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种离线语音识别方法，其特征在于，包括：

2.根据权利要求1所述的离线语音识别方法，其特征在于，所述预置帧长为标准的两字词组发音时长。

3.根据权利要求2所述的离线语音识别方法，其特征在于，所述将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据，之前还包括：

构建所述预置本地语音数据库；

将所述预置本地语音数据库的词组按预置规则进行分类；

提取各类词组的典型声纹特征。

4.根据权利要求3所述的离线语音识别方法，其特征在于，所述将所述若干帧语音数据按帧与预置本地语音数据库进行声纹比对，输出各帧语音数据对应的在所述预置本地语音数据库中的最接近的匹配语音数据，包括：

提取所述若干帧语音数据的各帧的声纹特征；

5.一种离线语音识别装置，其特征在于，包括：

6.根据权利要求5所述的离线语音识别装置，其特征在于，所述预置帧长为标准的两字词组发音时长。

7.根据权利要求6所述的离线语音识别装置，其特征在于，还包括预处理单元，所述预处理单元用于：

构建所述预置本地语音数据库；

将所述预置本地语音数据库的词组按预置规则进行分类；

提取各类词组的典型声纹特征。

8.根据权利要求7所述的离线语音识别装置，其特征在于，所述声纹比对单元具体用于：

提取所述若干帧语音数据的各帧的声纹特征；

9.一种离线语音识别方法设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的离线语音识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的离线语音识别方法。