CN111899725A

CN111899725A - 语音分析方法、装置、电子设备及计算机存储介质

Info

Publication number: CN111899725A
Application number: CN202010675859.8A
Authority: CN
Inventors: 李烨
Original assignee: Wuhan Qixiu Network Technology Co Ltd
Current assignee: Wuhan Qixiu Network Technology Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-11-06

Abstract

本发明提供一种语音分析方法、装置、电子设备及计算机存储介质。该方法包括：获取待分析的语音数据，其中，所述语音数据为实时获取的语音数据或历史的语音数据；分帧处理所述待分析的语音数据，得到多个音频帧；若所述多个音频帧中的第一音频帧包括噪音帧，则滤除所述第一音频帧，并得到更新后的多个音频帧；分析所述更新后的多个音频帧。本发明的方法，提高了语音分析的准确率。

Description

语音分析方法、装置、电子设备及计算机存储介质

技术领域

本发明涉及数据分析领域，特别涉及一种语音分析方法、装置、电子设备及计算机存储介质。

背景技术

语音分析是指通过语音识别等核心技术将非结构化的语音信息转换为结构化的索引，实现对海量录音文件、音频文件的知识挖掘和快速检索。

现有技术中，对离线语音文件进行语音分析是直接将整个录音文件传送至语音分析模块，如语音识别、声纹识别等。然而，离线语音分析场景下的录音文件中通常含有大段噪音，该方式下，会对语音分析模块的准确率和处理性能有较大影响。

综上所述，现有技术中的语音分析方式的效率及准确率较低。

发明内容

本发明提供一种语音分析方法、装置、电子设备及计算机存储介质，用以解决现有技术中的语音分析方式的效率及准确率较低问题。

一方面，本发明提供一种语音分析方法，包括：

获取待分析的语音数据，其中，所述语音数据为实时获取的语音数据或历史的语音数据；

分帧处理所述待分析的语音数据，得到多个音频帧；

若所述多个音频帧中的第一音频帧包括噪音帧，则滤除所述第一音频帧，并得到更新后的多个音频帧；

分析所述更新后的多个音频帧。

其中一项实施例中，所述分帧处理所述待分析的语音数据，得到多个音频帧包括：

分帧处理所述待分析的语音数据，并对所述分帧处理后的语音数据进行傅里叶变换，得到所述多个音频帧。

其中一项实施例中，所述若所述多个音频帧中的第一音频帧包括噪音帧，则滤除所述第一音频帧，并得到更新后的多个音频帧包括：

获取滤除所述第一音频帧的多个音频帧，并检测其中任意一个音频帧是否为包含语音的音频帧；

根据检测结果滤除不包含语音的音频帧，得到所述更新后的多个音频帧。

其中一项实施例中，所述分析所述更新后的多个音频帧包括：

将所述待分析的语音数据划分为至少一个有效音频片段，对所述至少一个有效音频片段并行进行语音分析，其中所述有效音频片段包括一个包含语音的音频帧或连续多个包含语音的音频帧；或

在对所述语音数据中包含语音的音频帧的检测过程中，对检测到的包含语音的音频帧进行语音分析。

其中一项实施例中，所述包含语音的音频帧为标记次数不小于预设阈值的音频帧；

其中，通过下列方式对音频帧进行标记：

针对所述语音数据中任意一个音频帧，将所述音频帧的长时谱能量差异LTSD与判决门限进行比较，若所述音频帧的LTSD大于判决门限，则将所述音频帧、位于所述音频帧之前的N1个音频帧以及位于所述音频帧之后的N2个音频帧进行标记，其中N1、N2为正整数。

其中一项实施例中，所述方法还包括：

对所述语音数据中的音频帧进行一次标记后，判断所述音频帧的标记次数是否不小于预设阈值；或

完成所述语音数据中的所有音频帧的标记后，判断所述语音数据中每个音频帧的标记次数是否不小于预设阈值。

其中一项实施例中，在所述对所述语音数据中的音频帧进行一次标记后，判断所述音频帧的标记次数是否不小于预设阈值之后，还包括：

若所述音频帧的标记次数小于预设阈值，则根据所述音频帧以及所述音频帧之前的N1-1个音频帧的频带值，对所述判决门限进行更新。

另一方面，本申请提供一种语音识别的装置，该装置包括：

获取模块，用于获取待分析的语音数据，其中，所述语音数据为实时获取的语音数据或历史的语音数据；

处理模块，用于分帧处理所述待分析的语音数据，得到多个音频帧；

更新模块，用于若所述多个音频帧中的第一音频帧包括噪音帧，则滤除所述第一音频帧，并得到更新后的多个音频帧；

分析模块，用于分析所述更新后的多个音频帧。

另一方面，本申请提供一种电子设备，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行如上述第一方面所述方法的步骤。

另一方面，本申请一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如上述第一方面所述的方法。

由于本发明实施例提供的语音分析方法，对待分析的语音数据进行分帧处理后，则可得到多个音频帧，通过对音频帧的检测将音频帧划分为滤除噪音帧的音频帧，因此在对音频帧进行分析的时候不用再对包含噪音帧的音频帧进行分析，提高了语音分析的效率；此外，本发明实施例中仅对不包含噪音帧的音频帧进行语音分析，提高了语音分析的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请的一个实施例提供的语音分析方法的流程示意图。

图2为本申请的一个实施例提供的语音分析装置的示意图。

图3为本申请的一个实施例提供的电子设备的示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定。其中，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面对本发明实施例的设计思想进行简要介绍：

离线语音分析场景下录音文件中一般都含有大段静音或者是噪音，这种情况下影响语音分析模块的准确率及系统处理性能问题。

鉴于此，本发明实施例提出了一种适用于离线语音分析场景下的端点检测方法，该方法基于LTSD(Long-Term Spectral Divergence，长时谱能量差异)特征，将含有大段静音的录音文件划分成多个有效语音片段后再传送至语音分析模块，将原来的单录音文件串行处理模式改变为多音频片段并行处理模式，有效的提升了系统的整体性能。同时，自适应更新判决门限的方式能够适应多种噪声的变化，在复杂噪声背景的条件下具有较强的鲁棒性。

请参见图1，本申请提供一种语音分析方法，包括：

S101，获取待分析的语音数据，其中，所述语音数据为实时获取的语音数据或历史的语音数据。

在本发明实施例中，包含语音的音频帧指包含有效语音的音频帧，例如一段关于演讲的录音文件，有效语音则指有关演讲的语音，不包含语音的音频帧则指不包含有效语音的音频帧，例如静音或噪音等。

S102，分帧处理所述待分析的语音数据，得到多个音频帧。

语音属于准稳态信号，即短时平稳。这个短时长一般为10-30ms，因此在进行语音信号处理时，为减少语音信号整体的非稳态、时变的影响，从而对信号进行分帧处理。

S103，若所述多个音频帧中的第一音频帧包括噪音帧，则滤除所述第一音频帧，并得到更新后的多个音频帧。

该噪音帧指的是噪音在该待分析的语音数据中对应的帧。该第一音频帧指的是该多个音频帧中的任意一个音频帧。

S104，分析所述更新后的多个音频帧。

对该待分析的语音数据进行分帧处理后，仅对语音数据中不包括噪音帧的音频帧进行语音分析，对于包括噪音帧的音频帧进行了滤除，需要再进行语音分析，提高了语音分析的效率。此外，本发明实施例中仅对包含有效语音，即滤除了噪音帧的音频帧进行语音分析，提高了语音分析的准确率。

在本发明的一个实施例中，S102包括：

对包含语音的音频帧进行语音分析时，主要包括以下两种方式：

方式一、端点检测完成后，对待分析的语音数据进行划分，划分成多个音频片段后再推送至语音分析模块语音分析。

具体的，将语音数据划分为至少一个有效音频片段，然后对划分得到的至少一个有效音频片段并行进行语音分析。

其中，有效音频片段可以仅包括一个包含语音的音频帧，也可以包括连续多个包含语音的音频帧，也就是说有效音频片段中不包括不包含语音的音频帧。

在本发明实施例中，根据标记次数检测音频帧是否为包含语音的音频帧时，具体实施方式可分为以下两种：

实施方式一、

对语音信号中的音频帧进行一次标记后，则判断音频帧的标记次数是否小于预设阈值。

具体的，假设N＝50，L＝5，当前帧为第51帧，将当前帧作为目标帧，计算第51帧音频帧的LTSD，并判断LTSD是否大于当前的判决门限，如果是，则将第46至第56帧进行标记；判断第51帧的标记次数是否达到5次；如果是，则确定目标帧为包含语音的音频帧，否则，则确定目标帧为不包含语音的音频帧。

进一步，将当前帧的下一帧作为目标帧，也就是计算第52帧音频帧的LTSD，并判断LTSD是否大于当前的判决门限，如果是，则将第47至第57帧进行标记，判断第52帧的标记次数是否达到5次；如果是，则确定目标帧为包含语音的音频帧，否则，则确定目标帧为不包含语音的音频帧。进一步再将第53帧作为目标帧，计算第53帧的LTSD，并判断LTSD是否大于当前的判决门限，等。

其中，LTSD的计算公式为：

其中，Eh(k)表示第h次的噪声估计值，表示第i帧处的L阶长时谱能量差异，表示第i帧处的L阶第k个频带的长时谱包络，计算公式为：

在一种可选的实施方式中，若确定目标帧为不包含语音的音频帧，则可对噪声估计值以及判决门限进行更新。

请参见图2，本申请还提供一种语音识别的装置10，

获取模块11，用于获取待分析的语音数据，其中，所述语音数据为实时获取的语音数据或历史的语音数据。

处理模块12，用于分帧处理所述待分析的语音数据，得到多个音频帧。

该处理模块12具体用于分帧处理所述待分析的语音数据，并对所述分帧处理后的语音数据进行傅里叶变换，得到所述多个音频帧。

更新模块13，用于若所述多个音频帧中的第一音频帧包括噪音帧，则滤除所述第一音频帧，并得到更新后的多个音频帧。

该更新模块13具体用于获取滤除所述第一音频帧的多个音频帧，并检测其中任意一个音频帧是否为包含语音的音频帧；根据检测结果滤除不包含语音的音频帧，得到所述更新后的多个音频帧。

分析模块14，用于分析所述更新后的多个音频帧。

该分析模块14将所述待分析的语音数据划分为至少一个有效音频片段，对所述至少一个有效音频片段并行进行语音分析，其中所述有效音频片段包括一个包含语音的音频帧或连续多个包含语音的音频帧；或在对所述语音数据中包含语音的音频帧的检测过程中，对检测到的包含语音的音频帧进行语音分析。

所述包含语音的音频帧为标记次数不小于预设阈值的音频帧；其中，通过下列方式对音频帧进行标记：针对所述语音数据中任意一个音频帧，将所述音频帧的长时谱能量差异LTSD与判决门限进行比较，若所述音频帧的LTSD大于判决门限，则将所述音频帧、位于所述音频帧之前的N1个音频帧以及位于所述音频帧之后的N2个音频帧进行标记，其中N1、N2为正整数。

所述处理模块12还用于对所述语音数据中的音频帧进行一次标记后，判断所述音频帧的标记次数是否不小于预设阈值；或完成所述语音数据中的所有音频帧的标记后，判断所述语音数据中每个音频帧的标记次数是否不小于预设阈值。

所述处理模块12还用于若所述音频帧的标记次数小于预设阈值，则根据所述音频帧以及所述音频帧之前的N1-1个音频帧的频带值，对所述判决门限进行更新。

请参见图3，本发明还提供一种计算机设备20，包括存储器21，处理器22和收发器23，该存储器21用于存储指令，该收发器23用于和其他设备通信，该处理器22用于执行该存储器21中存储的指令，以使该计算机设备执行如上任一项该的语音分析方法。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，当该指令被执行时，使得计算机执行指令被处理器执行时用于实现如上任一项实施例提供的该城轨数据处理方法。本发明还提供一种另一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，当该指令被执行时，使得计算机执行如上任一项实施例提供的语音分析方法。

需要说明的是，上述计算机可读存储介质可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器。也可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所描述的方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音分析方法，其特征在于，该方法包括：

分帧处理所述待分析的语音数据，得到多个音频帧；

分析所述更新后的多个音频帧。

2.如权利要求1所述的方法，其特征在于，所述分帧处理所述待分析的语音数据，得到多个音频帧包括：

3.如权利要求1所述的方法，其特征在于，所述若所述多个音频帧中的第一音频帧包括噪音帧，则滤除所述第一音频帧，并得到更新后的多个音频帧包括：

4.如权利要求3所述的方法，其特征在于，所述分析所述更新后的多个音频帧包括：

5.如权利要求3所述的方法，其特征在于，所述包含语音的音频帧为标记次数不小于预设阈值的音频帧；

其中，通过下列方式对音频帧进行标记：

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

7.如权利要求5所述的方法，其特征在于，在所述对所述语音数据中的音频帧进行一次标记后，判断所述音频帧的标记次数是否不小于预设阈值之后，还包括：

8.一种语音识别的装置，其特征在于，该装置包括：

分析模块，用于分析所述更新后的多个音频帧。

9.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行如权利要求1～7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1～7中任一项所述的方法。