CN117765934A

CN117765934A - 语音识别方法、系统和存储介质

Info

Publication number: CN117765934A
Application number: CN202311639626.2A
Authority: CN
Inventors: 吴军; 刘忠亮; 张璐; 陶明
Original assignee: Shanghai Renyimen Technology Co ltd
Current assignee: Shanghai Renyimen Technology Co ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-26

Abstract

本公开提供了一种语音识别方法、系统和存储介质，涉及人机交互领域。该方法包括：对每个用户音频进行端点检测，得到每个用户音频对应的多段有效音频；提取多段有效音频的第一音频特征；将第一音频特征输入至声学模型，得到每一帧每个建模单元的概率；以及根据每一帧每个建模单元的概率，利用WFST搜索网络进行解码搜索，得到每个用户音频对应的文本信息。本公开提高了语音识别的准确性，进而提高了后续语音审核的准确性。另外，将各个步骤在GPU上运行，提高了语音识别系统的吞吐，降低了语音识别延迟，解决了语音审核及时性问题，同时降低了资源消耗。

Description

语音识别方法、系统和存储介质

技术领域

本公开涉及人机交互领域，尤其涉及一种语音识别方法、系统和存储介质。

背景技术

语音审核是保障社交平台内容质量和安全的重要技术，针对平台的语音进行人工或自动的审核过滤，能够实现有效过滤违规或违法的内容，保障平台内容安全，抵御企业违规风险，营造绿色语音社交环境。

语音识别在语音审核中扮演着重要的角色，作为语音审核的入口至关重要，语音识别系统负责将语音转换为文字，以便进行后续的内容审核和分析。它的准确率和性能直接影响语音审核的效果。

发明内容

本公开要解决的一个技术问题是，提供一种语音识别方法、系统和存储介质，能够提高语音识别的准确性，进而提高语音审核的准确性。

根据本公开一方面，提出一种语音识别方法，包括：对每个用户音频进行端点检测，得到每个用户音频对应的多段有效音频；提取多段有效音频的第一音频特征；将第一音频特征输入至声学模型，得到每一帧每个建模单元的概率；以及根据每一帧每个建模单元的概率，利用加权有限状态转换机WFST搜索网络进行解码搜索，得到每个用户音频对应的文本信息。

在一些实施例中，在图形处理器GPU并行对多个用户音频中每个用户音频进行端点检测，得到每个用户音频对应的多段有效音频；在GPU并行提取多段有效音频的第一音频特征；将第一音频特征输入至声学模型，利用GPU并行处理，得到每一帧每个建模单元的概率；以及在GPU，根据每一帧每个建模单元的概率，利用WFST搜索网络进行并行解码搜索，得到每个用户音频对应的文本信息。

在一些实施例中，对每个用户音频进行端点检测，得到多段有效音频包括：对所述每个用户音频进行第二音频特征提取；将每个用户音频对应的第二音频特征输入至神经网络模型进行端点检测；根据神经网络模型输出的二分类概率并进行平滑策略处理，确定用户音频对应的断句信息；以及根据断句信息，得到多段有效音频。

在一些实施例中，建模单元采用字级别建模单元。

在一些实施例中，WFST搜索网络基于语言模型利用FST处理工具构建得到，其中，语言模型基于文本语料使用统计语言建模方法训练得到。

在一些实施例中，语言模型为字级别的语言模型。

根据本公开的另一方面，还提出一种语音识别系统，包括：语音端点检测模块，被配置为对每个用户音频进行端点检测，得到每个用户音频对应的多段有效音频；音频特征提取模块，被配置为提取多段有效音频的第一音频特征；声学模型推理模块，被配置为将第一音频特征输入至声学模型，得到每一帧每个建模单元的概率；以及解码网络搜索模块，被配置为根据每一帧每个建模单元的概率，利用加权有限状态转换机WFST搜索网络进行解码搜索，得到每个用户音频对应的文本信息。

在一些实施例中，语音端点检测模块、音频特征提取模块、声学模型推理模块和解码网络搜索模块，在图形处理器GPU上运行。

根据本公开的另一方面，还提出一种语音识别系统，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的语音识别方法。

根据本公开的另一方面，还提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如上述的语音识别方法。

本公开实施例中，对用户音频进行端点检测，将长音频切断为多个有效音频，进而进行特征提取，以及声学模型推理，最后利用WFST搜索网络进行解码搜索，得到每个用户音频对应的文本信息，提高了语音识别的准确性，进而提高了后续语音审核的准确性。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开的语音识别方法的一些实施例的流程示意图；

图2为本公开的语音识别方法的另一些实施例的流程示意图；

图3为本公开的语音识别方法的另一些实施例的流程示意图；

图4为本公开的语音识别系统的一些实施例中的结构示意图；

图5为本公开的语音识别系统的另一些实施例中的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

图1为本公开的语音识别方法的一些实施例的流程示意图。

在步骤110，对每个用户音频进行端点检测，得到每个用户音频对应的多段有效音频。

在一些实施例中，并行对多个用户音频进行端点检测，得到每个用户音频对应的多段有效音频，提高端点检测的效率。

在一些实施例中，对每个用户音频进行第二音频特征提取；将每个用户音频对应的第二音频特征输入至神经网络模型进行端点检测；根据神经网络模型输出的二分类概率并进行平滑策略处理，确定用户音频对应的断句信息；以及根据断句信息，得到多段有效音频。

例如，将用户音频作为输入，使用神经网络中的LSTM(Long Short Term Memory，长短期记忆)单元进行端点检测，根据模型输出的二分类概率进行相应的平滑策略处理，确定语音的断句信息，从而区分语音和非语音信号。例如，假设0代表非语音，1代表语音，输出长音频0001110000111100，会被分成两个语音段：111和1111。将有效的语音信号作为有效音频进行后续识别处理。将长句划分为短句，能够提高后续处理效率和准确性，并且便于后续并行处理。

在步骤120，提取多段有效音频的第一音频特征。

在一些实施例中，该第一音频特征例如为FBANK(滤波器组)特征，相比于其他特征提取方法，该实施例提取多段有效音频的FBANK特征，能够提高频率分辨率，使得语音信息更丰富，抗噪能力更强，并且特征维度低，减少了计算和存储量。

在步骤130，将第一音频特征输入至声学模型，得到每一帧每个建模单元的概率。

在一些实施例中，该建模单元为字级别建模单元，提高识别准确性。

例如，声学模型采用Conformer-CTC声学模型，由于建模单元采用字级别建模单元，因此，该声学模型输出每一帧每个字的概率。

在步骤140，根据每一帧每个建模单元的概率，利用WFST(Weighted Finite-StateTransducer，加权有限状态转换机)搜索网络进行解码搜索，得到每个用户音频对应的文本信息。

在一些实施例中，预先进行WFST搜索网络的构建，该搜索网络采用WFST解码器架构，例如，该搜索网络基于语言模型利用FST处理工具构建得到，其中，语言模型基于文本语料使用统计语言建模方法训练得到。将该WFST搜索网络加载到显存，用于后续解码搜索。

在一些实施例中，该语言模型为字级别的语言模型。例如，采用级别的3-gram统计语言模型，针对WFST进行优化压缩，减小WFST解码网络大小。

该步骤中，根据每一帧每个字的概率，结合预先加载的WFST进行解码搜索，最终根据搜索得到的最优路径，回溯得到识别结果，即得到用户音频对应的文本信息，从而便于后续的内容审核和分析。

在上述实施例中，对用户音频进行端点检测，将长音频切断为多个有效音频，进而进行特征提取，以及声学模型推理，最后利用WFST搜索网络进行解码搜索，得到每个用户音频对应的文本信息，提高了语音识别的准确性，进而提高了后续语音审核的准确性。

平台语音审核量级大，语音识别计算量大，以及审核及时性的要求，急需高吞吐量、低延迟的语音识别系统。然而相关技术中，在语音审核场景下，耗费更高机器成本，具有更高的延迟，严重影响审核的及时性和成本预算。

图2为本公开的语音识别方法的另一些实施例的流程示意图。

在步骤210，在GPU(Graphics Processing Unit，图形处理器)并行对多个用户音频中每个用户音频进行端点检测，得到每个用户音频对应的多段有效音频。

在步骤220，在GPU并行提取多段有效音频的第一音频特征。

在一些实施例中，在GPU上并行提取多段有效音频中每段有效音频的第一音频特征，提取的特征存储在显存中，用于后续声学模型推理模块的输入。该步骤利用GPU并行计算优势，同时处理多个音频文件，通过批量处理，提高了特征提取的效率。

在步骤230，将第一音频特征输入至声学模型，利用GPU并行处理，得到每一帧每个建模单元的概率。

在一些实施例中，声学模型的整个推理过程在GPU上进行，该声学模型输出每帧建模单元的概率分数。

在步骤240，在GPU，根据每一帧每个建模单元的概率，利用WFST搜索网络进行并行解码搜索，得到每个用户音频对应的文本信息。

在一些实施例中，该WFST搜索网络包括路径信息，即所有可能的识别路径，该WFST搜索网络还包括语言模型信息，即语言模型的状态和转移信息，另外，该WFST搜索网络还包括权重信息，即每个状态和转移相关权重，用于计算最佳路径和剪枝。

在一些实施例中，针对WFST进行优化压缩，减小WFST解码网络大小，使得WFST解码在GPU上可实现。该步骤利用GPU并行计算能力，在解码网络上同时搜索多个候选路径。

在上述实施例中，将端点检测、特征提取、声学模型推理、解码搜索等模块均运行在GPU上，利用GPU的并行能力，加速整个流程的计算速度，相同负载下，相比传统方法，能够大大减少资源耗费。

图3为本公开的语音识别方法的另一些实施例的流程示意图。该实施例包括离线部分和在线部分，离线部分包括步骤310-320，在线部分包括步骤330-360。

在步骤310，基于大量文本语料，使用统计语言建模方法训练基于字级别的3-gram语言模型。

在步骤320，基于该训练好的3-gram语言模型，通过FST处理工具进行WFST搜索网络的构建和压缩。

该步骤减小了WFST解码网络大小，使得WFST解码在GPU上可实现。

在步骤330，在GPU上，利用神经网络中的LSTM单元对用户音频进行端点检测，生成多段有效音频。

在该步骤中，根据模型输出的二分类概率进行相应的平滑策略处理，确定语音的断句信息，区分语音信号和非语音信号，非语音信号即无效语音，例如包括噪音、静音等。该步骤中，长句将被切分为短句，便于后续并发处理。

在步骤340，在GPU上，对多段有效音频进行批量特征提取，得到音频特征。

该步骤中，并行计算FBANK特征，利用GPU并行计算优势，同时处理多个音频文件，通过批量处理，能够提高特征提取的效率。

在步骤350，在GPU上，基于声学模型对音频特征进行并行推理输出每一帧各建模单元的概率。

在步骤360，在GPU上结合预先加载的WFST搜索网络进行解码搜索，根据搜索得到的最优路径，得到文本信息。

该步骤中，利用GPU并行计算能力，在解码网络上同时搜索多个候选路径，提高了搜索效率以及准确性。

在上述实施例中，将端点检测、特征提取、声学模型推理、解码搜索等模块均运行在GPU上，提高语音识别系统的吞吐，降低了语音识别延迟，解决了语音审核及时性问题，同时降低了资源消耗，例如，相比传统方法，耗费的资源减少30％。

图4为本公开的语音识别系统的一些实施例中的结构示意图，该语音识别系统包括语音端点检测模块410、音频特征提取模块420、声学模型推理模块430和解码网络搜索模块440。

语音端点检测模块410被配置为对每个用户音频进行端点检测，得到每个用户音频对应的多段有效音频。该模块去除了无效音频信息。

音频特征提取模块420被配置为提取多段有效音频的第一音频特征。

在一些实施例中，提取多段有效音频的FBANK特征。

声学模型推理模块430被配置为将第一音频特征输入至声学模型，得到每一帧每个建模单元的概率。

在一些实施例中，建模单元采用字级别建模单元。

解码网络搜索模块440被配置为根据每一帧每个建模单元的概率，利用WFST搜索网络进行解码搜索，得到每个用户音频对应的文本信息。

在一些实施例中，该语言模型为字级别的语言模型。

在本公开的一些实施例中，语音端点检测模块、音频特征提取模块、声学模型推理模块和解码网络搜索模块，在GPU上运行。

该实施例中，语音识别各模块的GPU并行化，提升GPU利用率，加速了整个流程的计算速度，相同负载下，相比传统方法，该实施例能够大大减少资源耗费。

图5为本公开的语音识别系统的另一些实施例中的结构示意图。该语音识别系统500包括存储器510和处理器520。其中：存储器510可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上实施例中的指令。处理器520耦接至存储器510，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器520用于执行存储器中存储的指令。

在一些实施例中，处理器520通过BUS总线530耦合至存储器510。该语音识别系统500还可以通过存储接口540连接至外部存储装置550以便调用外部数据，还可以通过网络接口550连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，能够提高语音识别的准确性，并且，能够提高语音识别的效率，提高语音识别系统的吞吐，降低语音识别延迟，解决语音审核及时性问题，同时降低资源消耗。

在另一些实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法以及装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种语音识别方法，包括：

对每个用户音频进行端点检测，得到所述每个用户音频对应的多段有效音频；

提取所述多段有效音频的第一音频特征；

将所述第一音频特征输入至声学模型，得到每一帧每个建模单元的概率；以及

根据所述每一帧每个建模单元的概率，利用加权有限状态转换机WFST搜索网络进行解码搜索，得到所述每个用户音频对应的文本信息。

2.根据权利要求1所述的语音识别方法，其中，

在图形处理器GPU并行对多个用户音频中所述每个用户音频进行端点检测，得到所述每个用户音频对应的多段有效音频；

在所述GPU并行提取所述多段有效音频的第一音频特征；

将所述第一音频特征输入至声学模型，利用所述GPU并行处理，得到每一帧每个建模单元的概率；

在所述GPU，根据所述每一帧每个建模单元的概率，利用所述WFST搜索网络进行并行解码搜索，得到所述每个用户音频对应的文本信息。

3.根据权利要求1所述的语音识别方法，其中，对每个用户音频进行端点检测，得到多段有效音频包括：

对所述每个用户音频进行第二音频特征提取；

将所述每个用户音频对应的第二音频特征输入至神经网络模型进行端点检测；

根据所述神经网络模型输出的二分类概率并进行平滑策略处理，确定所述用户音频对应的断句信息；以及

根据所述断句信息，得到所述多段有效音频。

4.根据权利要求1所述的语音识别方法，其中，所述建模单元采用字级别建模单元。

5.根据权利要求1至4任一所述的语音识别方法，其中，

所述WFST搜索网络基于语言模型利用FST处理工具构建得到，其中，所述语言模型基于文本语料使用统计语言建模方法训练得到。

6.根据权利要求5所述的语音识别方法，其中，

所述语言模型为字级别的语言模型。

7.一种语音识别系统，包括：

语音端点检测模块，被配置为对每个用户音频进行端点检测，得到所述每个用户音频对应的多段有效音频；

音频特征提取模块，被配置为提取所述多段有效音频的第一音频特征；

声学模型推理模块，被配置为将所述第一音频特征输入至声学模型，得到每一帧每个建模单元的概率；以及

解码网络搜索模块，被配置为根据所述每一帧每个建模单元的概率，利用加权有限状态转换机WFST搜索网络进行解码搜索，得到所述每个用户音频对应的文本信息。

8.根据权利要求7所述的语音识别系统，其中，

所述语音端点检测模块、所述音频特征提取模块、所述声学模型推理模块和所述解码网络搜索模块，在图形处理器GPU上运行。

9.一种语音识别系统，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至6任一项所述的语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至6任一项所述的语音识别方法。