CN109920406B

CN109920406B - 一种基于可变起始位置的动态语音识别方法及系统

Info

Publication number: CN109920406B
Application number: CN201910245435.5A
Authority: CN
Inventors: 高圣翔; 黄远; 安茂波; 沈亮; 李娅强; 孙旭东; 王中华; 王宪法; 鲍尚策; 杨树村; 周尧; 万欣欣
Original assignee: National Computer Network and Information Security Management Center; Zhuhai Comleader Information Technology Co Ltd
Current assignee: National Computer Network and Information Security Management Center; Zhuhai Comleader Information Technology Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2021-12-03
Anticipated expiration: 2039-03-28
Also published as: CN109920406A

Abstract

本发明的技术方案包括一种基于可变起始位置的动态语音识别方法及系统，用于实现：实时加载输入的语音流信号，对语音信号进行预处理；对语音信号进行特征提取，获取语音信号中的特征；根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。本发明的有益效果为：本发明的有益效果为容易理解，实现简单，当前语音模型匹配选取长度较为合理，经过算法改进后，减少了语音模型匹配次数，语音识别效率比之前的算法提高了30％的效率。

Description

一种基于可变起始位置的动态语音识别方法及系统

技术领域

本发明涉及一种基于可变起始位置的动态语音识别方法及系统，属于计算机语音识别领域。

背景技术

现有的技术方案为定长回溯语音算法，在基于模板匹配时，不关心模板长度，选取模板的最大长度作为回溯长度，模型检测试，从回溯语音位置开始匹配。其缺点如下：

(1)由于模板长度不一，对于长度较小的模板，在进行匹配时，前面的语音在之前已经进行了匹配，再次匹配时，重复匹配了语音；

(2)现有算法的性能较低，不能满足当前业务的需要。

发明内容

本发明提供了一种基于可变起始位置的动态语音识别方法及系统，语音识别过程中根据语音识别的模型，将系统中存放的语音模板与实时输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过搜索对照表就可以给出系统的识别结果。

本发明的技术方案包括一种基于可变起始位置的动态语音识别方法，其特征在于，该方法包括：S10，实时加载输入的语音流信号，对语音信号进行预处理；S20，对语音信号进行特征提取，获取语音信号中的特征；S30，根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。

根据所述的基于可变起始位置的动态语音识别方法，其中步骤S10具体包括：其中预处理具体包括剔除语音信号中的噪音及非语音信号，以及，对语音信号的每一帧的起点位置及终端位置进行识别。

根据所述的基于可变起始位置的动态语音识别方法，其中该方法还包括：以语音模型特定关键字段为索引建立语音模型信息库。

根据所述的基于可变起始位置的动态语音识别方法，其中步骤S30具体包括：S31，将音模型信息库中的语音模板与实时输入的语音信号的特征进行比较，根据设定的搜索和匹配策略，找出一个或多个最优的与输入语音匹配的模板；S32，实时接收语音，并标识语音识别的终点位置；S33，周期轮训待识别的语音流，根据所述步骤S32标识的终点位置，取语音数据的终点与当前位置的差作为第一帧开始识别的位置；S34，根据所述步骤S33 及预设的步长对语音信号进行逐帧识别，直至完成整个输入语音信号的识别。

本发明的技术方案还包括根据上述任意方法的一种基于可变起始位置的动态语音识别系统，该系统包括：预处理模块，用于实时加载输入的语音流信号，对语音信号进行预处理；特征提取模块，用于对语音信号进行特征提取，获取语音信号中的特征；语音识别模块，用于根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。

本发明的有益效果为容易理解，实现简单，当前语音模型匹配选取长度较为合理，经过算法改进后，减少了语音模型匹配次数，语音识别效率比之前的算法提高了30％的效率。

附图说明

图1所示为根据本发明实施方式的总体流程图；

图2所示为根据本发明实施方式的系统框图；

图3所示为根据本发明实施方式的流程图；

图4所示为根据本发明实施方式的最后一次匹配示意图；

图5所示为根据本发明实施方式的下一次匹配示意图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、方案和效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

图1所示为根据本发明实施方式的总体流程图。该流程包括：S10，实时加载输入的语音流信号，对语音信号进行预处理；S20，对语音信号进行特征提取，获取语音信号中的特征；S30，根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。

图2所示为根据本发明实施方式的系统框图。该系统包括：：预处理模块，用于实时加载输入的语音流信号，对语音信号进行预处理；特征提取模块，用于对语音信号进行特征提取，获取语音信号中的特征；语音识别模块，用于根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。

图3所示为根据本发明实施方式的流程图。包括三个基本单元特征提取、模式匹配、参考模式库。具体包括：语音识别过程中根据语音识别的模型，将系统中存放的语音模板与实时输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过搜索对照表就可以给出系统的识别结果。获取实时输入的语音信号与语音模型的匹配相似度，若该匹配相似度大于等于设定阈值，则认为匹配成功；否则匹配失败。

图4所示为根据本发明实施方式的最后一次匹配示意图。新的媒体流语音输入时，下一轮匹配的开始起点是N1位置，对于模板a则是下一跳的匹配位置，但对于模板b则，选取下一跳的位置应该N2位置开始。

图5所示为根据本发明实施方式的下一次匹配示意图。每次匹配时下一帧的位置为：POS＝N₃-L_i。L_i表示模板b的长度，由于回溯语音只能根据最长的语音进行确定，因此，N₃-L_i之前的特征，已经与模板b作过匹配，因此，对于模板b,其回溯位置只能是N₃-L_i。

其流程包括：(1)模型库建立：以模型特定关键字段为索引建立模型信息库；(2)实时接收语音，并标记语音识别的终点位置N3；(3)周期轮训待识别的语音流，根据第二步标识位置N3，取语音数据N₃-L_i的位置为第一帧开始识别的位置；(4)按照既定算法，根据设定步长，依次循环识别，直至结束。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种基于可变起始位置的动态语音识别方法，其特征在于，该方法包括：

S10，实时加载输入的语音流信号，对语音信号进行预处理，其中预处理具体包括剔除语音信号中的噪音及非语音信号，以及，对语音信号的每一帧的起点位置及终端位置进行识别；

S20，对语音信号进行特征提取，获取语音信号中的特征；

S30，根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配，具体包括：S31，以语音模型特定关键字段为索引建立语音模型信息库；S32，将语音模型信息库中的语音模板与实时输入的语音信号的特征进行比较，根据设定的搜索和匹配策略，找出一个或多个最优的与输入语音匹配的模板；S33，实时接收语音，并标识语音识别的终点位置；S34，周期轮询待识别的语音流，根据所述S33标识的终点位置，取语音数据的终点与当前位置的差作为第一帧开始识别的位置；S35，根据所述S34获取的第一帧开始识别的位置及匹配模块的长度对语音信号进行逐帧识别，直至完成整个输入语音信号的识别。

2.一种用于执行权利要求1所述方法的基于可变起始位置的动态语音识别系统，其特征在于，该系统包括：

预处理模块，用于实时加载输入的语音流信号，对语音信号进行预处理，其中预处理具体包括剔除语音信号中的噪音及非语音信号，以及，对语音信号的每一帧的起点位置及终端位置进行识别；

特征提取模块，用于对语音信号进行特征提取，获取语音信号中的特征；

语音识别模块，用于根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配，具体包括：S31，以语音模型特定关键字段为索引建立语音模型信息库；S32，将语音模型信息库中的语音模板与实时输入的语音信号的特征进行比较，根据设定的搜索和匹配策略，找出一个或多个最优的与输入语音匹配的模板；S33，实时接收语音，并标识语音识别的终点位置；S34，周期轮询待识别的语音流，根据所述S33标识的终点位置，取语音数据的终点与当前位置的差作为第一帧开始识别的位置；S35，根据所述S34获取的第一帧开始识别的位置及匹配模块的长度对语音信号进行逐帧识别，直至完成整个输入语音信号的识别。