CN109920406B - 一种基于可变起始位置的动态语音识别方法及系统 - Google Patents

一种基于可变起始位置的动态语音识别方法及系统 Download PDF

Info

Publication number
CN109920406B
CN109920406B CN201910245435.5A CN201910245435A CN109920406B CN 109920406 B CN109920406 B CN 109920406B CN 201910245435 A CN201910245435 A CN 201910245435A CN 109920406 B CN109920406 B CN 109920406B
Authority
CN
China
Prior art keywords
voice
signal
frame
matching
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910245435.5A
Other languages
English (en)
Other versions
CN109920406A (zh
Inventor
高圣翔
黄远
安茂波
沈亮
李娅强
孙旭东
王中华
王宪法
鲍尚策
杨树村
周尧
万欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Zhuhai Comleader Information Technology Co Ltd
Original Assignee
National Computer Network and Information Security Management Center
Zhuhai Comleader Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center, Zhuhai Comleader Information Technology Co Ltd filed Critical National Computer Network and Information Security Management Center
Priority to CN201910245435.5A priority Critical patent/CN109920406B/zh
Publication of CN109920406A publication Critical patent/CN109920406A/zh
Application granted granted Critical
Publication of CN109920406B publication Critical patent/CN109920406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的技术方案包括一种基于可变起始位置的动态语音识别方法及系统,用于实现:实时加载输入的语音流信号,对语音信号进行预处理;对语音信号进行特征提取,获取语音信号中的特征;根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。本发明的有益效果为:本发明的有益效果为容易理解,实现简单,当前语音模型匹配选取长度较为合理,经过算法改进后,减少了语音模型匹配次数,语音识别效率比之前的算法提高了30%的效率。

Description

一种基于可变起始位置的动态语音识别方法及系统
技术领域
本发明涉及一种基于可变起始位置的动态语音识别方法及系统,属于计算机语音识别领域。
背景技术
现有的技术方案为定长回溯语音算法,在基于模板匹配时,不关心模板长度,选取模板的最大长度作为回溯长度,模型检测试,从回溯语音位置开始匹配。其缺点如下:
(1)由于模板长度不一,对于长度较小的模板,在进行匹配时,前面的语音在之前已经进行了匹配,再次匹配时,重复匹配了语音;
(2)现有算法的性能较低,不能满足当前业务的需要。
发明内容
本发明提供了一种基于可变起始位置的动态语音识别方法及系统,语音识别过程中根据语音识别的模型,将系统中存放的语音模板与实时输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过搜索对照表就可以给出系统的识别结果。
本发明的技术方案包括一种基于可变起始位置的动态语音识别方法,其特征在于,该方法包括:S10,实时加载输入的语音流信号,对语音信号进行预处理;S20,对语音信号进行特征提取,获取语音信号中的特征;S30,根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。
根据所述的基于可变起始位置的动态语音识别方法,其中步骤S10具体包括:其中预处理具体包括剔除语音信号中的噪音及非语音信号,以及,对语音信号的每一帧的起点位置及终端位置进行识别。
根据所述的基于可变起始位置的动态语音识别方法,其中该方法还包括:以语音模型特定关键字段为索引建立语音模型信息库。
根据所述的基于可变起始位置的动态语音识别方法,其中步骤S30具体包括:S31,将音模型信息库中的语音模板与实时输入的语音信号的特征进行比较,根据设定的搜索和匹配策略,找出一个或多个最优的与输入语音匹配的模板;S32,实时接收语音,并标识语音识别的终点位置;S33,周期轮训待识别的语音流,根据所述步骤S32标识的终点位置,取语音数据的终点与当前位置的差作为第一帧开始识别的位置;S34,根据所述步骤S33 及预设的步长对语音信号进行逐帧识别,直至完成整个输入语音信号的识别。
本发明的技术方案还包括根据上述任意方法的一种基于可变起始位置的动态语音识别系统,该系统包括:预处理模块,用于实时加载输入的语音流信号,对语音信号进行预处理;特征提取模块,用于对语音信号进行特征提取,获取语音信号中的特征;语音识别模块,用于根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。
本发明的有益效果为容易理解,实现简单,当前语音模型匹配选取长度较为合理,经过算法改进后,减少了语音模型匹配次数,语音识别效率比之前的算法提高了30%的效率。
附图说明
图1所示为根据本发明实施方式的总体流程图;
图2所示为根据本发明实施方式的系统框图;
图3所示为根据本发明实施方式的流程图;
图4所示为根据本发明实施方式的最后一次匹配示意图;
图5所示为根据本发明实施方式的下一次匹配示意图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本文所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
图1所示为根据本发明实施方式的总体流程图。该流程包括:S10,实时加载输入的语音流信号,对语音信号进行预处理;S20,对语音信号进行特征提取,获取语音信号中的特征;S30,根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。
图2所示为根据本发明实施方式的系统框图。该系统包括::预处理模块,用于实时加载输入的语音流信号,对语音信号进行预处理;特征提取模块,用于对语音信号进行特征提取,获取语音信号中的特征;语音识别模块,用于根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。
图3所示为根据本发明实施方式的流程图。包括三个基本单元特征提取、模式匹配、参考模式库。具体包括:语音识别过程中根据语音识别的模型,将系统中存放的语音模板与实时输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过搜索对照表就可以给出系统的识别结果。获取实时输入的语音信号与语音模型的匹配相似度,若该匹配相似度大于等于设定阈值,则认为匹配成功;否则匹配失败。
图4所示为根据本发明实施方式的最后一次匹配示意图。新的媒体流语音输入时,下一轮匹配的开始起点是N1位置,对于模板a则是下一跳的匹配位置,但对于模板b则,选取下一跳的位置应该N2位置开始。
图5所示为根据本发明实施方式的下一次匹配示意图。每次匹配时下一帧的位置为:POS=N3-Li。Li表示模板b的长度,由于回溯语音只能根据最长的语音进行确定,因此,N3-Li之前的特征,已经与模板b作过匹配,因此,对于模板b,其回溯位置只能是N3-Li
其流程包括:(1)模型库建立:以模型特定关键字段为索引建立模型信息库;(2)实时接收语音,并标记语音识别的终点位置N3;(3)周期轮训待识别的语音流,根据第二步标识位置N3,取语音数据N3-Li的位置为第一帧开始识别的位置;(4)按照既定算法,根据设定步长,依次循环识别,直至结束。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims (2)

1.一种基于可变起始位置的动态语音识别方法,其特征在于,该方法包括:
S10,实时加载输入的语音流信号,对语音信号进行预处理,其中预处理具体包括剔除语音信号中的噪音及非语音信号,以及,对语音信号的每一帧的起点位置及终端位置进行识别;
S20,对语音信号进行特征提取,获取语音信号中的特征;
S30,根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配,具体包括:S31,以语音模型特定关键字段为索引建立语音模型信息库;S32,将语音模型信息库中的语音模板与实时输入的语音信号的特征进行比较,根据设定的搜索和匹配策略,找出一个或多个最优的与输入语音匹配的模板;S33,实时接收语音,并标识语音识别的终点位置;S34,周期轮询待识别的语音流,根据所述S33标识的终点位置,取语音数据的终点与当前位置的差作为第一帧开始识别的位置;S35,根据所述S34获取的第一帧开始识别的位置及匹配模块的长度对语音信号进行逐帧识别,直至完成整个输入语音信号的识别。
2.一种用于执行权利要求1所述方法的基于可变起始位置的动态语音识别系统,其特征在于,该系统包括:
预处理模块,用于实时加载输入的语音流信号,对语音信号进行预处理,其中预处理具体包括剔除语音信号中的噪音及非语音信号,以及,对语音信号的每一帧的起点位置及终端位置进行识别;
特征提取模块,用于对语音信号进行特征提取,获取语音信号中的特征;
语音识别模块,用于根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配,具体包括:S31,以语音模型特定关键字段为索引建立语音模型信息库;S32,将语音模型信息库中的语音模板与实时输入的语音信号的特征进行比较,根据设定的搜索和匹配策略,找出一个或多个最优的与输入语音匹配的模板;S33,实时接收语音,并标识语音识别的终点位置;S34,周期轮询待识别的语音流,根据所述S33标识的终点位置,取语音数据的终点与当前位置的差作为第一帧开始识别的位置;S35,根据所述S34获取的第一帧开始识别的位置及匹配模块的长度对语音信号进行逐帧识别,直至完成整个输入语音信号的识别。
CN201910245435.5A 2019-03-28 2019-03-28 一种基于可变起始位置的动态语音识别方法及系统 Active CN109920406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910245435.5A CN109920406B (zh) 2019-03-28 2019-03-28 一种基于可变起始位置的动态语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910245435.5A CN109920406B (zh) 2019-03-28 2019-03-28 一种基于可变起始位置的动态语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN109920406A CN109920406A (zh) 2019-06-21
CN109920406B true CN109920406B (zh) 2021-12-03

Family

ID=66967546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910245435.5A Active CN109920406B (zh) 2019-03-28 2019-03-28 一种基于可变起始位置的动态语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN109920406B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120211A (zh) * 1994-10-12 1996-04-10 谭政 一种数字语音处理方法和采用该方法的数字语音电话机
CN1343350A (zh) * 1999-11-11 2002-04-03 皇家菲利浦电子有限公司 用于语音识别的声调特性
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN101266790A (zh) * 2007-03-16 2008-09-17 微星科技股份有限公司 文字文件自动标示时间的装置与方法
CN101923855A (zh) * 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别系统
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
CN105895078A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 动态选择语音模型的语音识别方法及装置
CN108628819A (zh) * 2017-03-16 2018-10-09 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN109346065A (zh) * 2018-11-14 2019-02-15 深圳航天科创智能科技有限公司 一种语音识别方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7085717B2 (en) * 2002-05-21 2006-08-01 Thinkengine Networks, Inc. Scoring and re-scoring dynamic time warping of speech
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US9508340B2 (en) * 2014-12-22 2016-11-29 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
CN106297776B (zh) * 2015-05-22 2019-07-09 中国科学院声学研究所 一种基于音频模板的语音关键词检索方法
CN108735201B (zh) * 2018-06-29 2020-11-17 广州视源电子科技股份有限公司 连续语音识别方法、装置、设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1120211A (zh) * 1994-10-12 1996-04-10 谭政 一种数字语音处理方法和采用该方法的数字语音电话机
CN1343350A (zh) * 1999-11-11 2002-04-03 皇家菲利浦电子有限公司 用于语音识别的声调特性
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN101266790A (zh) * 2007-03-16 2008-09-17 微星科技股份有限公司 文字文件自动标示时间的装置与方法
CN101923855A (zh) * 2009-06-17 2010-12-22 复旦大学 文本无关的声纹识别系统
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统
CN105895078A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 动态选择语音模型的语音识别方法及装置
CN108628819A (zh) * 2017-03-16 2018-10-09 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN109346065A (zh) * 2018-11-14 2019-02-15 深圳航天科创智能科技有限公司 一种语音识别方法及系统

Also Published As

Publication number Publication date
CN109920406A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
US9189471B2 (en) Apparatus and method for recognizing emotion based on emotional segments
CN109961780B (zh) 一种人机交互方法、装置、服务器和存储介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
CN111292752B (zh) 一种用户意图识别方法、装置、电子设备及存储介质
TW201218023A (en) Efficient gesture processing
CN103714332B (zh) 字符识别设备和字符识别方法
CN109002784B (zh) 街景识别方法和系统
CN105549841A (zh) 一种语音交互方法、装置及设备
CN110288085B (zh) 一种数据处理方法、装置、系统及存储介质
CN109740530B (zh) 视频段的提取方法、装置、设备及计算机可读存储介质
KR20120066462A (ko) 얼굴 인식 방법 및 시스템, 얼굴 인식을 위한 학습용 특징 벡터 추출 장치 및 테스트용 특징 벡터 추출 장치
CN106156794B (zh) 基于文字风格识别的文字识别方法及装置
CN110890088A (zh) 语音信息反馈方法、装置、计算机设备和存储介质
CN112667510A (zh) 测试方法、装置、电子设备及存储介质
CN104239043B (zh) 指令的执行方法和装置
CN109920406B (zh) 一种基于可变起始位置的动态语音识别方法及系统
CN110400560B (zh) 数据处理方法及装置、存储介质、电子装置
CN111640450A (zh) 多人声音频处理方法、装置、设备及可读存储介质
CN111402865A (zh) 语音识别训练数据的生成方法、语音识别模型的训练方法
CN110415689B (zh) 语音识别装置及方法
CN114218428A (zh) 音频数据聚类方法、装置、设备及存储介质
CN110379419A (zh) 基于卷积神经网络的语音特征匹配方法
JP2011248680A (ja) 画像処理システム
CN113920306A (zh) 目标再识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant