CN109346065A - 一种语音识别方法及系统 - Google Patents

一种语音识别方法及系统 Download PDF

Info

Publication number
CN109346065A
CN109346065A CN201811354533.4A CN201811354533A CN109346065A CN 109346065 A CN109346065 A CN 109346065A CN 201811354533 A CN201811354533 A CN 201811354533A CN 109346065 A CN109346065 A CN 109346065A
Authority
CN
China
Prior art keywords
speech
voice signal
characteristic parameter
voice
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811354533.4A
Other languages
English (en)
Inventor
吴荣茂
王可佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aerospace Chuang Chuang Intelligent Technology Co Ltd
Original Assignee
Shenzhen Aerospace Chuang Chuang Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aerospace Chuang Chuang Intelligent Technology Co Ltd filed Critical Shenzhen Aerospace Chuang Chuang Intelligent Technology Co Ltd
Priority to CN201811354533.4A priority Critical patent/CN109346065A/zh
Publication of CN109346065A publication Critical patent/CN109346065A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种语音识别方法及系统,方法包括:获取待识别的语音信号;提取所述待识别的语音信号中的语音特征参数;根据所述语音特征参数对所述语音信号进行分类;将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。本发明提供的技术方案通过先对语音信号进行特征参数提取,根据提取的参数对语音信号进行分类,将语音信号输入到与语音特征参数相对应的模型中进行识别,避免了直接对语音信号识别时无法识别的问题,提高语音识别的效率和准确率。

Description

一种语音识别方法及系统
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音识别方法、终端及计算机可读存储介质。
背景技术
语音识别技术,是将人类说话的声音识别并转换为文本的技术,是实现人机交互的重要途径之一,也被称为自动语音识别,其目标是将人类的语音中的词汇内容转换为计算机可读的输入。
然而,目前的语音识别技术只能机械地识别语音信息库中已有的信息,无法准确识别一些口音不准或者模糊的语音命令,因此容易出现误操作或者误识别或者无法识别的情况。
因此,需要提供一种语音识别方法及系统来解决现有技术的不足。
发明内容
为了解决现有技术中一些语音无法直接识别的问题,本发明提供了一种语音识别方法及系统。
一种语音识别方法,包括:
获取待识别的语音信号;
提取所述待识别的语音信号中的语音特征参数;
根据所述语音特征参数对所述语音信号进行分类;
将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。
进一步的,提取所述待识别的语音信号中的语音特征参数,包括:
将所述待识别的语音信号进行格式转换处理,得到所述语音信号的语音序列;
对所述语音序列进行特征提取,得到语音特征参数。
进一步的,将所述待识别的语音信号进行格式转换处理,得到所述语音信号的语音序列包括:
将所述待识别的语音信号转换为数字语音信号;
对所述数字语音信号进行分帧处理,得到分帧语音序列;
将所述分帧语音序列进行拼帧处理,得到待识别的语音信号的语音序列。
进一步的,在将所述分帧语音序列进行拼帧处理,得到待识别的语音信号的语音序列之前,还包括:
对所述分帧语音序列进行加窗处理。
进一步的,所述语音特征参数,包括:语音的时长和语音包含的音素数量。
进一步的,与所述语音特征参数相对应的语音模型的建立,包括:
获取分类的所述数字语音信号的所述语音特征参数;
遍历搜索相应的分类的模型特征库中所有的语音样本特征向量;
计算所述语音特征参数与所述语音样本特征向量的匹配度;
若匹配,确定与所述语音样本特征向量相对应的模型为所述语音特征参数的语音模型。
一种语音识别系统,所述系统包括:
获取模块,用于获取待识别的语音信号;
提取模块,用于提取所述待识别的语音信号中的语音特征参数;
分类模块,用于根据所述语音特征参数对所述语音信号进行分类;
确定模块,用于将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。
进一步的,所述提取模块包括:
转换子模块,用于将所述待识别的语音信号进行格式转换处理,得到所述语音信号的语音序列;
提取子模块,用于对所述语音序列进行特征提取,得到语音特征参数。
进一步的,所述确定模块包括:模型建立子模块,所述模型建立子模块,用于,
获取分类的所述数字语音信号的所述语音特征参数;
遍历搜索相应的分类的模型特征库中所有的语音样本特征向量;
计算所述语音特征参数与所述语音样本特征向量的匹配度;
若匹配,确定与所述语音样本特征向量相对应的模型为所述语音特征参数的语音模型。
本发明提供的技术方案与最接近的现有技术相比具有如下优点:
本发明提供的技术方案首先提取待识别的语音信号的语音特征参数,然后根据语音特征参数对语音信号进行分类,最后将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。本发明通过先对语音信号进行特征参数提取,根据提取的参数对语音信号进行分类,将语音信号输入到与语音特征参数相对应的模型中进行识别,避免了直接对语音信号识别时无法识别的问题,提高语音识别的效率和准确率。
附图说明
图1是本发明流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种语音识别方法,包括:
获取待识别的语音信号;
提取所述待识别的语音信号中的语音特征参数;
根据所述语音特征参数对所述语音信号进行分类;
将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。
在本申请实施例中,首先提取待识别的语音信号的语音特征参数,然后根据语音特征参数对语音信号进行分类,最后将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。本发明通过先对语音信号进行特征参数提取,根据提取的参数对语音信号进行分类,将语音信号输入到与语音特征参数相对应的模型中进行识别,避免了直接对语音信号识别时无法识别的问题,提高语音识别的效率和准确率。
在本申请的一些实施例中,提取所述待识别的语音信号中的语音特征参数,包括:
将所述待识别的语音信号进行格式转换处理,得到所述语音信号的语音序列;
对所述语音序列进行特征提取,得到语音特征参数。
在本申请的一些实施例中,将所述待识别的语音信号进行格式转换处理,得到所述语音信号的语音序列包括:
将所述待识别的语音信号转换为数字语音信号;
对所述数字语音信号进行分帧处理,得到分帧语音序列;
将所述分帧语音序列进行拼帧处理,得到待识别的语音信号的语音序列。
在本申请的一些实施例中,在将所述分帧语音序列进行拼帧处理,得到待识别的语音信号的语音序列之前,还包括:
对所述分帧语音序列进行加窗处理。对所述分帧语音序列进行加窗处理,获得加窗的所述分帧语音序列。
其中,加窗和分帧都是语音信号提取特征的预处理阶段。先分帧,后加窗,再做快速傅里叶变换。
分帧,简单来说,一段语音信号整体上看不是平稳的,但是在局部上可以看作是平稳的。在后期的语音处理中需要输入的是平稳信号,所以要对整段语音信号分帧,也就是切分成很多段。在10-30ms范围内都可以认为信号是稳定的,一般以不少于20ms为一帧,1/2左右时长为帧移分帧。帧移是相邻两帧间的重叠区域,是为了避免相邻两帧的变化过大。
加窗,按上述方法加窗后,每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。加窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表现出周期函数的特征。在语音信号处理中一般加汉明窗。
在本申请的一些实施例中,所述语音特征参数,包括:语音的时长和语音包含的音素数量。
在本申请的一些实施例中,与所述语音特征参数相对应的语音模型的建立,包括:
获取分类的所述数字语音信号的所述语音特征参数;
遍历搜索相应的分类的模型特征库中所有的语音样本特征向量;
计算所述语音特征参数与所述语音样本特征向量的匹配度;
若匹配,确定与所述语音样本特征向量相对应的模型为所述语音特征参数的语音模型。
在本申请的一些实施例中,还包括将收到的模式匹配结果进行命令字转换,对所述命令字进行判断:若所述识别结果为语音操作控制指令,则根据所述语音操作控制指令执行相应的操作;若所述识别结果为语音文本输入指令,则根据所述语音文本输入指令生成相应的文本。
基于相同的发明构思本发明还提供了一种语音识别系统,所述系统包括:
获取模块,用于获取待识别的语音信号;
提取模块,用于提取所述待识别的语音信号中的语音特征参数;
分类模块,用于根据所述语音特征参数对所述语音信号进行分类;
确定模块,用于将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。
可选的,所述提取模块包括:
转换子模块,用于将所述待识别的语音信号进行格式转换处理,得到所述语音信号的语音序列;
提取子模块,用于对所述语音序列进行特征提取,得到语音特征参数。
可选的,所述确定模块包括:模型建立子模块,所述模型建立子模块,用于,
获取分类的所述数字语音信号的所述语音特征参数;
遍历搜索相应的分类的模型特征库中所有的语音样本特征向量;
计算所述语音特征参数与所述语音样本特征向量的匹配度;
若匹配,确定与所述语音样本特征向量相对应的模型为所述语音特征参数的语音模型。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种语音识别方法,其特征在于,包括:
获取待识别的语音信号;
提取所述待识别的语音信号中的语音特征参数;
根据所述语音特征参数对所述语音信号进行分类;
将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。
2.根据权利要求1所述的一种语音识别方法,其特征在于,提取所述待识别的语音信号中的语音特征参数,包括:
将所述待识别的语音信号进行格式转换处理,得到所述语音信号的语音序列;
对所述语音序列进行特征提取,得到语音特征参数。
3.根据权利要求2所述的一种语音识别方法,其特征在于,将所述待识别的语音信号进行格式转换处理,得到所述语音信号的语音序列包括:
将所述待识别的语音信号转换为数字语音信号;
对所述数字语音信号进行分帧处理,得到分帧语音序列;
将所述分帧语音序列进行拼帧处理,得到待识别的语音信号的语音序列。
4.根据权利要求3所述的一种语音识别方法,其特征在于,在将所述分帧语音序列进行拼帧处理,得到待识别的语音信号的语音序列之前,还包括:
对所述分帧语音序列进行加窗处理。
5.根据权利要求2所述的一种语音识别方法,其特征在于,所述语音特征参数,包括:语音的时长和语音包含的音素数量。
6.根据权利要求1所述的一种语音识别方法,其特征在于,与所述语音特征参数相对应的语音模型的建立,包括:
获取分类的所述数字语音信号的所述语音特征参数;
遍历搜索相应的分类的模型特征库中所有的语音样本特征向量;
计算所述语音特征参数与所述语音样本特征向量的匹配度;
若匹配,确定与所述语音样本特征向量相对应的模型为所述语音特征参数的语音模型。
7.一种语音识别系统,其特征在于,所述系统包括:
获取模块,用于获取待识别的语音信号;
提取模块,用于提取所述待识别的语音信号中的语音特征参数;
分类模块,用于根据所述语音特征参数对所述语音信号进行分类;
确定模块,用于将待识别的语音信号输入到与所述语音特征参数相对应的语音模型中,得到语音识别结果。
8.根据权利要求7所述的一种语音识别系统,其特征在于,所述提取模块包括:
转换子模块,用于将所述待识别的语音信号进行格式转换处理,得到所述语音信号的语音序列;
提取子模块,用于对所述语音序列进行特征提取,得到语音特征参数。
9.根据权利要求7所述的一种语音识别系统,其特征在于,所述确定模块包括:模型建立子模块,所述模型建立子模块,用于,
获取分类的所述数字语音信号的所述语音特征参数;
遍历搜索相应的分类的模型特征库中所有的语音样本特征向量;
计算所述语音特征参数与所述语音样本特征向量的匹配度;
若匹配,确定与所述语音样本特征向量相对应的模型为所述语音特征参数的语音模型。
CN201811354533.4A 2018-11-14 2018-11-14 一种语音识别方法及系统 Pending CN109346065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811354533.4A CN109346065A (zh) 2018-11-14 2018-11-14 一种语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811354533.4A CN109346065A (zh) 2018-11-14 2018-11-14 一种语音识别方法及系统

Publications (1)

Publication Number Publication Date
CN109346065A true CN109346065A (zh) 2019-02-15

Family

ID=65315568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811354533.4A Pending CN109346065A (zh) 2018-11-14 2018-11-14 一种语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN109346065A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109920406A (zh) * 2019-03-28 2019-06-21 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
CN110265011A (zh) * 2019-06-10 2019-09-20 龙马智芯(珠海横琴)科技有限公司 一种电子设备的交互方法及其电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1316726A (zh) * 2000-02-02 2001-10-10 摩托罗拉公司 语音识别的方法和装置
US20110010177A1 (en) * 2009-07-08 2011-01-13 Honda Motor Co., Ltd. Question and answer database expansion apparatus and question and answer database expansion method
CN106782521A (zh) * 2017-03-22 2017-05-31 海南职业技术学院 一种语音识别系统
CN106875943A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 一种用于大数据分析的语音识别系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1316726A (zh) * 2000-02-02 2001-10-10 摩托罗拉公司 语音识别的方法和装置
US20110010177A1 (en) * 2009-07-08 2011-01-13 Honda Motor Co., Ltd. Question and answer database expansion apparatus and question and answer database expansion method
CN106875943A (zh) * 2017-01-22 2017-06-20 上海云信留客信息科技有限公司 一种用于大数据分析的语音识别系统
CN106782521A (zh) * 2017-03-22 2017-05-31 海南职业技术学院 一种语音识别系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109920406A (zh) * 2019-03-28 2019-06-21 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
CN109920406B (zh) * 2019-03-28 2021-12-03 国家计算机网络与信息安全管理中心 一种基于可变起始位置的动态语音识别方法及系统
CN110265011A (zh) * 2019-06-10 2019-09-20 龙马智芯(珠海横琴)科技有限公司 一种电子设备的交互方法及其电子设备

Similar Documents

Publication Publication Date Title
US10950242B2 (en) System and method of diarization and labeling of audio data
CN112233653B (zh) 多方言口音普通话语音识别模型训练方法、装置及设备
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
CN104391673A (zh) 语音交互方法和装置
CN106997342B (zh) 基于多轮交互的意图识别方法和装置
CN111797632A (zh) 信息处理方法、装置及电子设备
CN113327575A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN112015872A (zh) 问句识别方法及装置
CN111161726B (zh) 一种智能语音交互方法、设备、介质及系统
US20220399013A1 (en) Response method, terminal, and storage medium
CN114120985A (zh) 智能语音终端的安抚交互方法、系统、设备及存储介质
CN110956958A (zh) 搜索方法、装置、终端设备及存储介质
CN111192572A (zh) 语义识别的方法、装置及系统
CN113793591A (zh) 语音合成方法及相关装置和电子设备、存储介质
CN109346065A (zh) 一种语音识别方法及系统
CN112201275A (zh) 声纹分割方法、装置、设备及可读存储介质
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN110379419A (zh) 基于卷积神经网络的语音特征匹配方法
CN113724698B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN115691503A (zh) 语音识别方法、装置、电子设备和存储介质
CN112395414B (zh) 文本分类方法和分类模型的训练方法、装置、介质和设备
CN111785259A (zh) 信息处理方法、装置及电子设备
CN113838467B (zh) 语音处理方法、装置及电子设备
CN113421556B (zh) 语音识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215

RJ01 Rejection of invention patent application after publication