CN111354337A - 语音识别方法以及用户终端 - Google Patents

语音识别方法以及用户终端 Download PDF

Info

Publication number
CN111354337A
CN111354337A CN201811580728.0A CN201811580728A CN111354337A CN 111354337 A CN111354337 A CN 111354337A CN 201811580728 A CN201811580728 A CN 201811580728A CN 111354337 A CN111354337 A CN 111354337A
Authority
CN
China
Prior art keywords
sequence
voice
recognition
speech
temporary stack
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811580728.0A
Other languages
English (en)
Inventor
李杨
汪凯
李众欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Industrial Utechnology Research Institute
Original Assignee
Shanghai Industrial Utechnology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Industrial Utechnology Research Institute filed Critical Shanghai Industrial Utechnology Research Institute
Priority to CN201811580728.0A priority Critical patent/CN111354337A/zh
Publication of CN111354337A publication Critical patent/CN111354337A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供了一种语音识别方法,包括如下步骤:将原始语音保存在一临时栈中;在所述临时栈中提取第一段语音形成第一特征序列;将第一特征序列送入语音识别引擎进行识别获得第一词序列并保存;识别完毕后,在所述临时栈中提取与第一段语音紧接的第二段语音形成第二特征序列;将第一特征序列送入语音识别引擎进行识别获得第二次序列,并接续保存在第一词序列之后。

Description

语音识别方法以及用户终端
技术领域
本发明涉及计算机领域,尤其涉及一种语音识别方法以及用户终端。
背景技术
语音识别是智能电子产品的基础技术,通过语音识别可以实现电子产品的声控、解锁、文字输入等多种功能。
现有技术的语音识别技术需要在识别某一段语音之后,再去抓取下一段语音。由于每次识别需要1-100毫秒的时间,因此这样的方法在对连续输入的语音进行识别的时候,会存在1-100毫秒的语音信号无法被采集,会有丢字的情况。如何解决上述问题,是现有技术需要解决的问题。
发明内容
本发明所要解决的技术问题是,提供一种语音识别方法以及用户终端,避免语音识别的丢字情况。
为了解决上述问题,本发明提供了一种语音识别方法,包括如下步骤:将原始语音保存在一临时栈中;在所述临时栈中提取第一段语音形成第一特征序列;将第一特征序列送入语音识别引擎进行识别获得第一词序列并保存;识别完毕后,在所述临时栈中提取与第一段语音紧接的第二段语音形成第二特征序列;将第一特征序列送入语音识别引擎进行识别获得第二次序列,并接续保存在第一词序列之后。
可选的,持续获取原始语音,并接续保存在所述临时栈中。
可选的,获得第一词序列并保存后,删除第一段语音。
可选的,获得第二词序列并保存后,删除第二段语音。
本发明还提供了一种用户终端,包括语音收集模块和语音处理模块,所述语音处理模块在获取所述语音收集模块收集的原始语音后,执行如下步骤:将原始语音保存在一临时栈中;在所述临时栈中提取第一段语音形成第一特征序列;将第一特征序列送入语音识别引擎进行识别获得第一词序列并保存;识别完毕后,在所述临时栈中提取与第一段语音紧接的第二段语音形成第二特征序列;将第一特征序列送入语音识别引擎进行识别获得第二次序列,并接续保存在第一词序列之后。
本发明由于设置了临时栈,保证采样是连续进行的,不受识别时间的影响,不会出现间断,因此输出的文字不会出现丢字的问题。
附图说明
附图1是本发明一具体实施方式所述方法的实施步骤示意图。
附图2是本发明一具体实施方式的原始语音的模拟波形图。
附图3是本发明一具体实施方式所述装置的结构示意图。
具体实施方式
下面结合附图对本发明提供的语音识别方法以及用户终端的具体实施方式做详细说明。
附图1是本具体实施方式所述方法的实施步骤示意图,包括:步骤S10,将原始语音保存在一临时栈中;步骤S11,在所述临时栈中提取第一段语音形成第一特征序列;步骤S12,将第一特征序列送入语音识别引擎进行识别获得第一词序列并保存;步骤S13,识别完毕后,在所述临时栈中提取与第一段语音紧接的第二段语音形成第二特征序列;步骤S14,将第一特征序列送入语音识别引擎进行识别获得第二次序列,并接续保存在第一词序列之后。
参考步骤S10,将原始语音保存在一临时栈中。附图2所示为原始语音的模拟波形图。本步骤中,如果原始语音是一段,则直接将该语音保存在临时栈中,如果原始语音是连续输入的,可以根据时间周期性的获取原始语音,并接续保存在所述临时栈中,形成用于识别的附图2所示的原始语音。
参考步骤S11,在所述临时栈中提取第一段语音V1形成第一特征序列。上述采样可以采用从原始语音信号中提取特征的方式,即从语音波形中提取随时间变化的语音特征序列,作为第一特征序列。
参考步骤S12,将第一特征序列送入语音识别引擎进行识别获得第一词序列并保存。所述语音识别引擎能够将第一特征序列识别为具体的文字。
参考步骤S13,识别完毕后,在所述临时栈中提取与第一段语音V1紧接的第二段语音V2形成第二特征序列。由于原始语音是存在临时栈中的,因此采样可以紧接进行,不会造成丢失。
参考步骤S14,将第一特征序列送入语音识别引擎进行识别获得第二次序列,并接续保存在第一词序列之后。反复执行上述步骤S13和S14,即可以获得连续的文字输出。且由于采样是连续进行的,不受识别时间的影响,不会出现间断,因此输出的文字不会出现丢字的问题。
附图3是本具体实施方式所述装置的结构示意图,包括语音收集模块31和语音处理模块32,所述语音处理模块32在获取所述语音收集模块31收集的原始语音后,执行附图1所示的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种语音识别方法,其特征在于,包括如下步骤:
将原始语音保存在一临时栈中;
在所述临时栈中提取第一段语音形成第一特征序列;
将第一特征序列送入语音识别引擎进行识别获得第一词序列并保存;
识别完毕后,在所述临时栈中提取与第一段语音紧接的第二段语音形成第二特征序列;
将第一特征序列送入语音识别引擎进行识别获得第二次序列,并接续保存在第一词序列之后。
2.根据权利要求1所述的方法,其特征在于,持续获取原始语音,并接续保存在所述临时栈中。
3.根据权利要求1所述的方法,其特征在于,获得第一词序列并保存后,删除第一段语音。
4.根据权利要求1所述的方法,其特征在于,获得第二词序列并保存后,删除第二段语音。
5.一种用户终端,其特征在于,包括语音收集模块和语音处理模块,所述语音处理模块在获取所述语音收集模块收集的原始语音后,执行如下步骤:将原始语音保存在一临时栈中;
在所述临时栈中提取第一段语音形成第一特征序列;
将第一特征序列送入语音识别引擎进行识别获得第一词序列并保存;
识别完毕后,在所述临时栈中提取与第一段语音紧接的第二段语音形成第二特征序列;
将第一特征序列送入语音识别引擎进行识别获得第二次序列,并接续保存在第一词序列之后。
6.根据权利要求5所述的用户终端,其特征在于,持续获取原始语音,并接续保存在所述临时栈中。
7.根据权利要求5所述的用户终端,其特征在于,获得第一词序列并保存后,删除第一段语音。
8.根据权利要求5所述的用户终端,其特征在于,获得第二词序列并保存后,删除第二段语音。
CN201811580728.0A 2018-12-24 2018-12-24 语音识别方法以及用户终端 Pending CN111354337A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811580728.0A CN111354337A (zh) 2018-12-24 2018-12-24 语音识别方法以及用户终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811580728.0A CN111354337A (zh) 2018-12-24 2018-12-24 语音识别方法以及用户终端

Publications (1)

Publication Number Publication Date
CN111354337A true CN111354337A (zh) 2020-06-30

Family

ID=71195502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811580728.0A Pending CN111354337A (zh) 2018-12-24 2018-12-24 语音识别方法以及用户终端

Country Status (1)

Country Link
CN (1) CN111354337A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319393A (ja) * 1996-05-24 1997-12-12 Hitachi Ltd 音声認識翻訳システム
US20030110033A1 (en) * 2001-10-22 2003-06-12 Hamid Sheikhzadeh-Nadjar Method and system for real-time speech recognition
JP2009098293A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 音声認識装置
CN103474062A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种语音识别方法
CN107886944A (zh) * 2017-11-16 2018-04-06 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质
CN108053822A (zh) * 2017-11-03 2018-05-18 深圳和而泰智能控制股份有限公司 一种语音信号处理方法、装置、终端设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319393A (ja) * 1996-05-24 1997-12-12 Hitachi Ltd 音声認識翻訳システム
US20030110033A1 (en) * 2001-10-22 2003-06-12 Hamid Sheikhzadeh-Nadjar Method and system for real-time speech recognition
JP2009098293A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 音声認識装置
CN103474062A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种语音识别方法
CN108053822A (zh) * 2017-11-03 2018-05-18 深圳和而泰智能控制股份有限公司 一种语音信号处理方法、装置、终端设备及介质
CN107886944A (zh) * 2017-11-16 2018-04-06 出门问问信息科技有限公司 一种语音识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108182937B (zh) 关键词识别方法、装置、设备及存储介质
CN105261356A (zh) 一种语音识别系统及方法
CN107369439B (zh) 一种语音唤醒方法和装置
EP3185521B1 (en) Voice wake-up method and device
CN110047481B (zh) 用于语音识别的方法和装置
DE60033549D1 (de) Verfahren und vorrichtungen zur analyse von signalen
CN105975569A (zh) 一种语音处理的方法及终端
CN102099853B (zh) 用于识别语音情感变化的设备和方法
CN104538034A (zh) 一种语音识别方法及系统
CN104468959A (zh) 移动终端通话过程中显示图像的方法、装置及移动终端
CN105635778A (zh) 一种智能电视的语音交互方法及系统
CN111462758A (zh) 智能会议角色分类的方法、装置、设备及存储介质
CN112037776A (zh) 一种语音识别方法、语音识别装置及终端设备
CN113129898A (zh) 一种机器辅助的会议记录系统及方法
CN105869636A (zh) 一种语音识别装置及其方法、一种智能电视及其控制方法
CN105741841A (zh) 语音控制方法及电子设备
CN106559540A (zh) 语音数据处理方法及装置
CN109686365B (zh) 一种语音识别方法和语音识别系统
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN111354337A (zh) 语音识别方法以及用户终端
CN107196979A (zh) 基于语音识别的叫号预提醒系统
CN106020647A (zh) 一种自动提取图片内容的方法及系统
CN104346151A (zh) 一种信息处理方法及电子设备
CN106372055B (zh) 一种人机自然语言交互中的语义相似处理方法及系统
CN110232919A (zh) 实时语音流提取与语音识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200630

RJ01 Rejection of invention patent application after publication