CN110459206A - 一种基于双机器识别的语音识别系统及方法 - Google Patents

一种基于双机器识别的语音识别系统及方法 Download PDF

Info

Publication number
CN110459206A
CN110459206A CN201910764021.3A CN201910764021A CN110459206A CN 110459206 A CN110459206 A CN 110459206A CN 201910764021 A CN201910764021 A CN 201910764021A CN 110459206 A CN110459206 A CN 110459206A
Authority
CN
China
Prior art keywords
speech recognition
denoising
identification
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910764021.3A
Other languages
English (en)
Inventor
刘春英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heze University
Original Assignee
Heze University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heze University filed Critical Heze University
Priority to CN201910764021.3A priority Critical patent/CN110459206A/zh
Publication of CN110459206A publication Critical patent/CN110459206A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明公开了一种基于双机器识别的语音识别方法,涉及语音识别技术领域,其包括以下步骤:S1,去噪模型接收语音采集模块采集到的语音信息,按照设定的参数对语音信息进行去噪;S2,去噪后的语音信息被输入到语音识别模型内按照设定的参数进行语音识别;S3,语音识别完成后,结果识别模块对识别结果进行判定,当识别结果的准确率小于设定的阈值时,检测去噪模型与语音识别模型的准确性;S4,对去噪模型和/或语音识别模型的参数进行反向训练更新,本发明的有益效果是:语音识别效率高,同时由于特征向量序列具有与其匹配的标签序列,在后续识别结果不够精确时,能够方便的找出问题所在,及时的更改参数或重新进行训练等,以保证结果的准确性。

Description

一种基于双机器识别的语音识别系统及方法
技术领域
本发明涉及语音识别技术领域,具体是一种基于双机器识别的语音识别系统及方法。
背景技术
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
现有语音识别方法中,可根据已有的声学模型进行语音识别,但是其仍然存在着识别效率低下的问题,基于此,本申请提出了一种基于双机器识别的语音识别系统及方法。
发明内容
本发明的目的在于提供一种基于双机器识别的语音识别系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于双机器识别的语音识别方法,包括以下步骤:
S1,去噪模型接收语音采集模块采集到的语音信息,按照设定的参数对语音信息进行去噪;
S2,去噪后的语音信息被输入到语音识别模型内按照设定的参数进行语音识别;
S3,语音识别完成后,结果识别模块对识别结果进行判定,当识别结果的准确率小于设定的阈值时,检测去噪模型与语音识别模型的准确性;
S4,对去噪模型和/或语音识别模型的参数进行反向训练更新。
作为本发明进一步的方案:步骤S1中,去噪模型首先对得到的语音段落分割成连续的特性向量,形成特征向量序列,然后为每段所述赋予标签序号,形成标签序列,之后再对形成的特征向量序列执行去噪。
作为本发明再进一步的方案:步骤S2中,去噪后的语音信息至少包括特征向量序列和与其关联的标签序列。
作为本发明再进一步的方案:步骤S3中,当识别结果的准确率小于设定的阈值时,数据分析模块对识别结果进行分析,获取识别错误的语音段落及该语音段落对应的特征向量和标签序号,判定准确率低的原因是在去噪阶段和/或语音识别阶段,进而对去噪模型和/或语音识别模型的参数进行反向训练更新。
一种基于双机器识别的语音识别系统,包括与中央处理器通讯的去噪模型和语音识别模型,其中:
所述去噪模型,用于将得到的语音段落分割成连续的特性向量,形成特征向量序列,然后为每段所述赋予标签序号形成标签序列,之后再对特征向量序列执行去噪;
语音识别模型,为经过去噪后的特性向量按照设定的参数进行语音识别,并输出识别结果。
作为本发明进一步的方案:还包括语音采集模块,用于接收或采集语音信息,供中央处理器调用。
作为本发明进一步的方案:还包括与中央处理器通讯的数据分析模块和结果识别模块,其中,所述结果识别模块用于对识别结果进行判定,检测识别结果的准确率是否小于设定的阈值;所述数据分析模块用于在检测识别结果准确率小于设定的阈值时,获取识别错误的语音段落及该语音段落对应的特征向量和标签序号,判定准确率低的原因是在去噪阶段和/或语音识别阶段,然后向中央处理器发送信号,进而对去噪模型和/或语音识别模型的参数进行反向训练更新。
与现有技术相比,本发明的有益效果是:由于去噪模型在先已经将语音段落分割成特性向量,来执行去噪,在进入到语音识别模型内无需再次生成特征向量,语音识别效率高,同时由于特征向量序列具有与其匹配的标签序列,在后续识别结果不够精确时,能够方便的找出问题所在,及时的更改参数或重新进行训练等,以保证结果的准确性。
附图说明
图1为一种基于双机器识别的语音识别系统的结构示意图。
图2为一种基于双机器识别的语音识别系统的工作流程图。
图3为一种基于双机器识别的语音识别方法的流程图。
图中:100-中央处理器、200-语音采集模块、300-去噪模型、400-语音识别模型、500-数据分析模块、600-结果识别模块。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本实施例公开的一些方面相一致的装置和方法的例子。
实施例1
请参阅图1~2,本发明实施例中,一种基于双机器识别的语音识别系统,包括与中央处理器100通讯的语音采集模块200、去噪模型300和语音识别模型400,其中:
语音采集模块200,用于接收或采集语音信息,来供中央处理器100调用,实际应用时,其可以直接采集语音信息(如拾音器等),或接收已经采集好的语音信息,此处,语音采集模块200不限于使用网络传输等方式获得;
所述去噪模型300,用于将得到的语音段落分割成连续的特性向量,形成特征向量序列,然后为每段所述赋予标签序号形成标签序列,之后再对特征向量序列执行去噪;
语音识别模型400,为经过去噪后的特性向量按照设定的参数进行语音识别,并输出识别结果。
本实施例中,由于去噪模型300在先已经将语音段落分割成特性向量,来执行去噪,在进入到语音识别模型400内无需再次生成特征向量,语音识别效率高,同时由于特征向量序列具有与其匹配的标签序列,在后续识别结果不够精确时,能够方便的找出问题所在,及时的更改参数或重新进行训练等。
具体的来说,还包括与中央处理器100通讯的数据分析模块500和结果识别模块600,其中,所述结果识别模块600用于对识别结果进行判定,检测识别结果的准确率是否小于设定的阈值,其具体识别方式可以为将识别结果与标准结果进行比对来实现;而所述数据分析模块500用于在检测识别结果准确率小于设定的阈值时,获取识别错误的语音段落及该语音段落对应的特征向量和标签序号,判定准确率低的原因是在去噪阶段和/或语音识别阶段,然后向中央处理器100发送信号,进而对去噪模型300和/或语音识别模型400的参数进行反向训练更新。
实施例2
请参阅图3,本发明实施例中,一种基于双机器识别的语音识别方法,包括以下步骤:
S1,去噪模型接收语音采集模块采集到的语音信息,按照设定的参数对语音信息进行去噪,具体的方式为,首先对得到的语音段落分割成连续的特性向量,形成特征向量序列,然后为每段所述赋予标签序号,形成标签序列,之后再对形成的特征向量序列执行去噪;
S2,去噪后的语音信息(标签序列及已经完成去燥的特征向量序列)被输入到语音识别模型内按照设定的参数进行语音识别;
S3,语音识别完成后,结果识别模块对识别结果进行判定,当识别结果的准确率小于设定的阈值时,检测去噪模型与语音识别模型的准确性;
S4,对去噪模型和/或语音识别模型的参数进行反向训练更新。
当识别结果的准确率小于设定的阈值时,数据分析模块对识别结果进行分析,获取识别错误的语音段落及该语音段落对应的特征向量和标签序号,判定准确率低的原因是在去噪阶段和/或语音识别阶段,进而对去噪模型和/或语音识别模型的参数进行反向训练更新;当准确率大于设定的阈值时,那么直接输出识别结果即可。
需要特别说明的是,本技术方案中,由于去噪模型300在先已经将语音段落分割成特性向量,来执行去噪,在进入到语音识别模型400内无需再次生成特征向量,语音识别效率高,同时由于特征向量序列具有与其匹配的标签序列,在后续识别结果不够精确时,能够方便的找出问题所在,及时的更改参数或重新进行训练等,以保证结果的准确性。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (7)

1.一种基于双机器识别的语音识别方法,其特征在于,包括以下步骤:
S1,去噪模型接收语音采集模块采集到的语音信息,按照设定的参数对语音信息进行去噪;
S2,去噪后的语音信息被输入到语音识别模型内按照设定的参数进行语音识别;
S3,语音识别完成后,结果识别模块对识别结果进行判定,当识别结果的准确率小于设定的阈值时,检测去噪模型与语音识别模型的准确性;
S4,对去噪模型和/或语音识别模型的参数进行反向训练更新。
2.根据权利要求1所述的一种基于双机器识别的语音识别方法,其特征在于,步骤S1中,去噪模型首先对得到的语音段落分割成连续的特性向量,形成特征向量序列,然后为每段所述赋予标签序号,形成标签序列,之后再对形成的特征向量序列执行去噪。
3.根据权利要求2所述的一种基于双机器识别的语音识别方法,其特征在于,步骤S2中,去噪后的语音信息至少包括特征向量序列和与其关联的标签序列。
4.根据权利要求3所述的一种基于双机器识别的语音识别方法,其特征在于,步骤S3中,当识别结果的准确率小于设定的阈值时,数据分析模块对识别结果进行分析,获取识别错误的语音段落及该语音段落对应的特征向量和标签序号,判定准确率低的原因是在去噪阶段和/或语音识别阶段,进而对去噪模型和/或语音识别模型的参数进行反向训练更新。
5.一种基于双机器识别的语音识别系统,其特征在于,包括与中央处理器(100)通讯的:
去噪模型(300),用于将得到的语音段落分割成连续的特性向量,形成特征向量序列,然后为每段所述赋予标签序号形成标签序列,之后再对特征向量序列执行去噪;
语音识别模型(400),为经过去噪后的特性向量按照设定的参数进行语音识别,并输出识别结果。
6.根据权利要求5所述的一种基于双机器识别的语音识别系统,其特征在于,还包括语音采集模块(200),用于接收或采集语音信息,供中央处理器(100)调用。
7.根据权利要求5所述的一种基于双机器识别的语音识别系统,其特征在于,还包括与中央处理器(100)通讯的:
结果识别模块(600),用于对识别结果进行判定,检测识别结果的准确率是否小于设定的阈值;
数据分析模块(500),用于在检测识别结果准确率小于设定的阈值时,获取识别错误的语音段落及该语音段落对应的特征向量和标签序号,判定准确率低的原因是在去噪阶段和/或语音识别阶段,然后向中央处理器(100)发送信号,进而对去噪模型(300)和/或语音识别模型(400)的参数进行反向训练更新。
CN201910764021.3A 2019-08-19 2019-08-19 一种基于双机器识别的语音识别系统及方法 Withdrawn CN110459206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910764021.3A CN110459206A (zh) 2019-08-19 2019-08-19 一种基于双机器识别的语音识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910764021.3A CN110459206A (zh) 2019-08-19 2019-08-19 一种基于双机器识别的语音识别系统及方法

Publications (1)

Publication Number Publication Date
CN110459206A true CN110459206A (zh) 2019-11-15

Family

ID=68487533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910764021.3A Withdrawn CN110459206A (zh) 2019-08-19 2019-08-19 一种基于双机器识别的语音识别系统及方法

Country Status (1)

Country Link
CN (1) CN110459206A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102816A (zh) * 2020-08-17 2020-12-18 北京百度网讯科技有限公司 语音识别方法、装置、系统、电子设备和存储介质
CN113257227A (zh) * 2021-04-25 2021-08-13 平安科技(深圳)有限公司 语音识别模型性能检测方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102816A (zh) * 2020-08-17 2020-12-18 北京百度网讯科技有限公司 语音识别方法、装置、系统、电子设备和存储介质
CN113257227A (zh) * 2021-04-25 2021-08-13 平安科技(深圳)有限公司 语音识别模型性能检测方法、装置、设备及存储介质
WO2022227195A1 (zh) * 2021-04-25 2022-11-03 平安科技(深圳)有限公司 语音识别模型性能检测方法、装置、设备及存储介质
CN113257227B (zh) * 2021-04-25 2024-03-01 平安科技(深圳)有限公司 语音识别模型性能检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN107171872B (zh) 一种智能家居中用户行为预测方法
US10834501B2 (en) Information processing method, information processing device, and recording medium
CN103236261B (zh) 一种特定人语音识别的方法
CN110459206A (zh) 一种基于双机器识别的语音识别系统及方法
CN111832462B (zh) 一种基于深度神经网络的跳频信号检测与参数估计方法
CN104952450A (zh) 远场识别的处理方法和装置
CN111091813A (zh) 语音唤醒模型更新方法、装置、设备及介质
CN111862951A (zh) 语音端点检测方法及装置、存储介质、电子设备
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强系统及方法
CN109595757B (zh) 空调器的控制方法、装置及具有其的空调器
CN110458096A (zh) 一种基于深度学习的大规模商品识别方法
CN109599107A (zh) 一种语音识别的方法、装置及计算机存储介质
CN110688471A (zh) 训练样本获取方法、装置及设备
CN109346066A (zh) 一种语音降噪的方法及装置
CN107592600B (zh) 一种基于分布式麦克风的拾音筛选方法及拾音装置
US10956792B2 (en) Methods and apparatus to analyze time series data
CN110070891B (zh) 一种歌曲识别方法、装置以及存储介质
CN104850225A (zh) 一种基于多层次融合的活动识别方法
CN109087646A (zh) 一种导入人工智能超深度学习用于语音图像识别的方法
CN113628077A (zh) 生成不重复考题的方法、终端及可读存储介质
CN103929531B (zh) 一种信息处理方法及电子设备
CN111176430B (zh) 一种智能终端的交互方法、智能终端及存储介质
CN111596261A (zh) 一种声源定位方法及装置
CN110674949A (zh) 一种基于大数据的工件故障智能补偿方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191115