CN110211609A - 一种提升语音识别准确率的方法 - Google Patents

一种提升语音识别准确率的方法 Download PDF

Info

Publication number
CN110211609A
CN110211609A CN201910477254.5A CN201910477254A CN110211609A CN 110211609 A CN110211609 A CN 110211609A CN 201910477254 A CN201910477254 A CN 201910477254A CN 110211609 A CN110211609 A CN 110211609A
Authority
CN
China
Prior art keywords
user
voice data
recognition result
speech
data library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910477254.5A
Other languages
English (en)
Inventor
蒋智斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201910477254.5A priority Critical patent/CN110211609A/zh
Publication of CN110211609A publication Critical patent/CN110211609A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提升语音识别准确率的方法,包括实时记录用户输入的语音数据、比较用户语音数据库、比较标准语音数据库、得到最终的识别结果、用户判断识别结果是否正确、输入语音和正确结果到用户数据库、刷新用户数据库、按照正确的识别结果进行操作。本发明的方法通过在标准数据库之外,额外建立当前用户的专属语音数据库,将识别错误的用户语音数据添加到用户语音数据库中,并将用户语音数据库优先进行模型匹配和检索,达到提升高频率用户的语音识别准确率的效果,提升用户的交互使用体验。

Description

一种提升语音识别准确率的方法
技术领域
本发明涉及语音识别技术领域,特别涉及一种提升语音识别准确率的方法。
背景技术
人机交互是通过输入,输出设备,以有效的方式实现人与机器对话的技术。已广泛应用在消费电子,通信,家电,医疗,汽车等各个行业。主要有基于传统硬件设备的交互技术,基于触控的交互技术,基于语音识别的交互技术等。近年来,随着人工智能的发展以及计算机处理能力的增强,使得语音识别技术日趋成熟并被广泛应用于智能终端上。电视行业也是人机交互比较频繁行业,之前的用户大部分都是通过遥控键来选择和点播电视节目,通过集成人工智能模块,以语音的方式来和电视机进行人机交互,可以用比较简单便捷的方式来操作电视机和获取各项信息,跳过了之前繁琐的设置功能选项和操作。因此,语音识别的效果就直接关系到了用户对产品的体验与评价,改善用户交互体验成为了消费电子,家电产品的核心需求之一。
目前市面上支持语音交互的电视机越来越多,基本上都是以普通话作为语音输入。但是每个人的普通话发音都或多或少存在不标准的情况,再加上一些的同音字的影响,导致语音识别的准确率随着不同的人存在比较明显的差别。而大部分的电视机都没有提供语音识别的纠错功能,导致对于错误识别的语音,一旦识别错误,后续无法进行修正,严重影响用户体验。考虑到电视机、家用空调、音箱等的使用用户是以家庭成员为主,使用的人数基本限定在个位数。所以可以通过建立针对当前使用用户的语音数据库,将那些无法通过标准语音库识别的语音数据存入数据库中,来解决某些特定语音输入无法识别和识别准确率低的问题。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种提升语音识别准确率的方法,通过在标准数据库之外,额外建立当前用户的专属语音数据库,将识别错误的用户语音数据(特征值)添加到用户语音数据库中,并将用户语音数据库优先进行模型匹配和检索,达到提升高频率用户的语音识别准确率的效果,提升用户的交互使用体验。
为了达到上述的技术效果,本发明采取以下技术方案:
一种提升语音识别准确率的方法,包括以下步骤:
A.实时采集用户录入的语音数据并获取采集到的语音数据的语音特征值;
B.将获取到的语音特征值先在用户语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值,计算识别结果的可靠度分数值为现有语音识别技术中较为成熟的计算方法,此处不再赘述;
C.再将获取到的语音特征值在标准语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值;
D.将由用户语音数据库得到的识别结果与由标准语音数据库得到的识别结果的可靠度分数值进行比较,在分数相同时,将由用户语音数据库得到的识别结果作为最终识别结果,否则,以分数高的识别结果作为最终识别结果;
E.向用户返回最终识别结果,并在用户对最终识别结果无修改时执行对应的指令。
进一步地,还包括以下步骤:
F.若用户对最终识别结果有修改时,则由用户重新输入语音及该语音对应的正确的文本信息;
G.将用户录入的语音的语音特征值及该语音特征值对应的正确的文本信息保存至用户语音数据库并对用户语音数据库进行刷新;
H.执行用户输入的正确的文本信息对应的指令。
进一步地,所述步骤A具体为:
A1.在获取到用户语音输入后通过采样量化得到数字语音数据;
A2.通过MFCC模型,提取输入语音数据的语音特征值。
进一步地,所述步骤B及步骤C中是将用户语音数据库或标准语音数据库中与步骤A获取到的语音特征值差异最小的数据库特征值样本作为的识别结果。
进一步地,所述步骤E中向用户返回最终识别结果时可通过将识别结果在设备的屏幕上进行显示或通过语音播放器进行语音播放告知。
本发明与现有技术相比,具有以下的有益效果:
本发明的提升语音识别准确率的方法,通过在标准数据库之外,额外建立当前用户的专属语音数据库,并通过增加接口提供用户增加或者修改用户语音数据库的功能,用户发现当前机器无法正确识别自己的语音输入时,可通过增加用户语音数据库输入当前无法识别的语音字或者词条,达到提升识别非标准语音准确率的效果,提升用户的使用体验。
附图说明
图1是本发明的提升语音识别准确率的方法的流程示意图。
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
实施例一:
如图1所示,一种提升语音识别准确率的方法,包括以下步骤:
步骤一:实时采集用户录入的语音数据并获取采集到的语音数据的语音特征值;
如用户通过语音输入设备(如遥控器,手机,麦克风等)发出语音指令,然后智能设备将输入的实时语音数据进行特征提取得到语音数据的语音特征值。
具体为:用户通过语音输入设备发出操作指令,机器通过取样,量化,然后将语音数据的特征提取出来;语音数据的特征就是音频信号中去掉无用的信息比如背景噪声、情绪等后剩下的具有辨识性的成分。且根据不同的模型,有不同的特征提取方法,本实施例中采用使用比较广泛的基于人耳听觉特性的梅尔倒谱系数(MFCC)模型获取语音特征值,可有效反映声道的形状在语音短时功率谱的包络的特征。
步骤二:将获取到的语音特征值在用户语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值,其中,计算识别结果的可靠度分数值为现有语音识别技术中较为成熟的计算方法,此处不再赘述;
大多数消费类电子电器的智能机器(电视机,手机,家庭智能音箱,家教机器人等)使用的用户都只有固定的几个人,而他们的发音和标准的语音数据库一般都存在或多或少的区别,另外,具有人工智能功能的消费类电子的用途也是有限的,像电视机常用的语音输入指令一般都是点播电视节目,看直播换台,设置图像等等,所能使用到的词汇是相对有限的,基于这两个特性,本发明的方法中是采用建立一个优先级比较高,容量相对较小的用户语音数据库,来存储用户使用比较频繁而通过标准语音数据库无法正确识别的语音数据。
当获取到用户语音输入后,通过采样量化即可得到数字语音数据;然后通过MFCC模型,提取输入语音数据的特征值;接着优先从用户语音数据库中检索和比较输入语音的MFCC特征值;将和输入语音数据的特征值之间差异最小的对应的数据库特征值样本作为的识别结果,并估算识别结果的可靠度分数值。
步骤三:再将获取到的语音特征值在标准语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值;
该步骤和现在主流的机器流程一样,从标准语音数据库中检索和比较输入语音特征值,得到识别的结果并估算识别结果的可靠度分数值。
步骤四:将由用户语音数据库得到的识别结果与由标准语音数据库得到的识别结果的可靠度分数值进行比较,在分数相同时,将由用户语音数据库得到的识别结果作为最终识别结果,否则,以分数高的识别结果作为最终识别结果;
本实施例中,输入用户的特征值和数据库中记录的特征值差异越小的,则认为意义相同的概率越大,即可靠度分数就越高,则在相同的分数下,用户语音数据库的特征值比标准语音数据库中的特征值优先级更高,具有更高的可信度,若在可靠度分数不同时,选取可靠度分数最高的识别结果作为最终的语音识别结果。其中,在设定标准语音数据库的可靠度分数评分规则时,可将其设定为一个较严格的评分标准,而在设定用户语音数据库的可靠度分数评分规则时,则可采用一个评分阈值范围较宽的评分标准。
步骤五:向用户返回最终识别结果,并在用户对最终识别结果无修改时执行对应的指令;
如将最终的识别结果显示在屏幕上或者通过智能机器回话告知用户,基于智能机器得到最终的结果,用户会选择是否要进行修正,在后期,用户语音数据库已经比较完善,识别率很高的情况下也可以通过设置忽略这一功能。
F.若用户对最终识别结果有修改时,则由用户重新输入语音及该语音对应的正确的文本信息;
如果用户认为智能机器给出的识别结果是错误的,需要进行修正,用户可以选择此功能,输入正确的识别结果及对应的语音。
G.将用户录入的语音的语音特征值及该语音特征值对应的正确的文本信息保存至用户语音数据库并对用户语音数据库进行刷新;
用户输入的正确的识别结果及对应的语音后,由智能机器提取语音特征值,并将语音特征值和正确结果存入用户数据库中,并修改当前的最终识别结果为用户给出的正确结果。
H.执行用户输入的正确的文本信息对应的指令;即机器将会按照用户的语言指令进行操作,比如电视切换到中央一台,上网浏览网页等。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (5)

1.一种提升语音识别准确率的方法,其特征在于,包括以下步骤:
A.实时采集用户录入的语音数据并获取采集到的语音数据的语音特征值;
B.将获取到的语音特征值先在用户语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值;
C.再将获取到的语音特征值在标准语音数据库内进行检索比对并输出识别结果及该结果的可靠度分数值;
D.将由用户语音数据库得到的识别结果与由标准语音数据库得到的识别结果的可靠度分数值进行比较,在分数相同时,将由用户语音数据库得到的识别结果作为最终识别结果,否则,以分数高的识别结果作为最终识别结果;
E.向用户返回最终识别结果,并在用户对最终识别结果无修改时执行对应的指令。
2.根据权利要求1所述的一种提升语音识别准确率的方法,其特征在于,还包括以下步骤:
F.若用户对最终识别结果有修改时,则由用户重新输入语音及该语音对应的正确的文本信息;
G.将用户录入的语音的语音特征值及该语音特征值对应的正确的文本信息保存至用户语音数据库并对用户语音数据库进行刷新;
H.执行用户输入的正确的文本信息对应的指令。
3.根据权利要求1所述的一种提升语音识别准确率的方法,其特征在于,所述步骤A具体为:
A1.在获取到用户语音输入后通过采样量化得到数字语音数据;
A2.通过MFCC模型,提取输入语音数据的语音特征值。
4.根据权利要求3所述的一种提升语音识别准确率的方法,其特征在于,所述步骤B及步骤C中是将用户语音数据库或标准语音数据库中与步骤A获取到的语音特征值差异最小的数据库特征值样本作为的识别结果。
5.根据权利要求1所述的一种提升语音识别准确率的方法,其特征在于,所述步骤E中向用户返回最终识别结果时可通过将识别结果在设备的屏幕上进行显示或通过语音播放器进行语音播放告知。
CN201910477254.5A 2019-06-03 2019-06-03 一种提升语音识别准确率的方法 Pending CN110211609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910477254.5A CN110211609A (zh) 2019-06-03 2019-06-03 一种提升语音识别准确率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910477254.5A CN110211609A (zh) 2019-06-03 2019-06-03 一种提升语音识别准确率的方法

Publications (1)

Publication Number Publication Date
CN110211609A true CN110211609A (zh) 2019-09-06

Family

ID=67790365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910477254.5A Pending CN110211609A (zh) 2019-06-03 2019-06-03 一种提升语音识别准确率的方法

Country Status (1)

Country Link
CN (1) CN110211609A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908296A (zh) * 2021-02-18 2021-06-04 上海工程技术大学 一种方言识别方法
CN113327612A (zh) * 2021-05-27 2021-08-31 广州广电运通智能科技有限公司 基于智能点评的语音应答优化方法、系统、设备及介质
CN113782023A (zh) * 2021-09-26 2021-12-10 中电科思仪科技股份有限公司 一种基于程控指令的语音控制方法及系统
CN114120977A (zh) * 2021-11-23 2022-03-01 四川虹美智能科技有限公司 语音识别的生词自学习方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN106548774A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 语音识别的设备和方法以及训练变换参数的设备和方法
CN106875939A (zh) * 2017-01-13 2017-06-20 佛山市父母通智能机器人有限公司 对大范围波动的汉语方言语音识别处理方法及智能机器人
CN108806691A (zh) * 2017-05-04 2018-11-13 有爱科技(深圳)有限公司 语音识别方法及系统
CN109074804A (zh) * 2018-07-18 2018-12-21 深圳魔耳智能声学科技有限公司 基于口音的语音识别处理方法、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548774A (zh) * 2015-09-18 2017-03-29 三星电子株式会社 语音识别的设备和方法以及训练变换参数的设备和方法
CN106537493A (zh) * 2015-09-29 2017-03-22 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN106875939A (zh) * 2017-01-13 2017-06-20 佛山市父母通智能机器人有限公司 对大范围波动的汉语方言语音识别处理方法及智能机器人
CN108806691A (zh) * 2017-05-04 2018-11-13 有爱科技(深圳)有限公司 语音识别方法及系统
CN109074804A (zh) * 2018-07-18 2018-12-21 深圳魔耳智能声学科技有限公司 基于口音的语音识别处理方法、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908296A (zh) * 2021-02-18 2021-06-04 上海工程技术大学 一种方言识别方法
CN113327612A (zh) * 2021-05-27 2021-08-31 广州广电运通智能科技有限公司 基于智能点评的语音应答优化方法、系统、设备及介质
CN113782023A (zh) * 2021-09-26 2021-12-10 中电科思仪科技股份有限公司 一种基于程控指令的语音控制方法及系统
CN114120977A (zh) * 2021-11-23 2022-03-01 四川虹美智能科技有限公司 语音识别的生词自学习方法和装置

Similar Documents

Publication Publication Date Title
US11270074B2 (en) Information processing apparatus, information processing system, and information processing method, and program
CN110211609A (zh) 一种提升语音识别准确率的方法
CN108075892B (zh) 一种语音处理的方法、装置和设备
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
US10013977B2 (en) Smart home control method based on emotion recognition and the system thereof
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
CN110970018B (zh) 语音识别方法和装置
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
CN110265040A (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN102404278A (zh) 一种基于声纹识别的点歌系统及其应用方法
CN102385860A (zh) 信息处理设备、信息处理方法及程序
CN107369439A (zh) 一种语音唤醒方法和装置
CN110956965A (zh) 一种基于声纹识别的个性化智能家居安全控制系统及方法
WO2023184942A1 (zh) 语音交互方法、装置及电器
CN106558306A (zh) 用于语音识别的方法、装置和设备
CN103943111A (zh) 一种身份识别的方法及装置
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN110931018A (zh) 智能语音交互的方法、装置及计算机可读存储介质
CN116343797A (zh) 语音唤醒方法及相应装置
CN118020100A (zh) 语音数据的处理方法及装置
CN108322770A (zh) 视频节目识别方法、相关装置、设备和系统
JPWO2018020763A1 (ja) 情報処理装置
CN111640423B (zh) 一种词边界估计方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190906