CN106469553A - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN106469553A
CN106469553A CN201510496816.2A CN201510496816A CN106469553A CN 106469553 A CN106469553 A CN 106469553A CN 201510496816 A CN201510496816 A CN 201510496816A CN 106469553 A CN106469553 A CN 106469553A
Authority
CN
China
Prior art keywords
voice messaging
module
sound characteristic
predesignated subscriber
judged result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510496816.2A
Other languages
English (en)
Inventor
曾庭
曾一庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510496816.2A priority Critical patent/CN106469553A/zh
Priority to PCT/CN2016/082079 priority patent/WO2017024835A1/zh
Publication of CN106469553A publication Critical patent/CN106469553A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音识别方法及装置,其中,该方法包括:获取并识别语音信息;判断该语音信息与预先提取的预定用户的声音特征是否相符;在判断结果为是的情况下,确定该语音信息为该预定用户的语音信息,解决了相关技术中语音识别受其他声音影响导致误识别率高的问题,降低了误识别率。

Description

语音识别方法及装置
技术领域
本发明涉及通信领域,具体而言,涉及一种语音识别方法及装置。
背景技术
随着苹果siri的发布,智能语音应用进入了爆发式的发展,对于语音应用来说,语音识别的成功率是衡量语音应用的一个重要指标,目前语音识别都是获取到声音的输入,然后根据输入的声音来进行相应的识别,然而目前的语音应用都无法区分出是用户说话的声音,还是周围的环境噪声,或者是其他人的声音,这就导致了一个问题,在安静的环境下,语音应用的识别成功率都很高,而一旦在实际的使用场景中,一旦周围有突发的环境噪音,或者其他人的人声都会触发语音应用开始识别,导致语音应用误触发,从而出现识别成功率大幅下降的情况。
目前的语音识别都有一个置信度的概念,即将用户说话的录音与引擎预置的经过大数据量培训后的标准数据进行匹配,置信度越高代表越正确。而语音应用就是根据自己的情况确定一个置信度作为标准,超过这个标准认为识别正确,低于这个标准认为识别不正确。
由于语音应用是通过置信度的方式来判断识别成功或者失败的,置信度阈值设置低,识别容易,用户的命令不需要说的很标准,声音也不需要很响亮,就可以得到识别结果,但是也更容易将周围噪音当成用户声音进行识别,从而导致了误识别的发生,降低了识别率;置信度阈值设置高,识别精准,受噪音影响小,但是用户命令需要说的很标准,同时声音响亮,才能识别成功,很多时候用户明明已经说的很清楚,但是仍然没有通过置信度阈值,导致识别失败。
置信度的方式是没有办法区分是否是用户自己说出的命令还是其他的人声,在实际的使用场景中,比如在驾驶环境中,在其他人说话的情况下,也很容易会导致语音应用开始误识别,出现识别率降低的情况。
针对相关技术中语音识别受其他声音影响导致误识别率高的问题,还未提出有效的解决方案。
发明内容
本发明提供了一种语音识别方法及装置,以至少解决相关技术中语音识别受其他声音影响导致误识别率高的问题。
根据本发明的一个方面,提供了一种语音识别方法,包括:获取并识别语音信息;判断所述语音信息与预先提取的预定用户的声音特征是否相符;在判断结果为是的情况下,确定所述语音信息为所述预定用户的语音信息。
进一步地,在确定所述语音信息为所述预定用户的语音信息之后,所述方法还包括:判断所述语音信息的置信度是否超过预设阈值;在判断结果为是的情况下,确定所述语音信息为所述预定用户下达的指令;在判断结果为否的情况下,丢弃所述语音信息。
进一步地,在确定所述语音信息为所述预定用户下达的指令之后,所述方法还包括:执行所述语音信息对应的指令。
进一步地,在判断所述语音信息与预先提取的预定用户的声音特征是否相符之前,所述方法还包括:通过重复获取相同的录音提取所述录音的声音特征;保存提取的所述声音特征。
进一步地,在保存提取的所述声音特征之前,所述方法还包括:确定所述声音特征的置信度超过预设阈值。
根据本发明的另一方面,还提供了一种语音识别装置,包括:获取模块,用于获取并识别语音信息;第一判断模块,用于判断所述语音信息与预先提取的预定用户的声音特征是否相符;第一确定模块,用于在判断结果为是的情况下,确定所述语音信息为所述预定用户的语音信息。
进一步地,所述装置还包括:第二判断模块,用于判断所述语音信息的置信度是否超过预设阈值;第二确定模块,用于在判断结果为是的情况下,确定所述语音信息为所述预定用户下达的指令;丢弃模块,用于在判断结果为否的情况下,丢弃所述语音信息。
进一步地,所述装置还包括:执行模块,用于执行所述语音信息对应的指令。
进一步地,所述装置还包括:重复获取模块,用于通过重复获取相同的录音提取所述录音的声音特征;保存模块,用于保存提取的所述声音特征。
进一步地,所述装置还包括:第三确定模块,用于确定所述声音特征的置信度超过预设阈值。
通过本发明,采用获取并识别语音信息;判断所述语音信息与预先提取的预定用户的声音特征是否相符;在判断结果为是的情况下,确定所述语音信息为所述预定用户的语音信息,解决了相关技术中语音识别受其他声音影响导致误识别率高的问题,降低了误识别率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的语音识别方法的流程图;
图2是根据本发明实施例的语音识别装置的框图;
图3是根据本发明优选实施例的语音识别装置的框图一;
图4是根据本发明实施例的提取声音特征的示意图;
图5是根据本发明实施例的语音识别的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供了一种语音识别方法,图1是根据本发明实施例的语音识别方法的流程图,如图1所示,包括:
步骤S102,获取并识别语音信息;
步骤S104,判断该语音信息与预先提取的预定用户的声音特征是否相符;
步骤S106,在判断结果为是的情况下,确定该语音信息为该预定用户的语音信息。
通过上述步骤,获取并识别语音信息;判断该语音信息与预先提取的预定用户的声音特征是否相符;在判断结果为是的情况下,确定该语音信息为该预定用户的语音信息,解决了相关技术中语音识别受其他声音影响导致误识别率高的问题,降低了误识别率。
在确定该语音信息为该预定用户的语音信息之后,判断该语音信息的置信度是否超过预设阈值;在判断结果为是的情况下,确定该语音信息为该预定用户下达的指令;在判断结果为否的情况下,丢弃该语音信息。
在确定该语音信息为该预定用户下达的指令之后,执行该语音信息对应的指令,例如根据指令触发某应用。
在判断该语音信息与预先提取的预定用户的声音特征是否相符之前,通过重复获取相同的录音提取该录音的声音特征;保存提取的该声音特征。
在保存提取的该声音特征之前,确定该声音特征的置信度超过预设阈值。
本发明实施例还提供了一种语音识别装置,图2是根据本发明实施例的语音识别装置的框图,如图2所示,包括:
获取模块22,用于获取并识别语音信息;
第一判断模块24,用于判断该语音信息与预先提取的预定用户的声音特征是否相符;
第一确定模块26,用于在判断结果为是的情况下,确定该语音信息为该预定用户的语音信息。
图3是根据本发明优选实施例的语音识别装置的框图一,如图3所示,该装置还包括:
第二判断模块32,用于判断该语音信息的置信度是否超过预设阈值;
第二确定模块34,用于在判断结果为是的情况下,确定该语音信息为该预定用户下达的指令;
丢弃模块36,用于在判断结果为否的情况下,丢弃该语音信息。
进一步地,该装置还包括:执行模块,用于执行该语音信息对应的指令。
进一步地,该装置还包括:重复获取模块,用于通过重复获取相同的录音提取该录音的声音特征;保存模块,用于保存提取的该声音特征。
进一步地,该装置还包括:第三确定模块,用于确定该声音特征的置信度超过预设阈值。
针对相关技术中存在的上述问题,下面结合具体的可选实施例进行进一步说明,下述可选实施例结合了上述可选实施例及其可选实施方式。
本发明实施例包含的有以下几个部分,声纹提取模块,声纹特征库,声纹辨别模块,语音识别模块,控制模块和录音管理模块,其功能由上述的获取模块22,第一判断模块24,第一确定模块26,第二判断模块32,第二确定模块34,以及丢弃模块36等模块的部分或全部一起实现。
声纹提取模块,用于用户培训声纹,提取用户的声音特征。
声纹特征库,用于存储用户的声音特征,提供给后续模块使用。
声纹辨别模块,根据录音管理模块提供的用户声音数据,判断是否是当前用户的声音。
语音识别模块,根据录音管理模块提供的用户声音数据,进行相应的语音识别,将声音转换为文字。
控制模块,用于控制整个逻辑。
录音管理模块,用于管理系统录音,分别提供给声纹辨别模块与语音识别模块。
本发明实施例还描述了一种利用声纹提高语音识别率的使用方式,包括:
图4是根据本发明实施例的提取声音特征的示意图,如图4所示,用户在首次使用本系统时,使用声纹培训模块进行用户声音特征的提取,比如,要求用户重复朗读某一段文字,由于提取用户的声音特征。将提取好的声音特征,保存到声纹特征库。
用户开始语音识别,通过录音管理模块,将系统录音分别送入到声纹识别模块和语音识别模块。图5是根据本发明实施例的语音识别的示意图,如图5所示,声纹识别模块的结果和语音识别模块的结果提供给控制模块,由控制模块进行判定,首先判断声纹识别的结果是否符合用户声音特征,如果不符合,说明是噪音或者是周围人声,将语音识别结果抛弃,同时通知录音管理模块继续录音。如果声纹判断通过,控制模块在判断语音识别模块的置信度是否超过阀值,如果不超过,说明虽然是用户的声音,但是不一定是说的语音命令,控制模块抛弃掉结果,通知录音管理模块继续录音。如果都通过验证,那么将正确的结果返回给后续应用流程使用。
当用户已经预先培训好了声纹,系统记录下声纹特征。当应用被用户声音或者噪音触发时候,录音模块开始录音,并把相应的录音分发给识别模块和声纹识别模块,控制模块等待识别模块和声纹模块分别给出结果。
当控制模块,收到声纹模块返回的结果,控制模块判断是否声纹匹配度达到阀值,比如阈值为80%,这个阀值可以用户设置,也可以系统预置,如果控制模块判断声纹匹配度没有超过阀值,那么控制抛弃掉语音识别模块返回的结果,同时通知录音模块继续录音,等待正确的结果。
当控制模块判断声纹匹配度超过阀值,继续判断语音识别结果是否超过阀值,如果未超过,仍然抛弃。如果通过,那么将此结果返回给后端其他流程或者模块使用。
用户将无线路由装置连接到有线网络中,打开电源开关。使用手机搜索无线路由装置的蓝牙,进行配对。配对完成后,用户打开手机中的设置程序,设置路由器的热点、加密方式、密码以及WAN口的接入方式,设置成功后路由器就生效了。此设备一般用于商旅用户,经常更换旅馆,需要能够随身携带且设置方便的无线路由设备。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
获取并识别语音信息;
判断所述语音信息与预先提取的预定用户的声音特征是否相符;
在判断结果为是的情况下,确定所述语音信息为所述预定用户的语音信息。
2.根据权利要求1所述的方法,其特征在于,在确定所述语音信息为所述预定用户的语音信息之后,所述方法还包括:
判断所述语音信息的置信度是否超过预设阈值;
在判断结果为是的情况下,确定所述语音信息为所述预定用户下达的指令;
在判断结果为否的情况下,丢弃所述语音信息。
3.根据权利要求2所述的方法,其特征在于,在确定所述语音信息为所述预定用户下达的指令之后,所述方法还包括:
执行所述语音信息对应的指令。
4.根据权利要求1所述的方法,其特征在于,在判断所述语音信息与预先提取的预定用户的声音特征是否相符之前,所述方法还包括:
通过重复获取相同的录音提取所述录音的声音特征;
保存提取的所述声音特征。
5.根据权利要求4所述的方法,其特征在于,在保存提取的所述声音特征之前,所述方法还包括:
确定所述声音特征的置信度超过预设阈值。
6.一种语音识别装置,其特征在于,包括:
获取模块,用于获取并识别语音信息;
第一判断模块,用于判断所述语音信息与预先提取的预定用户的声音特征是否相符;
第一确定模块,用于在判断结果为是的情况下,确定所述语音信息为所述预定用户的语音信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二判断模块,用于判断所述语音信息的置信度是否超过预设阈值;
第二确定模块,用于在判断结果为是的情况下,确定所述语音信息为所述预定用户下达的指令;
丢弃模块,用于在判断结果为否的情况下,丢弃所述语音信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
执行模块,用于执行所述语音信息对应的指令。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
重复获取模块,用于通过重复获取相同的录音提取所述录音的声音特征;
保存模块,用于保存提取的所述声音特征。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于确定所述声音特征的置信度超过预设阈值。
CN201510496816.2A 2015-08-13 2015-08-13 语音识别方法及装置 Pending CN106469553A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510496816.2A CN106469553A (zh) 2015-08-13 2015-08-13 语音识别方法及装置
PCT/CN2016/082079 WO2017024835A1 (zh) 2015-08-13 2016-05-13 语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510496816.2A CN106469553A (zh) 2015-08-13 2015-08-13 语音识别方法及装置

Publications (1)

Publication Number Publication Date
CN106469553A true CN106469553A (zh) 2017-03-01

Family

ID=57984626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510496816.2A Pending CN106469553A (zh) 2015-08-13 2015-08-13 语音识别方法及装置

Country Status (2)

Country Link
CN (1) CN106469553A (zh)
WO (1) WO2017024835A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742516A (zh) * 2017-09-29 2018-02-27 上海与德通讯技术有限公司 智能识别方法、机器人及计算机可读存储介质
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN108259801A (zh) * 2018-01-19 2018-07-06 广州视源电子科技股份有限公司 音视频数据显示方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680505A (zh) * 2013-09-03 2014-03-26 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN103943110A (zh) * 2013-01-21 2014-07-23 联想(北京)有限公司 控制方法、装置和电子设备
CN104078045A (zh) * 2013-03-26 2014-10-01 联想(北京)有限公司 一种识别的方法及电子设备
CN104092932A (zh) * 2013-12-03 2014-10-08 腾讯科技(深圳)有限公司 一种声控拍摄方法及装置
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
CN104468020A (zh) * 2013-09-13 2015-03-25 成都鼎桥通信技术有限公司 语音错误的处理方法、发送端设备和接收端设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000080828A (ja) * 1998-09-07 2000-03-21 Denso Corp 車両制御装置
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN103811003B (zh) * 2012-11-13 2019-09-24 联想(北京)有限公司 一种语音识别方法以及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103943110A (zh) * 2013-01-21 2014-07-23 联想(北京)有限公司 控制方法、装置和电子设备
CN104078045A (zh) * 2013-03-26 2014-10-01 联想(北京)有限公司 一种识别的方法及电子设备
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
CN103680505A (zh) * 2013-09-03 2014-03-26 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN104468020A (zh) * 2013-09-13 2015-03-25 成都鼎桥通信技术有限公司 语音错误的处理方法、发送端设备和接收端设备
CN104092932A (zh) * 2013-12-03 2014-10-08 腾讯科技(深圳)有限公司 一种声控拍摄方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742516A (zh) * 2017-09-29 2018-02-27 上海与德通讯技术有限公司 智能识别方法、机器人及计算机可读存储介质
CN107742516B (zh) * 2017-09-29 2020-11-17 上海望潮数据科技有限公司 智能识别方法、机器人及计算机可读存储介质
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN108259801A (zh) * 2018-01-19 2018-07-06 广州视源电子科技股份有限公司 音视频数据显示方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2017024835A1 (zh) 2017-02-16

Similar Documents

Publication Publication Date Title
CN102237087B (zh) 语音控制方法和语音控制装置
CN110661927B (zh) 语音交互方法、装置、计算机设备及存储介质
CN106373575B (zh) 一种用户声纹模型构建方法、装置及系统
US9583102B2 (en) Method of controlling interactive system, method of controlling server, server, and interactive device
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
CN106560892B (zh) 智能机器人及其云端交互方法、云端交互系统
KR102199928B1 (ko) 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법
CN107871503A (zh) 语音对话系统以及发声意图理解方法
CN107767861A (zh) 语音唤醒方法、系统及智能终端
US20100250249A1 (en) Communication control apparatus, communication control method, and computer-readable medium storing a communication control program
CN109688276B (zh) 一种基于人工智能技术的来电过滤系统及其方法
CN104766608A (zh) 一种语音控制方法及装置
CN109065051B (zh) 一种语音识别处理方法及装置
CN109712610A (zh) 用于识别语音的方法和装置
CN111798850B (zh) 用语音操作设备的方法和系统及服务器
CN106469553A (zh) 语音识别方法及装置
JP5849761B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
KR20200092166A (ko) 감정을 인식하는 서버, 방법 및 컴퓨터 프로그램
CN107274895A (zh) 一种语音识别设备及方法
CN105227557A (zh) 一种帐号处理方法及装置
CN107742516B (zh) 智能识别方法、机器人及计算机可读存储介质
KR20140067687A (ko) 대화형 음성인식이 가능한 차량 시스템
CN104901807A (zh) 一种可用于低端芯片的声纹密码方法
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
CN114120603B (zh) 语音控制方法、耳机和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170301

WD01 Invention patent application deemed withdrawn after publication