CN105551498A - 一种语音识别的方法及装置 - Google Patents

一种语音识别的方法及装置 Download PDF

Info

Publication number
CN105551498A
CN105551498A CN201510716257.1A CN201510716257A CN105551498A CN 105551498 A CN105551498 A CN 105551498A CN 201510716257 A CN201510716257 A CN 201510716257A CN 105551498 A CN105551498 A CN 105551498A
Authority
CN
China
Prior art keywords
sound
electronic equipment
user
equipment
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510716257.1A
Other languages
English (en)
Inventor
田孝辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Coolpad Software Technology Co Ltd
Original Assignee
Dongguan Coolpad Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Coolpad Software Technology Co Ltd filed Critical Dongguan Coolpad Software Technology Co Ltd
Priority to CN201510716257.1A priority Critical patent/CN105551498A/zh
Publication of CN105551498A publication Critical patent/CN105551498A/zh
Priority to PCT/CN2016/100864 priority patent/WO2017071453A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了一种语音识别的方法及装置。一种语音识别的方法包括:获取电子设备的音响的状态;当音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音;从所述现场的声音和所述音响播放的声音中识别出用户的语音指令;根据识别出的所述用户的语音指令对所述电子设备进行操作。本发明实施例提供的技术方案有效地解决了复杂场景下语音识别技术的障碍,使用户可以在音响处于播放状态时,可同时使用语音指令对电子设备进行有效操作,极大地提高了用户的体验。

Description

一种语音识别的方法及装置
技术领域
本发明涉及语音识别技术领域,具体主要涉及了一种语音识别的方法及装置。
背景技术
目前,随着科学技术的发展,人们可以通过语音对电子设备进行控制。在安静的环境下,电子设备可以有效采集用户的语音,对于用户的语音进行分析处理,以便获取有效的指令,并根据该指令进行动作,从而对用户的语音进行有效响应。
但是,当电子设备在播放音乐时,用户通过语音对电子设备进行指示,此时,电子设备会同时获取用户的语音和播放的音乐,用户的语音和播放的音乐混合后为正确识别用户的语音增加了很大的难度。
发明内容
本发明提供了一种语音识别的方法及装置,有效地解决复杂场景下语音识别技术的障碍,使用户可以在音响处于播放状态时,同时使用语音指令对电子设备进行有效操作,极大地提高了用户的体验。
本发明实施例第一方面公开了一种语音识别的方法,包括:
获取电子设备的音响的状态;
当所述音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音;
从所述现场的声音和所述音响播放的声音中识别出用户的语音指令;
根据识别出的所述用户的语音指令对所述电子设备进行操作。
结合第一方面,在第一方面的第一种可能的实施方式中,所述从所述现场的声音和所述音响播放的声音中识别出用户的语音指令之前,所述方法还包括:
所述电子设备将所述现场的声音填入第一声道得到第一音频数据;
所述电子设备将所述音响播放的声音填入第二声道得到第二音频数据。
结合第一方面第一种可能的实施方式,在第一方面第二种可能的实施方式中,所述电子设备根据预设方法从所述现场的声音和所述音响播放的声音中获取用户的语音指令,具体包括:
所述电子设备获取所述第一声道的数据和所述第二声道的数据;所述电子设备利用频率转换方法从所述第一声道的数据和所述第二声道的数据中获取有效音频数据流;
所述电子设备利用自动增益控制算法AGC对所述有效音频数据流进行噪声消除,以便获取用户的语音指令。
结合第一方面的第一种可能的实施方式,在第一方面的第三种可能的实施方式中,所述方法还包括:
所述电子设备通过协调所述第一麦克风和所述第二麦克风,控制所述第一声道与所述第二声道的之间数据的延时小于阈值。
结合第一方面,在第一方面的第四种可能的实施方式中,所述方法还包括:
当所述电子设备的音响处于非播放状态时,所述电子设备利用所述第一麦克风和所述第二麦克风获取用户语音;
所述电子设备利用AGC算法对所述用户语音进行噪声消除以便获取所述用户的语音指令;
所述电子设备根据所述用户的语音指令进行操作。
结合第一方面,在第一方面的第五种可能的实施方式中,所述第一麦克风为主麦克风;所述第二麦克风为副麦克风;所述第一声道为左声道;所述第二声道为右声道。
本发明实施例第二方面公开了一种语音识别的装置,包括:
第一获取单元,用于获取电子设备的音响的状态;
采集单元,用于当所述音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音;利用所述电子设备的第二麦克风获取音响播放的声音;
其中所述现场的声音包括用户的语音指令和所述音响播放的声音;
第二获取单元,用于从所述现场的声音和所述音响播放的声音中获取用户的语音指令;
操作单元,用于根据识别出的所述用户的语音指令对所述电子设备进行操作。
结合第二方面,在第二方面的第一种可能的实施方式中,所述装置还包括:
处理单元,用于所述电子设备将所述现场的声音填入第一声道得到第一音频数据,将所述音响播放的声音填入第二声道得到第二音频数据。
结合第二方面第一种可能的实施方式,在第二方面的第二种可能的实施方式中,所述第二获取单元具体用于:
获取所述第一声道的数据和所述第二声道的数据;
利用频率转换方法从所述第一声道的数据和所述第二声道的数据中获取有效音频数据流;
利用自动增益控制算法AGC对所述有效音频数据流进行噪声消除,以便获取用户的语音指令。
结合第二方面或第二方面的第一种可能的实施方式,在第二方面的第三种可能的实施方式中,所述装置还包括:
控制单元,用于所述电子设备通过协调所述第一麦克风和所述第二麦克风,控制所述第一声道与所述第二声道的之间数据的延时小于阈值。
结合第二方面,在第二方面的第四种可能的实施方式中,
所述第一获取单元还用于当所述音响处于非播放状态时,所述电子设备利用所述第一麦克风和所述第二麦克风获取用户语音;
利用AGC算法对所述语音进行噪声消除以便获取所述用户的语音指令。
可以看出,在本发明实施例的方案中,当电子设备音响处于播放状态时,所述电子设备可以利用第一麦克风采集现场的声音,利用第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音,根据本技术方案电子设备可以根据第二麦克风获取的音响播放的声音将第一麦克风获取到的现场声音中的音响播放声音去除掉,从而得到用户语音指令,使用户可以在音响处于播放状态时,可同时使用语音指令对电子设备进行有效操作,极大地提高了用户的体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音识别的方法的流程示意图;
图2为本发明的实施例提供的另一种语音识别的方法的流程示意图;
图3为本发明的实施例提供的另一种语音识别的方法的流程示意图;
图4为本发明实施例提供的一种语音识别装置的示意图;
图5为本发明实施例供的另一种语音识别装置的示意图。
具体实施方式
本发明提供一种语音识别的方法及装置,有效地解决了复杂场景下语音识别技术障碍,使用户可以在音响处于播放状态时,可同时使用语音指令对电子设备进行有效操作,极大地提高了用户的体验。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
在本发明实施例中使用的术语仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。进一步应当理解,本文中采用的术语“包括”规定了所述的特征、整体、步骤、操作、元件和/或部件的存在,而不排除一个或多个其他特征、整体、步骤、操作、元件、部件和/或它们的组的存在或附加。
本发明实施例所述的方法可应用在各类具有语音识别功能的智能终端中,例如平板电脑、智能手机、电子阅读器、遥控器、个人电脑PC、笔记本电脑、车载设备、网络电视、可穿戴设备等具有语音识别功能的智能终端中。
本发明一种语音识别的方法的一个实施例,一种语音识别的方法,其特征在于,所述方法包括:获取电子设备的音响的状态;当音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音;从所述现场的声音和所述音响播放的声音中识别出用户的语音指令;根据识别出的所述用户的语音指令对所述电子设备进行操作。
请参阅图1,图1是本发明的一个实施例提供的一种语音识别的方法的流程示意图。其中,如图1所示,本发明的一个实施例提供的一种语音识别方法可以包括以下内容:
101、获取电子设备的音响状态。
其中,所述的电子设备为具有播放功能的智能设备。例如,平板电脑、智能手机、电子阅读器、笔记本电脑、车载设备、网络电视、可穿戴设备或其他具有播放功能的智能设备。
其中,所述的音响状态,包括音响的开关状态,即音响是否为播放状态。
102、当所述音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音。
其中,所述第一麦克风为主麦克风,所述第二麦克风为副麦克风。
其中,所述用户语音指令可为命令智能设备执行某项操作,例如命令移动终端根据用户的话音自动输入文字,命令车载设备按照用户的语音进行导航,命令手机或者可穿戴设备回答用户提出的问题或其他操作指令。
103、从所述现场的声音和所述音响播放的声音中识别出用户的语音指令。
优选地,所述电子设备获取所述第一声道的数据和所述第二声道的数据;所述电子设备利用频率转换方法从所述第一声道的数据和所述第二声道的数据中获取有效音频数据流;其中,所述电子设备利用自动增益控制算法AGC对所述有效音频数据流进行噪声消除,以便获取用户的语音指令。
其中,所述第一声道为左声道;所述第二声道为右声道。
其中,自动增益控制算法AGC为在输入信号变化很大的情况下,自动保持输出信号在很小范围内变化的一种自动控制算法。
104、根据识别出的所述用户的语音指令对所述电子设备进行操作。
其中,所述根据所述用户语音指令对所述电子设备进行操作是通过对语音信息进行语音识别和语义分析得到的。其中,所述对所述电子设备进行操作包括调用各种形式的业务信息。其中,所述业务信息可以是各种媒体形式的,例如文字、声音、图像、动画等;可以是移动终端从本地存储中调用的,也可以是移动终端从网络中获取的;可以是开始调用某个程序时呈现给用户的各种媒体信息,也可以是程序运行中呈现给用户的各种媒体信息。具体地,通过语音识别,得到与该语音信息相应的文字。在某些应用中,例如语音输入法中,可以将文字作为业务信息。一般情况下,还可以对文字进行语义分析,经过语义分析之后得到与文字语义相应的操作指令,即与语音信息相应的操作指令。然后,通过执行语音指令,得到语音信息对应的业务信息。
可选的,所述根据所述用户的语音指令对所述电子设备进行操作之前,还包括电子设备对识别到的语音指令进行输出,使用户对语音指令进行确认。其种,所述语音指令的输出形式包括汉字输出,即将用户的语音转换为文字形式显示,用户通过点击确认后,执行下一步操作工作。可选的,所述语音指令的输出形式也可以为语音输出,所述电子设备对语音指令识别后,通过重复语音指令的形式进行语音指令的输出,用户通过输入确认的语音指令或点击屏幕对语音指令进行确认。
可以看出,本实施例的方案中,用户在获取电子设备的音响处于播放状态时,通过利用所述电子设备数字双麦克识别技术,即第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音,同时根据第二麦克风获取的音响播放的声音将第一麦克风获取的现场声音中的音响播放声音去除,从而实现通过语音指令对电子设备进行有效操作。这样有效地解决了复杂场景下语音识别技术障碍,极大地提高了用户体验。
其中,根据所述用户的语音指令对所述电子设备进行操作,可选的,对所述语音指令的识别可以用本地的语音识别模块,例如安装在本地的语音识别软件,当然,也可以是其它远程设备上的语音识别模块。
具体地,由于一些用户发音不准或存在口音等问题,当终端识别到语音指令后,可根据预设规则,确定一识别算法,该识别算法即可针对特殊用户的语音信息进行识别,例如,当用户在确定识别算法时,输入的语音测试信息为方言语音信息,则确定的识别算法是针对用户的方言语音信息的识别算法,此后,当用户输入的待识别语音信息为方言语音信息时,根据预设规则确定的识别算法即可对其进行识别,从而完成相应的操作指令动作。当用户需要根据语音信息,使终端完成相应的动作行为时,用户需向终端输入待识别语音信息,终端接收该待识别语音信息。根据识别算法,对待识别语音信息进行识别。具体地,由于网络或本地语音模型库中包括至少一个用户的语音信息,并且,每一个语音信息都存在对应的动作行为,因此,当终端接收到用户输入的待识别语音信息后,根据上述确定的识别算法,对用户输入的待识别语音信息进行识别,当终端识别出用户输入的待识别语音信息为网络或本地语音模型库中的目标语音信息时,终端即可根据目标语音信息所对应的动作行为,识别出待识别语音信息所对应的动作行为,从而执行该识别出的动作行为。
例如:目前,终端普遍具有语音拍照功能,当用户对着终端说“拍照”或“茄子”时,终端进行语音识别后,判断是否为相应字符,从而执行拍照功能。但是,由于用户发音不准或者口吃,对终端说“拍照”或“茄子”后,仍然无法执行拍照功能,比较难堪,此时,用户可开启上述语音校准模式,根据用户提供的“拍照”等目标语音信息,对用户提供的“拍照”或“茄子”等待识别语音信息进行校准,识别出用户希望执行的拍照功能,从而为用户“量身定做”了一套属于他的语音识别系统,语音拍照功能得以实现。
通过上述技术方案,可以针对特殊用户进行“量身定做”的语音识别,具有“特殊个体特殊对待”的优点,避免了统一处理的做法,具有一定的再学习性,极大地增加了语音识别率,提高了用户的体验效果。
请参阅图2,图2是本发明的另一个实施例提供的一种语音识别的方法的流程示意图。其中,如图2所示,本发明的一个实施例提供的一种语音识别方法可以包括以下内容:
201、获取电子设备的音响状态。
202、判断所述音响状态是否为播放状态。
若为播放状态,则执行步骤203;
若为非播放状态,则执行步骤208。
203、当音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音。
204、所述电子设备将所述现场的声音填入第一声道得到第一音频数据;所述电子设备将所述音响播放的声音填入第二声道得到第二音频数据。
205、所述电子设备通过协调所述第一麦克风和所述第二麦克风,控制所述第一声道与所述第二声道之间数据的延时小于阈值。
举例来说,所述阈值可以为1ms、2ms、3ms、4ms、5ms、6ms、7ms或其他值。
优选的,所述阈值为小于或等于2ms的任意正值。
可以理解的是,为了达到良好的语音识别效果,我们需要保证在接收第一声道的音效数据流时能同时连续不断地接收第二声道的音效数据流,并保证这两种数据流的同步性。
206、述第一音频数据中获取第一有效音频数据;所述电子设备利用频率转换算法从所述第二音频数据中获取第二有效音频数据;所述电子设备利用自动增益控制算法AGC对所述第一有效音频数据和第二有效音频数据进行噪声消除处理以识别出用户的语音指令。
207、根据识别出的所述用户的语音指令对所述电子设备进行操作。
208、当所述电子设备的音响处于非播放状态时,所述电子设备利用所述第一麦克风和所述第二麦克风获取用户语音;所述电子设备利用AGC算法对所述用户语音进行噪声消除以便获取所述用户的语音指令;所述电子设备根据所述用户的语音指令进行操作。
可以看出,本实施例的方案中,当用户音响处于非播放状态的时候,则语音识别状态转换为数字双麦克降噪技术,通过识别区分语音指令和噪音,从而实现其指令。
请参阅图3,图3是本发明的一个实施例提供的一种语音识别的装置的示意图。其中,如图3所示,本发明的一个实施例提供的一种语音识别装置可以包括以下内容:
第一获取单元301,用于获取所述电子设备的音响的状态;
其中,所述第一获取单元还用于当所述音响处于非播放状态时,所述电子设备利用所述第一麦克风和所述第二麦克风获取用户语音;
采集单元302,用于当所述音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音。
其中,声音采集装置可以包括移动终端内的麦克风阵列或穿戴式声音采集装置。穿戴式声音采集装置可以是佩戴于用户喉咙部位的电子皮肤纹身,也可以是佩戴于用户耳蜗里的骨传感麦克风等。移动终端可根据自身的方位运动状态,来选择进行采集声音的声音采集装置。
优选的,所述的声音采集装置为双麦克声音采集装置。
第二获取单元303,用于从所述现场的声音和所述音响播放的声音中识别出用户的语音指令。
优选地,所述第二获取单元具体用于:获取所述第一声道的数据和所述第二声道的数据;利用频率转换方法从所述第一声道的数据和所述第二声道的数据中获取有效音频数据流;利用自动增益控制算法AGC对所述有效音频数据流进行噪声消除,以便获取用户的语音指令。
操作单元304,根据识别出的所述用户的语音指令对所述电子设备进行操作。
其中,第一获取单元301、采集单元302、第二获取单元303、操作单元304,可以用于执行实施例1中步骤101、102、103、104所述的方法,具体描述详见实施例1对所述方法的描述,在此不再赘述。
请参阅图4,图4是本发明的一个实施例提供的另一种语音识别的装置的示意图。其中,如图4所示,本发明的一个实施例提供的一种语音识别装置可以包括以下内容:
第一获取单元401,用于获取所述电子设备的音响的状态;
采集单元402,用于当所述音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音。
处理单元403,用于将所述现场的声音填入第一声道得到第一音频数据;所述电子设备将所述音响播放的声音填入第二声道得到第二音频数据。
控制单元404,所述电子设备通过协调所述第一麦克风和所述第二麦克风,控制所述第一声道与所述第二声道之间数据的延时小于阈值。
举例来说,所述阈值可以为1ms、2ms、3ms、4ms、5ms、6ms、7ms或其他值。
优选的,所述阈值为小于或等于2ms的任意正值。
第二获取单元405,用于从所述现场的声音和所述音响播放的声音中识别出用户的语音指令。
可选的,所述第二获取单元,还用于当所述电子设备获取语音指令后,将语音指令进行输出,使用户进行确认。
可选的,所述第二获取单元,还用于根据搜集的所述确认信息,获取所述用户对所述语音识别业务信息的认可度,并且接收所述用户对所述语音识别业务信息的认可度信息。
操作单元406,根据识别出的所述用户的语音指令对所述电子设备进行操作。
其中,第一获取单元401、采集单元402、处理单元403、控制单元404、第二获取单元405、操作单元406,可以用于执行实施例2中步骤201、202、203、204、205、206所述的方法,具体描述详见实施例2对所述方法的描述,在此不再赘述。
可以看出,本实施例的方案中,所述装置增加了控制单元404、处理单元403,同时还增加了对识别出的语音指令的确认,极大地提高了用户体验。
请参阅图5,图5是本发明的一个实施例提供的另一种语音识别的装置的示意图。其中,如图5所示,本发明的一个实施例提供的一种语音识别装置可以包括以下内容:
第一获取单元501,用于获取所述电子设备的音响的状态;
采集单元502,用于当所述音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音。
处理单元503,用于将所述现场的声音填入第一声道得到第一音频数据;所述电子设备将所述音响播放的声音填入第二声道得到第二音频数据。
控制单元504,所述电子设备通过协调所述第一麦克风和所述第二麦克风,将所述第一声道与所述第二声道的之间数据的延时小于阈值。
第二获取单元505,用于从所述现场的声音和所述音响播放的声音中识别出用户的语音指令。
可选的,所述第二获取单元,还用于当所述电子设备获取语音指令后,将语音指令进行输出,使用户进行确认。
可选的,所述第二获取单元,还用于对根据搜集的所述确认信息以及所述信息搜集模板,获取所述用户对所述语音识别业务信息的认可度,并且接收所述用户对所述语音识别业务信息的认可度信息。
操作单元506,用于根据识别出的所述用户的语音指令对所述电子设备进行操作。
优化单元507,用于根据获取单元505获取的所述用户对所述语音识别业务信息的认可度对语音识别算法进行优化。
可以看出,本实施例的方案中,用户有效地解决了复杂场景下语音识别技术障碍,同时本实施例还增加了语音识别认可度获取和根据认可度数据对语音识别装置进行优化的优化模块,极大地提高了用户体验。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种语音识别的方法,其特征在于,所述方法包括:
获取电子设备的音响的状态;
当所述音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音,利用所述电子设备的第二麦克风获取音响播放的声音,其中所述现场的声音包括用户的语音指令和所述音响播放的声音;
从所述现场的声音和所述音响播放的声音中识别出用户的语音指令;
根据识别出的所述用户的语音指令对所述电子设备进行操作。
2.根据权利要求1所述的方法,其特征在于,所述从所述现场的声音和所述音响播放的声音中识别出用户的语音指令之前,所述方法还包括:
所述电子设备将所述现场的声音填入第一声道得到第一音频数据;
所述电子设备将所述音响播放的声音填入第二声道得到第二音频数据。
3.根据权利要求2所述的方法,其特征在于,所述电子设备从所述现场的声音和所述音响播放的声音中识别出用户的语音指令,具体包括:
所述电子设备利用频率转换算法从所述第一音频数据中获取第一有效音频数据;
所述电子设备利用频率转换算法从所述第二音频数据中获取第二有效音频数据;
所述电子设备利用自动增益控制算法AGC对所述第一有效音频数据和第二有效音频数据进行噪声消除处理以识别出用户的语音指令。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
所述电子设备通过协调所述第一麦克风和所述第二麦克风,控制所述第一声道与所述第二声道的之间数据的延时小于阈值。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述电子设备的音响处于非播放状态时,所述电子设备利用所述第一麦克风和所述第二麦克风获取用户语音;
所述电子设备利用AGC算法对所述用户语音进行噪声消除以便获取所述用户的语音指令;
所述电子设备根据所述用户的语音指令进行操作。
6.一种语音识别的装置,其特征在于,所述装置包括:
第一获取单元,用于获取电子设备的音响的状态;
采集单元,用于当所述音响处于播放状态时,利用所述电子设备的第一麦克风采集现场的声音;利用所述电子设备的第二麦克风获取音响播放的声音;
其中所述现场的声音包括用户的语音指令和所述音响播放的声音;
第二获取单元,用于从所述现场的声音和所述音响播放的声音中获取用户的语音指令;
操作单元,用于根据识别出的所述用户的语音指令对所述电子设备进行操作。
7.根据权利要求6所述的装置,其特征在于,还包括
处理单元,用于所述电子设备将所述现场的声音填入第一声道得到第一音频数据,将所述音响播放的声音填入第二声道得到第二音频数据。
8.根据权利要求7所述的装置,其特征在于,所述第二获取单元具体用于:
获取所述第一声道的数据和所述第二声道的数据;
利用频率转换方法从所述第一声道的数据和所述第二声道的数据中获取有效音频数据流;
利用自动增益控制算法AGC对所述有效音频数据流进行噪声消除,以便获取用户的语音指令。
9.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:
控制单元,用于所述电子设备通过协调所述第一麦克风和所述第二麦克风,控制所述第一声道与所述第二声道的之间数据的延时小于阈值。
10.根据权利要求6所述的装置,其特征在于,
所述第一获取单元还用于当所述音响处于非播放状态时,所述电子设备利用所述第一麦克风和所述第二麦克风获取用户语音;
利用AGC算法对所述语音进行噪声消除以便获取所述用户的语音指令。
CN201510716257.1A 2015-10-28 2015-10-28 一种语音识别的方法及装置 Pending CN105551498A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510716257.1A CN105551498A (zh) 2015-10-28 2015-10-28 一种语音识别的方法及装置
PCT/CN2016/100864 WO2017071453A1 (zh) 2015-10-28 2016-09-29 一种语音识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510716257.1A CN105551498A (zh) 2015-10-28 2015-10-28 一种语音识别的方法及装置

Publications (1)

Publication Number Publication Date
CN105551498A true CN105551498A (zh) 2016-05-04

Family

ID=55830646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510716257.1A Pending CN105551498A (zh) 2015-10-28 2015-10-28 一种语音识别的方法及装置

Country Status (2)

Country Link
CN (1) CN105551498A (zh)
WO (1) WO2017071453A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106098074A (zh) * 2016-05-20 2016-11-09 北京奇虎科技有限公司 一种数据处理方法和便携式多功能设备
WO2017071453A1 (zh) * 2015-10-28 2017-05-04 宇龙计算机通信科技(深圳)有限公司 一种语音识别的方法及装置
CN106782589A (zh) * 2016-12-12 2017-05-31 奇酷互联网络科技(深圳)有限公司 移动终端及其语音输入方法和装置
CN107240399A (zh) * 2017-06-29 2017-10-10 上海思依暄机器人科技股份有限公司 一种提高语音指令识别效果的方法和装置
CN107436754A (zh) * 2016-05-29 2017-12-05 陈勇 一种人机对话平台可复述指令
CN107610698A (zh) * 2017-08-28 2018-01-19 深圳市金立通信设备有限公司 一种实现语音控制的方法、机器人及计算机可读存储介质
CN108932604A (zh) * 2018-07-24 2018-12-04 浙江数链科技有限公司 通过语音识别进行发货的方法及装置
CN109036408A (zh) * 2018-08-23 2018-12-18 重庆加河科技有限公司 一种用于vr展示教学的语音识别控制设备及控制方法
CN109346073A (zh) * 2018-09-30 2019-02-15 联想(北京)有限公司 一种信息处理方法及电子设备
CN109817209A (zh) * 2019-01-16 2019-05-28 深圳市友杰智新科技有限公司 一种基于双麦克风阵列的智能语音交互系统
CN110097891A (zh) * 2019-04-22 2019-08-06 广州视源电子科技股份有限公司 一种麦克风信号处理方法、装置、设备及存储介质
CN110415691A (zh) * 2018-04-28 2019-11-05 青岛海尔多媒体有限公司 基于语音识别的控制方法、装置及计算机可读存储介质
CN113362845A (zh) * 2021-05-28 2021-09-07 阿波罗智联(北京)科技有限公司 声音数据降噪方法、装置、设备、存储介质及程序产品
WO2022165975A1 (zh) * 2021-02-05 2022-08-11 深圳市鑫海创达科技有限公司 一种语音控制化妆镜

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448724B (zh) * 2018-12-29 2022-03-04 思必驰科技股份有限公司 一种具备语音中断功能的智能故事机及其实现方法
US11151981B2 (en) 2019-10-10 2021-10-19 International Business Machines Corporation Audio quality of speech in sound systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404522A (zh) * 2011-12-26 2012-04-04 Tcl王牌电器(惠州)有限公司 电视机语音遥控方法和电视机
CN103974168A (zh) * 2013-01-29 2014-08-06 联想(北京)有限公司 一种信息处理方法及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282470A (zh) * 1997-11-20 2001-01-31 尼尔逊媒介研究股份有限公司 用于观众听众测量系统的语音识别单元
JP2009053552A (ja) * 2007-08-28 2009-03-12 Fujitsu Ten Ltd 音声認識装置、音声認識プログラムおよび車載装置
CN101719199A (zh) * 2009-11-26 2010-06-02 中山大学 一种用于数字家庭身份多重识别的装置及方法
CN105551498A (zh) * 2015-10-28 2016-05-04 东莞酷派软件技术有限公司 一种语音识别的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404522A (zh) * 2011-12-26 2012-04-04 Tcl王牌电器(惠州)有限公司 电视机语音遥控方法和电视机
CN103974168A (zh) * 2013-01-29 2014-08-06 联想(北京)有限公司 一种信息处理方法及电子设备

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017071453A1 (zh) * 2015-10-28 2017-05-04 宇龙计算机通信科技(深圳)有限公司 一种语音识别的方法及装置
CN106098074A (zh) * 2016-05-20 2016-11-09 北京奇虎科技有限公司 一种数据处理方法和便携式多功能设备
CN107436754A (zh) * 2016-05-29 2017-12-05 陈勇 一种人机对话平台可复述指令
CN106782589B (zh) * 2016-12-12 2020-08-18 奇酷互联网络科技(深圳)有限公司 移动终端及其语音输入方法和装置
CN106782589A (zh) * 2016-12-12 2017-05-31 奇酷互联网络科技(深圳)有限公司 移动终端及其语音输入方法和装置
CN107240399A (zh) * 2017-06-29 2017-10-10 上海思依暄机器人科技股份有限公司 一种提高语音指令识别效果的方法和装置
CN107610698A (zh) * 2017-08-28 2018-01-19 深圳市金立通信设备有限公司 一种实现语音控制的方法、机器人及计算机可读存储介质
CN110415691A (zh) * 2018-04-28 2019-11-05 青岛海尔多媒体有限公司 基于语音识别的控制方法、装置及计算机可读存储介质
CN108932604A (zh) * 2018-07-24 2018-12-04 浙江数链科技有限公司 通过语音识别进行发货的方法及装置
CN109036408A (zh) * 2018-08-23 2018-12-18 重庆加河科技有限公司 一种用于vr展示教学的语音识别控制设备及控制方法
CN109346073A (zh) * 2018-09-30 2019-02-15 联想(北京)有限公司 一种信息处理方法及电子设备
CN109817209A (zh) * 2019-01-16 2019-05-28 深圳市友杰智新科技有限公司 一种基于双麦克风阵列的智能语音交互系统
CN110097891A (zh) * 2019-04-22 2019-08-06 广州视源电子科技股份有限公司 一种麦克风信号处理方法、装置、设备及存储介质
CN110097891B (zh) * 2019-04-22 2022-04-12 广州视源电子科技股份有限公司 一种麦克风信号处理方法、装置、设备及存储介质
WO2022165975A1 (zh) * 2021-02-05 2022-08-11 深圳市鑫海创达科技有限公司 一种语音控制化妆镜
CN113362845A (zh) * 2021-05-28 2021-09-07 阿波罗智联(北京)科技有限公司 声音数据降噪方法、装置、设备、存储介质及程序产品
US11798573B2 (en) 2021-05-28 2023-10-24 Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. Method for denoising voice data, device, and storage medium

Also Published As

Publication number Publication date
WO2017071453A1 (zh) 2017-05-04

Similar Documents

Publication Publication Date Title
CN105551498A (zh) 一种语音识别的方法及装置
CN110085251B (zh) 人声提取方法、人声提取装置及相关产品
US10515627B2 (en) Method and apparatus of building acoustic feature extracting model, and acoustic feature extracting method and apparatus
CN110970018B (zh) 语音识别方法和装置
CN108470034B (zh) 一种智能设备服务提供方法及系统
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
CN111653265B (zh) 语音合成方法、装置、存储介质和电子设备
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN107507615A (zh) 界面智能交互控制方法、装置、系统及存储介质
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112017650B (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
CN105488227A (zh) 一种电子设备及其基于声纹特征处理音频文件的方法
CN111653266B (zh) 语音合成方法、装置、存储介质和电子设备
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
CN109712646A (zh) 语音播报方法、装置和终端
CN108764114B (zh) 一种信号识别方法及其设备、存储介质、终端
CN104992715A (zh) 一种智能设备的界面切换方法及系统
CN111079423A (zh) 一种听写报读音频的生成方法、电子设备及存储介质
Majumder et al. Active audio-visual separation of dynamic sound sources
CN109147764A (zh) 语音交互方法、装置、设备及计算机可读介质
CN112233665A (zh) 模型训练的方法和装置、电子设备和存储介质
CN111243604A (zh) 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统
CN113658586A (zh) 语音识别模型的训练方法、语音交互方法及装置
CN115700871A (zh) 模型训练和语音合成方法、装置、设备及介质
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160504