CN107112017B - 操作语音识别功能的电子设备和方法 - Google Patents
操作语音识别功能的电子设备和方法 Download PDFInfo
- Publication number
- CN107112017B CN107112017B CN201680005400.9A CN201680005400A CN107112017B CN 107112017 B CN107112017 B CN 107112017B CN 201680005400 A CN201680005400 A CN 201680005400A CN 107112017 B CN107112017 B CN 107112017B
- Authority
- CN
- China
- Prior art keywords
- recognition
- voice
- voice recognition
- processor
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 230000005236 sound signal Effects 0.000 claims abstract description 121
- 230000004044 response Effects 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims description 7
- 230000003139 buffering effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 132
- 230000006870 function Effects 0.000 description 58
- 239000000872 buffer Substances 0.000 description 23
- 238000004891 communication Methods 0.000 description 18
- 230000004913 activation Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3293—Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
提供了一种电子设备,该电子设备包括:第一处理器,用于接收音频信号,对音频信号执行第一语音识别,并基于第一语音识别的结果向第二处理器传输驱动信号。第二处理器响应于驱动信号,基于通过第一语音识别的语音信号或所述音频信号来执行第二语音识别。
Description
技术领域
本公开总体上涉及语音识别的电子设备和方法,且更具体地,涉及改进的语音识别方法和利用该方法的电子设备。
背景技术
由于硬件和通信技术的发展,电子设备用于广泛的领域,并提供用户需要的各种功能。通常,在包括语音输入设备(例如,麦克风)在内的各种电子设备中实现语音识别技术。利用语音识别技术的输入正在逐渐取代物理输入,并被推广为提供对电子设备的语音控制。
发明内容
[技术问题]
在语音识别技术中,已经提出了一种方案,即无缝语音识别方案,以基于用户语音输入来激活电子设备并执行无缝语音命令。由于电子设备必须始终准备好记录用户的语音以用于语音识别,所以无缝语音识别方案在处于待机状态时必须持续地维持语音识别系统。需要将系统持续地维持在待机状态以执行无缝语音识别导致了以下问题。如果使用低功率芯片来实现语音识别系统以减少电流消耗,则由于有限的存储器和系统组件之间的性能差异,语音识别错误率增加。如果使用高性能芯片来改善语音识别错误率,则高性能芯片必须始终保持在活动状态,从而增加电流消耗损失。
[问题的解决方案]
根据本公开的一个方面,提供了一种电子设备,该电子设备包括:第一处理器,被配置为接收音频信号,对所述音频信号执行第一语音识别,以及基于所述第一语音识别的结果向第二处理器传输驱动信号;以及所述第二处理器,被配置为响应于所述驱动信号,基于所述第一语音识别的语音信号和所述音频信号中的至少一项来执行第二语音识别。
根据本公开的另一方面,提供了一种由电子设备执行语音识别的方法,所述方法包括:接收音频信号;由第一处理器对所述音频信号执行第一语音识别;由所述第一处理器基于所述第一语音识别的结果向第二处理器传输驱动信号;以及由所述第二处理器响应于所述驱动信号,基于所述第一语音识别的语音信号和所述音频信号中的至少一项来执行第二语音识别。
[发明的有益效果]
做出本公开以处理上述问题和缺点,并至少提供下述优点。因此,本公开的一个方面提供操作语音识别功能的电子设备和方法,其使电子设备中的语音识别功能的错误最小化,增加识别率,并且降低电流消耗,同时提高语音识别性能的效率。
附图说明
根据结合附图给出的以下详细描述,将更清楚本公开的上述和其他方面、特征和优点,在附图中:
图1是根据本公开实施例的电子设备的框图;
图2是根据本公开实施例的电子设备的框图;
图3是根据本公开实施例的电子设备的框图;
图4是示出了根据本公开实施例的用于电子设备中的音频输入模块的语音识别的方法的流程图;
图5是示出了根据本公开实施例的用于电子设备中的音频处理模块的语音识别的方法的流程图;
图6是示出了根据本公开实施例的用于电子设备中的语音识别模块的语音识别的方法的流程图;
图7是示出了根据本公开实施例的用于电子设备中的主处理器的语音识别的方法的流程图;
图8是示出了根据本公开实施例的用于电子设备中的主处理器的语音识别的方法的流程图;
图9是示出了根据本公开实施例的电子设备的组件之间的语音识别的流程图;
图10是示出了根据本公开实施例的电子设备的组件之间的语音识别的流程图;
图11是示出了根据本公开实施例的电子设备的组件之间的语音识别的流程图;
图12a提供了根据本公开实施例的电子设备的语音识别操作屏幕的示例;
图12b提供了根据本公开实施例的电子设备的语音识别操作屏幕的示例;
图13a提供了根据本公开实施例的电子设备的语音识别操作屏幕的示例;以及
图13b提供了根据本公开实施例的电子设备的语音识别操作屏幕的示例。
具体实施方式
下文中,参考附图详细地描述了本公开的实施例。
在各种实施例中,“音频信号”包括通过声音信息从音频输入模块输入的信号,并且“语音信号”包括基于语音识别从音频信号中提取的语音信号。
在各种实施例中,语音识别包括提取并仅识别要识别的字的关键字识别、识别说话人的语音作为执行命令的命令识别、以及识别注册特定说话人的语音的说话人识别中的至少一项。语音识别可以分开识别用于触发语音功能的语音触发(即触发语音)和输入的用于在识别出语音触发之后基于语音来执行功能的语音命令(即命令语音)。
例如,关键字识别和命令识别可以是识别许多未指定语音的说话人无关识别方案,并且说话人识别可以是识别特定说话人语音的说话人相关识别方案。关键字识别可以通过分析语音序列以识别连续声音的模式来工作,并且确定在语音模式的连续声音中说出了与关键字相对应的字。如果存在先前存储的关键字,则针对关键字的识别可能会是成功的,而如果没有关键字,则识别可能会失败。说话人识别可以是确定关于注册说话人的语音信息和语音信号之间的相似度的说话人验证功能。当语音输入对应于注册说话人的语音输入时,说话人识别成功,而当语音输入不是注册说话人的语音信号时,说话人识别失败。对于说话人识别,电子设备可以接收注册说话人的语音,提取说话人的语音的特征,对特征进行建模,并存储特征以供以后比较。
图1是根据本公开实施例的电子设备的框图。
参考图1,根据各种实施例的电子设备101包括音频输入模块110、音频处理模块130、存储模块140、显示模块150和主处理器170。
音频输入模块110接收声音信息作为音频信号。例如,音频输入模块110可以是麦克风(MIC)。
音频输入模块110保持在开启状态,而不管主处理器170的睡眠模式或操作模式。音频输入模块110以每个预定时间间隔将音频信号存储在音频输入模块110的缓冲器111中。音频输入模块110所接收的声音信息可以包括噪声(例如,来自电子设备周围环境的声音)以及待输入的语音和特定声音。
音频输入模块110可以实现为专用集成电路(ASIC)的形式以支持声音识别功能。例如,音频输入模块110可以确定由输入声音生成的音频信号是否是要求驱动语音识别系统的声音,并且当音频信号是要求驱动语音识别系统的声音时,唤醒音频处理模块130。例如,当音频信号的大小(例如,dB水平等)大于或等于预设阈值时,音频输入模块110将音频信号识别为要求驱动语音识别系统的声音。关于对声音是否要求驱动语音识别系统的确定的参考可以是音频信号的大小、频带等,并且可以根据设计者的意图来设置。音频输入模块110可以向音频处理模块130(或语音识别模块)传输驱动信号,例如唤醒信号、识别请求信号、中断信号等,并且向音频处理模块130的缓冲器131传输存储在缓冲器111中的音频信号。
音频处理模块130可以连接到音频输入模块110以处理向/从音频输入模块110和主处理器170发送/接收的音频信号,并执行处理音频信号的功能。例如,音频处理模块130可以执行将模拟信号转换为数字信号或将数字信号转换为模拟信号的功能、音频输入/输出预处理/后处理功能、和语音识别功能。
音频处理模块130可以包括数字信号处理器(DSP)。音频处理模块130可以独立于主处理器操作或依赖于主处理器操作,并且在睡眠模式或操作模式下操作。音频处理模块130可以根据处理音频信号(例如,再现声音、转换信号等)的功能来控制音频处理模块130的操作时钟。音频处理模块130处理音频信号并以预定时间间隔将音频信号存储在缓冲器131中。
当在睡眠模式下从音频输入模块110传输驱动信号时,音频处理模块130可以将睡眠模式切换到操作模式。音频处理模块130可以响应于驱动信号而被激活以分析从音频输入模块110传输的音频信号并对音频信号执行语音识别。音频处理模块130可以通过执行关键字识别和说话人识别中的至少一项来识别由说话人(或注册说话人)输入的语音触发。当语音识别成功时,音频处理模块130在缓冲器131中连续地缓冲从音频输入模块110输入的音频信号一段时间(在该段时间期间主处理器170被激活),并且在主处理器170被激活的时间点传输所缓冲的音频信号和/或语音信号。相对地,音频处理模块130可以在语音识别失败时将操作模式切换到睡眠模式。
例如,音频处理模块130可以并行或顺序地执行关键字识别和说话人识别。当关键字识别和说话人识别都成功时,音频处理模块130向主处理器170传输驱动信号。当关键字识别和说话人识别之一失败时,音频处理模块130切换到睡眠模式。
在另一示例中,音频处理模块130执行关键字识别和说话人识别之一,并且当识别成功时激活主处理器170或者当在识别失败时切换到睡眠模式。
当语音识别(例如,关键字识别和说话人识别中的至少一项)成功时,音频处理模块130连续地向主处理器传输从音频输入模块输入的音频信号,并且当从主处理器170接收到识别失败结果时,将操作模式切换到睡眠模式。存储模块140存储从主处理器或其它元件(例如,音频处理模块等)接收的或由其它元件生成的命令或数据。例如,存储模块140存储用于引导电子设备101并操作前述元件的操作系统(OS)、至少一个应用程序、根据功能执行的数据等。
存储模块140可以包括编程模块,例如内核、中间件、应用编程接口(API)、应用等。上述编程模块的每一个可以具有软件、固件、硬件或者其中至少两个的组合的形式。存储模块140可以存储用于语音识别功能的至少一个语音识别算法和关于注册说话人的建模信息。
显示模块150执行向用户显示图像或数据的功能。显示模块150可以包括显示面板。显示面板可以采用例如液晶显示器(LCD)或有源矩阵有机发光二极管(AM-OLED)。显示模块150还可以包括控制显示面板的控制器。显示面板可以实现为例如柔性的、透明的和/或可穿戴的。同时,显示模块150可以被配置为与触摸面板耦接的模块(例如,触摸屏类型)。显示模块150可以根据电子设备101的应用/功能执行而显示各种屏幕,例如呼叫应用/功能执行屏幕、相机执行应用屏幕、语音识别功能执行屏幕等。
主处理器170从电子设备101的元件(例如,音频处理模块130等)接收命令,分析接收到的命令,并根据所分析的命令执行计算和数据处理。例如,当供电时,主处理器170控制电子设备101的引导过程,并执行存储在程序区域中的各种应用程序以根据用户的设置执行功能。主处理器可以包括一个或多个应用处理器(AP)、或一个或多个通信处理器(CP)。
主处理器170可以在睡眠模式下或操作模式下操作。当从音频处理模块130传输了用于语音识别的驱动信号时,主处理器170将睡眠模式切换到操作模式,并执行语音识别,例如关键字识别、命令识别和说话人识别中的至少一项。当主处理器170包括多个计算设备时,主处理器170可以激活用于语音识别功能的一个计算设备,以响应于音频处理模块130的驱动信号而执行语音识别。
主处理器170分析音频信号和/或语音信号,并且并行地或顺序地执行关键字识别、说话人识别、和命令识别。
当音频处理模块130执行关键字识别和说话人识别之一时,主处理器170执行另一个语音识别,即,未由音频处理模块130执行的语音识别。此外,处理器170可以执行命令识别。
当关键字识别和说话人识别中的至少一项失败时,主处理器170向音频处理模块130传输识别失败结果,并将操作模式切换到睡眠模式。
主处理器170可区分地识别语音触发和语音命令,并且当语音识别成功时,根据所识别的语音命令执行电子设备的功能。例如,当注册在电子设备中的用户在睡眠模式下输入语音“Hi Galaxy,相机执行”时,电子设备通过音频输入模块110、音频处理模块130和主处理器170顺序地处理语音输入,并且主处理器170识别用于电子设备操作的语音输入“HiGalaxy,相机执行”,以例如关闭屏幕并执行相机功能。这里,“Hi Galaxy”对应于用于激活基于语音的功能的语音触发,而“相机执行”对应于用于响应于语音输入而执行相应功能的语音命令。更具体地,语音识别可被划分为用于自动执行语音识别应用的语音触发和在识别语音触发之后输入的语音命令。例如,当对来自音频信号的对应于语音触发的“HiGalaxy”的识别成功时,音频处理模块130向主处理器传输驱动信号。当对应于语音触发的“Hi Galaxy”的识别成功时,并且如果对应于语音命令的“相机执行”的识别成功,则主处理器操作电子设备并执行相机功能。
主处理器170的语音识别可以由语音识别系统实现,该语音识别系统比在音频处理模块130中实现的简单语音识别系统复杂。该复杂的语音识别系统可以使用相对更多的资源(例如内存、计算量和相似度测量)来确定语音识别,并且与简单语音识别系统相比具有更高的识别率。
例如,由主处理器170执行的关键字识别可以由基于维特比(Viterbi)解码仅提取要识别的单个字的识别算法来实现,并且与音频处理模块130相比,主处理器170可以具有关键字识别的相对较小的误识别率。主处理器170的说话人识别可以由以下一项或多项的组合来实现:基于深度神经网络的识别算法、基于多神经网络的识别算法、以及基于通用背景模型-高斯混合模型(UBM-GMM)的识别算法。基于多神经网络的识别算法可以通过存在隐藏层的神经网络在考虑诸如关键字识别结果、信噪比(SNR)和背景噪声去除等多个因素的情况下确定认证成功/失败。UBM-GMM算法可以通过比较基于GMM的背景模型得分和说话人模型得分的二进制确定方法,以帧为单位比较UBM值和说话人模型值来确定认证成功/失败。
主处理器170可以在执行语音识别的同时控制显示模块150。
例如,主处理器170在操作模式下执行语音识别的同时维持显示模块150的关闭状态。然后,如果主处理器的语音识别成功,则主处理器170打开显示模块以显示与语音命令相对应的电子设备的功能执行屏幕,或者如果语音识别失败,则维持显示模块的关闭状态。
在另一示例中,主处理器170在操作模式下执行语音识别的同时控制对通知语音识别状态的屏幕的输出。主处理器170响应于语音识别成功而显示电子设备的功能执行屏幕,或者当语音识别失败时关闭显示模块。
图2是根据本公开实施例的电子设备的框图。
参考图2,根据各种实施例的电子设备201包括音频输入模块210、语音识别模块220、音频处理模块230、存储模块240、通信模块260、显示模块250、和主处理器270。
音频输入模块210连续操作,即不改变操作状态,而不管主处理器270的睡眠模式或操作模式。音频输入模块210可以像图1所述的音频输入模块110一样实现为ASIC类型以支持声音识别功能。
在图2的实施例中,音频输入模块210确定存储在缓冲器211中的音频信号是否是要求驱动语音识别系统的声音,并且当音频信号是要求驱动语音识别系统的声音时,唤醒语音识别模块220。当输入音频信号被确定为要求驱动语音识别系统的声音时,音频输入模块210向语音识别模块220传输驱动信号(例如,唤醒信号、语音识别请求信号、中断信号等),并向语音识别模块220的缓冲器221传输存储在缓冲器211中的音频信号。语音识别模块220连接到音频输入模块210和主处理器270,并支持语音识别(例如,关键字识别和说话人识别中的至少一项)功能。语音识别模块220可以包括仅操作用于语音识别功能的低功率处理器。语音识别模块220可以独立于主处理器270操作或依赖于主处理器270操作,并且可以在睡眠模式或操作模式下独立地操作。例如,语音识别模块220可以维持睡眠模式,而不管主处理器270的操作状态。当从音频输入模块210接收到驱动信号时,语音识别模块220变换到操作模式以基于从音频输入模块210传输的音频信号来执行语音识别。当语音识别成功时,语音识别模块220驱动主处理器270并向主处理器270传输存储在缓冲器221中的音频信号。语音识别模块220在语音触发识别成功时驱动主处理器。
语音识别模块220可以在语音识别(例如,关键字识别和说话人识别中的至少一项)失败时切换到睡眠模式,或者可以在从主处理器270接收到语音识别失败信息时将操作模式切换到睡眠模式。
语音识别模块220可被包括在图1的音频处理模块130中。
同时,在图2的实施例中,与图1的实施例不同的是,电子设备201还包括音频处理模块230,其处理音频数据,诸如音频信号预处理/后处理、信号转换功能、噪声去除功能等,而不涉及语音识别功能。
存储模块240和显示模块250与图1所述的存储模块140和显示模块150相似,且省略其详细描述以避免冗余。
根据图2的实施例的主处理器270执行与图1中所述的主处理器170的基本操作相似的操作,并省略其重复描述。
与图1的实施例不同的是,图2的主处理器270从语音识别模块220接收驱动信号,以响应于来自语音识别模块220的驱动信号而将睡眠模式切换到操作模式,并执行语音识别。主处理器270可以由与在图1的主处理器中实现的语音识别相同的语音识别系统实现。当语音识别成功时,主处理器270根据与语音输入相对应的命令执行电子设备的功能。当语音识别失败时,主处理器270向语音识别模块220传输识别失败结果,并将操作模式切换到睡眠模式。
图2的实施例中的电子设备201还包括通信模块260。
通信模块260的示例包括收发器,以通过有线/无线通信与网络进行通信,以与外部设备(例如,服务器)进行语音、视频或数据通信,且通信模块260由主处理器270控制。无线通信可以包括例如Wi-Fi、蓝牙(BT)、近场通信(NFC)、全球定位系统(GPS)和蜂窝通信(例如,长期演进(LTE)、高级长期演进(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)、通用移动电信系统(UMTS)、无线宽带(WiBro)或全球移动通信系统(GSM))中的至少一种。有线通信可以包括例如通用串行总线(USB)、高清多媒体接口(HDMI)、推荐标准232(RS-232)和普通老式电话服务(POTS)中的至少一种。
通信模块260与服务器通信以附加地支持语音识别功能。例如,当语音识别模块220第一次成功地进行语音识别并且主处理器270第二次成功地进行语音识别时,可以通过通信模块260向语音识别服务器发送音频信号和/或语音信号,该语音识别服务器与电子设备相比使用附加的资源。
根据另一实施例,主处理器区分语音触发和在识别语音触发之后输入的语音命令,并向服务器传输经区分的语音。主处理器传输与在识别语音触发之后输入的语音命令相对应的语音信号,或者传输标识语音触发和语音命令分离的时间点的信息。然后,当从主处理器270传输了未被区分的音频信号或语音信号时,服务器可以区分语音触发和语音命令,并执行语音识别。
服务器可以对从电子设备201传输的音频信号(或/和语音信号)执行语音识别,以识别语音命令并向电子设备提供语音命令的识别结果。当语音识别成功时,服务器可以将语音命令转换为文本,并向电子设备201传输关于所转换文本的信息。当语音识别失败时,服务器可以向电子设备201提供失败信息。
电子设备201的主处理器270可以识别有限的语音命令,而与主处理器270相比,服务器可以识别附加语音命令。例如,主处理器270可以识别简单的或预配置在电子设备中的语音命令,例如“相机执行”或“电话呼叫执行”,并且基于所识别的语音命令来执行电子设备201的功能。相对地,电子设备201可以请求服务器识别复杂的或各种语音命令,从服务器接收语音识别结果,并执行与语音识别相对应的功能。
通信模块260可以从服务器接收关于服务器所执行的语音识别的结果的信息。当语音识别成功并且从服务器接收到文本信息时,主处理器270执行与接收到的文本信息相对应的功能。当从服务器接收到语音识别失败信息时,主处理器270将操作模式切换到睡眠模式。
图3是根据本公开实施例的电子设备的框图。
参考图3,电子设备301包括音频输入模块310、语音识别模块320、音频处理模块330、存储模块340、显示模块350、通信模块360和主处理器370。
由于音频输入模块310、存储模块340、显示模块350和通信模块360与上述图2的音频输入模块210、存储模块240、显示模块250和通信模块260相同,省略对其的详细描述以避免冗余。
根据图3的实施例的语音识别模块320接收音频输入模块310的缓冲器311中存储的音频信号,并基于音频信号第一次执行语音识别。当语音识别成功时,语音识别模块320唤醒音频处理模块330并向音频处理模块330传输语音识别模块320的缓冲器321中存储的音频信号。
音频处理模块330基于语音识别模块320的激活信号将睡眠模式切换到操作模式,接收语音识别模块320的缓冲器321中存储的音频信号,并基于音频信号第二次执行语音识别。当语音识别成功时,音频处理模块330通过向主处理器370传输驱动信号并传输缓冲器331中存储的音频信号来激活主处理器370。
由于根据图3的实施例的主处理器370执行与图2中所述的主处理器270的语音识别操作相同的操作,因此省略对其的重复描述以避免冗余。
主处理器370从音频处理模块330接收驱动信号,基于驱动信号将睡眠模式切换到操作模式,并对从音频处理模块330传输的音频信号第三次执行语音识别。
语音识别模块320和音频处理模块330执行关键字识别和说话人识别中的至少一项,且主处理器370执行关键字识别、说话人识别和命令识别中的至少一项。当语音识别成功时,主处理器370根据与语音输入相对应的命令来执行电子设备的功能。如果语音识别失败,则主处理器370向语音识别模块320和音频处理模块330传输识别失败结果,并将操作模式切换到睡眠模式。
如果语音识别成功,则主处理器370通过通信模块360向支持语音识别的服务器发送音频信号和/或语音信号,并从服务器接收关于语音识别的识别结果信息。由于服务器的操作与图2中所述的服务器的操作相同,因此省略对其的详细描述以避免冗余。
如果语音识别成功并且从服务器接收到文本信息,则主处理器370执行与接收到的文本信息相对应的功能。如果接收到语音识别失败信息,则主处理器370将操作模式切换到睡眠模式。
下文中,描述操作用于电子设备的各种组件的语音识别功能的方法。
图4是示出了根据本公开实施例的用于电子设备中的音频输入模块的语音识别的方法的流程图。
参考图4,在步骤410中,电子设备的音频输入模块在操作模式下操作。例如,音频输入模块继续操作而不管电子设备的操作状态或睡眠(或待机)状态,例如,主处理器在睡眠模式下操作,显示模块处于关闭状态,并获取由声音生成的音频信号。
在步骤420中,音频输入模块获取由声音生成的音频信号,并在步骤430中将音频信号存储在缓冲器中。音频输入模块内所包括的缓冲器可以实现为循环缓冲器,并且可以按照音频信号存储在循环缓冲器中的顺序向音频处理模块(或音频识别模块)传输音频信号。
在步骤440中,音频输入模块确定音频信号是否是要求驱动语音识别系统的声音。例如,当缓冲器中的由声音生成的音频信号的大小是大于或等于预设阈值的音频信号或特定频带内的音频信号时,音频输入模块将音频信号识别为要求驱动语音识别系统的声音。
如果音频信号被识别为要求驱动语音识别系统的声音,则在步骤450中,音频输入模块向音频处理模块或语音识别模块传输用于激活请求的驱动信号。在步骤460中,音频输入模块向所激活的音频处理模块(或语音识别模块)传输缓冲器中存储的音频信号。
例如,音频输入模块首先在音频处理模块或语音识别模块被激活的时间内向音频处理模块或语音识别模块内的缓冲器传输音频信号,然后向音频处理模块或语音识别模块顺序传输实时获取的音频信号。
同时,如果在步骤440中音频信号未被识别为要求驱动语音识别系统的声音,则音频输入模块返回到步骤420并重复获取音频信号的操作。如上所述,音频输入模块可以保持操作状态,以不断地识别声音,并且如果声音被识别,则激活音频处理模块或语音识别模块以处理音频信号并发送音频信号。
图5是示出了根据本公开实施例的用于电子设备中的音频处理模块的语音识别的方法的流程图。
参考图5,在步骤510中,电子设备的音频处理模块初始在睡眠模式下操作。例如,当电子设备处于睡眠(或待机)状态时(例如,主处理器在睡眠模式下操作且显示模块处于关闭状态),音频处理模块在睡眠模式下操作。
在步骤520中,音频处理模块从音频输入模块接收驱动信号。当接收到驱动信号时,在步骤530中,音频处理模块将睡眠模式切换到操作模式。在步骤540中,音频处理模块对从音频输入模块输入的音频信号执行语音识别。语音识别可以包括关键字识别和说话人识别。音频处理模块在音频信号中识别与语音触发相对应的关键字。
音频处理模块的关键字识别可以使用基于维特比解码仅提取要识别的字的识别算法来执行,而说话人识别可以使用简单的基于神经网络的识别算法来执行。
在步骤550中,音频处理模块确定语音识别是否成功,并在步骤560中传输驱动信号以请求激活主处理器。
音频处理模块基于从音频输入模块传输的音频信号并行地或顺序地执行关键字识别和说话人识别,或者执行关键字识别和说话人识别之一。例如,音频处理模块识别用于自动驱动语音识别系统或应用的语音触发。
在步骤570中,音频处理模块向主处理器传输音频信号(例如,语音信号)。音频处理模块对从音频输入模块传输的音频信号实时执行语音识别,并且当语音识别成功时,在主处理器被激活的时间期间缓冲音频信号。当主处理器被激活时,音频处理模块向主处理器实时传输音频信号。
同时,如果在步骤550中确定语音识别失败,则音频处理模块在步骤590中将操作模式切换到睡眠模式。
在操作模式下,在步骤580中,音频处理模块从主处理器接收根据主处理器的语音识别失败的失败信息。当从主处理器接收到语音识别失败信息时,在步骤590中,音频处理模块将操作模式切换到睡眠模式。
图6是示出了根据本公开实施例的用于电子设备中的语音识别模块的语音识别的方法的流程图。
参考图6,电子设备包括语音识别模块,且在步骤610中,语音识别模块初始在睡眠模式下操作。语音识别模块实现低功率芯片以减少电流消耗并且可以限制性地操作,即仅对语音识别功能进行操作。语音识别模块可被包括在音频处理模块中或者作为与音频处理模块分离的元件实现在电子设备中。
在步骤620中,音频识别模块从音频输入模块接收驱动信号。当接收到驱动信号时,在步骤630中,语音识别模块将睡眠模式切换到操作模式。在步骤640中,语音识别模块对从音频输入模块传输的音频信号执行语音识别。
语音识别可以包括关键字识别和说话人识别中的至少一项。此外,语音识别模块可以识别用于自动驱动语音识别应用的语音触发。在步骤650中,语音识别模块确定语音识别是否成功,并且如果语音识别成功,则在步骤660中向主处理器或音频处理模块传输驱动信号以请求激活。
例如,当在语音识别功能中未涉及电子设备的音频处理模块时,在语音识别成功的情况下,语音识别模块激活主处理器。当语音识别模块和音频处理模块在电子设备中分开实现并且在语音识别功能中未涉及音频处理模块时,语音识别模块激活音频处理模块。
在步骤670中,语音识别模块向主处理器或音频处理模块传输音频信号(例如,语音信号)。同时,如果在步骤650中确定语音识别失败,则在步骤690中,语音识别模块将操作模式切换到睡眠模式。
当在操作模式下在步骤680中语音识别模块从主处理器或音频处理模块接收到根据语音识别失败的失败信息时,在步骤690中,语音识别模块将操作模式切换到睡眠模式。
图7是示出了根据本公开实施例的用于电子设备中的主处理器的语音识别的方法的流程图。
参考图7,在步骤710中,电子设备的主处理器在睡眠模式下操作。主处理器的睡眠模式是指未使用电子设备的状态,即,应用处理器的非活动状态。睡眠模式的主处理器阻止对与主处理器相连的某些功能块的供电。
如果主处理器在睡眠模式下操作,则音频输入模块保持在活动状态,且即使便携式终端未被使用,也检测声音信息,获取音频信号,并将音频信号存储在缓冲器中。
在步骤720中,主处理器接收请求激活的驱动信号。例如,主处理器在睡眠模式下从音频处理模块或语音识别模块接收驱动信号。
在步骤730中,主处理器响应于驱动信号而将睡眠模式切换到操作模式。在步骤740中,主处理器从音频处理模块或语音识别模块接收音频信号(或/和语音信号),并在步骤750中对音频信号(或/和语音信号)执行语音识别。例如,主处理器基于从音频处理模块输入的音频信号或由音频处理模块或语音识别模块第一次识别的语音信号来执行语音识别。
主处理器由复杂的语音识别系统实现,该复杂的语音识别系统与在音频处理模块或语音识别模块中实现的简单语音识别系统相比使用相对更多的资源。例如,主处理器的关键字识别由基于维特比解码仅提取要识别的字的识别算法来实现。主处理器的说话人识别可以由以下一项或多项的组合来实现:基于深度神经网络的识别算法、基于多神经网络的识别算法、以及基于UBM-GMM的识别算法。
主处理器通过区分用于自动执行语音识别应用的语音触发和在识别语音触发之后输入的语音命令来执行语音识别。备选地,主处理器在活动状态下对从音频处理模块或语音识别模块传输的音频信号执行语音识别。
在步骤760中,主处理器确定语音识别是否成功。如果语音识别成功,则在步骤770中,主处理器识别与语音识别相对应的命令,并基于语音命令执行电子设备的功能。
如果在步骤760中语音识别失败,则在步骤780中,主处理器传输向音频处理模块或语音识别模块通知语音识别失败的失败信息,并在步骤790中将操作模式切换到睡眠模式。
主处理器在执行语音识别的同时控制显示模块的开启/关闭操作。在图12a、图12b、图13a和图13b中描述与主处理器的语音识别有关的显示模块的开启/关闭操作的示例。
图8是示出了根据本公开实施例的用于电子设备中的主处理器的语音识别的方法的流程图。
参考图8,在步骤810中,电子设备的主处理器在睡眠模式下操作。在步骤820中,主处理器接收请求激活的驱动信号。例如,在睡眠模式下,主处理器从音频处理模块或语音识别模块接收驱动信号。
在步骤825中,主处理器响应于驱动信号而将睡眠模式切换到操作模式。在步骤830中,主处理器从音频处理模块或语音识别模块获取音频信号(或/和语音信号),并在步骤840中对音频信号执行语音识别。
在步骤845中,主处理器确定语音识别是否成功,并且当语音识别成功时,在步骤850中通过通信模块向支持语音识别的服务器发送语音识别请求和音频信号(和/或语音信号)。主处理器向服务器传输以下至少一项:从音频输入模块输入的基于外部声音的音频信号和基于语音识别来提取的语音信号。主处理器由复杂的语音识别系统实现,该复杂的语音识别系统与在音频处理模块或语音识别模块中实现的简单语音识别系统相比使用更多的资源。主处理器通过区分用于自动执行语音识别应用的语音触发和在识别语音触发之后输入的语音命令来执行语音识别。主处理器传输与在识别语音触发之后输入的语音命令相对应的语音信号,或者传输标识语音触发和语音命令分离的时间点的信息。然后,服务器基于从电子设备传输的音频信号(或/和语音信号)执行语音识别。由服务器执行的语音识别可以是关键字识别、说话人识别、和命令识别中的至少一项。如上所述,与主处理器相比,服务器可以识别更多语音命令。服务器可以通过基于深度神经网络(DNN)的UBM-GMM算法来执行语音识别,并向电子设备发送关于语音识别的结果信息。例如,当语音识别成功时,服务器可以将所识别的语音命令转换为文本信息,并向电子设备发送该文本信息。当语音识别失败时,服务器可以向电子设备发送向电子设备通知语音识别失败的失败信息。
在步骤855中,主处理器从服务器接收语音识别结果。当在步骤860中主处理器基于语音识别的结果接收到关于语音识别的成功信息时,在步骤865中,主处理器识别与语音识别相对应的命令,并基于语音命令执行电子设备的功能。
当语音识别失败时,在步骤870中,主处理器传输向音频处理模块或语音识别模块通知语音识别失败的失败信息,并在步骤880中将操作模式切换到睡眠模式。
图9是示出了根据本公开实施例的用于电子设备的组件之间的语音识别的方法的流程图。
参考图9,在步骤910中,电子设备通过音频输入模块识别声音。当音频输入模块识别出声音时,在步骤920中,电子设备向音频处理模块传输驱动信号以请求激活。在步骤911中,音频处理模块在睡眠模式下操作,并且当从音频输入模块接收到驱动信号时,在步骤930中,音频处理模块被唤醒并切换到操作模式。在步骤935中,电子设备可以通过音频处理模块基于从音频输入模块获取的音频信号(例如,语音信号)执行语音识别。当音频处理模块成功进行了语音识别时,在步骤940中,音频处理模块向主处理器传输驱动信号以请求激活。同时,当基于语音识别的结果,音频处理模块进行语音识别失败时,电子设备将音频处理模块切换到睡眠模式并使主处理器保持在睡眠模式下。
在步骤912中,主处理器在睡眠模式下操作,并且当从音频处理模块接收到驱动信号时,在步骤950中,主处理器被唤醒并切换到操作模式。在步骤955中,主处理器对基于由音频处理模块第一次执行的语音识别所提取的语音信号和从音频输入模块输入的音频信号第二次执行语音识别。
当基于语音识别的结果,主处理器成功进行了语音识别时,在步骤960中,电子设备基于所识别的语音命令执行其功能。同时,当基于语音识别的结果,主处理器进行语音识别失败时,在步骤975中,电子设备向音频处理模块传输语音识别失败信息,并将音频处理模块和主处理器切换到睡眠模式。
图10是示出了根据本公开实施例的电子设备的组件之间的语音识别的流程图。
参考图10,在步骤1010中,电子设备通过音频输入模块识别声音。当音频输入模块识别出声音时,在步骤1020中,电子设备的音频输入模块向音频处理模块(或语音识别模块)传输驱动信号以请求激活。在步骤1011中,音频处理模块(或语音识别模块)在睡眠模式下操作,并且当从音频输入模块接收到驱动信号时,在步骤1030中,音频处理模块(或语音识别模块)被唤醒并切换到操作模式。然后,在步骤1035中,电子设备通过音频处理模块(或语音识别模块)对从音频输入模块获取的音频信号执行语音识别。当音频处理模块(或语音识别模块)成功进行了语音识别时,在步骤1040中,电子设备向主处理器传输驱动信号以请求激活。音频处理模块(或语音识别模块)可以通过关键字识别和说话人识别来识别语音触发。
当电子设备的主处理器在睡眠模式下从音频处理模块接收到驱动信号时,在步骤1050中,主处理器被唤醒并切换到操作模式。当在步骤1055中电子设备的主处理器成功进行了语音识别时,在步骤1060中,主处理器向服务器发送音频信号和/或语音信号。
主处理器通过关键字识别和说话人识别来识别语音触发,并且区分语音触发和在语音触发之后输入的语音命令。主处理器可以传输与在识别语音触发之后输入的语音命令相对应的语音信号,或者传输与语音触发和语音命令分离的时间点有关的信息。主处理器可以向服务器传输以下至少一项:从音频输入模块输入的基于外部声音的音频信号和基于语音识别提取的语音信号。然后,在步骤1065中,服务器基于从电子设备传输的音频信号和/或语音信号执行语音识别,并在步骤1070中传输关于语音识别的结果信息。
当基于来自服务器的关于语音识别的结果信息,语音识别成功,并且接收到语音命令信息时,在步骤1080中,电子设备基于语音命令执行电子设备的功能。
同时,当基于语音识别的结果,音频处理模块(或语音识别模块)进行语音识别失败时,在步骤1090中,电子设备将音频处理模块(或语音识别模块)切换到睡眠模式,并使主处理器保持在睡眠模式下。同时,当基于来自服务器的语音识别结果,电子设备接收到通知语音识别失败的失败信息时,在步骤1090中,电子设备向音频处理模块(或语音识别模块)传输语音识别失败信息,并将音频处理模块(或语音识别模块)和主处理器切换到睡眠模式。
图11是示出了根据本公开实施例的电子设备的组件之间的语音识别的流程图。
参考图11,在步骤1110中,电子设备通过音频输入模块识别声音。当电子设备的音频输入模块识别出声音时,在步骤1120中,音频输入模块向语音识别模块传输驱动信号以请求激活。在步骤1111中,语音识别模块在睡眠模式下操作,并且当从音频输入模块接收到驱动信号时,在步骤1125中,语音识别模块被唤醒并切换到操作模式。然后,在步骤1130中,电子设备的语音识别模块对从音频输入模块获取的音频信号执行语音识别。当语音识别模块成功进行了语音识别时,在步骤1135中,语音识别模块向音频处理模块传输驱动信号以请求激活。在步骤1112中,音频处理模块在睡眠模式下操作,并且当从语音识别模块接收到驱动信号时,在步骤1140中,音频处理模块被唤醒并切换到操作模式。然后,在步骤1145中,电子设备的音频处理模块执行语音识别。当音频处理模块成功进行了语音识别时,在步骤1150中,音频处理模块向主处理器传输驱动信号以请求激活。音频处理模块(或语音识别模块)通过关键字识别和说话人识别来识别由注册说话人输入的语音触发。
在步骤1113中,电子设备的主处理器在睡眠模式下操作,并且当从音频处理模块接收到驱动信号时,在步骤1155中,主处理器被唤醒并切换到操作模式。当在步骤1160中电子设备的主处理器执行语音识别并且语音识别成功时,在步骤1165中,主处理器向服务器传输音频信号和/或语音信号。主处理器通过关键字识别和说话人识别来识别由注册说话人输入的语音触发,并且区分语音触发和在语音触发之后输入的语音命令。主处理器传输与在识别语音触发之后输入的语音命令相对应的语音信号,或者传输与语音触发和语音命令分离的时间点有关的信息以及连续语音信号。此外,主处理器向服务器传输以下至少一项:从音频输入模块输入的基于外部声音的音频信号和基于语音识别提取的语音信号。
然后,在步骤1175中,服务器基于从电子设备传输的音频信号和/或语音信号执行语音识别,并在步骤1180中传输关于语音识别的结果信息。在步骤1085中,电子设备基于从服务器接收的语音命令执行功能。当从主处理器传输了连续音频信号或语音信号时,服务器区分语音触发和语音命令,并执行语音识别。当从主处理器传输了语音命令的信号时,服务器执行语音命令识别。
由服务器执行的语音命令识别可以是关键字识别、说话人识别、和命令识别中的至少一项。如上所述,电子设备可以识别有限的语音命令,而与主处理器相比,服务器可以识别更多语音命令。
同时,当基于来自服务器的语音识别结果,电子设备接收到通知语音识别失败的失败信息时,在步骤1190中,电子设备向音频处理模块或语音识别模块传输语音识别失败信息,并在图9的步骤975、图10的步骤1095以及图11的步骤1192和1191中将音频处理模块或语音识别模块和主处理器切换到睡眠模式。
电子设备的语音识别模块第一次执行语音识别。当语音识别模块的语音识别成功时,音频处理模块第二次执行语音识别。当音频处理模块的语音识别成功时,主处理器第三次执行语音识别。此外,当电子设备的主处理器成功进行语音识别时,主处理器请求服务器第四次执行语音识别。
下文中,将描述电子设备的语音识别操作中的用户界面(UI)屏幕的实施例。
图12a提供了根据本公开实施例的电子设备的语音识别操作屏幕的示例。图12b提供了根据本公开实施例的电子设备的语音识别操作屏幕的示例。
参考图12a和图12b,当主处理器从睡眠模式切换到操作模式并执行语音识别时,电子设备控制显示模块的开启/关闭操作。
如附图标记1201(图12a)所示,在音频输入模块获取音频信号并且音频处理模块(或语音识别模块)执行语音识别时,电子设备的主处理器在睡眠模式下操作并且显示模块处于关闭状态。在主处理器由来自音频处理模块(或语音识别模块)的驱动信号激活并执行语音识别时,主处理器控制显示模块保持关闭状态。
当电子设备的主处理器成功进行了语音识别时,主处理器打开显示模块并显示语音识别操作屏幕,例如由附图标记1203(图12a)所示的语音识别应用屏幕,然后,顺序执行与语音命令相对应的功能,并控制如附图标记1204(图12a)所示的功能执行屏幕的输出。
例如,当基于语音识别的结果,电子设备的主处理器成功识别了注册说话人的语音触发(例如,“Hi Galaxy”)并且成功识别了在语音触发之后输入的语音命令(例如,“打开相机”)时,主处理器控制显示模块输出语音识别应用屏幕1203以及随后输出功能执行屏幕1204(图12a)。
备选地,当基于语音识别的结果,电子设备的主处理器成功进行了语音识别时,主处理器打开显示模块,以执行与语音命令相对应的功能,并且直接显示功能执行屏幕。
在执行语音识别时,电子设备的主处理器控制显示模块保持关闭状态,如附图标记1205(图12b)所示。当基于语音识别的结果,语音识别失败时,主处理器可以从操作模式切换到睡眠模式并保持关闭状态,如附图标记1206(图12b)所示。
图13a提供了根据本公开实施例的电子设备的语音识别操作屏幕的示例。图13b提供了根据本公开实施例的电子设备的语音识别操作屏幕的示例。
参考图13a和图13b,电子设备从音频输入模块获取音频信号。在音频处理模块(或语音识别模块)执行语音识别时,主处理器在睡眠模式下操作,使得显示模块可以处于关闭状态,如附图标记1301(图13a)所示。当主处理器由来自音频处理模块(或语音识别模块)的驱动信号激活时,主处理器打开显示模块并显示指示正在执行语音识别的语音识别操作屏幕,如附图标记1302(图13a)所示。
当语音识别成功时,主处理器执行与语音命令相对应的功能,将语音识别操作屏幕切换到功能执行屏幕,并显示所切换的功能执行屏幕,如附图标记1303(图13a)所示。
如图13b所示,在电子设备的音频处理模块(或语音识别模块)执行语音识别时,显示模块保持在关闭状态,如附图标记1304所示。
当电子设备的主处理器因语音识别功能而被激活时,主处理器可以打开显示模块,并且在执行语音识别时,显示指示正在执行语音识别的语音识别操作屏幕,如附图标记1305所示。当在语音识别期间显示语音识别操作屏幕时基于语音识别的结果,语音识别失败时,主处理器关闭显示模块,并从操作模式切换到睡眠模式,如附图标记1306所示。
还可以提供其中存储有命令的存储介质。所述命令被配置为当由一个或多个处理器执行时允许所述一个或多个处理器执行一个或多个操作。所述一个或多个操作包括:由音频输入模块识别声音并请求激活语音识别模块;当语音识别模块响应于来自音频输入模块的激活请求而被激活时,对从音频输入模块传输的音频信号执行第一语音识别;当由语音识别模块执行的第一语音识别成功时,向处理器请求语音识别;以及由处理器对从语音识别模块传输的音频信号执行第二语音识别。
根据本公开,当语音识别第一次通过具有小电流消耗的低性能模块执行并且第一次语音识别成功时,通过具有相对较高识别率的高性能模块第二次执行语音识别,使得通过电子设备的组件的分阶段激活可以提高语音识别的识别率并且还可以改善电流消耗。
尽管已经参考本公开的特定实施例示出并描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同物限定的本发明的精神和范围的前提下,可以在其中进行形式和细节上的各种改变。
Claims (15)
1.一种电子设备,包括:
音频输入模块,被配置为:
接收音频信号,
对所述音频信号执行声音识别,以及
基于所述声音识别的结果向第一处理器传输第一驱动信号和所述音频信号;
所述第一处理器,被配置为:
响应于接收到所述第一驱动信号和所述音频信号,基于所述第一驱动信号而唤醒,
对所述音频信号执行第一语音识别以提取语音信号,其中所述第一语音识别包括关键字识别和说话人识别中的至少一项,以及
响应于所述第一语音识别成功,向第二处理器传输第二驱动信号和所述语音信号;以及
所述第二处理器,被配置为:
响应于接收到所述第二驱动信号和所述语音信号,基于所述第二驱动信号而唤醒,
对所述语音信号执行第二语音识别以识别语音命令,其中所述第二语音识别包括命令识别,以及
基于所述第二语音识别的结果执行与所识别的语音命令相关联的应用,
其中,所述第二处理器还被配置为:在所述第二语音识别期间维持显示器的关闭状态,并且响应于所述第二语音识别成功,打开所述显示器以显示所述应用的执行屏幕。
2.根据权利要求1所述的电子设备,其中,所述第二处理器通过基于所述第二驱动信号从睡眠模式切换到操作模式来执行所述第二语音识别。
3.根据权利要求1所述的电子设备,其中,所述第一处理器针对所述音频信号来识别用于触发语音识别功能的注册说话人的语音触发,并且所述第二处理器针对在对所述语音触发的识别成功之后输入的音频信号来识别用于执行基于语音的功能的所述注册说话人的语音命令。
4.根据权利要求1所述的电子设备,其中,
所述音频输入模块基于所述声音识别的结果将所述第一处理器从睡眠模式切换到操作模式。
5.根据权利要求1所述的电子设备,其中,
所述第一处理器是音频处理器,所述音频处理器被配置为处理向所述第二处理器发送的音频数据。
6.根据权利要求1所述的电子设备,其中,如果所述第一语音识别失败,则所述第一处理器从操作模式切换到睡眠模式,以及如果所述第二语音识别失败,则所述第二处理器从所述操作模式切换到所述睡眠模式。
7.根据权利要求1所述的电子设备,还包括:
收发器,被配置为与语音识别服务器进行通信,
其中,如果所述第二语音识别成功,则所述收发器针对第三语音识别向所述语音识别服务器发送所述第二语音识别的语音信号或所述音频信号中的至少一项,以及从所述语音识别服务器接收与所述第三语音识别有关的结果信息。
8.根据权利要求1所述的电子设备,还包括:
所述显示器,
其中,如果在所述显示器处于关闭状态时所述第二语音识别成功,则所述第二处理器打开所述显示器以显示功能执行屏幕,而如果所述第二语音识别失败,则所述显示器保持关闭状态,或者
其中,在执行所述第二语音识别时,所述第二处理器控制所述显示器输出指示正在执行语音识别的屏幕,以及如果所述第二语音识别成功,则显示功能执行屏幕,而如果所述第二语音识别失败,则关闭所述显示器。
9.一种由电子设备执行语音识别的方法,所述方法包括:
由音频输入模块接收音频信号;
由所述音频输入模块对所述音频信号执行声音识别;
由所述音频输入模块基于所述声音识别的结果向第一处理器传输第一驱动信号和所述音频信号;
响应于接收到所述第一驱动信号和所述音频信号,所述第一处理器基于所述第一驱动信号而唤醒;
由所述第一处理器对所述音频信号执行第一语音识别以提取语音信号,其中所述第一语音识别包括关键字识别和说话人识别中的至少一项;
响应于所述第一语音识别成功,由所述第一处理器向第二处理器传输第二驱动信号和所述语音信号;
响应于接收到所述第二驱动信号和所述语音信号,所述第二处理器基于所述第二驱动信号而唤醒;
由所述第二处理器对所述语音信号执行第二语音识别以识别语音命令,其中所述第二语音识别包括命令识别;以及
由所述第二处理器基于所述第二语音识别的结果执行与所识别的语音命令相关联的应用,
其中,所述方法还包括:
在所述第二语音识别期间维持显示器的关闭状态,并且响应于所述第二语音识别成功,打开所述显示器以显示所述应用的执行屏幕。
10.根据权利要求9所述的方法,其中,执行所述第二语音识别包括:所述第二处理器基于所述第二驱动信号从睡眠模式切换到操作模式。
11.根据权利要求9所述的方法,其中,执行所述第一语音识别包括:基于所述音频信号来识别用于触发语音识别功能的注册说话人的语音触发,
执行所述第二语音识别包括:针对在对所述语音触发的识别成功之后输入的音频信号来识别用于执行基于语音的功能的语音命令。
12.根据权利要求9所述的方法,其中,执行所述声音识别包括:
由所述音频输入模块基于所述声音识别的结果将所述第一处理器从睡眠模式切换到操作模式,并且
其中,当所述第一处理器处于所述操作模式时执行所述第一语音识别。
13.根据权利要求9所述的方法,还包括:
如果所述第一语音识别失败,则将所述第一处理器从操作模式切换到睡眠模式;以及
如果所述第二语音识别失败,则将所述第二处理器从操作模式切换到睡眠模式。
14.根据权利要求9所述的方法,还包括:
响应于由所述第一处理器提供的所述第二驱动信号,将所述第二处理器从睡眠模式切换到操作模式;
由所述第一处理器缓冲通过对所述音频信号的所述第一语音识别的语音信号;以及
如果所述第二处理器从睡眠模式切换到操作模式,则由所述第一处理器向所述第二处理器传输所缓冲的语音信号和所述音频信号。
15.根据权利要求9所述的方法,其中,执行所述第二语音识别包括:
如果所述第二处理器成功进行了所述第二语音识别,则向语音识别服务器发送所述音频信号和基于所述第二语音识别的语音信号以进行第四语音识别;
当从所述语音识别服务器接收到根据所述第四语音识别的语音命令时,执行与所接收的语音命令相对应的电子设备的功能;以及
如果从所述语音识别服务器接收到与所述第四语音识别有关的失败信息,则将所述第二处理器切换到睡眠模式。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2015-0023702 | 2015-02-16 | ||
KR1020150023702A KR102346302B1 (ko) | 2015-02-16 | 2015-02-16 | 전자 장치 및 음성 인식 기능 운용 방법 |
PCT/KR2016/001470 WO2016133316A1 (en) | 2015-02-16 | 2016-02-15 | Electronic device and method of operating voice recognition function |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107112017A CN107112017A (zh) | 2017-08-29 |
CN107112017B true CN107112017B (zh) | 2021-04-27 |
Family
ID=55411207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680005400.9A Active CN107112017B (zh) | 2015-02-16 | 2016-02-15 | 操作语音识别功能的电子设备和方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10679628B2 (zh) |
EP (1) | EP3057094B1 (zh) |
KR (1) | KR102346302B1 (zh) |
CN (1) | CN107112017B (zh) |
WO (1) | WO2016133316A1 (zh) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102346302B1 (ko) * | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
JP6564058B2 (ja) | 2015-04-10 | 2019-08-21 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 |
KR102596430B1 (ko) * | 2016-08-31 | 2023-10-31 | 삼성전자주식회사 | 화자 인식에 기초한 음성 인식 방법 및 장치 |
US10732258B1 (en) * | 2016-09-26 | 2020-08-04 | Amazon Technologies, Inc. | Hybrid audio-based presence detection |
KR102623272B1 (ko) * | 2016-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN111611575A (zh) * | 2016-10-13 | 2020-09-01 | 创新先进技术有限公司 | 基于虚拟现实场景的业务实现方法及装置 |
EP3526789B1 (en) * | 2016-10-17 | 2022-12-28 | Harman International Industries, Incorporated | Voice capabilities for portable audio device |
CN106412315B (zh) * | 2016-10-31 | 2020-05-01 | 努比亚技术有限公司 | Nfc标签、设置nfc标签的方法、nfc标签系统及移动终端 |
KR102591413B1 (ko) * | 2016-11-16 | 2023-10-19 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
US10079015B1 (en) | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
CN110268471B (zh) * | 2017-01-26 | 2023-05-02 | 赛伦斯运营公司 | 具有嵌入式降噪的asr的方法和设备 |
KR102398649B1 (ko) * | 2017-03-28 | 2022-05-17 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 동작 방법 |
KR101949363B1 (ko) * | 2017-03-30 | 2019-02-18 | 엘지전자 주식회사 | 홈 어플라이언스 및 그 동작 방법 |
KR102371313B1 (ko) | 2017-05-29 | 2022-03-08 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
US10474417B2 (en) | 2017-07-20 | 2019-11-12 | Apple Inc. | Electronic device with sensors and display devices |
KR102098633B1 (ko) * | 2017-08-22 | 2020-04-08 | 네이버 주식회사 | 인공지능 기기에서의 연속 대화 기능 |
KR20190024190A (ko) * | 2017-08-31 | 2019-03-08 | (주)휴맥스 | 음성 인식 영상 피드백 제공 시스템 및 방법 |
CN107656923A (zh) * | 2017-10-13 | 2018-02-02 | 深圳市沃特沃德股份有限公司 | 语音翻译方法和装置 |
KR102471493B1 (ko) * | 2017-10-17 | 2022-11-29 | 삼성전자주식회사 | 전자 장치 및 음성 인식 방법 |
KR102543693B1 (ko) * | 2017-10-17 | 2023-06-16 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
GB201720418D0 (en) * | 2017-11-13 | 2018-01-24 | Cirrus Logic Int Semiconductor Ltd | Audio peripheral device |
KR102645469B1 (ko) * | 2017-11-15 | 2024-03-12 | 주식회사 아이앤나 | 출입 인지를 위한 사운드장치 |
KR102417899B1 (ko) * | 2017-11-16 | 2022-07-07 | 현대자동차주식회사 | 차량의 음성인식 시스템 및 방법 |
KR102460491B1 (ko) * | 2017-12-06 | 2022-10-31 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
KR102498007B1 (ko) * | 2018-01-08 | 2023-02-08 | 엘지전자 주식회사 | 음성인식을 이용한 세탁물 처리기기 제어시스템 및 동작방법 |
KR102585784B1 (ko) * | 2018-01-25 | 2023-10-06 | 삼성전자주식회사 | 오디오 재생시 인터럽트를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
KR102629424B1 (ko) * | 2018-01-25 | 2024-01-25 | 삼성전자주식회사 | 보안 기능을 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
CN108281145B (zh) * | 2018-01-29 | 2021-07-02 | 南京地平线机器人技术有限公司 | 语音处理方法、语音处理装置和电子设备 |
EP3753017B1 (en) * | 2018-06-05 | 2023-08-02 | Samsung Electronics Co., Ltd. | A voice assistant device and method thereof |
WO2019235858A1 (en) * | 2018-06-05 | 2019-12-12 | Samsung Electronics Co., Ltd. | A voice assistant device and method thereof |
KR102623246B1 (ko) * | 2018-10-12 | 2024-01-11 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체. |
US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
CN109599104B (zh) * | 2018-11-20 | 2022-04-01 | 北京小米智能科技有限公司 | 多波束选取方法及装置 |
KR20200084730A (ko) * | 2019-01-03 | 2020-07-13 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
WO2020162930A1 (en) * | 2019-02-06 | 2020-08-13 | Google Llc | Voice query qos based on client-computed content metadata |
KR20210110666A (ko) | 2019-04-01 | 2021-09-08 | 구글 엘엘씨 | 재충전식 디바이스에서 캐스팅 요청 및/또는 사용자 입력의 적응적 관리 |
CN112306355A (zh) * | 2019-07-24 | 2021-02-02 | 北京迪文科技有限公司 | 一种支持语音识别的显示装置和方法 |
US20220343900A1 (en) * | 2019-09-24 | 2022-10-27 | Lg Electronics Inc. | Image display device and voice recognition method therefor |
KR102241792B1 (ko) * | 2020-04-02 | 2021-04-19 | 네이버 주식회사 | 인공지능 기기에서의 연속 대화 기능 |
KR20220040875A (ko) * | 2020-09-24 | 2022-03-31 | 삼성전자주식회사 | 음성 인식 서비스를 위한 등록 사용자에 대한 화자 인증 학습 장치 및 그 동작 방법 |
KR20220121631A (ko) * | 2021-02-25 | 2022-09-01 | 삼성전자주식회사 | 음성 인증 방법 및 이를 이용한 장치 |
EP4300485A4 (en) * | 2021-03-15 | 2024-02-28 | Huawei Tech Co Ltd | MEDIA PROCESSING APPARATUS AND METHOD |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101235688A (zh) * | 2007-02-01 | 2008-08-06 | 李世雄 | 整合感应及影音识别功能的门锁控制系统 |
CN101971250A (zh) * | 2008-03-13 | 2011-02-09 | 索尼爱立信移动通讯有限公司 | 具有活动语音识别的移动电子设备 |
CN103021409A (zh) * | 2012-11-13 | 2013-04-03 | 安徽科大讯飞信息科技股份有限公司 | 一种语音启动拍照系统 |
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN103632664A (zh) * | 2012-08-20 | 2014-03-12 | 联想(北京)有限公司 | 一种语音识别的方法及电子设备 |
CN103700368A (zh) * | 2014-01-13 | 2014-04-02 | 联想(北京)有限公司 | 用于语音识别的方法、语音识别装置和电子设备 |
JP2014203024A (ja) * | 2013-04-09 | 2014-10-27 | コニカミノルタ株式会社 | 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム |
Family Cites Families (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI225638B (en) * | 2003-09-26 | 2004-12-21 | Delta Electronics Inc | Speech recognition method |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
KR20100032140A (ko) | 2008-09-17 | 2010-03-25 | 주식회사 현대오토넷 | 대화형 음성인식방법 및 음성인식장치 |
US9338274B2 (en) * | 2009-10-02 | 2016-05-10 | Blackberry Limited | Method of interacting with electronic devices in a locked state and handheld electronic device configured to permit interaction when in a locked state |
KR101192813B1 (ko) * | 2010-12-14 | 2012-10-26 | (주)이엔엠시스템 | 대기 상태에서 저주파 영역 음향에 대해서 음성인식을 수행하는 음성인식 시스템 및 그 제어방법 |
US9183843B2 (en) * | 2011-01-07 | 2015-11-10 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US8311973B1 (en) * | 2011-09-24 | 2012-11-13 | Zadeh Lotfi A | Methods and systems for applications for Z-numbers |
US8666751B2 (en) | 2011-11-17 | 2014-03-04 | Microsoft Corporation | Audio pattern matching for device activation |
US9838810B2 (en) * | 2012-02-27 | 2017-12-05 | Qualcomm Technologies International, Ltd. | Low power audio detection |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US10354650B2 (en) * | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
TWI474317B (zh) * | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
US9886944B2 (en) * | 2012-10-04 | 2018-02-06 | Nuance Communications, Inc. | Hybrid controller for ASR |
US20190304460A1 (en) * | 2012-10-30 | 2019-10-03 | Google Technology Holdings LLC | Voice control user interface with progressive command engagement |
US9959865B2 (en) | 2012-11-13 | 2018-05-01 | Beijing Lenovo Software Ltd. | Information processing method with voice recognition |
CN103871409B (zh) * | 2012-12-17 | 2018-01-23 | 联想(北京)有限公司 | 一种语音识别的方法、信息处理的方法及电子设备 |
US9875741B2 (en) * | 2013-03-15 | 2018-01-23 | Google Llc | Selective speech recognition for chat and digital personal assistant systems |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
KR101480594B1 (ko) * | 2012-12-18 | 2015-01-08 | 현대자동차주식회사 | 시선기반 착신 제어 방법과 이를 위한 이동통신 단말 |
JP6149868B2 (ja) * | 2013-01-10 | 2017-06-21 | 日本電気株式会社 | 端末、ロック解除方法およびプログラム |
US9131369B2 (en) * | 2013-01-24 | 2015-09-08 | Nuance Communications, Inc. | Protection of private information in a client/server automatic speech recognition system |
DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
KR20150104615A (ko) * | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9818407B1 (en) * | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
US20140244273A1 (en) * | 2013-02-27 | 2014-08-28 | Jean Laroche | Voice-controlled communication connections |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US9542947B2 (en) * | 2013-03-12 | 2017-01-10 | Google Technology Holdings LLC | Method and apparatus including parallell processes for voice recognition |
US9842584B1 (en) * | 2013-03-14 | 2017-12-12 | Amazon Technologies, Inc. | Providing content on multiple devices |
US20150314454A1 (en) * | 2013-03-15 | 2015-11-05 | JIBO, Inc. | Apparatus and methods for providing a persistent companion device |
US20140297288A1 (en) * | 2013-03-29 | 2014-10-02 | Orange | Telephone voice personal assistant |
US9633655B1 (en) * | 2013-05-23 | 2017-04-25 | Knowles Electronics, Llc | Voice sensing and keyword analysis |
US9712923B2 (en) * | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | VAD detection microphone and method of operating the same |
EP2816554A3 (en) * | 2013-05-28 | 2015-03-25 | Samsung Electronics Co., Ltd | Method of executing voice recognition of electronic device and electronic device using the same |
US20140358552A1 (en) * | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
CN110096253B (zh) * | 2013-07-11 | 2022-08-30 | 英特尔公司 | 利用相同的音频输入的设备唤醒和说话者验证 |
US10047970B2 (en) * | 2013-08-21 | 2018-08-14 | Honeywell International Inc. | Devices and methods for interacting with an HVAC controller |
US9508345B1 (en) * | 2013-09-24 | 2016-11-29 | Knowles Electronics, Llc | Continuous voice sensing |
US9502028B2 (en) * | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US9666188B2 (en) * | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
CN103595869A (zh) * | 2013-11-15 | 2014-02-19 | 华为终端有限公司 | 一种终端语音控制方法、装置及终端 |
US9111214B1 (en) * | 2014-01-30 | 2015-08-18 | Vishal Sharma | Virtual assistant system to remotely control external services and selectively share control |
CN103986839A (zh) * | 2014-05-30 | 2014-08-13 | 深圳市中兴移动通信有限公司 | 自动设置情景模式的方法和移动终端 |
DE112015003382B4 (de) * | 2014-07-23 | 2018-09-13 | Mitsubishi Electric Corporation | Spracherkennungseinrichtung und Spracherkennungsverfahren |
US10446141B2 (en) * | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
KR102299764B1 (ko) | 2014-11-28 | 2021-09-09 | 삼성전자주식회사 | 전자장치, 서버 및 음성출력 방법 |
KR102346302B1 (ko) * | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
-
2015
- 2015-02-16 KR KR1020150023702A patent/KR102346302B1/ko active IP Right Grant
-
2016
- 2016-02-15 CN CN201680005400.9A patent/CN107112017B/zh active Active
- 2016-02-15 EP EP16155694.9A patent/EP3057094B1/en active Active
- 2016-02-15 WO PCT/KR2016/001470 patent/WO2016133316A1/en active Application Filing
- 2016-02-16 US US15/044,824 patent/US10679628B2/en active Active
-
2020
- 2020-06-08 US US16/895,577 patent/US20200302938A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101235688A (zh) * | 2007-02-01 | 2008-08-06 | 李世雄 | 整合感应及影音识别功能的门锁控制系统 |
CN101971250A (zh) * | 2008-03-13 | 2011-02-09 | 索尼爱立信移动通讯有限公司 | 具有活动语音识别的移动电子设备 |
CN103456306A (zh) * | 2012-05-29 | 2013-12-18 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
CN103632664A (zh) * | 2012-08-20 | 2014-03-12 | 联想(北京)有限公司 | 一种语音识别的方法及电子设备 |
CN103021409A (zh) * | 2012-11-13 | 2013-04-03 | 安徽科大讯飞信息科技股份有限公司 | 一种语音启动拍照系统 |
JP2014203024A (ja) * | 2013-04-09 | 2014-10-27 | コニカミノルタ株式会社 | 制御装置、画像形成装置、端末装置、制御方法、および制御プログラム |
CN103700368A (zh) * | 2014-01-13 | 2014-04-02 | 联想(北京)有限公司 | 用于语音识别的方法、语音识别装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
"Compact wake-up word speech Recognition on embedded platforms";An hao xing;《Applied mechanics and materials》;20141231;全文 * |
"基于语音识别的汽车空调控制系统";邵学斌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20121015;全文 * |
Also Published As
Publication number | Publication date |
---|---|
EP3057094A1 (en) | 2016-08-17 |
US20160240194A1 (en) | 2016-08-18 |
US20200302938A1 (en) | 2020-09-24 |
EP3057094B1 (en) | 2020-04-01 |
WO2016133316A1 (en) | 2016-08-25 |
KR20160100765A (ko) | 2016-08-24 |
CN107112017A (zh) | 2017-08-29 |
US10679628B2 (en) | 2020-06-09 |
KR102346302B1 (ko) | 2022-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107112017B (zh) | 操作语音识别功能的电子设备和方法 | |
US11393472B2 (en) | Method and apparatus for executing voice command in electronic device | |
CN108829235B (zh) | 语音数据处理方法和支持该方法的电子设备 | |
US11450315B2 (en) | Electronic apparatus and method for operating same | |
US9852731B2 (en) | Mechanism and apparatus for seamless voice wake and speaker verification | |
EP3933830A1 (en) | Speech interaction method and apparatus, terminal and storage medium | |
EP3040985B1 (en) | Electronic device and method for voice recognition | |
US9652017B2 (en) | System and method of analyzing audio data samples associated with speech recognition | |
CN113138743B (zh) | 使用音频水印的关键词组检测 | |
EP4064276A1 (en) | Method and device for speech recognition, terminal and storage medium | |
EP2994911B1 (en) | Adaptive audio frame processing for keyword detection | |
US10811005B2 (en) | Adapting voice input processing based on voice input characteristics | |
US20140365225A1 (en) | Ultra-low-power adaptive, user independent, voice triggering schemes | |
CN105632491A (zh) | 用于语音识别的方法和电子装置 | |
JP2019185011A (ja) | アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体 | |
CN105210146A (zh) | 用于控制语音激活的方法和设备 | |
CN105793921A (zh) | 基于部分热词发起动作 | |
CN111402877B (zh) | 基于车载多音区的降噪方法、装置、设备和介质 | |
US9460090B2 (en) | Method of recognizing situation requiring translation and performing translation function, and electronic device implementing the same | |
KR102501083B1 (ko) | 음성 인식 방법 및 이를 사용하는 전자 장치 | |
CN114444042A (zh) | 一种电子设备解锁方法和装置 | |
CN112466304B (zh) | 离线语音交互方法、装置、系统、设备和存储介质 | |
CN113506571A (zh) | 控制方法、移动终端及存储介质 | |
EP4302177A1 (en) | A computer software module arrangement, a circuitry arrangement, an arrangement and a method for an improved user interface for internet of things devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |