CN105632491B - 用于语音识别的方法和电子装置 - Google Patents
用于语音识别的方法和电子装置 Download PDFInfo
- Publication number
- CN105632491B CN105632491B CN201510757071.0A CN201510757071A CN105632491B CN 105632491 B CN105632491 B CN 105632491B CN 201510757071 A CN201510757071 A CN 201510757071A CN 105632491 B CN105632491 B CN 105632491B
- Authority
- CN
- China
- Prior art keywords
- processor
- electronic device
- voice signal
- voice
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 7
- 239000000872 buffer Substances 0.000 claims description 5
- 230000003139 buffering effect Effects 0.000 claims 3
- 230000005540 biological transmission Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 16
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000537 electroencephalography Methods 0.000 description 1
- 238000002567 electromyography Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 229910052724 xenon Inorganic materials 0.000 description 1
- FHNFHKCVQCLJFQ-UHFFFAOYSA-N xenon atom Chemical compound [Xe] FHNFHKCVQCLJFQ-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3215—Monitoring of peripheral devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/324—Power saving characterised by the action undertaken by lowering clock frequency
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/325—Power saving in peripheral device
- G06F1/3265—Power saving in display device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3293—Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
公开了一种用于语音识别的方法和电子装置。语音识别方法包括:使用低功耗模式在第一处理器中识别通过麦克风输入的语音信号;如果识别的语音信号是先前设置的关键字,则进入第二处理器的激活状态并在第二处理器中执行语音记录;如果在语音记录期间确定语音输入结束,则在第二处理器中执行语音识别。
Description
技术领域
本发明涉及一种用于语音识别的方法和电子装置。
背景技术
诸如智能电话和平板个人计算机(PC)的电子装置被广泛使用。在其它能力中,电子装置能够识别由用户通过麦克风输入的语音信号,显示与语音信号相应的文本,并执行各种功能。
即使当为了节能的目的通过关闭显示器(如液晶显示器(LCD))来激活睡眠模式时,电子装置仍然能够识别由用户通过麦克风输入的语音信号,并能确定该语音信号是否是先前设置的关键字。
如果用户的语音信号是先前设置的关键字,则电子装置能解除睡眠模式并同时激活显示器的开启状态,然后执行将由用户通过麦克风输入的语音信号识别为命令或文本的语音识别操作。
语音识别操作可以通过电子装置和通过网络提供实时语音识别服务的服务器之间的数据通信来执行。但是,传统的语音识别方法不够准确,给用户带来很大不便。因此,本领域需要能够提高电子装置中的语音识别的准确度的有效解决办法。
发明内容
因此,作出本发明以解决至少以上描述的问题和/或缺点,并提供至少以下描述的优点。
因此,本发明的一个方面在于提供一种用于语音识别的方法和用于执行该方法的电子装置,所述方法使电子装置能准确地识别通过麦克风输入的用户语音信号。
本发明的另一个方面在于提供一种用于语音识别的方法和用于执行该方法的电子装置,当电子装置在睡眠模式下识别通过麦克风输入的用户语音信号时,所述方法防止干扰语音识别的环境噪声的影响,从而提高语音识别的准确度。
根据本发明的一个方面,一种在电子装置中用于语音识别的方法包括:在电子装置的低功率模式下使用时钟在第一处理器中识别通过麦克风输入的语音信号;如果识别的语音信号是先前设置的关键字,则进入第二处理器的激活状态并在第二处理器中执行语音信号的语音记录;如果在语音记录期间确定语音输入结束,则在第二处理器中执行语音识别,其中,在确定语音输入结束之后,第一处理器的时钟被改变为更高频率的时钟。
根据本发明的一个方面,一种电子装置包括:麦克风,接收语音信号的输入;第一处理器,对语音信号进行信号处理;第二处理器,识别语音信号,其中,第一处理器在电子装置的睡眠模式下使用时钟来识别通过麦克风输入的语音信号,其中,如果被第一处理器识别的语音信号是先前设置的关键字,则第二处理器从空闲状态进入激活状态并执行语音记录,其中,如果在语音记录期间确定语音输入结束,则第二处理器将第一处理器的时钟改变为更高频率的时钟。
根据本发明的一个方面,公开了一种其上记录用于执行在电子装置中用于语音识别的方法的程序的非暂时性计算机可读存储介质,所述方法包括:在于电子装置功率耗模式下使用时钟在第一处理器中识别通过麦克风输入的语音信号;如果识别的语音信号是先前设置的关键字,则进入第二处理器的激活状态并在第二处理器中执行语音信号的语音记录;如果在语音记录期间确定语音输入结束,则在第二处理器中执行语音识别,其中,在确定语音输入结束之后,第一处理器的时钟被改变为更高频率的时钟。
附图说明
本发明的以上和其它方面、特征以及优点将通过以下结合附图的详细描述变得更为清楚,在附图中:
图1示出了根据本发明的实施例的电子装置的网络环境;
图2是示出根据本发明的实施例的电子装置的方框图;
图3示出了根据本发明的实施例的执行用于语音识别的方法的电子装置的部分结构;
图4示出了根据本发明的实施例的应用用于语音识别的方法的电子装置的操作时序;
图5示出了根据本发明的实施例的静音时间设置表。
图6示出了根据本发明的实施例的应用用于语音识别的方法的电子装置的另一操作时序。
图7是示出根据本发明的实施例的在电子装置中用于语音识别的方法的操作的流程图。
具体实施方式
以下将参照附图描述本发明的实施例。在本发明的描述中,为了清楚和简明,公知的功能或结构没有被详细描述。
图1示出了根据本发明的实施例的电子装置的网络环境。
参照图1,电子装置的网络环境100包括电子装置101(诸如智能电话和平板PC)、外部电子装置102、外部电子装置104和服务器106。外部电子装置102在短距离内与电子装置101进行通信。外部电子装置104和服务器106在长距离内通过网络162与电子装置101进行通信。
电子装置101包括总线110、处理器120、存储器130、输入/输出接口150、显示器160和通信接口170。总线110包括将组成元件相互连接并在这些组成元件之间转发通信消息或数据的电路。
处理器120包括中央处理单元(CPU)、应用处理器(AP)和通信处理器(CP)中的任何一个或更多个,并执行关于电子装置101的至少一个组成元件的控制或通信的操作或数据处理。
例如,处理器120进行控制以通过与构造近端网络的其它电子装置同步且属于近端网络的群集的通信部分来交换数据。在此,通信部分被表示为符合邻域网(NAN)通信标准的发现窗口(DW)。
存储器130包括易失性和/或非易失性存储器,存储关于电子装置101的至少一个其它组成元件的指令或数据,并存储软件和/或程序140。
程序140包括内核141、中间件143、应用程序接口(API)145和应用147。一个或更多个内核141、中间件143和API 145可被表示为操作系统(OS)。
内核141控制或管理系统资源,如总线110、处理器120或存储器130,所述系统资源用于执行在其它程序(如中间件143、API 145或应用程序147)中实施的操作或功能。
中间件143执行使API 145或应用程序147与内核141进行通信和交换数据的中继作用。
API 145是使应用147能够控制由内核141或中间件143提供的功能的接口,它包括用于文件控制、窗口控制、图片处理或字符控制的至少一个接口或功能。
输入/输出接口150执行转发指令或数据到电子装置101的其它组成元件,所述指令或数据由用户输入或从其它外部电子装置输入。
显示器160可以是包括触摸屏的LCD、发光二极管(LED)或有机发光二极管(OLED)显示器。显示器160接收来自于电子笔或用户的手指的诸如触摸、手势或者接近输入或悬停输入。
通信接口170在电子装置101和外部电子装置102、104或服务器106之间创建通信。例如,通信接口170通过无线通信或有线通信连接到网络162,并与外部电子装置104和服务器106进行通信。
无线通信的类型包括:例如,长期演进技术(LTE)、高级长期演进技术(LTE-A)、码分多址(CDMA)、宽带码分多址(WCDMA)、通用移动通讯系统(UMTS)、无线宽带(WiBro)以及全球移动通信系统(GSM)中的至少一个。有线通信包括:例如,通用串行总线(USB)、高清晰度多媒体接口(HDMI)、232号推荐标准(RS-232)以及简易老式电话服务(POTS)中的至少一个。
网络162包括:例如,电信网络、计算机网络(即局域网(LAN)或广域网(WAN))、互联网以及电话网中的至少一个。
图2是示出根据本发明的实施例的电子装置的方框图。
参照图2,电子装置201包括一个或更多个应用处理器(AP)210、通信模块220、用户识别模块(SIM)卡224、存储器230、传感器模块240、输入装置250、显示器260、接口270、音频模块280、相机模块291、电源管理模块295、电池296、指示器297以及电动机298。
AP 210运行操作系统或应用程序以控制连接到AP 210的多个硬件或软件组成元件,并执行数据的处理和操作。AP 210可以被实现片上系统(SoC),并且还可包括图形处理单元(GPU)。
AP 210包括图2中示出的元件中的至少一些元件,并将从非易失性存储器接收的指令或数据加载到易失性存储器,处理这些指令或数据,并将数据存储在非易失性存储器中。
通信模块220以与图1的通信接口170类似的方式被构建。通信模块220包括蜂窝模块221、Wi-Fi模块223、蓝牙(BT)模块225、全球定位系统(GPS)模块227、近场通信(NFC)模块228以及射频(RF)模块229。
例如,蜂窝模块221通过电信网络提供语音电话、视频电话以及文本和网络服务。蜂窝模块221在电信网络内使用SIM卡224来执行电子装置201的区分和授权。蜂窝模块221执行AP 210提供的功能中的至少一些功能,并包括通信处理器(CP)。
Wi-Fi模块223、BT模块225、GPS模块227和NFC模块228中的每个都可包括用于处理通过相应的模块发送/接收的数据的处理器,并且通信模块220中的至少两个模块可以被包括在一个集成电路(IC)或IC封装内。
RF模块229发送/接收RF通信信号,并包括收发器、功率放大器模块(PAM)、频率滤波器、低噪声放大器(LNA)或者天线。通信模块220中的至少一个模块可以通过独立的RF模块发送/接收RF信号。
SIM卡224可以是嵌入式SIM。SIM卡224包括唯一的标识信息(如集成电路卡ID(ICCID))或用户信息(如国际移动用户识别码(IMSI))。
存储器230包括内部存储器232和外部存储器234。传感器模块240测量电子装置201的物理量或者感测电子装置201的激活状态,以将测量或感测的信息转变成电子信号。
传感器模块240包括手势传感器240A、陀螺仪传感器240B、气压传感器240C、磁性传感器240D、加速度传感器240E、手握传感器240F、接近传感器240G、颜色传感器240H(如红绿蓝(RGB)传感器)、生物物理传感器240I、温度/湿度传感器240J、照度传感器240K以及紫外线(UV)传感器240M中的至少一个。
传感器模块240还可以包括电子鼻传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、红外线(IR)传感器、虹膜传感器和/或指纹传感器。
输入装置250包括触摸面板252、(数字)笔传感器254、按键256和超声输入装置258。显示器260包括面板262、全息图装置264和投影仪266。
接口270包括高密度多媒体接口(HDMI)272、通用串行总线(USB)274、光学接口276和微型接口(D-sub)278。音频模块280交互式地转换语音和电子信号,并处理被通过扬声器282、接收器284、耳机286或麦克风288输入或输出的声音信息。
拍摄静止和运动图像的相机模块291包括一个或更多个图像传感器、镜头、图像信号处理器(ISP)和闪光灯(如LED或氙气灯)。
电源管理模块295管理电子装置201的电力,并且包括电源管理集成电路(PMIC)、充电IC和电池量表。
指示器297显示电子装置201的部分或全部的特定状态,诸如启动状态、消息状态或电源状态。电动机298将电信号转换为机械振动,并引起振动的效果。
图3示出了根据本发明的实施例的执行用于语音识别的方法的电子装置的部分结构。
参照图3,电子装置301包括应用处理器310、通信模块320、显示模块360、音频模块380和麦克风388。
电子装置301可以以各种操作模式(诸如正常模式或空闲模式)进行操作,并可以在用于最小化功耗的节能模式(如睡眠模式)下进行操作。例如,节能模式可以降低应用处理器310的操作速度。在此,睡眠模式代表用于减少功耗的操作模式,但是本发明并不限于此。
参照图3,如果电子装置301通过使用低功率进入节能模式,电子装置301关闭使用高功率的显示模块360,并将使用高频时钟(如千兆赫单位)的应用处理器310的状态转换为空闲状态。
为了在睡眠模式下识别用户通过麦克风388输入的语音信号,电子装置301驱动包括在音频模块380中的音频编解码器380a。音频编解码器380a可被看作是使用低功率的第一处理器,并且应用处理器310可被看作是使用高功率的第二处理器。
音频编解码器380a使用诸如以兆赫为单位的50兆赫(MHz)的低频时钟,并且相比于应用处理器310,音频编解码器380a被制造为低功耗的低功率芯片。
当应用处理器310处于空闲模式时,音频编解码器380a识别通过麦克风388输入的用户语音信号。例如,在睡眠模式下,音频编解码器380a使用50MHz的低频时钟来识别通过麦克风388输入的用户语音信号,并确定该用户语音信号是否与先前设置的特定语音信号一致。
例如,如果识别的用户语音信号是先前设置的特定关键字,则音频编解码器380a生成语音触发,使得语音识别操作由在应用处理器310中执行的至少一个或更多个应用来执行。
在这里,本领域技术人员将会清楚,音频编解码器380a除了执行用户语音识别操作之外,还可以将用户语音信号处理成音频信号并将音频信号输出到扬声器。
在音频编解码器380a产生语音触发之后,应用处理器310从空闲状态醒来,进入激活状态,并执行从音频编解码器380a接收通过麦克风388输入的用户语音信号并记录用户语音信号的语音记录操作。
如果在执行语音记录操作时用户语音信号的输入结束,则应用处理器310控制通信模块320的操作并与通过网络362提供语音识别服务的服务器306进行接口连接。应用处理器310可以执行语音识别操作,而不与服务器306进行接口连接。
应用处理器310通过与服务器306进行接口连接来接收与记录的用户语音信号相应的文本或命令,并显示文本或者执行与命令相应的任意功能。
在电子装置301的睡眠模式下,识别通过麦克风388输入的用户的语音关键字,然后自动执行与无缝地输入的用户语音命令相应的任意功能的功能可以被称为“无缝唤醒”功能。
在一个实施例中,电子装置301在节能模式下识别语音触发,当语音触发被识别时记录语音输入,并且当记录结束时改变到正常模式。
图4示出了根据本发明的实施例的应用用于语音识别的方法的电子装置的操作时序。
参照图4,如果这种电子装置为了节能进入睡眠模式,则显示模块460进入关闭状态,应用处理器410进入空闲状态。
在睡眠模式下,音频编解码器480a使用例如50MHz的低频时钟来识别通过麦克风输入的用户语音信号400。如果通过麦克风输入的用户语音信号400与先前设置的关键字一致,则音频编解码器480a产生语音触发(t_trigger)。
如果音频编解码器480a产生了语音触发,则应用处理器410从空闲状态醒来,进入激活状态。例如,诸如0.5秒的预定的延迟时间(t_delay)流逝,直至应用处理器410被语音触发(t_trigger)由空闲状态唤醒到激活状态。
音频编解码器480a在预定的延迟时间(t_delay)期间缓存通过麦克风输入的用户语音信号。如果应用处理器410变为激活,则音频编解码器480a将缓存的用户语音信号转发给应用处理器410。然后,音频编解码器480a将通过麦克风输入的用户语音信号实时转发给应用处理器410。
在应用处理器410变为激活之后,应用处理器410在监测用户语音信号的输入是否结束的同时,记录从音频编解码器480a转发的用户语音信号。
例如,当无用户语音信号输入的静音时间与预先设置的静音时间参考值0.5秒相一致时,应用处理器410确定静音时间点就是用户语音信号的输入的结束时间点(t_end)。
如果达到用户语音信号的输入的结束时间点(t_end),则在控制通信模块的操作和通过网络连接服务器之后,应用处理器410将记录的用户语音信号发送到服务器,从服务器接收与用户语音信号相应的文本或命令,并显示接收到的文本或执行与接收到的命令相应的任意功能。
如果确定用户语音信号的输入结束,则应用处理器410将音频编解码器480a的50MHz的低频时钟改变为100MHz的高频时钟,从而使音频编解码器480a能够执行正常的音频信号处理操作。
如果确定用户语音信号的输入结束,则应用处理器410解除电子装置的睡眠模式,并同时将显示模块460的关闭状态转换为开启状态,从而使显示模块460正常地显示当前操作状态。
显示模块460从关闭状态转换到开启状态的时间点可以也是应用处理器410检测到用户语音信号的输入结束的时间点,或者是应用处理器410从空闲状态被唤醒进入激活状态的时间点。
根据本发明的实施例,如图4所示,由于音频编解码器480a的频率时钟被从50MHz的低频时钟改变为100MHz的高频时钟的时间点晚于应用处理器410完成语音记录操作的时间点,所以当应用处理器410执行语音记录操作时,由音频编解码器480a产生的毛刺噪声被防止引入。
图5示出了根据本发明的实施例的静音时间设置表。可根据以下因素不同地设置电子装置的应用处理器进行参考以检测用户语音信号的输入的结束的参考值的静音时间,所述因素包括:特定关键字、与特定关键字关联的应用、用户话语特征(如语速)和/或输入的语音信号的特征(如长度)。
应用处理器存储和管理图5的静音时间设置表500作为查找表信息,并且搜索和参考查找表信息来检测用户语音信号的输入的结束。静音时间设置表500以列表形式链接和存储一个或更多个关键字、与关键字关联的应用和与应用关联的静音时间。
静音时间设置表500的第一关键字510(关键字#1)可以是由电子装置的制造厂商指定的特定关键字。静音时间设置表500的第二关键字520(关键字#2)可以是由电子装置的用户指定的任意关键字。
第一关键字510(关键字#1)可被链接至标识信息,如关于应用(应用#1-1、#1-2、……)的应用ID,该标识信息用于利用第一关键字510的语音识别操。每个应用被链接至被设置为彼此相同或不同的参考值的静音时间。
第二关键字520(关键字#2)可被链接至关于应用(应用#2-1、#2-2、……)的标识信息(如应用id),该标识信息用于利用第二关键字52的语音识别操作。每个应用被链接至被设置为彼此相同或不同的参考值的静音时间(如1.0秒、1.2秒、……)。
例如,当第一关键字510是由电子装置的制造厂商指定的特定关键字时,在输入第一关键字510之后,用户可输入能够被电子装置的制造厂商推荐或预测的定义的内容的语音信号。
例如,因为在输入第一关键字之后,用户极有可能简单地输入预定义的语音命令,如“执行相机”,所以被链接至第一关键字510的每个参考值的静音时间被设成相对较短的时间。
但是,当第二关键字520由电子装置的用户指定时,在输入第二关键字520之后,用户极有可能输入用户期望的任意语音命令。
例如,因为在输入第二关键字之后,用户极有可能输入较长且非预定义的语音命令,如“立即运行相机功能”,所以被链接至第二关键字520的每个参考值的静音时间被设成相对较长的时间。
因此,被链接至第一关键字510的每个参考值的静音时间短于被链接至第二关键字520的每个参考值的静音时间。以上描述是对本发明的实施例的说明,本发明并不限于此。
图6示出了根据本发明的实施例的应用用于语音识别的方法的电子装置的另一操作时序。
参照图6,如果电子装置为节能而进入睡眠模式,则显示模块660进入关闭状态,并且应用处理器610进入空闲状态。
在睡眠模式下,音频编解码器680a使用例如50MHz的低频时钟来识别通过麦克风输入的用户语音信号600。如果通过麦克风输入的用户语音信号600与先前设置的关键字一致,则音频编解码器680a产生语音触发(t_trigger)。
例如,如以上参照图5所述,关键字可以是由电子装置的用户任意指定的关键字#2。被链接至关键字#2的参考值的静音时间(静音2-1)(如1.0秒)长于被链接至由电子装置的制造厂商指定的关键字#1的参考值的静音时间(如静音1-1)(如0.5秒)。
如果音频编解码器680a产生了语音触发,则应用处理器610从空闲状态唤醒进入激活状态。例如,预定的延迟时间(t_delay)流逝,直至应用处理器610被唤醒到激活状态。
音频编解码器680a在预定的延迟时间(t_delay)期间缓存通过麦克风输入的用户语音信号。如果应用处理器610变为激活,则音频编解码器680a将缓存的用户语音信号高速转发给应用处理器610。然后,音频编解码器680a将通过麦克风输入的用户语音信号实时转发给应用处理器610。
在应用处理器610变为激活之后,应用处理器610在监测用户语音信号的输入是否结束的同时,执行记录从音频编解码器680a高速转发的用户语音信号和从音频编解码器680a实时转发的用户语音信号的语音记录操作。
例如,当无用户语音信号输入的静音时间与先前设置的参考值的第二静音时间(静音2-1)一致时,应用处理器610确定静音时间点就是用户语音信号的输入的结束时间点(t_end)。
如果是用户语音信号输入的结束时间点(t_end),则在控制通信模块的操作和通过网络连接服务器之后,应用处理器610将记录的用户语音信号发送到服务器,从服务器接收与用户语音信号相应的文本或命令,并显示接收的文本或执行与接收的命令相应的任意功能。
如果用户语音信号的输入结束,则应用处理器610将音频编解码器680a的50MHz的低频时钟改变为100MHz的高频时钟,从而使音频编解码器680a能够执行正常的音频信号处理操作。
如果用户语音信号的输入结束,则应用处理器610解除电子装置的睡眠模式并同时将显示模块660的关闭状态转换为开启状态,从而使显示模块660能够正常地显示当前操作状态。
显示模块660从关闭状态转换到开启状态的时间点可以也是应用处理器610检测到用户语音信号的输入结束的时间点,或者是应用处理器610从空闲状态被唤醒进入活动状态的时间点。
根据本发明的实施例,如图6所示,由于音频编解码器680a的频率时钟从50MHz的低频时钟改变为100MHz的高频时钟的时间点晚于应用处理器610完成语音记录操作的时间点,所以当应用处理器610执行语音记录操作时,由音频编解码器680a产生的毛刺噪声被防止引入。
此外,确定用户语音信号的输入结束的每个参考值的静音时间根据关键字和/或与关键字关联的应用被不同地改变,使得解除睡眠模式的时间点得到准确控制。
图7是示出根据本发明的实施例的在电子装置中用于语音识别的方法的操作的流程图。
参照图7,在步骤700,电子装置为节能而进入睡眠模式。如果电子装置处于睡眠模式,则显示模式被关闭,并且应用处理器进入空闲状态。
在步骤710,即使处于睡眠模式,电子装置的音频编解码器仍可使用50MHz的低频时钟来识别通过麦克风输入的用户语音信号,并确定用户语音信号是否是先前设置的特定关键字。
在步骤720,如果确定特定关键字被输入,则在步骤730,电子装置的应用处理器从空闲状态被唤醒,并在预定的延迟时间流逝后进入激活状态。
在步骤740,在特定关键字被输入后,应用处理器接收在音频编解码器中缓存的用户语音信号,然后将接收的缓存的用户语音信号和从音频编解码器实时转发的用户语音信号一起记录。
在步骤750,在执行语音记录操作的同时,应用处理器确定用户语音信号的输入是否结束。
如果确定用户语音信号的输入结束,则在步骤760,应用处理器解除睡眠模式。在步骤770,应用处理器将音频编解码器的频率时钟从50MHz的低频时钟提高到100MHz的高频时钟,以使音频编解码器能够执行正常的音频信号处理操作。
在步骤780,应用处理器将显示模块的关闭状态转换为开启状态,以使显示模块能够正常显示电子装置的操作状态。
在步骤790,应用处理器控制通信模块的操作,通过网络连接提供语音识别服务的服务器,并通过与服务器通信正常地执行语音识别操作。步骤760至790可以以不同次序被顺序执行,或者可被同时执行。
根据本发明的实施例,提高音频编解码器的频率时钟的时间点被设置在应用处理器完成语音记录操作的时间点之后,从而防止音频编解码器造成的毛刺噪声被引入到语音记录。这样,提高了语音识别操作的准确度。
根据本发明的实施例,一种在电子装置中用于语音识别的方法包括:在电子装置的低功率模式下使用指定的时钟在第一处理器中识别通过麦克风输入的语音信号;如果识别的语音信号是先前设置的关键字,则进入第二处理器的激活状态并在第二处理器中执行语音记录;如果在语音记录期间确定语音输入结束,则在第二处理器中执行语音识别。在确定语音输入结束之后,第一处理器的时钟可以被改变。
第一处理器可以是音频编解码器,第二处理器可以是应用处理器,并且音频编解码器可以是比应用处理器使用更低频率的时钟的低功率芯片。
第一处理器在延迟时间期间缓存通过麦克风输入的语音信号,直至第二处理器从唤醒开始进入激活状态,并且如果第二处理器进入激活状态,则第一处理器将缓存的语音信号转发给第二处理器,并将在激活之后通过麦克风输入的语音信号实时转发给第二处理器。
基于可根据关键字或与关键字关联的应用被不同设置的参考静音时间,第二处理器在语音记录期间确定语音输入是否结束。
在电子装置中用于语音识别的方法存储多个参考值的静音时间作为查找表信息,所述多个参考值根据关键字或与关键字关联的应用被不同设置。所述查找表信息包括由电子装置的制造厂商指定的特定关键字和由电子装置的用户指定的任意关键字中的至少一个。所述语音识别还包括:如果确定语音输入结束,则将电子装置的显示模块的关闭状态转换到开启状态。
第二处理器通过网络与服务器通信并且接收与记录的语音信号相应的命令或文本中的至少一个。语音识别方法还可包括:执行与接收的命令相应的功能,或者显示接收的文本。
根据本发明的实施例,一种电子装置包括:麦克风,用于接收语音信号的输入;第一处理器,用于对语音信号进行信号处理;以及第二处理器,用于识别语音信号。第一处理器在电子装置的睡眠模式下使用指定的时钟来识别通过麦克风输入的语音信号。如果由第一处理器识别的语音信号是先前设置的关键字,则第二处理器从空闲状态进入激活状态并执行语音记录。如果在语音记录期间确定语音输入结束,则第二处理器改变第一处理器的时钟。
基于根据关键字或与关键字关联的应用被不同设置的参考静音时间,第二处理器在语音记录期间确定语音输入是否结束。
第二处理器存储多个参考值的静音时间作为查找表信息,所述多个参考值根据关键字或与关键字关联的应用被不同设置。
查找表信息包括由电子装置的制造厂商指定的特定关键字和电子装置的用户指定的任意关键字中的至少一个。如果确定语音输入结束,则第二处理器将电子装置的显示模块的关闭状态转换为开启状态。
第二处理器通过网络与服务器通信并接收与记录的语音信号相应的命令或文本中的至少一个。第二处理器执行与接收的命令相应的功能,或者显示接收的文本。
根据本发明的实施例,多种类型的电子装置(如智能电话和平板PC)可以准确地识别通过麦克风输入的用户语音信号。
根据本发明的实施例,例如,当电子装置在睡眠模式下识别通过麦克风输入的用户语音信号时,电子装置阻止在改变使用低功率的第一处理器(诸如音频编解码器)的驱动频率的时间点产生的特定噪声的影响,因此提高语音识别的准确度。
虽然本发明已经参照特定实施例被示出和描述,但是本领域技术人员将会理解,在不脱离由权利要求所定义的本发明的精神和范围的情况下,可以在形式和细节上做出改变。
Claims (20)
1.一种在电子装置中用于语音识别的方法,所述方法包括:
在在第一时钟频率上操作的第一处理器中检测通过麦克风输入的先前设置的关键字;
在所述先前设置的关键字被输入之后并且第二处理器的状态从空闲状态被切换到激活状态之前,由第一处理器缓存通过麦克风输入的语音信号;
由第二处理器至少使用缓存的语音信号来执行所述语音信号的语音记录;
检测语音记录的完成;
响应于检测到语音记录的完成,将第一处理器的时钟频率改变为比第一时钟频率高的第二时钟频率。
2.如权利要求1所述的方法,其中,第一处理器是音频编解码器,
第二处理器是应用处理器,并且
音频编解码器是比应用处理器使用更低频率的时钟的低频率芯片。
3.如权利要求1所述的方法,其中,第一处理器将通过麦克风输入的语音信号缓存延迟时间,直至第二处理器从空闲状态切换到激活状态,并且所述方法还包括:
当第二处理器切换到激活状态时:
由第一处理器将缓存的语音信号转发给第二处理器,然后
当语音信号正在通过麦克风输入时,由第一处理器将语音信号实时转发给第二处理器。
4.如权利要求1所述的方法,其中,检测语音记录的完成的步骤包括:
由第二处理器基于根据关键字和应用中的至少一个预设的参考静音时间来检测语音记录的完成。
5.如权利要求1所述的方法,还包括:
响应于所述改变,由在第二时钟频率上操作的第一处理器执行音频信号处理。
6.如权利要求4所述的方法,其中,每个关键字和/或应用与一个或多个参考静音时间关联,这些关联被存储为查找表信息,
其中,由电子装置的制造商指定和/或由电子装置的用户指定查找表信息中的所述关联。
7.如权利要求1所述的方法,还包括:
响应于检测到语音记录的完成,开启电子装置的显示模块。
8.如权利要求1所述的方法,还包括:
响应于检测到语音记录的完成,对由第二处理器记录的语音信号执行语音识别。
9.如权利要求8所述的方法,还包括:
通过网络将记录的语音信号发送到服务器,其中,所述服务器对记录的语音信号执行语音识别;
由电子装置从所述服务器接收与记录的语音信号相应的命令和文本中的至少一个;
由电子装置执行与接收的命令和文本中的至少一个相应的功能。
10.一种电子装置,包括:
麦克风;
第一处理器;
第二处理器,
其中,第一处理器被配置为:
当在第一时钟频率上操作时检测通过麦克风输入的先前设置的关键字输入;
在所述先前设置的关键字被输入之后并且第二处理器的状态从空闲状态被切换到激活状态之前,缓存通过麦克风输入的语音信号,
其中,第二处理器被配置为:
至少使用缓存的语音信号来执行所述语音信号的语音记录;
检测语音记录的完成;
响应于检测到语音记录的完成,控制将第一处理器的时钟频率改变为比第一时钟频率高的第二时钟频率。
11.如权利要求10所述的电子装置,其中,第一处理器是音频编解码器,
第二处理器是应用处理器,
音频编解码器是比应用处理器使用更低频率的时钟的低频率芯片。
12.如权利要求10所述的电子装置,其中,第一处理器被配置为将通过麦克风输入的语音信号缓存延迟时间,直至第二处理器从空闲状态切换到激活状态,
其中,当第二处理器切换到激活状态时,第一处理器被配置为将缓存的语音信号转发给第二处理器,然后当语音信号正在通过麦克风输入时,将语音信号实时转发给第二处理器。
13.如权利要求10所述的电子装置,其中,第二处理器被配置为基于根据关键字和应用中的至少一个预设的参考静音时间来检测语音记录的完成。
14.如权利要求10所述的电子装置,其中,第一处理器还被配置为:响应于将时钟频率改变为第二时钟频率,执行音频信号处理。
15.如权利要求13所述的电子装置,其中,每个关键字和/或应用与一个或多个参考静音时间关联,这些关联被存储为查找表信息,
其中,由电子装置的制造商指定和/或由电子装置的用户指定查找表信息中的所述关联。
16.如权利要求10所述的电子装置,其中,第二处理器还被配置为:响应于检测到语音记录的完成,控制开启电子装置的显示模块。
17.如权利要求10所述的电子装置,其中,第二处理器还被配置为:响应于检测到语音记录的完成,控制对由第二处理器记录的语音信号执行语音识别。
18.如权利要求17所述的电子装置,其中,第二处理器还被配置为:
控制通过网络将记录的语音信号发送到服务器,其中,所述服务器对记录的语音信号执行语音识别;
控制从所述服务器接收与记录的语音信号相应的命令和文本中的至少一个;
控制执行与接收的命令和文本中的至少一个相应的功能。
19.一种其上记录有用于执行在电子装置中用于语音识别的方法的程序的非暂时性计算机可读存储介质,所述方法包括:
在在第一时钟频率上操作的第一处理器中检测通过麦克风输入的先前设置的关键字;
在所述先前设置的关键字被输入之后并且第二处理器的状态从空闲状态被切换到激活状态之前,由第一处理器缓存通过麦克风输入的语音信号;
由第二处理器至少使用缓存的语音信号来执行所述语音信号的语音记录;
检测语音记录的完成;
响应于检测到语音记录的完成,将第一处理器的时钟频率改变为比第一时钟频率高的第二时钟频率。
20.一种在电子装置中用于语音识别的方法,所述方法包括:
在在第一时钟频率上操作的第一处理器中检测通过麦克风输入的第一语音信号;
如果第一语音信号包括先前设置的关键字,则在第二处理器中记录正在通过麦克风输入的第二语音信号;
在第二处理器中检测记录的完成;
响应于检测到记录的完成,将第一处理器的时钟频率改变为比第一时钟频率高的第二时钟频率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2014-0166478 | 2014-11-26 | ||
KR1020140166478A KR102299330B1 (ko) | 2014-11-26 | 2014-11-26 | 음성 인식 방법 및 그 전자 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105632491A CN105632491A (zh) | 2016-06-01 |
CN105632491B true CN105632491B (zh) | 2020-07-21 |
Family
ID=54695592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510757071.0A Active CN105632491B (zh) | 2014-11-26 | 2015-11-09 | 用于语音识别的方法和电子装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9779732B2 (zh) |
EP (1) | EP3026667B1 (zh) |
KR (1) | KR102299330B1 (zh) |
CN (1) | CN105632491B (zh) |
WO (1) | WO2016085157A1 (zh) |
Families Citing this family (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
CA2982196C (en) * | 2015-04-10 | 2022-07-19 | Huawei Technologies Co., Ltd. | Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal |
US11874716B2 (en) | 2015-08-05 | 2024-01-16 | Suunto Oy | Embedded computing device management |
US11144107B2 (en) | 2015-12-01 | 2021-10-12 | Amer Sports Digital Services Oy | Apparatus and method for presenting thematic maps |
US11137820B2 (en) | 2015-12-01 | 2021-10-05 | Amer Sports Digital Services Oy | Apparatus and method for presenting thematic maps |
US11215457B2 (en) | 2015-12-01 | 2022-01-04 | Amer Sports Digital Services Oy | Thematic map based route optimization |
US10651827B2 (en) * | 2015-12-01 | 2020-05-12 | Marvell Asia Pte, Ltd. | Apparatus and method for activating circuits |
US11210299B2 (en) | 2015-12-01 | 2021-12-28 | Amer Sports Digital Services Oy | Apparatus and method for presenting thematic maps |
FI127926B (en) | 2015-12-21 | 2019-05-31 | Suunto Oy | Sensor-based context management |
US11587484B2 (en) | 2015-12-21 | 2023-02-21 | Suunto Oy | Method for controlling a display |
US11284807B2 (en) | 2015-12-21 | 2022-03-29 | Amer Sports Digital Services Oy | Engaging exercising devices with a mobile device |
US11541280B2 (en) | 2015-12-21 | 2023-01-03 | Suunto Oy | Apparatus and exercising device |
US11838990B2 (en) | 2015-12-21 | 2023-12-05 | Suunto Oy | Communicating sensor data in wireless communication systems |
CN105611409B (zh) * | 2016-01-04 | 2019-12-27 | 京东方科技集团股份有限公司 | 一种广告机控制系统及其控制方法和广告机 |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
DE102016210919A1 (de) * | 2016-06-20 | 2017-12-21 | Robert Bosch Gmbh | Vorrichtung und Verfahren zum Aktivieren einer Sensoreinrichtung |
CN107577329A (zh) * | 2016-07-04 | 2018-01-12 | 上海中兴软件有限责任公司 | 一种数据信息的显示方法和装置 |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
GB2545534B (en) | 2016-08-03 | 2019-11-06 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus for authentication in an electronic device |
GB2552721A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus for authentication in an electronic device |
GB2555532B (en) * | 2016-08-03 | 2019-11-06 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus for authentication in an electronic device |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
TWI650975B (zh) * | 2016-08-25 | 2019-02-11 | 凌華科技股份有限公司 | 提供行動設備直接存取LoRa資訊封包之LoRa行動裝置及其資料傳輸方法 |
US20180081352A1 (en) * | 2016-09-22 | 2018-03-22 | International Business Machines Corporation | Real-time analysis of events for microphone delivery |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器 |
CN109844857B (zh) * | 2016-10-17 | 2024-02-23 | 哈曼国际工业有限公司 | 具有语音能力的便携式音频装置 |
US11703938B2 (en) | 2016-10-17 | 2023-07-18 | Suunto Oy | Embedded computing device |
DE102017009171A1 (de) * | 2016-10-17 | 2018-04-19 | Amer Sports Digital Services Oy | Eingebettete rechenvorrichtung |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
GB2555660B (en) | 2016-11-07 | 2019-12-04 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus for authentication in an electronic device |
KR20180051189A (ko) | 2016-11-08 | 2018-05-16 | 삼성전자주식회사 | 자동 음성 트리거 방법 및 이를 적용한 음향 분석기 |
KR20180082033A (ko) | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
KR20180083587A (ko) | 2017-01-13 | 2018-07-23 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
KR20180084392A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
KR20180085931A (ko) | 2017-01-20 | 2018-07-30 | 삼성전자주식회사 | 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
CN108702411B (zh) * | 2017-03-21 | 2021-12-14 | 华为技术有限公司 | 一种控制通话的方法、终端及计算机可读存储介质 |
CN108986800B (zh) * | 2017-05-31 | 2022-08-09 | 上海智觅智能科技有限公司 | 一种基于多处理器协调链表逻辑实时离线语音交互系统及方法 |
US10395650B2 (en) * | 2017-06-05 | 2019-08-27 | Google Llc | Recorded media hotword trigger suppression |
KR102441063B1 (ko) | 2017-06-07 | 2022-09-06 | 현대자동차주식회사 | 끝점 검출 장치, 그를 포함한 시스템 및 그 방법 |
US10283117B2 (en) * | 2017-06-19 | 2019-05-07 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for identification of response cue at peripheral device |
CN107360327B (zh) * | 2017-07-19 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置和存储介质 |
US10360909B2 (en) | 2017-07-27 | 2019-07-23 | Intel Corporation | Natural machine conversing method and apparatus |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
CN107249116B (zh) * | 2017-08-09 | 2020-05-05 | 成都全云科技有限公司 | 基于视频会议的噪音回音消除装置 |
US10204624B1 (en) * | 2017-08-14 | 2019-02-12 | Lenovo (Singapore) Pte. Ltd. | False positive wake word |
KR102356889B1 (ko) * | 2017-08-16 | 2022-01-28 | 삼성전자 주식회사 | 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10531157B1 (en) * | 2017-09-21 | 2020-01-07 | Amazon Technologies, Inc. | Presentation and management of audio and visual content across devices |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
CN107633854A (zh) * | 2017-09-29 | 2018-01-26 | 联想(北京)有限公司 | 一种语音数据的处理方法和电子设备 |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN107808670B (zh) | 2017-10-25 | 2021-05-14 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
KR102429498B1 (ko) * | 2017-11-01 | 2022-08-05 | 현대자동차주식회사 | 차량의 음성인식 장치 및 방법 |
US10916252B2 (en) * | 2017-11-10 | 2021-02-09 | Nvidia Corporation | Accelerated data transfer for latency reduction and real-time processing |
US10999733B2 (en) | 2017-11-14 | 2021-05-04 | Thomas STACHURA | Information security/privacy via a decoupled security accessory to an always listening device |
US10867623B2 (en) | 2017-11-14 | 2020-12-15 | Thomas STACHURA | Secure and private processing of gestures via video input |
KR102469753B1 (ko) * | 2017-11-30 | 2022-11-22 | 삼성전자주식회사 | 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 |
US10636421B2 (en) * | 2017-12-27 | 2020-04-28 | Soundhound, Inc. | Parse prefix-detection in a human-machine interface |
US10601599B2 (en) * | 2017-12-29 | 2020-03-24 | Synaptics Incorporated | Voice command processing in low power devices |
KR102585784B1 (ko) * | 2018-01-25 | 2023-10-06 | 삼성전자주식회사 | 오디오 재생시 인터럽트를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
KR102629385B1 (ko) | 2018-01-25 | 2024-01-25 | 삼성전자주식회사 | 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
KR102507249B1 (ko) * | 2018-03-08 | 2023-03-07 | 삼성전자주식회사 | 성능 모드 제어 방법 및 이를 지원하는 전자 장치 |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
CN108459838B (zh) * | 2018-03-30 | 2020-12-18 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
JP2019204025A (ja) * | 2018-05-24 | 2019-11-28 | レノボ・シンガポール・プライベート・リミテッド | 電子機器、制御方法、及びプログラム |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
WO2019246314A1 (en) * | 2018-06-20 | 2019-12-26 | Knowles Electronics, Llc | Acoustic aware voice user interface |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
KR102628211B1 (ko) * | 2018-08-29 | 2024-01-23 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
CN109377989B (zh) * | 2018-09-27 | 2021-03-12 | 昆山品源知识产权运营科技有限公司 | 唤醒方法、装置、系统、设备及存储介质 |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
CN111316199B (zh) * | 2018-10-16 | 2022-08-19 | 华为技术有限公司 | 一种信息处理方法及电子设备 |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
CN109508171A (zh) * | 2018-12-19 | 2019-03-22 | 上海龙旗科技股份有限公司 | 一种基于四通道的语音处理方法及设备 |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
KR20200084730A (ko) * | 2019-01-03 | 2020-07-13 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
WO2020160683A1 (en) | 2019-02-07 | 2020-08-13 | Thomas Stachura | Privacy device for smart speakers |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
CN110021307B (zh) * | 2019-04-04 | 2022-02-01 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
KR102225001B1 (ko) | 2019-05-21 | 2021-03-08 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR102224994B1 (ko) | 2019-05-21 | 2021-03-08 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN112513783A (zh) * | 2019-05-23 | 2021-03-16 | 深圳博芯科技股份有限公司 | 一种语音交互智能手环 |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
KR20190104263A (ko) | 2019-07-11 | 2019-09-09 | 엘지전자 주식회사 | 인공지능 기반의 음성 인식 서비스 제공 장치 및 방법 |
KR20190092333A (ko) | 2019-07-19 | 2019-08-07 | 엘지전자 주식회사 | 음성 인식 디바이스와 통신하는 장치, 음성 인식 능력을 가진 장치 및 음성 인식 능력을 가진 장치를 제어하는 방법 |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
KR102658691B1 (ko) | 2019-08-28 | 2024-04-17 | 엘지전자 주식회사 | 정보 제공 방법 및 정보 제공 장치 |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
CN112885339A (zh) * | 2019-11-14 | 2021-06-01 | 杭州智芯科微电子科技有限公司 | 语音唤醒系统及语音识别系统 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11328722B2 (en) * | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
CN111524513A (zh) * | 2020-04-16 | 2020-08-11 | 歌尔科技有限公司 | 一种可穿戴设备及其语音传输的控制方法、装置及介质 |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) * | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
WO2022047808A1 (zh) * | 2020-09-07 | 2022-03-10 | 华为技术有限公司 | 一种图像处理装置、电子设备及图像处理方法 |
CN114333854A (zh) * | 2020-09-29 | 2022-04-12 | 华为技术有限公司 | 语音唤醒方法、电子设备及芯片系统 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN114822525A (zh) * | 2021-01-29 | 2022-07-29 | 华为技术有限公司 | 语音控制方法和电子设备 |
KR102464972B1 (ko) * | 2021-05-24 | 2022-11-08 | 한양대학교 산학협력단 | 자동 활성화 마이크의 초기 음성 신호를 인식하기 위한 음성 신호의 제어 및 동기화 방법 및 장치 |
CN115579013B (zh) * | 2022-12-09 | 2023-03-10 | 深圳市锦锐科技股份有限公司 | 一种低功耗音频解码器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1288224A (zh) * | 1999-09-15 | 2001-03-21 | 德国汤姆森-布兰特有限公司 | 语音识别装置和方法 |
CN1419687A (zh) * | 1998-11-23 | 2003-05-21 | 艾利森电话股份有限公司 | 用于音频信号的改进的语音/噪音分类的复合信号激活探测 |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
CN103020165A (zh) * | 2012-11-26 | 2013-04-03 | 北京奇虎科技有限公司 | 可进行语音识别处理的浏览器及处理方法 |
CN103187063A (zh) * | 2011-12-30 | 2013-07-03 | 三星电子株式会社 | 电子装置和控制电子装置的方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5758132A (en) * | 1995-03-29 | 1998-05-26 | Telefonaktiebolaget Lm Ericsson | Clock control system and method using circuitry operating at lower clock frequency for selecting and synchronizing the switching of higher frequency clock signals |
JP3446857B2 (ja) * | 1996-02-07 | 2003-09-16 | 株式会社リコー | 音声認識装置 |
KR20130001726A (ko) | 2010-02-19 | 2013-01-04 | 톰슨 라이센싱 | 개선된 콘텐츠 검색 |
KR101192813B1 (ko) * | 2010-12-14 | 2012-10-26 | (주)이엔엠시스템 | 대기 상태에서 저주파 영역 음향에 대해서 음성인식을 수행하는 음성인식 시스템 및 그 제어방법 |
US8666751B2 (en) * | 2011-11-17 | 2014-03-04 | Microsoft Corporation | Audio pattern matching for device activation |
US9281827B2 (en) * | 2011-11-21 | 2016-03-08 | Cirrus Logic International Semiconductor Ltd. | Clock generator |
US8924453B2 (en) * | 2011-12-19 | 2014-12-30 | Spansion Llc | Arithmetic logic unit architecture |
CN102622079B (zh) * | 2012-02-25 | 2015-02-04 | 华为终端有限公司 | 一种休眠方法、唤醒方法和移动终端设备 |
US9838810B2 (en) * | 2012-02-27 | 2017-12-05 | Qualcomm Technologies International, Ltd. | Low power audio detection |
US9142215B2 (en) | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
CN103782634B (zh) * | 2012-08-31 | 2017-11-28 | 华为终端(东莞)有限公司 | 智能终端的唤醒控制方法及装置 |
US10304465B2 (en) * | 2012-10-30 | 2019-05-28 | Google Technology Holdings LLC | Voice control user interface for low power mode |
US20140122078A1 (en) | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
DE212014000045U1 (de) * | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
KR20150121038A (ko) * | 2013-02-27 | 2015-10-28 | 오디언스 인코포레이티드 | 음성 제어식 통신 커넥션 |
US10395651B2 (en) | 2013-02-28 | 2019-08-27 | Sony Corporation | Device and method for activating with voice input |
US9542933B2 (en) * | 2013-03-08 | 2017-01-10 | Analog Devices Global | Microphone circuit assembly and system with speech recognition |
US9703350B2 (en) | 2013-03-15 | 2017-07-11 | Maxim Integrated Products, Inc. | Always-on low-power keyword spotting |
CN103198831A (zh) * | 2013-04-10 | 2013-07-10 | 威盛电子股份有限公司 | 语音操控方法与移动终端装置 |
US20140358552A1 (en) * | 2013-05-31 | 2014-12-04 | Cirrus Logic, Inc. | Low-power voice gate for device wake-up |
US9245527B2 (en) * | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US9478234B1 (en) * | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
-
2014
- 2014-11-26 KR KR1020140166478A patent/KR102299330B1/ko active IP Right Grant
-
2015
- 2015-11-09 CN CN201510757071.0A patent/CN105632491B/zh active Active
- 2015-11-10 WO PCT/KR2015/012063 patent/WO2016085157A1/en active Application Filing
- 2015-11-19 US US14/946,021 patent/US9779732B2/en active Active
- 2015-11-20 EP EP15195699.2A patent/EP3026667B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1419687A (zh) * | 1998-11-23 | 2003-05-21 | 艾利森电话股份有限公司 | 用于音频信号的改进的语音/噪音分类的复合信号激活探测 |
CN1288224A (zh) * | 1999-09-15 | 2001-03-21 | 德国汤姆森-布兰特有限公司 | 语音识别装置和方法 |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
CN103187063A (zh) * | 2011-12-30 | 2013-07-03 | 三星电子株式会社 | 电子装置和控制电子装置的方法 |
CN103020165A (zh) * | 2012-11-26 | 2013-04-03 | 北京奇虎科技有限公司 | 可进行语音识别处理的浏览器及处理方法 |
Also Published As
Publication number | Publication date |
---|---|
US9779732B2 (en) | 2017-10-03 |
CN105632491A (zh) | 2016-06-01 |
US20160148615A1 (en) | 2016-05-26 |
KR20160064258A (ko) | 2016-06-08 |
KR102299330B1 (ko) | 2021-09-08 |
EP3026667B1 (en) | 2017-06-07 |
WO2016085157A1 (en) | 2016-06-02 |
EP3026667A1 (en) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105632491B (zh) | 用于语音识别的方法和电子装置 | |
US20220044690A1 (en) | Electronic device and method for voice recognition | |
WO2017206916A1 (zh) | 处理器中内核运行配置的确定方法以及相关产品 | |
US9743226B2 (en) | Method for short-range wireless communication and electronic device using the same | |
WO2021052413A1 (zh) | 节能信号监听时刻的确定方法、配置方法及相关设备 | |
EP2882234B1 (en) | Method, apparatus, equipment and system for controlling turn-on and turn-off of wireless network | |
US9766690B2 (en) | Method for controlling a sleep mode and electronic device thereof | |
CN107196363B (zh) | 调整充电电流的方法、终端和计算机可读存储介质 | |
CN110874128B (zh) | 可视化数据处理方法和电子设备 | |
TW201512987A (zh) | 應用程式的啓動控制方法與裝置及電腦可讀取儲存介質 | |
WO2018214744A1 (zh) | 信息处理方法及相关产品 | |
CN111158815B (zh) | 一种动态壁纸模糊方法、终端和计算机可读存储介质 | |
CN106532876B (zh) | 供电控制方法、装置和计算机设备 | |
WO2019072179A1 (zh) | 应用程序运行控制方法及装置 | |
EP3296848A1 (en) | Electronic device and method for providing graphic user interface therefor | |
CN110046033B (zh) | 应用程序处理方法和装置、电子设备、计算机可读存储介质 | |
CN108170360B (zh) | 一种手势功能的控制方法及移动终端 | |
US20150163737A1 (en) | Method and device for controlling turn-on and turn-off of wireless network | |
CN115469949A (zh) | 信息显示方法、智能终端及存储介质 | |
CN112437421B (zh) | 蓝牙控制方法、装置、存储介质及移动终端 | |
CN106155733B (zh) | 一种运行应用程序的方法和装置 | |
CN113722260A (zh) | 保护电路、串行总线系统、电路保护方法及移动终端 | |
CN114265495A (zh) | 应用程序处理方法、智能终端及存储介质 | |
CN109739642B (zh) | 一种cpu调频方法及装置、移动终端及计算机可读存储介质 | |
CN109739641B (zh) | 一种自适应cpu调频加速方法及装置、移动终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |