CN109427333A - 激活语音识别服务的方法和用于实现所述方法的电子装置 - Google Patents
激活语音识别服务的方法和用于实现所述方法的电子装置 Download PDFInfo
- Publication number
- CN109427333A CN109427333A CN201810979837.3A CN201810979837A CN109427333A CN 109427333 A CN109427333 A CN 109427333A CN 201810979837 A CN201810979837 A CN 201810979837A CN 109427333 A CN109427333 A CN 109427333A
- Authority
- CN
- China
- Prior art keywords
- word
- user
- speech
- processor
- wake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title abstract description 29
- 230000004044 response Effects 0.000 claims abstract description 40
- 230000003213 activating effect Effects 0.000 claims abstract description 26
- 238000004891 communication Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 55
- 230000004913 activation Effects 0.000 claims description 36
- 238000001514 detection method Methods 0.000 claims description 26
- 230000002618 waking effect Effects 0.000 description 70
- 238000012545 processing Methods 0.000 description 44
- 238000005516 engineering process Methods 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 235000004348 Perilla frutescens Nutrition 0.000 description 4
- 244000124853 Perilla frutescens Species 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 206010028916 Neologism Diseases 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 235000015278 beef Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005424 photoluminescence Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000002583 angiography Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- XEGGRYVFLWGFHI-UHFFFAOYSA-N bendiocarb Chemical compound CNC(=O)OC1=CC=CC2=C1OC(C)(C)O2 XEGGRYVFLWGFHI-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000003599 detergent Substances 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002513 implantation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种激活语音识别服务的方法和用于实现所述方法的电子装置。提供了一种电子装置。所述电子装置包括至少一个处理器和电连接到处理器的存储器。存储器存储指令,所述指令被配置为:当被执行时,促使处理器:响应于接收到指定的用户输入,激活语音识别服务;在激活语音识别服务的情况下,接收语音命令;针对所述语音命令提供反馈;在提供反馈之后停用语音识别服务;在停用语音识别服务的情况下,接收与所述指定的用户输入不同的语音信号;响应于接收到所述语音信号,识别所述语音信号的至少一部分是否与从所述语音命令获得的唤醒命令相应;并且响应于识别出所述语音信号的所述至少一部分与唤醒命令相应,激活语音识别服务。
Description
技术领域
本公开总体涉及一种电子装置和方法,更具体地,涉及一种用于使用用户唤醒词来激活语音识别服务的电子装置和方法。
背景技术
随着最近数字技术的发展,各种类型的电子装置(诸如移动通信终端、个人数字助理(PDA)、电子记事本、智能电话、平板个人计算机(PC)和可穿戴装置)被广泛使用。电子装置的硬件部分和/或软件部分正在不断改进,以便改进、支持并增加电子装置的功能。
人工智能(AI)系统是用于在人类智能水平上实现智能的计算机系统,与传统的基于规则的智能系统不同,在AI系统中,机器通过自身学习、判断并变得更聪明。随着使用,AI系统可提高识别率并且更准确地理解用户的品味,因此传统的基于规则的智能系统已逐渐被基于深度学习的AI系统取代。
AI技术包括机器学习(深度学习)和使用机器学习的元素技术。
机器学习是自主地分类/学习输入数据的特征的算法技术,元素技术是基于机器学习算法(诸如深度学习算法)模拟人脑的认知和判断功能的技术,并且包括诸如语言理解、视觉理解、推理/预测、知识表示和操作控制的技术领域。
应用AI技术的各种领域包括以下技术领域。语言理解是用于识别和应用/处理人类语言/字符的技术,并且可包括自然语言处理、机器翻译、对话系统、问答系统和语音识别/合成。视觉理解是用于以人类视觉的方式识别和处理对象的技术,并且包括对象识别、对象跟踪、图像搜索、人物识别、场景理解、空间理解和图像改进。推理/预测是用于确定信息以逻辑地推断和预测信息的技术,并且包括基于知识/概率的推理、优化预测、基于偏好的计划和推荐。知识表示是用于自动处理关于用于获得知识数据的人类经验的信息的技术,并且包括知识构建(数据创建/分类)和知识管理(数据使用)。操作控制是用于控制车辆的自动驾驶和机器人的移动的技术,并且包括移动控制(导航、碰撞和驾驶)和操纵控制(行为控制)。
电子装置通过结合语音识别技术和AI技术来提供各种服务(或功能)。语音识别技术可包括例如用于将通过声音传感器(诸如麦克风)获得的声学语音信号转换为单词或句子的技术。语音识别技术通常可在提取声学语音信号之后执行去除噪声的任务,随后提取声学语音信号的特征并将提取出的特征与声学模型数据库(DB)进行比较以执行语音识别。电子装置可基于用户的语音命令提供各种生活便利服务,诸如移动搜索、日程管理、电话呼叫、备忘录或音乐回放。
发明内容
已做出本公开以至少解决上述缺点并至少提供下述优点。
本公开的一方面提供了一种基于唤醒方案来启动语音识别服务的电子装置。当输入用于语音识别服务的唤醒词(例如,语音唤醒词)、触摸或按钮时,电子装置可激活语音识别服务。当通过麦克风输入的语音是唤醒词时,使用唤醒词的语音识别方法可通过执行(或激活)语音识别服务根据用户的语音命令来提供响应。然而,当在提供响应之后在预定时间(例如,3秒、5秒或10秒)过去之前没有从用户接收到语音命令时,电子装置可停止或停用语音识别服务的执行。如果期望重新执行语音识别服务,则电子装置可再次从用户接收唤醒词并执行语音识别服务。唤醒词可被预设在电子装置中,并且可被改变或配置。也就是说,当用户连续尝试语音命令持续预定时间或超过预定时间时,由于用户在第一次说出唤醒词之后只能尝试语音命令,因此用户可能会遇到不便。
根据各种实施例,通过在不需要在预定时间内连续地做出语音命令或在说出预定的唤醒词之后做出语音命令的情况下连续地提供语音识别服务,可提高用户的便利性。
根据本公开的一方面,提供了一种电子装置。所述电子装置包括:扬声器;麦克风;通信接口;至少一个处理器,电连接到扬声器、麦克风和通信接口;和存储器,电连接到处理器。存储器存储指令,所述指令被配置为:当被执行时,促使处理器:响应于接收到指定的用户输入,激活语音识别服务;在激活语音识别服务的情况下接收语音命令;针对所述语音命令提供反馈;在提供反馈之后停用语音识别服务;在停用语音识别服务的情况下接收与指定的用户输入不同的语音信号;响应于接收到所述语音信号,识别所述语音信号的至少一部分是否与从所述语音命令获得的唤醒命令相应;并且响应于识别出所述语音信号的所述至少一部分与从所述语音命令获得的唤醒命令相应,激活语音识别服务。
根据本公开的一方面,提供了一种电子装置。所述电子装置包括:扬声器;麦克风;通信接口;至少一个处理器,电连接到扬声器、麦克风和通信接口;和存储器,电连接到处理器。存储器存储指令,所述指令被配置为:当被执行时,促使处理器:通过麦克风接收至少一个主唤醒词;响应于接收到的主唤醒词,激活从外部服务器提供的语音识别功能或在电子装置中实现的语音识别功能;通过麦克风接收用户的包括至少一个用户唤醒词的讲话;并且在没有主唤醒词的情况下,响应于接收到的用户唤醒词,激活语音识别功能。
根据本公开的一方面,提供了一种电子装置。所述电子装置包括:扬声器;麦克风;通信接口;至少一个处理器,电连接到扬声器、麦克风和通信接口;和存储器,电连接到处理器。存储器存储指令,所述指令被配置为:当被执行时,促使处理器:响应于在禁用语音识别服务的状态下接收到第一语音信号,启用语音识别服务,其中,第一语音信号与用于启用语音识别服务的指定的用户输入不同并且与在接收到所述指定的用户输入之后先前已接收的语音命令相应;并且响应于在所述状态下接收到第二语音信号,保持禁用语音识别服务,其中,第二语音信号与用于启用语音识别服务的所述指定的用户输入不同并且与在接收到所述指定的用户输入之后先前已接收的语音命令不同。
附图说明
从下面结合附图进行的详细描述,本公开的特定实施例的上述和其他方面、特征和优点将更加清楚,其中:
图1是根据实施例的网络环境内的电子装置的示图;
图2是根据实施例的电子装置的配置的示图;
图3是根据实施例的电子装置的操作的流程图;
图4是根据实施例的使用用户唤醒词的语音识别服务的示图;
图5是根据实施例的电子装置的注册用户唤醒词的方法的流程图;
图6是根据实施例的编辑用户唤醒词的示图;
图7是根据实施例的使用用户唤醒词来激活语音识别服务的方法的流程图;
图8是根据实施例的对用户唤醒词进行初始化的方法的流程图;
图9是根据实施例的基于讲话者的数量来控制用户唤醒词服务的方法的流程图;
图10A和图10B是根据实施例的控制用户唤醒词服务的示图;
图11是根据实施例的基于当前状况控制用户唤醒词的方法的流程图;
图12A和图12B是根据实施例的基于当前状况控制用户唤醒词的示图。
具体实施方式
在下文中将参照附图描述本公开的实施例。然而,本公开的实施例不限于特定实施例,并且应被解释为包括本公开的全部修改、变化、等效装置和方法、和/或替代实施例。在描述附图时,类似的标号被用于类似的元件。
如这里使用的术语“具有”、“可具有”、“包括”和“可包括”指示相应特征(例如,诸如数值、功能、操作、或部件的元素)的存在,但不排除另外的特征的存在。
如这里使用的术语“A或B”、“A或/和B中的至少一个”、或“A或/和B中的一个或更多个”包括用它们枚举的项的所有可能的组合。例如,“A或B”、“A和B中的至少一个”、或“A或B中的至少一个”指:(1)包括至少一个A;(2)包括至少一个B;或(3)包括至少一个A和至少一个B两者。
如这里使用的诸如“第一”和“第二”的术语可使用相应的组件而不管重要性或顺序,并且在限制组件的情况下用于区分组件与另一组件。这些术语可用于将一个元件与另一元件区分开的目的。例如,第一用户装置和第二用户装置可指示不同的用户装置,而不管顺序或重要性。例如,在不脱离公开的范围的情况下,可将第一元件称为第二元件,并且类似地,可将第二元件称为第一元件。
将理解的是,当元件(例如,第一元件)“(可操作地或可通信地)与另一元件(例如,第二元件)耦接/耦接到另一元件(例如,第二元件)”或“连接到”另一元件(例如,第二元件)时,该元件可直接与另一元件耦接/耦接到另一元件,并且在元件与另一元件之间可具有中间元件(例如,第三元件)。相反,将理解的是,当元件(例如,第一元件)“直接与另一元件(例如,第二元件)耦接/直接耦接到另一元件(例如,第二元件)”或“直接连接”到另一元件(例如,第二元件)时,元件与另一元件之间没有中间元件(例如,第三元件)。
如这里使用的表述“被配置为(或设置)”可根据上下文与“适合于……”、“具有……的能力”、“被设计用于……”、“适于……”、“被用于……”或“能够……”可交换地使用。术语“被配置为(或设置)……”不一定指在硬件级别上的“被专门设计为……”。反而,表述“被配置为……的设备”可指该设备与特定上下文中的其他装置或部件一起“能够……”。例如,“被配置为(或者设置为)执行A、B和C的处理器”可指用于执行相应操作的专用处理器(例如,嵌入式处理器)或能够通过执行存储在存储装置中的一个或更多个软件程序来执行相应操作的通用处理器(诸如中央处理器(CPU)或者应用处理器(AP))。
在描述本公开的各种实施例时所使用的术语是用于描述特定实施例的目的并且不意图限制本公开。如这里使用的,除非上下文清楚地另有指示,否则单数形式也意图包括复数形式。除非另有定义,否则这里所使用的所有术语(包括技术术语或者科学术语)具有与相关领域的普通技术人员通常理解的含义相同的含义。除非在这里被明确定义,否则在常用的字典中定义的术语应被解释为具有与相关技术的上下文含义相同或者相似的含义,并且不应被解释为具有理想的或者夸张的含义。根据情况,即使在本公开中定义的术语也不应被解释为排除公开的实施例。
如这里使用的术语“模块”可指例如包括硬件、软件和固件中的一个或者硬件、软件和固件中的两个或更多个的组合的单元。“模块”可与例如“单元”、“逻辑”、“逻辑块”、“组件”或“电路”可交换地使用。“模块”可以是集成组件元件或集成组件元件的一部分的最小单元。“模块”可以是用于执行一个或更多个功能或一个或更多个功能的一部分的最小单元。“模块”可机械地或电子地实现。例如,根据本公开的“模块”可包括用于执行已知或将要开发的操作的专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)和可编程逻辑装置中的至少一个。
根据本公开的电子装置可包括以下项中的至少一项:例如,智能电话、平板PC、移动电话、视频电话、电子书籍阅读器(e-book阅读器)、台式PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MPEG-1音频层-3(MP3)播放器、移动医疗装置、相机和可穿戴装置。可穿戴装置可包括以下项中的至少一项:附件类型(例如,手表、戒指、手镯、脚链、项链、眼镜、隐形眼镜或头戴式装置(HMD)等)、织物或衣物集成类型(例如,电子衣物)、身体附着类型(例如,皮肤垫或纹身)和生物植入类型(例如,可植入电路)。
电子装置可以是家用电器。家用电器可包括以下项中的至少一项:例如,电视机、数字视频盘(DVD)播放器、音响、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、TV盒(例如,Samsung HomeSyncTM、Apple TVTM或Google TVTM)、游戏机(例如,XboxTM和PlayStationTM)、电子词典、电子钥匙、摄录机和电子相框。
电子装置可包括以下项中的至少一项:各种医疗装置(例如,各种便携式医疗测量装置(血糖监测装置、心率监测装置、血压测量装置、体温测量装置等)、磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层扫描(CT)和超声装置)、导航装置、全球定位系统(GPS)接收器、事件数据记录器(EDR)、飞行数据记录器(FDR)、汽车信息娱乐装置、用于船舶的电子装置(例如,用于船舶的导航装置和陀螺罗盘)、航空电子设备、安全装置、汽车头部单元、用于工业或家庭的机器人、银行中的自动柜员机(ATM)、商店中的销售点(POS)或物联网(IoT)装置(例如,电灯泡、各种传感器、电表或煤气表、喷洒装置、火灾报警器、恒温器、路灯、烤箱、体育用品、热水箱、加热器、热水器等)。
电子装置可包括以下项中的至少一项:家具或建筑物/结构的一部分、电子板、电子签名接收装置、投影仪以及各种测量仪器(例如,水表、电表、气表、无线电波表)。电子装置可以是上述各种装置中的一个或更多个的组合。电子装置可以是柔性装置。此外,电子装置不限于上述装置,并且可包括根据新技术的发展的电子装置。
这里阐述的各种实施例可实现为包括存储在可由机器读取的存储介质中的一个或更多个指令的软件。例如,机器的处理器可调用存储在存储介质中的一个或更多个指令中的至少一个,并在处理器的控制下在使用或不使用一个或更多个其他组件的情况下执行调用的指令。这允许机器根据调用的至少一个指令进行操作以执行至少一个功能。一个或更多个指令可包括由编译器产生的代码或由解释器可执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。其中,术语“非暂时性”仅指存储介质是有形装置,并且不包括信号(例如,电磁波),但是该术语不对数据半永久存储在存储介质中和数据临时存储在存储介质中进行区分。
根据实施例,根据本公开的各种实施例的方法可被包括和提供在计算机程序产品中。计算机程序产品可作为卖方和买方之间的产品进行交易。计算机程序产品可以以机器可读存储介质(紧凑盘只读存储器(CD-ROM))的形式推广、经由应用商店(例如,PlayStoreTM)在线推广(例如,下载或上传)、或直接在两个装置之间推广。如果在线推广,则计算机程序产品的至少一部分可以是暂时地产生的或至少暂时地存储在机器可读存储介质(诸如制造商服务器的存储器、应用商店的服务器或中继服务器)中。
根据各种实施例,上述组件中的各个组件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施例,可省略上述组件中的一个或更多个,或者可添加一个或更多个其他组件。可选地或另外地,多个组件(例如,模块或程序)可被集成到单个组件中。在这种情况下,根据各种实施例,集成的组件仍然可以以与在集成之前由多个组件中的相应一个组件执行它们的相同或相似的方式执行多个组件中的每个组件的一个或多个功能。根据各种实施例,由模块、程序或另一组件执行的操作可被顺序地、并行地、重复地或启发式地执行,或者操作中的一个或更多个可以以不同的顺序执行或被省略,或者可添加一个或更多个其他操作。
在下文中,将参照附图描述电子装置。在本公开中,术语“用户”可指示使用电子装置的人或使用电子装置的装置(例如,人工智能电子装置)。
图1是根据实施例的网络环境100中的电子装置101的示图。参照图1,网络环境100中的电子装置101可经由第一网络198与电子装置102通信,或者经由第二网络199(例如,远程无线通信网络)与电子装置104或服务器108通信。电子装置101可经由服务器108与电子装置104通信。电子装置101可包括处理器120、存储器130、输入装置150、声音输出装置155、显示装置160、音频模块170、传感器模块176、接口177、触觉模块179、相机模块180、电力管理模块188、电池189、通信模块190、用户识别模块(SIM)196或天线模块197。可从电子装置101省略这些组件的至少一个组件(例如,显示装置160或相机模块180),或者可将一个或更多个组件加入到电子装置101中。在一些实施例中,一些组件可被实现为单个集成电路。例如,传感器模块176(例如,指纹传感器、虹膜传感器或照度传感器)可被实现为嵌入在显示装置160(例如,显示器)中。
处理器120可执行用于控制与处理器120耦合的电子装置101的至少一个其他组件(例如,硬件或软件组件)的软件,并且可执行各种数据处理或计算。作为数据处理或计算的至少一部分,处理器120可加载从易失性存储器132中的另一组件(例如,传感器模块176或通信模块190)接收的命令或数据,对存储在易失性存储器132中的命令或数据进行处理,并将结果数据存储在非易失性存储器134中。处理器120可包括主处理器121(例如,CPU或AP)和独立于主处理器121可操作地或与主处理器121关联的辅处理器123(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器集线器处理器或通信处理器(CP))。可选地或另外地,辅处理器123可适合于比主处理器121消耗更少的功率,或者对于特定功能是特定的。辅处理器123可被实现为从主处理器121分离或被实现为主处理器121的一部分。
辅处理器123可在主处理器121处于非激活(例如,睡眠)状态时代替主处理器控制与电子装置101的组件中的至少一个组件有关的功能或状态中的至少一些,,或者在主处理器121处于激活状态(例如,执行应用)时与主处理器121一起控制与电子装置101的组件中的至少一个组件有关的功能或状态中的至少一些。辅处理器123可被实现为与辅处理器123功能地有关的另一组件的部分。
存储器130可存储由电子装置101的至少一个组件使用的各种数据。各种数据可包括软件和用于与软件相关的命令的输入数据或输出数据。存储器130可包括易失性存储器132和非易失性存储器134。
程序140可作为软件存储在存储器130中,并可包括操作系统(OS)142、中间件144或应用146。
输入装置150可从电子装置101的外部(例如,用户)接收由电子装置101的其他组件使用的命令或数据。输入装置150可包括麦克风、鼠标或键盘。
声音输出装置155可向电子装置101的外部输出声音信号。声音输出装置155可包括扬声器或接收器。扬声器可被用于一般目的,诸如播放多媒体或播放记录,并且接收器可被用于来电。接收器可被实现为与扬声器分开或作为扬声器的一部分。
显示装置160可视觉地向电子装置101的外部(例如,用户)提供信息。显示装置160可包括显示器、全息装置或投影仪和用于控制显示器、全息装置和投影仪中的相应一个的电路。显示装置160可包括适合于检测触摸的触摸电路,或适合于测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块170可将声音转换为电信号,反之亦然。音频模块170可经由输入装置150获得声音,或者经由声音输出装置155或直接地或无线地与电子装置101耦接的外部电子装置的耳机输出声音。
传感器模块176可检测电子装置101的操作状态(例如,功率或温度)或电子装置101的外部的环境状态(例如,用户的状态),并且然后产生与检测到的状态相应的电信号或数据值。传感器模块176可包括手势传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物传感器、温度传感器、湿度传感器或照度传感器。
接口177可支持被用于电子装置101直接地(例如,有线)或无线地与外部电子装置耦接的一个或更多个特定协议。接口177可包括高清多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接终端178可包括连接器,电子装置101可经由该连接器与外部电子装置物理地连接。连接终端178可包括HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块179可将电信号转换为可经由用户的触觉感觉或动觉感觉被用户识别的机械刺激(例如,振动或移动)或电刺激。触觉模块179可包括例如电机、压电元件或电刺激器。
相机模块180可捕获静止图像或移动图像。相机模块180可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块188可管理向电子装置101提供的电力。电力管理模块188可被实现为电力管理集成电路(PMIC)的至少一部分。
电池189可向电子装置101的至少一个组件提供电力。电池189可包括不可充电的原电池、可充电的蓄电池或燃料电池。
通信模块190可支持建立电子装置101和外部电子装置之间的直接(例如,有线)通信信道或无线通信信道,并经由所建立的通信信道执行通信。通信模块190可包括可操作地独立于处理器120(例如,AP)并支持直接(例如,有线)通信或无线通信的一个或更多个通信处理器。通信模块190可包括无线通信模块192(例如,蜂窝通信模块、短程无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块194(例如,局域网(LAN)通信模块或输电线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络198(例如,短程通信网络、诸如BluetoothTM、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络199(例如,远程通信网络,诸如蜂窝网络、互联网或计算机网络(例如,LAN或广域网(WAN))与外部电子装置通信。这些类型的通信模块可被实现为单个组件(例如,单芯片),或者可被实现为彼此分离的多个组件(例如,多芯片)。无线通信模块192可使用存储在用户识别模块196中的用户信息(例如,国际移动用户识别码(IMSI))对通信网络(诸如第一网络198或第二网络199)中的电子装置101进行识别和认证。
天线模块197可向电子装置101的外部(例如,外部电子装置)发送信号或电力或可从电子装置101的外部接收信号或电力。天线模块197可包括一个或更多个天线,并且由此例如,可通过通信模块190选择适于在通信网络(诸如第一网络198或第二网络199)中使用的通信方案的至少一个天线。可然后经由所选的至少一个天线在通信模块190和外部电子装置之间发送或接收信号或电力。
上述组件中的至少一些可互相耦接,并经由外围通信方案(例如,总线、通用输入和输出(GPIO)、串行外围接口(SPI)或移动工业处理器接口(MIPI))在它们之间交流信号(例如,命令或数据)。
可经由与第二网络199耦接的服务器108在电子装置101和外部电子装置104之间发送或接收命令或数据。电子装置102和电子装置104中的每一个可以是与电子装置101类型相同或不同的装置。在电子装置101上执行的操作的全部或一些可在外部电子装置102、外部电子装置104或外部电子装置108中的一个或更多个上执行。例如,如果电子装置101应自动执行功能或服务,或者电子装置101可响应于来自用户或另一装置的请求而请求一个或多个外部电子装置执行该功能或服务中的至少一部分而不是执行该功能或服务,或者电子装置101除了执行该功能或服务之外,还可请求一个或多个外部电子装置执行该功能或服务中的至少一部分。接收请求的一个或多个外部电子装置可执行所请求的功能或服务的至少一部分或与请求有关的附加功能或附加服务,并向电子装置101传送执行的结果。电子装置101可在对结果进行进一步处理或不对结果进行进一步处理的情况下,将结果提供为请求的回复的一部分。为此,可使用例如云计算、分布式计算或客户端-服务器计算技术。
图2是根据实施例的电子装置的配置的示图。
参照图2,电子装置200可包括处理器210、麦克风220、扬声器230、存储器240或通信单元250。由于图2中示出的所有元件不都是必需的,因此电子装置200可具有比图2中示出的这些更多或更少的元件。电子装置200可以是基于机器学习算法(诸如深度学习算法)应用了用于模拟人脑的认知和判断功能的AI系统的装置。
处理器210可检测用于语音识别服务的用户输入,根据检测到的用户输入通过激活语音识别服务来识别语音,并执行与识别的语音相应的功能。用户输入可包括唤醒词、触摸和按钮中的至少一个。当语音识别服务在使用语音唤醒词时,处理器210可通过检测主唤醒词(或第一唤醒词)来激活语音识别服务,处理针对来自用户的语音输入的任务,对语音信息进行分析,并注册至少一个用户唤醒词(或第二唤醒词)。处理器210可使用存储在存储器240中的指令检测唤醒词,并提供语音识别服务。指令可被包括为具有处理电路的处理器210中的硬件模块或软件模块。指令可包括唤醒词检测模块211、语音识别模块213、唤醒词控制模块215、讲话者识别模块217或状况确定模块219。
唤醒词检测模块211(或唤醒引擎)可检测唤醒词。唤醒词可包括设置在电子装置200中的主唤醒词或由用户注册的用户唤醒词。唤醒词也可被称为唤醒命令或叫醒词。唤醒词可被存储在存储器240中。唤醒词检测模块211可检测唤醒词是否包括在通过麦克风220输入的语音中。唤醒词检测模块211可对从麦克风220接收的语音进行记录(例如,将语音存储在缓存器中)。
唤醒词检测模块211可将输入的声音处理为语音信号(例如,预处理)。语音信号的处理是用于语音识别的预处理,并且可指从声音到语音信号的转换。可选地,唤醒词检测模块211可将转换后的语音信号转换为文本(例如,语音到文本)。唤醒词检测模块211可确定唤醒词是否被包括在转换后的文本信息中。唤醒词检测模块211可通过与语音识别模块213交互工作从输入的词提取文本信息。可选地,唤醒词检测模块211可被包括在语音识别模块213中。唤醒词检测模块211可确定提取出的文本信息是否与存储在存储器240中的唤醒词匹配。当检测到唤醒词时,唤醒词检测模块211可通知语音识别模块213检测到唤醒词。
当检测到唤醒词时,语音识别模块213可激活(或执行)语音识别服务(或语音识别功能)。语音识别模块213可用于从麦克风220与唤醒词一起接收(或输入)语音(或语音信号),或者在检测到唤醒词之后从麦克风220接收(或输入)语音(或语音信号),并识别接收到的语音(例如,自动语音识别(ASR))。语音识别模块213可执行针对语音信号的语言处理(例如,自然语言理解(NLU)、对话管理(DM)或文本到语音(TTS))。语音识别模块213可与语音处理服务器交互工作以进行语音处理和语音识别。语音识别模块213可向语音处理服务器发送接收到(或输入)的语音信号(或记录的语音文件),并从语音处理服务器接收语音信息(或与语音信息相应的文本信息)。可选地,语音识别模块213可通过处理接收到的语音来产生(或提取)文本信息,向语音处理服务器发送产生的文本信息,并从语音处理服务器接收与文本信息相应的任务信息。任务信息可指电子装置200应响应于用户的讲话而执行的功能(或服务)。语音识别模块213可向唤醒词控制模块215、讲话者识别模块217和状况确定模块219传送语音信息、文本信息和任务信息中的至少一条信息。
语音识别模块213可基于语音信息对任务进行处理。语音识别模块213可基于接收到的任务信息对与执行与语音信息相应的功能有关的至少一个任务进行处理。例如,当根据用户的讲话识别到句子“今天的天气怎么样?”时,语音识别模块213可在互联网上搜索与电子装置200的当前位置或当前时间相应的天气信息,并提供找到的天气信息。天气信息可包括文本、图像、声音和视频中的至少一个。当由于电子装置200的设置而不能识别位置信息时,电子装置200可基于最近获取的位置信息来提供天气信息。可选地,当根据用户的讲话识别到句子“播放爵士乐”时,语音识别模块213可执行音乐应用,识别存储在存储器240中的音乐信息中与爵士乐相应的音乐类别中的歌曲,并通过扬声器230播放识别到的歌曲。
唤醒词控制模块215可从与处理后的任务有关的文本信息注册用户唤醒词。唤醒词控制模块215可通过分析语音信息来确定可被注册为用户唤醒词的关键词或字。唤醒词控制模块215可将句子“今天的天气怎么样?”中的词“今天”和“天气”确定为用户唤醒词。唤醒词控制模块215可将与词“今天”和“天气”有关的词(“昨天”、“明天”、“晴天”、“下雨”、“下雪”和“温度”)确定为用户唤醒词。与关键词有关的词是从词“今天”和“天气”得出的词,并且可以是词“今天”和“天气”的同义词。唤醒词控制模块215可将确定出的用户唤醒词存储在存储器240中。唤醒词控制模块215可对唤醒词进行管理,使得预设在电子装置200中的主唤醒词区别于用户唤醒词。唤醒词控制模块215可基于用户的讲话历史或机器学习来产生或获取用户唤醒词。
唤醒词控制模块215可基于讲话者识别来控制用户唤醒词服务。用户唤醒词服务可包括除了主唤醒词之外使用用户唤醒词作为唤醒词。当讲话者的数量等于或小于一时,唤醒词控制模块215可激活用户唤醒词服务。当讲话者的数量大于一时,唤醒词控制模块215可停用(或停止)用户唤醒词服务。当用户唤醒词服务被激活时,唤醒词控制模块215可启用存储在存储器240中的用户唤醒词。当用户唤醒词被启用时,如果用户讲话,则除了主唤醒词之外,唤醒词检测模块211还可检测用户唤醒词作为唤醒词。此外,唤醒词控制模块215可在用户唤醒词服务被激活的情况下根据用户的讲话注册新的用户唤醒词。可选地,当用户唤醒词被停用时,唤醒词控制模块215可禁用存储在存储器240中的用户唤醒词。当用户唤醒词被禁用时,如果用户讲话,则唤醒词检测模块211可仅检测主唤醒词作为唤醒词。
唤醒词控制模块215可启用与当前状况相应的用户唤醒词。当用户唤醒词被启用时,除了主唤醒词之外,与当前状况相应的用户唤醒词也被用作唤醒词。唤醒词控制模块215可启用存储在存储器240中的用户唤醒词中的与当前状况相应的用户唤醒词,并禁用与当前状况不相应的用户唤醒词。例如,“公交车”、“地铁”、“交通信息”和“公交站”可被存储为上午7点至上午8点之间的唤醒词,“午餐”、“菜单”、“餐厅”和“著名餐厅”可被存储为上午11点至下午1点之间的唤醒词。当当前时间是早上7:10时,唤醒词控制模块215可启用诸如“公交车”、“地铁”、“交通信息”和“公交站”的用户唤醒词。此外,唤醒词控制模块215可禁用诸如“午餐”、“菜单”、“餐厅”和“著名餐厅”的用户唤醒词。唤醒词控制模块215可确定当前状况是否期满,当当前状况期满时,禁用与当前状况相应的用户唤醒词。当与当前状况相应的用户唤醒词被启用时,除了主唤醒词之外,唤醒词检测模块211还可检测与当前状况相应的用户唤醒词作为用户唤醒词。当与当前状况相应的用户唤醒词被启用时,如果用户讲话,则唤醒词检测模块211可仅检测主唤醒词作为唤醒词。
讲话者识别模块217可识别讲话者。讲话者识别模块217可基于从麦克风220接收到的语音的频率来确定讲话者的数量是否大于一。由于每个人的语音具有独特的频率,因此讲话者识别模块217可基于语音频率中的差异来识别讲话者。可选地,讲话者识别模块217可基于从相机获取的图像来识别讲话者。讲话者识别模块217可通过将语音频率和图像结合来确定讲话者的数量。讲话者识别模块217可在语音识别服务被激活的情况下识别讲话者的数量。讲话者识别模块217可向唤醒词控制模块215传送讲话者识别信息。
状况确定模块219可检测当前状况是否与预设状况相应。预设状况可包括特定位置信息或特定时间信息。与当前状况相应的状况信息可被存储在存储器240中。状况确定模块219可从通信单元获取当前时间信息或当前位置信息。状况确定模块219可确定当前状况(例如,当前时间或当前位置)是否与存储在存储器240中的状况信息(例如,时间状况信息或位置状况信息)相应,并向唤醒词控制模块215传送确定结果。状况确定模块219可在语音识别服务被激活的情况下检测当前状况是否与预设状况相应。可选地,状况确定模块219可实时或周期性地检测当前状况是否与预设状况相应。
电子装置200可包括第一处理器和第二处理器。第一处理器可包括唤醒词检测模块211,第二处理器可包括语音识别模块213、唤醒词控制模块215、讲话者识别模块217或状况确定模块219。第一处理器可以是低功率处理器,并且可在第二处理器处于非激活或睡眠状态的情况下替代第二处理器控制与唤醒词检测模块211、麦克风220、扬声器230、存储器240或通信单元250有关的至少一些功能或状态。
麦克风220可接收外部声音信号并将声音信号处理为电子语音数据。可在麦克风220中实现各种降噪算法,以去除在接收外部声音信号的过程中产生的噪声。麦克风220可用来接收音频流(诸如语音命令(例如,用于控制语音识别服务的激活/禁用的语音命令))的输入。
扬声器230可输出从通信单元250接收的音频数据或存储在存储器240中的音频数据。扬声器230可输出与由电子装置200执行的各种操作有关的声音信号。
存储器240可存储由处理器210执行的一个或更多个程序,并还可执行临时地存储(缓存)输入/输出数据的功能。输入/输出数据可包括视频、图像、照片或音频数据。存储器240可存储主唤醒词、用户唤醒词和与当前状况相应的用户唤醒词中的至少一个。
通信单元250可包括使得能够在电子装置200和外部装置(例如,语音处理服务器)之间进行无线通信的一个或更多个模块。通信单元250可包括移动通信模块、WLAN模块、短程通信模块和位置计算模块。通信单元250可包括用于与相邻外部装置进行通信的模块(例如,短程通信模块或远程通信模块)。
根据实施例的电子装置可包括:扬声器;麦克风;通信接口;处理器,电连接到扬声器、麦克风或通信接口;和存储器,电连接到处理器,其中,存储器可存储指令,所述指令被配置为:当被执行时,促使处理器:响应于用户输入激活语音识别服务,处理针对由激活的语音识别服务输入的语音信息的任务,通过分析语音信息来注册至少一个用户唤醒词,并响应于检测到至少一个用户唤醒词激活语音识别服务。
指令可被配置为从语音信息提取文本信息,从文本信息获取至少一个词,并将获取到的词注册为用户唤醒词。
指令可被配置为从文本信息获取至少一个第一词,从第一词获取与第一词相关的至少一个第二词,并且将第一词或第二词注册为用户唤醒词。
指令可被配置为基于第一词和第二词获取至少一个第三词,并且将第一词至第三词中的至少一个词注册为用户唤醒词。
指令可被配置为在处理针对语音信息的任务之后对激活待机时间计数,并且当在激活待机时间期间未检测到语音时,停用语音识别服务。
指令可被配置为:当在语音识别服务被停用的状态下检测到语音时,确定输入的语音是否包括主唤醒词,并且当输入的语音包括主唤醒词时,对注册的用户唤醒词进行初始化。
指令可被配置为识别讲话者并根据识别出的讲话者的数量使用用户唤醒词来控制语音识别服务。
指令可被配置为当讲话者的数量大于一时使用用户唤醒词来停用语音识别服务。
指令可被配置为确定当前状况是否与状况信息相应,并且当当前状况与状况信息相应时,启用与状况信息相应的至少一个用户唤醒词。
指令可被配置为确定状况信息是否期满,并且当状况信息期满时,禁用与状况信息相应的至少一个用户唤醒词。
用户输入可包括语音唤醒词、触摸和按钮中的至少一个。
指令可被配置为在处理针对语音信息的任务之后在显示器上显示用于控制用户唤醒词的用户界面。
指令可被配置为根据对讲话者的识别使用用户唤醒词来控制语音识别服务。
根据实施例的电子装置可包括:扬声器;麦克风;通信接口;处理器,电连接到扬声器、麦克风或通信接口;和存储器,电连接到处理器,其中,存储器可存储指令,指令被配置为:通过麦克风接收至少一个主唤醒词,响应于接收到的主唤醒词激活从外部服务器提供的语音识别功能或在电子装置中实现的语音识别功能,通过麦克风接收包括至少一个用户唤醒词的用户的讲话,并且在没有主唤醒词的情况下响应于接收到的用户唤醒词激活语音识别功能。
至少一个主唤醒词可包括与电子装置有关的名称或标题。
至少一个用户唤醒词可包括由用户选择的名称或标题。
指令可被配置为仅在设定的时间期间响应于接收到的用户唤醒词来激活语音识别功能。
根据实施例的电子装置可包括:扬声器;麦克风;通信接口;处理器,电连接到扬声器、麦克风或通信接口;和存储器,电连接到处理器,其中,存储器可存储指令,当指令被执行时,使得处理器:通过麦克风接收至少一个主唤醒词,不管在一天中的什么时间都响应于接收到的主唤醒词而激活从外部服务器提供的语音识别功能或在电子装置中实现的语音识别功能,通过麦克风接收包括至少一个用户唤醒词,并在一天的一段时间内响应于接收到的用户唤醒词激活语音识别功能。
至少一个用户唤醒词可与用户的讲话的主题或话题有关。
可基于用户的讲话历史或机器学习来选择至少一个用户唤醒词。
图3是根据实施例的电子装置的操作方法的流程图。
参照图3,在步骤301,电子装置的处理器可检测用于语音识别服务的用户输入。用户输入可包括语音唤醒词、触摸和按钮中的至少一个。在下文中,将描述使用语音唤醒词来激活语音识别服务的示例,但是本公开不限于下文的描述。电子装置可基于用于识别主唤醒词的第一处理器来识别通过麦克风发送的唤醒词。主唤醒词可以是预设在电子装置中的唤醒词。主唤醒词可包括与电子装置有关的名称或标题,或者可包括由用户选择的名称或标题。
在步骤303,处理器可激活语音识别服务。当检测到主唤醒词时,处理器可唤醒用于语音识别的功能。电子装置可基于由第一处理器对唤醒词的检测来唤醒第二处理器。处理器可响应于用户输入根据用户的讲话开始语音识别。
在步骤305,处理器可基于语音信息处理任务。处理器可在语音识别服务被激活的情况下根据用户的讲话来识别语音信息,并处理与执行与语音信息相应的功能有关的至少一个任务。例如,当识别出用户的讲话“纽约的天气”时,处理器可基于“纽约的天气”作为关键词执行互联网搜索,并提供找到的关于纽约的天气的信息。关于纽约的天气的信息可包括文本、图像、声音和视频中的至少一个。
在步骤307,处理器可分析与处理的任务有关的语音信息。处理器可通过分析语音信息来确定可被注册为用户唤醒词的关键词或字。例如,处理器可从“纽约的天气”中提取“纽约”或“天气”作为关键词(例如,第一词)。处理器可获取从提取出的关键词推导出的相关词(例如,第二词)。相关词可以是从关键词推导出的词,诸如同义词。例如,作为相关词,处理器可从关键词“纽约”获取“费城”、“波士顿”和“华盛顿特区”。此外,作为相关词,处理器210可从关键词“天气”获取“晴天”、“多云”、“雨”、“雪”、“温度”和“湿度”。处理器可基于所获取的关键词或相关词来获取新词(例如,第三词)。例如,处理器可基于词“纽约”和“雨”获取新词“雨伞”。可选地,处理器可基于词“天气”和“晴天”获取新词“时尚”、“服装”和“短袖”。
在步骤309,处理器可基于分析结果来注册至少一个用户唤醒词(或第二唤醒词)。处理器可主要将“纽约”和“天气”注册为用户唤醒词(例如,将“纽约”和“天气”存储在存储器中)。处理器可管理唤醒词,使得预设在电子装置200中的主唤醒词区别于用户唤醒词。处理器可将主唤醒词配置为不被用户访问或改变,并且将用户唤醒词配置为由用户改变、修改、删除和添加。处理器可将“费城”、“波士顿”、“华盛顿特区”、“晴天”、“多云”、“雨”、“雪”、“温度”和“湿度”二次注册为用户唤醒词。此外,处理器可将“雨伞”、“时尚”、“服装”和“短袖”三次注册为用户唤醒词。处理器可不对二次或三次获取的用户唤醒词进行注册。
处理器可通过各种输入方案(诸如手势、摩斯码、特定码字、文本和视觉)来注册用户唤醒词。当语音识别服务被激活时,处理器可通过相机检测手势(例如,手语)或用户的视角,并将检测到的手势或用户的视角注册为用户唤醒词。可选地,当语音识别服务被激活时,处理器可通过输入装置接收摩斯码、特定码字和文本中的至少一个,并且将接收到的摩斯码、特定码字或文本注册为用户唤醒词。电子装置可在连接到电源装置(例如,充电器)期间执行步骤301至步骤309。
图4是根据实施例的使用用户唤醒词来激活语音识别服务的示图。
参照图4,处理器210或电子装置200可提供用于通过激活语音识别服务来识别语音的第一用户界面410。处理器可指示语音识别服务是响应于主唤醒词而激活的。处理器可提供指示语音识别服务的激活的通知消息411。虽然图4示出了通知消息411显示在显示器上,但是处理器可在显示通知消息411的同时通过扬声器输出与通知消息411相应的语音。通知消息411可包括文本、图像、声音和视频中的至少一个。
在提供通知消息411之后,处理器可在激活待机时间(例如,3秒或5秒)内连续地接收用户的讲话并识别语音。处理器可自行识别用户讲话的语音或通过与语音处理服务器的交互工作来识别用户讲话的语音。处理器可在显示器上显示通过识别语音而获得的第一语音信息413,并处理与第一语音信息413相应的任务。处理器可在显示器上显示与第一语音信息413相应的第一任务信息415。可选地,处理器可通过扬声器输出与第一任务信息415相应的语音。第一任务信息415可包括文本、图像、声音和视频中的至少一个。
处理器可在提供第一任务信息415之后或在提供第一任务信息415的同时对第一语音信息413进行分析并注册用户唤醒词。例如,处理器可将“大邱”和“天气”注册为用户唤醒词。可选地,处理器可将“首尔”、“釜山”、“温度”和“湿度”注册为用户唤醒词。当在提供第一任务信息415之后直到激活待机时间过去为止都未检测到用户的讲话时,处理器可停用(或停止)语音识别服务。
处理器可通过提供第一任务信息415并且在激活待机时间过去之后识别用户的讲话来提供用于识别语音的第二用户界面450,。第二用户界面450是在语音识别服务被停用的状态下接收用户的讲话的示例。处理器可确定唤醒词是否被包括在通过识别语音获得的第二语音信息451中。这里,唤醒词可包括主唤醒词和用户唤醒词两者。例如,处理器可将包括在第二语音信息451中的“天气”识别为用户唤醒词,并确定检测到了唤醒词。当检测到唤醒词时,处理器可激活语音识别服务。
当检测到唤醒词时,处理器可再次激活被停用的语音识别服务。虽然图4示出了未提供通知重新激活被停用的语音识别服务的通知消息,但是可提供通知消息。处理器可在显示器上显示通过识别语音而获得的第二语音信息451,并处理与第二语音信息451相应的任务。处理器可在显示器上显示与第二语音信息451相应的第二任务信息453。可选地,处理器可通过扬声器230输出与第二任务信息453相应的语音。第二任务信息453可包括文本、图像、声音和视频中的至少一个。
处理器可在提供第二任务信息453之后或在提供第二任务信息453的同时对第二语音信息451进行分析并注册用户唤醒词。例如,处理器可将“天气”和“洗衣店”注册为用户唤醒词。可选地,处理器可将“温度”、“湿度”“洗衣店”“洗涤方法”、“洗涤剂”和“烘干机”注册为用户唤醒词。当在提供第二任务信息453之后直到激活待机时间过去为止都未检测到用户的讲话时,处理器可停用(或停止)语音识别服务。可选地,处理器可仅针对在主唤醒词之后输入的用户的语音(例如,第一语音信息413)识别用户唤醒词,而不针对第二语音信息451注册用户唤醒词。这可根据电子装置200的设置或用户的设置而改变。
当检测到预设的唤醒词时,电子装置可激活语音识别服务。当在语音识别服务被激活的时,在提供对用户语音的响应之后在激活待机时间过去之前,没有从用户接收到语音命令时,电子装置可停止语音识别服务的执行。为了再次激活被停用的语音识别服务,在传统技术中必须首先说出主唤醒词。然而,根据本公开,通过将用户唤醒词与主唤醒词一起注册为唤醒词,即使没有检测到主唤醒词,也可在检测到用户唤醒词时激活语音识别服务。
图5是根据实施例的电子装置的注册用户唤醒词的方法的流程图。图5的流程图详细示出图3的步骤307和步骤309。
参照图5,在步骤501,处理器210或电子装置的唤醒词控制模块215可从输入的语音获取第一词。例如,当接收到用户的讲话“我想在午餐时吃牛排,你有推荐的办公室附近的餐厅吗?”时,处理器可根据用户的讲话通过分析语音信息来获取第一词。处理器可从转换自语音信息的文本信息获取第一词(或关键词)。关键词的字典定义可以是“从标题或内容提取的以用于表达所记录的内容的词语或短语”。因此,在字典定义中,关键词包括单词和短语,并且可以是包括词语的概念。例如,第一词可包括“午餐”、“牛排”、“办公室”或“推荐”中的至少一个。
在步骤503,处理器可从获取到的第一词获取第二词。处理器可获取可从第一词推断或得出的第二词。第二词可以是第一词的同义词。例如,第二词可包括“午宴”、“牛肉”、与办公室相应的“位置信息(例如,纽约)”和“强烈推荐”中的至少一个。
在步骤505,处理器可基于第一词或第二词获取第三词。处理器可通过将第一词和第二词组合来获取新的第三词。例如,第三词可包括“著名餐厅”。
可不执行步骤503和步骤505。例如,根据电子装置的设置或用户的设置,可仅执行步骤501和步骤507,而省略步骤503和步骤505。
在步骤507,处理器210可将获取的词注册为至少一个用户唤醒词。例如,处理器210可将“午餐”、“牛排”、“办公室”、“推荐”、“餐”、“牛肉”、“纽约”、“强烈推荐”和“著名餐厅”注册为用户唤醒词(例如,可将这些词中的至少一个存储在存储器中)。用户唤醒词可与用户的讲话的主题或话题相关。可选地,可从用户的讲话历史或机器学习来选择用户唤醒词。
当接收到用户的讲话“我想在午餐时吃牛排,你有推荐的办公室附近的餐厅吗?”时,处理器可处理针对用户的讲话的语音识别并输出诸如“办公室周围的牛排餐厅是XXX”的消息(例如,在显示器上显示消息或通过扬声器输出消息)。接下来,当接收到用户的讲话“这是一个著名的餐厅吗?”时,处理器可处理针对用户的讲话的语音识别并输出诸如“它被注册为著名餐厅并且在最近一个月内两次得到10分。”的消息。当执行步骤501至步骤507时,处理器可将“著名餐厅”以及主唤醒词注册为用户唤醒词。
处理器可仅针对在主唤醒词之后输入的用户的讲话分析语音信息并且注册用户唤醒词。可选地,处理器可针对在主唤醒词之后的预定时间(例如,一小时、三小时、一天或一周)内输入的用户的讲话分析语音信息并注册用户唤醒词。当预定时间过去时,处理器可自动从存储器中删除注册的用户唤醒词。可选地,处理器可在删除用户唤醒词之前通知用户对用户唤醒词的删除,并根据用户的选择删除用户唤醒词。可选地,当从用户接收到预设的输入(例如,触摸、手势或按钮选择)时,处理器可删除用户唤醒词。可选地,处理器可根据用户的请求(例如,查看用户唤醒词或编辑用户唤醒词)提供包括存储在存储器中的用户唤醒词的列表,并且当接收到用于删除包括在列表中的用户唤醒词中的至少一个或全部的用户输入时,删除由用户选择的用户唤醒词。
图6是根据实施例的注册用户唤醒词的示图。
参照图6,电子装置200的处理器可提供用于注册用户唤醒词的用户界面610。用户界面610可响应于语音信息“大邱的天气”提供任务信息611,并可包括指示来自语音信息的“大邱”和“天气”被注册为用户唤醒词的消息613。消息613可包括提供用户唤醒词的通知的短语、修改按钮615、添加按钮617和取消按钮619。当选择修改按钮615时,处理器可提供用于修改“大邱”或“天气”的用户界面。该用户界面可将“大邱”或“天气”显示在输入栏中,并可包括键区(或键盘)。当选择添加按钮617时,处理器可提供包括输入栏或键区的用户界面。该用户界面的输入栏可以是空的,在这种情况下不显示任何内容。当选择取消按钮619时,处理器可提供指示从用户唤醒词中删除“大邱”或“天气”的用户界面。当在提供用户界面之后激活待机时间过去之前未检测到用户讲话时,处理器可停用语音识别服务。
图7是根据实施例的使用用户唤醒词来激活语音识别服务的方法的流程图。可在图3的步骤309之后执行图7的流程图。
参照图7,在步骤701,电子装置的处理器210或语音识别模块213可对激活待机时间计数。激活待机时间可被分析为终点检测(EPD)时间、输入待机时间和麦克风记录待机时间中的至少一个。激活待机时间可以是用于确定语音输入结束的待机时间。处理器从语音输入(例如,第一语音输入)完成的时间点(或提供与第一语音输入相应的任务信息的时间点)开始计数,并且当在激活待机时间期满之前再次检测到语音输入时,从头开始对激活待机时间计数。处理器可在语音识别服务被激活的同时对激活待机时间计数。
在步骤703,处理器可确定激活待机时间是否期满。当激活待机时间是5秒时,处理器可从第一语音输入完成的时间点(或提供与第一语音输入相应的任务信息的时间点)开始对激活待机时间计数,并且当在激活待机时间计数3秒的时间点检测到第二语音输入时,删除(或忽略)计数到该时间点的激活待机时间,并从第二语音输入完成的时间点开始再次对激活待机时间计数。
当激活待机时间期满(例如,步骤703中的“是”)时,处理器可执行步骤705。当激活待机时间未期满(例如,步骤703中的“否”)时,处理器可执行步骤715。
当激活待机时间期满时,在步骤705,处理器可停用语音识别服务。当激活待机时间期满时,处理器可确定语音输入完成。当语音识别服务被停用时,处理器可停止语音识别所需的元件的执行以便执行低功率驱动。例如,当语音输入完成时,处理器可停止接收语音输入或从麦克风接收的语音记录。
在步骤707,处理器210或唤醒词检测模块211可检测语音。处理器可通过麦克风检测语音的接收。处理器可将接收到的语音临时存储在存储器中。
在步骤709,处理器可确定检测到的语音是否包括唤醒词。唤醒词可包括设置在电子装置中的主唤醒词或由用户注册的用户唤醒词。处理器可从存储在存储器中的语音(或语音文件)提取文本信息,并确定提取出的文本信息的第一词是否与存储在存储器中的唤醒词匹配。可选地,处理器可确定包括在提取出的文本信息中的至少一个词是否与存储在存储器中的唤醒词匹配。可选地,处理器可确定提取出的文本信息的最后一词是否与存储在存储器中的唤醒词匹配。将文本信息与唤醒词进行匹配的方法可根据电子装置的设置或用户的设置进行改变。
当检测到的语音包括唤醒词(例如,在步骤709,“是”)时,处理器可执行步骤711,并且当检测到的语音不包括唤醒词(例如,在步骤709,“否”)时,处理器可结束操作。
当检测到的语音包括主唤醒词时,处理器可执行步骤711。可选地,当检测到的语音包括用户唤醒词时,处理器可执行步骤711。然而,当检测到的语音既不包括主唤醒词也不包括用户唤醒词时,处理器可结束操作。在传统技术中,为了在停用语音识别服务的状态下识别语音,必需在基本上说出主唤醒词。然而,在本公开中,不仅可在说出主唤醒词时激活语音识别服务,而且可在说出用户唤醒词时激活语音识别服务。
当检测到的语音包括唤醒词时,处理器可在步骤711激活语音识别服务。当检测到唤醒词时,处理器可唤醒用于语音识别的功能。由于步骤711与步骤303相同或相似,因此将省略其详细的描述。
在步骤713,处理器可基于语音信息处理任务。处理器可从用户的讲话识别包括唤醒词的语音信息或不包括唤醒词的语音信息,并在语音识别服务被激活的情况下执行与语音信息相应的功能。当唤醒词是主唤醒词时,处理器可识别不包括主唤醒词的语音信息并执行与语音信息相应的功能。可选地,当唤醒词是用户唤醒词时,处理器可识别包括用户唤醒词的语音信息并执行与语音信息相应的功能。可选地,即使当唤醒词是用户唤醒词时,处理器也可识别不包括用户唤醒词的语音信息并执行与语音信息相应的功能。
当激活待机时间未期满时,处理器可在步骤715保持语音识别服务被激活。步骤701是在语音识别服务被激活的情况下执行的步骤,并且当激活待机时间未期满时,在步骤715,处理器可将语音识别服务保持在激活状态。
在步骤717,处理器可确定是否检测到语音。处理器可以在语音识别服务被激活的状态下确定是否从用户输入新的讲话。
当检测到语音(例如,在步骤717,“是”)时,处理器可执行步骤719,并且当未检测到语音(例如,在步骤717,“否”)时,处理器可返回到步骤701。当返回到步骤701时,处理器可确定在激活待机时间期满之前是否输入了用户的讲话。
当检测到语音时,处理器可在步骤717处理针对输入的语音的任务。处理器可根据用户的讲话识别语音信息,并在语音识别服务被激活的情况下处理与执行与语音信息相应的功能有关的至少一个任务。由于步骤719与步骤305相同或相似,因此将省略其详细的描述。
图8是根据实施例的初始化用户唤醒词的方法的流程图。
参照图8,在步骤801,电子装置的处理器210或语音识别模块213可停用语音识别服务。当激活待机时间期满时,处理器可确定语音输入完成并且停用语音识别服务。由于步骤801与步骤705相同或相似,因此将省略其详细的描述。
在步骤803,处理器210(或唤醒词检测模块211)可接收语音输入。处理器可检测通过麦克风接收的语音。处理器可将接收到的语音临时存储在存储器中。
在步骤805,处理器可确定检测到的语音是否包括用户唤醒词。用户唤醒词可以是由用户注册的唤醒词。在步骤805确定的唤醒词可仅是用户唤醒词,而不是主唤醒词。处理器可从存储在存储器中的语音(或语音文件)提取文本信息,并确定提取出的文本信息的全部或一些片段(例如,第一词)是否与存储在存储器中的用户唤醒词匹配。
当检测到的语音包括用户唤醒词(例如,在步骤805,“是”)时,处理器可执行步骤807,并且当检测到的语音不包括用户唤醒词(例如,在步骤805,“否”)时,处理器可执行步骤811。当检测到的语音包括用户唤醒词时,处理器可执行步骤807,并且当检测到的语音包括主唤醒词时,处理器可执行步骤813。
当检测到的语音包括用户唤醒词时,在步骤807,处理器可激活语音识别服务。例如,当检测到用户唤醒词时,处理器可唤醒用于语音识别的功能。由于步骤807与步骤303相同或相似,因此将省略其详细的描述。
在步骤809,处理器可基于语音信息处理任务。处理器可在语音识别服务被激活的情况下根据用户的讲话识别语音信息,并处理与执行与语音信息相应的功能有关的至少一个任务。由于步骤809与步骤305相同或相似,因此将省略其详细的描述。
在步骤810,处理器(或唤醒词控制模块215)可执行唤醒词更新处理。唤醒词更新处理可包括通过根据用户的讲话分析语音信息来注册用户唤醒词的操作。唤醒词更新处理可包括步骤307和步骤309。根据电子装置的设置或用户的设置,可不执行步骤810。当使用用户唤醒词激活语音识别服务时,处理器可不执行唤醒词更新处理。可选地,当使用用户唤醒词激活语音识别服务时,处理器可执行唤醒词更新处理。
当检测到的语音不包括用户唤醒词时,在步骤811,处理器可确定检测到的语音是否包括主唤醒词。主唤醒词可以是预设在电子装置中的唤醒词。处理器可从存储在存储器中的语音(或语音文件)提取文本信息,并确定提取出的文本信息的全部或一些(例如,第一词)是否与设置在电子装置中的主唤醒词匹配。
尽管图8示出了首先执行确定检测到的语音是否包括用户唤醒词的步骤805,然后执行确定检测到的语音是否包括主唤醒词的步骤811,但是可首先执行步骤811然后可执行步骤805,或者可同时执行步骤805和步骤811。这仅是关于实现的问题,并且本公开不限于详细描述和附图。
当检测到的语音包括主唤醒词(例如,在步骤811,“是”)时,处理器可执行步骤813。当检测到的语音不包括主唤醒词(例如,在步骤811,“否”)时,处理器可结束操作。当检测到的语音既不包括主唤醒词也不包括用户唤醒词时,处理器可结束操作。
当检测到的语音包括主唤醒词时,处理器可在步骤813对用户唤醒词进行初始化。初始化可指将存储在存储器中的用户唤醒词删除。当主唤醒词被检测为唤醒词时,处理器可将存储在存储器中的用户唤醒词删除。说出主唤醒词可用作删除用户唤醒词的命令。可根据电子装置的设置或用户的设置来确定识别说出主唤醒词是用于删除用户唤醒词的命令的操作。处理器可在删除用户唤醒词之前通知用户是否删除用户唤醒词,并且可根据用户的选择删除用户唤醒词。
在删除用户唤醒词之后,处理器可返回到步骤807。当在删除用户唤醒词后返回到步骤807时,处理器可在步骤810执行唤醒词更新处理。
图9是根据实施例的基于讲话者的数量来控制用户唤醒词服务的方法的流程图。
参照图9,在步骤901,电子装置200(例如,电子装置101)的处理器210(或讲话者识别模块217)可识别讲话者。处理器可基于从麦克风接收到的语音的频率来确定讲话者的数量是否大于一。处理器可基于每个人的语音频率的差异来识别讲话者。可选地,处理器可基于从相机获取的图像来识别讲话者。处理器可通过将语音频率和图像结合来确定讲话者的数量。
可在语音识别服务被激活的情况下执行步骤901。可在激活待机时间期间或激活待机时间期满之前执行步骤901。处理器可与步骤901的执行同时地或顺序地确定激活待机时间是否期满。
在步骤903,处理器可确定讲话者的数量是否大于一。处理器可以以以下方式中的至少一个来确定讲话者的数量是否大于一:实时地、周期性地或在语音识别服务被激活的状态下。
当讲话者的数量大于一(例如,步骤903中的“是”)时,处理器可执行步骤905。当讲话者的数量不大于一(例如,步骤903中的“否”)时,处理器可执行步骤915。
当讲话者的数量大于一时,处理器可在步骤905停用用户唤醒词服务。用户唤醒词服务可指除了主唤醒词作为用于激活语音识别服务的唤醒词之外还使用用户唤醒词作为用于激活语音识别服务的唤醒词。然而,当讲话者的数量大于一时,电子装置可在讲话者之间的对话中执行语音识别并处理任务。这可能不必要地消耗功率并降低用户便利性。当讲话者的数量大于一时,处理器可通过停用用户唤醒词服务来禁用存储在存储器中的用户唤醒词。当用户唤醒词被禁用时,如果用户讲话,则处理器可仅检测主唤醒词作为唤醒词。
在步骤907,处理器可接收语音输入。处理器可检测通过麦克风接收的语音。处理器可将接收到的语音临时存储在存储器中。
在步骤909,处理器可确定检测到的语音是否包括主唤醒词。当在用户唤醒词服务被停用的状态下检测到语音时,处理器可确定检测到的语音是否包括主唤醒词。
当检测到的语音包括主唤醒词(例如,在步骤909,“是”)时,处理器可执行步骤911。当检测到的语音不包括主唤醒词(例如,在步骤909,“否”)时,处理器可结束操作。为了在用户唤醒词服务被停用的状态下识别语音,必须无条件地说出主唤醒词。
当检测到的语音包括主唤醒词时,处理器可在步骤911处理针对输入语音的任务。由于语音识别服务可在步骤901至步骤907被激活,因此处理器可在无需激活语音识别服务的情况下立即执行针对识别出的语音的功能。处理器可在处理任务之后返回到步骤901。当返回到步骤901时,处理器可与讲话者识别同时地或顺序地确定激活待机时间是否期满。
当讲话者的数量不大于一时,处理器可在步骤915保持(或停止)用户唤醒词服务。可在语音识别服务被激活的情况下始终激活用户唤醒词服务。因此,保持用户唤醒词服务可指将用户唤醒词服务保持在激活状态。当用户唤醒词服务被激活时,处理器可启用存储在存储器中的用户唤醒词。当用户唤醒词被启用时,如果用户说话,则除了主唤醒词之外,处理器还可检测用户唤醒词作为唤醒词。此外,处理器可在用户唤醒词服务被激活的情况下根据用户的讲话来注册新的用户唤醒词。
在步骤917,处理器可接收语音输入。处理器可检测通过麦克风接收的语音。处理器可将接收到的语音临时存储在存储器中。
在步骤919,处理器210可确定检测到的语音是否包括唤醒词。唤醒词可包括主唤醒词和用户唤醒词两者。也就是说,当在用户唤醒词服务被激活的状态下检测到语音时,处理器可确定检测到的语音是否包括主唤醒词或用户唤醒词。
当检测到的语音包括唤醒词(例如,在步骤919,“是”)时,处理器可执行步骤921,当检测到的语音不包括唤醒词(例如,在步骤919,“否”)时,处理器可结束操作。如果用户在用户唤醒词服务被激活的状态下说出主唤醒词和用户唤醒词中的至少一个,则处理器可执行语音识别功能。
当检测到的语音包括唤醒词时,处理器可在步骤921处理针对输入的语音的任务。由于语音识别服务可在步骤915至步骤919被激活,因此处理器可在无需激活语音识别服务的情况下立即执行针对识别出的语音的功能。处理器可在处理任务之后返回操作901。
图10A和图10B是根据实施例的控制用户唤醒词服务的示图。
图10A示出无论讲话者的数量如何,都激活用户唤醒词服务的示例。
参照图10A,第一情况1010与以一一对应的方式在第一用户1001和电子装置200之间提供语音识别服务的示例相应。由于在第一情况1010中激活了用户唤醒词服务,因此当从第一用户1001检测到主唤醒词或用户唤醒词时,电子装置200可提供语音识别服务。
第二情况1020与在第一情况1010中添加第二用户1003的示例相应。由于在第二情况1020中也激活了用户唤醒词服务,因此当从第一用户1001或第二用户1003检测到主唤醒词或用户唤醒词时,电子装置200可提供语音识别服务。
第三情况1030与在第二情况1020中检测唤醒词的示例相应。由于在第三情况1030中也激活了用户唤醒词服务,因此当从第一用户1001或第二用户1003检测到主唤醒词或用户唤醒词时,电子装置200可提供语音识别服务。然而,尽管第一用户1001的讲话1031指向第二用户1003,但是由于第一用户1001的讲话1031包括用户唤醒词(例如,大邱或天气),因此电子装置200仍可处理针对语音信息的任务并提供对讲话1031的响应。当在用户唤醒词服务被激活的状态下检测到用户唤醒词时,即使第一用户1001的讲话1031指向第二用户1003,电子装置200仍然执行语音识别并因此提供响应1033。
图10B示出根据讲话者识别控制用户唤醒词服务的示例。
参照图10B,第四情况1050与电子装置200识别讲话者并控制用户唤醒词服务的示例相应。电子装置200可在第四情况1050中通过讲话者识别来检测第一用户1001和第二用户1003。当确定讲话者的数量大于一时,电子装置200可在第四情况1050中停用(或停止)用户唤醒词服务。
第五情况1060与在电子装置200已经停用了(或停止)用户唤醒词服务的状态下用户相互交谈的示例相应。由于在第五情况1060中停用了用户唤醒词服务,因此电子装置200可仅在检测到主唤醒词时提供语音识别服务。在停用了用户唤醒词服务的状态下,可在电子装置200中禁用用户唤醒词(例如,大邱或天气)。虽然在第五情况1060中第一用户1001的讲话1061指向第二用户1003,但是电子装置200可不提供对第一用户1001的讲话1061的响应1063。这是因为当在第五情况1060停用用户唤醒词服务的状态下主唤醒词没有包括在讲话1061中时,电子装置200不激活语音识别服务。
第六情况1070与电子装置200在停用用户唤醒词服务的状态下提供对用户的讲话的响应的示例相应。由于在第六情况1070中讲话者的数量大于一,因此电子装置200可停用用户唤醒词服务。在第六情况1070中,电子装置200可检测第一用户1001的讲话1071,并确定讲话1071是否包括主唤醒词。当讲话1071包括主唤醒词(例如,“Bixby”)时,电子装置200可处理针对讲话1071的任务,并提供响应1073。电子装置200可仅当在停用用户唤醒词服务的状态下检测到主唤醒词时提供语音识别功能。
图11是根据实施例的基于当前状况来控制用户唤醒词的方法的流程图。
参照图11,在步骤1101,电子装置的处理器210可检测当前状况是否与预设状况(例如,状况信息)相应。预设状况可包括特定的位置信息或特定的时间信息。可将与当前状况相应的状况信息存储在存储器中。处理器可确定当前状况是否与存储在存储器中的状况信息相应。处理器可在语音识别服务被激活的情况下检测当前状况是否与预设状况相应。可选地,处理器可实时地或周期性地检测当前状况是否与预设状况相应。
在步骤1103,处理器可启用与当前状况相应的至少一个用户唤醒词。当当前时间是早上7:10并且时间信息(早晨7:10)与预设状况相应时,处理器可启用与时间信息相应的用户唤醒词。例如,当存储了与存储在存储器中的时间信息(例如,上午7点到9点)相应的用户唤醒词(例如,“公共汽车”、“地铁”、“路线图”和“时间表”)时,处理器可启用用户唤醒词。可选地,当当前位置是“首尔,江南区”并且位置信息(“首尔,江南区”)与预设状况相应时,处理器可启用与位置信息相应的用户唤醒词。当存储了与存储在存储器中的位置信息(例如,首尔,江南区)相应的用户唤醒词(例如,“午餐”、“菜单”、“餐厅”和“时间表”)时,处理器可启用用户唤醒词。当启用了用户唤醒词时,如果与主唤醒词一起检测到用户唤醒词,则处理器可提供语音识别服务。
在步骤1105,处理器可检测语音。处理器检测通过麦克风接收的语音。处理器可将接收到的语音临时存储在存储器中。
在步骤1107,处理器可确定检测到的语音是否包括唤醒词。唤醒词可包括设置在电子装置中的主唤醒词和与当前状况相应的用户唤醒词。
当检测到的语音包括唤醒词(例如,在步骤1107,“是”)时,处理器可执行步骤1109,并且当检测到的语音不包括唤醒词(例如,在步骤1107,“否”)时,处理器可结束操作。
当检测到的语音包括唤醒词时,在步骤1109,处理器可处理针对输入的语音的任务。由于语音识别服务可在步骤1101至步骤1107被激活,因此处理器可在无需激活语音识别服务的情况下立即执行针对识别出的语音的功能。可选地,当语音识别服务被停用时,处理器可在激活语音识别服务之后执行针对检测到的语音的功能。
在步骤1111,处理器可确定当前状况是否期满(或者状况信息是否期满)。当当前时间是早上9:05时,由于当前时间已超过了与时间信息(上午7点到9点)相应的状况,因此处理器可确定当前状况已期满。可选地,当当前位置是“京畿道,水原市”时,由于当前位置落在与位置信息(“首尔,江南区”)相应的状况之外,因此处理器可确定当前状况已期满。
当当前状况期满(例如,在步骤1111,“是”)时,处理器可执行步骤1113,并且当当前状况未期满(例如,在步骤1111,“否”)时,可返回到步骤1105。当返回到步骤1105时,处理器可在当前状况与预设状况相应的情况下,通过主唤醒词或用户唤醒词连续地提供语音识别服务。
在步骤1113,处理器可禁用与当前状况相应的至少一个用户唤醒词。处理器可禁用与存储在存储器中的时间信息(例如,上午7点到9点)相应的用户唤醒词(例如,“公共汽车”、“地铁”、“路线图”和“时间表”)。当根据用户的讲话检测到语音时,处理器可根据检测到的语音是否包括主唤醒词来提供语音识别服务。
图12A和图12B是根据实施例的基于当前状况控制用户唤醒词的示图。
图12A示出根据时间状况信息控制用户唤醒词的示例。
参照图12A,第一情况1210与将用户唤醒词1213、用户唤醒词1215、用户唤醒词1217存储在电子装置200的存储器中的示例相应。电子装置200可将与时间信息相应的用户唤醒词1213、用户唤醒词1215、用户唤醒词1217的存储在存储器中。当时间状况信息与第一时间状况信息(例如,上午7点到8点)相应时,可启用第一用户唤醒词1213。当时间状况信息与第二时间状况信息(例如,上午11点到下午1点)相应时,可启用第二用户唤醒词1215。当时间状况信息与第三时间状况信息(例如,下午5点到7点)相应时,可启用第三用户唤醒词1217。在第一情况1210中,当用户1200的讲话包括主唤醒词时,电子装置200可提供语音识别服务。
第二情况1020与根据当前时间状况启用用户唤醒词的示例相应。当当前时间是“07:35”时,电子装置200可启用与第一时间状况信息(例如,上午7点到8点)相应的第一用户唤醒词1223。当用户1200的讲话包括主唤醒词或第一用户唤醒词1223时,电子装置200可提供语音识别服务。电子装置200可禁用与第二时间状况信息(例如,上午11点到下午1点)相应的第二用户唤醒词1215和与第三时间状况信息(例如,下午5点到7点)相应的第三用户唤醒词1217。
第三情况1030与根据当前时间状况启用用户唤醒词的另一示例相应。当当前时间是“11:35”时,电子装置200可启用与第二时间状况信息(例如,上午11点到下午1点)相应的第二用户唤醒词1233。当用户1200的讲话包括主唤醒词或第二用户唤醒词1233时,电子装置200可提供语音识别服务。电子装置200可禁用与第一时间状况信息(例如,上午7点到8点)相应的第一用户唤醒词1213和与第三时间状况信息(例如,下午5点到7点)相应的第三用户唤醒词1217。
图12B示出根据位置状况信息控制用户唤醒词的示例。
参照图12B,第四情况1250与将用户唤醒词1253、用户唤醒词1255、用户唤醒词1257存储在电子装置200的存储器中的示例相应。电子装置200可将与位置信息相应的用户唤醒词1253、用户唤醒词1255、用户唤醒词1257存储在存储器中。当位置状况信息与第一位置状况信息(例如,家)相应时,可启用第一用户唤醒词1253。当位置状况信息与第二位置状况信息(例如,办公室)相应时,可启用第二用户唤醒词1255。当位置状况信息与第三位置状况信息(例如,移动)相应时,可启用第三用户唤醒词1257。虽然图12B示出第一位置状况信息至第三位置状况信息是“家”、“办公室”和“移动”,但是第一位置状况信息至第三位置状况信息可以是位置坐标信息(例如,纬度和经度)或区域信息(例如,首尔江南区论岘洞和京畿道水原市长安区)。附图中的位置信息仅用于帮助理解本公开,并且本公开不限于详细的描述或附图。在第四情况1250中,当用户1200的讲话包括主唤醒词时,电子装置200可提供语音识别服务。
第五情况1260与根据当前位置状况启用用户唤醒词的示例相应。电子装置200可基于从通信单元实时或周期性地获取的位置信息来掌握当前位置。当根据时间存在微小的位置变化或没有位置变化持续了预定时间(例如,10分钟或30分钟)时,电子装置200可确定当前位置是“家”或“办公室”。可选地,当根据时间检测到位置变化时,电子装置200可确定当前位置是“移动”。
当当前位置是“家”(例如,京畿道水原市长安区)时,电子装置200可启用与第一位置状况信息(例如,家)相应的第一用户唤醒词1263。当用户1200的讲话包括主唤醒词或第一用户唤醒词1263时,电子装置200可提供语音识别服务。电子装置200可禁用与第二位置状况信息(例如,办公室)相应的第二用户唤醒词1255和与第三位置状况信息(例如,移动)相应的第三用户唤醒词1257。
第六情况1270与根据当前位置状况启用用户唤醒词的示例相应。当当前位置是“办公室”(例如,首尔江南区论岘洞)时,电子装置200可启用与第二位置状况信息(例如,办公室)相应的第二用户唤醒词1273。当用户1200的讲话包括主唤醒词或第二用户唤醒词1273时,电子装置200可提供语音识别服务。电子装置200可禁用与第一位置状况信息(例如,家)相应的第一用户唤醒词1253和与第三位置状况信息(例如,移动)相应的第三用户唤醒词1257。
当当前状况与时间状况信息和位置状况信息两者相应时,电子装置200的处理器可向位置状况信息分配优先级,并且仅启用与位置状况信息相应的用户唤醒词。相反,处理器可向时间状况信息分配优先级,并且仅启用与时间状况信息相应的用户唤醒词。可选地,处理器可仅启用与位置状况信息和时间状况信息两者相应的用户唤醒词。可选地,处理器可基于用户的使用历史将不同的权值分配给位置状况信息和时间状况信息,启用与具有高权值的状况信息(例如,位置状况信息)相应的所有的用户唤醒词,并且仅启用针对具有低权值的状况信息(例如,时间条件信息)的预定数量的用户唤醒词。可根据电子装置200的设置或用户的设置来改变当状况信息重叠时启用用户唤醒词的操作。然而,这仅仅是电子装置200的实现问题,并且本公开不限于详细描述和附图。
根据实施例,操作电子装置的方法可包括以下步骤:响应于用户输入激活语音识别服务,处理针对通过激活的语音识别服务输入的语音信息的任务,通过分析语音信息来注册至少一个用户唤醒词;并且响应于检测到至少一个用户唤醒词,激活语音识别服务。
注册至少一个用户唤醒词的步骤可包括:从语音信息提取文本信息,从文本信息获取至少一个词,并将获取的词注册为用户唤醒词。
所述方法还可包括:在语音识别服务被停用的状态下检测语音,确定输入的语音是否包括主唤醒词,并且当输入的语音包括主唤醒词时,对注册的用户唤醒词进行初始化。
根据实施例,计算机可读记录介质可包括执行以下操作的程序:响应于用户输入激活语音识别服务的操作;处理针对通过激活的语音识别服务输入的语音信息的任务的操作;通过分析语音信息来注册至少一个用户唤醒词的操作;以及响应于检测到至少一个用户唤醒词激活语音识别服务的操作。
虽然已参照本公开的特定实施例示出和描述了本公开,但是本领域技术人员将理解的是,在不脱离本公开的范围的情况下,可对其进行形式和细节上的各种改变。因此,本公开的范围不应被限定为限于实施例,而是应由所附权利要求及其等同物限定。
Claims (20)
1.一种电子装置,包括:
扬声器;
麦克风;
通信接口;
至少一个处理器,电连接到扬声器、麦克风和通信接口;和
存储器,电连接到处理器,
其中,存储器存储指令,所述指令被配置为:当被执行时,促使处理器:
响应于接收到指定的用户输入,激活语音识别服务,
在激活语音识别服务的情况下接收语音命令;
针对所述语音命令提供反馈;
在提供反馈之后停用语音识别服务;
在停用语音识别服务的情况下接收与所述指定的用户输入不同的语音信号,
响应于接收到所述语音信号,识别所述语音信号的至少一部分是否与从所述语音命令获得的唤醒命令相应,并且
响应于识别出所述语音信号的所述至少一部分与唤醒命令相应,激活语音识别服务。
2.如权利要求1所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:
从所述语音命令提取文本信息,
从所述文本信息获取至少一个词,
并将获取的词注册为唤醒命令。
3.如权利要求2所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:
从所述文本信息获取至少一个第一词,
获取与所述至少一个第一词有关的至少一个第二词,并且
将所述至少一个第一词或所述至少一个第二词注册为唤醒命令,其中,所述至少一个第二词包括所述至少一个第一词的同义词。
4.如权利要求3所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:
基于所述至少一个第一词和所述至少一个第二词获取至少一个第三词,并且
将所述至少一个第三词注册为唤醒命令。
5.如权利要求1所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:在针对所述语音命令提供反馈之后对激活待机时间计数,并且当在激活待机时间期间未检测到语音时,停用语音识别服务。
6.如权利要求1所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:确定所述语音信号是否包括所述指定的用户输入,并且如果所述语音信号包括所述指定的用户输入,则删除获得的唤醒命令。
7.如权利要求1所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:通过使用电子装置的相机或麦克风检测多个用户位于距电子装置的预定区域内,
基于所述多个用户,确定是启用还是禁用从所述语音命令获得的唤醒命令。
8.如权利要求7所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:如果讲话者的数量不等于一,则禁用用于激活语音识别服务的唤醒命令。
9.如权利要求1所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:确定当前状况是否与状况信息相应,并且当当前状况与所述状况信息相应时,启用与所述状况信息相应的至少一个唤醒命令。
10.如权利要求9所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:确定所述状况信息是否期满,并且当所述状况信息期满时,禁用与所述状况信息相应的至少一个唤醒命令。
11.如权利要求1所述的电子装置,其中,所述指定的用户输入包括指定的词的声音信号、指定的触摸和指定的按钮中的至少一个。
12.如权利要求1所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:在针对所述语音命令提供反馈之后显示用于控制唤醒命令的用户界面。
13.如权利要求1所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:在语音识别服务被激活的情况下,根据讲话者识别使用唤醒命令来控制语音识别服务。
14.一种电子装置,包括:
扬声器;
麦克风;
通信接口;
至少一个处理器,电连接到扬声器、麦克风或通信接口;和
存储器,电连接到所述至少一个处理器,
其中,存储器存储指令,所述指令被配置为:当被执行时,促使处理器:
通过麦克风接收至少一个主唤醒词,
响应于接收到的主唤醒词,激活从外部服务器提供的语音识别功能或在电子装置中实现的语音识别功能,
通过麦克风接收用户的包括至少一个用户唤醒词的讲话,并且
在没有主唤醒词的情况下,响应于接收到的用户唤醒词,激活语音识别功能。
15.如权利要求14所述的电子装置,其中,所述至少一个主唤醒词包括与电子装置有关的名称或标题。
16.如权利要求14所述的电子装置,其中,所述至少一个用户唤醒词包括由用户选择的名称或标题。
17.如权利要求14所述的电子装置,其中,所述指令还被配置为:当被执行时,促使处理器:仅在设定的时间段期间,响应于接收到的用户唤醒词,激活语音识别功能。
18.如权利要求14所述的电子装置,其中,所述至少一个处理器包括与辅处理器相应的第一处理器和与主处理器相应的第二处理器,并且
其中,第一处理器被配置为在第二处理器处于用于停用语音识别服务的睡眠模式的情况下,通过控制扬声器、麦克风和存储器中的至少一个来接收语音信号。
19.如权利要求14所述的电子装置,其中,所述至少一个处理器包括与辅处理器相应的第一处理器和与主处理器相应的第二处理器,并且
其中,第一处理器被配置为在第二处理器处于用于停用语音识别服务的睡眠模式的情况下,通过控制扬声器、麦克风和存储器中的至少一个来接收语音信号。
20.一种电子装置,包括:
扬声器;
麦克风;
通信接口;
处理器,电连接到扬声器、麦克风或通信接口;和
存储器,电连接到处理器,
其中,存储器存储指令,所述指令被配置为:当被执行时,促使处理器:
响应于在禁用语音识别服务的状态下接收到第一语音信号,启用语音识别服务,其中,第一语音信号与用于启用语音识别服务的指定的用户输入不同并且与在接收到所述指定的用户输入之后先前已接收的语音命令相应;并且
响应于在所述状态下接收到第二语音信号,保持禁用语音识别服务,其中,第二语音信号与用于启用语音识别服务的所述指定的用户输入不同并且与在接收到所述指定的用户输入之后先前已接收的语音命令不同。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170107963A KR102411766B1 (ko) | 2017-08-25 | 2017-08-25 | 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치 |
KR10-2017-0107963 | 2017-08-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109427333A true CN109427333A (zh) | 2019-03-05 |
CN109427333B CN109427333B (zh) | 2024-04-16 |
Family
ID=63490205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810979837.3A Active CN109427333B (zh) | 2017-08-25 | 2018-08-27 | 激活语音识别服务的方法和用于实现所述方法的电子装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10692495B2 (zh) |
EP (1) | EP3447764B1 (zh) |
KR (1) | KR102411766B1 (zh) |
CN (1) | CN109427333B (zh) |
WO (1) | WO2019039915A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110012166A (zh) * | 2019-03-31 | 2019-07-12 | 联想(北京)有限公司 | 一种信息处理方法及装置 |
CN111660955A (zh) * | 2019-03-07 | 2020-09-15 | 本田技研工业株式会社 | 车载智能体系统、车载智能体系统的控制方法及存储介质 |
CN111660966A (zh) * | 2019-03-07 | 2020-09-15 | 本田技研工业株式会社 | 智能体装置、智能体装置的控制方法及存储介质 |
US20200402514A1 (en) * | 2019-06-21 | 2020-12-24 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech chip and electronic device |
CN112201239A (zh) * | 2020-09-25 | 2021-01-08 | 海尔优家智能科技(北京)有限公司 | 目标设备的确定方法及装置、存储介质、电子装置 |
CN112432662A (zh) * | 2019-08-26 | 2021-03-02 | 苹果公司 | 用于检测个体健康相关事件的方法和装置 |
CN112835413A (zh) * | 2019-11-25 | 2021-05-25 | Oppo广东移动通信有限公司 | 可穿戴设备的控制方法和装置、电子设备 |
CN113096651A (zh) * | 2020-01-07 | 2021-07-09 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、可读存储介质及电子设备 |
CN113490576A (zh) * | 2019-05-23 | 2021-10-08 | 三星电子株式会社 | 用于提供与针对壳体的输入相应的反馈的电子装置 |
CN112835413B (zh) * | 2019-11-25 | 2024-05-31 | Oppo广东移动通信有限公司 | 可穿戴设备的控制方法和装置、电子设备 |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US11348595B2 (en) | 2017-01-04 | 2022-05-31 | Blackberry Limited | Voice interface and vocal entertainment system |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US20190130898A1 (en) * | 2017-11-02 | 2019-05-02 | GM Global Technology Operations LLC | Wake-up-word detection |
CN107895573B (zh) * | 2017-11-15 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 用于识别信息的方法及装置 |
KR102361458B1 (ko) * | 2018-01-25 | 2022-02-10 | 삼성전자주식회사 | 사용자 발화 응답 방법 및 이를 지원하는 전자 장치 |
US10789940B2 (en) * | 2018-03-27 | 2020-09-29 | Lenovo (Singapore) Pte. Ltd. | Dynamic wake word identification |
CN108600911B (zh) | 2018-03-30 | 2021-05-18 | 联想(北京)有限公司 | 一种输出方法及电子设备 |
WO2020017166A1 (ja) * | 2018-07-20 | 2020-01-23 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
US11289097B2 (en) * | 2018-08-28 | 2022-03-29 | Dell Products L.P. | Information handling systems and methods for accurately identifying an active speaker in a communication session |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11597086B2 (en) | 2018-09-13 | 2023-03-07 | The Charles Stark Draper Laboratory, Inc. | Food-safe, washable interface for exchanging tools |
JP7202853B2 (ja) * | 2018-11-08 | 2023-01-12 | シャープ株式会社 | 冷蔵庫 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11211061B2 (en) * | 2019-01-07 | 2021-12-28 | 2236008 Ontario Inc. | Voice control in a multi-talker and multimedia environment |
TW202029181A (zh) * | 2019-01-28 | 2020-08-01 | 正崴精密工業股份有限公司 | 語音識別用於特定目標喚醒的方法及裝置 |
US10964324B2 (en) * | 2019-04-26 | 2021-03-30 | Rovi Guides, Inc. | Systems and methods for enabling topic-based verbal interaction with a virtual assistant |
EP3759709A1 (en) * | 2019-05-06 | 2021-01-06 | Google LLC | Selectively activating on-device speech recognition, and using recognized text in selectively activating on-device nlu and/or on-device fulfillment |
WO2020226213A1 (ko) * | 2019-05-09 | 2020-11-12 | 엘지전자 주식회사 | 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법 |
CN115482806A (zh) * | 2019-06-06 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 语音处理系统、方法、装置、存储介质和计算机设备 |
KR20200144366A (ko) | 2019-06-18 | 2020-12-29 | 엘지전자 주식회사 | 로봇을 위한 기동어 인식 모델의 생성 |
KR102246936B1 (ko) | 2019-06-20 | 2021-04-29 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
KR102246661B1 (ko) * | 2019-06-25 | 2021-05-03 | 엘지전자 주식회사 | 음성 인에이블 디바이스 선택 방법 및 장치 |
EP3792914A3 (en) * | 2019-09-12 | 2021-05-05 | Orcam Technologies Ltd. | Wearable apparatus and methods for processing audio signals |
CN110989963B (zh) * | 2019-11-22 | 2023-08-01 | 北京梧桐车联科技有限责任公司 | 唤醒词推荐方法及装置、存储介质 |
US11295741B2 (en) | 2019-12-05 | 2022-04-05 | Soundhound, Inc. | Dynamic wakewords for speech-enabled devices |
WO2021118269A1 (en) * | 2019-12-12 | 2021-06-17 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling electronic device |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
KR20210089347A (ko) * | 2020-01-08 | 2021-07-16 | 엘지전자 주식회사 | 음성 인식 장치 및 음성데이터를 학습하는 방법 |
JP7482640B2 (ja) * | 2020-02-05 | 2024-05-14 | キヤノン株式会社 | 音声入力装置およびその制御方法ならびにプログラム |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11321048B2 (en) | 2020-02-25 | 2022-05-03 | Motorola Solutions, Inc. | Method and apparatus for temporary hands-free voice interaction |
US11862168B1 (en) * | 2020-03-30 | 2024-01-02 | Amazon Technologies, Inc. | Speaker disambiguation and transcription from multiple audio feeds |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US20220084504A1 (en) * | 2020-09-11 | 2022-03-17 | International Business Machines Corporation | Artificial intelligence voice response system for speech impaired users |
US20220139379A1 (en) * | 2020-11-02 | 2022-05-05 | Aondevices, Inc. | Wake word method to prolong the conversational state between human and a machine in edge devices |
US11955112B1 (en) * | 2021-01-18 | 2024-04-09 | Amazon Technologies, Inc. | Cross-assistant command processing |
US11776550B2 (en) * | 2021-03-09 | 2023-10-03 | Qualcomm Incorporated | Device operation based on dynamic classifier |
CN113160821A (zh) * | 2021-04-30 | 2021-07-23 | 中天智领(北京)科技有限公司 | 一种基于语音识别的控制方法及装置 |
CN113568318A (zh) * | 2021-05-31 | 2021-10-29 | 舌尖科技(北京)有限公司 | 一种多功能舱及相应计算机可读存储介质 |
US11893989B2 (en) * | 2021-07-13 | 2024-02-06 | Snap Inc. | Voice-controlled settings and navigation |
US20230099144A1 (en) * | 2021-09-30 | 2023-03-30 | Sonos, Inc. | Enabling and Disabling Microphones and Voice Assistants |
WO2023132574A1 (ko) * | 2022-01-10 | 2023-07-13 | 엘지전자 주식회사 | 인공 지능 기기 |
KR20240048966A (ko) * | 2022-10-07 | 2024-04-16 | 엘지전자 주식회사 | 인공지능 기기 및 그의 동작 방법 |
CN117198287A (zh) * | 2023-08-30 | 2023-12-08 | 南京汇智互娱网络科技有限公司 | 一种用于智能体的人机交互的语音识别系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130132095A1 (en) * | 2011-11-17 | 2013-05-23 | Microsoft Corporation | Audio pattern matching for device activation |
US20130325484A1 (en) * | 2012-05-29 | 2013-12-05 | Samsung Electronics Co., Ltd. | Method and apparatus for executing voice command in electronic device |
WO2014084413A1 (ko) * | 2012-11-28 | 2014-06-05 | 엘지전자 주식회사 | 가전 기기 구동 장치 및 방법 |
US20140358535A1 (en) * | 2013-05-28 | 2014-12-04 | Samsung Electronics Co., Ltd. | Method of executing voice recognition of electronic device and electronic device using the same |
US8924219B1 (en) * | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US9368105B1 (en) * | 2014-06-26 | 2016-06-14 | Amazon Technologies, Inc. | Preventing false wake word detections with a voice-controlled device |
US9542941B1 (en) * | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
CN107025906A (zh) * | 2015-12-09 | 2017-08-08 | 联想(新加坡)私人有限公司 | 扩展语音识别的周期的方法和产品以及信息处理设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100657059B1 (ko) * | 2004-07-19 | 2006-12-13 | 삼성전자주식회사 | 음성인식구동방법 |
US8099287B2 (en) * | 2006-12-05 | 2012-01-17 | Nuance Communications, Inc. | Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands |
EP2531999A4 (en) * | 2010-02-05 | 2017-03-29 | Nuance Communications, Inc. | Language context sensitive command system and method |
KR101754686B1 (ko) * | 2010-07-23 | 2017-07-06 | 엘지전자 주식회사 | 음성인식 공기조화기 및 그 제어방법 |
US10304465B2 (en) * | 2012-10-30 | 2019-05-28 | Google Technology Holdings LLC | Voice control user interface for low power mode |
KR20140073889A (ko) | 2012-12-07 | 2014-06-17 | 현대자동차주식회사 | 대화형 음성인식을 위한 호출어 버퍼링 및 필링 인터페이스 |
KR20140089871A (ko) * | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 대화형 서버, 그 제어 방법 및 대화형 시스템 |
KR102394485B1 (ko) * | 2013-08-26 | 2022-05-06 | 삼성전자주식회사 | 음성 인식을 위한 전자 장치 및 방법 |
US9245527B2 (en) * | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US9147397B2 (en) * | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
TWI525532B (zh) * | 2015-03-30 | 2016-03-11 | Yu-Wei Chen | Set the name of the person to wake up the name for voice manipulation |
US9472196B1 (en) * | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
US10210863B2 (en) * | 2016-11-02 | 2019-02-19 | Roku, Inc. | Reception of audio commands |
-
2017
- 2017-08-25 KR KR1020170107963A patent/KR102411766B1/ko active IP Right Grant
-
2018
- 2018-08-24 WO PCT/KR2018/009821 patent/WO2019039915A1/en active Application Filing
- 2018-08-24 EP EP18190758.5A patent/EP3447764B1/en active Active
- 2018-08-27 US US16/113,602 patent/US10692495B2/en active Active
- 2018-08-27 CN CN201810979837.3A patent/CN109427333B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8924219B1 (en) * | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US20130132095A1 (en) * | 2011-11-17 | 2013-05-23 | Microsoft Corporation | Audio pattern matching for device activation |
US20130325484A1 (en) * | 2012-05-29 | 2013-12-05 | Samsung Electronics Co., Ltd. | Method and apparatus for executing voice command in electronic device |
CN106297802A (zh) * | 2012-05-29 | 2017-01-04 | 三星电子株式会社 | 用于在电子装置中执行语音命令的方法和设备 |
WO2014084413A1 (ko) * | 2012-11-28 | 2014-06-05 | 엘지전자 주식회사 | 가전 기기 구동 장치 및 방법 |
US20140358535A1 (en) * | 2013-05-28 | 2014-12-04 | Samsung Electronics Co., Ltd. | Method of executing voice recognition of electronic device and electronic device using the same |
US9368105B1 (en) * | 2014-06-26 | 2016-06-14 | Amazon Technologies, Inc. | Preventing false wake word detections with a voice-controlled device |
US9542941B1 (en) * | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
CN107085510A (zh) * | 2015-10-01 | 2017-08-22 | 联想(新加坡)私人有限公司 | 情境性暂停用于启动语音命令输入的唤醒词 |
CN107025906A (zh) * | 2015-12-09 | 2017-08-08 | 联想(新加坡)私人有限公司 | 扩展语音识别的周期的方法和产品以及信息处理设备 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111660955A (zh) * | 2019-03-07 | 2020-09-15 | 本田技研工业株式会社 | 车载智能体系统、车载智能体系统的控制方法及存储介质 |
CN111660966A (zh) * | 2019-03-07 | 2020-09-15 | 本田技研工业株式会社 | 智能体装置、智能体装置的控制方法及存储介质 |
CN110012166A (zh) * | 2019-03-31 | 2019-07-12 | 联想(北京)有限公司 | 一种信息处理方法及装置 |
CN113490576A (zh) * | 2019-05-23 | 2021-10-08 | 三星电子株式会社 | 用于提供与针对壳体的输入相应的反馈的电子装置 |
US20200402514A1 (en) * | 2019-06-21 | 2020-12-24 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech chip and electronic device |
CN112432662A (zh) * | 2019-08-26 | 2021-03-02 | 苹果公司 | 用于检测个体健康相关事件的方法和装置 |
US11639944B2 (en) | 2019-08-26 | 2023-05-02 | Apple Inc. | Methods and apparatus for detecting individual health related events |
CN112432662B (zh) * | 2019-08-26 | 2024-02-13 | 苹果公司 | 用于检测个体健康相关事件的方法和装置 |
CN112835413A (zh) * | 2019-11-25 | 2021-05-25 | Oppo广东移动通信有限公司 | 可穿戴设备的控制方法和装置、电子设备 |
WO2021103971A1 (zh) * | 2019-11-25 | 2021-06-03 | Oppo广东移动通信有限公司 | 可穿戴设备的控制方法和装置、电子设备 |
CN112835413B (zh) * | 2019-11-25 | 2024-05-31 | Oppo广东移动通信有限公司 | 可穿戴设备的控制方法和装置、电子设备 |
CN113096651A (zh) * | 2020-01-07 | 2021-07-09 | 北京地平线机器人技术研发有限公司 | 语音信号处理方法、装置、可读存储介质及电子设备 |
CN112201239A (zh) * | 2020-09-25 | 2021-01-08 | 海尔优家智能科技(北京)有限公司 | 目标设备的确定方法及装置、存储介质、电子装置 |
CN112201239B (zh) * | 2020-09-25 | 2024-05-24 | 海尔优家智能科技(北京)有限公司 | 目标设备的确定方法及装置、存储介质、电子装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019039915A1 (en) | 2019-02-28 |
US20190066680A1 (en) | 2019-02-28 |
KR20190022109A (ko) | 2019-03-06 |
US10692495B2 (en) | 2020-06-23 |
CN109427333B (zh) | 2024-04-16 |
KR102411766B1 (ko) | 2022-06-22 |
EP3447764A1 (en) | 2019-02-27 |
EP3447764B1 (en) | 2021-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109427333A (zh) | 激活语音识别服务的方法和用于实现所述方法的电子装置 | |
US11582337B2 (en) | Electronic device and method of executing function of electronic device | |
CN110199350B (zh) | 用于感测语音结束的方法和实现该方法的电子设备 | |
US10909982B2 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
US10778830B2 (en) | Electronic device and method for performing task using external device by electronic device | |
KR102558437B1 (ko) | 질의 응답 처리 방법 및 이를 지원하는 전자 장치 | |
CN108121490A (zh) | 用于处理多模式输入的电子装置、方法和服务器 | |
US11042703B2 (en) | Method and device for generating natural language expression by using framework | |
CN108494947B (zh) | 一种图像分享方法及移动终端 | |
CN108735204A (zh) | 用于执行与用户话语相对应的任务的设备 | |
US11631406B2 (en) | Method for responding to user utterance and electronic device for supporting same | |
KR102343084B1 (ko) | 전자 장치 및 전자 장치의 기능 실행 방법 | |
CN109474658A (zh) | 用外部设备支持任务运行的电子设备、服务器和记录介质 | |
US11495223B2 (en) | Electronic device for executing application by using phoneme information included in audio data and operation method therefor | |
KR20180081922A (ko) | 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 | |
KR20190032026A (ko) | 자연어 표현 제공 방법 및 이를 지원하는 전자 장치 | |
US20210264905A1 (en) | Electronic device and control method therefor | |
US20190163436A1 (en) | Electronic device and method for controlling the same | |
CN112219235A (zh) | 包括处理用户语音的电子设备和控制电子设备上语音识别的方法的系统 | |
US11817097B2 (en) | Electronic apparatus and assistant service providing method thereof | |
US11416213B2 (en) | Electronic device for obtaining and entering lacking parameter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |