CN113168827A - 终端设备及其控制方法 - Google Patents
终端设备及其控制方法 Download PDFInfo
- Publication number
- CN113168827A CN113168827A CN201980076825.2A CN201980076825A CN113168827A CN 113168827 A CN113168827 A CN 113168827A CN 201980076825 A CN201980076825 A CN 201980076825A CN 113168827 A CN113168827 A CN 113168827A
- Authority
- CN
- China
- Prior art keywords
- terminal device
- sound wave
- terminal
- voice recognition
- terminal devices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 50
- 238000004891 communication Methods 0.000 claims abstract description 50
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 230000033001 locomotion Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000010255 response to auditory stimulus Effects 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
提供了一种终端设备。终端设备包括通信接口和处理器。处理器配置为:从一个或多个其它终端设备中的每个接收一个或多个其它终端设备的性能信息;基于从一个或多个其它终端设备中的每个接收的性能信息,识别出执行语音识别的边缘设备;基于终端设备被识别为边缘设备,从接收到包括触发词的声波的一个或多个其它终端设备接收与接收质量相关联的信息;基于所接收的与接收质量相关联的信息,确定获取用于语音识别的声波的终端设备;以及向所确定的终端设备发送命令,以将所获取的用于语音识别的声波发送到外部语音识别设备。
Description
技术领域
本公开涉及一种终端设备及其控制方法。更具体地,本公开涉及一种用于从多个终端设备中确定获取用户产生的用于识别语音的声波的设备的终端设备及其控制方法。
背景技术
近年来,实现人类智能的人工智能(AI)系统已应用于各种领域。与传统的基于规则的智能系统不同,AI系统是一种机器学习、判断并变得智能的系统。随着AI系统的应用提高了识别率,可更准确地执行对用户偏好的理解或预测。因此,传统的基于规则的智能系统逐渐被基于深度学习的AI系统所取代。
AI技术由机器学习(例如,深度学习)和利用机器学习的基本技术组成。
机器学习是一种能够在不需要额外的信息或干预的情况下对输入数据的特征进行分类或学习的算法技术。基本技术是一种利用机器学习算法(诸如,深度学习)来模拟人脑的识别和判断等功能的技术。机器学习依赖于诸如语言理解、视觉理解、推理、预测、知识表示、运动控制等许多技术领域。
应用AI技术的各种领域包括例如,语言理解、视觉理解、推理预测、知识表示和运动控制。语言理解是用于识别、应用和/或处理人类语言或字符的技术,并且包括自然语言处理、机器翻译、对话系统、问答、语音识别或合成等。视觉理解是用于识别和处理作为人类视觉的对象的技术,包括对象识别、对象跟踪、图像搜索、人体识别、场景理解、空间理解、图像增强等。推理预测是一种对信息进行判断和逻辑推理和预测的技术,包括基于知识和基于概率的推理、优化预测、基于偏好的规划和推荐。知识表示是一种将人类体验信息自动处理为知识数据的技术,包括知识构建(数据产生或分类)和知识管理(数据利用)。运动控制是用于控制车辆的自动行驶和机器人运动的技术,包括运动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。
发明内容
[技术问题]
与此同时,近年来,已经提供了使用AI代理(例如BixbyTM、AssistantTM、AlexaTM等)来对用户的语音输入提供响应的各种服务。然而,当存在多个设备包括设置在较小地理区域内的人工智能代理时,会产生混淆使得接收用户的语音的多个设备提供响应。
上述信息仅作为背景信息来呈现,以帮助理解本公开。至于上述任何内容是否适用于关于本公开的现有技术,没有做出确定,也没有做出断言。
[技术方案]
本公开的方面将至少解决上述问题和/或缺点,并至少提供下述优点。因此,本公开的一方面将提供一种电子设备及其控制方法,其考虑性能信息和语音接收质量信息中的至少一个,从多个终端设备中确定获取用户产生的用于识别语音的声波的设备。
本公开的另一方面将提供一种包括通信电路的通信接口和处理器。该处理器配置为:通过通信接口从一个或多个其它终端设备中的每个接收一个或多个其它终端设备的性能信息;基于从一个或多个其它终端设备中的每个接收的性能信息,从终端设备和一个或多个其它终端设备中识别出要执行语音识别的边缘设备;基于终端设备被识别为边缘设备,从发送性能信息的一个或多个其它终端设备中的接收到包括触发词的声波的一个或多个其它终端设备接收与接收质量相关联的信息;基于所接收的与接收质量相关联的信息,从接收声波的一个或多个其它终端设备中确定获取用于语音识别的声波的终端设备;以及向所确定的终端设备发送命令,以将所获取的用于语音识别的声波发送到外部语音识别设备。
另外的方面将部分地在随后的描述中阐述,并且部分地将从描述中显而易见,或者可通过所呈现的实施方式的实践来获知。
从一个或多个其它终端设备中的每个接收的性能信息包括:基于一个或多个其它终端设备的性能获取的第一得分,以及从接收声波的一个或多个其它终端设备接收的与接收质量相关联的信息可包括:表示与由一个或多个终端设备接收的声波相关联的接收质量的第二得分。
处理器可从接收声波的一个或多个其它终端设备中,将具有最高第二得分值的终端设备确定为获取用于语音识别的声波的终端设备。
根据本公开的一方面,提供了一种终端设备,该终端设备还可包括麦克风和处理器。该处理器:基于在麦克风处接收到包括触发词的声波,基于声波的至少部分获取终端设备的第二得分;将终端设备和接收声波的一个或多个其它终端设备中的具有最高第二得分的终端设备确定为获取用于语音识别的声波的终端设备;以及基于终端设备被确定为获取声波的终端设备,获取在触发词之后接收的部分声波;以及将所获取的部分声波发送到外部语音识别设备。
与接收质量有关的信息可基于以下至少一个获取:信噪比(SNR)、所接收的声波的音量、所接收的声波的音量的变化率、声压、以及与声波的源的距离。
性能信息可基于以下至少一个获取:连接的其它终端设备的数量、可用通信网络的类型的数量、与服务器的连接方法、电力供应方法、处理性能、存储性能、以及位置移动状态。
处理器可基于所确定的终端设备的第二得分小于预设值,将接收声波的一个或多个其它终端设备中的具有最高第二得分值的终端设备改变为获取用于语音识别的声波的终端设备。
从一个或多个其它终端设备中的每个接收的第一得分和第二得分中的至少一个可包括:与一个或多个其它终端设备通信且不与终端设备通信的终端设备的第一得分和第二得分中的至少一个的信息。
根据本公开的另一方面,提供了一种终端设备。该终端设备还可包括存储器,该存储器包括语音识别模块。该处理器可基于从所确定的终端设备接收到声波,使用语音识别模块对声波执行语音识别,并将语音识别的结果发送到外部服务器;以及外部服务器可基于语音识别结果,从终端设备和一个或多个其它终端设备中确定要执行与语音识别结果对应的操作的终端设备,并向终端设备发送与语音识别结果对应的操作执行命令以执行操作。
根据本公开的另一方面,提供了一种终端设备。该终端设备还可包括麦克风以及处理器。该处理器可:基于终端设备的第一得分小于一个或多个其它终端设备的第一得分,从一个或多个其它终端设备中确定具有最高第一得分的其它终端设备作为边缘设备;基于在麦克风处接收到包括触发词的声波,基于声波的至少部分获取与接收质量相关联的信息;以及将所获取的与接收质量有关的信息发送到所确定的边缘设备。
处理器可基于终端设备的第二得分小于预设值,不将第二得分发送到所确定的边缘设备。
根据本公开的一方面,提供了一种控制终端设备的方法。该方法包括:从一个或多个其它终端设备中的每个接收与一个或多个其它终端设备的性能信息有关的信息;基于从一个或多个其它终端设备中的每个接收的性能信息,从终端设备和一个或多个其它终端设备中识别出用于确定要执行语音识别的终端的边缘设备;基于终端设备被识别为边缘设备,从发送性能信息的一个或多个其它终端设备中的接收到包括触发词的声波的一个或多个其它终端设备接收与接收质量相关联的信息;基于所接收的与接收质量相关联的信息,从接收声波的一个或多个其它终端设备中确定获取用于语音识别的声波的终端设备;以及向所确定的终端设备发送命令,以将所获取的用于语音识别的声波发送到外部语音识别设备。
从一个或多个其它终端设备中的每个接收的性能信息可包括:基于其它终端设备的性能获取的第一得分;以及从接收声波的一个或多个其它终端设备接收的与接收质量相关联的信息可包括:表示与由一个或多个其它终端设备接收的声波相关联的接收质量的第二得分。
确定终端设备可包括:从接收声波的一个或多个其它终端设备中确定具有最高第二得分值的终端设备,作为获取用于语音识别的声波的终端设备。
确定终端设备可包括:基于在麦克风处接收到包括触发词的声波,基于声波的至少部分获取终端设备的第二得分;将终端设备和接收声波的一个或多个其它终端设备中的具有最高第二得分的终端设备确定为获取用于语音识别的声波的终端设备;基于终端设备被确定为获取声波的终端设备,获取在触发词之后接收的部分声波,以及将所获取的部分声波发送到外部语音识别设备。
与接收质量有关的信息可基于以下至少一个获取:SNR、所接收的声波的音量、所接收的声波的音量的变化率、声压、以及与声波的源的距离。
性能信息可基于以下至少一个获取:连接的其它终端设备的数量、可用通信网络的类型的数量、与服务器的连接方法、电力供应方法、处理性能、存储性能、以及位置移动状态。
根据本公开的一方面,提供了一种控制方法,该方法包括:基于所确定的终端设备的第二得分小于预设值,将接收声波的一个或多个其它终端设备中的具有最高第二得分值的终端设备改变为获取用于语音识别的声波的终端设备。
从一个或多个其它终端设备中的每个接收的第一得分和第二得分中的至少一个可包括:与一个或多个其它终端设备通信且不与终端设备通信的终端设备的第一得分和第二得分中的至少一个的信息。
根据本公开的一方面,提供了一种控制方法。该方法包括:基于从所确定的终端设备接收到声波,使用存储在存储器中的语音识别模块对所接收的声波执行语音识别,并将语音识别的结果发送到外部服务器;以及外部服务器可基于语音识别结果,从终端设备和一个或多个其它终端设备中确定要执行与语音识别结果对应的操作的终端设备,并向终端设备发送与语音识别结果对应的操作执行命令以执行操作。
通过下面结合附图公开了本公开的各种实施方式的详细描述,对于本领域技术人员,本公开的其它方面、优点和显著特征将变得显而易见。
附图说明
通过以下结合附图的描述,本公开的某些实施方式的上述和其它方面、特征和优点将变得更加显而易见,在附图中:
图1示出了根据本公开的实施方式的语音识别系统;
图2是示出根据本公开的实施方式的终端设备的配置的框图;
图3是示出根据本公开的实施方式的图2的终端设备的详细配置的框图;
图4示出根据本公开的实施方式的用于在多个终端设备之间共享性能信息的方法;
图5示出根据本公开的实施方式的用于在多个终端设备之间共享性能信息的方法;
图6示出根据本公开的实施方式的用于在多个终端设备之间共享性能信息的方法;
图7示出根据本公开的实施方式的用于从接收包括触发词或触发短语的语音的终端设备中确定要执行语音识别的终端设备的实施方式;
图8示出根据本公开的实施方式的由服务器执行语音识别的各种实施方式;
图9示出根据本公开的实施方式的由服务器执行语音识别的各种实施方式;
图10示出根据本公开的实施方式的由边缘设备确定的终端设备执行语音识别的实施方式;
图11示出根据本公开的实施方式的由边缘设备执行语音识别的实施方式;
图12示出根据本公开的实施方式的由边缘设备执行语音识别的实施方式;
图13示出根据本公开的实施方式的、当用户在移动时发出语音时改变接收用于语音识别的声波的设备的实施方式;
图14是示出根据本公开的实施方式的终端设备的控制方法的流程图;以及
图15是示出根据本公开的实施方式的语音识别系统的具体操作的顺序图。
在所有附图中,相同的附图标记将被理解为表示相同的部件、组件和结构。
具体实施方式
提供以下参考附图的描述以帮助全面理解如由权利要求书及其等效方式限定的本公开的各种实施方式。该描述包括各种具体细节以帮助理解,但是这些仅被认为是示例性的。因此,本领域的普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可对本文描述的各种实施方式进行各种改变和修改。另外,为了清楚和简洁起见,可省略对公知的功能和结构的描述。
在以下描述和权利要求中使用的术语和词不限于书面含义,而是仅由发明人使用使得能够清楚和一致地理解本公开。因此,本领域的技术人员应清楚,提供本公开的各种实施方式的以下描述仅仅是出于说明的目的,而不是出于限制由所附权利要求及其等同物限定的公开的目的。
应理解的是,除非上下文另有明确规定,单数形式“一”、“一种”和“该”包括复数指示物。因此,例如提及“组件表面”包括提及一个或多个这种表面。
由于实施方式可具有多种修改和几个示例,因而某些实施方式将在附图中进行示例并在其描述中进行详细描述。然而,不必将实施方式的范围限制为特定的实施方式形式。相反,可采用本说明书的公开概念和技术范围中包括的修改、等同形式和形式。在描述实施方式的同时,如果确定关于已知技术的具体描述使本公开的主旨不清楚,则省略具体描述。
在本公开中,诸如第一和第二等的关系术语可用于将一个实体与另一实体区分开,而不必暗示这些实体之间的任何实际关系或顺序。在本公开的实施方式中,诸如第一和第二等的关系术语可用于将一个实体与另一实体区分开,而不必暗示这些实体之间的任何实际关系或顺序。
本说明书中的术语“包括”、“包含”、“配置为”等用于指示特征、数字、操作、元件、部件或其组合的存在,而且不应排除组合或添加一个或多个特征、数字、操作、元件、部件或其组合的可能性。
根据实施方式,“模块”或“单元”执行至少一个功能或操作,并且可实现为硬件或软件、或硬件和软件的组合。另外,除应在特定硬件中实现的“模块”或“单元”之外,多个“模块”或多个“单元”可集成到至少一个模块中,并且可实现为至少一个处理器。
在下文中,将参考附图详细描述本公开的实施方式,使得本领域技术人员可容易地实现本公开。然而,本公开可以以许多不同的形式来实施,并且不限于本文描述的实施方式。为了在附图中清楚地示出本公开省略了与描述无关的部分,并且在整个说明书中将相似的附图标记分配给相似的部分。
在下文中,将参考附图进一步描述本公开的实施方式。
图1示出根据本公开的实施方式的语音识别系统。
参照图1,根据本公开的实施方式的语音识别系统1000可包括多个终端设备100-1至100-5。例如,第一终端设备100-1(例如,智能TV)、第二终端设备100-2(例如,智能扬声器)和第五终端设备100-5(例如,移动设备)可彼此执行直接通信。即,第一终端设备100-1可配置为向第二终端设备100-2和第五终端设备100-5发送消息,和/或从第二终端设备100-2和第五终端设备100-5接收消息;第二终端设备100-2可配置为向第一终端设备100-1和第五终端设备100-5发送消息,和/或从第一终端设备100-1和第五终端设备100-5接收消息;以及第五终端设备100-5可配置为向第一终端设备100-1和第二终端设备100-2发送消息,和/或从第一终端设备100-1和第二终端设备100-2接收消息。同样,第二终端设备100-2、第三终端设备100-3(例如,家用电器)和第四终端设备100-4(例如,智能手表)可彼此执行直接通信。
虽然参考图1描述了直接通信,但是多个终端设备100-1至100-5或图1中未示出但包括在语音识别系统1000内的一个或多个其它终端在与语音识别系统1000内的一个或多个其它终端设备通信时,可不建立直接通信。例如,多个终端设备100-1至100-5中的一个或多个可与语音识别系统1000的另一个终端设备执行间接通信,使得任何通信可经由第三终端设备在两个终端设备之间发送。例如,如果第五终端设备100-5意图与第三终端设备100-3通信,则第五终端设备100-5可向第二终端设备100-2发送消息,并且第二终端设备100-2可向第三终端设备100-3发送从第五终端设备100-5接收的消息。
终端设备100-1至100-5可具有单独于服务器的配置和/或不同于服务器的配置,并且可指代用户10直接使用的设备。例如,终端设备可以是各种电子设备,例如电视(TV)、移动电话、智能电话、个人数字助理(PDA)、笔记本个人计算机(PC)、台式机、平板PC、电子书和电子相框、信息亭、冰箱、洗衣机、智能扬声器、智能手表、空调、音频、数字视频光盘(DVD)播放器、微波炉、空气净化器、门锁、烧水壶、闭路电视(CCTV)、火灾报警设备、家用电器、家庭系统或环境调节设备(例如,供暖、通风、加湿器、污水泵、水过滤等)等。
如图1所示,用户10可发出语音(例如,产生声波),意图触发来自一个或多个终端设备100-1至100-5的响应,使得一个或多个终端设备100-1至100-5基于所产生的声波执行响应的功能(①);以及多个终端设备100-和100-5中的至少一个终端设备100-2至100-5可接收声波(②)。例如,由至少一个终端设备100-2和100-5接收的用户语音产生的声波可包括用于激活功能的触发词或触发短语。
如果语音识别系统1000的多个终端设备100-1至100-5中的至少一个终端设备100-2和100-5接收所产生的声波,则接收所产生的声波的终端设备可将声波转发到适于执行与声波对应的操作或功能的合适的或意向的终端设备(③)。例如,如图1所示,第二终端设备100-2可以是直接接收声波的终端设备,还可以是意图基于与声波对应的触发词或触发短语来执行与声波对应的操作的终端设备。可选地,第二终端设备100-2和第五终端设备100-5可接收声波,并且一个或多个其它终端设备(例如,终端设备100-1、100-3和100-4)可以是意图执行与声波对应的操作的终端设备。如此,接收声波的终端设备可将声波或与声波相关联的信息转发到意向的终端设备,使得意向的终端设备可基于声波执行相应的操作或功能。
多个终端设备100-1至100-5可设置为紧密相邻(例如,在预定空间内)。这里,预定空间可以是诸如“起居室”、“主房间”、“厨房”等的家庭内空间。如果不同空间中的不同用户同时产生包括触发词或触发短语的声波,则每个空间中的一个终端设备可接收由不同用户产生的声波。
将参考附图对基于从一个或多个用户接收的声波来确定语音识别系统100的多个终端设备100-1至100-5中的哪个终端设备可执行操作或功能的示例性过程进行详细描述。
图2是示出根据本公开的实施方式的终端设备的配置的框图。
参考图2,终端设备100可包括通信接口110和处理器120。
通信接口110可配置为根据各种类型的通信方法与各种类型的外部设备通信。与终端设备100通信的外部设备可以是服务器和/或一个或多个其它终端设备。
通信接口110与外部设备的通信可包括经由第三设备(例如,中继器、集线器、接入点、服务器或网关)的通信。通信接口110可配置为使用无线通信进行通信,无线通信包括使用例如长期演进(LTE)、高级LTE(LTE-A)、码分多址(CDMA)、宽带CDMA(WCDMA)和通用移动电信系统(UMTS)、无线宽带(WiBro)或全球移动通信系统(GSM)等中的至少一个的蜂窝通信。根据一个实施方式,另外或可选地,无线通信可包括例如,无线保真(Wi-Fi)、蓝牙、蓝牙低功耗(BLE)、Zigbee、近场通信(NFC)、磁安全传输、射频(RF)或体域网(BAN)中的至少一个。通信接口110可配置为使用有线通信进行通信。有线通信可包括例如,通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐标准232(RS-232)、电力线通信或普通旧式电话服务(POTS)中的至少一个。执行无线或有线通信的网络可包括电信网络(例如,计算机网络(例如,局域网(LAN)或广域网(WAN)))、互联网或电话网中的至少一个。
处理器120可配置为控制终端设备100的操作。
根据一个实施方式,处理器120可实现为数字信号处理器(DSP)、微处理器或时间控制器(TCON)。然而,本公开不限于此,并且可包括或定义为中央处理单元(CPU)、微控制器单元(MCU)、微处理单元(MPU)、控制器、应用处理器(AP)、通信处理器(CP)和高级精简指令集计算机(RISC)机器(ARM)处理器。处理器120可实现为片上系统(SoC)、具有内置处理算法的大规模集成电路(LSI)或现场可编程门阵列(FPGA)。
在示例性实施方式中,处理器120可与通过通信接口110连接的一个或多个其它终端设备共享性能信息。例如,处理器120可通过通信接口110将终端设备100的性能信息发送到一个或多个其它终端设备,或可从一个或多个其它终端设备接收一个或多个其它终端设备中的每个的性能信息。
在这种情况下,发送到一个或多个其它终端设备的性能信息或从一个或多个其它终端设备接收的性能信息可用于从多个终端设备中识别出用于确定获取用于语音识别的语音或声波的终端设备的边缘设备。边缘设备可被称为主终端设备、边缘计算设备等。多个终端设备可包括终端设备100和一个或多个其它终端设备。
性能信息可包括基于每个终端设备的性能而获得的得分(以下称为第一得分或性能得分(P-得分))。
例如,基于性能的得分是通过按多个标准评分而获得的得分,并且多个标准的示例可如表1所示。
[表1]
参考表1,处理器120可基于诸如联网标准、性能标准、稳定性标准、用户界面标准等的各种标准获得基于性能的得分。
具体地,性能信息用于确定边缘设备,并且可包括设备是否有利于数据处理。例如,联网标准可包括相邻设备的数量、可操作的联网IF、以及经由有线通信或无线通信的服务器连接等。例如,当存在大量的连接的其它终端设备、大量的可操作的联网方法,并且服务器与终端设备100之间的通信为有线连接时,终端设备100可接收高分。
可选地或另外地,性能标准可包括电力供应(例如,电池与DC)、处理能力或计算能力(处理器、存储器)等。在示例性实施方式中,当电力(例如,经由DC连接)直接供应到终端设备100而不从电池供电时,终端设备100可获得更高的得分。在另一示例性实施方式中,终端100可基于在处理期间或与存储器交互期间的功耗量来获得更高的得分。
可选地或另外地,性能标准可包括稳定性标准,诸如可考虑移动性因素(例如,设备位置改变的程度)、平稳因素、稳定时间等。当位置改变或移动不频繁且稳定时间更长时,终端设备100可被分配更高的得分。
可选地或另外地,用户界面标准可包括相对辅助的标准,并且当提供触摸屏或声音输出可用时可获得高分。
处理器120可根据多个标准中的一个或多个评估终端设备100的性能,并将性能计算为得分。如以下等式1所示,处理器120可基于终端设备100的性能信息,根据多个标准中的每个的重要性,通过对反映权重的得分求和来获得得分。
Pi=∑kwkCk 等式1
这里,Pi是终端设备i的第一得分,wk是标准的权重,并且Ck可以是该标准的得分。
例如,由于上述性能标准相对重要,因而权重较高;并且用户界面标准的重要性相对较低,因而权重可能较低。另外,如果该项未被应用,则权重可以是零。
如上所述,处理器120可将基于各种标准而获得的终端设备100的性能信息发送到一个或多个其它终端设备。具体地,处理器120可将基于性能信息的第一得分发送到一个或多个其它终端设备。
同时,处理器120可从一个或多个其它终端设备接收一个或多个其它终端设备的性能信息。在示例性实施方式中,终端设备100可接收由一个或多个其它终端设备计算的一个或多个其它终端设备的第一得分;或接收与一个或多个其它终端设备的性能有关的信息,并由处理器120计算一个或多个其它终端设备的第一得分。
从一个或多个其它终端设备接收的性能信息可包括,与连接到一个或多个其它终端设备的终端设备相关联的性能信息。因此,处理器120不仅可获取直接连接到终端设备100的1-跳邻居设备的性能信息,而且可获取仅连接到一个或多个其它终端设备(1-跳邻居设备)的2-跳或更多跳邻居设备的性能信息,并识别包括2-跳或更多跳邻居设备的边缘设备。将参考图4至图6对与一个或多个其它终端设备共享性能信息的操作进行详细描述。
处理器120可使用所获得的终端设备100的性能信息和所接收的一个或多个其它终端设备的性能信息来识别边缘设备。具体地,处理器120可基于性能信息将具有最高第一得分的终端设备识别为边缘设备。
在示例性实施方式中,边缘设备可以是本地终端设备而非服务器。随着由于互联网(物联网)设备的普及而导致数据量急剧增加,云计算已面临局限性。如本文的示例性实施方式中所确定的边缘设备可以是能实现边缘计算技术的设备,以克服由使用服务器所引入的局限性。在示例性实施方式中,边缘设备可以是能执行根据现有技术在服务器中执行的所有或部分计算任务的设备。
在本实施方式中识别的边缘设备可从多个终端设备中确定要执行语音识别的设备。执行语音识别可包括以下操作中的至少一个:激活麦克风以接收声波,将与所接收的声波相关联的信息发送到用于执行语音识别的服务器,以及通过经由麦克风接收声波的设备执行语音识别。
基于性能信息,当终端设备100被识别为边缘设备时,处理器120可从一个或多个其它终端设备接收与语音接收质量有关的信息。例如,发送与声波接收质量有关的信息的一个或多个其它终端设备可以是一个或多个其它终端设备中的已接收到包括触发词或触发短语的声波的至少一个终端设备。在示例性实施方式中,触发词或触发短语可以是用于激活终端设备100的人工智能(AI)辅助功能的呼叫词或短语,并且可被称为诸如“Bixby”、“Siri”、“Okay Google”和“Alexa”等的唤醒词。
在示例性实施方式中,与声波接收质量相关联的信息可用于确定以最佳质量接收用户产生的声波(例如,作为接收设备处的输入)的设备。例如,与声波接收质量相关联的信息可包括基于以下至少一个获得的得分(以下称为第二得分或质量得分(Q-得分)):与终端设备100中的麦克风的性能、信噪比(SNR)、与所接收的声波相关联的音量、所接收的声波的音量的变化率、声压有关的信息,以及与产生声波的用户与终端设备100之间的距离相关联的信息。
在示例性实施方式中,与产生声波的用户与终端设备100之间的距离相关联的信息可通过设置在终端设备100中的至少一个传感器(例如,传感器160)来获得。
根据本实施方式,终端设备100可接收由一个或多个其它终端设备计算的得分,接收由一个或多个其它终端设备接收的声波信号,并由处理器120获得一个或多个其它终端设备的第二得分。
在示例性实施方式中,从一个或多个其它终端设备接收的性能信息可包括与连接到一个或多个其它终端设备的终端设备的声波接收质量有关的信息。因此,处理器120可获取与仅连接到一个或多个其它终端设备而不连接到终端设备100的终端设备(例如,2-跳或更多跳邻居设备)的声波接收质量有关的信息。
处理器120可基于与已接收到包括触发词或触发短语的声波的至少一个终端设备中的每个的声波接收质量有关的信息,确定要执行语音识别的设备。具体地,处理器120可使用已接收到包括触发词或触发短语的声波的至少一个终端设备的第二得分,确定要执行语音识别的设备。
具体地,处理器120可将已接收到声波的至少一个终端设备中的具有最高第二得分值的终端设备确定为执行语音识别的设备。
同时,处理器120可确定要执行语音识别的设备,该设备不仅包括声波接收质量的信息,还包括接收声波的至少一个终端设备的性能信息。然后,处理器120可向所确定的终端设备发送语音识别命令。
具体地,如以下等式2所示,处理器120可根据基于权重反映了重要性程度的第一得分和第二得分的总和来获得B-得分,以确定最适合执行语音识别的设备。
Bi=w1Pi+w2Qi 等式2
这里,Pi是终端设备i的第一得分,w1是第一得分的权重,Qi是终端设备i的第二得分,而w2是第二得分的权重。
例如,对于用于确定最适合执行语音识别的设备的得分,所接收的声波的质量是很重要的。根据实施方式,当接收声波的终端设备直接执行语音识别而不将所接收的声波发送到服务器时,终端设备的性能可连同第一得分一并考虑。当所接收的声波被发送到服务器时,w1可以极低或为零。
在另一实施方式中,当从已接收到声波的多个终端设备接收到与声波接收质量相关联的信息时,如果多个终端设备之间的第二得分或B-得分之差在预定值以内,则处理器120可将已发送与所接收的声波接收质量有关的信息的终端设备确定为语音识别设备。通过这种方式,可确保语音识别过程中的实时特性。
同时,当终端设备100是边缘设备时,处理器120可将具有最高B-得分的终端设备确定为执行语音识别的终端设备。然后,处理器120可向所确定的终端设备发送语音识别命令。
在示例性实施方式中,当作为边缘设备的终端设备100是能够分析声波以辨别用户意图的设备时,处理器120可接收从接收语音的设备输入的声波信号。例如,语音识别可包括对用户意图的分析。处理器120可通过语音识别产生操作执行命令,并且可确定要执行与输入声波对应的操作的终端设备。处理器120可将所产生的操作执行命令发送到执行与声波对应的操作的终端设备。
在一个实施方式中,处理器120可根据声波的长度来确定对用户产生的声波执行意图分析的设备。例如,如果声波的长度很短,词的数量可能很少或可能包括与特定终端设备对应的单词,则处理器120可直接对用户产生的声波执行意图分析。与特定终端设备对应的单词可以是主要用于包括在语音识别系统1000中的终端设备的术语。例如,“请升高/降低温度”,“温度”是主要用于诸如供暖、空调等的环境规则中的术语。如果确定“温度”包括在声波中,则处理器120可直接分析产生声波的用户的意图,产生相应控制命令,并将所产生的控制命令发送到作为空调的终端设备。
如果声波的长度很长或与声波相关联的词的数量很大,则处理器120可将所接收的语音信号发送到外部服务器,以分析用户产生的声波。例如,处理器120可将在输入设备处输入或接收的语音信号(例如,声波)发送到服务器,或者仅接收从输入设备输入的语音信号的长度信息,并将与是否发送到服务器或终端设备100有关的信息发送到接收语音的设备。
如上所述,即使通过在多个终端设备中识别出边缘设备并由所识别的边缘设备确定用于执行语音识别的设备,而使多个终端设备同时接收用户产生的声波,也可能仅在一个终端设备中执行与用户产生的声波对应的操作。
图3是示出根据本公开的实施方式的图2的终端设备的详细配置的框图。
参考图3,终端设备100可包括通信接口110、处理器120、麦克风130、存储器140、显示器150、传感器160和扬声器170。
通信接口110和处理器120的一些操作与图2的那些操作相同,将省略重复的描述。
麦克风130可接收用户产生的声波。麦克风130在处理器120的控制下将从外部接收的语音或声波产生(或转换)为电信号。麦克风130产生的电信号可由处理器120转换并存储在存储器140中,或可通过通信接口110发送到用于执行语音识别的外部设备。
在示例性实施方式中,当经由麦克风130接收到包括触发词或触发短语的声波时,可将执行语音识别的终端设备确定为终端设备100。确定要执行语音识别的设备的边缘设备可以是终端设备100,或可不是终端设备100。
例如,如果终端设备100是边缘设备,并且当终端设备100被确定为基于第一得分和第二得分中的至少一个识别声波的设备时,则处理器120可在识别到包括触发词或触发短语的声波之后,对所接收的声波执行语音识别。
在示例性实施方式中,处理器120可在识别到触发词或触发短语之后,将与所接收的声波相关联的电信号发送到用于执行语音识别的外部服务器。例如,外部服务器可执行语音识别,基于语音识别结果确定用于产生操作执行命令并执行操作的终端设备,以及向所确定的终端设备发送操作执行命令。
如果作为边缘设备的终端设备100是能够执行语音识别的设备,则处理器120可在识别到触发词或触发短语之后,对所接收的声音执行语音识别。所接收的声波可由终端设备100通过麦克风130接收,或者可以是与由一个或多个其它终端设备提供的声波相关联的电信号。
处理器120可将语音识别结果发送到外部服务器。基于语音识别结果,外部服务器可将与语音识别结果对应的操作执行命令发送到多个终端设备中的执行与语音识别结果对应的操作的终端设备。根据本公开的实施方式,处理器120可不将语音识别结果发送到外部服务器,而将与语音识别结果对应的操作执行命令直接发送到多个终端设备中的执行与语音识别结果对应的操作的终端设备。
同时,如果一个或多个其它终端设备的第一得分高于终端设备100的第一得分,则处理器120可将一个或多个其它终端设备中的具有最高第一得分的终端设备确定为边缘设备。在示例性实施方式中,在经由麦克风130接收到包括触发词或触发短语的声波时,处理器120可基于所接收的声波的至少部分来获取与声波的接收质量有关的信息。例如,处理器120可基于包括触发词或触发短语的声波、在触发词或触发短语之后的预定时间接收的包括触发词或触发短语的声波、以及在触发词或触发短语之后的预定时间接收的不包括触发词或触发短语的声波,获取与接收质量有关的信息。与接收质量有关的信息可包括第二得分。然后,处理器120可控制通信接口110将与所获取的接收质量有关的信息发送到边缘设备。
此时,如果所获取的接收质量小于预设标准,则处理器120可丢弃与所获取的接收质量有关的信息,而无需将该信息发送到边缘设备。具体地,如果所获取的第二得分小于预定值,则处理器120可丢弃所获取的第二得分,而无需将第二得分发送到边缘设备。
存储器140可存储终端设备100的操作所需的各种程序和数据。例如,可在存储器140中存储至少一个指令。处理器120可通过执行存储在存储器140中的指令来执行上述操作。存储器140可实现为非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)或固态驱动器(SSD)。
所学习的AI模型可存储在存储器140中。在示例性实施方式中,可学习所学习的AI模型以识别所接收的声波并将该声波转换为文本,或者基于该声波来确定用户意图。如此,如果所学习的用于语音识别的AI模型存储在存储器140中,则处理器120可使用所存储的AI模型执行语音识别,而无需将与所接收的声波相关联的电信号发送到用于执行语音识别的外部服务器。
显示器150可在处理器120的控制下显示各种信息。在示例性实施方式中,显示器150可与触摸面板一起实现为触摸屏。根据各种实施方式,在终端设备100中可不设置显示器150。例如,当终端设备100是智能扬声器等时,可不设置显示器150。
传感器160可感测终端设备100或用户的各种状态信息。例如,传感器160可包括能够感测终端设备100的运动信息的运动传感器(例如,陀螺仪传感器、加速度传感器等)、能够感测位置信息的传感器(例如,全球定位系统传感器)、能够感测环境信息的传感器(例如,温度传感器、湿度传感器、气压传感器、超声传感器以及红外传感器等)、以及能够感测终端设备100的生物用户信息的传感器(例如,血压传感器、血糖传感器、脉搏率传感器等)等。另外,传感器160还可包括用于拍摄或捕获终端设备100外部的环境的图像的图像传感器(例如,相机)。
处理器120可基于传感器160的各种感测值,根据用户和终端设备100之间的距离和距离变化来确定用户是否移动。在示例性实施方式中,处理器120可基于用户与终端设备100之间的距离来获取与语音接收质量有关的信息。
扬声器170可具有输出各种通知声音或语音消息以及各种音频数据的配置,由音频处理器对音频数据进行诸如解码、放大、噪声滤波等各种处理任务。特别地,扬声器170可以以自然语言格式输出对用户产生的声波的响应作为语音消息。输出音频的配置可实现为扬声器,但也可实现为能够输出音频数据的输出终端。
图4、图5和图6示出根据本公开的实施方式的用于在多个终端设备之间共享性能信息的方法。
具体地,图4示出当新设备接入语音识别系统时共享性能信息的方法。这里,TV400-1、扬声器400-2和冰箱400-3已经连接到网络并可处于彼此共享信息的状态。
参考图4,当新终端设备400-4接入网络时,在操作S401中,新终端设备400-4可将信息请求信号发送到连接到网络的多个终端设备中的至少一个。在示例性实施方式中,新终端设备400-4可以以多播的方法发送信息请求信号。新终端设备400-4可将与新终端设备400-4相关联的包括P-得分的性能信息连同信息请求信号一并发送到其它终端设备,或将该性能信息单独发送到其它终端设备。
在示例性实施方式中,在操作S402和S403中,从新终端设备400-4接收请求的终端设备的扬声器400-2和冰箱400-3可将包括P-得分的自身性能信息发送到新终端设备400-4。
在操作S404中,新终端设备400-4可向连接到网络的多个终端设备中的至少一个请求设备列表410。在示例性实施方式中,设备列表410可以是能够通信的其它终端设备的列表记录。新终端设备400-4可向所有发送性能信息的一个或多个其它终端设备请求设备列表410;或者可基于从一个或多个其它终端设备接收的性能信息,向具有最高性能的一个或多个其它终端设备请求设备列表410。尽管上面已描述了在接收性能信息之后请求设备列表410,但是在示例性实施方式中可同时请求设备列表410。
在操作S405中,新终端设备400-4可从作为另一终端设备的扬声器400-2接收扬声器的设备列表410。例如,扬声器的设备列表410可包括与能够与扬声器400-2通信的一个或多个其它终端设备相关联的信息。因此,设备列表410可包括与不与新终端设备400-4通信的一个或多个其它终端设备相关联的信息。
作为实施方式,在图4中,可包括与TV 400-1相关联的信息,TV400-1与扬声器的设备列表410中的扬声器400-2通信但不与新终端设备400-4通信。因此,新终端设备400-4可获取与彼此不直接通信的一个或多个其它终端设备相关联的信息。
设备列表410可包括与ID、名称、地址、性能信息(P-得分)、直接通信(1-跳)等有关的信息。
因此,如图5所示,连接到网络的多个终端设备400-1至400-4中的每个可共享一个或多个其它终端设备的信息。多个终端设备400-1至400-4中的每个可基于共享性能信息来识别多个终端设备400-1至400-4中的边缘设备。
参照图5,多个终端设备400-1至400-4中的每个可将具有最高P-得分的TV 400-1识别为边缘设备。
在示例性实施方式中,如果满足预定条件,则多个终端设备400-1至400-4中的每个可更新共享性能信息。例如,多个终端设备400-1至400-4中的每个可根据预定周期更新共享性能信息,或者当新终端设备400-4请求性能信息时更新共享性能信息。在示例性实施方式中,每个终端设备可基于更新的性能信息来识别新的边缘设备。例如,每个终端设备可在每次更新性能信息时识别新的边缘设备,并且如果存在终端设备的P-得分比识别为当前边缘设备的终端设备的P-得分高,则可将具有更高P-得分的终端设备识别为新的边缘设备。
可选地,如图6所示,当连接到网络的新终端设备400-4与语音识别系统无法进行通信时,可更新共享性能信息。例如,多个终端设备400-1至400-3中的每个可从设备列表410中删除关于无法与语音识别系统通信的新终端设备400-4的信息。
当边缘设备无法与语音识别系统通信时,每个终端设备可基于共享性能信息来识别新的边缘设备。
图4、图5和图6仅示出了基于多个终端设备的性能信息来识别边缘设备的实施方式,但是在各种实施方式中,可通过用户选择边缘设备的操作的输入来识别边缘设备。
考虑到所识别的边缘设备的禁用状态,可在识别边缘设备时一并选择下级候选边缘设备。在示例性实施方式中,下级候选边缘设备可以是具有基于性能信息的第二最高得分的终端,或者可通过用户的选择来识别。因此,当所识别的边缘设备处于诸如断电或故障的禁用状态时,可自动将所确定的下级候选边缘设备改变为边缘设备,而无需再次执行边缘设备识别过程。
图7示出根据本公开的实施方式的用于在接收包括触发词或触发短语的语音的终端设备中确定要执行语音识别的终端设备的实施方式。
首先,图7示出实施方式,其中,根据连接到网络的多个终端设备700-1至700-5(例如,TV 700-1、冰箱700-2、智能手表700-3、移动设备700-4和智能扬声器700-5)之间共享的性能信息,可将具有最高P-得分200的TV 700-1识别为边缘设备。
参照图7,当用户10说出触发短语“Hi,Bixby”时,多个终端设备700-1至700-5中的智能手表700-3、移动设备700-4和智能扬声器700-5可接收用户产生的包括触发短语的声波。
在示例性实施方式中,已接收到包括触发短语的声波的智能手表700-3、移动设备700-4和智能扬声器700-5中的每个,可基于麦克风性能、所接收的声波的音量、所接收的声波的音量的变化率、声压以及与产生声波的用户的距离预测中的至少一个,获取与声波的接收质量有关的信息。在示例性实施方式中,与接收质量相关联的信息可包括表示声波的接收质量的Q-得分。
已接收到包括触发短语的声波的每个终端设备可将与所获得的接收质量有关的信息发送到作为边缘设备的TV 700-1。如果所获取的语音接收质量低于预定水平,则已接收到包括触发词的声波的终端设备可丢弃或忽略与接收质量相关联的信息,而无需将该信息发送到边缘设备。例如,如果接收质量的Q-得分的预定参考值是15,则如图7所示,获取的Q-得分小于15的智能手表700-3可删除与接收质量相关联的信息,而无需将接收质量信息发送到作为边缘设备的TV 700-1。
从作为一个或多个其它终端设备的移动设备700-4和智能扬声器700-5接收接收质量信息的TV 700-1,可基于移动设备700-4和智能扬声器700-5的性能信息以及接收质量信息来确定用于执行语音识别的设备。在示例性实施方式中,执行语音识别的含义可以是将与所接收的声波对应的电信号发送到用于语音识别的操作的服务器,或者是由终端自行执行语音识别的操作。
在示例性实施方式中,作为边缘设备的TV 700-1可使用作为性能信息得分的P-得分和作为接收质量得分的Q-得分中的至少一个来确定要执行语音识别的设备。边缘设备可将权重反映到P-得分和Q-得分中的每个然后再相加求总,而权重可根据实施方式变化。例如,如果语音识别由接收用户产生的声波的设备来执行,则性能信息也很重要。因此,可增加P-得分的权重。如果在外部服务器中执行语音识别,则可能仅接收质量很重要,而P-得分的权重可能较低。
基于性能信息和接收质量确定要执行语音识别的设备的边缘设备可向所确定的终端设备发送语音识别执行命令。
例如,如果P-得分和Q-得分的权重分别是1,则TV 700-1可将语音识别执行命令发送到P-得分和Q-得分之和最高的移动设备700-4。接收语音识别执行命令的移动设备700-4可对跟随触发词或触发短语之后的部分声波执行语音识别。例如,移动设备700-4可将在接收到包括触发短语“Hi,Bixby”的声波之后提供的包括短语“请在扬声器上打开歌曲”的声波发送到用于语音识别的服务器,或者自行执行语音识别。
在以上描述中,根据本实施方式,作为边缘设备的TV 700-1可识别包括触发词或触发短语的声波,并且作为边缘设备的TV 700-1可被确定为执行语音识别的设备。将参考图8、图9、图10、图11和图12对语音识别主体的各种实施方式进行详细描述。
同时,根据本实施方式,可以以预定周期将与接收质量有关的信息发送到边缘设备。例如,当用户10移动的同时产生声波时,接收用户10的声波的多个终端设备可以以预定周期将与所接收的声波相关联的与接收质量有关的信息发送到边缘设备。因此,在声波的持续时间期间,用于执行语音识别的设备可改变。
具体地,当被确定为执行语音识别的设备的终端设备的接收质量降低时,边缘设备可改变执行语音识别的终端设备。例如,接收用户10产生的声波的多个终端设备可以以预定的周期将与接收质量有关的信息发送到边缘设备,或者如果确定为执行语音识别的设备的终端设备的第二得分降低到小于预定值,则边缘设备可向接收与用户10产生的声波相关联的电信号的多个终端设备请求与接收质量有关的信息,并且接收与接收用户10的语音的多个终端设备的接收质量有关的信息。此时,边缘设备可将多个终端设备中具有最高第二得分的终端设备改变为用于执行语音识别的设备。
换言之,在改变执行语音识别的终端设备之前产生的声波由改变之前的终端设备执行语音识别;并且在改变之后接收的部分声波可由改变的终端设备来识别。例如,在改变之前和改变之后用于执行语音识别的终端设备可分别将与所接收的声波相关联的电信号发送到服务器或边缘设备以进行语音识别。根据又一实施方式,如果在改变之前和改变之后用于执行语音识别的终端设备可分别将所接收的语音发送到边缘设备,则边缘设备可将所接收的部分声波拼接成一个声波,将拼接的一个声波发送到用于语音识别的服务器,或者边缘设备可直接执行语音识别。在示例性实施方式中,考虑到已发送与所接收的声波对应的电信号的终端设备,边缘设备可将与执行与语音识别对应的操作的设备相关联的信息发送到服务器。
如上所述,即使在多个终端设备处接收到用户产生的声波,也仅一个设备执行语音识别,可减少不必要的资源消耗,并且可防止在执行与用户的语音命令相关的操作时设备之间发生冲突。
图8和图9是根据本公开的实施方式的用于描述由服务器执行语音识别的各种实施方式的视图。
图8和图9示出,根据连接到网络的多个终端设备800-1至800-3的性能信息的共享,将具有最高P-得分的TV 800-1识别为边缘设备,并且由TV 800-1将移动设备800-2确定为执行语音识别的设备。
参照图8,在触发词或触发短语“在扬声器上打开音乐”之后接收部分声波的移动设备800-2,可将与所接收的声波对应的电信号发送到用于执行语音识别的服务器200(①)。
服务器200可对所接收的与声波对应的电信号执行语音识别,以确定产生操作执行命令并执行与声波对应的操作命令的终端设备(②)。例如,作为语音识别的结果,服务器200可将智能扬声器800-3确定为产生音乐再现命令并执行操作命令的终端设备。服务器200可将所产生的操作执行命令发送到智能扬声器800-3(③)。
从服务器200接收操作命令的智能扬声器800-3可执行与所接收的命令相对应的操作(④)。例如,智能扬声器800-3可基于所接收的再现命令再现音乐。
当用户10已产生包括操作主体的声波时,如果用户10进一步说“请打开音乐”,则服务器200可基于各种标准来确定要执行操作命令的终端设备。例如,距离用户10最近的终端设备或具有最佳音频输出性能的终端设备可被确定为执行操作命令的设备,并且可发送操作命令。
如图9所示,当多个终端设备被确定为执行操作命令的终端设备时,可根据用户的选择来确定要执行最终操作的设备。
参照图9,服务器200可对与从移动设备800-2接收的用户10产生的声波(①)相关联的电信号执行语音识别(②)。作为执行语音识别的结果,如果确定语音识别由多个终端设备执行,则服务器200可向所确定的多个终端设备800-2和800-3发送操作执行命令(③)。
在这种情况下,可请求用户10选择多个终端设备800-2和800-3中的一个(④)。例如,请求用户10选择一个设备的终端设备可以是多个终端设备800-2和800-3中的至少一个。
如果用户10根据选择请求选择了一个设备(⑤),则所选择的设备可执行与用户产生的声波对应的操作命令(⑥)。例如,当用户10在接收操作执行命令的移动设备800-2和智能扬声器800-3中选择了智能扬声器800-3时,所选择的智能扬声器800-3可根据所接收的操作命令再现音乐。
在以上描述中,描述了服务器200将操作执行命令发送到确定的多个终端设备800-2和800-3。然而,在可选实施方式中,如果确定多个终端设备执行语音识别,则服务器200可将用于终端设备选择请求的命令发送到已发送语音信号的设备800-2,并且如果已发送与所接收的声波相关联的电信号的设备800-2向服务器200发送对用户选择的响应,则服务器200可配置为向所选择的终端设备发送操作执行命令。
在上文中,描述了由外部服务器执行关于所接收的语音的语音识别操作的实施方式。在下文中,将描述由终端设备执行语音识别的实施方式。
图10是用于描述根据本公开的实施方式的由边缘设备确定的终端设备执行语音识别的实施方式的视图。
图10示出在根据与网络连接的多个终端设备800-1至800-3的性能信息的共享,将具有最高P-得分的TV 800-1识别为边缘设备,并由TV 800-1将移动设备800-2确定为用于执行语音识别的设备之后的实施方式。
参照图10,接收到与短语“请在扬声器上打开音乐”对应的声波的移动设备800-2可执行关于所接收的声波的语音识别(①),该短语是在用户10说出触发词或触发短语之后所接收的声波。
具体地,移动设备800-2可对所接收的声波执行语音识别,并且确定产生与声波对应的操作执行命令并执行操作命令的终端设备。例如,移动设备800-2可根据用户10的意图产生音乐再现命令作为语音识别的结果,并且将智能扬声器800-3确定为执行操作命令的终端设备。然后,移动设备800-2可将所产生的操作执行命令发送到智能扬声器800-3(②)。
从移动设备800-2接收操作命令的智能扬声器800-3可执行与所接受的命令对应的操作(③)。例如,智能扬声器800-3可基于所接收的再现命令再现音乐。
在以上描述中,用户10已产生包括执行操作的主体的声波,但是如果用户产生了与短语“请打开音乐”对应的声波,则移动设备800-2可基于各种标准来确定要执行命令的终端设备。例如,具有距离用户10最近的终端设备或具有最佳音频输出性能的终端设备可被确定为执行操作命令的设备,并且可发送操作命令。因此,已执行语音识别的移动设备800-2可被确定为执行操作命令的设备。在这种情况下,移动设备800-2可直接向用户10提供与语音识别结果对应的响应。
同时,如果多个终端设备被确定为执行操作命令的终端设备,则移动设备800-2可请求用户10选择设备,并确定要执行最终操作的设备。
图11和图12示出根据本公开的实施方式的由边缘设备执行语音识别的实施方式。
首先,图11和图12示出在根据与网络连接的多个终端设备800-1至800-3的性能信息的共享,将具有最高P-得分的TV 800-1识别为边缘设备,并由TV 800-1将移动设备800-2确定为执行语音识别的设备之后的实施方式。
参照图11,在用户10说出触发词或触发短语之后,已接收到用户产生的声波“请在扬声器上打开音乐”的移动设备800-2,可将所接收的语音信号发送到作为用于执行语音识别的边缘设备的TV 800-1(①)。
作为边缘设备的TV 800-1可执行所接收的声波的语音识别,以确定产生与声波对应的操作命令并执行操作命令的终端设备(②)。例如,作为边缘设备的TV 800-1可根据用户10的话语意图产生音乐再现命令作为语音识别的结果,并且将智能扬声器800-3确定为执行操作命令的终端设备。然后,作为边缘设备的TV 800-1可将所产生的操作执行命令发送到智能扬声器800-3(③)。
从作为边缘设备的TV 800-1接收操作命令的智能扬声器800-3可执行与所接收的命令对应的操作(④)。例如,智能扬声器800-3可基于所接收的再现命令再现音乐。
在以上描述中,用户10已产生包括操作的主体的声波,但是当用户10产生与短语“打开音乐”相关联的声波时,作为边缘设备的TV800-1可确定要执行操作命令的终端设备。例如,距离用户10最近的终端设备或具有最佳音频输出性能的终端设备可被确定为执行操作命令的设备,并可发送操作命令。因此,作为边缘设备的TV 800-1可被确定为执行操作命令的设备。在这种情况下,作为边缘设备的TV 800-1可直接向用户10提供与语音识别结果对应的响应。
当多个终端设备被确定为执行操作命令的终端设备时,移动设备800-2可请求用户10选择设备,并根据用户10的选择来确定要执行最终操作的设备。
如图12所示,当由作为边缘设备的TV 800-1确定的、执行与用户10产生的声波对应的操作命令的终端设备800-4不是直接与作为边缘设备的TV 800-1通信的终端设备时,可将操作执行命令发送到与边缘设备TV 800-1和执行操作命令的终端设备800-4都连接的终端设备800-3。
这种操作可通过共享每个终端设备的信息来实现。当执行语音识别的移动设备800-2确定要执行操作命令的终端设备时,图12的操作可应用于不直接与移动设备800-2通信的终端设备被确定为执行操作执行命令的设备的情况。
图13示出根据本公开的实施方式的当第一用户10在移动的同时发出声波时,改变接收用于语音识别的声波的设备的实施方式。
参照图13,当第一用户10产生包括触发词或触发短语(例如,唤醒词或唤醒短语)(①)的声波并且第一终端设备1300-1接收用户产生的声波时,第一终端设备1300-1可根据接收到包括触发词的声波而被激活,并且第一终端设备1300-1可识别所接收的声波的讲话者(例如,产生声波的用户)(②)。在示例性实施方式中,第一终端设备1300-1可以是已接收到第一用户10的语音的一个终端设备,或者是已接收到用户产生的声波的多个终端设备中的已获取用于语音识别的声波的所选终端设备。
此后,当由第一终端设备1300-1接收的声波的声音质量降低时,第一终端设备1300-1可向外围设备1300-2至1300-4发送唤醒请求。在示例性实施方式中,由于第一用户10的移动,在第一终端设备1300-1处接收的声波的声音质量可能降低。
然后,第一终端设备1300-1可将与所识别的声波相关联的信息连同激活请求一并发送(③)。因此,即使在激活的第二终端设备1300-2中识别到第二用户20产生的声波,第二终端设备1300-2也可不执行用于第二用户20的语音识别的操作。
在示例性实施方式中,在外围设备1300-2至1300-4被激活之后,外围设备可向外围设备中的至少一些终端设备发送最小化操作噪声的控制命令以最小化周围环境的噪声。
例如,当周围环境的噪声等于或大于预设值时,激活的第三终端设备1300-3可向具有大操作噪声的第四终端设备1300-3和第五终端设备1300-5请求低噪声操作模式(④)。因此,可将第四终端设备1300-4(例如,空调)改变为静音或静止空气模式,并且可将第五终端设备1300-5(例如,机器人清洁器)改变为低噪声清洁模式(⑤)。
当周围环境的噪声小于预设值时,激活的第三终端设备1300-3可省略向其它终端设备请求低噪声操作模式的操作。
此后,当第一用户10产生与短语“新闻简报”相关联的声波时(⑥),在接收由第一用户10产生的声波的终端设备1300-1至1300-4中的第一终端设备1300-1(能够进行新闻简报操作的智能扬声器)和第三终端设备1300-3(智能TV)中,具有良好接收质量的智能TV1300-3可执行与第一用户10的声波和语音识别对应的操作。
当第一用户10产生与短语“打开静止空气模式”相关联的声波时(⑦),在接收由第一用户10产生的声波的终端设备1300-1至1300-4中,能够在静止空气模式下操作的第四终端设备1300-4可基于由第一用户10产生的声波执行与语音识别相对应的操作。
当第一用户10在移动的同时产生声波时,当由第一终端设备1300-1激活的第四终端设备1300-4接收的声波的接收质量小于预设值时,第四终端设备1300-4可将与所识别的发声和/或所识别的用户有关的信息连同激活请求一并发送到外围终端设备。
如上所述,通过接收触发词或触发短语并请求激活的终端设备根据第一用户的移动来激活外围终端设备,第一用户10可用语音命令控制各种设备,而无需重复地说出触发词或触发短语,从而提高用户识别性能和语音识别性能的便利性。
如果第一用户10没有说出停用终端设备的语音识别功能的触发词或者在预定时间内未产生声波,则终端设备可终止语音识别功能。例如,如果第一用户10说出诸如“再见,Bixby”的停用语音识别功能的触发词或短语或者在预定时间内未产生声波,则终端可结束语音识别功能。
图14是描述根据本公开的实施方式的终端设备的控制方法的流程图。
参照图14,在操作S1401中,终端设备可从一个或多个其它终端设备中的每个接收一个或多个其它终端设备的性能信息。在示例性实施方式中,所接收的性能信息可包括关于与另一终端设备通信但不与该终端设备通信的终端设备的信息。
在操作S1402中,终端设备可基于所接收的性能信息来识别边缘设备。例如,边缘设备可以是在多个终端设备中用于确定要执行语音识别的设备的设备。边缘设备可考虑处理性能、计算性能、移动状态等而被确定。
如果在操作S1403-Y中根据上述标准将终端设备识别为边缘设备,则在操作S1404中,终端设备可从接收包括触发词的其它终端设备接收与接收质量有关的信息。
在操作S1405中,终端设备可基于其它终端设备的性能信息和与接收质量有关的信息,确定获取用户产生的用于语音识别的声波的终端设备。在示例性实施方式中,用于执行语音识别的终端设备可以是用于获取用户产生的用于语音识别的声波的设备。终端设备可向确定为执行语音识别的一个或多个其它终端设备发送语音识别执行命令。
在操作S1403-N中,当终端设备不是边缘设备时,如果终端设备接收到包括触发词或触发短语的声波,则在操作S1406中,可将与声波的接收质量相关联的信息发送到确定为边缘设备的终端设备。例如,可基于所接收的用户产生的声波来获得与语音接收质量相关联的信息。在示例性实施方式中,如果语音接收质量低于预设水平,则终端设备可丢弃与声波的接收质量相关联的信息,而无需将与声波的接收质量相关联的信息发送到边缘设备。
此后,当从边缘设备接收到语音识别命令时,终端设备可对在跟随触发词或触发短语的声波之后的声波执行语音识别。例如,语音识别可以是指将所接收的用户产生的声波发送到用于语音识别的服务器的操作,或终端设备执行语音识别以确定与声波相关联的用户意图的的操作。
如上所述,即使多个终端设备已接收到用户产生的声波,也可由边缘设备确定的单个设备执行语音识别,因此,可减少不必要的资源消耗,并且可防止在对用户产生的声波中包括的命令执行操作时设备之间发生冲突。
图15示出根据本公开的实施方式的语音识别系统的操作。
参照图15,本公开的语音识别系统1000可包括多个终端设备100-1至100-4以及服务器200。在示例性实施方式中,服务器200可包括通过语音识别来确定用户意图的配置。如果终端设备可进行语音识别,则可省略服务器200。
在操作S1501中,语音识别系统1000中的多个终端设备100-1至100-4可共享性能信息并确定边缘设备。在图15中,第一终端设备100-1是边缘设备。
此后,当多个终端设备100-1至100-4中的至少一个接收到用户产生的包括触发词或触发短语的声波时,已接收到包括触发词的声波的至少一个终端设备可将与所接收的声波相关联的接收质量信息发送到边缘设备100-1。在示例性实施方式中,接收质量信息可以是由已接收到包括触发词或触发短语的声波的至少一个终端设备获得的Q-得分,并且可以是所接收的声波。在示例性实施方式中,对于每个终端设备的接收质量的得分可由边缘设备计算。
例如,当在操作S1502中,多个终端设备100-1至100-4中的第二终端设备100-2和第三终端设备100-3接收到用户产生的包括触发词或触发短语的声波时,在操作S1503、S1504中,第二终端设备100-2和第三终端设备100-3可向边缘设备100-1发送接收质量信息。
在操作S1505中,作为边缘设备的第一终端设备100-1可基于与所接收的语音接收质量有关的信息来确定语音识别设备。例如,语音识别设备可以是获取用户产生的用于语音识别的声波的设备。作为边缘设备的第一终端设备100-1可向执行所确定的语音识别的终端设备发送语音识别命令。例如,如果第二终端设备100-2被确定为用于执行语音识别的终端设备,则在操作S1506,第一终端设备100-1可向第二终端设备发送语音识别命令。
即使第二终端设备100-2和第三终端设备100-3在操作S1507中接收到包括触发词或触发短语的声波之后,在操作S1508,也仅接收到语音识别命令的第二终端设备100-2可将所接收的声波发送到服务器200。在图15中,尽管分别为第一声波接收操作和第二声波接收操作的操作S1502和S1507被示为单独的操作,但是在实际实现方式中,操作可以是连续操作,并且操作S1507可与操作S1503至S1506同时执行。例如,S1502和S1507可以是由用户产生的单个声波。
在操作S1509,服务器200可对所接收的声波执行语音识别,并且可确定要执行与声波对应的操作的设备。例如,服务器200可基于语音识别结果产生与声波对应的操作命令,并且确定要执行操作命令的终端设备。
服务器200可将所产生的操作执行命令发送到确定为执行该操作命令的终端设备。例如,如果确定为执行操作命令的终端设备是第四终端设备100-4,则在操作S1510中,服务器200可向第四终端设备100-4发送操作执行命令。在操作S1511中,接收操作执行命令的第四终端设备100-4可执行与该命令对应的操作。
如上所述,即使多个终端设备已接收到用户产生的声波,也可由边缘设备确定的一个设备执行语音识别,并且根据语音识别的结果仅向一个终端设备发送操作执行命令,从而可减少不必要的资源消耗,并且可防止在对用户产生的声波中包括的命令执行操作时设备之间发生冲突。
同时,上述各种实施方式可在记录介质中实现,该记录介质可由计算机或使用软件、硬件或其组合的类似设备读取。根据硬件实现方式,本公开中描述的实施方式可使用用于执行其它功能的专用集成电路(ASIC)、DSP、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、FPGA、处理器、控制器、微控制器、微处理器和电气单元中的至少一个来实现。在一些情况下,本文描述的实施方式可由处理器本身来实现。根据软件实现方式,诸如本文描述的过程和功能的实施方式可用单独的软件模块来实现。软件模块中的每个可执行本文描述的功能和操作中的一个或多个。
同时,根据上述公开的各种实施方式的方法可存储在非暂时性可读介质中。这种非暂时性可读介质可用于各种设备中并被使用。
非易失性计算机可读介质是指在短时间内存储数据的介质(诸如寄存器、高速缓存、存储器等),但是半永久性地存储数据并可由设备读取。非暂时性计算机可读介质的具体示例包括光盘(CD)、DVD、硬盘、蓝光光盘、USB、存储卡、只读存储器(ROM)等。
根据一个实施方式,根据本公开的各种实施方式的方法可在计算机程序产品中提供。计算机程序产品可作为商品在卖方和买方之间进行交易。计算机程序产品可以以机器可读存储介质(例如,CD-ROM)的形式发布或通过应用程序商店(例如:PlayStoreTM)在线发布。在在线发布的情况下,计算机程序产品的至少一部分可临时或至少临时存储在存储介质(诸如制造商的服务器、应用商店的服务器或中继服务器中的存储器)中。
虽然已参考本公开的各种实施方式示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同形式限定的本公开的精神和范围的情况下,可在形式和细节上进行各种改变。
Claims (15)
1.一种终端设备,包括:
通信接口,包括通信电路;以及
处理器,配置为:
通过所述通信接口从一个或多个其它终端设备中的每个接收所述一个或多个其它终端设备的性能信息,
基于从所述一个或多个其它终端设备中的每个接收的所述性能信息,从所述终端设备和所述一个或多个其它终端设备中识别出用于确定要执行语音识别的终端设备的边缘设备,
基于所述终端设备被识别为所述边缘设备,从发送所述性能信息的所述一个或多个其它终端设备中的接收到包括触发词的声波的一个或多个其它终端设备接收与接收质量相关联的信息,
基于所接收的与接收质量相关联的信息,从接收到所述声波的所述一个或多个其它终端设备中确定获取用于语音识别的所述声波的终端设备,以及
向所确定的终端设备发送命令,以将所获取的用于语音识别的所述声波发送到外部语音识别设备。
2.根据权利要求1所述的终端设备,
其中,从所述一个或多个其它终端设备中的每个接收的所述性能信息包括:基于所述一个或多个其它终端设备的性能获取的第一得分,以及
其中,从接收到所述声波的所述一个或多个其它终端设备接收的所述与接收质量相关联的信息包括:表示与由所述一个或多个其它终端设备接收的所述声波相关联的接收质量的第二得分。
3.根据权利要求2所述的终端设备,其中,所述处理器还配置为:将接收到所述声波的所述一个或多个其它终端设备中的具有最高第二得分值的终端设备确定为获取用于语音识别的所述声波的终端设备。
4.根据权利要求2所述的终端设备,还包括:
麦克风,
其中,所述处理器还配置为:
基于在所述麦克风处接收到包括所述触发词的所述声波,基于所述声波的至少部分获取所述终端设备的第二得分;
将所述终端设备和接收到所述声波的所述一个或多个其它终端设备中的具有最高第二得分的终端设备确定为获取用于语音识别的所述声波的终端设备;以及
基于所述终端设备被确定为获取所述声波的终端设备,获取在所述触发词之后接收的所述声波的部分;以及
将所获取的声波的部分发送到外部语音识别设备。
5.根据权利要求2所述的终端设备,其中,所述与接收质量有关的信息基于以下至少一个来获取:信噪比(SNR)、所接收的声波的音量、所接收的声波的音量的变化率、声压、以及与声波源的距离。
6.根据权利要求2所述的终端设备,其中,所述性能信息基于以下至少一个来获取:连接的其它终端设备的数量、可用通信网络的类型的数量、与服务器的连接方法、电力供应方法、处理性能、存储性能、或位置移动状态。
7.根据权利要求2所述的终端设备,其中,所述处理器还配置为:基于所确定的终端设备的第二得分小于预设值,将接收到所述声波的一个或多个其它终端设备中的具有最高第二得分值的终端设备改变为获取用于语音识别的所述声波的所述终端设备。
8.根据权利要求2所述的终端设备,其中,从所述一个或多个其它终端设备中的每个接收的第一得分或第二得分中的至少一个包括:关于与所述一个或多个其它终端设备通信且不与所述终端设备通信的终端设备的所述第一得分或所述第二得分中的至少一个的信息。
9.根据权利要求1所述的终端设备,还包括:
存储器,包括语音识别模块,
其中,所述处理器还配置为:
基于从所确定的终端设备接收到所述声波,使用所述语音识别模块对所述声波执行语音识别,以及
将所述语音识别结果发送到外部服务器,以及
其中,所述外部服务器配置为:
基于所述语音识别结果,从所述终端设备和所述一个或多个其它终端设备中确定要执行与所述语音识别结果对应的操作的终端设备,以及
向所述终端设备发送与所述语音识别结果对应的操作执行命令,以执行所述操作。
10.根据权利要求2所述的终端设备,还包括:
麦克风,
其中,所述处理器还配置为:
基于所述终端设备的所述第一得分小于所述一个或多个其它终端设备的所述第一得分,将所述一个或多个其它终端设备中的具有最高第一得分的所述一个或多个其它终端设备确定为边缘设备,
基于在所述麦克风处接收到包括所述触发词的所述声波,基于所述声波的至少部分获取与接收质量相关联的信息,以及
将所获取的所述与接收质量有关的信息发送到所确定的边缘设备。
11.根据权利要求10所述的终端设备,其中,所述处理器还配置为:基于所述终端设备的所述第二得分小于预设值,不将所述第二得分发送到所确定的边缘设备。
12.一种控制终端设备的方法,所述方法包括:
从一个或多个其它终端设备中的每个接收与所述一个或多个其它终端设备的性能信息有关的信息;
基于从所述一个或多个其它终端设备中的每个接收的所述性能信息,从所述终端设备和所述一个或多个其它终端设备中识别出用于确定要执行语音识别的终端设备的边缘设备;
基于所述终端设备被识别为所述边缘设备,从发送所述性能信息的所述一个或多个其它终端设备中的接收到包括触发词的声波的一个或多个其它终端设备接收与接收质量相关联的信息;
基于所接收的所述与接收质量相关联的信息,从接收到所述声波的所述一个或多个其它终端设备中确定获取用于语音识别的所述声波的终端设备;以及
向所确定的终端设备发送命令,以将所获取的用于语音识别的声波发送到外部语音识别设备。
13.根据权利要求12所述的方法,
其中,从所述一个或多个其它终端设备中的每个接收的所述性能信息包括:基于所述一个或多个其它终端设备的性能获取的第一得分,以及
其中,从接收到所述声波的所述一个或多个其它终端设备接收的所述与接收质量相关联的信息包括:表示与由所述一个或多个其它终端设备接收的所述声波相关联的接收质量的第二得分。
14.根据权利要求13所述的方法,其中,确定所述终端设备包括:,将接收到所述声波的所述一个或多个其它终端设备中的具有最高第二得分值的终端设备确定为获取用于语音识别的所述声波的终端设备。
15.根据权利要求13所述的方法,其中,确定所述终端设备包括:
基于在所述麦克风处接收到包括所述触发词的所述声波,基于所述声波的至少部分获取所述终端设备的第二得分;
将所述终端设备和接收所述声波的所述一个或多个其它终端设备中的具有最高第二得分的终端设备确定为获取用于语音识别的所述声波的终端设备,
基于所述终端设备被确定为获取所述声波的终端设备,获取在所述触发词之后接收的所述声波的部分,以及
将所获取的声波的部分发送到外部语音识别设备。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180163354A KR20200074680A (ko) | 2018-12-17 | 2018-12-17 | 단말 장치 및 이의 제어 방법 |
KR10-2018-0163354 | 2018-12-17 | ||
PCT/KR2019/004542 WO2020130237A1 (en) | 2018-12-17 | 2019-04-16 | Terminal device and method for controlling thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113168827A true CN113168827A (zh) | 2021-07-23 |
Family
ID=71072850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980076825.2A Pending CN113168827A (zh) | 2018-12-17 | 2019-04-16 | 终端设备及其控制方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11031008B2 (zh) |
EP (1) | EP3847640A4 (zh) |
KR (1) | KR20200074680A (zh) |
CN (1) | CN113168827A (zh) |
WO (1) | WO2020130237A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030812A (zh) * | 2023-03-29 | 2023-04-28 | 广东海新智能厨房股份有限公司 | 用于燃气灶的智能互联语音控制方法、装置、设备及介质 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3906549B1 (en) * | 2019-02-06 | 2022-12-28 | Google LLC | Voice query qos based on client-computed content metadata |
US11003419B2 (en) * | 2019-03-19 | 2021-05-11 | Spotify Ab | Refinement of voice query interpretation |
WO2020246649A1 (ko) * | 2019-06-07 | 2020-12-10 | 엘지전자 주식회사 | 엣지 컴퓨팅 디바이스에서 음성 인식 방법 |
US11665013B1 (en) * | 2019-12-13 | 2023-05-30 | Amazon Technologies, Inc. | Output device selection |
US20210210099A1 (en) * | 2020-01-06 | 2021-07-08 | Soundhound, Inc. | Multi Device Proxy |
KR20210096341A (ko) * | 2020-01-28 | 2021-08-05 | 엘지전자 주식회사 | 다수의 음성 인식 디바이스들을 제어하기 위한 장치, 시스템 및 제어 방법 |
US11929845B2 (en) * | 2022-01-07 | 2024-03-12 | International Business Machines Corporation | AI-based virtual proxy nodes for intent resolution in smart audio devices |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106030699A (zh) * | 2014-10-09 | 2016-10-12 | 谷歌公司 | 多个设备上的热词检测 |
US20170025124A1 (en) * | 2014-10-09 | 2017-01-26 | Google Inc. | Device Leadership Negotiation Among Voice Interface Devices |
US20170092270A1 (en) * | 2015-09-30 | 2017-03-30 | Apple Inc. | Intelligent device identification |
CN108352159A (zh) * | 2015-11-02 | 2018-07-31 | 三星电子株式会社 | 用于识别语音的电子设备和方法 |
CN108962258A (zh) * | 2017-05-24 | 2018-12-07 | 哈曼国际工业有限公司 | 多个语音识别设备之间的协调 |
CN109003609A (zh) * | 2018-08-15 | 2018-12-14 | 珠海格力电器股份有限公司 | 语音设备、智能语音系统、设备控制方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8078688B2 (en) | 2006-12-29 | 2011-12-13 | Prodea Systems, Inc. | File sharing through multi-services gateway device at user premises |
US20130073293A1 (en) | 2011-09-20 | 2013-03-21 | Lg Electronics Inc. | Electronic device and method for controlling the same |
US8340975B1 (en) | 2011-10-04 | 2012-12-25 | Theodore Alfred Rosenberger | Interactive speech recognition device and system for hands-free building control |
US9396727B2 (en) | 2013-07-10 | 2016-07-19 | GM Global Technology Operations LLC | Systems and methods for spoken dialog service arbitration |
KR20150103586A (ko) | 2014-03-03 | 2015-09-11 | 삼성전자주식회사 | 음성 입력을 처리하는 방법 및 이를 수행하는 전자 장치 |
KR102146462B1 (ko) | 2014-03-31 | 2020-08-20 | 삼성전자주식회사 | 음성 인식 시스템 및 방법 |
US10026399B2 (en) | 2015-09-11 | 2018-07-17 | Amazon Technologies, Inc. | Arbitration between voice-enabled devices |
US10026401B1 (en) * | 2015-12-28 | 2018-07-17 | Amazon Technologies, Inc. | Naming devices via voice commands |
US20170330563A1 (en) | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Speech from Distributed Microphones |
US20180374022A1 (en) * | 2017-06-26 | 2018-12-27 | Midea Group Co., Ltd. | Methods and systems for improved quality inspection |
US10755706B2 (en) * | 2018-03-26 | 2020-08-25 | Midea Group Co., Ltd. | Voice-based user interface with dynamically switchable endpoints |
-
2018
- 2018-12-17 KR KR1020180163354A patent/KR20200074680A/ko active Search and Examination
-
2019
- 2019-04-10 US US16/380,034 patent/US11031008B2/en active Active
- 2019-04-16 EP EP19899441.0A patent/EP3847640A4/en active Pending
- 2019-04-16 WO PCT/KR2019/004542 patent/WO2020130237A1/en unknown
- 2019-04-16 CN CN201980076825.2A patent/CN113168827A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106030699A (zh) * | 2014-10-09 | 2016-10-12 | 谷歌公司 | 多个设备上的热词检测 |
US20170025124A1 (en) * | 2014-10-09 | 2017-01-26 | Google Inc. | Device Leadership Negotiation Among Voice Interface Devices |
US20170092270A1 (en) * | 2015-09-30 | 2017-03-30 | Apple Inc. | Intelligent device identification |
CN108352159A (zh) * | 2015-11-02 | 2018-07-31 | 三星电子株式会社 | 用于识别语音的电子设备和方法 |
CN108962258A (zh) * | 2017-05-24 | 2018-12-07 | 哈曼国际工业有限公司 | 多个语音识别设备之间的协调 |
CN109003609A (zh) * | 2018-08-15 | 2018-12-14 | 珠海格力电器股份有限公司 | 语音设备、智能语音系统、设备控制方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116030812A (zh) * | 2023-03-29 | 2023-04-28 | 广东海新智能厨房股份有限公司 | 用于燃气灶的智能互联语音控制方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3847640A1 (en) | 2021-07-14 |
WO2020130237A1 (en) | 2020-06-25 |
US11031008B2 (en) | 2021-06-08 |
EP3847640A4 (en) | 2021-11-03 |
KR20200074680A (ko) | 2020-06-25 |
US20200193982A1 (en) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113168827A (zh) | 终端设备及其控制方法 | |
CN111699528B (zh) | 电子装置及执行电子装置的功能的方法 | |
US10283109B2 (en) | Nickname management method and apparatus | |
JP2022126805A (ja) | ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法 | |
JP6749490B2 (ja) | 音声の分類化 | |
US20190035398A1 (en) | Apparatus, method and system for voice recognition | |
US20140195233A1 (en) | Distributed Speech Recognition System | |
JP7191819B2 (ja) | 音声能力を備えたポータブルオーディオデバイス | |
CN112051743A (zh) | 设备控制方法、冲突处理方法、相应的装置及电子设备 | |
US11056114B2 (en) | Voice response interfacing with multiple smart devices of different types | |
JP2018190413A (ja) | ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム | |
US11842735B2 (en) | Electronic apparatus and control method thereof | |
US11367441B2 (en) | Electronic apparatus and control method thereof | |
WO2019213443A1 (en) | Audio analytics for natural language processing | |
JP6745419B1 (ja) | 検出されたイベントに関する情報を提供するための方法、システム、および媒体 | |
US20210183393A1 (en) | Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same | |
CN107026943A (zh) | 语音交互方法及系统 | |
US20230177398A1 (en) | Electronic apparatus and control method thereof | |
CN110415694A (zh) | 一种多台智能音箱协同工作的方法 | |
JP2019036174A (ja) | 制御装置、入出力装置、制御方法、および制御プログラム | |
CN116888664A (zh) | 在单个话语中组合设备或助理专用热词 | |
JP2022544066A (ja) | マルチモーダルスマートオーディオデバイスシステムのアテンティブネス表現 | |
WO2017149848A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP7018850B2 (ja) | 端末装置、決定方法、決定プログラム及び決定装置 | |
US11810588B2 (en) | Audio source separation for audio devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |