CN112470217A - 用于确定要执行语音识别的电子装置的方法及电子装置 - Google Patents

用于确定要执行语音识别的电子装置的方法及电子装置 Download PDF

Info

Publication number
CN112470217A
CN112470217A CN201980049329.8A CN201980049329A CN112470217A CN 112470217 A CN112470217 A CN 112470217A CN 201980049329 A CN201980049329 A CN 201980049329A CN 112470217 A CN112470217 A CN 112470217A
Authority
CN
China
Prior art keywords
electronic device
information
wake
word
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201980049329.8A
Other languages
English (en)
Inventor
朴景民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112470217A publication Critical patent/CN112470217A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C2201/00Transmission systems of control signals via wireless link
    • G08C2201/90Additional features
    • G08C2201/93Remote control using other portable devices, e.g. mobile phone, PDA, laptop
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

提供了电子装置和用于控制电子装置的方法。所述电子装置包括用户接口、被配置为连接到蜂窝网络和Wi‑Fi网络的通信电路、麦克风、扬声器、连接到用户接口、通信电路、麦克风和扬声器的处理器、以及连接到处理器并被配置为存储可由处理器执行的指令的存储器,所述指令由处理器执行时执行以下操作:在通过麦克风接收到唤醒话语时,通过扬声器发送包括与所述唤醒话语相关联的第一信息的第一音频声音,以用于调用基于语音的智能服务。通过麦克风接收包括第二信息的第二音频声音,并且基于第一信息和第二信息之间的比较的至少一部分来确定是否控制电子装置将唤醒话语之后的语音信息发送到外部服务器。

Description

用于确定要执行语音识别的电子装置的方法及电子装置
技术领域
本公开涉及用于确定要执行语音识别的电子装置的方法及电子装置。
背景技术
已经引入了各种电子装置,包括智能电话、平板个人计算机(PC)、便携式多媒体播放器(PMP)、个人数字助理(PDA)和膝上型PC。
许多种类的电子装置被设计为提供基于语音的智能辅助服务,允许用户使用语音命令来执行电子装置的各种功能。
另外,将分布在用户的生活环境中的装置互连以共享信息的物联网(IoT)的商业化正在创建积极的环境,以使得可通过诸如电视和冰箱的支持语音识别的家用电器将执行命令传送到连接到网络的远程电子装置。
典型地,支持语音识别的电子装置配备有用于接收语音信号的麦克风和用于输出语音识别结果的扬声器。
上述信息仅作为背景技术信息呈现,以帮助理解本公开。关于上述内容中的任何一个是否可作为关于本公开的现有技术适用,没有做出任何确定,也没有做出断言。
发明内容
技术问题
本公开的各方面是为了至少解决上述问题和/或缺点,并且至少提供下面描述的优点。因此,本公开的一个方面是提供用于识别用户的语音的电子装置。如果识别出用户的语音,则电子装置可将相应的语音信息发送到基于语音的智能辅助服务提供者的外部服务器以处理语音识别。
外部服务器可处理由已经识别用户的语音的电子装置发送的语音信息。然而,用户的语音信息的冗余处理可能增加外部服务器的语音识别处理负荷。
外部服务器的语音识别处理过载可能降低语音识别处理速度,这可能导致用户不必要地发送/接收冗余数据。
另外的方面将部分地在下面的描述中阐述,并且部分地将从描述中显而易见,或者可通过实践所呈现的实施例来学习。
技术方案
根据本公开的一个方面,提供了一种电子装置。所述电子装置包括:用户接口;至少一个通信电路,被配置为连接到蜂窝网络和Wi-Fi网络;麦克风;至少一个扬声器;至少一个处理器,可操作地连接到用户接口、所述至少一个通信电路、麦克风和所述至少一个扬声器;以及存储器,可操作地连接到处理器并且被配置为存储可由处理器执行的指令,以使处理器执行以下操作:在通过麦克风接收到唤醒话语时,通过扬声器发送包括第一信息的第一音频声音,通过麦克风接收包括第二信息的第二音频声音,以及基于第一信息和第二信息之间的比较的至少一部分来确定是否控制电子装置将唤醒话语之后的语音信息发送到外部服务器,其中,第一信息与用于调用基于语音的智能服务的唤醒话语相关联。
根据本公开的另一方面,提供了一种电子装置的操作方法。该方法包括:通过电子装置的麦克风接收用于调用基于语音的智能辅助服务的唤醒话语,通过电子装置的扬声器广播包括与唤醒话语相关联的第一信息的第一音频声音,通过麦克风接收包括由外部电子装置发送的第二信息的第二音频声音,以及基于第一信息和第二信息之间的比较的至少一部分来确定是否将唤醒话语之后的语音信息发送到外部服务器。
有益效果
根据本公开的各种实施例的用于确定语音识别执行装置的电子装置及其操作方法,在通过利用识别用户的语音的电子装置之一作为语音识别装置来减少外部服务器的语音识别负荷方面是有利的。
根据本公开的各种实施例的用于确定语音识别执行装置的电子装置及其操作方法,在以音频声音的形式发送/接收用于选择支持语音识别的电子装置的数据方面是有利的。这使得即使在支持语音识别的电子装置连接到特定空间中的不同网络的情况下,也可通过扬声器和麦克风发送/接收数据。
根据本公开的各种实施例的用于确定语音识别执行装置的电子装置及其操作方法,在通过减少外部服务器的语音识别负荷来提高语音识别速度方面是有利的。
附图说明
通过以下结合附图的描述,本公开的特定实施例的上述和其他方面、特征和优点将更加明显,其中:
图1是示出根据本公开的实施例的电子装置的配置的框图;
图2是示出根据本公开的实施例的程序的框图;
图3是示出根据本公开的实施例的集成智能系统的示图;
图4是示出根据本公开的实施例的用于解释用户终端的基于语音的智能辅助服务的执行的屏幕显示的示图;
图5是示出根据本公开的实施例的第一电子装置的配置的框图;
图6是示出根据本公开的实施例的第一电子装置和第二电子装置之间的信号流的信号流程图;
图7是示出根据本公开的实施例的用于确定负责将唤醒话语之后的语音信息发送到外部电子装置的电子装置的操作的示图;
图8是示出根据本公开的实施例的用户终端的框图;
图9是示出根据本公开的实施例的用户终端、第一电子装置、第二电子装置和外部服务器之间的信号流的信号流程图;
图10是示出根据本公开的实施例的用于确定负责将唤醒话语之后的语音信息发送到外部服务器的电子装置的操作的示图;
图11是示出根据本公开的实施例的智能服务器的配置的框图;
图12是示出根据本公开的实施例的电子装置的操作方法的流程图;
图13是示出根据本公开的实施例的电子装置的操作方法的流程图;以及
图14是示出根据本公开的实施例的电子装置的操作方法的流程图。
在整个附图中,应当注意,相同的附图标记用于描绘相同或相似的元件、特征和结构。
具体实施方式
提供参照附图的以下描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。以下描述包括各种具体细节以帮助理解,但是这些细节仅被认为是示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可对本文描述的各种实施例进行各种改变和修改。此外,为了清楚和简明,可省略对众所周知的功能和结构的描述。
在以下描述和权利要求书中使用的术语和词语不限于书面含义,而是仅由发明人使用以使得能够清楚且一致地理解本公开。因此,对于本领域技术人员显而易见的是,提供本公开的各种实施例的以下描述仅用于说明目的,而不是为了限制由所附权利要求及其等同物限定的本公开的目的。
应当理解,除非上下文另有明确规定,否则单数形式“一”、“一个”和“该”包括复数指示物。因此,例如,对“组件表面”的引用包括对一个或更多个这样的表面的引用。
图1是示出根据各种实施例的网络环境100中的电子装置101的框图。参照图1,网络环境100中的电子装置101可经由第一网络198(例如,短距离无线通信网络)与电子装置102进行通信,或者经由第二网络199(例如,长距离无线通信网络)与电子装置104或服务器108进行通信。根据实施例,电子装置101可经由服务器108与电子装置104进行通信。根据实施例,电子装置101可包括处理器120、存储器130、输入装置150、声音输出装置155、显示装置160、音频模块170、传感器模块176、接口177、触觉模块179、相机模块180、电力管理模块188、电池189、通信模块190、用户识别模块(SIM)196或天线模块197。在一些实施例中,可从电子装置101中省略所述部件中的至少一个(例如,显示装置160或相机模块180),或者可将一个或更多个其它部件添加到电子装置101中。在一些实施例中,可将所述部件中的一些部件实现为单个集成电路。例如,可将传感器模块176(例如,指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置160(例如,显示器)中。
处理器120可运行例如软件(例如,程序140)来控制电子装置101的与处理器120连接的至少一个其它部件(例如,硬件部件或软件部件),并可执行各种数据处理或计算。根据一个实施例,作为所述数据处理或计算的至少部分,处理器120可将从另一部件(例如,传感器模块176或通信模块190)接收到的命令或数据加载到易失性存储器132中,对存储在易失性存储器132中的命令或数据进行处理,并将结果数据存储在非易失性存储器134中。根据实施例,处理器120可包括主处理器121(例如,中央处理器(CPU)或应用处理器(AP))以及与主处理器121在操作上独立的或者相结合的辅助处理器123(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器中枢处理器或通信处理器(CP))。另外地或者可选择地,辅助处理器123可被适配为比主处理器121耗电更少,或者被适配为具体用于指定的功能。可将辅助处理器123实现为与主处理器121分离,或者实现为主处理器121的部分。
在主处理器121(而非主处理器121)处于未激活(例如,睡眠)状态时,辅助处理器123可控制与电子装置101的部件之中的至少一个部件(例如,显示装置160、传感器模块176或通信模块190)相关的功能或状态中的至少一些,或者在主处理器121处于激活状态(例如,运行应用)时,辅助处理器123可与主处理器121一起来控制与电子装置101的部件之中的至少一个部件(例如,显示装置160、传感器模块176或通信模块190)相关的功能或状态中的至少一些。根据实施例,可将辅助处理器123(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器123相关的另一部件(例如,相机模块180或通信模块190)的部分。
存储器130可存储由电子装置101的至少一个部件(例如,处理器120或传感器模块176)使用的各种数据。所述各种数据可包括例如软件(例如,程序140)以及针对与其相关的命令的输入数据或输出数据。存储器130可包括易失性存储器132或非易失性存储器134。
可将程序140作为软件存储在存储器130中,并且程序140可包括例如操作系统(OS)142、中间件144或应用146。
输入装置150可从电子装置101的外部(例如,用户)接收将由电子装置101的其它部件(例如,处理器120)使用的命令或数据。输入装置150可包括例如麦克风、鼠标、键盘或数字笔(例如,手写笔)。
声音输出装置155可将声音信号输出到电子装置101的外部。声音输出装置155可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的,接收器可用于呼入呼叫。根据实施例,可将接收器实现为与扬声器分离,或实现为扬声器的部分。
显示装置160可向电子装置101的外部(例如,用户)视觉地提供信息。显示装置160可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示装置160可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块170可将声音转换为电信号,反之亦可。根据实施例,音频模块170可经由输入装置150获得声音,或者经由声音输出装置155或与电子装置101直接(例如,有线地)连接或无线连接的外部电子装置(例如,电子装置102)的耳机输出声音。
传感器模块176可检测电子装置101的操作状态(例如,功率或温度)或电子装置101外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块176可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口177可支持将用来使电子装置101与外部电子装置(例如,电子装置102)直接(例如,有线地)或无线连接的一个或更多个特定协议。根据实施例,接口177可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端178可包括连接器,其中,电子装置101可经由所述连接器与外部电子装置(例如,电子装置102)物理连接。根据实施例,连接端178可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块179可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块179可包括例如电机、压电元件或电刺激器。
相机模块180可捕获静止图像或运动图像。根据实施例,相机模块180可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
电力管理模块188可管理对电子装置101的供电。根据实施例,可将电力管理模块188实现为例如电力管理集成电路(PMIC)的至少部分。
电池189可对电子装置101的至少一个部件供电。根据实施例,电池189可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块190可支持在电子装置101与外部电子装置(例如,电子装置102、电子装置104或服务器108)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块190可包括能够与处理器120(例如,应用处理器(AP))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块190可包括无线通信模块192(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块194(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的相应一个可经由第一网络198(例如,短距离通信网络,诸如蓝牙、无线保真(Wi-Fi)直连或红外数据协会(IrDA))或第二网络199(例如,长距离通信网络,诸如蜂窝网络、互联网、或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置进行通信。可将这些各种类型的通信模块实现为单个部件(例如,单个芯片),或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块192可使用存储在用户识别模块196中的用户信息(例如,国际移动用户识别码(IMSI))识别并验证通信网络(诸如第一网络198或第二网络199)中的电子装置101。
天线模块197可将信号或电力发送到电子装置101的外部(例如,外部电子装置)或者从电子装置101的外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块197可包括天线,所述天线包括辐射元件,所述辐射元件由形成在基底(例如,PCB)中或形成在基底上的导电材料或导电图案构成。根据实施例,天线模块197可包括多个天线。在这种情况下,可由例如通信模块190(例如,无线通信模块192)从所述多个天线中选择适合于在通信网络(诸如第一网络198或第二网络199)中使用的通信方案的至少一个天线。随后可经由所选择的至少一个天线在通信模块190和外部电子装置之间发送或接收信号或电力。根据实施例,除了辐射元件之外的另外的组件(例如,射频集成电路(RFIC))可附加地形成为天线模块197的一部分。
上述部件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外设接口(SPI)或移动工业处理器接口(MIPI))相互连接并在它们之间通信地传送信号(例如,命令或数据)。
根据实施例,可经由与第二网络199连接的服务器108在电子装置101和外部电子装置104之间发送或接收命令或数据。电子装置102和电子装置104中的每一个可以是与电子装置101相同类型的装置,或者是与电子装置101不同类型的装置。根据实施例,将在电子装置101运行的全部操作或一些操作可在外部电子装置102、外部电子装置104或服务器108中的一个或更多个运行。例如,如果电子装置101应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务,则电子装置101可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子装置101除了运行所述功能或服务以外,还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置101。电子装置101可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。
图2是示出根据各种实施例的程序140的框图200。根据实施例,程序140可包括用于控制电子装置101的一个或更多个资源的操作系统(OS)142、中间件144或可在OS 142中运行的应用146。OS 142可包括例如AndroidTM、iOSTM、WindowsTM、SymbianTM、TizenTM或BadaTM。例如,可在制造期间将程序140中的至少一部分预载入到电子装置101上,或者可在用户使用期间从外部电子装置(例如,电子装置102或电子装置104,或者服务器108)下载或由外部电子装置更新程序140中的至少一部分。
OS 142可控制电子装置101的一个或更多个系统资源(例如,进程、存储器或电源)的管理(例如,分配或解除分配)。另外或可选地,OS 142可包括用于驱动电子装置101的其它硬件装置(例如,输入装置150、声音输出装置155、显示装置160、音频模块170、传感器模块176、接口177、触觉模块179、相机模块180、电力管理模块188、电池189、通信模块190、用户识别模块196或天线模块197)的一个或更多个驱动程序。
中间件144可向应用146提供各种功能,使得应用146可使用从电子装置101的一个或更多个资源提供的功能或信息。中间件144可包括例如应用管理器201、窗口管理器203、多媒体管理器205、资源管理器207、电力管理器209、数据库管理器211、包管理器213、连接管理器215、通知管理器217、位置管理器219、图形管理器221、安全管理器223、电话管理器225或语音识别管理器227。
应用管理器201例如可管理应用146的生命周期。窗口管理器203例如可管理在屏幕上使用的一个或更多个图形用户界面(GUI)资源。多媒体管理器205例如可识别将用于播放媒体文件的一个或更多个格式,并可使用适合于从所述一个或更多个格式中选择的相应格式的编解码器对媒体文件之中的相应媒体文件进行编码或解码。资源管理器207例如可管理应用146的源代码或存储器130的存储空间。电力管理器209例如可管理电池189的容量、温度或电力,并可至少部分基于电池189的容量、温度或电力的相应信息来确定或提供将用于电子装置101的操作的相关信息。根据实施例,电力管理器209可与电子装置101的基本输入/输出系统(BIOS)(未示出)协同工作。
数据库管理器211例如可产生、搜索或改变将由应用146使用的数据库。包管理器213例如可管理以包文件的形式分布的应用的安装或更新。连接管理器215例如可管理电子装置101与外部电子装置之间的无线连接或直接连接。通知管理器217例如可提供用于向用户通知发生特定事件(例如,呼入呼叫、消息或警报)的功能。位置管理器219例如可管理关于电子装置101的位置信息。图形管理器221例如可管理将向用户提供的一个或更多个图形效果或与所述一个或更多个图形效果有关的用户界面。
安全管理器223例如可提供系统安全或用户认证。电话管理器225例如可管理由电子装置101提供的语音呼叫功能或视频呼叫功能。语音识别管理器227例如可向服务器108发送用户的语音数据,并从服务器108接收与将至少部分基于语音数据或至少部分基于语音数据而转换的文本数据在电子装置101上运行的功能相应的命令。根据实施例,中间件144可动态地删除一些现有组件或添加新的组件。根据实施例,可包括中间件144中的至少一部分作为OS 142的一部分,或者可将中间件144中的至少一部分实现为与OS 142分离的另一软件。
应用146可包括例如主页251、拨号器253、短消息服务(SMS)/多媒体消息服务(MMS)255、即时消息(IM)257、浏览器259、相机261、闹铃263、联系人265、语音识别267、电子邮件269、日历271、媒体播放器273、相册275、手表277、健康279(例如,用于测量锻炼程度或生物信息(诸如血糖))或环境信息281(例如,用于测量气压、湿度或温度信息)应用。根据实施例,应用146还可包括能够支持电子装置101与外部电子装置之间的信息交换的信息交换应用(未示出)。信息交换应用例如可包括适用于向外部电子装置传送指定信息(例如,呼叫、消息或警报)的通知转发应用或适用于管理外部电子装置的装置管理应用。通知转发应用可向外部电子装置传送与在电子装置101的另一应用(例如,电子邮件应用269)发生特定事件(例如,接收到电子邮件)相应的通知信息。另外或可选地,通知转发应用可从外部电子装置接收通知信息并向电子装置101的用户提供通知信息。
装置管理应用可控制外部电子装置或外部电子装置的一些组件(例如,外部电子装置的显示装置或相机模块)的电力(例如,开启或关闭)或功能(例如,亮度、分辨率或焦点的调整)。另外或可选地,装置管理应用可支持在外部电子装置上运行的应用的安装、删除或更新。
图3是示出根据本公开的实施例的包括支持语音识别的电子装置和服务器的集成智能系统的示图。
参照图3,集成智能系统10可包括用户终端300(例如,图1中的电子装置101)、智能服务器400(例如,图1中的服务器108)、第一电子装置500、第二电子装置600和第三电子装置700。
根据本公开的各种实施例,用户终端300、第一电子装置500、第二电子装置600和第三电子装置700具有存储在其中的应用(或应用程序)(例如,闹钟应用、消息收发应用、照片(图库)应用),用于向用户提供所需的服务。例如,用户终端300可经由存储在用户终端300中的基于语音的智能辅助服务(或语音识别应用)来执行和运行应用。用户终端300可接收用于执行另一应用以经由基于语音的智能辅助服务执行操作的用户输入。作为示例,用户输入可通过物理按钮或触摸板来进行,或者可以是语音输入或远程输入。根据实施例,用户终端300、第一电子装置500、第二电子装置600和第三电子装置700各自是能够连接到互联网的移动电话、智能电话、个人数字助理(PDA)、膝上型个人计算机(PC)或支持物联网(IoT)技术的电子装置(例如,智能电视(TV)、智能冰箱和智能空气净化器)。
根据各种实施例,用户终端300、第一电子装置500、第二电子装置600和第三电子装置700可接收用户的话语作为用户输入。用户终端300、第一电子装置500、第二电子装置600和第三电子装置700可接收用户的话语并基于用户的话语生成用于执行应用的命令。因此,用户终端300、第一电子装置500、第二电子装置600和第三电子装置700可根据命令执行应用。
根据本公开的各种实施例,用户终端300、第一电子装置500、第二电子装置600和第三电子装置700可接收用户的话语并生成与用户的话语相应的语音数据。生成的语音数据可被发送到智能服务器400。用户终端300、第一电子装置500、第二电子装置600和第三电子装置700可经由蜂窝网络或短程通信网络(例如,Wi-Fi和LAN)将生成的语音数据发送到智能服务器400。
根据本公开的各种实施例,用户终端300可经由第一网络向智能服务器400发送数据/从智能服务器400接收数据。第一电子装置500、第二电子装置600和第三电子装置700可经由通信模式与第一网络不同的第二网络向智能服务器400发送数据/从智能服务器400接收数据。第一网络可包括蜂窝网络(例如,第三代(3G)网络、长期演进(LTE)网络和第五代(5G)网络)。第二网络可包括短程通信网络(例如,Wi-Fi、Zigbee和LAN)。第一网络还可包括短程通信网络,并且第二网络还可包括蜂窝网络。
根据本公开的各种实施例,用户终端300、第一电子装置500、第二电子装置600和第三电子装置700可在将语音数据发送到智能服务器400之前对语音数据进行预处理。例如,用户终端300、第一电子装置500、第二电子装置600和第三电子装置700可以以各种方式对语音数据进行预处理,诸如从语音数据中去除回声、从语音数据中去除背景技术噪声、以及调整语音数据中包含的语音的大小,并将预处理后的语音数据发送到智能服务器400。
根据本公开的各种实施例,智能服务器400可经由通信网络从外部装置(例如,用户终端300、第一电子装置500、第二装置600和第三电子装置700)接收与用户的话语相应的语音数据,并将语音数据转换为文本数据。
根据本公开的各种实施例,智能服务器400可将文本数据发送到用户终端300。用户终端300可使用显示器或扬声器输出接收到的文本数据。
根据本公开的各种实施例,智能服务器400可使用存储在智能服务器400的存储器中的声学模型和语言模块将语音数据转换为文本数据。声学模块可以是将通过处理语音数据获取的特征向量和与特征向量相应的候选音素组进行映射和存储的数据库。语言模块可以是存储用于使用与提取的语音数据相应的音素对语言排序关系(诸如单词和音节)进行建模的信息的数据库。在语言模型中,可将包括属于候选音素组的音素的语音数据和单词进行映射和存储。在语言模型中,可将包括属于候选音素组的音素的单词与语音数据之间的匹配概率与相应的映射一起存储。智能服务器400可基于包括属于候选音素组的音素的词与语音数据之间的匹配概率来选择与语音数据相应的词。
根据本公开的各种实施例,智能服务器400可使用通过转换语音数据而生成的文本数据来执行自然语言理解(NLU)处理。NLU处理可指基于转换的文本数据来确定用户的语音的话语意图的操作。智能服务器400可通过语法分析或语义分析来确定用户的意图。可以以将用户输入分割成语法单元(例如,单词、短语和词素)并掌握哪些语法元素被包括在分割的语法单元中的方式来执行语法分析。可使用语义匹配、规则匹配或公式匹配来执行语义分析。云服务器330可使用用于识别与相应于用户输入的意图匹配的服务的域、以及由意图和检查意图所需的参数(或槽)组成的匹配规则,来确定用户的意图和参数。例如,域(例如,警报)可包括多个意图(例如,警报设置和警报解除),并且意图可包括多个参数(例如,时间、重复次数和警报声音)。
根据本公开的各种实施例,智能服务器400可基于诸如词素和短语的语言特征(例如,语法元素)来检查从用户输入中提取的单词的含义,并将提取的单词的含义与域和意图进行匹配以确定用户的意图。例如,智能服务器400可通过计算在域和意图中的每个中包括多少个从用户输入提取的单词来确定用户的意图。根据实施例,智能服务器400可使用单词作为识别意图的基础来确定用户输入的参数。根据实施例,智能服务器400可基于自然语言识别数据库(未示出)来确定用户的意图,其中,自然语言识别数据库存储用于测量用户输入的意图的语言特征。根据可选实施例,智能服务器400可使用个性化语言模块(PLM)来确定用户的意图。例如,智能服务器400可使用个性化信息(例如,联系人列表和音乐播放列表)来确定用户的意图。
根据本公开的各种实施例,智能服务器400可验证通过NLU处理确定的用户的意图和适合于用户的意图的操作,并确定关于执行与用户的意图相应的操作所需的参数的信息。如果执行与用户的意图相应的操作所需的参数不足,则智能服务器400可向用户终端300、第一电子装置500、第二电子装置600和第三电子装置700请求参数。如果执行与用户的意图相应的操作所需的参数足够,则智能服务器400可执行与用户的意图相应的操作,并将执行结果发送到用户终端300、第一电子装置500、第二电子装置600和第三电子装置700。
图4是示出根据本公开的实施例的用于解释用户终端的基于语音的智能辅助服务的执行的屏幕显示的示图。
图4示出用户终端300响应于用户输入而执行基于语音的智能辅助服务。
参照图4,根据本公开的各种实施例,基于语音的智能服务可指用于基于由用户终端300的用户做出的输入(例如,麦克风上的语音输入和用户终端的显示器320上的触摸或手势输入)来启用各种服务的服务。
根据本公开的各种实施例,用户终端300可响应于通过硬件键312进行的输入而执行用于语音识别的基于语音的智能辅助服务。例如,在接收到通过硬件键312进行的用户输入时,用户终端300可在显示器320上显示用于基于语音的智能辅助服务的UI。作为示例,用户可触摸出现在基于语音的智能辅助服务的UI 321中的语音识别按钮321a,以便在显示器320上显示基于语音的智能辅助服务的UI 321的状态下进行用户输入。作为另一示例,用户还可保持按下硬件键312以进行语音输入,如附图标记331b所示。
根据各种实施例,用户终端300可接收通过麦克风(例如,图1中的输入装置150)做出的用于执行基于语音的智能辅助服务的唤醒话语。例如,如果如附图标记331a所示通过麦克风输入预定语音(例如,“嘿Galaxy!”、“Bixby!”、“Hi,Bixby!”和“唤醒!”),则用户终端300可在显示器320上显示基于语音的智能辅助服务的UI 321。
根据各种实施例,各种电子装置可接收由用户做出的唤醒话语。例如,用户终端300、第一电子装置500、第二电子装置600和第三电子装置700中的至少一个可接收由用户做出的唤醒话语。已经接收到用户的唤醒话语的至少一个装置可执行用于激活基于语音的智能辅助服务的操作。已经接收到用户的唤醒话语的至少一个装置可接收与基于语音的智能辅助服务相关联的用户输入(例如,用于执行特定应用的用户输入或用于控制注册的电子装置的用户输入),并将通过将用户输入转换为文本而获得的语音信息发送到智能服务器400。智能服务器400可基于由已经接收到唤醒话语的至少一个电子装置发送的语音信息来确定用户的意图或与用户的意图相应的操作。智能服务器400可将用于执行与用户的意图相应的操作的控制信号发送到至少一个电子装置。
根据本公开的各种实施例,如果多于一个电子装置已经接收到唤醒话语,则智能服务器400可能需要处理由多个电子装置发送的语音信息。如果智能服务器400处理由多个电子装置发送的所有语音信息,则可能增加智能服务器400上的负荷和用于处理语音信息的时间。为了减少智能服务器上的负荷,可能需要在接收到唤醒话语的电子装置中确定负责将语音信息发送到智能服务器的电子装置,使得该确定的电子装置将语音信息发送到智能服务器400,而其他电子装置不发送语音信息。在下文中,描述了用于确定负责发送在唤醒话语之后接收的语音信息的电子装置的方法。
图5是示出根据本公开的实施例的第一电子装置的配置的框图。
参照图5,第一电子装置500(例如,图1中的电子装置101)可包括用户接口(UI)510(例如,图1中的接口177)、扬声器520(例如,图1中的声音输出装置155)、麦克风530(例如,图1中的输入装置150)、处理器540(例如,图1中的处理器120)、存储器550(例如,图1中的存储器130)和通信电路560(例如,图1中的通信模块190)。
根据本公开的各种实施例,UI 510可指用于第一电子装置500接收由用户做出的输入或向用户输出信息的介质。
根据本公开的各种实施例,扬声器520可在处理器540的控制下输出各种音频声音。
根据本公开的各种实施例,麦克风530可拾取第一电子装置500周围的音频声音。麦克风530可接收用户的语音输入。例如,麦克风530可接收用于调用基于语音的智能辅助服务的用户的唤醒话语,并将与唤醒话语相应的语音信息发送到处理器540。
根据本公开的各种实施例,通信电路560可被配置为连接到蜂窝网络(例如,3G网络、LTE网络、5G网络、WiBro网络和WiMax网络)或短程有线/无线通信网络(例如,Wi-Fi网络、Zigbee网络和LAN)。根据本公开的各种实施例,通信电路560可在处理器540的控制下向智能服务器(例如,图3中的智能服务器400)发送各种数据/从智能服务器(例如,图3中的智能服务器400)接收各种数据。
根据本公开的各种实施例,处理器540可通过麦克风530接收用于调用基于语音的智能辅助服务的唤醒话语。在接收到唤醒话语时,处理器540可控制通信电路560广播与唤醒话语相关联的第一信息。
根据本公开的各种实施例,第一信息可包括第一电子装置500处的唤醒话语接收时间、第一电子装置500处的唤醒话语的信噪比(SNR)、第一电子装置500处的唤醒话语的质量、第一电子装置500的优先级和关于第一电子装置500的信息中的至少一部分。
根据本公开的各种实施例,唤醒话语的质量可指唤醒话语的清晰程度。唤醒话语的质量可包括唤醒话语的SNR。唤醒话语的SNR可指噪声的大小与唤醒话语的大小的比率。第一电子装置500的优先级可指在接收到唤醒话语的电子装置中用于处理唤醒话语之后的用户输入的电子装置的优先级。关于第一电子装置500的信息可以是各种信息,诸如身份信息(例如,国际移动装置身份(IMEI)和介质访问控制(MAC)地址)、第一电子装置的种类(例如,冰箱和扬声器)、以及指示第一电子装置500是否包括能够输出数据的特定组件(例如,显示器)的信息。
根据本公开的各种实施例,处理器540可生成与通过麦克风530接收的唤醒话语相关联的第一信息。
根据本公开的各种实施例,处理器540可以以各种方式广播第一信息。处理器540可通过通信电路560对连接到与第一电子装置500连接的网络(例如,Wi-Fi网络)的其他电子装置广播第一信息。
根据本公开的各种实施例,位于第一电子装置500周围的至少一个电子装置(例如,第二电子装置600)可接收由第一电子装置500广播的第一信息。第二电子装置600还可接收用户的唤醒话语。第二电子装置600可在接收到唤醒话语时,广播与唤醒话语相关联的第二信息。
根据本公开的各种实施例,第二信息可包括第二电子装置600处的唤醒话语接收时间、第二电子装置600处的唤醒话语的SNR、第二电子装置600处的唤醒话语的质量、第二电子装置600的优先级以及关于第二电子装置600的信息。
根据本公开的各种实施例,唤醒话语的SNR可指噪声的大小与唤醒话语的大小的比率。唤醒话语的质量可指唤醒话语的清晰程度。第二电子装置600的优先级可指在接收到唤醒话语的电子装置中用于处理唤醒话语之后的用户输入的电子装置的优先级。关于第二电子装置600的信息可以是各种信息,诸如第二电子装置600的身份信息(例如,IMEI和MAC地址)、第二电子装置600的种类(例如,冰箱和扬声器)、以及指示第二电子装置600是否包括能够输出数据的特定组件(例如,显示器)的信息。
根据本公开的各种实施例,处理器540可接收由第二电子装置600发送的第二信息。处理器540可以以各种方式接收第二信息。例如,处理器540可通过通信电路560接收第二信息。
根据本公开的各种实施例,可以以相同的通信模式广播第一信息和第二信息。
根据本公开的各种实施例,处理器540可将第一信息和第二信息进行比较,以基于比较结果的至少一部分来确定是否将在唤醒话语之后接收的语音信息发送到智能服务器400。
根据本公开的各种实施例,处理器540可将在第一电子装置500处测量的唤醒话语的SNR与包括在第二信息中的唤醒话语的信号与干扰加噪声比(SINR)进行比较。如果在第一电子装置500处测量的唤醒话语的SNR大于包括在第二信息中的唤醒话语的SINR,则这可指示第一电子装置500具有优于第二电子装置600的用于接收唤醒话语之后的用户语音的环境。基于确定在第一电子装置500处测量的唤醒话语的SNR大于包括在第二信息中的唤醒话语的SINR,处理器540可确定将唤醒话语之后的用户的语音发送到智能服务器400。基于确定包括在第一信息中的唤醒话语的SNR小于包括在第二信息中的唤醒话语的SNR,处理器540可确定不将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第二电子装置600可确定将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,处理器540可将包括在第一信息中的唤醒话语的质量和包括在第二信息中的唤醒话语的质量进行比较。如果包括在第一信息中的唤醒话语的质量优于包括在第二信息中的唤醒话语的质量,则这可指示第一电子装置500具有优于第二电子装置600的用于接收唤醒话语之后的用户语音的环境。基于确定包括在第一信息中的唤醒话语的质量优于包括在第二信息中的唤醒话语的质量,处理器540可确定将唤醒话语之后的用户的语音发送到智能服务器400。基于确定包括在第一信息中的唤醒话语的质量比包括在第二信息中的唤醒话语的质量差,处理器540可确定不将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第二电子装置600可确定将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,处理器540可将包括在第一信息中的第一电子装置500的优先级与包括在第二信息中的第二电子装置600的优先级进行比较。优先级可指用于确定电子装置优先处理用户的语音的优先级。处理器540可基于确定第一电子装置500的优先级高于第二电子装置600的优先级,来确定将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,处理器540可检查包括在从第二电子装置600接收的第二信息中的SNR,并将包括在第二信息中的SNR与在第一电子装置500处测量的SNR进行比较。处理器540可基于在第一电子装置500处测量的SNR与包括在第二信息中的SNR之间的比较结果,来确定是否广播第一信息。基于确定在第一电子装置500处测量的SNR大于包括在第二信息中的SNR,处理器540可确定广播第一信息。基于确定在第一电子装置500处测量的SNR小于包括在第二信息中的SNR,处理器540可确定不广播第一信息。
根据本公开的各种实施例,处理器540可基于确定在广播与唤醒相关的第一信息之后的预定时间内没有接收到第二信息,确定将在唤醒话语之后接收的语音信息发送到智能服务器400。
根据本公开的各种实施例,第二电子装置(例如,图3中的第二电子装置600)和第三电子装置(例如,图3中的第三电子装置700)可各自包括与第一电子装置500的组件(例如,UI 510、扬声器520、麦克风530、处理器540、存储器550和通信电路560)在功能上相同的组件。
根据本公开的各种实施例,存储器550可存储与处理器540的上述操作相关联的指令。
图6是示出根据本公开的实施例的第一电子装置和第二电子装置之间的信号流的信号流程图。
参照图6,根据本公开的各种实施例,在操作610,第一电子装置(例如,图3中的第一电子装置500)和第二电子装置(例如,图3中的第二装置600)可接收用户的唤醒话语。如果第一电子装置500和第二电子装置600彼此靠近,则第一电子装置500和第二电子装置600都可接收用户的唤醒话语。
根据本公开的各种实施例,在操作620,第一电子装置500可广播与唤醒话语相关联的第一信息。
根据本公开的各种实施例,第一信息可包括第一电子装置500处的唤醒话语接收时间、第一电子装置500处的唤醒话语的SNR、第一电子装置500处的唤醒话语的质量、第一电子装置500的优先级和关于第一电子装置500的信息中的至少一部分。
根据本公开的各种实施例,在操作630,第二电子装置600可广播与唤醒话语相关联的第二信息。
根据本公开的各种实施例,第二信息可包括第二电子装置600处的唤醒话语接收时间、第二电子装置600处的唤醒话语的SNR、第二电子装置600处的唤醒话语的质量、第二电子装置600的优先级和关于第二电子装置600的信息中的至少一部分。
根据本公开的各种实施例,唤醒话语的SNR可指噪声的大小与唤醒话语的大小的比率。唤醒话语的质量可指唤醒话语的清晰程度。第二电子装置600的优先级可指在接收到唤醒话语的电子装置中用于处理唤醒话语之后的用户输入的电子装置的优先级。关于第一电子装置500或第二电子装置600的信息可以是各种信息,诸如第一电子装置500或第二电子装置600的身份信息(例如,IMEI和MAC地址)、第一电子装置500或第二电子装置600的种类(例如,冰箱和扬声器)、以及指示第一电子装置500或第二电子装置600是否包括能够输出数据的特定组件(例如,显示器)的信息。
根据本公开的各种实施例,可以以相同的通信方案发送在操作620广播的第一信息和在操作630广播的第二信息。例如,可以以短程通信模式(例如,Wi-Fi、BluetoothTM和Zigbee)广播第一信息和第二信息。
根据本公开的各种实施例,在操作640,第一电子装置500可将第一信息和接收到的第二信息进行比较。在操作650,第二电子装置可将接收到的第一信息和第二信息进行比较。
根据本公开的各种实施例,第一电子装置500和第二电子装置600可分别在操作660和操作670基于比较结果来确定是否将唤醒话语之后的用户的语音信息发送到智能服务器。
根据本公开的各种实施例,第一电子装置500可将包括在第一信息中的唤醒话语的SNR与包括在第二信息中的唤醒话语的SNR进行比较。如果包括在第一信息中的唤醒话语的SNR大于包括在第二信息中的唤醒话语的SINR,则这可指示第一电子装置500具有优于第二电子装置600的用于接收唤醒话语之后的用户语音的环境。基于确定在第一电子装置500处测量的唤醒话语的SNR大于包括在第二信息中的唤醒话语的SINR,第一电子装置500可确定将唤醒话语之后的用户的语音发送到智能服务器400。基于确定包括在第一信息中的唤醒话语的SNR小于包括在第二信息中的唤醒话语的SNR,第一电子装置500可确定不将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第二电子装置600可确定将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,第一电子装置500和第二电子装置600可各自将包括在第一信息中的唤醒话语的质量和包括在第二信息中的唤醒话语的质量进行比较。如果包括在第一信息中的唤醒话语的质量优于包括在第二信息中的唤醒话语的质量,则这可指示第一电子装置500具有优于第二电子装置600的用于接收唤醒话语之后的用户语音的环境。基于确定包括在第一信息中的唤醒话语的质量优于包括在第二信息中的唤醒话语的质量,第一电子装置500可确定将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第二电子装置600可确定不将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,基于确定包括在第一信息中的唤醒话语的质量比包括在第二信息中的唤醒话语的质量差,第一电子装置500可确定不将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第二电子装置600可确定将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,第一电子装置500可将包括在第一信息中的第一电子装置500的优先级与包括在第二信息中的第二电子装置600的优先级进行比较。优先级可指用于确定电子装置优先处理用户的语音的优先级。基于确定第一电子装置500的优先级高于第二电子装置600的优先级,第一电子装置500可确定将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,在做出发送语音信息的决定之后,电子装置(例如,第一电子装置500)可在操作680将唤醒话语之后的用户的语音信息发送到智能服务器400。
尽管图6示出了第一电子装置将语音信息发送到智能服务器400,但是第二电子装置600可根据比较结果将语音信息发送到智能服务器400。
图7是示出根据本公开的实施例的用于确定负责将唤醒话语之后的语音信息发送到外部电子装置的电子装置的操作的示图。
参照图7,第一电子装置(例如,图3中的第一电子装置500)、第二电子装置(例如,图3中的第二电子装置600)、第三电子装置(例如,第三电子装置700)和第四电子装置720可连接到短距离通信网络(例如,Wi-Fi网络)的接入点(AP)710。电子装置可经由AP 710和通信网络740访问智能服务器(例如,图3中的智能服务器400)。通信网络可以是利用能够向智能服务器400发送数据/从智能服务器400接收数据的各种通信装置实现的网络(例如,蜂窝网络)。
根据本公开的各种实施例,第二电子装置600、第三电子装置700和第四电子装置720可各自包括与第一电子装置500的组件(例如,UI 510、扬声器520、麦克风530、处理器540、存储器550和通信电路560)在功能上相同的组件。第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720中的至少一个可经由由AP 710建立的短程通信网络发送用户的语音信息。智能服务器400可接收用户的语音信息,并基于语音信息执行与基于语音的智能辅助服务相关联的操作。第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可位于它们可接收用户的唤醒话语的区域719内。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720可利用麦克风(例如,图5中的麦克风530)接收由用户发出的唤醒话语。第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可生成包括SNR 711、SNR 713、SNR 715和SNR 717的第一信息,其中,SNR 711、SNR 713、SNR 715和SNR717分别关于通过麦克风530接收的唤醒话语。
根据本公开的各种实施例,第一信息可包括在每个电子装置处接收的唤醒话语的SNR。参照图7,在第一电子装置500处接收到的唤醒话语730的SNR 711可以是60dB,在第二电子装置600处接收到的唤醒话语730的SNR713可以是80dB,在第三电子装置700处接收到的唤醒话语730的SNR 715可以是45dB,并且在第四电子装置720处接收到的唤醒话语730的SNR 717可以是30dB。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720可广播第一信息。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可各自通过扬声器(例如,图5中的扬声器520)输出包括第一信息的音频声音。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可使用由AP 710建立的网络来广播第一信息。第一信息可由相应的电子装置在没有AP 710的干预的情况下广播。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可接收与唤醒话语730相关联的第二信息。第二信息可包括在另一电子装置(例如,第二电子装置600、第三电子装置700和第四电子装置720)而不是电子装置本身(例如,第一电子装置500)处接收的唤醒话语730的SNR。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可各自将第一信息和第二信息进行比较,以基于比较的结果来确定是否将唤醒话语730之后的用户的语音信息发送到智能服务器。
例如,第一电子装置500可验证由第一电子装置500接收到的唤醒话语730的SNR711(即,63dB)小于由第二电子装置600接收到的唤醒话语730的SNR 713(即,80dB)。在这种情况下,第一电子装置500可确定不将唤醒话语730之后的用户的语音信息发送到智能服务器400。
例如,第二电子装置600可验证由第二电子装置600接收到的唤醒话语730的SNR713(即,80dB)大于由任何其他电子装置接收到的唤醒话语730的SNR。在这种情况下,第二电子装置600可确定将唤醒话语730之后的用户的语音信息发送到智能服务器400。例如,如果在预定时间内没有从其他电子装置接收到第二信息,则第二电子装置600可经由AP 710将接收到的用户的语音信息发送到智能服务器400。
例如,第三电子装置700可验证由第三电子装置700接收到的唤醒话语730的SNR715(即,45dB)小于由第二电子装置600接收到的唤醒话语730的SNR 713(即,80dB)。在这种情况下,第三电子装置700可确定不将唤醒话语730之后的用户的语音信息到智能服务器400。
例如,第四电子装置720可验证由第四电子装置720接收到的唤醒话语的SNR 717小于由第二电子装置600接收到的唤醒话语730的SNR 713(即,80dB)。在这种情况下,第四电子装置720可确定不将唤醒话语730之后的用户的语音信息发送到智能服务器400。
图8是示出根据本公开内容的实施例的用户终端的框图。
参照图8,用户终端(例如,图3中的用户终端300)可包括用户接口(UI)810、扬声器820、麦克风830、处理器840、存储器850和通信电路860。
根据本公开的各种实施例,UI 810可指用于用户终端300接收由用户做出的输入或向用户输出信息的媒介。
根据本公开的各种实施例,扬声器820可在处理器840的控制下输出各种音频声音。
根据本公开的各种实施例,音频声音可以是在用户难以听到的频带中发送并且通过扬声器820发送的信号。例如,音频声音可以是在17kHz至25kHz的频率范围内发送的信号。
根据本公开的各种实施例,麦克风830可拾取用户终端300周围的音频声音。麦克风830可接收用户的语音输入。例如,麦克风830可接收用于调用基于语音的智能辅助服务的用户的唤醒话语,并将与唤醒话语相应的语音信息发送到处理器840。
根据本公开的各种实施例,通信电路860可被配置为连接到蜂窝网络(例如,3G网络、LTE网络、5G网络、WiBro网络和WiMax网络)或短程有线/无线通信网络(例如,Wi-Fi网络、Zigbee网络和LAN)。根据本公开的各种实施例,通信电路860可在处理器840的控制下向智能服务器(例如,图3中的智能服务器400)发送各种数据/从智能服务器(例如,图3中的智能服务器400)接收各种数据。
根据本公开的各种实施例,处理器840可通过麦克风830接收用于调用基于语音的智能辅助服务的唤醒话语。在接收到唤醒话语时,处理器840可生成与唤醒话语相关联的第一信息。
根据本公开的各种实施例,第一信息可包括用户终端300处的唤醒话语接收时间、用户终端300处的唤醒话语的SNR、用户终端300处的唤醒话语的质量、用户终端300的优先级和关于用户终端300的信息中的至少一部分。
根据本公开的各种实施例,唤醒话语的质量可指唤醒话语的清晰程度。唤醒话语的质量可包括唤醒话语的SNR。唤醒话语的SNR可指噪声的大小与唤醒话语的大小的比率。用户终端300的优先级可指在接收到唤醒话语的电子装置中用于处理唤醒话语之后的用户输入的电子装置的优先级。关于用户终端300的信息可以是各种信息,诸如身份信息(例如,IMEI和MAC地址)、第一电子装置的种类(例如,冰箱、扬声器和移动装置)、以及指示用户终端300是否包括能够输出数据的特定组件(例如,显示器)的信息。
根据本公开的各种实施例,一个或更多个其他电子装置(例如,图3中的第一电子装置500和第二电子装置600)也可接收用户的唤醒话语。第一电子装置500和第二电子装置600可各自基于唤醒话语相关信息(例如,唤醒话语的SNR)比较的结果来确定是否发送唤醒话语之后的用户的语音信息。在下文中,为了便于解释,假设第一电子装置500被确定为负责发送唤醒话语之后的用户的语音信息的电子装置。
根据本公开的各种实施例,用户终端300和第一电子装置500可使用不同的网络。用户终端300可经由第一网络(例如,蜂窝网络)向智能服务器400发送/从智能服务器400接收数据。第一电子装置500可经由第二网络(例如,短距离通信网络)向智能服务器400发送数据/从智能服务器400接收数据。第一电子装置500可以以由第二网络提供的通信模式发送关于唤醒话语的信息,并且在这种情况下,用户终端300和第一电子装置500可不直接彼此传送数据。根据本公开的各种实施例,用户终端300和第二电子装置600可使用音频声音直接传送数据。
根据本公开的各种实施例,处理器可控制扬声器820广播包括第一信息的音频声音。
根据本公开的各种实施例,第一电子装置500可输出包括第二信息的音频声音,其中,第二信息指示发送唤醒话语之后的用户的语音信息。处理器840可通过麦克风830接收包括第二信息的音频声音。根据本公开的各种实施例,处理器840可将第一信息和第二信息进行比较,以基于比较结果确定是否将唤醒话语之后的语音信息发送到智能服务器400。
例如,处理器840可将由用户终端300测量的SNR与包括在第二信息中的SNR进行比较。如果由用户终端300测量的SNR大于包括在第二信息中的SNR,则这可指示用户终端300具有优于第一电子装置500的用于接收唤醒话语之后的用户语音的环境。基于确定在用户终端300处测量的唤醒话语的SNR大于包括在第二信息中的唤醒话语的SINR,处理器840可确定将唤醒话语之后的用户的语音发送到智能服务器400。基于确定由用户终端300测量的唤醒话语的SNR小于包括在第二信息中的唤醒话语的SNR,处理器840可确定不将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第一电子装置500可将唤醒话语之后的用户语音发送到智能服务器400。
例如,处理器840可将由用户终端300测量的唤醒话语的质量与包括在第二信息中的唤醒话语的质量进行比较。如果由用户终端300测量的唤醒话语的质量优于包括在第二信息中的唤醒话语的质量,则这可指示用户终端具有优于第一电子装置500的用于接收唤醒话语之后的用户语音的环境。
根据本公开的各种实施例,处理器840可将用户终端300的优先级与包括在第二信息中的第一电子装置500的优先级进行比较。优先级可指用于确定电子装置优先处理用户的语音的优先级。基于确定用户终端300的优先级高,处理器840可确定将唤醒话语之后的用户的语音发送到智能服务器400。
上述实施例可不需要智能服务器400来选择语音信息处理结果被发送到的电子装置,从而进一步减少智能服务器上的负荷。
根据本公开的替代实施例,处理器840可将在唤醒话语之后接收的用户的语音信息和第二信息的至少一部分(例如,指示接收到第二信息的信息和包括在第二信息中的SNR信息)发送到智能服务器400。智能服务器400可确定由用户终端300发送的数据是否包括第二信息。基于确定由用户终端300发送的数据包括第二信息,智能服务器400可等待直到接收到由第一电子装置发送的唤醒话语之后的用户的语音信息。智能服务器400可选择用户终端300和第一电子装置500中的一个作为语音信息处理结果将被发送到的目标装置。稍后参照图11详细描述智能服务器400。
根据本公开的各种实施例,如果确定用户终端300经由蜂窝网络向智能服务器发送数据,则用户终端300可能够比经由短程通信网络向智能服务器发送数据的第一电子装置500更快地发送数据。用户终端300可发送指示第一电子装置500是否向智能服务器400发送语音信息的信息,从而防止智能服务器400的冗余语音信息处理并减少智能服务器400上的负荷。
根据本公开的各种实施例,存储器850可存储可由处理器840执行以完成上述操作的指令。
图9是示出根据本公开的实施例的用户终端、第一电子装置、第二电子装置和外部服务器之间的信号流的信号流程图。
参照图9,根据本公开的各种实施例,在操作905,用户终端(例如,图3中的用户终端300)、第一电子装置(例如,图3中的第一电子装置500)和第二电子装置(例如,图3中的第二电子装置600)可接收由用户做出的唤醒话语。例如,用户终端300、第一电子装置500和第二电子装置600可彼此靠近地定位以接收由用户做出的唤醒话语。
根据本公开的各种实施例,第一电子装置500和第二电子装置600可连接到相同的网络(例如,短距离通信网络),并且用户终端300可连接到与第一电子装置500和第二电子装置600所连接的网络不同的另一网络(例如,蜂窝网络)。
根据本公开的各种实施例,在操作910,第一电子装置500可广播与唤醒话语相关联的第一信息。
根据本公开的各种实施例,第一信息可包括第一电子装置500处的唤醒话语接收时间、第一电子装置500处的唤醒话语的SNR、第一电子装置500处的唤醒话语的质量、第一电子装置500的优先级以及关于第一电子装置500的信息。
根据本公开的各种实施例,唤醒话语的质量可意指唤醒话语的清晰程度。唤醒话语的质量可包括唤醒话语的SNR。唤醒话语的SNR可指噪声的大小与唤醒话语的大小的比率。
第一电子装置500的优先级可指在接收到唤醒话语的电子装置中用于处理唤醒话语之后的用户输入的电子装置的优先级。关于第一电子装置500的信息可以是各种信息,诸如身份信息(例如,IMEI和MAC地址)、第一电子装置的种类(例如,冰箱和扬声器)、以及指示第一电子装置500是否包括能够输出数据的特定组件(例如,显示器)的信息。
根据本公开的各种实施例,第二电子装置600可在操作915广播与唤醒话语相关联的第二信息。
根据本公开的各种实施例,第二信息可包括第二电子装置600处的唤醒话语接收时间、第二电子装置600处的唤醒话语的SNR、第二电子装置600处的唤醒话语的质量、第二电子装置600的优先级和关于第二电子装置600的信息中的至少一部分。
根据本公开的各种实施例,可使用短程通信网络(例如,Wi-Fi、BluetoothTM和Zigbee网络)来广播第一信息和第二信息。
根据本公开的各种实施例,在操作920,第一电子装置500可将第一信息和接收到的第二信息进行比较。在操作925,第二电子装置600可将接收到的第一信息和接收到的第二信息进行比较。
根据本公开的各种实施例,第一电子装置500和第二电子装置600可分别在操作930和操作935基于比较结果来确定是否将唤醒话语之后的用户的语音信息发送到智能服务器400。
根据本公开的各种实施例,第一电子装置500可将包括在第一信息中的唤醒话语的SNR与包括在第二信息中的唤醒话语的SNR进行比较。如果包括在第一信息中的唤醒话语的SNR大于包括在第二信息中的唤醒话语的SINR,则这可指示第一电子装置500具有优于第二电子装置600的用于接收唤醒话语之后的用户语音的环境。基于确定在第一电子装置500处测量的唤醒话语的SNR大于包括在第二信息中的唤醒话语的SINR,第一电子装置500可确定将唤醒话语之后的用户的语音发送到智能服务器400。基于确定包括在第一信息中的唤醒话语的SNR小于包括在第二信息中的唤醒话语的SNR,第一电子装置500可确定不将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第二电子装置600可确定将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,第一电子装置500和第二电子装置600可各自将包括在第一信息中的唤醒话语的质量和包括在第二信息中的唤醒话语的质量进行比较。如果包括在第一信息中的唤醒话语的质量优于包括在第二信息中的唤醒话语的质量,则这可指示第一电子装置500具有优于第二电子装置600的用于接收唤醒话语之后的用户语音的环境。基于确定包括在第一信息中的唤醒话语的质量优于包括在第二信息中的唤醒话语的质量,第一电子装置500可确定将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第二电子装置600可确定不将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,第一电子装置500可基于确定包括在第一信息中的唤醒话语的质量比包括在第二信息中的唤醒话语的质量差,来确定不将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第二电子装置600可确定将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,第一电子装置500可将包括在第一信息中的第一电子装置500的优先级与包括在第二信息中的第二电子装置600的优先级进行比较。优先级可指用于确定电子装置优先处理用户的语音的优先级。基于确定第一电子装置500的优先级高于第二电子装置600的优先级,第一电子装置500可确定将唤醒话语之后的用户的语音发送到智能服务器400。
在下文中,为了便于解释,假设第一电子装置500确定将唤醒话语之后的用户语音信息发送到智能服务器400。
根据本公开的各种实施例,第一电子装置500可通过扬声器(例如,图5中的扬声器520)将包括指示发送语音信息的第三信息的音频声音广播到智能服务器400。
根据本公开的各种实施例,用户终端300可在操作940接收由第一电子装置500广播的第三信息,并且在操作945将在唤醒话语之后接收的语音信息和第三信息发送到智能服务器400。根据实施例,第二电子装置600可接收由第一电子装置500广播的第三信息;在这种情况下,可忽略相应的信息。根据本公开的各种实施例,智能服务器400可确定由用户终端300发送的数据是否包括第三信息。用户终端300可在接收到唤醒话语之后的预定时间段期间等待接收第三信息。如果在预定时间内接收到第三信息,则用户终端可将所接收的第三信息的至少一部分发送到智能服务器400。智能服务器400可基于确定由用户终端330发送的数据包括第三信息,等待直到从第一电子装置500接收到唤醒话语之后的用户的语音信息。
根据本公开的各种实施例,在操作950,第一电子装置500可将在唤醒话语之后接收的语音信息发送到智能服务器400。
根据本公开的各种实施例,智能服务器400可基于语音信息处理基于语音的智能辅助服务,并且在操作955确定处理结果将被发送到的电子装置。稍后参照图11详细描述如何确定处理结果将被发送到的电子装置。
根据本公开的各种实施例,在操作960,智能服务器400可将服务处理结果发送到确定的电子装置(例如,用户终端300)。
根据本公开的各种实施例,用户终端300可预先确定在用户终端300周围是否存在用于接收唤醒话语的任何电子装置。用户终端300可使用音频声音来广播用于发现第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720的存在的信号。作为对用于发现第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720的存在的信号的回复,第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720可向用户终端发送响应信号。用户终端300可基于接收到响应信号来识别第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720的存在。用户终端300可向智能服务器400发送指示第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720的存在的信号。用户终端300可向智能服务器400发送指示第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720的存在的信号,而不管操作910、操作915、操作920、操作925、操作930、操作935、操作940、操作945和操作950如何。
根据本公开的各种实施例,用户终端300可在操作960之后再次接收用户的唤醒话语。在这种情况下,用户终端300发现第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720的存在,并向智能服务器400发送指示第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720的存在的信号。
根据本公开的各种实施例,如果智能服务器400接收到指示第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720的存在的信号,则它可暂停处理由用户终端300发送的语音信息,直到从第一电子装置500接收到语音信息。
根据实施例,用户终端300可基于从外部电子装置接收的信号来预先确定在用户终端300周围是否存在能够接收唤醒话语的任何电子装置。例如,用户终端300可从第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720接收音频声音,并将指示用户终端周围存在外部电子装置的信号发送到智能服务器400。用户终端300可向智能服务器400发送指示第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720的存在的信号,而不管操作910、操作915、操作920、操作925、操作930、操作935、操作940、操作945和操作950如何。
图10是示出根据本公开的实施例的用于确定负责将唤醒话语之后的语音信息发送到外部服务器的电子装置的操作的示图。
参照图10,第一电子装置(例如,图3中的第一电子装置500)、第二电子装置(例如,图3中的第二电子装置600)、第三电子装置(例如,图3中的第三电子装置700)、第四电子装置720和第五电子装置1020可经由短距离通信网络(例如,Wi-Fi网络)连接到AP(例如,图7中的AP 710)。AP 710和用户终端300可经由通信网络740连接到智能服务器400。通信网络740可以是利用能够向智能服务器400发送数据/从智能服务器400接收数据的各种通信装置实现的网络(例如,蜂窝网络)。
根据本公开的各种实施例,用户终端300、第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可位于它们能够接收到用户的唤醒话语的区域719内。第五电子装置1020可位于能够接收到用户的唤醒话语的区域之外。例如,用户在特定空间(例如,房间)中,在用户终端300、第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720位于房间内部而第五电子装置1020位于房间外部的情况下,可仅在房间内听到用户的话语。
根据本公开的各种实施例,智能服务器(例如,图3中的智能服务器400)可经由由AP 710建立的短程通信网络接收由第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置(例如,图7中的第四电子装置720)中的一个发送的用户的语音信息,并且基于语音信息执行与基于语音的智能辅助服务相关的操作。用户终端(例如,图3中的用户终端300)可连接到蜂窝网络而不是由AP 710建立的短距离通信网络。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可接收由用户通过麦克风(例如,图5中的麦克风530)做出的唤醒话语730。第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可各自生成由SNR 711、SNR 713、SNR 715和SNR 717所表示的、关于通过麦克风530接收的唤醒话语的第一信息。
根据本公开的各种实施例,第一信息可包括在每个电子装置处接收的唤醒话语的SNR。参照图10,在第一电子装置500处接收到的唤醒话语730的SNR 711可以是60dB,在第二电子装置600处接收到的唤醒话语730的SNR 713可以是80dB,在第三电子装置700处接收到的唤醒话语730的SNR 715可以是45dB,并且在第四电子装置720处接收到的唤醒话语730的SNR 717可以是30dB。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可广播第一信息。第五电子装置1020可既不接收用户的唤醒话语也不广播第一信息。
根据本公开的各种实施例,可经由第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720连接到的短程通信网络来广播第一信息。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可使用由AP 710建立的网络来广播第一信息。第一信息可由相应的电子装置在没有AP 710的干预的情况下广播。例如,可经由短距离通信网络广播第一信息,其中,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可通过短距离通信网络在Wi-Fi直连通信模式下广播第一信息,这消除了对AP710的干预的需要。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可接收与唤醒话语730相关联的第二信息。第二信息可包括在另一电子装置(例如,第二电子装置600、第三电子装置700和第四电子装置720)而不是电子装置本身(例如,第一电子装置500)处接收的唤醒话语730的SNR。
根据本公开的各种实施例,第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720可各自将第一信息和第二信息进行比较,以基于比较的结果来确定是否将唤醒话语730之后的用户的语音信息发送到智能服务器。
例如,第一电子装置500可验证由第一电子装置500接收到的唤醒话语730的SNR711(即,63dB)小于由第二电子装置600接收到的唤醒话语730的SNR 713(即,80dB)。在这种情况下,第一电子装置500可确定不将唤醒话语730之后的用户的语音信息发送到智能服务器400。
例如,第二电子装置600可验证由第二电子装置600接收到的唤醒话语730的SNR713(即,80dB)大于由任何其他电子装置接收到的唤醒话语730的SNR。在这种情况下,第二电子装置600可确定将唤醒话语730之后的用户的语音信息发送到智能服务器400。
例如,第三电子装置700可验证由第三电子装置700接收到的唤醒话语730的SNR715(即,45dB)小于由第二电子装置600接收到的唤醒话语730的SNR 713(即,80dB)。在这种情况下,第三电子装置700可确定不将唤醒话语730之后的用户的语音信息发送到智能服务器400。
例如,第四电子装置720可验证由第四电子装置720接收到的唤醒话语的SNR 717小于由第二电子装置600接收到的唤醒话语730的SNR 713(即,80dB)。在这种情况下,第四电子装置720可确定不将唤醒话语730之后的用户的语音信息发送到智能服务器400。
根据本公开的各种实施例,第一电子装置500可将包括第三信息的音频声音1010输出到智能服务器400,其中,第三信息指示发送唤醒话语730之后的用户的语音信息。第三信息可包括第一电子装置500处的唤醒话语接收时间、第一电子装置500处的唤醒话语的SNR、第一电子装置500的优先级和第一电子装置500的装置信息中的至少一部分。
根据本公开的各种实施例,用户终端300可接收由用户做出的唤醒话语。用户终端300可在接收到唤醒话语之后的预定时间段期间等待接收第三信息。如果用户终端300在预定时间段期间未能接收到第三信息,则用户终端300可将唤醒话语之后接收的语音信息发送到智能服务器400。
根据本公开的各种实施例,用户终端300可在预定时间段期间接收由第一电子装置500发送的第三信息。用户终端300可将在唤醒话语之后接收的用户的语音信息和第三信息发送到智能服务器400。
根据本公开的各种实施例,用户终端可广播包括第四信息的音频声音。第四信息可包括用户终端300处的唤醒话语接收时间、用户终端300处的唤醒话语的SNR、用户终端300处的唤醒话语的质量、用户终端300的优先级和关于用户终端的信息中的至少一部分。在接收到包括第三信息的音频声音时,用户终端300可通过扬声器(例如,图8中的扬声器820)广播包括第四信息的音频声音。
根据本公开的各种实施例,用户终端300可将包括在第三信息中的SNR与由用户终端300测量的SNR(由用户终端300测量的SNR可被包括在第四信息中)进行比较。第一电子装置500可将包括在第四信息中的SNR与由第一电子装置测量的SNR(由第一电子装置测量的SNR可被包括在第三信息中)进行比较。
根据本公开的各种实施例,用户终端300和第一电子装置500可各自基于SNR比较结果的至少一部分,来确定是否将唤醒话语之后的语音信息发送到智能服务器400。
根据本公开的各种实施例,如果由用户终端300测量的SNR大于包括在第三信息中的SNR,则这可指示用户终端300具有优于第一电子装置500的用于接收唤醒话语之后的用户语音的环境。基于确定在用户终端300处测量的唤醒话语的SNR大于包括在第三信息中的唤醒话语的SINR,用户终端300可确定将唤醒话语之后的用户的语音发送到智能服务器400。基于确定包括在第四信息中的唤醒话语的SNR小于在第一电子装置500处测量的唤醒话语的SNR,第一电子装置500可确定不将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,如果由用户终端300测量的唤醒话语的质量优于在第一电子装置500处测量的唤醒话语的质量,则这可指示用户终端具有优于第一电子装置500的用于接收唤醒话语之后的用户语音的环境。基于确定在用户终端300处测量的唤醒话语的质量优于包括在第三信息中的唤醒话语的质量,用户终端300可确定将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第一电子装置500可确定不将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,基于确定在用户终端300处测量的唤醒话语的质量比包括在第三信息中的唤醒话语的质量差,用户终端300可确定不将唤醒话语之后的用户的语音发送到智能服务器400。在这种情况下,第一电子装置500可确定将唤醒话语之后的用户的语音发送到智能服务器400。
根据本公开的各种实施例,用户终端300可将用户终端300的优先级与包括在第三信息中的第一电子装置500的优先级进行比较。优先级可指用于确定电子装置优先处理用户的语音的优先级。基于确定第一电子装置500的优先级高,用户终端300可确定将唤醒话语之后的用户的语音发送到智能服务器400。
与其他通信装置(例如,短程通信网络)的信号相比,音频声音的特征在于,较短的传播距离和较差的平直度。由于这些特性,位于靠近发出唤醒话语的用户的电子装置(例如,用户终端300、第一电子装置500、第二电子装置600、第三电子装置700和第四电子装置720)可接收相应的音频声音,而位于远离发出唤醒话语的用户的电子装置(例如,第五电子装置1050)可能接收不到相应的音频声音。用于使用音频声音发送第一信息的方法能够防止远离发出唤醒话语的用户的电子装置(例如,第五电子装置1020)接收第三信息和第四信息,以便减少远离用户的电子装置(例如,第五电子装置1020)上的不必要的负荷。
图11是示出根据本公开的实施例的智能服务器的配置的框图。
参照图11,智能服务器(例如,图3中的智能服务器400)可包括通信电路1110、处理器1120和存储器1130。
根据本公开的各种实施例,通信电路1110可被配置为建立到蜂窝网络(例如,3G网络、LTE网络、5G网络、WiBro网络和Wimax网络)的连接。根据本公开的各种实施例,通信电路1110可在处理器1120的控制下利用外部电子装置(例如,图3中的用户终端300、图3中的第一电子装置500、图3中的第二电子装置600和图3中的第三电子装置700)发送/接收与基于语音的智能辅助服务器相关的各种数据。
根据本公开的各种实施例,处理器1120可通过通信电路1110从用户终端300接收与用于调用基于语音的智能辅助服务的唤醒话语之后的用户语音信息有关的第一信息。处理器1120可通过通信电路1110从第一电子装置500接收与唤醒话语之后的用户语音信息有关的第二信息。
根据本公开的各种实施例,用户终端300可从第一电子装置500接收指示发送在唤醒话语之后接收的用户的语音信息的信号。
根据本公开的各种实施例,在用户终端300经由蜂窝网络将数据发送到智能服务器400的情况下,蜂窝网络的数据速率通常可大于短程通信网络的数据速率,并且由于第一电子装置500在第二电子装置600、第三电子装置700和第四电子装置720中选择负责将语音信息发送到智能服务器400的电子装置所需的时间,用户终端300可比经由短程通信网络将数据发送到智能服务器400的第一电子装置500更快地将数据发送到智能服务器400。
根据本公开的各种实施例,基于确定由用户终端300发送的第一信息包括指示第一电子装置500负责发送用户的语音信息的信号,智能服务器400可在处理第一信息之前等待预定时间段。智能服务器400可在预定时间段内接收由第一电子装置500发送的第二信息。智能服务器400可处理第一信息和第二信息中的一个,并将处理结果发送到已经发送了相应信息的电子装置。如果用户终端300将指示第一电子装置500是否负责发送语音信息的信息发送到智能服务器400,则这可导致消除智能服务器400的冗余语音信息处理并减少智能服务器400上的负荷。
根据本公开的各种实施例,用户终端300可从第一电子装置500接收指示发送唤醒话语之后的用户的语音信息的信号,并且将包括指示第一电子装置500负责发送唤醒话语之后的用户的语音的信号的第一信息发送到智能服务器400。
根据本公开的各种实施例,基于确定第一信息包括指示第一电子装置500负责发送唤醒话语之后的用户的语音信息的信号,处理器1120可暂停语音信息处理,直到从第一电子装置500接收到唤醒话语之后的用户的语音信息。
根据本公开的各种实施例,处理器1120可在接收到由第一电子装置发送的语音信息时,执行语音信息处理。可处理接收的语音信息以执行基于语音的智能辅助。
根据本公开的各种实施例,处理器1120可确定语音信息处理结果将被发送到的电子装置。处理器1120可选择用户终端300和第一电子装置500中的一个,并将语音信息处理结果发送到选择的电子装置。
根据本公开的各种实施例,处理器1120可将由用户终端300发送的第一信息和由第一电子装置发送的第二信息进行比较,并选择用户终端300和第一电子装置两个中的一个作为比较结果将被发送到的电子装置。
根据本公开的各种实施例,第一信息可包括用户终端300处的唤醒话语接收时间、用户终端300处的唤醒话语的SNR、用户终端300处的唤醒话语的质量、用户终端300的优先级以及关于用户终端300的信息。
根据本公开的各种实施例,第二信息可包括第一电子装置500处的唤醒话语接收时间、第一电子装置500处的唤醒话语的SNR、第一电子装置500处的唤醒话语的质量、第一电子装置500的优先级以及关于第一电子装置500的信息。
根据本公开的各种实施例,唤醒话语的SNR可指噪声的大小与唤醒话语的大小的比率。唤醒话语的质量可指唤醒话语的清晰程度。电子装置(例如,用户终端300和第一电子装置500)的优先级可指在接收到唤醒话语的电子装置中用于处理唤醒话语之后的用户输入的电子装置的优先级。关于电子装置(例如,用户终端300和第一电子装置500)的信息可以是各种信息,诸如电子装置(例如,用户终端300和第一电子装置500)的身份信息(例如,IMEI和MAC地址)、电子装置(例如,用户终端300和第一电子装置500)的种类(例如,冰箱和扬声器)、以及指示电子装置(例如,用户终端300和第一电子装置500)是否包括能够输出数据的特定组件(例如,显示器)的信息。
根据本公开的各种实施例,处理器1120可将包括在第一信息中的唤醒话语的SNR与包括在第二信息中的唤醒话语的SNR进行比较。如果包括在第一信息中的唤醒话语的SNR大于包括在第二信息中的唤醒话语的SINR,则这可指示用户终端300具有优于第一电子装置500的用于接收唤醒话语之后的用户语音的环境。基于确定包括在第一信息中的唤醒话语的SNR大于包括在第二信息中的唤醒话语的SINR,处理器1120可确定将处理结果发送到用户终端300。基于确定包括在第一信息中的唤醒话语的SNR小于包括在第二信息中的唤醒话语的SINR,处理器1120可确定将处理结果发送到第一电子装置500。
根据本公开的各种实施例,处理器1120可将包括在第一信息中的唤醒话语的质量与包括在第二信息中的唤醒话语的质量进行比较。如果包括在第一信息中的唤醒话语的质量优于包括在第二信息中的唤醒话语的质量,则这可指示用户终端300具有优于第一电子装置的用于接收唤醒话语之后的用户语音的环境。基于确定包括在第一信息中的唤醒话语的质量优于包括在第二信息中的唤醒话语的质量,处理器1120可确定将处理结果发送到用户终端300。
根据本公开的各种实施例,基于确定包括在第一信息中的唤醒话语的质量比包括在第二信息中的唤醒话语的质量差,处理器1120可确定将处理结果发送到第一电子装置500。
根据本公开的各种实施例,处理器1120可将用户终端300的优先级和第一电子装置的优先级进行比较。优先级可指用于确定电子装置优先处理用户的语音的优先级。基于确定用户终端300的优先级高于第一电子装置500的优先级,处理器1120可确定将处理结果发送到用户终端300。
根据本公开的各种实施例,用户终端300可包括UI 810、被配置为连接到蜂窝网络和/或Wi-Fi网络的至少一个通信电路(例如,通信电路860)、麦克风830、至少一个扬声器(例如,扬声器820)、可操作地连接到UI 810、通信电路860、麦克风830和扬声器820的至少一个处理器(例如,处理器840)、以及可操作地连接到处理器840的存储器850。存储器850可存储可由处理器840执行以进行以下操作的指令:通过麦克风830接收用于调用基于语音的智能辅助服务的唤醒话语,通过扬声器820发送包括与唤醒话语相关联的第一信息的音频声音,通过麦克风830接收包括第二信息的音频声音,以及基于第一信息和第二信息之间的比较的至少一部分来确定是否控制用户终端300将唤醒话语之后的语音信息发送到外部服务器(例如,智能服务器400)。
根据本公开的各种实施例,指令可包括可由处理器840执行以进行以下操作的的指令:基于在发送第一信息之后的预定时段内未接收到第二信息,在用户终端300处将唤醒话语之后的语音信息发送到智能服务器400。
根据本公开的各种实施例,指令可包括可由处理器840执行以进行以下操作的指令:在用户终端300处通过通信电路860在Wi-Fi网络上广播与唤醒话语相关联的第三信息,通过通信电路860在Wi-Fi网络上接收由至少一个外部电子装置(例如,第一电子装置500、第二电子装置600、第三电子装置700或第四电子装置720)广播的第四信息,以及基于第三信息和第四信息之间的比较的至少一部分来确定是否在用户终端300处将唤醒话语之后的语音信息发送到智能服务器400。
根据本公开的各种实施例,第一信息至第四信息可包括SNR、唤醒话语接收时间信息、优先级信息和/或类别信息中的至少一个。
根据本公开的各种实施例,指令可包括可由处理器840执行以进行以下操作的指令:在发送第一信息之前在用户终端300处广播第三信息。
根据本公开的各种实施例,指令可包括可由处理器840执行以进行以下操作的指令:基于在广播第三信息之后的预定时段期间未接收到第四信息,在用户终端300处将唤醒话语之后的语音信息发送到智能服务器400。
根据本公开的各种实施例,在17kHz至25kHz的频率范围内发送音频声音。
根据本公开的各种实施例,第一电子装置500可包括被配置为连接到第一网络的至少一个通信电路(例如,通信电路560)、麦克风530、至少一个扬声器(例如,扬声器520)、可操作地连接到通信电路560、麦克风530和扬声器520的至少一个处理器(例如,处理器540)、以及可操作地连接到处理器540的存储器550。存储器550可存储可由处理器540执行以进行以下操作的指令:广播与用于调用基于语音的智能辅助服务的唤醒话语相关联的第一信息,接收由连接到第一网络的外部电子装置(例如,第二电子装置600、第三电子装置700和第四电子装置720)广播的与唤醒话语相关联的第二信息,以及基于第一信息和第二信息之间的比较的至少一部分来确定是否将唤醒话语之后的语音信息发送到外部服务器(例如,智能服务器400),其中,该唤醒话语是通过麦克风530接收的。
根据本公开的各种实施例,指令可包括可由处理器540执行以进行以下操作的指令:在第一电子装置500处通过使用扬声器520广播包括第一信息的音频声音,并且通过使用麦克风530接收包括第二信息的音频声音。
根据本公开的各种实施例,指令可包括可由处理器540执行以进行以下操作的指令:在第一电子装置500处通过使用通信电路560广播第一信息,并且通过使用通信电路560接收第二信息。
根据本公开的各种实施例,指令可包括可由处理器540执行以进行以下操作的指令:在第一电子装置500处通过使用扬声器520向智能服务器400广播包括第三信息的音频声音,其中,该第三信息指示发送唤醒话语之后的语音信息。
根据本公开的各种实施例,指令可包括可由处理器540执行以进行以下操作的指令:在接收到第三信息时,在第一电子装置500处接收包括与由外部电子装置(例如,用户终端300)发送的唤醒话语相关联的第四信息的音频声音,以及基于第一信息和第四信息之间的比较的至少一部分来确定是否在第一电子装置500处将唤醒话语之后的语音信息发送到智能服务器400,其中,外部电子装置(例如,用户终端300)连接到第二网络而不是第一网络。
根据本公开的各种实施例,第一信息至第四信息可包括SNR、唤醒话语接收时间信息、优先级信息和/或类别信息中的至少一个。
根据本公开的各种实施例,用户终端300可包括被配置为连接到第一网络的至少一个通信电路(例如,通信电路860)、麦克风830、至少一个扬声器(例如,扬声器820)、可操作地连接到通信电路860、麦克风830和扬声器820的至少一个处理器、以及可操作地连接到处理器840的存储器。存储器850可存储可由处理器840执行以进行以下操作的指令:生成与用于调用基于语音的智能辅助服务的唤醒话语相关联的第一信息,接收包括第二信息的音频声音,并且将第一信息和第二信息发送到智能服务器400,其中,该唤醒话语是通过麦克风830接收的,该第二信息指示连接到第二网络而不是第一网络的外部电子装置(例如,第一电子装置500、第二电子装置600或第三电子装置700)负责将唤醒话语之后的语音信息发送到智能服务器400音频声音是通过使用扬声器接收的。
根据本公开的各种实施例,指令可包括可由处理器840执行以进行以下操作的指令:在用户终端300处基于第一信息和第二信息之间的比较的至少一部分来确定是否将唤醒话语之后的语音信息发送到智能服务器400。
根据本公开的各种实施例,智能服务器400可包括通信电路1110、至少一个处理器(例如,处理器1120)和可操作地连接到处理器的存储器1130,其中,通信电路1110用于接收与用于调用基于语音的智能辅助服务的唤醒话语相关联的第一信息以及与唤醒话语相关联的第二信息,第一信息是由连接到第一网络的第一外部电子装置发送的,第二信息是由连接到第二网络的第二外部电子装置发送的。存储器1130可存储可由处理器1120执行以用于以下操作的指令:检测第一信息的接收,确定第一信息是否包括指示是否要发送第二信息的信息,确定在接收到信息之后的预定时段内是否接收到其他信息,基于第一信息和第二信息之间的比较的至少一部分来选择基于语音的智能辅助服务的处理结果将被发送到的外部电子装置(例如,用户终端300或第一电子装置500),以及将处理结果发送到所选择的外部电子装置。
图12是示出根据本公开的实施例的电子装置的操作方法的流程图。
参照图12,在操作1210,第一电子装置(例如,图3中的第一电子装置500)可接收用于调用基于语音的智能辅助服务的唤醒话语。
根据本公开的各种实施例,在操作1220,第一电子装置500可广播与唤醒话语相关联的第一信息。
根据本公开的各种实施例,第一信息可包括第一电子装置500处的唤醒话语接收时间、第一电子装置500处的唤醒话语的SNR、第一电子装置500处的唤醒话语的质量、第一电子装置500的优先级和关于第一电子装置500的信息中的至少一部分。
根据本公开的各种实施例,第一电子装置500可以以各种方式广播第一信息。例如,第一电子装置500可以以通过使用扬声器520输出包括第一信息的音频声音的方式来广播第一信息。作为另一示例,第一电子装置500可通过使用通信电路560向连接到与第一电子装置连接的网络(例如,Wi-Fi网络)的其他电子装置广播第一信息。
根据本公开的各种实施例,音频声音可以是在用户难以听到的频带中发送并通过扬声器520发送的信号。例如,音频声音可以是在17kHz至25kHz的频率范围内发送的信号。
根据本公开的各种实施例,在操作1230,第一电子装置500可接收由外部电子装置(例如,图3中的第二电子装置600)发送的第二信息。
根据本公开的各种实施例,第一电子装置500可接收由靠近第一电子装置500的至少一个电子装置(例如,第二电子装置600)广播的第一信息。第二电子装置600可接收由用户做出的唤醒话语。第二电子装置600可在接收到唤醒话语时,广播与唤醒话语相关联的第二信息。第一电子装置500可接收由第二电子装置600广播的第二信息。
根据本公开的各种实施例,可以以相反的顺序或同时执行操作1220和操作1230。
根据本公开的各种实施例,在操作1240,第一电子装置500可基于第一信息和第二信息之间的比较的至少一部分来确定是否将唤醒话语之后的语音信息发送到智能服务器(例如,图3中的智能服务器400)。
图13是示出根据本公开的实施例的电子装置的操作方法的流程图。
参照图13,在操作1310,用户终端(例如,图3中的用户终端300)可接收用于调用基于语音的智能辅助服务的唤醒话语。
根据本公开的各种实施例,在操作1320,用户终端300可生成与唤醒话语相关联的第一信息。
根据本公开的各种实施例,第一信息可包括用户终端300处的唤醒话语接收时间、用户终端300处的唤醒话语的SNR、用户终端300处的唤醒话语的质量、用户终端300的优先级和关于用户终端300的信息中的至少一部分。
根据本公开的各种实施例,在操作1330,用户终端300可确定是否从外部电子装置(例如,图3中的第一电子装置500)接收到与唤醒话语相关联的第二信息。
根据本公开的各种实施例,第一电子装置500可输出包括第二信息的音频声音,其中,第二信息指示发送唤醒话语之后的用户的语音信息。用户终端300可通过使用麦克风830来接收包括第二信息的音频声音。
根据本公开的各种实施例,在操作1340,在从第一电子装置500接收到与唤醒话语相关联的第二信息时,用户终端300可将语音信息和第二信息发送到智能服务器(例如,图3中的智能服务器400)。
根据本公开的各种实施例,智能服务器400可确定由用户终端300发送的数据是否包括第二信息。智能服务器400可基于确定数据包括第二信息,等待从第一电子装置500接收唤醒话语之后的用户的语音信息。智能服务器400可选择用户终端300和第一电子装置500中的一个以将语音信息处理结果发送到选择的电子装置,并将语音信息处理结果发送到选择的电子装置。
根据本公开的各种实施例,在操作1350,基于确定没有从第一电子装置接收到与唤醒话语相关联的第二信息,用户终端300可将语音信息发送到智能服务器400。例如,如果在预定时间段期间没有从第一电子装置500接收到与唤醒话语相关联的第二信息,则用户终端300可将语音信息发送到智能服务器400。
根据本公开的各种实施例,智能服务器400可确定未接收到第二信息,处理语音信息,并将作为处理结果产生的信息发送到用户终端300。
图14是示出根据本公开的实施例的电子装置的操作方法的流程图。
参照图14,在操作1410,用户终端(例如,图3中的用户终端300)可接收用于调用基于语音的智能辅助服务的唤醒话语。
根据本公开的各种实施例,用户终端300可在操作1420生成与唤醒话语相关联的第一信息。
根据本公开的各种实施例,第一信息可包括用户终端300处的唤醒话语接收时间、用户终端300处的唤醒话语的SNR、用户终端300处的唤醒话语的质量、用户终端300的优先级和关于用户终端300的信息中的至少一部分。
根据本公开的各种实施例,用户终端300可广播包括第一信息的音频声音。
根据本公开的各种实施例,在操作1430,用户终端300可确定是否从外部电子装置(例如,图3中的第一电子装置500)接收到与唤醒话语相关联的第二信息。
根据本公开的各种实施例,第一电子装置500可输出包括第二信息的音频声音。第二信息可包括指示发送唤醒话语之后的用户语音信息的信息、第一电子装置500处的唤醒话语接收时间、第一电子装置500处的唤醒话语的SNR、第一电子装置500的优先级以及第一电子装置500的装置信息的至少一部分。
根据本公开的各种实施例,在操作1460,用户终端300可基于确定未接收到第二信息,将唤醒话语之后的语音信息发送到智能服务器400。根据本公开内容的各个实施例,在操作1440,基于确定接收到第二信息,用户终端300可将第一信息和第二信息进行比较。
根据本公开的各种实施例,在操作1450,用户终端300可基于比较的结果来确定是否将唤醒话语之后的语音信息发送到智能服务器400。
根据本公开的各种实施例,第一电子装置500还可将由用户终端300发送的第一信息与第二信息进行比较,以基于比较的结果来确定是否将唤醒话语之后的语音信息发送到智能服务器400。
根据本公开的各种实施例,在操作1460,基于在操作1450做出的将唤醒话语之后的语音信息发送到智能服务器400的确定,用户终端300可将唤醒话语之后的语音信息发送到智能服务器400。根据替代实施例,基于在操作1450做出的不将唤醒话语之后的语音信息发送到智能服务器400的确定,用户终端300可不将语音信息发送到智能服务器400。
上述操作可不需要智能服务器400选择语音信息处理结果被发送到的电子装置,从而进一步减少智能服务器上的负荷。
根据本公开的各种实施例,电子装置的操作方法可包括:通过用户终端300的麦克风830接收用于调用基于语音的智能辅助服务的唤醒话语,通过用户终端300的扬声器820广播包括与唤醒话语相关联的第一信息的音频声音,通过麦克风830接收包括由外部电子装置发送的第二信息的音频声音,以及基于第一信息和第二信息之间的比较的至少一部分,确定是否将唤醒话语之后的语音信息发送到外部服务器(例如,智能服务器400)。
根据本公开的各种实施例,电子装置的操作方法还可包括:在Wi-Fi网络上广播与唤醒话语相关联的第三信息,在Wi-Fi网络上接收由至少一个外部电子装置(例如,用户终端300)广播的第四信息,以及基于第三信息和第四信息之间的比较的至少一部分来确定是否将唤醒话语之后的语音信息发送到智能服务器400。
根据本公开的各种实施例,可在广播第一信息之前执行广播第三信息。
根据本公开的各种实施例,第一信息至第四信息可包括SNR、唤醒话语接收时间信息、优先级信息和/或类别信息中的至少一个,并且音频声音在17kHz至25kHz的频率范围内被发送。
如上所述,根据本公开的各种实施例的用于确定语音识别执行装置的电子装置及其操作方法在通过利用识别用户的语音的电子装置之一作为语音识别装置来减少外部服务器的语音识别负荷方面是有利的。
根据本公开的各种实施例的用于确定语音识别执行装置的电子装置及其操作方法在以音频声音的形式发送/接收用于选择支持语音识别的电子装置的数据方面是有利的。这使得即使在支持语音识别的电子装置连接到特定空间中的不同网络的情况下,也可通过扬声器和麦克风发送/接收数据。
根据本公开的各种实施例的用于确定语音识别执行装置的电子装置及其操作方法在通过减少外部服务器的语音识别负荷来提高语音识别速度方面是有利的。
根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可包括例如便携式通信装置(例如,智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据本公开的实施例,电子装置不限于以上所述的那些电子装置。
应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参考标号可用来指代相似或相关的元件。将理解的是,与术语相应的单数形式的名词可包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的短语中的每一个短语可包括在与所述多个短语中的相应一个短语中一起列举出的项的任意一项或所有可能组合。如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可用于将相应部件与另一部件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述部件。将理解的是,在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可与所述另一元件直接(例如,有线地)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。
如这里所使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并可与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(ASIC)的形式来实现模块。
可将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器136或外部存储器138)中的可由机器(例如,电子装置101)读取的一个或更多个指令的软件(例如,程序140)。例如,在处理器的控制下,所述机器(例如,电子装置101)的处理器(例如,处理器120)可在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,术语“非暂时性”仅意味着所述存储介质是有形装置,并且不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。
根据实施例,可在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(CD-ROM))的形式来发布计算机程序产品,或者可经由应用商店(例如,Play StoreTM)在线发布(例如,下载或上传)计算机程序产品,或者可直接在两个用户装置(例如,智能电话)之间分发(例如,下载或上传)计算机程序产品。如果是在线发布的,则计算机程序产品中的至少部分可以是临时产生的,或者可将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。
根据各种实施例,上述部件中的每个部件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施例,可省略上述部件中的一个或更多个部件,或者可添加一个或更多个其它部件。可选择地或者另外地,可将多个部件(例如,模块或程序)集成为单个部件。在这种情况下,根据各种实施例,该集成部件可仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一部件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可按照不同的顺序来运行或被省略,或者可添加一个或更多个其它操作。
虽然已经参照本公开的各种实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的情况下,可在其中进行形式和细节上的各种改变。

Claims (15)

1.一种电子装置,包括:
至少一个通信电路,被配置为连接到蜂窝网络和Wi-Fi网络;
麦克风;
至少一个扬声器;
处理器,可操作地耦合到所述至少一个通信电路、麦克风和所述至少一个扬声器;以及
存储器,可操作地耦合到处理器,并且被配置为存储能够由处理器执行以使处理器进行以下操作的指令:
在通过麦克风接收到唤醒话语时,通过扬声器发送包括第一信息的第一音频声音,其中,第一信息与所述唤醒话语相关联,所述唤醒话语用于调用基于语音的智能服务,
通过麦克风接收包括第二信息的第二音频声音,以及
基于第一信息与第二信息之间的比较的至少一部分,确定是否控制所述电子装置将所述唤醒话语之后的语音信息发送到外部服务器。
2.根据权利要求1所述的电子装置,其中,能够由处理器执行的所述指令还使处理器进行以下操作:基于在发送第一信息之后的预定时间段内未接收到第二信息,控制所述电子装置将所述唤醒话语之后的语音信息发送到所述外部服务器。
3.根据权利要求1所述的电子装置,其中,能够由处理器执行的所述指令还使处理器进行以下操作:
通过通信电路在Wi-Fi网络上广播与所述唤醒话语相关联的第三信息,
通过通信电路在Wi-Fi网络上接收由至少一个外部电子装置广播的第四信息,以及
基于第三信息与第四信息之间的比较的至少一部分,确定是否控制所述电子装置将所述唤醒话语之后的语音信息发送到所述外部服务器。
4.根据权利要求3所述的电子装置,其中,第一信息至第四信息包括信噪比SNR、唤醒话语接收时间信息、优先级信息或类别信息中的至少一个。
5.根据权利要求3所述的电子装置,其中,能够由处理器执行的所述指令还使处理器进行以下操作:在发送第一信息之前广播第三信息。
6.根据权利要求3所述的电子装置,其中,能够由处理器执行的所述指令还使处理器进行以下操作:基于在广播第三信息之后的预定时间段内未接收到第四信息,控制所述电子装置将所述唤醒话语之后的语音信息发送到所述外部服务器。
7.根据权利要求1所述的电子装置,其中,在17KHz至25KHz的频率范围内发送第一音频声音。
8.根据权利要求1所述的电子装置,
其中,从外部电子装置接收包括第二信息的第二音频声音,并且
其中,所述电子装置和所述外部电子装置在同一房间中彼此靠近地定位以接收所述唤醒话语。
9.根据权利要求1所述的电子装置,其中,确定是否控制所述电子装置发送语音信息的步骤还基于确定包括在第一信息中的唤醒话语的第一质量比包括在第二信息中的唤醒话语的第二质量差。
10.根据权利要求1所述的电子装置,其中,在17KHz至25KHz的频率范围内接收第二音频声音。
11.根据权利要求1所述的电子装置,其中,能够由处理器执行的所述指令还使得处理器进行以下操作:
接收包括第五信息的音频声音,其中,第五信息指示连接到第一网络的外部装置将使用所述至少一个扬声器将唤醒话语之后的语音信息发送到外部服务器,其中,第一网络不同于连接到所述电子装置的第二网络,以及
将第一信息和第五信息发送到所述外部服务器。
12.根据权利要求11所述的电子装置,其中,能够由所述至少一个处理器执行的所述指令还使所述至少一个处理器进行以下操作:基于第一信息与第五信息之间的比较的至少一部分来确定是否将所述唤醒话语之后的语音信息发送到所述外部服务器。
13.一种电子装置,包括:
通信电路,被配置为:
从连接到第一网络的第一外部电子装置接收第一信息,其中,第一信息与用于调用基于语音的智能辅助服务的唤醒话语相关联,以及
从连接到第二网络的第二外部电子装置接收第二信息,其中,第二信息与所述唤醒话语相关联;
处理器;以及
存储器,可操作地耦合到处理器,并且被配置为存储能够由处理器执行以使处理器进行以下操作的指令:
检测第一信息的接收,
检查第一信息以寻找指示第二信息是否被发送的信息,
确定在接收到第一信息和第二信息之后的预定时间段内是否接收到其他信息,
在验证了其他信息的接收时,基于第一信息与第二信息之间的比较的至少一部分,选择基于语音的智能辅助服务的处理结果将被发送到的第一外部电子装置和第二外部电子装置中的一个外部电子装置,以及
将处理结果发送到第一外部电子装置和第二外部电子装置中的被选择的一个外部电子装置。
14.一种电子装置的操作方法,所述方法包括:
通过所述电子装置的麦克风接收用于调用基于语音的智能辅助服务的唤醒话语;
通过所述电子装置的扬声器广播包括与所述唤醒话语相关联的第一信息的第一音频声音;
通过麦克风接收由外部电子装置发送的包括第二信息的第二音频声音;以及
基于第一信息与第二信息之间的比较的至少一部分来确定是否将所述唤醒话语之后的语音信息发送到外部服务器。
15.根据权利要求14所述的方法,还包括:
在Wi-Fi网络上广播与所述唤醒话语相关联的第三信息;
在Wi-Fi网络上接收由至少一个外部电子装置广播的第四信息;以及
基于第一信息与第四信息之间的比较的至少一部分来确定是否将所述唤醒话语之后的语音信息发送到外部电子装置。
CN201980049329.8A 2018-08-03 2019-07-25 用于确定要执行语音识别的电子装置的方法及电子装置 Withdrawn CN112470217A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2018-0090882 2018-08-03
KR1020180090882A KR20200015267A (ko) 2018-08-03 2018-08-03 음성 인식을 수행할 전자 장치를 결정하는 전자 장치 및 전자 장치의 동작 방법
PCT/KR2019/009264 WO2020027498A1 (en) 2018-08-03 2019-07-25 Electronic device and method for determining electronic device to perform speech recognition

Publications (1)

Publication Number Publication Date
CN112470217A true CN112470217A (zh) 2021-03-09

Family

ID=69229822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980049329.8A Withdrawn CN112470217A (zh) 2018-08-03 2019-07-25 用于确定要执行语音识别的电子装置的方法及电子装置

Country Status (5)

Country Link
US (1) US11031011B2 (zh)
EP (1) EP3807876A4 (zh)
KR (1) KR20200015267A (zh)
CN (1) CN112470217A (zh)
WO (1) WO2020027498A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113810802A (zh) * 2021-08-27 2021-12-17 青岛歌尔智能传感器有限公司 智能麦克风及电子装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457078B (zh) * 2019-08-09 2020-11-24 百度在线网络技术(北京)有限公司 智能服务方法、装置及设备
CN110660390B (zh) * 2019-09-17 2022-05-03 百度在线网络技术(北京)有限公司 智能设备唤醒方法、智能设备及计算机可读存储介质
CN111312239B (zh) * 2020-01-20 2023-09-26 北京小米松果电子有限公司 响应方法、装置、电子设备及存储介质
CN111722824B (zh) * 2020-05-29 2024-04-30 北京小米松果电子有限公司 语音控制方法、装置及计算机存储介质
CN111916079A (zh) * 2020-08-03 2020-11-10 深圳创维-Rgb电子有限公司 一种电子设备的语音响应方法、系统、设备和存储介质
CN112201242A (zh) * 2020-09-29 2021-01-08 北京小米移动软件有限公司 唤醒设备的方法、装置、电子设备及存储介质
CN112164398B (zh) * 2020-11-05 2023-08-15 佛山市顺德区美的电子科技有限公司 语音设备及其唤醒方法、装置以及存储介质
WO2022196896A1 (en) * 2021-03-18 2022-09-22 Samsung Electronics Co., Ltd. Methods and systems for invoking a user-intended internet of things (iot) device from a plurality of iot devices
US11915708B2 (en) 2021-03-18 2024-02-27 Samsung Electronics Co., Ltd. Methods and systems for invoking a user-intended internet of things (IoT) device from a plurality of IoT devices
US20230178075A1 (en) * 2021-12-02 2023-06-08 Lenovo (Singapore) Pte. Ltd Methods and devices for preventing a sound activated response

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672845B2 (en) * 2004-06-22 2010-03-02 International Business Machines Corporation Method and system for keyword detection using voice-recognition
KR101064948B1 (ko) * 2008-12-10 2011-09-16 한국전자통신연구원 유비쿼터스 지능형 로봇을 이용한 홈 네트워크 서비스 방법
US8355713B1 (en) * 2010-01-21 2013-01-15 Sprint Spectrum L.P. Use of femtocell to control wireless communication device priorities
KR20150103586A (ko) * 2014-03-03 2015-09-11 삼성전자주식회사 음성 입력을 처리하는 방법 및 이를 수행하는 전자 장치
US10455357B2 (en) 2015-09-16 2019-10-22 Ivani, LLC Detecting location within a network
JP2017192091A (ja) * 2016-04-15 2017-10-19 泰安 盧 音声制御機能付きiotシステム及びその情報処理方法
US10832665B2 (en) * 2016-05-27 2020-11-10 Centurylink Intellectual Property Llc Internet of things (IoT) human interface apparatus, system, and method
KR20180023617A (ko) * 2016-08-26 2018-03-07 삼성전자주식회사 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10559309B2 (en) * 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
KR20180083587A (ko) * 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113810802A (zh) * 2021-08-27 2021-12-17 青岛歌尔智能传感器有限公司 智能麦克风及电子装置
CN113810802B (zh) * 2021-08-27 2023-09-29 青岛歌尔智能传感器有限公司 智能麦克风及电子装置

Also Published As

Publication number Publication date
US11031011B2 (en) 2021-06-08
EP3807876A4 (en) 2021-12-08
KR20200015267A (ko) 2020-02-12
WO2020027498A1 (en) 2020-02-06
EP3807876A1 (en) 2021-04-21
US20200043490A1 (en) 2020-02-06

Similar Documents

Publication Publication Date Title
US11031011B2 (en) Electronic device and method for determining electronic device to perform speech recognition
US10643621B2 (en) Speech recognition using electronic device and server
US10818285B2 (en) Electronic device and speech recognition method therefor
US10354643B2 (en) Method for recognizing voice signal and electronic device supporting the same
US9934781B2 (en) Method of providing voice command and electronic device supporting the same
CN108496220B (zh) 电子设备及其语音识别方法
US9843667B2 (en) Electronic device and call service providing method thereof
US9967744B2 (en) Method for providing personal assistant service and electronic device thereof
US11537360B2 (en) System for processing user utterance and control method of same
US11531835B2 (en) Electronic device for controlling predefined function based on response time of external electronic device on user input, and method thereof
US10573317B2 (en) Speech recognition method and device
WO2018133307A1 (zh) 一种实现语音控制的方法和终端
US20200051558A1 (en) Electronic device supporting personalized device connection and method thereof
US9819321B2 (en) Method and apparatus for automatically controlling gain based on sensitivity of microphone in electronic device
US11170764B2 (en) Electronic device for processing user utterance
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
US20200194025A1 (en) Electronic device for supporting audio enhancement and method for the same
US10269347B2 (en) Method for detecting voice and electronic device using the same
US20230362281A1 (en) Method for providing user interface and electronic device therefor
US20230024903A1 (en) Electronic device for providing alternative content and operating method thereof
CN114175136A (zh) 控制亮度的电子装置及其控制亮度的方法
KR102180955B1 (ko) 음성 데이터 송신 및 수신 방법
US20230273842A1 (en) Method of generating screenshot and electronic device performing the method
US20240005928A1 (en) Electronic device and method by which electronic device stores tag information of content
US20230030738A1 (en) Electronic device and operation method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210309