CN117594042A - 电子装置及其控制方法 - Google Patents

电子装置及其控制方法 Download PDF

Info

Publication number
CN117594042A
CN117594042A CN202311341072.8A CN202311341072A CN117594042A CN 117594042 A CN117594042 A CN 117594042A CN 202311341072 A CN202311341072 A CN 202311341072A CN 117594042 A CN117594042 A CN 117594042A
Authority
CN
China
Prior art keywords
audio
voice
electronic device
output level
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311341072.8A
Other languages
English (en)
Inventor
金旻奭
李珉鎬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN117594042A publication Critical patent/CN117594042A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones

Abstract

提供了一种电子装置,其包括:麦克风;通信器;和处理器,被配置为:基于将与通过麦克风接收的第一用户语音对应的信号识别为触发信号,通过通信器将用于降低连接到所述电子装置的音频设备的输出电平的命令发送到所述音频设备,并且控制所述电子装置在语音控制模式下操作;基于通过所述麦克风接收到第二用户语音,通过所述通信器将第二用户语音发送到服务器;基于通过所述通信器从所述服务器接收到语音辨识结果,基于所述语音辨识结果执行所述电子装置的操作;以及通过所述通信器向所述音频设备发送用于恢复所述音频设备的输出电平的命令。

Description

电子装置及其控制方法
本申请是分案申请,其母案申请号:201880019858.9,申请日:2018年03月07日,发明名称:电子设备及其控制方法。
技术领域
本公开总体上涉及电子装置及其控制方法,并且例如,涉及执行与用户语音相对应的操作的电子装置及其控制方法。
背景技术
随着网络通信技术和语音识别技术的发展,用户通过语音控制经由网络连接的各种电子设备的操作成为可能。例如,用户向物联网(IoT,Internet of Things)环境或家庭网络环境中包括语音识别功能的电子设备发出语音命令,从而控制电子设备的操作或连接到该电子设备的各种设备的操作。
然而,当诸如扬声器或TV的音频设备在包括语音识别功能的电子设备附近输出声音时,语音识别率降低,因此设备不能很好地由用户语音控制。
为了解决上述问题,已经开发并应用了使用麦克风阵列的波束形成技术,但是由于相邻设备的噪声,在确保语音识别功能方面存在限制。
因此,对于在家庭或办公室的IoT环境或家庭网络环境中提供的基于语音的服务的使用,非常需要一种用于防止和/或降低由各种音频源引起的低语音识别性能的技术。
发明内容
【技术问题】
示例实施例的一个方面涉及提供一种用于在音频设备输出音频声音时增强用于使用基于语音的服务的语音识别功能的电子设备及其控制方法。
【技术方案】
根据示例实施例,提供了一种电子设备,该电子设备包括:麦克风;包括通信电路的通信器;以及处理器,该处理器被配置为,响应于通过麦克风接收到用于启动语音控制模式的触发信号,控制通信器将用于降低外部音频设备的音频输出水平的控制命令发送到外部音频设备,并控制电子设备以语音控制模式操作。
处理器还可以被配置为,响应于在语音控制模式下用户语音通过麦克风被输入,基于用户语音控制电子设备,并且控制通信器向外部音频设备发送用于增加外部音频设备的音频输出水平的控制命令。
处理器还可以被配置为,当语音控制模式启动后经过预定时间段时,控制通信器向外部音频设备发送用于增加外部音频设备的音频输出水平的控制命令。
处理器还可以被配置为,通过通信器接收关于外部音频设备的音频输出水平的信息,并且如果外部音频设备的音频输出水平大于预定水平,则将控制命令发送到外部音频设备。
处理器还可以被配置为,响应于通过麦克风接收到从外部音频设备输出的音频信号,确定音频信号的幅度,并且如果音频信号的幅度大于预定水平,则将控制命令发送到外部音频设备。
电子设备还可以包括显示器,其中处理器还被配置为,在电子设备的模式被改变为语音控制模式之后,控制显示器显示用于引导用户发出用于控制连接到通信器和/或电子设备的外部设备的语音的引导GUI。
电子设备还可以包括扬声器,其中处理器还被配置为,响应于在扬声器输出音频信号的同时通过麦克风接收到触发信号,降低扬声器的输出水平。
通信器可以连接到另一电子设备,并且处理器可以进一步被配置为,响应于通过麦克风接收到触发信号,控制通信器向另一电子设备发送控制命令,用于降低连接到另一电子设备的音频设备的音频输出水平。
通信器可以连接到另一电子设备,并且处理器可以进一步被配置为,响应于通过麦克风接收到触发信号,通过通信器接收由另一电子设备识别的触发信号的识别精度,将识别精度与由电子设备识别的触发信号的识别精度进行比较,并且如果另一电子设备的识别精度低于电子设备的识别精度,则将控制命令发送到外部音频设备。
处理器还可以被配置为,响应于通过通信器从遥控设备接收到用于启动语音控制模式的控制命令,控制通信器将用于降低外部音频设备的音频输出水平的控制命令发送到外部音频设备。
根据示例实施例,提供了一种用于控制电子设备的方法,该方法包括:通过麦克风接收用于启动语音控制模式的触发信号,以及响应于该触发信号将用于降低连接到电子设备的外部音频设备的音频输出水平的控制命令发送到外部音频设备,并且将电子设备的模式改变为语音控制模式。
该方法还包括:在语音控制模式下响应于用户语音通过麦克风被输入,基于用户语音控制电子设备;以及将用于增加外部音频设备的音频输出水平的控制命令发送到外部音频设备。
该方法还包括:当语音控制模式启动后经过预定时间段时,将用于增加外部音频设备的音频输出水平的控制命令发送到外部音频设备。
将控制命令发送到外部音频设备以及将模式改变为语音控制模式可以包括接收关于外部音频设备的音频输出水平的信息,并且如果外部音频设备的音频输出水平大于预定水平,则将控制命令发送到外部音频设备。
将控制命令发送到外部音频设备以及将模式改变为语音控制模式还可以包括:响应于通过麦克风接收到从外部音频设备输出的音频信号来确定音频信号的幅度,并且如果音频信号的幅度大于预定水平,则将控制命令发送到外部音频设备。
该方法还可以包括:在电子设备的模式被改变为语音控制模式之后,显示用于引导用户发出用于控制连接到电子设备的外部设备和/或电子设备的语音的引导GUI。
该方法还可以包括:当设置在电子设备中的扬声器输出音频信号时,响应于通过麦克风接收到触发信号,降低扬声器的输出水平。
该电子设备可以执行与另一电子设备的通信,并且该方法可以进一步包括,响应于通过麦克风接收到触发信号,将控制命令发送到另一电子设备,用于降低与另一电子设备执行通信的音频设备的音频输出水平。
该电子设备还可以包括第一麦克风,并且执行与另一电子设备的通信,该另一电子设备执行与至少一个其他外部设备的通信,该方法还包括,从另一电子设备接收通过第一麦克风接收的预定用户语音的语音识别精度,并且将接收的语音识别精度与通过电子设备的第二麦克风接收的预定用户语音的语音识别精度进行比较,并且向外部音频设备发送控制命令可以包括:如果通过第二麦克风接收的预定用户语音的语音识别精度较高,则将用于降低从外部设备当中的音频设备输出的音频信号的输出水平的控制命令发送到音频设备。
电子设备可以执行与控制电子设备的遥控设备的通信,并且将控制命令发送到音频设备还可以包括:响应于当选择设置在遥控设备中的预定按钮时从遥控设备接收到预定信号,将用于降低从外部设备当中的音频设备输出的音频信号的输出水平的控制命令发送到音频设备。
根据本公开的一个方面,提供一种电子装置,其包括:麦克风;通信器;和处理器,被配置为:基于将与通过麦克风接收的第一用户语音对应的信号识别为触发信号,通过通信器将用于降低连接到所述电子装置的音频设备的输出电平的命令发送到所述音频设备,并且控制所述电子装置在语音控制模式下操作;基于通过所述麦克风接收到第二用户语音,通过所述通信器将第二用户语音发送到服务器;基于通过所述通信器从所述服务器接收到语音辨识结果,基于所述语音辨识结果执行所述电子装置的操作;和通过所述通信器向所述音频设备发送用于恢复所述音频设备的输出电平的命令。
根据本公开的一个方面,提供一种用于控制电子装置的方法,该方法包括:基于将与通过所述电子装置的麦克风接收的第一用户语音对应的信号识别为触发信号,将用于降低连接到所述电子装置的音频设备的输出电平的命令发送到所述音频设备,并且控制所述电子装置以语音控制模式操作;基于通过所述麦克风接收到第二用户语音,将第二用户语音发送到服务器;基于从所述服务器接收语音辨识结果,基于所述语音辨识结果执行所述电子装置的操作;和向所述音频设备发送用于恢复所述音频设备的输出电平的命令。
【有利效果】
根据上述各种示例实施例,当音频设备输出音频声音时,可以提供最佳的基于语音的服务。
附图说明
结合附图,从下面的详细描述中,本公开的上述和其他方面、特征和伴随的优点将变得更加明显和容易理解,其中相同的附图标记指代相同的元件,并且其中:
图1是示出根据本公开实施例的通过电子设备的语音识别环境的图;
图2是示出根据本公开实施例的电子设备的示例配置的框图;
图3是示出根据本公开实施例的电子设备的示例操作的图;
图4是示出根据本公开的另一实施例的电子设备的示例配置的框图;
图5是示出根据本公开实施例的包括多个电子设备的示例语音识别环境的图;
图6是示出根据本公开实施例的电子设备的示例控制方法的流程图;和
图7是示出根据本公开实施例的语音控制系统的示例操作的序列图。
具体实施方式
在描述本公开时,如果确定相关技术的详细描述将不必要地模糊本公开的要点,则可以省略其详细描述。此外,以下描述中使用的元件的后缀“部分”是为了便于描述而提供的,并且不具有区别于其自身的含义或作用。
这里使用的术语用于描述各种示例实施例,并不旨在限制和/或约束本公开。单数形式旨在包括复数形式,除非上下文另有明确指示。
在各种示例实施例中使用的术语诸如“第一”和“第二”可以修改各种元素,而不管相应元素的顺序和/或重要性,并且不限制相应元素。这些术语只是用来区分一个元素和其他元素。
还将理解,诸如“包括”、“包含”、“包含”、“具有”等术语旨在指示本公开中公开的特征(例如,数字、功能、操作、组件等)的存在,并且不旨在排除一个或多个其他特征可能存在或可能被添加的可能性。
在示例实施例中,“模块”、“单元”或“部件”可以执行至少一个功能或操作,并且可以实现为硬件,诸如处理器或集成电路、由处理器执行的软件或其任意组合。此外,多个“模块”、多个“单元”或多个“部件”可以集成到至少一个模块或芯片中,并且可以实现为除了应该在特定硬件中实现的“模块”、“单元”或“部件”之外的至少一个处理器(未示出)。
图1是示出根据本公开的示例实施例的通过电子设备的示例语音识别环境的图。参考图1,语音识别环境1可以包括电子设备100和多个外部设备20、30、40和50。
电子设备100可以通过各种通信方法连接到多个外部设备20至50,并且控制多个外部设备20至50的操作。例如,电子设备100可以具有语音识别功能,从而基于例如用户10的语音来控制其自身的操作或多个外部设备20至50的操作。
然而,具有语音识别功能不一定意味着电子设备100包括用于语音识别的所有元件。例如,即使电子设备100可以仅执行预处理,诸如删除通过麦克风(未示出)接收的音频信号的噪声,电子设备100也可以包括语音识别功能,并且通过与语音识别服务器200通信来执行用于语音识别的进一步处理。
电子设备100可以实现为各种类型的设备。例如,电子设备100的示例可以包括,例如但不限于,智能TV、智能冰箱、智能电话、接入点、车载单元(On-Board Unit,OBU)设备、智能扬声器、笔记本电脑、台式PC、平板电脑等,但是本公开不限于此。
多个外部设备20至50可以通过各种通信方法连接到电子设备100,并且多个外部设备20至50的操作可以由电子设备100控制。因此,外部设备20至50和电子设备100可以在家中或办公室中创建IoT环境或家庭网络环境。多个外部设备20至50可以包括输出音频信号的音频设备30和50中的至少一个。
因为IoT环境中的对象种类没有限制,所以外部设备的种类也没有限制。例如,如图1所示,外部设备的示例可以是空调20、360度扬声器30、智能灯40、MP3扬声器50等,或者诸如风扇、洗衣机、微波炉、门锁、音吧、家庭影院、智能电话、TV、冰箱等设备。外部设备的示例可以是任何类型的设备,只要外部设备连接到电子设备100并由电子设备100控制。
图1示出了例如起居室中的语音识别环境1。由于电子设备100包括语音识别功能,用户10可以发出语音命令,从而通过电子设备100控制电子设备100的操作或外部设备20至50的操作。
例如,响应于接收到用户10的预定语音,电子设备100可以以语音控制模式操作。图1示出了预定语音是“嗨,S-语音”的示例情况。因此,当用户说出“嗨,S-语音”并且接收到预定语音时,电子设备100可以以语音控制模式操作。
响应于在语音控制模式下接收到用户语音,电子设备100可以识别接收的用户语音并执行与识别的语音相对应的控制命令。因此,当电子设备100进入语音控制模式时,用户10可以发出用于控制电子设备100的操作或多个外部设备20至50中的至少一个的操作的用户语音。在图1中,当用户发出“打开灯”时,电子设备100可以接收和识别用户语音,向智能灯40发送用于打开智能灯40的控制命令,并执行与用户语音相对应的操作。
在语音识别环境1中,当电子设备100进入语音控制模式而多个外部设备20至50当中的音频设备30和50输出音频信号时,电子设备100的语音识别功能可能受到附近噪声的影响。当电子设备100以语音控制模式操作并且电子设备附近的音频设备30和50输出音频信号时,与音频设备30和50不输出音频信号的情况相比,电子设备100的语音识别率可以降低。
换句话说,尽管用户发出用于控制电子设备100或外部设备20至50的控制命令,但是由于从音频设备30和50输出的音频信号,电子设备100可能无法清楚地识别用户的语音控制命令。
为了解决上述问题,根据本公开实施例的电子设备100响应于接收到与预定用户语音相对应的音频信号,可以将用于降低从可通信地连接到电子设备100的外部设备20至50当中的音频设备30和50输出的音频信号的输出水平(level)的控制命令发送到音频设备30和50,然后以语音控制模式操作,从而提供更优化的基于语音的服务,尽管音频设备30和50在电子设备100附近输出音频声音。
参考图1,当连接到智能TV 100的360度扬声器30和MP3扬声器50在智能TV 100或用户10附近输出高水平的音乐声音时,识别出用户10发出的触发词“嗨,S-语音”的智能TV100可以将用于降低音频信号的输出水平的控制命令(诸如音量降低命令或静音命令)发送到360度扬声器30和MP3扬声器50,降低音乐的音量水平,并以语音控制模式操作。
因此,当用户发出用于控制电子设备100或外部设备20至50的控制命令时,电子设备100可以在最佳条件下识别用户的语音控制命令,而不会降低由音频设备30和50的输出引起的语音识别的性能。
图2是示出根据本公开实施例的电子设备的示例配置的框图。参考图2,电子设备100可以包括麦克风110、处理器(例如,包括处理电路)120和通信器(例如,包括通信电路)130。
麦克风110可以接收声波形式的各种音频信号,将音频信号转换成电子信号,并将转换后的音频信号发送到处理器120。通过麦克风110接收的音频信号可以包括用户10的语音、从电子设备100附近的音频设备输出的各种音频信号、附近的噪声等。
麦克风110可以用一个或多个麦克风来实现,并且与电子设备100一体地或分离地实现。可拆卸麦克风是指与电子设备100分离但以有线或无线方式连接到电子设备100的麦克风。
通信器130可以包括各种通信电路,并且由处理器120控制,并且通过各种通信方法执行与各种外部服务器或终端的通信。例如,通信器130可以执行与语音识别服务器200的通信,用于识别用户10的语音。语音识别服务器200可以是云服务器,但不限于此。
通信器130可以通过与电子设备100附近的各种终端(例如,外部设备20至50)执行通信来发送和接收各种控制命令和信息。通信器130可以执行与电子设备100附近的外部设备20至50的通信,并且创建IoT环境或家庭网络环境,但是本公开不限于此。
处理器120可以包括各种处理电路并控制电子设备100的整体操作。例如,处理器120响应于通过麦克风110接收到与用户10的预定语音相对应的音频信号,可以控制通信器130将用于降低从与电子设备100执行通信的外部设备20至50当中的音频设备30和50输出的音频信号的输出水平的控制命令发送到音频设备,并且以语音控制模式操作。
处理器120可以确定通过麦克风110接收的音频信号是否对应于与预定语音相对应的音频信号。例如,处理器120可以通过处理通过麦克风110接收的音频信号来执行语音识别,并确定识别的语音是否是预定语音。语音识别可以由处理器120或语音识别服务器200来执行。当语音识别服务器200执行语音识别时,处理器120可以仅执行消除通过麦克风110接收的音频信号的噪声的预处理,控制通信器130将预处理的音频信号发送到语音识别服务器300,并通过通信器130从语音识别服务器200接收语音辨识结果。
预定语音可以指例如用于允许电子设备100进入语音控制模式的用户语音,并且可以是由电子设备100的制造商或用户设置的单词或句子的用户话语(utterance)。因为预定语音可以触发电子设备100的语音控制模式,所以预定语音可以被称为触发命令。
作为语音识别的结果,如果确定接收到与预定语音相对应的音频信号,则处理器120可以将用于降低从电子设备100附近的音频设备30和50输出的音频信号的输出水平的控制命令发送到音频设备30和50,并且以语音控制模式操作。
处理器120响应于通过麦克风110接收到用户10的预定语音,可以确定连接到电子设备100的外部设备20至50当中的音频设备30和50。例如,处理器120可以在与外部设备20至50的通信连接过程中接收关于每个外部设备20至50的信息,用于创建IoT环境或家庭网络环境。关于外部设备20至50的信息可以包括标识信息,诸如外部设备的类型、名称、形状、MAC地址等,并且处理器120可以基于标识信息确定外部设备20至50中的哪一个输出音频信号。根据另一实施例,处理器120响应于接收到用户10的预定语音,可以通过近场通信方法向电子设备100附近的外部设备20至50请求标识信息,并且响应于接收到标识信息,基于接收的信息从外部设备20至50当中确定音频设备30和50。
因此,处理器120可以将用于降低音频信号的输出水平的控制命令发送到外部设备20至50当中的音频设备30和50。
处理器120可以基于通过麦克风110接收的多个音频设备30和50的音频信号或通过麦克风110接收的多个音频设备30和50的输出水平信息,在多个音频设备30和50当中确定用于降低输出水平的控制命令所到达的至少一个音频设备,并且控制通信器130将用于降低输出水平的控制命令发送到确定的音频设备。
例如,处理器120可以控制通信器130向音频设备30和50请求发送关于从音频设备30和50输出的音频信号的输出水平的信息。因此,响应于从音频设备30和50中的每一个接收到关于音频信号输出水平的信息,处理器120可以识别从音频设备30和50输出的音频信号的输出水平。然而,本公开不限于此,而是处理器120可以以预定间隔向音频设备30和50中的每一个请求发送关于音频信号的输出水平的信息,并且识别音频设备30和50中的每一个的音频信号的输出水平。关于音频信号的输出水平的信息可以是从音频设备30和50输出的音频信号的音量信息,但是本公开不限于此。
因为处理器120可以确定电子设备100附近的音频设备30和50中的每一个的音频信号输出水平,所以处理器120可以在音频设备30和50当中确定音频信号输出水平大于预定水平的音频设备作为用于降低音频信号的输出水平的控制命令被发送到的音频设备,并且将用于降低音频信号的输出水平的控制命令发送到该音频设备。不需要降低输出不干扰用户10的语音识别的低水平音频信号的音频设备的输出水平或者不输出音频信号的音频设备的输出水平。
响应于通过麦克风110接收到从音频设备30和50输出的音频信号,处理器120可以基于接收的音频信号来确定关于接收音频信号的方向和音频信号的强度的信息。例如,当麦克风110是阵列麦克风时,处理器120可以分析通过每个麦克风接收的音频信号的相位,测量音频信号的强度,从而确定接收每个音频信号的方向和音频信号的强度。
因此,处理器120可以将输出预定强度或更高强度的音频信号的音频设备确定为用于降低音频信号的输出水平的控制命令被发送到的音频设备,并且将用于降低音频信号的输出水平的控制命令发送到该音频设备。处理器120可以通过基于电子设备100使用预先存储的关于音频设备30和50的位置或方向的信息或者通过使用定向通信方法,向输出预定强度或更高强度的音频信号的音频设备发送用于降低音频信号的输出水平的控制命令。
根据一个实施例,处理器120可以将用于降低音频信号的输出水平的控制命令发送到音频设备30和50当中的距离发出预定用户语音的用户10的距离比预定距离短的音频设备。例如,处理器120可以使用照相机(未示出)指定当接收到预定用户语音时用户10的位置和位于距用户10预定距离内的音频设备,并且通过使用预先存储的音频设备30和50的标识信息、位置信息和方向信息,将用于降低音频信号的输出水平的控制命令发送到该特定音频设备。如下参考图4和图5所述,处理器120可以与另一电子设备交换预定用户语音的语音识别精度,并且如果电子设备100的语音识别精度高于另一电子设备的语音识别精度,则确定电子设备100比另一电子设备更靠近用户10,并且控制通信器130将用于降低音频信号的输出水平的控制命令发送到连接到电子设备100的音频设备30和50。
根据一个实施例,处理器120可以通过组合关于音频设备30和50的音频信号输出水平的信息和关于音频设备30和50与发出预定用户语音的用户10之间的距离的信息来确定用于降低音频信号的输出水平的控制命令被发送到的音频设备。例如,处理器120可以将用于降低音频信号的输出水平的控制命令发送到音频信号输出水平大于预定水平并且位于距用户10预定距离内的音频设备。
用于降低音频信号的输出水平的控制命令可以是用于与音频设备30和50当前输出的音频信号的输出水平相比将输出水平降低预定水平的控制命令。例如,控制命令可以是用于将音量水平降低3(三)个级别(level)的控制命令或者静音命令,但不限于此。
向音频设备30和50发送用于降低音频信号的输出水平的控制命令的处理器120可以控制电子设备100以语音控制模式操作。
处理器120可以在用于降低音频信号的输出水平的控制命令被发送到音频设备30和50之后立即控制电子设备100以语音控制模式操作。根据一个实施例,随着控制命令被发送,在音频设备30和50的音频信号的输出水平降低之后,处理器120可以控制电子设备100以语音控制模式操作。
当处理器120在音频信号的输出水平降低之后控制电子设备100以语音控制模式操作时,处理器120可以响应于用于降低音频信号的输出水平的控制命令,在从音频设备30和50接收到改变的音频信号输出水平信息之后,控制电子设备100以语音控制模式操作。
语音控制模式可以是电子设备100根据用户语音控制电子设备100的操作或者连接到电子设备100的外部设备20至50的操作的模式。因此,在语音控制模式下响应于通过麦克风110接收到与用于控制电子设备100的用户语音相对应的音频信号或者与用于控制外部设备20至50的用户语音相对应的音频信号,处理器120可以基于与用户语音相对应的音频信号来控制电子设备100的操作。
例如,响应于接收到与用于控制电子设备100或外部设备20至50的用户语音相对应的音频信号,处理器120可以通过处理接收的音频信号来执行语音识别,并且执行与识别的用户语音相对应的控制命令。例如,当电子设备100是TV时,响应于接收到与用户语音“频道向上(channel up)”相对应的音频信号,处理器120可以执行频道向上操作,该操作是与通过语音识别的用户语音“频道向下(channel down)”相对应的控制命令。根据另一实施例,当用户说出“关闭360度扬声器30”时,处理器120可以通过执行语音识别来确定要控制的设备和控制命令,向360度扬声器30发送关闭命令,从而关闭360度扬声器30的电源。根据一个实施例,语音识别可以由处理器120或语音识别服务器200来执行。
如上所述,应当理解,即使在电子设备100以语音控制模式操作之前,电子设备100的语音识别功能也可以被激活。换句话说,在电子设备100以语音控制模式操作之前,电子设备100可以识别预定用户语音。然而,如果接收到除预定用户语音之外的另一用户语音,例如用于控制电子设备100或外部设备20至50的用户语音,则可以不执行相应的操作。
根据一个实施例,处理器120可以在语音控制模式下根据用户语音执行操作,并且控制通信器130向音频设备30和50发送用于增加从音频设备30和50输出的音频信号的输出水平的控制命令。
换句话说,在根据用户语音完成操作之后,音频设备30和50的音频信号的输出水平(该输出水平在语音控制模式下为了最佳用户语音识别而被降低)可以恢复到先前的输出水平。然而,本公开的实施例不限于输出水平恢复到降低之前的其原始水平的情况。
根据另一实施例,即使当在电子设备进入语音控制模式之后的预定时间段期间通过麦克风110接收到用户语音(例如,用于控制电子设备100或外部设备20至50的用户语音)时,处理器120也可以控制通信器130将用于增加从音频设备30和50输出的音频信号的输出水平的控制命令发送到音频设备30和50。
当根据用于控制音频设备的操作的用户语音,诸如“关闭360度扬声器30”,来执行控制命令时,尽管处理器120向360度扬声器30发送用于增加音频信号的输出水平的控制命令,当然,也可以不执行相应的操作。换句话说,当用户在语音控制模式下通过语音操作音频设备30和50的功率或音量时,处理器120可以不向其功率或音量在语音控制模式下根据用户语音操作的音频设备30和50发送用于增加音频信号的输出水平的控制命令。根据一个实施例,虽然处理器120发送用于增加音频信号的输出水平的控制命令,但是音频设备30和50可以不执行相应的操作。
图3是示出根据本公开的示例实施例的电子设备的示例操作的图。参考图3,电子设备100和外部设备20、30和50可以创建IoT环境,并且360度扬声器30和MP3扬声器50可以输出音频信号。360度扬声器30可以输出小于预定水平的音频信号,MP3扬声器50可以输出大于预定水平的音频信号。在图3中,①至⑤示出了用户10的语音话语和与之对应的电子设备100的操作顺序。
参考图3,当用户10发出预定用户语音“嗨,S-语音”时,电子设备100可以通过麦克风110接收与“嗨,S-语音”相对应的音频信号。因此,处理器120可以对接收的音频信号执行各种预处理和语音识别,并确定识别的语音是否是预定用户语音。
由于“嗨,S-语音”是预定用户语音,处理器120可以向音频设备30和50发送用于降低音频信号的输出水平的控制命令,并且控制电子设备100以语音控制模式操作。根据一个实施例,处理器120可以在将用于降低输出水平的控制命令或静音命令仅发送到输出预定水平或更高水平音频信号的MP3扬声器50之后,控制电子设备100以语音控制模式操作。
相应地,音频设备30和50的音频信号输出水平可以降低或可以消失,因此在语音识别的最佳条件下用户10可以发出用户语音“打开空调”,用于控制空调20的操作。
响应于通过麦克风110接收到与用户语音“打开空调”相对应的音频信号,处理器120可以对接收的音频信号执行语音识别以识别“打开空调”,并控制通信器130向空调20发送用于打开空调20的电源的控制命令。
因此,空调20的电源可以被打开,并且根据一个实施例,处理器120可以将用于增加输出水平的控制命令传送到音频设备30和50,并且控制音频设备30和50将音频信号的输出水平恢复到根据用于降低音频信号的输出水平的控制命令降低之前的输出水平。
电子设备100或电子设备100和语音识别服务器200的组合可以识别预定用户语音或用于控制电子设备100或外部设备20至50中的至少一个的用户语音。
图4是示出根据本公开的另一实施例的电子设备的示例配置的框图。参考图4,电子设备400可以包括麦克风410、处理器(例如,包括处理电路)420、通信器(例如,包括通信电路)430、显示器440、扬声器450、存储器460和照相机470。在图4的电子设备400的描述中,这里可以不重复关于图2中的电子设备100的配置的重复描述。
麦克风410可以收集从各种外部声源产生的音频信号。麦克风410可以包括例如但不限于多个麦克风,诸如第一麦克风410-1、第二麦克风410-2、第N麦克风410-N等。根据一个实施例,麦克风410可以实现为阵列麦克风(例如,麦克风阵列、多通道麦克风、多个麦克风等)。
麦克风410可以是例如但不限于动态麦克风、电容式麦克风、使用压电现象的压电麦克风、使用碳颗粒的接触电阻的碳麦克风、产生与声压成比例的输出的(非定向)压力麦克风以及产生与声压成比例的输出的双向麦克风等中的至少一种。然而,本公开不限于此。
通信器430可以包括各种通信电路,并且由处理器120控制,并且通过各种通信方法执行与语音识别服务器200和外部设备20至50的通信。根据一个实施例,处理器420可以与另一电子设备执行通信,其中该另一电子设备执行与至少一个外部设备的通信,或者与控制电子设备100的遥控设备(未示出)执行通信。
通信器430可以包括各种通信电路,诸如但不限于近场通信模块(未示出)和无线LAN通信模块(未示出)等中的至少一个。近场通信模块(未示出)可以是与位于短距离的外部设备无线地执行数据通信的通信模块,例如蓝牙模块、紫蜂模块、近场通信(Near FieldCommunication,NFC)模块、红外通信模块等。无线LAN通信模块(未示出)可以是根据诸如WiFi、IEEE等的无线通信协议连接到外部网络以与外部服务器或外部设备通信的模块。
此外,根据一个实施例,通信器430可以进一步包括移动通信模块,该移动通信模块包括根据各种移动通信标准(诸如第三代(3rd Generation,3G)、第三代合作伙伴项目(3rd Generation Partnership Project,3GPP)、长期演进(Long Term Evolution,LTE)等)连接到移动通信网络的通信电路,并且进一步包括根据通信标准(诸如高清晰度多媒体接口(High-Definition Multimedia Interface,HDMI)、通用串行总线(Universal SerialBus,USB)、电气和电子工程师协会(Institute of Electrical and ElectronicsEngineers,IEEE)1394、RS-232、RS-422、RS-485、以太网等)的有线通信模块(未示出)。
存储器460可以存储用于操作电子设备400的操作系统(operation system,O/S)、各种程序和数据。例如,存储器460可以包括用于语音识别的语音到文本(Speech To Text,STT)引擎。STT引擎可以是用于将与用户语音相对应的音频信号转换成文本的模块,因此STT引擎可以通过使用本领域公知的各种STT算法将语音信号转换成文本。
例如,STT引擎可以检测通过麦克风410收集的音频信号中的用户语音间隔,并通过例如但不限于线性预测系数技术、倒频谱技术、滤波器组能量技术和梅尔频率倒频谱系数(Mel Frequency Cepstral Coefficient,MFCC)技术等提取特征向量。提取的特征向量可以包括零交叉比(Zero Crossing Ratio,ZCR)、音调(Pitch)、共振峰等,但不限于此。因此,STT引擎可以将提取的特征向量应用于通过例如但不限于向量量化(VectorQuantization,VQ)技术、隐马尔可夫模型(Hidden Markov Model,HMM)技术、动态时间扭曲(Dynamic Time Warping,DTW)技术等生成的各种参考模型,并将用户语音转换成文本。STT引擎测量提取的特征向量与参考声学模型的相似性,对模式(pattern)进行分类,并基于语言模型将向量处理成语言。
根据各种实施例,存储器460可以存储用于操作电子设备400的各种程序和数据。例如,存储器460可以存储电子设备400附近的每个外部设备20至50的标识信息、位置信息和方向信息。存储器460可以存储周期性更新的关于音频设备30和50的音频信号的输出水平的信息。
存储单元460可以包括内部存储器和/或外部存储器。内部存储器可以包括易失性存储器或非易失性存储器中的至少一个。易失性存储器可以是例如动态RAM(Dynamic RAM,DRAM)、静态RAM(Static RAM,SRAM)、同步DRAM(Synchronous Dynamic RAM,SDRAM)等。非易失性存储器可以是例如一次性可编程ROM(Time Programmable ROM,OTPROM)、可编程ROM(Programmable ROM,PROM)、可擦除可编程ROM(Erasable and Programmable ROM,EPROM)、电可擦除可编程ROM(Electrically Erasable and Programmable ROM,EEPROM)、掩模ROM、闪存ROM、NAN闪存、NOR闪存等。此外,内部存储器可以是固态驱动器(Solid State Drive,SSD)。外部存储器可以包括闪存驱动器、紧凑型闪存(Compact Flash,CF)、安全数字(Secure Digital,SD)、微安全数字(Micro Secure Digital,Micro-SD)、迷你安全数字(Mini Secure Digital,Mini-SD)、极限数字(Extreme digital,Xd)、记忆棒等。外部存储器可以通过各种接口可操作地耦合到电子设备400。此外,电子设备400可以进一步包括存储设备,诸如硬驱。
显示器440可以显示屏幕。该屏幕可以包括用于诸如图像、视频、文本和音乐等各种内容的回复屏幕(reply screen),包括各种内容的应用执行屏幕,图形用户界面(GUI)屏幕等。如下所述,显示器440可以由处理器420控制,并且显示用于引导用户发出用于控制电子设备400或外部设备20至50的语音的引导GUI。
显示器440可以用各种类型的显示器来实现,诸如液晶显示器、薄膜晶体管液晶显示器、有机发光二极管、柔性显示器、三维显示器(3D显示器)等,但不限于此。显示器440也可以实现为触摸屏。
扬声器450可以将电子音频信号转换成声音并输出该声音。根据一个实施例,当电子设备400被实现为输出音频信号的音频设备时,电子设备400可以包括扬声器450。
照相机470可以根据处理器420的控制捕获电子设备400外部的图像。照相机470可以由处理器420控制,并且在接收到预定用户语音时捕获包括用户10的图像。照相机470可以包括各种图像传感器和镜头。
处理器420可以包括各种处理电路,并控制电子设备400的整体操作。例如,根据本公开的各种实施例,处理器420可以读取存储在存储器460中的各种程序和数据,并执行电子设备400的操作。处理器120可以包括各种处理电路,例如但不限于专用处理器、中央处理单元(central processing unit,CPU)、控制器、应用处理器(application processor,AP)、通信处理器(communication processor,CP)和/或ARM处理器等中的一个或多个。
根据一个实施例,在电子设备100根据预定用户语音进入语音控制模式之后,处理器420可以控制显示器440显示用于引导用户发出用于控制电子设备100或外部设备20至50中的至少一个的语音的引导GUI。
换句话说,当从音频设备30和50输出的音频信号的输出水平随着预定用户语音被识别而降低,并且电子设备100以语音控制模式操作时,可以创造用于识别来自用户的语音命令的最佳条件。因此,处理器420可以在显示器440上显示引导GUI,并引导用户10发出语音命令。处理器420可以显示文本形式的引导GUI,例如“请说出单词”、“请说出语音命令”等,或者图像形式的GUI,诸如闪烁的图像,但是本公开不限于此。
根据一个实施例,在电子设备100根据预定用户语音进入语音控制模式之后,处理器420可以控制扬声器450输出用于引导用户说出用于控制电子设备100或外部设备20至50中的至少一个的用户语音的引导语音。
在图1至图3中,示例性地,响应于接收到与预定用户语音相对应的音频信号,从外部设备20至50当中的音频设备30和50输出的音频信号的输出水平降低,但是本公开不限于此。如上所述,根据一个实施例,电子设备400可以实现为音频设备,并且电子设备100可以通过扬声器450输出音频信号。
根据一个实施例,当通过扬声器450输出音频信号时,响应于通过麦克风410接收到与预定用户语音相对应的音频信号,处理器420可以控制电子设备400降低通过扬声器450输出的音频信号的输出水平。
如图2中所述,处理器420可以将用于降低音频信号的输出水平的控制命令发送到多个音频设备30和50当中的与发出预定用户语音的用户10的距离小于预定距离的音频设备。响应于麦克风410接收到预定用户语音,处理器420可以控制照相机470获得包括用户10的图像。
响应于获得包括用户10的图像,处理器420可以分析获得的图像,确定用户10的位置和位于距用户10的位置预定距离内的音频设备,并且向确定的音频设备发送用于降低音频信号的输出水平的控制命令。
存储器460可以存储音频设备30和40的标识信息、位置信息和方向信息,并且标识信息可以包括形状信息,诸如音频设备30和50的图像。处理器420可以基于存储的信息通过图像分析来识别确定的音频设备,并且将控制命令发送到识别的音频设备。
根据一个实施例,处理器420可以控制通信器430执行与另一电子设备的通信,该另一电子设备执行与至少一个外部设备的通信。响应于通过麦克风410接收到预定用户语音,处理器420可以控制通信器430将控制命令发送到另一电子设备,该控制命令用于降低从与另一电子设备执行通信的外部设备当中的音频设备输出的音频信号的输出水平。
由于连接到另一电子设备的另一个外部设备不受电子设备400的控制,所以处理器420可以将用于降低音频信号的输出水平的控制命令发送到连接到另一个外部设备的另一电子设备,以控制其操作,从而降低从外部设备当中的音频设备输出的音频信号的输出水平。
根据一个实施例,处理器420可以将用于降低音频信号的输出水平的控制命令仅发送到其音频输出水平大于预定水平的音频设备,并且这以相同的方式应用于连接到另一电子设备的另一音频设备。
处理器420可以将连接到电子设备400的外部设备的信息发送到另一电子设备,并且从另一电子设备接收连接到另一电子设备的外部设备的信息。在电子设备400和另一电子设备之间交换的外部设备的信息可以包括外部设备的标识信息。因此,处理器420可以识别连接到另一电子设备的外部设备(具体地,音频设备)。
响应于通过麦克风410接收到预定用户语音,处理器420可以向另一电子设备请求从连接到另一电子设备的外部设备当中的音频设备输出的音频信号的输出水平的信息。另一电子设备可以向与其连接的音频设备请求音频信号输出水平的信息,接收该信息并将该信息发送到电子设备400。
处理器420可以识别连接到另一电子设备的音频设备的音频信号输出水平,并且基于音频信号输出水平将连接到另一电子设备的音频设备确定为用于降低音频信号的输出水平的控制命令被发送到的设备。处理器420可以将用于降低音频信号的输出水平的控制命令连同确定的音频设备的信息一起发送到另一电子设备,从而降低连接到另一电子设备的音频设备的音频信号输出水平。
根据一个实施例,处理器420可以控制通信器430,使得另一电子设备可以接收通过设置在另一电子设备中的麦克风接收的预定用户语音的语音识别精度,将接收的语音识别精度与通过电子设备400的麦克风410接收的预定用户语音的语音识别精度进行比较,并且基于比较结果,如果通过麦克风410接收的预定用户语音的语音识别精度较高,则将用于降低从外部设备20至50当中的音频设备30和50输出的音频信号的输出水平的控制命令发送到音频设备30和50。
处理器420可以与另一电子设备交换预定用户语音的语音识别精度,并且如果电子设备400的语音识别精度高于另一电子设备的语音识别精度,则控制通信器430将用于降低音频信号的输出水平的控制信号发送到连接到电子设备400的音频设备30和50。
例如,在每个连接了外部设备的多个电子设备位于相同的地方(例如,在家中或办公室中)的情况下,当用户10在该地方发出预定用户语音时,多个电子设备中的每一个可以通过设置在多个电子设备中的每一个中的麦克风接收用户发出的预定用户语音,并且对与预定用户语音相对应的音频信号执行语音识别。多个电子设备中的每一个可以使用公众熟知的技术来评估识别的语音的质量,并且将识别的语音的质量计算(确定)为语音识别精度或语音识别可靠性。
根据一个实施例,外部设备可以经由近场通信方法连接到电子设备。因此,连接到每个电子设备的外部设备可以设置得更靠近连接的电子设备,而不是另一电子设备。一般而言,随着用户10和该电子设备之间的距离减小,语音识别精度增加。因此,确定相对于相同的预定用户语音具有更高语音识别精度的该电子设备更靠近用户10。
因此,假设用户和连接到靠近用户的电子设备的音频设备之间的距离比用户和连接到另一电子设备的其他音频设备之间的距离短。此外,从更靠近用户的音频设备输出的音频信号更加干扰语音识别,而不是从远离用户的音频设备输出的音频信号。因此,如在本公开的上述实施例中,通过具有比另一电子设备更高的语音识别精度的电子设备降低所连接的音频设备的音频信号的输出水平会比通过具有更低语音识别精度的另一电子设备降低所连接的音频设备的音频信号的输出水平更有效。
根据本公开的另一实施例,当设置在控制电子设备100中的遥控设备(未示出)中的预定按钮被选择时,响应于从遥控设备接收到预定信号,处理器420可以发送用于降低从外部设备20至50当中的音频设备30和50输出的音频信号的输出水平的控制命令。
如上所述,示例性地,电子设备100向音频设备30和50发送用于降低音频信号的输出水平的控制命令,并且通过麦克风410接收与预定用户语音相对应的音频信号,来以语音控制模式操作电子设备100。然而,根据一个实施例,即使当从通过通信器430与电子设备执行通信的遥控设备(未示出)接收到预定信号时,电子设备100也可以以语音控制模式操作。
遥控设备可以,例如但不限于,实现为遥控器、智能电话等。当遥控设备是遥控器时,响应于用户选择设置在遥控器中的预定按钮,预定信号可以经由红外通信方法发送到通信器430,当遥控设备是智能电话时,响应于用户选择设置在智能电话中的遥控应用的执行屏幕上显示的预定对象,预定信号可以经由蓝牙通信方法发送到通信器430。
图5是示出根据本公开的示例实施例的包括多个电子设备的示例语音识别环境的图。参考图5,假设智能冰箱400-1是图4的电子设备400,智能TV 400-2是另一电子设备。
参考图5,智能冰箱400-1可以连接到MP3扬声器50(厨房中的音频设备)和瓶型扬声器70(房间1中的音频设备),并且智能TV 400-2(另一电子设备)可以连接到起居室中的360度扬声器30和家庭影院80,从而在家中创建IoT环境。音频设备50、70、30和80可以输出音频信号。
当用户10在厨房中发出预定用户语音“嗨,S-语音”时,由于起居室和厨房是开放空间,所以智能冰箱400-1和智能TV 400-2各自可以通过其麦克风接收与用户发出的预定用户语音相对应的音频信号,处理接收的音频信号并执行语音识别。根据一个实施例,智能冰箱400-1和智能TV 400-2中的每一个可以计算(确定)识别的预定用户语音的语音识别精度,并且将计算的(确定的)语音识别精度相互交换。参考图5,因为智能冰箱400-1比智能TV400-2更靠近用户10,所以智能冰箱400-1的语音识别精度可以较高或大于与智能TV 400-2相关联的语音识别精度。
由于智能冰箱400-1识别的预定用户语音的语音识别精度高于智能TV 400-2的语音识别精度,所以智能冰箱400-1可以将用于降低音频信号的输出水平的控制命令发送到MP3扬声器50和与其连接的瓶型扬声器70,并且以语音控制模式操作。根据一个实施例,智能冰箱400-1可以显示用于引导用户发出语音命令的引导GUI或输出引导语音。结果,用户可以发出用于控制智能冰箱400-1、智能TV 400-2或音频设备50、70、30和80中的至少一个的操作的语音命令,以控制其操作。
根据一个实施例,智能冰箱400-1可以将用于降低音频信号的输出水平的控制命令发送到智能TV 400-2,并且降低从智能TV 400-2输出的音频信号的输出水平。可替换地,智能冰箱400-1可以将用于降低音频信号的输出水平的控制命令与关于360度扬声器30和家庭影院80的信息一起发送到智能TV 400-2,并且降低连接到智能TV 400-2的音频设备30和80的音频信号的输出水平。
如上所述,本公开的各种实施例被应用于不同的情况。例如,用户可以在驾驶车辆时通过访问移动电话的音乐流式服务来听音乐。流化的音乐可以经由蓝牙通信等通过车辆扬声器输出。
当用户发出预定用户语音以触发用于通过语音控制车辆操作的语音识别功能时,包括语音识别功能的车载单元可以识别预定用户语音,将用于降低音频信号的输出水平的控制命令(例如静音命令)发送到移动电话流式音乐。因此,移动电话的流式服务器被临时暂停,并且用户可以通过语音命令控制车辆的操作。在通过语音控制车辆的操作完成之后,OBU可以将用于增加音频信号的输出水平的控制命令(例如,返回命令)发送到移动电话,并且因此移动电话可以通过扬声器重新启动停止的流式服务。
根据另一实施例,当用户在起居室中在配备有语音识别功能的TV上观看电影时,电影声音可以通过连接到TV的家庭影院再现。虽然用户试图通过语音控制通过TV连接到TV的各种设备,但是由于用户离TV远并且家庭影院在TV附近输出电影声音,所以TV中的语音识别功能可能无法正常工作。
在这种情况下,用户可以使用靠近用户的移动电话中的语音识别功能。换句话说,当用户发出预定用户语音时,移动电话可以识别预定用户语音,向TV发送用于家庭影院的音量降低命令或静音命令,从而降低从家庭影院输出的声音的音量或者使从家庭影院输出的声音静音。在根据用户的语音命令执行操作之后,移动电话可以将用于家庭影院的音量增大命令发送到TV,并将电影声音水平恢复到其原始水平。
图6是示出根据本公开实施例的用于控制电子设备的示例方法的流程图。
参考图6,在操作S610,响应于通过至少一个麦克风接收到与预定用户语音相对应的音频信号,电子设备100和400可以将用于降低从至少一个外部设备当中的音频设备输出的音频信号的输出水平的控制命令发送到该音频设备。
例如,电子设备100和400可以基于关于通过麦克风接收的多个音频设备的音频信号或者发送到多个音频设备的音频信号的输出水平信息,确定多个音频设备当中的用于降低输出水平的控制命令被发送到的至少一个音频设备,并且将用于降低输出水平的控制命令发送到确定的音频设备。
电子设备100和400可以将用于降低音频信号的输出水平的控制命令发送到多个音频设备当中的输出水平大于预定水平的音频设备。
当电子设备100和400输出音频信号时,响应于通过麦克风接收到与预定用户语音相对应的音频信号,电子设备100和400可以降低从电子设备100和400输出的音频信号的输出水平。
电子设备100和400可以执行与控制电子设备的遥控设备的通信,并且响应于设置在遥控设备中的预定按钮被选择时从遥控设备接收到预定信号,将用于降低从外部设备当中的音频设备输出的音频信号的输出水平的控制命令发送到该音频设备。
在将用于降低音频设备的音频信号输出水平的控制命令发送到音频设备之后,在步骤S620,电子设备100和400可以在语音控制模式下操作,在该模式中电子设备由用户语音控制。在根据预定用户语音进入语音控制模式之后,电子设备100和400可以显示用于引导用户发出用于控制电子设备或外部设备的语音的引导GUI。
响应于在语音控制模式下通过麦克风接收到与用于控制电子设备100和400或外部设备的用户语音相对应的音频信号,电子设备100和400可以基于与用户语音相对应的音频信号来控制电子设备,并且将用于增加从音频设备输出的音频信号的输出水平的控制命令发送到该音频设备,从而将从音频设备输出的音频信号的输出水平恢复到其原始水平。
根据一个实施例,电子设备100和400可以执行与另一电子设备的通信,该另一电子设备与至少一个其他外部设备执行通信,并且响应于通过麦克风接收到与预定用户语音相对应的音频信号,将用于降低与另一电子设备执行通信的外部设备当中的音频设备输出的音频信号的输出水平的控制命令发送到另一电子设备。
电子设备100和400可以包括第一麦克风,并且执行与另一电子设备的通信,该另一电子设备执行与至少一个外部设备的通信,并且响应于从另一电子设备接收到另一电子设备通过第一麦克风接收的预定用户语音的语音识别精度,将接收的语音识别精度与通过电子设备的第二麦克风接收的预定用户语音的语音识别精度进行比较,并且作为比较的结果,如果通过第二麦克风接收的用户语音的语音识别精度较高,则将用于降低从外部设备当中的音频设备输出的音频信号的输出水平的控制命令发送到该音频设备。
图7是示出根据本公开的示例实施例的语音控制系统的示例操作的序列图。参考图7,电子设备1 400-1连接到音频设备1 50,并且电子设备2 400-2可以连接到音频设备230,并且音频设备30和50可以输出音频信号。虽然未示出,但是电子设备400-1和400-2可以进一步连接到其他外部设备。
参考图7,当用户通过电子设备400-1和400-2发出用于控制电子设备400-1和400-2或者连接到电子设备400-1和400-2的设备的操作的预定用户语音时,电子设备400-1和400-2可以通过设置在电子设备400-1和400-2中的麦克风接收预定用户语音,在步骤S700对接收的用户语音执行语音识别,在步骤S705测量识别的语音的语音识别精度,并在步骤S710处交换测量的语音识别精度。
如果由电子设备1 400-1测量的预定用户语音的语音识别精度高于由电子设备2400-2测量的预定用户语音的语音识别精度,则在步骤S715,电子设备1 400-1可以向音频设备1 50请求音频输出水平信息,并且在步骤S720,从音频设备1接收从音频设备1 50输出的音频信号的音频输出水平信息。
在步骤S725,电子设备1 400-1可以向电子设备2 400-2请求音频输出水平信息,以获得连接到电子设备2 400-2的音频设备2 30的音频输出水平信息。电子设备2 400-2可以在步骤S730向音频设备2 30请求音频输出水平信息,并且响应于在步骤S735接收到从音频设备2 30输出的音频信号的音频输出水平信息,在步骤S740向电子设备1 400-1发送接收的音频设备2 30的音频输出水平信息。
电子设备1 400-1可以在语音识别环境中识别输出音频信号的音频设备50和30的音频信号输出水平信息,并且基于音频信号输出水平信息确定用于降低音频信号的输出水平的控制命令被发送到的音频设备。
如果期望降低音频设备1 50和音频设备2 30的音频信号输出水平,如图7所示,则在步骤S745和S750,电子设备1 400-1可以将用于降低音频信号的输出水平的控制命令发送到连接到电子设备400-1的音频设备1 50或连接到音频设备2 30的电子设备2 400-2。发送到电子设备2 400-2的控制命令可以包括音频设备2 30的标识信息。在步骤S755,从电子设备1 400-1接收用于降低音频信号的输出水平的控制命令的电子设备2 400-2可以将用于降低音频信号的输出水平的控制命令发送到音频设备2 30。
在步骤S760,在将用于降低音频信号的输出水平的控制命令发送到音频设备50和30中的每一个之后,电子设备1 400-1可以以语音控制模式操作。根据一个实施例,电子设备1 400-1可以警告用户以引导发出语音命令。
当电子设备以语音控制模式操作时,响应于在步骤S765接收到用于控制音频设备2 30的操作的用户语音命令,电子设备1 400-1可以在步骤S770识别接收的用户语音命令,并且在步骤S775将与用户语音相对应的控制命令发送到电子设备2 400-2,用于控制音频设备2 30的操作。与用户语音相对应的控制命令可以包括受控设备、音频设备2 30的标识信息。因此,在步骤S780,电子设备2 400-2可以将与用户语音相对应的控制命令发送到音频设备2 30,并且音频设备2 30可以根据与用户语音相对应的控制命令进行操作。
在步骤S785和S790,电子设备1 400-1可以将用于增加音频信号输出水平的控制命令发送到音频设备1 50和电子设备2 400-2,并且在步骤S795,电子设备2 400-2可以将用于增加音频设备输出水平的控制命令发送到音频设备2 30。因此,电子设备1 400-1可以恢复音频设备50和30的音频信号输出水平。
示例性地,电子设备100和400直接控制连接到电子设备100和400的外部设备的操作,但是本公开不限于此。根据一个实施例,外部设备可以经由诸如因特网的网络直接连接到语音识别服务器200,并且语音识别服务器200可以基于识别的用户语音直接控制经由网络连接的外部设备的操作。在这种情况下可以采用本公开的技术精神。
示出了电子设备100和400控制从连接到电子设备100和400的音频设备输出的音频信号的输出水平,并创建最佳语音识别环境,但不限于此。
因为电子设备100和400经由诸如因特网的各种网络获得关于从音频设备输出的声源的信息,或者直接从连接的音频设备获得信息。因此,根据一个实施例,电子设备100和300可以输出从音频设备输出的音频信号的反相声音,并且使音频设备的音频信号偏移,从而创建最佳语音识别环境。
响应于在音频设备输出音频信号的同时接收到用户的触发语音,电子设备100和400可以以语音控制模式操作,并且在预定时间段(例如,在接收到触发语音之后用户发出控制命令的时间)期间输出从音频设备输出的音频信号的反相声音。关于从音频设备输出的音频信号的声源的信息可以直接从管理关于各种声源或音频设备的信息的外部服务器获得。
如果用户发出用于控制电子设备100和400以及音频设备的语音,则电子设备100和300可以根据用户语音进行操作。在这种情况下,电子设备100和400可以在不控制音频设备的音频信号输出水平的情况下创建最佳语音识别环境。
根据各种实施例,尽管音频设备在用户或电子设备附近输出音频声音,但是可以增强电子设备的语音识别功能。
根据上述各种实施例的电子设备100和400的处理器120和420的操作以及电子设备100和400的控制方法可以实现为软件程序并加载到服务器100。
例如,存储程序的非暂时性计算机可读介质可以设置在电子设备100和400中,该程序执行电子设备100和400的控制方法,该方法包括以下步骤:响应于通过至少一个麦克风接收到与预定用户语音相对应的音频信号,发送用于降低从至少一个外部设备当中的音频设备输出的音频信号的输出水平的控制命令,以及电子设备以语音控制模式操作以由用户语音控制的步骤,以及电子设备100和400的控制方法,该方法包括以下步骤:当电子设备以语音控制模式操作时,响应于接收到与通过麦克风的用于控制电子设备或外部设备的用户语音相对应的音频信号,基于与用户语音相对应的音频信号控制电子设备,以及将用于增加从音频设备输出的音频信号的输出水平的控制命令发送到音频设备的步骤。
非暂时性可记录介质是指可以存储数据的介质。例如,上述各种中间件或程序可以存储在非暂时性可读介质中,并且设置在其中,该介质可以是CD、DVD、硬盘、蓝光光盘、USB、存储卡、ROM等。
尽管已经示出和描述了各种示例实施例,但是本领域技术人员将理解,在不脱离本公开的原理和精神的情况下,可以对这些示例实施例进行改变。因此,本公开的范围不限于所描述的示例实施例,而是由所附权利要求及其等同物来限定。

Claims (10)

1.一种电子装置,包括:
麦克风;
通信器;和
处理器,被配置为:
基于将与通过麦克风接收的第一用户语音对应的信号识别为触发信号,通过通信器将用于降低连接到所述电子装置的音频设备的输出电平的命令发送到所述音频设备,并且控制所述电子装置以语音控制模式操作;
基于通过所述麦克风接收到第二用户语音,通过所述通信器将第二用户语音发送到服务器;
基于通过所述通信器从所述服务器接收到语音辨识结果,基于所述语音辨识结果执行所述电子装置的操作;以及
通过所述通信器向所述音频设备发送用于恢复所述音频设备的输出电平的命令。
2.如权利要求1所述的装置,其中,用于降低所述音频设备的输出电平的命令包括用于将所述音频设备当前输出的音频信号的输出电平降低预定输出电平的控制命令。
3.如权利要求1所述的装置,其中,所述处理器被配置为,基于在所述电子装置进入语音控制模式之后的预定时间内没有通过所述麦克风接收到用户语音,通过所述通信器向所述音频设备发送用于恢复所述音频设备的输出电平的命令。
4.如权利要求1所述的装置,其中,所述处理器被配置为,基于所述电子装置的操作是调整所述音频设备的输出电平的操作,不向所述音频设备发送用于恢复所述音频设备的输出电平的命令。
5.如权利要求1所述的装置,其中,所述处理器被配置为,基于所述音频设备的输出电平大于预定电平,通过所述通信器向所述音频设备发送用于降低所述音频设备的输出电平的命令。
6.一种用于控制电子装置的方法,该方法包括:
基于将与通过所述电子装置的麦克风接收的第一用户语音对应的信号识别为触发信号,将用于降低连接到所述电子装置的音频设备的输出电平的命令发送到所述音频设备,并且控制所述电子装置以语音控制模式操作;
基于通过所述麦克风接收到第二用户语音,将第二用户语音发送到服务器;
基于从所述服务器接收语音辨识结果,基于所述语音辨识结果执行所述电子装置的操作;以及
向所述音频设备发送用于恢复所述音频设备的输出电平的命令。
7.如权利要求6所述的方法,其中,用于降低所述音频设备的输出电平的命令包括用于将所述音频设备当前输出的音频信号的输出电平降低预定输出电平的控制命令。
8.如权利要求6所述的方法,还包括:
基于在所述电子装置进入语音控制模式之后的预定时间内没有通过所述麦克风接收到用户语音,向所述音频设备发送用于恢复所述音频设备的输出电平的命令。
9.如权利要求6所述的方法,其中,基于所述电子装置的操作是调整所述音频设备的输出电平的操作,不发送用于恢复所述音频设备的输出电平的命令。
10.如权利要求6所述的方法,其中,发送用于降低所述音频设备的输出电平的命令包括:基于所述音频设备的输出电平大于预定电平,向所述音频设备发送用于降低所述音频设备的输出电平的命令。
CN202311341072.8A 2017-03-22 2018-03-07 电子装置及其控制方法 Pending CN117594042A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2017-0036242 2017-03-22
KR1020170036242A KR102398390B1 (ko) 2017-03-22 2017-03-22 전자 장치 및 전자 장치의 제어 방법
CN201880019858.9A CN110431623B (zh) 2017-03-22 2018-03-07 电子设备及其控制方法
PCT/KR2018/002721 WO2018174437A1 (en) 2017-03-22 2018-03-07 Electronic device and controlling method thereof

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201880019858.9A Division CN110431623B (zh) 2017-03-22 2018-03-07 电子设备及其控制方法

Publications (1)

Publication Number Publication Date
CN117594042A true CN117594042A (zh) 2024-02-23

Family

ID=63582838

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202311341072.8A Pending CN117594042A (zh) 2017-03-22 2018-03-07 电子装置及其控制方法
CN201880019858.9A Active CN110431623B (zh) 2017-03-22 2018-03-07 电子设备及其控制方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201880019858.9A Active CN110431623B (zh) 2017-03-22 2018-03-07 电子设备及其控制方法

Country Status (5)

Country Link
US (3) US10916244B2 (zh)
EP (2) EP3552201B1 (zh)
KR (1) KR102398390B1 (zh)
CN (2) CN117594042A (zh)
WO (1) WO2018174437A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6657025B2 (ja) * 2016-06-17 2020-03-04 シャープ株式会社 操作者推定システム
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
US10871935B2 (en) 2018-09-18 2020-12-22 Roku, Inc. Audio cancellation and content recognition of audio received over HDMI/ARC
US10812751B2 (en) 2018-09-18 2020-10-20 Roku, Inc. Dynamically switching to/from a first network during audio playback over HDMI/ARC
KR20200043075A (ko) * 2018-10-17 2020-04-27 삼성전자주식회사 전자 장치 및 그 제어방법, 전자 장치의 음향 출력 제어 시스템
JP7202853B2 (ja) * 2018-11-08 2023-01-12 シャープ株式会社 冷蔵庫
EP3896983A4 (en) * 2018-12-11 2022-07-06 LG Electronics Inc. DISPLAY DEVICE
KR102590914B1 (ko) * 2018-12-14 2023-10-19 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20200092464A (ko) * 2019-01-07 2020-08-04 삼성전자주식회사 전자 장치 및 이를 이용하는 어시스턴트 서비스를 제공하는 방법
KR20210054246A (ko) * 2019-11-05 2021-05-13 삼성전자주식회사 전자장치 및 그 제어방법
CN111596557B (zh) * 2020-04-02 2022-05-10 北京声智科技有限公司 设备控制方法、装置、电子设备及计算机可读存储介质
US20210392427A1 (en) * 2020-06-12 2021-12-16 Samsung Electronics Company, Ltd. Systems and Methods for Live Conversation Using Hearing Devices
KR102262984B1 (ko) * 2020-11-24 2021-06-09 주식회사 아하정보통신 블록체인을 이용한 사물인터넷 기반의 원격 제어 가능한 전자 칠판 시스템
US11915691B2 (en) * 2021-01-19 2024-02-27 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987106A (en) * 1997-06-24 1999-11-16 Ati Technologies, Inc. Automatic volume control system and method for use in a multimedia computer system
DE10058786A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
WO2008082441A1 (en) 2006-12-29 2008-07-10 Prodea Systems, Inc. Display inserts, overlays, and graphical user interfaces for multimedia systems
KR20080096239A (ko) 2007-04-27 2008-10-30 정장오 주방tv 및 홈네트워크시스템 및 가전기기를 음성으로제어하는 음성인식 네트워크주방tv시스템.
KR101517232B1 (ko) 2008-05-13 2015-05-06 엘지전자 주식회사 이동 통신 단말기를 이용한 음성 송신 시스템
KR101193234B1 (ko) 2011-01-19 2012-10-18 전자부품연구원 명령 온톨로지 기반의 네트워크 제어방법 및 장치
JP5039214B2 (ja) 2011-02-17 2012-10-03 株式会社東芝 音声認識操作装置及び音声認識操作方法
JP5695447B2 (ja) * 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
KR101590332B1 (ko) * 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
US20130279706A1 (en) * 2012-04-23 2013-10-24 Stefan J. Marti Controlling individual audio output devices based on detected inputs
CN102945672B (zh) * 2012-09-29 2013-10-16 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
EP2938022A4 (en) 2012-12-18 2016-08-24 Samsung Electronics Co Ltd METHOD AND DEVICE FOR REMOTE CONTROL OF A HOME DEVICE IN A HOME NETWORK SYSTEM
CN103280217B (zh) 2013-05-02 2016-05-04 锤子科技(北京)有限公司 一种移动终端的语音识别方法及其装置
US9787273B2 (en) * 2013-06-13 2017-10-10 Google Technology Holdings LLC Smart volume control of device audio output based on received audio input
JP2015089697A (ja) 2013-11-05 2015-05-11 トヨタ自動車株式会社 車両用音声認識装置
US9830924B1 (en) * 2013-12-04 2017-11-28 Amazon Technologies, Inc. Matching output volume to a command volume
KR102210433B1 (ko) * 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
KR102147346B1 (ko) * 2014-06-23 2020-08-24 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
KR102208477B1 (ko) 2014-06-30 2021-01-27 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
KR102402512B1 (ko) * 2015-08-04 2022-05-27 삼성전자주식회사 외부장치의 음량을 조정하는 전자장치 및 방법
KR20170032114A (ko) 2015-09-14 2017-03-22 삼성전자주식회사 음성 인식 장치 및 그의 제어방법
US9898250B1 (en) * 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
US10891946B2 (en) * 2016-07-28 2021-01-12 Red Hat, Inc. Voice-controlled assistant volume control
US10812903B2 (en) * 2017-02-06 2020-10-20 David Wilson Remote device configured as automatic controller for audio device

Also Published As

Publication number Publication date
KR20180107637A (ko) 2018-10-02
EP4235653A2 (en) 2023-08-30
CN110431623B (zh) 2023-11-03
US20180277112A1 (en) 2018-09-27
EP3552201A1 (en) 2019-10-16
EP4235653A3 (en) 2023-10-18
KR102398390B1 (ko) 2022-05-16
US10916244B2 (en) 2021-02-09
EP3552201A4 (en) 2019-10-16
WO2018174437A1 (en) 2018-09-27
US20210134291A1 (en) 2021-05-06
EP3552201C0 (en) 2023-07-26
US20230352021A1 (en) 2023-11-02
US11721341B2 (en) 2023-08-08
EP3552201B1 (en) 2023-07-26
CN110431623A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110431623B (zh) 电子设备及其控制方法
CN111699528B (zh) 电子装置及执行电子装置的功能的方法
US10504511B2 (en) Customizable wake-up voice commands
EP3480820B1 (en) Electronic device and method for processing audio signals
US10402500B2 (en) Device and method for voice translation
US9911416B2 (en) Controlling electronic device based on direction of speech
KR102210433B1 (ko) 전자 장치 및 이의 음성 인식 방법
US9837068B2 (en) Sound sample verification for generating sound detection model
KR20200052638A (ko) 전자 장치 및 전자 장치의 음성 인식 방법
US20240005918A1 (en) System For Recognizing and Responding to Environmental Noises
CN112489691A (zh) 电子装置及其操作方法
JP6775563B2 (ja) 人工知能機器の自動不良検出のための方法およびシステム
US11699438B2 (en) Open smart speaker
CN112017662B (zh) 控制指令确定方法、装置、电子设备和存储介质
KR20210054246A (ko) 전자장치 및 그 제어방법
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
WO2024077588A1 (en) Voice-based user authentication
KR102279319B1 (ko) 음성분석장치 및 음성분석장치의 동작 방법
KR20220064768A (ko) 전자 장치 및 이의 제어 방법
KR20210015986A (ko) 전자 장치 및 이의 음성 인식 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination