CN105847921B - 图像显示设备及控制图像显示设备的方法 - Google Patents

图像显示设备及控制图像显示设备的方法 Download PDF

Info

Publication number
CN105847921B
CN105847921B CN201610191047.XA CN201610191047A CN105847921B CN 105847921 B CN105847921 B CN 105847921B CN 201610191047 A CN201610191047 A CN 201610191047A CN 105847921 B CN105847921 B CN 105847921B
Authority
CN
China
Prior art keywords
speech recognition
image display
voice
audio
control command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610191047.XA
Other languages
English (en)
Other versions
CN105847921A (zh
Inventor
裴大奎
车泰焕
柳浩晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN105847921A publication Critical patent/CN105847921A/zh
Application granted granted Critical
Publication of CN105847921B publication Critical patent/CN105847921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/02Manually-operated control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/4221Dedicated function buttons, e.g. for the control of an EPG, subtitles, aspect ratio, picture-in-picture or teletext
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4396Processing of audio elementary streams by muting the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

提供了一种图像显示设备及控制图像显示设备的方法。所述图像显示设备能够在图像显示设备识别用户语音时,通过将从图像显示设备输出的音频信号的音量减小到预定级别或更低级别,来提高语音识别性能。能够进行语音识别的图像显示设备包括:第一语音输入单元,接收用户端音频信号;音频输出单元,输出由图像显示设备处理的音频信号;第一语音识别器,分析通过第一语音输入单元接收的用户端音频信号;控制器,如果接收到语音识别开始命令,则将通过音频输出单元输出的音频信号的音量减小到预定级别。

Description

图像显示设备及控制图像显示设备的方法
本申请是申请日为2013年1月9日,申请号为201310007787.X,发明名称为“图像显示设备及控制图像显示设备的方法”的发明专利申请的分案申请。
技术领域
本发明的实施例涉及一种能够通过语音识别执行命令的图像显示设备以及控制所述图像显示设备的方法。
背景技术
通常,图像显示设备处理视频信号并以各种格式输出视频信号,图像显示设备的代表示例包括电视(TV)。最近,随着具有比现有模拟TV更强的信号处理和存储容量的数字TV的发展和商业使用,可使用安装在每家每户中的互联网网络来向用户提供各种类型的内容服务,诸如实时广播、内容点播(COD)、游戏和视频通信。
此外,当图像显示设备从用户接收到命令以执行包括各种类型的服务的各种功能时,已应用了通过麦克风接收用户语音、识别接收的语音并执行与接收的语音相应的命令的语音识别方法。
然而,当通过麦克风接收用户语音时,背景声音也被接收,尤其是从图像显示设备输出的音频信号可被接收。如果背景声音或图像显示设备的音频信号输出的音量超过预定级别,则会减小图像显示设备的用户语音识别率。
发明内容
因此,本发明的一方面在于提供了一种图像显示设备以及控制所述图像显示设备的方法,所述图像显示设备能够在图像显示设备识别用户语音时,通过将从图像显示设备输出的音频信号的音量减小到预定级别或更低级别,来提高语音识别性能。
本发明的另外方面将在下面的描述中部分地阐明,并且从描述中部分是清楚的,或者通过本发明的实施可以被理解。
根据本发明的一方面,提供了一种能够进行语音识别的图像显示设备,包括:第一语音输入单元,接收用户端音频信号;音频输出单元,输出由图像显示设备处理的音频信号;第一语音识别器,分析通过第一语音输入单元接收的用户端音频信号;控制器,如果接收到语音识别开始命令,则将通过音频输出单元输出的音频信号的音量减小到预定级别。
可通过第一语音输入单元接收语音识别开始命令,作为用户的语音信号。
如果通过第一语音输入单元接收到语音识别开始命令词,则控制器可确定接收到语音识别开始命令。
如果通过第一语音输入单元接收到具有预定音量或更高音量的语音,则控制器可确定接收到语音识别开始命令。
所述图像显示设备还可包括:背景声音消除器,从用户端音频信号消除除了用户的语音信号之外的背景声音。
背景声音消除器可从通过第一语音输入单元接收的用户端音频信号消除通过音频输出单元输出的音频信号。
如果语音识别结束,则包括在所述图像显示设备中的控制器可将通过音频输出单元输出的音频信号的音量返回到语音识别开始时的音频信号的音量。
如果在预定语音识别结束时间或更长时间内,没有通过第一语音输入单元接收到用户的控制命令,则控制器可确定语音识别结束。
如果在预定命令请求时间或更长时间内,没有通过第一语音输入单元接收到用户的控制命令,则控制器可请求用户输入控制命令。
如果通过第一语音输入单元接收到语音识别结束命令,则控制器可确定语音识别结束。
所述图像显示设备还可包括:命令词产生器,产生与语音识别开始命令相应的语音识别开始命令词。
命令词产生器可通过第一语音输入单元接收候选命令词,测试候选命令词是否适合作为语音识别开始命令词,如果候选命令词适合作为语音识别开始命令词,则将该候选命令词注册为语音识别开始命令。
命令词产生器可从用户接收选择命令,如果注册的语音识别命令词的数量为两个或更多,则根据接收到的选择命令选择并设置语音识别开始命令词。
所述图像显示设备还可包括遥控器,远程控制图像显示设备,遥控器可包括:输入按钮,接收用户的控制命令;第二语音输入单元,接收用户端音频信号;第二语音识别器,分析通过第二语音输入单元接收的用户端音频信号。
如果通过第二语音输入单元接收到具有预定音量或更高音量的语音,则控制器可确定接收到语音识别开始命令。
如果语音识别结束,则控制器可将通过音频输出单元输出的音频信号的音量返回到语音识别开始时的音频信号的音量。
如果在预定语音识别结束时间或更长时间内,没有通过第二语音输入单元接收到用户的控制命令,则控制器可确定语音识别结束。
如果在预定命令请求时间或更长时间内,没有通过第二音频输入单元接收到用户的控制命令,则控制器可请求用户输入控制命令。
如果通过输入按钮或第二语音输入单元接收到语音识别结束命令,则控制器可确定语音识别结束。
根据本发明的另一方面,提供了一种能够进行语音识别的图像显示设备,包括:语音输入单元,从用户接收控制命令;显示器,显示与多个控制命令词相应的一个图标,如果通过语音输入单元从用户接收到控制命令词,则改变与接收到的控制命令词相应的图标。
根据本发明的另一方面,提供了一种控制包括语音输入单元和音频输出单元的图像显示设备的方法,包括:通过语音输入单元从用户接收用户端音频信号;确定接收到的用户端音频信号是否相应于语音识别开始命令词;如果接收到的用户端音频信号相应于语音识别开始命令词,则将通过音频输出单元输出的音频信号的音量减小到预定级别。
所述方法还可包括:如果通过语音输入单元接收到用户端音频信号,则从用户端音频信号消除除了用户的语音信号之外的背景声音信号。
背景声音信号可以是通过音频输出单元输出的音频信号。
所述方法还可包括:如果语音识别结束,则将通过音频输出单元输出的音频信号的音量返回到语音识别开始时的音频信号的音量。
语音识别结束的步骤可包括:如果在预定语音识别结束时间或更长时间内,没有通过语音输入单元接收到用户的控制命令,则确定语音识别结束。
语音识别结束的步骤可包括:如果通过语音输入单元接收到语音识别结束命令,则确定语音识别结束。
根据本发明的另一方面,提供了一种控制能够进行语音识别的图像显示设备的方法,包括:通过语音输入单元从用户接收候选命令词;测试候选命令词是否适合作为将进行语音识别的控制命令词;如果作为测试结果,候选命令词适合作为控制命令词,则将该候选命令词注册为控制命令。
根据本发明的另一方面,提供了一种控制图像显示设备的方法,其中,所述图像显示设备包括用于从用户接收语音信号的语音输入单元和用于从用户远程接收控制命令的遥控器,所述方法包括:如果通过语音输入单元或遥控器从用户接收到语音识别开始命令,则将从图像显示设备输出的音频信号的音量减小到预定音量,如果从用户接收到语音识别结束命令,则将从图像显示设备输出的音频信号的音量返回到原始级别。
接收语音识别开始命令的步骤可包括:通过语音输入单元接收用户的语音识别开始命令。
接收语音识别开始命令的步骤可包括:通过语音输入单元接收具有预定音量或更大音量的语音。
接收语音识别结束命令的步骤可包括:通过语音输入单元接收用户的语音识别结束命令。
当在预定语音识别结束时间或更长时间内,没有通过语音输入单元接收到控制命令时,可接收语音识别结束命令。
根据本发明的实施例,可提高图像显示设备的用户语音识别性能,并防止由于语音识别错误而引起的图像显示设备的故障。
附图说明
从以下结合附图进行的对实施例的描述中,本发明的这些和/或其它方面将变得明显,并更易于理解,其中:
图1是示出根据本发明的实施例的图像显示设备的外观的示图;
图2是示出根据本发明的实施例的图像显示设备主体的控制流程的框图;
图3是示出根据本发明的实施例的图像显示设备的控制流程的框图,其中,所述图像显示设备还包括背景声音消除器;
图4是示出根据本发明的实施例的图像显示设备的控制流程的框图,其中,所述图像显示设备还包括命令词产生器;
图5是示出根据本发明的实施例的包括在图像显示设备中的遥控器的外观的示图;
图6是示出根据本发明的实施例的包括在图像显示设备中的遥控器的框图;
图7是示出根据本发明的实施例的图像显示设备的第一控制方法的流程图;
图8是更详细地示出图7的实施例的流程图;
图9是示出根据本发明的实施例的图像显示设备的第二控制方法的流程图;
图10是示出根据本发明的实施例的图像显示设备的第三控制方法的流程图;
图11是示出图9中的在预定时间内没有通过语音从用户接收到控制命令的情况下完成语音识别的方法的流程图;
图12A至图12C是示出在根据本发明的实施例的图像显示设备在语音识别模式下的情况下显示在视频输出单元上的屏幕的示图;
图13是示出用户在根据本发明的实施例的图像显示设备中产生命令词的方法的流程图;
图14A至图14D是示出在用户在根据本发明的实施例的图像显示设备中产生命令词的情况下显示在视频输出单元上的屏幕的示图。
具体实施方式
在本说明书中描述的实施例和在附图中示出的构造仅是示例性的,可对其进行各种修改。
现在将详细说明本发明的实施例,其示例在附图中示出。
图1是示出根据本发明的实施例的图像显示设备1的外观的示图。
参照图1,根据本发明的实施例的图像显示设备1包括:图像显示设备主体100,根据用户的控制命令输出视频或音频;遥控器300,远程控制图像显示设备主体100。
图像显示设备主体100可由数字TV实现,并包括:视频输出单元121,输出广播节目的视频信号和各种内容的视频信号;音频输出单元122,输出广播节目的音频信号和各种内容的音频信号;用户输入单元110,通过用户语音或操作获得控制命令。
根据本发明的实施例的图像显示设备1能够通过有线或无线网络进行视频通信。如果图像显示设备1提供视频通信服务,则可通过视频输出单元121输出另一方的视频信号,并通过音频输出单元122输出另一方的音频信号。在这种情况下,用户的视频信号和音频信号可通过用户输入单元110被获得,并且被发送到另一方。
音频输出单元122可由扬声器等实现,并可输出由图像显示设备1处理的音频信号。更具体地说,音频输出单元输出包括在广播节目信号中的音频信号或包括在由图像显示设备1执行的内容中的音频信号。此外,如上所述,如果图像显示设备1执行视频通信功能,则可输出另一方的音频信号。虽然本实施例的图像显示设备1包括位于该设备后方的音频输出单元122,但是本发明的实施例不限于此,音频输出单元122可安装在向用户提供音频的任何地方。
视频输出单元121输出在图像显示设备1中处理的视频信号。更具体地说,视频输出单元121输出包括在广播节目信号中的视频信号或包括在图像显示设备1中的内容中的视频信号。此外,如果图像显示设备1执行视频通信功能,则可输出另一方的视频信号。
用户输入单元110包括图像输入单元111,接收用户的图像;第一语音输入单元112,接收用户语音。
图像输入单元111包括镜头,接收用户的图像;成像装置(诸如电荷耦合器件(CCD)传感器或互补金属氧化物半导体(CMOS)传感器),通过镜头捕捉用户的图像;图像信号处理器(ISP),处理由成像装置捕捉的图像。
第一语音输入单元112可由麦克风等实现,并被用于接收用户语音的目的。然而,第一语音输入单元112除了可接收用户语音之外,还可接收背景声音,尤其是可接收从图像显示设备的音频输出单元122输出的音频信号。因此,在下面的实施例中,通过第一语音输入单元112接收的信号被称为“用户端音频信号”。用户端音频信号不仅可包括用户语音信号还可包括背景声音信号。
如图1所示,虽然图像显示设备包括多媒体互联网协议(MoIP)装置,其中,该装置包括了视频输入单元和语音输入单元两者,但本发明不限于此,图像显示设备可仅包括第一语音输入单元112。
用户可不按下包括在遥控器300或图像显示设备主体100中的输入按钮,但可通过第一语音输入单元112将作为语音信号的控制命令输入到根据本发明的实施例的图像显示设备1,从而控制图像显示设备的操作。例如,如图1所示,如果各种内容菜单被显示在视频输出单元121上,则用户可通过将与期望的菜单相应的命令词输入到第一语音输入单元112作为语音信号,来选择菜单。
用户输入单元110可如图1所示与图像显示设备主体100分离地实现,或可与图像显示设备主体100集成地实现。
图2是示出根据本发明的实施例的图像显示设备主体的控制流程的框图。
参照图2,根据本发明的实施例的图像显示设备主体100包括广播信号接收器230,接收广播信号;内容执行单元240,执行内容;视频处理器251,处理接收到的广播信号中的视频信号或包括在内容中的视频信号;音频处理器252,处理包括在接收到的广播信号中的音频信号或包括在内容中的音频信号;视频输出单元121,输出由视频处理器251处理的视频信号;音频输出单元122,输出由音频处理器252处理的音频信号;第一语音输入单元112,从用户接收语音信号;第一语音识别器210,基于从用户接收的语音信号识别控制命令;第一通信单元260,从遥控器300接收控制信号;第一控制器220,控制图像显示设备主体100的整体操作。
广播信号接收器230接收包括视频信号和音频信号的广播信号。广播信号接收器230包括天线和调谐器,通过视频输出单元121输出视频信号,通过音频输出单元122输出音频信号。
内容执行单元240执行多媒体内容。由内容执行单元240执行的多媒体内容可以是存储在图像显示设备中的游戏、运动图像文件、音乐文件等,或者如果图像显示设备1有线或无线连接到互联网,则所述多媒体内容可以是在互联网上提供的各种多媒体内容。此外,如果图像显示设备连接到另一外部装置(诸如移动通信设备或计算机),则可由连接的外部设备提供多媒体内容,并且不限制由内容执行单元240执行的多媒体内容的类型。
音频处理器252处理从广播信号接收器230和内容执行单元240接收的音频信号,并通过音频输出单元122输出处理的音频信号。音频处理器252包括解码器,对以预定格式压缩的信号(诸如广播音频信号)进行解码;数字/模拟转换器,将数字信号转换为模拟信号,并将模拟信号发送到音频输出单元122。
视频处理器251处理从广播信号接收器230和内容执行单元240接收的视频信号,并通过视频输出单元121输出处理的视频信号。视频处理器251包括解码器,对以预定格式压缩的信号(诸如广播视频信号)进行解码;数字/模拟转换器,将数字信号转换为模拟信号,并将模拟信号发送到视频输出单元121。
第一语音输入单元112从用户接收与控制命令有关的语音信号。第一语音输入单元112可由麦克风实现,或可由与图1所示的实施例相同的包括了麦克风和摄像机两者的MoIP装置实现。此外,第一语音输入单元112可放大接收到的用户端音频信号,将放大的用户端音频信号从模拟信号转换为数字信号,并将数字信号发送到语音识别器。
虽然在附图中未显示,但第一语音输入单元112可包括语音编码器。如果第一语音输入单元112通过数据接口连接到图像显示设备主体100,则语音编码器可将用户端音频信号压缩为适合于数据接口的带宽的格式,或在执行视频通信的情况下,语音编码器可将用户端音频信号压缩为能够被发送到另一方的格式。在这种情况下,图像显示设备主体100包括语音解码器,在语音识别之前对压缩的用户端音频信号进行解码。
如上所述,当第一语音输入单元112接收用户语音时,背景声音也可被接收。因此,第一语音输入单元112接收包括用户语音信号的用户端语音信号。当用户通过第一音频输入单元112输入控制命令时,由于图像显示设备1正在操作,因此用户端音频信号可包括用户语音信号和通过音频输出单元122输出的音频信号。
第一语音识别器210分析通过第一语音输入单元112接收的用户语音信号,并识别由用户输入的控制命令。语音识别方法包括将接收到的语音信号与先前存储的标准模式进行比较并检测与接收到的语音信号最相似的语音模式的模式匹配方法、预先设置用于区分一个词与另一个词的功能,将设置的功能应用到用户语音信号并确定用户语音信号的识别功能方法等。此外,可以以词或音位为单位来执行语音识别。作为语音识别器的语音识别方法,可采用任何公知方法,本发明的实施例不限于上述方法。
第一通信单元260从遥控器300接收控制信号,并将控制信号提供给第一控制器220。第一通信单元260不仅可采用无线通信方案(诸如Wi-Fi通信方案、蓝牙通信方案或ZigBee通信方案),还可采用具有相对简单的配置的红外通信方案。
第一控制器220从第一语音识别器210接收识别结果,并根据识别结果执行控制。例如,如果根据识别结果的控制命令是广播频道改变,则控制信号被发送到广播信号接收器230以根据控制命令改变频道,如果根据识别结果的控制命令是内容选择,则控制信号被发送到内容执行单元240以执行根据控制命令的内容。
如果由第一语音识别器210发送的控制命令是语音识别开始命令,则第一控制器220将从音频输出单元122输出的音频信号的音量减小到预定级别。如果通过第一语音输入单元112接收到预定语音识别开始命令词,或者如果接收到具有预定参考音量或更大音量的语音,则第一语音识别器210将接收到的命令或语音识别为语音识别开始命令,并将语音识别开始命令发送到第一控制器220。第一控制器220可接收语音识别开始命令,将图像显示设备1切换为语音识别模式,并将音频输出单元的音量减小到预定级别。
在通过语音识别开始命令词接收到语音识别开始命令时,语音识别开始命令词可被设置为能够容易地被识别的简单的词,并可包括例如“Hi TV”、“TV”等。如上所述,用户可通过包括在遥控器300或图像显示设备主体100中的输入按钮输入语音识别开始命令。
如上所述,用户端音频信号可包括用户语音信号和通过音频输出单元122输出的音频信号。如果用户端音频信号包括这样的背景声音,则第一语音识别器210的语音识别率会恶化。如果在语音识别被执行时第一控制器220将通过音频输出信号122输出的音频信号的音量减小到预定级别,则即使用户端音频信号包括背景声音,也仅提取用户语音信号,从而容易识别控制命令。
预定音量级别可指示即使包括了背景声音也能够保证预定语音识别率或更高的语音识别率的音量级别。例如,如果能够保证80%的语音识别率或更高的语音识别率的音量为5,则当语音识别开始命令被接收时,通过音频输出单元122输出的音频信号的音量可被设置为减小到5。预定音量可在生产处理中通过实验或统计分析被预先设置,或可由用户预先设置。
预定音量级别不为0。例如,用户可输入控制命令以通过语音识别选择内容,从而在通过图像显示设备听音乐的同时观看存储在图像显示设备中的相册。此时,如果从音频输出单元122输出的音频信号的音量被设置为0以执行静音功能,则无法实现操作连续性,并无法实现同时执行多个操作的用户意图。因此,考虑到操作连续性和语音识别率,可适当地选择预定音量。
此外,如果当前音量级别等于或小于预定音量级别,则第一控制器220可维持当前音量级别。
如果语音识别结束,则第一控制器220将从音频输出单元122输出的音频信号的音量级别返回到原始级别。如果通过第一语音输入单元112接收到语音识别结束命令,如果在预定参考时间内没有接收到将进行语音识别的控制命令,或如果通过包括在遥控器300或图像显示设备主体100中的输入按钮接收到语音识别结束命令,则可确定语音识别结束。
图3是示出根据本发明的实施例的图像显示设备1的控制流程的框图,其中,该设备还包括背景声音消除器270。
在图3的实施例中,将省略与图2相同的部分的描述,并将关注于背景声音消除器270。
如上所述,如果用户端音频信号包括背景声音,则第一语音识别器210的语音识别率恶化,并且在视频通信被执行的情况下,具有高质量的语音信号不会被发送到另一方。因此,根据本发明的实施例的图像显示设备1还可包括背景声音消除器270,从用户端音频信号消除背景声音。
背景声音消除器270可由声学回声消除器实现。声学回声消除器接收参考信号以及包括用户语音信号和背景声音的用户端音频信号,并基于参考信号从接收到的用户端音频信号消除背景声音。在根据本发明的实施例的图像显示设备1中,通过音频输出单元122输出的音频信号被设置为参考信号,从输入到背景声音消除器270的用户端音频信号消除通过音频输出单元122输出的音频信号。此外,如果用户观看广播节目,则由广播信号接收器230接收的音频信号可被设置为参考信号,如果执行内容,则由内容执行单元240产生的音频信号可被设置为参考信号。
由背景声音消除器270消除背景声音的用户端音频信号被发送到第一音频识别器210。如果用户输入语音识别开始命令作为语音信号,则在音频输出单元122的音量级别没有减小的状态下,用户端音频信号被发送到第一音频识别器210。因此,如果背景声音消除器消除背景声音,则语音识别器可容易地识别语音识别开始命令。
然而,即使背景声音消除器270消除背景声音,如果通过音频输出单元122输出的音频信号的音量等于或大于预定级别,则难以划分用户语音信号和背景声音信号并仅消除背景声音信号。即使背景声音消除器270在一定程度上消除了背景声音信号,但还存在背景声音的残余声音,从而第一语音识别器210的语音识别率可被减小。
此外,可通过将语音识别开始命令词设置为能够容易地被用于进行语音识别的简单的词,仅使用背景声音消除器270来减小语音识别误差。然而,由于其它控制命令词比语音识别开始命令词更长并更复杂,因此难以仅通过消除背景声音来获得期望的语音识别率。因此,在确定在第一语音识别器210中接收到语音识别开始命令之后,第一控制器220将音频输出单元122的音量减小到预定级别,从而进一步提高语音识别性能。
图4是示出根据本发明的实施例的图像显示设备1的控制流程的框图,其中,该设备还包括命令词产生器280。
如图4所示,图像显示设备1还可包括命令词产生器280,允许用户产生命令词。
命令词产生器280包括命令词接收器281,从用户接收候选命令词;测试单元282,测试接收到的候选命令词是否合适作为控制命令词;设置单元283,根据测试单元282的测试结果确定候选命令词是否被注册。
命令词产生器280可产生将由图像显示设备1识别的所有命令词,并专门用于产生语音识别开始命令词。
如上所述,如果用户端音频信号包括背景声音,则语音识别性能恶化。具体地说,如果背景声音的音量级别特别高,则即使背景声音消除器270消除背景声音,也可能产生语音识别误差。如果确定在第一语音识别器210中接收到语音识别开始命令,则音频输出单元122的音量被减小到预定级别。然而,由于在音频输出单元122的音量没被控制的状态下接收到语音识别开始命令,因此语音识别开始命令词可被设置为即使背景声音的音量高也能够容易地被语音识别器识别的词。
更具体地说,除了在图像显示设备中先前设置的命令词之外,用户还可注册和使用新的命令词。如果用户通过第一语音输入单元112输入新的命令词作为候选命令词,则命令词接收器281接收与候选命令词有关的语音信号。
测试单元282测试由命令词接收器281接收的候选命令词是否适合用作语音识别开始命令。换句话说,测试单元282确定候选命令词是否可容易地被语音识别器识别,或确定即使候选命令词和背景声音同时被接收时预定语音识别率是否维持。
设置单元283根据测试单元282的测试结果确定候选命令词是否被注册。例如,如果作为测试单元282的测试结果,候选命令词的语音识别率为80%或更高,则候选命令词被注册为语音识别开始命令词,并被发送到第一语音识别器210。以下,如果通过第一语音输入单元112接收注册的命令词,则第一语音识别器210将接收的命令词识别为语音识别开始命令词,并将信号发送到第一控制器220。
如果用户输入并注册多个候选命令词,则可从用户接收与命令词选择有关的命令,并可将根据用户的选择命令的命令词设置为语音识别开始命令词。如果多个命令词被注册为语音识别开始命令词,则在通过第一语音输入单元112接收到所述多个命令词中的任何一个的情况下,第一语音识别器210确定接收到语音识别开始命令。
图5是示出根据本发明的实施例的包括在图像显示设备1中的遥控器300的外观的示图。
参照图5,遥控器300包括输入按钮320,通过触摸或按钮操作接收用户的控制命令;第二语音输入单元312,通过语音接收用户的控制命令。
输入按钮320包括电源按钮321,使图像显示设备1打开电源或关闭电源;音量控制按钮323,控制从图像显示设备1输出的音频信号的音量;频道改变按钮325,改变通过图像显示设备1显示的广播的频道;语音识别按钮327,接收语音识别开始命令。
输入按钮320可包括诸如按钮型开关或薄膜开关的开关或者用于感测用户身体的一部分的触摸的触摸板。可交替地使用开关和触摸板。例如,用户经常使用的电源按钮321、音量控制按钮323和频道改变按钮325可采用触摸板,音量识别按钮327可采用薄膜开关。
第二语音输入单元312从用户接收与控制命令有关的语音信号。第二语音输入单元312可包括麦克风,将声波转换为电信号,并还可包括放大器,放大接收到的语音信号;模拟/数字(A/D)转换器,将语音信号转换为数字信号。
图6是示出根据本发明的实施例的包括在图像显示设备1中的遥控器300的控制流程的框图。
参照图6,遥控器300包括输入按钮320,通过触摸或按钮操作从用户接收控制命令;第二语音输入单元312,通过语音从用户接收控制命令;第二语音识别器410,从通过第二语音输入单元312接收的语音信号识别控制命令;第二通信单元460,将控制信号发送到图像显示设备主体110;第二控制器420,控制遥控器300的整体操作。
已参照图5描述了输入按钮320和第二语音输入单元312,因此将省略对其的描述。
第二通信单元460将控制信号发送到图像显示设备主体100。第二通信单元460可采用无线通信方案(诸如Wi-Fi通信方案、蓝牙通信方案或ZigBee通信方案)或可采用相对简单的红外通信方案。
第二控制器420根据通过输入按钮320或第二语音识别器410接收的控制命令控制第二通信单元460,将控制信号发送到图像显示设备主体100。更具体地说,如果通过输入按钮320接收到音频增大/减小命令或频道改变命令,则音频增大/减小命令或频道改变命令通过第二通信单元460被发送到图像显示设备主体100。
如果通过设置在输入按钮320中的语音识别按钮327接收到语音识别开始命令,则语音识别开始命令通过第二通信单元460被发送到图像显示设备主体100,由第二语音识别器410识别的控制命令通过第二通信单元460被发送到图像显示设备主体100。用于从用户接收语音识别开始命令的语音识别按钮可设置在图像显示设备主体100中。另外,可通过由图像显示设备主体100提供的菜单来接收语音识别开始命令。
如果从遥控器300接收到语音识别开始命令,则设置在图像显示设备主体100中的第一控制器20可将通过音频输出单元122输出的音频信号的音量减小到预定级别,或如果从遥控器300通过语音接收到控制命令,则第一控制器20可将通过音频输出单元122输出的音频信号的音量减小到预定级别。
另外,如果语音识别结束,则第二控制器420通过第二通信单元460将语音识别结束命令发送到图像显示设备主体100,图像显示设备主体100将通过音频输出单元输出的音频信号的音量返回到原始级别。当用户通过语音识别按钮327输入语音识别结束命令时,或当在预定参考时间内没有接收到将进行语音识别的命令时,语音识别结束。
与图像显示设备主体100不同,由于遥控器300在相对近的距离接收用户的语音命令,因此遥控器300不包括用于消除背景声音的背景声音消除器。然而,本发明的实施例不限于此,遥控器300可包括背景声音消除器。
以下,将描述控制根据本发明的实施例的图像显示设备的方法。
图7是示出根据本发明的实施例的图像显示设备1的第一控制方法的流程图。
参照图7,首先,通过第一语音输入单元112从用户接收用户端音频信号(511)。用户端音频信号不仅可包括用户语音信号,还可包括通过图像显示设备的音频输出单元122输出的音频信号。
确定接收到的用户端音频信号是否表示语音识别开始命令(513)。也就是说,确定是否已接收到语音识别开始命令。更具体地说,语音识别器确定接收到的用户端音频信号是否与先前存储的语音识别开始命令词匹配,以确定是否已接收到语音识别开始命令。
如果确定接收到的用户端音频信号表示语音识别开始命令(513的是),则音频输出单元122的音量被减小到预定级别(515)。可考虑语音识别率来实验性或统计性地设置预定音量级别,或可由用户设置或改变预定音量级别。
确定语音识别是否已结束(517),如果确定语音识别已结束(517的是),则音频输出单元122的音量被返回到原始级别(519)。
图8是更详细地示出图7的实施例的流程图。
参照图8,首先,通过第一语音输入单元112从用户接收用户端音频信号(521),从接收到的用户端音频信号消除背景声音信号(523)。背景声音信号可以是通过音频输出单元输出的音频信号。声学回声消除器(ACE)可被用于消除背景声音,接收用户端音频信号作为输入信号,接收通过音频输出单元122输出的音频信号作为参考信号。
确定是否已接收到语音识别开始命令(525)与图7的确定相同。
如果确定已接收到语音识别开始命令(525的是),也就是说,如果确定接收到的用户端音频信号表示语音识别开始命令,则确定音频输出单元122的当前音量级别是否超过预定级别(527)。
如果确定音频输出单元122的当前音量级别超过预定级别(527的是),则音频输出单元122的音量被减小到预定级别(529),如果不是,则维持音频输出单元122的当前音量。
确定语音识别是否已结束(531)。通过确定用户是否输入语音识别结束命令或是否在预定时间内没有接收到用户的控制命令,来确定语音识别是否已结束。可通过语音、包括在遥控器300或图像显示设备主体100中的输入按钮的操作或动作识别来接收语音识别结束命令。
如果确定语音识别已结束(531的是),则音频输出单元122的音量被返回到原始级别(533)。如果音频输出单元122的音量级别等于或小于预定级别并因此当开始语音识别时维持该音量级别,则即使语音识别结束时也维持音频输出单元122的所述音量级别。
图9是示出根据本发明的实施例的图像显示设备1的第二控制方法的流程图。
参照图9,图像显示设备1确定是否已接收到语音识别开始命令(611)。更具体地说,如果通过设置在图像显示设备主体100中的第一语音输入单元112接收到预定义的语音识别开始命令词(例如,“Hi TV”,“TV”),或如果通过设置在遥控器300中的语音识别按钮327或设置在图像显示设备主体100中的语音识别按钮(未示出)接收到语音识别开始命令,则图像显示设备1确定已接收到语音识别开始命令,并进入语音识别模式。另外,如果通过设置在遥控器300中的第二语音输入单元312或设置在图像显示设备主体100中的第一语音输入单元112接收到具有预定音量或更高音量的语音,则图像显示设备1确定已接收到语音识别开始命令,并进入语音识别模式。
如果通过设置在图像显示设备主体100中的语音输入单元112接收到语音识别开始命令词,则图像显示设备1通过背景声音消除器270来消除除了语音识别开始命令词之外的背景声音信号,从而更精确地识别通过语音输入单元112接收的语音识别开始命令词。
如果接收到语音识别开始命令,则图像显示设备1将音频输出单元122的音量减小到预定音量级别(613)。此时,如果音频输出单元122的音量级别等于或小于预定音量级别,则可不执行用于减小图像显示设备1的音频输出单元122的音量的操作。
接下来,图像显示设备1根据通过语音输入单元121接收的用户的语音控制命令,控制广播信号接收器230、内容执行单元240和音频输出单元122(615)。将参照图12详细描述根据用户的语音控制命令对图像显示设备的控制。
接下来,图像显示设备1确定语音识别是否结束(617)。更具体地说,如果通过设置在图像显示设备主体100中的第一语音输入单元112再次接收到预定语音识别开始命令词(例如,“Hi TV”,“TV”),或如果在语音识别模式下选择设置在遥控器300中的语音识别按钮327或设置在图像显示设备主体100中的语音识别按钮(未示出),则图像显示设备1确定已接收到语音识别结束命令。另外,如果在预定时间内没有通过语音从用户接收到控制命令,则语音识别结束。将参照图10详细描述由于在预定时间内没有通过语音从用户接收到控制命令而导致的语音识别的结束。
如果确定语音识别结束,则图像显示设备1的语音识别模式被释放,音频输出单元122的音量返回到原始级别(619)。
图10是示出根据本发明的实施例的图像显示设备1的第三控制方法的流程图。
参照图10,图像显示设备1确定是否已接收到语音识别开始命令词(711)。更具体地说,如果通过设置在图像显示设备主体100中的第一语音输入单元112接收到预定的语音识别开始命令词(例如,“Hi TV”,“TV”),如果通过设置在遥控器300中的语音识别按钮327或设置在图像显示设备主体100中的语音识别按钮(未示出)接收到语音识别开始命令,或如果通过设置在遥控器300中的第二语音输入单元312或设置在图像显示设备主体100中的第一语音输入单元112接收到具有预定音量或更高音量的语音,则图像显示设备1确定已接收到语音识别开始命令。
如果已接收到语音识别开始命令,则图像显示设备1确定是否通过第一语音输入单元112或第二语音输入单元312已接收到具有预定音量或更高音量的语音(713)。
如果已接收到具有预定音量或更高音量的语音,则图像显示设备1将音频输出单元122的音量减小到预定音量级别(715)。也就是说,在图9的第二控制方法中,当语音识别开始时,音频输出单元122的音量立即减小,而在第三控制方法中,在语音识别开始之后,当用户通过语音输入控制命令时,音频输出单元122的音量减小。通过这样的控制,可保证由用户正在执行的操作的连续性。
接下来,图像显示设备1根据通过语音的用户的控制命令来控制包括在图像显示设备1中的组件。
接下来,图像显示设备1确定是否通过第一语音输入单元112或第二语音输入单元312再次接收到具有预定音量或更高音量的语音(719)。
如果已接收到具有预定音量或更高音量的语音,则图像显示设备1根据通过语音的用户的控制命令来控制包括在图像显示设备1中的组件(717)。然而,如果在预定参考音量减小时间或更长的时间内,没有接收到具有预定音量或更高音量的语音(721),则图像显示设备1将音频输出单元122的音量返回到原始级别。
也就是说,如果在进入语音识别模式之后接收到具有预定音量或更高音量的语音,则图像显示设备1减小音频输入单元122的音量,如果在预定参考音量减小时间内没有通过语音接收到控制命令,则图像显示设备1将音频输出单元122的音量返回到原始级别。
接下来,图像显示设备1确定语音识别是否结束(725)。
图11是示出在预定时间内没有通过语音从用户接收到控制命令的情况下结束语音识别的方法的流程图。
如图11所示,当图像显示设备1进入语音识别模式时,待机时间被初始化(621),语音识别结束时间被设置为第一参考时间(623)。待机时间表示在语音识别模式下在用户通过语音输入控制命令之前图像显示设备1等待的时间。另外,第一参考时间表示在进入语音识别模式之后当用户没有输入控制命令时图像显示设备1等待的时间。
以下,图像显示设备1确定是否通过语音已接收到用户的控制命令(625)。
如果通过语音已接收到用户的控制命令,则图像显示设备1根据用户的控制命令控制广播信号接收器230、内容执行单元240和音频输出单元122(627)。
以下,图像显示设备1初始化待机时间(631),将语音识别结束时间设置为第二参考时间(633)。第二参考时间表示在图像显示设备1进入语音识别模式并且用户通过语音输入控制命令之后,在下一次通过语音接收到用户的控制命令之前图像显示设备1等待的时间。由于当用户输入控制命令并检查图像显示设备1的操作时消耗了时间,因此第二参考时间可大于第一参考时间。例如,如果第一参考时间被设置为30秒,则考虑用户根据控制命令检查图像显示设备1的操作所需要的时间,第二参考时间可被设置为60秒。
以下,图像显示设备1确定是否通过语音再次接收到用户的控制命令(625)。
如果没有通过语音接收到用户的控制命令,则图像显示设备1确定待机时间是否超过命令请求时间(635)。命令请求时间表示在用户没有通过语音输入控制命令的情况下向用户请求控制命令的预定时间间隔。命令请求时间可短于语音识别结束时间,从而在语音识别结束之前向用户请求控制命令至少一次。
如果在命令请求时间期间用户没有通过语音输入控制命令,则图像显示设备1通过视频输出单元121或音频输出单元122输出消息“请说功能”、“您想改变频道吗?”或“您想控制音量吗?”,并请求用户输入控制命令(637)。
以下,图像显示设备1确定待机时间是否超过语音识别结束时间(639)。
如果图像显示设备1的待机时间(即,用户没有通过语音输入控制命令的时间)等于或大于语音识别结束时间,则图像显示设备1结束语音识别(641)。
图12A至图12C是示出在根据本发明的实施例的图像显示设备1处于语音识别模式下的情况下显示在视频输出单元121上的屏幕的示图。
参照图12A,在视频输出单元121的较下方显示控制相关图标,在其余区域显示主屏幕。在视频输出单元121的较下方显示的图标中,“电源打开/关闭”图标121a相应于控制命令“电源打开”和“电源关闭”,“音量增大/减小”图标121b相应于控制命令“音量增大”和“音量减小”,“频道向上/向下”图标121c相应于控制命令“频道向上”和“频道向下”。
虽然在现有技术中显示与控制命令相应的六个图标,但根据本发明的实施例的图像显示设备1可仅显示三个图标以执行六个控制命令。
如果用户输入与电源打开或电源关闭相应的控制命令,则显示在视频输出单元121上的光标移动到“电源打开/关闭”图标121a上,根据控制命令电源被打开或关闭。可使用类似方法来操纵其余图标121b和121c。
虽然在图12A至图12C中显示了一个图像的所有内容,但针对音量控制图标可仅显示“音量”,针对频道控制图标可仅显示“频道”,针对电源控制图标可仅显示“电源”。只要用户可使用图标识别执行哪个控制,图标的内容不限于此。
可以以切换形式执行电源打开和电源关闭、音量增大和音量减小、以及频道向上和频道向下。例如,如图12B所示,如果用户通过第一语音输入单元112输入与“频道向上”相应的控制命令词,则光标121d移动到“频道向上/向下”图标121c,并且“频道向上/向下”图标121c的颜色可被改变为红色以在频道向上命令和频道向下命令之间进行区分。如图12C所示,如果用户输入与“频道向下”相应的控制命令词,则光标121d移动到“频道向上/向下”图标121c,并且“频道向上/向下”图标121c的颜色可被改变为蓝色。
作为另一示例,如果接收到控制命令词,则与控制命令词相应的图标可闪烁,或者如果接收到与“频道向上/向下”相应的控制命令词或与“音量增大/减小”相应的控制命令词,则可在该图标中产生垂直条以显示频道控制量或音量控制量。
虽然在图12A至图12C中在视频输出单元121上显示光标121d,但本发明的实施例不限于此,可在不显示光标的情况下仅改变图标。
根据本发明的实施例的图像显示设备1可使用各种方法改变图标以表示接收到与图标相应的控制命令词。图标改变包括在图标中显示光标。本发明的实施例不限于上述示例。
虽然在图12A至图12C中仅显示了与电源、频道和音量控制有关的图标,但是可显示与各种控制命令(诸如web浏览器打开/关闭或静音打开/关闭)相应的图标。
图13是示出由用户在根据本发明的实施例的图像显示设备1中产生命令词的方法的流程图,图14A至图14D是示出在用户在根据本发明的实施例的图像显示设备1中产生命令词的情况下显示在视频输出单元121上的屏幕的示图。在本实施例中,产生语音识别开始命令词。
参照图13,首先,从用户接收命令词产生请求(811)。可通过语音识别,或通过包括在遥控器300或图像显示设备主体100中的输入按钮的操作,或通过动作识别,来接收命令词产生请求。输入命令词产生请求的方法不受限。
更具体地说,如图14A所示,首先,用户在与环境设置有关的菜单项中选择“命令词产生”项。还可通过语音识别,或通过包括在遥控器300或图像显示设备主体100中的输入按钮的操作,或通过动作识别,来选择“命令词产生”项。
随后,从用户接收候选命令词(813)。可通过第一语音输入单元112接收候选命令词作为语音信号。
更具体地说,如图14B所示,如果在图像显示设备的视频输出单元121上显示消息“输入候选命令词”,则用户通过第一语音输入单112输入将被注册为命令词的候选命令词。例如,用户可输入短词“mic”作为候选命令词。
如果接收到候选命令词,则测试接收到的候选命令词是否适合作为语音识别开始命令词(815)。能够被容易地语音识别的短词适合作为语音识别开始命令词。因此,可使用各种标准测试候选命令词是否适合,并且可测量候选命令词的语音识别率。
更具体地说,如图14C所示,在视频输出单元121上显示消息“测试正在执行”。
如果作为测试结果,候选命令词适合作为语音识别开始命令词(817的是),候选命令词被注册为语音识别开始命令词(819)并被发送到语音识别器。在一个实施例中,如果候选命令词的语音识别率等于或大于预定参考值(例如,80%),则可确定候选命令词候选命令词适合作为语音识别开始命令词。
如果作为测试结果,候选命令词不适合作为语音识别开始命令词(817的否),则如图9所示,可从用户接收另一候选命令词,或可根据用户选择结束命令词产生。
更具体地说,如果测试结束,则如图14D所示,显示测试结果。例如,如果候选命令词适合于注册为语音识别开始命令,则在视频输出单元121上显示消息“可注册”。如果候选命令词不适合作为语音识别开始命令词并因此在视频输出单元121上显示消息“不可注册”,则用户可再次输入新的候选命令词。
虽然参照图13和图14A至图14D描述了语音识别开始命令词的产生,但是本发明的实施例不限于此,并可应用到其它控制命令的产生。图像显示设备1的视频输出单元121可显示与命令词产生有关的各种消息。
在本发明的实施例中,如果通过语音识别接收到用户的控制命令,则用户在不做动作(诸如按下输入按钮)的情况下说出控制命令,从而方便地执行期望的操作。
另外,与控制命令相应的图标显示在视频输出单元121上。例如,可显示“频道向上”图标、“频道向下”图标、“音量增大”图标和“音量减小”图标。具体地,由于对于图像显示设备的操作来说图标是必需的,因此当在视频输出单元121上显示主屏幕时,在视频输出单元121的一部分中显示图标。
由于视频输出单元121的尺寸受限,因此可显示的图标的数量也受限。根据本发明的另一实施例的图像显示设备可显示与多个控制命令词相应的一个图标以有效地管理由图标所占据的区域。
虽然已显示和描述了本发明的一些实施例,但本领域的技术人员将理解,在不脱离本发明的原理和精神的情况下可在这些实施例中进行改变,本发明的范围在权利要求及其等同物中限定。

Claims (14)

1.一种能够进行语音识别的图像显示设备,所述图像显示设备包括:
显示器,被配置为显示内容;
通信单元,被配置为与遥控器进行通信;
音频输出单元,被配置为输出音频信号;
控制器,被配置为响应于从遥控器接收到控制信号,激活语音识别,并将通过音频输出单元输出的音频信号的输出音量减小到低于预定级别的级别,
其中,当在激活语音识别之后的第一预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时,控制器输出请求针对语音识别的音频输入的消息,其中,当在激活语音识别之后的第二预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时,控制器对语音识别进行去激活,并将通过音频输出单元输出的音频信号的输出音量恢复到语音识别激活之前的输出音量,其中,第一预定时间短于第二预定时间,
其中,当从控制器接收到作为语音控制命令的音频输入,并在激活语音识别之后经过第三预定时间时,控制器对语音识别进行去激活,并将通过音频输出单元输出的音频信号的输出音量恢复到语音识别激活之前的输出音量,其中,第三预定时间长于第二预定时间。
2.如权利要求1所述的图像显示设备,其中,由控制器输出的消息包括显示器上显示的消息图像或通过音频输出单元输出的音频消息。
3.如权利要求1所述的图像显示设备,其中,响应于从遥控器接收到控制信号,控制器控制显示器在所述内容上显示至少一个图标,其中,所述至少一个图标中的每个图标能够与一个或更多个语音控制命令相应。
4.如权利要求3所述的图像显示设备,其中,响应于从遥控器接收到作为语音控制命令的音频输入,控制器基于接收到的语音控制命令控制显示器改变所述至少一个图标之中的与接收到的语音控制命令相应的图标。
5.如权利要求1所述的图像显示设备,其中,响应于在语音识别激活之后再次从遥控器接收到控制信号或从遥控器接收到另一控制信号,控制器对语音识别进行去激活。
6.如权利要求1所述的图像显示设备,其中,响应于具有预定音量或更大音量的语音被遥控器接收到,控制器确定控制信号被接收到。
7.如权利要求1所述的图像显示设备,其中,响应于从遥控器接收到候选语音控制命令词,控制器测试候选语音控制命令词,
其中,控制器根据测试结果将该候选语音控制命令词注册为语音控制命令。
8.一种控制能够进行语音识别的图像显示设备的方法,所述方法包括:
响应于从与图像显示设备通信的遥控器接收到控制信号,激活语音识别,并将图像显示设备的音频信号的输出音量减小到低于预定级别的级别;
当在激活语音识别之后的第一预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时,输出请求针对语音识别的音频输入的消息;
当在激活语音识别之后的第二预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时,对语音识别进行去激活,并将音频信号的输出音量恢复到语音识别激活之前的输出音量,其中,第一预定时间短于第二预定时间;
当从遥控器接收到作为语音控制命令的音频输入,并在激活语音识别之后经过第三预定时间时,对语音识别进行去激活,并将音频信号的输出音量恢复到语音识别激活之前的输出音量,其中,第三预定时间长于第二预定时间。
9.如权利要求8所述的方法,其中,所述消息包括图像显示设备上显示的消息图像或通过音频输出单元输出的音频消息。
10.如权利要求8所述的方法,还包括:响应于从遥控器接收到控制信号,在正被显示在图像显示设备上的内容上显示至少一个图标,
其中,所述至少一个图标中的每个图标能够与一个或更多个语音控制命令相应。
11.如权利要求10所述的方法,还包括:响应于从遥控器接收到作为语音控制命令的音频输入,基于接收到的语音控制命令改变所述至少一个图标之中的与接收到的语音控制命令相应的图标。
12.如权利要求8所述的方法,还包括:响应于在语音识别激活之后再次从遥控器接收到控制信号或从遥控器接收到另一控制信号,对语音识别进行去激活。
13.如权利要求8所述的方法,其中,接收控制信号的步骤包括:响应于具有预定音量或更大音量的语音被遥控器接收到,确定接收到控制信号。
14.如权利要求8所述的方法,还包括:
响应于从遥控器接收到候选语音控制命令词,测试候选语音控制命令词,
根据测试结果将该候选语音控制命令词注册为语音控制命令。
CN201610191047.XA 2012-01-09 2013-01-09 图像显示设备及控制图像显示设备的方法 Active CN105847921B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
KR10-2012-0002659 2012-01-09
KR20120002659 2012-01-09
KR10-2012-0143590 2012-12-11
KR1020120143590A KR101590332B1 (ko) 2012-01-09 2012-12-11 영상장치 및 그 제어방법
CN201310007787XA CN103198832A (zh) 2012-01-09 2013-01-09 图像显示设备及控制图像显示设备的方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201310007787XA Division CN103198832A (zh) 2012-01-09 2013-01-09 图像显示设备及控制图像显示设备的方法

Publications (2)

Publication Number Publication Date
CN105847921A CN105847921A (zh) 2016-08-10
CN105847921B true CN105847921B (zh) 2018-04-24

Family

ID=47665898

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201310007787XA Pending CN103198832A (zh) 2012-01-09 2013-01-09 图像显示设备及控制图像显示设备的方法
CN201610191047.XA Active CN105847921B (zh) 2012-01-09 2013-01-09 图像显示设备及控制图像显示设备的方法
CN201910653311.0A Pending CN110265030A (zh) 2012-01-09 2013-01-09 图像显示设备及控制图像显示设备的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201310007787XA Pending CN103198832A (zh) 2012-01-09 2013-01-09 图像显示设备及控制图像显示设备的方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910653311.0A Pending CN110265030A (zh) 2012-01-09 2013-01-09 图像显示设备及控制图像显示设备的方法

Country Status (9)

Country Link
US (7) US9401149B2 (zh)
EP (3) EP4220632A1 (zh)
JP (1) JP6342118B2 (zh)
KR (1) KR101590332B1 (zh)
CN (3) CN103198832A (zh)
AU (1) AU2013200132B2 (zh)
BR (1) BR102013000553B1 (zh)
IN (1) IN2013DE00063A (zh)
WO (1) WO2013105782A1 (zh)

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10395651B2 (en) * 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US9740304B2 (en) * 2013-03-13 2017-08-22 Google Inc. Systems, methods, and media for providing an enhanced remote control having multiple modes
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11146903B2 (en) * 2013-05-29 2021-10-12 Qualcomm Incorporated Compression of decomposed representations of a sound field
US20180332339A1 (en) * 2017-05-12 2018-11-15 Enseo, Inc. Set-Top Box with Enhanced Functionality and System and Method for Use of Same
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9589565B2 (en) * 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
CN104347072A (zh) * 2013-08-02 2015-02-11 广东美的制冷设备有限公司 遥控器控制的方法、装置和遥控器
KR102394485B1 (ko) 2013-08-26 2022-05-06 삼성전자주식회사 음성 인식을 위한 전자 장치 및 방법
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US10373611B2 (en) 2014-01-03 2019-08-06 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification
KR102215579B1 (ko) 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20170078737A1 (en) * 2014-02-27 2017-03-16 Lg Electronics Inc. Digital device and control method therefor
DE112015001468T5 (de) * 2014-03-27 2016-12-15 Sony Corporation Elektronische Vorrichtung und Verfahren zum Identifizieren von Eingabebefehlen eines Benutzers
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
KR102147329B1 (ko) * 2014-06-17 2020-08-24 엘지전자 주식회사 영상 표시 기기 및 그의 동작 방법
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104159153A (zh) * 2014-07-22 2014-11-19 乐视网信息技术(北京)股份有限公司 用户角色的切换方法及系统
US9736606B2 (en) 2014-08-01 2017-08-15 Qualcomm Incorporated Editing of higher-order ambisonic audio data
CN104331265A (zh) * 2014-09-30 2015-02-04 北京金山安全软件有限公司 一种语音输入方法、装置及终端
KR102245747B1 (ko) 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
CN104505099A (zh) * 2014-12-08 2015-04-08 北京云知声信息技术有限公司 去除语音信号中已知干扰的方法和设备
CN104505092B (zh) * 2014-12-10 2017-12-22 广东美的制冷设备有限公司 空调器语音控制方法和系统
CN104505093A (zh) * 2014-12-16 2015-04-08 佛山市顺德区美的电热电器制造有限公司 家用电器及其语音交互方法
US9754588B2 (en) * 2015-02-26 2017-09-05 Motorola Mobility Llc Method and apparatus for voice control user interface with discreet operating mode
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
KR101688164B1 (ko) * 2015-04-16 2016-12-20 엘지전자 주식회사 차량 단말 장치 및 이의 제어방법
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10770067B1 (en) * 2015-09-08 2020-09-08 Amazon Technologies, Inc. Dynamic voice search transitioning
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP2017138476A (ja) * 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US20170371615A1 (en) * 2016-06-22 2017-12-28 Qualcomm Incorporated Alerting a user to a change in an audio stream
US10506192B2 (en) * 2016-08-16 2019-12-10 Google Llc Gesture-activated remote control
KR102398390B1 (ko) * 2017-03-22 2022-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR102304701B1 (ko) * 2017-03-28 2021-09-24 삼성전자주식회사 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
CN111345016A (zh) * 2017-09-13 2020-06-26 深圳传音通讯有限公司 一种智能终端的启动控制方法及启动控制系统
KR102527278B1 (ko) * 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
KR102429556B1 (ko) * 2017-12-05 2022-08-04 삼성전자주식회사 디스플레이 장치 및 음향 출력 방법
CN107958668B (zh) * 2017-12-15 2022-04-19 中广热点云科技有限公司 智能电视的声控选播方法、声控选播系统
CN108363557B (zh) * 2018-02-02 2020-06-12 刘国华 人机交互方法、装置、计算机设备和存储介质
CN108419108A (zh) * 2018-03-06 2018-08-17 深圳创维数字技术有限公司 语音控制方法、装置、遥控器和计算机存储介质
US10735597B1 (en) * 2018-03-23 2020-08-04 Amazon Technologies, Inc. Selecting user device during communications session
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108600898B (zh) * 2018-03-28 2020-03-31 深圳市冠旭电子股份有限公司 一种配置无线音箱的方法、无线音箱及终端设备
US20190043479A1 (en) * 2018-05-07 2019-02-07 Intel Corporation Wake on voice key phrase segmentation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
JP2020065140A (ja) * 2018-10-16 2020-04-23 カシオ計算機株式会社 音声処理装置、方法、プログラム、携帯端末
KR20200043075A (ko) 2018-10-17 2020-04-27 삼성전자주식회사 전자 장치 및 그 제어방법, 전자 장치의 음향 출력 제어 시스템
CN111383633B (zh) * 2018-12-29 2023-08-01 深圳Tcl新技术有限公司 语音识别连续性控制方法、装置、智能终端及存储介质
KR20200098280A (ko) * 2019-02-12 2020-08-20 삼성전자주식회사 전자 장치 및 전자 장치에서 사운드 출력 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11295726B2 (en) * 2019-04-08 2022-04-05 International Business Machines Corporation Synthetic narrowband data generation for narrowband automatic speech recognition systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11451855B1 (en) * 2020-09-10 2022-09-20 Joseph F. Kirley Voice interaction with digital signage using mobile device
KR20230063672A (ko) 2021-11-02 2023-05-09 주식회사 케이티 스마트 스피커에서의 미디어볼륨 조정방법 및 그 장치
JP2023113171A (ja) * 2022-02-03 2023-08-16 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983186A (en) * 1995-08-21 1999-11-09 Seiko Epson Corporation Voice-activated interactive speech recognition device and method
CN1319223A (zh) * 1998-09-21 2001-10-24 汤姆森多媒体公司 包括遥控受控装置和该装置的音频遥控器的系统
WO2002096111A1 (en) * 2001-05-22 2002-11-28 Digeo, Inc. Noise reduction for teleconferencing within an interactive television system
CN1397063A (zh) * 2000-11-27 2003-02-12 皇家菲利浦电子有限公司 对具有声音输出装置的设备进行控制的方法
EP1457969A1 (en) * 2003-03-11 2004-09-15 Square D Company Human machine interface with speech recognition
CN101561965A (zh) * 2008-04-16 2009-10-21 索尼株式会社 遥控系统和遥控信号处理方法

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5220595A (en) 1989-05-17 1993-06-15 Kabushiki Kaisha Toshiba Voice-controlled apparatus using telephone and voice-control method
JPH07109560B2 (ja) * 1990-11-30 1995-11-22 富士通テン株式会社 音声認識装置
KR0122953Y1 (ko) * 1992-10-23 1998-10-15 구자홍 음성인식 텔레비젼 수상기의 합성 음량 자동 조절장치
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5832440A (en) 1996-06-10 1998-11-03 Dace Technology Trolling motor with remote-control system having both voice--command and manual modes
US7266498B1 (en) * 1998-12-18 2007-09-04 Intel Corporation Method and apparatus for reducing conflicts between speech-enabled applications sharing speech menu
JP2001042891A (ja) * 1999-07-27 2001-02-16 Suzuki Motor Corp 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体
JP4554044B2 (ja) * 1999-07-28 2010-09-29 パナソニック株式会社 Av機器用音声認識装置
EP1085500B1 (en) 1999-09-13 2007-01-17 Matsushita Electric Industrial Co., Ltd. Voice recognition for controlling a device
US7292986B1 (en) * 1999-10-20 2007-11-06 Microsoft Corporation Method and apparatus for displaying speech recognition progress
JP2001275176A (ja) * 2000-03-24 2001-10-05 Matsushita Electric Ind Co Ltd リモートコントロール装置
JP2001296881A (ja) * 2000-04-14 2001-10-26 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2001312297A (ja) * 2000-04-28 2001-11-09 Nippon Seiki Co Ltd 音声認識装置
US6629077B1 (en) 2000-11-22 2003-09-30 Universal Electronics Inc. Universal remote control adapted to receive voice input
JP2002182691A (ja) * 2000-12-14 2002-06-26 Matsushita Electric Ind Co Ltd 音を出力する機器を制御する制御装置
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US7369997B2 (en) * 2001-08-01 2008-05-06 Microsoft Corporation Controlling speech recognition functionality in a computing device
US7107081B1 (en) * 2001-10-18 2006-09-12 Iwao Fujisaki Communication device
JPWO2003093766A1 (ja) * 2002-04-30 2005-09-08 株式会社日立製作所 通信型ナビゲーションシステムおよびナビゲーション方法
JP2003345390A (ja) * 2002-05-23 2003-12-03 Matsushita Electric Ind Co Ltd 音声処理装置及びリモートコントローラ装置
JP2004354682A (ja) * 2003-05-29 2004-12-16 Alpine Electronics Inc 音声制御装置
KR100652645B1 (ko) * 2004-07-23 2006-12-06 엘지전자 주식회사 푸시 투 토크형 이동 통신 단말기의 음성 검출 및 인식을이용한 발언권 관리 장치와 방법
JP4872241B2 (ja) 2005-05-31 2012-02-08 船井電機株式会社 テレビ受像機
JP4296181B2 (ja) * 2006-02-28 2009-07-15 パイオニア株式会社 地図検索装置及び地図検索方法等
US20080282154A1 (en) * 2006-09-11 2008-11-13 Nurmi Mikko A Method and apparatus for improved text input
KR20080033639A (ko) * 2006-10-12 2008-04-17 삼성전자주식회사 영상 재생 장치 및 영상 재생 장치에서의 음량 조절 방법
US20080118086A1 (en) * 2006-11-16 2008-05-22 Scott Krig Method and System For Controlling Volume Settings For Multimedia Devices
US8676273B1 (en) * 2007-08-24 2014-03-18 Iwao Fujisaki Communication device
TWI399966B (zh) * 2007-12-31 2013-06-21 Htc Corp 行動電話與其撥話方法
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US8958848B2 (en) * 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
US8312660B1 (en) * 2008-05-09 2012-11-20 Iwao Fujisaki Firearm
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
KR101502003B1 (ko) * 2008-07-08 2015-03-12 엘지전자 주식회사 이동 단말기 및 그 텍스트 입력 방법
CN101729957A (zh) 2008-10-24 2010-06-09 深圳富泰宏精密工业有限公司 电子装置及消除电子装置音量突变的方法
KR101545582B1 (ko) * 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
US11012732B2 (en) * 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
JP5463922B2 (ja) * 2010-01-12 2014-04-09 株式会社デンソー 車載機
US8522283B2 (en) * 2010-05-20 2013-08-27 Google Inc. Television remote control data transfer
JP5695447B2 (ja) 2011-03-01 2015-04-08 株式会社東芝 テレビジョン装置及び遠隔操作装置
KR102022318B1 (ko) * 2012-01-11 2019-09-18 삼성전자 주식회사 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983186A (en) * 1995-08-21 1999-11-09 Seiko Epson Corporation Voice-activated interactive speech recognition device and method
CN1319223A (zh) * 1998-09-21 2001-10-24 汤姆森多媒体公司 包括遥控受控装置和该装置的音频遥控器的系统
CN1397063A (zh) * 2000-11-27 2003-02-12 皇家菲利浦电子有限公司 对具有声音输出装置的设备进行控制的方法
WO2002096111A1 (en) * 2001-05-22 2002-11-28 Digeo, Inc. Noise reduction for teleconferencing within an interactive television system
EP1457969A1 (en) * 2003-03-11 2004-09-15 Square D Company Human machine interface with speech recognition
CN101561965A (zh) * 2008-04-16 2009-10-21 索尼株式会社 遥控系统和遥控信号处理方法

Also Published As

Publication number Publication date
EP2894633A1 (en) 2015-07-15
US10957323B2 (en) 2021-03-23
BR102013000553B1 (pt) 2022-04-19
US9786278B2 (en) 2017-10-10
WO2013105782A1 (en) 2013-07-18
KR20130083371A (ko) 2013-07-22
BR102013000553A2 (pt) 2015-05-19
AU2013200132A1 (en) 2013-07-25
EP4220632A1 (en) 2023-08-02
US9530418B2 (en) 2016-12-27
EP2613313A1 (en) 2013-07-10
US20130179168A1 (en) 2013-07-11
US20230245653A1 (en) 2023-08-03
US20200005790A1 (en) 2020-01-02
US20180025728A1 (en) 2018-01-25
EP2613313B1 (en) 2024-03-06
CN103198832A (zh) 2013-07-10
KR101590332B1 (ko) 2016-02-18
US9401149B2 (en) 2016-07-26
JP2013142903A (ja) 2013-07-22
US20210158821A1 (en) 2021-05-27
US20170069323A1 (en) 2017-03-09
US11763812B2 (en) 2023-09-19
CN110265030A (zh) 2019-09-20
CN105847921A (zh) 2016-08-10
EP2894633B1 (en) 2017-11-01
JP6342118B2 (ja) 2018-06-13
US20150213802A1 (en) 2015-07-30
IN2013DE00063A (zh) 2015-06-26
AU2013200132B2 (en) 2014-07-24

Similar Documents

Publication Publication Date Title
CN105847921B (zh) 图像显示设备及控制图像显示设备的方法
CN106385621A (zh) 智能设备控制方法和装置
CN104539871B (zh) 多媒体通话方法及装置
CN104991754A (zh) 录音方法及装置
CN104615359A (zh) 对应用软件进行语音操作的方法及装置
JP2006221270A (ja) 音声認識機能を備えた携帯端末装置のマルチタスクシステム及び方法
CN106453032B (zh) 信息推送方法及装置、系统
CN104636110A (zh) 控制音量的方法及装置
CN107147929A (zh) 多窗口声音输出方法、电视机以及计算机可读存储介质
CN103269445B (zh) 智能电视系统控制方法
CN106357913A (zh) 信息提醒方法及装置
KR101631594B1 (ko) 표시 장치 및 그 제어방법
CN110839169A (zh) 一种智能设备遥控装置及方法
KR102494051B1 (ko) 전자 장치 및 이의 음성 인식 방법
KR102359163B1 (ko) 전자 장치 및 이의 음성 인식 방법
CN109088920A (zh) 智能音箱的评价方法、装置、设备及存储介质
CN117376633A (zh) 音频信号处理方法、装置、智能电视、介质、程序产品
CN113971012A (zh) 一种多应用音频定制输出方法、终端及存储介质
CN117809661A (zh) 一种显示设备及唤醒词的领读方法
CN106453821A (zh) 信号转换方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant