CN105847921B - 图像显示设备及控制图像显示设备的方法 - Google Patents
图像显示设备及控制图像显示设备的方法 Download PDFInfo
- Publication number
- CN105847921B CN105847921B CN201610191047.XA CN201610191047A CN105847921B CN 105847921 B CN105847921 B CN 105847921B CN 201610191047 A CN201610191047 A CN 201610191047A CN 105847921 B CN105847921 B CN 105847921B
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- image display
- voice
- audio
- control command
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000005236 sound signal Effects 0.000 claims abstract description 94
- 238000004891 communication Methods 0.000 claims description 29
- 238000012360 testing method Methods 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims 5
- 230000003247 decreasing effect Effects 0.000 claims 2
- 230000000977 initiatory effect Effects 0.000 abstract description 78
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 3
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 239000010409 thin film Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/02—Manually-operated control
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
- H04N21/42206—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
- H04N21/42206—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
- H04N21/4221—Dedicated function buttons, e.g. for the control of an EPG, subtitles, aspect ratio, picture-in-picture or teletext
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
- H04N21/42206—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
- H04N21/42222—Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4396—Processing of audio elementary streams by muting the audio signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q9/00—Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Health & Medical Sciences (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Details Of Television Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Television Receiver Circuits (AREA)
- Studio Devices (AREA)
Abstract
提供了一种图像显示设备及控制图像显示设备的方法。所述图像显示设备能够在图像显示设备识别用户语音时,通过将从图像显示设备输出的音频信号的音量减小到预定级别或更低级别,来提高语音识别性能。能够进行语音识别的图像显示设备包括:第一语音输入单元,接收用户端音频信号;音频输出单元,输出由图像显示设备处理的音频信号;第一语音识别器,分析通过第一语音输入单元接收的用户端音频信号;控制器,如果接收到语音识别开始命令,则将通过音频输出单元输出的音频信号的音量减小到预定级别。
Description
本申请是申请日为2013年1月9日,申请号为201310007787.X,发明名称为“图像显示设备及控制图像显示设备的方法”的发明专利申请的分案申请。
技术领域
本发明的实施例涉及一种能够通过语音识别执行命令的图像显示设备以及控制所述图像显示设备的方法。
背景技术
通常,图像显示设备处理视频信号并以各种格式输出视频信号,图像显示设备的代表示例包括电视(TV)。最近,随着具有比现有模拟TV更强的信号处理和存储容量的数字TV的发展和商业使用,可使用安装在每家每户中的互联网网络来向用户提供各种类型的内容服务,诸如实时广播、内容点播(COD)、游戏和视频通信。
此外,当图像显示设备从用户接收到命令以执行包括各种类型的服务的各种功能时,已应用了通过麦克风接收用户语音、识别接收的语音并执行与接收的语音相应的命令的语音识别方法。
然而,当通过麦克风接收用户语音时,背景声音也被接收,尤其是从图像显示设备输出的音频信号可被接收。如果背景声音或图像显示设备的音频信号输出的音量超过预定级别,则会减小图像显示设备的用户语音识别率。
发明内容
因此,本发明的一方面在于提供了一种图像显示设备以及控制所述图像显示设备的方法,所述图像显示设备能够在图像显示设备识别用户语音时,通过将从图像显示设备输出的音频信号的音量减小到预定级别或更低级别,来提高语音识别性能。
本发明的另外方面将在下面的描述中部分地阐明,并且从描述中部分是清楚的,或者通过本发明的实施可以被理解。
根据本发明的一方面,提供了一种能够进行语音识别的图像显示设备,包括:第一语音输入单元,接收用户端音频信号;音频输出单元,输出由图像显示设备处理的音频信号;第一语音识别器,分析通过第一语音输入单元接收的用户端音频信号;控制器,如果接收到语音识别开始命令,则将通过音频输出单元输出的音频信号的音量减小到预定级别。
可通过第一语音输入单元接收语音识别开始命令,作为用户的语音信号。
如果通过第一语音输入单元接收到语音识别开始命令词,则控制器可确定接收到语音识别开始命令。
如果通过第一语音输入单元接收到具有预定音量或更高音量的语音,则控制器可确定接收到语音识别开始命令。
所述图像显示设备还可包括:背景声音消除器,从用户端音频信号消除除了用户的语音信号之外的背景声音。
背景声音消除器可从通过第一语音输入单元接收的用户端音频信号消除通过音频输出单元输出的音频信号。
如果语音识别结束,则包括在所述图像显示设备中的控制器可将通过音频输出单元输出的音频信号的音量返回到语音识别开始时的音频信号的音量。
如果在预定语音识别结束时间或更长时间内,没有通过第一语音输入单元接收到用户的控制命令,则控制器可确定语音识别结束。
如果在预定命令请求时间或更长时间内,没有通过第一语音输入单元接收到用户的控制命令,则控制器可请求用户输入控制命令。
如果通过第一语音输入单元接收到语音识别结束命令,则控制器可确定语音识别结束。
所述图像显示设备还可包括:命令词产生器,产生与语音识别开始命令相应的语音识别开始命令词。
命令词产生器可通过第一语音输入单元接收候选命令词,测试候选命令词是否适合作为语音识别开始命令词,如果候选命令词适合作为语音识别开始命令词,则将该候选命令词注册为语音识别开始命令。
命令词产生器可从用户接收选择命令,如果注册的语音识别命令词的数量为两个或更多,则根据接收到的选择命令选择并设置语音识别开始命令词。
所述图像显示设备还可包括遥控器,远程控制图像显示设备,遥控器可包括:输入按钮,接收用户的控制命令;第二语音输入单元,接收用户端音频信号;第二语音识别器,分析通过第二语音输入单元接收的用户端音频信号。
如果通过第二语音输入单元接收到具有预定音量或更高音量的语音,则控制器可确定接收到语音识别开始命令。
如果语音识别结束,则控制器可将通过音频输出单元输出的音频信号的音量返回到语音识别开始时的音频信号的音量。
如果在预定语音识别结束时间或更长时间内,没有通过第二语音输入单元接收到用户的控制命令,则控制器可确定语音识别结束。
如果在预定命令请求时间或更长时间内,没有通过第二音频输入单元接收到用户的控制命令,则控制器可请求用户输入控制命令。
如果通过输入按钮或第二语音输入单元接收到语音识别结束命令,则控制器可确定语音识别结束。
根据本发明的另一方面,提供了一种能够进行语音识别的图像显示设备,包括:语音输入单元,从用户接收控制命令;显示器,显示与多个控制命令词相应的一个图标,如果通过语音输入单元从用户接收到控制命令词,则改变与接收到的控制命令词相应的图标。
根据本发明的另一方面,提供了一种控制包括语音输入单元和音频输出单元的图像显示设备的方法,包括:通过语音输入单元从用户接收用户端音频信号;确定接收到的用户端音频信号是否相应于语音识别开始命令词;如果接收到的用户端音频信号相应于语音识别开始命令词,则将通过音频输出单元输出的音频信号的音量减小到预定级别。
所述方法还可包括:如果通过语音输入单元接收到用户端音频信号,则从用户端音频信号消除除了用户的语音信号之外的背景声音信号。
背景声音信号可以是通过音频输出单元输出的音频信号。
所述方法还可包括:如果语音识别结束,则将通过音频输出单元输出的音频信号的音量返回到语音识别开始时的音频信号的音量。
语音识别结束的步骤可包括:如果在预定语音识别结束时间或更长时间内,没有通过语音输入单元接收到用户的控制命令,则确定语音识别结束。
语音识别结束的步骤可包括:如果通过语音输入单元接收到语音识别结束命令,则确定语音识别结束。
根据本发明的另一方面,提供了一种控制能够进行语音识别的图像显示设备的方法,包括:通过语音输入单元从用户接收候选命令词;测试候选命令词是否适合作为将进行语音识别的控制命令词;如果作为测试结果,候选命令词适合作为控制命令词,则将该候选命令词注册为控制命令。
根据本发明的另一方面,提供了一种控制图像显示设备的方法,其中,所述图像显示设备包括用于从用户接收语音信号的语音输入单元和用于从用户远程接收控制命令的遥控器,所述方法包括:如果通过语音输入单元或遥控器从用户接收到语音识别开始命令,则将从图像显示设备输出的音频信号的音量减小到预定音量,如果从用户接收到语音识别结束命令,则将从图像显示设备输出的音频信号的音量返回到原始级别。
接收语音识别开始命令的步骤可包括:通过语音输入单元接收用户的语音识别开始命令。
接收语音识别开始命令的步骤可包括:通过语音输入单元接收具有预定音量或更大音量的语音。
接收语音识别结束命令的步骤可包括:通过语音输入单元接收用户的语音识别结束命令。
当在预定语音识别结束时间或更长时间内,没有通过语音输入单元接收到控制命令时,可接收语音识别结束命令。
根据本发明的实施例,可提高图像显示设备的用户语音识别性能,并防止由于语音识别错误而引起的图像显示设备的故障。
附图说明
从以下结合附图进行的对实施例的描述中,本发明的这些和/或其它方面将变得明显,并更易于理解,其中:
图1是示出根据本发明的实施例的图像显示设备的外观的示图;
图2是示出根据本发明的实施例的图像显示设备主体的控制流程的框图;
图3是示出根据本发明的实施例的图像显示设备的控制流程的框图,其中,所述图像显示设备还包括背景声音消除器;
图4是示出根据本发明的实施例的图像显示设备的控制流程的框图,其中,所述图像显示设备还包括命令词产生器;
图5是示出根据本发明的实施例的包括在图像显示设备中的遥控器的外观的示图;
图6是示出根据本发明的实施例的包括在图像显示设备中的遥控器的框图;
图7是示出根据本发明的实施例的图像显示设备的第一控制方法的流程图;
图8是更详细地示出图7的实施例的流程图;
图9是示出根据本发明的实施例的图像显示设备的第二控制方法的流程图;
图10是示出根据本发明的实施例的图像显示设备的第三控制方法的流程图;
图11是示出图9中的在预定时间内没有通过语音从用户接收到控制命令的情况下完成语音识别的方法的流程图;
图12A至图12C是示出在根据本发明的实施例的图像显示设备在语音识别模式下的情况下显示在视频输出单元上的屏幕的示图;
图13是示出用户在根据本发明的实施例的图像显示设备中产生命令词的方法的流程图;
图14A至图14D是示出在用户在根据本发明的实施例的图像显示设备中产生命令词的情况下显示在视频输出单元上的屏幕的示图。
具体实施方式
在本说明书中描述的实施例和在附图中示出的构造仅是示例性的,可对其进行各种修改。
现在将详细说明本发明的实施例,其示例在附图中示出。
图1是示出根据本发明的实施例的图像显示设备1的外观的示图。
参照图1,根据本发明的实施例的图像显示设备1包括:图像显示设备主体100,根据用户的控制命令输出视频或音频;遥控器300,远程控制图像显示设备主体100。
图像显示设备主体100可由数字TV实现,并包括:视频输出单元121,输出广播节目的视频信号和各种内容的视频信号;音频输出单元122,输出广播节目的音频信号和各种内容的音频信号;用户输入单元110,通过用户语音或操作获得控制命令。
根据本发明的实施例的图像显示设备1能够通过有线或无线网络进行视频通信。如果图像显示设备1提供视频通信服务,则可通过视频输出单元121输出另一方的视频信号,并通过音频输出单元122输出另一方的音频信号。在这种情况下,用户的视频信号和音频信号可通过用户输入单元110被获得,并且被发送到另一方。
音频输出单元122可由扬声器等实现,并可输出由图像显示设备1处理的音频信号。更具体地说,音频输出单元输出包括在广播节目信号中的音频信号或包括在由图像显示设备1执行的内容中的音频信号。此外,如上所述,如果图像显示设备1执行视频通信功能,则可输出另一方的音频信号。虽然本实施例的图像显示设备1包括位于该设备后方的音频输出单元122,但是本发明的实施例不限于此,音频输出单元122可安装在向用户提供音频的任何地方。
视频输出单元121输出在图像显示设备1中处理的视频信号。更具体地说,视频输出单元121输出包括在广播节目信号中的视频信号或包括在图像显示设备1中的内容中的视频信号。此外,如果图像显示设备1执行视频通信功能,则可输出另一方的视频信号。
用户输入单元110包括图像输入单元111,接收用户的图像;第一语音输入单元112,接收用户语音。
图像输入单元111包括镜头,接收用户的图像;成像装置(诸如电荷耦合器件(CCD)传感器或互补金属氧化物半导体(CMOS)传感器),通过镜头捕捉用户的图像;图像信号处理器(ISP),处理由成像装置捕捉的图像。
第一语音输入单元112可由麦克风等实现,并被用于接收用户语音的目的。然而,第一语音输入单元112除了可接收用户语音之外,还可接收背景声音,尤其是可接收从图像显示设备的音频输出单元122输出的音频信号。因此,在下面的实施例中,通过第一语音输入单元112接收的信号被称为“用户端音频信号”。用户端音频信号不仅可包括用户语音信号还可包括背景声音信号。
如图1所示,虽然图像显示设备包括多媒体互联网协议(MoIP)装置,其中,该装置包括了视频输入单元和语音输入单元两者,但本发明不限于此,图像显示设备可仅包括第一语音输入单元112。
用户可不按下包括在遥控器300或图像显示设备主体100中的输入按钮,但可通过第一语音输入单元112将作为语音信号的控制命令输入到根据本发明的实施例的图像显示设备1,从而控制图像显示设备的操作。例如,如图1所示,如果各种内容菜单被显示在视频输出单元121上,则用户可通过将与期望的菜单相应的命令词输入到第一语音输入单元112作为语音信号,来选择菜单。
用户输入单元110可如图1所示与图像显示设备主体100分离地实现,或可与图像显示设备主体100集成地实现。
图2是示出根据本发明的实施例的图像显示设备主体的控制流程的框图。
参照图2,根据本发明的实施例的图像显示设备主体100包括广播信号接收器230,接收广播信号;内容执行单元240,执行内容;视频处理器251,处理接收到的广播信号中的视频信号或包括在内容中的视频信号;音频处理器252,处理包括在接收到的广播信号中的音频信号或包括在内容中的音频信号;视频输出单元121,输出由视频处理器251处理的视频信号;音频输出单元122,输出由音频处理器252处理的音频信号;第一语音输入单元112,从用户接收语音信号;第一语音识别器210,基于从用户接收的语音信号识别控制命令;第一通信单元260,从遥控器300接收控制信号;第一控制器220,控制图像显示设备主体100的整体操作。
广播信号接收器230接收包括视频信号和音频信号的广播信号。广播信号接收器230包括天线和调谐器,通过视频输出单元121输出视频信号,通过音频输出单元122输出音频信号。
内容执行单元240执行多媒体内容。由内容执行单元240执行的多媒体内容可以是存储在图像显示设备中的游戏、运动图像文件、音乐文件等,或者如果图像显示设备1有线或无线连接到互联网,则所述多媒体内容可以是在互联网上提供的各种多媒体内容。此外,如果图像显示设备连接到另一外部装置(诸如移动通信设备或计算机),则可由连接的外部设备提供多媒体内容,并且不限制由内容执行单元240执行的多媒体内容的类型。
音频处理器252处理从广播信号接收器230和内容执行单元240接收的音频信号,并通过音频输出单元122输出处理的音频信号。音频处理器252包括解码器,对以预定格式压缩的信号(诸如广播音频信号)进行解码;数字/模拟转换器,将数字信号转换为模拟信号,并将模拟信号发送到音频输出单元122。
视频处理器251处理从广播信号接收器230和内容执行单元240接收的视频信号,并通过视频输出单元121输出处理的视频信号。视频处理器251包括解码器,对以预定格式压缩的信号(诸如广播视频信号)进行解码;数字/模拟转换器,将数字信号转换为模拟信号,并将模拟信号发送到视频输出单元121。
第一语音输入单元112从用户接收与控制命令有关的语音信号。第一语音输入单元112可由麦克风实现,或可由与图1所示的实施例相同的包括了麦克风和摄像机两者的MoIP装置实现。此外,第一语音输入单元112可放大接收到的用户端音频信号,将放大的用户端音频信号从模拟信号转换为数字信号,并将数字信号发送到语音识别器。
虽然在附图中未显示,但第一语音输入单元112可包括语音编码器。如果第一语音输入单元112通过数据接口连接到图像显示设备主体100,则语音编码器可将用户端音频信号压缩为适合于数据接口的带宽的格式,或在执行视频通信的情况下,语音编码器可将用户端音频信号压缩为能够被发送到另一方的格式。在这种情况下,图像显示设备主体100包括语音解码器,在语音识别之前对压缩的用户端音频信号进行解码。
如上所述,当第一语音输入单元112接收用户语音时,背景声音也可被接收。因此,第一语音输入单元112接收包括用户语音信号的用户端语音信号。当用户通过第一音频输入单元112输入控制命令时,由于图像显示设备1正在操作,因此用户端音频信号可包括用户语音信号和通过音频输出单元122输出的音频信号。
第一语音识别器210分析通过第一语音输入单元112接收的用户语音信号,并识别由用户输入的控制命令。语音识别方法包括将接收到的语音信号与先前存储的标准模式进行比较并检测与接收到的语音信号最相似的语音模式的模式匹配方法、预先设置用于区分一个词与另一个词的功能,将设置的功能应用到用户语音信号并确定用户语音信号的识别功能方法等。此外,可以以词或音位为单位来执行语音识别。作为语音识别器的语音识别方法,可采用任何公知方法,本发明的实施例不限于上述方法。
第一通信单元260从遥控器300接收控制信号,并将控制信号提供给第一控制器220。第一通信单元260不仅可采用无线通信方案(诸如Wi-Fi通信方案、蓝牙通信方案或ZigBee通信方案),还可采用具有相对简单的配置的红外通信方案。
第一控制器220从第一语音识别器210接收识别结果,并根据识别结果执行控制。例如,如果根据识别结果的控制命令是广播频道改变,则控制信号被发送到广播信号接收器230以根据控制命令改变频道,如果根据识别结果的控制命令是内容选择,则控制信号被发送到内容执行单元240以执行根据控制命令的内容。
如果由第一语音识别器210发送的控制命令是语音识别开始命令,则第一控制器220将从音频输出单元122输出的音频信号的音量减小到预定级别。如果通过第一语音输入单元112接收到预定语音识别开始命令词,或者如果接收到具有预定参考音量或更大音量的语音,则第一语音识别器210将接收到的命令或语音识别为语音识别开始命令,并将语音识别开始命令发送到第一控制器220。第一控制器220可接收语音识别开始命令,将图像显示设备1切换为语音识别模式,并将音频输出单元的音量减小到预定级别。
在通过语音识别开始命令词接收到语音识别开始命令时,语音识别开始命令词可被设置为能够容易地被识别的简单的词,并可包括例如“Hi TV”、“TV”等。如上所述,用户可通过包括在遥控器300或图像显示设备主体100中的输入按钮输入语音识别开始命令。
如上所述,用户端音频信号可包括用户语音信号和通过音频输出单元122输出的音频信号。如果用户端音频信号包括这样的背景声音,则第一语音识别器210的语音识别率会恶化。如果在语音识别被执行时第一控制器220将通过音频输出信号122输出的音频信号的音量减小到预定级别,则即使用户端音频信号包括背景声音,也仅提取用户语音信号,从而容易识别控制命令。
预定音量级别可指示即使包括了背景声音也能够保证预定语音识别率或更高的语音识别率的音量级别。例如,如果能够保证80%的语音识别率或更高的语音识别率的音量为5,则当语音识别开始命令被接收时,通过音频输出单元122输出的音频信号的音量可被设置为减小到5。预定音量可在生产处理中通过实验或统计分析被预先设置,或可由用户预先设置。
预定音量级别不为0。例如,用户可输入控制命令以通过语音识别选择内容,从而在通过图像显示设备听音乐的同时观看存储在图像显示设备中的相册。此时,如果从音频输出单元122输出的音频信号的音量被设置为0以执行静音功能,则无法实现操作连续性,并无法实现同时执行多个操作的用户意图。因此,考虑到操作连续性和语音识别率,可适当地选择预定音量。
此外,如果当前音量级别等于或小于预定音量级别,则第一控制器220可维持当前音量级别。
如果语音识别结束,则第一控制器220将从音频输出单元122输出的音频信号的音量级别返回到原始级别。如果通过第一语音输入单元112接收到语音识别结束命令,如果在预定参考时间内没有接收到将进行语音识别的控制命令,或如果通过包括在遥控器300或图像显示设备主体100中的输入按钮接收到语音识别结束命令,则可确定语音识别结束。
图3是示出根据本发明的实施例的图像显示设备1的控制流程的框图,其中,该设备还包括背景声音消除器270。
在图3的实施例中,将省略与图2相同的部分的描述,并将关注于背景声音消除器270。
如上所述,如果用户端音频信号包括背景声音,则第一语音识别器210的语音识别率恶化,并且在视频通信被执行的情况下,具有高质量的语音信号不会被发送到另一方。因此,根据本发明的实施例的图像显示设备1还可包括背景声音消除器270,从用户端音频信号消除背景声音。
背景声音消除器270可由声学回声消除器实现。声学回声消除器接收参考信号以及包括用户语音信号和背景声音的用户端音频信号,并基于参考信号从接收到的用户端音频信号消除背景声音。在根据本发明的实施例的图像显示设备1中,通过音频输出单元122输出的音频信号被设置为参考信号,从输入到背景声音消除器270的用户端音频信号消除通过音频输出单元122输出的音频信号。此外,如果用户观看广播节目,则由广播信号接收器230接收的音频信号可被设置为参考信号,如果执行内容,则由内容执行单元240产生的音频信号可被设置为参考信号。
由背景声音消除器270消除背景声音的用户端音频信号被发送到第一音频识别器210。如果用户输入语音识别开始命令作为语音信号,则在音频输出单元122的音量级别没有减小的状态下,用户端音频信号被发送到第一音频识别器210。因此,如果背景声音消除器消除背景声音,则语音识别器可容易地识别语音识别开始命令。
然而,即使背景声音消除器270消除背景声音,如果通过音频输出单元122输出的音频信号的音量等于或大于预定级别,则难以划分用户语音信号和背景声音信号并仅消除背景声音信号。即使背景声音消除器270在一定程度上消除了背景声音信号,但还存在背景声音的残余声音,从而第一语音识别器210的语音识别率可被减小。
此外,可通过将语音识别开始命令词设置为能够容易地被用于进行语音识别的简单的词,仅使用背景声音消除器270来减小语音识别误差。然而,由于其它控制命令词比语音识别开始命令词更长并更复杂,因此难以仅通过消除背景声音来获得期望的语音识别率。因此,在确定在第一语音识别器210中接收到语音识别开始命令之后,第一控制器220将音频输出单元122的音量减小到预定级别,从而进一步提高语音识别性能。
图4是示出根据本发明的实施例的图像显示设备1的控制流程的框图,其中,该设备还包括命令词产生器280。
如图4所示,图像显示设备1还可包括命令词产生器280,允许用户产生命令词。
命令词产生器280包括命令词接收器281,从用户接收候选命令词;测试单元282,测试接收到的候选命令词是否合适作为控制命令词;设置单元283,根据测试单元282的测试结果确定候选命令词是否被注册。
命令词产生器280可产生将由图像显示设备1识别的所有命令词,并专门用于产生语音识别开始命令词。
如上所述,如果用户端音频信号包括背景声音,则语音识别性能恶化。具体地说,如果背景声音的音量级别特别高,则即使背景声音消除器270消除背景声音,也可能产生语音识别误差。如果确定在第一语音识别器210中接收到语音识别开始命令,则音频输出单元122的音量被减小到预定级别。然而,由于在音频输出单元122的音量没被控制的状态下接收到语音识别开始命令,因此语音识别开始命令词可被设置为即使背景声音的音量高也能够容易地被语音识别器识别的词。
更具体地说,除了在图像显示设备中先前设置的命令词之外,用户还可注册和使用新的命令词。如果用户通过第一语音输入单元112输入新的命令词作为候选命令词,则命令词接收器281接收与候选命令词有关的语音信号。
测试单元282测试由命令词接收器281接收的候选命令词是否适合用作语音识别开始命令。换句话说,测试单元282确定候选命令词是否可容易地被语音识别器识别,或确定即使候选命令词和背景声音同时被接收时预定语音识别率是否维持。
设置单元283根据测试单元282的测试结果确定候选命令词是否被注册。例如,如果作为测试单元282的测试结果,候选命令词的语音识别率为80%或更高,则候选命令词被注册为语音识别开始命令词,并被发送到第一语音识别器210。以下,如果通过第一语音输入单元112接收注册的命令词,则第一语音识别器210将接收的命令词识别为语音识别开始命令词,并将信号发送到第一控制器220。
如果用户输入并注册多个候选命令词,则可从用户接收与命令词选择有关的命令,并可将根据用户的选择命令的命令词设置为语音识别开始命令词。如果多个命令词被注册为语音识别开始命令词,则在通过第一语音输入单元112接收到所述多个命令词中的任何一个的情况下,第一语音识别器210确定接收到语音识别开始命令。
图5是示出根据本发明的实施例的包括在图像显示设备1中的遥控器300的外观的示图。
参照图5,遥控器300包括输入按钮320,通过触摸或按钮操作接收用户的控制命令;第二语音输入单元312,通过语音接收用户的控制命令。
输入按钮320包括电源按钮321,使图像显示设备1打开电源或关闭电源;音量控制按钮323,控制从图像显示设备1输出的音频信号的音量;频道改变按钮325,改变通过图像显示设备1显示的广播的频道;语音识别按钮327,接收语音识别开始命令。
输入按钮320可包括诸如按钮型开关或薄膜开关的开关或者用于感测用户身体的一部分的触摸的触摸板。可交替地使用开关和触摸板。例如,用户经常使用的电源按钮321、音量控制按钮323和频道改变按钮325可采用触摸板,音量识别按钮327可采用薄膜开关。
第二语音输入单元312从用户接收与控制命令有关的语音信号。第二语音输入单元312可包括麦克风,将声波转换为电信号,并还可包括放大器,放大接收到的语音信号;模拟/数字(A/D)转换器,将语音信号转换为数字信号。
图6是示出根据本发明的实施例的包括在图像显示设备1中的遥控器300的控制流程的框图。
参照图6,遥控器300包括输入按钮320,通过触摸或按钮操作从用户接收控制命令;第二语音输入单元312,通过语音从用户接收控制命令;第二语音识别器410,从通过第二语音输入单元312接收的语音信号识别控制命令;第二通信单元460,将控制信号发送到图像显示设备主体110;第二控制器420,控制遥控器300的整体操作。
已参照图5描述了输入按钮320和第二语音输入单元312,因此将省略对其的描述。
第二通信单元460将控制信号发送到图像显示设备主体100。第二通信单元460可采用无线通信方案(诸如Wi-Fi通信方案、蓝牙通信方案或ZigBee通信方案)或可采用相对简单的红外通信方案。
第二控制器420根据通过输入按钮320或第二语音识别器410接收的控制命令控制第二通信单元460,将控制信号发送到图像显示设备主体100。更具体地说,如果通过输入按钮320接收到音频增大/减小命令或频道改变命令,则音频增大/减小命令或频道改变命令通过第二通信单元460被发送到图像显示设备主体100。
如果通过设置在输入按钮320中的语音识别按钮327接收到语音识别开始命令,则语音识别开始命令通过第二通信单元460被发送到图像显示设备主体100,由第二语音识别器410识别的控制命令通过第二通信单元460被发送到图像显示设备主体100。用于从用户接收语音识别开始命令的语音识别按钮可设置在图像显示设备主体100中。另外,可通过由图像显示设备主体100提供的菜单来接收语音识别开始命令。
如果从遥控器300接收到语音识别开始命令,则设置在图像显示设备主体100中的第一控制器20可将通过音频输出单元122输出的音频信号的音量减小到预定级别,或如果从遥控器300通过语音接收到控制命令,则第一控制器20可将通过音频输出单元122输出的音频信号的音量减小到预定级别。
另外,如果语音识别结束,则第二控制器420通过第二通信单元460将语音识别结束命令发送到图像显示设备主体100,图像显示设备主体100将通过音频输出单元输出的音频信号的音量返回到原始级别。当用户通过语音识别按钮327输入语音识别结束命令时,或当在预定参考时间内没有接收到将进行语音识别的命令时,语音识别结束。
与图像显示设备主体100不同,由于遥控器300在相对近的距离接收用户的语音命令,因此遥控器300不包括用于消除背景声音的背景声音消除器。然而,本发明的实施例不限于此,遥控器300可包括背景声音消除器。
以下,将描述控制根据本发明的实施例的图像显示设备的方法。
图7是示出根据本发明的实施例的图像显示设备1的第一控制方法的流程图。
参照图7,首先,通过第一语音输入单元112从用户接收用户端音频信号(511)。用户端音频信号不仅可包括用户语音信号,还可包括通过图像显示设备的音频输出单元122输出的音频信号。
确定接收到的用户端音频信号是否表示语音识别开始命令(513)。也就是说,确定是否已接收到语音识别开始命令。更具体地说,语音识别器确定接收到的用户端音频信号是否与先前存储的语音识别开始命令词匹配,以确定是否已接收到语音识别开始命令。
如果确定接收到的用户端音频信号表示语音识别开始命令(513的是),则音频输出单元122的音量被减小到预定级别(515)。可考虑语音识别率来实验性或统计性地设置预定音量级别,或可由用户设置或改变预定音量级别。
确定语音识别是否已结束(517),如果确定语音识别已结束(517的是),则音频输出单元122的音量被返回到原始级别(519)。
图8是更详细地示出图7的实施例的流程图。
参照图8,首先,通过第一语音输入单元112从用户接收用户端音频信号(521),从接收到的用户端音频信号消除背景声音信号(523)。背景声音信号可以是通过音频输出单元输出的音频信号。声学回声消除器(ACE)可被用于消除背景声音,接收用户端音频信号作为输入信号,接收通过音频输出单元122输出的音频信号作为参考信号。
确定是否已接收到语音识别开始命令(525)与图7的确定相同。
如果确定已接收到语音识别开始命令(525的是),也就是说,如果确定接收到的用户端音频信号表示语音识别开始命令,则确定音频输出单元122的当前音量级别是否超过预定级别(527)。
如果确定音频输出单元122的当前音量级别超过预定级别(527的是),则音频输出单元122的音量被减小到预定级别(529),如果不是,则维持音频输出单元122的当前音量。
确定语音识别是否已结束(531)。通过确定用户是否输入语音识别结束命令或是否在预定时间内没有接收到用户的控制命令,来确定语音识别是否已结束。可通过语音、包括在遥控器300或图像显示设备主体100中的输入按钮的操作或动作识别来接收语音识别结束命令。
如果确定语音识别已结束(531的是),则音频输出单元122的音量被返回到原始级别(533)。如果音频输出单元122的音量级别等于或小于预定级别并因此当开始语音识别时维持该音量级别,则即使语音识别结束时也维持音频输出单元122的所述音量级别。
图9是示出根据本发明的实施例的图像显示设备1的第二控制方法的流程图。
参照图9,图像显示设备1确定是否已接收到语音识别开始命令(611)。更具体地说,如果通过设置在图像显示设备主体100中的第一语音输入单元112接收到预定义的语音识别开始命令词(例如,“Hi TV”,“TV”),或如果通过设置在遥控器300中的语音识别按钮327或设置在图像显示设备主体100中的语音识别按钮(未示出)接收到语音识别开始命令,则图像显示设备1确定已接收到语音识别开始命令,并进入语音识别模式。另外,如果通过设置在遥控器300中的第二语音输入单元312或设置在图像显示设备主体100中的第一语音输入单元112接收到具有预定音量或更高音量的语音,则图像显示设备1确定已接收到语音识别开始命令,并进入语音识别模式。
如果通过设置在图像显示设备主体100中的语音输入单元112接收到语音识别开始命令词,则图像显示设备1通过背景声音消除器270来消除除了语音识别开始命令词之外的背景声音信号,从而更精确地识别通过语音输入单元112接收的语音识别开始命令词。
如果接收到语音识别开始命令,则图像显示设备1将音频输出单元122的音量减小到预定音量级别(613)。此时,如果音频输出单元122的音量级别等于或小于预定音量级别,则可不执行用于减小图像显示设备1的音频输出单元122的音量的操作。
接下来,图像显示设备1根据通过语音输入单元121接收的用户的语音控制命令,控制广播信号接收器230、内容执行单元240和音频输出单元122(615)。将参照图12详细描述根据用户的语音控制命令对图像显示设备的控制。
接下来,图像显示设备1确定语音识别是否结束(617)。更具体地说,如果通过设置在图像显示设备主体100中的第一语音输入单元112再次接收到预定语音识别开始命令词(例如,“Hi TV”,“TV”),或如果在语音识别模式下选择设置在遥控器300中的语音识别按钮327或设置在图像显示设备主体100中的语音识别按钮(未示出),则图像显示设备1确定已接收到语音识别结束命令。另外,如果在预定时间内没有通过语音从用户接收到控制命令,则语音识别结束。将参照图10详细描述由于在预定时间内没有通过语音从用户接收到控制命令而导致的语音识别的结束。
如果确定语音识别结束,则图像显示设备1的语音识别模式被释放,音频输出单元122的音量返回到原始级别(619)。
图10是示出根据本发明的实施例的图像显示设备1的第三控制方法的流程图。
参照图10,图像显示设备1确定是否已接收到语音识别开始命令词(711)。更具体地说,如果通过设置在图像显示设备主体100中的第一语音输入单元112接收到预定的语音识别开始命令词(例如,“Hi TV”,“TV”),如果通过设置在遥控器300中的语音识别按钮327或设置在图像显示设备主体100中的语音识别按钮(未示出)接收到语音识别开始命令,或如果通过设置在遥控器300中的第二语音输入单元312或设置在图像显示设备主体100中的第一语音输入单元112接收到具有预定音量或更高音量的语音,则图像显示设备1确定已接收到语音识别开始命令。
如果已接收到语音识别开始命令,则图像显示设备1确定是否通过第一语音输入单元112或第二语音输入单元312已接收到具有预定音量或更高音量的语音(713)。
如果已接收到具有预定音量或更高音量的语音,则图像显示设备1将音频输出单元122的音量减小到预定音量级别(715)。也就是说,在图9的第二控制方法中,当语音识别开始时,音频输出单元122的音量立即减小,而在第三控制方法中,在语音识别开始之后,当用户通过语音输入控制命令时,音频输出单元122的音量减小。通过这样的控制,可保证由用户正在执行的操作的连续性。
接下来,图像显示设备1根据通过语音的用户的控制命令来控制包括在图像显示设备1中的组件。
接下来,图像显示设备1确定是否通过第一语音输入单元112或第二语音输入单元312再次接收到具有预定音量或更高音量的语音(719)。
如果已接收到具有预定音量或更高音量的语音,则图像显示设备1根据通过语音的用户的控制命令来控制包括在图像显示设备1中的组件(717)。然而,如果在预定参考音量减小时间或更长的时间内,没有接收到具有预定音量或更高音量的语音(721),则图像显示设备1将音频输出单元122的音量返回到原始级别。
也就是说,如果在进入语音识别模式之后接收到具有预定音量或更高音量的语音,则图像显示设备1减小音频输入单元122的音量,如果在预定参考音量减小时间内没有通过语音接收到控制命令,则图像显示设备1将音频输出单元122的音量返回到原始级别。
接下来,图像显示设备1确定语音识别是否结束(725)。
图11是示出在预定时间内没有通过语音从用户接收到控制命令的情况下结束语音识别的方法的流程图。
如图11所示,当图像显示设备1进入语音识别模式时,待机时间被初始化(621),语音识别结束时间被设置为第一参考时间(623)。待机时间表示在语音识别模式下在用户通过语音输入控制命令之前图像显示设备1等待的时间。另外,第一参考时间表示在进入语音识别模式之后当用户没有输入控制命令时图像显示设备1等待的时间。
以下,图像显示设备1确定是否通过语音已接收到用户的控制命令(625)。
如果通过语音已接收到用户的控制命令,则图像显示设备1根据用户的控制命令控制广播信号接收器230、内容执行单元240和音频输出单元122(627)。
以下,图像显示设备1初始化待机时间(631),将语音识别结束时间设置为第二参考时间(633)。第二参考时间表示在图像显示设备1进入语音识别模式并且用户通过语音输入控制命令之后,在下一次通过语音接收到用户的控制命令之前图像显示设备1等待的时间。由于当用户输入控制命令并检查图像显示设备1的操作时消耗了时间,因此第二参考时间可大于第一参考时间。例如,如果第一参考时间被设置为30秒,则考虑用户根据控制命令检查图像显示设备1的操作所需要的时间,第二参考时间可被设置为60秒。
以下,图像显示设备1确定是否通过语音再次接收到用户的控制命令(625)。
如果没有通过语音接收到用户的控制命令,则图像显示设备1确定待机时间是否超过命令请求时间(635)。命令请求时间表示在用户没有通过语音输入控制命令的情况下向用户请求控制命令的预定时间间隔。命令请求时间可短于语音识别结束时间,从而在语音识别结束之前向用户请求控制命令至少一次。
如果在命令请求时间期间用户没有通过语音输入控制命令,则图像显示设备1通过视频输出单元121或音频输出单元122输出消息“请说功能”、“您想改变频道吗?”或“您想控制音量吗?”,并请求用户输入控制命令(637)。
以下,图像显示设备1确定待机时间是否超过语音识别结束时间(639)。
如果图像显示设备1的待机时间(即,用户没有通过语音输入控制命令的时间)等于或大于语音识别结束时间,则图像显示设备1结束语音识别(641)。
图12A至图12C是示出在根据本发明的实施例的图像显示设备1处于语音识别模式下的情况下显示在视频输出单元121上的屏幕的示图。
参照图12A,在视频输出单元121的较下方显示控制相关图标,在其余区域显示主屏幕。在视频输出单元121的较下方显示的图标中,“电源打开/关闭”图标121a相应于控制命令“电源打开”和“电源关闭”,“音量增大/减小”图标121b相应于控制命令“音量增大”和“音量减小”,“频道向上/向下”图标121c相应于控制命令“频道向上”和“频道向下”。
虽然在现有技术中显示与控制命令相应的六个图标,但根据本发明的实施例的图像显示设备1可仅显示三个图标以执行六个控制命令。
如果用户输入与电源打开或电源关闭相应的控制命令,则显示在视频输出单元121上的光标移动到“电源打开/关闭”图标121a上,根据控制命令电源被打开或关闭。可使用类似方法来操纵其余图标121b和121c。
虽然在图12A至图12C中显示了一个图像的所有内容,但针对音量控制图标可仅显示“音量”,针对频道控制图标可仅显示“频道”,针对电源控制图标可仅显示“电源”。只要用户可使用图标识别执行哪个控制,图标的内容不限于此。
可以以切换形式执行电源打开和电源关闭、音量增大和音量减小、以及频道向上和频道向下。例如,如图12B所示,如果用户通过第一语音输入单元112输入与“频道向上”相应的控制命令词,则光标121d移动到“频道向上/向下”图标121c,并且“频道向上/向下”图标121c的颜色可被改变为红色以在频道向上命令和频道向下命令之间进行区分。如图12C所示,如果用户输入与“频道向下”相应的控制命令词,则光标121d移动到“频道向上/向下”图标121c,并且“频道向上/向下”图标121c的颜色可被改变为蓝色。
作为另一示例,如果接收到控制命令词,则与控制命令词相应的图标可闪烁,或者如果接收到与“频道向上/向下”相应的控制命令词或与“音量增大/减小”相应的控制命令词,则可在该图标中产生垂直条以显示频道控制量或音量控制量。
虽然在图12A至图12C中在视频输出单元121上显示光标121d,但本发明的实施例不限于此,可在不显示光标的情况下仅改变图标。
根据本发明的实施例的图像显示设备1可使用各种方法改变图标以表示接收到与图标相应的控制命令词。图标改变包括在图标中显示光标。本发明的实施例不限于上述示例。
虽然在图12A至图12C中仅显示了与电源、频道和音量控制有关的图标,但是可显示与各种控制命令(诸如web浏览器打开/关闭或静音打开/关闭)相应的图标。
图13是示出由用户在根据本发明的实施例的图像显示设备1中产生命令词的方法的流程图,图14A至图14D是示出在用户在根据本发明的实施例的图像显示设备1中产生命令词的情况下显示在视频输出单元121上的屏幕的示图。在本实施例中,产生语音识别开始命令词。
参照图13,首先,从用户接收命令词产生请求(811)。可通过语音识别,或通过包括在遥控器300或图像显示设备主体100中的输入按钮的操作,或通过动作识别,来接收命令词产生请求。输入命令词产生请求的方法不受限。
更具体地说,如图14A所示,首先,用户在与环境设置有关的菜单项中选择“命令词产生”项。还可通过语音识别,或通过包括在遥控器300或图像显示设备主体100中的输入按钮的操作,或通过动作识别,来选择“命令词产生”项。
随后,从用户接收候选命令词(813)。可通过第一语音输入单元112接收候选命令词作为语音信号。
更具体地说,如图14B所示,如果在图像显示设备的视频输出单元121上显示消息“输入候选命令词”,则用户通过第一语音输入单112输入将被注册为命令词的候选命令词。例如,用户可输入短词“mic”作为候选命令词。
如果接收到候选命令词,则测试接收到的候选命令词是否适合作为语音识别开始命令词(815)。能够被容易地语音识别的短词适合作为语音识别开始命令词。因此,可使用各种标准测试候选命令词是否适合,并且可测量候选命令词的语音识别率。
更具体地说,如图14C所示,在视频输出单元121上显示消息“测试正在执行”。
如果作为测试结果,候选命令词适合作为语音识别开始命令词(817的是),候选命令词被注册为语音识别开始命令词(819)并被发送到语音识别器。在一个实施例中,如果候选命令词的语音识别率等于或大于预定参考值(例如,80%),则可确定候选命令词候选命令词适合作为语音识别开始命令词。
如果作为测试结果,候选命令词不适合作为语音识别开始命令词(817的否),则如图9所示,可从用户接收另一候选命令词,或可根据用户选择结束命令词产生。
更具体地说,如果测试结束,则如图14D所示,显示测试结果。例如,如果候选命令词适合于注册为语音识别开始命令,则在视频输出单元121上显示消息“可注册”。如果候选命令词不适合作为语音识别开始命令词并因此在视频输出单元121上显示消息“不可注册”,则用户可再次输入新的候选命令词。
虽然参照图13和图14A至图14D描述了语音识别开始命令词的产生,但是本发明的实施例不限于此,并可应用到其它控制命令的产生。图像显示设备1的视频输出单元121可显示与命令词产生有关的各种消息。
在本发明的实施例中,如果通过语音识别接收到用户的控制命令,则用户在不做动作(诸如按下输入按钮)的情况下说出控制命令,从而方便地执行期望的操作。
另外,与控制命令相应的图标显示在视频输出单元121上。例如,可显示“频道向上”图标、“频道向下”图标、“音量增大”图标和“音量减小”图标。具体地,由于对于图像显示设备的操作来说图标是必需的,因此当在视频输出单元121上显示主屏幕时,在视频输出单元121的一部分中显示图标。
由于视频输出单元121的尺寸受限,因此可显示的图标的数量也受限。根据本发明的另一实施例的图像显示设备可显示与多个控制命令词相应的一个图标以有效地管理由图标所占据的区域。
虽然已显示和描述了本发明的一些实施例,但本领域的技术人员将理解,在不脱离本发明的原理和精神的情况下可在这些实施例中进行改变,本发明的范围在权利要求及其等同物中限定。
Claims (14)
1.一种能够进行语音识别的图像显示设备,所述图像显示设备包括:
显示器,被配置为显示内容;
通信单元,被配置为与遥控器进行通信;
音频输出单元,被配置为输出音频信号;
控制器,被配置为响应于从遥控器接收到控制信号,激活语音识别,并将通过音频输出单元输出的音频信号的输出音量减小到低于预定级别的级别,
其中,当在激活语音识别之后的第一预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时,控制器输出请求针对语音识别的音频输入的消息,其中,当在激活语音识别之后的第二预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时,控制器对语音识别进行去激活,并将通过音频输出单元输出的音频信号的输出音量恢复到语音识别激活之前的输出音量,其中,第一预定时间短于第二预定时间,
其中,当从控制器接收到作为语音控制命令的音频输入,并在激活语音识别之后经过第三预定时间时,控制器对语音识别进行去激活,并将通过音频输出单元输出的音频信号的输出音量恢复到语音识别激活之前的输出音量,其中,第三预定时间长于第二预定时间。
2.如权利要求1所述的图像显示设备,其中,由控制器输出的消息包括显示器上显示的消息图像或通过音频输出单元输出的音频消息。
3.如权利要求1所述的图像显示设备,其中,响应于从遥控器接收到控制信号,控制器控制显示器在所述内容上显示至少一个图标,其中,所述至少一个图标中的每个图标能够与一个或更多个语音控制命令相应。
4.如权利要求3所述的图像显示设备,其中,响应于从遥控器接收到作为语音控制命令的音频输入,控制器基于接收到的语音控制命令控制显示器改变所述至少一个图标之中的与接收到的语音控制命令相应的图标。
5.如权利要求1所述的图像显示设备,其中,响应于在语音识别激活之后再次从遥控器接收到控制信号或从遥控器接收到另一控制信号,控制器对语音识别进行去激活。
6.如权利要求1所述的图像显示设备,其中,响应于具有预定音量或更大音量的语音被遥控器接收到,控制器确定控制信号被接收到。
7.如权利要求1所述的图像显示设备,其中,响应于从遥控器接收到候选语音控制命令词,控制器测试候选语音控制命令词,
其中,控制器根据测试结果将该候选语音控制命令词注册为语音控制命令。
8.一种控制能够进行语音识别的图像显示设备的方法,所述方法包括:
响应于从与图像显示设备通信的遥控器接收到控制信号,激活语音识别,并将图像显示设备的音频信号的输出音量减小到低于预定级别的级别;
当在激活语音识别之后的第一预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时,输出请求针对语音识别的音频输入的消息;
当在激活语音识别之后的第二预定时间期间没有从遥控器接收到作为语音控制命令的音频输入时,对语音识别进行去激活,并将音频信号的输出音量恢复到语音识别激活之前的输出音量,其中,第一预定时间短于第二预定时间;
当从遥控器接收到作为语音控制命令的音频输入,并在激活语音识别之后经过第三预定时间时,对语音识别进行去激活,并将音频信号的输出音量恢复到语音识别激活之前的输出音量,其中,第三预定时间长于第二预定时间。
9.如权利要求8所述的方法,其中,所述消息包括图像显示设备上显示的消息图像或通过音频输出单元输出的音频消息。
10.如权利要求8所述的方法,还包括:响应于从遥控器接收到控制信号,在正被显示在图像显示设备上的内容上显示至少一个图标,
其中,所述至少一个图标中的每个图标能够与一个或更多个语音控制命令相应。
11.如权利要求10所述的方法,还包括:响应于从遥控器接收到作为语音控制命令的音频输入,基于接收到的语音控制命令改变所述至少一个图标之中的与接收到的语音控制命令相应的图标。
12.如权利要求8所述的方法,还包括:响应于在语音识别激活之后再次从遥控器接收到控制信号或从遥控器接收到另一控制信号,对语音识别进行去激活。
13.如权利要求8所述的方法,其中,接收控制信号的步骤包括:响应于具有预定音量或更大音量的语音被遥控器接收到,确定接收到控制信号。
14.如权利要求8所述的方法,还包括:
响应于从遥控器接收到候选语音控制命令词,测试候选语音控制命令词,
根据测试结果将该候选语音控制命令词注册为语音控制命令。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2012-0002659 | 2012-01-09 | ||
KR20120002659 | 2012-01-09 | ||
KR1020120143590A KR101590332B1 (ko) | 2012-01-09 | 2012-12-11 | 영상장치 및 그 제어방법 |
KR10-2012-0143590 | 2012-12-11 | ||
CN201310007787XA CN103198832A (zh) | 2012-01-09 | 2013-01-09 | 图像显示设备及控制图像显示设备的方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310007787XA Division CN103198832A (zh) | 2012-01-09 | 2013-01-09 | 图像显示设备及控制图像显示设备的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105847921A CN105847921A (zh) | 2016-08-10 |
CN105847921B true CN105847921B (zh) | 2018-04-24 |
Family
ID=47665898
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310007787XA Pending CN103198832A (zh) | 2012-01-09 | 2013-01-09 | 图像显示设备及控制图像显示设备的方法 |
CN201910653311.0A Pending CN110265030A (zh) | 2012-01-09 | 2013-01-09 | 图像显示设备及控制图像显示设备的方法 |
CN201610191047.XA Active CN105847921B (zh) | 2012-01-09 | 2013-01-09 | 图像显示设备及控制图像显示设备的方法 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310007787XA Pending CN103198832A (zh) | 2012-01-09 | 2013-01-09 | 图像显示设备及控制图像显示设备的方法 |
CN201910653311.0A Pending CN110265030A (zh) | 2012-01-09 | 2013-01-09 | 图像显示设备及控制图像显示设备的方法 |
Country Status (9)
Country | Link |
---|---|
US (8) | US9401149B2 (zh) |
EP (3) | EP2894633B1 (zh) |
JP (1) | JP6342118B2 (zh) |
KR (1) | KR101590332B1 (zh) |
CN (3) | CN103198832A (zh) |
AU (1) | AU2013200132B2 (zh) |
BR (1) | BR102013000553B1 (zh) |
IN (1) | IN2013DE00063A (zh) |
WO (1) | WO2013105782A1 (zh) |
Families Citing this family (112)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US10395651B2 (en) * | 2013-02-28 | 2019-08-27 | Sony Corporation | Device and method for activating with voice input |
US9740304B2 (en) * | 2013-03-13 | 2017-08-22 | Google Inc. | Systems, methods, and media for providing an enhanced remote control having multiple modes |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9980074B2 (en) | 2013-05-29 | 2018-05-22 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
US20180332339A1 (en) * | 2017-05-12 | 2018-11-15 | Enseo, Inc. | Set-Top Box with Enhanced Functionality and System and Method for Use of Same |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9589565B2 (en) * | 2013-06-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Environmentally aware dialog policies and response generation |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
CN104347072A (zh) * | 2013-08-02 | 2015-02-11 | 广东美的制冷设备有限公司 | 遥控器控制的方法、装置和遥控器 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
KR102394485B1 (ko) * | 2013-08-26 | 2022-05-06 | 삼성전자주식회사 | 음성 인식을 위한 전자 장치 및 방법 |
US9240182B2 (en) * | 2013-09-17 | 2016-01-19 | Qualcomm Incorporated | Method and apparatus for adjusting detection threshold for activating voice assistant function |
US10373611B2 (en) * | 2014-01-03 | 2019-08-06 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
KR102210433B1 (ko) * | 2014-01-21 | 2021-02-01 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
KR102215579B1 (ko) * | 2014-01-22 | 2021-02-15 | 삼성전자주식회사 | 대화형 시스템, 디스플레이 장치 및 그 제어 방법 |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US20170078737A1 (en) * | 2014-02-27 | 2017-03-16 | Lg Electronics Inc. | Digital device and control method therefor |
WO2015144536A1 (en) * | 2014-03-27 | 2015-10-01 | Sony Corporation | Electronic device and method for identifying input commands of a user |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
KR102147329B1 (ko) | 2014-06-17 | 2020-08-24 | 엘지전자 주식회사 | 영상 표시 기기 및 그의 동작 방법 |
JP2016012795A (ja) * | 2014-06-27 | 2016-01-21 | ソニー株式会社 | 通信装置、通信方法およびプログラム |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN104159153A (zh) * | 2014-07-22 | 2014-11-19 | 乐视网信息技术(北京)股份有限公司 | 用户角色的切换方法及系统 |
US9736606B2 (en) | 2014-08-01 | 2017-08-15 | Qualcomm Incorporated | Editing of higher-order ambisonic audio data |
CN104331265A (zh) * | 2014-09-30 | 2015-02-04 | 北京金山安全软件有限公司 | 一种语音输入方法、装置及终端 |
KR102245747B1 (ko) | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
CN104505099A (zh) * | 2014-12-08 | 2015-04-08 | 北京云知声信息技术有限公司 | 去除语音信号中已知干扰的方法和设备 |
CN104505092B (zh) * | 2014-12-10 | 2017-12-22 | 广东美的制冷设备有限公司 | 空调器语音控制方法和系统 |
CN104505093A (zh) * | 2014-12-16 | 2015-04-08 | 佛山市顺德区美的电热电器制造有限公司 | 家用电器及其语音交互方法 |
US9754588B2 (en) * | 2015-02-26 | 2017-09-05 | Motorola Mobility Llc | Method and apparatus for voice control user interface with discreet operating mode |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
KR101688164B1 (ko) * | 2015-04-16 | 2016-12-20 | 엘지전자 주식회사 | 차량 단말 장치 및 이의 제어방법 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10770067B1 (en) * | 2015-09-08 | 2020-09-08 | Amazon Technologies, Inc. | Dynamic voice search transitioning |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP2017138476A (ja) * | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9858927B2 (en) * | 2016-02-12 | 2018-01-02 | Amazon Technologies, Inc | Processing spoken commands to control distributed audio outputs |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US20170371615A1 (en) * | 2016-06-22 | 2017-12-28 | Qualcomm Incorporated | Alerting a user to a change in an audio stream |
US10506192B2 (en) * | 2016-08-16 | 2019-12-10 | Google Llc | Gesture-activated remote control |
KR102398390B1 (ko) * | 2017-03-22 | 2022-05-16 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
KR102304701B1 (ko) * | 2017-03-28 | 2021-09-24 | 삼성전자주식회사 | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
CN111345016A (zh) * | 2017-09-13 | 2020-06-26 | 深圳传音通讯有限公司 | 一种智能终端的启动控制方法及启动控制系统 |
KR102527278B1 (ko) * | 2017-12-04 | 2023-04-28 | 삼성전자주식회사 | 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체 |
KR102429556B1 (ko) * | 2017-12-05 | 2022-08-04 | 삼성전자주식회사 | 디스플레이 장치 및 음향 출력 방법 |
CN107958668B (zh) * | 2017-12-15 | 2022-04-19 | 中广热点云科技有限公司 | 智能电视的声控选播方法、声控选播系统 |
CN108363557B (zh) * | 2018-02-02 | 2020-06-12 | 刘国华 | 人机交互方法、装置、计算机设备和存储介质 |
CN108419108A (zh) * | 2018-03-06 | 2018-08-17 | 深圳创维数字技术有限公司 | 语音控制方法、装置、遥控器和计算机存储介质 |
US10735597B1 (en) * | 2018-03-23 | 2020-08-04 | Amazon Technologies, Inc. | Selecting user device during communications session |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
CN108600898B (zh) * | 2018-03-28 | 2020-03-31 | 深圳市冠旭电子股份有限公司 | 一种配置无线音箱的方法、无线音箱及终端设备 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US20190043479A1 (en) * | 2018-05-07 | 2019-02-07 | Intel Corporation | Wake on voice key phrase segmentation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
JP2020065140A (ja) * | 2018-10-16 | 2020-04-23 | カシオ計算機株式会社 | 音声処理装置、方法、プログラム、携帯端末 |
KR20200043075A (ko) * | 2018-10-17 | 2020-04-27 | 삼성전자주식회사 | 전자 장치 및 그 제어방법, 전자 장치의 음향 출력 제어 시스템 |
CN111383633B (zh) * | 2018-12-29 | 2023-08-01 | 深圳Tcl新技术有限公司 | 语音识别连续性控制方法、装置、智能终端及存储介质 |
KR20200098280A (ko) * | 2019-02-12 | 2020-08-20 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 사운드 출력 방법 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11295726B2 (en) * | 2019-04-08 | 2022-04-05 | International Business Machines Corporation | Synthetic narrowband data generation for narrowband automatic speech recognition systems |
CN111933130B (zh) * | 2019-04-24 | 2024-10-08 | 斑马智行网络(香港)有限公司 | 语音识别方法、装置及系统 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11451855B1 (en) * | 2020-09-10 | 2022-09-20 | Joseph F. Kirley | Voice interaction with digital signage using mobile device |
CN117396956A (zh) * | 2021-06-03 | 2024-01-12 | 日产自动车株式会社 | 显示控制装置和显示控制方法 |
KR20230063672A (ko) | 2021-11-02 | 2023-05-09 | 주식회사 케이티 | 스마트 스피커에서의 미디어볼륨 조정방법 및 그 장치 |
JP2023113171A (ja) * | 2022-02-03 | 2023-08-16 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983186A (en) * | 1995-08-21 | 1999-11-09 | Seiko Epson Corporation | Voice-activated interactive speech recognition device and method |
CN1319223A (zh) * | 1998-09-21 | 2001-10-24 | 汤姆森多媒体公司 | 包括遥控受控装置和该装置的音频遥控器的系统 |
WO2002096111A1 (en) * | 2001-05-22 | 2002-11-28 | Digeo, Inc. | Noise reduction for teleconferencing within an interactive television system |
CN1397063A (zh) * | 2000-11-27 | 2003-02-12 | 皇家菲利浦电子有限公司 | 对具有声音输出装置的设备进行控制的方法 |
EP1457969A1 (en) * | 2003-03-11 | 2004-09-15 | Square D Company | Human machine interface with speech recognition |
CN101561965A (zh) * | 2008-04-16 | 2009-10-21 | 索尼株式会社 | 遥控系统和遥控信号处理方法 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5220595A (en) | 1989-05-17 | 1993-06-15 | Kabushiki Kaisha Toshiba | Voice-controlled apparatus using telephone and voice-control method |
JPH07109560B2 (ja) * | 1990-11-30 | 1995-11-22 | 富士通テン株式会社 | 音声認識装置 |
KR0122953Y1 (ko) | 1992-10-23 | 1998-10-15 | 구자홍 | 음성인식 텔레비젼 수상기의 합성 음량 자동 조절장치 |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5832440A (en) | 1996-06-10 | 1998-11-03 | Dace Technology | Trolling motor with remote-control system having both voice--command and manual modes |
US7266498B1 (en) * | 1998-12-18 | 2007-09-04 | Intel Corporation | Method and apparatus for reducing conflicts between speech-enabled applications sharing speech menu |
JP2001042891A (ja) * | 1999-07-27 | 2001-02-16 | Suzuki Motor Corp | 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体 |
JP4554044B2 (ja) * | 1999-07-28 | 2010-09-29 | パナソニック株式会社 | Av機器用音声認識装置 |
DE60032982T2 (de) * | 1999-09-13 | 2007-11-15 | Matsushita Electric Industrial Co., Ltd., Kadoma | Spracherkennung zur Steuerung eines Geräts |
US7292986B1 (en) * | 1999-10-20 | 2007-11-06 | Microsoft Corporation | Method and apparatus for displaying speech recognition progress |
JP2001275176A (ja) * | 2000-03-24 | 2001-10-05 | Matsushita Electric Ind Co Ltd | リモートコントロール装置 |
JP2001296881A (ja) * | 2000-04-14 | 2001-10-26 | Sony Corp | 情報処理装置および方法、並びに記録媒体 |
JP2001312297A (ja) * | 2000-04-28 | 2001-11-09 | Nippon Seiki Co Ltd | 音声認識装置 |
US6629077B1 (en) | 2000-11-22 | 2003-09-30 | Universal Electronics Inc. | Universal remote control adapted to receive voice input |
JP2002182691A (ja) * | 2000-12-14 | 2002-06-26 | Matsushita Electric Ind Co Ltd | 音を出力する機器を制御する制御装置 |
US20020077830A1 (en) * | 2000-12-19 | 2002-06-20 | Nokia Corporation | Method for activating context sensitive speech recognition in a terminal |
US7369997B2 (en) * | 2001-08-01 | 2008-05-06 | Microsoft Corporation | Controlling speech recognition functionality in a computing device |
US7107081B1 (en) * | 2001-10-18 | 2006-09-12 | Iwao Fujisaki | Communication device |
US20050015197A1 (en) * | 2002-04-30 | 2005-01-20 | Shinya Ohtsuji | Communication type navigation system and navigation method |
JP2003345390A (ja) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 音声処理装置及びリモートコントローラ装置 |
JP2004354682A (ja) * | 2003-05-29 | 2004-12-16 | Alpine Electronics Inc | 音声制御装置 |
KR100652645B1 (ko) * | 2004-07-23 | 2006-12-06 | 엘지전자 주식회사 | 푸시 투 토크형 이동 통신 단말기의 음성 검출 및 인식을이용한 발언권 관리 장치와 방법 |
JP4872241B2 (ja) | 2005-05-31 | 2012-02-08 | 船井電機株式会社 | テレビ受像機 |
JP4296181B2 (ja) * | 2006-02-28 | 2009-07-15 | パイオニア株式会社 | 地図検索装置及び地図検索方法等 |
US20080282154A1 (en) * | 2006-09-11 | 2008-11-13 | Nurmi Mikko A | Method and apparatus for improved text input |
KR20080033639A (ko) | 2006-10-12 | 2008-04-17 | 삼성전자주식회사 | 영상 재생 장치 및 영상 재생 장치에서의 음량 조절 방법 |
US20080118086A1 (en) * | 2006-11-16 | 2008-05-22 | Scott Krig | Method and System For Controlling Volume Settings For Multimedia Devices |
US8676273B1 (en) * | 2007-08-24 | 2014-03-18 | Iwao Fujisaki | Communication device |
TWI399966B (zh) * | 2007-12-31 | 2013-06-21 | Htc Corp | 行動電話與其撥話方法 |
KR20090107365A (ko) * | 2008-04-08 | 2009-10-13 | 엘지전자 주식회사 | 이동 단말기 및 그 메뉴 제어방법 |
US8958848B2 (en) * | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
US8312660B1 (en) * | 2008-05-09 | 2012-11-20 | Iwao Fujisaki | Firearm |
KR100988397B1 (ko) * | 2008-06-09 | 2010-10-19 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
KR101502003B1 (ko) * | 2008-07-08 | 2015-03-12 | 엘지전자 주식회사 | 이동 단말기 및 그 텍스트 입력 방법 |
CN101729957A (zh) * | 2008-10-24 | 2010-06-09 | 深圳富泰宏精密工业有限公司 | 电子装置及消除电子装置音量突变的方法 |
KR101545582B1 (ko) * | 2008-10-29 | 2015-08-19 | 엘지전자 주식회사 | 단말기 및 그 제어 방법 |
US11012732B2 (en) * | 2009-06-25 | 2021-05-18 | DISH Technologies L.L.C. | Voice enabled media presentation systems and methods |
JP5463922B2 (ja) * | 2010-01-12 | 2014-04-09 | 株式会社デンソー | 車載機 |
US8522283B2 (en) * | 2010-05-20 | 2013-08-27 | Google Inc. | Television remote control data transfer |
JP5695447B2 (ja) | 2011-03-01 | 2015-04-08 | 株式会社東芝 | テレビジョン装置及び遠隔操作装置 |
DE112011105136B4 (de) * | 2011-04-08 | 2018-12-13 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Navigationsvorrichtung |
EP3754997B1 (en) * | 2011-08-05 | 2023-08-30 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
KR102022318B1 (ko) * | 2012-01-11 | 2019-09-18 | 삼성전자 주식회사 | 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치 |
KR101990037B1 (ko) * | 2012-11-13 | 2019-06-18 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어 방법 |
-
2012
- 2012-12-11 KR KR1020120143590A patent/KR101590332B1/ko active IP Right Grant
-
2013
- 2013-01-08 IN IN63DE2013 patent/IN2013DE00063A/en unknown
- 2013-01-09 AU AU2013200132A patent/AU2013200132B2/en active Active
- 2013-01-09 EP EP15158073.5A patent/EP2894633B1/en active Active
- 2013-01-09 CN CN201310007787XA patent/CN103198832A/zh active Pending
- 2013-01-09 JP JP2013002161A patent/JP6342118B2/ja active Active
- 2013-01-09 EP EP23167814.5A patent/EP4220632A1/en active Pending
- 2013-01-09 CN CN201910653311.0A patent/CN110265030A/zh active Pending
- 2013-01-09 CN CN201610191047.XA patent/CN105847921B/zh active Active
- 2013-01-09 EP EP13150618.0A patent/EP2613313B1/en active Active
- 2013-01-09 WO PCT/KR2013/000173 patent/WO2013105782A1/en active Application Filing
- 2013-01-09 BR BR102013000553-3A patent/BR102013000553B1/pt active IP Right Grant
- 2013-01-09 US US13/737,683 patent/US9401149B2/en not_active Expired - Fee Related
-
2015
- 2015-04-03 US US14/678,556 patent/US9530418B2/en active Active
-
2016
- 2016-11-15 US US15/351,500 patent/US9786278B2/en active Active
-
2017
- 2017-10-02 US US15/722,416 patent/US20180025728A1/en not_active Abandoned
-
2019
- 2019-09-13 US US16/569,849 patent/US10957323B2/en active Active
-
2021
- 2021-02-04 US US17/167,588 patent/US11763812B2/en active Active
-
2023
- 2023-04-07 US US18/131,895 patent/US12033635B2/en active Active
-
2024
- 2024-06-18 US US18/746,910 patent/US20240339115A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983186A (en) * | 1995-08-21 | 1999-11-09 | Seiko Epson Corporation | Voice-activated interactive speech recognition device and method |
CN1319223A (zh) * | 1998-09-21 | 2001-10-24 | 汤姆森多媒体公司 | 包括遥控受控装置和该装置的音频遥控器的系统 |
CN1397063A (zh) * | 2000-11-27 | 2003-02-12 | 皇家菲利浦电子有限公司 | 对具有声音输出装置的设备进行控制的方法 |
WO2002096111A1 (en) * | 2001-05-22 | 2002-11-28 | Digeo, Inc. | Noise reduction for teleconferencing within an interactive television system |
EP1457969A1 (en) * | 2003-03-11 | 2004-09-15 | Square D Company | Human machine interface with speech recognition |
CN101561965A (zh) * | 2008-04-16 | 2009-10-21 | 索尼株式会社 | 遥控系统和遥控信号处理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210158821A1 (en) | 2021-05-27 |
AU2013200132A1 (en) | 2013-07-25 |
CN105847921A (zh) | 2016-08-10 |
JP2013142903A (ja) | 2013-07-22 |
US12033635B2 (en) | 2024-07-09 |
US20240339115A1 (en) | 2024-10-10 |
KR101590332B1 (ko) | 2016-02-18 |
US20130179168A1 (en) | 2013-07-11 |
US11763812B2 (en) | 2023-09-19 |
WO2013105782A1 (en) | 2013-07-18 |
IN2013DE00063A (zh) | 2015-06-26 |
EP2894633A1 (en) | 2015-07-15 |
AU2013200132B2 (en) | 2014-07-24 |
US20180025728A1 (en) | 2018-01-25 |
CN110265030A (zh) | 2019-09-20 |
CN103198832A (zh) | 2013-07-10 |
EP2613313A1 (en) | 2013-07-10 |
EP2613313B1 (en) | 2024-03-06 |
US9786278B2 (en) | 2017-10-10 |
KR20130083371A (ko) | 2013-07-22 |
BR102013000553B1 (pt) | 2022-04-19 |
EP2894633B1 (en) | 2017-11-01 |
US9530418B2 (en) | 2016-12-27 |
US10957323B2 (en) | 2021-03-23 |
US20150213802A1 (en) | 2015-07-30 |
JP6342118B2 (ja) | 2018-06-13 |
US20230245653A1 (en) | 2023-08-03 |
EP4220632A1 (en) | 2023-08-02 |
US20200005790A1 (en) | 2020-01-02 |
BR102013000553A2 (pt) | 2015-05-19 |
US20170069323A1 (en) | 2017-03-09 |
US9401149B2 (en) | 2016-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105847921B (zh) | 图像显示设备及控制图像显示设备的方法 | |
CN104539871B (zh) | 多媒体通话方法及装置 | |
CN104991754A (zh) | 录音方法及装置 | |
JP2006221270A (ja) | 音声認識機能を備えた携帯端末装置のマルチタスクシステム及び方法 | |
CN104615359A (zh) | 对应用软件进行语音操作的方法及装置 | |
CN107147929A (zh) | 多窗口声音输出方法、电视机以及计算机可读存储介质 | |
CN106453032B (zh) | 信息推送方法及装置、系统 | |
CN104636110A (zh) | 控制音量的方法及装置 | |
CN109743618A (zh) | 音乐播放方法、终端和计算机可读存储介质 | |
CN103269445A (zh) | 智能电视系统及其控制方法 | |
KR101631594B1 (ko) | 표시 장치 및 그 제어방법 | |
CN110839169B (zh) | 一种智能设备遥控装置及基于其的控制方法 | |
KR102494051B1 (ko) | 전자 장치 및 이의 음성 인식 방법 | |
CN117376633A (zh) | 音频信号处理方法、装置、智能电视、介质、程序产品 | |
CN113971012A (zh) | 一种多应用音频定制输出方法、终端及存储介质 | |
CN117809661A (zh) | 一种显示设备及唤醒词的领读方法 | |
CN106453821A (zh) | 信号转换方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |