CN107967915A - 显示装置及其控制方法 - Google Patents
显示装置及其控制方法 Download PDFInfo
- Publication number
- CN107967915A CN107967915A CN201710982672.0A CN201710982672A CN107967915A CN 107967915 A CN107967915 A CN 107967915A CN 201710982672 A CN201710982672 A CN 201710982672A CN 107967915 A CN107967915 A CN 107967915A
- Authority
- CN
- China
- Prior art keywords
- user
- display device
- voice
- recognition result
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000015654 memory Effects 0.000 claims abstract description 44
- 230000006870 function Effects 0.000 claims description 40
- 230000004044 response Effects 0.000 claims description 19
- 230000033001 locomotion Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 12
- 230000003287 optical effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 239000010409 thin film Substances 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005672 electromagnetic field Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003746 surface roughness Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/14—Digital output to display device ; Cooperation and interconnection of the display device with other functional units
- G06F3/1407—General aspects irrespective of display type, e.g. determination of decimal point position, display with fixed or driving decimal point, suppression of non-significant zeros
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
提供了一种基于用户说出的语音来进行控制的显示装置和一种基于用户说出的语音来控制显示装置的方法。显示装置包括处理器、存储器和显示器。处理器被配置为接收用户说出的语音,将与用户说出的语音对应的文本确定为中间识别结果,基于通过将所述中间识别结果与存储在存储器中的先前的中间识别结果进行比较而获得的结果来确定命令,并根据该命令执行操作。
Description
相关申请的交叉引用
本申请要求2016年10月20日在韩国知识产权局提交的韩国专利申请No.10-2016-0136577的优先权,其公开内容通过引用整体并入本文。
技术领域
与示例性实施例相一致的方法和装置涉及显示装置及其控制方法,更具体地,涉及基于用户说出的语音来进行控制的显示装置和基于用户说出的语音控制显示装置的方法。
背景技术
随着语音识别技术的发展,已经广泛使用用于识别用户说出的语音以控制显示装置的技术。
显示装置可以接收用户说出的语音,并且可以将用户说出的语音转换为文本。例如,显示装置可以在接收到用户说出的语音的同时实时地将用户说出的语音转换为文本。在这种情况下,显示装置可以通过实时地显示从用户说出的语音转换的文本来通知用户他/她说出的语音正被实时地转换为文本。
显示装置的语音识别功能根据用户输入启动和结束。例如,用户可以通过使用诸如遥控器的控制设备向显示装置提供输入来开始语音识别功能。在用户完成讲话之后,用户可以通过使用控制设备来终止语音识别功能。此后,显示装置可以根据用户说出的语音执行功能。
然而,有时用户重复地说出用于执行诸如在显示装置的屏幕上移动光标、改变频道或改变音量之类的功能的命令。在这种情况下,在相关技术中,每当用户想要说出执行功能的命令时,用户必须不方便地重复执行通过使用控制设备等来启动和结束语音识别功能的操作。
发明内容
示例性实施例可以至少解决上述问题和/或缺点以及以上未描述的其他缺点。此外,示例性实施例不需要克服上述缺点,并且可以不解决任何一个上述问题。
示例性实施例提供一种显示装置以及一种控制显示装置的方法,在基于用户说出的语音来控制显示装置的操作时,即使在用户说出的语音结束之前,该显示装置也可以实时地进行操作。
示例性实施例还可以提供一种显示装置以及一种控制显示装置的方法,当显示装置重复地基于用户说出的语音执行操作时,即使没有启动或结束语音识别功能的重复输入,也可以仅通过用户说出的语音来容易地控制该显示装置。
其他方面将在以下描述中部分地进行阐述,并且根据说明书,部分将是明确的,或可以通过示例性实施例的实践而获知。
根据示例实施例的一方面,提供了一种显示装置,包括:显示器、存储器和处理器,所述处理器被配置为接收用户说出的第一语音,将与用户说出的第一语音对应的文本确定为第一中间识别结果,基于所述第一中间识别结果确定第一命令,并根据第一命令执行操作。
处理器还可以被配置为接收用户说出的第二语音,将与用户说出的第二语音相对应的文本确定为第二中间识别结果,通过将第二中间识别结果与所述第一中间识别结果进行比较来确定所述第二中间识别结果中是否包括新文本,并且响应于处理器确定所述第二中间识别结果中包括新文本,确定与新文本相对应的第二命令。
处理器还可以被配置为确定与新文本相对应的用户意图是否存在,并且响应于处理器确定用户意图存在,基于所述用户意图确定第二命令。
与新文本相对应的用户意图可以和与所述第一中间识别结果相对应的用户意图相同。
响应于处理器确定用户意图存在,处理器还可以被配置为将所述第二中间识别结果存储在存储器中。
处理器还可以被配置为控制显示器显示与第一命令相对应的用户界面。与第一命令相对应的用户界面可以包括所述第一中间识别结果和与第一命令相对应的文本中的至少一个。
处理器还可以被配置为确定是否接收到结束用户说出的语音的输入,响应于处理器确定接收到结束用户说出的语音的输入,将所述第一中间识别结果确定为最终结果,并且执行与最终结果相对应的操作。
处理器还可以被配置为确定是否接收到结束用户说出的语音的输入,并且响应于处理器确定接收到结束用户说出的语音的输入,结束对用户说出的语音的接收。
第一命令或第二命令可以包括以下中的任何一个:用于调整显示在显示器上的光标的位置的命令、用于调整显示装置中包括的声音输出接口的音量的命令、以及用于改变显示装置的频道的命令。
所述第一中间识别结果和所述第二中间识别结果中的至少一个可以对应于从处理器接收到启动用于识别用户说出的语音的功能的输入的时间到用户意图被识别的时间之间所接收的用户说出的语音。
根据另一示例性实施例的一个方面,提供了一种使用用户说出的语音来控制显示装置的方法,所述方法包括:接收用户说出的第一语音;将与接收到的用户说出的所述第一语音相对应的文本确定为第一中间识别结果;基于所述第一中间识别结果确定第一命令;以及根据所述第一命令执行操作。
所述方法还可以包括:接收用户说出的第二语音,将与用户说出的所述第二语音相对应的文本确定为第二中间识别结果,通过将所述第二中间识别结果与所述第一中间识别结果进行比较来确定所述第二中间识别结果中是否包括新文本;以及响应于确定所述第二中间识别结果中包括新文本,确定与所述新文本相对应的第二命令。
确定与新文本相对应的第二命令可以包括:确定与所述新文本相对应的用户意图是否存在;以及响应于确定所述用户意图存在,基于所述用户意图来确定所述第二命令。
与新文本相对应的用户意图可以和与所述第一中间识别结果相对应的用户意图相同。
该方法还可以包括:响应于确定用户意图存在,将所述第二中间识别结果存储在存储器中。
该方法还可以包括显示与所述第一命令相对应的用户界面。与所述第一命令相对应的用户界面可以包括所述中间识别结果和与所述第一命令相对应的文本中的至少一个。
所述方法还可以包括:确定是否接收到结束用户说出的语音的输入,响应于确定接收到结束用户说出的语音的输入,将所述第一中间识别结果确定为最终结果;以及执行与最终结果相对应的操作。
所述方法还可以包括:确定是否接收到结束用户说出的语音的输入;以及响应于确定接收到结束用户说出的语音的输入,结束对用户说出的语音的接收。
所述第一命令或第二命令可以包括以下中的任何一个:用于调整显示在显示器上的光标的位置的命令、用于调整显示装置中包括的声音输出接口的音量的命令、以及用于改变显示装置的频道的命令。
根据另一示例性实施例的一方面,提供了一种实施有用于执行所述方法的程序的非暂时性计算机可读存储介质。
根据另一示例性实施例的一个方面,提供了一种用于控制设备的方法,所述方法包括:从用户接收第一语音命令;将与第一语音命令相对应的第一文本存储为第一中间识别结果;确定第一语音命令的意图;基于所述意图确定与所存储的第一中间识别结果相对应的第一命令;在将第一文本存储为第一中间识别结果之后,从用户接收第二语音命令;将第一文本和与第二语音命令相对应的第二文本存储为第二中间识别结果;基于所述意图,通过将所存储的第二中间识别结果与所存储的第一中间识别结果进行比较来确定第二命令;以及执行与第一命令相对应的第一操作和与第二命令相对应的第二操作。
所述方法还可以包括:响应于接收到激活语音控制功能的命令来激活语音控制功能;以及响应于接收到停用激活的语音控制功能的命令来停用语音控制功能。可以在语音控制功能被激活后且语音控制功能被停用前的时间段期间,接收第一语音命令和第二语音命令。
该方法还可以包括用所存储的第二中间识别结果代替所存储的第一中间识别结果。
该方法还可以包括显示与第一命令相对应的第三文本和所存储的第一中间识别结果中的至少一个。
该方法还可以包括显示与第二命令相对应的第四文本和所存储的第二中间识别结果中的至少一个。
附图说明
从以下结合附图对示例性实施例的描述中,上述和/或其它方面将变得显而易见并且更容易理解,其中:
图1是根据示例性实施例的显示装置的框图;
图2是根据示例性实施例的显示装置和无线连接到显示装置的控制设备的框图;
图3是根据示例性实施例的控制显示装置的方法的流程图;
图4是示出根据示例性实施例的执行与用户说出的语音相对应的操作的显示装置的示例的图;
图5是示出根据示例性实施例的执行与用户说出的语音相对应的操作的显示装置的示例的图;
图6是示出根据示例性实施例的基于中间识别结果执行操作的显示装置的示例的图;
图7是根据示例性实施例的显示装置执行语音识别功能的方法的流程图;
图8是根据示例性实施例的显示装置处理中间识别结果的方法的流程图;
图9是示出根据示例性实施例的显示装置的详细配置的框图;
图10是根据示例性实施例的显示装置的框图;以及
图11是示出根据示例性实施例的控制设备的配置的框图。
具体实施方式
下文参照附图更详细地描述示例性实施例。此外,将参考附图更详细地描述根据示例性实施例的配置和使用电子设备的方法。在以下描述中,即使在不同附图中,相同的附图标记用于相同的元件。提供描述中定义的内容(例如详细构造和元件)以帮助全面理解示例性实施例。然而,应当清楚,即便在缺少这些具体限定的内容的情况下,也能够实践示例性实施例。此外,没有对公知的功能或结构进行详细描述,因为详细描述它们可能导致本说明书不清楚。
应当理解,虽然术语第一、第二等可以在本文用于描述各种元素,但是这些元素不应受这些术语的限制。这些术语仅用来将元件彼此区分。例如,在不脱离示例性实施例的范围的情况下,第一元件可以称为第二元件,并且类似地,第二元件可以称为第一元件。如本文所用,术语“和/或”包括关联列出的一个或更多个项目的任意和所有组合。
另外,在下面的描述中,“显示器”可以指可视地输出图像数据的元件。此外,根据示例性实施例,当显示器中包括的显示面板和触摸板具有形成触摸屏的层结构时,显示器不仅可用作输出设备,还可以用作输入设备。显示器可以包括以下中的至少一个:液晶显示器(LCD)、薄膜晶体管液晶显示器、有机发光二极管(OLED)、柔性显示器、三维(3D)显示器、电泳显示器、等离子体显示面板(PDP)、量子点LED(QLED)。
“显示装置”可以指包括显示器并且能够可视地表现图像数据的输出设备。显示装置可以连接到台式计算机、笔记本计算机、平板个人电脑(PC)、相机、移动电话、存储介质或其他电子装置,并且可以通过有线或无线方式接收图像数据。根据示例性实施例,显示装置可以接收模拟广播信号或数字广播信号。显示装置可以是平面显示装置、包括具有曲率的屏幕的弯曲显示装置、或者可以调整曲率的柔性显示装置。此外,显示装置可以包括PC监视器和TV监视器,并且可以包括商业显示器(例如,大型显示器(LFD))。此外,显示装置可以包括两个或更多个显示器。
输出实际接触的显示装置的显示部分可以称为屏幕。
此外,“用户”可以指控制显示装置的功能或操作的人,并且可以包括管理者或安装管理者。
本文使用的术语仅用于描述示例性实施例,而不旨在限制示例性实施例。如本文中使用的,单数形式“一个”、“一”和“该”还意在包括复数形式,除非上下文明确地另外指示。还应理解,术语“包括”、“具有”和/或“包含”在本文中使用时表示存在所陈述的特征、整数、步骤、操作、元件、组件和/或其组合,但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合。
如本文所使用的,诸如“......的至少一个”的表述在元素列表之后修饰整个元素列表而不是修饰列表中的单独元素。
图1是根据示例性实施例的显示装置100的框图。
图1的显示装置100可以接收用户说出的语音,并且可以执行与用户说出的语音相对应的操作。
显示装置100的示例可以包括但不限于智能电视、智能电话、网络音响、头戴显示器(HMD)、平视显示器(HUD)、可穿戴设备、平板PC、PC、膝上型计算机、全球定位系统(GPS)、数字广播终端、导航系统、报亭、数码相机以及其他移动或非移动计算设备。此外,显示装置100可以是具有通信功能和数据处理功能的用于提供虚拟现实(VR)图像的VR设备、用于提供增强现实(AR)图像的AR设备、时钟、眼镜、发带或戒指。
显示装置100可以显示与实时接收的用户说出的语音相对应的文本。因此,显示装置100可以通知用户他所说出的语音正被实时地转换为文本。
例如,即使在获得最终结果之前,显示装置100也可以显示中间识别结果。此外,即使在获得最终结果之前,显示装置100也可以根据中间识别结果显示与命令相对应的文本。
术语“最终结果”是指在从用户说出的语音开始的时间到用户说出的语音结束的时间之间的时间段期间,与由显示装置100获得的用户说出的语音相对应的整个文本。当用户说出的语音结束时,显示装置100可以显示最终结果。
术语“中间识别结果”是指在从说出的语音开始的时间到获得最终结果之前的任意时间的时间段期间,与由显示装置100获得的用户说出的语音相对应的文本。中间识别结果可以对应于从显示装置100开始识别用户说出的语音的功能的时间起到任意时间所接收的用户说出的语音。
例如,当用户说出“找到无限挑战”时,最终结果可以是“找到无限挑战”。此外,中间识别结果可以包括“无限”和“无限挑战”。
例如,当在获得与用户说出的表达“找到无限挑战”相对应的最终结果之前获得包括在中间识别结果中的“无限”和“无限挑战”时,可以显示包括“无限”和“无限挑战”的文本。
参考图1,显示装置100包括存储器10、处理器20和显示器30。
根据示例性实施例的存储器10可以存储用于驱动和控制显示装置100的各种数据、程序或应用。存储在存储器10中的每个程序可以包括一个或多个指令。存储在存储器10中的程序(一个或多个指令)或应用可以由处理器20执行。
例如,用于基于用户说出的语音确定命令的程序可以存储在显示装置100的存储器10中,或者可以分开存储在外部设备中。
根据示例性实施例的存储器10可以存储先前的中间识别结果。
术语“先前的中间识别结果”是指从显示装置100启动用于识别用户说出的语音的功能的时间起所接收的用户说出的语音。例如,先前的中间识别结果可以对应于从处理器20接收到启动用于识别用户说出的语音的功能的输入的时间起所接收的用户说出的语音。
此外,存储在存储器10中的中间识别结果可以对应于从处理器20接收到启动用于识别用户说出的语音的功能的输入的时间到识别出用户意图的时间所接收的用户说出的语音。
根据示例性实施例的处理器20可以执行存储在存储器10中的一个或多个程序。处理器20可以包括单核、双核、三核、四核和多核。此外,处理器20可以包括多个处理器。
处理器20可以接收用户说出的语音。用户说出的语音可以从包括在显示装置100中的音频输入接口直接接收,或者可以被接收为为通过通信器接收的语音信号。在下文中,术语“用户说出的语音”是指与用户说出的语音相对应的语音信号。
处理器20可以将与接收的用户说出的语音相对应的文本确定为中间识别结果。
处理器20可以控制中间识别结果被显示在显示器30上。例如,处理器20可以根据用户的说话速度将中间识别结果显示在显示器30上,从而给用户留下他/她的说话被实时地识别的印象。
处理器20可以基于通过将所确定的中间识别结果与先前存储的先前的中间识别结果进行比较而获得的结果来确定命令。
例如,处理器20可以通过将所确定的中间识别结果与先前的中间识别结果进行比较来确定所确定的中间识别结果中是否包括新文本。当确定所确定的中间识别结果中包括新文本时,处理器20可以确定与该新文本相对应的命令。
例如,当所确定的中间识别结果为“频道增加增加”并且先前的中间识别结果为“频道增加”时,处理器20可以确定包括“增加”的新文本被包括在所确定的中间识别结果中。因此,处理器20可以确定与包括“增加”的新文本相对应的命令。
此外,处理器20可以确定是否存在与该新文本相对应的用户意图。
当处理器20确定存在与新文本相对应的用户意图时,处理器20可以基于与新文本相对应的用户意图来确定命令。与新文本相对应的用户意图可以和与先前的中间识别结果相对应的用户意图相同。
例如,当新文本为“增加”时,与新文本相对应的用户意图可以与作为先前的中间识别结果的“频道增加”相对应的用户意图相同。
处理器20可以执行与所确定的命令相对应的操作。例如,所确定的命令可以是与先前的中间识别结果相对应的命令的重复。
当处理器20确定存在用户意图时,处理器20可以将所确定的中间识别结果存储在存储器10中。
处理器20可以确定用户说出的语音是否结束。当处理器20确定用户说出的语音结束时,处理器20可以将所确定的中间识别结果确定为最终结果,并且可以执行与最终结果相对应的操作。
当确定用户说出的语音结束时,处理器20可以结束语音识别功能。例如,当确定用户说出的语音结束时,处理器20可以结束接收用户说出的语音。
例如,处理器20可以基于来自控制设备的输入确定用户说出的语音结束。用户可以通过控制设备提供启动说出语音的输入和结束说出语音的输入。控制设备可以包括例如遥控器。
显示器30可以显示与由处理器20确定的命令相对应的用户界面。例如,与所确定的命令相对应的用户界面可以包括与所确定的命令相对应的文本和中间识别结果中的至少一个。
例如,显示器30可以在处理器20的控制下显示中间识别结果。此外,显示器30可以显示与基于通过将由处理器20确定的中间识别结果和先前存储的先前识别结果进行比较而获得的结果所确定的命令相对应的文本。
例如,所确定的命令可以包括以下项中的任一项:用于调整显示在显示器30上的光标的位置的命令、用于调整显示装置100中包括的声音输出接口的音量的命令、以及用于改变显示装置100的频道的命令等。此外,所确定的命令可以包括用于执行或搜索内容的命令。
图2是根据示例性实施例的显示装置100和无线连接到显示装置100的控制设备200的框图。
参考图2,显示装置100包括存储器10、处理器20、显示器30、用户输入接口40和通信器50(例如,通信接口)。上面已经参考图1描述了存储器10、处理器20和显示器30,因此不再给出重复的说明。
图2的用户输入接口40可以包括用于接收用户说出的语音的音频输入接口。音频输入接口接收外部声音信号,并将外部声音信号转换为电语音数据。例如,音频输入接口可以从外部设备或扬声器接收声音信号。音频输入接口可以以帧为单位向处理器20发送语音数据。
根据示例性实施例的处理器20可以将以帧为单位从用户输入40接收的语音数据转换为文本。此外,处理器20可以基于文本来确定命令。
根据示例性实施例,处理器20可以将以帧为单位从用户输入接口40接收的语音数据发送到外部设备。外部设备可以将以帧为单位的语音数据转换为文本。此外,外部设备可以基于文本来确定命令。在这种情况下,处理器20可以从外部设备接收文本并且可以接收由外部设备确定的命令。
例如,外部设备可以包括通过有线或无线方式连接到显示装置100的服务器。
通信器50可以包括可在处理器20的控制下向/从控制设备200或外部设备发送/接收数据和信号的收发机。
图2的控制设备200是用于控制显示装置100的功能的设备。例如,控制设备200可以是但不限于遥控器,并且包括用于控制显示装置100的功能的电子设备,例如智能电话或平板PC。
参考图2,控制设备200可以包括用户输入接口201和通信器203。
根据示例性实施例的用户输入接口201可以接收用户输入。
控制设备200可以基于通过用户输入接口201接收的用户输入来控制显示装置100的功能。
根据示例性实施例的用户输入可以包括启动用户语音说出的输入和结束用户语音说出的输入。例如,启动用户语音说出的输入可以是用于执行控制设备200的语音识别模式的输入。此外,结束用户语音说出的输入可以是结束控制设备200的语音识别模式的输入。
此外,用户输入可以包括用于控制显示装置100的用户的语音说出。
例如,用户输入接口201可以包括以下中的至少一个:键(包括按钮)、触摸板、用于接收用户说出的语音的麦克风、以及用于识别控制设备200的运动的传感器。
根据示例性实施例的通信器203可以向/从显示装置100发送/接收信号。
通信器203可以通过使用包括例如红外或蓝牙通信在内的短距离通信来向/从显示装置100发送/接收信号。
图3是根据示例性实施例的控制显示装置100的方法的流程图。
在操作S110中,显示装置100可以接收用户说出的语音。
在操作S120中,显示装置100可以将与接收的用户说出的语音相对应的文本确定为中间识别结果。
在操作S130中,显示装置100可以基于通过将所确定的中间识别结果与先前存储的先前的中间识别结果进行比较而获得的结果来确定命令。
在操作S140中,显示装置100可以执行与所确定的命令相对应的操作。
图4是示出根据示例性实施例的执行与用户说出的语音相对应的操作的显示装置100的示例的图。
图4示出了将显示装置100中包括的声音输出接口的音量调整1个单位的情况。
显示装置100可以通过控制设备200接收启动用户的语音说出的输入。例如,启动用户的语音说出的输入可以是用于执行显示装置100和控制设备200中的至少一个的语音识别模式的输入。
当显示装置100和控制设备200中的至少一个的语音识别模式启动时,显示装置100可以在屏幕上显示如图4所示的用户界面411。
用户界面411可以包括用于与用户交互的对象(例如,图像文本或图标)。例如,显示装置100可以包括用于通知用户的话语被识别的用户界面411。
例如,当显示装置100识别到用户的语音说出开始时,显示装置100可以显示包括文本403“你好,很高兴见到你”的用户界面411。
当显示装置100和控制设备200中的至少一个的语音识别模式开始时,包括在显示装置100中的用户输入接口40(参见图2)和控制设备200的用户输入接口201(参见图2)中的至少一个可以接收用户说出的语音。
例如,如图4所示,显示装置100可以接收用户说出的与“音量增加”相对应的语音。
显示装置100可以将与接收到的用户说出的语音相对应的文本401确定为中间识别结果。
显示装置100可以基于通过将所确定的中间识别结果与先前存储的先前的中间识别结果进行比较而获得的结果来确定命令。如果先前存储的先前的中间识别结果不存在,则显示装置100可以基于与所确定的中间识别结果相对应的文本401来确定命令。
显示装置100可以执行与所确定的命令相对应的操作。例如,所确定的命令可以是用于将包括在显示装置100中的声音输出接口的音量调整1的命令。
显示装置100可以显示与所确定的命令相对应的文本401和文本413中的至少一个。
在显示装置100执行与所确定的命令相对应的操作之后,显示装置100可以通过控制设备200接收结束用户说话的输入。例如,结束用户的语音说出的输入可以是结束显示装置100和控制设备200中的至少一个的语音识别模式的输入。
当显示装置100接收到结束用户的语音说出的输入时,显示装置100可以不显示用户界面411。
图5是示出根据示例性实施例的执行与用户说出的语音相对应的操作的显示装置100的示例的图。
图5示出了用户重复执行调整显示装置100中包括的声音输出接口的音量的操作的情况。
例如,显示装置100可以接收用户说出的与“音量增加”相对应的语音。
显示装置100可以将与接收的用户的话语相对应的第一文本501确定为中间识别结果。此外,显示装置100可以基于中间识别结果,将用于将包括在显示装置100中的声音输出接口的音量调整1个单位的指令确定为命令。
参考图5,显示装置100可以显示与所确定的命令相对应的文本511和第一文本501中的至少一个。此外,显示装置100可以根据所确定的命令将显示装置100中包括的声音输出接口的音量调整1个单位。
显示装置100可以将作为所确定的中间识别结果的第一文本501存储在显示装置100所包括的存储器中或外部设备的存储器中。
接下来,显示装置100可以另外接收用户说出的与“增加”相对应的语音。
显示装置100可以将与接收到的用户说出的语音相对应的第二文本503确定为中间识别结果。例如,显示装置100可以将“音量增加增加”确定为中间识别结果。
显示装置100可以通过将所确定的中间识别结果与先前存储的中间识别结果进行比较来确定所确定的中间识别结果中是否包括新文本505。
例如,先前存储的中间识别结果可以是作为第一文本501的“音量增加”。所确定的中间识别结果可以是作为第二文本503的“音量增加增加”。在这种情况下,显示装置100可以确定在所确定的中间识别结果中包括作为新文本505的“增加”。
当新文本505为“增加”时,显示装置100可以基于作为先前存储的中间识别结果的“音量增加”(即,第一文本501)来确定与新文本505相对应的命令。
显示装置100可以显示与所确定的命令相对应的文本513和第二文本503中的至少一个。此外,显示装置100还可以根据与新文本505相对应的命令另外将包括在显示装置100中的声音输出接口的音量调整1个单位。
显示装置100可以重复地接收用户说出的与“增加”相对应的语音。在这种情况下,显示装置100可以重复地基于通过将所确定的中间识别结果与先前存储的中间识别结果进行比较而获得的结果来确定命令。此外,显示装置100可以重复地基于通过将所确定的中间识别结果与先前存储的中间识别结果进行比较而获得的结果来确定命令,直到用户说出的语音结束。
根据示例性实施例,根据图5的显示装置100,用户不需要重复地通过控制设备提供启动和结束语音说出的输入。此外,当图5的显示装置100重复执行功能时,显示装置100不需要重复地产生和移除用于通知用户说出的语音开始的用户界面。因此,由于显示装置100仅需要显示与命令相对应的用户界面,所以可以简化显示装置100的处理。
图6是示出根据示例性实施例的基于中间识别结果执行操作的显示装置100的示例的图。
图6示出了显示装置100接收用户说出的与多个命令相对应的语音的情况。
例如,当用户说出的语音的最终结果是“釜山天气怎么样,找个有名的饭店”时,用户说出的语音可以对应于多个命令。
首先,显示装置100可以接收用户说出的与“釜山天气怎么样”相对应的语音。显示装置100可以将与接收到的用户说出的语音相对应的第一文本601确定为中间识别结果。
参考图6,显示装置100可以显示第一文本601和与基于第一文本601确定的命令相对应的用户界面611中的至少一个。用户界面611可以包括由天气信息应用等提供的关于“釜山的天气”的信息。
显示装置100可以将作为所确定的中间识别结果的第一文本601存储在显示装置100所包括的存储器中或外部设备的存储器中。
显示装置100可以另外接收用户说出的与“找个有名的饭店”相对应的语音。显示装置100可以将与接收到的用户说出的语音相对应的第二文本603确定为中间识别结果。
显示装置100可以通过将所确定的中间识别结果与先前存储的中间识别结果进行比较来确定所确定的中间识别结果中是否包括新文本605。例如,先前存储的中间识别结果可以是作为第一文本601的“釜山天气怎么样”。所确定的中间识别结果可以是作为第二文本603的“釜山天气怎么样,找个有名的饭店”。在这种情况下,显示装置100可以确定所确定的中间识别结果包括作为新文本605的“找个有名的饭店”。
显示装置100可以基于用户意图来确定与新文本605相对应的命令。此外,显示装置100可以基于先前的中间识别结果来确定用户意图。当新文本605是“找个有名的饭店”时,与新文本605相对应的命令可以是用于在作为先前的中间识别结果的第一文本601中包括的“釜山”中找到有名的饭店的命令。
参考图6,显示装置100可以显示与所确定的命令相对应的用户界面613和第二文本603中的至少一个。用户界面613可以包括由搜索引擎等提供的关于“釜山有名的饭店”的信息。此外,显示装置100可以显示用户界面611和用户界面613两者。
根据示例性实施例,当用户说出的语音对应于多个命令时,即使在获得最终结果之前,显示装置100也可以实时地根据用户说出的语音来执行根据多个命令的多个操作。
图7是根据示例性实施例的显示装置100执行语音识别功能的方法的流程图。
在操作S210中,显示装置100可以启动语音识别功能。例如,显示装置100可以接收启动用户说出的语音的输入。
在操作S220中,显示装置100可以确定是否存在语音帧输入。
当显示装置100在操作S220中确定存在语音帧输入时,该方法进行到操作S230。在操作S230中,显示装置100可以执行语音识别功能。语音识别功能的执行可以包括将与接收的用户说出的语音相对应的文本确定为中间识别结果。
当显示装置100在操作S220中确定不存在语音帧输入时,该方法进行到操作S260。在操作S260中,显示装置100可以请求最终结果。
在操作S240中,显示装置100可以确定是否存在中间识别结果。
当显示装置100在操作S240中确定存在中间识别结果时,该方法进行到操作S250。在操作S250中,显示装置100可以处理中间识别结果。中间识别结果的处理可以包括确定与中间识别结果相对应的命令并执行与该命令相对应的操作。
当显示装置100在操作S240中确定中间识别结果不存在时,该方法返回到显示装置100可以确定是否存在语音帧输入的操作S220。
在操作S270中,显示装置100可以确定是否存在最终结果。
当显示装置100在操作S270中确定存在最终结果时,该方法进行到操作S280。在操作S280中,显示装置100可以处理最终结果。
当显示装置100在操作S270中确定最终结果不存在时,该方法返回到显示装置100可以请求最终结果的操作S260。
在操作S290中,显示装置100可以结束语音识别功能。
图8是根据示例性实施例的显示装置100处理中间识别结果的方法的流程图。
根据示例性实施例的由显示装置100执行的用于处理中间识别结果的处理可以包括在图7的操作S250中。
在操作S310中,显示装置100可以开始处理中间识别结果。
在操作S320中,显示装置100可以显示新的中间识别结果。新的中间识别结果可以基于从用户说出的语音开始的时间到中间识别结果被处理的时间之间由显示装置100接收到的用户说出的语音的输入。
例如,当显示装置100接收到用户说出的与“右方向下向下”相对应的语音时,显示装置100可以在屏幕上显示作为中间识别结果的“右方向下向下”。
在操作S330中,显示装置100可以确定新的中间识别结果中是否包括新文本。
例如,当先前存储的先前的中间识别结果是“右方向下”,并且新的中间识别结果是“右方向下向下”时,该新的中间识别结果还包括新文本“向下”。
当显示装置100在操作S330中确定新的中间识别结果包括新文本时,该方法进行到操作S350。在操作S350中,显示装置100可以确定是否存在与新文本相对应的用户意图。
根据示例性实施例,显示装置100可以确定先前存储的命令列表中是否包括新文本。例如,当命令列表中包括作为新文本的“向下”时,显示装置100可以确定用户意图存在。显示装置100可以基于先前存储的先前的中间识别结果来识别关于新文本的用户意图。
当显示装置100在操作S330中确定新的中间识别结果不包括新文本时,该方法进行到操作S390。在操作S390中,显示装置100可以结束中间识别结果的处理。
当显示装置100在操作S350中确定存在与新文本相对应的用户意图时,该方法进行到操作S360。在操作S360中,显示装置100可以基于用户意图来确定命令。
例如,当显示装置100确定存在与作为新文本的“向下”相对应的用户意图时,显示装置100可以基于用户意图将向下移动光标的指令确定为命令。
当显示装置100在操作S350中确定用户意图不存在时,该方法进行到操作S390。在操作S390中,显示装置100可以结束中间识别结果的处理。
在操作S370中,显示装置100可以执行与该命令相对应的操作。例如,显示装置100可以执行向下移动光标的操作。
在操作S380中,显示装置100可以用新的中间识别结果代替先前存储的先前的中间识别结果。例如,显示装置100可以存储作为新的中间识别结果的“右方向下向下”,而不是作为先前存储的先前的中间识别结果的“右方向下”。因此,当显示装置100另外接收到用户说出的语音并处理新的中间识别结果时,先前存储的先前的中间识别结果可变为“右方向下向下”。
在操作S390中,显示装置100可以结束中间识别结果的处理。
图9是示出根据示例性实施例的显示装置100的详细配置的框图。
参考图9,显示装置100包括视频处理器110、显示器115、音频处理器120、音频输出接口125、电源130、调谐器140、通信器150、检测器160、输入/输出接口170、处理器180和储存设备190。
视频处理器110处理由显示装置100接收的视频数据。视频处理器110可以对视频数据执行各种类型的图像处理,例如解码、缩放、噪声过滤、帧速率变换或分辨率变换。
在处理器180的控制下,显示器115在屏幕上显示由调谐器140接收的广播信号中包括的视频。此外,在处理器180的控制下,显示器115可以显示通过输入/输出接口170或通信器150输入的内容(例如,运动图像)。在处理器180的控制下,显示器115可以输出存储在存储设备190中的图像。此外,显示器150可以显示用于执行与语音识别相对应的语音识别任务的语音用户界面(UI)(包括语音命令指南)、用于执行与运动识别相对应的运动识别任务的运动UI(包括语音命令指南)、或者用于执行与运动识别相对应的运动识别任务的运动UI(包括用户运动指南)。
图9的显示器115可以包括图1的显示器30。
音频处理器120处理音频数据。音频处理器120可以对音频数据执行各种类型的处理,例如解码、放大或噪声过滤。音频处理器120可以包括多个音频处理模块来处理与多条内容相对应的音频。
在处理器180的控制下,音频输出接口125输出由调谐器140接收的广播信号中包括的音频。在处理器180的控制下,音频输出接口125可以输出通过输入/输出接口170或通信器150输入的音频(例如,语音或声音)。此外,在处理器180的控制下,音频输出接口125可以输出存储在存储设备190中的音频。音频输出接口125可以包括扬声器126、耳机输出端子127和索尼/飞利浦数字接口(S/PDIF)输出端子128中的至少一个。备选地,音频输出接口125可以包括扬声器126、耳机输出端子127和S/PDIF输出端子128的组合。
在处理器180的控制下,电源130向包括在显示装置100中的元件(即110至190)提供从外部电源输入的电力。此外,在处理器180的控制下,电源130可以向元件110至190提供设置在显示装置100中的一个或多个电池输出的电力。
调谐器140可以从通过对以有线或无线方式接收的广播信号进行放大、混合和谐振而获得的许多传播分量中,仅调谐和选择要被显示装置100接收的频道的频率。广播信号包括音频、视频和附加信息(例如,电子节目指南(EPG))。
调谐器140可以根据用户输入(例如,从控制设备200接收的控制信号,例如频道号输入、频道加减输入、或在EPG屏幕上的频道输入)来接收与频道号(例如有线广播频道506)相对应的频带中的广播信号。
调谐器140可以从诸如地面广播源、有线广播源、卫星广播源或互联网广播源的各种源中的任何一个源接收广播信号。调谐器140可以从诸如模拟广播或数字广播之类的源接收广播信号。由调谐器140接收的广播信号通过使用例如音频解码、视频解码或附加信息解码而被解码,并且被分离成音频、视频和/或附加信息。在处理器180的控制下,音频、视频和/或附加信息可以存储在存储设备190中。
显示装置100可以包括一个或多个调谐器140。根据示例性实施例,当显示装置100包括多个调谐器140时,显示装置100可以输出多个广播信号,可以被输出到构成设置在显示器115上的多窗口屏幕的多个窗口。
调谐器140可以以一体的方式集成到显示装置100中,或者可以连接到单独设备(例如,机顶盒),该单独设备电连接到显示装置100或输入/输出接口170。
在处理器180的控制下,通信器150可将显示装置100连接到外部设备(例如,音频设备)。处理器180可以通过通信器150向/从连接到处理器180的外部设备发送/接收内容,可以从外部设备下载应用,或者可以执行网络浏览。根据显示装置100的性能和结构,通信器150可以包括无线局域网(LAN)151、蓝牙系统152和有线以太网系统153中的任何一个。备选地,通信器150可以包括无线LAN 151、蓝牙系统152和有线以太网系统153的组合。在处理器180的控制下,通信器150可以接收控制设备200的控制信号。控制信号可以是例如蓝牙信号、射频(RF)信号或WiFi信号。
通信器150还可以包括除蓝牙系统152之外的短距离通信系统(例如,近场通信(NFC)系统或蓝牙低能耗(BLE)系统)。
通信器150可以包括图2的显示装置100的通信器50。
检测器160检测用户说出的语音、用户的图像或用户的交互。
麦克风161接收用户说出的语音。麦克风161可以将接收到的说出的语音转换成电信号,并且可以将电信号输出到处理器180。用户说出的语音可以包括例如与菜单或显示装置100的功能相对应的语音。麦克风161的推荐识别范围例如可以在麦克风161至用户的位置之间约4米(m),并且可以根据用户的音调和周围环境(例如扬声器声音或环境噪声)而变化。
麦克风161可以集成到显示装置100中或与显示装置100分离。当麦克风161与显示装置100分离时,麦克风161可以通过通信器150或输入/输出接口170电连接到显示装置100。
检测器160可以包括图2的显示装置100的用户输入接口40。
相机162捕获与用户的运动(包括识别范围中的手势)相对应的图像(例如,连续帧)。例如,相机162的识别范围可以在相机162与用户的位置之间约0.1m至约5m。用户的运动可以包括用户的身体部位或区域(例如用户的面部、面部表情、手、拳头或手指)的运动。在处理器180的控制下,相机162可以将接收的图像转换成电信号,并且可以将电信号输出到处理器180。处理器180可以通过使用运动识别的结果来选择在显示装置100上显示的菜单,或者可以执行与运动识别结果相对应的控制。例如,处理器180可以调整音量或移动光标。
相机162可以包括镜头和图像传感器。相机162可以通过使用多个透镜和图像处理来支持光学变焦或数字变焦。相机162的识别范围可以被设置为根据相机的角度和周围环境条件而变化。当相机162包括多个相机时,相机162可以通过使用多个相机来接收3D静止图像或3D运动图像。
相机162可以集成到显示装置100中或与显示装置100分离。当相机162与显示装置100分离时,包括相机162的附加设备可以通过通信器150或输入/输出接口170电连接到显示装置100。
本领域普通技术人员将会理解,可以根据显示装置100的性能和结构省略相机162。
光接收器163通过在显示器115的边框中的光窗口等接收从光接收器163外部的控制设备200接收的光信号(包括控制信号)。光接收器163可以从控制设备200接收与用户输入(例如,触摸、推动、触摸手势、语音或运动)相对应的光信号。在处理器180的控制下,可以从接收的光信号中提取控制信号。
本领域普通技术人员将理解,可以根据显示装置100的性能和结构省略光接收器163。
在处理器180的控制下,输入/输出接口170从显示装置100的外部接收视频(例如,运动图像)、音频(例如,语音或音乐)以及附加信息(例如,EPG)。输入/输出接口170可以包括高清多媒体接口(HDMI)端口171、部件插孔172、PC端口173和通用串行总线(USB)端口174中的至少一个。备选地,根据示例性实施例,输入/输出接口170还可以包括D-sub子端口、数字可视接口(DVI)端口和DP端口中的至少一个。
本领域普通技术人员将理解,根据示例性实施例,可以以各种方式配置和操作输入/输出接口170。
处理器180控制显示装置100的整体操作以及在显示装置100的元件110至190之间的信号发送/接收,并处理数据。当用户输入发生或满足先前设置和存储的条件时,处理器180可以执行存储在存储设备190中的操作系统(OS)和各种应用。
处理器180可以包括用于对视频执行图形处理的图形处理单元(GPU)。处理器180可以被提供为核与GPU组合的片上系统(SoC)。
图9的处理器180可以执行图1和2的处理器20的所有功能。
在处理器182的控制下,存储设备190可以存储用于驱动和控制显示装置100的各种数据、程序或应用。存储设备190可以存储根据视频处理器110、显示器115、音频处理器120、音频输出接口125、电源130、通信器150、检测器160、输入/输出接口170和用户输入接口175的操作输入/输出的信号或数据。
存储设备190可以存储用于控制显示装置100和处理器180的控制程序、用于配置显示屏幕的呈现模块以及从外部下载或最初由制造商提供的应用。例如,存储设备190可以存储诸如在应用中使用的诸如JavaScript文件或XML文件之类的资源。
存储设备190可以包括呈现模块。呈现模块是用于配置显示屏幕的模块。呈现模块包括用于再现和输出多媒体内容的多媒体模块、以及用于执行用户界面(UI)和图形处理的UI渲染模块。多媒体模块的示例可以包括播放器模块、摄像机模块和声音处理模块。因此,多媒体模块通过再现各种多媒体内容来产生和再现屏幕图像和声音。UI渲染模块可以包括:用于合成图像的图像合成模块、用于在要显示图像的屏幕上组合和产生坐标的坐标组合模块、用于从硬件接收各种事件的X窗口系统(X11)模块、以及用于提供构建二维(2D)/3DUI的工具的2D/3D UI工具包。
此外,存储设备190可以存储与应用有关的图形用户界面(GUI)、用于提供GUI的对象(例如,图像、文本、图标或按钮)、用户信息、文档、数据库或相关数据。此外,存储设备190可以存储当显示装置100被打开时执行的OS。此外,存储设备190可以存储显示装置100的驻留程序(即,daemon)。此外,用于对在显示装置100中执行的应用的数字版权管理(DRM)进行解密的DRM解密模块可以存储在存储设备190中。
根据示例性实施例的术语“存储设备”包括存储设备190、存储用于控制显示装置100的控制程序的只读存储器(ROM)、存储从外部输入的信号或数据或用作与由显示装置100执行的各种操作的任一操作相对应的存储区域的随机存取存储器(RAM)、或安装在显示装置100中的存储卡(例如,微安全数字(SD)卡或USB存储器)。此外,存储设备190可以包括非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)或固态驱动器(SSD)。
存储设备190可以包括音量控制模块、通信控制模块、语音识别模块、运动识别模块、光接收模块、显示控制模块、音频控制模块、外部输入控制模块、电源控制模块、通过无线通信(例如,蓝牙)连接的外部设备的电源控制模块、语音数据库(DB)或运动DB。存储设备190的模块和DB可以实现为软件,以便显示装置100执行如下功能:音量控制、通信控制、语音识别、运动识别、光接收控制、音频控制、外部输入控制、电源控制、以及用于控制要显示的光标的显示控制。处理器180可以通过使用存储在存储设备190中的软件来执行每个功能。
此外,图9的存储设备190可包括图1的存储器10。
显示装置100可以电连接到包括调谐器的外部设备(例如,机顶盒)。例如,本领域普通技术人员将会理解,显示装置100可以是但不限于模拟电视、数字电视、3D电视、智能电视、LED电视、OLED电视、等离子电视或监视器。
显示装置100可以包括用于检测显示装置100的内部或外部状态的传感器(例如,照度传感器或温度传感器)。
根据显示装置100的性能,至少一个元件可以被添加到图9的显示装置100的元件(例如,110至190)中或从其中省略。此外,本领域普通技术人员将会理解,元件(例如,110至190)的位置可以根据显示装置100的性能或结构而变化。
图10是根据示例性实施例的显示装置100的框图。
例如,如图10所示,根据示例性实施例的显示装置100除了包括用户输入接口1100、输出接口1200、控制器1300和通信器1500之外,还可以包括感测单元1400、音频/视频(A/V)输入接口1600和存储器1700。
用户输入接口1100是用户输入用于控制显示装置100的数据的接口。用户输入接口1100的示例可以包括但不限于键盘、圆顶开关、触摸板(例如,接触型电容法、压力型电阻膜法、红外感测法、表面超声波传输法、积分张力测量法或压电效应法)、滚轮和点动开关。
用户输入接口1100可以从用户接收密码。用户输入接口1100还可以接收关于要从用户接收的密码的类型的输入。
输出接口1200可以输出音频信号、视频信号或振动信号,并且可以包括显示器1210、声音输出接口1220和振动电机1230。
显示器1210显示并输出由显示装置100处理的信息。
当显示器1210和触摸板具有形成触摸屏的结构时,显示器1210不仅可以用作输出设备,还可以用作输入设备。显示器1210可以包括LCD、薄膜晶体管液晶显示器、OLED、柔性显示器、3D显示器和电泳显示器中的至少一个。根据显示装置100的类型,显示装置100可以包括两个或更多个显示器1210。在这种情况下,两个或更多个显示器1310可以经由铰链彼此连接而彼此面对。
图10的显示器1210可以包括图1的显示器30。
声音输出接口1220输出从通信器1500接收的或存储在存储器1700中的音频数据。此外,声音输出接口1220输出与由显示装置100执行的功能有关的声音信号(例如,呼叫信号接收声音、消息接收声音或通知声音)。扬声器或蜂鸣器可以包括在声音输出接口1220中。
振动电机1230可以输出振动信号。例如,振动电机1230可以输出与音频数据或视频数据(例如,呼叫信号接收声音或消息接收声音)的输出相对应的振动信号。此外,当触摸被输入到触摸屏时,振动电机1230可以输出振动信号。
控制器1300控制显示装置100的整体操作。例如,控制器1300可以通过执行存储在存储器1700中的程序来控制用户输入接口1100、输出接口1200、感测单元1400、通信器1500和A/V输入接口1600。
图10的控制器1300可以包括图1的处理器20。
感测单元1400可以检测显示装置100的状态或显示装置100周围的状态,并且可以将关于状态的信息发送到控制器1300。
感测单元1400可以包括但不限于以下中的至少一个:地磁传感器1410、加速度传感器1420、温度/湿度传感器1430、红外传感器1440、陀螺仪传感器1450、位置传感器(例如,全球定位系统(GPS))1460、气压传感器1470、接近传感器1480和RGB传感器(例如照度传感器)1490。传感器的功能将由本领域普通技术人员根据其名称直观地得出,因此将不给出其详细说明。
通信器1500可以包括用于显示装置100与外部设备或服务器通信的一个或多个元件。例如,通信器1500可以包括短距离通信器1510、移动通信器1520和广播接收机1530。
短距离通信器151的示例可以包括但不限于蓝牙通信器、蓝牙低功率(BLE)通信器、近场通信器、WLAN(WiFi)通信器、Zigbee通信器、红外数据协会(IrDA)通信器、WiFi直连(WFD)通信器、超宽带(UWB)通信器和Ant+通信器。
移动通信器1520经由移动通信网络向/从基站、外部终端和服务器中的至少一个发送/接收无线信号。无线信号的示例可以包括语音呼叫信号、视频呼叫信号以及根据文本/多媒体消息发送/接收的各条数据中的任何一个。
广播接收机1530通过广播频道从外部接收广播信号和/或广播相关信息。广播频道的示例可以包括卫星频道和地面频道。根据示例性实施例,显示装置100可以不包括广播接收机1530。
此外,通信器1500可以发送/接收通过使用用户的生物信息向用户的外部设备或服务器提供提示所需的数据。
图10的通信器1500可以包括图2的显示装置100的通信器50。
用于输入音频信号或视频信号的A/V输入接口1600可以包括相机1610和麦克风1620。相机1610可以通过在视频模式或成像模式中使用成像设备来获得诸如静止图像或运动图像的图像帧。由成像设备拍摄的图像可以由控制器1300或附加图像处理器来处理。
由相机1610处理的图像帧可以存储在存储器1700中,或者可以通过通信器1500发送到外部。可以根据终端的配置来提供两个或更多个相机1610。
麦克风1620接收外部声音信号,并将外部声音信号处理成电语音数据。例如,麦克风1620可以从外部设备或扬声器接收声音信号。麦克风1620可以使用各种噪声去除算法中的任一种去除接收外部声音信号时发生的噪声。
A/V输入接口1600可以包括图2的显示装置100的用户输入接口40。
存储器1700可以存储用于处理和控制控制器1300的程序,并且可以存储输入到显示装置100的或从显示装置100输出的数据。
存储器1700可以包括以下至少一种类型的存储介质:闪速存储器类型、硬盘类型、多媒体卡微型、卡型存储器(例如,SD或XD存储器)、RAM、静态随机存取存储器(SRAM)、ROM、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光盘。
存储在存储器1700中的程序可以根据存储器1700的功能被分类为多个模块。例如,存储器1700可以包括UI模块1710、触摸屏模块1720和通知模块1730。
图10的存储器1700可包括图1的存储器10。
UI模块1710可以根据应用提供与显示装置100交互操作的专用UI或GUI。触摸屏模块1720可以检测用户的触摸屏上的触摸手势,并且可以将关于触摸手势的信息发送到控制器1300。根据示例性实施例的触摸屏模块1720可以识别和分析触摸代码。触摸屏模块1720可以被配置为包括控制器的单独硬件。
各种传感器可以位于触摸屏中或附近,以便检测对触摸屏的触摸或接近触摸。用于检测触摸屏的触摸的传感器的示例可以是触觉传感器。触觉传感器是指以人感觉的程度或更高程度检测特定对象的接触的传感器。触觉传感器可以检测诸如接触表面的粗糙度、接触对象的刚性或接触点的温度之类的各种信息中的任何一种。
此外,用于检测触摸屏的触摸的传感器的示例可以是接近传感器。接近传感器是指通过使用没有机械接触的电磁场或红外线的强度来检测正在接近预定检测表面的对象或邻近对象的传感器。接近传感器的示例可以包括透射型光电传感器、直接反射型光电传感器、镜面反射型光电传感器、高频振荡接近传感器、静电电容型接近传感器、磁性型接近传感器和红外接近传感器。用户的触摸手势的示例可以包括点击、触摸和保持、双击、拖动、平移、轻拂、拖放和滑动。
通知模块1730可以产生用于通知显示装置100中发生的事件的信号。在显示装置100中发生的事件的示例可以包括呼叫信号接收、消息接收、键信号输入和调度通知。通知模块1730可以通过显示器1210输出作为视频信号的通知信号,可以通过声音输出接口1220输出作为音频信号的通知信号,或者可以通过振动电机1230输出作为振动信号的通知信号。
图11是示出根据示例性实施例的控制设备200的配置的框图。
参考图11,控制设备200可以包括无线通信器220、用户输入接口230、感测接口240、输出接口250、电源260、存储设备270和控制器280。
根据上述示例性实施例,无线通信器220可以向/从显示装置100发送/接收信号。无线通信器220可以包括根据RF通信标准向/从显示装置100发送/接收信号的RF模块221。此外,控制设备200可以包括根据IR通信标准向/从显示装置100发送/接收信号的红外(IR)模块223。此外,无线通信器220可以包括向/从显示装置100发送/接收蓝牙信号的蓝牙模块225。
无线通信器220可以包括图2的控制设备200的通信器203。
在本示例性实施例中,控制设备200通过RF模块221向显示装置100发送包含关于控制设备200的运动等信息在内的信号。
此外,控制设备200可以通过RF模块221接收由显示装置100发送的信号。此外,如果需要,控制设备200可以通过IR模块223向显示装置100发送用于打开/关闭电源、改变频道或改变音量的命令。
用户输入接口230可以包括键盘、按钮、触摸板或触摸屏。用户可以通过操纵用户输入界面230向控制设备200输入与显示装置100相关的命令。当用户输入接口230包括硬键按钮时,用户可以通过按下硬键按钮向控制设备200输入与显示装置100相关的命令。当用户输入接口230包括触摸屏时,用户可以通过触摸触摸屏的软键向控制设备200输入与显示装置100相关的命令。
用户输入接口230可以包括可由用户操纵的各种输入接口中的任何一个,例如滚动键或点动键。此外,用户输入接口230可以包括可以接收用户的语音的麦克风。
用户输入接口230可以包括图2的控制设备200的用户输入接口201。
感测接口240可以包括陀螺仪传感器241或加速度传感器243。陀螺仪传感器241可以感测关于控制设备200的运动的信息。例如,陀螺仪传感器241可以感测关于控制设备200相对于x、y和z轴的操作的信息。加速度传感器243可以感测关于控制设备200的移动速度的信息。感测接口240还可以包括距离传感器,并且因此可以通过使用距离测量传感器来感测显示装置100和控制设备200之间的距离。
输出接口250可以输出与用户输入接口230的操纵相对应的图像信号或音频信号或由显示装置100接收的信号。用户可以通过输出接口250识别用户输入接口230是否被操纵或者显示装置100是否被控制。
例如,输出接口250可以包括LED模块251、振动模块253、声音输出模块255和显示模块257,在用户输入接口230被操纵或者通过无线通信器220向/从显示装置100发送/接收信号时,上述模块分别发光、振动、输出声音和输出图像。
电源260向控制设备200供电。当控制设备200在预定时间段内不移动时,电源260可以通过不供电来减少过多的功率消耗。当控制设备200中设置的预定键被操纵时,电源260可以再次供电。
存储设备270可以存储控制或操作控制设备200所需的各种程序和应用数据。
控制器280控制与控制设备200的控制相关的整体操作。控制器280可以通过通信器220向显示装置100发送与用户输入接口230的预定键的操纵相对应的信号或与感测接口240感测的控制设备200的运动相对应的信号。
坐标值计算器可以通过从与控制设备200的检测到的操作相对应的信号中校正手抖动或错误来计算要显示在显示装置100的显示器115上的光标的坐标(x,y)。
根据一个或多个示例性实施例,当基于用户说出的语音控制显示装置的操作时,显示装置甚至可以在用户的用户语音结束之前,实时地根据用户意图进行操作。
根据一个或多个示例性实施例,当显示装置要重复地基于用户说出的语音执行操作时,即使没有启动或结束语音识别功能的重复输入,也可以仅使用用户说出的语音来容易地控制显示装置。
根据示例性实施例的控制方法可以被实现为可由各种计算机装置执行的程序命令,并且可被记录在计算机可读记录介质上。计算机可读记录介质可以单独地或组合地包括程序命令、数据文件、数据结构等。要记录在计算机可读记录介质上的程序命令可以被特别设计和配置用于示例性实施例,或者可以是计算机软件领域的普通技术人员所熟知并且可以使用的。计算机可读记录介质的示例包括诸如硬盘、软盘或磁带的磁介质、诸如光盘只读存储器(CD-ROM)或数字通用盘(DVD)的光介质、诸如光磁盘的磁光介质、以及诸如ROM、RAM或闪存的被专门配置为存储和执行程序命令的硬件设备。程序命令的示例是可以由计算机通过使用解释器等执行的高级语言代码以及由编译器产生的机器语言代码。
上述示例性实施例是示例,并且不应视为限制。本发明的教导易于应用于其他类型的设备。此外,对示例性实施例的描述只是说明性的,而不是为了限制权利要求的范围,并且本领域技术人员将清楚多种备选、修改和变化。
Claims (15)
1.一种显示装置,包括:
显示器;
存储器;以及
处理器,被配置为:
接收用户说出的第一语音,
将与用户说出的第一语音相对应的文本确定为第一中间识别结果,
基于所述第一中间识别结果确定第一命令,以及
根据所述第一命令执行操作。
2.根据权利要求1所述的显示装置,其中,所述处理器还被配置为:
接收用户说出的第二语音,
将与用户说出的第二语音相对应的文本确定为第二中间识别结果,
通过将所述第二中间识别结果与所述第一中间识别结果进行比较来确定所述第二中间识别结果中是否包括新文本,以及
响应于所述处理器确定所述第二中间识别结果中包括新文本,确定与所述新文本相对应的第二命令。
3.根据权利要求2所述的显示装置,其中,所述处理器还被配置为:
确定与所述新文本相对应的用户意图是否存在,以及
响应于所述处理器确定所述用户意图存在,基于所述用户意图确定所述第二命令。
4.根据权利要求3所述的显示装置,其中,与所述新文本相对应的用户意图和与所述第一中间识别结果相对应的用户意图相同。
5.根据权利要求3所述的显示装置,其中所述处理器还被配置为响应于所述处理器确定所述用户意图存在,将所述第二中间识别结果存储在所述存储器中。
6.根据权利要求1所述的显示装置,其中,所述处理器还被配置为控制所述显示器以在所述显示器上显示与所述第一命令相对应的用户界面,
其中与所述第一命令相对应的用户界面包括所述第一中间识别结果和与所述第一命令相对应的文本中的至少一个。
7.根据权利要求1所述的显示装置,其中,所述处理器还被配置为:
确定是否接收到结束用户说出的语音的输入,
响应于所述处理器确定接收到结束用户说出的语音的输入,将所述第一中间识别结果确定为最终结果,以及
执行与所述最终结果相对应的操作。
8.根据权利要求1所述的显示装置,其中,所述处理器还被配置为:
确定是否接收到结束用户说出的语音的输入,以及
响应于所述处理器确定接收到结束用户说出的语音的输入,结束对用户说出的语音的接收。
9.根据权利要求1或2所述的显示装置,其中,所确定的第一命令或第二命令包括以下中的任何一个:用于调整显示在所述显示器上的光标的位置的命令、用于调整所述显示装置中包括的声音输出接口的音量的命令、以及用于改变所述显示装置的频道的命令。
10.根据权利要求1所述的显示装置,其中,所述第一中间识别结果和所述第二中间识别结果中的至少一个对应于从所述处理器接收到启动用于识别用户说出的语音的功能的输入的时间到用户意图被识别的时间之间所接收的用户说出的语音。
11.一种控制显示装置的方法,所述方法包括:
接收用户说出的第一语音;
将与用户说出的所述第一语音相对应的文本确定为第一中间识别结果;
基于所述第一中间识别结果确定第一命令;以及
根据所述第一命令执行操作。
12.根据权利要求11所述的方法,还包括:
接收用户说出的第二语音,
将与用户说出的所述第二语音相对应的文本确定为第二中间识别结果,
通过将所述第二中间识别结果与所述第一中间识别结果进行比较来确定所述第二中间识别结果中是否包括新文本;以及
响应于确定所述第二中间识别结果中包括新文本,确定与所述新文本相对应的第二命令。
13.根据权利要求12所述的方法,其中,确定与所述新文本相对应的第二命令包括:
确定与所述新文本相对应的用户意图是否存在;以及
响应于确定所述用户意图存在,基于所述用户意图来确定所述第二命令。
14.根据权利要求13所述的方法,其中,与所述新文本相对应的用户意图和与所述第一中间识别结果相对应的用户意图相同。
15.一种实施有程序的非暂时性计算机可读存储介质,其中所述程序能够被计算机执行,以执行如权利要求11所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2016-0136577 | 2016-10-20 | ||
KR1020160136577A KR20180043627A (ko) | 2016-10-20 | 2016-10-20 | 디스플레이 장치 및 디스플레이 장치를 제어하는 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107967915A true CN107967915A (zh) | 2018-04-27 |
Family
ID=60080592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710982672.0A Pending CN107967915A (zh) | 2016-10-20 | 2017-10-19 | 显示装置及其控制方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10416956B2 (zh) |
EP (1) | EP3312830B1 (zh) |
KR (1) | KR20180043627A (zh) |
CN (1) | CN107967915A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289318A (zh) * | 2020-12-30 | 2021-01-29 | 成都启英泰伦科技有限公司 | 一种语音遥控方法及装置 |
CN113053392A (zh) * | 2021-03-26 | 2021-06-29 | 京东数字科技控股股份有限公司 | 语音识别方法、语音识别装置、电子设备及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11348475B2 (en) * | 2016-12-09 | 2022-05-31 | The Boeing Company | System and method for interactive cognitive task assistance |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130275164A1 (en) * | 2010-01-18 | 2013-10-17 | Apple Inc. | Intelligent Automated Assistant |
CN103714816A (zh) * | 2012-09-28 | 2014-04-09 | 三星电子株式会社 | 电子装置、服务器及其控制方法 |
US20140337370A1 (en) * | 2013-05-07 | 2014-11-13 | Veveo, Inc. | Method of and system for real time feedback in an incremental speech input interface |
TW201612773A (en) * | 2014-05-30 | 2016-04-01 | Apple Inc | Multi-command single utterance input method |
EP3010015A1 (en) * | 2014-10-14 | 2016-04-20 | Samsung Electronics Co., Ltd. | Electronic device and method for spoken interaction thereof |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6622119B1 (en) * | 1999-10-30 | 2003-09-16 | International Business Machines Corporation | Adaptive command predictor and method for a natural language dialog system |
US6499016B1 (en) * | 2000-02-28 | 2002-12-24 | Flashpoint Technology, Inc. | Automatically storing and presenting digital images using a speech-based command language |
JP2001296881A (ja) * | 2000-04-14 | 2001-10-26 | Sony Corp | 情報処理装置および方法、並びに記録媒体 |
US7349845B2 (en) * | 2003-09-03 | 2008-03-25 | International Business Machines Corporation | Method and apparatus for dynamic modification of command weights in a natural language understanding system |
US9734839B1 (en) * | 2012-06-20 | 2017-08-15 | Amazon Technologies, Inc. | Routing natural language commands to the appropriate applications |
KR20140139922A (ko) | 2013-05-28 | 2014-12-08 | 삼성전자주식회사 | 음성 인식 장치 및 이의 음성 인식 방법 |
KR101566254B1 (ko) | 2014-09-22 | 2015-11-05 | 엠앤서비스 주식회사 | 경로 안내를 위한 음성인식 지원 장치 및 방법, 그리고 시스템 |
KR20160084724A (ko) | 2015-01-06 | 2016-07-14 | 한국전자통신연구원 | 연속어 음성인식에서 실시간 역추적 방법 및 이를 이용한 음성인식 장치 |
US10083688B2 (en) * | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10269341B2 (en) * | 2015-10-19 | 2019-04-23 | Google Llc | Speech endpointing |
-
2016
- 2016-10-20 KR KR1020160136577A patent/KR20180043627A/ko active Search and Examination
-
2017
- 2017-10-04 US US15/724,781 patent/US10416956B2/en active Active
- 2017-10-05 EP EP17194879.7A patent/EP3312830B1/en active Active
- 2017-10-19 CN CN201710982672.0A patent/CN107967915A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130275164A1 (en) * | 2010-01-18 | 2013-10-17 | Apple Inc. | Intelligent Automated Assistant |
CN103714816A (zh) * | 2012-09-28 | 2014-04-09 | 三星电子株式会社 | 电子装置、服务器及其控制方法 |
US20140337370A1 (en) * | 2013-05-07 | 2014-11-13 | Veveo, Inc. | Method of and system for real time feedback in an incremental speech input interface |
TW201612773A (en) * | 2014-05-30 | 2016-04-01 | Apple Inc | Multi-command single utterance input method |
EP3010015A1 (en) * | 2014-10-14 | 2016-04-20 | Samsung Electronics Co., Ltd. | Electronic device and method for spoken interaction thereof |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112289318A (zh) * | 2020-12-30 | 2021-01-29 | 成都启英泰伦科技有限公司 | 一种语音遥控方法及装置 |
CN113053392A (zh) * | 2021-03-26 | 2021-06-29 | 京东数字科技控股股份有限公司 | 语音识别方法、语音识别装置、电子设备及介质 |
CN113053392B (zh) * | 2021-03-26 | 2024-04-05 | 京东科技控股股份有限公司 | 语音识别方法、语音识别装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3312830A1 (en) | 2018-04-25 |
US20180113674A1 (en) | 2018-04-26 |
EP3312830B1 (en) | 2024-02-14 |
US10416956B2 (en) | 2019-09-17 |
KR20180043627A (ko) | 2018-04-30 |
EP3312830C0 (en) | 2024-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10379698B2 (en) | Image display device and method of operating the same | |
US10939065B2 (en) | Display apparatus and method for controlling display of display apparatus | |
CN105872683B (zh) | 图像显示设备和方法 | |
US11032532B2 (en) | Electronic device and method for providing virtual device via at least portion of content | |
US11435974B2 (en) | Display device, mobile device, screen mirroring method of display device, and screen mirroring method of mobile device | |
CN105700848B (zh) | 用于控制声音输出的装置和方法 | |
CN105229585A (zh) | 显示装置及其用户界面屏幕提供方法 | |
CN108370386A (zh) | 电子设备及操作其的方法 | |
KR20170049199A (ko) | 디스플레이 장치 및 디스플레이 장치의 화면 표시 제어 방법 | |
CN107343215A (zh) | 图像显示装置及其操作方法 | |
US10110843B2 (en) | Image display device and operating method of the same | |
EP3119096A1 (en) | Image display apparatus and method of operating the same | |
CN111699673B (zh) | 电子设备及其操作方法 | |
CN105739815A (zh) | 图像显示设备和图像显示方法 | |
US20150193613A1 (en) | Portable apparatus and method of connecting to external apparatus | |
CN107967915A (zh) | 显示装置及其控制方法 | |
KR20140089858A (ko) | 전자 장치 및 그의 제어 방법 | |
CN105867726B (zh) | 显示设备和方法 | |
US20210203878A1 (en) | Display device, mobile device, video calling method performed by the display device, and video calling method performed by the mobile device | |
US10755475B2 (en) | Display apparatus and method of displaying content including shadows based on light source position | |
US20170285767A1 (en) | Display device and display method | |
US20190058913A1 (en) | Display device and display method | |
CN114089852A (zh) | 一种显示设备、电子白板装置及白板擦除方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |