CN105590627B

CN105590627B - 图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质

Info

Publication number: CN105590627B
Application number: CN201510777886.5A
Authority: CN
Inventors: 卜璨式; 朴劲美; 权男暎
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-11-12
Filing date: 2015-11-12
Publication date: 2021-02-12
Anticipated expiration: 2035-11-12
Also published as: US10134387B2; KR20160056734A; KR102298457B1; EP3023982A1; CN105590627A; EP3023982B1; US20160133248A1

Abstract

提供了图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质。一种图像显示装置包括：语音获取器，被配置为获取用户创建的语音命令；语音识别执行器，被配置为获取文本信息，所述文本信息具有与对应于所获取的语音命令的基于文本的识别结果的表音符号相同或相似的表音符号，且以与所述基于文本的识别结果的形式不同的形式来表达；以及操作执行器，被配置为执行与所获取的文本信息相对应的操作。

Description

图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质

相关申请的交叉引用

本申请根据35U.S.C.§119(a)要求于2014年11月12日在韩国知识产权局递交的韩国专利申请No.10-2014-0157427的优先权，其公开在此通过参考引入本文。

技术领域

本公开涉及图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质，并更具体涉及可使语音识别结果的格式规格化以执行设备(例如电视或便携电话)的操作的图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质。

背景技术

人与设备之间的交互已经朝着便利和自然的方向演进。在人与设备之间的交互中，语音识别是人类能够使用的最直接和最容易的交互。已经在各种设备中使用了自然语音识别，原因在于它能够识别各种词汇和交互语句。然而，在使用自然语音识别引擎的情况下，输出种类繁多的词汇，并且有时可能通过以识别结果与在设备中实际执行的功能或内容的标题具有相同的发音和相同的语义但是具有不同的语音语言(例如英语而不是韩语)的方式来给出识别结果。这是因为，尽管已经适当地识别出了语音，但是设备将文本形式的语义与功能或内容的标题进行匹配。在这种情况下，不能执行功能。为了解决该问题，已经提出了使用互相关和平行语言资料库(corpus)的后处理技术。也就是说，涉及用于改进语音识别错误率和识别率的后处理的各种技术。

大多数这种技术涉及使用在其中将错误和正确答案彼此匹配的语言资料库数据库或从输入语音中提取特征并确定输入语音与所登记的词语之间的互相关性的系统来改善识别率和识别错误率的方法。这种技术能够提高用户创建的语句的精确度，或解决识别结果中的错误。然而，在使用自然语音识别引擎的情况下，由于各种词汇，可能以识别结果与实际操作的相同功能或相同内容具有相同名称和发音但是具有不同格式的方式来给出识别结果。在这种情况下，即使纠正了文本中的错误，也不能执行用户所希望的功能。

例如，标题为“Post-processing speech recognition method usingcorrelations”的韩国未审专利申请公开No.10-1998-0056234公开了一种语音识别系统的后处理方法。使用该技术，如果未在登记的命令集中找到通过麦克风的输入语音的结果，则通过特定样式与当前登记的词语的样式之间距离的比较来登记互相关性。因此，在稍后输入相同语音的情况下，因为已经通过互相关登记了相关语音，对该相同语音的识别成为可能。

此外，标题为“Method and apparatus for correcting errors of speechrecognition”的韩国未审专利申请公开No.10-2012-0141972公开了一种在语音识别系统中使用平行语言资料库的纠错技术。根据该技术，生成正确答案语言资料库和包括正确答案对和错误对的平行语言资料库来作为识别结果。如果给出了错误识别结果，则从结果中找出识别错误部分，并用平行语言资料库中匹配的正确答案对来替代该结果。

随着自然语音识别功能的发展，自然语音引擎(即使用从外部服务器提供的识别结果的语音识别)能够识别各种词汇和词语。然而，作为其不利反应，可能在设备中所使用的功能的格式不同于自然语音识别结果的格式的情形下给出识别结果。此外，由于连续地产生内容(例如广播、电影和音乐)，并且不仅在制作该内容的国家而且在国外通过例如Youtub*的途径也能够容易地获得这种内容，所以即便是相同内容有时也会用另一词语或语言来表示。因此，为了精确识别并执行具有相同发音和相同语义但具有不同语言(例如英语)的标题的内容，有必要提供对语音识别结果的格式进行规格化的过程，该过程将词语转换为实际执行的功能或内容的名称。

换言之，为了对相关技术中涉及的问题进行补漏，并提高用户打算执行的功能或内容的执行率，存在对于针对使用语音识别的设备(例如电视)的操作的语音识别结果的格式进行规格化的技术的需要。

发明内容

已经做出本公开，以解决至少以上问题和/或缺点，并提供至少以下优点。因此，本公开的一方面提供了一种能够使语音识别的结果规格化以执行设备(例如电视或便携电话)的操作的图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质。

根据本公开的一方面，一种图像显示装置，包括：语音获取器，被配置为获取用户创建的语音命令；语音识别执行器，被配置为获取文本信息，所述文本信息具有与对应于所获取的语音命令的基于文本的识别结果的表音符号相同或相似的表音符号，且以与所述基于文本的识别结果的形式不同的形式来表达；以及操作执行器，被配置为执行与所获取的文本信息相对应的操作。

该图像显示装置可以包括：语音获取器，被配置为获取用户创建的语音命令；语音识别执行器，被配置为尝试执行与作为所获取的语音命令的识别结果的语音命令相关的操作，并且如果作为尝试结果不能执行该操作，则获取具有与识别结果的表音符号相同或相似的表音符号的文本信息；以及操作执行器，被配置为基于所获取的文本信息来执行该操作。

图像显示装置还可以包括：存储器，所述存储器被配置为存储多个命令的命令集和所述命令的表音符号，所述语音识别执行器获取所述存储器中存储的所述多个命令中的命令作为所述文本信息。

图像显示装置还可以包括：显示器，被配置为显示内容，以及存储器，被配置为存储在所述显示器上显示的与内容相关的词语来作为命令，以及分别将所述表音符号与所存储的命令进行匹配并存储，其中所述语音识别执行器获取在所述存储器中非固定地存储的命令作为所述文本信息。

图像显示装置还可以包括：第一存储器，被配置为存储命令的命令集和所述命令的表音符号；以及第二存储器，被配置为存储在显示屏幕上显示的与内容相关的词语来作为命令，以及分别将所述表音符号与所存储的命令进行匹配并存储，其中如果在所述第一存储器和所述第二存储器至少一个中不存在与所述识别结果的表音符号相匹配的命令，则通过使用发音词典替代所述识别结果来获取所述文本信息。

图像显示装置还可以包括异常表音符号存储器，所述异常表音符号存储器被配置为存储具有相同发音但具有由于语言差异而不同地记录的表音符号的异常表音符号信息，其中所述语音识别执行器在参考所存储的异常表音符号信息的情况下获取所述文本信息。

如果所述语音命令是语句，则所述语音识别执行器可识别所述语句，分析识别结果，并基于分析结果和所述表音符号来获取所述文本信息。

所述语音识别执行器可以从作为识别结果生成的表音符号中移除空格和异常符号的至少一个，并且然后获取具有一致表音符号的文本信息。

语音识别执行器可以尝试执行与作为识别所获取的语音命令的结果的所述语音命令有关的操作，并且如果作为尝试结果不能执行该操作，则获取具有与所述识别结果的表音符号相同或相似的表音符号的文本信息。

根据本公开的另一方面，一种驱动图像显示装置的方法包括：获取用户创建的语音命令；获取文本信息，所述文本信息具有与对应于所获取的语音命令的基于文本的识别结果的表音符号相同或相似的表音符号，且以与所述基于文本的识别结果的形式不同的形式来表达；以及执行与所获取的文本信息相对应的操作。

驱动图像显示装置的方法还可以包括：存储多个命令的命令集和所述命令的表音符号，其中获取所述文本信息包括获取存储器中存储的所述多个命令中的命令作为所述文本信息。

驱动图像显示装置的方法还可以包括：在显示器上显示内容，以及存储在所述显示器上显示的与内容相关的词语来作为命令，以及分别将所述表音符号与所存储的命令进行匹配并存储，其中获取在存储器中非固定地存储的命令作为所述文本信。

驱动图像显示装置的方法还可以包括：在第一存储器中存储命令的命令集和所述命令的表音符号；在第二存储器中存储在显示屏幕上显示的与内容相关的词语来作为命令，以及分别将所述表音符号与所存储的命令进行匹配并存储，其中如果在所述第一存储器和所述第二存储器至少一个中不存在与所述识别结果的表音符号相匹配的命令，则获取所述文本信息包括通过使用发音词典替代所述识别结果来获取所述文本信息。

驱动图像显示装置的方法还可以包括：存储具有相同发音但具有由于语言差异而不同地记录的表音符号的异常表音符号信息，其中获取所述文本信息是在参考所存储的异常表音符号信息的情况下获取所述文本信息。

如果所述语音命令是语句，则获取所述文本信息可以包括识别所述语句，分析识别结果，并基于分析结果和所述表音符号来获取所述文本信息。

获取所述文本信息可以包括从作为识别结果生成的表音符号中移除空格和异常符号至少一个，并且然后获取具有一致表音符号的文本信息。

获取所述文本信息可以包括尝试执行与作为识别所获取的语音命令的结果的所述语音命令有关的操作，并且如果作为尝试结果不能执行所述操作，则获取具有与所述识别结果的表音符号相同或相似的表音符号的文本信息。

根据本公开的另一方面，计算机可读存储介质可以执行：获取用户创建的语音命令；获取文本信息，所述文本信息具有与对应于所获取的语音命令的基于文本的识别结果的表音符号相同或相似的表音符号，且以与所述基于文本的识别结果的形式不同的形式来表达；以及执行与所获取的文本信息相对应的操作。

获取文本信息可以包括获取与具有相同发音但具有由于语言差异而不同地记录的表音符号的所存储的异常表音符号信息有关的文本信息。

如果所述语音命令是语句，则获取所述文本信息可包括识别所述语句，分析识别结果，并基于分析结果和所述表音符号来获取所述文本信息。

获取文本信息可以包括从作为识别结果生成的表音符号中移除空格和特殊符号的至少一个，并且然后获取具有一致表音符号的文本信息。

根据本公开的另一方面，一种对装置进行控制的方法可以包括：获取用于控制装置的语音命令；尝试基于所获取的语音命令的识别结果来执行与所获取的语音命令有关的装置的操作；当尝试基于识别结果来执行装置的操作不成功时，使用基于硬件的处理器来生成识别结果的表音符号；从所存储的由多个表音符号组成的命令集中确定与所生成的表音符号最相似的表音符号，所述多个表音符号的每一个与相应的装置控制命令一起存储，以及使用与所确定的表音符号相对应的装置控制命令来执行对装置进行控制的操作。

根据本公开的另一方面，一种对装置进行控制的方法可以包括：接收用于对装置进行控制的语音命令；根据接收到的语音命令，使用基于硬件的处理器来用第一语言生成基于文本的识别结果；将所生成的第一语言中的基于文本的识别结果变换为第二语言中的文本信息，所述第二语言中的文本信息由与所生成的基于文本的识别结果相似的表音符号组成，并基于第二语言中变换后的文本信息来执行与接收到的输入语言命令相对应的装置操作。

附图说明

当结合附图时，根据以下详细说明，本公开的以上及其他方面、特征和优点将会更加显而易见，在附图中：

图1是示出根据本公开的实施例的语音识别系统的示意图；

图2是示出图1中所示的图像显示装置的一种配置的框图；

图3是示例性示出图1中所示的图像显示装置的另一配置的框图；

图4是示出驱动根据本公开的实施例的图像显示装置的过程的流程图；

图5是示出驱动图像显示装置的过程的流程图，该图像显示装置使用命令集中的表音符号来执行关于单词类型语音命令的操作；

图6是示出驱动图像显示装置的过程的流程图，该图像显示装置使用非固定命令集中的表音符号来执行关于单词类型语音命令的操作；

图7是示出驱动图像显示装置的过程的流程图，该图像显示装置执行关于命令集和非固定命令集中不存在的单词类型语音命令的操作；

图8是示出驱动图像显示装置的过程的流程图，该图像显示装置使用命令集中的表音符号来执行关于语句类型语音命令的操作；

图9是示出驱动图像显示装置的过程的流程图，该图像显示装置使用非固定命令集中的表音符号来执行关于语句类型语音命令的操作；

图10是示出驱动图像显示装置的过程的流程图，该图像显示装置执行关于命令集和非固定命令集中不存在的语句类型语音命令的操作。

具体实施方式

以下，将参照附图详细描述本公开的实施例。

图1是示出根据本公开的实施例的语音识别系统的示意图。

如图1中所示，根据本公开的实施例语音识别系统90包括图像显示装置100、通信网络110和语音识别设备120的一部分或全部。

这里，术语“包括一部分或全部”意味着在图像显示装置100和语音识别装置120彼此执行直接通信的情况下，可以省略组成要素的一部分(例如通信网络110)。为充分理解本公开，将在假设语音识别系统90包括全部上述组成要素的情况下做出解释。

图像显示装置100包括图像可显示设备，例如便携电话、笔记本计算机、台式计算机、平板PC、PDP、MP3或电视。这里，图像显示装置100可以是云终端之一。换言之，在用户执行图像显示装置100的特定功能或创建词语或语句类型语音命令以执行操作的情况下，图像显示装置100可以向语音识别设备120提供从语音命令获取的语音信号。此后，图像显示装置100从语音识别设备120接收识别结果，并基于接收到的识别结果来执行特定功能或操作。这里，特定功能或操作的执行意味着执行在屏幕上显示的应用或执行操作(例如频道切换或音量控制)。

例如，如果用户说出一个词语，则图像显示装置100可以执行用于执行特定应用的操作。例如，如果用户说出词语“Youtub*”，则可以执行相应应用。此外，在说出体育运动员的名字的情况下，可以执行例如当前游戏或搜索相应运动员的操作。为了执行关于用户说出的特定词语的功能或操作，可以事先执行用户或系统设计者的设置操作。

此外，在说出词语的情况下，实际可能执行内部固定语音引擎，而不依赖外部语音识别设备120。换言之，图像显示装置可以内部地创建识别结果，确定预存的命令集中是否存在所创建的识别结果，并且如果作为确定结果在预存的命令集中存在该识别结果，则执行用户所希望的操作(即与用户语音命令有关的操作)。然而，在其中连续产生内容(例如广播、电影或音乐)的当前情况下，这种操作可能是较为受限的。

因此，图像显示装置100可以使用内部固定语音引擎和外部资源(即语音识别设备120的自然语言引擎)来克服依赖固定语音引擎的限制。然而，在使用自然语音引擎的情况下，由于可识别命令、自然语音识别结果的类型或语言之间的差异，不能简单地用文本执行该功能。例如，尽管图像显示装置100被设置根据用韩语说出的命令“

*”来执行相应应用，但是不能关于具有相同发音和相同语义的“Youtub*”来操作。

更具体地，根据三种情况和用户语音类型或意图，可以应用6种场景。

第一种情况与定义命令集并且使用固定命令集的方法来执行特定功能的情况相对应，该特定功能使得在以下设备中仅识别命令集中包括的词语：即使使用自然语音引擎来执行语音识别，但是由于设备的性能或环境，该设备不能使用自然语音引擎。在设备既支持自然引擎又支持固定语音识别的情况下，可以根据设备的环境使用不同的引擎。如果在具有特定环境的设备中使用自然语音引擎和固定语音引擎二者，则从自然语音引擎接收到的结果可能在类型和语言上不同于固定语音引擎中的命令集中的词语(例如，自然语音识别结果是“Faceboo*”而固定语音命令集是“

*”的情况下)，则用文本来简单执行功能的功能执行器可能不执行合适的操作。

在语音识别执行器(即语音识别引擎)仅创建词语而不是交互语音以执行命令集中的功能的情况下，接收识别结果，但设备不能使用语音识别结果执行任何操作，图像显示装置100可以生成命令集中存在的词语和作为自然语言识别结果接收的词语的表音符号(phonetic symbol)。图像显示装置生成表音符号，在从表音符号中移除了空格和特殊符号之后比较生成的表音符号与命令集中存在的词语的表音符号，并且然后如果存在具有相同表音符号的词语，则向功能操作器发送相应的词语。在比较识别结果与命令集的表音符号时，可以使用存储类似的音素字母的异常表音符号数据库(或存储器)来处理由于语言差异所导致的异常项。

此外，根据根据本公开的实施例的图像显示装置100，尽管语音识别引擎已经接收到了打算执行命令集中存在的功能的交互语音识别结果，但是设备不能使用语音识别结果来执行任何操作，图像显示装置100从接收到的交互语句中提取宾语，并生成命令集中存在的词语和被确定为交互语句的宾语的词语的表音符号。图像显示装置100在生成表音符号之后移除表音符号中存在的空格和特殊符号，将所生成的表音符号与命令集中存在的词语的表音符号进行比较，并且如果存在具有相同表音符号的词语，则用交互语句的宾语来替代命令集中存在的相应词语，以将其向功能操作器发送。在比较识别结果的宾语与命令集的表音符号时，可以使用如上所述的异常表音符号DB来处理由语言差异引起的异常项。

当在设备上显示内容或功能时可能发生第二种情况。换言之，正显示的词语可能非固定地改变，并且在这种情况下，在非固定命令集中存储正显示的词语。然而，以与第一情况相同的方式，非固定命令集中存在的词语可能在形式和语言方面与自然语言识别结果不同，并且因此用文本来简单执行功能的功能执行器不能执行合适的操作。

为此，在用户仅说出词语(例如使用自然语音识别引擎在显示器上显示并在非固定命令集中存储的内容的标题)而不是交互语句的情况下，图像显示装置100生成命令集中存在的词语和作为自然语言识别结果接收的词语的表音符号。在生成表音符号之后，图像显示装置从表音符号中移除空格和特殊符号，并比较生成的表音符号与非固定命令集中存在的词语的表音符号，如果存在具有相同表音符号的词语，则图像显示装置100向功能操作器发送非固定命令集中存在的相应词语，以执行操作。在比较识别结果与命令集的表音符号时，可以使用存储类似的音素字母的异常表音符号数据库来处理由于语言差异导致异常项。

此外，尽管语音识别引擎已经接收到了用于对在设备上显示的内容或功能进行操作的交互语音识别结果，但是设备不能使用语音识别结果来执行任何操作，图像显示装置100从接收到的交互语句中提取宾语，并生成命令集中存在的词语和被确定为交互语句的宾语的词语的表音符号。在生成表音符号之后，图像显示装置100移除表音符号中存在的空格和特殊符号，并将所生成的表音符号与命令集中存在的词语的表音符号进行比较。如果存在具有相同表音符号的词语，则图像显示装置100用交互语句的宾语来替代命令集中存在的相应词语，以将其向功能操作器发送。在比较识别结果的宾语与非固定命令集的表音符号时，可以使用异常表音符号DB来处理由语言差异引起的异常项。

在说出不被显示并且甚至在命令集中也不包括的词语时，可能发生第三情况。这种情况通常在产生用于搜索内容的语音时发生，并且以与第一种情况相同的方式，要搜索的内容的实际名称或标题或要操作的功能在形式和语言上不同于自然语音识别结果，并且因此用文本来简单执行功能的功能执行器不能执行合适的操作。

为此，尽管用户仅说出了不在设备上显示并且甚至在非固定命令集中也不存在的词语而不是交互语音，但是图像显示装置100可能没有搜索报告或者可能不能操作。在这种情况下，由于不存在作为比较对象的命令集，在使用发音词典改变识别结果的语言或形式的状况下，图像显示装置100向功能操作器发送识别结果。这导致母语中的结果被外语(一般地，英语)中的结果替代，并且外语中的结果被母语中的结果替代。例如，如果自然语音结果是“Iron ma*”，并且内容名称是“

*”，则除非搜索“

*”，分析“Iron ma*”的表音符号并用“

*”来替代。在这种情况下，如果自动生成表音符号，即使不同语言具有相同的发音，由于不同语言的特性而在表音符号之间可能存在差异。在这种情况下，使用其中存储了词语的表音符号的词语表音符号词典DB(或存储器)来处理识别结果。

此外，存在以下时刻的场景：用交互语句说出由于不在设备上显示而在命令集或非固定命令集中不存在的词语，但不存在搜索结果或不能操作图像显示装置。在这种情况下，由于不存在作为比较对象的命令集，图像显示装置从识别结果中提取宾语，并在使用提取出的宾语的发音词典来改变识别结果的语言或形式的状况下，向功能操作器发送识别结果。这导致母语中的结果被外语中的结果替代，并且外语中的结果被母语中的结果替代。在这种情况下，如果自动生成表音符号，即使不同语言具有相同的发音，由于不同语言的特性而在表音符号之间可能存在差异。在这种情况下，可以使用其中存储了词语的表音符号的词语表音符号词典DB来处理识别结果。

如上所述，根据本公开的实施例的图像显示装置100可以通过语音信息的表音符号的比较来提高语音识别的执行率，例如，文本(在这种情况下，语音信息与文本信息相对应)。代表性地，“

*”和

的表音符号被例示如下：

[示例1]

*-ju.t{u.bu-

Youtub*-ja.u.t{u.bu-

[示例2]

*-p{e.i.s`u-_puk

Face boo*-p{e.i.s`u-_puk

如上所述的表音符号被用于嵌入式语音识别，并且使用音素字母来生成要识别的文本的发音。由于它们是基于发音生成的，即使处于不同的语言下，在具有相同发音的情况下，表音符号几乎彼此一致。

然而，由于处于不同的语言下，它们的表音符号不总是彼此一致。也就是说，在韩语的音素字母中，由于韩语与外语(例如英语)之间的差异，关于要识别的文本可以产生几乎类似的发音。例如可以产生韩语中的“p”和外语(例如英语)中的“p`”。在这种情况下，为将“p”和“p`”作为相同字母处理，使用其中将“p”和“p`”存储为类似音素字母的异常表音符号数据库。此外，异常表音符号数据库被用于将母语中的文本改变为外语中的文本，并且反之亦然。由于母语与英语之间的差异，在表音符号中可能存在错误。例如，“Face boo*”和“

*”具有一致的表音符号，但是在“Iron ma*”和“

*”的表音符号之间存在些许差异。在关于这种特定词语生成不同的表音符号的异常情况下，通过词语来存储异常表音符号的词语表音符号数据库被用于将不同地生成的表音符号彼此正确地匹配。

通信网络110包括有线和无线通信网络二者。这里，有线网络可以包括互联网，例如电缆网络或PSTN(公共交换电话网)，并且无线通信网络可包括CDMA、WCDMA、GSM、EPC(演进分组核心)、LTE(长期演进)和Wibro。然而，根据本公开的实施例的通信网络110并不限于此，而是可以(例如)在云计算环境下的云计算网络中用作未来要实现的下一代移动通信系统的连接网络。例如，如果通信网络110是有线通信网络，则通信网络110中的接入点可以与电话局的交换连接，然而在无线通信网络的情况下，接入点可以与通过通信公司运营的SGSN或GGSN(网关GPRS支持节点)连接以处理数据，或可以与各种中继器(例如BTS(基站收发器)、节点B和演进的节点B)连接以处理数据。

通信网络110可以包括接入点。所述接入点包括：主要在建筑物中安装的小型基站(诸如飞(femto)基站或皮(pico)基站)。这里，可以根据小型基站的分类，根据最多多少图像显示设备100能够与其连接来对飞基站或皮基站进行分类。接入点包括用于执行与图像显示装置100的近场通信(例如ZigBee等或Wi-Fi)的近场通信模块。接入点可以使用TCP/IP或RTSP(实时流传输协议)来执行无线通信。这里，除Wi-Fi以外，近场通信可以是使用以下各种标准来执行：例如RF(射频)和UWB(超宽带)通信，例如蓝牙、ZigBee、红外线(IrDA)以及UHF(超高频)和VHF(甚高频)。因此，接入点可以提取数据分组的位置，指定针对提取位置的最佳通信路径，并(例如图像显示装置100沿指定通信路径)向下一设备传送数据分组。接入点可以共享通用网络环境中的若干线路，并可以包括例如，路由器、转发器和中继器。

语音识别设备120可以作为一类云服务器操作，并可以被称为外部设备或识别结果提供设备。语音识别设备120可以包括自然语音引擎，并识别通过自然语言引擎的执行来识别从图像显示装置100提供的语音信号，以用文本的形式来向图像显示装置100提供识别结果。这里，与图像显示装置100的固定语音引擎相比，自然语音引擎是高性能引擎，并可以提供更精确的识别结果。

当然，根据本公开的实施例的语音识别设备120不限于云服务器。例如，在省略了通信网络110并且图像显示设备100执行与语音识别设备120的直接通信的情况下，语音识别设备120可以是外部设备(即接入点或外围设备(例如台式计算机))。换言之，只要能够提供对图像显示设备100提供的语音信号的识别结果，可以使用任意类型的设备。考虑这一点，语音识别设备120可以是识别结果提供设备。

根据本公开的实施例，与相关技术相比，可以在控制装置或执行操作方面更精确地反映用户的意图。此外，在本公开的实施例中，尽管通过分析语音识别结果导出了正确的结果，但是使用了文本的语义，并因此不同于发生文本的不一致性的相关技术，通过对简单文本而不是其语义的匹配来处理语音识别结果，以提高设备的执行率。

图2是示出图1中所示的图像显示装置的一种配置的框图。

参照图2和图1，根据本公开的实施例图像显示装置100包括语音获取器200、语音识别执行器210和操作执行器220。

语音获取器200可以包括麦克风。语音获取器200可以获取用户通过麦克风创建的语音，并可以向语音识别执行器210提供所获取的语音。也就是说，语音获取器200生成并提供所获取的语音的语音信号。

语音识别执行器210基于所获取的语音的识别结果来对操作执行器220进行操作。如果操作执行器220不以相应的识别结果操作，则语音识别执行器210可以生成识别结果的表音符号，并基于所生成的表音符号来获取语音信息以对操作执行器220进行操作。为生成识别结果，语音执行器210可以直接执行语音识别操作(也就是说没有来自外部设备的辅助)。备选地，语音识别执行器210可以向外部设备(例如图1的语音识别设备120)发送所获取的语音信号，接收针对所发送的语音信号的识别结果，并基于接收到的识别结果对操作执行器220进行操作。

如果操作执行器220不基于相应识别结果操作，则语音识别执行器210可以生成相应识别结果的表音符号，并获取与所生成的表音符号一致的语音信息。例如，操作执行器220从预存的命令集中搜索具有一致表音符号的语音信息，并基于此来用相应语音信息对操作执行器220进行操作。尽管已经充分描述了与这一点有关的内容，以下将更详细地对它们进行描述。

尽管附图中未示出，语音识别执行器210还可以包括用于与例如外部语音识别设备120进行操作的组成要素。例如，语音识别执行器210可以包括通信接口和控制器，通信接口被配置为接收对发送的语音信号的识别结果，并且控制器被配置为使用从通信接口接收到的识别结果来对操作执行器220进行操作。

此外，语音识别执行器210可以包括被配置为执行其原始功能的图像处理器。换言之，语音识别执行器210可以执行各种操作，例如接收并分离从外部广播设备接收到的视频/语音信号，对分离后的视频和音频信号进行解码，并对解码后的信号进行缩放。为此，语音识别执行器210可以包括调谐器、信号分离器、解码器和缩放器(scaler)。

操作执行器220包括各种功能块，例如被配置为根据语音识别执行器210的请求或控制来执行特定应用的应用执行器、被配置为基于语音命令来切换频道的频道开关(更具体地，调谐器)，以及被配置对音量进行控制的音量控制器。操作执行器220还可以包括被配置为对亮度进行控制的亮度控制器。此外，操作执行器220可以是根据来自语音识别执行器210的请求来对某些操作进行控制的控制器。

图3是示例性示出图1中所示的图像显示装置的另一种配置的框图。

图3中所示的图像显示装置100’包括通信接口300、语音获取器310、存储器320、控制器330、显示器340、语音识别执行器350和异常表音符号存储器360的一部分或全部，并且还可以包括发音词典执行器。

这里，术语“包括一部分或全部”意味着省略了组成要素的一部分(例如异常表音符号存储器360)，并将异常表音符号存储器360整合到另一组成要素(例如存储器320)中，或者将语音识别执行器350集成到控制器330中。为充分理解本公开，将在假设图像显示装置100’包括全部组成要素的情况下做出了解释。

即使除了与图像处理有关且与语音识别相关联的部分，通信接口300还在控制器330的控制下向图1的语音识别设备120发送通过语音获取器310获取的语音信号。此外，通信接口300可以接收从语音识别设备120提供的识别结果，并向控制器330发送接收到的识别结果。

语音获取器310可以是接收语音的语音接收机，并且可以包括用于获取语音的麦克风。语音获取器310获取用户说出的词语或句子形式的命令。在控制器330的控制器下，可以向通信接口300发送针对所获取的语音的语音信号。通过该过程，语音获取器310可以针对所获取的语音生成语音信号。

存储器320可以存储在图像显示装置100’中处理的多条信息。首先，为了执行根据本公开的实施例的语音识别操作，存储器320可以存储各种语音命令的语音信息和与该语音信息相匹配的表音符号。可以用查找表的形式来存储这些语音信息和表音符号。换言之，存储器320可以形成命令的命令集以作为语音信息，并将表音符号与命令集匹配以存储表音符号。即使没有匹配地存储表音符号，根据本公开的实施例，在没有限制的情况下，可以通过语音识别执行器350中的发音算法的执行或分离的发音词典执行器的操作来使用发音词典直接生成表音符号。

尽管可以预先存储在存储器320中存储的命令集和相匹配的表音符号，也可以周期性地接收并存储通过语音识别执行器350生成并提供的命令和所匹配的表音符号。例如，在显示器340上显示某些内容的情况下，语音识别执行器350生成与在屏幕上显示的内容有关的作为命令的词语和所生成的命令的表音符号，并且存储器320可以在其中存储相应信息。

控制器330控制通信接口300、语音获取器310、存储器320、显示器340、语音识别执行器350和异常表音符号存储器360的整个操作。例如，控制器330可以向通信接口300传送从语音获取器310获取的语音信号，并向语音识别执行器350提供通过通信接口300接收到的对语音信号的识别结果。此外，控制器330可以向语音识别执行器350提供与显示器340上显示的内容有关的信息。通过该过程，控制器330可以在存储器320中存储命令和针对通过语音识别执行器350生成的命令的表音符号。控制器可以被实现为微处理器、计算机处理器或任意其他基于硬件的处理器，并且控制器可以是分布式的或包括在例如图像显示装置100的单个设备内。

显示器340可以是图2中所示的操作执行器220之一。例如，如果用户命令“提高分辨率”，则控制器330可以根据语音识别执行器350的操作基于表音符号在显示器340上示出在其上对分辨率进行调整的屏幕，表音符号例如基于在存储器320中存储的命令集。此外，显示器340可以示出各种类型的内容。可以在控制器330的控制下向显示器340提供根据用户的预定操作在显示器340上显示的内容相关信息。

在语音识别执行器350不能与图1中所示的外部语音识别设备120相关联地操作的情况下，可以通过操作内部引擎来生成识别结果。例如，语音识别执行器350可以例如用文本的形式来生成识别结果。可以确定如上所述生成的识别结果是否在存储器320的命令集中。如果作为确定结果在命令集中不存在识别结果，则语音识别执行器340可以通过使用内部发音词典算法或单独的发音词典DB(或存储器或发音词典执行器)来改变其语言的类型。根据如上所述改变后的语音信息，控制器330可以控制显示器340来操作或执行特定操作。

如果可以与外部语音识别设备120相关联地操作，则语音识别执行器350尝试基于从外部提供的识别结果执行与命令有关的操作，并且如果不可能执行相应操作，则可以执行各种操作(例如生成针对该识别结果的表音符号)。此外，语音识别执行器350可以向控制器330提供所生成的表音符号，并使控制器330能够基于所生成的表音符号来搜索具有与来自存储器320中存储的命令集的一致表音符号的语音信息，并执行与说出的命令相关的操作。此外，关于由于表音符号之间的语言差异所生成的异常表音符号，可以参照从异常表音符号存储器360提供的表音符号信息。

异常表音符号存储器360匹配并存储具有相同发音但是由于语言问题不同地记录的表音符号。如果作为基于通过语音识别执行器350生成的表音符号来搜索存储器320中存储的语音信息的结果，搜索具有部分不同表音符号的语音信息，则附加确定该相应的部分表音符号是否与异常表音符号存储器360中存储的信息一致，以最终搜索语音信息。因此，在本公开的实施例中，即使表音符号没有精确地彼此一致，搜索范围也可以扩展为类似范围。

基于上述内容，可以对根据本公开的实施例的图像显示装置100’进行各种修改，而不做限制。如上所述，可以将语音识别执行器350整合到控制器330中来用算法的形式操作，并且此外，甚至存储器320和异常表音符号存储器360也可以进一步包括在控制器330中以用算法实现。尽管更希望即使发音词典执行器也被实现为在语音识别执行器350中提供的算法的一部分，发音词典执行器也可以被实现为集成到控制器330中。

此外，控制器330可以包括如上所述的调谐器、信号分离器、解码器和缩放器，以便执行除语音识别操作以外的通用信号处理。由于该特征与本公开的主题无关，将省去对其的解释。

图4是示出驱动根据本公开的实施例的图像显示装置的过程的流程图。以下，将例示语音信息是文本信息。

为便于解释，参照图4和图1，根据本公开的实施例的图像显示装置100获取用户创建的语音命令(S400)。在实施例中，优选地语音命令是词语的形式。

然后，图像显示装置100获取与所获取的语音命令相对应的基于文本的识别结果和文本信息，该文本信息具有与基于文本的识别结果的表音符号相同或相似的表音符号并以与基于文本的识别结果的形式不同的形式来表达(S410)。

例如，更具体地，图像显示装置100通过尝试执行与作为所获取的语音命令的识别结果的语音命令相关的操作，来确定是否可以执行操作。在本公开的实施例中，在尝试基于语义而不是文本表达(或描述)本身来执行操作的情况下，图像显示装置100可能不能执行操作。例如，“

*”和“Face boo*”具有相同语义，但是具有不同的文本表达。因此，由于在命令集中设置了“

*”以执行操作，则在提供“Face boo*”作为识别结果的情况下，图像显示装置100不能执行所希望的操作。

图像显示装置100获取具有与识别结果的表音符号相同或相似的表音符号的文本信息，但在一个实施例中，该表音符号采用不同语言。为此，图像显示装置100可以生成被存储以与表音符号匹配的命令集的命令的表音符号，将表音符号彼此进行比较，并根据比较的结果获取一个命令作为语音信息。换言之，通过对命令集中的表音符号的比较，图像显示装置100确定“

*”替代“Face boo*”作为识别结果。

然后，图像显示装置100可以基于所获取的文本信息来执行与语音命令有关的操作(S420)。

当然，图像显示装置100可以搜索命令集，以找到与识别结果的表音符号匹配的文本信息。然而，不存在可搜索的命令集，图像显示装置100可以通过使用发音词典来改变语言或形式来用文本替代识别结果，并然后尝试用替代后的文本来执行所希望的操作。

在该过程中，由于语言差异，可能在识别结果的表音符号和与命令集的命令相匹配的表音符号之间异常地发生表音符号的不一致，并且因此图像显示装置100可以进一步参照异常表音符号来查找文本信息。

此外，图像显示装置100可以获取作为语句而不是词语来创建的语音命令。在这种情况下，图像显示装置100可以分析语音命令的识别结果，并确定相应命令的指令作为分析结果。例如，如果获取了命令“提高音量”，则图像显示装置100可以通过对识别结果的分析来获取“音量”作为宾语并获取“提高”作为动词。基于此，图像显示装置100可以尝试执行操作，并且如果不能执行操作，则可以尝试通过基于针对宾语“音量”的表音符号查找文本信息来重新尝试执行操作。

此外，由于还可以使用表音符号本身作为文本信息的语音信息而不做限制，本公开的实施例不特定地限于上述内容。

参照图5至10，将描述其中词语或语句被创建作为语音命令的各种情况。

图5是示出驱动使用命令集中的表音符号来执行关于单词类型语音命令的操作的图像显示装置的过程的流程图。

为便于解释，参照图5和图1，根据本公开的实施例的图像显示装置100获取用户创建的单词形式的语音命令(S500)。

然后，图像显示装置100尝试基于获取的语音命令的识别结果来执行与语音命令有关的操作(S510)。这里，优选地使用在外部语音识别设备120中提供的自然语音引擎来提供识别结果。

如果作为用基于例如自然语音引擎的识别结果来尝试执行操作的结果，操作执行不可能，则图像显示装置100生成识别结果的表音符号(S520)。

然后，图像显示装置100比较生成的表音符号与针对图像显示装置100中预先存储的语音命令的命令集的表音符号(S530)。作为比较结果，图像显示装置100可以使用与相应表音符号一致的表音符号的命令作为语音信息。

如果不存在针对预存命令的表音符号，则图像显示装置100将能够一起生成针对命令集中的命令的表音符号(S520)。

此外，在有一部分与异常表音符号相对应的情况下，图像显示设备100可以参照在相同存储器或不同存储器中存储的异常表音符号，来搜索精确的语音信息。

然后，通过重新尝试用具有一致表音符号的语音信息来执行操作(S540)，图像显示装置100可以执行所希望的操作。

图6是示出驱动图像显示装置的过程的流程图，该图像显示装置使用非固定命令集中的表音符号来执行关于单词类型语音命令的操作。

为便于解释，参照图6和图1，根据本公开的实施例的图像显示装置100生成与在图3的显示器340上显示的内容有关的词语来作为命令集，并存储所生成的命令(S600)。例如，可以非固定地改变显示器340上显示的词语，并且在本公开的实施例中，可以非固定地生成并存储针对这些词语的命令集。为此，图像显示装置100可以单独执行上述操作，或可以结合外部语音识别设备120来执行上述操作。

然后，图像显示装置100获取用户创建的语音命令(S610)。

然后，图像显示装置100基于所获取的语音命令的识别结果来执行与语音命令有关的操作(S620)。这里，识别结果与使用例如外部地与图像显示装置100相关联的语音识别设备120的自然语音引擎提供的结果相对应。

此外，如果操作执行不可能，则图像显示装置100生成识别结果的表音符号(S630)。为此，可以使用发音词典算法。

然后，图像显示装置100比较所生成的表音符号与非固定地改变的语音命令的命令集的表音符号(S640)。

此后，图像显示装置100使用具有与语音信息一致的表音符号的相应命令来执行操作(S650)。

图7是示出驱动图像显示装置的过程的流程图，该图像显示装置执行关于命令集和非固定命令集中不存在的单词类型语音命令的操作。

为便于解释，参照图7和图1，根据本公开的实施例的图像显示装置100获取用户创建的语音命令(S700)。

然后，作为针对所获取的语音命令的识别结果，图像显示装置100尝试执行与语音命令有关的操作(S710)。

然后，如果作为尝试的结果，操作执行不可能，则图像显示装置100生成识别结果的表音符号(S720)。

然后，图像显示装置100将生成的表音符号与图5的命令集和图6的非固定命令集至少一个进行比较，并且如果确定不存在与相应表音符号一致的语音信息，则可以使用发音词典来替代语音信息(S730)。换言之，可以将语音信息改变为具有一致的表音符号和相同语义但是具有不同形式和语言的文本。

此后，图像显示装置100用替代后的语音信息来执行操作(S740)。

图8是示出驱动图像显示装置的过程的流程图，该图像显示装置使用命令集中的表音符号来执行关于语句类型语音命令的操作。

比较图8与图5，如果用户用语句说出命令，根据本公开的实施例的图像显示装置100还可以要求用于分析命令的过程(S810和S820)。换言之，如果如图5所示说出了词语，则图像显示装置100可以预先确定要执行的操作，然而，在图8的情况下，由于用户已经提到了详细操作，图像显示装置100应当意识到这一点。例如，如果用户说出“

*

”，则宾语“

*”成为要控制的对象(即目标)，并且动词

变成了详细操作。

然而，在如上所述的宾语“

*”的情况下，例如如果使用自然语言引擎，这可能与图像显示装置100的命令不同，并且因此有必要使用表音符号找到精确的命令。

除这一点以外，图8中的S800至S850与图5中的S500至S540区别不大，并因此可以用其内容替代。

图9是示出驱动图像显示装置的过程的流程图，该图像显示装置使用非固定命令集中的表音符号来执行关于语句类型语音命令的操作。

比较图9与图6，根据本公开的实施例的图像显示装置100与图6的图像显示装置100不同之处在于用户说的是语句，但是与图6的图像显示装置100相同之处在于使用非固定命令集中的表音符号。因此，在说语句的情况下，还可能需要对识别结果的分析过程(S920)。

除这一点以外，S900至S950与图6中的S600至S650区别不大，并因此可以用其内容替代。

比较图10与图7，如果被作为语句说出的词语在命令集和非固定命令集中至少一个中不存在，则使用针对识别结果的表音符号和发音词典，来用新语音信息(即文本)替代识别结果。

除这一点以外，S1000至S1050与图7中的S700至S740区别不大，并因此可以用其内容替代。

至此，参照图1至10，已经描述了通过根据本公开的实施例图像显示装置100执行的语音识别结果的格式规格化。这里格式规格化指的是做出用于处理语音识别结果的预定规则。

然而，图像显示装置100可以根据所创建的语音命令是词语还是语句来执行不同的操作。此外，图像显示装置100可以根据使用图像显示装置100中的固定的语音引擎、自然语音引擎还是使用这两种引擎而执行不同操作。此外，如果作为尝试执行与作为识别结果的语音命令有关的操作的结果，操作执行不可能，则图像显示装置100可以根据使用预设固定命令集、非固定命令集或发音词典而执行不同的操作。如上所述，根据本公开的实施例，可以针对各种情况作出设置，或者可以通过单独的过程来根据确定结果执行相应操作。因为能够通过上述内容充分分析这一点，将省去进一步的解释。

另一方面，尽管解释了用组合将构成本公开的实施例的组所有组成要素组合到一个或操作中，但本年公开不限于这种实施例。也就是说，在本公开的目的范围内，可以选择性地组合或操作所有组成要素的一个或更多个。

此外，尽管通过独立的硬件来实现所有组成要素，但是可以选择性地对组成要素的一部分或全部进行组合，并可以被实现为一种具有执行在一个或多个硬件配置中组合的功能的部分或全部的程序模块的计算机程序。本公开所属的本领域技术人员可以容易地引入构建计算机程序的代码和代码段。可以在非瞬时计算机可读记录介质中存储这种计算机程序，并且然后可以由计算机读取并执行以实现本公开的实施例。

这里，非瞬时性计算机可读介质不是短时间存储数据的介质(例如寄存器、高速缓存或存储器)，而是指一种半永久地存储介质并可以通过设备读取的介质。具体地，可以在非瞬时性计算机可读介质(例如CD、DVD、硬盘、蓝光盘、USB存储卡和ROM)中存储和提供上述各种应用和程序。

尽管已经参照本公开的各实施例描述了公开，本领域技术人员将理解可以不离开如由所附的权利要求所定义的本公开的精神和范围，可以在本公开中做出形式和细节的各种改变。

Claims

1.一种图像显示装置，包括：

麦克风；以及

处理器，被配置为：

响应于通过所述麦克风获得用户的语音，通过使用基于文本的语音识别来获得与所述用户的语音相对应的第一文本信息；

基于所述第一文本信息控制所述图像显示装置；

响应于基于所述第一文本信息没能控制所述图像显示装置，提供与所述第一文本信息相对应的表音符号；

获得包括与所述第一文本信息的所述表音符号相同或相似的表音符号在内的第二文本信息，所述第二文本信息与所述第一文本信息不同；以及

基于所述第二文本信息控制所述图像显示装置。

2.根据权利要求1所述的图像显示装置，还包括：存储器，所述存储器被配置为存储多个命令的命令集和所述命令的表音符号，

其中，所述处理器被布置为获得所述存储器中存储的所述多个命令中的命令作为所述第二文本信息。

3.根据权利要求1所述的图像显示装置，还包括：

显示器，被配置为显示内容，以及

存储器，被配置为：存储在所述显示器上显示的与内容相关的词语来作为命令，以及分别将所述表音符号与所存储的命令进行匹配并存储，

其中，所述处理器被布置为获得在所述存储器中非固定地存储的命令作为所述第二文本信息。

4.根据权利要求1所述的图像显示装置，还包括：

第一存储器，被配置为存储命令的命令集和所述命令的表音符号；以及

第二存储器，被配置为存储在显示屏幕上显示的与内容相关的词语来作为命令，以及分别将所述表音符号与所存储的命令进行匹配并存储，

其中，如果在所述第一存储器和所述第二存储器的至少一个中不存在与所述第一文本信息的所述表音符号相匹配的命令，则通过使用发音词典替代所述第一文本信息来获得所述第二文本信息。

5.根据权利要求1所述的图像显示装置，还包括异常表音符号存储器，所述异常表音符号存储器被配置为存储具有相同发音但具有由于语言差异而不同地记录的表音符号的异常表音符号信息，

其中，所述处理器被布置为在参考所存储的异常表音符号信息的情况下获得所述第二文本信息。

6.根据权利要求1所述的图像显示装置，其中，如果所述用户的语音是语句，则所述处理器被布置为识别所述语句作为所述第一文本信息，分析识别结果，并基于分析结果和所述第一文本信息的所述表音符号来获得所述第二文本信息。

7.根据权利要求1所述的图像显示装置，其中，所述处理器被布置为从所述第一文本信息的所述表音符号中移除空格和特殊符号中的至少一个，并且然后获得具有一致表音符号的所述第二文本信息。

8.根据权利要求1所述的图像显示装置，其中，所述处理器被布置为尝试执行与作为识别所获得的用户的语音的结果的所述第一文本信息有关的操作，并且如果作为尝试结果不能执行所述操作，则获得所述第二文本信息。

9.一种驱动图像显示装置的方法，包括：

获得用户的语音；

通过使用基于文本的语音识别来获得与所述用户的语音相对应的第一文本信息；

基于所述第一文本信息控制所述图像显示装置；

基于所述第二文本信息控制所述图像显示装置。

10.根据权利要求9所述的方法，还包括：存储多个命令的命令集和所述命令的表音符号，

其中，获得所述第二文本信息包括：获得存储器中存储的所述多个命令中的命令作为所述第二文本信息。

11.根据权利要求9所述的方法，还包括：

在显示器上显示内容，以及

存储在所述显示器上显示的与内容相关的词语来作为命令，以及分别将所述表音符号与所存储的命令进行匹配并存储，

其中，获得在存储器中非固定地存储的命令作为所述第二文本信息。

12.根据权利要求9所述的方法，还包括：

在第一存储器中存储命令的命令集和所述命令的表音符号；

在第二存储器中存储在显示屏幕上显示的与内容相关的词语来作为命令，以及分别将所述表音符号与所存储的命令进行匹配并存储，

其中，如果在所述第一存储器和所述第二存储器的至少一个中不存在与所述识别结果的表音符号相匹配的命令，则获得所述第二文本信息包括：通过使用发音词典替代所述第一文本信息来获得所述第二文本信息。

13.根据权利要求9所述的方法，还包括，存储具有相同发音但具有由于语言差异而不同地记录的表音符号的异常表音符号信息，

其中，获得所述第二文本信息是在参考所存储的异常表音符号信息的情况下获得所述第二文本信息。

14.根据权利要求9所述的方法，其中，如果所述用户的语音是语句，则获得所述第一文本信息包括：识别所述语句作为所述第一文本信息，并且获得所述第二文本信息包括：分析识别结果，并基于分析结果和所述第一文本信息的所述表音符号来获得所述第二文本信息。

15.根据权利要9所述的方法，其中，获得所述第二文本信息包括：从所述第一文本信息的所述表音符号中移除空格和异常符号中的至少一个，并且然后获得具有一致表音符号的所述第二文本信息。