CN111344664B

CN111344664B - 电子设备及其控制方法

Info

Publication number: CN111344664B
Application number: CN201880073896.2A
Authority: CN
Inventors: 权哉成
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-11-24
Filing date: 2018-11-23
Publication date: 2024-02-13
Anticipated expiration: 2038-11-23
Also published as: CN111344664A; KR20190060157A; US20200243084A1; US11455990B2; KR20220143622A; KR102455067B1; US20220375473A1; WO2019103518A1; CN117975962A

Abstract

公开了一种电子设备。所述电子设备包括：语音输入单元；存储单元，用于存储根据第一记录格式的第一文本和通过以第二记录格式记录第一文本而获得的至少一个第二文本；以及处理器，用于当从通过所述语音输入单元输入的用户语音转换得到的语音文本对应于预设指令时，执行根据该预设指令的功能。当预设指令包括第一文本，并且语音文本是预设指令的第一文本被记录为第二记录格式的第二文本后的文本时，处理器执行根据预设指令的功能。

Description

电子设备及其控制方法

技术领域

本公开涉及一种电子设备及其控制方法。更具体地，本公开涉及可以通过语音识别来控制的电子设备及其控制方法。

背景技术

随着技术的发展，由于在诸如智能电话和智能电视(TV)之类的显示设备中实现了用户语音识别，因此用户可以通过发出的语音来控制显示设备的操作或接收各种内容服务而无需额外的操作。

基于云的语音识别服务通常会基于自然语言理解(NLU)模块中的语音识别结果来确定功能操作的执行。当用户向电子设备输入语音指令时，语音识别服务器从电子设备接收语音指令并执行语音识别。语音识别服务器将语音识别结果发送到NLU模块(并可以另外将语音识别结果发送到电子设备以在电子设备中快速执行预先注册的指令)，并且NLU模块可以分析语音识别结果以导出适当的功能执行方法，并将结果发送到电子设备。

然而，如果是难以处理NLU处理的情况，或者如果需要缩短响应时间，则可以仅通过NLU处理之前的语音识别结果来执行功能。例如，诸如电视之类的显示设备将语音识别结果与指令的文字进行比较，以便基于基本功能(“音量增大”，“频道增大”)的预注册指令和语音触摸(通过将显示在显示画面上的选择项的文本注册为指令，通过语音执行功能的技术)执行指令，并执行完全匹配的指令的功能。

但是，在该现有技术中，通过对指令和语音识别结果的文字进行比较来找到完全匹配的指令，并且如果指令记录中存在不匹配或指令的表示形式多样，则文字比较可能无法正确执行，因此，用户可能会对语音识别功能产生负面感觉。

发明内容

技术问题

本公开提供了一种能够根据各种记录方法来处理语音指令的电子设备及其控制方法。

技术方案

根据一个实施例的电子设备包括：语音输入器；存储装置，被配置为存储根据第一记录格式的第一文本和通过以第二记录格式记录所述第一文本而获得的至少一个第二文本；以及处理器，被配置为基于从通过所述语音输入器输入的用户语音转换得到的语音文本与预设指令对应，执行根据所述预设指令的功能，所述处理器被配置为基于所述预设指令包括所述第一文本，并且基于所述语音文本是所述预设指令的所述第一文本被记录为所述第二记录格式的第二文本后的文本，执行根据所述预设指令的功能。

所述语音文本可以被划分为预设文本单元，所述处理器被配置为：基于所述语音文本的文本单元中的至少一个包括所述第二文本，从所述存储装置中识别与所述第二文本中的每一个相对应的第一文本，并执行与基于所识别的所述第一文本和所述第二文本识别的指令相对应的功能。

处理器被配置为基于所述语音文本的文本单元和所识别的第一文本中的任何一个是否包括在所述预设指令中，计算所述预设指令与所述用户语音的第一相似度分数，并且基于计算出的所述第一相似度分数大于或等于预设阈值，执行根据所述预设指令的功能。

所述预设指令被划分为预设文本单元，所述处理器被配置为：基于所述预设指令的每个文本单元是否包括在所述语音文本的所述文本单元和所识别的第一文本中的任何一个中，进一步计算所述预设指令与所述用户语音的第二相似度分数，并基于计算出的所述第一相似度分数和所述第二相似度分数中的每一个大于或等于预设阈值，执行根据所述预设指令的功能。

该电子设备还可以包括显示器，并且所述预设指令可以显示在通过所述显示器提供的用户界面(UI)上。

处理器被配置为控制显示器以显示画面，所述画面是在其上执行根据所述预设指令的功能的画面。

电子设备还包括通信器，并且处理器被配置为控制所述通信器向与所述电子设备连接的显示设备发送提供画面的图像，所述画面是在其上执行根据所述预设指令的功能的画面。

语音输入器可以包括麦克风。

处理器被配置为控制所述通信器将通过所述语音输入器输入的所述用户语音发送给外部设备，并从所述外部设备接收根据语音识别从所述用户语音转换得到的语音文本。

第二文本是根据外来词记录格式、数字记录格式和符号记录形式中的至少一个与所述第一文本不同地记录的文本。

一种电子设备的控制方法，所述电子设备存储根据第一记录格式的第一文本和通过以第二记录格式记录所述第一文本而获得的至少一个第二文本，所述方法包括：接收用户语音；以及基于从输入的所述用户语音转换得到的语音文本与预设指令对应，执行根据所述预设指令的功能，所述执行可以包括：基于所述预没指令包括所述第一文本，并且基于所述语音文本是所述预设指令的所述第一文本被记录为所述第二记录格式的第二文本后的文本，执行根据所述预设指令的功能。

语音文本可以被划分为预设文本单元，并且执行可以包括：基于所述语音文本的文本单元中的至少一个包括所述第二文本，从存储装置中识别与所述第二文本中的每一个相对应的第一文本，并执行与基于所识别的所述第一文本和所述第二文本识别的指令相对应的功能。

执行可以包括基于所述语音文本的文本单元和所识别的第一文本中的任何一个是否包括在所述预设指令中，计算所述预设指令与所述用户语音的第一相似度分数；以及基于计算出的所述第一相似度分数大于或等于预设阈值，执行根据所述预设指令的功能。

预设指令可以被划分为预设文本单元，并且该方法可以包括：基于所述预设指令的每个文本单元是否包括在所述语音文本的所述文本单元和所识别的第一文本中的任何一个中，计算所述预设指令与所述用户语音的第二相似度分数，所述执行可以包括：基于计算出的所述第一相似度分数和所述第二相似度分数中的每一个大于或等于预设阈值，执行根据所述预设指令的功能。

该方法还可以包括：显示包括预设指令的用户界面(UI)；以及显示画面，所述画面是在其上执行根据所述预设指令的功能的画面。

该控制方法还可以包括：向与所述电子设备连接的显示设备发送提供画面的图像，所述画面是在其上执行根据所述预设指令的功能的画面。

该方法还可以包括：将通过语音输入器输入的所述用户语音发送给外部设备，并从所述外部设备接收根据语音识别从所述用户语音转换得到的语音文本。

预设文本单元可以包括词、数字或符号中的至少一个。

接收用户语音还包括从用于控制所述电子设备的遥控设备接收用户语音。

第二文本可以是根据外来词记录格式、数字记录格式和符号记录形式中的至少一个与第一文本不同地记录的文本。

发明效果

根据各种实施例，即使语音识别结果和指令记录之间不匹配，也可以执行根据用户意图的指令功能，从而提高用户的满意度和便利性。

附图说明

图1a至图1c是简要示出了根据各种实施例的电子设备的配置的框图；

图2是示出了根据实施例的电子设备的实现示例的图；

图3是示出了根据实施例的语音识别系统的图；

图4是示出了根据实施例的用于通过扩展文本执行功能的方法的框图；

图5是示出了根据实施例的扩展词列表的图；

图6是示出了其中显示根据实施例的指令的语音触摸画面的图；

图7是具体示出了根据另一个实施例的电子设备的配置的框图；以及

图8是示出了根据实施例的控制电子设备的方法的流程图。

具体实施方式

下面将参照附图更加详细地描述本公开。

在本公开和权利要求中使用的术语是考虑到本公开的各个示例实施例的功能而识别的一般术语。然而，这些术语可以根据相关领域的技术人员的意图、技术解释、新技术的出现等而变化。除非有术语的特定定义，否则可以基于整体内容和相关领域技术人员的技术理解来理解该术语。

所附附图中的每个附图中阐述的相同附图标记或数字示出了执行基本相同功能的组件或元件。为了便于描述和理解，在不同的实施例中将使用相同的附图标记或符号。换句话说，尽管在多个附图中示出了具有相同附图标记的所有元件，但是多个附图并不意味着暗示单个实施例。

另外，在本说明书和权利要求书中，术语“第一”，“第二”等可用于区分元件。这些序数用于将相似或类似的组件彼此区分开，并且该术语的含义不应解释为限制该术语的含义。在一个示例中，与这样的序数相关联的元素不应被解释为对该序数的顺序或使用顺序的限制。如果需要，每个序数可以互换使用。

除非另外规定，否则单数表述包括复数表述。应当理解，诸如“包括”或“由......组成”之类的术语在本文中用于表明存在特征、数量、步骤、操作、元件、组件或其组合，而不排除存在或添加一个或多个其它特征、数量、步骤、操作、元件、组件或其组合的可能性。

诸如“模块”、“单元”、“部件”等的术语可以用于指代执行至少一个功能或操作的元件，并且这种元件可以被实现为硬件或软件、或者硬件和软件的组合。此外，除了需要在单个硬件中实现多个“模块”、“单元”、“部件”等中的每一个的情况以外，这些组件可以集成在至少一个模块或芯片中并且可以在至少一个处理器(未示出)中实现。

在一个实施例中，当假定一个部分连接到另一个部分时，它还包括直接连接以及通过另一种介质的间接连接。另外，应理解，除非另外特别说明，否则一个部分包括任何元件的含义可以进一步包括其他组件而不是排除其他组件。

在下文中，将参考附图详细地描述本发明。

图1a至图1c是简要示出了根据各种实施例的电子设备的配置的框图。

根据图1a，根据实施例的电子设备100主要包括语音输入器110、存储装置120和处理器130。

电子设备100是用于识别用户发出的语音并执行用户期望的操作的设备，并且可以用各种电子设备来实现，例如图2中的(a)示出的智能电视(TV)、图2中的(b)示出的机顶盒、图2中的(c)示出的智能电话等。电子设备100可以用诸如平板PC、个人数字助理(PDA)、笔记本计算机等之类的各种电子设备来实现。

电子设备100的语音输入器110被配置为从用户接收语音。语音输入器110包括麦克风，并且可以收集与用户发出的语音相对应的语音。麦克风可以在处理器130的控制下从外部接收语音或声音并产生电语音信号。

语音输入器110可以通过经由有线网络或无线网络执行通信来从用户接收语音信号。例如，如果用于控制电子设备100的遥控器10包括麦克风，则遥控器10可以收集用户语音，并将收集的模拟信号或数字信号发送到电子设备100。当接收到的语音信号是模拟信号时，语音输入器110可以将接收到的语音信号转换成数字信号。

语音输入器110可以通过与电子设备100连接的外部麦克风来接收语音信号。

存储装置120被配置为存储与电子设备100的功能执行、语音识别、内容显示等有关的各种数据。存储装置120存储根据第一记录格式的第一文本和通过以第二记录格式记录第一文本而获得的至少一个第二文本。

第一文本可以包括词、数字、符号和句子中的至少一个。例如，第一文本可以包括诸如“智能”、“家庭”、“模式”、“设置”之类的词，诸如“1”、“3”、“7”之类的数字，诸如“+”、“*”、“#”之类的符号，诸如“关闭电视”、“打开频道10”之类的句子。

第二文本是指通过以另一种记录格式记录第一文本而获得的文本。具体地，第二文本可以根据第一文本的外来词记录格式、数字记录格式和符号记录形式中的至少一个被表示为与第一文本不同的文本。

例如，当第一文本是“智能”时，第二文本可以是这是“智能”的韩语记录。如果第一文本为“3”，则第二文本可以是诸如/>“three”和/>之类的词，而不是数字3。如果第一文本是“+”则第二文本可以是“plus”或/>等，其中“+”以英语或韩语记录。

存储装置120可以存储一个或多个第二文本，其中，基于根据第一记录格式的第一文本，以不同于第一记录格式的第二记录格式记录第一文本。在此，第一文本可以是预设的，并且可以是用户指定的词、数字或符号。第一文本可以是多个，并且可以以列表格式分别将与第一文本匹配的至少一个第二文本存储在存储装置120中。第一文本和与第一文本匹配的至少一个第二文本的匹配列表将在图4中更详细地描述。

处理器130被配置为控制电子设备100的整体操作。如果已经从通过语音输入器110输入的用户语音转换的语音文本对应于预设指令，则处理器130执行根据预设指令的功能。

在此，预设指令可以是例如：“智能电视家庭”，用于显示由电子设备100提供的菜单画面；“电影模式设置”，用于显示能够设置当前观看的电影内容的观看模式的画面等。用于语音识别的预设指令可以存储在存储装置120中。此时，预设指令可以以文本格式存储，与通过语音识别转换用户语音得到的文本进行比较，并且可以执行根据与从用户语音转换的文本相对应的指令的功能。

预设指令可以是指代特定内容的文本。例如，预设指令可以包括电影标题，诸如“不可能的任务4”。在语音触摸环境中，通过用户语音选择显示在电子设备100中包括的显示器或连接到电子设备100的外部显示设备上的各种用户界面(UI)中的任何一种，预设指令可以是每个用户界面中包含的文本。用户界面可以包括用于执行关于当前显示画面的、电子设备100的特定功能的菜单，或者用于执行特定内容的菜单，并且与每个用户界面相对应的文本可以是菜单中显示的特定功能的名称或特定内容的标题。

当从用户语音转换的语音文本对应于预设指令时，处理器130执行根据预设指令的功能。例如，如果与转换用户语音得到的语音文本相对应的预设指令是“智能电视家庭”，则处理器130可以执行显示由电子设备100提供的基本菜单画面的功能。如果与转换用户语音得到的语音文本相对应的预设指令是“不可能的任务4”，则处理器130可以执行再现与“不可能的任务4”相对应的内容的功能。

如果预设指令包括第一文本，并且从用户语音转换的语音文本是以第二记录格式将预设指令的第一文本记录为第二文本的文本，则处理器130可以执行与预设指令相对应的功能。

例如，假设预设指令是“智能电视家庭”，从用户语音转换得到的语音文本是作为预设指令的“智能电视家庭”中包括的“智能”、“电视”和“家庭”与第一文本相对应，该第一文本是将以第二记录格式记录的第二文本/>以及/>分别以第一记录格式记录的文本。

如果满足该条件，则如果从用户语音转换的语音文本是而不是“智能电视家庭”，处理器130可以执行与作为预设指令的“智能电视家庭”相对应的功能。

将参照图4至图6描述其中明确了本公开的特征的特定实施例。

根据实施例的电子设备100A可以被实现为包括如图1b所示的显示器140的显示设备。电子设备100A包括具有显示面板的电子设备，诸如电视、智能电话、笔记本电脑、个人数字助理(PDA)等。

处理器130可以控制显示器140显示包括预设指令的用户界面(UI)。然后，如果通过用户语音选择了在显示器140上显示的UI中的任何一个，则可以控制显示器140根据包括在所选UI中的预设指令来执行功能，并显示执行相应功能的画面。

如图1c所示，根据另一实施例的电子设备100B可以被实现为包括通信器150的电子设备，该通信器通过有线或无线网络连接到外部显示设备200。即，电子设备100B连接到诸如机顶盒、数字多功能光盘(DVD)播放器、游戏机等的显示设备200，并且包括用于向显示设备提供图像的电子设备。

处理器130可以控制通信器150向与电子设备100B连接的显示设备200发送图像，该图像提供包括预设指令的UI。另外，如果通过用户语音选择了显示在显示设备上的UI中的任何一个，则处理器130可以控制通信器150根据包括在所选UI中的预设指令来执行功能，并将执行了相应功能的图像发送给连接到电子设备100B的显示设备200。

图3是示出了根据实施例的语音识别系统的图。

在下文中，为了便于理解，电子设备100限于其中实现显示设备的实施例，并且将电子设备100描述为显示设备。然而，从上述电子设备100的各种实施例将容易认识到，电子设备100不限于包括显示器的显示设备。

显示设备100包括通信器150，并且通信器150可以包括：第一通信器151，用于与执行语音识别的外部第一服务器20通信；以及第二通信器152，用于与提供广播内容或内容相关信息的外部第二服务器30通信。

当显示设备100以语音识别模式操作时，用户发出的语音可以被输入到显示设备100。此时，第一用户可以执行发声以使显示设备100以语音识别模式进行操作。当用户发出的语音被输入时，显示设备100可以分析输入语音信号中的语音信号，以确定该语音信号是否是用于进入语音识别模式的触发指令。

作为确定的结果，如果发出的语音是用于在语音识别模式下操作的指令，则处理器120可以控制显示设备100进入语音识别模式。如上所述，当在显示设备100进入语音识别模式时输入了用户发出的附加语音时，显示设备100可以在内部执行识别附加发出的语音的操作。

然而，显示设备100可以不需要触发指令来进入语音识别模式，并且可以在总是感测用户语音或以预设周期感测用户语音的状态下操作，从而可以在不需要触发指令的情况下执行语音识别。

显示设备100的语音输入器110可以被实现为麦克风，以直接感测从用户发出的用户语音，并且可以从控制显示设备100的遥控器10接收用户语音。

具体地，遥控器10是用于通过与显示设备100通信来控制显示设备100的操作的设备，并且包括遥控器、键盘等。可以经由设置在遥控器10中的麦克风来感测从用户发出的用户语音，并且显示设备100可以从遥控器10接收用户语音。为此，通信器150还可以包括第三通信器153，用于从遥控器10接收用户语音。

然而，当由显示设备100和遥控器10执行的通信方法与由显示设备100和第一服务器20或第二服务器30执行的通信方法相同时，可以省略第三通信器153。例如，当显示设备100和遥控器10使用Wi-Fi模块执行通信，并且显示设备100和第一服务器20使用Wi-Fi模块执行通信时，显示设备100可以不单独包括第三通信器153，可以通过第一通信器151中包括的Wi-Fi模块与遥控器10通信。

另外，当显示设备100和遥控器10使用Wi-Fi模块执行通信或者显示没备100使用以太网调制解调器执行与第一服务器20和第二服务器20的通信时，显示设备100可能必须包括具有Wi-Fi模块或蓝牙模块的第三通信器153。

另外，诸如智能电话之类的用户便携式终端可以用作遥控器10以控制显示设备100的操作。近来，能够控制各种外部设备的与远程控制有关的应用被安装在智能电话中，并且一般使用通过操纵在应用上提供的UI来控制外部设备的技术。为此，智能电话可以包括红外发射部分，并且可以通过红外发射部分将控制信号发送到显示设备100。可替代地，智能电话和显示设备100可以通过Wi-Fi通信和蓝牙通信发送和接收各种控制信号。根据各种实施例，显示设备100可以包括根据每种通信方法的多个通信单元，以便以各种方法与遥控器10或用作遥控器10的用户便携式终端进行通信。

因此，显而易见的实施例是用户通过智能电话中包括的麦克风输入语音，并且使用诸如Wi-Fi之类的通信将输入的语音发送到显示设备200。

如果通过语音输入器110接收到用户语音，则显示设备100可以将接收到的用户语音发送到第一服务器20。第一服务器20可以将接收到的用户语音转换为文本，并将转换后的文本(在下文中称为语音文本)发送至显示设备100。即，第一服务器20可以被实现为语音到文本(STT)服务器，其分析声音信息以将语音信号转换为文本格式。当显示设备100从第一服务器20接收语音文本时，可以从接收到的语音文本中提取关键字，并且可以执行与提取的关键字相对应的指令。

根据实施例，显示设备100可以存储语音识别模块，并将语音信号转换为文本格式。即，显示设备100可以基于嵌入式方法执行语音识别，自己识别与存储装置120中预先登记的指令有关的用户发出的语音。

如果与提取的关键字相对应的指令是再现特定内容或与特定内容有关的信息的请求，则显示设备100可以将根据该请求的信号发送到第二服务器30。第二服务器30是用于提供与内容有关的信息的服务器，并且可以搜索与特定内容有关的信息并将其提供给用户。显示没备100可以从第二服务器30接收并显示与内容有关的信息。例如，如果指令是“不可能的任务4”，则显示设备100可以从第二服务器30接收并显示与“不可能的任务4”相关联的电影信息，或者接收并再现与“不可能的任务4”相对应的电影内容。

在本实施例中，尽管第一服务器20和第二服务器30是分开的服务器，但是第一服务器20和第二服务器30可以被实现为同一服务器。即，显示设备100可以与集成服务器进行通信，该集成服务器分析声音信息以将语音信号转换为文本格式，并且同时起到提供广播内容或内容相关信息的作用。在这种情况下，第一通信器151和第二通信器152可以被集成为一个以与集成服务器进行通信。

图4是示出了根据实施例的用于通过扩展文本执行功能的方法的框图。

如图4所示，显示设备100的处理器130可以使用存储在存储装置120中的搜索模块121和功能执行模块122来搜索与用户语音相对应的指令，并且可以根据搜索到的指令来执行功能。

首先，处理器130基于从用户语音转换的语音文本提取存储在存储装置120中的第一文本。具体地，当第二文本被包括在语音文本中时，处理器130可以从存储装置120提取与语音文本中包括的第二文本匹配的第一文本。第一文本可以包括各种文本单元，例如词、数字、符号等。

如图5所示，根据实施例的显示设备100的存储装置120可以存储根据记录格式的第一文本和至少一个第二文本，在该第二文本中，根据第一文本的对应文本以另一记录格式记录。存储在存储装置120中的第一文本是构成预设指令的预设文本单元(在下文中，称为标记)，并且存储在存储装置120中的第二文本可以是用于扩展第一文本的记录格式的标记。存储装置120可以存储文本匹配列表，其中包含有根据一种记录格式的第一文本和通过以另一记录格式记录根据一种记录格式的第一文本而获得的第二文本。

如图5所示，在存储装置120中存储的文本匹配列表中，第一记录格式的“智能”可以与第二记录格式的相匹配，第一记录格式的“4”可以与第二记录格式的/>第三记录格式的/>以及第四记录格式的/>相匹配，并且第一记录格式的“+”可以分别与第二记录格式的/>第三记录格式的“plus”等相匹配。

可以通过利用机器学习算法的人工智能(AI)系统来建立匹配列表，其中AI系统是实现人类智能水平的计算机系统，使得语音识别率可以随着机器的自我学习和判断而提高。

AI技术包括：机器学习(深度学习)技术，其使用能够对输入数据的特征进行分类或学习的算法；以及元素技术，其使用机器学习算法来模拟人脑的诸如识别和判定之类的功能。作为元素技术的一个例子，可以将用于识别人类的语言/文字的语言理解技术应用于本公开。

在语言理解技术中，人类的语言/文字被识别和应用/处理，包括自然语言处理、机器翻译、对话系统、查询和响应、语音识别/合成等。根据实施例，根据各种记录格式记录存储在存储装置120中的匹配列表中的第一文本的第二文本可由人工智能(AI)来训练并不断更新。

通过AI，可以自动建立用于文本的各种记录格式的数据库(DB)。因此，由于特定用户或多个用户针对特定文本读出的特定文本的各种表示或特定文本的各种记录可以被不断扩展，所以可以有效且不断地提高语音识别率。

处理器130可以基于存储在存储装置120中的文本匹配列表来扩展从用户语音转换的语音文本，并且执行存储在存储装置120中的搜索模块121以识别与用户语音相对应的指令。搜索模块121可以从预设指令列表42中识别语音文本中包括的标记以及与该标记匹配的标记以识别指令。

预设指令列表42是存储在存储装置120中的指令列表，并且可以是用于执行显示设备100的主要功能的关键指令的列表。

预设指令列表42也可以是在显示设备100的显示器140中提供的用户界面(UI)中显示的指令列表，例如，在语音触摸环境中提供的UI中显示的指令列表。如果相应的UI是从第二服务器30提供的提供与内容相关的信息的UI，则处理器130可以通过以下方式来生成指令列表42：从第二服务器30接收在相应的UI上显示的指令，或者对显示器140显示的画面执行图像分析以识别在UI上显示的指令。

包括在语音文本中的标记可以是文本匹配列表中包括的第一文本或第二文本。

如果语音文本中包括的标记是第一文本，则处理器120可以识别与第一文本相对应的第二文本，将第二文本扩展为附加的搜索词，并且如果语音文本中包括的标记是第二文本，则处理器120可以识别与第二文本相对应的第一文本，并将第一文本扩展为附加的搜索词。

例如，如果从用户语音转换的语音文本是则用于从指令列表42中搜索与用户语音相对应的指令的标记可以扩展为形成该语音文本的以及与/> 和/>相对应的“智能”、“电视”和“家庭”。

另外，如果通过记录用户语音而获得的语音文本是“TV+”，则用于从指令列表42中搜索与用户语音相对应的指令的标记可以扩展为“TV”、“+”、和“plus”。

处理器130可以将存储在指令列表42中的指令划分为作为预设文本单元的标记，计算每个扩展搜索项与存储在指令列表42中的指令的词之间的相似度分数，并识别出相似度分数最高的指令。当识别出指令时，处理器130可以执行存储在存储装置120中的功能执行模块122，以执行与所识别的指令相对应的功能。

形成从用户语音转换的语音文本的每个标记的集合Q和基于语音文本从文本匹配列表中识别出的标记Q_ex的集合表示如下。

【等式1】

Q＝[q₁，q₂，…q_n]

【等式2】

Q_ex＝[q₁，q₂，…q_n，q_(1，1)，…q_(1，m)，…q_(n，1)，...q_(n，l)]

在等式1中，q₁至q_n是指构成语音文本的每个标记。例如，如果语音文本Q是“智能家庭电视”，则Q可以表示为q₁(智能)、q₂(家庭)、q₃(电视)的集合。

在等式2中，q_(1，1)至q_(1，m)是指根据构成语音文本的标记q₁的不同记录格式的至少一个标记，q_(n，1)至q_(n，1)表示根据构成语音文本的标记q_n的不同记录格式的至少一个标记。

参考图6，将描述用于在语音触摸环境中根据用户语音执行功能的具体方法。

图6是示出了其中显示根据实施例的指令的语音触摸画面的图。

图6示出了根据实施例的显示的语音触摸画面。在语音触摸环境中，用户可以通过发出用户语音来选择并执行在显示设备100的显示器140中提供的每个UI 62至65。

显示器140的画面可以显示有：包括第一指令“智能电视家庭”的UI 62、包括第二指令“电影模式设置”的UI 63、包括第三指令“16：9画面模式”的UI 64、以及包括第四指令“不可能的任务4”的UI 65。

如果从用户所发语音转换的语音文本是“智能电视家庭”，则处理器130可以将“智能电视家庭/>”划分为标记单位(“智能/>”、“电视/>”、“家庭/>”)，并且如果语音文本中包括的每个标记中的至少一个被包括在存储在存储装置120中的匹配列表的第二文本中，则处理器130可以从匹配列表中识别与第二文本相对应的第一文本。此时，处理器130可以基于所识别的第一文本和第二文本从指令列表42中识别与用户语音相对应的指令，并且执行根据所识别的指令的功能。由于和/>被包括在匹配列表的第二文本中，因此处理器130可以从匹配列表中分别识别与/>和/>相对应的“智能”、“电视”和“家庭”。

处理器130可以通过将显示器140上显示的指令与作为扩展标记的“智能”、“电视”、“家庭”进行比较来识别作为最相似指令的第一指令，并且可以执行与包括第一指令的UI62相对应的功能。

具体地，处理器130可以基于扩展标记中的任何一个是否包括在显示器140显示的指令中，来计算在显示器140上显示的指令与用户语音的第一相似度分数，并且如果计算出的第一相似度分数大于或等于预设阈值，可以执行根据预设指令的功能。

例如，处理器130可以将第一指令“智能电视家庭”划分为标记单元，并且如果“智能”被包括在语音文本的任一扩展标记中，则为标记“智能”分配分数“1”，如果语音文本的任一扩展标记中都未包含“智能”，则可分配分数“0”。类似地，对于第一指令的标记“电视”和“家庭”，处理器130可以基于每个标记是否包括在语音文本的任一扩展标记中来分配分数。

处理器130可以计算第一相似度分数，该第一相似度分数是通过将分别分配给“智能”、“电视”和“家庭”的分数相加，并将分数除以第一指令“智能电视家庭”的标记数量而获得的。

在该实施例中，第一指令的标记“智能”、“电视”和“家庭”都被包括在语音文本的扩展标记中，因此被分配了分数“1”，并且第一相似度分数可以是“1”，它是通过将每个分配的分数相加后的数字3除以标记数量3而获得的。由此，处理器130可以识别与用户语音相对应的指令是作为第一指令的“智能电视家庭”，并且执行与包括第一指令“智能电视家庭”的UI62相对应的功能。

处理器130还可以基于构成第一指令的每个标记是否包括在语音文本的扩展标记中，来计算第一指令与用户语音的第二相似度分数，并且如果计算出的第一和第二相似度分数中的每一个都大于或等于预设阈值，可以执行与包括第一指令“智能电视家庭”的UI62相对应的功能。第二相似度分数可以是通过将构成第一指令的标记中包括在语音文本的扩展标记中的标记的数量除以构成第一指令的标记的数量而获得的值。

在本实施例中，由于构成第一指令的标记“智能”、“电视”和“家庭”都包括在语音文本的扩展标记中，因此第二相似度分数可以是“1”，其是通过将语音文本的扩展标记中包括的第一指令的标记数量除以3(第一指令的标记数量)而获得的。

作为另一个实施例，如果从用户所发语音转换的语音文本是“电影设置”，则处理器130可以以标记为单位划分“电影设置”(“电影”、“设置”)，并类似地计算第一相似度分数。在此，假定不存在以不同的记录格式来记录语音文本的标记“电影”和“设置”的标记。

由于语音文本的标记“电影”和“设置”被包括在第二指令“电影模式设置”中，因此第一相似度分数可以是“1”。

但是，“电影模式设置”中的每个标记，即词语“电影”、“模式”和“设置”都包括在语音文本的标记中，但是“模式”不包括在语音文本的标记中，因此第二相似度分数可以是“2/3”，这是通过将语音文本的标记中包含的第二指令的标记数量2除以第二指令的标记数3来获得的。如果第二相似度分数“2/3”大于或等于预设阈值，则处理器130可以执行与包括第二指令“电影模式设置”的UI63相对应的功能，并且如果小于或等于预设阈值，则处理器130可以不执行相应的功能。

当除了第一相似度分数之外还考虑第二相似度分数时，可以更准确地进行语音识别。

另外，由于语音识别方法不考虑构成语音文本的标记的顺序，因此，即使在构成“16：9画面模式”的每个标记的顺序发生变化的情况下，例如在从用户所发语音转换的语音文本是“画面模式16：9”的情况下，第一和第二相似度分数也都可以是1。因此，可以执行与包括第三指令“16：9画面模式”的UI64相对应的功能。

在另一个实施例中，如果用户发出的语音文本是“(不可能的任务4)”，则处理器130可以将“/>(不可能的任务4)”以标记单位(/>(任务)、/>(不可能的)、/>(4))进行划分，并扩展语音文本中包括的每个标记。处理器130可以从匹配列表中分别识别与/> 和/>相对应的“任务”、“不可能的”和“4”。

处理器130可以通过将扩展标记“任务”、“不可能的”、“4”与显示在显示器140上的指令进行比较，来识别作为最相似指令的第四指令，并执行与包括第四指令的UI65相对应的功能。

在本实施例中，通过上述方法，第一相似度分数和第二相似度分数可以为“1”。

此外，通过进一步扩展上述实施例，匹配列表可以将作为预设指令的电视节目名称“(拜托了冰箱)”存储为第一文本，并且将作为“/>(拜托了冰箱)”的缩写的“/>(拜冰)”存储为第二文本。因此，即使用户发出“/>(拜冰)”，用户也可以用作为从用户语音转换而来的语音文本的标记“/>(拜冰)”来搜索指令，并搜索到与“/>(拜冰)”匹配的第一文本“/>(拜托了冰箱)”，因此从而可以增加搜索概率。

可以仅使用第一相似度分数或仅使用第二相似度分数来识别指令，但是如上所述，可以同时使用第一相识度分数和第二相似度分数来识别指令，以提高指令识别的准确性。

图7是具体示出了根据另一个实施例的电子设备的配置的框图。

如图7所示，根据另一个实施例，电子设备100′包括语音输入器110、存储装置120、处理器130、显示器140、通信器150、音频处理器160、音频输出器170、视频处理器180和用户界面190。与图1a至图1c重复的描述将被省略。

存储装置120可以存储各种数据，例如各种多媒体内容、用于驱动电子设备100′的OS软件模块等。

具体地，存储装置120可以存储：用于处理从电子设备100′中包括的各个硬件发送的信号的基本模块、用于管理数据库(DB)或注册表的存储模块、用于生成布局画面的图形处理模块、以及安全模块。

如图4所示，存储装置120可以存储：用于从预设指令列表42中搜索指令的搜索模块121、以及用于根据所搜索的指令执行功能的功能执行模块122。

处理器130可以包括只读存储器(ROM)131、随机存取存储器(RAM)132、主中央处理单元(CPU)133、图形处理器134、以及第1接口135-1至第n接口135-n。ROM 131、RAM 133、CPU133、图形处理器134、第一接口135-1至第n接口135-n等可以通过总线136互连。

CPU 133访问存储装置120，使用存储在存储装置120中的操作系统(OS)执行引导，并使用存储在存储装置120中的各种程序、内容数据等执行各种操作。

ROM 131存储用于引导系统的一个或多个指令等。当输入开启指令并供电时，CPU133根据ROM 131中存储的一个或多个指令，将存储装置120中存储的OS复制到RAM 132中，并执行OS以引导系统。当完成引导时，CPU 133将存储装置120中存储的各种应用程序复制到RAM 132，并执行复制到RAM 132的应用程序和执行各种操作。

图形处理器134使用计算器(未示出)和渲染器(未示出)产生包括各种对象(例如，图标、图像、文本等)在内的画面。在此，计算器可以根据画面的布局计算每个对象要显示的属性值，例如坐标值、形状、大小和颜色。渲染器可以基于由计算器计算的属性值来生成包括对象在内的各种布局的画面。

第一接口135-1至第n接口135-n连接到前述元件。这些接口之一可以是通过网络连接到外部设备的网络接口。

处理器130的操作可以通过执行在存储装置120中存储的程序来执行。

显示器140被配置为提供包括各种内容的画面，这些内容能够在电子设备100′中再现。该内容可以包括各种格式的内容，例如文本、图像、运动图像、图形用户界面(GUI)等。

显示器140的实现方法不受限制，并且可以被实现为各种形式，例如液晶显示器(LCD)、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管(AM-OLED)、等离子显示面板(PDP)等。显示器140可以另外包括取决于实现方案的附加配置。例如，当显示器140是液晶显示器时，显示器140可以包括LCD显示面板(未示出)、用于向其提供光的背光单元(未示出)和用于驱动面板(未示出)的面板驱动基板(未示出)。

通信器150被配置为根据各种类型的通信方法与外部设备通信。通信器150可以根据各种通信标准(诸如红外、射频(RF)、近场通信(NFC)、ZigBee、数字生活网络联盟(DLNA)、Wi-Fi、蓝牙、长期演进(LTE)等)向外部设备发送数据或从外部设备接收数据。备选地，通信器150可以连接到有线/无线网络(包括因特网网络)以与外部没备收发数据。

通信器150可以包括各种通信芯片，例如Wi-Fi芯片、蓝牙芯片、无线通信芯片等，以根据上述通信方法与外部设备进行通信，并且通信器150可以使用芯片与包括服务器在内的其他电子设备进行通信。通信器150可以包括有线通信芯片、有线通信终端等，用于通过有线通信方法与外部设备进行通信。

通信器150可以包括：第一通信器151，用于与外部第一服务器20进行通信以执行语音识别；第二通信器152，用于与外部第二服务器30进行通信以提供广播内容或与内容有关的信息；第三通信器153，用于从遥控器10接收用户语音；以及第四通信器154，用于与外部显示设备200通信以将图像发送到显示设备200。

音频处理器160被配置为对音频数据执行处理。

音频输出器170被配置为输出由音频处理器160处理的音频数据。

视频处理器180被配置为对内容执行各种图像处理，诸如解码、缩放、噪声滤波、帧速率转换、分辨率转换等。

用户界面190被配置为检测用于控制电子设备100’的整体操作的用户交互。用户界面190可以包括各种交互检测设备，诸如红外(IR)信号接收器(未示出)、照相机(未示出)等。用户界面190可以经由IR信号接收器从遥控器10接收用于开启电子设备100′的信号，并且可以在电子设备100′开启期间从遥控器10接收各种控制信号。

图8是示出了根据实施例的电子设备的控制方法的流程图。

首先，在操作S810中，可以通过电子设备输入用户语音。电子设备存储根据第一记录格式的第一文本和通过以第二记录格式记录第一文本而获得的至少一个第二文本，第一文本和第二文本可以由用户直接输入，或者在制造过程中预先存储在电子设备中。

如果从输入的用户语音转换的语音文本对应于预设指令，则执行根据预设指令的功能。

如果预设指令包括根据第一记录格式的第一文本，并且从用户语音转换的语音文本是用第二记录格式的第二文本记录预设指令的第一文本而得到的文本，则可以执行根据预设指令的功能。语音文本可以被划分为预设单元，如果语音文本的文本单元中的至少一个包括第二文本，则可以识别与每个第二文本相对应的第一文本，并且可以基于所识别的第一文本和第二文本来执行根据所识别的指令的功能。

基于语音文本的文本单元和识别出的第一文本中的一个是否包括在预设指令中，可以计算预设指令与用户语音的第一相似度分数，如果计算出的第一相似度分数大于或等于预设阈值，则可以执行根据预设指令的功能。

预设指令可以被划分为预设文本单元，并且可以基于预设指令的每个文本单元是否包括在语音文本的文本单元和识别出的第一文本中的一个中，来计算预设指令与用户语音的第二相似度分数。此时，如果计算出的第一和第二相似度分数中的每一个大于或等于预设阈值，则可以执行根据预设指令的功能。

根据如上所述的各种实施例，即使当语音识别结果和指令记录之间存在不匹配时，也可以执行根据用户意图的指令功能，从而增加了用户的便利性。

根据上述各种实施例的控制方法可以被实现为程序并被存储在各种可记录介质中。即，可以在存储在可记录介质中的状态下使用能够由各种处理器处理以执行上述各种控制方法的计算机程序。

作为示例，可以提供一种非暂时性计算机可读介质，该非暂时性计算机可读介质存储用于执行以下步骤的程序：i)接收预设指令，该预设指令包括第一记录格式的第一文本和通过以第二记录格式记录第一文本而获得的至少一个第二文本，ii)接收用户语音，以及iii)基于通过转换用户语音而获得的文本包括第二文本，执行根据预设指令的功能。

非暂时性计算机可读介质是指半永久性地存储数据而不是在非常短的时间内存储数据(诸如寄存器、高速缓存、内存等)的介质，并可以由装置读取。具体地，上述各种应用或程序可以被存储在非暂时性计算机可读介质(例如，紧凑盘(CD)、数字多功能盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)等)中，并且可以被提供。

尽管已经示出和描述了优选实施例，但是本公开不限于特定实施例，并且应当理解，本公开不限于如上所述的特定实施例，本领域的普通技术人员将理解，在不背离由所附权利要求及其等同物所限定的精神和范围的情况下，可以在其中进行形式和细节上的各种改变。

Claims

1.一种电子设备，包括：

语音输入器；

存储装置，被配置为存储根据第一记录格式的第一文本和通过以第二记录格式记录所述第一文本而获得的至少一个第二文本；以及

处理器，被配置为基于从通过所述语音输入器输入的用户语音转换得到的语音文本与预设指令对应，执行根据所述预设指令的功能，

其中，所述处理器被配置为基于所述预设指令包括所述第一文本，并且基于所述语音文本是所述预设指令的所述第一文本被记录为所述第二记录格式的第二文本后的文本，执行根据所述预设指令的功能。

2.根据权利要求1所述的电子设备，其中：

所述语音文本被划分为预设文本单元，以及

所述处理器被配置为：

基于所述语音文本的文本单元中的至少一个包括所述第二文本，从所述存储装置中识别与所述第二文本中的每一个相对应的第一文本，并执行与基于所识别的所述第一文本和所述第二文本识别的指令相对应的功能。

3.根据权利要求2所述的电子设备，其中，所述处理器被配置为：

基于所述语音文本的文本单元和所识别的第一文本中的任何一个是否包括在所述预设指令中，计算所述预设指令与所述用户语音的第一相似度分数，并且基于计算出的所述第一相似度分数大于或等于预设阈值，执行根据所述预设指令的功能。

4.根据权利要求3所述的电子设备，其中：

所述预设指令被划分为预设文本单元，

所述处理器被配置为：

基于所述预设指令的每个文本单元是否包括在所述语音文本的所述文本单元和所识别的第一文本中的任何一个中，进一步计算所述预设指令与所述用户语音的第二相似度分数，并基于计算出的所述第一相似度分数和所述第二相似度分数中的每一个大于或等于预设阈值，执行根据所述预设指令的功能。

5.根据权利要求1所述的电子设备，还包括：

显示器，

其中，所述预设指令显示在通过所述显示器提供的用户界面UI上。

6.根据权利要求5所述的电子设备，其中，所述处理器被配置为控制所述显示器以显示画面，所述画面是在其上执行根据所述预设指令的功能的画面。

7.根据权利要求1所述的电子设备，还包括：

通信器，

其中，所述处理器被配置为控制所述通信器向与所述电子设备连接的显示设备发送提供画面的图像，所述画面是在其上执行根据所述预设指令的功能的画面。

8.根据权利要求1所述的电子设备，其中，所述语音输入器包括麦克风。

9.根据权利要求1所述的电子设备，还包括：

通信器，

其中，所述处理器被配置为控制所述通信器将通过所述语音输入器输入的所述用户语音发送给外部设备，并从所述外部设备接收根据语音识别从所述用户语音转换得到的语音文本。

10.根据权利要求1所述的电子设备，其中，所述第二文本是根据外来词记录格式、数字记录格式和符号记录形式中的至少一个与所述第一文本不同地记录的文本。

11.一种电子设备的控制方法，所述电子设备存储根据第一记录格式的第一文本和通过以第二记录格式记录所述第一文本而获得的至少一个第二文本，所述方法包括：

接收用户语音；以及

基于从输入的所述用户语音转换得到的语音文本与预设指令对应，执行根据所述预设指令的功能，

其中，所述执行包括：基于所述预设指令包括所述第一文本，并且基于所述语音文本是所述预设指令的所述第一文本被记录为所述第二记录格式的第二文本后的文本，执行根据所述预设指令的功能。

12.根据权利要求11所述的方法，其中：

所述语音文本被划分为预设文本单元，以及

所述执行包括：基于所述语音文本的文本单元中的至少一个包括所述第二文本，从存储装置中识别与所述第二文本中的每一个相对应的第一文本，并执行与基于所识别的所述第一文本和所述第二文本识别的指令相对应的功能。

13.根据权利要求12所述的方法，其中，所述执行包括：

基于所述语音文本的文本单元和所识别的第一文本中的任何一个是否包括在所述预设指令中，计算所述预设指令与所述用户语音的第一相似度分数；以及

基于计算出的所述第一相似度分数大于或等于预设阈值，执行根据所述预设指令的功能。

14.根据权利要求13所述的方法，其中，所述预设指令被划分为预设文本单元，

其中，所述方法包括：基于所述预设指令的每个文本单元是否包括在所述语音文本的所述文本单元和所识别的第一文本中的任何一个中，计算所述预设指令与所述用户语音的第二相似度分数，

其中，所述执行包括：基于计算出的所述第一相似度分数和所述第二相似度分数中的每一个大于或等于预设阈值，执行根据所述预设指令的功能。

15.根据权利要求11所述的方法，还包括：

显示包括所述预设指令的用户界面UI；以及

显示画面，所述画面是在其上执行根据所述预设指令的功能的画面。