CN102930867A

CN102930867A - 语音识别设备、语音识别服务器、语音识别系统和方法

Info

Publication number: CN102930867A
Application number: CN2012102607842A
Authority: CN
Inventors: 朴殷相
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-08-08
Filing date: 2012-07-25
Publication date: 2013-02-13
Also published as: US20130041666A1; EP2557565A1; KR20130016644A

Abstract

一种语音识别设备、语音识别服务器、语音识别系统和方法，在其中，通用语音识别引擎可准确地识别在特定领域使用的有限数量的词语。

Description

语音识别设备、语音识别服务器、语音识别系统和方法

技术领域

与示例性实施例一致的设备和方法涉及一种语音识别设备、语音识别服务器、语音识别系统和语音识别方法，更具体地讲，涉及一种使用通用语音识别引擎，准确地识别在特定领域使用的有限数量的词语的语音识别设备、语音识别服务器、语音识别系统和语音识别方法。

背景技术

语音识别技术被广泛地用于家用电器（诸如，数字TV）以及PC和移动通信装置中。尤其是，移动通信装置已采用基于服务器的语音识别技术并提供搜索功能（诸如，网页搜索）和用于作为语音输入SMS功能的功能。基于服务器的语音识别引擎不仅识别在所谓特定领域使用的语言，还识别在非特定领域的各种词语。可在PC、移动通信装置或数字TV之内提供在可识别词语方面不受限制的通用语音识别引擎。

如果前述语音识别引擎被限制在特定领域并具有有限数量的可识别词语，则前述语音识别引擎比起专门的语音识别引擎提供更低的识别率，或在初始识别词语时不太成功。

发明内容

因此，一个或多个示例性实施例提供一种语音识别设备、语音识别服务器、语音识别系统和语音识别方法，其中，所述语音识别设备、语音识别服务器、语音识别系统和语音识别方法使用在可识别词语方面不受限制的通用语音识别引擎准确地识别在特定领域使用的有限数量的词语。

根据示例性实施例的一方面，提供一种语音识别设备，所述语音识别设备包括：语音输入单元，从用户接收语音输入；图像处理器，处理图像；显示单元，在其上显示图像处理结果；控制器，将语音输入的数据和语音可识别信息发送到语音识别引擎，并从语音识别引擎接收识别结果，其中，所述识别结果指示输入语音的数据是否对应于语音可识别信息。

语音可识别信息可包括文本信息。

语音可识别信息可包括作为语音识别的对象的多个词语。

语音可识别信息可包括图像或图像的名称。

语音可识别信息可包括网页的链接信息或菜单项。

语音可识别信息可包括文本，其中，所述文本具有在语音输入被接收时显示的网页或菜单的至少一个词语。

语音识别设备可包括移动终端、计算机和显示设备中的一种。

语音识别引擎可在安装在语音识别设备中的装置中操作。

语音识别引擎可在安装在外设于语音识别设备的语音识别服务器中的装置中操作。

可通过提供一种语音识别设备来实现另一方面，所述语音识别设备包括：语音输入单元，从用户接收语音输入；图像处理器，处理图像；显示单元，显示处理的图像；通信单元，与语音识别服务器通信；控制器，将语音输入的数据和语音可识别信息发送到语音识别服务器，并从语音识别服务器接收识别结果，其中，所述识别结果指示语音输入的数据是否对应于语音可识别信息。

语音识别设备可还包括存储单元，在其中存储语音可识别信息。

根据示例性实施例的一方面，提供一种语音识别服务器，所述语音识别服务器包括：通信单元，从语音识别设备接收语音输入数据和语音可识别信息；语音识别单元，执行语音识别功能，其中，所述语音识别功能确定语音输入数据是否对应于语音可识别信息；控制器，控制语音识别单元执行语音识别功能，并将识别结果发送到语音识别设备，其中，所述识别结果指示语音输入数据是否对应于语音可识别信息。

语音识别服务器可还包括存储单元，在其中存储语音可识别信息。

语音识别服务器可还包括识别调整器，如果识别结果类似于语音可识别信息，则所述识别调整器将所述识别结果调整为语音可识别信息中的最类似信息。

语音识别单元可包括基于服务器的通用语音识别引擎。

语音可识别信息可包括文本信息。

语音可识别信息可包括作为语音识别的对象的多个词语。

语音可识别信息可包括图像或图像的名称。

语音可识别信息可包括网页的链接信息或菜单项。

根据示例性实施例的一方面，提供一种语音识别系统，所述语音识别系统包括：语音识别设备，将语音输入数据和语音可识别信息发送到语音识别服务器，并从语音识别服务器接收识别结果，其中，所述识别结果指示语音输入数据是否对应于语音可识别信息；语音识别服务器，从语音识别设备接收语音输入数据和语音可识别信息，确定语音输入数据是否对应于语音可识别信息，并将识别结果发送到语音识别设备。

如果识别结果类似于语音可识别信息，则识别结果可被调整为语音可识别信息中的最类似信息。

根据示例性实施例的一方面，提供一种语音识别方法，所述语音识别方法包括：通过语音识别设备接收语音输入；将语音输入的数据和语音可识别信息发送到语音识别服务器；确定语音输入的数据是否对应于语音可识别信息；将语音识别结果发送到语音识别设备，其中，所述语音识别结果指示语音输入的数据是否对应于语音可识别信息。

语音可识别信息可包括文本信息。

语音可识别信息可包括作为语音识别的对象的多个词语。

语音可识别信息可包括图像或图像的名称。

语音可识别信息可包括网页的链接信息或菜单项。

所述确定步骤可包括：如果识别结果类似于语音可识别信息，则将识别结果调整为语音可识别信息中的最类似信息。

附图说明

通过下面结合附图对示例性实施例的描述，本发明的上述和/或其他方面将会变得清楚并更容易理解，其中：

图1是根据示例性实施例的语音识别设备的框图；

图2是根据另一示例性实施例的包括语音识别设备和语音识别服务器的语音识别系统的框图；

图3示出根据示例性实施例的显示语音可识别信息的网页的示例；

图4是根据示例性实施例的语音识别方法的流程图；以及

图5是根据另一示例性实施例的语音识别方法的流程图。

具体实施方式

以下，将参照附图来详细描述示例性实施例，从而使本领域的普通技术人员容易实现所述示例性实施例。可以以各种形式实现所述示例性实施例而不限于在此阐述的示例性实施例。为了清楚，省略对公知部分的描述，并且相同的标号始终指示相同的元件。

图1是根据示例性实施例的语音识别设备的框图。

参照图1，语音识别设备100包括语音输入单元110、控制器120、图像处理器150、显示单元160和语音识别引擎170。

语音识别设备100可包括移动终端、计算机或显示设备。语音输入单元110从用户接收语音输入，执行模数(A/D)转换以将输入的语音转换为数字格式。

图像处理器150处理由控制器120输入的信号，以显示图像。

显示单元160在其上显示图像处理结果。更具体地讲，显示单元160在其上显示可由用户作为语音发出的信息。显示单元160在其上显示与语音输入的识别结果相应的信息。

语音识别引擎170可包括由语音识别设备100中的单独的装置执行的软件。例如，可在语音识别设备100之内设置的芯片上安装语音识别引擎170。语音识别引擎170可包括软件，其中，所述软件存储在闪存中并在语音识别设备100的开通和操作时，由主存储器（诸如控制器120）执行，而不是由所述单独的装置来执行。图1示出包括在语音识别设备100中的语音识别引擎170，但是所述语音识别引擎170不限于此。或者，可在语音识别设备100的外部设置语音识别引擎170。例如，语音识别引擎可被设置在通过因特网连接的外部语音识别服务器中或被设置在本地网络中连接的外部装置中。

控制器120将通过语音输入单元110输入的语音输入数据和语音可识别信息发送到语音识别引擎170，并从语音识别引擎170接收语音输入的识别结果。语音输入数据是指用户发出的语音信息。语音可识别信息可包括在移动终端、计算机或显示设备中提供的文本信息，更具体地讲，可被识别为语音的多个词语。例如，当用户从显示设备观看电影或新闻时，该用户会发出“音量提高”、“音量降低”或者“大声一点”或“小声一点”的声音以调整电影或新闻的声音。用户可发出“上调频道”或“下调频道”的声音以改变频道，或发出“电源开启”或“电源关闭”的声音以控制电源。如上，用于控制显示设备并预先被存储在显示设备中的一组控制命令为语音可识别信息。

如果用户发出“大声一点”的声音，则控制器120将语音输入数据“大声一点”和预先存储在显示设备中的语音可识别信息（诸如，“音量提高”、“音量降低”、“大声一点”、“小声一点”、“上调频道”、“下调频道”、“电源开启”和“电源关闭”）发送到语音识别引擎170。然后，语音识别引擎170从语音输入数据“大声一点”提取语音特征矢量，并将所述矢量与若干对应于语音可识别信息的命令进行比较。如果确定存在与“大声一点”相同的语音可识别信息，则对应于“大声一点”的控制信息被发送到控制器120，并且控制器120调整显示设备的声音。控制信息对应于针对控制器120和语音识别引擎170之间的每个功能的命令。

如果用户大概发出类似于“小声一点”的声音，则控制器120将类似于“小声一点”的语音输入数据和语音可识别信息（诸如，“音量提高”、“音量降低”、“大声一点”、“小声一点”、“上调频道”、“下调频道”、“电源开启”和“电源关闭”）发送到语音识别引擎170。语音识别引擎170从类似于“小声一点”的语音输入数据提取语音特征矢量，并将所述矢量与若干对应于语音可识别信息的命令进行比较。语音识别引擎170可确定存在与“小声一点”类似但不相同的语音可识别信息。如果语音输入数据即使与语音可识别数据不同，却非常类似于语音可识别数据，则语音识别引擎170可调整语音识别结果并将语音输入数据识别为“小声一点”。如果语音识别引擎170将对应于“小声一点”的控制信息发送到控制器120，则控制器120调整显示设备的声音。

在前述示例性实施例中，语音可识别信息被预先存储在移动终端、计算机或显示设备中，但是语音可识别信息的存储不限于此。或者，当语音识别设备100从用户接收语音输入数据时，如果显示单元160显示计算机的网页或显示设备的菜单，则语音可识别信息可包括在屏幕中显示的文本信息（诸如，网页的链接信息、网页的文本信息和菜单的文本信息）。语音可识别信息可包括各种图像和图像的名称。如果语音输入被接收并且前述信息被显示在屏幕中，则控制器120将文本连同接收的语音输入数据发送到语音识别引擎170，并从语音识别引擎170接收语音识别结果以进行操作，其中，所述文本包括从在屏幕中显示的信息提取的至少一个词语。上述示例与从语音识别引擎170接收语音输入数据和语音可识别信息的前述示例性实施例相同，只是所述数据没有被存储在语音识别设备100中，而是被显示在显示单元160上。

图2是根据另一示例性实施例的包括语音识别设备和语音识别服务器的语音识别系统的框图。

参照图2，语音识别系统1包括语音识别设备100和语音识别服务器200。语音识别设备100包括语音输入单元110、控制器120、存储单元130、通信单元140、图像处理器150和显示单元160。语音输入单元110、控制器120、图像处理器150和显示单元160的功能与在图1中描述的那些相同。存储单元130在其中存储语音可识别信息。如果语音输入被接收，则存储单元130可在其中存储显示在显示单元160上的语音可识别信息。如参照图1的描述，存储单元130可在其中预先存储语音识别设备100的控制命令。通信单元140在网络300中与语音识别服务器200通信。网络300可以是有线/无线网络。

控制器120将用户输入的语音输入数据和语音可识别信息发送到语音识别服务器200，并接收对应于语音识别的识别结果以进行操作。语音识别设备100的详细描述与图1中的描述相同，并因此不再复述。

语音识别服务器200包括通信单元210、控制器220、语音识别单元230、存储单元240和识别调整器250。语音识别服务器200可包括基于服务器的通用语音识别引擎（其在识别词语的数量方面不受限制），而不是受限于识别词语的数量的嵌入式语音识别引擎。

通信单元210在有线/无线网络300中与语音识别设备100通信。语音识别引擎被安装在执行语音识别功能的语音识别单元230中。存储单元240在其中存储由语音识别设备100发送的语音可识别信息。当语音识别单元230执行语音识别功能时，所存储的语音可识别信息可被参考。

控制器220控制语音识别单元230仅相对于存储在存储单元240中的语音可识别信息，识别由语音识别设备100发送的语音输入数据，并将语音识别结果发送到语音识别设备100。如果语音识别结果类似于存储在存储单元240中的语音可识别信息，则识别调整器250将语音识别结果调整为语音可识别信息中的最类似信息。

更具体地讲，如图1所示，如果语音识别服务器200从语音识别设备100接收到具有类似于“小声一点”的发音的语音输入数据以及语音可识别信息（诸如，“音量提高”、“音量降低”、“大声一点”、“小声一点”、“上调频道”、“下调频道”、“电源开启”和“电源关闭”），则语音识别单元230将所述语音输入识别为类似于“小声一点”的发音。如果控制器220确定不存在相同的信息但存在类似的“小声一点”，则控制器220控制识别调整器250将识别结果调整为“小声一点”。语音识别服务器200将对应于调整的“小声一点”的控制信息发送到语音识别设备100，并且语音识别设备100接收语音识别结果以进行操作。

图3示出根据示例性实施例的显示语音可识别信息的网页的示例。

参照图3，如果语音识别设备100包括计算机或移动终端，则网页被显示在显示单元160上。在图3中，语音可识别信息是指在语音输入被从用户接收时显示的网页的链接信息、菜单或文本。

用户通过使用所述用户的语音或键盘从计算机的网页搜索“紫菜包饭”310。然后，与搜索结果相应的信息320被显示在网页中。然后，用户可通过使用语音信息选择与搜索结果相应的信息320中的一个。

例如，如果用户发出“智能”的声音以从上述与搜索结果相应的信息320中选择在第三链接中的“智能紫菜包饭”，则计算机的控制器120提取在语音输入被从用户接收时显示在屏幕中的“紫菜包饭世界”、“紫菜包饭国家”、“智能紫菜包饭”……“紫菜包饭天国”，并将它们作为语音可识别信息与所述语音输入数据“智能”一起发送到语音识别服务器200。语音识别服务器200接收语音输入数据“智能”和语音可识别信息，并将它们识别为“智能”。语音识别服务器200的控制器220将存储在存储单元240中的语音可识别信息与所述识别结果进行比较，并确定不存在与“智能”相同的信息，但存在类似的信息，即，“智能紫菜包饭”。然后，语音识别服务器200的控制器220控制识别调整器250将识别结果调整为“智能紫菜包饭”。语音识别服务器200将与调整的“智能紫菜包饭”相应的控制信息发送到语音识别设备100。当接收到语音识别结果时，语音识别设备100选择“智能紫菜包饭”的链接并显示相关的网页。

图4是根据示例性实施例的语音识别方法的流程图。图5是根据示例性实施例的语音识别方法的流程图。

参照图4和图5，语音识别设备100从用户接收语音输入（S400）。语音识别设备100将语音输入数据和语音可识别信息发送到语音识别服务器200（S420）。语音可识别信息可包括预先存储在语音识别设备100中的多个词语、或在语音输入被从用户接收时显示在屏幕中的网页或菜单的文本信息。语音可识别信息可还包括网页的图像或图像的名称、或网页的链接信息。当接收到语音输入数据和语音可识别信息时，语音识别服务器200仅相对于语音可识别信息来识别语音输入数据（S440）。更具体地讲，通过使用语音输入数据执行语音识别（S442）。如果语音识别结果类似却不同于语音可识别信息，则语音识别结果被调整以被识别为最类似的语音可识别信息（S444）。在图1中示出详细的示例性实施例，将省略描述。语音识别结果被发送到语音识别设备100（S460），并且语音识别设备100接收识别结果以进行操作。

因此，在识别词语方面不受限制的通用语音识别引擎可准确地识别在特定领域使用的有限数量的词语。

如上所述，语音识别设备、语音识别服务器、语音识别系统和语音识别方法可使用在识别词语方面不受限制的通用语音识别引擎，准确地识别在特定领域使用的有限数量的词语。

虽然若干示例性实施例已被示出并描述，但是本领域的技术人员将理解，在不脱离本发明的原则和精神的情况下，可对那些示例性实施例进行改变，其中，本发明的范围在权利要求及其等同物中限定。

Claims

1.一种语音识别设备，包括：

语音输入单元，从用户接收语音输入；

图像处理器，处理图像；

显示单元，在其上显示图像处理结果；以及

控制器，将语音输入的数据和语音可识别信息发送到语音识别引擎，并从语音识别引擎接收识别结果，其中，所述识别结果指示语音输入的数据是否对应于所述语音可识别信息。

2.如权利要求1所述的语音识别设备，其中，语音可识别信息包括文本信息。

3.如权利要求1所述的语音识别设备，其中，语音可识别信息包括作为语音识别的对象的多个词语。

4.如权利要求1所述的语音识别设备，其中，语音可识别信息包括图像或图像的名称。

5.如权利要求1所述的语音识别设备，其中，语音可识别信息包括网页的链接信息或菜单项。

6.如权利要求1所述的语音识别设备，其中，语音可识别信息包括文本，其中，所述文本包括在语音输入被接收时显示的网页或菜单的至少一个词语。

7.如权利要求1所述的语音识别设备，其中，语音识别引擎在安装在语音识别设备中的装置中操作。

8.如权利要求1所述的语音识别设备，其中，语音识别引擎在安装在外设于语音识别设备的语音识别服务器中的装置中操作。

9.一种语音识别系统，包括：

如权利要求1到权利要求6中的任何一个权利要求所述的语音识别设备；

语音识别服务器，从语音识别设备接收语音输入数据和语音可识别信息，确定语音输入数据是否对应于语音可识别信息，并将识别结果发送到语音识别设备，

其中，语音识别引擎在安装在外设于语音识别设备的语音识别服务器中的装置中操作。

10.一种语音识别方法，包括：

通过语音识别设备接收语音输入；

将语音输入的数据和语音可识别信息发送到语音识别服务器；

确定语音输入的数据是否对应于语音可识别信息；以及

将语音识别结果发送到语音识别设备，其中，所述语音识别结果指示输入语音的数据是否对应于语音可识别信息。

11.如权利要求10所述的语音识别方法，其中，语音可识别信息包括文本信息。

12.如权利要求10所述的语音识别方法，其中，语音可识别信息包括作为语音识别的对象的多个词语。

13.如权利要求10所述的语音识别方法，其中，语音可识别信息包括图像或图像的名称。

14.如权利要求10所述的语音识别方法，其中，语音可识别信息包括网页的链接信息或菜单项。

15.如权利要求10所述的语音识别方法，其中，语音可识别信息包括文本，其中，所述文本包括在语音输入被接收时显示的网页或菜单的至少一个词语。