CN102930867A - 语音识别设备、语音识别服务器、语音识别系统和方法 - Google Patents

语音识别设备、语音识别服务器、语音识别系统和方法 Download PDF

Info

Publication number
CN102930867A
CN102930867A CN2012102607842A CN201210260784A CN102930867A CN 102930867 A CN102930867 A CN 102930867A CN 2012102607842 A CN2012102607842 A CN 2012102607842A CN 201210260784 A CN201210260784 A CN 201210260784A CN 102930867 A CN102930867 A CN 102930867A
Authority
CN
China
Prior art keywords
speech recognition
voice
identifying information
recognition apparatus
voice identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102607842A
Other languages
English (en)
Inventor
朴殷相
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN102930867A publication Critical patent/CN102930867A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

一种语音识别设备、语音识别服务器、语音识别系统和方法,在其中,通用语音识别引擎可准确地识别在特定领域使用的有限数量的词语。

Description

语音识别设备、语音识别服务器、语音识别系统和方法
技术领域
与示例性实施例一致的设备和方法涉及一种语音识别设备、语音识别服务器、语音识别系统和语音识别方法,更具体地讲,涉及一种使用通用语音识别引擎,准确地识别在特定领域使用的有限数量的词语的语音识别设备、语音识别服务器、语音识别系统和语音识别方法。
背景技术
语音识别技术被广泛地用于家用电器(诸如,数字TV)以及PC和移动通信装置中。尤其是,移动通信装置已采用基于服务器的语音识别技术并提供搜索功能(诸如,网页搜索)和用于作为语音输入SMS功能的功能。基于服务器的语音识别引擎不仅识别在所谓特定领域使用的语言,还识别在非特定领域的各种词语。可在PC、移动通信装置或数字TV之内提供在可识别词语方面不受限制的通用语音识别引擎。
如果前述语音识别引擎被限制在特定领域并具有有限数量的可识别词语,则前述语音识别引擎比起专门的语音识别引擎提供更低的识别率,或在初始识别词语时不太成功。
发明内容
因此,一个或多个示例性实施例提供一种语音识别设备、语音识别服务器、语音识别系统和语音识别方法,其中,所述语音识别设备、语音识别服务器、语音识别系统和语音识别方法使用在可识别词语方面不受限制的通用语音识别引擎准确地识别在特定领域使用的有限数量的词语。
根据示例性实施例的一方面,提供一种语音识别设备,所述语音识别设备包括:语音输入单元,从用户接收语音输入;图像处理器,处理图像;显示单元,在其上显示图像处理结果;控制器,将语音输入的数据和语音可识别信息发送到语音识别引擎,并从语音识别引擎接收识别结果,其中,所述识别结果指示输入语音的数据是否对应于语音可识别信息。
语音可识别信息可包括文本信息。
语音可识别信息可包括作为语音识别的对象的多个词语。
语音可识别信息可包括图像或图像的名称。
语音可识别信息可包括网页的链接信息或菜单项。
语音可识别信息可包括文本,其中,所述文本具有在语音输入被接收时显示的网页或菜单的至少一个词语。
语音识别设备可包括移动终端、计算机和显示设备中的一种。
语音识别引擎可在安装在语音识别设备中的装置中操作。
语音识别引擎可在安装在外设于语音识别设备的语音识别服务器中的装置中操作。
可通过提供一种语音识别设备来实现另一方面,所述语音识别设备包括:语音输入单元,从用户接收语音输入;图像处理器,处理图像;显示单元,显示处理的图像;通信单元,与语音识别服务器通信;控制器,将语音输入的数据和语音可识别信息发送到语音识别服务器,并从语音识别服务器接收识别结果,其中,所述识别结果指示语音输入的数据是否对应于语音可识别信息。
语音识别设备可还包括存储单元,在其中存储语音可识别信息。
根据示例性实施例的一方面,提供一种语音识别服务器,所述语音识别服务器包括:通信单元,从语音识别设备接收语音输入数据和语音可识别信息;语音识别单元,执行语音识别功能,其中,所述语音识别功能确定语音输入数据是否对应于语音可识别信息;控制器,控制语音识别单元执行语音识别功能,并将识别结果发送到语音识别设备,其中,所述识别结果指示语音输入数据是否对应于语音可识别信息。
语音识别服务器可还包括存储单元,在其中存储语音可识别信息。
语音识别服务器可还包括识别调整器,如果识别结果类似于语音可识别信息,则所述识别调整器将所述识别结果调整为语音可识别信息中的最类似信息。
语音识别单元可包括基于服务器的通用语音识别引擎。
语音可识别信息可包括文本信息。
语音可识别信息可包括作为语音识别的对象的多个词语。
语音可识别信息可包括图像或图像的名称。
语音可识别信息可包括网页的链接信息或菜单项。
根据示例性实施例的一方面,提供一种语音识别系统,所述语音识别系统包括:语音识别设备,将语音输入数据和语音可识别信息发送到语音识别服务器,并从语音识别服务器接收识别结果,其中,所述识别结果指示语音输入数据是否对应于语音可识别信息;语音识别服务器,从语音识别设备接收语音输入数据和语音可识别信息,确定语音输入数据是否对应于语音可识别信息,并将识别结果发送到语音识别设备。
如果识别结果类似于语音可识别信息,则识别结果可被调整为语音可识别信息中的最类似信息。
根据示例性实施例的一方面,提供一种语音识别方法,所述语音识别方法包括:通过语音识别设备接收语音输入;将语音输入的数据和语音可识别信息发送到语音识别服务器;确定语音输入的数据是否对应于语音可识别信息;将语音识别结果发送到语音识别设备,其中,所述语音识别结果指示语音输入的数据是否对应于语音可识别信息。
语音可识别信息可包括文本信息。
语音可识别信息可包括作为语音识别的对象的多个词语。
语音可识别信息可包括图像或图像的名称。
语音可识别信息可包括网页的链接信息或菜单项。
语音可识别信息可包括文本,其中,所述文本具有在语音输入被接收时显示的网页或菜单的至少一个词语。
所述确定步骤可包括:如果识别结果类似于语音可识别信息,则将识别结果调整为语音可识别信息中的最类似信息。
附图说明
通过下面结合附图对示例性实施例的描述,本发明的上述和/或其他方面将会变得清楚并更容易理解,其中:
图1是根据示例性实施例的语音识别设备的框图;
图2是根据另一示例性实施例的包括语音识别设备和语音识别服务器的语音识别系统的框图;
图3示出根据示例性实施例的显示语音可识别信息的网页的示例;
图4是根据示例性实施例的语音识别方法的流程图;以及
图5是根据另一示例性实施例的语音识别方法的流程图。
具体实施方式
以下,将参照附图来详细描述示例性实施例,从而使本领域的普通技术人员容易实现所述示例性实施例。可以以各种形式实现所述示例性实施例而不限于在此阐述的示例性实施例。为了清楚,省略对公知部分的描述,并且相同的标号始终指示相同的元件。
图1是根据示例性实施例的语音识别设备的框图。
参照图1,语音识别设备100包括语音输入单元110、控制器120、图像处理器150、显示单元160和语音识别引擎170。
语音识别设备100可包括移动终端、计算机或显示设备。语音输入单元110从用户接收语音输入,执行模数(A/D)转换以将输入的语音转换为数字格式。
图像处理器150处理由控制器120输入的信号,以显示图像。
显示单元160在其上显示图像处理结果。更具体地讲,显示单元160在其上显示可由用户作为语音发出的信息。显示单元160在其上显示与语音输入的识别结果相应的信息。
语音识别引擎170可包括由语音识别设备100中的单独的装置执行的软件。例如,可在语音识别设备100之内设置的芯片上安装语音识别引擎170。语音识别引擎170可包括软件,其中,所述软件存储在闪存中并在语音识别设备100的开通和操作时,由主存储器(诸如控制器120)执行,而不是由所述单独的装置来执行。图1示出包括在语音识别设备100中的语音识别引擎170,但是所述语音识别引擎170不限于此。或者,可在语音识别设备100的外部设置语音识别引擎170。例如,语音识别引擎可被设置在通过因特网连接的外部语音识别服务器中或被设置在本地网络中连接的外部装置中。
控制器120将通过语音输入单元110输入的语音输入数据和语音可识别信息发送到语音识别引擎170,并从语音识别引擎170接收语音输入的识别结果。语音输入数据是指用户发出的语音信息。语音可识别信息可包括在移动终端、计算机或显示设备中提供的文本信息,更具体地讲,可被识别为语音的多个词语。例如,当用户从显示设备观看电影或新闻时,该用户会发出“音量提高”、“音量降低”或者“大声一点”或“小声一点”的声音以调整电影或新闻的声音。用户可发出“上调频道”或“下调频道”的声音以改变频道,或发出“电源开启”或“电源关闭”的声音以控制电源。如上,用于控制显示设备并预先被存储在显示设备中的一组控制命令为语音可识别信息。
如果用户发出“大声一点”的声音,则控制器120将语音输入数据“大声一点”和预先存储在显示设备中的语音可识别信息(诸如,“音量提高”、“音量降低”、“大声一点”、“小声一点”、“上调频道”、“下调频道”、“电源开启”和“电源关闭”)发送到语音识别引擎170。然后,语音识别引擎170从语音输入数据“大声一点”提取语音特征矢量,并将所述矢量与若干对应于语音可识别信息的命令进行比较。如果确定存在与“大声一点”相同的语音可识别信息,则对应于“大声一点”的控制信息被发送到控制器120,并且控制器120调整显示设备的声音。控制信息对应于针对控制器120和语音识别引擎170之间的每个功能的命令。
如果用户大概发出类似于“小声一点”的声音,则控制器120将类似于“小声一点”的语音输入数据和语音可识别信息(诸如,“音量提高”、“音量降低”、“大声一点”、“小声一点”、“上调频道”、“下调频道”、“电源开启”和“电源关闭”)发送到语音识别引擎170。语音识别引擎170从类似于“小声一点”的语音输入数据提取语音特征矢量,并将所述矢量与若干对应于语音可识别信息的命令进行比较。语音识别引擎170可确定存在与“小声一点”类似但不相同的语音可识别信息。如果语音输入数据即使与语音可识别数据不同,却非常类似于语音可识别数据,则语音识别引擎170可调整语音识别结果并将语音输入数据识别为“小声一点”。如果语音识别引擎170将对应于“小声一点”的控制信息发送到控制器120,则控制器120调整显示设备的声音。
在前述示例性实施例中,语音可识别信息被预先存储在移动终端、计算机或显示设备中,但是语音可识别信息的存储不限于此。或者,当语音识别设备100从用户接收语音输入数据时,如果显示单元160显示计算机的网页或显示设备的菜单,则语音可识别信息可包括在屏幕中显示的文本信息(诸如,网页的链接信息、网页的文本信息和菜单的文本信息)。语音可识别信息可包括各种图像和图像的名称。如果语音输入被接收并且前述信息被显示在屏幕中,则控制器120将文本连同接收的语音输入数据发送到语音识别引擎170,并从语音识别引擎170接收语音识别结果以进行操作,其中,所述文本包括从在屏幕中显示的信息提取的至少一个词语。上述示例与从语音识别引擎170接收语音输入数据和语音可识别信息的前述示例性实施例相同,只是所述数据没有被存储在语音识别设备100中,而是被显示在显示单元160上。
图2是根据另一示例性实施例的包括语音识别设备和语音识别服务器的语音识别系统的框图。
参照图2,语音识别系统1包括语音识别设备100和语音识别服务器200。语音识别设备100包括语音输入单元110、控制器120、存储单元130、通信单元140、图像处理器150和显示单元160。语音输入单元110、控制器120、图像处理器150和显示单元160的功能与在图1中描述的那些相同。存储单元130在其中存储语音可识别信息。如果语音输入被接收,则存储单元130可在其中存储显示在显示单元160上的语音可识别信息。如参照图1的描述,存储单元130可在其中预先存储语音识别设备100的控制命令。通信单元140在网络300中与语音识别服务器200通信。网络300可以是有线/无线网络。
控制器120将用户输入的语音输入数据和语音可识别信息发送到语音识别服务器200,并接收对应于语音识别的识别结果以进行操作。语音识别设备100的详细描述与图1中的描述相同,并因此不再复述。
语音识别服务器200包括通信单元210、控制器220、语音识别单元230、存储单元240和识别调整器250。语音识别服务器200可包括基于服务器的通用语音识别引擎(其在识别词语的数量方面不受限制),而不是受限于识别词语的数量的嵌入式语音识别引擎。
通信单元210在有线/无线网络300中与语音识别设备100通信。语音识别引擎被安装在执行语音识别功能的语音识别单元230中。存储单元240在其中存储由语音识别设备100发送的语音可识别信息。当语音识别单元230执行语音识别功能时,所存储的语音可识别信息可被参考。
控制器220控制语音识别单元230仅相对于存储在存储单元240中的语音可识别信息,识别由语音识别设备100发送的语音输入数据,并将语音识别结果发送到语音识别设备100。如果语音识别结果类似于存储在存储单元240中的语音可识别信息,则识别调整器250将语音识别结果调整为语音可识别信息中的最类似信息。
更具体地讲,如图1所示,如果语音识别服务器200从语音识别设备100接收到具有类似于“小声一点”的发音的语音输入数据以及语音可识别信息(诸如,“音量提高”、“音量降低”、“大声一点”、“小声一点”、“上调频道”、“下调频道”、“电源开启”和“电源关闭”),则语音识别单元230将所述语音输入识别为类似于“小声一点”的发音。如果控制器220确定不存在相同的信息但存在类似的“小声一点”,则控制器220控制识别调整器250将识别结果调整为“小声一点”。语音识别服务器200将对应于调整的“小声一点”的控制信息发送到语音识别设备100,并且语音识别设备100接收语音识别结果以进行操作。
图3示出根据示例性实施例的显示语音可识别信息的网页的示例。
参照图3,如果语音识别设备100包括计算机或移动终端,则网页被显示在显示单元160上。在图3中,语音可识别信息是指在语音输入被从用户接收时显示的网页的链接信息、菜单或文本。
用户通过使用所述用户的语音或键盘从计算机的网页搜索“紫菜包饭”310。然后,与搜索结果相应的信息320被显示在网页中。然后,用户可通过使用语音信息选择与搜索结果相应的信息320中的一个。
例如,如果用户发出“智能”的声音以从上述与搜索结果相应的信息320中选择在第三链接中的“智能紫菜包饭”,则计算机的控制器120提取在语音输入被从用户接收时显示在屏幕中的“紫菜包饭世界”、“紫菜包饭国家”、“智能紫菜包饭”……“紫菜包饭天国”,并将它们作为语音可识别信息与所述语音输入数据“智能”一起发送到语音识别服务器200。语音识别服务器200接收语音输入数据“智能”和语音可识别信息,并将它们识别为“智能”。语音识别服务器200的控制器220将存储在存储单元240中的语音可识别信息与所述识别结果进行比较,并确定不存在与“智能”相同的信息,但存在类似的信息,即,“智能紫菜包饭”。然后,语音识别服务器200的控制器220控制识别调整器250将识别结果调整为“智能紫菜包饭”。语音识别服务器200将与调整的“智能紫菜包饭”相应的控制信息发送到语音识别设备100。当接收到语音识别结果时,语音识别设备100选择“智能紫菜包饭”的链接并显示相关的网页。
图4是根据示例性实施例的语音识别方法的流程图。图5是根据示例性实施例的语音识别方法的流程图。
参照图4和图5,语音识别设备100从用户接收语音输入(S400)。语音识别设备100将语音输入数据和语音可识别信息发送到语音识别服务器200(S420)。语音可识别信息可包括预先存储在语音识别设备100中的多个词语、或在语音输入被从用户接收时显示在屏幕中的网页或菜单的文本信息。语音可识别信息可还包括网页的图像或图像的名称、或网页的链接信息。当接收到语音输入数据和语音可识别信息时,语音识别服务器200仅相对于语音可识别信息来识别语音输入数据(S440)。更具体地讲,通过使用语音输入数据执行语音识别(S442)。如果语音识别结果类似却不同于语音可识别信息,则语音识别结果被调整以被识别为最类似的语音可识别信息(S444)。在图1中示出详细的示例性实施例,将省略描述。语音识别结果被发送到语音识别设备100(S460),并且语音识别设备100接收识别结果以进行操作。
因此,在识别词语方面不受限制的通用语音识别引擎可准确地识别在特定领域使用的有限数量的词语。
如上所述,语音识别设备、语音识别服务器、语音识别系统和语音识别方法可使用在识别词语方面不受限制的通用语音识别引擎,准确地识别在特定领域使用的有限数量的词语。
虽然若干示例性实施例已被示出并描述,但是本领域的技术人员将理解,在不脱离本发明的原则和精神的情况下,可对那些示例性实施例进行改变,其中,本发明的范围在权利要求及其等同物中限定。

Claims (15)

1.一种语音识别设备,包括:
语音输入单元,从用户接收语音输入;
图像处理器,处理图像;
显示单元,在其上显示图像处理结果;以及
控制器,将语音输入的数据和语音可识别信息发送到语音识别引擎,并从语音识别引擎接收识别结果,其中,所述识别结果指示语音输入的数据是否对应于所述语音可识别信息。
2.如权利要求1所述的语音识别设备,其中,语音可识别信息包括文本信息。
3.如权利要求1所述的语音识别设备,其中,语音可识别信息包括作为语音识别的对象的多个词语。
4.如权利要求1所述的语音识别设备,其中,语音可识别信息包括图像或图像的名称。
5.如权利要求1所述的语音识别设备,其中,语音可识别信息包括网页的链接信息或菜单项。
6.如权利要求1所述的语音识别设备,其中,语音可识别信息包括文本,其中,所述文本包括在语音输入被接收时显示的网页或菜单的至少一个词语。
7.如权利要求1所述的语音识别设备,其中,语音识别引擎在安装在语音识别设备中的装置中操作。
8.如权利要求1所述的语音识别设备,其中,语音识别引擎在安装在外设于语音识别设备的语音识别服务器中的装置中操作。
9.一种语音识别系统,包括:
如权利要求1到权利要求6中的任何一个权利要求所述的语音识别设备;
语音识别服务器,从语音识别设备接收语音输入数据和语音可识别信息,确定语音输入数据是否对应于语音可识别信息,并将识别结果发送到语音识别设备,
其中,语音识别引擎在安装在外设于语音识别设备的语音识别服务器中的装置中操作。
10.一种语音识别方法,包括:
通过语音识别设备接收语音输入;
将语音输入的数据和语音可识别信息发送到语音识别服务器;
确定语音输入的数据是否对应于语音可识别信息;以及
将语音识别结果发送到语音识别设备,其中,所述语音识别结果指示输入语音的数据是否对应于语音可识别信息。
11.如权利要求10所述的语音识别方法,其中,语音可识别信息包括文本信息。
12.如权利要求10所述的语音识别方法,其中,语音可识别信息包括作为语音识别的对象的多个词语。
13.如权利要求10所述的语音识别方法,其中,语音可识别信息包括图像或图像的名称。
14.如权利要求10所述的语音识别方法,其中,语音可识别信息包括网页的链接信息或菜单项。
15.如权利要求10所述的语音识别方法,其中,语音可识别信息包括文本,其中,所述文本包括在语音输入被接收时显示的网页或菜单的至少一个词语。
CN2012102607842A 2011-08-08 2012-07-25 语音识别设备、语音识别服务器、语音识别系统和方法 Pending CN102930867A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2011-0078703 2011-08-08
KR1020110078703A KR20130016644A (ko) 2011-08-08 2011-08-08 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법

Publications (1)

Publication Number Publication Date
CN102930867A true CN102930867A (zh) 2013-02-13

Family

ID=46022022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102607842A Pending CN102930867A (zh) 2011-08-08 2012-07-25 语音识别设备、语音识别服务器、语音识别系统和方法

Country Status (4)

Country Link
US (1) US20130041666A1 (zh)
EP (1) EP2557565A1 (zh)
KR (1) KR20130016644A (zh)
CN (1) CN102930867A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123930A (zh) * 2013-04-27 2014-10-29 华为技术有限公司 喉音识别方法及装置
WO2019076120A1 (zh) * 2017-10-19 2019-04-25 格力电器(武汉)有限公司 一种图像处理的方法、装置、存储介质及电子装置
CN110764422A (zh) * 2018-07-27 2020-02-07 珠海格力电器股份有限公司 电器的控制方法和装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
CN104122806A (zh) * 2013-04-28 2014-10-29 海尔集团公司 家电设备的控制方法和系统
KR102053820B1 (ko) 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
KR102345611B1 (ko) * 2013-11-18 2021-12-31 삼성전자주식회사 디스플레이 장치 및 제어 방법
KR102215579B1 (ko) * 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
KR101587625B1 (ko) * 2014-11-18 2016-01-21 박남태 음성제어 영상표시 장치 및 영상표시 장치의 음성제어 방법
KR20180118461A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
CN107507615A (zh) 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5809471A (en) * 1996-03-07 1998-09-15 Ibm Corporation Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
WO2001035390A1 (en) * 1999-11-09 2001-05-17 Koninklijke Philips Electronics N.V. Speech recognition method for activating a hyperlink of an internet page
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP3862470B2 (ja) * 2000-03-31 2006-12-27 キヤノン株式会社 データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
US20020178182A1 (en) * 2001-05-04 2002-11-28 Kuansan Wang Markup language extensions for web enabled recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US7062444B2 (en) * 2002-01-24 2006-06-13 Intel Corporation Architecture for DSR client and server development platform
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
WO2004045154A1 (en) * 2002-11-13 2004-05-27 Intel Corporation Multi-modal web interaction over wireless network
JP2006033795A (ja) * 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
KR100790177B1 (ko) * 2006-04-28 2008-01-02 삼성전자주식회사 휴대단말기에서 이미지 디스플레이 방법 및 장치
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20090092266A1 (en) * 2007-10-04 2009-04-09 Cheng-Chieh Wu Wireless audio system capable of receiving commands or voice input
US8359204B2 (en) * 2007-10-26 2013-01-22 Honda Motor Co., Ltd. Free-speech command classification for car navigation system
US20090172546A1 (en) * 2007-12-31 2009-07-02 Motorola, Inc. Search-based dynamic voice activation
US8255224B2 (en) * 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US20090271200A1 (en) * 2008-04-23 2009-10-29 Volkswagen Group Of America, Inc. Speech recognition assembly for acoustically controlling a function of a motor vehicle
EP2275953B1 (en) * 2009-06-30 2018-10-24 LG Electronics Inc. Mobile terminal
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
KR20120080069A (ko) * 2011-01-06 2012-07-16 삼성전자주식회사 디스플레이 장치 및 그 음성 제어 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123930A (zh) * 2013-04-27 2014-10-29 华为技术有限公司 喉音识别方法及装置
WO2019076120A1 (zh) * 2017-10-19 2019-04-25 格力电器(武汉)有限公司 一种图像处理的方法、装置、存储介质及电子装置
CN110764422A (zh) * 2018-07-27 2020-02-07 珠海格力电器股份有限公司 电器的控制方法和装置

Also Published As

Publication number Publication date
US20130041666A1 (en) 2013-02-14
EP2557565A1 (en) 2013-02-13
KR20130016644A (ko) 2013-02-18

Similar Documents

Publication Publication Date Title
CN102930867A (zh) 语音识别设备、语音识别服务器、语音识别系统和方法
US11854570B2 (en) Electronic device providing response to voice input, and method and computer readable medium thereof
KR102169520B1 (ko) 전자장치, 서버 및 그 제어방법
US20200260127A1 (en) Interactive server, display apparatus, and control method thereof
US9886952B2 (en) Interactive system, display apparatus, and controlling method thereof
US11488598B2 (en) Display device and method for controlling same
US10250935B2 (en) Electronic apparatus controlled by a user&#39;s voice and control method thereof
KR20160091725A (ko) 음성 인식 방법 및 장치
US10191716B2 (en) Method and apparatus for recognizing voice in portable device
CN108710458B (zh) 一种分屏控制方法和终端设备
KR20150054490A (ko) 음성인식 시스템, 음성인식 서버 및 디스플레이 장치의 제어방법
CN109240641B (zh) 音效调整方法、装置、电子设备以及存储介质
CN111522524B (zh) 一种基于会议机器人的演示文稿控制方法、装置、存储介质及终端
US11163378B2 (en) Electronic device and operating method therefor
US11455990B2 (en) Electronic device and control method therefor
CN108334252B (zh) 一种处理媒体文件的方法和终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130213