CN105814628A

CN105814628A - 用于基于装置信息来执行语音识别的方法和设备

Info

Publication number: CN105814628A
Application number: CN201480067289.7A
Authority: CN
Inventors: 朴致衍; 李清宰; 金南勋; 李暻慜; 李在原
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-10-08
Filing date: 2014-10-08
Publication date: 2016-07-27
Anticipated expiration: 2034-10-08
Also published as: US10636417B2; KR102274317B1; CN105814628B; KR20150041599A; US20160232894A1

Abstract

公开了一种获得用于执行语音识别的语法模型的方法，所述方法包括：获得与至少一个装置的状态有关的信息；基于获得的信息来获得与所述至少一个装置有关的语法模型信息；基于获得的语法模型信息来产生用于执行语音识别的语法模型。

Description

用于基于装置信息来执行语音识别的方法和设备

技术领域

本发明构思涉及一种用于基于与装置有关的信息来执行语音识别的方法和设备。

背景技术

语音识别是将接收到的用户的语音的输入自动转换为文本以识别语音的技术。近来，语音识别正在智能电话或TV中被用作代替键盘输入的接口技术。

通常，语音识别系统可通过使用声音模型、语法模型和发音词典来执行语音识别。为了在语音识别系统中对语音中的预定词语执行语音识别，有必要预先建立针对预定词语的语法模型和发音词典。

发明内容

技术问题

本发明构思提供一种用于基于与装置有关的信息来执行语音识别的方法和设备。具体而言，本发明构思提供一种用于基于与装置的状态有关的信息来执行语音识别的方法和设备，其中，所述装置可根据语音识别的结果而被控制。

技术方案

根据本发明构思的一方面，提供了一种获得用于执行语音识别的语法模型的方法，其中，所述方法包括：获得与至少一个装置的状态有关的信息，基于获得的信息来获得与所述至少一个装置有关的语法模型信息，基于获得的语法模型信息来产生用于执行语音识别的语法模型。

与所述至少一个装置的状态有关的信息可包括以下项中的至少一项：与每个装置的操作状态有关的信息、与每个装置是否是可控制的有关的信息，与每个装置被安装或被连接的位置有关的信息以及在每个装置中可执行的操作。

语法模型信息可包括：基于与所述至少一个转置的状态有关的信息而将插入文本串的至少一条模式信息。产生语法模型的步骤可包括：获得用于确定将被插入到模式信息中的文本串的发音表，根据与所述至少一个装置的状态有关的信息来从发音表获得与模式信息相应的至少一个文本串，通过将获得的文本串插入到语法模型信息中所包括的模式信息中来获得与所述至少一个装置有关的语法模型信息。

所述方法还可包括基于产生的语法模型来执行语音识别。

每当所述至少一个装置的状态改变时，与所述至少一个装置的状态有关的信息可被获得，语法模型信息可基于获得的信息而被获得，语法模型可基于获得的语法模型信息而被产生。

当所述至少一个装置是探头时，根据探头的类型，与装置有关的语法模型信息可包括针对探头的应用对象或预设的设置，或者在探头的超声设备中可执行的控制命令。

根据本发明构思的另一方面，提供了一种用于获得用于执行语音识别的语法模型的设备，其中，所述设备包括：接收部分，获得与至少一个装置的状态有关的信息，并基于获得的信息来获得与所述至少一个装置有关的语法模型信息；控制部分，基于获得的语法模型信息来产生用于执行语音识别的语法模型。

有益效果

根据示例性实施例，由于根据装置的状态信息而产生了语法模型，因此可降低在语音识别期间错误识别的可能性。

附图说明

图1是示出根据示例性实施例的包括至少一个装置和语音识别设备的语音识别系统的框图。

图2是示出根据示例性实施例的在语音识别设备中产生语法模型的处理的示意性示图。

图3是示出根据示例性实施例的语音识别部分的示例的框图。

图4是用于描述根据示例性实施例的获得语法模型的方法的流程图。

图5是用于描述根据示例性实施例的获得语法模型的方法的流程图。

图6是用于描述根据示例性实施例的获得用于控制超声设备的语法模型的方法的示例的示图。

图7是用于描述根据示例性实施例的在超声设备中获得语法模型的方法的流程图。

图8是示出根据示例性实施例的超声设备的状态的示例的示图。

图9是用于描述根据口头命令来获得用于控制家用电器的语法模型的示例的示图。

图10和图11是示出根据示例性实施例的用于获得语法模型的语音识别设备的内部结构的框图。

具体实施方式

现在将参照附图更加全面地描述本发明构思，其中，在附图中示出发明构思的示例性实施例。贯穿附图，同样的附图标号指示同样的元件。在以下的描述中，当与相关的公知功能或结构有关的详细描述被确定为使本发明构思的主旨不清楚时，将在此省略详细描述。

简要地描述了在本说明书中使用的术语，并且详细地描述了本发明构思。在本发明构思中使用的术语是在考虑到本发明构思中的功能的情况下从当前广泛使用的通用术语中选择出的那些术语。然而，术语可根据工程师的意图、先例或新技术的出现而改变。此外，针对特定情况，使用了被发明人选择的术语，其中，在描述部分中详细地描述了被选择的术语的含义。相应地，在本发明构思中使用的术语基于贯穿说明书讨论的术语和内容的含义而被限定，而不被术语的简单含义所限定。

在以下的描述中，当层被描述为存在于另一层之上时，所述层可直接存在于所述另一层之上或者第三层可介于所述层和所述另一层之间。此外，为了解释的方便和清楚，在附图中示出的每个层的厚度或大小可被夸大。在附图中，同样参考物指示同样的组成元件。如本说明书中所使用，术语“和/或”包括所列项中的任一项以及所述项的至少一种组合中的所有组合。

当部件可“包括”特定组成元件时，除非另有指定，否则部件可不被解释为排除另一组成元件，但是可被解释为还包括其它组成元件。在说明书中陈述的诸如“～部分”、“～单元”、“～模块”和“～块”的术语可表示用于处理至少一个功能或操作的单元并且单元可由硬件(诸如，现场可编程门阵列(FPGA)或专用集成电路(ASIC))、软件或者硬件与软件的组合来实现。然而，单元可被配置为位于将被寻址的存储介质中或者被配置为能够操作一个或更多个处理器。因此，作为示例的单元包括：组成元件(诸如，软件组成元件、面向对象软件组成元件、类组成元件和任务组成元件)、进程、功能、属性、过程、子例程、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表、阵列和变量。组成元件和由“单元”提供的功能可被组合为更少数量的组成元件和单元，或者还可被划分为另外的组成元件和单元。因此，本发明构思不被软件和硬件的特定组合所限制。

参照用于示出本发明构思的示例性实施例的附图以便取得对本发明构思、本发明的优点以及通过本发明构思的实施而实现的目的的充分理解。在下文中，将通过参照附图解释本发明构思的示例性实施例来详细描述本发明构思。在附图中，同样的参考标号指示同样的元件。

图1示出根据示例性实施的包括至少一个装置以及语音识别设备的语音识别系统的框图。

根据示例性实施例的语音识别系统100可包括执行语音识别的语音识别设备110以及装置120、装置130和装置140中的至少一个装置。语音识别设备110可对用户语音执行语音识别并可基于通过执行语音识别而获得的文本串来控制装置。具体而言，语音识别设备110可基于作为语音识别的结果而获得的文本串来向装置120、装置130和装置140中的至少一个装置发送用于控制装置的控制信号。可根据基于用户的口头命令发送的控制信号来操作装置120、装置130和装置140。

语音识别设备110可从装置120、装置130和装置140中的至少一个装置接收与每个装置的状态有关的信息。当任何装置的状态被改变时，语音识别设备110可接收与改变的状态有关的信息。语音识别设备110可基于接收到的信息获得与针对至少一个装置的语法模型有关的信息，并从语法模型信息产生用于执行语音识别的语法模型。每当至少一个装置的状态改变时，语音识别设备110可产生将用于语音识别的新语法模型。

语法模型包含与每个词语出现的概率有关的信息并可用于语音识别。以下参照图3详细描述语法模型。可基于可控的装置的语法模型信息来产生用于在语音识别设备110中进行语音识别的语法模型。因此，根据示例性实施例的语音识别设备110可通过基于可控装置的语法模型信息执行语音识别来降低误识别的概率，而无需支持不必要的语法模型。例如，不必要的语法模型是不可被语音识别设备110控制的装置的语法模型。

语法模型信息包括针对装置的命令模型。换言之，语法模型信息可由用于控制装置的至少一个命令模型构成。例如，当装置是电视机(TV)时，语法模型信息可包括诸如“请增大音量”、“切换到下一频道”等的命令模型。上述命令模型可包括可用于在语音识别设备110中进行语音识别的命令的字素。

此外，语法模型信息的命令模型可包括可根据装置的状态而插入不同文本串的模式信息，而不包括固定字素的命令。例如，指示装置的安装位置的字素或与安装在装置中的应用的标识有关的信息可被插入到模式信息中。可插入到模式信息中的字素包括可由用户发出以执行口头命令的字素。与装置被安装到的位置有关的信息或与被安装在装置中的应用有关的信息可根据装置的状态而改变。语音识别设备110可基于与装置的状态有关的信息来确定将被插入到模式信息中的字素并且可将确定出的字素插入到模式信息中。将字素插入到模式信息中的语音识别设备110可从每个装置的包括多个命令模型的语法模型信息获得用于语音识别的语法模型。

语音识别设备110可将至少一个装置的将字素插入到模式信息中的多条语法模型信息合并。语音识别设备110可基于合并的语法模型信息的命令模型来产生包括与每个词语出现的概率有关的信息的语法模型。根据示例性实施例的语音识别设备110可在不将装置的多条语法模型信息合并的情况下获得针对每条语法模型信息的语法模型。

与每个词语出现的概率有关的信息可包括在词语出现在一些预定词语之前或之后的条件下与每个词语出现的条件概率有关的信息。以下参照图3来对其详细描述进行描述。

语音识别设备110可基于产生的语法模型来执行语音识别以控制至少一个装置。

图2是示出根据示例性实施例的在语音识别设备中产生语法模型的处理的示例性示图。

图2的语音识别设备200可包括语法模型产生部分210和语音识别部分220。语法模型产生部分210可基于与装置的状态有关的信息来产生语法模型。具体而言，语法模型产生部分210可通过基于与装置的状态有关的信息获得可控装置的语法模型信息来产生用于语音识别的语法模型。在语法模型产生部分210将至少一个可控装置的语法模型信息合并，并且从每条语法模型信息中所包括的命令模型获得与每个词语出现的概率有关的信息时，可获得用于语音识别的语法模型。

例如，可控装置可以是以有线或无线方式连接到语音识别设备110以接收控制信号的装置。可选地，可控装置可包括这样的装置：存在语音识别设备110或语音识别设备110的用户对所述装置的控制权限。

此外，语法模型产生部分210可基于与每个装置的状态有关的信息来确定将被插入到语法模型信息中所包括的模式信息中的字素，并通过将确定出的字素插入到模式信息中来获得每个装置的语法模型信息。语法模型产生部分210可从每个装置的语法模型信息产生用于语音识别的语法模型。

语音识别部分220可通过使用由语法模型产生部分210产生的语法模型来执行语音识别。具体而言，当用户语音被输入时，语音识别部分220可通过使用语法模型来执行语音识别。语音识别部分220可基于执行语音识别的结果来向至少一个装置输出用于控制装置的控制信号。

以下参照图3来详细描述语音识别部分300通过使用语法模型来执行语音识别的方法。

图3是示出根据示例性实施例的语音识别部分300的示例的框图。

参照图3，语音识别部分300可包括作为用于执行语音识别的组成元件的特征提取部分310、候选发音变体检测部分320和语言选择部分340。特征提取部分310提取与输入语音信号的特征有关的信息。候选发音变体检测部分320从提取出的特征信息检测至少一个候选发音变体。语言选择部分340基于与每个候选发音变体出现的概率有关的信息来选择用于语音识别的最终语言。与词语出现的概率有关的信息表示与特定词语在作为当执行语音识别时识别出的语音的语言中出现的概率有关的信息。在以下的描述中，详细描述语音识别部分300的每个组成元件。

当接收到语音信号时，特征提取部分310可仅检测由讲话者实际发出的语音部分，由此提取指示语音信号的特征的信息。指示语音信号的特征的信息可包括例如根据语音信号的波形来指示嘴唇的形状或舌头的位置的信息。

候选发音变体检测部分320可通过使用提取出的语音信号特征信息和声学模型330来检测与语音信号匹配的候选发音变体中的至少一个候选发音变体。可根据语音信号来检测多个候选发音变体。例如，由于“jyeo”和“jeo”彼此发音相似，因此可针对相同的语音信号检测出包括“jyeo”和“jeo”的发音的多个候选发音变体。虽然可以以词语为单位来检测候选发音变体，但是本示例性实施例可不限于此，可以以各种单位(诸如，音素)为单位来检测候选发音变体。

声学模型330可包括用于从与语音信号的特征有关的信息检测候选发音变体的信息。此外，通过使用统计方法，声学模型330可从大量语音数据中产生，可从多条非特定的口头语音数据中产生，或者可从采集自特定讲话者的口头语音数据中产生。因此，可在语音识别期间根据讲话者而分别应用声学模型330。

语言选择部分340可通过使用发音字典350和语法模型360来获得由候选发音变体检测部分320检测到的候选发音变体中的每个候选发音变体的出现概率信息。语言选择部分340基于候选发音变体中的每个候选发音变体的出现概率信息来选择语音识别出的最终语言。具体而言，语言选择部分340可通过使用发音字典350来确定与候选发音变体中的每个候选发音变体相应的词语，并可获得通过使用语法模型360确定的每个词语的出现概率的值。

发音词典350可包括获得与由候选发音变体检测部分320检测到的候选发音变体相应的词语所需要的信息。可从根据每个词语的音素变化现象获得的发音变体建立发音词典350。

出现概率值表示当前词语出现的概率或当前词语与特定词语同时出现的概率。语音识别部分300可通过使用出现概率值来执行考虑上下文的语音识别。

语音识别部分300通过使用发音词典350来获得候选发音变体的词语，并且通过使用语法模型360来获得针对每个词语的出现概率信息，由此执行语音识别。本示例性实施例不限于此，语音识别部分300可在不通过发音词典350获得与发音变体相应的词语的情况下，通过使用候选发音变体来从语法模型360获得出现概率信息。

语法模型360可包括与词语有关的出现概率信息。可针对每个词语而存在出现概率信息。语音识别部分300可从语法模型360获得针对候选发音变体中的每个候选发音变体中所包括的词语的出现概率信息。

语音识别部分300可通过语法模型360基于语言选择部分340中与候选发音变体中的每个候选发音变体相应的词语的出现概率信息来最终确定语音识别出的词语。换言之，语音识别部分300可将具有指示词语具有最高出现概率值的信息的词语最终确定为语音识别出的词语。语言选择部分340可将语音识别出的词语输出为文本信息。

以下参照图4和图5来描述根据示例性实施例的获得用于执行语音识别的语法模型的方法。

图4是用于描述根据示例性实施例的用于获得语法模型的方法的流程图。

参照图4，在操作S401，语音识别设备110可获得与至少一个装置的状态有关的信息。

由语音识别设备110获得的与装置的状态有关的信息可包括以下项中的至少一项：每个装置的操作状态、控制每个装置的可能性、与每个装置被安装或被连接的位置有关的信息以及在每个装置中可执行的操作。

在操作S403，语音识别设备110可基于在操作S401获得的状态信息来获得所述至少一个装置的语法模型信息。

例如，语音识别设备110可以以有线或无线的方式连接到装置并且可获得可根据语音识别出的命令而被控制的装置的语法模型信息。

在操作S405，语音识别设备110可基于在操作S403获得的语法模型信息来产生用于指示语音识别的语法模型。具体而言，语音识别设备110可通过将文本串插入到在操作S403获得的语法模型信息的模式信息中来获得每个装置的语法模型信息，并且可从获得的语法模型信息产生用于语音识别的语法模型。可基于在操作S401获得的状态信息来确定可被插入到模式信息中的文本串。

例如，当与装置的位置相应的文本串将被插入到模式信息中时，语音识别设备110可根据与每个装置的安装或连接有关的信息来确定将被插入到模式信息中的文本串。换言之，语音识别设备110可将指示装置被安装或被连接的位置的文本串确定为将被插入到模式信息中的文本串。

图5是用于描述根据示例性实施例的用于获得语法模型的方法的流程图。

参照图5，在操作S501，语音识别设备110可获得与可根据用户的口头命令而被控制的装置的状态有关的信息。

例如，可如以下的表1中所示配置装置状态信息。

[表1]

装置	插槽ID	安装的应用
			装置1	插槽1	应用1
装置2	插槽2	应用1，应用2

根据图1中示出的与每个装置的状态有关的信息，装置1当前被安装的插槽是插槽1，应用1被安装在装置1中。当装置被安装在插槽中时，语音识别设备110可将控制信号发送到装置。因此，具有插槽信息的装置可被确定为可控装置。

在操作S503，语音识别设备110可基于在操作S501获得的状态信息来获得可根据用户的口头命令而被控制的装置的语法模型信息。根据表1中示出的装置的状态信息，由于具有插槽信息的装置1和装置2可根据口头命令而被控制，因此语音识别设备110可获得装置1和装置2的语法模型信息。语法模型信息可存储在语音识别设备110的存储器(未示出)中或者可从外部获得。

例如，可如以下的表2中所示配置装置的语法模型信息。

[表2]

如表2中所示，语法模型信息可由命令模型中的至少一个命令模型来配置。每个装置的命令模型可由根据“|”划分的文本串形成。此外，在一些命令模型中所包括的“节拍1”和“节拍2”是模式信息，根据状态信息确定的文本串可被插入到模式信息中。“词语1_1”、“词语1_2”等指示表示命令的文本串。例如，“词语1_1”、“词语1_2”等可包括诸如“使屏幕更亮”、“关闭电源”等的命令。

在操作S505，语音识别设备110可获得发音表。发音表包括与可根据装置的状态信息来确定的每条模式信息相应的文本串。语音识别设备110可通过使用发音表来确定将被插入到语法模型信息的模式信息中的文本串。

例如，可如表3中所示配置发音表。

[表3]

与一条模式信息相应的应用D和应用E可以是具有相同功能或相同用户的应用。例如，当应用D和应用E是具有音乐播放功能的应用时，包括“节拍2”的命令模型可以是用于播放音乐的命令模型。

在操作S507，语音识别设备110可根据在操作S501从发音表获得的状态信息来获得与模式信息相应的文本串。语音识别设备110可根据每个装置来获得将被插入到模式信息中的文本串。发音表中的发音信息可由可被用户发出以执行口头命令的文本串来配置。例如，当用户发出“插槽1”作为“插槽A”时，与状态信息"插槽1"相应的发音信息可以是“插槽A”。

以下用示例来描述以上对于语音识别设备110根据表1的状态信息从表3的发音表获得将被插入到模式信息中的文本串的描述。

具体而言，根据状态信息，装置1被安装在插槽1中，应用1被安装。因此，将被安装在节拍1中的文本串可被确定为与节拍1和插槽1相应的“插槽A”。此外，将被插入到节拍2中的文本串可被确定为与节拍2和应用1相应的“应用D”。

此外，根据状态信息，装置D被安装在插槽2中，应用1和应用2被安装。因此，将被安装在节拍1中的文本串可被确定为与节拍1和插槽2相应的“插槽B”。此外，将被插入到节拍2中的文本串可被确定为与节拍2和应用1相应的“应用D”以及与节拍2和应用2相应的“应用E”。

如上所述，多个文本串可被确定为将被插入到装置2的节拍2中的文本串。在一些示例性实施例中，将被插入到一条模式信息中的文本串可根据状态信息或发音信息而被确定为多个。

当与一条模式信息相应的文本串是多个时并且当语音识别设备110将文本串插入到模式信息中时，各个文本串被插入到模式信息中的多个命令模型可从一个命令模型产生。例如，可针对装置2的语法模型信息的|节拍2的命令模型来产生|应用D和|应用E的命令模型。

在操作S509，语音识别设备110可通过将在操作S507获得的文本串插入到语法模型信息的模式信息中来获得每个装置的语法模型信息。

具体而言，针对装置1和装置2的语法模型信息，可如表4中所示获得装置的包括插入了在操作S507获得的文本串的命令模型的语法模型信息。

[表4]

在操作S511，语音识别设备110可将在操作S509产生的多条装置的语法模型信息相合并，并且可从合并的语法模型信息产生用于执行语音识别的最终语法模型。例如，可如表5中所示从最终语法模型信息产生用于执行语音识别的最终语法模型。

[表5]

具体而言，语音识别设备110可通过使用表5的命令模型中的至少一个命令模型来确定与每个词语出现的概率有关的信息，由此产生最终语法模型。

当语音识别设备110在操作S513检测装置的状态是否改变时，在操作S519可获得检测到的与装置的状态有关的信息。在操作S513，可检测装置可包括状态被语音识别设备110从不可控状态改变为可控状态的装置，反之亦可。此外，在操作S513，可检测装置可包括可被语音识别设备110控制的装置之中的具有改变的状态的装置。

例如，语音识别设备110可检测至少一个装置是被安装在插槽中还是从插槽拆卸。可选地，语音识别设备110可检测应用是被安装在至少一个装置中还是从至少一个装置移除。

在操作S503或操作S503之后，语音识别设备110可根据从如上所述的操作S519获得的状态信息来产生语法模型。因此，根据示例性实施例，每当装置的状态改变时，可基于新状态信息来产生最终语法模型。

在操作S515，当用户的口头命令被输入时，语音识别设备110可基于最终语法模型来执行语音识别。语音识别设备110可在语音识别被执行时基于最终语法模型来执行语音识别。可用于语音识别的语法模型可不仅包括在操作S511中产生的语法模型，而且还包括其它语法模型。例如，将用于语音识别的语法模型可包括可通常用于基础语音识别的语法模型。

在操作S517，语音识别设备110可根据在操作S515执行的语音识别的结果来控制装置。换言之，语音识别设备110可根据语音识别的结果来产生用于控制装置的控制信号并可将控制信号发送到装置。

参照图6和图7详细描述根据装置的状态获得语法模型的方法的示例。

图6是用于描述根据示例性实施例的用于获得用于控制超声设备的语法模型的方法的示例的示图。

参照图6，超声设备600可包括探头620、插槽630和麦克风610，其中，探头620可被安装在插槽630中的每个插槽中，可通过麦克风610来输入用户的口头命令。

探头620可用作可根据通过麦克风610输入的用户的口头命令而被控制的上述至少一个装置。相应地，根据示例性实施例，可针对每个探头620而存在语法模型信息。

例如，可如图6中所示针对每个探头标识(ID)而存在语法模型信息。

[表6]

可如表7中所示配置针对每个探头而存在的状态信息。

[表7]

探头ID	插槽信息	应用对象	预先设置
				53	1	腹部	主动脉
6D	2	腹部	一般

此外，可针对每条具体的状态信息而存在语法模型信息。针对超声设备600，可针对指示被超声扫描的部位的每个应用对象(App)和指示与超声设备600的设置有关的信息的每个预先设置(Preset)而存在语法模型信息。

作为示例，可如表8中所示针对每个“应用对象.预先设置”而配置语法模型信息。

[表8]

超声设备600除了可基于可控探头的语法模型信息之外，还可基于与关于应用对象的信息和可从探头620的状态信息获得的预先设置相应的语法模型信息，来产生用于语音识别的语法模型。例如，关于探头53的语法模型信息可包括表6中示出的关于探头53的语法模型信息和表8中示出的“腹部.主动脉”的语法模型信息。同样地，基于表7的状态信息，关于探头6D的语法模型信息可包括表6中示出的关于探头6D的语法模型信息和表8中示出的“腹部.一般”的语法模型信息。

超声设备600可将探头的语法模型信息和根据应用对象和预先设置信息的语法模型信息相合并，并且可确定作为将被插入到针对每个探头的模式信息中的发音信息的文本串。超声设备600可通过将确定的文本串插入到模式信息中来获得最终语法模型。

超声设备600可参照下面的表9的发音表来获得将被插入到与每个探头有关的语法模型信息之中的模式信息中的文本串。表9的发音表仅为示例，可基于各条状态信息来确定与模式信息相应的发音信息(即，文本串)。

[表9]

可根据探头的类型来确定将被扫描的部位(应用对象)。例如，针对探头6D，产科(OB)应用对象、妇科应用对象、泌尿科应用对象等可被扫描。

此外，可根据应用对象来确定可被设置的预先设置。例如，针对OB应用对象，可设置的预先设置可以是早期妊娠(第一孕期)。此外，针对妇科应用对象，可设置的预先设置可以是子宫和附件。此外，针对泌尿科应用对象，可设置的预先设置可以是前列腺。

针对应用对象，根据使用中的探头的类型来限制可使用的控制命令。此外，针对预先设置，根据使用中的探头和应用对象的类型来限制可使用的控制命令。相应地，超声设备600可根据针对每个探头的状态信息，根据可使用的控制命令来获得包括可包括在口头命令中的命令模型的语法模型信息。

超声设备600可基于每个探头的类型和当前被扫描的部位(应用对象)来获得与当前可能指示的应用对象或预先设置有关的语法模型信息，并可获得最终语法模型。作为示例，超声设备600可根据是否处于选择应用对象的状态或选择预先设置的状态来获得与当前可能指示的应用对象或预先设置有关的语法模型信息，并可获得最终语法模型。

以下参照图7和图8来详细描述根据超声设备600的每个状态来获得语法模型的方法。

图7是用于描述根据示例性实施例的用于在超声设备中获得语法模型的方法的流程图。

参照图7，在操作S701，超声设备700可根据基本设置的主语法模型来执行语音识别。主语法模型可包括可通常使用的上述语法模型。操作S701的状态是基本状态，并且可被称为主状态。

在操作S703，当前状态可根据探头改变请求而改变为探头状态(即，选择探头的状态)。探头改变请求表示对于将探头的当前输出的扫描图像改变为另一探头的扫描图像的请求。在探头状态下，不仅探头而且应用对象也可一起被选择。

在操作S705，超声设备600可根据当前可控的或被安装在插槽中的探头的语法模型来执行语音识别。例如，超声设备600可根据基于表6中示出的针对每个探头的语法模型信息而获得的语法模型来执行语音识别。

当根据语音识别选择了探头时，超声设备600的状态可从探头状态改变为主状态。此外，不仅探头而且应用对象可根据语音识别而一起被选择。

此外，在操作S707，超声设备600的当前状态可根据扫描部位或预先设置确定状态而被改变为注释状态(即，确定预先设置信息的状态)。可根据控制信号来产生上述的预先设置确定请求，其中，控制信号根据用户的口头或按钮输入或者预定算法而产生。

在操作S709，超声设备600可基于当前选择的探头类型或应用对象，根据与预先设置有关的语法模型来执行语音识别。例如，可根据基于表8中示出的“应用对象.预先设置”的语法模型信息而获得的语法模型来执行语音识别。

当根据语音识别而确定了预先设置信息时，超声设备600的状态可再次从注释状态改变为主状态。

参照图8，超声设备600的状态可包括：主状态810、探头状态820和注释状态830。示例性实施例不限于此，超声设备600的状态还可根据超声设备600的状态而包括各种状态。

如上所述，主状态810表示超声设备600的基本设置的状态，其中，在所述状态中，可根据可通常用于语音识别的语法模型来执行语音识别。当探头状态820或注释状态830完成时，超声设备600的状态可被自动改变为主状态810。

可在状态810中识别出的口头命令模型可包括“改变探头、文本、冻结等”。

探头状态820是超声设备600的在接收到对于改变探头的当前输出的扫描图像的请求时可改变的状态。此外，例如，当“改变探头”的用户的口头命令被接收到时，超声探头600的状态可从主状态810改变为探头状态820。当探头的输出的扫描图像根据口头命令而被改变为另一探头的扫描图像时，超声设备600可被改变回主状态810。在探头状态820下，作为将被扫描的部位的应用对象可随着探头的改变而被选择。

可在探头状态820下被识别出的口头命令模型可包括“探头1腹部主动脉、甲状腺等”。当不包括用于识别探头的信息的口头命令(诸如“甲状腺”)被输入时，超声设备600可选择正扫描“甲状腺”或能够扫描“甲状腺”的探头。可选地，超声设备600可将探头的正在输出的扫描部位改变为“甲状腺”。

注释状态830表示超声设备600的用于确定当前被选择的探头的预先设置信息的状态。例如，当“文本”的用户口头命令被接收到时，超声设备600的状态可从主状态810改变为注释状态830。当根据口头命令确定了当前选择的探头的预先设置信息时，超声设备600的状态可改变回主状态810。

可在注释状态830下识别出的口头命令可包括“左(Lt)近端，膀胱等”。

以下参照图9详细描述当可被语音识别设备控制的装置是家用电器时获得语法模型的方法。

参照图9，可被语音识别设备910控制的家用电器存在于房间1920或房间2930中。如表10中所示，语音识别设备910可获得与家用电器有关的状态信息。

[表10]

家用电器ID	位置信息
		TV1	1
TV2	2
		音响	1

位置信息1和位置信息2分别表示房间1和房间2。房间1和房间2在用户的口头命令中可被分别发音为“我的房间”和“客厅”。

语音识别设备910可根据口头命令获得如表中所示的与可控家用电器有关的语法模型信息。

[表11]

语音识别设备910可基于家用电器的状态信息来将可控家用电器确定为具有位置信息的家用电器。例如，语音识别设备910可基于表10的家用电器的状态信息来获得与具有位置信息的TV1、TV2和音响1有关的语法模型信息。

此外，语音识别设备910可获得与每条模式信息有关的发音表以获得将被插入到语法模型信息中所包括的模式信息中的文本串。例如，可获得如表12中示出的发音表。

[表12]

语音识别设备910可基于发音表和状态信息来确定将被插入到作为针对每个家用电器的模式信息的房间中的发音信息。针对TV1和音响1，由于位置信息是1，因此将被插入到房间中的发音信息可被确定为“我的房间”。同样地，针对TV2，由于位置信息是2，因此将被插入到房间中的发音信息可被确定为“客厅”。

最后，语音识别设备910可从如以下的表13中所示配置的语法模型信息获得用于执行语音识别的最终语法模型，其中，发音信息被插入到每条模式信息中。

[表13]

以下参照图10和图11来详细描述语音识别设备的内部组成元件。

图10和图11是示出根据示例性实施例的用于获得语法模型的语音识别设备的内部结构的框图。图10和图11的语音识别设备1000和语音识别设备1100可与图1的语音识别设备110相应。

图10和图11中示出的语音识别设备1000和语音识别设备1100的结构可被应用于各种类型的设备(例如，智能电话、平板PC、PDA、MP3播放器、一体机、电子相框、导航装置、数字TV、腕表或可穿戴装置(诸如，智能眼镜、虚拟现实眼镜或头戴式显示器(HMD)))。

图1的语音识别设备110可以是终端设备(诸如，图10和图11中示出的语音识别设备1000和语音识别设备1100)。本示例性实施例不限于此，语音识别设备110可以是从终端设备接收用户输入并处理用户输入的服务器设备。当语音识别设备110是服务器设备时，语音识别设备110可基于装置的状态信息和从外部接收到的用户输入来获得语法模型。语音识别设备110可通过使用获得的语法模型来针对语音输入执行语音识别，并且可根据语音识别的结果来发送用于控制装置的控制信号。

参照图10，语音识别设备1000可包括接收部分和控制部分1070。在附图和下述示例性实施例中，语音识别设备1000中所包括的组成元件中的每个组成元件可通过按照物理轴或逻辑形状分布而被布置，或者组成元件可被合并。

接收部分1030可从外部获得装置的状态信息。此外，可根据口头命令而被控制的装置的语法模型信息可基于装置的状态信息来获得。具体而言，接收部分1030可基于装置的状态信息来确定可根据由语音识别设备1000识别出的口头命令而被控制的装置。接收部分1030可获得可控的装置的语法模型信息。

控制部分1070可基于由接收部分1030获得的装置的语法模型信息来产生用于执行语音识别的语法模型。

然而，图10中示出的组成元件不全是必要的组成元件。语音识别设备1000可由比示出的组成元件的数量更多的组成元件来实现或者由比示出的组成元件更少的组成元件来实现。

例如，如图11中所示，根据示例性实施例的语音识别设备1100可包括：接收部分1130、控制部分1170、扬声器部分1160、存储器1120、全球定位系统(GPS)芯片1125、通信部分1130、视频处理器1135、音频处理器1140、用户输入部分1145、麦克风部分1150、拍照部分1155和运动检测部分1165。

以下描述以上的组成元件。

显示部分1110可包括显示面板1111和用于控制显示面板1111的控制器(未示出)。显示面板1111可由各种类型的显示器(诸如，液晶显示器(LCD)、有机发光二极管(OLED)显示器、有源矩阵有机发光二极管(AM-OLED)显示器、等离子显示面板(PDP)显示器等)来实现。显示面板1111可被实现为柔性的、透明的或可穿戴的。显示部分1110可耦接到将作为触摸屏而被提供的用户输入部分1145的触摸面板1147。例如，触摸屏可包括以堆叠结构来提供的显示面板1111和触摸面板1147的集成模块。

根据一些示例性实施例的显示部分1110可根据控制部分1170的控制而显示与由扬声器部分1160输出的音频信号相应的图像。可由显示部分1110显示的图像可不仅包括平面图像而且还可包括三维图像。

存储器1120可包括内部存储器(未示出)和外部存储器(未示出)中的至少一个存储器。

内部存储器可包括以下项中的至少一项：例如，易失性存储器(诸如，动态随机存取存储器(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)等)、非易失性存储器(诸如，一次可编程只读存储器(OTPROM)、可编程ROM(PROM)、可擦除可编程(EPROM)、电可擦除可编程ROM(EEPROM)、掩模ROM、闪速ROM等)以及硬盘驱动器(HDD)或固态驱动器(SSD)。根据示例性实施例，控制部分1170可通过将从非易失性存储器或者其它组成元件中的至少一个组成元件接收到的命令或数据加载到易失性存储器中来处理所述命令或数据。此外，控制部分1170可将从其它组成元件接收到的或由其它组成元件产生的数据保持在非易失性存储器中。

外部存储器可包括例如以下项中的至少一项：紧凑型闪速(CF)存储器、安全数字(SD)存储器、微型安全数字(Micro-SD)存储器、迷你安全数字(Mini-SD)存储器、极限数字(xD)存储器和记忆棒。

存储器1120可存储用于语音识别设备1100的操作的各种程序和数据。根据示例性实施例，存储器1120可临时存储或半永久地存储以下项中的至少一项：发音表、针对每个装置的语法模型信息、针对每个装置的状态信息以及语法模型信息。

控制部分1170可控制显示部分1110以使存储在存储器1120中的信息中的一部分能够被显示在显示部分1110上。换言之，控制部分1170可将存储在存储器1120中的图像显示在显示部分1110上。此外，当用户在显示部分1110的一个区域中做出手势时，控制部分1170可执行与用户的手势相应的控制操作。

控制部分1170可包括以下项中的至少一项：RAM1171、ROM1172、中央处理器(CPU)1173、图形处理单元(GPU)1174和总线1175。RAM1171、ROM1172、CPU1173、GPU1174等可经由总线1175彼此连接。

CPU1173通过访问存储器1120并使用存储在存储器1120中的操作系统(O/S)来执行启动。CPU1173通过使用存储在存储器1120中的各种程序、内容或数据来执行各种操作。

ROM1172存储针对系统启动的命令集。例如，当开启命令被输入并且因此向语音识别设备1100供电时，CPU1173可根据存储在ROM1172中的命令而将存储在存储器1120中的O/S复制到RAM1171并执行O/S从而启动系统。当启动完成时，CPU1173将存储在存储器1120中的各种程序复制到RAM1171并通过执行复制到RAM1171的程序来执行各种操作。

当语音识别设备1100的启动完成时，GPU1174将用户界面(UI)屏幕显示在显示部分1110的区域中。具体而言，GPU1174可产生包括各种对象(诸如，内容、图标、菜单等)的UI屏幕。GPU1174可根据屏幕的布局来计算属性值(诸如，每个对象的坐标值、形状、大小或颜色)。GPU1174可基于计算出的属性值来产生包括对象的各种布局的屏幕。由GPU1174产生的屏幕可被提供到显示部分1110从而被显示在显示部分1110的每个区域中。

GPS芯片1125可从GPS卫星接收GPS信号并可计算语音识别设备1100的当前位置。当使用了导航程序或需要用户的当前位置时，控制部分1170可通过使用GPS芯片1125来计算用户的位置。

通信部分1130可根据各种类型的通信方法来与各种类型的外部设备通信。通信部分1130可包括以下项中的至少一项：Wi-Fi芯片1131、蓝牙芯片1132、无线通信芯片1133和近场通信(NFC)芯片1134。控制部分1170可通过使用通信部分1130来与各种外部装置通信。

在示例性实施例中，通信部分1130可从外部接收获得语法模型所需要的发音表、装置的状态信息、语法模型信息等。控制部分1170可基于接收到的信息来获得语音识别所需要的语法模型。

Wi-Fi芯片1131和蓝牙芯片1132可分别按照Wi-Fi方法和蓝牙方法执行通信。当Wi-Fi芯片1131或蓝牙芯片1132被使用时，各种连接信息(诸如，服务集标识符(SSID)或会话密钥)首先被收发，使得通过使用连接信息(各种信息)建立通信。然后，各条信息可被收发。无线通信芯片1133表示根据各种通信协议(诸如，IEEE、Zigbee、第三代(3G)、第三代合作伙伴计划(3GPP)、长期演进(LTE)等)来执行通信的芯片。NFC芯片1134表示按照使用各种RF-ID频带(诸如，135kHz、13.56MHz、433MHz、860～960MHz、2.45GHz等)之中的13.56MHz左右的频带的NFC方法来进行操作的芯片。

视频处理器1135可处理通过通信部分1130接收到的图像数据或存储在存储器1120中的图像数据。视频处理器1135可对图像数据执行各种图像处理(诸如、解码、缩放、噪声过滤、帧率转换、分辨率转换等)。显示部分1110可显示由视频处理器1135处理的图像数据。

例如，当图像数据是超声图像时，视频处理器1135可处理由探头扫描到的图像。

音频处理器1140可处理通过通信部分1130接收到的音频数据或存储在存储器1120中的音频数据。音频处理器1140可对音频数据执行各种处理(诸如，解码、放大、噪声过滤等)。例如，音频处理器1140可处理与显示在显示部分1110上的图像相应的音频数据。

当对多媒体内容执行了再现程序时，控制部分1170可驱动视频处理器1135和音频处理器1140以再现多媒体内容。扬声器部分1160可输出由音频处理器1140产生的音频数据。例如，控制部分1170可通过使用视频处理器1135和音频处理器1140来处理显示在显示部分1110上的多媒体内容。

用户输入部分1145可从用户接收各种命令的输入。用户输入部分1145可包括以下项中的至少一项：键1146、触摸面板1147和笔识别面板1148。

语音识别设备1100可根据从键1146、触摸面板1147和笔识别面板1148中的至少一个接收到的用户输入来控制语音识别设备1100。

键1146可包括在语音识别设备1100的主体(未示出)的外表面上的各种区域(诸如，前侧部分、横侧部分、后侧部分等)中形成的各种类型的键(诸如，机械按钮、滚轮等)

触摸面板1147可检测由用户输入的触摸并可输出与检测到的触摸信号相应的触摸事件值。当触摸面板1147耦接到显示面板1111以形成触摸屏(未示出)时，触摸屏可由各种类型的传感器(诸如，电容式传感器、电阻式传感器、压电传感器等)来实现。电容式传感器通过在人体的一部分触摸到触摸屏的表面时，使用涂覆在触摸屏的表面上的电子感测由人体引起的精细电量，来计算触摸坐标。电阻式传感器通过在用户触摸包括两个电极板的触摸屏时，感测上、下(电极)板之间的电流，来计算触摸坐标。虽然从触摸屏产生的触摸事件可主要由人的手指产生，但是所述触摸事件可由使电容改变的导电材料的对象来产生。

笔识别面板1148可根据用户的触摸笔(例如触控笔或数字笔)的操作来感测接近输入或触摸输入，并且可输出感测到的笔接近事件或笔触摸事件。笔识别面板1148可例如按照电磁共振(EMR)方法来实现，并且可通过笔的接近或触摸根据电磁场的密度的改变来检测触摸或接近输入。具体而言，笔识别面板1148可通过包括具有网格结构的电磁感应线圈传感器和连续地将具有预定频率的交变信号提供到电磁感应线圈传感器的每个环形线圈的电信号处理部分(未示出)来配置。当包括谐振电路的笔存在于笔识别面板1148的环形线圈的附近时，从环形线圈发送的磁场基于笔中的谐振电路中的互电磁感应来产生电流。由形成笔的谐振电路的线圈基于电流来产生感应场。笔识别面板1148可在信号接收状态下从环形线圈检测感应场，使得笔的接近位置或触摸位置可被检测到。笔识别面板1148可在显示面板1111下层被提供预定区域(例如，足以覆盖显示面板1111的显示区域的区域)。

麦克风部分1150可将用户的语音输入或其它声音转换为音频数据。控制部分1170可使用在呼叫操作中通过麦克风部分1150输入的用户的语音，或可将用户的语音转换为音频数据并将音频数据存储在存储器1120中。

拍照部分1155可根据用户的控制来拍摄静止图像或运动图像。拍照部分1155可以以多个数量来实现，例如，前置相机或后置相机。根据示例性实施例的控制部分1170可从由拍照部分1155拍摄的图像获得用户的外部环境信息。控制部分1170可基于外部环境信息来确定用于在最佳状态下进行显示的参数。

当拍照部分1155和麦克风部分1150被设置时，控制部分1170可根据通过麦克风部分1150输入的用户的语音或者由拍照部分1155识别出的用户的运动来执行控制操作。例如，语音识别设备1100可在运动控制模式或语音控制模式下操作。当语音识别设备1100在运动控制模式下操作时，控制部分1170可通过激活拍照部分1155来对用户进行拍照并且可追踪用户的运动的改变，由此执行与用户的运动相应的控制操作。例如，控制部分1170可根据由拍照部分1155检测到的用户的运动输入来输出图像或音频信号。当语音识别设备1100在语音控制模式下操作时，控制部分1170可分析通过麦克风部分1160输入的用户的语音并且可在根据分析出的用户语音来执行控制操作的语音识别模式下进行操作。

具体而言，控制部分1170可基于从通过麦克风1150输入的用户的语音最终获得的语法模型来执行语音识别，并且可根据语音识别的结果来输出用于控制装置的控制信号。

运动检测部分1165可检测语音识别设备1100的主体的运动。语音识别设备1100可沿各种方向旋转或向各种方向倾斜。运动检测部分1165可通过使用各种传感器中的至少一个传感器(诸如，地磁传感器、陀螺仪传感器、加速度传感器等)来检测运动特征(诸如，旋转方向、旋转角度、倾斜度等)。

此外，虽然图11中未示出，但是在本实施例中，语音识别设备1100还可包括用于连接USB连接器的USB端口、用于连接各种外部终端(诸如，头戴式耳机、鼠标、LAN等)的各种外部输入端口、用于接收并处理数字多媒体广播(DMB)信号的DMB芯片、各种传感器等。

上述语音识别设备1100的组成元件的名称可变化。此外，可通过包括上述组成元件中的至少一个元件来配置根据本示例性实施例的语音识别设备1100，并且可省略一些组成元件，或者还可包括其它附加组成元件。

发明构思也可被实现为计算机可读记录介质上的计算机可读代码。计算机可读记录介质是可存储此后可被计算机系统读取的数据的任何数据存储装置。计算机可读记录介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘、光数据存储装置等。计算机可读记录介质也可分布于联网的计算机系统，使得以分布式的方式存储并执行计算机可读代码。

虽然已经使用特定术语参照优选的示例性实施例具体地示出并描述了本发明构思，但是应仅在描述意义上考虑示例性实施例和术语而不是为了限制的目的。因此，本领域普通技术人员将理解的是，在不脱离由权利要求所限定的本发明构思的精神和范围的情况下，可在此做出形式和细节上的各种改变。

Claims

1.一种获得用于执行语音识别的语法模型的方法，所述方法包括：

获得与至少一个装置的状态有关的信息；

基于获得的信息来获得与所述至少一个装置有关的语法模型信息；

基于获得的语法模型信息来产生用于执行语音识别的语法模型。

2.如权利要求1所述的方法，其中，与所述至少一个装置的状态有关的信息包括以下项中的至少一项：与每个装置的操作状态有关的信息、与每个装置是否是可控制的有关的信息、与每个装置被安装或被连接的位置有关的信息以及在每个装置中可执行的操作。

3.如权利要求1所述的方法，其中，语法模型信息包括基于与所述至少一个装置的状态有关的信息而将插入文本串的至少一条模式信息，产生用于执行语音识别的语法模型的步骤包括：

获得用于确定将被插入到模式信息中的文本串的发音表；

根据与所述至少一个装置的状态有关的信息来从发音表获得与模式信息相应的至少一个文本串；

通过将获得的文本串插入到语法模型信息中所包括的模式信息中来获得与所述至少一个装置有关的语法模型信息。

4.如权利要求1所述的方法，还包括：基于产生的语法模型来执行语音识别。

5.如权利要求1所述的方法，其中，每当所述至少一个装置的状态改变时，与所述至少一个装置的状态有关的信息被获得，语法模型信息基于获得的信息而被获得，并且语法模型基于获得的语法模型信息而被产生。

6.如权利要求1所述的方法，其中，当所述至少一个装置是探头时，与所述至少一个装置有关的语法模型信息根据探头的类型包括：针对探头的应用对象或预设的设置、或在探头的超声设备中可执行的控制命令。

7.一种用于获得用于执行语音识别的语法模型的设备，所述设备包括：

接收部分，获得与至少一个装置的状态有关的信息，并基于获得的信息来获得与所述至少一个装置有关的语法模型信息；

控制部分，基于获得的语法模型信息来产生用于执行语音识别的语法模型。

8.如权利要求7所述的设备，其中，与所述至少一个装置的状态有关的信息包括以下项中的至少一项：与每个装置的操作状态有关的信息、与每个装置是否是可控制的有关的信息、与每个装置被安装或被连接的位置有关的信息以及在每个装置中可执行的操作。

9.如权利要求7所述的设备，其中，语法模型信息包括基于与所述至少一个装置的状态有关的信息而确定的至少一条模式信息，

接收部分获得用于确定将被插入到模式信息中的文本串的发音表；

控制部分根据与所述至少一个装置的状态有关的信息来从发音表获得与模式信息相应的至少一个文本串，并且通过将获得的文本串插入到语法模型信息中所包括的模式信息中来获得与所述至少一个装置有关的语法模型信息。

10.如权利要求7所述的设备，其中，当所述至少一个装置是探头时，与所述至少一个装置有关的语法模型信息根据探头的类型包括：针对探头的应用对象或预设的设置、或在探头的超声设备中可执行的控制命令。

11.如权利要求7所述的设备，其中，控制部分基于产生的语法模型来执行语音识别。

12.如权利要求7所述的设备，其中，每当所述至少一个装置的状态改变时，与所述至少一个装置的状态有关的信息被获得，语法模型信息基于获得的信息而被获得，并且语法模型基于获得的语法模型信息而被产生。

13.一种非暂时性计算机可读存储介质，其中，所述非暂时性计算机可读存储介质存储有这样的程序：当所述程序被计算机执行时，所述程序执行在权利要求1至权利要求7中的任一权利要求中限定的方法。

14.一种用于在计算机上执行权利要求1至权利要求7中的任一权利要求中限定的方法的计算机程序。