CN107924687A

CN107924687A - 语音识别设备、用户设备的语音识别方法和非暂时性计算机可读记录介质

Info

Publication number: CN107924687A
Application number: CN201680047829.4A
Authority: CN
Inventors: 郑治相
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-09-23
Filing date: 2016-08-25
Publication date: 2018-04-17
Anticipated expiration: 2036-08-25
Also published as: US10553219B2; US20170084278A1; CN107924687B; KR20170035602A; KR102420450B1; WO2017052082A1

Abstract

提供了一种语音识别设备、语音识别方法以及非暂时性计算机可读记录介质。所述语音识别设备包括：存储器，配置为存储用于语音识别的预设阈值；语音接收器，被配置为接收发音的语音信号；以及语音识别处理器，被配置为从所接收的语音信号中识别语音识别开始词，响应于表示所识别的语音识别开始词的识别结果的相似度分数大于或等于所存储的预设阈值，并且基于语音识别开始词的识别结果来改变预设阈值。

Description

语音识别设备、用户设备的语音识别方法和非暂时性计算机可读记录介质

技术领域

根据示例性实施例的设备和方法涉及由用户设备根据实际使用用户设备的环境而执行的自适应语音识别。

背景技术

触发识别器是一种隔离词语音识别器，其使用固定词来激活语音识别器。用户通过触发识别向语音识别设备发送语音识别的激活表达。换句话说，触发识别器通过语音而不是按钮或输入设备来激活语音识别器。因此，触发识别器总是接收输入到麦克风的语音作为输入，并确定作为语音的输入是否是用于确定语音识别器是否激活的触发词。在这种情况下，触发识别器使用相似度的阈值来确定输入讲话是否是触发词。所述阈值对于防止由于触发识别器的误识别而导致的故障起着重要的作用。此外，触发识别器可以经由学习预定义的词来使用固定阈值来确定识别结果。

然而，由于实际使用触发识别器的环境发生变化，当使用常规的固定阈值时，触发识别器由于改变的用户和使用环境而导致触发误识别，从而降低了识别率。

发明内容

示例性实施例至少解决上述缺点和以上没有描述的其他缺点。此外，示例性实施例不需要克服上述缺点，并且可以不解决任何上述问题。

一个或多个示例性实施例提供了一种语音识别设备、语音识别方法以及计算机可读记录介质，用于根据实际使用用户设备的环境而由例如用于语音识别的用户设备自适应地执行语音识别。

根据示例性实施例的一个方面，提供了一种语音识别设备，包括：存储器，配置为存储用于语音识别的预设阈值；语音接收器，配置为接收发音的语音信号；以及语音识别处理器，配置为从所接收的语音信号中识别语音识别开始词，以及当作为所识别的语音识别开始词的识别结果的相似度分数大于或等于所存储的预设阈值时，对于所述语音信号执行语音识别，其中所述语音识别处理器基于所述语音识别开始词的所述识别结果来改变所述预设阈值。

所述语音识别处理器可以识别所述语音识别开始词，并且改变预设阈值以与所产生的基于文本的识别结果相关的相似度分数进行比较。

当所述语音信号的所述基于文本的识别结果被检测预设次数或更多次数时，所述语音识别处理器可以改变所述预设阈值。

当由于使用所述预设阈值的所述语音识别而增加误识别率时，所述语音识别处理器可以改变所述预设阈值。

所述语音识别设备还可以包括：存储器，配置为当由于基于所改变的预设阈值的语音识别而语音识别成功，将成功的识别结果存储为用户的说话者模型；以及识别失败，将失败的识别结果存储为所述用户所属的环境的背景模型；其中当满足任意条件时所述语音识别处理器可以基于所述说话者模型的所述识别结果和所述背景模型的所述识别结果来改变所改变的预设阈值。

当由于基于所改变的预设阈值的所述语音识别而导致增加误识别率时，所述语音识别处理器可以重新改变所改变的预设阈值。

所述语音识别设备还可以包括隔离词语音识别器，配置为识别所述语音识别开始词。

根据另一示例性实施例的一个方面，提供了一种语音识别方法，包括：存储用于语音识别的所述预设阈值，接收用于语音识别的预设阈值，从接收到的语音信号中识别语音识别开始词，以及当作为所识别的语音识别开始词的识别结果的相似度分数大于或等于所存储的预设阈值时对于所述语音信号执行语音识别，并且基于所述语音识别开始词的所述识别结果来改变所述预设阈值。

所述改变所述预设阈值可以包括识别语音识别开始词并改变预设阈值，以与和所产生的基于文本的识别结果相关的相似度分数进行比较。

所述改变所述预设阈值可以包括当所述语音信号的所述基于文本的识别结果被检测预设次数或更多次数时，改变所述预设阈值。

所述改变所述预设阈值可以包括当由于使用所述预设阈值的所述语音识别而增加误识别率时，改变所述预设阈值。

所述语音识别方法还可以包括：当由于基于所改变的预设阈值的所述语音识别而识别成功时，将成功的识别结果存储为用户的说话者模型；以及当识别失败时，将失败的识别结果存储为所述用户所属的环境的背景模型；以及当满足任意条件时，基于所述说话者模型的识别结果和所述背景模型的识别结果来重新改变所改变的预设阈值。

所述重新改变所改变的预设阈值可以包括当由于基于所改变的预设阈值的所述语音识别而增加误识别率时，重新改变所改变的预设阈值。

所述方法可以由安装在用户设备中的隔离词语音识别器识别并且为配置为识别所述语音识别开始词。

根据另一示例性实施例的一个方面，一种非暂时性计算机可读记录介质，其上记录有用于执行语音识别方法的程序，所述方法包括：存储用于语音识别的预设阈值；接收用于语音识别的预设阈值；从所接收的语音信号中识别语音识别开始词，以及当作为所识别的语音识别开始词的识别结果的相似度分数大于或等于所存储的预设阈值时，对所述语音信号执行语音识别；以及基于所述语音识别开始词的所述识别结果来改变所述预设阈值。

附图说明

通过参照附图描述特定示例性实施例，上述和/或其他方面将更加明显，在附图中：

图1是示出了根据示例性实施例的语音识别设备的图；

图2是示出了根据另一示例性实施例的语音系统的图；

图3是示出了图1的语音识别设备或图2的用户设备的详细配置的示例的框图；

图4是示出了图1的语音识别设备或图2的用户设备的详细配置的示例的框图；

图5是示出了图1的语音识别设备或图2的用户设备的详细配置的另一示例的框图；

图6是示出了图5的控制器的配置的示例的图；

图7是示出了图1的语音识别设备或图2的用户设备的详细配置的另一示例的框图；

图8是示出了图2的语音识别设备的配置的框图；

图9是示出了图2中所示的语音识别设备的另一配置的示例的框图；

图10是示出了根据示例性实施例的另一语音识别程序的图；

图11是示出了根据另一示例性实施例的语音识别程序的图；

图12是示出了根据示例性实施例的语音识别程序的流程图；

图13是根据另一示例性实施例的语音识别程序的流程图；以及

图14是根据另一示例性实施例的语音识别程序的流程图。

具体实施方式

现在，将参照附图来更详细地描述某些示例实施例。

在以下描述中，即使在不同附图中，相同的附图标记用于相同的元件。提供描述中定义的内容(例如详细构造和元件)以帮助全面理解示例性实施例。然而，应当清楚，即便在缺少这些具体限定的内容的情况下，也能够实践示例性实施例。此外，由于公知的功能或构造会以不必要的细节而模糊描述，因此没有对其进行详细地描述。

图1是示出了根据示例性实施例的语音识别设备100的图。

如图1所示，根据示例性实施例的语音识别设备100可以包括用于识别外部用户语音的语音识别器。

语音识别设备100可以包括图像显示设备(例如电视(TV)、便携式电话、膝上型计算机、桌上型计算机、平板电脑、等离子显示面板(PDP)和MP3)并且包括家用电器(例如冰箱、洗衣机)、媒体播放器(例如音频设备和蓝光播放器)以及机顶盒。

语音识别设备100还可以包括诸如门锁系统或汽车之类的电子设备。

语音识别设备100可以从外部用户接收用户语音。为此目的，虽然语音识别设备100能够通过安装在其中的麦克风接收用户语音，但是语音识别设备100可以接收从连接到插座或通用串行总线(USB)形式的连接器的噪声设备接收到的语音并执行语音识别操作。这里，噪声设备可以指麦克风，但是也可以表示作为在操作期间单独操作的麦克风的分离设备。

语音识别设备100可以使用嵌入语音识别器(即，安装在语音识别设备100中)对接收到的用户语音执行语音识别操作。这里，语音识别器可以包括表示用于识别固定词的隔离词语音识别器的捕捉发动引擎。用户可以向语音识别设备100发送用于激活语音识别的意图。为此目的，语音识别设备100可以包括作为隔离词语音识别器的类型的触发识别器。

例如，如图1所示，用户可以向语音识别设备100发出“Hi”作为语音识别的预先序列。更具体地，当用户向作为语音识别设备100的TV发出“Hi TV”时，语音识别设备100可以只对来自接收到的用户语音的词语“Hi”执行语音识别的操作。

为此目的，语音识别设备100可以分析接收到的语音的音频数据以产生基于文本的识别结果，例如以语音符号的形式的识别结果，并将产生的识别结果与预设识别结果进行比较(即确定识别是否成功的语音符号“Hi”)。在这种情况下，当将所产生的识别结果与预设识别结果进行比较以确定识别是否成功时，语音识别设备100可以计算相似度分数，并且当计算的相似度分数超过阈值时确定识别是成功的。

通常，可以在语音识别设备100的发布日期确定相似度分数的阈值。换句话说，语音识别设备100可以使用例如在实验环境中在发布之前各种发音为“Hi”的大量实验数据来确定相似度分数(即阈值)。所确定的阈值例如可以从软件的角度存储在注册表中，或者从硬件的角度存储在存储器中，此外阈值(或信息)也可以以查找表(LUT)形式存储。因此，存储阈值的方法可以不受特别限制。

然而，在实际使用语音识别设备100的环境中，可能经常误识别在实验环境中使用的实验数据。例如，即使用户发音为“Hi”，根据要确定的用户的声带结构的差异将识别结果不同地识别为误识别，并且可以将周围环境中的噪声识别为诸如“Hi”的语音。换句话说，可以将周围车辆的轰鸣类似地识别为“Hi”的语音的语音信号，即使得语音识别设备100发生故障的音频数据。

根据示例性实施例的语音识别设备100可以考虑到这样的各种变量来自适应地改变预设识别结果。换句话说，假设将作为语音识别设备100发布的TV安装在任何用户房屋中。此外，用户可以向TV提供用户命令，并请求用户房屋执行自适应语音识别操作。当然，可以通过在TV屏幕上的UI图像显示器或者通过选择遥控器的特定按钮来执行该过程。

然后，语音识别设备100可以从信号中检测与用户命令相对应的语音信号，即从安装有电视的房屋收集的数十或数个时段的声音。此外，可以分析检测到的语音信号(即音频数据)以获得说话者特性的识别结果。当多次收集识别结果时，语音识别设备100可以基于所收集的识别结果来调整(或改变)预设识别结果，并且更具体地调整相似度的阈值。这里，“识别结果”可以包括预设的基于文本的文本信息和相似度分数的阈值。根据示例性实施例的语音识别设备100可以调整相似度分数的阈值。

此外，调整后的阈值可以用于后续的语音识别操作。例如，当语音识别成功时，语音识别设备100可以将成功的语音识别结果存储为应用说话者特性的模型。例如，假定将基于预设文本的识别结果表示为二进制8比特信息“10101010”。在这种情况下，应用说话者特性的识别结果可以是“10101011”。这可以被存储为任意用户的说话者模型。当基于说话者模型调整相似度分数并且然后执行语音识别时，如果识别失败，则可以将失败的识别结果确定为背景模型并存储。

例如，在初始调整相似度分数时的语音识别期间，由于用户环境的改变，可能需要频繁地重新调整相似度分数。可以在由于调整的相似度分数的阈值而导致识别率降低的适当时刻重新调整相似度分数。换句话说，在实时监视识别状态或者定期地检查识别状态并且确定长时间保持语音识别的识别率整体下降的现象的情况下，语音识别设备100可以重新调整(或者重新改变)相似度分数的阈值。

在这种情况下，语音识别设备100可以将所收集的用户语音的识别结果分离地存储为说话者模型和背景模型，然后可以在重新调整相似度分数的阈值期间参照所收集的识别结果。换句话说，根据示例性实施例，预设识别结果的文本信息可以是固定。然而，可以视为参考识别结果(即作为说话者模型和背景模型存储的文本信息)来重新调整相似度分数的阈值。

按照上述方式，语音识别设备100可以针对用户及其周围环境，并且更具体地，针对除了语音特性之外的用户语音特性和噪声环境自适应地操作，以防止在实际使用的环境中的误识别。

图2是示出了根据另一示例性实施例的语音系统190的图。

如图2所示，根据示例性实施例的语音系统190可以包括用户设备200、通信网络210和语音识别设备220中的一些或全部。

这里，包含组件的一些或全部表示省略了通信网络210并且配置了语音系统190的情况。例如，作为用户设备200的TV和作为语音识别设备220的服务器，例如计算机可以直接(例如，P2P)彼此进行通信，因此为了充分理解，将描述语音系统190包括所有组件的情况。

如上所述，用户设备200可以包括图像显示设备、家用电器，电子设备等。此外，当用户设备200在其中不包括语音识别器时，用户设备200可以以音频数据的形式向语音识别设备220发送将接收到的语音，并且从语音识别设备220接收语音的识别结果。此外，当用户设备200包括语音识别器时，用户设备200可以确定将要识别接收到的语音的音频数据的位置。例如，诸如“Hi TV”之类的简单触发词可以在用户设备200中执行，但是诸如“关闭电视”或“打开电视”之类的命令可以执行到语音识别设备220。为此末端，用户设备200可以检查讲话时间。此外，即使当对于内部操作状态(例如，CPU的操作)的负载过大或者通信网络210的状态不稳定以向语音识别设备发送数据时，用户设备200也可以确定用于语音识别的实体220。

此外，通过图1的语音识别设备100已经充分描述了与用户设备200相关的详细描述，因此在下面将省略。

通信网络210可以包括有线和无线通信网络二者。这里，有线网络可以包括诸如有线网络或公共交换电话网络(PSTN)的因特网网络，并且无线通信网络可以包括CDMA、WCDMA、GSM、演进分组核心(EPC)、长期演进(LTE)和WiBro网络。当然，根据示例性实施例的通信网络210不限于此，并且因此可以用作将来在云计算环境(例如在云计算网络等)中实现的下一代移动通信系统的接入网络。例如，当通信网络210是有线通信网络时，通信网络210中的接入点可以接入电话公司的交换中心，但是当通信网络210是无线通信网络时，接入点可以接入SGSN或由电信公司管理的网关GPRS支持节点(GGSN)，并且处理数据或可以接入各种中继设备(例如基站传输(BTS)、节点B和e-NodeB)并处理数据。

通信网络210可以包括接入点。所述接入点可以包括：主要在建筑物中安装的小型基站(诸如飞(femto)基站或皮(pico)基站)。这里，可以根据基于小型基站的分类来接入基站的用户设备200的最大数量来区分飞基站或皮基站。当然，接入点可以包括用于与用户设备200进行局域通信(例如ZigBee和Wi-Fi)的局域通信模块。接入点可以使用TCP/IP或实时流传输协议(RTSP)来执行无线通信。这里，局域通信可以通过各种标准来执行NFC，例如，蓝牙、Zigbee、IrDA、射频(RF)(例如，超高频(UHF)和极高频(VHF))和超宽带(UWB)以及WiFi。因此，接入点可以提取数据分组的位置，确定针对提取位置的最佳通信路径，并(例如用户设备200沿确定的通信路径)向下一装置发送数据分组。接入点可以共享通用网络环境中的多个线路，并可以包括例如路由器、转发器和中继器等。

语音识别设备220可以包括语音识别服务器，并且可以作为一种云服务器来操作。换句话说，语音识别设备220可以包括与语音识别相关的所有HW资源或SW资源，以产生并提供从具有最少资源的用户设备200接收到的音频数据的识别结果。当然，根据示例性实施例的语音识别设备220不限于云服务器。例如，当省略了通信网络210并且用户设备200与语音识别设备220的直接进行通信时，语音识别设备220可以是外部设备(即接入点或外围设备(例如台式计算机))。此外，语音识别设备220可以是能够只提供由用户设备200提供的音频数据的识别结果的任何设备。因此，语音识别设备220可以是用于提供识别结果的设备。

如上所述，图2的语音识别设备220可以是作为基于网络的设备的服务器。相应地，当用户设备200不包括语音识别器(例如，用于识别触发词的触发识别器)时，语音识别设备220可以提供触发词的识别结果。触发词的识别结果可能是“失败”或“成功”。例如，当识别结果是“成功”时，语音识别设备220可以发送二进制信息“1”，并且用户设备200可以基于该信息执行常规语音识别操作。换句话说，触发识别器只识别触发词，并且因此用户设备200可以执行诸如“*-Voice”之类的语音识别器以便执行常规语音识别操作。

图3是示出了图1的语音识别设备100或图2的用户设备的详细配置的示例的框图。

为了便于描述，除了图1之外参考图3，根据示例性实施例的语音识别设备100可以包括语音接收器300和语音识别处理器310中的一些或全部。

这里，包括组件的一些或全部表示其中省略了一些组件(诸如语音接收器300)并且配置了语音识别设备100或者可以集成到另一组件(诸如语音识别处理器310)的情况，为了充分理解将描述其中语音识别设备100包括所有组件的情况。

语音接收器300可以包括麦克风。用户语音(即，声能)可以以语音信号的形式(即，以电能的形式)通过麦克风转换并且发送到语音识别处理器310。此外，语音接收器300可以包括连接器。当语音接收器300包括连接器时，语音接收器300可以连接到与连接器(例如插孔或通用串行总线(USB))连接的分离设备形式的拾音设备。在这种情况下，可以认为语音接收器300从拾音设备接收语音信号。

语音识别处理器310可以自适应地操作到其中实际使用语音识别设备100的环境。换句话说，当存在来自用户的分离的请求或者语音识别设备100满足预设条件时，可以自动操作语音识别处理器310以执行这种自适应操作。换句话说，语音识别处理器310可以分析在实际环境中收集的用户语音，并且改变预设识别结果的相似度分数的阈值。然后，当基于改变的阈值执行识别操作时，如果识别成功则可以将文本信息存储为说话者模型，并且当识别失败时，可以将失败的识别结果确定为用户接触的背景环境并且可以将文本信息存储为背景模型。这里，可以将阈值存储在注册表或存储器中。

在这种操作期间，由于监视或定期地检查识别率，当识别率连续降低时，语音识别处理器310可以确定在相似度分数的调整后的阈值中存在问题。因此，语音识别处理器310可以重新分析接收到的用户语音的说话者特性，并且通过整体考虑通过分离地存储重新分析的识别结果或背景模型的文本信息而获得的说话者模型来重新调整阈值。

可以将按照这种方式处理的语音识别结果存储在语音识别处理器310中。此外，所存储的语音识别结果可以用于系统检查。

图4是示出了图1的语音识别设备100’或图2的用户设备200’的详细配置的示例的框图。

为了便于描述，除了图1之外参考图4，根据另一示例性实施例的语音识别设备100’可以包括语音接收器400、语音识别处理器410和操作执行器420中的一些或全部，这里包括组件的一些或全部与上述的含义。

将图4的语音识别设备100’与图3的语音识别设备100进行比较，图4的语音识别设备100’与图3的语音识别设备100不同之处在于图4的语音识别设备100’还包括操作执行器420。

换句话说，图3的语音识别处理器310最后执行将识别结果存储在其中的操作，但图4的语音识别处理器410可以使用识别结果执行详细的操作。例如，当触发词的识别成功时，语音识别处理器410可以显示用户界面(UI)窗口以执行诸如“*-Voice”之类的语音识别器，并向用户指示执行常规的语音识别操作。因此，操作执行器420可以包括显示器。

此外，操作执行器420可以使用语音识别结果(即，由语音识别处理器410处理的基于文本的识别结果)执行搜索操作。例如，当用户说出“今天的天气如何？”或体育明星“Ji-sung*”的名字时，操作执行器420可以接入外部搜索服务器等，并执行搜索操作。因此，操作执行器420可以包括控制器、通信接口等。

除了这一点之外，图4的语音接收器400和语音识别处理器410与图3的语音接收器300和语音识别处理器310没有很大不同，因此语音接收器300和语音识别处理器310的详细描述将代替语音接收器400和语音识别处理器410的那些详细描述。

图5是示出了图1的语音识别设备100”或图2的用户设备200”的详细配置的另一示例的框图。

为了便于描述，除了图1之外参考图5，根据另一示例性实施例的语音识别设备100”可以包括语音接收器500、控制器510、语音识别执行器520和存储设备530中的一些或全部，并且这里包括一些或全部组件与前述的含义相同。

将图5的语音识别设备100”与图3的语音识别设备100进行比较，图5的语音识别设备100”与图3的语音识别设备100的不同之处在于将图3和图的4的语音识别处理器310和410分别分成控制器510和语音识别执行器520。

控制器510可以整体控制语音识别设备100”中的组件。例如，响应于通过语音接收器500接收到的用户语音的音频数据，控制器510可以向语音识别执行器520发送音频数据。此外，响应于从语音识别执行器520输出的识别结果，控制器510可以执行将识别结果存储在存储设备530中的操作。

语音识别执行器520可以包括用于语音识别的语音识别器。根据示例性实施例的语音识别执行器520可以包括触发识别器。就此而言，如上所述，触发识别器可以自适应地操作到实际使用触发识别器的环境。已经充分描述了对实际环境的自适应操作，因此将不在下面进行描述。

根据示例性实施例，语音识别执行器520可以在控制器510的控制下操作。换句话说，控制器510可以执行包括在语音识别执行器520中的语音识别引擎来执行识别操作并从语音识别执行器520接收识别结果。

存储设备530可以临时地存储通过控制器510处理的各种信息项目。例如，存储设备530可以暂时将由控制器510接收的用户音频数据存储在存储设备530中，然后可以调用存储的音频数据并将向语音识别执行器520提供音频数据。此外，存储设备530可以存储与相似度分数相关的阈值，然后在控制器510的控制下向语音识别执行器520提供用于比较操作的阈值。比较操作可以由控制器510执行，因此本实施例不特别限于以上描述。此外，可以以查找表的形式存储在存储设备530中存储的阈值。

此外，存储设备530可以在控制器510的控制下存储由语音识别执行器520处理的说话者模型信息和背景模型信息。这里，讲话者模型信息和背景模型信息可以是由语音识别执行器520处理的识别结果，详细地基于文本的信息，并且更具体地，讲话者模型信息可以对应于成功识别的信息并且背景模型信息可以对应于失败的识别信息。如上所述，可以使用这些信息项来调整识别结果的相似度分数的阈值。

图6是示出了图5的控制器510的配置的示例的图。

如图6所示，图5的控制器510可以包括处理器600和存储器610中的一些或全部。

图5的控制器510仅可以包括图6的处理器600，但是还可以包括存储器610。换句话说，图5的控制器5可以控制语音识别执行器520执行安装在其中的语音识别器。另一方面，当控制器510还包括存储器610时，处理器600可以加载在图5的语音识别执行器520中包括的语音识别器并在语音识别设备100”的初始驱动期间将其存储在存储器610中。此外，当需要执行语音识别操作时，可以执行在存储器610中存储的识别引擎。因此，可以通过与该操作一样多地更快地处理用于识别操作的数据。这里，存储器610可以包括随机存取存储器(RAM)。在这种情况下，例如加载在存储器610中的识别引擎可以包括预设阈值或者阈值可以预先存储在存储器610的确定区域中。

图7是示出了图1的语音识别设备100”’或图2的用户设备200”’的详细配置的另一示例的框图。

为了便于描述，除了图2之外参考图7，根据另一示例性实施例的用户设备200”’可以包括通信接口700、语音接收器710、控制器720、显示器730、语音识别执行器740和存储设备750中的一些或全部。

图7的用户设备200”’包括语音识别器，但是当满足预设条件时，用户设备200”’可以通过通信接口700向图2的语音识别设备220发送用户语音的音频数据。此外，用户设备200”’可以通过通信接口700接收所发送的音频数据的识别结果。在这种情况下，在传输音频数据期间，用户设备200”’可以只从由语音接收器710接收到的语音信号中检测确定为用户语音的时段，并且发送该时段。

例如，用户设备200”’的语音识别执行器740可以包括触发识别器。当执行触发识别器并且成功识别由用户发出的语音时，控制器720可以执行在存储设备750或语音识别执行器740中存储的诸如“*-Voice”之类的语音识别器，并在显示器730上显示对激活语音识别器加以表示的UI窗口，以执行规则的语音识别操作。

换句话说，当用户设备200是TV时，用户可以发出“Hi TV”以指示开始语音识别操作，并且用户设备200可以执行并识别安装在其中的触发识别器，然后当识别成功时，可以执行诸如“*-Voice”之类的语音识别器。然后，当用户说出“今天的天气如何？”时，可以通过诸如“*-Voice”之类的语音识别器来获取基于文本的识别结果，并且可以基于所获取的基于文本的识别结果来执行搜索操作。

除此之外，图7的语音接收器710、控制器720、显示器730、语音识别执行器740以及存储设备750与图4和图5的描述没有很大不同，因此语音接收器710、控制器720、显示器730、语音识别执行器740和存储设备750的详细描述将替代图4和图5中的那些。

图8是示出了图2的语音识别设备220的配置的框图。

如图8所示，根据示例性实施例的图2的语音识别设备220可以包括通信接口800和语音识别处理器810。

通信接口800包括连接到通信网络210的基于服务器的语音识别器，并且因此可以从图2的用户设备200接收用户发出的语音的音频数据。此外，通信接口800可以在语音识别处理器810的控制下向用户设备200发送接收到的语音的识别结果。

语音识别处理器810可以包括各种类型的语音识别器。当然，如上所述，语音识别器可以相对于用户及其周围环境自适应地操作。例如，语音识别处理器810可以包括用于识别触发词的触发识别器和诸如与常规语音识别操作相关的“*-Voice”的语音识别器。通常，服务器端的语音识别器比用户设备200的语音识别器具有更好的性能可能是有利的。此外，考虑到用户设备200的费用等，可以在服务器端的语音识别处理器810中包括通用语音识别器。然而，示例性实施例不特别限于以上描述。

除了这一点之外，图8的语音识别处理器810与图3的语音识别处理器310没有很大不同，因此语音识别处理器310的详细描述将取代语音识别处理器810的那些。

图9是示出了图2中所示的语音识别设备220’的另一配置的示例的框图。

如图9所示，根据另一示例性实施例的语音识别设备220’可以包括通信接口900、控制器910、语音识别执行器920和存储器930中的一些或全部，这里包括组件的一些或全部与前述含义相同。

图8的语音识别处理器810可以划分为用于执行控制功能的控制器910和用于执行语音识别操作以输出识别结果的语音识别执行器920。语音识别执行器920可以以EEPROM的形式配置，并且可以通过外部连接的设备来更新其中包括的语音识别器(引擎或程序)。

这里，控制器910可以包括已经参考图6描述的处理器600和存储器610中的一些或全部，以上已经充分参考图6描述的，因此下面将不再描述。

图9的控制器910和语音识别执行器920已经充分参考图5和图6描述，因此控制器910和语音识别执行器920的描述将取代图5和图6的描述。

图10是示出了根据示例性实施例的另一语音识别程序的图。

图10示出了图2的用户设备200的情况不包括语音识别器。用户设备200可以在实际环境中获取用户语音(操作S1000)。这里，“实际环境”可以解释为用户(即，使用用户设备200的家庭成员或用户设备200的周围环境)。

用户设备200可以基于服务器以单独操作形式向语音识别设备220发送与内部安装的麦克风或者外部源相关联的拾音设备获取的用户语音的音频数据(操作S1010)。根据示例性实施例，用户设备200可以适应性地相对于放置在实际环境中的用户设备200的用户及其周围环境进行操作，并且因此该过程可以实际上执行若干次。

语音识别设备220可以基于从用户设备200发送的语音的识别结果来改变预设语音识别结果(操作S1020)。当语音识别设备220包括例如捕捉发动引擎的语音识别器时，语音识别设备220可以改变相似度分数的阈值。例如，当预设识别结果的相似度分数的阈值为94％时，如果发送语音的识别结果的相似度分数为94％或更大，则语音识别设备220可以确定识别成功，并且当预设识别结果的相似度分数的阈值改变为降低到93％时，如果发送语音的识别结果的相似度分数是93％或更大，则语音识别设备220可以确定识别是成功的。

这样，当应用说话者特性来调整阈值时，语音识别设备220可能误识别输入用户设备200的周围环境，即除了用户之外的周围噪声，使得用户设备200发生故障。

因此，为了更准确地确定该过程，语音识别设备220可以接收用户重新发出的语音(操作S1030和S1040)，并将语音的识别结果与改变的识别结果进行比较，以确定是否误识别了语音(操作S1050)

作为确定结果，当识别成功并且识别率没有降低时，可以确定适当地校正了阈值，并且语音识别设备220可以将对应的识别结果发送到用户设备200以执行适当的操作。例如，当触发词的识别成功时，用户设备200可以执行另一个语音识别器，以规律地执行语音识别操作。

然后，语音识别设备220可以将与相应识别结果有关的信息存储为说话者模型。此外，语音识别设备220可以更新与成功识别的说话者模型有关的信息。另一方面，可以将基于改变的阈值的失败的识别结果可以为与背景有关的信息，即除了用户以外的使用环境，并且可以从讲话者模型中分离地存储。

可以参考所存储的讲话者模型信息和背景模型信息，例如当满足预设条件，以由于基于改变的语音识别结果的语音识别来重新调整阈值。这里，“预设条件”包括识别率降低的情况。实际上，与用户的语音周期相对应的音频数据可以包括说话者特性和周围环境的背景特性。在这种情况下，可以不同地改变背景特性，因此在分析音频数据期间可能产生完全不同的讲话者模型信息，从而增加误识别率。为了克服该问题，根据示例性实施例，可以执行阈值的重新调整操作。

图11是示出了根据另一示例性实施例的语音识别程序的图。

图11示出了根据另一示例性实施例的其中用户设备200包括安装在其中的语音识别器的情况。用户设备200可以确定是否能够使用内部语音识别器执行语音识别(操作S1100和S1110)，并且向语音识别设备220发送所获取的语音的音频数据(操作S1120)。

例如，当从接收到的信号中检测到与语音周期相对应的部分，并且其中发出检测到的部分的时间段像触发词那样短时，用户设备200可以将该部分确定为触发词并且处理一部分。

除了这一点之外，图11的操作S1130至S1170与图10的操作S1020至S1070没有很大不同，因此操作S1020至S1070的详细描述将取代的操作。

图12是示出了根据示例性实施例的语音识别程序的流程图。

为了便于描述，除了图1之外参考图12，根据示例性实施例的语音识别设备100可以接收用户发出的语音(操作S1200)。

这里，所述语音可以表示用户语音。因此，更具体地，语音识别设备100可以通过例如麦克风接收包括除用户语音之外的噪声在内的信号(或语音)，并且从接收到的信号中检测与用户语音相对应的语音周期。

语音识别设备100可以根据例如用户请求来执行示例性实施例中使用的“实际环境自适应模式”。这可以通过菜单图像或通过包括在遥控器中的分离按钮来执行。

当存在用户请求时，语音识别设备100可以基于语音识别结果来改变预设识别结果(操作S1210)。

更具体地，可以视为识别结果的相似度分数的阈值改变。

此外，当用户重新发出语音命令时，语音识别设备100可以确定重新发声的语音的识别结果是否大于或等于改变的阈值，以确定是否发生误识别(操作S1220)。

当识别成功时，可以基于成功结果来驱动诸如“*-Voice”之类的另一个语音识别器。在此过程中，语音识别设备100可以分离地存储相应的文本识别结果作为说话人模型信息，当识别失败时，语音识别设备100可以分离地存储相应的文本识别结果作为背景模型信息。

当需要重新调整相似度分数的阈值时，可以参考所存储的说话者模型和背景模型信息。

图13是根据另一示例性实施例的语音识别程序的流程图。

为了便于描述，除了图1之外参考图13，根据示例性实施例的语音识别设备100可以从输入信号检测用户语音(操作S1301)。

当根据所谓的“实际环境适应模式”没有来自用户的执行请求时，语音识别设备100可以根据预设识别结果执行识别操作(操作S1303至S1317)。

在操作S1303中，当用户发出使语音识别设备100适应实际环境的请求时，语音识别设备100可以提取所接收的用户语音的说话者特性(操作S1305)。换句话说，当预设识别结果的基于文本的信息是8比特信息“10101010”时，说话者特性的基于文本的信息可以是“10101011”。

语音识别设备100可以基于说话者特性信息来计算相似度值。换句话说，所提取的说话者特性信息与预设基于文本的识别结果类似。此外，计算的相似度值的阈值可以适应于预设识别结果(操作S1307)。也就是说，可以应用识别结果来改变相似度分数的阈值。

然后，当用户重新发出语音时，语音识别设备100可以应用改变后的阈值，并且可以继续执行操作S1301至S1317。

在该过程期间，当在操作S1315中识别成功时，语音识别设备100可以将成功识别的基于文本的识别结果存储为说话者模型(操作S1319和S1321)，然后可以定期地更新结果。另一方面，当在操作S1315中识别失败时，语音识别设备100可以将失败的基于文本的识别结果存储为背景模型(操作S1323和S1321)。

此外，当发生满足预设条件的事件时，例如，当在识别操作期间识别率降低(操作S1313)时，语音识别设备100可以分析接收到的语音信号以重新分析说话者特性(操作S1305)，并且参考在上述过程中分离地存储的说话者模型信息和背景模型信息来重新计算相似度分数的阈值，以便重新调整改变的阈值(操作S1307和S1311)。

根据上述方法，语音识别设备100可适应性地操作到实际环境，以防止非故意的误识别。

图14是根据另一示例性实施例的语音识别程序的流程图。

为了便于描述，除了图1之外参考图14，根据示例性实施例的语音识别设备100可以接收用户发出的语音的语音信号(操作S1400)。

此外，语音识别设备100从接收到的语音信号中识别语音识别开始词，并且当开始词的识别结果大于或等于预设阈值时，语音识别设备100可以对语音信号执行语音识别(操作S1410)。这里，预设阈值可以表示相似度分数的阈值。

此外，语音识别设备100可以基于开始词的识别结果来调整预设阈值(操作S1420)。例如，当存在用于将语音识别设备100自适应地操作到实际环境的用户命令时，语音识别设备100可以基于在命令之后接收到的开始词的识别结果来调整预设阈值。

尽管构成实施例的所有元件被描述为集成到单个元件或者作为单个元件来操作，但是本示例性实施例不必限于此。根据实施例，可以将所有元件选择性地集成到一个或多个元件中，并作为对象和范围内的一个或多个元件进行操作。元件中的每一个可以实现为独立的硬件。替代地，元件的一些或全部可以选择性地组合成具有程序模块的计算机程序，该程序模块执行组合在一个或多个硬件中的一些或全部功能。构成计算机程序的多个代码和代码段可以容易地被本示例性实施例所属领域的技术人员理解。计算机程序可以存储在非临时性计算机可读介质中，使得计算机程序被计算机读取和执行以实现实施例。

非暂时性计算机可读介质是半永久性存储数据并且可以由设备读取数据的介质，但不是短时间存储数据的介质(例如寄存器、缓存、存储器等)。具体地，可以将上述各种应用或程序存储在非临时计算机可读介质如紧凑盘(CD)、数字通用盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)等，并且可以提供上述各种应用或程序。

上述示例性实施例仅仅作为示例而不应被解释为限制。本发明的教导易于应用于其他类型的设备。此外，对示例实施例的描述只是说明性的，而不是为了限制权利要求的范围，并且本领域技术人员将清楚多种备选、修改和变化。

Claims

1.一种语音识别设备，包括：

存储器，配置为存储用于语音识别的预设阈值；

语音接收器，配置为接收发音的语音信号；以及

语音识别处理器，配置为从所接收的语音信号中识别语音识别开始词，响应于对所识别的语音识别开始词的识别结果加以表示的相似度分数大于或等于所存储的预设阈值对所述语音信号执行语音识别，并且基于所述语音识别开始词的所述识别结果来改变所述预设阈值。

2.根据权利要求1所述的语音识别设备，其中所述语音识别处理器还配置为改变所述预设阈值，并且将所改变的当前阈值和与通过识别所述语音识别开始词而产生的基于文本的识别结果相关的相似度分数进行比较。

3.根据权利要求2所述的语音识别设备，其中所述语音识别处理器还配置为响应于所述语音信号的基于文本的识别结果被检测预设次数或者大于所述当前次数来改变所述预设阈值。

4.根据权利要求1所述的语音识别设备，其中所述语音识别处理器还配置为响应于由于使用所述预设阈值的所述语音识别而增加的误识别率来改变所述预设阈值。

5.根据权利要求1所述的语音识别设备，还包括：存储器，配置为响应于基于所改变的预设阈值的所述语音识别成功，将成功的识别结果存储为用户的说话者模型，并且响应于所述语音识别失败将失败的识别结果存储为所述用户所属的环境的背景模型，

其中所述语音识别处理器还配置为基于所述说话者模型的识别结果和所述背景模型的识别结果来重新改变所改变的预设阈值。

6.根据权利要求5所述的语音识别设备，其中所述语音识别处理器还配置为当由于基于所改变的预设阈值的所述语音识别而导致误识别率增加时，重新改变所改变的预设阈值。

7.根据权利要求1所述的语音识别设备，还包括被配置为识别所述语音识别开始词的隔离词语音识别器。

8.一种语音识别方法，包括：

存储用于语音识别的预设阈值；

接收用于语音识别的预设阈值；

从所接收的语音信号识别语音识别开始词；

响应于对所识别的语音识别开始词的识别结果加以表示的相似度分数大于或等于所存储的预设阈值，对所述语音信号执行所述语音识别；以及

基于所述语音识别开始词的所述识别结果来改变所述预设阈值。

9.根据权利要求8所述的语音识别方法，其中所述改变所述预设阈值包括改变所述预设阈值，并且将所改变的当前阈值和与通过识别所述语音识别开始词而产生的基于文本的识别结果相关的相似度分数进行比较。

10.根据权利要求9所述的语音识别方法，其中所述改变预设阈值包括响应于所述语音信号的基于文本的识别结果被检测预设次数或者大于所述当前次数来改变所述预设阈值。

11.根据权利要求8所述的语音识别方法，其中所述改变所述预设阈值包括响应于由于使用所述预设阈值的所述语音识别而增加的误识别率来改变所述预设阈值。

12.根据权利要求8所述的语音识别方法，还包括：

响应于基于所改变的预设阈值的所述语音识别成功，将成功的识别结果存储为用户的说话者模型；

响应于所述语音识别的失败，将失败的识别结果存储为所述用户所属的环境的背景模型；以及

基于所述说话者模型的识别结果和所述背景模型的识别结果来重新改变所改变的预设阈值。

13.根据权利要求12所述的语音识别方法，其中所述重新改变所改变的预设阈值包括当由于基于所改变的预设阈值的所述语音识别而导致误识别率增加时，重新改变所改变的预设阈值。

14.根据权利要求8所述的语音识别方法，还包括由安装在用户设备中的隔离词语音识别器识别所述语音识别开始词。