CN109643549B

CN109643549B - 基于说话者识别的语音识别方法和装置

Info

Publication number: CN109643549B
Application number: CN201780052734.6A
Authority: CN
Inventors: 曹根硕; 安桐薰; 朴致衍; 韩英浩; 李在原
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-08-31
Filing date: 2017-08-24
Publication date: 2023-09-05
Anticipated expiration: 2037-08-24
Also published as: KR102596430B1; KR20180024807A; EP3479376A1; EP3479376A4; US20180061412A1; CN109643549A; WO2018043991A1; US10762899B2

Abstract

提供了一种基于说话者识别来识别语音并输出语音识别结果的语音识别方法和装置。所述语音识别方法包括激活用于接收音频信号的输入的会话，在维持所述会话的同时，对从所述输入音频信号检测到的语音信号执行语音识别，基于从所述语音信号生成的说话者信息，确定语音信号的说话者是否是注册的说话者，基于所述确定的结果确定是否维持会话，并输出执行所述语音识别的结果。

Description

基于说话者识别的语音识别方法和装置

技术领域

本公开涉及语音识别方法和设备。更具体地，本公开涉及一种用于基于说话者(speaker)识别来识别语音的方法和装置，并且当在语音识别系统中识别出语音时输出语音识别的结果。

背景技术

近来，由于已经开发了执行各种功能的诸如智能电话的电子设备，因此已经发布了具有嵌入其中的语音识别功能以改善可操纵性的电子设备。语音识别功能有利于识别用户的语音而无需经由触摸模块对于按钮或接触的单独操纵，从而允许用户容易地控制设备。

由于语音识别功能，用户可以在不需要诸如智能手机的便携式终端的单独输入按钮的情况下运行呼叫功能或写入文本消息，并且可以容易地设置各种功能，例如导航、因特网搜索、警报设置等。

以上信息仅作为背景信息呈现，并有助于理解本公开。没有做出任何确定，并且没有断言关于上述任何一个是否适用于关于本公开的现有技术。

发明内容

提供本公开的各方面以解决至少上述问题和/或缺点，并提供至少下述优点。

在根据一个或多个实施例的语音识别系统中，仅经由说话者验证输出关于注册的说话者的话语(utterance)的语音识别结果，使得在诸如智能电话的个性化设备中可以进行语音识别的个性化。另外，在根据一个或多个实施例的语音识别系统中，减少了用户不必要地激活会话的次数，从而可以增加用户使用语音识别系统的便利性。另外，在根据一个或多个实施例的语音识别系统中，对于认为个人信息保护很重要的用户来说，个性化语音识别是可能的。

附图说明

图1是根据本公开实施例的常规语音识别方法的流程图；

图2A、图2B、图2C和图2D示出了根据本公开各种实施例的语音识别系统；

图3A和图3B是根据本公开各种实施例的语音识别装置的框图；

图4是根据本公开实施例的语音识别方法的流程图；

图5是根据本公开另一实施例的语音识别方法的流程图；

图6是根据本公开的实施例的处理器的框图；

图7是根据本公开另一实施例的语音识别方法的流程图；

图8是用于描述根据本公开的实施例的由语音识别装置执行的执行语音识别和生成说话者信息的方法的图；

图9是用于描述根据本公开的实施例的由语音识别装置执行的用于实时说话者识别的通过使用相邻帧的信息来执行归一化的方法的图；

图10是用于描述根据本公开的实施例的由语音识别装置执行的基于说话者识别的结果来管理会话的维护(maintenance)和更新已注册说话者信息的方法的图；

图11A、图11B和图11C示出了其中根据本公开各种实施例的语音识别装置输出语音识别结果的示例；

图12A和图12B示出了其中根据本公开各种实施例的语音识别装置输出语音识别结果的另一示例；

图13A、图13B和图13C示出了其中根据本公开各种实施例的语音识别装置输出语音识别结果的另一示例；

图14A、图14B和图14C示出了其中根据本公开各种实施例的语音识别装置输出语音识别结果的另一示例；

图15是根据本公开的实施例的语音识别系统中的操作的流程图；

图16是根据本公开的实施例的语音识别系统中的操作的流程图；以及

图17A和图17B示出了根据本公开各种实施例的语音识别系统输出语音识别结果的示例。

具体实施方式

因此，本公开的一个方面是提供一种语音识别方法和装置，其基于说话者识别来确定是否维持(maintain)会话，从而在注册的说话者发声时，允许顺序语音识别而无需单独激活会话的操作。

本公开的另一方面是提供一种语音识别方法和装置，其基于说话者识别，仅在注册的说话者发声时输出执行语音识别的结果，从而向语音识别装置的用户提供个性化语音识别服务。

根据本公开的另一方面，提供了一种语音识别方法。该方法包括激活用于接收音频信号的输入的会话，在维持会话的同时对从输入音频信号检测到的语音信号执行语音识别，基于从语音信号生成的说话者信息确定语音信号的说话者是否是注册的说话者，基于确定语音信号的说话者是否是注册的说话者的结果来确定是否维持会话，并输出语音识别的结果。

根据本公开的另一方面，提供了一种用于语音识别的装置。该装置包括：接收器，被配置为在维持用于接收一个或多个音频信号的输入的会话的同时接收输入音频信号；处理器，被配置为从输入的音频信号中检测语音信号，对语音信号执行语音识别，基于从语音信号生成的说话者信息确定语音信号的说话者是否是注册的说话者，并基于确定语音信号的说话者是否是注册的说话者的结果来确定是否维持会话，以及输出单元，被配置为输出语音识别的结果。

根据本公开的另一方面，提供了一种用于语音识别的服务器。该服务器包括：接收器，被配置为从语音识别装置接收输入音频信号，该输入音频信号由接收器在维持用于接收一个或多个音频信号的输入的会话的同时接收，处理器，被配置为从输入的音频信号检测语音信号，对语音信号执行语音识别，基于从语音信号生成的说话者信息确定语音信号的说话者是否是注册的说话者，并基于确定语音信号的说话者是否是注册的说话者的结果确定是否维持语音识别装置的会话，以及输出单元，被配置为将用于确定是否维持会话的会话管理信号和语音识别的结果发送到语音识别装置。

根据本公开的另一方面，提供了一种非暂时性计算机可读记录介质，其上记录有至少一个程序，该程序包括当由至少一个处理器运行时配置至少一个处理器以运行语音识别方法的指令。该语音识别方法包括激活用于接收音频信号的输入的会话，在维持会话的同时对从输入音频信号检测到的语音信号执行语音识别，基于从语音信号生成的说话者信息确定语音信号的说话者是否是注册的说话者，基于确定语音信号的说话者是否是注册的说话者的结果确定是否维持会话，并输出语音识别的结果。

根据本公开的另一方面，提供了一种用于语音识别的系统。该系统包括多个语音识别装置和用于控制多个语音识别装置的语音识别服务器，其中多个语音识别装置中的第一语音识别装置被配置为在维持用于接收一个或多个音频信号的输入会话的同时接收输入音频信号，并将输入的音频信号发送到语音识别服务器，并且其中语音识别服务器被配置为从输入的音频信号中检测语音信号，对语音信号执行语音识别，基于从语音信号生成的说话者信息确定语音信号的说话者是否是注册的说话者，并且当语音信号的说话者是注册的说话者时，控制多个语音识别装置以在预设时段期间维持多个语音识别装置的会话。

根据本公开的另一方面，提供了一种语音识别方法。该方法包括激活用于接收音频信号的输入的会话，在维持会话的同时对从输入音频信号检测到的多个语音信号执行语音识别，基于从多个语音信号生成的说话者信息确定多个语音信号中的至少一个说话者是否是注册的说话者，基于确定至少一个说话者是否是注册的说话者的结果来确定是否维持会话，并输出语音识别的结果。

根据本公开的另一方面，提供了一种用于语音识别的装置。该装置包括：接收器，用于在维持用于接收一个或多个音频信号的输入的会话的同时接收输入音频信号；处理器，用于在维持会话的同时对从输入音频信号检测到的多个语音信号执行语音识别，基于从多个语音信号生成的说话者信息来确定多个语音信号中的至少一个说话者是否是注册的说话者，并基于确定至少一个说话者是否是注册的说话者的结果确定是否维持会话，以及输出单元，被配置为输出语音识别的结果。

通过以下结合附图公开了本公开的各种实施例的详细描述，本公开的其他方面、优点和显着特征对于本领域技术人员将变得显而易见。

【发明模式】

提供参照附图的以下描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体细节以帮助理解，但这些仅被视为示例性的。因此，本领域普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文描述的各种实施例进行各种改变和修改。另外，为了清楚和简明，可以省略对公知功能和结构的描述。

在以下描述和权利要求中使用的术语和词语不限于书面含义，而是仅用于使得能够清楚和一致地理解本公开。因此，对于本领域技术人员来说显而易见的是，提供本公开的各种实施例的以下描述仅用于说明目的，而不是为了限制由所附权利要求及其等同物定义的本公开的目的。

应理解，除非上下文另有明确规定，否则单数形式“一”、“一个”和“该”包括复数指示物。因此，例如，对“一个组件表面”的引用包括对一个或多个这样的表面的引用。

在整个说明书中，还应该理解，当一个元件被称为“连接到”或“耦合到”另一个元件时，它可以直接连接到另一个元件或与另一个元件耦合，或者它可以通过在其间插入中间元件电连接到其他元件，或者与其他元件耦合。此外，当部件“包括”或“包含”元件时，除非存在与其相反的特定描述，否则该部件还可包括其他元件，不排除其他元件。

在整个说明书中，诸如“在一些实施例中”、“在一个实施例中”等表达不一定指示相同的实施例。

可以根据功能块组件和各种处理操作来描述一些实施例。一些或所有功能块可以由被配置为执行指定功能的任何数量的硬件和/或软件组件来实现。例如，本公开的功能块可以由一个或多个微处理器或用于预定功能的电路组件来实现。另外，例如，可以使用任何编程语言或脚本语言来实现本公开的功能块。还可以使用在一个或多个处理器上运行的算法来实现功能块。此外，根据现有技术，本公开可以采用任何数量的技术用于电子配置、信号处理和/或控制、数据处理等。诸如“模块”和“配置”的术语可以广泛使用，并且不限于机械和/或物理实施例。

此外，图中所示的元件之间的连接线或连接器旨在表示元件之间的功能关系和/或物理或逻辑耦合。应该注意，在实际设备中可以存在许多替代或附加的功能关系、物理连接或逻辑连接。

如本文所使用的，术语“和/或”包括一个或多个相关所列项目的任何和所有组合。诸如“至少一个”之类的表达式在元素列表之前时，修饰整个元素列表而不是修饰列表的各个元素。

在下文中，现在将参照附图更充分地描述本公开。

图1是根据本公开的实施例的一般语音识别方法的流程图。

参照图1，在操作S110中，一般语音识别系统可以激活用于接收音频信号的输入的会话。语音识别系统可以基于用户输入(例如，由用户按下物理开始按钮的输入，或发出预设的激活关键字的输入)来激活会话。

在操作S120中，一般语音识别系统可以在会话被激活时从输入音频信号中检测语音信号。在操作S130中，一般语音识别系统可以对检测到的语音信号执行语音识别。当会话被激活然后从输入音频信号检测到语音信号时，一般语音识别系统可以不论发出语音的说话者，在操作S140输出语音识别的结果，并且可以在操作S150结束会话。

一般语音识别系统通过使用语音检测算法提取语音结束的时间点来结束会话，使得一般语音识别系统可以在每个话语之后结束会话。一般语音识别系统在每个话语之后结束会话的原因是仅在用于语音识别的话语上执行语音识别。如果即使在话语结束之后一般语音识别系统也没有结束会话，则可能对不是语音识别的话语或噪声进行语音识别。

一般语音识别系统的用户必须执行激活会话的操作，以便在对话语执行语音识别之后允许对另一个话语执行语音识别。用户必须在会话激活后发出语音。当再次激活会话时，一般语音识别系统可以重复执行图1的操作S120至S150。

因此，为了使一般语音识别系统仅在作为语音识别目标的话语上执行语音识别，一般语音识别系统必须在作为语音识别目标的话语开始之前激活会话，并且当作为语音识别目标的话语结束时结束会话。因此，为了允许一般语音识别系统顺序地执行语音识别，用户具有在每次话语之前执行激活会话的操作的不便。另外，因为一般语音识别系统输出语音识别结果而不论说话者，所以一般语音识别系统不能执行个性化语音识别。因此，一般语音识别系统的问题在于，当特定说话者发声时或在特定说话者发声之后，输出也对另一说话者的话语内容执行语音识别的结果。

如上所述，如果用户没有针对每个话语执行激活会话的操作，则一般语音识别系统不能顺序地执行语音识别。因此，用户具有为每个话语执行激活会话的操作的不便。另外，在识别由用户执行的会话激活操作的过程中，一般语音识别系统可能导致错误。在当预设的激活关键字被发出时一般语音识别系统激活会话的情况下，是否驱动语音识别系统的决定受一般语音识别系统识别激活关键字的功能的影响。

为了解决这些问题，可以使用在执行语音识别之后不立即结束会话，而是维持会话的语音识别系统。然而，当语音识别系统维持会话时，语音识别系统难以区分作为语音识别目标的话语的输入音频信号和不是语音识别目标的噪声，从而语音识别性能恶化。例如，当多个说话者说话时，语音识别系统甚至可以在不是语音识别目标的说话者的发声时执行语音识别，从而语音识别性能劣化。另外，当噪声不断发生时，语音识别系统可以确定话语继续而没有结束，然后可能不断地对噪声执行语音识别。如果语音识别系统重复执行语音检测操作和语音识别操作，则语音识别系统还可能不必要地消耗功率或存储容量。

用于解决执行图1的语音识别方法的语音识别系统的问题的实施例可以提供基于说话者识别来执行语音识别的语音识别系统。根据实施例的语音识别系统可以初始地激活会话，并且即使在话语结束之后，语音识别系统也可以顺序地执行下一个话语的语音识别，而无需激活会话的附加操作。另外，根据实施例的语音识别系统可以同时执行验证输入话语的说话者是否是注册的说话者的说话者验证和对输入话语的语音识别，使得语音识别系统可以仅输出关于注册的说话者的话语的语音识别的结果。因此，根据实施例的语音识别系统可以允许个性化语音识别。

另外，通过基于说话者识别执行语音识别，根据实施例的语音识别系统可以在输入话语的说话者是注册的说话者时维持语音识别会话。因此，根据实施例的语音识别系统可以解决执行图1的语音识别方法的语音识别系统的问题，包括由重复激活会话引起的问题，并且可以为用户提供方便的使用环境。

图2A、图2B、图2C和图2D示出了根据本公开的各种实施例的语音识别系统。

参照图2A，根据实施例的语音识别系统可以包括语音识别装置210。例如，语音识别装置210可以包括但不限于智能手机、平板个人电脑(平板电脑)、PC、智能电视(智能TV)、移动电话、个人数字助理(PDA)、笔记本电脑、媒体播放器、微服务器、全球定位系统(GPS)设备、电子书终端、数字广播终端、导航设备、自助服务终端、运动图像专家组(MPEG-1或MPEG-2)音频层-3(MP3)播放器、数字相机以及移动或非移动计算设备。根据本实施例的语音识别装置210可以激活会话，可以接收包括由说话者10发出的语音信号的音频信号的输入，并且可以对语音信号执行语音识别。然后，语音识别装置210可以输出语音识别的结果。

参照图2B，根据实施例的语音识别系统可以包括第一语音识别装置221和第二语音识别装置222。第一语音识别装置221和第二语音识别装置222可以以有线或无线方式彼此连接。例如，第二语音识别装置222可以包括移动计算装置，例如智能手机、平板电脑、PC、智能电视等，并且第一语音识别装置221可以包括可穿戴设备、智能手机、平板电脑、PC或与第二语音识别装置222互操作的智能电视，但是本公开不限于此。

根据实施例的第二语音识别装置222可以控制第一语音识别装置221的操作，并且可以与第一语音识别装置221共享数据。根据实施例的第二语音识别装置222还可以发送控制信号到第一语音识别装置221，用于激活第一语音识别装置221的会话以接收音频信号的输入。

第一语音识别装置221可以接收包括由说话者10发出的语音信号的音频信号的输入，并且可以将输入的音频信号发送到第二语音识别装置222。或者，第一语音识别装置221可以接收输入包括由说话者10发出的语音信号的音频信号，并且可以将从输入音频信号检测到的语音信号发送到第二语音识别装置222。或者，第一语音识别装置221可以接收包括由说话者10发出的语音信号的音频信号的输入，并且可以将从输入音频信号检测到的语音信号的特征发送到第二语音识别装置222。

第二语音识别设备222可以基于从第一语音识别设备221接收的信号执行语音识别。例如，第二语音识别设备222可以对从第一语音识别设备221接收的音频信号检测到的语音信号执行语音识别。然后，第二语音识别装置222可以输出语音识别的结果，或者可以控制第一语音识别装置221输出语音识别的结果。

参照图2C，根据实施例的语音识别系统可以包括语音识别装置231和语音识别服务器232。语音识别装置231和语音识别服务器232可以以有线或无线方式彼此连接。

根据实施例的语音识别服务器232可以与语音识别装置231共享数据。语音识别装置231可以激活会话，并且可以接收包括由说话者10发出的语音信号的音频信号的输入。语音识别装置231可以将输入音频信号发送到语音识别服务器232。或者，语音识别装置231可以将从输入音频信号检测到的语音信号发送到语音识别服务器232。或者，语音识别装置231可以将从输入音频信号检测到语音信号的特征发送到语音识别服务器232。

语音识别服务器232可以基于从语音识别装置231接收的信号执行语音识别。例如，语音识别服务器232可以对从语音识别装置231接收的音频信号检测到的语音信号执行语音识别。语音识别服务器232还可以将语音识别的结果发送到语音识别装置231。然后，语音识别装置231可以输出语音识别的结果。

参照图2D，根据实施例的语音识别系统可以包括第一语音识别装置241、第二语音识别装置242和语音识别服务器243。第一语音识别装置241、第二语音识别装置242和语音识别服务器243可以以有线或无线方式彼此连接。第一语音识别设备241和第二语音识别设备242中的至少一个可以是诸如智能电话的移动计算设备，或者可以是包括在家庭网络系统中的电子产品。

第一语音识别设备241和第二语音识别设备242可以经由语音识别服务器243以远程方式控制，或者可以彼此共享数据。更详细地，语音识别服务器243可以确定第一语音识别装置241和/或第二语音识别装置242的会话的激活、维护和结束中的至少一个，并且可以执行对由第一语音识别装置241和/或第二语音识别装置242接收的音频信号的语音识别。

例如，根据实施例的第一语音识别装置241可以激活会话，并且可以接收包括由说话者10发出的语音信号的音频信号的输入。第一语音识别装置241可以向语音识别服务器243发送关于输入音频的信息。关于输入音频信号的信息可以是输入音频信号、从输入音频信号检测到的语音信号、和/或从输入音频信号检测到的语音信号的特征。

语音识别服务器243可以基于从第一语音识别装置241接收的关于输入音频信号的信息来执行语音识别。语音识别服务器243可以将语音识别的结果发送到第一语音识别装置241和第二语音识别装置242中的至少一个。语音识别服务器243可以控制第一语音识别装置241和第二语音识别装置242中的至少一个，然后输出语音识别的结果。

如图2A、图2B、图2C和图2D所示，根据实施例的语音识别系统可以包括至少一个语音识别装置，并且还可以包括语音识别服务器。在下文中，为了便于描述，将描述由“语音识别装置”执行的语音识别方法。然而，在下文中，下面描述的语音识别装置的一些或全部操作可以由语音识别服务器执行，或者可以部分地由多个语音识别装置执行。

图3A和图3B是根据本公开的各种实施例的语音识别装置的框图。

参照图3A，根据实施例的语音识别装置300可以包括接收器310、处理器320和输出单元330。然而，语音识别装置300可以实施为比图3A中所示的元件更多的元件。例如，如图3B所示，根据实施例的语音识别装置300还可包括存储器340。

例如，根据实施例的语音识别装置300可以实施为包括在电子产品、移动计算设备和服务器中的至少一个中，或者可以实施为以有线或无线方式连接到电子产品、移动计算设备和服务器中的至少一个。

接收器310可以接收音频信号。例如，接收器310可以通过使用麦克风将外部声音转换为电音频数据来直接接收音频信号。或者，接收器310可以接收由外部设备发送的音频信号。参照图3，接收器310包括在语音识别装置300中，但是根据另一实施例的接收器310可以包括在单独的设备中，并且可以以有线或无线方式连接到语音识别装置300。

接收器310可以通过处理器320的控制来激活用于接收音频信号的输入的会话。会话可以指示其中语音识别装置300开始接收音频信号的输入的操作然后结束该操作的时段。会话的激活可以描述语音识别装置300开始接收音频信号的输入的操作。在维持会话的同时，接收器310可以将输入音频信号发送到处理器320。

另外，接收器310可以接收控制语音识别装置300的用户输入。接收器310可以具有用户输入设备，其包括但不限于用于接收用户触摸的触摸板、用于接收用户按压操纵的按钮、用于接收用户的旋转操纵的轮子、键盘和圆顶开关。接收器310可以不直接接收用户输入，而是可以接收由单独的用户输入设备接收的用户输入。

例如，接收器310可以接收将特定说话者存储为注册说话者的用户输入，以及激活会话的用户输入。

处理器320可以从通过接收器310输入的音频信号中检测语音信号，并且可以对音频信号执行语音识别。在一个实施例中，处理器320可以从输入音频信号中提取语音信号的频率特征，并且可以通过使用声学模型和语言模型中的一个或多个来执行语音识别。频率特征可以指示声音输入的频率分量的分布，其中通过分析声音输入的频谱来提取频率分量。因此，如图3B所示，语音识别装置300还可以包括用于存储声音模型和/或语言模型的存储器340。

在一个实施例中，处理器320可以从语音信号生成说话者信息。例如，处理器320可以通过使用从声音模型中提取的状态后验、通用背景模型和总可变性转换信息中的至少一个从语音信号的频率特征生成说话者信息。处理器320可以基于说话者信息确定语音信号的说话者是否是注册的说话者。处理器320可以基于确定的结果来决定是否维持会话。在一个实施例中，图3B的存储器340可以存储状态后验、通用背景模型、总可变性转换信息和已注册说话者信息中的至少一个。

处理器320可以激活用于接收音频信号的输入的会话，以便执行语音识别。处理器320还可以控制激活的会话的维护或结束。

例如，处理器320可以基于用户输入激活会话，并且可以将会话设置为在预设的会话维护时段期间维持，然后在预设的会话维护时段之后结束。在从当会话被激活时接收的输入音频信号检测到的语音信号的说话者是注册的说话者的情况下，处理器320可以在预设的延长时段期间重置将被激活并且稍后在延长的时段之后被结束的会话。

输出单元330可以输出对语音信号执行语音识别的结果。输出单元330可以向用户通知语音识别的结果，或者可以将语音识别的结果发送到外部设备(例如，智能电话、智能TV、智能手表、服务器等)。例如，输出单元330可以包括能够输出音频信号或视频信号的显示器。

或者，输出单元330可以执行对应于执行语音识别的结果的操作。例如，语音识别装置300可以确定语音识别装置300的功能，该功能对应于执行语音识别的结果，并且可以经由输出单元330输出其中正在执行功能的运行屏幕。或者，语音识别装置300可以向外部服务器发送对应于执行语音识别的结果的关键字，可以从外部服务器接收关于所发送的关键字的信息，并且可以经由输出单元330将该信息输出到屏幕。

图3A和图3B中示出的框图的实施例也可以应用于语音识别服务器。根据实施例的语音识别服务器可以包括从语音识别装置接收输入音频信号的接收器。语音识别服务器可以以有线或无线方式连接到语音识别装置。在用于接收音频信号的输入的会话被激活的同时，由语音识别服务器的接收器接收的输入音频信号可能已经被语音识别装置接收。

语音识别服务器可以包括处理器和输出单元，并且还可以包括存储器。语音识别服务器的处理器可以从输入音频信号中检测语音信号，并且可以对语音信号执行语音识别。语音识别服务器的处理器可以基于从语音信号生成的说话者信息来确定语音信号的说话者是否是注册的说话者。语音识别服务器的处理器可以基于确定的结果确定是否维持语音识别装置的会话。

语音识别服务器的输出单元可以向语音识别装置发送用于确定是否维持会话的会话管理信号和执行语音识别的结果。语音识别装置可以输出执行语音识别的结果，其中从语音识别服务器接收结果。

在下文中，现在将详细描述语音识别装置300的操作方法。下面描述的方法的每个操作可以由语音识别装置300的上述元件中的每一个执行。为了便于描述，假设语音识别装置300是操作的主体，但是下面的描述也可以适用于其中语音识别服务器是操作的主体的情况。

图4是根据本公开的实施例的语音识别方法的流程图。

在操作S410中，语音识别装置300可以激活用于接收音频信号的输入的会话。

会话可以指示其中语音识别装置300开始接收音频信号的输入的操作然后结束该操作的时段。会话的激活可以描述语音识别装置300开始接收音频信号的输入的操作。

语音识别装置300可以将会话设置为在预设会话维护时段期间维持，然后在预设会话维护时段之后结束。

在维持会话的同时，语音识别装置300可以接收音频信号的输入。另外，在维持会话的同时，语音识别装置300可以执行接收音频信号的输入的操作，并且还可以执行处理输入音频信号的操作。例如，在维持会话的同时，语音识别装置300可以执行图4中所示的操作S420至S450中的至少一个。

在操作S420中，语音识别设备300可以执行语音识别。语音识别装置300可以从在维持会话的同时输入的音频信号中检测语音信号，并且可以对检测到的语音信号执行语音识别。

在一个实施例中，语音识别装置300可以将实时输入的音频信号分段为每个具有预设长度的帧单元，并且可以处理被分段为帧单元的音频信号。然后可以从被分段为帧单元的音频信号中检测帧单元中的语音信号。

在一个实施例中，语音识别装置300可以从语音信号中提取用于鲁棒语音识别的语音识别特征向量，以及用于鲁棒说话者识别的说话者识别特征向量。语音识别装置300可以将时域中的语音信号转换为频域中的信号，并且可以不同地改变转换信号的频率能量，从而提取语音识别特征向量和说话者识别特征向量。

例如，语音识别特征向量和说话者识别特征向量可以是梅尔频率倒频谱系数(mel-frequency cepstral coefficients，MFCC)或滤波器组能量(filter bankenergy)，但是实施例不限于此，因此，可以以各种方式从语音信号中提取特征向量。

在一个实施例中，语音识别装置300可以对语音识别特征向量执行语音识别，从而生成执行语音识别的结果。语音识别装置300可以基于声学模型和语言模型中的一个或多个对语音识别特征向量执行语音识别。语音识别装置300可以执行语音识别，从而提取假定已经由语音信号的说话者发出的文本。

在一个实施例中，语音识别装置300可以通过使用语音识别特征向量来生成说话者信息。例如，语音识别装置300可以基于声学模型和语音识别特征向量中的一个或多个来提取状态后验，并且可以通过使用状态后验和语音识别特征向量来生成说话者信息。在一个实施例中，除了语音识别特征向量和状态后验之外，语音识别装置300还可以通过使用总可变性转换信息和通用背景模型中的一个或多个来计算包括说话者信息的向量矩阵。

在一个实施例中，语音识别装置300可以同时执行语音识别和说话者信息的生成。更详细地，语音识别装置300可以对以帧单元实时提取的语音信号执行语音识别，并且可以生成说话者信息。语音识别装置300可以在语音信号的第一帧上执行语音识别，并且可以在对第一帧执行语音识别的同时提取关于第一帧的状态。然后，语音识别装置300可以通过使用关于第一帧的状态后验来生成关于第一帧的说话者信息。

在一个实施例中，语音识别装置300可以在从实时输入的音频信号顺序检测的语音信号的帧中的每一个上重复地执行语音识别的操作和生成说话者信息的操作。

在操作S430，语音识别装置300可以确定语音信号的说话者是否是注册的说话者。语音识别装置300可以基于从语音信号生成的说话者信息来确定语音信号的说话者是否是注册的说话者。

注册的说话者可以是语音识别装置300的主要用户，但是实施例不限于此。例如，当语音识别装置300是智能手机时，智能手机的所有者可以是注册的说话者。语音识别装置300可以基于用户输入来注册说话者，或者可以将预定说话者存储为缺省值来作为注册的说话者。语音识别装置300可以存储一个说话者作为注册的说话者，或者可以存储多个说话者作为注册的说话者。

在一个实施例中，语音识别装置300可以存储特定说话者的语音特征为已注册说话者信息。例如，在激活会话之前，语音识别装置300可以预先从由特定说话者发出的多个语音信号中提取的特征向量中提取并存储已注册说话者信息。

在一个实施例中，语音识别装置300可以计算预先存储的已已注册说话者信息和新生成的说话者信息之间的相似性。语音识别装置300可以基于将计算出的相似性与预定阈值进行比较的结果来确定语音信号的说话者是否是注册的说话者。

参照图4，在执行操作S420之后执行操作S430，但是实施例不限于此。在操作S420中执行语音识别的操作和在操作S430中确定语音信号的说话者是否是注册的说话者的操作可以顺序执行或者可以以并行方式同时执行。

在操作S440，语音识别设备300可以基于操作S430中的确定结果来确定是否维持会话。

在一个实施例中，语音识别装置300可以基于语音信号的说话者是否是注册的说话者来确定是维持还是结束会话。在操作S410中被设置为在会话维护时段过去之后结束会话的语音识别设备300可以在当语音识别设备300在操作S430中确定语音信号的说话者是注册的说话者时，重置会话以进一步维持。

例如，当语音信号的说话者是注册的说话者时，语音识别装置300可以维持会话。当语音信号的说话者是注册的说话者时，语音识别装置300可以将会话设置为在预设的延长时段期间维持，然后在延长时段之后结束。

在一个实施例中，当语音信号的说话者不是注册的说话者时，语音识别装置300可以结束会话。例如，当语音识别装置300确定语音信号的说话者不是注册的说话者时，语音识别装置300可以立即结束会话或者可以将会话设置为在操作S410中设置的会话维护时段过去之后结束。

在操作S450，语音识别装置300可以输出在操作S420中执行的语音识别的结果。

当语音信号的说话者是注册的说话者时，语音识别装置300可以输出执行语音识别的结果。例如，语音识别装置300可以输出文本作为语音识别的结果，该结果通过对语音信号执行语音识别从语音信号中被提取。

在一个实施例中，在其中维持会话的同时非连续地提取或以规则的间隔提取语音信号的情况下，语音识别装置300可以以句子为单位输出作为语音识别结果的文本。以句子为单位输出的语音识别的结果可以包括从多个语音信号中提取的文本。当语音信号之间的时间间隔长于阈值时间时，语音识别装置300可以确定一个句子已经完成。

例如，如图12A中所示，将描述说话者A说出“你能告诉我”，然后在短暂停顿后说“去江南站的路吗？”的情况。语音识别装置300可以将阈值时间与关于话语的短暂暂停进行比较。在包括“你能告诉我”的语音信号和包括“去江南站的路吗？”的语音信号被一个接一个地检测并且具有短于阈值时间的暂停的情况下，语音识别装置300可以确定语音信号包括一个句子。语音识别装置300然后可以确定从语音信号的组合中提取的并且包括“你能告诉我去江南站的路吗？”的文本作为一个句子，并且可以输出对文本执行语音识别的结果。

在一个实施例中，语音识别装置300可以对执行语音识别的结果执行自然语言处理。语音识别装置300可以对假定已经由说话者说出的文本执行自然语言处理。语音识别装置300还可以通过执行自然语言处理来识别说话者的话语的意图。语音识别装置300对执行语音识别的结果执行自然语言处理，从而确定语音信号是否由说话者出于语音识别的目的而发出。

在一个实施例中，语音识别装置300还可以对在维持会话时检测到的先前语音信号执行语音识别的结果来执行自然语言处理。语音识别装置300对在先前语音信号上执行语音识别的结果(下文中，称为先前语音识别结果)，以及对当前语音信号执行语音识别的结果(下文中，称为当前语音识别结果)执行自然语言处理，从而确定当前语音信号是否由说话者出于语音识别的目的而发出。当先前语音识别结果与当前语音识别结果之间的相关性高时，语音识别装置300可以确定说话者已发出当前语音信号以执行语音识别。

在一个实施例中，语音识别装置300可以通过执行自然语言处理来分析从先前语音信号提取的第一文本的含义和从当前语音信号提取的第二文本的含义。分析文本的含义包括但不限于识别与句子相关的意图，即说话者是否提出问题，说话者是否提出请求，或说话者是否只是表达他/她的感受，或者可以指示确定问题或请求的类别。或者，分析文本的含义包括从文本中提取至少一个关键字。

在一个实施例中，语音识别装置300可以基于第一文本和第二文本的含义来计算第一文本和第二文本之间的相关性。例如，语音识别装置300将计算出的相关性与预定阈值进行比较，从而确定说话者是否已发出当前语音信号以执行语音识别。当先前语音信号与当前语音信号之间的相关性大于预定阈值时，语音识别装置300可以确定说话者已经发出先前语音信号然后发出当前语音信号以执行语音识别。

在一个实施例中，当语音识别装置300确定说话者已经发出语音信号用于语音识别时，语音识别装置300可以输出执行语音识别的结果。当语音识别装置300确定语音信号不是被说话者发出以用于语音识别时，语音识别装置300可以不输出执行语音识别的结果。

将参照图13和图14详细描述通过另外对语音信号执行自然语言处理来确定是否输出语音识别结果的实施例。

在一个实施例中，当语音信号的说话者是注册的说话者时，语音识别装置300可以通过使用在操作S420中生成的说话者信息执行自适应训练来更新已注册说话者信息。例如，语音识别装置300逐渐对来自同一说话者的输入语音执行自适应训练，从而提高识别注册的说话者的性能。将参照图10详细描述由语音识别装置300更新已注册说话者信息的方法。

图5是根据本公开的实施例的语音识别方法的流程图。

图5的操作S510可以对应于图4的操作S410，图5的操作S520至S550可以对应于图4的操作S420，图5的操作S560可以对应于图4的操作S430，图5的操作S570可以对应于图4的操作S440，图5的操作S580可以对应于图4的操作S450。图4的描述可以分别应用于图5的对应于图4的操作的操作。因此，这里省略了关于冗余操作的描述。

在操作S510中，语音识别设备300可以激活会话。在一个实施例中，当语音识别装置300激活会话时，语音识别装置300可以将会话设置为在预设会话维护时段期间维持，然后在会话维护时段之后结束。例如，会话维护时段可以是几秒或几分钟。当语音识别装置300激活会话时，语音识别装置300还可以开始接收音频信号的输入的操作。

在操作S520中，语音识别装置300可以确定会话维护时段是否已经过去。在一个实施例中，当会话维护时段已经过去时，语音识别装置300可以结束会话并且不再接收音频信号用于语音识别。

在操作S530中，当会话维护时段尚未过去时(例如，当维持会话时)，语音识别装置300可以继续接收音频信号的输入。

在操作S540中，语音识别装置300可以从输入音频信号中检测语音信号。

在操作S550中，语音识别装置300可以通过对语音信号执行语音识别来生成语音识别结果，并且可以生成关于语音信号的说话者的信息。语音识别装置300可以通过使用关于被实时执行语音识别的语音信号的帧中的每一个的信息来生成关于相应帧的说话者信息。

在操作S560中，语音识别装置300可以基于在操作S550中生成的说话者信息来确定语音信号的说话者是否是注册的说话者。当语音识别装置300确定语音信号的说话者不是注册的说话者时，语音识别装置300可以改变关于会话的设置或者可以不输出语音识别结果。然后，语音识别装置300可以返回到操作S520，并且在剩余会话维护时段期间重复执行接收音频信号的操作并执行语音识别。

在操作S570中，当语音识别装置300确定语音信号的说话者是注册的说话者时，语音识别装置300可以延长会话维护时段。例如，语音识别装置300可以将会话设置为在预设的延长时段期间保持激活，然后在延长时段之后结束。预设延长时段可以等于会话维护时段，但是实施例不限于此。

例如，当预设会话维护时段是五秒并且语音识别装置300确定语音信号的说话者是注册的说话者时，语音识别装置300可以延长会话维护时段以允许会话为无论会话维护时段的剩余时间如何，都会延长五秒钟。

在操作S580中，语音识别装置300可以输出在操作S550中执行的语音识别的结果。在语音识别装置300输出执行语音识别的结果之后，语音识别装置300然后可以返回到操作S520并且在剩余会话维护时段期间重复执行接收音频信号的操作并执行语音识别。

当注册了多个说话者时，语音识别装置300可以分别对于说话者输出语音识别结果。例如，当多个说话者讲话时，语音识别装置300可以针对说话者的话语的语音识别结果区分说话者，并且可以以串行或并行方式输出语音识别结果。

现在将描述说话者A和说话者B两者都是注册的说话者，并且说话者A发出“告知我今天的天气”，以及然后说话者B发出“告知我明天的天气”的情况。

语音识别装置300可以处理由说话者A发出的语音信号，并且可以确定语音信号a的说话者是作为注册的说话者的说话者A。由于语音信号a的说话者是作为注册说话者的说话者A，因此语音识别装置300可以延长会话维护时段并且可以输出语音识别结果。语音识别装置300可以向屏幕或其他显示器输出作为对语音信号a执行语音识别的结果的“告知我今天的天气”的文本，然后响应于“告知我今天的天气”的请求，可以将关于今天的天气的信息输出到屏幕。

语音识别装置300还可以处理由说话者B发出的语音信号b，并且可以确定语音信号b的说话者是也作为注册的说话者的说话者B。由于语音信号b的说话者是作为注册说话者的说话者B，因此语音识别装置300可以延长会话维护时段并且可以输出语音识别结果。语音识别装置300可以向屏幕或其他显示器输出作为对语音信号b执行语音识别的结果的“告知明天的天气”的文本，然后响应于“告知我明天的天气”的请求，可以将关于明天的天气的信息输出到屏幕。

语音识别装置300可以以串行或并行方式输出关于说话者A的话语的语音识别结果R_a(“告知我今天的天气”的文本和关于今天的天气的信息中的至少一个)，以及关于说话者B的发言的语音识别结果R_b(“告知我明天的天气”和关于明天的天气的信息的文本中的至少一个)。

例如，语音识别装置300可以将语音识别结果R_a和语音识别结果R_b顺序输出到屏幕的相同区域。在另一示例中，语音识别装置300可以输出语音识别结果R_a，然后可以在语音识别结果R_a旁边或下方顺序输出语音识别结果R_b。语音识别装置300还可以显示指示分别对应于语音识别结果的说话者的信息。例如，语音识别装置300可以与语音识别结果R_a相邻地显示表示说话者A的图标，并且可以与语音识别结果R_b相邻地显示表示说话者B的图标。

作为另一示例，语音识别装置300可以将屏幕划分为包括第一区域和第二区域的多个区域，并且可以以并行方式将语音识别结果R_a和语音识别结果R_b输出到不同区域。语音识别装置300可以将语音识别结果R_a输出到第一区域，并且可以以并行方式将语音识别结果R_b输出到第二区域。语音识别装置300还可以显示指示分别对应于语音识别结果的说话者的信息。例如，语音识别装置300可以显示输出语音识别结果R_a的第一区域是用于输出关于说话者A的任何话语的语音识别结果的区域，并且可以显示输出语音识别结果R_b的第二区域是用于输出关于说话者B的任何话语的语音识别结果的区域。

图6是根据本公开的实施例的处理器的框图。

参照图6，示出了处理器320的框图。图6中所示的一些或所有块可以通过被配置为执行指定功能的硬件和/或软件组件来实现。图6中所示的块执行的功能可以通过一个或多个微处理器，或用于所述功能的电路组件来实现。图6中所示的一些或所有块也可以是用各种编程语言或脚本语言编写的以由处理器320运行的软件模块。

在图6的处理器320中，提供语音检测器610，并且当会话被激活时，例如当说话者输入作为语音识别目标的话语时，该语音检测器610可以从输入音频信号中检测与话语对应的语音信号。语音检测器610可以将检测到的语音信号发送到特征提取器621和623。

如图6所示，特征提取器621和623可以包括说话者识别特征提取器621和语音识别特征提取器623。在一个实施例中，说话者识别特征提取器621可以从检测到的语音信号中提取用于鲁棒的说话者识别的说话者识别特征向量，并且可以将说话者识别特征向量发送到说话者信息生成器630。语音识别特征提取器623可以从检测到的语音信号中提取用于鲁棒语音识别的语音识别特征向量，并且可以将语音识别特征向量发送到语音识别解码器650。

语音识别解码器650可以通过使用从语音识别特征提取器623接收的语音识别特征向量，基于声学模型和语言模型中的一个或多个来执行语音识别，并且可以生成语音识别的结果。语音识别解码器650可以将通过使用声学模型提取的后验状态实时地发送到说话者信息生成器630。语音识别解码器650还可以将语音识别的结果发送到会话管理器660。语音识别的结果被发送到会话管理器660，并且可以基于来自已注册说话者确定器640的处理结果来确定是否要执行语音识别的结果。

说话者信息生成器630通过使用从说话者识别特征提取器621接收的说话者识别特征向量、从语音识别解码器650实时接收的状态后验、通用背景模型、以及基于大数据训练获得的总可变性转换信息生成关于语音信号的说话者的说话者信息。说话者信息生成器630可以将生成的说话者信息发送到已注册说话者确定器640。

语音识别解码器650和说话者信息生成器630可以彼此互操作，以便实时共享信息。由于语音识别解码器650和说话者信息生成器630彼此互操作，因此语音识别解码器650和说话者信息生成器630可以被同步，并且可以不会发生由元件处理的多条信息之间的时间滞后。

已注册说话者确定器640可以将由说话者信息生成器630生成的说话者信息与关于预先注册的说话者的已注册说话者信息603进行比较，并且可以计算说话者信息和已注册说话者信息603之间的相似性。在一个实施例中，之后可以预先存储和/或更新已已注册说话者信息603。已注册说话者确定器640将计算的相似性与预定阈值进行比较，从而确定检测到的语音信号的说话者是否等于预先注册的说话者。已注册说话者确定器640可以将包括关于检测到的语音信号的说话者是否等于预先注册的说话者的信息的说话者验证结果发送到会话管理器660。已注册说话者确定器640可以将具有说话者验证结果的说话者信息发送到会话管理器660。

会话管理器660可以管理会话的激活、会话的维护和会话的结束。

在一个实施例中，会话管理器660可以基于用户输入来激活会话。会话管理器660可以从用户输入设备接收用户输入。或者，会话管理器660可以从图3A或图3B的接收器310接收用户输入。当用于激活会话的预定义用户输入和新接收的用户输入彼此对应时，会话管理器660可以激活会话。为了激活会话，会话管理器660可以向图3A或图3B的接收器310发送控制信号以用于控制图3A中的接收器310以开始接收音频信号的输入的操作。在这方面，会话管理器660可以将会话设置为在预设会话维护时段期间维持，然后在预设会话维护时段之后结束。

在一个实施例中，当基于从已注册说话者确定器640接收的说话者验证结果，会话管理器660确定语音信号的说话者等于注册的说话者时，会话管理器660可以确定维持会话。当基于从已注册说话者确定器640接收的说话者验证结果，会话管理器660确定语音信号的说话者等于注册的说话者时，会话管理器660可以设置在延长的时段期间维持会话。

在一个实施例中，当基于接收到的说话者验证结果，会话管理器660确定语音信号的说话者不等于注册的说话者时，会话管理器660可以结束会话。或者，当会话管理器660基于接收的说话者验证结果确定语音信号的说话者不等于注册的说话者时，会话管理器660可以仅在会话维护时段的剩余时间期间维持会话，然后可以结束会话。

另外，在一个实施例中，当语音信号的说话者等于注册的说话者时，会话管理器660可以向识别结果执行器670发送从语音识别解码器650接收的语音识别的结果和从已注册说话者确定器640接收的说话者信息。

当会话管理器660确定要维持会话时(或者当确定在延长时段期间维持会话时)，运行识别结果执行器670。由于语音识别的结果是关于由注册的说话者发出的语音信号，因此识别结果执行器670可以输出语音识别的结果。

识别结果执行器670可以将说话者信息发送到已注册说话者更新器680。在一个实施例中，已注册说话者更新器680可以通过使用从识别结果执行器670接收的说话者信息(例如，从被确定为与注册的说话者相同的说话者发出的语音中提取的说话者信息)执行自适应训练方法来升级和更新已注册说话者信息603。

由于会话由会话管理器660维持，因此在识别结果执行器670输出语音识别的结果之后，重复执行由语音检测器610检测语音并执行语音识别的操作。

参照图6，总可变性转换信息601、已注册说话者信息603、声学模型605和语言模型607存储在处理器320中，但是实施例不限于此。总可变性转换信息601、已注册说话者信息603、声学模型605、语言模型607、生成的说话者信息、语音识别结果、说话者验证结果等可以存储在语音识别装置300的存储器340或其他地方中，例如云存储。

尽管未在图6中示出，但处理器320还可以包括自然语言处理器(未示出)。自然语言处理器可以识别已经发送到会话管理器660的语音识别结果的含义。当确定语音信号的说话者等于注册的说话者时，自然语言处理器可以确定包括在语音信号中的文本是否由说话者发出，意图允许语音识别被实际执行。自然语言处理器可以将确定的结果发送到会话管理器660和识别结果执行器670。由自然语言处理器执行的确定的结果可以用于执行语音识别的结果或管理会话。

图7是根据本公开的实施例的语音识别方法的流程图。

图7的操作S710可以对应于图4的操作S410，图7的操作S720至S760可以对应于图4的操作S420，图7的操作S770可以对应于图4的操作S430，并且图7的操作S780可以对应于图4的操作S440和S450。关于图4的描述可以应用于分别对应于图4的操作的图7的操作。因此，这里省略了关于冗余操作的描述。

在操作S710中，根据实施例的语音识别装置300可以激活用于语音识别的会话，并且在操作S720中，语音识别装置300可以从输入音频信号中检测语音输入。在操作S730中，当会话维护时段过去而未检测到语音时，语音识别装置300可以结束会话。在操作S730中，当语音识别装置300检测到语音时，在操作S740中，语音识别装置300可以从语音信号中提取用于语音识别的特征A和用于说话者识别的特征B。在一个实施例中，用于语音识别的特征A和用于说话者识别的特征B可以各自包括特征向量。

语音识别装置300可以对特征A执行语音识别结果。在操作S751中，语音识别装置300可以从特征A中提取语音识别结果T以及状态后验P。在操作S753中，语音识别装置300可以从在操作S751中生成的状态后验P和在操作S740中提取的特征B生成说话者信息S。在操作S760中，语音识别装置300可以将说话者信息S与已注册说话者信息进行比较。在操作S770中，语音识别装置300可以确定语音信号的说话者是否等于注册的说话者。当语音信号的说话者不等于注册的说话者时，语音识别装置300可以不延长会话维护时段并且可以结束会话。在操作S780中，语音识别装置300可以执行通过执行语音识别而获得的语音识别结果T。

执行语音识别结果T的表达描述了可以执行与执行语音识别的结果对应的操作。例如，语音识别装置300可以输出语音识别结果T。语音识别装置300可以确定对应于语音识别结果T的语音识别装置300的功能，并且可以输出其中正在执行功能的运行屏幕。或者，语音识别装置300可以将对应于语音识别结果T的关键字发送到外部服务器，可以从外部服务器接收关于所发送的关键字的信息，然后可以将该信息输出到屏幕。

在语音识别装置300执行语音识别结果T之后，语音识别装置300然后可以返回到操作S720并重复执行检测语音输入的操作。

图8是用于描述根据本公开的实施例的由语音识别装置执行语音识别和生成说话者信息的方法的图。

参照图8，语音识别解码器650可以通过使用从语音信号中提取的语音识别特征向量，基于声学模型605和语言模型607中的一个或多个来执行语音识别，并且可以生成语音识别的结果。

声学模型605包括用于在单声道电话(mono-phone)单元或三电话单元(tri-phone)中确定与语音信号匹配的声音的信息。例如，语音识别解码器650可以基于声学模型605分别计算语音信号与若干个音素匹配的概率，并且可以确定因此与语音信号匹配的音素。

语言模型607包括用于确定语音信号与哪个单词匹配的信息。例如，语音识别解码器650可以基于语言模型607分别计算语音信号与多个单词匹配的概率，并且可以确定与语音信号匹配的单词。

然后，作为语音识别的结果，语音识别解码器650可以基于声学模型605和语言模型607提取由匹配语音信号的单词形成的文本。

语音识别解码器650可以基于声学模型605从语音识别特征向量中提取状态后验，并且可以将状态后验发送到说话者信息生成器630。状态后验可以包括语音信号的帧与音素匹配的概率，该语音信号当前由语音识别解码器650处理。

说话者信息生成器630可以通过使用从语音信号中提取的说话者识别特征向量、从语音识别解码器650实时接收的状态后验、通用背景模型801和说话者信息提取器810，以及通过基于大数据的训练获得的总可变性转换信息601来生成说话者信息。

可以通过使用包括关于若干个说话者的语音信号的信息的大量数据来学习说话者无关的模型来生成通用背景模型801，并且可以指示关于多个说话者的语音信号的平均模型。总可变性转换信息601可以对应于总可变性转换矩阵。

总可变性转换信息601对应于低秩矩阵，并且可以在低维向量上投影高斯混合模型(GMM)或深度神经网络(DNN)的超向量的可变性。

例如，当根据GMM对从语音信号提取的声学参数的分布进行建模时，通过从GMM超向量中减去通用背景模型801而获得的信息可以表示为i-向量与总可变性转换矩阵的乘法，其中，GMM超向量是通过连接多个高斯索引的平均值而获得的。说话者信息生成器630可以从i-向量生成说话者信息。说话者信息生成器630可以从i-向量中移除环境信息，从而生成说话者信息。

由说话者信息生成器630生成的说话者信息可以被发送到已注册说话者确定器640。已注册说话者确定器640可以通过比较由说话者信息生成器630生成的说话者信息和已注册说话者信息603来验证语音信号的说话者是否是注册的说话者。基于所生成的说话者信息和已注册说话者信息603之间的相似性，说话者验证评分单元820可以计算语音信号的说话者是注册的说话者的概率。说话者验证评分单元820可以以各种方式计算得分，包括计算包括在所生成的说话者信息中的i-向量与包括在已注册说话者信息603中的i-向量之间的内积，并且可以对语音信号的说话者是否是注册的说话者进行评分。已注册说话者确定器640可以基于计算的值输出包括关于语音信号的说话者是否等于注册的说话者的信息的说话者验证结果。

再次参照图8，语音识别装置300可以将被执行了语音识别的帧与被执行了说话者识别的帧同步，并且可以将关于特定帧的状态后验应用于关于特定帧的说话者识别。

语音识别装置300可以针对实时输入的语音信号的每个帧计算从帧提取的说话者信息和已注册说话者信息之间的相似性。语音识别装置300可以基于计算出的相似性对每个帧执行说话者验证。也就是说，语音识别装置300可以基于计算出的相似性来确定每个帧的说话者是否等于注册的说话者。

语音识别装置300可以通过使用针对当前帧计算的相似性和针对相邻帧计算的相似性，在长于一帧的时段上鲁棒地执行说话者验证。当针对一个时段中包括的多个帧计算的相似性被分布接近阈值时，语音识别装置300可以获知针对与该一个时段相邻的时段计算的相似性，从而以更高的准确度对该一个时段执行说话者验证。

由于语音识别装置300能够鲁棒地执行说话者验证，因此语音识别装置300可以以非常短的帧单位(例如，0.1秒)对语音信号执行说话者验证。由于语音识别装置300可以以非常短的帧单位对语音信号执行说话者验证，因此语音识别装置300可以预测注册的说话者的话语边界，即话语的起点和终点。语音识别装置300可以确定实时输入的多个话语项中的每一个是否是从注册的说话者输出。

由于语音识别装置300可以以非常短的帧单位对语音信号执行说话者验证，因此语音识别装置300可以确定实时输入的多个话语项中的每一个是否是从注册的说话者输出。

图9是用于描述根据本公开的实施例的由语音识别装置实时地使用用于说话者识别的相邻帧的信息来执行归一化的方法的图。

根据实施例的语音识别装置300可以通过使用关于从语音的起始点到语音的结束点的整个话语的信息来执行归一化。语音识别装置300可以仅在语音信号的长度等于或大于最小时段(例如三秒)时执行归一化和说话者识别。这样的最小时段是期望的，因为当通过使用过短的语音信号执行归一化时，说话者识别性能劣化。如曲线910所示，当通过仅使用具有一个帧长度的语音信号执行归一化然后执行说话者识别时，说话者识别性能显著恶化。因此，语音识别装置300必须获得具有用于归一化的预定长度的语音信号，使得在执行说话者识别时发生延迟。因此，难以实时地执行说话者识别。

为了实时地执行说话者识别，根据实施例的语音识别装置300可以提取关于当前正在处理的帧的说话者信息，并且可以通过使用相邻帧的信息来执行归一化。如曲线930所示，语音识别装置300可以提取关于当前正在处理的帧的说话者信息，并且可以通过使用相邻帧的信息来执行归一化。然后，通过使用相邻帧执行归一化，语音识别装置300可以将用于说话者识别的语音信号的长度减小到0.3秒。

当存在与当前帧相邻且小于0.3秒的信息时，语音识别装置300可以对边界信息执行填充，然后可以执行归一化。对于不具有语音信号的相邻帧的部分，语音识别装置300可以对语音信号在相邻帧中结束的点的值执行填充，并且可以执行归一化。

图10是用于描述根据本公开的实施例的由语音识别装置基于说话者识别的结果来管理会话的维护和更新已注册说话者信息的方法的图。

会话管理器660可以管理会话的激活、会话的维护和会话的结束。会话管理器660的确定逻辑1010可以基于包括关于语音信号的说话者是否是注册的说话者的信息的说话者验证结果来确定会话的维持和会话的结束。

当会话管理器660的确定逻辑1010确定语音信号的说话者等于注册的说话者时，确定逻辑1010可以确定要维持会话。当确定逻辑1010确定语音信号的说话者等于注册的说话者时，确定逻辑1010可以将会话设置为在预设的延长时段期间维持，而不管会话维护时段的剩余时间。

当会话管理器660确定语音信号的说话者不等于注册的说话者时，会话管理器660可以结束会话。当会话管理器660确定语音信号的说话者不等于注册的说话者时，会话管理器660可以仅在会话维护时段的剩余时间期间维持会话，然后可以结束会话。

当会话管理器660确定要维持会话时，识别结果执行器670可以被运行。识别结果执行器670可以执行对应于语音识别的结果的操作。识别结果执行器670可以将语音识别的结果输出到输出单元330。识别结果执行器670还可以将说话者信息发送到已注册说话者更新器680。

已注册说话者更新器680可以通过使用从识别结果执行器670接收的说话者信息(例如，从被确定为与注册的说话者相同的说话者的发出的语音中提取的信息)执行自适应训练方法来升级已注册说话者信息603，并且可以通过使用升级的已注册说话者信息603来更新先前存储的已注册说话者信息。

例如，当语音识别装置300使用i-向量作为说话者信息时，已注册说话者更新器680可以预先存储i-向量R作为关于注册的说话者的信息。存储在已注册说话者更新器680中的i-向量R可以从关于由注册说话者发出的语音信号的特征值获得。已注册说话者更新器680可以存储用于获得i-向量R的信息。

每当已注册说话者更新器680从识别结果执行器670接收到i-向量new时，已注册说话者更新器680可以累积接收到的信息，从而再次获得i-向量R。由于实时检测到语音信号，已注册说话者更新器680可以累积用于检测语音信号的每个帧的i-向量new的信息。已注册说话者更新器680可以通过使用累积的信息再次获得i-向量R。已注册说话者更新器680可以通过使用重新获得的i-向量R来更新预先存储的i-向量R。

已注册说话者更新器680可以在适应训练之前存储说话者信息，并且当适应训练性能恶化时，已注册说话者更新器680可以将在适应训练之前的说话者信息改变为已经执行了适应训练的已注册说话者信息。已注册说话者更新器680可以存储在适应训练之前的i-向量R_before，并且可以提取在适应训练之后的i-向量R_after。已注册说话者更新器680可以将i-向量R_before和i-向量new之间的得分值与i-向量R_after和i-向量new之间的得分值进行比较。当关于自适应训练之后的i-向量R_after的评分值小于在自适应训练之前的i-向量R_before时，已注册说话者更新器680可以确定自适应训练性能恶化。当自适应训练性能恶化时，已注册说话者更新器680可以将i-向量R_after改变为i-向量R_before，并且可以将i-向量R_before存储为已注册说话者信息。

在下文中，参照图11A至图14C，示出了其中根据实施例的语音识别装置300输出语音识别结果的示例。在图11A至图14C中所示的示例中，假设语音识别装置300是智能手机，并且识别由说话者发出的问题或请求，然后输出与问题相对应的响应或执行对应于该请求的操作。然而，本实施例不限于图11A至图14C中所示的示例。

另外，图11A至图14C中所示的语音识别装置300可以独立地识别语音并输出语音识别的结果。或者，图11A至图14C所示的的语音识别装置300可以连接到外部设备，可以将输入语音发送到外部设备，可以从外部设备接收语音识别的结果，并且可以输出语音识别的结果。或者，图11A至14C所示的语音识别装置300可以连接到服务器，可以将输入语音发送到服务器，可以从服务器接收语音识别的结果，并且可以输出语音识别的结果。

在图11A至图14C所示的示例中，说话者A是注册的说话者，但是实施例不限于所示的示例，因此，可以预先注册多个说话者，并且可以存储关于多个注册的说话者的多条信息。

图11A、图11B和图11C示出了根据本公开各种实施例的语音识别装置输出语音识别结果的示例。

语音识别装置300的用户可以执行预设的物理操作，从而允许语音识别装置300的会话被激活。例如，用户可以按下语音识别装置300的预设按钮，可以触摸语音识别装置300的触摸屏，可以以某种方式移动语音识别装置300，或者可以发出预先存储的呼叫(call)关键字，从而允许激活会话。然而，实施例不限于此。语音识别装置300可以基于这些和其他各种用户输入来激活会话。

参照图11A，当说话者A例如发出“告知我今天的天气”时，语音识别装置300可以对检测到的第一语音信号执行语音识别。语音识别装置300可以基于从第一语音信号生成的说话者信息来确定第一语音信号的说话者A等于注册的说话者A。然后，语音识别装置300可以基于确定的结果重置要在预设的延长时段(例如，5秒)期间维持的会话。

语音识别装置300可以基于确定的结果输出语音识别的结果。语音识别装置300可以向屏幕或显示器输出“告知我今天的天气”的文本1101，其是基于检测到的第一语音信号执行语音识别的结果，并且可以响应于“告知我今天的天气”的要求，将关于今天的天气的信息1102输出到屏幕。

语音识别装置300还可以向屏幕输出指示用于会话维护的设定时间的信息1103。参照图11A，输出信息1103指示会话将被维持五秒，但是根据时间流，输出信息1103可以指示会话将被维持短于五秒的时间。

参照图11B，当演讲者A在会话维护期间发出“明天的天气怎么样？”时，语音识别装置300可以对检测到的第二语音信号执行语音识别。语音识别装置300可以基于从第二语音信号生成的说话者信息来确定第二语音信号的说话者A等于注册的说话者A。然后，语音识别装置300可以基于确定的结果重置要在预设的延长时段期间维持的会话。语音识别装置300可以向屏幕输出指示用于会话维护的重置时间的信息1103。

另外，语音识别装置300可以向屏幕输出“明天的天气怎么样？”的文本1104，这是从第二语音信号执行语音识别的结果，并且可以响应于“明天的天气怎么样？”的问题将关于明天的天气的信息1105输出到屏幕。

参照图11C，当与说话者A说话的说话者B在会话维护期间发出“明天会下雨吗？”时，语音识别装置300可以对检测到的第三语音信号执行语音识别。在这方面，演讲者B发出“明天会下雨吗？”不是用于语音识别的目的，而是发出它以与演讲者A进行对话。

语音识别装置300可以基于从第三语音信号生成的说话者信息来确定第三语音信号的说话者B不等于注册的说话者A。语音识别装置300可以基于确定的结果仅在会话维护时段的剩余时间期间维持会话，并且在会话维护时段的剩余时间过去之后，语音识别装置300可以维持会话结束的设置。在会话维护周期过去之后，语音识别装置300可以向屏幕输出指示会话结束的信息1106。另外，语音识别装置300可以基于确定的结果不输出对第三语音信号执行语音识别的结果。

因此，如图11A至图11C所示，当注册的说话者连续发出话语时，根据实施例的语音识别装置300自动维持会话，使得用户不需要为话语的每一个执行激活会话的操作。另外，由于语音识别装置300不对从未注册的说话者输出的话语内容输出语音识别的结果，所以语音识别装置300可以执行个性化语音识别并且可以提高语音识别的准确度。

图12A和图12B示出了根据本公开各种实施例的语音识别装置输出语音识别结果的另一示例。

参照图12A，当说话者A激活语音识别装置300的会话并且例如首先发出“去江南站”时，语音识别装置300可以对检测到的第一语音信号执行语音识别。语音识别装置300可以基于从第一语音信号生成的说话者信息来确定第一语音信号的说话者A等于注册的说话者A。然后，语音识别装置300可以基于确定的结果重置要在预设的延长时段期间维持的会话。

当在会话的维持期间与说话者A交谈的说话者B说出“Yangjae站”时，语音识别装置300可以对检测到的第二语音信号执行语音识别。在这方面，说话者B发出“Yangjae站”不是用于语音识别，而是发出它与说话者A交谈。

语音识别装置300可以基于从第二语音信号生成的说话者信息来确定第三语音信号的说话者B不等于注册的说话者A。然后，语音识别装置300可以基于确定的结果仅在会话维护时段的剩余时间期间维持会话，并且在会话维护时段的剩余时间过去之后，语音识别装置300可以维持会话结束的设置。语音识别装置300还可以基于确定的结果不输出对第二语音信号执行语音识别的结果。

当演讲者A在会话维护期间发出“你能告诉我路吗？”时，语音识别装置300可以对检测到的第三语音信号执行语音识别。语音识别装置300可以基于从第三语音信号生成的说话者信息来确定第三语音信号的说话者A等于注册的说话者A。然后，语音识别装置300可以基于确定的结果重置要在预设的延长时段期间维持的会话。

由于以短于阈值时间的间隔顺序地检测第一语音信号和第三语音信号，因此语音识别装置300可以确定第一语音信号和第三语音信号形成一个句子。

基于确定第一语音信号和第三语音信号的说话者A等于注册的说话者A的结果，语音识别装置300可以向屏幕输出“你能告诉我去江南站的路吗？”的文本1201，这是对第一语音信号和第三语音信号进行语音识别的结果。响应于显示去江南站的路的请求，语音识别装置300可以向屏幕输出关于从当前位置去江南站的路的信息1202。

语音识别装置300还可以向屏幕输出指示用于会话维护的重置时间的信息1203。

参照图12B，当说话者A在会话维护期间发出“你能告诉我公共汽车站的位置吗？”时，语音识别装置300可以对检测到的第四语音信号执行语音识别。语音识别装置300可以基于从第四语音信号生成的说话者信息，确定第四语音信号的说话者A等于注册的说话者A。然后，语音识别装置300可以基于确定的结果重置要在预设的延长时段期间维持的会话。

基于确定第四语音信号的说话者A等于注册说话者A的结果，语音识别装置300可以向屏幕输出“你能告诉我公共汽车站的位置吗？”的文本1204，这是对第四语音信号执行语音识别的结果。语音识别装置300还可以向屏幕输出对应于显示公共汽车站的位置的请求的信息。

当在会话的维持期间与说话者A交谈的说话者B发出“不能”时，语音识别装置300可以对检测到的第五语音信号执行语音识别。语音识别装置300可以不执行输出关于由不是注册的说话者A的说话者B发出的第五语音信号的语音识别结果的操作，并且可以不延长会话的维护时段。

语音识别装置300可以通过执行自然语言处理来分析第一文本的含义，从第一语音信号和第三语音信号中提取的该第一文本指示“你能告诉我去江南站的路吗？”。语音识别装置300还可以通过执行自然语言处理来分析第二文本的含义，从第四语音信号中提取的该第二文本指示“你能告诉我公共汽车站的位置吗？”。当语音识别装置300确定第二文本的请求不清楚或者确定第二文本不是完整句子时，语音识别装置300可以基于从先前信号提取的第一文本的内容来补偿(compensate)第二文本。例如，当文本的请求需要输出过量信息时，语音识别装置300可以确定文本的请求不清楚。

参照图12A和图12B，语音识别装置300可以从第一文本中提取关键字“江南站”，并且可以通过使用提取的关键字来补偿第二文本。语音识别装置300可以补偿第二文本并且可以生成指示“你能告诉我江南站附近的公共汽车站的位置吗？”的第三文本。响应于第三文本，语音识别装置300可以向屏幕输出关于江南站附近的公共汽车站的位置的信息。

在图12A和图12B中所示的示例中，说话者A是注册的说话者，但是语音识别装置300不限于此，因此，多个说话者可以预先注册在语音识别装置300中，并且语音识别装置300可以存储关于多个说话者的多条信息。

例如，当说话者A和说话者B两者都是注册的说话者时，语音识别装置300可以以串行或并行方式输出说话者A的话语的语音识别结果和说话者B的话语的语音识别结果。

语音识别装置300可以输出指示“你能告诉我去江南站的路吗？”的文字到屏幕的第一个区域。响应于显示去江南站的路的请求，语音识别装置300可以向第一区域输出关于从当前位置去江南站的路的信息。另外，语音识别装置300可以向屏幕的第一区域输出关于江南站附近的公共汽车站的位置的信息。

语音识别装置300可以将说话者B的话语的语音识别结果输出到与第一区域相等或不同的第二区域。语音识别装置300可以将“Yangjae站”的文本和“不能”的文本输出到屏幕的第二区域。响应于说话者B的话语，语音识别装置300可以向屏幕输出与“Yangjae站”有关的图像、位置信息等。

语音识别装置300可以一起显示语音识别的结果以及指示对应于结果的说话者的信息。例如，语音识别装置300可以在说话者A的话语的语音识别结果的外围显示指示说话者A的图标，并且可以在说话者B的话语的语音识别的结果的外围显示指示说话者B的图标。可选地，语音识别装置300可以显示第一区域对应于说话者A，并且显示第二区域对应于说话者B。

图13A、图13B和图13C示出了根据本公开各种实施例的语音识别装置输出语音识别结果的另一示例。

参照图13A，当会话被激活并且例如说话者A发出“告知我今天的天气”时，语音识别装置300可以对检测到的第一语音信号执行语音识别。语音识别装置300可以基于从第一语音信号生成的说话者信息来确定第一语音信号的说话者A等于注册的说话者A。然后，语音识别装置300可以基于确定的结果重置要在预设的延长时段期间维持的会话。

语音识别装置300可以基于确定的结果输出语音识别的结果。语音识别装置300可以向屏幕输出指示“告知我今天的天气”的第一文本1301，该第一文本1301是从检测到的第一语音信号执行语音识别的结果，并且可以响应“告诉我今天的天气”的请求，向屏幕输出关于今天的天气的信息1302。

语音识别装置300还可以向屏幕输出指示用于会话维护的设定时间的信息1303。

参照图13B，当演讲者A在会话维护期间发出“明天？”时，语音识别装置300可以对检测到的第二语音信号执行语音识别。语音识别装置300可以基于从第二语音信号生成的说话者信息来确定第二语音信号的说话者A等于注册的说话者A。然后，语音识别装置300可以基于确定的结果重置要在预设的延长时段期间维持的会话。

语音识别装置300可以向屏幕输出指示“明天？”的文本1304，这是基于确定第二语音信号的说话者A等于注册的说话者A的结果对第二语音信号执行语音识别的结果。

语音识别装置300可以向屏幕输出对应于输出到屏幕的文本的请求的信息。然而，当找到对应于文本的请求的太多条信息时，语音识别装置300可以确定文本的请求不清楚，并且可以基于先前的语音信号来补偿当前正在处理的文本。

参照图13B，当找到对应于第二文本1304的请求并且可以提供关于明天的太多信息时，语音识别装置300可以补偿第二文本1304。语音识别装置300可以从第一文本1301“告知我天气”提取关键字，并且可以通过使用提取的关键字来补偿第二文本1304。语音识别装置300可以补偿第二文本1304并且可以生成第三文本“你能告知我明天的天气吗？”。响应于第三文本，语音识别设备300可以响应于第三文本向屏幕输出关于明天的天气的信息1305。语音识别装置300还可以向屏幕输出指示用于会话维护的设定时间的信息1303。

参照图13C，当演讲者A在会话维护期间发出“水原怎么样？”，语音识别装置300可以对检测到的第三语音信号执行语音识别。语音识别装置300可以从第三语音信号提取“水原怎么样？”的第四文本。

语音识别装置300可以基于从第三语音信号生成的说话者信息来确定第三语音信号的说话者A等于注册的说话者A。

语音识别装置300可以基于对先前语音信号执行语音识别的结果来确定说话者A是否发出第三语音信号用于语音识别。

语音识别装置300可以通过执行自然语言处理来分析从作为当前正在处理的语音信号的第三语音信号中提取的第四文本的含义。语音识别装置300可以基于第一文本到第三文本以及第四文本的含义来计算先前文本(即，第一文本到第三文本)以及第四文本之间的相关性。基于先前文本和第四文本之间的相关性，语音识别装置300可以确定说话者A是否发出第三语音信号以执行语音识别。

参照图13C，语音识别装置300可以确定先前文本和第四文本之间的相关性小于阈值，并且可以确定说话者A发出第三语音信号不是用于语音识别。语音识别装置300可以确定说话者A发出第三语音信号不是用于语音识别，并且可以不输出从第三语音信号中提取的第四文本。然后，语音识别装置300可以基于确定说话者A发出第三语音信号是否用于语音识别的结果，仅在会话维护时段的剩余时间期间维持会话，并且在会话维护期间的剩余时间过去之后，语音识别装置300可以维持会话结束的设置。在会话维护期过去之后，语音识别装置300可以向屏幕输出指示会话结束的信息1306。

然而，实施例不限于图13C中所示的示例，因此，语音识别装置300可以确定说话者A发出第三语音信号用于语音识别。然后，语音识别装置300可以向屏幕输出对应于从第三语音信号中提取的第四文本的请求的信息。当找到对应于第四文本的请求并且可以提供关于水原的太多条信息时，语音识别装置300可以补偿第四文本。语音识别装置300可以从第一文本中提取“告知我天气”的关键字，并且可以通过使用提取的关键字来补偿第四文本。语音识别装置300可以补偿第四文本并且可以生成第五文本“你能告诉我水原的天气吗？”。语音识别设备300可以响应于第五文本将关于明天的天气的信息输出到屏幕。

图14A、图14B和图14C示出了根据本公开各种实施例的语音识别装置输出语音识别结果的另一示例。

参照图14A，当会话被激活并且例如说话者A发出“你能告诉我去江南站的路吗？”时，语音识别装置300可以对检测到的第一语音信号执行语音识别。语音识别装置300可以基于从第一语音信号生成的说话者信息来确定第一语音信号的说话者A等于注册的说话者A。然后，语音识别装置300可以基于确定的结果重置要在预设的延长时段期间维持的会话。

另外，语音识别装置300可以基于确定的结果输出语音识别的结果。语音识别装置300可以向屏幕输出第一文本1401“你能告诉我去江南站的路吗？”，该第一文本是从检测到的第一语音信号执行语音识别的结果，并且响应于显示去江南站的路的问题，语音识别装置300可以向屏幕输出关于去江南站的路的信息1402。

语音识别装置300还可以向屏幕输出指示用于会话维护的设定时间的信息1403。

参照图14B，当说话者A在会话维护期间发出“你能告诉我6号出口的位置吗？”时，语音识别装置300可以对检测到的第二语音信号执行语音识别。语音识别装置300可以基于从第二语音信号生成的说话者信息来确定第二语音信号的说话者A等于注册的说话者A。然后，语音识别装置300可以基于确定的结果重置要在预设的延长时段期间维持的会话。

语音识别装置300可以向屏幕输出指示“你能告诉我第6号出口的位置吗？”的文本1404，这是基于确定第二语音信号的说话者A等于注册的说话者A的结果对第二语音信号执行语音识别的结果。

当找到对应于第二文本1404的请求并且可以提供关于第6号出口的太多信息时，语音识别装置300可以补偿第二文本1404。语音识别装置300可以从第一文本1401中提取关键词“江南站”，并且可以通过使用提取的关键词来补偿第二文本1404。语音识别装置300可以补偿第二文本1404并且可以生成第三文本“你能告诉我江南站6号出口的位置吗？”。响应于第三文本，语音识别装置300可以输出关于江南站的第6号出口的位置的信息1405到屏幕上。语音识别装置300还可以向屏幕输出指示用于会话维护的设定时间的信息1403。

图14C示出了其中在会话维护期间，说话者A询问“吃点东西怎么样？”的问题，然后说话者B说“不确定”作为答复的对话的情况。

语音识别装置300可以检测包括“吃点东西怎么样？”的问题的第三语音信号，并且可以对第三语音信号执行语音识别。语音识别装置300可以从第三语音信号提取“吃点东西怎么样？”的第四文本。

语音识别装置300可以通过执行自然语言处理来确定说话者A发出第三语音信号是否用于语音识别。语音识别装置300可以基于先前文本(即，第一文本到第三文本)和第四文本之间的相关性来确定说话者A说出第三语音信号是否为了执行语音识别。

参照图14C，语音识别装置300可以确定先前文本和第四文本之间的相关性小于阈值，并且可以确定说话者A说出第三语音信号不是用于语音识别。然后，语音识别装置300可以基于确定的结果不输出从第三语音信号中提取的第四文本。

语音识别装置300可以基于确定说话者A发出第三语音信号是否用于语音识别的结果，仅在会话维护时段的剩余时间期间维持会话，以及在会话维护时段的剩余时间过去之后，语音识别装置300可以维持会话结束的设置。

然后，语音识别装置300可以检测包括由说话者B发出的“不确定”的回复的第四语音信号，并且可以对第四语音信号执行语音识别。

语音识别装置300可以基于从第四语音信号生成的说话者信息来确定第四语音信号的说话者B不等于注册的说话者A。然后，语音识别装置300可以基于确定的结果仅在会话维护时段的剩余时间期间维持会话，并且在会话维护时段的剩余时间过去之后，语音识别装置300可以维持会话结束的设置。在会话维护时段过去之后，语音识别装置300可以向屏幕输出指示会话结束的信息1406。

如上面参照图4和图5所述，根据本公开的语音识别系统可以包括但不限于能够独立识别和输出语音的语音识别装置或语音识别服务器。语音识别系统可以包括语音识别装置和语音识别服务器。语音识别装置可以连接到语音识别服务器，可以将关于输入语音的信息发送到语音识别服务器，可以从语音识别服务器接收语音识别的结果，并且可以输出语音识别的结果。

图15是根据本公开的实施例的包括语音识别装置和语音识别服务器的语音识别系统中的操作的流程图。

参照图15，语音识别装置300-1和语音识别服务器300-2可以分别对应于图2C中所示的语音识别装置231和语音识别服务器232。如图2C所示，语音识别装置和语音识别服务器可以以无线或有线方式彼此连接，并且可以交换数据。

在操作S1510中，语音识别设备300-1可以基于用户输入来激活会话。在操作S1520中，语音识别装置300-1可以在会话的维护期间接收音频信号的输入，并且在操作S1530中，语音识别装置300-1可以将输入的音频信号发送到语音识别服务器300-2。

在操作S1541中，语音识别服务器300-2可以从语音识别装置300-1接收输入音频信号，并且可以从输入音频信号中检测语音信号。在操作S1543中，语音识别服务器300-2可以对检测到的语音信号执行语音识别，并且在操作S1545中，语音识别服务器300-2可以基于从语音信号生成的说话者信息确定语音信号的说话者是否是注册的说话者。在操作S1547中，语音识别服务器300-2可以基于确定的结果确定是否维持语音识别装置300-1的会话。

在操作S1547中，当语音识别服务器300-2确定语音信号的说话者是注册的说话者时，语音识别服务器300-2可以维持语音识别装置300-1的会话。当语音识别服务器300-2确定语音信号的说话者是注册的说话者时，语音识别服务器300-2可以在预设的延长时段期间维持语音识别装置300-1的会话。当语音识别服务器300-2确定语音信号的说话者不是注册的说话者时，在会话维护周期的剩余时间过去之后，语音识别服务器300-2可以结束语音识别装置300-1的会话。

在操作S1550中，当语音识别服务器300-2确定语音信号的说话者是注册的说话者时，语音识别服务器300-2可以发送用于维持会话的会话管理信号和执行语音识别的结果到语音识别装置300-1。

在操作S1560中，语音识别设备300-1可以基于所接收的会话管理信号来维持会话。在操作S1570中，语音识别装置300-1可以将会话设置为在预设的延长时段期间维持，然后在延长时段之后结束。然后，语音识别装置300-1可以输出执行语音识别的结果。

然而，实施例不限于图15中所示的内容。图15中的一些操作，诸如由语音识别服务器300-2执行的操作，可以由语音识别装置300-1执行。

例如，操作S1541和S1543中的至少一个可以由语音识别装置300-1执行。语音识别装置300-1可以从输入音频信号中检测语音信号，并且可以将检测到的语音信号发送到语音识别服务器300-2。或者，语音识别装置300-1可以向语音识别服务器300-2发送与从输入音频信号检测到的语音信号的特征有关的信息。

作为另一示例，操作S1545和S1547中的至少一个可以由语音识别装置300-1执行。语音识别装置300-1可以从语音识别服务器300-2接收语音识别的结果，并且可以确定语音信号的说话者是否是注册的说话者。然后，语音识别设备300-1可以基于确定的结果确定是否维持会话。

图16是根据本公开的实施例的语音识别系统中的操作的流程图。

参照图16，根据实施例的语音识别系统可包括多个语音识别装置(下文中，称为第一语音识别装置300-1和第二语音识别装置300-3)，以及至少一个语音识别服务器300-2。第一语音识别装置300-1和第二语音识别装置300-3可以通过语音识别服务器300-2远程控制，或者可以彼此共享数据。

在操作S1610中，第一语音识别装置300-1可以基于用户输入来激活会话。在操作S1620中，第一语音识别装置300-1可以在会话维护期间接收音频信号的输入，并且在操作S1630中，第一语音识别装置300-1可以将输入的音频信号发送到语音识别服务器300-2。

在操作S1641中，语音识别服务器300-2可以从第一语音识别装置300-1接收输入音频信号，并且可以从输入音频信号中检测语音信号。在操作S1643中，语音识别服务器300-2可以对检测到的语音信号执行语音识别。在操作S1645中，语音识别服务器300-2可以基于从语音信号生成的说话者信息来确定语音信号的说话者是否是注册的说话者。

语音识别服务器300-2可以基于操作S1645中的确定结果来确定是否维持第一语音识别装置300-1的会话。在操作S1647中，当语音识别服务器300-2确定语音信号的说话者是注册的说话者时，语音识别服务器300-2可以控制多个语音识别装置以在预设的延长时段期间维持多个语音识别装置的会话。当语音识别服务器300-2确定语音信号的说话者不是注册的说话者时，在会话维护时段的剩余时间过去之后，语音识别服务器300-2可以结束第一会话识别装置300-1的会话。

在操作S1650中，当语音识别服务器300-2确定语音信号的说话者是注册的说话者时，语音识别服务器300-2可以将用于维持会话的会话管理信号和执行语音识别的结果发送到第一语音识别装置300-1。在操作S1660中，当语音识别服务器300-2确定语音信号的说话者是注册的说话者时，语音识别服务器300-2可以将用于激活和维持会话的会话管理信号发送到第二语音识别装置300-3。

在操作S1671中，第一语音识别装置300-1可以基于所接收的会话管理信号来维持会话。第一语音识别装置300-1可以将会话设置为在预设的延长时段期间维持，然后在延长时段之后结束。在操作S1680中，第一语音识别装置300-1可以输出执行语音识别的结果。

在操作S1673中，第二语音识别装置300-3可以激活会话并且可以基于所接收的会话管理信号在预设时段期间维持会话。

然而，实施例不限于图16中所示的内容。图16中的一些操作，诸如由语音识别服务器300-2执行的操作，可以由第一语音识别装置300-1和第二语音识别装置300-3中的至少一个执行。

例如，操作S1641和S1643中的至少一个可以由第一语音识别装置300-1执行。第一语音识别装置300-1可以从输入音频信号中检测语音信号，并且可以将检测到的语音信号发送到语音识别服务器300-2。或者，第一语音识别装置300-1可以将与从输入音频信号检测到的语音信号的特征有关的信息发送到语音识别服务器300-2。

作为另一示例，操作S1645和S1647中的至少一个可以由第一语音识别装置300-1和第二语音识别装置300-3中的至少一个执行。第一语音识别装置300-1和第二语音识别装置300-3中的至少一个可以从语音识别服务器300-2接收语音识别的结果，并且可以确定语音信号的说话者是否是注册的说话者。然后，第一语音识别装置300-1和第二语音识别装置300-3中的至少一个可以基于确定的结果确定是否维持会话。第一语音识别装置300-1、语音识别服务器300-2和第二语音识别装置300-3中的至少一个可以将会话管理信号和执行语音识别的结果发送到第一语音识别装置300-1、语音识别服务器300-2和第二语音识别装置300-3中的至少一个。

现在将参照图17A和图17B详细描述根据图16的流程图的语音识别系统中的操作。

图17A和图17B示出了第一语音识别装置300-1是智能手机，第二语音识别装置300-3是智能电视的示例。第一语音识别装置300-1和第二语音识别装置300-3可以以有线或无线方式连接到语音识别服务器。图17A和图17B中所示的语音识别系统可以是家庭网络系统的一部分。

参照图17A，当例如主房间中的说话者A说出“嗨，Galaxy，有正在进行的棒球比赛吗？”时，第一语音识别装置300-1可以基于预先存储的呼叫关键字“嗨，Galaxy”来激活会话，并且可以将接收的输入音频信号发送到语音识别服务器300-2。然后，语音识别服务器300-2可以对检测到的第一语音信号执行语音识别。语音识别服务器300-2可以基于从第一语音信号生成的说话者信息来确定第一语音信号的说话者A等于注册的说话者A。

然后，语音识别服务器300-2可以基于确定的结果将语音识别的结果输出到第一语音识别装置300-1。第一语音识别装置300-1可以向屏幕输出“有正在进行的棒球比赛吗？”的文本1701，其是从检测到的第一语音信号执行语音识别的结果，并且可以响应于“有正在进行的棒球比赛吗？”的问题向屏幕输出关于正在进行的棒球比赛的信息1702。

语音识别服务器300-2可以基于确定的结果控制第一语音识别装置300-1的会话在预设的延长时段期间被维持。另外，语音识别服务器300-2可以控制图17B所示的第一语音识别装置300-1以及第二语音识别装置300-3的会话在预设的延长时段期间被激活和维持，该第二语音识别装置300-3也连接到语音识别服务器300-2。第一语音识别装置300-1和第二语音识别装置300-3可以分别向一个或多个显示器或屏幕输出指示用于会话维护的重置时间的两条信息1703和1706。

当第二语音识别装置300-3的会话被激活和维持时，说话者A可以从主房间移动到起居室，并且可以向位于起居室中的第二语音识别装置300-3发出“向我显示棒球频道”。因此，在说话者A针对第一语音识别装置300-1发出语音识别命令之后，说话者A不必执行激活第二语音识别装置300-3的会话的操作以便发出关于第二语音识别装置300-3的语音识别命令。

第二语音识别装置300-3可以将包括“向我显示棒球频道”的话语的输入音频信号发送到语音识别服务器300-2。然后，语音识别服务器300-2可以对检测到的第二语音信号执行语音识别。语音识别服务器300-2可以基于从第二语音信号生成的说话者信息来确定第二语音信号的说话者A等于注册的说话者A。

语音识别服务器300-2可以基于确定的结果将语音识别的结果输出到第二语音识别装置300-3。第二语音识别装置300-3可以向屏幕输出“向我显示棒球频道”的文本1704，其是对从检测到的第二语音信号执行语音识别的结果。第二语音识别装置300-3还可以将频道改变为广播棒球游戏的频道1705。

在图17A和图17B的示例中，仅作为注册说话者的说话者A发出语音，但是实施例不限于此，因此，可以在语音识别系统中预先注册多个说话者，并且语音识别系统可以存储关于多个注册的说话者的多条信息。

当多个注册说话者中的至少一个连续发出关于多个语音识别装置中的至少一个的语音时，可以维持多个语音识别装置的会话而无需单独激活会话的操作。多个语音识别装置可以一起管理会话，并且可以输出相同的语音识别结果。或者，多个语音识别装置可以一起管理会话，并且可以根据每个说话者单独输出语音识别的结果。

例如，当说话者A和说话者B都是注册的说话者，并且在图17B的示例中说话者B而不是说话者A发出“向我显示棒球频道”时，语音识别装置300可以以串行或并行方式输出关于说话者A的话语的语音识别结果和关于说话者B的话语的语音识别结果。

例如，第一语音识别装置300-1和第二语音识别装置300-3可以顺序输出关于说话者A的话语的语音识别的结果和关于说话者B的话语的语音识别的结果。

当第一语音识别装置300-1和第二语音识别装置300-3的会话被激活和维持时，第一语音识别装置300-1可以从说话者A接收“有正在进行的棒球比赛吗？”的话语，第一语音识别装置300-1和第二语音识别装置300-3可以向屏幕输出“有正在进行的棒球比赛吗？”的文本，其是从说话者A的语音信号执行语音识别的结果，并且可以响应于“有正在进行的棒球比赛吗？”的问题向屏幕输出关于正在进行的棒球比赛的信息。

当第一语音识别装置300-1和第二语音识别装置300-3的会话被激活和维持时，第二语音识别装置300-3可以从说话者B接收“向我显示棒球频道”的话语。第一语音识别装置300-1和第二语音识别装置300-3可以向屏幕输出“向我显示棒球频道”的文本，其是对从说话者B的语音信号执行语音识别的结果。第一语音识别装置300-1和第二语音识别装置300-3还可以响应于显示棒球比赛的请求将频道改变为广播棒球比赛的频道。

作为另一示例，第一语音识别装置300-1和第二语音识别装置300-3可以以并行方式输出关于说话者A的话语的语音识别结果和关于说话者B的话语的语音识别的结果。

第一语音识别装置300-1可以从说话者A接收“有正在进行棒球比赛吗？”的话语，并且可以输出对从说话者A的语音信号执行语音识别的结果。第二语音识别装置300-3可以从说话者B接收“向我显示棒球频道”的话语，并且可以输出对从说话者B的语音信号执行语音识别的结果。即，第一语音识别装置300-1和第二语音识别装置300-3可以一起管理会话，但是可以单独输出语音识别的结果。

参照图16、图17A和图17B，根据实施例的语音识别系统可以基于说话者识别来确定是否维持家中的多个语音识别装置的会话，从而便于用户输入语音识别命令而不单独执行激活会话的操作。因此，当用户针对包括在家庭网络系统中的两个或更多物联网(IoT)设备输入语音识别命令时，通过使用根据实施例的语音识别系统，即使在的不同地方，用户也可以相对于两个或更多个IoT设备无缝地输入语音识别命令。

如上所述，在根据一个或多个实施例的语音识别系统中，经由说话者验证仅输出关于注册说话者的话语的语音识别结果，从而可以在诸如智能手机的个性化设备中进行语音识别的个性化。另外，在根据一个或多个实施例的语音识别系统中，减少了用户不必要地激活会话的次数，从而可以增加用户使用语音识别系统的便利性。另外，在根据一个或多个实施例的语音识别系统中，对于认为个人信息保护很重要的用户来说，个性化语音识别是可能的。

在这些和其他示例中，本公开的一个或多个实施例可以被编写为计算机程序，并且可以在使用非暂时性计算机可读记录介质运行程序的通用数字计算机中实现。另外，本公开的实施例中使用的数据结构可以通过各种手段写入非暂时性计算机可读记录介质中。一个或多个实施例可以体现为记录介质上的计算机可读代码/指令，例如，将在计算机中运行的程序模块，其包括计算机可读命令。例如，实现为软件模块或算法的方法可以存储为可在非暂时性计算机可读记录介质上运行的计算机可读代码或程序指令。

计算机可读介质可以包括可以由计算机访问的任何记录介质，包括但不限于易失性和非易失性介质，以及可拆卸和不可拆卸的介质。计算机可读介质的示例包括但不限于磁存储介质(例如，只读存储器(ROM)、软盘、硬盘等)、光学记录介质(例如，光盘-ROM(CD-ROM)或数字通用光盘(DVD))等。另外，计算机可读介质可以包括计算机存储介质和通信介质。

非暂时性计算机可读记录介质可以分布在网络耦合的计算机系统上，并且存储在分布式记录介质中的数据，例如程序命令和代码，可以通过使用至少一个计算机来运行。

在整个说明书中，术语“单元”、“模块”等可以指示诸如处理器或电路的硬件组件，和/或可以指示由诸如处理器的硬件配置运行的软件组件。

例如，作为示例，“单元”或“模块”可以包括诸如软件组件、面向对象的软件组件、类组件和任务组件、进程、功能、属性、过程、子例程、程序代码的段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表、数组和变量。

对于本领域普通技术人员显而易见的是，在不改变本公开的技术概念或本质特征的情况下，本公开可以容易地以许多不同的形式实施。因此，应该理解的是，这里描述的实施例应该仅被认为是描述性的，而不是为了限制的目的。例如，单数形式的配置元素可以以分布式方式运行，并且分布的配置元素可以组合然后运行。

虽然已经参照本公开的各种实施例示出和描述了本公开，但是本领域技术人员将理解，在不脱离通过所附权利要求及其等同物所定义的本公开的精神和范围的情况下，可以在其中进行形式和细节上的各种改变。

Claims

1.一种语音识别方法，所述方法包括：

激活用于接收第一音频信号的会话；

在维持所述会话的同时对从第一音频信号检测到的第一语音信号执行第一语音识别；

基于从第一语音信号生成的说话者信息确定第一语音信号的说话者是否是注册的说话者；

基于所述确定第一语音信号的说话者是否是注册的说话者的结果来确定是否维持所述会话；

输出第一语音识别的结果；

在维持所述会话的同时接收第二音频信号；

在维持所述会话的同时对从第二音频信号检测到的第二语音信号执行第二语音识别；

获得从第一语音信号中提取的第一文本的含义与从第二语音信号中提取的第二文本的含义之间的相关性；以及

基于所述相关性，输出第二语音识别的结果。

2.如权利要求1所述的方法，其中，所述确定是否维持所述会话包括：

当第一语音信号的说话者是注册的说话者时维持所述会话；以及

当第一语音信号的说话者不是注册的说话者时结束所述会话。

3.如权利要求1所述的方法，

其中，激活所述会话包括将所述会话设置为在所述会话维护时段期间维持，然后在所述会话维护时段之后结束，以及

其中，所述确定是否维持所述会话包括：当第一语音信号的说话者是注册的说话者时，重置要在预设的延长时段期间维持的所述会话，然后在所述预设的延长时段之后结束。

4.如权利要求1所述的方法，其中，所述执行第一语音识别包括：

从第一语音信号中提取用于鲁棒语音识别的语音识别特征向量，以及用于鲁棒说话者识别的说话者识别特征向量；

通过对所述语音识别特征向量执行第一语音识别来生成第一语音识别的结果；以及

通过使用所述说话者识别特征向量生成说话者信息。

5.如权利要求4所述的方法，

其中，所述通过对语音识别特征向量执行第一语音识别来生成第一语音识别的结果是基于声学模型或语言模型中的至少一个，以及

其中，所述说话者信息的生成包括：

基于所述声学模型或所述语音识别特征向量中的至少一个提取状态后验；以及

通过使用所述状态后验和所述说话者识别特征向量来生成说话者信息。

6.如权利要求1所述的方法，其中，所述执行第一语音识别包括：

将实时输入的第一音频信号分段为每个具有预设长度的帧单元；

通过处理分段的第一音频信号，检测包括第一帧的帧单元中的语音信号；

在第一语音信号的第一帧上执行第一语音识别；

通过使用关于第一帧的状态后验来生成第一帧的说话者信息，其中，在对所述第一帧执行第一语音识别的同时提取状态后验；

在第一语音信号的帧单元中的每一个上重复第一语音识别的操作，其中，从实时输入的第一音频信号中顺序检测帧单元；以及

生成说话者信息。

7.如权利要求1所述的方法，其中，所述确定第一语音信号的说话者是否是所述注册的说话者包括：

计算说话者信息和预先存储的关于注册的说话者的已注册说话者信息之间的相似性；以及

基于将相似性与预设的阈值进行比较的结果，确定第一语音信号的说话者是否是注册的说话者。

8.如权利要求1所述的方法，其中，所述输出结果包括：

对在所述会话期间检测到的先前语音信号执行语音识别的结果和对第一语音信号执行第一语音识别的结果执行自然语言处理；

基于所述自然语言处理确定第一语音信号是否由所述说话者发出用于语音识别；以及

基于所述确定说话者发出第一语音信号用于语音识别的结果，输出第一语音识别的结果。

9.一种用于语音识别的装置，所述装置包括：

接收器，被配置为在用于接收一个或多个音频信号的输入的会话基于用户输入被激活时，在维持所述会话的同时接收第一音频信号；

输出单元，被配置为输出语音识别的结果；

处理器，被配置为：

从第一音频信号中检测第一语音信号，

对第一语音信号执行第一语音识别，

基于从第一语音信号生成的说话者信息确定第一语音信号的说话者是否是注册的说话者，

基于确定第一语音信号的说话者是否是注册的说话者的结果来确定是否维持所述会话，

经由该输出单元输出第一语音识别的结果，

在维持所述会话的同时，经由该接收器接收第二音频信号，

在维持所述会话的同时，对从第二音频信号检测到的第二语音信号执行第二语音识别，

获得从第一语音信号中提取的第一文本的含义与从第二语音信号中提取的第二文本的含义之间的相关性，以及

基于所述相关性，经由该输出单元输出第二语音识别的结果。

10.如权利要求9所述的装置，其中，所述处理器还被配置为：

当第一语音信号的说话者是所述注册的说话者时，维持所述会话，以及

当第一语音信号的说话者不是所述注册的说话者时结束所述会话。

11.如权利要求9所述的装置，其中，所述处理器还被配置为：

在接收器接收输入的音频信号之前，设置在所述会话维护期间维持所述会话，然后在所述会话维护时段之后结束，以及

当第一语音信号的说话者是所述注册的说话者时，当处理器确定维持所述会话时，重置所述会话以在预设的延长时段期间维持然后在预设的延长时段之后结束。

12.如权利要求9所述的装置，其中，所述处理器还被配置为：

从第一语音信号中提取用于鲁棒语音识别的语音识别特征向量和用于鲁棒说话者识别的说话者识别特征向量，

基于声学模型或语言模型中的至少一个对所述语音识别特征向量执行第一语音识别，

基于所述声学模型和所述语音识别特征向量中的至少一个提取状态后验，以及

通过使用所述状态后验和所述说话者识别特征向量来生成所述说话者信息。

13.如权利要求9所述的装置，其中，所述处理器还被配置为：

将实时输入的第一音频信号分段为每个具有预设长度的帧单元，

通过处理所述分段的第一音频信号，检测包括第一帧的帧单元中的语音信号，

在第一语音信号的第一帧上执行第一语音识别，

通过使用关于所述第一帧的状态后验来生成第一帧的说话者信息，其中在对所述第一帧执行第一语音识别的同时提取所述状态后验，

在第一语音信号的帧单元中的每一个上重复执行第一语音识别的操作，其中，从实时输入的第一音频信号中顺序地检测所述帧单元，以及

生成所述说话者信息。

14.如权利要求9所述的装置，其中，所述处理器还被配置为：

基于自然语言处理确定第一语音信号是否由所述说话者发出用于语音识别；以及

基于确定所述说话者发出第一语音信号用于语音识别的结果，输出第一语音识别的结果。

15.一种非暂时性计算机可读记录介质，其上记录包括指令的至少一个程序，当所述程序由至少一个处理器运行时，配置所述至少一个处理器以通过以下步骤运行语音识别方法：

激活用于接收第一音频信号的会话；

基于确定第一语音信号的说话者是否是注册的说话者的结果来确定是否维持所述会话；

输出执行所述语音识别的结果；

在维持所述会话的同时接收第二音频信号；

获得从第一语音信号中提取的第一文本的含义与从第二语音信号中提取的第二文本的含义之间的关联；以及

基于所述关联输出第二语音识别的结果。