CN111656437A

CN111656437A - 信息处理装置、信息处理方法、程序和信息处理系统

Info

Publication number: CN111656437A
Application number: CN201880087905.3A
Authority: CN
Inventors: 角尾衣未留
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-08
Filing date: 2018-12-28
Publication date: 2020-09-11
Also published as: WO2019171732A1; JPWO2019171732A1; US20200410987A1; DE112018007242T5

Abstract

本发明提供了一种信息处理装置，信息处理装置包括：输入单元，用于接收预定语音；以及确定单元，用于确定包括预定单词的语音被输入之后的输入语音是否旨在操作装置。

Description

信息处理装置、信息处理方法、程序和信息处理系统

技术领域

本公开涉及信息处理装置、信息处理方法、程序和信息处理系统。

背景技术

已经提出了执行语音识别的电子装置(例如，参见专利文献1和2)。

引文列表

专利文献

专利文献1：日本专利申请公开号2014-137430

专利文献2：日本专利申请公开号2017-191119

发明内容

本发明要解决的问题

在这样的领域中，希望防止基于非旨在操作代理的语音执行语音识别，并且防止代理发生误动作。

本公开的一个目的是提供一种信息处理装置、信息处理方法、程序和信息处理系统，其例如在用户说出语音的情况下，根据旨在操作代理的语音来执行处理。

问题的解决方案

例如，本公开是，

一种信息处理装置，包括：

输入单元，将预定语音输入到输入单元；以及

确定单元，其确定在包括预定单词的语音被输入之后的输入语音是否旨在操作装置。

例如，本公开是，

一种信息处理方法，包括

由确定单元，确定在包括预定单词的语音输入到输入单元之后到输入单元的输入语音是否旨在操作装置。

例如，本公开是，

一种使计算机执行信息处理方法的程序，信息处理方法包括

例如，本公开是，

一种信息处理系统，包括：

第一装置；以及第二装置，其中，

第一装置包括

输入单元，将语音输入到输入单元；

确定单元，其确定在包括预定单词的语音被输入之后的输入语音是否旨在操作装置；以及

通信单元，在确定单元确定包括预定单词的语音被输入之后的输入语音旨在操作装置的情况下，将输入语音发送到第二装置，并且

第二装置包括

语音识别单元，其对从第一装置发送的输入语音执行语音识别。

本发明的效果

根据本公开的至少一个实施方式，可以防止基于非旨在操作代理的语音执行语音识别，并且防止代理发生故障。注意，本文描述的效果不必受限，并且可以是本公开中描述的任何效果。此外，本公开的内容不应被解释为受示例效果的限制。

附图说明

图1是示出根据实施方式的代理的配置示例的框图；

图2是根据实施方式的用于描述由装置操作意图确定单元执行的处理示例的示图；

图3是示出根据实施方式的由代理执行的处理流程的流程图；

图4是示出根据修改示例的信息处理系统的配置示例的框图。

具体实施方式

在下文中，将参考附图描述本公开的实施方式等。注意，将按照以下顺序进行描述。

<实施方式中要考虑的问题>

<1.一个实施方式>

<2.修改示例>

下面将要描述的实施方式等是本公开的优选具体示例，并且本公开的内容不限于实施方式等。

<实施方式中要考虑的问题>

首先，将描述实施方式中要考虑的问题，以便于理解本公开。在本实施方式中，将描述在执行语音识别的代理(装置)上的操作，作为示例。代理(agent)是指例如具有便携尺寸的语音输出装置或者语音输出装置与用户的语音交互功能。这种语音输出装置也称为智能扬声器等。当然，代理不限于智能扬声器，并且可以是机器人等。用户向代理发出语音。通过对用户说出的语音执行语音识别，代理执行对应于该语音的处理并输出语音响应。

在这种语音识别系统中，当代理识别用户的语音时，在用户有意向代理说话的情况下应该执行语音识别处理，但是在用户无意向代理说话的情况下(例如，独白以及与周围的另一用户的对话)，希望不执行语音识别。代理难以确定用户的语音是否针对代理，通常，即使语音不旨在操作代理的情况下也执行语音识别处理，并且在许多情况下会获得错误的语音识别结果。此外，可以使用辨别器，该辨别器基于语音识别的结果来辨别是否存在针对代理的操作意图，或者在语音识别中使用确定性因子，但是存在处理量变大的问题。

顺便说一句，在用户发出旨在操作代理的语音的情况下，通常在说出称为“激活词”的典型短语之后，发出旨在操作代理的语音。激活词是例如代理的昵称等。作为具体示例，用户在说出激活词之后说“增加音量”、“告诉我明天的天气”等。代理对语音内容执行语音识别，并根据结果执行处理。

如上所述，在操作代理的情况下，总是假设说出激活词，并且激活词之后的所有语音操作代理的情况下，执行语音识别处理和根据识别结果的处理。然而，根据这种方法，在激活词之后出现非旨在操作代理的独白、与家庭成员的对话、噪音等的情况下，代理可能错误地执行语音识别。结果，在用户发出非旨在操作代理的语音的情况下，代理可能执行非预期的处理。

此外，例如，在针对更具交互性的系统的情况下，或者在激活词的一次语音能够在此后的特定时间段内进行连续语音的情况下，更有可能出现如上所述的对代理没有操作意图的语音。考虑到这些问题，将描述本公开的实施方式。

<1.一个实施方式>

[代理的配置示例]

图1是示出代理(代理10)的配置示例的框图，代理10是根据实施方式的信息处理装置的示例。代理10例如是便携式的并且放置在房屋内(室内)的小型代理。当然，放置代理10的位置可以由代理10的用户适当地确定，并且代理10的尺寸不必很小。

代理10包括例如控制单元101、传感器单元102、输出单元103、通信单元104、输入单元105和特征量存储单元106。

控制单元101包括例如中央处理单元(CPU)等，并控制代理10的每个单元。控制单元101包括存储程序的只读存储器(ROM)和在执行程序时用作工作存储器的随机存取存储器(RAM)(注意，这些未示出)。

控制单元101包括作为其功能的激活词辨别单元101a、特征量提取单元101b、装置操作意图确定单元101c和语音识别单元101d。

作为辨别单元的示例的激活词辨别单元101a，检测输入到代理10的语音是否包括作为预定词的示例的激活词(activation word，启动词)。根据本实施方式的激活词是包括代理10的昵称的词，但不限于此。例如，可以由用户设置激活词。

特征量提取单元101b提取输入到代理10的语音的声学特征量。特征量提取单元101b通过具有比执行模式匹配的语音识别处理更小的处理负荷的处理，来提取语音中包括的声学特征量。例如，基于对输入语音的信号的快速傅立叶变换(FFT)的结果，来提取声学特征量。注意，根据本实施方式的声学特征量意味着与音色、音高、语音速度或音量中的至少一项相关的特征量。

例如，作为确定单元的示例的装置操作意图确定单元101c，确定在包括激活词的语音被输入之后的输入语音是否旨在操作代理10。然后装置操作意图确定单元101c输出确定结果。

语音识别单元101d例如对输入语音使用模式匹配来执行语音识别。注意，上述激活词辨别单元101a的语音识别只需要执行与预定激活词对应的模式的匹配处理，因此是比语音识别单元101d执行的语音识别处理负荷更轻的处理。控制单元101基于语音识别单元101d的语音识别结果执行控制。

传感器单元102例如是检测用户的话语(语音)的麦克风(输入单元的示例)。当然，可以应用其他传感器，作为传感器单元102。

输出单元103例如输出由控制单元101执行的语音识别的控制的结果。输出单元103例如是扬声器装置。除了扬声器装置，输出单元103还可以是显示器、投影仪或其组合。

通信单元104与经由诸如互联网的网络连接的另一装置通信，并且包括诸如调制/解调电路和与通信方法对应的天线的组件。

输入单元105接收来自用户的操作输入。输入单元105例如是按钮、杠杆、开关、触摸面板、麦克风、视线检测装置等。输入单元105根据对输入单元105的输入生成操作信号，并将操作信号提供给控制单元101。控制单元101根据操作信号执行处理。

特征量存储单元106存储由特征量提取单元101b提取的特征量。特征量存储单元106可以是内置于代理10中的硬盘、半导体存储器等、可从代理10拆卸的存储器或其组合。

注意，可以基于从商用电源供应的电力来驱动代理10，或者可以基于从可充电/可放电锂离子二次电池等供应的电力来驱动代理10。

(装置操作意图确定单元中的处理示例)

将参考图2描述装置操作意图确定单元101c中的处理的示例。装置操作意图确定单元101c使用从输入语音提取的声学特征量和先前存储的声学特征量(从特征量存储单元106读取的声学特征量)，来执行与是否存在操作意图相关的辨别处理。

在前一阶段的处理中，通过多层神经网络(NN)对提取的声学特征量执行转换处理，然后执行在时间顺序方向上累积信息的处理。对于该处理，可以计算诸如平均值和方差的统计，或者可以使用诸如长短时存储器(LSTM)的时间序列处理模块。通过该处理，从先前存储的激活词和当前声学特征量中的每一者计算矢量信息，并且在后一阶段将矢量信息并行输入到多层神经网络。在本示例中，简单地连接两个向量并作为一个向量输入。在最后一层中，计算指示是否存在对代理10的操作意图的二维值，并且通过softmax函数等输出辨别结果。

上述装置操作意图确定单元101c通过预先对大量标记数据执行监督学习来学习参数。以集成的方式学习前一阶段和后一阶段，能够更好地学习辨别器。此外，还可以向目标函数添加约束，使得前一阶段的处理结果的向量根据是否存在对代理的操作意图而有很大区别。

[代理的操作示例]

(操作概述)

接下来，将描述代理10的操作示例。首先，将描述操作的概述。当识别出激活词时，代理10提取并存储激活词的声学特征量(可以使用包括激活词的语音)。在用户说出激活词的情况下，通常情况是话语具有针对代理10的操作意图。此外，在用户说出对代理10的操作意图的情况下，用户倾向于可理解的说出明显、清晰和较大的语音，从而代理10可以准确地识别语音。

另一方面，在非旨在操作代理10的独白或与另一个人的对话中，通常更自然地以人类能够理解的音量和语音速度发出话语，包括许多补白和口吃。

即，在具有针对代理10的操作意图的话语的情况下，存在被示为声学特征量的特殊趋势的许多情况，例如，与激活词相关的声学特征量包括具有针对代理10的用户的操作意图的诸如音颜、语音音高、话语速度和话语音量的信息。因此，通过存储这些声学特征量，并在辨别是否存在针对代理10的操作意图的处理中使用这些声学特征量，可以高精度地执行辨别。此外，与通过使用执行与大量模式匹配的语音识别来辨别是否存在针对代理10的操作意图的处理相比，可以通过简单的处理来执行辨别。此外，可以高精度地执行是否存在针对代理10的操作意图的辨别处理。

然后，在辨别出旨在操作代理10的用户的话语的情况下，对话语的语音执行语音识别(例如，执行与多个模式匹配的语音识别)。代理10的控制单元101根据语音识别的结果执行处理。

(处理流程)

将参考图3的流程图描述由代理10(更具体地，代理10的控制单元101)执行的处理流程的示例。在步骤ST11中，激活词辨别单元101a执行语音识别(激活词识别)，用于辨别输入到传感器单元102的语音是否包括激活词。然后，处理进行到步骤ST12。

在步骤ST12中，确定步骤ST11中的语音识别结果是否包括激活词。在此处，在步骤ST11中的语音识别结果包括激活词的情况下，处理进行到步骤ST13。

在步骤ST13，话语接受时段开始。话语接受时段例如是从辨别出激活词的时间开始达预定时段(例如，10秒)的时段设置。然后，确定在此时段期间的输入语音是否是对代理10具有操作意图的话语。注意，在一旦在设置话语接受时段之后识别出激活词的情况下，话语接受时段可以被延长。然后，处理进行到步骤ST14。

在步骤ST14中，特征量提取单元101b提取声学特征量。特征量提取单元101b可以仅提取激活词的声学特征量，或者在包括激活词以外的语音的情况下，还提取包括激活词的语音的声学特征量。然后，处理进行到步骤ST15。

在步骤ST15中，由控制单元101提取的声学特征量存储在特征量存储单元106中。然后，处理结束。

考虑这样的情况，其中，在用户说出激活词之后，不包括激活词的话语(可能存在具有针对代理10的操作意图的话语或者可能存在不具有针对代理10的操作意图的话语)、噪声等输入到代理10的传感器单元102。即使在这种情况下，也执行步骤ST11的处理。

由于在步骤ST11的处理中没有识别出激活词，所以在步骤ST12的处理中确定步骤ST11中的语音识别结果不包括激活词，并且处理进行到步骤ST16。

在步骤ST16中，确定代理10是否处于话语接受时段。在此处，在代理10不在话语接受时段中的情况下，不执行确定代理的操作意图的处理，因此处理结束。在步骤ST16的处理中，在代理10处于话语接受时段的情况下，处理进行到步骤ST17。

在步骤ST17中，提取话语接受时段期间的输入语音的声学特征量。然后，处理进行到步骤ST18。

在步骤ST18中，装置操作意图确定单元101c确定是否存在针对代理10的操作意图。例如，装置操作意图确定单元101c将在步骤ST17中提取的声学特征量与从特征量存储单元106读取的声学特征量进行比较，并且在符合度等于或高于预定值的情况下，确定用户具有针对代理10的操作意图。当然，可以适当地改变装置操作意图确定单元101c用来辨别是否存在针对代理10的操作意图的算法。然后，处理进行到步骤ST19。

在步骤ST19中，装置操作意图确定单元101c输出确定结果。例如，在装置操作意图确定单元101c确定用户具有针对代理10的操作意图的情况下，装置操作意图确定单元101c输出逻辑值“1”，并且在装置操作意图确定单元101c确定用户没有针对代理10的操作意图的情况下，装置操作意图确定单元101c输出逻辑值“0”。然后，处理结束。

注意，在确定用户具有针对代理10的操作意图的情况下，语音识别单元101d对输入语音执行语音识别处理，尽管未在图3中示出该处理。然后，在控制单元101的控制下，执行根据语音识别处理的结果的处理。根据语音识别处理的结果的处理可以根据代理10的功能适当地改变。例如，在语音识别处理的结果是“关于天气的询问”的情况下，例如，控制单元101控制通信单元104从外部装置获取关于天气的信息。然后，控制单元101基于获取的天气信息合成语音信号，并从输出单元103输出与语音信号相对应的语音。结果，通过语音通知用户关于天气的信息。当然，可以通过图像、图像和语音的组合等来通知关于天气的信息。

根据上述实施方式，可以确定是否存在针对代理的操作意图，而无需等待涉及与多个模式匹配的语音识别处理的结果。此外，可以防止由于非针对代理的操作意图的话语而使代理出现误动作。此外，通过并行执行对激活词的识别，可以高精度地辨别是否存在针对代理的操作意图。

此外，当确定存在或不存在针对代理的操作意图时，不直接使用涉及与多个模式匹配的语音识别，因此可以通过简单的处理来确定。此外，即使在代理的功能并入到另一装置(例如，电视装置、白色商品、物联网(IoT)装置等)中的情况下，与确定操作意图相关联的处理负荷也较小，因此容易将代理的功能引入到那些装置中。此外，可以在说出激活词之后继续接受语音而没有代理误动作，因此可以通过更多的交互式对话来实现代理操作。

<2.修改示例>

尽管上面已经具体描述了本公开的实施方式，但是本公开的内容不限于上述实施方式，并且基于本公开的技术思想的各种修改是可行的。在下文中，将描述修改示例。

[根据修改示例的信息处理系统的配置示例]

可以在云端执行上述实施方式中描述的一部分处理。图4示出了根据修改示例的信息处理系统的配置示例。注意，在图4中，与上述实施方式中的组件相同或相似的组件具有相同的附图标记。

根据修改示例的信息处理系统包括例如代理10a和作为云的示例的服务器20。代理10a与代理10的不同之处在于，控制单元101不具有语音识别单元101d。

服务器20包括例如服务器控制单元201和服务器通信单元202。服务器控制单元201被配置为控制服务器20的每个单元，并且例如具有语音识别单元201a作为功能。语音识别单元201a例如类似于根据实施方式的语音识别单元101d进行操作。

服务器通信单元202被配置为与另一装置通信，例如，与代理10a通信，并且具有根据通信方法的调制/解调电路、天线等。在通信单元104和服务器通信单元202之间执行通信，从而在代理10a和服务器20之间执行通信，因此发送和接收各种类型的数据。

将描述信息处理系统的操作示例。装置操作意图确定单元101c确定在话语接受时段期间输入的语音中是否存在针对代理10a的操作意图。在装置操作意图确定单元101c确定存在针对代理10a的操作意图的情况下，控制单元101控制通信单元104，并且向服务器20发送与话语接受时段期间输入的语音相对应的语音数据。

服务器20的服务器通信单元202接收从代理10a发送的语音数据。服务器通信单元202通过服务器控制单元201提供接收到的语音数据。然后服务器控制单元201的语音识别单元201a对接收的语音数据执行语音识别。服务器控制单元201经由服务器通信单元202向代理10a发送语音识别的结果。服务器控制单元201可以将对应于语音识别结果的数据发送给代理10a。

在由服务器20执行语音识别的情况下，可以防止非针对代理10a的操作意图的话语被发送到服务器20，因此可以减少通信负荷。此外，由于不需要将非针对代理10a的操作意图的话语发送到服务器20，所以从安全性的角度来看，对用户是有利的。即，可以防止没有操作意图的话语由于未经授权的访问等而被另一个人获取。

如上所述，根据实施方式的代理10的一部分处理可以由服务器执行。

[其他修改示例]

当存储激活词的声学特征量时，可以在一直重写的同时使用最新的声学特征量，或者可以累积特定时段的声学特征量，并且可以使用所有累积的声学特征量。通过总是使用最新的声学特征量，可以灵活地应对每天发生的变化，例如，用户的变化、由于感冒引起的声音变化以及由于佩戴例如面罩引起的声学特征量(例如，声音质量)的变化。另一方面，在使用累积的声学特征量的情况下，存在可能使很少发生的激活词辨别单元101a的错误最小化的效果。此外，不仅可以累积激活词，而且还可以累积被确定为具有针对代理的操作意图的话语。在这种情况下，可以吸收各种话语变体。在这种情况下，对应的声学特征量可以与一个激活词相关联地存储。

此外，作为学习变体，除了如实施方式中预先学习装置操作意图确定单元101c的参数的方法之外，还可以在每次用户使用代理时通过诸如其他模式信息的信息来执行进一步的学习。例如，成像装置被用作传感器单元102，以实现面部识别和视线识别。在用户面向代理并且清楚地具有针对代理的操作意图的情况下，可以结合具有诸如“存在代理操作意图”的标签信息的面部识别结果或视线识别结果、以及用户的实际话语，来执行学习。此外，可以结合举手的识别结果或触摸传感器的接触检测结果，来执行学习。

尽管在上述实施方式中传感器单元102被视为输入单元的示例，但是输入单元不限于此。装置操作意图确定单元可以设置在服务器中，并且在这种情况下，通信单元和预定接口用作输入单元。

上述实施方式中描述的配置仅仅是示例，并且配置不限于此。不言而喻，在不脱离本公开的精神的情况下，可以对配置等进行添加和删除。本公开可以以任何形式实现，例如，装置、方法、程序和系统。此外，根据本实施方式的代理可以并入在机器人、家用电器、电视、车载装置、IoT装置等中。

本公开可以采用以下配置。

(1)一种信息处理装置，包括：

输入单元，将预定语音输入到输入单元；以及

(2)根据(1)的信息处理装置，还包括

辨别单元，其辨别所述预定单词是否包括在语音中。

(3)根据(2)的信息处理装置，还包括

特征量提取单元，其在语音包括预定单词的情况下，提取单词的至少声学特征量。

(4)根据(3)的信息处理装置，还包括

存储单元，其存储由特征量提取单元提取的单词的声学特征量。

(5)根据(4)的信息处理装置，其中，

存储由特征量提取单元提取的单词的声学特征量，从而先前存储的声学特征量被重写。

(6)根据(4)的信息处理装置，其中，

由特征量提取单元提取的单词的声学特征量与先前存储的声学特征量一起存储。

(7)根据(1)至(6)中任一项的信息处理装置，还包括

通信单元，在确定单元确定包括预定单词的语音被输入之后的输入语音旨在操作装置的情况下，将输入语音在发送到另一装置。

(8)根据(1)至(7)中任一项的信息处理装置，其中，

确定单元基于在包括预定单词的语音被输入之后的输入语音的声学特征量，来确定输入语音是否旨在操作装置。

(9)根根据(8)根的信息处理装置，其中，

确定单元基于从辨别出预定单词的时间起的预定时段期间的输入语音的声学特征量，来确定输入语音是否旨在操作装置。

(10)根据(8)或(9)的信息处理装置，其中，

声学特征量是与音色、音高、语音速度或音量中的至少一项相关的特征量。

(11)一种信息处理方法，包括

(12)一种使计算机执行信息处理方法的程序，信息处理方法包括

(13)一种信息处理系统，包括：

第一装置；以及第二装置，其中，

第一装置包括

输入单元，将语音输入到输入单元；

第二装置包括

参考标记列表

10 代理

20 服务器

101 控制单元

101a 激活词辨别单元

101b 特征量提取单元

101c 装置操作意图确定单元

101d、201a 语音识别单元

104 通信单元

106 特征量存储单元。

Claims

1.一种信息处理装置，包括：

输入单元，将预定语音输入到所述输入单元；以及

确定单元，确定在包括预定单词的语音被输入之后的输入语音是否旨在操作装置。

2.根据权利要求1所述的信息处理装置，还包括：

辨别单元，辨别所述预定单词是否包括在所述语音中。

3.根据权利要求2所述的信息处理装置，还包括：

特征量提取单元，在所述语音包括预定单词的情况下，提取单词的至少声学特征量。

4.根据权利要求3所述的信息处理装置，还包括：

存储单元，存储由所述特征量提取单元提取的所述单词的所述声学特征量。

5.根据权利要求4所述的信息处理装置，其中，

由所述特征量提取单元提取的所述单词的所述声学特征量被存储，由此先前存储的声学特征量被重写。

6.根据权利要求4所述的信息处理装置，其中，

由所述特征量提取单元提取的所述单词的所述声学特征量与先前存储的声学特征量一起存储。

7.根据权利要求1所述的信息处理装置，还包括：

通信单元，在所述确定单元确定包括所述预定单词的所述语音被输入之后的所述输入语音旨在操作所述装置的情况下，将所述输入语音发送到另一装置。

8.根据权利要求1所述的信息处理装置，其中，

所述确定单元基于包括所述预定单词的所述语音被输入之后的所述输入语音的声学特征量，来确定所述输入语音是否旨在操作所述装置。

9.根据权利要求8所述的信息处理装置，其中，

所述确定单元基于从辨别出所述预定单词的时间起的预定时段期间内的所述输入语音的声学特征量，来确定所述输入语音是否旨在操作所述装置。

10.根据权利要求8所述的信息处理装置，其中，

所述声学特征量是与音色、音高、语音速度和音量中的至少一项相关的特征量。

11.一种信息处理方法，包括

由确定单元确定在包括预定单词的语音输入到输入单元之后输入到所述输入单元的语音是否旨在操作装置。

12.一种使计算机执行信息处理方法的程序，所述信息处理方法包括

13.一种信息处理系统，包括：

第一装置；以及第二装置，其中，

所述第一装置包括：

输入单元，将语音输入到所述输入单元；

确定单元，确定在包括预定单词的语音被输入之后的输入语音是否旨在操作装置；以及

通信单元，在所述确定单元确定包括所述预定单词的语音被输入之后的所述输入语音旨在操作所述装置的情况下，将所述输入语音发送到所述第二装置，并且

所述第二装置包括：

语音识别单元，对从所述第一装置发送的语音执行语音识别。