CN112262432A

CN112262432A - 语音处理装置、语音处理方法以及记录介质

Info

Publication number: CN112262432A
Application number: CN201980038331.5A
Authority: CN
Inventors: 镰田智恵
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-06-25
Filing date: 2019-05-15
Publication date: 2021-01-22
Also published as: WO2020003785A1; US20210272564A1; DE112019003210T5; JPWO2020003785A1

Abstract

本发明提出一种能够改进与语音识别有关的可用性的语音处理装置、语音处理方法以及记录介质。语音处理装置(1)包括：声音收集单元(12)，其收集语音并且将所收集的语音存储在语音存储单元(20)中；检测单元(13)，其检测用于使与语音相对应的预定功能启动的时机；以及执行单元(14)，如果通过检测单元(13)检测到时机，则基于在检测到时机的时间之前收集的语音来执行预定功能。

Description

语音处理装置、语音处理方法以及记录介质

技术领域

本公开涉及一种语音处理装置、语音处理方法以及记录介质。具体地，本公开涉及一种用于从用户接收的话语的语音识别处理。

背景技术

随着智能手机和智能扬声器的广泛使用，已经广泛使用用于响应从用户接收的话语的语音识别技术。在这样的语音识别技术中，预先设置作为用于启动语音识别的触发的唤醒字，并且在确定用户发出唤醒字的情况下，启动语音识别。

作为与语音识别有关的技术，已知一种用于根据用户的动作动态地设置要发出的唤醒字以防止由于唤醒字的发出而损害用户体验的技术。

引用列表

专利文献

专利文献1：日本公开专利公报第2016-218852号

发明内容

技术问题

然而，上述常规技术存在改进的空间。例如，在使用唤醒字执行语音识别处理的情况下，用户在假设用户首先发出唤醒字的情况下向控制语音识别的设备讲话。因此，例如，在用户忘记说出唤醒字的同时输入特定话语的情况下，不启动语音识别，并且用户应该再次说出唤醒字和话语的内容。该事实导致用户浪费时间和精力，并且可用性可能劣化。

因此，本公开提供一种可以改进与语音识别有关的可用性的语音处理装置、语音处理方法以及记录介质。

问题的解决方案

为了解决上述问题，根据本公开的语音处理装置包括：声音收集单元，被配置为收集语音并且将所收集的语音存储在语音存储单元中；检测单元，被配置为检测用于启动与语音相对应的预定功能的触发；以及执行单元，被配置为在通过检测单元检测到触发的情况下基于在检测到触发之前收集的语音来控制预定功能的执行。

发明的有利效果

利用根据本公开的语音处理装置、语音处理方法以及记录介质，可以改进与语音识别有关的可用性。本文所述的效果不受限制，并且可以采用本文所述的任意效果。

附图说明

[图1]是示出根据本公开的第一实施方式的信息处理的概要的示图。

[图2]是示出根据本公开的第一实施方式的语音处理系统的配置示例的示图。

[图3]是示出根据本公开的第一实施方式的处理过程的流程图。

[图4]是示出根据本公开的第二实施方式的语音处理系统的配置示例的示图。

[图5]是示出根据本公开的第二实施方式的所提取的话语数据的示例的示图。

[图6]是示出根据本公开的第二实施方式的处理过程的流程图。

[图7]是示出根据本公开的第三实施方式的语音处理系统的配置示例的示图。

[图8]是示出根据本公开的第四实施方式的语音处理装置的配置示例的示图。

[图9]是示出实现智能扬声器的功能的计算机的示例的硬件配置图。

具体实施方式

以下基于附图详细描述本公开的实施方式。在以下实施方式中，以相同的参考数字表示相同的部分，并且将不重复多余的描述。

(1.第一实施方式)

[1-1.根据第一实施方式的信息处理的概要]

图1是示出根据本公开的第一实施方式的信息处理的概要的示图。通过图1所示的语音处理系统1执行根据本公开的第一实施方式的信息处理。如图1所示，语音处理系统1包括智能扬声器10和信息处理服务器100。

智能扬声器10是根据本公开的语音处理装置的示例。智能扬声器10是所谓的物联网(IoT)设备，并且与信息处理服务器100协作执行各种信息处理。例如，在一些情况下，智能扬声器10可以被称为代理设备。在一些情况下，由智能扬声器10执行的语音识别、使用语音的响应处理等可以被称为代理功能。具有代理功能的代理设备不限于智能扬声器10，并且可以是智能手机、平板终端等。在这种情况下，智能手机和平板终端执行具有与智能扬声器10的功能相同的功能的计算机程序(应用)，以表现上述代理功能。

在第一实施方式中，智能扬声器10对所收集的语音执行响应处理。例如，智能扬声器10识别来自用户的问题，并且通过语音输出问题的答案。在图1的示例中，假设智能扬声器10被安装在用户U01、用户U02以及用户U03(作为使用智能扬声器10的用户的示例)居住的房屋中。在以下描述中，在不需要用户U01、用户U02以及用户U03彼此区分的情况下，用户被简单地并且统称为“用户”。

例如，智能扬声器10可以包括不仅用于收集房屋中所产生的声音，而且还用于获取其他各种信息的各种传感器。例如，除麦克风之外，智能扬声器10还可以包括用于获取空间的相机、检测照度的照度传感器、检测倾斜度的陀螺仪传感器、检测对象的红外传感器等。

图1所示的信息处理服务器100是所谓的云服务器，其与智能扬声器10协作执行信息处理的服务器装置。信息处理服务器100获取通过智能扬声器10收集的语音、分析所获取的语音并且生成与所分析的语音相对应的响应。然后，信息处理服务器100将所生成的响应发送至智能扬声器10。例如，信息处理服务器100生成对由用户发出的问题的响应，或执行用于检索由用户请求的乐曲并且使智能扬声器10输出所检索的语音的控制处理。各种已知的技术可以用于由信息处理服务器100执行的响应处理。

在使诸如智能扬声器10的代理设备执行如上所述的语音识别和响应处理的情况下，需要用户向代理设备给出特定的触发。例如，在发出请求或问题之前，用户应给出特定的触发，诸如，发出用于启动代理功能的指定字(在下文中称为“唤醒字”)或注视代理设备的相机。例如，当在用户发出唤醒字之后从用户接收到问题时，智能扬声器10通过语音输出该问题的答案。由此，不需要智能扬声器10始终将语音发送至信息处理服务器100或者执行算法处理，使得可以减少处理负荷。当用户不想要响应时，可以防止用户落入从智能扬声器10输出不必要的答案的情况。

然而，在一些情况下，上述常规处理可能降低可用性。例如，在向代理设备做出特定请求的情况下，用户应当执行中断与周围人持续的对话、发出唤醒字并且此后提出问题的过程。在用户忘记说出唤醒字的情况下，用户应再次说出唤醒字和请求的整个句子。以这种方式，在常规处理中，不能灵活地使用代理功能，并且可用性可能降低。

因此，根据本公开的智能扬声器10通过下面描述的信息处理解决现有技术的问题。具体地，即使在用户在发出请求或问题的话语之后发出唤醒字的情况下，智能扬声器10也能够通过返回至在唤醒字之前由用户发出的语音来解决问题或请求。由此，即使在用户忘记说出唤醒字的情况下，也不需要用户再次说出唤醒字，使得用户可以毫无压力地使用由智能扬声器10执行的响应处理。以下参考图1按照过程描述根据本公开的信息处理的概要。

如图1所示，智能扬声器10收集用户U01、用户U02以及用户U03的日常对话。此时，智能扬声器10在预定时间(例如，1分钟)内临时存储所收集的语音。即，智能扬声器10缓冲所收集的语音，并且重复累积和删除与预定时间相对应的语音。

另外，智能扬声器10在继续收集语音的处理的同时执行检测用于启动与语音相对应的预定功能的触发的处理。具体地，智能扬声器10确定所收集的语音是否包括唤醒字，并且在确定所收集的语音包括唤醒字的情况下，智能扬声器10检测唤醒字。在图1的示例中，假设设置给智能扬声器10的唤醒字是“计算机”。

在图1所示的示例中，智能扬声器10收集用户U01的话语A01(诸如“这个地方怎么样？”)和用户U02的话语A02(诸如“什么样的地方是XX水族馆？”)，并且缓冲所收集的语音(步骤S01)。此后，智能扬声器10从话语A02之后由用户U02发出的“嘿，“计算机”？”的话语A03检测唤醒字“计算机”(步骤S02)。

智能扬声器10执行用于执行通过检测唤醒字“计算机”而触发的预定功能的控制。在图1的示例中，智能扬声器10将话语A01和话语A02作为在检测到唤醒字之前收集的语音发送至信息处理服务器100(步骤S03)。

信息处理服务器100基于所发送的语音生成响应(步骤S04)。具体地，信息处理服务器100对所发送的话语A01和话语A02执行语音识别，并且基于与每个话语相对应的文本执行语义分析。然后，信息处理服务器100生成适合于所分析的含义的响应。在图1的示例中，信息处理服务器100识别“什么样的地方是XX水族馆？”的话语A02是用于使“XX水族馆”的内容(属性)被检索的请求，并且对“XX水族馆”执行网页检索。然后，信息处理服务器100基于所检索的内容生成响应。具体地，信息处理服务器100生成用于将所检索的内容作为语音输出的语音数据作为响应。然后，信息处理服务器100将所生成的响应的内容发送至智能扬声器10(步骤S05)。

智能扬声器10输出从信息处理服务器100接收的内容作为语音。具体地，智能扬声器10输出包括诸如“基于网页检索，XX水族馆是…”的内容的响应语音R01。

以这种方式，根据第一实施方式的智能扬声器10收集语音，并且将所收集的语音存储(缓冲)在语音存储单元中。智能扬声器10还检测用于启动与语音相对应的预定功能的触发(唤醒字)。在检测到触发的情况下，智能扬声器10基于在检测到触发之前收集的语音来控制预定功能的执行。例如，智能扬声器10通过将在检测到触发之前收集的语音发送至信息处理服务器100来控制与语音相对应的预定功能的执行(在图1的示例中，用于检索包括在语音中的对象的检索功能)。

即，在通过唤醒字启动语音识别功能的情况下，智能扬声器10可以通过连续缓冲语音来做出与唤醒字之前的语音相对应的响应。换句话说，在检测到唤醒字之后，智能扬声器10不需要来自用户U01及其他人的语音输入，并且可以通过跟踪所缓冲的语音来执行响应处理。由此，智能扬声器10可以对由用户U01及其他人在对话期间所发出的偶然问题等做出适当的响应，而不使用户U01及其他人再次说出问题，使得可以改进与代理功能有关的可用性。

[1-2.根据第一实施方式的语音处理系统的配置]

接下来，以下描述作为执行根据第一实施方式的信息处理的语音处理装置的示例的包括信息处理服务器100和智能扬声器10的语音处理系统1的配置。图2是示出根据本公开的第一实施方式的语音处理系统1的配置示例的示图。如图2所示，语音处理系统1包括智能扬声器10和信息处理服务器100。

如图2所示，智能扬声器10包括处理单元，该处理单元包括声音收集单元12、检测单元13以及执行单元14。执行单元14包括发送单元15、接收单元16以及响应再现单元17。例如，当通过中央处理单元(CPU)、微处理单元(MPU)等使用随机访问存储器(RAM)等作为工作区域来执行存储在智能扬声器10中的计算机程序(例如，记录在根据本公开的记录介质中的语音处理程序)时，实现每个处理单元。每个处理单元可以例如通过诸如专用集成电路(ASIC)和现场可编程门阵列(FPGA)的集成电路来实现。

声音收集单元12通过控制包括在智能扬声器10中的传感器11来收集语音。传感器11例如是麦克风。传感器11可以具有检测与用户的动作有关的各种信息(诸如用户身体的取向、倾斜度、移动、移动速度等)的功能。即，传感器11可以是对用户或外围环境成像的相机、感测用户的存在的红外传感器等。

声音收集单元12收集语音并且将所收集的语音存储在语音存储单元中。具体地，声音收集单元12将所收集的语音临时存储在作为语音存储单元的示例的语音缓冲单元20中。语音缓冲单元20例如通过诸如RAM和闪存的半导体存储元件、诸如硬盘和光盘的存储装置等来实现。

声音收集单元12可以预先接收关于要存储在语音缓冲单元20中的语音的信息量的设置。例如，声音收集单元12从用户接收存储与特定时间相对应的语音作为缓冲的设置。然后，声音收集单元12接收要存储在语音缓冲单元20中的语音的信息量的设置，并且将在所接收的设置的范围内收集的语音存储在语音缓冲单元20中。由此，声音收集单元12可以在用户所期望的存储容量的范围内缓冲语音。

在接收用于删除存储在语音缓冲单元20中的语音的请求的情况下，声音收集单元12可以删除存储在语音缓冲单元20中的语音。例如，在一些情况下，出于隐私，用户可能期望防止过去的语音存储在智能扬声器10中。在这种情况下，在从用户接收到与所缓冲的语音的删除有关的操作之后，智能扬声器10删除所缓冲的语音。

检测单元13检测用于启动与语音相对应的预定功能的触发。具体地，检测单元13对通过声音收集单元12收集的语音执行语音识别作为触发，并且检测作为用于启动预定功能的触发的语音的唤醒字。预定功能包括诸如由智能扬声器10执行的语音识别处理、由信息处理服务器100执行的响应生成处理以及由智能扬声器10执行的语音输出处理的各种功能。

在通过检测单元13检测到触发的情况下，执行单元14基于在检测到触发之前收集的语音来控制预定功能的执行。如图2所示，执行单元14基于由包括发送单元15、接收单元16以及响应再现单元17的每个处理单元执行的处理来控制预定功能的执行。

发送单元15经由有线或无线网络等发送各种信息。例如，在检测到唤醒字的情况下，发送单元15将在检测到唤醒字之前收集的语音(即，在语音缓冲单元20中缓冲的语音)发送至信息处理服务器100。发送单元15不仅可以将所缓冲的语音发送至信息处理服务器100，而且还可以将检测到唤醒字之后所收集的语音发送至信息处理服务器100。

接收单元16接收由信息处理服务器100生成的响应。例如，在通过发送单元15发送的语音与问题有关的情况下，接收单元16接收由信息处理服务器100生成的答案作为响应。接收单元16可以接收语音数据或文本数据作为响应。

响应再现单元17执行用于再现由接收单元16接收的响应的控制。例如，响应再现单元17执行控制以使具有语音输出功能的输出单元18(例如，扬声器)通过语音输出响应。在输出单元18是显示器的情况下，响应再现单元17可以执行用于使在显示器上显示所接收的响应作为文本数据的控制处理。

在通过检测单元13检测到触发的情况下，执行单元14可以使用在检测到触发之前收集的语音以及在检测到触发之后收集的语音来控制预定功能的执行。

随后，以下描述信息处理服务器100。如图2所示，信息处理服务器100包括处理单元，该处理单元包括存储单元120、获取单元131、语音识别单元132、语义分析单元133、响应生成单元134以及发送单元135。

存储单元120例如通过诸如RAM和闪存的半导体存储元件、诸如硬盘和光盘的存储装置等来实现。存储单元120存储用于响应从智能扬声器10获取的语音的定义信息等。例如，存储单元120存储诸如用于确定语音是否与问题有关的确定模型、作为检索用于响应问题的答案的目的地的检索服务器的地址等的各种信息。

例如，当通过CPU、MPU等使用RAM等作为工作区域来执行存储在信息处理服务器100中的计算机程序时，实现诸如获取单元131的每个处理单元。每个处理单元还可以例如通过诸如ASIC和FPGA的集成电路来实现。

获取单元131获取从智能扬声器10发送的语音。例如，在通过智能扬声器10检测到唤醒字的情况下，获取单元131从智能扬声器10获取在检测到唤醒字之前缓冲的语音。获取单元131还可以实时地从智能扬声器10获取在检测到唤醒字之后由用户发出的语音。

语音识别单元132将通过获取单元131获取的语音转换为字符串。语音识别单元132还可以并行地处理在检测到唤醒字之前缓冲的语音和在检测到唤醒字之后获取的语音。

语义分析单元133基于由语音识别单元132识别的字符串来分析来自用户的请求或问题的内容。例如，语义分析单元133参考存储单元120，并且基于存储在存储单元120中的定义信息等来分析由字符串表示的请求或问题的内容。具体地，语义分析单元133基于字符串指定来自用户的请求的内容，诸如“请告诉我特定对象是什么”、“请在日历应用中登记日程”以及“请播放指定艺术家的乐曲”。然后，语义分析单元133将所指定的内容传递至响应生成单元134。

例如，在图1的示例中，语义分析单元133根据与在唤醒字之前由用户U02发出的“什么样的地方是XX水族馆？”的语音相对应的字符串来分析用户U02的意图，诸如“我想知道什么是XX水族馆”。即，语义分析单元133执行与用户U02发出唤醒字之前的话语相对应的语义分析。由此，语义分析单元133可以遵循用户U02的意图做出响应，而不会在用户U02发出“计算机”作为唤醒字之后使用户U02再次提出相同的问题。

在不能基于字符串分析用户的意图的情况下，语义分析单元133可以将该事实传递至响应生成单元134。例如，在包括不能从用户的话语估计的信息作为分析结果的情况下，语义分析单元133将该内容传递至响应生成单元134。在这种情况下，响应生成单元134可以生成用于请求用户再次准确地发出不清楚的信息的响应。

响应生成单元134根据由语义分析单元133分析的内容来生成对用户的响应。例如，响应生成单元134获取与所分析的请求的内容相对应的信息，并且生成诸如要作为响应的措辞的响应的内容。响应生成单元134可以根据问题或请求的内容对用户的话语生成“什么都不做”的响应。响应生成单元134将所生成的响应传递至发送单元135。

发送单元135将由响应生成单元134生成的响应发送至智能扬声器10。例如，发送单元135将由响应生成单元134生成的字符串(文本数据)和语音数据发送至智能扬声器10。

[1-3.根据第一实施方式的信息处理过程]

接下来，以下参考图3描述根据第一实施方式的信息处理过程。图3是示出根据本公开的第一实施方式的处理过程的流程图。具体地，参考图3，以下描述由根据第一实施方式的智能扬声器10执行的处理过程。

如图3所示，智能扬声器10收集周围的语音(步骤S101)。然后，智能扬声器10将所收集的语音存储在语音存储单元(语音缓冲单元20)中(步骤S102)。即，智能扬声器10缓冲语音。

此后，智能扬声器10确定是否在所收集的语音中检测到唤醒字(步骤S103)。如果未检测到唤醒字(在步骤S103中为否)，则智能扬声器10继续收集周围的语音。另一方面，如果检测到唤醒字(在步骤S103中为是)，则智能扬声器10将在唤醒字之前缓冲的语音发送至信息处理服务器100(步骤S104)。智能扬声器10还可以继续将在所缓冲的语音发送至信息处理服务器100之后收集的语音发送至信息处理服务器100。

此后，智能扬声器10确定是否从信息处理服务器100接收到响应(步骤S105)。如果未接收到响应(在步骤S105中为否)，则智能扬声器10待机直至接收到响应为止。

另一方面，如果接收到响应(在步骤S105中为是)，则智能扬声器10通过语音等输出所接收的响应(步骤S106)。

[1-4.根据第一实施方式的修改]

在上述第一实施方式中，描述了智能扬声器10检测由用户发出的唤醒字作为触发的示例。然而，触发并不限于唤醒字。

例如，在智能扬声器10包括相机作为传感器11的情况下，智能扬声器10可以对通过对用户成像而获得的图像执行图像识别，并且从所识别的信息检测触发。例如，智能扬声器10可以检测用户注视智能扬声器10的视线。在这种情况下，智能扬声器10可以通过使用与视线检测有关的各种已知技术来确定用户是否正在注视智能扬声器10。

在确定用户正在注视智能扬声器10的情况下，智能扬声器10确定用户期望来自智能扬声器10的响应，并且将所缓冲的语音发送至信息处理服务器100。通过这样的处理，智能扬声器10可以基于在用户将他/她的眼睛转向之前由用户发出的语音做出响应。以这种方式，智能扬声器10可以通过根据用户的视线执行响应处理而在用户发出唤醒字之前掌握用户的意图的同时执行处理，使得可以进一步改进可用性。

在智能扬声器10包括红外传感器等作为传感器11的情况下，智能扬声器10可以检测通过感测用户的预定动作或距用户的距离而获得的信息作为触发。例如，智能扬声器10可以感测用户接近距智能扬声器10的预定距离(例如，1米)的范围，并且检测到该接近动作作为用于语音响应处理的触发。可选地，例如，智能扬声器10可以检测到用户从预定距离的范围之外接近智能扬声器10并且面向智能扬声器10的事实。在这种情况下，智能扬声器10可以通过使用与用户的动作的检测有关的各种已知技术来确定用户接近智能扬声器10或用户面向智能扬声器10。

然后，智能扬声器10感测用户的预定动作或距用户的距离，并且在所感测的信息满足预定条件的情况下，确定用户期望来自智能扬声器10的响应，并且将所缓冲的语音发送至信息处理服务器100。通过这样的处理，智能扬声器10可以基于在用户执行预定动作等之前发出的语音来做出响应。以这种方式，智能扬声器10可以通过在基于用户的动作估计用户期望响应的同时执行响应处理来进一步改进可用性。

(2.第二实施方式)

[2-1.根据第二实施方式的语音处理系统的配置]

接下来，以下描述第二实施方式。具体地，以下描述了当根据第二实施方式的智能扬声器10A缓冲所收集的语音时仅提取要缓冲的话语的处理。

图4是示出根据本公开的第二实施方式的语音处理系统2的配置示例的示图。如图4所示，与第一实施方式相比，根据第二实施方式的智能扬声器10A进一步包括所提取的话语数据21。将不重复关于与根据第一实施方式的智能扬声器10的配置相同的配置的描述。

所提取的话语数据21是通过仅提取在语音缓冲单元20中缓冲的语音中被估计为与用户的话语有关的语音而获得的数据库。即，根据第二实施方式的声音收集单元12收集语音，从所收集的语音中提取话语，并且将所提取的话语存储在语音缓冲单元20的所提取的话语数据21中。声音收集单元12可以使用诸如语音区间检测、扬声器指定处理等各种已知技术从所收集的语音中提取话语。

图5示出了根据第二实施方式的所提取的话语数据21的示例。图5是示出根据本公开的第二实施方式的所提取的话语数据21的示例的示图。在图5所示的示例中，所提取的话语数据21包括诸如“语音文件ID”、“缓冲设置时间”、“话语提取信息”、“语音ID”、“所获取的日期和时间”、“用户ID”以及“话语”的项。

“语音文件ID”指示用于识别所缓冲的语音的语音文件的识别信息。“缓冲设置时间”指示要缓冲的语音的时间长度。“话语提取信息”指示关于从所缓冲的语音中提取的话语的信息。“语音ID”指示用于识别语音(话语)的识别信息。“所获取的日期和时间”指示获取语音时的日期和时间。“用户ID”指示用于识别发出话语的用户的识别信息。在不能指定发出话语的用户的情况下，智能扬声器10A不必注册关于用户ID的信息。“话语”指示话语的指定内容。图5示出了这样的示例，在该示例中，存储具体的字符串作为用于说明的话语的项，但是可以存储与话语有关的语音数据或用于指定话语的时间数据(指示话语的起点和终点的信息)作为话语的项。

以这种方式，根据第二实施方式的智能扬声器10A可以仅从所缓冲的语音中提取并且存储话语。由此，智能扬声器10A可以仅缓冲响应处理所需的语音，并且可以删除其他语音或省略将语音发送至信息处理服务器100，使得可以减少处理负荷。通过预先提取话语并且将语音发送至信息处理服务器100，智能扬声器10A可以减少由信息处理服务器100执行的处理的负担。

通过存储由识别发出话语的用户而获得的信息，智能扬声器10A还可以确定所缓冲的话语是否与发出唤醒字的用户匹配。

在这种情况下，在通过检测单元13检测到唤醒字的情况下，执行单元14可以从存储在所提取的话语数据21中的话语中提取与发出唤醒字的用户相同的用户的话语，并且基于所提取的话语来控制预定功能的执行。例如，执行单元14可以从所缓冲的语音中仅提取由与发出唤醒字的用户相同的用户发出的话语，并且将该话语发送至信息处理服务器100。

例如，在使用所缓冲的语音做出响应的情况下，当使用除发出唤醒字的用户的话语之外的话语时，可以做出实际发出唤醒字的用户所不期望的响应。因此，通过仅将所缓冲的语音中与发出唤醒字的用户相同的用户的话语发送至信息处理服务器100，执行单元14可以使生成用户所期望的适当响应。

执行单元14不必需要仅发送由与发出唤醒字的用户相同的用户发出的话语。即，在通过检测单元13检测到唤醒字的情况下，执行单元14可以从存储在所提取的话语数据21中的话语中提取与发出唤醒字的用户相同的用户的话语和预先注册的预定用户的话语，并且基于所提取的话语来控制预定功能的执行。

例如，在一些情况下，诸如智能扬声器10A的代理设备具有预先注册诸如家庭的用户的功能。在具有这样的功能的情况下，即使在与发出唤醒字的用户不同的用户发出话语时，只要话语是由预先注册的用户发出，智能扬声器10A就可以在检测到唤醒字时将话语发送至信息处理服务器100。在图5的示例中，当用户U01是预先注册的用户时，在用户U02发出唤醒字“计算机”的情况下，智能扬声器10A不仅可以将用户U02的话语发送至信息处理服务器100，而且还可以将用户U01的话语发送至信息处理服务器100。

[2-2.根据第二实施方式的信息处理过程]

接下来，以下参考图6描述根据第二实施方式的信息处理过程。图6是示出根据本公开的第一实施方式的处理过程的流程图。具体地，参考图6，以下描述由根据第一实施方式的智能扬声器10A执行的处理过程。

如图6所示，智能扬声器10A收集周围的语音(步骤S201)。然后，智能扬声器10A将所收集的语音存储在语音存储单元(语音缓冲单元20)中(步骤S202)。

另外，智能扬声器10A从所缓冲的语音中提取话语(步骤S203)。然后，智能扬声器10A删除除所提取的话语之外的语音(步骤S204)。由此，智能扬声器10A可以适当地确保用于缓冲的存储容量。

此外，智能扬声器10A确定是否可以识别发出话语的用户(步骤S205)。例如，智能扬声器10A基于在注册用户时生成的用户识别模型来识别发出语音的用户，以识别发出话语的用户。

如果可以识别发出话语的用户(在步骤S205中为是)，则智能扬声器10A将该话语的用户ID注册在所提取的话语数据21中(步骤S206)。另一方面，如果不能识别发出话语的用户(在步骤S205中为否)，则智能扬声器10A不能将该话语的用户ID注册在所提取的话语数据21中(步骤S207)。

此后，智能扬声器10A确定是否在所收集的语音中检测到唤醒字(步骤S208)。如果未检测到唤醒字(在步骤S208中为否)，则智能扬声器10A继续收集周围的语音。

另一方面，如果检测到唤醒字(在步骤S208中为是)，则智能扬声器10A确定是否缓冲发出唤醒字的用户的话语(或注册在智能扬声器10A中的用户的话语)(步骤S209)。如果缓冲发出唤醒字的用户的话语(在步骤S209中为是)，则智能扬声器10A将在唤醒字之前缓冲的用户的话语发送至信息处理服务器100(步骤S210)。

另一方面，如果未缓冲发出唤醒字的用户的话语(在步骤S210中为否)，则智能扬声器10A不发送在唤醒字之前缓冲的语音，而是将在唤醒字之后收集的语音发送至信息处理服务器100(步骤S211)。由此，智能扬声器10A可以防止基于除发出唤醒字的用户之外的用户过去发出的语音来生成响应。

此后，智能扬声器10A确定是否从信息处理服务器100接收到响应(步骤S212)。如果未接收到响应(在步骤S212中为否)，则智能扬声器10A待机直至接收到响应为止。

另一方面，如果接收到响应(在步骤S212中为是)，则智能扬声器10A通过语音等输出所接收的响应(步骤S213)。

(3.第三实施方式)

接下来，以下描述第三实施方式。具体地，以下描述由根据第三实施方式的智能扬声器10B执行的预定通知用户的处理。

图7是示出根据本公开的第三实施方式的语音处理系统3的配置示例的示图。如图7所示，与第一实施方式相比，根据第三实施方式的智能扬声器10B进一步包括通知单元19。将不重复关于与根据第一实施方式的智能扬声器10和根据第二实施方式的智能扬声器10A的组件相同的组件的描述。

在执行单元14使用在检测到触发之前收集的语音来控制预定功能的执行的情况下，通知单元19通知用户。

如上所述，根据本公开的智能扬声器10B和信息处理服务器100基于所缓冲的语音执行响应处理。基于在唤醒字之前发出的语音来执行这样的处理，使得可以防止用户花费过多的时间和精力。然而，可以使用户关于多久之前发出基于其执行处理的语音是焦虑的。即，因为总是收集到生活声音，因此使用缓冲器的语音响应处理可能使用户关于是否侵犯隐私是焦虑的。即，这样的技术具有应该减少用户的焦虑的问题。另一方面，智能扬声器10B可以通过由通知单元19执行的通知处理来预定通知用户以给用户带来安全感。

例如，在执行预定功能时，通知单元19在使用在检测到触发之前收集的语音的情况与使用在检测到触发之后收集的语音的情况之间以不同模式进行通知。例如，在通过使用所缓冲的语音来执行响应处理的情况下，通知单元19执行控制，使得从智能扬声器10B的外表面发射红光。在通过使用唤醒字之后的语音来执行响应处理的情况下，通知单元19执行控制，使得从智能扬声器10B的外表面发射蓝光。由此，用户可以基于所缓冲的语音或基于唤醒字之后由他/她自己发出的语音来识别是否对他/她自己做出响应。

通知单元19可以以进一步不同的模式进行通知。具体地，在执行预定功能时使用在检测到触发之前收集的语音的情况下，通知单元19可以将与所使用的语音相对应的日志通知用户。例如，通知单元19可以将实际用于响应的语音转换为要显示在包括在智能扬声器10B中的外部显示器上的字符串。参考图1作为示例，通知单元19在外部显示器上显示字符串“XX水族馆在哪里？”并且将响应语音R01与该显示一起输出。由此，用户可以准确地识别哪个话语用于处理，使得用户可以从隐私保护的角度获取安全感。

通知单元19可以经由预定装置显示用于响应的字符串，而不是在智能扬声器10B上显示字符串。例如，在所缓冲的语音用于处理的情况下，通知单元19可以将与用于处理的语音相对应的字符串发送至诸如预先注册的智能手机的终端。由此，用户可以准确地掌握哪个语音用于处理并且哪个字符串不用于处理。

通知单元19还可以进行指示是否发送所缓冲的语音的通知。例如，在未检测到触发并且未发送语音的情况下，通知单元19执行控制以输出指示该事实的显示(例如，输出蓝色光)。另一方面，在检测到触发、发送所缓冲的语音并且后续的语音用于执行预定功能的情况下，通知单元19执行控制以输出指示该事实的显示(例如，输出红色光)。

通知单元19还可以从接收通知的用户接收反馈。例如，在进行使用所缓冲的语音的通知之后，通知单元19从用户接收建议使用诸如“不，使用更旧的话语”的进一步先前的话语的语音。在这种情况下，例如，执行单元14可以执行预定的学习处理，诸如延长缓冲时间或增加被发送至信息处理服务器100的话语的数量。即，执行单元14可以基于用户对预定功能的执行的反应调整在检测到触发之前收集并且用于执行预定功能的语音的信息量。由此，智能扬声器10B可以执行更适于用户的使用模式的响应处理。

(4.第四实施方式)

接下来，以下描述第四实施方式。从第一实施方式至第三实施方式，信息处理服务器100生成响应。然而，作为根据第四实施方式的语音处理装置的示例的智能扬声器10C通过自身生成响应。

图8是示出根据本公开的第四实施方式的语音处理装置的配置示例的示图。如图8所示，作为根据第四实施方式的语音处理装置的示例的智能扬声器10C包括执行单元30和响应信息存储单元22。

执行单元30包括语音识别单元31、语义分析单元32、响应生成单元33以及响应再现单元17。语音识别单元31与第一实施方式中所描述的语音识别单元132相对应。语义分析单元32与第一实施方式中所描述的语义分析单元133相对应。响应生成单元33与第一实施方式中所描述的响应生成单元134相对应。响应信息存储单元22与存储单元120相对应。

智能扬声器10C通过自身执行由根据第一实施方式的信息处理服务器100执行的响应生成处理。即，智能扬声器10C独立执行根据本公开的信息处理，而不使用外部服务器装置等。由此，根据第四实施方式的智能扬声器10C可以以简单的系统配置实现根据本公开的信息处理。

(5.其他实施方式)

可以以除上述实施方式之外的各种不同的形式执行根据上述相应实施方式的处理。

例如，根据本公开的语音处理装置可以实现为智能手机的功能等，而不是诸如智能扬声器10的单机应用。根据本公开的语音处理装置还可以以安装在信息处理终端中的IC芯片等的模式来实现。

在相应实施方式的上述处理中，还可以手动执行被描述为自动执行的处理的全部或一部分，或者还可以使用公知的方法自动执行被描述为手动执行的处理的全部或一部分。另外，除非另有具体说明，否则可以可选地改变包括本文描述并且在附图中示出的处理过程、具体名称、各种数据以及参数的信息。例如，附图中所示的各种信息不限于附图所示的信息。

附图中所示的装置的组件仅是概念性的，并且不必需要如所示出的那样物理地配置组件。即，装置的分布和集成的具体形式不限于附图中所示的形式。根据各种负荷或使用状态，其全部或部分可以在功能上或物理上以任意单元分布/集成。例如，图2所示的接收单元16和响应再现单元17可以彼此集成。

上述实施方式和修改可以在不与处理内容矛盾的情况下进行适当的组合。

本文描述的效果仅是示例，并且效果不限于此。可以表现出其他效果。

(6.硬件配置)

例如，通过具有图9所示的配置的计算机1000实现诸如根据上述实施方式的信息处理服务器100或智能扬声器10的信息装置。以下举例说明根据第一实施方式的智能扬声器10。图9是示出实现智能扬声器10的功能的计算机1000的示例的硬件配置图。计算机1000包括CPU 1100、RAM 1200、只读存储器(ROM)1300、硬盘驱动器(HDD)1400、通信接口1500以及输入/输出接口1600。计算机1000的相应部件经由总线1050彼此连接。

CPU 1100基于存储在ROM 1300或HDD 1400中的计算机程序进行操作，并且控制相应部件。例如，CPU 1100将存储在ROM 1300或HDD 1400中的计算机程序加载到RAM 1200中，并且执行与各种计算机程序相对应的处理。

ROM 1300存储诸如在计算机1000启动时由CPU 1100执行的基本输入输出系统(BIOS)的引导程序、取决于计算机1000的硬件的计算机程序等。

HDD 1400是非临时记录由CPU 1100执行的计算机程序、由该计算机程序使用的数据等的计算机可读记录介质。具体地，HDD 1400是记录作为程序数据1450的示例的根据本公开的语音处理程序的记录介质。

通信接口1500是用于连接计算机1000与外部网络1550(例如，因特网)的接口。例如，CPU 1100从另一设备接收数据，或经由通信接口1500将由CPU 1100生成的数据发送至另一设备。

输入/输出接口1600是用于连接输入/输出装置1650与计算机1000的接口。例如，CPU 1100经由输入/输出接口1600从诸如键盘和鼠标的输入装置接收数据。CPU 1100经由输入/输出接口1600将数据发送至诸如显示器、扬声器以及打印机的输出装置。输入/输出接口1600可以用作读取记录在预定记录介质(介质)中的计算机程序等的介质接口。介质的示例包括诸如数字通用盘(DVD)和相变可重写盘(PD)的光学记录介质、诸如磁光盘(MO)的磁光记录介质、磁带介质、磁记录介质、半导体存储器等。

例如，在计算机1000用作根据第一实施方式的智能扬声器10的情况下，计算机1000的CPU 1100执行被加载至RAM 1200中的语音处理程序，以实现声音收集单元12的功能等。HDD 1400将根据本公开的语音处理程序以及数据存储在语音缓冲单元20中。CPU 1100从HDD 1400中读取要执行的程序数据1450。可选地，作为另一示例，CPU 1100可以经由外部网络1550从另一装置获取这些计算机程序。

本技术可以采用以下配置。

(1)

一种语音处理装置，包括：

声音收集单元，被配置为收集语音并且将所收集的语音存储在语音存储单元中；

检测单元，被配置为检测用于启动与语音相对应的预定功能的触发；以及

执行单元，被配置为在通过检测单元检测到触发的情况下基于在检测到触发之前收集的语音来控制预定功能的执行。

(2)

根据(1)的语音处理装置，其中，检测单元对通过声音收集单元收集的语音执行语音识别作为触发，并且检测作为用于启动预定功能的触发的语音的唤醒字。

(3)

根据(1)或(2)的语音处理装置，其中，声音收集单元从所收集的语音中提取话语，并且将所提取的话语存储在语音存储单元中。

(4)

根据(3)的语音处理装置，其中，在通过检测单元检测到唤醒字的情况下，执行单元从存储在语音存储单元中的话语中提取与发出唤醒字的用户相同的用户的话语，并且基于所提取的话语来控制预定功能的执行。

(5)

根据(4)的语音处理装置，其中，在通过检测单元检测到唤醒字的情况下，执行单元从存储在语音存储单元中的话语中提取与发出唤醒字的用户相同的用户的话语和预先注册的预定用户的话语，并且基于所提取的话语来控制预定功能的执行。

(6)

根据(1)至(5)中任一项的语音处理装置，其中，声音收集单元接收关于要存储在语音存储单元中的语音的信息量的设置，并且将在所接收的设置的范围内收集的语音存储在语音存储单元中。

(7)

根据(1)至(6)中任一项的语音处理装置，其中，在接收用于删除存储在语音存储单元中的语音的请求的情况下，声音收集单元删除存储在语音存储单元中的语音。

(8)

根据(1)至(7)中任一项的语音处理装置，进一步包括：

通知单元，被配置为在通过执行单元使用在检测到触发之前收集的语音来控制预定功能的执行的情况下通知用户。

(9)

根据(8)的语音处理装置，其中，通知单元在使用检测到触发之前收集的语音的情况与使用在检测到触发之后收集的语音的情况之间以不同的模式进行通知。

(10)

根据(8)或(9)的语音处理装置，其中，在使用在检测到触发之前收集的语音的情况下，通知单元将与所使用的语音相对应的日志通知用户。

(11)

根据(1)至(10)中任一项的语音处理装置，其中，在通过检测单元检测到触发的情况下，执行单元使用在检测到触发之前收集的语音和在检测到触发之后收集的语音来控制预定功能的执行。

(12)

根据(1)至(11)中任一项的语音处理装置，其中，执行单元基于用户对预定功能的执行的反应调整在检测到触发之前收集并且用于执行预定功能的语音的信息量。

(13)

根据(1)至(12)中任一项的语音处理装置，其中，检测单元对通过对用户成像而获得的图像执行图像识别作为触发，并且检测用户的注视视线。

(14)

根据(1)至(13)中任一项的语音处理装置，其中，检测单元检测通过感测用户的预定动作或距用户的距离而获得的信息作为触发。

(15)

一种由计算机执行的语音处理方法，该语音处理方法包括：

收集语音并且将所收集的语音存储在语音存储单元中；

检测用于启动与语音相对应的预定功能的触发；并且

在检测到触发的情况下基于在检测到触发之前收集的语音来控制预定功能的执行。

(16)

一种记录用于使计算机用作下列项的语音处理程序的计算机可读非易失性记录介质：

参考标记列表

1、2、3 语音处理系统

10、10A、10B、10C 智能扬声器

100 信息处理服务器

12 声音收集单元

13 检测单元

14、30 执行单元

15 发送单元

16 接收单元

17 响应再现单元

18 输出单元

19 通知单元

20 语音缓冲单元

21 所提取的话语数据

22 响应信息存储单元。

Claims

1.一种语音处理装置，包括：

检测单元，被配置为检测用于启动与所述语音相对应的预定功能的触发；以及

执行单元，被配置为在通过所述检测单元检测到所述触发的情况下基于在检测到所述触发之前收集的语音来控制所述预定功能的执行。

2.根据权利要求1所述的语音处理装置，其中，所述检测单元对通过所述声音收集单元收集的所述语音执行语音识别作为所述触发，并且检测作为用于启动所述预定功能的所述触发的语音的唤醒字。

3.根据权利要求1所述的语音处理装置，其中，所述声音收集单元从所收集的语音中提取话语，并且将所提取的话语存储在所述语音存储单元中。

4.根据权利要求3所述的语音处理装置，其中，在通过所述检测单元检测到所述唤醒字的情况下，所述执行单元从存储在所述语音存储单元中的所述话语中提取与发出所述唤醒字的用户相同的所述用户的话语，并且基于所提取的话语来控制所述预定功能的执行。

5.根据权利要求4所述的语音处理装置，其中，在通过所述检测单元检测到所述唤醒字的情况下，所述执行单元从存储在所述语音存储单元中的所述话语中提取与发出所述唤醒字的所述用户相同的所述用户的所述话语和预先注册的预定用户的话语，并且基于所提取的话语来控制所述预定功能的执行。

6.根据权利要求1所述的语音处理装置，其中，所述声音收集单元接收关于要存储在所述语音存储单元中的所述语音的信息量的设置，并且将在所接收的设置的范围内收集的语音存储在所述语音存储单元中。

7.根据权利要求1所述的语音处理装置，其中，在接收用于删除存储在所述语音存储单元中的所述语音的请求的情况下，所述声音收集单元删除存储在所述语音存储单元中的所述语音。

8.根据权利要求1所述的语音处理装置，进一步包括：

通知单元，被配置为在通过所述执行单元使用在检测到所述触发之前收集的语音来控制所述预定功能的执行的情况下通知用户。

9.根据权利要求8所述的语音处理装置，其中，所述通知单元在使用在检测到所述触发之前收集的语音的情况与使用在检测到所述触发之后收集的语音的情况之间以不同的模式进行通知。

10.根据权利要求8所述的语音处理装置，其中，在使用在检测到所述触发之前收集的语音的情况下，所述通知单元将与所使用的语音相对应的日志通知所述用户。

11.根据权利要求1所述的语音处理装置，其中，在通过所述检测单元检测到所述触发的情况下，所述执行单元使用在检测到所述触发之前收集的语音和在检测到所述触发之后所收集的语音来控制所述预定功能的执行。

12.根据权利要求1所述的语音处理装置，其中，所述执行单元基于所述用户对所述预定功能的执行的反应调整在检测到所述触发之前收集并且用于执行所述预定功能的语音的信息量。

13.根据权利要求1所述的语音处理装置，其中，所述检测单元对通过对用户成像而获得的图像执行图像识别作为所述触发，并且检测所述用户的注视视线。

14.根据权利要求1所述的语音处理装置，其中，所述检测单元检测通过感测用户的预定动作或距所述用户的距离而获得的信息作为所述触发。

15.一种由计算机执行的语音处理方法，所述语音处理方法包括：

收集语音并且将所收集的语音存储在语音存储单元中；

检测用于启动与所述语音相对应的预定功能的触发；并且

在检测到所述触发的情况下基于在检测到所述触发之前收集的语音来控制所述预定功能的执行。

16.一种记录用于使计算机用作下列项的语音处理程序的计算机可读非易失性记录介质：