CN109785830B

CN109785830B - 信息处理装置

Info

Publication number: CN109785830B
Application number: CN201811307472.6A
Authority: CN
Inventors: 佐佐木悟
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-11-15
Filing date: 2018-11-05
Publication date: 2023-09-12
Anticipated expiration: 2038-11-05
Also published as: US10896677B2; JP2019090945A; JP6904225B2; US20190147872A1; CN109785830A

Abstract

一种信息处理装置包括：获取单元，其被配置成获取由用户发出的语音的语音数据；语音识别单元，其被配置成识别所获取的语音；确定单元，其被配置成根据从完成语音数据获取至开始输出基于语音识别结果生成的响应的时间来确定插入语的定时；以及输出单元，其被配置成在所确定的插入语的定时处输出插入语并且在开始输出响应时输出响应。

Description

信息处理装置

技术领域

本发明涉及输出关于用户的话语的响应的信息处理装置。

背景技术

语音识别终端装置在现有技术中是已知的(例如，参见日本未审查专利申请公开第2015-135420号(JP2015-135420 A))。语音识别终端装置针对用户发出桥接词(bridgeword)，该桥接词具有与从由用户发出的语音话语至从识别语音话语的远程服务器获得响应消息的等待时间期间的预测响应延迟时间对应的时间长度。

发明内容

上述技术没有考虑随着用户的话语的复杂度增加，服务器需要更多时间以创建响应消息。因此，依赖于用户的话语的内容，桥接词至响应消息等待时间可能变得过长，这可能导致用户方不适。

本发明提供了一种信息处理装置，利用该信息处理装置可以抑制由于过长的插入语(interjection)至响应时间引起的用户不适。

本发明的第一方面涉及一种包括获取单元、语音识别单元、确定单元和输出单元的信息处理装置。获取单元被配置成获取由用户发出的语音的语音数据。语音识别单元被配置成识别所获取的语音。确定单元被配置成根据从完成语音数据获取至开始输出基于语音识别结果生成的响应的时间来确定插入语的定时。输出单元被配置成在所确定的插入语的定时处输出插入语并且在开始输出响应的时刻输出响应。

根据上述第一方面，根据从语音数据获取完成至开始输出响应的时间长度来确定插入语定时，并且因此在响应生成花费时间的情况下，可以延迟插入语并且可以缩短从插入语至响应的时间长度。因此，可以抑制由于过长的插入语至响应时间引起的用户不适。

在根据上述第一方面的信息处理装置中，可以基于语音数据的数据大小或者语音识别结果的数据大小来确定从完成语音数据获取至开始输出响应所需的时间。

在根据上述第一方面的信息处理装置中，确定单元可以确定插入语的定时，使得从通过获取单元获取语音数据至通过输出单元输出插入语的时间短于从输出插入语至输出响应的时间。

在根据上述第一方面的信息处理装置中，确定单元可以随着语音数据的数据大小或语音识别结果的数据大小增加而延迟插入语的定时。

在根据上述第一方面的信息处理装置中，确定单元可以随着语音数据的数据大小或语音识别结果的数据大小增加而选择具有更大数据大小的插入语。

根据上述第一方面的信息处理装置还可以包括：第一存储单元，其被配置成存储关于预先假定的一个或更多个关键词的响应；以及第二存储单元，其被配置成存储插入语。在语音识别结果对应于关键词之一的情况下，信息处理装置可以从第一存储单元选择响应。

在根据上述第一方面的信息处理装置中，在语音识别结果与关键词不对应的情况下，信息处理装置可以将语音识别结果传输至基于语音识别结果创建关于语音的响应的服务器装置，并且从该服务器装置获取响应。

本发明的第二方面涉及一种包括获取单元、语音识别单元、通信单元、确定单元和输出单元的信息处理装置。获取单元被配置成获取由用户发出的语音的语音数据。语音识别单元被配置成识别所获取的语音。通信单元被配置成将语音识别结果传输至基于语音识别结果创建关于语音的响应的服务器装置并且从该服务器装置获取响应。确定单元被配置成在语音识别结果通过通信单元被传输至服务器装置的情况下，根据从完成语音数据获取至开始输出响应的时间来确定插入语的定时。输出单元被配置成在由确定单元确定的插入语的定时处输出插入语之后，在开始输出响应的时刻输出响应。

根据上述第一方面和第二方面，可以抑制由于过长的插入语至响应时间引起的用户不适。

附图说明

下面将参照附图描述本发明的示例性实施方式的特征、优点以及技术和工业意义，在附图中相似的附图标记表示相似的元件，并且在附图中：

图1是示出根据实施方式的信息处理系统的配置的框图；

图2是示出与图1中所示的信息处理装置有关的插入语和响应输出定时的示例的图；

图3是示出通过图1中所示的信息处理系统进行的处理的序列图；

图4是示出通过图1中所示的信息处理系统进行的另一处理的序列图；以及

图5是示出通过图1中所示的信息处理系统进行的又一处理的序列图。

具体实施方式

图1是示出根据实施方式的信息处理系统1的配置的框图。信息处理系统1用作与用户进行对话的对话系统。信息处理系统1被设置有机器人10、信息处理装置12、第一服务器装置14和第二服务器装置16。

机器人10是例如便携式小型机器人。机器人10用作语音输入-输出装置。用户的语音被输入至机器人10，并且机器人10将关于语音的响应的语音输出至用户。机器人10被设置有麦克风20、处理单元22、通信单元24、扬声器26和驱动单元28。

麦克风20获取由用户发出的语音，以及将语音的语音数据输出至处理单元22。处理单元22处理从麦克风20输出的语音数据，以及将处理后的语音数据输出至通信单元24。

通信单元24与信息处理装置12进行无线通信。无线通信的标准不受特别限制，还包括短距离无线通信技术例如蓝牙(注册商标)和蓝牙低功耗。通信单元24也可以与信息处理装置12进行有线通信。

通信单元24将从处理单元22输出的语音数据传输至信息处理装置12。如稍后所描述的，通信单元24从信息处理装置12接收关于由用户发出的语音的插入语和关于该语音的响应。文本数据等构成插入语和响应。通信单元24将所接收的插入语和响应输出至处理单元22。

处理单元22将从通信单元24输出的插入语和响应转换成语音数据，以及将由转换产生的语音数据输出至扬声器26。处理单元22基于通过通信单元24接收的插入语和响应生成驱动信号，以及将生成的驱动信号输出至驱动单元28。

扬声器26基于从处理单元22输出的语音数据来语音输出插入语和响应。驱动单元28基于从处理单元22输出的驱动信号来驱动机器人10的每个部分(未示出)例如其头部和臂部。例如，可以生成驱动信号使得在扬声器26输出插入语时通过驱动单元28驱动头部使机器人10点头。

信息处理装置12被设置有第一通信单元30、第二通信单元32、处理单元34、第一存储单元36和第二存储单元38。处理单元34被设置有第一获取单元50、第二获取单元52、第三获取单元54、语音识别单元56、响应选择单元58、插入语选择单元60、第一输出单元62、第二输出单元64和定时确定单元66。信息处理装置12被包括在智能电话、膝上型个人计算机、台式个人计算机等中。

第一通信单元30与机器人10的通信单元24进行无线通信。第一通信单元30从机器人10的通信单元24接收由用户发出的语音的语音数据。

第一获取单元50获取通过第一通信单元30接收的语音数据。第一获取单元50将获取的语音数据输出至语音识别单元56和第二通信单元32。

语音识别单元56基于从第一获取单元50输出的语音数据识别由用户发出的语音，以及将语音识别的结果输出至响应选择单元58。文本数据等构成语音识别结果。已知技术可以用于语音识别。

第二通信单元32与第一服务器装置14和第二服务器装置16进行无线通信。通过第二通信单元32进行的无线通信的标准不受特别限制，还包括例如第三代移动通信系统(3G)、第四代移动通信系统(4G)或第五代移动通信系统(5G)。第二通信单元32也可以经由基站(未示出)与第一服务器装置14和第二服务器装置16进行无线通信。第二通信单元32将从第一获取单元50输出的语音数据传输至第一服务器装置14。

第一服务器装置14接收从第二通信单元32传输的语音数据。第一服务器装置14基于接收的语音数据识别由用户发出的语音，以及将语音识别的结果传输至信息处理装置12。如上所述，第一服务器装置14用作语音识别装置。

第一服务器装置14的语音识别的准确度高于信息处理装置12的语音识别单元56的语音识别的准确度。因此，在某些情况下，即使在语音识别单元56的语音识别由于例如包括在语音中的噪声的影响而不能准确的情况下，第一服务器装置14的语音识别也可以是准确的。

第二通信单元32从第一服务器装置14接收语音识别结果。第三获取单元54获取通过第二通信单元32接收的语音识别结果，以及将语音识别结果输出至响应选择单元58。

预先存储在第一存储单元36中的是多个基本响应例如“早上好”和“下午好”。至少一个关键词与每个响应相关联。例如，诸如“下午好”和“你好”的关键词与“下午好”响应相关联。换言之，第一存储单元36存储关于预先假定的关键词的响应。

响应选择单元58基于语音识别单元56的语音识别结果在存储在第一存储单元36中的响应中选择关于由用户发出的语音的响应。响应选择单元58将所选择的响应输出至第二输出单元64。具体地，在语音识别结果对应于第一存储单元36的关键词的情况下，响应选择单元58在存储在第一存储单元36中的响应中选择与相应关键词相关联的响应。结果是，可以针对预先假定的语音识别结果以高速度确定响应。在语音识别结果与第一存储单元36的关键词不对应的情况下，响应选择单元58不选择响应。例如，诸如“我今天吃了拉面”的复杂语音识别结果与第一存储单元36的关键词不对应，并且因此在上述情况下不选择响应。

在基于语音识别单元56的语音识别结果不能选择响应的情况下，响应选择单元58基于第一服务器装置14的语音识别结果选择关于由用户发出的语音的响应。与上述基于语音识别单元56的语音识别结果的选择类似地执行该选择。结果是，在第一服务器装置14能够准确地执行语音识别而语音识别单元56由于噪声等的影响而不能执行准确的语音识别的情况下，可以基于第一服务器装置14的准确的语音识别结果进行响应确定。

第二输出单元64经由第一通信单元30将通过响应选择单元58选择的响应输出至机器人10。

在基于语音识别单元56的语音识别结果和第一服务器装置14的语音识别结果不能选择响应的情况下，即，在语音识别结果与关键词不对应的情况下，第一输出单元62将其中语音被第一服务器装置14识别的语音识别结果输出至第二通信单元32。第二通信单元32将语音识别结果传输至第二服务器装置16。上面的处理对应于第一输出单元62将第一服务器装置14的语音识别结果输出至第二服务器装置16。

第二服务器装置16基于第一服务器装置14的语音识别结果创建关于由用户发出的语音的响应。例如，第二服务器装置16通过解析语音识别结果的文本数据来语义地解释字符串信息。第二服务器装置16基于字符串信息分析的结果生成响应，以及将生成的响应输出至信息处理装置12。通常，响应创建所需要的时间长度随着语音数据的数据大小的增加即语音识别结果的数据大小的增加而增加。已知技术可以用于解析和响应创建。如上所述，第二服务器装置16用作响应生成装置。通过使用第二服务器装置16，即使针对复杂的语音识别结果也可以生成响应，而不会使信息处理装置12的配置变得复杂。

第二通信单元32从第二服务器装置16接收响应。第二获取单元52获取通过第二通信单元32接收的响应。第二获取单元52将获取的响应输出至第二输出单元64。

关于特定语音，由第二服务器装置16进行响应创建所需要的时间长度超过由第一服务器装置14进行语音识别所需要的时间长度。因此，从语音识别结果从第一输出单元62输出至第二服务器装置16至通过第二获取单元52从第二服务器装置16获取响应的时间长度超过从语音数据从第二通信单元32传输至第一服务器装置14至通过第三获取单元54获取第一服务器装置14的语音识别结果的时间长度。

预先存储在第二存储单元38中的是多个插入语，例如“嗯嗯”、“是”、“确实”和“嗯”。插入语也可以被称为桥接话语。

在通过第一输出单元62将语音识别结果输出至第二服务器装置16的情况下，插入语选择单元60在存储在第二存储单元38中的插入语中选择关于由用户发出的语音的插入语。例如，插入语选择单元60随机选择插入语。

定时确定单元66根据从语音数据获取完成至开始输出由第二服务器装置16基于语音识别结果生成的响应的时间长度来确定插入语定时。基于语音数据的数据大小或语音识别结果的数据大小确定从语音数据获取完成至开始输出响应所需要的时间长度。在通过第一输出单元62将语音识别结果输出至第二服务器装置16的情况下，定时确定单元66根据语音数据的数据大小或语音识别结果的数据大小确定关于由用户发出的语音的插入语的定时。通常，确定单元66随着语音数据的数据大小或语音识别结果的数据大小增加而延迟插入语定时。因此，通常，随着由第二服务器装置16进行响应创建所需要的时间长度增加来延迟插入语定时。

此处，定时确定单元66确定插入语定时，使得从通过第二输出单元64输出插入语至响应输出的时间长度超过从通过第一获取单元50获取语音数据至通过第二输出单元64输出插入语的时间长度。

具体地，定时确定单元66确定从语音识别结果通过第一输出单元62输出至第二服务器装置16至通过第二输出单元64输出插入语的等待时间。

在语音数据的数据大小超过第一阈值的情况下，定时确定单元66将第一时间确定为等待时间。第一时间是例如约两秒。

在语音数据的数据大小超过第二阈值并且等于或小于第一阈值的情况下，定时确定单元66将第二时间确定为等待时间。第一阈值超过第二阈值。比第一时间短的第二时间的示例包括约一秒。

在语音数据的数据大小等于或小于第二阈值的情况下，定时确定单元66将第三时间确定为等待时间。比第二时间短的第三时间的示例包括约0.5秒。

可以以类似的方式执行根据语音识别结果的数据大小的等待时间确定。可以通过实验、模拟等适当地确定第一阈值、第二阈值、第一时间、第二时间和第三时间。尽管此处描述了根据三个预定时间确定等待时间的示例，但是也可以根据两个预定时间或四个或更多个预定时间确定等待时间。可替选地，可以根据预定等式确定等待时间。

第二输出单元64在由定时确定单元66确定的插入语定时处将由插入语选择单元60选择的插入语经由第一通信单元30输出至机器人10，并且然后将通过第二获取单元52获取的响应输出至机器人10。换言之，第二输出单元64在自语音识别结果从第一输出单元62输出至第二服务器装置16起已经经过确定的等待时间的定时处输出插入语，以及在插入语输出之后，在通过第二获取单元52获取响应时输出响应。

图2是示出与图1中所示的信息处理装置12有关的插入语和响应输出定时的示例的图。首先，第一获取单元50获取由用户发出的语音例如“我今天吃了拉面”的语音数据。响应选择单元58能够不选择关于语音的响应，并且因此第二输出单元64输出诸如“嗯嗯”的插入语。第二输出单元64输出由第二服务器装置16创建的响应例如“你吃了什么拉面？”。从通过第一获取单元50获取语音数据至通过第二输出单元64输出插入语的时间T1短于从通过第二输出单元64输出插入语至通过第二输出单元64输出响应的时间T2。

基于硬件，可以通过任何计算机的中央处理单元(CPU)、存储器和其他大规模集成(LSI)来实现上述配置。基于软件，通过例如加载在存储器中的程序来实现上述配置。此处绘制的是通过硬件-软件协作实现的功能块。因此，本领域技术人员将理解，可以单独通过硬件、单独通过软件或通过硬件-软件组合以各种形式实现功能块。

下面将描述如上所述配置的信息处理系统1的整体操作。图3是示出通过图1中所示的信息处理系统1进行的处理的序列图。图3中所示的是在基于语音识别单元56的语音识别结果能够选择响应的情况下的处理。每当通过机器人10的麦克风20获取语音时执行上面的处理。

机器人10获取用户的语音(S10)以及将语音数据输出至信息处理装置12(S12)。信息处理装置12将接收的语音数据输出至第一服务器装置14(S14)。然后，信息处理装置12识别语音(S16)，确定是否能够选择响应(S18)，以及将选择的响应输出至机器人10(S20)。机器人10语音输出所接收的响应(S22)。

在信息处理装置12执行步骤S16和S18的处理的情况下，第一服务器装置14语音识别语音数据(S24)以及将语音识别的结果输出至信息处理装置12(S26)。在上述示例中，信息处理装置12不使用语音识别结果。第二服务器装置16不执行处理。

图4是示出通过图1中所示的信息处理系统1进行的另一处理的序列图。图4中所示的是在基于语音识别单元56的语音识别结果不能选择响应并且可以基于第一服务器装置14的语音识别结果选择响应的情况下的处理。每当通过机器人10的麦克风20获取语音时执行上面的处理。

步骤S10至S26的处理与图3中的处理相同，其中，增加了S30的处理。在信息处理装置12在步骤S18中确定不能选择响应的情况下，信息处理装置12确定基于步骤S26中的第一服务器装置14的语音识别结果是否能够选择响应(S30)以及将所选择的响应输出至机器人10(S20)。

图5是示出通过图1中所示的信息处理系统1进行的又一处理的序列图。图5中所示的是在基于语音识别单元56的语音识别结果和第一服务器装置14的语音识别结果不能选择响应的情况下的处理。每当通过机器人10的麦克风20获取语音时执行上面的处理。

步骤S10至S30的处理与图4中的处理相同，其中，增加了步骤S32至S44的处理。在信息处装置12在步骤S30中确定不能选择响应的情况下，信息处理装置12将步骤S26中的第一服务器装置14的语音识别结果输出至第二服务器装置16(S32)，确定插入语定时(S34)，选择插入语(S36)，以及在确定的插入语定时处将插入语输出至机器人10(S38)。机器人10语音输出所接收的插入语(S40)。可以在步骤S30与步骤S32之间或者在步骤S32与步骤S34之间执行步骤S36中的插入语选择。

在信息处理装置12执行步骤S34、S36和S38的处理并且机器人10执行步骤S40的处理的情况下，第二服务器装置16基于所接收的语音识别结果创建响应(S42)以及将响应传输至信息处理装置12(S44)。信息处理装置12将来自第二服务器装置16的响应输出至机器人10(S20)。机器人10语音输出所接收的响应(S22)。

如上所述，根据实施方式，在输出通过第二服务器装置16创建的响应之前输出插入语，并且因此，对话间连接可以变得更平滑并且可以抑制不舒服的对话。另外，由于根据从语音数据获取完成至开始输出响应的时间长度来确定插入语定时，因此在第二服务器装置16中的响应处理花费时间的情况下，可以延迟插入语并且可以缩短从插入语至响应的时间长度。因此，可以抑制由于过长的插入语至响应时间引起的用户不适。

基于由用户发出的语音的语音数据的数据大小或语音识别结果的数据大小确定从语音数据获取完成至开始输出响应所需要的时间长度，并且因此可以基于数据大小容易地确定插入语定时。

确定插入语定时，使得从插入语输出至响应输出的时间长度超过从语音数据获取至插入语输出的时间长度，并且因此可以限制从用户说话至听到插入语的时间变得过长。因此，可以进一步抑制用户不适。

上面已经基于实施方式描述了本发明。本领域技术人员要理解的是，实施方式仅是示例，对于每个部件和处理过程的组合可以有各种修改示例，并且这样的修改示例也在本发明的范围内。

例如，随着语音数据的数据大小或语音识别结果的数据大小增加，可以通过插入语选择单元60选择更长的插入语(具有更大数据大小的插入语)。在上述修改示例中，在第二服务器装置16中的响应处理花费时间的情况下，可以进一步缩短插入语终止至响应的时间。因此，可以进一步抑制用户不适。

机器人10和信息处理装置12可以与包括信息处理装置12的机器人10集成。在信息处理装置12包括麦克风20和扬声器26的情况下，信息处理装置12可以通过使用麦克风20和扬声器26输入和输出语音，而不需要使用机器人10。第一服务器装置14和第二服务器装置16可以被配置为单个服务器装置。在上述修改示例中，可以给予信息处理系统1的配置更高的自由度。

Claims

1.一种信息处理装置，其特征在于包括：

获取单元，其被配置成获取由用户发出的语音的语音数据；

语音识别单元，其被配置成识别所获取的语音；

确定单元，其被配置成根据从完成语音数据获取至开始输出基于语音识别结果生成的响应的时间来确定插入语的定时；以及

输出单元，其被配置成在所确定的插入语的定时处输出所述插入语，并且在开始输出所述响应的时刻输出所述响应，

其中，所述确定单元通过随着所述语音数据的数据大小或所述语音识别结果的数据大小增加而增加在开始输出所述插入语之前的等待时间并缩短从所述插入语至所述响应的时间长度，来确定所述定时。

2.根据权利要求1所述的信息处理装置，其特征在于，所述确定单元确定所述插入语的定时，使得从通过所述获取单元完成获取所述语音数据至通过所述输出单元开始输出所述插入语的时间短于从开始输出所述插入语至开始输出所述响应的时间。

3.根据权利要求1所述的信息处理装置，其特征在于，所述确定单元随着所述语音数据的数据大小或所述语音识别结果的数据大小增加而选择具有更大数据大小的插入语。

4.根据权利要求1至3中任一项所述的信息处理装置，还包括：

第一存储单元，其被配置成存储关于预先假定的一个或更多个关键词的响应；以及

第二存储单元，其被配置成存储所述插入语，

其中，在所述语音识别结果与所述关键词中的一个对应的情况下，从所述第一存储单元选择所述响应。

5.根据权利要求4所述的信息处理装置，其特征在于，在所述语音识别结果与所述关键词不对应的情况下，所述语音识别结果被传输至基于所述语音识别结果创建关于所述语音的响应的服务器装置，并且从所述服务器装置获取所述响应。

6.一种信息处理装置，其特征在于包括：

获取单元，其被配置成获取由用户发出的语音的语音数据；

语音识别单元，其被配置成识别所获取的语音；

通信单元，其被配置成将语音识别结果传输至基于所述语音识别结果创建关于所述语音的响应的服务器装置，并且从所述服务器装置获取所述响应；

确定单元，其被配置成在所述语音识别结果通过所述通信单元被传输至所述服务器装置的情况下，根据从完成语音数据获取至开始输出所述响应的时间来确定插入语的定时；以及

输出单元，其被配置成在由所述确定单元确定的所述插入语的定时处输出所述插入语之后，在开始输出所述响应的时刻输出所述响应，