CN111312229A

CN111312229A - 信息处理装置、信息处理方法以及记录介质

Info

Publication number: CN111312229A
Application number: CN201911164917.4A
Authority: CN
Inventors: 渡部慧
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-11-26
Filing date: 2019-11-25
Publication date: 2020-06-19
Also published as: US20200168225A1; JP2020086943A

Abstract

在具备通信部和控制部的服务器(信息处理装置)中，当控制部在终端发出发声内容时，经由通信部获取用户的语音的情况下，根据该用户的语音的开始时间，推测该用户的紧急度，根据推测的紧急度切换对该用户的应答内容。

Description

信息处理装置、信息处理方法以及记录介质

技术领域

本发明涉及一种信息处理装置、信息处理方法以及记录介质。

背景技术

在语音对话系统中，通过该系统和用户交替发声来进行对话。语音对话系统的用途遍及向导系统、接待系统、聊天系统等多种。

现有技术文献

专利文献

专利文献1:特开2014-038150号公报(2014年2月27日公开)专利文献2:特开2018-054791号公报(2018年4月5日公开)

发明内容

本发明所要解决的技术问题

在这种对话系统中，因为为了优先考虑便于用户收听，系统的发声缓慢，或者为了正确的动作，会在对话期间插入确认用户的发声内容的发声，所以通常是节奏缓慢的。但是，例如使用路线导航的用户可能很急，对话的节奏可能与用户的感受不符。

本发明的一形态的目的是实现与用户的紧急度对应的发声。

用于解决技术问题的技术方案

为了解决上述技术问题，与本发明的一形态涉及的信息处理装置是包括语音信息取得部和控制部的信息处理装置，上述控制部在该信息处理装置或者其他装置发出语音内容并通过上述语音信息取得部获取用户的语音时，根据该用户语音的开始时机推测该用户的紧急度，并根据推测的紧急度切换对该用户的应答内容。

为了解决上述技术问题，与本发明的一形态涉及的使用信息处理装置的信息处理方法包含当该信息处理装置或其他装置发出发声内容并获取用户的语音时，根据该用户的语音开始时间推断用户的紧急度，根据推断的紧急度切换对该用户的应答内容的步骤。

为了解决上述技术问题，本发明的一形态涉及的记录介质是作为信息处理装置记录了计算机功能的程序的计算机读取可能的记录介质，该信息处理装置或其他装置在发出发声内容中并取得了用户的语音时，根据该用户的语音的开始时间，推断该用户的紧急度，根据推断的紧急度，将切换对该用户的应答内容的步骤记录在上述计算机上执行的程序的计算机可读记录介质。

有益效果

根据本发明的一形态，能够实现与用户的紧急度对应的发声。

附图说明

图1是表示本发明的第一实施方式涉及的对话系统的构成图。

图2是表示本发明的第一实施方式涉及的终端的框图。

图3是表示本发明的第一实施方式涉及的服务器的框图。

图4是表示本发明的第一实施方式涉及的说明中断信息的图。

图5是表示本发明的第一实施方式涉及的应答决定DB的构成示例图。

图6是表示本发明的第一实施方式涉及的应答内容DB的构成示例图。

图7是表示本发明的第一实施方式涉及的应答决定DB的构成示例图。

图8是表示本发明的第一实施方式涉及的应答内容DB的构成示例图。

图9是表示本发明的第一实施方式涉及的对话系统的处理的流程图。

图10是例示了本发明的第三实施方式涉及的可作为终端或服务器利用的计算机的构成的框图。

具体实施方式

[第一实施方式]

以下详细说明本发明的第一实施方式。本实施方式涉及的对话系统1采用了允许插入(用户在系统发声时中断并发声)的机制。由此，对话系统1根据是否发生插入或插入发生时机来改变系统的应答(语句的内容、长度、发声的速度等)。

例如，当没有发生插入时，对话系统1会仔细确认用户的发声内容。另一方面，当发生插入时，对话系统1不进行用户发声内容的确认，或者缩短确认的语句。

因此，可以根据用户的性格、感受等来改变对话的速度，并且可以实现用户易用性的提高。

(对话系统1)

图1是表示本实施方式涉及的对话系统1的构成的图。对话系统1是与用户之间进行语音对话的系统。如图1所示，对话系统1包括多个终端2和服务器3。终端2和服务器3构成为经由网络4可以通信。终端2是由用户携带的而作为对话对象的终端，例如，PC(PersonalComputer，个人计算机)、智能手机、平板电脑等终端构成。服务器3是与终端2通信的同时实现对话系统1的服务器，由服务器用计算机等构成。网络4是LAN(Local Area Network，局域网)、因特网等通信网络。

(终端2)

图2是表示本实施方式涉及的终端2的构成的框图。如图2所示，终端2包括通信部21、控制部22、语音播放部23和语音取得部24作为硬件部分。

通信部21连接到网络4，并且经由网络4与服务器3之间进行通信。

控制部22控制整个终端2，如图2所示，作为语音检测部221和中断位置计算部222的功能发挥功能，例如，由CPU等构成。语音检测部221判断用户是否对终端2进行语音输入。中断位置计算部222确定表示用户语音中断终端2的发声(下文也称为“系统发声”)的情况的中断信息。

语音播放部23和语音取得部24控制语音的输出输入。语音播放部23对用户发声，由如扬声器等构成。语音取得部24获取用户的语音，由例如麦克风等构成。

(服务器3)

图3是表示本实施方式涉及的服务器3的构成的框图。如图3所示，服务器(信息处理装置)3的包括通信部(语音信息取得部)31、控制部32和存储部33作为硬件部分。

通信部31连接到网络4，且经由网络4与终端2之间进行通信。

控制部32控制整个服务器3，特别是在终端(其他装置)2发出发声内容时，经由通信部31取得用户的语音时，根据该用户的语音开始时间推断该用户的紧急度，并根据推断的紧急度切换对该用户的应答内容。

因此，由于在终端2发声中，根据用户语音的开始时间来推断该用户的紧急度，并且根据该紧急度切换应答内容，因此能够实现与用户紧急度对应的发声。

如图3所示，控制部32作为语音识别部321、应答决定部322和语音合成部323发挥功能，由例如CPU等构成。

语音识别部321将从终端2接收的用户语音数据转换成文本数据。应答决定部322根据语音识别部321转换的用户语音的文本数据和从终端2接收的中断信息，确定使终端2发声的文本数据。语音合成部323将应答决定部322确定的文本数据转换成语音数据。

存储部33根据来自控制部32的指示储存数据，此外，读取数据，由例如HDD(HardDisk Drive，硬盘驱动器)、SSD(Solid State Drive，固态驱动器)等非易失性存储介质构成。在存储部33中建立并存储有应答决定DB331和应答内容DB332作为数据库。应答决定DB331是用于根据用户的语音确定下一个应答的DB。应答内容DB332是储存对用户语音的应答内容的DB。

此外，终端2也可以执行服务器3的上述处理。这种情况下，本实施方式涉及的终端(信息处理装置)2中，包括语音取得部(语音信息取得部)24和控制部22，控制部22在该终端(该信息处理装置)2发出发声内容中经由语音取得部24获取用户的语音时，根据该用户的语音开始时间推断该用户的紧急度，根据推断的紧急度切换对该用户的应答内容。

即，当作为服务器3实现信息处理装置时，权利要求涉及的语音信息取得部不是麦克风的含义，而是有意获取语音信号的接口。另一方面，当作为终端2实现信息处理装置时，权利要求涉及的语音信息取得部也可以被称为麦克风。

(中断信息)

图4是用于说明本实施方式涉及的中断信息的图。中断信息包括中断百分比和中断位置。另外，图4的横轴是时间轴。

本实施方式涉及的服务器3中，控制部32也可以根据中断百分比推断用户的紧急度。因此，由于当用户的语音中断装置的发声时的、中断百分比作为应答切换条件，可以执行直观的条件设定。

中断百分比是表示用户语音中断发生时系统发声已完成了多少百分比的时刻(即，用户语音开始时的，发声内容中已完成的发声内容的量与整个发声内容的量的比率)。

上述内容的量也可以是完成发声内容所包含的时间长度或者文字数，上述发声内容的整体的量也可以是发声内容的整体的时间长度或文字数。

中断百分比由以下的式1计算出。

中断百分比＝(中断位置/语音长度)×100％···式1语音长度表示系统发声整体的量，图4中用“A”表示。中断位置表示当用户语音开始时系统发声的发声完成量，图4中用“B”表示。图4的示例1中，即当A<B时，没有发生插入，中断百分比为100％。

此外，本实施方式涉及的服务器3中，控制部32也可以根据中断位置推断用户的紧急度。因此，由于在用户的语音中断装置的发声时的中断位置作为应答的切换条件，因此可以进行准确地指定发声内容中哪个是边界的直观条件的设定。

中断位置表示在从系统发声开始几秒的时刻用户语音开始(即在用户的语音开始的时刻的，发声内容中已发声的内容的量)。在图4中用“B”表示。另外，终端2在系统发声开始前不接收用户语音的输入。

上述内容的量也可以是已发声内容包含的时间长度或者文字数。

(应答决定DB331)

图5是表示本实施方式涉及的应答决定DB331的构成示例的图。如图5所示，应答决定DB331由包括当前对话状态ID、用户语音、中断百分比、中断位置、紧急标志以及下一个对话状态ID的多个记录构成。当前对话状态ID是与先前应答的发声内容对应的对话状态ID(参照图6)。用户语音是通过语音识别从用户获得的语音而文本化的内容。中断百分比和中断位置如图4说明。紧急标志的相关内容将在后面描述。下一个对话状态ID指示应答内容DB332的对话状态ID。

服务器3的应答决定部322通过以用户语音、中断百分率或中断位置作为键值，对应答决定DB331进行条件检索来确定下一个对话状态ID。条件检索规则如以下说明。

(规则R1)应答决定部322按从应答决定DB331上面的行(记录)顺序判断。当上述键值满足行的条件时，应答决定部322结束条件搜索。

(规则R2)当前对话状态ID和用户语音相比完全一致时设为“真”。

(规则R3)当前对话状态ID和用户语音的DB值为空白时被作为通配符处理。

(规则R4)当“取得值＜＝DB值”时，中断百分比和中断位置设为“真”。

(规则R5)在应答决定DB331的行中，设定中断百分比和中断位置中的任意一个。因此，应答决定部322进行被设定方的条件评价，并推断用户的紧急度。中断百分比和中断位置两者均未被设定时，则将其视为通配符处理。

例如，当前对话状态ID为A02，用户语音是“东京站”，且中断百分比是60％时，由于上述键值相当于图5中的第三行，应答决定部322确定B02作为下一个对话状态ID。

另外，关于紧急标志的处理参照图7的说明。如图5所示，紧急标志的栏为空白时设为通配符。

(应答内容DB332)

图6是表示本实施方式涉及的应答内容DB332的构成示例的图。如图6所示，应答内容DB332由包括对话状态ID、发声内容以及播放速度的多个记录构成。

对话状态ID是对应于应答决定DB331的“下一个对话状态ID”的ID。即应答内容DB332各记录通过对话状态ID和应答决定DB331关联。发声内容是终端2应答用户语音的发声内容。播放速度设定为1.0的正常速度，高于正常速度设定为大于1.0的值，低于正常速度设定为小于1.0的值。

以下说明对应于各对话状态ID的应答。B01的应答是遇到紧急的问路时简洁而快速地指路。B02的应答是遇到有些紧急的问路时简洁地指路。B03的应答是冷静而问路时有礼貌地指路。C01的应答是在紧急情况下对话被打断时怄气的回复。C02的应答是在有些紧急的情况下对话被打断时正常的回复。C03的应答是在冷静的情况下对话被打断时有礼貌的回复。

服务器3的应答决定部322参照应答内容DB332，根据之前确定的“下一个对话状态ID”来确定应答内容。语音合成部323从应答决定部322确定的应答内容合成发送到终端2的语音数据。这里，发声内容的变化是台词的变化、发声速度的变化或场景的变化。对于场景变化，例如可以夹在确认步骤中，或者可以进入完全不同的对话。

例如，应答决定部322在应答决定DB331中确定“B01”作为“下一个对话状态ID”时，参照应答内容DB332，决定发声内容为“去东京站的话”、播放速度为“1.2”。然后，语音合成部323根据发声内容为“去东京站的话”、播放速度为“1.2”合成语音数据。

(紧急标志)

此外，本实施方式涉及的服务器3中，控制部32也可以根据紧急度切换向用户的应答内容中的应答文的长度、发声速度或应答文的数量。因此，由于切换了对用户的应答文长度、发声速度或应答文的数量，可以根据用户的紧急度来调整应答内容的时间长度。

图7是表示本实施方式涉及的应答决定DB331的构成示例的图。图8是表示本实施方式涉及的应答内容DB332的构成示例的图。

如图7所示，应答决定DB331由包括紧急标志的记录组成。

紧急标识是通过数次来回构成的整个对话判断用户是否紧急，根据该判断结果设定“真”或“假”，从而改变对话系统1的发声的机制。

紧急标志的处理方法如下说明。首先，紧急标志在系统开始时(对话开始时)的初始设定是“假”。每次用户发声时，服务器3的控制部32参照中断百分比来进行紧急标志的更新。当中断百分在预设的阈值(如90％)以下时，控制部32将紧急标志设为“真”。也就是说，控制部32根据用户语音开始时间推断用户的紧急度。一旦紧急标志被设为“真”，控制部32此后不会将其设为“假”。另外，上述阈值在每个对话系统1中可以设定为任意的值。

当紧急标志的DB值为空白时，被视为通配符。例如，在图5中的应答决定DB 331中，由于所有紧急标志都是空白的，所以不被考虑。

于是，本实施方式涉及的服务器3中，如图7所示，通过设定应答决定DB331，通过对话来判断与用户是否紧急。并且，当用户不紧急(紧急度低)时，可以增加对用户的应答内容的应答文数量。因此，当用户的紧急度低时，由于对该用户的应答文数量增加，所以在完成对话之后，可以进行聊天、广告等发声。

参照图8，下面说明与各对话状态ID对应的应答。D02的应答是判断为用户不着急时开始做广告。D03的应答是用户有可能着急，所以简洁地结束了发声。

(对话系统1的处理)

图9是表示本实施方式涉及的对话系统1的处理的流程图。下文中，将参照图9，对终端2的处理(步骤S201～S209)、服务器3的处理(步骤S301～S309)以及它们之间交换的数据进行说明。

(步骤S201)

在终端2中，控制部22开始语音待机。例如，对应用户的操作，终端2启动预定的服务应用程序(例如路线导航应用程序等)时，控制部22开始语音待机。

(步骤S202)

语音取得部24获取用户的语音。在这种情况下，中断位置计算部222开始获取语音时，从语音播放部23获得表示步骤S208的语音播放进行到什么程度的数据。

(步骤S203)

控制部22的语音检测部221判断用户是否对终端2进行语音输入。当用户对终端2进行语音输入时，控制部22使语音取得部24继续进行语音获取。当用户不对终端2进行语音输入时，控制部22结束语音待机。

(步骤S204)

中断位置计算部222从在步骤S202获取的数据生成表示用户语音中断终端2发声的情况的中断信息。然后，控制部22经由通信部21将用户语音数据和中断信息发送到服务器3。

(步骤S301)

在服务器3中，控制部32经由通信部31从终端2接收用户语音数据和中断信息。

(步骤S302)

当中断信息的中断百分比或中断位置在预设的阈值以下时，控制部32将紧急标志更新为“真”。

(步骤S303)

语音识别部321将从终端2接收的用户语音数据转换为文本数据。也就是说，执行语音识别。

(步骤S304)

应答决定部322将由语音识别部321获取的用户语音的文本和从终端2接收的中断信息作为键值，而对应答决定DB331进行条件搜索。

(步骤S305)

应答决定部322判断在应答决定DB331中是否存在与上述键值符合的记录。如果存在与键值符合的记录(步骤S305的“是”)，则应答决定部322执行步骤S306的处理。如果没有与键值符合的记录(步骤S305的“否”)，则控制部32执行步骤S309的处理。

(步骤S306：切换对用户的应答内容的步骤)

应答决定部322以与上述键值符合的记录的“下一个对话状态ID”作为键值搜索应答内容DB332，指定发声内容和播放速度。也就是说，确定终端2要发声的应答内容。

(步骤S307)

语音合成部323根据应答决定部322指定的发声内容和播放速度合成终端2发声的语音数据。也就是说，应答决定部322确定的文本数据转换成语音数据。

(步骤S308)

控制部32经由通信部31将语音合成部323合成的语音数据发送到终端2。

(步骤S309)

控制部32经由通信部31向终端2发送表示不存在语音数据的数据。

(步骤S205)

在终端2中，控制部22经由通信部21从服务器3接收数据。

(步骤S206)

控制部22判断接收的数据中是否存在语音数据。当接收的数据不包含语音数据(步骤S206的“否”)时，控制部22执行步骤S201和步骤S207的处理。当接收的数据中包括语音数据(步骤S206的“是”)时，控制部22执行步骤S201的处理。

(步骤S207)

控制部22使语音播放部23开始播放接收的语音数据。

(步骤S208)

语音播放部23播放语音数据。

(步骤S209)

语音播放部23结束播放语音数据。

〔第二实施方式〕

在上述各实施方式中，说明了使用一个服务器3的示例，但是，服务器3具有的各功能也可以由个别服务器实现。然后，在应用多个服务器的情况下，各服务器可以由同一个运营商管理，也可以由不同的运营商管理。

〔第三实施方式〕

终端2和服务器3的各模块可以通过集成电路(IC芯片)等形成的逻辑电路(硬件)实现，也可以通过软件实现。在后一种情况下，终端2和服务器3中的每一个可以使用如图10所示的计算机(电子计算机)构成。

图10是例示了可作为终端2或服务器3利用的计算机910的构成的框图。计算机910包括经由总线911彼此连接的运算装置912、主存储装置913、辅助存储装置914、输入/输出接口915和通信接口916。运算装置912、主存储装置913和辅助存储装置914各自也可以是例如处理器(如CPU：Central Processing Unit，中央处理器等)、RAM(random accessmemory，随机存取储存器)和硬盘驱动器。输入/输出接口915连接有用于用户输入各种信息到计算机910的输入设备920和用于计算机910输出各种信息给用户的输出设备930。输入设备920和输出设备930可以内置在计算机910中，也可以连接(外部连接)到计算机910。例如，输入设备920也可以是键盘、鼠标、触摸传感器等，输出设备930也可以是显示器、打印机、扬声器等。另外，可以应用集成有触摸传感器和显示器的触摸面板这种具有输入装置920和输出装置930两者的功能的装置。并且，通信接口916是用于计算机910与外部设备通信的接口。

辅助存储装置914存储有用于使计算机910作为终端2或服务器3动作的各种程序。并且，运算装置912通过在主存储装置913上扩展存储在辅助存储装置914中的上述程序并执行包括在该程序中的指令，使计算机910作为终端2或服务器3所具备的各部分发挥功能。另外，记录辅助存储装置914所具备的、程序等信息的记录介质只要是计算机可读取的“非临时有形介质”即可，

例如，磁带、磁盘、卡、半导体存储器、可编程逻辑电路等。此外，如果计算机可以执行不在主存储装置913上展开的记录介质上所记录的程序，则可以省略主存储装置913。另外，上述各装置(运算装置912、主存储装置913、辅助存储装置914、输入/输出接口915、通信接口916、输入装置920和输出装置930)中的每一个可以为一个，也可以是多个。

此外，上述程序可以从计算机910的外部获取，在这种情况下，可以经由任意传输介质(通信网络、广播波等)来获取程序。并且，本发明还可以把上述程序通过电子传输具体化的、嵌入于载波的数据信号的方式实现获得。

本发明不限于上述各实施方式，在权利要求所示的范围内能够进行各种变更，将分别公开在不同的实施方式中的技术手段适当组合而得到的实施方式也包含在本发明的技术范围中。此外，通过组合每个实施例中公开的技术手段，可以形成新的技术特征。而且，通过将各实施方式中分别公开的技术手段组合能够形成新的技术特征。

Claims

1.一种信息处理装置，其包括语音信息取得部和控制部，所述信息处理装置的特征在于：

所述控制部在所述信息处理装置或其他装置发出发声内容时，当经由所述语音信息取得部获取到用户的语音时，根据所述用户语音的开始时间来推断所述用户的紧急度，并根据推断的紧急度切换对所述用户的应答内容。

2.根据权利要求1所述的信息处理装置，其特征在于，

所述控制部根据所述用户的语音开始时的，所述发声内容中的已完成发声的内容的量与所述发声内容整体的量的比率来推断用户的紧急度。

3.根据权利要求2所述的信息处理装置，其特征在于，

所述内容的量是已完成发声内容中包含的时间长度或文字数，所述发声内容的整体的量是发声内容整体的时间长度或者文字数。

4.根据权利要求1所述的信息处理装置，其特征在于，

所述控制部根据所述用户的语音开始时的，所述发声内容中已完成发声的内容量推断所述用户的紧急度。

5.根据权利要求4所述的信息处理装置，其特征在于，

所述内容量是已发声内容中包含的时间长度或文字数。

6.根据权利要求1～5任一项所述的信息处理装置，其特征在于，

所述控制部根据所述紧急度，切换对所述用户的应答内容中的，应答文的长度，发声速度或应答文的句数。

7.根据权利要求6所述的信息处理装置，其特征在于，

所述控制部当所述紧急度低时，增加对所述用户应答内容的应答文的句数。

8.一种信息处理装置的信息处理方法，其特征在于，包括：

在信息处理装置或其他装置发出发声内容时，当获取到用户的语音时，根据该用户的语音开始时间推断该用户的紧急度，根据推断的紧急度切换对该用户的应答内容的步骤。

9.一种计算机可读取记录介质，其记录有用于使计算机作为信息处理装置发挥功能的程序，其特征在于，所述记录介质记录有用于使所述计算机执行以下步骤的程序，

在该信息处理装置或其他装置在发出发声内容时，当取得了用户的语音时，根据该用户的语音的开始时间，推断该用户的紧急度，根据推断的紧急度，切换对该用户的应答内容。