CN110431622A

CN110431622A - 语音对话方法及语音对话装置

Info

Publication number: CN110431622A
Application number: CN201880017267.8A
Authority: CN
Inventors: 嘉山启; 松原弘明; 浦纯也
Original assignee: Jahang Haran Corp
Current assignee: Jahang Haran Corp
Priority date: 2017-03-09
Filing date: 2018-03-09
Publication date: 2019-11-08
Also published as: JP6911398B2; JP2018146906A; WO2018164278A1; US20190392814A1

Abstract

语音对话装置(100)具有：音高调整部(43)，其与用于对话的对话语音的音高相应地，对先于该对话语音而播放的先发语音的音高进行调整；第1播放指示部(45)，其对由音高调整部(43)调整后的先发语音的播放进行指示；以及第2播放指示部(47)，其对通过第1播放指示部(45)实现的先发语音播放后的对话语音的播放进行指示。

Description

语音对话方法及语音对话装置

技术领域

本发明涉及语音对话。

背景技术

以往提出了一种语音对话的技术，该语音对话的技术通过播放针对由利用者所说的话的应答(例如针对提问的回答)的语音，从而实现与利用者的对话。在例如专利文献1中公开了下述技术，即，通过针对利用者的说话语音的语音识别而对说话内容进行解析，对与解析结果相对应的应答语音进行合成及播放。

专利文献1：日本特开2012－128440号公报

发明内容

但是，基于包含专利文献1的已有技术，存在下述问题，即，实际上难以实现忠实地反映出现实的人彼此的对话倾向的自然的语音对话，利用者可能感受到机械性、不自然的印象。考虑到以上的情况，本发明以实现自然的语音对话为目的。

为了解决以上的课题，本发明的优选的方式所涉及的语音对话方法包含下述步骤：韵律调整步骤，与用于对话的对话语音的韵律相应地，对先于该对话语音而播放的先发语音的韵律进行调整；第1播放指示步骤，对在所述韵律调整步骤中调整后的所述先发语音的播放进行指示；以及第2播放指示步骤，对通过所述第1播放指示步骤实现的所述先发语音播放后的所述对话语音的播放进行指示。

本发明的优选的方式所涉及的语音对话装置具有：韵律调整部，其与用于对话的对话语音的韵律相应地，对先于该对话语音而播放的先发语音的韵律进行调整；第1播放指示部，其对由所述韵律调整部调整后的所述先发语音的播放进行指示；以及第2播放指示部，其对通过所述第1播放指示部实现的所述先发语音播放后的所述对话语音的播放进行指示。

附图说明

图1是第1实施方式中的语音对话装置的结构图。

图2是第1实施方式中的间投词语音及应答语音的说明图。

图3是第1实施方式中的控制装置所执行的处理的流程图。

图4是第2实施方式中的说话语音、2个间投词语音及应答语音的说明图。

图5是第2实施方式中的控制装置执行的处理的流程图。

具体实施方式

＜第1实施方式＞

图1是本发明的第1实施方式所涉及的语音对话装置100的结构图。第1实施方式的语音对话装置100是播放针对由利用者U发出的语音(以下称为“说话语音”)Vx的应答的语音(以下称为“应答语音”)Vz的语音对话系统。例如便携电话机、智能手机等移动式的信息处理装置、或者个人计算机等信息处理装置能够利用作为语音对话装置100。另外，也能够通过模拟出动物等的外观的玩具(例如动物娃娃等玩偶)、机器人的形态实现语音对话装置100。

说话语音(speech sound)Vx例如是包含询问(提问)及交谈在内的说话的语音，应答语音(对话语音的例示)Vz是包含针对询问的回答或者针对交谈的回应在内的应答的语音。第1实施方式的应答语音(对话语音)Vz是由大于或等于1个语句构成的具有特定的意思的语音。例如，针对说话语音Vx“请告诉学校的地址？”的应答语音Vz，可设想到“第三条街的拐角”。在这里，在现实的人和人之间的对话中，在说话者的说话语音和对话对象发出的应答语音之间存在下述倾向，即，由对话对象发出某种语音(在典型情况下为间投词的语音)。因此，如果在紧接说话语音Vx之后播放应答语音Vz，则会对利用者U造成机械性、不自然的印象。因此，第1实施方式的语音对话装置100如图2所例示这样，在从说话语音Vx的发出(例如说话语音Vx的发音结束时)至应答语音Vz的播放(例如应答语音Vz的播放开始时)为止的期间(以下称为“等待期间”)Q内，播放间投词的语音(以下称为“间投词语音”)Vy。即，间投词语音(先发语音的例示)Vy，是先于应答语音(对话语音)Vz而播放的语音。

间投词语音(先发语音)Vy是表示间投词的语音。间投词是从其他词节独立而利用的没有实际效用的独立词(叹词或者感叹词)。具体地说，作为间投词而能够例示下述词：表示说话彼此的搭腔的“嗯(un)”及“诶(ee)”等语句(在英语中为“aha”或者“right”)、表示停顿(应答的停滞)的“这个～(eto)”及“那个～(ano)”等语句(在英语中为“um”或者“er”)、表示应答(针对提问的肯定或者否定)的“是(hai)”及“不是(iie)”等语句(在英语中为“yes”或者“no”)、表示说话者的感叹的“啊(aa)”及“哦(oo)”等语句(在英语中为“ah”或者“woo”)、及表示针对说话的反问(重问)的“什么？(e)”“啥？(nani)”等语句(在英语中为“pardon？”或者“sorry？”)。

应答语音(对话语音)Vz定位为针对说话语音Vx的必要的应答，与此相对，间投词语音(先发语音)Vy定位为在应答语音Vz之前补充性(辅助性)以及追加性地发出的任意性的应答(在对话中可省略的应答)。间投词语音Vy也可以换言为是不包含于应答语音Vz中的单独的语音。如图2中例示这样，在第1实施方式中，例示出下述情况，即，针对“请告诉学校的地址？”这样的询问的说话语音Vx，播放“这个～”这样的表示停顿的间投词语音Vy，在间投词语音Vy之后播放“第三条街的拐角”这样的回答的应答语音Vz。

第1实施方式的语音对话装置100如图1中例示这样，具有拾音装置20、存储装置22、控制装置24和放音装置26。拾音装置20(例如传声器)生成表示利用者U的说话语音Vx的信号(以下称为“说话信号”)X。此外，为了方便而省略了将由拾音装置20生成的说话信号X从模拟变换为数字的A/D变换器的图示。放音装置26(例如扬声器或者耳机)对与从控制装置24供给的信号相对应的声音进行播放。第1实施方式的放音装置26根据控制装置24的指示对间投词语音Vy和应答语音Vz进行播放。

存储装置22对由控制装置24执行的程序、由控制装置24使用的各种数据进行存储。例如半导体记录介质或者磁记录介质等公知的记录介质、或者多个记录介质的组合可以作为存储装置22而任意地采用。具体地说，存储装置22对表示停顿的间投词语音Vy的语音信号Y1进行存储。在下面的说明中，例示出表示停顿“这个～”的任意的韵律的、表示间投词语音Vy的语音信号Y1存储于存储装置22的情况。在本实施例中，作为韵律而使用音高。语音信号Y1事先被收录，例如作为wav形式等任意的形式的语音文件而存储于存储装置22。

控制装置24是对语音对话装置100的各要素集中地控制的运算处理装置(例如CPU)。控制装置24执行在存储装置22中存储的程序，由此实现用于使与利用者U的对话成立的多个功能(应答生成部41、音高调整部43(韵律调整部)、第1播放指示部45及第2播放指示部47)。此外，也可以采用下述结构，即，将控制装置24的功能通过多个装置(即，系统)实现的结构，或者将控制装置24的功能的一部分由专用的电子电路分担的结构。

图1的应答生成部41生成针对说话语音Vx的应答语音Vz。第1实施方式的应答生成部41通过针对说话信号X的语音识别和利用了该语音识别的结果的语音合成，生成表示应答语音Vz的应答信号Z。具体地说，应答生成部41，第1是通过针对由拾音装置20生成的说话信号X的语音识别而对说话语音Vx的内容(以下称为“说话内容”)进行确定。在第1实施方式中，对说话语音Vx“请告诉学校的地址？”这一说话内容进行确定。在说话信号X的语音识别时，可任意地采用例如利用了HMM(Hidden Markov Model)等音响模型和表示语言性的限制的语言模型的识别技术等公知的技术。

应答生成部41，第2是对确定出的说话内容(音韵)的意思进行解析，生成与说话内容相对应的应答的字符串(以下称为“应答字符串”)。在应答字符串的生成时，可任意地采用公知的自然语言处理技术。在第1实施方式中，能够生成与说话语音Vx“请告诉学校的地址？”相对应的应答字符串“第三条街的拐角”。应答生成部41，第3是生成应答信号Z，该应答信号Z表示发出了所生成的应答字符串的语音(即，应答语音Vz)。在应答信号Z的生成时，可任意地采用公知的语音合成技术。例如，从根据特定的发声者的收录语音而事先采集的多个语音片段的集合中依次选择与应答字符串相对应的语音片段，通过将该语音片段在时间轴上相互地连结，从而生成应答信号Z。应答信号Z表示的应答语音Vz的音高，例如能够与应答字符串的内容或者语音合成处理的内容相应地变化。所生成的应答信号Z由第2播放指示部47供给至放音装置26。此外，生成应答信号Z的方法并不限定于语音合成技术。例如，能够适当地采用下述结构，即，将说话内容不同的多个应答信号Z存储于存储装置22，对该多个应答信号Z中的与特定的说话内容相对应的应答信号Z进行选择而供给至放音装置26。多个应答信号Z各自事先被收录，例如作为wav形式等任意形式的语音文件而存储于存储装置22。

在这里，在现实的人依次地发出多个语音的情况下，各个语音的音高相互地受到影响。例如，先发出的语音的音高依赖于后续的语音的音高。特别地，在说话者依次发出间投词语音和应答语音的情况下，存在下述倾向，即，间投词语音的音高依赖于紧接其之后的应答语音的音高。因此，在第1实施方式中，使与应答语音Vz的音高相对应的音高的间投词语音Vy进行播放。

图1的音高调整部43与应答语音Vz的音高Pz相应地对间投词语音Vy的音高进行调整。第1实施方式的音高调整部43将在存储装置22中存储的语音信号Y1的音高与应答语音Vz的音高Pz相应地进行调整，由此生成间投词语音Vy的语音信号Y2。

图1的第1播放指示部45在等待期间Q内，对由音高调整部43调整音高后的间投词语音Vy的播放进行指示。具体地说，第1播放指示部45将间投词语音Vy“这个～”的语音信号Y2供给至放音装置26。如图2中例示这样，在从说话语音Vx的终点tx至应答语音Vz的播放开始的时刻tZ为止的等待期间Q内的中途的时刻tY，对间投词语音Vy的播放进行指示。

第2播放指示部47对由第1播放指示部45实现的间投词语音Vy播放后的应答语音Vz的播放进行指示。具体地说，第2播放指示部47在间投词语音Vy播放后(在典型情况下为紧接间投词语音Vy的播放之后)，将由应答生成部41生成的应答信号Z供给至放音装置26。

放音装置26将从第1播放指示部45供给的语音信号Y2所表示的间投词语音Vy“这个～”和从第2播放指示部47供给的应答信号Z所表示的应答语音Vz“第三条街的拐角”依次地播放。此外，为了方便而省略了将语音信号Y2和应答信号Z从数字变换为模拟的D/A变换器的图示。根据以上的说明所理解那样，如果利用者U发出说话语音Vx“请告诉学校的地址？”，则播放表示停顿的间投词语音Vy“这个～”，在间投词语音Vy的播放之后播放应答语音Vz“第三条街的拐角”。

图3是第1实施方式的控制装置24执行的处理的流程图。例如以利用者U的说话语音Vx的结束为契机而开始图3的处理。

如果开始图3的处理，则应答生成部41从拾音装置20取得表示说话语音Vx“请告诉学校的地址？”的说话信号X，通过针对该说话信号X的语音识别对说话内容进行确定(SA1)。应答生成部41对确定出的说话内容的意思进行解析，生成与说话内容相对应的应答字符串“第三条街的拐角”(SA2)。应答生成部41生成应答信号Z，该应答信号Z表示发出了所生成的应答字符串“第三条街的拐角”的应答语音Vz(SA3)。

音高调整部43对应答语音Vz的音高Pz进行确定(SA4)。音高Pz如图2中例示这样，例如是应答语音Vz中的包含终点tz的末尾区间Ez内的音高的最低值(以下称为“最低音高”)Pzmin。末尾区间Ez例如是应答语音Vz中的终点tz以前的规定长度(例如几秒)范围的一部分的区间。例如，根据图2理解那样，在陈述句“第三条街的拐角”的应答语音Vz中至终点tz为止存在音高单调地降低的倾向。因此，应答语音Vz的终点tz处的音高(最低音高Pzmin)作为音高Pz被确定。此外，末尾区间Ez并不限定于应答语音Vz中的包含终点tz的规定比例的区间。例如，也能够将应答语音Vz中的包含终点tz的规定比例的区间作为末尾区间Ez而划定。另外，也能够将应答语音Vz中的终点tz附近的时刻(与终点tz相比过去的时刻)作为终点而对末尾区间Ez进行划定(即，将应答语音Vz中的终点tz附近的区间除外而对末尾区间Ez进行确定)。根据以上的例示理解那样，末尾区间Ez作为应答语音Vz中的终点tz附近的区间而统括地表现。

音高调整部43与关于应答语音Vz“第三条街的拐角”而确定出的音高Pz(最低音高Pzmin)相应地对间投词语音Vy“这个～”的音高进行调整(SA5)。在现实的对话的情况下，存在下述倾向，即，针对说话者的说话语音，对话对象发出的间投词语音的终点附近的音高与紧接间投词语音之后由对话对象发出的应答语音的终点附近的最低音高一致。因此，第1实施方式的音高调整部43以使间投词语音Vy“这个～”的音高与关于应答语音Vz“第三条街的拐角”而确定出的音高Pz一致的方式进行调整。具体地说，音高调整部43对该间投词语音Vy的音高进行调整，以使得表示间投词语音Vy的语音信号Y1中的时间轴上的特定的时刻(以下称为“目标点”)τy下的音高与应答语音Vz的音高Pz一致，由此生成表示间投词语音Vy的语音信号Y2。目标点τy的优选例为间投词语音Vy的终点ty。具体地说，音高调整部43如图2中例示这样，以使表示间投词语音Vy“这个～”的语音信号Y1的终点ty的音高与应答语音Vz的音高Pz一致的方式对语音信号Y1的遍及整个区间的音高进行调整(音高位移Pitchshift)，由此生成语音信号Y2。此外，在音高的调整时可任意地采用公知的技术。另外，目标点τy并不限定于间投词语音Vy的终点ty。例如，也能够将间投词语音Vy的起点(时刻tY)作为目标点τy而对音高进行调整。

第1播放指示部45在等待期间Q内，将由音高调整部43生成的语音信号Y2供给至放音装置26，由此对调整音高后的间投词语音Vy“这个～”的播放进行指示(SA6)。第2播放指示部47在间投词语音Vy“这个～”播放后，将由应答生成部41生成的应答信号Z供给至放音装置26，由此对应答语音Vz“第三条街的拐角”的播放进行指示(SA7)。通过以上说明的处理，针对由利用者U发出的说话语音Vx“请告诉学校的地址？”，实现将间投词语音Vy“这个～”和应答语音Vz“第三条街的拐角”依次地播放的语音对话。

如以上说明所述，在第1实施方式中，在播放针对说话语音Vx的应答语音Vz之前播放间投词语音Vy。因此，能够实现在说话者的说话语音和由对话对象发出的应答语音之间模拟出由对话对象发出某种语音(典型情况为间投词语音)这样的现实的对话倾向的自然的语音对话。另外，在第1实施方式中，与应答语音Vz的音高相应地对间投词语音Vy的音高进行调整，因此能够实现间投词语音的音高受到在紧接该间投词语音之后发出的应答语音的音高的影响这样的模拟出现实的说话者的倾向的自然的语音对话。

＜第2实施方式＞

对本发明的第2实施方式进行说明。此外，在以下例示的各方式中对作用、功能与第1实施方式相同的要素，沿用在第1实施方式的说明中使用的标号而将各个详细的说明适当地省略。

第1实施方式的语音对话装置100在从说话语音Vx至应答语音Vz的播放为止的等待期间Q内播放间投词语音(先发语音的例示)Vy。与其相对，第2实施方式的语音对话装置100如图4中例示这样，在等待期间Q内，在播放与第1实施方式相同的间投词语音(先发语音的例示)Vy的基础上，在播放间投词语音Vy之前还播放其他间投词语音(初始语音的例示)Vw。即，间投词语音(初始语音)Vw是先于间投词语音(先发语音)Vy而播放的语音。根据以上的说明理解那样，在等待期间Q内依次地播放间投词语音Vw和间投词语音Vy。间投词语音Vw是与间投词语音Vy同样地表示间投词的语音。第2实施方式的间投词语音Vw的说话内容(音韵)与间投词语音Vy的说话内容不同。

在现实的对话的场景中，根据说话者的说话内容，有时直至应答语音的发声为止由对话对象发出多个间投词语音。例如，在现实的对话中，在说话语音发出“请告诉学校的地址？”的情况下，在依次地发出表示针对说话语音的搭腔的“嗯”的间投词语音和表示停顿“这个～”的间投词语音后，发出应答语音“第三条街的拐角”。考虑以上的倾向，第2实施方式的语音对话装置100如前述那样，在等待期间Q内播放多个间投词语音Vw、Vy。在第2实施方式中，例示出将表示搭腔的间投词语音Vw“嗯”和表示停顿的间投词语音Vy“这个～”在等待期间Q内依次地播放的情况。

另外，在现实的对话中，在从说话者的说话语音至对话对象的应答语音Vz为止，在由对话对象发出多个间投词语音的情况下，存在紧接说话语音之后发出的语音的音高依赖于说话语音的音高、在紧接应答语音之前发出的语音的音高依赖于应答语音的音高这样的倾向。将以上的倾向作为前提，在第2实施方式中，播放与说话语音Vx的音高相对应的音高的间投词语音Vw和与应答语音Vz的音高相对应的音高的间投词语音Vy。

第2实施方式的语音对话装置100与第1实施方式同样地，具有拾音装置20、存储装置22、控制装置24和放音装置26。第2实施方式的拾音装置20与第1实施方式同样地，生成表示利用者U的说话语音Vx的说话信号X。第2实施方式的存储装置22在与第1实施方式相同的表示间投词语音Vy“这个～”的语音信号Y1的基础上，对表示规定的音高的间投词语音Vw“嗯”的语音信号W1进行存储。

第2实施方式的控制装置24与第1实施方式同样地，实现为了使与利用者U的对话成立的多个功能(应答生成部41、音高调整部43、第1播放指示部45及第2播放指示部47)。第2实施方式的应答生成部41与第1实施方式同样地，生成针对说话语音Vx“请告诉学校的地址？”的应答语音Vz“第三条街的拐角”。具体地说，应答生成部41通过针对说话语音Vx“请告诉学校的地址？”的说话信号X的语音识别而对说话内容进行确定，生成表示针对说话内容的应答字符串的应答信号Z。

第2实施方式的音高调整部43(韵律调整部)，与利用者U的说话语音Vx的音高Px相应地对间投词语音Vw的音高进行调整，并且与应答语音Vz的音高Pz相应地对间投词语音Vy的音高进行调整。关于间投词语音Vw的音高的调整，音高调整部43将在存储装置22中存储的语音信号W1的音高与说话语音Vx的音高Px相应地调整，由此生成间投词语音Vw的语音信号W2。此外，关于间投词语音Vy的音高的调整，音高调整部43与第1实施方式同样地，将语音信号Y1所表示的初始的间投词语音Vy“这个～”与应答语音Vz的音高Pz相应地调整，由此生成表示间投词语音Vy“这个～”的语音信号Y2。

第2实施方式的第1播放指示部45在等待期间Q内，对通过音高调整部43调整音高后的间投词语音Vw“嗯”及间投词语音Vy“这个～”的播放进行指示，即，将表示间投词语音Vw的语音信号W2和表示间投词语音Vy的语音信号Y2供给至放音装置26。具体地说，第1播放指示部45对图4的等待期间Q中的间投词语音Vw的播放和等待期间Q中的间投词语音Vw播放后的间投词语音Vy的播放进行指示。

第2实施方式的第2播放指示部47与第1实施方式同样地，将在间投词语音Vy播放后由应答生成部41生成的应答信号Z供给至放音装置26，由此对间投词语音Vy播放后的应答语音Vz的播放进行指示。

放音装置26在将从第1播放指示部45供给的语音信号W2所表示的间投词语音Vw“嗯”和语音信号Y2所表示的间投词语音Vy“这个～”依次地播放之后，对从第2播放指示部47供给的应答信号Z所表示的应答语音Vz“第三条街的拐角”进行播放。在从说话语音Vx的终点tx至应答语音Vz的播放开始的时刻tZ为止的等待期间Q内的中途的时刻tW，对间投词语音Vw的播放进行指示，在从终点tw至时刻tZ为止的期间的中途的时刻tY对间投词语音Vy的播放进行指示。根据以上的说明理解那样，如果利用者U发出说话语音Vx“请告诉学校的地址？”，则在表示搭腔的间投词语音Vw“嗯”和表示停顿的间投词语音Vy“这个～”的播放之后对应答语音Vz“第三条街的拐角”进行播放。

图5是第2实施方式的控制装置24执行的处理的流程图。在第2实施方式中，对在第1实施方式中例示出的步骤SA1～SA7，追加用于使间投词语音Vw播放的处理(SB1～SB3)。从处理的开始至生成应答信号Z的处理(SA3)为止与第1实施方式相同。

音高调整部43根据由拾音装置20生成的说话信号X对说话语音Vx“请告诉学校的地址？”的音高Px进行确定(SB1)。音高Px如图4中例示这样，例如是说话语音Vx中的包含终点tx的末尾区间Ex内的音高的最低值(以下称为“最低音高”)Pxmin。末尾区间Ex例如是说话语音Vx中的终点tx之前的包含规定长度(例如几秒)的一部分的区间。例如，如根据图4理解那样，在疑问句的说话语音Vx“请告诉学校的地址？”中在终点tx的附近存在音高上升的倾向。因此，说话语音Vx的音高的推移从降低转换为上升的极小点处的音高(最低音高Pxmin)作为音高P被确定。此外，末尾区间Ex并不限定于说话语音Vx中的包含终点tx的规定比例的区间。例如，也能够将说话语音Vx中的包含终点tx的规定比例的区间作为末尾区间Ex进行划定。另外，也能够将说话语音Vx中的终点tx附近的时刻(与终点tx相比过去的时刻)作为终点而划定末尾区间Ex(即，将说话语音Vx中的终点tx附近的区间除外而对末尾区间Ex进行确定)。根据以上的例示理解那样，末尾区间Ex作为说话语音Vx中的终点tx附近的区间而统括地表现。

音高调整部43与关于说话语音Vx“请告诉学校的地址？”而确定出的音高Px(最低音高Pxmin)相应地对间投词语音Vw“嗯”的音高进行调整(SB2)。具体地说，第2实施方式的音高调整部43对该间投词语音Vw的音高进行调整，以使得间投词语音Vw的语音信号W1中的时间轴上的特定的时刻(以下称为“目标点”)τw处的音高与关于说话语音Vx而确定出的最低音高Pxmin一致，由此生成表示间投词语音Vw“嗯”的语音信号W2。目标点τw的优选例为构成间投词语音Vw的多个音拍(Mora)中的特定的音拍(在典型情况下为最后的音拍)的起点。例如，如果设想“嗯(en)”这样的间投词语音Vw的语音信号W1，则根据图4理解那样，对语音信号W1的历经整个区间的音高进行调整(音高位移)，以使得语音信号W1中的最后的音拍即“n”的起点的音高与最低音高Pxmin一致，由此生成间投词语音Vw的语音信号W2。此外，在音高的调整时可任意地采用公知的技术。另外，目标点τw并不限定于间投词语音Vw中的最后的音拍的起点。例如，也能够将间投词语音Vw的起点(时刻tW)、终点tw作为目标点τw对音高进行调整。

第1播放指示部45在等待期间Q内，将由音高调整部43生成的语音信号W2供给至放音装置26，由此对调整音高后的间投词语音Vw“嗯(en)”的播放进行指示(SB3)。在对间投词语音Vw的播放进行指示后，间投词语音Vy的音高的调整及播放的指示(SA4～SA6)和应答语音Vz的播放的指示(SA7)与第1实施方式同样地依次执行。

在第2实施方式中也实现与第1实施方式相同的效果。在第2实施方式中，在等待期间Q内播放多个间投词语音Vw、Vy，因此能够实现更适当地模拟出现实的对话的语音对话。另外，在第2实施方式中，在紧接说话语音Vx之后播放的间投词语音Vw以与说话语音Vx的音高Px相对应的音高进行播放，在紧接应答语音Vz之前播放的间投词语音Vy以与应答语音Vz的音高Pz相对应的音高进行播放，因此能够对与现实的对话更接近的自然的语音对话进行模拟。

＜变形例＞

以上例示出的各方式能够多样地变形。以下，对具体的变形方式进行例示。从下面的例示任意地选择出的2个以上的方式，在相互不矛盾的范围能够适当地合并。

(1)在前述的各方式中，在间投词语音Vy播放后，播放了针对说话语音Vx的应答语音Vz，但也能够设想到在利用者U没有发出说话语音Vx的状态下，语音对话装置100对间投词语音Vy及应答语音Vz进行播放的情况。即，能够省略说话语音Vx。语音对话装置100例如在播放间投词语音Vy“这个～”后，播放对利用者U提出提问的语音“今天的天气是？”。另外，也能够采用下述结构，即，播放应答语音Vz，该应答语音Vz表示针对由利用者U通过输入仪器输入的字符串的应答。根据以上的说明理解那样，在间投词语音Vy播放后播放的语音，并不限定于针对说话语音Vx的应答的语音，作为用于对话的(即，构成对话的)对话语音而统括地表现。前述的各方式中的应答语音Vz为对话语音的例示。

(2)在前述的各方式中，在应答语音Vz播放前播放了间投词语音Vy，但在应答语音Vz播放前进行播放的语音的内容并不限定于以上的例示(即，间投词)。例如也能够设想到在应答语音Vz播放前播放具有特定的意思的语音(例如由多个语句构成的文章)。根据以上的说明理解那样，在应答语音Vz播放前播放的语音，作为先于应答语音Vz播放的先发语音而统括地表现，间投词语音Vy为先发语音的例示。此外，关于第2实施方式的间投词语音Vw，也在间投词语音Vy播放前播放了间投词语音Vw，但在间投词语音Vy播放前播放的语音的内容并不限定于以上的例示(即，间投词)。在间投词语音Vy播放前播放的语音，并不限定于表示间投词的语音，作为先于间投词语音Vy播放的初始语音而统括地表现。前述的各方式中的间投词语音Vw为初始语音的例示。

(3)在第2实施方式中，将2个间投词语音Vw、Vy在等待期间Q内播放，但也可采用将大于或等于3个语音在等待期间Q内播放的结构。优选下述结构，即，与等待期间Q内的语音的总数无关地，在紧接说话语音Vx之后播放的语音与说话语音Vx的音高Px相应地调整，紧接应答语音Vz之前的语音与应答语音Vz的音高Pz相应地进行调整。根据以上的结构，与前述的各方式同样地，确保下述效果，即，能够对与现实的对话更接近的自然的语音对话进行模拟。此外，不问在等待期间Q内播放的多个语音的内容(音韵)的差别。

(4)在前述的各方式中，例示出使间投词语音Vy中的目标点τy的音高与应答语音Vz的末尾区间Ez内的最低音高Pzmin一致的结构，但间投词语音Vy的目标点τy处的音高和应答语音Vz的音高Pz的关系并不限定于以上的例示(两者一致的关系)。例如，也能够使间投词语音Vy的目标点τy处的音高，与在应答语音Vz的音高Pz加上或减去规定的调整值(偏移)后的音高一致。调整值是事先选定出的固定值(例如相对于最低音高Pzmin而与5度等的音程相当的数值)或者与来自利用者U的指示相对应的可变值。此外，在第2实施方式中，间投词语音Vw的目标点τw处的音高和说话语音Vx的最低音高Pxmin的关系也并不限定于两者一致的关系。在第2实施方式中采用将调整值设定为相当于八度音的整数倍的数值的结构的情况下，播放将最低音高Pxmin进行八度音偏移后的音高的间投词语音Vw。此外，也能够与来自利用者U的指示相应地对是否应用调整值进行切换。

(5)在前述的各方式中，与应答语音Vz的末尾区间Ez的最低音高Pzmin相应地对间投词语音Vy的音高进行了调整，但应答语音Vz中的任意的时刻的音高Pz也可利用于间投词语音Vy的音高的调整。但是，从实现与现实的对话接近的自然的语音对话这样的观点出发，可优选采用与应答语音Vz的末尾区间(即，终点tz附近)Ez的音高Pz(特别是最低音高Pzmin)相应地进行调整的结构。此外，在第2实施方式中，说话语音Vx中的任意的时刻的音高Px也可利用于间投词语音Vw的音高的调整。

(6)在前述的各方式中，也可优选采用与说话语音Vx相应地，由第1播放指示部45决定是否对间投词语音Vy的播放进行指示的结构。例如也能够与说话内容相应地决定是否对间投词语音Vy的播放进行指示。第1播放指示部45例如在说话内容为疑问句的情况下对间投词语音Vy的播放进行指示，与此相对在说话内容为陈述句的情况下不指示间投词语音Vy的播放。另外，也能够与说话语音Vx的时间长度相应地决定是否对间投词语音Vy的播放进行指示。第1播放指示部45例如在说话语音Vx的时间长度超过规定值的情况下对间投词语音Vy的播放进行指示，与此相对在说话语音Vx的时间长度低于规定值的情况下不指示间投词语音Vy的播放。

另外，也可优选采用与应答语音Vz相应地由第1播放指示部45决定是否对间投词语音Vy的播放进行指示的结构。例如也能够与应答语音Vz的内容相应地决定是否对间投词语音Vy的播放进行指示。第1播放指示部45例如在应答语音Vz的内容是由多个语句构成的文章的情况下对间投词语音Vy的播放进行指示，与此相对在应答语音Vz的内容由1个语句(例如指示代词“那里”)构成的情况下不指示间投词语音Vy的播放。另外，也能够与应答语音Vz的时间长度相应地决定是否对间投词语音Vy的播放进行指示。第1播放指示部45例如在应答语音Vz的时间长度超过规定值的情况下对间投词语音Vy的播放进行指示，与此相对在应答语音Vz的时间长度低于规定值的情况下不指示间投词语音Vy的播放。根据以上的说明理解那样，可优选采用与说话语音Vx或者应答语音Vz相应地决定是否对间投词语音Vy的播放进行指示的结构。根据以上的结构，与不依赖于说话语音Vx及应答语音Vz而始终播放先发语音的结构相比较，能够对与现实的对话更接近的自然的语音对话进行模拟。此外，在第2实施方式中，也能够与说话语音Vx或者应答语音Vz相应地，决定是否对间投词语音Vw的播放进行指示。

(7)在前述的各方式中，在等待期间Q内的中途的时刻tY对间投词语音Vy的播放进行了指示，但也能够将对间投词语音Vy的播放进行指示的时刻tY与说话语音Vx或者应答语音Vz的时间长度相应地设定为可变。例如，在说话语音Vx或者应答语音Vz的时间长度长的情况下(例如在是表示由多个语句构成的文章的应答语音Vz的情况下)，对与开始应答语音Vz的播放的时刻tZ接近的时刻tY进行设定，与此相对在说话语音Vx或者应答语音Vz的时间长度短的情况下(例如在是表示1个语句的应答语音Vz的情况下)，对与说话语音Vx的终点tx接近的时刻tY进行设定。

在这里，利用者U的说话语音Vx的发声和语音对话装置100的应答语音Vz的播放与现实的人彼此的对话同样地，可往复地执行多次。因此，也能够将等待期间Q内的中途的时刻tY与从应答语音Vz的终点tz至由利用者开始下一次的说话语音Vx的时刻tX为止的时间长度相应地设定为可变。根据以上的结构，具有下述优点，即，能够按照利用者U的说话的节奏而实现与语音对话装置100的对话。此外，也可采用将对间投词语音Vy的播放进行指示的时刻tY针对每次对话而随意设定的结构。

(8)在前述的各方式中，例示出将在存储装置22中存储的语音信号Y1的音高与应答语音Vz的音高Pz相应地进行调整，由此生成间投词语音Vy的语音信号Y2的结构，但生成表示间投词语音Vy的语音信号Y2的方法并不限定于以上的例示。例如，可优选采用通过公知的语音合成技术而生成语音信号Y2的结构，该语音信号Y2表示说出了间投词“这个～”的字符串的语音(即，间投词语音Vy)。具体地说，音高调整部43生成语音信号Y2，该语音信号Y2表示与应答语音Vz的音高Pz相应地调整后的音高的间投词语音Vy。即，语音信号Y1向存储装置22的存储可省略。根据以上的说明理解那样，与应答语音Vz的音高Pz相应地对间投词语音Vy的音高进行调整的方法(即，生成间投词语音Vy的语音信号Y2的方法)是任意的。此外，关于第2实施方式的间投词语音Vw的语音信号W2的生成，也能够以与说话语音Vx的音高Px相对应的音高，通过公知的语音合成技术而生成表示说出了间投词“嗯”的字符串的语音(即，间投词语音Vw)的语音信号W2。即，与说话语音Vx的音高Px相应地对间投词语音Vw的音高进行调整的方法(即，生成间投词语音Vw的语音信号W2的方法)是任意的。

(9)在前述的各方式中，与应答语音Vz的音高Pz相应地对间投词语音Vy的音高进行了调整，但成为调整对象的间投词语音Vy的韵律的种类并不限定于音高。韵律(Prosody)是语音的收听者可察觉的语言学及语音学方面的特性，是指仅通过语言的一般性的标记(例如除了表示韵律的特别的标记以外的标记)无法掌握的性质。韵律也可换言为可使收听者想起或推测出说话者的意图或者感情的特性。具体地说，音量、抑扬(语音的调子的变化或者语调)、音调(语音的高低或者强弱)、音长(说话长度)、语速、节拍(音调的时间性的变化的构造)或者腔调(高低或者强弱的腔调(accent))等各种特征，可包含于韵律的概念，但韵律的典型例为音高。如果是与应答语音Vz的韵律相应地对间投词语音Vy的韵律进行调整的结构，则能够实现自然的语音对话。此外，关于与说话语音Vx的音高Px相应地对间投词语音Vw的音高进行调整的第2实施方式，成为调整对象的间投词语音Vw的韵律的种类也并不限定于音高。

(10)在前述的各方式中例示出的语音对话装置100如前述这样，可通过控制装置24与语音对话用的程序的协同动作而实现。语音对话用的程序可通过储存于计算机可读取的记录介质中的方式提供而安装于计算机。记录介质例如为非易失性(non－transitory)的记录介质，优选为CD－ROM等光学式记录介质(光盘)，但也可包含半导体记录介质、磁记录介质等公知的任意形式的记录介质。另外，也能够通过经由通信网的传送方式将程序传送至计算机。

(11)本发明可确定为前述的各方式所涉及的语音对话装置100的动作方法(语音对话方法)。成为语音对话方法的动作主体的计算机(语音对话装置100)，例如是由单个计算机或者多个计算机构成的系统。具体地说，本发明的优选的方式的语音对话方法包含下述步骤：音高调整步骤，与用于对话的对话语音的音高相应地，对先于该对话语音而播放的先发语音的音高进行调整；第1播放指示步骤，对由音高调整步骤调整后的先发语音的播放进行指示；以及第2播放指示步骤，对通过第1播放指示步骤实现的先发语音播放后的对话语音的播放进行指示。

(12)从以上例示出的方式掌握例如以下的结构。

＜方式1＞

本发明的优选的方式(方式1)所涉及的语音对话方法包含下述步骤：音高调整步骤，与用于对话的对话语音的音高相应地，对先于该对话语音而播放的先发语音的音高进行调整；第1播放指示步骤，对在所述音高调整步骤中调整后的所述先发语音的播放进行指示；以及第2播放指示步骤，对通过所述第1播放指示步骤实现的所述先发语音播放后的所述对话语音的播放进行指示。在现实的人将多个语音依次地发出的情况下，存在各个语音的音高相互地受到影响(即，先发的语音的音高依赖于后续的语音的音高)这样的倾向。在以上的方法中，在对话语音的播放之前，对与对话语音的音高相应地调整音高后的先发语音进行播放，因此能够实现模拟出前述的倾向的自然的语音对话。

＜方式2＞

在方式1的优选例(方式2)所涉及的语音对话方法中，所述对话语音为针对说话语音的应答语音，所述先发语音为间投词的语音，在所述第1播放指示步骤中，在从所述说话语音至所述应答语音的播放为止的等待期间内对所述先发语音的播放进行指示。在现实的人彼此的对话中，在说话者的说话语音和由对话对象发出的应答语音之间，存在由对话对象发出一些语音(在典型情况下为间投词)这样的倾向。根据在针对说话语音的应答语音播放前对间投词的语音进行播放的以上的方法，能够实现模拟出现实的对话的倾向的自然的语音对话。另外，在说话者依次地发出间投词语音和应答语音的情况下，间投词语音的音高依赖于紧接之后的应答语音的音高这样的倾向显著。因此，根据在针对说话语音的应答语音播放前对间投词的语音进行播放的以上的方法，能够实现自然的语音对话这样的前述的效果特别有效。

＜方式3＞

在方式1或者方式2的优选例(方式3)所涉及的语音对话方法中，在所述音高调整步骤中，与所述对话语音中的终点附近的音高相应地对所述先发语音的音高进行调整。在以上的方法中，对与对话语音中的终点附近的音高相对应的音高的先发语音进行播放，因此能够实现与现实的对话接近的自然的语音对话这样的效果格外地显著。

＜方式4＞

在方式3的优选例(方式4)所涉及的语音对话方法中，在所述音高调整步骤中，进行调整以使得所述先发语音的终点的音高与所述对话语音中的终点附近的最低音高一致。在以上的方法中，以先发语音的终点的音高与对话语音的终点附近的最低音高一致的方式播放先发语音，因此能够实现与现实的对话接近的自然的语音对话这样的效果格外地显著。

＜方式5＞

在方式2的优选例(方式5)所涉及的语音对话方法中，在所述第1播放指示步骤中，包含与所述说话语音或者所述对话语音相应地决定是否对所述先发语音的播放进行指示。在以上的方法中，与说话语音或者对话语音相应地决定是否播放先发语音，因此与不根据说话语音及对话语音而始终播放先发语音的方法相比较，能够对与现实的对话更接近的自然的语音对话进行模拟。

＜方式6＞

在方式5的优选例(方式6)所涉及的语音对话方法中，在所述第1播放指示步骤中，与所述说话语音或者所述对话语音的时间长度相应地决定是否对所述先发语音的播放进行指示。在以上的方法中，与说话语音或者对话语音的时间长度相应地决定有无先发语音的播放。

＜方式7＞

在方式2的优选例(方式7)所涉及的语音对话方法中，在所述第1播放指示步骤中，在所述等待期间中的与所述说话语音或者所述对话语音的时间长度相对应的时刻对所述先发语音的播放进行指示。在以上的方法中，在等待期间中的与说话语音或者对话语音的时间长度相对应的时刻播放先发语音，因此与对先发语音进行播放的时刻无论说话语音或者对话语音的时间长度如何都不变化的结构相比较，能够降低对利用者造成机械性印象的情况。

＜方式8＞

在方式2的优选例(方式8)所涉及的语音对话方法中，在所述音高调整步骤中，与所述说话语音的音高相应地，对先于所述先发语音而播放的初始语音的音高进行调整，在所述第1播放指示步骤中，对所述等待期间中的所述调整后的所述初始语音的播放和所述等待期间中的该初始语音播放后的所述先发语音的播放进行指示。在以上的方法中，在从说话语音至先发语音的播放为止的期间，对与说话语音的音高相对应的音高的初始语音进行播放，因此能够对与现实的对话更接近的自然的语音对话进行模拟。

＜方式9＞

本发明的优选的方式(方式9)所涉及的语音对话装置具有：音高调整部，其与用于对话的对话语音的音高相应地，对先于该对话语音而播放的先发语音的音高进行调整；第1播放指示部，其对由所述音高调整部调整后的所述先发语音的播放进行指示；以及第2播放指示部，其对通过所述第1播放指示部实现的所述先发语音播放后的所述对话语音的播放进行指示。在现实的人依次地发出多个语音的情况下，存在各个语音的音高相互地受到影响(即，先发的语音的音高依赖于后续的语音的音高)这样的倾向。在以上的结构中，在对话语音的播放之前，对与对话语音的音高相应地调整音高后的先发语音进行播放，因此能够实现模拟出前述的倾向的自然的语音对话。

本申请基于在2017年3月9日申请的日本专利申请(日本特愿2017－044557)，在这里作为参照而被引入。

工业实用性

根据本发明，实现自然的语音对话，因此是有用的。

标号的说明

100……语音对话装置

20……拾音装置

22……存储装置

24……控制装置

26……放音装置

41……应答生成部

43……音高调整部

45……第1播放指示部

47……第2播放指示部

Claims

1.一种语音对话方法，其包含下述步骤：

韵律调整步骤，与用于对话的对话语音的韵律相应地，对先于该对话语音而播放的先发语音的韵律进行调整；

第1播放指示步骤，对在所述韵律调整步骤中调整后的所述先发语音的播放进行指示；以及

第2播放指示步骤，对通过所述第1播放指示步骤实现的所述先发语音播放后的所述对话语音的播放进行指示。

2.根据权利要求1所述的语音对话方法，其中，

所述对话语音为针对说话语音的应答语音，

所述先发语音为间投词的语音，

在所述第1播放指示步骤中，在从所述说话语音至所述应答语音的播放为止的等待期间内对所述先发语音的播放进行指示。

3.根据权利要求1所述的语音对话方法，其中，

所述韵律包含音高，

在所述韵律调整步骤中，与所述对话语音的音高相应地对所述先发语音的音高进行调整。

4.根据权利要求3所述的语音对话方法，其中，

在所述韵律调整步骤中，与所述对话语音中的末尾区间的音高相应地对所述先发语音的音高进行调整。

5.根据权利要求4所述的语音对话方法，其中，

在所述韵律调整步骤中，进行调整以使得所述先发语音的终点的音高与所述对话语音中的所述末尾区间的最低音高一致。

6.根据权利要求2所述的语音对话方法，其中，

在所述第1播放指示步骤中，与所述说话语音或者所述对话语音相应地决定是否对所述先发语音的播放进行指示。

7.根据权利要求6所述的语音对话方法，其中，

在所述第1播放指示步骤中，与所述说话语音或者所述对话语音的时间长度相应地决定是否对所述先发语音的播放进行指示。

8.根据权利要求2所述的语音对话方法，其中，

在所述第1播放指示步骤中，在所述等待期间中的与所述说话语音或者所述对话语音的时间长度相对应的时刻对所述先发语音的播放进行指示。

9.根据权利要求2所述的语音对话方法，其中，

在所述韵律调整步骤中，与所述说话语音的韵律相应地对先于所述先发语音而播放的初始语音的韵律进行调整，

在所述第1播放指示步骤中，对所述等待期间中的所述调整后的所述初始语音的播放和所述等待期间中的该初始语音播放后的所述先发语音的播放进行指示。

10.一种语音对话装置，其具有：

韵律调整部，其与用于对话的对话语音的韵律相应地，对先于该对话语音而播放的先发语音的韵律进行调整；

第1播放指示部，其对由所述韵律调整部调整后的所述先发语音的播放进行指示；以及

第2播放指示部，其对通过所述第1播放指示部实现的所述先发语音播放后的所述对话语音的播放进行指示。