CN104464731A

CN104464731A - 数据收集装置及方法、语音对话装置及方法

Info

Publication number: CN104464731A
Application number: CN201410305619.3A
Authority: CN
Inventors: 宮村祐一; 山崎智弘; 永江尚义; 岩田宪治
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-09-20
Filing date: 2014-06-30
Publication date: 2015-03-25
Also published as: JP6391925B2; JP2015060210A

Abstract

本发明提供一种数据收集装置及方法、语音对话装置及方法。本发明的实施方式涉及数据收集装置、语音对话装置、方法以及程序。提供能够高精度地推测读法的数据收集装置、语音对话装置、方法以及程序。本实施方式的数据收集装置与对话的规定的每个分类对应关联地收集在语音对话中使用的数据，包括语音识别部、对话判定部以及储存部。语音识别部对所发言的语音进行语音识别，生成语音的书写字符串和书写字符串的读法。对话判定部使用书写字符串以及读法中的至少某一方来判定语音对话是否成功。储存部在判定为语音对话成功了的情况下，将书写字符串以及读法与分类对应关联起来进行储存。

Description

数据收集装置及方法、语音对话装置及方法

本申请以日本专利申请2013-196143(申请日：2013年9月20日)为基础，享受该申请的优先的权益。本申请通过参照该申请，而包括该申请的全部内容。

技术领域

本发明的实施方式涉及数据收集装置、语音对话装置、方法以及程序。

背景技术

近年来，作为在便携电话、智能手机等高功能便携终端中搭载的应用程序，利用语音而与用户进行对话的语音对话系统正在增加。在语音对话系统中，如果用户通过发言而对系统委托询问或者应用程序的执行，则通过语音输出、图像显示来进行针对用户的发言的应答。

发明内容

在从系统通过语音输出而向用户进行应答的情况下，一般根据应答文的书写字符串来推测应答文的读法，通过语音合成处理而将读法变换为合成语音来输出。因此，在推测出错误的读法的情况下，有可能无法输出正确的应答语音而传递错误的信息。特别是，1个书写有多个读法的单词的读法区分是困难的。

因此，有如下方法：在进行语音合成处理时，通过使用根据前一个用户的发言的语音识别结果而制作的读法信息，从而防止具有多个读法的单词的读法错误。

但是，在该方法中，设想了将前一个用户发言中包含的人名等单词再次利用于应答文，通过以与用户发言所发出的读法相同的方式宣读再次利用的单词，从而防止读法错误。因此，对于前一个用户发言中未包含的单词，无法防止读法错误。

本发明要解决的课题在于，提供一种能够高精度地推测读法的数据收集装置、语音对话装置、方法以及程序。

本发明的一个实施方式的数据收集装置，与对话的规定的每个分类对应关联地收集在语音对话中使用的数据，该数据收集装置包括语音识别部、对话判定部以及储存部。语音识别部对所发言的语音进行语音识别，生成与该语音对应的书写字符串和该书写字符串的读法。对话判定部使用所述书写字符串以及所述读法中的至少某一方来判定所述语音对话是否成功。在判定为所述语音对话成功了的情况下，储存部将所述书写字符串以及所述读法与所述分类对应关联起来进行储存。

根据上述结构的装置，能够高精度地推测读法。

附图说明

图1是示出第1实施方式的语音对话装置的框图。

图2是示出领域以及对话步骤的概念的图。

图3是示出脚本DB中储存的数据的一个例子的图。

图4是示出书写读法DB中储存的书写读法以及读法的一个例子的图。

图5是示出数据收集装置的动作的流程图。

图6是示出对话判定部中的对话判定处理的具体例的流程图。

图7是示出第1实施方式的语音对话装置的动作的流程图。

图8是示出第2实施方式的语音对话装置的框图。

图9是示出第2实施方式的语音对话装置的动作的流程图。

具体实施方式

以下，参照附图，详细说明该公开的一个实施方式的数据收集装置、语音对话装置、方法以及程序。另外，在以下的实施方式中，关于附加了同一编号的部分，设为进行同样的动作，省略重复的说明。

(第1实施方式)

参照图1的框图，说明第1实施方式的语音对话装置。

第1实施方式的语音对话装置100包括语音识别部101、对话判定部102、脚本数据库103(以下，称为脚本DB103)、书写读法数据库104(以下，称为书写读法DB104)、应答文生成部105、中间语言化部106以及语音合成部107。

另外，将语音识别部101、对话判定部102、脚本DB103以及书写读法DB104汇总起来还称为数据收集装置。

语音识别部101将由用户所发言的语音作为输入语音来接收，对输入语音进行语音识别处理，生成与输入语音对应的书写字符串和与书写字符串对应的读法。书写字符串和读法既可以按照单词单位来生成，也可以按照分句单位、短文单位来生成。书写字符串在本实施方式中还包括是1个文字的情况。另外，读法也可以是音素串(phonemestring)。在语音识别处理中，例如利用隐马尔可夫模型(HiddenMarkov Model：HMM)等，通过一般的方法进行既可，所以此处省略详细的说明。

对话判定部102从语音识别部101接收书写字符串和读法中的至少某一方，参照书写字符串和读法中的至少某一方以及后述的脚本DB103，判定对话是否成功。

关于对话是否成功的判定，例如，如果在成为当前的判定对象的发言的接下来的发言中未包含有预先准备的重说表现则判定为成功，如果包含有预先准备的重说表现则判定为失败既可。作为重说表现，例如，可以举出“不是那样(日文：そうじゃなくて)”、“不是(日文：いやいや)”、“不对不对(日文：ちがうちがう)”这样的表现。另外，作为其他判定方法，也可以根据在从语音识别部101接收到的书写字符串中是否包括必要的信息而进行判定。例如，如果在书写字符串中包含有日期时间表现则判定为对话成功，如果未包含有日期时间表现则判定为失败既可。另外，在本实施方式中，示出了使用书写字符串来判定对话是否成功的例子，但不限于此，也可以使用读法来判定对话是否成功。另外，在仅通过利用重说表现的方法来进行对话成功与否的判定的情况下，在判定成功与否时，也可以没有脚本DB103。

脚本DB103储存对用户与装置之间的对话的顺序等进行决定的对话步骤的集合。脚本DB103中储存的对话步骤被分类为1个以上的群组。将该群组称为领域(Domain)。参照图3，在后面详细叙述脚本DB103。

书写读法DB104将单词的书写字符串与单词的1个以上的读法对应关联地进行储存。关于单词的读法，既可以预先给出，也可以从对话判定部102接收在对话判定部102中判定为成功的单词的书写字符串和读法，并分别对应关联地进行储存而积攒。参照图4，在后面详细叙述书写读法DB104。

应答文生成部105从对话判定部102接收判定结果，参照脚本DB103，制作与判定结果对应的向用户的应答文。作为应答文的生成方法，考虑各种方法，但在本实施方式中，参照脚本DB103中的当前判定中的对话步骤来制作应答文。

中间语言化部106从应答文生成部105接收应答文，参照在书写读法DB104中储存的书写字符串以及读法，推测在应答文中包含的单词的读法。

语音合成部107从中间语言化部106接收推测出单词的读法而得到的应答文，对推测出读法而得到的应答文进行语音合成来制作应答语音。另外，在应答语音的制作中，使用一般的语音合成系统既可，所以此处省略说明。

接下来，参照图2，说明在脚本DB103中储存的领域以及对话步骤的概念。

在本实施方式的对话系统中，设想为通过使一个或者多个对话步骤转移来进行用户和系统的对话。

在图2中，作为对话整体的领域即对话整体领域201的下位领域，包括百货店引导领域202、旅行预约领域203。另外，各对话步骤分别与领域对应关联。具体而言，例如，步骤251“S1：问候”属于对话整体领域201，步骤253“S2：确认目的或者前往目的地”属于旅行预约领域203以及作为其上位领域的对话整体领域201。

在图2的对话脚本的转移例中，作为对话脚本的各对话步骤，首先有步骤251“S1：问候”，作为接下来的转移而有步骤252“S2：要求的听取”，如果用户的发言是与旅行有关的发言，则转移到步骤253“S3：确认目的或者前往目的地”。而且，如果用户的发言是旅行的目的，则转移到步骤254“S4：旅行计划介绍”，如果用户的发言是旅行目的地，则转移到步骤255“S5：确认日期时间”。

关于各对话步骤的转移顺序、各对话步骤中的处理，既可以预先设计，也可以在与用户的对话中变更转移顺序。

接下来，参照图3，说明脚本DB103中储存的数据的一个例子。

在脚本DB103中储存的表格300包括步骤名301、应答文302、转移条件303、转移目的地步骤304以及领域305，并分别对应关联起来。

步骤名301是表示对话步骤的标识符。应答文302是表示作为向用户的应答而输出的应答文的文例的字符串。转移条件303表示用于向接下来的对话步骤转移的条件。转移目的地步骤304表示成为转移目的地的对话步骤。领域305表示由步骤名301表示的对话步骤所属的领域。另外，还有时根据对话步骤的转移条件，对1个步骤名301，对应关联多个转移条件303以及转移目的地步骤304。

例如，步骤名301“S3(确认目的或者前往目的地)”、应答文302“期望的旅行目的地是？”、转移条件303“场所表现”以及转移目的地步骤304“S5(确认日期时间)”、转移条件303“目的表现”以及转移目的地步骤304“S4(旅行计划介绍)”、以及领域305“旅行预约、对话整体”被对应关联。

即，可知在步骤名301“S3(确认目的或者前往目的地)”中的处理中，如果在用户的发言中包含有表示场所的单词，则转移到“S5(确认日期时间)”，如果在用户的发言中包含有表示目的的单词，则转移到“S4(旅行计划介绍)”。

另外，在1个步骤属于多个领域的情况下，优选通过在之前记述下位的领域，从而使得能够判别领域的从属关系。例如，可知在步骤名301“S3”的情况下，在对话整体领域的下位领域中存在旅行预约领域。

另外，在图3的例子中，按照转移条件来决定对话步骤的转移目的地，但不限于此，既可以随机，也可以根据概率来决定。

接下来，参照图4，说明书写读法DB104中储存的书写字符串以及读法的一个例子。

在图4所示的表格400中，针对每个书写401，分别对应关联地储存了读法402、读法频度评分403。

书写401表示单词的书写字符串。读法402表示书写字符串的读法。读法频度评分403是针对每个领域计算出的表示作为读法402的可能性的评分。此处，在特定的领域中的对话中，作为书写401的读法，读法402出现的频度是读法频度评分403。另外，在对话整体领域的读法频度评分403中，储存将在对话整体领域的下位领域中计算了的频度进行合计而得到的值。

具体而言，例如，对于书写401日文“便(对应中文汉字：便)”，对应关联有2个读法402。针对读法402“ben(日文平假名：べん)”，分别对应关联有对话整体领域的读法频度评分403“6”、旅行预约领域的读法频度评分“1”以及百货店领域的读法频度评分“5”。另外，针对另一读法402“bin(日文平假名：びん)”，分别对应关联有对话整体的读法频度评分403“4”、旅行预约领域的读法频度评分403“4”以及百货店领域的读法频度评分403“0”。

另外，在本实施方式中，设想在书写读法DB104中保持了单一的书写读法表格的情况，但也可以针对对话系统利用者、利用者群组的每一个，准备书写读法DB。例如，可以举出“A君的书写读法数据库”、“C社社员用的书写读法数据库”。由此，例如在书写读法数据库的评分中反映出在“A君”的朋友中“长田(osada(日文：長田(おさだ)))君”比“长田(nagata(日文：長田(ながた)))君”更多这样的信息，能够实现与利用者相称的读法区分。另外，作为确定利用者的方法，考虑各种方法。例如，可以举出如下方法：在对话系统中安装照相机，通过人脸识别技术来确定照相机拍摄的利用者是谁。

而且，并非针对每个利用者准备书写读法数据库，而是准备每个利用者的领域，从而也能够得到同等的效果。例如，在书写读法DB104中准备“A君的领域”这样的领域既可。

接下来，参照图5的流程图，说明语音对话装置中包含的数据收集装置的动作。

在步骤S501中，语音识别部101接收输入信号，根据输入信号而生成书写字符串和读法。

在步骤S502中，语音识别部101将书写字符串和读法作为1组的配对来生成。

在步骤S503中，对话判定部102判定与用户的对话是否成功。如果对话成功，则进入到步骤S504，在对话失败了的情况下，结束处理。

在步骤S504中，对话判定部102更新书写读法DB104。通过以上，结束数据收集装置的处理。

接下来，举出具体例，说明数据收集装置的数据收集处理。

此处，设想当前的对话步骤是“S5：确认日期时间”，且作为输入语音而输入日文“新千歳便の……(中文：新千岁航班的……)”的情况。

通过语音识别部101的语音识别处理，得到日文书写字符串“新千歳便の……”和读法“sintitosebin(日文平假名：しんちとせびん)”。接下来，得到书写字符串的单词和该单词的读法的组、即“(便、bin)”。接下来，对话判定部102在当前的对话步骤中，由于在输入语音中包含有“新千歳便”这样的地名，所以判定为对话成功。对话判定部102根据该判定结果，由于脚本DB103中的对话步骤“确认日期时间”属于旅行预约领域以及对话整体领域，所以在书写读法DB104中储存的表格的“书写：便、读法：bin”中，使对话整体领域和旅行预约领域的读法频度评分各递增1。

另外，在一次的更新中变动的评分的值无需一定是1，也可以根据语音识别结果的可靠度、判定对话是否成功的依据而变动。

例如，在用户发言中作为重说表现而包括“不是”的情况下，在上述例子中判定为对话失败，但“不是”这样的发言未必是重说表现，所以也可以判定为对话成功，而进行将评分的值设为0.5而使读法频度评分递增这样的处理。

作为其他例子，设想如下情况：作为输入语音而输入日文“円からドル(读法：enkaradoru)……”，在语音识别部101中错误识别为日文书写字符串“便からドル……”、读法“benkaradoru(日文平假名：べんからドル)……”的情况。

在该情况下，作为书写字符串的单词和该单词的读法的组，得到“(便、ben)”。语音对话装置根据错误识别结果“便からドル……”，进行对话步骤的转移、应答文生成，所以进行与用户的意图不同的举动。此时，如果用户进行了“不是那样”等进行否定的内容的发言，则对话判定部102判定为是对话失败了的情况，不进行书写读法DB104的更新而结束处理。

接下来，参照图6的流程图，说明对话判定部102中的具体的对话判定处理的一个例子。

此处，示出当前的对话步骤是“确认日期时间”的情况的判定处理。

在步骤S601中，应答文生成部105参照在图3所示的脚本DB103中储存的与步骤名301“S2(确认日期时间)”对应的应答文302，生成应答文“出发日是什么时候？”，并从语音合成部107向用户输出该应答文的应答语音。

在步骤S602中，语音识别部101取得来自用户的发言。

在步骤S603中，对话判定部102判定在来自用户的发言中是否包含表示日期时间的表现。作为判定是否包含有表示日期时间的表现的方法，考虑使用利用标准表现的匹配的方法。

例如，如果用户发言的书写字符串的一部分与标准表现“￥d日.*￥d￥d：￥d￥d”匹配，则判定为包含日期时间表现。另外，“￥d”表示0～9的任意的数字，“.”表示任意的文字，“*”表示零或者1次以上的重复。作为这以外的方法，可以是灵活运用预先对单词赋予了日期时间表现、场所表现这样的标签的单词辞典的方法，也可以根据在用户发言中是否出现附加了日期时间表现的标签的单词而判定是否包含日期时间表现。而且，也可以使用统计模型，判定是否包括日期时间表现。

在包括表示日期时间的表现的情况下，进入到步骤S604，在不包括表示日期时间的表现的情况下，返回到步骤S601，通过相同的应答文而反复进行同样的处理。

在步骤S604中，认为对话成功，所以参照脚本DB103，从当前的对话步骤转移到成为转移目的地的对话步骤。之后，参照脚本DB103，根据各对话步骤的转移条件，进行同样的处理。通过以上，结束对话判定部102的对话判定处理。

接下来，参照图7的流程图，说明第1实施方式的语音对话装置100的动作。

在步骤S701中，语音识别部101根据输入语音，生成书写字符串和读法。

在步骤S702中，应答文生成部105根据书写字符串以及脚本DB103中储存的脚本，生成应答文。关于应答文的生成，在本实施方式中从脚本DB103中使用当前的对话步骤的应答文302既可，但不限于此，也可以预先制作应答文的模板，根据用户的发言内容而在模板中嵌入信息来制作应答文。

在步骤S703中，中间语言化部106参照书写读法DB104，推测应答文的读法。

在步骤S704中，语音合成部107根据应答文的读法进行语音合成处理，生成应答语音。通过以上，结束语音对话装置100的动作。

接下来，举出具体例，说明图7的步骤S703所示的中间语言化部106的动作。此处，设想推测从语音对话装置向用户的日文应答文“新千歳便は17时です(中文：新千岁航班是17点)”的读法的情况。

首先，对作为应答文的“新千歳便は17时です”进行词素解析，作为单词串，得到日文“新千歳”“便”“は”“17”“时”“です”。然后，参照书写读法DB104，推测各单词的读法。例如，在单词“便”的情况下，参照当前的对话步骤所属的领域，参照当前的对话步骤所属的领域中的处于最下位的领域的评分。此处，对话步骤“确认日期时间”所属的领域中的处于最下位的领域是“旅行预约领域”，所以参照旅行预约领域的读法频度评分。参照图4，在旅行预约领域中，针对单词“便”，读法402“ben”的读法频度评分403是1，读法402“bin”的读法频度评分403是4，所以作为单词“便”的读法，推测“bin”。针对其他单词也同样地进行处理既可。

根据以上所示的第1实施方式，将根据用户的发言的语音识别结果而制作出的单词的书写和读法对应关联，与领域对应关联地储存到数据库中，从而能够积攒需要读法区分的单词的读法的似然度信息，能够根据领域进行读法区分。由此，能够高精度地推测读法。

(第2实施方式)

在第2实施方式中，不同点在于，根据读法的可靠度，在画面中显示应答文的读法。

参照图8，说明第2实施方式的语音对话装置的框图。

第2实施方式的语音对话装置800包括语音识别部101、对话判定部102、脚本DB103、书写读法DB104、应答文生成部105、语音合成部107、中间语言化部801以及图像显示部802。

语音识别部101、对话判定部102、脚本DB103、书写读法DB104、应答文生成部105以及语音合成部107进行与第1实施方式同样的动作，所以省略此处的说明。

中间语言化部801从应答文生成部105接收应答文，与第1实施方式同样地推测应答文的读法，而且，计算表示应答文的读法是否正确的可靠度，根据可靠度来决定对于应答文是进行语音输出还是进行图像显示。

图像显示部802从中间语言化部106接收应答文，在显示器中显示应答文的字符串。在显示应答文时，既可以原样地显示应答文的书写字符串，也可以在画面中显示时对应答文进行变换来显示。例如，在通过语音来输出应答文的情况下，是口语的句子的情况较多，所以在画面中显示时变换为书面语言来显示。具体而言，使用如下方法即可：如果应答文的句尾是日文“～だよ(～dayo)”这样的句子，则变换为日文“～です(～desu)”这样的敬语。

接下来，参照图9的框图，说明第2实施方式的语音对话装置800的动作。

关于步骤S701至步骤S704的处理，与图7所示的步骤相同，所以此处省略说明。

在步骤S901中，中间语言化部106计算与应答文的读法有关的可靠度。作为可靠度的计算方法，例如使用在书写读法DB104中储存的读法的第1位和第2位的评分差既可。如果可靠度大于或等于阈值，则进入到步骤S704，如果可靠度小于阈值，则进入到步骤S902。

在步骤S902中，判定为应答文的读法的可靠度低，所以图像显示部802将应答文的书写字符串显示到画面中。通过以上，结束第2实施方式的语音对话装置800的动作。

接下来，说明可靠度的计算方法的具体例。在图4所示的书写读法DB104的情况下，关于旅行预约领域中的书写401“长田(日文：長田)”的读法，第1位的读法402是“osada(日文平假名：おさだ)”且读法频度评分403是3，第2位的读法402是“nagata(日文平假名：ながた)”且读法频度评分403是2，所以评分差成为1。此处，将在应答文中包含的单词中最小的评分差设为应答文的读法的推测可靠度，并将评分差小于或等于2定义为推测可靠度低的情况下，如果在应答文中包括“长田”，则不输出语音而输出图像。另外，作为可靠度，既可以使用第1位的读法和第2位的读法的评分的比，也可以在判定为可靠度小于阈值的情况下，进行应答文的语音输出和图像显示这两方。

根据以上示出的第2实施方式，通过根据可靠度来选择语音输出和图像显示，能够正确地向用户传递应答文。

能够根据作为软件的程序，执行在上述实施方式中示出的处理过程中示出的指示。通用的计算机系统预先存储该程序，通过读入该程序，从而也能够得到与利用上述数据收集装置以及语音对话装置得到的效果同样的效果。将在上述实施方式中记述了的指示设为能够使计算机执行的程序，而记录到磁盘(软盘、硬盘等)、光盘(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(蓝光，注册商标)盘等)、半导体存储器、或者与其类似的记录介质。只要是计算机或者嵌入系统可读取的记录介质，其存储形式可以是任意的形式。只要计算机从该记录介质读入程序，并使CPU根据该程序而执行在程序中记述了的指示，就能够实现与上述实施方式的数据收集装置以及语音对话装置同样的动作。当然，在计算机取得程序的情况或者读入程序的情况下，也可以通过网络来取得或者读入。

另外，也可以由根据从记录介质安装到计算机或嵌入系统的程序的指示而在计算机上工作的OS(操作系统)、数据库管理软件、网络等MW(中间件(Middleware))等来执行用于实现本实施方式的各处理的一部分。

而且，本实施方式中的记录介质不限于与计算机或者嵌入系统独立的介质，还包括下载通过LAN、因特网等传递的程序而进行了存储或者临时存储的记录介质。

另外，记录介质不限于1个，本实施方式中的记录介质还包括从多个介质执行本实施方式中的处理的情况，介质的结构可以是任意的结构。

另外，本实施方式中的计算机或者嵌入系统用于根据在记录介质中存储的程序来执行本实施方式中的各处理，可以是个人电脑、微型计算机等由1个构成的装置、或将多个装置进行网络连接而成的系统等任意结构。

另外，本实施方式中的计算机不限于个人电脑，而还包括信息处理设备中包含的运算处理装置、微型计算机等，是能够通过程序来实现本实施方式中的功能的设备、装置的总称。

虽然说明了本发明的几个实施方式，但这些实施方式仅为例示，而并非意图限定发明的范围。它们的新的实施方式能够通过其他各种方式实施，能够在不脱离发明的精神的范围内进行各种省略、置换、变更。这些实施方式、其变形包含于发明的范围、精神内，并且包含于权利要求书记载的发明及其均等的范围内。

Claims

1.一种数据收集装置，与对话的规定的每个分类对应关联地收集在语音对话中使用的数据，其特征在于，具备：

语音识别部，对所发言的语音进行语音识别，生成与该语音对应的书写字符串和该书写字符串的读法；

对话判定部，使用所述书写字符串以及所述读法中的至少某一方，判定所述语音对话是否成功；以及

储存部，在判定为所述语音对话成功了的情况下，将所述书写字符串以及所述读法与所述分类对应关联起来进行储存。

2.一种语音对话装置，其特征在于，具备：

权利要求1所述的数据收集装置；

生成部，生成作为针对所发言的所述语音的应答的应答文；

中间语言化部，根据每个所述分类的所述书写字符串以及所述读法，得到所述应答文的读法；以及

语音合成部，使用所述应答文的读法，对该应答文进行语音合成，生成应答语音。

3.根据权利要求2所述的语音对话装置，其特征在于，

所述对话判定部针对每个所述分类的所述读法，计算评分，其中，该评分表示作为所述分类中的对话中的所述书写字符串的读法的可能性，

所述储存部将所述评分与所述读法对应关联起来进行储存，

所述中间语言化部根据所述评分，推测所述应答文的读法。

4.根据权利要求3所述的语音对话装置，其特征在于，

还具备对图像进行显示的显示部，

所述中间语言化部根据所述评分来计算读法的可靠度，

如果所述可靠度小于阈值，则所述显示部显示所述应答文的字符串。

5.一种数据收集方法，与对话的规定的每个分类对应关联地收集在语音对话中使用的数据，其特征在于，

对所发言的语音进行语音识别，生成与该语音对应的书写字符串和该书写字符串的读法，

使用所述书写字符串以及所述读法中的至少某一方，判定所述语音对话是否成功，

在判定为所述语音对话成功了的情况下，将所述书写字符串以及所述读法与所述分类对应关联地储存到储存单元中。

6.一种语音对话方法，其特征在于，

具备权利要求5所述的数据收集方法，而且，

生成作为针对所发言的所述语音的应答的应答文，

根据每个所述分类的所述书写字符串以及所述读法，得到所述应答文的读法，

使用所述应答文的读法，对该应答文进行语音合成，生成应答语音。