CN1561514A

CN1561514A - 对话装置、对话主机装置、对话子机装置、对话控制方法及对话控制程序

Info

Publication number: CN1561514A
Application number: CNA028191846A
Authority: CN
Inventors: 前川英嗣; 胁田由实; 水谷研治; 芳泽伸一; 广濑良文; 松井谦二
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-09-27
Filing date: 2002-09-27
Publication date: 2005-01-05
Anticipated expiration: 2022-09-27
Also published as: JPWO2003030150A1; WO2003030150A1; CN1248193C; JP3644955B2; EP1450351A4; EP1450351A1; US20040068406A1

Abstract

为了即使在比较小规模的装置构成中，也难误辨识利用者的发音，从而顺利地进行对话，可以容易地给予接近自由对话的印象，图像输出部将被广播的图像等与视听者非对话性进行的图像显示在显示部上，对话处理部根据存储于对话数据库内的与上述图像的进展对应的对话数据，输出开始对话用的装置发话数据，同时若从视听者进行发话，则根据从声音辨识部输出的视听者发话数据与上述对话数据，输出用来应答视听者的发话的装置发话数据。

Description

对话装置、对话主机装置、对话子机装置、对话控制方法及对话控制程序

技术领域

本发明涉及一种例如应答视听电视广播的视听者等的发声而进行对话的对话装置相关的技术。

背景技术

近年来，伴随声音辨识、声音合成技术的进步，提出了一种通过声音进行对计算机等的指示操作，或通过图像与声音使其应答进行的技术(例如，日本特开2001-249924号公报、日本特开平7-302351号公报)。这些装置可以通过声音的输入输出来进行以往由键盘或指点设备(pointingdevice)进行的操作或由文字表示的应答。

然而，这些装置是对应于其装置的动作或应答，接收了预先确定过的声音的输入，不能进行自由度高的对话。

另一方面，作为能给予与自由对话接近的印象的装置，例如公知被称为“话匣子家族打开话匣子”的对话型玩具等。这种装置具备在进行基于已输入的发话声音的声音辨识的同时，存储了与辨识结果对应的应答数据的对话数据库，能够针对各种发话内容进行应答。另外，作为以更自然的对话为目标的装置，有进行语言解析或含义解析，或参照作为木结构或堆栈存储的过去的发话记录，能从大规模的对话数据库中检索到适当的应答数据的装置(例如，日本特许第3017492号公报)。

然而，在上述以往的技术中，有在适当进行比较自由的对话的同时难于达到装置构成的小规模化的目的的问题点。即，在通过从利用者一方开始说话才开始对话的情况下，由于对话内容的自由度高，故若不具备非常大规模的对话数据库，就不能进行适当的对话内容的辨识、应答。具体地讲，例如在利用者发问“今天星期几”时，若对话数据库内未存储有设想过该发问的对话数据，则不能贴切应答。再有，若碰巧存储了与音响距离近的“现在几点”对应的对话数据，则误辨识为该数据，可能会应答“10点50分”，成为对话不对路。而且，在反复进行利用者的发话与装置的应答时，由于该对话内容的组合按指数函数增大，故即使具备了相当大规模的数据库，可以准确接续适当的应答也是困难的。

发明内容

鉴于上述问题点，本发明的目的在于，提供一种即使在比较小规模的装置构成中，也难误辨识利用者的发音，从而顺利进行对话，可以容易地给予接近自由对话的印象的对话装置及对话控制方法。

为了达到上述目的，本发明的第1对话装置，其特征在于，具备：显示控制机构，其根据图像数据，在显示部上显示对视听者非对话性进展的图像；对话数据存储机构，其存储对应于上述图像的进展的对话数据；声音辨识机构，其通过基于视听者发出的声音的辨识处理，输出表示视听者的发话内容的视听者发话数据；对话处理机构，其根据上述视听者发话数据、上述对话数据及对应于上述图像的进展的时间信息，输出表示对话装置的发话内容的装置发话数据；和发声控制机构，其根据上述装置发话数据，使发音部发出声音。

根据该构成，由于可以进行与显示的图像进展对应的内容的对话，故可以容易以自然感将视听者引入对话装置预先设定的对话内容中。因此，即使在比较小规模的装置构成中，也难误辨识利用者的发音，从而顺利地进行对话，可以容易地给予接近自由对话的印象。

本发明的第2对话装置，是在上述第1对话装置中，其特征在于，还具备输入机构，其通过无线通信、有线通信、网络通信及记录介质的至少任意一种，输入上述图像数据及上述对话数据，向上述显示控制机构及上述对话数据存储机构输出上述已输入的数据。

本发明的第3对话装置，是在上述第2对话装置中，其特征在于，上述输入机构构成为通过互不相同的路径输入上述图像数据与上述对话数据。

这样，即使在以各种路径输入图像数据与对话数据的情况下，由于若能取得图像的进展与对话数据之间的对应(同步)，则可以如上所述地进行适当的对话，故可以构成各种灵活构成的对话装置。

本发明的第4对话装置，是在上述第2对话装置中，其特征在于，上述输入机构构成为通过在与上述图像数据对应的给定时间内输入上述对话数据，从而输出上述时间信息。

由此，通过根据对话数据的输入时间来输出时间信息，可以容易将图像的进展与对话数据建立对应关系。

本发明的第5对话装置，是在上述第2对话装置中，其特征在于，还具备视听者发话数据存储机构，其存储上述视听者发话数据；上述对话处理机构构成为根据已存储于上述视听者发话数据存储机构内的上述视听者发话数据、及上述视听者发出基于上述视听者发话数据的上述声音后重新向上述输入机构输入的对话数据，输出上述装置发话数据。

由此，可以进行在对话的开始时刻以后的对话内容不确定的对话。因此，减轻所谓的沿用预先设定的脚本的机械性对话的印象，可以进行例如给予以问答形式一起欣赏广播节目的感觉的对话。

本发明的第6对话装置，是在上述第1对话装置中，其特征在于，上述对话处理机构构成为根据上述图像数据内包含的上述时间信息，输出上述装置发话数据。

本发明的第7对话装置，是在上述第6对话装置中，其特征在于，上述对话数据存储机构构成为可以存储多个上述对话数据；同时上述图像数据包含上述时间信息与特定上述多个对话数据中的至少任意一个的对话数据特定信息；上述对话处理机构构成为根据上述时间信息及上述对话数据特定信息，输出上述装置发话数据。

本发明的第8对话装置，是在上述第1对话装置中，其特征在于，还具备计时机构，其输出与上述图像的显示时间的经过对应的上述时间信息；上述对话数据包括表示上述对话处理机构应输出的上述装置发话数据的时间的输出时间信息；上述对话处理机构构成为根据上述时间信息及上述输出时间信息，输出上述装置发话数据。

这样，通过利用图像数据所包含的时间信息或特定对话数据的对话数据特定信息、对应于图像的显示时间的经过的上述时间信息，从而当然可以容易建立图像的进展与对话数据之间的对应关系。

本发明的第9对话装置，是在上述第1对话装置中，其特征在于，上述对话处理机构构成为通过根据上述对话数据及上述时间信息，输出上述装置发话数据，从而开始与视听者的对话，另一方面通过根据上述对话数据及上述视听者发话数据，输出上述装置发话数据，从而继续上述已开始的对话。

由此，由于根据与图像的进展对应的时间信息，可以开始新的对话，故可以进一步准确地以自然的感觉将视听者引入对话装置预先设想的对话内容中。

本发明的第10对话装置，是在上述第9对话装置中，其特征在于，上述对话处理机构构成为根据已经开始的与视听者的对话中的上述装置发话数据与上述视听者发话数据之间的适合度、以及与视听者的新对话开始的优先度，开始上述新的对话。

本发明的第11对话装置，是在上述第9对话装置中，其特征在于，上述对话处理机构构成为根据视听者相关的简介信息及对应于上述简介信息、表示用来开始与视听者的对话的条件的对话开始条件信息，开始与视听者的对话。

本发明的第12对话装置，是在上述第9对话装置中，其特征在于，上述对话处理机构构成为根据已经开始的与视听者的对话中的上述装置发话数据与上述视听者发话数据之间的适合度、视听者相关的简介信息、以及对应于上述适合度和上述简介信息表示用来开始与视听者的对话的条件的对话开始条件信息，开始与视听者的新对话。

这样，通过根据对话的适合度、或者新对话开始的优先度、视听者的简介信息，控制新对话的开始，例如在对话的适合度高的情况下，即所谓的对话谈得起劲的情况下，可以继续该话题的对话，另一方面由于在能进行与图像的内容密接的对话时可以开始新的对话，故可以进行能给予更自然的印象的对话。

本发明的第13对话装置，是在上述第12对话装置中，其特征在于，上述对话处理机构构成为根据上述已开始的对话中的上述装置发话数据与上述视听者发话数据之间的适合度，更新上述简介信息。

由此，由于对话的适合度被反馈到简介信息，故可以进行更适当的对话开始的控制。

本发明的第14对话装置，是在上述第1对话装置中，其特征在于，上述对话处理机构构成为在给定一系列的上述图像显示在给定时间连接进行时，输出上述装置发话数据。

由此，例如在视听者依次切换广播节目等时，可以防止每次对话开始的繁琐。

本发明的对话主机装置，其特征在于，具备：输入机构，其通过无线通信、有线通信、网络通信及记录介质的至少任意一种，输入表示对视听者非对话性进展的图像之图像数据、及与上述图像的进展对应的对话数据；显示控制机构，其根据上述图像数据，在显示部上显示上述图像；和传送机构，其向对话子机装置传送上述对话数据及与上述图像的进展对应的时间信息。

本发明的对话子机装置，其特征在于，具备：接收机构，其接收从对话主机装置传送来的、与对视听者非对话性进展的图像的进展对应的对话数据及对应于上述图像的进展的时间信息；对话数据存储机构，其存储上述对话数据；声音辨识机构，其通过基于视听者发出的声音的辨识处理，输出表示视听者的发话内容的视听者发话数据；对话处理机构，其根据上述视听者发话数据、上述对话数据及时间信息，输出表示对话子机装置的发话内容的装置发话数据；和发声控制机构，其根据上述装置发话数据，使发音部发出声音。

本发明的第1对话控制方法，其特征在于，具有：显示控制步骤，根据图像信息，在显示部上显示对视听者非对话性进展的图像；声音辨识步骤，通过基于视听者发话了的声音的辨识处理，输出表示视听者的发话内容的视听者发话数据；对话处理步骤，根据上述视听者发话数据、与上述图像的进展对应的对话数据及与上述图像的进展对应的时间信息，输出表示对话装置的发话内容的装置发话数据；和发声控制步骤，根据上述装置发话数据，使发音部发出声音。

本发明的第2对话控制方法，其特征在于，具有：输入步骤，通过无线通信、有线通信、网络通信及记录介质的至少任意一种，输入表示对视听者非对话性进展的图像之图像数据及与上述图像的进展对应的对话数据；显示控制步骤，根据上述图像数据，在显示部上显示上述图像；和传送步骤，向对话子机装置传送上述对话数据及与上述图像的进展对应的时间信息。

本发明的第3对话控制方法，其特征在于，具有：接收步骤，接收从对话主机装置传送来的、与对视听者非对话性进展的图像的进展对应的对话数据及与上述图像的进展对应的时间信息；声音辨识步骤，通过基于视听者发出的声音的辨识处理，输出表示视听者的发话内容的视听者发话数据；对话处理步骤，根据上述视听者发话数据、上述对话数据及时间信息，输出表示对话子机装置的发话内容的装置发话数据；和发声控制步骤，根据上述装置发话数据，使发音部发出声音。

本发明的第1对话控制程序，其特征在于，使计算机执行以下处理：显示控制步骤，根据图像信息，在显示部上显示对视听者非对话性进展的图像；声音辨识步骤，通过基于视听者发话了的声音的辨识处理，输出表示视听者的发话内容的视听者发话数据；对话处理步骤，根据上述视听者发话数据、与上述图像的进展对应的对话数据及与上述图像的进展对应的时间信息，输出表示对话装置的发话内容的装置发话数据；和发声控制步骤，根据上述装置发话数据，使发音部发出声音。

本发明的第2对话控制程序，其特征在于，使计算机执行以下处理：输入步骤，通过无线通信、有线通信、网络通信及记录介质的至少任意一种，输入表示对视听者非对话性进展的图像之图像数据及与上述图像的进展对应的对话数据；显示控制步骤，根据上述图像数据，在显示部上显示上述图像；和传送步骤，向对话子机装置传送上述对话数据及与上述图像的进展对应的时间信息。

本发明的第3对话控制程序，其特征在于，使计算机执行以下处理：接收步骤，接收从对话主机装置传送来的、与对视听者非对话性进展的图像的进展对应的对话数据及与上述图像的进展对应的时间信息；声音辨识步骤，通过基于视听者发出的声音的辨识处理，输出表示视听者的发话内容的视听者发话数据；对话处理步骤，根据上述视听者发话数据、上述对话数据及时间信息，输出表示对话子机装置的发话内容的装置发话数据；和发声控制步骤，根据上述装置发话数据，使发音部发出声音。

根据这些构成，由于可以进行与上述那样显示的图像的进展对应的内容的对话，故可以容易地以自然的感觉将视听者引入对话装置预先设想的对话内容中。因此，即使在比较小规模的装置构成中，也难误辨识利用者的发音，从而顺利地进行对话，可以容易地给予接近自由对话的印象。

附图说明

图1是表示实施方式1的对话装置的构成的框图。

图2是表示同一装置的图像显示例的说明图。

图3是表示同一装置的对话数据库的存储内容的说明图。

图4是表示实施方式2的对话装置的整体构成的说明图。

图5是表示同一装置的具体构成的框图。

图6是表示同一装置的对话数据库的存储内容的说明图。

图7是表示同一装置的对话动作的流程图。

图8是表示实施方式3的对话装置的具体构成的框图。

图9是表示同一装置的关键字词典的存储内容的说明图。

图10是表示同一装置的对话数据库的存储内容的说明图。

图11是表示同一装置的全部对话动作的流程图。

图12是表示同一装置的显示画面的示例的说明图。

图13是表示同一装置的对话处理的详细动作的流程图。

图14是表示实施方式4的对话装置的具体构成的框图。

图15是表示同一装置的对话处理的详细动作的流程图。

图16是表示同一装置的关键字词典的存储内容的说明图。

图17是表示同一装置的对话数据库的存储内容的说明图。

图18是表示同一装置的暂时存储部的存储内容的说明图。

图19是表示实施方式5的对话装置的数据广播信息存储部的存储内容的说明图。

图20是表示同一装置的对话脚本数据库的存储内容的说明图。

图21是表示同一装置的具体构成的框图。

图22是表示同一装置的全部对话动作的流程图。

图23是表示实施方式6的对话装置的具体构成的框图。

具体实施方式

以下，参照附图说明本发明的实施方式。

(实施方式1)

首先，对于本发明的原理性构成，以能接收包含节目信息与节目附加信息的数据广播的电视接收机为例进行说明。图1是表示电视接收机的整体构成的框图。

输入部101接收数据广播的电视广播电波，将上述节目信息中包含的图像数据、声音数据及上述节目附加信息内包含的对话数据、表示对话的开始时间的时间信号分离并分别输出。在这里，上述图像数据或声音数据，并未限于数字数据，其含义也包含模拟的图像信号或模拟的声音信号的广义数据。

图像输出部102根据上述图像数据，输出图像信号，并使图像显示在显像管等的显示部103上。

对话数据库104暂时存储从上述输入部101输出的对话数据。

声音辨识部106对已从麦克风等声音输入部105输入的视听者的发话声音进行声音辨识处理，输出表示发话内容的视听者发话数据。

对话处理部107在从输入部101已输入时间信号时，根据已存储于对话数据库104内的对话数据，输出开始对话用的装置发话数据，另一方面，若之后从视听者发话，则根据从声音辨识部106输出的视听者发话数据及已存储于对话数据库104内的对话数据，输出用来应答视听者的发话的装置发话数据。

声音合成输出部108根据从对话处理部107输出的装置发话数据及从输入部101输出的声音数据，进行声音合成处理或数字模拟变换，输出声音信号，并使扬声器等声音输出部109发出声音。

在这样构成的电视接收机中，按以下那样进行与显示图像对应的对话。

首先，例如播放称为“今日的运势”的节目，如图2所示在显示部103上显示节目的题目后，显示每个诞生星座的运势。此时，若与图像数据一起，接收图3所示的与上述图像数据对应的对话数据，则该对话数据被保持于对话数据库104内。接着若接收时间信号，则对话处理部107读出保持于对话数据库104内的对话开始用的对话数据，向声音合成输出部108输出装置发话数据。因此，从声音输出部109发出“占卜您今日的运势。请告知您的星座。”的声音。

针对上述发声，若视听者发出例如包含“双子座”的词语的声音，则声音辨识部106向对话处理部107输出表示该词语的辨识的视听者发话数据。

对话处理部107参照对话数据库104内保持的应答用对话数据，读出于上述辨识出的“双子座”对应的应答(装置发话数据)，并输出到声音合成输出部108。由此，从声音输出部109发出“注意人际关系，首先从问候开始”的声音。

之后，由于若显示画面变化为下一节目内容，则话题也可以转移到于下一显示画面对应的话题上去，故即使在上述时刻切断话题，也不会让视听者感觉到非常不自然的感觉。

如上所述，由于成为与显示画面对应的内容的对话，故视听者的应答内容的范围被缩小，可以将由声音辨识部106产生误辨识的可能性抑制得低。另外，由于根据显示画面的转移而中止关于某个话题的对话，可以容易地切换为其他话题，可以将继续对话的反复次数抑制为少，故也可以将向设想以外的话题展开的可能性抑制为低。由此，即使不具备大规模的对话数据库，也可以比较自然且容易地进行适当的对话。

(实施方式2)

以下，对更详细的对话装置的示例进行说明。而且，在以下的实施方式中，对具有与上述实施方式1等对应的功能的构成要素采用相同的标号并省略说明。

在本实施方式2中，如图4及图5所示，由数字电视接收机201(对话主机装置)与偶人状的对话型代理(agent)装置251(对话子机装置)构成对话装置。

数字电视接收机201具备有：广播数据接收部202、节目信息处理部203、显示/声音输出控制部204、附加信息处理部205、对话数据传送部206、显示部103与声音输出部109。

另外，对话型代理装置251具备有：对话数据接收部252、对话数据处理部253、对话数据库254、对话处理部255、声音合成部256、声音输入部105、声音辨识部106与声音输出部109。

上述数字电视接收机201的广播数据接收部202接收包含节目信息(图像数据、声音数据)与节目附加信息(对话数据)的数字广播的电视机广播电波，抽出上述节目信息与上述节目附加信息并进行输出。

节目信息处理部203与显示/声音输出控制部204进行与通常的电视接收机同样的处理。即，节目信息处理部203将由广播数据接收部接收完的节目信息变换为图像与声音的数据。更详细地讲，从节目信息所包含的多个节目相关的信息中，选择由视听者指示过的特定节目的信息，输出该节目的图像/声音数据。另外，显示/声音输出控制部204根据上述图像/声音数据，输出图像信号及声音信号，并使显示部103显示图像，同时使声音输出部109发出声音。

再有，附加信息处理部205根据从广播数据接收部202输出的节目附加信息，输出与显示部103上显示的图像对应的对话数据。该对话数据，例如与上述图3中示出的同样，包含最初与利用者搭话的言语等的对话开始用对话数据和与视听者发声的辨识结果对应的应答被定义过的表格形式的应答用对话数据。

对话数据传送部206通过无线电波等向对话型代理装置251传送上述对话数据，对话型代理装置251的对话数据接收部252接收被传送来的对话数据。

对话型代理装置251的对话数据处理部253将上述接收过的对话数据中的对话开始用的对话数据向声音合成部256输出，另一方面，使应答用的对话数据保持在对话数据库254内。

即，与上述实施方式1不同的是，对话数据库254如图6所示，仅保持应答用的对话数据，对话处理部255根据上述应答用的对话数据与从声音辨识部106输出的视听者发话数据，输出用来应答视听者的发话的装置发话数据。

另外，声音合成部256根据从对话数据处理部253输出的对话数据(对话开始用)，或从对话处理部253输出的装置发话数据，进行声音合成处理及数字模拟变换，输出声音信号，并使声音输出部109发出对话声音。

即使在如上所述构成的对话装置中，通过图7所示的动作，与上述实施方式1同样，例如在广播占卜节目“今日的运势”的场面中，进行以下那样的对话

(1)对话型代理装置：“占卜您今日的运势，请告知您的星座。”

(2)视听者：“双子座”

(3)对话型代理装置：“请注意人际关系。首先，从问候开始。”。

(S101)即，首先，广播数据接收部202接收包含节目信息与节目附加信息的广播电波，根据上述节目信息中的图像数据及声音数据，由显示部103显示图像，同时由声音输出部109输出声音。

(S102)另一方面，附加信息处理部205输出所接收到的节目附加信息中与显示图像(占卜节目)相关的对话数据。该输出了的对话数据通过数字电视接收机201的对话数据传送部206及对话型代理装置251的对话数据接收部252，被输入到对话数据处理部253，应答用的对话数据存储于对话数据库254内(图6)。

(S103)再有，对话开始用的对话数据，从对话数据处理部253直接输入到声音合成部256，从声音输出部109可以发出最初的对话声音“占卜您今日的运势。请告知您的星座。”。即，如上述实施方式1所示，即使不接收时间信号，通过接收对话数据，也能开始对话。

(S104)之后，若从声音输入部105输入视听者的发声“双子座”，则进行声音辨识部106的声音辨识，表示发声内容为“双子座”的视听者发话数据被输入到对话处理部255。

(S105)因此，对话处理部255参照对话数据库254，选择与“双子座”对应的应答“请注意人际关系。首先，从问候开始。”，输出装置发话数据。声音合成部256将上述装置发话数据变换为声音信号，从声音输出部109输出应答的声音。

如上所述，与实施方式1同样，通过共有所谓与占卜节目联动的对话之对话场面，故难于误辨识视听者的发音，可以容易顺利地进入对话。另外，伴随节目的结束或显示画面的进行，在不会有不自然的印象的情况下，可以结束该话题的对话。

(实施方式3)

实施方式3的对话装置，与上述实施方式2的对话装置(图5)相比，将视听者的发话内容分类为例如“肯定”或“否定”类型，使其与上述类型对应，求得应答用的对话数据。另外，视听者只在给定时间间以上观看相同节目时且想进行对话的情况下，进行上述对话。

具体地讲，例如图8所示，数字电视接收机301，是在实施方式2(图5)的数字电视接收机201的构成的基础上，还具有定时器管理部311。另外，具有附加信息处理部305，而取代附加信息处理部205。

上述定时器管理部311，计量相同节目被视听的时间，在给定时间视听时，向附加信息处理部305通知该情况。即，在视听者不断切换频道进行所谓迅速移动功能(zapping)时，由于厌烦于每切换频道就开始对话，故在例如由视听者选择1分钟左右以上的相同节目的情况下，向附加信息处理部305通知该主旨，使对话开始。

附加信息处理部305，只在有来自上述定时器管理部311的通知且视听者希望的情况下，才开始对话。即，例如在使显示部103显示后述的图12所示的画面，视听者通过遥控器等进行过表示对话意思的操作时，与实施方式2同样，将对话数据传送到对话型代理装置351。另外，在本实施方式中，在上述视听者的意向确认时，确认对话中视听者的立场(例如在看棒球的转播节目时，是巨人球迷还是阪神球迷等)，从而能进行更适当的对话。

另一方面，对话型代理装置351在实施方式2的对话型代理装置251的构成的基础上，还具有关键字词典361。另外，具备有声音辨识部362、对话数据处理部353、对话数据库354及对话处理部355，而取代声音辨识部106、对话数据处理部253、对话数据库254及对话处理部255。

在上述关键字词典361中，例如图9所示，存储表示视听者的各种发话内容中包含的关键字的候选属于“肯定”或“否定”的哪一类型的关键字词典数据。在这里，上述“肯定”或“否定”的类型是可以和设想如后所述在对话开始时与视听者搭话的言语的示例，对此，与进行肯定的或否定的应答的情况对应。即，在关键字词典361中，并未限于“肯定”“否定”，也可以存储与从装置发出的发话内容对应的类型的关键字词典数据。

声音辨识部362对从声音输入部105输入的视听者的发话声音进行声音辨识处理，检测出具有视听者的意图特征的词语(关键字)，参照上述关键字词典361，输出表示视听者的意图属于“肯定”或“否定”的哪一类型(视听者的意图)的类型数据。再有，在未检测出关键字时，输出表示为“其他”类型的类型数据。更详细地讲，例如利用所谓的关键字定位(spotting)的方法，检测出单词的存在。而且，也可以从声音输入部105的输入声音，利用连续声音辨识的方法，生成分解为单词的正文数据，通过上述单词是否符合关键字词典361的关键字，来求得类型。

在对话数据库354中，例如图10所示，存储使上述类型“肯定”、“否定”或“其他”和与此相对的各自的多个应答(装置发话数据)对应的应答用的对话数据。在这里，在同图的示例中，针对“其他”，存储有表示无妨碍的应答的数据。

对话处理部355根据从上述声音辨识部362输出的类型数据及保持于对话数据库354内的应答用的对话数据，输出用于应答视听者的发话的装置发话数据。更具体地讲，随机地选择(或者相同应答不连续地进行选择等)并输出与上述类型数据对应且保持于对话数据库354内的多个应答中的任意一个。而且，虽然并不一定需要如上所述地保持多个应答，但可以只保持适当的个数，通过进行随机的选择，可以更容易具有对话的自然感。

另外，对话数据处理部353根据从数字电视接收机301传送来的对话数据，使上述的应答用对话数据及关键字词典数据分别保持于对话数据库354或关键字词典361中。还有，将对话开始用的对话数据向声音合成部256输出。

根据图11，对在如上所述构成的对话装置中，视听作为运动节目的棒球广播时进行对话的情况下的动作进行说明。

(S201)首先，广播数据接收部202接收视听者选择后的棒球广播的节目信息，根据该节目信息中的图像信息及声音信息，在由显示部103显示图像的同时，由声音输出部109输出声音。

(S202)定时器管理部311计量上述棒球广播的接收被选择后的经过时间，例如若经过1分钟，则向附加信息处理部305通知该情况。而且，在经过1分钟前若进行切换接收频道的操作，则反复进行上述(S201、S202)。

(S203)若接收来自上述定时器管理部311的通知，则附加信息处理部305首先如图12所示，使显示部103显示视听者是否希望对话服务及确认声援模式(声援哪个球队)的画面，例如接受与EPG(Electric ProgramGuide，电子节目引导)中的节目选择同样的遥控器的操作。而且，在进行过表示不利用对话服务的操作时，对话相关的处理结束，以下若进行视听节目的切换操作，则反复进行上述(201)以后的操作。另外，表示已指定的声援模式的信息例如保持在附加信息处理部305内。而且，上述的显示或操作的接受也可以通过用附加信息处理部305或显示/声音输出控制部204执行节目附加信息所包含的对话开始命令而进行。还有，上述的对话服务利用的有无并未限于每逢视听节目就进行确认，也可以在接通了装置的电源的时刻进行，或通过切换给定的设定模式而进行设定。

(S204)在由视听者利用对话服务的同时，例如进行过表示声援巨人的操作时，作为节目附加信息，校验是否接收了对应于巨人的声援模式的对话数据。

(S205)若在上述(S204)中未接收对话数据，则判断是接收中的棒球节目结束了，还是由视听者结束了视听，即进行过切换使用的节目的操作，在节目结束或视听结束的情况下，反复进行上述(S201)以后的操作。一方面，若节目既未结束，视听也未结束，则反复进行(S204)以后的操作。

(S206)另外，若在上述(S204)中接收了对话数据，则进行过对话处理后，返回上述(S204)，反复进行对话数据的接收校验以后的操作。作为上述对话处理，更详细地讲，例如进行图13所示的处理。

(S211)首先，广播数据接收部202接收包含节目信息与节目附加信息的广播电波，根据上述节目信息中的图像数据及声音数据，在由显示部103显示图像的同时，由声音输出部109输出声音。

(S212)另一方面，附加信息处理部305输出接收到的节目附加信息中的显示图像(棒球广播)及巨人的声援模式相关的对话数据。在该对话数据中包含有对话开始用的对话数据、应答用的对话数据与关键字词典数据。上述已输出的对话数据通过数字电视接收机301的对话数据传送部206及对话型代理装置351的对话数据接收部252，输入到对话数据处理部355中，应答用的对话数据存储于对话数据库254内(图10)。

(S213)另外，同样地将关键字词典数据存储在关键字词典361内(图9)。

(S214)再有，对话开始用的对话数据从对话数据处理部353直接输入到声音合成部256，从声音输出部109发出最初的对话声音，例如若在声援球队(巨人)得分的时刻，“干得好，干得好，追加得分！最近的清原真的状态很好。在第8小局还相差3分，那么今日的比赛获胜是显而易见的？”等声音，从而开始对话。

(S215)然后，例如视听者若发出“哎呀！还是有点担心。”的声音，则声音辨识部362检测出“担心”与“哎呀”的言词，输出表示视听者发出“否定”类型的言词的类型数据。另外，若视听者发出“如果冈岛的状态好的话。”的声音，则由于关键字词典361内保持着的关键字未被检测出，故输出表示“其他”的类型数据。

(S216)因此，对话处理部355参照对话数据库354，随机地选择与上述类型数据对应的多个装置发话数据中的任意一个并输出。

具体地讲，相对上述视听者的发话“哎呀！还是有点担心。”(类型“否定”)，例如输出表示“是的，要继续助威。接着是高桥！”的装置对话数据。

另外，针对视听者的发话“如果冈岛的状态好的话。”(类型“其他”)，例如输出表示“的确”的装置发话数据。

声音合成部256将上述装置发话数据变换为声音信号，从声音输出部109输出应答的声音。

如上所述，与实施方式1、2同样，例如通过根据与得分场面等的显示图像对应的对话数据，进行对话，从而难于误辨识视听者的发音，可以容易顺利进入对话，同时伴随显示图像的进行，在不会有不自然的印象的情况下可以结束各话题，转向下一话题。另外，通过根据视听者的发话中所包含的关键字，将发话内容分类，生成装置发话数据，从而可以容易且更灵活进行对话，同时也可以容易将对话数据库354内保持的应答用的对话数据抑制为小，或提高应答性。再有，通过根据与视听者的立场(巨人的声援模式)等对应的对话数据来使对话进行，例如可以进行作为对声援球队的得分一起欢喜的伙伴，而使对话型代理装置351对话的演出，给予视听者宛如与对话型代理装置351一起看棒球节目的感觉。

(实施方式4)

对作为实施方式4的对话装置，例如棒球节目中针对比赛展开的预测的对话等，在对话时刻进行后面对话内容不确定那样的内容的对话，同时将该对话内容暂时存储，根据与之后的实际比赛展开对应的对话数据，而可以进入对话的对话装置的示例进行说明。

在本实施方式的对话装置中，与上述实施方式3的对话装置(图8)相比，例如图14所示，数字电视接收机401包括仅在不具有视听者的声援模式的确认功能方面不同的附加信息处理部405，而取代附加信息处理部305。(而且，也可以使用与实施方式3相同的数字电视接收机301。)

另一方面，对话型代理装置451，在实施方式3的对话型代理装置351的构成的基础上，还具有暂时存储部471。另外，具备有对话数据处理部453而取代对话数据处理部353。再有，声音辨识部362虽然与实施方式3相同，但其输出根据对话状况也向暂时存储部471输出。即，暂时存储部471保持表示装置发话内容及视听者发话内容中对显示画面进展进行预测的数据。还有，对话数据处理部453可以根据上述暂时存储部471内保持的数据与之后根据显示画面的实际进展而被传送来的对话数据，输出与预测是否正确对应的装置对话数据。

作为如上所述构成的对话装置的动作，根据图15～图18，对在作为运动节目的棒球节目中，进行接下来投手(pitcher)投掷的球种的预测相关的对话(即，只以投手投球前的对话数据结束对话，根据投球后的对话数据，对之后的对话内容有影响)时的示例进行说明。在这里，对话装置的全部对话控制动作，与上述实施方式3(图11)基本相同，在图15中表示并主要说明大不相同的对话处理自身。

(S301)～(S304)首先，与实施方式3(图13)的(S211)～(S214)同样，进行节目的图像显示或声音输出、对话数据或关键字词典数据向关键字词典361与对话数据库354的存储及最初的对话声音的发声。具体地讲，例如在由显示部103显示投手与击球手(batter)对战场面的图像，同时从声音输出部109输出该声音。另外，在关键字词典361及对话数据库354中分别存储例如图16、图17所示的关键字词典数据及对话数据。再有，从对话数据处理部453向声音合成部256输出对话开始用的对话数据，从声音输出部109发出例如“下一击球手是松井。预测投手的投球。最初的球是什么呢？我想是从‘曲线球’开始。”的声音。此外，此时对话数据处理部453使暂时存储部471存储例如图18所示的表示由对话型代理装置451进行的预测是曲线球的属性数据及类型数据(属性：代理，类型：曲线球类)。

(S305)然后，例如若视听者发出“嗯，我想是‘直球’”的声音，则声音辨识部362检测出“直球”的言词，输出表示视听者发出“直球类”的类型言词的类型数据，使暂时存储部471存储表示视听者的预测是直球的属性数据及类型数据(属性：视听者，类型：直球类)。

(S306)另外，从上述声音辨识部362输出的类型数据也输入到对话数据处理部355，从对话处理部355输出装置对话数据，从声音输出部109输出应答的声音例如“好！决胜负。”。在这里，对话装置的应答内容，与实施方式3同样，虽然对应于类型数据有所不同(虽然将这种对话数据存储于对话数据库354内也可以)，但不管类型数据如何，都可以做成“好，决胜负！”等的应答，另外，只在类型数据表示“其他”时，可以进行不同的应答。

(S307)接着，实际上在投手投球之后，若传送与该投球内容对应的对话数据即表示已投球的球种的正确类型数据和表示与此对应的对话内容的结果发话用的对话数据，则由广播数据接收部202接收，通过对话数据传送部206及对话数据接收部252，输入到对话数据处理部353。

(S308)对话数据处理部353将上述正确类型数据(例如“直球”)与暂时存储部471的存储内容进行对照，向声音合成部256输出与该对照结果(上述的情况下视听者正确)对应的结果发话用的对话数据。

(S309)因此，根据上述结果发话用的对话数据，发出例如“内角降低的直球。我输了。我想下一个投球是‘曲线球’”等的声音。

(S310)另外，判断例如上述“认为下一个投球是‘曲线球’”的结果发话用的对话数据中是否含有针对下一个投球的对话型代理装置451的预测数据，若包含有，则反复进行上述(S306)以后的操作，另一方面若不包含，则结束对话处理。在这里，上述的判断可以通过用对话数据处理部353执行与对话数据一起送来的程序而进行。

如上所述，通过暂时存储与视听者的对话内容，并根据该内容与后来接收到的对话数据，进行之后的对话，从而可以在对话开始的时刻进行之后的对话内容不确定的内容的对话。即，可以减轻沿用预先设定过的脚本的所谓机械对话的印象，给予以问答形式一起欣赏播放节目的感觉。

(实施方式5)

作为实施方式5，对不是接收直接表示对话内容的对话数据，而是通过接收对应于节目(显示画面)的进展状况的数据和表示用于根据对应于该进展状况的数据，生成对话数据的规则的信息，从而进行对话的对话装置的示例进行说明。

即，例如在棒球的数据广播中，有时伴随图像或声音的数据，传送图19所示的表示比赛经过的比赛信息或选手的成绩等相关的选手信息等数据广播信息。因此，通过执行参照这种数据广播信息的脚本，从而可以生成与画面的进展状况对应的对话数据。在以下的说明中，例如说明由图20所示的脚本而生成对话开始用的对话数据及应答用的对话数据的示例(而且，同样也可以由脚本生成关键字词典数据)。另外，作为对话内容的示例，对结果与上述实施方式3进行相同内容的对话的示例进行说明。

在本实施方式的对话装置中，与上述实施方式3的对话装置(图8)相比，例如图21所示，数字电视接收机501具备有触发(trigger)信息传送部506，而取代对话数据传送部206。另外，对话型代理装置551具有触发信息接收部552及对话数据生成部553，而取代对话数据接收部252及对话数据处理部353，同时还具备有数据广播信息存储部561及对话脚本数据库562。

上述触发信息传送部506及触发信息接收部552，虽然是传送接收作为节目附加信息而接收到的对话脚本数据、数据广播信息(比赛信息及选手信息)及表示后述的对话的开始时间的触发信息的构件，但实质的构成与实施方式3的对话数据传送部206及对话数据接收部252相同。

对话数据生成部553在接收到对话脚本数据及数据广播信息时，分别将其存储于对话脚本数据库562或数据广播信息存储部561内。另外，对话数据生成部553在接收到触发信息时，根据上述对话脚本数据及数据广播信息，生成对话数据(对话开始用的对话数据、应答用的对话数据及关键字词典数据)，并向声音合成部256输出，或者存储于对话数据库354或关键字词典361内。

在这里，具体地说明数据广播信息存储部561内存储的数据广播信息及对话脚本数据库562内存储的对话脚本数据的示例。

在图19所示的数据广播信息中，如上所述包含有比赛信息与选手信息。上述比赛信息是包含对应类型与属性的各种数据的信息。更具体地讲，某时刻的得分差，作为“类型＝得分，属性＝差”，通过特定而得到。另外，选手信息是通过特定球队及选手名而得到关于各选手的各种数据的。

再有，在对话脚本数据库562中，如图20所示，对应于由类型及属性构成的触发信息，将分别对应于各种显示画面的进展状况的多个对话脚本数据分类，并对应进行存储。因此，例如在声援侧的球队得分时，若接收到“类型＝得分，属性＝声援侧”的触发信息，则执行与该图的得分、声援侧的栏对应的对话脚本数据，生成对话开始用的对话数据。与上述触发信息的对应关系，对于关键字词典数据或应答用的对话数据也同样。可是，在与触发信息无关，共通的情况下，与触发信息不一定是一对一地对应，也可以兼用。在对于同种的广播节目能通用的情况下，也可以预先存储于(在装置的制造阶段等)装置内。另外，并未一定限于如上所述地分类，例如可以由识别信息(ID)等来选择对话脚本数据等。

接下来，简单地说明上述对话脚本数据的具体内容。在图20的示例中，例如表示将“得分、变化”置换为与比赛信息中的“类型＝得分，属性＝变化”对应的数据即“追加得分”的言语。另外，表示将“@(击球手.目前).最近的5场比赛的打率”置换为针对与比赛信息中的“(击球手.目前)”对应的“清原”，从选手信息中得到的“最近5场比赛的打率”即“.342”。另外，“if”或“Else”等句法与一般的C语言等同样，表示根据条件控制执行。通过使用这种对话脚本数据库，在得分每次变化时即使不接收对话数据，也可以对应于时刻更新的数据广播信息，生成适当的对话数据。

以下，根据图22说明如上所述构成的对话装置的动作。

(S201)～(S203)由于该处理与实施方式3中(图11)用相同标号示出的步骤相同，故省略说明。

(S401)若接收数据广播信息，则由对话数据生成部553将广播节目开始时刻的比赛信息及选手信息存储在数据广播信息存储部561内。

(S402)接着，若接收对话脚本数据、关键字词典数据及应答用的对话数据，则由对话数据生成部553将这些数据存储在对话脚本数据库562内。在这里，上述(S401)及(S402)的处理在广播节目开始时只进行1次。而且，(S401)与(S402)的处理顺序可以与上述的相反。另外，可以取代(S401)的处理，在最初进行以下的(S403)的处理时进行同样的处理。再有，(S402)中的对话脚本数据等广播中变更的必要性低的数据，可以预先存储，或以与借助网络或记录介质的广播不同的路线进行存储。

(S403)在接收了表示数据广播信息的变更的信息时，更新数据广播信息存储部561内的比赛信息与/或选手信息。

(S404)判定是否接收了与显示画面的进展对应的触发信息。

(S205)若在上述(S404)中未接收触发信息，则判定是接收中的棒球节目结束还是由视听者结束视听即还是进行过切换使用的节目的操作，在节目结束或视听结束的情况下，反复进行上述(S201)以后的操作。一方面，若既不是节目结束也不是视听结束，则反复进行(S403)以后的操作。

(S405)另外，若在上述(S404)中接收了触发信息，则执行该触发信息对应的对话脚本数据，以生成对话开始用的对话数据。

具体地讲，例如在表示声援球队侧得分场面的图像时，若接收了“类型＝得分，属性＝声援侧”的触发信息，则通过遵循上述规则的对话脚本数据的执行，作为对话开始用的对话数据，生成“干得好，干得好，追加得分！清原最近状态很好。在第8小局还相差3分，那么今日的比赛获胜是显而易见的？”。

更详细地讲，对于第1句，对话脚本数据中的“(得分.变化)”的部分置换为由比赛信息的检索而得到的“追加得分”，生成“干得好，干得好，追加得分！”。

对于第2句，则是“@(击球手.目前).最近5场比赛打率”的部分，置换为与“清原.最近5场比赛打率”(作为进行了适时安打的目前击球手的清原的最近5场比赛的打率)对应的“.342”之后，评价if句法的条件判定“.342＞.320”，由于评价结果为真，故生成“清原最近状态很好。”。

另外，对于第3句也同样，将对话脚本数据中的“(次数.回合)”、“(得分.差)”分别置换为“8”、“3”，生成“在第8小局还相差3分，那么今日的比赛获胜是显而易见的？”。

从对话数据生成部553向声音合成部256输出如上所述地生成的对话开始用的对话数据。

还有，对于应答用的对话数据的“否定”应答中的(击球手.下一击球手)，也通过同样的检索、置换，生成“～下一个是高桥”，并存储于对话数据库354内。

再有，由于与上述触发信息对应的关键字词典数据在本示例中不包括上述的置换，故直接从对话脚本数据库562读出，存储于关键字词典361内。

(S206)这样，由于输出到声音合成部256的对话开始用的对话数据及对话数据库354与关键字词典361的存储内容与实施方式3的相同，故通过进行与上述图13示出的相同的处理，构成同样的对话。

如上所述，由于根据预先存储过的对话脚本数据、数据广播信息及对应于显示画面的进展状况的触发信息，自动生成对话信息，故不会在每次进行对话时接收对话数据，从而可以灵活地进行对应于显示画面的适当对话，同时也可以达到通过数据传送量的降低或使重复量减少而减少存储容量的目的。

(实施方式6)

接下来说明本发明的实施方式6的对话装置。首先，对该对话装置的构成进行说明。该对话装置，如图23所示，在数字电视接收机601、对话型代理装置651的基础上还具备通报电话(door phone)1801。通报电话1801具有：第1数据收发部1802、控制部1803、开关1804、图像输入部1805、声音输入部1806、声音输出部1807、对话数据库1808。上述第1数据收发部1802在与数字电视接收机601之间收发图像及声音的数据。开关1804是通报电话1801的呼出开关，来访者压下该开关1804，通知来访。图像输入部1805例如是电视摄像机，拍摄来访者。声音输入部1806例如是麦克风，输入来访者的发声。对话数据库1808保持对来访者的发声的对话数据。声音输出部1807将对话数据作为声音输出。控制部1803进行通报电话1801整体的控制。

数字电视接收机601与上述实施方式3(图8)的数字电视接收机301相比，具备在其与通报电话1901之间收发图像及声音的数据的第2数据收发部602及在其与对话型代理装置651之间收发与来自图像输入部1805的图像联动的对话数据等的第1对话数据收发部603，而取代广播数据接收部202、节目信息处理部203、附加信息处理部305及对话数据传送部206，在不具备定时器管理部311方面是不同的，但其他构成是同样的。而且，第1对话数据收发部603兼任向对话型代理装置651传送对话数据等的对话数据传送部。

对话型代理装置651与实施方式3的对话型代理装置351相比，虽然在具备第2对话数据收发部652而取代对话数据接收部252的方面不同，但其他的构成是同样的。而且，第2对话数据收发部652兼任接收从数字电视接收机传送来的对话数据等的对话数据接收部。

接下来，对于如上所述构成的对话装置的动作，以利用者视听数字电视接收机601时有来访者的场面为例进行说明。具体讲，利用者一边处在数字电视接收机601之前一边决定是否应答来访者，可以进行以下所示的对话。

(1)对话型代理装置：“有人来了。去见？”(在显示部103上显示来访者)

(2)利用者：“不见”(边看来访者)

(3)对话型代理装置：“知道了”

(4)通报电话“现在主人不在家”

首先，来访者按压开关1804。控制部1803判断为有来访者，将图像输入部1805、声音输入部1806及声音输出部1807通电。而且，经过控制部1803、第1数据收发部1802、第2数据收发部602、显示/声音输出控制部204，将从图像输入部1805输入的来访者的图像显示在显示部103的画面的一部分或全部上。

接着，控制部1803从第1数据收发部1802传送对话数据库1808内存储的与利用者之间进行对话用的对话数据或利用者最初搭话的言语。该对话数据等经过数字电视接收机601的第2数据收发部602，从第1对话数据收发部603向对话型代理装置651传送。对话型代理装置651的第2对话数据收发部652接收对话数据等，并向对话数据处理部253传送。对话数据处理部253向对话数据库354传送对话数据及对利用者的应答数据。对话数据库354存储应答数据。同时，对话数据处理部253向声音合成部256传送对话型代理装置651最初与利用者搭话的言语(1)“有人来了。去见？”。声音合成部256以合成声音输出发音(1)。而且，应答数据，可以在来访者来之前，预先从对话数据库(通报电话侧)1808传送到对话数据库(对话型代理装置侧)354，也可以在装置出厂时预先存储。

接下来，从声音输入部105输入利用者的发声(2)“不见”。声音辨识部362辨识利用者的发声(2)，对话处理部355从对话数据库354中选择与利用者的发声“不见”(即，“否定”的类型)对应的应答(3)“知道了”，并送至声音合成部256。声音合成部256以合成声音输出应答(3)。

另一方面，对话处理部355向对话数据处理部253传送表示声音辨识结果为“否定”类型的信息。经过第2数据收发部652、第1对话数据收发部603、第2数据收发部602及第1数据收发部1802，向控制部1803通知为“否定”类型的信息。控制部1803从对话数据库1808中选择发声(4)“现在主人不在家”，并从声音输出部1807输出。

最后，通过来自控制部1803的指令，显示部103的显示结束，对话数据处理部253的对话结束，断开通报电话1801中的图像输入部1805、声音输入部1806、声音输出部1807的电源。

这样，在实施方式6的对话装置中，由于对应于辨识了看来访者的图像的利用者的发声“哎呀”的结果为“否定”等，根据与来访者的图像联动的对话数据，生成应答数据“知道了”等，可以在与利用者之间对来访者共有对话场面，难于误辨识利用者的发声，可以顺利地进入对话。另外，由于利用者能视听数字电视接收机601边对应来访者，故也可以得到对应成为乐趣的效果。

而且，在上述实施方式2～实施方式5中，虽然示出了对话装置由电视接收机与对话型代理装置构成的示例，但并未限于此，也可以如实施方式1所示，具有以电视接收机单体使文字图像等显示在显示部上，以此进行对话那样的印象。进而，并未限于声音的对话，对于装置侧的发话，也可以由文字显示来进行。

另外，实施方式2～实施方式5中的各构成要素设于电视接收机与对话型代理装置的哪个中的方式，并未限于上述情况，例如在对话型代理装置侧设置附加信息处理部，在电视接收机侧设置对话数据处理部及对话数据库，在电视接收机或STB(机顶盒)中设置声音辨识部等，可以进行各种设定。再有，也可以只由实施方式2～5中示出的对话型代理装置构成对话装置，广播图像的显示等由通常的电视接收机等来进行。

此外，并未限于使用电视接收机，例如也可以用STB等构成只进行数据处理或信号处理的对话装置，图像的显示或声音的输入输出在外部其他的显示装置中进行。

再有，在上述的示例中，虽然示出了接收图像数据(图像信号)等或对话数据被传送过的数据的示例，但这些数据等并未限于通过广播供给，通过互联网(宽带)或记录介质等供给也可以得到同样的效果。另外，关于广播，也可以适用于接收地面波广播或卫星广播、CATV(有线电视广播)等各种形式的广播的机器。

还有，可以用互不相同的路线输入图像数据等和对话数据。另外，并未限于同步输入，可以在图像数据等之前输入对话数据(也包含关键字词典数据等)，或预先(制造阶段等中)存储于(所谓常驻)装置内。如上所述，对于关键字词典数据等一般能共用的数据，预先进行存储对于传送数据量的降低或传送处理的简化是有利的。在这里，虽然在伴随显示图像的进展而顺序处理对话数据的情况下，优选根据对应于显示图像的进展的时间信号(或信息)来顺次进行对话处理，但在以随机(不定)的顺序处理对话数据或反复处理同一对话数据时，可以对应于显示图像的进展，伴随时间信号，利用特定对话数据的识别信息。此外，可以使对话数据包含例如表示从图像的显示开始到应使用该对话数据的时刻为止的时间等的时间信息，同时在图像的显示时计时该显示时间的经过，比较上述已计时的经过时间与上述时间信息，在由上述时间信息表示的时间经过了时，开始该对话数据的对话。

另外，作为对话数据等的形式，并未限于表示数据内容的纯粹的数据形式，也可以使用包含该对话数据等的处理内容的程序或命令等形式。这种方法，更具体讲，例如若利用XML或将XML适用于广播数据中BML等的记述格式，则能容易地实现。即，作为对话装置，若设置解释上述命令等并执行的结构，则可以通过对话数据等进行更灵活的对话处理。

再有，上述各实施方式或变形例的构成要素，可以在理论上可能的范围内进行各种组合或取舍选择。具体讲，例如省略实施方式3(图8)的定时器管理部311，或适用于实施方式2(图5)，或将实施方式4(图14)的暂时存储部471适用于实施方式2等。

还有，作为声音合成的方法，例如并未限于通过合成声音来读出正文数据的方法，例如可以使用将录音声音预先编码的声音数据，根据对话数据进行译码处理等，使其发声。这种情况下，可以简单地表现以合成声音难生成的音质或声调。此外，并未限于这些，也可以适用各种公知的方法。

此外，作为声音辨识的方法，也可以适用各种公知的方法，无论该方法如何，都可以得到本发明的本质效果。

另外，在实施方式1等中，虽然示出了对话只回答1次就结束的示例，但当然并未限于此，可以进行更多次的交谈。即使在这种情况下，也在某种程度地反复进行应答时刻，通过根据新画面的进展而自然地切换话题，从而可以不继续进行不对路的对话。

还有，在反复数次得到对话的应答时，即使在伴随显示图像的进展而输入新的对话数据或时间信息的情况下，也不一定开始与此对应的新对话。例如，在视听者的发话数据进入对话数据预先设想的对话内容的范围内时，即在对话数据内定义的关键字的命中率高(以下，对话的适合度高)时，即使在输入了新的对话数据的情况下，也继续进行到此为止的对话。另外，新的对话数据等中包含表示优先顺序的信息，可以根据其优先顺序与对话的适合度，来决定是继续对话还是切换为新的对话。具体讲，例如在对话的适合度高，且输入了优先度低的新对话等时，继续对话，另一方面，在对话的适合度低(对话不对路)的情况下，即使优先度低，也在输入了新的对话数据时，通过切换为新的对话，从而可以容易地解除不适当的对话的继续。

再有，可以根据保持于对话装置内或从其他机器通过网络而取得的视听者的简介信息(或者根据简介信息、上述对话的适合度与新对话数据的优先度的2个或以上的组合)，决定是否开始新的对话。具体讲，例如在由简介信息表示视听者对料理相关的话题感兴趣时，在进行料理相关的对话时即使输入了与其他话题相关的新对话数据等，也会继续到此为止的对话，另一方面，在进行与其他话题相关的对话时输入了料理相关话题的新对话数据时，若无论对话的适合度多高都开始新的对话，则也可以进一步顺利地进行对话的继续、切换。另外，针对上述的简介信息或对话的适合度等的组合，可以任意设定将重点置于何处等的对话继续、切换的条件信息自身。

另外，如上所述，在根据简介信息控制对话的继续、切换时，也可以根据之后的对话适合度，来更新上述简介信息本身。具体讲，例如在对料理相关的话题的对话适合度高的情况下，如视听者对料理相关的话题更感兴趣的情况所示，通过更新简介信息，可以容易地进行更适当的对话。

此外，在如上所述地进行伴随图像显示的对话时，能将视听者的发话内容对应的数据或对话适合度与图像一起记录于记录介质中，同时，在再生记录过的图像时，若将上述数据或适合度作为关键字，能搜索再生场所，则可以容易地再生进行了表示视听者对显示图像印象深的发话的场所或与对话装置的对话起劲的场所。

(工业上的可利用性)

根据如上所述的本发明，由于通过对视听者，根据与非对话性进行的图像对应的对话数据而进行对话，从而可以容易地以自然的感觉将视听者引入对话装置预先设想的对话内容中，因此，即使在比较小规模的装置构成中，也难误辨识利用者的发音，从而顺利地进行对话，可以容易地给予与自由对话接近的印象，故在视听机器或家用电器产品等领域内是有用的。

Claims

1.一种对话装置，其特征在于，具备：

显示控制机构，其根据图像数据，在显示部上显示对视听者非对话性进展的图像；

对话数据存储机构，其存储对应于所述图像的进展的对话数据；

声音辨识机构，其通过基于视听者发出的声音的辨识处理，输出表示视听者的发话内容的视听者发话数据；

对话处理机构，其根据所述视听者发话数据、所述对话数据及对应于所述图像的进展的时间信息，输出表示对话装置的发话内容的装置发话数据；和

发声控制机构，其根据所述装置发话数据，使发音部发出声音。

2.根据权利要求1所述的对话装置，其特征在于，还具备输入机构，其通过无线通信、有线通信、网络通信及记录介质的至少任意一种，输入所述图像数据及所述对话数据，向所述显示控制机构及所述对话数据存储机构输出所述已输入的数据。

3.根据权利要求2所述的对话装置，其特征在于，所述输入机构构成为通过互不相同的路径输入所述图像数据与所述对话数据。

4.根据权利要求2所述的对话装置，其特征在于，所述输入机构构成为通过在与所述图像数据对应的给定时间内输入所述对话数据，从而输出所述时间信息。

5.根据权利要求2所述的对话装置，其特征在于，还具备视听者发话数据存储机构，其存储所述视听者发话数据；

所述对话处理机构构成为根据已存储于所述视听者发话数据存储机构内的所述视听者发话数据、及所述视听者发出基于所述视听者发话数据的所述声音后重新向所述输入机构输入的对话数据，输出所述装置发话数据。

6.根据权利要求1所述的对话装置，其特征在于，所述对话处理机构构成为根据所述图像数据内包含的所述时间信息，输出所述装置发话数据。

7.根据权利要求6所述的对话装置，其特征在于，

所述对话数据存储机构构成为可以存储多个所述对话数据；同时

所述图像数据包含所述时间信息与特定所述多个对话数据中的至少任意一个的对话数据特定信息；

所述对话处理机构构成为根据所述时间信息及所述对话数据特定信息，输出所述装置发话数据。

8.根据权利要求1所述的对话装置，其特征在于，还具备计时机构，其输出与所述图像的显示时间的经过对应的所述时间信息；

所述对话数据包括表示所述对话处理机构应输出的所述装置发话数据的时间的输出时间信息；

所述对话处理机构构成为根据所述时间信息及所述输出时间信息，输出所述装置发话数据。

9.根据权利要求1所述的对话装置，其特征在于，所述对话处理机构构成为通过根据所述对话数据及所述时间信息，输出所述装置发话数据，从而开始与视听者的对话，另一方面通过根据所述对话数据及所述视听者发话数据，输出所述装置发话数据，从而继续所述已开始的对话。

10.根据权利要求9的对话装置，其特征在于，所述对话处理机构构成为根据已经开始的与视听者的对话中的所述装置发话数据与所述视听者发话数据之间的适合度、以及与视听者的新对话开始的优先度，开始所述新的对话。

11.根据权利要求9所述的对话装置，其特征在于，所述对话处理机构构成为根据视听者相关的简介信息及对应于所述简介信息、表示用来开始与视听者的对话的条件的对话开始条件信息，开始与视听者的对话。

12.根据权利要求9所述的对话装置，其特征在于，所述对话处理机构构成为根据已经开始的与视听者的对话中的所述装置发话数据与所述视听者发话数据之间的适合度、视听者相关的简介信息、以及对应于所述适合度和所述简介信息表示用来开始与视听者的对话的条件的对话开始条件信息，开始与视听者的新对话。

13.根据权利要求12所述的对话装置，其特征在于，所述对话处理机构构成为根据所述已开始的对话中的所述装置发话数据与所述视听者发话数据之间的适合度，更新所述简介信息。

14.根据权利要求1所述的对话装置，其特征在于，所述对话处理机构构成为在给定一系列的所述图像显示在给定时间连续进行时，输出所述装置发话数据。

15.一种对话主机装置，其特征在于，具备：

输入机构，其通过无线通信、有线通信、网络通信及记录介质的至少任意一种，输入表示对视听者非对话性进展的图像之图像数据、及与所述图像的进展对应的对话数据；

显示控制机构，其根据所述图像数据，在显示部上显示所述图像；和

传送机构，其向对话子机装置传送所述对话数据及与所述图像的进展对应的时间信息。

16.一种对话子机装置，其特征在于，具备：

接收机构，其接收从对话主机装置传送来的、与对视听者非对话性进展的图像的进展对应的对话数据及对应于所述图像的进展的时间信息；

对话数据存储机构，其存储所述对话数据；

对话处理机构，其根据所述视听者发话数据、所述对话数据及时间信息，输出表示对话子机装置的发话内容的装置发话数据；和

17.一种对话控制方法，其特征在于，具有：

显示控制步骤，根据图像信息，在显示部上显示对视听者非对话性进展的图像；

声音辨识步骤，通过基于视听者发话了的声音的辨识处理，输出表示视听者的发话内容的视听者发话数据；

对话处理步骤，根据所述视听者发话数据、与所述图像的进展对应的对话数据及与所述图像的进展对应的时间信息，输出表示对话装置的发话内容的装置发话数据；和

发声控制步骤，根据所述装置发话数据，使发音部发出声音。

18.一种对话控制方法，其特征在于，具有：

输入步骤，通过无线通信、有线通信、网络通信及记录介质的至少任意一种，输入表示对视听者非对话性进展的图像之图像数据及与所述图像的进展对应的对话数据；

显示控制步骤，根据所述图像数据，在显示部上显示所述图像；和

传送步骤，向对话子机装置传送所述对话数据及与所述图像的进展对应的时间信息。

19.一种对话控制方法，其特征在于，具有：

接收步骤，接收从对话主机装置传送来的、与对视听者非对话性进展的图像的进展对应的对话数据及与所述图像的进展对应的时间信息；

声音辨识步骤，通过基于视听者发出的声音的辨识处理，输出表示视听者的发话内容的视听者发话数据；

对话处理步骤，根据所述视听者发话数据、所述对话数据及时间信息，输出表示对话子机装置的发话内容的装置发话数据；和

20.一种对话控制程序，其特征在于，使计算机执行以下处理：

21.一种对话控制程序，其特征在于，使计算机执行以下处理：

22.一种对话控制程序，其特征在于，使计算机执行以下处理：