CN1445652A - 对话系统和对话控制装置 - Google Patents

对话系统和对话控制装置 Download PDF

Info

Publication number
CN1445652A
CN1445652A CN03121602A CN03121602A CN1445652A CN 1445652 A CN1445652 A CN 1445652A CN 03121602 A CN03121602 A CN 03121602A CN 03121602 A CN03121602 A CN 03121602A CN 1445652 A CN1445652 A CN 1445652A
Authority
CN
China
Prior art keywords
voice
communication terminal
information
generator
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN03121602A
Other languages
English (en)
Other versions
CN1220934C (zh
Inventor
牛田博英
中嵨宏
大本浩司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Publication of CN1445652A publication Critical patent/CN1445652A/zh
Application granted granted Critical
Publication of CN1220934C publication Critical patent/CN1220934C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供一种对话系统,即使是非高性能、高功能的低性能终端,也能够同时采用语音识别、接触输入、语音输出和画面显示进行用语音的操作。该系统包括发送语音信息的语音装置、发送画面信息的画面装置和对语音装置和画面装置发送接收信息的对话控制装置,上述装置分别连接在公共线路交换网和网络上。语音终端连接在线路上,画面终端连接在网络上,语音终端与语音装置之间以及画面终端与画面装置之间能够进行通信,对话控制装置控制语音装置与画面装置之间的相互通信。分别在语音终端和画面终端之间发送接收语音信息和画面信息,可同时进行语音输入和接触输入。语音终端和画面终端由不同的终端或同一用户终端构成。

Description

对话系统和对话控制装置
技术领域
本发明涉及对话系统和对话控制装置,特别适合用于用户与机器同时采用语音和画面进行对话的语音识别系统。
背景技术
以往,人们知道分别具有语音识别、接触输入、语音输出和画面显示的对话系统(日本公开专利特开平11-184671号公报,文献1),同时采用语音和画面,在操作终端的用户与机器之间进行对话。其中的所谓“接触输入”是指键盘、接触面板、指向器、数字键盘等,通过人体与器具接触的方式进行的输入。另外,在上述文献1等中描述的已有技术的对话系统中,作为用户所持有的终端,列举出配备有语音识别部、语音控制部和语音提示处理部的终端。
下面参照附图说明互联网环境中采用的上述对话系统。图11表示已有技术的对话系统的构成。
如图11所示,已有技术的对话系统是把用户操作的用户终端102、语音识别字典服务器103和Web服务器104连接在互联网101上而构成。用户终端102具有语音控制部102a、语音识别部102b和信息提示处理部102c。虽然图示省略了,但是在用户终端中还设置有鼠标等指向器和键盘等接触输入部。
操作用户终端102的用户能够同时采用由语音识别部102b进行的语音识别、由接触输入部进行的接触输入、由语音控制部102a进行的语音输出、由信息提示处理部102c进行的画面显示,来输入并取得信息。
按照这样构成的已有技术的对话系统,其优点是可通过使用HTML(Hyper Text Markup Language)文件和控制模式文件,对每个HTML文件切换语音识别字典。
即,指定在HTML文件中所使用的语音识别字典,对控制模式文件中的每个识别词汇指定下面应提示的HTML文件,由此,切换语音识别字典。
但是,上述已有技术的对话系统存在下述问题。
即,为了把数十万条以上的大规模的识别词汇作为对象进行语音识别,就必须要求高性能的中央运算处理装置(处理器,中央处理单元(CPU))和大容量的存储器。因此,像上述的对话系统,在终端进行语音识别的方法中,在制造具有高性能的CPU与大容量存储器的终端时,其成本增加。
如果例举具体的一个实例,使用便携式电话终端进行与大量的词汇有关的语音识别就会导致便携式电话终端机身制造成本的大幅度的增加,伴随而来的就是使销售价格大为上升。因此,很难实现采用便携式电话终端的语音识别,妨碍移动环境下的利用。
在使用语音的对话中,必须根据对话的状况控制语音识别和语音输出。
具体来说,在不能识别用户发出的语音的情况下的控制或终端装置的语音引导的输出时,必须控制是否受理用户的发话。可是,在上述对话系统中,由于采用HTML文件作为控制语言,所以难以进行采用语音的对话的必要控制。
即,在上述的以往的对话系统中,首先,检测识别词汇,然后,从服务器获得与该识别词汇相对应的HTML文件。但是,在不能检测识别词汇的情况下,由于不可能获得HTML文件,故在不能够识别时,对话停止。另外,在HTML文件中极难表示是否受理用户发话的控制信息。
发明内容
因此,本发明的目的在于提供一种对话系统和对话控制装置,其中,即使不必要求高性能、高功能的仅仅具有便携式终端水平的性能的终端也能够同时采用语音识别、接触输入、语音输出和画面显示,并且可控制由使用这些方式的语音进行的操作(对话处理)。
为了解决上述课题,按照发明的第一项发明的特征在于具有:可输出语音信息的语音信息提供装置、可输出画面信息的画面信息提供装置以及可对上述语音信息提供装置和画面信息提供装置发送接收电子信息的对话控制装置;
至少可与画面信息提供装置之间进行通信的第一通信终端和至少可与语音信息提供装置之间进行通信的第二通信终端可连接起来;
画面信息提供装置具有记录发送到可显示视觉信息的第一通信终端的第一电子信息和对话控制装置中所使用的第二电子信息的记录部,同时在从第一通信终端或对话控制装置接收到信息的情况下,可根据接收到的信息进行向第一通信终端发送第一电子信息的处理和向对话控制装置发送第二电子信息的处理中的至少一种处理;
语音信息提供装置在接收到由对话控制装置生成的语音对话用信息的情况下可从对话控制装置把基于语音对话用信息的语音信息发送到第二通信终端,同时在从第二通信终端接收到语音信息的情况下,可根据语音对话用信息识别所接收到的语音信息,并生成语音识别结果,发送到对话控制装置;
对话控制装置在从画面信息提供装置接收到第二电子信息的情况下,可根据第二电子信息生成语音对话用信息,发送到语音信息提供装置,同时在从语音信息提供装置接收到语音识别结果的情况下,可根据第二电子信息,将与语音识别结果有关的信息发送到画面信息提供装置。
作为典型方式,该第一项发明中,画面信息提供装置、语音信息提供装置和对话控制装置可经电话线路交换网、互联网或局域网(LAN)等网络相互连接,同时第一通信终端和第二通信终端可经网络连接起来。
本发明的第二项发明的特征在于连接有画面信息提供装置和语音信息提供装置;
画面信息提供装置具有可记录发送到能显示视觉信息的第一通信终端的第一电子信息和语音信息提供装置所使用的第二电子信息的记录部,同时在从第一通信终端或语音信息提供装置接收到信息的情况下,可进行把基于接收到的信息的第一电子信息发送到第一通信终端的处理和向语音信息提供装置发送第二电子信息的处理中的至少一种处理;
语音信息提供装置在从画面信息提供装置接收到第二电子信息的情况下,可将基于第二电子信息的语音信息发送到能输出语音的第二通信终端,同时在从第二通信终端接收到语音信息的情况下,可根据第二电子信息识别接收到的语音信息,并生成语音识别结果,将语音识别结果发送到画面信息提供装置。
在该第一项和第二项发明中,如果考虑可与互联网等网络连接的便携式电话或PHS等所采用的情况,第一通信终端和第二通信终端最好由同一终端构成。
作为典型方式,在该第二项发明中,画面信息提供装置和声音信息提供装置可经网络相互连接,同时可经网络把第一通信装置和第二通信装置连接起来。
本发明的第三项发明的特征在于画面信息提供装置、对话控制装置和语音识别装置相互连接起来而构成,同时可连接通信终端;
画面信息提供装置具有可记录发送到通信终端的第一电子信息和对话控制装置中所使用的第二电子信息的记录部,同时在从通信终端或对话控制装置接收到信息的情况下,可根据接收到的信息进行把第一电子信息发送到通信终端的处理和把第二电子信息发送到对话控制装置的处理中的至少一种处理;
对话控制装置在从画面信息提供装置接收到第二电子信息的情况下,生成基于第二电子信息的语音对话用信息,并发送到通信终端,在从通信终端接收到语音识别结果的情况下,根据第二电子信息把与上述语音识别结果有关的信息发送到画面信息提供装置;
语音识别装置可从通信终端接收语音信息,识别所接收到的语音信息,生成语音识别结果,并发送到通信终端。
作为典型方式,在该第三项发明中,在从画面信息提供装置接收到第一电子信息的情况下,通信终端可输出第一电子信息或对第一电子信息进行了加工的信息;在进行了接触输入的情况下,通信终端可根据第一电子信息把已进行了接触输入的信息发送到画面信息提供装置;在从对话控制装置接收到语音对话用信息的情况下,通信终端可根据语音对话用信息控制语音的输入或语音的输出;在进行了语音的输入的情况下,通信终端可根据语音对话用信息把语音发送到语音识别装置;在从语音识别装置接收到语音识别结果的情况下,通信终端可根据语音对话用信息把与语音识别结果有关的信息发送到对话控制装置。
在上述第一项发明或第三项发明中,在接收到语音识别结果的情况下,对话控制装置最好可根据第二电子信息和语音识别结果生成语音对话用信息。
本发明的第四项发明的特征在于把画面信息提供装置和语音识别装置连接起来而构成,同时能够连接可与画面信息提供装置和语音识别装置进行通信的通信终端;
画面信息提供装置具有可记录发送到通信终端的第一电子信息和语音识别装置所使用的第二电子信息的记录部,并且可根据从通信终端接收到的信息把第一电子信息和第二电子信息发送到通信终端;
语音识别装置识别从通信终端接收到的语音信息,并可生成语音信息的语音识别结果,同时可把语音识别结果发送到通信终端。
作为典型方式,在该第四项发明中,通信终端在从画面信息提供装置接收到第一电子信息的情况下可显示第一电子信息或对第一电子信息进行了加工的信息;在进行了接触输入的情况下可根据第一电子信息把已进行了接触输入的信息发送到画面信息提供装置;在从画面信息提供装置接收到第二电子信息的情况下可根据第二电子信息控制语音的输入和语音的输出;在进行了语音输入的情况下可根据第二电子信息把语音的语音信息发送到语音识别装置;在从语音识别装置接收到语音识别结果的情况下可根据第二电子信息把与语音识别结果有关的信息发送到画面信息提供装置。
作为典型方式,在该第四项发明中,画面信息提供装置和语音识别装置经网络相互连接,并且通信终端经该网络可在与画面信息提供装置和语音识别装置之间进行通信。
本发明的第五项发明是一种对话控制装置,其特征在于具有:
接收从连接在网络上的第一电子计算机发送的电子信息的第一接收装置;
加工电子信息而生成语音对话用信息的生成装置;
向连接在网络上同时能够进行语音对话处理的第二电子计算机发送语音对话用信息的第一发送装置;
接收在第二电子计算机中进行的语音对话处理而生成的语音识别结果的第二接收装置;
根据语音识别结果或电子信息把与语音识别结果有关的信息发送到第一电子计算机的第二发送装置。
在该第五项发明中,为了节省装置中的空间和简化装置,作为典型方式,第一发送装置和第二接收装置由同一个第一发送接收装置构成,同时第二发送装置和第一接收装置由同一个第二发送接收装置构成。
在该第五项发明中,语音对话用信息的生成最好可根据语音识别结果来进行。
本发明的第六项发明是一种对话系统,可连接具有接触输入、语音输入、画面显示和语音输出的用户接口的通信终端;其特征在于具有:
接收基于通信终端发送的接触输入的电子信息的接收装置;
接收基于通信终端发送的语音输入的语音信息的接收装置;
把画面显示用的电子信息发送到通信终端的发送装置;
把语音输出用的语音信息发送到通信终端的发送装置;
根据基于接触输入的电子信息或基于语音输入的语音信息使画面显示用的电子信息或语音输出用的语音信息变化的装置。
本发明的第七项发明是一种对话系统,可连接具有接触输入和画面显示的用户接口的第一通信终端,同时可连接具有语音输入和语音输出的用户接口的第二通信终端;其特征在于具有:
接收第一通信终端发送的基于接触输入的电子信息的接收装置;
接收第二通信终端发送的基于语音输入的语音信息的接收装置;
把画面显示用的电子信息发送到第一通信终端的发送装置;
把语音输出用的语音信息发送到第二通信终端的发送装置;
根据基于接触输入的电子信息或基于语音输入的语音信息使画面显示用的电子信息或语音输出用的语音信息变化的装置。
在本发明的第一、第二和第六项发明中,在同一用户使用第一通信终端和第二通信终端的情况下,为了使该第一通信终端和第二通信终端相对应,作为典型方式,从第一通信终端接触输入第一用户识别符的同时,从第二通信终端发送第二用户识别符,比较第一用户识别符和第二识别符的异同,就能够使第一通信终端和第二通信终端相对应。
在本发明的第一、第二和第六项发明中,在同一用户使用第一通信终端和第二通信终端的情况下,为了使该第一通信终端和第二通信终端相对应,作为典型方式,在把第二通信终端与对话系统连接时,在对话系统中自动生成第一密码数据,并发送到第二通信终端;在第二通信终端,把第一密码数据进行语音输出后,把第一通信终端连接到对话系统上时,从第一通信终端接触输入第二密码数据,并发送到对话系统;在对话系统中,比较第一密码数据和第二密码数据的异同,就能够使第一通信终端和第二通信终端相对应。
在本发明的第一、第二和第六项发明中,在同一用户使用第一通信终端和第二通信终端的情况下,为了使该第一通信终端和第二通信终端相对应,同时进一步提高保密性,最好是在第一通信终端连接到对话系统上时,在上述对话系统中自动生成第一密码数据,并发送到第一通信终端;在第一通信终端,把第一密码数据进行画面输出后,在第二通信终端与对话系统连接时,从第二通信终端把第二密码数据发送到对话系统;在该对话系统中,比较第一密码数据和第二密码数据的异同,就能够使第一通信终端和第二通信终端相对应。
在本发明的第一、第二和第六项发明中,在同一用户使用第一通信终端和第二通信终端的情况下,为了更简便地使该第一通信终端和第二通信终端相对应,作为典型方式,可把第一通信终端连接在至少连接了画面信息提供装置的第一网络上,同时第二通信终端可连接在能够与第二通信终端进行通信且具有多个分别记录了位置信息的基站的第二网络上;第二通信终端与第一基站通信的同时,在第一基站,除了第二通信终端以外而不存在通信中的通信终端时,在第一通信终端连接到第一网络上时可使第一通信终端和第二通信终端相对应。
按照上述那样构成的本发明的对话系统和对话控制装置,使用第一通信终端和第二通信终端,或使用它们组合形成的通信终端来进行语音的终端操作时,在终端以外的外部进行语音识别处理就能够不对第一通信终端和第二通信终端施加较大的负荷,而可进行语音识别处理。
附图说明
图1是本发明的第一实施例的对话系统、连接在该对话系统上的语音终端和画面终端的方框图。
图2是本发明的第一实施例的对话控制系统的方框图。
图3是本发明的第一实施例的对话系统、连接在该对话系统上的语音终端和画面终端的对应情况的方框图。
图4是本发明的第一实施例的对话控制用文件数据的一个实例的程序。
图5是图4所示的对话控制用文件数据的一个实例的后续部分的程序。
图6是本发明的第一实施例的对话控制装置的对话控制处理的流程图。
图7是本发明的第一实施例的画面信息提供装置的方框图。
图8是本发明的第二实施例的对话系统、连接在该对话系统上的语音终端和画面终端的方框图。
图9是本发明的第二实施例的画面信息提供装置的方框图。
图10是本发明的第三实施例的对话系统、连接在该对话系统上的用户终端的方框图。
图11是已有技术的对话系统、连接在该对话系统上的用户终端的方框图。
具体实施方式
下面参照附图,对本发明的实施例进行描述。在以下的实施例的全部附图中,同样的或相对应的部分标注同一标号。
(第一实施例)
首先,对本发明的第一实施例的对话系统进行描述。图1表示该第一实施例的对话系统、连接在该对话系统上的语音终端和画面终端。
如图1所示,在该第一实施例的语音识别对话系统中,语音终端2和语音信息提供装置3连接在例如由电话线路等线路网构成的公共线路交换网1上。画面终端5、语音信息提供装置3、语音对话用数据提供装置6、对话控制装置7以及画面信息提供装置8连接在互联网等的宽带网络4上。
其中的语音终端2和画面终端5是用户侧所持有并使用的终端,语音信息提供装置3、语音对话用数据提供装置6、对话控制装置7以及画面信息提供装置8是设置在对话系统侧的装置。
语音终端2是例如便携电话、PHS(Personal Handy phone System个人手机系统)、PDA(Personal Digital Assistant个人数字助理)或个人计算机(PC)等具有语音输入输出装置的通信终端。
该语音终端2中,可输入作为用户本身发出的语音的语音信号、多频拨号音(Dial Tone Multi Frequency,DTMF),同时能够经公共线路交换网1输入来自语音信息提供装置3的语音信号。
语音终端2中,可输出语音信号,该语音信号经公共线路交换网1供给语音信息提供装置3。可从该语音终端2向用户输出可听到的语音。
在这样构成的语音终端2中,在从用户输入语音或DTMF的情况下,语音终端2首先把这些语音或DTMF转换为语音信号,然后,经公共线路交换网1把该语音信号发送到语音信息提供装置3。另一方面,在语音终端2接收来自语音信息提供装置3的语音信号的情况下,该语音终端2将所接收到的语音信号恢复为语音,从设置于语音终端2中的扬声器(图中未示出)输出。该语音终端2的用户可听从该扬声器输出的语音来识别语音信息。
用户所持有并使用的画面终端5由例如便携电话、PHS、PDA或PC等通信终端构成,该通信终端至少具有显示GUI画面的画面显示装置和接受来自用户的接触输入的接触输入装置(在图中均未示出)。在这里,所谓“接触输入”是指用户用数字键、键盘、触摸面板、指向器等输入装置直接接触进行的输入,用硬件或软件来实现。
在该画面终端5中,用户可通过接触输入来输入文字等文本信息或指向信息,同时该画面终端5可经网络4输入从画面信息提供装置8发送的例如HTML文件等用于在画面上进行显示的电子信息。
此外,在该画面终端5中,可输出通用资源标识符(Universal ResourceIndicator,URI)、用户通过接触输入来输入的输入信息以及识别画面终端5的标识符(用户ID)。该URI、输入信息和用户ID通过网络4供给画面信息提供装置8。该画面终端5中,可输出用户能认识的画面信息。
在这样构成的画面终端5中,在与画面信息提供装置8之间,进行网上信息块(Cookie)的对话期间管理。把用户ID包含在网上信息块中,画面信息提供装置8就能够识别画面终端5。
在用户通过接触输入输入了输入信息和URI的情况下,画面终端5将该输入信息和URI变换为信号,然后,通过网络4将该信号发送到画面信息提供装置8。另一方面,在画面终端5从该画面信息提供装置8接收到电子信息的情况下,该画面终端5对所接收到的电子信息进行分析处理,然后,作为图象显示在画面上。语音终端2的用户观看显示在画面上的图象,就能识别画面中的图象信息。
语音信息提供装置3至少具有分析语音识别时所用的语言即“语音XML(语音XML)”的语音XML分析执行装置、语音识别装置以及语音合成装置。该语音XML分析执行装置、语音识别装置以及语音合成装置既可设置于同一计算机中,也可设置于不同的计算机中。
语音XML分析执行装置中,对每个连接的语音终端2生成并在与对话控制装置7之间进行网上信息块的对话期间管理。把密码(主叫人ID)包含在网上信息块内,语音信息提供装置3和对话控制装置7就可相互对应语音终端2的用户。
具体来说,在语音XML分析执行装置中,首先对语音XML文件进行分析处理。此时,在所接收到的语音XML文件内有进行语音识别的记述的情况下,对语音识别装置请求识别,并取得识别结果。把所取得的识别结果发送到对话控制装置7。接着,从语音XML文件内记述的识别语法的所在地取得识别语法。此时,在所接收到的语音XML文件内有进行语音合成的记述的情况下,对语音合成装置请求合成,并取得合成结果。然后,语音XML分析执行装置将所取得的合成结果变换为语音信号,发送到语音终端2。在所接收到的语音XML文件内有输出语音引导用文件的记述的情况下,从所记述的所在地取得语音引导用文件。接着将所取得的语音引导用文件的内容变换为语音信号,发送到语音终端2。
在语音XML文件内有取得语音XML文件的记述的情况下,在由URI指定的地方要求语音XML文件。
从对话控制装置7接收中断命令信号时,按下述的顺序进行处理。中断语音XML分析处理、语音识别以及语音信号的输出。
向对话控制装置7要求新的语音XML文件的URI。在此之前,在发送到语音信息提供装置3的语音XML文件中指定该URI。
在语音识别装置的处理中,首先,根据来自语音XML分析执行装置的请求,进行语音识别处理,将识别结果返回到给语音XML分析执行装置。
另一方面,在语音合成装置中,根据来自语音XML分析执行装置的请求,将文本信息变换为语音数据,将变换结果返回到该语音XML分析执行装置。此时,从语音对话用数据提供装置6取得向语音数据变换所必要的语音合成用数据文件。
语音信息提供装置3可输入从上述语音终端2输出的语音信号。即,语音信息提供装置3可输入用于识别从对话控制装置7输出的语音终端2的识别符(主叫人ID、密码)和语音XML文件数据,同时可输入从语音对话用数据提供装置6输出的语音识别语法文件、语音引导用文件和语音合成用数据文件等电子信息。
语音信息提供装置3可输出语音信号,如上所述,可通过公共线路交换网1把语音信号供给语音终端2。
语音信息提供装置3可输出语音XML文件的URI、密码(主叫人ID)、语音识别结果(Rec Result)、语音识别语法文件的URI、语音引导用文件的URI以及语音合成用数据文件的请求。语音识别结果具有识别词汇、识别词汇的属性、对应于识别的可信度的多个识别结果候补(N-best)、可信度低于设定值的情况下的识别错误(nomatch)以及输入音量小于设定值的情况下的识别错误(noinput)。
从语音信息提供装置3输出的信号中的语音XML文件的URI、密码(主叫人ID)和语音识别结果(Rec Result)经网络4被发送到对话控制装置7。
另一方面,从语音信息提供装置3输出的信号中的语音识别语法文件的URI、语音引导用文件的URI以及语音合成用数据文件的请求经网络4被送到语音对话用数据提供装置6。
语音对话用数据提供装置6具有可存储数据的辅助记录媒体(图中未示出),在语音对话用数据提供装置6的辅助记录媒体上存储有语音识别语法文件、语音引导用文件以及语音合成用数据文件。
语音对话用数据提供装置6可应答来自语音信息提供装置3的请求,经网络4将这些文件提供给语音信息提供装置3。该语音对话用数据提供装置6既可由同一台计算机构成,也可由互不相同的计算机构成。可以把该语音对话用数据提供装置6包含在语音信息提供装置3内,由同一台计算机构成。
对话控制装置7用来在语音信息提供装置3和画面信息提供装置8之间进行同步控制,画面信息提供装置8至少具有Web服务器、应用程序和数据库。画面信息提供装置8中的Web服务器、应用程序和数据库等各个装置可设置在同一个计算机中,也可设置在互不相同的计算机中。后面将详细描述对话控制装置7和画面信息提供装置8。
在语音信息提供装置3、对话控制装置7以及画面信息提供装置8相互之间用对话控制用文件数据实现同步。该对话控制用文件数据例如可像如下这样使用。
具体来说,首先,用户使用画面终端5经公共线路交换网1和网络4连接到该第一实施例的对话系统上的情况下,接着就在对话系统和语音终端2之间确立连接。
即,在用户对第一实施例的对话系统连接语音终端2之前,从画面终端5开始连接的情况下,首先从画面信息提供装置8向对话控制装置7发送初始化语音信息提供装置3的对话控制用文件数据。
接收到对话控制用文件数据的对话控制装置7控制生成语音对话用的文件数据的语音对话用文件生成部24(图中未示出)从对话控制用文件数据生成语音XML文件数据。在这里生成的语音XML文件数据被登记在特定的URI中。该登记地址的URI被记述在对话控制用文件数据内。
在语音信息提供装置3中,一旦有来自语音终端2的连接,就进行设定,以请求该URI的语音XML文件数据,一旦实现连接,就请求相应的语音XML文件数据。
另一方面,在用户从语音终端2与第一实施例的对话系统连接的情况下,就如下面那样实现该对话系统与语音终端5之间的连接。
即,在用户从语音终端2连接之前,准备初始连接用的语音XML文件数据(初始连接用语音XML文件数据)。该初始连接用语音XML文件数据被存储在语音信息提供装置3、对话控制装置7或不同于它们的装置中。初始连接用语音XML文件数据也可以根据发话方号码或拨入号码来准备。
一旦有来自语音终端2的连接,语音信息提供装置3就分析执行初始连接用语音XML文件数据。然后从语音信息提供装置3把分析执行初始连接用语音XML文件数据而输出的语音识别结果发送到对话控制装置7。
向对话控制装置7要求下次应处理的语音XML文件的URI。一旦接收到语音识别结果,该对话控制装置7就根据对话控制用文件的内容进行处理,并把处理结果发送到画面信息提供装置8。对话控制装置7对语音信息提供装置3,将相应的语音XML文件数据发送到所要求的URI。
在用户从画面终端5对该对话系统进行输入的情况下,按如下方式进行对话的同步。
即,使对话系统处于还可接收来自画面终端5和语音终端2中的任何一方输入的状态。在该状态下,在从画面终端5输入的情况下,从画面信息提供装置8向对话控制装置7发送对话控制用文件数据。在该对话控制装置7中,由语音对话用文件生成部24从对话控制用文件数据生成语音XML文件,并把中断命令信号发送到语音信息提供装置3。
一旦接收到中断命令信号,语音信息提供装置3就中断语音XML分析执行、语音识别和语音输出。同时,语音信息提供装置3向对话控制装置7要求新的语音XML文件的URI。接收到要求的对话控制装置7针对该要求发送所生成的语音XML文件数据。
在用户从语音终端2对该对话系统进行输入的情况下,按如下方式来变更画面显示。
即,使对话系统的状态处于还可接收来自画面终端5和语音终端2中的任何一方的输入的状态下,在该状态下,如果有从语音终端2向语音信息提供装置3进行语音信息的输入,就从语音信息提供装置3向对话控制装置7发送语音识别结果。
在对话控制装置7中,根据对话控制用文件数据处理语音识别结果,并将该处理结果发送到画面信息提供装置8。
在画面信息提供装置8中,根据所接收到的处理结果切换画面的显示内容。
这里,来说明对话控制装置7。图2表示该第一实施例的对话控制装置7的各部分。
如图2所示,在该第一实施例的对话控制装置7中,具有语音现场通信部21、应用现场通信部22、用户状态管理部23、语音对话用文件生成部24和对话控制用文件分析部25。
语音现场通信部21可从语音信息提供装置3输入语音XML文件的URI、密码(主叫人ID)以及语音识别结果,同时输出密码(主叫人ID)、语音XML文件数据以及语音处理的中断命令信号,供给语音信息提供装置3。
语音现场通信部21可输入从语音对话用文件生成部24输出的密码(主叫人ID)和语音XML文件数据。另外,语音现场通信部21可输入从对话控制用文件分析部25输出的密码(主叫人ID)和语音处理的中断命令信号的信号,同时语音现场通信部21可输入密码(主叫人ID)和语音识别结果,供给对话控制用文件分析部25。
这样构成的语音现场通信部21在与语音信息提供装置3之间进行按网上信息块的对话期间管理。这里,网上信息块中包含有密码(主叫人ID),用网上信息块,语音信息提供装置3和对话控制装置7就可相互对应语音终端2的用户。
在语音现场通信部21从语音信息提供装置3接收到密码(主叫人ID),以及语音XML文件的URI的情况下,如果该接收内容中不包括网上信息块,就生成新的网上信息块。并且,语音现场通信部21将位于被要求的URI的语音XML文件数据与密码(主叫人ID)一起发送到语音信息提供装置3。
另一方面,在语音现场通信部21从语音信息提供装置3接收到密码(主叫人ID)以及语音识别结果的情况下,语音现场通信部21就把密码(主叫人ID)和语音识别结果发送到对话控制用文件分析部25。在对话控制用文件分析部25把密码(主叫人ID)和中断命令信号供给语音现场通信部21,的情况下,将所供给的密码(主叫人ID)和中断命令信号发送到语音信息提供装置3。
应用现场通信部22可从画面信息提供装置8输入对话控制用文件数据、指定画面终端5的用户的识别符(用户ID)、画面信息提供装置8的处理结果(应用结果),同时应用现场通信部22可从对话控制用文件分析部25输入用户ID、URI以及通过语音对话取得的参数值(对话结果)。这里,处理结果(应用结果)中可包含用户从画面终端5输入的结果、画面信息提供装置8的处理结果和数据库的检索结果。
应用现场通信部22可通过网络4向画面信息提供装置8供给用户ID、URI和参数值(对话结果),同时可向对话控制用文件分析部25供给对话控制用文件数据、用户ID以及处理结果(应用结果)。
应用现场通信部22在从画面信息提供装置8接收到用户ID、对话控制用文件数据和处理结果(应用结果)中的两种信息的情况下,把这两种信息发送到对话控制用文件分析部25。
设备侧通信部22在从对话控制用文件分析部25接收到用户ID、URI和参数值(对话结果)的情况下,就把这些信息数据发送到画面信息提供装置8。
用户状态管理部23可从对话控制用文件分析部25输入密码(主叫人ID)和用户ID,同时可把密码(主叫人ID)和用户ID供给对话控制用文件分析部25。即,用户状态管理部23和对话控制用文件分析部25可相互输入输出密码(主叫人ID)和用户ID。在对话控制装置7中,该密码(主叫人ID)和用户ID用作使语音终端2的用户与画面终端5的用户相对应用的用户识别符。
用户状态管理部23用一组作为记录的表来管理这些密码(主叫人ID)和用户ID。
对话控制用文件分析部25以密码(主叫人ID)或用户ID为关键词进行检索。用户状态管理部23把对应的识别符作为检索结果供给对话控制用文件分析部25。
语音对话用文件生成部24可从对话控制用文件分析部25输入密码(主叫人ID)、对话控制用文件的用一组标记(<dialog>和</dialog>)围起来的部分(<dialog>部),同时可把密码(主叫人ID)、语音XML文件数据供给语音现场通信部21。
语音对话用文件生成部24在输入<dialog>部时,首先,将该<dialog>部的内容代入到语音XML模板中,生成语音XML文件数据。依照对话的形式准备任意数的语音XML模板26。并且,将在语音对话用文件生成部24中所生成的语音XML文件与密码(主叫人ID)一起发送到语音现场通信部21。
这里,下面来说明在语音对话用文件生成部24中所准备的语音XML模板的一个实例。
即,用于输出语音引导的语音XML模板的行文结构可以表示为:
  <dialog template=″T001″)

  <prompt>*语音引导文字串*</prompt>

  </dialog>
        <!-- SIPO <DP n="15"> -->
        <dp n="d15"/>
  或

  <dialog template=″T001″>

  <prompt expr=″*评价式*″/>

  <dialog>
输出语音引导,按照任意指定的语法进行语音识别用的语音XML模板的行文结构可以表示为:
    <dialog template=″T003″>

  <init>

  <prompt>*初始语音引导文字串*</prompt>

  </init>

  <onNomatch retry=″*true或false*″count=″*错误反复次数<br/>
*″>

  <prompt>*nomatch时输出的语音引导文字串*</prompt>

  </onNomatch>

  <onNoinput retry=″*true或false*″count=″*错误反复次数
*″>

  <prompt>*noinput时输出的语音引导文字串*</prompt>

  </onNoinput>

  <grammar URI=″*语法文件URI*″slot=″*存储槽识别符*″>

  <result namelist=″*识别状态存储变量* *识别词汇存储变量*″/>

  </dialog>
在上述的行文结构实例中,把用“*”号围住的部分代入到语音XML模板中,来生成语音XML文件。
下面举例说明从对话控制用文件数据的<dialog>部,生成语音XML文件的情况。作为一个实例,考虑如下的<dialog>部。
  <dialog template=″T003″>

  <init>

  <prompt>请说乘车站</prompt>

  </init>

  <onNomatch retry=″true″count=″1″>
        <!-- SIPO <DP n="16"> -->
        <dp n="d16"/>
      <prompt>请再说一次乘车站</prompt>

  </onNomatch>

  <onNoinput retry=″true″count=″2″>

      <prompt>没听见。请像东京那样说乘车站</prompt>

  </onNoinput>

  <grammar URI=″http://grammarServer/station.grammar″slot=″
station″>

  <result namelist=″recStatus departure″/>

  </dialog>
下面依次说明上述的行文结构实例中<dialog>部的各标记的含义。即,首先,<dialog>部的属性template的值(T003)表示模板的识别符,语音对话用文件生成部24从template的值检索相应的语音XML模板,再将<dialog>部的内容代入到该模板中。
在由<init>与</init>围起来的部分中记述用来输出该<dialog>部分的初始引导的一组<prompt>和</prompt>,在该组<prompt>和</prompt>围起来的部分内记述语音引导句。这里,输出称为“请说乘车站”的语音引导。
也可在<prompt>和</prompt>围起来的部分中使用放置在网络4上的服务器中的比如Wav文件MP3文件等的语音文件。在此情况下,在<prompt>和</prompt>之间,就记述比如<audio src=http://audioServer/audioFileName.wav/>。
在</onNomatch>中,记述取得nomatch的情况下的处理,作为语音识别结果。在属性retry的值为true的情况下,输出<prompt>和</prompt>围起来的句子作为语音引导。
count是对取得了nomatch的次数的属性,输出指定的语音引导,直到nomatch的次数达到count的值为止,对每个密码(主叫人ID)管理nomatch的次数。
在</onNoinput>中,记述取得noinput的情况的处理,作为语音识别结果。另外,属性retry、count、<prompt>的处理与</onNomatch>的情况相同。
在<grammer>中,指定语音识别语法的URI,在<result>中,代入语音识别结果。
在recStatus中,代入识别成功与否。在识别成功的情况下,输入“ok”;在识别失败而构成识别错误的情况下,输入nomatch或noinput。在departure中,输入在recStatus为“ok”的情况下已识别的词汇。这里,输入乘车站的名称。
根据上述<dialog>部来生成如下的语音XML文件。
  <?XML version=″1.0″encoding=″Shift_JIS″?>

  <!DOCTYPE vXML PUBLIC’-//DTD VoiceXML 1.0b//EN’’
http://dtd/????/vXML.dtd’>

  <vXML version=″1.0″>

  <var name=″nomatch_count″expr=″1″/>

  <var name=″noinput_count″expr=″1″/>

  <form>

  <field name=″station″>

  <prompt>请说乘车站</prompt>

  <grammer src=″http://grammarServer/station.grammar#station″>

  <catch event=″nomatch″>

  <if cond=″nomatch_count==1″>

      <prompt>请再说一次乘车站</prompt>

 <else if cond=″nomatch_count==2″>

      <goto next=″http://vXMLServer/departuretureErr.vXML″/>

  </if>

  <assign name=″nomatch_count″expr=″nomatch_count+1″/>

  </catch>

  <catch event=″noinput″>

  <if cond=″noinput_count==1″>

      <prompt>没听见。</prompt>

      <prompt>请像东京那样说乘车站</prompt>

  <else if cond=″noinput_count==2″>
        <!-- SIPO <DP n="18"> -->
        <dp n="d18"/>
          <prompt>没听见。</prompt>

          <prompt>请像东京那样说乘车站</prompt>

  <else if cond=″noinput__count==3″>

          <goto next=″http://vXMLServer/departuretureErr.vXML″/>

      </if> 

      <assign name=″noinput_count″expr=″noinput_count+1″/>

  </catch>

  <filled>

      <submit next=http://vXMLServer/departuretureConf.vXML
namelist=″station″/>

  </filled>

  </form>
对话控制用文件分析部25可从语音现场通信部21输入密码(主叫人ID)和语音识别结果,同时可从应用现场通信部22输入对话控制用文件数据、用户ID和处理结果(应用结果),还可从用户状态管理部23输入密码(主叫人ID)和用户ID。
对话控制用文件分析部25可将密码(主叫人ID)和语音处理的中断命令信号供给语音现场通信部21,将用户ID、URI和参数值(对话结果)供给应用现场通信部22,将密码(主叫人ID)和用户ID供给用户状态管理部23,将密码(主叫人ID)以及对话控制用文件中的<dialog>与</dialog>围起来的部分(<dialog>部)供给语音对话用文件生成部24。
以下来说明从应用现场通信部22向上述对话控制用文件分析部25供给对话控制用文件数据和用户ID的情况下的处理。
即,对话控制用文件分析部25首先根据用户ID对用户状态管理部23进行检索,由此来取得对应的密码(主叫人ID)。此时,不存在用户状态管理部23中检索的用户ID的情况下,判定为是来自画面终端5的新连接。
下面以新连接的情况下的用户ID和密码(主叫人ID)的对应例作为3个实例,进行说明。
首先,说明新连接在第一实施例的对话系统的情况下的第一方法。该第一方法是用户先于语音终端2把画面终端5连接到对话系统上的情况下的方法。
即,首先,用户从画面终端5输入用户识别符。作为该用户识别符,可使用比如电话号码、用户任意制作的数字串、文字串或符号串或它们的混合形式、对话系统的运营侧指定的数字串、文字串或符号串或它们的混合形式等,最好不要与其它的用户重复。
用户使用语音终端2来输入同一个用户识别符。在此情况下,也可把使用户识别符作成发话者的电话号码,也可以由此节省用户输入的时间。
通过该用户的用户识别符的输入,从语音信息提供装置3输入用户识别符,作为语音识别结果,另一方面,从画面信息提供装置8输入用户识别符,作为对话控制用文件数据或处理结果(应用结果)。由此,就能够使具有同一用户识别符的密码(主叫人ID)和用户ID相对应。
下面来说明新连接到该第一实施例的对话系统的情况下的第二方法。
即,在该第二方法中,首先,用户从语音终端2与对话系统连接时,该对话系统自动生成任意的密码(主叫人ID),并经语音终端2使用户得知。
接着,如果用户从画面终端5与对话系统连接,用户就先从画面终端5输入经语音终端2取得的密码,作为用户ID。由于该方法的此后的步骤与第一方法相同,故省略其说明。在该第二方法中,先连接语音终端5后连接语音终端2的情况下也可同样进行处理。
在该第二方法中提供的密码是对话系统给予用户的密码,与第一方法那样作成为电话号码等的情况相比较,由于该密码仅仅正在使用的用户知道,所以能够防止不具有权限的用户完全变为具有权限的他人而使用。因此,可提高保密性。
下面来说明新连接到按照第一实施例的对话系统的情况下的第三方法,图3表示有关按照第三方法新连接时的语音终端2和画面终端5的对应情况的简况。
如图3所示,在便携电话等的情况下,该第三方法是根据实施通信的基站是哪个基站的信息,利用可指定用户的位置的原理,来使语音终端2和画面终端5相对应。
即,在该第三方法中,首先,如果用户使用语音终端2与对话系统连接,对话系统就进行语音终端2正在进行通信的基站1a的检索。
然后,如果用户从画面终端5与对话系统连接,则在某时刻,连接在同一基站1a上的语音终端2是一个,另外,像这样,限于语音终端2和画面终端5同时连接在对话系统上的情况,能够直接地专门把语音终端2和画面终端5对应起来。
因为此状态仅仅在对话系统侧存在信息,所以像第一或第二方法那样可以节省输入信息的时间,可更加简单地,使语音终端2和画面终端5相对应。在此情况下,也可利用全球定位系统(GPS)实现同样的对应。
下面来说明对话控制文件数据。该第一实施例的对话控制文件数据是XML文件,对话控制用文件分析部25用XML服务器分析执行该XML文件的内容。
这里,图4和图5表示由该对话控制用文件分析部25进行处理时所采用的对话控制用文件数据的一个实例。在图4和图5中,左侧的数字表示行号。
下面用图4和图5的对话控制用文件数据来说明在对话控制用文件分析部25中进行的处理。图4和图5所示的对话控制用文件数据是用于从用户取得列车的乘车站的对话控制用文件。该对话控制用文件可以用于比如列车的车票预约或购买、时刻表检索或经过线路检索等。文字串“<!— —”与文字串“— —)”围起来的部分是“注释″。
首先,该对话控制用文件数据的第1行是该对话控制用文件符合XML版本1.0的文件,用移位JIS码记述。第2行的<对话控制用文件>是表示该文件是对话控制用文件的标记。
对话控制用文件由1个主程序和任意个数的子程序构成。
即,第4行~第10行进行在主程序和子程序中共同使用的变量说明,<declare>是表示变量说明的标记,“name”是变量名称,“type”是变量类型,“init”是表示变量的初始值的属性。
第12行~第84行是主程序,第86行~第108行是子程序。主程序使用<main>标记表示其范围,而子程序使用<sub>标记表示其范围。
主程序中的第22行~第36行是用来取得乘车站的处理。即,第24行的<dialog>标记表示Template ID采用T003的语音XML模板。在<dialog>部中,记述有应代入语音XML模板的变量。
对话控制用文件分析部25在确认对话控制用文件存在<dialog>部时,将该部分的信息数据供给语音对话用文件生成部24。在输入了该信息数据的语音对话用文件生成部24中,分析<dialog>部的内容,将分析结果代入所指定的语音XML模板内。
接着,如图2所示,对话控制用文件分析部25将密码(主叫人ID)和<dialog>部供给语音对话用文件生成部24,然后,将密码(主叫人ID)和用户ID供给用户状态管理部23。
对话控制用文件分析部25处于等待来自语音现场通信部21或应用现场通信部22的信息的待机状态。在该待机状态下,从应用现场通信部22取得新的对话控制用文件数据的情况下,开始分析该对话控制用文件数据,同时向语音现场通信部21发送中断命令信号。下面,在后面将要描述的语音对话用文件生成部24中说明该处理的<dialog>部的内容。
图4和图5所示的对话控制用文件数据的第39行~第68行是进行语音识别成功的情况下的处理的部分。
即,在<if>标记中,把评价式记述为cond的值。在该评价式的值为真实的情况下,执行<if>与</if>围起来的部分。这里,在recStatus是ok的情况下,进行语音识别了的内容(比如,乘车站)的重复确认。
在第44行的<prompt>中,把评价式记述为expr的值。在评价式中,存在(’+’)等的四则运算符或逻辑运算符的情况下,进行按照该运算符的运算。这里,具体来说,在把“京都”作为语音识别结果代入departure的情况下,就成为“乘车站是京都合适吗?”。
此外,在第49行的<result>中,代入重复确认的语音识别结果,在recStatus中,如果识别成功,则输入“ok″,如果有识别错误,则输入“nomatch”,或“noinput”。在confirmResult中,如果用户肯定确认,则输入“yes”,如果否定,则输入“no”。
在确认成功的情况下,即,如果recStatus为“ok”,则象图4中的第55行所示的那样,调出子程序的departureConfirmResult。另一方面,在确认失败的情况下,即,如果recStatus为“nomatch”或“noinput”,则用第62行的<callService>,在画面终端5中进行确认。
<callService>是用于在网络上的服务器中进行处理用的标记。服务器的应用程序用URI指定。另外,namelist的值是传递到服务器中的参数值(对话结果),var的值是将服务器的处理结果(应用结果)作为返回值存储的变量。
在服务器中,根据URI和参数值(对话结果)执行对应的应用程序,将返回值返回到对话控制装置7。
如果执行<callService>,对话控制用文件分析部25就成为待机状态,直至接收到返回值。这样使用<callService>,就能够切换利用语音对话和画面显示。
在第71行~第80行记述有在乘车站的识别发生错误的情况下用来从画面终端5取得乘车站的处理。
第74行的<callService>的使用形式不同于第62行的<callService>。即,是为同时并行对语音对话和画面显示而使用的<callService>。
服务器中作为namelist接收到departureErr时,马上向对话控制装置7返回应答的方式进行设定,同时在画面终端5中显示乘车站的选择画面。
在对话控制用文件分析部25中,由于通过应用现场通信部22立即有从服务器的应答,故可执行第76行的语音引导“请从画面输入乘车站”的处理。这样,在对话控制用文件分析部25中,使用<callService>就能够同时利用语音对话和画面显示。
从第86行~第108行记述有依据对话控制用文件分析部25的乘车站的确认结果分支的子程序。
即,如第90行所示,在肯定确认的情况下,即,在confirmResult为“yes”的情况下,取得用来语音识别下车站的对话控制用文件数据。
为了取得新的对话控制用文件数据,如第93行所示,使用<goto>。即,对话控制用文件分析部25向服务器要求由该<goto>表示的URI,并从该服务器返回相应的对话控制用文件数据。这样使用<goto>就能够转移对话。
下面说明从应用现场通信部22向对话控制用文件分析部25输入处理结果(应用结果)的情况的处理。
即,处理结果(应用结果)作为<callService>的返回值,与用户ID一起被送到对话控制用文件分析部25。在该对话控制用文件分析部25中,从相应的对话控制用文件数据<callService>之后的处理开始,进行分析。
这里,如图2所示,来说明从语音现场通信部21输入密码(主叫人ID)和语音识别结果(Rec Result)的情况的处理。
即,该对话控制用文件分析部25在输入密码(主叫人ID)时,根据密码(主叫人ID)对用户状态管理部23进行检索。在检索到检索对象的密码(主叫人ID)的情况下,判定为来自连接中的语音终端2的输入。
在图5所示的对话控制用文件数据中,在<dialog>部的<result>内代入语音识别结果的结果,对话控制用文件分析部25从<dialog>部之后,开始进行处理。在不存在用户状态管理部23中检索的密码(主叫人ID)的情况下,判定为来自语音终端2的新连接。新连接的情况下的用户ID和密码(主叫人ID)的对应与上述相同。
下面说明第一实施例的对话控制装置7的处理步骤,图6是对话控制装置7的处理步骤的流程图。
即,如图6所示,在步骤ST1,在对话控制装置7与语音信息提供装置3或画面信息提供装置8之间开始连接。在将其中的对话控制装置7和语音信息提供装置3连接起来的情况下,该连接开始于从语音信息提供装置3向语音现场通信部21要求语音XML文件的URI。对话控制装置7和画面信息提供装置8的连接开始于从画面信息提供装置8向应用现场通信部22发送对话控制用文件。然后,进到步骤ST2。
在步骤ST2,对话控制装置7成为等待来自对话控制装置3或画面信息提供装置8的输入的待机状态。此时,在正执行对话控制用文件的<dialog>部之中的情况下,成为等待来自两个服务器的输入的状态。从语音信息提供装置3等待语音识别结果的输入,从画面信息提供装置8等待对话控制用文件数据或处理结果(应用结果)的输入。然后,进到步骤ST3。
在该步骤ST3,根据构成输入源的装置,后面的处理出现分支。即,对话控制用文件分析部25的输入是来自语音信息提供装置3的输出的情况下,进到步骤ST4,在该输入是从画面信息提供装置8输出的情况下,进到步骤ST6。
在步骤ST4,从语音信息提供装置3供给的输入根据语音终端2的是否切断而分支。在该输入不切断的情况下,进到步骤ST5,另一方面,在切断输入的情况下,进到步骤ST10。
在其中的步骤ST5,由于不切断从语音信息提供装置3供给的输入,将语音识别结果代入<dialog>部的<result>中,故在该<dialog>部后,开始执行对话控制用文件数据的处理。然后,进到步骤ST2,处于待机状态。
另一方面,在于步骤ST4,从语音信息提供装置3供给的输入是切断的情况下,进到步骤ST10,进行结束处理,删除用户状态管理部23中的相应记录。
在于步骤ST3,在输入是从画面信息提供装置8输出的情况下,进到步骤ST6。在步骤ST6,来自画面信息提供装置8的输入根据是对话控制用文件数据,还是处理结果(应用结果)来分支。即,在来自画面信息提供装置8的输入是对话控制用文件数据的情况下,进到步骤ST7,在是处理结果(应用结果)的情况下,进到步骤ST8。
在来自画面信息提供装置8的输入是对话控制用文件数据的情况下,进到步骤ST7,对话控制用文件分析部25首先在新的对话控制用文件数据的取得不是由<goto>得到的情况下,向语音现场通信部21发送中断命令信号。然后,对话控制用文件分析部25分析执行新的对话控制用文件数据。然后,进到步骤ST9。
另一方面,在来自画面信息提供装置8的输入是处理结果(应用结果)的情况下,进到步骤ST8。在步骤ST8,将处理结果(应用结果)作为<callService>的返回值提供给对话控制用文件分析部25,对话控制用文件分析部25在该<callService>之后,开始进行对话控制用文件的处理。然后,进到步骤ST9。
在步骤ST9,根据对话控制用文件数据中是否有表示结束的<exit/>标记而分支。
即,在对话控制用文件数据中没有<exit/>标记的情况下,由于有<dialog>、<goto>或<callService>,故进到步骤ST2,以便等待来自语音信息提供装置3的输入。
另一方面,在对话控制用文件数据中有<exit/>标记的情况下,进到步骤ST10,进行结束处理,删除用户状态管理部23的相应记录。
如上所述,进行对话控制装置7做的处理。
接着,说明由上述的对话控制装置7控制输出的第一实施例的画面信息提供装置8。图7表示该第一实施例的画面信息提供装置8的构成。
如图7所示,第一实施例的画面信息提供装置8由对话控制侧通信部31、可检索数据库32a的后端应用部32、可检索对话控制用文件数据库33a、URI对应表数据库33b和HTM文件组数据库33c的电子文件检索部33和Web服务器34构成。
对话控制侧通信部31可从对话控制装置7输入用户ID、URI和参数值(对话结果),同时可从后端应用部32输入用户ID、对话控制用文件数据和处理结果(应用结果)。
对话控制侧通信部31可向对话控制装置7输出用户ID、对话控制用文件数据和处理结果(应用结果),同时可向后端应用部32输出用户ID、URI以及参数值(对话结果)。
在这样构成的对话控制侧通信部31中,从后端应用部32供给用户ID和对话控制用文件数据的情况下,将该用户ID和对话控制用文件数据发送到对话控制装置7。另一方面,在对话控制侧通信部31从后端应用部32取得用户ID和处理结果(应用结果)的情况下,将这些用户ID和处理结果发送到对话控制装置7。
在对话控制侧通信部31从对话控制装置7接收到用户ID、URI和参数值(对话结果)的情况下,将用户ID、URI和参数值(对话结果)供给后端应用部32。
后端应用部32可从对话控制侧通信部31输入用户ID、URI和参数值(对话结果),同时可从Web服务器34输入用户ID、HTML文件的URI和画面终端5的操作结果(Web结果);后端应用部32可对数据库32a进行检索,从该数据库32a输入数据库检索结果(DB结果);后端应用部32可从电子文件检索部33输入对话控制用文件数据和HTML文件。
后端应用部32可向对话控制侧通信部31供给用户ID、对话控制用文件数据和处理结果(应用结果),同时可向Web服务器34供给比如HTML文件;后端应用部32可向数据库32a供给数据库检索式(DB询问),利用该数据库检索式(DB询问)就能够检索数据库32a;此外,后端应用部32可向电子文件检索部33供给URI。
后端应用部32在从对话控制侧通信部31接收到用户ID、URI以及参数值(对话结果)的情况下,根据这些内容或程序进行处理。
即,在后端应用部32向电子文件检索部33发送URI后,从电子文件检索部33取得与该发送的URI相对应的对话控制用文件数据或HTML文件数据。后端应用部32向数据库32a发送数据库检索式(DB询问),同时从该数据库32a取得作为检索结果的数据库检索结果(DB结果)。
另一方面,在从电子文件检索部33取得对话控制用文件数据或HTML文件的情况下,首先,向数据库发送数据库检索式(DB询问)。此外,作为结果,从数据库供给数据库检索结果(DB结果)。
然后,后端应用部32将所取得的对话控制用文件数据或根据所获得的对话控制用文件数据而生成的对话控制用文件数据与用户ID一起发送到对话控制通信部。在该对话控制用文件数据中,可包括数据库检索结果(DB结果)或其加工结果、画面终端5的操作结果(Web结果)或其加工结果、参数值(对话结果)或其加工结果的信息。
后端应用部32将所取得的HTML文件或根据已获得的HTML文件而生成的HTML文件与用户ID一起发送到Web服务器34。在该HTML文件中,可包含数据库检索结果(DB结果)或其加工结果、Web结果或其加工结果、参数值(对话结果)或其加工结果的信息。
后端应用部32在从数据库取得数据库检索结果(DB结果)的情况下,根据其内容或程序向数据库32a发送数据库检索式(DB询问)。另外,从数据库32a取得数据库检索结果(DB结果)。
后端应用部32向电子文件检索部33供给URI,从电子文件检索部33取得与该URI相对应的对话控制用文件数据或HTML文件数据。
后端应用部32将处理结果(应用结果)与用户ID一起供给对话控制侧通信部31。这里,处理结果(应用结果)可包括数据库检索结果(DB结果)或其加工结果、Web结果或其加工结果、参数值(对话结果)或其加工结果的信息。
然后,后端应用部32在从Web服务器34获得用户ID、URI和画面终端5的操作结果(Web结果)的情况下,根据这些内容或程序进行处理。
即,首先,后端应用部32向电子文件检索部33发送URI,从电子文件检索部33取得与该URI相对应的对话控制用文件数据或HTML文件数据。然后,后端应用部32向数据库32a发送数据库检索式(DB询问),作为结果,从数据库32a取得数据库检索结果(DB结果)。
将处理结果(应用结果)与用户ID一起发送到对话控制侧通信部31。这里,处理结果(应用结果)可包括数据库检索结果(DB结果)或其加工结果、画面终端5的操作结果(Web结果)或其加工结果、参数值(对话结果)或其加工结果的信息。
电子文件检索部33可从后端应用部32输入URI,同时电子文件检索部33可向后端应用部32输出对话控制用文件数据和HTML文件数据。
在这样构成的电子文件检索部33从后端应用部32取得URI时,首先,检索URI对应表数据库33b。在URI对应表数据库33b中记录有对所取得的URI的对话控制用文件数据和HTML文件数据的识别符。接着,以该URI作为检索关键词检索该识别符。
然后,电子文件检索部33根据已检索到的识别符取得对话控制用文件数据和HTML文件数据中至少一方的文件数据。接着,电子文件检索部33将已取得的对话控制用文件数据或HTML文件数据发送到后端应用部32。
由于Web服务器34与已有公知的Web服务器相同,故省略其说明。
如上所述,构成该第一实施例的语音系统后,用户就能够用语音终端2和画面终端5来利用语音识别系统。
如上面已说明的那样,按照该第一实施例,经公共线路交换网1,由语音信息提供装置3进行来自语音终端2的语音的识别,再由画面信息提供装置8经网络4向画面终端5提供信息,并且由对话控制装置7进行语音信息提供装置3和画面信息提供装置8的相互控制,由此,在语音终端2或画面终端5中,分别连接到公共线路交换网1或网络4上,而仅仅具有可进行通信的功能,就能够进行语音识别的系统和显示画面的控制,因此,即使是只具有便携电话水平的性能的终端,也能够同时使用语音识别、接触输入、语音输出和画面显示,并且可控制使用这些功能的对话。
(第二实施例)
下面说明本发明的第二实施例的对话系统,图8表示语音终端和画面终端与该第二实施例的对话系统连接的状态。
在第二实施例的对话系统中,与第一实施例不同,作为语音终端2连接的网络是采用包含公共线路交换网1等的宽带网41。
在第二实施例的对话系统中,与第一实施例不同,不设置对话控制装置7,可从画面信息提供装置42直接向语音信息提供装置3提供语音XML文件数据。
有关除此以外的构成与第一实施例相同,所以在第二实施例中,仅仅说明画面信息提供装置42。图9表示第二实施例的画面信息提供装置42的构成。
如图9所示,该第二实施例的画面信息提供装置42由语音现场通信部51、用户管理部52、可检索数据库53的后端应用部53、可检索对话控制文件组组数据库54a、URI对应表数据库54b和HTML文件组数据库54c的电子文件检索部54以及Web服务器55构成。
语音现场通信部51可从音信息提供装置3输入语音XML文件的URI、密码(主叫人ID)和语音识别结果(Rec Result),同时可从用户管理部52输入密码(主叫人ID)、语音XML文件数据和语音处理的中断命令信号。
语音现场通信部51可向音信息提供装置3发送密码(主叫人ID)、语音XML文件和语音处理的中断命令信号,同时可向用户管理部52供给密码(主叫人ID)和语音识别结果。
该语音现场通信部51在与音信息提供装置3之间进行网上信息块的度对话期间管理,使该网上信息块包含密码(主叫人ID),就能够使语音终端2的用户对应音信息提供装置3和画面信息提供装置42。
这样构成的语言部位通信部51从音信息提供装置3接收密码(主叫人ID)和语音XML文件的URI。并且,在来自音信息提供装置3的接收内容中不包含网上信息块的情况下,就新生成网上信息块。语音现场通信部51将存在于所要求的URI内的语音XML文件与密码(主叫人ID)一起发送到音信息提供装置3。
另一方面,语音现场通信部51在从语音信息提供装置3接收到密码(主叫人ID)和语音识别结果的情况下,将该密码(主叫人ID)和语音识别结果发送到用户管理部52。在从用户管理部52向语音通信部51输入了密码(主叫人ID)和中断命令信号的情况下,语音现场通信部51将该密码(主叫人ID)和中断命令信号发送到语音信息提供装置3。
用户管理部52可从语音现场通信部51输入密码(主叫人ID)和语音识别结果,同时可输入用户ID和语音XML文件数据。
用户管理部52可向语音现场通信部51供给密码(主叫人ID)、语音XML文件数据和中断命令信号,同时可向后端应用部53供给用户ID和参数值(对话结果)。
这样构成的用户管理部52中按照与第一实施例的用户状态管理部23(参照图2)中相同的方法来进行管理,使密码(主叫人ID)和用户ID相对应。
用户管理部52在从语音现场通信部51供给密码(主叫人ID)和语音识别结果时,将密码(主叫人ID)变换为用户ID,并与参数值(对话结果)一起发送到后端应用部52。在第二实施例中,语音识别结果和参数值(对话结果)同值。
用户管理部52在从后端应用部53取得了用户ID和语音XML文件数据的情况下,按照其输入的定时,进行互不相同的处理。
即,在用户管理部52向语音现场通信部51发送用户ID和语音XML文件数据后,从语音现场通信部51取得语音识别结果之前,从后端应用部53供给用户ID和语音XML文件的情况下,用户管理部52将用户ID变换为密码(主叫人ID),并将密码(主叫人ID)、中断命令信号和语音XML文件发送到语音现场通信部51。
另一方面,用户管理部52在向语音现场通信部51发送语音XML文件数据后,从语音现场通信部51取得语音识别结果,然后,从后端应用部53,供给用户ID和语音XML文件的情况下,用户管理部52将用户ID变换为密码(主叫人ID),并将该密码(主叫人ID)和从后端应用部53供给的语音XML文件发送到语音现场通信部51。
后端应用部53和电子文件检索部54中,与第一实施例的不同之处在于用语音XML文件数据代替第一实施例中的对话控制用文件数据。由于其它构成与第一实施例的相同,故省略其说明。Web服务器55中的输入、输出和处理与现有技术的Web服务器中的相同。
按照第二实施例,可获得与第一实施例相同的效果,同时由于画面信息提供装置42具有第一实施例的对话控制装置和画面信息提供装置这两者的功能,所以与第一实施例相比较,可简化对话系统的构成。
(第三实施例)
下面来说明本发明的第三实施例的对话系统,图10表示第三实施例的对话系统。
如图10所示,在该第三实施例的对话系统中,与第一实施例不同,分析执行语音XML文件数据的装置(语音XML分析执行装置)设置在融合了语音终端2和画面终端5的用户终端。
即,第三实施例的对话系统是把用户终端61、语音识别服务器62、语音合成服务器63和画面信息提供装置64连接在网络60上而构成的。
用户终端61至少包括语音输入输出部61a、画面输入输出部61b和语音XML分析执行部61c。
语音输入输出部61a具有与第一实施例的语音终端2相同的功能;画面输入输出部61b具有与第一实施例的画面终端相同的功能;语音XML分析执行部61c具有与第一实施例的语音XML分析执行装置相同的功能。
具有上述构成的用户终端61中,可由用户直接输入语音、DTMT、文件信息和指向信息。该用户终端61中,可经网络60从语音识别服务器62接收语音识别结果(记录结果);可从语音合成服务器63接收语音信号;可从画面信息提供装置64接收比如HTML文件数据、语音XML文件数据等电子信息。
在该用户终端61中,在可识别的状态下,可直接向用户输出语音和画面信息。该用户终端61可经网络60向语音识别服务器62发送语音信号、语音识别语法文件的URI以及语音识别对象的词汇;可向语音合成服务器63发送语音引导用文件的URI和语音合成用文本;还可向画面信息提供装置64发送电子信息的URI、用来识别用户终端的识别符(下称用户ID)和语音识别结果(记录结果)。
上述那样构成的用户终端中,在与画面信息提供装置64之间进行网上信息块的对话期间管理。这样,使该网上信息块内包含有用户ID,画面信息提供装置64就可识别用户终端61。
一旦用户向用户终端61输入文件信息或指向信息、URI以及语音识别结果,这些信息数据就被发送到画面信息提供装置64。另外,如果用户终端61从画面信息提供装置64接收与画面显示有关的电子信息,就在规定的画面上显示出基于电子信息的信息。
如果用户终端61从画面信息提供装置64接收语音XML文件数据,则在用户终端61的语音XML分析执行部中分析执行该语音XML文件数据。
在用户终端61接收到的语音XML文件数据内存在执行语音识别的记述的情况下,用户终端61向语音识别服务器62发送要求识别的信号,并取得其识别结果,在请求识别的信号中,包括语音识别语法文件的URI或成为识别对象的词汇的信息数据。
在于用户终端61接收到的语音XML文件数据内存在进行语音合成的记述的情况下,用户终端61向语音合成服务器63发送要求语音合成的信号,并取得其合成结果,在要求合成的信号中,包括语音合成用文本。
在于用户终端61接收到的语音XML文件数据内存在语音引导用文件的输出的记述的情况下,用户终端61向语音合成服务器63发送要求语音引导的信号,在要求语音引导的信号中,包括语音引导用文件的URI的信息数据。
另外,在用户终端61接收到的语音XML文件数据内存在取得语音XML文件数据的记述的情况下,向由URI指定的存储地址发送要求语音XML文件数据的信号。
语音识别服务器62中,可从用户终端61经网络60接收语音识别语法文件的URI和语音识别对象词汇。
语音识别服务器62可经网络60向用户终端61发送语音识别结果(记录结果)。
该语音识别服务器62通过分析从用户终端61取得的语音信号来进行语音识别。在该语音识别时,使用与语音信号一起取得的语音识别语法文件的URI或语音识别对象词汇。在使用它们中的语音识别语法文件的URI的情况下,从相应的URI取得语音识别语法文件,将其用于语音识别。该语音识别的结果作为语音识别结果(记录结果),由语音识别服务器62经网络60返回发送到用户终端61。
语音合成服务器63可从用户终端61接收语音引导用文件的URI和语音合成用文本,同时可经网络60向用户终端61发送语音信号。
该语音合成服务器63在接收到从用户终端61取得的语音合成用文本的情况下,执行下面两种处理中的至少一种处理,并把语音信号返回发送到用户终端61。即,语音合成服务器63在把从用户终端61取得的语音合成用文本变换为语音信号后,经网络60将该语音返回发送到用户终端61,或者根据语音合成用文本检索语音文件,将检出的语音文件的内容变换为语音信号,然后经网络60,将其返回发送到用户终端61。
在语音合成服务器63从用户终端61接收到URI的情况下,根据该接收到的URI,检索语音引导用文件,将检出的语音引导用文件的内容变换为语音信号,然后经网络60,将其返回发送到用户终端61。
画面信息提供装置64是与所谓的第二实施例的画面信息提供装置42相同的装置,具有第一实施例的画面信息提供装置8和对话控制装置7。
即,画面信息提供装置64可从用户终端61接收电子信息的URI、用户ID和语音识别结果(记录结果),同时可向用户终端61发送电子信息。
在像上述那样构成的第三实施例的对话系统中,可具有与第一实施例相同的效果,同时在用户终端61中,由于分析执行语音XML文件数据,所以能够分散语音识别的处理的负荷,并能够实现对话系统处理高速化。
上面具体说明了本发明的实施例,但是,本发明不限于上述实施例,可实现基于本发明的技术构思的各种变形。
比如,在上述实施例中所例举的对话控制用文件数据只不过是个例子,可根据需要,使用与其不同的对话控制用文件数据。
另外,比如,在上述第一实施例中,语音信息提供装置3、语音对话用数据提供装置6、对话控制装置7和画面信息提供装置8分别由各自不同的计算机构成,但是,该语音信息提供装置3、语音对话用数据提供装置6、对话控制装置7和画面信息提供装置8中的至少2个装置也可由同一计算机构成。
另外,比如,在上述实施例中,语音终端2和画面终端5分别由不同的计算机构成,但是该语音终端2和画面终端5也可由同一终端构成。即,语音终端2和画面终端5既可由不同的终端构成,也可由同一终端构成。
还有,比如,在上述实施例中,语音终端2和语音信息提供装置3经公共线路交换网1,相互可通信地连接起来,但是,也可通过局域网(LAN)或互联网等的宽带网络连接起来。另外,作为网络也可由语音超级IP(voiceover IP)等构成。
比如,在上述第一实施例中,后端应用部32使用HTML文件作为一面从电子文件检索部33供给一面供给Web服务器34的文件数据,但是该HTML文件终归是一个实例,可采用HTML文件以外的数据。比如,也可采用利用其它置标语言的文件数据,还可采用包含用公共网关接口(CommonGateway Interface)、活动服务器页面(Active Server Pages)、Java(注册商标)转租页面、Java服务器页面(Java Server Pages)等生成的文件的文件数据。
如上所述,按照本发明,由于可同时使用语音与画面检索存储在网络上的计算机中的信息,并在语音信息提供装置或语音识别装置中进行语音识别,所以用户不购买新的软件或硬件,就能够利用便携式电话等已有装置,在便携式的电话等移动环境中使用通信终端。
按照本发明,由于语音信息提供装置和对话控制装置可与画面信息提供装置进行通信,所以该画面信息提供装置的运营商不投入进行语音识别的装置,就能够向持有第一通信终端和第二通信终端或它们组合成的通信终端的用户进行可有语音对话处理实现操作的信息提供。
按照本发明,由于对话控制装置可根据从画面信息提供装置取得的电子信息生成语音对话用信息,所以服务器运营商不必要求专门知识,就能够进行可语音对话处理操作的信息提供。
按照本发明的第五项发明,由于可在对话控制装置中,根据情况切换输入输出装置,所以在具有该对话控制装置的对话系统中,一面输入固有名词一面从多个选择分支进行选择的情况下,利用语音识别,在二择一等选择分支少的情况下,利用接触输入等,可进行这样情况的切换等的,有效的对话通信。

Claims (20)

1.一种对话系统,其特征在于该对话系统包括:
可输出语音信息的语音信息提供装置、可输出画面信息的画面信息提供装置以及可对所述语音信息提供装置和所述画面信息提供装置发送接收电子信息的对话控制装置;
连接有至少可与所述画面信息提供装置之间进行通信的第一通信终端和至少可与所述语音信息提供装置之间进行通信的第二通信终端;
所述画面信息提供装置具有记录发送到可显示视觉信息的第一通信终端的第一电子信息和所述对话控制装置中所使用的第二电子信息的记录部,同时在从所述第一通信终端或所述对话控制装置接收到信息的情况下,可根据所述接收到的信息进行向所述第一通信终端发送所述第一电子信息的处理和向所述对话控制装置发送所述第二电子信息的处理中的至少一种处理;
所述语音信息提供装置在接收到由所述对话控制装置生成的语音对话用信息的情况下可从所述对话控制装置把基于所述语音对话用信息的语音信息发送到所述第二通信终端,同时在从所述第二通信终端接收到所述语音信息的情况下,可根据所述语音对话用信息识别所述接收到的语音信息,并生成语音识别结果,发送到所述对话控制装置;
所述对话控制装置在从所述画面信息提供装置接收到所述第二电子信息的情况下,可根据所述第二电子信息生成语音对话用信息,发送到所述语音信息提供装置,同时在从所述语音信息提供装置接收到语音识别结果的情况下,可根据所述第二电子信息,将与所述语音识别结果有关的信息发送到画面信息提供装置。
2.根据权利要求1所述的对话系统,其特征在于所述画面信息提供装置、所述声音信息提供装置和所述对话控制装置可经网络相互连接起来,同时可经所述网络连接所述第一通信装置和所述第二通信装置。
3.一种对话系统,其特征在于连接有画面信息提供装置和语音信息提供装置;
所述画面信息提供装置具有可记录发送到能显示视觉信息的第一通信终端的第一电子信息和所述语音信息提供装置所使用的第二电子信息的记录部,同时在从所述第一通信终端或所述语音信息提供装置接收到信息的情况下,可进行把基于所述接收到的信息的所述第一电子信息发送到所述第一通信终端的处理和向语音信息提供装置发送所述第二电子信息的处理中的至少一种处理;
所述语音信息提供装置在从所述画面信息提供装置接收到所述第二电子信息的情况下,可将基于所述第二电子信息的语音信息发送到能输出语音的第二通信终端,同时在从所述第二通信终端接收到所述语音信息的情况下,可根据所述第二电子信息识别所述接收到的语音信息,并生成语音识别结果,将所述语音识别结果发送到所述画面信息提供装置。
4.根据权利要求1或3所述的对话系统,其特征在于所述第一通信终端和所述第二通信终端由同一终端构成。
5.根据权利要求3所述的对话系统,其特征在于所述画面信息提供装置和语音信息提供装置可经网络相互连接,同时可经所述网络连接第一通信终端或所述第二通信终端。
6.一种对话系统,其特征在于画面信息提供装置、对话控制装置和语音识别装置相互连接起来而构成,同时可连接通信终端;
所述画面信息提供装置具有可记录发送到所述通信终端的第一电子信息和所述对话控制装置中使用的第二电子信息的记录部,同时在从所述通信终端或所述对话控制装置接收到信息的情况下,可根据所述接收到的信息进行把所述第一电子信息发送到所述通信终端的处理和把所述第二电子信息发送到所述对话控制装置的处理中的至少一种处理;
所述对话控制装置在从所述画面信息提供装置接收到所述第二电子信息的情况下,生成基于所述第二电子信息的语音对话用信息,并发送到所述通信终端,在从所述通信终端接收到语音识别结果的情况下,根据所述第二电子信息把与所述语音识别结果有关的信息发送到所述画面信息提供装置;
所述语音识别装置可从所述通信终端接收语音信息,识别所述接收到的语音信息,生成语音识别结果,并发送到所述通信终端。
7.根据权利要求6所述的对话系统,其特征在于:
所述通信终端在从所述画面信息提供装置接收到所述第一电子信息的情况下,可输出所述第一电子信息或对所述第一电子信息进行了加工的信息;
所述通信终端在进行了接触输入的情况下,可根据所述第一电子信息将进行了所述接触输入的信息发送到所述画面信息提供装置;
所述通信终端在从所述对话控制装置接收到所述语音对话用信息的情况下,可根据所述语音对话用信息控制语音的输入或语音的输出;
所述通信终端在进行了语音的输入的情况下,可根据所述语音对话用信息将所述语音发送到所述语音识别装置;
所述通信终端在从所述语音识别装置接收到所述语音识别结果的情况下,可根据所述语音对话用信息将与所述语音识别有关的信息发送到所述对话控制装置。
8.根据权利要求1,2或6所述的对话系统,其特征在于所述对话控制装置在接收到所述语音识别结果的情况下,可根据所述第二电子信息和所述语音识别结果生成语音对话用信息。
9.一种对话系统,其特征在于连接画面信息提供装置和语音识别装置而构成,同时可连接能与所述画面信息提供装置和所述语音识别装置进行通信的通信终端;
所述画面信息提供装置具有可记录发送到所述通信终端的第一电子信息和所述语音识别装置使用的第二电子信息的记录部,并且可根据从所述通信终端接收到的信息把所述第一电子信息和所述第二电子信息发送到所述通信终端;
所述语音识别装置识别从所述通信终端接收到的语音信息,并生成所述语音信息的语音识别结果,同时把所述语音识别结果发送到所述通信终端。
10.根据权利要求9所述的对话系统,其特征在于所述通信终端在从所述画面信息提供装置接收到所述第一电子信息的情况下可显示所述第一电子信息或对所述第一电子信息进行了加工的信息;
在进行了接触输入的情况下可根据所述第一电子信息把已进行了接触输入的信息发送到所述画面信息提供装置;
在从所述画面信息提供装置接收到所述第二电子信息的情况下可根据所述第二电子信息控制语音的输入和语音的输出;
在进行了语音输入的情况下可根据所述第二电子信息把语音的语音信息发送到所述语音识别装置;
在从所述语音识别装置接收到语音识别结果的情况下可根据所述第二电子信息把与所述语音识别结果有关的信息发送到所述画面信息提供装置。
11.根据权利要求9所述的对话系统,其特征在于所述画面信息提供装置和所述语音识别装置经网络相互连接,并且所述通信终端经该网络可在与所述画面信息提供装置和所述语音识别装置之间进行通信。
12.一种对话控制装置,其特征在于具有:
接收从连接在网络上的第一电子计算机发送的电子信息的第一接收装置;
加工所述电子信息而生成语音对话用信息的生成装置;
向连接在所述网络上同时能够进行语音对话处理的第二电子计算机发送所述语音对话用信息的第一发送装置;
接收在所述第二电子计算机中进行的语音对话处理而生成的语音识别结果的第二接收装置;
根据所述语音识别结果或所述电子信息把与所述语音识别结果有关的信息发送到所述第一电子计算机的第二发送装置。
13.根据权利要求12所述的对话控制装置,其特征在于所述第一发送装置和所述第二接收装置由同一个第一发送接收装置构成,同时所述第二发送装置和所述第一接收装置由同一个第二发送接收装置构成。
14.根据权利要求12所述的对话系统,其特征在于根据所述语音识别结果进行所述语音对话用信息的生成。
15.一种对话系统,可连接具有接触输入、语音输入、画面显示和语音输出的用户接口的通信终端;其特征在于具有:
接收基于所述通信终端发送的所述接触输入的电子信息的接收装置;
接收基于所述通信终端发送的所述语音输入的语音信息的接收装置;
把所述画面显示用的电子信息发送到所述通信终端的发送装置;
把所述语音输出用的语音信息发送到所述通信终端的发送装置;
根据基于所述接触输入的电子信息或基于所述语音输入的语音信息使所述画面显示用的电子信息或所述语音输出用的语音信息变化的装置。
16.一种对话系统,可连接具有接触输入和画面显示的用户接口的第一通信终端,同时可连接具有语音输入和语音输出的用户接口的第二通信终端;其特征在于具有:
接收所述第一通信终端发送的基于所述接触输入的电子信息的接收装置;
接收所述第二通信终端发送的基于所述语音输入的语音信息的接收装置;
把所述画面显示用的电子信息发送到所述第一通信终端的发送装置;
把所述语音输出用的语音信息发送到所述第二通信终端的发送装置;
根据基于所述接触输入的电子信息或基于所述语音输入的语音信息使画面显示用的电子信息或语音输出用的语音信息变化的装置。
17.根据权利要求1,2,3,4或16所述的对话系统,其特征在于从所述第一通信终端接触输入并发送第一用户识别符,从所述第二通信终端发送第二用户识别符,比较所述第一用户识别符和所述第二识别符的异同,就能够使所述第一通信终端和所述第二通信终端相对应。
18.根据权利要求1,2,3,4或16所述的对话系统,其特征在于在把所述第二通信终端与所述对话系统连接时,在所述对话系统中自动生成第一密码数据,并发送到所述第二通信终端;在所述第二通信终端,把所述第一密码数据进行语音输出后,把所述第一通信终端连接到所述对话系统上时,从所述第一通信终端接触输入第二密码数据,并发送到所述对话系统;
在所述对话系统中,比较所述第一密码数据和所述第二密码数据的异同,就能够使所述第一通信终端和所述第二通信终端相对应。
19.根据权利要求1,2,3,4或16所述的对话系统,其特征在于在所述第一通信终端连接到所述对话系统上时,在所述对话系统中自动生成第一密码数据,并发送到所述第一通信终端;
在所述第一通信终端,把所述第一密码数据进行画面输出后,在所述第二通信终端与所述对话系统连接时,从所述第二通信终端把所述第二密码数据发送到所述对话系统;
在所述对话系统中,比较所述第一密码数据和所述第二密码数据的异同,就能够使所述第一通信终端和所述第二通信终端相对应。
20.根据权利要求1,2,3,4或16所述的对话系统,其特征在于可把所述第一通信终端连接在至少连接了画面信息提供装置的第一网络上,同时所述第二通信终端可连接在能够与所述第二通信终端进行通信且具有多个分别记录了位置信息的基站的第二网络上;
所述第二通信终端与第一基站通信的同时,在所述第一基站,除了所述第二通信终端以外而不存在通信中的通信终端时,在所述第一通信终端连接到所述第一网络上时,可使所述第一通信终端和所述第二通信终端相对应。
CNB031216021A 2002-03-14 2003-03-14 对话系统和对话控制装置、以及对话系统的运行方法 Expired - Fee Related CN1220934C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002070369A JP2003271195A (ja) 2002-03-14 2002-03-14 対話システムおよび対話制御装置
JP2002070369 2002-03-14

Publications (2)

Publication Number Publication Date
CN1445652A true CN1445652A (zh) 2003-10-01
CN1220934C CN1220934C (zh) 2005-09-28

Family

ID=28035052

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031216021A Expired - Fee Related CN1220934C (zh) 2002-03-14 2003-03-14 对话系统和对话控制装置、以及对话系统的运行方法

Country Status (3)

Country Link
US (1) US20030182129A1 (zh)
JP (1) JP2003271195A (zh)
CN (1) CN1220934C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013071738A1 (zh) * 2011-11-14 2013-05-23 Hou Wanchun 一种个人专用生活协助装置和方法
CN114731454A (zh) * 2021-01-21 2022-07-08 海信视像科技股份有限公司 接收装置
WO2022156245A1 (zh) * 2021-01-21 2022-07-28 海信视像科技股份有限公司 接收装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI226782B (en) * 2003-06-26 2005-01-11 Benq Corp Method for processing audio signal in communication system and communication system thereof
FI20045001A (fi) * 2004-01-02 2005-07-03 Nokia Corp Menetelmä ja järjestelmä puhepalvelun toteuttamiseksi päätelaitteella sekä vastaava päätelaite
KR100552521B1 (ko) * 2004-01-29 2006-02-14 삼성전자주식회사 브이 오 아이피 시스템에서의 음성 메시징 서비스 방법 및그 장치
FR2882211A1 (fr) * 2005-02-16 2006-08-18 France Telecom Procede de synchronisation d'un service vocal et d'une presentation visuelle
JP2006294305A (ja) 2005-04-06 2006-10-26 Sumitomo Wiring Syst Ltd コネクタの組付け構造
JP4675691B2 (ja) * 2005-06-21 2011-04-27 三菱電機株式会社 コンテンツ情報提供装置
JP2007225682A (ja) * 2006-02-21 2007-09-06 Murata Mach Ltd 音声対話装置と対話方法及び対話プログラム
JP5751107B2 (ja) * 2011-09-20 2015-07-22 沖電気工業株式会社 制御サーバ、制御方法、プログラム、および制御システム
KR101175536B1 (ko) * 2012-01-12 2012-09-13 이세용 링데이터를 이용한 ars 연동데이터 제공시스템 및 그 방법
KR101501131B1 (ko) * 2014-04-25 2015-03-11 주식회사 디오티스 전화망과 데이터망 간 서비스 동기화 방법
CN107463601B (zh) 2017-06-13 2021-02-12 北京百度网讯科技有限公司 基于人工智能的对话理解系统构建方法、装置、设备及计算机可读存储介质
US10832010B2 (en) * 2018-06-05 2020-11-10 International Business Machines Corporation Training of conversational agent using natural language
CN110764684A (zh) * 2019-10-11 2020-02-07 上海博泰悦臻电子设备制造有限公司 基于语音触屏融合的即时交互方法、系统、存储介质、车载终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013071738A1 (zh) * 2011-11-14 2013-05-23 Hou Wanchun 一种个人专用生活协助装置和方法
CN114731454A (zh) * 2021-01-21 2022-07-08 海信视像科技股份有限公司 接收装置
WO2022156245A1 (zh) * 2021-01-21 2022-07-28 海信视像科技股份有限公司 接收装置

Also Published As

Publication number Publication date
US20030182129A1 (en) 2003-09-25
JP2003271195A (ja) 2003-09-25
CN1220934C (zh) 2005-09-28

Similar Documents

Publication Publication Date Title
CN1220934C (zh) 对话系统和对话控制装置、以及对话系统的运行方法
CN1158645C (zh) 到服务应用程序上的用户接口的声音控制
CN1252612C (zh) 信息终端的通信方法、通信系统和接入服务器的方法
CN1242376C (zh) 声音识别系统、装置、声音识别方法
CN1228762C (zh) 用于语音识别的方法、组件、设备及服务器
CN1149492C (zh) 遥控方法和服务器
CN100336018C (zh) 用于对应用启动进行管理的便携式终端和方法
CN1252642C (zh) 集成化提供与多重终端仿真、超媒体及电话系统的并行交互作用的远程服务工作站
CN1394312A (zh) 鉴别系统、鉴别承担装置和终端装置
CN1770142A (zh) 服务登记系统
CN1173285C (zh) 固定显示信息的方法和装置
CN100351750C (zh) 信息处理设备,信息处理方法,记录介质,以及程序
CN1497930A (zh) 处理个人电话记录器命令的系统和方法
CN1497931A (zh) 复制和传送电话对话的系统和方法
CN1497932A (zh) 管理个人电话记录的系统和方法
CN1327195A (zh) 用于访问在一个网络上的信息的方法和系统
CN1328668A (zh) 用于指定网络上的位置的系统和处理
CN1615508A (zh) 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器
CN101046960A (zh) 处理语音中的话音的装置和方法
CN101047507A (zh) 验证系统和设备
CN1228866A (zh) 语音处理系统及方法
CN1354851A (zh) 交互式服务所使用的标记语言及其方法
CN1221110C (zh) 通信系统及其网关、无线信息终端和无线通信方法
CN1119760C (zh) 自然语言处理装置及方法
CN1940937A (zh) 检索系统、信息处理系统和程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050928