JP3844367B2

JP3844367B2 - 音声情報通信システム

Info

Publication number: JP3844367B2
Application number: JP10302194A
Authority: JP
Inventors: 徹宮前
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1994-05-17
Filing date: 1994-05-17
Publication date: 2006-11-08
Anticipated expiration: 2021-11-08
Also published as: JPH07311671A

Description

【０００１】
【産業上の利用分野】
本発明は音声情報通信システムに関し、特に、ある者が音声を媒介として遠隔地の相手と間接的にコミュニケーションを行なうことができる装置に関するものである。
【０００２】
【従来の技術】
従来、相手と直接的なコミュニケーションを行なうことなく、音声を媒介として自らのメッセージを伝達する通信システムとしては、音声メール、留守番電話、電話自動サービス等があった。
【０００３】
音声メールは、通信ネットワークで結ばれた端末間等で音声データを伝送し、合成音声でもって、送信者の意思を伝達しようとしたものである。留守番電話は、被呼者が不在の旨を予め録音した音声又は合成音声でもって発呼者に伝達しようとしたものであり、また、発呼者が用件等のメッセージを記録媒体に録音させることで被呼者に伝達しようとしたものである。電話自動サービスは、顧客が所定の電話回線を通じて当該サービスに入ってきたときに、音声認識、音声合成技術を使用することにより、限定されたタスクの自動化（例えば、情報提供や自動商品取引等）を実現しようとしうものである。
【０００４】
【発明が解決しようとする課題】
しかしながら、音声メールや留守番電話等の伝達方法は、自らの意思を伝達しようとする際に相手方の意思を無視した一方通行の伝達方法であって、必ずしもヒューマンインタフェースに優れたものとは言い難い。しかも、その伝達内容は、相手が誰であるかやどんな用件であるかもわからないでなされる場合には最大公約数的なものとなり、また、相手等がわかっていても機械や装置に一方通行的に発音することの抵抗感からその伝達内容は薄いものとなり易い。すなわち、一度の通信で意思疎通できる情報の量は少ない。
【０００５】
一方、自動商品取引等の自動電話サービスにおいては、顧客の意思を聞き出すことができるが、サービス提供者のお仕着せの画一的なタスクに限定されており、双方向的なコミュニケーションによる微妙な意思の伝達といった点で十分ではない。また、顧客が電話をしなければならないとサービスに入れないというように、通信の起動元に制限があった。
【０００６】
【課題を解決するための手段】
かかる課題を解決するため、本発明の音声情報通信システムにおいては、伝送路を介して接続されている第１及び第２の音声情報通信装置がそれぞれ、以下の各手段を備えることを特徴とする。
【０００７】
すなわち、第１の音声情報通信装置は、(a)第２の音声情報通信装置に、所定内容の合成文の発音出力命令と使用者の音声認識実行命令と使用者の音声認識結果に応じて異なる内容を出力させるための複数の対話ジョブとから構成される対話シナリオと、音声対話を実現する上で必要な対話データとでなる予め形成されている複数の対話タスクを格納している送信用対話タスク記憶手段と、(b)第２の音声情報通信装置との通信動作を実行する第１の通信手段と、(c)第１の通信手段による通信動作や、送信用対話タスク記憶手段からの送信する対話タスクの取出し動作を制御する第１の制御手段とを備え、送信用対話タスク記憶手段は、他の対話タスクに分岐、連結する分岐、連結対話ジョブを、対話シナリオの構成としてもつ対話タスクを記憶し、第１の制御手段は、指定された対話タスクを第１の通信手段によって、第２の音声情報通信装置に送信させる。
【０００８】
また、第２の音声情報通信装置は、(A)第１の音声情報通信装置との通信動作を実行する第２の通信手段と、(B)第１の音声情報通信装置から送信されてきた対話タスクを記憶する受信対話タスク記憶手段と、(C)第２の通信手段による通信動作を制御すると共に、上記受信対話タスク記憶手段に記憶されている対話タスクの発音出力命令及び音声認識実行命令に従って、所定内容の合成文の発音出力及び音声認識を制御する第２の制御手段と、(D)第２の制御手段の制御により、当該装置使用者の発音音声を捕捉し、その発音音声の意味内容を所定方式に従って認識する音声認識手段と、(E)第２の制御手段から与えられる、所定内容の合成文を発音出力する音声合成手段とを備え、第２の制御手段が、音声認識手段による認識結果と対応する対話ジョブを選出し、その選出した対話ジョブに従って予め設定された合成文を音声合成手段に発音出力させるが、認識結果に応じて選出した対話ジョブが分岐、対話ジョブである場合には、当該対話タスクの実行を終了し、分岐、連結対話ジョブに設定されている対話タスクを次に実行すべき対話タスクとして、第２の通信手段を介して第１の音声情報通信装置に要求する。
【００１１】
【作用】
本発明の音声情報通信システムにおいて、第１の音声情報通信装置における第１の制御手段は、送信用対話タスク記憶手段に記憶されている複数の対話タスクの中から指定された対話タスクを、第１の通信手段によって第２の音声情報通信装置に送信させる。このとき、第２の音声情報通信装置においては、第２の通信手段がこの対話タスクを受信し、第２の制御手段による制御下で、この対話タスクが受信対話タスク記憶手段に記憶される。第２の音声情報通信装置の使用者が、対話タスクの実行を起動すると、第２の制御手段は、記憶されている対話タスクに従いながら、音声合成手段から所定文を発音出力させ、それに応じて使用者が発音した音声の認識結果を音声認識手段から取り込んで発音出力させる次の所定文を決定したりするなどして、対話を実行させる。
【００１２】
これにより、送信者は、音声対話環境を実現できる詳細な手続等が記述された対話タスクを受信者に送信し、受信者が適当なタイミングでそれらに基づいて送信者と対話できるので、受信者が通信時に不在な場合でも、かなり詳細な対話を行なうことができるようになる。また、対話タスクを送受信して受信した装置上で対話を実行させるので、対話を行なう時刻や信号の伝送時間等の制約を受けることが少なくなる。
【００１４】
【実施例】
（Ａ）第１実施例
以下、本発明による音声情報通信システムの第１実施例を図面を参照しながら詳述する。ここで、図１がこの第１実施例の音声情報通信システムの構成を示すブロック図である。
【００１５】
なお、この音声情報通信システムの通信端末としての音声情報通信装置は、電話機やワークステーション等の既存の通信機能を備えた装置の一機能要素として実現されても良く、また、専用装置として実現されても良く、構成を機能的に示すと図１の通りである。電話機やワークステーション等の既存の通信機能を備えた装置の一機能要素として実現された場合には、図示は省略するが、送信者から受信者に、電話機能や電子メール機能としての音声データやキャラクタコード等を送信することも当然に可能である。
【００１６】
この音声情報通信システムは、送信者が通信相手に対して、通信時点において通信相手が不在であっても対話形式でメッセージを与えることができ、また、受信者が通信相手から、通信相手の存在、不在に拘らず対話形式でメッセージを受取ったりできるようにしたものである。
【００１７】
図１は、２個の音声情報通信装置１００Ａ及び１００Ｂが伝送路１２０を介して接続されている状態を示している。音声情報通信システムは、伝送路１２０を介して接続される２個の音声情報通信装置１００Ａ及び１００Ｂが同様の構成のものであることは必要ではないが、第１〜第５実施例の説明においては、同様なものとする。
【００１８】
この第１実施例に係る音声情報通信装置１００（１００Ａ、１００Ｂ）は、一方の装置１００Ａについて詳細に示しているように、制御部１０１、対話シナリオメモリ１０２、対話データメモリ１０３、音声認識部１０４、音声認識辞書１０５、音声合成部１０６、音声合成データメモリ１０７、送信対話タスクメモリ１０８、受信部１０９及び送信部１１０から構成されている。なお、以下の説明において、装置１００Ａ又は１００Ｂ内における構成要素であることを明らかにしたい場合には、上述した符号末尾にさらに符号「Ａ」又は「Ｂ」を付与して区別させることとする。例えば、制御部１０１Ａは音声情報通信装置１００Ａの制御部を表す。
【００１９】
制御部１０１は、ＣＰＵや主メモリ等を備えてなる当該装置全体の制御を司るものであり、ここでは、さらに、音声以外のマンマシンインタフェース構成（キーボードやディスプレイ等）をも含んでいる。制御部１０１の処理、機能については図４〜図６のフローチャートで示しており、後述する通信シーケンスの説明において明らかにする。
【００２０】
対話シナリオメモリ１０２は、対話シナリオを記憶するものであり、対話データメモリ１０３は対話データを記憶するものであり、これら両メモリ１０２及び１０３は、その動作モードに応じて、送信するものを記憶したり、受信したものも記憶したりする。
【００２１】
ここで、対話シナリオとは、音声認識及び音声合成機能を用いて、当該装置（受信時）又は対向装置（送信時）における音声対話環境を実現させるための手続きを記述したもの（例えばプログラム）であり、一方、対話データとは、音声対話を実現する上で必要となる知識やデータであり、例えば発話文（例えば質問）に対する相手方の返答文（例えば答え）の意味内容をサーチするために必要なデータベース化されている知識データ等である。
【００２２】
音声認識部１０４は、マイクロフォン等の音声捕捉手段を含めたものであり、利用者が発音した音声内容を、音声認識辞書１０５に格納されている基準情報（基準の特徴パラメータ）を用いて認識するものである。その音声認識方法は、周知のいずれのものも適用可能であり、不特定話者用のものであっても特定話者用のものであっても良い。認識された内容は制御部１０１に与えられ、例えばこの制御部１０１の制御下で、対話データメモリ１０３の格納データに基づいて意味内容が認識され、装置から次に発音出力する文章の決定に利用される。
【００２３】
音声合成部１０６は、スピーカ等の発音手段をも含めたものであり、利用者に所定内容（合成文）を発音出力して認識させるものである。音声合成部１０６は、制御部１０１から与えられた発音指令（例えばテキストデータや音韻・韻律データ）に応じ、音声合成データメモリ１０７に格納されている音声合成データ（例えば音声素片データ）を利用して音声信号を合成し、音声を発音出力させる。
【００２４】
送信対話タスクメモリ１０８は、対話シナリオ及び対話データの組でなる、ある主題や話題についての音声対話環境を実現する対話タスクを１又は２以上格納しているものである。この第１実施例の場合、送信対話タスクメモリ１０８に格納されている対話タスクは対向装置に送信されるだけであり、当該装置において用いられることはない。なお、送信時には、対話シナリオ及び対話データは対話シナリオメモリ１０２及び対話データメモリ１０３に分けて格納される。
【００２５】
受信部１０９は、伝送路１２０を介して与えられた対向装置からのデータを受信するものであり、一方、送信部１１０は、所定データを伝送路１２０を介して対向装置に送信するものである。受信部１０９は、制御部１０１の制御下で、受信データが対話シナリオであれば対話シナリオメモリ１０２に格納させ、受信データが対話データであれば対話データメモリ１０３に格納させ、受信データがそれ以外であれば制御部１０１に与える。
【００２６】
ここでの伝送路１２０は、両音声情報通信装置１００Ａ及び１００Ｂ間を結ぶ通信媒体となる部分の総称であり、通信ネットワーク回線等である。すなわち、無線・有線や、ネットワークの規模や、ネットワークの形式（バス型、リング型、…）等はいずれであっても良い。
【００２７】
図２は、対話シナリオの構成単位である対話ジョブ構造の一例を示す説明図である。以下、対話ジョブ構造を説明することを通じて、対話シナリオの構造（従って対話タスクの構造）も説明する。
【００２８】
ある音声対話タスクを実現するための対話シナリオは、１文毎の簡単な対話（単位対話）を実現するための対話ジョブが複数集まって構成されている。そして、各対話ジョブの中には、認識結果に応じて、それぞれ異なる他の対話ジョブに分岐する命令を存在させる。図２は、一般的な対話ジョブＫのプログラム構造を示している。対話ジョブＫは、対話タスクＴｋを構成する対話ジョブの１個である。
【００２９】
図２において、この対話ジョブＫは、以下のように実行することを記述したものである。
【００３０】
「合成文Ｇｋ出力命令」は、音声合成部１０６を駆動させて、装置使用者Ｂに対して合成文Ｇｋを発音出力させる命令である。「音声認識実行命令」は、音声認識部１０４に音声認識処理を実行させる命令であり、又は、音声認識した後に意味内容を把握させる命令である。「ＳＷＩＴＣＨ（認識結果）」は、認識結果（意味内容）に応じた次の対話ジョブに分岐させるものである。
【００３１】
従って、この対話ジョブＫは、合成文Ｇｋを発音出力させた後、音声認識処理を実行させ、その認識結果がＮ1 、Ｎ2 、…、又はＮm であれば、対話ジョブＪ1 、Ｊ2 、…、又はＪｍに分岐し、認識結果（意味内容）が予測外のものや認識不可能のもの（ＤＥＦＡＵＬＴ）であれば、聞き返しジョブを実行した後、再び当該対話ジョブＫを実行することを内容とするものである。
【００３２】
なお、ここでは、対話ジョブＫを無限回繰り返すループが存在することになるが、回数制限を設けることによってこれを回避することができる。
【００３３】
次に、図１に加えて図３、図４〜図６をも参照しながら、通信シーケンス例を説明し、合わせて装置内の各部構成要素（特に制御部１０１）の動作も明らかにする。なお、制御部１０１の動作を単独で説明することは省略する。
【００３４】
ここで、図３は、音声情報通信装置１００Ａが送信側、音声情報通信装置１００Ｂが受信側である場合のシーケンス図であり、図４〜図６は制御部１０１Ａ又は１０１Ｂの動作フローチャートである。なお、以下の説明において、制御部１０１Ａ又は１０１Ｂの動作を区別したい場合には、動作を表す図４〜図６における符号末尾にさらに符号「Ａ」又は「Ｂ」を付与している。
【００３５】
音声情報通信装置１００Ａの使用者Ａがある音声対話タスクＴｋを通じて、自らのメッセージを音声情報通信装置１００Ｂの使用者Ｂに伝えたい場合、先ず、キーボード等を通じて対話タスクＴｋを音声情報通信装置１００Ｂに送信したい旨を当該音声情報通信装置１００Ａに指示する（Ｓ１００Ａ、Ｓ１０２Ａ）。
【００３６】
このとき、音声情報通信装置１００Ａにおいては、制御部１０１Ａが、送信部１１０Ａを駆動して、音声情報通信装置１００Ｂを宛先とした管理情報の送信督促命令を送信させる（Ｔ１００：Ｓ１０３Ａ）。この管理情報の送信督促命令には、返送のために当該音声情報通信装置１００Ａを特定する情報（アドレス）が挿入されている。なお、ここでは、図１に示した２個の音声情報通信装置以外の装置も接続されたネットワークを前提としている。
【００３７】
管理情報の送信督促命令を受信した音声情報通信装置１００Ｂの受信部１０９Ｂにおいては、例えば受信データの所定位置に記載された命令かデータの別を示す信号種類情報を読取り、それが命令（管理情報の送信督促命令）であるので、受信データを制御部１０１Ｂに直接転送する（Ｓ１００Ｂ、Ｓ１０１Ｂ、Ｓ１０５Ｂ）。制御部１０１Ｂは、当該受信データを解読し、内蔵する内部の主メモリに格納されている管理情報と、受信データに挿入されていた音声情報通信装置１００Ａのアドレスを送信部１１０Ｂに転送して送信させる（Ｔ１０１：Ｓ１０６Ｂ、Ｓ１０７Ｂ）。このとき、送信部１１０Ｂは、ネットワーク上の音声情報通信装置１００Ａのアドレスから音声情報通信装置１００Ａをサーチし、当該音声情報通信装置１００Ｂに音声情報通信装置１００Ａを接続させ、音声情報通信装置１０１Ａの受信部１０９Ａへ管理情報を送信する（Ｔ１０２）。
【００３８】
ここで、管理情報ＡＤＭとは、対話シナリオメモリ１０２Ｂの空き容量ＡＤＭ１、対話データメモリ１０３Ｂの空き容量ＡＤＭ２、音声対話環境管理情報ＡＤＭ３等である。音声対話環境管理情報ＡＤＭ３は、当該装置１００Ｂにおいて実現し得る音声対話環境の範囲を規定する情報であって、主として音声認識辞書情報ＡＤＭ３−１及び音声合成データ情報ＡＤＭ３−２からなっている。音声認識辞書情報ＡＤＭ３−１とは、音声認識辞書１０５Ｂに登録されている認識理解可能な単語カテゴリ（例えば専門分野）や文章等を規定している情報であり、音声合成データ情報ＡＤＭ３−２とは、音声合成データメモリ１０７Ｂに登録されている音声合成データの属性（例えば、男女別、日本語英語等の言語種類）や、合成可能な範囲や、データの有無といった情報等である。
【００３９】
図３におけるシーケンス例は、以上から明らかなように、音声情報通信装置１００Ａ、１００Ｂ、…毎に、実現できる音声対話環境が異なっていることを前提としている。
【００４０】
管理情報の送信督促命令を送信した音声情報通信装置１００Ａの受信部１０９Ａにおいては、音声情報通信装置１００Ｂの管理情報ＡＤＭを受信すると、直ちに制御部１０１Ａへ転送し、これにより、制御部１０１Ａは、対話シナリオメモリ１０２Ｂの空き容量ＡＤＭ１と当該対話タスクＴｋの対話シナリオＳｋの大きさとを比較し、また対話データメモリ１０３Ｂの空き容量ＡＤＭ２と当該対話タスクＴｋの対話データＤｋの大きさとを比較して、対話シナリオＳｋ及び対話データＤｋが送信可能であるか否かをチェックする（Ｔ１０３：Ｓ１０４Ａ、Ｓ１１０Ａ）。すなわち、対話シナリオメモリ１０２Ｂの空き容量ＡＤＭ１が対話シナリオＳｋの大きさ以上であり、かつ、対話データメモリ１０３Ｂの空き容量ＡＤＭ２が対話データＤｋの大きさ以上であれば送信可能と判断し、これ以外の場合には送信不可能とする。
【００４１】
さらに、音声認識辞書情報ＡＤＭ３−１に基づいて、当該対話タスクＴｋに出現する単語や文章が対向する装置１００Ｂの音声認識部１０４Ｂにおいて認識・理解可能であるか否かが制御部１０１Ａによって判断され、また、音声合成データ情報ＡＤＭ３−２に基づいて当該対話タスクＴｋによる音声合成出力が適正になされるか否かが制御部１０１Ａによって判断される（Ｔ１０４：Ｓ１１１Ａ）。すなわち、対話タスクＴｋの実現可能性がチェックされる。
【００４２】
以上のチェックＴ１０３及びＴ１０４によって、送信可能であり、かつ、対話タスクＴｋが実現可能であると判断されたときのみ、以下のような対話シナリオＳｋ及び対話データＤｋの一連の送信動作が行なわれる。なお、チェックの結果、通信を途中で終了させることとなった場合は、一般的な通信装置と同様な処理により行なう（Ｓ１１２Ａ）。
【００４３】
容量面から音声情報通信装置１００Ｂへの送信が可能であって、かつ、音声情報通信装置１００Ｂが対話タスクＴｋを実現可能であると判断すると、制御部１０１Ａは、まず、以下のような送信準備を行なう（Ｔ１０５：Ｓ１１３Ａ）。
【００４４】
制御部１０１Ａは、送信データの区分を示す一定フォーマットのタスクデータ管理情報ＴＤＡ及び対話タスクＴｋを管理する上で必要となる対話タスクパラメータＴＰＲを形成する。より詳述すると、タスクデータ管理情報ＴＤＡは、送信データのどこにどの情報が入っているかを示すものであって、これから音声情報通信装置１００Ｂに送信するデータのアドレス等から構成される。すなわち、対話タスクパラメータアドレスＴＤＡ１、対話シナリオアドレスＴＤＡ２及び対話データアドレスＴＤＡ３から構成される。一方、対話タスクパラメータＴＰＲは、音声情報通信装置１００Ｂから送られてきた音声対話環境管理情報ＡＤＭ３に基づいて、対話タスクＴｋを実現する上で最適なパラメータを音声情報通信装置１００Ｂの制御部１０１Ｂに対して指定するものである。
【００４５】
かかるタスクデータ管理情報ＴＤＡ及び対話タスクパラメータＴＰＲの形成時には、それぞれのデータの大きさ、すなわち、タスクデータバイト数ＢＹＴ２及び対話タスクパラメータバイト数ＢＹＴ３が求められる。また、対話シナリオＳｋのバイト数ＢＹＴ４、対話データのバイト数ＢＹＴ５も求められる。さらに、各バイト数ＢＹＴ２〜ＢＹＴ５から送信データ全体のバイト数ＢＹＴ１が求められる。
【００４６】
以上のような送信準備によって得られた送信データのバイト数情報ＢＹＴが、送信部１１０Ａから音声情報通信装置１００Ｂの受信部１０９Ｂへ送信される（Ｔ１０６：Ｓ１１４Ａ）。
【００４７】
音声情報通信装置１００Ｂにおいて、送信データのバイト数ＢＹＴが受信部１０９Ｂを介して与えられた制御部１０１Ｂは、これにより、各メモリのスペースの確保等の受信準備を行なう（Ｔ１０７：Ｓ１１８Ｂ、Ｓ１１９Ｂ）。各メモリのスペースの確保とは、メモリ上のファイルを１箇所にまとめたり、他メモリに退避させる等の処置である。このような受信準備が完了したら、音声情報通信装置１００Ｂの制御部１０１Ｂは送信部１１０Ｂを駆動して、音声情報通信装置１００Ａに対して受信準備ＯＫ信号を返信する（Ｔ１０８：Ｓ１２０Ｂ）。
【００４８】
音声情報通信装置１００Ａにおいて、受信部１０９Ａを介して受信準備ＯＫ信号が与えられた制御部１０１Ａは、対話タスクＴｋを音声情報通信装置１００Ｂにおいて実現するため必要となる全データの送信を開始させ、順次そのデータを送信部１１０Ａから送信させる（Ｔ１０９Ａ：Ｓ１１５Ａ、Ｓ１１６Ａ）。
【００４９】
このデータ送信時には制御部１０１Ａは以下のように動作する。まず、制御部１０１Ａは、上述ようにして生成したタスクデータ管理情報ＴＤＡ（制御部１０１Ａの内蔵メモリに格納されている）を送信部１１０Ａに転送し、送信部１１０Ａより伝送路１２０を介して音声情報通信装置１００Ｂの受信部１０９Ｂに送信させ、次に、同様にして対話タスクパラメータＴＰＲ（制御部１０１Ａの内蔵メモリに格納されている）を音声情報通信装置１００Ｂの受信部１０９Ｂに送信させる。さらにその後、送信対話メモリ１０８Ａから対話タスクＴｋに関する対話シナリオＳｋ及び対話データＤｋをそれぞれ対話シナリオメモリ１０２Ａ及び対話データメモリ１０３Ａにローディングさせ、送信部１１０Ａより音声情報通信装置１００Ｂの受信部１０９Ｂに送信させる。
【００５０】
各データの送信のタイミング等は全て、タスクデータ管理情報ＴＤＡに記述されたアドレスに基づいて定められる。ここで、送信データのアドレスとは、当該送信データであることを示す信号を送信した直後から送信データを例えば１バイト単位に送信される順番に付与する番号である。
【００５１】
一方、音声情報通信装置１００Ｂにおいては、以下のような送信データの受信動作を行なう（Ｔ１０９Ｂ：Ｓ１２１Ｂ、Ｓ１２２Ｂ）。
【００５２】
音声情報通信装置１００Ｂの受信部１０９Ｂは、受信データの所定アドレスに記載されたタスクデータ管理情報ＴＤＡを読取る。受信部１０９Ｂは、読み取ったタスクデータ管理情報ＴＤＡと、既に受信している送信データのバイト数情報ＢＹＴとから、続いて順次受信するデータの種類を認識する。すなわち、対話タスクパラメータＴＰＲ、対話シナリオＳｋ、対話データＤｋの受信タイミングを認識する。そして、受信しているデータが対話タスクパラメータＴＰＲのときには制御部１０１Ｂへ与えて内蔵メモリに格納させ、受信しているデータが対話シナリオＳｋのときには対話シナリオメモリ１０２Ｂに格納させ、受信しているデータが対話データＤｋのときには対話データメモリ１０３Ｂに格納させる。
【００５３】
以上のようにして、対話データＤｋの受信・格納も終了すると、受信が完了し、制御部１０１Ｂは送信部１１０Ｂから受信完了信号を音声情報通信装置１００Ａに送信し（Ｓ１２３Ｂ）、受信部１０９Ａを介してこの受信完了信号が与えられた音声情報通信装置１００Ａの制御部１０１Ａはこれによりデータの受信が適正に行なわれたことを認識して一連の対話タスクの送信動作を終了する（Ｔ１１０：Ｓ１１７Ａ）。
【００５４】
以上、対話タスクＴｋ等の通信シーケンス例を説明したが、通信される情報が対話タスクＴｋ等である点を除けば、他の通信装置と同様な手順によって通信は実行されており、従って、この第１実施例の音声情報通信装置１００（１００Ａ及び１００Ｂ）が採用する通信シーケンスは、図３に示す以外のものであっても良い。
【００５５】
音声情報通信装置１００Ｂの制御部１０１Ｂは、受信完了信号を音声情報通信装置１００Ａに向けて送信させると、受信した対話タスクＴｋ（Ｓｋ及びＤｋ）の実行準備を行なう（Ｔ１１１：Ｓ１２４Ｂ）。例えば、所定のＬＥＤを点滅させること等により、対話タスクＴｋ（Ｓｋ及びＤｋ）を受信したことを、当該音声情報通信装置１００Ｂの使用者Ｂが知得し得るようにする。なお、使用者Ｂに対するこの知得動作は、使用者Ｂが、当該音声情報通信装置１００Ｂを用いた対話を開始する（対話タスクＴｋを起動する）まで継続して実行される。
【００５６】
使用者Ｂは、対話タスクＴｋの受信メッセージに気付いたときに、対話タスクＴｋが受信されたことを認識し、受信された対話タスクＴｋを実行することにより、送信者Ａからの音声対話によるメッセージを受ける（Ｓ１２５Ｂ）。
【００５７】
使用者Ｂが、キーボード等を用いて、当該対話タスクＴｋを実行する命令を出すと、制御部１０１Ｂは、対話シナリオメモリ１０２Ｂ内の対話シナリオ（従って最初の対話ジョブ（図２参照））Ｓｋを解読し、その命令に従って、例えば音声合成部１０６Ｂを起動させ、使用者Ｂに問いかける。このときの音声合成データは音声合成データメモリ１０７Ｂに格納されているものが用いられる。この問いかけに対し、使用者Ｂが音声でもって答えた場合、音声認識部１０４Ｂは、例えばそのパワー変化等を検出することにより音声波形を切り出し、スペクトル変換し、音声認識辞書１０５Ｂに格納されている標準的なパタン又はＨＭＭパラメータ等と照合し、さらに音声認識辞書１０５Ｂ内の構文情報に基づく自然言語処理等を行なってその音声を認識し、その認識結果を制御部１０１Ｂに伝達する。制御部１０１Ｂは、対話シナリオに記述された手続に従って、当該認識結果に基づいて、次の質問事項（対話ジョブ）を選び出して音声合成出力する。また、必要に応じて対話データメモリ１０３Ｂに格納された知識データベース構成の対話データをサーチして、使用者Ｂからの質問に対する返答を音声合成出力する。
【００５８】
以下、同様な処理が繰り返され、対話タスクＴｋに基づく送信者Ａ及び受信者Ｂ間の音声対話が実現される。
【００５９】
以上、音声情報通信装置１００Ａから音声情報通信装置１００Ｂへ対話タスク等を送信して、両装置１００Ａ及び１００Ｂの使用者Ａ及びＢ間で、間接的な対話を実行させる場合を示したが、音声情報通信装置１００Ｂから音声情報通信装置１００Ａへ対話タスク等を送信して、両装置１００Ｂ及び１００Ａの使用者Ｂ及びＡ間で、間接的な対話を実行させることも必要に応じてできる。
【００６０】
さらに、この実施例の音声情報通信装置１００は、対話タスクＴｋの受信側として通信起動をかけることができる。この場合のシーケンス図は省略するが、上述した図３に示したシーケンスと共通な部分が多い。また、制御部１０１のこの場合の動作は、上述した図４〜図６に記載しているとほぼ同様である。
【００６１】
装置１００Ｂの使用者Ｂが対話タスクＴｋを対向する音声情報通信装置１００Ａから送信させることを指示すると、例えば、制御部１０１Ｂは、当該装置の管理情報ＡＤＭを整理し（図３のＴ１０１参照）、当該装置１００Ｂのアドレス、管理情報ＡＤＭ、対話タスクＴｋの特定情報を含む対話タスクの送信督促命令を送信する（図３のＴ１０２参照：Ｓ１００Ｂ、Ｓ１０２Ｂ、Ｓ１０８Ｂ、Ｓ１０９Ｂ）。音声情報通信装置１００Ａは、この対話タスクＴｋの送信督促命令の受信により通信動作に入り（Ｓ１００Ａ、Ｓ１０１Ａ、Ｓ１０５Ａ）、これ以降は、管理情報を受信しているのでステップＳ１１０Ａ以降の動作を行なう。一方、音声情報通信装置１００Ｂは、対話タスクの送信督促命令を送信すると、ステップＳ１１８Ｂ以降の動作を行なう。
【００６２】
従って、上記第１実施例によれば、送信者は、音声対話環境を実現できる詳細な手続である対話シナリオ及び対話に必要となるデータが記述された対話データ自体を、受信者に送信し、受信者が適当なタイミングでそれらに基づいて送信者と対話できるので、受信者が通信時に不在な場合でも、かなり詳細な対話を行なうことができる。
【００６３】
また、上記第１実施例によれば、対話シナリオ及び対話データ自体を送受信して対話シナリオ及び対話データを受信した装置上で対話を実行させるので、一方の装置に対話シナリオ及び対話データを保持しておき、他方の装置との間で音声データを授受して対話する場合に比べて、対話を行なう時刻や信号の伝送時間等の制約を受けることが少なくなる。
【００６４】
すなわち、第１実施例の音声情報通信システムは、音声対話そのものを媒介としてコミュニケーションをはかることを可能とし、相手方とリアルタイムに通信できない状況、例えば、不在であったり、極端な遠隔地であるときでも、相手の返答に応じて自分の意思を伝達することができる。
【００６５】
そのため、今までは考えられなかった通信の利用形態を実現でき、この実施例の音声情報通信システムの有効性はかなり高い。以下、有効性について例を挙げて説明する。
【００６６】
現実的な例ではないが、送信者Ａは地球上の発進基地内、受信者Ｂは太陽系最果ての惑星である冥王星に着陸した宇宙船内にいた場合、電磁波を使った通信においてもメッセージが到着するのに５時間半かかる。従って、このままでは一方通行の情報伝達となりリアルタイムな通常の対話は成立しない。しかしながら、この実施例の音声情報通信装置を用いた場合には、通信による伝送時間は問題とならず、擬似的ではあるが、対話形式で意思伝達を行なうことができる。
【００６７】
また、例えば、日本とアメリカという時差の異なる国間で対話を行なおうとすると、一方の対話者に本来は就寝中の時間であるにも拘らず起きていることを強要する。しかしながら、この実施例の音声情報通信装置を用いた場合には、通信時刻は問題とならず、擬似的ではあるが、対話形式でしかも通常の活動時間において意思伝達を行なうことができる。
【００６８】
因に、キーボード入力やディスプレイ表示を通じて、キャラクタコードの授受によって擬似的対話を実現できる情報を対向する装置間で授受することも考えられるが、２人の人間間で交わされる対話は、純人間的な行為であり、できるだけ人間行為に近い形式で行なうことが好ましく、実施例のように、音声を媒体とする擬似的対話を実現できるように通信することが好ましい。
【００６９】
（Ｂ）第２実施例
次に、本発明による音声情報通信システムの第２実施例を図面を参照しながら詳述する。図７が、この第２実施例の音声情報通信システムの構成を示すブロック図であり、上述した第１実施例に係る図１との同一、対応部分には同一符号を付して示している。
【００７０】
第１実施例に係る音声情報通信装置においては、いずれの対話タスクを実行する場合であっても、使用される音声認識辞書や音声合成データメモリが固定のものを示したが、第２実施例に係る音声情報通信装置は、認識性能を向上させたり合成音の自由度を高めたりするために、対話タスク毎に音声認識辞書や音声合成データメモリを切り換えられるようにしたものである。
【００７１】
すなわち、音声情報通信装置１００Ａについて図７に詳細を示すように、伝送路１２０を介して対向する第２実施例の各音声情報通信装置１００Ａ及び１００Ｂはそれぞれ、音声認識部１０４Ａ、１０４Ｂが利用可能な音声認識辞書として複数種類の音声認識辞書１０５Ａ１〜１０５Ａｎ、１０５Ｂ１〜１０５Ｂｐを備え（ｎは装置１００Ａに係る個数、ｐは装置１００Ｂに係る個数）、また、音声合成部１０６Ａ、１０６Ｂが利用可能な音声合成データメモリとして複数種類の音声合成データメモリ１０７Ａ１〜１０７Ａｍ、１０７Ｂ１〜１０７Ｂｑを備えており（ｍは装置１００Ａに係る個数、ｑは装置１００Ｂに係る個数）、以下に例示するような方法によって使用する音声認識辞書及び音声合成データメモリを適宜選択可能になされている。
【００７２】
ここで、複数種類の音声認識辞書１０５Ａ１〜１０５Ａｎ、１０５Ｂ１〜１０５Ｂｐは、例えば、特定話者毎に作成したものや、音韻や単語のカテゴリ名の付与方法及び構文解析法によって別個のものとなったりしたもの（言語種類や、専門分野）等である。また、音声合成データメモリ１０７Ａ１〜１０７Ａｍ、１０７Ｂ１〜１０７Ｂｑにそれぞれ格納されている異なる種類の音声合成データは、例えば、男性音データ、女性音データ、誰それの合成音データ、日本語や英語等の言語種類毎のデータ等である。
【００７３】
以下、どのようにして利用する音声認識辞書や音声合成データメモリが決定されるかを、音声情報通信装置１００Ａから音声情報通信装置１００Ｂへ対話タスクＴｋを送信する場合を例に説明する。従って、通信シーケンスは、第１実施例の説明で用いた図３に示すシーケンスとほぼ同様であり、以下では、第１実施例とは異なる点を中心に説明する。また、かかる説明を通じて制御部１０１Ａ及び１０１Ｂの処理が明らかになるので、フローチャートは用意していない（図４〜図６参照）。
【００７４】
図３において、音声情報通信装置１００Ｂが管理情報ＡＤＭの送信準備を行ない、音声情報通信装置１００Ａに向けて管理情報ＡＤＭを送信する状況（Ｔ１０１、Ｔ１０２）から説明する。
【００７５】
この第２実施例の場合、音声情報通信装置１００Ｂには、複数種類の音声認識辞書１０５Ｂ１〜１０５Ｂｐと複数種類の音声合成データメモリ１０７Ｂ１〜１０７Ｂｑとがあるので、制御部１０１Ｂは、送信する管理情報ＡＤＭに、全ての音声認識装置１０５Ｂ１〜１０５Ｂｐの情報ＡＤＭ３１と、全ての音声合成データメモリ１０７Ｂ１〜１０７Ｂｑに格納されている音声合成データの情報ＡＤＭ３２とを挿入する。
【００７６】
このような管理情報ＡＤＭが送信された音声情報通信装置１００Ａにおいては、制御部１０１Ａによって、送信可能性チェック（Ｔ１０３）及び対話タスク実現可能性チェック（Ｔ１０４）が行なわれるが、後者のチェック時に、制御部１０１Ａは、対向する音声情報通信装置１００Ｂが使用する、対話タスクＴｋを実行する上で最適な音声認識辞書及び音声合成データメモリの決定を行なう。
【００７７】
例えば、送信対話メモリ１０８Ａに格納されている対話タスクＴｋの情報として、音声認識辞書及び音声合成データ（音声合成データメモリ）の選択用情報を盛り込んでおき、この選択用情報に従って、最適な音声認識辞書及び音声合成データ（メモリ）を選択する。全ての音声認識辞書が適当でなければ、又は、全ての音声合成データ（メモリ）が適当でなければ、制御部１０１Ａは、対向する音声情報通信装置１００Ｂにおいて対話タスクＴｋを実現不可能と判定する。
【００７８】
より具体的な例で説明すると、対話タスクＴｋに、当該タスクを女性の高い声で発音するという選択用情報が付与されているならば、それに応じた音声合成データｉが選択される。また、対話タスクＴｋに、所定の知り合い（特定話者）の発音から形成された音声認識辞書を選択することが記載されていれば、音声情報通信装置１００Ｂの音声認識辞書１０５Ｂ１〜１０５Ｂｐ内にその特定話者のものがあるかが確認される。
【００７９】
対話タスクＴｋに付与されている選択用情報が無指定の場合には、対向する音声情報通信装置１００Ｂに選択を委ね、チェックはＯＫとする。
【００８０】
このようにして決定された音声認識辞書及び音声合成データ（音声合成データメモリ）の選択情報は、対話タスクパラメータＴＰＲの一種に含められて、データ送信時に（Ｔ１０９）、音声情報通信装置１００Ａから音声情報通信装置１００Ｂに与えられる。
【００８１】
音声情報通信装置１００Ｂの制御部１０１Ｂは、対話タスクの実行準備（Ｔ１１０）の一貫として、音声認識部１０４Ｂが指示された音声認識辞書を利用し、かつ、音声合成部１０６Ｂが指示された音声合成データを格納している音声合成データメモリをアクセスするように設定動作を行なう。なお、選択情報が無指定の場合には、制御部１０１Ｂは、デフォルトの音声認識辞書及び音声合成データメモリを選択設定させる。
【００８２】
以上のようにして、第２実施例の音声情報通信システムにおいては、対話タスク毎に、対話実行時に利用する音声認識辞書や音声合成データメモリが切り換えられる。
【００８３】
従って、上記第２実施例によれば、第１実施例の基本的な特徴を備えているので、第１実施例と同様な効果を得ることができる。これに加えてさらに、音声認識辞書及び音声合成データメモリを複数種類備えて適宜選択できるようにしたので、対話表現の自由度を第１実施例より高めることができる。
【００８４】
（Ｃ）第３実施例
次に、本発明による音声情報通信システムの第３実施例を図面を参照しながら詳述する。図８が、この第３実施例の音声情報通信システムの構成を示すブロック図であり、上述した第２実施例に係る図７との同一、対応部分には同一符号を付して示している。
【００８５】
音声認識の自由度を高めようとすると、対話タスクに対して１対１に音声認識辞書を設けることも考えられるが、複数の音声認識辞書で、同一の情報が格納されることもあり、格納の無駄が大きい。そこで、複数の対話タスクをグルーピングし、同一グループの対話タスクは共通の音声認識辞書を利用することも考えられる。しかし、このようにすれば、１個の音声認識辞書が大きくなり、内容同定に時間がかかって対話時のリアルタイム性が損なわれる恐れがある。
【００８６】
第３実施例の音声情報通信システムは、以上のような点を考慮してなされたものであり、どちらかと言えば、第１実施例より第２実施例のシステムに近いものである。
【００８７】
この第３実施例に係る音声情報通信装置１００は、音声情報通信装置１００Ａについて図８に詳細を示すように、音声認識構成が第２実施例とは異なっており、音声認識構成として、音声認識部１０４及び１個の音声認識辞書１０５を備えると共に、さらに辞書メモリ１１１及び辞書選択編集部１１２を備えている。
【００８８】
辞書選択編集部１１２は、制御部１０１の制御下で、音声認識辞書１０５から所定の一部辞書情報を取出し編集して辞書メモリ１１１に格納させ、この辞書メモリ１１１に格納された内容を利用して音声認識部１０４が認識処理するようになされている。言い換えると、音声認識辞書１０５には、多くの対話タスクを実現する上で必要となる音韻、単語、文章等の辞書が格納さてれおり、対向する音声情報通信装置１００から指定された単語、文章等の辞書情報のみを音声選択編集部１１２において選択編集して辞書メモリ１１１に格納させて音声認識部１０４に利用させる。
【００８９】
以下、どのようにして辞書メモリ１１１に格納させる内容を、両音声情報通信装置１００Ａ及び１００Ｂ間で授受するかを、音声情報通信装置１００Ａから音声情報通信装置１００Ｂへ対話タスクＴｋを送信する場合を例に説明する。従って、通信シーケンスは、第１及び第２実施例の説明で用いた図３に示すシーケンスとほぼ同様であり、以下では、第１、第２実施例とは異なる点を中心に説明する。また、音声認識情報に関する処理と音声合成データに関する処理とはほぼ並行して行なわれるが、この第３実施例は、音声認識情報に関する処理に特徴があり、音声合成データの処理については第２実施例と同様であるのでその説明を省略する。また、かかる説明を通じて制御部１０１Ａ及び１０１Ｂの処理が明らかになるので、フローチャートは用意していない。
【００９０】
図３において、音声情報通信装置１００Ａが管理情報ＡＤＭを受領し、送信可能性のチェック（Ｔ１０３）を行なって、ＯＫが得られた時点以降の処理について説明する。
【００９１】
送信可能性のチェックでＯＫであれば、制御部１０１Ａは、対話タスクの実現可能性のチェック（Ｔ１０４）を行なう。この実施例の場合、送信対話メモリ１０８Ａに格納されている対話タスクＴｋの情報として、対話シナリオ及び対話データ等に加えて、音声認識の使用単語や使用分野等を特定する情報があり、制御部１０１Ａは、受信した管理情報ＡＤＭの音声認識辞書情報ＡＤＭ３１とこの使用単語等の特定情報とを比較して対話タスクの実現可能性のチェックを行なう。この第３実施例の場合、各装置１００Ｂ、１００Ａの音声認識辞書１０５Ｂ、１０５Ａには広範囲の内容が格納されているので、ほとんどの場合、かかるチェックでＯＫとなる。
【００９２】
このようにして実現可能性が確認されると、制御部１０１Ａは、使用言語や使用分野等の辞書内容の一部取出し情報を、対話タスクパラメータＴＰＲの一種に含めて、データ送信時に（Ｔ１０９）、音声情報通信装置１００Ｂに与える。
【００９３】
音声情報通信装置１００Ｂの制御部１０１Ｂは、対話タスクの実行準備（Ｔ１１０）の一貫として、辞書選択編集部１１２Ｂを駆動し、音声認識辞書１０５Ｂから、対話タスクパラメータＴＰＲに挿入されている一部取出し情報に従って、所定の一部情報を取出させ編集させて辞書メモリ１１１Ｂに格納させる。
【００９４】
このようにして辞書メモリ１１１Ｂに格納された、対話タスクＴｋに応じた辞書内容が、装置１００Ｂの使用者Ｂと対話タスクＴｋの送信者Ａとの擬似的な対話時において、使用者Ｂの発音内容の認識に利用される。
【００９５】
従って、第３実施例によれば、第１実施例と同様な効果を得ることができる。また、第３実施例によれば、予め区分けされた複数の音声認識辞書から１個を選択するのではなく、共通の音声認識辞書より対話タスクに必要となる辞書データのみを抽出して、音声認識辞書を新たに作り出すので（辞書メモリ１１１に格納されたものはそれ単独で新たな辞書と見ることができる）、対話タスクに応じてより柔軟な音声認識環境を設定することができる。
【００９６】
（Ｄ）第４実施例
次に、本発明による音声情報通信システムの第４実施例を図面を参照しながら詳述する。図９が、この第４実施例の音声情報通信システムの構成を示すブロック図であり、上述した第１実施例に係る図１との同一、対応部分には同一符号を付して示している。
【００９７】
この第４実施例の音声情報通信システムは、対話タスクを実行した際の対話履歴を対話タスクの送信側装置において入手できるようにしたものである。
【００９８】
第４実施例に係る音声情報通信装置１００は、音声情報通信装置１００Ａについて図９に詳細を示すように、対話履歴管理部１１４及び対話履歴メモリ１１５が設けられている点が、第１実施例に係る音声情報通信装置とは異なっている。なお、対話履歴の使用者への提供方法によっては、対話履歴提供用知識ベース１１６も設けられる。
【００９９】
対話履歴管理部１１４は、制御部１０１の制御下で、対話シナリオメモリ１０２及び対話データメモリ１０３に格納されている対話シナリオ及び対話データでなる対話タスクＴｋが実行された際の対話履歴を管理し、その対話履歴を内蔵するバッファに格納するものである。また、対話履歴管理部１１４は、対話タスクＴｋの実行が終了したときに、制御部１０１からの指令に応じて、送信部１１０に対話履歴を与え、対向する音声情報通信装置（すなわち、対話タスクＴｋの送信装置）１００に送信させるものである。
【０１００】
対話履歴メモリ１１５は、対向する音声情報通信装置１００から送信されてきた対話履歴が受信部１０９から与えられ、その対話履歴を格納するものである。この対話履歴メモリ１１５に格納された対話履歴は、制御部１０１によって取り出されてディスプレイに表示される等、使用者に提示される。使用者への提示方法については、後で詳述する。
【０１０１】
ここで、対話履歴とは、当該対話タスクＴｋにおける問とその問に対する使用者の答を出現順にストックしていったものである。
【０１０２】
図１０は、この第４実施例の音声情報通信システムの通信シーケンスの後半を示すものであり、この図１０に示した対話タスクの実行準備Ｔ１１１までの処理は第１実施例の場合と同様であり（図３参照）、その説明は省略する。なお、図１０は、音声情報通信装置１００Ａから音声情報通信装置１００Ｂに対話タスクＴｋを送信する場合の例である。
【０１０３】
音声情報通信装置１００Ｂの使用者Ｂは、対話タスクＴｋの受信メッセージ（例えばＬＥＤの点滅）に気付いたときに、対話タスクＴｋが受信されたことを認識し、受信された対話タスクＴｋを実行する（Ｔ１１２）。
【０１０４】
すなわち、使用者Ｂが、キーボード等を用いて、当該対話タスクＴｋを実行する命令を出すと、制御部１０１Ｂは、対話シナリオメモリ１０２Ｂ内の対話シナリオ（プログラム）Ｓｋを解読し、その命令に従って、例えば音声合成部１０６Ｂを起動させ、使用者Ｂに問いかける。このときの音声合成データは音声合成データメモリ１０７Ｂに格納されているものが用いられる。この問いかけに対し、使用者Ｂが音声でもって答えた場合、音声認識部１０４Ｂは、例えばそのパワー変化等を検出することにより音声波形を切り出し、スペクトル変換し、音声認識辞書１０５Ｂに格納されている標準的なパタン又はＨＭＭパラメータ等と照合し、さらに音声認識辞書１０５Ｂ内の構文情報に基づく言語処理等を行なってその音声を認識し、その認識結果を制御部１０１Ｂに伝達する。制御部１０１Ｂは、対話シナリオに記述された手続に従って、当該認識結果に基づいて、次の質問事項を選び出して音声合成出力する。また、必要に応じて対話データメモリ１０３Ｂに格納された知識データベース構成の対話データをサーチして、使用者Ｂからの質問に対する返答を音声合成出力する。
【０１０５】
以下、同様な処理が繰り返され、対話タスクＴｋに基づく送信者Ａ及び受信者Ｂ間の音声対話が実現される。
【０１０６】
このような対話タスクＴｋの実行時には、対話履歴管理部１１４Ｂによる対話履歴の管理が行なわれ、コンパクトな表現の対話履歴データに変換され、この対話履歴データが対話履歴管理部１１４Ｂの内蔵バッファに一時的に格納される（Ｔ１１３、Ｔ１１４）。対話履歴管理部１１４Ｂは、対話が完了すると（または当該対話履歴管理部１１４Ｂの内蔵バッファが満配になると）、制御部１０１Ｂの命令によって、対話履歴データを送信部１１０Ｂに転送して対向する音声情報通信装置１００Ａに送信させる（Ｔ１１５）。このとき、送信されるデータが対話履歴であることを示す信号も送信される。例えば、対話履歴データを送る前に対話履歴データであることを示すフラグ信号を送信するか、フォーマットの定められた管理データの中で対話履歴であると指定する等の方法がある。
【０１０７】
音声情報通信装置１００Ａにおいては、受信部１０９Ａが受信したデータが対話履歴データであることを識別すると、それを対話履歴メモリ１１５Ａに転送し、対話履歴メモリ１１５Ａに全ての対話履歴データが転送されると、対話履歴の受信処理が完了し、その使用者Ａに対話履歴データを受信したことを示すＬＥＤに対する点灯や点滅等の表示を行なう（Ｔ１１６）。
【０１０８】
使用者Ａが、その受信表示を見て対話履歴の提示を制御部１０１Ａに対して要求すると、制御部１０１Ａは、対話履歴メモリ１１５Ａのデータに基づいて、対向する音声情報通信装置１００Ｂにおける対話履歴を使用者Ａに提供する（Ｔ１１７）。
【０１０９】
図１１は、対話履歴管理部１１４Ｂによって管理、作成されて対向する音声情報通信装置１００Ａに転送される対話履歴データのデータ構造の一例を示すものである。
【０１１０】
図１１において、対話履歴データは、問や答等の対話単位毎に形成されている。１個の対話単位のデータ（対話履歴単位データ）ＨＩＳ−１、…、ＨＩＳ−Ｎはそれぞれ、データの通し番号ＮＯと、データが問に関するものか答に関するものかを表す情報Ｑ／Ａと、対話内容ＣＯＮと、対話内容ＣＯＮのデータ長ＬＧとからなる。対話内容ＣＯＮは、問については対話アドレスであり、答については認識結果コード列である。
【０１１１】
対話アドレスとは、対話シナリオ又は対話データにおいて、合成出力される問の文章が記載されているところを示す相対アドレスであり、これを指定することにより合成された文章を一意に規定できる。なお、この対話アドレスは、当該合成文が記述された範囲を対話シナリオ又は対話データ中で指定しなければならないため、当該範囲におけるスタートアドレスとエンドアドレスのペアからなるようにもでき、また、スタートアドレスだけにもできる。なお、対話履歴単位データＨＩＳ−３については、２個の対話アドレスＡ２及びＡ３を含んでいるが、これは、対話アドレスＡ２で指定された文とアドレスＡ３で指定された文の両者がこの順に合成出力されたことを意味している。
【０１１２】
認識結果コード列とは、合成出力された問に対して、当該音声情報通信装置１００Ｂの使用者Ｂが返答した音声を認識した結果（又は、その認識結果に対して自然言語処理を実行して得た意味内容）をそのままコード列で表現したものである。なお、合成文をコード列で表現せず、対話アドレスによって間接的に指定するようにしたのは、データ圧縮を図るためであり、これによって、大幅なメモリの節約及び通信コストの削減が達成できる。
【０１１３】
すなわち、対話履歴データの最も簡単な構造は、ただ単に合成されたセンテンス、認識結果等をそのままコード番号の並びで表したものであるが、この方法では、データ量が多くなり通信コストの点で問題があり、合成文を対話アドレスで規定するようにすると、その分容量が削減できて上記効果が達成される。
【０１１４】
なお、この図１１に示すデータ構造は、図２に示すような対話シナリオが対話ジョブの集合でなるものに適用が限定されるものではないが、以下では、図１１に示すデータ構造が、図２に示した対話ジョブＫを実行された場合にどのようになるかを簡単に説明する。対話ジョブＫが実行されると、２個の対話履歴単位データが対話履歴データに追加され、それらの通し番号ＮＯは今までの続きである。最初の対話履歴単位データは、問であることを表す情報Ｑ／Ａと、合成文Ｇｋが格納されているアドレスの対話内容ＣＯＮと、その対話内容ＣＯＮのデータ長ＬＧとからなる。次の対話履歴単位データは、答であることを表す情報Ｑ／Ａと、合成文Ｇｋに対する利用者からの応答の認識結果Ｎ1 、…、Ｎm 又はＤＥＦＡＵＬＴのコード列の対話内容ＣＯＮと、その対話内容ＣＯＮのデータ長ＬＧとからなる。
【０１１５】
図１２は、対話履歴管理部１１４Ｂによって管理、作成されて対向する音声情報通信装置１００Ａに転送される対話履歴データのデータ構造の他の一例を示すものである。
【０１１６】
図１２に示した対話履歴データも、問や答等の対話単位毎に形成されており、１個の対話履歴単位データＨＩＳ−１、…、ＨＩＳ−Ｎはそれぞれ、データ（対話単位）の通し番号ＮＯと、データが問に関するものか答に関するものかを表す情報Ｑ／Ａと、対話内容ＣＯＮと、当該対話内容ＣＯＮのデータ長ＬＧとからなる。
【０１１７】
このデータ構造の例では、対話内容ＣＯＮは、問については対話アドレスであり、答については「辞書アドレス列」であり、後者の点が図１１に示したデータ構造例とは異なっている。
【０１１８】
なお、図１２に示すデータ構造も、図２に示すような対話シナリオが対話ジョブの集合でなるものに適用が限定されるものではない。
【０１１９】
ここで、辞書アドレス列は、認識結果コード列を、音声認識辞書１０５Ｂ上のアドレス列に変換したものである。すなわち、対話履歴データにおいては、使用者Ｂの返答内容を、音声認識部１０４Ｂで認識された結果のコード列で表現するのではなく、音声認識辞書１０５Ｂにおける相対アドレスの列で表現している。ここで、相対アドレス列とは、認識結果を構成する各語を音声認識辞書１０５Ｂに登録された順（相対アドレス）でもって表現したものである。最初の答に対する認識結果が、５個の単語や助詞等の認識単位Ｇ１〜Ｇ５で構成されているとき、これら認識単位Ｇ１〜Ｇ５のそれぞれを音声認識辞書１０５Ｂに登録されているアドレスＢ１〜Ｂ５でもって表現したものが、最初の答についての辞書アドレス列である。
【０１２０】
このような表現方法を採ることによって、認識結果をそのままコード列で表現するよりも、少ないデータ量で対話履歴データを送受信できる。従って、通信コスト、通信速度の点で有利となる。
【０１２１】
例えば、「ＴＡＮＧＯ」という文字が当該音声認識辞書１０５Ｂに登録されているとすると、この文字をコード表現したとき１コード１バイト必要であるとすると、５バイト必要となる。一方、仮に音声認識辞書１０５Ｂに全部で２５６語登録されているとすると、「ＴＡＮＧＯ」という文字のアドレスとして最低でも１バイトあれば足り、アドレス表現の方がデータ量が少なくて済む。
【０１２２】
しかしながら、以上述べた議論が通用するのは、対向する音声情報通信装置１００Ａにおいて、当該音声情報通信装置１００Ｂ内の音声認識辞書１０５Ｂの相対アドレスと各語の対応関係が予め分かっているときだけである。従って、このような前提が成り立つ場合に図１２のデータ構造を採用すれば良く、成り立たない場合には図１１のデータ構造を採用すれば良い。
【０１２３】
図１２のデータ構造を採用できる場合としては、両装置１００Ａ及び１００Ｂの音声認識辞書１０５Ａ及び１０５Ｂが全く同じ場合や、一方の音声認識辞書１０５Ｂに関する情報を予め対向する装置１００Ａに送信しておくような場合である。後者の送信方法としては、通信シーケンスにおける管理情報の送信タイミングに行なうことを挙げることができる。
【０１２４】
図１３は、対話履歴管理部１１４Ｂによって管理、作成されて対向する音声情報通信装置１００Ａに転送される対話履歴データのデータ構造のさらに他の一例を示すものである。
【０１２５】
図１３に示した対話履歴データも、問や答等の対話単位毎に形成されており、１個の対話履歴単位データＨＩＳ−１、…、ＨＩＳ−Ｍはそれぞれ、データの通し番号ＮＯと、データが問に関するものか答に関するものかを表す情報Ｑ／Ａと、対話内容ＣＯＮと、そのデータ長ＬＧとからなる。
【０１２６】
このデータ構造例の場合、対話内容ＣＯＮは、問については「対話ジョブのアドレス」であり、答については「対話ジョブにおける認識結果の分類番号」等であり、これらの点が図１１や図１２に示したデータ構造例とは異なっている。
【０１２７】
対話シナリオが図２に示すような対話ジョブＫの集合でなる場合、対話ジョブを特定することは合成文を特定したことになり、対話ジョブのアドレスは合成文を規定するものとなっている。
【０１２８】
また、実際上、質問者Ａは返答者Ｂの返答がどういう意味を持っているかを知得すれば目的が達成できるということが多く、このような観点に従う対話であれば、認識結果をそのまま再現するのではなく、複数に分類された認識結果の分類番号で表現して十分である。これにより、対話履歴データは大幅に圧縮され、通信コストの軽減も達成される。すなわち、図２に示したように音声認識結果は、複数の選択枝に分類されるが、この枝に付与された番号でもって使用者Ｂの返答の意味を区別して表現する。ここで注意すべきことは、認識結果を示す分類番号だけでは、具体的記述などが表現できないということである。例えば、対話ジョブが商品の代金支払方法を決定するためのジョブであり、認識結果として分類された項目が銀行自動引落しに関するものであったとき、何回払いであるとか、いつまでに支払うとかといったより具体的で詳細な記述にまで分類項目を設けることは不可能に近く、そこで、そのような具体的記述に関しては、従前と同様に認識結果コード列等を用いる。勿論、当該数値が分類番号であるかコード番号であるかを区別するための情報も必要となる。
【０１２９】
以上のようなデータ構造を有する対話履歴データが送信されてきた音声情報通信装置１００Ａにおいては、例えば、以下のようにして、対話履歴を使用者Ａに提供（表示）すれば良い。
【０１３０】
(1) 対話履歴をディスプレイ等に文字列で再現する。このとき、知識処理等で仮名漢字変換等を行なって文章の意味を理解しやすくすることは好ましい。
【０１３１】
(2) 対話履歴を音声合成部１０６による音声合成で再現する。このとき、問う声と答える声とを異なる声質にして分かりやすくすることが好ましい。
【０１３２】
(3) 使用者Ａが当該対話タスクに基づく質問系列を自らの音声で表現すると、当該装置１００Ａの音声認識機能によってそれを認識し、合成音やディスプレイ表示によって対向装置１００Ｂの使用者Ｂの返答を再現する。
【０１３３】
(4) 使用者Ａの質問の意味を解析し、対向装置１００Ｂの使用者Ｂの返答結果に基づいてその質問に対する答えを作り出す。
【０１３４】
以下、対話履歴の提供方法(1) 〜(4) のそれぞれについて説明する。なお、以下の説明において、対話履歴データの構造は図１１に示すものとする。
【０１３５】
まず、対話履歴の提供方法(1) について図１４を参照しながら詳述する。
【０１３６】
制御部１０１Ａは、使用者Ａが対話履歴データの受信を認識して、キー入力等によって、その提供を指示すると、図１４に示す処理を開始する。そして、未処理の中で最も通し番号ＮＯが小さい１個の対話履歴単位データを取り出し、そのデータが問か答のいずれに関するものであるかを判別する（ステップＳ１５０Ａ、Ｓ１５１Ａ）。問であれば、対話内容ＣＯＮとして挿入されている対話アドレスを認識して送信対話タスクメモリ１０８から合成文を取り出した後に、答であれば、対話内容ＣＯＮとして挿入されている音声認識結果（コード列）を対話履歴提供用知識ベース１１６Ａの格納内容を利用して仮名漢字変換した後に、ディスプレイにそのデータを与えて表示させる（ステップＳ１５２Ａ〜Ｓ１５４Ａ）。次に、全ての対話履歴単位データを表示させたか否かを判断し、全ての対話履歴単位データについて表示し終えたときにはこの一連の処理を終了し、未処理の対話履歴単位データが残っているときには上述のステップＳ１５０Ａに戻って次の対話履歴単位データの表示処理に進む（ステップＳ１５５Ａ）。
【０１３７】
次に、対話履歴の提供方法(2) について図１５を参照しながら詳述する。なお、図９のブロック図においては、音声合成データメモリ１０７に格納されている音声合成データが１種類か２種類以上かが明らかになっていないが、この対話履歴の提供方法(2) の場合、音声合成データメモリ１０７に格納されている音声合成データは、図７に示した第２実施例のように少なくとも２種類必要である。
【０１３８】
制御部１０１Ａは、使用者Ａが対話履歴データの受信を認識して、キー入力等によって、その提供を指示すると、図１５に示す処理を開始する。そして、未処理の中で最も通し番号ＮＯが小さい１個の対話履歴単位データを取り出し、そのデータが問か答のいずれに関するものであるかを判別する（ステップＳ１６０Ａ、Ｓ１６１Ａ）。問であれば、対話内容ＣＯＮとして挿入されている対話アドレスを認識して送信対話タスクメモリ１０８から合成文データを取り出した後、第１の音声合成データ１０７Ａ−Ｉを用いることを指示してその合成文データを音声合成部１０６Ａに与えて発音出力させる（ステップＳ１６２Ａ、Ｓ１６３Ａ）。一方、取り出した対話履歴単位データが答であれば、第２の音声合成データ１０７Ａ−IIを用いることを指示して挿入されている音声認識結果データを音声合成部１０６Ａに与えて発音出力させる（ステップＳ１６４Ａ）。次に、全ての対話履歴単位データを発音出力させたか否かを判断し、全ての対話履歴単位データについて発音出力させ終えたときにはこの一連の処理を終了し、未処理の対話履歴単位データが残っているときには上述のステップＳ１６０Ａに戻って次の対話履歴単位データの発音出力処理に進む（ステップＳ１６５Ａ）。
【０１３９】
次に、上述した対話履歴の提供方法(3) について図１６を参照しながら詳述する。
【０１４０】
使用者Ａが対話履歴データの受信を認識して、キー入力等によって、その提供を指示すると、制御部１０１Ａは図１６に示す処理を開始し、まず、終了操作が実行されていないことを確認した後、使用者Ａが発声した問の音声に対する認識結果を音声認識部１０４Ａから取り込む（ステップＳ１７０Ａ、Ｓ１７１Ａ）。次に、制御部１０１Ａは、対話履歴データの対話アドレスを参照しながら、送信対話タスクメモリ１０８Ａに格納されている対話シナリオＳｋ（又は対話データＤｋ）に記載されている合成文を取出しては当該問の音声認識結果と照合し、認識結果はどの合成文に相当しているかを、従って該当する合成文は存在するか否かを判断する（ステップＳ１７２Ａ、Ｓ１７３Ａ）。
【０１４１】
この判断方法としては、例えば、使用者Ａの音声の認識結果とサーチした合成文とを照合し、照合結果が最も一致しているものを採用する方法や、両者の単語だけを比較し、最も重複した単語が多かったものを選ぶ方法等がある。
【０１４２】
使用者Ａが発声した問の音声に該当する合成文が存在しない場合には、その旨を表示又は発音出力させて上述のステップＳ１７０Ａに戻る（ステップＳ１７４Ａ）。
【０１４３】
これに対して、使用者Ａの質問に対応した合成文が存在すると判断したときは、対話履歴データの中から相当する対話アドレスを見付け出し、それに対応して返答された対向装置１００Ｂの使用者Ｂの認識結果コード列を取出して文字列表示又は音声合成部１０６Ａによる合成音で出力して上述したステップＳ１７０Ａに戻る（ステップＳ１７５Ａ、Ｓ１７６Ａ）。
【０１４４】
次に、上述した対話履歴の提供方法(4) について図１７を参照しながら詳述する。この対話履歴の提供方法(4) は、提供方法(3) をさらに発展させたものである。すなわち、この対話履歴の提供方法(4) は、使用者Ａが発声した問の音声に該当する合成文を発見できなかった場合（ステップＳ１７３Ａで否定結果）の対応が対話履歴の提供方法(3) と異なっており、以下では、この異なる部分の処理を説明する。
【０１４５】
使用者Ａが発声した質問音声に該当する合成文を発見できなかった場合には、対話履歴提供用知識ベース１１６Ａの格納内容を利用しながら、その質問音声の意味を解析して得て、その意味に予め対応付けられた合成文であってしかも対話履歴データに挿入されている合成文をサーチし、このような合成文の有無を判別する（ステップＳ１８０Ａ〜Ｓ１８２Ａ）。
【０１４６】
このような合成文が存在しない場合には、その旨を表示又は発音出力させて上述のステップＳ１７０Ａに戻る（ステップＳ１８３Ａ）。
【０１４７】
これに対して、使用者Ａの質問の意味内容に対応した合成文が存在すると判断したときは、対話履歴データの中から相当する対話アドレスを見付け出し、それに対応して返答された対向する音声情報通信装置１００Ｂの使用者Ｂの答（認識結果コード列）を取出し、対話履歴提供用知識ベース１１６Ａの格納内容を利用しながら、使用者Ｂが発声した答から、使用者Ａの質問の意味内容に対する答を推論して形成し、文字列表示又は合成音で出力して上述したステップＳ１７０Ａに戻る（ステップＳ１８４Ａ、Ｓ１８５Ａ）。
【０１４８】
従って、この提供方法(4) のように人工知能技術等を用いると、対話タスクＴｋで出現する質問事項を使用者Ａはそのまま発声する必要がなく、使用者Ａの質問の意味から、対向する音声情報通信装置１００Ｂの使用者Ｂの答を対話履歴メモリ１１５Ａからサーチして判断できる。例えば、使用者Ａが対話タスクには直接含まれていない「Ｂは、Ｘを欲しがっていたか？」という質問を行なった場合、制御部１０１Ａは、対話履歴メモリ１１５Ａのデータから、対向使用者Ｂの返答結果をサーチし、「Ｘを買いませんか」という所定質問に対する対向使用者Ｂの返答の中に「少し、考えさせて下さい。」という答が含まれていることを認識したとき、回答者Ｂは躊躇していると判断し、例えば、購入催促に対する躊躇解答に対する知識ベースを利用して「Ｂは、今すぐに買うつもりはないが、もっと勧誘すれば買う可能性は有ります。」という答を出力する。この方法によれば、当該対話タスクによる対話結果を効率的に知ることができる。
【０１４９】
なお、図１３に示すような圧縮された形で使用者Ｂの認識結果が表現されている対話履歴データの場合に、その提供方法が問題となるが、例えば各分類項目毎に定型の履歴提供用の合成文を用意しておくことで、上記(1) 〜(3) の提供方法に対応でき、また、分類項目に加えて認識結果コード列がある履歴単位データの場合には、分類項目に応じた定型の履歴提供用の合成文の中に可変な部分を残しておいて、そこに認識結果コード列を当て嵌めることで上記(1) 〜(3) の提供方法に対応できる。
【０１５０】
従って、上記第４実施例によれば、第１実施例と同様な効果に加えて、対話タスクの提供者がその対話タスクがどのように実行されたかを確認することができ、対話タスクの提供者だけでなく、提供を受けたものも相手に自己の意思を良好に伝達することができる。
【０１５１】
すなわち、音声対話の結果を常に対話履歴管理部１１４Ａ、１１４Ｂによって管理して対話履歴というコンパクトな表現に変換し、それをも送受信可能としたことにより、縮約された相互の意思を直ちに知ることができ、コミュニケーションの円滑化を図っている。
【０１５２】
また、対話履歴の再現方法にも工夫があり、相手方から送信された対話履歴を対話履歴メモリ１１５Ａ、１１５Ｂに格納しておき、単にそれを表示させるのみならず、それに基づいてオペレータと相手との音声対話を仮想的に実現することも可能となっており、相手不在の直接対話という仮想的実現感を醸し出すことができる。
【０１５３】
以上のような構成を有し、以上のような効果を奏する第４実施例の、実社会における有効な利用例を一つ挙げると以下の通りである。
【０１５４】
例えばサービス提供者Ａが顧客Ｂに対して、興味・関心の動向を探り、商品Ｘの情報を提供して商取引をはかるべく顧客Ｂに電話をしたとき、たまたま顧客Ｂが留守であった状況を想定する。このとき、サービス提供者Ａは後日顧客Ｂに再度電話をするか、さもなくば留守録機能を利用して、顧客Ｂにサービス提供者Ａに対して電話をするように依頼するかのどちらかである。前者の場合、サービス提供者Ａの労力が多大になり、また後者の場合には顧客Ｂに対して命令を強いると同様であり、サービス提供者Ａとして必ずしもよい措置とはいえず、また全ての顧客Ｂが応じてくれるとも限らず、労力の損失も大きい。さらに顧客は一人だけではなく、何百人、何千人といるわけであるから、サービス提供者Ａの労力は膨大なものとなる。
【０１５５】
上述のような状況に比較して第４実施例は有効である。サービス提供者Ａは先ず、商品Ｘの属する分野についても興味・関心の動向を探るために当該対話タスクを実現するための対話シナリオ及び対話データを選び出し、顧客Ｂの通信装置１００Ｂに送信する。顧客Ｂは受信後、たとえ留守であっても帰宅した後には、当該対話タスクを実行する。その結果が対話履歴としてサービス提供者Ａの装置１００Ａに送られる。その対話履歴の結果によって、サービス提供者Ａは次の対話タスクを送るか否かを決定する。すなわち、顧客Ｂが商品Ｘについて全く関心がなく、購入する可能性がほとんどないと判断できた場合には、対話タスクの送信を中止する。また、商品Ｘについては関心があるが、まだ購入するまでに至らないときは、商品Ｘを積極的に売り込むための対話タスクを送信する。その結果、顧客Ｂが購入する意思を持つようになったとき、又は、当初から購入を決めていたときは、次の商取引のための対話タスクを送信することになる。このようにして、サービス提供者Ａは最小限の労力で顧客Ｂの意思を把握することができ、顧客Ｂの対話の結果に応じた柔軟な対処により自動営業を行なうことができる。
【０１５６】
（Ｅ）第５実施例
次に、本発明による音声情報通信システムの第５実施例を図面を参照しながら詳述する。図１８が、この第５実施例の音声情報通信システムの構成を示すブロック図であり、上述した第４実施例に係る図９との同一、対応部分には同一符号を付して示している。
【０１５７】
この第５実施例に係る音声情報通信装置は、複数の対話タスクの分岐・連結を自動的に実現できるようにしたものである。
【０１５８】
第５実施例に係る音声情報通信装置１００においては、音声情報通信装置１００Ａについて示すように、送信対話タスクメモリ１０８に格納されている対話タスク（対話シナリオ及び対話データ）の構成が第１〜第４実施例とは異なる。すなわち、記述した実施例の場合、送信対話タスクメモリ１０８に格納されている複数の対話タスクは、それぞれが独立のものであるのに対して、この第５実施例の場合、送信対話タスクメモリ１０８には、複数の対話タスクがその連結情報１０８ａと共に格納されている。
【０１５９】
対話は１本道ではなく、相手の応答等によって異なるストーリーをとるので、１個の対話タスクによってこのような多様性に応じられるようにすると、その対話タスクは、かなり大きな容量を有するものとなる。そのため、そのメモリ容量や伝送容量や伝送時間との関係で実現性がないことにもなり得る対話環境がある。このような対話環境に対して、第４実施例を適用しようとすると、同一対話環境に関するものであるにも拘らず、別個の複数の対話タスクを形成することになる。例えば、一つの音声対話タスクが終了したときに、その結果によって他の音声対話タスクに続けるように、同一対話環境に関する対話タスクを複数に分割する場合がある。このような場合には、オペレータがそれまでの対話の流れを考慮して次の対話タスクを選定しなければならず、操作性としては不十分である。
【０１６０】
この第５実施例は、以上のようなことを考慮してなされたものであり、同一の対話環境を実現するものとして複数の対話タスクを用意し、それらを話の流れに従って自動的に連結することで、小さな複数の対話タスクによって対話を連続させることができるようにしたものである。
【０１６１】
すなわち、既述した実施例の場合、対話ジョブを単位として対話を実現させるものであったが、この第５実施例では、対話タスクＴｋそのものを、よりグローバルな対話を構成する要素であるとみなし、一度の通信では、対話タスク単位に送受信するが、受信側の装置で対話タスクが終了した時点で次の対話タスクが必要になると、それらを話の流れに従って自動的に連結することで、小さな複数の対話タスクによって対話を連続させるようにしたものである。
【０１６２】
これにより、１回の転送量を少なくすると共に、対話タスクを実現する際にアクセスされるメモリの容量も小さくできるようにした。すなわち、メモリの限度等を気にせずに音声対話を達成させることができる。また、この第５実施例のメリットは、例えば、相手方が次の対話ステップを望む場合にも対応できること、１個の対話シナリオの中に当該対話に必要と想定される全てのルーチンを網羅する必要はなくなり、これによって、対話シナリオの作成が容易になること、同時に不必要なルーチンを送信する損失が少なくなって大幅な通信コストの軽減が達成できること等が挙げられる。
【０１６３】
図１９は、同一の対話環境に係る複数の対話タスクの関係例を示すものである。言い換えると、複数の対話タスクの分岐及び連結の様相をマクロ的観点から示したものである。
【０１６４】
図１９においては、第１回目の通信で用いる第１番目の対話タスクをＴ11、第ｉ回目の通信における第ｊ番目の対話タスクをＴijとしている。また、分岐図における各々の対話タスクは白丸ノードで表されており、このノードを起点とした複数のノードへの分岐（リンク）を有する。対話タスクＴijが実行されると、その中の１個の分岐先ノードに至る分岐だけが選び出され、当該ノードと連結される。このとき、当該対話タスクＴijが終了してこの一連の対話タスク連結が完了するノードは、白四角で表されており、便宜上、このノードには「Ｅ」という完了を意味する対話タスク名が付与されている。なお、図１９で表された１個の分岐（リンク）は、実際の装置上においては、後述するように、１個の対話タスクが完了し、次に続く対話タスクが要求され、受信が完了する一連の動作に対応している。
【０１６５】
次に、図１９に示す対話タスクの分岐図を、具体的なある用途（勿論一例である）との関係で説明する。
【０１６６】
今、サービス提供者が、商品Ｘをある顧客に売り込むために一連の対話タスクを送信するという状況を考える。まず、サービス提供者は、商品Ｘに関する興味をサーチする対話タスクＴ11を顧客に送信し、当該対話タスクＴ11が実行された結果、顧客には商品Ｘに対する興味が全くなくこれ以上対話が進展しないときには、対話タスクＴ11は終了し、ノードＥに分岐する。すなわち、この一連の対話タスクは完了する。
【０１６７】
一方、顧客Ｂが商品Ｘに対して興味を持つと判断されたとき（例えば、対話タスクＴ11の進行により、対話タスクＴ11のある特定の分岐ルーチンに入ったときに相当）は、その興味の度合いや関心分野に応じて、それぞれ用意された特有の対話タスクＴ21又はＴ22に分岐する。また、興味を持つ可能性があると判断された場合には、その可能性の高低に従って、対話タスクＴ23又はＴ24に分岐する。ここで、対話タスクＴ21及びＴ22は積極的に商品Ｘを売込む対話タスクであり、対話タスクＴ23及びＴ24はまず顧客の関心を誘導しながら商品Ｘに対する関心を煽っていくための対話タスクである。
【０１６８】
対話タスクＴ21又はＴ22による対話の結果、惜しくも顧客が商品Ｘを購入しないということが決定した場合には、対話タスクＴ21又はＴ22はノードＥに分岐し完了する。逆に、商品Ｘを購入することが決定した場合には、商取引対話タスクＳに分岐し、商品Ｘの詳細な仕様、代金支払方法等を対話により決定する。
【０１６９】
また、対話タスクＴ23又はＴ24による対話をもってしても、顧客Ｂが商品Ｘに関心を持たなかった場合には、ノードＥに分岐し全対話タスクは完了する。逆に、顧客の潜在的な関心を呼ぶことができた場合には、今度はその関心の高さに応じて積極的に商品Ｘを売り込む対話タスクＴ31、Ｔ32、Ｔ33又はＴ34のいずれかに分岐する。対話タスクＴ31、Ｔ32、Ｔ33又はＴ34による勧誘をもってしても、顧客が商品Ｘを購入しないと答えた場合には、ノードＥに分岐し、一連の対話タスクは完了する。逆に、これらの対話タスクの勧誘による成果があり、顧客が商品Ｘを購入することを決定した場合には、商取引タスクＳに分岐し、商品Ｘの詳細な仕様、代金支払方法等を対話タスクＳによる対話によって決定する。
【０１７０】
これらのタスク分岐・連結の処理は、制御部１０１が、内部の通信手続きに関するプログラムや受信された対話タスク等に基づいて受信部１０９及び送信部１１０を起動させて相手装置との授受によって実行される。
【０１７１】
以上のような対話タスクの分岐・連結を実現するためには、受信された対話タスク等の中に対話の進展に応じて、次の対話タスクを指定し、対話タスクを送信した相手装置に対して、次の対話タスクを送信するよう要求する命令がなければならない。そこで、以下で、対話タスクの分岐・連結を実現する手段について説明する。
【０１７２】
第１実施例の説明において、対話シナリオを複数の対話ジョブで構成することが実際的であり、対話ジョブは一般的には図２に示すような構造を有するように形成されることを述べた。この第５実施例の場合、例えば、図２に示す構造の対話ジョブＫ等の他に、図２０に示すような構造の対話ジョブＬを用いて、対話シナリオを構成することによって、対話タスクの分岐・連結を実現する。
【０１７３】
以下、対話ジョブＬの各命令の実行を順を追って説明する。まず、合成文ＧL 出力命令によって、合成文ＧL が発音出力され、それに対する使用者Ｂの返答を待機する。使用者Ｂが返答すると、発声された音声は、音声認識実行命令に基づいて認識される。当該認識結果は、有り得る認識結果Ｂ1 、Ｂ2 、Ｂ3 、…、Ｂm のいずれかに分類され、ＳＷＩＴＣＨ（認識結果）の命令によって、分類された認識結果に各分岐先が指定される。
【０１７４】
例えば、認識結果がＢ1 の場合には対話ジョブＩ1 が実行される。この場合は、図２に示した対話ジョブＫと同様である。
【０１７５】
認識結果がＢ2 の場合には、合成文ＧM が発音出力された後、ＲＥＴＵＲＮ命令によって当該対話タスクＴijから抜け出る。つまり、この分岐は、一連の対話タスクの終了を意味し、合成文ＧM によって、使用者Ｂに終了する旨を知らせた後に終了するというものである。
【０１７６】
認識結果がＢ3 に分類されると、当該対話ジョブＬ、従って対話タスクＴijは終了するが、次に続く対話タスクＴ(i+1)1を送信側装置１００Ａに要求する。まず、要求する対話タスクに関する対話シナリオアドレスとしてＰ1 、対話データアドレスとしてＤ1 が与えられ、対話タスク・リクエスト命令によって、対話タスク要求命令及び両アドレスＰ１、Ｄ１が送信側装置１００Ａに向けて送信される（後述する図２１参照）。対話タスク要求命令を受信した送信側装置１００Ａでは、まず、受信データの対話シナリオアドレスＰ1 及び対話データアドレスＤ1 に基づいて、送信対話タスクメモリ１０８Ａから要求された対話シナリオ及び対話データをサーチし、それらが見い出されると、それぞれ対話シナリオメモリ１０２Ａ及び対話データメモリ１０３Ａにローディングされた後、送信部１１０Ａから対話の実行に係る音声情報通信装置１００Ｂに送信され、装置１００Ｂにおいて新たな対話タスクＴ(i+1)1が実行される。
【０１７７】
認識結果がＢ4 、…、Ｂm に分類されたときも同様に、対話シナリオアドレスＰ2 、…、Ｐ(m-2) 及び対話データアドレスＤ2 、…、Ｄ(m-2) で特定される対話タスクＴ(i+1)2、…、Ｔ(i+1)(m-2)が対話タスク・リクエスト命令によって要求され、認識結果がＢ3 のときとは異なる新たな対話タスクＴ(i+1)2、…、Ｔ(i+1)(m-2)との連結が実行される。
【０１７８】
以上のように、音声認識の結果に応じた分岐先に、次に続く対話タスクに関する対話シナリオアドレス、対話データアドレス及び対話タスク・リクエスト命令を与えることによって、対話タスクの連結が可能となり、対話相手（当該装置使用者）の反応に柔軟に対応した連結を実行できる。
【０１７９】
次に、対話タスクの分岐・連結機能を有する第５実施例の音声情報通信装置１００Ａ及び１００Ｂ間の通信手続き例を図２１を参照しながら説明する。図２１においては、上述した図３及び図１０との同一、対応処理には同一符号を付して示しており、また、紙面の都合上、情報等の詳細は省略している。
【０１８０】
ここでも、音声情報通信装置１００Ａの使用者Ａが送信者、音声情報通信装置１００Ｂの使用者Ｂが受信者である場合を想定している。また、音声対話環境を実現するタスクＴ１、Ｔ２、…、Ｔｎが用意されており、それぞれのタスクを実現する対話シナリオＳ１、Ｓ２…、Ｓｎ及び対話データＤ１、Ｄ２、…、Ｄｎが装置１００Ａの送信対話タスクメモリ１０８Ａに格納されているとする。使用者Ａは自らのメッセージを相手Ｂに伝えるようとするとき、まず、当該意思を伝達するのに最も適したタスクＴ11を実現する対話シナリオＳｋ及び対話データＤｋを送信対話タスクメモリ１０８から選び出しておく。
【０１８１】
このような対話タスクＴ11を、通信装置１００Ａから通信装置１００Ｂに転送する処理自体は、既述の実施例と同様であるので、その説明は省略する。
【０１８２】
音声情報通信装置１００Ｂの使用者Ｂは、対話タスクＴ11の受信メッセージに気付いたときに、対話タスクＴ11が受信されたことを認識し、受信された対話タスクＴ11を実行する（Ｔ１１２Ｂ）。
【０１８３】
すなわち、使用者Ｂが当該対話タスクＴ11を実行する命令を出すと、制御部１０１Ｂは、対話シナリオメモリ１０２Ｂ内の対話シナリオ（プログラム）Ｓ11を解読し、その命令に従って、例えば音声合成部１０６Ｂを起動させ、使用者Ｂに問いかける。この問いかけに対し、使用者Ｂが音声でもって答えた場合、音声認識部１０４Ｂはその音声を認識し、その認識結果を制御部１０１Ｂに伝達する。制御部１０１Ｂは、対話シナリオに記述された手続に従って、当該認識結果に基づいて、次の質問事項を選び出して音声合成出力する。また、必要に応じて対話データメモリ１０３Ｂに格納された知識データベース構成の対話データをサーチして、使用者Ｂからの質問に対する返答を音声合成出力する。
【０１８４】
以下、同様な処理が繰り返され、対話タスクＴ11に基づく送信者Ａ及び受信者Ｂ間の音声対話が実現される。
【０１８５】
このような対話タスクＴ11の実行時には、対話履歴管理部１１４Ｂによる対話履歴の管理が行なわれ、コンパクトな表現の対話履歴データに変換され、この対話履歴データが対話履歴管理部１１４Ｂの内蔵バッファに一時的に格納される（Ｔ１１３Ｂ、Ｔ１１４Ｂ）。
【０１８６】
対話タスクＴ11による対話が進展し、図２０に示したような対話ジョブＬに分岐した場合において、使用者Ｂの返答の認識結果が、Ｂ3 、…、ＢM 等に分類されたときは、対話タスク・リクエストとなる（Ｔ１２０ＳＢ、Ｔ１２０ＲＡ）。対話タスク・リクエストでは、まず、対話タスク・リクエスト命令ＲＥＱ１が送信部１１０Ｂから対向装置１００Ａの受信部１０９Ａに向けて発せられ、その後、要求する対話シナリオアドレスＲＥＱ２及び対話データアドレスＲＥＱ３が伝達される。
【０１８７】
対話タスク・リクエストを受信した装置１００Ａでは、まず、送信対話タスクメモリ１０８Ａの中から、要求された対話シナリオ及び対話データをサーチし、それぞれを対話シナリオメモリ１０２Ａ及び対話データメモリ１０３Ａにローディングして送信の準備をする（Ｔ１２１Ａ、Ｔ１２２Ａ）。
【０１８８】
この音声情報通信装置１００Ａの制御部１０１Ａは、既に送られてきている上述した装置１００Ｂについての管理情報ＡＤＭを継続して内部メモリに保持しており、新たな対話タスクＴ2xについて、要求された対話シナリオ及び対話データのデータ量に基づいてた送信可能性のチェック（Ｔ１０３Ａ）から処理を繰り返す。ここで、送信可能性チェックは、例えば、今現在装置１００Ｂのメモリ１０２Ｂ、１０３Ｂに存在している対話シナリオＳ11、対話データＤ11等が２度と使われない場合は、これらを消去して残ったメモリ量が、これから送信するデータ量を越えているか否かによって判断される。例えば、タスク分岐・連結が図１８のように後戻りせず、各ノードが全て異なっているような場合には上記のようなチェックで良い。これに対して、図１９にような分岐構造でなく、フィードバックループを含むような場合には、すなわち、一度送信した対話タスクが再度用いられる可能性があるときは、この送信可能性チェックは、装置１００Ｂ側において対話シナリオ等が消去されていないときの残ったメモリ容量に基づいて判断される。
【０１８９】
従って、音声情報通信装置１００Ｂの使用者Ｂは、次には新たな対話タスクＴ2xによる対話を行なうことになる。
【０１９０】
ここで、対話タスクＴ2xによる対話が進展し、図２０に示したような対話ジョブＬに分岐し、使用者Ｂの返答の認識結果が例えばＢ2 に分類されたとする。このときには、合成文ＧM によって、対話終了の旨が使用者Ｂに通知されて、一連の対話タスクは当該対話タスクＴ2xをもって完了する（Ｔ１３０Ｂ）。対話履歴管理部１１４Ｂは、対話が完了すると、制御部１０１Ｂの命令によって、対話履歴データを送信部１１０Ｂに転送して対向する音声情報通信装置１００Ａに送信させる（Ｔ１１５Ｂ）。
【０１９１】
音声情報通信装置１００Ａにおいては、受信部１０９Ａで受信したデータが対話履歴データであることを識別すると、それを対話履歴メモリ１１５Ａに転送し、対話履歴メモリ１１５Ａに全ての対話履歴データが転送されると、対話履歴の受信処理が完了し、その使用者Ａに対話履歴データを受信したことを示すＬＥＤに対する点灯等の表示を行なう（Ｔ１１６Ａ）。使用者Ａが、その受信表示を見て対話履歴の表示を制御部１０１Ａに対して要求すると、制御部１０１Ａは、対話履歴メモリ１１５Ａのデータに基づいて、対向する音声情報通信装置１００Ｂにおける対話履歴を使用者Ａに提供する（Ｔ１１７Ａ）。
【０１９２】
この第５実施例においても、対話履歴データのデータ構造として、上述した図１１、図１２又は図１３のいずれをも適用可能である。なお、図１３に示すデータ構造を採用した場合において、対話ジョブのアドレスが対話シナリオ（その対話タスク）中の相対アドレスで与えられるものであると、連結された新たなタスクでは、合成文を一意に規定できない。このときには、対話ジョブのアドレスは、当該対話タスクを、連結された他のシナリオと区別するための番号と当該相対アドレスのペアからなっていることを要する。
【０１９３】
対話履歴データを受信した音声情報通信装置１００Ａにおいて、対話履歴を使用者Ａに提供する方法としても、第４実施例について説明した(1) 〜(4) の提供方法を適用することができる。
【０１９４】
この第５実施例の場合、さらに、(5) 連結対話の主要な結果を手短に要約して出力するという方法を適用しても良い。
【０１９５】
一般に、対話タスクの送信側の装置使用者Ａが最終的に知りたいのは対話の結論であるから、時間的に余裕がないときは、その部分だけを抜き取って出力する方法がある。その際に、途中経過を含めて知りたいときに対応できるようにしたのが提供方法(5) であり、連結された各対話タスク毎の結論を順次出力するものである。
【０１９６】
図２２は、この提供方法(5) を実現するために制御部１０１Ａが実行する処理を示したフローチャートである。
【０１９７】
制御部１０１Ａは、当該装置１００Ａの使用者Ａがキーボード等の入力装置によって、提供方法(5) を指示したときに、図２２に示す処理を開始し、まず、受信した対話履歴データの中から、未処理状態の最も速い時期に対話が実行された対話タスクにおける、対話者Ｂの最終の返答情報を取出す（ステップＳ１９０Ａ）。そして、その対話タスクに応じて定まっている定型文の空きスペースに、その返答情報を挿入し、発音又は表示出力させる（ステップＳ１９１Ａ）。
【０１９８】
ここで、対話履歴データのデータ構造が図１１に示すものであれば、対話タスクに応じて定まっている定型文の空きスペースに音声認識コードをそのまま挿入し、データ構造が図１２や図１３に示すものであれば、アドレスや返答分類等の返答情報をキャラクタコード等に変換して対話タスクに応じて定まっている定型文の空きスペースに音声認識コードを挿入する。より具体的な方法例としては、対話タスクの結論に係わる対話ジョブを予め選び出し、その認識結果の分類項目毎に結論出力用の定型文を対応させておいて、対話履歴データの中で当該対話ジョブがあったときに、その認識結果の分類番号からそれに対応する定型文を認識結果コード番号列で補いながら出力するという方法を挙げることができる。
【０１９９】
このようにして連結されている複数の対話タスクの１個について、その結論情報を出力すると、直前に結論情報を出力した対話タスクが連結されている中の最終のものか否かを確認し（ステップＳ１９２Ａ）、肯定結果を得た場合には上述したステップＳ１９０Ａに戻って次の対話タスクを出力処理対象とし、否定結果を得た場合には、一連の対話履歴の提供処理を終了する。
【０２００】
対話タスクを連結可能に形成する場合、ある意図をもって、対話タスクを分けている。例えば、装置１００Ｂの使用者Ｂはどの程度商品Ｘに関心があるのか、勧誘の結果どの程度関心が高まったのか、使用者Ｂは商品Ｘを購入するのか、使用者Ｂはどのような方法で購入するのかといったような各観点の結論を、各対話タスクの処理で得られるように、観点毎に対話タスクが形成されている。従って、各対話タスク毎に結論出力用の定型文を用意することができる。例えば、「対話者の商品Ｘについての関心度はＸＸＸです。」といった定型文を用意しておき、認識分類項目及び認識結果等からＸＸＸに当てはまる語を判断し、出力すれば良い。なお、対話者が定まっている場合等には、相手方の名前を定型文に挿入するようにしても良い。
【０２０１】
従って、上記第５実施例によれば、第１、第４実施例と同様な効果に加えて、同一の対話環境を実現するものとして複数の対話タスクを用意し、それらを話の流れに従って自動的に連結するようにしたので、１回の転送量を少なくでき、対話タスクを実現する際にアクセスされるメモリの容量も小さくでき、メモリの限度を気にせずに音声対話を達成できると共に、対話タスクの作成を容易にでき、同時に不必要なルーチンを送信する損失が少なくなって大幅な通信コストの軽減が達成できる。
【０２０２】
この第５実施例の実社会上の有効な利用例としては、第４実施例と同様な商品Ｘの売り込み営業を挙げることができる。第５実施例の場合には、顧客Ｂの対応に応じた次の対話タスクをサービス提供者が手動によって選択するのではなく、対話タスクの分岐・連結情報に応じて自動的に選択される。
【０２０３】
（Ｆ）他の実施例
本発明は、上述した第１〜第５実施例に限定されるものでなく、種々の変形が可能なものであり、変形実施例をいくつか例示すると、以下のものを挙げることができる。
【０２０４】
(1) 通信手続やデータフォーマットや動作シーケンス等は、上記実施例のものに限定されず、対話シナリオや対話データ等の送受信や条件設定が、上記実施例と同一の効果をもたらす範囲内であれば任意好適に設定できる。
【０２０５】
(2) 第２実施例や第３実施例に関連して、音声認識辞書の切り換え又は編集作業を、送信側が受信側から受け取った管理情報から判断して受信側に命令するものであっても良い。また、受信側の制御部が送信側の対話タスクパラメータより判断して行なってもよい。
【０２０６】
(3) 対話タスク（対話シナリオ及び対話データ）の送信方法に関しても、電話回線、イーサネット、電磁波等によるもの以外であっても良く、また、データの種類に応じて回線等が複数あっても良い。さらに受信データの識別に関しても、受信された順番（アドレス）によって決められる方法以外であっても良く、例えば、異なる回線、周波数を用いることも可能である。
【０２０７】
(4) 上記実施例においては、いくつかのメモリが必要であるが、これを１個のメモリで代替させ、アドレス指定でもってデータを指定するというようにもできる。
【０２０８】
(5) 対話シナリオの中に対話データが予め実装されている形式であっても良い。すなわち、対話シナリオと対話データとを融合した（分離できない）対話タスクであっても良い。
【０２０９】
(6) 対話実行者（Ｂ）への質問提示を、音声合成のみならず、ディスプレイ上への文字、画像等の表示によっても行なうようにし、受信者への伝達情報をより豊かにして楽しい音声対話環境を実現することができる。また、音声認識機能を補う意味でキーボードやマウスによる入力も考えられる。
【０２１０】
(7) 上記実施例では送信者が主で受信者が従の関係であったが、その逆の関係又は互いに平等の関係においても、音声対話が実現できることはいうまでもない。対話タスクを欲する者が主導権をとって対話タスクの通信を実行するようにしても良い。この場合には、対話タスク自体は送信側に予め格納されているが、対話タスクの種類情報等を受信側に設けておいたり、対話タスクの送信に先立って種類情報だけを転送させたりすることを要する。
【０２１１】
(8) 上記実施例においては、送信者の音声情報通信装置と、受信者の音声情報通信装置とが同等のものを示したが、必ずしも同等である必要はない。すなわち、送信側装置が、少なくとも対話タスクの送信構成を備え、受信側装置が、少なくとも対話タスクの受信構成と対話実行構成とを備えていれば良い。
【０２１２】
(9) 第５実施例においては、対話タスクの自動連結と、対話履歴の返送との両機能を実現できるものを示したが、対話タスクの自動連結機能と、対話履歴の返送機能とは一体不可分なものではなく、対話タスクの自動連結機能だけを実現するものであっても良い。
【０２１３】
【発明の効果】
以上のように、本発明の音声情報通信システムにおいては、送信者は、音声対話環境を実現できる詳細な手続等を記述した対話タスクを受信者に送信し、受信者が適当なタイミングで受信した装置上で対話タスクに基づいて送信者と対話できるので、受信者が通信時に不在であったり、伝送遅延時間が大きい遠隔地に居る場合でもかなり詳細な対話を行なうことができ、また、対話を行なう時刻や信号の伝送時間等の制約を受けることが少なくなり、しかも、相手の返答に応じて自分の意思を伝達することができる。
【図面の簡単な説明】
【図１】第１実施例の構成を示すブロック図である。
【図２】対話シナリオの構成単位である対話ジョブの構成例を示す説明図（その１）である。
【図３】第１実施例の通信シーケンス図である。
【図４】第１実施例の制御部の通信処理を示すフローチャート（その１）である。
【図５】第１実施例の制御部の通信処理を示すフローチャート（その２）である。
【図６】第１実施例の制御部の通信処理を示すフローチャート（その３）である。
【図７】第２実施例の構成を示すブロック図である。
【図８】第３実施例の構成を示すブロック図である。
【図９】第４実施例の構成を示すブロック図である。
【図１０】第４実施例の通信シーケンス図である。
【図１１】対話履歴データの構造例を示す説明図（その１）である。
【図１２】対話履歴データの構造例を示す説明図（その２）である。
【図１３】対話履歴データの構造例を示す説明図（その３）である。
【図１４】対話履歴の外部への提供方法を示すフローチャート（その１）である。
【図１５】対話履歴の外部への提供方法を示すフローチャート（その２）である。
【図１６】対話履歴の外部への提供方法を示すフローチャート（その３）である。
【図１７】対話履歴の外部への提供方法を示すフローチャート（その４）である。
【図１８】第５実施例の構成を示すブロック図である。
【図１９】対話タスクの分離・連結構造の説明図である。
【図２０】対話シナリオの構成単位である対話ジョブの構成例を示す説明図（その２）である。
【図２１】第５実施例の通信シーケンス図である。
【図２２】対話履歴の外部への提供方法を示すフローチャート（その５）である。
【符号の説明】
１００Ａ、１００Ｂ…音声情報通信装置、１０１…制御部、１０２…対話シナリオメモリ、１０３…対話データメモリ、１０４…音声認識部、１０５…音声認識辞書、１０６…音声合成部、１０７…音声合成データメモリ、１０８…送信対話タスクメモリ、１０９…受信部、１１０…送信部、１１１…辞書メモリ、１１２…辞書選択編集部、１１４…対話履歴管理部、１１５…対話履歴メモリ、１１６…対話履歴提供用知識ベース、１２０…伝送路。

Claims

第１及び第２の音声情報通信装置が伝送路を介して接続されており、
上記第１の音声情報通信装置が、
上記第２の音声情報通信装置に、所定内容の合成文の発音出力命令と使用者の音声認識実行命令と使用者の音声認識結果に応じて異なる内容を出力させるための複数の対話ジョブとから構成される対話シナリオと、音声対話を実現する上で必要な対話データとでなる予め形成されている複数の対話タスクを格納している送信用対話タスク記憶手段と、
上記第２の音声情報通信装置との通信動作を実行する第１の通信手段と、
上記第１の通信手段による通信動作や、上記送信用対話タスク記憶手段からの送信する対話タスクの取出し動作を制御する第１の制御手段とを備え、
上記第２の音声情報通信装置が、
上記第１の音声情報通信装置との通信動作を実行する第２の通信手段と、
上記第１の音声情報通信装置から送信されてきた対話タスクを記憶する受信対話タスク記憶手段と、
上記第２の通信手段による通信動作を制御すると共に、上記受信対話タスク記憶手段に記憶されている対話タスクの上記発音出力命令及び上記音声認識実行命令に従って、所定内容の合成文の発音出力及び音声認識を制御する第２の制御手段と、
上記第２の制御手段の制御により、当該装置使用者の発音音声を捕捉し、その発音音声の意味内容を所定方式に従って認識する音声認識手段と、
上記第２の制御手段から与えられる、所定内容の合成文を発音出力する音声合成手段とを備え、
上記送信用対話タスク記憶手段は、他の対話タスクに分岐、連結する分岐、連結対話ジョブを、対話シナリオの構成としてもつ対話タスクを記憶し、上記第１の制御手段は、指定された対話タスクを上記第１の通信手段によって、上記第２の音声情報通信装置に送信させ、
上記第２の制御手段は、上記音声認識手段による認識結果と対応する対話ジョブを選出し、その選出した対話ジョブに従って予め設定された合成文を上記音声合成手段に発音出力させるが、上記認識結果に応じて選出した対話ジョブが上記分岐、対話ジョブである場合には、当該対話タスクの実行を終了し、上記分岐、連結対話ジョブに設定されている対話タスクを次に実行すべき対話タスクとして、上記第２の通信手段を介して上記第１の音声情報通信装置に要求する
ことを特徴とする音声情報通信システム。