JP3844367B2 - 音声情報通信システム - Google Patents

音声情報通信システム Download PDF

Info

Publication number
JP3844367B2
JP3844367B2 JP10302194A JP10302194A JP3844367B2 JP 3844367 B2 JP3844367 B2 JP 3844367B2 JP 10302194 A JP10302194 A JP 10302194A JP 10302194 A JP10302194 A JP 10302194A JP 3844367 B2 JP3844367 B2 JP 3844367B2
Authority
JP
Japan
Prior art keywords
dialogue
dialog
task
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10302194A
Other languages
English (en)
Other versions
JPH07311671A (ja
Inventor
徹 宮前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10302194A priority Critical patent/JP3844367B2/ja
Publication of JPH07311671A publication Critical patent/JPH07311671A/ja
Application granted granted Critical
Publication of JP3844367B2 publication Critical patent/JP3844367B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【産業上の利用分野】
本発明は音声情報通信システムに関し、特に、ある者が音声を媒介として遠隔地の相手と間接的にコミュニケーションを行なうことができる装置に関するものである。
【0002】
【従来の技術】
従来、相手と直接的なコミュニケーションを行なうことなく、音声を媒介として自らのメッセージを伝達する通信システムとしては、音声メール、留守番電話、電話自動サービス等があった。
【0003】
音声メールは、通信ネットワークで結ばれた端末間等で音声データを伝送し、合成音声でもって、送信者の意思を伝達しようとしたものである。留守番電話は、被呼者が不在の旨を予め録音した音声又は合成音声でもって発呼者に伝達しようとしたものであり、また、発呼者が用件等のメッセージを記録媒体に録音させることで被呼者に伝達しようとしたものである。電話自動サービスは、顧客が所定の電話回線を通じて当該サービスに入ってきたときに、音声認識、音声合成技術を使用することにより、限定されたタスクの自動化(例えば、情報提供や自動商品取引等)を実現しようとしうものである。
【0004】
【発明が解決しようとする課題】
しかしながら、音声メールや留守番電話等の伝達方法は、自らの意思を伝達しようとする際に相手方の意思を無視した一方通行の伝達方法であって、必ずしもヒューマンインタフェースに優れたものとは言い難い。しかも、その伝達内容は、相手が誰であるかやどんな用件であるかもわからないでなされる場合には最大公約数的なものとなり、また、相手等がわかっていても機械や装置に一方通行的に発音することの抵抗感からその伝達内容は薄いものとなり易い。すなわち、一度の通信で意思疎通できる情報の量は少ない。
【0005】
一方、自動商品取引等の自動電話サービスにおいては、顧客の意思を聞き出すことができるが、サービス提供者のお仕着せの画一的なタスクに限定されており、双方向的なコミュニケーションによる微妙な意思の伝達といった点で十分ではない。また、顧客が電話をしなければならないとサービスに入れないというように、通信の起動元に制限があった。
【0006】
【課題を解決するための手段】
かかる課題を解決するため、本発明の音声情報通信システムにおいては、伝送路を介して接続されている第1及び第2の音声情報通信装置がそれぞれ、以下の各手段を備えることを特徴とする。
【0007】
すなわち、第1の音声情報通信装置は、(a)第2の音声情報通信装置に、所定内容の合成文の発音出力命令と使用者の音声認識実行命令と使用者の音声認識結果に応じて異なる内容を出力させるための複数の対話ジョブとから構成される対話シナリオと、音声対話を実現する上で必要な対話データとでなる予め形成されている複数の対話タスクを格納している送信用対話タスク記憶手段と、(b)第2の音声情報通信装置との通信動作を実行する第1の通信手段と、(c)第1の通信手段による通信動作や、送信用対話タスク記憶手段からの送信する対話タスクの取出し動作を制御する第1の制御手段とを備え、送信用対話タスク記憶手段は、他の対話タスクに分岐、連結する分岐、連結対話ジョブを、対話シナリオの構成としてもつ対話タスクを記憶し、第1の制御手段は、指定された対話タスクを第1の通信手段によって、第2の音声情報通信装置に送信させる。
【0008】
また、第2の音声情報通信装置は、(A)第1の音声情報通信装置との通信動作を実行する第2の通信手段と、(B)第1の音声情報通信装置から送信されてきた対話タスクを記憶する受信対話タスク記憶手段と、(C)第2の通信手段による通信動作を制御すると共に、上記受信対話タスク記憶手段に記憶されている対話タスクの発音出力命令及び音声認識実行命令に従って、所定内容の合成文の発音出力及び音声認識を制御する第2の制御手段と、(D)第2の制御手段の制御により、当該装置使用者の発音音声を捕捉し、その発音音声の意味内容を所定方式に従って認識する音声認識手段と、(E)第2の制御手段から与えられる、所定内容の合成文を発音出力する音声合成手段とを備え、第2の制御手段が、音声認識手段による認識結果と対応する対話ジョブを選出し、その選出した対話ジョブに従って予め設定された合成文を音声合成手段に発音出力させるが、認識結果に応じて選出した対話ジョブが分岐、対話ジョブである場合には、当該対話タスクの実行を終了し、分岐、連結対話ジョブに設定されている対話タスクを次に実行すべき対話タスクとして、第2の通信手段を介して第1の音声情報通信装置に要求する
【0011】
【作用】
発明の音声情報通信システムにおいて、第1の音声情報通信装置における第1の制御手段は、送信用対話タスク記憶手段に記憶されている複数の対話タスクの中から指定された対話タスクを、第1の通信手段によって第2の音声情報通信装置に送信させる。このとき、第2の音声情報通信装置においては、第2の通信手段がこの対話タスクを受信し、第2の制御手段による制御下で、この対話タスクが受信対話タスク記憶手段に記憶される。第2の音声情報通信装置の使用者が、対話タスクの実行を起動すると、第2の制御手段は、記憶されている対話タスクに従いながら、音声合成手段から所定文を発音出力させ、それに応じて使用者が発音した音声の認識結果を音声認識手段から取り込んで発音出力させる次の所定文を決定したりするなどして、対話を実行させる。
【0012】
これにより、送信者は、音声対話環境を実現できる詳細な手続等が記述された対話タスクを受信者に送信し、受信者が適当なタイミングでそれらに基づいて送信者と対話できるので、受信者が通信時に不在な場合でも、かなり詳細な対話を行なうことができるようになる。また、対話タスクを送受信して受信した装置上で対話を実行させるので、対話を行なう時刻や信号の伝送時間等の制約を受けることが少なくなる。
【0014】
【実施例】
(A)第1実施例
以下、本発明による音声情報通信システムの第1実施例を図面を参照しながら詳述する。ここで、図1がこの第1実施例の音声情報通信システムの構成を示すブロック図である。
【0015】
なお、この音声情報通信システムの通信端末としての音声情報通信装置は、電話機やワークステーション等の既存の通信機能を備えた装置の一機能要素として実現されても良く、また、専用装置として実現されても良く、構成を機能的に示すと図1の通りである。電話機やワークステーション等の既存の通信機能を備えた装置の一機能要素として実現された場合には、図示は省略するが、送信者から受信者に、電話機能や電子メール機能としての音声データやキャラクタコード等を送信することも当然に可能である。
【0016】
この音声情報通信システムは、送信者が通信相手に対して、通信時点において通信相手が不在であっても対話形式でメッセージを与えることができ、また、受信者が通信相手から、通信相手の存在、不在に拘らず対話形式でメッセージを受取ったりできるようにしたものである。
【0017】
図1は、2個の音声情報通信装置100A及び100Bが伝送路120を介して接続されている状態を示している。音声情報通信システムは、伝送路120を介して接続される2個の音声情報通信装置100A及び100Bが同様の構成のものであることは必要ではないが、第1〜第5実施例の説明においては、同様なものとする。
【0018】
この第1実施例に係る音声情報通信装置100(100A、100B)は、一方の装置100Aについて詳細に示しているように、制御部101、対話シナリオメモリ102、対話データメモリ103、音声認識部104、音声認識辞書105、音声合成部106、音声合成データメモリ107、送信対話タスクメモリ108、受信部109及び送信部110から構成されている。なお、以下の説明において、装置100A又は100B内における構成要素であることを明らかにしたい場合には、上述した符号末尾にさらに符号「A」又は「B」を付与して区別させることとする。例えば、制御部101Aは音声情報通信装置100Aの制御部を表す。
【0019】
制御部101は、CPUや主メモリ等を備えてなる当該装置全体の制御を司るものであり、ここでは、さらに、音声以外のマンマシンインタフェース構成(キーボードやディスプレイ等)をも含んでいる。制御部101の処理、機能については図4〜図6のフローチャートで示しており、後述する通信シーケンスの説明において明らかにする。
【0020】
対話シナリオメモリ102は、対話シナリオを記憶するものであり、対話データメモリ103は対話データを記憶するものであり、これら両メモリ102及び103は、その動作モードに応じて、送信するものを記憶したり、受信したものも記憶したりする。
【0021】
ここで、対話シナリオとは、音声認識及び音声合成機能を用いて、当該装置(受信時)又は対向装置(送信時)における音声対話環境を実現させるための手続きを記述したもの(例えばプログラム)であり、一方、対話データとは、音声対話を実現する上で必要となる知識やデータであり、例えば発話文(例えば質問)に対する相手方の返答文(例えば答え)の意味内容をサーチするために必要なデータベース化されている知識データ等である。
【0022】
音声認識部104は、マイクロフォン等の音声捕捉手段を含めたものであり、利用者が発音した音声内容を、音声認識辞書105に格納されている基準情報(基準の特徴パラメータ)を用いて認識するものである。その音声認識方法は、周知のいずれのものも適用可能であり、不特定話者用のものであっても特定話者用のものであっても良い。認識された内容は制御部101に与えられ、例えばこの制御部101の制御下で、対話データメモリ103の格納データに基づいて意味内容が認識され、装置から次に発音出力する文章の決定に利用される。
【0023】
音声合成部106は、スピーカ等の発音手段をも含めたものであり、利用者に所定内容(合成文)を発音出力して認識させるものである。音声合成部106は、制御部101から与えられた発音指令(例えばテキストデータや音韻・韻律データ)に応じ、音声合成データメモリ107に格納されている音声合成データ(例えば音声素片データ)を利用して音声信号を合成し、音声を発音出力させる。
【0024】
送信対話タスクメモリ108は、対話シナリオ及び対話データの組でなる、ある主題や話題についての音声対話環境を実現する対話タスクを1又は2以上格納しているものである。この第1実施例の場合、送信対話タスクメモリ108に格納されている対話タスクは対向装置に送信されるだけであり、当該装置において用いられることはない。なお、送信時には、対話シナリオ及び対話データは対話シナリオメモリ102及び対話データメモリ103に分けて格納される。
【0025】
受信部109は、伝送路120を介して与えられた対向装置からのデータを受信するものであり、一方、送信部110は、所定データを伝送路120を介して対向装置に送信するものである。受信部109は、制御部101の制御下で、受信データが対話シナリオであれば対話シナリオメモリ102に格納させ、受信データが対話データであれば対話データメモリ103に格納させ、受信データがそれ以外であれば制御部101に与える。
【0026】
ここでの伝送路120は、両音声情報通信装置100A及び100B間を結ぶ通信媒体となる部分の総称であり、通信ネットワーク回線等である。すなわち、無線・有線や、ネットワークの規模や、ネットワークの形式(バス型、リング型、…)等はいずれであっても良い。
【0027】
図2は、対話シナリオの構成単位である対話ジョブ構造の一例を示す説明図である。以下、対話ジョブ構造を説明することを通じて、対話シナリオの構造(従って対話タスクの構造)も説明する。
【0028】
ある音声対話タスクを実現するための対話シナリオは、1文毎の簡単な対話(単位対話)を実現するための対話ジョブが複数集まって構成されている。そして、各対話ジョブの中には、認識結果に応じて、それぞれ異なる他の対話ジョブに分岐する命令を存在させる。図2は、一般的な対話ジョブKのプログラム構造を示している。対話ジョブKは、対話タスクTkを構成する対話ジョブの1個である。
【0029】
図2において、この対話ジョブKは、以下のように実行することを記述したものである。
【0030】
「合成文Gk出力命令」は、音声合成部106を駆動させて、装置使用者Bに対して合成文Gkを発音出力させる命令である。「音声認識実行命令」は、音声認識部104に音声認識処理を実行させる命令であり、又は、音声認識した後に意味内容を把握させる命令である。「SWITCH(認識結果)」は、認識結果(意味内容)に応じた次の対話ジョブに分岐させるものである。
【0031】
従って、この対話ジョブKは、合成文Gkを発音出力させた後、音声認識処理を実行させ、その認識結果がN1 、N2 、…、又はNm であれば、対話ジョブJ1 、J2 、…、又はJmに分岐し、認識結果(意味内容)が予測外のものや認識不可能のもの(DEFAULT)であれば、聞き返しジョブを実行した後、再び当該対話ジョブKを実行することを内容とするものである。
【0032】
なお、ここでは、対話ジョブKを無限回繰り返すループが存在することになるが、回数制限を設けることによってこれを回避することができる。
【0033】
次に、図1に加えて図3、図4〜図6をも参照しながら、通信シーケンス例を説明し、合わせて装置内の各部構成要素(特に制御部101)の動作も明らかにする。なお、制御部101の動作を単独で説明することは省略する。
【0034】
ここで、図3は、音声情報通信装置100Aが送信側、音声情報通信装置100Bが受信側である場合のシーケンス図であり、図4〜図6は制御部101A又は101Bの動作フローチャートである。なお、以下の説明において、制御部101A又は101Bの動作を区別したい場合には、動作を表す図4〜図6における符号末尾にさらに符号「A」又は「B」を付与している。
【0035】
音声情報通信装置100Aの使用者Aがある音声対話タスクTkを通じて、自らのメッセージを音声情報通信装置100Bの使用者Bに伝えたい場合、先ず、キーボード等を通じて対話タスクTkを音声情報通信装置100Bに送信したい旨を当該音声情報通信装置100Aに指示する(S100A、S102A)。
【0036】
このとき、音声情報通信装置100Aにおいては、制御部101Aが、送信部110Aを駆動して、音声情報通信装置100Bを宛先とした管理情報の送信督促命令を送信させる(T100:S103A)。この管理情報の送信督促命令には、返送のために当該音声情報通信装置100Aを特定する情報(アドレス)が挿入されている。なお、ここでは、図1に示した2個の音声情報通信装置以外の装置も接続されたネットワークを前提としている。
【0037】
管理情報の送信督促命令を受信した音声情報通信装置100Bの受信部109Bにおいては、例えば受信データの所定位置に記載された命令かデータの別を示す信号種類情報を読取り、それが命令(管理情報の送信督促命令)であるので、受信データを制御部101Bに直接転送する(S100B、S101B、S105B)。制御部101Bは、当該受信データを解読し、内蔵する内部の主メモリに格納されている管理情報と、受信データに挿入されていた音声情報通信装置100Aのアドレスを送信部110Bに転送して送信させる(T101:S106B、S107B)。このとき、送信部110Bは、ネットワーク上の音声情報通信装置100Aのアドレスから音声情報通信装置100Aをサーチし、当該音声情報通信装置100Bに音声情報通信装置100Aを接続させ、音声情報通信装置101Aの受信部109Aへ管理情報を送信する(T102)。
【0038】
ここで、管理情報ADMとは、対話シナリオメモリ102Bの空き容量ADM1、対話データメモリ103Bの空き容量ADM2、音声対話環境管理情報ADM3等である。音声対話環境管理情報ADM3は、当該装置100Bにおいて実現し得る音声対話環境の範囲を規定する情報であって、主として音声認識辞書情報ADM3−1及び音声合成データ情報ADM3−2からなっている。音声認識辞書情報ADM3−1とは、音声認識辞書105Bに登録されている認識理解可能な単語カテゴリ(例えば専門分野)や文章等を規定している情報であり、音声合成データ情報ADM3−2とは、音声合成データメモリ107Bに登録されている音声合成データの属性(例えば、男女別、日本語英語等の言語種類)や、合成可能な範囲や、データの有無といった情報等である。
【0039】
図3におけるシーケンス例は、以上から明らかなように、音声情報通信装置100A、100B、…毎に、実現できる音声対話環境が異なっていることを前提としている。
【0040】
管理情報の送信督促命令を送信した音声情報通信装置100Aの受信部109Aにおいては、音声情報通信装置100Bの管理情報ADMを受信すると、直ちに制御部101Aへ転送し、これにより、制御部101Aは、対話シナリオメモリ102Bの空き容量ADM1と当該対話タスクTkの対話シナリオSkの大きさとを比較し、また対話データメモリ103Bの空き容量ADM2と当該対話タスクTkの対話データDkの大きさとを比較して、対話シナリオSk及び対話データDkが送信可能であるか否かをチェックする(T103:S104A、S110A)。すなわち、対話シナリオメモリ102Bの空き容量ADM1が対話シナリオSkの大きさ以上であり、かつ、対話データメモリ103Bの空き容量ADM2が対話データDkの大きさ以上であれば送信可能と判断し、これ以外の場合には送信不可能とする。
【0041】
さらに、音声認識辞書情報ADM3−1に基づいて、当該対話タスクTkに出現する単語や文章が対向する装置100Bの音声認識部104Bにおいて認識・理解可能であるか否かが制御部101Aによって判断され、また、音声合成データ情報ADM3−2に基づいて当該対話タスクTkによる音声合成出力が適正になされるか否かが制御部101Aによって判断される(T104:S111A)。すなわち、対話タスクTkの実現可能性がチェックされる。
【0042】
以上のチェックT103及びT104によって、送信可能であり、かつ、対話タスクTkが実現可能であると判断されたときのみ、以下のような対話シナリオSk及び対話データDkの一連の送信動作が行なわれる。なお、チェックの結果、通信を途中で終了させることとなった場合は、一般的な通信装置と同様な処理により行なう(S112A)。
【0043】
容量面から音声情報通信装置100Bへの送信が可能であって、かつ、音声情報通信装置100Bが対話タスクTkを実現可能であると判断すると、制御部101Aは、まず、以下のような送信準備を行なう(T105:S113A)。
【0044】
制御部101Aは、送信データの区分を示す一定フォーマットのタスクデータ管理情報TDA及び対話タスクTkを管理する上で必要となる対話タスクパラメータTPRを形成する。より詳述すると、タスクデータ管理情報TDAは、送信データのどこにどの情報が入っているかを示すものであって、これから音声情報通信装置100Bに送信するデータのアドレス等から構成される。すなわち、対話タスクパラメータアドレスTDA1、対話シナリオアドレスTDA2及び対話データアドレスTDA3から構成される。一方、対話タスクパラメータTPRは、音声情報通信装置100Bから送られてきた音声対話環境管理情報ADM3に基づいて、対話タスクTkを実現する上で最適なパラメータを音声情報通信装置100Bの制御部101Bに対して指定するものである。
【0045】
かかるタスクデータ管理情報TDA及び対話タスクパラメータTPRの形成時には、それぞれのデータの大きさ、すなわち、タスクデータバイト数BYT2及び対話タスクパラメータバイト数BYT3が求められる。また、対話シナリオSkのバイト数BYT4、対話データのバイト数BYT5も求められる。さらに、各バイト数BYT2〜BYT5から送信データ全体のバイト数BYT1が求められる。
【0046】
以上のような送信準備によって得られた送信データのバイト数情報BYTが、送信部110Aから音声情報通信装置100Bの受信部109Bへ送信される(T106:S114A)。
【0047】
音声情報通信装置100Bにおいて、送信データのバイト数BYTが受信部109Bを介して与えられた制御部101Bは、これにより、各メモリのスペースの確保等の受信準備を行なう(T107:S118B、S119B)。各メモリのスペースの確保とは、メモリ上のファイルを1箇所にまとめたり、他メモリに退避させる等の処置である。このような受信準備が完了したら、音声情報通信装置100Bの制御部101Bは送信部110Bを駆動して、音声情報通信装置100Aに対して受信準備OK信号を返信する(T108:S120B)。
【0048】
音声情報通信装置100Aにおいて、受信部109Aを介して受信準備OK信号が与えられた制御部101Aは、対話タスクTkを音声情報通信装置100Bにおいて実現するため必要となる全データの送信を開始させ、順次そのデータを送信部110Aから送信させる(T109A:S115A、S116A)。
【0049】
このデータ送信時には制御部101Aは以下のように動作する。まず、制御部101Aは、上述ようにして生成したタスクデータ管理情報TDA(制御部101Aの内蔵メモリに格納されている)を送信部110Aに転送し、送信部110Aより伝送路120を介して音声情報通信装置100Bの受信部109Bに送信させ、次に、同様にして対話タスクパラメータTPR(制御部101Aの内蔵メモリに格納されている)を音声情報通信装置100Bの受信部109Bに送信させる。さらにその後、送信対話メモリ108Aから対話タスクTkに関する対話シナリオSk及び対話データDkをそれぞれ対話シナリオメモリ102A及び対話データメモリ103Aにローディングさせ、送信部110Aより音声情報通信装置100Bの受信部109Bに送信させる。
【0050】
各データの送信のタイミング等は全て、タスクデータ管理情報TDAに記述されたアドレスに基づいて定められる。ここで、送信データのアドレスとは、当該送信データであることを示す信号を送信した直後から送信データを例えば1バイト単位に送信される順番に付与する番号である。
【0051】
一方、音声情報通信装置100Bにおいては、以下のような送信データの受信動作を行なう(T109B:S121B、S122B)。
【0052】
音声情報通信装置100Bの受信部109Bは、受信データの所定アドレスに記載されたタスクデータ管理情報TDAを読取る。受信部109Bは、読み取ったタスクデータ管理情報TDAと、既に受信している送信データのバイト数情報BYTとから、続いて順次受信するデータの種類を認識する。すなわち、対話タスクパラメータTPR、対話シナリオSk、対話データDkの受信タイミングを認識する。そして、受信しているデータが対話タスクパラメータTPRのときには制御部101Bへ与えて内蔵メモリに格納させ、受信しているデータが対話シナリオSkのときには対話シナリオメモリ102Bに格納させ、受信しているデータが対話データDkのときには対話データメモリ103Bに格納させる。
【0053】
以上のようにして、対話データDkの受信・格納も終了すると、受信が完了し、制御部101Bは送信部110Bから受信完了信号を音声情報通信装置100Aに送信し(S123B)、受信部109Aを介してこの受信完了信号が与えられた音声情報通信装置100Aの制御部101Aはこれによりデータの受信が適正に行なわれたことを認識して一連の対話タスクの送信動作を終了する(T110:S117A)。
【0054】
以上、対話タスクTk等の通信シーケンス例を説明したが、通信される情報が対話タスクTk等である点を除けば、他の通信装置と同様な手順によって通信は実行されており、従って、この第1実施例の音声情報通信装置100(100A及び100B)が採用する通信シーケンスは、図3に示す以外のものであっても良い。
【0055】
音声情報通信装置100Bの制御部101Bは、受信完了信号を音声情報通信装置100Aに向けて送信させると、受信した対話タスクTk(Sk及びDk)の実行準備を行なう(T111:S124B)。例えば、所定のLEDを点滅させること等により、対話タスクTk(Sk及びDk)を受信したことを、当該音声情報通信装置100Bの使用者Bが知得し得るようにする。なお、使用者Bに対するこの知得動作は、使用者Bが、当該音声情報通信装置100Bを用いた対話を開始する(対話タスクTkを起動する)まで継続して実行される。
【0056】
使用者Bは、対話タスクTkの受信メッセージに気付いたときに、対話タスクTkが受信されたことを認識し、受信された対話タスクTkを実行することにより、送信者Aからの音声対話によるメッセージを受ける(S125B)。
【0057】
使用者Bが、キーボード等を用いて、当該対話タスクTkを実行する命令を出すと、制御部101Bは、対話シナリオメモリ102B内の対話シナリオ(従って最初の対話ジョブ(図2参照))Skを解読し、その命令に従って、例えば音声合成部106Bを起動させ、使用者Bに問いかける。このときの音声合成データは音声合成データメモリ107Bに格納されているものが用いられる。この問いかけに対し、使用者Bが音声でもって答えた場合、音声認識部104Bは、例えばそのパワー変化等を検出することにより音声波形を切り出し、スペクトル変換し、音声認識辞書105Bに格納されている標準的なパタン又はHMMパラメータ等と照合し、さらに音声認識辞書105B内の構文情報に基づく自然言語処理等を行なってその音声を認識し、その認識結果を制御部101Bに伝達する。制御部101Bは、対話シナリオに記述された手続に従って、当該認識結果に基づいて、次の質問事項(対話ジョブ)を選び出して音声合成出力する。また、必要に応じて対話データメモリ103Bに格納された知識データベース構成の対話データをサーチして、使用者Bからの質問に対する返答を音声合成出力する。
【0058】
以下、同様な処理が繰り返され、対話タスクTkに基づく送信者A及び受信者B間の音声対話が実現される。
【0059】
以上、音声情報通信装置100Aから音声情報通信装置100Bへ対話タスク等を送信して、両装置100A及び100Bの使用者A及びB間で、間接的な対話を実行させる場合を示したが、音声情報通信装置100Bから音声情報通信装置100Aへ対話タスク等を送信して、両装置100B及び100Aの使用者B及びA間で、間接的な対話を実行させることも必要に応じてできる。
【0060】
さらに、この実施例の音声情報通信装置100は、対話タスクTkの受信側として通信起動をかけることができる。この場合のシーケンス図は省略するが、上述した図3に示したシーケンスと共通な部分が多い。また、制御部101のこの場合の動作は、上述した図4〜図6に記載しているとほぼ同様である。
【0061】
装置100Bの使用者Bが対話タスクTkを対向する音声情報通信装置100Aから送信させることを指示すると、例えば、制御部101Bは、当該装置の管理情報ADMを整理し(図3のT101参照)、当該装置100Bのアドレス、管理情報ADM、対話タスクTkの特定情報を含む対話タスクの送信督促命令を送信する(図3のT102参照:S100B、S102B、S108B、S109B)。音声情報通信装置100Aは、この対話タスクTkの送信督促命令の受信により通信動作に入り(S100A、S101A、S105A)、これ以降は、管理情報を受信しているのでステップS110A以降の動作を行なう。一方、音声情報通信装置100Bは、対話タスクの送信督促命令を送信すると、ステップS118B以降の動作を行なう。
【0062】
従って、上記第1実施例によれば、送信者は、音声対話環境を実現できる詳細な手続である対話シナリオ及び対話に必要となるデータが記述された対話データ自体を、受信者に送信し、受信者が適当なタイミングでそれらに基づいて送信者と対話できるので、受信者が通信時に不在な場合でも、かなり詳細な対話を行なうことができる。
【0063】
また、上記第1実施例によれば、対話シナリオ及び対話データ自体を送受信して対話シナリオ及び対話データを受信した装置上で対話を実行させるので、一方の装置に対話シナリオ及び対話データを保持しておき、他方の装置との間で音声データを授受して対話する場合に比べて、対話を行なう時刻や信号の伝送時間等の制約を受けることが少なくなる。
【0064】
すなわち、第1実施例の音声情報通信システムは、音声対話そのものを媒介としてコミュニケーションをはかることを可能とし、相手方とリアルタイムに通信できない状況、例えば、不在であったり、極端な遠隔地であるときでも、相手の返答に応じて自分の意思を伝達することができる。
【0065】
そのため、今までは考えられなかった通信の利用形態を実現でき、この実施例の音声情報通信システムの有効性はかなり高い。以下、有効性について例を挙げて説明する。
【0066】
現実的な例ではないが、送信者Aは地球上の発進基地内、受信者Bは太陽系最果ての惑星である冥王星に着陸した宇宙船内にいた場合、電磁波を使った通信においてもメッセージが到着するのに5時間半かかる。従って、このままでは一方通行の情報伝達となりリアルタイムな通常の対話は成立しない。しかしながら、この実施例の音声情報通信装置を用いた場合には、通信による伝送時間は問題とならず、擬似的ではあるが、対話形式で意思伝達を行なうことができる。
【0067】
また、例えば、日本とアメリカという時差の異なる国間で対話を行なおうとすると、一方の対話者に本来は就寝中の時間であるにも拘らず起きていることを強要する。しかしながら、この実施例の音声情報通信装置を用いた場合には、通信時刻は問題とならず、擬似的ではあるが、対話形式でしかも通常の活動時間において意思伝達を行なうことができる。
【0068】
因に、キーボード入力やディスプレイ表示を通じて、キャラクタコードの授受によって擬似的対話を実現できる情報を対向する装置間で授受することも考えられるが、2人の人間間で交わされる対話は、純人間的な行為であり、できるだけ人間行為に近い形式で行なうことが好ましく、実施例のように、音声を媒体とする擬似的対話を実現できるように通信することが好ましい。
【0069】
(B)第2実施例
次に、本発明による音声情報通信システムの第2実施例を図面を参照しながら詳述する。図7が、この第2実施例の音声情報通信システムの構成を示すブロック図であり、上述した第1実施例に係る図1との同一、対応部分には同一符号を付して示している。
【0070】
第1実施例に係る音声情報通信装置においては、いずれの対話タスクを実行する場合であっても、使用される音声認識辞書や音声合成データメモリが固定のものを示したが、第2実施例に係る音声情報通信装置は、認識性能を向上させたり合成音の自由度を高めたりするために、対話タスク毎に音声認識辞書や音声合成データメモリを切り換えられるようにしたものである。
【0071】
すなわち、音声情報通信装置100Aについて図7に詳細を示すように、伝送路120を介して対向する第2実施例の各音声情報通信装置100A及び100Bはそれぞれ、音声認識部104A、104Bが利用可能な音声認識辞書として複数種類の音声認識辞書105A1〜105An、105B1〜105Bpを備え(nは装置100Aに係る個数、pは装置100Bに係る個数)、また、音声合成部106A、106Bが利用可能な音声合成データメモリとして複数種類の音声合成データメモリ107A1〜107Am、107B1〜107Bqを備えており(mは装置100Aに係る個数、qは装置100Bに係る個数)、以下に例示するような方法によって使用する音声認識辞書及び音声合成データメモリを適宜選択可能になされている。
【0072】
ここで、複数種類の音声認識辞書105A1〜105An、105B1〜105Bpは、例えば、特定話者毎に作成したものや、音韻や単語のカテゴリ名の付与方法及び構文解析法によって別個のものとなったりしたもの(言語種類や、専門分野)等である。また、音声合成データメモリ107A1〜107Am、107B1〜107Bqにそれぞれ格納されている異なる種類の音声合成データは、例えば、男性音データ、女性音データ、誰それの合成音データ、日本語や英語等の言語種類毎のデータ等である。
【0073】
以下、どのようにして利用する音声認識辞書や音声合成データメモリが決定されるかを、音声情報通信装置100Aから音声情報通信装置100Bへ対話タスクTkを送信する場合を例に説明する。従って、通信シーケンスは、第1実施例の説明で用いた図3に示すシーケンスとほぼ同様であり、以下では、第1実施例とは異なる点を中心に説明する。また、かかる説明を通じて制御部101A及び101Bの処理が明らかになるので、フローチャートは用意していない(図4〜図6参照)。
【0074】
図3において、音声情報通信装置100Bが管理情報ADMの送信準備を行ない、音声情報通信装置100Aに向けて管理情報ADMを送信する状況(T101、T102)から説明する。
【0075】
この第2実施例の場合、音声情報通信装置100Bには、複数種類の音声認識辞書105B1〜105Bpと複数種類の音声合成データメモリ107B1〜107Bqとがあるので、制御部101Bは、送信する管理情報ADMに、全ての音声認識装置105B1〜105Bpの情報ADM31と、全ての音声合成データメモリ107B1〜107Bqに格納されている音声合成データの情報ADM32とを挿入する。
【0076】
このような管理情報ADMが送信された音声情報通信装置100Aにおいては、制御部101Aによって、送信可能性チェック(T103)及び対話タスク実現可能性チェック(T104)が行なわれるが、後者のチェック時に、制御部101Aは、対向する音声情報通信装置100Bが使用する、対話タスクTkを実行する上で最適な音声認識辞書及び音声合成データメモリの決定を行なう。
【0077】
例えば、送信対話メモリ108Aに格納されている対話タスクTkの情報として、音声認識辞書及び音声合成データ(音声合成データメモリ)の選択用情報を盛り込んでおき、この選択用情報に従って、最適な音声認識辞書及び音声合成データ(メモリ)を選択する。全ての音声認識辞書が適当でなければ、又は、全ての音声合成データ(メモリ)が適当でなければ、制御部101Aは、対向する音声情報通信装置100Bにおいて対話タスクTkを実現不可能と判定する。
【0078】
より具体的な例で説明すると、対話タスクTkに、当該タスクを女性の高い声で発音するという選択用情報が付与されているならば、それに応じた音声合成データiが選択される。また、対話タスクTkに、所定の知り合い(特定話者)の発音から形成された音声認識辞書を選択することが記載されていれば、音声情報通信装置100Bの音声認識辞書105B1〜105Bp内にその特定話者のものがあるかが確認される。
【0079】
対話タスクTkに付与されている選択用情報が無指定の場合には、対向する音声情報通信装置100Bに選択を委ね、チェックはOKとする。
【0080】
このようにして決定された音声認識辞書及び音声合成データ(音声合成データメモリ)の選択情報は、対話タスクパラメータTPRの一種に含められて、データ送信時に(T109)、音声情報通信装置100Aから音声情報通信装置100Bに与えられる。
【0081】
音声情報通信装置100Bの制御部101Bは、対話タスクの実行準備(T110)の一貫として、音声認識部104Bが指示された音声認識辞書を利用し、かつ、音声合成部106Bが指示された音声合成データを格納している音声合成データメモリをアクセスするように設定動作を行なう。なお、選択情報が無指定の場合には、制御部101Bは、デフォルトの音声認識辞書及び音声合成データメモリを選択設定させる。
【0082】
以上のようにして、第2実施例の音声情報通信システムにおいては、対話タスク毎に、対話実行時に利用する音声認識辞書や音声合成データメモリが切り換えられる。
【0083】
従って、上記第2実施例によれば、第1実施例の基本的な特徴を備えているので、第1実施例と同様な効果を得ることができる。これに加えてさらに、音声認識辞書及び音声合成データメモリを複数種類備えて適宜選択できるようにしたので、対話表現の自由度を第1実施例より高めることができる。
【0084】
(C)第3実施例
次に、本発明による音声情報通信システムの第3実施例を図面を参照しながら詳述する。図8が、この第3実施例の音声情報通信システムの構成を示すブロック図であり、上述した第2実施例に係る図7との同一、対応部分には同一符号を付して示している。
【0085】
音声認識の自由度を高めようとすると、対話タスクに対して1対1に音声認識辞書を設けることも考えられるが、複数の音声認識辞書で、同一の情報が格納されることもあり、格納の無駄が大きい。そこで、複数の対話タスクをグルーピングし、同一グループの対話タスクは共通の音声認識辞書を利用することも考えられる。しかし、このようにすれば、1個の音声認識辞書が大きくなり、内容同定に時間がかかって対話時のリアルタイム性が損なわれる恐れがある。
【0086】
第3実施例の音声情報通信システムは、以上のような点を考慮してなされたものであり、どちらかと言えば、第1実施例より第2実施例のシステムに近いものである。
【0087】
この第3実施例に係る音声情報通信装置100は、音声情報通信装置100Aについて図8に詳細を示すように、音声認識構成が第2実施例とは異なっており、音声認識構成として、音声認識部104及び1個の音声認識辞書105を備えると共に、さらに辞書メモリ111及び辞書選択編集部112を備えている。
【0088】
辞書選択編集部112は、制御部101の制御下で、音声認識辞書105から所定の一部辞書情報を取出し編集して辞書メモリ111に格納させ、この辞書メモリ111に格納された内容を利用して音声認識部104が認識処理するようになされている。言い換えると、音声認識辞書105には、多くの対話タスクを実現する上で必要となる音韻、単語、文章等の辞書が格納さてれおり、対向する音声情報通信装置100から指定された単語、文章等の辞書情報のみを音声選択編集部112において選択編集して辞書メモリ111に格納させて音声認識部104に利用させる。
【0089】
以下、どのようにして辞書メモリ111に格納させる内容を、両音声情報通信装置100A及び100B間で授受するかを、音声情報通信装置100Aから音声情報通信装置100Bへ対話タスクTkを送信する場合を例に説明する。従って、通信シーケンスは、第1及び第2実施例の説明で用いた図3に示すシーケンスとほぼ同様であり、以下では、第1、第2実施例とは異なる点を中心に説明する。また、音声認識情報に関する処理と音声合成データに関する処理とはほぼ並行して行なわれるが、この第3実施例は、音声認識情報に関する処理に特徴があり、音声合成データの処理については第2実施例と同様であるのでその説明を省略する。また、かかる説明を通じて制御部101A及び101Bの処理が明らかになるので、フローチャートは用意していない。
【0090】
図3において、音声情報通信装置100Aが管理情報ADMを受領し、送信可能性のチェック(T103)を行なって、OKが得られた時点以降の処理について説明する。
【0091】
送信可能性のチェックでOKであれば、制御部101Aは、対話タスクの実現可能性のチェック(T104)を行なう。この実施例の場合、送信対話メモリ108Aに格納されている対話タスクTkの情報として、対話シナリオ及び対話データ等に加えて、音声認識の使用単語や使用分野等を特定する情報があり、制御部101Aは、受信した管理情報ADMの音声認識辞書情報ADM31とこの使用単語等の特定情報とを比較して対話タスクの実現可能性のチェックを行なう。この第3実施例の場合、各装置100B、100Aの音声認識辞書105B、105Aには広範囲の内容が格納されているので、ほとんどの場合、かかるチェックでOKとなる。
【0092】
このようにして実現可能性が確認されると、制御部101Aは、使用言語や使用分野等の辞書内容の一部取出し情報を、対話タスクパラメータTPRの一種に含めて、データ送信時に(T109)、音声情報通信装置100Bに与える。
【0093】
音声情報通信装置100Bの制御部101Bは、対話タスクの実行準備(T110)の一貫として、辞書選択編集部112Bを駆動し、音声認識辞書105Bから、対話タスクパラメータTPRに挿入されている一部取出し情報に従って、所定の一部情報を取出させ編集させて辞書メモリ111Bに格納させる。
【0094】
このようにして辞書メモリ111Bに格納された、対話タスクTkに応じた辞書内容が、装置100Bの使用者Bと対話タスクTkの送信者Aとの擬似的な対話時において、使用者Bの発音内容の認識に利用される。
【0095】
従って、第3実施例によれば、第1実施例と同様な効果を得ることができる。また、第3実施例によれば、予め区分けされた複数の音声認識辞書から1個を選択するのではなく、共通の音声認識辞書より対話タスクに必要となる辞書データのみを抽出して、音声認識辞書を新たに作り出すので(辞書メモリ111に格納されたものはそれ単独で新たな辞書と見ることができる)、対話タスクに応じてより柔軟な音声認識環境を設定することができる。
【0096】
(D)第4実施例
次に、本発明による音声情報通信システムの第4実施例を図面を参照しながら詳述する。図9が、この第4実施例の音声情報通信システムの構成を示すブロック図であり、上述した第1実施例に係る図1との同一、対応部分には同一符号を付して示している。
【0097】
この第4実施例の音声情報通信システムは、対話タスクを実行した際の対話履歴を対話タスクの送信側装置において入手できるようにしたものである。
【0098】
第4実施例に係る音声情報通信装置100は、音声情報通信装置100Aについて図9に詳細を示すように、対話履歴管理部114及び対話履歴メモリ115が設けられている点が、第1実施例に係る音声情報通信装置とは異なっている。なお、対話履歴の使用者への提供方法によっては、対話履歴提供用知識ベース116も設けられる。
【0099】
対話履歴管理部114は、制御部101の制御下で、対話シナリオメモリ102及び対話データメモリ103に格納されている対話シナリオ及び対話データでなる対話タスクTkが実行された際の対話履歴を管理し、その対話履歴を内蔵するバッファに格納するものである。また、対話履歴管理部114は、対話タスクTkの実行が終了したときに、制御部101からの指令に応じて、送信部110に対話履歴を与え、対向する音声情報通信装置(すなわち、対話タスクTkの送信装置)100に送信させるものである。
【0100】
対話履歴メモリ115は、対向する音声情報通信装置100から送信されてきた対話履歴が受信部109から与えられ、その対話履歴を格納するものである。この対話履歴メモリ115に格納された対話履歴は、制御部101によって取り出されてディスプレイに表示される等、使用者に提示される。使用者への提示方法については、後で詳述する。
【0101】
ここで、対話履歴とは、当該対話タスクTkにおける問とその問に対する使用者の答を出現順にストックしていったものである。
【0102】
図10は、この第4実施例の音声情報通信システムの通信シーケンスの後半を示すものであり、この図10に示した対話タスクの実行準備T111までの処理は第1実施例の場合と同様であり(図3参照)、その説明は省略する。なお、図10は、音声情報通信装置100Aから音声情報通信装置100Bに対話タスクTkを送信する場合の例である。
【0103】
音声情報通信装置100Bの使用者Bは、対話タスクTkの受信メッセージ(例えばLEDの点滅)に気付いたときに、対話タスクTkが受信されたことを認識し、受信された対話タスクTkを実行する(T112)。
【0104】
すなわち、使用者Bが、キーボード等を用いて、当該対話タスクTkを実行する命令を出すと、制御部101Bは、対話シナリオメモリ102B内の対話シナリオ(プログラム)Skを解読し、その命令に従って、例えば音声合成部106Bを起動させ、使用者Bに問いかける。このときの音声合成データは音声合成データメモリ107Bに格納されているものが用いられる。この問いかけに対し、使用者Bが音声でもって答えた場合、音声認識部104Bは、例えばそのパワー変化等を検出することにより音声波形を切り出し、スペクトル変換し、音声認識辞書105Bに格納されている標準的なパタン又はHMMパラメータ等と照合し、さらに音声認識辞書105B内の構文情報に基づく言語処理等を行なってその音声を認識し、その認識結果を制御部101Bに伝達する。制御部101Bは、対話シナリオに記述された手続に従って、当該認識結果に基づいて、次の質問事項を選び出して音声合成出力する。また、必要に応じて対話データメモリ103Bに格納された知識データベース構成の対話データをサーチして、使用者Bからの質問に対する返答を音声合成出力する。
【0105】
以下、同様な処理が繰り返され、対話タスクTkに基づく送信者A及び受信者B間の音声対話が実現される。
【0106】
このような対話タスクTkの実行時には、対話履歴管理部114Bによる対話履歴の管理が行なわれ、コンパクトな表現の対話履歴データに変換され、この対話履歴データが対話履歴管理部114Bの内蔵バッファに一時的に格納される(T113、T114)。対話履歴管理部114Bは、対話が完了すると(または当該対話履歴管理部114Bの内蔵バッファが満配になると)、制御部101Bの命令によって、対話履歴データを送信部110Bに転送して対向する音声情報通信装置100Aに送信させる(T115)。このとき、送信されるデータが対話履歴であることを示す信号も送信される。例えば、対話履歴データを送る前に対話履歴データであることを示すフラグ信号を送信するか、フォーマットの定められた管理データの中で対話履歴であると指定する等の方法がある。
【0107】
音声情報通信装置100Aにおいては、受信部109Aが受信したデータが対話履歴データであることを識別すると、それを対話履歴メモリ115Aに転送し、対話履歴メモリ115Aに全ての対話履歴データが転送されると、対話履歴の受信処理が完了し、その使用者Aに対話履歴データを受信したことを示すLEDに対する点灯や点滅等の表示を行なう(T116)。
【0108】
使用者Aが、その受信表示を見て対話履歴の提示を制御部101Aに対して要求すると、制御部101Aは、対話履歴メモリ115Aのデータに基づいて、対向する音声情報通信装置100Bにおける対話履歴を使用者Aに提供する(T117)。
【0109】
図11は、対話履歴管理部114Bによって管理、作成されて対向する音声情報通信装置100Aに転送される対話履歴データのデータ構造の一例を示すものである。
【0110】
図11において、対話履歴データは、問や答等の対話単位毎に形成されている。1個の対話単位のデータ(対話履歴単位データ)HIS−1、…、HIS−Nはそれぞれ、データの通し番号NOと、データが問に関するものか答に関するものかを表す情報Q/Aと、対話内容CONと、対話内容CONのデータ長LGとからなる。対話内容CONは、問については対話アドレスであり、答については認識結果コード列である。
【0111】
対話アドレスとは、対話シナリオ又は対話データにおいて、合成出力される問の文章が記載されているところを示す相対アドレスであり、これを指定することにより合成された文章を一意に規定できる。なお、この対話アドレスは、当該合成文が記述された範囲を対話シナリオ又は対話データ中で指定しなければならないため、当該範囲におけるスタートアドレスとエンドアドレスのペアからなるようにもでき、また、スタートアドレスだけにもできる。なお、対話履歴単位データHIS−3については、2個の対話アドレスA2及びA3を含んでいるが、これは、対話アドレスA2で指定された文とアドレスA3で指定された文の両者がこの順に合成出力されたことを意味している。
【0112】
認識結果コード列とは、合成出力された問に対して、当該音声情報通信装置100Bの使用者Bが返答した音声を認識した結果(又は、その認識結果に対して自然言語処理を実行して得た意味内容)をそのままコード列で表現したものである。なお、合成文をコード列で表現せず、対話アドレスによって間接的に指定するようにしたのは、データ圧縮を図るためであり、これによって、大幅なメモリの節約及び通信コストの削減が達成できる。
【0113】
すなわち、対話履歴データの最も簡単な構造は、ただ単に合成されたセンテンス、認識結果等をそのままコード番号の並びで表したものであるが、この方法では、データ量が多くなり通信コストの点で問題があり、合成文を対話アドレスで規定するようにすると、その分容量が削減できて上記効果が達成される。
【0114】
なお、この図11に示すデータ構造は、図2に示すような対話シナリオが対話ジョブの集合でなるものに適用が限定されるものではないが、以下では、図11に示すデータ構造が、図2に示した対話ジョブKを実行された場合にどのようになるかを簡単に説明する。対話ジョブKが実行されると、2個の対話履歴単位データが対話履歴データに追加され、それらの通し番号NOは今までの続きである。最初の対話履歴単位データは、問であることを表す情報Q/Aと、合成文Gkが格納されているアドレスの対話内容CONと、その対話内容CONのデータ長LGとからなる。次の対話履歴単位データは、答であることを表す情報Q/Aと、合成文Gkに対する利用者からの応答の認識結果N1 、…、Nm 又はDEFAULTのコード列の対話内容CONと、その対話内容CONのデータ長LGとからなる。
【0115】
図12は、対話履歴管理部114Bによって管理、作成されて対向する音声情報通信装置100Aに転送される対話履歴データのデータ構造の他の一例を示すものである。
【0116】
図12に示した対話履歴データも、問や答等の対話単位毎に形成されており、1個の対話履歴単位データHIS−1、…、HIS−Nはそれぞれ、データ(対話単位)の通し番号NOと、データが問に関するものか答に関するものかを表す情報Q/Aと、対話内容CONと、当該対話内容CONのデータ長LGとからなる。
【0117】
このデータ構造の例では、対話内容CONは、問については対話アドレスであり、答については「辞書アドレス列」であり、後者の点が図11に示したデータ構造例とは異なっている。
【0118】
なお、図12に示すデータ構造も、図2に示すような対話シナリオが対話ジョブの集合でなるものに適用が限定されるものではない。
【0119】
ここで、辞書アドレス列は、認識結果コード列を、音声認識辞書105B上のアドレス列に変換したものである。すなわち、対話履歴データにおいては、使用者Bの返答内容を、音声認識部104Bで認識された結果のコード列で表現するのではなく、音声認識辞書105Bにおける相対アドレスの列で表現している。ここで、相対アドレス列とは、認識結果を構成する各語を音声認識辞書105Bに登録された順(相対アドレス)でもって表現したものである。最初の答に対する認識結果が、5個の単語や助詞等の認識単位G1〜G5で構成されているとき、これら認識単位G1〜G5のそれぞれを音声認識辞書105Bに登録されているアドレスB1〜B5でもって表現したものが、最初の答についての辞書アドレス列である。
【0120】
このような表現方法を採ることによって、認識結果をそのままコード列で表現するよりも、少ないデータ量で対話履歴データを送受信できる。従って、通信コスト、通信速度の点で有利となる。
【0121】
例えば、「TANGO」という文字が当該音声認識辞書105Bに登録されているとすると、この文字をコード表現したとき1コード1バイト必要であるとすると、5バイト必要となる。一方、仮に音声認識辞書105Bに全部で256語登録されているとすると、「TANGO」という文字のアドレスとして最低でも1バイトあれば足り、アドレス表現の方がデータ量が少なくて済む。
【0122】
しかしながら、以上述べた議論が通用するのは、対向する音声情報通信装置100Aにおいて、当該音声情報通信装置100B内の音声認識辞書105Bの相対アドレスと各語の対応関係が予め分かっているときだけである。従って、このような前提が成り立つ場合に図12のデータ構造を採用すれば良く、成り立たない場合には図11のデータ構造を採用すれば良い。
【0123】
図12のデータ構造を採用できる場合としては、両装置100A及び100Bの音声認識辞書105A及び105Bが全く同じ場合や、一方の音声認識辞書105Bに関する情報を予め対向する装置100Aに送信しておくような場合である。後者の送信方法としては、通信シーケンスにおける管理情報の送信タイミングに行なうことを挙げることができる。
【0124】
図13は、対話履歴管理部114Bによって管理、作成されて対向する音声情報通信装置100Aに転送される対話履歴データのデータ構造のさらに他の一例を示すものである。
【0125】
図13に示した対話履歴データも、問や答等の対話単位毎に形成されており、1個の対話履歴単位データHIS−1、…、HIS−Mはそれぞれ、データの通し番号NOと、データが問に関するものか答に関するものかを表す情報Q/Aと、対話内容CONと、そのデータ長LGとからなる。
【0126】
このデータ構造例の場合、対話内容CONは、問については「対話ジョブのアドレス」であり、答については「対話ジョブにおける認識結果の分類番号」等であり、これらの点が図11や図12に示したデータ構造例とは異なっている。
【0127】
対話シナリオが図2に示すような対話ジョブKの集合でなる場合、対話ジョブを特定することは合成文を特定したことになり、対話ジョブのアドレスは合成文を規定するものとなっている。
【0128】
また、実際上、質問者Aは返答者Bの返答がどういう意味を持っているかを知得すれば目的が達成できるということが多く、このような観点に従う対話であれば、認識結果をそのまま再現するのではなく、複数に分類された認識結果の分類番号で表現して十分である。これにより、対話履歴データは大幅に圧縮され、通信コストの軽減も達成される。すなわち、図2に示したように音声認識結果は、複数の選択枝に分類されるが、この枝に付与された番号でもって使用者Bの返答の意味を区別して表現する。ここで注意すべきことは、認識結果を示す分類番号だけでは、具体的記述などが表現できないということである。例えば、対話ジョブが商品の代金支払方法を決定するためのジョブであり、認識結果として分類された項目が銀行自動引落しに関するものであったとき、何回払いであるとか、いつまでに支払うとかといったより具体的で詳細な記述にまで分類項目を設けることは不可能に近く、そこで、そのような具体的記述に関しては、従前と同様に認識結果コード列等を用いる。勿論、当該数値が分類番号であるかコード番号であるかを区別するための情報も必要となる。
【0129】
以上のようなデータ構造を有する対話履歴データが送信されてきた音声情報通信装置100Aにおいては、例えば、以下のようにして、対話履歴を使用者Aに提供(表示)すれば良い。
【0130】
(1) 対話履歴をディスプレイ等に文字列で再現する。このとき、知識処理等で仮名漢字変換等を行なって文章の意味を理解しやすくすることは好ましい。
【0131】
(2) 対話履歴を音声合成部106による音声合成で再現する。このとき、問う声と答える声とを異なる声質にして分かりやすくすることが好ましい。
【0132】
(3) 使用者Aが当該対話タスクに基づく質問系列を自らの音声で表現すると、当該装置100Aの音声認識機能によってそれを認識し、合成音やディスプレイ表示によって対向装置100Bの使用者Bの返答を再現する。
【0133】
(4) 使用者Aの質問の意味を解析し、対向装置100Bの使用者Bの返答結果に基づいてその質問に対する答えを作り出す。
【0134】
以下、対話履歴の提供方法(1) 〜(4) のそれぞれについて説明する。なお、以下の説明において、対話履歴データの構造は図11に示すものとする。
【0135】
まず、対話履歴の提供方法(1) について図14を参照しながら詳述する。
【0136】
制御部101Aは、使用者Aが対話履歴データの受信を認識して、キー入力等によって、その提供を指示すると、図14に示す処理を開始する。そして、未処理の中で最も通し番号NOが小さい1個の対話履歴単位データを取り出し、そのデータが問か答のいずれに関するものであるかを判別する(ステップS150A、S151A)。問であれば、対話内容CONとして挿入されている対話アドレスを認識して送信対話タスクメモリ108から合成文を取り出した後に、答であれば、対話内容CONとして挿入されている音声認識結果(コード列)を対話履歴提供用知識ベース116Aの格納内容を利用して仮名漢字変換した後に、ディスプレイにそのデータを与えて表示させる(ステップS152A〜S154A)。次に、全ての対話履歴単位データを表示させたか否かを判断し、全ての対話履歴単位データについて表示し終えたときにはこの一連の処理を終了し、未処理の対話履歴単位データが残っているときには上述のステップS150Aに戻って次の対話履歴単位データの表示処理に進む(ステップS155A)。
【0137】
次に、対話履歴の提供方法(2) について図15を参照しながら詳述する。なお、図9のブロック図においては、音声合成データメモリ107に格納されている音声合成データが1種類か2種類以上かが明らかになっていないが、この対話履歴の提供方法(2) の場合、音声合成データメモリ107に格納されている音声合成データは、図7に示した第2実施例のように少なくとも2種類必要である。
【0138】
制御部101Aは、使用者Aが対話履歴データの受信を認識して、キー入力等によって、その提供を指示すると、図15に示す処理を開始する。そして、未処理の中で最も通し番号NOが小さい1個の対話履歴単位データを取り出し、そのデータが問か答のいずれに関するものであるかを判別する(ステップS160A、S161A)。問であれば、対話内容CONとして挿入されている対話アドレスを認識して送信対話タスクメモリ108から合成文データを取り出した後、第1の音声合成データ107A−Iを用いることを指示してその合成文データを音声合成部106Aに与えて発音出力させる(ステップS162A、S163A)。一方、取り出した対話履歴単位データが答であれば、第2の音声合成データ107A−IIを用いることを指示して挿入されている音声認識結果データを音声合成部106Aに与えて発音出力させる(ステップS164A)。次に、全ての対話履歴単位データを発音出力させたか否かを判断し、全ての対話履歴単位データについて発音出力させ終えたときにはこの一連の処理を終了し、未処理の対話履歴単位データが残っているときには上述のステップS160Aに戻って次の対話履歴単位データの発音出力処理に進む(ステップS165A)。
【0139】
次に、上述した対話履歴の提供方法(3) について図16を参照しながら詳述する。
【0140】
使用者Aが対話履歴データの受信を認識して、キー入力等によって、その提供を指示すると、制御部101Aは図16に示す処理を開始し、まず、終了操作が実行されていないことを確認した後、使用者Aが発声した問の音声に対する認識結果を音声認識部104Aから取り込む(ステップS170A、S171A)。次に、制御部101Aは、対話履歴データの対話アドレスを参照しながら、送信対話タスクメモリ108Aに格納されている対話シナリオSk(又は対話データDk)に記載されている合成文を取出しては当該問の音声認識結果と照合し、認識結果はどの合成文に相当しているかを、従って該当する合成文は存在するか否かを判断する(ステップS172A、S173A)。
【0141】
この判断方法としては、例えば、使用者Aの音声の認識結果とサーチした合成文とを照合し、照合結果が最も一致しているものを採用する方法や、両者の単語だけを比較し、最も重複した単語が多かったものを選ぶ方法等がある。
【0142】
使用者Aが発声した問の音声に該当する合成文が存在しない場合には、その旨を表示又は発音出力させて上述のステップS170Aに戻る(ステップS174A)。
【0143】
これに対して、使用者Aの質問に対応した合成文が存在すると判断したときは、対話履歴データの中から相当する対話アドレスを見付け出し、それに対応して返答された対向装置100Bの使用者Bの認識結果コード列を取出して文字列表示又は音声合成部106Aによる合成音で出力して上述したステップS170Aに戻る(ステップS175A、S176A)。
【0144】
次に、上述した対話履歴の提供方法(4) について図17を参照しながら詳述する。この対話履歴の提供方法(4) は、提供方法(3) をさらに発展させたものである。すなわち、この対話履歴の提供方法(4) は、使用者Aが発声した問の音声に該当する合成文を発見できなかった場合(ステップS173Aで否定結果)の対応が対話履歴の提供方法(3) と異なっており、以下では、この異なる部分の処理を説明する。
【0145】
使用者Aが発声した質問音声に該当する合成文を発見できなかった場合には、対話履歴提供用知識ベース116Aの格納内容を利用しながら、その質問音声の意味を解析して得て、その意味に予め対応付けられた合成文であってしかも対話履歴データに挿入されている合成文をサーチし、このような合成文の有無を判別する(ステップS180A〜S182A)。
【0146】
このような合成文が存在しない場合には、その旨を表示又は発音出力させて上述のステップS170Aに戻る(ステップS183A)。
【0147】
これに対して、使用者Aの質問の意味内容に対応した合成文が存在すると判断したときは、対話履歴データの中から相当する対話アドレスを見付け出し、それに対応して返答された対向する音声情報通信装置100Bの使用者Bの答(認識結果コード列)を取出し、対話履歴提供用知識ベース116Aの格納内容を利用しながら、使用者Bが発声した答から、使用者Aの質問の意味内容に対する答を推論して形成し、文字列表示又は合成音で出力して上述したステップS170Aに戻る(ステップS184A、S185A)。
【0148】
従って、この提供方法(4) のように人工知能技術等を用いると、対話タスクTkで出現する質問事項を使用者Aはそのまま発声する必要がなく、使用者Aの質問の意味から、対向する音声情報通信装置100Bの使用者Bの答を対話履歴メモリ115Aからサーチして判断できる。例えば、使用者Aが対話タスクには直接含まれていない「Bは、Xを欲しがっていたか?」という質問を行なった場合、制御部101Aは、対話履歴メモリ115Aのデータから、対向使用者Bの返答結果をサーチし、「Xを買いませんか」という所定質問に対する対向使用者Bの返答の中に「少し、考えさせて下さい。」という答が含まれていることを認識したとき、回答者Bは躊躇していると判断し、例えば、購入催促に対する躊躇解答に対する知識ベースを利用して「Bは、今すぐに買うつもりはないが、もっと勧誘すれば買う可能性は有ります。」という答を出力する。この方法によれば、当該対話タスクによる対話結果を効率的に知ることができる。
【0149】
なお、図13に示すような圧縮された形で使用者Bの認識結果が表現されている対話履歴データの場合に、その提供方法が問題となるが、例えば各分類項目毎に定型の履歴提供用の合成文を用意しておくことで、上記(1) 〜(3) の提供方法に対応でき、また、分類項目に加えて認識結果コード列がある履歴単位データの場合には、分類項目に応じた定型の履歴提供用の合成文の中に可変な部分を残しておいて、そこに認識結果コード列を当て嵌めることで上記(1) 〜(3) の提供方法に対応できる。
【0150】
従って、上記第4実施例によれば、第1実施例と同様な効果に加えて、対話タスクの提供者がその対話タスクがどのように実行されたかを確認することができ、対話タスクの提供者だけでなく、提供を受けたものも相手に自己の意思を良好に伝達することができる。
【0151】
すなわち、音声対話の結果を常に対話履歴管理部114A、114Bによって管理して対話履歴というコンパクトな表現に変換し、それをも送受信可能としたことにより、縮約された相互の意思を直ちに知ることができ、コミュニケーションの円滑化を図っている。
【0152】
また、対話履歴の再現方法にも工夫があり、相手方から送信された対話履歴を対話履歴メモリ115A、115Bに格納しておき、単にそれを表示させるのみならず、それに基づいてオペレータと相手との音声対話を仮想的に実現することも可能となっており、相手不在の直接対話という仮想的実現感を醸し出すことができる。
【0153】
以上のような構成を有し、以上のような効果を奏する第4実施例の、実社会における有効な利用例を一つ挙げると以下の通りである。
【0154】
例えばサービス提供者Aが顧客Bに対して、興味・関心の動向を探り、商品Xの情報を提供して商取引をはかるべく顧客Bに電話をしたとき、たまたま顧客Bが留守であった状況を想定する。このとき、サービス提供者Aは後日顧客Bに再度電話をするか、さもなくば留守録機能を利用して、顧客Bにサービス提供者Aに対して電話をするように依頼するかのどちらかである。前者の場合、サービス提供者Aの労力が多大になり、また後者の場合には顧客Bに対して命令を強いると同様であり、サービス提供者Aとして必ずしもよい措置とはいえず、また全ての顧客Bが応じてくれるとも限らず、労力の損失も大きい。さらに顧客は一人だけではなく、何百人、何千人といるわけであるから、サービス提供者Aの労力は膨大なものとなる。
【0155】
上述のような状況に比較して第4実施例は有効である。サービス提供者Aは先ず、商品Xの属する分野についても興味・関心の動向を探るために当該対話タスクを実現するための対話シナリオ及び対話データを選び出し、顧客Bの通信装置100Bに送信する。顧客Bは受信後、たとえ留守であっても帰宅した後には、当該対話タスクを実行する。その結果が対話履歴としてサービス提供者Aの装置100Aに送られる。その対話履歴の結果によって、サービス提供者Aは次の対話タスクを送るか否かを決定する。すなわち、顧客Bが商品Xについて全く関心がなく、購入する可能性がほとんどないと判断できた場合には、対話タスクの送信を中止する。また、商品Xについては関心があるが、まだ購入するまでに至らないときは、商品Xを積極的に売り込むための対話タスクを送信する。その結果、顧客Bが購入する意思を持つようになったとき、又は、当初から購入を決めていたときは、次の商取引のための対話タスクを送信することになる。このようにして、サービス提供者Aは最小限の労力で顧客Bの意思を把握することができ、顧客Bの対話の結果に応じた柔軟な対処により自動営業を行なうことができる。
【0156】
(E)第5実施例
次に、本発明による音声情報通信システムの第5実施例を図面を参照しながら詳述する。図18が、この第5実施例の音声情報通信システムの構成を示すブロック図であり、上述した第4実施例に係る図9との同一、対応部分には同一符号を付して示している。
【0157】
この第5実施例に係る音声情報通信装置は、複数の対話タスクの分岐・連結を自動的に実現できるようにしたものである。
【0158】
第5実施例に係る音声情報通信装置100においては、音声情報通信装置100Aについて示すように、送信対話タスクメモリ108に格納されている対話タスク(対話シナリオ及び対話データ)の構成が第1〜第4実施例とは異なる。すなわち、記述した実施例の場合、送信対話タスクメモリ108に格納されている複数の対話タスクは、それぞれが独立のものであるのに対して、この第5実施例の場合、送信対話タスクメモリ108には、複数の対話タスクがその連結情報108aと共に格納されている。
【0159】
対話は1本道ではなく、相手の応答等によって異なるストーリーをとるので、1個の対話タスクによってこのような多様性に応じられるようにすると、その対話タスクは、かなり大きな容量を有するものとなる。そのため、そのメモリ容量や伝送容量や伝送時間との関係で実現性がないことにもなり得る対話環境がある。このような対話環境に対して、第4実施例を適用しようとすると、同一対話環境に関するものであるにも拘らず、別個の複数の対話タスクを形成することになる。例えば、一つの音声対話タスクが終了したときに、その結果によって他の音声対話タスクに続けるように、同一対話環境に関する対話タスクを複数に分割する場合がある。このような場合には、オペレータがそれまでの対話の流れを考慮して次の対話タスクを選定しなければならず、操作性としては不十分である。
【0160】
この第5実施例は、以上のようなことを考慮してなされたものであり、同一の対話環境を実現するものとして複数の対話タスクを用意し、それらを話の流れに従って自動的に連結することで、小さな複数の対話タスクによって対話を連続させることができるようにしたものである。
【0161】
すなわち、既述した実施例の場合、対話ジョブを単位として対話を実現させるものであったが、この第5実施例では、対話タスクTkそのものを、よりグローバルな対話を構成する要素であるとみなし、一度の通信では、対話タスク単位に送受信するが、受信側の装置で対話タスクが終了した時点で次の対話タスクが必要になると、それらを話の流れに従って自動的に連結することで、小さな複数の対話タスクによって対話を連続させるようにしたものである。
【0162】
これにより、1回の転送量を少なくすると共に、対話タスクを実現する際にアクセスされるメモリの容量も小さくできるようにした。すなわち、メモリの限度等を気にせずに音声対話を達成させることができる。また、この第5実施例のメリットは、例えば、相手方が次の対話ステップを望む場合にも対応できること、1個の対話シナリオの中に当該対話に必要と想定される全てのルーチンを網羅する必要はなくなり、これによって、対話シナリオの作成が容易になること、同時に不必要なルーチンを送信する損失が少なくなって大幅な通信コストの軽減が達成できること等が挙げられる。
【0163】
図19は、同一の対話環境に係る複数の対話タスクの関係例を示すものである。言い換えると、複数の対話タスクの分岐及び連結の様相をマクロ的観点から示したものである。
【0164】
図19においては、第1回目の通信で用いる第1番目の対話タスクをT11、第i回目の通信における第j番目の対話タスクをTijとしている。また、分岐図における各々の対話タスクは白丸ノードで表されており、このノードを起点とした複数のノードへの分岐(リンク)を有する。対話タスクTijが実行されると、その中の1個の分岐先ノードに至る分岐だけが選び出され、当該ノードと連結される。このとき、当該対話タスクTijが終了してこの一連の対話タスク連結が完了するノードは、白四角で表されており、便宜上、このノードには「E」という完了を意味する対話タスク名が付与されている。なお、図19で表された1個の分岐(リンク)は、実際の装置上においては、後述するように、1個の対話タスクが完了し、次に続く対話タスクが要求され、受信が完了する一連の動作に対応している。
【0165】
次に、図19に示す対話タスクの分岐図を、具体的なある用途(勿論一例である)との関係で説明する。
【0166】
今、サービス提供者が、商品Xをある顧客に売り込むために一連の対話タスクを送信するという状況を考える。まず、サービス提供者は、商品Xに関する興味をサーチする対話タスクT11を顧客に送信し、当該対話タスクT11が実行された結果、顧客には商品Xに対する興味が全くなくこれ以上対話が進展しないときには、対話タスクT11は終了し、ノードEに分岐する。すなわち、この一連の対話タスクは完了する。
【0167】
一方、顧客Bが商品Xに対して興味を持つと判断されたとき(例えば、対話タスクT11の進行により、対話タスクT11のある特定の分岐ルーチンに入ったときに相当)は、その興味の度合いや関心分野に応じて、それぞれ用意された特有の対話タスクT21又はT22に分岐する。また、興味を持つ可能性があると判断された場合には、その可能性の高低に従って、対話タスクT23又はT24に分岐する。ここで、対話タスクT21及びT22は積極的に商品Xを売込む対話タスクであり、対話タスクT23及びT24はまず顧客の関心を誘導しながら商品Xに対する関心を煽っていくための対話タスクである。
【0168】
対話タスクT21又はT22による対話の結果、惜しくも顧客が商品Xを購入しないということが決定した場合には、対話タスクT21又はT22はノードEに分岐し完了する。逆に、商品Xを購入することが決定した場合には、商取引対話タスクSに分岐し、商品Xの詳細な仕様、代金支払方法等を対話により決定する。
【0169】
また、対話タスクT23又はT24による対話をもってしても、顧客Bが商品Xに関心を持たなかった場合には、ノードEに分岐し全対話タスクは完了する。逆に、顧客の潜在的な関心を呼ぶことができた場合には、今度はその関心の高さに応じて積極的に商品Xを売り込む対話タスクT31、T32、T33又はT34のいずれかに分岐する。対話タスクT31、T32、T33又はT34による勧誘をもってしても、顧客が商品Xを購入しないと答えた場合には、ノードEに分岐し、一連の対話タスクは完了する。逆に、これらの対話タスクの勧誘による成果があり、顧客が商品Xを購入することを決定した場合には、商取引タスクSに分岐し、商品Xの詳細な仕様、代金支払方法等を対話タスクSによる対話によって決定する。
【0170】
これらのタスク分岐・連結の処理は、制御部101が、内部の通信手続きに関するプログラムや受信された対話タスク等に基づいて受信部109及び送信部110を起動させて相手装置との授受によって実行される。
【0171】
以上のような対話タスクの分岐・連結を実現するためには、受信された対話タスク等の中に対話の進展に応じて、次の対話タスクを指定し、対話タスクを送信した相手装置に対して、次の対話タスクを送信するよう要求する命令がなければならない。そこで、以下で、対話タスクの分岐・連結を実現する手段について説明する。
【0172】
第1実施例の説明において、対話シナリオを複数の対話ジョブで構成することが実際的であり、対話ジョブは一般的には図2に示すような構造を有するように形成されることを述べた。この第5実施例の場合、例えば、図2に示す構造の対話ジョブK等の他に、図20に示すような構造の対話ジョブLを用いて、対話シナリオを構成することによって、対話タスクの分岐・連結を実現する。
【0173】
以下、対話ジョブLの各命令の実行を順を追って説明する。まず、合成文GL 出力命令によって、合成文GL が発音出力され、それに対する使用者Bの返答を待機する。使用者Bが返答すると、発声された音声は、音声認識実行命令に基づいて認識される。当該認識結果は、有り得る認識結果B1 、B2 、B3 、…、Bm のいずれかに分類され、SWITCH(認識結果)の命令によって、分類された認識結果に各分岐先が指定される。
【0174】
例えば、認識結果がB1 の場合には対話ジョブI1 が実行される。この場合は、図2に示した対話ジョブKと同様である。
【0175】
認識結果がB2 の場合には、合成文GM が発音出力された後、RETURN命令によって当該対話タスクTijから抜け出る。つまり、この分岐は、一連の対話タスクの終了を意味し、合成文GM によって、使用者Bに終了する旨を知らせた後に終了するというものである。
【0176】
認識結果がB3 に分類されると、当該対話ジョブL、従って対話タスクTijは終了するが、次に続く対話タスクT(i+1)1を送信側装置100Aに要求する。まず、要求する対話タスクに関する対話シナリオアドレスとしてP1 、対話データアドレスとしてD1 が与えられ、対話タスク・リクエスト命令によって、対話タスク要求命令及び両アドレスP1、D1が送信側装置100Aに向けて送信される(後述する図21参照)。対話タスク要求命令を受信した送信側装置100Aでは、まず、受信データの対話シナリオアドレスP1 及び対話データアドレスD1 に基づいて、送信対話タスクメモリ108Aから要求された対話シナリオ及び対話データをサーチし、それらが見い出されると、それぞれ対話シナリオメモリ102A及び対話データメモリ103Aにローディングされた後、送信部110Aから対話の実行に係る音声情報通信装置100Bに送信され、装置100Bにおいて新たな対話タスクT(i+1)1が実行される。
【0177】
認識結果がB4 、…、Bm に分類されたときも同様に、対話シナリオアドレスP2 、…、P(m-2) 及び対話データアドレスD2 、…、D(m-2) で特定される対話タスクT(i+1)2、…、T(i+1)(m-2)が対話タスク・リクエスト命令によって要求され、認識結果がB3 のときとは異なる新たな対話タスクT(i+1)2、…、T(i+1)(m-2)との連結が実行される。
【0178】
以上のように、音声認識の結果に応じた分岐先に、次に続く対話タスクに関する対話シナリオアドレス、対話データアドレス及び対話タスク・リクエスト命令を与えることによって、対話タスクの連結が可能となり、対話相手(当該装置使用者)の反応に柔軟に対応した連結を実行できる。
【0179】
次に、対話タスクの分岐・連結機能を有する第5実施例の音声情報通信装置100A及び100B間の通信手続き例を図21を参照しながら説明する。図21においては、上述した図3及び図10との同一、対応処理には同一符号を付して示しており、また、紙面の都合上、情報等の詳細は省略している。
【0180】
ここでも、音声情報通信装置100Aの使用者Aが送信者、音声情報通信装置100Bの使用者Bが受信者である場合を想定している。また、音声対話環境を実現するタスクT1、T2、…、Tnが用意されており、それぞれのタスクを実現する対話シナリオS1、S2…、Sn及び対話データD1、D2、…、Dnが装置100Aの送信対話タスクメモリ108Aに格納されているとする。使用者Aは自らのメッセージを相手Bに伝えるようとするとき、まず、当該意思を伝達するのに最も適したタスクT11を実現する対話シナリオSk及び対話データDkを送信対話タスクメモリ108から選び出しておく。
【0181】
このような対話タスクT11を、通信装置100Aから通信装置100Bに転送する処理自体は、既述の実施例と同様であるので、その説明は省略する。
【0182】
音声情報通信装置100Bの使用者Bは、対話タスクT11の受信メッセージに気付いたときに、対話タスクT11が受信されたことを認識し、受信された対話タスクT11を実行する(T112B)。
【0183】
すなわち、使用者Bが当該対話タスクT11を実行する命令を出すと、制御部101Bは、対話シナリオメモリ102B内の対話シナリオ(プログラム)S11を解読し、その命令に従って、例えば音声合成部106Bを起動させ、使用者Bに問いかける。この問いかけに対し、使用者Bが音声でもって答えた場合、音声認識部104Bはその音声を認識し、その認識結果を制御部101Bに伝達する。制御部101Bは、対話シナリオに記述された手続に従って、当該認識結果に基づいて、次の質問事項を選び出して音声合成出力する。また、必要に応じて対話データメモリ103Bに格納された知識データベース構成の対話データをサーチして、使用者Bからの質問に対する返答を音声合成出力する。
【0184】
以下、同様な処理が繰り返され、対話タスクT11に基づく送信者A及び受信者B間の音声対話が実現される。
【0185】
このような対話タスクT11の実行時には、対話履歴管理部114Bによる対話履歴の管理が行なわれ、コンパクトな表現の対話履歴データに変換され、この対話履歴データが対話履歴管理部114Bの内蔵バッファに一時的に格納される(T113B、T114B)。
【0186】
対話タスクT11による対話が進展し、図20に示したような対話ジョブLに分岐した場合において、使用者Bの返答の認識結果が、B3 、…、BM 等に分類されたときは、対話タスク・リクエストとなる(T120SB、T120RA)。対話タスク・リクエストでは、まず、対話タスク・リクエスト命令REQ1が送信部110Bから対向装置100Aの受信部109Aに向けて発せられ、その後、要求する対話シナリオアドレスREQ2及び対話データアドレスREQ3が伝達される。
【0187】
対話タスク・リクエストを受信した装置100Aでは、まず、送信対話タスクメモリ108Aの中から、要求された対話シナリオ及び対話データをサーチし、それぞれを対話シナリオメモリ102A及び対話データメモリ103Aにローディングして送信の準備をする(T121A、T122A)。
【0188】
この音声情報通信装置100Aの制御部101Aは、既に送られてきている上述した装置100Bについての管理情報ADMを継続して内部メモリに保持しており、新たな対話タスクT2xについて、要求された対話シナリオ及び対話データのデータ量に基づいてた送信可能性のチェック(T103A)から処理を繰り返す。ここで、送信可能性チェックは、例えば、今現在装置100Bのメモリ102B、103Bに存在している対話シナリオS11、対話データD11等が2度と使われない場合は、これらを消去して残ったメモリ量が、これから送信するデータ量を越えているか否かによって判断される。例えば、タスク分岐・連結が図18のように後戻りせず、各ノードが全て異なっているような場合には上記のようなチェックで良い。これに対して、図19にような分岐構造でなく、フィードバックループを含むような場合には、すなわち、一度送信した対話タスクが再度用いられる可能性があるときは、この送信可能性チェックは、装置100B側において対話シナリオ等が消去されていないときの残ったメモリ容量に基づいて判断される。
【0189】
従って、音声情報通信装置100Bの使用者Bは、次には新たな対話タスクT2xによる対話を行なうことになる。
【0190】
ここで、対話タスクT2xによる対話が進展し、図20に示したような対話ジョブLに分岐し、使用者Bの返答の認識結果が例えばB2 に分類されたとする。このときには、合成文GM によって、対話終了の旨が使用者Bに通知されて、一連の対話タスクは当該対話タスクT2xをもって完了する(T130B)。対話履歴管理部114Bは、対話が完了すると、制御部101Bの命令によって、対話履歴データを送信部110Bに転送して対向する音声情報通信装置100Aに送信させる(T115B)。
【0191】
音声情報通信装置100Aにおいては、受信部109Aで受信したデータが対話履歴データであることを識別すると、それを対話履歴メモリ115Aに転送し、対話履歴メモリ115Aに全ての対話履歴データが転送されると、対話履歴の受信処理が完了し、その使用者Aに対話履歴データを受信したことを示すLEDに対する点灯等の表示を行なう(T116A)。使用者Aが、その受信表示を見て対話履歴の表示を制御部101Aに対して要求すると、制御部101Aは、対話履歴メモリ115Aのデータに基づいて、対向する音声情報通信装置100Bにおける対話履歴を使用者Aに提供する(T117A)。
【0192】
この第5実施例においても、対話履歴データのデータ構造として、上述した図11、図12又は図13のいずれをも適用可能である。なお、図13に示すデータ構造を採用した場合において、対話ジョブのアドレスが対話シナリオ(その対話タスク)中の相対アドレスで与えられるものであると、連結された新たなタスクでは、合成文を一意に規定できない。このときには、対話ジョブのアドレスは、当該対話タスクを、連結された他のシナリオと区別するための番号と当該相対アドレスのペアからなっていることを要する。
【0193】
対話履歴データを受信した音声情報通信装置100Aにおいて、対話履歴を使用者Aに提供する方法としても、第4実施例について説明した(1) 〜(4) の提供方法を適用することができる。
【0194】
この第5実施例の場合、さらに、(5) 連結対話の主要な結果を手短に要約して出力するという方法を適用しても良い。
【0195】
一般に、対話タスクの送信側の装置使用者Aが最終的に知りたいのは対話の結論であるから、時間的に余裕がないときは、その部分だけを抜き取って出力する方法がある。その際に、途中経過を含めて知りたいときに対応できるようにしたのが提供方法(5) であり、連結された各対話タスク毎の結論を順次出力するものである。
【0196】
図22は、この提供方法(5) を実現するために制御部101Aが実行する処理を示したフローチャートである。
【0197】
制御部101Aは、当該装置100Aの使用者Aがキーボード等の入力装置によって、提供方法(5) を指示したときに、図22に示す処理を開始し、まず、受信した対話履歴データの中から、未処理状態の最も速い時期に対話が実行された対話タスクにおける、対話者Bの最終の返答情報を取出す(ステップS190A)。そして、その対話タスクに応じて定まっている定型文の空きスペースに、その返答情報を挿入し、発音又は表示出力させる(ステップS191A)。
【0198】
ここで、対話履歴データのデータ構造が図11に示すものであれば、対話タスクに応じて定まっている定型文の空きスペースに音声認識コードをそのまま挿入し、データ構造が図12や図13に示すものであれば、アドレスや返答分類等の返答情報をキャラクタコード等に変換して対話タスクに応じて定まっている定型文の空きスペースに音声認識コードを挿入する。より具体的な方法例としては、対話タスクの結論に係わる対話ジョブを予め選び出し、その認識結果の分類項目毎に結論出力用の定型文を対応させておいて、対話履歴データの中で当該対話ジョブがあったときに、その認識結果の分類番号からそれに対応する定型文を認識結果コード番号列で補いながら出力するという方法を挙げることができる。
【0199】
このようにして連結されている複数の対話タスクの1個について、その結論情報を出力すると、直前に結論情報を出力した対話タスクが連結されている中の最終のものか否かを確認し(ステップS192A)、肯定結果を得た場合には上述したステップS190Aに戻って次の対話タスクを出力処理対象とし、否定結果を得た場合には、一連の対話履歴の提供処理を終了する。
【0200】
対話タスクを連結可能に形成する場合、ある意図をもって、対話タスクを分けている。例えば、装置100Bの使用者Bはどの程度商品Xに関心があるのか、勧誘の結果どの程度関心が高まったのか、使用者Bは商品Xを購入するのか、使用者Bはどのような方法で購入するのかといったような各観点の結論を、各対話タスクの処理で得られるように、観点毎に対話タスクが形成されている。従って、各対話タスク毎に結論出力用の定型文を用意することができる。例えば、「対話者の商品Xについての関心度はXXXです。」といった定型文を用意しておき、認識分類項目及び認識結果等からXXXに当てはまる語を判断し、出力すれば良い。なお、対話者が定まっている場合等には、相手方の名前を定型文に挿入するようにしても良い。
【0201】
従って、上記第5実施例によれば、第1、第4実施例と同様な効果に加えて、同一の対話環境を実現するものとして複数の対話タスクを用意し、それらを話の流れに従って自動的に連結するようにしたので、1回の転送量を少なくでき、対話タスクを実現する際にアクセスされるメモリの容量も小さくでき、メモリの限度を気にせずに音声対話を達成できると共に、対話タスクの作成を容易にでき、同時に不必要なルーチンを送信する損失が少なくなって大幅な通信コストの軽減が達成できる。
【0202】
この第5実施例の実社会上の有効な利用例としては、第4実施例と同様な商品Xの売り込み営業を挙げることができる。第5実施例の場合には、顧客Bの対応に応じた次の対話タスクをサービス提供者が手動によって選択するのではなく、対話タスクの分岐・連結情報に応じて自動的に選択される。
【0203】
(F)他の実施例
本発明は、上述した第1〜第5実施例に限定されるものでなく、種々の変形が可能なものであり、変形実施例をいくつか例示すると、以下のものを挙げることができる。
【0204】
(1) 通信手続やデータフォーマットや動作シーケンス等は、上記実施例のものに限定されず、対話シナリオや対話データ等の送受信や条件設定が、上記実施例と同一の効果をもたらす範囲内であれば任意好適に設定できる。
【0205】
(2) 第2実施例や第3実施例に関連して、音声認識辞書の切り換え又は編集作業を、送信側が受信側から受け取った管理情報から判断して受信側に命令するものであっても良い。また、受信側の制御部が送信側の対話タスクパラメータより判断して行なってもよい。
【0206】
(3) 対話タスク(対話シナリオ及び対話データ)の送信方法に関しても、電話回線、イーサネット、電磁波等によるもの以外であっても良く、また、データの種類に応じて回線等が複数あっても良い。さらに受信データの識別に関しても、受信された順番(アドレス)によって決められる方法以外であっても良く、例えば、異なる回線、周波数を用いることも可能である。
【0207】
(4) 上記実施例においては、いくつかのメモリが必要であるが、これを1個のメモリで代替させ、アドレス指定でもってデータを指定するというようにもできる。
【0208】
(5) 対話シナリオの中に対話データが予め実装されている形式であっても良い。すなわち、対話シナリオと対話データとを融合した(分離できない)対話タスクであっても良い。
【0209】
(6) 対話実行者(B)への質問提示を、音声合成のみならず、ディスプレイ上への文字、画像等の表示によっても行なうようにし、受信者への伝達情報をより豊かにして楽しい音声対話環境を実現することができる。また、音声認識機能を補う意味でキーボードやマウスによる入力も考えられる。
【0210】
(7) 上記実施例では送信者が主で受信者が従の関係であったが、その逆の関係又は互いに平等の関係においても、音声対話が実現できることはいうまでもない。対話タスクを欲する者が主導権をとって対話タスクの通信を実行するようにしても良い。この場合には、対話タスク自体は送信側に予め格納されているが、対話タスクの種類情報等を受信側に設けておいたり、対話タスクの送信に先立って種類情報だけを転送させたりすることを要する。
【0211】
(8) 上記実施例においては、送信者の音声情報通信装置と、受信者の音声情報通信装置とが同等のものを示したが、必ずしも同等である必要はない。すなわち、送信側装置が、少なくとも対話タスクの送信構成を備え、受信側装置が、少なくとも対話タスクの受信構成と対話実行構成とを備えていれば良い。
【0212】
(9) 第5実施例においては、対話タスクの自動連結と、対話履歴の返送との両機能を実現できるものを示したが、対話タスクの自動連結機能と、対話履歴の返送機能とは一体不可分なものではなく、対話タスクの自動連結機能だけを実現するものであっても良い。
【0213】
【発明の効果】
以上のように、本発明の音声情報通信システムにおいては、送信者は、音声対話環境を実現できる詳細な手続等を記述した対話タスクを受信者に送信し、受信者が適当なタイミングで受信した装置上で対話タスクに基づいて送信者と対話できるので、受信者が通信時に不在であったり、伝送遅延時間が大きい遠隔地に居る場合でもかなり詳細な対話を行なうことができ、また、対話を行なう時刻や信号の伝送時間等の制約を受けることが少なくなり、しかも、相手の返答に応じて自分の意思を伝達することができる。
【図面の簡単な説明】
【図1】 第1実施例の構成を示すブロック図である。
【図2】 対話シナリオの構成単位である対話ジョブの構成例を示す説明図(その1)である。
【図3】 第1実施例の通信シーケンス図である。
【図4】 第1実施例の制御部の通信処理を示すフローチャート(その1)である。
【図5】 第1実施例の制御部の通信処理を示すフローチャート(その2)である。
【図6】 第1実施例の制御部の通信処理を示すフローチャート(その3)である。
【図7】 第2実施例の構成を示すブロック図である。
【図8】 第3実施例の構成を示すブロック図である。
【図9】 第4実施例の構成を示すブロック図である。
【図10】 第4実施例の通信シーケンス図である。
【図11】 対話履歴データの構造例を示す説明図(その1)である。
【図12】 対話履歴データの構造例を示す説明図(その2)である。
【図13】 対話履歴データの構造例を示す説明図(その3)である。
【図14】 対話履歴の外部への提供方法を示すフローチャート(その1)である。
【図15】 対話履歴の外部への提供方法を示すフローチャート(その2)である。
【図16】 対話履歴の外部への提供方法を示すフローチャート(その3)である。
【図17】 対話履歴の外部への提供方法を示すフローチャート(その4)である。
【図18】 第5実施例の構成を示すブロック図である。
【図19】 対話タスクの分離・連結構造の説明図である。
【図20】 対話シナリオの構成単位である対話ジョブの構成例を示す説明図(その2)である。
【図21】 第5実施例の通信シーケンス図である。
【図22】 対話履歴の外部への提供方法を示すフローチャート(その5)である。
【符号の説明】
100A、100B…音声情報通信装置、101…制御部、102…対話シナリオメモリ、103…対話データメモリ、104…音声認識部、105…音声認識辞書、106…音声合成部、107…音声合成データメモリ、108…送信対話タスクメモリ、109…受信部、110…送信部、111…辞書メモリ、112…辞書選択編集部、114…対話履歴管理部、115…対話履歴メモリ、116…対話履歴提供用知識ベース、120…伝送路。

Claims (1)

  1. 第1及び第2の音声情報通信装置が伝送路を介して接続されており、
    上記第1の音声情報通信装置が、
    上記第2の音声情報通信装置に、所定内容の合成文の発音出力命令と使用者の音声認識実行命令と使用者の音声認識結果に応じて異なる内容を出力させるための複数の対話ジョブとから構成される対話シナリオと、音声対話を実現する上で必要な対話データとでなる予め形成されている複数の対話タスクを格納している送信用対話タスク記憶手段と、
    上記第2の音声情報通信装置との通信動作を実行する第1の通信手段と、
    上記第1の通信手段による通信動作や、上記送信用対話タスク記憶手段からの送信する対話タスクの取出し動作を制御する第1の制御手段とを備え、
    上記第2の音声情報通信装置が、
    上記第1の音声情報通信装置との通信動作を実行する第2の通信手段と、
    上記第1の音声情報通信装置から送信されてきた対話タスクを記憶する受信対話タスク記憶手段と、
    上記第2の通信手段による通信動作を制御すると共に、上記受信対話タスク記憶手段に記憶されている対話タスクの上記発音出力命令及び上記音声認識実行命令に従って、所定内容の合成文の発音出力及び音声認識を制御する第2の制御手段と、
    上記第2の制御手段の制御により、当該装置使用者の発音音声を捕捉し、その発音音声の意味内容を所定方式に従って認識する音声認識手段と、
    上記第2の制御手段から与えられる、所定内容の合成文を発音出力する音声合成手段とを備え、
    上記送信用対話タスク記憶手段は、他の対話タスクに分岐、連結する分岐、連結対話ジョブを、対話シナリオの構成としてもつ対話タスクを記憶し、上記第1の制御手段は、指定された対話タスクを上記第1の通信手段によって、上記第2の音声情報通信装置に送信させ、
    上記第2の制御手段、上記音声認識手段による認識結果と対応する対話ジョブを選出し、その選出した対話ジョブに従って予め設定された合成文を上記音声合成手段に発音出力させるが、上記認識結果に応じて選出した対話ジョブが上記分岐、対話ジョブである場合には、当該対話タスクの実行を終了し、上記分岐、連結対話ジョブに設定されている対話タスクを次に実行すべき対話タスクとして、上記第2の通信手段を介して上記第1の音声情報通信装置に要求する
    ことを特徴とする音声情報通信システム。
JP10302194A 1994-05-17 1994-05-17 音声情報通信システム Expired - Fee Related JP3844367B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10302194A JP3844367B2 (ja) 1994-05-17 1994-05-17 音声情報通信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10302194A JP3844367B2 (ja) 1994-05-17 1994-05-17 音声情報通信システム

Publications (2)

Publication Number Publication Date
JPH07311671A JPH07311671A (ja) 1995-11-28
JP3844367B2 true JP3844367B2 (ja) 2006-11-08

Family

ID=14342999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10302194A Expired - Fee Related JP3844367B2 (ja) 1994-05-17 1994-05-17 音声情報通信システム

Country Status (1)

Country Link
JP (1) JP3844367B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4000828B2 (ja) * 2001-11-06 2007-10-31 株式会社デンソー 情報システム、電子機器、プログラム
JP4174233B2 (ja) * 2002-04-24 2008-10-29 株式会社日立製作所 音声対話システム及び音声対話方法
JP6359327B2 (ja) * 2014-04-25 2018-07-18 シャープ株式会社 情報処理装置および制御プログラム
CN108415932B (zh) * 2018-01-23 2023-12-22 思必驰科技股份有限公司 人机对话方法及电子设备

Also Published As

Publication number Publication date
JPH07311671A (ja) 1995-11-28

Similar Documents

Publication Publication Date Title
US8036897B2 (en) Voice integration platform
US7609829B2 (en) Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US7286985B2 (en) Method and apparatus for preprocessing text-to-speech files in a voice XML application distribution system using industry specific, social and regional expression rules
US20050091057A1 (en) Voice application development methodology
US7242752B2 (en) Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application
US20110106527A1 (en) Method and Apparatus for Adapting a Voice Extensible Markup Language-enabled Voice System for Natural Speech Recognition and System Response
EP1976255B1 (en) Call center with distributed speech recognition
US7277855B1 (en) Personalized text-to-speech services
US8374859B2 (en) Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
US10475451B1 (en) Universal and user-specific command processing
CN100401375C (zh) 语音处理系统及方法
US20030200094A1 (en) System and method of using existing knowledge to rapidly train automatic speech recognizers
CN108010523A (zh) 信息处理方法以及记录介质
JPH11224179A (ja) 対話インタフェース・システム
US20060069570A1 (en) System and method for defining and executing distributed multi-channel self-service applications
KR102241532B1 (ko) 지능형 콜봇 서버 및 이를 이용한 무인 상담 방법
CN107122154A (zh) 资源受限设备中离线语义处理的便利化
GB2165969A (en) Dialogue system
CN111128175B (zh) 口语对话管理方法及系统
JP3844367B2 (ja) 音声情報通信システム
KR102147619B1 (ko) 전화 통화를 관리하는 방법 및 이러한 방법을 실행하는 인공지능 비서 시스템
Lazzari Spoken translation: challenges and opportunities
JP2002215670A (ja) 音声応答装置、音声応答方法、音声応答プログラム、音声応答プログラムを記録した記録媒体および予約システム
CN113836932A (zh) 交互方法、装置和系统,以及智能设备
KR102695585B1 (ko) 감성적 소통이 가능한 대화형 인공지능 시스템 및 인공지능 서버

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040528

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050708

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060815

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090825

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100825

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100825

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110825

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees