JPH01227557A

JPH01227557A - 自動電話応答装置

Info

Publication number: JPH01227557A
Application number: JP5392388A
Authority: JP
Inventors: Hiroyuki Nishi; 宏之西; Junji Kojima; 小島　順治
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1988-03-07
Filing date: 1988-03-07
Publication date: 1989-09-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】「産業上の利用分野」この発明は応答メツセージの送出と相手音声の入力によ
り電話の取り次ぎや伝言を行う自動電話応答装置、特に
人間にとってより使いやすい対話を実現する装置に関す
るものである。

「従来の技術」従来のこの種の装置、例えば留守番電話、音声メール等
は、通常第１図に示すように、着信を検出した後、自動
的にループを閉成し、応答、メツセージの送出を行った
のちに用件メツセージの録音を行い、ループを開放する
動作を行う。この場合用件メツセージを一度に発声しな
くてはならないため、発呼者は自分の名前・電話番号・
用件等を短時間に整理して話し始めなければならなかっ
た。

従って発呼者に対して大きな心理的な負担を与えること
となり、結果的には録音された用件内容が不十分であっ
たり、用件を録音することなく切断する発呼者が多いと
言う欠点があった。これらの問題点を解決するため、第
２図に示すように発呼者名・電話番号・用件等を一項目
づつ対話形式により誘導して録音する対話形留守番電話
装置が提案されている（特願昭６Ｏ−２７５６６）。

しかしながらこのような方法を用いても、通常の人間同
士の会話と比較すると、機械を相手に発声することによ
る心理的な負担は依然として存在する。以上の問題点を
解決するためには、人間同士と同様の自然な対話の実現
が必要である。そのための方法の一つとして、機械が人
間の発声内容をすべて認識し、認識結果に応じて機械の
発声内容を制御する方法が考えられるが、不特定の話者
が発声した連続音声を実時間で認識する必要があり、現
状の音声認識技術ではきわめて困難であり、そのような
技術を用いずに上記対話を実現する手法の確立が望まれ
ている。

「課題を解決するための手段」この発明によれば複数の応答メツセージを格納する応答
メツセージ格納手段と、回線からの入力音声の有無を検
出する入力音声検出手段と、その入力音声検出手段から
の情報を基に入力音声に含まれる無音区間の長さを計測
する無音時間長測定手段と、入力音声のポーズ区間に相
づちを送出するための無音時間長しきい値情報を格納す
る相づち無音時間長しきい値格納手段と、無音時間長測
定手段から得られる無音時間長を相づち無音時間長しき
い値と比較する相づち無音時間長比較手段と、相づち音
声情報を格納する相づち音声格納手段と、相づち無音時
間長比較結果信号に基づいて相づちを送出する相づち音
声送出手段と、発声終了を検出するための無音時間長し
きい値情報を格納する発声終了検出無音時間長しきい値
格納手段と、相づち送出後の無音時間長と発声終了検出
無音時間長しきい値情報とを比較する発声終了検出無音
時間長比較手段と、発声終了検出無音時間長比較結果信
号に基づいて、利用者の発声終了を検出した後に応答メ
ツセージを送出する応答メツセージ送出手段とを備える
。

請求項２の発明によ゛れば、更に相づちによって区切ら
れた利用者の発声回数を計測する発声回数計測手段と、
入力音声検出手段からの情報を基に入力音声の長さを計
測する音声長測定手段と、複数の音声長しきい値情報を
格納する音声長しきい値格納手段と、音声長測定手段か
ら得られた音声長を音声長しきい値と比較する音声長比
較手段と、利用者の発声回数情報と音声長比較結果信号
に基づいて応答メツセージを選択し回線に送出する応答
メツセージ選択手段とを備える。

「作　用」人間同士の取り次ぎ会話の例を第３図に示す。

図に示すように着信直後の会話には相づちがしばしば出
現する。相づちは発呼者の発言を促すと共に会話を滑ら
かに進行させる相の手のような役目を担っている。従っ
て人間対機械の対話の場合においても第３図のように、
相づちを用いることにより自然で発呼者に与える心理的
負担の小さい電話応答装置の実現が期待できる。

この発明によれば発呼者の音声中（−含まれるポーズ区
間に相づちを送出することによって発呼者の発言を促進
し、相づちの後の無音時間の長さが一定のしきい値を越
えた時点で発呼者の発声が終了したと判断する。

またこの種の装置においては、発呼者が誰であるかを知
ることが装置の所有者に取って非常に有益であるが、請
求項１の発明のみの機能では必ずしも発呼者が名乗ると
は限らない。一方、機械的に相手の名前を訪ねる方法は
発呼者に対して心理的な負担を与え、また第一声で自ら
名乗りた発呼者には２度名乗らせることになりマンマシ
ンインタフェース上の問題が生じる。そこで発呼者が自
ら名前を名乗らなかった場合にのみ名前を問うようにす
ることがこの種の装置の重要な機能と考えられる。発呼
者が名乗ったか否かを識別する方法として音声認識技術
を用いることが考えられるが、電話回線を経由した不特
定話者の連続音声を実時間で認識することは現状では不
可能である。

この発明によれば相づちによって区切られた発呼者の発
声回数と各々の音声の長さによって発呼者の音声中に発
呼者名が含まれているか否かを確率的に判断し、含まれ
ていればそのまま取り次ぎまたは伝言の入力を続け、含
まれていなければ発呼者名の名乗りを促して発呼者名が
入力された後に電話の取り次ぎや伝言の入力を行う。

「実施例」はじめにこの発明の詳細な説明において使用される用語
の解説を行う。

■相づち電話の取り次ぎ・伝言会話における相づちの例を第３図
の°例１及び例４に示す。

相づちは図に示すように、着信直後の会話にしばしば出
現し、発呼者音声が確か（二伝達されていることの確認
信号ｆとして、あるいは会話を滑らかに進行させるため
の相の手として使用される。

またこのような会話は発呼者の音声のポーズ区間に相づ
ち「はい」を送出し、相づちの後、一定時間の無音が継
続した場合に発声終了と見なすことにより機械的に実現
できる。

相づちのための用語としては「はい」の他「ええ」など
も用いられる。

利用者（発呼者）は場合によっては相づちを期待または
予想してポーズをおくことがあり、そのような場合に相
づちが返されない場合は利用者にとってきわめて不自然
な対話となることが予想される。

■音声ブロック第３図において、相づちによりて区切られた発呼者の音
声区間を音声ブロックと呼ぶ。第３図の例１は２つ、例
２および例３は各１つ、例４は３つの音声ブロックから
構成されている。

■キーワードネットワーク第３図における各音声ブロックにおいて、システムが対
話の制御に必要な情報は下線ｆ施した部分のみであり、
その他の部分は慣用的に用いられる冗長な表現であると
いえる。図に示したように発呼者名をＣ（ｃａｌｌｅｒ
の頭文字）、被呼者名をＲ（ｒｅｃｅｉｖｅｒ　）、電
話会話にしばしば現れる表現である「もしもし」をＭ、
その他の表現な０（ｏｔｈｅｒｓ）とし、各音声ブロッ
クを１または２個のキーワードで代表させると、（例１
）はＣ−Ｒ１（例２、）はＲ１（例３）はＣＲ１（例４
）はＭ−Ｃ−Ｒと表現される。

これらの表現を対話推移のキーワード表現と呼び、様々
なキーワード表現を総合的に示したも、のをキーワード
ネットワークと呼ぶこと（：する。

キーワードネットワークの例を第４図に示す。

次（二第３図のような会話を機械的に実現するための処
理方法、即ち相づちを用いて相手の話し終わり（発声終
了）を検出する方法を述べる。

相づち前後の発声タイミングを第５図に示す。

ここでＸは相づちを送出する前に観測すべきポーズ時間
の長さである。Ｙは相づち送出後の発声終了検出無音時
間長である。

このＸ、Ｙの値を基に発呼者の発声終了を検出する方法
を第６図に示す。ｌ’−ＮＴＴ商事です」の発声の後に
「山田と申しますが」が発声開始されると、その開始が
検出され、その音声の無音時間長Ｘが検出計測され、Ｘ
がしきい値Ｔｈｌより大であるか否かがチエツクされ、
Ｘ＜Ｔｈｌならば無音時間長Ｘの検出計測がなされる。

Ｘ＞Ｔｈｌならば相づち「へイ」が送出され、その後、
有音、例えば「絵本さんいらっしゃいますか」が発声さ
れているかが調べられ、有音の場合は無音時間長Ｘの検
出計測とＸ＞Ｔ　ｈ　１　？のチエツクが行われ、相づ
ち送出が繰り返される。相づち送出後、有音でなく、無
音であり、その無音時間長Ｙがしきい値Ｔｈ２を超える
と発声終了と判断して、例えば「少々お待ち下さい」が
応答される。

さらに入力された音声がキーワードネットワークのいず
れのパスを通りだかを推定する方法について説明する。

第４図より相づちによって区切られた音声ブロックの数
をもとに、第７図に示すようにある確率でパスを限定す
ることができる。

第７図の確率は各々の対話推移の出現頻度に基づいて求
めたものであり、横方向に加えると１になる。音声ブロ
ック数が１の場合は、ＣＲかＲとなり、しかもＲとなる
確率が８０％であることを示す。このよう（；音声ブロ
ック数によりとるパターンが決ったものとなる。なお音
声ブロック数２の場合で０−ＣＲパターンは発生確率が
Ｏであるが発生する可能性があることを示す。

さらにパスを絞るため、各音声ブロックの音声長を用い
る。パス推定処理の例を第８図に示す。

第８図の詳細な動作説明は後の実施例の項で説明する。

またしきい値ＴＨＩ　、ＴＨ２，ＴＨ３は各音声ブロッ
クの長さの統計的な性質から求めることができる。

第９図はこの発明の一実施例を示す対話形電話応答装置
の回路ブロック図である。先ず局線から着信があると、
着信検出手段１がこれを検出し、制御手段２に出力する
。制御手段２は所定時間経過後、フックスイッチ３と並
列に接続されたループ制御手段４を作動せしめてループ
を閉成し、自動着信動作を終了する。

次に制御手段２は応答メツセージ格納手段５に予め登録
された第一の応答メツセージ（例えば「はい、ＮＴＴ商
事です」）を、通話回路６の送話端子に接続された応答
メツセージ送出手段７を動作させることにより、局線に
送出する。その後、入力音声検出手段８により発呼者の
発声開始を監視し、発声の開始が確認された後は無音区
間の検出を行う。無音が検出された後は無音時間長測定
手段９を用いて、入力音声の中シニ含まれるポーズ区間
の長さを測定する。

相づち無音時間長比較手段１０は無音時間長測定手段９
によって得られたポーズ時間の長さが相づち無音時間長
しきい個格納手段１１に格納されている値より長いか否
かを調べ、長い場合は相づちメツセージ格納手段１２お
よび相づちメツセージ送出手段１３により相づちを局線
に送出する。

短い場合は再びポーズ時間の長さの測定を繰り返す。ポ
ーズ時間長が相づち無音時間長しきい値に達する前に音
声が検出された場合は、再び入力音声検出手段８により
音声の検出を行う。

相づち送出後、次のように発声終了検出動作を行う。発
声終了検出無音時間長比較手段１４は入力音声検出手段
８により無音状態が継続していることを確かめながら、
無音時間長測定手段９から得られる相づち送出後の無音
時間の長さを発声終了検出無音時間長しきい個格納手段
１５に格納されている値と比較し、無音時間長測定手段
９から得られる値の方が長ければ発声終了と判断する。

短い場合は再び測定を繰り返す。無音時間長が発声終了
検出無音時間長しきい個格納手段１５に格納されている
値に達する前に、入力音声検出手段８により音声が検出
された場合は、再び相づちを送出するための無音区間の
検出を行う。

以上の動作を繰り返すことにより相づちの送出及び発声
終了の検出を行・うことかできる。以上が請求項１の発
明の動作の実施例である。

次に請求項２の発明の動作の実施例を述べる。

上記説明の方法により発声終了を検出する際、音声長測
定手段１７は相づちによって区切られた各音声ブロック
の長さを測定する。以下の処理は発声回数計測手段１６
によって得られた音声ブロックの数により第８図のよう
に４通りの場合に分けられる。

（音声ブロック数が１の場合）応答メツセージ選択手段１９は、音声長を音声長しきい
値格納手段１８に格納されているＴＨ２と比較し、音声
長の方が長ければ、第４図におけるＣＲパターンである
と判断し、短ければＲであると判断する。

（音声ブロック数が２の場合）応答メツセージ選択手段１９は、第一の音声ブロックの
長さがＴＨＩよりも短ければ、第一の音声ブロックは「
もしもし」であると判断でき、ＴＨｌよりも長ければ「
もしもし」以外の音声であると判断する。

第一の音声ブロックが「もしもし」の場合は、＼第二の音声ブロックの長さがＴＨ２より長ければ第４図
のＭ−ＣＲ１短ければＭ−Ｒと推定する。

第一の音声ブロックの長さが「もしもし」以外の場合で
、第二の音声ブロックがＴＨ２より長ければ０−ＣＲ１
短ければＣ−ＲまたはＯ−Ｒとなる。

この場合第一の音声ブロックの長さがＴＨ３より長けれ
ばＣ−Ｒ１短ければ０−Ｒと推定できる。

（音声ブロック数が３の場合）応答メツセージ選択手段１９は第一の音声ブロックの長
さがＴＨＩよりも短ければ第一の音声ブロックは「もし
もし」であると−判断し、Ｍ−Ｃ−Ｒと推定する。第一
の音声ブロック長の長さがＴＨｌよりも長ければ第二の
音声ブロックの長さがＴＨ３より長ければＣ−０−Ｒ１
短ければＯ−Ｃ−Ｒと推定される。

（音声ブロック数が４の場合）応答メツセージ選択手段１９は、第４図および第一の音
声ブロックの長さによりパターンの推定ができる。第一
の音声シロツクが「もしもし」以外の場合は０−Ｃ−０
−Ｒ１「もしもし」の場合はＭ−Ｃ−０−Ｒであると判
断できる。

以上の処理によりパターンにＣまたはＣＲが含まれてい
る場合は利用者が名前を名乗っていると判断できるので
、取り次ぎ処理の場合は応答メツセージ格納手段より「
少々お待ち下さい」なる音声メツセージを選択し、応答
メツセージ送出手段により回線に送出する。留守番処理
の場合は「ただ今不在です用件を録音しますのでどうぞ
お話下さい」等を送出する。

一方、Ｃが含まれていない場合は利用者が名前を名乗っ
ていないと判断できるので「恐れ入りますがどちら様で
しょうか」などのメツセージで発呼者名を要求し相手が
名乗った後に、前記取り次ぎや留守番の処理を行う。

「発明の効果」以上説明したよう（二この発明の自動電話応答装置を用
いることにより、発呼者の発声終了をマンマシンインタ
フェースよく、信頼性高く、かつ速やかに検出すること
ができる。また不特定話者連続音声認識のような難しく
高価な技術を用いることなく発呼者の音声中に発呼者名
が含まれているか否かを容易に推定することができ、発
呼者名の録音もれを未然に防止することができる。

またキーワードネットワークのパスの推定により、どの
音声ブロックにどのキーワードが存在するかを知ること
ができるので、音声認識を導入する場合に認識語集の制
限が可能となり、認識の信頼性を高めることができると
いう利点もある。

【図面の簡単な説明】

第１図は従来の処理例（留守番電話）を示す図、第２図
は従来の処理例（対話形留守番電話）を示す図、第３図
は人間同士の取り次ぎ会話の例を示す図、第４図はキー
ワードネットワークの例を示す図、第５図は相づち前後
の発声タイミングの例を示す図、第６図は相づちを用い
□た発声終了検出の例を示す図、第７図は音声ブロック
の数とパスの関係を示す図、第８図はパス推定フローを
示す図、第９図はこの発明の一実施例のブロック構成図
である。特許出願人　　日本電信電話株式会社代　理　　人　　　草　　野　　　　　卓オ　１　図（明日の打ち合せは１４１？からに変更になり誌したので宜しくお願いします）終了舎（剣し杖と申します）番番（Ｑ３の４５６の７８９０ｃお願いします）↓ （）二人力音声ヤ　３　図（）内１才着信側の発声した音声Ｃ：発呼者名を含み槓呼者名に含まないＭ：もしもしオ　４０Ｍ：　「もしもし」音声０；その仙の音声（挨＃等）ヤ　５　配オ　６　口

Claims

【特許請求の範囲】

（１）回線からの入力音声を受信し、それに基づいて応
答メッセージを送出し、対話形式で応答を行う電話応答
装置において、複数の応答メッセージを格納する応答メッセージ格納手
段と、前記回線からの入力音声の有無を検出する入力音声検出
手段と、その入力音声検出手段からの情報を基に入力音声に含ま
れる無音区間の長さを計測する無音時間長測定手段と、前記入力音声のポーズ区間に相づちを送出するための相
づち無音時間長しきい値情報を格納する相づち無音時間
長しきい値格納手段と、前記無音時間長測定手段から得
られる無音時間長を前記相づち無音時間長しきい値と比
較する相づち無音時間長比較手段と、相づち音声情報を格納する相づち音声格納手段と、前記相づち無音時間長比較結果信号に基づいて前記相づ
ちを送出する相づち音声送出手段と、発声終了を検出す
るための無音時間長しきい値情報を格納する発声終了検
出無音時間長しきい値格納手段と、相づち送出後の無音時間長と前記発声終了検出無音時間
長しきい値情報とを比較する発声終了検出無音時間長比
較手段と、前記発声終了検出無音時間長比較結果信号に基づいて、
利用者の発声終了を検出した後に応答メッセージを送出
する応答メッセージ送出手段とを備えたことを特徴とす
る自動電話応答装置。
（２）相づちによって区切られた利用者の発声回数を計
測する発声回数計測手段と、前記入力音声検出手段からの情報を基に入力音声の長さ
を計測する音声長測定手段と、複数の音声長しきい値情報を格納する音声長しきい値格
納手段と、前記音声長測定手段から得られた音声長を前記音声長し
きい値と比較する音声長比較手段と、前記利用者の発声
回数情報と前記音声長比較結果信号に基づいて応答メッ
セージを選択し回線に送出する応答メッセージ選択手段
とを備えたことを特徴とする請求項１に記載の自動電話
応答装置。