JP3527401B2

JP3527401B2 - ボイスメッセージの明瞭度を向上する方法

Info

Publication number: JP3527401B2
Application number: JP35798497A
Authority: JP
Inventors: エムロックカインドマーク
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1996-12-31
Filing date: 1997-12-25
Publication date: 2004-05-17
Anticipated expiration: 2017-12-25
Also published as: US5848130A; EP0851404A2; CA2218768A1; EP0851404A3; MX9710468A; CA2218768C; JPH10210154A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はボイスメッセージの
明瞭度を向上するシステムおよび方法に関する。より具
体的には、本発明はボイスメッセージ中の数字の読み上
げをメッセージの他の部分よりもゆっくりとした速度で
再生する再生方法に関する。

【０００２】

【従来の技術】ボイスメッセージのシステムは今日では
いたるところに普及している。多くの企業はその社の電
話網に組み込まれた私有のボイスメールシステムを有し
ている。さらに、多くの一般家庭でも留守番電話を所有
している。電話会社の中にはボイスメッセージサービス
を行うものもある。

【０００３】

【発明が解決しようとする課題】今日のボイスメッセー
ジシステムはユーザに様々な再生オプションを提供して
いる。ユーザはメッセージを数秒巻き戻したり、また進
めたりできる。ユーザはまた再生のスピードを上げたり
もできる。高速ではメッセージを速い速度で聴けるため
効率が向上する。ある特定のメッセージではたいがい通
常より速い再生速度、たとえば通常速度の１．７５倍と
いった速度でも意味が理解できるが、メッセージのある
特定の部分はその速度では意味が理解できないこともあ
る。数字情報は特に速い再生速度では理解しがたいかも
しれない。通常速度でさえ、リスナーがよく知らない数
字情報は理解しがたいかもしれない。

【０００４】数字情報を理解しがたくなる理由の一つ
は、多くの人々が自分がよく知っている情報、たとえば
電話番号などを早口で言う傾向があるためである。たと
えばメッセージを吹き込む場合には多くの人は意味をは
っきりとさせながらゆっくり話す。しかしながら、その
同じ人が自分にとってよくわかる電話番号を言う時には
話し方が速くなる。したがって、メッセージが再生され
た時、リスナーは数字情報を理解するのが困難になるか
もしれず、メッセージ全体を詳細かつ適切に理解するの
に数回再生して聞き直さねばならないかもしれない。仮
にリスナーが一回目で情報を理解したとしても、その数
字を書き取っているかもしれず、したがって数字情報は
ゆっくりした速度で再生される必要があると考えられ
る。

【０００５】現在のボイスメッセージシステムはユーザ
がメッセージの再生速度を速くしたり遅くしたりするこ
とを可能にしている。そのようなシステムはディーガン
他による米国特許第５３８６４９３号「Apparatus And
Method For Playing Back Audio At Faster Or Slower
Rates Without Pitch Distortion」に記載され、ここに
参照される。そのようなシステムではしかしながら、メ
ッセージ全体が選択された速度で再生されるため、リス
ナーが電話番号の部分をゆっくりした速度で再生したく
てもメッセージ全体がゆっくりと再生されることにな
る。この場合ユーザは、せいぜい手動コントロールによ
ってのみメッセージを再生する時にゆっくりしたり速く
したりすることが可能になるにすぎない。

【０００６】

【課題を解決するための手段】本発明は録音されたボイ
スメッセージを再生するシステムと方法であって、特に
メッセージ中の数字情報の読み上げ部分を自動的にボイ
スメッセージの残りの部分よりもゆっくりとした速度で
再生するシステムと方法に関する。ボイスメッセージシ
ステムはボイスメッセージを受け、また解析する。特
に、本システムは数字情報の読み上げがボイスメッセー
ジに含まれているかどうかを決定し、もし含まれていれ
ばそのメッセージ内での数字情報の相対位置を決定す
る。メッセージシステムはボイスメッセージと位置情報
の両方を記憶装置に記憶する。

【０００７】メッセージの再生にあたってはコンピュー
タシステムが記憶装置から記憶されたメッセージと位置
情報を取り出す。ボイスメッセージが再生される時、コ
ンピュータシステムは位置情報を処理する。もし、位置
情報がメッセージの特定の箇所に数字情報の読み上げが
含まれていることを示していれば、その箇所が減速され
たスピードで再生される。

【０００８】位置情報の決定方法は本発明の一部として
含まれている。

【０００９】

【発明の実施の形態】図１には本発明の実施の形態のシ
ステム図が示されている。電話交換システム１１０はコ
ールステーション１２０（電話、コンピュータのワーク
ステーション、ファックスなど）どうしを、およびコー
ルステーションとボイスメッセージシステム１３０との
間の通信を選択的に接続する。コールステーション１２
０はｉ）メッセージシステムの電話番号を直接ダイヤル
することによって、またはｉｉ）メッセージシステム１
３０がサポートしている他のコールステーションに接続
出来ない場合（たとえば他のコールステーションが通話
中だったり、所定時間内に「オフフック」状態にならな
い場合、つまり応答が無い場合など）にボイスメッセー
ジシステム１３０に接続される。交換システム１１０は
たとえばＰＢＸや電話交換局（中心局、支局）、または
社内電話システムなどでもよく、従来の技術によって一
般に既知のものである。

【００１０】メッセージシステム１３０は音声ユニット
１３２と通信するプロセッサ１３１（音声ユニット１３
２は電話をかけてきた者に対してプロセッサ１３１の制
御の下で音声信号を発生させる）、アナログデジタル
（Ａ／Ｄ）コンバータ１３３、ダイナミックメモリ１３
４（たとえばＲＡＭなど）、およびディスクアレイなど
の記憶装置１３５より成る。

【００１１】図２は、通話中または応答なしの状態の相
手先に対して電話をしてきた者がメッセージを残す場合
のロジックの流れ全体を示すフローチャートである。通
話中または応答なし状態のため、メッセージシステムが
相手先のボイスメールボックスを持つメッセージシステ
ムに通話者を接続する方法は既知である。

【００１２】コールステーション１２０をメッセージシ
ステム１３０に（特に相手先のボイスメールボックス
に）接続する際に、メッセージシステム１３０は（音声
ユニット１３２を介して）コールステーション１２０に
対し音声ガイドを再生し、通話者に相手先へのメッセー
ジを残すように促す（ステップ２１０）。通話者はコー
ルステーション１２０のマウスピースに向かってメッセ
ージを吹き込む。メッセージを残す通話者は、メッセー
ジを送る相手先が折り返し電話をできるようにメッセー
ジ中に通話者の電話番号を残すこともある。メッセージ
システム１３０はメッセージが吹き込まれると同時にそ
れを処理し、記憶装置１３５にそのメッセージを記憶す
る（ステップ２１２）。特に、メッセージは相手先のメ
ールボックスに「メール」として記憶される。通話者は
その後メッセージを聴いたりメッセージを再録音したり
（ステップ２３０）、メッセージシステムへの接続を解
除したり（ステップ２４０）してもよい。

【００１３】図３のフローチャートでは、ユーザがメッ
セージを送ったり取り出したりするのにメールボックス
にアクセスする実施の形態のロジック全体が示されてい
る。この場合、ユーザはメッセージシステム１３０に電
話をし、ユーザのコールステーション１２０をメッセー
ジシステム１３０に接続する。メッセージシステムはま
ずログインシーケンスを実行し（ステップ２１５）、シ
ステムに対してユーザを特定する。ユーザはその後、オ
プションメニューを提供される（ステップ２２５）。ユ
ーザはメッセージ送信を選んでもよいし（ステップ２２
９と２３９）、録音されたメッセージや他者から送信さ
れたメッセージをきいてもよいし（ステップ２２７、２
３７、２４７、２４９）、また個人化（ステップ２３
５）のようなメールボックスの他のオプションを実行し
てもよい。オプションの実行の代わりに、または選択し
たオプションを実行したあとで、ユーザは接続解除して
もよい（ステップ２５５）。

【００１４】もしユーザがメッセージを送ることを選択
したならば、メッセージシステムはメッセージを送るべ
きアドレスの入力をユーザに促し（ステップ２２９）、
その後送るべきメッセージを吹き込むように促す。メッ
セージは処理され、録音される（ステップ２３９）。ユ
ーザはその後、提供されたメニューオプションのいずれ
を実行してもよい（ステップ２２５）。

【００１５】もしユーザが他者から送られたメッセージ
を聴くことを選択するならば、ユーザは記憶されている
メッセージの中からメッセージを選択し（ステップ２２
７）、再生を制御する再生オプション、たとえばスピー
ドアップやスローダウンといったオプションを選択して
もよい（ステップ２３７、２４７）。再生オプションの
設定後、または設定がない場合、メッセージシステムは
選択されたメッセージを取り出し、再生のための処理を
行う（ステップ２４９）。

【００１６】ユーザがメッセージの再生スピードの設定
などの再生オプションの設定を選択するならば（ステッ
プ２３７）、メッセージシステムはユーザの好みに応じ
たオプションを設定する（ステップ２４７）。

【００１７】録音：図４のフローチャートは処理および
録音ステップ（２１２または２３９）をより詳細に示し
たものである。メッセージシステム１３０は通話者のボ
イスメッセージをメッセージ信号の形で受信する（ステ
ップ３１０）。メッセージ信号はもしもその信号がデジ
タル形式でない場合にはＡ／Ｄコンバータによって音声
サンプルより成るデジタル信号に変換され（ステップ３
２０）、バッファに蓄積される（ステップ３３０）。バ
ッファはダイナミックメモリ１３４の内部か記憶装置１
３５にあってもよいし、またはその両方でもよい。

【００１８】メッセージシステム１３０は数字情報の読
み上げを探してボイスメッセージを解析する。特に、シ
ステム１３０は数字の読み上げ（たとえば数字の羅列）
がメッセージ中にあるかどうかを決定し、もしあるなら
ばメッセージ中での数字の読み上げ箇所の相対位置を決
定する。実施の形態ではシステム１３０は一桁ずつの数
字の羅列の読み上げや二桁以上の数字の読み上げ、また
はその両方についてメッセージを検索する（ステップ３
４０）。数字の羅列の読み上げとはたとえば「１ー２ー
３」のようなものを含み、二桁以上の数字の読み上げと
は「１３」「１００」のようなものを含む。それらの両
方とはたとえば「１−８００(one-eight-hundred)」や
「２７」などのようなものを含む。他の実施の形態では
システム１３０は一桁の数字の読み上げも、エラーの割
合はふえるものの検索可能である。たとえばシステム１
３０は「ｔｗｏ］と［ｔｏ」または［ｔｏｏ」や、［ｆ
ｏｕｒ」と［ｆｏｒ」、［ｅｉｇｈｔ」と［ａｔｅ」の
ような同音語の識別には難があるかもしれない。メッセ
ージシステム１３０中のプロセッサ１３１は充分に高速
で、デジタルメッセージ信号を蓄積する必要がないかも
しれない（ステップ３３０）。その場合にはステップ３
４０がステップ３２０の後にすぐに続いてもよい。

【００１９】ボイスメッセージの解析は様々な音声認識
またはパターン認識技術を利用することによって可能で
ある。たとえば数字を読み上げた音声信号サンプルから
成るテンプレートを記憶しておき、これとボイスメッセ
ージの一部を比べて一致がみられればボイスメッセージ
中に数字の読み上げが含まれていることを示す。その他
の技術はリー他による米国特許第５５０９１０４号「Sp
eech Recognition Employing Key Word Modeling and N
on-Key Work Modeling」やホアン他による米国特許第４
７８３８０４号「Hidden Markov Model Speech Recogni
tion Arrangement」に記載され、両者は本明細で参照さ
れる。

【００２０】数字の読み上げを少なくとも部分的に含む
音声サンプルに対し、メッセージシステムはそのサンプ
ルに「１」を付随させる。数字の読み上げ全体は一般的
に少なくとも数個の音声サンプルの長さになるので、数
字の読み上げ部分には１を羅列したストリングが付随す
る。音声サンプルの他の部分に対してはシステムは
「０」を付随させる。したがって、「０」と「１」のビ
ットストリング、すなわちポジションビットストリング
（または信号）が処理されたメッセージの各々に付随す
る（ステップ３５０）。他の実施の形態では「０」は少
なくとも数字の読み上げ部分を含むサンプルに付随し、
「１」は音声サンプルの残りの部分に付随する。さらに
１ビットが複数の音声サンプルに対応してもいてよい。

【００２１】メッセージ全体が処理されると、デジタル
メッセージ信号とそれに付随するポジションストリング
は圧縮され、記憶装置１３５内の適切な場所（メールボ
ックス）に記憶される（ステップ３６０）。実施の形態
ではメッセージは経済的な理由から記憶される前に圧縮
される。

【００２２】通話中もしくは応答無し状態の相手先にユ
ーザがボイスメッセージを残したい場合にはメールボッ
クスは相手先のものを使用する。もしユーザが他の者に
ボイスメッセージを送りたい場合にはメールボックスは
ユーザのものを使用する。またはメッセージ信号とポジ
ションビットストリングを電話番号（メールボックス番
号）とともに汎用データベースに記憶させ、データベー
ス管理システムに適切な電話番号（メールボックス番
号）を入力することによってそれらを取り出してもよ
い。

【００２３】別の実施の形態では位置情報はメッセージ
中の数字情報の相対的開始および終了位置が音声サンプ
ルの番号で（たとえば開始１＝サンプル１２０００、終
了１＝サンプル１６０００、開始２＝サンプル３０００
０、終了２＝サンプル３０３００などのように）単純に
構成されていてもよいし、相対時間で（たとえば開始１
＝３２．２秒、終了１＝４０．５秒などのように）構成
されていてもよい。

【００２４】図５はサンプルメッセージ４１０の文章と
それに対応するポジションビットストリング４２０を示
す。ポジションビットストリング４２０は１より成るサ
ブストリング（４３０）を含み、これは少なくとも数字
情報の読み上げの一部を含む音声サンプルに対応する。

【００２５】オプション設定：図６のフローチャート
は、図３のオプション設定ステップ２４７の詳細を示
す。本実施の形態ではユーザは２つのオプションの設定
ができる。特に、ユーザは「明瞭度向上モード」を使用
したりしなかったりでき、メッセージの再生速度（たと
えば通常の１．２５倍、１．５倍、１．７５倍など）を
設定したりもできる。「明瞭度向上モード」を使用する
と、メッセージ中に検出されたいかなる数字の読み上げ
も設定後には自動的にメッセージのその他の部分よりも
ゆっくりした速度で再生される。デフォルトの設定では
「明瞭度向上モード」が使用され、メッセージ再生速度
は通常の一倍に設定されている。再生速度が通常の一倍
に設定されていても、「明瞭度向上モード」は数字の羅
列をゆっくりとした速度で、たとえば通常の０．７５倍
の速度などで再生する。実施の形態のようなダイヤル式
の電話ではデフォルトのオプションが常に採用される。

【００２６】本実施の形態ではメッセージシステム１３
０はユーザにデフォルトのオプションを変更するように
促す（ステップ５１０）。もしユーザがステップ５１０
のプロンプトに「はい」と返答してデフォルトオプショ
ンの変更を選択するならば、メッセージシステム１３０
はユーザに「明瞭度向上モード」を不使用にするように
促す。もしユーザがそのようにすることを選択するなら
ばフラッグが適切にリセットされ（ステップ５２５）、
メッセージシステムは再生速度変更を促す（ステップ５
３０）。ユーザは再生速度を変更してもしなくてもよ
い。もし変更しないならばユーザはステップ５４０に進
み、ステップ５５０を経てオプション処理を終える。ユ
ーザが再生速度変更を選択すれば、ステップ５３５にお
いてそれを実行する。たとえば通常の１．５倍や０．７
５倍のように再生速度をいったん変更すると、もう一度
再生速度が変更されるまで使用中の再生速度がその変更
値に保たれる。ユーザはステップ５４０を終え、オプシ
ョン処理をステップ５５０で終了する。

【００２７】本発明の他の実施の形態では通話者が再生
速度を直接設定するオプションも提供される。たとえば
通話者は通常の０．７５倍、１．５倍、１．２５倍の再
生速度を［０７５」、「１５０」、「１２５」のように
プッシュすることで設定してもよい。

【００２８】再生速度がいかに設定されていようとも、
再生速度は特定のユーザメールボックスの使用に対して
一定に保たれる。そのような実施の形態ではユーザは毎
回オプション処理をする必要はない。

【００２９】ユーザは（ＤＴＭＦ信号を発生させる）キ
ーパッドのボタンを押し、（自動音声認識を使用して）
返答をすることで、またはその他の信号体系を介してシ
ステムからのプロンプトに対して返答する。

【００３０】再生：図７のフローチャートは各メッセー
ジ毎に行われる図３の処理と再生ステップ２４９の詳細
を示す。ユーザが特定のメッセージを再生することを選
択すると（ステップ２２７）、メッセージシステム１３
０は記憶されていたデジタルメッセージ信号とそれに付
随してそのメッセージ用に記憶されていたポジションビ
ットストリングとを取り出す（ステップ６１０）。さら
に「明瞭度向上」フラッグと記憶されていた再生速度も
取り出される（ステップ６１０）。

【００３１】次に、「明瞭度向上」フラッグが確認され
る（ステップ６２０）。もし「明瞭度向上」フラッグが
「不使用」に設定されていれば、圧縮されたメッセージ
ならメッセージ全体が解凍され、ステップ６１０で取り
出された再生速度で音声ユニット１３２を使用してメッ
セージが再生される（ステップ６３０）。米国特許第５
３８６４９３号にはピッチのゆがみなしに（たとえば高
速でメッセージが再生された場合に「甲高い声」になる
効果を除去して）ゆっくりまたはより速い速度でメッセ
ージを再生する方法が記述されている。

【００３２】「明瞭度向上」フラッグが「使用」に設定
されている場合にはポジションビットストリングが処理
される（ステップ６４０）。特に、メッセージシステム
１３０のプロセッサ１３１はポジションビットストリン
グを解析し、その中に（メッセージ中に数字の読み上げ
が含まれていることを示す）「１」にセットされたビッ
トが含まれていないかどうかを決定する。もしなければ
圧縮されたメッセージの場合はメッセージ全体を解凍
し、音声ユニット１３２を介してステップ６１０で取り
出された再生速度で再生する（ステップ６３０）。

【００３３】ポジションビットストリングが「１」にセ
ットされたビットを含む場合はプロセッサ１３１はメッ
セージシステム１３０に順に音声サンプルを再生させ、
ポジションビットストリングの０に対応する音声サンプ
ルはステップ６１０で取り出された再生速度で音声ユニ
ット１３２を介して再生し、１に対応する音声サンプル
はその再生速度よりもゆっくりとした速度で音声ユニッ
ト１３２を介して再生する（ステップ６５０）。ゆっく
りとした速度とはメッセージシステム１３０によって決
定された速度（固定された速度でもよいし、ステップ６
１０で取り出された再生速度のような他のパラメータの
関数）でもよいし、ユーザが設定した速度でもよい。
「１」や「０」がポジションビットストリングに現れそ
れに対応して再生速度が速くなったり遅くなったりする
時は、速度変更による効果がスムーズで耳障りならない
ように再生速度が漸減または漸増する機能を使用しても
よい。

【００３４】その他の実施の形態：本発明の好適な実施
の形態を参照しながら本発明を記載してきたが、当業者
には本発明の考えや範囲からそれることなく様々な変形
が可能であることが理解されるであろう。たとえば、デ
ジタルメッセージは記憶装置１３５において受け付けら
れ記憶されてもよく、その後リアルタイムでプロセッサ
１３１によって処理されてもよい。これには特別の回路
が必要で、メッセージシステム１３０もパワフルなプロ
セッサ（またはマルチプロセッサ）を必要とする。メッ
セージ中の数字の読み上げが再生中に一度検出されたな
らポジション情報は記憶されなくともよい。

【００３５】上記実施の形態では数字の羅列や数字の結
合したもの、またはその両方の検出はメッセージの圧縮
の前に行われる。しかしながら、数字の読み上げの検出
はまずメッセージを圧縮してから圧縮された状態でメッ
セージを処理して行ってもよいし、解凍のあとで行って
もよい。

【００３６】本発明は、もし（少なくとも本システムの
言語解析部分に）充分な演算力があるならば家庭の留守
番電話に組み込まれてもよい。それより処理能力の劣る
プロセッサはバッチモードでメッセージが処理されるの
であれば使用できる可能性がある。

【００３７】なお、本特許の開示の一部は著作権で保護
される内容を含んでいる。著作権の所有者は米国特許庁
や特許書類に開示されたとおりに複製することにはなん
らの異議を持たないが、それ以外についてはすべての著
作権を保持している。

【図面の簡単な説明】

【図１】本発明の実施の形態のシステム図である。

【図２】電話をしてきた者が相手先にメッセージを残
す場合のロジックの流れを全体的に示すフローチャート
である。

【図３】ユーザが自分のメールボックスにアクセスす
る場合のロジックの流れを全体的に示すフローチャート
である。

【図４】図２および図３の処理および録音ステップを
示すフローチャートである。

【図５】メッセージとそれに付随するポジションビッ
トストリングの例を示す図である。

【図６】図３におけるオプション設定ステップを示す
フローチャートである。

【図７】図３における処理および再生ステップを示す
フローチャートである。

【符号の説明】

１１０電話交換システム、１２０コールステーショ
ン、１３０ボイスメッセージシステム、１３１プロ
セッサ、１３２音声ユニット、１３３アナログデジ
タルコンバータ、１３４ダイナミックメモリ、１３５
記憶装置。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) H04M 3/42 - 3/58 G10L 3/00

Claims

(57)【特許請求の範囲】

【請求項１】ボイスメッセージを記憶し、再生する方
法であって、ａ）ボイスメッセージを受け付け、ｂ）受け付けたメッセージ中に存在する数字の読み上げ
を少なくとも一つ含む部分を検出し、ｃ）ボイスメッセージを記憶装置に記憶し、ｄ）ボイスメッセージを記憶装置から取り出し、ｅ）前記受け付けたメッセージのうち、前記検出された
数字の読み上げを少なくとも一つ含む部分を含まない、
残りの部分を第一の速度で再生し、ｆ）前記検出された数字の読み上げを少なくとも一つ含
む部分を前記第一の速度よりも遅い第二の速度で再生す
るステップを含み、さらに、ｇ）受け付けたボイスメッセージ中の前記検出された数
字の読み上げを少なくとも一つ含む部分の位置を検出
し、ｈ）検出された位置に関する情報を前記記憶装置に記憶
し、ｉ）記憶された情報を前記記憶装置から取り出し、ｊ）前記ｅ）からｆ）のステップを、取り出された情報
の機能として行うステップとを含むことを特徴とするボ
イスメッセージの記憶再生方法。
【請求項２】請求項１に記載の方法であって、ボイス
メッセージは複数の音声サンプルを含み、前記情報はビ
ットストリングとして記憶され、各ビットは前記ボイス
メッセージ内の少なくとも一つの音声サンプルに付随す
ることを特徴とするボイスメッセージの記憶再生方法。
【請求項３】請求項１に記載の方法であって、前記数
字の読み上げは数字の桁を連結したものを含むことを特
徴とするボイスメッセージの記憶再生方法。
【請求項４】ボイスメッセージの再生方法であってａ）ボイスメッセージを受け付け、ｂ）受け付けたメッセージ中に存在する数字の読み上げ
を少なくとも一つ含む部分を検出し、ｃ）前記受け付けたメッセージのうち、前記検出された
数字の読み上げを少なくとも一つ含む部分を含まない、
残りの部分を第一の速度で再生し、ｄ）前記検出された数字の読み上げを少なくとも一つ含
む部分を前記第一の速度よりも遅い第二の速度で再生す
るステップを含み、さらに、ｅ）受け付けたボイスメッセージ中の前記検出された数
字の読み上げを少なくとも一つ含む部分の位置を検出
し、ｆ）検出された位置の関数としてポジション信号を発生
させ、ｇ）前記ｃ）からｄ）のステップを、ポジション信号の
機能として行うステップとを含むことを特徴とするボイ
スメッセージの再生方法。
【請求項５】請求項４に記載の方法であって、ボイス
メッセージは複数の音声サンプルを含み、前記ポジショ
ン信号は複数のビットであり、各ビットは前記ボイスメ
ッセージ内の少なくとも一つの音声サンプルに付随する
ことを特徴とするボイスメッセージの再生方法。