JP2007300640A

JP2007300640A - ボイスメッセージのテキスト表示を通信装置へ提供する方法及びシステム

Info

Publication number: JP2007300640A
Application number: JP2007120573A
Authority: JP
Inventors: Denys Proux; プルドゥニ; Eric Cheminot; シュミノエリック
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2006-05-02
Filing date: 2007-05-01
Publication date: 2007-11-15
Anticipated expiration: 2027-05-01
Also published as: EP1852846B1; US8204748B2; US20070260456A1; US8244540B2; EP1852846A2; US20120150538A1; JP5247062B2; EP1852846A3

Abstract

【課題】モバイル装置に適用可能な、大容量のメモリや電力消費を必要としない、音声メッセージのテキスト表示をモバイル装置へ提供する方法及びシステムを提供する。
【解決手段】通信ステーションは、ユーザが通信装置によりコールを発し、コールを受けた通信装置がサイレントモードで作動していることを検出した場合、コールを発した通信装置のユーザにボイスメッセージを入力するように促す。通信ステーションは入力されたボイスメッセージは音素に変換することによりボイスメッセージのテキスト表示を生成し、それを前記コールを受けた通信装置へ送信する。前記ボイスメッセージのテキスト表示は音素に基づいたキャラクターを含む。
【選択図】図１

Description

例示的な実施形態は、メッセージを送受信するためのシステムおよび方法に関し、特に、音声メッセージのテキスト表示をモバイル装置へ提供するためのシステムに関する。

ボイス通信を送信し受信するためのモバイル装置、たとえば、セル式携帯電話は、現在、広く使用されている。会議中にまたはステージおよびコンサートイベント等のある種のイベントでは、携帯電話を鳴らすことは許されないことが多い。したがって、セル式携帯電話はサイレントモードを提供するように構成されており、それは、受信者がコール（電話）を受け取ったことを見ることを可能にする。しかし、受信者は、コールを聴くためには会議またはその他のイベントを離れなければならないか、または、発信者が録音したボイスメッセージを取得するために後まで待たなければならない。これらの選択肢は、いずれも完全に満足のいくものではない。ユーザは、電話のスイッチを完全にオフにして、会議の邪魔をするか否かの困難な決定に直面するのを避けることが多い。

ボイスをテキストに変換することができる発話認識システムが開発されている。標準的なアプローチは、発話の波形をデジタル信号スプリットに、次いで、データの一片に変換する。シンボル（記号）のシーケンスからなるデータは、次いで、ビタビ（Viterbi）アルゴリズム等の検索アルゴリズムを使用して用語集エントリーと整合され、たとえば隠れマルコフモデル（ＨＭＭ：Hidden Markov ）を使用して、曖昧さがなくされる。正確な認識のために、広大な用語集にアクセスし、これは、検出された音が話し手の言語の単語とマッチするのを可能にする。そのようなシステムはしたがって、相当のメモリパワーを組み込み、一般に、システムが話し手のボイスにトレーニングされると、もっとも効率的である。

セル式携帯電話の場合には、本質的に使い捨てである携帯用で軽量の装置を維持することが望まれる。したがって、大きなメモリを必要とするかまたは相当な電池消費を招くオペレーティングシステムは、望ましくない。セル式携帯電話のユーザは、現在、ＳＭＳ（ショートメッセージサービス）と呼ばれるタイプのテキストメッセージを送受信することができる。しかし、モバイル装置の従来のキーパッドは非常に小さく、使用するのが不便である。セル式携帯電話のユーザにコンタクトを取ることができない発信者は、受信者がボイスメッセージを検索することを頼るのを好むことが多い。

上記に関連して、特許文献１及び２は、携帯電話においてスピーチ音声を認識し、ボイスメッセージを音素による表現に変換して送受信する技術を記載している。
米国特許出願第２００５／０２７３３２７号明細書米国特許出願第２００５／００７５１４３号明細書

本発明は、モバイル装置に適用可能な、大容量のメモリや電力消費を必要としない、音声メッセージのテキスト表示をモバイル装置へ提供する方法及びシステムを提供することを目的とする。

例示的な実施形態の一態様によれば、ボイスメッセージのテキスト表示を通信装置へ提供するための方法は、第１の通信装置がサイレントモードで作動していることを検出し、第２の通信システムのユーザにボイスメッセージを入力するように促しと、入力されたボイスメッセージを音素に変換し、ボイスメッセージのテキスト表示を第１の通信装置へ送信することであって、前記表示は音素に基づいたキャラクターを含む、送信すること、を含む。

前記の方法は、第１の通信装置にテキスト表示を自動的に表示することをさらに含んでもよい。

本方法はまた、単語に対応する音素のグループを識別するために単語の辞書にアクセスし、辞書で単語の一部として認識されなかった各音素について、音素を代表的なキャラクターとして表示すること、をさらに含んでもよい。

前記音素は、音素の有限セットから選択されてもよく、各音素は代表的なキャラクターに関連づけられてもよい。単語の一部として認識されなかった音素の表示は、音素をその代表的なキャラクターとして表示することを含んでもよい。

代表的なキャラクターは、文字および数字を含んでもよい。

音素の少なくとも大半において、各音素は単一の代表的なキャラクターに関連づけられてもよい。

入力されたボイスメッセージの変換は、ボイスメッセージを特徴ベクトルに変換することを含んでもよく、各特徴ベクトルは少なくとも１つの音素に対応する。

第１の通信装置は、携帯電話からなってもよい。

前記ユーザを促すことは、ユーザが、メッセージを話すときにメッセージの各単語にギャップで間隔をあけるように促すことを含んでもよい。

ボイスメッセージのテキスト表示を第１の通信装置へ送信することは、テキスト表示を第１の通信装置へワイヤレス（無線）送信することを含んでもよい。

入力されたボイスメッセージを音素へ変換することおよびボイスメッセージのテキスト表示を第１の通信装置へ送信することは、第１および第２の通信装置から離れた通信ステーションによって行われてもよい。

本方法は、第２の通信装置のユーザに第２のボイスメッセージを入力するように促し、第１の通信装置によってアクセス可能なメッセージサーバに第２のボイスメッセージを保存すること、をさらに含んでもよい。

有体物であるデータ記憶媒体は、プロセッサによって実行されると、本例示的な方法を行う命令を記憶していてもよい。

別の態様において、ボイスメッセージのテキスト表示を第１の通信装置に提供するためのシステムは、ボイスメッセージ変換システムを含み、これは、第２の通信装置から入力されたボイスメッセージを音素へ変換し、入力されたボイスメッセージのテキスト表示を生成し、テキスト表示は、音素に基づいたキャラクターを含む。切換センターが、ボイスメッセージ変換システムと通信する。切換センターは、メッセージを受信し送信することができる。切換センターは、第２の通信装置から入力されたボイスメッセージを受信し、メッセージを第１の通信装置へ送信し、前記メッセージは、ボイスメッセージ変換システムによって生成されたテキスト表示を備える。

本システムにおいて、切換センターは、第１の通信装置がサイレントモードで作動しているときを認識し、第２の通信装置のユーザに、テキスト表示へ変換するためのボイスメッセージを入力するように促すことができる。

ボイスメッセージ変換システムは、第１および第２の通信装置から離れていてもよい。

第１の通信装置はモバイル装置であってもよく、切換センターは、テキスト表示を含むメッセージをモバイル装置へワイヤレス送信してもよい。

ボイスメッセージ変換システムは、単語に対応する音素のグループを識別するために単語の辞書にアクセスする第１のトランスデューサ（変換器）と、辞書で単語の一部として認識されなかった各音素について、キャラクターとして音素を表示する第２のトランスデューサと、を含んでもよい。

システムは、切換センターと通信するメッセージングシステムをさらに含んでもよく、これは、ボイスメッセージと、第２の通信装置から受信した第２のボイスメッセージと、の少なくとも一方を記憶する。

別の態様において、ボイスメッセージのテキスト表示を提供する方法は、ボイスメッセージを受信し、ボイスメッセージを音素に変換し、音素は音素の有限セットから選択され、セットの音素の大半用に各音素がメモリで単一の代表的なキャラクターに関連づけられ、ボイスメッセージの音素のグループに対応するあらゆる単語を識別するために辞書にアクセスし、辞書の単語に対応する音素のグループの１つの一部であるとして認識されなかった各音素について、代表的なキャラクターとして音素を表示すること、を含む。ボイスメッセージのテキスト表示は通信装置へ送信され、前記表示は、少なくともいくつかの音素を代表するキャラクターを含む。

方法は、通信装置にテキスト表示を表示することをさらに含んでもよい。

音声メッセージのテキスト表示をモバイル装置たとえば携帯電話へ提供するためのシステムおよび方法が開示される。

一態様において、システムは、ボイス録音のテキスト表示をモバイルユーザへ従来のディスプレイを経由してユーザの電話に提供することができる。モバイル装置は、入ってくるボイスメッセージのサイレント通知およびシンプルＳＭＳ（ショートメッセージサービス）テキストメッセージ等のその書かれた内容を直接受信してもよい。システムは、録音されたボイスメッセージを音声ＳＭＳスタイルのメッセージに自動的に変換し、それは次いでモバイル装置へ送られる。

別の態様において、ボイスメッセージのテキスト表示を通信装置へ提供するための方法は、モバイル装置等の第１の通信装置がサイレントモードで作動しているのを検出し、第２の通信装置のユーザに、テキストに変換されるべきボイスメッセージを入力するように促すこと、を含む。入力されたボイスメッセージは音素に変換される。ボイスメッセージのテキスト表示は、音素から生成され、たとえば、モバイル装置の場合にはワイヤレスで、第１の通信装置へ送信される。表示は、音素のいくつかを表すキャラクターを含んでもよい。

モバイル装置として携帯電話（セル式携帯電話）が特に参照されているが、たとえば、ラップトップコンピュータ、携帯情報端末（ＰＤＡ）等ボイスメッセージを受け取る他のモバイル装置もまた想定されている。

例示的な実施形態において、ボイスからＳＭＳへの変換機構は、メッセージサービスと組み合わされ、それは、発信者が、ボイスメッセージをサーバに録音しながら、このメッセージをＳＭＳに自動変換するのを要求することを可能にする。携帯電話受信者は、自分の携帯電話で新しいメッセージの通知およびその転記された内容の両方を受け取ることができる。

システムは、携帯電話のキーボードを使用するという困難さを経ずに発話を使用してＳＭＳメッセージを直接形成することを可能にする。さらに、ＳＭＳ機能を有さない固定電話ユーザが、ＳＭＳメッセージを形成することができる。

システムは、携帯電話内に内蔵されてもよく、したがって、ユーザ固有のボイスに基づいて機構をトレーニングするという利点を利用して、変換能率を改良することができる。

システムは、検証または記録のために文章（書面）転記を提供してもよい。そのようなシステムは、会話を、文章リポートの音素プレバージョンに書き換えるために適用されてもよく、それは、情報として及びさらなる処理のためにＳＭＳまたは他のデジタル手段（たとえば、ｅメール）を通して話し手へ自動的に送ることができる。

図１を参照すると、通信装置のユーザたとえば携帯電話ユーザにボイスメッセージのテキスト表示を提供するための例示的なシステムが、示されている。システムは、第１の通信装置を含み、ここでは、ワイヤレスモバイル装置１０として例示されており、これは、音声信号を送信し受信するためのアンテナ１２を含む。モバイル装置１０は、１つ以上の通信ステーション２０を含むワイヤレスネットワーク１８を経由して他のボイス通信装置１４、１６と通信する。例示されたボイス通信装置１４は、従来の固定電話であり、これは、固定電話線２２およびトランスミッタ２４を経由して通路ステーション１８に少なくとも部分的に接続され、一方、装置１６は第２のモバイル装置であってもよい。多くのこのような装置がシステムの一部を形成することを理解されたい。

モバイル装置１０は、信号を受信し送信するためのアンテナ１２が連結されたトランスミッタおよびレシーバと、ＳＭＳメッセージ２８およびアイコン３０を表示することができるＬＣＤスクリーン等のディスプレイ２６と、を備えた従来の携帯電話であってもよく、アイコンは、携帯電話１０用のボイスメッセージがリモートメッセージサーバに保存されており、そこからユーザがアクセスすることができることを示すようなものである。モバイル装置１０はまた、通常、従来のイヤホンまたはスピーカー３２と、スイッチ３４でオンまたはオフを切り換えられるリンガー（呼鈴装置）と、マイクロホン３６と、キーパッド３８と、例示されていない他の従来の構成要素、たとえば、電池、不揮発性メモリ、および、揮発性メモリを含み、揮発性メモリはたとえば、スクリーン２６に表示されるべきテキストメッセージ等のデータの一次保存用のキャッシュエリアを含む揮発性ランダムアクセスメモリ（ＲＡＭ）であってよい。スクリーン２６は、グラフィカルユーザインタフェースとして作用することができ、ユーザが、キーパッド３８の操作を通してテキストおよびボイスメッセージ等を検索するためのメッセージシステムにアクセスするのを可能にする。メモリは、識別子、たとえば、携帯電話機体識別番号（ＩＭＥＩ）コードを含むことができ、これは、モバイル装置を通信ステーション２０に対し独自に識別することができる。装置１４、１６は、装置１０と同様に構成されてもよい。

通信ステーション２０は、モバイル切換センター４０と、直接または中継ステーションを経由してモバイル装置の間の音声通信のワイヤレス送信に、および電話線に従来関連する他の構成要素と、を含む。切換センター４０は、モバイル装置がコールするとき及びコールを受け取るときに、モバイル装置への及びモバイル装置からのコールおよびメッセージをルーティングすることができる。モバイル切換センター４０はまた、モバイル装置がネットワークに登録されたときにモバイル装置へ及びモバイル装置からメッセージを送るのを制御し、メッセージシステム４２へ及びメッセージシステム４２からモバイル装置のためのメッセージを送ることもまた制御する。そのようなメッセージは、たとえば、メッセージサーバ４４から取得のために保存されたボイス通信装置１２、１４、１６から受け取ったボイスメッセージ、および、モバイル装置またはネットワークによってサービス提供された他のモバイル装置から受け取ったショートメッセージサービス（ＳＭＳ）を含んでもよい。本願では、切換センター４０はまた、テキストメッセージ、たとえばＳＭＳを送信し、それは、ここに記載された方法にしたがってボイスメッセージから生成される。

モバイル装置メッセージシステム４２は、入力されたボイスメッセージをＳＭＳテキストメッセージに変換するボイスメッセージ変換システム４６を含む。ボイスメッセージ変換システム４６は、スピーチ−テキスト変換システムを含み、これは、ボイス音を、入力された発話を表す一連の音素に変換し、音素に基づいたキャラクターからなるテキストメッセージを出力する。例示されたボイスメッセージ変換システム４６は、ボイスメッセージをＳＭＳテキストメッセージに変換するための命令を実行するプロセッサ４８を含む。命令は、関連するメモリ５０にソフトウェアプログラムとして記憶されてもよい。プロセッサ４８は、メモリとは別個であってもよく、または、単一のチップにメモリ５０と一体化されてもよい、任意の適切なコンピュータ装置を備えることができる。プロセッサ４８は、バス５４によって、メモリ５０およびメッセージシステムの他の構成要素に、接続されてもよい。

音素は一般に、単一の特徴（弁別）的な音として認識される１セットの類似発話音に対応する１セットのシンボル（記号）として定義される。プロセッサは、入力された発話を、入力された発話を表す多数の周知のシンボル（すなわち音素）の任意のものに変換することができ、多数の周知の技術の任意のものにしたがって、これらのシンボルに入力された発話を変換することができる。たとえば、入力された発話は、デコーダ５２によって、国際音声学会（ＩＰＡ）の国際音声記号、アルパベットスタンダード（ＡＲＰＡｂｅｔｓｔａｎｄａｒｄ）または拡張ＳＡＭ音声記号（ＸＳａｍｐａ）の音素に変換することができる。これらのシステムの各々は、有限の音素のセットを備え、そこから音を表す音素が選択される。

理解されるように、大半のユーザは音素に関連づけられた音を認識することができない。したがって、プロセッサ４８は、ユーザによってよりよく理解されるテキストに音素をさらに変換することができてもよい。一実施形態において、第１の有限状態トランスデューサ６０は、辞書６２を用い、選択された言語、たとえば英語において、１つ以上の一般的に使用される単語またはフレーズを検索する。辞書の各単語／フレーズは、１セットの音素に対応し、これは、選択された言語のターゲットの発音で特定の単語／フレーズを発音する。辞書の単語およびフレーズは、速記（shorthand）形態で表記されてもよく、これはＳＭＳメッセージで普通に使用され携帯電話ユーザには広く理解されるもの等であり、インターネット速記と称されることが多い。速記は、文字、フレーズおよび頭字語を含んでもよく、また、例えば文字および／または数字の組み合わせ等のキャラクターの組み合わせを含んでもよい。たとえば、インターネット速記では、「ｌａｔｅｒ」はＬ８Ｒ、「ｂｅｆｏｒｅ」はＢ４、「ｓｅｅｙｏｕｌａｔｅｒ」はＣＵＬ８Ｒである。辞書で認識されていない音素は、それらの音素等価物、すなわち、第２の有限状態トランスデューサ６４によって音素音をユーザへ表すキャラクターに変換されてもよい。一般に、両方のトランスデューサ６０、６４によって生成されたキャラクターは、文字および数字である。一実施形態において、大半の音素は単一のキャラクターで表記される。これら有限状態トランスデューサによって生成されたテキストメッセージは、処理中には揮発性メモリ６６に保存されてもよい。

例示的な通信ステーション２０は、図１に例示された構成要素を含む一方、通信ステーションが、従来通信に関連した他の構成要素を含んでもよいことを理解されたい。さらに、これら構成要素は、同一場所にある必要はなく、分散されてもよく、たとえば、有線リンクまたは無線リンクで通信してもよい。このようにして、たとえば、単一のボイスメッセージ変換システムは、いくつか複数の通信ステーションにサービス提供してもよい。

次に図２を参照すると、例示的な方法のステップが例示される。本方法は、例示されたものより少ないステップ、多いステップ、または、異なるステップを含んでもよく、ステップはすべて例示された順序で行われる必要はないことを理解されたい。

本方法は、ステップＳ１００で開始する。ステップＳ１０２で、装置１０のユーザ（「受信者」）は、たとえばリンガーボタン３４を押すことによって、自分の携帯電話を「サイレント」モードにする。その後、全ての新しいコールは、ユーザのメッセージシステムへ直接ルーティング（転送）される。ユーザの電話は、オフにされたかのように、サイレントのままである。ステップＳ１０４で、装置１４または１６のユーザ（発信者）は、装置１０のユーザと話すことを望み、自分の装置１４、１６で装置１０の電話番号を入力する。

通信ステーション２０は、携帯電話がサイレントモードで作動していることを認識する（ステップＳ１０５）。発信者は、メッセージシステム４２へルーティングされ、メッセージシステム４２は発信者に、受信者のメッセージサービスを介して受信者がアクセスするようにボイスメッセージを入力するように促すことができる（ステップＳ１０６）。発信者は、ボイスメッセージを録音するように選択できる（ステップＳ１０８）。加えて、または、代替的に、メッセージシステム４２は、所望であれば発信者がボイス−テキスト変換メッセージ（ＳＭＳメッセージに変換されるべきボイスメッセージ）を録音するように促す（ステップＳ１１０）。ボイスメッセージおよびボイス−テキスト変換メッセージは同一の話されたメッセージであってもよいが、ボイス−テキスト変換メッセージは一般に、ショートメッセージであり、テキストメッセージシステムが収容することができる長さ、たとえば約１５〜２０ワードまたはそれ以下である。従って、発信者は、ボイス−テキスト変換メッセージとしてボイスメッセージの一部のみを使用するように決定してもよく（ステップＳ１１２）、または、別個のボイス−テキスト変換メッセージを録音してもよい（ステップＳ１１４）。変換システムの効率および出力メッセージの可読性を上げるために、発信者は、ボイス−テキスト変換メッセージを電報メッセージのように１単語ずつ口述する（すなわち、単語の間にボイス変換システム４６によって検出可能なギャップを残す）ように促されることもある。

例示された実施形態において、メッセージシステム４２は、ステップＳ１１６でボイス−テキスト変換メッセージを受け取る。ステップＳ１１８で、発話からＳＭＳメッセージへの転記が、音声転記機構を使用してプロセッサ４８によって行われる。ステップＳ１１８は、下記のサブステップを含んでもよい。サブステップＳ１１８Ａで、ボイス−テキスト変換メッセージは、デコーダ５２によって一連の音素に変換される（たとえば、音声ＩＰＡ、アルパベットスタンダードまたは拡張ＳＡＭ音声記号を使用してコード化される。サブステップＳ１１８ＢおよびＳ１１８Ｃで、有限状態トランスデューサ系システムが音素をＳＭＳ転記へマッピングする。具体的には、サブステップＳ１１８Ｂで、一般に使用されるＳＭＳ表現の用語集をエンコードする第１の有限状態トランスデューサ６０が適用される。ステップＳ１１８Ｃで、第１の有限状態トランスデューサ６０によって認識されていない全ての音素が第２の有限状態トランスデューサ６４によって処理され、有限状態トランスデューサ６４は音素をより自然な音声表記に変換するためのルールをエンコードする。

自然の発話を、語彙的に構文的に且つ意味的に正しい正確な文章転記に翻訳することは、容易な作業ではなく、本願に必要とされないことは明らかである。全般的に、音声ＳＭＳスタイルの転記のみがここでは目標とされている。この比較的シンプルなシステムは、メッセージの内容全体を用語集から検索された単語に正確に変換することを目的とした従来のスピーチ−テキスト変換システムよりも、必要とする計算がかなり少ない。そのようなシステムは、有効で正しい単語を生成するために辞書に存在する単語との一致を見出すことによって、すべての単語を認識し曖昧さをなくそうとする。例示的な方法はむしろ、音声ＳＭＳスタイルのメッセージを形成し、すなわち、発話メッセージの、容易に人間が理解することができる音声エンコーディングを形成する。

一実施形態において、出力エンコーディングは、用語集の単語の１つの一部として第１の有限状態トランスデューサによって認識されていない各音素をエンコードする。これらの残余音素の各々は、シンプルな１音素１文字転記にエンコードされてもよい（「ｇｕ」または「ｔｃｈ」のようないくつかの非常に特殊な音素を除く）。この翻訳の目的は、人間の読み手によって音声的に理解可能な表現を生成することである（たとえば、「ＡｒｅｙｏｕＯＫ」の代わりに「ＲＵＯＫ」）。

英語およびフランス語では、提案された１音素につき特定の１文字のみのエンコーディングが適切である。音素のより大きなスペクトルを使用する言語では、複数文字でのエンコーディングがより適切でありうる。

ステップＳ１２０で、メッセージシステム４２は、発信者の装置１６のスクリーンに変換されたテキストメッセージを表示し、発信者はメッセージを有効にするように促されてよい。発信者は、メッセージを送るか、メッセージを削除するか、または、新しいメッセージを録音するかを選ぶことができる。いくつかの実施形態において、発信者には、発信者の装置のキーを使用して、テキストメッセージを修正する機会が与えられてもよい。他の実施形態では、ステップＳ１２０は省略されてもよい。ステップＳ１２２で、生成されたＳＭＳメッセージ２８は、メッセージシステム４２によって受信者の携帯電話１０へ送られ、そこで、自動的にスクリーン２６に表示されてもよい。あるいは、メッセージは、携帯電話１０のメモリに記憶されてもよく、その到着は、スクリーン２６に表示されるアイコン３０、及び／または別の非可聴式信号、たとえば電池振動によって、合図されてもよい。受信者は、これにより、会議またはその他のイベントで他の参加者の邪魔をすることなく、目立たずにスクリーン２６上でメッセージ２８を見ることができる。

例示的なシステムおよび方法は、ボイス−テキスト変換処理ソフトウェアが発信者または受信者の固定電話または携帯電話に格納されることを必要とせず、むしろ、装置１０、１４、１６から離れている（遠隔地の）システム４２に格納される。「遠隔地」であることから、これは、メッセージセンターがワイヤレス通信を経由して（または、固定電話の場合には、少なくとも部分的に電話線を経由して）メッセージを生成し／受け取る装置と通信することを意味する。しかし、他の実施形態では、処理ソフトウェアが発信者の装置に格納されてもよい。そのような内蔵型の実施形態はまた、特定のユーザボイストレーニングによる利益を得ることができる。

次に、スピーチ−テキスト変換の原理をさらに詳細に説明する。音声学では、単語の発音は一般に、音素または分節音を表すシンボルのストリングを使用して説明される。音素は、言語の音韻論内の弁別的な発話音であり、一般的なアルファベットの文字よりも多くの音素がある。したがって、専用の音素表記法が開発されており、国際音声記号（ＩＰＡ）は、すべての人間の言語の音を標記する目的で、国際音声学会によって１８８８年に開発された最初の標準から発展している。特にアメリカ英語用に設計された別の記号（ＩＰＡ記号で利用可能なものよりも少ない音素を含む）もまた、広く使用されている。これは、ＡＲＰＡｂｅｔとして知られており、ＡＳＣＩＩシンボルのみから構成される（たとえば、Ｓｈｏｕｐ，Ｊ．Ｅ．著「発話認識の音韻論的態様（ＰｈｏｎｏｌｏｇｉｃａｌＡｓｐｅｃｔｓｏｆＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）」、Ｌｅａ、Ｗ．Ａ．編『発話認識の傾向（ＴｒｅｎｄｓｉｎＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）』、１２５〜１３８頁、Ｐｒｅｎｔｉｃｅ−Ｈａｌｌ、ＥｎｇｌｅｗｏｏｄＣｌｉｆｆｓ版、ニュージーランド、１９８０）参照）。

発話認識は、人がマイクロホンまたは電話に話し始めるときに開始する。話すという行為は音圧波を生成し、これは音声信号を形成する。マイクロホンまたは電話は音声信号を受け取り、これを電子装置が理解することができるアナログ信号に変換する。最後に、アナログ信号をコンピュータ（デジタル装置）に保存するために、これはデジタル信号に変換される。

デコーダ５２のスピーチ認識装置を使用してデジタル信号をデコードする。しかし、信号は、最初にマイクロホンまたは電話によって捉えられたときに、一般に、認識装置がデコードすることができない形態の情報を含む。人の発話の特定の属性または特徴のみが、デコーディングするのに有用である。これらの特徴は、認識装置が各単語で話される音素（母音および子音のパターン）を識別するのを可能にする。それらは、数字的に測定されて、認識装置が処理することができる形態に保存されてもよい。この形態は、特徴ベクトルと呼ばれる。

これらの測定を行うプロセスは、特徴ベクトル抽出として知られている。他の特徴抽出方法は、フロントエンド処理、デジタル信号処理および信号モデリングを含む。現代の発話認識システムにおいて、特徴抽出は通常、信号をデジタル形態へ変換し（すなわち、信号状態調節）、信号のいくつかの属性（たとえばエネルギまたは周波数応答）を測定し（すなわち、信号測定）、これらの測定を、知覚的に意味のある導き出された測定について増幅し（すなわち、信号パラメタリゼーション）、これらの数を統計的に調整し観測ベクトルを形成するプロセスを含む。

スペクトログラムは、発話信号を見る１つの方法を提供し、たとえば、特定周波数値で経時的な信号エネルギの変化をプロットする。スペクトログラムのエネルギ値は、フーリエ変換を計算することによって抽出されてもよく、フーリエ変換は、信号の周波数スペクトルが、少量のデータまたはウインドウを与えられて、計算されるのを可能にする数学的技術である。このプロセスはまた、時間領域（ドメイン）から周波数領域（ドメイン）への変換としても知られている。

ひとたび入力された音から特徴ベクトルが生成されると、次のステップは、これらのベクトルから音素または単語全体を認識することである。そうするために、特徴ベクトルによって担持されたデータと音声モデルとの間で、整合プロセスが行われる。音声モデルは、単語モデルまたは音素モデルのいずれかから構成されることができる。

単語モデルは、単語を形成するのに必要なすべての音素を包含する。単語モデルは一般に、短いリストで単語を認識するために使用される。この技術が各単語の情報の単一ピースとして認識パターンをエンコードするため、それらは、大きな語彙集を取り扱うにはあまり効果的ではない（すべての音素は単一の音に統合される）。したがって、リストに含まれるエントリーが多ければ多いほど、すべての情報を保存するために必要なメモリが多くなる。大きな語彙集では、音素モデルがより実際的である。

音素モデルは単語を、言語の最小の弁別的な音声構成要素である音素の特定の順番のリストとしてエンコードする。たとえば、英語は、約４０〜４３の音素からなる。単語を音素にこのように分解することは、たとえば、有限状態トランスデューサを使用して、記憶最適化を可能にする。共通の音素の順序を備えた単語は、ネットワークの同一部分を共有する。

次のフェーズは、言語モデルの音素のシーケンスにマッチする可能性がもっともある単語をサーチすることである。連続発話認識は、パターン認識およびサーチ問題の両方である。サーチアルゴリズムの複雑さは、サーチされているネットワークの数およびタイプを含む多くの事柄に依存する。発話認識は典型的に、そのスピードおよび設計の簡略さのためデコーディング用に階層的なビタビビームサーチアルゴリズムを使用する。そのような技術は、たとえば、ＤｅｓｈｍｕｋｈＮ．、ＧａｎａｐａｔｈｉｒａｊｕＡ．、ＰｉｃｏｎｅＪ．著、「語彙の多い会話の発話認識のための階層的サーチ（ＨｉｅｒａｒｃｈｉｃａｌＳｅａｒｃｈｆｏｒＬａｒｇｅＶｏｃａｂｕｌａｒｙＣｏｎｖｅｒｓａｔｉｏｎａｌＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）」、『ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＭａｇａｚｉｎｅ』、第１６巻、第５号、８４〜１０７頁（１９９９年９月）、および、ＨｕａｎｇＸ、ＡｃｅｒｏＡ．およびＨｏｎＨ．Ｈ．著、「話し言葉処理−理論、アルゴリズムおよびシステム開発へのガイド（ＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ − ＡＧｕｉｄｅｔｏＴｈｅｏｒｙ，Ａｌｇｏｒｉｔｈｍ，ａｎｄＳｙｓｔｅｍＤｅｖｅｌｏｐｍｅｎｔ）」、（ＰｒｅｎｔｉｃｅＨａｌｌ版２００１年）に記載されている。

サーチ技術を使用するときには、枝刈りとして周知のプロセスが通常使用される。枝刈りは、ありそうもない経路を考慮から除去し、メモリおよび時間の両方のリソース使用を節約する。ビタビアルゴリズムにおいて、枝刈りは、統計モデルの評価後に最低レベルで行われる。同一のヒストリー（履歴）を備える経路を比較することができ、最良のスコアを持つものが伝播、他は消去される。ビタビ枝刈りは一般に、比較するものを決定するために、小さな数のデータ要素を比較する必要があるだけであるように、能率的な記憶スキームを必要とする。認識システムは、多くの形態の枝刈りを使用する。困難な環境、たとえば、雑音の多い電話線で収集された会話の発話のためには、コンピュータシステムの物理的なメモリ容量を超過するのを避けるために、きわめて積極的な枝刈りが一般に望ましい。

スピーチ−テキスト変換システムは、文脈にしたがって単語を最良に予測するかまたは曖昧さをなくすために、自然言語処理構成要素を含んでもよい。

トレーニングプロセスは一般に、特徴ベクトルと音声モデルとの間の整合を改良するために適用される。トレーニングはまた、文脈にしたがって単語の予測を改良するためにも適用されることができる。

単語の識別を容易にするために、入力された発話をトークン化することが有用である。一実施形態において、入力テキストは、電報のスタイルのように、各単語の間にわずかな沈黙を挟んで一語ずつ話される（音声デコーダの検出能力に依存して、一般に数ミリ秒で十分である）。単語をトークン化することによって、ユーザにとってより意味がある出力を、出力メッセージの自然言語処理に頼らずに生成することができる。特定のＳＭＳ表現として用語集から識別された単語を除いて、単語は例示的な転記方法では意味を有さない。したがって、生成された出力テキストにおける可読性を高めるために、単語の間をはっきり分けることが、連続した判読が困難なキャラクターのストリングを生成するのを回避する。

例示的なプロセッサ４８は、方法ステップＳ１１８を行うための命令を実行する。システムの第１の部分は、特徴ベクトル抽出および音声モデルとの比較後に発話音を音素に変換する共通のスピーチ−テキスト変換技術に頼る。

デコーダ５２はまず音素を検出し、第１のトランスデューサ６０は、音素の入力リストと音声エンコーディングと一緒に保存されたＳＭＳ表現の辞書６２との間に整合を見出そうとすることによって、古典的なスピーチ−テキスト変換システムに類似するやり方で動作する。このリストは、自然言語のすべての単語を含む辞書よりもかなり短くてもよい。たとえば、ＳＭＳ表現のリストは、約千単語またはそれ以下の単語を含んでもよい。ひとたびＳＭＳ表現が検出されると、その慣習的表記法が出力に転記される。

第２のトランスデューサ６４は、残っている音素に特定の変換ルールを適用する。ＡＲＰＡｂｅｔ（および、より大きな程度では、ＩＰＡ記号）が特定の表記法を使用して広く知られていない音素をエンコードするため、この操作が行われる。特定の音素を表現するために、アルパベットは２つまたは３つ以上のＡＳＣＩＩ文字を使用することが多い。本変換は、音素エンコーディングの表現力を減少し、結果として、曖昧さが生じる。たとえば、「ｓｅｅ」または「ｓｅａ」という単語は、両方とも（ユーザの発音にしたがって）、同一の速記コード（たとえば、Ｃ）を使用して変換される。しかし、この曖昧さは、統語的および意味的文脈を与えられて単語の曖昧さをなくすことができる人間の脳のデコーディング能力を前提として、問題とならない（たとえば、所与のセンテンス、「ｔｈｅｓｈｉｐｉｓｃｒｕｉｓｉｎｇｉｎｔｈｅｏｐｅｎＣ」では、記号「Ｃ」は、「Ｓｅａ」としか理解されない）。

それにもかかわらず、発話を音素にデコーディングするステップの間に、１つの問題が発生することもある。マイクロホンまたはユーザの発音の質に依存して、場合によっては、デコーダ５２が正しい音素を特定の音に連結するのが困難なこともあり、曖昧さを招く。一実施形態において、特定の音素の曖昧さがある場合に、文脈にしたがっていずれが正しいものであるかを選択するのを助けるために、Ｎ−ｇｒａｍまたは重み付き有限状態トランスデューサが、音素のシーケンスに使用されてもよい。たとえば、可能性のある音素の固定数のＮ−ｇｒａｍ、たとえば、２、３またはそれ以上の可能性のある音素が考慮され、共起の可能性が比較されて、Ｎ−ｇｒａｍまたはＮ−ｇｒａｍのグループにおける音素のもっとも可能なセットを決定する。

一般に、場合によっては正しい音素が識別されないときでさえ、人間の脳のデコーディング能力には、文脈全体（単語または文）の理解を可能にするように、関連音が理解可能であるものである。

擬似音素変換ルールは、ターゲットの特定の言語の発音用にカスタマイズされてもよい。たとえば、「ｂｕｔｔｅｒ」という単語は、アメリカ人とイギリス人とでは異なって発音される。アメリカ英語では、「ｔｔ」という文字は「ｄｘ」（ＡＲＰＡｂｅｔ表記表では「ｄ」）と発音され、一方、標準英語（容認発音等）では「ｔ」と発音される。したがって、ＳＭＳメッセージ生成の能率を上げるために、コンバータは、ターゲット人口の発音習慣にカスタマイズされる。

システムのフィージビリティをテストするために、小型プロトタイプシステムが実施された。このシステムは、入力として、標準ＳＴＴシステムの第１のステージによって生成されたものに類似した音素のシーケンスを（ＡＲＰＡｂｅｔ表記表を使用して）使用した。次いで、プロトタイプは、ＳＭＳ共通表現検出および音素変換を適用した。プロトタイプ用に使用された共通ＳＭＳ表現の辞書は、非常に限定された数の単語のみを含んだ。すなわち、ｙｏｕｒ（ＹＲ）、ｙｏｕ（Ｕ）、ｔｏｍｏｒｒｏｗ（２ＭＯＲＯ）、ｔｏｄａｙ（２ＤＡＹ）、ｔｈａｎｋｓ（ＴＨＸ）、ｐｌｅａｓｅ（ＰＬＺ）、ｗａｉｔｉｎｇ（Ｗ８ＴＮＧ）、ｗａｉｔ（Ｗ８）、ｇｒｅａｔ（ＧＲ８）、ｍｅｅｔｉｎｇ（ＭＴＮＧ）、ｏｆｆｉｃｅ（ＯＦＩＳ）、ｓｉｓｔｅｒ（ＳＩＳ）、ｂｒｏｔｈｅｒ（ＢＲＯＳ）、ｌａｔｅｒ（Ｌ８Ｒ）、ｌａｔｅ（Ｌ８）、ｆｏｒ（４）、ｔｏ（２）、ｓｅｅ（Ｃ）、ｂｅ（Ｂ）、ｏｎｅ（１）、ｔｗｏ（２）、ｔｏ（２）、ｔｈｒｅｅ（３）、ｆｏｕｒ（４）、ｆｉｖｅ（５）、ｓｉｘ（６）、ｓｅｖｅｎ（７）、ｅｉｇｈｔ（８）、ｎｉｎｅ（９）、ｔｅｎ（１０）、ｅｌｅｖｅｎ（１１）、ｔｗｅｌｖｅ（１２）、ｃａｌｌｍｅｂａｃｋ（ＣＭＢ）である。

数文字を含むＡＲＰＡｂｅｔ音素表記表に適用された変換ルール（１文字のみでコードされた音素は変化しないままとされる）は、アメリカ英語では下記の通りである（いくつかの特別な変換を含む）。

下記の図式は、メッセージ変換の例を表す。
１．入力センテンス：
「Ｈｅｌｌｏｉｔ’ｓｙｏｕｒｓｉｓｔｅｒ．Ｓｅｅｙｏｕｔｏｎｉｇｈｔａｔｅｉｇｈｔｆｏｒｔｈｅｍｅｅｔｉｎｇ．Ｃａｌｌｍｅｂａｃｋ．」
２．音素のシーケンスに変換されたセンテンス：
ｈａｘｌｏｗｉｘｔｓｙｕｈａａｒｓｉｈｓｔａｅｔａｘｒｓｉｈｙｕｈｔｕｈｎａａｉｈｔａａｔｅｙｉｈｔｆａｏｒｄｈａｘｍｉｈｔｉｈｎｇｋａｗｌｍｉｈｂａａｋ
３．速記テキストとして出力：
ｈｅｌｏｉｔｓＹＲＳＩＳ
ｓｅｅＵ２ＮＩＴＥａｔ８
４ｄｅＭＴＮＧ
ＣＭＢ
観察されるように、結果は必ずしも十分に形成されていないが、依然として理解可能であり、曖昧さでさえ文脈にしたがって解決することができる。

例示的な実施形態による音声メッセージのテキスト表示をモバイル装置へ提供するためのシステムの概略図である。例示的な実施形態による音声メッセージのテキスト表示をモバイル装置へ提供するための方法のフローチャートである。

符号の説明

１０ワイヤレス（無線）モバイル装置
１２アンテナ
１４ボイス通信装置
１６ボイス通信装置
１８ワイヤレスネットワーク
２０通信ステーション
２２電話線
２４トランスミッタ
２６ディスプレイ
２８ＳＭＳメッセージ
３０アイコン
３２イヤホンまたはスピーカー
３４スイッチ、リンガーボタン
３６マイクロホン
３８キーパッド
４０モバイル切換センター
４２メッセージシステム
４４メッセージサーバ
４６ボイスメッセージ変換システム
４８プロセッサ
５０メモリ
５２デコーダ
５４バス
６０第１の有限状態トランスデューサ
６２辞書
６４第２の有限状態トランスデューサ
６６揮発性メモリ

Claims

ボイスメッセージのテキスト表示を通信装置へ提供する方法であって、
第１の通信装置がサイレントモードで作動していることを検出し、
第２の通信装置のユーザにボイスメッセージを入力するように促し、
前記入力されたボイスメッセージを音素に変換し、
前記ボイスメッセージのテキスト表示を前記第１の通信装置へ送信することであって、前記表示は音素に基づいたキャラクターを含む、送信すること、
を含む方法。
単語に対応する音素のグループを識別するために単語の辞書にアクセスし、
前記辞書で単語の一部として認識されなかった各音素にについて、前記音素を代表的なキャラクターとして表示すること、
をさらに含む請求項１記載の方法。
前記音素は、音素の有限セットから選択され、各音素は代表的なキャラクターに関連づけられ、単語の一部として認識されなかった音素の表示は、前記音素を代表するキャラクターとして表示することを含む請求項１記載の方法。
ボイスメッセージのテキスト表示を第１の通信装置に提供するためのシステムであって、
第２の通信装置から入力されたボイスメッセージを音素へ変換し前記入力されたボイスメッセージのテキスト表示を生成するボイスメッセージ変換システムであって、前記テキスト表示は、音素に基づいたキャラクターを含む、ボイスメッセージ変換システムと、
前記ボイスメッセージ変換システムと通信する切換センターであって、メッセージを送受信することができ、前記第２の通信装置から前記入力されたボイスメッセージを受信し、メッセージを前記第１の通信装置へ送信し、前記メッセージは、前記ボイスメッセージ変換システムによって生成された前記テキスト表示を備える、切換センターと、
を備えるシステム。