JP2007300640A - ボイスメッセージのテキスト表示を通信装置へ提供する方法及びシステム - Google Patents

ボイスメッセージのテキスト表示を通信装置へ提供する方法及びシステム Download PDF

Info

Publication number
JP2007300640A
JP2007300640A JP2007120573A JP2007120573A JP2007300640A JP 2007300640 A JP2007300640 A JP 2007300640A JP 2007120573 A JP2007120573 A JP 2007120573A JP 2007120573 A JP2007120573 A JP 2007120573A JP 2007300640 A JP2007300640 A JP 2007300640A
Authority
JP
Japan
Prior art keywords
voice message
message
phonemes
communication device
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007120573A
Other languages
English (en)
Other versions
JP5247062B2 (ja
Inventor
Denys Proux
プル ドゥニ
Eric Cheminot
シュミノ エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2007300640A publication Critical patent/JP2007300640A/ja
Application granted granted Critical
Publication of JP5247062B2 publication Critical patent/JP5247062B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. SMS or e-mail
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42382Text-based messaging services in telephone networks such as PSTN/ISDN, e.g. User-to-User Signalling or Short Message Service for fixed networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Abstract

【課題】モバイル装置に適用可能な、大容量のメモリや電力消費を必要としない、音声メッセージのテキスト表示をモバイル装置へ提供する方法及びシステムを提供する。
【解決手段】通信ステーションは、ユーザが通信装置によりコールを発し、コールを受けた通信装置がサイレントモードで作動していることを検出した場合、コールを発した通信装置のユーザにボイスメッセージを入力するように促す。通信ステーションは入力されたボイスメッセージは音素に変換することによりボイスメッセージのテキスト表示を生成し、それを前記コールを受けた通信装置へ送信する。前記ボイスメッセージのテキスト表示は音素に基づいたキャラクターを含む。
【選択図】図1

Description

例示的な実施形態は、メッセージを送受信するためのシステムおよび方法に関し、特に、音声メッセージのテキスト表示をモバイル装置へ提供するためのシステムに関する。
ボイス通信を送信し受信するためのモバイル装置、たとえば、セル式携帯電話は、現在、広く使用されている。会議中にまたはステージおよびコンサートイベント等のある種のイベントでは、携帯電話を鳴らすことは許されないことが多い。したがって、セル式携帯電話はサイレントモードを提供するように構成されており、それは、受信者がコール(電話)を受け取ったことを見ることを可能にする。しかし、受信者は、コールを聴くためには会議またはその他のイベントを離れなければならないか、または、発信者が録音したボイスメッセージを取得するために後まで待たなければならない。これらの選択肢は、いずれも完全に満足のいくものではない。ユーザは、電話のスイッチを完全にオフにして、会議の邪魔をするか否かの困難な決定に直面するのを避けることが多い。
ボイスをテキストに変換することができる発話認識システムが開発されている。標準的なアプローチは、発話の波形をデジタル信号スプリットに、次いで、データの一片に変換する。シンボル(記号)のシーケンスからなるデータは、次いで、ビタビ(Viterbi)アルゴリズム等の検索アルゴリズムを使用して用語集エントリーと整合され、たとえば隠れマルコフモデル(HMM:Hidden Markov )を使用して、曖昧さがなくされる。正確な認識のために、広大な用語集にアクセスし、これは、検出された音が話し手の言語の単語とマッチするのを可能にする。そのようなシステムはしたがって、相当のメモリパワーを組み込み、一般に、システムが話し手のボイスにトレーニングされると、もっとも効率的である。
セル式携帯電話の場合には、本質的に使い捨てである携帯用で軽量の装置を維持することが望まれる。したがって、大きなメモリを必要とするかまたは相当な電池消費を招くオペレーティングシステムは、望ましくない。セル式携帯電話のユーザは、現在、SMS(ショートメッセージサービス)と呼ばれるタイプのテキストメッセージを送受信することができる。しかし、モバイル装置の従来のキーパッドは非常に小さく、使用するのが不便である。セル式携帯電話のユーザにコンタクトを取ることができない発信者は、受信者がボイスメッセージを検索することを頼るのを好むことが多い。
上記に関連して、特許文献1及び2は、携帯電話においてスピーチ音声を認識し、ボイスメッセージを音素による表現に変換して送受信する技術を記載している。
米国特許出願第2005/0273327号明細書 米国特許出願第2005/0075143号明細書
本発明は、モバイル装置に適用可能な、大容量のメモリや電力消費を必要としない、音声メッセージのテキスト表示をモバイル装置へ提供する方法及びシステムを提供することを目的とする。
例示的な実施形態の一態様によれば、ボイスメッセージのテキスト表示を通信装置へ提供するための方法は、第1の通信装置がサイレントモードで作動していることを検出し、第2の通信システムのユーザにボイスメッセージを入力するように促しと、入力されたボイスメッセージを音素に変換し、ボイスメッセージのテキスト表示を第1の通信装置へ送信することであって、前記表示は音素に基づいたキャラクターを含む、送信すること、を含む。
前記の方法は、第1の通信装置にテキスト表示を自動的に表示することをさらに含んでもよい。
本方法はまた、単語に対応する音素のグループを識別するために単語の辞書にアクセスし、辞書で単語の一部として認識されなかった各音素について、音素を代表的なキャラクターとして表示すること、をさらに含んでもよい。
前記音素は、音素の有限セットから選択されてもよく、各音素は代表的なキャラクターに関連づけられてもよい。単語の一部として認識されなかった音素の表示は、音素をその代表的なキャラクターとして表示することを含んでもよい。
代表的なキャラクターは、文字および数字を含んでもよい。
音素の少なくとも大半において、各音素は単一の代表的なキャラクターに関連づけられてもよい。
入力されたボイスメッセージの変換は、ボイスメッセージを特徴ベクトルに変換することを含んでもよく、各特徴ベクトルは少なくとも1つの音素に対応する。
第1の通信装置は、携帯電話からなってもよい。
前記ユーザを促すことは、ユーザが、メッセージを話すときにメッセージの各単語にギャップで間隔をあけるように促すことを含んでもよい。
ボイスメッセージのテキスト表示を第1の通信装置へ送信することは、テキスト表示を第1の通信装置へワイヤレス(無線)送信することを含んでもよい。
入力されたボイスメッセージを音素へ変換することおよびボイスメッセージのテキスト表示を第1の通信装置へ送信することは、第1および第2の通信装置から離れた通信ステーションによって行われてもよい。
本方法は、第2の通信装置のユーザに第2のボイスメッセージを入力するように促し、第1の通信装置によってアクセス可能なメッセージサーバに第2のボイスメッセージを保存すること、をさらに含んでもよい。
有体物であるデータ記憶媒体は、プロセッサによって実行されると、本例示的な方法を行う命令を記憶していてもよい。
別の態様において、ボイスメッセージのテキスト表示を第1の通信装置に提供するためのシステムは、ボイスメッセージ変換システムを含み、これは、第2の通信装置から入力されたボイスメッセージを音素へ変換し、入力されたボイスメッセージのテキスト表示を生成し、テキスト表示は、音素に基づいたキャラクターを含む。切換センターが、ボイスメッセージ変換システムと通信する。切換センターは、メッセージを受信し送信することができる。切換センターは、第2の通信装置から入力されたボイスメッセージを受信し、メッセージを第1の通信装置へ送信し、前記メッセージは、ボイスメッセージ変換システムによって生成されたテキスト表示を備える。
本システムにおいて、切換センターは、第1の通信装置がサイレントモードで作動しているときを認識し、第2の通信装置のユーザに、テキスト表示へ変換するためのボイスメッセージを入力するように促すことができる。
ボイスメッセージ変換システムは、第1および第2の通信装置から離れていてもよい。
第1の通信装置はモバイル装置であってもよく、切換センターは、テキスト表示を含むメッセージをモバイル装置へワイヤレス送信してもよい。
ボイスメッセージ変換システムは、単語に対応する音素のグループを識別するために単語の辞書にアクセスする第1のトランスデューサ(変換器)と、辞書で単語の一部として認識されなかった各音素について、キャラクターとして音素を表示する第2のトランスデューサと、を含んでもよい。
システムは、切換センターと通信するメッセージングシステムをさらに含んでもよく、これは、ボイスメッセージと、第2の通信装置から受信した第2のボイスメッセージと、の少なくとも一方を記憶する。
ボイスメッセージ変換システムは、第1および第2の通信装置から離れていてもよい。
別の態様において、ボイスメッセージのテキスト表示を提供する方法は、ボイスメッセージを受信し、ボイスメッセージを音素に変換し、音素は音素の有限セットから選択され、セットの音素の大半用に各音素がメモリで単一の代表的なキャラクターに関連づけられ、ボイスメッセージの音素のグループに対応するあらゆる単語を識別するために辞書にアクセスし、辞書の単語に対応する音素のグループの1つの一部であるとして認識されなかった各音素について、代表的なキャラクターとして音素を表示すること、を含む。ボイスメッセージのテキスト表示は通信装置へ送信され、前記表示は、少なくともいくつかの音素を代表するキャラクターを含む。
方法は、通信装置にテキスト表示を表示することをさらに含んでもよい。
音声メッセージのテキスト表示をモバイル装置たとえば携帯電話へ提供するためのシステムおよび方法が開示される。
一態様において、システムは、ボイス録音のテキスト表示をモバイルユーザへ従来のディスプレイを経由してユーザの電話に提供することができる。モバイル装置は、入ってくるボイスメッセージのサイレント通知およびシンプルSMS(ショートメッセージサービス)テキストメッセージ等のその書かれた内容を直接受信してもよい。システムは、録音されたボイスメッセージを音声SMSスタイルのメッセージに自動的に変換し、それは次いでモバイル装置へ送られる。
別の態様において、ボイスメッセージのテキスト表示を通信装置へ提供するための方法は、モバイル装置等の第1の通信装置がサイレントモードで作動しているのを検出し、第2の通信装置のユーザに、テキストに変換されるべきボイスメッセージを入力するように促すこと、を含む。入力されたボイスメッセージは音素に変換される。ボイスメッセージのテキスト表示は、音素から生成され、たとえば、モバイル装置の場合にはワイヤレスで、第1の通信装置へ送信される。表示は、音素のいくつかを表すキャラクターを含んでもよい。
モバイル装置として携帯電話(セル式携帯電話)が特に参照されているが、たとえば、ラップトップコンピュータ、携帯情報端末(PDA)等ボイスメッセージを受け取る他のモバイル装置もまた想定されている。
例示的な実施形態において、ボイスからSMSへの変換機構は、メッセージサービスと組み合わされ、それは、発信者が、ボイスメッセージをサーバに録音しながら、このメッセージをSMSに自動変換するのを要求することを可能にする。携帯電話受信者は、自分の携帯電話で新しいメッセージの通知およびその転記された内容の両方を受け取ることができる。
システムは、携帯電話のキーボードを使用するという困難さを経ずに発話を使用してSMSメッセージを直接形成することを可能にする。さらに、SMS機能を有さない固定電話ユーザが、SMSメッセージを形成することができる。
システムは、携帯電話内に内蔵されてもよく、したがって、ユーザ固有のボイスに基づいて機構をトレーニングするという利点を利用して、変換能率を改良することができる。
システムは、検証または記録のために文章(書面)転記を提供してもよい。そのようなシステムは、会話を、文章リポートの音素プレバージョンに書き換えるために適用されてもよく、それは、情報として及びさらなる処理のためにSMSまたは他のデジタル手段(たとえば、eメール)を通して話し手へ自動的に送ることができる。
図1を参照すると、通信装置のユーザたとえば携帯電話ユーザにボイスメッセージのテキスト表示を提供するための例示的なシステムが、示されている。システムは、第1の通信装置を含み、ここでは、ワイヤレスモバイル装置10として例示されており、これは、音声信号を送信し受信するためのアンテナ12を含む。モバイル装置10は、1つ以上の通信ステーション20を含むワイヤレスネットワーク18を経由して他のボイス通信装置14、16と通信する。例示されたボイス通信装置14は、従来の固定電話であり、これは、固定電話線22およびトランスミッタ24を経由して通路ステーション18に少なくとも部分的に接続され、一方、装置16は第2のモバイル装置であってもよい。多くのこのような装置がシステムの一部を形成することを理解されたい。
モバイル装置10は、信号を受信し送信するためのアンテナ12が連結されたトランスミッタおよびレシーバと、SMSメッセージ28およびアイコン30を表示することができるLCDスクリーン等のディスプレイ26と、を備えた従来の携帯電話であってもよく、アイコンは、携帯電話10用のボイスメッセージがリモートメッセージサーバに保存されており、そこからユーザがアクセスすることができることを示すようなものである。モバイル装置10はまた、通常、従来のイヤホンまたはスピーカー32と、スイッチ34でオンまたはオフを切り換えられるリンガー(呼鈴装置)と、マイクロホン36と、キーパッド38と、例示されていない他の従来の構成要素、たとえば、電池、不揮発性メモリ、および、揮発性メモリを含み、揮発性メモリはたとえば、スクリーン26に表示されるべきテキストメッセージ等のデータの一次保存用のキャッシュエリアを含む揮発性ランダムアクセスメモリ(RAM)であってよい。スクリーン26は、グラフィカルユーザインタフェースとして作用することができ、ユーザが、キーパッド38の操作を通してテキストおよびボイスメッセージ等を検索するためのメッセージシステムにアクセスするのを可能にする。メモリは、識別子、たとえば、携帯電話機体識別番号(IMEI)コードを含むことができ、これは、モバイル装置を通信ステーション20に対し独自に識別することができる。装置14、16は、装置10と同様に構成されてもよい。
通信ステーション20は、モバイル切換センター40と、直接または中継ステーションを経由してモバイル装置の間の音声通信のワイヤレス送信に、および電話線に従来関連する他の構成要素と、を含む。切換センター40は、モバイル装置がコールするとき及びコールを受け取るときに、モバイル装置への及びモバイル装置からのコールおよびメッセージをルーティングすることができる。モバイル切換センター40はまた、モバイル装置がネットワークに登録されたときにモバイル装置へ及びモバイル装置からメッセージを送るのを制御し、メッセージシステム42へ及びメッセージシステム42からモバイル装置のためのメッセージを送ることもまた制御する。そのようなメッセージは、たとえば、メッセージサーバ44から取得のために保存されたボイス通信装置12、14、16から受け取ったボイスメッセージ、および、モバイル装置またはネットワークによってサービス提供された他のモバイル装置から受け取ったショートメッセージサービス(SMS)を含んでもよい。本願では、切換センター40はまた、テキストメッセージ、たとえばSMSを送信し、それは、ここに記載された方法にしたがってボイスメッセージから生成される。
モバイル装置メッセージシステム42は、入力されたボイスメッセージをSMSテキストメッセージに変換するボイスメッセージ変換システム46を含む。ボイスメッセージ変換システム46は、スピーチ−テキスト変換システムを含み、これは、ボイス音を、入力された発話を表す一連の音素に変換し、音素に基づいたキャラクターからなるテキストメッセージを出力する。例示されたボイスメッセージ変換システム46は、ボイスメッセージをSMSテキストメッセージに変換するための命令を実行するプロセッサ48を含む。命令は、関連するメモリ50にソフトウェアプログラムとして記憶されてもよい。プロセッサ48は、メモリとは別個であってもよく、または、単一のチップにメモリ50と一体化されてもよい、任意の適切なコンピュータ装置を備えることができる。プロセッサ48は、バス54によって、メモリ50およびメッセージシステムの他の構成要素に、接続されてもよい。
音素は一般に、単一の特徴(弁別)的な音として認識される1セットの類似発話音に対応する1セットのシンボル(記号)として定義される。プロセッサは、入力された発話を、入力された発話を表す多数の周知のシンボル(すなわち音素)の任意のものに変換することができ、多数の周知の技術の任意のものにしたがって、これらのシンボルに入力された発話を変換することができる。たとえば、入力された発話は、デコーダ52によって、国際音声学会(IPA)の国際音声記号、アルパベットスタンダード(ARPAbet standard)または拡張SAM音声記号(XSampa)の音素に変換することができる。これらのシステムの各々は、有限の音素のセットを備え、そこから音を表す音素が選択される。
理解されるように、大半のユーザは音素に関連づけられた音を認識することができない。したがって、プロセッサ48は、ユーザによってよりよく理解されるテキストに音素をさらに変換することができてもよい。一実施形態において、第1の有限状態トランスデューサ60は、辞書62を用い、選択された言語、たとえば英語において、1つ以上の一般的に使用される単語またはフレーズを検索する。辞書の各単語/フレーズは、1セットの音素に対応し、これは、選択された言語のターゲットの発音で特定の単語/フレーズを発音する。辞書の単語およびフレーズは、速記(shorthand)形態で表記されてもよく、これはSMSメッセージで普通に使用され携帯電話ユーザには広く理解されるもの等であり、インターネット速記と称されることが多い。速記は、文字、フレーズおよび頭字語を含んでもよく、また、例えば文字および/または数字の組み合わせ等のキャラクターの組み合わせを含んでもよい。たとえば、インターネット速記では、「later」はL8R、「before」はB4、「see you later」はCUL8Rである。辞書で認識されていない音素は、それらの音素等価物、すなわち、第2の有限状態トランスデューサ64によって音素音をユーザへ表すキャラクターに変換されてもよい。一般に、両方のトランスデューサ60、64によって生成されたキャラクターは、文字および数字である。一実施形態において、大半の音素は単一のキャラクターで表記される。これら有限状態トランスデューサによって生成されたテキストメッセージは、処理中には揮発性メモリ66に保存されてもよい。
例示的な通信ステーション20は、図1に例示された構成要素を含む一方、通信ステーションが、従来通信に関連した他の構成要素を含んでもよいことを理解されたい。さらに、これら構成要素は、同一場所にある必要はなく、分散されてもよく、たとえば、有線リンクまたは無線リンクで通信してもよい。このようにして、たとえば、単一のボイスメッセージ変換システムは、いくつか複数の通信ステーションにサービス提供してもよい。
次に図2を参照すると、例示的な方法のステップが例示される。本方法は、例示されたものより少ないステップ、多いステップ、または、異なるステップを含んでもよく、ステップはすべて例示された順序で行われる必要はないことを理解されたい。
本方法は、ステップS100で開始する。ステップS102で、装置10のユーザ(「受信者」)は、たとえばリンガーボタン34を押すことによって、自分の携帯電話を「サイレント」モードにする。その後、全ての新しいコールは、ユーザのメッセージシステムへ直接ルーティング(転送)される。ユーザの電話は、オフにされたかのように、サイレントのままである。ステップS104で、装置14または16のユーザ(発信者)は、装置10のユーザと話すことを望み、自分の装置14、16で装置10の電話番号を入力する。
通信ステーション20は、携帯電話がサイレントモードで作動していることを認識する(ステップS105)。発信者は、メッセージシステム42へルーティングされ、メッセージシステム42は発信者に、受信者のメッセージサービスを介して受信者がアクセスするようにボイスメッセージを入力するように促すことができる(ステップS106)。発信者は、ボイスメッセージを録音するように選択できる(ステップS108)。加えて、または、代替的に、メッセージシステム42は、所望であれば発信者がボイス−テキスト変換メッセージ(SMSメッセージに変換されるべきボイスメッセージ)を録音するように促す(ステップS110)。ボイスメッセージおよびボイス−テキスト変換メッセージは同一の話されたメッセージであってもよいが、ボイス−テキスト変換メッセージは一般に、ショートメッセージであり、テキストメッセージシステムが収容することができる長さ、たとえば約15〜20ワードまたはそれ以下である。従って、発信者は、ボイス−テキスト変換メッセージとしてボイスメッセージの一部のみを使用するように決定してもよく(ステップS112)、または、別個のボイス−テキスト変換メッセージを録音してもよい(ステップS114)。変換システムの効率および出力メッセージの可読性を上げるために、発信者は、ボイス−テキスト変換メッセージを電報メッセージのように1単語ずつ口述する(すなわち、単語の間にボイス変換システム46によって検出可能なギャップを残す)ように促されることもある。
例示された実施形態において、メッセージシステム42は、ステップS116でボイス−テキスト変換メッセージを受け取る。ステップS118で、発話からSMSメッセージへの転記が、音声転記機構を使用してプロセッサ48によって行われる。ステップS118は、下記のサブステップを含んでもよい。サブステップS118Aで、ボイス−テキスト変換メッセージは、デコーダ52によって一連の音素に変換される(たとえば、音声IPA、アルパベットスタンダードまたは拡張SAM音声記号を使用してコード化される。サブステップS118BおよびS118Cで、有限状態トランスデューサ系システムが音素をSMS転記へマッピングする。具体的には、サブステップS118Bで、一般に使用されるSMS表現の用語集をエンコードする第1の有限状態トランスデューサ60が適用される。ステップS118Cで、第1の有限状態トランスデューサ60によって認識されていない全ての音素が第2の有限状態トランスデューサ64によって処理され、有限状態トランスデューサ64は音素をより自然な音声表記に変換するためのルールをエンコードする。
自然の発話を、語彙的に構文的に且つ意味的に正しい正確な文章転記に翻訳することは、容易な作業ではなく、本願に必要とされないことは明らかである。全般的に、音声SMSスタイルの転記のみがここでは目標とされている。この比較的シンプルなシステムは、メッセージの内容全体を用語集から検索された単語に正確に変換することを目的とした従来のスピーチ−テキスト変換システムよりも、必要とする計算がかなり少ない。そのようなシステムは、有効で正しい単語を生成するために辞書に存在する単語との一致を見出すことによって、すべての単語を認識し曖昧さをなくそうとする。例示的な方法はむしろ、音声SMSスタイルのメッセージを形成し、すなわち、発話メッセージの、容易に人間が理解することができる音声エンコーディングを形成する。
一実施形態において、出力エンコーディングは、用語集の単語の1つの一部として第1の有限状態トランスデューサによって認識されていない各音素をエンコードする。これらの残余音素の各々は、シンプルな1音素1文字転記にエンコードされてもよい(「gu」または「tch」のようないくつかの非常に特殊な音素を除く)。この翻訳の目的は、人間の読み手によって音声的に理解可能な表現を生成することである(たとえば、「Are you OK」の代わりに「R U OK」)。
英語およびフランス語では、提案された1音素につき特定の1文字のみのエンコーディングが適切である。音素のより大きなスペクトルを使用する言語では、複数文字でのエンコーディングがより適切でありうる。
ステップS120で、メッセージシステム42は、発信者の装置16のスクリーンに変換されたテキストメッセージを表示し、発信者はメッセージを有効にするように促されてよい。発信者は、メッセージを送るか、メッセージを削除するか、または、新しいメッセージを録音するかを選ぶことができる。いくつかの実施形態において、発信者には、発信者の装置のキーを使用して、テキストメッセージを修正する機会が与えられてもよい。他の実施形態では、ステップS120は省略されてもよい。ステップS122で、生成されたSMSメッセージ28は、メッセージシステム42によって受信者の携帯電話10へ送られ、そこで、自動的にスクリーン26に表示されてもよい。あるいは、メッセージは、携帯電話10のメモリに記憶されてもよく、その到着は、スクリーン26に表示されるアイコン30、及び/または別の非可聴式信号、たとえば電池振動によって、合図されてもよい。受信者は、これにより、会議またはその他のイベントで他の参加者の邪魔をすることなく、目立たずにスクリーン26上でメッセージ28を見ることができる。
例示的なシステムおよび方法は、ボイス−テキスト変換処理ソフトウェアが発信者または受信者の固定電話または携帯電話に格納されることを必要とせず、むしろ、装置10、14、16から離れている(遠隔地の)システム42に格納される。「遠隔地」であることから、これは、メッセージセンターがワイヤレス通信を経由して(または、固定電話の場合には、少なくとも部分的に電話線を経由して)メッセージを生成し/受け取る装置と通信することを意味する。しかし、他の実施形態では、処理ソフトウェアが発信者の装置に格納されてもよい。そのような内蔵型の実施形態はまた、特定のユーザボイストレーニングによる利益を得ることができる。
次に、スピーチ−テキスト変換の原理をさらに詳細に説明する。音声学では、単語の発音は一般に、音素または分節音を表すシンボルのストリングを使用して説明される。音素は、言語の音韻論内の弁別的な発話音であり、一般的なアルファベットの文字よりも多くの音素がある。したがって、専用の音素表記法が開発されており、国際音声記号(IPA)は、すべての人間の言語の音を標記する目的で、国際音声学会によって1888年に開発された最初の標準から発展している。特にアメリカ英語用に設計された別の記号(IPA記号で利用可能なものよりも少ない音素を含む)もまた、広く使用されている。これは、ARPAbetとして知られており、ASCIIシンボルのみから構成される(たとえば、Shoup,J.E.著「発話認識の音韻論的態様(Phonological Aspects of Speech Recognition)」、Lea、W.A.編『発話認識の傾向(Trends in Speech Recognition)』、125〜138頁、Prentice−Hall、Englewood Cliffs版、ニュージーランド、1980)参照)。
発話認識は、人がマイクロホンまたは電話に話し始めるときに開始する。話すという行為は音圧波を生成し、これは音声信号を形成する。マイクロホンまたは電話は音声信号を受け取り、これを電子装置が理解することができるアナログ信号に変換する。最後に、アナログ信号をコンピュータ(デジタル装置)に保存するために、これはデジタル信号に変換される。
デコーダ52のスピーチ認識装置を使用してデジタル信号をデコードする。しかし、信号は、最初にマイクロホンまたは電話によって捉えられたときに、一般に、認識装置がデコードすることができない形態の情報を含む。人の発話の特定の属性または特徴のみが、デコーディングするのに有用である。これらの特徴は、認識装置が各単語で話される音素(母音および子音のパターン)を識別するのを可能にする。それらは、数字的に測定されて、認識装置が処理することができる形態に保存されてもよい。この形態は、特徴ベクトルと呼ばれる。
これらの測定を行うプロセスは、特徴ベクトル抽出として知られている。他の特徴抽出方法は、フロントエンド処理、デジタル信号処理および信号モデリングを含む。現代の発話認識システムにおいて、特徴抽出は通常、信号をデジタル形態へ変換し(すなわち、信号状態調節)、信号のいくつかの属性(たとえばエネルギまたは周波数応答)を測定し(すなわち、信号測定)、これらの測定を、知覚的に意味のある導き出された測定について増幅し(すなわち、信号パラメタリゼーション)、これらの数を統計的に調整し観測ベクトルを形成するプロセスを含む。
スペクトログラムは、発話信号を見る1つの方法を提供し、たとえば、特定周波数値で経時的な信号エネルギの変化をプロットする。スペクトログラムのエネルギ値は、フーリエ変換を計算することによって抽出されてもよく、フーリエ変換は、信号の周波数スペクトルが、少量のデータまたはウインドウを与えられて、計算されるのを可能にする数学的技術である。このプロセスはまた、時間領域(ドメイン)から周波数領域(ドメイン)への変換としても知られている。
ひとたび入力された音から特徴ベクトルが生成されると、次のステップは、これらのベクトルから音素または単語全体を認識することである。そうするために、特徴ベクトルによって担持されたデータと音声モデルとの間で、整合プロセスが行われる。音声モデルは、単語モデルまたは音素モデルのいずれかから構成されることができる。
単語モデルは、単語を形成するのに必要なすべての音素を包含する。単語モデルは一般に、短いリストで単語を認識するために使用される。この技術が各単語の情報の単一ピースとして認識パターンをエンコードするため、それらは、大きな語彙集を取り扱うにはあまり効果的ではない(すべての音素は単一の音に統合される)。したがって、リストに含まれるエントリーが多ければ多いほど、すべての情報を保存するために必要なメモリが多くなる。大きな語彙集では、音素モデルがより実際的である。
音素モデルは単語を、言語の最小の弁別的な音声構成要素である音素の特定の順番のリストとしてエンコードする。たとえば、英語は、約40〜43の音素からなる。単語を音素にこのように分解することは、たとえば、有限状態トランスデューサを使用して、記憶最適化を可能にする。共通の音素の順序を備えた単語は、ネットワークの同一部分を共有する。
次のフェーズは、言語モデルの音素のシーケンスにマッチする可能性がもっともある単語をサーチすることである。連続発話認識は、パターン認識およびサーチ問題の両方である。サーチアルゴリズムの複雑さは、サーチされているネットワークの数およびタイプを含む多くの事柄に依存する。発話認識は典型的に、そのスピードおよび設計の簡略さのためデコーディング用に階層的なビタビビームサーチアルゴリズムを使用する。そのような技術は、たとえば、Deshmukh N.、Ganapathiraju A.、Picone J.著、「語彙の多い会話の発話認識のための階層的サーチ(Hierarchical Search for Large Vocabulary Conversational Speech Recognition)」、『IEEE Signal Processing Magazine』、第16巻、第5号、84〜107頁(1999年9月)、および、Huang X、Acero A.およびHon H.H.著、「話し言葉処理−理論、アルゴリズムおよびシステム開発へのガイド(Spoken Language Processing − A Guide to Theory, Algorithm, and System Development)」、(Prentice Hall版 2001年)に記載されている。
サーチ技術を使用するときには、枝刈りとして周知のプロセスが通常使用される。枝刈りは、ありそうもない経路を考慮から除去し、メモリおよび時間の両方のリソース使用を節約する。ビタビアルゴリズムにおいて、枝刈りは、統計モデルの評価後に最低レベルで行われる。同一のヒストリー(履歴)を備える経路を比較することができ、最良のスコアを持つものが伝播、他は消去される。ビタビ枝刈りは一般に、比較するものを決定するために、小さな数のデータ要素を比較する必要があるだけであるように、能率的な記憶スキームを必要とする。認識システムは、多くの形態の枝刈りを使用する。困難な環境、たとえば、雑音の多い電話線で収集された会話の発話のためには、コンピュータシステムの物理的なメモリ容量を超過するのを避けるために、きわめて積極的な枝刈りが一般に望ましい。
スピーチ−テキスト変換システムは、文脈にしたがって単語を最良に予測するかまたは曖昧さをなくすために、自然言語処理構成要素を含んでもよい。
トレーニングプロセスは一般に、特徴ベクトルと音声モデルとの間の整合を改良するために適用される。トレーニングはまた、文脈にしたがって単語の予測を改良するためにも適用されることができる。
単語の識別を容易にするために、入力された発話をトークン化することが有用である。一実施形態において、入力テキストは、電報のスタイルのように、各単語の間にわずかな沈黙を挟んで一語ずつ話される(音声デコーダの検出能力に依存して、一般に数ミリ秒で十分である)。単語をトークン化することによって、ユーザにとってより意味がある出力を、出力メッセージの自然言語処理に頼らずに生成することができる。特定のSMS表現として用語集から識別された単語を除いて、単語は例示的な転記方法では意味を有さない。したがって、生成された出力テキストにおける可読性を高めるために、単語の間をはっきり分けることが、連続した判読が困難なキャラクターのストリングを生成するのを回避する。
例示的なプロセッサ48は、方法ステップS118を行うための命令を実行する。システムの第1の部分は、特徴ベクトル抽出および音声モデルとの比較後に発話音を音素に変換する共通のスピーチ−テキスト変換技術に頼る。
デコーダ52はまず音素を検出し、第1のトランスデューサ60は、音素の入力リストと音声エンコーディングと一緒に保存されたSMS表現の辞書62との間に整合を見出そうとすることによって、古典的なスピーチ−テキスト変換システムに類似するやり方で動作する。このリストは、自然言語のすべての単語を含む辞書よりもかなり短くてもよい。たとえば、SMS表現のリストは、約千単語またはそれ以下の単語を含んでもよい。ひとたびSMS表現が検出されると、その慣習的表記法が出力に転記される。
第2のトランスデューサ64は、残っている音素に特定の変換ルールを適用する。ARPAbet(および、より大きな程度では、IPA記号)が特定の表記法を使用して広く知られていない音素をエンコードするため、この操作が行われる。特定の音素を表現するために、アルパベットは2つまたは3つ以上のASCII文字を使用することが多い。本変換は、音素エンコーディングの表現力を減少し、結果として、曖昧さが生じる。たとえば、「see」または「sea」という単語は、両方とも(ユーザの発音にしたがって)、同一の速記コード(たとえば、C)を使用して変換される。しかし、この曖昧さは、統語的および意味的文脈を与えられて単語の曖昧さをなくすことができる人間の脳のデコーディング能力を前提として、問題とならない(たとえば、所与のセンテンス、「the ship is cruising in the open C」では、記号「C」は、「Sea」としか理解されない)。
それにもかかわらず、発話を音素にデコーディングするステップの間に、1つの問題が発生することもある。マイクロホンまたはユーザの発音の質に依存して、場合によっては、デコーダ52が正しい音素を特定の音に連結するのが困難なこともあり、曖昧さを招く。一実施形態において、特定の音素の曖昧さがある場合に、文脈にしたがっていずれが正しいものであるかを選択するのを助けるために、N−gramまたは重み付き有限状態トランスデューサが、音素のシーケンスに使用されてもよい。たとえば、可能性のある音素の固定数のN−gram、たとえば、2、3またはそれ以上の可能性のある音素が考慮され、共起の可能性が比較されて、N−gramまたはN−gramのグループにおける音素のもっとも可能なセットを決定する。
一般に、場合によっては正しい音素が識別されないときでさえ、人間の脳のデコーディング能力には、文脈全体(単語または文)の理解を可能にするように、関連音が理解可能であるものである。
擬似音素変換ルールは、ターゲットの特定の言語の発音用にカスタマイズされてもよい。たとえば、「butter」という単語は、アメリカ人とイギリス人とでは異なって発音される。アメリカ英語では、「tt」という文字は「dx」(ARPAbet表記表では「d」)と発音され、一方、標準英語(容認発音等)では「t」と発音される。したがって、SMSメッセージ生成の能率を上げるために、コンバータは、ターゲット人口の発音習慣にカスタマイズされる。
システムのフィージビリティをテストするために、小型プロトタイプシステムが実施された。このシステムは、入力として、標準STTシステムの第1のステージによって生成されたものに類似した音素のシーケンスを(ARPAbet表記表を使用して)使用した。次いで、プロトタイプは、SMS共通表現検出および音素変換を適用した。プロトタイプ用に使用された共通SMS表現の辞書は、非常に限定された数の単語のみを含んだ。すなわち、your(YR)、you(U)、tomorrow(2MORO)、today(2DAY)、thanks(THX)、please(PLZ)、waiting(W8TNG)、wait(W8)、great(GR8)、meeting(MTNG)、office(OFIS)、sister(SIS)、brother(BROS)、later(L8R)、late(L8)、for(4)、to(2)、see(C)、be(B)、one(1)、two(2)、to(2)、three(3)、four(4)、five(5)、six(6)、seven(7)、eight(8)、nine(9)、ten(10)、eleven(11)、twelve(12)、call me back(CMB)である。
数文字を含むARPAbet音素表記表に適用された変換ルール(1文字のみでコードされた音素は変化しないままとされる)は、アメリカ英語では下記の通りである(いくつかの特別な変換を含む)。
Figure 2007300640
下記の図式は、メッセージ変換の例を表す。
1.入力センテンス:
「Hello it’s your sister. See you tonight at eight for the meeting. Call me back.」
2.音素のシーケンスに変換されたセンテンス:
h ax l ow ix t s y uh aa r s ih s t ae t axr s ih y uh t uh n aa ih t aa t ey ih t f ao r dh ax m ih t ih n g k aw l m ih b aa k
3.速記テキストとして出力:
helo its YR SIS
see U 2NITE at 8
4 de MTNG
CMB
観察されるように、結果は必ずしも十分に形成されていないが、依然として理解可能であり、曖昧さでさえ文脈にしたがって解決することができる。
例示的な実施形態による音声メッセージのテキスト表示をモバイル装置へ提供するためのシステムの概略図である。 例示的な実施形態による音声メッセージのテキスト表示をモバイル装置へ提供するための方法のフローチャートである。
符号の説明
10 ワイヤレス(無線)モバイル装置
12 アンテナ
14 ボイス通信装置
16 ボイス通信装置
18 ワイヤレスネットワーク
20 通信ステーション
22 電話線
24 トランスミッタ
26 ディスプレイ
28 SMSメッセージ
30 アイコン
32 イヤホンまたはスピーカー
34 スイッチ、リンガーボタン
36 マイクロホン
38 キーパッド
40 モバイル切換センター
42 メッセージシステム
44 メッセージサーバ
46 ボイスメッセージ変換システム
48 プロセッサ
50 メモリ
52 デコーダ
54 バス
60 第1の有限状態トランスデューサ
62 辞書
64 第2の有限状態トランスデューサ
66 揮発性メモリ

Claims (4)

  1. ボイスメッセージのテキスト表示を通信装置へ提供する方法であって、
    第1の通信装置がサイレントモードで作動していることを検出し、
    第2の通信装置のユーザにボイスメッセージを入力するように促し、
    前記入力されたボイスメッセージを音素に変換し、
    前記ボイスメッセージのテキスト表示を前記第1の通信装置へ送信することであって、前記表示は音素に基づいたキャラクターを含む、送信すること、
    を含む方法。
  2. 単語に対応する音素のグループを識別するために単語の辞書にアクセスし、
    前記辞書で単語の一部として認識されなかった各音素にについて、前記音素を代表的なキャラクターとして表示すること、
    をさらに含む請求項1記載の方法。
  3. 前記音素は、音素の有限セットから選択され、各音素は代表的なキャラクターに関連づけられ、単語の一部として認識されなかった音素の表示は、前記音素を代表するキャラクターとして表示することを含む請求項1記載の方法。
  4. ボイスメッセージのテキスト表示を第1の通信装置に提供するためのシステムであって、
    第2の通信装置から入力されたボイスメッセージを音素へ変換し前記入力されたボイスメッセージのテキスト表示を生成するボイスメッセージ変換システムであって、前記テキスト表示は、音素に基づいたキャラクターを含む、ボイスメッセージ変換システムと、
    前記ボイスメッセージ変換システムと通信する切換センターであって、メッセージを送受信することができ、前記第2の通信装置から前記入力されたボイスメッセージを受信し、メッセージを前記第1の通信装置へ送信し、前記メッセージは、前記ボイスメッセージ変換システムによって生成された前記テキスト表示を備える、切換センターと、
    を備えるシステム。
JP2007120573A 2006-05-02 2007-05-01 ボイスメッセージのテキスト表示を通信装置へ提供する方法及びシステム Expired - Fee Related JP5247062B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/415,792 US8204748B2 (en) 2006-05-02 2006-05-02 System and method for providing a textual representation of an audio message to a mobile device
US11/415792 2006-05-02

Publications (2)

Publication Number Publication Date
JP2007300640A true JP2007300640A (ja) 2007-11-15
JP5247062B2 JP5247062B2 (ja) 2013-07-24

Family

ID=38326952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007120573A Expired - Fee Related JP5247062B2 (ja) 2006-05-02 2007-05-01 ボイスメッセージのテキスト表示を通信装置へ提供する方法及びシステム

Country Status (3)

Country Link
US (2) US8204748B2 (ja)
EP (1) EP1852846B1 (ja)
JP (1) JP5247062B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016502828A (ja) * 2012-12-06 2016-01-28 サロニコス トレーディング アンド サービシス、ウニペッソアル リミターダSaronikos Trading And Services, Unipessoal Lda 電話の音声をテキストに転写するための言語を決定する方法および装置
KR20210128955A (ko) * 2014-03-12 2021-10-27 에스케이플래닛 주식회사 메신저 서비스 시스템, 그 시스템에서의 오탈자 수정을 위한 메신저 서비스 방법 및 장치

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7127271B1 (en) 2001-10-18 2006-10-24 Iwao Fujisaki Communication device
US7466992B1 (en) 2001-10-18 2008-12-16 Iwao Fujisaki Communication device
US7107081B1 (en) 2001-10-18 2006-09-12 Iwao Fujisaki Communication device
US8229512B1 (en) 2003-02-08 2012-07-24 Iwao Fujisaki Communication device
US8241128B1 (en) 2003-04-03 2012-08-14 Iwao Fujisaki Communication device
US8090402B1 (en) 2003-09-26 2012-01-03 Iwao Fujisaki Communication device
US8121635B1 (en) 2003-11-22 2012-02-21 Iwao Fujisaki Communication device
US8041348B1 (en) 2004-03-23 2011-10-18 Iwao Fujisaki Communication device
US8208954B1 (en) 2005-04-08 2012-06-26 Iwao Fujisaki Communication device
US11128745B1 (en) * 2006-03-27 2021-09-21 Jeffrey D. Mullen Systems and methods for cellular and landline text-to-audio and audio-to-text conversion
EP2044804A4 (en) 2006-07-08 2013-12-18 Personics Holdings Inc PERSONAL HEARING AID AND METHOD
EP1879000A1 (en) * 2006-07-10 2008-01-16 Harman Becker Automotive Systems GmbH Transmission of text messages by navigation systems
US8401847B2 (en) * 2006-11-30 2013-03-19 National Institute Of Advanced Industrial Science And Technology Speech recognition system and program therefor
US7930101B2 (en) * 2007-01-10 2011-04-19 Tomtom International B.V. Navigation device and method for enhanced map display
WO2008083862A1 (en) * 2007-01-10 2008-07-17 Tomtom International B.V. Method of indicating traffic delays, computer program and navigation system therefor
US8447285B1 (en) 2007-03-26 2013-05-21 Callwave Communications, Llc Methods and systems for managing telecommunications and for translating voice messages to text messages
US8325886B1 (en) 2007-03-26 2012-12-04 Callwave Communications, Llc Methods and systems for managing telecommunications
US8184780B2 (en) * 2007-03-29 2012-05-22 James Siminoff System and method for controlling voicemail transcription from a communication device
US8107978B2 (en) * 2007-04-25 2012-01-31 Kirusa Inc. Addressing voice SMS messages
US7890089B1 (en) 2007-05-03 2011-02-15 Iwao Fujisaki Communication device
US8583746B1 (en) 2007-05-25 2013-11-12 Callwave Communications, Llc Methods and systems for web and call processing
US8726297B2 (en) * 2007-06-28 2014-05-13 Microsoft Corporation Search tool that aggregates disparate tools unifying communication
US8676273B1 (en) 2007-08-24 2014-03-18 Iwao Fujisaki Communication device
US8639214B1 (en) 2007-10-26 2014-01-28 Iwao Fujisaki Communication device
WO2009111884A1 (en) * 2008-03-12 2009-09-17 E-Lane Systems Inc. Speech understanding method and system
US8543157B1 (en) 2008-05-09 2013-09-24 Iwao Fujisaki Communication device which notifies its pin-point location or geographic area in accordance with user selection
US8340726B1 (en) 2008-06-30 2012-12-25 Iwao Fujisaki Communication device
US8452307B1 (en) 2008-07-02 2013-05-28 Iwao Fujisaki Communication device
US8077833B2 (en) * 2008-07-25 2011-12-13 Embarq Holdings Company, Llc Method for sending a previously recorded personalized message to a caller by a network voice mail system
US8452597B2 (en) * 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
US8996997B2 (en) * 2012-04-18 2015-03-31 Sap Se Flip-through format to view notification and related items
GB2503922A (en) * 2012-07-12 2014-01-15 Metaswitch Networks Ltd A transcription device configured to convert speech into text data in response to a transcription request from a receiving party
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
US9767802B2 (en) * 2013-08-29 2017-09-19 Vonage Business Inc. Methods and apparatus for conducting internet protocol telephony communications
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
WO2015133714A1 (ko) * 2014-03-07 2015-09-11 에스케이플래닛 주식회사 메시지 전송 방법, 이를 위한 장치 및 시스템
CN103888346A (zh) * 2014-03-24 2014-06-25 北京智谷睿拓技术服务有限公司 信息发送方法及信息发送装置
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
US10141010B1 (en) * 2015-10-01 2018-11-27 Google Llc Automatic censoring of objectionable song lyrics in audio
US10306042B2 (en) * 2016-02-10 2019-05-28 Mitel Networks Corporation Method and system for providing caller information
JP6675078B2 (ja) * 2016-03-15 2020-04-01 パナソニックIpマネジメント株式会社 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
CN105869654B (zh) 2016-03-29 2020-12-04 阿里巴巴集团控股有限公司 音频消息的处理方法及装置
CN105959478B (zh) * 2016-05-31 2019-08-20 捷开通讯科技(上海)有限公司 静音模式下的来电提醒系统与方法
JP7037426B2 (ja) * 2018-04-25 2022-03-16 京セラ株式会社 電子機器及び処理システム
US10930274B2 (en) 2018-11-30 2021-02-23 International Business Machines Corporation Personalized pronunciation hints based on user speech
EP3690880B1 (en) * 2019-01-31 2023-11-29 MasterCard International Incorporated Method for communicating a non-speech message as audio
CN111147444B (zh) * 2019-11-20 2021-08-06 维沃移动通信有限公司 一种交互方法及电子设备
US11755295B2 (en) 2021-06-04 2023-09-12 Bank Of America Corporation Software development system
CN113299282B (zh) * 2021-07-23 2021-11-26 北京世纪好未来教育科技有限公司 一种语音识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999050832A1 (en) * 1998-03-30 1999-10-07 Motorola Inc. Voice recognition system in a radio communication system and method therefor
US20050058075A1 (en) * 2003-09-12 2005-03-17 Gorday Robert M. Apparatus and method for mixed-media call formatting

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6816577B2 (en) * 2001-06-01 2004-11-09 James D. Logan Cellular telephone with audio recording subsystem
US6061718A (en) * 1997-07-23 2000-05-09 Ericsson Inc. Electronic mail delivery system in wired or wireless communications system
US20010047263A1 (en) * 1997-12-18 2001-11-29 Colin Donald Smith Multimodal user interface
US6366651B1 (en) * 1998-01-21 2002-04-02 Avaya Technology Corp. Communication device having capability to convert between voice and text message
US6931255B2 (en) * 1998-04-29 2005-08-16 Telefonaktiebolaget L M Ericsson (Publ) Mobile terminal with a text-to-speech converter
JP2001077934A (ja) * 1999-09-01 2001-03-23 Nec Shizuoka Ltd 携帯用通信端末及びそれに用いる音声文字変換方法並びにその制御プログラムを記録した記録媒体
US6532446B1 (en) * 1999-11-24 2003-03-11 Openwave Systems Inc. Server based speech recognition user interface for wireless devices
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
US6941342B1 (en) * 2000-09-08 2005-09-06 Fuji Xerox Co., Ltd. Method for generating conversation utterances to a remote listener in response to a quiet selection
US6757365B1 (en) * 2000-10-16 2004-06-29 Tellme Networks, Inc. Instant messaging via telephone interfaces
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
US20020097692A1 (en) * 2000-12-29 2002-07-25 Nokia Mobile Phones Ltd. User interface for a mobile station
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
WO2002077975A1 (en) * 2001-03-27 2002-10-03 Koninklijke Philips Electronics N.V. Method to select and send text messages with a mobile
US20020160757A1 (en) * 2001-04-26 2002-10-31 Moshe Shavit Selecting the delivery mechanism of an urgent message
US6876728B2 (en) * 2001-07-02 2005-04-05 Nortel Networks Limited Instant messaging using a wireless interface
US20030054865A1 (en) * 2001-09-20 2003-03-20 Byers Charles Calvin Courtesy alerting feature for mobile electronic devices
DE50104036D1 (de) * 2001-12-12 2004-11-11 Siemens Ag Spracherkennungssystem und Verfahren zum Betrieb eines solchen
US7315613B2 (en) * 2002-03-11 2008-01-01 International Business Machines Corporation Multi-modal messaging
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
US20040190689A1 (en) * 2003-03-31 2004-09-30 Mariana Benitez Pelaez Telecommunication system providing independent user selection of media type for reception and/or transmission
US20050048992A1 (en) 2003-08-28 2005-03-03 Alcatel Multimode voice/screen simultaneous communication device
KR100554442B1 (ko) * 2003-10-06 2006-02-22 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
US7366500B1 (en) * 2004-03-23 2008-04-29 Microsoft Corporation SMS shorthand dictionary service
US20050250550A1 (en) * 2004-05-07 2005-11-10 Nextel Communications, Inc. Voice to text messaging system and method
US20050273327A1 (en) * 2004-06-02 2005-12-08 Nokia Corporation Mobile station and method for transmitting and receiving messages
US8000452B2 (en) * 2004-07-26 2011-08-16 General Motors Llc Method and system for predictive interactive voice recognition
US20060121887A1 (en) * 2004-12-08 2006-06-08 Chilukoor Muralidharan S Message priority mechanism
US20070112571A1 (en) * 2005-11-11 2007-05-17 Murugappan Thirugnana Speech recognition at a mobile terminal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999050832A1 (en) * 1998-03-30 1999-10-07 Motorola Inc. Voice recognition system in a radio communication system and method therefor
US20050058075A1 (en) * 2003-09-12 2005-03-17 Gorday Robert M. Apparatus and method for mixed-media call formatting
JP2007505564A (ja) * 2003-09-12 2007-03-08 モトローラ・インコーポレイテッド ミクストメディア通話フォーマッティングのための装置及び方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016502828A (ja) * 2012-12-06 2016-01-28 サロニコス トレーディング アンド サービシス、ウニペッソアル リミターダSaronikos Trading And Services, Unipessoal Lda 電話の音声をテキストに転写するための言語を決定する方法および装置
US9966072B2 (en) 2012-12-06 2018-05-08 Saronikos Trading And Services, Unipessoal Lda Method and devices for language determination for voice to text transcription of phone calls
KR20210128955A (ko) * 2014-03-12 2021-10-27 에스케이플래닛 주식회사 메신저 서비스 시스템, 그 시스템에서의 오탈자 수정을 위한 메신저 서비스 방법 및 장치
KR102538125B1 (ko) * 2014-03-12 2023-05-30 에스케이플래닛 주식회사 메신저 서비스 시스템, 그 시스템에서의 오탈자 수정을 위한 메신저 서비스 방법 및 장치

Also Published As

Publication number Publication date
EP1852846B1 (en) 2014-06-11
US8204748B2 (en) 2012-06-19
US20070260456A1 (en) 2007-11-08
US8244540B2 (en) 2012-08-14
EP1852846A2 (en) 2007-11-07
US20120150538A1 (en) 2012-06-14
JP5247062B2 (ja) 2013-07-24
EP1852846A3 (en) 2008-07-02

Similar Documents

Publication Publication Date Title
JP5247062B2 (ja) ボイスメッセージのテキスト表示を通信装置へ提供する方法及びシステム
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
US7395078B2 (en) Voice over short message service
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
US8423351B2 (en) Speech correction for typed input
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
KR20080015935A (ko) 합성 생성된 음성 객체의 발음 정정
US7676364B2 (en) System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode
JP2012063536A (ja) 端末装置、音声認識方法および音声認識プログラム
WO2009006081A2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
KR20060050277A (ko) 다중 언어의 이름들의 음성 인식을 위한 방법 및 시스템
JP2016062069A (ja) 音声認識方法、及び音声認識装置
US10143027B1 (en) Device selection for routing of communications
KR101959439B1 (ko) 통역방법
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
US11172527B2 (en) Routing of communications to a device
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法
JP6321911B2 (ja) 応募システム、応募受付方法及びコンピュータプログラム
JPH0950290A (ja) 音声認識装置および該装置を用いた通信装置
KR20170114046A (ko) 임베디드 음성인식부를 구비한 휴대형 통역기
Faiyaz et al. Intelligence Hands-Free Speech Based System on Android
KR20070069821A (ko) 화자독립형 음성인식을 이용한 음성메모 검색 기능을가지는 무선통신 단말기 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100402

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130409

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees