JP2013146085A - 電話での会話をテキストに書き起こすための方法及びシステム - Google Patents

電話での会話をテキストに書き起こすための方法及びシステム Download PDF

Info

Publication number
JP2013146085A
JP2013146085A JP2013030866A JP2013030866A JP2013146085A JP 2013146085 A JP2013146085 A JP 2013146085A JP 2013030866 A JP2013030866 A JP 2013030866A JP 2013030866 A JP2013030866 A JP 2013030866A JP 2013146085 A JP2013146085 A JP 2013146085A
Authority
JP
Japan
Prior art keywords
server
mobile device
data
processor
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013030866A
Other languages
English (en)
Other versions
JP5701916B2 (ja
Inventor
Scott Rogers Sean
シーン・スコット・ロジャース
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013146085A publication Critical patent/JP2013146085A/ja
Application granted granted Critical
Publication of JP5701916B2 publication Critical patent/JP5701916B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/2753Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips providing data content
    • H04M1/2757Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips providing data content by data transmission, e.g. downloading
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】電話での会話の一部をテキストに書き起こすための方法及びシステムを提供する。
【解決手段】ユーザが例えばモバイルデバイス上のボタンを押すことによって書き起こしを要求することを可能にし、前記要求は、書き起こしソフトウェアを含むサーバに送信される。前記サーバは、前記電話での会話の一部又は全体をテキストに書き起こし、前記テキストを前記モバイルデバイスに送信する。前記テキストデータは、スキャンして選択された情報を識別することができ、前記選択された情報のみが前記モバイルデバイスに送信される。前記選択された情報は、前記モバイルデバイスのメモリ、例えばアドレス帳、に自動的に格納することができる。
【選択図】図8

Description

本発明は、一般的には、通信技術に関し、さらに具体的には、電話網において音声データをテキストデータに書き起こすための方法及びシステムに関するものである。
今日の典型的な無線モバイル通信デバイス(例えば携帯電話)のメモリ及び処理容量は、相対的に大量のデータを格納する能力をユーザに提供する。典型的には、モバイルデバイスのメモリ容量は、電話番号、電子メールアドレス及び郵便住所、等の連絡情報の格納に用いられる。典型的なモバイルデバイスユーザは、数十のさらには何百もの格納された電話番号及び住所を有することができる。
連絡情報の入力は、特にその連絡情報が電話での会話中に話された言葉によるユーザ関連情報である状況においては、いらいらさせること及び時間がかかる可能性がある。このようにして受信された情報を入力及び格納することは、最初に何らかの手動の格納方法(例えば、紙に書く)に従ってその情報を書き写し、次に手動でモバイルデバイスに入力しなければならないためユーザにとって問題になる可能性がある。これは、ユーザが車を運転中である場合、又はユーザが利用可能な筆記用具を有さない場合に特に問題になる。
種々の実施形態は、会話の一部を表すテキストデータをユーザのモバイルデバイスに提供するための方法とシステムとを含む。実施形態は、前記テキストデータ内の電話番号及び住所をスキャン及び識別することができ、このため、この情報を前記テキストデータから抽出してモバイルデバイス内、例えば、アドレス帳又はその他のメモリ記憶場所に格納することができる。実施形態は、バッファリングされた会話をテキストデータに書き起こす(transcribe)前に会話の一部又は全体をバッファリングすることを可能にする。
種々の実施形態は、モバイルデバイスが、会話をテキストデータに書き起こすようにサーバに要求し、前記サーバが前記書き起こしを行って前記テキストデータを格納のために前記ユーザの電話に送信するように促す。前記サーバは、前記テキストデータ内の電話番号及び住所をスキャン、識別及び抽出すること、及び前記データを前記ユーザのモバイルデバイスに送信することができる。
添付図は、ここに組み入れられて本明細書の一部を成し、本発明の典型的な実施形態を示す。これらの図面は、上記の発明の概要及び下記の発明を実施するための形態とともに、本発明の特徴を説明するのに役立つ。
図1は、声の音声データをテキストデータに書き起こすことが可能な典型的な通信デバイスのコンポーネントブロック図である。 図2は、通信デバイス内において声の音声データをテキストデータに書き起こすための実施形態の方法のプロセス流れ図である。 図3は、書き起こし要求ボタンの起動に応答して書き起こしプロセスを開始及び終了させるための実施形態の方法のプロセス流れ図である。 図4は、書き起こしがサーバによって完遂される実施形態のシステムブロック図である。 図5は、実施形態において用いるのに適する典型的なサーバのコンポーネントブロック図である。 図6は、サーバにおいて声の音声データをテキストデータに書き起こすための実施形態の方法のプロセス流れ図である。 図7は、サーバにおいて声の音声データをテキストデータに書き起こすための実施形態の方法の代替のプロセス流れ図である。 図8は、サーバにおいて声の音声データをテキストデータに書き起こすための実施形態の方法の他の代替のプロセス流れ図である。
詳細な説明
種々の実施形態が添付された図面を参照して詳細に説明される。可能な限りにおいて、同じ又は類似の部品を指すために同じ参照数字が図面全体にわたって用いられる。特定の例及び実装への言及は、例示を目的とするものであり、本発明又は請求項の適用範囲を限定することは意図されていない。
用語“電話”は、あらゆる電話方式の通信デバイス又はシステムを含み、有線の固定電話と、無線の携帯電話と、ボイス・オーバー・インターネット・プロトコル(VOIP)フォンと、音声通信能力を有するラップトップコンピュータと、インターネット電話サービスをサポートすることが可能なデバイス(例えば、Skype)と、を含む。
ここにおいて用いられる用語“モバイルハンドセット”、“ハンドセット”、“モバイルデバイス”及び“ハンドヘルドデバイス”は、携帯電話、携帯情報端末(PDA)、パームトップコンピュータ、無線電子メール受信機及び携帯電話受信機(例えば、Blackberry(登録商標)デバイス及びTreo(登録商標)デバイス)、マルチメディアインターネット式携帯電話(例えば、iPhone(登録商標))、及びプログラマブルプロセッサとメモリ及びセルラー又はその他の無線ネットワークへの接続能力を含む同様のパーソナル電子デバイスのうちのいずれか1つ又は全部を意味する。
用語“音声テキスト変換器”(voice to text converter)又は“発話テキスト変換器” (speech to text converter)又は“書き起こし器”(transcriber)又は“音声テキスト書き起こし器” (voice to text transcriber)又は“書き起こし器”は、人間の声による会話を認識してテキストデータに変換する(すなわち書き起こす)ことができるあらゆるタイプのソフトウェア又はハードウェアシステムを含む。変換器は、単一のテキスト翻訳を提供することができ、又は複数の最も可能性の高いテキスト翻訳を提供することができる。実施形態は、いずれの特定のタイプの音声テキスト変換器にも限定されない。
用語“サーバ”は、ユーザの電話デバイスのための電話接続能力を提供するあらゆるコンピュータ、インターネットサーバ又はセルラー基地局を含む。サーバは、有線接続又は無線接続を介してユーザの電話デバイスに直接又は間接的に接続することができる。
種々の実施形態は、モバイルデバイス又は電話のユーザが会話全体又は一部をモバイルデバイスに格納するために自動的にテキストデータに書き起こすことを可能にするための方法及びシステムを提供する。一実施形態においては、ユーザは、ボタンを押すか又はコマンドを入力することによって、電話での会話のうちのテキストデータに書き起こすべき部分を選択することができる。一実施形態においては、会話の選択された部分は、携帯電話ネットワーク又は正規の電話網に結合されたサーバにおいて書き起こされ、その後にサーバがテキストデータをモバイルデバイスに送信する。代替として、サーバは、モバイルデバイス、セルラーネットワーク又は正規の電話網のうちのいずれかによってインターネットを介してアクセス可能にすることができる。一実施形態においては、テキストは、電話番号及び/又は住所データ(すなわち連絡情報)に関してスキャンすることができる。該スキャンは、(例えばテキストが送信される前に)サーバにおいて又は(例えばテキストが受信された後に)モバイルデバイス内において行うことができる。テキストデータ又は抽出された連絡情報は、テキストメッセージ、例えばショートメッセージサービス(SMS)メッセージ、電子メール、等の形態で又はセルラーデータ送信を介してモバイルデバイスに送信することができる。テキストデータは、モバイルデバイスによって自動的に認識されてアドレス帳メモリに格納されるように特別にフォーマット化して送信することができる。
実施形態の方法は、種々のモバイルデバイスのうちのいずれかにおいて及び種々の計算デバイスのうちのいずれかにおいて実装することができ、デスクトップコンピュータ及びラップトップコンピュータを含むがこれらに限定されない。図1は、種々の実施形態をサポートすることが可能なモバイルデバイス20の種々のコンポーネントを示す。モバイルデバイス20のコンポーネントが示されるが、種々の実施形態とともに用いるのに適するコンピュータ(ポータブル又はその他)において同じ又は同様のコンポーネントを実装可能であることを当業者は理解するであろう。携帯電話としてのモバイルデバイス20の例示は、例示することが目的であるにすぎない。さらに、上述される実施形態は、図1に示されるコンポーネントを含む声による会話をサポートすることが可能なあらゆるデバイスにおいて実装することができる。
典型的なモバイルデバイス20は、内部メモリ22及びユーザインタフェースディスプレイ23に結合されたプロセッサ21を含む。さらに、モバイルデバイス20は、無線データリンク及び/又はプロセッサ21に結合された携帯電話トランシーバ25に接続された、電磁放射線を送信及び受信するためのアンテナ24を有することができる。幾つかの実装においては、トランシーバ25、及び携帯電話通信のために用いられるプロセッサ21及びメモリ22の部分は、ひとつにまとまって無線データリンクを介してデータインタフェースを提供するためエアインタフェースと呼ばれる。さらに、モバイルデバイス20は、ユーザへの可聴の音声信号を生成するためのスピーカー28と、ユーザの音声の発話を受信するためのマイク29と、を含む。マイク29及びスピーカー28の両方とも、ボコーダ30を介してプロセッサ21に接続することができ、ボコーダ30は、電気信号を音波に及びその逆に音波を電気信号に変換する。幾つかの実装においては、ボコーダ30は、プロセッサ21の回路及びプログラミングの一部として含めることができる。
プロセッサ21は、ここにおいて説明される種々の実施形態の機能を含む種々の機能を果たすようにソフトウェア命令(アプリケーション)によって構成することができるプログラマブルなマイクロプロセッサ、マイクロコンピュータ又はマルチプルプロセッサチップ又はチップ(複数)であることができる。幾つかのモバイルデバイスにおいて、マルチプルプロセッサ191、例えば、無線通信機能専用の1つのプロセッサ及びその他のアプリケーションを実行することが専用の1つのプロセッサ、を提供することができる。
典型的には、ソフトウェアアプリケーションは、アクセスしてプロセッサ21内にローディングする前に内部メモリ22に格納することができる。幾つかのモバイルデバイスにおいては、プロセッサ21は、アプリケーションソフトウェア命令を格納する上で十分な内部メモリを含むことができる。この説明の目的上、用語メモリは、プロセッサ21によってアクセス可能な全メモリを意味し、内部メモリ22とプロセッサ21自体内のメモリとを含む。メモリ22は、揮発性又は非揮発性のメモリ、例えばフラッシュメモリ、又は両方の組み合わせ、であることができる。種々の実施形態においては、メモリ22は、バッファ39によって構成することができ、音声テキスト変換ソフトウェア44、連絡情報抽出ソフトウェア46及び/又はアドレス帳52を格納しておくことができる。
モバイルデバイス20は、典型的には、ユーザによる入力を受けるためのキーパッド36又は小型キーボード及びメニュー選択ボタン又はロッカースイッチ37を含む。さらに、モバイルデバイス20は、書き起こし(transcription)要求ボタン32を含むことができる。一実施形態においては、書き起こし要求ボタン32の起動は、音声をテキストに書き起こすプロセスを開始させる。ボタン32は任意選択であり、テキストへの音声の変換の起動は、その他のあらゆる種類のコンピュータインタフェース入力を介して開始させることが可能であることを注記される。音声テキスト変換ソフトウェア44は、種々のその他の手段によって、例えば、ディスプレイ23のキーパッド36に示されるユーザインタフェースメニューを介してメニュー選択ボタン又はロッカースイッチ37と組み合わせて起動させることができる。その他の例においては、テキストへの音声の変換要求は、キーパッド36上の一連のキーを押すことによって、声による起動(すなわち、特定の予め記録された単語又は句を言う)ことによって、モバイルデバイス20上の加速度計センサを起動させる(例えば、モバイルデバイスを特定の方法で位置決めするか又は揺する)ことによって、タッチ画面式ディスプレイに触れることによって、等の方法でモバイルデバイス20に提供することができる。説明を単純化するために、種々の実施形態は、ここにおいては、ユーザが例えば書き起こし要求ボタン32を押すことによって起動させることが説明されるが、該説明は、書き起こし要求ボタン32の使用に制限することは意図されない。
書き起こし要求ボタン32を含む実施形態においては、書き起こし要求ボタン32は、モバイルデバイス20上において、ユーザが電話で会話中にモバイルデバイス20を見る必要なしに書き起こしプロセスを起動させるのを可能にするような人間工学的に好都合な位置に配置することができる。例えば、書き起こし要求ボタン32は、モバイルデバイス20の側面において、モバイルデバイス20を耳に当てた状態でユーザの指が通常置かれる位置の近くに配置することができる。幾つかのモバイルデバイスは、声によって起動されるダイヤルを開始するために用いられる側面上のボタンを含む。該ボタンは、通常は、同じく書き起こしを起動させる上で人間工学的に適する位置に配置される。書き起こし要求ボタン32はモバイルデバイス20上のあらゆる場所に配置することができる一方で、一実施形態においては、書き起こし要求ボタン32は、図1に示されるようにモバイルデバイス20の側面に配置される。例えば、書き起こし要求ボタン32は、図1においては、ユーザが積極的に会話に従事しながらユーザの小指で操作することができるように人間工学的に配置された形が示される。代替実施形態においては、第2の書き起こし要求ボタン(示されていない)をモバイルデバイス20の他方の側面に配置することができる(すなわち、書き起こし要求ボタン32は、デバイスの両方の側面に含められる)。2つの別個の書き起こし要求ボタンをモバイルデバイス20の互いに反対側の側壁に配置することによって、書き起こし要求は、いずれの手の指でも開始させることができ、このためユーザは特定の耳で会話を聴いている必要がない。一実施形態においては、書き起こし要求ボタン32は、同じ声による呼中に書き起こし要求ボタン32が再度押されたときに書き起こしプロセスを開始及び終了させる。代替実施形態においては、アクティブな書き起こし要求を終了させるために第2のボタン(示されていない)をモバイルデバイス上に含めることができる。
図2は、ユーザが声による呼の一部又は全体をテキストデータに書き起こすのを可能にするための実施形態の方法例のプロセス流れ図である。ユーザが音声データをテキストデータに書き起こすのを希望するときには、ユーザは、ステップ301において、例えば書き起こし要求ボタン32を押すことによって、メモリ22に格納された音声テキスト変換ソフトウェア44を起動させる。典型的には、ユーザは、例えば重要な詳細事項(例えば連絡情報)をキャプチャするために、電話での会話中に書き起こし要求ボタン32を押す。しかしながら、音声テキスト変換ソフトウェア44は、ユーザが声による会話を最初から書き起こすことを希望する場合はその会話が始まる前に起動させることも可能である。音声テキスト変換ソフトウェア44が起動された時点で、ソフトウェアは、ステップ308において、会話が行われたときに書き起こしを開始することができる。代替として、音声テキスト変換ソフトウェア44は、メモリバッファ39内に格納された会話を書き起こすことができる。電話での会話の希望される部分がテキストに変換された後は、そのテキストは、ステップ310において、連絡情報抽出ソフトウェア46によってスキャンして電話番号、住所、等を識別することができる。抽出された連絡情報は、ステップ312において、モバイルデバイス20のメモリ22内のアドレス帳52に格納することができる。連絡情報をアドレス帳52に格納するステップは、手動で又は自動的に行うことができる。
ユーザが声による呼中に音声データをテキストデータに変換することを希望する実施形態においては、バッファ39は、電話での会話の一部又は全体を格納して会話の選択された部分をテキストに変換できるようにするために用いることができる。この実施形態を用いることで、ユーザは、音声データが話された後に再キャプチャしてテキストデータに変換することができる。例えば、バッファ39は、ユーザによって選択可能な継続時間、例えば5秒、10秒、30秒、60秒又は300秒、の間録音するような大きさ及び設定にすることができる。
書き起こしプロセスが進行中の会話中のみに起動される実施形態においては、書き起こし要求ボタン32は、モバイルデバイス20が待機モードにある(すなわち、アクティブな声による会話中でない)ときに異なる機能も有するボタンであることができる。図3は、種々の実施形態とともに用いるのに適する呼の状態に依存して書き起こし要求ボタン32の機能を制御するための方法例を示すプロセス流れ図である。図3において、書き起こし要求ボタン32は、他のソフトウェアアプリケーション又はルーチンによって制御される待機機能、例えば声によって起動されるダイヤルの開始、を有する。モバイルデバイス20に実装された関連づけられた待機ソフトウェアアプリケーション又はルーチンに依存して、ボタン32は、声による会話中にアクティブでない機能と関連づけることができる。プロセッサ21は、主ループ201から外れて動作し、ステップ202において、例えばボタンを押す行為と関連づけられた割り込みフラグを検出することによって、ボタンが押される行為を検出する。それに応答して、プロセッサ21は、テスト203において、フラグをテストして呼がアクティブであるかどうかを決定することができる。呼がアクティブでない(すなわち、テスト203=“いいえ”である)場合は、主ループ201に戻る前に、ステップ204において、ボタン32の待機機能を提供するソフトウェアルーチンが起動される。例えば、プロセッサ21は、声によって起動されるダイアルルーチン又はアプリケーションを開始させることができる。しかしながら、ここにおいて説明される1つ以上の実施形態により、呼がアクティブである(すなわち、テスト203=“はい”である)場合は、プロセッサ21は、テスト205において、書き起こし要求フラグをテストして書き起こし要求メッセージが既に送信されているかどうかを決定することができ、アクティブでない(すなわち、テスト205=“いいえ”である)場合は、ステップ206において、音声テキスト変換要求メッセージをサーバ50に送信することができる。変換要求メッセージを送信した時点で(ステップ206)、プロセッサ21は、ステップ207において、書き起こしプロセスが開始されていることを示すための書き起こし要求フラグを設定することも可能である。このフラグを設定することは、ソフトウェアが他のコンピュータ上で実行中であってプロセッサ21は直接アクセスすることができなくなるため、サーバ50が書き起こし中であるかどうかをプロセッサ21が決定するのを可能にする。プロセッサ21は、変換要求メッセージを送信した時点で(ステップ206)、他の書き起こし要求ボタン32が押されたことによる割り込みが検出されるまで主ループ201に戻る。アクティブな呼中に書き起こし要求ボタン32が再度押されたときには、書き起こし要求フラグをテスト中のプロセッサ21は、書き起こし要求が既に行われている(すなわち、テスト205=“はい”)であると決定し、このため、プロセッサ21は、ステップ208において、書き起こし要求メッセージをサーバ50に送信し、ステップ209において、主ループ201に戻る前に書き起こし要求フラグをクリアする。
代替実施形態においては、音声をテキストデータに変換するプロセスは、電話での会話を有するネットワークに結合されたサーバ50において行われる。書き起こしプロセスをサーバ50にオフローディングすることは、モバイルデバイス20のバッテリ及びプロセッサ電力を節約する。図4は、モバイルデバイス20において行われている声による会話の一部又は全体をサーバ50において書き起こすことが可能な実施形態のシステム例を示す。このシステムは、セルラーネットワーク52に接続されたセルラー基地局アンテナ51を介して他のモバイルデバイス55又は電話57に通信するモバイルデバイス20を含む。その他のモバイルデバイス55との通信は、他の基地局56を介して進行することができ、従来の電話57との通信は、従来の電話通信網54を通じて進行することができる。サーバ50は、セルラー通信ネットワーク52、従来の電話網54又は他の通信ネットワーク、例えばインターネット24、に接続される。種々の実施形態において、サーバ50は、セルラー基地局51において、セルラー通信ネットワーク52の交換局内、従来の電話網54の交換局内、又は電話での会話の音声データを提供することができるネットワークへのアクセスが可能なその他の所在場所に配置することができる。サーバ50がインターネットに結合される実装においては、他のインターネットに接続されたサーバ(示されない)を、音声データを書き起こしのためにサーバ50にルーティングするためにセルラー通信ネットワーク52又は電話通信網54内に含めることができる。音声呼が確立された時点で、モバイルデバイス20(又はそのための55)のユーザは、何時でも音声テキスト変換プロセスを起動させることができる。起動されたときには、電話での会話からの音声データもサーバ50に送信され、サーバ50において、ここにおいて説明されるように格納及び書き起こすことができる。
図5は、図4に示される実施形態のシステムにおいて用いるための例示のサーバ50のコンポーネントブロック図である。サーバ50は、サーバ内及びサーバ外においてデータを通信するための入力/出力ポート52、例えば、ネットワーク(例えば、インターネット53又は通信ネットワーク52、54)に接続するためのモデム又は同様のネットワークインタフェース、を含む。サーバ50は、入力/出力ポート52と通信し及びコンピュータによって読み取り可能なメモリ56と通信するプロセッサ55(例えば、マイクロプロセッサ)を含む。メモリ56内には、電話信号復号ソフトウェア42及び音声テキスト変換ソフトウェア44を格納することができる。一実施形態においては、メモリ56は、連絡情報抽出ソフトウェア46も含むことができる。メモリ56は、電話での会話の一部又は全体を一時的に格納するように構成されたバッファ49のセグメント又はパーティションを含むこともできる。電話での会話は、暗号化された又は暗号化されない形でバッファリングすることができる。
復号ソフトウェア42は、電話データを、音声テキスト変換ソフトウェア44によって処理可能な音声データの形に変換するために必要になることがある。典型的には、電話信号は、データパケットに編成されたデジタル信号としてセルラーネットワーク52及び電話網54を通じて送信される。(プレーン・オーディナリ・テレフォン(POTS)信号は、アナログ信号として住宅に/から送信される一方で、該信号は、多重化された光ファイバ及び銅製の中継線を介して送信されるデジタルデータに素早く変換される。)デジタルデータは、圧縮して符号分割多元接続(CDMA)データパケットとしてパケット化することができる。該デジタルデータは、多くの音声テキスト変換ソフトウェア44アプリケーションにとっては読み取りできないことがあり、従って、書き起こしを開始できるようになる前に認識可能な音声データフォーマットに変換しなければならない。
音声テキスト変換ソフトウェア44は、人間の発話をテキストに変換するためのあらゆる種類の又は銘柄のソフトウェア又はシステムであることができる。多くの異なる種類又は銘柄のそのようなソフトウェアが市販されている。復号ソフトウェア42及び音声テキスト変換器44は、結合して単一のソフトウェアパッケージ又はアプリケーションにすることが可能であることが分かる。
データフォーマットを変換することに加えて、サーバ50は、書き起こしが許可されていることを確認することが必要な場合がある。幾つかの状況及び政治的地域においては、プライバシー保護法が、電話での会話の無許可の復号を防止している。これらの場合においては、音声テキスト変換ソフトウェア44を特定のユーザのために起動可能になる前に事前の許可をユーザに要求することができる。幾つかの状況においては、ユーザがユーザのモバイルデバイス20上の変換要求ボタン39を押すことによってテキスト変換要求を要求することは、そのユーザの電話での会話を復号する特定の許可を与えたと解釈することができる。その他の状況においては、サーバ50は、(例えば、電話での会話の相手のモバイルデバイス55上の変換要求ボタン32を押すことによる)会話の相手からの許可を得ることが必要な場合もある。
一実施形態においては、復号ソフトウェア42及び/又は音声テキスト変換器44は、サーバメモリ56に格納されたソフトウェアの代わりにハードウェア又はハードウェア/ソフトウェアの組み合わせとして実装することができる。復号ソフトウェア42及び変換器44のハードウェア実装及びソフトウェア実装の両方とも請求項の適用範囲内である。
連絡情報抽出ソフトウェア46は、変換されたテキストをスキャンして電話番号、住所、電子メールアドレス、等を得るためにサーバ50上に実装することができる。例えば、電話番号は、テキストをスキャンして既知の市外局番、すなわち一続きの7桁又は10桁の数字、を識別することによって認識及び抽出することができる。住所情報は、テキストをスキャンして住所情報と一般的に関連づけられた語句、例えば、“通り”、“街”、“道路”、“私書箱”、既知の都市又は州、等を識別することによって認識することができる。電子メールアドレスは、テキストをスキャンして既知の電子メールサービスプロバイダ(例えば、Gmail.com、yahoo.com、hotmail.com)、語句“電子メール”、又は当然のことであるがテキスト内の語句“において”において現れる“@”語、を確認することによって認識することができる。住所、電子メールアドレス又はその他の連絡情報が認識された時点で、ソフトウェアは、単純な規則を用いて情報を記述し(すなわち、認識されたデータがテキスト内のどの箇所で開始及び終了するかを決定し)、記述された情報をメモリ内にコピーすることができる。連絡情報が成功裏に抽出された場合は、モバイルデバイス20のユーザに関して識別するか又はモバイルデバイス20のユーザに送信することができ、さらに任意選択で、ユーザのモバイルデバイス20のアドレス帳内の正確なフィールドに自動的に入力することができる。該当するメモリフィールドへの抽出されたデータの入力は、モバイルデバイス20が受信された抽出された連絡データを用いて行うことができる。サーバによってバックアップされたシステムを有する大規模な組織における場合のように、ユーザのアドレス帳がサーバ50上に維持される実装においては、抽出されたテキストは、サーバ50上に維持されるアドレス帳の該当フィールドに格納することができる。これで、ユーザのモバイルデバイス20は、モバイルデバイス20が次にサーバ50と“同期化”されたときに抽出連絡情報を含むアドレス帳の最新版によって更新することができる。連絡情報に関連しないテキストデータは廃棄することができる。
一実施形態においては、サーババッファ49は、電話での会話が終了したときに(又は会話を休止中に)会話を一時的に格納する(すなわち、バッファリングする)ために用いることができる。この実施形態は、ユーザが電話での会話を終了後にテキストに変換するための電話での会話の一部分を選択するのを可能にする。この方法により、実施形態の方法は、ユーザが、音声データが話された後に再キャプチャしてテキストデータに変換するのを可能にする。バッファ継続時間は、ユーザによって又はサーバオペレータによって選択可能であり、任意の長さでありうる。
図6は、サーバ50において電話での会話の音声データの一部又は全体をテキストに変換するための実施形態の方法を示すプロセス流れ図である。図2を参照して上述されるように、ユーザが音声データをテキストデータに変換するのを希望するときには、ユーザは、ステップ301において、書き起こし要求ボタン32を押す(又は上述される、プロセスを起動させるその他の方法を用いる)ことができる。テキスト変換要求がユーザによって行われた時点で、ステップ302において、その要求は、モバイルデバイス20によってサーバ50に送信される。テキスト変換要求は、電話での会話中にデータパケットとして送信することができ、又は要求コマンドを構成するとして認識可能な特殊なトーン又は一連のトーンとして送信することができる。サーバ50は、ステップ303において、入力/出力ポート52を介してモバイルデバイス20からテキスト変換要求を受信する。幾つかの実施形態においては、テキスト変換要求は、携帯電話通信ネットワーク52又は従来の電話通信網54内のプロセッサ又はサーバによって認識し、例えばインターネット53を介してその要求及び電話での会話データをサーバ50に転送するようにそのプロセッサ又はサーバに促すことができる。モバイルデバイス20が無線通信デバイスである例においては、テキスト変換要求の送信は、最初に基地局アンテナ51によって受信され、サーバ50に通信される。ステップ304において、受信されたテキスト変換要求に応答して、サーバ50は、復号ソフトウェア42を起動させ、受信された通信データを、書き起こし可能なデータフォーマットに変換するのを開始することができる。ステップ307において、声による会話の一部は、オリジナルであるか又は復号されたデータフォーマットであるかにかかわらず、バッファ49内に一時的に格納することができる。音声データがいったん復号された時点で、サーバプロセッサ55は、ステップ308において、音声テキスト変換ソフトウェア44を起動させ、会話の書き起こしを開始することができる。テキストへの音声の変換は、変換要求がサーバにおいて受信された時点で開始することができる。例えばユーザからのコマンドに応答して、会話の全体又は一部がサーババッファ49において格納される場合は、会話は、例えば開始点を指定するための時間を使用することによって又はユーザが録音された会話を聴いて変換が開始すべき時点を指定することによって、格納された会話におけるあらゆる時点に開始することができる。
一実施形態においては、電話での会話は、ユーザが書き起こしを要求することなしに進行するのに応じてサーババッファ49に格納し、それにより、ユーザが必要であることを認識したときに書き起こしを開始するのを可能にすることができる。この実施形態においては、サーバ50は、電話での会話の一部をバッファ49に格納することができ、このため、ユーザは、発生したばかりの電話での会話の一部においてテキスト変換サービスを開始することができる。例えば、サーバ50及びバッファ49は、例えば、30乃至60秒の限定された期間にまたがって先入れ先出し(FIFO)バッファ内に音声データを格納するように構成することができる。次に、ユーザが書き起こされることを希望する何かを聞いた場合、例えば、会話の相手が当選した宝くじの番号を読み上げるか又は住所又は電話番号を言う場合は、ユーザは、(例えばモバイルデバイス20上のボタン32を押すことによって)バッファ49に格納された会話データの書き起こしを直ちに要求することができる。この実施形態においては、ユーザは、電話での会話の一部を書き起こすことを事前に決定する必要がなく、及び会話の相手に繰り返すように頼む必要がない。プライバシーを保護するために及び通信法を順守するために、一部が録音されることを会話の両当事者に知らせることが必要になる場合があり、ユーザが書き起こしを要求しない場合はバッファ49内のデータを直ちに消去することが必要になる場合がある。
音声テキスト変換ソフトウェア44は、いったん起動された時点で、電話の呼が終了するか又は変換終了信号がサーバ50によって受信されるまで音声データをテキストデータに変換し続けることができる。ユーザは、種々の理由で声による会話が終了する前に音声をテキストに変換するプロセスを終了させることができる。例えば、ユーザは、会話の延長部分ではなく会話中に話される電話番号又は住所のみを変換することを希望することができる。一実施形態においては、ユーザは、声による会話中にボタン39を再度押すことによって音声テキスト変換終了信号を送信することができる。代替として、音声テキスト変換ソフトウェア44は、種々のその他の方法で、例えば、ディスプレイ23のキーパッド36上に示されるユーザインタフェースメニューと、メニュー選択ボタン又はロッカースイッチ37、ボタンを複数回押すこと、音声起動コマンド(例えば、“書き起こし停止”と言う)、等を組み合わせて、終了させることができる。
音声テキスト変換ソフトウェア44が終了された時点で、ステップ309において、新しく変換されたテキストデータは、テキストへの音声の変換を開始したユーザと関連づけられたサーバメモリ55の記憶場所に格納することができる。変換されたテキストデータは、メモリ55に格納された時点で、ユーザが、よく知られるデータアクセス技法を用いることで、ネットワーク、例えばインターネット53、を介して何時でも検索することが可能である。
変換されたテキストは、ステップ313において、有線又は無線のデータ通信リンクを介してユーザのモバイルデバイス20又はその他の通信デバイスに送信することも可能である。テキストデータは、テキストメッセージ(例えば、SMS又は電子メールメッセージ)として又はテキストを含むその他のタイプのデータ送信ファイルとして送信することができる。代替として、変換されたテキストデータは、リアルタイムでモバイルデバイス20に送信して戻すことができ、それにより、サーバ50においてテキストデータを格納する必要がない(ステップ309)。該代替実施形態においては、音声データ変換ソフトウェア44は、声の音声データがテキストに変換されるのに応じてモバイルデバイス20に送信して戻すためのデータパケットを生成することができる。
音声テキスト変換方法が終了した時点で、ユーザは、選択された部分、例えば、テキストのうちの連絡情報を含む部分を手動で抽出し、選択された情報をアドレス帳52に手動で入力すること又はモバイルデバイスのメモリ22にテキストを格納することができる。例えば、ユーザは、モバイルデバイス20において提供されたコピー・アンド・ペーストアプリケーションツールを用いて選択された語句又は数字をコピーし、それらをアドレス帳のレコード内の該当するフィールドに貼り付けることができる。ユーザが例えばインターネット53を介してサーバ50に格納されたテキストデータにアクセスする実施形態においては、ユーザは、ブラウザツールを用いてテキストの選択された部分をコピーしてモバイルデバイスのメモリ22内に“貼り付ける”か、又はよく知られたアプリケーションツールを用いて選択された部分をモバイルデバイスのメモリ22内にローディングすることができる。
代替実施形態においては、サーバ50は、連絡情報を抽出し及び選択された部分を自動的にユーザのモバイルデバイス20に通信するためのソフトウェアによって構成することができ、その一例が図7に示される。図7に示される実施形態は、図6を参照して上述されるステップ301乃至304と、ステップ307乃至309とを含む。さらに、サーバ50は、ステップ310において、変換されたテキストデータから連絡情報を認識して抽出し、ステップ311において、抽出された連絡情報をメモリ22に格納するためにモバイルデバイス20に自動的に送信することができる。上述されるように、サーバ50は、変換されたテキストをスキャンして電話番号、住所、電子メールアドレス、等を得るように設計された連絡情報抽出ソフトウェア46をメモリ55に格納しておくことができる。上述されるように、電話番号は、スキャンして既知の市外局番すなわち一続きの7桁又は10桁の数字、を識別することによって認識することができ、住所情報は、テキストをスキャンして住所情報と関連づけられた語句(例えば、“通り”、“街”、“道路”、“私書箱”、既知の都市又は州、等)を識別することによって認識することができ、電子メールアドレスは、テキストをスキャンして既知の電子メールサービスプロバイダ(例えば、Gmail.com、yahoo.com、hotmail.com)、語句“電子メール”、標準的なアドレス拡張子(例えば、“.com”、“.org”、“.net”、“.gov”、“.uk”、“.ca”、“.jp”、等)又はピリオド又は“ドット”に先行する“@”を確認することによって認識することができる。連絡情報に関連しないテキストデータは、ユーザが指定又は選択するのに応じて廃棄するか又はメモリ内に保持することができる。ステップ309において変換されたテキストデータがメモリ56に格納された後は、サーバ50のプロセッサ55は、ステップ310において、連絡情報抽出ソフトウェア46を起動させ、変換されたテキストデータからすべての連絡情報を抽出することができる。抽出された連絡情報は、ステップ311において、ユーザのモバイルデバイス20に送信することができる。モバイルデバイス20は、ステップ312において、送信された連絡情報を受信し次にメモリ22に格納されたアドレス帳内に自動的にその情報を入力するためのアプリケーションソフトウェアによって構成することも可能である。
代替実施形態においては、サーバ50は、書き起こしサービスを起動させているモバイルデバイス20のユーザ(すなわち、テキスト変換要求を送信したモバイルデバイス20)に向けられた音声部分のみをテキストデータに変換する。換言すると、モバイルデバイス20内に話されてマイク29によって拾い上げられた声の音声データは、テキストに変換されない。多くの場合において、モバイルデバイス20のユーザは、そのユーザ自身の語句を書き起こすことを希望する必要がない。この実施形態は、書き起こし処理及びモバイルデバイス20によって受信されたテキストの量を低減させるために用いることができる。この実施形態は、サーバにルーティングされた各データパケットの一部として発生元デバイスをサーバ50に知らせることによって完遂させることができる。代替として、例えばセルラー通信ネットワーク52が相手側(例えば、図4に示されるモバイルデバイス55又は電話57)から受信された音声データのみを送信することによって、会話の一方の側のみを書き起こすためにサーバ50にルーティングすることができる。
図8に示されるさらなる実施形態においては、サーバ50は、ユーザの声及び発話パターンを認識してそれによって相手側の発話のみを書き起こすためのソフトウェアによって構成することができる。この代替実施形態においては、相手側によって(すなわち、書き起こしを要求したモバイルデバイス20の所有者によってではない)話された語句のみがテキストに変換される。この実施形態は、図6及び7を参照して上述される方法ステップ301乃至304を実装することができる。さらに、サーバ50のプロセッサ55は、声による会話をモニタリングして声の音声データの発生元を決定するためのソフトウェアによって構成される。サーバ50は、(例えばデータパケットヘッダ内の発生元アドレスを用いることによって)音声データパケット内の発生元アドレス情報を、変換要求を行ったデバイスのアドレスと比較することによって音声データパケットの発生元を決定することができる(301)。代替として、ユーザは、ステップ305において、サーバ50がユーザの声を認識するように訓練し、サーバ50が会話におけるユーザの声を識別できるようにすることができる。ユーザは、例えばサーバ50に対して声による呼を行い、テキストの特定の部分をユーザのモバイルデバイス20内に読み込むことによって、発話をテキストに変換するソフトウェアプログラムを訓練することができる方法と同様の方法でサーバ50を訓練することができる。そのように訓練されたサーバ50は、ステップ305において、サーバのメモリ22に格納されたユーザの声のパターンと音声データを比較することによって声による会話中に話された語句をモニタリングすることができる。声の音声データパケットがユーザのモバイルデバイス20において発生した(すなわち、テスト305=“はい”である)場合は、サーバ50は、次の声の音声データパケットを待つ。しかしながら、声のデータパケットがユーザのモバイルデバイス20において発生したものでない(すなわち、テスト305=“いいえ” である)場合は、サーバ50は、ステップ306において、声のデータパケットを復号及び書き起こし、声の音声データを完了させ、図6及び7に参照して上述されるようにステップ306乃至312を実行する。この方法により、相手側の語句のみが書き起こされてユーザのモバイルデバイス20に引き渡される。
幾つかの実施形態においては、ユーザが書き起こしプロセスを実行するサーバ50に自己のモバイルデバイスを登録することが必要になる場合がある。該サーバ50は、携帯電話キャリア、従来の電話システムのプロバイダ又は独立したサービスプロバイダによって運用及びマーケティングされる書き起こしサービスの一部であることができる。ユーザは、自己のモバイルデバイスをサーバ50に登録することによって、テキストデータを自己のモバイルデバイスに送信するために用いられるメッセージ送信技術のタイプ及び該メッセージ送信のために用いるアドレスをサーバに知らせることができる。さらに、ユーザは、自己の会話が書き起こされるのを希望することをサーバ50に確認し、サービスに対する要求事項又は制限事項を指定することができる。例えば、ユーザは、書き起こしサービスを開始するためにユーザが話すか又はパスワードを入力するように要求することができる。書き起こしが開始する前における自己の一意のパスワードの入力を要求することは、ユーザが許可のない書き起こし又は不注意な書き起こしを回避することを可能にする。さらに、ユーザは、上述されるように書き起こしを双方向(両当事者を書き起こす)又は一方向(すなわち、一方の当事者のみを書き起こす)のいずれにすべきかを指定することができる。ユーザは、例えば、自己のモバイルデバイス20を用いてテキストの一部をサーバ50に読むことによって、自己の声を登録プロセスの一部として認識するようにサーバ50を訓練することもできる。ユーザは、サーバ50がネットワーク、例えばインターネット53、を介して2つ以上のモバイルデバイスにテキストデータを送信するか又はユーザによってアクセス可能なサーバメモリ内の記憶場所にテキストデータを保存するのを可能にするための情報をサーバ50に提供することもできる。
幾つかの例においては、ユーザは、2つ以上のモバイルデバイスを所有することができ又はモバイルデバイスを借りること及び自己の電話での会話の一部を書き起こすのを希望することができる。該状況に対処するために、テキストデータへの会話の変換は、1つのモバイルデバイスにおいて開始させ、書き起こされたテキストをメモリ内での格納のために第2のモバイルデバイスに送信することができる。一実施形態においては、書き起こされたテキストは、既知のメッセージ送信アプリケーション、例えばSMS及び電子メールメッセージ送信、によって1方のモバイルデバイスから他方のモバイルデバイスに送信することができる。他の実施形態においては、サーバ50は、第2のモバイルデバイスがサーバ50に登録されている(すなわち、サーバ50がそのモバイルデバイスのアドレスを知っている)場合は直接そのデバイスにテキストを送信することができる。一実施形態においては、テキストデータは、サーバ50に登録しているユーザによって所有されるすべてのモバイルデバイスに送信することができる。
例えば、ユーザがモバイルデバイス20及びユーザの自動車に組み入れられたセル式電話(cellular telephone)を所有する場合は、ユーザは、例えば電話での会話の相手の電子メールアドレスを得るために、運転しながら書き起こしプロセスを実装することができる。書き起こしソフトウェアは、車の組み込まれたセル式電話又は他のプロセッサにおいて実行することができ、又はソフトウェアは、上述されるようにサーバ50において実行することができる。書き起こしソフトウェアがサーバ50において実行される場合は、サーバ50は、車の組み込まれたセル式電話に変換されたテキストデータを送信することができ、車の組み込まれたセル式電話のメモリに格納されたユーザのアドレスに加えることができる。代替として又は追加で、サーバ50は、登録中にサーバ50に提供されたアドレスを用いてユーザのモバイルデバイス20にテキストデータを送信することができる。車の組み込まれたセル式電話は、受信されたテキストデータをユーザのモバイルデバイス20に自動的に転送するように構成することも可能である。
第2の例として、ユーザは、他のユーザのモバイルデバイス55を借りること及び例えば連絡情報をキャプチャするために会話の一部を書き起こすのを希望することができる。この例においては、サーバ50は、メッセージ送信技術及び登録中にサーバ50に提供されたアドレスを用いて、変換されたテキストデータをユーザのモバイルデバイス20に自動的に送信するように構成することができる。これらの例が示すように、書き起こしソフトウェアをサーバ50上に配置することは、2つ以上のモバイルデバイス24を有するか又は異なる電話デバイスから書き起こしサービスを実装する必要があるユーザにとってより高い柔軟性を提供する。
種々の実施形態は、電話での会話から情報をキャプチャする必要があるモバイルデバイスユーザに特に有用である。種々の実施形態は、モバイルデバイスを使用中に電話番号及住所を記録するためのペン及び紙を不要にする。
種々の実施形態は、モバイルデバイス20に格納されたアドレス帳を言葉でプログラミングするために用いることができる。例えば、ユーザが電話番号又は住所をアドレス帳に格納したい場合は、ユーザは、(テキスト変換器を起動させる)音声テキスト変換要求ボタンを押し、モバイルデバイス内に話すことができる。上述されるように、音声信号がサーバに送信されてテキストデータに変換され、テキストデータはモバイルデバイス20に送信して戻すことができる。この方法は、ユーザが手動によるテキスト入力なしで電話番号、等を入力したいときに役立つことができる。
上記の実施形態を実装するために用いられるハードウェアは、一組の命令を実行するように構成された処理要素及びメモリ要素であることができ、命令の組は、上記の方法に対応する方法ステップを実行するための命令である。代替として、幾つかのステップ又は方法は、所定の機能専用の回路によって実行することができる。
実施形態と関係させて説明される種々の例示的論理ブロック、モジュール、回路、及びアルゴリズム上のステップは、電子ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実装できることを当業者は理解するであろう。ハードウェアとソフトウェアのこの互換性を明確に例示するため、上記においては、種々の例示的コンポーネント、ブロック、モジュール、回路、及びステップが、各々の機能の観点で一般的に説明されている。該機能がハードウェア、ファームウェア、又はソフトウェアとして実装されるかは、全体的システムに対する特定の用途上の及び設計上の制約事項に依存する。当業者は、説明されている機能を各々の特定の用途に合わせて種々の形で実装することができるが、これらの実装決定は、本開示の適用範囲からの逸脱を生じさせるものであるとは解釈すべきではない。
ここにおいて開示される実施形態様と関係させて説明される方法又はアルゴリズムのステップは、ハードウェア内において直接具現化させること、プロセッサによって実行されるソフトウェアモジュール内において具現化させること、又はこれらの2つの組合せにおいて具現化させることができる。ソフトウェアモジュールは、プロセッサによって読み取り可能な記憶媒体及び/又はプロセッサによって読み取り可能なメモリに常駐することができ、これらは両方とも、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能なディスク、CD−ROM、又は当業において既知であるその他のあらゆる有形の記憶媒体であることができる。さらに、プロセッサによって読み取り可能なメモリは、2つ以上のメモリチップと、プロセッサチップ内部のメモリと、別個のメモリチップと、異なるタイプのメモリ、例えばフラッシュメモリ及びRAMメモリ、の組み合わせと、を備えることができる。ここにおけるモバイルデバイスのメモリへの言及は、特定の構成、タイプ、又はパッケージに制限することなしにモバイルデバイス内のいずれか1つの又はすべてのメモリモジュールを包含することが意図される。典型的な記憶媒体は、モバイルデバイス内のプロセッサに結合させ、プロセッサが記憶媒体から情報を読み出すようにすること及び記憶媒体に情報を書き込むようにすることができる。代替においては、記憶媒体は、プロセッサと一体化させることができる。プロセッサ及び記憶媒体は、ASIC内に常駐することができる。
種々の実施形態に関する上記の説明は、当業者が本発明を実施又は使用できるようにすることを目的とするものである。これらの実施形態に対する種々の修正は、当業者にとって容易に明確になるであろう。さらに、ここにおいて定められる一般原理は、本発明の精神及び適用範囲を逸脱することなしにその他の実施形態に対しても適用することができる。以上のように、本発明は、ここにおいて示される実施形態に限定されることが意図されるものではなく、ここにおいて開示される原理及び斬新な特徴に一致する限りにおいて最も広範な適用範囲が認められるべきである。
種々の実施形態に関する上記の説明は、当業者が本発明を実施又は使用できるようにすることを目的とするものである。これらの実施形態に対する種々の修正は、当業者にとって容易に明確になるであろう。さらに、ここにおいて定められる一般原理は、本発明の精神及び適用範囲を逸脱することなしにその他の実施形態に対しても適用することができる。以上のように、本発明は、ここにおいて示される実施形態に限定されることが意図されるものではなく、ここにおいて開示される原理及び斬新な特徴に一致する限りにおいて最も広範な適用範囲が認められるべきである。
下記に出願時請求項1−37に対応する記載を付記1−37として表記する。
付記1
電話での会話を書き起こすための方法であって、
モバイルデバイスからの書き起こし要求を前記モバイルデバイスに接続されたサーバにおいて受信することと、
前記電話での会話からの音声データを前記サーバにおいて受信することと、
前記サーバにおいて前記音声データの少なくとも一部を復号することと、
前記サーバにおいて前記復号された音声データをテキストデータに書き起こすことと、
前記テキストデータの少なくとも一部を前記サーバから前記モバイルデバイスに送信すること、とを備える、電話での会話を書き起こすための方法。
付記2
前記サーバにおいて前記音声データの一部をバッファリングすることと、
前記サーバにおいて前記バッファリングされた音声データをテキストデータに書き起こすこと、とをさらに備える付記1に記載の方法。
付記3
前記モバイルデバイスにおいて前記テキストデータの前記送信された少なくとも一部を受信することと、
前記受信されたテキストデータを前記モバイルデバイスのメモリに格納すること、とをさらに備える付記1に記載の方法。
付記4
前記テキストデータは、前記モバイルデバイス内のアドレス帳に格納される付記3に記載の方法。
付記5
前記書き起こされたテキストデータから連絡情報を抽出することをさらに備え、前記抽出された連絡情報のみが前記サーバから前記モバイルデバイスに送信される付記1に記載の方法。
付記6
音声データの発生元を決定するために前記音声データのパケットをモニタリングすることと、
前記音声データの発生元を識別すること、とをさらに備え、復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される付記1に記載の方法。
付記7
前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較することと、
前記ユーザの声のプロフィールに一致する音声データを識別すること、とをさらに備え、復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される付記1に記載の方法。
付記8
モバイルデバイスであって、
プロセッサと、
前記プロセッサに結合されたトランシーバと、
前記プロセッサに結合されたメモリと、を備え、前記プロセッサは、
音声データをテキストデータに書き起こすことを開始する要求をサーバに送信することと、
前記サーバからテキストデータを受信することと、
前記テキストデータを自動的に前記メモリに格納すること、とを備えるステップを実行するためのソフトウェア命令によって構成される、モバイルデバイス。
付記9
前記プロセッサは、前記テキストデータを前記メモリに格納されたアドレス帳に自動的に格納するためのソフトウェア命令によって構成される付記8に記載のモバイルデバイス。
付記10
前記プロセッサに結合された書き起こし要求ボタンをさらに備え、前記プロセッサは、前記書き起こし要求ボタンが最初に押されることに応答して書き起こしを開始する前記要求を前記サーバに送信するためのソフトウェア命令によってさらに構成される付記8に記載のモバイルデバイス。
付記11
前記プロセッサは、声による呼がアクティブでないときに前記書き起こし要求ボタンが押されたときに異なる機能を実行するためのソフトウェア命令によってさらに構成される付記10に記載のモバイルデバイス。
付記12
前記プロセッサは、前記書き起こし要求ボタンが再度押されることに応答して音声データをテキストデータに書き起こすことを終了させる要求を前記サーバに送信するためのソフトウェア命令によってさらに構成される付記10に記載のモバイルデバイス。
付記13
モバイルデバイスであって、
音声データをテキストデータに書き起こすことを開始する要求をサーバに送信するための手段と、
前記サーバからテキストデータを受信するための手段と、
前記テキストデータを自動的に前記メモリに格納するための手段と、を備える、モバイルデバイス。
付記14
前記テキストデータを自動的に前記メモリに格納するための手段は、前記テキストデータを前記メモリに格納されたアドレス帳に自動的に格納するための手段を備える付記13に記載のモバイルデバイス。
付記15
音声データをテキストデータに書き起こすことを開始する要求をサーバに送信すべきであることを示すユーザの入力を受信するための手段をさらに備える付記13に記載のモバイルデバイス。
付記16
ユーザの入力を受信するための前記手段は、声による呼がアクティブでないときに異なる機能が実行されるべきであることを示す付記15に記載のモバイルデバイス。
付記17
ユーザの入力を受信するための前記手段の再度の起動に応答して音声データをテキストデータに書き起こすことを終了させる要求を前記サーバに送信するための手段をさらに備える付記15に記載のモバイルデバイス。
付記18
有形のプロセッサによって読み取り可能なメモリであって、
音声データをテキストデータに書き起こすことを開始する要求をサーバに送信することと、
前記サーバからテキストデータを受信することと、
前記テキストデータを自動的に前記メモリに格納すること、とを備えるステップを実行することをモバイルデバイスプロセッサに行わせるように構成されるプロセッサによって実行可能なソフトウェア命令を格納している、有形のプロセッサによって読み取り可能なメモリ。
付記19
前記プロセッサによって実行可能なソフトウェア命令は、前記テキストデータを前記モバイルデバイスのメモリに格納されたアドレス帳に自動的に格納することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される付記18に記載の有形のプロセッサによって読み取り可能なメモリ。
付記20
前記プロセッサによって実行可能なソフトウェア命令は、前記書き起こし要求ボタンが最初に押されたことに応答して書き起こしを開始する前記要求を前記サーバに送信することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される付記18に記載の有形のプロセッサによって読み取り可能なメモリ。
付記21
前記プロセッサによって実行可能なソフトウェア命令は、声による呼がアクティブでないときに前記書き起こし要求ボタンが押されたときに異なる機能を実行することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される付記20に記載の有形のプロセッサによって読み取り可能なメモリ。
付記22
前記プロセッサによって実行可能なソフトウェア命令は、前記書き起こし要求ボタンが再度押されることに応答して音声データをテキストデータに書き起こすことを終了させる要求を前記サーバに送信することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される付記20に記載の有形のプロセッサによって読み取り可能なメモリ。
付記23
サーバであって、
サーバプロセッサと、
前記プロセッサに結合されたネットワークインタフェースと、
前記プロセッサに結合されたメモリと、を備え、
前記サーバプロセッサは、
ネットワークを介して前記モバイルデバイスに接続されたサーバにおいてモバイルデバイスからの書き起こし要求を前記ネットワークインタフェースを介して受信することと、
前記電話での会話からの音声データを前記ネットワークインタフェースを介して受信することと、
前記音声データの少なくとも一部を復号することと、
前記復号された音声データをテキストデータに書き起こすことと、
前記ネットワークインタフェースを介して前記テキストデータの少なくとも一部を前記モバイルデバイスに送信すること、とを備えるステップを実行するためのソフトウェア命令によって構成される、サーバ。
付記24
前記サーバプロセッサは、
前記音声データの一部をバッファリングすることと、
前記バッファリングされた音声データをテキストデータに変換すること、とを備えるステップを実行するためのソフトウェア命令によってさらに構成される付記23に記載のサーバ。
付記25
前記サーバプロセッサは、前記変換されたテキストデータから連絡情報を抽出することを備えるステップを実行するためのソフトウェア命令によってさらに構成され、前記抽出された連絡情報のみが前記モバイルデバイスに送信される付記23に記載のサーバ。
付記26
前記サーバプロセッサは、
音声データの発生元を決定するために前記音声データのパケットをモニタリングすることと、
前記音声データの発生元を識別すること、とを備えるステップを実行するためのソフトウェア命令によってさらに構成され、復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される付記23に記載のサーバ。
付記27
前記サーバプロセッサは、
前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較することと、
前記ユーザの声のプロフィールに一致する音声データを識別すること、とを備えるステップを実行するためのソフトウェア命令によってさらに構成され、復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される付記23に記載のサーバ。
付記28
サーバであって、
モバイルデバイスからの書き起こし要求をネットワークを介して前記モバイルデバイスに接続されたサーバにおいて受信するための手段と、
前記電話での会話からの音声データを前記サーバにおいて受信するための手段と、
前記サーバにおいて前記音声データの少なくとも一部を復号するための手段と、
前記サーバにおいて前記復号された音声データをテキストデータに書き起こすための手段と、
前記テキストデータの少なくとも一部を前記サーバから前記モバイルデバイスに送信するための手段と、を備える、サーバ。
付記29
前記音声データの一部を前記サーバにおいてバッファリングするための手段と、
前記サーバにおいて前記バッファリングされた音声データをテキストデータに変換するための手段と、をさらに備える付記28に記載のサーバ。
付記30
前記書き起こされたテキストデータから連絡情報を抽出するための手段をさらに備え、前記抽出された連絡情報のみが前記サーバから前記モバイルデバイスに送信される付記29に記載のサーバ。
付記31
音声データの発生元を決定するために前記音声データのパケットをモニタリングするための手段と、
前記音声データの発生元を識別するための手段と、をさらに備え、復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される付記28に記載のサーバ。
付記32
前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較するための手段と、
前記ユーザの声のプロフィールに一致する音声データを識別するための手段と、をさらに備え、復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される付記28に記載のサーバ。
付記33
有形の記憶媒体であって、
モバイルデバイスから書き起こし要求を受信することと、
前記電話での会話からの音声データを受信することと、
前記音声データの少なくとも一部を復号することと、
前記復号された音声データをテキストデータに書き起こすことと、
前記テキストデータの少なくとも一部を前記モバイルデバイスに送信すること、とを備えるステップを実行することをサーバプロセッサに行わせるように構成されたサーバによって実行可能なソフトウェア命令を格納している、有形の記憶媒体。
付記34
前記格納されたサーバによって実行可能なソフトウェア命令は、
前記音声データの一部をバッファリングすることと、
前記バッファリングされた音声データをテキストデータに変換すること、とを備えるさらなるステップを実行することを前記サーバに行わせるように構成される付記33に記載の有形の記憶媒体。
付記35
前記格納されたサーバによって実行可能なソフトウェア命令は、前記変換されたテキストデータから連絡情報を抽出することを備えるさらなるステップを実行することを前記サーバに行わせるように構成され、前記抽出された連絡情報のみが前記モバイルデバイスに送信される付記33に記載の有形の記憶媒体。
付記36
前記格納されたサーバによって実行可能なソフトウェア命令は、
音声データの発生元を決定するために前記音声データのパケットをモニタリングすることと、
前記音声データの発生元を識別すること、とを備えるさらなるステップを実行することを前記サーバに行わせるように構成され
復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される付記33に記載の有形の記憶媒体。
付記37
前記格納されたサーバによって実行可能なソフトウェア命令は、
前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較することと、
前記ユーザの声のプロフィールに一致する音声データを識別すること、とを備えるさらなるステップを実行することを前記サーバに行わせるように構成され、
復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される付記33に記載の有形の記憶媒体。

Claims (37)

  1. 電話での会話を書き起こすための方法であって、
    モバイルデバイスからの書き起こし要求を前記モバイルデバイスに接続されたサーバにおいて受信することと、
    前記電話での会話からの音声データを前記サーバにおいて受信することと、
    前記サーバにおいて前記音声データの少なくとも一部を復号することと、
    前記サーバにおいて前記復号された音声データをテキストデータに書き起こすことと、
    前記テキストデータの少なくとも一部を前記サーバから前記モバイルデバイスに送信すること、とを備える、電話での会話を書き起こすための方法。
  2. 前記サーバにおいて前記音声データの一部をバッファリングすることと、
    前記サーバにおいて前記バッファリングされた音声データをテキストデータに書き起こすこと、とをさらに備える請求項1に記載の方法。
  3. 前記モバイルデバイスにおいて前記テキストデータの前記送信された少なくとも一部を受信することと、
    前記受信されたテキストデータを前記モバイルデバイスのメモリに格納すること、とをさらに備える請求項1に記載の方法。
  4. 前記テキストデータは、前記モバイルデバイス内のアドレス帳に格納される請求項3に記載の方法。
  5. 前記書き起こされたテキストデータから連絡情報を抽出することをさらに備え、前記抽出された連絡情報のみが前記サーバから前記モバイルデバイスに送信される請求項1に記載の方法。
  6. 音声データの発生元を決定するために前記音声データのパケットをモニタリングすることと、
    前記音声データの発生元を識別すること、とをさらに備え、復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される請求項1に記載の方法。
  7. 前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較することと、
    前記ユーザの声のプロフィールに一致する音声データを識別すること、とをさらに備え、復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される請求項1に記載の方法。
  8. モバイルデバイスであって、
    プロセッサと、
    前記プロセッサに結合されたトランシーバと、
    前記プロセッサに結合されたメモリと、を備え、前記プロセッサは、
    音声データをテキストデータに書き起こすことを開始する要求をサーバに送信することと、
    前記サーバからテキストデータを受信することと、
    前記テキストデータを自動的に前記メモリに格納すること、とを備えるステップを実行するためのソフトウェア命令によって構成される、モバイルデバイス。
  9. 前記プロセッサは、前記テキストデータを前記メモリに格納されたアドレス帳に自動的に格納するためのソフトウェア命令によって構成される請求項8に記載のモバイルデバイス。
  10. 前記プロセッサに結合された書き起こし要求ボタンをさらに備え、前記プロセッサは、前記書き起こし要求ボタンが最初に押されることに応答して書き起こしを開始する前記要求を前記サーバに送信するためのソフトウェア命令によってさらに構成される請求項8に記載のモバイルデバイス。
  11. 前記プロセッサは、声による呼がアクティブでないときに前記書き起こし要求ボタンが押されたときに異なる機能を実行するためのソフトウェア命令によってさらに構成される請求項10に記載のモバイルデバイス。
  12. 前記プロセッサは、前記書き起こし要求ボタンが再度押されることに応答して音声データをテキストデータに書き起こすことを終了させる要求を前記サーバに送信するためのソフトウェア命令によってさらに構成される請求項10に記載のモバイルデバイス。
  13. モバイルデバイスであって、
    音声データをテキストデータに書き起こすことを開始する要求をサーバに送信するための手段と、
    前記サーバからテキストデータを受信するための手段と、
    前記テキストデータを自動的に前記メモリに格納するための手段と、を備える、モバイルデバイス。
  14. 前記テキストデータを自動的に前記メモリに格納するための手段は、前記テキストデータを前記メモリに格納されたアドレス帳に自動的に格納するための手段を備える請求項13に記載のモバイルデバイス。
  15. 音声データをテキストデータに書き起こすことを開始する要求をサーバに送信すべきであることを示すユーザの入力を受信するための手段をさらに備える請求項13に記載のモバイルデバイス。
  16. ユーザの入力を受信するための前記手段は、声による呼がアクティブでないときに異なる機能が実行されるべきであることを示す請求項15に記載のモバイルデバイス。
  17. ユーザの入力を受信するための前記手段の再度の起動に応答して音声データをテキストデータに書き起こすことを終了させる要求を前記サーバに送信するための手段をさらに備える請求項15に記載のモバイルデバイス。
  18. 有形のプロセッサによって読み取り可能なメモリであって、
    音声データをテキストデータに書き起こすことを開始する要求をサーバに送信することと、
    前記サーバからテキストデータを受信することと、
    前記テキストデータを自動的に前記メモリに格納すること、とを備えるステップを実行することをモバイルデバイスプロセッサに行わせるように構成されるプロセッサによって実行可能なソフトウェア命令を格納している、有形のプロセッサによって読み取り可能なメモリ。
  19. 前記プロセッサによって実行可能なソフトウェア命令は、前記テキストデータを前記モバイルデバイスのメモリに格納されたアドレス帳に自動的に格納することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される請求項18に記載の有形のプロセッサによって読み取り可能なメモリ。
  20. 前記プロセッサによって実行可能なソフトウェア命令は、前記書き起こし要求ボタンが最初に押されたことに応答して書き起こしを開始する前記要求を前記サーバに送信することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される請求項18に記載の有形のプロセッサによって読み取り可能なメモリ。
  21. 前記プロセッサによって実行可能なソフトウェア命令は、声による呼がアクティブでないときに前記書き起こし要求ボタンが押されたときに異なる機能を実行することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される請求項20に記載の有形のプロセッサによって読み取り可能なメモリ。
  22. 前記プロセッサによって実行可能なソフトウェア命令は、前記書き起こし要求ボタンが再度押されることに応答して音声データをテキストデータに書き起こすことを終了させる要求を前記サーバに送信することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される請求項20に記載の有形のプロセッサによって読み取り可能なメモリ。
  23. サーバであって、
    サーバプロセッサと、
    前記プロセッサに結合されたネットワークインタフェースと、
    前記プロセッサに結合されたメモリと、を備え、
    前記サーバプロセッサは、
    ネットワークを介して前記モバイルデバイスに接続されたサーバにおいてモバイルデバイスからの書き起こし要求を前記ネットワークインタフェースを介して受信することと、
    前記電話での会話からの音声データを前記ネットワークインタフェースを介して受信することと、
    前記音声データの少なくとも一部を復号することと、
    前記復号された音声データをテキストデータに書き起こすことと、
    前記ネットワークインタフェースを介して前記テキストデータの少なくとも一部を前記モバイルデバイスに送信すること、とを備えるステップを実行するためのソフトウェア命令によって構成される、サーバ。
  24. 前記サーバプロセッサは、
    前記音声データの一部をバッファリングすることと、
    前記バッファリングされた音声データをテキストデータに変換すること、とを備えるステップを実行するためのソフトウェア命令によってさらに構成される請求項23に記載のサーバ。
  25. 前記サーバプロセッサは、前記変換されたテキストデータから連絡情報を抽出することを備えるステップを実行するためのソフトウェア命令によってさらに構成され、前記抽出された連絡情報のみが前記モバイルデバイスに送信される請求項23に記載のサーバ。
  26. 前記サーバプロセッサは、
    音声データの発生元を決定するために前記音声データのパケットをモニタリングすることと、
    前記音声データの発生元を識別すること、とを備えるステップを実行するためのソフトウェア命令によってさらに構成され、復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される請求項23に記載のサーバ。
  27. 前記サーバプロセッサは、
    前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較することと、
    前記ユーザの声のプロフィールに一致する音声データを識別すること、とを備えるステップを実行するためのソフトウェア命令によってさらに構成され、復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される請求項23に記載のサーバ。
  28. サーバであって、
    モバイルデバイスからの書き起こし要求をネットワークを介して前記モバイルデバイスに接続されたサーバにおいて受信するための手段と、
    前記電話での会話からの音声データを前記サーバにおいて受信するための手段と、
    前記サーバにおいて前記音声データの少なくとも一部を復号するための手段と、
    前記サーバにおいて前記復号された音声データをテキストデータに書き起こすための手段と、
    前記テキストデータの少なくとも一部を前記サーバから前記モバイルデバイスに送信するための手段と、を備える、サーバ。
  29. 前記音声データの一部を前記サーバにおいてバッファリングするための手段と、
    前記サーバにおいて前記バッファリングされた音声データをテキストデータに変換するための手段と、をさらに備える請求項28に記載のサーバ。
  30. 前記書き起こされたテキストデータから連絡情報を抽出するための手段をさらに備え、前記抽出された連絡情報のみが前記サーバから前記モバイルデバイスに送信される請求項29に記載のサーバ。
  31. 音声データの発生元を決定するために前記音声データのパケットをモニタリングするための手段と、
    前記音声データの発生元を識別するための手段と、をさらに備え、復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される請求項28に記載のサーバ。
  32. 前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較するための手段と、
    前記ユーザの声のプロフィールに一致する音声データを識別するための手段と、をさらに備え、復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される請求項28に記載のサーバ。
  33. 有形の記憶媒体であって、
    モバイルデバイスから書き起こし要求を受信することと、
    前記電話での会話からの音声データを受信することと、
    前記音声データの少なくとも一部を復号することと、
    前記復号された音声データをテキストデータに書き起こすことと、
    前記テキストデータの少なくとも一部を前記モバイルデバイスに送信すること、とを備えるステップを実行することをサーバプロセッサに行わせるように構成されたサーバによって実行可能なソフトウェア命令を格納している、有形の記憶媒体。
  34. 前記格納されたサーバによって実行可能なソフトウェア命令は、
    前記音声データの一部をバッファリングすることと、
    前記バッファリングされた音声データをテキストデータに変換すること、とを備えるさらなるステップを実行することを前記サーバに行わせるように構成される請求項33に記載の有形の記憶媒体。
  35. 前記格納されたサーバによって実行可能なソフトウェア命令は、前記変換されたテキストデータから連絡情報を抽出することを備えるさらなるステップを実行することを前記サーバに行わせるように構成され、前記抽出された連絡情報のみが前記モバイルデバイスに送信される請求項33に記載の有形の記憶媒体。
  36. 前記格納されたサーバによって実行可能なソフトウェア命令は、
    音声データの発生元を決定するために前記音声データのパケットをモニタリングすることと、
    前記音声データの発生元を識別すること、とを備えるさらなるステップを実行することを前記サーバに行わせるように構成され
    復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される請求項33に記載の有形の記憶媒体。
  37. 前記格納されたサーバによって実行可能なソフトウェア命令は、
    前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較することと、
    前記ユーザの声のプロフィールに一致する音声データを識別すること、とを備えるさらなるステップを実行することを前記サーバに行わせるように構成され、
    復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される請求項33に記載の有形の記憶媒体。
JP2013030866A 2008-05-27 2013-02-20 電話での会話をテキストに書き起こすための方法及びシステム Expired - Fee Related JP5701916B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/127,562 US8407048B2 (en) 2008-05-27 2008-05-27 Method and system for transcribing telephone conversation to text
US12/127,562 2008-05-27

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2011511692A Division JP2011522486A (ja) 2008-05-27 2009-05-12 電話での会話をテキストに書き起こすための方法及びシステム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014243442A Division JP2015084544A (ja) 2008-05-27 2014-12-01 電話での会話をテキストに書き起こすための方法及びシステム

Publications (2)

Publication Number Publication Date
JP2013146085A true JP2013146085A (ja) 2013-07-25
JP5701916B2 JP5701916B2 (ja) 2015-04-15

Family

ID=40897400

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2011511692A Withdrawn JP2011522486A (ja) 2008-05-27 2009-05-12 電話での会話をテキストに書き起こすための方法及びシステム
JP2013030866A Expired - Fee Related JP5701916B2 (ja) 2008-05-27 2013-02-20 電話での会話をテキストに書き起こすための方法及びシステム
JP2014243442A Withdrawn JP2015084544A (ja) 2008-05-27 2014-12-01 電話での会話をテキストに書き起こすための方法及びシステム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2011511692A Withdrawn JP2011522486A (ja) 2008-05-27 2009-05-12 電話での会話をテキストに書き起こすための方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2014243442A Withdrawn JP2015084544A (ja) 2008-05-27 2014-12-01 電話での会話をテキストに書き起こすための方法及びシステム

Country Status (6)

Country Link
US (1) US8407048B2 (ja)
EP (1) EP2294800B1 (ja)
JP (3) JP2011522486A (ja)
KR (1) KR101213514B1 (ja)
CN (1) CN102047647B (ja)
WO (1) WO2009146249A1 (ja)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8483679B2 (en) * 2008-09-09 2013-07-09 Avaya Inc. Sharing of electromagnetic-signal measurements for providing feedback about transmit-path signal quality
US8265671B2 (en) * 2009-06-17 2012-09-11 Mobile Captions Company Llc Methods and systems for providing near real time messaging to hearing impaired user during telephone calls
US20110054912A1 (en) * 2009-09-01 2011-03-03 Christopher Anthony Silva System and method of storing telephone conversations
US8503635B2 (en) * 2009-09-10 2013-08-06 Felix Calls, Llc Media optimization using transcription analysis
US20110076990A1 (en) * 2009-09-29 2011-03-31 Christopher Anthony Silva Method for recording mobile phone calls
US8428559B2 (en) 2009-09-29 2013-04-23 Christopher Anthony Silva Method for recording mobile phone calls
US20120215528A1 (en) * 2009-10-28 2012-08-23 Nec Corporation Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium
US8340640B2 (en) * 2009-11-23 2012-12-25 Speechink, Inc. Transcription systems and methods
US8553859B1 (en) * 2010-02-03 2013-10-08 Tal Lavian Device and method for providing enhanced telephony
US20110195739A1 (en) * 2010-02-10 2011-08-11 Harris Corporation Communication device with a speech-to-text conversion function
US20110228913A1 (en) * 2010-03-16 2011-09-22 Telcordia Technologies, Inc. Automatic extraction of information from ongoing voice communication system and methods
US8548449B2 (en) 2010-05-20 2013-10-01 Microsoft Corporation Mobile contact notes
US20120059655A1 (en) * 2010-09-08 2012-03-08 Nuance Communications, Inc. Methods and apparatus for providing input to a speech-enabled application program
US8805330B1 (en) * 2010-11-03 2014-08-12 Sprint Communications Company L.P. Audio phone number capture, conversion, and use
CN102905004A (zh) * 2011-07-25 2013-01-30 三星电子(中国)研发中心 移动终端中的通话记录系统和通话记录方法
US8886169B2 (en) * 2011-10-25 2014-11-11 At&T Intellectual Property I, Lp Apparatus and method for providing enhanced telephonic communications
CN102447483B (zh) * 2011-11-25 2013-10-23 北京天地网行科技发展有限公司 一种基于有线电话网络的应急通信系统的语音终端
US8571528B1 (en) * 2012-01-25 2013-10-29 Intuit Inc. Method and system to automatically create a contact with contact details captured during voice calls
US9380146B1 (en) * 2012-03-14 2016-06-28 Amazon Technologies, Inc. System and method to facilitate conversion between voice calls and text calls
CN103533143A (zh) * 2012-07-03 2014-01-22 联想(北京)有限公司 一种信息处理方法及电子设备
US20140088971A1 (en) * 2012-08-20 2014-03-27 Michael D. Metcalf System And Method For Voice Operated Communication Assistance
US9210110B2 (en) * 2012-08-28 2015-12-08 At&T Mobility Ii Llc Predictive messaging service for active voice calls
CN102857612A (zh) * 2012-08-30 2013-01-02 广东欧珀移动通信有限公司 一种通话时自动录音的方法及手机
US8965759B2 (en) * 2012-09-01 2015-02-24 Sarah Hershenhorn Digital voice memo transfer and processing
WO2014085985A1 (zh) * 2012-12-04 2014-06-12 Itp创新科技有限公司 一种通话转录系统和方法
US10482216B2 (en) * 2013-03-28 2019-11-19 Iconic Data Inc. Protected health information image capture, processing and submission from a client device
CN104158945A (zh) * 2013-05-13 2014-11-19 中兴通讯股份有限公司 通话信息获取方法、装置及系统
US10748523B2 (en) 2014-02-28 2020-08-18 Ultratec, Inc. Semiautomated relay method and apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
CN103929524A (zh) * 2014-04-30 2014-07-16 深圳市中兴移动通信有限公司 通话过程中记录信息的方法及应用该方法的移动终端
CN104125340B (zh) * 2014-07-25 2017-10-17 广东欧珀移动通信有限公司 一种通话录音文件的生成及管理的方法及其系统
CN104184870A (zh) * 2014-07-29 2014-12-03 小米科技有限责任公司 通话记录标记方法、装置及电子设备
US9936068B2 (en) * 2014-08-04 2018-04-03 International Business Machines Corporation Computer-based streaming voice data contact information extraction
US10345967B2 (en) * 2014-09-17 2019-07-09 Red Hat, Inc. User interface for a device
CN105530351B (zh) * 2014-10-23 2019-09-10 中兴通讯股份有限公司 通话处理方法及装置
CN104869210B (zh) * 2015-05-26 2017-05-31 努比亚技术有限公司 一种通信信息提取方法及信息提取终端
CN105100421A (zh) * 2015-05-29 2015-11-25 努比亚技术有限公司 通话控制方法及装置
CN105049612A (zh) * 2015-06-29 2015-11-11 努比亚技术有限公司 一种实现录音的方法和装置
US9837074B2 (en) 2015-10-27 2017-12-05 International Business Machines Corporation Information exchange during audio conversations
KR102390713B1 (ko) * 2015-11-25 2022-04-27 삼성전자 주식회사 전자 장치 및 전자 장치의 통화 서비스 제공 방법
CN107094199A (zh) 2016-02-17 2017-08-25 纬创资通(中山)有限公司 在通话中分享连串数字的方法与通信装置
US9905248B2 (en) 2016-02-29 2018-02-27 International Business Machines Corporation Inferring user intentions based on user conversation data and spatio-temporal data
US9978396B2 (en) 2016-03-16 2018-05-22 International Business Machines Corporation Graphical display of phone conversations
US9497315B1 (en) * 2016-07-27 2016-11-15 Captioncall, Llc Transcribing audio communication sessions
US10187512B2 (en) 2016-09-27 2019-01-22 Apple Inc. Voice-to text mode based on ambient noise measurement
US20190156834A1 (en) * 2017-11-22 2019-05-23 Toyota Motor Engineering & Manufacturing North America, Inc. Vehicle virtual assistance systems for taking notes during calls
US11089446B2 (en) * 2018-01-11 2021-08-10 Htc Corporation Portable electronic device, operating method for the same, and non-transitory computer readable recording medium
US20190251961A1 (en) * 2018-02-15 2019-08-15 Lenovo (Singapore) Pte. Ltd. Transcription of audio communication to identify command to device
US10789954B2 (en) * 2018-08-29 2020-09-29 Sorenson Ip Holdings, Llc Transcription presentation
CN109308893A (zh) * 2018-10-25 2019-02-05 珠海格力电器股份有限公司 信息发送方法及装置、存储介质、电子装置
EP3881318B1 (en) * 2018-11-14 2024-01-03 Hewlett-Packard Development Company, L.P. Contents based on policy permissions
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10573312B1 (en) 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
US11637923B1 (en) 2020-09-17 2023-04-25 Intrado Corporation Insight determination from aggregated call content
US11805189B1 (en) * 2020-09-17 2023-10-31 Intrado Life & Safety, Inc. Publish and subscribe call center architecture

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000196730A (ja) * 1998-12-25 2000-07-14 Nec Saitama Ltd 無線通信機
JP2002290536A (ja) * 2001-03-28 2002-10-04 Tsubasa System Co Ltd 携帯端末での電話番号登録方法
JP2004173124A (ja) * 2002-11-22 2004-06-17 Crossever Kk 顧客データの管理方法
JP2005043628A (ja) * 2003-07-28 2005-02-17 Toshiba Corp 対話記録装置および対話記録方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5127003A (en) * 1991-02-11 1992-06-30 Simpact Associates, Inc. Digital/audio interactive communication network
US5732216A (en) * 1996-10-02 1998-03-24 Internet Angles, Inc. Audio message exchange system
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
US6222909B1 (en) 1997-11-14 2001-04-24 Lucent Technologies Inc. Audio note taking system and method for communication devices
US6512828B1 (en) * 1998-02-03 2003-01-28 Mark Styron Wall mounted telephone
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
US7359492B2 (en) * 1999-09-08 2008-04-15 Ameritech Corporation Method and apparatus for converting a voice signal received from a remote telephone to a text signal
US7606706B1 (en) * 2000-04-20 2009-10-20 Rubin Aviel D System and method for storage and retrieval of personal communications in a broadband network
AU2001273087A1 (en) 2000-07-07 2002-01-21 Telefonaktiebolaget Lm Ericsson (Publ) Automated recording of telephone numbers during ongoing telecommunication sessions
US6980953B1 (en) * 2000-10-31 2005-12-27 International Business Machines Corp. Real-time remote transcription or translation service
US6820055B2 (en) * 2001-04-26 2004-11-16 Speche Communications Systems and methods for automated audio transcription, translation, and transfer with text display software for manipulating the text
US7113572B2 (en) 2001-10-03 2006-09-26 Cingular Wireless Ii, Llc System and method for recognition of and automatic connection using spoken address information received in voice mails and live telephone conversations
JP4197271B2 (ja) 2003-06-17 2008-12-17 シャープ株式会社 通信端末、通信端末の制御方法、音声認識処理装置、音声認識処理装置の制御方法、通信端末制御プログラム、通信端末制御プログラムを記録した記録媒体、音声認識処理装置制御プログラム、および、音声認識処理装置制御プログラムを記録した記録媒体
US20050137867A1 (en) * 2003-12-17 2005-06-23 Miller Mark R. Method for electronically generating a synchronized textual transcript of an audio recording
US7478044B2 (en) 2004-03-04 2009-01-13 International Business Machines Corporation Facilitating navigation of voice data
US7133513B1 (en) * 2004-07-21 2006-11-07 Sprint Spectrum L.P. Method and system for transcribing voice content of an on-going teleconference into human-readable notation
US20060062371A1 (en) * 2004-09-23 2006-03-23 Vanderheiden Gregg C Method and apparatus for associating an alternate access device with a telephone
JP4125708B2 (ja) 2004-10-08 2008-07-30 埼玉日本電気株式会社 携帯電話端末およびメール送受信方法
JP2006174111A (ja) 2004-12-16 2006-06-29 Matsushita Electric Ind Co Ltd 電話装置
US8065079B2 (en) * 2005-03-31 2011-11-22 Qualcomm Incorporated System and method for indicating reminders via a portable computing device
US20070024721A1 (en) * 2005-07-29 2007-02-01 Rogers Sean S Compensating for improperly exposed areas in digital images
US20070112571A1 (en) * 2005-11-11 2007-05-17 Murugappan Thirugnana Speech recognition at a mobile terminal
JP2007180828A (ja) 2005-12-27 2007-07-12 Canon Marketing Japan Inc ネットワーク会議システム、ネットワーク会議方法、及び該方法を実行させるためのプログラム
US7865400B2 (en) * 2006-02-23 2011-01-04 Qualcomm Incorporated Apparatus and methods for community based purchasing by mobile buyers
US20080059177A1 (en) * 2006-05-19 2008-03-06 Jamey Poirier Enhancement of simultaneous multi-user real-time speech recognition system
US7937270B2 (en) * 2007-01-16 2011-05-03 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech securely using a secure multi-party computation protocol
US8107598B2 (en) * 2007-02-21 2012-01-31 Avaya Inc. Voicemail filtering and transcription
US20080300873A1 (en) * 2007-05-30 2008-12-04 James Siminoff Systems And Methods For Securely Transcribing Voicemail Messages
US20090119100A1 (en) * 2007-11-07 2009-05-07 Raji L Akella Associating annotation recording with a cell phone number
US8615397B2 (en) * 2008-04-04 2013-12-24 Intuit Inc. Identifying audio content using distorted target patterns
US8683582B2 (en) * 2008-06-16 2014-03-25 Qualcomm Incorporated Method and system for graphical passcode security

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000196730A (ja) * 1998-12-25 2000-07-14 Nec Saitama Ltd 無線通信機
JP2002290536A (ja) * 2001-03-28 2002-10-04 Tsubasa System Co Ltd 携帯端末での電話番号登録方法
JP2004173124A (ja) * 2002-11-22 2004-06-17 Crossever Kk 顧客データの管理方法
JP2005043628A (ja) * 2003-07-28 2005-02-17 Toshiba Corp 対話記録装置および対話記録方法

Also Published As

Publication number Publication date
US8407048B2 (en) 2013-03-26
EP2294800A1 (en) 2011-03-16
CN102047647B (zh) 2015-11-25
CN102047647A (zh) 2011-05-04
KR101213514B1 (ko) 2012-12-18
JP2015084544A (ja) 2015-04-30
WO2009146249A1 (en) 2009-12-03
JP2011522486A (ja) 2011-07-28
JP5701916B2 (ja) 2015-04-15
US20090299743A1 (en) 2009-12-03
EP2294800B1 (en) 2018-06-13
KR20110021963A (ko) 2011-03-04

Similar Documents

Publication Publication Date Title
JP5701916B2 (ja) 電話での会話をテキストに書き起こすための方法及びシステム
KR102223017B1 (ko) 공유된 음성 작동 디바이스상의 호출 핸들링
US9258426B2 (en) System and method for processing a voice mail
US8351581B2 (en) Systems and methods for intelligent call transcription
KR101149135B1 (ko) 음성 대화형 메시징을 위한 방법 및 장치
CN102984666B (zh) 一种通话过程中的通讯录语音信息处理方法及系统
TW200540649A (en) Method and apparatus for automatic telephone menu navigation
KR100241901B1 (ko) 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법
US8805330B1 (en) Audio phone number capture, conversion, and use
KR101367722B1 (ko) 휴대단말기의 통화 서비스 방법
JP5251588B2 (ja) 携帯電話端末装置及び通話伝達の判断方法
KR100467593B1 (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
JP2008205972A (ja) 通信端末、音声メッセージ伝達装置、及び音声メッセージ伝達システム
KR100380829B1 (ko) 에이전트를 이용한 대화 방식 인터페이스 운영 시스템 및방법과 그 프로그램 소스를 기록한 기록 매체
US11699438B2 (en) Open smart speaker
EP3089160B1 (en) Method and apparatus for voice control of a mobile device
KR20160097406A (ko) 실시간 통번역 통화서비스 시스템 및 그 제공방법
JP5007209B2 (ja) ユーザデータ管理システム、情報提供システム、およびユーザデータ管理方法
KR101002905B1 (ko) 음성 인식을 이용한 유·무선 단말기 제어 방법 및 그유·무선 단말기
JP4125708B2 (ja) 携帯電話端末およびメール送受信方法
JP2005222410A (ja) 車載用ハンドフリーメール装置
JP2003046647A (ja) 通話中継システム、通話中継方法、通話中継プログラム及びそれを記録した記録媒体
JPH11127243A (ja) 電子メール送信装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141201

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150218

R150 Certificate of patent or registration of utility model

Ref document number: 5701916

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees