JP2009540384A

JP2009540384A - 手話グラフィカルインタプリタのための方法及びシステム

Info

Publication number: JP2009540384A
Application number: JP2009515412A
Authority: JP
Inventors: ヴィットリオ・ジー・ブッチェリ; アルベルト・エル・シュミット
Original assignee: ベライゾン・データ・サービシーズ・エルエルシー
Priority date: 2006-06-15
Filing date: 2007-05-30
Publication date: 2009-11-19
Also published as: WO2007145818A2; US20100223046A1; US8411824B2; CA2655359A1; CN101502094B; US20070291910A1; HK1132861A1; US7746986B2; WO2007145818A3; EP2027713A4; EP2027713A2; CN101502094A

Abstract

ユーザ端末で補足された音声に対応する視覚的コンテンツをユーザに表示するためのシステム及び方法が開示される。一つ又は複数の単語から成る音声を、該音声を表す視覚的コンテンツに変換する要求をユーザ端末からネットワークにより受信後、翻訳サーバは、前記一つ又は複数の単語に対応するテキストをデータベースから取得する。翻訳サーバは、次いで、前記テキストを、前記一つ又は複数の単語の意味を表す一つ又は複数のコンテンツフレーズに変換するとともに、該一つ又は複数のコンテンツフレーズの各々を新規な言語に変換し得る。最後に、翻訳サーバは、前記新規な言語を表す視覚的コンテンツをユーザ端末に送信し得る。

Description

本発明は、２００６年６月１５日付け出願の米国特許出願第１１／４５３，２０２号に対する優先権を主張する。

耳が不自由な状態で生まれた聴覚障害者の大多数は、記載されたものよりも、それが「手話で表現された」場合のコンテンツ（内容）を読み取る方を好む。「手話で表現された」コンテンツの伝達には、顔の表現と組み合わさったジェスチャーの使用を必然的に伴う。「手話で表現された」コンテンツは、しばしば、指で綴られなければならないが（見知らぬ名前、電話番号等）、ほとんどの場合、該コンテンツは概念、行為及び事実を伝達する。ＡＳＬは、非英語言語（すなわち、フランス語、ドイツ語等）と同等である。英語文の言語順序と対応する手話翻訳との間にはほとんど関連性がない。ＡＳＬ通訳者は、話されたか又は書かれた英語文の構文及び文法構造を無視するやり方で文の意味を伝達するであろう。手話は、上半身（ウエストから上）、腕、手、指、頭、及び顔の表現を用いて、音色、音量、及び言葉間の間隔を用いる話し言葉と同様にコミュニケーションを表現し強調する。手話通訳者は、通常、同時通話又は他の英語コンテンツのいずれかをアメリカ手話言語（ＡＳＬ）に翻訳するために雇われる。

現在、手話で表現されたコンテンツの伝達は、フィルムに記録されデジタル化されたビデオによっても与えられる。グラフィカルにアニメ化された手又はキャラクタも使用される。単語（言葉）もしくは短文の綴られた言葉及び手話で表現された意味も対話型辞書で入手できる。手話通訳者はまた、しばしば、案内、相談、もしくはフィルム化のために利用される。

手話で表現されるコンテンツを伝えるこれら現在の方法は、多くの欠点を有している。一連の手話で表現されるフレーズは、翻訳者をフィルムに記録することなしに連結もしくは構築され得ない。著者が、利用可能な色々な種類及び強さの上半身の運動及び顔の表現を用いて手話で表現された文を効果的に構成することを可能にする手話動作の図書館（ライブラリ）は現存しない。新規なコンテンツが発生するたびに、それが新しいウェブページ、テレビ発表もしくは会話であろうとなかろうと、特定の翻訳の努力がなされなければならない。人間の手話の通訳者はまた、耳が不自由な個人と聞き手との間のミーティングのために雇われ、テレタイプ機器（ＴＴＹ）を介して又は他のインタラクションにおいて会話のつづりを１文字ずつ言わ（書か）ねばならない。

従って、手話で内容（コンテンツ）を伝達するために使用されるグラフィカルコンピュータエージェントに対するニーズがある。該エージェントは、音声又は該音声に対応するテキストと第三者からの単語（言葉）の提示を同時に伝えることができる。グラフィカルに描かれたエージェントは、人間の通訳者が提供することができないであろう整合性及び視覚的利点をもたらす。

図１は、本発明に関連するある側面に従う模範的なシステム環境のブロック図を示す。図２は、本発明に関連するある側面に従う模範的なユーザ端末のブロック図を示す。図３は、本発明に関連するデータのある側面に従う模範的な翻訳サーバのブロック図を示す。図４は、本発明に関連する一側面を例示するフローチャートを示す。図５は、本発明の実施形態に従う模範的なディスプレイを例示する。

手話グラフィカルトランスレータ（ＳＬＧＴ）を提供するためのシステム及び方法は、ある数の源又は第三者から音声を受信し得る。これらの第三者は、例えば、別の人間、テレビ、電話、ラジオ、又は、音声を送信可能な任意の他のデバイスであり得る。これに応答して、ＳＬＧＴは、取り込んだ音声（話し言葉又は雑音から構成され得る）をテキストへと変換し得、並びに、言葉及び文のコンテンツ（内容）をＡＳＬへと翻訳し得る。ＳＬＧＴは、次いで、ＡＳＬのコンテンツを該ＡＳＬに対応するアニメーション（動画）に適合させ得、次に、ＳＬＧＴのユーザに対し、該テキスト、並びに前記取り込んだ音声のコンテンツに対応するＡＳＬ動画を表示し得る。

一つの模範的な実施形態によれば、方法は、ユーザ端末において第三者から、一つ又は複数の単語（言葉）を含む（もしくは一つ又は複数の単語から成る）音声を取り込む工程と、該一つ又は複数の単語を、該一つ又は複数の単語を表すテキストに変換する工程と、該一つ又は複数の単語を、前記一つ又は複数の単語の意味を表す一つ又は複数のコンテンツフレーズに変換する工程と、前記一つ又は複数のコンテンツフレーズ各々を新規な言語に変換する工程と、前記新規な言語を表す視覚的コンテンツを前記ユーザ端末に表示させる工程とを含み得る。

別の模範的な実施形態によれば、システムは、ネットワークに接続され、かつ少なくとも一つのユーザ端末によってアクセス可能な翻訳サーバを備え、前記翻訳サーバは、一つ又は複数の単語を含む音声を、該音声を表す視覚的コンテンツへと変換するリクエスト（要求）をユーザ端末からネットワークにより受信し、データベースから前記一つ又は複数の単語に対応するテキストを取り込み、前記テキストを、前記一つ又は複数の単語の意味を表す一つ又は複数のコンテンツフレーズに変換し、前記一つ又は複数のコンテンツフレーズ各々を新規な言語に変換し、かつ、前記新規な言語におけるコンテンツを表す視覚的コンテンツを前記ユーザ端末に送るように構成される。

模範的実施形態が、これと共に提出された図面を参照して更に詳細に記述される。添付図面全体にわたり、同一又は類似の要素を指すために同じ参照番号が可能な限り用いられる。図面は、好ましい模範的な実施及び具体化の形態を例示するが、これらの実施形態の記述は、他の実施もしくは具体化の形態が本発明の範囲に含まれないことを表示もしくは暗示しない。当然のことながら、他の具体化が利用され得、また、添付の特許請求の範囲に記載した本発明の範囲から逸脱することなく構造及び手順の変更がなされ得る。

図１は、ここに記述した一実施形態と整合するシステム環境１００を例示するブロック図を提供する。システム環境１００は、ユーザ１０５と、ユーザ端末１１０と、ネットワーク１２０と、翻訳サーバ１３０と、第三者１４０とを含み得る。

ユーザ１０５は、いかなる個人の又は公共のエンティティ、慈善のためのエンティティ、商業上のエンティティ、又は任意の他のエンティティであってもよい。ユーザ端末１１０は、ユーザ１０５にネットワーク１２０に対するインターフェースを与えるためにコンピュータ実行プロセスを実行する一つ又は複数のデータ処理システムであり得る。ユーザ端末１１０は、例えば、パーソナルコンピュータ、ミニコンピュータ、マイクロプロセッサ、ワークステーション、又は、当技術分野で一般的に使用される同様のコンピュータプラットフォームを含む一つ又は複数のコンピュータシステムとして実現され得る。あるいは、ユーザ端末１１０は、例えば、テレビ放送を受信及び表示するための「セットトップボックス」、テレビ電話、携帯電話、パーソナルデジタルアシスタント、又はビデオゲーム機器を含む特定のコンピューティングシステム内に組み込まれ得る。ユーザ端末１１０は、ユーザの家、会社、公共の売店、又は携帯機器に設置され得る。

ネットワーク１２０は、少なくともユーザ端末１１０と翻訳サーバ１３０との間に情報を伝達する一つ又は複数のネットワークであり得る。ネットワーク１２０は、データ、テキスト、画像、音声及びビデオを含む情報を伝達するためのどのようなタイプのネットワークであってもよい。いくつかの例において、ネットワーク１２０は、翻訳サーバ１３０からユーザ端末１１０へとリアルタイムで送信される目下の視覚的コンテンツに対して十分な帯域幅を有する。ネットワーク１２０は、共用回線ネットワーク、公衆ネットワーク、プライベートネットワーク、クライアント−サーバネットワーク、又はピアトゥピアネットワークであり得、これらはワイドエリア又はローカルエリアを包含し、エキストラネット、イントラネット、インターネット、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、公衆交換電話網（ＰＳＴＮ）、統合デジタル通信サービス網（ＩＳＤＮ）、無線リンク、地上無線ネットワーク、ケーブルテレビネットワーク、衛星テレビネットワーク、及び、任意の他の有線もしくは無線通信ネットワークを含む。更に、ネットワーク１２０は、情報を交換するために該システム環境の構成要素によって使用されるいかなるタイプの通信プロトコル、例えば、伝送制御／インターネットプロトコル（ＴＣＰ／ＩＰ）、ハイパーテキスト転送プロトコル（ＨＴＴＰ）、セキュアハイパーテキスト転送プロトコル（ＨＴＴＰＳ）、リアルタイムトランスポートプロトコル（ＲＴＰ）、リアルタイムストリーミングプロトコル（ＲＴＳＰ）、グローバル・システム・フォー・モバイル・コミュニケーションズ（ＧＳＭ）、符号分割多元接続（ＣＤＭＡ）ワイヤレスフォーマット、ワイヤレスアプリケーションプロトコル（ＷＡＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、ファイル転送プロトコル（ＦＴＰ）、高帯域ワイヤレスプロトコル（例えばＥＶ−ＤＯ、ＷＣＤＭＡ）、又は、ピアツーピアプロトコル等とも適合し得る。ネットワーク１２０は、一つ又は複数のサービスプロバイダ、例えば、インターネットサービスプロバイダ（ＩＳＰ）、有線／無線電話サービスプロバイダ、ケーブルもしくは衛星テレビプロバイダ、ＷＡＮもしくはＬＡＮのオペレータ、又は、ポイントツーポイントのオペレータによって提供され得る。

翻訳サーバ１３０は、例えば、パーソナルコンピュータ、ミニコンピュータ、マイクロプロセッサ、ワークステーション、又は、当技術分野で一般的に使用される同様のコンピュータプラットフォームを含む一つ又は複数のコンピュータシステムであり得る。翻訳サーバ１３０は、以下に更に述べるように、ネットワーク１２０によってユーザ端末１１０に翻訳サービスを提供するため、コンピュータ実行可能命令を実行する。

第三者１４０は、個人、別のコンピュータ、テレビ、電話、映画館等であり得る。ある場合には、ユーザ１０５は、ユーザ端末１１０を用いて第三者１４０から情報を受信し得る。例えば、第三者１４０は映画館であり得、ユーザ１０５は、第三者１４０が伝えている、映画の登場人物間の会話等のどのような情報でも翻訳したいであろう。

図１に例示される要素１０５−１４０間の全体的なインタラクション（対話もしくは相互作用）はつぎのとおりである。第三者１４０は、映画の再生であろうと無線送信音声であろうと、単語並びに雑音から成る音声を送信し得る。ユーザ１０５は、第三者１４０から送信される音声を取り込むためにユーザ端末１１０を使用する。第三者１４０が音声を送信しながら、ユーザ端末１１０は、ネットワーク１２０を通じて取り込んだ温際を翻訳サーバ１３０に送る。翻訳サーバ１３０は、次いで、翻訳サービスをユーザ端末１１０に提供し得る。翻訳サーバ１３０は、最初に前記取り込んだ音声をテキストに翻訳し、該取り込んだ音声に対応する該テキストをユーザ端末１１０に送り返し得る。翻訳サーバ１３０はまた、前記テキストのコンテンツをＡＳＬに翻訳し得る。一旦翻訳サーバ１３０が取り込んだ音声をテキスト及びＡＳＬに翻訳したら、翻訳サーバ１３０は該テキストを対応するＡＳＬ動画と共にユーザ端末１１０へと送信し得る。

図１に例示されるように、システム環境１００は、単一のユーザ１０５と、ユーザ端末１１０と、ネットワーク１２０と、翻訳サーバ１３０と、第三者１４０とを含む。しかしながら、当業者には容易に理解されるように、実際の実施形態は、複数のネットワーク間でデータを共有する複数のネットワーク相互接続点によって複数のネットワークを介してリンクされる複数のユーザ、複数のユーザ端末、複数のサーバ、及び／又は複数の第三者を含み得る。翻訳サーバ１３０はまた、ユーザ端末１１０に組み込まれ得、ネットワーク１２０の必要性を無くす。

図２は、ユーザ１０５にネットワーク１２０を介して翻訳サーバ１３０に対するインターフェースを提供する模範的なユーザ端末１１０を例示するブロック図を与える。ユーザ端末１１０は、コントローラ２１０と入力／出力装置２５０を含み得る。コントローラ２１０は、ここに記述される好ましい実施形態のある側面と整合する機能を提供するために一つ又は複数の記憶装置に格納されるコンピュータ命令を実行する一つ又は複数の制御演算装置であり得る。コントローラ２１０は、例えば、中央処理装置（ＣＰＵ）２１５と、メモリ２１６と、ネットワークインターフェース２１８と、ビデオインターフェース２２０と、音声インターフェース２２２と、通信インターフェース２２４と、データ記憶装置２３０とを含み得る。

ＣＰＵ２１５は、例えばメモリ２１６及び／又はデータ記憶装置２３０に記憶される実行可能な命令及びデータを用いてユーザ端末１１０に制御機能及び処理機能を提供する。図２は単一のＣＰＵ２１５を例示するが、コントローラ２１０は複数のＣＰＵを含み得る。ＣＰＵ２１５は、例えば、コプロセッサ、メモリ、レジスタ及び／又は他の処理デバイス及びシステムを適宜含み得る。ＣＰＵ２１５は、既製のマイクロプロセッサ（例えばインテルペンティアム（登録商標））等のどのような慣用のプロセッサであってもよく、又は、ユーザ端末１１０に特に適合された特定用途向け集積回路でもあり得る。

メモリ２１６は、ＣＰＵ２１５によって実行される際、ここに記述したプロセスを実行するデータ及び命令を格納する一つ又は複数の記憶素子であり得る。メモリ２１６は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、電気的消却及びプログラム可能ＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、光ディスク、磁気ディスク等の半導体及び磁気記憶装置を含み得る。ユーザ端末１１０がデータ記憶装置２３０にインストールされたアプリケーションを実行する場合、ＣＰＵ２１５は、命令の少なくとも一部をデータ記憶装置２３０からメモリ２１６へとダウンロードし得る。

ネットワークインターフェース２１８は、ＣＰＵ２１５とネットワーク１２０との間に送られる情報を翻訳するように構成された一つ又は複数のハードウエア及び／又はソフトウエアコンポーネントであり得る。例えば、ネットワークインターフェース２１８は、モデム又はローカルエリアネットワーク（ＬＡＮ）ポートであり得る。ネットワークインターフェース２１８は、例えば、イーサネット（登録商標）、ワイヤレス・フィディリティ（ＷｉＦｉ）、トークンリング、非同期転送モード（ＡＴＭ）、又はＩＳＤＮを含むいかなる電気通信もしくはデータネットワークをもサポートし得る。あるいは、ネットワークインターフェース２１８は、通信インターフェース２２４を通じてコントローラ２１０に接続される外部装置であり得る。

ビデオインターフェース２２０は、ＣＰＵ２１５とビデオ出力装置２５２との間で交換される情報を翻訳するためのどのような装置であってもよい。ベクトルベースのフラッシュ（登録商標）動画も用いられ得る。ビデオインターフェース２２０は、ベクトルベースのアートワークのライブラリを含む得る。ベクトルベースのアートワークは、ビデオ出力部２５２を介してＡＳＬコンテンツを表示するためにアニメ化され得る。ＡＳＬアニメーションデータベース３４６はまた、動画命令を提供し得る。例えば、操り人形に類似して、物理的操り人形がビデオ出力部２５２に存在し得、糸を動かすであろう情報及び動作がＡＳＬアニメーションデータベース３４６からもたらされ得る。ビデオインターフェース２２０がハードウエアデバイスとして記述されるが、これは、実装されたソフトウエア、ファームウエア又はこれらの組合せであってもよい。

音声インターフェース２２２は、ＣＰＵ２１５と音声入力装置２５６との間の情報交換を可能にするためのどのような装置であってもよい。更に、音声インターフェース２２２は、圧縮形式（例えばＭＰ３）で格納された音声データを解凍するためのＣＯＤＥＣを含み得る。音声インターフェース２２２はハードウエアデバイスとして記述されるが、これは、ソフトウエア、ファームウエア、又はこれらの組合せに完全に実装され得る。

通信インターフェース２２４は、コントローラ２１０と入力／出力装置２５０を含む外部装置との間でデータを交換するための一つ又は複数のインターフェースを提供する。通信インターフェース２２４は、例えば、シリアルポート（例えば、ＲＳ−２３２、ＲＳ−４２２、ユニバーサルシリアルバス（ＵＳＢ）、ＩＥＥＥ−１３９４）、パラレルポート（例えばＩＥＥＥ１２８４）、又はワイヤレスポート（例えば、赤外線、紫外線もしくは無線周波数トランシーバ）を含み得る。ある実施形態において、音声、ビデオ、及び／又はネットワークデータは、通信インターフェース２２４を通じてＣＰＵ２１５により交換され得る。

データ記憶装置２３０は、ユーザ端末１１０のための記憶装置を提供し得る。データ記憶装置２３０は、例えば、磁気ディスクドライブ、光ディスクドライブ、フラッシュメモリ、又は情報を恒久的に格納可能な他のデバイスを含む種々のコンポーネント（構成要素）もしくはサブシステムによって実現され得る。更に、データ記憶装置２３０はユーザ端末１１０内に示されるが、データ記憶装置２３０は、ユーザ端末１１０の外部に実現され得る。データ記憶装置２３０は、翻訳サーバ１３０と通信するため、ユーザ端末１１０に対するプログラムコード及びデータを含み得る。更に、データ記憶装置２３０は、オペレーティングシステム２４２、ブラウザモジュール２４４、ビューワモジュール２４６、及び音声モジュール２４８のためのプログラム命令及びデータを含み得る。

模範的な入力／出力装置２５０は、ビデオ出力部２５２、音声入力部２５６及びユーザ入力部２６０を含む。ビデオ出力部２５２は、例えば、陰極線管（ＣＲＴ）、液晶表示（ＬＣＤ）ディスプレイ、発光ダイオードディスプレイ（ＬＥＤ）、プラズマディスプレイ、又は電子発光ディスプレイ等の視覚情報を表示するためのどのようなデバイスであってもよい。音声入力装置２５６は、スピーカー、ヘッドホン、イヤホン、又は、可聴音を電気信号に変換する他の音声変換器であり得る。ユーザ入力装置２６０は、ユーザ１０５のコマンドをユーザ端末１１０へと伝達するどのような慣用装置であってもよく、キーボード、キーパッド、コンピュータマウス、タッチスクリーン、トラックボール、スタイラス、スクロールホイール、ジョイスティック、テレビリモートコントローラ、又は、音声認識コントローラを含む。

図２に例示されるコンポーネントの構成もしくは関係は模範的なものである。ユーザ端末１１０のコンポーネントは、動作可能に接続される独立したコンポーネントであり得、又は、これらコンポーネントは、上述したコンポーネントのいくつか又はすべての機能込みで単一のデバイス内に組み込まれ得る。例えば、入力／出力装置２５０は、パーソナルコンピュータ又はホームエンターテイメントシステム等の汎用コントローラ２１０に分離可能に接続される別個のハウジング内の複数の独立したデバイスであり得る。他の実施形態において、コントローラ２１０及び入力／出力装置２５０は、特化されたコントローラ２１０を有する単一のハウジング内、例えば携帯電話等内に組み込まれ得る。当業者は、ユーザ端末１１０の特定の実装の要求に基づきコンポーネントの異なる構成を選択し得、これは、コスト、サイズ、速度、フォームファクタ、容量、携帯性、消費電力、及び信頼性（これらに限定されない）を含む要因に対する考慮を与える。

図２に更に例示されるように、ユーザ端末１１０は、端末ソフトウエアプロセス２４０を実行し得る。ソフトウエアプロセス２４０を提供するコンピュータ実行可能命令は、メモリ２１６及び／又はデータ記憶装置２３０に格納され得、また、例えば、オペレーティングシステム２４２、ブラウザモジュール２４４、ビューワモジュール２４６、及び音声モジュール２４８を含み得る。

オペレーティングシステム２４２は、命令の実行、メモリ、データ記憶、デバイス（装置もしくは機器）、セキュリティ、及び／又はネットワーク通信を管理するためにＣＰＵ２１５によって実行されるコンピュータ実行可能命令を含み得る。更に、オペレーティングシステム２４２は、ユーザ１０５が、ビデオ出力部２５２、音声入力部２５６及びユーザ入力部２６０を介してユーザ端末１１０と対話（インタラクト）することを可能にするユーザインターフェースを提供し得る。例えば、ユーザインターフェースは、コンピュータディスプレイに表示されるグラフィックスユーザインターフェースであり得、ユーザ１０５は、マイクロソフト社が製造するウィンドウズ（登録商標）において提供されるように、上記ディスプレイを通じて、コンピュータマウス及びキーボードにより情報を入力することによって対話する。あるいは、ユーザインターフェースは、セットトップボックスが発生させテレビに表示されるオンスクリーン（画面上）メニューであり得る。該メニューを通じて、ユーザ１０５は、ワイヤレス遠隔コントローラを用いて情報を入力することにより対話する。

ブラウザモジュール２４４（別のタイプのユーザインターフェース）は、ユーザ１０５が、例えば翻訳サーバ１３０及び／又は他のネットワークサーバがホストする画像及び文書を見てかつインタラクトすることを可能にするため、ＣＰＵ２１５によって実行されるコンピュータ実行可能命令を含む。例えば、ブラウザモジュール２４４は、ハイパーテキストマークアップ言語（ＨＴＭＬ）又はその変形を用いてフォーマットされたコンテンツによりウェブページ（インターネットのワールドワイドウェブ上においてアクセス可能なドキュメント）を表現するためのウェブブラウザであり得る。そのようなページは、ユーザインターフェースをも提供し得、また、ハイパーテキスト転送プロトコル（ＨＴＴＰ）を用いて記憶装置又はウェブサーバから取り込まれ得る。ある実施形態において、ブラウザモジュール２４４は、マイクロソフト社によるエクスプローラ又はアップルコンピュータ社によるサファリ等の第三者ブラウザであり得る。他の実施形態において、ブラウザモジュール２４４は、ケーブルテレビネットワークに接続されるセットトップボックス等の特定のユーザ端末１１０及び／又はネットワーク１２０に対して適合され得る。

ビューワモジュール２４６は、ビデオ出力部２５２を通じて視覚的コンテンツ並びにテキストを見るためにＣＰＵ２１５によって処理されるコンピュータ実行可能命令を含み得る。ビューワモジュール２４６は、視覚的コンテンツ及び媒体の他のフォームの再生、記録、巻き戻し、リビュー（再表示もしくは見直し）、頭出し、送り、及び一時停止のための制御を提供し得る。ある実施形態において、ビューワモジュール２４６は、マイクロソフト社が製造したウィンドウズ（登録商標）メディアプレーヤー、アップル社が公表したクイックタイム、もしくはマクロメディアによるフラッシュ等の第三者媒体ビューワであり得る。他の実施形態において、ビューワモジュール２４６は、ブラウザモジュール２４４と統合されて統一ブラウザを形成し、また見直される。他の実施形態において、これらのモジュールは分離され得るが、要請により共に動作し得る。

音声モジュール２４８は、ユーザ１０５及び／又は第三者１４０から音声を受信して記憶するためにコントローラ２１０によって実行されるコンピュータ実行可能命令を含む。例えば、ユーザ１０５は、第三者１４０から送信された音声に対応する実際の言葉及び動画を見ることを欲し得る。音声モジュール２４８は、ユーザ端末１１０を通じて第三者１４０から音声を取り込み得る。

図２に示されるソフトウエアモジュール２４２〜２４８の構成もしくは関係は、模範的なものである。本発明のある側面によれば、端末ソフトウエアプロセス２４２〜２４８は独立の（複数）アプリケーションであり得、又は、これらは、モジュールのいくつか又はすべての機能を含む単一のアプリケーション内に組み込まれ得る。

図３は、模範的な翻訳サーバ１３０のブロック図を提供し、翻訳サーバ１３０は、一つ又は複数のコンピュータ記憶素子に格納されたソフトウエアモジュールを実行する一つ又は複数の処理装置であり得る。翻訳サーバ１３０は、コントローラ３１０、ネットワークインターフェース３３６及びデータ記憶装置３４０を含むサーバシステムを含むシステムを備え得る。

コントローラ３１０は、一つ又は複数の汎用コンピュータシステムであり得、汎用コンピュータシステムは、例えば、パーソナルコンピュータ、ミニコンピュータ、マイクロプロセッサ、ワークステーション、又は、当業界に一般的に使用される同様のコンピュータプラットフォームを含む。コントローラ３１０は、データ及び命令を格納し実行するための及ＣＰＵ及びメモリから成り得る。ＣＰＵは、どのような慣用のコントローラであってもよく、例えば、既製のマイクロプロセッサ（例えばインテルペンティアム（登録商標））もしくは特定の翻訳サーバ１３０に適用される特定用途向け集積回路等である。ＣＰＵは、コンピュータメモリ及び／又はデータ記憶装置３４０に格納された命令及びデータを処理し得る。メモリは、データを記憶する一つ又は複数の記憶素子であり得、また、コントローラ３１０によって実行される際、本発明に関連するある側面と整合する処理を実行するオペレーティングシステム及びソフトウエアモジュールを含む。これらの記憶素子は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、光ディスク、磁気ディスク等の半導体メモリ及び磁気記憶装置を含み得る。ネットワークインターフェース３３６は、例えば、イーサネット（登録商標）、ＷｉＦｉ、トークンリング又は光ファイバー分散データインタフェースを含むどのような電気通信ネットワーク又はデータネットワークをもサポートし得る。データ記憶装置３４０は、コントローラ３１０によって用いられるデータ及び実行可能命令を格納する一つ又は複数の記憶素子であり得る。

データ記憶装置３４０は、音声データベース３４２と、ＡＳＬコンテンツデータベース３４４と、ＡＳＬ動画データベース３４６とを含み得る。音声データベース３４２は、単語、連結単語及びテキストから種々のノイズまでの音声の一般的なカテゴリーに関連する情報を含む記録を格納し得る。音声データベース３４２はまた、各音声に対応する、該音声を記述する（言葉で表す）テキストを格納し得る。例えば、cough（咳（せき））の音声に対し、音声データベース３４２は、対応テキストとして「cough（咳）」を格納し得る。別の例では、単語「hello（こんにちは）」に対し、音声データベース３４２は、対応テキストとしてテキスト「hello（こんにちは）」を格納し得る。

ＡＳＬコンテンツデータベース３４４は、コンテンツフレーズ、及び、このフレーズに対する翻訳されたＡＳＬカウンターパート（対応するもの）を記述する情報を含む記録を格納し得る。ＡＳＬ動画データベース３４６は、ＡＳＬコンテンツデータベース３４４に格納された種々のコンテンツフレーズと関連する視覚的コンテンツを格納し得る。各コンテンツフレーズに対し、ＡＳＬコンテンツデータベース３４４は、まるで人がそのフレーズを話し口にしているようにこのフレーズを表示する人の口もしくは唇を表す対応動画を格納し得る。ＡＳＬコンテンツデータベース３４４はまた、英単語のスペルをつづることによってＡＳＬフレーズを手話で表現する手の対応動画、並びに、ＡＳＬコンテンツの手、腕及び顔の動きを強調するアニメのキャラクタの対応動画を格納し得る。ＡＳＬコンテンツデータベース３４４はまた、アルファベットのすべての文字並びに数字のＡＳＬ動画を格納し得る。

例えば、ＡＳＬコンテンツデータベース３４４は、文字「Ａ」、「Ｂ」、「Ｃ」等に対応するＡＳＬ動画、並び「０」から「９」の各番号に対するＡＳＬ動画を格納する。ＡＳＬコンテンツデータベース３４４は、グラフィカルＡＳＬ動画、並びに、単語「hello（こんにちは）」に対する読唇（唇の動きで言葉を読む）動画を格納し得る。更に、ＡＳＬコンテンツデータベース３４４は、コンテンツフレーズ「how are you?（元気ですか）」に対する単一のＡＳＬ動画を格納し得る。上記のデータベース各々は以下に更に記述される。

図３に更に例示されるように、コントローラ３１０は、とりわけリアルタイム翻訳サービスを提供するために複数のソフトウエアプロセス３２０を実行し得、リアルタイム翻訳サービスは、ここに記述される好ましい実施形態を実現する。ソフトウエアプロセス３２０を提供するコンピュータ実行可能命令は、コンピュータメモリ及び／又はデータ記憶装置３４０に格納され得、ソフトウエアプロセス３２０は、オペレーティングシステム３２２、サーバモジュール３２４、音声−テキストモジュール３２８、コンテンツ−ＡＳＬモジュール３３０、ＡＳＬ−動画モジュール３３２、及び、テキスト及び動画ディスプレイモジュール３３４を含む。

オペレーティングシステム３２２は、命令の実行、メモリ、データ記憶、デバイス、セキュリティ、及び／又はネットワーク通信を管理するためにコントローラ３１０によって実行されるコンピュータ実行可能命令を含み得る。更に、オペレーティングシステム３２２は、マイクロソフト社が製造するウィンドウズ（登録商標）に設けられるようなユーザインターフェースを提供し得る。

サーバモジュール３２４は、ユーザ端末１１０及び／又は第三者１４０からネットワーク１２０によりデータトラフィックを受信しかつ送信するためにコントローラ３１０によって実行されるコンピュータ実行可能命令を含み得る。例えば、サーバモジュール３２４は、ユーザ端末１１０がブラウザモジュール２４４によりアクセスし得る標準ウェブサーバ、例えばアパッチウェブサーバであり得る。

音声−テキストモジュール３２８は、本発明の実施形態と整合する、取り込んだ音声をテキストに変換するためにコントローラ３１０によって実行されるコンピュータ実行可能命令を含み得る。音声−テキストモジュール３２８は、ユーザ端末１１０によって取り込まれた音声に対応するテキストを発生させるように機能する。音声−テキストモジュール３２８は、上記音声を取り込み得、次いで、音声データベース３４２を検索し、更に、該音声に対応するテキストをサーチし得る。

テキスト−コンテンツモジュール３２９は、音声−テキストモジュール３２８からの上記テキストをコンテンツに変換するためにコントローラ３１０によって実行されるコンピュータ実行可能命令を含み得る。テキスト−コンテンツモジュール３２９は、ＡＳＬコンテンツデータベース３４４を検索して、該テキストに対応するコンテンツをサーチし得る。

コンテンツ−ＡＳＬモジュール３３０は、上記テキストのコンテンツをＡＳＬへと変換するためにコントローラ３１０によって実行されるコンピュータ実行可能命令を含み得る。コンテンツ−ＡＳＬモジュール３３０は、翻訳されたテキストからコンテンツを形成するように機能すると共に、該コンテンツが形成された後、このコンテンツをＡＳＬに変換する。コンテンツ−ＡＳＬモジュール３３０は、上記テキストをコンテンツに変換した後、対応するＡＳＬ同等物を求めて、ＡＳＬコンテンツデータベース３４４でコンテンツフレーズを検索し得る。

ＡＳＬ−動画モジュール３３２は、上記テキストのコンテンツのＡＳＬ同等物をこのコンテンツに対応するＡＳＬ動画に変換するためにコントローラ３１０によって実行されるコンピュータ実行可能命令を含み得る。テキスト及び動画ディスプレイモジュール３３４は、テキスト−コンテンツモジュール３２９からテキストを表示し、かつＡＳＬ−動画モジュール３３２から一つ又は複数のＡＳＬ動画を表示するためにコントローラ３１０によって実行されるコンピュータ実行可能命令を含み得る。

模範的な一実施形態において、音声−テキストモジュール３２８、テキスト−コンテンツモジュール３２９、コンテンツ−ＡＳＬモジュール３３０、ＡＳＬ−動画モジュール３３２、及び、テキスト及び動画ディスプレイモジュール３３４はすべて、別個のサーバに存在（常駐）するものとは対照的に、ユーザ端末１１０のコントローラ２１０に存在し得る。

図４は、本発明に関連する翻訳プロセスを例示するフローチャートを示す。ユーザ端末１１０は、最初に、第三者１４０から送信された音声を音声モジュール２４８を用いて取り込み得る（ステージ４１０）。第三者１４０が採るフォーム（形式）に応じて、異なるタイプの音声が取り込まれ得る。例えば、第三者１４０が人間であるなら、取り込まれた音声は会話又は単語（一言）の形式であり得る。第三者１４０が映画スクリーン又はテレビであるなら、音声は、単語（言葉）並びに他の音声（いかなる単語をも含まないが、例えば、車のクラクション、ドアベルもしくはノック等の認識可能な音声を単に表す音声等）を表し得る。当業者は、他の音声があり得、そのリストが上記例に限定されないことを理解するであろう。音声モジュール２４８は、音声を連続的に取り込み、これをネットワーク１２０を通じて翻訳サーバ１３０にリアルタイムに送信し得る。

翻訳サーバ１３０は、次いで、取り込んだ音声をテキストへと変換し得る（ステージ４２０）。翻訳サーバ１３０は、該音声を音声−テキストモジュール３２８を用いて変換し得る。音声−テキストモジュール３２８は、取り込んだ各音声を取り、該音声を音声データベース３４２で検索し、この音声に対応するテキストを見つけ出し得る。音声−テキストモジュール３２８は、例えば、どの音声もしくはスピーチ認識ソフトウエア（カリフォルニア州キューパーティーノ所在のアップルコンピュータ社が提供するアップル音声認識等）によっても実行され得る。

翻訳サーバ１３０が取り込まれた音声をテキストに変換した後、翻訳サーバ１３０は、該テキストのコンテンツを英語コンテンツへと変換し（ステージ４２１）、英語コンテンツからＡＳＬコンテンツへと変換し得る（ステージ４３０）。翻訳サーバ１３０は、該コンテンツをコンテンツ−ＡＳＬモジュール３３０を用いてＡＳＬへと変換し得る。コンテンツ−ＡＳＬモジュール３３０は、最初に、これらテキスト単語の一つ又は複数をグループ化し、これらを、これらが伝える意味（該フレーズの全コンテンツ）を求めて検査する。このコンテンツは、次いで、別の言語（例えばＡＳＬ）の別のフレーズに翻訳される。この翻訳された文はまた、ＡＳＬ文法構造に従う単語のシーケンスによって定義されるであろう。

翻訳サーバ１３０は、次いで、翻訳されたＡＳＬ文をＡＳＬ文を表す動画に変換し得る（ステージ４４０）。各ＡＳＬフレーズに対し、ＡＳＬ−動画モジュール３３２は、対応する動画を見つけ出すためにＡＳＬ動画データベース３４６において該フレーズを検索し得る。ＡＳＬ−動画モジュール３３２は、各ＡＳＬコンテンツフレーズを、このフレーズを表す動画へと変換し得る。ＡＳＬ−動画モジュール３３２はまた、各ＡＳＬコンテンツフレーズをアニメ化されたキャラクタへと変換し得る。該キャラクタは、該コンテンツがＡＳＬの手話で表現される際、手、腕及び顔の動きを強調する。

コンテンツ−ＡＳＬモジュール３３０はまた、音声−テキストモジュール３２８によって翻訳された各英単語を、該英単語のつづりを表す単一ＡＳＬ動画へと変換し得る。例えば、音声−テキストモジュール３２８が単語「dog（犬）」を取り込んだなら、コンテンツ−ＡＳＬモジュール３３０は、該単語の各文字に対応するＡＳＬ同等物を求めて、ＡＳＬ動画データベース３４６において各文字を検索し得る。文字Ｄ−Ｏ−Ｇを表すテキストはディスプレイモジュール５１０で表され、文字Ｄ−Ｏ−Ｇの指文字で表現した動画はディスプレイモジュール５４０に表され、更に、同英単語の唇動画は、唇動作を介してディスプレイモジュール５２０に表されるであろう（５１０、５４０及び５２０は図５に示される）。

最後に、翻訳サーバ１３０は、ユーザに対し、動画及び随意的にテキストを表示し得る（ステージ４５０）。翻訳サーバ１３０は、音声−テキストモジュール３２８によって変換されたテキスト、並びに、ＡＳＬ−動画モジュール３３２によって変換されたテキストのコンテンツの動画同等物を表示し得る。該動画は、単語を読む唇動画と、単語のつづりを手話で表現する手動画と、上述したような、ＡＳＬ言語のコンテンツを手話で表現するアニメ化されたキャラクタとから構成され得る。翻訳サーバ１３０は、テキスト及び動画を、ユーザ端末１１０におけるベクトルベースの動画としてリアルタイムで表示し得る。

図５は、本発明の実施形態に整合する模範的なグラフィカル翻訳者エージェント５００を例示する図を提供する。テキスト及び動画ディスプレイモジュール３３４は、ネットワーク１２０を介してユーザ端末１１０によりアクセス可能なグラフィカル翻訳者エージェント５００を発生させ得る。例えば、グラフィカル翻訳者エージェント５００は、ＸＭＬ及び／又はＨＴＭＬを通じて生じる対話型（インタラクティブ）ユーザインターフェースであり得、また、ネットワークブラウザモジュール２４４によってインタラクティブウェブページとしてユーザ１０５に表示され得る。あるいは、グラフィカル翻訳エージェント５００は、カリフォルニア州サンフランシスコ所在のマクロメディア社が提供するフラッシュを用いて発生させられ得る。グラフィカル翻訳エージェント５００はまた、テキストスクロール５１０、単語リップリード５２０、ビデオコントロール５３０、単語スペリング５４０、アニメ化キャラクタ５５０、及びディスプレイカスタマイゼーション５６０を含む。

グラフィカル翻訳エージェント５００はまた、インタラクティブユーザインターフェースを提供し、ユーザ１０５が第三者１４０から取り込んだ音声に関連するテキスト及びビジュアルコンテンツを見て操作することを可能にする。音声−テキストモジュール３２８が取り込んだ音声をテキストへ翻訳した後、対応するテキストがグラフィカル翻訳エージェント５００によってテキストスクロール５１０に表示される。新規な音声又は話言葉がテキストに翻訳された際、テクストスクロール５１０は自動的に更新する。

テキストが表示される際、該テキストによって表示される単語の各文字のつづりのＡＳＬ同等物も、ＡＳＬ−動画モジュール３３２が該単語の各文字に対するＡＳＬ動画を決定した後、ワードスペリング５４０に表示される。例えば、テキストスクロール５１０に表示されている単語が「cat（猫）」の場合、ＡＳＬ−動画モジュール３３２は、「cat（猫）」の各文字をＡＳＬ動画データベース３４６において検索し、単語指スペリング５４０及びリップリーディング５２０において各文字に対するＡＳＬ動画を表示し得る。

更に、既述したように、ＡＳＬ−動画モジュール３３２は、各ＡＳＬコンテンツフレーズを、該コンテンツの手、腕及び顔の動きを強調するアニメ化キャラクタによって手話で表現されるＡＳＬへと変換し得る。そのため、英語テキスト及び単語のつづりの同等物が表示されている際、英単語のリップリードグラフィックも単語リップリード５２０に表示されると共に、コンテンツフレーズのＡＳＬ同等物を手話で表現するアニメ化キャラクタもアニメ化キャラクタ５５０に表示される。

グラフィカル翻訳エージェント５００は、ユーザが既に表示されたテキストもしくは動画を一時停止もしくは巻き戻しすることを可能にするビデオコントロール５３０を含み得る。グラフィカル翻訳エージェント５００は、ディスプレイカスタマイゼーション５６０を含み得る。ディスプレイカスタマイゼーション５６０は、ユーザがグラフィカル翻訳エージェント５００の種々のコンポーネントの大きさを変更することを可能にし得る。追加のカスタマイゼーション及びビジュアルエンハンスメントは、ディスプレイサイズ、動画速度、文と文との間の間隔、カラーコントラス等をカスタマイズすることにより、異なる種類の認知障害及び視覚障害にとっての可読性（読みやすさ）を可能にする。

単一のユーザインターフェース内に実現されているものとして、ディスプレイ５１０〜５６０を含むグラフィカル翻訳エージェント５００が図５に示されるが、当業者は、他の実施形態において各ディスプレイは別個のユーザインターフェースであり得、あるいは、一連の階層型ユーザインターフェース内にネストされ得ることを容易に認識するであろう。

例示目的のみのため、図１〜５に例示されるコンポーネントを参照して好ましい実施形態のある側面がここに記述される。しかしながら、例示されたコンポーネントの機能性は部分的に重なり得、より少ない又はより多い数の構成要素及びモジュールにて存在し得る。更に、例示された構成要素の機能性の全部又は一部は共存し得、又は、いくつかの地理学的に分散した位置間において分布し得る。更に、本発明の実施形態、特徴、側面及び原理は、種々の環境で実現され得、例示の環境には限定されない。

更に、図４に記述されるイベントのシーケンスは模範的なものであるが、これに限定することは企図されない。従って、他の方法ステップが使用され得、図４に示す方法によってでさえ、イベントの特定の順序が本発明の範囲を逸脱することなく変更し得る。更に、図４において、あるステップが存在しないかもしれず、また、追加のステップが実行され得る。また、ここに記述したプロセスは、いかなる特定の装置にも本質的に関連せず、コンポーネントのどのような適切な組合せによっても実現され得る。

本発明に整合する好ましい実施形態の上記説明は、すべての可能性のある実施形態又は記述した種々の実施形態のすべてのバリエーションのリストを包括的に表現していない。いくつかの実施形態のみの記述が他の実施形態又はバリエーションを排除することを企図すると解釈されるべきではない。当業者は、特許請求の範囲における本発明を、特許請求の範囲から逸脱しない等価物及び代替物を用いて多くの他のやり方で実現する方法を理解するであろう。更に、上記記述において反対の意味を示す場合を除き、実施形態に記述したどのコンポーネントも本発明には必須ではない。

１００システム環境
１０５ユーザ
１１０ユーザ端末
１２０ネットワーク
１３０翻訳サーバ
１４０第三者

Claims

ユーザ端末において第三者からの音声を取り込む工程にして、該音声が一つ又は複数の単語を含む該工程と、
前記一つ又は複数の単語を、該一つ又は複数の単語各々を表示するテキストに変換する工程と、
前記テキストを一つ又は複数のコンテンツフレーズに変換する工程にして、該コンテンツフレーズが前記一つ又は複数の単語の意味を表す該工程と、
前記一つ又は複数のコンテンツフレーズ各々を新規な言語に変換する工程と、
前記新規な言語を表す視覚的コンテンツを前記ユーザ端末において表示する工程とを含む方法。
前記新規な言語を前記視覚的コンテンツに変換する工程を更に含む請求項１の方法。
前記新規な言語はアメリカ手話言語である請求項１の方法。
前記第三者は、人間、テレビ、シアター、ラジオ、コンピュータ又は電話のうちの少なくとも一つである請求項１の方法。
前記視覚的コンテンツの提供は、サーバと前記ユーザ端末との間で通信リンクを確立する工程と、前記視覚的コンテンツを、ファイルのストリーミングにより前記ユーザ端末に送信する工程とを含む請求項１の方法。
前記視覚的コンテンツは、前記新規な言語に対応する少なくとも一つ又は複数の動画と、前記新規な言語に対応する視覚テキストとから成る請求項５の方法。
前記一つ又は複数の動画は、リップリードグラフィック、ハンド動画及びアニメ化キャラクタのうちの少なくとも一つを含む請求項６の方法。
前記音声は、一つ又は複数の、言葉にされていないノイズを更に含む請求項１の方法。
プロセッサによって実行可能な命令を格納するコンピュータ読取り可能媒体であって、該プロセッサによって実行される時、請求項１の方法を実行するように構成されるるコンピュータ読取り可能媒体。
ネットワークに接続され、少なくとも一つのユーザ端末によってアクセス可能な翻訳サーバを備え、
前記翻訳サーバは、
一つ又は複数の単語を含む音声を、該音声を表す視覚的コンテンツへと変換するリクエストをユーザ端末からネットワークにより受信し、
前記一つ又は複数の単語を該一つ又は複数の単語各々に対応するテキストにマッチングし、
前記テキストを、前記一つ又は複数の単語の意味を表す一つ又は複数のコンテンツフレーズに変換し、
前記一つ又は複数のコンテンツフレーズ各々を新規な言語に変換し、かつ、
前記新規な言語を表す視覚的コンテンツを前記ユーザ端末に送信するように構成されるシステム。
前記翻訳サーバは更に、前記新規な言語を前記視覚的コンテンツに変換するように構成される請求項１０のシステム。
前記新規な言語はアメリカ手話言語である請求項１０のシステム。
前記第三者は、人間、テレビ、シアター、ラジオ、コンピュータ又は電話のうちの少なくとも一つである請求項１０のシステム。
前記翻訳サーバは更に、サーバと前記ユーザ端末との間で通信リンクを確立し、かつ、前記視覚的コンテンツを、ファイルのストリーミングにより前記ユーザ端末に送信するように構成される請求項１０のシステム。
前記視覚的コンテンツは、前記新規な言語に対応する少なくとも一つ又は複数の動画と、前記新規な言語に対応する視覚テキストとから成る請求項１４のシステム。
前記一つ又は複数の動画は、リップリードグラフィック、ハンド動画及びアニメ化キャラクタのうちの少なくとも一つを含む請求項１５のシステム。
前記音声は、一つ又は複数の、言葉にされていないノイズを更に含む請求項１５のシステム。