JP4378284B2

JP4378284B2 - ワールド・ワイド・ウェブからの情報を使用してライブ・スピーチの機能を拡張するためのシステムおよび方法

Info

Publication number: JP4378284B2
Application number: JP2004538824A
Authority: JP
Inventors: インセルティス、カッロ、フェルナンド
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2002-09-27
Filing date: 2003-07-23
Publication date: 2009-12-02
Anticipated expiration: 2023-07-23
Also published as: US20090228275A1; JP2006500665A; WO2004029831A3; TWI259970B; TW200414021A; US20050251394A1; US7505907B2; WO2004029831A2; CN1685339A; CN100530175C; KR100872191B1; KR20050047104A; AU2003267006A1; US7865367B2

Description

一般的に、本発明は、補足的な情報（complementary information）にアクセスする手段をライブ・イベントに組み込む技術に関する。より詳細には、本発明は、ワールド・ワイド・ウェブから入手できる情報を用いて、ライブ・スピーチや生放送番組などのライブ・イベントの機能を拡張するためのシステムおよび方法に関する。

（情報の必要性）
現代社会では、情報およびサービスに対する要求が、ますます高まってきている。例えば、講演者による講演会の聴衆（auditor）としてライブ・イベントに参加している観客や、ラジオ、テレビの生放送番組を視聴している視聴者（auditor）は、補足情報にアクセスすることを望んでいる。そのような補足情報としては、例えば、フットボール試合の選手の経歴、ニュース番組で言及された出来事の歴史的背景、オリンピック競技放送中の競技記録などが考えられる。

近年、人々は、ライブ・イベントの観客として現地で見聞きしたことや、生放送番組の視聴者として離れた場所で見聞きしたことに関し、現実により多くの情報を求めている。例えば、消費者は、広告された製品に関する特別なサービスの利用を希望している。また、メディア提供者は、消費者（より具体的には、テレビ、ラジオの生番組の視聴者）に提供されるサービスと情報の質を高め、量を拡大することによって、新しい利益の源泉を獲得できると考えている。さらに、広告のスポンサーは、より有効な新しい広告の形態を模索している。

（ウェブ上のオンライン・サービス）
ラジオやテレビの著しい進歩とはまた別に、ワールド・ワイド・ウェブ（ウェブ）で提供されるようなオンライン・サービスが、現在、社会に急速に出現し、広く使用されている。このようなオンライン・サービスは、インターネット技術を基礎とするものであり、対話ベースの大量の情報へのアクセスを提供するものである。インターネットは、コンピュータのグローバルなネットワークである。インターネットは、ＴＣＰ／ＩＰ（「伝送制御プロトコル／インターネット・プロトコル」）と呼ばれる言語を使用して、多種多様なオペレーティング・システムや言語をベースとするコンピュータを接続する。インターネットの規模や複雑さが増すにつれ、ユーザがネットワーク上で必要な情報を見つけることを支援するツールが開発されてきた。このようなツールは、「ナビゲータ」または「ナビゲーション・システム」と呼ばれることもある。ワールド・ワイド・ウェブ（「ＷＷＷ」または「ウェブ」）は、最新の優れたナビゲーション・システムである。このウェブは、インターネット・ベースのナビゲーション・システムであり、インターネットのための情報配信・管理システムであり、またウェブ上での通信のための動的なフォーマットである。

インターネットおよびウェブは、何百万人ものユーザに、相互にアクセスし情報を交換し、また相互に通信する機会を提供することによって、現代社会を変革しようとしている。画像、テキスト、音声、映像を統合することによって、グラフィカル・ユーザ・インターフェースを使用するウェブのユーザは、今日では、このシステム上の様々なコンピュータや様々なシステム・アプリケーションと、例えばテキスト、音声、グラフィックを含むファイルや文書のための様々な情報フォーマットを用いて透過的に通信することができる。現在、ウェブ上のオンライン・システムは、多種多様なサービスをユーザに提供する。そのようなサービスとして、例えば、プライベート・メッセージ・サービス、電子商取引、ニュース、リアルタイム・ゲーム、電子データベースへのアクセス、電子ニュースレター、企業間取引、職業紹介などが存在する。

このようなオンライン・サービスが利用可能な場合でも、ウェブ上で関連する情報を検索し、見つけ出すことは依然として骨の折れる仕事であり、経験のあるユーザにとっても何時間もかかることがある。明らかに、ウェブは本質的にオープンであり、マルチポイント対マルチポイント（multi-point to multi-point）のネットワークであり、ユーザは、多くの異なるサーバから様々な情報を選択し、取り出すことができる。実際には今日でも、ウェブとのオンライン対話の大部分は、例えばＵＲＬ（UniformResource Locator）名を入力したり、検索ツールにキーワードを入力したり、あるいはＨＴＭＬ（Hypertext Markup Language）文書中のテキスト形式のハイパーリンクを起動することによって、単にテキスト入力だけで行われている。近い将来、オーディオビジュアル・インターフェース（例えば、話し言葉によるインターフェースやウェブフォンの統合など）の開発により、オンライン環境でのテキスト形式の入力が徐々に支配的でなくなったとしても、ウェブの膨大さ、無秩序さ、でたらめさなどのために、ウェブは依然として使いにくいままである可能性が高い。はっきり言えば、ウェブには秩序も指示も存在しない。ほとんどの場合、情報は見つけにくいままである。さらに悪いことには、必要な情報を所望の文脈の中で見つけ出すことは、近い将来においてもやはり困難な仕事でありつづけるだろう。

（ライブ・スピーチでのオンライン・サービス）
マルチポイント対マルチポイントのウェブ・ネットワークとは異なり、聞き手（auditor）（話し手と同じ場所にいる聴衆、または遠隔地に存在するラジオ放送局やテレビ放送局を介してアクセスする視聴者）へのライブ・スピーチは、主に単一の発信者と複数の受信者からなる通信である。それぞれの聞き手は、近くの話し手から、あるいは遠隔地に存在する放送局を介して同一のコンテンツを受信する。

したがって、ライブ・スピーチにおいて、ウェブ上でアクセスできるサービスに類似したオンライン・サービスを提供することに関する第１の問題は、単一のソースから複数の受信者に、１人の提供者から複数の聞き手に、情報が連続して単方向に流れることである。聞き手との情報交換がまったく無ければ、通信フローは単方向に限定される。しかし、受け取った口頭情報と直接対話して、追加の情報またはサービスにアクセスすることはできない。

さらに、聞き手がライブ・スピーチを聞いているときの、聞き手にとっての問題は、興味のあるトピックを選択し、次いでネットワーク・アドレス（すなわち、ＵＲＬ）を識別して、選択したトピックに関連するマルチメディア情報またはサービスに（例えば、ウェブから）アクセスしなければならないことである。今日までに、この問題は部分的に解決されてきている。

口頭またはラジオの情報にウェブのような機能を提供するための解決策は、送信される放送音声信号、または別のチャネルに情報（例えば、ＵＲＬ）を埋め込むこと（サイマルキャスト（simultcast）すること）である。このようなシステムの例は、以下の特許に記載されている。すなわち、「Apparatus andmethod for initiating a transaction having acoustic data receiver that filtershuman voice」と題する米国特許第６１２５１７２号、「Method for controlling a computer with an audiosignal」と題する米国特許第６０９８１０６号、「Network linking method using steganographicallyembedded data objects」と題する米国特許第５８４１９７８号、「System, method and device forautomatic capture of Internet access information in a broadcast signal for useby an Internet access device」と題する米国特許第５８３２２２３号、「Media online services accessvia address embedded in video or audio program」と題する米国特許第５７６１６０６号、「Method forencoding and broadcasting information about live events using computer patternmatching techniques」と題する米国特許第５１８９６３０号、「Receiver apparatus and methods foridentifying broadcast audio program selections in a radio broadcast system」と題する米国特許第５１１９５０７号、または「Synchronizedpresentation of television programming and web content」と題する米国特許第６０６１７１９号である。

これらの特許に記載されたシステムおよび方法は、主プログラムの送信と同時に、それと同一の音声または映像信号上に符号化され、組み込まれ、もしくは変調される、あるいは別のチャネルで送信される補足情報（例えば、ＵＲＬ）の送信を必要とする。ラジオまたはテレビ局は、音声信号とともにこの補足情報を符号化し、変調し、かつ送信する手段を備える必要がある。ラジオの視聴者（auditor）またはテレビの視聴者は、この情報を受信するための特別な受信機およびデコーダ回路を備える必要がある。

上で論じた構成とは別に、聞き手が興味のあるトピック（すなわち、キーワードまたは文）を「事前に選択」しておき、そのトピックを事前に指定されたネットワーク・アドレス（すなわち、ＵＲＬ）に結びつけること可能にするシステムも開発されている。事前に指定されたネットワーク・アドレスは、事前に選択されたトピックに関連するマルチメディア情報またはサービスにアクセスするために使用される。一般的には、このようなシステムはすべて音声認識（speech recognition）技術をベースにしている。特定の音声の認識に応答して特定の動作を実施するように、この技術を使用してキーワード（すなわち、選択された単語または文）を識別する。このようなシステムの例は、以下の特許に記載されている。

「Keyword listening device」と題する米国特許第５９４６０５０号は、放送信号の音声部分を、キーワード・リスニング装置を用いて監視する方法およびシステムを開示している。ただし、この特許は、比較的限られたキーワードのセットだけを格納する。キーワード・リスニング装置は、このキーワードのいずれかを探して放送信号を監視する。１つまたは複数のキーワードのいずれかが認識されるとすぐに、放送音声信号をある期間録音し、次いで全体を解析する。解析の後で、記録され解析された放送音声信号に基づいて、指定されたアドレスによる外部ネットワークへの接続、ビデオ・カセット・レコーダの制御など、異なるいくつかの機能を実施することができる。

「Automatic recognition of audioinformation in a broadcast program」と題する米国特許第６０１１８５４号は、ラジオ局によって放送される（交通、天気、時刻、スポーツ、ニュースなどの）報道情報や最新情報を検索するための音声処理システムを開示している。検索は、ユーザが事前に選択し、音声処理システムに入力した（所望する報道に応じた「交通」、「天気」、「時刻」、「スポーツ」、「ニュース」のような）少なくとも１つのキーワードに基づいて行われる。音声処理システムで使用される音声認識ソフトウェアが、要求された情報報道を求めてラジオ局をスキャンしている間、ユーザは、他の音声ソース（ＣＤ、テープ、他のラジオ局の放送など）を、それらの音声ソースからの情報コンテンツをモニタ（すなわち、監視）することなく聴くことができる。ラジオ放送で使用される入力されたキーワードに基づいて、要求された情報報道が検出されると直ぐに、音声処理システムは、その音声出力を所望の放送を送信するラジオ局に切り換える。その結果、ユーザは適宜、交通、天気、時刻、スポーツ、ニュース、またはニュースあるいはそれらの任意の組合せの報道または最新情報を聴くことができる。

「Broadcast speech recognition system forkeyword monitoring」と題する米国特許第６３３２１２０号は、興味のある情報を探して放送音声が自動的にモニタされるシステムを開示している。このシステムは、興味ある事柄に関するキーワードからなる用語集を格納するためのメモリを備えたコンピュータ・プロセッサ、音声放送を受信するための音声受信機、および音声認識システムを備える。音声認識システムは、受信した音節中にキーワードの１つが現れたときにそれを検出するために、音声受信機およびコンピュータ・プロセッサと関連づけられている。レポート・ジェネレータは、コンピュータ・プロセッサに関連づけられており、キーワードの検出に応答して、検出されたキーワードおよびそのコンテキストに関連する詳細なレポートを作成する。

前記のシステムで、音声信号に組み込まれた（またはメイン・プログラムと同時に送信される第２の信号上の）補足情報の送信を必要としない場合でも、聞き手は、データ・ストリーム中のハイパーリンクされた語句（hyperlinked terms）の出現を検出するために、音声認識機能を備えた受信機を装備しなければならない。

音声処理の分野では、音声データ・ストリーム中の単語または文の出現を識別する機能のことを、一般に「ワード・スポッティング（word spotting）」と呼ぶ。音声ワード・スポッティングの目標は、事前の手入力なしに、デジタル化された連続音声ストリーム内の検索語句の境界を識別することである。例えば、不特定話し手によって発音されたライブ・スピーチを検索し索引付けすることは、特に難しい問題である。これは大部分、既存の自動音声認識技術の機能が限られていることに起因している。上で論じたシステムでは、ワード・スポッティング・タスクが、聞き手側で、話し手とは無関係に、語彙の制限なしに、しかも認識すべきデータ以外の音声データを使用して学習させた（train）音声モデルを使用して実施されることに留意されたい。

実際、あらゆるシステムで基本的に問題になるのは、未知のまたは一般的な話し方、語彙、雑音レベル、および言語モデルに基づいて、話し手とは無関係に、連続的に「ワード・スポッティング」（すなわち、予め指定されたキーワードまたは語句の識別）を実施するための最新音声認識技術の信頼性の無い挙動である。

既に述べたように、ユーザとの対話のレベルを向上し改善するとともに、より多くの情報を提供し、より多くの学習または娯楽の機会を提供するために、ここ数年の間に、いくつかの対話システム（例えば、対話型テレビ、ウェブＴＶなど）が開発されてきたが、それでもなお、ライブ・スピーチ（例えば、ラジオまたはテレビの放送から受信するライブ会議、またはライブ・インタビューなど）の聞き手は、重要な情報源、例えばウェブ上に存在している情報源にアクセスできないままの状態である。
米国特許第６１２５１７２号米国特許第６０９８１０６号米国特許第５８４１９７８号米国特許第５８３２２２３号米国特許第５７６１６０６号米国特許第５１８９６３０号米国特許第５１１９５０７号米国特許第６０６１７１９号米国特許第５９４６０５０号米国特許第６０１１８５４号米国特許第６３３２１２０号米国特許第５１９９０７７号米国特許第５４２５１２９号米国特許第５９５０１５９号米国特許第６００６１８５号米国特許第６０７３０９５号米国特許第６１８５５２７号米国特許第６２３０１２６号

したがって、ライブ・スピーチに参加している人々（あるいは、例えば生放送番組を受信している人々）が補足情報を選択し、その情報にアクセスすることを可能にする、使いやすく、シンプルな機構を提供することが求められている。

生放送番組の話し手および制作者が、スピーチの間（例えば、会議の間、あるいはラジオ、テレビの生番組の間）に発音される予定の（一般に、話し言葉、単語、または文から選ばれる）選択された語句から、関連づけられたウェブ上のデータへのハイパーリンクを、従来の単一方向放送信号中にそれらのハイパーリンクを組み込むことなく、より一般的には、それらのハイパーリンクを物理的に送信することなく、また従来の送受信機を修正することなく生成することも求められている。

本発明の基本的な目的は、ライブ・スピーチ、あるいはラジオ、テレビの生放送番組などの音声情報を、その音声情報に関連する補足情報またはサービスを用いて機能拡張することである。

本発明の他の目的は、スピーチの間に話し手によって発音される予定の選択された語句または単語と、選択された語句に関連する補足情報との間にハイパーリンクを生成することである。

本発明の他の目的は、ハイパーリンクされた語句がスピーチの間に話し手によって発音されたときに、それらを識別し、その識別された語句に関連づけられたハイパーリンクを起動することである。

本発明の他の目的は、聞き手が、ライブ・スピーチの間に、聞き手の注意を引いたトピックに関連する語句を選択し、スピーチの直後にまたはその後で、それまでに選択されたトピックに関連する情報にアクセスできるようにすることである。

本発明の他の目的は、ライブ・スピーチの聞き手が、スピーチの間に、聞き手の注意を引いたトピックに関連する情報に、必要な機器の複雑さを最小限に抑えるとともに、聞き手側からの最小の作業でアクセスできるようにすることである。

本発明は、ライブ・スピーチの聞き手が、スピーチの直後に、またはその後で、スピーチの間に発音された語句に関連する補足情報にアクセスすることを可能にする、特許請求の範囲の独立項に定義されたシステム、方法、およびコンピュータ・プログラムを対象とするものである。

このシステムは、ハイパーリンク（すなわちＵＲＬ）と、スピーチの間に話し手によって発音される可能性の高い、選択された語句またはワードとを関連づける。話し手側装置（すなわち、マイクロホンが接続されたコンピュータ装置）で動作する音声認識システムは、スピーチの間に、ハイパーリンクされた語句のいずれかが話し手によって発音されたことを認識（すなわち、ワード・スポッティング）し、認識されたハイパーリンクされた語句が発音された時刻を記録する。

このシステムは、同一のユニバーサル・タイムによる、話し手側装置と何台かの聞き手側装置（例えば、ワークステーション、ポータブル・コンピュータ、携帯情報端末−ＰＤＡ、スマート・フォン、その他任意の種類のハンドヘルド・コンピュータ装置など）との同期に基づくシステムである。したがって、話し手によって送信され、聞き手によって受信される情報の流れは、話し手と聞き手の相対的な位置とは無関係に、常に同期している。聞き手は、スピーチの間に、興味のあるトピックに気づくたびに、単に聞き手側装置の予約キーを押すだけで、即時にトピックを選択する。聞き手がトピックを選択したときのユニバーサル・タイムは、聞き手側装置に格納される。

本発明の好ましい実施形態では、話し手側装置と聞き手側装置の間の同期は、ＧＰＳ（GlobalPositioning System、全地球測位システム）時刻、ＧＬＯＮＡＳＳ（Global Orbiting Navigational SatelliteSystem）時刻、または衛星システムに基づく他の適切なユニバーサル・タイムなどのユニバーサル・タイムを基準にして実施される。ＧＰＳまたはＧＬＯＮＡＳＳ受信機は、話し手側装置と統合されるか、またはそれに接続される。また、ＧＰＳまたはＧＬＯＮＡＳＳ受信機は、各聞き手側装置と統合されるか、またはそれに接続される。各聞き手側装置は、放送スピーチを受信するために聞き手が使用するラジオまたはテレビのセットとは独立し分離されたものである。

より詳細には、本発明は、聞き手からアクセス可能なスピーチ・ハイパーリンク−タイム・テーブル（Speech Hyperlink-Time table）を、スピーチの間に、話し手側装置から生成するためのシステム、方法、およびコンピュータ・プログラムを開示する。この方法は、話し手によって発音される予定の、事前に定義されたハイパーリンクされた語句を識別するための手段、および事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク・テーブルを検索し、アクセスするステップと、スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を取り出すステップと、スピーチの間に、スピーチ・ハイパーリンク・テーブル内の事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、話し手側装置に接続された音声認識システムを用いて当該ハイパーリンクされた語句を認識するステップと、認識されたハイパーリンクされた語句のそれぞれについて、話し手による認識されたハイパーリンクされた語句の発音に対応するユニバーサル・タイムを決定するステップと、スピーチ・ハイパーリンク−タイム・テーブルに新しいレコードを生成するステップと、話し手による認識されたハイパーリンクされた語句の発音に対応するユニバーサル・タイム、スピーチ・ハイパーリンク・テーブルから取り出された、認識されたハイパーリンクされた語句を識別するための手段、およびスピーチ・ハイパーリンク・テーブルから取り出された、認識されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を新しいレコードにコピーするステップとを含む。

また、本発明は、聞き手側装置で、スピーチの間に話し手によって発音されたハイパーリンクされた語句を選択し、選択されたハイパーリンクされた語句に関連する情報にアクセスするためのシステム、方法、およびコンピュータ・プログラムも開示する。この方法は、スピーチの間に、話し手によって発音されている語句を選択するための選択コマンドを受け取った場合に、現在のユニバーサル・タイムを決定するステップと、現在のユニバーサル・タイムを選択ハイパーリンク−タイム・テーブルに記録するステップとを含み、さらに、聞き手側装置からアクセス可能な、話し手によって発音された事前に定義されたハイパーリンクされた語句のそれぞれについて、事前に定義されたハイパーリンクされた語句の発音に対応するユニバーサル・タイム、事前に定義されたハイパーリンクされた語句を識別するための手段、および事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク−タイム・テーブルにアクセスするステップと、選択ハイパーリンク−タイム・テーブル内に記録されたユニバーサル・タイムについて、記録されたユニバーサル・タイムに発音された選択されたハイパーリンクされた語句を、スピーチ・ハイパーリンク−タイム・テーブル内で識別するステップと、選択されたハイパーリンクされた語句を識別するための手段、および選択されたハイパーリンクされた語句を検索し、アクセスするための手段をスピーチ・ハイパーリンク−タイム・テーブルから取り出すステップと、取り出された選択されたハイパーリンクされた語句を識別するための手段、および取り出された選択されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を選択ハイパーリンク−タイム・テーブルに格納するステップとを含む。

本発明の他の実施形態については、添付の特許請求の範囲の従属項によって示されている。

本発明の前述ならびに他の目的、特徴、および利点は、以下の詳細な説明ならびに添付の特許請求の範囲および図面を参照することによってより良く理解できるはずである。

本発明の新規かつ発明性のある特徴だと考えられる特性は、添付の特許請求の範囲に記載されている。しかし、本発明、本発明の好ましい使用の態様、他の目的、および利点は、例示的な詳細な実施形態についての以下の詳細な説明を添付の図面と併せて読むと、最も良く理解できるはずである。

図１および図２に示したように、本発明は、ライブ・イベント（例えば、会議への参加）（１０２）（２０２）の聞き手（１００）、または生放送番組を視聴するラジオ、テレビの視聴者（２００）が、注意または興味を引いたトピック（１０１）、（２０１）を選択し、すぐにまたは後で、選択されたトピック（１０３）、（２０３）に関連するマルチメディア情報に容易にアクセスできるようにするシステムおよび方法を開示する。

図１は、本発明による典型的な状況を示す。ライブ・スピーチ（例えば、「ワインと健康」をテーマにした会議など）に参加している聞き手（１００）が、さらに情報を入手したいと思うトピック（１０１）（例えば、「レスベラトロル」という語句）に注意を引かれたとする。このような状況下では、スピーチの間に聞き手（１００）がトピック（例えば、「タンニン」、「フェノール」、「レスベラトロル」など）を選択し、すぐにまたは後で、例えばインターネットに接続されたサーバ上にある、選択されたトピックに関連する情報にアクセスできるようにするシンプルな機構の提供が求められている。

図２は、他の典型的な状況を示す。テレビの視聴者（２００）が、生放送のスピーチ（例えば、「ワインと健康」をテーマにしたテレビの生番組）を視聴している。

図３に示したように、スピーチの間に話し手（３０１）によって使用される可能性が高い語句または単語（３０４）にハイパーリンク（すなわち、ＵＲＬ）（３０３）が関連づけられている。このようなハイパーリンクされた語句または単語は、関係のあるトピックまたはアイテム（３０２）に関連づけられる。話し手側ワークステーション（３０６）（すなわち、マイクロホン（３０７）が接続されたコンピュータ・システム）上で動作する音声認識システム（３０５）は、スピーチの間に、それらのハイパーリンクされた語句（３０８）のいずれかが話し手によって発音されたことを検出し、検出したハイパーリンクされた語句が発音された時刻（３０９）を記録する。このシステムはまた、話し手側ワークステーション（３０６）と何台かの聞き手側装置（３１１）（例えば、ワークステーション、ポータブル・コンピュータ、ＰＤＡ−パーソナル・デジタル・アシスタント、スマート・フォン、任意の他の種類のハンドヘルド・コンピュータ装置など）との同一のユニバーサル・タイム（３０９）、（３１０）による同期（３１２）に基づくシステムである。したがって、話し手（３０１）によって送信され、聞き手（３００）によって受信される情報の流れは、話し手（３０１）と聞き手（３００）の相対的な位置とは無関係に、常に同期している。聞き手（３００）は、スピーチの間に、興味のあるトピック（３１３）に気づくたびに、単に聞き手の装置（３１１）の予約キーを押す（３１４）だけで、その場でトピックを選択する。聞き手（３００）によってトピックが選択された（３１４）ときのユニバーサル・タイム（３１０）は、聞き手側装置（３１１）に格納される。

図３に示したように、本発明は以下の基本方針に基づいてなされたものである。すなわち、
１．同一のユニバーサル・タイム（３１２）（例えば、ＧＰＳ受信機（３０９）、（３１０）によって提供されるＧＰＳ時刻）によって、話し手（３０１）と聞き手（３００）の相対位置に関係なく、話し手側ワークステーション（３０６）と聞き手側装置（３１１）を同期させること、および
２．（マイクロホンが接続された）話し手側ワークステーション（３０６）上で動作する音声認識システム（３０５）によって、スピーチ（３０２）の間に話し手（３０１）によって発音されるハイパーリンクされた語句（３０４）（例えば、「レスベラトロル」（３０８））を検出すること。

（ユニバーサル・タイム・システム）
話し手と聞き手の位置に関係しない、共通のタイミング・シーケンスは、例えば、ＧＰＳ（GlobalPositioning System）時刻またはＵＴＣ（Universal Time Co-ordinated、協定ユニバーサル・タイム）時刻（今日では、ＧＭＴ時刻やＺＵＬＵ時刻とも呼ばれている）などの絶対的なタイミング基準から得られる。

正確なタイミング信号を送信するために、ＧＰＳは、高度１０，０００マイル（約１６，１００ｋｍ）、軌道傾斜角５５度の２４台の衛星を使用している。このタイミング信号は、地球上のどこからでも、どのようなＧＰＳ受信機によっても、その位置を決定するために使用される。１５７５ＭＨｚの送信信号は、Ｃ／Ａ（clear acquisition）コードと呼ばれる、１ＭＨｚの帯域幅の位相変調信号を運ぶ。ＧＰＳ受信機は、この信号を少なくとも３台のＧＰＳ衛星から受信したとき、それ自体の緯度および経度を約３０ｍの精度で決定することができる。地理的位置の決定の外に、今日では、ＧＰＳは、ＰＴＴＩ（PreciseTime and Time Interval、正確な時刻および時間間隔）を配信するために広く使用されている。このシステムは、ＴＯＡ（time ofarrival）測定を使用して位置を決定する。正確な時刻を示す時計はユーザにとっては必須ではない、その理由は、視野内にある４つの衛星のＴＯＡを同時に測定することによって、位置の外に時刻が得られるからである。海抜高度が既知の場合は、３台の衛星で間にあう。ユーザが既知の位置で静止している場合は、原理的には、時刻は単一の衛星の観測によって取得することができる。ＧＰＳ時刻サービスに関する情報は、米国ワシントンＤＣにある米国海軍天文台の「TimeService Department（時刻サービス部門）」から、http://tycho.usno.navy.mil/で提供されている。

ＧＰＳは今日、正確な時刻の全世界的な主要な供給元となっている。ＧＰＳは、時刻の供給源として、またある位置と別の位置の時刻を比較する手段として幅広く使用されている。ＧＰＳからは、３種類の時刻が使用可能である。すなわち、ＧＰＳ時刻、米国海軍天文台によって評価され生成されるＵＴＣ、および各ＧＰＳ衛星の自走原子時計からの時刻である。コロラド州コロラド・スプリングス近くのファルコン空軍基地のＭＣＳ（Master Control Station、主統制局）は、世界中の５つのモニタ局からＧＰＳ衛星のデータを収集する。カルマン・フィルタ・ソフトウェア・プログラムによって、各衛星およびその動作クロックごとの時刻誤差、周波数誤差、周波数ドリフト、およびケプラー軌道パラメータを推定する。この情報は、リアルタイムで放送できるように各衛星にアップロードされる。このプロセスによって、この衛星群全体にわたるＧＰＳ時刻は数ナノセカンド以内で一貫性が保たれ、各衛星の正確な位置は数メータ以内で決定される。

第２のユニバーサル・タイム標準であるＵＴＣ（協定ユニバーサル・タイム）は、地球の自転との同期を維持するために閏秒を導入する。ＧＰＳ信号から得られるＵＴＣ時刻の評価を提供するために、１組のＵＴＣ修正もＧＰＳ放送信号の一部として提供される。この放送メッセージは、すべての秒にＧＰＳ時刻とＵＴＣの間の時間差を含む。このことにより、データ・ストリームの滑らかなフローを処理するソフトウェア、またはデータ・サンプル間の時間を計算するソフトウェアが複雑になる。本発明においてはＧＰＳ時刻の方が好ましい、その理由は、このシステムが閏秒の導入を回避するとともに、容易にＵＴＣとも関連づけられるからである。ＵＴＣ（ＧＭＴ）時刻サービスに関する情報は、http://time.greenwich2000.com/に出ている。

（ＧＰＳ受信機）
直接デジタルＧＰＳ受信機については、ウェブサイトhttp://w3.research.ibm.com/present/gto200038.htmに記載されている。これは、ＧＰＳを何にでも（例えば、ＰＤＡ、携帯電話、ウェアラブル・コンピュータ、ビデオ・カメラなどに）組み込める、小さな低価格のチップの例である。この受信機は、ＩＢＭとライカ・カメラ社（Leica Camera AG）とが共同で開発したものである。シリコンゲルマニウム（ＳｉＧｅ）技術による高速アナログ機能がＣＭＯＳ技術と統合されたとき、この単一チップの直接デジタルＧＰＳ（全地球測位システム）受信機が可能になった。ＧＰＳによって得られる位置情報は、地図作成や測量から、車両追跡、携帯電話による９１１番通報者の位置、自動農機具、ゴルフカート・ロボットにいたるまで、多種多様な応用例に使用されている。この受信機チップにより、無線装置の寸法が縮小され、複雑さが軽減される。従来の２段アナログ・ダウン・コンバージョンで必要とされていた、アナログ・ミキサー段も、（高品質フィルタなど）コストの高いディスクリート部品も必要ない。その代わりに、入ってきたＧＰＳ信号はアンテナで完全にデジタル化され、次いでＣＭＯＳベースのチップでデジタル的にフィルタ処理される。この直接デジタル化は、微小電力で高速に動作するＳｉＧｅ技術の機能によって可能となったものであり、この技術のコアは、ＳｉＧｅベースのアナログ・デジタル・データ変換である。

本発明によれば、ＧＰＳまたはＧＬＯＮＡＳＳ受信機は、話し手側ワークステーション（通常、パーソナル・コンピュータ）および聞き手側装置（例えば、パーソナル・コンピュータ、ウェアラブル・コンピュータ、ＰＤＡ（パーソナル・デジタル・アシスタント）、スマート・フォン、オンボードのモバイル・コンピュータなど）に組み込まれるか、またはそれに接続される必要がある。ＧＰＳまたはＧＬＯＮＡＳＳ衛星から受信したユニバーサル・タイム信号を使用して、同一のユニバーサル・タイムによって話し手側ワークステーションと聞き手側装置の内部電子時計システムを初期化し同期化する。ＧＰＳまたはＧＬＯＮＡＳＳ衛星が視界から外れている期間（例えば、話し手または聞き手の装置がビル内にあるとき、あるいは外部アンテナに接続されていないときなど）、したがって時刻信号がそれらの衛星から受信されない期間は、時刻情報を自律電子時計システムから継続的に出力する必要がある。内部時計システムのドリフトに依存するが、十分な時刻精度を保ち、同一のユニバーサル・タイムでユーザ装置を話し手ワークステーションおよび放送局に確実に同期させるためには、程度の差はあっても衛星信号を周期的に繰り返し受信する必要がある。
実際には、ユーザ装置がポータブルまたは車載装置である場合には、衛星信号はユーザが屋外にいるか移動中であるときに受信される。また、ユーザ装置が家屋またはビル内に長期間固定され、設置される場合には、ユーザ装置は、屋外に設置されたＧＰＳまたはＧＬＯＮＡＳＳアンテナ（例えば、ビルの屋上に設置されたアンテナなど）に接続する必要がある。

（連続音声中の単語を検出するシステムおよび方法）
音声認識は、コンピュータ（または他の種類のシステムまたは装置）が、話し言葉を識別するために使用するプロセスである。基本的には、音声認識システムは、話し手が何を話しているかを正確に認識できるコンピュータである。

音声認識は非常に難しい課題である。書かれた原稿と異なり、話し言葉の間には、明確なスペースが存在しない。通常、文全体または文の一部がポーズなしに発音される。さらに、通常、子音や母音の発音など、音声信号の音響的な変動により、一連の単語または部分語（subword）単位への一義的なマッピングは困難である。音声変動の主要な原因は、同時調音（coarticulation）、または所与の語音（speechsound）または単音（phone sound）の音響特性が、その音声が生成される音素コンテキスト（phonetic context）に依存して異なる傾向があることである。

音声認識システムは、対応する話し方、語彙、および言語モデルに応じて分類することができる。孤立した単語を認識する装置（isorated word recognizer）では、話し手が個々の単語の間に短いポーズを挿入することが必要になる。連続音声を認識する装置（continuousspeech recognizer）は流暢なスピーチに対して動作するが、通常は、厳密な言語モデルまたは文法を使用して許容し得る単語列の数を制限している。

ワード・スポッタは特殊な音声認識装置である。この装置も、流暢なスピーチに対して動作する。しかし、ワード・スポッタは、全翻音（full transcription）ではなく、関係する単語または文を選択的に探し出す。ワード・スポッティングは、キーワード索引方式に基づいて情報を取り出すために、あるいは音声コマンド・アプリケーションで孤立した単語を認識するために有用である。

今日、本発明をサポートするために必要なワード・スポッティング機能を有する複数の音声認識システムが使用可能である。これらのシステムを使用すると、スピーチの間に話し手によって発音される事前に定義された単語または文（ハイパーリンクされた語句）の検出が可能になる。このような音声認識システムは、例えば、以下の特許に記載されている。

「Wordspotting for voice editing andindexing」と題する米国特許第５１９９０７７号は、隠れマルコフモデル（ＨＭＭ）に基づくワード・スポッティングの技術を開示している。この技術を使用すると、話し手はキーワードを動的に指定することができ、またキーワードの単一の繰り返しにより付随するＨＭＭを学習させることができる。キーワードでない音声は、事前に記録された連続音声のサンプルによって学習させたＨＭＭを使用してモデル化される。ワード・スポッタは、ボイス・メールや混合メディア文書の編集などの対話型アプリケーション、単一話し手のオーディオまたはビデオ記録のキーワード索引付けなどを対象としている。

「Method for word spotting in continuousspeech」と題する米国特許第５４２５１２９号は、デジタル化された音声データ・チャネルを解析して所望のリストの単語または文の存在を調べるシステムおよび方法を開示している。この発明のシステムおよび方法は、ＩＣＳＲＳ（IBMContinuous Speech Recognition System、ＩＢＭ連続音声認識システム）との関連で実装されており、関係のない音素データが存在する中で、事前に指定された単語または文を追跡するサブシステムを音声認識システムの中に提供している。

「Word spotting using both filler and phonerecognition」と題する米国特許第５９５０１５９号は、音響データからキーワードを見つけるための、ワード・スポッティングのシステムおよび方法を開示している。この方法は、冗語（filler）認識フェーズとキーワード認識フェーズを含み、冗語認識フェーズの間に音響データを処理して単音を識別し、時間の区切り符号とその単音の可能性スコア（likelihoodscore）を生成する。また、キーワード認識フェーズの間に音響データを処理して、一連の単音を含む指定されたキーワードの実例を識別する。キーワード認識フェーズでは、冗語認識フェーズで生成された時間の区切り符号と可能性スコアが使用される。

「System and device for advanced voicerecognition word spotting」と題する米国特許第６００６１８５号は、話し手に依存しない、連続音声のワード・スポッティング音声認識システムおよび方法を開示している。発話中の音素の各エッジが高速かつ正確に分離される。発話は、各音素のエッジに基づいて波形区分に分けられる。音声認識エンジンは、いくつかの波形区分を調べるために何度か問合せを受け、その結果が解析されて発話中の単語が正確に識別される。

「Fast vocabulary independent method andapparatus for spotting words in speech」と題する米国特許第６０７３０９５号は、スピーチ中の単語／単音列を見つけるための前処理ステップと疎から詳細への（coarse-to-detailed）検索方式とを使用してスピーチ中の単語を見つけだす、高速でかつ語彙に依存しない方法を開示している。

「System and method for automatic audiocontent analysis for word spotting, indexing, classification and retrieval」と題する米国特許第６１８５５２７号は、後続の情報取り出しのためにオーディオ・ストリームに索引づけをするシステムおよび方法を開示している。

「Word-spotting speech recognition deviceand system」と題する米国特許第６２３０１２６号は、認識対象の特徴を格納した辞書を含む音声認識装置を開示している。この装置はさらに、入力スピーチの特徴を認識対象の特徴と比較するマッチング・ユニットと、マッチング・ユニットが入力スピーチと認識対象の１つとのかなりの類似を見つけたときに、入力スピーチに基づいて辞書中の各音素の時間長を更新する辞書更新ユニットとを含む。

音声認識システムに関する基本的な問題は、連続モードで、話し手に依存することなく、また未知のまたは一般的な話し方、語彙、ノイズ・レベルおよび言語モデルに基づいて「ワード・スポッティング」（すなわち、事前に指定されたキーワードまたは語句の識別）を実施する最新技術の挙動に信頼性がないことである。一方、本発明に必要な自動ワード・スポッティング機能は、比較的容易に実装できる。その理由は、話し手自身の声、話し手固有の語り口、ならびに特別に適合された用語集および言語モデルを使用して、話し手が事前にそのシステムに学習させることができるからである。

本発明の一態様によれば、スピーチ（３０２）の間に、話し手（３０１）によって発音される予定の、事前に選択された発話（３０４）（普通に話される言葉、語句、または文）から、ウェブ上で関連づけられた関係データ（３０３）へのハイパーリンクを生成し、音声認識システム（３０５）に学習させてハイパーリンクされた語句（３０４）を識別する（ワード・スポッティングする）システムおよび方法が開示される。

本発明の他の態様によれば、ライブ・スピーチの間にハイパーリンクされた語句（３０４）が話し手（３０１）によって発音されたときに、その語句を自動的に認識するとともに、認識したハイパーリンクされた語句（３０４）、関連づけられたネットワーク・アドレス（すなわち、ＵＲＬ）（３０３）、およびそのハイパーリンクされた語句の認識に対応するユニバーサル・タイム（３０９）のリストを含むテーブルをネットワーク・サーバ上に生成するためのシステムおよび方法が開示される。

本発明の他の態様によれば、スピーチ（３０２）の間に、聞き手（３００）が興味のあるトピック（３１３）を選択（３１４）したことに対応するユニバーサル・タイム（３１０）を、聞き手の装置（３１１）上に記録するためのシステムおよび方法が開示される。

本発明の他の態様によれば、聞き手（３００）が、ハイパーリンクされた語句（３０４）に関連づけられた関連情報を、コンピュータ・ネットワークに接続されたサーバにアクセスし取り出すことを可能にするシステムおよび方法が開示される。

（スピーチ・ハイパーリンク・テーブルを生成し、ハイパーリンクされた語句の用語集を用いて音声認識システムに学習させる方法）
図１７に示したように、本発明は、スピーチの前に話し手（３０１）によって使用されるシステム、方法、およびコンピュータ・プログラムであって、スピーチ（３０２）の間に話し手（３０１）によって発音される予定の選択された発話（３０４）（普通に話される言葉または文）から、コンピュータ・ネットワーク、好ましくはウェブに接続されたサーバ上の関連づけられた関連データ（３０３）へのハイパーリンクを生成し、スピーチをワード・スポッティングするために前記ハイパーリンクされた語句（３０４）の用語集を用いて音声認識システム（３０５）に学習させるためのシステム、方法、およびコンピュータ・プログラムを開示する。この方法は、
スピーチの作成または編集の間に、
・（１７０１）スピーチのテキストまたはドラフト・テキスト（４００）を編集するステップと、
・（１７０２）スピーチ・テキスト（５００）上で、ハイパーリンクを生成すべき複数の適切な語句または単語（５０１）を選択し、マーキングするステップと、
・（１７０３）スピーチのためのスピーチ・ハイパーリンク・テーブル（６００）を生成するステップと、
・スピーチ・ハイパーリンク・テーブル（６００）中に、選択された語句または単語（５０１）とコンピュータ・ネットワーク（９０８）に接続されたサーバ（９０９）に存在するマルチメディア情報またはサービスとの間のハイパーリンクを定義するステップであって、
既に選択されたハイパーリンクされた語句または単語（５０１）のそれぞれに対して、
・（１７０４）名前および／または記述（６０１）（好ましくは、短い記述）を割り当てるステップと、
・（１７０５）所望のマルチメディア情報またはサービスにアクセスするための、そのネットワーク（９０８）内での宛先アドレス（６０２）（例えばＵＲＬ）を割り当てるステップと、
・（１７０６）割り当てられた名前（または記述）（６０１）および／または宛先アドレス（６０２）をスピーチ・ハイパーリンク・テーブル（６００）に格納するステップとを含むステップと、
スピーチ・ハイパーリンク・テーブル（６００）にハイパーリンクが定義された後で、
・（１７０７）話し手側ワークステーション（７０２）上で実行される音声認識システム（７０１）をハイパーリンクされた語句（６０２）、（７０３）の用語集を用いて学習させ、その語句がスピーチの間に話し手（７００）によって発音された場合に、それらのハイパーリンクされた語句を自動的に認識するステップと
を含んでいる。

図４は、会議室で行われるか、またはラジオもしくはテレビで放送される（例えば、「ワインと健康」というテーマに関する会議の）スピーチの例のテキスト（４００）を示す。ライブ・スピーチの間に、話し手（３０１）は、このテキストの全文を読み上げることもできるし、あるいは都合により、意図的にある部分を読むことを省略し、順序を変更し、代替のもしくは追加のコメントを話すことができる。

図５は、話し手、または番組編集者（または、そのことを担当する任意の人）が、どのようにスピーチのテキスト（５００）を取得し、特定の語句（５０１）（「フェノール」、「レスベラトロル」、「タンニン」、「エラグ酸」、「水酸化桂皮酸塩」、「遊離基」、「アントシアニン」、「没食子酸」などの単語または文）を選択してウェブ上でアクセス可能な追加の情報に関連づけるかを示している。「ハイパーリンクされた語句」と呼ばれるこれらの選択された語句は各々、関連する情報またはサービスを取り出すことができる、ウェブ上のネットワーク・アドレス（すなわち、対応するＵＲＬ）に関連づけられる必要がある。

図６は、話し手、または番組編集者（または、そのことを担当する任意の人）が、選択されたハイパーリンクされた語句（６０１）（すなわち、スピーチ・テキスト上の、例えば「レスベラトロル」などの単語または文）をウェブ（６０２）上の対応するＵＲＬ（例えば、http://www.ag.uiuc.edu/~ffh/resvera.html）に関連付けるスピーチ・ハイパーリンク・テーブル（６００）を、どのように話し手側ワークステーション（３０６）上に生成するかを示している。

図７は、話し手（７００）が、スピーチの前に、話し手側ワークステーション（７０２）にインストールされたワード・スポッティング機能を含む音声認識システム（７０１）を、ハイパーリンクされた語句（７０３）（例えば、「フェノール」、「レスベラトロル」、「タンニン」など）の用語集を用いてどのように学習させるかを示している。本発明のある特定の実施形態では、ワード・スポッティング機能は、ＩＢＭＶｉａＶｏｉｃｅソフトウェア製品上で動作するＩＣＳＲＳ（IBM Continuous Speech RecognitionSystem）を用いて実装される。

（スピーチの間にハイパーリンクされた語句を認識し、スピーチ・ハイパーリンク−タイム・テーブルをスピーチ・サーバ上に生成する方法）
図１８に示したように、本発明はまた、ライブ・スピーチの間に、話し手（８００）によってハイパーリンクされた語句（８０３）が発音されたときそれを認識し、ネットワーク（９０８）に接続されたスピーチ・サーバ（９０７）上にスピーチ・ハイパーリンク−タイム・テーブル（９０６）を生成するとともに、そのテーブルを、認識されたハイパーリンクされた語句（３０４）、対応するネットワーク・アドレス（すなわち、ＵＲＬ）（３０３）、およびそのハイパーリンクされた語句が認識されたユニバーサル・タイム（３０９）の配列（９０５）を含むレコードを用いて更新するための、話し手側ワークステーション（８０２）で使用されるシステム、方法、およびコンピュータ・プログラムも開示する。より詳細には、この方法は、
・（１８０１）ネットワーク（９０８）に接続されたスピーチ・サーバ（９０７）上に、スピーチのためのスピーチ・ハイパーリンク−タイム・テーブル（９０６）を生成するステップと、
スピーチの間に、
・（１８０２）スピーチを「ワード・スポッティング」して、話し手（８００）によるハイパーリンクされた語句（８０３）の発音を、話し手のワークステーション（８０２）上で動作し、スピーチのために特に学習させた音声認識システム（８０１）を用いて認識するステップと、
認識されたハイパーリンクされた語句（８０３）のそれぞれについて、
・（１８０３）ユニバーサル・タイム装置を用いて、ハイパーリンクされた語句（９０３）の認識に対応するユニバーサル・タイム（９０４）を決定するステップと、
・（１８０４）レコードを生成するステップであって、
・ハイパーリンクされた語句（９０３）が認識されたときのユニバーサル・タイム（９０４）、
・スピーチ・ハイパーリンク・テーブル（６００）を使用して認識されたハイパーリンクされた語句（８０３）の名前または短い記述（６０１）、および
・スピーチ・ハイパーリンク・テーブル（６００）を使用して認識されたハイパーリンクされた語句（８０３）に対応するネットワーク・アドレス（１００５）（すなわち、ＵＲＬ）
を含むレコードを生成するステップと、
・（１８０５）生成されたレコードを、ネットワーク（９０８）を介して話し手側ワークステーション（９０２）からアクセス可能なスピーチ・サーバ（９０７）に格納されたスピーチ・ハイパーリンク−タイム・テーブル（９０６）、（１０００）に格納するステップと
を含む。

図８は、話し手（８００）がスピーチを発音している間に、話し手のワークステーション（８０２）上にインストールされ（例えば、ＩＢＭのＶｉａＶｏｉｃｅ（Ｒ）ソフトウェア製品で動作するＩＣＳＲＳ（ＩＢＭ連続音声認識システム）を用いて実装され）、話し手によって事前に学習させた音声認識システム（８０１）上で動作する「ワード・スポッティング」機能が、音声ストリームからハイパーリンクされた語句（８０３）をどのようにして自動的に検出するのかを示している。

図９は、話し手側ワークステーション（９０２）上で動作する音声認識システム（９０１）によってハイパーリンクされた語句（９０３）（例えば、「レスベラトロル」）が認識された後で、
・ハイパーリンクされた語句（９０３）の認識に対応するユニバーサル・タイム（９０４）（例えば、２００１年５月１２日１４時２３分１８秒）、
・ハイパーリンク語句の名前または短い記述（６０１）（例えば、「レスベラトロル」）、および
・関連付けられたＵＲＬ（６０２）（例えば、http://www.ag.uiuc.edu/~ffh/resvera.html）
が、スピーチ・サーバ（９０７）上にあるスピーチ・ハイパーリンク−タイム・テーブル（９０６）にどのように送信（９０５）され格納されるかを示す。なお、最後の２つは、どちらもスピーチ・ハイパーリンク・テーブル（６００）から抽出したものである。

図１０は、（例えば、「ワインと健康」というテーマ（１００１）についての）スピーチ終了時にできている、スピーチ・サーバ（９０７）上に格納されたスピーチ・ハイパーリンク−タイム・テーブル（１０００）、（９０６）の例を示している。テーブルのヘッダには、ＵＲＬ（１００２）：http://www.directbuyer.com/conference-0173.htm/またはネットワーク・アドレスが含まれ、スピーチ・ハイパーリンク−タイム・テーブル（１０００）が、スピーチ・サーバ（９０７）（例えば、www.directbuyer.com）中のそのアドレスに格納されている。ネットワーク中の、スピーチ・ハイパーリンク−タイム・テーブル（１０００）が出ているＵＲＬは、事前に聞き手に知らされている必要がある。このテーブルの各行は、スピーチの間に、話し手によって発音され、音声認識システム（９０１）によって認識されたハイパーリンクされた語句（９０３）に対応する。各列は、それぞれ
・（１００３）スピーチの間に、話されたハイパーリンクされた語句（９０３）を音声認識システム（９０１）が認識したユニバーサル・タイム、
・（１００４）スピーチ・ハイパーリンク・テーブル（６００）からコピーされた、認識されたハイパーリンクされた語句（９０３）の名前または短い記述（６０１）あるいはその両方、および
・（１００５）スピーチ・ハイパーリンク・テーブル（６００）からコピーされた、認識されたハイパーリンクされた語句（９０３）に対応するＵＲＬ（６０２）
に対応している。

（選択ハイパーリンク−タイム・テーブル（１１０６）を生成し、興味のあるトピックを選択する方法）
図１９に示したように、本発明はまた、選択ハイパーリンク−タイム・テーブル（１１０６）を聞き手側装置（１１０２）上に生成し、そのテーブルに、スピーチの間の聞き手（１１００）による興味のあるトピック（１１０３）の選択（１１０４）に対応する一連のユニバーサル・タイム（１１０５）を記録して、スピーチの直後に、または後から、それらのトピックに関連する他の情報を受信するためのシステム、方法、およびコンピュータ・プログラムも開示する。より詳細には、聞き手側装置で使用されるこの方法は、
・（１９０１）聞き手側装置（１１０２）上に選択ハイパーリンク−タイム・テーブル（１２００）を生成するステップと、
・（１９０２）選択ハイパーリンク−タイム・テーブル（１２００）上に、スピーチ・サーバ（９０７）に格納されたスピーチ・ハイパーリンク−タイム・テーブル（９０６）のネットワーク・アドレス（すなわち、ＵＲＬ）（１２０１）を記録するステップと、
・（１９０３）話し手（１１０１）によって発音されたスピーチ（１１０７）を聴くステップと、
・（１９０４）スピーチ中の、追加の情報またはサービスを所望する興味のあるトピック（１１０３）に気づくステップと、
・（１９０５）この興味のあるトピック（１１０３）を、聞き手側装置（１１０２）上で選択コマンド（１１０４）を入力することによって選択するステップと、
・（１９０６）現在のユニバーサル・タイム（１１０５）を、聞き手側装置に組み込まれた、または接続された、（例えば、ＧＰＳ受信機などの）ユニバーサル・タイム装置を用いて決定するステップと、
・（１９０７）この現在のユニバーサル・タイム（１１０５）を選択ハイパーリンク−タイム・テーブル（１１０６）、（１２０２）に記録するステップと
を含む。

図１１は、スピーチの間に、聞き手（１１００）が、ポータブルの聞き手側装置（１１０２）を使用してスタンドアロン・モードで（すなわち、ネットワークに接続されていない単体の状態で）どのような操作をするのかを示す。図１１に詳細を示したある特定の実施形態によれば、聞き手（１１００）は、スピーチの間に興味のあるトピック（１１０３）に気づくたびに、単に聞き手側装置（１１０２）上の予約キー（１１０４）を押すことによって、直ちにこのトピックを選択する。聞き手によるトピックの選択に対応したユニバーサル・タイム（１１０５）は、聞き手側装置（１１０２）上の選択ハイパーリンク−タイム・テーブル（１１０６）に格納される。

図１２は、スピーチの間に聞き手側装置（１１０２）上に生成された、典型的な選択ハイパーリンク−タイム・テーブル（１２００）を示す。このテーブルの各行は、スピーチの間の、聞き手による興味のあるトピックの選択に対応する個々のユニバーサル・タイムに対応している。このテーブルのヘッダは、そのスピーチに対応したスピーチ・ハイパーリンク−タイム・テーブル（９０６）、（１０００）のＵＲＬ（１２０１）（例えば、http://www.directbuyer.com/conference-0173.htm/）を含む。スピーチ・サーバ（９０７）（例えば、www.directbuyer.com）上のスピーチ・ハイパーリンク−タイム・テーブル（９０６）、（１０００）は、スピーチの間に話し手のワークステーション（９０２）によって更新される。前述のように、スピーチ・サーバのＵＲＬは、聞き手がローカルに選択ハイパーリンク−タイム・テーブル（１２００）を生成できるように、予め聞き手に提供しておく必要がある。

（ハイパーリンクを取り出し、情報にアクセスする方法）
図２０に示したように、本発明は、聞き手（３００）がウェブにアクセスし、聞き手が対応する選択（３１４）をしたときに話されていたハイパーリンクされた語句（３０４）に関連づけられた関連データまたは情報をウェブから取り出すことを可能にするシステム、方法、およびコンピュータ・プログラムも開示する。より詳細には、この聞き手側装置（１３００）で使用される方法は、
・（２００１）スピーチ・サーバ（１３０３）にアクセスするステップと、
聞き手側装置（１３００）上にある選択ハイパーリンク−タイム・テーブル（１３０４）、（１２００）に記録されたユニバーサル・タイム（１２０２）のそれぞれに対して、
・（２００２）記録されたユニバーサル・タイムをスピーチ・サーバ（１３０３）に送信するステップ（１３０６）と、
・（２００３）スピーチ・サーバ（１３０３）上にあるスピーチ・ハイパーリンク−タイム・テーブル（１３０２）、（１０００）中で、ユニバーサル・タイム（１３０６）に関連するハイパーリンクされた語句（１００４）（ユニバーサル・タイムに話されていたハイパーリンクされた語句）を識別するステップと、
・（２００４）スピーチ・サーバ（１３０３）中のスピーチ・ハイパーリンク−タイム・テーブル（１３０２）、（１０００）から、選択されたハイパーリンクされた語句の名前（または記述）（１００４）および宛先アドレス（ＵＲＬ）（１００５）取り出すステップ（１３０７）と、
・（２００５）取り出したハイパーリンク名および宛先アドレス（ＵＲＬ）（１３０７）を聞き手側装置（１３００）上の選択ハイパーリンク−タイム・テーブル（１３０４）、（１４０２）に格納するステップと
を含み、
さらにこの方法は、
・（２００６）選択ハイパーリンク−タイム・テーブル（１５０２）中で、スピーチ・サーバ（１５０７）から取り出したハイパーリンクの名前（もしくは、記述）または付随する宛先アドレスを使用してハイパーリンク（１５０１）を選択するステップと、
・（２００７）聞き手側装置（１５００）上で動作するブラウザ・プログラムを使用して前記ハイパーリンク（１５０１）を起動するステップと、
・（２００８）選択されたハイパーリンク（１５０１）に付随する、取り出された宛先アドレス（１５０３）、（１５０４）を使用して、ネットワーク（１５０５）に接続されたサーバ（１５０６）上にある情報および／またはサービスにアクセスするステップと、
・（２００９）ネットワーク（１６０２）上でアクセスしたサーバ（１６０３）から情報および／またはサービス（１６０４）を取り出すステップ（１６０１）と、
・ブラウザ・プログラムを使用して、取り出した情報および／またはサービス（１６０４）を聞き手側装置（１６００）上に表示するステップと
を含む。

図１３は、聞き手（１１００）のポータブル装置（１３００）を通信ネットワーク（１３０１）（例えば、インターネット・ネットワーク）に接続し、スピーチ・サーバ（１３０３）上のスピーチ・ハイパーリンク−タイム・テーブル（１３０２）にアクセスすることによって、聞き手側装置（１３００）の選択ハイパーリンク−タイム・テーブル（１３０４）上の情報をどのように更新するかを示している。

図１４は、スピーチ・サーバ（１３０３）のスピーチ・ハイパーリンク−タイム・テーブル（１４０１）、（１３０２）を使用して、聞き手側装置（１３００）の選択ハイパーリンク−タイム・テーブル（１４００）を更新するプロセスを詳細に示す。基本的に、このプロセスを用いて、聞き手が興味のあるトピックを選択したときのユニバーサル・タイム（１４０３）に話されていたハイパーリンクされた語句（または、省略名または簡単な記述あるいはその両方）およびそのハイパーリンクされた語句のＵＲＬは、スピーチ・サーバ（１３０３）上にあるスピーチ・ハイパーリンク−タイム・テーブル（１４０１）中で識別され、聞き手側装置（１３００）上にある選択ハイパーリンク−タイム・テーブル（１４０２）にコピーされる。

図１５は、聞き手が、スピーチの間に聞き手が選択したトピックにハイパーリンクされているウェブ・ページを、聞き手側装置（１５００）からどのように選択し、それにアクセスするかを示す。基本的に、聞き手は、更新された選択ハイパーリンク−タイム・テーブル（１５０２）上のハイパーリンクされた語句（１５０１）を指示し、かつ選択し、さらに聞き手側装置（１５００）上のソフトウェアを用いてウェブ・ブラウザを起動し、選択したアイテム（１５０１）のＵＲＬ（１５０３）へのハイパーリンクを起動する。この図に示した例では、聞き手は、ハイパーリンクされた語句「エラグ酸」（実際にワイン中で見つけられた化合物）を選択し、ＵＲＬ（１５０４）：http://www.hopeforcancer.com/ellagicacid.htmを示すハイパーリンクを起動する。

図１６は、選択されたハイパーリンクされた語句（１５０１）に関連するウェブ・ページ（１６０１）（例えば、文書：ellagicacid.htm）が、アクセスしたウェブ・サーバ（１６０３）（例えば、http://www.hopeforcancer.com）からネットワーク（１６０２）を介してどのように受信され、聞き手側装置（１６００）上でどのように表示され（１６０４）または再生されるかを示す。

本発明を詳細に、好ましい実施形態に関連して図示し説明してきたが、本発明の趣旨および範囲を逸脱することなく、本発明の形態および詳細についての様々な変更がなし得ることが理解されよう。

会議などのライブ・スピーチの聞き手が、興味のあるトピックにどのように気づくかを示す図である。ライブのラジオまたはテレビの番組を視聴しているとき、視聴者が興味のあるトピックにどのように気づくかを示す図である。本発明に従って、話し手ワークステーションと聞き手側装置を同一のユニバーサル・タイムによってどのように同期させるか、また話し手側装置で動作する音声認識システムが、話し手によって発音されたハイパーリンクされた語句をどのように認識するかを示す図である。本発明に従って、話し手がスピーチのテキストを事前にどのように準備するかを示す図である。本発明に従って、話し手が、スピーチのテキスト中で単語または語句をどのように選択して、マルチメディア情報またはサービスへのハイパーリンク（すなわち，関連するＵＲＬ）を生成するかを示す図である。本発明に従って、ハイパーリンクされた各語句とマルチメディア情報またはサービスにアクセスするためのアドレスとを関連づけるスピーチ・ハイパーリンク・テーブルを、話し手がどのように生成するかを示す図である。本発明に従って、スピーチの前に、話し手が音声認識システムをどのように学習させるかを示す図である。本発明に従って、スピーチの間に、話し手がハイパーリンクされた語句を発音したとき、話し手側ワークステーションで動作する音声認識システムがどのようにその語句を認識するか（すなわち、ワード・スポットするか）を示す図である。本発明に従って、音声認識システムによってハイパーリンクされた語句が認識された（ワード・スポットされた）とき、認識された語句、関連づけられたアドレス、および認識されたユニバーサル・タイムが、通信ネットワークに（例えば、インターネットに）接続されたスピーチ・サーバにあるスピーチ・ハイパーリンク−タイム・テーブルにどのように格納されるかを示す図である。本発明による、スピーチ・サーバに格納されたスピーチ・ハイパーリンク−タイム・テーブルの一例を示す図である。本発明に従って、スピーチの途中で興味のあるトピックに対応する語句に気づいた聞き手が、単にポータブル・コンピュータ上の予約キーを押すことによって、どのようにその語句を選択するかを示す図である。本発明に従って、スピーチの間に興味のある語句が聞き手によって選択されたときのユニバーサル・タイムが、聞き手側装置にある選択ハイパーリンク−タイム・テーブルにどのように格納されるかを示す図である。本発明に従って、聞き手側装置をネットワークに接続することによって、聞き手が、スピーチ・サーバ上に格納されたスピーチ・ハイパーリンク−タイム・テーブルに含まれる情報を用いて、聞き手側装置の選択ハイパーリンク−タイム・テーブルをどのように更新するかを示す図である。本発明に従って、ハイパーリンクされた語句がどのように識別され、関連するＵＲＬ（Uniform Resource Locator）とともに、スピーチ・サーバ上に格納されたスピーチ・ハイパーリンク−タイム・テーブルから聞き手側装置の選択ハイパーリンク−タイム・テーブルにどのようにコピーされるかを示す図である。本発明に従って、聞き手が、更新された選択ハイパーリンク−タイム・テーブルから（興味のあるトピックに対応して、スピーチの間に聞き手が選択した）ハイパーリンクされた語句をどのように選択し、関連するハイパーリンクをどのように起動するかを示す図である。本発明に従って、選択された語句にハイパーリンクされたマルチメディア情報またはサービスが、通信ネットワークを介してどのようにアクセスされ、聞き手側装置上にどのように取り出されるかを示す図である。本発明による、スピーチ・ハイパーリンク・テーブルを生成するステップと、ハイパーリンクされた語句を識別するように音声認識システムに学習させるステップとを示す図である。本発明による、スピーチ・サーバ上にスピーチ・ハイパーリンク−タイム・テーブルを生成するステップと、スピーチの間に発音されたハイパーリンクされた語句を認識するステップとを示す図である。本発明による、聞き手側装置上に選択ハイパーリンク−タイム・テーブルを生成するステップと、スピーチの間に興味のあるトピックを選択するステップとを示す図である。ＵＲＬ（Uniform Resource Locator）を取り出すステップと、選択されたハイパーリンクされた語句に関係する情報またはサービスにアクセスするステップとを示す図である。

Claims

コンピュータが実行し、聞き手からアクセス可能なスピーチ・ハイパーリンク−タイム・テーブルをスピーチの間に話し手側装置から生成する方法であって、前記コンピュータが、
話し手によって発音される予定の、事前に定義されたハイパーリンクされた語句を識別するための手段、および前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク・テーブルを検索し、アクセスするステップと、
スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を取り出すステップと、
スピーチの間に、前記スピーチ・ハイパーリンク・テーブル内の事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、前記話し手側装置に接続された音声認識システムを用いて当該ハイパーリンクされた語句を認識するステップと、
認識されたハイパーリンクされた語句のそれぞれについて、前記話し手による認識されたハイパーリンクされた語句の発音に対応するユニバーサル・タイムを決定するステップと、
前記スピーチ・ハイパーリンク−タイム・テーブルに新しいレコードを生成するステップと、
前記話し手による認識されたハイパーリンクされた語句の発音に対応する前記ユニバーサル・タイム、前記スピーチ・ハイパーリンク・テーブルから取り出された、前記認識されたハイパーリンクされた語句を識別するための手段、および前記スピーチ・ハイパーリンク・テーブルから取り出された、前記認識されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を前記新しいレコードにコピーするステップと、
を含む方法。
前記話し手側装置内に、スピーチ・ハイパーリンク・テーブルを生成するステップと、
前記スピーチ・ハイパーリンク・テーブル内に、事前に定義された語句に関連する情報のアクセス先であるサーバへのハイパーリンクを定義するステップと
を含む、請求項１に記載の方法。
前記スピーチ・ハイパーリンク・テーブル内に、事前に定義されたハイパーリンクされた語句に関連する情報のアクセス先であるサーバへのハイパーリンクを定義するステップは、
スピーチの間に、前記話し手によって発音される予定のハイパーリンクされた語句を事前に定義するステップと、
新しく事前に定義されたハイパーリンクされた語句について、
前記スピーチ・ハイパーリンク・テーブル内に新しいレコードを生成するステップと、
前記レコード内に、前記事前に定義されたハイパーリンクされた語句を識別するための手段を割り当て、コピーするステップと、
前記レコード内に、前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を割り当て、コピーするステップと
をさらに含む、請求項２に記載の方法。
スピーチ・ハイパーリンク・テーブルを、前記話し手側装置内に生成するステップが、
前記スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を前記スピーチ・ハイパーリンク・テーブルに割り当てるステップと、
前記検索し、アクセスするための手段を、前記スピーチ・ハイパーリンク・テーブル内のヘッダにコピーするステップと
をさらに含む、請求項２ないし３のいずれか一項に記載の方法。
前記スピーチ・ハイパーリンク・テーブル内に事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、前記話し手側装置に接続された音声認識システムを用いてその語句を認識するステップが、前記スピーチの前に、前記事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、当該語句を認識するよう音声認識システムに学習させるステップをさらに含む、請求項１ないし４のいずれか一項に記載の方法。
前記スピーチが、テレビまたはラジオの放送番組である、請求項１ないし５のいずれか一項に記載の方法。
事前に定義されたハイパーリンクされた語句に関連する情報が前記サーバに存在し、
事前に定義されたハイパーリンクされた語句を識別するための手段が名前および／または記述を含み、
事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段がネットワーク内の宛先アドレスを含み、
前記スピーチ・ハイパーリンク−タイム・テーブルがスピーチ・サーバに存在し、
前記スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段がネットワーク内の宛先アドレスを含む、
請求項１ないし６のいずれか一項に記載の方法。
前記ネットワークがインターネットであり、
前記宛先アドレスがＵＲＬ（Uniform Resource Locator）であり、
事前に定義された語句に関連する情報がウェブ・ページであり、
前記サーバがウェブ・サーバである、
請求項７に記載の方法。
前記スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を聞き手側装置に送信するステップを含む、請求項８に記載の方法。
聞き手からアクセス可能なスピーチ・ハイパーリンク−タイム・テーブルをスピーチの間に作成させる話し手側装置であって、
話し手によって発音される予定の、事前に定義されたハイパーリンクされた語句を識別するための手段、および前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク・テーブルを検索し、アクセスする手段と、
スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を取り出す手段と、
スピーチの間に、前記スピーチ・ハイパーリンク・テーブル内の事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、前記話し手側装置に接続された音声認識システムを用いて当該ハイパーリンクされた語句を認識する手段と、
認識されたハイパーリンクされた語句のそれぞれについて、前記話し手による認識されたハイパーリンクされた語句の発音に対応するユニバーサル・タイムを決定するステップと、
前記スピーチ・ハイパーリンク−タイム・テーブルに新しいレコードを生成する手段と、
前記話し手による認識されたハイパーリンクされた語句の発音に対応する前記ユニバーサル・タイム、前記スピーチ・ハイパーリンク・テーブルから取り出された、前記認識されたハイパーリンクされた語句を識別するための手段、および前記スピーチ・ハイパーリンク・テーブルから取り出された、前記認識されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を前記新しいレコードにコピーする手段と、
を含む話し手側装置。
コンピュータが請求項１〜９のいずれか１項に記載のステップを実行するための、コンピュータ実行可能なプログラム。
コンピュータが画実行し、聞き手側装置で、スピーチの間に話し手によって発音され、ハイパーリンクされた語句を選択し、前記選択されたハイパーリンクされた語句に関連する情報にアクセスする方法であって、前記コンピュータが、
スピーチの間に、話し手によって発音されている語句を選択するための選択コマンドを受け取るステップと、
現在のユニバーサル・タイムを決定するステップと、
現在のユニバーサル・タイムを選択ハイパーリンク−タイム・テーブルに記録するステップとを含み、
さらに前記方法は、
聞き手側装置からアクセス可能な、前記話し手によって発音された事前に定義されたハイパーリンクされた語句のそれぞれについて、前記事前に定義されたハイパーリンクされた語句の発音に対応するユニバーサル・タイム、前記事前に定義されたハイパーリンクされた語句を識別するための手段、および前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク−タイム・テーブルにアクセスするステップと、
前記選択ハイパーリンク−タイム・テーブル内に記録されたユニバーサル・タイムについて、
前記記録されたユニバーサル・タイムに発音された選択されたハイパーリンクされた語句を、前記スピーチ・ハイパーリンク−タイム・テーブル内で識別するステップと、
前記選択されたハイパーリンクされた語句を識別するための手段、および前記選択されたハイパーリンクされた語句を検索し、アクセスするための手段を前記スピーチ・ハイパーリンク−タイム・テーブルから取り出すステップと、
取り出された前記選択されたハイパーリンクされた語句を識別するための手段、および取り出された前記選択されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を選択ハイパーリンク−タイム・テーブルに格納するステップと
を含む方法。
前記スピーチのための選択ハイパーリンク−タイム・テーブルを生成するステップを含む、請求項１２に記載の方法。
スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を受信するステップを含む、請求項１２ないし１３のいずれか一項に記載の方法。
ハイパーリンクされた語句に関連する情報が前記サーバに存在し、
ハイパーリンクされた語句を識別するための手段が名前および／または記述を含み、
ハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段がネットワーク内の宛先アドレスを含み、
前記スピーチ・ハイパーリンク−タイム・テーブルがスピーチ・サーバに存在し、
前記スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段がネットワーク内の宛先アドレスを含む、
請求項１４のいずれか一項に記載の方法。
前記ネットワークがインターネット・ネットワークであり、
前記宛先アドレスがＵＲＬ（Uniform Resource Locators）であり、
語句に関連する情報がウェブ・ページであり、
前記聞き手側装置がウェブ・ブラウザを含み、
前記サーバがウェブ・サーバである、
請求項１５に記載の方法。
ハイパーリンクされた語句に関連する情報を表示するための、前記ハイパーリンクされた語句を識別するための手段を含む表示コマンドを受信するステップと、
選択ハイパーリンク−タイム・テーブル内で、前記ハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を識別するステップと、
前記情報を取り出して表示するステップと、
を含む、請求項１２ないし１６のいずれか一項に記載の方法。
前記スピーチがテレビまたはラジオの放送番組である、請求項１２ないし１７のいずれか一項に記載の方法。
スピーチの間に話し手によって発音され、ハイパーリンクされた語句を選択し、前記選択されたハイパーリンクされた語句に関連する情報にアクセスする聞き手側装置であって、
スピーチの間に、話し手によって発音されている語句を選択するための選択コマンドを受け取って、現在のユニバーサル・タイムを決定する手段と、
現在のユニバーサル・タイムを選択ハイパーリンク−タイム・テーブルに記録する手段と、
聞き手側装置からアクセス可能な、前記話し手によって発音された事前に定義されたハイパーリンクされた語句のそれぞれについて、前記事前に定義されたハイパーリンクされた語句の発音に対応するユニバーサル・タイム、前記事前に定義されたハイパーリンクされた語句を識別するための手段、および前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク−タイム・テーブルにアクセスする手段と、
前記選択ハイパーリンク−タイム・テーブル内に記録されたユニバーサル・タイムについて、前記記録されたユニバーサル・タイムに発音された選択されたハイパーリンクされた語句を、前記スピーチ・ハイパーリンク−タイム・テーブル内で識別する手段と、
前記選択されたハイパーリンクされた語句を識別するための手段、および前記選択されたハイパーリンクされた語句を検索し、アクセスするための手段を前記スピーチ・ハイパーリンク−タイム・テーブルから取り出す手段と、
取り出された前記選択されたハイパーリンクされた語句を識別するための手段、および取り出された前記選択されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を選択ハイパーリンク−タイム・テーブルに格納する手段と
を含む、聞き手側装置。
コンピュータが、請求項１２〜１８のいずれか１項に記載のステップを実行するためのコンピュータ実行可能なプログラム。