JP4378284B2 - ワールド・ワイド・ウェブからの情報を使用してライブ・スピーチの機能を拡張するためのシステムおよび方法 - Google Patents

ワールド・ワイド・ウェブからの情報を使用してライブ・スピーチの機能を拡張するためのシステムおよび方法 Download PDF

Info

Publication number
JP4378284B2
JP4378284B2 JP2004538824A JP2004538824A JP4378284B2 JP 4378284 B2 JP4378284 B2 JP 4378284B2 JP 2004538824 A JP2004538824 A JP 2004538824A JP 2004538824 A JP2004538824 A JP 2004538824A JP 4378284 B2 JP4378284 B2 JP 4378284B2
Authority
JP
Japan
Prior art keywords
speech
hyperlink
phrase
hyperlinked
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004538824A
Other languages
English (en)
Other versions
JP2006500665A (ja
Inventor
インセルティス、カッロ、フェルナンド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2006500665A publication Critical patent/JP2006500665A/ja
Application granted granted Critical
Publication of JP4378284B2 publication Critical patent/JP4378284B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

一般的に、本発明は、補足的な情報(complementary information)にアクセスする手段をライブ・イベントに組み込む技術に関する。より詳細には、本発明は、ワールド・ワイド・ウェブから入手できる情報を用いて、ライブ・スピーチや生放送番組などのライブ・イベントの機能を拡張するためのシステムおよび方法に関する。
(情報の必要性)
現代社会では、情報およびサービスに対する要求が、ますます高まってきている。例えば、講演者による講演会の聴衆(auditor)としてライブ・イベントに参加している観客や、ラジオ、テレビの生放送番組を視聴している視聴者(auditor)は、補足情報にアクセスすることを望んでいる。そのような補足情報としては、例えば、フットボール試合の選手の経歴、ニュース番組で言及された出来事の歴史的背景、オリンピック競技放送中の競技記録などが考えられる。
近年、人々は、ライブ・イベントの観客として現地で見聞きしたことや、生放送番組の視聴者として離れた場所で見聞きしたことに関し、現実により多くの情報を求めている。例えば、消費者は、広告された製品に関する特別なサービスの利用を希望している。また、メディア提供者は、消費者(より具体的には、テレビ、ラジオの生番組の視聴者)に提供されるサービスと情報の質を高め、量を拡大することによって、新しい利益の源泉を獲得できると考えている。さらに、広告のスポンサーは、より有効な新しい広告の形態を模索している。
(ウェブ上のオンライン・サービス)
ラジオやテレビの著しい進歩とはまた別に、ワールド・ワイド・ウェブ(ウェブ)で提供されるようなオンライン・サービスが、現在、社会に急速に出現し、広く使用されている。このようなオンライン・サービスは、インターネット技術を基礎とするものであり、対話ベースの大量の情報へのアクセスを提供するものである。インターネットは、コンピュータのグローバルなネットワークである。インターネットは、TCP/IP(「伝送制御プロトコル/インターネット・プロトコル」)と呼ばれる言語を使用して、多種多様なオペレーティング・システムや言語をベースとするコンピュータを接続する。インターネットの規模や複雑さが増すにつれ、ユーザがネットワーク上で必要な情報を見つけることを支援するツールが開発されてきた。このようなツールは、「ナビゲータ」または「ナビゲーション・システム」と呼ばれることもある。ワールド・ワイド・ウェブ(「WWW」または「ウェブ」)は、最新の優れたナビゲーション・システムである。このウェブは、インターネット・ベースのナビゲーション・システムであり、インターネットのための情報配信・管理システムであり、またウェブ上での通信のための動的なフォーマットである。
インターネットおよびウェブは、何百万人ものユーザに、相互にアクセスし情報を交換し、また相互に通信する機会を提供することによって、現代社会を変革しようとしている。画像、テキスト、音声、映像を統合することによって、グラフィカル・ユーザ・インターフェースを使用するウェブのユーザは、今日では、このシステム上の様々なコンピュータや様々なシステム・アプリケーションと、例えばテキスト、音声、グラフィックを含むファイルや文書のための様々な情報フォーマットを用いて透過的に通信することができる。現在、ウェブ上のオンライン・システムは、多種多様なサービスをユーザに提供する。そのようなサービスとして、例えば、プライベート・メッセージ・サービス、電子商取引、ニュース、リアルタイム・ゲーム、電子データベースへのアクセス、電子ニュースレター、企業間取引、職業紹介などが存在する。
このようなオンライン・サービスが利用可能な場合でも、ウェブ上で関連する情報を検索し、見つけ出すことは依然として骨の折れる仕事であり、経験のあるユーザにとっても何時間もかかることがある。明らかに、ウェブは本質的にオープンであり、マルチポイント対マルチポイント(multi-point to multi-point)のネットワークであり、ユーザは、多くの異なるサーバから様々な情報を選択し、取り出すことができる。実際には今日でも、ウェブとのオンライン対話の大部分は、例えばURL(UniformResource Locator)名を入力したり、検索ツールにキーワードを入力したり、あるいはHTML(Hypertext Markup Language)文書中のテキスト形式のハイパーリンクを起動することによって、単にテキスト入力だけで行われている。近い将来、オーディオビジュアル・インターフェース(例えば、話し言葉によるインターフェースやウェブフォンの統合など)の開発により、オンライン環境でのテキスト形式の入力が徐々に支配的でなくなったとしても、ウェブの膨大さ、無秩序さ、でたらめさなどのために、ウェブは依然として使いにくいままである可能性が高い。はっきり言えば、ウェブには秩序も指示も存在しない。ほとんどの場合、情報は見つけにくいままである。さらに悪いことには、必要な情報を所望の文脈の中で見つけ出すことは、近い将来においてもやはり困難な仕事でありつづけるだろう。
(ライブ・スピーチでのオンライン・サービス)
マルチポイント対マルチポイントのウェブ・ネットワークとは異なり、聞き手(auditor)(話し手と同じ場所にいる聴衆、または遠隔地に存在するラジオ放送局やテレビ放送局を介してアクセスする視聴者)へのライブ・スピーチは、主に単一の発信者と複数の受信者からなる通信である。それぞれの聞き手は、近くの話し手から、あるいは遠隔地に存在する放送局を介して同一のコンテンツを受信する。
したがって、ライブ・スピーチにおいて、ウェブ上でアクセスできるサービスに類似したオンライン・サービスを提供することに関する第1の問題は、単一のソースから複数の受信者に、1人の提供者から複数の聞き手に、情報が連続して単方向に流れることである。聞き手との情報交換がまったく無ければ、通信フローは単方向に限定される。しかし、受け取った口頭情報と直接対話して、追加の情報またはサービスにアクセスすることはできない。
さらに、聞き手がライブ・スピーチを聞いているときの、聞き手にとっての問題は、興味のあるトピックを選択し、次いでネットワーク・アドレス(すなわち、URL)を識別して、選択したトピックに関連するマルチメディア情報またはサービスに(例えば、ウェブから)アクセスしなければならないことである。今日までに、この問題は部分的に解決されてきている。
口頭またはラジオの情報にウェブのような機能を提供するための解決策は、送信される放送音声信号、または別のチャネルに情報(例えば、URL)を埋め込むこと(サイマルキャスト(simultcast)すること)である。このようなシステムの例は、以下の特許に記載されている。すなわち、「Apparatus andmethod for initiating a transaction having acoustic data receiver that filtershuman voice」と題する米国特許第6125172号、「Method for controlling a computer with an audiosignal」と題する米国特許第6098106号、「Network linking method using steganographicallyembedded data objects」と題する米国特許第5841978号、「System, method and device forautomatic capture of Internet access information in a broadcast signal for useby an Internet access device」と題する米国特許第5832223号、「Media online services accessvia address embedded in video or audio program」と題する米国特許第5761606号、「Method forencoding and broadcasting information about live events using computer patternmatching techniques」と題する米国特許第5189630号、「Receiver apparatus and methods foridentifying broadcast audio program selections in a radio broadcast system」と題する米国特許第5119507号、または「Synchronizedpresentation of television programming and web content」と題する米国特許第6061719号である。
これらの特許に記載されたシステムおよび方法は、主プログラムの送信と同時に、それと同一の音声または映像信号上に符号化され、組み込まれ、もしくは変調される、あるいは別のチャネルで送信される補足情報(例えば、URL)の送信を必要とする。ラジオまたはテレビ局は、音声信号とともにこの補足情報を符号化し、変調し、かつ送信する手段を備える必要がある。ラジオの視聴者(auditor)またはテレビの視聴者は、この情報を受信するための特別な受信機およびデコーダ回路を備える必要がある。
上で論じた構成とは別に、聞き手が興味のあるトピック(すなわち、キーワードまたは文)を「事前に選択」しておき、そのトピックを事前に指定されたネットワーク・アドレス(すなわち、URL)に結びつけること可能にするシステムも開発されている。事前に指定されたネットワーク・アドレスは、事前に選択されたトピックに関連するマルチメディア情報またはサービスにアクセスするために使用される。一般的には、このようなシステムはすべて音声認識(speech recognition)技術をベースにしている。特定の音声の認識に応答して特定の動作を実施するように、この技術を使用してキーワード(すなわち、選択された単語または文)を識別する。このようなシステムの例は、以下の特許に記載されている。
「Keyword listening device」と題する米国特許第5946050号は、放送信号の音声部分を、キーワード・リスニング装置を用いて監視する方法およびシステムを開示している。ただし、この特許は、比較的限られたキーワードのセットだけを格納する。キーワード・リスニング装置は、このキーワードのいずれかを探して放送信号を監視する。1つまたは複数のキーワードのいずれかが認識されるとすぐに、放送音声信号をある期間録音し、次いで全体を解析する。解析の後で、記録され解析された放送音声信号に基づいて、指定されたアドレスによる外部ネットワークへの接続、ビデオ・カセット・レコーダの制御など、異なるいくつかの機能を実施することができる。
「Automatic recognition of audioinformation in a broadcast program」と題する米国特許第6011854号は、ラジオ局によって放送される(交通、天気、時刻、スポーツ、ニュースなどの)報道情報や最新情報を検索するための音声処理システムを開示している。検索は、ユーザが事前に選択し、音声処理システムに入力した(所望する報道に応じた「交通」、「天気」、「時刻」、「スポーツ」、「ニュース」のような)少なくとも1つのキーワードに基づいて行われる。音声処理システムで使用される音声認識ソフトウェアが、要求された情報報道を求めてラジオ局をスキャンしている間、ユーザは、他の音声ソース(CD、テープ、他のラジオ局の放送など)を、それらの音声ソースからの情報コンテンツをモニタ(すなわち、監視)することなく聴くことができる。ラジオ放送で使用される入力されたキーワードに基づいて、要求された情報報道が検出されると直ぐに、音声処理システムは、その音声出力を所望の放送を送信するラジオ局に切り換える。その結果、ユーザは適宜、交通、天気、時刻、スポーツ、ニュース、またはニュースあるいはそれらの任意の組合せの報道または最新情報を聴くことができる。
「Broadcast speech recognition system forkeyword monitoring」と題する米国特許第6332120号は、興味のある情報を探して放送音声が自動的にモニタされるシステムを開示している。このシステムは、興味ある事柄に関するキーワードからなる用語集を格納するためのメモリを備えたコンピュータ・プロセッサ、音声放送を受信するための音声受信機、および音声認識システムを備える。音声認識システムは、受信した音節中にキーワードの1つが現れたときにそれを検出するために、音声受信機およびコンピュータ・プロセッサと関連づけられている。レポート・ジェネレータは、コンピュータ・プロセッサに関連づけられており、キーワードの検出に応答して、検出されたキーワードおよびそのコンテキストに関連する詳細なレポートを作成する。
前記のシステムで、音声信号に組み込まれた(またはメイン・プログラムと同時に送信される第2の信号上の)補足情報の送信を必要としない場合でも、聞き手は、データ・ストリーム中のハイパーリンクされた語句(hyperlinked terms)の出現を検出するために、音声認識機能を備えた受信機を装備しなければならない。
音声処理の分野では、音声データ・ストリーム中の単語または文の出現を識別する機能のことを、一般に「ワード・スポッティング(word spotting)」と呼ぶ。音声ワード・スポッティングの目標は、事前の手入力なしに、デジタル化された連続音声ストリーム内の検索語句の境界を識別することである。例えば、不特定話し手によって発音されたライブ・スピーチを検索し索引付けすることは、特に難しい問題である。これは大部分、既存の自動音声認識技術の機能が限られていることに起因している。上で論じたシステムでは、ワード・スポッティング・タスクが、聞き手側で、話し手とは無関係に、語彙の制限なしに、しかも認識すべきデータ以外の音声データを使用して学習させた(train)音声モデルを使用して実施されることに留意されたい。
実際、あらゆるシステムで基本的に問題になるのは、未知のまたは一般的な話し方、語彙、雑音レベル、および言語モデルに基づいて、話し手とは無関係に、連続的に「ワード・スポッティング」(すなわち、予め指定されたキーワードまたは語句の識別)を実施するための最新音声認識技術の信頼性の無い挙動である。
既に述べたように、ユーザとの対話のレベルを向上し改善するとともに、より多くの情報を提供し、より多くの学習または娯楽の機会を提供するために、ここ数年の間に、いくつかの対話システム(例えば、対話型テレビ、ウェブTVなど)が開発されてきたが、それでもなお、ライブ・スピーチ(例えば、ラジオまたはテレビの放送から受信するライブ会議、またはライブ・インタビューなど)の聞き手は、重要な情報源、例えばウェブ上に存在している情報源にアクセスできないままの状態である。
米国特許第6125172号 米国特許第6098106号 米国特許第5841978号 米国特許第5832223号 米国特許第5761606号 米国特許第5189630号 米国特許第5119507号 米国特許第6061719号 米国特許第5946050号 米国特許第6011854号 米国特許第6332120号 米国特許第5199077号 米国特許第5425129号 米国特許第5950159号 米国特許第6006185号 米国特許第6073095号 米国特許第6185527号 米国特許第6230126号
したがって、ライブ・スピーチに参加している人々(あるいは、例えば生放送番組を受信している人々)が補足情報を選択し、その情報にアクセスすることを可能にする、使いやすく、シンプルな機構を提供することが求められている。
生放送番組の話し手および制作者が、スピーチの間(例えば、会議の間、あるいはラジオ、テレビの生番組の間)に発音される予定の(一般に、話し言葉、単語、または文から選ばれる)選択された語句から、関連づけられたウェブ上のデータへのハイパーリンクを、従来の単一方向放送信号中にそれらのハイパーリンクを組み込むことなく、より一般的には、それらのハイパーリンクを物理的に送信することなく、また従来の送受信機を修正することなく生成することも求められている。
本発明の基本的な目的は、ライブ・スピーチ、あるいはラジオ、テレビの生放送番組などの音声情報を、その音声情報に関連する補足情報またはサービスを用いて機能拡張することである。
本発明の他の目的は、スピーチの間に話し手によって発音される予定の選択された語句または単語と、選択された語句に関連する補足情報との間にハイパーリンクを生成することである。
本発明の他の目的は、ハイパーリンクされた語句がスピーチの間に話し手によって発音されたときに、それらを識別し、その識別された語句に関連づけられたハイパーリンクを起動することである。
本発明の他の目的は、聞き手が、ライブ・スピーチの間に、聞き手の注意を引いたトピックに関連する語句を選択し、スピーチの直後にまたはその後で、それまでに選択されたトピックに関連する情報にアクセスできるようにすることである。
本発明の他の目的は、ライブ・スピーチの聞き手が、スピーチの間に、聞き手の注意を引いたトピックに関連する情報に、必要な機器の複雑さを最小限に抑えるとともに、聞き手側からの最小の作業でアクセスできるようにすることである。
本発明は、ライブ・スピーチの聞き手が、スピーチの直後に、またはその後で、スピーチの間に発音された語句に関連する補足情報にアクセスすることを可能にする、特許請求の範囲の独立項に定義されたシステム、方法、およびコンピュータ・プログラムを対象とするものである。
このシステムは、ハイパーリンク(すなわちURL)と、スピーチの間に話し手によって発音される可能性の高い、選択された語句またはワードとを関連づける。話し手側装置(すなわち、マイクロホンが接続されたコンピュータ装置)で動作する音声認識システムは、スピーチの間に、ハイパーリンクされた語句のいずれかが話し手によって発音されたことを認識(すなわち、ワード・スポッティング)し、認識されたハイパーリンクされた語句が発音された時刻を記録する。
このシステムは、同一のユニバーサル・タイムによる、話し手側装置と何台かの聞き手側装置(例えば、ワークステーション、ポータブル・コンピュータ、携帯情報端末−PDA、スマート・フォン、その他任意の種類のハンドヘルド・コンピュータ装置など)との同期に基づくシステムである。したがって、話し手によって送信され、聞き手によって受信される情報の流れは、話し手と聞き手の相対的な位置とは無関係に、常に同期している。聞き手は、スピーチの間に、興味のあるトピックに気づくたびに、単に聞き手側装置の予約キーを押すだけで、即時にトピックを選択する。聞き手がトピックを選択したときのユニバーサル・タイムは、聞き手側装置に格納される。
本発明の好ましい実施形態では、話し手側装置と聞き手側装置の間の同期は、GPS(GlobalPositioning System、全地球測位システム)時刻、GLONASS(Global Orbiting Navigational SatelliteSystem)時刻、または衛星システムに基づく他の適切なユニバーサル・タイムなどのユニバーサル・タイムを基準にして実施される。GPSまたはGLONASS受信機は、話し手側装置と統合されるか、またはそれに接続される。また、GPSまたはGLONASS受信機は、各聞き手側装置と統合されるか、またはそれに接続される。各聞き手側装置は、放送スピーチを受信するために聞き手が使用するラジオまたはテレビのセットとは独立し分離されたものである。
より詳細には、本発明は、聞き手からアクセス可能なスピーチ・ハイパーリンク−タイム・テーブル(Speech Hyperlink-Time table)を、スピーチの間に、話し手側装置から生成するためのシステム、方法、およびコンピュータ・プログラムを開示する。この方法は、話し手によって発音される予定の、事前に定義されたハイパーリンクされた語句を識別するための手段、および事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク・テーブルを検索し、アクセスするステップと、スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を取り出すステップと、スピーチの間に、スピーチ・ハイパーリンク・テーブル内の事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、話し手側装置に接続された音声認識システムを用いて当該ハイパーリンクされた語句を認識するステップと、認識されたハイパーリンクされた語句のそれぞれについて、話し手による認識されたハイパーリンクされた語句の発音に対応するユニバーサル・タイムを決定するステップと、スピーチ・ハイパーリンク−タイム・テーブルに新しいレコードを生成するステップと、話し手による認識されたハイパーリンクされた語句の発音に対応するユニバーサル・タイム、スピーチ・ハイパーリンク・テーブルから取り出された、認識されたハイパーリンクされた語句を識別するための手段、およびスピーチ・ハイパーリンク・テーブルから取り出された、認識されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を新しいレコードにコピーするステップとを含む。
また、本発明は、聞き手側装置で、スピーチの間に話し手によって発音されたハイパーリンクされた語句を選択し、選択されたハイパーリンクされた語句に関連する情報にアクセスするためのシステム、方法、およびコンピュータ・プログラムも開示する。この方法は、スピーチの間に、話し手によって発音されている語句を選択するための選択コマンドを受け取った場合に、現在のユニバーサル・タイムを決定するステップと、現在のユニバーサル・タイムを選択ハイパーリンク−タイム・テーブルに記録するステップとを含み、さらに、聞き手側装置からアクセス可能な、話し手によって発音された事前に定義されたハイパーリンクされた語句のそれぞれについて、事前に定義されたハイパーリンクされた語句の発音に対応するユニバーサル・タイム、事前に定義されたハイパーリンクされた語句を識別するための手段、および事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク−タイム・テーブルにアクセスするステップと、選択ハイパーリンク−タイム・テーブル内に記録されたユニバーサル・タイムについて、記録されたユニバーサル・タイムに発音された選択されたハイパーリンクされた語句を、スピーチ・ハイパーリンク−タイム・テーブル内で識別するステップと、選択されたハイパーリンクされた語句を識別するための手段、および選択されたハイパーリンクされた語句を検索し、アクセスするための手段をスピーチ・ハイパーリンク−タイム・テーブルから取り出すステップと、取り出された選択されたハイパーリンクされた語句を識別するための手段、および取り出された選択されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を選択ハイパーリンク−タイム・テーブルに格納するステップとを含む。
本発明の他の実施形態については、添付の特許請求の範囲の従属項によって示されている。
本発明の前述ならびに他の目的、特徴、および利点は、以下の詳細な説明ならびに添付の特許請求の範囲および図面を参照することによってより良く理解できるはずである。
本発明の新規かつ発明性のある特徴だと考えられる特性は、添付の特許請求の範囲に記載されている。しかし、本発明、本発明の好ましい使用の態様、他の目的、および利点は、例示的な詳細な実施形態についての以下の詳細な説明を添付の図面と併せて読むと、最も良く理解できるはずである。
図1および図2に示したように、本発明は、ライブ・イベント(例えば、会議への参加)(102)(202)の聞き手(100)、または生放送番組を視聴するラジオ、テレビの視聴者(200)が、注意または興味を引いたトピック(101)、(201)を選択し、すぐにまたは後で、選択されたトピック(103)、(203)に関連するマルチメディア情報に容易にアクセスできるようにするシステムおよび方法を開示する。
図1は、本発明による典型的な状況を示す。ライブ・スピーチ(例えば、「ワインと健康」をテーマにした会議など)に参加している聞き手(100)が、さらに情報を入手したいと思うトピック(101)(例えば、「レスベラトロル」という語句)に注意を引かれたとする。このような状況下では、スピーチの間に聞き手(100)がトピック(例えば、「タンニン」、「フェノール」、「レスベラトロル」など)を選択し、すぐにまたは後で、例えばインターネットに接続されたサーバ上にある、選択されたトピックに関連する情報にアクセスできるようにするシンプルな機構の提供が求められている。
図2は、他の典型的な状況を示す。テレビの視聴者(200)が、生放送のスピーチ(例えば、「ワインと健康」をテーマにしたテレビの生番組)を視聴している。
図3に示したように、スピーチの間に話し手(301)によって使用される可能性が高い語句または単語(304)にハイパーリンク(すなわち、URL)(303)が関連づけられている。このようなハイパーリンクされた語句または単語は、関係のあるトピックまたはアイテム(302)に関連づけられる。話し手側ワークステーション(306)(すなわち、マイクロホン(307)が接続されたコンピュータ・システム)上で動作する音声認識システム(305)は、スピーチの間に、それらのハイパーリンクされた語句(308)のいずれかが話し手によって発音されたことを検出し、検出したハイパーリンクされた語句が発音された時刻(309)を記録する。このシステムはまた、話し手側ワークステーション(306)と何台かの聞き手側装置(311)(例えば、ワークステーション、ポータブル・コンピュータ、PDA−パーソナル・デジタル・アシスタント、スマート・フォン、任意の他の種類のハンドヘルド・コンピュータ装置など)との同一のユニバーサル・タイム(309)、(310)による同期(312)に基づくシステムである。したがって、話し手(301)によって送信され、聞き手(300)によって受信される情報の流れは、話し手(301)と聞き手(300)の相対的な位置とは無関係に、常に同期している。聞き手(300)は、スピーチの間に、興味のあるトピック(313)に気づくたびに、単に聞き手の装置(311)の予約キーを押す(314)だけで、その場でトピックを選択する。聞き手(300)によってトピックが選択された(314)ときのユニバーサル・タイム(310)は、聞き手側装置(311)に格納される。
図3に示したように、本発明は以下の基本方針に基づいてなされたものである。すなわち、
1.同一のユニバーサル・タイム(312)(例えば、GPS受信機(309)、(310)によって提供されるGPS時刻)によって、話し手(301)と聞き手(300)の相対位置に関係なく、話し手側ワークステーション(306)と聞き手側装置(311)を同期させること、および
2.(マイクロホンが接続された)話し手側ワークステーション(306)上で動作する音声認識システム(305)によって、スピーチ(302)の間に話し手(301)によって発音されるハイパーリンクされた語句(304)(例えば、「レスベラトロル」(308))を検出すること。
(ユニバーサル・タイム・システム)
話し手と聞き手の位置に関係しない、共通のタイミング・シーケンスは、例えば、GPS(GlobalPositioning System)時刻またはUTC(Universal Time Co-ordinated、協定ユニバーサル・タイム)時刻(今日では、GMT時刻やZULU時刻とも呼ばれている)などの絶対的なタイミング基準から得られる。
正確なタイミング信号を送信するために、GPSは、高度10,000マイル(約16,100km)、軌道傾斜角55度の24台の衛星を使用している。このタイミング信号は、地球上のどこからでも、どのようなGPS受信機によっても、その位置を決定するために使用される。1575MHzの送信信号は、C/A(clear acquisition)コードと呼ばれる、1MHzの帯域幅の位相変調信号を運ぶ。GPS受信機は、この信号を少なくとも3台のGPS衛星から受信したとき、それ自体の緯度および経度を約30mの精度で決定することができる。地理的位置の決定の外に、今日では、GPSは、PTTI(PreciseTime and Time Interval、正確な時刻および時間間隔)を配信するために広く使用されている。このシステムは、TOA(time ofarrival)測定を使用して位置を決定する。正確な時刻を示す時計はユーザにとっては必須ではない、その理由は、視野内にある4つの衛星のTOAを同時に測定することによって、位置の外に時刻が得られるからである。海抜高度が既知の場合は、3台の衛星で間にあう。ユーザが既知の位置で静止している場合は、原理的には、時刻は単一の衛星の観測によって取得することができる。GPS時刻サービスに関する情報は、米国ワシントンDCにある米国海軍天文台の「TimeService Department(時刻サービス部門)」から、http://tycho.usno.navy.mil/で提供されている。
GPSは今日、正確な時刻の全世界的な主要な供給元となっている。GPSは、時刻の供給源として、またある位置と別の位置の時刻を比較する手段として幅広く使用されている。GPSからは、3種類の時刻が使用可能である。すなわち、GPS時刻、米国海軍天文台によって評価され生成されるUTC、および各GPS衛星の自走原子時計からの時刻である。コロラド州コロラド・スプリングス近くのファルコン空軍基地のMCS(Master Control Station、主統制局)は、世界中の5つのモニタ局からGPS衛星のデータを収集する。カルマン・フィルタ・ソフトウェア・プログラムによって、各衛星およびその動作クロックごとの時刻誤差、周波数誤差、周波数ドリフト、およびケプラー軌道パラメータを推定する。この情報は、リアルタイムで放送できるように各衛星にアップロードされる。このプロセスによって、この衛星群全体にわたるGPS時刻は数ナノセカンド以内で一貫性が保たれ、各衛星の正確な位置は数メータ以内で決定される。
第2のユニバーサル・タイム標準であるUTC(協定ユニバーサル・タイム)は、地球の自転との同期を維持するために閏秒を導入する。GPS信号から得られるUTC時刻の評価を提供するために、1組のUTC修正もGPS放送信号の一部として提供される。この放送メッセージは、すべての秒にGPS時刻とUTCの間の時間差を含む。このことにより、データ・ストリームの滑らかなフローを処理するソフトウェア、またはデータ・サンプル間の時間を計算するソフトウェアが複雑になる。本発明においてはGPS時刻の方が好ましい、その理由は、このシステムが閏秒の導入を回避するとともに、容易にUTCとも関連づけられるからである。UTC(GMT)時刻サービスに関する情報は、http://time.greenwich2000.com/に出ている。
(GPS受信機)
直接デジタルGPS受信機については、ウェブサイトhttp://w3.research.ibm.com/present/gto200038.htmに記載されている。これは、GPSを何にでも(例えば、PDA、携帯電話、ウェアラブル・コンピュータ、ビデオ・カメラなどに)組み込める、小さな低価格のチップの例である。この受信機は、IBMとライカ・カメラ社(Leica Camera AG)とが共同で開発したものである。シリコンゲルマニウム(SiGe)技術による高速アナログ機能がCMOS技術と統合されたとき、この単一チップの直接デジタルGPS(全地球測位システム)受信機が可能になった。GPSによって得られる位置情報は、地図作成や測量から、車両追跡、携帯電話による911番通報者の位置、自動農機具、ゴルフカート・ロボットにいたるまで、多種多様な応用例に使用されている。この受信機チップにより、無線装置の寸法が縮小され、複雑さが軽減される。従来の2段アナログ・ダウン・コンバージョンで必要とされていた、アナログ・ミキサー段も、(高品質フィルタなど)コストの高いディスクリート部品も必要ない。その代わりに、入ってきたGPS信号はアンテナで完全にデジタル化され、次いでCMOSベースのチップでデジタル的にフィルタ処理される。この直接デジタル化は、微小電力で高速に動作するSiGe技術の機能によって可能となったものであり、この技術のコアは、SiGeベースのアナログ・デジタル・データ変換である。
本発明によれば、GPSまたはGLONASS受信機は、話し手側ワークステーション(通常、パーソナル・コンピュータ)および聞き手側装置(例えば、パーソナル・コンピュータ、ウェアラブル・コンピュータ、PDA(パーソナル・デジタル・アシスタント)、スマート・フォン、オンボードのモバイル・コンピュータなど)に組み込まれるか、またはそれに接続される必要がある。GPSまたはGLONASS衛星から受信したユニバーサル・タイム信号を使用して、同一のユニバーサル・タイムによって話し手側ワークステーションと聞き手側装置の内部電子時計システムを初期化し同期化する。GPSまたはGLONASS衛星が視界から外れている期間(例えば、話し手または聞き手の装置がビル内にあるとき、あるいは外部アンテナに接続されていないときなど)、したがって時刻信号がそれらの衛星から受信されない期間は、時刻情報を自律電子時計システムから継続的に出力する必要がある。内部時計システムのドリフトに依存するが、十分な時刻精度を保ち、同一のユニバーサル・タイムでユーザ装置を話し手ワークステーションおよび放送局に確実に同期させるためには、程度の差はあっても衛星信号を周期的に繰り返し受信する必要がある。
実際には、ユーザ装置がポータブルまたは車載装置である場合には、衛星信号はユーザが屋外にいるか移動中であるときに受信される。また、ユーザ装置が家屋またはビル内に長期間固定され、設置される場合には、ユーザ装置は、屋外に設置されたGPSまたはGLONASSアンテナ(例えば、ビルの屋上に設置されたアンテナなど)に接続する必要がある。
(連続音声中の単語を検出するシステムおよび方法)
音声認識は、コンピュータ(または他の種類のシステムまたは装置)が、話し言葉を識別するために使用するプロセスである。基本的には、音声認識システムは、話し手が何を話しているかを正確に認識できるコンピュータである。
音声認識は非常に難しい課題である。書かれた原稿と異なり、話し言葉の間には、明確なスペースが存在しない。通常、文全体または文の一部がポーズなしに発音される。さらに、通常、子音や母音の発音など、音声信号の音響的な変動により、一連の単語または部分語(subword)単位への一義的なマッピングは困難である。音声変動の主要な原因は、同時調音(coarticulation)、または所与の語音(speechsound)または単音(phone sound)の音響特性が、その音声が生成される音素コンテキスト(phonetic context)に依存して異なる傾向があることである。
音声認識システムは、対応する話し方、語彙、および言語モデルに応じて分類することができる。孤立した単語を認識する装置(isorated word recognizer)では、話し手が個々の単語の間に短いポーズを挿入することが必要になる。連続音声を認識する装置(continuousspeech recognizer)は流暢なスピーチに対して動作するが、通常は、厳密な言語モデルまたは文法を使用して許容し得る単語列の数を制限している。
ワード・スポッタは特殊な音声認識装置である。この装置も、流暢なスピーチに対して動作する。しかし、ワード・スポッタは、全翻音(full transcription)ではなく、関係する単語または文を選択的に探し出す。ワード・スポッティングは、キーワード索引方式に基づいて情報を取り出すために、あるいは音声コマンド・アプリケーションで孤立した単語を認識するために有用である。
今日、本発明をサポートするために必要なワード・スポッティング機能を有する複数の音声認識システムが使用可能である。これらのシステムを使用すると、スピーチの間に話し手によって発音される事前に定義された単語または文(ハイパーリンクされた語句)の検出が可能になる。このような音声認識システムは、例えば、以下の特許に記載されている。
「Wordspotting for voice editing andindexing」と題する米国特許第5199077号は、隠れマルコフモデル(HMM)に基づくワード・スポッティングの技術を開示している。この技術を使用すると、話し手はキーワードを動的に指定することができ、またキーワードの単一の繰り返しにより付随するHMMを学習させることができる。キーワードでない音声は、事前に記録された連続音声のサンプルによって学習させたHMMを使用してモデル化される。ワード・スポッタは、ボイス・メールや混合メディア文書の編集などの対話型アプリケーション、単一話し手のオーディオまたはビデオ記録のキーワード索引付けなどを対象としている。
「Method for word spotting in continuousspeech」と題する米国特許第5425129号は、デジタル化された音声データ・チャネルを解析して所望のリストの単語または文の存在を調べるシステムおよび方法を開示している。この発明のシステムおよび方法は、ICSRS(IBMContinuous Speech Recognition System、IBM連続音声認識システム)との関連で実装されており、関係のない音素データが存在する中で、事前に指定された単語または文を追跡するサブシステムを音声認識システムの中に提供している。
「Word spotting using both filler and phonerecognition」と題する米国特許第5950159号は、音響データからキーワードを見つけるための、ワード・スポッティングのシステムおよび方法を開示している。この方法は、冗語(filler)認識フェーズとキーワード認識フェーズを含み、冗語認識フェーズの間に音響データを処理して単音を識別し、時間の区切り符号とその単音の可能性スコア(likelihoodscore)を生成する。また、キーワード認識フェーズの間に音響データを処理して、一連の単音を含む指定されたキーワードの実例を識別する。キーワード認識フェーズでは、冗語認識フェーズで生成された時間の区切り符号と可能性スコアが使用される。
「System and device for advanced voicerecognition word spotting」と題する米国特許第6006185号は、話し手に依存しない、連続音声のワード・スポッティング音声認識システムおよび方法を開示している。発話中の音素の各エッジが高速かつ正確に分離される。発話は、各音素のエッジに基づいて波形区分に分けられる。音声認識エンジンは、いくつかの波形区分を調べるために何度か問合せを受け、その結果が解析されて発話中の単語が正確に識別される。
「Fast vocabulary independent method andapparatus for spotting words in speech」と題する米国特許第6073095号は、スピーチ中の単語/単音列を見つけるための前処理ステップと疎から詳細への(coarse-to-detailed)検索方式とを使用してスピーチ中の単語を見つけだす、高速でかつ語彙に依存しない方法を開示している。
「System and method for automatic audiocontent analysis for word spotting, indexing, classification and retrieval」と題する米国特許第6185527号は、後続の情報取り出しのためにオーディオ・ストリームに索引づけをするシステムおよび方法を開示している。
「Word-spotting speech recognition deviceand system」と題する米国特許第6230126号は、認識対象の特徴を格納した辞書を含む音声認識装置を開示している。この装置はさらに、入力スピーチの特徴を認識対象の特徴と比較するマッチング・ユニットと、マッチング・ユニットが入力スピーチと認識対象の1つとのかなりの類似を見つけたときに、入力スピーチに基づいて辞書中の各音素の時間長を更新する辞書更新ユニットとを含む。
音声認識システムに関する基本的な問題は、連続モードで、話し手に依存することなく、また未知のまたは一般的な話し方、語彙、ノイズ・レベルおよび言語モデルに基づいて「ワード・スポッティング」(すなわち、事前に指定されたキーワードまたは語句の識別)を実施する最新技術の挙動に信頼性がないことである。一方、本発明に必要な自動ワード・スポッティング機能は、比較的容易に実装できる。その理由は、話し手自身の声、話し手固有の語り口、ならびに特別に適合された用語集および言語モデルを使用して、話し手が事前にそのシステムに学習させることができるからである。
本発明の一態様によれば、スピーチ(302)の間に、話し手(301)によって発音される予定の、事前に選択された発話(304)(普通に話される言葉、語句、または文)から、ウェブ上で関連づけられた関係データ(303)へのハイパーリンクを生成し、音声認識システム(305)に学習させてハイパーリンクされた語句(304)を識別する(ワード・スポッティングする)システムおよび方法が開示される。
本発明の他の態様によれば、ライブ・スピーチの間にハイパーリンクされた語句(304)が話し手(301)によって発音されたときに、その語句を自動的に認識するとともに、認識したハイパーリンクされた語句(304)、関連づけられたネットワーク・アドレス(すなわち、URL)(303)、およびそのハイパーリンクされた語句の認識に対応するユニバーサル・タイム(309)のリストを含むテーブルをネットワーク・サーバ上に生成するためのシステムおよび方法が開示される。
本発明の他の態様によれば、スピーチ(302)の間に、聞き手(300)が興味のあるトピック(313)を選択(314)したことに対応するユニバーサル・タイム(310)を、聞き手の装置(311)上に記録するためのシステムおよび方法が開示される。
本発明の他の態様によれば、聞き手(300)が、ハイパーリンクされた語句(304)に関連づけられた関連情報を、コンピュータ・ネットワークに接続されたサーバにアクセスし取り出すことを可能にするシステムおよび方法が開示される。
(スピーチ・ハイパーリンク・テーブルを生成し、ハイパーリンクされた語句の用語集を用いて音声認識システムに学習させる方法)
図17に示したように、本発明は、スピーチの前に話し手(301)によって使用されるシステム、方法、およびコンピュータ・プログラムであって、スピーチ(302)の間に話し手(301)によって発音される予定の選択された発話(304)(普通に話される言葉または文)から、コンピュータ・ネットワーク、好ましくはウェブに接続されたサーバ上の関連づけられた関連データ(303)へのハイパーリンクを生成し、スピーチをワード・スポッティングするために前記ハイパーリンクされた語句(304)の用語集を用いて音声認識システム(305)に学習させるためのシステム、方法、およびコンピュータ・プログラムを開示する。この方法は、
スピーチの作成または編集の間に、
・(1701)スピーチのテキストまたはドラフト・テキスト(400)を編集するステップと、
・(1702)スピーチ・テキスト(500)上で、ハイパーリンクを生成すべき複数の適切な語句または単語(501)を選択し、マーキングするステップと、
・(1703)スピーチのためのスピーチ・ハイパーリンク・テーブル(600)を生成するステップと、
・スピーチ・ハイパーリンク・テーブル(600)中に、選択された語句または単語(501)とコンピュータ・ネットワーク(908)に接続されたサーバ(909)に存在するマルチメディア情報またはサービスとの間のハイパーリンクを定義するステップであって、
既に選択されたハイパーリンクされた語句または単語(501)のそれぞれに対して、
・(1704)名前および/または記述(601)(好ましくは、短い記述)を割り当てるステップと、
・(1705)所望のマルチメディア情報またはサービスにアクセスするための、そのネットワーク(908)内での宛先アドレス(602)(例えばURL)を割り当てるステップと、
・(1706)割り当てられた名前(または記述)(601)および/または宛先アドレス(602)をスピーチ・ハイパーリンク・テーブル(600)に格納するステップとを含むステップと、
スピーチ・ハイパーリンク・テーブル(600)にハイパーリンクが定義された後で、
・(1707)話し手側ワークステーション(702)上で実行される音声認識システム(701)をハイパーリンクされた語句(602)、(703)の用語集を用いて学習させ、その語句がスピーチの間に話し手(700)によって発音された場合に、それらのハイパーリンクされた語句を自動的に認識するステップと
を含んでいる。
図4は、会議室で行われるか、またはラジオもしくはテレビで放送される(例えば、「ワインと健康」というテーマに関する会議の)スピーチの例のテキスト(400)を示す。ライブ・スピーチの間に、話し手(301)は、このテキストの全文を読み上げることもできるし、あるいは都合により、意図的にある部分を読むことを省略し、順序を変更し、代替のもしくは追加のコメントを話すことができる。
図5は、話し手、または番組編集者(または、そのことを担当する任意の人)が、どのようにスピーチのテキスト(500)を取得し、特定の語句(501)(「フェノール」、「レスベラトロル」、「タンニン」、「エラグ酸」、「水酸化桂皮酸塩」、「遊離基」、「アントシアニン」、「没食子酸」などの単語または文)を選択してウェブ上でアクセス可能な追加の情報に関連づけるかを示している。「ハイパーリンクされた語句」と呼ばれるこれらの選択された語句は各々、関連する情報またはサービスを取り出すことができる、ウェブ上のネットワーク・アドレス(すなわち、対応するURL)に関連づけられる必要がある。
図6は、話し手、または番組編集者(または、そのことを担当する任意の人)が、選択されたハイパーリンクされた語句(601)(すなわち、スピーチ・テキスト上の、例えば「レスベラトロル」などの単語または文)をウェブ(602)上の対応するURL(例えば、http://www.ag.uiuc.edu/~ffh/resvera.html)に関連付けるスピーチ・ハイパーリンク・テーブル(600)を、どのように話し手側ワークステーション(306)上に生成するかを示している。
図7は、話し手(700)が、スピーチの前に、話し手側ワークステーション(702)にインストールされたワード・スポッティング機能を含む音声認識システム(701)を、ハイパーリンクされた語句(703)(例えば、「フェノール」、「レスベラトロル」、「タンニン」など)の用語集を用いてどのように学習させるかを示している。本発明のある特定の実施形態では、ワード・スポッティング機能は、IBMViaVoiceソフトウェア製品上で動作するICSRS(IBM Continuous Speech RecognitionSystem)を用いて実装される。
(スピーチの間にハイパーリンクされた語句を認識し、スピーチ・ハイパーリンク−タイム・テーブルをスピーチ・サーバ上に生成する方法)
図18に示したように、本発明はまた、ライブ・スピーチの間に、話し手(800)によってハイパーリンクされた語句(803)が発音されたときそれを認識し、ネットワーク(908)に接続されたスピーチ・サーバ(907)上にスピーチ・ハイパーリンク−タイム・テーブル(906)を生成するとともに、そのテーブルを、認識されたハイパーリンクされた語句(304)、対応するネットワーク・アドレス(すなわち、URL)(303)、およびそのハイパーリンクされた語句が認識されたユニバーサル・タイム(309)の配列(905)を含むレコードを用いて更新するための、話し手側ワークステーション(802)で使用されるシステム、方法、およびコンピュータ・プログラムも開示する。より詳細には、この方法は、
・(1801)ネットワーク(908)に接続されたスピーチ・サーバ(907)上に、スピーチのためのスピーチ・ハイパーリンク−タイム・テーブル(906)を生成するステップと、
スピーチの間に、
・(1802)スピーチを「ワード・スポッティング」して、話し手(800)によるハイパーリンクされた語句(803)の発音を、話し手のワークステーション(802)上で動作し、スピーチのために特に学習させた音声認識システム(801)を用いて認識するステップと、
認識されたハイパーリンクされた語句(803)のそれぞれについて、
・(1803)ユニバーサル・タイム装置を用いて、ハイパーリンクされた語句(903)の認識に対応するユニバーサル・タイム(904)を決定するステップと、
・(1804)レコードを生成するステップであって、
・ハイパーリンクされた語句(903)が認識されたときのユニバーサル・タイム(904)、
・スピーチ・ハイパーリンク・テーブル(600)を使用して認識されたハイパーリンクされた語句(803)の名前または短い記述(601)、および
・スピーチ・ハイパーリンク・テーブル(600)を使用して認識されたハイパーリンクされた語句(803)に対応するネットワーク・アドレス(1005)(すなわち、URL)
を含むレコードを生成するステップと、
・(1805)生成されたレコードを、ネットワーク(908)を介して話し手側ワークステーション(902)からアクセス可能なスピーチ・サーバ(907)に格納されたスピーチ・ハイパーリンク−タイム・テーブル(906)、(1000)に格納するステップと
を含む。
図8は、話し手(800)がスピーチを発音している間に、話し手のワークステーション(802)上にインストールされ(例えば、IBMのViaVoice(R)ソフトウェア製品で動作するICSRS(IBM連続音声認識システム)を用いて実装され)、話し手によって事前に学習させた音声認識システム(801)上で動作する「ワード・スポッティング」機能が、音声ストリームからハイパーリンクされた語句(803)をどのようにして自動的に検出するのかを示している。
図9は、話し手側ワークステーション(902)上で動作する音声認識システム(901)によってハイパーリンクされた語句(903)(例えば、「レスベラトロル」)が認識された後で、
・ハイパーリンクされた語句(903)の認識に対応するユニバーサル・タイム(904)(例えば、2001年5月12日14時23分18秒)、
・ハイパーリンク語句の名前または短い記述(601)(例えば、「レスベラトロル」)、および
・関連付けられたURL(602)(例えば、http://www.ag.uiuc.edu/~ffh/resvera.html)
が、スピーチ・サーバ(907)上にあるスピーチ・ハイパーリンク−タイム・テーブル(906)にどのように送信(905)され格納されるかを示す。なお、最後の2つは、どちらもスピーチ・ハイパーリンク・テーブル(600)から抽出したものである。
図10は、(例えば、「ワインと健康」というテーマ(1001)についての)スピーチ終了時にできている、スピーチ・サーバ(907)上に格納されたスピーチ・ハイパーリンク−タイム・テーブル(1000)、(906)の例を示している。テーブルのヘッダには、URL(1002):http://www.directbuyer.com/conference-0173.htm/またはネットワーク・アドレスが含まれ、スピーチ・ハイパーリンク−タイム・テーブル(1000)が、スピーチ・サーバ(907)(例えば、www.directbuyer.com)中のそのアドレスに格納されている。ネットワーク中の、スピーチ・ハイパーリンク−タイム・テーブル(1000)が出ているURLは、事前に聞き手に知らされている必要がある。このテーブルの各行は、スピーチの間に、話し手によって発音され、音声認識システム(901)によって認識されたハイパーリンクされた語句(903)に対応する。各列は、それぞれ
・(1003)スピーチの間に、話されたハイパーリンクされた語句(903)を音声認識システム(901)が認識したユニバーサル・タイム、
・(1004)スピーチ・ハイパーリンク・テーブル(600)からコピーされた、認識されたハイパーリンクされた語句(903)の名前または短い記述(601)あるいはその両方、および
・(1005)スピーチ・ハイパーリンク・テーブル(600)からコピーされた、認識されたハイパーリンクされた語句(903)に対応するURL(602)
に対応している。
(選択ハイパーリンク−タイム・テーブル(1106)を生成し、興味のあるトピックを選択する方法)
図19に示したように、本発明はまた、選択ハイパーリンク−タイム・テーブル(1106)を聞き手側装置(1102)上に生成し、そのテーブルに、スピーチの間の聞き手(1100)による興味のあるトピック(1103)の選択(1104)に対応する一連のユニバーサル・タイム(1105)を記録して、スピーチの直後に、または後から、それらのトピックに関連する他の情報を受信するためのシステム、方法、およびコンピュータ・プログラムも開示する。より詳細には、聞き手側装置で使用されるこの方法は、
・(1901)聞き手側装置(1102)上に選択ハイパーリンク−タイム・テーブル(1200)を生成するステップと、
・(1902)選択ハイパーリンク−タイム・テーブル(1200)上に、スピーチ・サーバ(907)に格納されたスピーチ・ハイパーリンク−タイム・テーブル(906)のネットワーク・アドレス(すなわち、URL)(1201)を記録するステップと、
・(1903)話し手(1101)によって発音されたスピーチ(1107)を聴くステップと、
・(1904)スピーチ中の、追加の情報またはサービスを所望する興味のあるトピック(1103)に気づくステップと、
・(1905)この興味のあるトピック(1103)を、聞き手側装置(1102)上で選択コマンド(1104)を入力することによって選択するステップと、
・(1906)現在のユニバーサル・タイム(1105)を、聞き手側装置に組み込まれた、または接続された、(例えば、GPS受信機などの)ユニバーサル・タイム装置を用いて決定するステップと、
・(1907)この現在のユニバーサル・タイム(1105)を選択ハイパーリンク−タイム・テーブル(1106)、(1202)に記録するステップと
を含む。
図11は、スピーチの間に、聞き手(1100)が、ポータブルの聞き手側装置(1102)を使用してスタンドアロン・モードで(すなわち、ネットワークに接続されていない単体の状態で)どのような操作をするのかを示す。図11に詳細を示したある特定の実施形態によれば、聞き手(1100)は、スピーチの間に興味のあるトピック(1103)に気づくたびに、単に聞き手側装置(1102)上の予約キー(1104)を押すことによって、直ちにこのトピックを選択する。聞き手によるトピックの選択に対応したユニバーサル・タイム(1105)は、聞き手側装置(1102)上の選択ハイパーリンク−タイム・テーブル(1106)に格納される。
図12は、スピーチの間に聞き手側装置(1102)上に生成された、典型的な選択ハイパーリンク−タイム・テーブル(1200)を示す。このテーブルの各行は、スピーチの間の、聞き手による興味のあるトピックの選択に対応する個々のユニバーサル・タイムに対応している。このテーブルのヘッダは、そのスピーチに対応したスピーチ・ハイパーリンク−タイム・テーブル(906)、(1000)のURL(1201)(例えば、http://www.directbuyer.com/conference-0173.htm/)を含む。スピーチ・サーバ(907)(例えば、www.directbuyer.com)上のスピーチ・ハイパーリンク−タイム・テーブル(906)、(1000)は、スピーチの間に話し手のワークステーション(902)によって更新される。前述のように、スピーチ・サーバのURLは、聞き手がローカルに選択ハイパーリンク−タイム・テーブル(1200)を生成できるように、予め聞き手に提供しておく必要がある。
(ハイパーリンクを取り出し、情報にアクセスする方法)
図20に示したように、本発明は、聞き手(300)がウェブにアクセスし、聞き手が対応する選択(314)をしたときに話されていたハイパーリンクされた語句(304)に関連づけられた関連データまたは情報をウェブから取り出すことを可能にするシステム、方法、およびコンピュータ・プログラムも開示する。より詳細には、この聞き手側装置(1300)で使用される方法は、
・(2001)スピーチ・サーバ(1303)にアクセスするステップと、
聞き手側装置(1300)上にある選択ハイパーリンク−タイム・テーブル(1304)、(1200)に記録されたユニバーサル・タイム(1202)のそれぞれに対して、
・(2002)記録されたユニバーサル・タイムをスピーチ・サーバ(1303)に送信するステップ(1306)と、
・(2003)スピーチ・サーバ(1303)上にあるスピーチ・ハイパーリンク−タイム・テーブル(1302)、(1000)中で、ユニバーサル・タイム(1306)に関連するハイパーリンクされた語句(1004)(ユニバーサル・タイムに話されていたハイパーリンクされた語句)を識別するステップと、
・(2004)スピーチ・サーバ(1303)中のスピーチ・ハイパーリンク−タイム・テーブル(1302)、(1000)から、選択されたハイパーリンクされた語句の名前(または記述)(1004)および宛先アドレス(URL)(1005)取り出すステップ(1307)と、
・(2005)取り出したハイパーリンク名および宛先アドレス(URL)(1307)を聞き手側装置(1300)上の選択ハイパーリンク−タイム・テーブル(1304)、(1402)に格納するステップと
を含み、
さらにこの方法は、
・(2006)選択ハイパーリンク−タイム・テーブル(1502)中で、スピーチ・サーバ(1507)から取り出したハイパーリンクの名前(もしくは、記述)または付随する宛先アドレスを使用してハイパーリンク(1501)を選択するステップと、
・(2007)聞き手側装置(1500)上で動作するブラウザ・プログラムを使用して前記ハイパーリンク(1501)を起動するステップと、
・(2008)選択されたハイパーリンク(1501)に付随する、取り出された宛先アドレス(1503)、(1504)を使用して、ネットワーク(1505)に接続されたサーバ(1506)上にある情報および/またはサービスにアクセスするステップと、
・(2009)ネットワーク(1602)上でアクセスしたサーバ(1603)から情報および/またはサービス(1604)を取り出すステップ(1601)と、
・ブラウザ・プログラムを使用して、取り出した情報および/またはサービス(1604)を聞き手側装置(1600)上に表示するステップと
を含む。
図13は、聞き手(1100)のポータブル装置(1300)を通信ネットワーク(1301)(例えば、インターネット・ネットワーク)に接続し、スピーチ・サーバ(1303)上のスピーチ・ハイパーリンク−タイム・テーブル(1302)にアクセスすることによって、聞き手側装置(1300)の選択ハイパーリンク−タイム・テーブル(1304)上の情報をどのように更新するかを示している。
図14は、スピーチ・サーバ(1303)のスピーチ・ハイパーリンク−タイム・テーブル(1401)、(1302)を使用して、聞き手側装置(1300)の選択ハイパーリンク−タイム・テーブル(1400)を更新するプロセスを詳細に示す。基本的に、このプロセスを用いて、聞き手が興味のあるトピックを選択したときのユニバーサル・タイム(1403)に話されていたハイパーリンクされた語句(または、省略名または簡単な記述あるいはその両方)およびそのハイパーリンクされた語句のURLは、スピーチ・サーバ(1303)上にあるスピーチ・ハイパーリンク−タイム・テーブル(1401)中で識別され、聞き手側装置(1300)上にある選択ハイパーリンク−タイム・テーブル(1402)にコピーされる。
図15は、聞き手が、スピーチの間に聞き手が選択したトピックにハイパーリンクされているウェブ・ページを、聞き手側装置(1500)からどのように選択し、それにアクセスするかを示す。基本的に、聞き手は、更新された選択ハイパーリンク−タイム・テーブル(1502)上のハイパーリンクされた語句(1501)を指示し、かつ選択し、さらに聞き手側装置(1500)上のソフトウェアを用いてウェブ・ブラウザを起動し、選択したアイテム(1501)のURL(1503)へのハイパーリンクを起動する。この図に示した例では、聞き手は、ハイパーリンクされた語句「エラグ酸」(実際にワイン中で見つけられた化合物)を選択し、URL(1504):http://www.hopeforcancer.com/ellagicacid.htmを示すハイパーリンクを起動する。
図16は、選択されたハイパーリンクされた語句(1501)に関連するウェブ・ページ(1601)(例えば、文書:ellagicacid.htm)が、アクセスしたウェブ・サーバ(1603)(例えば、http://www.hopeforcancer.com)からネットワーク(1602)を介してどのように受信され、聞き手側装置(1600)上でどのように表示され(1604)または再生されるかを示す。
本発明を詳細に、好ましい実施形態に関連して図示し説明してきたが、本発明の趣旨および範囲を逸脱することなく、本発明の形態および詳細についての様々な変更がなし得ることが理解されよう。
会議などのライブ・スピーチの聞き手が、興味のあるトピックにどのように気づくかを示す図である。 ライブのラジオまたはテレビの番組を視聴しているとき、視聴者が興味のあるトピックにどのように気づくかを示す図である。 本発明に従って、話し手ワークステーションと聞き手側装置を同一のユニバーサル・タイムによってどのように同期させるか、また話し手側装置で動作する音声認識システムが、話し手によって発音されたハイパーリンクされた語句をどのように認識するかを示す図である。 本発明に従って、話し手がスピーチのテキストを事前にどのように準備するかを示す図である。 本発明に従って、話し手が、スピーチのテキスト中で単語または語句をどのように選択して、マルチメディア情報またはサービスへのハイパーリンク(すなわち,関連するURL)を生成するかを示す図である。 本発明に従って、ハイパーリンクされた各語句とマルチメディア情報またはサービスにアクセスするためのアドレスとを関連づけるスピーチ・ハイパーリンク・テーブルを、話し手がどのように生成するかを示す図である。 本発明に従って、スピーチの前に、話し手が音声認識システムをどのように学習させるかを示す図である。 本発明に従って、スピーチの間に、話し手がハイパーリンクされた語句を発音したとき、話し手側ワークステーションで動作する音声認識システムがどのようにその語句を認識するか(すなわち、ワード・スポットするか)を示す図である。 本発明に従って、音声認識システムによってハイパーリンクされた語句が認識された(ワード・スポットされた)とき、認識された語句、関連づけられたアドレス、および認識されたユニバーサル・タイムが、通信ネットワークに(例えば、インターネットに)接続されたスピーチ・サーバにあるスピーチ・ハイパーリンク−タイム・テーブルにどのように格納されるかを示す図である。 本発明による、スピーチ・サーバに格納されたスピーチ・ハイパーリンク−タイム・テーブルの一例を示す図である。 本発明に従って、スピーチの途中で興味のあるトピックに対応する語句に気づいた聞き手が、単にポータブル・コンピュータ上の予約キーを押すことによって、どのようにその語句を選択するかを示す図である。 本発明に従って、スピーチの間に興味のある語句が聞き手によって選択されたときのユニバーサル・タイムが、聞き手側装置にある選択ハイパーリンク−タイム・テーブルにどのように格納されるかを示す図である。 本発明に従って、聞き手側装置をネットワークに接続することによって、聞き手が、スピーチ・サーバ上に格納されたスピーチ・ハイパーリンク−タイム・テーブルに含まれる情報を用いて、聞き手側装置の選択ハイパーリンク−タイム・テーブルをどのように更新するかを示す図である。 本発明に従って、ハイパーリンクされた語句がどのように識別され、関連するURL(Uniform Resource Locator)とともに、スピーチ・サーバ上に格納されたスピーチ・ハイパーリンク−タイム・テーブルから聞き手側装置の選択ハイパーリンク−タイム・テーブルにどのようにコピーされるかを示す図である。 本発明に従って、聞き手が、更新された選択ハイパーリンク−タイム・テーブルから(興味のあるトピックに対応して、スピーチの間に聞き手が選択した)ハイパーリンクされた語句をどのように選択し、関連するハイパーリンクをどのように起動するかを示す図である。 本発明に従って、選択された語句にハイパーリンクされたマルチメディア情報またはサービスが、通信ネットワークを介してどのようにアクセスされ、聞き手側装置上にどのように取り出されるかを示す図である。 本発明による、スピーチ・ハイパーリンク・テーブルを生成するステップと、ハイパーリンクされた語句を識別するように音声認識システムに学習させるステップとを示す図である。 本発明による、スピーチ・サーバ上にスピーチ・ハイパーリンク−タイム・テーブルを生成するステップと、スピーチの間に発音されたハイパーリンクされた語句を認識するステップとを示す図である。 本発明による、聞き手側装置上に選択ハイパーリンク−タイム・テーブルを生成するステップと、スピーチの間に興味のあるトピックを選択するステップとを示す図である。 URL(Uniform Resource Locator)を取り出すステップと、選択されたハイパーリンクされた語句に関係する情報またはサービスにアクセスするステップとを示す図である。

Claims (20)

  1. コンピュータが実行し、聞き手からアクセス可能なスピーチ・ハイパーリンク−タイム・テーブルをスピーチの間に話し手側装置から生成する方法であって、前記コンピュータが、
    話し手によって発音される予定の、事前に定義されたハイパーリンクされた語句を識別するための手段、および前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク・テーブルを検索し、アクセスするステップと、
    スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を取り出すステップと、
    スピーチの間に、前記スピーチ・ハイパーリンク・テーブル内の事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、前記話し手側装置に接続された音声認識システムを用いて当該ハイパーリンクされた語句を認識するステップと、
    認識されたハイパーリンクされた語句のそれぞれについて、前記話し手による認識されたハイパーリンクされた語句の発音に対応するユニバーサル・タイムを決定するステップと、
    前記スピーチ・ハイパーリンク−タイム・テーブルに新しいレコードを生成するステップと、
    前記話し手による認識されたハイパーリンクされた語句の発音に対応する前記ユニバーサル・タイム、前記スピーチ・ハイパーリンク・テーブルから取り出された、前記認識されたハイパーリンクされた語句を識別するための手段、および前記スピーチ・ハイパーリンク・テーブルから取り出された、前記認識されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を前記新しいレコードにコピーするステップと、
    を含む方法。
  2. 前記話し手側装置内に、スピーチ・ハイパーリンク・テーブルを生成するステップと、
    前記スピーチ・ハイパーリンク・テーブル内に、事前に定義された語句に関連する情報のアクセス先であるサーバへのハイパーリンクを定義するステップと
    を含む、請求項1に記載の方法。
  3. 前記スピーチ・ハイパーリンク・テーブル内に、事前に定義されたハイパーリンクされた語句に関連する情報のアクセス先であるサーバへのハイパーリンクを定義するステップは、
    スピーチの間に、前記話し手によって発音される予定のハイパーリンクされた語句を事前に定義するステップと、
    新しく事前に定義されたハイパーリンクされた語句について、
    前記スピーチ・ハイパーリンク・テーブル内に新しいレコードを生成するステップと、
    前記レコード内に、前記事前に定義されたハイパーリンクされた語句を識別するための手段を割り当て、コピーするステップと、
    前記レコード内に、前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を割り当て、コピーするステップと
    をさらに含む、請求項2に記載の方法。
  4. スピーチ・ハイパーリンク・テーブルを、前記話し手側装置内に生成するステップが、
    前記スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を前記スピーチ・ハイパーリンク・テーブルに割り当てるステップと、
    前記検索し、アクセスするための手段を、前記スピーチ・ハイパーリンク・テーブル内のヘッダにコピーするステップと
    をさらに含む、請求項2ないし3のいずれか一項に記載の方法。
  5. 前記スピーチ・ハイパーリンク・テーブル内に事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、前記話し手側装置に接続された音声認識システムを用いてその語句を認識するステップが、前記スピーチの前に、前記事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、当該語句を認識するよう音声認識システムに学習させるステップをさらに含む、請求項1ないし4のいずれか一項に記載の方法。
  6. 前記スピーチが、テレビまたはラジオの放送番組である、請求項1ないし5のいずれか一項に記載の方法。
  7. 事前に定義されたハイパーリンクされた語句に関連する情報が前記サーバに存在し、
    事前に定義されたハイパーリンクされた語句を識別するための手段が名前および/または記述を含み、
    事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段がネットワーク内の宛先アドレスを含み、
    前記スピーチ・ハイパーリンク−タイム・テーブルがスピーチ・サーバに存在し、
    前記スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段がネットワーク内の宛先アドレスを含む、
    請求項1ないし6のいずれか一項に記載の方法。
  8. 前記ネットワークがインターネットであり、
    前記宛先アドレスがURL(Uniform Resource Locator)であり、
    事前に定義された語句に関連する情報がウェブ・ページであり、
    前記サーバがウェブ・サーバである、
    請求項に記載の方法。
  9. 前記スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を聞き手側装置に送信するステップを含む、請求項に記載の方法。
  10. 聞き手からアクセス可能なスピーチ・ハイパーリンク−タイム・テーブルをスピーチの間に作成させる話し手側装置であって、
    話し手によって発音される予定の、事前に定義されたハイパーリンクされた語句を識別するための手段、および前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク・テーブルを検索し、アクセスする手段と、
    スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を取り出す手段と、
    スピーチの間に、前記スピーチ・ハイパーリンク・テーブル内の事前に定義されたハイパーリンクされた語句が話し手によって発音された場合に、前記話し手側装置に接続された音声認識システムを用いて当該ハイパーリンクされた語句を認識する手段と、
    認識されたハイパーリンクされた語句のそれぞれについて、前記話し手による認識されたハイパーリンクされた語句の発音に対応するユニバーサル・タイムを決定するステップと、
    前記スピーチ・ハイパーリンク−タイム・テーブルに新しいレコードを生成する手段と、
    前記話し手による認識されたハイパーリンクされた語句の発音に対応する前記ユニバーサル・タイム、前記スピーチ・ハイパーリンク・テーブルから取り出された、前記認識されたハイパーリンクされた語句を識別するための手段、および前記スピーチ・ハイパーリンク・テーブルから取り出された、前記認識されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を前記新しいレコードにコピーする手段と、
    を含む話し手側装置。
  11. コンピュータが請求項1〜9のいずれか1項に記載のステップを実行するための、コンピュータ実行可能なプログラム。
  12. コンピュータが画実行し、聞き手側装置で、スピーチの間に話し手によって発音され、ハイパーリンクされた語句を選択し、前記選択されたハイパーリンクされた語句に関連する情報にアクセスする方法であって、前記コンピュータが、
    スピーチの間に、話し手によって発音されている語句を選択するための選択コマンドを受け取るステップと
    現在のユニバーサル・タイムを決定するステップと、
    現在のユニバーサル・タイムを選択ハイパーリンク−タイム・テーブルに記録するステップとを含み、
    さらに前記方法は、
    聞き手側装置からアクセス可能な、前記話し手によって発音された事前に定義されたハイパーリンクされた語句のそれぞれについて、前記事前に定義されたハイパーリンクされた語句の発音に対応するユニバーサル・タイム、前記事前に定義されたハイパーリンクされた語句を識別するための手段、および前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク−タイム・テーブルにアクセスするステップと、
    前記選択ハイパーリンク−タイム・テーブル内に記録されたユニバーサル・タイムについて、
    前記記録されたユニバーサル・タイムに発音された選択されたハイパーリンクされた語句を、前記スピーチ・ハイパーリンク−タイム・テーブル内で識別するステップと、
    前記選択されたハイパーリンクされた語句を識別するための手段、および前記選択されたハイパーリンクされた語句を検索し、アクセスするための手段を前記スピーチ・ハイパーリンク−タイム・テーブルから取り出すステップと、
    取り出された前記選択されたハイパーリンクされた語句を識別するための手段、および取り出された前記選択されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を選択ハイパーリンク−タイム・テーブルに格納するステップと
    を含む方法。
  13. 前記スピーチのための選択ハイパーリンク−タイム・テーブルを生成するステップを含む、請求項12に記載の方法。
  14. スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段を受信するステップを含む、請求項12ないし13のいずれか一項に記載の方法。
  15. ハイパーリンクされた語句に関連する情報が前記サーバに存在し、
    ハイパーリンクされた語句を識別するための手段が名前および/または記述を含み、
    ハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段がネットワーク内の宛先アドレスを含み、
    前記スピーチ・ハイパーリンク−タイム・テーブルがスピーチ・サーバに存在し、
    前記スピーチ・ハイパーリンク−タイム・テーブルを検索し、アクセスするための手段がネットワーク内の宛先アドレスを含む、
    請求項14のいずれか一項に記載の方法。
  16. 前記ネットワークがインターネット・ネットワークであり、
    前記宛先アドレスがURL(Uniform Resource Locators)であり、
    語句に関連する情報がウェブ・ページであり、
    前記聞き手側装置がウェブ・ブラウザを含み、
    前記サーバがウェブ・サーバである、
    請求項15に記載の方法。
  17. ハイパーリンクされた語句に関連する情報を表示するための、前記ハイパーリンクされた語句を識別するための手段を含む表示コマンドを受信するステップと、
    選択ハイパーリンク−タイム・テーブル内で、前記ハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を識別するステップと、
    前記情報を取り出して表示するステップと、
    を含む、請求項12ないし16のいずれか一項に記載の方法。
  18. 前記スピーチがテレビまたはラジオの放送番組である、請求項12ないし17のいずれか一項に記載の方法。
  19. スピーチの間に話し手によって発音され、ハイパーリンクされた語句を選択し、前記選択されたハイパーリンクされた語句に関連する情報にアクセスする聞き手側装置であって、
    スピーチの間に、話し手によって発音されている語句を選択するための選択コマンドを受け取って、現在のユニバーサル・タイムを決定する手段と、
    現在のユニバーサル・タイムを選択ハイパーリンク−タイム・テーブルに記録する手段と、
    聞き手側装置からアクセス可能な、前記話し手によって発音された事前に定義されたハイパーリンクされた語句のそれぞれについて、前記事前に定義されたハイパーリンクされた語句の発音に対応するユニバーサル・タイム、前記事前に定義されたハイパーリンクされた語句を識別するための手段、および前記事前に定義されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を含むスピーチ・ハイパーリンク−タイム・テーブルにアクセスする手段と、
    前記選択ハイパーリンク−タイム・テーブル内に記録されたユニバーサル・タイムについて、前記記録されたユニバーサル・タイムに発音された選択されたハイパーリンクされた語句を、前記スピーチ・ハイパーリンク−タイム・テーブル内で識別する手段と、
    前記選択されたハイパーリンクされた語句を識別するための手段、および前記選択されたハイパーリンクされた語句を検索し、アクセスするための手段を前記スピーチ・ハイパーリンク−タイム・テーブルから取り出す手段と、
    取り出された前記選択されたハイパーリンクされた語句を識別するための手段、および取り出された前記選択されたハイパーリンクされた語句に関連する情報を検索し、アクセスするための手段を選択ハイパーリンク−タイム・テーブルに格納する手段と
    を含む、聞き手側装置。
  20. コンピュータが、請求項12〜18のいずれか1項に記載のステップを実行するためのコンピュータ実行可能なプログラム。
JP2004538824A 2002-09-27 2003-07-23 ワールド・ワイド・ウェブからの情報を使用してライブ・スピーチの機能を拡張するためのシステムおよび方法 Expired - Lifetime JP4378284B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02368106 2002-09-27
PCT/EP2003/009310 WO2004029831A2 (en) 2002-09-27 2003-07-23 System and method for enhancing live speech with information accessed from the world wide web

Publications (2)

Publication Number Publication Date
JP2006500665A JP2006500665A (ja) 2006-01-05
JP4378284B2 true JP4378284B2 (ja) 2009-12-02

Family

ID=32039252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004538824A Expired - Lifetime JP4378284B2 (ja) 2002-09-27 2003-07-23 ワールド・ワイド・ウェブからの情報を使用してライブ・スピーチの機能を拡張するためのシステムおよび方法

Country Status (7)

Country Link
US (2) US7505907B2 (ja)
JP (1) JP4378284B2 (ja)
KR (1) KR100872191B1 (ja)
CN (1) CN100530175C (ja)
AU (1) AU2003267006A1 (ja)
TW (1) TWI259970B (ja)
WO (1) WO2004029831A2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8225335B2 (en) 2005-01-05 2012-07-17 Microsoft Corporation Processing files from a mobile device
US7721301B2 (en) * 2005-03-31 2010-05-18 Microsoft Corporation Processing files from a mobile device using voice commands
US7606856B2 (en) 2005-11-09 2009-10-20 Scenera Technologies, Llc Methods, systems, and computer program products for presenting topical information referenced during a communication
US20080034095A1 (en) 2006-08-01 2008-02-07 Motorola, Inc. Multi-representation media event handoff
US8271268B2 (en) * 2007-04-18 2012-09-18 Nuance Communications, Inc. Method to translate, cache and transmit text-based information contained in an audio signal
US8645143B2 (en) * 2007-05-01 2014-02-04 Sensory, Inc. Systems and methods of performing speech recognition using global positioning (GPS) information
US8775454B2 (en) 2008-07-29 2014-07-08 James L. Geer Phone assisted ‘photographic memory’
US9128981B1 (en) 2008-07-29 2015-09-08 James L. Geer Phone assisted ‘photographic memory’
FR2935854B1 (fr) * 2008-09-11 2011-02-18 Alcatel Lucent Procede et systeme de communication pour l'affichage d'un lien vers un service a partir d'une expression enoncee en cours de conversation.
FR2935855B1 (fr) 2008-09-11 2010-09-17 Alcatel Lucent Procede et systeme de communication pour la determination d'une sequence de services lies a une conversation.
GB2466242B (en) * 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US8639514B2 (en) * 2008-12-18 2014-01-28 At&T Intellectual Property I, L.P. Method and apparatus for accessing information identified from a broadcast audio signal
JP4565040B2 (ja) 2009-03-27 2010-10-20 白石工業株式会社 表面処理炭酸カルシウム及びそれを含むペースト状樹脂組成物
US8255787B2 (en) 2009-06-29 2012-08-28 International Business Machines Corporation Automated configuration of location-specific page anchors
US8244755B2 (en) * 2009-06-29 2012-08-14 International Business Machines Corporation Search engine optimization using page anchors
US20110218802A1 (en) * 2010-03-08 2011-09-08 Shlomi Hai Bouganim Continuous Speech Recognition
US20120278078A1 (en) * 2011-04-26 2012-11-01 Avaya Inc. Input and displayed information definition based on automatic speech recognition during a communication session
US8589167B2 (en) 2011-05-11 2013-11-19 Nuance Communications, Inc. Speaker liveness detection
US9443518B1 (en) 2011-08-31 2016-09-13 Google Inc. Text transcript generation from a communication session
US9007448B2 (en) * 2012-02-03 2015-04-14 Bank Of America Corporation Video-assisted customer experience
KR102081925B1 (ko) 2012-08-29 2020-02-26 엘지전자 주식회사 디스플레이 디바이스 및 스피치 검색 방법
US8612211B1 (en) 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
TW201445340A (zh) * 2013-05-17 2014-12-01 Hon Hai Prec Ind Co Ltd 資訊搜索系統及方法
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
JP6099046B2 (ja) 2013-06-11 2017-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置および方法
JP7044633B2 (ja) * 2017-12-28 2022-03-30 シャープ株式会社 操作支援装置、操作支援システム、及び操作支援方法
US11037571B2 (en) * 2019-10-04 2021-06-15 Motorola Solutions, Inc. Speech-based two-way radio assistant
US11783817B2 (en) 2021-05-28 2023-10-10 International Business Machines Corporation Identification of anomalies in air traffic control communications

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715367A (en) 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US5799063A (en) 1996-08-15 1998-08-25 Talk Web Inc. Communication system and method of providing access to pre-recorded audio messages via the Internet
JPH10133847A (ja) 1996-10-28 1998-05-22 Casio Comput Co Ltd 移動端末音声認識/データベース検索/リソースアクセス通信システム
US5915001A (en) 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6282511B1 (en) 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US6018710A (en) 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
US6224636B1 (en) 1997-02-28 2001-05-01 Dragon Systems, Inc. Speech recognition using nonparametric speech models
US5946653A (en) 1997-10-01 1999-08-31 Motorola, Inc. Speaker independent speech recognition system and method
US6157705A (en) 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6282512B1 (en) 1998-02-05 2001-08-28 Texas Instruments Incorporated Enhancement of markup language pages to support spoken queries
US6269335B1 (en) 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
JP3252282B2 (ja) * 1998-12-17 2002-02-04 松下電器産業株式会社 シーンを検索する方法及びその装置
US6249765B1 (en) 1998-12-22 2001-06-19 Xerox Corporation System and method for extracting data from audio messages
JP2000339345A (ja) 1999-03-25 2000-12-08 Sony Corp 検索システム、検索装置および方法、ならびに、入力装置および方法
EP1102271B8 (en) * 1999-11-05 2016-12-07 Sony Europe Limited Method of generating audio and/or video signals and apparatus therefore
ATE494612T1 (de) * 1999-11-09 2011-01-15 Nuance Comm Austria Gmbh Spracherkennungsverfahren zur aktivierung von internet-hyperlinks
EP1947649A3 (en) * 2000-04-05 2014-07-09 Sony United Kingdom Limited Audio/video reproducing apparatus and method
EP1962511A3 (en) * 2000-04-05 2010-10-27 Sony United Kingdom Limited Audio and/or video generation apparatus and method using a list of content items
US7062528B2 (en) 2000-07-14 2006-06-13 Sony Corporation Method and system for identifying a time specific event
US20050204385A1 (en) * 2000-07-24 2005-09-15 Vivcom, Inc. Processing and presentation of infomercials for audio-visual programs
US20050193425A1 (en) * 2000-07-24 2005-09-01 Sanghoon Sull Delivery and presentation of content-relevant information associated with frames of audio-visual programs
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
JP2002077865A (ja) 2000-08-24 2002-03-15 Sanyo Electric Co Ltd アドレス情報検出装置
JP2002157112A (ja) * 2000-11-20 2002-05-31 Teac Corp 音声情報変換装置
TWI256250B (en) 2001-05-10 2006-06-01 Ibm System and method for enhancing recorded radio or television programs with information on the world wide web
TW540235B (en) 2001-05-10 2003-07-01 Ibm System and method for enhancing broadcast programs with information on the world wide web
US6858353B2 (en) 2002-07-17 2005-02-22 Taiwan Semiconductor Manufacturing Co., Ltd Increased-contrast film for high-transmittance attenuated phase-shaft masks
US7526718B2 (en) * 2003-04-30 2009-04-28 Hewlett-Packard Development Company, L.P. Apparatus and method for recording “path-enhanced” multimedia

Also Published As

Publication number Publication date
KR100872191B1 (ko) 2008-12-09
US20050251394A1 (en) 2005-11-10
AU2003267006A1 (en) 2004-04-19
US7865367B2 (en) 2011-01-04
JP2006500665A (ja) 2006-01-05
TW200414021A (en) 2004-08-01
US7505907B2 (en) 2009-03-17
US20090228275A1 (en) 2009-09-10
WO2004029831A2 (en) 2004-04-08
CN100530175C (zh) 2009-08-19
WO2004029831A3 (en) 2004-09-10
TWI259970B (en) 2006-08-11
CN1685339A (zh) 2005-10-19
KR20050047104A (ko) 2005-05-19

Similar Documents

Publication Publication Date Title
JP4378284B2 (ja) ワールド・ワイド・ウェブからの情報を使用してライブ・スピーチの機能を拡張するためのシステムおよび方法
CN1524382B (zh) 用于以万维网上的信息增强播放或记录的节目的系统和方法
CN106462636B (zh) 解释视频内容中的可听话语信息
US6260011B1 (en) Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
Glass et al. Recent progress in the MIT spoken lecture processing project.
Hauptmann et al. Informedia: News-on-demand multimedia information acquisition and retrieval
US10225625B2 (en) Caption extraction and analysis
US7523036B2 (en) Text-to-speech synthesis system
Van Thong et al. Speechbot: an experimental speech-based search engine for multimedia content on the web
US7697731B2 (en) Information-processing apparatus, information-processing methods, and programs
US20030120748A1 (en) Alternate delivery mechanisms of customized video streaming content to devices not meant for receiving video
US20100057443A1 (en) Systems and methods for responding to natural language speech utterance
US9245017B2 (en) Metatagging of captions
Jones et al. Experiments in spoken document retrieval
EP1391111A2 (en) System and method for enhancing broadcast programs with information on the world wide web
JP2003157288A (ja) 情報関連付け方法、端末装置、サーバ装置、プログラム
JP2004302175A (ja) 音声認識システム、音声認識方法及び音声認識プログラム
WO2006051775A1 (ja) 携帯型語学学習装置及び携帯型語学学習システム
Clements et al. Phonetic searching of digital audio
US8196046B2 (en) Parallel visual radio station selection
KR20050006222A (ko) 프리젠테이션 타임 테이블 생성 방법, 포일 선택 및액세스 방법, 발표자 장치, 청중 장치 및 컴퓨터 프로그램
Nouza et al. A system for information retrieval from large records of Czech spoken data
Amaral et al. The development of a portuguese version of a media watch system
JPWO2009066397A1 (ja) 検索装置及び検索システム
Heeren et al. Easy listening: Spoken document retrieval in choral

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080729

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20080811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090901

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20090901

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090914

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120918

Year of fee payment: 3