JP2005064600A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2005064600A
JP2005064600A JP2003207622A JP2003207622A JP2005064600A JP 2005064600 A JP2005064600 A JP 2005064600A JP 2003207622 A JP2003207622 A JP 2003207622A JP 2003207622 A JP2003207622 A JP 2003207622A JP 2005064600 A JP2005064600 A JP 2005064600A
Authority
JP
Japan
Prior art keywords
audio
audio signal
video
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003207622A
Other languages
English (en)
Other versions
JP4127668B2 (ja
Inventor
Kazuhiko Abe
一彦 阿部
Akinori Kawamura
聡典 河村
Yasuyuki Masai
康之 正井
Masato Yajima
真人 矢島
Kohei Momozaki
浩平 桃崎
Munehiko Sasajima
宗彦 笹島
Koichi Yamamoto
幸一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003207622A priority Critical patent/JP4127668B2/ja
Priority to CN200410057493.9A priority patent/CN1581951A/zh
Priority to CN200610094126.5A priority patent/CN1881415A/zh
Priority to US10/917,344 priority patent/US20050080631A1/en
Publication of JP2005064600A publication Critical patent/JP2005064600A/ja
Application granted granted Critical
Publication of JP4127668B2 publication Critical patent/JP4127668B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

【課題】音声認識により言語テキストを得るとともに該言語テキストを動的に表示する情報処理装置、方法、およびプログラムを提供する。
【解決手段】音声信号に対して音声認識を行う音声認識手段と、この音声信号の再生との同期のための時間情報を有する言語テキストを音声認識手段による音声認識結果から生成する生成手段と、音声信号を再生する音声再生手段と、音声再生手段により再生された音声信号に同期して言語テキストを表示する表示手段とを具備する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は音声認識技術に関し、音声認識結果に基づく言語情報を出力する情報処理装置、情報処理方法、および情報処理プログラムに関する。
【0002】
【従来の技術】
音声信号に対する音声認識結果により得られた言語情報を利用したメタデータ生成に関する研究が近年盛んに行われている。生成されたメタデータを音声信号に付与しておくことは、データ管理や検索等に有用である。
【0003】
例えば、音声データに対する音声認識結果により得られた言語テキストから特定の言い回しやキーワードを抽出してインデックス化し、音声データベースを構築することにより、所望の音声データの検索を実現する技術が例えば下記特許文献1において提案されている。
【0004】
【特許文献1】
特開平8−249343号公報
【0005】
【発明が解決しようとする課題】
音声認識結果により得られた言語テキスト等を上述のようにデータ管理や検索等に用いられるメタデータとして利用する技術は存在するものの、音声ならびに該音声に対応する映像の内容理解や再生制御等をユーザが容易に行えるように、音声認識結果の言語テキストを動的に表示する技術はこれまでに提供されていない。
【0006】
したがって、本発明は、音声認識により言語テキストを得るとともに該言語テキストを動的に表示することのできる情報処理装置、方法、およびプログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明の一観点に係る情報処理装置は、音声信号に対して音声認識を行う音声認識手段と、前記音声信号の再生との同期のための時間情報を有する言語テキストを前記音声認識手段による音声認識結果から生成する生成手段と、前記音声信号を再生する音声再生手段と、前記音声再生手段により再生された音声信号に同期して前記言語テキストを表示する表示手段と、を具備する。
【0008】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施形態を説明する。
【0009】
(第1実施形態)
図1は本発明の第1実施形態に係るテレビジョン受像機の概略構成を示すブロック図である。このテレビジョン受像機は、アンテナが接続され、放送された映像音声信号を受信するチューナ10と、チューナ10により受信された映像音声信号(AV(Audio Visual)情報)をAV情報遅延部12に出力する一方、上記映像音声信号から音声信号を分離して音声認識部13に出力するデータ分離部11と、データ分離部11から出力された音声信号に対して音声認識を行う音声認識部13と、該音声認識部13による音声認識結果に基づく言語テキストならびに上記音声信号の再生との同期のための時間情報を有する言語情報を生成して出力する言語情報出力部14とを備える。
【0010】
AV情報遅延部(メモリ)12は、データ分離部10から出力されたAV情報を一時的に記憶する。このAV情報は、音声認識部13による音声認識処理を経てその音声認識結果から言語情報を生成する処理が完了するまで遅延され、言語情報出力部14から生成された言語情報が出力された時点でAV情報遅延部12から出力される。音声認識部13は、音声信号から認識可能な全ての語の品詞情報を含んだ情報を言語情報として取得する。
【0011】
AV情報遅延部12からの遅延後のAV情報出力と言語情報出力部14からの言語情報出力は、同期処理部15に与えられる。同期処理部15は、与えられたAV情報を再生する。また同期処理部15は言語情報に含まれる言語テキストを映像信号に変換し、AV情報の再生と同期するように表示制御部16に出力する。同期処理部15により再生されたAV情報のうち、音声再生信号は図示しないスピーカに供給され、映像再生信号は表示制御部16に供給される。表示制御部16は、与えられたAV情報の映像再生信号に言語テキストの映像信号を合成し、表示装置17がこれを表示する。なお、言語情報出力部14から出力される言語情報はHDD等の記録装置18や、DVD装置19等の記録媒体に記録することができる。
【0012】
図2は、言語情報出力部14において実行される処理の手順を詳細に示すフローチャートである。
【0013】
先ずステップS1において、言語情報出力部14は音声認識部13から音声認識結果を取得する。また、音声認識と併行して、あるいは事前に、言語情報の提示方法に関する設定を行う(ステップS2)。提示方法設定情報の取得については後述する。
【0014】
次にステップS3において、音声認識部13から取得した音声認識結果に含まれる言語テキストを解析する。この解析には、良く知られた形態素解析技術を利用できる。また、言語テキストの解析結果から、重要語句(キーワード)や重要文を抽出するといった種々の自然言語処理も行われる。例えば、音声認識結果に含まれる言語テキストの形態素解析結果に基づいて要約情報を作成し、これを提示対象の言語情報としてもよい。なお、このような要約情報に基づく言語情報には、上述したように音声信号の再生との同期のための時間情報が必要であることに変わりはない。
【0015】
次にステップS4において、提示用言語情報を選定する。具体的には、選定基準、提示量などの設定(提示方法設定情報)に応じて、語句または文情報を選定する。次にステップS5においては、ステップS4において選定された提示用言語情報の出力(提示)単位を決定する。続くステップS6においては、出力単位ごとの提示タイミングを発声時刻情報をもとに設定する。さらに、ステップS7においては、各出力単位ごとの提示継続時間長を決定する。
【0016】
そしてステップS8では、提示用表記、提示開始時刻、提示継続時間長を表す言語情報を出力する。図3は、音声認識結果に基づく言語情報出力の一例を示す図である。同図に示すように音声認識結果30は、少なくとも言語テキストの構成要素である文字列300と、該文字列300に対応する音声信号における発声時刻301を有する。この発声時刻301は、音声信号の再生と同期して言語情報を表示あるいは出力する際に参照される時間情報に相当する。同図に示す言語情報出力31は、提示方法設定に応じた上記言語情報出力部14の処理により出力された結果である。この言語情報出力31は提示用表記310、提示開始時刻311、提示継続時間長([秒])312を有する。図から分かるように、提示用表記310は、重要語句として選定された名詞であり、助詞等は除外されている。例えば「東京」という提示用表記は、提示開始時刻「10:03:08」から提示が開始され、その継続時間は「5sec」である。このような言語情報出力31は、いわゆる文字字幕として映像とともに、あるいは音声のみと同期する言語情報として出力することができる。
【0017】
図4は、提示方法設定手順の一例を示すフローチャートである。提示方法設定手順は、例えばGUI(グラフィカルユーザインタフェース)技術を利用したダイアログ画面等を通じて行われる。
【0018】
先ずステップS10において、キーワード(重要語句)提示を行うか否かを決める。キーワード提示をする場合はステップS11に進み、そうでない場合は、ステップS12に進む。キーワード提示をしない場合、言語情報は文単位で選定され、提示されることになる。
【0019】
提示語句生成および選定基準を設定するステップS11では、品詞特定、重要語句提示、優先提示語句、提示量等をユーザが設定する処理が行われる。提示文生成および選定基準を設定するステップS12では、指定語句含有文提示、要約率等をユーザが設定する処理が行われる。ステップS11あるいはステップS12のいずれかによる設定が行われると、処理はステップS13に進む。ステップS13では、言語情報を動的に提示するか否かを決定する。動的提示を行う旨ユーザから指示される場合は、ステップS14において動的提示の際の速度および方向等の設定を行う。具体的には、提示用表記をスクロール表示する方向やその移動速度を設定する。
【0020】
ステップS15においては、提示単位および開始タイミングを指定する。提示単位は、例えば「文」、「文節」、あるいは「語句」であり、文頭発声時刻、文節発声時刻、語句発声時刻等を開始タイミングとする。次に、ステップS16では、提示単位の提示継続時間に関する指定を行う。ここでは、提示継続時間に関して、次語句発声頭まで、秒数指定、文末まで、といった指定を行うことができる。次に、ステップS17では、提示形態を設定する。提示形態は、例えば提示単位の位置、文字形態(字体)、サイズ等である。提示形態の設定は、全ての語句、あるいは指定語句ごとに行えることが好ましい。
【0021】
図5はキーワード字幕表示の一例を示す図である。
【0022】
図5に示す表示画面50は、本実施形態のテレビジョン受像機の表示装置17に表示される。この表示画面50には、本装置が外部から受信した放送信号のAV情報に基づく映像53が表示される。図5に示す51は映像53と同期する音声の内容を図示したものであり、この音声内容51は実際には図示しないスピーカから出力される。映像53と共に表示画面50内において表示されるキーワード字幕52は、音声内容51から抽出されたキーワードに相当する。このキーワードはスピーカからの出力音の内容と同期してスクロールする。
【0023】
このようなキーワード字幕の動的な表示(提示)によれば、視聴者は映像53と同期する音声内容51を視覚的に理解することができる。また、再生出力された音声内容51について、聞き逃した事項を確認したり、キーワードに基づいて大まかな内容を速やかに理解するなど、内容理解を効果的に支援することができる。なお、音声認識部13、言語情報出力部14、同期処理部15、表示制御部16等の処理はコンピュータソフトウェアにより実現することができる。
【0024】
(第2実施形態)
図6は本発明の第2実施形態に係るホームサーバの概略構成を示すブロック図である。同図に示すように、本実施形態のホームサーバ60は、AV情報を記憶するAV情報記憶部61と、AV情報記憶部61に記憶されているAV情報に含まれる複数の音声信号に対して音声認識を行う音声認識部62と、音声認識部62による音声認識結果から言語テキストを生成し、キーワード抽出等の言語処理を行う言語情報処理部63と、言語情報処理部63による言語処理結果を記憶する言語情報記憶部64とを有する。なお、言語情報処理部63による言語処理においては、第1実施形態で説明した提示方法設定情報の一部が用いられる。
【0025】
また、ホームサーバ60は、AV情報記憶部61に記憶されているAV情報を検索するための検索画面を通信I/F部66からネットワーク67を通じてユーザ端末68やネットワーク家電機器(AVテレビ)69に提供する検索処理部600を有する。
【0026】
図7はホームサーバから提供される検索画面の一例を示す図である。検索処理部600から提供される検索画面80は、ユーザ端末68やネットワーク家電機器(AVテレビ)69において表示される。この検索画面80における81a,81bは、AV情報記憶部61に記憶されているAV情報(以下、「コンテンツ」という)のそれぞれに対応している。また、領域82aにはコンテンツ81a(ここでは「ニュースA」)の内容を細分化した部分コンテンツの代表画像(縮小静止画像)又は部分コンテンツの縮小動画像が表示される。領域83aには、10:00を開始時刻とする当該部分コンテンツの音声内容を表す言語情報がスクロール表示される。すなわち、ここでいう言語情報は言語情報処理部63から得られ、音声認識結果により得られた言語テキストから抽出されたキーワードに相当する。同様に、領域85aには、10:06を開始時刻とする当該部分コンテンツの音声内容を表す言語情報がスクロール表示される。
【0027】
また、領域82bにはコンテンツ81b(ここでは「ニュースB」)の内容を細分化した部分コンテンツの代表画像(縮小静止画像)又は部分コンテンツの縮小動画像が表示される。領域83bには、11:30を開始時刻とする当該部分コンテンツの音声内容を表す言語情報がスクロール表示される。領域85bには、11:35を開始時刻とする当該部分コンテンツの音声内容を表す言語情報がスクロール表示される。
【0028】
以上のように検索処理部600から提供される検索画面80には、部分コンテンツ毎に、当該部分コンテンツの音声内容におけるキーワードが一覧でスクロール表示される。なお、各々のスクロール表示において、音声内容の終端に到達したら、再度、先頭に戻って表示を繰り返す。また、領域82a、84a、82b、84bを動画表示とする場合において、動画表示とスクロール表示とを、内容に関して同期させてもよい。この場合、第1実施形態の説明を参考にすることができる。言語テキストを音声認識する際に、その認識元であるコンテンツ(の音声信号)から、同期のための時間情報を取得すればよい。
【0029】
このような検索画面80において、例えば図8に示すようにいずれかのキーワード86bをマウスM等によりユーザが指定すると、該当するコンテンツが選択される。この例では、「ニュースB」のコンテンツ81bにおける11:30を開始時刻とする部分コンテンツが選択される。この部分コンテンツは、AV情報法記憶部61から読み出され、通信I/F部66がこれをネットワーク67を通じてユーザの端末68(あるいはAVテレビ69)に送信する。この場合、「ニュースB」の部分コンテンツにおいて、ユーザにより指定されたキーワード「交通事故」86bに対応する位置から再生が開始されるように制御することが好ましい。なお、キーワード「交通事故」86b以後のコンテンツデータをホームサーバ60が作成して送信するようにしてもよい。
【0030】
このような本発明の第2実施形態によれば、音声認識結果に基づいて生成されたキーワードの動的なスクロール表示により、視聴者はコンテンツの音声内容を視覚的に理解することができる。また、音声内容の視覚的理解に基づいて一覧表示されたコンテンツから所望のコンテンツを適切に選択でき、AV情報の検索を効率化できる。
【0031】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0032】
【発明の効果】
以上説明したように、本発明によれば、音声認識により言語テキストを得るとともに該言語テキストを動的に表示することのできる情報処理装置、方法、およびプログラムを提供できる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係るテレビジョン受像機の概略構成を示すブロック図
【図2】言語情報出力部において実行される処理の手順を詳細に示すフローチャート
【図3】音声認識結果に基づく言語情報出力の一例を示す図
【図4】提示方法設定手順の一例を示すフローチャート
【図5】キーワード字幕表示の一例を示す図
【図6】本発明の第2実施形態に係るホームサーバの概略構成を示すブロック図
【図7】ホームサーバから提供される検索画面の一例を示す図
【図8】キーワードスクロール表示に基づくコンテンツ選択の様子を示す図
【符号の説明】
10…チューナ、11…データ分離部、12…AV情報遅延部(メモリ)、13…音声認識部、14…言語情報出力部、15…同期処理部、16…表示制御部、17…表示装置、18…記録装置(HDD)、19…記録装置(DVD)

Claims (13)

  1. 音声信号に対して音声認識を行う音声認識手段と、
    前記音声信号の再生との同期のための時間情報を有する言語テキストを前記音声認識手段による音声認識結果から生成する生成手段と、
    前記音声信号を再生する音声再生手段と、
    前記音声再生手段により再生された音声信号に同期して前記言語テキストを表示する表示手段と、を具備する情報処理装置。
  2. 前記音声信号に同期して映像信号を再生する映像再生手段をさらに具備し、
    前記表示手段は、前記映像再生手段により再生された映像信号とともに前記言語テキストを表示する請求項1に記載の情報処理装置。
  3. 前記映像再生手段により再生された映像信号に前記言語テキストの映像信号を合成する合成手段と、
    前記合成手段による合成結果を記録媒体に出力する手段と、を具備する請求項2に記載の情報処理装置。
  4. 前記音声信号を含む映像音声信号を受信する受信手段と、
    前記受信手段により受信された映像音声信号を一時的に記憶し、前記生成手段が前記言語テキストを生成するまで該映像音声信号の出力を遅延する遅延手段と、をさらに具備する請求項1乃至3のいずれかに記載の情報処理装置。
  5. 複数の音声信号を記憶する記憶手段と、
    前記複数の音声信号に対して音声認識を行って複数の言語テキストを生成する生成手段と、
    前記複数の言語テキストから複数のキーワードを抽出する抽出手段と、
    前記複数のキーワードを動的に表示する表示手段と、を具備する情報処理装置。
  6. 前記表示手段により表示された複数のキーワードにおいていずれかのキーワードがユーザにより指定されたならば、該ユーザにより指定されたキーワードに対応する前記記憶手段により記憶された前記音声信号を選択する選択手段と、
    前記選択手段により選択された音声信号を再生する音声再生手段と、を具備する請求項5記載の情報処理装置。
  7. 前記記憶手段は、前記音声信号を含む映像音声情報を記憶し、
    前記表示手段により表示された複数のキーワードにおいていずれかのキーワードがユーザにより指定されたならば、該ユーザにより指定されたキーワードに対応する前記記憶手段により記憶された映像音声信号を選択する選択手段と、
    前記選択手段により選択された映像音声信号を再生する映像音声再生手段と、を具備する請求項5記載の情報処理装置。
  8. 前記表示手段は、前記言語テキスト毎に前記複数のキーワードを動的に表示する請求項5乃至7に記載の情報処理装置。
  9. 前記選択手段により選択された音声信号又は映像音声信号をネットワークを介して前記ユーザの端末に送信する送信手段をさらに具備する請求項6又は7のいずれかに記載の情報処理装置。
  10. 音声信号に対して音声認識を行って音声認識結果を出力するステップと、
    前記音声信号の再生との同期のための時間情報を有する言語テキストを前記音声認識結果から生成する生成ステップと、
    前記音声信号を再生する音声再生ステップと、
    前記音声再生ステップにおいて再生された音声信号に同期して前記言語テキストを表示する表示ステップと、を含む情報処理方法。
  11. 複数の音声信号を記憶する記憶ステップと、
    前記複数の音声信号に対して音声認識を行って複数の言語テキストを生成する生成ステップと、
    前記複数の言語テキストから複数のキーワードを抽出する抽出ステップと、
    前記複数のキーワードを動的に表示する表示ステップと、を含む情報処理方法。
  12. 音声信号に対して音声認識を行って音声認識結果を出力する手順と、
    前記音声信号の再生との同期のための時間情報を有する言語テキストを前記音声認識結果から生成する生成手順と、
    前記音声信号を再生する音声再生手順と、
    前記音声再生手順において再生された音声信号に同期して前記言語テキストを表示する表示手順と、をコンピュータに実行させるプログラム。
  13. 複数の音声信号を記憶する記憶手順と、
    前記複数の音声信号に対して音声認識を行って複数の言語テキストを生成する生成手順と、
    前記複数の言語テキストから複数のキーワードを抽出する抽出手順と、
    前記複数のキーワードを動的に表示する表示手順と、をコンピュータに実行させるプログラム。
JP2003207622A 2003-08-15 2003-08-15 情報処理装置、情報処理方法、およびプログラム Expired - Lifetime JP4127668B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2003207622A JP4127668B2 (ja) 2003-08-15 2003-08-15 情報処理装置、情報処理方法、およびプログラム
CN200410057493.9A CN1581951A (zh) 2003-08-15 2004-08-13 信息处理设备及其方法
CN200610094126.5A CN1881415A (zh) 2003-08-15 2004-08-13 信息处理设备及其方法
US10/917,344 US20050080631A1 (en) 2003-08-15 2004-08-13 Information processing apparatus and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003207622A JP4127668B2 (ja) 2003-08-15 2003-08-15 情報処理装置、情報処理方法、およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007210284A Division JP2007334365A (ja) 2007-08-10 2007-08-10 情報処理装置、情報処理方法、および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2005064600A true JP2005064600A (ja) 2005-03-10
JP4127668B2 JP4127668B2 (ja) 2008-07-30

Family

ID=34364022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003207622A Expired - Lifetime JP4127668B2 (ja) 2003-08-15 2003-08-15 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20050080631A1 (ja)
JP (1) JP4127668B2 (ja)
CN (2) CN1581951A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006319456A (ja) * 2005-05-10 2006-11-24 Ntt Communications Kk キーワード提供システム及びプログラム
JP2008148121A (ja) * 2006-12-12 2008-06-26 Yahoo Japan Corp 動画要約自動作成装置、方法、及びコンピュータ・プログラム
JP2009008884A (ja) * 2007-06-28 2009-01-15 Internatl Business Mach Corp <Ibm> 音声の再生に同期して音声の内容を表示させる技術
WO2017038794A1 (ja) * 2015-08-31 2017-03-09 株式会社 東芝 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム
JP2018151533A (ja) * 2017-03-14 2018-09-27 株式会社リコー 通信端末、通信プログラム及び通信方法
JP2019124901A (ja) * 2018-01-19 2019-07-25 日本放送協会 手話翻訳装置及びプログラム
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI269268B (en) * 2005-01-24 2006-12-21 Delta Electronics Inc Speech recognizing method and system
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
WO2008050649A1 (fr) * 2006-10-23 2008-05-02 Nec Corporation Système, procédé et programme de récapitulation de contenu
JP4905103B2 (ja) * 2006-12-12 2012-03-28 株式会社日立製作所 動画再生装置
CN101610164B (zh) * 2009-07-03 2011-09-21 腾讯科技(北京)有限公司 多人会话的实现方法、装置和系统
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US9304985B1 (en) 2012-02-03 2016-04-05 Google Inc. Promoting content
KR102056461B1 (ko) * 2012-06-15 2019-12-16 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
WO2014176750A1 (en) * 2013-04-28 2014-11-06 Tencent Technology (Shenzhen) Company Limited Reminder setting method, apparatus and system
CN104424955B (zh) * 2013-08-29 2018-11-27 国际商业机器公司 生成音频的图形表示的方法和设备、音频搜索方法和设备
CN103544978A (zh) * 2013-11-07 2014-01-29 上海斐讯数据通信技术有限公司 一种多媒体文件制作、播放方法及智能终端
CN104240703B (zh) * 2014-08-21 2018-03-06 广州三星通信技术研究有限公司 语音信息处理方法和装置
JP6392150B2 (ja) * 2015-03-18 2018-09-19 株式会社東芝 講演支援装置、方法およびプログラム
CN105957531B (zh) * 2016-04-25 2019-12-31 上海交通大学 基于云平台的演讲内容提取方法及装置
FR3052007A1 (fr) * 2016-05-31 2017-12-01 Orange Procede et dispositif de reception de contenu audiovisuel et programme d'ordinateur correspondant
US10825558B2 (en) 2017-07-19 2020-11-03 International Business Machines Corporation Method for improving healthcare
US10832803B2 (en) 2017-07-19 2020-11-10 International Business Machines Corporation Automated system and method for improving healthcare communication
CN108401192B (zh) * 2018-04-25 2022-02-22 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02297188A (ja) * 1989-03-14 1990-12-07 Sharp Corp 文書作成支援装置
US20030093790A1 (en) * 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
KR100236974B1 (ko) * 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
US6442540B2 (en) * 1997-09-29 2002-08-27 Kabushiki Kaisha Toshiba Information retrieval apparatus and information retrieval method
JPH11289512A (ja) * 1998-04-03 1999-10-19 Sony Corp 編集リスト作成装置
US6243676B1 (en) * 1998-12-23 2001-06-05 Openwave Systems Inc. Searching and retrieving multimedia information
US6748481B1 (en) * 1999-04-06 2004-06-08 Microsoft Corporation Streaming information appliance with circular buffer for receiving and selectively reading blocks of streaming information
US6513003B1 (en) * 2000-02-03 2003-01-28 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and synchronized transcription
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6961895B1 (en) * 2000-08-10 2005-11-01 Recording For The Blind & Dyslexic, Incorporated Method and apparatus for synchronization of text and audio data
US20020026521A1 (en) * 2000-08-31 2002-02-28 Sharfman Joshua Dov Joseph System and method for managing and distributing associated assets in various formats
US20020099552A1 (en) * 2001-01-25 2002-07-25 Darryl Rubin Annotating electronic information with audio clips
JP4088131B2 (ja) * 2002-03-28 2008-05-21 富士通株式会社 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法
US20050228665A1 (en) * 2002-06-24 2005-10-13 Matsushita Electric Indusrial Co, Ltd. Metadata preparing device, preparing method therefor and retrieving device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006319456A (ja) * 2005-05-10 2006-11-24 Ntt Communications Kk キーワード提供システム及びプログラム
JP2008148121A (ja) * 2006-12-12 2008-06-26 Yahoo Japan Corp 動画要約自動作成装置、方法、及びコンピュータ・プログラム
JP2009008884A (ja) * 2007-06-28 2009-01-15 Internatl Business Mach Corp <Ibm> 音声の再生に同期して音声の内容を表示させる技術
WO2017038794A1 (ja) * 2015-08-31 2017-03-09 株式会社 東芝 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム
JPWO2017038794A1 (ja) * 2015-08-31 2018-01-25 株式会社東芝 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
JP2018151533A (ja) * 2017-03-14 2018-09-27 株式会社リコー 通信端末、通信プログラム及び通信方法
JP2019124901A (ja) * 2018-01-19 2019-07-25 日本放送協会 手話翻訳装置及びプログラム
JP7072390B2 (ja) 2018-01-19 2022-05-20 日本放送協会 手話翻訳装置及びプログラム

Also Published As

Publication number Publication date
JP4127668B2 (ja) 2008-07-30
US20050080631A1 (en) 2005-04-14
CN1881415A (zh) 2006-12-20
CN1581951A (zh) 2005-02-16

Similar Documents

Publication Publication Date Title
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP3953886B2 (ja) 字幕抽出装置
US8768703B2 (en) Methods and apparatus to present a video program to a visually impaired person
JP4430036B2 (ja) 拡張型字幕ファイルを用いて付加情報を提供する装置及び方法
TWI233026B (en) Multi-lingual transcription system
JP4113059B2 (ja) 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
US20080059526A1 (en) Playback apparatus, searching method, and program
US20050180462A1 (en) Apparatus and method for reproducing ancillary data in synchronization with an audio signal
US20080195386A1 (en) Method and a Device For Performing an Automatic Dubbing on a Multimedia Signal
JP2004152063A (ja) マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法
KR20050118733A (ko) 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법
JP2007148976A (ja) 関連情報検索装置
US20020055088A1 (en) Toggle-tongue language education method and apparatus
JP3998187B2 (ja) コンテンツ解説データ生成装置、その方法及びそのプログラム、並びに、コンテンツ解説データ提示装置、その方法及びそのプログラム
JP2009118206A (ja) 録画再生装置
JP2008059343A (ja) 情報処理装置及びプログラム
KR20140077730A (ko) 사용자 선호도 기반의 선택적 자막 표시 방법 및 장치
JP4175141B2 (ja) 音声認識機能を有する番組情報表示装置
JP2009152782A (ja) コンテンツ再生装置及びコンテンツ再生方法
JP2007334365A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP2010066675A (ja) 音声情報処理システム及び音声情報処理プログラム
KR20080051876A (ko) 전자사전 검색이 가능한 멀티미디어 파일 재생장치 및검색방법
JP4500957B2 (ja) 字幕制作システム
JP7179387B1 (ja) ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム
JP2005038014A (ja) 情報提示装置及び情報提示方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080507

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080509

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4127668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120523

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120523

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130523

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130523

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140523

Year of fee payment: 6

EXPY Cancellation because of completion of term