JP2007334365A - 情報処理装置、情報処理方法、および情報処理プログラム - Google Patents
情報処理装置、情報処理方法、および情報処理プログラム Download PDFInfo
- Publication number
- JP2007334365A JP2007334365A JP2007210284A JP2007210284A JP2007334365A JP 2007334365 A JP2007334365 A JP 2007334365A JP 2007210284 A JP2007210284 A JP 2007210284A JP 2007210284 A JP2007210284 A JP 2007210284A JP 2007334365 A JP2007334365 A JP 2007334365A
- Authority
- JP
- Japan
- Prior art keywords
- information
- keywords
- unit
- language
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】音声認識により言語テキストを得るとともに該言語テキストを動的に表示することのできる情報処理装置、方法、およびプログラムを提供する。
【解決手段】複数の音声信号を記憶する記憶手段と、複数の音声信号に対して音声認識を行って複数の言語テキストを生成する生成手段と、複数の言語テキストから複数のキーワードを抽出する抽出手段と、複数のキーワードを動的に表示する表示手段と、を具備する。
【選択図】図1
【解決手段】複数の音声信号を記憶する記憶手段と、複数の音声信号に対して音声認識を行って複数の言語テキストを生成する生成手段と、複数の言語テキストから複数のキーワードを抽出する抽出手段と、複数のキーワードを動的に表示する表示手段と、を具備する。
【選択図】図1
Description
本発明は音声認識技術に関し、音声認識結果に基づく言語情報を出力する情報処理装置、情報処理方法、および情報処理プログラムに関する。
音声信号に対する音声認識結果により得られた言語情報を利用したメタデータ生成に関する研究が近年盛んに行われている。生成されたメタデータを音声信号に付与しておくことは、データ管理や検索等に有用である。
例えば、音声データに対する音声認識結果により得られた言語テキストから特定の言い回しやキーワードを抽出してインデックス化し、音声データベースを構築することにより、所望の音声データの検索を実現する技術が例えば下記特許文献1において提案されている。
特開平8−249343号公報
音声認識結果により得られた言語テキスト等を上述のようにデータ管理や検索等に用いられるメタデータとして利用する技術は存在するものの、音声ならびに該音声に対応する映像の内容理解や再生制御等をユーザが容易に行えるように、音声認識結果の言語テキストを動的に表示する技術はこれまでに提供されていない。
したがって、本発明は、音声認識により言語テキストを得るとともに該言語テキストを動的に表示することのできる情報処理装置、方法、およびプログラムを提供することを目的とする。
本発明の一観点に係る情報処理装置は、複数の音声信号を記憶する記憶手段と、前記複数の音声信号に対して音声認識を行って複数の言語テキストを生成する生成手段と、前記複数の言語テキストから複数のキーワードを抽出する抽出手段と、前記複数のキーワードを動的に表示する表示手段と、を具備する。
本発明によれば、音声認識により言語テキストを得るとともに該言語テキストを動的に表示することのできる情報処理装置、方法、およびプログラムを提供できる。
以下、図面を参照しながら本発明の実施形態を説明する。
(第1実施形態)
図1は本発明の第1実施形態に係るテレビジョン受像機の概略構成を示すブロック図である。このテレビジョン受像機は、アンテナが接続され、放送された映像音声信号を受信するチューナ10と、チューナ10により受信された映像音声信号(AV(Audio Visual)情報)をAV情報遅延部12に出力する一方、上記映像音声信号から音声信号を分離して音声認識部13に出力するデータ分離部11と、データ分離部11から出力された音声信号に対して音声認識を行う音声認識部13と、該音声認識部13による音声認識結果に基づく言語テキストならびに上記音声信号の再生との同期のための時間情報を有する言語情報を生成して出力する言語情報出力部14とを備える。
図1は本発明の第1実施形態に係るテレビジョン受像機の概略構成を示すブロック図である。このテレビジョン受像機は、アンテナが接続され、放送された映像音声信号を受信するチューナ10と、チューナ10により受信された映像音声信号(AV(Audio Visual)情報)をAV情報遅延部12に出力する一方、上記映像音声信号から音声信号を分離して音声認識部13に出力するデータ分離部11と、データ分離部11から出力された音声信号に対して音声認識を行う音声認識部13と、該音声認識部13による音声認識結果に基づく言語テキストならびに上記音声信号の再生との同期のための時間情報を有する言語情報を生成して出力する言語情報出力部14とを備える。
AV情報遅延部(メモリ)12は、データ分離部10から出力されたAV情報を一時的に記憶する。このAV情報は、音声認識部13による音声認識処理を経てその音声認識結果から言語情報を生成する処理が完了するまで遅延され、言語情報出力部14から生成された言語情報が出力された時点でAV情報遅延部12から出力される。音声認識部13は、音声信号から認識可能な全ての語の品詞情報を含んだ情報を言語情報として取得する。
AV情報遅延部12からの遅延後のAV情報出力と言語情報出力部14からの言語情報出力は、同期処理部15に与えられる。同期処理部15は、与えられたAV情報を再生する。また同期処理部15は言語情報に含まれる言語テキストを映像信号に変換し、AV情報の再生と同期するように表示制御部16に出力する。同期処理部15により再生されたAV情報のうち、音声再生信号は図示しないスピーカに供給され、映像再生信号は表示制御部16に供給される。表示制御部16は、与えられたAV情報の映像再生信号に言語テキストの映像信号を合成し、表示装置17がこれを表示する。なお、言語情報出力部14から出力される言語情報はHDD等の記録装置18や、DVD装置19等の記録媒体に記録することができる。
図2は、言語情報出力部14において実行される処理の手順を詳細に示すフローチャートである。
先ずステップS1において、言語情報出力部14は音声認識部13から音声認識結果を取得する。また、音声認識と併行して、あるいは事前に、言語情報の提示方法に関する設定を行う(ステップS2)。提示方法設定情報の取得については後述する。
次にステップS3において、音声認識部13から取得した音声認識結果に含まれる言語テキストを解析する。この解析には、良く知られた形態素解析技術を利用できる。また、言語テキストの解析結果から、重要語句(キーワード)や重要文を抽出するといった種々の自然言語処理も行われる。例えば、音声認識結果に含まれる言語テキストの形態素解析結果に基づいて要約情報を作成し、これを提示対象の言語情報としてもよい。なお、このような要約情報に基づく言語情報には、上述したように音声信号の再生との同期のための時間情報が必要であることに変わりはない。
次にステップS4において、提示用言語情報を選定する。具体的には、選定基準、提示量などの設定(提示方法設定情報)に応じて、語句または文情報を選定する。次にステップS5においては、ステップS4において選定された提示用言語情報の出力(提示)単位を決定する。続くステップS6においては、出力単位ごとの提示タイミングを発声時刻情報をもとに設定する。さらに、ステップS7においては、各出力単位ごとの提示継続時間長を決定する。
そしてステップS8では、提示用表記、提示開始時刻、提示継続時間長を表す言語情報を出力する。図3は、音声認識結果に基づく言語情報出力の一例を示す図である。同図に示すように音声認識結果30は、少なくとも言語テキストの構成要素である文字列300と、該文字列300に対応する音声信号における発声時刻301を有する。この発声時刻301は、音声信号の再生と同期して言語情報を表示あるいは出力する際に参照される時間情報に相当する。同図に示す言語情報出力31は、提示方法設定に応じた上記言語情報出力部14の処理により出力された結果である。この言語情報出力31は提示用表記310、提示開始時刻311、提示継続時間長([秒])312を有する。図から分かるように、提示用表記310は、重要語句として選定された名詞であり、助詞等は除外されている。例えば「東京」という提示用表記は、提示開始時刻「10:03:08」から提示が開始され、その継続時間は「5sec」である。このような言語情報出力31は、いわゆる文字字幕として映像とともに、あるいは音声のみと同期する言語情報として出力することができる。
図4は、提示方法設定手順の一例を示すフローチャートである。提示方法設定手順は、例えばGUI(グラフィカルユーザインタフェース)技術を利用したダイアログ画面等を通じて行われる。
先ずステップS10において、キーワード(重要語句)提示を行うか否かを決める。キーワード提示をする場合はステップS11に進み、そうでない場合は、ステップS12に進む。キーワード提示をしない場合、言語情報は文単位で選定され、提示されることになる。
提示語句生成および選定基準を設定するステップS11では、品詞特定、重要語句提示、優先提示語句、提示量等をユーザが設定する処理が行われる。提示文生成および選定基準を設定するステップS12では、指定語句含有文提示、要約率等をユーザが設定する処理が行われる。ステップS11あるいはステップS12のいずれかによる設定が行われると、処理はステップS13に進む。ステップS13では、言語情報を動的に提示するか否かを決定する。動的提示を行う旨ユーザから指示される場合は、ステップS14において動的提示の際の速度および方向等の設定を行う。具体的には、提示用表記をスクロール表示する方向やその移動速度を設定する。
ステップS15においては、提示単位および開始タイミングを指定する。提示単位は、例えば「文」、「文節」、あるいは「語句」であり、文頭発声時刻、文節発声時刻、語句発声時刻等を開始タイミングとする。次に、ステップS16では、提示単位の提示継続時間に関する指定を行う。ここでは、提示継続時間に関して、次語句発声頭まで、秒数指定、文末まで、といった指定を行うことができる。次に、ステップS17では、提示形態を設定する。提示形態は、例えば提示単位の位置、文字形態(字体)、サイズ等である。提示形態の設定は、全ての語句、あるいは指定語句ごとに行えることが好ましい。
図5はキーワード字幕表示の一例を示す図である。
図5に示す表示画面50は、本実施形態のテレビジョン受像機の表示装置17に表示される。この表示画面50には、本装置が外部から受信した放送信号のAV情報に基づく映像53が表示される。図5に示す51は映像53と同期する音声の内容を図示したものであり、この音声内容51は実際には図示しないスピーカから出力される。映像53と共に表示画面50内において表示されるキーワード字幕52は、音声内容51から抽出されたキーワードに相当する。このキーワードはスピーカからの出力音の内容と同期してスクロールする。
このようなキーワード字幕の動的な表示(提示)によれば、視聴者は映像53と同期する音声内容51を視覚的に理解することができる。また、再生出力された音声内容51について、聞き逃した事項を確認したり、キーワードに基づいて大まかな内容を速やかに理解するなど、内容理解を効果的に支援することができる。なお、音声認識部13、言語情報出力部14、同期処理部15、表示制御部16等の処理はコンピュータソフトウェアにより実現することができる。
(第2実施形態)
図6は本発明の第2実施形態に係るホームサーバの概略構成を示すブロック図である。同図に示すように、本実施形態のホームサーバ60は、AV情報を記憶するAV情報記憶部61と、AV情報記憶部61に記憶されているAV情報に含まれる複数の音声信号に対して音声認識を行う音声認識部62と、音声認識部62による音声認識結果から言語テキストを生成し、キーワード抽出等の言語処理を行う言語情報処理部63と、言語情報処理部63による言語処理結果を記憶する言語情報記憶部64とを有する。なお、言語情報処理部63による言語処理においては、第1実施形態で説明した提示方法設定情報の一部が用いられる。
図6は本発明の第2実施形態に係るホームサーバの概略構成を示すブロック図である。同図に示すように、本実施形態のホームサーバ60は、AV情報を記憶するAV情報記憶部61と、AV情報記憶部61に記憶されているAV情報に含まれる複数の音声信号に対して音声認識を行う音声認識部62と、音声認識部62による音声認識結果から言語テキストを生成し、キーワード抽出等の言語処理を行う言語情報処理部63と、言語情報処理部63による言語処理結果を記憶する言語情報記憶部64とを有する。なお、言語情報処理部63による言語処理においては、第1実施形態で説明した提示方法設定情報の一部が用いられる。
また、ホームサーバ60は、AV情報記憶部61に記憶されているAV情報を検索するための検索画面を通信I/F部66からネットワーク67を通じてユーザ端末68やネットワーク家電機器(AVテレビ)69に提供する検索処理部600を有する。
図7はホームサーバから提供される検索画面の一例を示す図である。検索処理部600から提供される検索画面80は、ユーザ端末68やネットワーク家電機器(AVテレビ)69において表示される。この検索画面80における81a,81bは、AV情報記憶部61に記憶されているAV情報(以下、「コンテンツ」という)のそれぞれに対応している。また、領域82aにはコンテンツ81a(ここでは「ニュースA」)の内容を細分化した部分コンテンツの代表画像(縮小静止画像)又は部分コンテンツの縮小動画像が表示される。領域83aには、10:00を開始時刻とする当該部分コンテンツの音声内容を表す言語情報がスクロール表示される。すなわち、ここでいう言語情報は言語情報処理部63から得られ、音声認識結果により得られた言語テキストから抽出されたキーワードに相当する。同様に、領域85aには、10:06を開始時刻とする当該部分コンテンツの音声内容を表す言語情報がスクロール表示される。
また、領域82bにはコンテンツ81b(ここでは「ニュースB」)の内容を細分化した部分コンテンツの代表画像(縮小静止画像)又は部分コンテンツの縮小動画像が表示される。領域83bには、11:30を開始時刻とする当該部分コンテンツの音声内容を表す言語情報がスクロール表示される。領域85bには、11:35を開始時刻とする当該部分コンテンツの音声内容を表す言語情報がスクロール表示される。
以上のように検索処理部600から提供される検索画面80には、部分コンテンツ毎に、当該部分コンテンツの音声内容におけるキーワードが一覧でスクロール表示される。なお、各々のスクロール表示において、音声内容の終端に到達したら、再度、先頭に戻って表示を繰り返す。また、領域82a、84a、82b、84bを動画表示とする場合において、動画表示とスクロール表示とを、内容に関して同期させてもよい。この場合、第1実施形態の説明を参考にすることができる。言語テキストを音声認識する際に、その認識元であるコンテンツ(の音声信号)から、同期のための時間情報を取得すればよい。
このような検索画面80において、例えば図8に示すようにいずれかのキーワード86bをマウスM等によりユーザが指定すると、該当するコンテンツが選択される。この例では、「ニュースB」のコンテンツ81bにおける11:30を開始時刻とする部分コンテンツが選択される。この部分コンテンツは、AV情報法記憶部61から読み出され、通信I/F部66がこれをネットワーク67を通じてユーザの端末68(あるいはAVテレビ69)に送信する。この場合、「ニュースB」の部分コンテンツにおいて、ユーザにより指定されたキーワード「交通事故」86bに対応する位置から再生が開始されるように制御することが好ましい。なお、キーワード「交通事故」86b以後のコンテンツデータをホームサーバ60が作成して送信するようにしてもよい。
このような本発明の第2実施形態によれば、音声認識結果に基づいて生成されたキーワードの動的なスクロール表示により、視聴者はコンテンツの音声内容を視覚的に理解することができる。また、音声内容の視覚的理解に基づいて一覧表示されたコンテンツから所望のコンテンツを適切に選択でき、AV情報の検索を効率化できる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
10…チューナ
11…データ分離部
12…AV情報遅延部(メモリ)
13…音声認識部
14…言語情報出力部
15…同期処理部
16…表示制御部
17…表示装置
18…記録装置(HDD)
19…記録装置(DVD)
11…データ分離部
12…AV情報遅延部(メモリ)
13…音声認識部
14…言語情報出力部
15…同期処理部
16…表示制御部
17…表示装置
18…記録装置(HDD)
19…記録装置(DVD)
Claims (7)
- 複数の音声信号を記憶する記憶手段と、
前記複数の音声信号に対して音声認識を行って複数の言語テキストを生成する生成手段と、
前記複数の言語テキストから複数のキーワードを抽出する抽出手段と、
前記複数のキーワードを動的に表示する表示手段と、を具備する情報処理装置。 - 前記表示手段により表示された複数のキーワードにおいていずれかのキーワードがユーザにより指定されたならば、該ユーザにより指定されたキーワードに対応する前記記憶手段により記憶された前記音声信号を選択する選択手段と、
前記選択手段により選択された音声信号を再生する音声再生手段と、を具備する請求項1記載の情報処理装置。 - 前記記憶手段は、前記音声信号を含む映像音声情報を記憶し、
前記表示手段により表示された複数のキーワードにおいていずれかのキーワードがユーザにより指定されたならば、該ユーザにより指定されたキーワードに対応する前記記憶手段により記憶された映像音声信号を選択する選択手段と、
前記選択手段により選択された映像音声信号を再生する映像音声再生手段と、を具備する請求項1記載の情報処理装置。 - 前記表示手段は、前記言語テキスト毎に前記複数のキーワードを動的に表示する請求項1乃至3に記載の情報処理装置。
- 前記選択手段により選択された音声信号又は映像音声信号をネットワークを介して前記ユーザの端末に送信する送信手段をさらに具備する請求項2又は3のいずれかに記載の情報処理装置。
- 複数の音声信号を記憶する記憶ステップと、
前記複数の音声信号に対して音声認識を行って複数の言語テキストを生成する生成ステップと、
前記複数の言語テキストから複数のキーワードを抽出する抽出ステップと、
前記複数のキーワードを動的に表示する表示ステップと、を含む情報処理方法。 - 複数の音声信号を記憶する記憶手順と、
前記複数の音声信号に対して音声認識を行って複数の言語テキストを生成する生成手順と、
前記複数の言語テキストから複数のキーワードを抽出する抽出手順と、
前記複数のキーワードを動的に表示する表示手順と、をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007210284A JP2007334365A (ja) | 2007-08-10 | 2007-08-10 | 情報処理装置、情報処理方法、および情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007210284A JP2007334365A (ja) | 2007-08-10 | 2007-08-10 | 情報処理装置、情報処理方法、および情報処理プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003207622A Division JP4127668B2 (ja) | 2003-08-15 | 2003-08-15 | 情報処理装置、情報処理方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007334365A true JP2007334365A (ja) | 2007-12-27 |
Family
ID=38933828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007210284A Abandoned JP2007334365A (ja) | 2007-08-10 | 2007-08-10 | 情報処理装置、情報処理方法、および情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007334365A (ja) |
-
2007
- 2007-08-10 JP JP2007210284A patent/JP2007334365A/ja not_active Abandoned
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4127668B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP3953886B2 (ja) | 字幕抽出装置 | |
TWI233026B (en) | Multi-lingual transcription system | |
JP4430036B2 (ja) | 拡張型字幕ファイルを用いて付加情報を提供する装置及び方法 | |
US8768703B2 (en) | Methods and apparatus to present a video program to a visually impaired person | |
JP4459267B2 (ja) | 辞書データ生成装置及び電子機器 | |
US20080059526A1 (en) | Playback apparatus, searching method, and program | |
JP4113059B2 (ja) | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム | |
JP2007150724A (ja) | 映像視聴支援システムおよび方法 | |
US20050180462A1 (en) | Apparatus and method for reproducing ancillary data in synchronization with an audio signal | |
JP2004152063A (ja) | マルチメディアコンテンツ構造化方法、構造化装置および構造化プログラム、ならびに提供方法 | |
JP2007148976A (ja) | 関連情報検索装置 | |
KR20070020208A (ko) | 콘텐트를 프로그램에서 위치지정하는 방법 및 장치 | |
JP2007166363A (ja) | 情報処理装置および方法、並びにプログラム | |
JP2009157460A (ja) | 情報提示装置及び方法 | |
JP6865701B2 (ja) | 音声認識誤り修正支援装置およびそのプログラム | |
US20140129221A1 (en) | Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method | |
JP3998187B2 (ja) | コンテンツ解説データ生成装置、その方法及びそのプログラム、並びに、コンテンツ解説データ提示装置、その方法及びそのプログラム | |
JP4929128B2 (ja) | 録画再生装置 | |
JP4175141B2 (ja) | 音声認識機能を有する番組情報表示装置 | |
KR20140077730A (ko) | 사용자 선호도 기반의 선택적 자막 표시 방법 및 장치 | |
JP2009152782A (ja) | コンテンツ再生装置及びコンテンツ再生方法 | |
JP2007334365A (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
JP2009171480A (ja) | 映像記録再生装置及び映像再生装置 | |
JP4500957B2 (ja) | 字幕制作システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20100201 |