JP2014022758A - 情報処理装置、情報処理方法、表示制御装置および表示制御方法 - Google Patents

情報処理装置、情報処理方法、表示制御装置および表示制御方法 Download PDF

Info

Publication number
JP2014022758A
JP2014022758A JP2012156201A JP2012156201A JP2014022758A JP 2014022758 A JP2014022758 A JP 2014022758A JP 2012156201 A JP2012156201 A JP 2012156201A JP 2012156201 A JP2012156201 A JP 2012156201A JP 2014022758 A JP2014022758 A JP 2014022758A
Authority
JP
Japan
Prior art keywords
information
section
unit
content
display control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012156201A
Other languages
English (en)
Other versions
JP5910379B2 (ja
Inventor
Tatsu Kuwahara
立 桑原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012156201A priority Critical patent/JP5910379B2/ja
Priority to US13/911,323 priority patent/US9666211B2/en
Priority to CN201310278580.6A priority patent/CN103544950B/zh
Publication of JP2014022758A publication Critical patent/JP2014022758A/ja
Application granted granted Critical
Publication of JP5910379B2 publication Critical patent/JP5910379B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Abstract

【課題】編集ポイント特定のための良好な情報の提供を実現する。
【解決手段】音声を含むコンテンツの言語解析に基づいて、このコンテンツの編集ポイントを特定するための情報を取得する。例えば、この情報は、編集ポイントの近傍期間における言語解析による言語情報、例えば、音声の発音情報、音声の文字列情報などを含む。取得された情報を出力する。例えば、コンテンツに関連付けて記録メディアに記録する、あるいは、コンテンツに関連付けて、コンテンツと共に、ネットワークに送信する。
【選択図】図1

Description

本技術は、情報処理装置、情報処理方法、表示制御装置および表示制御方法に関し、特に、音声を含むコンテンツを処理する情報処理装置等に関する。
従来、ユーザの嗜好を考慮、類推して、コンテンツ群から面白いと思われる部分のみを抽出して再生する方法が存在する。万人が面白いと思う箇所を特定する方法では、どうしても抽出対象となるコンテンツが少なくなる。そのため、スライドショー等で用いるには不足分のコンテンツを補う必要がある。また、ユーザの嗜好を考慮する場合は、ユーザの嗜好を特定するためのデータベースをどのように作るかという問題がある。
例えば、特許文献1において、スピーチ等を収録したコンテンツの中から自動的にチャプタを生成し再生するという技術が提案されている。この技術は、音の波形解析から、音声の塊を判定し、音声の塊単位でチャプタジャンプを実施することで、視聴するというものである。また、例えば、特許文献2において、音解析から編集ポイントを自動判定する技術が提案されている。この技術は、一定時間無音区間が続く場合に該当区間を編集ポイントとして記憶しておき、後の編集時にカット編集するものである。
国際公開第2009/025155号 特開平10−84526号公報
特許文献1で提案されている技術では、スピーチの内容を聴く上で不要な区間を特定することができず。コンテンツ中の有意な箇所のみを切り出して再生することまではできない。また、音声の塊を音の振幅によって判定するため、語尾が間延びしてしまった区間等を判定することができてない。
また、特許文献2で提案されている技術では、会話やスピーチ時に発生する冗長な区間として考えられる、長すぎる無声区間を特定することはできる。しかし、音声以外で発生している音や、音声ではあるが会話やスピーチの内容を聴く上で、意味をなさない音のみの区間を特定することができない。一般に、会話の最中には、なるべく無意味な区間がないようにするため、音声検出される区間においても有意な区間か無効な区間かを判定する方法が望まれる
本技術の目的は、編集ポイント特定のための良好な情報の提供を実現することにある。
本技術の概念は、
音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報を出力する情報出力部とを備える
情報処理装置にある。
本技術において、情報取得部により、音声を含むコンテンツの言語解析に基づいて、このコンテンツの編集ポイントを特定するための情報が取得される。例えば、この編集ポイントを特定するための情報は、編集ポイントの近傍期間における言語解析による言語情報を含む、ようにされてもよい。この場合、例えば、言語情報は、音声の発音情報、音声の文字列情報などを含む、ようにされてもよい。
情報出力部により、取得されたコンテンツの編集ポイントを特定するための情報が出力される。例えば、情報出力部は、この情報をコンテンツと関連付けて記録メディアに記録する、ようにされてもよい。また、例えば、情報出力部は、この情報をコンテンツの送信単位に合わせてネットワークに送信する、ようにされてもよい。
このように本技術においては、音声を含むコンテンツに対して言語解析に基づいてそのコンテンツの編集ポイントを特定するための情報を取得して出力するものであり、編集ポイント特定のための良好な情報の提供が可能となる。
なお、本技術において、例えば、情報出力部は、編集ポイントの近傍期間における、コンテンツに含まれる映像の動き情報をさらに出力する、ようにされてもよい。このように映像の動き情報をさらに出力することで、編集ポイントを特定するための情報として、さらに有用な情報の提供が可能となる。
また、本技術の他の概念は、
音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御部とを備える
表示制御装置にある。
本技術において、情報取得部により、音声を含むコンテンツの言語解析に基づいて得られた、このコンテンツの編集ポイントを特定するための情報が取得される。例えば、この編集ポイントを特定するための情報は、編集ポイントの近傍期間における言語解析による言語情報を含む、ようにされてもよい。この場合、例えば、言語情報は、音声の発音情報、音声の文字列情報などを含む、ようにされてもよい。そして、表示制御部により、取得された情報に基づいて、コンテンツに関する表示が制御される。
例えば、表示制御部は、編集ポイントを特定するための情報に基づいて、コンテンツの有用度の高い第1の区間と有用度の低い第2の区間を特定し、コンテンツのタイムラインが第1の区間と第2の区間とが識別可能な状態で表示されるように制御する、ようにされてもよい。
この場合、例えば、表示制御部は、タイムラインの所定区間の選択に応じて、言語情報に含まれる文字列情報を利用して、該所定区間の音声に対応する文字列が表示されるように制御する、ようにされてもよい。このとき、例えば、表示制御部は、所定区間の音声に対応する文字列と共に、前後の区間の音声に対応した文字列も表示され、所定区間の音声に対応する文字列がハイライト表示されるように制御する、ようにされてもよい。ここで、ハイライト表示は、例えば、他の区間とは表示色を異ならせることによるハイライト表示などである。
また、例えば、表示制御部は、言語情報に含まれる文字列情報で示される文節毎の区間に分割されたコンテンツのタイムラインが表示されると共に、このタイムラインの各区間に対応して、各区間の音声に対応した文字列が表示されるように制御する、ようにされてもよい。
このように本技術においては、音声を含むコンテンツの言語解析に基づいて得られた、このコンテンツの編集ポイントを特定するための情報に基づいて、コンテンツに関する表示を制御するものである。そのため、コンテンツに関する表示、例えば編集のためのタイムライン等の表示を良好に行うことが可能となる。
本技術によれば、編集ポイント特定のための良好な情報の提供を実現できる。
実施の形態としての情報処理装置の構成例を示すブロック図である。 音声特徴検出部の処理手順の一例を示すフローチャートである。 テキスト変換部の処理手順の一例を示すフローチャートである。 言語解析結果記録フォーマット変換部が作成するコンテンツ関連付け構造体、文字列構造体を示す図である。 文字列、音声特徴区間(スプリット)および映像データ(コンテンツ)との対応関係の一例を模式的に示す図である。 実施の形態としての編集装置の構成例を示すブロック図である。 言語解析情報リスト生成部における文章毎のサブチャプタ登録の処理手順の一例を示すフローチャートである。 音声特徴区間の有用度の高低を判定する処理手順の一例を示すフローチャートである。 テキスト情報取得部における文字列データの取得の処理手順の一例を示すフローチャートである。 表示部に表示される編集画面の表示例を示す図である。 ユーザがマウス操作等でタイムラインの所定サブチャプタ区間の選択を行った場合に、その所定サブチャプタ区間およびその前後の区間の音声に対応した文字列が表示されることを説明するための図である。 言語解析情報リスト生成部における文章毎のサブチャプタ登録の処理手順の一例を示すフローチャートである。 各音声特徴区間(スプリット)毎に分割されたタイムラインが表示され、さらに各音声特徴区間に対応させてその区間の音声に対応した文字列が表示されることを示す図である。 テーブル生成部におけるテーブル生成の処理手順の一例を示すフローチャートである。 単語選択による映像検索システムを説明するための図である。 ネットワークへのライブストリームを実施する場合における情報処理装置の構成例を示すブロック図である。 ネットワーク送信を行う場合におけるコンテンツ関連付け構造体の一例を示す図である。 情報処理装置の他の構成例を示すブロック図である。 解析情報統合部で作成するコンテンツ関連付け構造体およびそれに含まれる文字列構造体、動き構造体などを示す図である。 編集装置の他の構成例を示すブロック図である。 音声特徴区間の有用度の高低を判定する処理手順の他の例を示すフローチャートである。 コンピュータの構成例を示す図である。
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.実施の形態
2.変形例
<1.実施の形態>
[情報処理装置の構成例]
図1は、情報処理装置10の構成例を示している。この情報処理装置10は、映像入力部101と、音声入力部102と、動画多重化部103と、言語解析部104と、言語マッチングデータベース105と、動画/言語解析情報関連付け部106と、記録メディア107を有している。
映像入力部101は、コンテンツを構成する映像データを入力する部分である。音声入力部102は、上述の映像入力部101に入力される映像データに対応した、コンテンツを構成する音声データを入力する部分である。動画多重化部103は、映像入力部101に入力された映像データと音声入力部102に入力された音声データを多重化して多重化データを生成する。
言語解析部104は、音声特徴検出部104a、テキスト変換部104bおよび言語解析結果記録フォーマット変換部104cを有している。音声特徴検出部104aは、音声入力部102に入力された音声データを解析して、音声特徴区間(スプリット)を検出する。音声特徴検出部104aは、音声特徴区間を検出する毎に、音声特徴の種別を示す発音情報と、開始および終了の時間情報を出力する。
音声特徴区間は、例えば、(a)母音の長音(う〜ん、え〜、あ〜、など)区間、(b)破裂音、強いアクセントで始まる区間、(c)擬音表現の区間、(d)音声の高低の変化区間、等である。(a)の母音の長音区間は、話している中では比較的無意味な区間である可能性が高く、編集時にはカットしたい区間である。(b)の破裂音、強いアクセントで始まる区間は、話をしている人が強調したいところ、驚いたところ等であって、編集時には採用したい区間である。
(c)の擬音表現の区間は、話をしている人が何かを説明したいが適切な言葉を思い出せないか、あるいはその何かを強調したいと思ったところであって、編集時には採用したい区間である。(d)の音の高低の変化区間に関して、低への変化区間はより説明的な部分であることが多く、高への変化区間は、感情的表現が行われていることが多く、いずれも編集時には採用したい区間である。
図2のフローチャートは、音声特徴検出部104aの処理手順の一例を示している。まず、音声特徴検出部104aは、ステップST1において、音声データの入力を受け付ける。次に、音声特徴検出部104aは、ステップST2において、音声解析を行う。次に、音声特徴検出部104aは、ステップST3において、音声特徴区間の開始から終了まで進んだ状態にあるか否か、つまり音声特徴区間が検出されたか否かを判断する。
音声特徴区間が検出されていないとき、音声特徴検出部104aは、ステップST1に戻って、上述したと同様の処理を繰り返す。一方、音声特徴区間が検出されるとき、音声特徴検出部104aは、ステップST4において、音声特徴区間の種別を特定し、その種別情報と、開始および終了の時間情報を、検出された音声特徴区間の情報として出力する。その後、音声特徴検出部104aは、ステップST1に戻って、次の音声特徴区間の検出処理に移る。
テキスト変換部104bは、音声入力部102に入力された音声データを、言語マッチングデータベース105を用いて言語解析し、動画のチャプタ毎に、それに含まれる文章毎の文字列を抽出する。テキスト変換部104bは、文字列を検出する毎に、文字列データと、開始および終了の時間情報を出力する。
図3のフローチャートは、テキスト変換部104bの処理手順の一例を示している。まず、テキスト変換部104bは、ステップST11において、音声データの入力を受け付ける。次に、テキスト変換部104bは、ステップST12において、会話開始、すなわち文章開始であるか否かを判断する。文章開始でないとき、テキスト変換部104bは、ステップST11に戻って、上述したと同様の処理を繰り返す。
文章開始であるとき、テキスト変換部104bは、ステップST13において、音声データに対して、言語解析を施し、テキスト化の処理を行う。そして、テキスト変換部104bは、ステップST14において、文章の区切れ目(音声の区切れ目)を検知したか否かを判断する。区切れ目を検知していないとき、テキスト変換部104bは、区切れ目を検知するまで、ステップST15において音声データを入力し、ステップST13において言語解析を施し、テキスト化の処理を行う。
文章の区切れ目を検知するとき、テキスト変換部104bは、ステップST16において、文章の情報、すなわち、文字列データと、開始および終了の時間情報を出力する。その後、テキスト変換部104bは、ステップST11に戻って、次の文章の言語解析によるテキスト化の処理に移る。
図1に戻って、言語解析結果記録フォーマット変換部104cは、音声特徴検出部104aからの各音声特徴区間の情報と、テキスト変換部104bからの各文章の情報を、記録フォーマットに変換する。
ここで、言語解析結果記録フォーマット変換部104cは、チャプタ毎に、図4(a)に示すような、コンテンツ関連付け構造体を作成する。「関連コンテンツを特定するID」は、コンテンツのチャプタ識別情報である。「解析文字列のリスト」の部分に、チャプタに含まれる各文章の、図4(b)に示すような、文字列構造体が含まれる。
この文字列構造体には、文章の文字列データ(図示の例では“XXXXAAAAACCCCCCBBBBB”のデータ)が含まれ、また、この文字列の開始時間および終了時間の情報が含まれる。ここで、開始時間は、文字列の発音が開始された時間を示し、終了時間は文字列の発音が終了した時間を示す。開始時間および終了時間は、コンテンツを構成する映像データおよび音声データとの対応関係を示すものとなる。つまり、開始時間および終了時間は、この文字列がコンテンツのどの区間に対応するかを示し、編集時における切り出しのために必要となる。
また、この文字列構造体には、文章内の各音声特徴区間(スプリット)の情報が含まれる。1つの音声特徴区間の情報は、開始文字位置、開始時間および発音情報からなる。開始文字位置は、文字列中の区切れ目位置を示す。この開始文字位置は、文字列と音声特徴区間とを対応させるために、文字列の何番目という形で記述される。例えば、図示の例において、文字列中の「AAAA」に対応する音声特徴区間における開始文字位置は、5文字目である。
開始時間は、区切れ目位置の時間を示し、コンテンツを構成する映像データおよび音声データとの対応関係を示す。発音情報は、音声特徴の種別を示す。音声特徴の種別は、上述したように、母音の長音区間、破裂音、強いアクセントで始まる区間、擬音表現の区間、音声の高低の変化区間などである。
図5は、文字列、音声特徴区間(スプリット)および映像データ(コンテンツ)との対応関係の一例を模式的に示している。図5(a)は文字列を示し、図5(b)は映像データの各フレームをフィルム形式で模式的に表している。この例では、“XXXXAAAAACCCCCCBBBBB”の文字列に、「split[0]」−「split[3]」の4個の音声特徴区間(スプリット)が含まれている。
図1に戻って、動画/言語解析情報関連付け部106は、動画多重化部103で得られる映像データおよび音声データの多重化データと、言語解析部104で得られるコンテンツ関連付け構造体とを、関連付けして、記録メディア107に記録する。ここで、関連付けは、例えば、以下の(a)〜(d)のような形式で記録メディアに記録することで行うことができる。
(a)チャプタ毎に、チャプタの多重化データの末尾にそれに対応するコンテンツ関連付け構造体(図4参照)を付加して、記録する。(b)チャプタ毎に、チャプタの多重化データと、それに対応するコンテンツ関連付け構造体とを、同名ファイル、拡張子違いで、記録する。(c)チャプタ毎に、チャプタの多重化データと、それに対応するコンテンツ関連付け構造体を任意のファイル名で記録するが、それらを関連付けするための別データベースを作成しておく。
(d)チャプタ毎に、チャプタの多重化データと、それに対応するコンテンツ関連付け構造体を任意のファイル名で記録するが、各チャプタのコンテンツ関連付け構造体の中に、対応する多重化データを特定する情報、例えばUUID(Universally Unique Identifier)を埋め込んでおく。
図1に示す情報処理装置10の動作を説明する。映像入力部101に入力される映像データは、動画多重化部103に供給される。また、音声入力部102に入力される音声データは、動画多重化部103に供給される。動画多重化部103では、映像データと音声データとが多重化され、多重化データが得られる。
また、音声データ入力部102に入力される音声データは、言語解析部104の音声特徴検出部104aおよびテキスト変換部104bに供給される。音声特徴検出部104aでは、音声データが解析されて、音声特徴区間(スプリット)が検出される。この音声特徴検出部では、音声特徴区間が検出される毎に、音声特徴区間の種別を示す発音情報と、開始および終了の時間情報が出力される。
また、テキスト変換部104bでは、音声データが、言語マッチングデータベース105が用いられて言語解析され、動画のチャプタ毎に、それに含まれる文章毎の文字列が検出される。このテキスト変換部104では、文章毎の文字列が検出される毎に、文字列データと、開始および終了の時間情報が出力される。
言語解析部104において、音声特徴検出部104aの出力情報およびテキスト変換部10bの出力情報は、言語解析結果記録フォーマット変換部104cに供給される。このフォーマット変換部104cでは、音声特徴検出部104aからの各音声特徴区間の情報と、テキスト変換部104bからの各文章の情報が、記録フォーマットに変換される。
すなわち、このフォーマット変換部104cでは、チャプタ毎に、コンテンツ関連付け構造体が作成される(図4(a)参照)。このコンテンツ関連付け構造体には、チャプタに含まれる各文章の文字列構造体が含まれる(図4(b)参照)。この文字列構造体には、文章の文字列データが含まれ、また、この文字列の開始時間および終了時間の情報が含まれる。また、この文字列構造体には、文章内の各音声特徴区間(スプリット)の情報が含まれる。ここで、1つの音声特徴区間の情報には、開始文字位置、開始時間および発音情報が含まれる。
動画多重化部103で得られる映像データおよび音声データの多重化データは、動画/言語解析情報関連付け部106に供給される。また、この関連付け部106には、言語解析部104で得られる記録フォーマット化された各文章の情報(コンテンツ関連付け構造体)が供給される。この関連付け部106では、映像データおよび音声データの多重化データに対して、各文章の情報が関連付けされて、記録メディア107に記録することが行われる。
上述したように、図1に示す情報処理装置10においては、コンテンツを構成する音声データに対して言語解析が行われて、チャプタ毎に、コンテンツ関連付け構造体が作成される。このコンテンツ関連付け構造体には、音声データの解析による音声特徴区間(スプリット)の情報が含まれると共に、テキスト変換による文字列データ等が含まれる。そして、コンテンツを構成する映像データおよび音声データの多重化データと共に、コンテンツ関連付け構造体が関連付けされて、記録メディア107に記録される。そのため、編集ポイント特定のための良好な情報の提供が可能となる。
[編集装置の構成例]
図6は、編集装置20の構成例を示している。この編集装置20は、上述の図1に示す情報処理装置10で記録メディア107に記録された各チャプタの多重化データおよびコンテンツ関連付け構造体を取り扱う。この編集装置20は、動画読み込み部201と、言語解析情報読み込み部202と、動画/言語解析情報関連付け部203と、言語解析情報リスト生成部204を有している。また、この編集装置20は、タイムライン(チャプタ)生成部205と、表示制御部206と、テキスト情報取得部207と、表示部208を有している。
動画読み込み部201は、記録メディア107から、編集に係る所定のチャプタの映像データおよび音声データの多重化データを読み込む。言語解析情報読み込み部202は、記録メディア107から、動画読み込み部201で読み込まれた所定チャプタの映像データおよび音声データの多重化データに対応したコンテンツ関連付け構造体(図4参照)を読み込む。この際、動画/言語解析情報関連付け部203は、チャプタの識別情報あるいはファイル情報などの関連付け情報を、言語解析情報読み込み部202に送る。
言語解析情報リスト生成部204は、言語解析情報読み込み部202で読み込まれたコンテンツ関連付け構造体を取り込み、言語解析情報リストを生成する。すなわち、このリストには、所定のチャプタに含まれる文章毎の文字列データ、開始時間および終了時間が登録される。また、このリストには、その文章毎の、各音声特徴区間(スプリット)の開始文字位置、開始時間および発音情報が登録される。
さらに、このリストには、その文章毎に、各音声特徴区間(スプリット)の有用度の高低が判定され、有用度の高低で区分けした区間、つまりサブチャプタが登録される。このサブチャプタの登録では、そのサブチャプタの識別情報と、そのサブチャプタの開始位置、終了位置の情報とが関連付けされて記憶される。
図7のフローチャートは、リスト生成部204における、文章毎のサブチャプタ登録の処理手順の一例を示している。リスト生成部204は、ステップST31で処理を開始し、その後に、ステップST32の処理に移る。このステップST32において、リスト生成部204は、処理対象の文字列構造体を取り出す。
次に、リスト生成部204は、ステップST33において、最初の音声特徴区間(スプリット)の情報を処理対象の音声特徴区間として取り出す。そして、リスト生成部204は、ステップST34において、その音声特徴区間が有用度の高い区間であるか低い区間であるかを判定する。
次に、リスト生成部204は、ステップST35において、区間切り替わりか否かを判定する。区間切り替わりでないとき、リスト生成部204は、ステップST33に戻って、次の音声特徴区間(スプリット)の情報を処理対象の音声特徴区間として取り出し、その処理に移る。一方、区間切り替わりであるとき、リスト生成部204は、ステップST34において、切り替わり前までの区間についてサブチャプタの登録を行う。
その後、リスト生成部204は、ステップST33に戻って、次の音声特徴区間(スプリット)の情報を処理対象の音声特徴区間として取り出し、その処理に移る。なお、次の音声特徴区間がないときは、サブチャプタ登録がされていないそこまでの区間についてサブチャプタ登録を行って、処理を終了する。
図8は、図7のフローチャートにおけるステップST34の区間判定の処理手順の一例を示している。リスト生成部204は、ステップST41において、処理を開始し、その後に、ステップST42の処理に移る。このステップST42において、リスト生成部204は、処理対象の音声特徴区間が母音の長音区間であるか否かを判定する。
母音の長音区間でないとき、リスト生成部204は、ステップST43において、処理対象の音声特徴区間の開始文字列が辞書に存在するか否かを判定する。辞書に存在するとき、リスト生成部204は、ステップST44において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部204は、ステップST45において、処理を終了して戻る。
ステップST43で辞書に存在しないとき、リスト生成部204は、ステップST46において、処理対象の音声特徴区間が破裂音で始まる区間か否かを判定する。破裂音で始まる区間であるとき、リスト生成部204は、ステップST44において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部204は、ステップST45において、処理を終了して戻る。
ステップST42で処理対処の音声特徴区間が母音の長音区間であるとき、あるいはステップST46で処理対処の音声特徴区間が破裂音で始まる区間でないとき、リスト生成部204は、ステップST47において、処理対象の音声特徴区間は有用度の低い区間と判定する。その後、リスト生成部204は、ステップST45において、処理を終了する。
図6に戻って、タイムライン生成部205は、動画読み込み部201で読み込まれた、編集に係る所定のチャプタの映像データおよび音声データのタイムラインを作成する。このタイムラインの作成は、表示制御部206の制御のもとで行われる。表示制御部206は、上述の言語解析情報リストに登録されるサブチャプタ登録に基づいて、有用度の高い区間と有用度の低い区間とが識別可能な状態でタイムラインが作成されるように、タイムライン生成部205の動作を制御する。
テキスト情報取得部207は、タイムラインに対応させて表示する文字列データを、言語解析情報リストに基づいて取得する。このテキスト情報の取得は、表示制御部206の制御のもとで行われる。表示制御部206は、ユーザによるタイムラインの所定サブチャプタ区間の選択情報に基づいて、その所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列データが取得されるように、テキスト情報取得部207の動作を制御する。なお、ユーザは、所定サブチャプタ区間の選択を、図示しないマウス等のポインティングデバイスを操作することで行う。
図9のフローチャートは、テキスト情報取得部207における文字列データの取得の処理手順の一例を示している。テキスト情報取得部207は、ステップST51において、ユーザによるサブチャプタの選択処理があるとき、処理を開始する。
次に、テキスト情報処理部207は、ステップST52において、選択されたサブチャプタの開始位置、終了位置の情報を取得する。この場合、テキスト情報処理部207は、表示制御部206から与えられる選択されたサブチャプタの識別情報に基づき、言語解析情報リスト生成部204で生成された言語解析情報リストから、そのサブチャプタの開始位置、終了位置の情報を取得する。
次に、テキスト情報処理部207は、ステップST53において、サブチャプタ区間およびその前後の区間の文字列データを取得する。この場合、ステップST52で取得されたそのサブチャプタの開始位置、終了位置の情報に基づき、言語解析情報リストの対応する音声特徴区間(スプリット)の情報を参照して、必要な文字列データを取得する。
図6に戻って、表示部208は、LCD(Liquid Crystal Display)等のディスプレイを用いて構成されており、編集画面を表示する。この表示部208は、表示制御部206の制御のもと、タイムライン生成部205で生成されたタイムラインを表示し、さらに、テキスト情報取得部207で取得された文字列を表示する。
図10は、表示部208に表示される編集画面の表示例を示している。画面の下部に水平方向に延びる映像タイムラインVTLおよび音声タイムラインATLが並べて表示されている。また、画面の右上部にプレビュー画面領域PVSが設けられている。プレビュー画面領域には、例えば、ユーザが映像タイムラインVTL上で指定した位置における静止画、あるいはその位置からの動画が表示される。タイムラインVTL,ATLは、図示のように、有用度の高いサブチャプタ区間HSと有用度の低いサブチャプタ区間LSとが、例えば明度、色相、彩度、模様などにより識別可能な状態で表示されている。
ユーザがマウス操作等でタイムラインの所定サブチャプタ区間の選択を行った場合、図11に示すように、この所定サブチャプタ区間およびその前後の区間の音声に対応した文字列が表示される。この場合、例えば、全ての文字列を同じ状態で表示されてもよいが、この実施の形態において、例えば、所定サブチャプタ区間の音声に対応した文字列は、その前後の区間の音声の文字列に対して、表示色を異ならせる等の方法で、ハイライト表示される。これにより、所定サブチャプタ区間の文字列とその他の区間の文字列を、視覚的に容易に区別可能となる。
図6に示す編集装置20の動作を説明する。動画読み込み部201では、記録メディア107から、編集に係る所定のチャプタの映像データおよび音声データの多重化データが読み込まれる。また、言語解析情報読み込み部202では、記録メディア107から、動画読み込み部201で読み込まれた所定チャプタの映像データおよび音声データの多重化データに対応したコンテンツ関連付け構造体が読み込まれる(図4参照)。
言語解析情報読み込み部202で読み込まれたコンテンツ関連付け構造体は、言語解析情報リスト生成部204に供給される。このリスト生成部204では、コンテンツ関連付け構造体に基づいて、言語解析情報リストが生成される。このリストには、所定のチャプタに含まれる文章毎の文字列データ、開始時間および終了時間が登録される。また、このリストには、その文章毎の、各音声特徴区間(スプリット)の開始文字位置、開始時間および発音情報が登録される。
さらに、このリストには、その文章毎に、各音声特徴区間(スプリット)の有用度の高低が判定され、有用度の高低で区分けした区間、つまりサブチャプタが登録される。このサブチャプタの登録では、そのサブチャプタの識別情報と、そのサブチャプタの開始位置、終了位置の情報とが関連付けされて記憶される。
動画読み込み部201で読み込まれた、編集に係る所定のチャプタの映像データおよび音声データは、タイムライン生成部205に供給される。このタイムライン生成部205では、編集に係る所定のチャプタの映像データおよび音声データのタイムラインが作成される。この場合、表示制御部206の制御のもと、言語解析情報リストに登録されるサブチャプタ登録に基づいて、有用度の高い区間と有用度の低い区間とが識別可能な状態でタイムラインが作成される。
タイムライン生成部205で生成されたタイムラインの情報は、表示部208に供給される。表示部208には、表示制御部206の制御のもと、映像タイムラインVTLおよび音声タイムラインATLが表示される。この場合、タイムラインVTL,ATLは、有用度の高い区間HSと有用度の低い区間LSとが識別可能な状態で表示される(図10参照)。
また、言語解析情報リスト生成部204で生成される言語解析情報リストは、テキスト情報取得部207に供給される。また、このテキスト情報取得部207には、ユーザによるタイムラインの所定サブチャプタ区間の選択に応じて、表示制御部206から、その所定サブチャプタ区間の識別情報が供給される。
テキスト情報取得部207では、タイムラインに対応させて表示する文字列データとして、言語解析情報リストに基づいて、ユーザの選択に係る所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列データが取得される。この文字列データは、表示部208に供給される。表示部208の編集画面には、ユーザの選択に係る所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列が表示される(図11参照)。
上述したように、図6に示す編集装置20においては、記録メディア107から編集に係る所定チャプタの映像データおよび音声データの多重化データが読み込まれるとき、それに関連付けて記録されているコンテンツ関連付け構造体の読み込みが行われ、言語解析情報リストが生成される。このコンテンツ関連付け構造体には、音声データの解析による音声特徴区間(スプリット)の情報が含まれると共に、テキスト変換による文字列データ等が含まれる。
多重化データに基づいて映像や音声のタイムラインが作成されるとき、言語解析情報リストに登録されるサブチャプタ登録に基づいて、有用度の高い区間と有用度の低い区間とが識別可能な状態でタイムラインが作成される。そのため、編集画面において、映像タイムラインVTLおよび音声タイムラインATLは、有用度の高い区間HSと有用度の低い区間LSとが識別可能な状態で表示される。そのため、ユーザは、両区間の境界を編集ポイントとして活用でき、適切な編集を行うことができる。
また、ユーザがタイムライン上でマウス等を操作して所定サブチャプタを選択するとき、言語解析情報リストに基づいて、ユーザの選択に係る所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列データが取得される。そのため、編集画面には、ユーザの選択に係る所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列が表示される。そのため、ユーザは、コンテンツを再生することなく、ある程度のコンテンツの認識が可能となり、編集を効率的かつ効果的に行うことができる。
<2.変形例>
「サブチャプタ登録の他の例」
なお、上述実施の形態においては、編集装置20の言語解析情報リスト生成部204では、音声特徴区間(スプリット)毎に有用度の高低判定を行って、有用度の高低で区分けした区間をサブチャプタとして登録するものである。そして、表示部208には、有用度の高い区間HSと、有用度の低い区間LSに分割された、映像、音声のタイムラインが表示されるものである。
しかし、文節毎の各区間、つまり各音声特徴区間(スプリット)をサブチャプタとして登録し、表示部208には、文節毎に分割された映像、音声のタイムラインを表示し、さらに、各文節に対応して文字列を表示するようにすることも考えられる。
図12のフローチャートは、言語解析情報リスト生成部204(図6参照)における、文章毎のサブチャプタ登録の処理手順の一例を示している。リスト生成部204は、ステップST61で処理を開始し、その後に、ステップST62の処理に移る。このステップST62において、リスト生成部204は、処理対象の文章の文字列構造体を取り出す。
次に、リスト生成部204は、ステップST63において、ステップST62で取り出された文字列構造体に含まれる最初の音声特徴区間(スプリット)の情報を取り出す。そして、リスト生成部204は、ステップST64において、その音声特徴区間をサブチャプタとして登録する。このサブチャプタの登録では、そのサブチャプタの識別情報と、そのサブチャプタの開始位置、終了位置の情報とが関連付けされて記憶される。
その後、リスト生成部204は、ステップST63に戻って、次の音声特徴区間(スプリット)の情報を処理対象の音声特徴区間として取り出し、その処理に移る。なお、次の音声特徴区間がないときは、処理を終了する。
タイムライン生成部205では、編集に係る所定のチャプタの映像データおよび音声データのタイムラインを作成する際に、言語解析情報リストに登録されるサブチャプタ登録に基づいて、音声特徴区間(スプリット)毎に分割されたタイムラインが作成される。また、テキスト情報取得部207では、言語解析情報リストから、各音声特徴区間(スプリット)の音声に対応した文字列データがそれぞれ取得される。
そのため、表示部208には、タイムライン生成部205で生成されたタイムラインの情報により、図13に示すように、各音声特徴区間(スプリット)毎に分割されたタイムラインVTL,ATLが表示される。また、表示部208には、テキスト情報取得部207で取得された文字列データに基づいて、各音声特徴区間(スプリット)に対応させて、その区間の音声に対応した文字列が表示される。
「単語選択による映像検索システム」
また、上述していないが、編集装置20において、言語解析情報読み込み部202で読み込まれる編集に係る所定チャプタのコンテンツ関連付け構造体に基づいて、文字列を構成する単語と、その単語が属する音声特徴区間(スプリット)との対応関係を示すテーブルを作成できる。そして、このテーブルを用いて、選択された単語が存在する音声特徴区間(スプリット)に対応した映像を検索するシステムを構成できる。
図14のフローチャートは、テーブル生成部(図6には図示していない)におけるテーブル生成の処理手順の一例を示している。テーブル生成部は、ステップST71において、処理を開始する。その後、テーブル作成部は、ステップST72において、記録メディア107から編集に係る所定ピクチャの映像データおよび音声データの多重化データに関連付けられたコンテンツ関連付け構造体を読み込む(図4参照)。
次に、テーブル生成部は、ステップST73において、コンテンツ関連付け構造体に含まれる各文字列に対応した文字列構造体を取り出す。そして、テーブル生成部は、ステップST74において、各文字列構造体に含まれる文字列から単語を抽出する。この場合、擬音も単語として含める。そして、テーブル生成部は、ステップST75において、ステップST74で抽出した単語と、その単語が属する音声特徴区間(スプリット)との対応関係を、テーブルに登録する。
ステップST74の単語抽出処理と、ステップST75のテーブル登録処理を、全ての単語について行うまで繰り返す。全ての単語について処理が終了したとき、テーブル生成部は、処理を終了する。
図15は、上述のように生成されたテーブルを用いた検索例を示している。例えば、表示部208に表示される編集画面に、例えば、図15(a)に示すように、テーブルに登録された単語が、「A」から始まる単語、「B」から始まる単語、・・・等のように分類されて表示される。
ユーザがその中から所定の単語を選択するとき、テーブルが参照されて、その単語が属する音声特徴区間(スプリット)が取得され、その区間の所定フレーム、例えば、最初と最後のフレームの画像が、例えば、図15(b)に示すように、編集画面のプレビュー画面領域PVSに表示される。なお、プレビュー画面領域PVSに、該当する区間の動画が表示されるようにしてもよい。また、これと共に、タイムライン上に該当区間が明示されるようにしてもよい。
「ネットワークへの送信」
また、上述実施の形態において、情報処理装置10(図1参照)の動画/言語解析情報関連付け部106は、コンテンツを構成する映像データおよび音声データの多重化データと言語解析情報(コンテンツ関連付け構造体)とを記録メディア107に関連付けて記録する例を示した。
しかし、ネットワークへのライブストリームを実施する場合には、コンテンツを構成する映像データおよび音声データの多重化データに言語解析情報を関連付けて送信することになる。その場合、多重化データは、例えば4秒とかの送信単位(バッファリング単位)で送信されるが、参照性をよくするために、言語解析情報もその送信単位で区切られたものとする。
図16は、ネットワークへのライブストリームを実施する場合における情報処理装置10Aの構成例を示している。この図16において、図1と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。
言語解析部104の言語解析結果記録フォーマット変換部104cAは、コンテンツを構成する映像データおよび音声データの多重化データの送信単位毎に、図17に示すような、コンテンツ関連付け構造体を作成する。「関連コンテンツを特定するID」は、コンテンツのチャプタ識別情報である。
また、このコンテンツ関連付け構造体には、「参考テキスト」、「開始時間」、「継続時間」、「発音情報」などの情報が含まれる。「参考テキスト」の情報は、送信単位区間中に発生された言葉の文字列データである。「開始時間」は、区切れ目位置の開始時間位置を示す。「継続時間」は、区切れ目位置の継続時間を示し、送信単位区間に対応した最長継続時間以下の時間である。「発音情報」は、音声特徴の種別を示す。音声特徴の種別は、上述したように、母音の長音区間、破裂音、強いアクセントで始まる区間、擬音表現の区間、音声の高低の変化区間などである。
動画/言語解析情報関連付け部106Aは、動画多重化部103で得られた多重化データを、送信単位で、順次ネットワーク108に送信する。その際、動画/言語解析情報関連付け部106Aは、送信単位毎に、言語解析部104で生成されたコンテンツ関連付け構造体(図17参照)を付加して送信する。
なお、図16に示す情報処理装置10Aにあっては、破線矢印で示すように、言語マッチングデータベース105は、ネットワーク(クラウド)108に存在するものを利用することもできる。
「動き解析情報の付加」
また、上述実施の形態においては、映像データおよび音声データの多重化データに言語解析情報のみ関連付けて記録あるいは送信する例を示した。しかし、映像データから取得される動き解析情報を、さらに、関連付けて記録あるいは送信することも考えられる。これにより、編集ポイントを特定するための情報として、さらに有用な情報の提供が可能となる。
図18は、情報処理装置10Bの構成例を示している。この図18において、図1と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。この情報処理装置10Bは、映像入力部101と、音声入力部102と、動画多重化部103と、言語解析部104と、言語マッチングデータベース105を有している。また、この情報処理装置10Bは、動き特徴検出部111と、動き解析結果記録フォーマット変換部112と、解析情報統合部113と、動画/解析情報関連付け部106Bと、記録メディア107を有している。
言語解析部104は、音声特徴検出部104a、テキスト変換部104bおよび言語解析結果記録フォーマット変換部104cBを有している。記録フォーマット変換部104cBは、チャプタに含まれる文章毎に、音声特徴検出部104aからの各音声特徴区間の情報と、テキスト変換部104bからの各文章の情報に基づいて、図19(d)に示すような、文字列構造体を作成する。
この文字列構造体には、図19(b)に示すような、解析情報構造体が含まれる。この解析情報構造体は、「構造種別」、「開始時間」および「終了時間」の情報を持っている。文字列構造体に含まれる解析情報構造体にあっては、「構造種別」の情報は文字列構造であることを示し、開始時間は文字列の発音が開始された時間を示し、終了時間は文字列の発音が終了した時間を示す。
また、文字列構造体には、文章の文字列データ(図示の例では“XXXXAAAAACCCCCCBBBBB”のデータ)が含まれる。また、この文字列構造体には、文章内の各音声特徴区間(スプリット)の情報が含まれる。1つの音声特徴区間の情報は、開始文字位置、開始時間および発音情報からなる。開始文字位置は、文字列中の区切れ目位置を示す。この開始文字位置は、文字列と音声特徴区間とを対応させるために、文字列の何番目という形で記述される。例えば、図示の例において、文字列中の「AAAA」に対応する音声特徴区間における開始文字位置は、5文字目である。
動き特徴検出部111は、映像入力部101に入力された映像データを解析して、動き特徴を検出する。ここで、検出される動き特徴には、フォーカス位置移動、撮影方向変化などがある。動き特徴検出部111は、動き特徴区間毎に、動き特徴の種別と、開始および終了の時間情報を出力する。
動き解析結果記録フォーマット変換部112は、動き特徴区間毎に、動き特徴検出部1111からの動き特徴区間の情報に基づいて、図19(d)に示すような、動き構造体を作成する。この動き構造体には、図19(b)に示すような、解析情報構造体が含まれると共に、動き特徴の種別、例えばフォーカス位置移動、撮影方向変化などを示す「動き種別」の情報が含まれる。
解析情報構造体は、「構造種別」、「開始時間」および「終了時間」の情報を持っている。動き構造体に含まれる解析情報構造体にあっては、「構造種別」の情報は動き構造であることを示し、開始時間は動き特徴区間の開始時間を示し、終了時間は動き特徴区間の終了時間を示す。
解析情報統合部113は、チャプタ毎に、言語解析部104の言語解析結果記録フォーマット変換部104cBで作成された文字列構造体と、動き解析結果記録フォーマット変換部112で作成された動き構造体とを統合し、図19(a)に示すような、コンテンツ関連付け構造体を作成する。「関連コンテンツを特定するID」は、コンテンツのチャプタ識別情報である。「解析情報のリスト」の部分に、各文章の文字列構造体と、各動き特徴区間の動き構造体が含まれる。
動画/解析情報関連付け部106Bは、動画多重化部103で得られる映像データおよび音声データの多重化データと、解析情報統合部113で得られるコンテンツ関連付け構造体とを、関連付けして、記録メディア107に記録する。図18に示す情報処理装置10Bのその他は、図1に示す情報処理装置10と同様に構成され、同様に動作する。
図20は、編集装置20Bの構成例を示している。この図20において、図6と対応する部分には同一符号を付し、その詳細説明は省略する。この編集装置20Bは、上述の図18に示す情報処理装置10Bで記録メディア107に記録された各チャプタの多重化データおよびコンテンツ関連付け構造体を取り扱う。
この編集装置20Bは、動画読み込み部201と、言語解析情報読み込み部202Bと、動画/解析情報関連付け部203Bと、解析情報リスト生成部204Bを有している。また、この編集装置20Bは、タイムライン(チャプタ)生成部205と、表示制御部206と、テキスト情報取得部207と、表示部208を有している。
解析情報読み込み部202Bは、記録メディア107から、動画読み込み部201で読み込まれた所定チャプタの映像データおよび音声データの多重化データに対応したコンテンツ関連付け構造体(図19参照)を読み込む。この際、動画/解析情報関連付け部203Bは、チャプタの識別情報あるいはファイル情報などの関連付け情報を、解析情報読み込み部202Aに送る。
解析情報リスト生成部204Bは、解析情報読み込み部202Bで読み込まれたコンテンツ関連付け構造体を取り込み、解析情報リストを生成する。すなわち、このリストには、所定のチャプタに含まれる文章毎の文字列データ、開始時間および終了時間が登録される。また、このリストには、その文章毎の、各音声特徴区間(スプリット)の開始文字位置、開始時間および発音情報が登録される。また、このリストには、所定のチャプタに含まれる動き特徴区間毎の種別情報、開始時間および終了時間が登録される。
さらに、このリストには、文章毎に、各音声特徴区間(スプリット)の有用度の高低が判定され、有用度の高低で区分けした区間、つまりサブチャプタが登録される。このサブチャプタの登録では、そのサブチャプタの識別情報と、そのサブチャプタの開始位置、終了位置の情報とが関連付けされて記憶される。
リスト生成部204Bにおける、文章毎のサブチャプタ登録の処理は、上述の図6の編集装置20と同様に、図7のフローチャートに沿って行われる。ただし、ステップST34の区間判定処理は、図8のフローチャートの代わりに、ここでは、図21のフローチャートに示すように、言語解析情報だけでなく、動き解析情報をも使用されて、行われる。
リスト生成部204Bは、ステップST81において、処理を開始し、その後に、ステップST82の処理に移る。このステップST82において、リスト生成部204Bは、処理対象の音声特徴区間が母音の長音区間であるか否かを判定する。
母音の長音区間でないとき、リスト生成部204Bは、ステップST83において、処理対象の音声特徴区間の開始文字列が辞書に存在するか否かを判定する。辞書に存在するとき、リスト生成部204Bは、ステップST84において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部204Bは、ステップST85において、処理を終了して戻る。
ステップST83で辞書に存在しないとき、リスト生成部204Bは、ステップST86において、処理対象の音声特徴区間が破裂音で始まる区間か否かを判定する。破裂音で始まる区間であるとき、リスト生成部204Bは、ステップST84において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部204Bは、ステップST85において、処理を終了して戻る。
ステップST82で処理対処の音声特徴区間が母音の長音区間であるとき、あるいはステップST86で処理対処の音声特徴区間が破裂音で始まる区間でないとき、リスト生成部204Bは、ステップST87において、近傍の動き情報では有用か否かを判定する。例えば、リスト生成部204Bは、近傍にフォーカス位置移動、あるいは撮影方向変化の動き特徴区間が存在するとき、有用であると判定する。
有用と判定するとき、リスト生成部204Bは、ステップST84において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部204Bは、ステップST85において、処理を終了して戻る。一方、有用でないと判定するとき、リスト生成部204Bは、ステップST87において、処理対象の音声特徴区間は有用度の低い区間と判定する。その後、リスト生成部204Bは、ステップST85において、処理を終了する。
図20に戻って、タイムライン生成部205は、動画読み込み部201で読み込まれた、編集に係る所定のチャプタの映像データおよび音声データのタイムラインを作成する。このタイムラインの作成は、表示制御部206の制御のもとで行われる。表示制御部206は、上述の解析情報リストに登録されるサブチャプタ登録に基づいて、有用度の高い区間と有用度の低い区間とが識別可能な状態でタイムラインが作成されるように、タイムライン生成部205の動作を制御する。
テキスト情報取得部207は、タイムラインに対応させて表示する文字列データを、解析情報リストに基づいて取得する。このテキスト情報の取得は、表示制御部206の制御のもとで行われる。表示制御部206は、ユーザによるタイムラインの所定サブチャプタ区間の選択情報に基づいて、その所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列データが取得されるように、テキスト情報取得部207の動作を制御する。なお、ユーザは、所定サブチャプタ区間の選択を、図示しないマウス等のポインティングデバイスを操作することで行う。
表示部208は、LCD(Liquid Crystal Display)等のディスプレイを用いて構成されており、編集画面を表示する。この表示部208は、表示制御部206の制御のもと、タイムライン生成部205で生成されたタイムラインを表示し、さらに、テキスト情報取得部207で取得された文字列を表示する。図20に示す編集装置20Bのその他は、図6に示す編集装置20と同様に構成され、同様に動作する。
「コンテンツ関連付け構造体による再生制御」
また、上述実施の形態においては、チャプタ毎に、映像データおよび音声データの多重化データに関連付けされているコンテンツ関連付け構造体に含まれる情報に基づいて、編集画面の表示制御を行う例を示した。しかし、コンテンツ関連付け構造体に基づいて、コンテンツのハイライト再生時における制御を行うことも考えられる。例えば、コンテンツ関連付け構造体に基づいて有用度の低い区間と判定された区間を、不要区間として予め排除した上で演出できる。そのため、より効率的にハイライトシーンを検出可能となる。
[本技術を適用したコンピュータの説明]
上述した情報処理装置、編集装置における一連の処理は、ハードウェアにより行うこともでき、ソフトウェアにより行うこともできる。一連の処理をソフトウェアで行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
図22は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの構成例を示している。プログラムは、コンピュータに内蔵されている記録媒体としての記憶部308やROM(Read Only Memory)302に予め記録しておくことができる。
また、プログラムは、リムーバブルメディア311に格納(記録)しておくことができる。このようにリムーバブルメディア311は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブルメディア311としては、例えば、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、MO(MagnetoOptical)ディスク、DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどがある。
なお、プログラムは、上述したようなリムーバブルメディア311からドライブ310を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部308にインストールすることもできる。すなわち、プログラムは、例えば、ダウンロードサイトから、デジタル衛星放送用の人工衛星を介してコンピュータに無線で転送し、あるいは、LAN(Local Area Network)、インターネットといったネットワークを介してコンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)301を内蔵しており、CPU301には、バス304を介して、入出力インタフェース305が接続されている。CPU301は、入出力インタフェース305を介して、ユーザによって、入力部306が操作等されることにより指令が入力されると、それに従って、ROM302に格納されているプログラムを実行する。あるいは、CPU301は、記憶部308に格納されたプログラムを、RAM(Random Access Memory)303にロードして実行する。
これにより、CPU301は、上述したフローチャートに従った処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU301は、その処理結果を、必要に応じて、例えば、入出力インタフェース305を介して、出力部307から出力、あるいは、通信部309から送信、さらには、記憶部308に記録等させる。なお、入力部306は、キーボードや、マウス、マイク等で構成される。また、出力部307は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に従って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトにより処理)も含む。また、プログラムは、一のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
また、本技術は、以下のような構成を取ることもできる。
(1)音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報を出力する情報出力部とを備える
情報処理装置。
(2)上記編集ポイントを特定するための情報は、上記編集ポイントの近傍期間における上記言語解析による言語情報を含む
前記(1)に記載の情報処理装置。
(3)上記言語情報は、上記音声の発音情報を含む
前記(2)に記載の情報処理装置。
(4)上記言語情報は、上記音声の文字列情報を含む
前記(2)または(3)に記載の情報処理装置。
(5)上記情報出力部は、
上記編集ポイントの近傍期間における、上記コンテンツに含まれる映像の動き情報をさらに出力する
前記(1)から(4)のいずれかに記載の情報処理装置。
(6)上記情報出力部は、
上記取得された情報を上記コンテンツと関連付けて記録メディアに記録する
前記(1)から(5)のいずれかに記載の情報処理装置。
(7)上記情報出力部は、
上記取得された情報を上記コンテンツの送信単位に合わせてネットワークに送信する
前記(1)から(5)のいずれかに記載の情報処理装置。
(8)音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得するステップと、
上記取得された情報を出力する情報出力ステップとを備える
情報処理方法。
(9)音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御部とを備える
表示制御装置。
(10)上記編集ポイントを特定するための情報は、上記編集ポイントの近傍期間における上記言語解析による言語情報を含む
前記(9)に記載の表示制御装置。
(11)上記表示制御部は、
上記編集ポイントを特定するための情報に基づいて、上記コンテンツの有用度の高い第1の区間と有用度の低い第2の区間を特定し、
上記コンテンツのタイムラインが上記第1の区間と上記第2の区間とが識別可能な状態で表示されるように制御する
請求項(9)または(10)に記載の表示制御装置。
(12)上記表示制御部は、
上記タイムラインの所定区間の選択に応じて、上記言語情報に含まれる文字列情報を利用して、該所定区間の音声に対応する文字列が表示されるように制御する
前記(11)に記載の表示制御装置。
(13)上記表示制御部は、
上記所定区間の音声に対応する文字列と共に、前後の区間の音声に対応した文字列も表示され、
上記所定区間の音声に対応する文字列がハイライト表示されるように制御する
前記(12)に記載の表示制御装置。
(14)上記ハイライト表示は、他の区間とは表示色を異ならせることによるハイライト表示である
前記(13)に記載の表示制御装置。
(15)上記表示制御部は、
上記言語情報に含まれる文字列情報で示される文節毎の区間に分割された上記コンテンツのタイムラインが表示されると共に、
該タイムラインの各区間に対応して、該各区間の音声に対応した文字列が表示されるように制御する
前記(10)に記載の表示制御装置。
(16)音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得ステップと、
上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御ステップとを備える
表示制御方法。
10,10A,10B・・・情報処理装置
20,20B・・・編集装置
101・・・映像入力部
102・・・音声入力部
103・・・動画多重化部
104・・・言語解析部
104a・・・音声特徴検出部
104b・・・テキスト変換部
104c,104cA,104cB・・・言語解析結果記録フォーマット変換部
105・・・言語マッチングデータベース
106・・・動画/言語解析情報関連付け部
107・・・記録メディア
108・・・ネットワーク
111・・・動き特徴検出部
112・・・動き解析結果記録フォーマット変換部
113・・・解析情報統合部
201・・・動画読み込み部
202・・・言語解析情報読み込み部
202A・・・解析情報読み込み部
203・・・動画/言語解析情報関連付け部
203A・・・動画/解析情報関連付け部
204・・・言語解析情報リスト生成部
204A・・・解析情報リスト生成部
205・・・タイムライン生成部
206・・・表示制御部
207・・・テキスト情報取得部
208・・・表示部

Claims (16)

  1. 音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
    上記取得された情報を出力する情報出力部とを備える
    情報処理装置。
  2. 上記編集ポイントを特定するための情報は、上記編集ポイントの近傍期間における上記言語解析による言語情報を含む
    請求項1に記載の情報処理装置。
  3. 上記言語情報は、上記音声の発音情報を含む
    請求項2に記載の情報処理装置。
  4. 上記言語情報は、上記音声の文字列情報を含む
    請求項2に記載の情報処理装置。
  5. 上記情報出力部は、
    上記編集ポイントの近傍期間における、上記コンテンツに含まれる映像の動き情報をさらに出力する
    請求項1に記載の情報処理装置。
  6. 上記情報出力部は、
    上記取得された情報を上記コンテンツと関連付けて記録メディアに記録する
    請求項1に記載の情報処理装置。
  7. 上記情報出力部は、
    上記取得された情報を上記コンテンツの送信単位に合わせてネットワークに送信する
    請求項1に記載の情報処理装置。
  8. 音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得するステップと、
    上記取得された情報を出力する情報出力ステップとを備える
    情報処理方法。
  9. 音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
    上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御部とを備える
    表示制御装置。
  10. 上記編集ポイントを特定するための情報は、上記編集ポイントの近傍期間における上記言語解析による言語情報を含む
    請求項9に記載の表示制御装置。
  11. 上記表示制御部は、
    上記編集ポイントを特定するための情報に基づいて、上記コンテンツの有用度の高い第1の区間と有用度の低い第2の区間を特定し、
    上記コンテンツのタイムラインが上記第1の区間と上記第2の区間とが識別可能な状態で表示されるように制御する
    請求項9に記載の表示制御装置。
  12. 上記表示制御部は、
    上記タイムラインの所定区間の選択に応じて、上記言語情報に含まれる文字列情報を利用して、該所定区間の音声に対応する文字列が表示されるように制御する
    請求項11に記載の表示制御装置。
  13. 上記表示制御部は、
    上記所定区間の音声に対応する文字列と共に、前後の区間の音声に対応した文字列も表示され、
    上記所定区間の音声に対応する文字列がハイライト表示されるように制御する
    請求項12に記載の表示制御装置。
  14. 上記ハイライト表示は、他の区間とは表示色を異ならせることによるハイライト表示である
    請求項13に記載の表示制御装置。
  15. 上記表示制御部は、
    上記言語情報に含まれる文字列情報で示される文節毎の区間に分割された上記コンテンツのタイムラインが表示されると共に、
    該タイムラインの各区間に対応して、該各区間の音声に対応した文字列が表示されるように制御する
    請求項10に記載の表示制御装置。
  16. 音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得ステップと、
    上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御ステップとを備える
    表示制御方法。
JP2012156201A 2012-07-12 2012-07-12 情報処理装置、情報処理方法、表示制御装置および表示制御方法 Active JP5910379B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012156201A JP5910379B2 (ja) 2012-07-12 2012-07-12 情報処理装置、情報処理方法、表示制御装置および表示制御方法
US13/911,323 US9666211B2 (en) 2012-07-12 2013-06-06 Information processing apparatus, information processing method, display control apparatus, and display control method
CN201310278580.6A CN103544950B (zh) 2012-07-12 2013-07-04 信息处理设备,信息处理方法,显示控制设备和显示控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012156201A JP5910379B2 (ja) 2012-07-12 2012-07-12 情報処理装置、情報処理方法、表示制御装置および表示制御方法

Publications (2)

Publication Number Publication Date
JP2014022758A true JP2014022758A (ja) 2014-02-03
JP5910379B2 JP5910379B2 (ja) 2016-04-27

Family

ID=49914719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012156201A Active JP5910379B2 (ja) 2012-07-12 2012-07-12 情報処理装置、情報処理方法、表示制御装置および表示制御方法

Country Status (3)

Country Link
US (1) US9666211B2 (ja)
JP (1) JP5910379B2 (ja)
CN (1) CN103544950B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150115385A (ko) * 2014-04-04 2015-10-14 삼성전자주식회사 레코딩 지원 전자장치 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140031790A (ko) * 2012-09-05 2014-03-13 삼성전자주식회사 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치
US9324628B2 (en) 2014-02-25 2016-04-26 International Business Machines Corporation Integrated circuit heat dissipation using nanostructures
EP3159895A4 (en) * 2014-07-26 2017-08-02 Huawei Technologies Co. Ltd. Method and apparatus for editing audio files
US10614418B2 (en) * 2016-02-02 2020-04-07 Ricoh Company, Ltd. Conference support system, conference support method, and recording medium
CN111445929A (zh) * 2020-03-12 2020-07-24 维沃移动通信有限公司 一种语音信息处理方法及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003224774A (ja) * 2002-01-28 2003-08-08 Telecommunication Advancement Organization Of Japan 半自動型字幕番組制作システム
JP2003230094A (ja) * 2002-02-06 2003-08-15 Nec Corp チャプター作成装置及びデータ再生装置及びその方法並びにプログラム
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2004363643A (ja) * 2003-05-30 2004-12-24 Toshiba Corp ストリームデータの編集方法と編集システム及びプログラム
JP2005333381A (ja) * 2004-05-19 2005-12-02 Toshiba Corp メディアデータ再生装置、メディアデータ再生システム、メディアデータ再生プログラムおよび遠隔操作プログラム
JP2006140707A (ja) * 2004-11-11 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009163644A (ja) * 2008-01-09 2009-07-23 Sony Corp 映像検索装置、編集装置、映像検索方法およびプログラム
US20110317984A1 (en) * 2010-06-28 2011-12-29 Brother Kogyo Kabushiki Kaisha Computer readable medium, information processing apparatus and method for processing moving image and sound
JP2012084979A (ja) * 2010-10-07 2012-04-26 Sony Corp 情報処理装置及び方法、プログラム、並びに情報処理システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260306B2 (en) * 1996-06-04 2007-08-21 Hitachi Kokusai Electric, Inc. Editing method for recorded information
KR101109023B1 (ko) * 2003-04-14 2012-01-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 콘텐트 분석을 사용하여 뮤직 비디오를 요약하는 방법 및 장치
US20070011012A1 (en) * 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content
US20080240379A1 (en) * 2006-08-03 2008-10-02 Pudding Ltd. Automatic retrieval and presentation of information relevant to the context of a user's conversation
US20080235763A1 (en) * 2007-03-20 2008-09-25 At&T Knowledge Ventures, Lp System and method of providing security for a multimedia timeline
US8896531B2 (en) * 2008-04-24 2014-11-25 Oblong Industries, Inc. Fast fingertip detection for initializing a vision-based hand tracker
JP4609527B2 (ja) * 2008-06-03 2011-01-12 株式会社デンソー 自動車用情報提供システム
US8645131B2 (en) * 2008-10-17 2014-02-04 Ashwin P. Rao Detecting segments of speech from an audio stream
JP5725028B2 (ja) * 2010-08-10 2015-05-27 日本電気株式会社 音声区間判定装置、音声区間判定方法および音声区間判定プログラム
US9047878B2 (en) * 2010-11-24 2015-06-02 JVC Kenwood Corporation Speech determination apparatus and speech determination method

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003224774A (ja) * 2002-01-28 2003-08-08 Telecommunication Advancement Organization Of Japan 半自動型字幕番組制作システム
JP2003230094A (ja) * 2002-02-06 2003-08-15 Nec Corp チャプター作成装置及びデータ再生装置及びその方法並びにプログラム
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2004363643A (ja) * 2003-05-30 2004-12-24 Toshiba Corp ストリームデータの編集方法と編集システム及びプログラム
JP2005333381A (ja) * 2004-05-19 2005-12-02 Toshiba Corp メディアデータ再生装置、メディアデータ再生システム、メディアデータ再生プログラムおよび遠隔操作プログラム
JP2006140707A (ja) * 2004-11-11 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 映像処理方法、映像処理装置、映像処理用プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009163644A (ja) * 2008-01-09 2009-07-23 Sony Corp 映像検索装置、編集装置、映像検索方法およびプログラム
US20110317984A1 (en) * 2010-06-28 2011-12-29 Brother Kogyo Kabushiki Kaisha Computer readable medium, information processing apparatus and method for processing moving image and sound
JP2012084979A (ja) * 2010-10-07 2012-04-26 Sony Corp 情報処理装置及び方法、プログラム、並びに情報処理システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150115385A (ko) * 2014-04-04 2015-10-14 삼성전자주식회사 레코딩 지원 전자장치 및 방법
KR102249086B1 (ko) 2014-04-04 2021-05-10 삼성전자주식회사 레코딩 지원 전자장치 및 방법

Also Published As

Publication number Publication date
CN103544950A (zh) 2014-01-29
US20140019132A1 (en) 2014-01-16
JP5910379B2 (ja) 2016-04-27
US9666211B2 (en) 2017-05-30
CN103544950B (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
JP5910379B2 (ja) 情報処理装置、情報処理方法、表示制御装置および表示制御方法
JP6745381B2 (ja) シーンメタ情報生成装置およびシーンメタ情報生成方法
KR101057559B1 (ko) 정보 기록 장치
US20050180462A1 (en) Apparatus and method for reproducing ancillary data in synchronization with an audio signal
KR20050018315A (ko) 텍스트 자막을 다운로드받기 위한 정보를 저장하는정보저장매체, 자막 재생 방법 및 장치
JP2005064600A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2011030224A (ja) マルチメディア字幕表示システム及びマルチメディア字幕表示方法
JP2007295218A (ja) ノンリニア編集装置およびそのプログラム
JP2010283605A (ja) 映像処理装置及び方法
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP2004153764A (ja) メタデータ制作装置及び検索装置
JP2006528864A (ja) シナリオを記録した情報記録媒体、記録装置及び記録方法、その情報記録媒体の再生装置及びシナリオの検索方法
JP2004318162A (ja) オーディオファイルとテキストを同期化させる同期信号の埋込/検出方法及び装置
KR20050012101A (ko) 시나리오를 기록한 정보저장매체, 기록장치 및 기록방법,그 정보저장매체의 재생장치 및 시나리오의 검색방법
JP2006166407A (ja) 撮像装置及びその制御方法
JP2007165959A (ja) 画像表示装置
JP2005321706A (ja) 電子書籍の再生方法及びその装置
JP2000222417A (ja) 画像ファイリング装置
JP2005326811A (ja) 音声合成装置および音声合成方法
JP6392150B2 (ja) 講演支援装置、方法およびプログラム
JP2982697B2 (ja) テロップ表示装置
JP6110731B2 (ja) ジェスチャーによるコマンド入力識別システム
JP2010066675A (ja) 音声情報処理システム及び音声情報処理プログラム
JP2019213160A (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP2007149163A (ja) コンテンツ再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160314

R151 Written notification of patent or utility model registration

Ref document number: 5910379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250