JP2014022758A

JP2014022758A - 情報処理装置、情報処理方法、表示制御装置および表示制御方法

Info

Publication number: JP2014022758A
Application number: JP2012156201A
Authority: JP
Inventors: Tatsu Kuwahara; 立桑原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-07-12
Filing date: 2012-07-12
Publication date: 2014-02-03
Anticipated expiration: 2032-07-12
Also published as: CN103544950A; US20140019132A1; JP5910379B2; US9666211B2; CN103544950B

Abstract

【課題】編集ポイント特定のための良好な情報の提供を実現する。
【解決手段】音声を含むコンテンツの言語解析に基づいて、このコンテンツの編集ポイントを特定するための情報を取得する。例えば、この情報は、編集ポイントの近傍期間における言語解析による言語情報、例えば、音声の発音情報、音声の文字列情報などを含む。取得された情報を出力する。例えば、コンテンツに関連付けて記録メディアに記録する、あるいは、コンテンツに関連付けて、コンテンツと共に、ネットワークに送信する。
【選択図】図１

Description

本技術は、情報処理装置、情報処理方法、表示制御装置および表示制御方法に関し、特に、音声を含むコンテンツを処理する情報処理装置等に関する。

従来、ユーザの嗜好を考慮、類推して、コンテンツ群から面白いと思われる部分のみを抽出して再生する方法が存在する。万人が面白いと思う箇所を特定する方法では、どうしても抽出対象となるコンテンツが少なくなる。そのため、スライドショー等で用いるには不足分のコンテンツを補う必要がある。また、ユーザの嗜好を考慮する場合は、ユーザの嗜好を特定するためのデータベースをどのように作るかという問題がある。

例えば、特許文献１において、スピーチ等を収録したコンテンツの中から自動的にチャプタを生成し再生するという技術が提案されている。この技術は、音の波形解析から、音声の塊を判定し、音声の塊単位でチャプタジャンプを実施することで、視聴するというものである。また、例えば、特許文献２において、音解析から編集ポイントを自動判定する技術が提案されている。この技術は、一定時間無音区間が続く場合に該当区間を編集ポイントとして記憶しておき、後の編集時にカット編集するものである。

国際公開第２００９／０２５１５５号特開平１０−８４５２６号公報

特許文献１で提案されている技術では、スピーチの内容を聴く上で不要な区間を特定することができず。コンテンツ中の有意な箇所のみを切り出して再生することまではできない。また、音声の塊を音の振幅によって判定するため、語尾が間延びしてしまった区間等を判定することができてない。

また、特許文献２で提案されている技術では、会話やスピーチ時に発生する冗長な区間として考えられる、長すぎる無声区間を特定することはできる。しかし、音声以外で発生している音や、音声ではあるが会話やスピーチの内容を聴く上で、意味をなさない音のみの区間を特定することができない。一般に、会話の最中には、なるべく無意味な区間がないようにするため、音声検出される区間においても有意な区間か無効な区間かを判定する方法が望まれる

本技術の目的は、編集ポイント特定のための良好な情報の提供を実現することにある。

本技術の概念は、
音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報を出力する情報出力部とを備える
情報処理装置にある。

本技術において、情報取得部により、音声を含むコンテンツの言語解析に基づいて、このコンテンツの編集ポイントを特定するための情報が取得される。例えば、この編集ポイントを特定するための情報は、編集ポイントの近傍期間における言語解析による言語情報を含む、ようにされてもよい。この場合、例えば、言語情報は、音声の発音情報、音声の文字列情報などを含む、ようにされてもよい。

情報出力部により、取得されたコンテンツの編集ポイントを特定するための情報が出力される。例えば、情報出力部は、この情報をコンテンツと関連付けて記録メディアに記録する、ようにされてもよい。また、例えば、情報出力部は、この情報をコンテンツの送信単位に合わせてネットワークに送信する、ようにされてもよい。

このように本技術においては、音声を含むコンテンツに対して言語解析に基づいてそのコンテンツの編集ポイントを特定するための情報を取得して出力するものであり、編集ポイント特定のための良好な情報の提供が可能となる。

なお、本技術において、例えば、情報出力部は、編集ポイントの近傍期間における、コンテンツに含まれる映像の動き情報をさらに出力する、ようにされてもよい。このように映像の動き情報をさらに出力することで、編集ポイントを特定するための情報として、さらに有用な情報の提供が可能となる。

また、本技術の他の概念は、
音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御部とを備える
表示制御装置にある。

本技術において、情報取得部により、音声を含むコンテンツの言語解析に基づいて得られた、このコンテンツの編集ポイントを特定するための情報が取得される。例えば、この編集ポイントを特定するための情報は、編集ポイントの近傍期間における言語解析による言語情報を含む、ようにされてもよい。この場合、例えば、言語情報は、音声の発音情報、音声の文字列情報などを含む、ようにされてもよい。そして、表示制御部により、取得された情報に基づいて、コンテンツに関する表示が制御される。

例えば、表示制御部は、編集ポイントを特定するための情報に基づいて、コンテンツの有用度の高い第１の区間と有用度の低い第２の区間を特定し、コンテンツのタイムラインが第１の区間と第２の区間とが識別可能な状態で表示されるように制御する、ようにされてもよい。

この場合、例えば、表示制御部は、タイムラインの所定区間の選択に応じて、言語情報に含まれる文字列情報を利用して、該所定区間の音声に対応する文字列が表示されるように制御する、ようにされてもよい。このとき、例えば、表示制御部は、所定区間の音声に対応する文字列と共に、前後の区間の音声に対応した文字列も表示され、所定区間の音声に対応する文字列がハイライト表示されるように制御する、ようにされてもよい。ここで、ハイライト表示は、例えば、他の区間とは表示色を異ならせることによるハイライト表示などである。

また、例えば、表示制御部は、言語情報に含まれる文字列情報で示される文節毎の区間に分割されたコンテンツのタイムラインが表示されると共に、このタイムラインの各区間に対応して、各区間の音声に対応した文字列が表示されるように制御する、ようにされてもよい。

このように本技術においては、音声を含むコンテンツの言語解析に基づいて得られた、このコンテンツの編集ポイントを特定するための情報に基づいて、コンテンツに関する表示を制御するものである。そのため、コンテンツに関する表示、例えば編集のためのタイムライン等の表示を良好に行うことが可能となる。

本技術によれば、編集ポイント特定のための良好な情報の提供を実現できる。

実施の形態としての情報処理装置の構成例を示すブロック図である。音声特徴検出部の処理手順の一例を示すフローチャートである。テキスト変換部の処理手順の一例を示すフローチャートである。言語解析結果記録フォーマット変換部が作成するコンテンツ関連付け構造体、文字列構造体を示す図である。文字列、音声特徴区間（スプリット）および映像データ（コンテンツ）との対応関係の一例を模式的に示す図である。実施の形態としての編集装置の構成例を示すブロック図である。言語解析情報リスト生成部における文章毎のサブチャプタ登録の処理手順の一例を示すフローチャートである。音声特徴区間の有用度の高低を判定する処理手順の一例を示すフローチャートである。テキスト情報取得部における文字列データの取得の処理手順の一例を示すフローチャートである。表示部に表示される編集画面の表示例を示す図である。ユーザがマウス操作等でタイムラインの所定サブチャプタ区間の選択を行った場合に、その所定サブチャプタ区間およびその前後の区間の音声に対応した文字列が表示されることを説明するための図である。言語解析情報リスト生成部における文章毎のサブチャプタ登録の処理手順の一例を示すフローチャートである。各音声特徴区間（スプリット）毎に分割されたタイムラインが表示され、さらに各音声特徴区間に対応させてその区間の音声に対応した文字列が表示されることを示す図である。テーブル生成部におけるテーブル生成の処理手順の一例を示すフローチャートである。単語選択による映像検索システムを説明するための図である。ネットワークへのライブストリームを実施する場合における情報処理装置の構成例を示すブロック図である。ネットワーク送信を行う場合におけるコンテンツ関連付け構造体の一例を示す図である。情報処理装置の他の構成例を示すブロック図である。解析情報統合部で作成するコンテンツ関連付け構造体およびそれに含まれる文字列構造体、動き構造体などを示す図である。編集装置の他の構成例を示すブロック図である。音声特徴区間の有用度の高低を判定する処理手順の他の例を示すフローチャートである。コンピュータの構成例を示す図である。

以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明を以下の順序で行う。
１．実施の形態
２．変形例

＜１．実施の形態＞
［情報処理装置の構成例］
図１は、情報処理装置１０の構成例を示している。この情報処理装置１０は、映像入力部１０１と、音声入力部１０２と、動画多重化部１０３と、言語解析部１０４と、言語マッチングデータベース１０５と、動画／言語解析情報関連付け部１０６と、記録メディア１０７を有している。

映像入力部１０１は、コンテンツを構成する映像データを入力する部分である。音声入力部１０２は、上述の映像入力部１０１に入力される映像データに対応した、コンテンツを構成する音声データを入力する部分である。動画多重化部１０３は、映像入力部１０１に入力された映像データと音声入力部１０２に入力された音声データを多重化して多重化データを生成する。

言語解析部１０４は、音声特徴検出部１０４ａ、テキスト変換部１０４ｂおよび言語解析結果記録フォーマット変換部１０４ｃを有している。音声特徴検出部１０４ａは、音声入力部１０２に入力された音声データを解析して、音声特徴区間（スプリット）を検出する。音声特徴検出部１０４ａは、音声特徴区間を検出する毎に、音声特徴の種別を示す発音情報と、開始および終了の時間情報を出力する。

音声特徴区間は、例えば、（ａ）母音の長音（う〜ん、え〜、あ〜、など）区間、（ｂ）破裂音、強いアクセントで始まる区間、（ｃ）擬音表現の区間、（ｄ）音声の高低の変化区間、等である。（ａ）の母音の長音区間は、話している中では比較的無意味な区間である可能性が高く、編集時にはカットしたい区間である。（ｂ）の破裂音、強いアクセントで始まる区間は、話をしている人が強調したいところ、驚いたところ等であって、編集時には採用したい区間である。

（ｃ）の擬音表現の区間は、話をしている人が何かを説明したいが適切な言葉を思い出せないか、あるいはその何かを強調したいと思ったところであって、編集時には採用したい区間である。（ｄ）の音の高低の変化区間に関して、低への変化区間はより説明的な部分であることが多く、高への変化区間は、感情的表現が行われていることが多く、いずれも編集時には採用したい区間である。

図２のフローチャートは、音声特徴検出部１０４ａの処理手順の一例を示している。まず、音声特徴検出部１０４ａは、ステップＳＴ１において、音声データの入力を受け付ける。次に、音声特徴検出部１０４ａは、ステップＳＴ２において、音声解析を行う。次に、音声特徴検出部１０４ａは、ステップＳＴ３において、音声特徴区間の開始から終了まで進んだ状態にあるか否か、つまり音声特徴区間が検出されたか否かを判断する。

音声特徴区間が検出されていないとき、音声特徴検出部１０４ａは、ステップＳＴ１に戻って、上述したと同様の処理を繰り返す。一方、音声特徴区間が検出されるとき、音声特徴検出部１０４ａは、ステップＳＴ４において、音声特徴区間の種別を特定し、その種別情報と、開始および終了の時間情報を、検出された音声特徴区間の情報として出力する。その後、音声特徴検出部１０４ａは、ステップＳＴ１に戻って、次の音声特徴区間の検出処理に移る。

テキスト変換部１０４ｂは、音声入力部１０２に入力された音声データを、言語マッチングデータベース１０５を用いて言語解析し、動画のチャプタ毎に、それに含まれる文章毎の文字列を抽出する。テキスト変換部１０４ｂは、文字列を検出する毎に、文字列データと、開始および終了の時間情報を出力する。

図３のフローチャートは、テキスト変換部１０４ｂの処理手順の一例を示している。まず、テキスト変換部１０４ｂは、ステップＳＴ１１において、音声データの入力を受け付ける。次に、テキスト変換部１０４ｂは、ステップＳＴ１２において、会話開始、すなわち文章開始であるか否かを判断する。文章開始でないとき、テキスト変換部１０４ｂは、ステップＳＴ１１に戻って、上述したと同様の処理を繰り返す。

文章開始であるとき、テキスト変換部１０４ｂは、ステップＳＴ１３において、音声データに対して、言語解析を施し、テキスト化の処理を行う。そして、テキスト変換部１０４ｂは、ステップＳＴ１４において、文章の区切れ目（音声の区切れ目）を検知したか否かを判断する。区切れ目を検知していないとき、テキスト変換部１０４ｂは、区切れ目を検知するまで、ステップＳＴ１５において音声データを入力し、ステップＳＴ１３において言語解析を施し、テキスト化の処理を行う。

文章の区切れ目を検知するとき、テキスト変換部１０４ｂは、ステップＳＴ１６において、文章の情報、すなわち、文字列データと、開始および終了の時間情報を出力する。その後、テキスト変換部１０４ｂは、ステップＳＴ１１に戻って、次の文章の言語解析によるテキスト化の処理に移る。

図１に戻って、言語解析結果記録フォーマット変換部１０４ｃは、音声特徴検出部１０４ａからの各音声特徴区間の情報と、テキスト変換部１０４ｂからの各文章の情報を、記録フォーマットに変換する。

ここで、言語解析結果記録フォーマット変換部１０４ｃは、チャプタ毎に、図４（ａ）に示すような、コンテンツ関連付け構造体を作成する。「関連コンテンツを特定するＩＤ」は、コンテンツのチャプタ識別情報である。「解析文字列のリスト」の部分に、チャプタに含まれる各文章の、図４（ｂ）に示すような、文字列構造体が含まれる。

この文字列構造体には、文章の文字列データ（図示の例では“ＸＸＸＸＡＡＡＡＡＣＣＣＣＣＣＢＢＢＢＢ”のデータ）が含まれ、また、この文字列の開始時間および終了時間の情報が含まれる。ここで、開始時間は、文字列の発音が開始された時間を示し、終了時間は文字列の発音が終了した時間を示す。開始時間および終了時間は、コンテンツを構成する映像データおよび音声データとの対応関係を示すものとなる。つまり、開始時間および終了時間は、この文字列がコンテンツのどの区間に対応するかを示し、編集時における切り出しのために必要となる。

また、この文字列構造体には、文章内の各音声特徴区間（スプリット）の情報が含まれる。１つの音声特徴区間の情報は、開始文字位置、開始時間および発音情報からなる。開始文字位置は、文字列中の区切れ目位置を示す。この開始文字位置は、文字列と音声特徴区間とを対応させるために、文字列の何番目という形で記述される。例えば、図示の例において、文字列中の「ＡＡＡＡ」に対応する音声特徴区間における開始文字位置は、５文字目である。

開始時間は、区切れ目位置の時間を示し、コンテンツを構成する映像データおよび音声データとの対応関係を示す。発音情報は、音声特徴の種別を示す。音声特徴の種別は、上述したように、母音の長音区間、破裂音、強いアクセントで始まる区間、擬音表現の区間、音声の高低の変化区間などである。

図５は、文字列、音声特徴区間（スプリット）および映像データ（コンテンツ）との対応関係の一例を模式的に示している。図５（ａ）は文字列を示し、図５（ｂ）は映像データの各フレームをフィルム形式で模式的に表している。この例では、“ＸＸＸＸＡＡＡＡＡＣＣＣＣＣＣＢＢＢＢＢ”の文字列に、「split[0]」−「split[3]」の４個の音声特徴区間（スプリット）が含まれている。

図１に戻って、動画／言語解析情報関連付け部１０６は、動画多重化部１０３で得られる映像データおよび音声データの多重化データと、言語解析部１０４で得られるコンテンツ関連付け構造体とを、関連付けして、記録メディア１０７に記録する。ここで、関連付けは、例えば、以下の（ａ）〜（ｄ）のような形式で記録メディアに記録することで行うことができる。

（ａ）チャプタ毎に、チャプタの多重化データの末尾にそれに対応するコンテンツ関連付け構造体（図４参照）を付加して、記録する。（ｂ）チャプタ毎に、チャプタの多重化データと、それに対応するコンテンツ関連付け構造体とを、同名ファイル、拡張子違いで、記録する。（ｃ）チャプタ毎に、チャプタの多重化データと、それに対応するコンテンツ関連付け構造体を任意のファイル名で記録するが、それらを関連付けするための別データベースを作成しておく。

（ｄ）チャプタ毎に、チャプタの多重化データと、それに対応するコンテンツ関連付け構造体を任意のファイル名で記録するが、各チャプタのコンテンツ関連付け構造体の中に、対応する多重化データを特定する情報、例えばＵＵＩＤ（Universally Unique Identifier）を埋め込んでおく。

図１に示す情報処理装置１０の動作を説明する。映像入力部１０１に入力される映像データは、動画多重化部１０３に供給される。また、音声入力部１０２に入力される音声データは、動画多重化部１０３に供給される。動画多重化部１０３では、映像データと音声データとが多重化され、多重化データが得られる。

また、音声データ入力部１０２に入力される音声データは、言語解析部１０４の音声特徴検出部１０４ａおよびテキスト変換部１０４ｂに供給される。音声特徴検出部１０４ａでは、音声データが解析されて、音声特徴区間（スプリット）が検出される。この音声特徴検出部では、音声特徴区間が検出される毎に、音声特徴区間の種別を示す発音情報と、開始および終了の時間情報が出力される。

また、テキスト変換部１０４ｂでは、音声データが、言語マッチングデータベース１０５が用いられて言語解析され、動画のチャプタ毎に、それに含まれる文章毎の文字列が検出される。このテキスト変換部１０４では、文章毎の文字列が検出される毎に、文字列データと、開始および終了の時間情報が出力される。

言語解析部１０４において、音声特徴検出部１０４ａの出力情報およびテキスト変換部１０ｂの出力情報は、言語解析結果記録フォーマット変換部１０４ｃに供給される。このフォーマット変換部１０４ｃでは、音声特徴検出部１０４ａからの各音声特徴区間の情報と、テキスト変換部１０４ｂからの各文章の情報が、記録フォーマットに変換される。

すなわち、このフォーマット変換部１０４ｃでは、チャプタ毎に、コンテンツ関連付け構造体が作成される（図４（ａ）参照）。このコンテンツ関連付け構造体には、チャプタに含まれる各文章の文字列構造体が含まれる（図４（ｂ）参照）。この文字列構造体には、文章の文字列データが含まれ、また、この文字列の開始時間および終了時間の情報が含まれる。また、この文字列構造体には、文章内の各音声特徴区間（スプリット）の情報が含まれる。ここで、１つの音声特徴区間の情報には、開始文字位置、開始時間および発音情報が含まれる。

動画多重化部１０３で得られる映像データおよび音声データの多重化データは、動画／言語解析情報関連付け部１０６に供給される。また、この関連付け部１０６には、言語解析部１０４で得られる記録フォーマット化された各文章の情報（コンテンツ関連付け構造体）が供給される。この関連付け部１０６では、映像データおよび音声データの多重化データに対して、各文章の情報が関連付けされて、記録メディア１０７に記録することが行われる。

上述したように、図１に示す情報処理装置１０においては、コンテンツを構成する音声データに対して言語解析が行われて、チャプタ毎に、コンテンツ関連付け構造体が作成される。このコンテンツ関連付け構造体には、音声データの解析による音声特徴区間（スプリット）の情報が含まれると共に、テキスト変換による文字列データ等が含まれる。そして、コンテンツを構成する映像データおよび音声データの多重化データと共に、コンテンツ関連付け構造体が関連付けされて、記録メディア１０７に記録される。そのため、編集ポイント特定のための良好な情報の提供が可能となる。

［編集装置の構成例］
図６は、編集装置２０の構成例を示している。この編集装置２０は、上述の図１に示す情報処理装置１０で記録メディア１０７に記録された各チャプタの多重化データおよびコンテンツ関連付け構造体を取り扱う。この編集装置２０は、動画読み込み部２０１と、言語解析情報読み込み部２０２と、動画／言語解析情報関連付け部２０３と、言語解析情報リスト生成部２０４を有している。また、この編集装置２０は、タイムライン（チャプタ）生成部２０５と、表示制御部２０６と、テキスト情報取得部２０７と、表示部２０８を有している。

動画読み込み部２０１は、記録メディア１０７から、編集に係る所定のチャプタの映像データおよび音声データの多重化データを読み込む。言語解析情報読み込み部２０２は、記録メディア１０７から、動画読み込み部２０１で読み込まれた所定チャプタの映像データおよび音声データの多重化データに対応したコンテンツ関連付け構造体（図４参照）を読み込む。この際、動画／言語解析情報関連付け部２０３は、チャプタの識別情報あるいはファイル情報などの関連付け情報を、言語解析情報読み込み部２０２に送る。

言語解析情報リスト生成部２０４は、言語解析情報読み込み部２０２で読み込まれたコンテンツ関連付け構造体を取り込み、言語解析情報リストを生成する。すなわち、このリストには、所定のチャプタに含まれる文章毎の文字列データ、開始時間および終了時間が登録される。また、このリストには、その文章毎の、各音声特徴区間（スプリット）の開始文字位置、開始時間および発音情報が登録される。

さらに、このリストには、その文章毎に、各音声特徴区間（スプリット）の有用度の高低が判定され、有用度の高低で区分けした区間、つまりサブチャプタが登録される。このサブチャプタの登録では、そのサブチャプタの識別情報と、そのサブチャプタの開始位置、終了位置の情報とが関連付けされて記憶される。

図７のフローチャートは、リスト生成部２０４における、文章毎のサブチャプタ登録の処理手順の一例を示している。リスト生成部２０４は、ステップＳＴ３１で処理を開始し、その後に、ステップＳＴ３２の処理に移る。このステップＳＴ３２において、リスト生成部２０４は、処理対象の文字列構造体を取り出す。

次に、リスト生成部２０４は、ステップＳＴ３３において、最初の音声特徴区間（スプリット）の情報を処理対象の音声特徴区間として取り出す。そして、リスト生成部２０４は、ステップＳＴ３４において、その音声特徴区間が有用度の高い区間であるか低い区間であるかを判定する。

次に、リスト生成部２０４は、ステップＳＴ３５において、区間切り替わりか否かを判定する。区間切り替わりでないとき、リスト生成部２０４は、ステップＳＴ３３に戻って、次の音声特徴区間（スプリット）の情報を処理対象の音声特徴区間として取り出し、その処理に移る。一方、区間切り替わりであるとき、リスト生成部２０４は、ステップＳＴ３４において、切り替わり前までの区間についてサブチャプタの登録を行う。

その後、リスト生成部２０４は、ステップＳＴ３３に戻って、次の音声特徴区間（スプリット）の情報を処理対象の音声特徴区間として取り出し、その処理に移る。なお、次の音声特徴区間がないときは、サブチャプタ登録がされていないそこまでの区間についてサブチャプタ登録を行って、処理を終了する。

図８は、図７のフローチャートにおけるステップＳＴ３４の区間判定の処理手順の一例を示している。リスト生成部２０４は、ステップＳＴ４１において、処理を開始し、その後に、ステップＳＴ４２の処理に移る。このステップＳＴ４２において、リスト生成部２０４は、処理対象の音声特徴区間が母音の長音区間であるか否かを判定する。

母音の長音区間でないとき、リスト生成部２０４は、ステップＳＴ４３において、処理対象の音声特徴区間の開始文字列が辞書に存在するか否かを判定する。辞書に存在するとき、リスト生成部２０４は、ステップＳＴ４４において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部２０４は、ステップＳＴ４５において、処理を終了して戻る。

ステップＳＴ４３で辞書に存在しないとき、リスト生成部２０４は、ステップＳＴ４６において、処理対象の音声特徴区間が破裂音で始まる区間か否かを判定する。破裂音で始まる区間であるとき、リスト生成部２０４は、ステップＳＴ４４において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部２０４は、ステップＳＴ４５において、処理を終了して戻る。

ステップＳＴ４２で処理対処の音声特徴区間が母音の長音区間であるとき、あるいはステップＳＴ４６で処理対処の音声特徴区間が破裂音で始まる区間でないとき、リスト生成部２０４は、ステップＳＴ４７において、処理対象の音声特徴区間は有用度の低い区間と判定する。その後、リスト生成部２０４は、ステップＳＴ４５において、処理を終了する。

図６に戻って、タイムライン生成部２０５は、動画読み込み部２０１で読み込まれた、編集に係る所定のチャプタの映像データおよび音声データのタイムラインを作成する。このタイムラインの作成は、表示制御部２０６の制御のもとで行われる。表示制御部２０６は、上述の言語解析情報リストに登録されるサブチャプタ登録に基づいて、有用度の高い区間と有用度の低い区間とが識別可能な状態でタイムラインが作成されるように、タイムライン生成部２０５の動作を制御する。

テキスト情報取得部２０７は、タイムラインに対応させて表示する文字列データを、言語解析情報リストに基づいて取得する。このテキスト情報の取得は、表示制御部２０６の制御のもとで行われる。表示制御部２０６は、ユーザによるタイムラインの所定サブチャプタ区間の選択情報に基づいて、その所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列データが取得されるように、テキスト情報取得部２０７の動作を制御する。なお、ユーザは、所定サブチャプタ区間の選択を、図示しないマウス等のポインティングデバイスを操作することで行う。

図９のフローチャートは、テキスト情報取得部２０７における文字列データの取得の処理手順の一例を示している。テキスト情報取得部２０７は、ステップＳＴ５１において、ユーザによるサブチャプタの選択処理があるとき、処理を開始する。

次に、テキスト情報処理部２０７は、ステップＳＴ５２において、選択されたサブチャプタの開始位置、終了位置の情報を取得する。この場合、テキスト情報処理部２０７は、表示制御部２０６から与えられる選択されたサブチャプタの識別情報に基づき、言語解析情報リスト生成部２０４で生成された言語解析情報リストから、そのサブチャプタの開始位置、終了位置の情報を取得する。

次に、テキスト情報処理部２０７は、ステップＳＴ５３において、サブチャプタ区間およびその前後の区間の文字列データを取得する。この場合、ステップＳＴ５２で取得されたそのサブチャプタの開始位置、終了位置の情報に基づき、言語解析情報リストの対応する音声特徴区間（スプリット）の情報を参照して、必要な文字列データを取得する。

図６に戻って、表示部２０８は、ＬＣＤ（Liquid Crystal Display）等のディスプレイを用いて構成されており、編集画面を表示する。この表示部２０８は、表示制御部２０６の制御のもと、タイムライン生成部２０５で生成されたタイムラインを表示し、さらに、テキスト情報取得部２０７で取得された文字列を表示する。

図１０は、表示部２０８に表示される編集画面の表示例を示している。画面の下部に水平方向に延びる映像タイムラインＶＴＬおよび音声タイムラインＡＴＬが並べて表示されている。また、画面の右上部にプレビュー画面領域ＰＶＳが設けられている。プレビュー画面領域には、例えば、ユーザが映像タイムラインＶＴＬ上で指定した位置における静止画、あるいはその位置からの動画が表示される。タイムラインＶＴＬ，ＡＴＬは、図示のように、有用度の高いサブチャプタ区間ＨＳと有用度の低いサブチャプタ区間ＬＳとが、例えば明度、色相、彩度、模様などにより識別可能な状態で表示されている。

ユーザがマウス操作等でタイムラインの所定サブチャプタ区間の選択を行った場合、図１１に示すように、この所定サブチャプタ区間およびその前後の区間の音声に対応した文字列が表示される。この場合、例えば、全ての文字列を同じ状態で表示されてもよいが、この実施の形態において、例えば、所定サブチャプタ区間の音声に対応した文字列は、その前後の区間の音声の文字列に対して、表示色を異ならせる等の方法で、ハイライト表示される。これにより、所定サブチャプタ区間の文字列とその他の区間の文字列を、視覚的に容易に区別可能となる。

図６に示す編集装置２０の動作を説明する。動画読み込み部２０１では、記録メディア１０７から、編集に係る所定のチャプタの映像データおよび音声データの多重化データが読み込まれる。また、言語解析情報読み込み部２０２では、記録メディア１０７から、動画読み込み部２０１で読み込まれた所定チャプタの映像データおよび音声データの多重化データに対応したコンテンツ関連付け構造体が読み込まれる（図４参照）。

言語解析情報読み込み部２０２で読み込まれたコンテンツ関連付け構造体は、言語解析情報リスト生成部２０４に供給される。このリスト生成部２０４では、コンテンツ関連付け構造体に基づいて、言語解析情報リストが生成される。このリストには、所定のチャプタに含まれる文章毎の文字列データ、開始時間および終了時間が登録される。また、このリストには、その文章毎の、各音声特徴区間（スプリット）の開始文字位置、開始時間および発音情報が登録される。

動画読み込み部２０１で読み込まれた、編集に係る所定のチャプタの映像データおよび音声データは、タイムライン生成部２０５に供給される。このタイムライン生成部２０５では、編集に係る所定のチャプタの映像データおよび音声データのタイムラインが作成される。この場合、表示制御部２０６の制御のもと、言語解析情報リストに登録されるサブチャプタ登録に基づいて、有用度の高い区間と有用度の低い区間とが識別可能な状態でタイムラインが作成される。

タイムライン生成部２０５で生成されたタイムラインの情報は、表示部２０８に供給される。表示部２０８には、表示制御部２０６の制御のもと、映像タイムラインＶＴＬおよび音声タイムラインＡＴＬが表示される。この場合、タイムラインＶＴＬ，ＡＴＬは、有用度の高い区間ＨＳと有用度の低い区間ＬＳとが識別可能な状態で表示される（図１０参照）。

また、言語解析情報リスト生成部２０４で生成される言語解析情報リストは、テキスト情報取得部２０７に供給される。また、このテキスト情報取得部２０７には、ユーザによるタイムラインの所定サブチャプタ区間の選択に応じて、表示制御部２０６から、その所定サブチャプタ区間の識別情報が供給される。

テキスト情報取得部２０７では、タイムラインに対応させて表示する文字列データとして、言語解析情報リストに基づいて、ユーザの選択に係る所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列データが取得される。この文字列データは、表示部２０８に供給される。表示部２０８の編集画面には、ユーザの選択に係る所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列が表示される（図１１参照）。

上述したように、図６に示す編集装置２０においては、記録メディア１０７から編集に係る所定チャプタの映像データおよび音声データの多重化データが読み込まれるとき、それに関連付けて記録されているコンテンツ関連付け構造体の読み込みが行われ、言語解析情報リストが生成される。このコンテンツ関連付け構造体には、音声データの解析による音声特徴区間（スプリット）の情報が含まれると共に、テキスト変換による文字列データ等が含まれる。

多重化データに基づいて映像や音声のタイムラインが作成されるとき、言語解析情報リストに登録されるサブチャプタ登録に基づいて、有用度の高い区間と有用度の低い区間とが識別可能な状態でタイムラインが作成される。そのため、編集画面において、映像タイムラインＶＴＬおよび音声タイムラインＡＴＬは、有用度の高い区間ＨＳと有用度の低い区間ＬＳとが識別可能な状態で表示される。そのため、ユーザは、両区間の境界を編集ポイントとして活用でき、適切な編集を行うことができる。

また、ユーザがタイムライン上でマウス等を操作して所定サブチャプタを選択するとき、言語解析情報リストに基づいて、ユーザの選択に係る所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列データが取得される。そのため、編集画面には、ユーザの選択に係る所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列が表示される。そのため、ユーザは、コンテンツを再生することなく、ある程度のコンテンツの認識が可能となり、編集を効率的かつ効果的に行うことができる。

＜２．変形例＞
「サブチャプタ登録の他の例」
なお、上述実施の形態においては、編集装置２０の言語解析情報リスト生成部２０４では、音声特徴区間（スプリット）毎に有用度の高低判定を行って、有用度の高低で区分けした区間をサブチャプタとして登録するものである。そして、表示部２０８には、有用度の高い区間ＨＳと、有用度の低い区間ＬＳに分割された、映像、音声のタイムラインが表示されるものである。

しかし、文節毎の各区間、つまり各音声特徴区間（スプリット）をサブチャプタとして登録し、表示部２０８には、文節毎に分割された映像、音声のタイムラインを表示し、さらに、各文節に対応して文字列を表示するようにすることも考えられる。

図１２のフローチャートは、言語解析情報リスト生成部２０４（図６参照）における、文章毎のサブチャプタ登録の処理手順の一例を示している。リスト生成部２０４は、ステップＳＴ６１で処理を開始し、その後に、ステップＳＴ６２の処理に移る。このステップＳＴ６２において、リスト生成部２０４は、処理対象の文章の文字列構造体を取り出す。

次に、リスト生成部２０４は、ステップＳＴ６３において、ステップＳＴ６２で取り出された文字列構造体に含まれる最初の音声特徴区間（スプリット）の情報を取り出す。そして、リスト生成部２０４は、ステップＳＴ６４において、その音声特徴区間をサブチャプタとして登録する。このサブチャプタの登録では、そのサブチャプタの識別情報と、そのサブチャプタの開始位置、終了位置の情報とが関連付けされて記憶される。

その後、リスト生成部２０４は、ステップＳＴ６３に戻って、次の音声特徴区間（スプリット）の情報を処理対象の音声特徴区間として取り出し、その処理に移る。なお、次の音声特徴区間がないときは、処理を終了する。

タイムライン生成部２０５では、編集に係る所定のチャプタの映像データおよび音声データのタイムラインを作成する際に、言語解析情報リストに登録されるサブチャプタ登録に基づいて、音声特徴区間（スプリット）毎に分割されたタイムラインが作成される。また、テキスト情報取得部２０７では、言語解析情報リストから、各音声特徴区間（スプリット）の音声に対応した文字列データがそれぞれ取得される。

そのため、表示部２０８には、タイムライン生成部２０５で生成されたタイムラインの情報により、図１３に示すように、各音声特徴区間（スプリット）毎に分割されたタイムラインＶＴＬ，ＡＴＬが表示される。また、表示部２０８には、テキスト情報取得部２０７で取得された文字列データに基づいて、各音声特徴区間（スプリット）に対応させて、その区間の音声に対応した文字列が表示される。

「単語選択による映像検索システム」
また、上述していないが、編集装置２０において、言語解析情報読み込み部２０２で読み込まれる編集に係る所定チャプタのコンテンツ関連付け構造体に基づいて、文字列を構成する単語と、その単語が属する音声特徴区間（スプリット）との対応関係を示すテーブルを作成できる。そして、このテーブルを用いて、選択された単語が存在する音声特徴区間（スプリット）に対応した映像を検索するシステムを構成できる。

図１４のフローチャートは、テーブル生成部（図６には図示していない）におけるテーブル生成の処理手順の一例を示している。テーブル生成部は、ステップＳＴ７１において、処理を開始する。その後、テーブル作成部は、ステップＳＴ７２において、記録メディア１０７から編集に係る所定ピクチャの映像データおよび音声データの多重化データに関連付けられたコンテンツ関連付け構造体を読み込む（図４参照）。

次に、テーブル生成部は、ステップＳＴ７３において、コンテンツ関連付け構造体に含まれる各文字列に対応した文字列構造体を取り出す。そして、テーブル生成部は、ステップＳＴ７４において、各文字列構造体に含まれる文字列から単語を抽出する。この場合、擬音も単語として含める。そして、テーブル生成部は、ステップＳＴ７５において、ステップＳＴ７４で抽出した単語と、その単語が属する音声特徴区間（スプリット）との対応関係を、テーブルに登録する。

ステップＳＴ７４の単語抽出処理と、ステップＳＴ７５のテーブル登録処理を、全ての単語について行うまで繰り返す。全ての単語について処理が終了したとき、テーブル生成部は、処理を終了する。

図１５は、上述のように生成されたテーブルを用いた検索例を示している。例えば、表示部２０８に表示される編集画面に、例えば、図１５（ａ）に示すように、テーブルに登録された単語が、「Ａ」から始まる単語、「Ｂ」から始まる単語、・・・等のように分類されて表示される。

ユーザがその中から所定の単語を選択するとき、テーブルが参照されて、その単語が属する音声特徴区間（スプリット）が取得され、その区間の所定フレーム、例えば、最初と最後のフレームの画像が、例えば、図１５（ｂ）に示すように、編集画面のプレビュー画面領域ＰＶＳに表示される。なお、プレビュー画面領域ＰＶＳに、該当する区間の動画が表示されるようにしてもよい。また、これと共に、タイムライン上に該当区間が明示されるようにしてもよい。

「ネットワークへの送信」
また、上述実施の形態において、情報処理装置１０（図１参照）の動画／言語解析情報関連付け部１０６は、コンテンツを構成する映像データおよび音声データの多重化データと言語解析情報（コンテンツ関連付け構造体）とを記録メディア１０７に関連付けて記録する例を示した。

しかし、ネットワークへのライブストリームを実施する場合には、コンテンツを構成する映像データおよび音声データの多重化データに言語解析情報を関連付けて送信することになる。その場合、多重化データは、例えば４秒とかの送信単位（バッファリング単位）で送信されるが、参照性をよくするために、言語解析情報もその送信単位で区切られたものとする。

図１６は、ネットワークへのライブストリームを実施する場合における情報処理装置１０Ａの構成例を示している。この図１６において、図１と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。

言語解析部１０４の言語解析結果記録フォーマット変換部１０４cAは、コンテンツを構成する映像データおよび音声データの多重化データの送信単位毎に、図１７に示すような、コンテンツ関連付け構造体を作成する。「関連コンテンツを特定するＩＤ」は、コンテンツのチャプタ識別情報である。

また、このコンテンツ関連付け構造体には、「参考テキスト」、「開始時間」、「継続時間」、「発音情報」などの情報が含まれる。「参考テキスト」の情報は、送信単位区間中に発生された言葉の文字列データである。「開始時間」は、区切れ目位置の開始時間位置を示す。「継続時間」は、区切れ目位置の継続時間を示し、送信単位区間に対応した最長継続時間以下の時間である。「発音情報」は、音声特徴の種別を示す。音声特徴の種別は、上述したように、母音の長音区間、破裂音、強いアクセントで始まる区間、擬音表現の区間、音声の高低の変化区間などである。

動画／言語解析情報関連付け部１０６Ａは、動画多重化部１０３で得られた多重化データを、送信単位で、順次ネットワーク１０８に送信する。その際、動画／言語解析情報関連付け部１０６Ａは、送信単位毎に、言語解析部１０４で生成されたコンテンツ関連付け構造体（図１７参照）を付加して送信する。

なお、図１６に示す情報処理装置１０Ａにあっては、破線矢印で示すように、言語マッチングデータベース１０５は、ネットワーク（クラウド）１０８に存在するものを利用することもできる。

「動き解析情報の付加」
また、上述実施の形態においては、映像データおよび音声データの多重化データに言語解析情報のみ関連付けて記録あるいは送信する例を示した。しかし、映像データから取得される動き解析情報を、さらに、関連付けて記録あるいは送信することも考えられる。これにより、編集ポイントを特定するための情報として、さらに有用な情報の提供が可能となる。

図１８は、情報処理装置１０Ｂの構成例を示している。この図１８において、図１と対応する部分には同一符号を付し、適宜、その詳細説明は省略する。この情報処理装置１０Ｂは、映像入力部１０１と、音声入力部１０２と、動画多重化部１０３と、言語解析部１０４と、言語マッチングデータベース１０５を有している。また、この情報処理装置１０Ｂは、動き特徴検出部１１１と、動き解析結果記録フォーマット変換部１１２と、解析情報統合部１１３と、動画／解析情報関連付け部１０６Ｂと、記録メディア１０７を有している。

言語解析部１０４は、音声特徴検出部１０４ａ、テキスト変換部１０４ｂおよび言語解析結果記録フォーマット変換部１０４cBを有している。記録フォーマット変換部１０４cBは、チャプタに含まれる文章毎に、音声特徴検出部１０４ａからの各音声特徴区間の情報と、テキスト変換部１０４ｂからの各文章の情報に基づいて、図１９（ｄ）に示すような、文字列構造体を作成する。

この文字列構造体には、図１９（ｂ）に示すような、解析情報構造体が含まれる。この解析情報構造体は、「構造種別」、「開始時間」および「終了時間」の情報を持っている。文字列構造体に含まれる解析情報構造体にあっては、「構造種別」の情報は文字列構造であることを示し、開始時間は文字列の発音が開始された時間を示し、終了時間は文字列の発音が終了した時間を示す。

また、文字列構造体には、文章の文字列データ（図示の例では“ＸＸＸＸＡＡＡＡＡＣＣＣＣＣＣＢＢＢＢＢ”のデータ）が含まれる。また、この文字列構造体には、文章内の各音声特徴区間（スプリット）の情報が含まれる。１つの音声特徴区間の情報は、開始文字位置、開始時間および発音情報からなる。開始文字位置は、文字列中の区切れ目位置を示す。この開始文字位置は、文字列と音声特徴区間とを対応させるために、文字列の何番目という形で記述される。例えば、図示の例において、文字列中の「ＡＡＡＡ」に対応する音声特徴区間における開始文字位置は、５文字目である。

動き特徴検出部１１１は、映像入力部１０１に入力された映像データを解析して、動き特徴を検出する。ここで、検出される動き特徴には、フォーカス位置移動、撮影方向変化などがある。動き特徴検出部１１１は、動き特徴区間毎に、動き特徴の種別と、開始および終了の時間情報を出力する。

動き解析結果記録フォーマット変換部１１２は、動き特徴区間毎に、動き特徴検出部１１１１からの動き特徴区間の情報に基づいて、図１９（ｄ）に示すような、動き構造体を作成する。この動き構造体には、図１９（ｂ）に示すような、解析情報構造体が含まれると共に、動き特徴の種別、例えばフォーカス位置移動、撮影方向変化などを示す「動き種別」の情報が含まれる。

解析情報構造体は、「構造種別」、「開始時間」および「終了時間」の情報を持っている。動き構造体に含まれる解析情報構造体にあっては、「構造種別」の情報は動き構造であることを示し、開始時間は動き特徴区間の開始時間を示し、終了時間は動き特徴区間の終了時間を示す。

解析情報統合部１１３は、チャプタ毎に、言語解析部１０４の言語解析結果記録フォーマット変換部１０４cBで作成された文字列構造体と、動き解析結果記録フォーマット変換部１１２で作成された動き構造体とを統合し、図１９（ａ）に示すような、コンテンツ関連付け構造体を作成する。「関連コンテンツを特定するＩＤ」は、コンテンツのチャプタ識別情報である。「解析情報のリスト」の部分に、各文章の文字列構造体と、各動き特徴区間の動き構造体が含まれる。

動画／解析情報関連付け部１０６Ｂは、動画多重化部１０３で得られる映像データおよび音声データの多重化データと、解析情報統合部１１３で得られるコンテンツ関連付け構造体とを、関連付けして、記録メディア１０７に記録する。図１８に示す情報処理装置１０Ｂのその他は、図１に示す情報処理装置１０と同様に構成され、同様に動作する。

図２０は、編集装置２０Ｂの構成例を示している。この図２０において、図６と対応する部分には同一符号を付し、その詳細説明は省略する。この編集装置２０Ｂは、上述の図１８に示す情報処理装置１０Ｂで記録メディア１０７に記録された各チャプタの多重化データおよびコンテンツ関連付け構造体を取り扱う。

この編集装置２０Ｂは、動画読み込み部２０１と、言語解析情報読み込み部２０２Ｂと、動画／解析情報関連付け部２０３Ｂと、解析情報リスト生成部２０４Ｂを有している。また、この編集装置２０Ｂは、タイムライン（チャプタ）生成部２０５と、表示制御部２０６と、テキスト情報取得部２０７と、表示部２０８を有している。

解析情報読み込み部２０２Ｂは、記録メディア１０７から、動画読み込み部２０１で読み込まれた所定チャプタの映像データおよび音声データの多重化データに対応したコンテンツ関連付け構造体（図１９参照）を読み込む。この際、動画／解析情報関連付け部２０３Ｂは、チャプタの識別情報あるいはファイル情報などの関連付け情報を、解析情報読み込み部２０２Ａに送る。

解析情報リスト生成部２０４Ｂは、解析情報読み込み部２０２Ｂで読み込まれたコンテンツ関連付け構造体を取り込み、解析情報リストを生成する。すなわち、このリストには、所定のチャプタに含まれる文章毎の文字列データ、開始時間および終了時間が登録される。また、このリストには、その文章毎の、各音声特徴区間（スプリット）の開始文字位置、開始時間および発音情報が登録される。また、このリストには、所定のチャプタに含まれる動き特徴区間毎の種別情報、開始時間および終了時間が登録される。

さらに、このリストには、文章毎に、各音声特徴区間（スプリット）の有用度の高低が判定され、有用度の高低で区分けした区間、つまりサブチャプタが登録される。このサブチャプタの登録では、そのサブチャプタの識別情報と、そのサブチャプタの開始位置、終了位置の情報とが関連付けされて記憶される。

リスト生成部２０４Ｂにおける、文章毎のサブチャプタ登録の処理は、上述の図６の編集装置２０と同様に、図７のフローチャートに沿って行われる。ただし、ステップＳＴ３４の区間判定処理は、図８のフローチャートの代わりに、ここでは、図２１のフローチャートに示すように、言語解析情報だけでなく、動き解析情報をも使用されて、行われる。

リスト生成部２０４Ｂは、ステップＳＴ８１において、処理を開始し、その後に、ステップＳＴ８２の処理に移る。このステップＳＴ８２において、リスト生成部２０４Ｂは、処理対象の音声特徴区間が母音の長音区間であるか否かを判定する。

母音の長音区間でないとき、リスト生成部２０４Ｂは、ステップＳＴ８３において、処理対象の音声特徴区間の開始文字列が辞書に存在するか否かを判定する。辞書に存在するとき、リスト生成部２０４Ｂは、ステップＳＴ８４において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部２０４Ｂは、ステップＳＴ８５において、処理を終了して戻る。

ステップＳＴ８３で辞書に存在しないとき、リスト生成部２０４Ｂは、ステップＳＴ８６において、処理対象の音声特徴区間が破裂音で始まる区間か否かを判定する。破裂音で始まる区間であるとき、リスト生成部２０４Ｂは、ステップＳＴ８４において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部２０４Ｂは、ステップＳＴ８５において、処理を終了して戻る。

ステップＳＴ８２で処理対処の音声特徴区間が母音の長音区間であるとき、あるいはステップＳＴ８６で処理対処の音声特徴区間が破裂音で始まる区間でないとき、リスト生成部２０４Ｂは、ステップＳＴ８７において、近傍の動き情報では有用か否かを判定する。例えば、リスト生成部２０４Ｂは、近傍にフォーカス位置移動、あるいは撮影方向変化の動き特徴区間が存在するとき、有用であると判定する。

有用と判定するとき、リスト生成部２０４Ｂは、ステップＳＴ８４において、処理対象の音声特徴区間は有用度の高い区間と判定する。その後、リスト生成部２０４Ｂは、ステップＳＴ８５において、処理を終了して戻る。一方、有用でないと判定するとき、リスト生成部２０４Ｂは、ステップＳＴ８７において、処理対象の音声特徴区間は有用度の低い区間と判定する。その後、リスト生成部２０４Ｂは、ステップＳＴ８５において、処理を終了する。

図２０に戻って、タイムライン生成部２０５は、動画読み込み部２０１で読み込まれた、編集に係る所定のチャプタの映像データおよび音声データのタイムラインを作成する。このタイムラインの作成は、表示制御部２０６の制御のもとで行われる。表示制御部２０６は、上述の解析情報リストに登録されるサブチャプタ登録に基づいて、有用度の高い区間と有用度の低い区間とが識別可能な状態でタイムラインが作成されるように、タイムライン生成部２０５の動作を制御する。

テキスト情報取得部２０７は、タイムラインに対応させて表示する文字列データを、解析情報リストに基づいて取得する。このテキスト情報の取得は、表示制御部２０６の制御のもとで行われる。表示制御部２０６は、ユーザによるタイムラインの所定サブチャプタ区間の選択情報に基づいて、その所定サブチャプタ区間およびその前後のサブチャプタ区間の音声に対応した文字列データが取得されるように、テキスト情報取得部２０７の動作を制御する。なお、ユーザは、所定サブチャプタ区間の選択を、図示しないマウス等のポインティングデバイスを操作することで行う。

表示部２０８は、ＬＣＤ（Liquid Crystal Display）等のディスプレイを用いて構成されており、編集画面を表示する。この表示部２０８は、表示制御部２０６の制御のもと、タイムライン生成部２０５で生成されたタイムラインを表示し、さらに、テキスト情報取得部２０７で取得された文字列を表示する。図２０に示す編集装置２０Ｂのその他は、図６に示す編集装置２０と同様に構成され、同様に動作する。

「コンテンツ関連付け構造体による再生制御」
また、上述実施の形態においては、チャプタ毎に、映像データおよび音声データの多重化データに関連付けされているコンテンツ関連付け構造体に含まれる情報に基づいて、編集画面の表示制御を行う例を示した。しかし、コンテンツ関連付け構造体に基づいて、コンテンツのハイライト再生時における制御を行うことも考えられる。例えば、コンテンツ関連付け構造体に基づいて有用度の低い区間と判定された区間を、不要区間として予め排除した上で演出できる。そのため、より効率的にハイライトシーンを検出可能となる。

［本技術を適用したコンピュータの説明］
上述した情報処理装置、編集装置における一連の処理は、ハードウェアにより行うこともでき、ソフトウェアにより行うこともできる。一連の処理をソフトウェアで行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

図２２は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの構成例を示している。プログラムは、コンピュータに内蔵されている記録媒体としての記憶部３０８やＲＯＭ（Read Only Memory）３０２に予め記録しておくことができる。

また、プログラムは、リムーバブルメディア３１１に格納（記録）しておくことができる。このようにリムーバブルメディア３１１は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブルメディア３１１としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＭＯ（MagnetoOptical）ディスク、ＤＶＤ（Digital Versatile Disc）、磁気ディスク、半導体メモリなどがある。

なお、プログラムは、上述したようなリムーバブルメディア３１１からドライブ３１０を介してコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵する記憶部３０８にインストールすることもできる。すなわち、プログラムは、例えば、ダウンロードサイトから、デジタル衛星放送用の人工衛星を介してコンピュータに無線で転送し、あるいは、ＬＡＮ（Local Area Network）、インターネットといったネットワークを介してコンピュータに有線で転送することができる。

コンピュータは、ＣＰＵ（Central Processing Unit）３０１を内蔵しており、ＣＰＵ３０１には、バス３０４を介して、入出力インタフェース３０５が接続されている。ＣＰＵ３０１は、入出力インタフェース３０５を介して、ユーザによって、入力部３０６が操作等されることにより指令が入力されると、それに従って、ＲＯＭ３０２に格納されているプログラムを実行する。あるいは、ＣＰＵ３０１は、記憶部３０８に格納されたプログラムを、ＲＡＭ（Random Access Memory）３０３にロードして実行する。

これにより、ＣＰＵ３０１は、上述したフローチャートに従った処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、ＣＰＵ３０１は、その処理結果を、必要に応じて、例えば、入出力インタフェース３０５を介して、出力部３０７から出力、あるいは、通信部３０９から送信、さらには、記憶部３０８に記録等させる。なお、入力部３０６は、キーボードや、マウス、マイク等で構成される。また、出力部３０７は、ＬＣＤ（Liquid Crystal Display）やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に従って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトにより処理）も含む。また、プログラムは、一のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

また、本技術は、以下のような構成を取ることもできる。
（１）音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報を出力する情報出力部とを備える
情報処理装置。
（２）上記編集ポイントを特定するための情報は、上記編集ポイントの近傍期間における上記言語解析による言語情報を含む
前記（１）に記載の情報処理装置。
（３）上記言語情報は、上記音声の発音情報を含む
前記（２）に記載の情報処理装置。
（４）上記言語情報は、上記音声の文字列情報を含む
前記（２）または（３）に記載の情報処理装置。
（５）上記情報出力部は、
上記編集ポイントの近傍期間における、上記コンテンツに含まれる映像の動き情報をさらに出力する
前記（１）から（４）のいずれかに記載の情報処理装置。
（６）上記情報出力部は、
上記取得された情報を上記コンテンツと関連付けて記録メディアに記録する
前記（１）から（５）のいずれかに記載の情報処理装置。
（７）上記情報出力部は、
上記取得された情報を上記コンテンツの送信単位に合わせてネットワークに送信する
前記（１）から（５）のいずれかに記載の情報処理装置。
（８）音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得するステップと、
上記取得された情報を出力する情報出力ステップとを備える
情報処理方法。
（９）音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御部とを備える
表示制御装置。
（１０）上記編集ポイントを特定するための情報は、上記編集ポイントの近傍期間における上記言語解析による言語情報を含む
前記（９）に記載の表示制御装置。
（１１）上記表示制御部は、
上記編集ポイントを特定するための情報に基づいて、上記コンテンツの有用度の高い第１の区間と有用度の低い第２の区間を特定し、
上記コンテンツのタイムラインが上記第１の区間と上記第２の区間とが識別可能な状態で表示されるように制御する
請求項（９）または（１０）に記載の表示制御装置。
（１２）上記表示制御部は、
上記タイムラインの所定区間の選択に応じて、上記言語情報に含まれる文字列情報を利用して、該所定区間の音声に対応する文字列が表示されるように制御する
前記（１１）に記載の表示制御装置。
（１３）上記表示制御部は、
上記所定区間の音声に対応する文字列と共に、前後の区間の音声に対応した文字列も表示され、
上記所定区間の音声に対応する文字列がハイライト表示されるように制御する
前記（１２）に記載の表示制御装置。
（１４）上記ハイライト表示は、他の区間とは表示色を異ならせることによるハイライト表示である
前記（１３）に記載の表示制御装置。
（１５）上記表示制御部は、
上記言語情報に含まれる文字列情報で示される文節毎の区間に分割された上記コンテンツのタイムラインが表示されると共に、
該タイムラインの各区間に対応して、該各区間の音声に対応した文字列が表示されるように制御する
前記（１０）に記載の表示制御装置。
（１６）音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得ステップと、
上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御ステップとを備える
表示制御方法。

１０，１０Ａ，１０Ｂ・・・情報処理装置
２０，２０Ｂ・・・編集装置
１０１・・・映像入力部
１０２・・・音声入力部
１０３・・・動画多重化部
１０４・・・言語解析部
１０４ａ・・・音声特徴検出部
１０４ｂ・・・テキスト変換部
１０４ｃ，１０４cA，１０４cB・・・言語解析結果記録フォーマット変換部
１０５・・・言語マッチングデータベース
１０６・・・動画／言語解析情報関連付け部
１０７・・・記録メディア
１０８・・・ネットワーク
１１１・・・動き特徴検出部
１１２・・・動き解析結果記録フォーマット変換部
１１３・・・解析情報統合部
２０１・・・動画読み込み部
２０２・・・言語解析情報読み込み部
２０２Ａ・・・解析情報読み込み部
２０３・・・動画／言語解析情報関連付け部
２０３Ａ・・・動画／解析情報関連付け部
２０４・・・言語解析情報リスト生成部
２０４Ａ・・・解析情報リスト生成部
２０５・・・タイムライン生成部
２０６・・・表示制御部
２０７・・・テキスト情報取得部
２０８・・・表示部

Claims

音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報を出力する情報出力部とを備える
情報処理装置。
上記編集ポイントを特定するための情報は、上記編集ポイントの近傍期間における上記言語解析による言語情報を含む
請求項１に記載の情報処理装置。
上記言語情報は、上記音声の発音情報を含む
請求項２に記載の情報処理装置。
上記言語情報は、上記音声の文字列情報を含む
請求項２に記載の情報処理装置。
上記情報出力部は、
上記編集ポイントの近傍期間における、上記コンテンツに含まれる映像の動き情報をさらに出力する
請求項１に記載の情報処理装置。
上記情報出力部は、
上記取得された情報を上記コンテンツと関連付けて記録メディアに記録する
請求項１に記載の情報処理装置。
上記情報出力部は、
上記取得された情報を上記コンテンツの送信単位に合わせてネットワークに送信する
請求項１に記載の情報処理装置。
音声を含むコンテンツの言語解析に基づいて、該コンテンツの編集ポイントを特定するための情報を取得するステップと、
上記取得された情報を出力する情報出力ステップとを備える
情報処理方法。
音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得部と、
上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御部とを備える
表示制御装置。
上記編集ポイントを特定するための情報は、上記編集ポイントの近傍期間における上記言語解析による言語情報を含む
請求項９に記載の表示制御装置。
上記表示制御部は、
上記編集ポイントを特定するための情報に基づいて、上記コンテンツの有用度の高い第１の区間と有用度の低い第２の区間を特定し、
上記コンテンツのタイムラインが上記第１の区間と上記第２の区間とが識別可能な状態で表示されるように制御する
請求項９に記載の表示制御装置。
上記表示制御部は、
上記タイムラインの所定区間の選択に応じて、上記言語情報に含まれる文字列情報を利用して、該所定区間の音声に対応する文字列が表示されるように制御する
請求項１１に記載の表示制御装置。
上記表示制御部は、
上記所定区間の音声に対応する文字列と共に、前後の区間の音声に対応した文字列も表示され、
上記所定区間の音声に対応する文字列がハイライト表示されるように制御する
請求項１２に記載の表示制御装置。
上記ハイライト表示は、他の区間とは表示色を異ならせることによるハイライト表示である
請求項１３に記載の表示制御装置。
上記表示制御部は、
上記言語情報に含まれる文字列情報で示される文節毎の区間に分割された上記コンテンツのタイムラインが表示されると共に、
該タイムラインの各区間に対応して、該各区間の音声に対応した文字列が表示されるように制御する
請求項１０に記載の表示制御装置。
音声を含むコンテンツの言語解析に基づいて得られた、該コンテンツの編集ポイントを特定するための情報を取得する情報取得ステップと、
上記取得された情報に基づいて、上記コンテンツに関する表示を制御する表示制御ステップとを備える
表示制御方法。