JP4459179B2 - 情報処理装置及びその方法 - Google Patents

情報処理装置及びその方法 Download PDF

Info

Publication number
JP4459179B2
JP4459179B2 JP2006058751A JP2006058751A JP4459179B2 JP 4459179 B2 JP4459179 B2 JP 4459179B2 JP 2006058751 A JP2006058751 A JP 2006058751A JP 2006058751 A JP2006058751 A JP 2006058751A JP 4459179 B2 JP4459179 B2 JP 4459179B2
Authority
JP
Japan
Prior art keywords
data
key
information
unit
marker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006058751A
Other languages
English (en)
Other versions
JP2006309923A (ja
Inventor
浩平 桃崎
龍也 上原
和範 井本
康之 正井
一彦 阿部
学 永尾
宗彦 笹島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006058751A priority Critical patent/JP4459179B2/ja
Priority to US11/391,389 priority patent/US8019163B2/en
Publication of JP2006309923A publication Critical patent/JP2006309923A/ja
Application granted granted Critical
Publication of JP4459179B2 publication Critical patent/JP4459179B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/322Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is digitally coded

Description

本発明は、映像音声や音声の記録の処理を行う情報処理装置及びその方法に関する。
近年、音声や映像を記録する機器の主流は、従来のアナログ方式の磁気テープから、デジタル方式の磁気ディスクや半導体メモリ等に移っている。特に大容量のハードディスクを使用した映像記録再生機器では、記録可能な容量が飛躍的に拡大している。このような機器を使用すれば、放送や通信によって提供される多数の番組の映像を保存しておき、ユーザが自在に選択して視聴できる。
ここで、保存されている映像の管理においては、番組等の単位であるタイトル(プログラム)でファイル化した上で、名称その他の情報を付与しておき、一覧の際に代表画像(サムネイル)と名称等を並べて表示することができる。また、一番組(タイトル)の中をチャプタ(セグメント)と呼ばれる単位に分割し、チャプタ単位で再生や編集を行うこともできる。チャプタ名を付与したり、チャプタの代表画面(サムネイル)を表示したりして、チャプタ一覧から好みの場面を含むチャプタを選択して再生したり、選択したチャプタを並べてプレイリスト等を生成したりすることができる。これらの管理方法を規定するものとして、DVD(Digital Versatile Disk)のVR(VideoRecording)モードがある。
ところで、番組(タイトル)内の区間や位置の指定に用いられるマーカには、映像・音声コンテンツを再生したときの時間的位置に対応する再生時刻情報が含まれており、チャプタ分割点を表すチャプタマーカのほか、装置によっては、編集操作の際の対象区間を指定するエディットマーカや、頭出し操作の際にジャンプ先の地点を指定するインデックスマーカを使用する場合もある。なお、本明細書における「マーカ」も上記の意味で使用する。
番組名については、EPG(Electronic Program Guide)等によって提供される番組情報を利用すれば、録画保存されたファイルに自動付与することもできる。EPGで提供される番組情報については、ARIB(Association of Radio Industries and Businesses)標準規格(STD−B10)がある。
しかし、一番組の中については、分割する時刻位置を与える情報や、分割された各々を容易に識別できるような名称等をはじめ、視聴や編集等を支援したり自動化したりするために有用なメタデータとしてさまざまなものが考えられるが、これらが汎用的に外部から提供されることはほとんど行われない。このため、一般の視聴者向けの機器においては、記録された音声や映像に基づいて、装置側でメタデータ生成を行うことが必要になっている。
映像・音声コンテンツに関する汎用的なメタデータの記述形式としてMPEG−7があり、コンテンツと対応付けてXML(extensible Markup Language)データベースに格納する方法がある。また、放送におけるメタデータの伝送方式等について、ARIB(Association of Radio Industries and Businesses)標準規格(STD−B38)があり、これらに準拠してメタデータを記録することもできる。
装置が自動的に行うものとして、無音部分、映像の切り替わり(カット)、音声多重モード(モノラル、ステレオ、二か国語)の切り替わり等の検出によるチャプタ分割機能が提供されている場合もある(例えば、特許文献1参照)。しかし、必ずしも適切に分割されるわけではなく、分割された個々のチャプタの意味付け・名称付与を含め、ユーザがかなりの部分を手動で行わなければならない。
また、テロップ画像認識や音声認識により得られた言語情報を利用した、自動的なキーワード抽出等のメタデータ生成については、全文検索的な利用については可能になってきているが(例えば、特許文献2参照)、チャプタ分割や名称付与という部分について全面的な適用は難しいのが現状である。
一方、音響の一致または類似を検索する音響検索や音響ロバストマッチングの方法が考案されているが、その多くは、視聴したい音楽等を検索して再生するといった形で利用されており、映像のメタデータ生成等に適した構成になっていない(例えば、特許文献3参照)。
特開2003−36653公報 特開平8−249343号公報 特開2000−312343公報
このように、従来の技術では、大量に保存されている映像の管理において、特に一番組内の分割については、視聴に適した分割や制御点の決定と関連情報付与が容易にできないという問題があった。
そこで、本発明は上記事情を考慮してなされたもので、その目的は、記録保存される映像について、毎回の手動作業を要することなく、視聴に適した分割や制御点の決定と関連情報付与を行うことができるデータ処理装置を提供することにある。
本発明は、利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理装置において、前記支援データを生成するためのキー音声データを取得するキー音声データ取得部と、前記キー音声データの全部または一部区間を指定するためのキー指定情報を入力するキー指定情報入力部と、前記キー指定情報に基づいて、前記キー音声データの全部または一部区間を切り出して音声パターンデータを検索キーとして生成するキー生成部と、前記キー指定情報によって指定されたキー音声データの区間に関連するキー関連データを取得するキー関連データ取得部と、前記音声パターンデータと前記キー関連データとを含むキーデータの中の前記音声パターンデータと、前記利用対象データとを照合して支援データを生成して記録媒体に記録する支援データ生成部と、を具備することを特徴とする情報処理装置である。
また、本発明は、利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理装置において、第1の利用対象データに関する第1の支援データを入力する第1支援データ入力部と、前記第1の支援データに関連するキー音声データを取得するキー音声データ取得部と、前記入力された第1の支援データに基づいて前記キー音声データの一部区間を選択するキー指定情報を生成するキー指定情報生成部と、前記キー指定情報に基づいて、前記キー音声データの一部区間を切り出して音声パターンデータを検索キーとして生成するキー生成部と、前記キー指定情報によって指定されたキー音声データの区間に関連するキー関連データを取得するキー関連データ取得部と、前記音声パターンデータと前記キー関連データとを含むキーデータの中の前記音声パターンデータと、前記利用対象データとを照合して第2の支援データを生成して記録媒体に記録する第2支援データ生成部と、を具備することを特徴とする情報処理装置である。
さらに、本発明は、利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理装置において、第1の支援データを生成するためのキー音声データを取得するキー音声データ取得部と、前記キー音声データの変化点を検出し、前記第1の支援データを生成する第1支援データ生成部と、前記生成された第1の支援データに基づいて前記キー音声データの一部区間を選択するキー指定情報を生成するキー指定情報生成部と、前記キー指定情報に基づいて、前記キー音声データの一部区間を切り出して音声パターンデータを検索キーとして生成するキー生成部と、前記キー指定情報によって指定されたキー音声データの区間に関連するキー関連データを取得するキー関連データ取得部と、前記音声パターンデータと前記キー関連データとを含むキーデータの中の前記音声パターンデータと、前記利用対象データとを照合して第2の支援データを生成して記録媒体に記録する第2支援データ生成部と、を具備することを特徴とする情報処理装置である。
本発明では、キー音声データ中の区間を指定して音声を切り出し、切り出した音声データまたは特徴抽出した音声パターンデータを検索キーとする際に、指定した区間の近傍の分割点や制御点の有無とそれらに付与された名称その他の情報とに基づく属性を合わせて保持する。
また、本発明では、利用対象音声データの分割点や制御点が設定される際に、その近傍の区間をキー音声データとして切り出し、切り出した音声データまたは特徴抽出した音声パターンデータを検索キーとするとともに、分割点や制御点とそれらに付与された名称その他の情報とに基づく属性を検索キーと合わせて保持する。
次に、検索キーと類似した区間を利用対象音声データ中から検出し、検索キーの保持する属性に従って、利用対象音声データにおける検出された(音声)区間の始終端の一方または両方を基準として分割点や制御点を決定し、分割された前後いずれかの(音声)区間や制御点または利用対象音声データ全体に対して、予め指定された名称または予め指定された命名方法に従って付与された名称を設定するようにしている。
したがって、本発明によれば、コーナータイトル音楽等の毎回出現する特定パターン音声をキーとして、その頭から再生したり、タイトル音楽をスキップしてコーナーの本編から再生したり、その時点や分割されたチャプタにコーナー名称を付与したり、このコーナーを含む番組名を付与したりすることができる。
以下、図面を参照して、本発明の一実施形態について説明する。
[第1の実施形態]
本発明の第1の実施形態に係る映像音声処理装置について図1から図9に基づいて説明する。本実施形態に係る映像音声処理装置は、利用者が映像音声データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データであるメタデータを生成する場合に、メタデータの元となる検索キーとキー関連データよりなるキーデータを生成する装置である。
(1)映像音声処理装置の構成
図1は、本実施形態に係る映像音声処理装置の構成を示すものである。
図1に示す映像音声処理装置は、記録媒体90、映像データ取得部48、映像データ指定部47、音声データ分離部25、キー生成部31、キー関連データ取得部55及びキーデータ管理部10を備えている。
記録媒体90には、予め映像音声データまたは映像音声信号が記録されている。また、記録媒体90には、映像音声のタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関する情報が記録されている。
映像データ取得部48は、記録媒体90に記録されている映像音声データを読み出して取得し、映像データ指定部47へ渡す。また、アナログ映像音声信号を読み出して取得し、デジタル映像音声データに変換した後、映像データ指定部47へ渡してもよい。なお、これらの処理に加えて、必要に応じて映像音声データの暗号解除処理(例えば、B−CAS)、デコード処理(例えば、MPEG2)、形式変換処理(例えば、TS/PS)、レート(圧縮率)変換処理等を行ってもよい。
映像データ指定部47は、映像データ取得部48において取得された映像音声データの全部または一部区間を指定する。利用者の操作により指定する区間を取得する場合には、例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いてもよい。映像音声データを再生表示しておき、ユーザが映像音声データを確認しながら始終端の位置を指定するようにしてもよい。また、チャプタのサムネイル画像一覧等からチャプタを選択し、そのチャプタ全体を指定された区間と見なしてもよい。
音声データ分離部25は、映像データ指定部47において指定された映像音声データから音声データを分離して、キー生成部31へ渡す。例えば、MPEG2データをDemuxして、音声データを含むMPEG2Audio ESを取り出し、デコード(AAC等)する。
キー生成部31は、後述する第3から第6の各実施形態のキー照合部30において使用される音声パターンデータを、音声データ分離部25から渡された音声データに基づいて生成する。ここで、検索キーとして保持する音声パターンデータは、例えば、再生可能な音声データであってもよく、または音声データを特徴抽出してパラメータ化したものでもよい。
キー関連データ取得部55は、映像データ指定部47において指定された映像音声データの区間に関連する情報であるキー関連データを記録媒体90から取り出す。
例えば、指定された映像音声データに対応するタイトル名や指定された区間に対応するチャプタ名があれば、それらの情報が取り出される。また、以前の検索結果に対応する区間が指定され、その検索結果のキー関連データが保存されている場合は、図2のようなキー関連データが取り出される。また、キー関連データを外部入力してもよい。
さらに、指定された区間に直接対応しなくても、近接するチャプタやマーカを検索して見つかれば、それらの情報を取り出し、指定された区間とチャプタやマーカの位置関係により、情報を付与する。
キーデータ管理部10は、キー生成部31において生成された複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについてキー関連データ取得部55において取得された関連する名称や属性等のキー関連データを付加して管理することができる。
本明細書において、「照合」とは、利用対象データ(映像音声データまたは音声データ)と検索キーである音声パターンデータとを比較し、利用対象データの中でどの位置、または、区間が音声パターンデータに該当するかを検出する意味である。この照合を行うのは、第3から第6の実施形態におけるキー照合部30である。
本明細書において、「付加」とは、検索キーである音声パターンデータと属性情報等のキー関連データとを関連させることをいう。この付加を行うのは、キーデータ管理部10である。
(2)キーデータ管理部10において管理される情報
図2は、前記処理結果として生成された検索キーとなる音声パターンデータA〜Dと共にキーデータ管理部10において管理される情報の例を示すものである。ここでは、キーの名称、タイトルの名称、属性、照合方法及びパラメータが管理されている。以下、これらのデータをキー関連データという。
検索キーAについては、「占いコーナー」、「朝の情報テレビ」、「BGM属性1(BGM−1)」、「前方一致」、「BGM」という情報が管理されている。
検索キーBについては、「オープニング」、「夜の連続ドラマ」、「オープニング音楽属性1(OPM−1)」、「完全一致」、「クリーン音楽(CLM)」という情報が管理されている。
検索キーCについては、「スポーツコーナー」、「10時のニュース」、「コーナー音楽属性1(CNM−1)」、「完全一致」、「ロバスト音楽(RBM)」という情報が管理されている。
検索キーDについて、「水泳スタート音」、「(タイトルなし)」、「競技開始イベント属性1(SGE−1)」、「前方一致」、「ロバスト効果音(RBS)」という情報が管理されている。
図3は、図2における属性に対応付けて規定された記録指示動作の例を示すものである。なお、この属性は、第3から6の実施形態では、キー照合部30の検出結果に基づいて照合結果記録指示部35で記録指示動作に使用される。
「BGM属性1(BGM−1)」については、検出された区間全体をそのままマーカ区間とし、その区間の名称を「(キーの名称)」(複数検出された場合は「(キーの名称)−番号」)と設定する記録指示動作のために、検索キーに付加される属性である。なお、図3における「#」は番号を表す。
「オープニング音楽属性1(OPM−1)」については、検出された区間の始端と終端でチャプタ分割し、始終端に挟まれたチャプタの名称を「『オープニング』−番号」、終端で分割された後方のチャプタの名称を「『本編』−番号」、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名として、それぞれ設定する記録指示動作のために、検索キーに付加される属性である。
「コーナー音楽属性1(CNM−1)」については、検出された区間の始端でチャプタ分割し、分割された後方のチャプタの名称を「(キーの名称)」(複数検出された場合は「(キーの名称)−番号」)、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名として、それぞれ設定する記録指示動作のために、検索キーに付加される属性である。
「競技開始イベント属性1(SGE−1)」については、検出された区間の始端の2秒前をマーカ点とし、マーカの名称を「(キーの名称)−番号」と設定する記録指示動作のために、検索キーに付加される属性である。
(3)検索キーAへの属性情報の付加
検索キーA(音声パターンデータA)を生成するために、記録媒体90に記録されている映像音声データの中の一部分を指定したときに、どのように属性を付加させるかについて図4の模式図に基づいて説明する。なお、この属性は、キー関連データ取得部55から入力した情報である。この属性をどのように取得するかはキー関連データ取得部55の処理に基づいて後から詳しく説明する。
図4に示す帯の中の斜線部分はマーカの記録されている区間、吹出しはマーカの名称を示し、帯の上に接した濃い印は検索キーAを生成するために指定した区間を示す。
12月22日放送の「朝の情報テレビ」番組(1時間54分)を記録したタイトル「朝の情報テレビ 12/22」におけるマーカ「占いコーナー−1」部分を指定して、キーを生成した場合、キー指定部分とマーカ部分の一致を判定して、マーカの名称等を元に、検出時の動作を検索キーAの属性情報として付加する。
例えば、「朝の情報テレビ 12/22」から番組名「朝の情報テレビ」を、「占いコーナー−1」からキー名「占いコーナー」をそれぞれ得て、検出された区間全体をそのままマーカ区間とし、その区間の名称を「『占いコーナー』−番号」とする属性を付加する。
また、マーカ「占いコーナー−1」の始終端と、キー指定部分の始終端を比較し、始端のみがほぼ同一点であって、終端が異なる点になっている場合は、照合方法を「前方一致」と設定する。
なお、これらを規定の動作として含む「BGM属性1(BGM−1)」として設定してもよい。
(4)検索キーBへの属性情報の付加
検索キーB(音声パターンデータB)を生成するために、記録媒体90に記録されている映像音声データの中の一部分を指定したときに、どのように上記属性を付加させるかについて図5の模式図に基づいて説明する。なお、この属性は、キー関連データ取得部55から入力した情報である。この属性をどのように取得するかはキー関連データ取得部55の処理に基づいて後から詳しく説明する。
図5に示す帯の中の縦線はチャプタ分割されている点、吹出しはチャプタ名を示し、帯の上に接した濃い印は検索キーBを生成するために指定した部分を示す。
12月23日放送の「夜の連続ドラマ」の5話連続再放送の番組(1時間40分)を記録したタイトル「夜の連続ドラマ 12/23」におけるチャプタ「オープニング−2」を選択してキーを生成した場合、指定されたチャプタ「オープニング−2」及び同一のサフィックス「−2」を持つ隣接チャプタ「本編−2」の名称等を元に、検出時の動作を検索キーBの属性情報として付加する。
例えば、「夜の連続ドラマ 12/23」から番組名「夜の連続ドラマ」を、「オープニング−2」からキー名「オープニング」をそれぞれ得て、検出された区間の始終端でチャプタ分割し、始終端に挟まれたチャプタの名称を「『オープニング』−番号」、終端で分割された後方のチャプタの名称を「『本編』−番号」とする属性を付加する。
なお、これらを規定の動作として含む「オープニング音楽属性−1(OPM−1)」として設定してもよい。
また、タイトル名「夜の連続ドラマ 12/23」に設定されている、ジャンル「ドラマ」、保存先メディア「HDD」、保存先フォルダ「マイドラマ」、最終保存レート(圧縮率)「低」等の情報を合わせて設定し、検索キーBが検出されたタイトルの記録時に、タイトル名に代えて、またはタイトル名に加えて、ジャンル「ドラマ」が設定されたり、保存先のディスクをHDDの「マイドラマ」フォルダにしたり、最終保存レートに従って品質を落とした「低」レートに変換して保存したりしてもよい。
さらに、番組「夜の連続ドラマ」のチャプタ「本編」を集めたプレイリスト「夜の連続ドラマ−本編」がある場合、新たなチャプタ「『本編』−番号」をプレイリスト「夜の連続ドラマ−本編」に追加し、プレイリスト上のチャプタ名を「12/23放送−番号」のようにしてもよい。
もし、オープニング音楽の始まりが徐々に音が大きくなる(フェードイン)ような場合は、検索キーの始端を後方にずらし、安定した区間を検索キーとしてとして指定するようにしてもよい。その場合でも、キー区間とチャプタとの位置関係が考慮されるので、検出された区間でのチャプタ分割は始端をずらす時間によらず正常に行われる。
(5)検索キーCへの属性情報の付加
検索キーC(音声パターンデータC)を生成するために、記録媒体90に記録されている映像音声データの中の一部分を指定したときに、どのように上記属性を付加させるかについて図6の模式図に基づいて説明する。なお、この属性は、キー関連データ取得部55から入力した情報である。この属性をどのように取得するかはキー関連データ取得部55の処理に基づいて後から詳しく説明する。
図6に示す帯の中の縦線はチャプタ分割されている点、吹出しはチャプタ名を示し、帯の上に接した濃い印は検索キーCを生成するために指定した部分を示す。
12月24日放送の「10時のニュース」(60分)を記録したタイトル「10時のニュース 12/24」におけるチャプタ「スポーツコーナー」の最初のコーナー音楽部分を選択してキーを生成した場合、指定された区間の始端とチャプタ「スポーツコーナー」の始端とが近接していることを利用して、検出時の動作を検索キーCの属性情報として付加する。
例えば、検出された区間の始端でチャプタ分割し、後方のチャプタ名を「スポーツコーナー」、タイトル名「10時のニュース」とする属性を付加する。これらを規定の動作として含む「コーナー音楽属性1(CNM−1)」として設定してもよい。
(6)検索キーDへの属性情報の付加
検索キーD(音声パターンデータD)を生成するために、記録媒体90に記録されている映像音声データの中の一部分を指定したときに、どのように上記属性を付加させるかについて図7の模式図に基づいて説明する。なお、この属性は、キー関連データ取得部55から入力した情報である。この属性をどのように取得するかはキー関連データ取得部55の処理に基づいて後から詳しく説明する。
図7に示す帯の中の吹出しはマーカ点とその名称を示し、帯の上に接した濃い印は検索キーDを生成するために指定した部分を示す。
8月19日放送の「国際水泳競技生中継」を記録したタイトル「国際水泳競技生中継 08/19」や「7時のニュース 08/19」「今日のスポーツニュース 08/19」における水泳のスタート音の部分を指定してキーを生成した場合、指定された区間の始端の2秒前にマーカ「水泳スタート音−5」があることを利用して、検出時の動作を検索キーDの属性情報として付加する。
例えば、検出された区間の始端の2秒前をマーカ点とし、マーカの名称を「『水泳スタート音』−番号」とする属性を付加する。
また、タイトル名については検出時に付与しない設定にすることができる。これらを規定の動作として含む「競技開始イベント属性1(SGE−1)」として設定してもよい。
(7)キー関連データ取得部55における処理
次に、キー関連データ取得部55における処理の流れを、図8のフローチャートを使用して説明する。
上記したようにキー関連データ取得部55は、映像データ指定部47において指定された映像音声データの区間に関連するキー関連データ(チャプタ名やマーカ)を記録媒体90から取り出すものであり、その取り出し処理を順番に説明する。
まず、映像データ指定部47において指定された映像音声データの区間に関する情報として、指定区間の始端時刻Tsbと終端時刻Tseを取得する(ステップS101)。
次に、始端時刻Tsbに存在するチャプタ境界やマーカの情報を取得する(ステップS111)。ほぼ同一時刻と見なせる第1の時間幅t1、例えば200ミリ秒について、Tsbの前後を調べる。チャプタ境界に関して取得される情報としては、チャプタ境界時刻Tbc、チャプタ境界の前方チャプタCbf、後方チャプタCbl等である。マーカに関して取得される情報としては、点マーカ時刻Tbm、区間マーカの始端時刻Tbp、点マーカMbm、区間マーカMbp、等がある。
同様に、終端時刻Tseに存在するチャプタ境界やマーカの情報を取得する(ステップS112)。ほぼ同一時刻と見なせる第1の時間幅t1について、Tseの前後を調べる。チャプタ境界に関して取得される情報としては、チャプタ境界時刻Tec、チャプタ境界の前方チャプタCef、後方チャプタCel等である。マーカに関して取得される情報としては、点マーカ時刻Tem、区間マーカの始端時刻Tep、点マーカMem、区間マーカMep、等がある。
ステップS111及びステップS112において、いずれも存在するチャプタやマーカの情報が取得されたとき、その中から、始終端の両方が指定区間と一致するチャプタCcや区間マーカMcpを取得する(ステップS113)。
また、ステップS111において、始端時刻Tsbに存在するチャプタやマーカが取得されなかった場合には、指定区間と関連があると見なせる第2の時間幅t2、例えば10秒について、Tsbの前後を調べる(ステップS121)。
このとき、Tsbの後方(Tsb+t1〜Tsb+t2の間)は、選択された区間に含まれるので、優先してもよい。ステップS111と同様に、チャプタ境界に関して取得される情報としては、チャプタ境界時刻Tbc’、チャプタ境界の前方チャプタCbf’、後方チャプタCbl’等である。マーカに関して取得される情報としては、点マーカ時刻Tbm’、区間マーカの始端時刻Tbp’、点マーカMbm’、区間マーカMbp’、等がある。
ステップS112において、終端時刻Tseに存在するチャプタやマーカが取得されなかった場合には、指定区間と関連があると見なせる第2の時間幅t2について、Tseの前後を調べる(ステップS122)。このとき、Tseの前方(Tse−t2〜Tse−t1の間)は、選択した区間に含まれるので、優先してもよい。ステップS112と同様に、チャプタ境界に関して取得される情報としては、チャプタ境界時刻Tec’チャプタ境界の前方チャプタCef’、後方チャプタCel’等である。マーカに関して取得される情報としては、点マーカ時刻Tem’、区間マーカの始端時刻Tep’、点マーカMem’、区間マーカMep’、等がある。
なお、ステップS121またはステップS122において、チャプタ境界やマーカが見つかった場合、区間指定の履歴を参照して、今回の指定区間より見つかったチャプタやマーカに近いものがある場合には、チャプタやマーカを採用しないようにしてもよい(ステップS123)。
次に、ステップS111からステップS123までの処理で見つかったチャプタ及びマーカの情報により、指定された区間に対応するキーの属性を設定する(ステップS131)。
最後に、設定された属性を既存属性と比較し(ステップS141)、設定された属性部分が既存属性と一致している場合は、他の属性を含む既存属性を設定する(ステップS142)、不一致の場合は個別属性をそのまま設定する(ステップS143)。
(8)キーの属性設定処理
次に、ステップS131におけるキーの属性設定処理の詳細について、図9のフローチャートを使用して説明する。
(8−1)始終端に一致するチャプタCcが取得されているとき
図8のステップS113において、始終端に一致するチャプタCcが取得されているとき、キー名称=ベース名(チャプタ名(Cc))、照合方法=完全一致、動作=チャプタ、チャプタ始端=検出区間始端、チャプタ終端=検出区間終端、チャプタ名=既定名前規則(キー名称)、の属性がそれぞれ設定される(ステップS201)。
(8−2)始終端に一致する区間マーカMcpが取得されているとき
ステップS113において、始終端に一致する区間マーカMcpが取得されているとき、キー名称=ベース名(マーカ名(Mcp))、照合方法=完全一致、動作=区間マーカ、マーカ始端=検出区間始端、マーカ終端=検出区間終端、マーカ名=既定名前規則(キー名称)、の属性がそれぞれ設定される(ステップS202)。
(8−3)始端に一致するチャプタ境界があるとき
図8のステップS111において、始端に一致するチャプタ境界があるとき、照合方法=前方一致、動作=チャプタ、チャプタ分割点=検出区間始端、の属性がそれぞれ設定される(ステップS211)。
さらに、前方チャプタCbfと後方チャプタCblの両方に名称があってサフィックスが同一かどうかを判定し、同一の場合には、キー名称=ベース名(チャプタ名(Cbl))、前方チャプタ名=既定名前規則(ベース名(チャプタ名(Cbf))、後方チャプタ名=既定名前規則(キー名)、の属性がそれぞれ設定される(ステップS213)。
サフィックスが同一でない場合やサフィックスがない場合、及び前方チャプタにのみ名称がない場合は、キー名称=ベース名(チャプタ名(Cbl))、後方チャプタ名=既定名前規則(キー名)、の属性がそれぞれ設定される(ステップS214)。後方チャプタにのみ名称がない場合は、キー名称=ベース名(チャプタ名(Cbf))、前方チャプタ名=既定名前規則(キー名)、の属性がそれぞれ設定される(ステップS215)。
(8−4)始端に一致する点マーカMbmが取得されているとき
図8のステップS111において、始端に一致する点マーカMbmが取得されているとき、照合方法=前方一致、動作=点マーカ、マーカ点=検出区間始端、の属性がそれぞれ設定される(ステップS221)。
さらに、点マーカMbmに名称がある場合は、キー名称=ベース名(マーカ名(Mbm))、マーカ名=既定名前規則(キー名)、の属性がそれぞれ設定される(ステップS222)。
また、始端に一致する区間マーカMbpが取得されているとき、照合方法=前方一致、動作=区間マーカ、マーカ区間=検出区間始端〜マーカ長(Mbp)、の属性がそれぞれ設定される(ステップS223)。
さらに、区間マーカMbpに名称がある場合は、キー名称=ベース名(マーカ名(Mbp))、マーカ名=既定名前規則(キー名)、の属性がそれぞれ設定される(ステップS224)。
(8−5)終端に一致するチャプタ境界があるとき
図8のステップS112において、終端に一致するチャプタ境界があるとき、照合方法=後方一致、動作=チャプタ、チャプタ分割点=検出区間終端、の属性がそれぞれ設定される(ステップS231)。
さらに、前方チャプタCefと後方チャプタCelの両方に名称があってサフィックスが同一かどうかを判定し、同一の場合には、キー名称=ベース名(チャプタ名(Cef))、前方チャプタ名=既定名前規則(キー名)、後方チャプタ名=既定名前規則(ベース名(チャプタ名(Cel))、の属性がそれぞれ設定される(ステップS233)。
サフィックスが同一でない場合やサフィックスがない場合、及び後方チャプタにのみ名称がない場合は、キー名称=ベース名(チャプタ名(Cef))、後方チャプタ名=既定名前規則(キー名)、の属性がそれぞれ設定される(ステップS234)。前方チャプタにのみ名称がない場合は、キー名称=ベース名(チャプタ名(Cel))、前方チャプタ名=既定名前規則(キー名)、の属性がそれぞれ設定される(ステップS235)。
(8−6)終端に一致する点マーカMemが取得されているとき
図8のステップS112において、終端に一致する点マーカMemが取得されているとき、照合方法=後方一致、動作=点マーカ、マーカ点=検出区間終端、の属性がそれぞれ設定される(ステップS241)。
さらに、点マーカMemに名称がある場合は、キー名称=ベース名(マーカ名(Mem))、マーカ名=既定名前規則(キー名)、の属性がそれぞれ設定される(ステップS242)。
(8−7)終端に一致する区間マーカMepが取得されているとき
図8のステップS112において、終端に一致する区間マーカMepが取得されているとき、照合方法=後方一致、動作=区間マーカ、マーカ区間=検出区間終端〜マーカ長(Mep)、の属性がそれぞれ設定される(ステップS243)。
さらに、区間マーカMepに名称がある場合は、キー名称=ベース名(マーカ名(Mep))、マーカ名=既定名前規則(キー名)、の属性がそれぞれ設定される(ステップS244)。
[第2の実施形態]
本発明の第2の実施形態に係る音声処理装置について図10から図12に基づいて説明する。
本実施形態と第1の実施形態の異なる点は、第1の実施形態では、映像音声データを処理したが、本実施形態は音声データのみを処理する点である。
(1)音声処理装置の構成
図10は、本実施形態に係る音声処理装置の構成を示すものである。
図10に示す音声処理装置は、記録媒体90、音声データ取得部28、音声データ指定部27、キー生成部31、キー関連データ取得部55及びキーデータ管理部10を備えている。
記録媒体90には、予め音声データまたは音声信号あるいは映像音声信号が記録されている。また、記録媒体90には、音声データのタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関するキー関連データが記録されている。
音声データ取得部28は、記録媒体90に記録されている音声データを読み出して取得し、音声データ指定部27へ渡す。また、記録媒体90に記録されているアナログ音声信号を読み出して取得するか、記録媒体90に記録されているアナログ映像音声信号を読み出して音声信号のみを取得し、デジタル音声データに変換した後、音声データ指定部27へ渡してもよい。なお、これらの処理に加えて、必要に応じて音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。
音声データ指定部27は、音声データ取得部28において取得された音声データの全部または一部区間を指定する。利用者の操作により指定する区間を取得する場合には、例えばマウスやリモコンといったデバイスを用いたものが考えられるが、その他の方法を用いてもよい。音声データを再生しておき、ユーザが音声データを確認しながら始終端の位置を指定するようにしてもよい。また、チャプタ名一覧等からチャプタを選択し、そのチャプタ全体を指定された区間と見なしてもよい。
キー生成部31は、第3から第6の各実施形態のキー照合部30において使用される音声パターンデータを、音声データ指定部27から渡された音声データについて生成する。ここで、キーとして保持する音声パターンデータは、例えば、再生可能な音声データであってもよく、または音声データを特徴抽出してパラメータ化したものでもよい。
キー関連データ取得部55は、音声データ指定部27において指定された音声データの区間に関連するキー関連データを記録媒体90から取り出す。
例えば、指定された音声データに対応するタイトル名や指定された区間に対応するチャプタ名があれば、それらのキー関連データが取り出される。また、以前の検索結果に対応する区間が指定され、その検索結果のキーデータが保存されている場合は、図11のようなキーデータが取り出される。また、キー関連データを外部入力してもよい。
さらに、指定された区間に直接対応しなくても、近接するチャプタやマーカを検索して見つかれば、それらのキー関連データを取り出し、指定された区間とチャプタやマーカの位置関係により、情報を付与する。
キーデータ管理部10は、第1の実施形態と同様に、キー生成部31において生成された複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについてキー関連データ取得部55において取得された関連する名称や属性等のキー関連データを合わせて管理することができる。
(2)キーデータ管理部10において管理される情報
図11は、前記処理結果として生成された検索キーとなる音声パターンデータと共に本実施形態のキーデータ管理部10において管理されるキー関連データの例を示すものである。
ここでは、キーの名称、タイトルの名称、属性、照合方法及びパラメータがキー関連データとして管理されている。
検索キーE(音声パターンデータE)については、「道路渋滞情報」、「道路情報ラジオ」、「BGM属性2(BGM−2)」、「前方一致」、「BGM」という情報が管理されている。
検索キーF(音声パターンデータF)については、「エンディング」、「○田×男のトーク番組」、「エンディング音楽属性2(EDM−2)」、「後方一致」、「ロバスト音楽(RBM)」という情報が管理されている。
検索キーG(音声パターンデータG)については、「カルチャーコーナー」、「トラベル会話」、「コーナー音楽属性2(CNM−2)」、「完全一致」、「クリーン音楽(CLM)」という情報が管理されている。
検索キーH(音声パターンデータH)については、「金属バット音」、「(タイトルなし)」、「競技注目イベント属性2(AGE−2)」、「前方一致」、「ロバスト効果音(RBS)」という情報が管理されている。
さらに、組で動作する検索キーJ1及びJ2(音声パターンデータJ1、J2)については、「曲名“A”」、「(タイトルなし)」、「音楽開始属性2(BOM−2)」、「前方一致」、「クリーン音楽(CLM)」、及び「曲名“A”末尾」、「(タイトルなし)」、「音楽終了属性2(EOM−2)」、「後方一致」、「クリーン音楽(CLM)」という情報が管理されている。
図12は、図11における属性に対応付けて規定された記録指示動作の例を示すものである。なお、この属性は、第3から6の実施形態では、キー照合部30の検出結果に基づいて照合結果記録指示部35で記録指示動作に使用される。
「BGM属性2(BGM−2)」については、検出された区間全体をそのままマーカ区間とし、検出された箇所の放送時刻を「HH:MM」(00〜23時、00〜59分)として取得した後、その区間の名称を「(キーの名称)−時刻」)と設定する記録指示動作のために、検索キーに付加される属性である。なお、図12における「%R」は「HH:MM」形式の時刻情報を表す。
「エンディング音楽属性2(EDM−2)」については、検出された区間の始端と終端でチャプタ分割し、始終端に挟まれたチャプタの名称を「『エンディング』」(複数検出された場合は「『エンディング』−番号」)、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名としてそれぞれ設定する記録指示動作のために、検索キーに付加される属性である。
「コーナー音楽属性2(CNM−2)」については、検出された区間の始端でチャプタ分割し、分割された後方のチャプタの名称を「(キーの名称)」、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名としてそれぞれ設定する記録指示動作のために、検索キーに付加される属性である。
「競技注目イベント属性2(AGE−2)」については、検出された区間の始端の8秒前をマーカ点とし、マーカの名称を「(キーの名称)−番号」として設定する記録指示動作のために、検索キーに付加される属性である。
「音楽開始属性2(BOM−2)」については、検出された区間の始端でチャプタ分割し、分割された後方のチャプタの名称を「(キーの名称)」として設定する記録指示動作のために、検索キーに付加される属性である。
「音楽終了属性2(EOM−2)」については、検出された区間の終端でチャプタ分割する記録指示動作のために、検索キーに付加される属性である。
(3)検索キーEへの属性情報の付加
検索キーE(音声パターンデータE)を生成するために、記録媒体90に記録されている音声データの中の一部分を指定したときに、どのように上記属性を付加させるかについて説明する。なお、この属性は、キー関連データ取得部55から入力した情報である。
例えば、検索キーEを生成するために、記録媒体90に記録されている音声の中の一部分を指定したときの動作は次のようになる。
「道路情報ラジオ」番組を記録したタイトルにおけるマーカ「道路渋滞情報−10:28」部分を指定して、キーを生成した場合、キー指定部分とマーカ部分の一致を判定して、マーカの名称等を元に、検出時の動作をキーの属性情報として付加する。
例えば、マーカ「道路渋滞情報−10:28」からキー名「道路渋滞情報」を得て、検出された区間全体をそのままマーカ区間とし、その区間の名称を「『道路渋滞情報』−時刻」とする属性を付加する。また、マーカ「道路渋滞情報−10:28」の始終端と、キー指定部分の始終端を比較し、始端のみがほぼ同一点であって、終端が異なる点になっている場合は、照合方法を「前方一致」と設定する。
なお、これらを規定の動作として含む「BGM属性2(BGM−2)」として設定してもよい。
(4)検索キーHへの属性情報の付加
検索キーH(音声パターンデータH)を生成するために、記録媒体90に記録されている音声データの中の一部分を指定したときに、どのように上記属性を付加させるかについて説明する。なお、この属性は、キー関連データ取得部55から入力した情報である。
「高校対抗野球大会」番組を記録したタイトルにおける金属バット音の部分を指定してキーを生成した場合、指定した区間の8秒前にマーカ「金属バット音−3」があることを利用して、検出時の動作をキーの属性情報として付加する。
例えば、検出された箇所の8秒前をマーカ点とし、マーカの名称を「『金属バット音』−番号」とする属性を付加する。
また、タイトル名については検出時に付与しない設定にすることができる。これらを規定の動作として含む「競技注目イベント属性2(AGE−2)」として設定してもよい。
(5)検索キーJ1とJ2への属性情報の付加
検索キーJ1(音声パターンデータJ1)と検索キーJ2(音声パターンデータJ2)を生成するために、記録媒体90に記録されている音声データの中の一部分を指定したときに、どのように上記属性を付加させるかについて説明する。なお、この属性は、キー関連データ取得部55から入力した情報である。
音楽番組を記録したタイトルにおける曲名“A”の音楽の開始部分を指定してキーを生成した場合、指定した区間の始端とほぼ同一点から始まる「曲名“A”」のチャプタがあることを利用して、検出時の動作をキーの属性情報として付加する。例えば、検出された区間の始端でチャプタ分割し、後方のチャプタ名を「曲名“A”」とする属性を付加する。
同様に、同じ音楽の終了部分を指定してキーを生成した場合、指定した区間の終端とほぼ同一点で終わる「曲名“A”」のチャプタがあることを利用して、検出時の動作をキーの属性情報として付加する。例えば、検出された区間の終端でチャプタ分割し、前方のチャプタ名を「曲名“A”」とする属性を付加する。また、タイトル名については検出時に付与しない設定にすることができる。これらをそれぞれ規定の動作として含む「音楽開始属性2(BOM−2)」「音楽終了属性2(EOM−2)」として設定してもよい。
[第3の実施形態]
本発明の第3の実施形態に係る映像音声処理装置について図13から図17に基づいて説明する。
第1の実施形態に係る映像音声処理装置は、利用者が映像音声データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データであるメタデータを生成する場合に、メタデータの元となる検索キーとキー関連データよりなるキーデータを生成する装置である。そして、本実施形態の映像音声処理装置は、その機能に加えてキーデータに基づいて利用対象データである映像音声データに支援データであるメタデータを記録させる機能も有している。
(1)映像音声処理装置の構成
図13は、本実施形態に係る映像音声処理装置の構成を示すものである。
図13に示す映像音声処理装置は、キー生成に係る構成要素として、映像データ取得部48、映像データ指定部47、音声データ分離部25、キー生成部31及びキー関連データ取得部55を備えている。また、キー検索に係る構成要素として、映像データ取得部41、音声データ分離部22、キー照合部30及び照合結果記録指示部35を備えている。さらに、共通の構成要素として、記録媒体90及びキーデータ管理部10を備えている。
キー生成に係る構成要素は、第1の実施形態と同様であり、説明を省略する。
キー検索に係る映像データ取得部41は、外部のデジタルビデオカメラ、デジタル放送等の受信チューナー、その他のデジタル機器から入力される映像音声データを取得し、記録媒体90に記録すると共に、音声データ分離部22へ渡す。また、外部のビデオカメラ、放送受信チューナー、その他の機器から入力されるアナログ映像音声信号を取得し、デジタル映像音声データに変換した後、記録媒体90に記録したり、音声データ分離部22へ渡してもよい。なお、これらの処理に加えて、必要に応じて映像音声データの暗号解除処理(例えばB−CAS)、デコード処理(例えばMPEG2)、形式変換処理(例えばTS/PS)、レート(圧縮率)変換処理等を行ってもよい。
音声データ分離部22は、映像データ取得部41において取得された映像音声データから音声データを分離して、キー照合部30へ渡す。
キーデータ管理部10は、第1の実施形態と同様に、複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについて、関連する名称や属性等の情報を合わせて管理することができる。キー生成の結果、図2のような情報が管理されている。
キー照合部30は、キーデータ管理部10において検索キーとして管理されている音声パターンデータのうち、予め選択された1または複数の音声パターンデータと、音声データ分離部22において分離された音声データとを照合し、類似した区間を検出する。
(2)キー検索の説明
検索キーAに対しては、「前方一致」と「BGM」という情報に従って、人の声の周波数領域をマスクする等でBGMの音楽成分に着目して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
検索キーBに対しては、「完全一致」と「クリーン音楽」という情報に従って、音楽成分を重視して一致度合いを評価し、検索キー全体のパターンが一致する箇所を検出するアルゴリズムを使用する。
検索キーCに対しては、「完全一致」と「ロバスト音楽」という情報に従って、音楽成分を重視しながら多少のノイズを許容して一致度合いを評価し、検索キー全体のパターンが一致する箇所を検出するアルゴリズムを使用する。
検索キーDに対しては、「前方一致」と「ロバスト効果音」という情報に従って、スペクトルピークに着目して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
なお、図2記載の各情報は検索キーと共に予め設定されて管理されているものとしているが、実際に検出や検索のためにキー照合部30に対して選択、設定する際に、一部または全部の情報を変更して使用してもよい。例えば、検索キーBは通常は「完全一致」「クリーン音楽(CLM)」となっているが、「前方一致」「BGM」として使用することで、同番組の予告編を検索・検出するのに適したものになる。
(3)照合結果記録指示部35
照合結果記録指示部35は、キー照合部30において検出されたキーデータをキーデータ管理部10より取得する。そして、このキーデータにおける検索キーの属性に応じて、再生、編集、検索が簡単にできるようにメタデータとして記録媒体90に記録する。記録媒体90において記録されるメタデータは、例えばDVD(Digital Versatile Disk)のVR(Video Recording)モードで規定される構造になっている。
照合結果記録指示部35における、属性に対応付けて規定された記録指示動作の例を図3を参考にして説明する。
「BGM属性1(BGM−1)」については、検出された区間全体をそのままマーカ区間とし、その区間の名称を「(キーの名称)」(複数検出された場合は「(キーの名称)−番号」)と設定するように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。なお、図3における「#」は番号を表す。
「オープニング音楽属性1(OPM−1)」については、検出された区間の始端と終端でチャプタ分割し、始終端に挟まれたチャプタの名称を「『オープニング』−番号」、終端で分割された後方のチャプタの名称を「『本編』−番号」、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名として、それぞれ設定するように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
「コーナー音楽属性1(CNM−1)」については、検出された区間の始端でチャプタ分割し、分割された後方のチャプタの名称を「(キーの名称)」(複数検出された場合は「(キーの名称)−番号」)、もしタイトル名が未設定の場合にはキーに関連付けられた「タイトルの名称」をタイトル名として、それぞれ設定するように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
「競技開始イベント属性1(SGE−1)」については、検出された区間の始端の2秒前をマーカ点とし、マーカの名称を「(キーの名称)−番号」と設定するように照合結果記録指示部35が記録媒体90に対し記録指示動作を行い、記録媒体90がその記録指示動作に基づきメタデータとして記録する。
(4)検索キーAが検出されたときの記録指示動作
キー照合部30において検索キーAが検出されたときに、照合結果記録指示部35が「BGM属性1」の規定の動作に従って記録指示動作を記録媒体90に対して行い、図14は、その記録媒体90に記録された情報を示す模式図である。
12月22日放送の「朝の情報テレビ」番組(1時間54分)における「占いコーナー」の区間が、放送開始から58分ちょうどと1時間51分の計2回検出されて(帯の上に接した濃い印で示す)、それぞれ「占いコーナー−1」「占いコーナー−2」という名前のマーカ(帯の中の斜線で示した部分)がついている。
これにより、例えば、占いコーナーの部分だけを抜き出し、高圧縮で再エンコードして携帯機器に転送する等が可能となる。
(5)検索キーBが検出されたときの記録指示動作
キー照合部30において検索キーBが検出されたときに、照合結果記録指示部35が「オープニング音楽属性1」の規定の動作に従って記録指示動作を記録媒体90に対して行い、図15は、その記録媒体90に記録された情報を示す模式図である。
12月23日放送の「夜の連続ドラマ」の5話連続再放送の番組(1時間40分)における「オープニング」の区間が、0分30秒、20分15秒等の計5回検出されて(帯の上に接した濃い印で示す)、1回目の「オープニング」の前のチャプタ(名前なし)、1回目の「オープニング−1」、1回目のオープニングに続く「本編−1」、2回目の「オープニング−2」、2回目のオープニングに続く「本編−2」等のチャプタに分割(帯の中の縦線で示す)されている。また、タイトル名「夜の連続ドラマ」が設定されている。ここで、検索キーBと関連付けて、タイトル名のほかに、ジャンル「ドラマ」、保存先メディア「HDD」、保存先フォルダ「マイドラマ」、最終保存レート(圧縮率)「低」、プレイリスト「夜の連続ドラマ−本編」が設定されているとすると、検索キーBが検出されたときに、タイトル名に代えて、またはタイトル名に加えて、ジャンル「ドラマ」が設定されたり、保存先のディスクをHDDの「マイドラマ」フォルダにしたり、最終保存レートに従って品質を落とした「低」レートに変換して保存したり、新たなチャプタ「『本編』−番号」をプレイリスト「夜の連続ドラマ−本編」に追加したりしてもよい。
これにより、例えば、水曜日の再放送である3話目だけを見たい場合にチャプタ一覧から「オープニング−3」を選択して再生したり、オープニング再生中に「次チャプタへジャンプ」等の操作をすることにより、何度も同じオープニングを見ることなく、本編だけをまとめて見たりすることが可能となる。また、EPGによらないタイトル名設定や、ジャンル設定、保存先フォルダ設定等の自動化が可能となる。
(6)検索キーCが検出されたときの記録指示動作
キー照合部30において検索キーCが検出されたときに、照合結果記録指示部35が「コーナー音楽属性1」の規定の動作に従って記録指示動作を記録媒体90に対して行い、図16は、その記録媒体90に記録された情報を示す模式図である。
12月24日放送の「10時のニュース」(60分)における「スポーツコーナー」の音楽が検出され、コーナー音楽の頭(35分30秒)でチャプタ分割されて「スポーツコーナー」のチャプタ名がついている。これにより、例えば、スポーツにしか関心がないユーザは、チャプタ一覧から「スポーツコーナー」を選択して再生することができる。また、番組冒頭からしばらく主要ニュースを見た後、興味がなくなってきたところで「次チャプタへジャンプ」等の操作をすることにより「スポーツコーナー」までの間を飛ばすような視聴の仕方も可能となる。
(7)検索キーDが検出されたときの記録指示動作
キー照合部30において検索キーDが検出されたときに、照合結果記録指示部35が「競技開始イベント属性1」の規定の動作に従って記録指示動作を記録媒体90に対して行い、図17は、その記録媒体90に記録された情報を示す模式図である。
8月19日放送の「国際水泳競技生中継」番組における「水泳スタート音」が12回、同日放送の「7時のニュース」番組で2回、「今日のスポーツニュース」番組で5回、それぞれ検出されて、各々2秒前に「水泳スタート音−1」「水泳スタート音−2」等のマーカがついている。これにより、「次マーカへジャンプ」等の操作をすることで、各レースのスタートのシーンを頭出しすることができ、例えば、特定の選手が出場しているなどで見たいレースがある場合、再生された映像を見ながら次々にジャンプして、見たいレースを見つけることが可能となる。
なお、キー検索に係る構成要素である映像データ取得部41及び音声データ分離部22は、キー生成に係る構成要素である映像データ取得部48及び音声データ分離部25と類似した処理を行うものであり、共通化してもよい。
[第4の実施形態]
本発明の第4の実施形態に係る音声処理装置について図18に基づいて説明する。
本実施形態と第3の実施形態の異なる点は、第3の実施形態では、映像音声データを処理したが、本実施形態は音声データのみを処理する点である。
(1)音声処理装置の構成
図18は、本実施形態に係る音声処理装置の構成を示すものである。
この図に示す音声処理装置は、キー生成に係る構成要素として、音声データ取得部28、音声データ指定部27、キー生成部31及びキー関連データ取得部55を備えている。また、キー検索に係る構成要素として、音声データ取得部21、キー照合部30及び照合結果記録指示部35を備えている。さらに、共通の構成要素として、記録媒体90及びキーデータ管理部10を備えている。
キー生成に係る構成要素は、第2の実施形態と同様であり、説明を省略する。
キー検索に係る音声データ取得部21は、外部のデジタルマイクロホン、デジタル放送等の受信チューナー、その他のデジタル機器から入力される音声データを取得し、記録媒体90に記録すると共に、キー照合部30へ渡す。また、外部のマイクロホン、放送受信チューナー、その他の機器から入力されるアナログ音声信号を取得し、デジタル音声データに変換した後、記録媒体90に記録したり、キー照合部30へ渡してもよい。また、これらの処理に加えて、必要に応じて音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。
キーデータ管理部10は、第2の実施形態と同様に、複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについて、関連する名称や属性等の情報を合わせて管理することができる。
(2)キー検索の説明
キー生成の結果、図11のような情報が管理されているものとして、キー検索の説明をする。
キー照合部30は、キーデータ管理部10において検索キーとして管理されている音声パターンデータのうち、予め選択された1または複数の音声パターンデータと、音声データ取得部21において取得された音声データとを照合し、類似した区間を検出する。
検索キーEに対しては、「前方一致」と「BGM」という情報に従って、人の声の周波数領域をマスクする等でBGMの音楽成分に着目して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
検索キーFに対しては、「後方一致」と「ロバスト音楽」という情報に従って、音楽成分を重視しながら多少のノイズを許容して一致度合いを評価し、検索キー末尾からパターンが一致するところまでを始端フリーで検出するアルゴリズムを使用する。
検索キーGに対しては、「完全一致」と「クリーン音楽」という情報に従って、音楽成分を重視して一致度合いを評価し、検索キー全体のパターンが一致する箇所を検出するアルゴリズムを使用する。
検索キーHに対しては、「前方一致」と「ロバスト効果音」という情報に従って、スペクトルピークに着目して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
検索キーJ1に対しては、「前方一致」と「クリーン音楽」という情報に従って、音楽成分を重視して一致度合いを評価し、検索キーの先頭からパターンが一致するところまでを終端フリーで検出するアルゴリズムを使用する。
検索キーJ2に対しては、「後方一致」と「クリーン音楽」という情報に従って、音楽成分を重視して一致度合いを評価し、検索キーの末尾からパターンが一致するところまでを始端フリーで検出するアルゴリズムを使用する。
なお、図11記載の各情報は検索キーと共に予め設定されて管理されているものとしているが、実際に検出や検索のためにキー照合部30に対して選択、設定する際に、一部または全部の情報を変更して使用してもよい。例えば、検索キーJ1は通常は「クリーン音楽(CLM)」となっているが、「BGM」として使用することで、曲の最初にナレーションが入る形式の音楽番組やCMでの検索・検出に適したものになる。
(3)照合結果記録指示部35
照合結果記録指示部35は、キー照合部30において検出されたキーデータをキーデータ管理部10より取得する。そして、このキーデータにおける検索キーの属性に応じて、再生、編集、検索が簡単にできるようにメタデータとして記録媒体90に記録する。
図12は、照合結果記録指示部35における、属性に対応付けて規定された記録指示動作の例を示すものである。内容は第2の実施形態と同様であるので、説明を省略する。
(4)検索キーEが検出されたとき
例えば、検索キーEが検出されたときに、「BGM属性2」の規定の動作に従って、「道路情報ラジオ」番組における「道路渋滞情報」の区間が、複数回検出されて、それぞれ放送された時刻に応じて「道路渋滞情報−9:55」「道路渋滞情報−10:28」「道路渋滞情報−10:56」等という名前のマーカが検出された区間についている。これにより、例えば、道路渋滞情報だけを最新の情報から順に抜き出して聞く等が可能となる。
(5)検索キーHが検出されたとき
検索キーHが検出されたときに、「競技注目イベント属性2」の規定の動作に従って、「高校対抗野球大会」番組における「金属バット音」が検出され、各々検出された箇所の8秒前にマーカがついているので、打撃のシーンのみを直前の投球動作から順次再生することが可能となる。
(6)検索キーJ1とJ2が検出されたとき
検索キーJ1とJ2が検出されたときに、「音楽開始属性2」と「音楽終了属性2」の規定の動作の組み合わせによって、「曲名“A”」の音楽の開始と終了の両方でチャプタ分割され、音楽の区間が「曲名“A”」のチャプタとなる。
[第5の実施形態]
本発明の第5の実施形態に係る映像音声処理装置について図19に基づいて説明する。
本実施形態と第3の実施形態の異なる点は、外部から取得した映像音声データについて記録及び処理を行うのではなく、記録済みの映像音声データについて処理を行うことである。
図19は、本実施形態に係る映像音声処理装置の構成を示すものである。
図19に示す映像音声処理装置は、キー生成に係る構成要素として、映像データ取得部48、映像データ指定部47、音声データ分離部25、キー生成部31及びキー関連データ取得部55を備えている。また、キー検索に係る構成要素として、映像データ取得部46、音声データ分離部22、キー照合部30及び照合結果記録指示部35を備えている。さらに、共通の構成要素として、記録媒体90及びキーデータ管理部10を備えている。
キー生成に係る構成要素は、第1の実施形態と同様であり、説明を省略する。
記録媒体90には、予め映像音声データまたは映像音声信号が記録されている。また、記録媒体90には、映像音声のタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関する情報が記録されている。
キー検索に係る映像データ取得部46は、記録媒体90に記録されている映像音声データを読み出して取得し、音声データ分離部22へ渡す。また、アナログ映像音声信号を読み出して取得し、デジタル映像音声データに変換した後、音声データ分離部22へ渡してもよい。また、これらの処理に加えて、必要に応じて映像音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。
音声データ分離部22は、映像データ取得部46において取得された映像音声データから音声データを分離して、キー照合部30へ渡す。例えば、MPEG2データをDemuxして、音声データを含むMPEG2 Audio ESを取り出し、デコード(AAC等)する。
キーデータ管理部10は、第3の実施形態と同様に、複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについて、関連する名称や属性等の情報を合わせて管理することができる。
例えば、図2に示すように、検索キーAについて「占いコーナー」「朝の情報テレビ」「BGM属性1」等、検索キーBについて「オープニング」「夜の連続ドラマ」「オープニング音楽属性1」等がキー関連情報として管理されている。
キー照合部30は、キーデータ管理部10において検索キーとして管理されている音声パターンデータのうち、予め選択された1または複数の音声パターンデータと、音声データ取得部26において取得された音声データとを照合し、類似した区間を検出する。
照合結果記録指示部35は、キー照合部30において検出されたキーデータをキーデータ管理部10より取得する。そして、このキーデータにおける検索キーの属性に応じて、再生、編集、検索が簡単にできるようにメタデータとして記録媒体90に記録する。
例えば、図3と同様に、検索キーAの「BGM属性1」については検出された区間全体を「(キーの名称)」、また、検索キーBの「オープニング音楽属性1」については検出された区間の始終端の間を「オープニング」、終端の後方の区間を「本編」、さらにタイトル名を設定する等の記録指示動作が各属性について規定されている。
また、照合結果記録指示部35において、記録媒体90に記録されるメタデータは、例えばARIB STD−B38で規定される構造になっている。
図21は、キー照合部30において検索キーAが検出されたときに、照合結果記録指示部35によって記録媒体90に記録されるメタデータの例を示すものである。番組開始後3480秒(58分)から120秒間の「占いコーナー−1」と、6660秒(1時間51分)から180秒間の「占いコーナー−2」という2つのセグメントと、これらの占いコーナー部分を抜き出した「占いコーナー」というセグメントグループが記録されている。
図22は、キー照合部30において検索キーBが検出されたときに、照合結果記録指示部35によって記録媒体90に記録されるメタデータの例を示すものである。プログラムに関する、名前(タイトル名)「夜の連続ドラマ」やジャンル「ドラマ」等の情報と、番組開始後30秒から70秒間の「オープニング−1」や1215秒(20分15秒)からの「オープニング−2」、これらの間の「本編−1」「本編−2」等のセグメントが記録されている。
[第6の実施形態]
本発明の第6の実施形態に係る音声処理装置について図20に基づいて説明する。
本実施形態と第4の実施形態の異なる点は、外部から取得した音声データについて記録及び処理を行うのではなく、記録済みの音声データについて処理を行うことである。
図20は、本実施形態に係る音声処理装置の構成を示すものである。
この図に示す音声処理装置は、キー生成に係る構成要素として、音声データ取得部28、音声データ指定部27、キー生成部31及びキー関連データ取得部55を備えている。また、キー検索に係る構成要素として、音声データ取得部26、キー照合部30及び照合結果記録指示部35を備えている。さらに、共通の構成要素として、記録媒体90及びキーデータ管理部10を備えている。
キー生成に係る構成要素は、第2の実施形態と同様であり、説明を省略する。
キーデータ管理部10は、第4の実施形態と同様に、複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについて、関連する名称や属性等の情報を合わせて管理することができる。
記録媒体90には、予め音声データまたは音声信号あるいは映像音声信号が記録されている。また、記録媒体90には、音声データのタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関する情報が記録されている。
キー検索に係る音声データ取得部26は、記録媒体90に記録されている音声データを読み出して取得し、キー照合部30へ渡す。
音声データ取得部26は、記録媒体90に記録されているアナログ音声信号を読み出して取得するか、記録媒体90に記録されているアナログ映像音声信号を読み出して音声信号のみ取得し、デジタル音声データに変換した後、キー照合部30へ渡してもよい。なお、これらの処理に加えて、必要に応じて音声データの暗号解除処理、デコード処理、形式変換処理、レート変換処理等を行ってもよい。
キーデータ管理部10は、第4の実施形態と同様に、複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについて、関連する名称や属性等の情報を合わせて管理することができる。
キー生成の結果、図11のような情報が管理されているものとして、キー検索の説明をする。
キー照合部30は、キーデータ管理部10において検索キーとして管理されている音声パターンデータのうち、予め選択された1または複数の音声パターンデータと、音声データ取得部26において取得された音声データとを照合し、類似した区間を検出する。
照合結果記録指示部35は、キー照合部30において検出されたキーデータをキーデータ管理部10より取得する。そして、このキーデータにおける検索キーの属性に応じて、再生、編集、検索が簡単にできるようにメタデータとして記録媒体90に記録する。
[第7の実施形態]
本発明の第7の実施形態に係る映像音声処理装置について図23、図24に基づいて説明する。
本実施形態に係る映像音声処理装置は、利用者が映像音声データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データであるメタデータを生成する場合に、メタデータの元となる検索キーとキー関連データよりなるキーデータを生成する装置である。
本実施形態と第1の実施形態の異なる点は、検索キーとする区間を外部から指定するのではなく、第1の支援データの入力に基づいて決定する点である。
(1)映像音声処理装置の構成
図23は、本実施形態の映像音声処理装置の構成を示すブロック図である。
図23に示す映像音声処理装置は、第1映像データ取得部43、第1音声データ分離部25、第1支援データ入力部66、キー指定情報生成部61、キー生成部31、キー関連データ取得部55、記録媒体91A及びキーデータ管理部10を備えている。
第1映像データ取得部43は外部からキー生成に係る第1コンテンツの映像音声データを取得して記録媒体91Aに記録する。
第1音声データ分離部25は、第1映像データ取得部43において取得された映像音声データから音声データを分離して、キー指定情報生成部61へ渡す。例えば、MPEG2データをDemuxして、音声データを含むMPEG2Audio ESを取り出し、デコード(AAC等)する。
第1支援データ入力部66は、第1コンテンツに関する支援データを入力し、記録媒体91Aに記録する。
キー指定情報生成部61は、第1支援データ入力部66において入力された支援データの時刻を基準として、第1音声データ分離部25から渡された音声データにおいて、検索キーとする区間を決定する。
キー関連データ取得部55は、キー指定情報生成部61において指定された映像音声データの区間に関連するキー関連データを取得する。キー関連データとして、記録媒体91Aに記録された支援データまたは第1支援データ入力部66において入力された支援データがある。これらの第1支援データには、放送や外部から提供される電子番組表や番組メタデータから取得した、第1コンテンツの番組に関する情報、例えば番組の属性として、番組タイトル、ジャンル、放送日時(曜日、時刻、日付)、放送チャンネル(放送局)、制作元、番組グループ(番組シリーズ、派生元番組)等が含まれていてもよい。
キー生成部31は、第1の実施形態と同様に、第3から第6及び後述の各実施形態のキー照合部30において使用される音声パターンデータを、キー指定情報生成部61において決定された区間の音声データに基づいて生成する。ここで、検索キーとして保持する音声パターンデータは、例えば、再生可能な音声データであってもよく、または音声データを特徴抽出してパラメータ化したものでもよい。
キーデータ管理部10は、第1の実施形態と同様に、キー生成部31において生成された複数の音声パターンデータを検索キーとして管理する。また、各々の検索キーについてキー関連データ取得部55において取得された関連する名称や属性等のキー関連データを付加して管理することができる。
(2)映像音声処理装置の別の構成
図24は、本実施形態の別の構成を示すブロック図である。
図24における第1映像データ取得部48は、外部から取得した映像音声データについて記録及び処理を行うのではなく、記録媒体91Bに記録済みの映像音声データについて処理を行う点が、図23における第1映像データ取得部43と異なる。
記録媒体91Bには、予め第1コンテンツの映像音声データまたは映像音声信号が記録されている。また、記録媒体91Bには、映像音声のタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関する情報が記録されている。
[第8の実施形態]
本発明の第8の実施形態に係る映像音声処理装置について図25、図26、図27に基づいて説明する。
(1)映像音声処理装置の第1の構成
図25は、本実施形態の映像音声処理装置の第1の構成を示すブロック図である。
図25に示す映像音声処理装置は、第1映像データ取得部43、第1音声データ分離部25、第1支援データ生成部65、キー指定情報生成部61、キー生成部31、キー関連データ取得部55、記録媒体91A及びキーデータ管理部10を備えている。
本実施形態と第7の実施形態の異なる点は、第1支援データ入力部66に代えて、第1支援データ生成部65を有する点である。
第1支援データ生成部65は、第1音声データ分離部25において分離された音声データの変化点を検出して、第1支援データを生成し、記録媒体91Aに記録する。例えば、無音区間を検出して、その開始、終了、中間点等で分割を行う。また、音声多重モードの切り替わりを検出して、モノラルモードの本編部分と、ステレオモードのCM部分との境界で分割を行うようにしてもよい。
キー指定情報生成部61は、第1支援データ生成部65において生成された支援データの時刻を基準として、第1音声データ分離部25から渡された音声データにおいて、検索キーとする区間を決定する。
キー関連データ取得部55は、キー指定情報生成部61において指定された映像音声データの区間に関連するキー関連データを取得する。キー関連データとして、記録媒体91Aに記録された支援データまたは第1支援データ生成部65において生成された支援データがある。
第1映像データ取得部43、第1音声データ分離部25、キー生成部31、記録媒体91A及びキーデータ管理部10については、第7の実施形態と同様であり、説明を省略する。
なお、第7の実施形態における図24と同様、本実施形態においても、外部から取得した映像音声データについて記録及び処理を行う第1映像取得部43に代えて、記録媒体91Bに記録済みの映像音声データについて処理を行う第1映像取得部48を備えてもよい。
(2)映像音声処理装置の第2の構成
図26は、本実施形態の第2の構成を示すブロック図である。
図26における第1支援データ生成部65は、第1音声データ分離部25において分離された音声データではなく、第1映像データ取得部43において取得された映像音声データに基づいて第1支援データを生成する点が、図25における第1支援データ生成部65と異なる。例えば、映像の切り替わり(カット)を検出して、分割を行う。音声データを併用して、無音部分のカットで分割するようにしてもよい。また、特開2005−130416公報のような、映像同士の類似度に基づく分割を行ってもよい。
(3)映像音声処理装置の第3の構成
図27は、本実施形態のさらに別の第3の構成を示すブロック図である。
図27における第1支援データ生成部65は、第1音声データ分離部25において分離された音声データではなく、第1映像データ取得部48において取得された映像音声データに基づいて第1支援データを生成する点が、図25における第1支援データ生成部65と異なる。
また、図27における第1映像データ取得部48は、外部から取得した映像音声データについて記録及び処理を行うのではなく、記録媒体91Bに記録済みの映像音声データについて処理を行う点が、図26における第1映像データ取得部43と異なる。
[第9の実施形態]
本発明の第9の実施形態に係る映像音声処理装置について図28、図29に基づいて説明する。
(1)映像音声処理装置の構成
図28は、本実施形態の映像音声処理装置の構成を示すブロック図である。
図28に示す映像音声処理装置は、第1映像データ取得部43、第1音声データ分離部25、第1支援データ生成部65、第1支援データ入力部66、キー指定情報生成部61、キー生成部31、キー関連データ取得部55、記録媒体91A及びキーデータ管理部10を備えている。
本実施形態と第7及び第8の実施形態の異なる点は、第1支援データ入力部66及び第1支援データ生成部65をともに有する点である。
第1支援データ生成部65は、第1音声データ分離部25において分離された音声データの変化点を検出して、支援データを生成する。例えば、無音区間を検出して、その開始、終了、中間点等で分割を行う。また、音声多重モードの切り替わりを検出して、モノラルモードの本編部分と、ステレオモードのCM部分との境界で分割を行うようにしてもよい。
第1支援データ入力部66は、第1支援データ生成部65において生成された支援データに基づきまたは加えて、第1コンテンツに関する支援データを入力し、記録媒体91Aに記録する。第1支援データ生成部65において生成された支援データは、入力画面上で基準値として表示したり、入力がない場合の初期値や規定値として採用したりするとよい。例えば、第1支援データ生成部65において分割されたCM部分に、CMの名前等のテキスト情報を入力する。
キー指定情報生成部61は、第1支援データ生成部65において生成され、または第1支援データ入力部において入力された支援データの時刻を基準として、第1音声データ分離部25から渡された音声データにおいて、検索キーとする区間を決定する。
キー関連データ取得部55は、キー指定情報生成部61において指定された映像音声データの区間に関連するキー関連データを取得する。キー関連データとして、記録媒体91Aに記録された支援データまたは第1支援データ入力部66において入力された支援データ或いは第1支援データ生成部65において生成された支援データがある。
第1映像データ取得部43、第1音声データ分離部25、キー生成部31、記録媒体91A及びキーデータ管理部10については、第7の実施形態と同様であり、説明を省略する。
なお、第7の実施形態における図24と同様、本実施形態においても、外部から取得した映像音声データについて記録及び処理を行う第1映像取得部43に代えて、記録媒体91Bに記録済みの映像音声データについて処理を行う第1映像取得部48を備えてもよい。
(2)映像音声処理装置の別の構成
図29は、本実施形態の映像音声処理装置の別の構成を示すブロック図である。
図29における第1支援データ生成部65は、第8の実施形態における図26と同様、第1音声データ分離部25において分離された音声データではなく、第1映像データ取得部43において取得された映像音声データに基づいて第1支援データを生成する点が、図28における第1支援データ生成部65と異なる。例えば、映像の切り替わり(カット)を検出して、分割を行う。音声データを併用して、無音部分のカットで分割するようにしてもよい。また、特開2005−130416公報のような、映像同士の類似度に基づく分割を行ってもよい。また、第1支援データ入力部66は、第1支援データ生成部65において映像同士の類似度に基づいて分割された部分が話題単位になっている場合に、話題やコーナーの名前等のテキスト情報を入力する。
なお、第8の実施形態における図27と同様、外部から取得した映像音声データについて記録及び処理を行う第1映像取得部43に代えて、記録媒体91Bに記録済みの映像音声データについて処理を行う第1映像取得部48を備えてもよい。
[第10の実施形態]
本発明の第10の実施形態に係る音声処理装置について図30、図31に基づいて説明する。
本実施形態と第7の実施形態の異なる点は、第7の実施形態では、映像音声データを処理したが、本実施形態は音声データのみを処理する点である。
(1)音声処理装置の構成
図30は、本実施形態に係る音声処理装置の構成を示すブロック図である。
図30に示す音声処理装置は、第1音声データ取得部23、第1支援データ入力部66、キー指定情報生成部61、キー生成部31、キー関連データ取得部55、記録媒体91A及びキーデータ管理部10を備えている。
第1音声データ取得部23は外部からキー生成に係る第1コンテンツの音声データを取得して記録媒体91Aに記録するとともに、キー指定情報生成部61へ渡す。
第1支援データ入力部66は、第1コンテンツに関する支援データを入力し、記録媒体91Aに記録する。
キー指定情報生成部61は、第1支援データ入力部66において入力された支援データの時刻を基準として、第1音声データ取得部23から渡された音声データにおいて、検索キーとする区間を決定する。
キー関連データ取得部55は、キー指定情報生成部61において指定された音声データの区間に関連するキー関連データを取得する。キー関連データとして、記録媒体91Aに記録された支援データまたは第1支援データ入力部66において入力された支援データがある。これらの第1支援データには、放送や外部から提供される電子番組表や番組メタデータから取得した、第1コンテンツの番組に関する情報、例えば番組の属性として、番組タイトル、ジャンル、放送日時(曜日、時刻、日付)、放送チャンネル(放送局)、制作元、番組グループ(番組シリーズ、派生元番組)等が含まれていてもよい。
キー生成部31、記録媒体91A及びキーデータ管理部10については、第7の実施形態と同様であり、説明を省略する。
(2)音声処理装置の別の構成
図31は、本実施形態の別の構成を示すブロック図である。
図31における第1音声データ取得部28は、外部から取得した音声データについて記録及び処理を行うのではなく、記録媒体91Bに記録済みの音声データについて処理を行う点が、図30における第1音声データ取得部23と異なる。
記録媒体91Bには、予め第1コンテンツの音声データまたは音声信号が記録されている。また、記録媒体91Bには、音声のタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関する情報が記録されている。
[第11の実施形態]
本発明の第11の実施形態に係る音声処理装置について図32に基づいて説明する。
本実施形態と第8の実施形態の異なる点は、第8の実施形態では、映像音声データを処理したが、本実施形態は音声データのみを処理する点である。
図32は、本実施形態に係る音声処理装置の構成を示すブロック図である。
図32に示す音声処理装置は、第1音声データ取得部23、第1支援データ取得部65、キー指定情報生成部61、キー生成部31、キー関連データ取得部55、記録媒体91A及びキーデータ管理部10を備えている。
本実施形態と第10の実施形態の異なる点は、第1支援データ入力部66に代えて、第1支援データ生成部65を有する点である。
第1支援データ生成部65は、第1音声データ取得部23において取得された音声データの変化点を検出して、第1支援データを生成し、記録媒体91Aに記録する。例えば、無音区間を検出して、その開始、終了、中間点等で分割を行う。また、音声多重モードの切り替わりを検出して、モノラルモードの本編部分と、ステレオモードのCM部分との境界で分割を行うようにしてもよい。
キー指定情報生成部61は、第1支援データ生成部65において生成された支援データの時刻を基準として、第1音声データ取得部23から渡された音声データにおいて、検索キーとする区間を決定する。
キー関連データ取得部55は、キー指定情報生成部61において指定された音声データの区間に関連するキー関連データを取得する。キー関連データとして、記録媒体91Aに記録された支援データまたは第1支援データ生成部65において生成された支援データがある。
第1音声データ取得部23、キー生成部31、記録媒体91A及びキーデータ管理部10については、第10の実施形態と同様であり、説明を省略する。
なお、第10の実施形態における図31と同様、本実施形態においても、外部から取得した音声データについて記録及び処理を行う第1音声取得部23に代えて、記録媒体91Bに記録済みの音声データについて処理を行う第1音声取得部28を備えてもよい。
[第12の実施形態]
本発明の第12の実施形態に係る音声処理装置について図33に基づいて説明する。
本実施形態と第9の実施形態の異なる点は、第9の実施形態では、映像音声データを処理したが、本実施形態は音声データのみを処理する点である。
図33は、本実施形態の音声処理装置の構成を示すブロック図である。
図33に示す音声処理装置は、第1音声データ取得部23、第1支援データ生成部65、第1支援データ入力部66、キー指定情報生成部61、キー生成部31、キー関連データ取得部55、記録媒体91A及びキーデータ管理部10を備えている。
本実施形態と第10及び第11の実施形態の異なる点は、第1支援データ入力部66及び第1支援データ生成部65をともに有する点である。
第1支援データ生成部65は、第1音声データ取得部23において取得された音声データの変化点を検出して、支援データを生成する。例えば、無音区間を検出して、その開始、終了、中間点等で分割を行う。また、音声多重モードの切り替わりを検出して、モノラルモードの本編部分と、ステレオモードのCM部分との境界で分割を行うようにしてもよい。
第1支援データ入力部66は、第1支援データ生成部65において生成された支援データに基づきまたは加えて、第1コンテンツに関する支援データを入力し、記録媒体91Aに記録する。第1支援データ生成部65において生成された支援データは、入力画面上で基準値として表示したり、入力がない場合の初期値や規定値として採用したりするとよい。例えば、第1支援データ生成部65において分割されたCM部分に、CMの名前等のテキスト情報を入力する。
キー指定情報生成部61は、第1支援データ生成部65において生成され、または第1支援データ入力部において入力された支援データの時刻を基準として、第1音声データ取得部23から渡された音声データにおいて、検索キーとする区間を決定する。
キー関連データ取得部55は、キー指定情報生成部61において指定された映像音声データの区間に関連するキー関連データを取得する。キー関連データとして、記録媒体91Aに記録された支援データまたは第1支援データ入力部66において入力された支援データ或いは第1支援データ生成部65において生成された支援データがある。
第1音声データ取得部23、キー生成部31、記録媒体91A及びキーデータ管理部10については、第10の実施形態と同様であり、説明を省略する。
なお、第10の実施形態における図31と同様、本実施形態においても、外部から取得した音声データについて記録及び処理を行う第1音声取得部23に代えて、記録媒体91Bに記録済みの音声データについて処理を行う第1音声取得部28を備えてもよい。
[第13の実施形態]
本発明の第13の実施形態に係る映像音声処理装置について図34、図35、図36及び図37に基づいて説明する。
第7の実施形態に係る映像音声処理装置は、利用者が映像音声データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データであるメタデータを生成する場合に、メタデータの元となる検索キーとキー関連データよりなるキーデータを生成する装置である。そして、本実施形態の映像音声処理装置は、その機能に加えてキーデータに基づいて利用対象データである映像音声データに支援データであるメタデータを記録させる機能も有している。
本実施形態と第3の実施形態の異なる点は、検索キーとする区間を外部から指定するのではなく、第1の支援データの入力に基づいて決定する点である。
(1)映像音声処理装置の構成
図34は、本実施形態に係る映像音声処理装置の構成を示すものである。
図34に示す映像音声処理装置は、キー生成に係る構成要素として、第1映像データ取得部48、第1音声データ分離部25、第1支援データ入力部66、キー指定情報生成部61、キー生成部31、キー関連データ取得部55及び第1コンテンツを記録した記録媒体91Bを備えている。また、キー検索に係る構成要素として、第2映像データ取得部41、第2音声データ分離部22、キー照合部30、照合結果記録指示部35及び第2コンテンツを記録する記録媒体92Aを備えている。さらに、共通の構成要素として、キーデータ管理部10を備えている。
(2)キー生成に係る構成要素
本構成におけるキー生成に係る構成要素は、第7の実施形態の図24と同様のものであるが、図23に示す構成であっても構わない。
また、本実施形態におけるキー生成に係る構成要素は、第8の実施形態に記載した構成であっても構わない。この場合は、第1支援データ入力部66に代えて、第1支援データ生成部65を有する点で異なるものとなる。
さらに、本実施形態におけるキー生成に係る構成要素は、第9の実施形態に記載した構成であっても構わない。この場合は、第1支援データ入力部66及び第1支援データ生成部65をともに有する点で異なるものとなる。
(3)キー検索に係る構成要素
(3−1)キー検索に係る構成要素の第1の構成
図35は、本実施形態におけるキー検索に係る構成要素の第1の構成を示すブロック図である。
図35に示す構成要素は、第2映像データ取得部41、第2音声データ分離部22、キー照合部30、照合結果記録指示部35、第2コンテンツを記録する記録媒体92A及びキーデータ管理部10である。
図36は、本実施形態におけるキー検索に係る構成要素の第1の構成の別の例を示すブロック図である。
図36における第2映像データ取得部46は、外部から取得した映像音声データについて記録及び処理を行うのではなく、記録媒体92Bに記録済みの映像音声データについて処理を行う点が、図35における第2映像データ取得部41と異なる。
記録媒体92Bには、予め第2コンテンツの映像音声データまたは映像音声信号が記録されている。また、記録媒体92Bには、映像音声のタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関する情報が記録されている。
(3−2)キー検索に係る構成要素の第2の構成
図37は、本実施形態におけるキー検索に係る構成要素の第2の構成を示すブロック図である。
図37では、照合結果記録指示部35に代えて、照合結果表示制御部39を備える。
照合結果表示制御部39は、キー照合部30において検出されたキーデータをキーデータ管理部10より取得する。そして、このキーデータにおける検索キーの属性に応じて、メタデータとして図示せぬ表示装置に表示させる制御を行う。例えば、第2映像データを表示する表示装置上に、コーナータイトル等のテキスト情報や、分割位置からの時間情報、その他属性をあらわす図形や文字を表示させる。
なお、照合結果表示制御部39は、照合結果記録指示部35に置き換えまたは追加して備えることができる。第3及び第4の実施形態における照合結果記録指示部35に対しても同様に、置き換えまたは追加して備えることができる。表示装置は、映像データ表示とは別であってもよい。また、第2映像取得部41は、外部から取得した映像音声データについて記録せずに処理のみ行うものであってもよく、記録媒体92Aを備えなくてもよい。
(3−3)キー検索に係る構成要素の第3の構成
図38は、本実施形態におけるキー検索に係る構成要素の第3の構成を示すブロック図である。
図38では、図35に示す第1の構成に加えて、第2支援データ生成部62を備える。
第2支援データ生成部62は、映像データの変化点を検出して、第2支援データを生成する。例えば、映像のカットを検出し、分割する情報を生成する。音声データを併用したり、映像同士の類似度に基づく分割を行ってもよい。
照合結果記録指示部35は、第2支援データ生成部62で生成された第2支援データに加えて、第2コンテンツに関する支援データを生成し、記録媒体92Aに記録する。例えば、第2支援データ生成部62において分割された部分に、コーナーの名前等のテキスト情報を生成する。
図39は、本実施形態におけるキー検索に係る構成要素の第3の構成の別の例を示すブロック図である。
図39における第2映像データ取得部46は、外部から取得した映像音声データについて記録及び処理を行うのではなく、記録媒体92Bに記録済みの映像音声データについて処理を行う点が、図38における第2映像データ取得部41と異なる。
(3−4)キー検索に係る構成要素の第4の構成
図40は、本実施形態におけるキー検索に係る構成要素の第4の構成を示すブロック図である。
本構成と第1の構成の異なる点は、第1の構成では、映像音声データを処理したが、本実施形態は音声データのみを処理する点である。
図41は、第4の構成の別の例を示すブロック図である。
図41における第2音声データ取得部26は、外部から取得した音声データについて記録及び処理を行うのではなく、記録媒体92Bに記録済みの音声データについて処理を行う点が、図40における第2音声データ取得部21と異なる。
記録媒体92Bには、予め第2コンテンツの音声データまたは音声信号が記録されている。また、記録媒体92Bには、音声のタイトルやチャプタといった単位に分割するための情報や、それらの名前や属性等に関する情報が記録されている。
(3−5)キー検索に係る構成要素の第5の構成
図42は、本実施形態におけるキー検索に係る構成要素の第5の構成を示すブロック図である。
本構成と第2の構成の異なる点は、第2の構成では、映像音声データを処理したが、本実施形態は音声データのみを処理する点である。
[第14の実施形態]
本発明の第14の実施形態に係る映像音声処理装置について図43、図44及び図45に基づいて説明する。
第7の実施形態に係る映像音声処理装置は、利用者が映像音声データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データであるメタデータを生成する場合に、メタデータの元となる検索キーとキー関連データよりなるキーデータを生成する装置である。そして、本実施形態の映像音声処理装置は、その機能に加えてキーデータに基づいて利用対象データである映像音声データを選択的に取得して、支援データであるメタデータを記録させる機能も有している。
図43は、本発明に係る映像音声処理装置の第14の実施形態の構成を示すブロック図である。
本実施形態と第13の実施形態の異なる点は、データ取得制御部81を備えた点である。
(1)映像音声処理装置の構成
図43は、本実施形態に係る映像音声処理装置の構成を示すものである。
図43に示す映像音声処理装置は、キー生成に係る構成要素として、第1映像データ取得部48、第1音声データ分離部25、第1支援データ入力部66、キー指定情報生成部61、キー生成部31、キー関連データ取得部55及び第1コンテンツを記録した記録媒体91Bを備えている。また、キー検索に係る構成要素として、データ取得制御部81、第2映像データ取得部41、第2音声データ分離部22、キー照合部30、照合結果記録指示部35及び第2コンテンツを記録する記録媒体92Aを備えている。さらに、共通の構成要素として、キーデータ管理部10を備えている。
(2)キー生成に係る構成要素
本実施形態におけるキー生成に係る構成要素は、第7の実施形態の図24と同様のものを例示しているが、第13の実施形態の場合と同様に、第7乃至第9の実施形態に記載したいずれの構成であっても構わない。すなわち、第1支援データ入力部66に代えてまたは加えて第1支援データ生成部65を備えたり、記録媒体91Bに記録済みの映像音声データについて処理を行う第1映像取得部48に代えて、外部から取得した映像音声データについて記録媒体91Aに記録及び処理を行う第1映像取得部43を備えたりしてもよい。
また、第1の実施形態と同様のものとして、記録媒体91B、第1映像データ取得部48、映像データ指定部47、第1音声データ分離部25、キー生成部31、キー関連データ取得部55及びキーデータ管理部10を備えたものとしてもよい。記録媒体91Bに記録済みの映像音声データについて処理を行う第1映像取得部48に代えて、外部から取得した映像音声データについて記録媒体91Aに記録及び処理を行う第1映像取得部43を備えたりしてもよい。
(3)キー検索に係る構成要素
図44は、本実施形態におけるキー検索に係る構成要素を示すブロック図である。
図44に示す構成要素は、データ取得制御部81、第2映像データ取得部41、第2音声データ分離部22、キー照合部30、照合結果記録指示部35、第2コンテンツを記録する記録媒体92A及びキーデータ管理部10である。
データ取得制御部81は、第2映像データ取得部41において外部から取得するデータを、所定の条件を満たすもののみとする制御を行う。例えば、外部から取得するデータに関する番組の属性を電子番組表や番組メタデータに基づいて取得し、キー関連データ取得部55においてキー関連データとして取得された第1コンテンツの番組の属性と一致または部分一致する番組の映像音声データのみを取得するようにする。予め所定の条件を満たす番組を指定または検索しておき、番組放送時に自動でチャンネル設定して受信し、自動処理されるように(予約)してもよい。
番組の属性に関する条件として、番組タイトル、ジャンル、放送日時(曜日、時刻、日付)、放送チャンネル(放送局)、制作元、番組グループ(番組シリーズ、派生元番組)等の一致または部分一致する番組の映像音声データのみを取得するようにする。これにより、無関係な映像音声データに対して処理を行うことで負荷が増大したり、誤って支援データを生成したりすることを避けることができる。
図45は、本実施形態におけるキー検索に係る構成要素の別の例を示すブロック図である。
図45における第2映像データ取得部46は、外部から取得した映像音声データについて記録及び処理を行うのではなく、記録媒体92Bに記録済みの映像音声データについて処理を行う点が、図44における第2映像データ取得部41と異なる。
データ取得制御部86は、第2映像データ取得部46において取得するデータを、記録済みのうち所定の条件を満たすもののみとする制御を行う。例えば、記録済みの映像データに関する番組の属性を番組メタデータを含む支援データに基づいて取得し、キー関連データ取得部55においてキー関連データとして取得された第1コンテンツの番組の属性と一致または部分一致する番組の映像音声データのみを取得するようにする。
キー関連データ取得部55は、キー指定情報生成部61において指定された映像音声データの区間に関連するキー関連データを取得する。キー関連データとして、記録媒体91Bに記録された支援データまたは第1支援データ入力部66において入力された支援データがある。これらの第1支援データには、放送や外部から提供される電子番組表や番組メタデータから取得した、第1コンテンツの番組に関する情報、例えば番組の属性として、番組タイトル、ジャンル、放送日時(曜日、時刻、日付)、放送チャンネル(放送局)、制作元、番組グループ(番組シリーズ、派生元番組)等が含まれていてもよい。
(5)映像音声処理装置における処理
次に、本実施形態に係る映像音声処理装置における処理について、図46〜図50に基づいて説明する。
図46は、本実施形態における処理を示すフローチャートである。
第1支援データ入力部66において視聴支援情報を設定する「視聴支援情報設定」(ステップS301)。
キー指定情報生成部61においてキー区間を決定する「キー区間決定」(ステップS311)。
キー生成部31においてキーを生成する「キー生成」(ステップS321)。
キー関連データ取得部55において関連情報を取得する「関連情報取得」(ステップS331)。
データ取得制御部81において検索予約またはデータ取得制御部86等において実行する「検索予約または実行」(ステップS341)。
図47は、本実施形態の別の構成における処理を示すフローチャートである。
第1支援データ生成部65において視聴支援情報を生成する「視聴支援情報生成」(ステップS351)。
キー指定情報生成部61においてキー区間を決定する「キー区間決定」(ステップS361)。
キー生成部31においてキーを生成する「キー生成」(ステップS371)。
キー関連データ取得部55において関連情報を取得する「関連情報取得」(ステップS381)。
データ取得制御部81において検索予約またはデータ取得制御部86等において実行する「検索予約または実行」(ステップS391)。
次に、図46のステップS341及び図47のS391の「検索予約または実行」の処理を、図48〜図50に基づいて説明する。
図48は、本実施形態におけるデータ取得制御部81の処理を示すフローチャートである。
電子番組表(EPG)より、これから取得可能となる中から所定の条件を満たす番組を検索し、それぞれについて処理を実行するループ「EPG番組検索」(ステップS401〜ステップS421)。
各々、録画予約を行うとともに、録画時にキー検索を行うためのキーを設定する「録画予約キー設定」(ステップS411)。
図49は、本実施形態におけるデータ取得制御部81の別の処理を示すフローチャートである。
録画予約を管理する録画予約リストより、すでに録画予約されている中から所定の条件を満たす番組を検索し、それぞれについて処理を実行するループ「予約済み番組検索」(ステップS431〜ステップS451)。
各々、録画時にキー検索を行うためのキーを、録画予約と関連付けて設定する「キー設定」(ステップS441)。
図50は、本実施形態の別の構成におけるデータ取得制御部86等の処理を示すフローチャートである。
データ取得制御部86及び第2映像データ取得部46において、記録媒体92Bにおける録画済み番組の中から所定の条件を満たす番組を検索して取得し、それぞれについて処理を実行するループ「録画済み番組検索」(ステップS461〜S491)。
各々、キー照合部30において、検索キーとの照合を実行する「キー照合」(ステップS471)。
照合結果記録指示部35において、キー照合結果に基づいて第2支援データを生成する「視聴支援情報生成」(ステップS481)。
(6)映像音声処理装置における処理の具体例
続いて、本実施形態に係る映像音声処理装置における処理の具体例について、図51に基づいて説明する。
図51は、支援データとしてチャプタ(チャプタ分割とチャプタ名設定)を扱う場合の例を説明する図である。第1コンテンツ(番組1−1)及び第2コンテンツ(番組1−2)は30分番組で、左が番組始端(時刻0:00:00.00)、右が番組終端(時刻0:30:00.00)となる時間との対応を表している。
(a)第1支援データ入力部66における第1支援データ入力の例。第1コンテンツに対して第1支援データとしてチャプタ分割とチャプタ名設定を行う。
(b1)キー指定情報生成部61におけるキー区間決定の例(チャプタ分割点1)。
「分割点の前後いずれかで一定時間長の音響キー」X1及びY1。一定時間は、例えば数秒でよいが、音楽の4小節程度に相当する8秒、CM等の単位に相当する15秒等であってもよい。照合時に部分一致等で救済されるのであれば、それ以上の長時間でも構わない。また、区切り前の音の減衰やフェードアウト等の効果、無音の長さ等の傾向を考慮して、例えばチャプタ分割点の前方X1を10秒、後方Y1を5秒等のように、前後で異なる時間長としてもよい。いずれにしても、X1の終端及びY1の始端にチャプタ分割点があるので、それぞれのキー関連情報として管理する。
支援データの入力において、区間を指定してチャプタ名を入力する場合など、境界の前後いずれが注目されているかが識別可能な場合は、注目されている側のキー(Y1)のみを使用してもよい。また、前後の音響的特徴を分析し、例えばチャプタ分割点付近の無音を挟んで、前方に音声、後方に音楽がある場合、音楽の側(Y1)のみを使用するようにしてもよい。
「近傍の音楽部分の音響キー」Z1。チャプタ分割点に(数秒の範囲で)最も近い(一定時間以上の)音楽部分を検索し、音楽部分境界から一定時間をキーとする。例えば、チャプタ分割点の後方2秒の点から4秒間をキーとする。この場合、Z1の始端から前方2秒にチャプタ分割点があるので、キー関連情報として管理する。
ここで、さらに関連するキー相互の情報をキー関連情報として管理することもできる。例えば、同一のチャプタ分割点に関連するX1、Y1、Z1があるので、各キーを識別する情報や単に3つのキーがあるという情報を管理する。
(b2)キー指定情報生成部61におけるキー区間決定の例(チャプタ分割点2)。
「分割点の前後いずれかで一定時間長の音響キー」X2及びY2。なお、決定された区間の音に基づいて、キーを選別してもよい。例えば、音の大きさや音楽の含有を判定して、大きい音を含んでいないもの、音楽を含んでいないもの等をキーから除外してもよい。
「分割点をまたいだ効果音部分の音響キー」Z2。チャプタ分割点付近が音楽(効果音)部分になっているとき、チャプタ分割点の前後(数秒の範囲)の音楽部分の境界を検索し、その間をキーとする。また、チャプタ分割点の前方の境界を検索して、そこから一定時間をきーとしてもよい。例えば、チャプタ分割点の前方1秒の点から2秒間をキーとする。
ここで、さらに関連するキー相互の情報をキー関連情報として管理することもできる。例えば、同一のチャプタ名設定に関連するX1、Y1、Z1、X2、Y2、Z2があるので、各キーを識別する情報や単に6つのキーがあるという情報を管理する。
また、図51に対する別の説明として、図26または図27あるいは図29の構成で、(a)第1支援データ生成部65において映像特徴に基づくチャプタ分割が行われる。さらに第1支援データ入力部66においてチャプタ名設定を行ってもよい。映像特徴に基づくチャプタ分割については、(b)を参照する。画像特徴で画面の切り替わり(カット)の検出により、ショットA1とショットB1、ショットA2とショットB2のそれぞれの境界でチャプタ分割されている。音響特徴の無音を合わせて判定してもよい。
(c)照合結果記録指示部35。第2コンテンツに対して、キーY1、Z1、X2、Z2が検出されたとする。それぞれのキー関連情報に基づいて、第2支援データとしてチャプタ分割とチャプタ名設定が行われる。例えば、キーZ1の始端から前方2秒またはキーY1の始端にチャプタ分割、キーZ2の始端から後方1秒またはキーX2の終端にチャプタ分割、その間のチャプタ名設定が行われる。
複数のキーが検出された場合は、照合のスコアや予めキーに設定した優先度等に基づいて選択したり、多数決で決定したりしてもよい。例えば、キー関連情報として、チャプタ分割点1に関連するキーX1、Y1、Z1の3つが管理されている場合、これらの過半数となる2つが検出されたことにより、チャプタ分割を実行するようにしてもよい。また、チャプタ名設定に関するキーX1、Y1、Z1、X2、Y2、Z2の6つが管理されている場合、これらの過半数となる4つが検出されたことにより、チャプタ名設定を実行するようにしてもよい。
支援データの別の例として、「チャプタ名設定」に代えて「プレイリスト」。予め分割されたチャプタの1つを選択して、新規のプレイリストを作成または既存のプレイリストに追加するとする。チャプタに関連するキーが生成され、キー関連情報としてプレイリストが管理される。照合結果記録指示部35では、キーが検出されると、キー関連情報に基づいてチャプタ分割に加えてプレイリストへの追加が行われる。例えば、番組中のあるコーナー部分のチャプタをプレイリストにした場合、毎回の放送から同コーナーがチャプタ分割されてプレイリストに追加されていく、という機能が実現される。
[変更例]
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
例えば、上記各実施形態では、支援データとしてメタデータを用いたが、再生、編集、検索が支援できる情報であれば、他のデータ形式でもよい。
本発明は、例えば、HDD(ハードディスク)レコーダー、DVDレコーダー、パソコン、HDD内蔵型音楽再生装置に好適である。
本発明に係る映像音声処理装置の第1の実施形態の構成を示すブロック図である。 第1の実施形態のキーデータ管理部10において、検索キーと共に管理されている情報の例を示す表である。 第1の実施形態において、属性に対応付けて規定されている動作の例を示す表である。 第1の実施形態のキー関連データ取得部55において、「BGM属性1」またはこれに相当する属性情報が設定される例を示す模式図である。 第1の実施形態のキー関連データ取得部55において、「オープニング音楽属性1」またはこれに相当する属性情報が設定される例を示す模式図である。 第1の実施形態のキー関連データ取得部55において、「コーナー音楽属性1」またはこれに相当する属性情報が設定される例を示す模式図である。 第1の実施形態のキー関連データ取得部55において、「競技開始イベント属性1」またはこれに相当する属性情報が設定される例を示す模式図である。 第1の実施形態のキー関連データ取得部55における処理の流れを示すフローチャートである。 図8のステップS131におけるキーの属性設定処理における詳細な処理の流れを示すフローチャートである。 本発明に係る音声処理装置の第2の実施形態の構成を示すブロック図である。 第2の実施形態のキーデータ管理部10において、検索キーと共に管理されている情報の例を示す表である。 第2の実施形態において、属性に対応付けて規定されている動作の例を示す表である。 本発明に係る映像音声処理装置の第3の実施形態の構成を示すブロック図である。 第3の実施形態の照合結果記録指示部35において、「BGM属性1」の規定の動作に従って記録された情報の例を示す模式図である。 第3の実施形態の照合結果記録指示部35において、「オープニング音楽属性1」の規定の動作に従って記録された情報の例を示す模式図である。 第3の実施形態の照合結果記録指示部35において、「コーナー音楽属性1」の規定の動作に従って記録された情報の例を示す模式図である。 第3の実施形態の照合結果記録指示部35において、「競技開始イベント属性1」の規定の動作に従って記録された情報の例を示す模式図である。 本発明に係る音声処理装置の第4の実施形態の構成を示すブロック図である。 本発明に係る映像音声処理装置の第5の実施形態の構成を示すブロック図である。 本発明に係る音声処理装置の第6の実施形態の構成を示すブロック図である。 キー照合部において検索キーAが検出されたときに、照合結果記録指示部によって記録媒体に記録されるメタデータの例を示す図である。 キー照合部において検索キーBが検出されたときに、照合結果記録指示部によって記録媒体に記録されるメタデータの例を示す図である。 本発明に係る映像音声処理装置の第7の実施形態の構成を示すブロック図である。 第7の実施形態の別の構成を示すブロック図である。 本発明に係る映像音声処理装置の第8の実施形態の構成を示すブロック図である。 第8の実施形態の映像音声処理装置の第2の構成を示すブロック図である。 第8の実施形態の映像音声処理装置の第3の構成を示すブロック図である。 本発明に係る映像音声処理装置の第9の実施形態の構成を示すブロック図である。 第9の実施形態の別の構成を示すブロック図である。 本発明に係る音声処理装置の第10の実施形態の構成を示すブロック図である。 第10の実施形態の別の構成を示すブロック図である。 本発明に係る音声処理装置の第11の実施形態の構成を示すブロック図である。 本発明に係る音声処理装置の第12の実施形態の構成を示すブロック図である。 本発明に係る映像音声処理装置の第13の実施形態の構成を示すブロック図である。 第13の実施形態におけるキー検索に係る構成要素の第1の構成を示すブロック図である。 第13の実施形態におけるキー検索に係る構成要素の第1の構成の別の例を示すブロック図である。 第13の実施形態におけるキー検索に係る構成要素の第2の構成を示すブロック図である。 第13の実施形態におけるキー検索に係る構成要素の第3の構成を示すブロック図である。 第13の実施形態におけるキー検索に係る構成要素の第3の構成の別の例を示すブロック図である。 第13の実施形態におけるキー検索に係る構成要素の第4の構成を示すブロック図である。 第13の実施形態におけるキー検索に係る構成要素の第4の構成の別の例を示すブロック図である。 第13の実施形態におけるキー検索に係る構成要素の第5の構成を示すブロック図である。 本発明に係る映像音声処理装置の第14の実施形態の構成を示すブロック図である。 第14の実施形態におけるキー検索に係る構成要素を示すブロック図である。 第14の実施形態におけるキー検索に係る構成要素の別の例を示すブロック図である。 第14の実施形態における処理を示すフローチャートである。 第14の実施形態の別の構成における処理を示すフローチャートである。 図46のステップS341及び図47のS391の「検索予約または実行」に係るデータ取得制御部81の処理を示すフローチャートである。 図46のステップS341及び図47のS391の「検索予約または実行」に係るデータ取得制御部81の別の処理を示すフローチャートである。 第14の実施形態の別の構成におけるデータ取得制御部86等の処理を示すフローチャートである。 第14の実施形態において、支援データとしてチャプタ(チャプタ分割とチャプタ名設定)を扱う場合の例を説明する図である。
符号の説明
10 キーデータ管理部
21 第2音声データ取得部
22 第2音声データ分離部
23 第1音声データ取得部
25 第1音声データ分離部
26 第2音声データ取得部
27 音声データ指定部
28 第1音声データ取得部
30 キー照合部
31 キー生成部
35 照合結果記録指示部
39 照合結果表示制御部
41 第2映像データ取得部
43 第1映像データ取得部
46 第2映像データ取得部
47 映像データ指定部
48 第1映像データ取得部
55 キー関連データ取得部
61 キー指定情報生成部
62 第2支援データ生成部
65 第1支援データ生成部
66 第1支援データ入力部
81 データ取得制御部
86 データ取得制御部
90 記録媒体
91 記録媒体(第1コンテンツ)
92 記録媒体(第2コンテンツ)

Claims (36)

  1. 利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理装置において、
    前記支援データを生成するためのキー音声データを取得するキー音声データ取得部と、
    前記キー音声データの全部または一部区間を指定するためのキー指定情報を入力するキー指定情報入力部と、
    前記キー指定情報に基づいて、前記キー音声データの全部または一部区間を切り出して音声パターンデータを検索キーとして生成するキー生成部と、
    前記キー指定情報によって指定されたキー音声データの区間に関連するキー関連データを取得するキー関連データ取得部と、
    前記音声パターンデータと前記キー関連データとを含むキーデータの中の前記音声パターンデータと、前記利用対象データとを照合して支援データを生成して記録媒体に記録する支援データ生成部と、
    を具備することを特徴とする情報処理装置。
  2. 前記支援データ生成部は、
    前記利用対象データから音声データのみを利用対象音声データとして取得する音声データ取得部と、
    前記音声パターンデータに前記キー関連データを付加してキーデータとして記録するキーデータ管理部と、
    前記利用対象音声データと前記音声パターンデータとを比較し、前記利用対象データの中でどの位置、または、区間が前記音声パターンデータに該当するかを検出し、該当した前記利用対象音声データにおける前記位置、または、前記区間を表す照合結果情報を出力するキー照合部と、
    前記出力された照合結果情報を前記支援データとして前記記録媒体に記録させる照合結果記録指示部と、
    を具備することを特徴とする請求項1記載の情報処理装置。
  3. 前記利用対象データが映像音声データであり、
    前記音声データ取得部は、前記利用対象データから音声データを分離して、この音声データを利用対象音声データとして取得する
    ことを特徴とする請求項2記載の情報処理装置。
  4. 前記キーデータの中の前記キー関連データは、前記再生、編集、検索時の動作に関連する動作属性情報を含み、
    前記照合結果記録指示部は、前記照合結果情報と前記動作属性情報に従って前記記録媒体に前記支援データを記録する
    ことを特徴とする請求項2または3記載の情報処理装置。
  5. 前記キー指定情報を基準として、前記キー音声データにおけるマーカ位置または分割位置を検索するキーデータ検索部をさらに具備し、
    前記キー関連データ取得部は、前記キーデータ検索部において検索されたマーカまたは分割の情報をキー関連データとして取得する
    ことを特徴とする請求項4記載の情報処理装置。
  6. 前記キーデータ検索部は、前記キー指定情報において指定された範囲に一致するマーカ範囲または分割単位を検索し、マーカまたは分割の情報として取得する
    ことを特徴とする請求項5記載の情報処理装置。
  7. 前記キーデータ検索部は、前記キー指定情報において指定された範囲の始端または終端のいずれか一方に一致するマーカ位置または分割位置を検索し、前記マーカ位置、前記マーカ位置を含むマーカ範囲、前記分割位置、前記分割位置を含む分割単位のいずれかをマーカまたは分割の情報として取得する
    ことを特徴とする請求項5記載の情報処理装置。
  8. 前記キーデータ検索部は、前記キー指定情報において指定された範囲の始端または終端のいずれか一方に近接するマーカ位置または分割位置を検索し、前記マーカ位置、前記マーカ位置を含むマーカ範囲、前記分割位置、前記分割位置を含む分割単位のいずれかをマーカまたは分割の情報として取得する
    ことを特徴とする請求項5記載の情報処理装置。
  9. 前記キー関連データ取得部は、前記キーデータ検索部において検索されたマーカまたは分割の位置情報と前記キー指定情報において指定された範囲との位置関係に基づいて、前記照合時の動作を指定する動作属性情報を生成する
    ことを特徴とする請求項5から8のいずれか一項に記載の情報処理装置。
  10. 前記キー関連データ取得部は、前記キーデータ検索部において検索されたマーカの位置情報と前記キー指定情報において指定された範囲との位置関係に基づいて、前記照合結果情報において検出された区間を基準とした記録位置の決定方法を規定する動作属性情報を生成し、
    前記照合結果記録指示部は、前記照合結果情報と前記動作属性情報に従って、前記利用対象データ中の位置を決定し、前記決定された位置に前記マーカを支援データとして記録する
    ことを特徴とする請求項5から8のいずれか一項に記載の情報処理装置。
  11. 前記キー関連データ取得部は、前記キーデータ検索部において検索された分割の位置情報と前記キー指定情報において指定された範囲との位置関係に基づいて、前記照合結果情報において検出された区間を基準とした記録位置の決定方法を規定する動作属性情報を生成し、
    前記照合結果記録指示部は、前記照合結果情報と前記動作属性情報に従って、前記利用対象データ中の位置を決定し、前記決定された位置で前記利用対象データを分割するという情報を支援データとして記録する
    ことを特徴とする請求項5から8のいずれか一項に記載の情報処理装置。
  12. 前記キー関連データ取得部は、前記照合結果情報に関連するテキスト情報の生成方法を規定する動作属性情報を生成し、
    前記照合結果記録指示部は、前記照合結果情報と前記動作属性情報に従って、前記照合結果情報に関連するテキスト情報を生成し、前記記録された各マーカまたは前記分割部分と関連付けて、前記生成されたテキスト情報を支援データとして記録する
    ことを特徴とする請求項10または11記載の情報処理装置。
  13. 前記キーデータは、前記キーデータに関連するテキスト情報を含み、
    前記照合結果記録指示部は、前記規定されたテキスト情報の生成方法に従って、前記キーデータに関連するテキスト情報に基づいて前記照合結果情報に関連するテキスト情報を生成する
    ことを特徴とする請求項12記載の情報処理装置。
  14. 前記キー関連データ取得部は、前記キーデータ検索部において検索されたマーカまたは分割の情報に関連するテキスト情報を取得し、
    前記照合結果記録指示部は、前記規定されたテキスト情報の生成方法に従って、前記マーカまたは分割の情報に関連するテキスト情報に基づいて前記照合結果情報に関連するテキスト情報を生成し、前記記録された各マーカまたは前記分割された各部分と関連付けて、前記生成されたテキスト情報を支援データとして記録する
    ことを特徴とする請求項12記載の情報処理装置。
  15. 前記キーデータは、前記キーデータに関連するテキスト情報を含み、
    前記照合結果記録指示部は、予め規定されたテキスト情報の生成方法に従って、前記キーデータに関連するテキスト情報に基づいて前記照合結果情報に関連するテキスト情報を生成し、
    前記照合結果情報に関連するテキスト情報を支援データとして記録する
    ことを特徴とする請求項2または3に記載の情報処理装置。
  16. 前記キー関連データ取得部は、前記キー指定情報に基づいて、前記キー音声データに関連するタイトル情報を取得し、
    前記照合結果記録指示部は、前記照合結果情報に含まれる一連の利用対象データ全体に関連するタイトル情報を支援データとして記録する
    ことを特徴とする請求項15記載の情報処理装置。
  17. 前記支援データが、メタデータである
    ことを特徴とする請求項1から16のいずれか一項に記載の情報処理装置。
  18. 利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理方法において、
    前記支援データを生成するためのキー音声データを取得し、
    前記キー音声データの全部または一部区間を指定するためのキー指定情報を入力し、
    前記キー指定情報に基づいて、前記キー音声データの全部または一部区間を切り出して音声パターンデータを検索キーとして生成し、
    前記キー指定情報によって指定されたキー音声データの区間に関連するキー関連データを取得し、
    前記音声パターンデータと前記キー関連データとを含むキーデータの中の前記音声パターンデータと、前記利用対象データとを照合して支援データを生成して記録媒体に記録する
    ことを特徴とする情報処理方法。
  19. 利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データをコンピュータに生成を実現させるための情報処理プログラムにおいて、
    前記コンピュータに、
    前記支援データを生成するためのキー音声データを取得するキー音声データ取得機能と、
    前記キー音声データの全部または一部区間を指定するためのキー指定情報を入力するキー指定情報入力機能と、
    前記キー指定情報に基づいて、前記キー音声データの全部または一部区間を切り出して音声パターンデータを検索キーとして生成するキー生成機能と、
    前記キー指定情報によって指定されたキー音声データの区間に関連するキー関連データを取得するキー関連データ取得機能と、
    前記音声パターンデータと前記キー関連データとを含むキーデータの中の前記音声パターンデータと、前記利用対象データとを照合して支援データを生成して記録媒体に記録する支援データ生成機能と、
    を実現させるための情報処理プログラム。
  20. 利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理装置において、
    第1の利用対象データに関する第1の支援データを入力する第1支援データ入力部と、
    前記第1の支援データに関連するキー音声データを取得するキー音声データ取得部と、
    前記入力された第1の支援データに基づいて前記キー音声データの一部区間を選択するキー指定情報を生成するキー指定情報生成部と、
    前記キー指定情報に基づいて、前記キー音声データの一部区間を切り出して音声パターンデータを検索キーとして生成するキー生成部と、
    前記キー指定情報によって指定されたキー音声データの区間に関連するキー関連データを取得するキー関連データ取得部と、
    前記音声パターンデータと前記キー関連データとを含むキーデータの中の前記音声パターンデータと、前記利用対象データとを照合して第2の支援データを生成して記録媒体に記録する第2支援データ生成部と、
    を具備することを特徴とする情報処理装置。
  21. 利用者が映像音声データ、または、音声データのみからなる利用対象データを再生、編集、または、検索するときに、前記利用者が希望する動作で再生、編集、検索ができるように支援する支援データを生成する情報処理装置において、
    第1の支援データを生成するためのキー音声データを取得するキー音声データ取得部と、
    前記キー音声データの変化点を検出し、前記第1の支援データを生成する第1支援データ生成部と、
    前記生成された第1の支援データに基づいて前記キー音声データの一部区間を選択するキー指定情報を生成するキー指定情報生成部と、
    前記キー指定情報に基づいて、前記キー音声データの一部区間を切り出して音声パターンデータを検索キーとして生成するキー生成部と、
    前記キー指定情報によって指定されたキー音声データの区間に関連するキー関連データを取得するキー関連データ取得部と、
    前記音声パターンデータと前記キー関連データとを含むキーデータの中の前記音声パターンデータと、前記利用対象データとを照合して第2の支援データを生成して記録媒体に記録する第2支援データ生成部と、
    を具備することを特徴とする情報処理装置。
  22. 前記第2支援データ生成部は、
    前記利用対象データから音声データのみを利用対象音声データとして取得する音声データ取得部と、
    前記音声パターンデータに前記キー関連データを付加してキーデータとして記録するキーデータ管理部と、
    前記利用対象音声データと前記音声パターンデータとを比較し、前記利用対象データの中でどの位置、または、区間が前記音声パターンデータに該当するかを検出し、該当した前記利用対象音声データにおける前記位置、または、前記区間を表す照合結果情報を出力するキー照合部と、
    前記出力された照合結果情報を前記第2の支援データとして前記記録媒体に記録させる照合結果記録指示部と、
    を具備することを特徴とする請求項20または21記載の情報処理装置。
  23. 前記利用対象データが映像音声データであり、
    前記音声データ取得部は、前記利用対象データから音声データを分離して、この音声データを利用対象音声データとして取得する
    ことを特徴とする請求項22記載の情報処理装置。
  24. 前記キーデータの中の前記キー関連データは、前記再生、編集、検索時の動作に関連する動作属性情報を含み、
    前記照合結果記録指示部は、前記照合結果情報と前記動作属性情報に従って前記記録媒体に前記支援データを記録する
    ことを特徴とする請求項22または23記載の情報処理装置。
  25. 前記キー指定情報を基準として、前記キー音声データにおけるマーカ位置または分割位置を検索するキーデータ検索部をさらに具備し、
    前記キー関連データ取得部は、前記キーデータ検索部において検索されたマーカまたは分割の情報をキー関連データとして取得する
    ことを特徴とする請求項24記載の情報処理装置。
  26. 前記第1の支援データは、マーカまたは分割の情報であり、
    前記キー関連データ取得部は、前記第1の支援データにおけるマーカまたは分割の情報をキー関連データとして取得する
    ことを特徴とする請求項24記載の情報処理装置。
  27. 前記キー指定情報生成部は、前記第1の支援データにおけるマーカ範囲または分割単位に一致する範囲をキー指定情報として生成する
    ことを特徴とする請求項26記載の情報処理装置。
  28. 前記キー指定情報生成部は、
    前記第1の支援データにおけるマーカ位置、分割位置、マーカ範囲の始端、マーカ範囲の終端、分割単位の始端、分割単位の終端のいずれかを第1の端点とし、
    予め指定された方法により、前記第1の端点の前後いずれか側の第2の端点を決定し、
    前記第1の端点と前記第2の端点の間の範囲をキー指定情報として生成する
    ことを特徴とする請求項26記載の情報処理装置。
  29. 前記キー指定情報生成部は、
    予め指定された第1の方法により、前記第1の支援データにおけるマーカ位置、分割位置、マーカ範囲の始端、マーカ範囲の終端、分割単位の始端、分割単位の終端のいずれかに近接する第1の端点を決定し、
    予め指定された第2の方法により、前記第1の端点の前後いずれか側の第2の端点を決定し、
    前記第1の端点と前記第2の端点の間の範囲をキー指定情報として生成する
    ことを特徴とする請求項26記載の情報処理装置。
  30. 前記キー関連データ取得部は、前記第1の支援データにおけるマーカまたは分割の位置情報と前記キー指定情報において指定された範囲との位置関係に基づいて、前記照合時の動作を指定する動作属性情報を生成する
    ことを特徴とする請求項26から29のいずれか一項に記載の情報処理装置。
  31. 前記キー関連データ取得部は、前記第1の支援データにおけるマーカの位置情報と前記キー指定情報において指定された範囲との位置関係に基づいて、前記照合結果情報において検出された区間を基準とした記録位置の決定方法を規定する動作属性情報を生成し、
    前記照合結果記録指示部は、前記照合結果情報と前記動作属性情報に従って、前記利用対象データ中の位置を決定し、前記決定された位置に前記マーカを第2支援データとして記録する
    ことを特徴とする請求項26から29のいずれか一項に記載の情報処理装置。
  32. 前記キー関連データ取得部は、前記第1の支援データにおける分割の位置情報と前記キー指定情報において指定された範囲との位置関係に基づいて、前記照合結果情報において検出された区間を基準とした記録位置の決定方法を規定する動作属性情報を生成し、
    前記照合結果記録指示部は、前記照合結果情報と前記動作属性情報に従って、前記利用対象データ中の位置を決定し、前記決定された位置で前記利用対象データを分割するという情報を第2支援データとして記録する
    ことを特徴とする請求項26から29のいずれか一項に記載の情報処理装置。
  33. 前記キー関連データ取得部は、前記照合結果情報に関連するテキスト情報の生成方法を規定する動作属性情報を生成し、
    前記照合結果記録指示部は、前記照合結果情報と前記動作属性情報に従って、前記照合結果情報に関連するテキスト情報を生成し、前記記録された各マーカまたは前記分割部分と関連付けて、前記生成されたテキスト情報を支援データとして記録する
    ことを特徴とする請求項31または32記載の情報処理装置。
  34. 前記キー関連データ取得部は、前記第1の支援データにおけるマーカまたは分割の情報に関連するテキスト情報を取得し、
    前記照合結果記録指示部は、前記規定されたテキスト情報の生成方法に従って、前記マーカまたは分割の情報に関連するテキスト情報に基づいて前記照合結果情報に関連するテキスト情報を生成し、前記記録された各マーカまたは前記分割された各部分と関連付けて、前記生成されたテキスト情報を第2支援データとして記録する
    ことを特徴とする請求項33記載の情報処理装置。
  35. 前記キーデータは、前記キーデータに関連するテキスト情報を含み、
    前記照合結果記録指示部は、予め規定されたテキスト情報の生成方法に従って、前記キーデータに関連するテキスト情報に基づいて前記照合結果に関連するテキスト情報を生成し、
    前記照合結果情報に関連するテキスト情報を支援データとして記録する
    ことを特徴とする請求項22または23記載の情報処理装置。
  36. 前記キー関連データ取得部は、前記キー指定情報に基づいて、前記キー音声データに関連するタイトル情報を取得し、
    前記照合結果記録指示部は、前記照合結果情報に含まれる一連の利用対象データ全体に関連するタイトル情報を支援データとして記録する
    ことを特徴とする請求項35記載の情報処理装置。
JP2006058751A 2005-03-30 2006-03-03 情報処理装置及びその方法 Expired - Fee Related JP4459179B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006058751A JP4459179B2 (ja) 2005-03-30 2006-03-03 情報処理装置及びその方法
US11/391,389 US8019163B2 (en) 2005-03-30 2006-03-29 Information processing apparatus and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005100176 2005-03-30
JP2006058751A JP4459179B2 (ja) 2005-03-30 2006-03-03 情報処理装置及びその方法

Publications (2)

Publication Number Publication Date
JP2006309923A JP2006309923A (ja) 2006-11-09
JP4459179B2 true JP4459179B2 (ja) 2010-04-28

Family

ID=37186718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006058751A Expired - Fee Related JP4459179B2 (ja) 2005-03-30 2006-03-03 情報処理装置及びその方法

Country Status (2)

Country Link
US (1) US8019163B2 (ja)
JP (1) JP4459179B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070223793A1 (en) * 2006-01-19 2007-09-27 Abraham Gutman Systems and methods for providing diagnostic imaging studies to remote users
JP4224095B2 (ja) * 2006-09-28 2009-02-12 株式会社東芝 情報処理装置、情報処理プログラムおよび情報処理システム
EP1975938A1 (en) * 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method for determining a point in time within an audio signal
US20090049186A1 (en) * 2007-08-16 2009-02-19 Sony Corporation, A Japanese Corporation Method to facilitate trick-modes for streaming video
JP4934580B2 (ja) * 2007-12-17 2012-05-16 株式会社日立製作所 映像音声記録装置および映像音声再生装置
JP5231130B2 (ja) * 2008-08-13 2013-07-10 日本放送協会 キーフレーズ抽出装置、シーン分割装置およびプログラム
JP4924633B2 (ja) * 2009-02-27 2012-04-25 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9940972B2 (en) * 2013-08-15 2018-04-10 Cellular South, Inc. Video to data
CN106357929A (zh) * 2016-11-10 2017-01-25 努比亚技术有限公司 一种基于语音文件的预览方法和移动终端
US11238869B2 (en) * 2019-10-04 2022-02-01 Red Box Recorders Limited System and method for reconstructing metadata from audio outputs

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249343A (ja) 1995-03-09 1996-09-27 Toshiba Corp 音声情報取得装置及び音声情報取得方法
US6472520B2 (en) * 1997-03-21 2002-10-29 The Trustees Of Columbia University In The City Of New York Rat PEG-3 promoter
WO1999046939A1 (en) * 1998-03-13 1999-09-16 Matsushita Electric Industrial Co., Ltd. Data storage medium, and apparatus and method for reproducing the data from the same
JP3065314B1 (ja) 1998-06-01 2000-07-17 日本電信電話株式会社 高速信号探索方法、装置およびその記録媒体
IL133647A0 (en) * 1999-06-08 2001-04-30 Yissum Res Dev Co Novel cd44 variant
AU4264501A (en) * 2000-04-05 2001-10-15 Sony United Kingdom Limited Audio/video reproducing apparatus and method
US7280738B2 (en) * 2001-04-09 2007-10-09 International Business Machines Corporation Method and system for specifying a selection of content segments stored in different formats
JP2003036653A (ja) 2002-04-26 2003-02-07 Toshiba Corp デジタル情報記録再生システムおよびデジタル情報記録媒体
JP4079429B2 (ja) * 2003-06-11 2008-04-23 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
WO2005029492A1 (ja) * 2003-09-18 2005-03-31 Matsushita Electric Industrial Co., Ltd. 記録再生装置および記録媒体
EP1542231A1 (en) * 2003-12-08 2005-06-15 Canon Kabushiki Kaisha Recording apparatus and recording method capable of recording series of content data on different recording media

Also Published As

Publication number Publication date
US20060239130A1 (en) 2006-10-26
JP2006309923A (ja) 2006-11-09
US8019163B2 (en) 2011-09-13

Similar Documents

Publication Publication Date Title
JP4459179B2 (ja) 情報処理装置及びその方法
JP4621607B2 (ja) 情報処理装置及びその方法
JP4224095B2 (ja) 情報処理装置、情報処理プログラムおよび情報処理システム
KR101001178B1 (ko) 비디오 재생 디바이스, 이 비디오 재생 디바이스에 있는 장치, 뮤직 비디오 인덱싱 방법 및 컴퓨터-실행가능 명령을 저장한 컴퓨터-판독가능 저장 매체
JP4000171B2 (ja) 再生装置
KR101606657B1 (ko) 비디오 스트림들 및 다른 콘텐츠의 키워드-기반의 비선형 네비게이션을 위한 방법들 및 장치
JP4692775B2 (ja) 映像コンテンツ再生支援方法、映像コンテンツ再生支援システム、及び情報配信プログラム
US20110320471A1 (en) Movie Recommendation System and Movie Recommendation Method
JPWO2005069172A1 (ja) 要約再生装置および要約再生方法
JPH11238071A (ja) ダイジェスト作成装置及びダイジェスト作成方法
JP2007503145A (ja) 映像要約方法
KR20070109921A (ko) 콘텐츠 마킹 방법, 콘텐츠 재생 장치, 콘텐츠 재생 방법,및 기록 매체
JP2006211311A (ja) ダイジェスト映像生成装置
JP2007281856A (ja) 記録再生装置および記録再生方法
JP2008005010A (ja) 動画編集方法
JP2007336283A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2006139408A (ja) 特徴ベクトル生成装置、検索装置、特徴ベクトル生成方法、検索方法及びプログラム
JP2008193585A (ja) 放送番組記録再生装置および放送番組記録再生方法
JP2007294020A (ja) 記録再生方法、記録再生装置、記録方法、記録装置、再生方法および再生装置
JP2007288300A (ja) 映像音声再生装置
JP2007006095A (ja) コンテンツ再生装置、コンテンツ再生方法、コンテンツ再生プログラムを格納した記録媒体およびコンテンツ再生装置に用いられる集積回路
JPWO2007039995A1 (ja) ダイジェスト作成装置およびそのプログラム
JP2007149235A (ja) コンテンツ編集装置、プログラム、及び記録媒体
JP4162459B2 (ja) マルチメディア情報再生装置およびマルチメディア情報再生方法およびプログラム
JP3792951B2 (ja) 放送データ録画装置、及び放送データ録画方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130219

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140219

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees