JP4615166B2

JP4615166B2 - 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム

Info

Publication number: JP4615166B2
Application number: JP2001304360A
Authority: JP
Inventors: 毅中村
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2001-07-17
Filing date: 2001-09-28
Publication date: 2011-01-19
Anticipated expiration: 2021-09-28
Also published as: JP2003101939A; EP1278134A3; EP1278134A2; US7424204B2; US20030016945A1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声が付帯された映像情報における要約再生装置の技術分野に属し、より詳細には、音声レベルに基づいて抽出すべき部分映像情報を決定する技術分野に属する。
【０００２】
【従来の技術】
近年、テレビジョン放送による番組など映像情報を録画・再生するＶＴＲ（Video Tape Recorder）などの記録装置が普及するにつれて、記録された映像情報を全て見ることなく当該映像情報を短時間に要約した映像情報（以下、要約情報という）を提供するダイジェスト再生（要約再生）が実用に供されるようになっている。
【０００３】
一方、映像情報には、さまざまなものが考えられ、例えば、テレビジョン放送によって提供される番組では、映画、ニュース番組、歌番組、スポーツ観戦番組などそのジャンルは多岐に亘る。このため、映像情報の種類によって短時間に要約する際の抽出すべき部分映像情報の特徴部分が異なるので、的確に映像情報の特徴部分を抽出するためには映像情報の種類の情報を取得する必要がある。
【０００４】
すなわち、スポーツ番組であれば、盛り上がった部分がその映像情報の特徴的な部分になるので、この盛り上がった部分を的確に抽出する必要があり、また、ニュース番組であれば、各ニュース毎の冒頭の部分には次のニュースの概略が示されるので、各ニュース内容が切り替わった部分を的確に抽出する必要がある。
【０００５】
従来、このような映像種別を識別して要約再生を行う代表的なものとしては、特開平９−２１９８３５号公報記載の映像情報要約装置が知られている。
【０００６】
同公報記載の映像情報要約装置１は、図７に示すように、入力された映像情報をデジタル化または復号化する映像情報入力部２と、映像情報入力部２から出力された映像情報から映像情報の種別を識別するジャンル情報取得部３と、映像種別を属性として映像区間の管理を行う映像区間管理部４と、映像種別に応じて映像情報およびその一部の区間の代表画素を作成する画素作成部５と、画素作成部５によって作成された各代表画素を空間的および時間的にレイアウトして要約映像情報を生成するレイアウト部６と、生成された映像情報を表示する表示部７とを備え、映像情報の種別毎に効率的な要約映像情報を生成できるようになっている。
【０００７】
【発明が解決しようとする課題】
しかしながら、上述のような要約再生方法にあっては、要約映像情報を生成する際に、映像情報の種別毎に異なる処理を行わなければならないという問題を有していた。すなわち、上述の要約再生方法にあっては、ニュース番組、映画などの映像情報の種別毎に要約再生時に必要とされる代表画素を異なる手続によって作成し、要約映像情報を生成するので、要約映像情報の生成過程による処理の負担が増大し、また、この生成処理が煩雑になっていた。
【０００８】
本発明は、上記の各問題点に鑑みて為されたもので、その課題は、映像情報の種別毎に的確に要約再生を行うことができるとともに、要約情報の生成処理の負担を軽減することのできる要約情報装置を提供することにある。
【０００９】
上記の課題を解決するために、請求項１に記載の発明は、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、前記コンテンツ情報の種別を識別する識別情報を取得する取得手段と、最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成をしている。
【００１０】
この構成により、請求項１に記載の発明では、取得手段がコンテンツ情報の種別を識別する識別情報を取得し、最適化手段がこの識別情報に基づいて映像情報における１または複数の閾値を最適な値に設定すると、決定手段が最適化された閾値によってコンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて抽出すべき部分映像情報を決定するとともに、生成手段が決定された部分映像情報によって要約情報を生成する。
【００１１】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報（映像情報を少なくとも含むコンテンツ情報であり、当該映像情報の他に音声情報又はデータ情報を含む場合もある。以下、同様）に含まれる映像情報の特徴は変化する。
【００１２】
例えば、ニュース番組には、各ニュースの合間にはいわゆるシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、コンテンツ情報の特徴的な部分を示す。
【００１３】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分では、シーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【００１４】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【００１５】
したがって、本発明では、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【００１６】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【００１７】
上記の課題を解決するために、請求項２に記載の発明は、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、前記映像情報の種別を識別する識別情報を外部から取得する取得手段と、最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記音声情報を複数の前記音声区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【００１８】
この構成により、請求項２に記載の発明では、取得手段が映像情報の種別を識別する識別情報を取得し、最適化手段がこの識別情報に基づいて音声情報における１または複数の閾値を最適な値に設定すると、決定手段が最適化された閾値によって映像情報を複数の音声区間に分類し、当該分類した音声区間に基づいて抽出すべき部分映像情報を決定するとともに、生成手段が決定された部分映像情報によって要約情報を生成する。
【００１９】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【００２０】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、映像情報の特徴的な部分を示す。
【００２１】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。また、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要がある。
【００２２】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【００２３】
したがって、本発明では、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【００２４】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【００２５】
また、請求項３に記載の発明は、請求項２に記載の映像情報要約装置において、前記決定手段が、前記分類した複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報を決定する構成を有している。
【００２６】
この構成により、請求項３に記載の発明では、決定手段が、分類した複数の音声区間の少なくとも何れか一種類の、映像情報中における少なくとも時間軸上の位置に基づいて抽出されるべき部分映像情報を決定する。
【００２７】
通常、映像情報に付帯される音声情報は、番組の盛り上がった部分、場面が転換された部分、または、内容が切り替わった部分などの特徴部分を示すので、当該映像情報の時間長を短縮して要約を行う際には重要な役割を果たす。
【００２８】
例えば、音声情報が付帯された映像情報において無音部分に続く部分は、次の内容の冒頭部分、特に当該内容の概略が示されることも多いので、無音部分の時間軸上の終了位置が映像情報の内容を把握する上で重要な部分となる。また、映像情報における盛り上がった音声が大きくなった騒音部分も特徴部分となるので、騒音部分の開始位置は映像情報の内容を把握する上で重要な部分となる。
【００２９】
したがって、本発明では、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【００３０】
また、請求項４に記載の発明は、請求項２または３に記載の映像情報要約装置において、前記取得した識別情報によって無音部分を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって少なくとも一部に前記無音部分を有する無音区間を取得し、少なくとも当該無音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記決定手段が前記無音区間を取得するときに用いられる前記閾値を最適化する構成を有している。
【００３１】
この構成により、請求項４に記載の発明では、取得手段が取得した識別情報が無音部分を有する映像情報であることを識別した場合に、最適化手段が、決定手段が無音区間を取得するときに用いられる閾値を最適化するとともに、決定手段がこの最適化された閾値に基づいて音声情報から無音区間を取得して抽出すべき部分映像情報を決定する。
【００３２】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、特徴部分を抽出する際に無音部分を的確に検出することが重要となる。
【００３３】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【００３４】
また、請求項５に記載の発明は、請求項２または３に記載の映像情報要約装置において、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記決定手段が前記歓声音区間を取得するときに用いられる前記閾値を最適化する構成を有している。
【００３５】
この構成により、請求項５に記載の発明は、取得手段が取得した映像情報の識別情報が音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、最適化手段が、決定手段が歓声音区間を取得するときの閾値を最適化するとともに、決定手段がこの最適化された閾値に基づいて音声情報から無音区間を取得して抽出すべき部分映像情報を決定する。
【００３６】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、特徴部分を抽出する際に歓声音区間を的確に検出することが重要となる。
【００３７】
したがって、本発明では、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【００３８】
また、請求項６に記載された発明は、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、前記コンテンツ情報の種別を識別する識別情報を取得する取得手段と、前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段と、前記最適化された重要度を前記各部分映像情報に設定する設定手段と、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段と、を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成をしている。
【００３９】
この構成により、請求項６に記載の発明では、取得手段がコンテンツ情報の種別を識別する識別情報を取得し、決定手段が閾値に基づいてコンテンツ情報を複数のコンテンツ区間に分類して抽出すべき部分映像情報を決定するとともに、最適化手段が各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、設定手段が最適化された重要度を部分映像情報に設定し、生成手段が決定された部分映像情報および重要度に基づいて要約情報を生成する。
【００４０】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に付帯される映像情報の特徴は変化する。
【００４１】
例えば、ニュース番組には、各ニュースの合間にはシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、コンテンツ情報の特徴的な部分を示す。したがって、シーンチェンジ以外の他の区間に比べ重要度は高い。
【００４２】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分ではシーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【００４３】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【００４４】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【００４５】
また、請求項７に記載された発明は、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、前記映像情報の種別を識別する識別情報を取得する取得手段と、前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段と、前記最適化された重要度を前記各部分映像情報に設定する設定手段と、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段と、を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【００４６】
この構成により、請求項７に記載の発明では、取得手段が映像情報の種別を識別する識別情報を取得し、決定手段が閾値に基づいて映像情報を複数の音声区間に分類して抽出すべき部分映像情報を決定するとともに、最適化手段が各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、設定手段が最適化された重要度を部分映像情報に設定し、生成手段が決定された部分映像情報および重要度に基づいて要約情報を生成する。
【００４７】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【００４８】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、映像情報の特徴的な部分を示す。したがって、騒音区間などの他の音声区間に比べ重要度は高い。
【００４９】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。さらに、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要があるとともに、盛り上がった内容を的確に抽出して要約再生を行う場合に、基準となる区間によって要約再生時の重要度の設定を変える必要がある。
【００５０】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【００５１】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【００５２】
また、請求項８に記載の発明は、請求項７に記載の映像情報要約装置において、前記決定手段が異なる閾値に基づいて前記抽出すべき部分映像情報を決定する場合に、前記最適化手段が、前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度を最適化するとともに、前記設定手段が、前記最適化された重要度を前記部分映像情報に設定する構成を有している。
【００５３】
この構成により、請求項８に記載の発明では、決定手段が異なる閾値に基づいて抽出すべき部分映像情報を決定する場合に、設定手段が異なる閾値毎に取得した識別情報に基づいて最適化した重要度を、決定された各部分映像情報に設定する。
【００５４】
映像情報の種別によって映像情報に付帯される音声特性が異なり、要約再生が行われる映像情報毎に音声区間の重要度が異なる。特に、ニュース番組など無音区間を有する映像情報では、音声レベルが高い区間に比べ無音区間の重要度は高い。また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、無音区間より音声レベルが高い区間の重要度は高く、また、複数の音声レベルによって部分映像情報を決定する場合は、異なる音声レベルによって要約再生時の重要度が異なる。
【００５５】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【００５８】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、要約再生する時に無音部分を的確に再生することが重要となる。
【００５９】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【００６０】
また、請求項９に記載の発明は、請求項７または８に記載の映像情報要約装置において、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度を最適化する構成を有している。
【００６１】
この構成により、請求項９に記載の発明は、取得した識別情報によって音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、決定手段が前記音声区間を分類することによって歓声音を有する歓声音区間を取得し、当該歓声音区間に基づいて部分映像情報を決定するとともに、最適化手段が歓声音区間に基づいて決定された部分映像情報に設定される重要度を最適化する。
【００６２】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、音声情報を構成する背景雑音に歓声音を有する映像情報では、要約再生する時に大きな歓声音を有する区間を的確に再生することが重要となる。
【００６３】
したがって、本発明では、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【００６４】
また、請求項１０に記載の発明は、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、前記コンテンツ情報の種別を識別する識別情報を取得する取得処理工程と、最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化処理工程と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【００６５】
この構成により、請求項１０に記載の発明では、取得処理工程によってコンテンツ情報の種別を識別する識別情報を取得し、最適化処理工程によってこの識別情報に基づいて映像情報における１または複数の閾値を最適な値に設定すると、決定処理工程において最適化された閾値によってコンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて抽出すべき部分映像情報を決定するとともに、生成処理工程が決定された部分映像情報によって要約情報を生成する。
【００６６】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に含まれる映像情報の特徴は変化する。
【００６７】
例えば、ニュース番組には、各ニュースの合間にはいわゆるシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、コンテンツ情報の特徴的な部分を示す。
【００６８】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分では、シーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【００６９】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【００７０】
したがって、本発明では、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【００７１】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【００７２】
また、請求項１１に記載の発明は、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、前記映像情報の種別を識別する識別情報を外部から取得する取得処理工程と、最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、前記音声情報を複数の前記音声区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化処理工程と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【００７３】
この構成により、請求項１１に記載の発明では、取得処理工程によって映像情報の種別を識別する識別情報が取得され、最適化処理工程によってこの識別情報に基づいて音声情報における１または複数の閾値が最適な値に設定されると、決定処理工程によって最適化された閾値により映像情報が複数の音声区間に分類され、当該分類された音声区間に基づいて抽出すべき部分映像情報が決定されるとともに、生成処理工程によって決定された部分映像情報により要約情報が生成される。
【００７４】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【００７５】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、映像情報の特徴的な部分を示す。
【００７６】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。また、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要がある。
【００７７】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【００７８】
したがって、本発明では、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【００７９】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【００８０】
また、請求項１２に記載の発明は、請求項１１に記載の映像情報要約方法において、前記決定処理工程においては前記分類された複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報が決定される構成を有している。
【００８１】
この構成により、請求項１２に記載の発明では、決定処理工程によって分類された複数の音声区間の少なくとも何れか一種類の、映像情報中における少なくとも時間軸上の位置に基づいて抽出されるべき部分映像情報を決定する。
【００８２】
通常、映像情報に付帯される音声情報は、番組の盛り上がった部分、場面が転換された部分、または、内容が切り替わった部分などの特徴部分を示すので、当該映像情報の時間長を短縮して要約を行う際には重要な役割を果たす。
【００８３】
例えば、音声情報が付帯された映像情報において無音部分に続く部分は、次の内容の冒頭部分、特に当該内容の概略が示されることも多いので、無音部分の時間軸上の終了位置が映像情報の内容を把握する上で重要な部分となる。また、映像情報における盛り上がった音声が大きくなった騒音部分も特徴部分となるので、騒音部分の開始位置は映像情報の内容を把握する上で重要な部分となる。
【００８４】
したがって、本発明では、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【００８５】
また、請求項１３に記載の発明は、請求項１１または１２に記載の映像情報要約方法において、前記取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されるときに少なくとも一部に前記無音部分を有する無音区間が取得され、少なくとも当該無音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程においては前記無音区間が取得されるときに用いられる前記閾値が最適化される構成を有している。
【００８６】
この構成により、請求項１３に記載の発明では、取得した識別情報が無音部分を有する映像情報であることが識別された場合に、最適化処理工程によって無音区間を取得するときに用いられる閾値が最適化されるとともに、決定処理工程よってこの最適化された閾値に基づいて音声情報から無音区間が取得されて抽出すべき部分映像情報が決定される。
【００８７】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、特徴部分を抽出する際に無音部分を的確に検出することが重要となる。
【００８８】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【００９１】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、特徴部分を抽出する際に歓声音区間を的確に検出することが重要となる。
【００９２】
したがって、本発明では、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【００９３】
また、請求項１４に記載の発明は、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、前記コンテンツ情報の種別を識別する識別情報を取得する取得処理工程と、前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化処理工程と、前記最適化された重要度を前記各部分映像情報に設定する設定処理工程手段と、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成処理工程と、を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【００９４】
この構成により、請求項１４に記載の発明では、取得処理工程によってコンテンツ情報の種別を識別する識別情報を取得し、決定処理工程によって閾値に基づいてコンテンツ情報を複数のコンテンツ区間に分類して抽出すべき部分映像情報を決定するとともに、最適化処理工程によって各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、設定処理工程によって最適化された重要度を部分映像情報に設定し、生成処理工程によって決定された部分映像情報および重要度に基づいて要約情報を生成する。
【００９５】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に付帯される映像情報の特徴は変化する。
【００９６】
例えば、ニュース番組には、各ニュースの合間にはシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、コンテンツ情報の特徴的な部分を示す。したがって、シーンチェンジ以外の他の区間に比べ重要度は高い。
【００９７】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分ではシーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【００９８】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【００９９】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【０１００】
また、請求項１５に記載の発明は、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、前記映像情報の種別を識別する識別情報を取得する取得処理工程と、前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、前記各部分映像情報に設定される重要度を、前記取得した識別情報に基づいて最適化する最適化処理工程と、前記最適化された重要度を前記各部分映像情報に設定する設定処理工程と、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成処理工程と、を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【０１０１】
この構成により、請求項１５に記載の発明では、取得処理工程によって映像情報の種別を識別する識別情報が取得され、決定処理工程によって閾値に基づいて映像情報が複数の音声区間に分類されて抽出すべき部分映像情報が決定されるとともに、最適化処理工程によって各部分映像情報に設定される重要度が、取得された識別情報に基づいて最適化されると、設定処理工程によって最適化された重要度が部分映像情報に設定され、生成処理工程によって決定された部分映像情報および重要度に基づいて要約情報が生成される。
【０１０２】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【０１０３】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、映像情報の特徴的な部分を示す。したがって、騒音区間などの他の音声区間に比べ重要度は高い。
【０１０４】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。さらに、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要があるとともに、盛り上がった内容を的確に抽出して要約再生を行う場合に、基準となる区間によって要約再生時の重要度の設定を変える必要がある。
【０１０５】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【０１０６】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１０７】
また、請求項１６に記載の発明は、請求項１５に記載の映像情報要約方法において、前記決定処理工程によって異なる閾値に基づいて前記抽出すべき部分映像情報が決定される場合に、前記最適化処理工程においては前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度が最適化されるとともに、前記設定処理工程においては前記最適化された重要度が前記部分映像情報に設定される構成を有している。
【０１０８】
この構成により、請求項１６に記載の発明では、決定処理工程によって異なる閾値に基づいて抽出すべき部分映像情報が決定される場合に、設定処理工程によって異なる閾値毎に取得した識別情報に基づいて最適化された重要度が、決定された各部分映像情報に設定される。
【０１０９】
映像情報の種別によって映像情報に付帯される音声特性が異なり、要約再生が行われる映像情報毎に音声区間の重要度が異なる。特に、ニュース番組など無音区間を有する映像情報では、音声レベルが高い区間に比べ無音区間の重要度は高い。また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、無音区間より音声レベルが高い区間の重要度は高く、また、複数の音声レベルによって部分映像情報を決定する場合は、異なる音声レベルによって要約再生時の重要度が異なる。
【０１１０】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１１１】
また、請求項１７に記載の発明は、請求項１５または１６に記載の映像情報要約方法において、前記取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されるときに少なくとも一部に前記無音部分を有する無音区間が取得され、少なくとも当該無音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程によって前記無音区間に基づいて決定された前記部分映像情報に設定される前記重要度が最適化される構成を有している。
【０１１２】
この構成により、請求項１７に記載の発明は、取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、決定処理工程によって分類された音声区間の中から少なくとも一部に無音部分を有する無音区間が取得され、当該無音区間に基づいて部分映像情報が決定されるとともに、最適化処理工程によって無音区間に基づいて決定された前記部分映像情報に設定される前記重要度が最適化される。
【０１１３】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、要約再生する時に無音部分を的確に再生することが重要となる。
【０１１４】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１１５】
また、請求項１８に記載の発明は、請求項１５または１６に記載の映像情報要約方法において、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、前記決定処理工程によって前記音声情報が複数の前記音声区間に分類されるときに前記歓声音を有する歓声音区間が取得され、少なくとも当該歓声音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程によって前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度が最適化される構成を有している。
【０１１６】
この構成により、請求項１８に記載の発明は、取得した識別情報によって音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、決定処理工程によって前記音声情報が複数の前記音声区間に分類されるときに歓声音を有する歓声音区間が取得され、当該歓声音区間に基づいて部分映像情報が決定されるとともに、最適化処理工程によって歓声音区間に基づいて決定された部分映像情報に設定される重要度が最適化される。
【０１１７】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、音声情報を構成する背景雑音に歓声音を有する映像情報では、要約再生する時に大きな歓声音を有する区間を的確に再生することが重要となる。
【０１１８】
したがって、本発明では、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１１９】
また、請求項１９に記載の発明は、コンピュータによって、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、前記コンピュータを、前記コンテンツ情報の種別を識別する識別情報を取得する取得手段、最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段、及び、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【０１２０】
この構成により、請求項１９に記載の発明では、コンピュータによって、コンテンツ情報の種別を識別する識別情報を取得し、この識別情報に基づいて映像情報における１または複数の閾値を最適な値に設定すると、最適化された閾値によってコンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて抽出すべき部分映像情報を決定するとともに、決定された部分コンテンツ情報によって要約情報を生成する。
【０１２１】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に含まれる映像情報の特徴は変化する。
【０１２２】
例えば、ニュース番組には、各ニュースの合間にはいわゆるシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、コンテンツ情報の特徴的な部分を示す。
【０１２３】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分では、シーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【０１２４】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【０１２５】
したがって、本発明では、部分コンテンツ情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【０１２６】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【０１２７】
また、請求項２０に記載の発明は、コンピュータによって、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、前記コンピュータを、前記映像情報の種別を識別する識別情報を外部から取得する取得手段、前記最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、前記音声情報を複数の前記音声区間に分類するときに用いられる１または複数の閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【０１２８】
この構成により、請求項２０に記載の発明では、コンピュータによって、映像情報の種別を識別する識別情報を取得し、この識別情報に基づいて音声情報における１または複数の閾値を最適な値に設定すると、最適化された閾値によって映像情報を複数の音声区間に分類し、当該分類した音声区間に基づいて抽出すべき部分映像情報を決定するとともに、決定された部分映像情報によって要約情報を生成する。
【０１２９】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【０１３０】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、映像情報の特徴的な部分を示す。
【０１３１】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。また、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要がある。
【０１３２】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【０１３３】
したがって、本発明では、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１３４】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【０１３５】
また、請求項２１に記載の発明は、請求項２０に記載の映像情報要約プログラムにおいて、前記コンピュータを、前記分類した複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報を決定する決定手段、として機能させる構成を有している。
【０１３６】
この構成により、請求項２１に記載の発明では、コンピュータによって、分類した複数の音声区間の少なくとも何れか一種類の、映像情報中における少なくとも時間軸上の位置に基づいて抽出されるべき部分映像情報を決定する。
【０１３７】
通常、映像情報に付帯される音声情報は、番組の盛り上がった部分、場面が転換された部分、または、内容が切り替わった部分などの特徴部分を示すので、当該映像情報の時間長を短縮して要約を行う際には重要な役割を果たす。
【０１３８】
例えば、音声情報が付帯された映像情報において無音部分に続く部分は、次の内容の冒頭部分、特に当該内容の概略が示されることも多いので、無音部分の時間軸上の終了位置が映像情報の内容を把握する上で重要な部分となる。また、映像情報における盛り上がった音声が大きくなった騒音部分も特徴部分となるので、騒音部分の開始位置は映像情報の内容を把握する上で重要な部分となる。
【０１３９】
したがって、本発明では、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１４０】
また、請求項２２に記載の発明は、請求項２０または２１に記載の映像情報要約プログラムにおいて、前記取得した識別情報によって無音部分を有する映像情報であることを識別した場合に、前記コンピュータを、前記音声情報を分類することによって少なくとも一部に前記無音部分を有する無音区間を取得し、少なくとも当該無音区間に基づいて前記部分映像情報を決定する前記決定手段、前記決定手段が前記無音区間を取得するときに用いられる前記閾値を最適化する前記最適化手段、として機能させる構成を有している。
【０１４１】
この構成により、請求項２２に記載の発明では、取得した識別情報が無音部分を有する映像情報であることを識別した場合に、コンピュータによって、無音区間を取得するときに用いられる閾値を最適化するとともに、この最適化された閾値に基づいて音声情報から無音区間を取得して抽出すべき部分映像情報を決定する。
【０１４２】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、特徴部分を抽出する際に無音部分を的確に検出することが重要となる。
【０１４３】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【０１４４】
また、請求項２３に記載の発明は、請求項２０または２１に記載の映像情報要約プログラムにおいて、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記コンピュータを、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定する決定手段、前記決定手段が前記歓声音区間を取得するときに用いられる前記閾値を最適化する最適化手段、として機能させる構成を有している。
【０１４５】
この構成により、請求項２３に記載の発明は、取得した映像情報の識別情報が音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、コンピュータによって、歓声音区間を取得するときの閾値を最適化するとともに、この最適化された閾値に基づいて音声情報から無音区間を取得して抽出すべき部分映像情報を決定する。
【０１４６】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、特徴部分を抽出する際に歓声音区間を的確に検出することが重要となる。
【０１４７】
したがって、本発明では、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【０１４８】
また、請求項２４に記載の発明は、コンピュータによって、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、前記コンピュータを、前記コンテンツ情報の種別を識別する識別情報を取得する取得手段、前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段、前記最適化された重要度を前記各部分映像情報に設定する設定手段、及び、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段、として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【０１４９】
この構成により、請求項２４に記載の発明では、コンピュータによって、コンテンツ情報の種別を識別する識別情報を取得し、閾値に基づいてコンテンツ情報を複数のコンテンツ区間に分類して抽出すべき部分映像情報を決定するとともに、各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、最適化された重要度を部分映像情報に設定し、決定された部分映像情報および重要度に基づいて要約情報を生成する。
【０１５０】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に付帯される映像情報の特徴は変化する。
【０１５１】
例えば、ニュース番組には、各ニュースの合間にはシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、コンテンツ情報の特徴的な部分を示す。したがって、シーンチェンジ以外の他の区間に比べ重要度は高い。
【０１５２】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分ではシーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【０１５３】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【０１５４】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【０１５５】
また、請求項２５に記載の発明は、コンピュータによって、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、前記コンピュータを、前記映像情報の種別を識別する識別情報を取得する取得手段、前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段、前記最適化された重要度を前記各部分映像情報に設定する設定手段、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段、として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【０１５６】
この構成により、請求項２５に記載の発明では、コンピュータによって、映像情報の種別を識別する識別情報を取得し、閾値に基づいて映像情報を複数の音声区間に分類して抽出すべき部分映像情報を決定するとともに、各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、最適化された重要度を部分映像情報に設定し、生成手段が決定された部分映像情報および重要度に基づいて要約情報を生成する。
【０１５７】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【０１５８】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、映像情報の特徴的な部分を示す。したがって、騒音区間などの他の音声区間に比べ重要度は高い。
【０１５９】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。さらに、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要があるとともに、盛り上がった内容を的確に抽出して要約再生を行う場合に、基準となる区間によって要約再生時の重要度の設定を変える必要がある。
【０１６０】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【０１６１】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１６２】
また、請求項２６に記載の発明は、請求項２５に記載の映像情報要約プログラムにおいて、異なる閾値に基づいて前記抽出すべき部分映像情報を決定する場合に、前記コンピュータを、前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度を最適化する最適化手段、前記最適化された重要度を前記部分映像情報に設定する設定手段、として機能させる構成を有している。
【０１６３】
この構成により、請求項２６に記載の発明では、異なる閾値に基づいて抽出すべき部分映像情報を決定する場合に、コンピュータによって、異なる閾値毎に取得した識別情報に基づいて最適化した重要度を、決定された各部分映像情報に設定する。
【０１６４】
映像情報の種別によって映像情報に付帯される音声特性が異なり、要約再生が行われる映像情報毎に音声区間の重要度が異なる。特に、ニュース番組など無音区間を有する映像情報では、音声レベルが高い区間に比べ無音区間の重要度は高い。また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、無音区間より音声レベルが高い区間の重要度は高く、また、複数の音声レベルによって部分映像情報を決定する場合は、異なる音声レベルによって要約再生時の重要度が異なる。
【０１６５】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１６８】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、要約再生する時に無音部分を的確に再生することが重要となる。
【０１６９】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１７０】
また、請求項２７に記載の発明は、請求項２５または２６に記載の映像情報要約プログラムにおいて、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記コンピュータを、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定する決定手段、前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度を最適化する最適化手段、として機能させる構成を有している。
【０１７１】
この構成により、請求項２７に記載の発明は、取得した識別情報によって音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、コンピュータにより、前記音声区間を分類することによって歓声音を有する歓声音区間を取得し、当該歓声音区間に基づいて部分映像情報を決定するとともに、歓声音区間に基づいて決定された部分映像情報に設定される重要度を最適化する。
【０１７２】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、音声情報を構成する背景雑音に歓声音を有する映像情報では、要約再生する時に大きな歓声音を有する区間を的確に再生することが重要となる。
【０１７３】
したがって、本発明では、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０１７４】
【発明の実施の形態】
（Ｉ）実施形態
次に、本発明に好適な実施の形態について、図面に基づいて説明する。
【０１７５】
本実施形態は、通信回線または電波などによって提供されるテレビジョン放送の番組などの音声映像情報を要約再生する要約再生装置に対して本発明を適用した場合の実施形態である。
【０１７６】
まず、図１を用いて本実施形態における要約再生装置の全体の構成および概要動作について説明する。
【０１７７】
なお、図１は本実施形態に係る要約再生装置の構成を示すブロック図である。
【０１７８】
図１に示す本実施形態の要約再生装置１００は、通信回線から送信された、または、図示しない受信部によって受信されたデジタル音声映像情報が入力されるようになっており、この入力されたデジタル音声映像情報から当該音声映像情報の種別情報（以下、ジャンル情報という）を取得するようになっている。
【０１７９】
また、この要約再生装置１００は、予め設定された複数の閾値（以下、単にパラメータという）に基づいて入力された音声映像情報の特徴量（以下、音声特徴量という）を抽出するとともに、入力された音声映像情報から取得したジャンル情報に基づいて基準となる閾値（以下、決定パラメータという）を設定するようになっており、当該設定した決定パラメータに適合するパラメータによって抽出した音声特徴量を選択するとともに、当該選択された音声特徴量に基づいて要約再生に際して抽出すべき部分映像情報（以下、要約セグメントという）を決定（以下、要約セグメントの決定処理という）するようになっている。
【０１８０】
このように、この要約再生装置１００は、抽出すべき要約セグメントを決定し、決定された要約セグメントに基づいて音声映像情報から要約セグメントを抽出して要約再生を行うようになっている。
【０１８１】
また、この抽出すべき要約セグメントの決定処理は、まず、要約セグメントの候補（以下、要約セグメント候補という）をリスト化し、このリスト化された要約セグメント候補から抽出すべき要約セグメントを絞り込んで決定するようになっている。
【０１８２】
さらに、本実施形態では、入力されるデジタル音声映像情報には映像情報と付帯されている音声情報が多重化されているものとして、以下に詳細に説明する。
【０１８３】
図１に示すように、本実施形態の要約再生装置１００は、取得されたデジタル音声映像情報から音声情報およびジャンル情報を有する情報（以下、付帯情報という）を分離するデマルチプレクサ１０１と、分離された音声情報を復号して予め設定されたパラメータに基づいて音声特徴量を取得する音声特徴量抽出部１０２と、付帯情報からジャンル情報を取得するジャンル情報取得部１０３と、音声映像情報を蓄積するとともに、当該音声映像情報において取得された音声特徴量およびジャンル情報を蓄積する蓄積部１０４と、各部の操作を行うとともに、音声映像情報を要約する時間長を入力する操作部１０５と、ジャンル情報に基づいて音声特徴量を抽出する際の最適な決定パラメータを設定する決定パラメータ設定部１０６と、蓄積された音声映像情報の要約再生を行う再生部１０７と、決定パラメータに適合するパラメータによって抽出された音声特徴量に基づいて蓄積された音声映像情報における要約セグメントを決定するとともに再生部１０７を制御する制御部１０８と、要約再生された映像信号を音声信号とともに表示・出力する表示部１０９とを備えている。
【０１８４】
なお、ジャンル情報取得部１０３および決定パラメータ設定部１０６は、それぞれ、本発明に係る取得手段および最適化手段を構成する。また、制御部１０８は、再生部１０７とともに本発明に係る生成手段を構成し、さらに、制御手段１０８は本発明に係る決定手段および設定手段を構成する。
【０１８５】
デマルチプレクサ１０１には、通信回線から送出された若しくは図示しない受信部によって受信されたデジタル音声映像情報、または、既に蓄積部１０４に蓄積されたデジタル音声映像情報が入力されるようになっており、このデマルチプレクサ１０１は、この入力されたデジタル音声映像情報から音声情報および付帯情報を分離して、それぞれ、音声特徴量抽出部１０２およびジャンル情報取得部１０３に出力するようになっている。
【０１８６】
この付帯情報は、例えば、ニュース番組、スポーツ観戦番組、映画、ドラマ、歌番組およびバラエティ番組などのジャンル情報を一部に有しており、ＢＳ（BroadcastingSatellite）デジタル放送では、番組配列情報（Service Information）がこの付帯情報に当たる。この場合、デマルチプレクサ１０１は番組配列情報をジャンル情報取得部１０３に出力するようになっている。
【０１８７】
音声特徴量抽出部１０２にはデマルチプレクサ１０１から出力されたデジタル信号である音声情報が入力されるようになっており、この音声特徴量抽出部１０２は、この入力された音声情報を復号するとともに、予め設定された複数のパラメータに基づいて当該音声情報の音声特徴量、例えば、音声レベルまたは周波数特性を取得するようになっており、この取得した音声特徴量を蓄積部１０４に出力するようになっている。
【０１８８】
具体的には、音声特徴量抽出部１０２は、入力された音声情報に基づいて単位時間平均音圧レベル（パワー）を算出し、または、各周波数毎の音圧レベルを算出し、予め定められた複数のパラメータに基づいて複数の音声区間を抽出するようになっている。
【０１８９】
本実施形態では、予め定められた複数の音声レベルをパラメータとして複数の音声区間を抽出するようになっており、例えば、音声の無い区間と閾値（音声レベル）が異なる複数の騒音区間などの音声区間を検出するようになっている。この音声区間の検出処理については後述する。
【０１９０】
ジャンル情報取得部１０３にはデマルチプレクサ１０１から出力された付帯情報（番組配列情報）が入力されるようになっており、このジャンル情報取得部１０３は、この入力された付帯情報（番組配列情報）に基づいて音声映像情報における映画、ニュースなどジャンル情報を取得し、このジャンル情報を蓄積部１０４に出力するようになっている。
【０１９１】
なお、このジャンル情報は、入力されたデジタル音声映像情報と別に取得するようにしてもよい。例えば、インターネットなどの通信回線を介して任意の場所に格納されている当該入力された音声映像情報に関するジャンル情報を取得するようにしてもよい。
【０１９２】
また、ジャンル情報を入力された音声映像情報から取得する代わりに、当該入力された音声映像情報における音声情報に基づいて推定するようにしてもよい。
【０１９３】
この場合、本実施形態に推定部を設け、この推定部によって入力された音声映像情報からジャンルを推定する。例えば、各ジャンルを特定するような特徴のあるテキスト情報を予め用意しておき、入力された音声映像情報から音声認識技術を用いて音声を抽出するとともに、その音声認識結果をテキスト情報として予め用意されたテキスト情報との一致度を算出し、この算出結果に基づいてジャンルを推定するようになっている。
【０１９４】
蓄積部１０４には入力されたデジタル音声映像情報、音声特徴量１０２によって抽出された音声情報の音声特徴量およびジャンル情報取得部１０３によって取得された音声映像情報のジャンル情報を蓄積するようになっている。また、この蓄積部１０４は制御部１０８の指示に基づいて再生部１０７に音声映像情報の出力並びに音声特徴量およびジャンル情報の決定パラメータ設定部１０６および制御部１０８に出力するようになっている。
【０１９５】
操作部１０５は、ユーザによって音声映像情報における蓄積制御指示、蓄積された音声映像情報の再生指示および要約再生を行う際の要約再生時間の入力などを行うことができるようになっており、この指示が制御部１０８に入力されると、この指示に基づいて制御部１０８が各部を制御するようになっている。
【０１９６】
決定パラメータ設定部１０６には蓄積部１０４から出力されたジャンル情報が入力されるようになっており、この決定パラメータ設定部１０６は入力されたジャンル情報に基づいて制御部１０８によって抽出すべき要約セグメントの決定処理の際に使用する決定パラメータ、具体的には最適な音声レベルを設定し、この設定された決定パラメータの値（音声レベル）を制御部１０８に出力するようになっている。
【０１９７】
また、決定パラメータ設定部１０６は、入力されたジャンル情報に基づいて抽出すべき要約セグメントを決定するときの重要度を最適化し、当該最適化した値または最適化のためのパラメータを制御部１０８に出力するようになっている。この重要度の最適化については後述する。
【０１９８】
再生部１０７には蓄積部１０４から出力されたデジタル音声映像情報が入力されるようになっており、再生部１０７は入力された多重化されている音声映像情報を映像情報および音声情報に分離するとともに復号し、制御部１０８の指示に基づいて要約再生を行うようになっている。また、この再生部１０７はこの再生された音声信号および映像信号を表示部１０９に出力するようになっている。
【０１９９】
制御部１０８は、操作部１０５によって入力された指示に基づいて蓄積部１０４における蓄積制御並びに音声特徴量抽出部１０２および決定パラメータ設定部１０６によって設定された音声特徴量およびパラメータに基づいて後述する要約セグメントを決定するとともに、この決定された要約セグメントに基づいて再生部１０７の再生制御を行うようになっている。
【０２００】
表示部１０９には再生部１０７から出力された音声信号および映像信号が入力されるようになっており、この表示部１０９は、この入力された映像信号をモニター画面などに表示するとともに、音声信号をスピーカなどによって拡声するようになっている。
【０２０１】
次に、図２、図３を用いて本実施形態の音声特徴量の抽出処理について説明する。
【０２０２】
なお、図２および図３は本実施形態における無音区間および騒音区間の検出原理を説明するための図である。
【０２０３】
通常、録画された音声映像情報、または、通信回線などを介して提供される音声映像情報において、その音声映像情報の時間長を短縮して要約を行う際に、当該音声映像情報に付帯される音声情報は重要な役割を果たしている。
【０２０４】
例えば、テレビジョン放送番組において、騒音区間は番組の盛り上がった部分を、また、無音区間は場面が転換されたまたは内容が切り替わった部分を示す。
【０２０５】
具体的には、ニュース番組であれば、ニュース内容が切り替わるときには無音部分、いわゆる「間（ポーズ）」が取られるとともに、その「間」に続く部分には後に続く内容が示され、その部分は映像情報の特徴部分となる。特に、無音区間に続く部分は次の内容の冒頭部分を示すので、当該内容の概略が示されることも多い。
【０２０６】
また、スポーツ観戦番組であれば、歓声などの背景雑音には観客の反応が現れるので、盛り上がった場面（野球のホームランのシーンやサッカーのゴールシーン）では、自然にアナウンサーや観衆の声が大きくなり、音声レベルが他の部分のレベルに比べて非常に高くなり、その部分は映像情報の特徴部分となる。
【０２０７】
したがって、ニュース番組などの無音区間を有する音声映像情報では無音区間の検出が重要となる。また、スポーツ観戦番組などの背景雑音に歓声音を有する音声映像情報では、殆ど無音区間が検出されないとともに、閾値の異なる騒音区間を検出する方がより適した要約再生を行うことができるようになっている。
【０２０８】
このように、異なるジャンルによって抽出すべき無音区間および騒音区間などの音声区間および当該音声区間における最適な閾値が異なる。
【０２０９】
以上のことから、本実施形態では、抽出された音声情報における単位時間平均音圧レベル（パワー）を予め音声特徴量抽出部１０２において複数の閾値、例えば、音声レベルによって無音区間や騒音区間など複数の音声区間を抽出しておき、決定パラメータ設定部１０６において、入力されたジャンル情報に基づいてこの抽出するときの決定パラメータを設定して、制御部１０８において、当該設定された決定パラメータに適合するパラメータによって抽出された音声区間から、要約セグメントを決定する際に使用する最適な音声区間を選択するようになっている。
【０２１０】
具体的には、決定パラメータ設定部１０６において、音声映像情報がスポーツ観戦番組である場合に、ニュース番組に比べ閾値（音声レベル）が高い騒音区間を選択するとともに、逆に、常にどの場面でも歓声音があるため、無音区間は殆ど検出されないので、スポーツ観戦番組では無音区間の処理を行わないように設定するようになっている。また、ニュース番組であれば、無音区間を検出する音声レベルの低い区間と標準的な騒音区間を採用するようになっている。
【０２１１】
本実施形態では、無音区間と騒音区間を検出する場合は、音声特徴量抽出部１０２は図２に示すように、予め設定された無音レベルの閾値（以下、無音レベル閾値（ＴＨ_S）という）および騒音レベルの閾値（以下、騒音レベル閾値（ＴＨ_n）という）に基づいて音声映像情報中における各無音区間および騒音区間の音声映像情報の時間軸上の開始位置（以下、単に開始位置という）および終了位置（以下、単に終了位置という）を検出するようになっている。本実施形態では、この各無音区間および騒音区間毎に検出した開始位置および終了位置の時間情報を蓄積部１０４に出力するようになっている。なお、各無音区間および騒音区間の時間的長さを以下区間長という。
【０２１２】
具体的には、上述したように、入力された音声情報に基づいて単位時間平均音圧レベル（パワー）を算出し、この算出した値によって得られた音声情報が無音レベル閾値（ＴＨ_S）以下または騒音レベル閾値（ＴＨ_S）以上で、かつ、予め設定された時間的長さ（以下、最短無音区間長（ＤＲＳ_Min）および最短騒音区間長（ＤＲＮ_Min）という）以上の区間が検出された場合に、その区間を無音区間として、または、騒音区間として検出するようになっている。
【０２１３】
なお、この音声レベルの標準的な値として、ニュース番組ではアナウンサーが声を発したときの音声は、−５０ｄＢ以上になるので、無音レベル閾値（ＴＨ_S）を−５０ｄＢと設定し、スポーツ番組では観衆が盛り上がった際には背景雑音の音声レベルが−３５ｄB程度になるので、騒音レベル閾値（ＴＨ_n）を−３５ｄＢと設定するようになっており、複数の無音区間および騒音区間を検出するときはこの音声レベルを基準として複数設定するようになっている。
【０２１４】
また、本実施形態では、ニュース番組およびスポーツ観戦番組の音声レベルを考慮して、最短無音区間長（ＤＲＳ_Min）および最短騒音区間長（ＤＲＮ_Min）をそれぞれ０．２秒、１．０秒に設定している。
【０２１５】
さらに、図３は、複数の騒音レベル閾値（ＴＨ_n）によって複数の騒音区間を検出する場合の図であり、複数の騒音区間を検出する場合は、図３に示すように、異なる音声レベル、すなわち、騒音レベル閾値１（ＴＨ_n1）および騒音レベル閾値２（ＴＨ_n2）によって騒音区間１および騒音区間２を検出するようになっている。
【０２１６】
次に、本実施形態の重要度の最適化について説明する。
【０２１７】
上述のように、テレビジョン放送番組において、騒音区間は番組の盛り上がった部分を、また、無音区間は場面が転換されたまたは内容が切り替わった部分を示す一方、スポーツ観戦番組であれば、歓声などの背景雑音には観客の反応が現れるので、盛り上がった場面では、音声レベルが他の部分のレベルに比べて非常に高くなり、その部分は映像情報の特徴部分となる。
【０２１８】
また、ニュース番組であれば、ニュース内容が切り替わるときには、無音部分、いわゆる「間（ポーズ）」が取られるとともに、その「間」に続く部分には後に続く内容が示され、その部分は映像情報の特徴部分となる。特に、無音区間に続く部分は次の内容の冒頭部分を示すので、当該内容の概略が示されることも多い。
【０２１９】
すなわち、ニュース番組などのように無音区間を有する音声映像情報では、無音区間の方が騒音区間に比べて重要度が高くなる。また、ニュース番組のように完成の背景雑音を有する音声映像情報では、騒音区間の方が無音区間に比べて重要度が高くなる。
【０２２０】
このようにジャンル毎に音声区間によって設定される要約セグメントの重要度が異なるので、本実施形態では、決定パラメータ設定部１０６によって取得したジャンル情報に基づいてジャンル毎に重要度を最適化するようになっている。
【０２２１】
具体的には、ジャンル情報取得部１０３によってニュース番組などの無音区間を有する音声映像情報のジャンルであることが取得された場合には、無音区間によって決定された要約セグメントの重要度を以下のような重み付け関数によって設定するようになっており、本実施形態では、このパラメータを制御部１０８に出力するようになっている。
【０２２２】
重要度ｆ（ｘ）＝ａｘ＋ｂ・・・（式１）
重要度ｆ（ｘ）＝ｘ＋１００・・・（式２）
なお、ｘは、通常、設定される重要度の値であり、本実施形態では各音声区間の区間長を使用するようになっている。また、ａ、ｂは定数である。
【０２２３】
また、スポーツ観戦番組などの背景雑音に歓声音を有する音声映像情報である場合は、複数の騒音区間、例えば、図３に示す騒音区間１および騒音区間２を選択するとともに、閾値の高い騒音区間１によって設定された要約セグメントの重要度を、無音区間に基づいて決定された要約セグメントの重要度を設定するときに用いられた重み付け関数などによって騒音区間２によって決定される要約セグメントの重要度より高く設定するようになっている。
【０２２４】
次に、図４、図５を用いて本実施形態における抽出すべき要約セグメントの決定処理について説明する。
【０２２５】
なお、図４は騒音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明するための図であり、図５は無音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明するための図である。
【０２２６】
上述のように、ニュース番組において、ニュース内容が切り替わるときには、無音部分、いわゆる「間（ポーズ）」が取られるとともに、その「間」に続く部分には後に続く内容が示され、その部分は映像情報の特徴部分となるため、無音区間に続く部分が重要になる。
【０２２７】
また、スポーツ観戦番組であれば、歓声などの背景雑音には観客の反応が現れるので、盛り上がった場面では、音声レベルが他の部分のレベルに比べて非常に高くなり、その部分は映像情報の特徴部分となる。
【０２２８】
このように、無音区間または騒音区間と音声映像情報の特徴部分との時間軸上の位置関係および重要度が異なるので、抽出すべき要約セグメントを決定する際に無音区間と騒音区間によって決定する処理を別の処理によって行うようになっている。以下に、本実施形態の要約セグメントの決定処理について説明する。
【０２２９】
なお、本実施形態における要約セグメントの決定処理では、無音区間および騒音区間に基づいて要約セグメントの開始時刻（ＳＴＳＳ_i）、終了時刻（ＳＥＳＳ_i）および重要度（ＩＰＳＳ_i）を決定するようになっている。ただし、ｉはｉ番目の無音区間および騒音区間であり、ｊはｊ番目の要約セグメントであることを示す。
【０２３０】
また、本実施形態における要約セグメントの決定処理では、まず、無音区間および騒音区間に基づいて要約セグメントの開始時間および重要度を決定して要約セグメント候補をリスト化し、その後、要約セグメント候補の絞り込みを行い、最短要約セグメント時間長、標準要約セグメント時間長および最長要約セグメント時間長を決定して絞り込まれた要約セグメント候補の終了時刻を決定するようになっている。
【０２３１】
さらに、本実施形態の要約セグメントの決定処理では、要約セグメントの決定する際に基になった無音区間および騒音区間の区間長情報（ＤＲＳＳ_j）を保持するようになっている。本実施形態では、要約セグメントが一度決定され、要約セグメントの絞り込み処理を行った後、終了時刻を決定するため、この区間長情報（ＤＲＳＳ_j）は、後述する終了時刻を決定する際に、無音区間に基づいて決定された要約セグメントであるか、騒音区間によって決定された要約セグメントであるがを判断する必要があり、その判断にこの区間長情報（ＤＲＳＳ_j）を用いるようになっている。
【０２３２】
具体的には、本実施形態では、騒音区間に基づいて設定された要約セグメントには、基準となった騒音区間の区間長を設定するようになっている（ＤＲＤＮ_i＝ＤＲＳＳ_j）。また、無音区間に基づいて設定された要約セグメントには、ＤＲＳＳ_j＝０と設定するようになっている。
【０２３３】
したがって、要約セグメント決定処理の動作において、後述する終了時刻を決定する際に、このＤＲＳＳ_jが「０」であれば、無音区間に基づいて、「ＤＲＳＳ_j≠０」であれば、騒音区間に基づいて決定された要約セグメントと判断できるようになっている。
【０２３４】
〔騒音区間における要約セグメントの設定〕
上述のように、騒音区間は番組の盛り上がった部分を示すので、騒音区間が重要である。そこで、本実施形態では、図４に示すように、検出部１０３によって検出された騒音区間の開始位置を要約セグメントの開始位置と設定するようになっている。
【０２３５】
なお、スポーツ観戦番組では、観客の歓声が集音され、この集音された音が背景雑音として当該音声映像情報に付帯されている音声情報に含まれている場合には、場面が盛り上がる少し前から再生する方が要約再生する際には有効性が高い。通常、スポーツ観戦において好プレーや得点シーンなど盛り上がる部分では観客が歓声を上げるまで、すなわち、騒音区間となるまでに時間差が生ずる。したがって、スポーツ観戦番組などの音声映像情報において騒音区間に基づいて要約セグメントの開始時刻を騒音区間の開始位置からΔｔだけ前にずらすようにしてもよい。
【０２３６】
また、騒音区間における要約セグメントの終了時刻は、騒音区間の終了位置に基づいて決定されるようになっている。
【０２３７】
抽出される要約セグメントの内容を考慮すると、原則的には騒音区間の終了位置を要約セグメントの終了時刻に設定する必要がある。しかしながら、抽出すべき要約セグメントは、あまりにも要約セグメントの時間長が短いと当該場面を理解することが困難になる一方、不用意に長い時間長を有する場合には、無駄な情報が多くなるとともに、情報量が増大し映像情報を的確に要約することができない。
【０２３８】
このため、後述する最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を設定し、これらの時間長を用いて要約セグメントの終了時刻を設定するようになっている。
【０２３９】
例えば、図４に示すように、騒音区間（ＤＮ_i（例えば、図４に示す騒音区間ａ））が最短要約セグメント時間長（ＤＲ_Min）に満たない場合は、最短要約セグメント時間長（ＤＲ_Min）が要約セグメントの時間長になり、要約セグメントの開始時刻にその最短要約セグメント時間長（ＤＲ_Min）を加えた時刻を要約セグメントの終了時刻に設定するようになっている。
【０２４０】
また、騒音区間（ＤＮ_i（例えば、図４に示す騒音区間ｂ））が最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下である場合は、騒音区間長が要約セグメントの時間長となり、騒音区間が終了する位置を要約セグメントの終了時刻に設定するようになっている。
【０２４１】
さらに、騒音区間（ＤＮ_i（例えば、図４に示す騒音区間ｃ））が最長要約セグメント時間長（ＤＲ_Max）を越える場合は、要約セグメントの開始時刻に標準要約セグメント時間長（ＤＲ_Typ）を加えた時刻を要約セグメントの終了時刻と設定するようになっている。
【０２４２】
すなわち、ｉ番目の騒音区間におけるｊ番目の要約セグメントにおいて、セグメント時間長（ＤＲＤＮ_i＝ＤＲＳＳ_j）より、
０＜ＤＲＳＳ_i ＜ＤＲ_Min の場合、
ＳＥＳＳ_j ＝ＳＴＳＳ＋ＤＲ_Min ・・・（式３）
ＤＲ_Min ≦ ＤＲＳＳ_i ≦ ＤＲ_Max の場合、
ＳＥＳＳ_j ＝ＳＴＳＳ＋ＤＲＳＳ_i ・・・（式４）
ＤＲ_Max ＜ＤＲＳＳ_i の場合、
ＳＥＳＳ_j ＝ＳＴＳＳ＋ＤＲ_Typ ・・・（式５）
となる。ただし、上述のように要約セグメントの開始時刻をΔｔ早めたときは、他の要約セグメントの時間長との整合性により、各最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）の時間長からΔｔ分減算した時間を各最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）にするようになっている。
【０２４３】
なお、本実施形態において、各要約セグメントの終了時刻の設定は、後述する要約セグメント候補の絞り込み処理が行われ、当該絞り込まれた要約セグメントに対して設定されるようになっている。すなわち、騒音区間に基づいて要約セグメントの開始時刻を設定することによって当該要約セグメントを要約セグメント候補としてリストアップし、その後、後述する要約セグメント候補の絞り込み処理が行われ、さらに、最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）が設定された後に当該要約セグメントの終了時刻を設定するようになっている。
【０２４４】
また、騒音区間における要約セグメントの重要度（ＩＰＳＳ_j）は、基本的には騒音区間の区間長（ＤＲＤＮ_i）を用いて設定するようになっており、騒音区間の区間長が長ければ長いほど重要度を高く設定することができるようになっているが、決定パラメータ設定部１０６によって各要約セグメントに設定する重要度が最適化された場合にはその指示に従うようになっている。
【０２４５】
〔無音区間における要約セグメントの設定〕
上述のように無音区間は、場面が転換されたまたは内容が切り替わった部分を示すので、無音区間が終了した後に続く部分が重要である。そこで、本実施形態では、図５に示すように、検出部１０３によって検出された無音区間の予め設定された区間長（以下、追加最短無音区間長（ＤＲＳＡ_Min）という）以上、例えば、１．０秒以上を有する無音区間の終了位置を要約セグメントの開始時間（ＳＴＳＳ）に設定するようになっている。
【０２４６】
なお、無音区間には重要でないものも存在するため、明らかに「間」が存在し、内容が切り替わったところを検出するため、要約セグメントの決定にあたっては、追加最短無音区間長（ＤＲＳＡ_Min）を定め、この追加最短無音区間長（ＤＲＳＡ_Min）以上の区間長を有している無音区間の終了位置を要約セグメントの開始位置に設定するようになっている。
【０２４７】
また、無音区間における要約セグメントの終了時刻は、要約セグメントの開始時刻の設定に用いられた無音区間の次の無音区間の開始位置に基づいて決定されるようになっている。
【０２４８】
この場合、要約セグメントの開始時刻の設定に用いられた無音区間の次の無音区間の区間長は、追加最短無音区間長（ＤＲＳＡ_Min）以上の長さである必要はなく、抽出された全ての無音区間を対象に無音区間の検索を行うようになっている。
【０２４９】
騒音区間の場合と同様に要約セグメントの終了時刻は、後述する最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を用いて設定するようになっている。
【０２５０】
例えば、図５に示すように、要約セグメントの開始時刻に設定された無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1（例えば、図５に示す無音区間ａ））の開始位置が最短要約セグメント時間長（ＤＲ_Min）に満たない場合には、最短要約セグメント時間長（ＤＲ_Min）が要約セグメントの時間長になり、要約セグメントの開始時刻にその最短要約セグメント時間長（ＤＲ_Min）を加えた時刻を要約セグメントの終了時刻に設定するようになっている。
【０２５１】
また、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1（例えば、図５に示す無音区間ｂ））の開始位置が最短要約セグメント時間長（ＤＲ_Min）を越えるとともに、最長要約セグメント時間長（ＤＲ_Max）に満たない場合は、検出された無音区間（ＤＳ_i+1）の開始位置を要約セグメントの終了時刻と設定するようになっている。
【０２５２】
さらに、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1（例えば、図５に示す無音区間ｃ））の開始位置が最長要約セグメント時間長（ＤＲ_Max）を越える場合は、標準要約セグメント時間長（ＤＲ_Typ）が要約セグメントの時間長になり、要約セグメントの開始時刻に標準要約セグメント時間長（ＤＲ_Typ）を加えた時刻を要約セグメントの終了時刻と設定するようになっている。
【０２５３】
また、本実施形態では、最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を用いて要約セグメントの終了時刻を設定する際に、当該次の無音区間の検出において以下の順序によって行うようになっている。
【０２５４】
要約セグメントの開始時間の基準となった無音区間（ＤＳ_i）の次にある無音区間（ＤＳ_i+1）を検出する順序としては、まず、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1）の開始位置が最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下に存在するか否かを検出し、この範囲内に無いときに、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1）の開始位置が最短要約セグメント時間長（ＤＲ_Min）までに無いか否かを検出するようになっている。さらに、これらの範囲に無かったときに、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1）は最長要約セグメント時間長（ＤＲ_Max）以上にあると判断するようになっている。
【０２５５】
すなわち、ｉ番目の騒音区間におけるｊ番目の要約セグメントにおいて、区間［ＤＲ_Min、ＤＲ_Max］に無音区間（ＤＳ_i+1）の開始位置（ＳＴ）が見つかった場合、
ＳＥＳＳ_j ＝ＳＴ・・・（式６）
また、区間［ＤＲ_Min、ＤＲ_Max］に無音区間（ＤＳ_i+1）の開始位置（ＳＴ）が見つからず、区間［０、ＤＲ_Min］に見つかった場合、
ＳＥＳＳ_j ＝ＳＴＳＳ_i ＋ＤＲ_Min ・・・（式７）
さらに、区間［０、ＤＲ_mAX］に無音区間（ＤＳ_i+1）の開始位置（ＳＴ）が見つから無かった場合、
ＳＥＳＳ_j ＝ＳＴＳＳ_i ＋ＤＲ_Typ ・・・（式８）
となる。
【０２５６】
この無音区間（ＤＳ_i+1）の検出の順序は、最短要約セグメント時間長（ＤＲ_Min）以内に次の無音区間（ＤＳ_i+1）が存在しても、無音区間（例えば、無音区間（ＤＳ_i+n（ｎ≧２）））の開始位置が最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下に存在した場合には、最短要約セグメント時間長（ＤＲ_Min）以内に存在する次の無音区間（ＤＳ_i+1）を要約セグメントの開始時刻の基準となった無音区間（ＤＳ_i）の次の無音区間として取り扱わず、無音区間（ＤＳ_i+n（ｎ≧２））を無音区間（ＤＳ_i+1）として当該無音区間（ＤＳ_i+1）に基づいて要約セグメントの終了時刻を決定するようになっている。
【０２５７】
なお、騒音区間における要約セグメントの終了時刻の設定と同様に、無音区間によって各要約セグメントの終了時刻の設定は、後述する要約セグメント候補の絞り込み処理が行われ、当該絞り込まれた要約セグメントに対して設定されるようになっている。
【０２５８】
また、無音区間における重要度は、基本的には騒音区間と同様に無音区間の区間長（ＩＰＳＳ_j）に基づいて設定するが、決定パラメータ設定部１０６によって各要約セグメントに設定する重要度が最適化された場合にはその指示に従うようになっており、例えば、以下のような（式９）によって算出するようになっている。
【０２５９】
ＩＰＳＳ_j ＝ｆ（ＤＲＤＳ_i）・・・（式９）
なお、ｆ（・）は重み付け関数であり、本実施形態では、上述のように、（式１）または（式２）を用いるようになっている。
【０２６０】
〔要約セグメント候補の絞り込み処理〕
上述のように無音区間および騒音区間に基づいて決定された要約セグメント全てについて後述する要約再生の処理を行ってもよいが、処理量の軽減および不必要な要約セグメントによる要約再生を防ぐ、すなわち、重要度の低い要約セグメントであっても、後述する結合処理によって重要度が高くなる可能性があり、不適切な要約セグメントによる要約再生を防ぐため、決定された要約セグメントを絞り込むようになっている。
【０２６１】
本実施形態では、以下の（式１０）によってリスト化された要約セグメント候補から絞り込み処理を行うようになっている。
【０２６２】
この（式１０）は、全ての要約セグメントの時間が限界最短時間（ＤＲ_LMin）とした場合の絞り込む要約セグメントの数の定数倍（例えば、Ｋ₁＝２）と要約セグメント候補の数とを比較し、少ない方を要約セグメント数に設定するようになっている。
【０２６３】
例えば、リスト化された要約セグメント候補の数（ＮＰ_old）とし、要約時間Ｓ、とすると、新たに設定される要約セグメント候補の数（ＮＰ_new）は、
ＮＰ_new ＝Ｍｉｎ（Ｉｎｔ（ｋ₁×（Ｓ／ＤＲ_LMin）），ＮＰ_old）・・・（式１０）
となる。
【０２６４】
なお、ｋ₁は定数であり、Ｍｉｎ（ａ，ｂ）はａ，ｂのうち値の小さい方を選択することを示し、ＩＮＴ（・）は小数点以下の切り捨てを行うことを示す。また、ＮＰ_newは絞り込まれた数を示し、ＤＲ_LMinは限界最短時間を示す。
【０２６５】
この限界最短時間（ＤＲ_LMin）とは、人間が一つの要約セグメント内容を理解するのに必要最低限の時間であり、例えば、本実施形態では限界最短時間（ＤＲ_LMin）は４秒としている。
【０２６６】
このように算出された要約セグメント候補の数が絞り込む要約セグメントの数の定数倍より多い場合は、すなわち、ＮＰ_new＜ＮＰ_oldの場合は、重要度順に要約セグメント候補をＮＰ_new個選択し、それ以外は、要約セグメント候補から削除するようになっている。
【０２６７】
なお、本実施形態では、このように要約セグメント候補の絞り込みを行い、この絞り込まれた要約セグメント候補において、上述した設定方法によって各要約セグメントに終了時刻を設定するようになっている。
【０２６８】
〔最短／標準／最長要約セグメント時間長の設定〕
上述したように、抽出すべき要約セグメントは、なるべく長い時間長を有する方が当該場面を理解する上で必要である一方、不用意に長い時間長を有する場合には、無駄な情報が多くなるとともに、情報量が増大し映像情報を的確に要約することができないので、本実施形態では、後述する最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を設定するようになっている。
【０２６９】
例えば、本実施形態では、抽出すべき要約セグメントの各内容を各内容毎に的確に把握させるため、以下の式によって最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を設定するようになっている。
【０２７０】
最短要約セグメント時間長（ＤＲ_Min）についてはユーザにおける要約セグメントの見やすさを考慮して、比較的要約セグメントの時間長を長くするために（式１１）に示すようになっており、また、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）については、（式１１）によって算出された最短要約セグメント時間長（ＤＲ_Min）を定数倍することによって算出するようになっている。
ＤＲ_Min＝Ｍａｘ（ＤＲ_LMin，（Ｋ₂×（Ｓ／ＮＰ_new）））・・・（式１１）
ＤＲ_Typ ＝ＤＲ_Min × Ｋ_T1 ・・・（式１２）
ＤＲ_Max ＝ＤＲ_Min × Ｋ_T2 ・・・（式１３）
【０２７１】
なお、Ｋ_T1およびＫ_T2とも比例定数であり、Ｍａｘ（ａ，ｂ）はａ，ｂのうち値の大きい方を選択することを示す。また、Ｋ₂（≧１）は各要約セグメントの最短時間を決定する係数であり、この値が大きいほど最短時間が長くなるとともに、要約セグメントの数は減少するようになっている。例えば、本実施形態では、Ｋ₂＝１．２、Ｋ_T1＝２、Ｋ_T2＝３と設定するようになっている。
【０２７２】
〔要約セグメントの結合〕
ここで、本実施形態では、時間的に重なる複数の要約セグメントが有った場合にこれらの要約セグメントを一つの要約セグメントに結合するようになっており、この場合、結合することによって生成された要約セグメントの重要度は、各要約セグメントが有する重要度（ＩＰＳＳ_j）の高い方を選択するようになっている。
ＩＰＳＳ_j ＝Ｍａｘ（ＩＰＳＳ_j，ＩＰＳＳ_j±_n）・・・（式１４）
また、例えば、２つの要約セグメントＳＳ_j，ＳＳ_j+n（ＳＴＳＳ_j＜ＳＴＳＳ_(j+n) ＳＥＳＳ_j≧ＳＴＳＳ_(j+n)）とすると、
ＳＥＳＳ_j ＝ＳＥＳＳ_j+n ・・・（式１５）
となる。
【０２７３】
このため、たとえ要約セグメントの重要度が低い場合であっても、重要度の高い要約セグメントと時間的に重なっている場合に、重要度の高い要約セグメントを補完できるようになっている。
【０２７４】
〔要約セグメントの決定〕
本実施形態では、最後に指定された要約時間を達成するために、重要度順に要約セグメント候補の選択を行うようになっている。
また、選択された要約セグメント候補の総時間が指定された要約時間を超えるまで選択し、この選択されたセグメントを要約セグメントとするようになっている。
【０２７５】
ここで、重要度順に要約セグメントを決定する場合に、各要約セグメントは、異なるセグメント時間長を有するので、指定された要約時間を越えることがある。この要約時間が越えることが問題となるときは、例えば、オーバーした時間を決定された要約セグメント数で分配し、それぞれの要約セグメントの終了時刻から分配された時間長を削除する処理を行うようになっている。
【０２７６】
次に、図６を用いて本実施形態の要約再生動作について説明する。
【０２７７】
なお、図６は本実施形態における要約再生動作を示すフローチャートである。また、本動作は、要約再生に必要な音声映像情報が既に蓄積部１０４に蓄積されているものとし、ユーザが要約再生を指示したときに本動作を行うようになっている。
【０２７８】
まず、操作部１０５によってユーザから要約再生の指示が入力されると、音声特徴量抽出部１０２は蓄積部１０４からデマルチプレクサ１０１を介して音声映像情報における音声情報が入力され、予め設定されたパラメータに基づいて複数の音声区間、すなわち音声特徴量を取得するとともに（ステップＳ１１）、ジャンル情報取得部１０５は蓄積部１０４からデマルチプレクサ１０１を介して音声映像情報における番組配列情報からジャンル情報を取得する（取得処理工程（ステップＳ１２））。
【０２７９】
次いで、決定パラメータ設定部１０６は蓄積部１０４を介してジャンル情報を取得して最適な決定パラメータを設定して制御部１０８に出力するとともに、ジャンル情報に基づいて抽出すべき要約セグメントの重要度を設定する際のパラメータを設定する（最適化処理工程（ステップＳ１３））。
【０２８０】
次いで、制御部１０８は、決定パラメータ設定部１０６により設定された決定パラメータに適合するパラメータによって検出された音声区間を選択するとともに、当該選択された音声区間および決定パラメータ設定部１０６によって設定された重要度に基づいて上述の要約セグメントの決定処理を行う（決定処理工程（ステップＳ１４））。
【０２８１】
最後に、ステップ１４によって抽出すべき要約セグメントが決定されると、制御部１０８は、再生部１０７を制御して、要約再生を開始するとともに、この決定された要約セグメントに基づいて再生部１０７を制御して要約再生を行う（生成処理工程（ステップＳ１５））。
【０２８２】
以上により本実施形態によれば、要約セグメントを決定するときの音声特徴量、すなわち、基準となる複数の音声区間を検出するときの音声レベルおよび各要約セグメントの重要度を音声映像情報におけるジャンル情報に基づいて最適化することができるので、音声映像情報の種別が異なっても抽出すべき要約セグメントを的確に抽出することができ、音声映像情報の内容に即した要約情報を再生することができる。
【０２８３】
また、各閾値を最適化するのみで抽出すべき要約セグメントを的確に抽出することができるので、映像情報の種別毎に要約セグメントの決定処理処理動作の手続を変更すること無く容易に要約セグメントを決定することができる。
【０２８４】
また、検出した複数の音声区間の時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、音声映像情報の盛り上がった部分および内容が切り替わった部分を要約セグメントとして的確に抽出することができ、音声映像情報の内容に即した要約再生を行うことができる。
【０２８５】
また、異なる音声区間毎に最適化した重要度を各要約セグメントに設定することができるので、音声映像情報の種別が異なっても抽出すべき要約セグメントを的確に抽出することができ、音声映像情報の内容に即した要約再生を行うことができる。
【０２８６】
なお、本実施形態はデジタル信号によって構成された映像情報に基づいて要約再生を行うようになっているが、テレビジョン放送によって提供された番組などの映像情報にも適用することを可能である。
【０２８７】
また、本実施形態では、予め設定されたパラメータによって複数の音声区間を検出し、ジャンル情報に基づいて設定された決定パラメータに適合するパラメータによって検出された音声区間を選択して要約セグメントの決定処理を行うようになっていたが、上述のように、ジャンル情報を別に取得した場合には、取得したジャンル情報によって音声特徴量抽出部１０２における音声区間を検出するパラメータを最適化するようにしてもよい。
【０２８８】
また、本実施形態では、予め複数のパラメータによって複数の音声区間を抽出し、ジャンル情報に基づいて設定された決定パラメータに基づいて適合するパラメータによって抽出された音声区間に基づいて要約セグメントの決定処理を行うようになっているが、デジタル音声映像情報と別に取得することによって予め当該音声映像情報のジャンル情報を取得することができる場合には、取得したジャンル情報に基づいて決定パラメータを設定し、当該決定パラメータに基づいて複数の音声区間を抽出するようにしてもよい。
【０２８９】
また、本実施形態では、要約再生処理動作を、音声特徴量抽出部１０２、ジャンル情報取得部１０３、決定パラメータ設定部１０６、再生部１０７および制御部１０８によって行うようになっているが、要約再生処理動作を行うプログラムを記録媒体に書き込むとともに、当該記録媒体に格納されたプログラムをコンピュータによって読み出すことによって要約再生を実行するようにしてもよい。
【０２９０】
この場合、制御部１０８にこのプログラムを読み込み実行するコンピュータを備えるとともに、このコンピュータによって音声特徴量の抽出、ジャンル情報の取得、パラメータの設定、要約セグメント決定処理および要約再生を行うようになる。この結果、上述した要約再生装置と同様の効果を得ることができる。
【０２９１】
（II）変形形態
次に、本発明に係る変形形態について説明する。
【０２９２】
上述した実施形態においては、音声情報について、その騒音区間又は無音区間を用いて要約再生を行ったが、これ以外に、映像情報について、そのシーンチェンジ（場面変更）を利用して要約再生を行うこともできる。
【０２９３】
すなわち、具体的には、先ず、映像情報中におけるシーンチェンジを検出し、その後、当該検出した各シーシチェンジのタイミングを開始時刻として固定時間(例えば１０秒)だけの再生を繰り返すことで上述してきた要約再生を行うように構成することが可能である。
【０２９４】
ここで、当該要約再生に必要な全体の時間を調整するために、シーンチェンジの検出に対して重み付け（重要度の差を設けること）を行うように構成しても良い。そして、その重要度の決定には直前のシーンチェンジとの時間間隔を利用することが望ましく、当該重要度が高い順に要約再生で使用すべきシーンチェンジを決定するのである。更に、この重み付け関数をジャンル情報を用いて最適化するように構成することもできる。
【０２９５】
次に、より具体的に二つの例について説明する。
【０２９６】
〔ニュース番組の場合〕
初めに、ニュース番組の場合を例として説明する。
【０２９７】
ニュース番組の内容を広く浅く拾い読みする（すなわち、要約再生する）には、なるべく多くのニュース内容を選択すべく、シーンチェンジ間隔が長いときのその後の部分を選んで再生することが望ましい。一方、逆に頻繁にシーンチェンジが為されるときはその後の部分は内容的にはほぼ同一であることが多い。よって、シーンチェンジの間隔が長い場合は重要度が高く、シーンチェンジの間隔が短い場合は重要度が低いと判断し、例えばｆ(x)=ａ×ｘ＋ｂ形式の演算式により重要度を決定するのがよい。
【０２９８】
〔スポーツ番組の場合〕
次に、スポーツ番組の場合を例として説明する。
【０２９９】
例えば、野球放送におけるピッチングのシーンや、サッカー放送におけるパスのシーン等、要約再生ではあまり重要でないシーンは、夫々のシーンチェンジの間隔が短い場合が多い。一方、野球放送におけるヒットのシーンや、サッカー放送におけるゴールのシーン等、要約再生で重要な部分は、夫々のシーンの巻き戻し再生や対象者のズームアップなどシーンチェンジが頻発する場合が多い。よって、シーンチェンジの間隔が長い場合はその重要度が低く、シーンチエンジの間隔が短い場合はその重要度が高いと判断し、例えばｆ(x)=（ａ／ｘ）＋ｂ形式の演算式により重要度を決定するのがよい。
【０３００】
また、本実施形態では、要約再生装置１００が、上述のようにジャンル情報取得部１０３、決定パラメータ部１０６、再生部１０７および制御部１０８などによって構成されているが、制御部１０８にコンピュータおよびハードディスクなどの記録媒体を備え、ジャンル情報取得部１０３、決定パラメータ部１０６、再生部１０７および制御部１０８など要約再生装置１００の各部に対応する上記処理を行うプログラムを当該記録媒体に格納し、当該プログラムをコンピュータに読み取らせることによって、上述したジャンル情報取得部１０３、決定パラメータ部１０６、再生部１０７および制御部１０８など要約再生装置１００の各部のそれぞれの動作を行うようにしてもよい。
この場合、上述した要約再生動作を行うときは、当該格納されたプログラムによりコンピュータを動作させることによって当該要約再生動作を行うようにする。また、この場合、制御部１０８は、本発明に係る取得手段、最適化手段、設定手段、生成手段および決定手段を構成する。
【０３０１】
【発明の効果】
以上説明したように、請求項１記載の発明によれば、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【０３０２】
また、請求項２記載の発明によれば、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【０３０３】
また、請求項３に記載の発明によれば、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３０４】
また、請求項４に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【０３０５】
また、請求項５に記載の発明によれば、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【０３０６】
また、請求項６に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【０３０７】
また、請求項７に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３０８】
また、請求項８に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３０９】
また、請求項９に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３１０】
また、請求項１０に記載の発明によれば、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３１１】
また、請求項１１に記載の発明によれば、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【０３１２】
また、請求項１２に記載の発明によれば、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【０３１３】
また、請求項１３に記載の発明によれば、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３１４】
また、請求項１４に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【０３１５】
また、請求項１５に記載の発明によれば、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【０３１６】
また、請求項１６に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【０３１７】
また、請求項１７に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３１８】
また、請求項１８に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３１９】
また、請求項１９に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３２０】
また、請求項２０に記載の発明によれば、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３２１】
また、請求項２１に記載の発明によれば、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【０３２２】
また、請求項２２に記載の発明によれば、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【０３２３】
また、請求項２３に記載の発明によれば、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３２４】
また、請求項２４に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【０３２５】
また、請求項２５に記載の発明によれば、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【０３２６】
また、請求項２６に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【０３２７】
また、請求項２７に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３２８】
また、請求項２８に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３２９】
また、請求項２９に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【０３３０】
また、請求項３０に記載の発明によれば、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【図面の簡単な説明】
【図１】本発明に係る要約再生装置の構成を示すブロック図である。
【図２】一実施形態における無音区間および騒音区間の検出原理を説明するための図である。
【図３】一実施形態において複数の騒音区間を検出する原理を説明する図である。
【図４】騒音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明する図である。
【図５】無音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明する図である。
【図６】一実施形態における要約再生動作を示すフローチャートである。
【図７】従来の要約再生装置の構成を示すブロック図である。
【符号の説明】
１００ … 要約再生装置
１０１ … デマルチプレクサ
１０２ … 音声特徴量抽出部
１０３ … ジャンル情報取得部（取得手段）
１０４ … 蓄積部
１０５ … 操作部
１０６ … 決定パラメータ設定部（最適化手段）
１０７ … 再生部（生成手段）
１０８ … 制御部（取得手段、最適化手段、設定手段、決定手段、生成手段）
１０９ … 表示部

Claims

音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、
前記コンテンツ情報の種別を識別する識別情報を取得する取得手段と、
最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約装置。
音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、
前記映像情報の種別を識別する識別情報を外部から取得する取得手段と、
最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記音声情報を複数の前記音声区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約装置。
請求項２に記載の映像情報要約装置において、
前記決定手段が、前記分類した複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報を決定することを特徴とする映像情報要約装置。
請求項２または３に記載の映像情報要約装置において、
前記取得した識別情報によって無音部分を有する映像情報であることを識別した場合に、
前記決定手段が、前記音声情報を分類することによって少なくとも一部に前記無音部分を有する無音区間を取得し、少なくとも当該無音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記決定手段が前記無音区間を取得するときに用いられる前記閾値を最適化することを特徴とする映像情報要約装置。
請求項２または３に記載の映像情報要約装置において、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記決定手段が前記歓声音区間を取得するときに用いられる前記閾値を最適化することを特徴とする映像情報要約装置。
音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、
前記コンテンツ情報の種別を識別する識別情報を取得する取得手段と、
前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段と、
前記最適化された重要度を前記各部分映像情報に設定する設定手段と、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約装置。
音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、
前記映像情報の種別を識別する識別情報を取得する取得手段と、
前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段と、
前記最適化された重要度を前記各部分映像情報に設定する設定手段と、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約装置。
請求項７に記載の映像情報要約装置において、
前記決定手段が異なる閾値に基づいて前記抽出すべき部分映像情報を決定する場合に、
前記最適化手段が、前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度を最適化するとともに、前記設定手段が、前記最適化された重要度を前記部分映像情報に設定することを特徴とする映像情報要約装置。
請求項７または８に記載の映像情報要約装置において、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度を最適化することを特徴とする映像情報要約装置。
音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、
前記コンテンツ情報の種別を識別する識別情報を取得する取得処理工程と、
最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、
前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化処理工程と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約方法。
音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、
前記映像情報の種別を識別する識別情報を外部から取得する取得処理工程と、
最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、
前記音声情報を複数の前記音声区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化処理工程と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、
を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約方法。
請求項１１に記載の映像情報要約方法において、
前記決定処理工程においては前記分類された複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報が決定されることを特徴とする映像情報要約方法。
請求項１１または１２に記載の映像情報要約方法において、
前記取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されるときに少なくとも一部に前記無音部分を有する無音区間が取得され、少なくとも当該無音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程においては前記無音区間が取得されるときに用いられる前記閾値が最適化されることを特徴とする映像情報要約方法。
音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、
前記コンテンツ情報の種別を識別する識別情報を取得する取得処理工程と、
前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化処理工程と、
前記最適化された重要度を前記各部分映像情報に設定する設定処理工程手段と、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成処理工程と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約方法。
音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、
前記映像情報の種別を識別する識別情報を取得する取得処理工程と、
前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化処理工程と、
前記最適化された重要度を前記各部分映像情報に設定する設定処理工程と、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成処理工程と、
を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約方法。
請求項１５に記載の映像情報要約方法において、
前記決定処理工程によって異なる閾値に基づいて前記抽出すべき部分映像情報が決定される場合に、前記最適化処理工程においては前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度が最適化されるとともに、前記設定処理工程においては前記最適化された重要度が前記部分映像情報に設定されることを特徴とする映像情報要約方法。
請求項１５または１６に記載の映像情報要約方法において、
前記取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されるときに少なくとも一部に前記無音部分を有する無音区間が取得され、少なくとも当該無音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程においては前記無音区間に基づいて決定された前記部分映像情報に設定される前記重要度が最適化されることを特徴とする映像情報要約方法。
請求項１５または１６に記載の映像情報要約方法において、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されたときに前記歓声音を有する歓声音区間が取得され、少なくとも当該歓声音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程においては前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度が最適化されることを特徴とする映像情報要約方法。
コンピュータによって、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、
前記コンピュータを、
前記コンテンツ情報の種別を識別する識別情報を取得する取得手段、
最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、
前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる１または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段、及び、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、
として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約プログラム。
コンピュータによって、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、
前記コンピュータを、
前記映像情報の種別を識別する識別情報を外部から取得する取得手段、
最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、
前記音声情報を複数の前記音声区間に分類するときに用いられる１または複数の閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、
として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約プログラム。
請求項２０に記載の映像情報要約プログラムにおいて、
前記コンピュータを、
前記分類した複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報を決定する決定手段、
として機能させることを特徴とする映像情報要約プログラム。
請求項２０または２１に記載の映像情報要約プログラムにおいて、
前記取得した識別情報によって無音部分を有する映像情報であることを識別した場合に、
前記コンピュータを、
前記音声情報を分類することによって少なくとも一部に前記無音部分を有する無音区間を取得し、少なくとも当該無音区間に基づいて前記部分映像情報を決定する前記決定手段、
前記決定手段が前記無音区間を取得するときに用いられる前記閾値を最適化する前記最適化手段、
として機能させることを特徴とする映像情報要約プログラム。
請求項２０または２１に記載の映像情報要約プログラムにおいて、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、
前記コンピュータを、
前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定する決定手段、
前記決定手段が前記歓声音区間を取得するときに用いられる前記閾値を最適化する最適化手段、
として機能させることを特徴とする映像情報要約プログラム。
コンピュータによって、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、
前記コンピュータを、
前記コンテンツ情報の種別を識別する識別情報を取得する取得手段、
前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段、
前記最適化された重要度を前記各部分映像情報に設定する設定手段、及び、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段、
として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とするコンテンツ情報要約プログラム。
コンピュータによって、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、
前記コンピュータを、
前記映像情報の種別を識別する識別情報を取得する取得手段、
前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段、
前記最適化された重要度を前記各部分映像情報に設定する設定手段、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段、
として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約プログラム。
請求項２５に記載の映像情報要約プログラムにおいて、
異なる閾値に基づいて前記抽出すべき部分映像情報を決定する場合に、
前記コンピュータを、前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度を最適化する最適化手段、
前記最適化された重要度を前記部分映像情報に設定する設定手段、
として機能させることを特徴とする映像情報要約プログラム。
請求項２５または２６に記載の映像情報要約プログラムにおいて、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、
前記コンピュータを、
前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定する決定手段、
前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度を最適化する最適化手段、
として機能させることを特徴とする映像情報要約プログラム。