JP4615166B2 - 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム - Google Patents
映像情報要約装置、映像情報要約方法及び映像情報要約プログラム Download PDFInfo
- Publication number
- JP4615166B2 JP4615166B2 JP2001304360A JP2001304360A JP4615166B2 JP 4615166 B2 JP4615166 B2 JP 4615166B2 JP 2001304360 A JP2001304360 A JP 2001304360A JP 2001304360 A JP2001304360 A JP 2001304360A JP 4615166 B2 JP4615166 B2 JP 4615166B2
- Authority
- JP
- Japan
- Prior art keywords
- video information
- information
- time length
- extracted
- partial video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
【発明の属する技術分野】
本発明は、音声が付帯された映像情報における要約再生装置の技術分野に属し、より詳細には、音声レベルに基づいて抽出すべき部分映像情報を決定する技術分野に属する。
【0002】
【従来の技術】
近年、テレビジョン放送による番組など映像情報を録画・再生するVTR(Video Tape Recorder)などの記録装置が普及するにつれて、記録された映像情報を全て見ることなく当該映像情報を短時間に要約した映像情報(以下、要約情報という)を提供するダイジェスト再生(要約再生)が実用に供されるようになっている。
【0003】
一方、映像情報には、さまざまなものが考えられ、例えば、テレビジョン放送によって提供される番組では、映画、ニュース番組、歌番組、スポーツ観戦番組などそのジャンルは多岐に亘る。このため、映像情報の種類によって短時間に要約する際の抽出すべき部分映像情報の特徴部分が異なるので、的確に映像情報の特徴部分を抽出するためには映像情報の種類の情報を取得する必要がある。
【0004】
すなわち、スポーツ番組であれば、盛り上がった部分がその映像情報の特徴的な部分になるので、この盛り上がった部分を的確に抽出する必要があり、また、ニュース番組であれば、各ニュース毎の冒頭の部分には次のニュースの概略が示されるので、各ニュース内容が切り替わった部分を的確に抽出する必要がある。
【0005】
従来、このような映像種別を識別して要約再生を行う代表的なものとしては、特開平9−219835号公報記載の映像情報要約装置が知られている。
【0006】
同公報記載の映像情報要約装置1は、図7に示すように、入力された映像情報をデジタル化または復号化する映像情報入力部2と、映像情報入力部2から出力された映像情報から映像情報の種別を識別するジャンル情報取得部3と、映像種別を属性として映像区間の管理を行う映像区間管理部4と、映像種別に応じて映像情報およびその一部の区間の代表画素を作成する画素作成部5と、画素作成部5によって作成された各代表画素を空間的および時間的にレイアウトして要約映像情報を生成するレイアウト部6と、生成された映像情報を表示する表示部7とを備え、映像情報の種別毎に効率的な要約映像情報を生成できるようになっている。
【0007】
【発明が解決しようとする課題】
しかしながら、上述のような要約再生方法にあっては、要約映像情報を生成する際に、映像情報の種別毎に異なる処理を行わなければならないという問題を有していた。すなわち、上述の要約再生方法にあっては、ニュース番組、映画などの映像情報の種別毎に要約再生時に必要とされる代表画素を異なる手続によって作成し、要約映像情報を生成するので、要約映像情報の生成過程による処理の負担が増大し、また、この生成処理が煩雑になっていた。
【0008】
本発明は、上記の各問題点に鑑みて為されたもので、その課題は、映像情報の種別毎に的確に要約再生を行うことができるとともに、要約情報の生成処理の負担を軽減することのできる要約情報装置を提供することにある。
【0009】
上記の課題を解決するために、請求項1に記載の発明は、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、前記コンテンツ情報の種別を識別する識別情報を取得する取得手段と、最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成をしている。
【0010】
この構成により、請求項1に記載の発明では、取得手段がコンテンツ情報の種別を識別する識別情報を取得し、最適化手段がこの識別情報に基づいて映像情報における1または複数の閾値を最適な値に設定すると、決定手段が最適化された閾値によってコンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて抽出すべき部分映像情報を決定するとともに、生成手段が決定された部分映像情報によって要約情報を生成する。
【0011】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報(映像情報を少なくとも含むコンテンツ情報であり、当該映像情報の他に音声情報又はデータ情報を含む場合もある。以下、同様)に含まれる映像情報の特徴は変化する。
【0012】
例えば、ニュース番組には、各ニュースの合間にはいわゆるシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、コンテンツ情報の特徴的な部分を示す。
【0013】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分では、シーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【0014】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【0015】
したがって、本発明では、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0016】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0017】
上記の課題を解決するために、請求項2に記載の発明は、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、前記映像情報の種別を識別する識別情報を外部から取得する取得手段と、最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記音声情報を複数の前記音声区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0018】
この構成により、請求項2に記載の発明では、取得手段が映像情報の種別を識別する識別情報を取得し、最適化手段がこの識別情報に基づいて音声情報における1または複数の閾値を最適な値に設定すると、決定手段が最適化された閾値によって映像情報を複数の音声区間に分類し、当該分類した音声区間に基づいて抽出すべき部分映像情報を決定するとともに、生成手段が決定された部分映像情報によって要約情報を生成する。
【0019】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【0020】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、映像情報の特徴的な部分を示す。
【0021】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。また、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要がある。
【0022】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【0023】
したがって、本発明では、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0024】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0025】
また、請求項3に記載の発明は、請求項2に記載の映像情報要約装置において、前記決定手段が、前記分類した複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報を決定する構成を有している。
【0026】
この構成により、請求項3に記載の発明では、決定手段が、分類した複数の音声区間の少なくとも何れか一種類の、映像情報中における少なくとも時間軸上の位置に基づいて抽出されるべき部分映像情報を決定する。
【0027】
通常、映像情報に付帯される音声情報は、番組の盛り上がった部分、場面が転換された部分、または、内容が切り替わった部分などの特徴部分を示すので、当該映像情報の時間長を短縮して要約を行う際には重要な役割を果たす。
【0028】
例えば、音声情報が付帯された映像情報において無音部分に続く部分は、次の内容の冒頭部分、特に当該内容の概略が示されることも多いので、無音部分の時間軸上の終了位置が映像情報の内容を把握する上で重要な部分となる。また、映像情報における盛り上がった音声が大きくなった騒音部分も特徴部分となるので、騒音部分の開始位置は映像情報の内容を把握する上で重要な部分となる。
【0029】
したがって、本発明では、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0030】
また、請求項4に記載の発明は、請求項2または3に記載の映像情報要約装置において、前記取得した識別情報によって無音部分を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって少なくとも一部に前記無音部分を有する無音区間を取得し、少なくとも当該無音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記決定手段が前記無音区間を取得するときに用いられる前記閾値を最適化する構成を有している。
【0031】
この構成により、請求項4に記載の発明では、取得手段が取得した識別情報が無音部分を有する映像情報であることを識別した場合に、最適化手段が、決定手段が無音区間を取得するときに用いられる閾値を最適化するとともに、決定手段がこの最適化された閾値に基づいて音声情報から無音区間を取得して抽出すべき部分映像情報を決定する。
【0032】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、特徴部分を抽出する際に無音部分を的確に検出することが重要となる。
【0033】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【0034】
また、請求項5に記載の発明は、請求項2または3に記載の映像情報要約装置において、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記決定手段が前記歓声音区間を取得するときに用いられる前記閾値を最適化する構成を有している。
【0035】
この構成により、請求項5に記載の発明は、取得手段が取得した映像情報の識別情報が音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、最適化手段が、決定手段が歓声音区間を取得するときの閾値を最適化するとともに、決定手段がこの最適化された閾値に基づいて音声情報から無音区間を取得して抽出すべき部分映像情報を決定する。
【0036】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、特徴部分を抽出する際に歓声音区間を的確に検出することが重要となる。
【0037】
したがって、本発明では、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【0038】
また、請求項6に記載された発明は、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、前記コンテンツ情報の種別を識別する識別情報を取得する取得手段と、前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段と、前記最適化された重要度を前記各部分映像情報に設定する設定手段と、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段と、を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成をしている。
【0039】
この構成により、請求項6に記載の発明では、取得手段がコンテンツ情報の種別を識別する識別情報を取得し、決定手段が閾値に基づいてコンテンツ情報を複数のコンテンツ区間に分類して抽出すべき部分映像情報を決定するとともに、最適化手段が各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、設定手段が最適化された重要度を部分映像情報に設定し、生成手段が決定された部分映像情報および重要度に基づいて要約情報を生成する。
【0040】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に付帯される映像情報の特徴は変化する。
【0041】
例えば、ニュース番組には、各ニュースの合間にはシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、コンテンツ情報の特徴的な部分を示す。したがって、シーンチェンジ以外の他の区間に比べ重要度は高い。
【0042】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分ではシーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【0043】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【0044】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【0045】
また、請求項7に記載された発明は、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、前記映像情報の種別を識別する識別情報を取得する取得手段と、前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段と、前記最適化された重要度を前記各部分映像情報に設定する設定手段と、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段と、を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0046】
この構成により、請求項7に記載の発明では、取得手段が映像情報の種別を識別する識別情報を取得し、決定手段が閾値に基づいて映像情報を複数の音声区間に分類して抽出すべき部分映像情報を決定するとともに、最適化手段が各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、設定手段が最適化された重要度を部分映像情報に設定し、生成手段が決定された部分映像情報および重要度に基づいて要約情報を生成する。
【0047】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【0048】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、映像情報の特徴的な部分を示す。したがって、騒音区間などの他の音声区間に比べ重要度は高い。
【0049】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。さらに、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要があるとともに、盛り上がった内容を的確に抽出して要約再生を行う場合に、基準となる区間によって要約再生時の重要度の設定を変える必要がある。
【0050】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【0051】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0052】
また、請求項8に記載の発明は、請求項7に記載の映像情報要約装置において、前記決定手段が異なる閾値に基づいて前記抽出すべき部分映像情報を決定する場合に、前記最適化手段が、前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度を最適化するとともに、前記設定手段が、前記最適化された重要度を前記部分映像情報に設定する構成を有している。
【0053】
この構成により、請求項8に記載の発明では、決定手段が異なる閾値に基づいて抽出すべき部分映像情報を決定する場合に、設定手段が異なる閾値毎に取得した識別情報に基づいて最適化した重要度を、決定された各部分映像情報に設定する。
【0054】
映像情報の種別によって映像情報に付帯される音声特性が異なり、要約再生が行われる映像情報毎に音声区間の重要度が異なる。特に、ニュース番組など無音区間を有する映像情報では、音声レベルが高い区間に比べ無音区間の重要度は高い。また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、無音区間より音声レベルが高い区間の重要度は高く、また、複数の音声レベルによって部分映像情報を決定する場合は、異なる音声レベルによって要約再生時の重要度が異なる。
【0055】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0058】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、要約再生する時に無音部分を的確に再生することが重要となる。
【0059】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0060】
また、請求項9に記載の発明は、請求項7または8に記載の映像情報要約装置において、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度を最適化する構成を有している。
【0061】
この構成により、請求項9に記載の発明は、取得した識別情報によって音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、決定手段が前記音声区間を分類することによって歓声音を有する歓声音区間を取得し、当該歓声音区間に基づいて部分映像情報を決定するとともに、最適化手段が歓声音区間に基づいて決定された部分映像情報に設定される重要度を最適化する。
【0062】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、音声情報を構成する背景雑音に歓声音を有する映像情報では、要約再生する時に大きな歓声音を有する区間を的確に再生することが重要となる。
【0063】
したがって、本発明では、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0064】
また、請求項10に記載の発明は、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、前記コンテンツ情報の種別を識別する識別情報を取得する取得処理工程と、最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化処理工程と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0065】
この構成により、請求項10に記載の発明では、取得処理工程によってコンテンツ情報の種別を識別する識別情報を取得し、最適化処理工程によってこの識別情報に基づいて映像情報における1または複数の閾値を最適な値に設定すると、決定処理工程において最適化された閾値によってコンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて抽出すべき部分映像情報を決定するとともに、生成処理工程が決定された部分映像情報によって要約情報を生成する。
【0066】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に含まれる映像情報の特徴は変化する。
【0067】
例えば、ニュース番組には、各ニュースの合間にはいわゆるシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、コンテンツ情報の特徴的な部分を示す。
【0068】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分では、シーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【0069】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【0070】
したがって、本発明では、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【0071】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0072】
また、請求項11に記載の発明は、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、前記映像情報の種別を識別する識別情報を外部から取得する取得処理工程と、最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、前記音声情報を複数の前記音声区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化処理工程と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0073】
この構成により、請求項11に記載の発明では、取得処理工程によって映像情報の種別を識別する識別情報が取得され、最適化処理工程によってこの識別情報に基づいて音声情報における1または複数の閾値が最適な値に設定されると、決定処理工程によって最適化された閾値により映像情報が複数の音声区間に分類され、当該分類された音声区間に基づいて抽出すべき部分映像情報が決定されるとともに、生成処理工程によって決定された部分映像情報により要約情報が生成される。
【0074】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【0075】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、映像情報の特徴的な部分を示す。
【0076】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。また、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要がある。
【0077】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【0078】
したがって、本発明では、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0079】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0080】
また、請求項12に記載の発明は、請求項11に記載の映像情報要約方法において、前記決定処理工程においては前記分類された複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報が決定される構成を有している。
【0081】
この構成により、請求項12に記載の発明では、決定処理工程によって分類された複数の音声区間の少なくとも何れか一種類の、映像情報中における少なくとも時間軸上の位置に基づいて抽出されるべき部分映像情報を決定する。
【0082】
通常、映像情報に付帯される音声情報は、番組の盛り上がった部分、場面が転換された部分、または、内容が切り替わった部分などの特徴部分を示すので、当該映像情報の時間長を短縮して要約を行う際には重要な役割を果たす。
【0083】
例えば、音声情報が付帯された映像情報において無音部分に続く部分は、次の内容の冒頭部分、特に当該内容の概略が示されることも多いので、無音部分の時間軸上の終了位置が映像情報の内容を把握する上で重要な部分となる。また、映像情報における盛り上がった音声が大きくなった騒音部分も特徴部分となるので、騒音部分の開始位置は映像情報の内容を把握する上で重要な部分となる。
【0084】
したがって、本発明では、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0085】
また、請求項13に記載の発明は、請求項11または12に記載の映像情報要約方法において、前記取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されるときに少なくとも一部に前記無音部分を有する無音区間が取得され、少なくとも当該無音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程においては前記無音区間が取得されるときに用いられる前記閾値が最適化される構成を有している。
【0086】
この構成により、請求項13に記載の発明では、取得した識別情報が無音部分を有する映像情報であることが識別された場合に、最適化処理工程によって無音区間を取得するときに用いられる閾値が最適化されるとともに、決定処理工程よってこの最適化された閾値に基づいて音声情報から無音区間が取得されて抽出すべき部分映像情報が決定される。
【0087】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、特徴部分を抽出する際に無音部分を的確に検出することが重要となる。
【0088】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【0091】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、特徴部分を抽出する際に歓声音区間を的確に検出することが重要となる。
【0092】
したがって、本発明では、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【0093】
また、請求項14に記載の発明は、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、前記コンテンツ情報の種別を識別する識別情報を取得する取得処理工程と、前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化処理工程と、前記最適化された重要度を前記各部分映像情報に設定する設定処理工程手段と、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成処理工程と、を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0094】
この構成により、請求項14に記載の発明では、取得処理工程によってコンテンツ情報の種別を識別する識別情報を取得し、決定処理工程によって閾値に基づいてコンテンツ情報を複数のコンテンツ区間に分類して抽出すべき部分映像情報を決定するとともに、最適化処理工程によって各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、設定処理工程によって最適化された重要度を部分映像情報に設定し、生成処理工程によって決定された部分映像情報および重要度に基づいて要約情報を生成する。
【0095】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に付帯される映像情報の特徴は変化する。
【0096】
例えば、ニュース番組には、各ニュースの合間にはシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、コンテンツ情報の特徴的な部分を示す。したがって、シーンチェンジ以外の他の区間に比べ重要度は高い。
【0097】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分ではシーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【0098】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【0099】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【0100】
また、請求項15に記載の発明は、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、前記映像情報の種別を識別する識別情報を取得する取得処理工程と、前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、前記各部分映像情報に設定される重要度を、前記取得した識別情報に基づいて最適化する最適化処理工程と、前記最適化された重要度を前記各部分映像情報に設定する設定処理工程と、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成処理工程と、を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0101】
この構成により、請求項15に記載の発明では、取得処理工程によって映像情報の種別を識別する識別情報が取得され、決定処理工程によって閾値に基づいて映像情報が複数の音声区間に分類されて抽出すべき部分映像情報が決定されるとともに、最適化処理工程によって各部分映像情報に設定される重要度が、取得された識別情報に基づいて最適化されると、設定処理工程によって最適化された重要度が部分映像情報に設定され、生成処理工程によって決定された部分映像情報および重要度に基づいて要約情報が生成される。
【0102】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【0103】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、映像情報の特徴的な部分を示す。したがって、騒音区間などの他の音声区間に比べ重要度は高い。
【0104】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。さらに、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要があるとともに、盛り上がった内容を的確に抽出して要約再生を行う場合に、基準となる区間によって要約再生時の重要度の設定を変える必要がある。
【0105】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【0106】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0107】
また、請求項16に記載の発明は、請求項15に記載の映像情報要約方法において、前記決定処理工程によって異なる閾値に基づいて前記抽出すべき部分映像情報が決定される場合に、前記最適化処理工程においては前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度が最適化されるとともに、前記設定処理工程においては前記最適化された重要度が前記部分映像情報に設定される構成を有している。
【0108】
この構成により、請求項16に記載の発明では、決定処理工程によって異なる閾値に基づいて抽出すべき部分映像情報が決定される場合に、設定処理工程によって異なる閾値毎に取得した識別情報に基づいて最適化された重要度が、決定された各部分映像情報に設定される。
【0109】
映像情報の種別によって映像情報に付帯される音声特性が異なり、要約再生が行われる映像情報毎に音声区間の重要度が異なる。特に、ニュース番組など無音区間を有する映像情報では、音声レベルが高い区間に比べ無音区間の重要度は高い。また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、無音区間より音声レベルが高い区間の重要度は高く、また、複数の音声レベルによって部分映像情報を決定する場合は、異なる音声レベルによって要約再生時の重要度が異なる。
【0110】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0111】
また、請求項17に記載の発明は、請求項15または16に記載の映像情報要約方法において、前記取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されるときに少なくとも一部に前記無音部分を有する無音区間が取得され、少なくとも当該無音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程によって前記無音区間に基づいて決定された前記部分映像情報に設定される前記重要度が最適化される構成を有している。
【0112】
この構成により、請求項17に記載の発明は、取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、決定処理工程によって分類された音声区間の中から少なくとも一部に無音部分を有する無音区間が取得され、当該無音区間に基づいて部分映像情報が決定されるとともに、最適化処理工程によって無音区間に基づいて決定された前記部分映像情報に設定される前記重要度が最適化される。
【0113】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、要約再生する時に無音部分を的確に再生することが重要となる。
【0114】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0115】
また、請求項18に記載の発明は、請求項15または16に記載の映像情報要約方法において、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、前記決定処理工程によって前記音声情報が複数の前記音声区間に分類されるときに前記歓声音を有する歓声音区間が取得され、少なくとも当該歓声音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程によって前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度が最適化される構成を有している。
【0116】
この構成により、請求項18に記載の発明は、取得した識別情報によって音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、決定処理工程によって前記音声情報が複数の前記音声区間に分類されるときに歓声音を有する歓声音区間が取得され、当該歓声音区間に基づいて部分映像情報が決定されるとともに、最適化処理工程によって歓声音区間に基づいて決定された部分映像情報に設定される重要度が最適化される。
【0117】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、音声情報を構成する背景雑音に歓声音を有する映像情報では、要約再生する時に大きな歓声音を有する区間を的確に再生することが重要となる。
【0118】
したがって、本発明では、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0119】
また、請求項19に記載の発明は、コンピュータによって、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、前記コンピュータを、前記コンテンツ情報の種別を識別する識別情報を取得する取得手段、最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段、及び、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0120】
この構成により、請求項19に記載の発明では、コンピュータによって、コンテンツ情報の種別を識別する識別情報を取得し、この識別情報に基づいて映像情報における1または複数の閾値を最適な値に設定すると、最適化された閾値によってコンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて抽出すべき部分映像情報を決定するとともに、決定された部分コンテンツ情報によって要約情報を生成する。
【0121】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に含まれる映像情報の特徴は変化する。
【0122】
例えば、ニュース番組には、各ニュースの合間にはいわゆるシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、コンテンツ情報の特徴的な部分を示す。
【0123】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分では、シーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【0124】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【0125】
したがって、本発明では、部分コンテンツ情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【0126】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0127】
また、請求項20に記載の発明は、コンピュータによって、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、前記コンピュータを、前記映像情報の種別を識別する識別情報を外部から取得する取得手段、前記最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、前記音声情報を複数の前記音声区間に分類するときに用いられる1または複数の閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0128】
この構成により、請求項20に記載の発明では、コンピュータによって、映像情報の種別を識別する識別情報を取得し、この識別情報に基づいて音声情報における1または複数の閾値を最適な値に設定すると、最適化された閾値によって映像情報を複数の音声区間に分類し、当該分類した音声区間に基づいて抽出すべき部分映像情報を決定するとともに、決定された部分映像情報によって要約情報を生成する。
【0129】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【0130】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示めすことも多く、映像情報の特徴的な部分を示す。
【0131】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。また、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要がある。
【0132】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【0133】
したがって、本発明では、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0134】
また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0135】
また、請求項21に記載の発明は、請求項20に記載の映像情報要約プログラムにおいて、前記コンピュータを、前記分類した複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報を決定する決定手段、として機能させる構成を有している。
【0136】
この構成により、請求項21に記載の発明では、コンピュータによって、分類した複数の音声区間の少なくとも何れか一種類の、映像情報中における少なくとも時間軸上の位置に基づいて抽出されるべき部分映像情報を決定する。
【0137】
通常、映像情報に付帯される音声情報は、番組の盛り上がった部分、場面が転換された部分、または、内容が切り替わった部分などの特徴部分を示すので、当該映像情報の時間長を短縮して要約を行う際には重要な役割を果たす。
【0138】
例えば、音声情報が付帯された映像情報において無音部分に続く部分は、次の内容の冒頭部分、特に当該内容の概略が示されることも多いので、無音部分の時間軸上の終了位置が映像情報の内容を把握する上で重要な部分となる。また、映像情報における盛り上がった音声が大きくなった騒音部分も特徴部分となるので、騒音部分の開始位置は映像情報の内容を把握する上で重要な部分となる。
【0139】
したがって、本発明では、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0140】
また、請求項22に記載の発明は、請求項20または21に記載の映像情報要約プログラムにおいて、前記取得した識別情報によって無音部分を有する映像情報であることを識別した場合に、前記コンピュータを、前記音声情報を分類することによって少なくとも一部に前記無音部分を有する無音区間を取得し、少なくとも当該無音区間に基づいて前記部分映像情報を決定する前記決定手段、前記決定手段が前記無音区間を取得するときに用いられる前記閾値を最適化する前記最適化手段、として機能させる構成を有している。
【0141】
この構成により、請求項22に記載の発明では、取得した識別情報が無音部分を有する映像情報であることを識別した場合に、コンピュータによって、無音区間を取得するときに用いられる閾値を最適化するとともに、この最適化された閾値に基づいて音声情報から無音区間を取得して抽出すべき部分映像情報を決定する。
【0142】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、特徴部分を抽出する際に無音部分を的確に検出することが重要となる。
【0143】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【0144】
また、請求項23に記載の発明は、請求項20または21に記載の映像情報要約プログラムにおいて、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記コンピュータを、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定する決定手段、前記決定手段が前記歓声音区間を取得するときに用いられる前記閾値を最適化する最適化手段、として機能させる構成を有している。
【0145】
この構成により、請求項23に記載の発明は、取得した映像情報の識別情報が音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、コンピュータによって、歓声音区間を取得するときの閾値を最適化するとともに、この最適化された閾値に基づいて音声情報から無音区間を取得して抽出すべき部分映像情報を決定する。
【0146】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、特徴部分を抽出する際に歓声音区間を的確に検出することが重要となる。
【0147】
したがって、本発明では、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【0148】
また、請求項24に記載の発明は、コンピュータによって、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、前記コンピュータを、前記コンテンツ情報の種別を識別する識別情報を取得する取得手段、前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段、前記最適化された重要度を前記各部分映像情報に設定する設定手段、及び、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段、として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0149】
この構成により、請求項24に記載の発明では、コンピュータによって、コンテンツ情報の種別を識別する識別情報を取得し、閾値に基づいてコンテンツ情報を複数のコンテンツ区間に分類して抽出すべき部分映像情報を決定するとともに、各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、最適化された重要度を部分映像情報に設定し、決定された部分映像情報および重要度に基づいて要約情報を生成する。
【0150】
通常、テレビジョン放送などの番組のジャンルによって、コンテンツ情報に付帯される映像情報の特徴は変化する。
【0151】
例えば、ニュース番組には、各ニュースの合間にはシーンチェンジ部分が存在する。すなわち、ニュース番組では、シーンチェンジ部分は、場面転換された部分または内容が切り替わった部分を示すとともに、このシーンチェンジ部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、コンテンツ情報の特徴的な部分を示す。したがって、シーンチェンジ以外の他の区間に比べ重要度は高い。
【0152】
また、スポーツ観戦番組などの当該コンテンツ情報に付帯される映像情報において、内容が盛り上がった部分ではシーンチェンジが頻繁に行われる場合が多くなるので、当該シーンチェンジの間隔がコンテンツ情報の特徴的な部分を示す。
【0153】
このように、コンテンツ情報の種別によって当該コンテンツ情報に含まれる映像情報の特性が異なる。
【0154】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【0155】
また、請求項25に記載の発明は、コンピュータによって、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、前記コンピュータを、前記映像情報の種別を識別する識別情報を取得する取得手段、前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段、前記最適化された重要度を前記各部分映像情報に設定する設定手段、前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段、として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づく構成を有している。
【0156】
この構成により、請求項25に記載の発明では、コンピュータによって、映像情報の種別を識別する識別情報を取得し、閾値に基づいて映像情報を複数の音声区間に分類して抽出すべき部分映像情報を決定するとともに、各部分映像情報に設定される重要度を、取得した識別情報に基づいて最適化すると、最適化された重要度を部分映像情報に設定し、生成手段が決定された部分映像情報および重要度に基づいて要約情報を生成する。
【0157】
通常、テレビジョン放送などの番組のジャンルによって、映像情報に付帯される音声情報の特徴は変化する。
【0158】
例えば、ニュース番組には、各ニュースの合間には無音部分が存在する。すなわち、ニュース番組では、無音部分は、場面転換された部分または内容が切り替わった部分を示すとともに、この無音部分に続く部分は次の内容の冒頭部分、特に、当該内容の概略を示すことも多く、映像情報の特徴的な部分を示す。したがって、騒音区間などの他の音声区間に比べ重要度は高い。
【0159】
また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報において、内容が盛り上がった部分では、音声情報に含まれる歓声音の音声レベルが非常に大きくなるので、歓声音の音声レベルが映像情報の特徴的な部分を示す。さらに、スポーツ番組には無音部分が存在しないまたは極端に少ない一方、常に背景雑音に歓声音を有するため、内容の盛り上がりを示す音声区間の閾値が他の映像情報に比べ高く設定する必要があるとともに、盛り上がった内容を的確に抽出して要約再生を行う場合に、基準となる区間によって要約再生時の重要度の設定を変える必要がある。
【0160】
このように、映像情報の種別によって当該映像情報に付帯される音声情報の音声特性が異なる。
【0161】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0162】
また、請求項26に記載の発明は、請求項25に記載の映像情報要約プログラムにおいて、異なる閾値に基づいて前記抽出すべき部分映像情報を決定する場合に、前記コンピュータを、前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度を最適化する最適化手段、前記最適化された重要度を前記部分映像情報に設定する設定手段、として機能させる構成を有している。
【0163】
この構成により、請求項26に記載の発明では、異なる閾値に基づいて抽出すべき部分映像情報を決定する場合に、コンピュータによって、異なる閾値毎に取得した識別情報に基づいて最適化した重要度を、決定された各部分映像情報に設定する。
【0164】
映像情報の種別によって映像情報に付帯される音声特性が異なり、要約再生が行われる映像情報毎に音声区間の重要度が異なる。特に、ニュース番組など無音区間を有する映像情報では、音声レベルが高い区間に比べ無音区間の重要度は高い。また、スポーツ観戦番組などの当該映像情報に付帯される音声情報を構成する背景雑音に歓声音を有する映像情報では、無音区間より音声レベルが高い区間の重要度は高く、また、複数の音声レベルによって部分映像情報を決定する場合は、異なる音声レベルによって要約再生時の重要度が異なる。
【0165】
したがって、本発明では、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0168】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、無音部分を有する映像情報では、要約再生する時に無音部分を的確に再生することが重要となる。
【0169】
したがって、本発明では、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0170】
また、請求項27に記載の発明は、請求項25または26に記載の映像情報要約プログラムにおいて、前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記コンピュータを、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定する決定手段、前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度を最適化する最適化手段、として機能させる構成を有している。
【0171】
この構成により、請求項27に記載の発明は、取得した識別情報によって音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、コンピュータにより、前記音声区間を分類することによって歓声音を有する歓声音区間を取得し、当該歓声音区間に基づいて部分映像情報を決定するとともに、歓声音区間に基づいて決定された部分映像情報に設定される重要度を最適化する。
【0172】
映像情報における音声特性は当該映像情報の種別によって異なるとともに、音声情報を構成する背景雑音に歓声音を有する映像情報では、要約再生する時に大きな歓声音を有する区間を的確に再生することが重要となる。
【0173】
したがって、本発明では、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0174】
【発明の実施の形態】
(I)実施形態
次に、本発明に好適な実施の形態について、図面に基づいて説明する。
【0175】
本実施形態は、通信回線または電波などによって提供されるテレビジョン放送の番組などの音声映像情報を要約再生する要約再生装置に対して本発明を適用した場合の実施形態である。
【0176】
まず、図1を用いて本実施形態における要約再生装置の全体の構成および概要動作について説明する。
【0177】
なお、図1は本実施形態に係る要約再生装置の構成を示すブロック図である。
【0178】
図1に示す本実施形態の要約再生装置100は、通信回線から送信された、または、図示しない受信部によって受信されたデジタル音声映像情報が入力されるようになっており、この入力されたデジタル音声映像情報から当該音声映像情報の種別情報(以下、ジャンル情報という)を取得するようになっている。
【0179】
また、この要約再生装置100は、予め設定された複数の閾値(以下、単にパラメータという)に基づいて入力された音声映像情報の特徴量(以下、音声特徴量という)を抽出するとともに、入力された音声映像情報から取得したジャンル情報に基づいて基準となる閾値(以下、決定パラメータという)を設定するようになっており、当該設定した決定パラメータに適合するパラメータによって抽出した音声特徴量を選択するとともに、当該選択された音声特徴量に基づいて要約再生に際して抽出すべき部分映像情報(以下、要約セグメントという)を決定(以下、要約セグメントの決定処理という)するようになっている。
【0180】
このように、この要約再生装置100は、抽出すべき要約セグメントを決定し、決定された要約セグメントに基づいて音声映像情報から要約セグメントを抽出して要約再生を行うようになっている。
【0181】
また、この抽出すべき要約セグメントの決定処理は、まず、要約セグメントの候補(以下、要約セグメント候補という)をリスト化し、このリスト化された要約セグメント候補から抽出すべき要約セグメントを絞り込んで決定するようになっている。
【0182】
さらに、本実施形態では、入力されるデジタル音声映像情報には映像情報と付帯されている音声情報が多重化されているものとして、以下に詳細に説明する。
【0183】
図1に示すように、本実施形態の要約再生装置100は、取得されたデジタル音声映像情報から音声情報およびジャンル情報を有する情報(以下、付帯情報という)を分離するデマルチプレクサ101と、分離された音声情報を復号して予め設定されたパラメータに基づいて音声特徴量を取得する音声特徴量抽出部102と、付帯情報からジャンル情報を取得するジャンル情報取得部103と、音声映像情報を蓄積するとともに、当該音声映像情報において取得された音声特徴量およびジャンル情報を蓄積する蓄積部104と、各部の操作を行うとともに、音声映像情報を要約する時間長を入力する操作部105と、ジャンル情報に基づいて音声特徴量を抽出する際の最適な決定パラメータを設定する決定パラメータ設定部106と、蓄積された音声映像情報の要約再生を行う再生部107と、決定パラメータに適合するパラメータによって抽出された音声特徴量に基づいて蓄積された音声映像情報における要約セグメントを決定するとともに再生部107を制御する制御部108と、要約再生された映像信号を音声信号とともに表示・出力する表示部109とを備えている。
【0184】
なお、ジャンル情報取得部103および決定パラメータ設定部106は、それぞれ、本発明に係る取得手段および最適化手段を構成する。また、制御部108は、再生部107とともに本発明に係る生成手段を構成し、さらに、制御手段108は本発明に係る決定手段および設定手段を構成する。
【0185】
デマルチプレクサ101には、通信回線から送出された若しくは図示しない受信部によって受信されたデジタル音声映像情報、または、既に蓄積部104に蓄積されたデジタル音声映像情報が入力されるようになっており、このデマルチプレクサ101は、この入力されたデジタル音声映像情報から音声情報および付帯情報を分離して、それぞれ、音声特徴量抽出部102およびジャンル情報取得部103に出力するようになっている。
【0186】
この付帯情報は、例えば、ニュース番組、スポーツ観戦番組、映画、ドラマ、歌番組およびバラエティ番組などのジャンル情報を一部に有しており、BS(BroadcastingSatellite)デジタル放送では、番組配列情報(Service Information)がこの付帯情報に当たる。この場合、デマルチプレクサ101は番組配列情報をジャンル情報取得部103に出力するようになっている。
【0187】
音声特徴量抽出部102にはデマルチプレクサ101から出力されたデジタル信号である音声情報が入力されるようになっており、この音声特徴量抽出部102は、この入力された音声情報を復号するとともに、予め設定された複数のパラメータに基づいて当該音声情報の音声特徴量、例えば、音声レベルまたは周波数特性を取得するようになっており、この取得した音声特徴量を蓄積部104に出力するようになっている。
【0188】
具体的には、音声特徴量抽出部102は、入力された音声情報に基づいて単位時間平均音圧レベル(パワー)を算出し、または、各周波数毎の音圧レベルを算出し、予め定められた複数のパラメータに基づいて複数の音声区間を抽出するようになっている。
【0189】
本実施形態では、予め定められた複数の音声レベルをパラメータとして複数の音声区間を抽出するようになっており、例えば、音声の無い区間と閾値(音声レベル)が異なる複数の騒音区間などの音声区間を検出するようになっている。この音声区間の検出処理については後述する。
【0190】
ジャンル情報取得部103にはデマルチプレクサ101から出力された付帯情報(番組配列情報)が入力されるようになっており、このジャンル情報取得部103は、この入力された付帯情報(番組配列情報)に基づいて音声映像情報における映画、ニュースなどジャンル情報を取得し、このジャンル情報を蓄積部104に出力するようになっている。
【0191】
なお、このジャンル情報は、入力されたデジタル音声映像情報と別に取得するようにしてもよい。例えば、インターネットなどの通信回線を介して任意の場所に格納されている当該入力された音声映像情報に関するジャンル情報を取得するようにしてもよい。
【0192】
また、ジャンル情報を入力された音声映像情報から取得する代わりに、当該入力された音声映像情報における音声情報に基づいて推定するようにしてもよい。
【0193】
この場合、本実施形態に推定部を設け、この推定部によって入力された音声映像情報からジャンルを推定する。例えば、各ジャンルを特定するような特徴のあるテキスト情報を予め用意しておき、入力された音声映像情報から音声認識技術を用いて音声を抽出するとともに、その音声認識結果をテキスト情報として予め用意されたテキスト情報との一致度を算出し、この算出結果に基づいてジャンルを推定するようになっている。
【0194】
蓄積部104には入力されたデジタル音声映像情報、音声特徴量102によって抽出された音声情報の音声特徴量およびジャンル情報取得部103によって取得された音声映像情報のジャンル情報を蓄積するようになっている。また、この蓄積部104は制御部108の指示に基づいて再生部107に音声映像情報の出力並びに音声特徴量およびジャンル情報の決定パラメータ設定部106および制御部108に出力するようになっている。
【0195】
操作部105は、ユーザによって音声映像情報における蓄積制御指示、蓄積された音声映像情報の再生指示および要約再生を行う際の要約再生時間の入力などを行うことができるようになっており、この指示が制御部108に入力されると、この指示に基づいて制御部108が各部を制御するようになっている。
【0196】
決定パラメータ設定部106には蓄積部104から出力されたジャンル情報が入力されるようになっており、この決定パラメータ設定部106は入力されたジャンル情報に基づいて制御部108によって抽出すべき要約セグメントの決定処理の際に使用する決定パラメータ、具体的には最適な音声レベルを設定し、この設定された決定パラメータの値(音声レベル)を制御部108に出力するようになっている。
【0197】
また、決定パラメータ設定部106は、入力されたジャンル情報に基づいて抽出すべき要約セグメントを決定するときの重要度を最適化し、当該最適化した値または最適化のためのパラメータを制御部108に出力するようになっている。この重要度の最適化については後述する。
【0198】
再生部107には蓄積部104から出力されたデジタル音声映像情報が入力されるようになっており、再生部107は入力された多重化されている音声映像情報を映像情報および音声情報に分離するとともに復号し、制御部108の指示に基づいて要約再生を行うようになっている。また、この再生部107はこの再生された音声信号および映像信号を表示部109に出力するようになっている。
【0199】
制御部108は、操作部105によって入力された指示に基づいて蓄積部104における蓄積制御並びに音声特徴量抽出部102および決定パラメータ設定部106によって設定された音声特徴量およびパラメータに基づいて後述する要約セグメントを決定するとともに、この決定された要約セグメントに基づいて再生部107の再生制御を行うようになっている。
【0200】
表示部109には再生部107から出力された音声信号および映像信号が入力されるようになっており、この表示部109は、この入力された映像信号をモニター画面などに表示するとともに、音声信号をスピーカなどによって拡声するようになっている。
【0201】
次に、図2、図3を用いて本実施形態の音声特徴量の抽出処理について説明する。
【0202】
なお、図2および図3は本実施形態における無音区間および騒音区間の検出原理を説明するための図である。
【0203】
通常、録画された音声映像情報、または、通信回線などを介して提供される音声映像情報において、その音声映像情報の時間長を短縮して要約を行う際に、当該音声映像情報に付帯される音声情報は重要な役割を果たしている。
【0204】
例えば、テレビジョン放送番組において、騒音区間は番組の盛り上がった部分を、また、無音区間は場面が転換されたまたは内容が切り替わった部分を示す。
【0205】
具体的には、ニュース番組であれば、ニュース内容が切り替わるときには無音部分、いわゆる「間(ポーズ)」が取られるとともに、その「間」に続く部分には後に続く内容が示され、その部分は映像情報の特徴部分となる。特に、無音区間に続く部分は次の内容の冒頭部分を示すので、当該内容の概略が示されることも多い。
【0206】
また、スポーツ観戦番組であれば、歓声などの背景雑音には観客の反応が現れるので、盛り上がった場面(野球のホームランのシーンやサッカーのゴールシーン)では、自然にアナウンサーや観衆の声が大きくなり、音声レベルが他の部分のレベルに比べて非常に高くなり、その部分は映像情報の特徴部分となる。
【0207】
したがって、ニュース番組などの無音区間を有する音声映像情報では無音区間の検出が重要となる。また、スポーツ観戦番組などの背景雑音に歓声音を有する音声映像情報では、殆ど無音区間が検出されないとともに、閾値の異なる騒音区間を検出する方がより適した要約再生を行うことができるようになっている。
【0208】
このように、異なるジャンルによって抽出すべき無音区間および騒音区間などの音声区間および当該音声区間における最適な閾値が異なる。
【0209】
以上のことから、本実施形態では、抽出された音声情報における単位時間平均音圧レベル(パワー)を予め音声特徴量抽出部102において複数の閾値、例えば、音声レベルによって無音区間や騒音区間など複数の音声区間を抽出しておき、決定パラメータ設定部106において、入力されたジャンル情報に基づいてこの抽出するときの決定パラメータを設定して、制御部108において、当該設定された決定パラメータに適合するパラメータによって抽出された音声区間から、要約セグメントを決定する際に使用する最適な音声区間を選択するようになっている。
【0210】
具体的には、決定パラメータ設定部106において、音声映像情報がスポーツ観戦番組である場合に、ニュース番組に比べ閾値(音声レベル)が高い騒音区間を選択するとともに、逆に、常にどの場面でも歓声音があるため、無音区間は殆ど検出されないので、スポーツ観戦番組では無音区間の処理を行わないように設定するようになっている。また、ニュース番組であれば、無音区間を検出する音声レベルの低い区間と標準的な騒音区間を採用するようになっている。
【0211】
本実施形態では、無音区間と騒音区間を検出する場合は、音声特徴量抽出部102は図2に示すように、予め設定された無音レベルの閾値(以下、無音レベル閾値(THS)という)および騒音レベルの閾値(以下、騒音レベル閾値(THn)という)に基づいて音声映像情報中における各無音区間および騒音区間の音声映像情報の時間軸上の開始位置(以下、単に開始位置という)および終了位置(以下、単に終了位置という)を検出するようになっている。本実施形態では、この各無音区間および騒音区間毎に検出した開始位置および終了位置の時間情報を蓄積部104に出力するようになっている。なお、各無音区間および騒音区間の時間的長さを以下区間長という。
【0212】
具体的には、上述したように、入力された音声情報に基づいて単位時間平均音圧レベル(パワー)を算出し、この算出した値によって得られた音声情報が無音レベル閾値(THS)以下または騒音レベル閾値(THS)以上で、かつ、予め設定された時間的長さ(以下、最短無音区間長(DRSMin)および最短騒音区間長(DRNMin)という)以上の区間が検出された場合に、その区間を無音区間として、または、騒音区間として検出するようになっている。
【0213】
なお、この音声レベルの標準的な値として、ニュース番組ではアナウンサーが声を発したときの音声は、−50dB以上になるので、無音レベル閾値(THS)を−50dBと設定し、スポーツ番組では観衆が盛り上がった際には背景雑音の音声レベルが−35dB程度になるので、騒音レベル閾値(THn)を−35dBと設定するようになっており、複数の無音区間および騒音区間を検出するときはこの音声レベルを基準として複数設定するようになっている。
【0214】
また、本実施形態では、ニュース番組およびスポーツ観戦番組の音声レベルを考慮して、最短無音区間長(DRSMin)および最短騒音区間長(DRNMin)をそれぞれ0.2秒、1.0秒に設定している。
【0215】
さらに、図3は、複数の騒音レベル閾値(THn)によって複数の騒音区間を検出する場合の図であり、複数の騒音区間を検出する場合は、図3に示すように、異なる音声レベル、すなわち、騒音レベル閾値1(THn1)および騒音レベル閾値2(THn2)によって騒音区間1および騒音区間2を検出するようになっている。
【0216】
次に、本実施形態の重要度の最適化について説明する。
【0217】
上述のように、テレビジョン放送番組において、騒音区間は番組の盛り上がった部分を、また、無音区間は場面が転換されたまたは内容が切り替わった部分を示す一方、スポーツ観戦番組であれば、歓声などの背景雑音には観客の反応が現れるので、盛り上がった場面では、音声レベルが他の部分のレベルに比べて非常に高くなり、その部分は映像情報の特徴部分となる。
【0218】
また、ニュース番組であれば、ニュース内容が切り替わるときには、無音部分、いわゆる「間(ポーズ)」が取られるとともに、その「間」に続く部分には後に続く内容が示され、その部分は映像情報の特徴部分となる。特に、無音区間に続く部分は次の内容の冒頭部分を示すので、当該内容の概略が示されることも多い。
【0219】
すなわち、ニュース番組などのように無音区間を有する音声映像情報では、無音区間の方が騒音区間に比べて重要度が高くなる。また、ニュース番組のように完成の背景雑音を有する音声映像情報では、騒音区間の方が無音区間に比べて重要度が高くなる。
【0220】
このようにジャンル毎に音声区間によって設定される要約セグメントの重要度が異なるので、本実施形態では、決定パラメータ設定部106によって取得したジャンル情報に基づいてジャンル毎に重要度を最適化するようになっている。
【0221】
具体的には、ジャンル情報取得部103によってニュース番組などの無音区間を有する音声映像情報のジャンルであることが取得された場合には、無音区間によって決定された要約セグメントの重要度を以下のような重み付け関数によって設定するようになっており、本実施形態では、このパラメータを制御部108に出力するようになっている。
【0222】
重要度f(x) = ax + b ・・・(式1)
重要度f(x) = x + 100 ・・・(式2)
なお、xは、通常、設定される重要度の値であり、本実施形態では各音声区間の区間長を使用するようになっている。また、a、bは定数である。
【0223】
また、スポーツ観戦番組などの背景雑音に歓声音を有する音声映像情報である場合は、複数の騒音区間、例えば、図3に示す騒音区間1および騒音区間2を選択するとともに、閾値の高い騒音区間1によって設定された要約セグメントの重要度を、無音区間に基づいて決定された要約セグメントの重要度を設定するときに用いられた重み付け関数などによって騒音区間2によって決定される要約セグメントの重要度より高く設定するようになっている。
【0224】
次に、図4、図5を用いて本実施形態における抽出すべき要約セグメントの決定処理について説明する。
【0225】
なお、図4は騒音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明するための図であり、図5は無音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明するための図である。
【0226】
上述のように、ニュース番組において、ニュース内容が切り替わるときには、無音部分、いわゆる「間(ポーズ)」が取られるとともに、その「間」に続く部分には後に続く内容が示され、その部分は映像情報の特徴部分となるため、無音区間に続く部分が重要になる。
【0227】
また、スポーツ観戦番組であれば、歓声などの背景雑音には観客の反応が現れるので、盛り上がった場面では、音声レベルが他の部分のレベルに比べて非常に高くなり、その部分は映像情報の特徴部分となる。
【0228】
このように、無音区間または騒音区間と音声映像情報の特徴部分との時間軸上の位置関係および重要度が異なるので、抽出すべき要約セグメントを決定する際に無音区間と騒音区間によって決定する処理を別の処理によって行うようになっている。以下に、本実施形態の要約セグメントの決定処理について説明する。
【0229】
なお、本実施形態における要約セグメントの決定処理では、無音区間および騒音区間に基づいて要約セグメントの開始時刻(STSSi)、終了時刻(SESSi)および重要度(IPSSi)を決定するようになっている。ただし、iはi番目の無音区間および騒音区間であり、jはj番目の要約セグメントであることを示す。
【0230】
また、本実施形態における要約セグメントの決定処理では、まず、無音区間および騒音区間に基づいて要約セグメントの開始時間および重要度を決定して要約セグメント候補をリスト化し、その後、要約セグメント候補の絞り込みを行い、最短要約セグメント時間長、標準要約セグメント時間長および最長要約セグメント時間長を決定して絞り込まれた要約セグメント候補の終了時刻を決定するようになっている。
【0231】
さらに、本実施形態の要約セグメントの決定処理では、要約セグメントの決定する際に基になった無音区間および騒音区間の区間長情報(DRSSj)を保持するようになっている。本実施形態では、要約セグメントが一度決定され、要約セグメントの絞り込み処理を行った後、終了時刻を決定するため、この区間長情報(DRSSj)は、後述する終了時刻を決定する際に、無音区間に基づいて決定された要約セグメントであるか、騒音区間によって決定された要約セグメントであるがを判断する必要があり、その判断にこの区間長情報(DRSSj)を用いるようになっている。
【0232】
具体的には、本実施形態では、騒音区間に基づいて設定された要約セグメントには、基準となった騒音区間の区間長を設定するようになっている(DRDNi=DRSSj)。また、無音区間に基づいて設定された要約セグメントには、DRSSj=0と設定するようになっている。
【0233】
したがって、要約セグメント決定処理の動作において、後述する終了時刻を決定する際に、このDRSSjが「0」であれば、無音区間に基づいて、「DRSSj≠0」であれば、騒音区間に基づいて決定された要約セグメントと判断できるようになっている。
【0234】
〔騒音区間における要約セグメントの設定〕
上述のように、騒音区間は番組の盛り上がった部分を示すので、騒音区間が重要である。そこで、本実施形態では、図4に示すように、検出部103によって検出された騒音区間の開始位置を要約セグメントの開始位置と設定するようになっている。
【0235】
なお、スポーツ観戦番組では、観客の歓声が集音され、この集音された音が背景雑音として当該音声映像情報に付帯されている音声情報に含まれている場合には、場面が盛り上がる少し前から再生する方が要約再生する際には有効性が高い。通常、スポーツ観戦において好プレーや得点シーンなど盛り上がる部分では観客が歓声を上げるまで、すなわち、騒音区間となるまでに時間差が生ずる。したがって、スポーツ観戦番組などの音声映像情報において騒音区間に基づいて要約セグメントの開始時刻を騒音区間の開始位置からΔtだけ前にずらすようにしてもよい。
【0236】
また、騒音区間における要約セグメントの終了時刻は、騒音区間の終了位置に基づいて決定されるようになっている。
【0237】
抽出される要約セグメントの内容を考慮すると、原則的には騒音区間の終了位置を要約セグメントの終了時刻に設定する必要がある。しかしながら、抽出すべき要約セグメントは、あまりにも要約セグメントの時間長が短いと当該場面を理解することが困難になる一方、不用意に長い時間長を有する場合には、無駄な情報が多くなるとともに、情報量が増大し映像情報を的確に要約することができない。
【0238】
このため、後述する最短要約セグメント時間長(DRMin)、標準要約セグメント時間長(DRTyp)および最長要約セグメント時間長(DRMax)を設定し、これらの時間長を用いて要約セグメントの終了時刻を設定するようになっている。
【0239】
例えば、図4に示すように、騒音区間(DNi(例えば、図4に示す騒音区間a))が最短要約セグメント時間長(DRMin)に満たない場合は、最短要約セグメント時間長(DRMin)が要約セグメントの時間長になり、要約セグメントの開始時刻にその最短要約セグメント時間長(DRMin)を加えた時刻を要約セグメントの終了時刻に設定するようになっている。
【0240】
また、騒音区間(DNi(例えば、図4に示す騒音区間b))が最短要約セグメント時間長(DRMin)以上、最長要約セグメント時間長(DRMax)以下である場合は、騒音区間長が要約セグメントの時間長となり、騒音区間が終了する位置を要約セグメントの終了時刻に設定するようになっている。
【0241】
さらに、騒音区間(DNi(例えば、図4に示す騒音区間c))が最長要約セグメント時間長(DRMax)を越える場合は、要約セグメントの開始時刻に標準要約セグメント時間長(DRTyp)を加えた時刻を要約セグメントの終了時刻と設定するようになっている。
【0242】
すなわち、i番目の騒音区間におけるj番目の要約セグメントにおいて、セグメント時間長(DRDNi=DRSSj)より、
0 < DRSSi < DRMin の場合、
SESSj = STSS + DRMin ・・・(式3)
DRMin ≦ DRSSi ≦ DRMax の場合、
SESSj = STSS + DRSSi ・・・(式4)
DRMax < DRSSi の場合、
SESSj = STSS + DRTyp ・・・(式5)
となる。ただし、上述のように要約セグメントの開始時刻をΔt早めたときは、他の要約セグメントの時間長との整合性により、各最短要約セグメント時間長(DRMin)、標準要約セグメント時間長(DRTyp)および最長要約セグメント時間長(DRMax)の時間長からΔt分減算した時間を各最短要約セグメント時間長(DRMin)、標準要約セグメント時間長(DRTyp)および最長要約セグメント時間長(DRMax)にするようになっている。
【0243】
なお、本実施形態において、各要約セグメントの終了時刻の設定は、後述する要約セグメント候補の絞り込み処理が行われ、当該絞り込まれた要約セグメントに対して設定されるようになっている。すなわち、騒音区間に基づいて要約セグメントの開始時刻を設定することによって当該要約セグメントを要約セグメント候補としてリストアップし、その後、後述する要約セグメント候補の絞り込み処理が行われ、さらに、最短要約セグメント時間長(DRMin)、標準要約セグメント時間長(DRTyp)および最長要約セグメント時間長(DRMax)が設定された後に当該要約セグメントの終了時刻を設定するようになっている。
【0244】
また、騒音区間における要約セグメントの重要度(IPSSj)は、基本的には騒音区間の区間長(DRDNi)を用いて設定するようになっており、騒音区間の区間長が長ければ長いほど重要度を高く設定することができるようになっているが、決定パラメータ設定部106によって各要約セグメントに設定する重要度が最適化された場合にはその指示に従うようになっている。
【0245】
〔無音区間における要約セグメントの設定〕
上述のように無音区間は、場面が転換されたまたは内容が切り替わった部分を示すので、無音区間が終了した後に続く部分が重要である。そこで、本実施形態では、図5に示すように、検出部103によって検出された無音区間の予め設定された区間長(以下、追加最短無音区間長(DRSAMin)という)以上、例えば、1.0秒以上を有する無音区間の終了位置を要約セグメントの開始時間(STSS)に設定するようになっている。
【0246】
なお、無音区間には重要でないものも存在するため、明らかに「間」が存在し、内容が切り替わったところを検出するため、要約セグメントの決定にあたっては、追加最短無音区間長(DRSAMin)を定め、この追加最短無音区間長(DRSAMin)以上の区間長を有している無音区間の終了位置を要約セグメントの開始位置に設定するようになっている。
【0247】
また、無音区間における要約セグメントの終了時刻は、要約セグメントの開始時刻の設定に用いられた無音区間の次の無音区間の開始位置に基づいて決定されるようになっている。
【0248】
この場合、要約セグメントの開始時刻の設定に用いられた無音区間の次の無音区間の区間長は、追加最短無音区間長(DRSAMin)以上の長さである必要はなく、抽出された全ての無音区間を対象に無音区間の検索を行うようになっている。
【0249】
騒音区間の場合と同様に要約セグメントの終了時刻は、後述する最短要約セグメント時間長(DRMin)、標準要約セグメント時間長(DRTyp)および最長要約セグメント時間長(DRMax)を用いて設定するようになっている。
【0250】
例えば、図5に示すように、要約セグメントの開始時刻に設定された無音区間(DSi)の次に検出された無音区間(DSi+1(例えば、図5に示す無音区間a))の開始位置が最短要約セグメント時間長(DRMin)に満たない場合には、最短要約セグメント時間長(DRMin)が要約セグメントの時間長になり、要約セグメントの開始時刻にその最短要約セグメント時間長(DRMin)を加えた時刻を要約セグメントの終了時刻に設定するようになっている。
【0251】
また、無音区間(DSi)の次に検出された無音区間(DSi+1(例えば、図5に示す無音区間b))の開始位置が最短要約セグメント時間長(DRMin)を越えるとともに、最長要約セグメント時間長(DRMax)に満たない場合は、検出された無音区間(DSi+1)の開始位置を要約セグメントの終了時刻と設定するようになっている。
【0252】
さらに、無音区間(DSi)の次に検出された無音区間(DSi+1(例えば、図5に示す無音区間c))の開始位置が最長要約セグメント時間長(DRMax)を越える場合は、標準要約セグメント時間長(DRTyp)が要約セグメントの時間長になり、要約セグメントの開始時刻に標準要約セグメント時間長(DRTyp)を加えた時刻を要約セグメントの終了時刻と設定するようになっている。
【0253】
また、本実施形態では、最短要約セグメント時間長(DRMin)、標準要約セグメント時間長(DRTyp)および最長要約セグメント時間長(DRMax)を用いて要約セグメントの終了時刻を設定する際に、当該次の無音区間の検出において以下の順序によって行うようになっている。
【0254】
要約セグメントの開始時間の基準となった無音区間(DSi)の次にある無音区間(DSi+1)を検出する順序としては、まず、無音区間(DSi)の次に検出された無音区間(DSi+1)の開始位置が最短要約セグメント時間長(DRMin)以上、最長要約セグメント時間長(DRMax)以下に存在するか否かを検出し、この範囲内に無いときに、無音区間(DSi)の次に検出された無音区間(DSi+1)の開始位置が最短要約セグメント時間長(DRMin)までに無いか否かを検出するようになっている。さらに、これらの範囲に無かったときに、無音区間(DSi)の次に検出された無音区間(DSi+1)は最長要約セグメント時間長(DRMax)以上にあると判断するようになっている。
【0255】
すなわち、i番目の騒音区間におけるj番目の要約セグメントにおいて、区間[DRMin、DRMax]に無音区間(DSi+1)の開始位置(ST)が見つかった場合、
SESSj = ST ・・・(式6)
また、区間[DRMin、DRMax]に無音区間(DSi+1)の開始位置(ST)が見つからず、区間[0、DRMin]に見つかった場合、
SESSj = STSSi + DRMin ・・・(式7)
さらに、区間[0、DRmAX]に無音区間(DSi+1)の開始位置(ST)が見つから無かった場合、
SESSj = STSSi + DRTyp ・・・(式8)
となる。
【0256】
この無音区間(DSi+1)の検出の順序は、最短要約セグメント時間長(DRMin)以内に次の無音区間(DSi+1)が存在しても、無音区間(例えば、無音区間(DSi+n(n≧2)))の開始位置が最短要約セグメント時間長(DRMin)以上、最長要約セグメント時間長(DRMax)以下に存在した場合には、最短要約セグメント時間長(DRMin)以内に存在する次の無音区間(DSi+1)を要約セグメントの開始時刻の基準となった無音区間(DSi)の次の無音区間として取り扱わず、無音区間(DSi+n(n≧2))を無音区間(DSi+1)として当該無音区間(DSi+1)に基づいて要約セグメントの終了時刻を決定するようになっている。
【0257】
なお、騒音区間における要約セグメントの終了時刻の設定と同様に、無音区間によって各要約セグメントの終了時刻の設定は、後述する要約セグメント候補の絞り込み処理が行われ、当該絞り込まれた要約セグメントに対して設定されるようになっている。
【0258】
また、無音区間における重要度は、基本的には騒音区間と同様に無音区間の区間長(IPSSj)に基づいて設定するが、決定パラメータ設定部106によって各要約セグメントに設定する重要度が最適化された場合にはその指示に従うようになっており、例えば、以下のような(式9)によって算出するようになっている。
【0259】
IPSSj = f(DRDSi) ・・・(式9)
なお、f(・)は重み付け関数であり、本実施形態では、上述のように、(式1)または(式2)を用いるようになっている。
【0260】
〔要約セグメント候補の絞り込み処理〕
上述のように無音区間および騒音区間に基づいて決定された要約セグメント全てについて後述する要約再生の処理を行ってもよいが、処理量の軽減および不必要な要約セグメントによる要約再生を防ぐ、すなわち、重要度の低い要約セグメントであっても、後述する結合処理によって重要度が高くなる可能性があり、不適切な要約セグメントによる要約再生を防ぐため、決定された要約セグメントを絞り込むようになっている。
【0261】
本実施形態では、以下の(式10)によってリスト化された要約セグメント候補から絞り込み処理を行うようになっている。
【0262】
この(式10)は、全ての要約セグメントの時間が限界最短時間(DRLMin)とした場合の絞り込む要約セグメントの数の定数倍(例えば、K1=2)と要約セグメント候補の数とを比較し、少ない方を要約セグメント数に設定するようになっている。
【0263】
例えば、リスト化された要約セグメント候補の数(NPold)とし、要約時間S、とすると、新たに設定される要約セグメント候補の数(NPnew)は、
NPnew =Min(Int(k1×(S/DRLMin)),NPold)・・・(式10)
となる。
【0264】
なお、k1は定数であり、Min(a,b)はa,bのうち値の小さい方を選択することを示し、INT(・)は小数点以下の切り捨てを行うことを示す。また、NPnewは絞り込まれた数を示し、DRLMinは限界最短時間を示す。
【0265】
この限界最短時間(DRLMin)とは、人間が一つの要約セグメント内容を理解するのに必要最低限の時間であり、例えば、本実施形態では限界最短時間(DRLMin)は4秒としている。
【0266】
このように算出された要約セグメント候補の数が絞り込む要約セグメントの数の定数倍より多い場合は、すなわち、NPnew<NPoldの場合は、重要度順に要約セグメント候補をNPnew個選択し、それ以外は、要約セグメント候補から削除するようになっている。
【0267】
なお、本実施形態では、このように要約セグメント候補の絞り込みを行い、この絞り込まれた要約セグメント候補において、上述した設定方法によって各要約セグメントに終了時刻を設定するようになっている。
【0268】
〔最短/標準/最長要約セグメント時間長の設定〕
上述したように、抽出すべき要約セグメントは、なるべく長い時間長を有する方が当該場面を理解する上で必要である一方、不用意に長い時間長を有する場合には、無駄な情報が多くなるとともに、情報量が増大し映像情報を的確に要約することができないので、本実施形態では、後述する最短要約セグメント時間長(DRMin)、標準要約セグメント時間長(DRTyp)および最長要約セグメント時間長(DRMax)を設定するようになっている。
【0269】
例えば、本実施形態では、抽出すべき要約セグメントの各内容を各内容毎に的確に把握させるため、以下の式によって最短要約セグメント時間長(DRMin)、標準要約セグメント時間長(DRTyp)および最長要約セグメント時間長(DRMax)を設定するようになっている。
【0270】
最短要約セグメント時間長(DRMin)についてはユーザにおける要約セグメントの見やすさを考慮して、比較的要約セグメントの時間長を長くするために(式11)に示すようになっており、また、標準要約セグメント時間長(DRTyp)および最長要約セグメント時間長(DRMax)については、(式11)によって算出された最短要約セグメント時間長(DRMin)を定数倍することによって算出するようになっている。
DRMin=Max(DRLMin,(K2×(S/NPnew)))・・・(式11)
DRTyp = DRMin × KT1 ・・・(式12)
DRMax = DRMin × KT2 ・・・(式13)
【0271】
なお、KT1およびKT2とも比例定数であり、Max(a,b)はa,bのうち値の大きい方を選択することを示す。また、K2(≧1)は各要約セグメントの最短時間を決定する係数であり、この値が大きいほど最短時間が長くなるとともに、要約セグメントの数は減少するようになっている。例えば、本実施形態では、K2=1.2、KT1=2、KT2=3と設定するようになっている。
【0272】
〔要約セグメントの結合〕
ここで、本実施形態では、時間的に重なる複数の要約セグメントが有った場合にこれらの要約セグメントを一つの要約セグメントに結合するようになっており、この場合、結合することによって生成された要約セグメントの重要度は、各要約セグメントが有する重要度(IPSSj)の高い方を選択するようになっている。
IPSSj = Max(IPSSj,IPSSj±n)・・・(式14)
また、例えば、2つの要約セグメントSSj,SSj+n(STSSj<STSS(j+n) SESSj≧STSS(j+n))とすると、
SESSj = SESSj+n ・・・(式15)
となる。
【0273】
このため、たとえ要約セグメントの重要度が低い場合であっても、重要度の高い要約セグメントと時間的に重なっている場合に、重要度の高い要約セグメントを補完できるようになっている。
【0274】
〔要約セグメントの決定〕
本実施形態では、最後に指定された要約時間を達成するために、重要度順に要約セグメント候補の選択を行うようになっている。
また、選択された要約セグメント候補の総時間が指定された要約時間を超えるまで選択し、この選択されたセグメントを要約セグメントとするようになっている。
【0275】
ここで、重要度順に要約セグメントを決定する場合に、各要約セグメントは、異なるセグメント時間長を有するので、指定された要約時間を越えることがある。この要約時間が越えることが問題となるときは、例えば、オーバーした時間を決定された要約セグメント数で分配し、それぞれの要約セグメントの終了時刻から分配された時間長を削除する処理を行うようになっている。
【0276】
次に、図6を用いて本実施形態の要約再生動作について説明する。
【0277】
なお、図6は本実施形態における要約再生動作を示すフローチャートである。また、本動作は、要約再生に必要な音声映像情報が既に蓄積部104に蓄積されているものとし、ユーザが要約再生を指示したときに本動作を行うようになっている。
【0278】
まず、操作部105によってユーザから要約再生の指示が入力されると、音声特徴量抽出部102は蓄積部104からデマルチプレクサ101を介して音声映像情報における音声情報が入力され、予め設定されたパラメータに基づいて複数の音声区間、すなわち音声特徴量を取得するとともに(ステップS11)、ジャンル情報取得部105は蓄積部104からデマルチプレクサ101を介して音声映像情報における番組配列情報からジャンル情報を取得する(取得処理工程(ステップS12))。
【0279】
次いで、決定パラメータ設定部106は蓄積部104を介してジャンル情報を取得して最適な決定パラメータを設定して制御部108に出力するとともに、ジャンル情報に基づいて抽出すべき要約セグメントの重要度を設定する際のパラメータを設定する(最適化処理工程(ステップS13))。
【0280】
次いで、制御部108は、決定パラメータ設定部106により設定された決定パラメータに適合するパラメータによって検出された音声区間を選択するとともに、当該選択された音声区間および決定パラメータ設定部106によって設定された重要度に基づいて上述の要約セグメントの決定処理を行う(決定処理工程(ステップS14))。
【0281】
最後に、ステップ14によって抽出すべき要約セグメントが決定されると、制御部108は、再生部107を制御して、要約再生を開始するとともに、この決定された要約セグメントに基づいて再生部107を制御して要約再生を行う(生成処理工程(ステップS15))。
【0282】
以上により本実施形態によれば、要約セグメントを決定するときの音声特徴量、すなわち、基準となる複数の音声区間を検出するときの音声レベルおよび各要約セグメントの重要度を音声映像情報におけるジャンル情報に基づいて最適化することができるので、音声映像情報の種別が異なっても抽出すべき要約セグメントを的確に抽出することができ、音声映像情報の内容に即した要約情報を再生することができる。
【0283】
また、各閾値を最適化するのみで抽出すべき要約セグメントを的確に抽出することができるので、映像情報の種別毎に要約セグメントの決定処理処理動作の手続を変更すること無く容易に要約セグメントを決定することができる。
【0284】
また、検出した複数の音声区間の時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、音声映像情報の盛り上がった部分および内容が切り替わった部分を要約セグメントとして的確に抽出することができ、音声映像情報の内容に即した要約再生を行うことができる。
【0285】
また、異なる音声区間毎に最適化した重要度を各要約セグメントに設定することができるので、音声映像情報の種別が異なっても抽出すべき要約セグメントを的確に抽出することができ、音声映像情報の内容に即した要約再生を行うことができる。
【0286】
なお、本実施形態はデジタル信号によって構成された映像情報に基づいて要約再生を行うようになっているが、テレビジョン放送によって提供された番組などの映像情報にも適用することを可能である。
【0287】
また、本実施形態では、予め設定されたパラメータによって複数の音声区間を検出し、ジャンル情報に基づいて設定された決定パラメータに適合するパラメータによって検出された音声区間を選択して要約セグメントの決定処理を行うようになっていたが、上述のように、ジャンル情報を別に取得した場合には、取得したジャンル情報によって音声特徴量抽出部102における音声区間を検出するパラメータを最適化するようにしてもよい。
【0288】
また、本実施形態では、予め複数のパラメータによって複数の音声区間を抽出し、ジャンル情報に基づいて設定された決定パラメータに基づいて適合するパラメータによって抽出された音声区間に基づいて要約セグメントの決定処理を行うようになっているが、デジタル音声映像情報と別に取得することによって予め当該音声映像情報のジャンル情報を取得することができる場合には、取得したジャンル情報に基づいて決定パラメータを設定し、当該決定パラメータに基づいて複数の音声区間を抽出するようにしてもよい。
【0289】
また、本実施形態では、要約再生処理動作を、音声特徴量抽出部102、ジャンル情報取得部103、決定パラメータ設定部106、再生部107および制御部108によって行うようになっているが、要約再生処理動作を行うプログラムを記録媒体に書き込むとともに、当該記録媒体に格納されたプログラムをコンピュータによって読み出すことによって要約再生を実行するようにしてもよい。
【0290】
この場合、制御部108にこのプログラムを読み込み実行するコンピュータを備えるとともに、このコンピュータによって音声特徴量の抽出、ジャンル情報の取得、パラメータの設定、要約セグメント決定処理および要約再生を行うようになる。この結果、上述した要約再生装置と同様の効果を得ることができる。
【0291】
(II)変形形態
次に、本発明に係る変形形態について説明する。
【0292】
上述した実施形態においては、音声情報について、その騒音区間又は無音区間を用いて要約再生を行ったが、これ以外に、映像情報について、そのシーンチェンジ(場面変更)を利用して要約再生を行うこともできる。
【0293】
すなわち、具体的には、先ず、映像情報中におけるシーンチェンジを検出し、その後、当該検出した各シーシチェンジのタイミングを開始時刻として固定時間(例えば10秒)だけの再生を繰り返すことで上述してきた要約再生を行うように構成することが可能である。
【0294】
ここで、当該要約再生に必要な全体の時間を調整するために、シーンチェンジの検出に対して重み付け(重要度の差を設けること)を行うように構成しても良い。そして、その重要度の決定には直前のシーンチェンジとの時間間隔を利用することが望ましく、当該重要度が高い順に要約再生で使用すべきシーンチェンジを決定するのである。更に、この重み付け関数をジャンル情報を用いて最適化するように構成することもできる。
【0295】
次に、より具体的に二つの例について説明する。
【0296】
〔ニュース番組の場合〕
初めに、ニュース番組の場合を例として説明する。
【0297】
ニュース番組の内容を広く浅く拾い読みする(すなわち、要約再生する)には、なるべく多くのニュース内容を選択すべく、シーンチェンジ間隔が長いときのその後の部分を選んで再生することが望ましい。一方、逆に頻繁にシーンチェンジが為されるときはその後の部分は内容的にはほぼ同一であることが多い。よって、シーンチェンジの間隔が長い場合は重要度が高く、シーンチェンジの間隔が短い場合は重要度が低いと判断し、例えばf(x)=a×x+b形式の演算式により重要度を決定するのがよい。
【0298】
〔スポーツ番組の場合〕
次に、スポーツ番組の場合を例として説明する。
【0299】
例えば、野球放送におけるピッチングのシーンや、サッカー放送におけるパスのシーン等、要約再生ではあまり重要でないシーンは、夫々のシーンチェンジの間隔が短い場合が多い。一方、野球放送におけるヒットのシーンや、サッカー放送におけるゴールのシーン等、要約再生で重要な部分は、夫々のシーンの巻き戻し再生や対象者のズームアップなどシーンチェンジが頻発する場合が多い。よって、シーンチェンジの間隔が長い場合はその重要度が低く、シーンチエンジの間隔が短い場合はその重要度が高いと判断し、例えばf(x)=(a/x)+b形式の演算式により重要度を決定するのがよい。
【0300】
また、本実施形態では、要約再生装置100が、上述のようにジャンル情報取得部103、決定パラメータ部106、再生部107および制御部108などによって構成されているが、制御部108にコンピュータおよびハードディスクなどの記録媒体を備え、ジャンル情報取得部103、決定パラメータ部106、再生部107および制御部108など要約再生装置100の各部に対応する上記処理を行うプログラムを当該記録媒体に格納し、当該プログラムをコンピュータに読み取らせることによって、上述したジャンル情報取得部103、決定パラメータ部106、再生部107および制御部108など要約再生装置100の各部のそれぞれの動作を行うようにしてもよい。
この場合、上述した要約再生動作を行うときは、当該格納されたプログラムによりコンピュータを動作させることによって当該要約再生動作を行うようにする。また、この場合、制御部108は、本発明に係る取得手段、最適化手段、設定手段、生成手段および決定手段を構成する。
【0301】
【発明の効果】
以上説明したように、請求項1記載の発明によれば、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0302】
また、請求項2記載の発明によれば、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0303】
また、請求項3に記載の発明によれば、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0304】
また、請求項4に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【0305】
また、請求項5に記載の発明によれば、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【0306】
また、請求項6に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【0307】
また、請求項7に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0308】
また、請求項8に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0309】
また、請求項9に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0310】
また、請求項10に記載の発明によれば、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0311】
また、請求項11に記載の発明によれば、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0312】
また、請求項12に記載の発明によれば、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0313】
また、請求項13に記載の発明によれば、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0314】
また、請求項14に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【0315】
また、請求項15に記載の発明によれば、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【0316】
また、請求項16に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【0317】
また、請求項17に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0318】
また、請求項18に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0319】
また、請求項19に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0320】
また、請求項20に記載の発明によれば、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0321】
また、請求項21に記載の発明によれば、部分映像情報を決定するときに基準となる複数のコンテンツ区間を分類する際の閾値を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、コンテンツ情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0322】
また、請求項22に記載の発明によれば、部分映像情報を決定するときに基準となる複数の音声区間を分類する際の閾値を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。また、閾値を最適化するのみで抽出すべき部分映像情報を的確に抽出することができるので、映像情報の種別毎に部分映像情報の処理動作を変更すること無く容易に部分映像情報を決定することができる。
【0323】
また、請求項23に記載の発明によれば、分類した複数の音声区間の少なくとも何れか一種類の映像情報中における少なくとも時間軸上の位置に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0324】
また、請求項24に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、この映像情報に適切な閾値によって的確に無音部分を有する無音区間を取得することができるので、映像情報の内容に即した要約情報を得ることができる。
【0325】
また、請求項25に記載の発明によれば、映像情報の識別情報により、スポーツ観戦番組などの背景雑音に歓声音を有する映像情報であることが識別された場合に、この映像情報に最適化された閾値によって的確に歓声音区間を検出することができるので、映像情報の内容に即した要約情報を得ることができる。
【0326】
また、請求項26に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、コンテンツ情報における識別情報に基づいて最適化することができるので、コンテンツ情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、コンテンツ情報の内容に即した要約情報を得ることができる。
【0327】
また、請求項27に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0328】
また、請求項28に記載の発明によれば、部分映像情報によって要約情報を生成する際の重要度を、映像情報における識別情報に基づいて最適化することができるとともに、異なる音声区間毎に最適化した重要度を各部分映像情報に設定することができるので、映像情報の種別が異なっても抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0329】
また、請求項29に記載の発明によれば、映像情報の識別情報により、ニュース番組などの無音部分を有する映像情報であることが識別された場合に、無音部分を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【0330】
また、請求項30に記載の発明によれば、映像情報の識別情報により、音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、歓声音を有する区間によって決定された部分映像情報の重要度を最適化することができるので、抽出すべき部分映像情報を的確に抽出することができ、映像情報の内容に即した要約情報を得ることができる。
【図面の簡単な説明】
【図1】本発明に係る要約再生装置の構成を示すブロック図である。
【図2】一実施形態における無音区間および騒音区間の検出原理を説明するための図である。
【図3】一実施形態において複数の騒音区間を検出する原理を説明する図である。
【図4】騒音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明する図である。
【図5】無音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明する図である。
【図6】一実施形態における要約再生動作を示すフローチャートである。
【図7】従来の要約再生装置の構成を示すブロック図である。
【符号の説明】
100 … 要約再生装置
101 … デマルチプレクサ
102 … 音声特徴量抽出部
103 … ジャンル情報取得部(取得手段)
104 … 蓄積部
105 … 操作部
106 … 決定パラメータ設定部(最適化手段)
107 … 再生部(生成手段)
108 … 制御部(取得手段、最適化手段、設定手段、決定手段、生成手段)
109 … 表示部
Claims (27)
- 音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、
前記コンテンツ情報の種別を識別する識別情報を取得する取得手段と、
最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約装置。 - 音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、
前記映像情報の種別を識別する識別情報を外部から取得する取得手段と、
最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記音声情報を複数の前記音声区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約装置。 - 請求項2に記載の映像情報要約装置において、
前記決定手段が、前記分類した複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報を決定することを特徴とする映像情報要約装置。 - 請求項2または3に記載の映像情報要約装置において、
前記取得した識別情報によって無音部分を有する映像情報であることを識別した場合に、
前記決定手段が、前記音声情報を分類することによって少なくとも一部に前記無音部分を有する無音区間を取得し、少なくとも当該無音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記決定手段が前記無音区間を取得するときに用いられる前記閾値を最適化することを特徴とする映像情報要約装置。 - 請求項2または3に記載の映像情報要約装置において、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記決定手段が前記歓声音区間を取得するときに用いられる前記閾値を最適化することを特徴とする映像情報要約装置。 - 音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、
前記コンテンツ情報の種別を識別する識別情報を取得する取得手段と、
前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段と、
前記最適化された重要度を前記各部分映像情報に設定する設定手段と、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約装置。 - 音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、
前記映像情報の種別を識別する識別情報を取得する取得手段と、
前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段と、
前記最適化された重要度を前記各部分映像情報に設定する設定手段と、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約装置。 - 請求項7に記載の映像情報要約装置において、
前記決定手段が異なる閾値に基づいて前記抽出すべき部分映像情報を決定する場合に、
前記最適化手段が、前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度を最適化するとともに、前記設定手段が、前記最適化された重要度を前記部分映像情報に設定することを特徴とする映像情報要約装置。 - 請求項7または8に記載の映像情報要約装置において、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、前記決定手段が、前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定するとともに、前記最適化手段が、前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度を最適化することを特徴とする映像情報要約装置。 - 音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、
前記コンテンツ情報の種別を識別する識別情報を取得する取得処理工程と、
最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、
前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化処理工程と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約方法。 - 音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、
前記映像情報の種別を識別する識別情報を外部から取得する取得処理工程と、
最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、
前記音声情報を複数の前記音声区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化処理工程と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、
を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約方法。 - 請求項11に記載の映像情報要約方法において、
前記決定処理工程においては前記分類された複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報が決定されることを特徴とする映像情報要約方法。 - 請求項11または12に記載の映像情報要約方法において、
前記取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されるときに少なくとも一部に前記無音部分を有する無音区間が取得され、少なくとも当該無音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程においては前記無音区間が取得されるときに用いられる前記閾値が最適化されることを特徴とする映像情報要約方法。 - 音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、
前記コンテンツ情報の種別を識別する識別情報を取得する取得処理工程と、
前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化処理工程と、
前記最適化された重要度を前記各部分映像情報に設定する設定処理工程手段と、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成処理工程と、
を備え、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約方法。 - 音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、
前記映像情報の種別を識別する識別情報を取得する取得処理工程と、
前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定処理工程と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化処理工程と、
前記最適化された重要度を前記各部分映像情報に設定する設定処理工程と、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成処理工程と、
を含み、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定処理工程において、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報が決定され、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報が決定され、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報が決定され、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約方法。 - 請求項15に記載の映像情報要約方法において、
前記決定処理工程によって異なる閾値に基づいて前記抽出すべき部分映像情報が決定される場合に、前記最適化処理工程においては前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度が最適化されるとともに、前記設定処理工程においては前記最適化された重要度が前記部分映像情報に設定されることを特徴とする映像情報要約方法。 - 請求項15または16に記載の映像情報要約方法において、
前記取得した識別情報によって無音部分を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されるときに少なくとも一部に前記無音部分を有する無音区間が取得され、少なくとも当該無音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程においては前記無音区間に基づいて決定された前記部分映像情報に設定される前記重要度が最適化されることを特徴とする映像情報要約方法。 - 請求項15または16に記載の映像情報要約方法において、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることが識別された場合に、前記決定処理工程においては前記音声情報が複数の前記音声区間に分類されたときに前記歓声音を有する歓声音区間が取得され、少なくとも当該歓声音区間に基づいて前記部分映像情報が決定されるとともに、前記最適化処理工程においては前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度が最適化されることを特徴とする映像情報要約方法。 - コンピュータによって、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、
前記コンピュータを、
前記コンテンツ情報の種別を識別する識別情報を取得する取得手段、
最適化された閾値によって前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、
前記コンテンツ情報を複数の前記コンテンツ区間に分類するときに用いられる1または複数の前記閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段、及び、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、
として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約プログラム。 - コンピュータによって、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、
前記コンピュータを、
前記映像情報の種別を識別する識別情報を外部から取得する取得手段、
最適化された閾値によって前記映像情報に付帯されている音声情報を複数の音声区間に分類し、当該分類した音声区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、
前記音声情報を複数の前記音声区間に分類するときに用いられる1または複数の閾値を前記取得した識別情報に基づいて最適な値に設定する最適化手段、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、
として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約プログラム。 - 請求項20に記載の映像情報要約プログラムにおいて、
前記コンピュータを、
前記分類した複数の音声区間の少なくとも何れか一種類の、前記映像情報中における少なくとも時間軸上の位置に基づいて前記抽出すべき前記部分映像情報を決定する決定手段、
として機能させることを特徴とする映像情報要約プログラム。 - 請求項20または21に記載の映像情報要約プログラムにおいて、
前記取得した識別情報によって無音部分を有する映像情報であることを識別した場合に、
前記コンピュータを、
前記音声情報を分類することによって少なくとも一部に前記無音部分を有する無音区間を取得し、少なくとも当該無音区間に基づいて前記部分映像情報を決定する前記決定手段、
前記決定手段が前記無音区間を取得するときに用いられる前記閾値を最適化する前記最適化手段、
として機能させることを特徴とする映像情報要約プログラム。 - 請求項20または21に記載の映像情報要約プログラムにおいて、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、
前記コンピュータを、
前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定する決定手段、
前記決定手段が前記歓声音区間を取得するときに用いられる前記閾値を最適化する最適化手段、
として機能させることを特徴とする映像情報要約プログラム。 - コンピュータによって、音声情報及び映像情報からなるコンテンツ情報から、前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、
前記コンピュータを、
前記コンテンツ情報の種別を識別する識別情報を取得する取得手段、
前記コンテンツ情報における閾値に基づいて前記コンテンツ情報を複数のコンテンツ区間に分類し、当該分類したコンテンツ区間に基づいて前記抽出すべき部分映像情報を決定する決定手段、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段、
前記最適化された重要度を前記各部分映像情報に設定する設定手段、及び、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段、
として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とするコンテンツ情報要約プログラム。 - コンピュータによって、音声情報が付帯されている映像情報から、当該音声情報に基づいて前記映像情報の一部である部分映像情報を1または複数個抽出し、当該抽出した部分映像情報および重要度に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムにおいて、
前記コンピュータを、
前記映像情報の種別を識別する識別情報を取得する取得手段、
前記音声情報における閾値に基づいて前記映像情報を複数の音声区間に分類し、当該分類した区間に基づいて前記抽出すべき部分映像情報を決定する決定手段と、
前記各部分映像情報に設定される前記重要度を、前記取得した識別情報に基づいて最適化する最適化手段、
前記最適化された重要度を前記各部分映像情報に設定する設定手段、
前記決定された部分映像情報を前記重要度に基づいて前記映像情報から抽出して前記要約情報を生成する生成手段、
として機能させ、抽出されるべき部分映像情報の時間長が最短時間長及び最長時間長の範囲内であるか否かに基づいて、決定手段は、抽出されるべき部分映像情報の時間長が前記範囲内である場合には、本来の部分映像情報を決定し、抽出されるべき部分映像情報の時間長が前記範囲より短い場合には、最短時間長を有する部分映像情報を決定し、及び、抽出されるべき部分映像情報の時間長が前記範囲より長い場合には、最長時間長を有する部分映像情報を決定し、更に、最短時間長及び最長時間長は生成されるべき要約時間の総時間長に基づくことを特徴とする映像情報要約プログラム。 - 請求項25に記載の映像情報要約プログラムにおいて、
異なる閾値に基づいて前記抽出すべき部分映像情報を決定する場合に、
前記コンピュータを、前記取得した識別情報に基づいて異なる前記閾値毎に前記重要度を最適化する最適化手段、
前記最適化された重要度を前記部分映像情報に設定する設定手段、
として機能させることを特徴とする映像情報要約プログラム。 - 請求項25または26に記載の映像情報要約プログラムにおいて、
前記取得した識別情報によって前記音声情報を構成する背景雑音に歓声音を有する映像情報であることを識別した場合に、
前記コンピュータを、
前記音声情報を分類することによって前記歓声音を有する歓声音区間を取得し、少なくとも当該歓声音区間に基づいて前記部分映像情報を決定する決定手段、
前記歓声音区間に基づいて設定された前記部分映像情報に設定される前記重要度を最適化する最適化手段、
として機能させることを特徴とする映像情報要約プログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001304360A JP4615166B2 (ja) | 2001-07-17 | 2001-09-28 | 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム |
| US10/195,809 US7424204B2 (en) | 2001-07-17 | 2002-07-16 | Video information summarizing apparatus and method for generating digest information, and video information summarizing program for generating digest information |
| EP02255007A EP1278134A3 (en) | 2001-07-17 | 2002-07-16 | Apparatus and method for summarizing video information and processing program for summarizing video information |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001216604 | 2001-07-17 | ||
| JP2001-216604 | 2001-07-17 | ||
| JP2001304360A JP4615166B2 (ja) | 2001-07-17 | 2001-09-28 | 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003101939A JP2003101939A (ja) | 2003-04-04 |
| JP4615166B2 true JP4615166B2 (ja) | 2011-01-19 |
Family
ID=26618859
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001304360A Expired - Fee Related JP4615166B2 (ja) | 2001-07-17 | 2001-09-28 | 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US7424204B2 (ja) |
| EP (1) | EP1278134A3 (ja) |
| JP (1) | JP4615166B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2023176997A1 (ko) * | 2022-03-17 | 2023-09-21 | 엘지전자 주식회사 | 디스플레이 장치 |
Families Citing this family (60)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4426743B2 (ja) * | 2001-09-13 | 2010-03-03 | パイオニア株式会社 | 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム |
| US8009966B2 (en) * | 2002-11-01 | 2011-08-30 | Synchro Arts Limited | Methods and apparatus for use in sound replacement with automatic synchronization to images |
| US7143352B2 (en) * | 2002-11-01 | 2006-11-28 | Mitsubishi Electric Research Laboratories, Inc | Blind summarization of video content |
| JP2005025797A (ja) * | 2003-06-30 | 2005-01-27 | Sharp Corp | Avデータ記録方法、avデータ再生方法、及び、avデータ記録媒体 |
| WO2005004159A1 (en) * | 2003-07-03 | 2005-01-13 | Matsushita Electric Industrial Co., Ltd. | Video processing apparatus, ic circuit for video processing apparatus, video processing method, and video processing program |
| JP4217964B2 (ja) | 2003-08-20 | 2009-02-04 | ソニー株式会社 | 情報信号処理装置および情報信号処理方法 |
| TWI259719B (en) * | 2004-01-14 | 2006-08-01 | Mitsubishi Electric Corp | Apparatus and method for reproducing summary |
| WO2005098818A1 (ja) * | 2004-04-06 | 2005-10-20 | Matsushita Electric Industrial Co., Ltd. | 特定番組検出装置及び方法並びにプログラム |
| JP2007534261A (ja) * | 2004-04-23 | 2007-11-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 放送中の配信又は格納されているコンテンツをキャッチアップする方法及び装置 |
| JP4835439B2 (ja) * | 2004-08-10 | 2011-12-14 | ソニー株式会社 | 情報信号処理方法、情報信号処理装置及びコンピュータプログラム記録媒体 |
| JP2006180306A (ja) * | 2004-12-24 | 2006-07-06 | Hitachi Ltd | 動画記録再生装置 |
| JP4349277B2 (ja) * | 2004-12-24 | 2009-10-21 | 株式会社日立製作所 | 動画再生装置 |
| JP4556752B2 (ja) * | 2005-04-18 | 2010-10-06 | 株式会社日立製作所 | コマーシャル視聴制御機能を有する録画再生装置 |
| JP4373961B2 (ja) | 2005-05-17 | 2009-11-25 | 株式会社東芝 | 映像録画再生装置及び映像録画再生方法 |
| US8300834B2 (en) | 2005-07-15 | 2012-10-30 | Yamaha Corporation | Audio signal processing device and audio signal processing method for specifying sound generating period |
| CN101543097A (zh) * | 2005-08-10 | 2009-09-23 | 汤姆逊许可证公司 | 审阅数字电影内容的系统和方法 |
| EP1954042A4 (en) * | 2005-09-30 | 2009-11-11 | Pioneer Corp | OUT-OF-PROGRAM MATERIAL SCENE EXTRACTION DEVICE AND COMPUTER PROGRAM |
| WO2007039995A1 (ja) * | 2005-09-30 | 2007-04-12 | Pioneer Corporation | ダイジェスト作成装置およびそのプログラム |
| JP4757876B2 (ja) * | 2005-09-30 | 2011-08-24 | パイオニア株式会社 | ダイジェスト作成装置およびそのプログラム |
| WO2007046171A1 (ja) * | 2005-10-21 | 2007-04-26 | Matsushita Electric Industrial Co., Ltd. | 記録再生装置 |
| JP4670584B2 (ja) * | 2005-10-25 | 2011-04-13 | ソニー株式会社 | 表示制御装置および方法、プログラム並びに記録媒体 |
| US8949235B2 (en) * | 2005-11-15 | 2015-02-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Methods and systems for producing a video synopsis using clustering |
| KR100650407B1 (ko) * | 2005-11-15 | 2006-11-29 | 삼성전자주식회사 | 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치 |
| US7831112B2 (en) * | 2005-12-29 | 2010-11-09 | Mavs Lab, Inc. | Sports video retrieval method |
| JP4808512B2 (ja) * | 2006-03-01 | 2011-11-02 | 富士フイルム株式会社 | カテゴリ重要度設定装置および方法、画像重要度設定装置および方法並びにプログラム |
| JP4854339B2 (ja) * | 2006-03-08 | 2012-01-18 | 三洋電機株式会社 | 映像再生装置 |
| JP4835321B2 (ja) * | 2006-08-21 | 2011-12-14 | ソニー株式会社 | 番組提供方法、番組提供方法のプログラム、番組提供方法のプログラムを記録した記録媒体及び番組提供装置 |
| EP1939859A3 (en) | 2006-12-25 | 2013-04-24 | Yamaha Corporation | Sound signal processing apparatus and program |
| US8238719B2 (en) * | 2007-05-08 | 2012-08-07 | Cyberlink Corp. | Method for processing a sports video and apparatus thereof |
| JP2009033369A (ja) | 2007-07-26 | 2009-02-12 | Sony Corp | 記録装置、再生装置、記録再生装置、撮像装置、記録方法およびプログラム |
| JP4992592B2 (ja) * | 2007-07-26 | 2012-08-08 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びにプログラム |
| US8200063B2 (en) * | 2007-09-24 | 2012-06-12 | Fuji Xerox Co., Ltd. | System and method for video summarization |
| JP4982346B2 (ja) * | 2007-12-11 | 2012-07-25 | 株式会社日立製作所 | 記録装置及び再生装置及び記録媒体 |
| JP4760893B2 (ja) * | 2008-11-04 | 2011-08-31 | 株式会社日立製作所 | 動画記録再生装置 |
| JP4924633B2 (ja) | 2009-02-27 | 2012-04-25 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| JP2011029696A (ja) * | 2009-07-21 | 2011-02-10 | Sony Corp | 情報処理装置、録画方法及び録画システム |
| CN102630383B (zh) * | 2009-10-27 | 2015-06-03 | 夏普株式会社 | 显示装置、该显示装置的控制方法 |
| US8605221B2 (en) * | 2010-05-25 | 2013-12-10 | Intellectual Ventures Fund 83 Llc | Determining key video snippets using selection criteria to form a video summary |
| US8971651B2 (en) | 2010-11-08 | 2015-03-03 | Sony Corporation | Videolens media engine |
| JP2011101393A (ja) * | 2010-12-13 | 2011-05-19 | Hitachi Ltd | 動画記録再生装置 |
| US8825478B2 (en) | 2011-01-10 | 2014-09-02 | Nuance Communications, Inc. | Real time generation of audio content summaries |
| US8938393B2 (en) | 2011-06-28 | 2015-01-20 | Sony Corporation | Extended videolens media engine for audio recognition |
| JP5982791B2 (ja) * | 2011-11-16 | 2016-08-31 | ソニー株式会社 | 情報処理装置及び情報処理方法、情報提供装置、並びに、情報提供システム |
| JP6151558B2 (ja) * | 2013-05-15 | 2017-06-21 | 三星電子株式会社Samsung Electronics Co.,Ltd. | コンテンツ再生装置 |
| US9270964B1 (en) * | 2013-06-24 | 2016-02-23 | Google Inc. | Extracting audio components of a portion of video to facilitate editing audio of the video |
| US9071814B1 (en) * | 2013-08-15 | 2015-06-30 | Google Inc. | Scene detection based on video encoding parameters |
| KR102025362B1 (ko) * | 2013-11-07 | 2019-09-25 | 한화테크윈 주식회사 | 검색 시스템 및 영상 검색 방법 |
| JP2015103217A (ja) * | 2013-11-28 | 2015-06-04 | ソニー株式会社 | 画像処理装置および画像処理方法 |
| JP6427902B2 (ja) | 2014-03-17 | 2018-11-28 | 富士通株式会社 | 抽出プログラム、方法、及び装置 |
| KR102217186B1 (ko) * | 2014-04-11 | 2021-02-19 | 삼성전자주식회사 | 요약 컨텐츠 서비스를 위한 방송 수신 장치 및 방법 |
| CN108028054B (zh) * | 2015-09-30 | 2020-05-12 | 苹果公司 | 对自动生成的音频/视频展示的音频和视频分量进行同步 |
| US10726594B2 (en) | 2015-09-30 | 2020-07-28 | Apple Inc. | Grouping media content for automatically generating a media presentation |
| US10356456B2 (en) * | 2015-11-05 | 2019-07-16 | Adobe Inc. | Generating customized video previews |
| CN110019962B (zh) * | 2017-10-27 | 2024-01-02 | 优酷网络技术(北京)有限公司 | 一种视频文案信息的生成方法及装置 |
| US11138438B2 (en) | 2018-05-18 | 2021-10-05 | Stats Llc | Video processing for embedded information card localization and content extraction |
| US20200037022A1 (en) * | 2018-07-30 | 2020-01-30 | Thuuz, Inc. | Audio processing for extraction of variable length disjoint segments from audiovisual content |
| US11264048B1 (en) | 2018-06-05 | 2022-03-01 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
| CN111935501B (zh) * | 2019-05-13 | 2022-06-03 | 杭州海康威视数字技术股份有限公司 | 一种场景识别方法及装置 |
| US11482243B2 (en) * | 2021-02-22 | 2022-10-25 | Prime Focus Technologies Limited | System and method for automatically identifying and ranking key moments in media |
| CN113382205B (zh) * | 2021-05-25 | 2022-02-15 | 特斯联科技集团有限公司 | 一种用于监视器的人工智能多源数据处理系统及方法 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5835667A (en) * | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
| JP3407840B2 (ja) | 1996-02-13 | 2003-05-19 | 日本電信電話株式会社 | 映像要約方法 |
| US6160950A (en) * | 1996-07-18 | 2000-12-12 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for automatically generating a digest of a program |
| JPH1032776A (ja) * | 1996-07-18 | 1998-02-03 | Matsushita Electric Ind Co Ltd | 映像表示方法及び記録再生装置 |
| US6072542A (en) * | 1997-11-25 | 2000-06-06 | Fuji Xerox Co., Ltd. | Automatic video segmentation using hidden markov model |
| US6819863B2 (en) * | 1998-01-13 | 2004-11-16 | Koninklijke Philips Electronics N.V. | System and method for locating program boundaries and commercial boundaries using audio categories |
| DE60037485T2 (de) | 1999-01-29 | 2008-12-04 | Sony Corp. | Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters |
| JP4292654B2 (ja) * | 1999-03-19 | 2009-07-08 | ソニー株式会社 | 記録装置および方法、再生装置および方法、並びに記録媒体 |
-
2001
- 2001-09-28 JP JP2001304360A patent/JP4615166B2/ja not_active Expired - Fee Related
-
2002
- 2002-07-16 US US10/195,809 patent/US7424204B2/en not_active Expired - Fee Related
- 2002-07-16 EP EP02255007A patent/EP1278134A3/en not_active Ceased
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2023176997A1 (ko) * | 2022-03-17 | 2023-09-21 | 엘지전자 주식회사 | 디스플레이 장치 |
| US11949942B2 (en) | 2022-03-17 | 2024-04-02 | Lg Electronics Inc. | Display device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2003101939A (ja) | 2003-04-04 |
| EP1278134A3 (en) | 2004-08-11 |
| EP1278134A2 (en) | 2003-01-22 |
| US7424204B2 (en) | 2008-09-09 |
| US20030016945A1 (en) | 2003-01-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4615166B2 (ja) | 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム | |
| JP4546682B2 (ja) | 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム | |
| JP5322550B2 (ja) | 番組推奨装置 | |
| JP4000171B2 (ja) | 再生装置 | |
| JP4757876B2 (ja) | ダイジェスト作成装置およびそのプログラム | |
| JP4426743B2 (ja) | 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム | |
| US20040109674A1 (en) | Video summary play apparatus and method | |
| JP3955216B2 (ja) | 時系列データ記録装置及び時系列データ記録方法 | |
| JP2007336283A (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
| JP4387408B2 (ja) | Avコンテンツ処理装置、avコンテンツ処理方法、avコンテンツ処理プログラムおよびavコンテンツ処理装置に用いる集積回路 | |
| JP4735413B2 (ja) | コンテンツ再生装置およびコンテンツ再生方法 | |
| JP4198331B2 (ja) | 録画装置 | |
| JP2007267351A (ja) | 映像記録再生装置及び映像再生装置 | |
| JP4432823B2 (ja) | 特定条件区間検出装置および特定条件区間検出方法 | |
| JP5682167B2 (ja) | 映像音声記録再生装置、および映像音声記録再生方法 | |
| JP2009302751A (ja) | 要約再生装置、要約再生方法、要約再生プログラム、および記録媒体 | |
| JP2007066409A (ja) | 記録再生装置および記録再生方法 | |
| WO2007046171A1 (ja) | 記録再生装置 | |
| JPWO2007039995A1 (ja) | ダイジェスト作成装置およびそのプログラム | |
| JP2006139829A (ja) | 要約再生装置、要約再生方法、要約再生プログラムおよびそのプログラムが記録された情報記録媒体 | |
| JP2008103802A (ja) | 映像合成装置 | |
| JP2006270233A (ja) | 信号処理方法及び信号記録再生装置 | |
| AU2005201690A1 (en) | Method for Creating Highlights for Recorded and Streamed Programs | |
| JP2006115405A (ja) | 広告信号検出装置及び記録再生装置 | |
| JP2006013787A (ja) | コンテンツ記録装置、方法、プログラム、及び記録媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080227 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100224 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100510 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100629 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100823 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101019 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101020 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131029 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |