JP4546682B2

JP4546682B2 - 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム

Info

Publication number: JP4546682B2
Application number: JP2001304361A
Authority: JP
Inventors: 毅中村; 道一橋本; 肇宮里; 敏雄田畑
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2001-06-26
Filing date: 2001-09-28
Publication date: 2010-09-15
Anticipated expiration: 2021-09-28
Also published as: EP1271359A3; JP2003087728A; EP1271359A2; US20020197053A1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声が付帯された映像情報における要約再生装置の技術分野に属し、より詳細には、音声レベルに基づいて要約再生時に抽出すべき部分映像情報を決定する技術分野に属する。
【０００２】
【従来の技術】
近年、テレビジョン放送による番組などの映像情報を録画・再生するＶＴＲ（Video Tape Recorder）などの記録装置が普及するにつれて、記録された映像情報を全て見ることなく当該映像情報を短時間に要約した映像情報（以下、要約情報という）を提供するダイジェスト再生（要約再生）が実用に供されるようになっている。
【０００３】
このような要約再生を行う方法としては、主に映像情報そのものに着目して、例えば、場面が転換された部分（シーンチェンジ）を検出して要約再生を行う方法と、映像情報に付帯される音声情報に着目して要約再生を行う方法がある。音声情報に着目して要約再生を行う要約再生を行う方法の代表的なものに特開平１０−３２７７６号公報に記載されたものがある。
【０００４】
同公報に記載の要約再生装置１は、図９に示すように、通信回線または電波などによって提供された音声情報が付帯されている映像情報（以下、音声映像情報という）の音声レベルを検出する音声レベル検出手段３と、その音声レベルと基準音声レベルとを比較する比較器４と、音声レベルが基準音声レベルより大きい継続時間を得る継続時間タイマ５と、継続時間タイマ５によって得られた継続時間からダイジェスト部分のアドレスを生成するダイジェストアドレス生成手段８と、そのアドレスを記録する記録再生手段９と、記録したアドレスを再生するダイジェストアドレス再生手段１１と、そのアドレスに基づいてダイジェスト部分の音声映像情報を再生させる再生制御手段１０とを備えている。
【０００５】
この構成より、この要約再生装置１は、入力された音声映像情報が基準音声レベルより大きい部分で予め設定された時間継続した場合に、その基準音声レベルより大きい部分のアドレスを記録し、このアドレスに基づいて当該基準音声レベルより大きいレベルの部分を抽出して音声映像情報の要約再生を行うようになっている。
【０００６】
【発明が解決しようとする課題】
しかしながら、上述のような要約再生方法にあっては、基準音声レベルより大きい部分のみ音声映像情報の特徴部分とし、当該映像情報の無音部分を特徴部分として用いていないため、適切な要約再生を行うことができないという問題を有していた。
【０００７】
音声レベルが大きい音声部分（以下、騒音区間という）は、映像情報の盛り上がった部分を示し、映像情報の特徴部分を為す一方、音声の無い無音部分（以下、無音区間という）は、場面が転換された、または、内容が切り替わった部分を示し、無音区間も映像情報の重要な特徴部分を構成する。すなわち、映像情報において内容が切り替わったときに、この内容に続く部分は次の内容の冒頭部分になり、特に、当該内容の概略が示されることも多い。
【０００８】
したがって、上述のような要約再生方法では、盛り上がった場面を抽出することはできるが、場面転換された部分、または、内容が切り替わった部分を抽出することができず、適切な要約再生を行うことができないという問題を有していた。
【０００９】
また、上述のような要約再生方法にあっては、基準音声レベルより大きい音声レベルを有する音声映像情報を全て要約再生時に再生するようになっているので、ユーザが所望する再生時間に、または、予め設定された再生時間に要約することができないという問題を有していた。
【００１０】
本発明は、上記の各問題点に鑑みて為されたもので、その課題は、騒音部分の他に無音部分も特徴量として抽出することによってより適切に操作者が映像情報を把握することのできるとともに、要約再生時間を調整することのできる要約情報を提供することにある。
【００１１】
【課題を解決するための手段】
上記の課題を解決するために、請求項１に記載の発明は、音声情報が付帯されている映像情報から、前記音声情報に基づいて当該映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、前記音声情報における音声レベルに基づいて前記映像情報を複数の種類の音声区間に分類する分類手段と、前記要約情報の時間長である要約時間を決定する要約時間決定手段と、前記分類された複数の種類の音声区間の少なくとも何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記抽出されるべき前記部分映像情報を決定する決定手段と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、を備え、前記決定手段が、前記抽出されるべき部分映像情報の時間的長さを予め定められた時間的範囲内に設定し、また、前記抽出されるべき部分映像情報が決定されるときにその決定に際して基準となる音声区間の種類または時間的長さの少なくとも何れか一方に基づいて当該部分映像情報の重要度を設定し、前記生成手段が、前記重要度の順に総時間が前記要約時間になるように前記要約情報を生成する構成を有している。
【００１２】
この構成により、請求項１に記載の発明では、分類手段が音声情報における音声レベルに基づいて映像情報を複数の音声区間に分類するとともに、決定手段がこの分類された複数の音声区間の少なくとも何れか一種類の、映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて抽出する部分映像情報を決定し、生成手段がこの部分映像情報に基づいて映像情報の時間長を短縮して要約情報を生成する。
【００１３】
通常、映像情報に付帯される音声情報は、番組の盛り上がった部分、場面が転換された部分、または、内容が切り替わった部分などの特徴部分を示すので、当該映像情報の時間長を短縮して要約を行う際には重要な役割を果たす。
【００１４】
したがって、本発明では、音声レベルによって分類された複数の種類の音声区間に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができ、ユーザが短時間で内容を的確に把握することができる要約情報を得ることができる。
また、請求項１に記載の発明では、決定手段が抽出する部分映像情報の設定される時間長を予め定められた時間的範囲内に設定する。
抽出される一つの部分映像情報の時間長が短すぎると、ユーザはその部分の映像情報を理解することができず、また、部分映像情報の時間長が長すぎると、無駄な情報が多くなるとともに、情報量が増大し映像情報を的確に要約することができない。このため、要約した映像情報によってユーザに映像情報全体の内容を適切に伝えるためには、部分映像情報の時間長を適切な長さに設定する必要がある。
したがって、本発明では、抽出された部分映像情報の内容を理解することのできる時間長を確保することができるとともに、部分映像情報の時間長が不用意に長くなることを防止することができるので、ユーザに当該映像情報を正確に伝えることのできる要約情報を得ることができる。
【００１５】
また、請求項２に記載の発明は、請求項１に記載の映像情報要約装置において、前記決定手段が、前記分類された複数の音声区間の何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記部分映像情報の開始時刻または終了時刻の少なくとも何れか一方を決定する構成を有している。
【００１６】
この構成により、請求項２に記載の発明では、決定手段が前記分類された複数の音声区間の何れか一種類の映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて部分映像情報の開始時刻または終了時刻の少なくとも何れかを決定する。
【００１７】
したがって、音声レベルによって分類された複数の音声区間が映像情報の盛り上がった部分、場面が転換された部分または内容が切り替わった部分を示すことにより、この特徴部分を音声レベルによって分類された複数の音声区間に基づいて的確に部分映像情報として抽出することができるので、ユーザが短時間で内容を把握することができる適切な要約情報を得ることができる。
【００１８】
また、請求項３に記載の発明は、請求項１または２に記載の映像情報要約装置において、前記分類手段が、前記音声レベルに基づいて前記映像情報を少なくとも音声の無い無音区間および予め設定された音声レベルを有する騒音区間に分類する構成を有している。
【００１９】
この構成により、請求項３に記載の発明は、分類手段が、音声レベルに基づいて映像情報を少なくとも音声の無い無音区間および予め設定された音声レベルを有する騒音区間に分類する。
【００２０】
通常、映像情報の時間長を短縮して要約を行う際に、無音区間および騒音区間は重要な役割を果たす。例えば、テレビ放送番組において、予め設定された音声レベル以上の騒音区間および予め設定された音声の無い無音区間は、それぞれ番組の盛り上がった部分、および、場面が転換されたまたは内容が切り替わった部分を示す。
【００２１】
したがって、本発明では、無音区間および騒音区間に基づいて抽出すべき部分映像情報を決定することができ、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができるので、ユーザが短時間で内容を的確に把握することができる要約された映像情報を得ることができる。
【００２２】
また、請求項４に記載の発明は、請求項３に記載の映像情報要約装置において、前記決定手段が、予め設定された時間的長さを有する前記無音区間の終了する時間軸上の位置を前記部分映像情報の開始時刻に設定する構成を有している。
【００２３】
この構成により、請求項４に記載の発明では、決定手段が、予め設定された時間的長さを有する無音区間が終了する時間軸上の位置をセグメントの開始時刻に設定する。
【００２４】
音声情報が付帯された映像情報において音声が無い無音区間は、場面転換された部分、または、内容が切り替わった部分であり、無音区間に続く部分は次の内容の冒頭部分、特に当該内容の概略が示されることも多く、映像情報の特徴的な部分となる。
【００２５】
したがって、本発明では、無音区間の終了位置を部分映像情報の開始時刻に設定することができるので、映像情報の特徴部分を為す部分映像情報を的確に抽出することができる。
【００２６】
また、請求項５に記載の発明は、請求項４に記載の映像情報要約装置において、前記無音区間に基づいて前記部分映像情報の開始時刻が設定されたときに、当該無音区間の次に検出された他の無音区間の時間軸上の位置に基づいて当該部分映像情報の終了時刻を設定する構成を有している。
【００２７】
この構成により、請求項５に記載の発明では、決定手段が、無音区間に基づいて部分映像情報の開始時刻が設定されたときに、当該無音区間の次に検出された他の無音区間の時間軸上の位置に基づいて当該部分映像情報の終了時刻を設定する。
【００２８】
この時間軸上の開始時刻の次の無音区間は、例えば、ニュース番組であれば、ニュース内容の概略部分の直後に位置し、また、他の番組でも次の内容の概略が示された直後である。すなわち、この無音区間の時間軸上の位置は特徴部分の概略が示された後であり、内容的に切りの良い部分であるので、違和感のない適切なタイミングを示す。
【００２９】
したがって、本発明では、部分映像情報の開始時刻の次の無音区間に基づいて終了時刻を設定することができるので、特徴部分の概略が示された、または、内容的に切りの良い部分など違和感のない適切なタイミングで部分映像情報を抽出することができ、ユーザに当該映像情報を正確に伝えることのできる要約情報を得ることができる。
【００３０】
また、請求項６に記載の発明は、請求項３に記載の映像情報要約装置において、前記決定手段が、予め設定された時間的長さを有する前記騒音区間の開始する時間軸上の位置に基づいて前記部分映像情報の開始時刻を設定する構成を有している。
【００３１】
この構成により、請求項５に記載の発明では、決定手段が、予め設定された時間的長さを有する騒音区間が開始する時間軸上の位置に基づいて部分映像情報の開始時刻を設定する。
【００３２】
映像情報において騒音区間は映像情報における盛り上がった部分、すなわち、当該映像情報の特徴部分であり、特に、騒音区間の開始位置は内容を把握する上で重要な部分となる。
【００３３】
したがって、本発明では、騒音区間の開始位置を部分映像情報の開始時刻に設定することができるので、映像情報の特徴部分を為す部分映像情報を的確に抽出することができる。
【００３４】
また、請求項７に記載の発明は、請求項６に記載の映像情報要約装置において、前記決定手段が、前記騒音区間に基づいて前記部分映像情報の開始時刻が設定されたときに、当該騒音区間の時間的長さに基づいて当該部分映像情報の終了時刻を設定する構成を有している。
【００３５】
この構成により、請求項７に記載の発明では、決定手段が、騒音区間に基づいて部分映像情報の開始時刻が設定されたときに、騒音区間の時間的長さに基づいて当該部分映像情報の終了時刻を設定する。
【００３６】
したがって、映像情報における盛り上がった部分、すなわち、当該映像情報の特徴部分の終了位置を的確に部分映像情報に設定することができるので、違和感のない適切なタイミングで部分映像情報を抽出することができ、ユーザに当該映像情報を正確に伝えることのできる要約情報を得ることができる。
【００４１】
また、請求項８に記載の発明は、請求項１乃至７の何れか一項に記載の映像情報要約装置において、前記生成手段が、前記設定された部分映像情報の重要度に基づいて前記部分映像情報を抽出して前記映像情報を要約する構成を有している。
【００４２】
この構成により、請求項８に記載の発明では、決定手段が前記抽出されるべき部分映像情報が決定されるときにその決定に際して基準となる音声区間の種類または時間的長さに基づいて当該部分映像情報の重要度を設定するとともに、生成手段が設定された部分映像情報の重要度に基づいて部分映像情報を抽出して前記映像情報を要約する。
【００４３】
したがって、部分映像情報の重要度に基づいて映像情報を要約することができるので、ユーザが指定した、または、予め設定された時間長に映像情報を短縮して要約するときにそれぞれの時間長に対応させることのできる要約情報を得ることができる。
【００４４】
また、請求項９に記載の発明は、請求項８に記載の映像情報要約装置において、前記決定手段が、前記騒音区間に基づいて設定する前記部分映像情報の重要度より前記無音区間に基づいて設定する前記部分映像情報の重要度を高くして設定する構成を有している。
【００４５】
この構成により、請求項９に記載の発明では、騒音区間に基づいて設定する部分映像情報の重要度より無音区間に基づいて設定する部分映像情報の重要度を高く設定する。
【００４６】
騒音区間および無音区間とも映像情報の特徴的な部分であるが、騒音区間が映像情報の盛り上がりを示す一方、無音区間は映像情報における場面転換または内容の切り替わりを示すため、騒音区間より無音区間に基づいて抽出される部分映像情報の方が重要度が高い。
【００４７】
したがって、本発明では、無音区間を騒音区間より重要度を高く設定することができるので、騒音区間との重要度のバランスを取ることができ、的確な要約情報を得ることができる。
【００４８】
また、請求項１０に記載の発明では、請求項８または９に記載の映像情報要約装置において、前記決定された複数の前記部分映像情報が時間的に重なり合う場合に、前記決定手段が、当該重なり合う部分映像情報を結合するとともに、結合した当該部分映像情報の重要度を各結合された部分映像情報の重要度に基づいて設定する構成を有している。
【００４９】
この構成により、請求項１０に記載の発明は、決定された複数の部分映像情報が時間的に重なり合う場合に、決定手段が当該重なり合う部分映像情報を結合するとともに、結合した部分映像情報の重要度を各結合された各部分映像情報の重要度に基づいて設定する。
【００５０】
部分映像情報が他の部分映像情報と時間的に重なる部分は複数の特徴部分から構成されることとなり、映像情報において重要な特徴部分であると判断することができる。
【００５１】
したがって、本発明では、時間的に重なる映像情報を結合することによって映像情報の重要な部分を１つの部分映像情報として抽出することができるので、的確な要約情報を得ることができる。また、結合された各部分映像情報の重要度に基づいて当該部分映像情報の重要度が設定することができるので、ユーザが短時間で内容を把握することができる適切な要約映像情報を得ることができる。
【００５２】
また、請求項１１に記載の発明は、音声情報が付帯されている映像情報から、前記音声情報に基づいて当該映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、前記音声情報における音声レベルに基づいて前記映像情報を複数の種類の音声区間に分類する分類処理工程と、前記要約情報の時間長である要約時間を決定する要約時間決定処理工程と、前記分類された複数の種類の音声区間の少なくとも何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記抽出されるべき前記部分映像情報を決定する決定処理工程と、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、を含み、前記決定処理工程においては、前記抽出されるべき部分映像情報の時間的長さを予め定められた時間的範囲内に設定し、また、前記抽出されるべき部分映像情報が決定されるときにその決定に際して基準となる音声区間の種類または時間的長さの少なくとも何れか一方に基づいて当該部分映像情報の重要度を設定し、前記生成処理工程においては、前記重要度の順に総時間が前記要約時間になるように前記要約情報を生成する構成を有している。
【００５３】
この構成により、請求項１１に記載の発明では、分類処理工程によって音声情報における音声レベルに基づいて映像情報が複数の種類の音声区間に分類されるとともに、決定処理工程によってこの分類された複数の種類の音声区間の少なくとも何れか一種類の、映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて抽出する部分映像情報が決定され、生成処理工程によってこの部分映像情報に基づいて映像情報の時間長が短縮され要約情報が生成される。
【００５４】
通常、映像情報に付帯される音声情報は、番組の盛り上がった部分、場面が転換された部分、または、内容が切り替わった部分などの特徴部分を示すので、当該映像情報の時間長を短縮して要約を行う際には重要な役割を果たす。
【００５５】
したがって、本発明では、音声レベルによって分類された複数の種類の音声区間に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができ、ユーザが短時間で内容を的確に把握することができる要約情報を得ることができる。
また、請求項１１に記載の発明では、決定処理工程において、抽出する部分映像情報の設定される時間長を予め定められた時間的範囲内に設定する。
抽出される一つの部分映像情報の時間長が短すぎると、ユーザはその部分の映像情報を理解することができず、また、部分映像情報の時間長が長すぎると、無駄な情報が多くなるとともに、情報量が増大し映像情報を的確に要約することができない。このため、要約した映像情報によってユーザに映像情報全体の内容を適切に伝えるためには、部分映像情報の時間長を適切な長さに設定する必要がある。
したがって、本発明では、抽出された部分映像情報の内容を理解することのできる時間長を確保することができるとともに、部分映像情報の時間長が不用意に長くなることを防止することができるので、ユーザに当該映像情報を正確に伝えることのできる要約情報を得ることができる。
【００５６】
また、請求項１２に記載の発明は、請求項１１に記載の映像情報要約方法において、前記決定処理工程においては、前記分類された複数の種類の音声区間の何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記部分映像情報の開始時刻または終了時刻の少なくとも何れか一方が決定される構成を有している。
【００５７】
この構成により、請求項１２に記載の発明では、決定処理工程において前記分類された複数の種類の音声区間の何れか一種類の映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて部分映像情報の開始時刻または終了時刻の少なくとも何れかが決定される。
【００５８】
したがって、音声レベルによって分類された複数の音声区間が映像情報の盛り上がった部分、場面が転換された部分または内容が切り替わった部分を示すことにより、この特徴部分を音声レベルによって分類された複数の音声区間に基づいて的確に部分映像情報として抽出することができるので、ユーザが短時間で内容を把握することができる適切な要約情報を得ることができる。
【００５９】
また、請求項１３に記載の発明は、請求項１１または１２に記載の映像情報要約方法において、前記分類処理工程においては、前記音声レベルに基づいて前記映像情報が少なくとも音声の無い無音区間および予め設定された音声レベルを有する騒音区間に分類される構成を有している。
【００６０】
この構成により、請求項１３に記載の発明は、分類処理工程によって音声レベルに基づいて映像情報が少なくとも音声の無い無音区間および予め設定された音声レベルを有する騒音区間に分類される。
【００６１】
通常、映像情報の時間長を短縮して要約を行う際に、無音区間および騒音区間は重要な役割を果たす。例えば、テレビ放送番組において、予め設定された音声レベル以上の騒音区間および予め設定された音声の無い無音区間は、それぞれ番組の盛り上がった部分、および、場面が転換されたまたは内容が切り替わった部分を示す。
【００６２】
したがって、本発明では、無音区間および騒音区間に基づいて抽出すべき部分映像情報を決定することができ、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができるので、ユーザが短時間で内容を的確に把握することができる要約された映像情報を得ることができる。
【００６３】
また、請求項１４に記載の発明は、請求項１１乃至１３の何れか一項に記載の映像情報要約方法において、前記生成処理工程においては、前記設定された部分映像情報の重要度に基づいて前記部分映像情報が抽出されて前記映像情報が要約される構成を有している。
【００６４】
この構成により、請求項１４に記載の発明では、決定処理工程によって前記抽出されるべき部分映像情報が決定されるときにその決定に際して基準となる音声区間の種類または時間的長さに基づいて当該部分映像情報の重要度が設定されるとともに、生成処理工程によって設定された部分映像情報の重要度に基づいて部分映像情報が抽出されて前記映像情報が要約される。
【００６５】
したがって、部分映像情報の重要度に基づいて映像情報を要約することができるので、ユーザが指定した、または、予め設定された時間長に映像情報を短縮して要約するときにそれぞれの時間長に対応させることのできる要約情報を得ることができる。
【００６６】
また、請求項１５に記載の発明は、コンピュータによって、音声情報が付帯されている映像情報から、前記音声情報に基づいて当該映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムであって、前記コンピュータを、前記音声情報における音声レベルに基づいて前記映像情報を複数の種類の音声区間に分類する分類手段、前記要約情報の時間長である要約時間を決定する要約時間決定手段、前記分類された複数の種類の音声区間の少なくとも何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記抽出されるべき前記部分映像情報を決定する決定手段、前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、として機能させ、前記決定手段が、前記抽出されるべき部分映像情報の時間的長さを予め定められた時間的範囲内に設定し、また、前記抽出されるべき部分映像情報が決定されるときにその決定に際して基準となる音声区間の種類または時間的長さの少なくとも何れか一方に基づいて当該部分映像情報の重要度を設定し、前記生成手段が、前記重要度の順に総時間が前記要約時間になるように前記要約情報を生成する構成を有している。
【００６７】
この構成により、請求項１５に記載の発明では、コンピュータが、音声情報における音声レベルに基づいて映像情報を複数の種類の音声区間に分類するとともに、この分類された複数の種類の音声区間の少なくとも何れか一種類の、映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて抽出する部分映像情報を決定し、この部分映像情報に基づいて映像情報の時間長を短縮して要約情報を生成する。
【００６８】
通常、映像情報に付帯される音声情報は、番組の盛り上がった部分、場面が転換された部分、または、内容が切り替わった部分などの特徴部分を示すので、当該映像情報の時間長を短縮して要約を行う際には重要な役割を果たす。
【００６９】
したがって、本発明では、音声レベルによって分類された複数の種類の音声区間に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができ、ユーザが短時間で内容を的確に把握することができる要約情報を得ることができる。
また、請求項１５に記載の発明では、コンピュータが、抽出する部分映像情報の設定される時間長を予め定められた時間的範囲内に設定する。
抽出される一つの部分映像情報の時間長が短すぎると、ユーザはその部分の映像情報を理解することができず、また、部分映像情報の時間長が長すぎると、無駄な情報が多くなるとともに、情報量が増大し映像情報を的確に要約することができない。このため、要約した映像情報によってユーザに映像情報全体の内容を適切に伝えるためには、部分映像情報の時間長を適切な長さに設定する必要がある。
したがって、本発明では、抽出された部分映像情報の内容を理解することのできる時間長を確保することができるとともに、部分映像情報の時間長が不用意に長くなることを防止することができるので、ユーザに当該映像情報を正確に伝えることのできる要約情報を得ることができる。
【００７０】
また、請求項１６に記載の発明は、請求項１５に記載の映像情報要約プログラムにおいて、前記コンピュータを、前記分類された複数の種類の音声区間の何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記部分映像情報の開始時刻または終了時刻の少なくとも何れか一方を決定する決定手段、として機能させる構成を有している。
【００７１】
この構成により、請求項１６に記載の発明では、コンピュータが、前記分類された複数の種類の音声区間の何れか一種類の映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて部分映像情報の開始時刻または終了時刻の少なくとも何れかを決定する。
【００７２】
したがって、音声レベルによって分類された複数の音声区間が映像情報の盛り上がった部分、場面が転換された部分または内容が切り替わった部分を示すことにより、この特徴部分を音声レベルによって分類された複数の音声区間に基づいて的確に部分映像情報として抽出することができるので、ユーザが短時間で内容を把握することができる適切な要約情報を得ることができる。
【００７３】
また、請求項１７に記載の発明は、請求項１５または１６に記載の映像情報要約方法において、前記コンピュータを、前記音声レベルに基づいて前記映像情報を少なくとも音声の無い無音区間および予め設定された音声レベルを有する騒音区間に分類する分類手段、として機能させる構成を有している。
【００７４】
この構成により、請求項１７に記載の発明は、コンピュータが、音声レベルに基づいて映像情報を少なくとも音声の無い無音区間および予め設定された音声レベルを有する騒音区間に分類する。
【００７５】
通常、映像情報の時間長を短縮して要約を行う際に、無音区間および騒音区間は重要な役割を果たす。例えば、テレビ放送番組において、予め設定された音声レベル以上の騒音区間および予め設定された音声の無い無音区間は、それぞれ番組の盛り上がった部分、および、場面が転換されたまたは内容が切り替わった部分を示す。
【００７６】
したがって、本発明では、無音区間および騒音区間に基づいて抽出すべき部分映像情報を決定することができ、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができるので、ユーザが短時間で内容を的確に把握することができる要約された映像情報を得ることができる。
【００７７】
また、請求項１８に記載の発明は、請求項１５乃至１７の何れか一項に記載の映像情報要約プログラムにおいて、前記コンピュータを、前記設定された部分映像情報の重要度に基づいて前記部分映像情報を抽出して前記映像情報を要約する生成手段、として機能させる構成を有している。
【００７８】
この構成により、請求項１８に記載の発明では、コンピュータが、前記抽出されるべき部分映像情報が決定されるときにその決定に際して基準となる音声区間の種類または時間的長さに基づいて当該部分映像情報の重要度を設定するとともに、設定された部分映像情報の重要度に基づいて部分映像情報を抽出して前記映像情報を要約する。
【００７９】
したがって、部分映像情報の重要度に基づいて映像情報を要約することができるので、ユーザが指定した、または、予め設定された時間長に映像情報を短縮して要約するときにそれぞれの時間長に対応させることのできる要約情報を得ることができる。
【００８０】
【発明の実施の形態】
次に、本発明に好適な実施の形態について、図面に基づいて説明する。
【００８１】
本実施形態は、通信回線または電波などによって提供されるテレビジョン放送の番組などの音声映像情報を要約再生する要約再生装置に対して本発明を適用した場合の実施形態である。
【００８２】
まず、図１〜図４を用いて本実施形態における要約再生装置の全体の構成および概要動作について説明する。
【００８３】
なお、図１は本実施形態の要約再生装置の概要構成を示すブロック図であり、図２は本実施形態における無音区間および騒音区間の検出を説明するための図である。また、図３は騒音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明するための図であり、図４は無音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明するための図である。
【００８４】
図１に示す本実施形態の要約再生装置１００は、通信回線から送信された、または、図示しない受信部によって受信されたデジタル音声映像情報を入力するようになっており、この入力されたデジタル音声映像情報を復号化するとともに、復号化された音声映像情報から音声情報を分離し、要約再生に際して抽出すべき部分映像情報（以下、要約セグメントという）を決定するようになっている。
【００８５】
この抽出すべき要約セグメントの決定処理は、まず、要約セグメントの候補（以下、要約セグメント候補という）をリストアップし（以下、リスト化という）、このリスト化された要約セグメント候補から抽出すべき要約セグメントを絞り込んで要約再生に使用する要約セグメントを決定するようになっている。
【００８６】
この要約セグメントの決定処理では、要約セグメントの開始時刻および終了時刻などの時間情報と重要度を取得するようになっており、この決定された要約セグメントの時間情報と重要度に基づいて入力されたデジタル音声映像情報から要約セグメントを抽出し、当該抽出された要約セグメントを時間軸に基づいて連続的に再生（以下、要約再生という）するようになっている。
【００８７】
なお、本実施形態では、入力されるデジタル音声映像情報は映像情報と付帯されている音声情報が多重化されているものとする。
【００８８】
図１に示すように、本実施形態の要約再生装置１００は、入力されたデジタル音声映像情報から音声情報を分離するデマルチプレクサ１０１と、デマルチプレクサ１０１によって分離されたデジタル信号である音声情報を復号して音声波形の情報（サンプル値（以下、音声波形情報という））を取得する復号部１０２と、音声波形情報における無音区間および騒音区間を検出する検出部１０３と、デジタル信号である音声映像情報を蓄積するとともに、当該音声映像情報において検出された無音区間および騒音区間の情報を蓄積する蓄積部１０４と、各部の操作を行うとともに、音声映像情報を要約する時間長を入力する操作部１０５と、蓄積された音声映像情報の要約再生を行う再生部１０６と、蓄積された音声映像情報における抽出すべき要約セグメントを決定して再生部１０６を制御する制御部１０６と、要約再生された映像信号を音声信号とともに表示・出力する表示部１０８とを備えている。
【００８９】
なお、検出部１０３は本発明に係る分類手段を構成し、制御部１０６および再生部１０７は本発明に係る決定手段および生成手段を構成する。
【００９０】
デマルチプレクサ１０１には、通信回線から送出された若しくは図示しない受信部によって受信されたデジタル音声映像情報、または、既に蓄積部１０４に蓄積されたデジタル音声映像情報が入力されるようになっており、デマルチプレクサ１０１は、この入力されたデジタル音声映像情報から音声情報を分離して復号部１０２に出力するようになっている。
【００９１】
復号部１０２にはデマルチプレクサ１０１から出力されたデジタル音声情報が入力されるようになっており、この復号部１０２は、この入力されたデジタル音声情報を復号して当該音声情報における音声波形情報を取得するとともに、この取得した音声波形情報を検出部１０３に出力するようになっている。
【００９２】
検出部１０３には復号部１０２によって得られた音声波形情報が入力されるようになっており、この検出部１０３は入力された音声波形情報から無音区間および騒音区間を検出するようになっている。
【００９３】
本実施形態では、検出部１０３は、図２に示すように、予め設定された無音レベルの閾値（以下、無音レベル閾値（ＴＨ_S）という）および騒音レベルの閾値（以下、騒音レベル閾値（ＴＨ_n）という）に基づいて映像情報中における各無音区間および騒音区間の音声映像情報の時間軸上の開始位置（以下、単に開始位置という）および終了位置（以下、単に終了位置という）を検出するようになっており、この各無音区間および騒音区間毎に検出した開始位置および終了位置の時間情報を蓄積部１０４に出力するようになっている。なお、各無音区間および騒音区間の時間的長さを以下区間長という。
【００９４】
具体的には、この検出部１０３は、入力された音声波形情報に基づいて単位時間平均音圧レベル（パワー）を算出し、この算出した値によって得られた音声情報が無音レベル閾値（ＴＨ_S）以下または騒音レベル閾値（ＴＨ_S）以上で、かつ、予め設定された時間的長さ（以下、最短無音区間長（ＤＲＳ_Min）および最短騒音区間長（ＤＲＮ_Min）という）以上の区間が検出された場合に、その区間を無音区間として、または、騒音区間として検出するようになっている。
【００９５】
通常、ニュース番組ではアナウンサーが声を発したときの音声は、−５０ｄＢ以上になるので、本実施形態では、無音レベル閾値（ＴＨ_S）を−５０ｄＢと設定し、最短無音区間長（ＤＲＳ_Min）を０．２秒に設定している。また、通常、スポーツ番組では観衆が盛り上がった際には背景雑音の音声レベルが−３５ｄB程度になるので、本実施形態では、騒音レベル閾値（ＴＨ_n）を−３５ｄＢと設定し、最短騒音区間長（ＤＲＮ_Min）を１．０秒に設定している。
【００９６】
蓄積部１０４には取得されたデジタル音声映像情報および検出部１０３によって検出された各無音区間および騒音区間の時間情報を蓄積するようになっている。また、この蓄積部１０４は制御部１０７の指示に基づいて再生部１０６への音声映像情報の出力および各区間の時間情報の制御部１０７への出力を行うようになっている。
【００９７】
操作部１０５は、ユーザによって音声映像情報における蓄積制御指示、蓄積された音声映像情報の再生指示および要約再生を行う際の要約再生時間の入力などを行うことができるようになっており、この指示が制御部１０７に出力され、制御部１０７が各部を制御するようになっている。
【００９８】
再生部１０６には蓄積部１０４から出力されたデジタル音声映像情報が入力されるようになっており、再生部１０６は入力された多重化されている音声映像情報を映像情報および音声情報に分離するとともに復号し、制御部１０７の指示に基づいて要約再生を行うようになっている。
【００９９】
また、この再生部１０６はこの再生された音声信号および映像信号を表示部１０８に出力するようになっている。
【０１００】
なお、本実施形態では再生部１０６によってデジタル音声映像情報を映像情報および音声情報に分離して復号するようになっているが、蓄積部１０４において蓄積するときに映像情報および音声情報に分離して行うようにしてもよい。
【０１０１】
制御部１０７は、操作部１０５によって入力された指示に基づいて蓄積部１０４における蓄積制御および蓄積部１０４に蓄積されている無音区間および騒音区間の時間情報に基づいて要約再生時に抽出すべき要約セグメントを決定し、この決定されたセグメントの情報（以下、セグメント情報という）に基づいて再生部１０６の再生制御を行うようになっている。
【０１０２】
なお、この抽出すべき要約セグメントの決定の処理（以下、要約セグメントの決定処理という）は後述する。
【０１０３】
表示部１０８には再生部１０６から出力された音声信号および映像信号が入力されるようになっており、この表示部１０８は、この入力された映像信号をモニター画面などに表示するとともに、音声信号をスピーカなどによって拡声するようになっている。
【０１０４】
次に、図３および図４を用いて制御部１０６における抽出すべき要約セグメントの決定処理について説明する。
【０１０５】
通常、録画された音声映像情報、または、通信回線などを介して提供される音声映像情報において、その音声映像情報の時間長を短縮して要約を行う際に、当該音声映像情報に付帯される音声情報は重要な役割を果たしている。
【０１０６】
例えば、テレビジョン放送番組において、騒音区間は番組の盛り上がった部分を、また、無音区間は場面が転換されたまたは内容が切り替わった部分を示す。
【０１０７】
具体的には、スポーツ観戦番組であれば、歓声などの背景雑音には観客の反応が現れるので、盛り上がった場面では、音声レベルが他の部分のレベルに比べて非常に高くなり、その部分は映像情報の特徴部分となる。
【０１０８】
また、ニュース番組であれば、ニュース内容が切り替わるときには、無音部分、いわゆる「間（ポーズ）」が取られるとともに、その「間」に続く部分には後に続く内容が示され、その部分は映像情報の特徴部分となる。特に、無音区間に続く部分は次の内容の冒頭部分を示すので、当該内容の概略が示されることも多い。
【０１０９】
また、上述のように、無音区間は無音区間に続く部分が重要になり、騒音区間は当該騒音区間が重要となるため、無音区間または騒音区間と音声映像情報の特徴部分との時間軸上の位置関係が異なるので、抽出すべき要約セグメントを決定する際に無音区間と騒音区間によって決定する処理が異なる。
【０１１０】
さらに、上述のように、無音区間後の部分は次の内容の冒頭、特に、概略を示すので、無音区間によって決定する要約セグメントの重要度は騒音区間によって決定される要約セグメントの重要度より高くする必要がある。
【０１１１】
このように、音声映像情報において、当該音声映像情報における無音区間および騒音区間を特徴付けることができるので、本実施形態では、以下に示す方法によって無音区間および騒音区間に基づいて要約セグメントの決定処理を行うようになっている。
【０１１２】
本実施形態における要約セグメントの決定処理では、無音区間および騒音区間に基づいて要約セグメントの開始時刻（ＳＴＳＳ_i）、終了時刻（ＳＥＳＳ_i）および重要度（ＩＰＳＳ_i）を決定するようになっている。ただし、ｉはｉ番目の無音区間および騒音区間であり、ｊはｊ番目の要約セグメントであることを示す。
【０１１３】
なお、本実施形態における要約セグメントの決定処理では、まず、無音区間および騒音区間に基づいて要約セグメントの開始時間および重要度を決定して要約セグメント候補をリスト化し、その後、要約セグメント候補の絞り込みを行い、最短要約セグメント時間長、標準要約セグメント時間長および最長要約セグメント時間長を決定して絞り込まれた要約セグメントの終了時刻を決定するようになっている。
【０１１４】
また、本実施形態の要約セグメントの決定処理では、要約セグメント候補から要約セグメントの決定する際に基になった無音区間および騒音区間の区間長情報（ＤＲＳＳ_j）を保持するようになっている。本実施形態では、要約セグメントが一度決定され、要約セグメント候補の絞り込み処理を行った後、終了時刻を決定するため、この区間長情報（ＤＲＳＳ_j）は、後述する終了時刻を決定する際に、無音区間に基づいて決定された要約セグメントであるか、騒音区間によって決定された要約セグメントであるかを判断する必要があり、その判断にこの区間長情報（ＤＲＳＳ_j）を用いるようになっている。
【０１１５】
具体的には、本実施形態では、騒音区間に基づいて設定された要約セグメントには、基準となった騒音区間の区間長を設定するようになっている（ＤＲＤＮ_i＝ＤＲＳＳ_j）。また、無音区間に基づいて設定された要約セグメントには、ＤＲＳＳ_j＝０と設定するようになっている。
【０１１６】
したがって、要約セグメント決定処理の動作において、後述する終了時刻を決定する際に、このＤＲＳＳ_jが「０」であれば、無音区間に基づいて、「ＤＲＳＳ_j≠０」であれば、騒音区間に基づいて設定された要約セグメントと判断できるようになっている。
【０１１７】
〔騒音区間における要約セグメントの設定〕
上述のように、騒音区間は番組の盛り上がった部分を示すので、騒音区間が重要である。そこで、本実施形態では、図３に示すように、検出部１０３によって検出された騒音区間の開始位置を要約セグメントの開始位置と設定するようになっている。
【０１１８】
なお、スポーツ観戦番組では、観客の歓声が集音され、この集音された音が背景雑音として当該音声映像情報に付帯されている音声情報に含まれている場合には、場面が盛り上がる少し前から再生する方が要約再生する際には有効性が高い。通常、スポーツ観戦において好プレーや得点シーンなど盛り上がる部分では観客が歓声を上げるまで、すなわち、騒音区間となるまでに時間差が生ずる。したがって、スポーツ観戦番組などの音声映像情報において騒音区間に基づいて要約セグメントの開始時刻を騒音区間の開始位置からΔｔだけ前にずらすようにしてもよい。
【０１１９】
また、騒音区間における要約セグメントの終了時刻は、騒音区間の終了位置に基づいて決定されるようになっている。
【０１２０】
抽出される要約セグメントの内容を考慮すると、原則的には騒音区間の終了位置を要約セグメントの終了時刻に設定する必要がある。しかしながら、抽出すべき要約セグメントは、あまりにも要約セグメントの時間長が短いと当該場面を理解することが困難になる一方、不用意に長い時間長を有する場合には、無駄な情報が多くなるとともに、情報量が増大し映像情報を的確に要約することができない。
【０１２１】
このため、後述する最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を設定し、これらの時間長を用いて要約セグメントの終了時刻を設定するようになっている。
【０１２２】
例えば、図３に示すように、騒音区間（ＤＮ_i（例えば、図３に示す騒音区間ａ））が最短要約セグメント時間長（ＤＲ_Min）に満たない場合は、最短要約セグメント時間長（ＤＲ_Min）が要約セグメントの時間長になり、要約セグメントの開始時刻にその最短要約セグメント時間長（ＤＲ_Min）を加えた時刻を要約セグメントの終了時刻に設定するようになっている。
【０１２３】
また、騒音区間（ＤＮ_i（例えば、図３に示す騒音区間ｂ））が最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下である場合は、騒音区間長が要約セグメントの時間長となり、騒音区間が終了する位置を要約セグメントの終了時刻に設定するようになっている。
【０１２４】
さらに、騒音区間（ＤＮ_i（例えば、図３に示す騒音区間ｃ））が最長要約セグメント時間長（ＤＲ_Max）を越える場合は、要約セグメントの開始時刻に標準要約セグメント時間長（ＤＲ_Typ）を加えた時刻を要約セグメントの終了時刻と設定するようになっている。
【０１２５】
すなわち、ｉ番目の騒音区間におけるｊ番目の要約セグメントにおいて、セグメント時間長（ＤＲＤＮ_i＝ＤＲＳＳ_j）より、
０＜ＤＲＳＳ_i ＜ＤＲ_Min の場合、
ＳＥＳＳ_j ＝ＳＴＳＳ＋ＤＲ_Min ・・・（式１）
ＤＲ_Min ≦ ＤＲＳＳ_i ≦ ＤＲ_Max の場合、
ＳＥＳＳ_j ＝ＳＴＳＳ＋ＤＲＳＳ_i ・・・（式２）
ＤＲ_Max ＜ＤＲＳＳ_i の場合、
ＳＥＳＳ_j ＝ＳＴＳＳ＋ＤＲ_Typ ・・・（式３）
となる。ただし、上述のように要約セグメントの開始時刻をΔｔ早めたときは、他の要約セグメントの時間長との整合性により、各最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）の時間長からΔｔ分減算した時間を各最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）にするようになっている。
【０１２６】
なお、本実施形態において、各要約セグメントの終了時刻の設定は、後述する要約セグメント候補の絞り込み処理が行われ、当該絞り込まれた要約セグメントに対して設定されるようになっている。すなわち、騒音区間に基づいて要約セグメントの開始時刻を設定することによって当該要約セグメントを要約セグメント候補としてリストアップし、その後、後述する要約セグメント候補の絞り込み処理が行われ、さらに、最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）が設定された後に当該要約セグメントの終了時刻を設定するようになっている。
【０１２７】
また、騒音区間における要約セグメントの重要度（ＩＰＳＳ_j）は、騒音区間の区間長（ＤＲＤＮ_i）を用いて設定するようになっている。これにより、騒音区間の区間長が長ければ長いほど重要度を高く設定することができるようになっている。
【０１２８】
〔無音区間における要約セグメントの設定〕
上述のように無音区間は、場面が転換されたまたは内容が切り替わった部分を示すので、無音区間が終了した後に続く部分が重要である。そこで、本実施形態では、図４に示すように、検出部１０３によって検出された無音区間の予め設定された区間長（以下、追加最短無音区間長（ＤＲＳＡ_Min）という）以上、例えば、１．０秒以上を有する無音区間の終了位置を要約セグメントの開始時間（ＳＴＳＳ）に設定するようになっている。
【０１２９】
なお、無音区間には重要でないものも存在するため、明らかに「間」が存在し、内容が切り替わったところを検出するため、要約セグメントの決定にあたっては、追加最短無音区間長（ＤＲＳＡ_Min）を定め、この追加最短無音区間長（ＤＲＳＡ_Min）以上の区間長を有している無音区間の終了位置を要約セグメントの開始位置に設定するようになっている。
【０１３０】
また、無音区間における要約セグメントの終了時刻は、要約セグメントの開始時刻の設定に用いられた無音区間の次の無音区間の開始位置に基づいて決定されるようになっている。
【０１３１】
この場合、要約セグメントの開始時刻の設定に用いられた無音区間の次の無音区間の区間長は、追加最短無音区間長（ＤＲＳＡ_Min）以上の長さである必要はなく、検出部１０３によって検出された全ての無音区間を対象に無音区間を検索するようになっている。
【０１３２】
騒音区間の場合と同様に要約セグメントの終了時刻は、後述する最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を用いて設定するようになっている。
【０１３３】
例えば、図４に示すように、要約セグメントの開始時刻に設定された無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1（例えば、図４に示す無音区間ａ））の開始位置が最短要約セグメント時間長（ＤＲ_Min）に満たない場合には、最短要約セグメント時間長（ＤＲ_Min）が要約セグメントの時間長になり、要約セグメントの開始時刻にその最短要約セグメント時間長（ＤＲ_Min）を加えた時刻を要約セグメントの終了時刻に設定するようになっている。
【０１３４】
また、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1（例えば、図４に示す無音区間ｂ））の開始位置が最短要約セグメント時間長（ＤＲ_Min）を越えるとともに、最長要約セグメント時間長（ＤＲ_Max）に満たない場合は、検出された無音区間（ＤＳ_i+1）の開始位置を要約セグメントの終了時刻と設定するようになっている。
【０１３５】
さらに、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1（例えば、図４に示す無音区間ｃ））の開始位置が最長要約セグメント時間長（ＤＲ_Max）を越える場合は、標準要約セグメント時間長（ＤＲ_Typ）が要約セグメントの時間長になり、要約セグメントの開始時刻に標準要約セグメント時間長（ＤＲ_Typ）を加えた時刻を要約セグメントの終了時刻と設定するようになっている。
【０１３６】
また、本実施形態では、最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を用いて要約セグメントの終了時刻を設定する際に、当該次の無音区間の検出において以下の順序によって行うようになっている。
【０１３７】
要約セグメントの開始時間の基準となった無音区間（ＤＳ_i）の次にある無音区間（ＤＳ_i+1）を検出する順序としては、まず、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1）の開始位置が最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下に存在するか否かを検出し、この範囲内に無いときに、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1）の開始位置が最短要約セグメント時間長（ＤＲ_Min）までに無いか否かを検出するようになっている。さらに、これらの範囲に無かったときに、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1）は最長要約セグメント時間長（ＤＲ_Max）以上にあると判断するようになっている。
【０１３８】
すなわち、ｉ番目の騒音区間におけるｊ番目の要約セグメントにおいて、区間［ＤＲ_Min、ＤＲ_Max］に無音区間（ＤＳ_i+1）の開始位置（ＳＴ）が見つかった場合、
ＳＥＳＳ_j ＝ＳＴ・・・（式４）
また、区間［ＤＲ_Min、ＤＲ_Max］に無音区間（ＤＳ_i+1）の開始位置（ＳＴ）が見つからず、区間［０、ＤＲ_Min］に見つかった場合、
ＳＥＳＳ_j ＝ＳＴＳＳ_i ＋ＤＲ_Min ・・・（式５）
さらに、区間［０、ＤＲ_mAX］に無音区間（ＤＳ_i+1）の開始位置（ＳＴ）が見つから無かった場合、
ＳＥＳＳ_j ＝ＳＴＳＳ_i ＋ＤＲ_Typ ・・・（式６）
となる。
【０１３９】
この無音区間（ＤＳ_i+1）の検出の順序は、最短要約セグメント時間長（ＤＲ_Min）以内に次の無音区間（ＤＳ_i+1）が存在しても、無音区間（例えば、無音区間（ＤＳ_i+n（ｎ≧２）））の開始位置が最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下に存在した場合には、最短要約セグメント時間長（ＤＲ_Min）以内に存在する次の無音区間（ＤＳ_i+1）は、要約セグメントの開始時刻の基準となった無音区間（ＤＳ_i）の次の無音区間として取り扱わず、無音区間（ＤＳ_i+n（ｎ≧２））を無音区間（ＤＳ_i+1）として当該無音区間（ＤＳ_i+1）に基づいて要約セグメントの終了時刻を決定するようになっている。
【０１４０】
なお、騒音区間における要約セグメントの終了時刻の設定と同様に、無音区間によって各要約セグメントの終了時刻の設定は、後述する要約セグメント候補の絞り込み処理が行われ、当該絞り込まれた要約セグメントに対して設定されるようになっている。
【０１４１】
また、無音区間における重要度は、騒音区間と同様に無音区間の区間長（ＩＰＳＳ_j）に基づいて設定するが、上述のように無音区間の方が騒音区間に基づいて設定する重要度よりも重要であるので、例えば、以下のような（式７）によって算出するようになっている。
【０１４２】
ＩＰＳＳ_j ＝ｆ（ＤＲＤＳ_i）・・・（式７）
なお、ｆ（・）は重み付け関数であり、本実施形態では、
ｆ（ｘ）＝ａｘ＋ｂ・・・（式８）
を用いている。ここで、ａ、ｂは定数である。具体的な例を示すと、
ｆ（ｘ）＝ｘ＋１００・・・（式９）
が考えられる。
【０１４３】
〔要約セグメント候補の絞り込み処理〕
上述のように無音区間および騒音区間に基づいて決定された要約セグメント全てについて後述する要約再生の処理を行ってもよいが、処理量の軽減および不必要な要約セグメントによる要約再生を防ぐ、すなわち、重要度の低い要約セグメントであっても、後述する結合処理によって重要度が高くなる可能性があり、不適切な要約セグメントよる要約再生を防ぐため、設定された要約セグメントを絞り込むようになっている。
【０１４４】
本実施形態では、以下の（式１０）によってリスト化された要約セグメント候補から絞り込み処理を行うようになっている。
【０１４５】
この（式１０）は、全ての要約セグメントの時間が限界最短時間（ＤＲ_LMin）とした場合の絞り込む要約セグメントの数の定数倍（例えば、Ｋ₁＝２）と要約セグメント候補の数とを比較し、少ない方を要約セグメント数に設定するようになっている。
【０１４６】
例えば、リスト化された要約セグメント候補の数（ＮＰ_oid）、要約時間Ｓ、とすると、新たに設定される要約セグメント候補の数（ＮＰ_new）は、
ＮＰ_new ＝Ｍｉｎ（Ｉｎｔ（ｋ₁×（Ｓ／ＤＲ_LMin）），ＮＰ_old）・・・（式１０）
となる。
【０１４７】
なお、ｋ₁は定数であり、Ｍｉｎ（ａ，ｂ）はａ，ｂのうち値の小さい方を選択することを示し、ＩＮＴ（・）は小数点以下の切り捨てを行うことを示す。また、ＮＰ_newは絞り込まれた数を示し、ＤＲ_LMinは限界最短時間を示す。
【０１４８】
この限界最短時間（ＤＲ_LMin）とは、人間が一つの要約セグメント内容を理解するのに必要最低限の時間であり、例えば、本実施形態では限界最短時間（ＤＲ_LMin）は４秒としている。
【０１４９】
このように算出された要約セグメント候補の数が絞り込む要約セグメントの数の定数倍より多い場合は、すなわち、ＮＰ_new＜ＮＰ_oldの場合は、重要度順に要約セグメント候補をＮＰ_new個選択し、それ以外は、要約セグメント候補から削除するようになっている。
【０１５０】
なお、本実施形態では、このように要約セグメント候補の絞り込みを行い、この絞り込まれた要約セグメント候補において、上述した設定方法によって各要約セグメントに終了時刻を設定するようになっている。
【０１５１】
〔最短／標準／最長要約セグメント時間長の設定〕
上述したように、抽出すべき要約セグメントは、なるべく長い時間長を有する方が当該場面を理解する上で必要である一方、不用意に長い時間長を有する場合には、無駄な情報が多くなるとともに、情報量が増大し映像情報を的確に要約することができないので、本実施形態では、後述する最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を設定するようになっている。
【０１５２】
例えば、本実施形態では、抽出すべき要約セグメントの各内容を各内容毎に的確に把握させるため、以下の式によって最短要約セグメント時間長（ＤＲ_Min）、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）を設定するようになっている。
【０１５３】
最短要約セグメント時間長（ＤＲ_Min）についてはユーザにおける要約セグメントの見やすさを考慮して、比較的要約セグメントの時間長を長くするために（式１１）に示すようになっており、また、標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）については、（式１１）によって算出された最短要約セグメント時間長（ＤＲ_Min）を定数倍することによって算出するようになっている。
【０１５４】
ＤＲ_Min＝Ｍａｘ（ＤＲ_LMin，（Ｋ₂×（Ｓ／ＮＰ_new）））・・・（式１１）
ＤＲ_Typ ＝ＤＲ_Min × Ｋ_T1 ・・・（式１２）
ＤＲ_Max ＝ＤＲ_Min × Ｋ_T2 ・・・（式１３）
なお、Ｋ_T1およびＫ_T2とも比例定数であり、Ｍａｘ（ａ，ｂ）はａ，ｂのうち値の大きい方を選択することを示す。また、Ｋ₂（≧１）は各要約セグメントの最短時間を決定する係数であり、この値が大きいほど最短時間が長くなるとともに、要約セグメントの数は減少するようになっている。例えば、本実施形態では、Ｋ₂＝１．２、Ｋ_T1＝２、Ｋ_T2＝３と設定するようになっている。
【０１５５】
〔要約セグメントの結合〕
本実施形態では、時間的に重なる複数の要約セグメントが有った場合にこれらの要約セグメントを一つの要約セグメントに結合するようになっており、この場合、結合することによって生成された要約セグメントの重要度は、各要約セグメントが有する重要度（ＩＰＳＳ_j）の高い方を選択するようになっている（式１４）。
【０１５６】
ＩＰＳＳ_j ＝Ｍａｘ（ＩＰＳＳ_j，ＩＰＳＳ_j±_n）・・・（式１４）
また、例えば、２つの要約セグメントＳＳ_j，ＳＳ_j+n（ＳＴＳＳ_j＜ＳＴＳＳ_(j+n) ＳＥＳＳ_j≧ＳＴＳＳ_(j+n)）とすると、
ＳＥＳＳ_j ＝ＳＥＳＳ_j+n ・・・（式１５）
となる。
【０１５７】
このため、たとえ一の要約セグメントの重要度が低い場合であっても、重要度の高い要約セグメントと時間的に重なっている場合に、重要度の高い要約セグメントを補完できるようになっている。
【０１５８】
〔要約セグメントの決定〕
本実施形態では、最後に指定された要約時間を達成するために、重要度順に要約セグメント候補の選択を行うようになっている。
【０１５９】
また、選択された要約セグメント候補の総時間が指定された要約時間を超えるまで選択し、この選択されたセグメントを要約セグメントとするようになっている。
【０１６０】
ここで、重要度順に要約セグメントを決定する場合に、決定される要約セグメントは、異なるセグメント時間長を有するので、指定された要約時間を越えることがある。この要約時間が越えることが問題となるときは、例えば、オーバーした時間を決定された要約セグメント数で分配し、それぞれの要約セグメントの終了時刻から分配された時間長を削除する処理を行うようになっている。
【０１６１】
次に、図５〜図７を用いて要約再生動作における制御部１０７の要約セグメント決定処理ついて説明する。
【０１６２】
なお、図５は本実施形態における要約再生における要約セグメントの決定処理の動作を示すフローチャートであり、図６および図７は、それぞれ、要約セグメント決定処理において、騒音区間および無音区間に基づいて設定される要約セグメント候補の終了時刻を設定する動作を示すフローチャートである。
【０１６３】
また、本動作は、要約再生に必要な音声映像情報が既に蓄積部１０４に蓄積されているものとし、ユーザが要約再生を指示したときに本動作を行うようになっている。
【０１６４】
まず、図５に示すように、操作部１０５によってユーザから要約再生の指示が入力されると、制御部１０７は指示された音声映像情報における無音区間および騒音区間の検出処理が初めてであるか否かを判断し（ステップＳ１１）、以前に無音区間および騒音区間を検出したことがあると判断したときは、そのデータを蓄積部１０４から読み込む（ステップＳ１２）。
【０１６５】
また、指示された音声映像情報における無音区間および騒音区間の検出処理が初めてのときは、指示された音声映像情報の無音区間および騒音区間を検出部１０３によって検出させる（分類処理工程（ステップＳ１３））
次いで、ユーザによって指定された、または、予め設定された要約時間を読み込むと（ステップＳ１４）、上述のように、制御部１０７は、検出部１０３によって検出された、または、蓄積部１０４から読み込まれた無音区間および騒音区間に基づいて要約セグメント候補のリスト化を行う（決定処理工程（ステップＳ１５））。
【０１６６】
具体的には、追加最短無音区間長（ＤＲＳＡ_min）を有する無音区間および騒音区間の開始位置および終了位置を検出して要約セグメントの開始時刻および重要度の設定を行う。
【０１６７】
次いで、制御部１０７は、ステップＳ１５によって生成された要約セグメント候補リストから要約セグメント候補の絞り込み処理を行う（決定処理工程（ステップＳ１６））。
【０１６８】
具体的には、リスト化された要約セグメント候補から、入力された要約時間および限界最短時間（ＤＲ_LMin）に基づいて絞り込む要約セグメント数を算出するとともに、リスト化された要約セグメント候補から要約セグメントの重要度順に当該算出された要約セグメント数の要約セグメントを選択することによって要約セグメント候補を絞り込む。
【０１６９】
次いで、制御部１０７は、ステップＳ１６によって絞り込まれた要約セグメント数および限界最短時間（ＤＲ_LMin）に基づいて最短要約セグメント時間長（ＤＲ_Min）を算出するとともに、この最短要約セグメント時間長（ＤＲ_Min）に基づいて標準要約セグメント時間長（ＤＲ_Typ）および最長要約セグメント時間長（ＤＲ_Max）の設定を行う（ステップＳ１７）。
【０１７０】
次いで、制御部１０７は、ステップＳ１６によって絞り込まれた各要約セグメント候補がステップＳ１５によって設定されたときの音声区間の種別を判別、すなわち、各要約セグメントが騒音区間に基づいて設定されたか、または、無音区間に基づいて設定されたのかを判別する（ステップＳ１８）。
【０１７１】
具体的には、各要約セグメント候補における基になった無音区間および騒音区間の区間長の値（ＤＲＳＳ_j＝０か否か）によって判断を行う。
【０１７２】
次いで、音声区間の種別に基づいて各要約セグメント候補の終了時刻を設定する（決定処理工程（ステップＳ１９、ステップＳ２０））。騒音区間に基づいて設定されている要約セグメント候補の場合は騒音区間の終了位置によって終了時刻を設定し（ステップＳ１９、）、また、無音区間に基づいて設定されている要約セグメント候補の場合は開始時刻の基準となった無音区間の次に検出された無音区間の開始位置によって終了時刻を設定する（ステップＳ２０）。
【０１７３】
なお、各無音区間および騒音区間に基づいて設定される要約セグメント候補の終了時刻についての処理動作は後述する。
【０１７４】
最後に、制御部１０７は、上述したように時間的に重なる複数の要約セグメント候補を結合するとともに、ステップＳ１４によって入力された要約時間に基づいて重要度順に総時間が要約時間になるように抽出すべき要約セグメント候補を選択し、要約セグメントを決定する（決定処理工程（ステップＳ２１））。
【０１７５】
このように、要約再生時に要約セグメント候補が選択され、抽出すべき要約セグメントが決定されると、制御部１０７は、再生部１０６を制御して、要約再生を開始するとともに、この決定された要約セグメントに基づいて再生部１０６を制御して要約再生を行うようになっている。
【０１７６】
次に、図６を用いてステップＳ１９における騒音区間に基づいて生成された要約セグメント候補の終了時刻の設定処理について説明する。
【０１７７】
まず、基になった騒音区間の区間長（ＤＲＳＳ_i）が最長要約セグメント時間長（ＤＲ_Max）までの範囲内に有るか否かを判別し（ステップＳ３１）、騒音区間の区間長（ＤＲＳＳ_i）が最長要約セグメント時間長（ＤＲ_Max）を越えるときは当該騒音区間の開始位置（ＳＴＳＳ）に標準要約セグメント時間長（ＤＲ_Typ）を加算した値を終了時刻に設定する（ステップＳ３２）。
【０１７８】
一方、騒音区間の区間長が最長要約セグメント時間長（ＤＲ_Max）より短いときは、騒音区間の区間長が最短要約セグメント時間長（ＤＲ_Min）より大きいか否かを判断し（ステップＳ３３）、当該騒音区間の区間長（ＤＲＳＳ_i）が最短要約セグメント時間長（ＤＲ_Min）より大きいときは当該騒音区間の開始位置（ＳＴＳＳ）に当該騒音区間の区間長（ＤＲＳＳ_i）を加算した値を終了時刻に設定し（ステップＳ３４）、騒音区間の区間長が最長要約セグメント時間長（ＤＲ_Max）より小さいときは当該騒音区間の開始位置（ＳＴＳＳ）に最短要約セグメント時間長（ＤＲ_Min）を加算した値を終了時刻に設定する（ステップＳ３５）。
【０１７９】
次に、図７を用いてステップＳ２０における無音区間に基づいて生成された要約セグメント候補の終了時刻の設定処理について説明する。
【０１８０】
まず、当該無音区間の次の無音区間を検索する（ステップＳ４１）。
【０１８１】
なお、上述のように、最短要約セグメント時間長（ＤＲ_Min）以内に当該次の無音区間がある場合であっても、最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下にある無音区間が優先になるので、最短要約セグメント時間長（ＤＲ_Min）以内に当該次の無音区間が存在した場合は最短要約セグメント時間長以上に存在する最初の無音区間を検索しておく。
【０１８２】
次いで、要約セグメントの開始時刻に設定された無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1）における開始位置までの時間長（ＳＴ）が、最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下であるか否かを判断し（ステップＳ４２）、当該無音区間（ＤＳ_i+1）における開始位置までの時間長（ＳＴ）が最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下であるときは、要約セグメントの開始時刻（ＳＴＳＳ_i）にこの開始位置における時間長ＳＴを加算した値を終了時刻に設定する（ステップＳ４３）。
【０１８３】
次いで、当該無音区間（ＤＳ_i+1）における開始位置までの時間長（ＳＴ）が最短要約セグメント時間長（ＤＲ_Min）以上、最長要約セグメント時間長（ＤＲ_Max）以下でない場合は、無音区間（ＤＳ_i）の次に検出された無音区間（ＤＳ_i+1）の開始位置までの時間長（ＳＴ）が最短要約セグメント時間長（ＤＲ_Min）より大きいか否かを判断し（ステップＳ４４）、開始位置までの時間長（ＳＴ）が最短要約セグメント時間長（ＤＲ_Min）より小さい場合は、要約セグメントの開始時刻（ＳＴＳＳ_i）に最短要約セグメント時間長（ＤＲ_Min）を加算した値を終了時刻に設定し（ステップＳ４５）、開始位置までの時間長（ＳＴ）が最短要約セグメント時間長（ＤＲ_Min）より大きい場合は、要約セグメントの開始時刻（ＳＴＳＳ_i）に標準要約セグメント時間長（ＤＲ_Typ）を加算した値を終了時刻に設定する（ステップＳ４６）。
【０１８４】
以上説明したように、本実施形態では、音声映像情報における音声レベルによって検出された無音区間および騒音区間に基づいて抽出すべき要約セグメントを決定することによって、音声映像情報の盛り上がった部分および内容が切り替わった部分に基づいて要約再生を行うことができ、要約セグメントの重要度を要約セグメントを決定する際に基準となる無音区間および騒音区間の区間長に基づいて決定することができるとともに、騒音区間または無音区間に基づいて決定される要約セグメントの重要度を決定することができるので、ユーザが短時間で内容を的確に把握することができる要約情報を得ることができる。
【０１８５】
また、無音区間の終了位置を要約セグメントの開始時刻に設定することができるとともに、要約セグメントの開始時刻の次に検出された無音区間に基づいて当該要約セグメントの終了時刻を設定することができるので、音声映像情報の特徴部分の概略が示された、または、内容的に切りの良い部分など違和感のない適切なタイミングで要約セグメントを抽出することができる。
【０１８６】
また、騒音区間の開始位置を部分映像情報の開始時刻に設定することができるとともに、騒音区間の時間的長さに基づいて当該部分映像情報の終了時刻を設定することができるので、音声映像情報における盛り上がった部分、すなわち、違和感のない適切なタイミングで要約セグメントを抽出することができる。
【０１８７】
また、要約セグメントの終了時刻を決定するときに、最短要約セグメント時間長、標準要約セグメント時間長および最長要約セグメント時間長に基づいて当該終了時刻を決定するので、抽出された要約セグメントの内容を理解することのできる時間長を確保することができるとともに、要約セグメントの時間長が不用意に長くなることを防止することができる。
【０１８８】
なお、本実施形態はデジタル信号によって構成された映像情報に基づいて要約再生を行うようになっているが、アナログ信号によって提供された音声映像情報にも適用することは可能になっている。
【０１８９】
また、本実施形態では、一つの騒音レベル閾値（ＴＨ_n）によって騒音区間を検出するようになっているが、この騒音レベル閾値（ＴＨ_n）を複数設けて検出するようにしてもよい。
【０１９０】
この場合、例えば、図８に示すように、騒音レベル閾値１（ＴＨ_n1）および騒音レベル閾値２（ＴＨ_n2）によって騒音区間１および騒音区間２を検出するように構成すると、一つの騒音区間によって要約セグメントを生成するときに比べ、さらに適切な要約再生を行うことができるようになっている。
【０１９１】
すなわち、騒音レベル閾値１（ＴＨ_n1）の音声レベルを音声映像情報において極めて盛り上がった部分を騒音区間として検出し、この騒音区間によって要約セグメントの重要度を、無音区間に基づいて決定された要約セグメントの重要度を設定するときに用いられた重み付け関数などによって騒音レベル閾値２（ＴＨ_n2）で決定される要約セグメントの重要度より高く設定する。
【０１９２】
この結果、音声映像情報における重要な部分を的確に要約セグメントに設定することができるとともに、騒音レベル閾値２（ＴＨ_n2）によって得られた騒音区間も要約セグメント候補として設定することができるので、一つの騒音区間によって要約セグメントを生成するときに比べ、要約セグメントの選択の幅が広がるとともに、適切な要約再生を行うことができる。
【０１９３】
また、上述した時間的に重なる要約セグメントの結合処理によって、極めて盛り上がった要約セグメントとその前後の要約セグメントが結合される可能性があり、これにより一つの重要度の高い要約セグメントが設定されることになるので、要約再生時に極めて盛り上がった部分を比較的長く再生することができ、適切な要約再生を行うことができる。
【０１９４】
また、本実施形態に従来のＣＭ（Commercials）カット技術を用いてもよい。通常、ＣＭ部分の音声映像情報は騒音区間になる確率が高い。したがって、このＣＭカット技術を本実施形態に組み合わせ、要約再生を行う音声映像情報において騒音区間および無音区間を検出する前にＣＭ部分をカットし、その後、騒音区間および無音区間を検出するように構成すれば、適切な騒音レベル閾値を設定することができるので、より適切な要約再生を行うことができるようになる。
【０１９５】
なお、このＣＭカット技術には、特開平９−２１９８３５号公報記載の映像要約方法または映像要約装置を用いる。この技術は、映像情報において内容が大きく変化する部分（カット）と無音区間を検出し、この検出したカットと無音区間を用いてＣＭ部分を推定してＣＭカットを行うようになっている。
【０１９６】
また、本実施形態において、時間的に近接する要約セグメントを結合するようにしてもよい。ＭＰＥＧ（Moving Picture Experts group）などの動画シーケンスでは要約再生時に希望する時間軸上の位置へのシーク処理に時間がかかる場合があるため、要約再生時に要約セグメント間のシーク時に一時再生が停止するという問題が生じ、この問題は、要約再生を視聴しているユーザに不快感を与える。したがって、上述した抽出すべき要約セグメントの選択後に、さらに、時間的に近接する要約セグメントを一つに結合して要約再生時に必要となる要約セグメントの数を少なくし、要約再生のときのシーク回数を軽減し、見やすい要約再生を行うようにする。
【０１９７】
また、本実施形態では、要約再生処理動作を検出部１０３、再生部１０６および制御部１０７によって行うようになっているが、要約再生処理動作を行うプログラムをコンピュータによって読み出すことによって要約再生を実行するようにしてもよい。
【０１９８】
この場合、制御部１０７にこのプログラムを読み込み実行するコンピュータを備えるとともに、当該コンピュータに復号化された音声映像情報が入力され、この入力された音声映像情報から無音区間および騒音区間を検出するとともに、当該検出された無音区間および騒音区間に基づいて当該音声映像情報の要約セグメントを決定し、この決定した要約セグメントに基づいて入力された音声映像情報の要約再生を行うようにする。この結果、上述した要約再生装置と同様の効果を得ることができる。
【０１９９】
また、本実施形態では、要約再生装置１００が、上述のように検出部１０３、再生部１０６および制御部１０７などによって構成されているが、制御部１０７にコンピュータおよびハードディスクなどの記録媒体を備え、検出部１０３、再生部１０６および制御部１０７など要約再生装置１００の各部に対応する上記処理を行うプログラムを当該記録媒体に格納し、当該プログラムをコンピュータに読み取らせることによって、上述した検出部１０３、再生部１０６および制御部１０７など要約再生装置１００の各部のそれぞれの動作を行うようにしてもよい。
この場合、上述した予約セグメントの決定処理および要約再生動作を行うときは、当該格納されたプログラムによりコンピュータを動作させることによって当該決定処理および要約再生動作を行うようにする。また、この場合、制御部１０７は、本発明に係る検出手段、生成手段および決定手段を構成する。
【０２００】
【発明の効果】
以上説明したように、請求項１に記載の発明によれば、音声レベルによって分類された複数の音声区間に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができ、ユーザが短時間で内容を的確に把握することができる要約情報を得ることができる。
【０２０１】
また、請求項２に記載の発明によれば、音声レベルによって分類された複数の音声区間が映像情報の盛り上がった部分、場面が転換された部分または内容が切り替わった部分を示すことにより、この特徴部分を音声レベルによって分類された複数の音声区間に基づいて的確に部分映像情報として抽出することができるので、ユーザが短時間で内容を把握することができる適切な要約情報を得ることができる。
【０２０２】
また、請求項３に記載の発明によれば、無音区間および騒音区間に基づいて抽出すべき部分映像情報を決定することができ、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができるので、ユーザが短時間で内容を的確に把握することができる要約された映像情報を得ることができる。
【０２０３】
また、請求項４に記載の発明によれば、無音区間の終了位置を部分映像情報の開始時刻に設定することができるので、映像情報の特徴部分を為す部分映像情報を的確に抽出することができる。
【０２０４】
また、請求項５に記載の発明によれば、部分映像情報の開始時刻の次の無音区間に基づいて終了時刻を設定することができるので、特徴部分の概略が示された、または、内容的に切りの良い部分など違和感のない適切なタイミングで部分映像情報を抽出することができ、ユーザに当該映像情報を正確に伝えることのできる要約情報を得ることができる。
【０２０５】
また、請求項６に記載の発明によれば、騒音区間の開始位置を部分映像情報の開始時刻に設定することができるので、映像情報の特徴部分を為す部分映像情報を的確に抽出することができる。
【０２０６】
また、請求項７に記載の発明によれば、映像情報における盛り上がった部分、すなわち、当該映像情報の特徴部分の終了位置を的確に部分映像情報に設定することができるので、違和感のない適切なタイミングで部分映像情報を抽出することができ、ユーザに当該映像情報を正確に伝えることのできる要約情報を得ることができる。
【０２０７】
また、請求項８に記載の発明によれば、抽出された部分映像情報の内容を理解することのできる時間長を確保することができるとともに、部分映像情報の時間長が不用意に長くなることを防止することができるので、ユーザに当該映像情報を正確に伝えることのできる要約情報を得ることができる。
【０２０８】
また、請求項９に記載の発明によれば、部分映像情報の重要度に基づいて映像情報を要約することができるので、ユーザが指定した、または、予め設定された時間長に映像情報を短縮して要約するときにそれぞれの時間長に対応させることのできる要約情報を得ることができる。
【０２０９】
また、請求項１０に記載の発明によれば、無音区間を騒音区間より重要度を高く設定することができるので、騒音区間との重要度のバランスを取ることができ、的確な要約情報を得ることができる。
【０２１０】
また、請求項１１に記載の発明によれば、時間的に重なる映像情報を結合することによって映像情報の重要な部分を１つの部分映像情報として抽出することができるので、的確な要約情報を得ることができる。また、結合された各部分映像情報の重要度に基づいて当該部分映像情報の重要度が設定することができるので、ユーザが短時間で内容を把握することができる適切な要約映像情報を得ることができる。
【０２１１】
また、請求項１２に記載の発明によれば、音声レベルによって分類された複数の音声区間に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができ、ユーザが短時間で内容を的確に把握することができる要約情報を得ることができる。
【０２１２】
また、請求項１３に記載の発明によれば、音声レベルによって分類された複数の音声区間が映像情報の盛り上がった部分、場面が転換された部分または内容が切り替わった部分を示すことにより、この特徴部分を音声レベルによって分類された複数の音声区間に基づいて的確に部分映像情報として抽出することができるので、ユーザが短時間で内容を把握することができる適切な要約情報を得ることができる。
【０２１３】
また、請求項１４に記載の発明によれば、無音区間および騒音区間に基づいて抽出すべき部分映像情報を決定することができ、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができるので、ユーザが短時間で内容を的確に把握することができる要約された映像情報を得ることができる。
【０２１４】
また、請求項１５に記載の発明によれば、部分映像情報の重要度に基づいて映像情報を要約することができるので、ユーザが指定した、または、予め設定された時間長に映像情報を短縮して要約するときにそれぞれの時間長に対応させることのできる要約情報を得ることができる。
【０２１５】
また、請求項１６に記載の発明によれば、音声レベルによって分類された複数の音声区間に基づいて抽出すべき部分映像情報を決定することができるので、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができ、ユーザが短時間で内容を的確に把握することができる要約情報を得ることができる。
【０２１６】
また、請求項１７に記載の発明によれば、音声レベルによって分類された複数の音声区間が映像情報の盛り上がった部分、場面が転換された部分または内容が切り替わった部分を示すことにより、この特徴部分を音声レベルによって分類された複数の音声区間に基づいて的確に部分映像情報として抽出することができるので、ユーザが短時間で内容を把握することができる適切な要約情報を得ることができる。
【０２１７】
また、請求項１８に記載の発明によれば、無音区間および騒音区間に基づいて抽出すべき部分映像情報を決定することができ、映像情報の盛り上がった部分および内容が切り替わった部分を部分映像情報として抽出することができるので、ユーザが短時間で内容を的確に把握することができる要約された映像情報を得ることができる。
【０２１８】
また、請求項１９に記載の発明によれば、部分映像情報の重要度に基づいて映像情報を要約することができるので、ユーザが指定した、または、予め設定された時間長に映像情報を短縮して要約するときにそれぞれの時間長に対応させることのできる要約情報を得ることができる。
【図面の簡単な説明】
【図１】本発明に係る一実施形態の要約再生装置の構成を示すブロック図である。
【図２】一実施形態における無音区間および騒音区間の検出原理を説明するための図である。
【図３】騒音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明するための図である。
【図４】無音区間に基づいてセグメントの開始時刻および終了時刻を決定する原理を説明するための図である。
【図５】一実施形態の要約再生における要約セグメントを決定する処理動作を示すフローチャートである。
【図６】一実施形態の要約再生動作における騒音区間に基づいて決定される要約セグメントの終了時刻を設定する動作を示すフローチャートである。
【図７】一実施形態の要約再生動作における無音区間に基づいて決定される要約セグメントの終了時刻を設定する動作を示すフローチャートである。
【図８】一実施形態において複数の騒音区間を検出する原理を説明する図である。
【図９】従来の要約再生装置の構成を示すブロック図である。
【符号の説明】
１００ … 要約再生装置
１０１ … デマルチプレクサ
１０２ … 復号部
１０３ … 検出部（分類手段）
１０４ … 蓄積部
１０５ … 操作部
１０６ … 再生部（生成手段）
１０７ … 制御部（分類手段、決定手段、生成手段）

Claims

音声情報が付帯されている映像情報から、前記音声情報に基づいて当該映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約装置において、
前記音声情報における音声レベルに基づいて前記映像情報を複数の種類の音声区間に分類する分類手段と、
前記要約情報の時間長である要約時間を決定する要約時間決定手段と、
前記分類された複数の種類の音声区間の少なくとも何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記抽出されるべき前記部分映像情報を決定する決定手段と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段と、
を備え、
前記決定手段が、前記抽出されるべき部分映像情報の時間的長さを予め定められた時間的範囲内に設定し、また、前記抽出されるべき部分映像情報が決定されるときにその決定に際して基準となる音声区間の種類または時間的長さの少なくとも何れか一方に基づいて当該部分映像情報の重要度を設定し、
前記生成手段が、前記重要度の順に総時間が前記要約時間になるように前記要約情報を生成することを特徴とする映像情報要約装置。
請求項１に記載の映像情報要約装置において、
前記決定手段が、前記分類された複数の種類の音声区間の何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記部分映像情報の開始時刻または終了時刻の少なくとも何れか一方を決定することを特徴とする映像情報要約装置。
請求項１または２に記載の映像情報要約装置において、
前記分類手段が、前記音声レベルに基づいて前記映像情報を少なくとも音声の無い無音区間および予め設定された音声レベルを有する騒音区間に分類することを特徴とする映像情報要約装置。
請求項３に記載の映像情報要約装置において、
前記決定手段が、予め設定された時間的長さを有する前記無音区間の終了する時間軸上の位置を前記部分映像情報の開始時刻に設定することを特徴とする映像情報要約装置。
請求項４に記載の映像情報要約装置において、
前記決定手段が、前記無音区間に基づいて前記部分映像情報の開始時刻が設定されたときに、当該無音区間の次に検出された他の無音区間の時間軸上の位置に基づいて当該部分映像情報の終了時刻を設定することを特徴とする映像情報要約装置。
請求項３に記載の映像情報要約装置において、
前記決定手段が、予め設定された時間的長さを有する前記騒音区間の開始する時間軸上の位置に基づいて前記部分映像情報の開始時刻を設定することを特徴とする映像情報要約装置。
請求項６に記載の映像情報要約装置において、
前記決定手段が、前記騒音区間に基づいて前記部分映像情報の開始時刻が設定されたときに、当該騒音区間の時間的長さに基づいて当該部分映像情報の終了時刻を設定することを特徴とする映像情報要約装置。
請求項１乃至７の何れか一項に記載の映像情報要約装置において、
前記生成手段が、前記設定された部分映像情報の重要度に基づいて前記部分映像情報を抽出して前記映像情報を要約することを特徴とする映像情報要約装置。
請求項８に記載の映像情報要約装置において、
前記決定手段が、前記騒音区間に基づいて設定する前記部分映像情報の重要度より前記無音区間に基づいて設定する前記部分映像情報の重要度を高くして設定することを特徴とする映像情報要約装置。
請求項８または９に記載の映像情報要約装置において、
前記決定された複数の前記部分映像情報が時間的に重なり合う場合に、前記決定手段が、当該重なり合う部分映像情報を結合するとともに、結合した当該部分映像情報の重要度を各結合された部分映像情報の重要度に基づいて設定することを特徴とする映像情報要約装置。
音声情報が付帯されている映像情報から、前記音声情報に基づいて当該映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約方法において、
前記音声情報における音声レベルに基づいて前記映像情報を複数の種類の音声区間に分類する分類処理工程と、
前記要約情報の時間長である要約時間を決定する要約時間決定処理工程と、
前記分類された複数の種類の音声区間の少なくとも何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記抽出されるべき前記部分映像情報を決定する決定処理工程と、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成処理工程と、
を含み、
前記決定処理工程においては、前記抽出されるべき部分映像情報の時間的長さを予め定められた時間的範囲内に設定し、また、前記抽出されるべき部分映像情報が決定されるときにその決定に際して基準となる音声区間の種類または時間的長さの少なくとも何れか一方に基づいて当該部分映像情報の重要度を設定し、
前記生成処理工程においては、前記重要度の順に総時間が前記要約時間になるように前記要約情報を生成することを特徴とする映像情報要約方法。
請求項１１に記載の映像情報要約方法において、
前記決定処理工程においては、前記分類された複数の種類の音声区間の何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記部分映像情報の開始時刻または終了時刻の少なくとも何れか一方が決定されることを特徴とする映像情報要約方法。
請求項１１または１２に記載の映像情報要約方法において、
前記分類処理工程においては、前記音声レベルに基づいて前記映像情報が少なくとも音声の無い無音区間および予め設定された音声レベルを有する騒音区間に分類されることを特徴とする映像情報要約方法。
請求項１１乃至１３の何れか一項に記載の映像情報要約方法において、
前記生成処理工程においては、前記設定された部分映像情報の重要度に基づいて前記部分映像情報が抽出されて前記映像情報が要約されることを特徴とする映像情報要約方法。
コンピュータによって、音声情報が付帯されている映像情報から、前記音声情報に基づいて当該映像情報の一部である部分映像情報を１または複数個抽出し、当該抽出した部分映像情報に基づいて前記映像情報の時間長が短縮された要約情報を生成する映像情報要約プログラムであって、
前記コンピュータを、
前記音声情報における音声レベルに基づいて前記映像情報を複数の種類の音声区間に分類する分類手段、
前記要約情報の時間長である要約時間を決定する要約時間決定手段、
前記分類された複数の種類の音声区間の少なくとも何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記抽出されるべき前記部分映像情報を決定する決定手段、
前記決定された前記部分映像情報を前記映像情報から抽出して前記要約情報を生成する生成手段、
として機能させ、
前記決定手段が、前記抽出されるべき部分映像情報の時間的長さを予め定められた時間的範囲内に設定し、また、前記抽出されるべき部分映像情報が決定されるときにその決定に際して基準となる音声区間の種類または時間的長さの少なくとも何れか一方に基づいて当該部分映像情報の重要度を設定し、
前記生成手段が、前記重要度の順に総時間が前記要約時間になるように前記要約情報を生成することを特徴とする映像情報要約プログラム。
請求項１５に記載の映像情報要約プログラムにおいて、
前記コンピュータを、
前記分類された複数の種類の音声区間の何れか一種類の、前記映像情報中における時間軸上の位置若しくは時間的長さの少なくとも何れか一方に基づいて前記部分映像情報の開始時刻または終了時刻の少なくとも何れか一方を決定する決定手段、
として機能させることを特徴とする映像情報要約プログラム。
請求項１５または１６に記載の映像情報要約方法において、
前記コンピュータを、
前記音声レベルに基づいて前記映像情報を少なくとも音声の無い無音区間および予め設定された音声レベルを有する騒音区間に分類する分類手段、
として機能させることを特徴とする映像情報要約プログラム。
請求項１５乃至１７の何れか一項に記載の映像情報要約プログラムにおいて、
前記コンピュータを、
前記設定された部分映像情報の重要度に基づいて前記部分映像情報を抽出して前記映像情報を要約する生成手段、
として機能させることを特徴とする映像情報要約プログラム。