JP2002084492A - 編集処理装置、及び編集処理プログラムが記憶された記憶媒体 - Google Patents

編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Info

Publication number
JP2002084492A
JP2002084492A JP2000272596A JP2000272596A JP2002084492A JP 2002084492 A JP2002084492 A JP 2002084492A JP 2000272596 A JP2000272596 A JP 2000272596A JP 2000272596 A JP2000272596 A JP 2000272596A JP 2002084492 A JP2002084492 A JP 2002084492A
Authority
JP
Japan
Prior art keywords
image data
important
image
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000272596A
Other languages
English (en)
Other versions
JP3537753B2 (ja
Inventor
Atsushi Nishido
敦 西土
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2000272596A priority Critical patent/JP3537753B2/ja
Publication of JP2002084492A publication Critical patent/JP2002084492A/ja
Application granted granted Critical
Publication of JP3537753B2 publication Critical patent/JP3537753B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 内容を適切に表したサムネイルを付すことの
できる映像の編集処理装置、及び編集処理プログラムが
記憶された記憶媒体を提供すること。 【解決手段】 一まとまりの動画の画像データに対し
て、動画に伴う音声を音声認識により変換した文書デー
タの各文の重要度を取得し(S21〜S25)、重要度
の高い複数の重要文の文書データに対応する画像データ
のうち、時間的に中間に位置する静止画像の画像データ
を、重要画像候補として画像出力し(S27〜S3
1)、1つの画像の選択を取得し(S33)、選択され
た画像を一まとまりの動画に対するサムネイルとして対
応させる(S35)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、編集処理装置、及
び編集処理プログラムが記憶された記憶媒体に関し、更
に詳細には、内容を適切に表したサムネイルを付すこと
のできる映像の編集処理装置、及び編集処理プログラム
が記憶された記憶媒体に関する。
【0002】
【従来の技術】従来、編集処理装置、及び編集処理プロ
グラムが記憶された記憶媒体の該編集処理プログラムに
よる編集処理においては、内容毎や所定時間毎に区切ら
れた一まとまりの動画の画像データについて、静止画像
等のサムネイルを付すことが行われている。動画の内容
毎の区切りはシーンブレイクとして検出されている。こ
のシーンブレイクは、図7(a)に示すように、画像を
含まない黒いフレーム(ブラックアウト)が入れられて
いる場合、図7(b)に示すように、ブラックアウトを
含まずに突然シーンが遷移する場合、図7(c)に示す
ように、特殊効果やカメラ等の撮像装置側によりに少し
ずつ滑らかにシーンが遷移する場合がある。従来の編集
処理では、これらのシーンブレイクを検出することによ
り一連のシーンを内容的に一まとまりの動画として特定
する。
【0003】そして、このように特定された内容的に一
まとまりの動画や、時間で区切られ一まとまりとされた
動画の画像データのうちから、時間的に最初の画像デー
タをサムネイルの画像データとして採用している。編集
者は、このサムネイルを参照して、一まとまり毎の画像
データを連続させたり、順序を変更する等の操作を行
う。
【0004】
【発明が解決しようとする課題】しかし、上述のように
一まとまりの動画のうちの最初の画像をサムネイルとす
る場合には、このサムネイルが、一まとまりの動画の内
容を必ずしも適切に表したものとならない場合があり、
編集を行う場合に、内容を特定し難く、処理操作の円滑
性を欠く可能性がある。例えば、ニュース放送では、よ
く各トピックの始めにアナウンサーや記者が大きく映し
出され、原稿を読み始めてから、トピックに関連する映
像や背景を表示する。従って、各トピックを一まとまり
とした場合に、サムネイルには、内容とは無関係に各ま
とまりにアナウンサーや記者の画像が割り当てられてし
まう。ニュース放送以外であっても、最も重要な内容の
部分がサムネイルとはならない可能性があるのはもちろ
んである。更に、フェードインやワイプ、カメラによる
ズームやチルト等の、滑らかなシーン遷移では、シーン
ブレイクが適切に自動認識されない場合があり、遷移途
中の画像がサムネイルになったり、前のシーンの最後の
画像がサムネイルとなってしまう可能性もある。
【0005】尚、内容を適切に表した画像をサムネイル
とする手法としては、一まとまりの画像の各コマを一覧
表示させ、その中から操作者に手動でサムネイルを選択
させることが考えられる。しかし、各まとまりのコマは
多数となる場合が多く、それらのコマを一覧しその中か
ら選択をする作業は手間がかかる問題点がある。
【0006】本発明は、上述のような課題を解決するた
めになされたもので、内容を適切に表したサムネイルを
容易に付すことのできる映像の編集処理装置、及び編集
処理プログラムが記憶された記憶媒体を提供することを
目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、一まとまりの動画の画像データを取得す
る画像データ取得手段と、前記動画に対応付けられた音
声の音声データを変換した文書データを取得する文書デ
ータ取得手段と、前記文書データ取得手段で取得した前
記文書データを、所定の単位で区分する区分手段と、前
記区分手段で区分された各区分毎の文書データの重要度
を取得する重要度取得手段と、前記重要度取得手段で取
得した前記重要度が高い区分の文書データを、重要区分
として取得する重要区分取得手段と、前記重要区分に対
応する対応画像データから、所定の画像データを、重要
画像データとして取得する重要画像データ取得手段と、
前記重要画像データ取得手段で取得した前記重要画像デ
ータを、前記画像データ取得手段で取得した一まとまり
の前記画像データと対応付ける対応手段とを備える編集
処理装置(第1の構成)を提供することにより前記目的
を達成するものである。
【0008】前記画像データ取得手段は、外部の撮像装
置によって取得された画像データを当該撮像装置や他の
コンピュータからインターネット等の公衆回線や専用回
線を介したりケーブル接続等により通信で、また、種々
記憶媒体からインターフェイスを介して、取得するもの
とすることができる。更に、前記画像データ取得手段
は、画像撮像部(カメラ)を備え、撮像により画像デー
タを取得するようにしてもよい。前記文書データ取得手
段は、前記動画に伴う音声の音声データが外部の音声認
識装置によって音声認識され文書データに変換されたも
のを、他のコンピュータからインターネット等の公衆回
線や専用回線を介したりケーブル接続等により通信で、
また、種々記憶媒体を介して、取得するものとすること
ができる。また、前記文書データ取得手段は、該文書デ
ータ取得手段自身の内部に音声認識手段を備え、外部の
撮像装置に内臓される録音装置や外部の撮像装置と共に
使用された録音装置から、前記動画に伴う音声の音声デ
ータを、インターネット等の公衆回線や専用回線を介し
たりケーブル接続等により通信で、また、種々記憶媒体
を介して取得し、取得した音声データを音声認識により
変換して変換結果としての文書データを取得するものと
してもよい。更に、音声認識手段に加えて音声入力部
(マイク)を備え、前記動画に伴う音声をひろい、音声
データを音声認識手段により文書データに変換して文書
データを取得するようにしてもよい。一まとまりの動画
の画像データの「一まとまり」は、サムネイルを作成す
る単位である。この一まとまりは、画像データを分析す
ることでシーンブレイクを検出する等、自動的に内容的
に統一性のあるまとまりで区切って取得するものとする
ことができる。また、所定の時刻や時間によって自動的
に区切ったまとまりとすることもできる。更に、操作者
が手動によって区切ったまとまりであってもよい。前記
区分手段により一まとまりの画像データに対応する文書
データが更に区分される区分の単位は、1または所定数
の文ごと、句ごと、文節ごと、単語ごと等、意味内容が
失われず各区分の重要度を特定可能な大きさの単位であ
る。この区分の大きさは、区分前の一まとまりの文書の
大きさ等にもよるが、重要画像として、重要区分に対応
する画像データ全体ではなくそのうち一部の画像データ
を抽出する場合には、各区分毎に重要度を特定可能な大
きさの範囲内で、なるべく小さい単位であることが好ま
しい。重要区分に対応する画像データ全体から、一部の
画像データを抽出する場合に、重要区分の文書を適切に
表した画像データが重要画像として抽出される可能性が
極めて高くなるからである。前記重要区分取得手段は、
重要度が最も高い区分を取得しても、重要度の高い区分
を上から所定数取得しても、重要度が所定の高さ以上の
ものを区分数にかかわらず取得するものであってもよ
い。前記重要画像取得手段は、前記重要区分に対応する
対応画像データから、重要画像データとして、対応画像
データ全体を取得するものとすることができる。また、
対応画像データのうちから、例えば時間的に真ん中にな
る1秒間の画像データを取得する等所定間の動画の画像
データを取得することもできる。また、これらのように
一連の動画を構成する画像データではなく、1つの静止
画像分の画像データを取得するものとしてもよい。ま
た、画像データと同様に、重要画像に対応する音声デー
タや、この音声データから変換された文書データを、前
記重要画像データとともに、前記一まとまりの画像デー
タに対応付けておいてもよい。
【0009】上述の本発明の編集処理装置では、画像に
対応する音声に基づいて重要度の高い区分を割り出し、
この重要度の高い区分の画像データを重要画像のデータ
として、一まとまりの画像全体に対応づける。したがっ
て、この重要画像のデータを、一まとまりの画像のサム
ネイルとすることにより、内容的に重要な音声に対応
し、内容的に重要と推測される画像の画像データが、サ
ムネイルとなり、内容を適切に表したサムネイルを付す
ことが可能である。
【0010】本発明の編集処理装置は、前記第1の構成
の編集処理装置において、前記重要画像データ取得手段
は、前記重要画像データとして、前記対応画像データか
ら1つの静止画像データを取得する重要静止画像データ
取得手段である編集処理装置(第2の構成)とすること
ができる。この第2の構成の編集処理装置では、サムネ
イルとして、静止画像を得ることができる。本発明の編
集処理装置は、前記第1または第2の編集処理装置にお
いて、前記重要区分取得手段は、複数の前記重要区分を
取得し、前記重要画像データ取得手段は、前記重要区分
取得手段で取得した複数の前記重要区分それぞれに対応
する対応画像データから候補画像データを取得する候補
画像データ取得手段と、前記候補画像データ取得手段で
取得した候補画像データを画像出力させる候補画像出力
手段と、前記候補画像出力手段で出力された候補画像の
うちから1つの選択を取得する選択取得手段とを備え、
前記選択取得手段で取得した選択された候補画像の候補
画像データを前記重要画像データとする編集処理装置
(第3の構成)とすることができる。この第3の構成の
編集処理装置では、複数の重要画像候補の中から1つを
操作者に選択させることによって、操作者の判断を加え
ることによって、より確実に、一まとまりの画像の内容
を適切に表し且つ操作者に分かりやすい画像を、重要画
像として特定することが可能となる。また、重要区分に
対応する画像データを、一まとまりの画像の内容を表す
画像の画像データの候補として予め自動的に選択してい
るので、操作者は少ない手間で、1つの重要画像を選び
出すことが可能である。本発明の編集処理装置は、前記
第1から第3の編集処理装置において、複数のシーンを
含む動画の画像データを、各シーン毎に分割する画像デ
ータ分割手段を備え、前記画像データ取得手段は、前記
画像データ分割手段による分割に従って、各シーン毎の
画像データをそれぞれ前記一まとまりの動画の画像デー
タとして取得する編集処理装置(第4の構成)とするこ
とができる。この第4の構成の編集処理装置では、取得
した画像データが画像データ分割手段によって複数のま
とまりに分割され、このまとまり毎に、重要画像データ
が対応付けられる。前記画像データ分割手段は、シーン
ブレイク検出手段を含み画像データをシーンブレイク毎
に分割するものとすることができる。また、画像データ
を所定の時間間隔毎に分割するものとしてもよい。更
に、画像データ分割手段は、文書データ取得手段で取得
した文書データから、文書の内容を分析し文書データの
文書を意味内容に従って段落や章等の複数の文書に分割
し、文書データとの対応から画像データを分割するもの
としてもよい。
【0011】本発明は、一まとまりの動画の画像データ
を取得する画像データ取得機能と、前記動画に対応付け
られた音声の音声データを変換した文書データを取得す
る文書データ取得機能と、前記文書データ取得機能で取
得した前記文書データを、所定の単位で区分する区分機
能と、前記区分機能で区分された各区分毎の文書データ
の重要度を取得する重要度取得機能と、前記重要度取得
機能で取得した前記重要度が高い区分の文書データを、
重要区分として取得する重要区分取得機能と、前記重要
区分に対応する対応画像データから、所定の画像データ
を、重要画像データとして取得する重要画像データ取得
機能と、前記重要画像データ取得機能で取得した前記重
要画像データを、前記画像データ取得機能で取得した一
まとまりの前記画像データと対応付ける対応機能とをコ
ンピュータに実現させるためのコンピュータ読み取り可
能な編集処理プログラムが記憶された記憶媒体(第5の
構成)を提供することにより前記目的を達成するもので
ある。また、前記画像データ取得機能と、前記文書デー
タ取得機能と、前記区分機能と、前記重要度取得機能
と、前記重要区分取得機能と、前記重要画像データ取得
機能と、前記対応機能とを実現するための編集処理プロ
グラム、編集処理プログラム伝送媒体、編集処理プログ
ラム搬送波、編集処理プログラム信号、またはプログラ
ム製品としてもよい。ここで、プログラム製品には、編
集処理プログラムによる前記各機能を実現する記憶媒
体、サーバシステムコンピュータ、及びコンピュータシ
ステム等を含む。前記画像データ取得機能は、外部の撮
像装置によって取得された画像データをインターネット
等の公衆回線や専用回線を介したりケーブル接続等によ
り通信で、また、種々記憶媒体を介して、取得するもの
とすることができる。更に、前記画像データ取得機能
は、画像撮像部(カメラ)を備え、撮像により画像デー
タを取得するようにしてもよい。前記文書データ取得機
能は、前記動画に伴う音声の音声データが外部の音声認
識装置によって音声認識され文書データに変換されたも
のを、インターネット等の公衆回線や専用回線を介した
りケーブル接続等により通信で、また、種々記憶媒体を
介して、取得するものとすることができる。また、前記
文書データ取得機能は、音声認識機能を含み、外部か
ら、前記動画に伴う音声の音声データを、インターネッ
ト等の公衆回線や専用回線を介したりケーブル接続等に
より通信で、また、種々記憶媒体を介して、取得するも
のとしてもよい。更に、音声認識機能に加えて音声入力
部(マイク)から、前記動画に伴う音声から音声データ
を取得し、音声認識機能により文書データに変換するよ
うにしてもよい。一まとまりの動画の画像データの「一
まとまり」は、サムネイルを作成する単位である。この
一まとまりは、画像データを分析することでシーンブレ
イクを検出する等、自動的に内容的に統一性のあるまと
まりで区切って取得するものとすることができる。ま
た、操作者が手動によって区切ったまとまりとすること
もできる。更に、所定の時刻や時間によって自動的に区
切ったまとまりであってもよい。前記区分機能により一
まとまりの画像データに対応する文書データが更に区分
される区分の単位は、1または所定数の文ごと、句ご
と、文節ごと、単語ごと等、意味内容が失われず各区分
の重要度を特定可能な大きさの単位である。この区分の
大きさは、区分前の一まとまりの文書の大きさ等にもよ
るが、重要画像として、重要区分に対応する画像データ
全体ではなくそのうち一部の画像データを抽出する場合
には、各区分毎に重要度を特定可能な大きさの範囲内
で、なるべく小さい単位であることが好ましい。重要区
分に対応する画像データ全体から、一部の画像データを
抽出する場合に、重要区分の文書を適切に表した画像デ
ータが重要画像として抽出される可能性が極めて高くな
るからである。前記重要区分取得機能は、重要度が最も
高い区分を取得しても、重要度の高い区分を上から所定
数取得しても、重要度が所定の高さ以上のものを区分数
にかかわらず取得するものであってもよい。前記重要画
像取得機能は、前記重要区分に対応する画像データとし
て、重要区分内の画像データ全体を取得するものとする
ことができる。また、重要区分内の画像データのうちか
ら、例えば時間的に真ん中になる1秒間の画像データを
取得する等所定の画像データを取得する事もできる。ま
た、これらのように一連の動画を構成する画像データで
はなく、1つの静止画像分の画像データを取得するもの
としてもよい。また、画像データと同様に、重要区分内
の音声データや、この音声データから変換された文書デ
ータを、前記重要区分に対応する画像データとともに、
前記一まとまりの画像データに対応付けておいてもよ
い。本発明の編集処理プログラムが記憶された記憶媒
体、及び前記編集処理プログラム、編集処理プログラム
伝送媒体、編集処理プログラム搬送波、編集処理プログ
ラム信号、またはプログラム製品によれば、各種コンピ
ュータにプログラムを実装することによって、前記第1
の構成の編集処理装置を実現することができる。
【0012】前記第5の構成の編集処理プログラムが記
憶された記憶媒体は、前記重要画像取得機能は、前記重
要画像の画像データとして、前記重要区分内の画像デー
タから1つの静止画像データを取得する重要静止画像取
得機能を含むものとすることができる(第6の構成)。
前記第5の構成及び第6の構成の編集処理プログラムが
記憶された記憶媒体は、前記重要区分取得機能は、複数
の前記重要区分を取得し、前記重要画像データ取得機能
は、前記重要区分取得機能で取得した複数の前記重要区
分それぞれに対応する対応画像データから候補画像デー
タを取得する候補画像データ取得機能と、前記候補画像
データ取得機能で取得した候補画像データを画像出力さ
せる候補画像出力機能と、前記候補画像出力機能で出力
された候補画像のうちから1つの選択を取得する選択取
得機能とを備え、前記選択取得機能で取得した選択され
た候補画像の候補画像データを前記重要画像データとす
る編集処理プログラムが記憶された記憶媒体(第7の構
成)とすることができる。また、この編集処理プログラ
ム、編集処理プログラム伝送媒体、編集処理プログラム
搬送波、編集処理プログラム信号、またはプログラム製
品でもよい。前記第5から第7のうちのいずれか1の構
成の編集処理プログラムが記憶された記憶媒体は、複数
のシーンを含む動画の画像データを、各シーン毎に分割
する画像データ分割機能を備えさせ、前記画像データ取
得機能は、前記画像データ分割機能による分割に従っ
て、各シーン毎の画像データをそれぞれ前記一まとまり
の動画の画像データとして取得する編集処理プログラム
が記憶された記憶媒体(第8の構成)とすることができ
る。また、この編集処理プログラム、編集処理プログラ
ム伝送媒体、編集処理プログラム搬送波、編集処理プロ
グラム信号、またはプログラム製品でもよい。
【0013】
【発明の実施の形態】以下、本発明の編集処理装置、及
び編集処理プログラムが記憶された記憶媒体の好適な実
施の形態について、図1から図6を参照して詳細に説明
する。図1は本発明の編集処理装置の一実施形態の構成
であり、本発明の編集処理プログラムが記憶された記憶
媒体の該プログラムが読みとられたコンピュータの構成
を、概念的に表したものである。この概念構成図に示さ
れるように、編集処理装置(コンピュータ)は、入力手
段1、画像データ取得手段2、文書データ取得手段3、
区分手段4、重要度取得手段5、重要区分取得手段6、
重要画像データ取得手段8、対応手段9、及び出力手段
10を備えている。
【0014】入力手段1は、ユーザが編集処理装置に行
わせる各種処理についての命令を入力したり、データを
選択するためのものであり、キーボード、マウス、マイ
ク及びこのマイクからの音声の音声認識装置等が含まれ
る。またこの入力手段1は、編集する画像データ、この
画像データに伴う音声データやこの音声データを音声認
識により変換した文書データ、等を取り込んだり、編集
する画像データを指定するためのものである。この入力
手段1は、マイクを具備するビデオカメラや外部のコン
ピュータ、CD−ROMやDVD等の補助記憶装置、そ
の他の外部装置から、直接、またはインターネット等の
回線網を介して、有線または無線接続により、データの
編集対象となる画像データ、及びこの画像データに伴う
音声データや音声データを音声認識により変換した文書
データを、通信手段を使用して、取得する。
【0015】画像データ取得手段2は、一まとまりの動
画の画像データを取得する画像データ取得処理を行う。
画像データ取得手段2は、本実施形態においては、複数
のシーンを含む動画の画像データを、各シーン毎に分割
する画像データ分割処理を行う画像データ分割部21を
備えている。この画像データ分割部21は、入力手段1
によって編集の対象として指定され取得された画像デー
タを画像分析することによってブラックアウトやシーン
の遷移を検出する。ブラックアウトやシーンの遷移が検
出された場合には、取得した画像データが複数のシーン
を含むものとして、検出されたブラックアウトやシーン
の遷移を境界として各シーン毎に分割し、各シーンを一
まとまりの動画の画像データとする。これにより、画像
データ取得手段2は、入力手段1により編集の対象と指
定された画像データを、分割された1まとまり(シー
ン)毎に順次取得し出力してゆく。この画像データは、
音声データと共通するタイマによる時刻データを伴って
いる。
【0016】文書データ取得手段3は、前記動画に伴う
音声の音声データを音声認識により変換した文書データ
を、画像データに対応して取得する文書データ取得処理
を行う。文書データ取得手段3は、画像データ取得手段
2が1まとまり毎の画像データを取得すると、この画像
データに付された時刻データを参照して、この1まとま
り毎の画像データに対応する音声の音声認識結果の文書
データを取得する。この文書データは、画像データと共
通するタイマによる時刻データを伴っている。文書デー
タ取得手段3は、音声データを音声認識により文書デー
タに変換する音声認識部31を含み、入力手段1におい
て、画像データに対応して音声データが取得されている
場合には、この音声データを音声認識により文書データ
に変換して、画像データ取得手段2による画像データの
まとまりに対応した文書データを取得する。入力手段1
において音声認識結果としての文書データが取得されて
いる場合には、この文書データから、画像データ取得手
段2による画像データのまとまりに対応する文書データ
を取り出して取得する。音声認識部31は、音声波形等
の音声データを音声認識辞書と照合して音声認識結果を
文書データに変換したり、またはこれらを仮名漢字変換
するものである。この仮名漢字変換は、自然言語処理に
基づいた解析を加えて変換したものとすることができ
る。尚、入力手段1において音声認識後の文書データが
取得されている場合であっても、文書データ取得手段3
において独自の解析により再変換し新たな文書データを
取得するようにしてもよい。
【0017】区分手段4は、文書データ取得処理で取得
した前記文書データを、所定の単位で区分する区分処理
を行う。本実施形態においては、所定の単位は文であ
り、区分手段4は、文書データ取得手段3で取得した一
まとまり(各シーン)毎に、文書データを、各文単位に
区分する。重要度取得手段5は、区分手段4で区分され
た各区分について、重要度を取得する重要度取得処理を
行う。本実施形態においては、区分手段4で区分された
区分は、各文であり、重要度取得手段5は、各文につい
て重要度を取得する。重要度取得手段5は、1まとまり
の文書データに含まれる各文について、形態素解析を行
って、自立語、名詞句、複合名詞句等を含めた候補語
(句)を抽出し、抽出した候補語(句)の、一まとまり
中での出現頻度、評価関数から、各候補語(句)重要度
f(x)を決定する。ここで、評価関数としては、例え
ば、所定の重要語が予め指定されている場合にはその重
要語に対する重み付け、単語、名詞句、複合名詞句等の
候補語(句)の種類による重み付け等が使用される。そ
して、各文に出現する候補語(句)の重要度f(x)を
加算することによって、各文の重要度F(x)とする。
【0018】重要区分取得手段6は、文書データの区分
のうち重要度取得処理で取得した重要度の高い重要区分
を取得する重要区分取得処理を行う。本実施形態におい
ては、重要区分は重要文であり、重要区分取得手段6
は、重要度取得手段5で取得された各文のうち重要度F
(x)の高い文を、重要文として取得する。本実施形態
においては、重要度の高い順に所定の数の区分を取得す
る。重要画像データ取得手段8は、前記重要区分に対応
する対応画像データから、所定の画像データを、重要画
像データとして取得する重要画像データ取得処理を行
う。本実施形態においては、重要画像データ取得手段8
は、重要文に対応する対応画像データの中から、1つの
静止画像の画像データを重要画像データとして取得す
る。この重要画像データ取得手段8は、対応画像データ
取得部7を含んでいる。対応画像データ取得部7は、画
像データ取得処理で取得した画像データのうち、重要区
分の文書データに対応する画像データ(対応画像デー
タ)を取得する対応画像データ取得処理を行う。本実施
形態においては、区分は文であり、重要区分取得手段6
において重要文とされた各文にそれぞれ対して、画像デ
ータ取得手段2で取得した画像データの所定部分を対応
させる。文書データ取得手段3で取得された文書デー
タ、及び画像データ取得手段2で取得された画像データ
は、共通のタイマによる時間が記録されている。そし
て、対応取得手段7は、文書データの各区分開始時点と
終了時点から、画像データを同一の開始時点と終了時点
を有する画像データに区分し、対応させる。例えば、
「始めに、今日の主な項目です。」という文書データに
ついて、この区分の共通タイマによる開始時点が0.3
秒であり終了時点が1.5秒であれば、画像データのう
ち同じタイマによる0.3秒から1.5秒までの画像の
画像データが対応する。
【0019】また本実施形態においては、重要画像デー
タ取得手段8は、候補画像データ取得部81と、候補画
像出力部82と、選択取得部83とを備えている。候補
画像データ取得部81では、重要区分取得手段6で取得
した複数の前記重要区分それぞれについて対応する画像
データを対応画像データ取得処理の処理結果として取得
し、各重要区分に対応する対応画像データそれぞれから
1つずつの静止画像の画像データを、重要画像の候補画
像の画像データとして取得する候補画像データ取得処理
を行う。1つの静止画像の画像データとしては、各重要
区分の開始時点から終了時点までの画像データのうち、
中間時点の静止画像の画像データを選択する。例えば、
上述の、「始めに、今日の主な項目です。」という文書
データに対応し、共通タイマによる開始時点が0.3秒
であり終了時点が1.5秒の画像の場合には、このタイ
マでの0.9秒の時点における画像データを、重要画像
の候補画像の画像データとする。
【0020】候補画像出力部82は、候補画像取得処理
で取得した候補画像の画像データを出力手段10から画
像出力させる候補画像出力処理を行う。選択取得部83
は、出力手段10に出力された候補画像の中から、1つ
の選択を取得する選択取得処理を行う。出力手段10か
ら候補画像が画像出力されると、操作者は、1つの画像
を重要画像として選択し、この選択結果を入力手段1か
ら入力する。選択取得部83は、この入力結果から、ど
の画像が重要画像として選択されたかを取得し、選択さ
れた画像を重要画像として決定する。
【0021】対応手段9は、重要画像取得処理で取得し
た前記重要画像の画像データを画像データ取得処理で取
得した一まとまりの画像データと対応付ける対応処理を
行う。本実施形態においては、更に、対応手段9は、重
要画像と、この重要画像が抽出された前記一まとまりの
画像データとの対応を、該対応が認識可能に出力手段1
0に表示する。例えば、一まとまりの画像データのファ
イル名と、重要画像とを並べて表示する等である。これ
により、静止画像が、一まとまりの動画の画像データの
サムネイルとして機能し、操作者は、静止画像によっ
て、一まとまりの画像データの内容を明確に知ることが
できる。
【0022】図2は、図1のように構成された編集処理
装置の、具体的なシステム構成を表したものである。図
2に示されるように、編集処理装置はパーソナルコンピ
ュータやパーソナルコンピュータを含むコンピュータシ
ステムによって構成される。編集処理装置は、図2に示
すようにシステム全体を制御するための制御部11を備
えている。この制御部11には、データバス等のバスラ
インを介して、入力手段1としてのキーボード12やマ
ウス13、出力手段としての表示装置14や、印刷装置
15、記憶装置16、記憶媒体駆動装置17、通信制御
装置18、入出力I/F19、音声認識装置20が接続
されている。
【0023】制御部11は、CPU111、ROM11
2、RAM113を備えている。CPU111は、プロ
グラムに従って各種装置を制御し演算を行う。ROM1
12は、コンピュータの起動時に実行されるプログラム
等が予め格納されたリードオンリーメモリである。RA
M113は、CPUが各種制御や演算を行うためのプロ
グラムやデータが格納されるワーキングメモリとして使
用される。
【0024】キーボード12は、編集を行う動画の画像
データや画像データに付された音声データ、文書データ
を取得する際に、編集の対象となる動画を指定したり、
選択取得手段の一部として候補画像の中から重要画像を
選択し指定する入力手段1を構成する。キーボード12
には、仮名文字を入力するための仮名キーやテンキー、
各種機能を実行するための機能キー、カーソルキー、等
の各種キーが配置されている。マウス13は、ポインテ
ィングデバイスであり、キーボードと同様に入力手段1
を構成し、表示装置14に表示されたキーやアイコン等
を左クリックすることで編集対象となる動画を指定した
り重要画像を選択する。表示装置14は、例えばCRT
や液晶ディスプレイ等が使用される。この表示装置に
は、編集の対象となりうる動画がアイコンやファイル名
で表示され、編集を行う画像をキーボード12やマウス
13により選択するようになっている。また、重要画像
候補の画像が表示され、重要画像をキーボード12やマ
ウス13により選択するようになっている。更に、重要
画像が、この重要画像を抽出した一まとまりの動画のサ
ムネイルとして表示されるようになっている。印刷装置
15は、出力手段10を構成し、表示装置14に表示さ
れた画像等の印刷を行うためのものである。この印刷装
置としては、レーザプリンタ、ドットプリンタ、インク
ジェットプリンタ、ページプリンタ、感熱式プリンタ、
熱転写式プリンタ、等の各種印刷装置が使用される。
【0025】記憶装置16は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置16に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置17で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
16は、仮名漢字変換辞書161、プログラム格納部1
62、データ格納部163、音声認識辞書164、及び
図示しないその他の格納部(例えば、この記憶装置16
内に格納されているプログラムやデータ等をバックアッ
プするための格納部)等を有している。プログラム格納
部162には、本実施形態による編集処理において、一
まとまりの動画毎にサムネイルを付与するサムネイル処
理を行うためのプログラムとして、一まとまりの動画の
画像データを取得する画像データ取得処理プログラム、
前記動画に対応付けられた音声の音声データを変換した
文書データを取得する文書データ取得処理プログラム、
前記文書データ取得処理プログラムによる文書データ取
得処理で取得した前記文書データを、所定の単位で区分
する区分処理プログラム、前記区分処理で区分された各
区分毎の文書データの重要度を取得する重要度取得処理
プログラム、前記重要度取得処理プログラムによる重要
度取得処理で取得した前記重要度が高い区分の文書デー
タを、重要区分として取得する重要区分取得処理プログ
ラム、前記重要区分取得処理プログラムによる重要区分
取得処理で取得した前記重要区分に対応する対応画像デ
ータから、所定の画像データを、重要画像データとして
取得する重要画像データ取得処理プログラム、前記重要
画像データ取得処理プログラムによる重要画像データ取
得処理で取得した前記重要画像データを、前記画像デー
タ取得処理で取得した一まとまりの前記画像データと対
応付ける対応処理プログラムが格納されている。また、
このサムネイル処理の他の、動画の編集処理プログラ
ム、(例えば、サムネイル処理により付されたサムネイ
ルを参照しながら一まとまりの動画どうしの並べ替え処
理のプログラム等サムネイル処理の結果を利用するもの
と、利用しないものを含む)、仮名漢字変換辞書161
を使用して入力された仮名文字列を漢字混り文に変換す
る仮名漢字変換プログラム、等の各種プログラムが格納
されている。
【0026】データ格納部163には、他の装置で撮像
・作成されて記憶媒体駆動装置17や通信制御装置18
から読み込まれた動画データ、及び、この動画データと
ともに取得された音声データや該音声データの音声認識
結果としての文書データ、及び本実施形態による編集処
理で動画データから抽出された各動画データのサムネイ
ルとしての静止画像の画像データ等が格納される。音声
認識辞書格納部164には、音素、単音節、単語、形態
素、文節等(以下形態素等)の単位での音声データと単
語等との対応音声認識辞書が格納されている。本実施形
態においては、形態素毎の音声パターンと形態素が対応
する形態素辞書が格納されている。この音声認識辞書1
64は、音声の音声データのパターンや、他の装置で作
成され記憶媒体駆動装置17や通信制御装置18から読
み込まれた音声データのパターンから、対応する単語を
探し出し、入力された音声を単語として認識する際に使
用される。
【0027】記憶媒体駆動装置17は、CPU111が
外部の記憶媒体からコンピュータプログラムや文書を含
むデータ等を読み込むための駆動装置である。記憶媒体
に記憶されているコンピュータプログラム等には、本実
施形態の編集処理装置により実行されるイメージ情報検
索処理や主観評価表現辞書較正処理、主観評価情報辞書
較正処理等の各種処理プログラム、及び、そこで使用さ
れる辞書、データ等も含まれる。ここで、記憶媒体と
は、コンピュータプログラムやデータ等が記憶される記
憶媒体をいい、具体的には、フロッピーディスク、ハー
ドディスク、磁気テープ等の磁気記憶媒体、メモリチッ
プやICカード等の半導体記憶媒体、CD−ROMやM
O、PD(相変化書換型光ディスク)等の光学的に情報
が読み取られる記憶媒体、紙カードや紙テープ等の用紙
(および、用紙に相当する機能を持った媒体)を用いた
記憶媒体、その他各種方法でコンピュータプログラム等
が記憶される記憶媒体が含まれる。本実施形態の編集処
理装置において使用される記憶媒体としては、主とし
て、CD−ROMやフロッピー(登録商標)ディスク等
の記憶媒体が使用される。記憶媒体駆動装置17は、こ
れらの各種記憶媒体からコンピュータプログラムを読み
込む他に、フロッピーディスクのような書き込み可能な
記憶媒体に対してRAM113や記憶装置16に格納さ
れているデータ等を書き込むことが可能である。
【0028】なお、フロッピーディスクやメモリチッ
プ、ICカード等に格納された動画の画像データや音声
データ、文書データを記憶媒体駆動装置17を介して読
み込んで、本実施形態による編集処理を行う場合、記憶
媒体駆動装置17は画像データ取得手段2及び文書デー
タ取得手段3として機能する。
【0029】本実施形態の編集処理装置では、制御部1
1のCPU111が、記憶媒体駆動装置17にセットさ
れた外部の記憶媒体からコンピュータプログラムを読み
込んで、記憶装置16の各部に格納(インストール)す
る。そして、本実施形態によるイメージ情報検索処理等
の各種処理を実行する場合、記憶装置16から該当プロ
グラムをRAM113に読み込み、実行するようになっ
ている。但し、記憶装置16からではなく、記憶媒体駆
動装置17により外部の記憶媒体から直接RAM113
にプログラムを読み込んで実行することも可能である。
また、編集処理装置によっては、本実施形態の編集処理
のための各種プログラム等を予めROM112に記憶さ
せておき、これをCPU111が実行するようにしても
よい。さらに、本実施形態による編集処理のための各種
プログラムやデータを、通信制御装置18を介して他の
記憶媒体からダウンロードし、実行するようにしてもよ
い。
【0030】通信制御装置18は、編集処理装置と他の
パーソナルコンピュータ等の各種外部電子機器との間を
ネットワーク接続するための制御装置であり、この通信
制御装置18を介して、外部電子機器から編集の対象と
なる動画の画像データや該画像データに伴う音声データ
または文書データを取得することができる。この場合の
通信制御装置18は画像データ取得手段2や文書データ
取得手段3を構成する。また、通信制御装置18は、出
力手段10及び選択取得部83を構成し、編集処理プロ
グラムにおいて抽出された重要画像候補の画像データを
通信制御装置18を介して外部電子機器に出力し、重要
画像候補の中から重要画像の選択を外部電子機器から通
信制御装置18を介して取得することができる。
【0031】入出力I/F19は、ビデオカメラ等の各
種機器を接続するためのインターフェースであり、画像
データ取得手段2や文書データ取得手段3を構成して、
外部電子機器から編集の対象となる動画の画像データや
該画像データに伴う音声データを取得することができ
る。音声認識装置20は、文書データ取得手段3を構成
し、入出力I/F19を介して接続されたビデオカメラ
から、また、通信制御装置18を介して外部電子機器か
ら、更に、記憶媒体駆動装置17を介して記憶媒体か
ら、及び記憶手段16のデータ格納部163から、入力
手段1で指定され読み込まれた音声データを、音声認識
辞書164を使用して認識し、文書データに変換する。
【0032】本実施形態の編集処理装置は、パーソナル
コンピュータやワードプロセッサ等を含むコンピュータ
システムで構成するだけでなく、LAN(ローカル・エ
リア・ネットワーク)のサーバ、コンピュータ(パソコ
ン)通信のホスト、インターネット上に接続されたコン
ピュータシステム等によって構成することも可能であ
る。また、ネットワーク上の各機器に機能分散させ、ネ
ットワーク全体で編集処理装置を構成することも可能で
ある。図3は、このようなネットワークにより編集処理
装置を構成した場合のシステム構成図を表したものであ
る。図3に示すように、編集処理装置は、サムネイル処
理等を行うホスト装置30と、動画の画像データや音声
データ、文書データをホスト装置30に送信する複数の
クライアントPC50と、ホスト装置30と各クライア
ントPC50とを接続するネットワーク40とから構成
されている。ネットワーク40としては主としてインタ
ーネットに接続されるが、LAN(ローカル・エリア・
ネットワーク)や、コンピュータネットワーク等の各種
ネットワーク40と接続可能になっている。ネットワー
ク40にはパーソナルコンピュータ等のクライアントP
C50が適宜接続されるようになっており、適時複数の
クライアントPC50がホスト装置30にアクセス可能
になっている。
【0033】クライアントPC50は、パーソナルコン
ピュータ等のいわゆるパソコンシステムにより構成さ
れ、ダイヤルアップソフトウェア等によりネットワーク
40(インターネット)に接続されWWW(World
Wide Web)のデータをブラウザ(brows
er)ソフトによりに閲覧可能になっている。一方、ク
ライアントPC50は制御部、表示部、入力部、出力
部、通信制御部、記憶部、その他の機器を備えている。
クライアントPC50の制御部は、装置全体を所定のプ
ログラムに従って処理、制御するようになっており、入
力部から入力された動画の画像データや音声データ、文
書データを、通信制御部及びネットワーク40を介して
ホスト装置30に送信すると共に、ホスト装置30にお
いてサムネイル処理により付与されたサムネイルを受信
して動画データとともに表示部に表示し、記憶部に格納
し、又は出力部から印刷出力するようになっている。
【0034】一方、ホスト装置30は、制御部31を備
えており、制御部31にデータバス等のバスラインを介
して入出力部32、表示部34、記憶部36、通信制御
部38、図示しないその他の機器が接続されている。各
部31〜38の基本的構成は、図2に示した編集処理装
置とほぼ同様であり、特に異なる点を中心に説明する
と、制御部31は、WWWサーバーとして機能し、図2
に示した編集処理装置の制御部11や、クライアントP
C50の制御部11に比べ高速処理が可能であると共
に、複数のクライアントPC50からのアクセスに対応
するために並列処理が可能になっている。同様に通信制
御部38も複数のISDN回線との接続が可能であると
共に、クライアントPC50のそれよりも高速処理が可
能になっている。そして、ホスト装置30は入力手段1
及び出力手段10を構成する通信制御部38の制御によ
ってクライアントPC50からネットワーク40を介し
て動画の画像データや音声データ、音声データの音声認
識結果の文書データを受信取得し、重要画像の候補画像
をクライアントPC50に出力し、クライアントPC5
0から重要画像の選択を取得する。重要画像とこの重要
画像の抽出元の動画との対応は、動画の画像データや音
声データ、文書データとともにデータ格納部363に格
納されるか、または、ネットワーク40を介してクライ
アントPC50に送信される。
【0035】以上のように構成された編集処理装置によ
るサムネイル処理の動作について次に説明する。図4
は、編集処理装置による編集処理において行われるサム
ネイル処理の動作を表したフローチャートであり、図5
及び図6は、サムネイル処理の各工程における処理を概
念的に表した説明図である。編集処理装置によるサムネ
イル処理は、ユーザにより、入力手段1から、編集処理
において所定の動画データをサムネイル表示モードで一
覧表示する命令が入力され、サムネイルの付与されてい
ない動画データが検出された場合に、このサムネイルの
付与されていない動画データについて行われる。
【0036】本実施形態によるサムネイル処理において
は、ユーザによりサムネイル表示モードで一覧表示する
動画のうち、サムネイルの付与されていない動画の画像
データAを、画像データ取得手段2が、サムネイル処理
の対象となる画像データとして取得する(画像データ取
得処理)(ステップ11)(図5(a))。画像データ
取得手段2で取得された画像データAは、画像データ取
得手段2に具備されるシーンブレイク検出部によってシ
ーンブレイクを検出することによって、画像データに複
数のシーンが含まれているかどうか調べられる(ステッ
プ13)。そして、画像データに複数のシーンが含まれ
ている場合には、画像データに複数のシーンが含まれて
いるとして、画像データ分割部21により画像データ分
割処理が行われ、画像データが各シーンごとのまとまり
(画像データa、画像データb、画像データc、・・
・)に分割される(画像データ分割処理)(ステップ1
5)(図5(b))。画像データ取得手段2で取得され
た画像データが1シーンである場合(ステップ13;
N)及び複数シーンの画像データが各シーン毎に一まと
まりの画像データに分割された後(ステップ15後)、
文書データ取得手段3が、この画像データの動画ととも
に録音された音声の音声認識結果の文書データ(画像デ
ータaに対応する文書データa’、画像データbに対応
する文書データb’、画像データcに対応する文書デー
タc’、・・・)を、各画像データの一まとまり毎に対
応させて取得する(文書データ取得処理)(ステップ1
7)(図5(c))。このとき、文書データ取得手段3
は、画像データ取得手段2で取得された画像データに対
応する音声の音声データが音声認識されていない場合に
は、音声データを音声認識部31によって音声認識し
て、文書データを取得する。既に音声認識結果がある場
合には、この音声認識結果の文書データをそのまま取得
する。各画像データのまとまりに対応する音声データや
文書データは、画像データに付されている時刻データを
参照し、同じ時刻データ分の音声データや文書データを
割り出して取得する。
【0037】次に、区分手段4が、最初のまとまりの画
像データ(N=1としたときのN番目のまとまりの画像
データ、即ち1番目のまとまりの画像データa)に対応
する文書データ(文書データa’)を取得し、この文書
データを各文(文1、文2、文3、・・・)に区分する
(区分処理)(ステップ19〜ステップ23)(図5
(d))。そして、重要度取得手段5が、各文1、文
2、文3、・・・について形態素解析を行って、自立
語、名詞句、複合名詞句等を含めた重要語(句)を抽出
し、抽出した重要語(句)の、最初の一まとまり中での
出現頻度、評価関数から、各重要語(句)の重要度fを
決定する。評価関数は、例えば、重要語(句)に対する
重み付け、単語、名詞句、複合名詞句等の重要語(句)
の種類による重み付け等を表す関数である。重要語
(句)、各重要語(句)の重み付け、重要語(句)の種
類に対する重み付けは、本実施形態においては、所定の
記憶部(記憶装置16のプログラム格納部162やデー
タ格納部163等)に予め格納されている。そして、各
文に出現する重要語(句)の重要度fを累積することに
よって、各文1、文2、文3、・・・の重要度Fを決定
する。(重要度取得処理)(ステップ25)(図5
(e))。
【0038】各文の重要度Fが決定されると、この重要
度Fを参照して、重要区分取得手段6が、重要度Fの高
い順から、文書データの全部の文の数に対して所定の割
合の数の文を選び、重要文と特定する(重要文1、重要
文2、・・・)(重要区分取得処理)(ステップ27)
(図5(f))。次いで、対応画像データ取得部7が、
重要文1,重要文2、・・・に対応する画像データ(対
応画像データ1、対応画像データ2、・・・)を取得す
る(対応画像データ取得処理)。重要文に対応する画像
データは、各重要文に付される時刻データを参照し、同
じ時刻データ分の画像データを割り出して取得する(対
応画像データ取得処理)(ステップ29)(図6
(g))。そして、候補画像データ取得部81により、
各重要文1,重要文2、・・・に対応する対応画像デー
タ1、対応画像データ2、・・・それぞれについて、そ
の始点と終点の中間の時刻における静止画像の画像デー
タが抽出され、これらの画像データが重要画像候補の画
像データ(候補画像データ1、候補画像データ2、・・
・)として特定される(重要画像候補取得処理)(図6
(h))。候補画像データ1、候補画像データ2、・・
・は、候補画像出力部82によって出力手段10から画
像出力される(候補画像出力処理)(ステップ31)
(図6(i))。操作者は、出力手段10から出力され
た候補画像データによる候補画像を見て、一まとまりの
画像データの内容のサムネイルとして適当と思うものを
選択し、入力手段1から入力する。
【0039】操作者による選択は、選択取得部83が、
入力手段1からの入力結果に基づいて取得し(ステップ
33)、選択された候補画像を重要画像(サムネイル用
の画像)とする(重要画像取得処理)。そして、重要画
像の画像データは、対応手段9によって、ステップ21
で取得した文書データに対応する一まとまりの画像デー
タに対する、サムネイル用の画像データとして対応付け
られ(対応処理)(図6(j))、所定の記憶部に記憶
される(ステップ35)。最初の一まとまりについて画
像データと重要画像の画像データとが対応付けられた後
は、以後2番目のまとまり、3番目のまとまり、・・・
と、ステップ21からの処理が繰り返され、動画が分割
された全てのまとまりについて、同様に重要画像の画像
データが対応付けられ記憶される。全てのまとまりにつ
いて重要画像の画像データが対応付けられると、サムネ
イル処理が終了される。以後、編集処理において動画デ
ータをサムネイル表示モードで一覧表示する命令が入力
されると、各一まとまりの画像データa、画像データ
b、画像データc、・・・に、上述のサムネイル処理に
おいて対応付けられたサムネイル用の画像データによる
サムネイル画像が付されて表示される。
【0040】このように、本実施形態では、一まとまり
のシーンの画像に対応する音声を音声認識した文書を取
得し、この文書中の重要度の高い文(重要文)を特定す
る。そして、重要文に対応する画像(重要文が音声出力
される場面の画像)は、一まとまりのシーンの内容を良
好に反映したものであるとして、この重要文に対応する
動画に含まれる静止画像の画像データを、サムネイル用
の画像の候補(候補画像)として出力する。そして、出
力した候補画像の中から操作者の選択を取得し、選択さ
れた候補画像をサムネイルと特定し、一まとまりのシー
ン全体に対応づける。
【0041】従って、本実施形態によると、一まとまり
のシーンの内容を考慮し、重要な内容を表示する場面の
画像データが、サムネイル候補となるので、一まとまり
の内容を適切に表したサムネイルを付すことが可能であ
る。本実施形態によると、重要な内容を表示する場面の
静止画像をサムネイルの候補画像として出力し、操作者
により適切な画像を選択させているので、より確実に、
一まとまりのシーンの内容を適切に表し且つ操作者に分
かりやすい画像が、重要画像として特定される。このと
き、重要な内容を表示する場面の画像がサムネイルとし
て自動的に選択されているので、操作者は少ない手間
で、1つのサムネイル用の画像を選び出すことが可能で
ある。本実施形態によると、複数のシーンを含む動画
が、シーンブレイクにより自動的に分割され、シーン毎
にサムネイルが付与されるので、異なる内容に共通の1
つのサムネイルが付与されることがない。
【0042】以上、本発明の一実施形態について説明し
たが、本発明は、上述の実施形態に限定されるものでは
なく、請求項に記載された発明の範囲内で種々の変形を
することが可能である。例えば、上述の実施形態では、
編集処理装置としてコンピュータを用いているが、コン
ピュータに限定されるものではなく、編集処理のための
専用機等でもよい。上述の実施形態においては、重要文
に対応する画像データ(対応画像データ)から、重要画
像候補として静止画像データを抽出しているが、所定時
間分の動画データを抽出してもよい。この場合、重要文
に対応する画像データ全体を重要画像候補とすることも
可能である。上述の実施形態においては、重要文に対応
する画像データから、時間的に中間に位置する静止画像
データを重要画像候補としているが、重要画像候補の画
像データは、重要文に対応する画像データから抽出され
ていればよく、重要文の開始時点の画像データや、開始
後所定時間後の画像データ等とすることもできる。上述
の実施形態においては、一まとまりの画像データに対応
する文書データを文単位で区分し重要区分として重要文
を取得しているが、区分する単位は、文単位に限定され
るものではなく、複数の文を1単位としたり、文節を単
位としてもよい。例えば、図5に示す文書データa’の
場合に、「始めに」「今日の」「ニュースを」「お伝え
します」「今日」「午前3時ごろ」・・・と文節単位で
区分し、各文節に含まれる単語の重要度から重要区分で
ある重要文節「地震が」「震度6の」「被害状況は」を
抽出し、これらの各重要文節に対応する画像を対応画像
としてもよい。区分が文単位以外であっても、複数の重
要区分を抽出可能であることは上述の実施形態と同様で
ある。また、重要区分の単位が文、文節、その他いずれ
であっても、重要度が等しい区分が複数検出された場合
には、それらのうち時刻データが最初のものや中間のも
の等所定の条件から1つを選択したり、いずれについて
も重要区分とすることもできる。
【0043】上述の実施形態においては、一まとまりの
画像データに対して、複数の重要画像候補を操作者に提
案し、操作者の選択によって重要画像を決定している
が、各まとまりについて1つの重要文のみを選び出し、
この重要文から抽出した静止画像を自動的に重要画像と
してサムネイルに決定するようにしてもよい。上述の実
施形態においては、画像データのシーンブレイクを検出
して、各シーンを一まとまりとしているが、対応する音
声データの音声認識後の文書データに基づいて、シーン
のまとまりを検出するようにしてもよい。文書データに
基づいてシーンのまとまりを検出する場合、例えば特開
平11−45278号公報記載の技術等の、従来より公
知の技術を用いることができる。即ち文書データの各文
を仮段落に分割し各仮段落について内容を表す文書ベク
トル等の指標を作成し、この指標に基づいて各仮段落文
間の類似度を求めて、所定の類似度以上の仮段落どうし
を1つのまとまりとする。この場合の文書ベクトルとし
ては、形態素解析により文書内に出現するキーワードを
パラメータとして、各キーワードについて仮段落中での
出現頻度や評価関数から各重要度fを決定しこの重要度
を各パラメータの値としたものを採用することができ、
この場合の類似度は、文書ベクトル間の角度に依存する
コサインにより求めることができる。すなわち、文書ベ
クトルbnとbn+1間の角度をqとし、両文書ベクト
ルの内積をbn・bn+1とし、両文書ベクトルの大き
さをそれぞれ|bn|、|bn+1|とした場合、両文
書ベクトルの類似度sは次の数式1により求まる。
【0044】
【数式1】類似度s=COS(q)=(bn・bn+
1)/(|bn|×|bn+1|)
【0045】この類似度sの値は−1≦s≦1までの値
をとり、1に近いほど2つの仮段落の文書ベクトルが互
いに平行に近く、2つの仮段落どうしは似ていると考え
ることができる。
【0046】また、各処理の順番についても、適宜変更
可能である。例えば、上述の実施形態においては、画像
データの一まとまり毎(シーン毎)に、対応する文書デ
ータの取得から重要文の特定、重要画像の決定までを行
い、他のまとまりについてもこれを繰り返すようになっ
ているが、各まとまりについての処理を、全てのまとま
りについて行ってから、次の処理を行うようにしてもよ
い。即ち、全てのまとまりについて、まとまりごとの文
書データの取得(文書データの分割)を行った後、全て
のまとまりについて重要文を特定し、その後、各まとま
りについての画像候補の出力と重要画像の選択の取得、
重要画像と各まとまりの画像データとの対応付けを行っ
てもよい。
【0047】上述の実施形態及び各変形例においては、
入力音声は日本語となっているが、あらゆる言語につい
て、音声データを取得し、編集処理を行うことが可能で
ある。その場合、対象となる言語用の形態素解析アルゴ
リズム等を使用するといった、本発明の構成には影響の
ない部分を変更するだけでよい。
【0048】尚、以上の変形例は、適宜複数を選択し組
み合わせて適用することが可能である。例えば、重要文
に基づいて動画の画像データを重要画像候補として抽出
する変形例に、一まとまりの画像データに対して1つの
重要文のみを決定し重要画像を決定する変形例を組み合
わせて、一まとまりの画像データに対して1つの重要文
のみを決定し、この重要文に基づいて動画の画像データ
を重要画像として決定することができる。
【0049】
【発明の効果】以上説明したように、本発明によれば、
動画の画像データに、内容を適切に表したサムネイルを
付すことが可能である。
【図面の簡単な説明】
【図1】本発明の編集処理装置の一実施形態であり、本
発明の編集処理プログラムが記憶された記憶媒体の一実
施形態の該プログラムが読み取られた、コンピュータの
構成を表したブロック図である。
【図2】同上、編集処理装置(コンピュータ)の具体的
なシステム構成図である。
【図3】同上、編集処理装置をネットワークにより構成
した場合のシステム構成図である。
【図4】同上、編集処理装置(コンピュータ)による編
集処理におけるサムネイル処理の流れを表すフローチャ
ートである。
【図5】図4のサムネイル処理の各工程における処理を
概念的に表した説明図である。
【図6】図4のサムネイル処理の図5に続く各工程にお
ける処理を概念的に表した説明図である。
【図7】本発明及び従来技術において、複数のシーンを
含む動画におけるシーンの遷移の形態を表した説明図で
ある。
【符号の説明】
1 入力手段 2 画像データ取得手段 21 画像データ分割部 3 文書データ取得手段 31 音声認識部 4 区分手段 5 重要度取得手段 6 重要区分取得手段 7 対応画像データ取得部 8 重要画像データ取得手段 81 候補画像データ取得部 82 候補画像出力部 83 選択取得部 9 対応手段 10 出力手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/781 H04N 5/781 510F 5/85 5/91 R Fターム(参考) 5C052 AA02 AA17 AC08 CC20 5C053 FA07 FA14 FA24 FA27 HA29 HA40 JA01 JA07 JA21 JA30 KA03 KA22 KA24 KA30 LA01 LA14 5D015 KK01 KK02 5D110 AA12 AA26 AA28 BB20 CA16 CB08 CC06 DA02 DE05

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 一まとまりの動画の画像データを取得す
    る画像データ取得手段と、 前記動画に対応付けられた音声の音声データを変換した
    文書データを取得する文書データ取得手段と、 前記文書データ取得手段で取得した前記文書データを、
    所定の単位で区分する区分手段と、 前記区分手段で区分された各区分毎の文書データの重要
    度を取得する重要度取得手段と、 前記重要度取得手段で取得した前記重要度が高い区分の
    文書データを、重要区分として取得する重要区分取得手
    段と、 前記重要区分に対応する対応画像データから、所定の画
    像データを、重要画像データとして取得する重要画像デ
    ータ取得手段と、 前記重要画像データ取得手段で取得した前記重要画像デ
    ータを、前記画像データ取得手段で取得した一まとまり
    の前記画像データと対応付ける対応手段とを備えること
    を特徴とする編集処理装置。
  2. 【請求項2】 前記重要画像データ取得手段は、前記重
    要画像データとして、前記対応画像データから1つの静
    止画像データを取得する重要静止画像データ取得手段で
    あることを特徴とする請求項1に記載の編集処理装置。
  3. 【請求項3】 前記重要区分取得手段は、複数の前記重
    要区分を取得し、 前記重要画像データ取得手段は、前記重要区分取得手段
    で取得した複数の前記重要区分それぞれに対応する対応
    画像データから候補画像データを取得する候補画像デー
    タ取得手段と、前記候補画像データ取得手段で取得した
    候補画像データを画像出力させる候補画像出力手段と、
    前記候補画像出力手段で出力された候補画像のうちから
    1つの選択を取得する選択取得手段とを備え、前記選択
    取得手段で取得した選択された候補画像の候補画像デー
    タを前記重要画像データとすることを特徴とする請求項
    1または請求項2に記載の編集処理装置。
  4. 【請求項4】 複数のシーンを含む動画の画像データ
    を、各シーン毎に分割する画像データ分割手段を備え、 前記画像データ取得手段は、前記画像データ分割手段に
    よる分割に従って、各シーン毎の画像データをそれぞれ
    前記一まとまりの動画の画像データとして取得すること
    を特徴とする請求項1から請求項3のうちのいずれか1
    の請求項に記載の編集処理装置。
  5. 【請求項5】 一まとまりの動画の画像データを取得す
    る画像データ取得機能と、 前記動画に対応付けられた音声の音声データを変換した
    文書データを取得する文書データ取得機能と、 前記文書データ取得機能で取得した前記文書データを、
    所定の単位で区分する区分機能と、 前記区分機能で区分された各区分毎の文書データの重要
    度を取得する重要度取得機能と、 前記重要度取得機能で取得した前記重要度が高い区分の
    文書データを、重要区分として取得する重要区分取得機
    能と、 前記重要区分に対応する対応画像データから、所定の画
    像データを、重要画像データとして取得する重要画像デ
    ータ取得機能と、 前記重要画像データ取得機能で取得した前記重要画像デ
    ータを、前記画像データ取得機能で取得した一まとまり
    の前記画像データと対応付ける対応機能とをコンピュー
    タに実現させるためのコンピュータ読み取り可能な編集
    処理プログラムが記憶された記憶媒体。
JP2000272596A 2000-09-08 2000-09-08 編集処理装置、及び編集処理プログラムが記憶された記憶媒体 Expired - Lifetime JP3537753B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000272596A JP3537753B2 (ja) 2000-09-08 2000-09-08 編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000272596A JP3537753B2 (ja) 2000-09-08 2000-09-08 編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Publications (2)

Publication Number Publication Date
JP2002084492A true JP2002084492A (ja) 2002-03-22
JP3537753B2 JP3537753B2 (ja) 2004-06-14

Family

ID=18758684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000272596A Expired - Lifetime JP3537753B2 (ja) 2000-09-08 2000-09-08 編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Country Status (1)

Country Link
JP (1) JP3537753B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288096A (ja) * 2002-03-27 2003-10-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
EP1376583A2 (en) 2002-06-19 2004-01-02 Microsoft Corporation System and method for automatically authoring video compositions using video clips
JP2004326971A (ja) * 2003-04-25 2004-11-18 Toshiba Corp 記録再生装置および記録再生方法
JP2008305545A (ja) * 2002-04-05 2008-12-18 Panasonic Corp 記録媒体、記録装置、再生装置、記録方法、再生方法、及びプログラム
US7609937B2 (en) 2004-05-12 2009-10-27 Funai Electric Co., Ltd. Recording apparatus for recording sound and image on a recording medium
US8793124B2 (en) 2001-08-08 2014-07-29 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus for deciding emphasized portions of speech, and program therefor
JP2020162138A (ja) * 2015-09-16 2020-10-01 富士ゼロックス株式会社 情報処理装置及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668168A (ja) * 1992-08-17 1994-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響キーワードによる映像検索方法および装置
JPH0991928A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 映像の編集方法
JPH0993527A (ja) * 1995-09-21 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 映像インデックス作成装置
JPH10232884A (ja) * 1996-11-29 1998-09-02 Media Rinku Syst:Kk 映像ソフトウェア処理方法及び映像ソフトウェア処理装置
JP2002064786A (ja) * 2000-08-23 2002-02-28 Oki Electric Ind Co Ltd 映像分割方法および映像分割装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668168A (ja) * 1992-08-17 1994-03-11 Nippon Telegr & Teleph Corp <Ntt> 音響キーワードによる映像検索方法および装置
JPH0993527A (ja) * 1995-09-21 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 映像インデックス作成装置
JPH0991928A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 映像の編集方法
JPH10232884A (ja) * 1996-11-29 1998-09-02 Media Rinku Syst:Kk 映像ソフトウェア処理方法及び映像ソフトウェア処理装置
JP2002064786A (ja) * 2000-08-23 2002-02-28 Oki Electric Ind Co Ltd 映像分割方法および映像分割装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793124B2 (en) 2001-08-08 2014-07-29 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus for deciding emphasized portions of speech, and program therefor
JP2003288096A (ja) * 2002-03-27 2003-10-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
JP2008305545A (ja) * 2002-04-05 2008-12-18 Panasonic Corp 記録媒体、記録装置、再生装置、記録方法、再生方法、及びプログラム
JP4527164B2 (ja) * 2002-04-05 2010-08-18 パナソニック株式会社 記録媒体、記録装置、及び再生装置
EP1376583A2 (en) 2002-06-19 2004-01-02 Microsoft Corporation System and method for automatically authoring video compositions using video clips
JP2004326971A (ja) * 2003-04-25 2004-11-18 Toshiba Corp 記録再生装置および記録再生方法
US7609937B2 (en) 2004-05-12 2009-10-27 Funai Electric Co., Ltd. Recording apparatus for recording sound and image on a recording medium
JP2020162138A (ja) * 2015-09-16 2020-10-01 富士ゼロックス株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JP3537753B2 (ja) 2004-06-14

Similar Documents

Publication Publication Date Title
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
KR100287093B1 (ko) 음성 합성 방법, 음성 합성 장치, 하이퍼 텍스트의 제어 방법 및 제어 장치
JP4890851B2 (ja) 意味論的文書スマートネール
EP1980960A2 (en) Methods and apparatuses for converting electronic content descriptions
JP2004348591A (ja) 文書検索方法及び装置
US20010049700A1 (en) Information processing apparatus, information processing method and storage medium
JP2008192055A (ja) コンテンツ検索方法、およびコンテンツ検索装置
JPH1125098A (ja) 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP4067603B2 (ja) 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法
JP3537753B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2006065477A (ja) 文字認識装置
JP2008191936A (ja) コンテンツ登録・検索システムの構築支援方法、およびコンテンツ登録・検索システムの構築支援装置
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
US6876969B2 (en) Document read-out apparatus and method and storage medium
JP3444831B2 (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP4030624B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
JPH11250077A (ja) 情報処理装置、情報処理方法及び記録媒体
JPH11238072A (ja) 文書保管装置
CN108415995A (zh) 搜索方法和装置
JPH1145278A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
KR100736759B1 (ko) 문서 표시 시스템 및 그 표시 방법
JP2009217742A (ja) メタデータ付与方法及び装置、並びにメタデータ付与プログラム
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
JP2000339310A (ja) 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040317

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 9