JP2002084492A

JP2002084492A - 編集処理装置、及び編集処理プログラムが記憶された記憶媒体

Info

Publication number: JP2002084492A
Application number: JP2000272596A
Authority: JP
Inventors: Atsushi Nishido; 敦西土
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 2000-09-08
Filing date: 2000-09-08
Publication date: 2002-03-22
Anticipated expiration: 2020-09-08
Also published as: JP3537753B2

Abstract

(57)【要約】【課題】内容を適切に表したサムネイルを付すことの
できる映像の編集処理装置、及び編集処理プログラムが
記憶された記憶媒体を提供すること。【解決手段】一まとまりの動画の画像データに対し
て、動画に伴う音声を音声認識により変換した文書デー
タの各文の重要度を取得し（Ｓ２１〜Ｓ２５）、重要度
の高い複数の重要文の文書データに対応する画像データ
のうち、時間的に中間に位置する静止画像の画像データ
を、重要画像候補として画像出力し（Ｓ２７〜Ｓ３
１）、１つの画像の選択を取得し（Ｓ３３）、選択され
た画像を一まとまりの動画に対するサムネイルとして対
応させる（Ｓ３５）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、編集処理装置、及
び編集処理プログラムが記憶された記憶媒体に関し、更
に詳細には、内容を適切に表したサムネイルを付すこと
のできる映像の編集処理装置、及び編集処理プログラム
が記憶された記憶媒体に関する。

【０００２】

【従来の技術】従来、編集処理装置、及び編集処理プロ
グラムが記憶された記憶媒体の該編集処理プログラムに
よる編集処理においては、内容毎や所定時間毎に区切ら
れた一まとまりの動画の画像データについて、静止画像
等のサムネイルを付すことが行われている。動画の内容
毎の区切りはシーンブレイクとして検出されている。こ
のシーンブレイクは、図７（ａ）に示すように、画像を
含まない黒いフレーム（ブラックアウト）が入れられて
いる場合、図７（ｂ）に示すように、ブラックアウトを
含まずに突然シーンが遷移する場合、図７（ｃ）に示す
ように、特殊効果やカメラ等の撮像装置側によりに少し
ずつ滑らかにシーンが遷移する場合がある。従来の編集
処理では、これらのシーンブレイクを検出することによ
り一連のシーンを内容的に一まとまりの動画として特定
する。

【０００３】そして、このように特定された内容的に一
まとまりの動画や、時間で区切られ一まとまりとされた
動画の画像データのうちから、時間的に最初の画像デー
タをサムネイルの画像データとして採用している。編集
者は、このサムネイルを参照して、一まとまり毎の画像
データを連続させたり、順序を変更する等の操作を行
う。

【０００４】

【発明が解決しようとする課題】しかし、上述のように
一まとまりの動画のうちの最初の画像をサムネイルとす
る場合には、このサムネイルが、一まとまりの動画の内
容を必ずしも適切に表したものとならない場合があり、
編集を行う場合に、内容を特定し難く、処理操作の円滑
性を欠く可能性がある。例えば、ニュース放送では、よ
く各トピックの始めにアナウンサーや記者が大きく映し
出され、原稿を読み始めてから、トピックに関連する映
像や背景を表示する。従って、各トピックを一まとまり
とした場合に、サムネイルには、内容とは無関係に各ま
とまりにアナウンサーや記者の画像が割り当てられてし
まう。ニュース放送以外であっても、最も重要な内容の
部分がサムネイルとはならない可能性があるのはもちろ
んである。更に、フェードインやワイプ、カメラによる
ズームやチルト等の、滑らかなシーン遷移では、シーン
ブレイクが適切に自動認識されない場合があり、遷移途
中の画像がサムネイルになったり、前のシーンの最後の
画像がサムネイルとなってしまう可能性もある。

【０００５】尚、内容を適切に表した画像をサムネイル
とする手法としては、一まとまりの画像の各コマを一覧
表示させ、その中から操作者に手動でサムネイルを選択
させることが考えられる。しかし、各まとまりのコマは
多数となる場合が多く、それらのコマを一覧しその中か
ら選択をする作業は手間がかかる問題点がある。

【０００６】本発明は、上述のような課題を解決するた
めになされたもので、内容を適切に表したサムネイルを
容易に付すことのできる映像の編集処理装置、及び編集
処理プログラムが記憶された記憶媒体を提供することを
目的とする。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、本発明は、一まとまりの動画の画像データを取得す
る画像データ取得手段と、前記動画に対応付けられた音
声の音声データを変換した文書データを取得する文書デ
ータ取得手段と、前記文書データ取得手段で取得した前
記文書データを、所定の単位で区分する区分手段と、前
記区分手段で区分された各区分毎の文書データの重要度
を取得する重要度取得手段と、前記重要度取得手段で取
得した前記重要度が高い区分の文書データを、重要区分
として取得する重要区分取得手段と、前記重要区分に対
応する対応画像データから、所定の画像データを、重要
画像データとして取得する重要画像データ取得手段と、
前記重要画像データ取得手段で取得した前記重要画像デ
ータを、前記画像データ取得手段で取得した一まとまり
の前記画像データと対応付ける対応手段とを備える編集
処理装置（第１の構成）を提供することにより前記目的
を達成するものである。

【０００８】前記画像データ取得手段は、外部の撮像装
置によって取得された画像データを当該撮像装置や他の
コンピュータからインターネット等の公衆回線や専用回
線を介したりケーブル接続等により通信で、また、種々
記憶媒体からインターフェイスを介して、取得するもの
とすることができる。更に、前記画像データ取得手段
は、画像撮像部（カメラ）を備え、撮像により画像デー
タを取得するようにしてもよい。前記文書データ取得手
段は、前記動画に伴う音声の音声データが外部の音声認
識装置によって音声認識され文書データに変換されたも
のを、他のコンピュータからインターネット等の公衆回
線や専用回線を介したりケーブル接続等により通信で、
また、種々記憶媒体を介して、取得するものとすること
ができる。また、前記文書データ取得手段は、該文書デ
ータ取得手段自身の内部に音声認識手段を備え、外部の
撮像装置に内臓される録音装置や外部の撮像装置と共に
使用された録音装置から、前記動画に伴う音声の音声デ
ータを、インターネット等の公衆回線や専用回線を介し
たりケーブル接続等により通信で、また、種々記憶媒体
を介して取得し、取得した音声データを音声認識により
変換して変換結果としての文書データを取得するものと
してもよい。更に、音声認識手段に加えて音声入力部
（マイク）を備え、前記動画に伴う音声をひろい、音声
データを音声認識手段により文書データに変換して文書
データを取得するようにしてもよい。一まとまりの動画
の画像データの「一まとまり」は、サムネイルを作成す
る単位である。この一まとまりは、画像データを分析す
ることでシーンブレイクを検出する等、自動的に内容的
に統一性のあるまとまりで区切って取得するものとする
ことができる。また、所定の時刻や時間によって自動的
に区切ったまとまりとすることもできる。更に、操作者
が手動によって区切ったまとまりであってもよい。前記
区分手段により一まとまりの画像データに対応する文書
データが更に区分される区分の単位は、１または所定数
の文ごと、句ごと、文節ごと、単語ごと等、意味内容が
失われず各区分の重要度を特定可能な大きさの単位であ
る。この区分の大きさは、区分前の一まとまりの文書の
大きさ等にもよるが、重要画像として、重要区分に対応
する画像データ全体ではなくそのうち一部の画像データ
を抽出する場合には、各区分毎に重要度を特定可能な大
きさの範囲内で、なるべく小さい単位であることが好ま
しい。重要区分に対応する画像データ全体から、一部の
画像データを抽出する場合に、重要区分の文書を適切に
表した画像データが重要画像として抽出される可能性が
極めて高くなるからである。前記重要区分取得手段は、
重要度が最も高い区分を取得しても、重要度の高い区分
を上から所定数取得しても、重要度が所定の高さ以上の
ものを区分数にかかわらず取得するものであってもよ
い。前記重要画像取得手段は、前記重要区分に対応する
対応画像データから、重要画像データとして、対応画像
データ全体を取得するものとすることができる。また、
対応画像データのうちから、例えば時間的に真ん中にな
る１秒間の画像データを取得する等所定間の動画の画像
データを取得することもできる。また、これらのように
一連の動画を構成する画像データではなく、１つの静止
画像分の画像データを取得するものとしてもよい。ま
た、画像データと同様に、重要画像に対応する音声デー
タや、この音声データから変換された文書データを、前
記重要画像データとともに、前記一まとまりの画像デー
タに対応付けておいてもよい。

【０００９】上述の本発明の編集処理装置では、画像に
対応する音声に基づいて重要度の高い区分を割り出し、
この重要度の高い区分の画像データを重要画像のデータ
として、一まとまりの画像全体に対応づける。したがっ
て、この重要画像のデータを、一まとまりの画像のサム
ネイルとすることにより、内容的に重要な音声に対応
し、内容的に重要と推測される画像の画像データが、サ
ムネイルとなり、内容を適切に表したサムネイルを付す
ことが可能である。

【００１０】本発明の編集処理装置は、前記第１の構成
の編集処理装置において、前記重要画像データ取得手段
は、前記重要画像データとして、前記対応画像データか
ら１つの静止画像データを取得する重要静止画像データ
取得手段である編集処理装置（第２の構成）とすること
ができる。この第２の構成の編集処理装置では、サムネ
イルとして、静止画像を得ることができる。本発明の編
集処理装置は、前記第１または第２の編集処理装置にお
いて、前記重要区分取得手段は、複数の前記重要区分を
取得し、前記重要画像データ取得手段は、前記重要区分
取得手段で取得した複数の前記重要区分それぞれに対応
する対応画像データから候補画像データを取得する候補
画像データ取得手段と、前記候補画像データ取得手段で
取得した候補画像データを画像出力させる候補画像出力
手段と、前記候補画像出力手段で出力された候補画像の
うちから１つの選択を取得する選択取得手段とを備え、
前記選択取得手段で取得した選択された候補画像の候補
画像データを前記重要画像データとする編集処理装置
（第３の構成）とすることができる。この第３の構成の
編集処理装置では、複数の重要画像候補の中から１つを
操作者に選択させることによって、操作者の判断を加え
ることによって、より確実に、一まとまりの画像の内容
を適切に表し且つ操作者に分かりやすい画像を、重要画
像として特定することが可能となる。また、重要区分に
対応する画像データを、一まとまりの画像の内容を表す
画像の画像データの候補として予め自動的に選択してい
るので、操作者は少ない手間で、１つの重要画像を選び
出すことが可能である。本発明の編集処理装置は、前記
第１から第３の編集処理装置において、複数のシーンを
含む動画の画像データを、各シーン毎に分割する画像デ
ータ分割手段を備え、前記画像データ取得手段は、前記
画像データ分割手段による分割に従って、各シーン毎の
画像データをそれぞれ前記一まとまりの動画の画像デー
タとして取得する編集処理装置（第４の構成）とするこ
とができる。この第４の構成の編集処理装置では、取得
した画像データが画像データ分割手段によって複数のま
とまりに分割され、このまとまり毎に、重要画像データ
が対応付けられる。前記画像データ分割手段は、シーン
ブレイク検出手段を含み画像データをシーンブレイク毎
に分割するものとすることができる。また、画像データ
を所定の時間間隔毎に分割するものとしてもよい。更
に、画像データ分割手段は、文書データ取得手段で取得
した文書データから、文書の内容を分析し文書データの
文書を意味内容に従って段落や章等の複数の文書に分割
し、文書データとの対応から画像データを分割するもの
としてもよい。

【００１１】本発明は、一まとまりの動画の画像データ
を取得する画像データ取得機能と、前記動画に対応付け
られた音声の音声データを変換した文書データを取得す
る文書データ取得機能と、前記文書データ取得機能で取
得した前記文書データを、所定の単位で区分する区分機
能と、前記区分機能で区分された各区分毎の文書データ
の重要度を取得する重要度取得機能と、前記重要度取得
機能で取得した前記重要度が高い区分の文書データを、
重要区分として取得する重要区分取得機能と、前記重要
区分に対応する対応画像データから、所定の画像データ
を、重要画像データとして取得する重要画像データ取得
機能と、前記重要画像データ取得機能で取得した前記重
要画像データを、前記画像データ取得機能で取得した一
まとまりの前記画像データと対応付ける対応機能とをコ
ンピュータに実現させるためのコンピュータ読み取り可
能な編集処理プログラムが記憶された記憶媒体（第５の
構成）を提供することにより前記目的を達成するもので
ある。また、前記画像データ取得機能と、前記文書デー
タ取得機能と、前記区分機能と、前記重要度取得機能
と、前記重要区分取得機能と、前記重要画像データ取得
機能と、前記対応機能とを実現するための編集処理プロ
グラム、編集処理プログラム伝送媒体、編集処理プログ
ラム搬送波、編集処理プログラム信号、またはプログラ
ム製品としてもよい。ここで、プログラム製品には、編
集処理プログラムによる前記各機能を実現する記憶媒
体、サーバシステムコンピュータ、及びコンピュータシ
ステム等を含む。前記画像データ取得機能は、外部の撮
像装置によって取得された画像データをインターネット
等の公衆回線や専用回線を介したりケーブル接続等によ
り通信で、また、種々記憶媒体を介して、取得するもの
とすることができる。更に、前記画像データ取得機能
は、画像撮像部（カメラ）を備え、撮像により画像デー
タを取得するようにしてもよい。前記文書データ取得機
能は、前記動画に伴う音声の音声データが外部の音声認
識装置によって音声認識され文書データに変換されたも
のを、インターネット等の公衆回線や専用回線を介した
りケーブル接続等により通信で、また、種々記憶媒体を
介して、取得するものとすることができる。また、前記
文書データ取得機能は、音声認識機能を含み、外部か
ら、前記動画に伴う音声の音声データを、インターネッ
ト等の公衆回線や専用回線を介したりケーブル接続等に
より通信で、また、種々記憶媒体を介して、取得するも
のとしてもよい。更に、音声認識機能に加えて音声入力
部（マイク）から、前記動画に伴う音声から音声データ
を取得し、音声認識機能により文書データに変換するよ
うにしてもよい。一まとまりの動画の画像データの「一
まとまり」は、サムネイルを作成する単位である。この
一まとまりは、画像データを分析することでシーンブレ
イクを検出する等、自動的に内容的に統一性のあるまと
まりで区切って取得するものとすることができる。ま
た、操作者が手動によって区切ったまとまりとすること
もできる。更に、所定の時刻や時間によって自動的に区
切ったまとまりであってもよい。前記区分機能により一
まとまりの画像データに対応する文書データが更に区分
される区分の単位は、１または所定数の文ごと、句ご
と、文節ごと、単語ごと等、意味内容が失われず各区分
の重要度を特定可能な大きさの単位である。この区分の
大きさは、区分前の一まとまりの文書の大きさ等にもよ
るが、重要画像として、重要区分に対応する画像データ
全体ではなくそのうち一部の画像データを抽出する場合
には、各区分毎に重要度を特定可能な大きさの範囲内
で、なるべく小さい単位であることが好ましい。重要区
分に対応する画像データ全体から、一部の画像データを
抽出する場合に、重要区分の文書を適切に表した画像デ
ータが重要画像として抽出される可能性が極めて高くな
るからである。前記重要区分取得機能は、重要度が最も
高い区分を取得しても、重要度の高い区分を上から所定
数取得しても、重要度が所定の高さ以上のものを区分数
にかかわらず取得するものであってもよい。前記重要画
像取得機能は、前記重要区分に対応する画像データとし
て、重要区分内の画像データ全体を取得するものとする
ことができる。また、重要区分内の画像データのうちか
ら、例えば時間的に真ん中になる１秒間の画像データを
取得する等所定の画像データを取得する事もできる。ま
た、これらのように一連の動画を構成する画像データで
はなく、１つの静止画像分の画像データを取得するもの
としてもよい。また、画像データと同様に、重要区分内
の音声データや、この音声データから変換された文書デ
ータを、前記重要区分に対応する画像データとともに、
前記一まとまりの画像データに対応付けておいてもよ
い。本発明の編集処理プログラムが記憶された記憶媒
体、及び前記編集処理プログラム、編集処理プログラム
伝送媒体、編集処理プログラム搬送波、編集処理プログ
ラム信号、またはプログラム製品によれば、各種コンピ
ュータにプログラムを実装することによって、前記第１
の構成の編集処理装置を実現することができる。

【００１２】前記第５の構成の編集処理プログラムが記
憶された記憶媒体は、前記重要画像取得機能は、前記重
要画像の画像データとして、前記重要区分内の画像デー
タから１つの静止画像データを取得する重要静止画像取
得機能を含むものとすることができる（第６の構成）。
前記第５の構成及び第６の構成の編集処理プログラムが
記憶された記憶媒体は、前記重要区分取得機能は、複数
の前記重要区分を取得し、前記重要画像データ取得機能
は、前記重要区分取得機能で取得した複数の前記重要区
分それぞれに対応する対応画像データから候補画像デー
タを取得する候補画像データ取得機能と、前記候補画像
データ取得機能で取得した候補画像データを画像出力さ
せる候補画像出力機能と、前記候補画像出力機能で出力
された候補画像のうちから１つの選択を取得する選択取
得機能とを備え、前記選択取得機能で取得した選択され
た候補画像の候補画像データを前記重要画像データとす
る編集処理プログラムが記憶された記憶媒体（第７の構
成）とすることができる。また、この編集処理プログラ
ム、編集処理プログラム伝送媒体、編集処理プログラム
搬送波、編集処理プログラム信号、またはプログラム製
品でもよい。前記第５から第７のうちのいずれか１の構
成の編集処理プログラムが記憶された記憶媒体は、複数
のシーンを含む動画の画像データを、各シーン毎に分割
する画像データ分割機能を備えさせ、前記画像データ取
得機能は、前記画像データ分割機能による分割に従っ
て、各シーン毎の画像データをそれぞれ前記一まとまり
の動画の画像データとして取得する編集処理プログラム
が記憶された記憶媒体（第８の構成）とすることができ
る。また、この編集処理プログラム、編集処理プログラ
ム伝送媒体、編集処理プログラム搬送波、編集処理プロ
グラム信号、またはプログラム製品でもよい。

【００１３】

【発明の実施の形態】以下、本発明の編集処理装置、及
び編集処理プログラムが記憶された記憶媒体の好適な実
施の形態について、図１から図６を参照して詳細に説明
する。図１は本発明の編集処理装置の一実施形態の構成
であり、本発明の編集処理プログラムが記憶された記憶
媒体の該プログラムが読みとられたコンピュータの構成
を、概念的に表したものである。この概念構成図に示さ
れるように、編集処理装置（コンピュータ）は、入力手
段１、画像データ取得手段２、文書データ取得手段３、
区分手段４、重要度取得手段５、重要区分取得手段６、
重要画像データ取得手段８、対応手段９、及び出力手段
１０を備えている。

【００１４】入力手段１は、ユーザが編集処理装置に行
わせる各種処理についての命令を入力したり、データを
選択するためのものであり、キーボード、マウス、マイ
ク及びこのマイクからの音声の音声認識装置等が含まれ
る。またこの入力手段１は、編集する画像データ、この
画像データに伴う音声データやこの音声データを音声認
識により変換した文書データ、等を取り込んだり、編集
する画像データを指定するためのものである。この入力
手段１は、マイクを具備するビデオカメラや外部のコン
ピュータ、ＣＤ−ＲＯＭやＤＶＤ等の補助記憶装置、そ
の他の外部装置から、直接、またはインターネット等の
回線網を介して、有線または無線接続により、データの
編集対象となる画像データ、及びこの画像データに伴う
音声データや音声データを音声認識により変換した文書
データを、通信手段を使用して、取得する。

【００１５】画像データ取得手段２は、一まとまりの動
画の画像データを取得する画像データ取得処理を行う。
画像データ取得手段２は、本実施形態においては、複数
のシーンを含む動画の画像データを、各シーン毎に分割
する画像データ分割処理を行う画像データ分割部２１を
備えている。この画像データ分割部２１は、入力手段１
によって編集の対象として指定され取得された画像デー
タを画像分析することによってブラックアウトやシーン
の遷移を検出する。ブラックアウトやシーンの遷移が検
出された場合には、取得した画像データが複数のシーン
を含むものとして、検出されたブラックアウトやシーン
の遷移を境界として各シーン毎に分割し、各シーンを一
まとまりの動画の画像データとする。これにより、画像
データ取得手段２は、入力手段１により編集の対象と指
定された画像データを、分割された１まとまり（シー
ン）毎に順次取得し出力してゆく。この画像データは、
音声データと共通するタイマによる時刻データを伴って
いる。

【００１６】文書データ取得手段３は、前記動画に伴う
音声の音声データを音声認識により変換した文書データ
を、画像データに対応して取得する文書データ取得処理
を行う。文書データ取得手段３は、画像データ取得手段
２が１まとまり毎の画像データを取得すると、この画像
データに付された時刻データを参照して、この１まとま
り毎の画像データに対応する音声の音声認識結果の文書
データを取得する。この文書データは、画像データと共
通するタイマによる時刻データを伴っている。文書デー
タ取得手段３は、音声データを音声認識により文書デー
タに変換する音声認識部３１を含み、入力手段１におい
て、画像データに対応して音声データが取得されている
場合には、この音声データを音声認識により文書データ
に変換して、画像データ取得手段２による画像データの
まとまりに対応した文書データを取得する。入力手段１
において音声認識結果としての文書データが取得されて
いる場合には、この文書データから、画像データ取得手
段２による画像データのまとまりに対応する文書データ
を取り出して取得する。音声認識部３１は、音声波形等
の音声データを音声認識辞書と照合して音声認識結果を
文書データに変換したり、またはこれらを仮名漢字変換
するものである。この仮名漢字変換は、自然言語処理に
基づいた解析を加えて変換したものとすることができ
る。尚、入力手段１において音声認識後の文書データが
取得されている場合であっても、文書データ取得手段３
において独自の解析により再変換し新たな文書データを
取得するようにしてもよい。

【００１７】区分手段４は、文書データ取得処理で取得
した前記文書データを、所定の単位で区分する区分処理
を行う。本実施形態においては、所定の単位は文であ
り、区分手段４は、文書データ取得手段３で取得した一
まとまり（各シーン）毎に、文書データを、各文単位に
区分する。重要度取得手段５は、区分手段４で区分され
た各区分について、重要度を取得する重要度取得処理を
行う。本実施形態においては、区分手段４で区分された
区分は、各文であり、重要度取得手段５は、各文につい
て重要度を取得する。重要度取得手段５は、１まとまり
の文書データに含まれる各文について、形態素解析を行
って、自立語、名詞句、複合名詞句等を含めた候補語
（句）を抽出し、抽出した候補語（句）の、一まとまり
中での出現頻度、評価関数から、各候補語（句）重要度
ｆ（ｘ）を決定する。ここで、評価関数としては、例え
ば、所定の重要語が予め指定されている場合にはその重
要語に対する重み付け、単語、名詞句、複合名詞句等の
候補語（句）の種類による重み付け等が使用される。そ
して、各文に出現する候補語（句）の重要度ｆ（ｘ）を
加算することによって、各文の重要度Ｆ（ｘ）とする。

【００１８】重要区分取得手段６は、文書データの区分
のうち重要度取得処理で取得した重要度の高い重要区分
を取得する重要区分取得処理を行う。本実施形態におい
ては、重要区分は重要文であり、重要区分取得手段６
は、重要度取得手段５で取得された各文のうち重要度Ｆ
（ｘ）の高い文を、重要文として取得する。本実施形態
においては、重要度の高い順に所定の数の区分を取得す
る。重要画像データ取得手段８は、前記重要区分に対応
する対応画像データから、所定の画像データを、重要画
像データとして取得する重要画像データ取得処理を行
う。本実施形態においては、重要画像データ取得手段８
は、重要文に対応する対応画像データの中から、１つの
静止画像の画像データを重要画像データとして取得す
る。この重要画像データ取得手段８は、対応画像データ
取得部７を含んでいる。対応画像データ取得部７は、画
像データ取得処理で取得した画像データのうち、重要区
分の文書データに対応する画像データ（対応画像デー
タ）を取得する対応画像データ取得処理を行う。本実施
形態においては、区分は文であり、重要区分取得手段６
において重要文とされた各文にそれぞれ対して、画像デ
ータ取得手段２で取得した画像データの所定部分を対応
させる。文書データ取得手段３で取得された文書デー
タ、及び画像データ取得手段２で取得された画像データ
は、共通のタイマによる時間が記録されている。そし
て、対応取得手段７は、文書データの各区分開始時点と
終了時点から、画像データを同一の開始時点と終了時点
を有する画像データに区分し、対応させる。例えば、
「始めに、今日の主な項目です。」という文書データに
ついて、この区分の共通タイマによる開始時点が０．３
秒であり終了時点が１．５秒であれば、画像データのう
ち同じタイマによる０．３秒から１．５秒までの画像の
画像データが対応する。

【００１９】また本実施形態においては、重要画像デー
タ取得手段８は、候補画像データ取得部８１と、候補画
像出力部８２と、選択取得部８３とを備えている。候補
画像データ取得部８１では、重要区分取得手段６で取得
した複数の前記重要区分それぞれについて対応する画像
データを対応画像データ取得処理の処理結果として取得
し、各重要区分に対応する対応画像データそれぞれから
１つずつの静止画像の画像データを、重要画像の候補画
像の画像データとして取得する候補画像データ取得処理
を行う。１つの静止画像の画像データとしては、各重要
区分の開始時点から終了時点までの画像データのうち、
中間時点の静止画像の画像データを選択する。例えば、
上述の、「始めに、今日の主な項目です。」という文書
データに対応し、共通タイマによる開始時点が０．３秒
であり終了時点が１．５秒の画像の場合には、このタイ
マでの０．９秒の時点における画像データを、重要画像
の候補画像の画像データとする。

【００２０】候補画像出力部８２は、候補画像取得処理
で取得した候補画像の画像データを出力手段１０から画
像出力させる候補画像出力処理を行う。選択取得部８３
は、出力手段１０に出力された候補画像の中から、１つ
の選択を取得する選択取得処理を行う。出力手段１０か
ら候補画像が画像出力されると、操作者は、１つの画像
を重要画像として選択し、この選択結果を入力手段１か
ら入力する。選択取得部８３は、この入力結果から、ど
の画像が重要画像として選択されたかを取得し、選択さ
れた画像を重要画像として決定する。

【００２１】対応手段９は、重要画像取得処理で取得し
た前記重要画像の画像データを画像データ取得処理で取
得した一まとまりの画像データと対応付ける対応処理を
行う。本実施形態においては、更に、対応手段９は、重
要画像と、この重要画像が抽出された前記一まとまりの
画像データとの対応を、該対応が認識可能に出力手段１
０に表示する。例えば、一まとまりの画像データのファ
イル名と、重要画像とを並べて表示する等である。これ
により、静止画像が、一まとまりの動画の画像データの
サムネイルとして機能し、操作者は、静止画像によっ
て、一まとまりの画像データの内容を明確に知ることが
できる。

【００２２】図２は、図１のように構成された編集処理
装置の、具体的なシステム構成を表したものである。図
２に示されるように、編集処理装置はパーソナルコンピ
ュータやパーソナルコンピュータを含むコンピュータシ
ステムによって構成される。編集処理装置は、図２に示
すようにシステム全体を制御するための制御部１１を備
えている。この制御部１１には、データバス等のバスラ
インを介して、入力手段１としてのキーボード１２やマ
ウス１３、出力手段としての表示装置１４や、印刷装置
１５、記憶装置１６、記憶媒体駆動装置１７、通信制御
装置１８、入出力Ｉ／Ｆ１９、音声認識装置２０が接続
されている。

【００２３】制御部１１は、ＣＰＵ１１１、ＲＯＭ１１
２、ＲＡＭ１１３を備えている。ＣＰＵ１１１は、プロ
グラムに従って各種装置を制御し演算を行う。ＲＯＭ１
１２は、コンピュータの起動時に実行されるプログラム
等が予め格納されたリードオンリーメモリである。ＲＡ
Ｍ１１３は、ＣＰＵが各種制御や演算を行うためのプロ
グラムやデータが格納されるワーキングメモリとして使
用される。

【００２４】キーボード１２は、編集を行う動画の画像
データや画像データに付された音声データ、文書データ
を取得する際に、編集の対象となる動画を指定したり、
選択取得手段の一部として候補画像の中から重要画像を
選択し指定する入力手段１を構成する。キーボード１２
には、仮名文字を入力するための仮名キーやテンキー、
各種機能を実行するための機能キー、カーソルキー、等
の各種キーが配置されている。マウス１３は、ポインテ
ィングデバイスであり、キーボードと同様に入力手段１
を構成し、表示装置１４に表示されたキーやアイコン等
を左クリックすることで編集対象となる動画を指定した
り重要画像を選択する。表示装置１４は、例えばＣＲＴ
や液晶ディスプレイ等が使用される。この表示装置に
は、編集の対象となりうる動画がアイコンやファイル名
で表示され、編集を行う画像をキーボード１２やマウス
１３により選択するようになっている。また、重要画像
候補の画像が表示され、重要画像をキーボード１２やマ
ウス１３により選択するようになっている。更に、重要
画像が、この重要画像を抽出した一まとまりの動画のサ
ムネイルとして表示されるようになっている。印刷装置
１５は、出力手段１０を構成し、表示装置１４に表示さ
れた画像等の印刷を行うためのものである。この印刷装
置としては、レーザプリンタ、ドットプリンタ、インク
ジェットプリンタ、ページプリンタ、感熱式プリンタ、
熱転写式プリンタ、等の各種印刷装置が使用される。

【００２５】記憶装置１６は、読み書き可能な記憶媒体
と、その記憶媒体に対してプログラムやデータ等の各種
情報を読み書きするための駆動装置で構成されている。
この記憶装置１６に使用される記憶媒体としては、主と
してハードディスクが使用されるが、後述の記憶媒体駆
動装置１７で使用される各種記憶媒体のうちの読み書き
可能な記憶媒体を使用するようにしてもよい。記憶装置
１６は、仮名漢字変換辞書１６１、プログラム格納部１
６２、データ格納部１６３、音声認識辞書１６４、及び
図示しないその他の格納部（例えば、この記憶装置１６
内に格納されているプログラムやデータ等をバックアッ
プするための格納部）等を有している。プログラム格納
部１６２には、本実施形態による編集処理において、一
まとまりの動画毎にサムネイルを付与するサムネイル処
理を行うためのプログラムとして、一まとまりの動画の
画像データを取得する画像データ取得処理プログラム、
前記動画に対応付けられた音声の音声データを変換した
文書データを取得する文書データ取得処理プログラム、
前記文書データ取得処理プログラムによる文書データ取
得処理で取得した前記文書データを、所定の単位で区分
する区分処理プログラム、前記区分処理で区分された各
区分毎の文書データの重要度を取得する重要度取得処理
プログラム、前記重要度取得処理プログラムによる重要
度取得処理で取得した前記重要度が高い区分の文書デー
タを、重要区分として取得する重要区分取得処理プログ
ラム、前記重要区分取得処理プログラムによる重要区分
取得処理で取得した前記重要区分に対応する対応画像デ
ータから、所定の画像データを、重要画像データとして
取得する重要画像データ取得処理プログラム、前記重要
画像データ取得処理プログラムによる重要画像データ取
得処理で取得した前記重要画像データを、前記画像デー
タ取得処理で取得した一まとまりの前記画像データと対
応付ける対応処理プログラムが格納されている。また、
このサムネイル処理の他の、動画の編集処理プログラ
ム、（例えば、サムネイル処理により付されたサムネイ
ルを参照しながら一まとまりの動画どうしの並べ替え処
理のプログラム等サムネイル処理の結果を利用するもの
と、利用しないものを含む）、仮名漢字変換辞書１６１
を使用して入力された仮名文字列を漢字混り文に変換す
る仮名漢字変換プログラム、等の各種プログラムが格納
されている。

【００２６】データ格納部１６３には、他の装置で撮像
・作成されて記憶媒体駆動装置１７や通信制御装置１８
から読み込まれた動画データ、及び、この動画データと
ともに取得された音声データや該音声データの音声認識
結果としての文書データ、及び本実施形態による編集処
理で動画データから抽出された各動画データのサムネイ
ルとしての静止画像の画像データ等が格納される。音声
認識辞書格納部１６４には、音素、単音節、単語、形態
素、文節等（以下形態素等）の単位での音声データと単
語等との対応音声認識辞書が格納されている。本実施形
態においては、形態素毎の音声パターンと形態素が対応
する形態素辞書が格納されている。この音声認識辞書１
６４は、音声の音声データのパターンや、他の装置で作
成され記憶媒体駆動装置１７や通信制御装置１８から読
み込まれた音声データのパターンから、対応する単語を
探し出し、入力された音声を単語として認識する際に使
用される。

【００２７】記憶媒体駆動装置１７は、ＣＰＵ１１１が
外部の記憶媒体からコンピュータプログラムや文書を含
むデータ等を読み込むための駆動装置である。記憶媒体
に記憶されているコンピュータプログラム等には、本実
施形態の編集処理装置により実行されるイメージ情報検
索処理や主観評価表現辞書較正処理、主観評価情報辞書
較正処理等の各種処理プログラム、及び、そこで使用さ
れる辞書、データ等も含まれる。ここで、記憶媒体と
は、コンピュータプログラムやデータ等が記憶される記
憶媒体をいい、具体的には、フロッピーディスク、ハー
ドディスク、磁気テープ等の磁気記憶媒体、メモリチッ
プやＩＣカード等の半導体記憶媒体、ＣＤ−ＲＯＭやＭ
Ｏ、ＰＤ（相変化書換型光ディスク）等の光学的に情報
が読み取られる記憶媒体、紙カードや紙テープ等の用紙
（および、用紙に相当する機能を持った媒体）を用いた
記憶媒体、その他各種方法でコンピュータプログラム等
が記憶される記憶媒体が含まれる。本実施形態の編集処
理装置において使用される記憶媒体としては、主とし
て、ＣＤ−ＲＯＭやフロッピー（登録商標）ディスク等
の記憶媒体が使用される。記憶媒体駆動装置１７は、こ
れらの各種記憶媒体からコンピュータプログラムを読み
込む他に、フロッピーディスクのような書き込み可能な
記憶媒体に対してＲＡＭ１１３や記憶装置１６に格納さ
れているデータ等を書き込むことが可能である。

【００２８】なお、フロッピーディスクやメモリチッ
プ、ＩＣカード等に格納された動画の画像データや音声
データ、文書データを記憶媒体駆動装置１７を介して読
み込んで、本実施形態による編集処理を行う場合、記憶
媒体駆動装置１７は画像データ取得手段２及び文書デー
タ取得手段３として機能する。

【００２９】本実施形態の編集処理装置では、制御部１
１のＣＰＵ１１１が、記憶媒体駆動装置１７にセットさ
れた外部の記憶媒体からコンピュータプログラムを読み
込んで、記憶装置１６の各部に格納（インストール）す
る。そして、本実施形態によるイメージ情報検索処理等
の各種処理を実行する場合、記憶装置１６から該当プロ
グラムをＲＡＭ１１３に読み込み、実行するようになっ
ている。但し、記憶装置１６からではなく、記憶媒体駆
動装置１７により外部の記憶媒体から直接ＲＡＭ１１３
にプログラムを読み込んで実行することも可能である。
また、編集処理装置によっては、本実施形態の編集処理
のための各種プログラム等を予めＲＯＭ１１２に記憶さ
せておき、これをＣＰＵ１１１が実行するようにしても
よい。さらに、本実施形態による編集処理のための各種
プログラムやデータを、通信制御装置１８を介して他の
記憶媒体からダウンロードし、実行するようにしてもよ
い。

【００３０】通信制御装置１８は、編集処理装置と他の
パーソナルコンピュータ等の各種外部電子機器との間を
ネットワーク接続するための制御装置であり、この通信
制御装置１８を介して、外部電子機器から編集の対象と
なる動画の画像データや該画像データに伴う音声データ
または文書データを取得することができる。この場合の
通信制御装置１８は画像データ取得手段２や文書データ
取得手段３を構成する。また、通信制御装置１８は、出
力手段１０及び選択取得部８３を構成し、編集処理プロ
グラムにおいて抽出された重要画像候補の画像データを
通信制御装置１８を介して外部電子機器に出力し、重要
画像候補の中から重要画像の選択を外部電子機器から通
信制御装置１８を介して取得することができる。

【００３１】入出力Ｉ／Ｆ１９は、ビデオカメラ等の各
種機器を接続するためのインターフェースであり、画像
データ取得手段２や文書データ取得手段３を構成して、
外部電子機器から編集の対象となる動画の画像データや
該画像データに伴う音声データを取得することができ
る。音声認識装置２０は、文書データ取得手段３を構成
し、入出力Ｉ／Ｆ１９を介して接続されたビデオカメラ
から、また、通信制御装置１８を介して外部電子機器か
ら、更に、記憶媒体駆動装置１７を介して記憶媒体か
ら、及び記憶手段１６のデータ格納部１６３から、入力
手段１で指定され読み込まれた音声データを、音声認識
辞書１６４を使用して認識し、文書データに変換する。

【００３２】本実施形態の編集処理装置は、パーソナル
コンピュータやワードプロセッサ等を含むコンピュータ
システムで構成するだけでなく、ＬＡＮ（ローカル・エ
リア・ネットワーク）のサーバ、コンピュータ（パソコ
ン）通信のホスト、インターネット上に接続されたコン
ピュータシステム等によって構成することも可能であ
る。また、ネットワーク上の各機器に機能分散させ、ネ
ットワーク全体で編集処理装置を構成することも可能で
ある。図３は、このようなネットワークにより編集処理
装置を構成した場合のシステム構成図を表したものであ
る。図３に示すように、編集処理装置は、サムネイル処
理等を行うホスト装置３０と、動画の画像データや音声
データ、文書データをホスト装置３０に送信する複数の
クライアントＰＣ５０と、ホスト装置３０と各クライア
ントＰＣ５０とを接続するネットワーク４０とから構成
されている。ネットワーク４０としては主としてインタ
ーネットに接続されるが、ＬＡＮ（ローカル・エリア・
ネットワーク）や、コンピュータネットワーク等の各種
ネットワーク４０と接続可能になっている。ネットワー
ク４０にはパーソナルコンピュータ等のクライアントＰ
Ｃ５０が適宜接続されるようになっており、適時複数の
クライアントＰＣ５０がホスト装置３０にアクセス可能
になっている。

【００３３】クライアントＰＣ５０は、パーソナルコン
ピュータ等のいわゆるパソコンシステムにより構成さ
れ、ダイヤルアップソフトウェア等によりネットワーク
４０（インターネット）に接続されＷＷＷ（Ｗｏｒｌｄ
ＷｉｄｅＷｅｂ）のデータをブラウザ（ｂｒｏｗｓ
ｅｒ）ソフトによりに閲覧可能になっている。一方、ク
ライアントＰＣ５０は制御部、表示部、入力部、出力
部、通信制御部、記憶部、その他の機器を備えている。
クライアントＰＣ５０の制御部は、装置全体を所定のプ
ログラムに従って処理、制御するようになっており、入
力部から入力された動画の画像データや音声データ、文
書データを、通信制御部及びネットワーク４０を介して
ホスト装置３０に送信すると共に、ホスト装置３０にお
いてサムネイル処理により付与されたサムネイルを受信
して動画データとともに表示部に表示し、記憶部に格納
し、又は出力部から印刷出力するようになっている。

【００３４】一方、ホスト装置３０は、制御部３１を備
えており、制御部３１にデータバス等のバスラインを介
して入出力部３２、表示部３４、記憶部３６、通信制御
部３８、図示しないその他の機器が接続されている。各
部３１〜３８の基本的構成は、図２に示した編集処理装
置とほぼ同様であり、特に異なる点を中心に説明する
と、制御部３１は、ＷＷＷサーバーとして機能し、図２
に示した編集処理装置の制御部１１や、クライアントＰ
Ｃ５０の制御部１１に比べ高速処理が可能であると共
に、複数のクライアントＰＣ５０からのアクセスに対応
するために並列処理が可能になっている。同様に通信制
御部３８も複数のＩＳＤＮ回線との接続が可能であると
共に、クライアントＰＣ５０のそれよりも高速処理が可
能になっている。そして、ホスト装置３０は入力手段１
及び出力手段１０を構成する通信制御部３８の制御によ
ってクライアントＰＣ５０からネットワーク４０を介し
て動画の画像データや音声データ、音声データの音声認
識結果の文書データを受信取得し、重要画像の候補画像
をクライアントＰＣ５０に出力し、クライアントＰＣ５
０から重要画像の選択を取得する。重要画像とこの重要
画像の抽出元の動画との対応は、動画の画像データや音
声データ、文書データとともにデータ格納部３６３に格
納されるか、または、ネットワーク４０を介してクライ
アントＰＣ５０に送信される。

【００３５】以上のように構成された編集処理装置によ
るサムネイル処理の動作について次に説明する。図４
は、編集処理装置による編集処理において行われるサム
ネイル処理の動作を表したフローチャートであり、図５
及び図６は、サムネイル処理の各工程における処理を概
念的に表した説明図である。編集処理装置によるサムネ
イル処理は、ユーザにより、入力手段１から、編集処理
において所定の動画データをサムネイル表示モードで一
覧表示する命令が入力され、サムネイルの付与されてい
ない動画データが検出された場合に、このサムネイルの
付与されていない動画データについて行われる。

【００３６】本実施形態によるサムネイル処理において
は、ユーザによりサムネイル表示モードで一覧表示する
動画のうち、サムネイルの付与されていない動画の画像
データＡを、画像データ取得手段２が、サムネイル処理
の対象となる画像データとして取得する（画像データ取
得処理）（ステップ１１）（図５（ａ））。画像データ
取得手段２で取得された画像データＡは、画像データ取
得手段２に具備されるシーンブレイク検出部によってシ
ーンブレイクを検出することによって、画像データに複
数のシーンが含まれているかどうか調べられる（ステッ
プ１３）。そして、画像データに複数のシーンが含まれ
ている場合には、画像データに複数のシーンが含まれて
いるとして、画像データ分割部２１により画像データ分
割処理が行われ、画像データが各シーンごとのまとまり
（画像データａ、画像データｂ、画像データｃ、・・
・）に分割される（画像データ分割処理）（ステップ１
５）（図５（ｂ））。画像データ取得手段２で取得され
た画像データが１シーンである場合（ステップ１３；
Ｎ）及び複数シーンの画像データが各シーン毎に一まと
まりの画像データに分割された後（ステップ１５後）、
文書データ取得手段３が、この画像データの動画ととも
に録音された音声の音声認識結果の文書データ（画像デ
ータａに対応する文書データａ’、画像データｂに対応
する文書データｂ’、画像データｃに対応する文書デー
タｃ’、・・・）を、各画像データの一まとまり毎に対
応させて取得する（文書データ取得処理）（ステップ１
７）（図５（ｃ））。このとき、文書データ取得手段３
は、画像データ取得手段２で取得された画像データに対
応する音声の音声データが音声認識されていない場合に
は、音声データを音声認識部３１によって音声認識し
て、文書データを取得する。既に音声認識結果がある場
合には、この音声認識結果の文書データをそのまま取得
する。各画像データのまとまりに対応する音声データや
文書データは、画像データに付されている時刻データを
参照し、同じ時刻データ分の音声データや文書データを
割り出して取得する。

【００３７】次に、区分手段４が、最初のまとまりの画
像データ（Ｎ＝１としたときのＮ番目のまとまりの画像
データ、即ち１番目のまとまりの画像データａ）に対応
する文書データ（文書データａ’）を取得し、この文書
データを各文（文１、文２、文３、・・・）に区分する
（区分処理）（ステップ１９〜ステップ２３）（図５
（ｄ））。そして、重要度取得手段５が、各文１、文
２、文３、・・・について形態素解析を行って、自立
語、名詞句、複合名詞句等を含めた重要語（句）を抽出
し、抽出した重要語（句）の、最初の一まとまり中での
出現頻度、評価関数から、各重要語（句）の重要度ｆを
決定する。評価関数は、例えば、重要語（句）に対する
重み付け、単語、名詞句、複合名詞句等の重要語（句）
の種類による重み付け等を表す関数である。重要語
（句）、各重要語（句）の重み付け、重要語（句）の種
類に対する重み付けは、本実施形態においては、所定の
記憶部（記憶装置１６のプログラム格納部１６２やデー
タ格納部１６３等）に予め格納されている。そして、各
文に出現する重要語（句）の重要度ｆを累積することに
よって、各文１、文２、文３、・・・の重要度Ｆを決定
する。（重要度取得処理）（ステップ２５）（図５
（ｅ））。

【００３８】各文の重要度Ｆが決定されると、この重要
度Ｆを参照して、重要区分取得手段６が、重要度Ｆの高
い順から、文書データの全部の文の数に対して所定の割
合の数の文を選び、重要文と特定する（重要文１、重要
文２、・・・）（重要区分取得処理）（ステップ２７）
（図５（ｆ））。次いで、対応画像データ取得部７が、
重要文１，重要文２、・・・に対応する画像データ（対
応画像データ１、対応画像データ２、・・・）を取得す
る（対応画像データ取得処理）。重要文に対応する画像
データは、各重要文に付される時刻データを参照し、同
じ時刻データ分の画像データを割り出して取得する（対
応画像データ取得処理）（ステップ２９）（図６
（ｇ））。そして、候補画像データ取得部８１により、
各重要文１，重要文２、・・・に対応する対応画像デー
タ１、対応画像データ２、・・・それぞれについて、そ
の始点と終点の中間の時刻における静止画像の画像デー
タが抽出され、これらの画像データが重要画像候補の画
像データ（候補画像データ１、候補画像データ２、・・
・）として特定される（重要画像候補取得処理）（図６
（ｈ））。候補画像データ１、候補画像データ２、・・
・は、候補画像出力部８２によって出力手段１０から画
像出力される（候補画像出力処理）（ステップ３１）
（図６（ｉ））。操作者は、出力手段１０から出力され
た候補画像データによる候補画像を見て、一まとまりの
画像データの内容のサムネイルとして適当と思うものを
選択し、入力手段１から入力する。

【００３９】操作者による選択は、選択取得部８３が、
入力手段１からの入力結果に基づいて取得し（ステップ
３３）、選択された候補画像を重要画像（サムネイル用
の画像）とする（重要画像取得処理）。そして、重要画
像の画像データは、対応手段９によって、ステップ２１
で取得した文書データに対応する一まとまりの画像デー
タに対する、サムネイル用の画像データとして対応付け
られ（対応処理）（図６（ｊ））、所定の記憶部に記憶
される（ステップ３５）。最初の一まとまりについて画
像データと重要画像の画像データとが対応付けられた後
は、以後２番目のまとまり、３番目のまとまり、・・・
と、ステップ２１からの処理が繰り返され、動画が分割
された全てのまとまりについて、同様に重要画像の画像
データが対応付けられ記憶される。全てのまとまりにつ
いて重要画像の画像データが対応付けられると、サムネ
イル処理が終了される。以後、編集処理において動画デ
ータをサムネイル表示モードで一覧表示する命令が入力
されると、各一まとまりの画像データａ、画像データ
ｂ、画像データｃ、・・・に、上述のサムネイル処理に
おいて対応付けられたサムネイル用の画像データによる
サムネイル画像が付されて表示される。

【００４０】このように、本実施形態では、一まとまり
のシーンの画像に対応する音声を音声認識した文書を取
得し、この文書中の重要度の高い文（重要文）を特定す
る。そして、重要文に対応する画像（重要文が音声出力
される場面の画像）は、一まとまりのシーンの内容を良
好に反映したものであるとして、この重要文に対応する
動画に含まれる静止画像の画像データを、サムネイル用
の画像の候補（候補画像）として出力する。そして、出
力した候補画像の中から操作者の選択を取得し、選択さ
れた候補画像をサムネイルと特定し、一まとまりのシー
ン全体に対応づける。

【００４１】従って、本実施形態によると、一まとまり
のシーンの内容を考慮し、重要な内容を表示する場面の
画像データが、サムネイル候補となるので、一まとまり
の内容を適切に表したサムネイルを付すことが可能であ
る。本実施形態によると、重要な内容を表示する場面の
静止画像をサムネイルの候補画像として出力し、操作者
により適切な画像を選択させているので、より確実に、
一まとまりのシーンの内容を適切に表し且つ操作者に分
かりやすい画像が、重要画像として特定される。このと
き、重要な内容を表示する場面の画像がサムネイルとし
て自動的に選択されているので、操作者は少ない手間
で、１つのサムネイル用の画像を選び出すことが可能で
ある。本実施形態によると、複数のシーンを含む動画
が、シーンブレイクにより自動的に分割され、シーン毎
にサムネイルが付与されるので、異なる内容に共通の１
つのサムネイルが付与されることがない。

【００４２】以上、本発明の一実施形態について説明し
たが、本発明は、上述の実施形態に限定されるものでは
なく、請求項に記載された発明の範囲内で種々の変形を
することが可能である。例えば、上述の実施形態では、
編集処理装置としてコンピュータを用いているが、コン
ピュータに限定されるものではなく、編集処理のための
専用機等でもよい。上述の実施形態においては、重要文
に対応する画像データ（対応画像データ）から、重要画
像候補として静止画像データを抽出しているが、所定時
間分の動画データを抽出してもよい。この場合、重要文
に対応する画像データ全体を重要画像候補とすることも
可能である。上述の実施形態においては、重要文に対応
する画像データから、時間的に中間に位置する静止画像
データを重要画像候補としているが、重要画像候補の画
像データは、重要文に対応する画像データから抽出され
ていればよく、重要文の開始時点の画像データや、開始
後所定時間後の画像データ等とすることもできる。上述
の実施形態においては、一まとまりの画像データに対応
する文書データを文単位で区分し重要区分として重要文
を取得しているが、区分する単位は、文単位に限定され
るものではなく、複数の文を１単位としたり、文節を単
位としてもよい。例えば、図５に示す文書データａ’の
場合に、「始めに」「今日の」「ニュースを」「お伝え
します」「今日」「午前３時ごろ」・・・と文節単位で
区分し、各文節に含まれる単語の重要度から重要区分で
ある重要文節「地震が」「震度６の」「被害状況は」を
抽出し、これらの各重要文節に対応する画像を対応画像
としてもよい。区分が文単位以外であっても、複数の重
要区分を抽出可能であることは上述の実施形態と同様で
ある。また、重要区分の単位が文、文節、その他いずれ
であっても、重要度が等しい区分が複数検出された場合
には、それらのうち時刻データが最初のものや中間のも
の等所定の条件から１つを選択したり、いずれについて
も重要区分とすることもできる。

【００４３】上述の実施形態においては、一まとまりの
画像データに対して、複数の重要画像候補を操作者に提
案し、操作者の選択によって重要画像を決定している
が、各まとまりについて１つの重要文のみを選び出し、
この重要文から抽出した静止画像を自動的に重要画像と
してサムネイルに決定するようにしてもよい。上述の実
施形態においては、画像データのシーンブレイクを検出
して、各シーンを一まとまりとしているが、対応する音
声データの音声認識後の文書データに基づいて、シーン
のまとまりを検出するようにしてもよい。文書データに
基づいてシーンのまとまりを検出する場合、例えば特開
平１１−４５２７８号公報記載の技術等の、従来より公
知の技術を用いることができる。即ち文書データの各文
を仮段落に分割し各仮段落について内容を表す文書ベク
トル等の指標を作成し、この指標に基づいて各仮段落文
間の類似度を求めて、所定の類似度以上の仮段落どうし
を１つのまとまりとする。この場合の文書ベクトルとし
ては、形態素解析により文書内に出現するキーワードを
パラメータとして、各キーワードについて仮段落中での
出現頻度や評価関数から各重要度ｆを決定しこの重要度
を各パラメータの値としたものを採用することができ、
この場合の類似度は、文書ベクトル間の角度に依存する
コサインにより求めることができる。すなわち、文書ベ
クトルｂｎとｂｎ＋１間の角度をｑとし、両文書ベクト
ルの内積をｂｎ・ｂｎ＋１とし、両文書ベクトルの大き
さをそれぞれ｜ｂｎ｜、｜ｂｎ＋１｜とした場合、両文
書ベクトルの類似度ｓは次の数式１により求まる。

【００４４】

【数式１】類似度ｓ＝ＣＯＳ（ｑ）＝（ｂｎ・ｂｎ＋
１）／（｜ｂｎ｜×｜ｂｎ＋１｜）

【００４５】この類似度ｓの値は−１≦ｓ≦１までの値
をとり、１に近いほど２つの仮段落の文書ベクトルが互
いに平行に近く、２つの仮段落どうしは似ていると考え
ることができる。

【００４６】また、各処理の順番についても、適宜変更
可能である。例えば、上述の実施形態においては、画像
データの一まとまり毎（シーン毎）に、対応する文書デ
ータの取得から重要文の特定、重要画像の決定までを行
い、他のまとまりについてもこれを繰り返すようになっ
ているが、各まとまりについての処理を、全てのまとま
りについて行ってから、次の処理を行うようにしてもよ
い。即ち、全てのまとまりについて、まとまりごとの文
書データの取得（文書データの分割）を行った後、全て
のまとまりについて重要文を特定し、その後、各まとま
りについての画像候補の出力と重要画像の選択の取得、
重要画像と各まとまりの画像データとの対応付けを行っ
てもよい。

【００４７】上述の実施形態及び各変形例においては、
入力音声は日本語となっているが、あらゆる言語につい
て、音声データを取得し、編集処理を行うことが可能で
ある。その場合、対象となる言語用の形態素解析アルゴ
リズム等を使用するといった、本発明の構成には影響の
ない部分を変更するだけでよい。

【００４８】尚、以上の変形例は、適宜複数を選択し組
み合わせて適用することが可能である。例えば、重要文
に基づいて動画の画像データを重要画像候補として抽出
する変形例に、一まとまりの画像データに対して１つの
重要文のみを決定し重要画像を決定する変形例を組み合
わせて、一まとまりの画像データに対して１つの重要文
のみを決定し、この重要文に基づいて動画の画像データ
を重要画像として決定することができる。

【００４９】

【発明の効果】以上説明したように、本発明によれば、
動画の画像データに、内容を適切に表したサムネイルを
付すことが可能である。

【図面の簡単な説明】

【図１】本発明の編集処理装置の一実施形態であり、本
発明の編集処理プログラムが記憶された記憶媒体の一実
施形態の該プログラムが読み取られた、コンピュータの
構成を表したブロック図である。

【図２】同上、編集処理装置（コンピュータ）の具体的
なシステム構成図である。

【図３】同上、編集処理装置をネットワークにより構成
した場合のシステム構成図である。

【図４】同上、編集処理装置（コンピュータ）による編
集処理におけるサムネイル処理の流れを表すフローチャ
ートである。

【図５】図４のサムネイル処理の各工程における処理を
概念的に表した説明図である。

【図６】図４のサムネイル処理の図５に続く各工程にお
ける処理を概念的に表した説明図である。

【図７】本発明及び従来技術において、複数のシーンを
含む動画におけるシーンの遷移の形態を表した説明図で
ある。

【符号の説明】

１入力手段２画像データ取得手段２１画像データ分割部３文書データ取得手段３１音声認識部４区分手段５重要度取得手段６重要区分取得手段７対応画像データ取得部８重要画像データ取得手段８１候補画像データ取得部８２候補画像出力部８３選択取得部９対応手段１０出力手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 5/781 Ｈ０４Ｎ 5/781 ５１０Ｆ 5/85 5/91 ＲＦターム(参考） 5C052 AA02 AA17 AC08 CC20 5C053 FA07 FA14 FA24 FA27 HA29 HA40 JA01 JA07 JA21 JA30 KA03 KA22 KA24 KA30 LA01 LA14 5D015 KK01 KK02 5D110 AA12 AA26 AA28 BB20 CA16 CB08 CC06 DA02 DE05

Claims

【特許請求の範囲】

【請求項１】一まとまりの動画の画像データを取得す
る画像データ取得手段と、前記動画に対応付けられた音声の音声データを変換した
文書データを取得する文書データ取得手段と、前記文書データ取得手段で取得した前記文書データを、
所定の単位で区分する区分手段と、前記区分手段で区分された各区分毎の文書データの重要
度を取得する重要度取得手段と、前記重要度取得手段で取得した前記重要度が高い区分の
文書データを、重要区分として取得する重要区分取得手
段と、前記重要区分に対応する対応画像データから、所定の画
像データを、重要画像データとして取得する重要画像デ
ータ取得手段と、前記重要画像データ取得手段で取得した前記重要画像デ
ータを、前記画像データ取得手段で取得した一まとまり
の前記画像データと対応付ける対応手段とを備えること
を特徴とする編集処理装置。
【請求項２】前記重要画像データ取得手段は、前記重
要画像データとして、前記対応画像データから１つの静
止画像データを取得する重要静止画像データ取得手段で
あることを特徴とする請求項１に記載の編集処理装置。
【請求項３】前記重要区分取得手段は、複数の前記重
要区分を取得し、前記重要画像データ取得手段は、前記重要区分取得手段
で取得した複数の前記重要区分それぞれに対応する対応
画像データから候補画像データを取得する候補画像デー
タ取得手段と、前記候補画像データ取得手段で取得した
候補画像データを画像出力させる候補画像出力手段と、
前記候補画像出力手段で出力された候補画像のうちから
１つの選択を取得する選択取得手段とを備え、前記選択
取得手段で取得した選択された候補画像の候補画像デー
タを前記重要画像データとすることを特徴とする請求項
１または請求項２に記載の編集処理装置。
【請求項４】複数のシーンを含む動画の画像データ
を、各シーン毎に分割する画像データ分割手段を備え、前記画像データ取得手段は、前記画像データ分割手段に
よる分割に従って、各シーン毎の画像データをそれぞれ
前記一まとまりの動画の画像データとして取得すること
を特徴とする請求項１から請求項３のうちのいずれか１
の請求項に記載の編集処理装置。
【請求項５】一まとまりの動画の画像データを取得す
る画像データ取得機能と、前記動画に対応付けられた音声の音声データを変換した
文書データを取得する文書データ取得機能と、前記文書データ取得機能で取得した前記文書データを、
所定の単位で区分する区分機能と、前記区分機能で区分された各区分毎の文書データの重要
度を取得する重要度取得機能と、前記重要度取得機能で取得した前記重要度が高い区分の
文書データを、重要区分として取得する重要区分取得機
能と、前記重要区分に対応する対応画像データから、所定の画
像データを、重要画像データとして取得する重要画像デ
ータ取得機能と、前記重要画像データ取得機能で取得した前記重要画像デ
ータを、前記画像データ取得機能で取得した一まとまり
の前記画像データと対応付ける対応機能とをコンピュー
タに実現させるためのコンピュータ読み取り可能な編集
処理プログラムが記憶された記憶媒体。