JP2008033606A - 画像処理システム、動画像編集処理システム、画像処理装置、動画像編集処理装置、画像処理プログラムおよび動画像編集処理プログラム - Google Patents

画像処理システム、動画像編集処理システム、画像処理装置、動画像編集処理装置、画像処理プログラムおよび動画像編集処理プログラム Download PDF

Info

Publication number
JP2008033606A
JP2008033606A JP2006205795A JP2006205795A JP2008033606A JP 2008033606 A JP2008033606 A JP 2008033606A JP 2006205795 A JP2006205795 A JP 2006205795A JP 2006205795 A JP2006205795 A JP 2006205795A JP 2008033606 A JP2008033606 A JP 2008033606A
Authority
JP
Japan
Prior art keywords
image
character
difference
function
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006205795A
Other languages
English (en)
Inventor
Natsumi Miyazawa
なつみ 宮澤
Hiroyuki Kono
裕之 河野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006205795A priority Critical patent/JP2008033606A/ja
Priority to US11/878,266 priority patent/US8041117B2/en
Publication of JP2008033606A publication Critical patent/JP2008033606A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Studio Circuits (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数画像中にある文字から文字列を生成することができないことを課題とし、複数画像中にある文字から文字列を生成することができるようにした画像処理システムを提供する。
【解決手段】画像処理システムの画像入力手段は、時系列に連動した画像を入力し、第1の文字抽出手段は前記画像入力手段によって入力された第1の画像から文字を抽出し、第2の文字抽出手段は前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出し、差分検出手段は前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出し、分割手段は前記差分検出手段によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割し、合成手段は前記分割手段によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に合成する。
【選択図】図1

Description

本発明は、画像処理システム、動画像編集処理システム、画像処理装置、動画像編集処理装置、画像処理プログラムおよび動画像編集処理プログラムに関する。
近年、DVD、ハードディスク等の記憶媒体に動画像を格納しておき、コンピュータを用いて、それらから動画像を再生できるようにした動画像再生装置が開発されている。そして、操作者が容易にその動画像から見たい画像を探し出すための動画像の検索に関する技術が開発されている。
ここで、動画像中に現れる字幕、テロップ等を自動的に検出し、字幕等の文字をインデックスとして用いることが行われている。
これらに関連する技術として、例えば、特許文献1には、画像の中から字幕が現れている領域を検出する字幕領域検出方法および字幕領域検出装置において,字幕領域の誤検出を削減する高精度な字幕領域検出方法を提供することを目的とし、画像の一部または全体を複数個のブロックに分割し、ブロックの間の差異を計算し、差異を用いて字幕領域を判定し、これにより、繰り返しパターンから構成される矩形領域が字幕領域と判定されるケースが減少し、字幕領域の誤検出を削減することができることが開示されている。
特開2000−182028号公報
本発明は、このような背景技術の状況の中でなされたもので、複数画像中にある文字から文字列を生成することができないことを課題とし、複数画像中にある文字から文字列を生成することができるようにした画像処理システム、動画像編集処理システム、画像処理装置、動画像編集処理装置、画像処理プログラムおよび動画像編集処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
[1] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力された第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字に応じて、前記第2の画像に合成する合成手段
を具備することを特徴とする画像処理システム。
[2] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割手段と、
前記分割手段によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に合成する合成手段
を具備することを特徴とする画像処理システム。
[3] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記画像入力手段によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第3の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記第2の文字抽出手段によって文字が抽出できず、前記差分検出手段によって差分が検出されなかった場合は、前記第1の文字抽出手段または前記第3の文字抽出手段によって抽出された文字を前記第2の画像に合成する合成手段
を具備することを特徴とする画像処理システム。
[4] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記画像入力手段によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第3の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記第2の文字抽出手段によって文字が抽出できず、前記差分検出手段によって差分が検出された場合は、該差分を、前記第1の画像と前記第3の画像との間にある画像の数にあわせて分割する分割手段と、
前記分割手段によって分割された文字の差分を、前記第1の画像と前記第3の画像との間にある画像に合成する合成手段
を具備することを特徴とする画像処理システム。
[5] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字に応じて、文字列を合成する合成手段
を具備することを特徴とする画像処理システム。
[6] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、前記第2の文字抽出手段によって抽出された文字を接続することによって、文字列を合成する合成手段
を具備することを特徴とする画像処理システム。
[7] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、該検出された差分の文字を付加することによって、文字列を合成する合成手段
を具備することを特徴とする画像処理システム。
[8] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、前記第2の文字抽出手段によって抽出された文字のうち最後の1文字を付加することによって、文字列を合成する合成手段
を具備することを特徴とする画像処理システム。
[9] 動画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割手段と、
前記分割手段によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に索引として関連付ける索引付与手段
を具備することを特徴とする動画像編集処理システム。
[10] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力された第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字に応じて、前記第2の画像に合成する合成手段
を具備することを特徴とする画像処理装置。
[11] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割手段と、
前記分割手段によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に合成する合成手段
を具備することを特徴とする画像処理装置。
[12] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記画像入力手段によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第3の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記第2の文字抽出手段によって文字が抽出できず、前記差分検出手段によって差分が検出されなかった場合は、前記第1の文字抽出手段または前記第3の文字抽出手段によって抽出された文字を前記第2の画像に合成する合成手段
を具備することを特徴とする画像処理装置。
[13] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記画像入力手段によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第3の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記第2の文字抽出手段によって文字が抽出できず、前記差分検出手段によって差分が検出された場合は、該差分を、前記第1の画像と前記第3の画像との間にある画像の数にあわせて分割する分割手段と、
前記分割手段によって分割された文字の差分を、前記第1の画像と前記第3の画像との間にある画像に合成する合成手段
を具備することを特徴とする画像処理装置。
[14] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字に応じて、文字列を合成する合成手段
を具備することを特徴とする画像処理装置。
[15] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、前記第2の文字抽出手段によって抽出された文字を接続することによって、文字列を合成する合成手段
を具備することを特徴とする画像処理装置。
[16] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、該検出された差分の文字を付加することによって、文字列を合成する合成手段
を具備することを特徴とする画像処理装置。
[17] 時系列に連動した画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、前記第2の文字抽出手段によって抽出された文字のうち最後の1文字を付加することによって、文字列を合成する合成手段
を具備することを特徴とする画像処理装置。
[18] 動画像を入力する画像入力手段と、
前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
前記差分検出手段によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割手段と、
前記分割手段によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に索引として関連付ける索引付与手段
を具備することを特徴とする動画像編集処理装置。
[19] コンピュータに、
時系列に連動した画像を入力する画像入力機能と、
前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
前記画像入力機能によって入力された第2の画像から文字を抽出する第2の文字抽出機能と、
前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字に応じて、前記第2の画像に合成する合成機能
を実現させることを特徴とする画像処理プログラム。
[20] コンピュータに、
時系列に連動した画像を入力する画像入力機能と、
前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
前記差分検出機能によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割機能と、
前記分割機能によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に合成する合成機能
を実現させることを特徴とする画像処理プログラム。
[21] コンピュータに、
時系列に連動した画像を入力する画像入力機能と、
前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
前記画像入力機能によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出機能と、
前記第1の文字抽出機能によって抽出された文字と前記第3の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
前記第2の文字抽出機能によって文字が抽出できず、前記差分検出機能によって差分が検出されなかった場合は、前記第1の文字抽出機能または前記第3の文字抽出機能によって抽出された文字を前記第2の画像に合成する合成機能
を実現させることを特徴とする画像処理プログラム。
[22] コンピュータに、
時系列に連動した画像を入力する画像入力機能と、
前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
前記画像入力機能によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出機能と、
前記第1の文字抽出機能によって抽出された文字と前記第3の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
前記第2の文字抽出機能によって文字が抽出できず、前記差分検出機能によって差分が検出された場合は、該差分を、前記第1の画像と前記第3の画像との間にある画像の数にあわせて分割する分割機能と、
前記分割機能によって分割された文字の差分を、前記第1の画像と前記第3の画像との間にある画像に合成する合成機能
を実現させることを特徴とする画像処理プログラム。
[23] コンピュータに、
時系列に連動した画像を入力する画像入力機能と、
前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
前記差分検出機能によって差分が検出された場合、前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字に応じて、文字列を合成する合成機能
を実現させることを特徴とする画像処理プログラム。
[24] コンピュータに、
時系列に連動した画像を入力する画像入力機能と、
前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
前記差分検出機能によって差分が検出された場合、前記第1の文字抽出機能によって抽出された文字の後に、前記第2の文字抽出機能によって抽出された文字を接続することによって、文字列を合成する合成機能
を実現させることを特徴とする画像処理プログラム。
[25] コンピュータに、
時系列に連動した画像を入力する画像入力機能と、
前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
前記差分検出機能によって差分が検出された場合、前記第1の文字抽出機能によって抽出された文字の後に、該検出された差分の文字を付加することによって、文字列を合成する合成機能
を実現させることを特徴とする画像処理プログラム。
[26] コンピュータに、
時系列に連動した画像を入力する画像入力機能と、
前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
前記差分検出機能によって差分が検出された場合、前記第1の文字抽出機能によって抽出された文字の後に、前記第2の文字抽出機能によって抽出された文字のうち最後の1文字を付加することによって、文字列を合成する合成機能
を実現させることを特徴とする画像処理プログラム。
[27] コンピュータに、
動画像を入力する画像入力機能と、
前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
前記差分検出機能によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割機能と、
前記分割機能によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に索引として関連付ける索引付与機能
を実現させることを特徴とする動画像編集処理プログラム。
請求項1にかかる画像処理システムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を生成して、その文字列を画像に合成することができるようになる。
請求項2にかかる画像処理システムによれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像に前後の画像から生成した文字を合成することができるようになる。
請求項3にかかる画像処理システムによれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像よりも前または後の画像から生成した文字を合成することができるようになる。
請求項4にかかる画像処理システムによれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像に前後の画像から生成した文字を合成することができるようになる。
請求項5にかかる画像処理システムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項6にかかる画像処理システムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項7にかかる画像処理システムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項8にかかる画像処理システムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項9にかかる動画像編集処理システムによれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像に対して索引を付与することができるようになる。
請求項10にかかる画像処理装置によれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を生成して、その文字列を画像に合成することができるようになる。
請求項11にかかる画像処理装置によれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像に前後の画像から生成した文字を合成することができるようになる。
請求項12にかかる画像処理装置によれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像よりも前または後の画像から生成した文字を合成することができるようになる。
請求項13にかかる画像処理装置によれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像に前後の画像から生成した文字を合成することができるようになる。
請求項14にかかる画像処理装置によれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項15にかかる画像処理装置によれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項16にかかる画像処理装置によれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項17にかかる画像処理装置によれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項18にかかる動画像編集処理装置によれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像に対して索引を付与することができるようになる。
請求項19にかかる画像処理プログラムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を生成して、その文字列を画像に合成することができるようになる。
請求項20にかかる画像処理プログラムによれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像に前後の画像から生成した文字を合成することができるようになる。
請求項21にかかる画像処理プログラムによれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像よりも前または後の画像から生成した文字を合成することができるようになる。
請求項22にかかる画像処理プログラムによれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像に前後の画像から生成した文字を合成することができるようになる。
請求項23にかかる画像処理プログラムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項24にかかる画像処理プログラムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項25にかかる画像処理プログラムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項26にかかる画像処理プログラムによれば、本構成を有していない場合に比較して、複数画像中にある文字から文字列を合成することができるようになる。
請求項27にかかる動画像編集処理プログラムによれば、本構成を有していない場合に比較して、複数画像中に文字を抽出できない画像があっても、その画像に対して索引を付与することができるようになる。
以下、図面に基づき本発明の好適な実施の形態を説明する。
各図は本発明の一実施の形態を示している。図1は、一実施の形態の概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはプログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、プログラム、装置、システムおよび方法の説明をも兼ねている。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散または並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続を含む。
また、システムとは、複数のコンピュータ、ハードウェア、装置等がネットワーク等で接続されて構成されるほか、1つのコンピュータによって実現される場合も含まれる。
本実施の形態は、複数画像入力モジュール110、文字抽出モジュール120、差分検出モジュール130、分割モジュール140、合成モジュール150を有している。
複数画像入力モジュール110は、複数の画像を入力する。ここでの複数の画像は、時系列的に連続した画像であり、具体的には動画像である。ただし、パノラマのように時系列的に連続して撮影した複数の静止画であってもよい。動画像の場合、1つ1つの画像はその動画像のフレーム画像が該当する。ここで時系列的に連続した画像は、複数の画像であって、それらの画像間には時間的に前後関係があり、少なくともその画像内にある文字が意味的に連続しているものである。例えば、動画像の場合、その間隔は一定時間間隔であってもよいし、画像内容の変化が激しいフレーム画像(例えば、動画像圧縮されていれば、圧縮された画像容量が大きいものを検出する)を対象として選択するようにしてもよい。また、フレーム画像とは、ここでは、動画像においては表示の際の1画面分の画像をいい、静止画においては複数の画像のうちの1つの画像として用いる。
また、ここで入力する画像内には、字幕、テロップ等の文字があるとする。また、文字は、字幕に限られず画像内に撮影された文字であってもよい。そして、その文字は、必ずしも良好な状態で読めるものであるとは限らない。例えば、文字の色と背景の色が同じであり、その文字が読めない場合もある。
文字抽出モジュール120は、複数画像入力モジュール110によって入力された画像から文字を抽出する。ここで、文字抽出の技術は、テキスト/イメージ分離技術、MRC(Mixed Raster Content)の技術等を用いることができる。複数画像入力モジュール110が入力する画像が、動画像の場合、文字抽出モジュール120が対象とする画像はフレーム画像であり、その全てのフレーム画像毎に文字を抽出してもよい。また、動画像である場合は、フレーム間でほとんど変化がない場合もあるので、ある間隔毎に対象とするフレーム画像を選択するようにしてもよい。
なお、文字抽出モジュール120が対象とする時系列的に前の画像をA画像、A画像よりも時系列的に後の画像をB画像とも言う。A画像とB画像の関係は、時系列的に前後であればよく、隣接している必要はなく、A画像とB画像の間に複数の画像があってもよい。
ここで、文字を抽出するとは、文字を画像として抽出する場合のほかに、その抽出した文字の画像を文字認識し、テキストデータとすることであってもよい。
また、文字抽出モジュール120は、文字を抽出できない場合もある。前述したように、例えば、文字の色と背景の色が同じであり、その文字が読めない場合である。
差分検出モジュール130は、文字抽出モジュール120によってA画像から抽出された文字とB画像から抽出された文字との差分を検出する。
文字抽出モジュール120によって文字が画像として抽出された場合は、画像として比較(パターンマッチング)を行い、差分を画像として検出する。
また、文字抽出モジュール120によって抽出された文字が文字認識後のテキストデータである場合は、テキストデータとしての差分を検出する。
分割モジュール140は、差分検出モジュール130によって検出された差分を、文字抽出モジュール120の対象画像であるA画像とB画像との間にある画像の数にあわせて分割する。ここで、A画像とB画像の間に画像がある場合として、前述したようにある間隔毎に対象とするフレーム画像が選択された場合の他に、文字抽出モジュール120によって文字が抽出できなかった場合がある。ここで、A画像とB画像との間にある画像の数にあわせて分割するとは、差分はB画像を含めたものであるので、A画像とB画像との間にある画像の数に1を加えた数で分割することをいう。
分割モジュール140は、場合によっては動作しない場合がある。つまり、差分検出モジュール130によって差分が検出できなかった場合(A画像とB画像の文字が同じ場合)は、分割する必要がないからである。
その他の場合、つまり、A画像とB画像との間にある画像では文字抽出モジュール120によって文字が抽出できず、差分検出モジュール130によって差分が検出された場合は、該差分を、A画像とB画像との間にある画像の数にあわせて分割する。
合成モジュール150は、分割モジュール140によって分割された文字の差分を、A画像とB画像との間にある画像に合成する。
また、A画像とB画像との間にある画像では文字抽出モジュール120によって文字が抽出できず、さらに、差分検出モジュール130によってA画像とB画像内の文字の差分が検出されなかった場合は、A画像から抽出された文字またはB画像から抽出された文字を、A画像とB画像との間にある画像(文字が抽出できなかった画像)に合成する。
また、差分検出モジュール130によって差分が検出された場合、A画像から文字抽出モジュール120によって抽出された文字とB画像から文字抽出モジュール120によって抽出された文字に基づいて、文字列を生成し、該文字列をB画像に合成する。
また、合成モジュール150は、文字列を画像に合成することの他、A画像から抽出された文字またはB画像から抽出された文字に応じて、文字列を合成することも行う。
次に作用・働き(動作)を説明する。
図2を用いて、本実施の形態による文字抽出処理を説明する。
ステップS201では、複数画像入力モジュール110が動画像を入力する。フレーム画像を入力する。
ステップS202では、文字抽出モジュール120がそのフレーム画像ごとに文字を抽出する。
ステップS203では、文字抽出モジュール120が文字抽出できたかを判断し、文字抽出できた場合はステップS204へ進み、文字抽出できなかった場合はステップS202へ戻る。つまり、文字抽出できるまでステップS202が繰り返されることになり、フレーム画像内に文字が無い場合、フレーム画像内の文字の色と背景色との関係から文字を抽出できなかった場合等にループする。
ステップS204では、差分検出モジュール130が、現在のフレーム画像の文字抽出結果と、現在のフレーム画像の前に文字抽出できたフレーム画像の文字抽出結果との差分を取る。
ステップS205では、分割モジュール140が、ステップS204での差分を、現在のフレーム画像と、現在のフレーム画像の前に文字抽出できたフレーム画像との間のフレーム画像の枚数で分割する。
ステップS206では、合成モジュール150が、あるべきはずの文字がなかったフレーム画像に対して、差分を分割した文字領域と、その一つ前のフレーム画像の文字抽出結果を用いて、文字列を再合成する。あるべきはずの文字がなかったフレーム画像とは、ステップS203にてNoとなったフレーム画像である。
そして、複数画像入力モジュール110により入力された動画像内の全てのフレーム画像に対して、上記処理が終了するまで繰り返す。つまり、最終フレーム画像になるまで、ステップS202に戻り、ステップS202からステップS206までの処理が行われる。
図3から図6、図11を用いて、本実施の形態による具体的な文字抽出処理の例を説明する。
図3は、文字抽出できたフレーム画像があった後に、複数枚連続して、文字抽出した結果がなく、その後に文字抽出できたフレーム画像があった場合である。
図3(A)は、複数画像入力モジュール110によって入力された動画像のフレーム画像(6枚)を時間軸(t1〜t6)にしたがって示したものである。図に示すように、時間軸t1でのフレーム画像は、白色の文字「おはよう」が背景色黒で読める画像である。時間軸t2から時間軸t5までのフレーム画像は、白色の文字「おはよう」があるのであるが、背景色との関係で読めなくなっている。時間軸t6でのフレーム画像は、時間軸t1でのフレーム画像と同様に白色の文字「おはよう」が背景色黒で読める画像である。
図3(B)は、文字抽出モジュール120がその時間軸におけるフレーム画像から文字を抽出処理した結果を示したものである。この場合は、時間軸t1、t6でのフレーム画像から「おはよう」(図3の301、306)という文字画像を抽出できている。時間軸t2からt5でのフレーム画像からは文字画像を抽出できなかった(図3の302、303、304、305)。つまり、図2のフローチャートでは、時間軸t2からt5でのフレーム画像に対して、ステップS203でNoの処理となる。時間軸t6でのフレーム画像に対して、ステップS204からステップS206までの処理が行われる。
差分検出モジュール130は、現在のフレーム画像(時間軸t6)の文字抽出結果と、現在のフレーム画像の前に文字抽出できたフレーム画像(時間軸t1)の文字抽出結果との差分を取る。差分の抽出として、例えばパターンマッチングによる方法がある。時間軸t6の文字抽出結果は「おはよう」(図3の306)であり、時間軸t1の文字抽出結果は「おはよう」(図3の301)である。したがって、この場合は差分がないと判断される。
分割モジュール140は、差分を、現在のフレーム画像(時間軸t6)と、現在のフレーム画像の前に文字抽出できたフレーム画像(時間軸t1)との間のフレーム画像の枚数にあわせて分割する。つまり、この場合は5(時間軸t1と時間軸t6との間にあるフレーム数4に1を加えた5)で分割することになる。ただし、差分が検出できなかったので、分割モジュール140による分割の処理は行われない。
合成モジュール150は、時間軸t2のフレーム画像の文字抽出結果として、時間軸t1の結果と差分を分割した結果を合成する。この場合は、分割した画像はないので時間軸t1の文字抽出結果そのままである。もちろん、時間軸t6の文字抽出結果を用いても同じになる。
時間軸t3から時間軸t5の場合も同様である。この場合は時間軸t1または時間軸t6の文字抽出結果がそのまま時間軸t3から時間軸t5の文字抽出結果となる。つまり、図3(C)に示すように、抽出した文字の画像として「おはよう」が時間軸t2からt5(図3の312、313、314、315)のフレーム画像に対応付けられ、それぞれのフレーム画像に合成される。
図4は、文字抽出できたフレーム画像があった後に、複数枚連続して、文字抽出した結果がなく、その後に文字抽出できたフレーム画像があった場合である。図3の例と異なるところは、文字抽出モジュール120は文字を画像として抽出するだけではなく、文字認識までをも行って、その結果であるテキストデータを抽出した文字として扱う。また、図3では差分がなかったが、図4では差分がある場合を示す。
図4(A)は、複数画像入力モジュール110によって入力された動画像のフレーム画像(6枚)を時間軸(t1〜t6)にしたがって示したものである。図に示すように、時間軸t1でのフレーム画像は、黒色の文字「お」が背景色白で読める画像である。時間軸t2から時間軸t5までのフレーム画像は、黒色の文字「おは」、「おはよ」、「おはよう」、「おはようご」があるのであるが、背景色との関係で読めなくなっている。時間軸t6でのフレーム画像は、黒色の文字「おはようござ」が背景色白で読める画像である。
図4(B)は、文字抽出モジュール120がその時間軸におけるフレーム画像から文字認識した結果を示したものである。この場合は、時間軸t1でのフレーム画像から「お」(図4の401)という文字を認識できている。時間軸t2からt5でのフレーム画像からは文字認識できなかった(図4の402、403、404、405)。つまり、図2のフローチャートでは、時間軸t2からt5でのフレーム画像に対して、ステップS203でNoの処理となる。時間軸t6でのフレーム画像から「おはようござ」(図4の406)という文字を認識できている。時間軸t6でのフレーム画像に対して、ステップS204からステップS206までの処理が行われる。
差分検出モジュール130は、現在のフレーム画像(時間軸t6)の文字認識結果と、現在のフレーム画像の前に文字認識できたフレーム画像(時間軸t1)の文字認識結果との差分を取る。差分の抽出として、例えばテキストによる比較を行う。時間軸t6の文字認識結果は「おはようござ」(図4の406)であり、時間軸t1の文字認識結果は「お」(図4の401)である。したがって、この場合の差分は「はようござ」(図4の407)となる。
分割モジュール140は、差分を、現在のフレーム画像(時間軸t6)と、現在のフレーム画像の前に文字認識できたフレーム画像(時間軸t1)との間のフレーム画像の枚数にあわせて分割する。つまり、この場合は5(時間軸t1と時間軸t6との間にあるフレーム数4に1を加えた5)で分割する。5等分の結果として、「は」(図4の408)、「よ」(図4の409)、「う」(図4の410)、「ご」(図4の411)、「ざ」(図4の412)となる。
合成モジュール150は、時間軸t2のフレーム画像の文字認識結果として、時間軸t1の結果(「お」図4の421)と差分を分割した結果(「は」図4の408)を合成する。つまり、図4(C)のように「おは」(図4の422)となる。
時間軸t3から時間軸t5の場合も同様である。つまり、図4(C)に示すように、時間軸t3では「おはよ」(図4の423)、時間軸t4では「おはよう」(図4の424)、時間軸t5では「おはようご」(図4の425)、時間軸t6では「おはようござ」(図4の426)となる。そして、各文字をそれぞれのフレーム画像に合成する。
図5は、文字抽出できたフレーム画像があった後に、複数枚連続して、文字抽出した結果がなく、その後に文字抽出できたフレーム画像があった場合である。図4の例と異なるところは、文字抽出モジュール120は文字認識を行うものではなく、文字を画像として抽出する。
図5(A)は、複数画像入力モジュール110によって入力された動画像のフレーム画像(6枚)を時間軸(t1〜t6)にしたがって示したものである。図に示すように、時間軸t1でのフレーム画像は、黒色の文字「お」が背景色白で読める画像である。時間軸t2から時間軸t5までのフレーム画像は、黒色の文字「おは」、「おはよ」があるのであるが、背景色との関係で読めなくなっている。時間軸t6でのフレーム画像は、黒色の文字「おはよう」が背景色白で読める画像である。
図5(B)は、文字抽出モジュール120がその時間軸におけるフレーム画像から文字抽出した結果を示したものである。この場合は、時間軸t1でのフレーム画像から「お」(図5の501)という文字を抽出できている。時間軸t2からt5でのフレーム画像からは文字抽出できなかった(図5の502、503、504、505)。つまり、図2のフローチャートでは、時間軸t2からt5でのフレーム画像に対して、ステップS203でNoの処理となる。時間軸t6でのフレーム画像から「おはよう」(図6の506)という文字を抽出できている。時間軸t6でのフレーム画像に対して、ステップS204からステップS206までの処理が行われる。
差分検出モジュール130は、現在のフレーム画像(時間軸t6)の文字抽出結果と、現在のフレーム画像の前に文字抽出できたフレーム画像(時間軸t1)の文字抽出結果との差分を取る。差分の抽出として、例えばパターンマッチングによる方法がある。時間軸t6の文字抽出結果は「おはよう」(図5の506)であり、時間軸t1の文字抽出結果は「お」(図5の501)である。したがって、この場合の差分は「はよう」(図5の507)となる。
分割モジュール140は、差分を、現在のフレーム画像(時間軸t6)と、現在のフレーム画像の前に文字抽出できたフレーム画像(時間軸t1)との間のフレーム画像の枚数にあわせて分割する。つまり、この場合は5(時間軸t1と時間軸t6との間にあるフレーム数4に1を加えた5)で分割する。5等分の結果として、「は」の左側(図5の512)、「は」の右側(図5の514)、「よ」の左側(図5の516)、「よ」の右側と「う」の左側(図5の518)、「う」の右側(図5の520)となる。
合成モジュール150は、時間軸t2のフレーム画像の文字抽出結果として、時間軸t1の結果(「お」図5の511)と差分を分割した結果(「は」の左側図5の512)を合成する。つまり、図5(C)のように「お」と「は」の左側(図5の513)となる。
時間軸t3から時間軸t5の場合も同様である。つまり、図5(C)に示すように、時間軸t3では「おは」(図5の515)、時間軸t4では「おは」と「よ」の左側(図5の517)、時間軸t5では「おはよ」と「う」の左側(図5の519)、時間軸t6では「おはよう」(図5の521)となる。そして、各文字の画像をそれぞれのフレーム画像に合成する。
図6は、いずれのフレーム画像からも文字抽出はできたが、一部に文字抽出した結果が欠落している場合である。
図6(A)は、複数画像入力モジュール110によって入力された動画像のフレーム画像(6枚)を時間軸(t1〜t6)にしたがって示したものである。図に示すように、時間軸t1でのフレーム画像は、黒色の文字「お」が背景色白で読める画像である。時間軸t2から時間軸t5までのフレーム画像は、黒色の背景によって、文字の一部分が欠落している場合である。つまり、時間軸t2でのフレーム画像は、文字「は」は読めるが、「お」が欠落している。時間軸t3でのフレーム画像は、文字「おは」は読めるが、「よ」が欠落している。時間軸t4でのフレーム画像は、文字「はよう」は読めるが、「お」が欠落している。時間軸t5でのフレーム画像は、文字「おは」と「うご」は読めるが、「よ」が欠落している。時間軸t6でのフレーム画像は、黒色の文字「おはようござ」が背景色白で読める画像である。
図6(B)は、文字抽出モジュール120がその時間軸におけるフレーム画像から文字抽出した結果を示したものである。この場合は、時間軸t1でのフレーム画像から「お」(図6の601)という文字を抽出できている。時間軸t2でのフレーム画像から「は」(図6の602)という文字を抽出できている。時間軸t3でのフレーム画像から「おは」(図6の603)という文字を抽出できている。時間軸t4でのフレーム画像から「はよう」(図6の604)という文字を抽出できている。時間軸t5でのフレーム画像から「おはうご」(図6の605)という文字を抽出できている。時間軸t6でのフレーム画像から「おはようござ」(図6の606)という文字を抽出できている。つまり、図2のフローチャートでは、時間軸t2からt6でのフレーム画像に対して、ステップS204からステップS206までの処理が行われる。
時間軸t2での処理を説明する。
ステップS204で、差分検出モジュール130は、現在のフレーム画像(時間軸t2)の文字抽出結果と、現在のフレーム画像の前に文字抽出できたフレーム画像(時間軸t1)の文字抽出結果との差分を取る。例えば、パターンマッチングした結果、「お」(図6の611)と「は」(図6の602)では、差分があることが検出される。
ステップS205で、分割モジュール140は、分割数は1となり、差分を1で分割する。また、分割数1のため処理を行わなくてもよい。
ステップS206で、合成モジュール150は、その文字が出現した時間、フレーム画像内における出現した場所に応じて、合成する。つまり、この場合、「お」も「は」も出現した場所は同じだが、出現した時間は「お」の方が早い。合成する文字画像は、「お」の後に「は」を付加したものである。なお、現在のフレーム画像(時間軸t2)の文字抽出結果として保持するものは、「おは」(図6の612)である。合成する位置情報は、後に出てくるフレーム画像の位置情報と、前のフレーム画像の文字領域の大きさを考慮して、再計算する。この場合は、後のフレーム画像の「は」の位置から、前のフレームの「お」の分だけ、位置情報をずらす。
時間軸t3での処理を説明する。
ステップS204で、差分検出モジュール130は、現在のフレーム画像(時間軸t3)の文字抽出結果と、現在のフレーム画像の前に文字抽出できたフレーム画像(時間軸t2)の文字抽出結果との差分を取る。例えば、パターンマッチングした結果、「おは」(図6の612)と「おは」(図6の603)では、差分がないことが検出される。
ステップS205で、分割モジュール140は、分割数は1となり、差分を1で分割する。また、分割数1のため処理を行わなくてもよい。
ステップS206で、合成モジュール150は、現在のフレーム画像(時間軸t3)の文字抽出結果として保持する。その保持するものは、「おは」(図6の613)である。また、保持する位置情報は、現在のフレーム画像(時間軸t3)の位置情報である。
時間軸t4での処理を説明する。
ステップS204で、差分検出モジュール130は、現在のフレーム画像(時間軸t4)の文字抽出結果と、現在のフレーム画像の前に文字抽出できたフレーム画像(時間軸t3)の文字抽出結果との差分を取る。例えば、パターンマッチングした結果、「おは」(図6の613)と「はよう」(図6の604)では、差分があることが検出される。
ステップS205で、分割モジュール140は、分割数は1となり、差分を1で分割する。また、分割数1のため処理を行わなくてもよい。
ステップS206で、合成モジュール150は、パターンマッチングした文字を軸に(この場合は「は」)、「おは」と「はよう」を論理和により結合する。これによって、「おはよう」ができあがる(図6の614)。なお、現在のフレーム画像(時間軸t4)の文字抽出結果として保持するものは、「おはよう」(図6の614)である。また、位置情報は、現在のフレーム画像(時間軸t4)の位置情報とパターンマッチングした文字を軸に、前のフレーム画像(時間軸t3)の文字領域の大きさを考慮して、再計算する。この場合は、後のフレーム画像の「は」(マッチングした文字)を中心にして、「お」の分だけ、位置情報をずらす。そして、生成された文字列を、時間軸t4のフレーム画像の先に求めた位置情報の位置に合成する。
時間軸t5での処理を説明する。
ステップS204で、差分検出モジュール130は、現在のフレーム画像(時間軸t5)の文字抽出結果と、現在のフレーム画像の前に文字抽出できたフレーム画像(時間軸t4)の文字抽出結果との差分を取る。例えば、パターンマッチングした結果、「おはよう」(図6の614)と「おは うご」(図6の605)では、差分があることが検出される。
ステップS205で、分割モジュール140は、分割数は1となり、差分を1で分割する。また、分割数1のため処理を行わなくてもよい。
ステップS206で、合成モジュール150は、パターンマッチングした文字を軸に(この場合は「おは」または「う」である)、「おはよう」と「おは うご」を論理和により結合する。これによって、「おはようご」ができあがる(図6の615)。なお、現在のフレーム画像(時間軸t5)の文字抽出結果として保持するものは、「おはようご」(図6の615)である。また、位置情報は、現在のフレーム画像(時間軸t5)の位置情報とパターンマッチングした文字を軸に、前のフレーム画像(時間軸t4)の文字領域の大きさを考慮して、再計算する。この場合は、現在のフレーム画像の「おは」(マッチングした文字)は、すでに現在のフレームの一番端なので、そのまま位置情報として利用する。そして、生成された文字列を、時間軸t5のフレーム画像の先に求めた位置情報の位置に合成する。
時間軸t6での処理を説明する。
ステップS204で、差分検出モジュール130は、現在のフレーム画像(時間軸t6)の文字抽出結果と、現在のフレーム画像の前に文字抽出できたフレーム画像(時間軸t5)の文字抽出結果との差分を取る。例えば、パターンマッチングした結果、「おはようご」(図6の615)と「おはようござ」(図6の606)では、差分があることが検出される。
ステップS205で、分割モジュール140は、分割数は1となり、差分を1で分割する。また、分割数1のため処理を行わなくてもよい。
ステップS206で、合成モジュール150は、時間軸t6での文字抽出結果は、時間軸t5での文字抽出結果を含んでおり、その差分の文字位置は右端であるので、合成を行う必要はない。なお、現在のフレーム画像(時間軸t6)の文字抽出結果として保持するものは、「おはようござ」(図6の616)である。保持する位置情報も現在のフレーム画像における位置情報である。
前述した実施の形態における処理(図2に示したフローチャート)の一部を、以下のようにすることも可能である。つまり、図2のステップS207の後に、図7のフローチャートで示す処理を追加しても良い。
ステップS701では、現在のフレーム画像の文字抽出結果と、前のフレーム画像の文字抽出結果との差分をとる。
ステップS702では、ステップS701での差分を継ぎ足して、文字列を生成する。
これらの処理を、対象とするフレーム画像がなくなるまで繰り返す。
具体的な処理例を示す。図8は、文字列が1行ごとに表示されるような場合である。例えば、画面下方から1行ごとに表示されるような場合である。
文字抽出結果は、図8(A)に示すように、時間軸t1では「おはようございます。」、時間軸t2では「おはようございます。」、時間軸t3では「おはようございます。」、時間軸t4では「今日は晴れです。」、時間軸t5では「今日は晴れです。」、時間軸t6では「今日は晴れです。」である。
時間軸t2のステップS701では、差分がないと判断され、ステップS702では継ぎ足すべき文字はない。したがって、抽出した文字列は、図8(B)に示す「おはようございます。」である。
時間軸t3でも同様であり、この時点での抽出した文字列は、図8(B)に示す「おはようございます。」である。
時間軸t4のステップS701では、差分が検出される。ステップS702では、差分を継ぎ足していく。つまり、生成する文字列は、図8(C)のように「おはようございます。今日は晴れです。」である。
時間軸t5、t6では、差分は検出されないので、生成した文字列は「おはようございます。今日は晴れです。」のままである。
図9は、文字が一文字ずつ追加されて表示されるような場合である。例えば、画面右方から1文字ごとに表示され、それまでの文字は左方向へ移動するような場合である。
文字抽出結果は、図9(A)に示すように、時間軸t1では「お」、時間軸t2では「おは」、時間軸t3では「おはよ」、時間軸t4では「おはよう」、時間軸t5では「おはようご」、時間軸t6では「はようござ」、時間軸t7では「ようござい」である。つまり、どの時間軸においても抽出できる文字は5文字までであり、「おはようござい」を1フレーム画像から抽出することはできていない。
ステップS701では、各時間軸において差分が検出される。
ステップS702では、フレーム画像内での位置関係に基づいて、差分である右端にある文字を継ぎ足していく。具体的には、時間軸t2では、ステップS701で差分が検出されたので、その差分である「は」を文字列の最後に継ぎ足して「おは」とする。
以下、同様に処理が行われて、「おはようござい」という文字列が生成できている。
また、特に、抽出した文字列を比較して、その差分のみを追加していくこともできる。例えば、ここでは、時間軸t4では「おはよう」、時間軸t5では「おはようご」を抽出できているが、差分の「ご」のみを時間軸t4で抽出した「おはよう」の最後に付加して「おはようご」としている。
また、画像内に文字が追加されるのは右端からであり、1フレームに1文字が追加されて表示されるとした場合には、より簡便な方法で行うことができる。図10を用いて、その簡便な方法を説明する。図10も、図9と同じく文字が一文字ずつ追加されて表示されるような場合である。
図10(A)に示した文字抽出結果は、図9(A)と同じである。
文字抽出した結果の最後の文字である右端の1文字だけを継ぎ足していくことによって、文字列を生成することができる。具体的には、時間軸t2の右端の文字は「は」であり、これを前の時間軸t1で生成した文字列「お」(図10(B))の終端に継ぎ足して「おは」とする(図10(C))。これを繰り返して、図10(H)に示すように「おはようござい」まで生成する。
図11を用いて、撮影した画像の中に文字がある場合について説明する。
本実施の形態が対象とできるものは、必ずしも、動画像の中で、字幕やテロップ等の文字自体が移動しながら画像に合成されている必要はない。看板等の文字に対して、ビデオカメラを移動させて撮影すれば、文字が移動している場合と状況は同じである。
1フレーム画像内に全ての文字が撮影されているなどの撮影条件がよい場合は、動画像から抽出した文字をとりだせばよいが、以下のような文字が見えなくなる場合などで、本実施の形態は有用である。
例えば、以下の場合がある。
・電光掲示板で文字が移動して表示されており、その電光掲示板のある場所だけ発光しないで文字に欠けが生じるような場合。
・撮影していると、障害物(人物や自動車等)があり、文字に欠けが生じるような場合。
・ビデオカメラが自動的に逆光補正したりして、文字が見えにくくなってしまうような場合。
・文字抽出、文字認識の性能では文字が欠落してしまうような場合。
ここで、具体例について説明する。例えば「第7回 ○×△保育園 リズム発表会」という看板を、ビデオカメラを右に移動させて撮影したとする(図11(A)、(B)参照)。
この場合、図11(C)のように、フレーム1からフレーム5に示すような画像が撮影されたとする。フレーム1では「第7回 ○」、フレーム2では「回 ×△保」、フレーム3では「△保育園 リ」、フレーム4では「園 リズム発表」、フレーム5では「発表会」が文字抽出できるが、フレーム2では看板の前に人がいて、あるべきはずの「○」の文字が隠れてしまっている。このような場合であっても、本実施の形態の前述した処理によって、「第7回 ○×△保育園 リズム発表会」の文字列を生成することができる。
図12を参照して、実施の形態の画像処理システムのハードウェア構成例について説明する。図12に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成される画像処理システムである。
CPU(Central Processing Unit)401は、上述の実施の形態において説明した各種のモジュール、すなわち、文字抽出モジュール120、差分検出モジュール130、分割モジュール140、合成モジュール150等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムに従った処理を実行する制御部である。
ROM(Read Only Memory)402は、CPU401が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)403は、CPU401の実行において使用するプログラムや、その実行において適宜変化するパラメータ(例えば、文字抽出の途中結果)等を格納する。これらはCPUバスなどから構成されるホストバス404により相互に接続されている。
ホストバス404は、ブリッジ405を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス406に接続されている。
キーボード408、マウス等のポインティングデバイス409は、操作者により操作される入力デバイスである。ディスプレイ410は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、本実施の形態の処理対象である動画像や各種情報(テキスト、イメージ情報等)を表示する。
HDD(Hard Disk Drive)411は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU401によって実行するプログラムや動画像、各種情報を記録または再生させる。ハードディスクは、複数画像入力モジュール110により入力した画像や文字抽出モジュール120による結果データなどが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ412は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体413に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース407、外部バス406、ブリッジ405、およびホストバス404を介して接続されているRAM403に供給する。リムーバブル記録媒体413も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート414は、外部接続機器415を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート414は、インタフェース407、および外部バス406、ブリッジ405、ホストバス404等を介してCPU401等に接続されている。通信部416は、ネットワークに接続され、外部とのデータ通信処理を実行する。
なお、図12に示す画像処理システムのハードウェア構成は、1つの構成例を示すものであり、本実施の形態の画像処理システムは、図12に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図12に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、ビデオデッキ、ビデオカメラ、デジタルカメラ、情報家電、携帯電話、ゲーム機、GPSなどに組み込まれていてもよい。
前記実施の形態においては、合成モジュール150によって画像に文字を合成することを示したが、文字をその画像の索引(インデックス)として付与するようにしてもよい。すなわち、分割モジュール140によって分割された文字の差分を、A画像とB画像との間にある画像に索引として関連付けてもよい。ここで、索引とは、動画像を編集、検索等する際に用いられるものであり、全てのフレームに対して索引を付与してもよいし、シーン毎に索引を付与してもよい。また、抽出した文字がテキストデータである場合は、形態素解析を行って、意味的にひとかたまりになるような文字列になる都度に、そのフレーム画像に索引として付与するようにしてもよい。このようにした場合は、更に編集、検索等の利便性が高まる。つまり、早送りやシーン飛ばしなどに利用することができるようになる。
また、その他に抽出した文字列の利用法として、次のようなものがある。
(1)ビデオテープのタイトルに利用する。
(2)動画データベースの中から、目的とするシーンを検索するためのキーワードにする。
(3)複数の動画像を種類別に分けるときのキーワードにする。
(4)対象がレストランや土地名などであれば、携帯電話やGPSなどに利用することもできる。
前記実施の形態では、1フレーム画像中に文字列が1つしか出現していないが、例えば、1フレーム画像の上側横1列と下側横1列に同時に文字列が存在する場合でも、それらの位置関係や抽出した文字列のパターンマッチング等から、それぞれ独立して文字列の合成を行うことが可能である。
なお、説明したプログラムについては、記録媒体に格納することも可能であり、また、そのプログラムを通信手段によって提供することもできる。その場合、例えば、上記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えることもできる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、上記のプログラムまたはその一部は、上記記録媒体に記録して保存や流通等させることが可能である。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に乗せて搬送することも可能である。
さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。
本実施の形態の概念的なモジュール構成図である。 本実施の形態による文字抽出処理を示すフローチャート例である。 本実施の形態による具体的な文字抽出処理の例(その1)を説明する説明図である。 本実施の形態による具体的な文字抽出処理の例(その2)を説明する説明図である。 本実施の形態による具体的な文字抽出処理の例(その3)を説明する説明図である。 本実施の形態による具体的な文字抽出処理の例(その4)を説明する説明図である。 本実施の形態による文字列生成処理を示すフローチャート例である。 本実施の形態による具体的な文字列生成処理の例(その1)を説明する説明図である。 本実施の形態による具体的な文字列生成処理の例(その2)を説明する説明図である。 本実施の形態による具体的な文字列生成処理の例(その3)を説明する説明図である。 本実施の形態による具体的な文字抽出処理の例(その5)を説明する説明図である。 本実施の形態のハードウェア構成例を示すブロック図である。
符号の説明
110…複数画像入力モジュール
120…文字抽出モジュール
130…差分検出モジュール
140…分割モジュール
150…合成モジュール

Claims (27)

  1. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力された第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字に応じて、前記第2の画像に合成する合成手段
    を具備することを特徴とする画像処理システム。
  2. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割手段と、
    前記分割手段によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に合成する合成手段
    を具備することを特徴とする画像処理システム。
  3. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記画像入力手段によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第3の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記第2の文字抽出手段によって文字が抽出できず、前記差分検出手段によって差分が検出されなかった場合は、前記第1の文字抽出手段または前記第3の文字抽出手段によって抽出された文字を前記第2の画像に合成する合成手段
    を具備することを特徴とする画像処理システム。
  4. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記画像入力手段によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第3の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記第2の文字抽出手段によって文字が抽出できず、前記差分検出手段によって差分が検出された場合は、該差分を、前記第1の画像と前記第3の画像との間にある画像の数にあわせて分割する分割手段と、
    前記分割手段によって分割された文字の差分を、前記第1の画像と前記第3の画像との間にある画像に合成する合成手段
    を具備することを特徴とする画像処理システム。
  5. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字に応じて、文字列を合成する合成手段
    を具備することを特徴とする画像処理システム。
  6. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、前記第2の文字抽出手段によって抽出された文字を接続することによって、文字列を合成する合成手段
    を具備することを特徴とする画像処理システム。
  7. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、該検出された差分の文字を付加することによって、文字列を合成する合成手段
    を具備することを特徴とする画像処理システム。
  8. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、前記第2の文字抽出手段によって抽出された文字のうち最後の1文字を付加することによって、文字列を合成する合成手段
    を具備することを特徴とする画像処理システム。
  9. 動画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割手段と、
    前記分割手段によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に索引として関連付ける索引付与手段
    を具備することを特徴とする動画像編集処理システム。
  10. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力された第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字に応じて、前記第2の画像に合成する合成手段
    を具備することを特徴とする画像処理装置。
  11. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割手段と、
    前記分割手段によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に合成する合成手段
    を具備することを特徴とする画像処理装置。
  12. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記画像入力手段によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第3の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記第2の文字抽出手段によって文字が抽出できず、前記差分検出手段によって差分が検出されなかった場合は、前記第1の文字抽出手段または前記第3の文字抽出手段によって抽出された文字を前記第2の画像に合成する合成手段
    を具備することを特徴とする画像処理装置。
  13. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記画像入力手段によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第3の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記第2の文字抽出手段によって文字が抽出できず、前記差分検出手段によって差分が検出された場合は、該差分を、前記第1の画像と前記第3の画像との間にある画像の数にあわせて分割する分割手段と、
    前記分割手段によって分割された文字の差分を、前記第1の画像と前記第3の画像との間にある画像に合成する合成手段
    を具備することを特徴とする画像処理装置。
  14. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字に応じて、文字列を合成する合成手段
    を具備することを特徴とする画像処理装置。
  15. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、前記第2の文字抽出手段によって抽出された文字を接続することによって、文字列を合成する合成手段
    を具備することを特徴とする画像処理装置。
  16. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、該検出された差分の文字を付加することによって、文字列を合成する合成手段
    を具備することを特徴とする画像処理装置。
  17. 時系列に連動した画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって差分が検出された場合、前記第1の文字抽出手段によって抽出された文字の後に、前記第2の文字抽出手段によって抽出された文字のうち最後の1文字を付加することによって、文字列を合成する合成手段
    を具備することを特徴とする画像処理装置。
  18. 動画像を入力する画像入力手段と、
    前記画像入力手段によって入力された第1の画像から文字を抽出する第1の文字抽出手段と、
    前記画像入力手段によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出手段と、
    前記第1の文字抽出手段によって抽出された文字と前記第2の文字抽出手段によって抽出された文字との差分を検出する差分検出手段と、
    前記差分検出手段によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割手段と、
    前記分割手段によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に索引として関連付ける索引付与手段
    を具備することを特徴とする動画像編集処理装置。
  19. コンピュータに、
    時系列に連動した画像を入力する画像入力機能と、
    前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
    前記画像入力機能によって入力された第2の画像から文字を抽出する第2の文字抽出機能と、
    前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字に応じて、前記第2の画像に合成する合成機能
    を実現させることを特徴とする画像処理プログラム。
  20. コンピュータに、
    時系列に連動した画像を入力する画像入力機能と、
    前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
    前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
    前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
    前記差分検出機能によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割機能と、
    前記分割機能によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に合成する合成機能
    を実現させることを特徴とする画像処理プログラム。
  21. コンピュータに、
    時系列に連動した画像を入力する画像入力機能と、
    前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
    前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
    前記画像入力機能によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出機能と、
    前記第1の文字抽出機能によって抽出された文字と前記第3の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
    前記第2の文字抽出機能によって文字が抽出できず、前記差分検出機能によって差分が検出されなかった場合は、前記第1の文字抽出機能または前記第3の文字抽出機能によって抽出された文字を前記第2の画像に合成する合成機能
    を実現させることを特徴とする画像処理プログラム。
  22. コンピュータに、
    時系列に連動した画像を入力する画像入力機能と、
    前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
    前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
    前記画像入力機能によって入力され、前記第2の画像より後の画像である第3の画像から文字を抽出する第3の文字抽出機能と、
    前記第1の文字抽出機能によって抽出された文字と前記第3の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
    前記第2の文字抽出機能によって文字が抽出できず、前記差分検出機能によって差分が検出された場合は、該差分を、前記第1の画像と前記第3の画像との間にある画像の数にあわせて分割する分割機能と、
    前記分割機能によって分割された文字の差分を、前記第1の画像と前記第3の画像との間にある画像に合成する合成機能
    を実現させることを特徴とする画像処理プログラム。
  23. コンピュータに、
    時系列に連動した画像を入力する画像入力機能と、
    前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
    前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
    前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
    前記差分検出機能によって差分が検出された場合、前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字に応じて、文字列を合成する合成機能
    を実現させることを特徴とする画像処理プログラム。
  24. コンピュータに、
    時系列に連動した画像を入力する画像入力機能と、
    前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
    前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
    前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
    前記差分検出機能によって差分が検出された場合、前記第1の文字抽出機能によって抽出された文字の後に、前記第2の文字抽出機能によって抽出された文字を接続することによって、文字列を合成する合成機能
    を実現させることを特徴とする画像処理プログラム。
  25. コンピュータに、
    時系列に連動した画像を入力する画像入力機能と、
    前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
    前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
    前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
    前記差分検出機能によって差分が検出された場合、前記第1の文字抽出機能によって抽出された文字の後に、該検出された差分の文字を付加することによって、文字列を合成する合成機能
    を実現させることを特徴とする画像処理プログラム。
  26. コンピュータに、
    時系列に連動した画像を入力する画像入力機能と、
    前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
    前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
    前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
    前記差分検出機能によって差分が検出された場合、前記第1の文字抽出機能によって抽出された文字の後に、前記第2の文字抽出機能によって抽出された文字のうち最後の1文字を付加することによって、文字列を合成する合成機能
    を実現させることを特徴とする画像処理プログラム。
  27. コンピュータに、
    動画像を入力する画像入力機能と、
    前記画像入力機能によって入力された第1の画像から文字を抽出する第1の文字抽出機能と、
    前記画像入力機能によって入力され、前記第1の画像より後の画像である第2の画像から文字を抽出する第2の文字抽出機能と、
    前記第1の文字抽出機能によって抽出された文字と前記第2の文字抽出機能によって抽出された文字との差分を検出する差分検出機能と、
    前記差分検出機能によって検出された差分を、前記第1の画像と前記第2の画像との間にある画像の数にあわせて分割する分割機能と、
    前記分割機能によって分割された文字の差分を、前記第1の画像と前記第2の画像との間にある画像に索引として関連付ける索引付与機能
    を実現させることを特徴とする動画像編集処理プログラム。
JP2006205795A 2006-07-28 2006-07-28 画像処理システム、動画像編集処理システム、画像処理装置、動画像編集処理装置、画像処理プログラムおよび動画像編集処理プログラム Withdrawn JP2008033606A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006205795A JP2008033606A (ja) 2006-07-28 2006-07-28 画像処理システム、動画像編集処理システム、画像処理装置、動画像編集処理装置、画像処理プログラムおよび動画像編集処理プログラム
US11/878,266 US8041117B2 (en) 2006-07-28 2007-07-23 Image processing system, computer readable medium storing image processing program and computer data signal embedded with the image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006205795A JP2008033606A (ja) 2006-07-28 2006-07-28 画像処理システム、動画像編集処理システム、画像処理装置、動画像編集処理装置、画像処理プログラムおよび動画像編集処理プログラム

Publications (1)

Publication Number Publication Date
JP2008033606A true JP2008033606A (ja) 2008-02-14

Family

ID=38986366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006205795A Withdrawn JP2008033606A (ja) 2006-07-28 2006-07-28 画像処理システム、動画像編集処理システム、画像処理装置、動画像編集処理装置、画像処理プログラムおよび動画像編集処理プログラム

Country Status (2)

Country Link
US (1) US8041117B2 (ja)
JP (1) JP2008033606A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851628A (zh) * 2019-09-29 2020-02-28 上海萌家网络科技有限公司 一种输入法及其客户端和提供候选图片/视频的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9274855B2 (en) 2008-12-24 2016-03-01 Intel Corporation Optimization for safe elimination of weak atomicity overhead

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3379453B2 (ja) 1998-12-17 2003-02-24 松下電器産業株式会社 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110851628A (zh) * 2019-09-29 2020-02-28 上海萌家网络科技有限公司 一种输入法及其客户端和提供候选图片/视频的方法

Also Published As

Publication number Publication date
US20080025607A1 (en) 2008-01-31
US8041117B2 (en) 2011-10-18

Similar Documents

Publication Publication Date Title
Aigrain et al. Content-based representation and retrieval of visual media: A state-of-the-art review
KR101729195B1 (ko) 질의동작기반 안무 검색 시스템 및 방법
KR102028198B1 (ko) 동영상 장면과 메타데이터 저작 방법
US20160198097A1 (en) System and method for inserting objects into an image or sequence of images
EP2426917A1 (en) Display control device, display control method, and program
US20100057722A1 (en) Image processing apparatus, method, and computer program product
US20100011297A1 (en) Method and system for generating index pictures for video streams
CN112367551B (zh) 视频编辑的方法及装置、电子设备和可读存储介质
JP2008148121A (ja) 動画要約自動作成装置、方法、及びコンピュータ・プログラム
EP3392829B1 (en) Image processing apparatus, image processing system, image processing method, and program
CN102823265A (zh) 内容处理装置和方法及程序
JP2010239605A (ja) 映像編集装置
US20110110592A1 (en) Electronic apparatus and image display method
CN103995816A (zh) 信息处理设备和信息处理方法
GB2243044A (en) Video editing system in a camcorder
CN102084337A (zh) 时空媒体对象布局
JP2007165983A (ja) メタデータ自動生成装置、メタデータ自動生成方法、メタデータ自動生成プログラムおよびプログラムを記録した記録媒体
US20130188880A1 (en) Computer-readable recording medium storing image accumulating program, method and apparatus
JP2008033606A (ja) 画像処理システム、動画像編集処理システム、画像処理装置、動画像編集処理装置、画像処理プログラムおよび動画像編集処理プログラム
JPH11120353A (ja) 画像表示装置
CN107180058B (zh) 一种用于基于字幕信息进行查询的方法和装置
CN113392230B (zh) 标注数据处理和操作方法以及标注平台和数据库
JP4830763B2 (ja) 画像処理システムおよび画像処理プログラム
JP3379453B2 (ja) 字幕領域検出方法及びその装置、並びに動画像検索方法及びその装置
CN110460908B (zh) 一种生成视频时每帧图片的生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090210

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100713