JP2014002493A - 画像処理装置、画像処理方法およびプログラム - Google Patents

画像処理装置、画像処理方法およびプログラム Download PDF

Info

Publication number
JP2014002493A
JP2014002493A JP2012136525A JP2012136525A JP2014002493A JP 2014002493 A JP2014002493 A JP 2014002493A JP 2012136525 A JP2012136525 A JP 2012136525A JP 2012136525 A JP2012136525 A JP 2012136525A JP 2014002493 A JP2014002493 A JP 2014002493A
Authority
JP
Japan
Prior art keywords
word
synonym
layer
image data
attached
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012136525A
Other languages
English (en)
Other versions
JP5708569B2 (ja
Inventor
Katsuaki Wakui
克明 和久井
Hideyuki Hashimoto
英幸 橋本
Takahiro Tsutsumi
隆弘 堤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2012136525A priority Critical patent/JP5708569B2/ja
Priority to US13/916,794 priority patent/US9881001B2/en
Publication of JP2014002493A publication Critical patent/JP2014002493A/ja
Application granted granted Critical
Publication of JP5708569B2 publication Critical patent/JP5708569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】テキスト検索が行われる環境に影響されず、ユーザーがキーワードを入力して検索を行ったときにはそのキーワードに類似するワードを含む検索結果が得られるような画像データの生成を可能にする。
【解決手段】画像処理装置1は、画像データを入力する画像入力部31と、画像データに含まれるテキストからワードを抽出するワード抽出部32と、ワードに対応する類語を取得し、当該類語を前記ワードに関連付ける類語取得部33と、画像データにおいて類語が関連付けられたワードの表示位置を特定するワード位置特定部34と、画像データのオリジナルレイヤーに重ね合わせる付属レイヤーを作成し、当該付属レイヤーに、ワードに関連付けられた類語を埋め込むレイヤー作成部35と、オリジナルレイヤーと付属レイヤーとを含む出力画像データを生成する出力画像生成部36と、を備える構成である。
【選択図】図3

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関し、特に画像データに含まれるテキストを検索し易くするための画像データ生成技術に関する。
近年、オフィスなどにおいては膨大な文書が電子化された画像データとして管理される。通常、この種の画像データは、例えばPDF(登録商標)などの予め定められたデータ形式で保存され、管理されている。それ故、データベースに蓄積された多数の画像データの中からユーザーが所望する画像データを探し出して利用する際には、検索キーワードを入力して一括検索を行うことが頻繁にある。
ところが、データベースに蓄積される多数の画像データには、同じような内容が異なるワードで表現された表記揺れが発生しているケースが多い。そのため、ユーザーが仮に複数の検索キーワードの論理和を指定して検索を行ったとしても、表記揺れを漏れなくカバーすることは困難であり、検索漏れが発生する。
また、例えばユーザーが一の画像データを閲覧している状態のとき、その一の画像データを検索対象とし、その画像データに含まれるキーワードの検索を行うこともある。このような場合にも、検索対象である画像データにおいて同じような内容が異なるワードで表現された表記揺れが発生していることがある。そのため、ユーザーが仮に複数の検索キーワードの論理和を指定して検索を行ったとしても、一の画像データ内での表記揺れを漏れなくカバーすることは困難であり、検索漏れが発生する。
従来、上記のような検索漏れを防止するための技術が種々提案されている(例えば、特許文献1,2)。
特許文献1は、あいまい検索によって検出された文字列から、検索に適当な文字列をユーザーに選択させることを可能と、適切なあいまい検索を容易に実現する検索装置を開示している。この検索装置は、被検索文書から、ユーザーによって与えられた検索文字列およびその検索文字列に類似する文字列を抽出し、それらの文字列から検索に採用すべき文字列をユーザーに選択させる。そしてユーザーが採用すべき文字列を選択すると、その選択された文字列に基づいて検索を行い、検索結果を取得する。
また特許文献2は、自然文による検索を行うときの検索漏れを解消するための検索装置を開示している。この検索装置は、データベースなどに文書を登録するとき、その登録対象文書に固有の文書IDを付与すると共に、登録対象文書に含まれる単語を抽出し、その抽出した単語の標準表記となる別表現の単語を抽出する。そして抽出した単語を見出しとして文書IDを検索用データに登録する。検索用データは、登録文書とは別に検索装置において管理されるデータであり、見出しとして登録される各単語に対応付けて、その単語を含む多数の文書の文書IDを予め登録したデータとして作成される。そして文書を検索するときには、検索条件となるキーワードから標準表記となる単語を特定し、その特定した単語をキーにして検索用データを検索することにより、単語に対応付けられた文書IDを取得し、キーワードに対応する文書を抽出する。
特開平10−307839号公報 特開2004−86307号公報
しかしながら、上記特許文献1の技術では、ユーザーが検索文字列を入力する操作を行った後、その検索文字列に類似する文字列を含む文字列の中から再び検索に採用すべき文字列を選択する操作を行わなければならず、操作性が悪いという問題がある。また、ユーザーが検索文字列に類似する文字列を含む文字列の中から再び検索に採用すべき文字列を選択する際に、誤った選択を行ってしまうと、適切なあいまい検索を行うことができず、依然として検索漏れが発生する可能性がある。
また上記特許文献2の技術では、ユーザーが入力したキーワードおよびそのキーワードに類似する単語を含む文書を複数の文書が登録されたデータベースから抽出するためには、標準表記となる各単語と文書IDとを相互に対応付けた検索用データを予め登録しておく必要がある。そのため、検索用データが登録されていない環境下では、ユーザーが入力したキーワードおよびそのキーワードに類似する単語を含む文書を抽出することができないという問題がある。例えば、データベースに登録された一の文書をユーザーが電子メールに添付して他のユーザーに送信したような場合、その電子メールを受信した他のユーザーが異なる環境下で添付文書を検索対象としてキーワード検索を行っても、それに類似する単語は検索されない。それ故、他のユーザーが文書に含まれない単語をキーワードとして検索を行ってしまうと、そのキーワードに類似する単語が文書に含まれている場合であってもその類似する単語は検索されず、検索漏れが発生する。
そこで本発明は、従来の問題点を解決するため、検索が行われる環境に影響されず、ユーザーがキーワードを入力して検索を行ったときにはそのキーワードに類似するワードを含む検索結果を得ることが可能な画像データを生成する画像処理装置、画像処理方法およびプログラムを提供することを、その目的とするものである。
上記目的を達成するため、請求項1にかかる発明は、画像処理装置であって、画像データを入力する入力手段と、前記画像データに含まれるテキストからワードを抽出するワード抽出手段と、前記ワードに対応する類語を取得し、当該類語を前記ワードに関連付ける類語取得手段と、前記画像データにおいて前記類語が関連付けられた前記ワードの表示位置を特定する位置特定手段と、前記ワードが含まれる前記画像データをオリジナルレイヤーとして該オリジナルレイヤーに重ね合わせる付属レイヤーを作成し、当該付属レイヤーにおける前記位置特定手段で特定された表示位置に、前記ワードに関連付けられた前記類語を埋め込むレイヤー作成手段と、前記ワードが含まれるオリジナルレイヤーと、前記類語が埋め込まれた付属レイヤーとを含む出力画像データを生成する出力画像生成手段と、を備えることを特徴とする構成である。
請求項2にかかる発明は、請求項1に記載の画像処理装置において、前記レイヤー作成手段は、前記類語取得手段によって一のワードに対応する複数の類語が取得された場合、複数の付属レイヤーを作成し、前記一のワードに関連付けられた複数の類語のそれぞれを異なる付属レイヤーにおける前記位置特定手段で特定された表示位置に埋め込むことを特徴とする構成である。
請求項3にかかる発明は、請求項1又は2に記載の画像処理装置において、前記類語取得手段は、一のワードに対応する類語が前記画像データから抽出された他のワードに一致する場合、前記一のワードと前記他のワードとを表記揺れとして特定し、前記レイヤー作成手段は、前記付属レイヤーにおいて、前記一のワードについて前記位置特定手段で特定された表示位置に前記他のワードを埋め込み、前記他のワードについて前記位置特定手段で特定された表示位置に前記一のワードを埋め込むことを特徴とする構成である。
請求項4にかかる発明は、請求項3に記載の画像処理装置において、前記レイヤー作成手段は、前記類語取得手段によって一のワードの表記揺れとして特定される他のワードが複数ある場合には階層構造を有する複数の付属レイヤーを作成し、前記一のワードの表記揺れとして特定された前記複数の他のワードのそれぞれを異なる付属レイヤーにおいて前記一のワードについて前記位置特定手段で特定された表示位置に埋め込むことを特徴とする構成である。
請求項5にかかる発明は、請求項4に記載の画像処理装置において、前記レイヤー作成手段は、前記一のワードの表記揺れとして特定される前記複数の他のワードのそれぞれを前記複数の付属レイヤーのうちの異なる付属レイヤーに埋め込む際、前記複数の他のワードのうち、前記画像データにおいて出現頻度の高いものから順に、上位階層の付属レイヤーに埋め込むことを特徴とする構成である。
請求項6にかかる発明は、請求項1乃至5のいずれかに記載の画像処理装置において、前記レイヤー作成手段は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の先頭位置を前記オリジナルレイヤーにおける前記ワードの先頭位置に一致させるように配置し、前記ワードの先頭位置に別の類語が配置された状態である場合には更に別の付属レイヤーを作成し、当該別の付属レイヤーにおいて前記ワードの先頭位置に一致させるように配置することを特徴とする構成である。
請求項7にかかる発明は、請求項1乃至5のいずれかに記載の画像処理装置において、前記レイヤー作成手段は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の表示領域が前記オリジナルレイヤーにおける前記ワードの表示領域と一致するように前記類語の書式変換を行って前記付属レイヤーに埋め込むことを特徴とする構成である。
請求項8にかかる発明は、請求項1乃至7のいずれかに記載の画像処理装置において、前記類語取得手段は、前記ワードに対応する類語を取得することに伴って当該類語の種類を判別し、前記レイヤー作成手段は、前記類語取得手段によって判別される類語の種類ごとに付属レイヤーを作成し、前記ワードに関連付けられた前記類語を、その類語の種類に対応する付属レイヤーに埋め込むことを特徴とする構成である。
請求項9にかかる発明は、画像処理方法であって、画像データを入力する入力工程と、前記画像データに含まれるテキストからワードを抽出するワード抽出工程と、前記ワードに対応する類語を取得し、当該類語を前記ワードに関連付ける類語取得工程と、前記画像データにおいて前記類語が関連付けられた前記ワードの表示位置を特定する位置特定工程と、前記ワードが含まれる前記画像データをオリジナルレイヤーとして該オリジナルレイヤーに重ね合わせる付属レイヤーを作成し、当該付属レイヤーにおける前記位置特定工程で特定された表示位置に、前記ワードに関連付けられた前記類語を埋め込むレイヤー作成工程と、前記ワードが含まれるオリジナルレイヤーと、前記類語が埋め込まれた付属レイヤーとを含む出力画像データを生成する出力画像生成工程と、を含むことを特徴とする構成である。
請求項10にかかる発明は、請求項9に記載の画像処理方法において、前記レイヤー作成工程は、前記類語取得工程において一のワードに対応する複数の類語が取得された場合、複数の付属レイヤーを作成し、前記一のワードに関連付けられた複数の類語のそれぞれを異なる付属レイヤーにおける前記位置特定工程で特定された表示位置に埋め込むことを特徴とする構成である。
請求項11にかかる発明は、請求項9又は10に記載の画像処理方法において、前記類語取得工程は、一のワードに対応する類語が前記画像データから抽出された他のワードに一致する場合、前記一のワードと前記他のワードとを表記揺れとして特定し、前記レイヤー作成工程は、前記付属レイヤーにおいて、前記一のワードについて前記位置特定工程で特定された表示位置に前記他のワードを埋め込み、前記他のワードについて前記位置特定工程で特定された表示位置に前記一のワードを埋め込むことを特徴とする構成である。
請求項12にかかる発明は、請求項11に記載の画像処理方法において、前記レイヤー作成工程は、前記類語取得工程によって一のワードの表記揺れとして特定される他のワードが複数ある場合には階層構造を有する複数の付属レイヤーを作成し、前記一のワードの表記揺れとして特定された前記複数の他のワードのそれぞれを異なる付属レイヤーにおいて前記一のワードについて前記位置特定工程で特定された表示位置に埋め込むことを特徴とする構成である。
請求項13にかかる発明は、請求項12に記載の画像処理方法において、前記レイヤー作成工程は、前記一のワードの表記揺れとして特定される前記複数の他のワードのそれぞれを前記複数の付属レイヤーのうちの異なる付属レイヤーに埋め込む際、前記複数の他のワードのうち、前記画像データにおいて出現頻度の高いものから順に、上位階層の付属レイヤーに埋め込むことを特徴とする構成である。
請求項14にかかる発明は、請求項9乃至13のいずれかに記載の画像処理方法において、前記レイヤー作成工程は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の先頭位置を前記オリジナルレイヤーにおける前記ワードの先頭位置に一致させるように配置し、前記ワードの先頭位置に別の類語が配置された状態である場合には更に別の付属レイヤーを作成し、当該別の付属レイヤーにおいて前記ワードの先頭位置に一致させるように配置することを特徴とする構成である。
請求項15にかかる発明は、請求項9乃至13のいずれかに記載の画像処理方法において、前記レイヤー作成工程は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の表示領域が前記オリジナルレイヤーにおける前記ワードの表示領域と一致するように前記類語の書式変換を行って前記付属レイヤーに埋め込むことを特徴とする構成である。
請求項16にかかる発明は、請求項9乃至15のいずれかに記載の画像処理方法において、前記類語取得工程は、前記ワードに対応する類語を取得することに伴って当該類語の種類を判別し、前記レイヤー作成工程は、前記類語取得工程によって判別される類語の種類ごとに付属レイヤーを作成し、前記ワードに関連付けられた前記類語を、その類語の種類に対応する付属レイヤーに埋め込むことを特徴とする構成である。
請求項17にかかる発明は、プログラムであって、コンピュータを、画像データを入力する入力手段、前記画像データに含まれるテキストからワードを抽出するワード抽出手段、前記ワードに対応する類語を取得し、当該類語を前記ワードに関連付ける類語取得手段、前記画像データにおいて前記類語が関連付けられた前記ワードの表示位置を特定する位置特定手段、前記ワードが含まれる前記画像データをオリジナルレイヤーとして該オリジナルレイヤーに重ね合わせる付属レイヤーを作成し、当該付属レイヤーにおける前記位置特定手段で特定された表示位置に、前記ワードに関連付けられた前記類語を埋め込むレイヤー作成手段、および、前記ワードが含まれるオリジナルレイヤーと、前記類語が埋め込まれた付属レイヤーとを含む出力画像データを生成する出力画像生成手段、として機能させることを特徴とする構成である。
請求項18にかかる発明は、請求項17に記載のプログラムにおいて、前記レイヤー作成手段は、前記類語取得手段によって一のワードに対応する複数の類語が取得された場合、複数の付属レイヤーを作成し、前記一のワードに関連付けられた複数の類語のそれぞれを異なる付属レイヤーにおける前記位置特定手段で特定された表示位置に埋め込むことを特徴とする構成である。
請求項19にかかる発明は、請求項17又は18に記載のプログラムにおいて、前記類語取得手段は、一のワードに対応する類語が前記画像データから抽出された他のワードに一致する場合、前記一のワードと前記他のワードとを表記揺れとして特定し、前記レイヤー作成手段は、前記付属レイヤーにおいて、前記一のワードについて前記位置特定手段で特定された表示位置に前記他のワードを埋め込み、前記他のワードについて前記位置特定手段で特定された表示位置に前記一のワードを埋め込むことを特徴とする構成である。
請求項20にかかる発明は、請求項19に記載のプログラムにおいて、前記レイヤー作成手段は、前記類語取得手段によって一のワードの表記揺れとして特定される他のワードが複数ある場合には階層構造を有する複数の付属レイヤーを作成し、前記一のワードの表記揺れとして特定された前記複数の他のワードのそれぞれを異なる付属レイヤーにおいて前記一のワードについて前記位置特定手段で特定された表示位置に埋め込むことを特徴とする構成である。
請求項21にかかる発明は、請求項20に記載のプログラムにおいて、前記レイヤー作成手段は、前記一のワードの表記揺れとして特定される前記複数の他のワードのそれぞれを前記複数の付属レイヤーのうちの異なる付属レイヤーに埋め込む際、前記複数の他のワードのうち、前記画像データにおいて出現頻度の高いものから順に、上位階層の付属レイヤーに埋め込むことを特徴とする構成である。
請求項22にかかる発明は、請求項17乃至21のいずれかに記載のプログラムにおいて、前記レイヤー作成手段は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の先頭位置を前記オリジナルレイヤーにおける前記ワードの先頭位置に一致させるように配置し、前記ワードの先頭位置に別の類語が配置された状態である場合には更に別の付属レイヤーを作成し、当該別の付属レイヤーにおいて前記ワードの先頭位置に一致させるように配置することを特徴とする構成である。
請求項23にかかる発明は、請求項17乃至21のいずれかに記載のプログラムにおいて、前記レイヤー作成手段は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の表示領域が前記オリジナルレイヤーにおける前記ワードの表示領域と一致するように前記類語の書式変換を行って前記付属レイヤーに埋め込むことを特徴とする構成である。
請求項24にかかる発明は、請求項17乃至23のいずれかに記載のプログラムにおいて、前記類語取得手段は、前記ワードに対応する類語を取得することに伴って当該類語の種類を判別し、前記レイヤー作成手段は、前記類語取得手段によって判別される類語の種類ごとに付属レイヤーを作成し、前記ワードに関連付けられた前記類語を、その類語の種類に対応する付属レイヤーに埋め込むことを特徴とする構成である。
本発明によれば、テキスト検索が行われる環境に影響されず、ユーザーがキーワードを入力して検索を行ったときにはそのキーワードに類似するワードを含む検索結果を得ることが可能な画像データを生成することができるようになる。その結果、ユーザーによる操作負担を軽減することができると共に、検索漏れの発生を効果的に抑制することができるようになる。
画像処理装置を含む画像処理システムの一構成例を示す図である。 画像処理装置のハードウェア構成の一例を示すブロック図である。 画像処理装置で画像データ生成機能が動作した状態における制御部の機能構成を示すブロック図である。 画像入力部が処理対象として取得する画像データの一例を示す図である。 ワード抽出部が画像データからワードの抽出を行った結果の一例を示す図である。 シソーラス辞書およびカスタマイズ辞書の一例を示す図である。 類語取得部による類語取得の概念を示す図である。 レイヤー作成部によって行われる付属レイヤー作成処理および類語埋め込み処理の概要を示す図である。 類語埋め込み時における第1および第2の埋め込み方法を説明する概念図である。 画像データから抽出されたワードに対応する類語が埋め込まれた付属レイヤーの一例を示す図である。 画像データから抽出されたワードに対応する類語が埋め込まれた付属レイヤーの別の例を示す図である。 画像処理装置から出力される画像データをコンピュータなどのディスプレイに表示してユーザーがキーワード検索を行った結果を例示する図である。 第1の実施の形態の画像処理装置において画像データ生成機能が動作する場合の処理手順の一例を示すフローチャートである。 類語取得処理の詳細な処理手順の一例を示すフローチャートである。 レイヤー作成処理の詳細な処理手順の一例を示すフローチャートである。 類語埋め込み処理の詳細な処理手順の一例を示すフローチャートである。 第2の実施の形態の画像処理装置において画像データ生成機能が動作する場合の処理手順の一例を示すフローチャートである。 第2の実施の形態の画像処理装置によって生成される画像データの一例を示す図である。
以下、本発明に関する好ましい実施形態について図面を参照しつつ詳細に説明する。尚、以下に説明する実施形態において互いに共通する部材には同一符号を付しており、それらについての重複する説明は省略する。
(第1の実施の形態)
図1は、本実施形態の画像処理装置1を含む画像処理システムの一構成例を示す図である。この画像処理システムは、スキャン機能やコピー機能、FAX機能、プリンタ機能、画像処理機能などの複数の機能が搭載されたMFP(Multifunction Peripherals)などで構成される画像処理装置1と、サーバー装置3a,3bとを備え、それらがLAN(Local Area Network)やインターネットなどのネットワーク2を介して相互にデータ通信を行うことができる構成である。
画像処理装置1は、様々な画像処理を行うことができる装置である。特に本実施形態の画像処理装置1は、様々な画像処理機能の一つとして、画像データに含まれるテキストを検索し易くするための画像データを生成する画像データ生成機能を有している。この画像データ生成機能は、入力する画像データに含まれるワード(単語)を抽出し、そのワードに関連する類語をそのワードの表示位置に埋め込んで出力する機能である。
サーバー装置3aは、例えばインターネット上に設置される。このサーバー装置3aは、ハードディスクドライブなどで構成される記憶装置4aを備えており、その記憶装置4aには電子辞書情報であるシソーラス辞書5aが記憶されている。シソーラス辞書5aは、例えば一般用語および標準用語が多数登録された一般的な類語辞書5であり、一般用語および標準用語が多数登録された単語群を、互いに類似する複数の類語どうしで相互に関連付けて纏めたデータ構造を有している。
サーバー装置3bは、例えばオフィス内に敷設されたLANなどに接続された状態で設置される。このサーバー装置3bは、サーバー装置3aと同様、ハードディスクドライブなどで構成される記憶装置4bを備えており、その記憶装置4bには電子辞書情報であるカスタマイズ辞書5bが記憶されている。カスタマイズ辞書5aは、例えば業界用語や社内用語などがユーザーによって多数登録された類語辞書5である。このカスタマイズ辞書5aは、ユーザーによって多数登録される業界用語や社内用語などを含む単語群を、単語登録時にユーザーが指定する類語指定に基づき、互いに類似する複数の類語どうしで相互に関連付けて纏めたデータ構造を有している。
ここで本実施形態における類語には、同義語、類義語、広義語、狭義語、関連語、原語、略語、翻訳語などが含まれる。
画像処理装置1は、上記画像データ生成機能を動作させると、ネットワーク2を介してサーバー装置3a,3bにアクセスし、シソーラス辞書5aおよびカスタマイズ辞書5bを含む類語辞書5を参照することによって画像データに含まれているワードに関連した類語を取得する。ただし、シソーラス辞書5aやカスタマイズ辞書5bを含む類語辞書5は、必ずしもネットワーク2に接続されたサーバー装置3a,3bに保持されていなければならないものではなく、画像処理装置1がその内部に保持しているものであっても構わない。
図2は、画像処理装置1のハードウェア構成の一例を示すブロック図である。画像処理装置1は、制御部10と、操作パネル20と、ネットワークインタフェース23と、スキャナ部24と、プリンタ部25と、FAX部26と、外部インタフェース27と、記憶部28とを備えている。
制御部10は、操作パネル20、ネットワークインタフェース23、スキャナ部24、プリンタ部25、FAX部26、外部インタフェース27および記憶部28の各部の動作を制御すると共に、様々な画像処理を実行する処理部である。操作パネル20は、ユーザーが画像処理装置1を使用する際のユーザーインタフェースとなるものであり、各種情報を表示する表示部21と、ユーザーからの操作を受け付ける操作部22とを備えている。ネットワークインタフェース23は、画像処理装置1をネットワーク2に接続し、ネットワーク2経由でのデータの送受信を行うものである。スキャナ部24は、制御部10からの指令に基づいて動作し、原稿を読み取って画像データを生成する機構である。プリンタ部25は、制御部10から出力される印刷対象データに基づき、印刷用紙などに画像形成を行って印刷出力する機構である。FAX部26は、図示しない公衆電話網などを介してFAXデータの送受信を行う機構である。外部インタフェース27は、例えばUSB(Universal Serial Bus)メモリなどの外部メモリやその他の外部機器を接続するためのインタフェースである。記憶部28は、例えばハードディスクドライブなどで構成される不揮発性記憶手段であり、画像データやその他のデータを記憶しておくためのものである。
図2に示すように、制御部10は、CPU11と、RAM12と、ROM13とを備えている。CPU11は、ROM13に格納されているプログラム14を読み出して実行する演算処理ユニットである。RAM12は、CPU11がプログラム14を実行することに伴って発生する一次的なデータなどを記憶しておくためのものである。ROM13は、不揮発性メモリであり、上記プログラム14の他、様々なデータが予め格納されたメモリである。
プログラム14は、CPU11によって実行されることにより、制御部10を各種処理部として機能させる。特に本実施形態では、CPU11がプログラム14を実行することにより、上述した画像データ生成機能を動作させることができるように構成される。
図3は、CPU11がプログラム14を実行することによって画像データ生成機能を動作させた状態での制御部10の機能構成を示すブロック図である。図3に示すように、画像処理装置1において画像データ生成機能が作動すると、制御部10は、画像入力部31、ワード抽出部32、類語取得部33、ワード位置特定部34、レイヤー作成部35および出力画像生成部36として機能する。以下、これら各処理部において行われる処理について説明する。
画像入力部31は、処理対象として入力する画像データを取得する処理部である。この画像入力部31は、例えばスキャナ部24が原稿を読み取って得られる画像データを処理対象データとして取得する。ただし、これに限らず、ネットワークインタフェース23を介して他のコンピュータなどから処理対象となる画像データを取得するものであっても良いし、外部インタフェース27を介して外部機器から処理対象となる画像データを取得するものであっても良い。さらに画像入力部31は、FAX部26が受信するFAXデータを処理対象の画像データとして取得しても良いし、予め記憶部28に記憶されている画像データを処理対象として取得するものであっても構わない。
図4は、画像入力部31が取得する画像データDAの一例を示す図である。この画像データDAは、2ページ分の画像データDA1,DA2から成り、それら各ページの画像データDA1,DA2には文字列(テキスト)が含まれている。それらの文字列は、1文字ずつ文字コードが付与されたテキストデータであっても良いが、必ずしもテキストデータで表現されたものでなくても良い。例えば、ビットマップ画像などに含まれる文字列であっても良い。以下においては、画像入力部31が、図4に示すような画像データDAを取得した場合を例示して説明する。
ワード抽出部32は、画像入力部31によって取得された処理対象となる画像データDAに含まれる文字列から、例えば名詞や動詞などの意味のある単語を1ワードずつ抽出する処理部である。このワード抽出部32は、画像データDAがビットマップ画像などである場合、まずOCR(Optical Character Reader)などの文字認識処理を行って画像データDAに含まれる文字列を抽出し、それら文字列をテキストデータに変換する処理を行う。尚、画像データDAに含まれる文字列が予めテキストデータで表現されたものであれば、そのような文字認証処理は行う必要がない。そしてワード抽出部32は、画像データDAから抽出した全ての文字列からワードを抽出する。このワード抽出処理は、文字列に含まれる単語を抽出する公知の手法を採用して行われる。ただし、このワード抽出処理では、単なる数字や記号、それ単独では特別な意味を持たない助詞などは抽出対象から除外される。
図5は、ワード抽出部32が図4の画像データDAからワードの抽出を行った結果の一例を示す図である。ワード抽出部32が図4の画像データDAに対してワード抽出処理を行うと、図5において矩形枠で囲んだように、各ページの画像データDA1,DA2に含まれる文字列の中から抽出対象となる条件に適合したワード41が抽出される。図5では、各ページの画像データDA1,DA2から複数のワード41が抽出された場合を例示しているが、ワード抽出部32によって抽出されるワード41は1つの場合もある。尚、ワード抽出部32によってワード41が抽出されなかった場合には、以後の処理は行われず、類語を埋め込んだ画像データは生成されない。
図5のように画像データDAに含まれるワード41が抽出されると、次に類語取得部33が機能する。類語取得部33は、ワード抽出部32によって抽出された複数のワード41のそれぞれに対応する類語を取得する処理部である。この類語取得部33は、予め登録されているアドレスにアクセスし、そのアドレスに保持されている類語辞書5を参照することにより、ワード抽出部32によって抽出された各ワード41に対応する類語を全て取得する。本実施形態の場合、類語取得部33は、ネットワークインタフェース23に接続されたネットワーク2を介してサーバー装置3a,3bにアクセスし、それらサーバー装置3a,3bに登録されているシソーラス辞書5aおよびカスタマイズ辞書5bを参照することによって各ワード41に対応する類語を取得する。
図6は、シソーラス辞書5aおよびカスタマイズ辞書5bの一例を示す図である。図6(a)、(b)に示すように、シソーラス辞書5aおよびカスタマイズ辞書5bのそれぞれは、互いに類似または関連する複数のワードが1つの類語群に纏められたテーブル状のデータ構造となっている。上述したように、例えばシソーラス辞書5aには一般用語や標準用語などが各類語群に登録されており、カスタマイズ辞書5bにはユーザーによって登録された業界用語や社内用語などの任意の用語が各類語群に登録されている。尚、カスタマイズ辞書5bには、シソーラス辞書5aに登録されている用語と、ユーザーが登録した用語との類語関係が登録されていても構わない。
類語取得部33は、画像データDAから抽出された各ワード41をキーとして上記のようなシソーラス辞書5aおよびカスタマイズ辞書5bを参照することにより、各ワード41に対応する類語を抽出する。図7は、類語取得部33による類語取得の概念を示す図である。例えば、画像データDAから抽出された「複合機」というワード41に対応する類語を抽出する場合、類語取得部33は、「複合機」をキーとして、シソーラス辞書5aおよびカスタマイズ辞書5bを参照し、「複合機」が登録されている類語群を特定する。類語取得部33は、その特定した類語群に登録されている他のワードを類語として取得する。例えば、図6(a)に示したシソーラス辞書5aには、「複合機」の類語として、「MFP」と「コピア」が登録されている。一方、図6(b)に示したカスタマイズ辞書5bには、「複合機」は登録されていない。そのため、類語取得部33は、画像データDAに含まれる「複合機」をキーとして類語を取得すると、図7に示すように「MFP」と「コピア」の2つのワードを類語42として抽出する。
また類語取得部33は、類語42として取得したワードをキーとして、さらにシソーラス辞書5aおよびカスタマイズ辞書5bを参照し、類語42として取得したワードが登録されている他の類語群があるか否かを判別する。その結果、キーとなるワードが登録されている他の類語群がある場合、類語取得部33は、それら他の類語群に登録されているワードも類語42として取得する。これにより、抽出した類語にのみ対応する他のワードも全て類語42として抽出することができる。ただし、類語42として取得したワードが他の類語群に登録されていないこともある。その場合、画像データDAに含まれるワード41に対応する類語42だけが抽出されることになる。
類語取得部33は、上記のようにして画像データDAから抽出された各ワード41に対応する類語42を全て抽出し、それら抽出した類語42を各ワード41に関連付ける。これにより、画像データDAに含まれる各ワード41に対して個別に少なくとも1つの類語42が関連付けられる。
尚、画像データDAから抽出されたワード41をキーとして、シソーラス辞書5aおよびカスタマイズ辞書5bを参照しても、類語42が抽出されないこともある。類語42が抽出されなかったワード41は、これ以降の処理対象のワードからは除外されることになる。
また類語取得部33は、上記のようして画像データDAに含まれるワード41に対応する類語42を抽出した場合、その抽出した類語42が画像データDAから抽出された他のワード41に一致するか否かを判断する。その結果、抽出した類語42が他のワード41に一致する場合、類語取得部33は、その類語42が一致する他のワード41を表記揺れ43として特定する。例えば図7に示すように、「複合機」というワード41に対応する類語42として「MFP」と「コピア」というワードが抽出された場合、画像データDAから抽出された他のワード41に「MFP」又は「コピア」に一致するものがあるか否かを判断する。このとき、図5に示すように画像データDAから「MFP」というワード41が抽出されていると、この「MFP」というワード41が類語42として抽出された「MFP」に一致する。そのため、類語取得部33は、図7に示すように、「MFP」という類語42を表記揺れ43として特定する。
類語取得部33が上記のような処理を画像データDAから抽出された全てのワード41について行うと、次にワード位置特定部34が機能する。ワード位置特定部34は、類語取得部33の処理結果に基づき、画像データDAにおいて類語42が関連付けられたワード41の表示位置を特定する処理部である。このワード位置特定部34は、類語取得部33によって類語42が関連付けられたワード41を処理対象とし、そのようなワード41が画像データDAのどのような位置に配置されているかを特定する。このとき、ワード位置特定部34は、類語42が関連付けられたワード41の先頭文字の表示位置(先頭位置)を特定すると共に、ワード41を構成する全ての文字の表示領域(表示サイズ)を特定する。
そして次にレイヤー作成部35が機能する。レイヤー作成部35は、ワード41が抽出された画像データDAをオリジナルレイヤーとし、そのオリジナルレイヤーに重ね合わせる少なくとも1つの付属レイヤーを作成する。そしてレイヤー作成部35は、その作成した付属レイヤーに対し、オリジナルレイヤーの各ワード41に関連付けられた類語42を埋め込む。このとき、レイヤー作成部35は、ワード位置特定部34によって特定された各ワード41の表示位置と一致するように、付属レイヤーに対して各ワード41に対応する類語42を埋め込む。
図8は、レイヤー作成部35によって行われる付属レイヤー作成処理および類語埋め込み処理の概要を示す図である。まず図8(a)に示すように、レイヤー作成部35は、ワード41の抽出された画像データDAをオリジナルレイヤーLAに設定し、そのオリジナルレイヤーLAに重ね合わせる付属レイヤーLBを作成する。そしてレイヤー作成部35は、作成した付属レイヤーLBにおいて、オリジナルレイヤーLAに含まれるワード41と同じ位置に、そのワード41に関連付けられた類語42を埋め込む。図8(a)の例では、オリジナルレイヤーLAに含まれる「複合機」というワード41に関連付けられた「MFP」という類語42が、付属レイヤーLBにおいてワード41と同じ位置に埋め込まれる場合を示している。
また上述した例では、「複合機」というワード41に対応する類語42として、「MFP」と「コピア」との2つの類語42が抽出される場合を説明した。このように一のワード41に対応する複数の類語42が抽出された場合、レイヤー作成部35は、1枚の付属レイヤーLBに対してそのワード41に対応する全ての類語42をそのワード41と同じ位置に配置することができない。そのため、上述した例のように、一のワード41に対応する複数の類語42が抽出された場合、レイヤー作成部35は、一のワード41から抽出された類語42の数に応じて複数の付属レイヤーLBを作成する。この場合、複数の付属レイヤーLBは、階層構造を構成する。
図8(b)は、レイヤー作成部35によって2枚の付属レイヤーLB1,LB2が作成される場合を示している。「複合機」というワード41から「MFP」と「コピア」との2つの類語42が抽出された場合、レイヤー作成部35は、図8(b)に示すように2枚の付属レイヤーLB1,LB2を作成し、各付属レイヤーLB1,LB2において「複合機」というワード41と同じ位置に「MFP」と「コピア」という類語42を個別に埋め込む。このとき、複数の類語42の中に、ワード41の表記揺れ43として特定された類語42が含まれる場合、レイヤー作成部35は、表記揺れ43として特定された類語42を上位層の付属レイヤーLB1に埋め込み、表記揺れでない類語42を下位層の付属レイヤーLB2に埋め込む。図8(b)の場合、「MFP」という類語42が表記揺れ43であるため、「コピア」が埋め込まれる付属レイヤーLB2よりも上位層の付属レイヤーLB1に「MFP」が埋め込まれる。
また、ワード41に対する表記揺れ43として複数の類語42が特定された場合、レイヤー作成部35は、表記揺れ43として特定される複数の類語42のそれぞれについて画像データDA中における出現頻度を算出する。そしてレイヤー作成部35は、画像データDAにおける出現頻度が高いものから順に上位層の付属レイヤーLBへと埋め込んでいくように構成される。
さらに、レイヤー作成部35がオリジナルレイヤーLAにおけるワード41と同じ位置となるように付属レイヤーLBへ類語42を埋め込む方法としては、類語42の先頭文字の位置がワード41の先頭文字の位置と一致するように埋め込む第1の方法と、類語42の文字列の表示領域をワード41の文字列の表示領域に一致させて埋め込む第2の方法とがある。
図9は、第1および第2の埋め込み方法を説明する概念図である。図9(a),(b)は、第1の方法による類語埋め込み処理の概念を示している。例えば図9(a)に示すように、オリジナルレイヤーLAに含まれるテキストの同一行から「Y販社」および「昨年」という2つのワード41が抽出された場合、「Y販社」に対応する「Y販売株式会社」という類語42と、「昨年」に対応する「前年」という類語42とが付属レイヤーLBに埋め込まれる。この場合、第1の方法によれば、図9(a)に示すように、「Y販社」というワード41の先頭文字の位置と一致するように「Y販売株式会社」という類語42の先頭文字を配置し、付属レイヤーLBへの埋め込みを行う。ところが、「Y販売株式会社」という類語42の文字数は、「Y販社」というワード41の文字数よりも多いため、付属レイヤーLBに埋め込まれた「Y販売株式会社」という類語42は、「昨年」というワード41に対応する類語42の埋め込み位置(先頭文字の位置)を越えて配置されることになる。そのため、「昨年」というワード41に対応する「前年」という類語42は、「Y販売株式会社」という類語42が埋め込まれた付属レイヤーLBと同じレイヤーに埋め込むことができない。それ故、レイヤー作成部35は、ワード41に対応する類語42を、ワード41の先頭文字の位置に一致させて埋め込むことができないときには、図9(b)に示すように新たな付属レイヤーLB2を作成し、その新たに作成した付属レイヤーLB2に対して類語42を埋め込む。図例では、「昨年」というワード41に対応する「前年」という類語42が、「昨年」というワード41の先頭文字の位置と一致するように第2層目の付属レイヤーLB2へ埋め込まれた例を示している。
このように第1の埋め込み方法は、類語42の先頭文字の位置をワード41の先頭文字の位置に一致させて埋め込むものであるため、類語42の文字数がワード41の文字数よりも多い場合には、同じ階層の付属レイヤーLBに他の類語42を埋め込むことができない可能性がある。それ故、レイヤー作成部35は、必要に応じて新規な付属レイヤーLBを追加作成していき、オリジナルレイヤーLAにおけるワード41と同じ位置に類語42を埋め込んでいく。
図9(c)は、第2の方法による類語埋め込み処理の概念を示している。この第2の方法によれば、図9(c)に示すように、「Y販社」というワード41の表示領域と一致するように「Y販売株式会社」という類語42の表示領域の変換処理が行われ、付属レイヤーLBへの埋め込み処理が行われる。具体的に説明すると、レイヤー作成部35は、付属レイヤーLBへ埋め込む類語42の書式変換を行うことにより、類語42の表示領域(表示サイズ)を、オリジナルレイヤーLAにおけるワード41の表示領域(表示サイズ)と一致させる。この書式変換には、例えば類語42を構成する文字列のフォントサイズ変更や、縦倍率又は横倍率の変更などが含まれる。図9(c)の例では、「Y販社」というワード41の文字列長さに一致するように、「Y販売株式会社」という文字数の多い類語42の横倍率を縮小させる書式変換が行われ、類語42の表示領域をワード41の表示領域に一致させている。その結果、「Y販売株式会社」という類語42を付属レイヤーLBに埋め込むときには、「Y販社」というワード41の表示領域をはみ出さないように埋め込むことができるようになる。これにより、他の「昨年」というワード41に対応する「前年」という類語42についても、図9(c)に示すように、「Y販売株式会社」という類語42が埋め込まれた付属レイヤーLBと同じレイヤーに埋め込むことができるようになる。
尚、図9(c)では、ワード41の文字数よりも付属レイヤーLBに埋め込む類語42の文字数の方が多い場合に類語42の横倍率を縮小する例を示したが、これに限らず、例えばワード41の文字数よりも付属レイヤーLBに埋め込む類語42の文字数の方が多い場合に類語42の横倍率を縮小する例を示したが、類語42の書式変換はこれに限られない。例えばワード41の文字数よりも付属レイヤーLBに埋め込む類語42の文字数の方が少ない場合には、類語42の横倍率を拡大することにより、類語42の表示領域をワード41の表示領域に一致させるようにしても良い。
レイヤー作成部35は、付属レイヤーLBを作成して類語42の埋め込み処理を行う際には上述した2つの方法のうち、いずれの方法を採用しても良い。例えば画像処理装置1に上記2つの方法のうちのいずれか一方を予め設定しておき、レイヤー作成部35はその予め設定された一の方法を採用して類語42の埋め込み処理を行うようにしても良い。また、画像処理装置1において画像データ生成機能を動作させるとき、ユーザーに上述した2つの方法のうちのいずれか一方を選択させるようにしても良い。尚、上述した2つの方法のうち、第2の方法を採用して類語42の埋め込み処理を行うと、レイヤー作成部35によって作成される付属レイヤーLBの数をなるべく少なくすることができる。
レイヤー作成部35は、上記のような処理を、画像データDAに含まれる全てのページに対して個別に行うことにより、各ページの画像データDA1,DA2に対して付属レイヤーLBを設定し、その付属レイヤーLBに対して類語42を埋め込むことができる。図10は、図5に示した画像データDA1から抽出されたワード41に対応する類語42が埋め込まれた付属レイヤーLB1,LB2を示す図であり、図11は、図5に示した画像データDA2から抽出されたワード41に対応する類語42が埋め込まれた付属レイヤーLB1,LB2を示す図である。尚、図10および図11は、上述した第2の方法で類語42を埋め込んだ例を示している。
図10に示すように、図5の1ページ目の画像データDA1をオリジナルレイヤーLAとした場合、レイヤー作成部35は、その画像データDA1から抽出された各ワード41に対応する類語42のうち、同一ページ又は他のページで表記されている表記揺れ43を最上位層の付属レイヤーLB1に埋め込む。また表記揺れ43でない単なる類語42をそれよりも下位層の付属レイヤーLB2に埋め込む。図10において第1の付属レイヤーLB1に埋め込まれた類語42は、全て2ページ目の画像データDA2において表記されている表記揺れ43となっている。また図10において第2の付属レイヤーLB2に埋め込まれた類語42は、1ページ目又は2ページ目の画像データDA1,DA2において表記されていない単なる類語42となっている。
また図11に示すように、図5の2ページ目の画像データDA2をオリジナルレイヤーLAとした場合、レイヤー作成部35は、その画像データDA2から抽出された各ワード41に対応する類語42のうち、同一ページ又は他のページで表記されている表記揺れ43を最上位層の付属レイヤーLB1に埋め込む。また表記揺れ43でない単なる類語42をそれよりも下位層の付属レイヤーLB2に埋め込む。図11において第1の付属レイヤーLB1に埋め込まれた類語42は、全て1ページ目の画像データDA1において表記されている表記揺れ43となっている。また図11において第2の付属レイヤーLB2に埋め込まれた類語42は、1ページ目又は2ページ目の画像データDA1,DA2において表記されていない単なる類語42となっている。
上記のようにしてレイヤー作成部35による類語42の埋め込み処理が終了すると、次に出力画像生成部36が機能する。出力画像生成部36は、レイヤー作成部35によって作成される少なくとも1つの付属レイヤーLBをオリジナルレイヤーLAに重ね合わせて1つの出力画像データを生成する処理部である。すなわち、出力画像生成部36によって生成される出力画像は、オリジナルレイヤーLAと付属レイヤーLBとを含む複数レイヤーから成る画像データとなる。そして出力画像生成部36は、付属レイヤーLBをオリジナルレイヤーLAに重ね合わせて生成した画像データを出力する。この場合の画像データの出力先は、記憶部28であっても良いし、外部インタフェース27に接続された外部機器であっても良い。またネットワークインタフェース23からネットワーク2を介して他のコンピュータなどに出力するものであっても構わない。
図12は、上記のようにして出力される画像データをコンピュータなどのディスプレイ50に表示してユーザーがキーワード検索を行った結果を例示する図である。図12に示すように、例えばコンピュータなどのディスプレイ50には、画像処理装置1からの出力画像に含まれる1ページ目の画像データDB1および2ページ目の画像データDB2がスクロール可能な状態で表示される。このとき、ディスプレイ50には出力画像に含まれる複数レイヤーのうち、オリジナルレイヤーLAの画像だけがデフォルト表示され、付属レイヤーLBの画像は非表示の状態となっている。
その状態で、ユーザーがキーワード検索を指示すると、ディスプレイ50の表示画面内には、検索キーワードを入力するための検索画面51が表示される。ユーザーはこの検索画面51に対して任意のキーワードを入力して検索実行を指示することにより、その入力したキーワードに一致するワードの検索処理が行われる。例えば、「複合機」に関する用語を検索する際、ユーザーが普段から「コピア」という用語を使用して慣れ親しんでいれば、図12に示すように「コピア」という検索キーワードが入力され、検索実行が指示される。このような場合でも、コンピュータなどにおける検索エンジンは、画像データDB1,DB2のそれぞれに含まれるオリジナルレイヤーLAと付属レイヤーLBとに対して「コピア」をキーとして検索を行うと、付属レイヤーLBに埋め込まれた「コピア」という類語42がヒットする。そして検索エンジンは、オリジナルレイヤーLAの画像が表示されている状態で、ヒットした類語42の表示位置をハイライト表示させることにより、図12に示すように「コピア」の類語である「複合機」および「MFP」といったワードを検索結果として表示することができるようになる。したがって、ユーザーにとっては、自身が普段から使用しているキーワードを用いて検索を行った場合でも、そのキーワードに対応する類語を全て検索結果として得ることができるという利点がある。
また上記のようにして生成される多数の画像データをデータベースに蓄積している状態で、ユーザーがそのデータベースに蓄積された多数の画像データの中から所望の画像データを探し出して利用する場合でも、ユーザーが入力した検索キーワードに類似するワードを含む画像データを全て抽出することができるようになる。この場合、従来のように、検索用データをデータベースに登録しておく必要がないので、ユーザーが検索操作を行う環境に影響されず、ユーザーが入力した検索キーワードに類似するワードを含む画像データを全て漏れなく抽出することが可能である。
また上記のようにして生成される画像データを電子メールなどに添付して他のユーザーに送信したような場合でも、他のユーザーは、その添付された画像データを検索対象としてキーワード検索を行うと、そのキーワードに対応する類語が全て検索されるようになる。それ故、画像データ単独であっても、その画像データに含まれるテキスト検索が行い易くなるという利点がある。
尚、図12に示すような検索結果が表示されると、ユーザーにとっては、検索キーワード「コピア」にヒットした付属レイヤーLBがどのようなものであるかを確認したいこともある。そのような場合、ユーザーは、表示レイヤーをオリジナルレイヤーLAから任意の付属レイヤーLBに切り替える操作を行うことにより、各付属レイヤーLBの中身を確認することが可能である。
次に、上記のような画像処理装置1において行われる処理手順について説明する。図13乃至図16は、画像処理装置1において上述した画像データ生成機能が動作する場合の処理手順の一例を示すフローチャートである。この処理は、画像処理装置1の制御部10においてCPU11が上述したプログラム14を実行することによって行われる。
図13に示すように、この処理が開始されると、制御部10は、処理対象となる画像データDAを入力し(ステップS1)、その入力した画像データDAがテキストデータであるか否かを判別する(ステップS2)。画像データDAがテキストデータでない場合(ステップS2でNO)、制御部10は、文字認識処理を行って画像データDAに含まれる文字列をテキストデータに変換する(ステップS3)。そして制御部10は、ワード抽出処理を実行し(ステップS4)、図5に示したように画像データDAに含まれているワード41を全て抽出する。
次に制御部10は、類語取得処理を実行する(ステップS5)。図14は、この類語取得処理(ステップS5)の詳細な処理手順の一例を示すフローチャートである。制御部10は、この処理を開始すると、ワード抽出処理(ステップS4)で抽出された一のワード41を選択し(ステップS10)、予め設定されたシソーラス辞書5aおよびカスタマイズ辞書5bなどの類語辞書5を参照することにより選択した一のワード41に対応する類語42を全て取得する(ステップS11)。このとき、選択した一のワード41に対応する類語42を取得することができなかった場合には、ステップS12,S13,S14の処理をスキップする。これに対し、類語42を取得することができた場合にはステップS12へと進む。
そして制御部10は、取得した類語42が画像データDAに含まれる他のワード41と一致するか否かを判断し(ステップS12)、他のワード41に一致する類語42があれば、その類語42を表記揺れ43として検知する(ステップS13)。続いて制御部10は、ステップS10で選択した一のワード41と取得した類語42とを相互に関連付けて一時的に記憶する(ステップS14)。制御部10は、上記のような処理をステップS4で抽出した全てのワード41について行ったか否かを判断し(ステップS15)、未だ選択していないワード41があれば、ステップS10に戻って上述した処理を繰り返す。一方、全てのワード41について上述した処理が完了していれば、類語取得処理(ステップS5)を終了する。
図13に戻り、次に制御部10は、ワード位置特定処理を行う(ステップS6)。このワード位置特定処理(ステップS6)では、類語42が関連付けられたワード41の画像データDAにおける表示位置が全て特定される。
そして制御部10は、レイヤー作成処理を実行する(ステップS7)。図15は、このレイヤー作成処理(ステップS7)の詳細な処理手順の一例を示すフローチャートである。制御部10は、この処理を開始すると、表記揺れ43として検知された類語42があるか否かを判断する(ステップS20)。表記揺れ43の検知がある場合(ステップS20でYES)、制御部10は、表記揺れ用となる上位層の付属レイヤーLB1を作成する(ステップS21)。次に制御部10は、表記揺れ43でない類語42があるか否かを判断する(ステップS22)。表記揺れ43でない類語42がある場合(ステップS22でYES)、制御部10は、類語用となる下位層の付属レイヤーLB2を作成する(ステップS23)。
次に制御部10は、類語42が関連付けられた一のワード41を選択し(ステップS24)、その選択したワード41に関連付けられている一の類語42を選択する(ステップS25)。制御部10は、その選択した類語42が表記揺れ43であるか否かを判断する(ステップS26)。その結果、表記揺れ43である場合(ステップS26でYES)、制御部10は、表記揺れ用の付属レイヤーLB1に対する類語埋め込み処理を実行する(ステップS27)。これに対し、表記揺れ43でなかった場合(ステップS26でNO)、制御部10は、類語用の付属レイヤーLB2に対する類語埋め込み処理を実行する(ステップS28)。
図16は、それらの類語埋め込み処理(ステップS27,S28)の詳細な処理手順の一例を示すフローチャートである。制御部10は、この処理を開始すると、既存の付属レイヤーに対してワード41と同じ位置へ類語42を埋め込み可能な否かを判断する(ステップS40)。その結果、ワード41と同じ位置への類語42の埋め込みができない場合(ステップS41)、制御部10は、新規な付属レイヤーLBを作成する。ここでは表記揺れ用の付属レイヤーに対する類語埋め込み処理である場合には、表記揺れ用の新規な付属レイヤーを作成する。また類語用の付属レイヤーに対する類語埋め込み処理である場合には、表記揺れ用の新規な付属レイヤーを作成する。そして制御部10は、既存の付属レイヤー又は新規に作成した付属レイヤーに対し、ワード41と同じ位置へ類語42を埋め込む処理を行う(ステップS42)。そして図15のフローチャートに戻る。
制御部10は、表記揺れ用の付属レイヤーLB1に対する類語埋め込み処理を実行した場合(ステップS27)、次に表記揺れ用の付属レイヤーが複数存在するか否かを判断する(ステップS29)。その結果、複数の付属レイヤーが存在する場合(ステップS29でYES)、制御部10は、各付属レイヤーに表記揺れ43として埋め込まれた類語42の画像データDAにおける出現頻度を判別する(ステップS30)。そして制御部10は、その出現頻度に応じて埋め込みレイヤーの入れ替えを行う(ステップS31)。これにより、表記揺れ43として埋め込まれた類語42は、画像データDAにおいて出現頻度が高いものから順に上位層の付属レイヤーへと差し替えられる。
次に制御部10は、同一のワード41に関連付けられた別の類語42があるか否かを判断し(ステップS32)、別の類語42がある場合には(ステップS32でYES)、ステップS25に戻って上述した処理を繰り返す。一方、同一のワード41に関連付けられた別の類語42がない場合(ステップS32)、制御部10は、類語42が関連付けられた全てのワード41について上述した処理が完了したか否かを判断する(ステップS33)。そして未処理のワード41がある場合(ステップS33でNO)、制御部10は、ステップS24に戻って上述した処理を繰り返す。また、未処理のワード41がなくなれば(ステップS33でYES)、レイヤー作成処理(ステップS7)を終了する。
再び図13に戻り、次に制御部10は、入力した画像データDAをオリジナルレイヤーLAとし、そのオリジナルレイヤーLAにレイヤー作成処理(ステップS7)で作成された付属レイヤーLBを重ね合わせて出力画像となる画像データを生成する処理を行う(ステップS8)。そして制御部10は、その生成した画像データを予めユーザーによって指定された出力先に出力し、全ての処理を終了する(ステップS9)。
画像処理装置1は、上記のような一連の処理を実行することにより、入力した画像データDAで構成されるオリジナルレイヤーLAと、そのオリジナルレイヤーLAに含まれる各ワード41に対応する類語42を埋め込んだ付属レイヤーLBとを含む複数レイヤーの画像データを生成することができる。そのようにして得られる画像データは、上述したようにユーザーにとってテキスト検索が行い易いデータであり、且つ、検索漏れが生じ難い画像データとなる。
以上のように本実施形態の画像処理装置1は、入力する画像データDAに含まれるテキストからワード41を抽出するワード抽出部32と、そのワード41に対応する類語42を取得し、その類語42をワード41に関連付ける類語取得部33と、画像データDAにおいて類語42が関連付けられたワード41の表示位置を特定するワード位置特定部34と、ワード41が含まれる画像データDAをオリジナルレイヤーLAとし、そのオリジナルレイヤーLAに重ね合わせる付属レイヤーLBを作成し、その付属レイヤーLBにおけるワード位置特定部34が特定した表示位置に、ワード41に関連付けられた類語42を埋め込むレイヤー作成部35と、ワード41が含まれるオリジナルレイヤーLAと、類語42が埋め込まれた付属レイヤーLBとを含む出力画像データを生成する出力画像生成部36と、を備える構成である。
このような構成によって生成される出力画像データは、画像データDAに含まれているワード41に対応する類語42が付属レイヤーLBに埋め込まれた画像データとなり、しかも付属レイヤーLBに埋め込まれる類語42は、オリジナルレイヤーLAにおけるワード41の表示位置と同じ位置に埋め込まれる。したがって、この出力画像データを検索対象とすれば、オリジナルレイヤーLAに含まれていないキーワードでテキスト検索を行った場合でも、付属レイヤーLBに埋め込まれた類語42がその検索にヒットし、そのキーワードに類似又は関連するワード41がオリジナルレイヤーLAのどこに含まれているかを検索結果として表示することができるようになる。それ故、本実施形態の画像処理装置1は、テキスト検索が行われる環境に影響されず、ユーザーがキーワードを入力して検索を行ったときにはそのキーワードに類似するワード41を含む検索結果を得ることが可能な画像データを生成することができるものである。
また本実施形態の画像処理装置1は、類語取得部33によって一のワード41に対応する複数の類語42が取得された場合、レイヤー作成部35が複数の付属レイヤーLB1,LB2を作成し、一のワード41に関連付けられた複数の類語42のそれぞれを異なる付属レイヤーLB1,LB2に埋め込む構成である。そのため、一のワード41に対応する複数の類語42のそれぞれを、各付属レイヤーLB1,LB2においてワード41の表示位置と同じ位置に埋め込むことができるようになる。
また本実施形態の画像処理装置1は、類語取得部33が一のワード41に対応する類語42を取得することに伴い、その類語42が画像データDAから抽出された他のワード41に一致するか否かを判別し、一致する場合にはそれら一のワード41と他のワード41とが互いに表記揺れ43の関係にあることを特定する。そしてレイヤー作成部35は、付属レイヤーLBに類語42を埋め込む際、一のワード41に対応する表示位置に他のワード41を埋め込み、他のワード41に対応する表示位置に一のワード41を埋め込むことができる構成である。したがって、この出力画像データを検索対象としてテキスト検索を行えば、キーワードに類似する類語だけでなく、画像データDAにおいて同一内容が異なる表記で現された表記揺れ43をも検知することが可能となる。
また本実施形態の画像処理装置1は、類語取得部33よって一のワード41の表記揺れ43として特定される他のワード41が複数ある場合、レイヤー作成部35が階層構造を有する複数の付属レイヤーLB1,LB2を作成し、一のワード41の表記揺れ43として特定された複数の他のワード41のそれぞれを異なる付属レイヤーLB1,LB2に埋め込む構成である。そのため、一のワード41の表記揺れ43として特定される複数の他のワード41のそれぞれを、各付属レイヤーLB1,LB2において当該一のワード41の表示位置と同じ位置に埋め込むことができるようになる。
また本実施形態の画像処理装置1は、レイヤー作成部35が一のワード41の表記揺れ43として特定される複数の他のワード41のそれぞれを複数の付属レイヤーLB1,LB2のうちの異なる付属レイヤーに埋め込む際、複数の他のワード41のうち、画像データDAにおいて出現頻度の高いものから順に、上位階層の付属レイヤーLB1に埋め込む構成である。したがって、ユーザーが出力画像データをコンピュータなどに表示している状態で表示レイヤーの切り替え操作を行うと、元の画像データDAにおいて出現頻度の高い表記揺れ43が優先的に表示されるようになる。そのため、ユーザーは、画像データDAにおける表記揺れ43を効率的に確認することができる。言い換えると、本実施形態の画像処理装置1は、画像データDAにおいて表記揺れ43が発生していれば、それをユーザーに効果的に把握させて修正を促すこともできるため、ユーザーによる文書の編集作成作業を支援することも可能である。
また本実施形態の画像処理装置1は、レイヤー作成部35がワード41に関連付けられた類語42を付属レイヤーLBに埋め込む際、類語42の先頭位置をオリジナルレイヤーLAにおけるワード41の先頭位置に一致させるように配置し、ワード41の先頭位置に別の類語42が配置された状態である場合には更に別の付属レイヤーLBを作成し、その別の付属レイヤーLBにおいてワード41の先頭位置に一致させるように配置する構成である。このような構成によれば、一のワード41に対応する複数の類語42が取得された場合であっても、各類語42の先頭位置をオリジナルレイヤーLAにおけるワード41の先頭位置に一致させて付属レイヤーLBに埋め込むことができるようになる。
また本実施形態の画像処理装置1は、レイヤー作成部35がワード41に関連付けられた類語42を付属レイヤーLBに埋め込む際、類語42の表示領域がオリジナルレイヤーLAにおけるワード41の表示領域と一致するように、類語42の書式変換を行って付属レイヤーLBに埋め込む構成である。このような構成によれば、出力画像データを検索対象とするテキスト検索によって付属レイヤーLBに埋め込まれた類語42がヒットした場合、オリジナルレイヤーLAにおけるワード41の表示領域に一致する範囲をヒット範囲として表示することができるようになる。それ故、オリジナルレイヤーLAにおけるワード41の一部がヒット範囲として表示されなかったり、或いは、オリジナルレイヤーLAにおけるワード41に隣接した他の文字がヒット範囲として表示されてしまったりすることを防止でき、ユーザーに対し、検索キーワードに対応してヒットしたワード41の範囲を正確に報知することが可能である。
(第2の実施の形態)
次に第2の実施の形態について説明する。上述した第1の実施の形態では、画像データDAに含まれるワード41に対応する類語42が取得されると、表記揺れ43となる類語42を判別し、表記揺れ43となる類語42と、単なる類語42とを区別して付属レイヤーLBに埋め込む形態を例示した。本実施形態では、表記揺れ43と、単なる類語42という区別ではなく、ワード41に対応して取得された類語42の種類を判別し、その類語の種類ごとに、付属レイヤーLBに対する類語42の埋め込み処理を行う形態について説明する。尚、本実施形態においても画像処理装置1におけるハードウェア構成および機能構成は、第1の実施の形態で説明したものと同様である。
図17は、本実施形態における画像処理装置1において画像データ生成機能が動作する場合の処理手順の一例を示すフローチャートである。この処理は、第1の実施の形態と同様、画像処理装置1の制御部10においてCPU11が上述したプログラム14を実行することによって行われる。
図17に示すように、この処理が開始されると、制御部10は、処理対象となる画像データDAを入力し(ステップS50)、その入力した画像データDAがテキストデータであるか否かを判別する(ステップS51)。画像データDAがテキストデータでない場合(ステップS51でNO)、制御部10は、文字認識処理を行って画像データDAに含まれる文字列をテキストデータに変換する(ステップS52)。そして制御部10は、ワード抽出処理を実行し(ステップS53)、図5に示した如く、画像データDAに含まれているワード41を全て抽出する。
次に制御部10は、類語取得処理を実行する(ステップS54)。この類語取得処理(ステップS54)の詳細は、図14に示した処理と同様である。類語取得処理(ステップS54)が終了すると、次に制御部10は、ワード位置特定処理を行い、類語42が関連付けられたワード41の画像データDAにおける表示位置を全て特定する(ステップS55)。
そして制御部10は、類語取得処理(ステップS54)で取得された類語42の種類を判別する(ステップS56)。類語42の種類とは、例えば言語の種類である。またこの他、一般用語、社内用語、業界用語および学術専門用語を区別した用語の種類であっても良いし、さらに別の種類であっても構わない。本実施形態では、例えばシソーラス辞書5aやカスタマイズ辞書5bなどの類語辞書5に登録された各用語に、予めその用語の種類が登録されており、制御部10は類語辞書5に登録された用語の種類を参照することによって各類語42の種類を判別する。ただし、これに限られるものではなく、類語取得処理(ステップS54)で取得された類語42が登録されている類語辞書5ごとに、類語42の種類を判別するものであっても良い。
上記のようにして類語42の種類を判別すると、制御部10は、類語42の種類別に付属レイヤーLBを作成する(ステップS57)。そして制御部10は、類語取得処理(ステップS54)で取得された各類語42を、その種類に対応する付属レイヤーLBへ埋め込む(ステップS58)。このとき制御部10は、第1の実施の形態と同様、オリジナルレイヤーLAにおけるワード41の表示位置と一致するように、各類語42をその種類に対応する付属レイヤーLBへ埋め込む。また制御部10は、類語42の埋め込み処理を行うとき、第1の実施の形態と同様、必要に応じて新規な付属レイヤーLBを追加作成してオリジナルレイヤーLAにおけるワード41の表示位置と一致するように類語42の埋め込み処理を行う。制御部10は、上記のような処理を、全ての類語42の埋め込みが完了するまで行う(ステップS59)。
そして制御部10は、処理対象として入力した画像データDAをオリジナルレイヤーLAとし、そのオリジナルレイヤーLAに、類語42の種類ごとに作成された付属レイヤーLBを重ね合わせて出力画像となる画像データを生成する処理を行い(ステップS60)、その生成した画像データを予めユーザーによって指定された出力先に出力し、全ての処理を終了する(ステップS61)。
本実施形態の画像処理装置1は、上記のような一連の処理を実行することにより、第1の実施の形態と同様、入力した画像データDAで構成されるオリジナルレイヤーLAと、そのオリジナルレイヤーLAに含まれる各ワード41に対応する類語42を埋め込んだ付属レイヤーLBとを含む複数レイヤーの画像データを生成することができる。特に本実施形態では、オリジナルレイヤーLAに重ね合わせられる各付属レイヤーLBに同じ種類の類語42が纏められた画像データを生成することができるようになる。
図18は、本実施形態の画像処理装置1によって生成される画像データの一例を示す図である。図18(a)に示す画像データは、オリジナルレイヤーLAに日本語のワード41が含まれており、第1の付属レイヤーLB1にはその日本語のワード41に対応する第1外国語(例えば英語)での類語42が埋め込まれており、第2の付属レイヤーLB2にはその日本語のワード41に対応する第2外国語(例えば中国語)での類語42が埋め込まれており、第3の付属レイヤーLB3にはその日本語のワード41に対応する第2外国語(例えばハングル語)での類語42が埋め込まれたレイヤー構造となっている。このような画像データによれば、ユーザーが日本語でのキーワード検索を行った場合、そのキーワードに対応する他言語での類語表現を把握することができるようになる。また、日本語に精通していないユーザーが例えば英語などの母国語でキーワード検索を行った場合でも、そのキーワードに対応する日本語のワード41の表示位置を特定することもできるようになる。
また図18(b)に示す画像データは、オリジナルレイヤーLAに学術専門用語でのワード41が含まれており、第1の付属レイヤーLB1にはそのワード41に対応する社内用語での類語42が埋め込まれており、第2の付属レイヤーLB2にはそのワード41に対応する業界用語での類語42が埋め込まれており、第3の付属レイヤーLB3にはそのワード41に対応する一般用語での類語42が埋め込まれたレイヤー構造となっている。このような画像データによれば、学術専門用語に詳しくないユーザーが社内用語や業界用語、一般用語でキーワード検索を行った場合でもそのキーワードに対応する学術専門用語のワード41の表示位置をヒットさせることができるようになる。
以上のように本実施形態の画像処理装置1は、第1の実施の形態と同様の構成において類語取得部33がワード41に対応する類語42を取得することに伴って当該類語42の種類を判別するように構成される。そしてレイヤー作成部35は、類語取得部33によって判別される類語42の種類ごとに付属レイヤーLBを作成し、ワード41に関連付けられた類語42を、その類語42の種類に対応する付属レイヤーLBに埋め込む構成である。このようにして生成される画像データは、上述したように入力した画像データDAに含まれるワード41に基づいて取得される類語42が同じ種類ごとに纏められた状態で付属レイヤーLBに埋め込まれるため、ユーザーにとってはテキスト検索を行って検索結果が表示されたとき、表示レイヤーを切り替えることによって類語42の種類を把握することができるという利点がある。
尚、本実施形態においても、第1の実施の形態と同様に、画像処理装置1が表記揺れ43を検出し、その表記揺れ43を単なる類語42とは区別して別の付属レイヤーLBに埋め込むようにすることも可能である。
(変形例)
以上、本発明に関する一実施形態について説明したが、本発明は上述した内容のものに限られるものではなく、種々の変形例が適用可能である。
例えば、上記実施形態においては、画像処理装置1が複数の機能を搭載したMFPなどで構成される場合を例示したが、これに限られるものではない。例えば、上述したプログラム14を一般的なパーソナルコンピュータ(PC)などにインストールしておき、そのコンピュータにおいてプログラム14を起動することによって上述した画像データ生成機能を動作させるものであっても構わない。この場合、プログラム14は、インターネットなどのネットワークを介してコンピュータにインストールされるものであっても構わないし、またCD−ROMなどのコンピュータ読み取り可能な記録媒体に記録された状態からコンピュータにインストールされるものであっても構わない。さらにプログラム14が一般的なコンピュータにインストールされるときには、上述したシソーラス辞書5aなどを含む類語辞書5がプログラム14と共にコンピュータにインストールされるようにしても良い。
1 画像処理装置
31 画像入力部(入力手段)
32 ワード抽出部(ワード抽出手段)
33 類語取得部(類語取得手段)
34 ワード位置特定部(位置特定手段)
35 レイヤー作成部(レイヤー作成手段)
36 出力画像生成部(出力画像生成手段)
41 ワード
42 類語
43 表記揺れ(類語)
LA オリジナルレイヤー
LB 付属レイヤー

Claims (24)

  1. 画像データを入力する入力手段と、
    前記画像データに含まれるテキストからワードを抽出するワード抽出手段と、
    前記ワードに対応する類語を取得し、当該類語を前記ワードに関連付ける類語取得手段と、
    前記画像データにおいて前記類語が関連付けられた前記ワードの表示位置を特定する位置特定手段と、
    前記ワードが含まれる前記画像データをオリジナルレイヤーとして該オリジナルレイヤーに重ね合わせる付属レイヤーを作成し、当該付属レイヤーにおける前記位置特定手段で特定された表示位置に、前記ワードに関連付けられた前記類語を埋め込むレイヤー作成手段と、
    前記ワードが含まれるオリジナルレイヤーと、前記類語が埋め込まれた付属レイヤーとを含む出力画像データを生成する出力画像生成手段と、
    を備えることを特徴とする画像処理装置。
  2. 前記レイヤー作成手段は、前記類語取得手段によって一のワードに対応する複数の類語が取得された場合、複数の付属レイヤーを作成し、前記一のワードに関連付けられた複数の類語のそれぞれを異なる付属レイヤーにおける前記位置特定手段で特定された表示位置に埋め込むことを特徴とする請求項1に記載の画像処理装置。
  3. 前記類語取得手段は、一のワードに対応する類語が前記画像データから抽出された他のワードに一致する場合、前記一のワードと前記他のワードとを表記揺れとして特定し、
    前記レイヤー作成手段は、前記付属レイヤーにおいて、前記一のワードについて前記位置特定手段で特定された表示位置に前記他のワードを埋め込み、前記他のワードについて前記位置特定手段で特定された表示位置に前記一のワードを埋め込むことを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記レイヤー作成手段は、前記類語取得手段によって一のワードの表記揺れとして特定される他のワードが複数ある場合には階層構造を有する複数の付属レイヤーを作成し、前記一のワードの表記揺れとして特定された前記複数の他のワードのそれぞれを異なる付属レイヤーにおいて前記一のワードについて前記位置特定手段で特定された表示位置に埋め込むことを特徴とする請求項3に記載の画像処理装置。
  5. 前記レイヤー作成手段は、前記一のワードの表記揺れとして特定される前記複数の他のワードのそれぞれを前記複数の付属レイヤーのうちの異なる付属レイヤーに埋め込む際、前記複数の他のワードのうち、前記画像データにおいて出現頻度の高いものから順に、上位階層の付属レイヤーに埋め込むことを特徴とする請求項4に記載の画像処理装置。
  6. 前記レイヤー作成手段は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の先頭位置を前記オリジナルレイヤーにおける前記ワードの先頭位置に一致させるように配置し、前記ワードの先頭位置に別の類語が配置された状態である場合には更に別の付属レイヤーを作成し、当該別の付属レイヤーにおいて前記ワードの先頭位置に一致させるように配置することを特徴とする請求項1乃至5のいずれかに記載の画像処理装置。
  7. 前記レイヤー作成手段は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の表示領域が前記オリジナルレイヤーにおける前記ワードの表示領域と一致するように前記類語の書式変換を行って前記付属レイヤーに埋め込むことを特徴とする請求項1乃至5のいずれかに記載の画像処理装置。
  8. 前記類語取得手段は、前記ワードに対応する類語を取得することに伴って当該類語の種類を判別し、
    前記レイヤー作成手段は、前記類語取得手段によって判別される類語の種類ごとに付属レイヤーを作成し、前記ワードに関連付けられた前記類語を、その類語の種類に対応する付属レイヤーに埋め込むことを特徴とする請求項1乃至7のいずれかに記載の画像処理装置。
  9. 画像データを入力する入力工程と、
    前記画像データに含まれるテキストからワードを抽出するワード抽出工程と、
    前記ワードに対応する類語を取得し、当該類語を前記ワードに関連付ける類語取得工程と、
    前記画像データにおいて前記類語が関連付けられた前記ワードの表示位置を特定する位置特定工程と、
    前記ワードが含まれる前記画像データをオリジナルレイヤーとして該オリジナルレイヤーに重ね合わせる付属レイヤーを作成し、当該付属レイヤーにおける前記位置特定工程で特定された表示位置に、前記ワードに関連付けられた前記類語を埋め込むレイヤー作成工程と、
    前記ワードが含まれるオリジナルレイヤーと、前記類語が埋め込まれた付属レイヤーとを含む出力画像データを生成する出力画像生成工程と、
    を含むことを特徴とする画像処理方法。
  10. 前記レイヤー作成工程は、前記類語取得工程において一のワードに対応する複数の類語が取得された場合、複数の付属レイヤーを作成し、前記一のワードに関連付けられた複数の類語のそれぞれを異なる付属レイヤーにおける前記位置特定工程で特定された表示位置に埋め込むことを特徴とする請求項9に記載の画像処理方法。
  11. 前記類語取得工程は、一のワードに対応する類語が前記画像データから抽出された他のワードに一致する場合、前記一のワードと前記他のワードとを表記揺れとして特定し、
    前記レイヤー作成工程は、前記付属レイヤーにおいて、前記一のワードについて前記位置特定工程で特定された表示位置に前記他のワードを埋め込み、前記他のワードについて前記位置特定工程で特定された表示位置に前記一のワードを埋め込むことを特徴とする請求項9又は10に記載の画像処理方法。
  12. 前記レイヤー作成工程は、前記類語取得工程によって一のワードの表記揺れとして特定される他のワードが複数ある場合には階層構造を有する複数の付属レイヤーを作成し、前記一のワードの表記揺れとして特定された前記複数の他のワードのそれぞれを異なる付属レイヤーにおいて前記一のワードについて前記位置特定工程で特定された表示位置に埋め込むことを特徴とする請求項11に記載の画像処理方法。
  13. 前記レイヤー作成工程は、前記一のワードの表記揺れとして特定される前記複数の他のワードのそれぞれを前記複数の付属レイヤーのうちの異なる付属レイヤーに埋め込む際、前記複数の他のワードのうち、前記画像データにおいて出現頻度の高いものから順に、上位階層の付属レイヤーに埋め込むことを特徴とする請求項12に記載の画像処理方法。
  14. 前記レイヤー作成工程は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の先頭位置を前記オリジナルレイヤーにおける前記ワードの先頭位置に一致させるように配置し、前記ワードの先頭位置に別の類語が配置された状態である場合には更に別の付属レイヤーを作成し、当該別の付属レイヤーにおいて前記ワードの先頭位置に一致させるように配置することを特徴とする請求項9乃至13のいずれかに記載の画像処理方法。
  15. 前記レイヤー作成工程は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の表示領域が前記オリジナルレイヤーにおける前記ワードの表示領域と一致するように前記類語の書式変換を行って前記付属レイヤーに埋め込むことを特徴とする請求項9乃至13のいずれかに記載の画像処理方法。
  16. 前記類語取得工程は、前記ワードに対応する類語を取得することに伴って当該類語の種類を判別し、
    前記レイヤー作成工程は、前記類語取得工程によって判別される類語の種類ごとに付属レイヤーを作成し、前記ワードに関連付けられた前記類語を、その類語の種類に対応する付属レイヤーに埋め込むことを特徴とする請求項9乃至15のいずれかに記載の画像処理方法。
  17. コンピュータを、
    画像データを入力する入力手段、
    前記画像データに含まれるテキストからワードを抽出するワード抽出手段、
    前記ワードに対応する類語を取得し、当該類語を前記ワードに関連付ける類語取得手段、
    前記画像データにおいて前記類語が関連付けられた前記ワードの表示位置を特定する位置特定手段、
    前記ワードが含まれる前記画像データをオリジナルレイヤーとして該オリジナルレイヤーに重ね合わせる付属レイヤーを作成し、当該付属レイヤーにおける前記位置特定手段で特定された表示位置に、前記ワードに関連付けられた前記類語を埋め込むレイヤー作成手段、および、
    前記ワードが含まれるオリジナルレイヤーと、前記類語が埋め込まれた付属レイヤーとを含む出力画像データを生成する出力画像生成手段、
    として機能させることを特徴とするプログラム。
  18. 前記レイヤー作成手段は、前記類語取得手段によって一のワードに対応する複数の類語が取得された場合、複数の付属レイヤーを作成し、前記一のワードに関連付けられた複数の類語のそれぞれを異なる付属レイヤーにおける前記位置特定手段で特定された表示位置に埋め込むことを特徴とする請求項17に記載のプログラム。
  19. 前記類語取得手段は、一のワードに対応する類語が前記画像データから抽出された他のワードに一致する場合、前記一のワードと前記他のワードとを表記揺れとして特定し、
    前記レイヤー作成手段は、前記付属レイヤーにおいて、前記一のワードについて前記位置特定手段で特定された表示位置に前記他のワードを埋め込み、前記他のワードについて前記位置特定手段で特定された表示位置に前記一のワードを埋め込むことを特徴とする請求項17又は18に記載のプログラム。
  20. 前記レイヤー作成手段は、前記類語取得手段によって一のワードの表記揺れとして特定される他のワードが複数ある場合には階層構造を有する複数の付属レイヤーを作成し、前記一のワードの表記揺れとして特定された前記複数の他のワードのそれぞれを異なる付属レイヤーにおいて前記一のワードについて前記位置特定手段で特定された表示位置に埋め込むことを特徴とする請求項19に記載のプログラム。
  21. 前記レイヤー作成手段は、前記一のワードの表記揺れとして特定される前記複数の他のワードのそれぞれを前記複数の付属レイヤーのうちの異なる付属レイヤーに埋め込む際、前記複数の他のワードのうち、前記画像データにおいて出現頻度の高いものから順に、上位階層の付属レイヤーに埋め込むことを特徴とする請求項20に記載のプログラム。
  22. 前記レイヤー作成手段は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の先頭位置を前記オリジナルレイヤーにおける前記ワードの先頭位置に一致させるように配置し、前記ワードの先頭位置に別の類語が配置された状態である場合には更に別の付属レイヤーを作成し、当該別の付属レイヤーにおいて前記ワードの先頭位置に一致させるように配置することを特徴とする請求項17乃至21のいずれかに記載のプログラム。
  23. 前記レイヤー作成手段は、前記ワードに関連付けられた前記類語を前記付属レイヤーに埋め込む際、前記類語の表示領域が前記オリジナルレイヤーにおける前記ワードの表示領域と一致するように前記類語の書式変換を行って前記付属レイヤーに埋め込むことを特徴とする請求項17乃至21のいずれかに記載のプログラム。
  24. 前記類語取得手段は、前記ワードに対応する類語を取得することに伴って当該類語の種類を判別し、
    前記レイヤー作成手段は、前記類語取得手段によって判別される類語の種類ごとに付属レイヤーを作成し、前記ワードに関連付けられた前記類語を、その類語の種類に対応する付属レイヤーに埋め込むことを特徴とする請求項17乃至23のいずれかに記載のプログラム。
JP2012136525A 2012-06-18 2012-06-18 画像処理装置、画像処理方法およびプログラム Active JP5708569B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012136525A JP5708569B2 (ja) 2012-06-18 2012-06-18 画像処理装置、画像処理方法およびプログラム
US13/916,794 US9881001B2 (en) 2012-06-18 2013-06-13 Image processing device, image processing method and non-transitory computer readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012136525A JP5708569B2 (ja) 2012-06-18 2012-06-18 画像処理装置、画像処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014002493A true JP2014002493A (ja) 2014-01-09
JP5708569B2 JP5708569B2 (ja) 2015-04-30

Family

ID=49756688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012136525A Active JP5708569B2 (ja) 2012-06-18 2012-06-18 画像処理装置、画像処理方法およびプログラム

Country Status (2)

Country Link
US (1) US9881001B2 (ja)
JP (1) JP5708569B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133604A (ja) * 2018-02-02 2019-08-08 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JPWO2020188924A1 (ja) * 2019-03-20 2020-09-24

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI550420B (zh) * 2015-02-12 2016-09-21 國立雲林科技大學 資訊取得系統與方法、以及儲存裝置
US9898458B2 (en) * 2015-05-08 2018-02-20 International Business Machines Corporation Generating distributed word embeddings using structured information
US10146979B2 (en) * 2015-06-03 2018-12-04 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Processing visual cues to improve device understanding of user input
JP7059727B2 (ja) 2018-03-19 2022-04-26 株式会社リコー 電子機器、検索方法、および、プログラム
EP4367649A1 (en) * 2021-07-09 2024-05-15 Ancestry.com Operations Inc. Handwriting recognition pipelines for genealogical records

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010287178A (ja) * 2009-06-15 2010-12-24 Sharp Corp 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981566A (ja) * 1995-09-08 1997-03-28 Toshiba Corp 翻訳装置及び翻訳方法
JPH10307839A (ja) 1997-05-09 1998-11-17 Canon Inc テキスト検索装置及び方法
IL121457A (en) * 1997-08-03 2004-06-01 Guru Internat Inc Computerized dictionary and thesaurus applications
JP3666005B2 (ja) * 1998-03-03 2005-06-29 マツダ株式会社 特許情報検索システム、特許情報検索装置、情報検索中継装置並びに特許情報検索方法
JP2004086307A (ja) 2002-08-23 2004-03-18 Canon Inc 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JP2007233913A (ja) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US20100259560A1 (en) * 2006-07-31 2010-10-14 Gabriel Jakobson Enhancing privacy by affecting the screen of a computing device
US7925498B1 (en) * 2006-12-29 2011-04-12 Google Inc. Identifying a synonym with N-gram agreement for a query phrase
KR101292632B1 (ko) * 2009-03-23 2013-08-02 후지쯔 가부시끼가이샤 콘텐츠 추장 방법, 추장 정보 작성 방법, 콘텐츠 추장 프로그램을 기록한 컴퓨터 판독 가능한 매체, 콘텐츠 추장 서버 및 콘텐츠 제공 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010287178A (ja) * 2009-06-15 2010-12-24 Sharp Corp 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133604A (ja) * 2018-02-02 2019-08-08 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7069766B2 (ja) 2018-02-02 2022-05-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JPWO2020188924A1 (ja) * 2019-03-20 2020-09-24
WO2020188924A1 (ja) * 2019-03-20 2020-09-24 日本電気株式会社 情報処理装置、検索方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
JP7238963B2 (ja) 2019-03-20 2023-03-14 日本電気株式会社 情報処理装置、検索方法、及びプログラム

Also Published As

Publication number Publication date
JP5708569B2 (ja) 2015-04-30
US9881001B2 (en) 2018-01-30
US20130339002A1 (en) 2013-12-19

Similar Documents

Publication Publication Date Title
JP5708569B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP4455357B2 (ja) 情報処理装置及び情報処理方法
JP5311873B2 (ja) ドキュメント生成装置、ドキュメント生成方法及びプログラム
JP5774597B2 (ja) 動的変動ネットワークを使用するシステムおよび方法
US20060217958A1 (en) Electronic device and recording medium
US20060285748A1 (en) Document processing device
JP2009193356A (ja) 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US8854635B2 (en) Document processing device, method, and recording medium for creating and correcting formats for extracting characters strings
JP2006343870A (ja) 文書検索装置及び方法と記憶媒体
JP5430312B2 (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP7268389B2 (ja) 情報処理装置及びプログラム
JP5353325B2 (ja) 文書データ生成装置と文書データ生成方法
JP4797507B2 (ja) 翻訳装置、翻訳システムおよびプログラム
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
WO1997004409A1 (fr) Dispositif de recherche de fichiers
JP7172343B2 (ja) 文書検索用プログラム
JP2007052613A (ja) 翻訳装置、翻訳システムおよび翻訳方法
JP2007011683A (ja) 文書管理支援装置
JP7271987B2 (ja) 情報処理装置及びプログラム
JP2007336008A (ja) 画像検索装置および方法
JP2006276904A (ja) ファックス装置
JP4710417B2 (ja) 情報処理装置
JP2013016059A (ja) 画像形成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140418

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150216

R150 Certificate of patent or registration of utility model

Ref document number: 5708569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150