JP2002056025A - 画像付きテキストサーチ方法 - Google Patents

画像付きテキストサーチ方法

Info

Publication number
JP2002056025A
JP2002056025A JP2000245518A JP2000245518A JP2002056025A JP 2002056025 A JP2002056025 A JP 2002056025A JP 2000245518 A JP2000245518 A JP 2000245518A JP 2000245518 A JP2000245518 A JP 2000245518A JP 2002056025 A JP2002056025 A JP 2002056025A
Authority
JP
Japan
Prior art keywords
image
text
file
keyword
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000245518A
Other languages
English (en)
Inventor
Meiji Sakata
明治 坂田
Naoyuki Harada
直之 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000245518A priority Critical patent/JP2002056025A/ja
Publication of JP2002056025A publication Critical patent/JP2002056025A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 従来の画像付きテキストの検索に於いてはキ
ーワード検索でテキストデータ内のキーワード検索のみ
行なっており、検索結果に対し所望の画像の存在の有無
を判定できなかった。 【解決手段】 テキスト部と画像部を分離し、テキスト
内のキーワード検索と平行して、画像ファイルの検索を
行ない、両方にヒットしたデータの優先度を高くして検
索結果とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はデータ検索に係わ
り、特に、必要とするキーワードと見たい画像を持つデ
ータを検索する画像付きテキストサーチ方法に関する。
【0002】
【従来の技術】従来の検索方法はテキストデータ内でキ
ーワード検索だけを行なっていた。
【0003】
【発明が解決しようとする課題】従来の検索方法はキー
ワード検索ばかりを行なっていたため、検索したキーワ
ードに対応する画像も同時に見たい場合には、検索結果
を一々参照に行って必要な画像があるかどうかを調べな
ければならなかった。
【0004】
【課題を解決するための手段】テキストと画像の入り混
じったデータでは、画像にテキスト内のキーワードと同
じファイル名を割り当てている場合が多いので、テキス
ト内のキーワード検索と平行して、画像ファイルの検索
を行ない、両方にヒットしたデータの優先度を高くして
検索結果とする。
【0005】すなわち、テキストと画像を含んだデータ
に対して、テキストと画像を分離する方法と、前記分離
されたテキストに対しキーワードサーチする方法と、前
記分離された画像に対し画像ファイルの拡張子を照合す
る方法と、前記分離された画像に対する前記画像ファイ
ルのファイル名を照合する方法と、テキストの検索結果
と画像ファイルの照合結果を元にして優先順位を付ける
方法とを有し、テキスト内に所望のキーワードと所望の
画像を持つデータを検索する事を特徴とした画像付きテ
キストサーチ方法により、達成される。
【0006】
【発明の実施の形態】本発明における画像付きテキスト
サーチ方法の実施の形態を図を用いて詳細に説明する。
【0007】図1は本発明における実施の形態であり、1
0はデータ読み込み、11はコマンド解析、12はテキスト
サーチ、13はファイル拡張子サーチ、14はファイル名照
合、15は優先度判定、16は結果出力である。
【0008】図中、10によってデータが読みこまれる。
このデータはコマンド解析11によって解析され、テキス
トと画像ファイルに分離される。12はテキストサーチで
あり、キーワードと同じ文字列を比較照合する。13はフ
ァイル拡張子サーチであり、ここで拡張子がJPG、jpg、
GIF、gifであるファイルを選出する。14はファイル名照
合であり、キーワードと同じファイル名を持つファイル
を選出する。15は優先度判定であり、テキストサーチの
結果と、拡張子を含めたファイル名の照合結果を総合し
て、検索結果に優先順位を付ける。16は結果出力であ
り、優先度の付いた検索結果を出力する。
【0009】図2は本発明における実施の形態で検索対
象にされるデータの表示形であ、20はコンピューターの
モニターなどに表示される表示形であり、21はインフル
エンザウィルスの画像である。
【0010】本発明の実施の形態では、ユーザーはイン
フルエンザに関する記述と、インフルエンザウィルスの
電子顕微鏡写真が見たいと望んでいるものとする。従っ
て、ユーザーは20で示した様な画像付きの記述を望んで
おり、検索キーワードは「インフルエンザ」とする。
【0011】図3は図2の表示形の実際のデータであ
り、30はデータであり、これの表示形が図2の20であ
る。
【0012】図中、データ30の仕様は、「.graphics =
」が画像データのファイル名を指定するコマンドであ
り、それに引き続く「インフルエンザ.jpg」が画像ファ
イル名である。表示形ではこの画像ファイルが画像表示
され、これは、図2の21のインフルエンザウィルスの画
像である。データ30の仕様で、「.text」はテキストデ
ータの始まりを指定するコマンドであり、これ以降、他
のコマンドが出てくるまでテキストデータとみなされ
る。
【0013】以上の仕様によるデータを表示すると、画
像とテキストを表示した図2の20が表示される。
【0014】図4は図1のコマンド解析11の詳細なフロ
ーチャートであり、40は画像ファイル指定コマンドの判
定、41は画像ファイルと判断、42はテキスト開始コマン
ドの判定、43はテキストと判断、44はテキスト開始と判
断を表わすのである。
【0015】図1、図3、図4を用いて、詳細なデータ
の流れを説明する。まず、図1のデータ読み込み10で
は、図3の30のデータを1行づつ読み込む。最初に、図
3の30の第1行目である「.graphics = インフルエン
ザ.jpg」が読みこまれ、それがコマンド解析11へ送られ
る。
【0016】図1のコマンド解析11へ送られたデータ
は、図4の40へ送られる。40では「.graphics = 」と比
較照合し、この場合は一致するので、画像ファイルと判
断41へ送られる。41へ送られると、画像ファイルと判断
され、10で読みこまれたデータは13へ送られ、拡張子が
ーチされる。ここでは、拡張子がJPG、jpg、GIF、gifの
いずれかであるかが比較照合され、その結果はフアイル
名照合14へ送られる。この場合は拡張子にjpgが存在す
る。14では、13の結果を受けて、拡張子にJPG、jpg、GI
F、gifのいずれかと一致するものがある時に、ファイル
名と検索キーワードである「インフルエンザ」との比較
照合が行なわれる。この場合、画像ファイル名は「イン
フルエンザ.jpg」なのでキーワードと一致する部分があ
る。この結果は図1の優先度判定15へ送られる。
【0017】次に、図3の30の第2行目である「.tex
t」が読みこまれ、それがコマンド解析11へ送られる。
【0018】図1のコマンド解析11へ送られたデータ
は、図4の40へ送られる。40では「.graphics = 」と比
較照合し、この場合は一致しないので、42へ送られる。
42では「.text」と比較照合し、この場合、一致するの
で44へ送られ、44でテキスト開始と判断される。
【0019】図3の30の第3行目である「 インフルエ
ンザウィルスはウィルス粒子内の核蛋白複合体の抗原性
の」が読みこまれ、それがコマンド解析11へ送られる。
【0020】図1のコマンド解析11へ送られたデータ
は、図4の40へ送られる。40では「.graphics = 」と比
較照合し、この場合は一致しないので、42へ送られる。
42では「.text」と比較照合し、この場合、一致しない
ので43へ送られ、43でテキストと判断される。テキスト
と判断されると、図1の12でテキストサーチが行なわれ
る。テキストサーチ12では、キーワード「インフルエン
ザ」と比較照合が行なわれる。この場合、「インフルエ
ンザ」と言うキーワードと一致する部分があるので、こ
の結果は図1の優先度判定15へ送られる。
【0021】図3の30の第4行目である「違いから、
A、B、Cの3型に分けられる。A型ウィルス粒子表面
にHA」が読みこまれ、それがコマンド解析11へ送られ
る。
【0022】図1のコマンド解析11へ送られたデータ
は、図4の40へ送られる。40では「.graphics = 」と比
較照合し、この場合は一致しないので、42へ送られる。
42では「.text」と比較照合し、この場合、一致しない
ので43へ送られ、43でテキストと判断される。テキスト
と判断されると、図1の12でテキストサーチが行なわれ
る。テキストサーチ12では、キーワード「インフルエン
ザ」と比較照合が行なわれる。この場合、「インフルエ
ンザ」と言うキーワードと一致する部分がないので、こ
の結果は図1の優先度判定15へは送られない。
【0023】以下同様に最終行まで読み込まれて、検索
が続けられるが、検索はテキスト中にキーワードと一致
する部分と画像ファイルの両方が発見された段階で打ち
切ってもよい。
【0024】図5は図1の優先度判定15の詳細なフロー
チャートであり、50はキーワードがあるかの判定であ
り、51は検索条件と不一致の指定であり、52は画像デー
タがあるかの判定であり、53は優先度3の指定であり、
54はファイル名が一致するかの判定であり、55は優先度
2の指定であり、56は優先度1の指定である。
【0025】図中50で、入力データのテキストにキーワ
ードと一致した部分があるかどうかによって処理が振り
分けられる。これは、図1の12からの情報によって、入
力データのテキストにキーワードと一致する部分が無い
場合は、51が選ばれ、検索条件と不一致とされ、入力デ
ータのテキストにキーワードと一致する部分がある場合
は52の処理に移る。52では画像データがあるかどうかに
よって振り分けられる。これは、図1の13の情報によっ
て、拡張子にJPG、jpg、GIF、gifのいずれも無い場合
は、53の処理が選ばれ、優先度3とされ、JPG、jpg、GI
F、gifの少なくともいずれか一つがある場合は、54の処
理に移る。54ではファイル名が一致するかどうかによっ
て処理が振り分けられる。これは、図1の14の情報によ
って、ファイル名がキーワードと一致する部分があるか
どうか判定され、一致する部分が無い場合は、55が選ば
れ、優先度2とされ、一致する部分がある場合は56が選
ばれ優先度1とされる。
【0026】ここで、優先度の付け方は以下の規則に従
う。テキスト中にキーワードがあり、画像ファイルがあ
って、そのファイル名にキーワードが含まれている場合
を優先度1とする。テキスト中にキーワードがあり、画
像ファイルがあって、そのファイル名にキーワードが含
まれていない場合は優先度2とする。これは、ファイル
名が対象物以外のものに書き換えられている可能性があ
るための処置である。テキスト中にキーワードがあり、
画像ファイルが含まれていない場合は優先度3とする。
テキスト中にキーワードが含まれていない場合は検索条
件と不一致とする。
【0027】図1の16では15からの優先度、即ち、図5
で得られた優先度を受け取り、この優先度である「優先
度1」、「優先度2」、「優先度3」、「検索条件と不
一致」のいずれか一つを出力する。
【0028】この様にユーザーの望む画像ファイルのあ
る可能性の順に優先度が付けられ、これによってユーザ
ーの求めていたデータに辿りつきやすくなるため、ユー
ザーは大幅に時間を節約できる。
【0029】
【発明の効果】本発明によれば、テキスト内に所望のキ
ーワードを持ち、所望のキーワードをファイル名として
持つ画像データを検索できる。これによって、検索をか
けた本人が望んでいた画像が見られる可能性が高いとい
う効果がある。
【図面の簡単な説明】
【図1】本発明の一実施の形態における処理のフロー
図。
【図2】本発明の一実施の形態における検索対象のデー
タ。
【図3】本発明の一実施の形態における検索対象のデー
タ。
【図4】本発明の一実施の形態におけるコマンド解析の
フローチャート。
【図5】本発明の一実施の形態における優先順位算定の
フローチャート。
【符号の説明】 10はデータ読み込み 11はコマンド解析 12はテキストサーチ 13はファイル拡張子サーチ 14はファイル名照合 15は優先度判定 16は結果出力 20は検索対象 21はインフルエンザウィルスの画像 30は検索対象 40は画像ファイル判定 41は画像ファイル指定 42はテキスト判定 43はテキスト指定 44はテキスト開始指定 50はキーワードサーチ 51は不一致 52は画像ファイルサーチ 53は優先度3指定 54はファイル名照合 55は優先度2指定 56は優先度1指定。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】テキストと画像を含んだデータに対して、
    テキストと画像を分離する方法と、前記分離されたテキ
    ストに対しキーワードサーチする方法と、前記分離され
    た画像に対し画像ファイルの拡張子を照合する方法と、
    前記分離された画像に対する前記画像ファイルのファイ
    ル名を照合する方法と、テキストの検索結果と画像ファ
    イルの照合結果を元にして優先順位を付ける方法とを有
    し、テキスト内に所望のキーワードと所望の画像を持つ
    データを検索する事を特徴とした画像付きテキストサー
    チ方法。
  2. 【請求項2】請求項1において、画像ファイルとしてJ
    PEGファイルを検索する事を特徴とする画像付きテキ
    ストサーチ方法。
  3. 【請求項3】請求項1において、画像ファイルとしてG
    IFファイルを検索する事を特徴とする画像付きテキス
    トサーチ方法。
  4. 【請求項4】請求項1において、画像ファイルとしてJ
    PEGファイル、GIFファイルの片方または両方を検
    索する事を特徴とする画像付きテキストサーチ方法。
  5. 【請求項5】請求項1から請求項4までの各々におい
    て、テキスト内に所望のキーワードが見つかり同時に所
    望の画像が見つかった場合を最も優先度が高く、テキス
    ト内に所望のキーワードが見つかり同時に画像ファイル
    が見つかった場合を2番目の優先度とし、テキスト内に
    所望のキーワードが見つかったが画像ファイルが見つか
    らなかった場合を3番目の優先度とする事を特徴とする
    画像付きテキストサーチ方法。
JP2000245518A 2000-08-08 2000-08-08 画像付きテキストサーチ方法 Pending JP2002056025A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000245518A JP2002056025A (ja) 2000-08-08 2000-08-08 画像付きテキストサーチ方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000245518A JP2002056025A (ja) 2000-08-08 2000-08-08 画像付きテキストサーチ方法

Publications (1)

Publication Number Publication Date
JP2002056025A true JP2002056025A (ja) 2002-02-20

Family

ID=18736025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000245518A Pending JP2002056025A (ja) 2000-08-08 2000-08-08 画像付きテキストサーチ方法

Country Status (1)

Country Link
JP (1) JP2002056025A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016024549A (ja) * 2014-07-17 2016-02-08 Kddi株式会社 電子マガジン作成装置、電子マガジン作成システム、電子マガジン作成方法およびコンピュータプログラム
JP2016024553A (ja) * 2014-07-17 2016-02-08 Kddi株式会社 電子マガジン作成装置、電子マガジン作成システム、電子マガジン作成方法およびコンピュータプログラム
JP2017211945A (ja) * 2016-05-27 2017-11-30 富士通株式会社 ファイル判定プログラム、ファイル判定装置およびファイル判定方法
CN109376261A (zh) * 2018-10-29 2019-02-22 山东师范大学 基于中级文本语义增强空间的模态独立检索方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016024549A (ja) * 2014-07-17 2016-02-08 Kddi株式会社 電子マガジン作成装置、電子マガジン作成システム、電子マガジン作成方法およびコンピュータプログラム
JP2016024553A (ja) * 2014-07-17 2016-02-08 Kddi株式会社 電子マガジン作成装置、電子マガジン作成システム、電子マガジン作成方法およびコンピュータプログラム
JP2017211945A (ja) * 2016-05-27 2017-11-30 富士通株式会社 ファイル判定プログラム、ファイル判定装置およびファイル判定方法
CN109376261A (zh) * 2018-10-29 2019-02-22 山东师范大学 基于中级文本语义增强空间的模态独立检索方法和系统

Similar Documents

Publication Publication Date Title
US9400808B2 (en) Color description analysis device, color description analysis method, and color description analysis program
JP2005182280A (ja) 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム
JP2004341940A (ja) 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム
JP2002175330A (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JPH0922414A (ja) 文書分類支援方法および装置
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
TWI794547B (zh) 文書檢索裝置、文書檢索程式、文書檢索方法
JP2002056025A (ja) 画像付きテキストサーチ方法
JP2005107931A (ja) 画像検索装置
JP4009937B2 (ja) 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP2008171299A (ja) コンテンツ検索装置、コンテンツ登録装置及び方法
JP2000276338A (ja) 視覚プログラミング方法およびシステムならびに視覚プログラミングのための記録媒体
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
JP2005301855A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2020113048A (ja) 情報処理装置及びプログラム
JP2001147923A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP3210842B2 (ja) 情報処理装置
JP3955410B2 (ja) 類似情報照合装置、類似情報照合方法、及び、類似情報照合プログラムを記録した記録媒体
JP3287307B2 (ja) 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP2001101226A (ja) 文書群分類装置および文書群分類方法
JP2004302618A (ja) キーワード頻度算出方法及びそれを実行するプログラム
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2002132824A (ja) 情報検索方法および情報検索システム