JP2006172029A - 検索結果提示方法 - Google Patents

検索結果提示方法 Download PDF

Info

Publication number
JP2006172029A
JP2006172029A JP2004362187A JP2004362187A JP2006172029A JP 2006172029 A JP2006172029 A JP 2006172029A JP 2004362187 A JP2004362187 A JP 2004362187A JP 2004362187 A JP2004362187 A JP 2004362187A JP 2006172029 A JP2006172029 A JP 2006172029A
Authority
JP
Japan
Prior art keywords
search
text
media file
image
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004362187A
Other languages
English (en)
Inventor
Katsumi Marukawa
勝美 丸川
Takeshi Eisaki
健 永崎
Minenobu Seki
峰伸 関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004362187A priority Critical patent/JP2006172029A/ja
Publication of JP2006172029A publication Critical patent/JP2006172029A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Digital Computer Display Output (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明では、テキスト、イメージの種類に関わらず、検索して開いたホームページ、イメージ、PDFなどにおいて、自分が入力したキーワードが表示情報上のどこにあるかをひと目でわかるように提示させることである。
【解決手段】キーワードによる検索結果のメディアファイルの種類を判定し、メディアファイルの内容がイメージ系と判断された場合、該イメージに対して文字認識を行なって該当するテキスト情報の位置を特定し、その位置を強調表示してメディアファイルを画面に表示し、メディアファイルの内容がテキスト系と判断された場合、テキスト検索により特定される箇所を強調表示してメディアファイルを表示する。
【選択図】図1

Description

本発明は、文字情報を含むテキスト、イメージの検索結果の提示方法に関する。
本発明の背景技術としては、一般的な検索技術、文字認識、文書画像処理、および特許文献1、非特許文献1などの技術がある。
特開2003-317034号公報
電子情報通信学会 PRMU 2003-215 (2004-2)
ホームページで必要な情報検索する場合、キーワードを入力し、検索結果としてホームページのURLを得る。そして、あるURLを指示してあるホームページを開く。ここで、ホームページを開いたものの、自分の入力したキーワードがホームページ内のどこにあるのか、全てを読まないといけない。あるいは、URLで開いた情報にテキスト情報があれば、これに再度検索をかけることで入力キーワードを検索しなければいけない。また、検索対象がイメージの場合、テキスト情報が存在しないため、検索結果のファイルやホームページ内の全ての情報を閲覧する必要がある。
上記課題を解決するため、本発明は、検索キーワードを入力し、インターネットもしくはネットワーク上のシステムから検索結果を得て、該検索結果が画面上に表示され、該表示された検索結果中の一検索結果を選択し、該選択した検索結果の内容を表示する方法において、該選択したメディアファイルを格納し、メディアファイルの識別子を判定する第1の手段と、第1の手段による結果から、メディアファイルの内容がイメージ系と判断された場合、該イメージに対して文字認識を行ないテキスト情報を生成する第2の手段と、第2の手段から得られた結果に対し、入力された検索キーワードで検索する第3の手段と、第3の手段により検索した検索キーワードに対し、該検索キーワードとその文字画像の位置情報を格納する第4の手段と、第4の手段で格納した検索キーワードを構成する文字画像群の位置情報を使って、第2の手段で利用したイメージ上の検索キーワードに相当する部分に下線もしくは文字列枠を重ね合わせ、イメージを生成し、これを格納する第5の手段と、
第1の手段による結果から、メディアファイルの内容がテキスト系と判断された場合、該テキスト系ファイルに対してテキスト情報を抽出する第6の手段と、第6の手段から得た結果に対し、入力された検索キーワードで検索する7の手段と、第7の手段により検索した検索キーワードに対し、該検索キーワードと、該検索キーワードがテキスト内で一意に決められる情報を格納する第8の手段と、第8の手段で格納した検索キーワードをテキスト内で一意に決められる情報を使って、メディアファイル内の検索キーワードを特定し、下線を持った文字列もしくは特定色の色文字列にし、メディアフィルを更新し、これを格納する第9の手段と、
第1の手段による結果で、メディアファイルの内容がイメージ系と判断された場合、第5の手段で格納した情報を画面に表示し、メディアファイルの内容がテキスト系と判断された場合、第9の手段で格納した情報を画面に表示し、メディアファイルの内容がイメージ系でもテキスト系でも無いと判断された場合、メディアファイルをそのまま表示する第10の手段を備えるようにしている。
また、閲覧者が検索結果の内容の閲覧中に、別の検索結果に対して先の第1の手段から第9の手段までを実行することができる。
なお、検索の入力情報を検索キーワードに限らず、文章を検索の入力情報とし、入力された文章に対して、形態素解析もしくは係り受け解析を行なう第11の手段を設け、第11の手段により求めた形態素で、特定の品詞の基本形を検索システムの検索キーワードとすることができる。
従来では、表示した情報の全てを読み、自分が入力したキーワードを探す必要があったが、本発明では、テキスト、イメージの種類に関わらず、検索して開いたホームページ、イメージ、PDFなどにおいて、自分が入力したキーワードが表示情報上のどこにあるかがひと目でわかるように提示させることができる。
最良の形態(処理の流れ)は、検索結果から、特定のURLを開く際に次の処理を行なう。まず、開く情報のメディアファイルの識別子を判別する。そして、判別した識別子に応じ、入力した情報がどこに記載されているかを求める。そして、その結果を表示データに重ね合わせて表示する。ここで、イメージの場合、文字情報が存在しないので、文字情報とその位置情報を画像処理技術と文字認識技術を用いて得る。
本検索結果方法の処理結果の例を図2、3に示す。0201はディスプレイ上に表示された検索結果の内容である。0203などの長細い矩形は行を、0209や0211は図や表を表している。従来では、このように情報が表示されるのみで、情報の全てを読まなければ、自分が入力した検索キーワードがどこにあるかを知ることが出来ず、時間を要し、不便であった。本発明は、図2の0205や0207.図3の0305や0307のように、表示された情報上の検索キーワードが一目で分かるように、検索キーワードを矩形で囲んだり、検索キーワードに下線を添える等の強調表示を行う。
次に、本発明の一実施例の検索結果方法の処理フローを図1に示す。
図1中の0101は、インターネットもしくはネットワーク上のシステムから戻された検索結果の一結果を選択し、内容を表示する際に行なう処理フローである。
図1の0101において、まず選択された結果の内容であるメディアファイルの識別子を判定する。例えば、XXX.htmlであれば、htmlファイルでファイル中にテキストとイメージを同時に持つ。またXXX.docであれば、wordファイルでファイル中に主にテキストを持つ。またXXX.tifであれば、tifファイルでファイル中にイメージを持つ。またXXX.pdfであれば、PDFファイルでファイル中に主にPostscript系の情報を持つ。この場合、Postscript系の情報はイメージで表現されるので、扱いはイメージと同様である。またPDFファイルはテキスト情報を透明ファイルに持つことができるが、画面上への表示がイメージであるため、特にイメージで十分である。
そして、0103において、イメージ系の識別子を持つファイルであれば、文字認識を行い、イメージ内のテキスト情報を生成する。ここで、テキスト情報とは、単なるテキスト情報、もしくは単なるテキストではなく、文字切出しや文字認識の誤りを許容できる情報のことを言う。詳細は後述する。
また、テキスト系の識別子を持つファイルであれば、テキスト情報を抽出する。これは、例えば、wordと一太郎、Excelではデータ構造が異なり、テキスト系として同一の処理を行なうには共通したプレーンテキストに直す必要があるからである。
そして、0105において、検索者が入力した検索キーワードで、着目中のメディアファイルの識別子にあわせ、0103で作成・抽出したテキスト情報から検索する。検索する方法としては電子情報通信学会 PRMU 2003-215 (2004-2)、特開2003-317034号公報で既に発表されており、実現できる。
そして、0107において、検索者が入力した検索キーワードがどこにあったかひと目で分かるように、検索結果上に表示するための表示情報を求める。具体的には、メディアファイルがイメージ系であった場合、作成したテキスト情報から検索キーワードを検索した際の、検索キーワードに対応する文字画像群の位置情報を求める。またメディアファイルがテキスト系であった場合、検索したキーワードがテキスト内で一意に決められる情報を求める。
そして、0109において、画面に表示するメディアファイルに、0107で求めた表示情報を重ね合わせる。具体的には、メディアファイルがイメージ系であった場合、検索キーワードに相当する部分(0107で求めた文字画像群の位置情報)を下線もしくは文字列枠として、メディアファイル上に重ね合わせ、イメージを更新する。またメディアファイルがテキスト系であった場合、0107で求めた、検索キーワードをテキスト内で一意に決められる情報を使って、メディアファイル内の検索キーワードを特定し、下線を持った文字列もしくは特定色の色文字列にし、メディアファイルを更新する。
そして、0111において、キーワードの位置がひと目で分かるように、先に加工されたイメージもしくはテキストファイルを画面に表示する。ここで、イメージ系、テキスト系に相当しない検索結果に対しては0103から0109のような処理を行なわず、メディアファイルをそのまま表示する。
上述したイメージ系のテキスト情報の定義であるが、単なるテキスト情報、もしくは単なるテキストではなく、文字切出しや文字認識の誤りを許容できる情報のことである。後者を図5を用いて説明する。具体的には、特開2003-317034号公報、電子情報通信学会 PRMU 2003-215 (2004-2)で既に発表されている。0501は入力イメージの行画像である。また0515は行画像を文字切出しし、文字として可能性のある文字画像を抽出し、文字切出しの仮説をネットワークで表現したものである。より詳細に述べる。「化」は文字切出しにより0503「化」、0505「イ」、0507「ヒ」となり、3種類の文字としての可能性が存在する。0509と0511のノード間で文字としての可能性のあるパスは2通りである。ここで、文字識別は複数個の候補文字を持っており、アーク上には複数個の認識候補文字が存在する。また、入力キーワードが存在するか否かの判断は、入力キーワードが図5のネットワーク上を遷移し、遷移できるか否かで決まる。以上のように、文字切出しと文字識別のあいまい性を確保した仮説付きネットワーク表現を入力キーワードで遷移することにより、文字切出しと文字識別の誤りを許容し、より高い精度で検索キーワードを求めることができる。
次に、検索した検索キーワードのイメージ上での表示例を図6に示す。実施例における0107の説明で、検索キーワードに対応する文字画像群の位置情報を求める、と述べているように、0601、0603のような文字画像の位置情報が予め分かっているので、この位置情報を利用し、0605のような色の付いた下線を引くことで容易に実現できる。
次に、閲覧者が検索キーワードの入力から検索結果を閲覧するまでの処理フローを図4に示す。まず0401において、閲覧者が検索キーワードを入力する。そして、0403にて、入力キーワードでの検索が実行される。次に、0407にて検索結果を受理し、0407にて検索結果一覧を表示する。そして、0411において、検索結果一覧から閲覧する検索結果を選択する。次に、図1で説明した0101から0111の処理を行い、選択した結果の内容上に入力した検索キーワードが分かるように表示される。そして、着目結果の閲覧後、0415において、閲覧者が再度検索結果を閲覧するかの判断をし、閲覧すると判断した場合に0411に戻って再び同様な閲覧を行なう。また閲覧しないと判断した場合、処理を終了する。
次に、文章を入力情報とする場合を図7を用いて説明する。まず、0701は入力文章であり、0703はこれを形態素解析した結果である。その内、0705が文章中での形態素、0707が形態素の読み、0709が形態素の基本形、0711が品詞等の情報である。次に、これから検索キーワードを求める一例であるが、検索に意味のあるキーワードを抽出するため、ルール1:名詞-一般、ルール2:名詞-一般 + 接尾-サ変接続、ルール3:名詞-サ変接続、のように、ルールを予め用意しておき、ルールに適合する大きな連続する形態素の組を求めていくことで。検索キーワードを求める。
図8を用いて、本実施例を実施するための検索結果提示装置の構成を説明する。本装置は、中央演算装置(CPU)801と、主メモリ802と、表示装置803と、入力装置804と、記憶装置810と、で構成される。
記憶装置810には、OS(オペレーティングシステム)811と、メディアファイルデータベース812と、ファイル検索プログラム813と、強調表示プログラム814と、が格納される。
メディアファイルデータベース812には、キーワード検索の対象となるイメージ系またはテキスト系のメディアファイルが格納される。メディアファイルデータベース812は、検索結果提示装置の装置外に接続されてもよい。ファイル検索プログラム813は、ユーザが入力装置804によりするキーワードによるキーワード検索を行う。強調表示プログラム814は、検索結果であるメディアファイルの種類を判定し、メディアファイルの内容がイメージ系と判断された場合、該イメージに対して文字認識を行なって該当するテキスト情報の位置を特定し、その位置を強調表示してメディアファイルを表示装置803に表示し、メディアファイルの内容がテキスト系と判断された場合、テキスト検索により特定される箇所を強調表示してメディアファイルを表示装置803に表示する。
尚、上記プログラムは、主メモリ802に読み込まれ、CPU801が制御することにより実行される。
本発明は、ホームページやマルチメディア・データベースからの情報検索の検索結果表示方法に関する。
閲覧情報上の検索キーワードに下線などを添えて分かりやすくする処理フロー。 閲覧情報上の検索キーワードを矩形で囲んだ画面表示例。 閲覧情報上の検索キーワードに下線を添えた画面表示例。 閲覧者による検索キーワードの入力から検索を終了するまでの処理フロー。 イメージからの検索キーワード抽出のためのデータ構成図。 イメージから検索した検索キーワードの、イメージ上での表示例。 入力文章に係り受け解析を行なった結果例。 本発明を実施するためのハードウェアの構成例。

Claims (3)

  1. 検索キーワードを入力し、インターネットもしくはネットワーク上のシステムから検索結果を得て、該検索結果が画面上に表示され、該表示された検索結果中の一検索結果を選択し、該選択した検索結果の内容を表示する方法において、
    該選択したメディアファイルを格納し、メディアファイルの識別子を判定する第1の手段と、
    第1の手段による結果から、メディアファイルの内容がイメージ系と判断された場合、該イメージに対して文字認識を行ないテキスト情報を生成する第2の手段と、
    第2の手段から得られた結果に対し、入力された検索キーワードで検索する第3の手段と、
    第3の手段により検索した検索キーワードに対し、該検索キーワードとその文字画像の位置情報を格納する第4の手段と、
    第4の手段で格納した検索キーワードを構成する文字画像群の位置情報を使って、第2の手段で利用したイメージ上の検索キーワードに相当する部分に下線もしくは文字列枠を重ね合わせてイメージを生成し、これを格納する第5の手段と、
    第1の手段による結果から、メディアファイルの内容がテキスト系と判断された場合、該テキスト系ファイルに対してテキスト情報を抽出する第6の手段と、
    第6の手段から得られた結果に対し、入力された検索キーワードで検索する7の手段と、
    第7の手段により検索した検索キーワードに対し、該検索キーワードと、該検索キーワードがテキスト内で一意に決められる情報を格納する第8の手段と、
    第8の手段で格納した該検索キーワードをテキスト内で一意に決められる情報を使って、メディアファイル内の検索キーワードを特定し、強調表示による文字列にし、メディアファイルを更新し格納する第9の手段と、
    第1の手段による結果で、メディアファイルの内容がイメージ系と判断された場合、第5の手段で格納した情報を画面に表示し、メディアファイルの内容がテキスト系と判断された場合、第9の手段で格納した情報を画面に表示し、メディアファイルの内容がイメージ系でもテキスト系でも無いと判断された場合、メディアファイルをそのまま表示する第10の手段を備えたことを特徴とする検索結果提示方法。
  2. 請求項1記載の検索結果提示方法において、検索の入力情報を検索キーワードに限らず、文章も検索の入力情報とし、入力された文章に対して、形態素解析もしくは係り受け解析を行なう第1の手段と、
    第1の手段により求めた形態素で、特定の品詞の基本形を検索システムの検索キーワードとすることを特徴とする検索結果提示方法。
  3. 請求項1もしくは請求項2記載の検索結果提示方法において、検索者が一検索結果を閲覧中に、次の検索結果に対して請求項1の第1の手段から第9の手段までを実行することを特徴とする検索結果提示方法。
JP2004362187A 2004-12-15 2004-12-15 検索結果提示方法 Pending JP2006172029A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004362187A JP2006172029A (ja) 2004-12-15 2004-12-15 検索結果提示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004362187A JP2006172029A (ja) 2004-12-15 2004-12-15 検索結果提示方法

Publications (1)

Publication Number Publication Date
JP2006172029A true JP2006172029A (ja) 2006-06-29

Family

ID=36672730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004362187A Pending JP2006172029A (ja) 2004-12-15 2004-12-15 検索結果提示方法

Country Status (1)

Country Link
JP (1) JP2006172029A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012176496A1 (ja) * 2011-06-22 2012-12-27 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
JP2018016007A (ja) * 2016-07-28 2018-02-01 京セラドキュメントソリューションズ株式会社 画像処理装置及びこれを備えた画像形成装置
JP2019086860A (ja) * 2017-11-02 2019-06-06 富士ゼロックス株式会社 文書処理装置及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012176496A1 (ja) * 2011-06-22 2012-12-27 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
JP2013008095A (ja) * 2011-06-22 2013-01-10 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
US11010828B2 (en) 2011-06-22 2021-05-18 Rakuten, Inc. Information processing apparatus, information processing method, information processing program, recording medium having stored therein information processing program
JP2018016007A (ja) * 2016-07-28 2018-02-01 京セラドキュメントソリューションズ株式会社 画像処理装置及びこれを備えた画像形成装置
JP2019086860A (ja) * 2017-11-02 2019-06-06 富士ゼロックス株式会社 文書処理装置及びプログラム
JP7095259B2 (ja) 2017-11-02 2022-07-05 富士フイルムビジネスイノベーション株式会社 文書処理装置及びプログラム

Similar Documents

Publication Publication Date Title
JP2008192055A (ja) コンテンツ検索方法、およびコンテンツ検索装置
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
JP2002197104A (ja) 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体
JP2003208434A (ja) 情報検索システム及びそれに用いる情報検索方法
US20050120114A1 (en) Content synchronization system and method of similar web pages
JP2000148748A (ja) 仮名漢字変換及び画像検索表示システム
CN116508004A (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
JP2005107931A (ja) 画像検索装置
JP2007257369A (ja) 情報検索装置
JP2006172029A (ja) 検索結果提示方法
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JP2008077584A (ja) 訳語検索システム、方法及びプログラム
JP5379416B2 (ja) 言語処理装置および言語処理方法
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP2005011301A (ja) 文書処理装置及び文書処理プログラム
JP2005115721A (ja) 画像検索方法、画像検索装置及び画像検索プログラム
JP2014199476A (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP4473639B2 (ja) コンテンツマップ作成プログラム、方法及び装置
JP2004258912A (ja) 文書検索装置、文書検索方法およびプログラム
JP2004295301A (ja) 文書検索装置
JP2010061532A (ja) 電子辞書、電子辞書の検索方法及び電子辞書の検索プログラム
JP4842246B2 (ja) 情報検索装置及びプログラム
JP3537260B2 (ja) リンク付文書検索表示システム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060425