JP2012093901A - 画像付文書検索装置及び画像付文書検索プログラム - Google Patents
画像付文書検索装置及び画像付文書検索プログラム Download PDFInfo
- Publication number
- JP2012093901A JP2012093901A JP2010239806A JP2010239806A JP2012093901A JP 2012093901 A JP2012093901 A JP 2012093901A JP 2010239806 A JP2010239806 A JP 2010239806A JP 2010239806 A JP2010239806 A JP 2010239806A JP 2012093901 A JP2012093901 A JP 2012093901A
- Authority
- JP
- Japan
- Prior art keywords
- image
- evaluation value
- document data
- added document
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
【解決手段】通信ネットワーク500上をクローリングしてWeb文書を逐次取得し、取得されたWeb文書に含まれる画像データのレイアウトを数値化したレイアウト評価値を算出し、Web文書とレイアウト評価値とを関連付けて予めコンテンツ蓄積部12に蓄積しておき、表示端末300からの検索要求に該当するWeb文書をコンテンツ蓄積部12から検索し、検索されたWeb文書のレイアウト評価値で順位付け、順位付けられたWeb文書を要求元の表示端末300に返信する。
【選択図】図1
Description
図1は、第1の実施の形態に係る画像付文書検索装置の機能ブロック構成を示す図である。この画像付文書検索装置100は、クローラ部11と、コンテンツ蓄積部12と、レイアウト評価値算出部13と、Web文書検索部14とで構成されている。以下、これら各部の機能について詳述する。
Rl=総行数比=(画像の個数N)/(全行数) ・・・式(2)
Rh=総高比=(Σi=1,…,N画像iの高さ)/(Web文書の表示領域の高さ) ・・・式(3)
なお、i=1,…,Nは、「Σ」の下に記載されることが正確な表記である。
Ml=最大画像間行数=Maxi=0,…,N(画像iと画像i+1との間の行数) ・・・式(5)
Mh=最大画像間高さ=Maxi=0,…,N(画像iと画像i+1との間の領域の高さ)・・・式(6)
なお、i=0,…,Nは、「Max」の下に記載されることが正確な表記である。
なお、Σjのjは、「Σ」の下に記載されることが正確な表記である。また、Ljは、Rt、Rl、Rh、Mt、Ml、Mhのうちいずれか1以上であり、Kj、K0は、予め決められた所定係数である。この係数については、いくつかのサンプルとなるWeb文書に対して、何人かの主観評価によりつけられた評価値を取得して、統計的な回帰の手法により決める方法もある。
なお、Kl、Ke、Kcは、予め決められた所定係数である。この係数については、いくつかのサンプルとなる検索要求と、それにより検索されたWeb文書に対して何人かの主観評価によりつけられた評価値を取得して、統計的な回帰の手法により決める方法もある。
続いて、第2の実施の形態について説明する。第1の実施の形態と異なり、表示端末300からの検索要求があったときに初めてレイアウト評価値を算出することを特徴としている。
11…クローラ部
12…コンテンツ蓄積部
13…レイアウト評価値算出部
14…Web文書検索部
300…表示端末
500…通信ネットワーク
S101〜S103、S201〜S205、S301〜S304…ステップ
Claims (7)
- 通信ネットワークをクローリングして画像付文書データを逐次取得する手段と、
取得された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、
前記画像付文書データと前記レイアウト評価値とを関連付けて予め記憶しておく手段と、
検索要求に該当する画像付文書データを前記記憶手段から検索し、検索された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、
を有することを特徴とする画像付文書検索装置。 - 検索要求に該当する画像付文書データを通信ネットワーク上から検索し、検索された画像付文書データを記憶手段に記憶する手段と、
検索された前記画像付文書データに含まれる画像データの配置状態を値化したレイアウト評価値を算出する手段と、
前記画像付文書データを前記記憶手段から読み出して、読み出された画像付文書データのレイアウト評価値で順位付け、順位付けられた画像付文書データを要求元に返信する手段と、
を有することを特徴とする画像付文書検索装置。 - 前記算出する手段は、
前記画像データの配置状態を値化する1以上のプリミティブな評価値を単独で又は組み合わせて前記レイアウト評価値を算出することを特徴とする請求項1又は2に記載の画像付文書検索装置。 - 前記プリミティブな評価値は、
少なくとも、Rt=画像の個数/全文字数、Rl=画像の個数/全行数、Rh=Σi=1,…,N画像iの高さ/画像付文書データの表示領域の高さ、Mt=Maxi=0,…,N(画像iと画像i+1との間の文字数)、Ml=Maxi=0,…,N(画像iと画像i+1との間の行数)、Mh=Maxi=0,…,N(画像iと画像i+1との間の領域の高さ)であって(但し、Nは画像の個数であり、画像0は画像付文書データの先頭、画像N+1は画像付文書データの最後にあるとする)、
前記算出する手段は、
当該評価値のうちいずれか1以上を用いて前記レイアウト評価値を算出することを特徴とする請求項3に記載の画像付文書検索装置。 - 前記返信する手段は、
既存の評価方法による前記画像付文書データの評価値と前記レイアウト評価値とを用いて算出された評価値で順位付けることを特徴とする請求項1乃至4のうちいずれかに記載の画像付文書検索装置。 - 前記返信する手段は、
順位付けられた複数の画像付文書データのうちいずれかをフィルタリングして返信することを特徴とする請求項1乃至5のうちいずれかに記載の画像付文書検索装置。 - 請求項1乃至6のうちいずれかに記載の画像付文書検索装置における各手段の処理をコンピュータに実行させることを特徴とする画像付文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010239806A JP5466133B2 (ja) | 2010-10-26 | 2010-10-26 | 画像付文書検索装置及び画像付文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010239806A JP5466133B2 (ja) | 2010-10-26 | 2010-10-26 | 画像付文書検索装置及び画像付文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012093901A true JP2012093901A (ja) | 2012-05-17 |
JP5466133B2 JP5466133B2 (ja) | 2014-04-09 |
Family
ID=46387169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010239806A Expired - Fee Related JP5466133B2 (ja) | 2010-10-26 | 2010-10-26 | 画像付文書検索装置及び画像付文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5466133B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015033617A1 (ja) * | 2013-09-03 | 2015-03-12 | 三菱電機株式会社 | 情報取得装置 |
CN116431799A (zh) * | 2023-06-14 | 2023-07-14 | 湖南科德信息咨询集团有限公司 | 基于技术创新研发的内容精准挖掘系统 |
WO2023234546A1 (ko) * | 2022-05-29 | 2023-12-07 | 삼성전자 주식회사 | 사용자 인터페이스의 텍스트 입력 부분 내에 포함되는 텍스트를 처리하는 전자 장치, 방법, 및 비일시적 컴퓨터 판독가능 저장 매체 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107096397A (zh) * | 2016-02-22 | 2017-08-29 | 深圳市启德环保科技有限公司 | 一种耐高压多孔高分子pmma滤膜材料的制备方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08153117A (ja) * | 1994-11-30 | 1996-06-11 | Canon Inc | 文書検索装置及び方法 |
JP2004220267A (ja) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 画像検索方法および装置と画像検索プログラムおよび該プログラムを記録した記録媒体 |
JP2005050357A (ja) * | 2003-07-30 | 2005-02-24 | Xerox Corp | ドキュメントの品質の測度を定量化する方法 |
JP2006004062A (ja) * | 2004-06-16 | 2006-01-05 | Canon Inc | 画像データベース作成装置および画像検索方法 |
JP2007072998A (ja) * | 2005-09-09 | 2007-03-22 | Canon Inc | 情報検索装置、情報処理システム、情報処理装置の制御方法、及び制御プログラム |
JP2009201758A (ja) * | 2008-02-28 | 2009-09-10 | Namco Bandai Games Inc | プログラム、情報記憶媒体、ゲーム機 |
-
2010
- 2010-10-26 JP JP2010239806A patent/JP5466133B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08153117A (ja) * | 1994-11-30 | 1996-06-11 | Canon Inc | 文書検索装置及び方法 |
JP2004220267A (ja) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 画像検索方法および装置と画像検索プログラムおよび該プログラムを記録した記録媒体 |
JP2005050357A (ja) * | 2003-07-30 | 2005-02-24 | Xerox Corp | ドキュメントの品質の測度を定量化する方法 |
JP2006004062A (ja) * | 2004-06-16 | 2006-01-05 | Canon Inc | 画像データベース作成装置および画像検索方法 |
JP2007072998A (ja) * | 2005-09-09 | 2007-03-22 | Canon Inc | 情報検索装置、情報処理システム、情報処理装置の制御方法、及び制御プログラム |
JP2009201758A (ja) * | 2008-02-28 | 2009-09-10 | Namco Bandai Games Inc | プログラム、情報記憶媒体、ゲーム機 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015033617A1 (ja) * | 2013-09-03 | 2015-03-12 | 三菱電機株式会社 | 情報取得装置 |
WO2023234546A1 (ko) * | 2022-05-29 | 2023-12-07 | 삼성전자 주식회사 | 사용자 인터페이스의 텍스트 입력 부분 내에 포함되는 텍스트를 처리하는 전자 장치, 방법, 및 비일시적 컴퓨터 판독가능 저장 매체 |
CN116431799A (zh) * | 2023-06-14 | 2023-07-14 | 湖南科德信息咨询集团有限公司 | 基于技术创新研发的内容精准挖掘系统 |
CN116431799B (zh) * | 2023-06-14 | 2023-08-18 | 湖南科德信息咨询集团有限公司 | 基于技术创新研发的内容精准挖掘系统 |
Also Published As
Publication number | Publication date |
---|---|
JP5466133B2 (ja) | 2014-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7607082B2 (en) | Categorizing page block functionality to improve document layout for browsing | |
US8812505B2 (en) | Method for recommending best information in real time by appropriately obtaining gist of web page and user's preference | |
US8738654B2 (en) | Objective and subjective ranking of comments | |
US7660783B2 (en) | System and method of ad-hoc analysis of data | |
JP5608286B2 (ja) | 無限ブラウズ | |
US20060123042A1 (en) | Block importance analysis to enhance browsing of web page search results | |
US20070283291A1 (en) | Methods, systems, and computer program products for characterizing links to resources not activated | |
JP5040396B2 (ja) | Webページ検索プログラム、方法、及び装置 | |
US7421416B2 (en) | Method of managing web sites registered in search engine and a system thereof | |
JP2007334502A (ja) | 検索装置、方法およびプログラム | |
JP5466133B2 (ja) | 画像付文書検索装置及び画像付文書検索プログラム | |
JP2007280011A (ja) | Webページ閲覧履歴の提示方法および装置 | |
JP2007256992A (ja) | コンテンツ特定方法及び装置 | |
JP2010049384A (ja) | 動画評価方法、装置及びプログラム | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
US20090132493A1 (en) | Method for retrieving and editing HTML documents | |
JP2009265770A (ja) | 重要文提示システム | |
JP2006236221A (ja) | ウエブページ検索のための管理サーバ装置 | |
JP2006309631A (ja) | ウェブページデータの検索 | |
Jatowt et al. | Page history explorer: Visualizing and comparing page histories | |
JP5396869B2 (ja) | 情報処理装置、情報検索装置、情報処理方法、情報処理プログラム及び記録媒体 | |
JP4715031B2 (ja) | 構造化文書変換システム及び構造化文書変換プログラム | |
JP7479023B1 (ja) | コンテンツの生成方法、そのプログラムおよび情報処理装置 | |
JP4238813B2 (ja) | 話題情報提示方法及び装置及びプログラム | |
JP2019109777A (ja) | 情報処理装置、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131105 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5466133 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |