JP4606349B2 - 話題画像抽出方法及び装置及びプログラム - Google Patents
話題画像抽出方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP4606349B2 JP4606349B2 JP2006061746A JP2006061746A JP4606349B2 JP 4606349 B2 JP4606349 B2 JP 4606349B2 JP 2006061746 A JP2006061746 A JP 2006061746A JP 2006061746 A JP2006061746 A JP 2006061746A JP 4606349 B2 JP4606349 B2 JP 4606349B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- topic
- distance
- evaluation value
- topic word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
画像収集手段が、
文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、収集された個々の画像との位置情報を求め、話題語位置情報記憶手段に格納する画像収集ステップ(ステップ1)と、
画像適合度算出手段が、
話題語位置情報記憶手段に格納されている位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある1つの画像に着目したときの各話題語との距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段に蓄積する画像適合度算出ステップ(ステップ2)と、を行う。
話題語位置情報記憶手段に格納されている位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得し、
位置情報と話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、距離評価値を求める。
文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得するステップを行い、
画像適合度算出ステップ(ステップ2)において、画像適合度算出手段が、
画像サイズが大きいほど高いサイズ評価値を求め、距離評価値とサイズ評価値の加重和を画像適合度として付与するステップを行う。
画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って距離評価値を求める。
文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段204に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、収集された個々の画像との位置情報を求め、話題語位置情報記憶手段103に格納する画像収集手段101と、
話題語位置情報記憶手段103に格納されている位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある1つの画像に着目したときの各話題語との距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段208に蓄積する画像適合度算出手段102と、を有する。
話題語位置情報記憶手段103に格納されている位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得する手段と、
位置情報と話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、距離評価値を求める手段と、を含む。
文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得する手段を含み、
画像適合度算出手段102において、
画像サイズが大きいほど高いサイズ評価値を求め、距離評価値とサイズ評価値の加重和を画像適合度として付与する手段、を含む。
画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って距離評価値を求める手段を含む。
図3は、本発明の第1の実施の形態における話題情報抽出装置の構成を示す。
“http://www.aaa.co.jp/sport/top.html”
を取得し、当該WebページURLに基づいて文書蓄積部201を検索し、図7(a)に示すHTML文書を取得する。HTML文書に対して、ステップ61の処理において、画像収集部101は、IMGタグの抽出と形態素解析処理を行う。図7(b)は、IMGタグと名詞句を1行毎に書き出した処理結果の例である。形態素解析の結果としては、助詞なども含まれるが、次の処理において話題語が存在するかどうかを調べるため、話題語と同じ品詞のみを対象に処理を行うことで処理の高速化を図る。ここでは、名詞句のみを対象に話題語抽出処理を行った場合を仮定し、名詞句のみをステップ61の処理結果とする。
<img src=”/images/logo/aaa.gif’width=”100”height=”20”border=”0”align=”right”>
であり、横100ピクセル、高さ20ピクセルであることが分かる。
<img src=”/picture/20051018/0001.jpg” width=”154”height=”180”>
であり、横154ピクセル、高さ180ピクセルの画像であるため、処理対象画像と判断する(ステップ62、Yes)。そこで、画像収集部101は、この画像URLに基づいてネットワークを介して画像ファイルを取得し、画像蓄積部204に蓄積する(ステップ63)。この際、画像URLが相対パスであるため絶対パスに変換して画像の取得を行う。
次に、本発明の第2の実施の形態について説明する。本実施の形態における話題情報抽出装置の構成は、図3に示す第1の実施の形態の構成と同様である。
101 画像収集手段、画像収集部
102 画像適合度算出手段、画像適合度算出部
103 話題語位置情報記憶手段、話題語位置情報記憶部
201 文書蓄積部
202 文書クラスタリング部
203 話題語抽出部
204 画像記憶手段、画像蓄積部
205 収集先リスト
206 文書クラスタ記録部
207 Webページ収集部
208 話題情報記憶手段、話題情報蓄積部
1031 画像URL
1032 文書クラスタID
1033 WebページURL
1034 話題語
1035 前方単語数
1036 後方単語数
2051 文書クラスタID
2052 話題語
2053 話題画像URL
2061 文書クラスタID
2062 WebページURL
2063 話題語
2064 話題語評価値
Claims (9)
- 画像収集手段、画像適合度算出手段、記憶手段を有する話題情報抽出装置において、文書の集合(以下、文書クラスタと記す)に対する代表画像を選定する話題画像抽出方法であって、
前記画像収集手段が、
前記文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、前記収集された個々の画像との位置情報を求め、話題語位置情報記憶手段に格納する画像収集ステップと、
前記画像適合度算出手段が、
前記話題語位置情報記憶手段に格納されている前記位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある1つの画像に着目したときの各話題語との前記距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、前記文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段に蓄積する画像適合度算出ステップと、
を行うことを特徴とする話題画像抽出方法。 - 前記画像適合度算出ステップにおいて、前記画像適合度算出手段が、
前記話題語位置情報記憶手段に格納されている前記位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得し、
前記位置情報と前記話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、前記距離評価値を求める、
請求項1記載の話題画像抽出方法。 - 前記画像収集ステップにおいて、前記画像収集手段が、
前記文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得するステップを行い、
前記画像適合度算出ステップにおいて、前記画像適合度算出手段が、
画像サイズが大きいほど高いサイズ評価値を求め、前記距離評価値と前記サイズ評価値の加重和を画像適合度として付与するステップを行う
請求項1または2に記載の話題画像抽出方法。 - 前記画像適合度算出ステップにおいて、前記画像適合度算出手段が、
前記画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って前記距離評価値を求める、
請求項1乃至3のいずれか1項に記載の話題画像抽出方法。 - 文書の集合(以下、文書クラスタと記す)に対する代表画像を選定する話題画像抽出装置であって、
前記文書クラスタの中の各文書がリンクしている画像を収集し、画像記憶手段に格納すると共に、該文書クラスタに対応する複数の話題語の個々の話題語と、前記収集された個々の画像との位置情報を求め、話題語位置情報記憶手段に格納する画像収集手段と、
前記話題語位置情報記憶手段に格納されている前記位置情報から、個々の話題語と個々の画像との距離を取得し、該距離が短いほど高くなる距離による評価値を利用して、ある1つの画像に着目したときの各話題語との前記距離による評価値の総和を当該画像の距離評価値として求め、該距離評価値を画像適合度として当該画像に付与し、前記文書クラスタと画像適合度が付与された画像のリンク情報を対応付けて話題情報記憶手段に蓄積する画像適合度算出手段と、
を有することを特徴とする話題画像抽出装置。 - 前記画像適合度算出手段は、
前記話題語位置情報記憶手段に格納されている前記位置情報と、文書クラスタ記憶手段から話題語毎に付与されている話題語の評価値を取得する手段と、
前記位置情報と前記話題語の評価値に基づいて、距離が短いほど、かつ、該話題語の評価値が高いほど高くなる距離による評価値を利用して、前記距離評価値を求める手段と、
を含む請求項5記載の話題画像抽出装置。 - 前記画像収集手段は、
前記文書の、画像を取得するために必要なタグ要素に基づいて画像サイズを取得する手段を含み、
前記画像適合度算出手段は、
画像サイズが大きいほど高いサイズ評価値を求め、前記距離評価値と前記サイズ評価値の加重和を画像適合度として付与する手段、を含む
請求項5または6に記載の話題画像抽出装置。 - 前記画像適合度算出手段は、
前記画像と話題語との距離が同じ場合は、該話題語が該画像の前方にある方が後方にあるより高い値となるよう距離に重み付けを行って前記距離評価値を求める手段を含む、
請求項5乃至7のいずれか1項に記載の話題画像抽出装置。 - 請求項5乃至8のいずれか1項に記載の話題画像抽出装置の各手段の機能をコンピュータに実行させることを特徴とする話題画像抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006061746A JP4606349B2 (ja) | 2006-03-07 | 2006-03-07 | 話題画像抽出方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006061746A JP4606349B2 (ja) | 2006-03-07 | 2006-03-07 | 話題画像抽出方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007241568A JP2007241568A (ja) | 2007-09-20 |
JP4606349B2 true JP4606349B2 (ja) | 2011-01-05 |
Family
ID=38587064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006061746A Expired - Fee Related JP4606349B2 (ja) | 2006-03-07 | 2006-03-07 | 話題画像抽出方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4606349B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010049598A (ja) * | 2008-08-25 | 2010-03-04 | Naninani.Tv:Kk | ウェブサイト作成支援装置及びウェブサイト作成支援プログラム |
KR101196935B1 (ko) | 2010-07-05 | 2012-11-05 | 엔에이치엔(주) | 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템 |
KR101196989B1 (ko) | 2010-07-06 | 2012-11-02 | 엔에이치엔(주) | 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템 |
CN111209424B (zh) * | 2020-01-10 | 2023-05-12 | 北京字节跳动网络技术有限公司 | 一种图片展示方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0498463A (ja) * | 1990-08-13 | 1992-03-31 | Nec Corp | 写真検索装置 |
JPH08287086A (ja) * | 1995-04-13 | 1996-11-01 | Nippon Telegr & Teleph Corp <Ntt> | 適合度順画像強調表示方法及び装置 |
JP2001184367A (ja) * | 1999-12-27 | 2001-07-06 | Matsushita Electric Ind Co Ltd | データ分類用統計情報抽出装置 |
-
2006
- 2006-03-07 JP JP2006061746A patent/JP4606349B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0498463A (ja) * | 1990-08-13 | 1992-03-31 | Nec Corp | 写真検索装置 |
JPH08287086A (ja) * | 1995-04-13 | 1996-11-01 | Nippon Telegr & Teleph Corp <Ntt> | 適合度順画像強調表示方法及び装置 |
JP2001184367A (ja) * | 1999-12-27 | 2001-07-06 | Matsushita Electric Ind Co Ltd | データ分類用統計情報抽出装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2007241568A (ja) | 2007-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8285713B2 (en) | Image search using face detection | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
US20090319449A1 (en) | Providing context for web articles | |
US20110047161A1 (en) | Query/Document Topic Category Transition Analysis System and Method and Query Expansion-Based Information Retrieval System and Method | |
JP6429382B2 (ja) | コンテンツ推薦装置、及びプログラム | |
EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
KR100974064B1 (ko) | 사용자 맞춤형 정보 제공 시스템 및 그 방법 | |
KR101059557B1 (ko) | 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체 | |
US20050050086A1 (en) | Apparatus and method for multimedia object retrieval | |
JP4896132B2 (ja) | 情報価値を反映した情報検索方法及びその装置 | |
KR20070009338A (ko) | 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치 | |
KR101011726B1 (ko) | 스니펫 제공 장치 및 방법 | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP4769151B2 (ja) | 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体 | |
WO2020101479A1 (en) | System and method to detect and generate relevant content from uniform resource locator (url) | |
JP4606349B2 (ja) | 話題画像抽出方法及び装置及びプログラム | |
KR101178208B1 (ko) | 키워드 추출 장치 및 방법 | |
JP4883644B2 (ja) | リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法 | |
JP4703487B2 (ja) | 画像分類方法及び装置及びプログラム | |
US20040010556A1 (en) | Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
KR101105798B1 (ko) | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 | |
JP2007188427A (ja) | 話題画像選出方法及び装置及プログラム | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100518 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100810 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101005 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131015 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |