JP5671891B2 - タグ付け装置、タグ付け方法およびプログラム - Google Patents
タグ付け装置、タグ付け方法およびプログラム Download PDFInfo
- Publication number
- JP5671891B2 JP5671891B2 JP2010195847A JP2010195847A JP5671891B2 JP 5671891 B2 JP5671891 B2 JP 5671891B2 JP 2010195847 A JP2010195847 A JP 2010195847A JP 2010195847 A JP2010195847 A JP 2010195847A JP 5671891 B2 JP5671891 B2 JP 5671891B2
- Authority
- JP
- Japan
- Prior art keywords
- tag
- link
- unit
- web page
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
特許文献1に示される方法では、文書を意味解析するため、解析時間が非常に長くなるという問題がある。また、意味解析のためには辞書を利用するため、辞書に登録されていない語が含まれている場合、解析精度が低下するという問題がある。
リンク先のウェブページを特定する情報を含むテキストからなる特定の文書に基づき、前記リンクを辿りながら複数の文書を取得するクローラ部と、
前記特定の文書、及びクローラ部により取得された文書のそれぞれを解析して前記リンク先のウェブページを特定する情報を抽出するリンク解析部と、
前記リンク解析部により抽出された前記リンク先のウェブページを特定する情報の記載箇所の前後を解析して、該リンク先のウェブページのタグの候補となる語句をタグ候補として抽出するタグ候補抽出部と、
複数の前記抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定するタグランキング算定部と、
前記タグランキングに基づき決定したタグを前記リンク先のウェブページに付与するタグ決定部と、
を備える、ことを特徴とする。
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出し、
リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出し、
該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定し、
算定したタグランキングに基づいて決定したタグをリンク先のウェブページに付与する、
ことを特徴とする。
コンピュータを、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出するリンク解析手段、
前記リンク解析手段により抽出された前記リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出するタグ候補抽出手段、
前記タグ候補抽出手段により抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定するタグランキング算定手段、
前記タグランキングに基づき決定したタグをリンク先のウェブページに付与するタグ付与手段、として機能させる、
ことを特徴とする。
例えば、「猫」という単語について、リンク先1が5か所のリンク元からリンクが張られていた場合、タグ管理部140に「猫|リンク先1|5」というタグ候補データを作成し、該タグ候補データを蓄積する。
また、ランキングの例としては、他に、相互リンクが多いリンク元のタグを優先したり、ベイズ推定を利用したり、TF/IDF(Term Frequency/Inverse Document Frequency)を利用したりすることなどが想定される。
デバイス2はタグ付け装置1のハードウェアであり、制御部200、プログラム記憶部210、データベース記憶部220、プログラムバッファ230,通信部240などから構成される。
プログラム記憶部210は、例えば、磁気ディスクなどから構成され、プログラムなどを記憶する
データベース記憶部220は、例えば、磁気ディスクなどから構成され、タグ候補データなどを記憶する。
プログラムバッファ部230は、制御部200が実行するプログラムなどを記憶する。
通信部240は、例えば、MODEMなどから構成され、制御部200の制御に従って他の装置と通信する。
「www.linksaki.004」のウェブページにリンク先のウェブページとして「www.linksaki.002」と「www.linksaki.003」とが記述されているとする。
次に、「www.linksaki.002」のウェブページと「www.linksaki.003」のウェブページとのいずれにもリンク先のウェブページとして「www.linksaki.001」が記述されている。
そして、「www.linksaki.001」のウェブページにリンク先のウェブページとして「www.linksaki.000」が記述されている。
以上のような、ウェブページがリンク付けされていることをハイパーリンクという。
まず、クローラ部100は、現在のウェブページである文書を取得する。
リンク先のウェブページを特定する情報を含むテキストからなる特定の文書に基づき、前記リンクを辿りながらテキストとして複数の文書を取得するクローラ部と、
前記特定の文書、及びクローラ部により取得された文書データのそれぞれを解析して前記リンク先のウェブページを特定する情報を抽出するリンク解析部と、
前記リンク解析部により抽出された前記リンク先のウェブページを特定する情報の記載箇所の前後を解析してタグの候補となる語句をタグ候補として抽出するタグ候補抽出部と、
複数の前記抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定部と、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定部と、
を備える、ことを特徴とするタグ付け装置。
前記タグランキングは、前記リンク解析部により抽出されたリンク先の情報と、前記タグ候補抽出部により抽出された語句との組み合わせ毎に該組み合わせが抽出された回数であることを特徴とする付記1に記載のタグ付け装置。
前記リンク解析部により抽出されたリンク先を特定する情報と前記タグ候補抽出部により抽出されたタグの候補となる語句との組み合わせと、該組み合わせの出現回数とを対応付けて記憶するデータベースを備え、
該データベースは、前記リンク解析部が抽出したリンク先情報と前記タグ候補抽出部が抽出した語句との組み合わせについて、新規な組み合わせであるか登録済みであるかを判別する判別手段と、該判別手段が新規な組み合わせであると判別した場合には、該組み合わせを登録すると共に抽出回数を1とし、登録済みの組み合わせであると判別した場合には、抽出回数を更新するデータ更新手段と、
を備える、ことを特徴とする付記1又は2に記載のタグ付け装置。
前記タグ決定部は、前記データベースの登録データを解析し、前記タグランキング算定部により抽出回数が計数されたリンク先の情報とタグの候補となる語句との組み合わせについて、リンク先の情報が同一のものを特定し、特定した組のうちで、前記タグランキング算定部により計数された抽出回数が最大である組の語句をタグとして付与する、ことを特徴とする付記1乃至3のいずれか1項に記載のタグ付け装置。
ネットワーク上のウェブページを収集して記憶する蓄積手段を備え、
前記リンク解析部と前記タグ候補抽出部とは、前記蓄積手段に蓄積されたウェブページを順次解析する、
ことを特徴とする付記1乃至4のいずれか1項に記載のタグ付け装置。
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出し、
リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出し、
該タグ候補のそれぞれの出現頻度であるタグランキングを算定して、タグを決定する、
ことを特徴とするタグ付け方法。
コンピュータを、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出するリンク解析手段、
前記リンク解析手段により抽出された前記リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出するタグ候補抽出手段、
前記タグ候補抽出手段により抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定手段、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定手段、として機能させる、
ことを特徴とするプログラム。
2 デバイス
100 クローラ部
110 リンク解析部
120 タグ候補抽出部
130 タグランキング算定部
140 タグ管理部
150 タグ決定部
160 バス
200 制御部
210 プログラム記憶部
220 データベース記憶部
230 プログラムバッファ部
240 通信部
Claims (7)
- リンク先のウェブページを特定する情報を含むテキストからなる特定の文書に基づき、前記リンクを辿りながら複数の文書を取得するクローラ部と、
前記特定の文書、及びクローラ部により取得された文書のそれぞれを解析して前記リンク先のウェブページを特定する情報を抽出するリンク解析部と、
前記リンク解析部により抽出された前記リンク先のウェブページを特定する情報の記載箇所の前後を解析して、該リンク先のウェブページのタグの候補となる語句をタグ候補として抽出するタグ候補抽出部と、
複数の前記抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定するタグランキング算定部と、
前記タグランキングに基づき決定したタグを前記リンク先のウェブページに付与するタグ決定部と、
を備える、ことを特徴とするタグ付け装置。 - 前記タグランキングは、前記リンク解析部により抽出されたリンク先のウェブページを特定する情報と前記タグ候補抽出部により抽出された語句との組み合わせが抽出された回数のランキングであることを特徴とする請求項1に記載のタグ付け装置。
- 前記リンク解析部により抽出されたリンク先のウェブページを特定する情報と前記タグ候補抽出部により抽出されたタグの候補となる語句との組み合わせと、該組み合わせの出現回数と、を対応付けて登録するデータベースと、
前記リンク解析部が抽出したリンク先のウェブページを特定する情報と前記タグ候補抽出部が抽出した語句との組み合わせについて、新規な組み合わせであるか登録済みであるかを判別する判別手段と、該判別手段が新規な組み合わせであると判別した場合には、該組み合わせを登録すると共に抽出回数を1とし、登録済みの組み合わせであると判別した場合には、抽出回数を更新するデータ更新手段と、
を備える、ことを特徴とする請求項1又は2に記載のタグ付け装置。 - 前記タグ決定部は、前記データベースの登録データを解析し、前記タグランキング算定部により抽出回数が計数されたリンク先のウェブページを特定する情報とタグの候補となる語句との組み合わせについて、リンク先のウェブページを特定する情報が同一のものを特定し、特定した組み合わせのうちで、前記タグランキング算定部により計数された抽出回数が最大である組み合わせの語句を該リンク先のウェブページのタグとして付与する、ことを特徴とする請求項3に記載のタグ付け装置。
- ネットワーク上のウェブページを収集して記憶する蓄積手段を備え、
前記リンク解析部と前記タグ候補抽出部とは、前記蓄積手段に蓄積されたウェブページを順次解析する、
ことを特徴とする請求項1乃至4のいずれか1項に記載のタグ付け装置。 - リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出し、
リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出し、
該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定し、
算定したタグランキングに基づいて決定したタグをリンク先のウェブページに付与する、
ことを特徴とするタグ付け方法。 - コンピュータを、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出するリンク解析手段、
前記リンク解析手段により抽出された前記リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出するタグ候補抽出手段、
前記タグ候補抽出手段により抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定するタグランキング算定手段、
前記タグランキングに基づき決定したタグをリンク先のウェブページに付与するタグ付与手段、として機能させる、
ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010195847A JP5671891B2 (ja) | 2010-09-01 | 2010-09-01 | タグ付け装置、タグ付け方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010195847A JP5671891B2 (ja) | 2010-09-01 | 2010-09-01 | タグ付け装置、タグ付け方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012053672A JP2012053672A (ja) | 2012-03-15 |
JP5671891B2 true JP5671891B2 (ja) | 2015-02-18 |
Family
ID=45906915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010195847A Active JP5671891B2 (ja) | 2010-09-01 | 2010-09-01 | タグ付け装置、タグ付け方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5671891B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4172388B2 (ja) * | 2003-12-08 | 2008-10-29 | 日本電気株式会社 | リンク診断装置、リンク診断方法およびリンク診断プログラム。 |
JP2005251157A (ja) * | 2004-02-03 | 2005-09-15 | Recruit Co Ltd | 情報検索システムおよび情報検索方法ならびにプログラム |
JP4521343B2 (ja) * | 2005-09-29 | 2010-08-11 | 株式会社東芝 | 文書処理装置及び文書処理方法 |
JP5224767B2 (ja) * | 2007-10-10 | 2013-07-03 | 日本電信電話株式会社 | 大規模タグ付きコーパス作成方法、その装置およびプログラム |
JP5373710B2 (ja) * | 2010-06-30 | 2013-12-18 | ヤフー株式会社 | インデックス更新装置及びその方法 |
-
2010
- 2010-09-01 JP JP2010195847A patent/JP5671891B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012053672A (ja) | 2012-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678418B (zh) | 信息处理方法和信息处理设备 | |
KR101806151B1 (ko) | 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체 | |
EP3635540A1 (en) | Intent-based organisation of apis | |
KR101099908B1 (ko) | 문서 간 유사도 계산 시스템 및 방법 | |
KR20130060720A (ko) | 목적 기반 시맨틱 서비스 디스커버리를 위한 서비스 목적 해석 장치 및 방법 | |
KR101660106B1 (ko) | 비정형 문화관광 데이터 수집 및 정형화를 통한 맞춤형 문화관광 콘텐츠 추천 시스템 및 방법 | |
CN107870915B (zh) | 对搜索结果的指示 | |
CN111639101A (zh) | 一种物联网规则引擎系统的相关方法、装置、系统及存储介质 | |
JP2014089606A (ja) | 情報処理装置及びその制御方法、プログラム | |
JP2007140603A (ja) | アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム | |
JP2008299842A (ja) | 広告執行による反応情報提供方法、コンピュータ読み取り可能な記録媒体、広告執行による反応情報提供システム | |
JP2003099442A (ja) | キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体 | |
JP5761029B2 (ja) | 辞書作成装置、単語収集方法、及び、プログラム | |
CN113806647A (zh) | 识别开发框架的方法及相关设备 | |
JP5671891B2 (ja) | タグ付け装置、タグ付け方法およびプログラム | |
CN110489628A (zh) | 数据处理方法、装置及电子设备 | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
JP5162215B2 (ja) | データ処理装置、データ処理方法、および、プログラム | |
KR100834293B1 (ko) | 문서 처리 시스템 및 방법 | |
CN114302227A (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
JP2002197115A (ja) | 評価基準データを用いたウェブページ検索方法及び記憶媒体 | |
JP2005044087A (ja) | テキストマイニングシステム及びプログラム | |
JP5187064B2 (ja) | Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法 | |
JP4222166B2 (ja) | 文書収集装置、文書検索装置及び文書収集検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141125 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5671891 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |