JP5671891B2 - タグ付け装置、タグ付け方法およびプログラム - Google Patents

タグ付け装置、タグ付け方法およびプログラム Download PDF

Info

Publication number
JP5671891B2
JP5671891B2 JP2010195847A JP2010195847A JP5671891B2 JP 5671891 B2 JP5671891 B2 JP 5671891B2 JP 2010195847 A JP2010195847 A JP 2010195847A JP 2010195847 A JP2010195847 A JP 2010195847A JP 5671891 B2 JP5671891 B2 JP 5671891B2
Authority
JP
Japan
Prior art keywords
tag
link
unit
web page
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010195847A
Other languages
English (en)
Other versions
JP2012053672A (ja
Inventor
貢 三浦
貢 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010195847A priority Critical patent/JP5671891B2/ja
Publication of JP2012053672A publication Critical patent/JP2012053672A/ja
Application granted granted Critical
Publication of JP5671891B2 publication Critical patent/JP5671891B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は文書の処理に関する分野に属し、特にウェブページに対するタグ付けを高速、高精度に実施するタグ付け装置、タグ付け方法、プログラムに関するものである。
従来、文書を解析して自動的にタグ付けする装置が開発されている。
文書のタグ付けにはいくつかの方式がある。1つは特許文献1に見られるように、対象となる文書を構文解析、意味解析し、意味的な分類を自動的に生成してタグ付けする方法である。
また、特許文献2に見られるように、すでにタグ付けされている文書を利用して、タグ付けされていない文書との包含性や類似性を利用してタグ付けする方法である。
しかし、上記方法にはそれぞれ以下のような問題がある。
特許文献1に示される方法では、文書を意味解析するため、解析時間が非常に長くなるという問題がある。また、意味解析のためには辞書を利用するため、辞書に登録されていない語が含まれている場合、解析精度が低下するという問題がある。
特許文献2に示される方法では、タグ付きの文書のセットを事前に準備する必要があるという問題がある。また、多数の文書間の包含性を計算するには多くの時間が必要となるという問題がある。
特開2007−94855号公報 特開2009−93481号公報
本発明は、上記問題に鑑みてなされたものであり、文書中に張られているリンクを解析して、リンクの前後の記載、及びリンク先のウェブページのリンク前後の記載からタグ候補を抽出することにより、そのランキングに基づき、高速、かつ、高精度にその文書にタグ付けすることを目的とする。
本発明の第1の観点にかかるタグ付け装置は、
リンク先のウェブページを特定する情報を含むテキストからなる特定の文書に基づき、前記リンクを辿りながら複数の文書を取得するクローラ部と、
前記特定の文書、及びクローラ部により取得された文書のそれぞれを解析して前記リンク先のウェブページを特定する情報を抽出するリンク解析部と、
前記リンク解析部により抽出された前記リンク先のウェブページを特定する情報の記載箇所の前後を解析して、該リンク先のウェブページのタグの候補となる語句をタグ候補として抽出するタグ候補抽出部と、
複数の前記抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定するタグランキング算定部と、
前記タグランキングに基づき決定したタグを前記リンク先のウェブページに付与するタグ決定部と、
を備える、ことを特徴とする。
本発明の第2の観点にかかるタグ付け方法は、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出し、
リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出し、
該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定し
算定したタグランキングに基づいて決定したタグをリンク先のウェブページに付与する
ことを特徴とする。
本発明の第3の観点にかかるプログラムは、
コンピュータを、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出するリンク解析手段、
前記リンク解析手段により抽出された前記リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出するタグ候補抽出手段、
前記タグ候補抽出手段により抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定するタグランキング算定手段、
前記タグランキングに基づき決定したタグをリンク先のウェブページに付与するタグ付与手段、として機能させる、
ことを特徴とする。
本発明によれば、文書中に張られているリンクを解析して、リンクの前後の記載、及びリンク先のウェブページのリンク前後の記載からタグ候補を抽出することにより、そのランキングに基づき、高速、かつ、高精度にその文書にタグ付けすることができる。
本発明のシステム構成の全体像を示すブロック図である。 システムのハードウェア構成を示すブロック図である。 タグ候補抽出処理のフローチャートである。 タグ決定処理のフローチャートである。 蓄積されているタグ候補データを説明した図である。 ウェブページのハイパーリンクを説明した図である。 リンク先とタグ候補を切り出した図である。
本発明にかかるシステム構成を、図1を参照して説明する。
タグ付け装置1は、文書にタグ付けする装置であり、クローラ部100、リンク解析部110、タグ候補抽出部120、タグランキング算定部130、タグ管理部140、タグ決定部150、バス160などから構成される。
クローラ部100は、リンクを辿りながら文書を取得する。
リンク解析部110は、クローラ部100が取得した文書からリンク先のURLを抽出して取得する。
タグ候補抽出部120は、リンク解析部110がリンク先のURLを抽出して取得する際に、当該文書のリンク先のURLの記載されている箇所の前後を解析し、タグ候補を抽出する。
タグランキング算定部130は、タグ候補のランキングを計算し、リンク先のウェブページのタグを判別する。例えば、あるリンク先のウェブページのタグの候補として「猫」という単語が5回、「犬」という単語が1回上がっていた場合に、回数の多い順に並べ替え、タグのランキングを計算し、タグの判別をしている。この例でいえば、回数が最も多い「猫」がリンク先のウェブページのタグとして判別される
タグ管理部140は、抽出されたタグ候補とリンク先とリンク数を「タグ候補|リンク先|リンク数」という形式でタグ候補データを作成し、タグ候補データを蓄積する装置である。
例えば、「猫」という単語について、リンク先1が5か所のリンク元からリンクが張られていた場合、タグ管理部140に「猫|リンク先1|5」というタグ候補データを作成し、該タグ候補データを蓄積する。
タグ決定部150は、タグランキング算定部130の結果に基づき、リンク先のウェブページに付すタグを決定する。本装置は、タグ候補を示すことも可能であり、UIFを持つ他の装置と組み合わせて、人手でタグ付けする場合にタグ付けを支援することも可能である。
また、ランキングの例としては、他に、相互リンクが多いリンク元のタグを優先したり、ベイズ推定を利用したり、TF/IDF(Term Frequency/Inverse Document Frequency)を利用したりすることなどが想定される。
バス160は、各部相互間の情報を伝達する。
タグ付け装置1のハードウェア構成を図2を参照して説明する。
デバイス2はタグ付け装置1のハードウェアであり、制御部200、プログラム記憶部210、データベース記憶部220、プログラムバッファ230,通信部240などから構成される。
制御部200は、例えば、CPU(Central Processing Unit)などから構成され、各部を制御する。
プログラム記憶部210は、例えば、磁気ディスクなどから構成され、プログラムなどを記憶する
データベース記憶部220は、例えば、磁気ディスクなどから構成され、タグ候補データなどを記憶する。
プログラムバッファ部230は、制御部200が実行するプログラムなどを記憶する。
通信部240は、例えば、MODEMなどから構成され、制御部200の制御に従って他の装置と通信する。
次に、図3のフローチャートを参照してタグ候補抽出処理について詳細に説明する。
クローラ部100は、現在のウェブページから文書を取得する(ステップS101)。
クローラ部100は、ステップS101の処理を完了すると、取得した文書中にリンクが張られているかどうか判別する(ステップS102)。
クローラ部100は、取得した文書中にリンクが張られていないと判別した場合(ステップS102:NO)次のウェブページへ行き、タグ候補抽出処理を行う(ステップS103)。
一方、クローラ部100が、取得した文書中にリンクが張られていると判別した場合(ステップS102:YES)、リンク解析部110はリンク先の情報を取得する(ステップS104)。
ステップS104の処理を完了すると、タグ候補抽出部120はリンク先の情報の前後を解析してタグ候補を抽出する(ステップS105)。
ステップS105の処理を完了すると、タグ管理部140は、タグ候補とリンク先とリンク数を「タグ候補|リンク先|リンク数」という形式でタグ候補データを作成する(ステップS106)。
ステップS106の処理を完了すると、タグランキング算定部130は、前記タグ候補データがタグ管理部140にないと判別すると(ステップS107:NO)、該タグ候補データを新たにタグ管理部140に追加する(ステップS108)。
一方、タグランキング算定部130は、タグ候補データがタグ管理部140に既にある場合には(ステップS107:YES)、該タグ候補データのリンク数を1加えて、タグ管理部140のタグ候補データを更新する(ステップS109)。
ここで、蓄積されているタグ候補データについて、図5を参照して説明する。タグ候補データの形式は「タグ候補|リンク先|リンク数」であり、蓄積されているデータは、リンク先「www.linksaki.001」では、タグ候補「猫」についてリンク数は5、タグ候補「馬」についてリンク数は1,タグ候補「鳥」についてリンク数は1であり、リンク先「www.linksaki.002」では、タグ候補「犬」についてリンク数は4、タグ候補「猿」についてリンク数は1である。
ステップS108またはステップS109の処理を完了すると、タグ決定処理を開始する(ステップS110)。
ここで、図4のフローチャートを参照してタグ決定処理について詳細に説明する。
タグランキング算定部130は、タグ管理部140から同一のリンク先のタグ候補データを読み出す(ステップS201)。
ステップS201の処理を完了すると、タグランキング算定部130は、該リンク先についてのタグ候補データのうちリンク数が最も多いタグ候補を計算する(ステップS202)。
ステップS202の処理を完了すると、タグ決定部150は、該リンク先についてのリンク数が最も多いタグ候補をリンク先のウェブページのタグとしてタグ付けをする(ステップS203)。
ステップS203の処理が完了すると、ステップS102の処理を再度実行する。
ここで、ハイパーリンクについて、図6を参照して説明する。
「www.linksaki.004」のウェブページにリンク先のウェブページとして「www.linksaki.002」と「www.linksaki.003」とが記述されているとする。
次に、「www.linksaki.002」のウェブページと「www.linksaki.003」のウェブページとのいずれにもリンク先のウェブページとして「www.linksaki.001」が記述されている。
そして、「www.linksaki.001」のウェブページにリンク先のウェブページとして「www.linksaki.000」が記述されている。
以上のような、ウェブページがリンク付けされていることをハイパーリンクという。
次に、本発明のタグ付け処理について具体的に説明する。
まず、クローラ部100は、現在のウェブページである文書を取得する。
次に、クローラ部100は取得した文書中にリンクが張られているかどうか判別する。
ここでは、例えば、クローラ部100が取得した「www.linksaki.002」というウェブページの文書中に、「猫」という単語について「www.linksaki.001」というウェブページにリンクが張られていたとする。
リンク解析部110は、文書中からリンク先の情報を取得する。
ここでは、「www.linksaki.001」というリンク先のURL情報を取得する。
次に、タグ候補抽出部120は、現リンク先の文書から、リンク先のURL情報「www.linksaki.001」の記載箇所の前後を解析して、そこに記載されている「猫」をタグ候補として抽出する。
次に、タグ管理部140は、タグ候補データ「猫」について、タグ候補データを作成し、タグランキング算定部130は、該タグ候補データがタグ管理部140に存在するかどうか判別する。
該タグ候補データがタグ管理部140に存在しない場合、タグ管理部140は、「猫」というタグ候補について、「猫|リンク先|リンク数」(この場合、「猫|www.linksaki.001|1」)という形式で、タグ候補データを作り、タグ管理部140に蓄積する。(図7:例1)
これに対して、タグ候補データがタグ管理部140に存在する場合、タグ管理部140は、タグ候補データのリンク数を1加える。
例えば、タグ候補「猫」について、タグ管理部140に「猫|www.linksaki.001|5」というタグ候補データが存在していた場合、タグ管理部140は、該タグ候補データを「猫|www.linksaki.001|6」として、タグ候補データを更新する。
次に、クローラ部100は、タグ決定処理を開始する(ステップS110)。
タグランキング算定部130は、タグ管理部140からリンク先「www.linksaki.001」についてのタグ候補データを読み出す。
ここでは、例えば、「猫|www.linksaki.001|5」というタグ候補データと、「馬|www.linksaki.001|1」というタグ候補データを抽出してきたとする。
タグランキング算定部130は、該タグ候補データに基づいてタグの出現度ランキングを算定する。ここでは、タグ候補「猫」についてのリンク数は5、タグ候補「馬」についてのリンク数は1なので、「猫」をタグとして判別する。
次に、タグ決定部150は、リンク先「www.linksaki.001」のウェブページに「猫」をタグとしてつける。
なお、タグ候補は、単語に限られるものではない。
例えば、「可愛い猫」という文節については、タグ候補を「可愛い猫」という文節で抽出して、「可愛い猫|www.linksaki.001|1」という形式で、タグ候補データを作り、タグ管理部140に蓄積する。(図7:例2)
また、イメージデータについてリンクがされている場合にも同様で、イメージデータ「犬」についてのリンク先に「www.linksaki.002」がある場合、タグ候補を「犬」として「犬|www.linksaki.002|1」という形式で、タグ候補データを作り、タグ管理部140に蓄積する。(図7:例3)
これに対して、タグとして意味のない単語、例えば、「ここ」や「ここをクリックして下さい」などはタグ候補として抽出しない。
なお、本発明は上記実施例に限定されるものではない。
クローラ部100が全てのリンク先文書を収集した後にタグ候補を一括して作成する手順も想定できる。また、それ以外に本装置のそれぞれの処理の手順を変える場合も想定できる。
これにより、例えば、以下のような実施例が考えられる。
まず、クローラ部100は、現在のウェブページである文書を取得する。
リンク解析部110は、文書中からリンク先のURL情報を取得する。
次に、クローラ部100は取得した文書の中にリンクが張られているかどうか判別する。
「www.linksaki.004」のウェブページの文書に「鹿」という単語について「www.linksaki.002」、「犬」という単語について「www.linksaki.003」というウェブページにリンクが張られていた。
まず、リンク解析部110は、リンク先のURL情報「www.linksaki.002」、及び「www.linksaki.003」を取得する。
次に、タグ候補抽出部120は、リンク先のURL情報「www.linksaki.002」、「www.linksaki.003」の記載箇所の前後を解析して、リンク先「www.linksaki.002」についてはタグ候補「鹿」を抽出し、リンク先「www.linksaki.003」についてはタグ候補「犬」を抽出する。
次に、タグ管理部140は、タグ候補データ「鹿」、「犬」について、タグ候補データを作成し、タグランキング算定部130は、該タグ候補データがタグ管理部140に存在するかどうか判別する。
該タグ候補データがタグ管理部140に存在しない場合、タグ管理部140は、「鹿」というタグ候補について「鹿|www.linksaki.002|1」)という形式で、タグ候補データを作り、「犬」というタグ候補について「犬|www.linksaki.003|1」)という形式で、タグ候補データを作り、タグ管理部140に蓄積する。
これに対して、タグ候補データがタグ管理部140に存在する場合、タグ管理部140は、タグ候補データのリンク数を1加えて、タグ候補データを更新する。
次に、タグ決定部150は、タグ付け処理を開始する。
タグランキング算定部130は、タグ管理部140からリンク先「www.linksaki.002」、「www.linksaki.003」についてのタグ候補データを読み出す。
ここでは、例えば、リンク先「www.linksaki.002」については、「鹿|www.linksaki.002|5」というタグ候補データと、「鳥|www.linksaki.002|1」というタグ候補データを抽出し、リンク先「www.linksaki.003」については、「犬|www.linksaki.003|4」というタグ候補データと、「猿|www.linksaki.003|1」というタグ候補データを抽出してきたとする。
よって、タグランキング算定部130は、リンク先「www.linksaki.002」については「鹿」をタグとして判別し、リンク先「www.linksaki.003」については「犬」をタグとして判別し、タグ決定部150は、リンク先「www.linksaki.002」については「鹿」をタグとして付け、リンク先「www.linksaki.003」については「犬」をタグとして付ける、という実施例が考えられる。
本発明を実施するにあたっては、種々の形態による変形及び応用が可能であり、上記の実施形態に限られない。
また、上記実施形態の説明に用いた模式図やフローチャート等は、本発明の趣旨を逸脱しない範囲で適宜変更しても良い。
図3、4に示すフローチャートは、タグ付け装置の動作を説明するとともに、タグ付け方法をも示す。
タグ付け装置はコンピュータの一種であるため、図3、4に示すフローチャートは、タグ付けを実行するための動作プログラムの内容をも示す。
また、上記実施形態に係るタグ付け装置により実行される機能は、ソフトウェアに限らず、専用のハードウェアによって実現することもできる。
上記実施形態では、タグ付け装置において、動作プログラムがROM等に予め記憶されているものとして説明した。しかし、上述の処理動作を実行させるためのプログラムを、フレキシブルディスク、CD−ROM(Compact Disk Read-Only Memory)、DVD(Digital Versatile Disk)、MO(Magneto-Optical disk)等のコンピュータ読み取り可能な記録媒体に格納して配布し、そのプログラムをコンピュータにインストールすることにより、上述の処理動作を実行する装置を構成しても良い。
また、プログラムをインターネット等の通信ネットワーク上の所定のサーバ装置が有するディスク装置等に格納しておき、例えば、搬送波に重畳させて、コンピュータにダウンロード等するようにしても良い。更に、通信ネットワークを介してプログラムを転送しながら起動実行することによっても、上述の処理を達成することができる。
また、上述の機能を、OS(Operating System)が分担して実現する場合又はOSとアプリケーションとの協働により実現する場合等には、OS以外の部分のみを媒体に格納して配布してもよく、また、コンピュータにダウンロード等しても良い。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
リンク先のウェブページを特定する情報を含むテキストからなる特定の文書に基づき、前記リンクを辿りながらテキストとして複数の文書を取得するクローラ部と、
前記特定の文書、及びクローラ部により取得された文書データのそれぞれを解析して前記リンク先のウェブページを特定する情報を抽出するリンク解析部と、
前記リンク解析部により抽出された前記リンク先のウェブページを特定する情報の記載箇所の前後を解析してタグの候補となる語句をタグ候補として抽出するタグ候補抽出部と、
複数の前記抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定部と、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定部と、
を備える、ことを特徴とするタグ付け装置。
(付記2)
前記タグランキングは、前記リンク解析部により抽出されたリンク先の情報と、前記タグ候補抽出部により抽出された語句との組み合わせ毎に該組み合わせが抽出された回数であることを特徴とする付記1に記載のタグ付け装置。
(付記3)
前記リンク解析部により抽出されたリンク先を特定する情報と前記タグ候補抽出部により抽出されたタグの候補となる語句との組み合わせと、該組み合わせの出現回数とを対応付けて記憶するデータベースを備え、
該データベースは、前記リンク解析部が抽出したリンク先情報と前記タグ候補抽出部が抽出した語句との組み合わせについて、新規な組み合わせであるか登録済みであるかを判別する判別手段と、該判別手段が新規な組み合わせであると判別した場合には、該組み合わせを登録すると共に抽出回数を1とし、登録済みの組み合わせであると判別した場合には、抽出回数を更新するデータ更新手段と、
を備える、ことを特徴とする付記1又は2に記載のタグ付け装置。
(付記4)
前記タグ決定部は、前記データベースの登録データを解析し、前記タグランキング算定部により抽出回数が計数されたリンク先の情報とタグの候補となる語句との組み合わせについて、リンク先の情報が同一のものを特定し、特定した組のうちで、前記タグランキング算定部により計数された抽出回数が最大である組の語句をタグとして付与する、ことを特徴とする付記1乃至3のいずれか1項に記載のタグ付け装置。
(付記5)
ネットワーク上のウェブページを収集して記憶する蓄積手段を備え、
前記リンク解析部と前記タグ候補抽出部とは、前記蓄積手段に蓄積されたウェブページを順次解析する、
ことを特徴とする付記1乃至4のいずれか1項に記載のタグ付け装置。
(付記6)
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出し、
リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出し、
該タグ候補のそれぞれの出現頻度であるタグランキングを算定して、タグを決定する、
ことを特徴とするタグ付け方法。
(付記7)
コンピュータを、
リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出するリンク解析手段、
前記リンク解析手段により抽出された前記リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出するタグ候補抽出手段、
前記タグ候補抽出手段により抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度であるタグランキングを算定するタグランキング算定手段、
前記タグランキングの算定結果に基づき、タグを決定するタグ決定手段、として機能させる、
ことを特徴とするプログラム。
1 タグ付け装置
2 デバイス
100 クローラ部
110 リンク解析部
120 タグ候補抽出部
130 タグランキング算定部
140 タグ管理部
150 タグ決定部
160 バス
200 制御部
210 プログラム記憶部
220 データベース記憶部
230 プログラムバッファ部
240 通信部

Claims (7)

  1. リンク先のウェブページを特定する情報を含むテキストからなる特定の文書に基づき、前記リンクを辿りながら複数の文書を取得するクローラ部と、
    前記特定の文書、及びクローラ部により取得された文書のそれぞれを解析して前記リンク先のウェブページを特定する情報を抽出するリンク解析部と、
    前記リンク解析部により抽出された前記リンク先のウェブページを特定する情報の記載箇所の前後を解析して、該リンク先のウェブページのタグの候補となる語句をタグ候補として抽出するタグ候補抽出部と、
    複数の前記抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定するタグランキング算定部と、
    前記タグランキングに基づき決定したタグを前記リンク先のウェブページに付与するタグ決定部と、
    を備える、ことを特徴とするタグ付け装置。
  2. 前記タグランキングは、前記リンク解析部により抽出されたリンク先のウェブページを特定する情報と前記タグ候補抽出部により抽出された語句との組み合わせが抽出された回数のランキングであることを特徴とする請求項1に記載のタグ付け装置。
  3. 前記リンク解析部により抽出されたリンク先のウェブページを特定する情報と前記タグ候補抽出部により抽出されたタグの候補となる語句との組み合わせと、該組み合わせの出現回数とを対応付けて登録するデータベース
    記リンク解析部が抽出したリンク先のウェブページを特定する情報と前記タグ候補抽出部が抽出した語句との組み合わせについて、新規な組み合わせであるか登録済みであるかを判別する判別手段と、該判別手段が新規な組み合わせであると判別した場合には、該組み合わせを登録すると共に抽出回数を1とし、登録済みの組み合わせであると判別した場合には、抽出回数を更新するデータ更新手段と、
    を備える、ことを特徴とする請求項1又は2に記載のタグ付け装置。
  4. 前記タグ決定部は、前記データベースの登録データを解析し、前記タグランキング算定部により抽出回数が計数されたリンク先のウェブページを特定する情報とタグの候補となる語句との組み合わせについて、リンク先のウェブページを特定する情報が同一のものを特定し、特定した組み合わせのうちで、前記タグランキング算定部により計数された抽出回数が最大である組み合わせの語句を該リンク先のウェブページのタグとして付与する、ことを特徴とする請求項に記載のタグ付け装置。
  5. ネットワーク上のウェブページを収集して記憶する蓄積手段を備え、
    前記リンク解析部と前記タグ候補抽出部とは、前記蓄積手段に蓄積されたウェブページを順次解析する、
    ことを特徴とする請求項1乃至4のいずれか1項に記載のタグ付け装置。
  6. リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出し、
    リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出し、
    該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定し
    算定したタグランキングに基づいて決定したタグをリンク先のウェブページに付与する
    ことを特徴とするタグ付け方法。
  7. コンピュータを、
    リンク先のウェブページを特定する情報と語句とが記述されている複数のウェブページを解析してリンク先の情報を抽出するリンク解析手段、
    前記リンク解析手段により抽出された前記リンク先を特定する情報の前と後の少なくとも一方を解析してリンク先のウェブページのタグの候補となる語句を抽出するタグ候補抽出手段、
    前記タグ候補抽出手段により抽出されたタグ候補から、該タグ候補のそれぞれの出現頻度に基づいてタグランキングを算定するタグランキング算定手段、
    前記タグランキングに基づき決定したタグをリンク先のウェブページに付与するタグ付与手段、として機能させる、
    ことを特徴とするプログラム。
JP2010195847A 2010-09-01 2010-09-01 タグ付け装置、タグ付け方法およびプログラム Active JP5671891B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010195847A JP5671891B2 (ja) 2010-09-01 2010-09-01 タグ付け装置、タグ付け方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010195847A JP5671891B2 (ja) 2010-09-01 2010-09-01 タグ付け装置、タグ付け方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012053672A JP2012053672A (ja) 2012-03-15
JP5671891B2 true JP5671891B2 (ja) 2015-02-18

Family

ID=45906915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010195847A Active JP5671891B2 (ja) 2010-09-01 2010-09-01 タグ付け装置、タグ付け方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5671891B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4172388B2 (ja) * 2003-12-08 2008-10-29 日本電気株式会社 リンク診断装置、リンク診断方法およびリンク診断プログラム。
JP2005251157A (ja) * 2004-02-03 2005-09-15 Recruit Co Ltd 情報検索システムおよび情報検索方法ならびにプログラム
JP4521343B2 (ja) * 2005-09-29 2010-08-11 株式会社東芝 文書処理装置及び文書処理方法
JP5224767B2 (ja) * 2007-10-10 2013-07-03 日本電信電話株式会社 大規模タグ付きコーパス作成方法、その装置およびプログラム
JP5373710B2 (ja) * 2010-06-30 2013-12-18 ヤフー株式会社 インデックス更新装置及びその方法

Also Published As

Publication number Publication date
JP2012053672A (ja) 2012-03-15

Similar Documents

Publication Publication Date Title
CN103678418B (zh) 信息处理方法和信息处理设备
KR101806151B1 (ko) 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
EP3635540A1 (en) Intent-based organisation of apis
KR101099908B1 (ko) 문서 간 유사도 계산 시스템 및 방법
KR20130060720A (ko) 목적 기반 시맨틱 서비스 디스커버리를 위한 서비스 목적 해석 장치 및 방법
KR101660106B1 (ko) 비정형 문화관광 데이터 수집 및 정형화를 통한 맞춤형 문화관광 콘텐츠 추천 시스템 및 방법
CN107870915B (zh) 对搜索结果的指示
CN111639101A (zh) 一种物联网规则引擎系统的相关方法、装置、系统及存储介质
JP2014089606A (ja) 情報処理装置及びその制御方法、プログラム
JP2007140603A (ja) アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
JP2008299842A (ja) 広告執行による反応情報提供方法、コンピュータ読み取り可能な記録媒体、広告執行による反応情報提供システム
JP2003099442A (ja) キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体
JP5761029B2 (ja) 辞書作成装置、単語収集方法、及び、プログラム
CN113806647A (zh) 识别开发框架的方法及相关设备
JP5671891B2 (ja) タグ付け装置、タグ付け方法およびプログラム
CN110489628A (zh) 数据处理方法、装置及电子设备
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
KR100834293B1 (ko) 문서 처리 시스템 및 방법
CN114302227A (zh) 基于容器采集的网络视频采集与解析的方法和系统
JP2002197115A (ja) 評価基準データを用いたウェブページ検索方法及び記憶媒体
JP2005044087A (ja) テキストマイニングシステム及びプログラム
JP5187064B2 (ja) Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
JP4222166B2 (ja) 文書収集装置、文書検索装置及び文書収集検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141208

R150 Certificate of patent or registration of utility model

Ref document number: 5671891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150