JP2013109709A

JP2013109709A - Ｗｅｂページの話題判定装置、Ｗｅｂページの話題判定方法、Ｗｅｂページの話題判定プログラム

Info

Publication number: JP2013109709A
Application number: JP2011256179A
Authority: JP
Inventors: Shigeru Fujimura; 滋藤村; Masayuki Sugizaki; 正之杉崎; Kenji Ezaki; 健司江崎; Masashi Uchiyama; 匡内山; Noriko Takaya; 典子高屋; Yusuke Ichikawa; 裕介市川; Shoichi Nagano; 翔一長野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-11-24
Filing date: 2011-11-24
Publication date: 2013-06-06
Anticipated expiration: 2031-11-24
Also published as: JP5718213B2

Abstract

【課題】ＷｅｂページのＵＲＬから主要閲覧者が利用する言語を考慮した特徴を構築し、該言語に特化した適切な話題判定を行う。
【解決手段】Ｗｅｂページの話題判定装置１の入力部１０には、判定対象のＷｅｂページのＵＲＬが入力される。言語判定部１１は、入力部１０に入力されたＵＲＬ中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する。特徴量抽出部１２は、ＵＲＬを記号等で区切ったトークンの文字列から主要言語に応じた特徴量を抽出する。話題判定部１３は、特定の話題に属するか否かを学習した判定器を用いて前記特徴量からＷｅｂページの話題を判定する。この判定結果は出力部１４を通じて出力される。
【選択図】図１

Description

本発明は、例えばＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）などのハイパーテキスト記述言語でよって記述されるＷｅｂページの話題を判定する技術に関する。

Ｗｅｂページに限らず、電子化された文書の話題を抽出する技術としては、特許文献１のトピック抽出方法が知られている。ここでは電子文書に含まれるテキストから名詞を特徴語として抽出し、抽出された特徴語を検索語としてウェブ検索を実行し、得られた検索結果に共通に出現する語句を話題とする。

ところが、特定の話題だけを含むＷｅｂページ集合を収集する検索エンジンのクローラプログラム（スパイダー、ロボット）は、Ｗｅｂページ中のハイパーリンクの情報に基づき自動的に繰り返しリンクを辿りＷｅｂページを収集することから、話題の判定に特許文献１を適用しようとした場合にはリンク先のＷｅｂページにアクセスする前に、該ページのテキスト情報を得ることができず、特定の話題に関するＷｅｂページのみを収集したいといった場合には、収集効率に問題があった。

そこで、リンク先のＷｅｂページにアクセスする前に利用可能なＵＲＬを情報源として利用し、話題を判定する技術が非特許文献１に提案されている。ここではＵＲＬを記号等で処理単位の文字列（以下、トークン「ｔｏｋｅｎ」と呼ぶ）に区切り、さらにトークンの部分文字列を特徴量として抽出する。この特徴量に対して、訓練事例によって機械的な学習を済ませた該当の話題か否かを判定器で判定する。

特開２００９−１５７９６

Eda Baykan,Monika Henzinger,Ludmila Marian,Ingmar Weber "Purely URL-based Topic Classification" Proceedings of the 18th international conference on World wide web(WWW'09).pp1109-1110 "Ｗｅｂ便利ツール／ＵＲＬエンコード・デコードフォーム−ＴＡＧｉｎｄｅｘＷｅｂサイト"、「ｏｎｌｉｎｅ」、「平成２３年１１月１０日検索」、インターネット＜URL:http://www.tagindex.com/tool/url.html

Ｗｅｂページの話題を判定するにあたって事前に収集済みの正解集合を学習データに用いる機械学習を採用する場合、話題の判定精度は正解集合の質およびＷｅｂページの特徴に何を利用するかに帰着する。特に、判定の情報源としてＷｅｂページのＵＲＬのみしか利用できない状況においてはＵＲＬからどの様な特徴を作り出すかが重要となる。

非特許文献１では、前述のように判定可能なＷｅｂページを最大化するためにＵＲＬから得られたトークンの部分文字列を特徴として利用している。しかしながら、トークンがＷｅｂページの主要閲覧者の利用言語における単語をＵＲＬの規約によって表現した文字列であった場合には、該言語としては望ましくない区切りの部分文字列が特徴とされ、話題判定の精度に悪影響を与えるおそれがあった。

例えば、ＵＲＬ「http://example.co.jp/suitouchou/」のＷｅｂページについてみれば該ＵＲＬのトークンの一つ「suitouchou」は日本語では「出納帳」に該当する。ところが、非特許文献１では、利用言語を考慮せずにアルファベットのままトークンの部分文字列を取得するため、「suit」のような部分文字列も特徴として利用されるおそれがある。これでは英語で紳士服のスーツを表す単語と同一表記となるため、処理対象のＷｅｂページの本来的な話題と異なるファッション関連の話題と判定されてしまう。

本発明は、上述のような従来技術の問題点を解決するためになされたものであり、ＷｅｂページのＵＲＬから主要閲覧者が利用する言語を考慮した特徴を構築し、該言語に特化した適切な話題判定を行うことを解決課題としている。

そこで、本発明は、ＵＲＬの文字構成からＷｅｂページの主要閲覧者が利用する言語を特定するため、ＵＲＬ中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する。例えば事前に作成された公用語辞書などを用いて主要言語を特定することができる。

また、ＵＲＬを任意単位に分解した各文字列から主要言語に応じた特徴量を抽出する。例えば前記各文字列が前記主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出する。この各特徴候補から部分文字列を取得し、取得した部分文字列の出現頻度を特徴量として抽出することができる。

ここで抽出された特徴量を話題判定に用いることにより、Ｗｅｂページの主要閲覧者の利用言語を考慮した話題判定が可能となる。すなわち、Ｗｅｂページで利用されている言語において言葉として不適切な特徴量の抽出を抑制し、誤った話題判定を防止することができる。話題判定の手法としては、特定の話題に属するか否かを学習した判定器を用いて前記特徴量からＷｅｂページの話題を判定すればよい。

本発明によれば、ＷｅｂページのＵＲＬから主要閲覧者が利用する言語を考慮した特徴が構築でき、該言語に特化した適切な話題判定が可能となる。

本発明の実施形態に係るＷｅｂページの話題判定装置の構成図。同言語判定部の処理フロー図。同特徴量抽出部の処理フロー図。図３の処理フローの処理例。

以下、本発明の実施形態に係るＷｅｂページの話題判定装置を説明する。この話題判定装置は、ＵＲＬの文字構成から主要閲覧者が利用する言語を特定し、判定された利用言語に応じた特徴量を抽出する。ここで抽出された特徴量を用いてＷｅｂページの話題を判定する。

≪構成例≫
図１に基づき前記話題判定装置の構成例を説明する。ここでは前記話題判定装置１は、特定の話題を含むＷｅｂページ集合を収集する検索エンジンのクローラプログラム（スパイダー、ロボットなど）に利用される。

具体的には前記話題判定装置１は、検索エンジンのサーバ群に構成され、通常のコンピュータのハードウェアリソース、例えばＣＰＵ．メモリ（ＲＡＭ）やハードディスクドライブ装置などの記憶装置を備える。このハードウェアリソースとソフトウェアリソース（ＯＳ．アプリケーションなど）との協働の結果、前記話題判定装置１は、入力部１０．言語判定部１１．特徴量抽出部１２．話題判定部１３．出力部１４を実装する。

この入力部１０には話題判定対象のＷｅｂページ、即ちクローラプログラムで収集された各ＷｅｂページのＵＲＬが入力される。ここで入力されたＵＲＬは言語判定部１１に出力され、該ＵＲＬのみを材料とするＷｅｂページの話題判定が開始される。

すなわち、言語判定部１１は、入力部１０からの出力情報を入力とし、該ＵＲＬ中のホスト名から該ホスト名の利用国を特定し、さらに該ホスト名の利用国における主要言語を判定する。この主要言語をＷｅｂページで利用される言語、即ちＷｅｂページの主要閲覧者の利用言語と推定する。この主要言語およびＵＲＬは特徴量抽出部１２に出力される。

特徴量抽出部１２は、言語判定部１１からの出力情報を入力とし、主要言語の言語特性を考慮してＵＲＬから特徴量を抽出する。ここではＵＲＬを処理単位の文字列に分解し、各文字列から主要言語に応じた特徴量を抽出する。このとき主要言語の言語特徴に応じた文字列に変換可能であれば、変換された各文字列の出現頻度を特徴量として抽出する。例えば主要言語として日本語が特定されれば、ローマ字かな変換・漢字かな変換などを行って特徴量を抽出することができる。抽出された特徴量は話題判定部１３に出力される。

話題判定部１３は、特徴量抽出部１２からの出力情報を入力とし、前記特徴量に基づきＷｅｂページの話題を判定する。ここでは事前に特定の話題に属するか否かを学習した判定器を利用する。この判定器に入力された前記特徴量が事前学習した話題を有するか否かでＷｅｂページの話題を判定する。この判定結果は、出力部１４を通じて検索エンジンなどに出力される。以下、前記各部１１〜１３の処理内容を詳述する。

≪言語判定部１１の処理内容≫
図２に基づき言語判定部１１の処理内容を詳述する。ここでは言語判定部１１は、入力されたＷｅｂページのＵＲＬ中におけるホスト名（サイト名）を取得する。この取得後に図２の処理を開始するものとする。この処理はＵＲＬ毎に行われるものとする。

Ｓ０１：前記ホスト名に国別コードトップレベルドメインが含まれているか否かを判定する。判定の結果、該ドメインが含まれていなければＳ０２に進む一方、該ドメインが含まれていれば国別コードに基づき前記ホスト名の利用国を特定する。ここで特定された前記ホスト名の利用国をＷｅｂページの対象国と決定し、Ｓ０３に進む。例えば、前記ホスト名に「.jp」などが含まれていれば日本国をＷｅｂページの対象国と決定する。

Ｓ０２：前記ホスト名（より正確にはホスト名中のドメイン名）に対してｗｈｏｉｓ（フーイズ）システム、即ちインターネット上でのドメイン名の所有者を検索するプロトコルを利用することで前記ホスト名の利用国が特定できるか否か確認する。確認の結果、前記ホスト名の利用国が特定できれば該利用国をＷｅｂページの対象国に決定してＳ０３に進む一方、特定できなければ処理を終了する。

Ｓ０３：Ｓ０１．Ｓ０２で決定されたＷｅｂページの対象国における主要言語を事前に作成された公用語辞書を用いて判定し、処理を終了する。この公用語辞書には国別に主要言語が掲載されていればよい。この主要言語に複数言語が掲載されていれば、該各言語を前記対象国の主要言語と判定できるものとする。

≪特徴量抽出部１２の処理内容≫
図３に基づき特徴量抽出部１２の処理内容を詳述する。ここでは言語判定部１１において主要言語として日本語が特定された場合の処理内容を説明する。この特徴量抽出部１２の処理もＵＲＬ毎に行われるものとする。

Ｓ１１：入力されたＵＲＬを記号「.」「-」「/」などの区切り文字によって複数個のトークン、即ち処理対象の各文字列に分解する。このトークン毎にＳ１２以降の処理が実行される。

Ｓ１２：Ｓ１１で分解された各トークンが、パーセントエンコード（Ｐｅｒｃｅｎｔ−Ｅｎｃｏｄｅ）、即ち文字コードを１６進数で表して「％ｘｘ」（ｘｘは１６進数）の形に変換するエンコード方式が施されているか否かを判定する。

ここでＵＲＬの規則を定めるＲＦＣ３９８６によれば、ＵＲＬ中のＡＳＣＩＩ以外の文字およびＡＳＣＩＩの予約文字は「％ｘｘ」に変換される。例えば「ＳＨＩＦＴ＿ＪＩＳ」で書かれた文字「あ」であれば「％82％ａ０」の形に変換され、文字「い」であれば「％82％ａ２」の形に変換される。このような変換表記に基づき前記トークンにパーセントエンコードが施されているか否か判定する。

Ｓ１３．Ｓ１４：Ｓ１１の判定の結果、パーセントエンコードが施されたトークンに対してはデコードを実行する。このデコード結果の文字列にカタカナや漢字が含まれていれば、ひらがな変換を行ったうえで変換後の文字列を取得する（Ｓ１３）。ここで取得した文字列を図示省略のリストに特徴候補として登録する（Ｓ１４）。

なお、前記デコードには、例えば非特許文献２のような汎用ツールを用いることができ、また前記の漢字ひらがな変換は事前に用意された漢和辞書を用いればよい。

Ｓ１５．Ｓ１６：Ｓ１１の判定の結果、パーセントエンコードが施されていないトークン（非パーセントエンコードのトークン）に対しては、トークンの文字列にローマ字かな変換を行う。ここではトークンの文字列がひらがな文字列に変換可能か否か、即ち完全に平仮名で表現可能か否かを確認する（Ｓ１５）。

確認の結果、トークンの文字列が完全にひらがなで表現可能な場合は、変換後のひらがな文字列を前記リストに特徴候補として登録する（Ｓ１６）。例えばトークンの文字列が「suitouchou」であれば、ひらがな文字列「すいとうちょう」を特徴候補として登録する。一方、ひらがなに変換できない文字列は、ローマ字かな変換により完全に平仮名で表現できないため、アルファベット文字列のまま前記リストに特徴候補として登録する（Ｓ１６）。

Ｓ１７：Ｓ１４又はＳ１６で前記リストに登録されたすべての特徴候補から部分文字列を抽出した部分文字列集合を取得する。ここでは各部分文字列の前記集合内における出現頻度（出現回数）をカウントし、カウント結果の数量を特徴量として抽出する。この抽出後に特徴量を話題判定部１３に出力し、処理を終了する。この出力後に前記リストが初期化され、次のＵＲＬの処理が開始される。

なお、Ｓ１５．Ｓ１６では、非パーセントエンコードのトークンの文字列に対して、ローマ字かな変換でひらがな文字列に変換可能か否かを判定し、ひらがな文字列とアルファベット文字列とを排他的に利用する方式を示しているが、ひらがな文字列に変換可能な場合には、本来のアルファベット文字とひらがな文字列の双方を特徴候補として利用する方式としてもよい。

また、Ｓ１３では、パーセントエンコードが施されたトークンに対して、デコード後の文字列に漢字やカタカナが含まれている場合にひらがなに変換する方式を示しているが、デコード語の文字列をそのまま特徴候補として登録する方式としてもよい。

さらに、特徴候補や特徴候補の部分文字列に対して文字列の長さの制約を設けてもよく、出現頻度があまりにも大きすぎる文字列をストップ文字列として事前に除外する方式を採用することもできる。

≪特徴量抽出部１２の処理例≫
以下、図４に基づき特徴量抽出部１２の処理例を説明する。ここではＵＲＬ「http://www.example.co.jp/ichirei.html?category=%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」が入力部１０に入力され，言語判定部１１で日本語が主要言語と判定されているものとする。また、特徴候補および特徴候補の部分文字列には文字列長「３〜８」の制約が設定され、ストップ文字列として「www」．「html」が事前に設定されているものとする。

まず、特徴量抽出部１２に前記ＵＲＬおよび前記主要言語が入力されると、Ｓ１１において前記ＵＲＬに対するトークン化が実行される。このトークン化の結果、前記ＵＲＬは、「www」．「example」．「co」．「jp」．「ichirei」．「html」．「category」．「%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」のトークンに分解される。

つぎにトークン「example」．「category」．「ichirei」は、Ｓ１２で非パーセントエンコードと判定され、Ｓ１５に進む。ここでトークン「example」．「category」は、ローマ字かな変換でひらがな変換できないため、Ｓ１６ではアルファベット文字のまま特徴候補として登録される。一方、トークン「ichirei」は、ローマ字かな変換により「いちれい」と表現できるため、Ｓ１６では「いちれい」のひらがな文字列が特徴候補として登録される。

また、トークン「%e3%82%b5%e3%83%b3%e3%83%97%e3%83%ab」は、Ｓ１２でパーセントエンコードが施されていると判定される。この判定後にＳ１３で「サンプル」にデコードされ、さらに「さんぷる」にひらがな変換される。この変換後にＳ１４で「さんぷる」のひらがな文字列が特徴候補として登録される。なお、トークン「www」．「html」は、ストップ文字列に該当するため、Ｓ１２〜Ｓ１６の処理から除外される。さらにトークン「co」．「jp」も、文字列長の制約から同様に除外される。

このＳ１１〜Ｓ１６の処理の結果、「example」．「いちれい」．「category」．「さんぷる」の文字列が特徴候補として登録される。そして、Ｓ１７において各特徴候補の文字列から長さ「３〜８」の範囲内で部分文字列を取得し、各部分文字列の出現頻度をカウントしてＵＲＬの特徴量、例えば「exa:1」．「xam:1」．「amp:1」などを抽出する。この特徴量の「１」は部分文字列集合内の出現回数を示している。

≪話題判定部１３の処理内容≫
以下、話題判定部１３の処理内容を詳述する。具体的には話題判定部１３は、特徴量抽出部１２から出力された特徴量を入力とし、Ｗｅｂページの話題を判定した結果を出力する。この話題判定部１３では、事前に判定対象の話題に対して機械学習を利用した判定器の学習を行う必要がある。ここでは一例として「政治」を判定対象の話題とする場合を説明する。

この学習にあたっては、あらかじめ「政治」に関連したＷｅｂページ集合と、「政治」に関連しないＷｅｂページ集合とを準備する必要がある。すなわち、「政治」に関連するＷｅｂページ集合のＵＲＬ群から得られた特徴量を、特徴量抽出部１２によって得られた特徴量の２値判定における正例として判定器の学習事例に利用する。同様に「政治」に関連しないＷｅｂページ集合のＵＲＬ群から得られた特徴量を、特徴量抽出部１２によって得られた特徴量の２値判定における負例として利用する。

この正例・負例を学習済みの判定器に特徴量抽出部１２によって得られた特徴量を入力として与えることにより、処理対象のＷｅｂページが「政治」に関連した話題を有するか否かを判定する。

この判定結果は、出力部１４を通じて検索エンジンに出力され、全文索引を構築するための分類アルゴリズムなどに利用される。このとき前記話題判定装置１によれば、Ｓ１１〜Ｓ１７の処理を通じて主要言語の特徴を考慮した特徴量が抽出されることから、Ｗｅｂページの主要閲覧者の利用言語として望ましくない部分文字列における特徴量の抽出が防止され、該利用言語に特化した適切な話題判定を行うことができる。

例えばＵＲＬ「http://example.co.jp/suitouchou/」についてみれば、ＵＲＬに国別コードトップレベルドメイン「.jp」を含むため、日本語が主要言語と判定される。このＵＲＬを分解したトークン「suitouchou」は、Ｓ１５のローマ字かな変換により「すいとうちょう」と表現可能なため、Ｓ１６において「すいとうちょう」の文字列が特徴候補として登録される。

したがって、非特許文献１のように「suit」の部分文字列が特徴量として抽出されることはなく、Ｗｅｂページの言語（ここでは日本語）の言葉としては不適切な特徴量の抽出が抑制され、誤った話題判定を防止することができる。

なお、本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で適宜変形して実施することができる。例えば言語判定部１１で日本語が特定された場合のみならず、他の外国語が特定された場合にも適用することができる。この場合にはＳ１３．Ｓ１５を特定された外国語に応じた変換にすればよい。

また、話題判定部１３の処理内容では「政治」に関連するか否かという２値判定を示したが、あらかじめ複数の判定対象の話題（例えばスポーツやファッションなど）に関するＷｅｂページ集合を準備し、それぞれの話題に応じた２値判定器を用意することによって、判定器から得られる分類の確信度の最も高い話題を話題判定対象のＷｅｂページが有する話題として判定する方式を採用することもできる。さらに話題を一意に定めずに確信度が一定値以上の話題を処理対象のＷｅｂページに対するメタデータとして付与する方式を採用してもよい。

≪プログラムなど≫
本発明は、前記話題判定装置１の各部１０〜１４の一部もしくは全部として、コンピュータを機能させるＷｅｂページの話題判定プログラムとして構成することもできる。このプログラムによれば、Ｓ０１〜Ｓ０３．Ｓ１１〜Ｓ１７の一部あるいは全部をコンピュータに実行させることが可能となる。

前記プログラムは、Ｗｅｂサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、ＣＤ−ＲＯＭ，ＤＶＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ，ＤＶＤ−Ｒ，ＤＶＤ−ＲＷ，ＭＯ，ＨＤＤ，ＢＤ−ＲＯＭ，ＢＤ−Ｒ，ＢＤ−ＲＥなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。

１…Ｗｅｂページの話題判定装置
１０…入力部
１１…言語判定部（言語判定手段）
１２…特徴量抽出部（特徴量抽出手段）
１３…話題判定部（話題判定手段）
１４…出力部

Claims

Ｗｅｂページの言及する話題をＵＲＬに基づき判定するＷｅｂページの話題判定装置であって、
ＵＲＬ中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定手段と、
ＵＲＬを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出手段と、
特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からＷｅｂページの話題を判定する話題判定手段と、
を備えることを特徴とするＷｅｂページの話題判定装置。
言語判定手段は、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を判定する一方、
特徴量抽出手段は、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出し、
該各特徴候補から部分文字列を取得し、該各部分文字列の出現頻度を特徴量として抽出する
ことを特徴とする請求項１に記載されたＷｅｂページの話題判定装置。
Ｗｅｂページの言及する話題をＵＲＬに基づき判定する装置の実行するＷｅｂページの話題判定方法であって、
ＵＲＬ中のホスト名からホスト利用国を特定し、該利用国における主要言語を判定する言語判定ステップと、
ＵＲＬを任意の単位に分解した各文字列から言語判定手段で特定された主要言語に応じた特徴量を抽出する特徴量抽出ステップと、
特定の話題に属するか否かを学習した判定器を用いて特徴量抽出手段の抽出した特徴量からＷｅｂページの話題を判定する話題判定ステップと、
を有することを特徴とするＷｅｂページの話題判定方法。
言語判定ステップは、あらかじめ作成された公用語辞書に基づき前記利用国の主要言語を特定する一方、
特徴量抽出ステップは、前記各文字列が主要言語の言語特徴に応じた文字列に変換可能であれば該変換された各文字列を特徴候補として抽出するステップと、
該各特徴候補から部分文字列を取得し、該各部分文字列の出現頻度を特徴量として抽出するステップと、
を有することを特徴とする請求項３に記載されたＷｅｂページの話題判定方法。
請求項１または２のいずれか１項に記載されたＷｅｂページの話題判定装置としてコンピュータを機能させるＷｅｂページの話題判定プログラム。