JP5165616B2 - ジャンル判定辞書作成装置、ジャンル判定装置及び方法 - Google Patents

ジャンル判定辞書作成装置、ジャンル判定装置及び方法 Download PDF

Info

Publication number
JP5165616B2
JP5165616B2 JP2009035759A JP2009035759A JP5165616B2 JP 5165616 B2 JP5165616 B2 JP 5165616B2 JP 2009035759 A JP2009035759 A JP 2009035759A JP 2009035759 A JP2009035759 A JP 2009035759A JP 5165616 B2 JP5165616 B2 JP 5165616B2
Authority
JP
Japan
Prior art keywords
genre
dictionary
recombination
web page
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009035759A
Other languages
English (en)
Other versions
JP2010191710A (ja
Inventor
茂 竹内
良昇 石井
真大 日吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2009035759A priority Critical patent/JP5165616B2/ja
Publication of JP2010191710A publication Critical patent/JP2010191710A/ja
Application granted granted Critical
Publication of JP5165616B2 publication Critical patent/JP5165616B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ジャンル判定辞書を生成する装置、ジャンル判定辞書を使用してジャンルを判定する装置及び方法に関する。
近年、インターネットの普及により、インターネット上にはユーザが提供した多様な情報が存在し、その量は膨大である。このような膨大に存在する多様な情報の中から、求める情報を迅速的確に閲覧することができるようにする技術が工夫されている。更に、多様な情報の中から閲覧者にとって不適当な情報を自動的に規制できるようにする技術も工夫されている。
例えば、インターネット上に存在する多様な情報の閲覧をユーザに対し効果的に規制する方法を提供する特許文献1の発明が知られている。
すなわち、特許文献1の発明は、閲覧に適する度合いをスコアで表現し、ジャンル別に単語及びスコアのペアを記憶した規制ジャンル別辞書を備え、ネットワーク上の情報を自動収集し、規制ジャンル別辞書の内容を参照して、収集した情報に含まれる単語のスコアを算出し、算出したスコアに基づいて、収集した情報に対して閲覧を許可するか否かを判定している。
特開2003−167904号公報
しかしながら、特許文献1の発明が判定するために参照する規制ジャンル別辞書のスコアは、単語がジャンルに適合する度合いを表すように設定する必要がある。そして、特許文献1には、どのように設定すれば、単語が閲覧に適する度合いをスコアで表現することができるのかについては、記載されていない。すなわち、規制ジャンル別辞書のような、判定するために参照することができる辞書を作成することは容易なことではない。
そこで、Webページが属するジャンルを判定する精度を向上させるための辞書を作成する装置が求められている。
本発明は、Webページが属するジャンルを判定する精度を向上させるための辞書を作成する装置又は方法を提供することを目的とする。更に、本発明は、作成した辞書を使用してWebページが属するジャンルを精度良く判定する装置又は方法を提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) Webページが属するジャンルを判定するためのジャンル判定辞書を作成するジャンル判定辞書作成装置であって、属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析する辞書作成用解析手段と、前記辞書作成用解析手段が解析した形態素について、前記辞書作成用テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成する辞書作成用再結合手段と、前記辞書作成用再結合手段が再結合して生成した語句と、前記Webページが属する既知のジャンルとを対応付けて記憶し、前記ジャンル判定辞書を作成する辞書作成手段と、を備えることを特徴とするジャンル判定辞書作成装置。
(1)の構成によれば、本発明に係るジャンル判定辞書作成装置は、属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析し、解析した形態素について、辞書作成用テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成し、再結合して生成した語句と、Webページが属する既知のジャンルとを対応付けて記憶し、ジャンル判定辞書を作成する。
すなわち、本発明に係るジャンル判定辞書作成装置は、辞書作成用テキストを形態素解析し、互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して生成した語句と、ジャンルとを対応付けたジャンル判定辞書を作成する。よって、作成されたジャンル判定辞書は、再結合する前の語句では項目が細かくなりすぎて、必ずしも所定のジャンルに属するとは限らないページを該当する、と判定してしまう現象を緩和し判定の精度を向上させることができる。したがって、本発明に係るジャンル判定辞書作成装置は、Webページが属するジャンルを判定する精度を向上させるためのジャンル判定辞書を作成することができる。
(2) 前記辞書作成用再結合手段が再結合して生成した語句に基づいて前記ジャンルが既知のWebページを検索し、前記再結合して生成した語句が所定数以上含まれるときにのみ前記再結合して生成した語句を前記ジャンル判定辞書に登録する辞書登録手段を更に備えることを特徴とする(1)に記載のジャンル判定辞書作成装置。
(2)の構成によれば、(1)に記載のジャンル判定辞書作成装置は、再結合して生成した語句に基づいてジャンルが既知のWebページを検索し、再結合して生成した語句が所定数以上含まれるときにのみ再結合して生成した語句をジャンル判定辞書に登録する。したがって、ジャンル判定辞書作成装置は、作成したジャンル判定辞書において、再結合して生成した語句のうちWebページに所定数以上含まれる語句のみを登録するので、Webページが属するジャンルを判定する精度を向上させるための辞書を作成することができる。
(3) (1)又は(2)に記載のジャンル判定辞書を備え、Webページを構成するテキストを取得するテキスト取得手段と、前記テキスト取得手段が取得したテキストを形態素解析するテキスト解析手段と、前記テキスト解析手段が解析した形態素について、前記テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成する再結合手段と、前記再結合手段が再結合して生成した語句が前記ジャンル判定辞書に登録されているか否かを判定するジャンル判定手段と、前記ジャンル判定手段が判定した結果を出力する判定結果出力手段と、を更に備えることを特徴とするジャンル判定装置。
(3)の構成によれば、本発明に係るジャンル判定装置は、(1)又は(2)に記載のジャンル判定辞書を備え、Webページを構成するテキストを取得し、取得したテキストを形態素解析し、解析した形態素について、テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成し、再結合して生成した語句がジャンル判定辞書に登録されているか否かを判定し、判定した結果を出力する。
すなわち、本発明に係るジャンル判定装置は、属するジャンルが既知のWebページから形態素を再結合して生成した語句とジャンルとを記憶するジャンル判定辞書に、Webページを構成するテキストから形態素を再結合して生成した語句が、登録されているか否かを判定する。したがって、本発明に係るジャンル判定装置は、Webページが属するジャンルを精度良く判定することができる。
(4) Webページが属するジャンルを判定するためのジャンル判定辞書をコンピュータが作成するジャンル判定辞書作成方法であって、属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析するステップと、前記形態素解析した形態素について、前記辞書作成用テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成するステップと、前記再結合して生成した語句と、前記Webページが属する既知のジャンルとを対応付けて記憶し、前記ジャンル判定辞書を作成するステップと、を備えることを特徴とするジャンル判定辞書作成方法。
(4)の構成によれば、本発明に係るジャンル判定辞書作成方法は、属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析し、形態素解析した形態素について、辞書作成用テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成し、再結合して生成した語句と、Webページが属する既知のジャンルとを対応付けて記憶し、ジャンル判定辞書を作成する。したがって、本発明に係るジャンル判定辞書作成方法は、Webページが属するジャンルを判定する精度を向上させるためのジャンル判定辞書を作成することができる。
(5) (4)に記載のジャンル判定辞書を備えるコンピュータが、Webページが属するジャンルを判定するジャンル判定方法であって、Webページを構成するテキストを取得するステップと、前記取得したテキストを形態素解析するステップと、前記形態素解析した形態素について、前記テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成するステップと、前記再結合して生成した語句が前記ジャンル判定辞書に登録されているか否かを判定するステップと、前記判定した結果を出力するステップと、を更に備えることを特徴とするジャンル判定方法。
(5)の構成によれば、本発明に係るジャンル判定方法は、Webページを構成するテキストを取得し、取得したテキストを形態素解析し、形態素解析した形態素について、テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成し、再結合して生成した語句がジャンル判定辞書に登録されているか否かを判定し、判定した結果を出力する。したがって、本発明に係るジャンル判定方法は、Webページが属するジャンルを精度良く判定することができる。
本発明は、Webページが属するジャンルを判定する際に、再結合する前の語句では項目が細かくなりすぎて、必ずしも所定のジャンルに属するとは限らないページを該当する、と判定してしまう現象を緩和し判定の精度を向上させるためのジャンル判定辞書を作成することができる。
更に、本発明は、作成したジャンル判定辞書を使用してWebページが属するジャンルを精度良く判定する装置又は方法を提供することができる。
本発明の一実施形態に係るジャンル判定辞書作成装置10の特徴を示すブロック図である。 本発明の一実施形態に係るジャンル判定辞書作成装置10の機能を示す機能ブロック図である。 本発明の一実施形態に係るジャンル判定辞書作成装置10又は後述するジャンル判定装置20のハードウェア構成の一例を示す図である。 本発明の一実施形態に係る、ジャンルが既知のWebページを構成する辞書作成用テキストの例を示す図である。 本発明の一実施形態に係る再結合品詞DB41を示す図である。 本発明の一実施形態に係るジャンル判定辞書作成装置10におけるジャンル判定辞書31の作成処理を示すフローチャートである。 本発明の一実施形態に係るジャンル判定辞書作成装置10におけるジャンル判定辞書31の登録処理を示すフローチャートである。 本発明の一実施形態に係るジャンル判定辞書31を示す図である。 本発明の一実施形態に係るジャンル判定装置20の機能を示す機能ブロック図である。 本発明の一実施形態に係るジャンル判定装置20の処理内容を示すフローチャートである。 本発明の一実施形態に係る判定結果DB51の一例を示す図である。
以下、本発明の実施形態について図を参照しながら説明する。
図1は、本発明の一実施形態に係るジャンル判定辞書作成装置10の特徴を示すブロック図である。本発明の一実施形態に係るジャンル判定辞書作成装置10は、辞書作成用解析手段として辞書作成用解析部11と、辞書作成用再結合手段として辞書作成用再結合部12と、辞書作成手段として辞書作成部13と、を備えている。そして、ジャンル判定辞書作成装置10は、辞書作成用テキストにおいて、形態素を再結合して生成した語句と、、既知のジャンルとを対応付けて記憶し、ジャンル判定辞書を作成する。
辞書作成用解析部11は、属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析する。例えば、Webページであって、アダルト、ブラック、ショッピングカート等のジャンルが既知のWebページを取得する。そして、取得した、ジャンルが既知であるWebページを構成するテキスト(後述する図4参照)を辞書作成用のテキストとして形態素解析する。
ここで、形態素解析とは自然言語で書かれた文章を形態素に分割することをいう。形態素(morpheme)とは、意味を持つ最小の言語単位のことで、自然言語で書かれた文章を分割する際に利用される言語単位である。例えば、「今日はいい天気です」は、「今日/は/いい/天気/です」の形態素に分割される。形態素を特徴づける素性としては、品詞、語形等がある。
すなわち、辞書作成用解析部11は、辞書作成用テキストを形態素解析し、形態素と、品詞とを取得する。例えば、ジャンルをアダルトとしたWebページを構成する「このサイトはアダルト無料情報を提供しています。」という辞書作成用テキストは、形態素解析によって、「この/サイト/は/アダルト/無料情報/を/提供/して/います」の形態素に分割される。
辞書作成用再結合部12は、辞書作成用解析部11が解析した形態素について、辞書作成用テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成する。例えば、上述の辞書作成用テキストにおいて、再結合するための所定の品詞が名詞+名詞である場合に、辞書作成用再結合部12は、互いに隣接する名詞+名詞の組合せに合致する「アダルト」(名詞)と、「無料情報」(名詞)とを再結合して「アダルト無料情報」を生成する。
辞書作成部13は、辞書作成用再結合部12が再結合して生成した語句と、Webページが属する既知のジャンルとを対応付けて記憶し、ジャンル判定辞書31を作成する。例えば、上述の辞書作成用テキストにおいて、辞書作成部13は、再結合して生成した「アダルト無料情報」と、既知のジャンルである「アダルト」とを対応付けて記憶し、ジャンル判定辞書31を作成する。
図2は、本発明の一実施形態に係るジャンル判定辞書作成装置10の機能を示す機能ブロック図である。本発明の一実施形態に係るジャンル判定辞書作成装置10は、図1の特徴に加えて、更に、辞書登録手段として辞書登録部14と、品詞組合せ受付手段として品詞組合せ受付部15と、を備え、ジャンル判定辞書31を作成する。
品詞組合せ受付部15は、辞書作成用再結合部12が再結合すべき所定の品詞の組合せを受け付ける。品詞組合せ受付部15は、受け付けた品詞の組合せを再結合品詞DB41(後述する図5参照)に記憶する。例えば、所定の品詞の組合せには、名詞と名詞との組合せ以外に、接頭辞と名詞との組合せ(真っ+白=真っ白)、名詞と接尾辞との組合せ(18+歳=18歳)等がある。品詞組合せ受付部15は、これらの品詞の組合せを受け付ける。
辞書作成用再結合部12は、辞書作成用解析部11が解析した形態素について、辞書作成用テキストにおいて互いに隣接し、再結合品詞DB41に記憶した品詞の組合せに合致する形態素を再結合して語句を生成する。
辞書登録部14は、辞書作成用再結合部12が再結合して生成した語句に基づいてジャンルが既知のWebページを検索し、再結合して生成した語句が所定数以上含まれるときにのみ再結合して生成した語句を、辞書作成部13が作成したジャンル判定辞書31に登録する。例えば、上述の辞書作成用テキストにおいて、辞書登録部14は、再結合して生成した「アダルト無料情報」に基づいて、ジャンルが「アダルト」であるWebページを検索し、「アダルト無料情報」が所定数以上含まれるときにのみ「アダルト無料情報」をジャンル判定辞書31に登録する。
図3は、本発明の一実施形態に係るジャンル判定辞書作成装置10又は後述するジャンル判定装置20のハードウェア構成の一例を示す図である。図中の符号XX00〜XX90は、ジャンル判定辞書作成装置10において1000〜1090となることを表し、後述するジャンル判定装置20において2000〜2090となることを表している。
ジャンル判定辞書作成装置10は、制御部1000を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、I/Oコントローラ1070、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、表示装置1080並びに入力装置1090を備える。
制御部1000は、ジャンル判定辞書作成装置10を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F1040は、ジャンル判定辞書作成装置10を専用ネットワーク又は公共ネットワークを介して他のサーバ等と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS1060は、ジャンル判定辞書作成装置10の起動時にCPU1010が実行するブートプログラムや、ジャンル判定辞書作成装置10のハードウェアに依存するプログラム等を格納する。
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078等の記憶手段を接続することができる。
ハードディスク1074は、ジャンル判定辞書作成装置10が本発明の機能を実行するためのプログラムを記憶しており、ジャンル判定辞書31、再結合品詞DB41等のデータベース等を記憶している。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
ジャンル判定辞書作成装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、ジャンル判定辞書作成装置10にインストールされ実行されてもよい。
表示装置1080は、ジャンル判定辞書作成装置10による演算処理結果の画面等を表示するものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
入力装置1090は、ジャンル判定辞書作成装置10の利用者による入力の受け付けを行うものであり、キーボード及びマウス等で構成される。
図4は、本発明の一実施形態に係る、ジャンルが既知のWebページを構成する辞書作成用テキストの例を示す図である。本例は、Webページが存在するインターネット上の場所を示すURL(Uniform Resource Locator)と、Webページが属するジャンルと、Webページを構成するテキストと、を対応付けた例である。Webページが属するジャンルは、Webページを目視することによって見分けたジャンルである。
ジャンル判定辞書作成装置10は、本例のような、属するジャンルが既知のWebページを構成するテキストを形態素解析し、解析した形態素を再結合した語句と、既知のジャンルとを対応付けて、ジャンル判定辞書31を作成する。
図5は、本発明の一実施形態に係る再結合品詞DB41を示す図である。再結合品詞DB41は、品詞の組合せを識別するIDと、品詞の組合せと、を対応付けて記憶している。
ジャンル判定辞書作成装置10は、再結合すべき所定の品詞の組合せの指定を受け付け、再結合品詞DB41に記憶する。そして、再結合品詞DB41に記憶した品詞の組合せに合致する形態素を再結合して語句を生成する。
図6は、本発明の一実施形態に係るジャンル判定辞書作成装置10におけるジャンル判定辞書31の作成処理を示すフローチャートである。なお、本処理は、プログラム開始指令を受けて処理を開始し、プログラムの処理を実行して終了する。
ステップS101において、CPU1010は、解析した形態素を再結合すべき所定の品詞の組合せを受け付ける。より具体的には、CPU1010は、入力装置1090から品詞の組合せを受け付け、受け付けた組合せを再結合品詞DB41に記憶する。その後、CPU1010は、処理をステップS102に移す。
ステップS102において、CPU1010は、属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析する。より具体的には、CPU1010は、属するジャンルが既知のWebページを取得し、取得したWebページの構成に基づいてWebページを構成するテキストを抽出し、抽出したテキストを形態素に分割する。その後、CPU1010は、処理をステップS103に移す。
ステップS103において、CPU1010は、分割した形態素を再結合する。より具体的には、CPU1010は、分割した形態素について、互いに隣接する形態素を抽出し、隣接する形態素の組合せが、再結合品詞DB41に記憶する組合せに合致する形態素の組合せを再結合して語句を生成する。その後、CPU1010は、処理をステップS104に移す。
ステップS104において、CPU1010は、再結合した語句と、Webページが属する既知のジャンルと、を対応付けて記憶しジャンル判定辞書31を作成する。例えば、CPU1010は、ジャンル判定辞書31の再結合した語句に対応付けられたステータスを未登録状態とする(後述する図8参照)。その後、CPU1010は、処理を終了する。
図7は、本発明の一実施形態に係るジャンル判定辞書作成装置10におけるジャンル判定辞書31の登録処理を示すフローチャートである。なお、本処理は、プログラム開始指令を受けて処理を開始し、プログラムの処理を実行して終了する。
ステップS111において、ステップS101と同様に、CPU1010は、解析した形態素を再結合すべき所定の品詞の組合せを受け付ける。その後、CPU1010は、処理をステップS112に移す。
ステップS112において、ステップS102と同様に、CPU1010は、属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析する。その後、CPU1010は、処理をステップS113に移す。
ステップS113において、ステップS103と同様に、CPU1010は、分割した形態素を再結合する。その後、CPU1010は、処理をステップS114に移す。
ステップS114において、CPU1010は、再結合して生成した語句によってジャンルが既知のWebページを検索する。より具体的には、CPU1010は、ジャンルが既知のWebページを取得し、取得したWebページを、再結合して生成した語句によって検索する。その後、CPU1010は、処理をステップS115に移す。
ステップS115において、CPU1010は、再結合して生成した語句がWebページに所定数以上含まれるか否かを判断する。より具体的には、CPU1010は、検索した語句の個数と、所定数とを比較し、検索した語句の個数が所定数以上か否かを判断する。この判断がYESの場合は処理をステップS116に移し、NOの場合は処理を終了する。
ステップS116において、CPU1010は、再結合した語句と、Webページが属する既知のジャンルと、を対応付けてジャンル判定辞書31に登録する。例えば、CPU1010は、ジャンル判定辞書31の再結合した語句に対応付けられたステータスを登録状態とする(後述する図8参照)。その後、CPU1010は、処理を終了する。
図8は、本発明の一実施形態に係るジャンル判定辞書31を示す図である。
ジャンル判定辞書31は、用語を識別するIDと、Webページが属するジャンルを判定するための用語と、ジャンルと、ステータスと、を対応付けて記憶している。
Webページが属するジャンルを判定するための用語は、ジャンル判定辞書作成装置10が、辞書作成用テキストにより再結合して生成した語句である。ジャンルは、用語が使用されるテキストから構成されるWebページが属するジャンルである。ステータスは、その用語をジャンル判定辞書31に記憶しただけの場合(例えば、図6のステップS104の場合)には未登録(例えば、−のマーク)とし、その用語を登録した場合(例えば、図7のステップS116の場合)には登録(図において◎のマークで示す)とする。
図9は、本発明の一実施形態に係るジャンル判定装置20の機能を示す機能ブロック図である。本発明の一実施形態に係るジャンル判定装置20は、テキスト取得部としてテキスト取得部21と、テキスト解析手段としてテキスト解析部22と、再結合手段として再結合部23と、ジャンル判定手段としてジャンル判定部24と、判定結果出力手段として判定結果出力部25と、ジャンル判定辞書作成装置10が作成したジャンル判定辞書31と、を備えている。そして、ジャンル判定装置20は、再結合して生成した語句によって、ジャンル判定辞書31に基づいてWebページのジャンルを判定する。
テキスト取得部21は、Webページを構成するテキストを取得する。例えば、Webページを構成するテキスト「18歳未満の方のご入場を禁止します。」を取得する。
テキスト解析部22は、テキスト取得部21が取得したテキストを形態素解析する。例えば、上述のテキストは、「18/歳/未満/の/方/の/ご/入場/を/禁止/し/ます」の形態素に分割される。
再結合部23は、テキスト解析部22が解析した形態素について、テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成する。すなわち、再結合部23は、テキストにおいて互いに隣接し、ジャンル判定辞書作成装置10が作成した再結合品詞DB41に記憶した品詞の組合せに合致する形態素を再結合して語句を生成する。例えば、上述のテキストにおいて、再結合品詞DB41に記憶した品詞の組合せが名詞+接尾辞である場合に、再結合部23は、互いに隣接する名詞+接尾辞の組合せに合致する「18」(名詞)と、「歳」(接尾辞)とを再結合して「18歳」を生成する。あるいは、再結合品詞DB41に記憶した品詞の組合せが名詞+接尾辞+接尾辞である場合に、再結合部23は、再結合して「18歳未満」を生成する。ジャンル判定辞書31を作成するときにジャンル判定辞書作成装置10が使用する再結合品詞DB41を使用することにより、再結合部23が再結合した語句と、ジャンル判定辞書31に記憶する語句とで完全一致する語句が増え、判定精度が高まる。
ジャンル判定部24は、再結合部23が再結合して生成した語句がジャンル判定辞書31に登録されているか否かを判定する。例えば、再結合した「18歳未満」によりジャンル判定辞書31を検索し、検索した「18歳未満」のステータスが登録か否かを判断し、登録である場合に対応付けられたジャンルを記憶する。そして、再結合して生成した語句の全てについて判断し、例えば、判断した回数が所定の回数以上の中で最も判断回数の多いジャンルを当該ジャンルとして判定する。
判定結果出力部25は、ジャンル判定部24が判定した結果を出力する。例えば、ジャンル判定部24が「18歳未満」に対応付けられたジャンル「アダルト」を当該ジャンルとして判定すると、判定結果出力部25は、Webページと、ジャンル「アダルト」とを対応付けて判定結果DB51に記憶する。また、判定結果出力部25は、当該ジャンルと判定した度合い(例えば、当該ジャンルと判断した回数を、当該ジャンルと判断した回数及び他のジャンルと判定した回数を加えた総回数で除算した値)をジャンルの判定度として判定結果DB51に記憶する。
ジャンル判定装置20のハードウェア構成の一例は、図3のハードウェア構成の一例を示す図と同様の図で表され、制御部2000を構成するCPU(Central Processing Unit)2010(マルチプロセッサ構成ではCPU2012等複数のCPUが追加されてもよい)、バスライン2005、通信I/F2040、メインメモリ2050、BIOS(Basic Input Output System)2060、I/Oコントローラ2070、ハードディスク2074、光ディスクドライブ2076、半導体メモリ2078、表示装置2080並びに入力装置2090を備える。その機能は、ジャンル判定辞書作成装置10における機能と同様であるので、説明を省略する。
図10は、本発明の一実施形態に係るジャンル判定装置20の処理内容を示すフローチャートである。なお、本処理は、プログラム開始指令を受けて処理を開始し、プログラムを実行し終了する。
ステップS201において、CPU2010は、Webページを構成するテキストを取得する。より具体的には、CPU2010は、Webページを取得し、取得したWebページの構成に基づいてWebページを構成するテキストを抽出し、取得する。その後、CPU2010は、処理をステップS202に移す。
ステップS202において、CPU2010は、取得したテキストを形態素解析し、形態素に分割する。その後、CPU2010は、処理をステップS203に移す。
ステップS203において、CPU2010は、分割した形態素を再結合する。より具体的には、CPU2010は、分割した形態素について、互いに隣接する形態素を抽出し、隣接する形態素の組合せが、再結合品詞DB41に記憶する組合せに合致する形態素の組合せを再結合して語句を生成する。そして、生成した語句の個数を記憶する。その後、CPU2010は、処理をステップS204に移す。
ステップS204において、CPU2010は、再結合した語句がジャンル判定辞書31に記憶されているか否かを判断する。より具体的には、CPU2010は、再結合した語句により、ジャンル判定辞書31の用語を検索し、検索できたか否かを判断する。この判断がYESの場合は処理をステップS205に移し、NOの場合は処理をステップS206に移す。
ステップS205において、CPU2010は、再結合した語句に対応付けられたジャンルをカウントする。より具体的には、CPU2010は、検索した用語に対応付けられたジャンルをカウントする。その後、CPU2010は、処理をステップS206に移す。
ステップS206において、CPU2010は、再結合した語句の全てについて処理が終了か否かを判断する。より具体的には、CPU2010は、ステップS203で記憶した生成した語句の個数を1減算し0になったか否かを判断する。この判断がYESの場合は処理をステップS207に移し、NOの場合は処理をステップS204に戻す。
ステップS207において、CPU2010は、ジャンルごとのカウントに基づきジャンルを判定する。より具体的には、CPU2010は、例えば、カウントが所定の数以上であるジャンルの中でカウントが最も多いジャンルを、取得したテキストのジャンルと判断する。その後、CPU2010は、処理をステップS208に移す。
ステップS208において、CPU2010は、判定結果を出力する。より具体的には、CPU2010は、ジャンル判定辞書31の用語に対応付けられているジャンルと、Webページ(例えば、WebページのURL)と、を対応付けて判定結果DB51に記憶する。そして、例えば、ジャンル判定辞書31の用語に対応付けられているステータス(未登録か登録か)と、ステップS205でカウントしたジャンルのカウントの総和に対する判定したジャンルのカウントの比率と、を参照し、ジャンルを判定した確からしさである判定度を、Webページに対応付けて判定結果DB51に記憶する。その後、CPU2010は、処理を終了する。
図11は、本発明の一実施形態に係る判定結果DB51の一例を示す図である。判定結果DB51は、WebページのURLと、判定結果ジャンルと、判定の確からしさの度合いである判定度と、を対応付けて記憶する。
判定度は、WebページのURLをそのジャンルと判定した場合の確からしさの度合いである。例えば、Webページを構成するテキストから再結合して生成した語句が複数ある場合に、それぞれについてジャンル判定辞書31に記憶されているか否かを判断し、判定度を算出する。例えば、登録されていない用語の重みを0.5とし、登録されている用語の重みを1として重みを算出する。再結合して生成した語句が10個ある場合に、そのうちの6個はジャンルAに対応付けられた用語で、4個はジャンルBに対応付けられているとすると、作成されたジャンル判定辞書31では、判定度は、6/10×0.5=0.3となり、登録されたジャンル判定辞書31では、判定度は、6/10×1=0.6となる。このような判定度を算出することにより、Webページのジャンルについての判定度を客観的に提示することができる。
[テスト例]
表1は、本発明の一実施形態に係るジャンル判定辞書31を使用するジャンル判定装置20が、実際のWebページについて、「有害ジャンル」に属するか否かについて判定を行った結果である。テスト方法は、事前に目視で「有害」か「無害」かの判定を行ったジャンル判定済みのWebページに対し、従来のシステムにより当該Webページのジャンルを判定し、「有害」ジャンルに属するか否かを判定した結果と、本発明の一実施形態に係るジャンル判定辞書31を使用するジャンル判定装置20により、同様に当該Webページのジャンルを判定し、「有害」ジャンルに属するか否かを判定した結果とを比較することにより行った。従来のシステムで使用する辞書は、ジャンル判定のために登録する文字列に決まりはなく、管理者が長年の経験に基づいて手作業で作成している。
上述のように具体的なテスト手法としては、まず、Webページをブラウザで表示させ、目視により内容を確認し、有害であるか無害であるかを評価したリストの中から、有害と判定されたURL288件と、無害と判定された(すなわち、有害ジャンルとは判定されなかった)URL288件との計576件の評価データを準備する。判定結果は、目視により有害とされるWebページを有害と判定する場合をAと、目視により無害とされるWebページを有害と判定する場合をBと、目視により有害とされるWebページを無害と判定する場合をCと、目視により無害とされるWebページを無害と判定する場合をDと、に分けられる(A:目視有害−有害判定、B:目視無害−有害判定、C:目視有害−無害判定、D:目視無害−無害判定)。
Figure 0005165616
ここで、「accuracy」は、正解率であり、(A「目視有害−有害判定」+D「目視無害−無害判定」)/576で計算される。blockは、「ブロック率」すなわち、有害サイトに対する有害判定率であり、A「目視有害−有害判定」/288で計算される。Overは、「オーバーブロック率」すなわち、無害サイトに対する有害判定率であり、B「目視無害−有害判定」/288で計算される。
この結果、従来システムと比較し、本発明の一実施形態に係るジャンル判定辞書31を使用するジャンル判定装置20の判定は、オーバーブロック率をより低く抑えることができた。これは、オーバーブロック率に関しては、長年の経験に基づいて整備してきた従来のシステムの辞書による判定よりも優れた結果であり、本発明の効果を一部裏打ちするものとして評価できる。なお、正解率及びブロック率については、ジャンル判定辞書31を作成するための辞書作成用テキストと、再結合すべき所定の品詞の組合せとの事例を増加することにより、更に精度を上げることができると考えられる。
実施例によれば、本発明に係るジャンル判定辞書作成装置10は、属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析し、解析した形態素について、辞書作成用テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成し、再結合して生成した語句と、Webページが属する既知のジャンルとを対応付けて記憶し、ジャンル判定辞書31を作成する。
更に、本発明に係るジャンル判定辞書作成装置10は、再結合すべき所定の品詞の組合せを受け付け、互いに隣接し、受け付けた品詞の組合せに合致する形態素を再結合し、再結合して生成した語句に基づいてジャンルが既知のWebページを検索し、再結合して生成した語句が所定数以上含まれるときにのみ再結合して生成した語句をジャンル判定辞書31に登録する。したがって、ジャンル判定辞書作成装置10は、Webページが属するジャンルを判定する精度を向上させるための辞書を作成することができる。
本実施例によれば、本発明に係るジャンル判定装置は、ジャンル判定辞書作成装置10が作成したジャンル判定辞書31を備え、Webページを構成するテキストを取得し、取得したテキストを形態素解析し、解析した形態素について、テキストにおいて互いに隣接し、所定の品詞の組合せに合致する形態素を再結合して語句を生成し、再結合して生成した語句がジャンル判定辞書31に登録されているか否かを判定し、判定した結果を出力する。したがって、ジャンル判定装置20は、ジャンル判定辞書作成装置10が作成したジャンル判定辞書31を使用してWebページが属するジャンルを精度良く判定することができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
10 ジャンル判定辞書作成装置
11 辞書作成用解析部
12 辞書作成用再結合部
13 辞書作成部
14 辞書登録部
15 品詞組合せ受付部
20 ジャンル判定装置
21 テキスト取得部
22 テキスト解析部
23 再結合部
24 ジャンル判定部
25 判定結果出力部
31 ジャンル判定辞書
41 再結合品詞DB
51 判定結果DB

Claims (4)

  1. Webページが属するジャンルを判定するためのジャンル判定辞書を作成するジャンル判定辞書作成装置であって、
    少なくとも、名詞と名詞の組み合わせと、接頭辞と名詞の組み合わせと、名詞と接尾辞の組み合わせとを含む、複数の品詞の組合せを記憶する再結合品詞記憶手段と、
    属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析する辞書作成用解析手段と、
    前記辞書作成用解析手段が解析した形態素について、前記辞書作成用テキストにおいて互いに隣接し、前記再結合品詞記憶手段に記憶される複数の品詞の組合せに合致する形態素を再結合して語句を生成する辞書作成用再結合手段と、
    前記辞書作成用再結合手段が再結合して生成した語句と、前記Webページが属する既知のジャンルとを対応付けて記憶し、前記ジャンル判定辞書を作成する辞書作成手段と、
    前記辞書作成用再結合手段が再結合して生成した語句を用いて、前記再結合して生成した語句に対応付けて前記ジャンル判定辞書に記憶される前記ジャンルに該当するWebページを検索し、検索されたWebページにおいて前記再結合して生成した語句が所定数以上含まれる場合に、前記ジャンルを判定するための語句として、前記再結合して生成した語句を前記ジャンル判定辞書に登録する辞書登録手段と、
    を備えることを特徴とするジャンル判定辞書作成装置。
  2. 請求項1に記載のジャンル判定辞書を備え、
    少なくとも、名詞と名詞の組み合わせと、接頭辞と名詞の組み合わせと、名詞と接尾辞の組み合わせとを含む、複数の品詞の組合せを記憶する再結合品詞記憶手段と、
    Webページを構成するテキストを取得するテキスト取得手段と、
    前記テキスト取得手段が取得したテキストを形態素解析するテキスト解析手段と、
    前記テキスト解析手段が解析した形態素について、前記テキストにおいて互いに隣接し、前記再結合品詞記憶手段に記憶される複数の品詞の組合せに合致する形態素を再結合して語句を生成する再結合手段と、
    前記再結合手段が再結合して生成した語句が前記ジャンル判定辞書に登録されているか否かを判定するジャンル判定手段と、
    前記ジャンル判定手段が判定した結果を出力する判定結果出力手段と、
    を更に備えることを特徴とするジャンル判定装置。
  3. Webページが属するジャンルを判定するためのジャンル判定辞書をコンピュータが作成するジャンル判定辞書作成方法であって、
    属するジャンルが既知のWebページを構成する辞書作成用テキストを形態素解析するステップと、
    少なくとも、名詞と名詞の組み合わせと、接頭辞と名詞の組み合わせと、名詞と接尾辞の組み合わせとを含む、複数の品詞の組合せを記憶する再結合品詞記憶手段を参照して、前記形態素解析した形態素について、前記辞書作成用テキストにおいて互いに隣接し、前記再結合品詞記憶手段に記憶される複数の品詞の組合せに合致する形態素を再結合して語句を生成するステップと、
    前記再結合して生成した語句と、前記Webページが属する既知のジャンルとを対応付けて記憶し、前記ジャンル判定辞書を作成するステップと、
    前記再結合して生成した語句を用いて、前記再結合して生成した語句に対応付けて前記ジャンル判定辞書に記憶される前記ジャンルに該当するWebページを検索し、検索されたWebページにおいて前記再結合して生成した語句が所定数以上含まれる場合に、前記ジャンルを判定するための語句として、前記再結合して生成した語句を前記ジャンル判定辞書に登録する辞書登録ステップと、
    を備えることを特徴とするジャンル判定辞書作成方法。
  4. 請求項に記載のジャンル判定辞書を備えるコンピュータが、Webページが属するジャンルを判定するジャンル判定方法であって、
    Webページを構成するテキストを取得するステップと、
    前記取得したテキストを形態素解析するステップと、
    少なくとも、名詞と名詞の組み合わせと、接頭辞と名詞の組み合わせと、名詞と接尾辞の組み合わせとを含む、複数の品詞の組合せを記憶する再結合品詞記憶手段を参照して、前記形態素解析した形態素について、前記テキストにおいて互いに隣接し、前記再結合品詞記憶手段に記憶される複数の品詞の組合せに合致する形態素を再結合して語句を生成するステップと、
    前記再結合して生成した語句が前記ジャンル判定辞書に登録されているか否かを判定するステップと、
    前記判定した結果を出力するステップと、
    を更に備えることを特徴とするジャンル判定方法。
JP2009035759A 2009-02-18 2009-02-18 ジャンル判定辞書作成装置、ジャンル判定装置及び方法 Expired - Fee Related JP5165616B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009035759A JP5165616B2 (ja) 2009-02-18 2009-02-18 ジャンル判定辞書作成装置、ジャンル判定装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009035759A JP5165616B2 (ja) 2009-02-18 2009-02-18 ジャンル判定辞書作成装置、ジャンル判定装置及び方法

Publications (2)

Publication Number Publication Date
JP2010191710A JP2010191710A (ja) 2010-09-02
JP5165616B2 true JP5165616B2 (ja) 2013-03-21

Family

ID=42817687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009035759A Expired - Fee Related JP5165616B2 (ja) 2009-02-18 2009-02-18 ジャンル判定辞書作成装置、ジャンル判定装置及び方法

Country Status (1)

Country Link
JP (1) JP5165616B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3398729B2 (ja) * 1994-02-18 2003-04-21 富士通株式会社 キーワード自動抽出装置およびキーワード自動抽出方法
JPH08287097A (ja) * 1995-04-19 1996-11-01 Nippon Telegr & Teleph Corp <Ntt> 文書分類方法及び装置
JP2003108569A (ja) * 2001-09-27 2003-04-11 Seiko Epson Corp 分類処理装置、分類処理装置の制御方法、制御プログラムおよび記録媒体
JP2004258723A (ja) * 2003-02-24 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 話題抽出装置、話題抽出方法およびプログラム
JP2004265440A (ja) * 2004-04-28 2004-09-24 A I Soft Inc 未知語登録装置および方法並びに記録媒体
JP4466334B2 (ja) * 2004-11-08 2010-05-26 日本電信電話株式会社 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP4940399B2 (ja) * 2006-10-12 2012-05-30 株式会社野村総合研究所 広告配信装置およびプログラム

Also Published As

Publication number Publication date
JP2010191710A (ja) 2010-09-02

Similar Documents

Publication Publication Date Title
JP4848388B2 (ja) 検索クエリに関するスコアを算出する方法
US9507867B2 (en) Discovery engine
US20060206481A1 (en) Question answering system, data search method, and computer program
US20150100308A1 (en) Automated Formation of Specialized Dictionaries
JP4859779B2 (ja) 有害コンテンツの評価付与装置、プログラム及び方法
JP2002245061A (ja) キーワード抽出
Versley et al. Not just bigger: Towards better-quality Web corpora
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP5073349B2 (ja) 専門用語抽出装置、方法及びプログラム
JP5165616B2 (ja) ジャンル判定辞書作成装置、ジャンル判定装置及び方法
JP5499546B2 (ja) 重要語抽出方法、装置、プログラム、記録媒体
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP4726683B2 (ja) 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP7046592B2 (ja) 検索支援システム、検索支援方法、及び検索支援プログラム
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JP5094096B2 (ja) 有名人の別表現の自動抽出装置、方法
Koeva et al. Bulgarian X-language Parallel Corpus.
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP5186453B2 (ja) 検索装置及び方法
JP5843235B2 (ja) Web情報処理装置、web情報処理方法、およびプログラム
JP5761033B2 (ja) 文書分析装置、文書分析方法、およびプログラム
JP4859891B2 (ja) コンテンツに関連する情報を提供するサーバ、システム及び方法
JP5412137B2 (ja) 機械学習装置及び方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120522

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120618

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120719

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120807

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121102

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5165616

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350