JP4143085B2

JP4143085B2 - 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Info

Publication number: JP4143085B2
Application number: JP2005362386A
Authority: JP
Inventors: 浩之戸田; 考藤村; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-12-15
Filing date: 2005-12-15
Publication date: 2008-09-03
Anticipated expiration: 2025-12-15
Also published as: JP2007164635A

Description

本発明は、同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、インターネットに代表されるコンピュータネットワークにおいて、ＨＴＭＬやＸＭＬ，ＳＧＭＬ等のタグ付きテキストから語彙を獲得するための同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。

コンピュータネットワークにおける情報検索において、検索結果が大量になることが頻繁となり、検索システムの利用者は、キーワードでの検索を行った後に、得られた検索結果から本当に欲しい情報を獲得するという作業を強いられている。

このような問題に対して、検索結果のテキスト情報から実世界のインスタンスを指し示す固有名詞を文書中から抽出し、それらのうち検索結果中で重要であると考えられる固有名詞を選択し、検索結果と共に提示することで、効率的な文書の検索を容易に実現するという方法がある（例えば、特許文献１参照）。

これにより、ユーザは検索結果を一つ一つ見ながら所望の情報を探したり、追加キーワードを考え、再検索を行うことなく、実世界のインスタンスをランドマークとみなし、所望の情報を絞り込むことができる。

これを実現するための基本的な技術として、テキスト中の固有名詞を特定する手法が必要となる。

最も単純な方法として、人手で辞書を作成し、その辞書語とマッチする語をテキストから抽出するという手法が考えられる。

さらに、特定の辞書は持たず、文書中に存在する固有名詞を予め人手で特定した学習データから、形態素（品詞情報）レベルのパターンとして抽出ルールを作成し、予め学習データに含まれた語のみでなく、新たな語の抽出も可能とする手法もある（例えば、特許文献２参照）。
特開２００５−２０８８３８号公報特開２００３−３３１２５４号公報

しかしながら、上記従来の技術には以下のような問題がある。

辞書を人手で作成する手法は、確実にテキスト中の該当部分を特定することができるが、辞書の更新にかかるコストが非常に大きいため、幅広い分野や属性の辞書語を収集することは現実的に難しい。

学習データを用いてルールを自動的に生成し、固有名詞の解析を行う手法は、辞書構築やルール生成のコストを削減し、固有名詞の抽出を行うことを可能とするが、Ｗｅｂ上で頻繁に見られる略語や別名は意識されない。

つまり、正式な表現を用いた場合と、略称などの別名を用いた場合の両方を固有名詞であるとして抽出することは可能であるが、同一のインスタンスを参照する表記であるということは判断されず、異なるインスタンスについて記述された文書であると判断される。

これを解決する手法として、文書内での共起を利用して解決する手法（例えば、向井ら、ラベル指向情報検索における分類ラベル統合方式の検討、ＦＩＴ２００４）は存在するが、これはニュース記事等のフォーマルな文書において、正式名と略名が列挙されているという手法を用いたものであり、Blogや掲示板のＷｅｂ上で多く存在するインフォーマルな文書に対しては効果的でない。

本発明は、上記の点に鑑みなされたもので、コンピュータネットワークにおけるテキストから、特定のクラスの語彙の同義語を自動的に獲得することが可能な同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、ＨＴＭＬやＸＭＬを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得方法であって、
キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると（ステップ１）、電子テキストを検索して該上位概念語とそれぞれのキーワードを含む文書を取得するキーワード検索ステップ（ステップ２）と、
文書特定手段が、キーワード検索ステップで取得した文書中で、検索におけるキーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定ステップ（ステップ３）と、
リンク検索手段が、キーワード検索ステップ（ステップ２）で取得した文書から、キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索ステップ（ステップ４）と、
アンカーテキスト特定手段が、文書特定ステップ（ステップ３）ならびにリンク検索ステップ（ステップ４）で特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定ステップ（ステップ５）と、
クラス別アンカーテキスト文字列統計解析手段が、アンカーテキスト特定ステップで抽出されたアンカーテキストを記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析ステップ（ステップ６）と、
アンカー文字列クリーニング手段が、アンカーテキスト統計情報データベースに格納された部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、キーワードにおける出現確率のエントロピーがキーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニングステップ（ステップ７）と、を行う。

図２は、本発明の原理構成図である。

本発明（請求項３）は、ＨＴＭＬやＸＭＬを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得装置であって、
キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含む文書を取得するキーワード検索手段２０と、
キーワード検索手段２０で取得した文書中で、検索におけるキーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定手段２５と、
キーワード検索手段２５で取得した文書から、キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索手段３０と、
文書特定手段２５ならびにリンク検索手段３０で特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段４１に格納するアンカーテキスト特定手段４０と、
アンカーテキスト特定手段４０で抽出されたアンカーテキストを記憶手段４１から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベース７０に格納するクラス別アンカーテキスト文字列統計解析手段５０と、
アンカーテキスト統計情報データベース７０に格納された部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、キーワードにおける出現確率のエントロピーがキーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベース７０のアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニング手段６０と、を有する。

本発明（請求項３）は、請求項２記載の同義語獲得装置を構成する各手段としてコンピュータを機能させるための同義語獲得プログラムである。
本発明（請求項４）は、請求項３記載の同義語獲得プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体である。

上記のように本発明によれば、特定の属性の少ないキーワードを元に、その該当属性のキーワードが出現する位置及びパターンを自動で抽出し、この２つの特徴を利用し高い精度でキーワード候補の出現するルールを特定し、予め指定されたキーワードを複数含むテキスト中で上記特定したルールにマッチするキーワードを抽出し、ここで抽出された個々のキーワードの出現頻度や分布を元に最終的な抽出候補のキーワードを特定することで、高精度に語彙を獲得することが可能となる。

この語彙獲得により得られた辞書を用いることで、テキスト中から特定属性のキーワードを抽出することが可能となる。

以下、図面と共に本発明の実施の形態を説明する。

本発明は、同一クラスの語彙（上位概念語とキーワード）を入力として受け付け、それぞれの語彙によって参照されるＷｅｂページ群を特定し、それらのＷｅｂページ群を参照するアンカーテキストを特定する。このアンカーテキストから固有表現部分を特定することで、入力したそれぞれの語彙に対する同義語を特定する。この最後の固有表現部分を推定するための基礎データとなる、アンカーテキスト内での文字列の出現情報は分野によって偏りがあるため、同じクラスの語彙を複数入力することで分野依存の解析を行うことを可能にするものである。

図３は、本発明の一実施の形態における同義語彙獲得装置の構成を示す。

同図に示す同義語彙獲得装置は、キーワードと当該キーワードの上位概念語が入力されるキーワード入力部１０、入力されたキーワードと上位概念語に基づいてそれらとの関連性の高い文書を検索する検索部（キーワード検索手段）２０、キーワードに適合するＵＲＬを求める文書特定部（文書特定手段）２５、キーワードに適合するアンカーテキストのＵＲＬを求めるＵＲＬ抽出部（リンク検索手段）３０、文書特定部２５とＵＲＬ抽出部３０のＵＲＬの文書からアンカーテキストを抽出するアンカーテキスト抽出部（アンカーテキスト特定手段）４０、アンカーテキストの部分文字列の統計量（出現頻度）を求めるアンカーテキスト解析部（クラス別アンカーテキスト文字列統計解析手段）５０、不要な文字列の削除などを行って固有名詞を決定するアンカーテキストクリーニング部（アンカー文字列クリーニング手段）６０、解析結果を格納するアンカーテキスト統計情報ＤＢ（記憶手段）７０、アンカーテキストクリーニング部６０で特定された固有名詞を同義語彙として出力する同義語出力部８０から構成される。

なお、上記の括弧内の記載は、特許請求の範囲の各手段との対応を示す。

図４は、本発明の一実施の形態における動作のフローチャートである。以下、図４と共に、上記の構成の動作を説明する。

ステップ１０１）キーワード入力部１０は、ユーザからのキーワードの入力を受け付ける。入力は、同一クラスに属するキーワードを複数受け付けるものとし、上位概念語と共にその概念に属する１つ以上の語彙を入力とする。入力データ例を図５に示す。

ステップ１０２）検索部２０は、入力されたキーワードのそれぞれについて、キーワード検索を行い、ＨＴＭＬやＸＭＬなどの電子テキストからキーワードとの関連性の高い文書集合を取得する。

ステップ１０３）文書特定部２５は、入力されたキーワードのそれぞれについて、上記の検索部２０で取得した文書集合のうち特に関連性の強い文書を特定する。関連性の判定手段としては、以下のような例がある。

・検索部２０において検索した結果、最もキーワードとの関連度が強い文書；
・文書のタイトルがキーワードと完全一致する文書；
文書特定部２５では、一次記憶（メモリ）を有し、キーワードと関連性が強いと判断された文書ＵＲＬを格納する。当該装置に入力されたキーワード全てについて以上の処理を行った後、次の処理を行う構成要素にデータの内容を渡す。メモリのデータ格納の例を図６に示す。

ステップ１０４）ＵＲＬ抽出部３０は、入力されたキーワードのそれぞれについて、上記の検索部２０で取得した文書集合から、キーワードをアンカーテキストに含むリンクを抽出し、キーワードと関連性の高い文書とみなす。この文書の特定にあたっては、必ずしも全ての文書を取得するわけではなく、出現頻度を元に閾値を決定し、閾値を超えた文書のみをキーワードと関連性の高い文書と見做すことも考えられる。ＵＲＬ抽出部３０では、メモリを有し、キーワードと当該キーワードと関連性の強い文書のＵＲＬを格納する。入力されたキーワードのすべてについて上記の処理を行った後、次の処理を行う公正要素にデータの内容を渡す。ＵＲＬ抽出部３０のメモリのデータ格納の例を図７に示す。

ステップ１０５）全てのキーワードの処理が終了すればステップ１０６に移行し、そうでなければステップ１０２に戻る。

ステップ１０６）アンカーテキスト抽出部４０は、入力されたキーワードのそれぞれに関連するＵＲＬを、文書特定部２５及びＵＲＬ抽出部３０から受け取り、それぞれのキーワード毎にＵＲＬをマージする。その後、検索エンジンを利用する、もしくは、アンカーテキスト抽出部４０内に設けたリンクデータベース（図８）の情報から、特定されるそれぞれのＵＲＬを含む文書を特定し、当該文書に対するリンクのアンカーテキストを抽出する。リンクデータベースで想定されるデータの内容を図８に示す。また、検索エンジン（ｇｏｏ（登録商標）等）を利用する場合には、例えば、今探したいＵＲＬがＡである場合、「link：Ａ」等の検索要求を指定することで所望のデータを取得できる。アンカーテキスト抽出部４０では、メモリを有し、キーワードとアンカーテキストを格納する。当該アンカーテキスト抽出部４０に入力されたキーワード全てについて以上の処理を行った後、次の処理を行う構成要素（アンカーテキスト解析部５０）にデータの内容を渡す。図９にアンカーテキスト抽出部４０のメモリのデータ格納例を示す。

ステップ１０７）アンカーテキスト抽出部４０において、全文書の処理が終了したかを判定し、終了した場合にはステップ１０８に移行し、そうでない場合にはステップ１０６に移行する。

ステップ１０８）アンカーテキスト解析部５０は、アンカーテキスト抽出部４０で抽出されたアンカーテキストについて、それぞれの出現頻度及び部分文字列の出現頻度を算出する。部分文字列としては、n-gramで全ての区切りについて出現頻度を算出する。解析対象をアンカーテキストのprefixやsuffixとなる文字列に限定することも考えられる。また、アンカーテキスト解析部５０では、コーパスを解析し、クラスに依存しないアンカーテキストの解析を行った結果を利用することにより、分野依存の語彙はそのままとすることが考えられる。アンカーテキスト解析部５０での解析結果は、アンカーテキスト統計情報ＤＢ７０に格納される。アンカーテキスト統計情報ＤＢ７０に登録されるデータの例を図１０に示す。

アンカーテキスト統計情報ＤＢ７０は、アンカーテキスト解析部５０によって解析されたデータを格納する。データ例は図１０に示すとおりである。

ステップ１０９）アンカーテキスト解析部５０において、全アンカーテキストの処理が終了した場合には、ステップ１１０に移行し、そうでない場合にはステップ１０８に戻る。

ステップ１１０）アンカーテキストクリーニング部６０は、入力されたキーワードのそれぞれについて、アンカーテキスト統計情報ＤＢ７０に格納されたデータを元に、アンカーテキストに含まれる不要な文字列を除去し、同義語の候補とする。まず、図１０（Ｃ）の情報を元に、全てのクラスで高頻度（閾値αを超える場合）に利用される語彙を抽出し、一般的な語彙であると考え、除去する部分文字列を特定するstop word listに登録する。

ステップ１１１）次に、図１０（Ｂ）の情報を元に、クラス内で高頻度に利用される語彙を抽出する。これは、一般的な語彙であると考えられるが、必ずしも固有表現以外の文字列とは限らないため（例えば、航空会社のリストを作成する場合の「航空」という文字列は頻出であるが不要な文字列ではない）、図１０（Ｃ）の情報を調べ閾値βを超える場合、もしくは、それらが記号の連続する列を含む場合など明らかに固有表現と異なる場合には、stop word listに登録する。また、単に頻度を考えるだけではなく、分散を考え広く分散されている部分文字列は固有表現の一部とは考えにくいと考え、頻度とともにstop word判定の基準にすることも考えられる。

ここで、キーワードｉで部分文字列ｘが出現する場合の確率をＰ（ｘ_ｉ）とすると、分散は以下のエントロピーを算出する式で評価できる。この値がlog｜Ｉ｜（Ｉはキーワードの集合）に近い場合、分散は大きいとされ、一般語である可能性が高いと判定できる。

ステップ１１２）アンカーテキストクリーニング部６０において全てのキーワードについて処理が終了すればステップ１１３に移行し、そうでなければステップ１１０に移行する。

ステップ１１３）アンカーテキストクリーニング部６０は、この後、図１０（Ａ）に登録されているデータからstop wordを除去し、データを再構築する。そして、閾値γを超える頻度で出現する語彙を同義語とする。

ステップ１１４）同義語出力部８０は、入力されたキーワードと共に、アンカーテキストクリーニング部６０において同義語と判定されたデータを出力する。

本発明では、上記の同義語彙獲得装置の各構成要素の機能をプログラムとして構築し、コンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

また、構築されたプログラムをハードディスクや、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールして実行させる、または、配布することが可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、ハイパーテキストから固有名詞の別名や略称を抽出するための技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における同義語彙獲得装置の構成図である。本発明の一実施の形態における動作のフローチャートである。本発明の一実施の形態におけるキーワード入力部で受け付けるデータ例である。本発明の一実施の形態における文書特定部のメモリのデータ格納例である。本発明の一実施の形態におけるＵＲＬ抽出部のメモリのデータ格納例である。本発明の一実施の形態におけるアンカーテキスト抽出部で利用されるリンクデータベースの内容の例である。本発明の一実施の形態におけるアンカーテキスト抽出部のメモリのデータ格納例である。本発明の一実施の形態におけるアンカーテキスト統計情報ＤＢのデータ例である。

符号の説明

１０キーワード入力部
２０キーワード検索手段、検索部
２５文書特定手段、文書特定部
３０リンク検索手段、ＵＲＬ抽出部
４０アンカーテキスト特定手段、アンカーテキスト抽出部
４１記憶手段
５０クラス別アンカーテキスト文字列統計解析手段、アンカーテキスト解析部
６０アンカー文字列クリーニング手段、アンカーテキストクリーニング部
７０アンカーテキスト統計情報ＤＢ
８０同義語出力部

Claims

ＨＴＭＬやＸＭＬを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得方法であって、
キーワード検索手段が、キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含む文書を取得するキーワード検索ステップと、
文書特定手段が、前記キーワード検索ステップで取得した文書中で、前記検索における前記キーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定ステップと、
リンク検索手段が、前記キーワード検索ステップで取得した前記文書から、前記キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索ステップと、
アンカーテキスト特定手段が、前記文書特定ステップならびに前記リンク検索ステップで特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定ステップと、
クラス別アンカーテキスト文字列統計解析手段が、前記アンカーテキスト特定ステップで抽出されたアンカーテキストを前記記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析ステップと、
アンカー文字列クリーニング手段が、前記アンカーテキスト統計情報データベースに格納された前記部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、前記キーワードにおける出現確率のエントロピーが前記キーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニングステップと、
を行うことを特徴とする同義語彙獲得方法。
ＨＴＭＬやＸＭＬを含む電子テキストを解析し、固有名詞の別名や略称を含む同義語彙を獲得する同義語彙獲得装置であって、
キーワードと該キーワードの上位概念語が入力されると、電子テキストを検索して該上位概念語とそれぞれのキーワードを含む文書を取得するキーワード検索手段と、
前記キーワード検索手段で取得した文書中で、前記検索における前記キーワードとの関連度が最も強い文書、または、文書のタイトルがキーワードと完全一致する文書を特定する文書特定手段と、
前記キーワード検索手段で取得した前記文書から、前記キーワードをアンカーテキストに含むリンクの参照先文書を特定するリンク検索手段と、
前記文書特定手段ならびに前記リンク検索手段で特定された文書へのリンクを含む文書を特定し、該リンクのアンカーテキストを抽出し、記憶手段に格納するアンカーテキスト特定手段と、
前記アンカーテキスト特定手段で抽出されたアンカーテキストを前記記憶手段から読み出して解析し、該アンカーテキスト中に含まれる部分文字列の出現頻度を算出し、当該部分文字列と対応付けてアンカーテキスト解析結果としてアンカーテキスト統計情報データベースに格納するクラス別アンカーテキスト文字列統計解析手段と、
前記アンカーテキスト統計情報データベースに格納された前記部分文字列の出現頻度を読み出して、該出現頻度の高い部分文字列並びに、前記キーワードにおける出現確率のエントロピーが前記キーワードの集合のエントロピーに近い部分文字列を、該アンカーテキスト統計情報データベースのアンカーテキストから除去する部分文字列を特定するリストに登録し、該アンカーテキストから該リストに登録されている部分文字列を除去し、出現頻度の高い文字列を同義語として特定するアンカー文字列クリーニング手段と、
を有することを特徴とする同義語彙獲得装置。
請求項２記載の同義語獲得装置を構成する各手段としてコンピュータを機能させるための同義語獲得プログラム。
請求項３記載の同義語獲得プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。