JP5611173B2

JP5611173B2 - 単語属性推定装置及び方法及びプログラム

Info

Publication number: JP5611173B2
Application number: JP2011246844A
Authority: JP
Inventors: 足立　貴行; 貴行足立; 内山　俊郎; 俊郎内山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-11-10
Filing date: 2011-11-10
Publication date: 2014-10-22
Anticipated expiration: 2031-11-10
Also published as: JP2013105210A

Description

本発明は、単語属性推定装置及び方法及びプログラムに係り、他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する単語属性推定装置及び方法及びプログラムに関する。

現在、インターネット上の電子テキストのように、人々によって多くの電子テキストが作成され、それに伴い、一般の人々に把握されていない単語も含め、新語が数多く生まれている。もし、各単語の属性としてカテゴリを付与された辞書があれば、例えば、検索サービス提供者が、検索ログ分析において、利用者の検索語がどのカテゴリであるかを把握したり、検索サービスの改善に役立てたりすることができる。しかしながら、辞書整備は労力がかかるため、新語にカテゴリを付与することは容易ではない。

従来技術として、階層構造を持つ概念辞書に未登録の単語を登録する概念辞書登録装置が開示されている（例えば、特許文献1参照）。

また、もし、各単語の属性として同類語が分かれば、例えば、検索サービス提供者が、検索ログ分析において、利用者の膨大な検索語に対し同類語をまとめて概観したり、検索サービスの改善に役立てたりすることができる。同類語の推定方法として、単語と共起する語の共起頻度を特徴ベクトルとして表し、単語間で特徴ベクトルのcos類似度を計算して類似度が高いものを同類語とすることが考えられる。

特開２００５−３２６９５２号

しかしながら、概念辞書に階層構造を持たない場合は、上記の特許文献１に示す技術は適用できない。また、シソーラスの特定のノードから、シソーラスの構造を利用して、関連のあるノードを順に調べて、未登録語がノードに含まれるかどうかを判定する方法であるため、関連あるノードが多数ある場合は、処理に時間がかかる。

また、同類語の推定方法として、単語間の特徴ベクトルのcos類似度を用いた場合、同類以外の関係（例えば、自動車メーカ名とそのメーカの車種名）も類似度が高くなるため、同類語をうまく取得できない。

本発明は上記のような課題を解決するものであり、必ずしも階層構造を持つ概念辞書でない場合でも、既存のカテゴリ属性が付与された単語で意味の抽象度が似ている単語（同類語）を参考にして、カテゴリ属性が未知の単語に最も適したカテゴリ属性を推定する単語属性推定装置、方法、プログラムを提供することを目的とする。

また、更に本発明は、カテゴリを単語属性として付与するだけでなく、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して得られた同類語を単語属性として推定する単語属性推定装置及び方法及びプログラムを提供することを目的とする。

上記の課題を解決するため、本発明（請求項１）は、他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する単語属性推定装置であって、
入力単語データと単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成手段と、
前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出手段と、
前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成手段と、
前記特徴データ記憶部から前記特徴データを取得し、前記入力単語と前記同類語候補記憶手段の各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出手段と、を有する。

また、本発明（請求項２）は、前記同類語記憶手段の同類語データと単語カテゴリデータ記録手段の既存のカテゴリ属性が付与された単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定手段を更に有する。

また、本発明（請求項３）は、前記同類語抽出手段において、
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する手段を含む。

本発明によれば、必ずしも階層構造を持つ概念辞書でない場合でも、既存のカテゴリ属性が付与された単語で意味の抽象度が似ている単語（同類語）を参考にして、カテゴリ属性が未知の単語に最も適したカテゴリ属性を推定することで、単語にカテゴリを付与する際の負担や処理時間を軽減することが可能となる。

また、本発明によれば、カテゴリを単語属性として付与するだけでなく、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して得られた同類語を単語属性として推定することも可能である。

本発明の一実施の形態における単語属性推定装置の構成図である。本発明の一実施の形態における単語属性推定装置の処理のフローチャートである。本発明の一実施の形態における各種データの例である。

以下図面と共に、本発明の実施の形態を説明する。

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。

図１は本発明の一実施形態の単語属性推定装置の構成図、図２は図１の単語属性推定装置の処理の流れを表すフローチャートである。図２のＳ１００〜Ｓ１４０は各処理のステップを各々示している。

本実施形態の単語属性推定装置１００は、特徴パターンデータ作成部１１０、同類語候補抽出部１２０、特徴データ作成部１３０、同類語抽出部１４０、カテゴリ推定部１５０、特徴パターンデータ記憶部１６０、同類語候補データ記憶部１７０、特徴データ記憶部１８０、同類語データ記憶部１９０、入力単語データ記憶部２００、単語共起データ記憶部３００、単語カテゴリデータ記憶部４００、属性付き単語データ記憶部５００から構成される。

単語属性推定装置１００内の各部の、後述する各機能は例えばコンピュータによって達成される。

また、各記憶部はハードディスク等の記憶媒体に格納されている。

ステップ１００）特徴パターンデータ作成部１１０は、入力単語データ記憶部２００の入力単語データと単語共起データ記憶部３００の単語共起データを読み込み、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターンデータ記憶部１６０へ出力する。

ステップ１１０）同類語候補抽出部１２０は、特徴パターンデータ記憶部１６０の特徴パターンデータと単語共起データ記憶部３００の単語共起データを読み込み、特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補データ記憶部１７０へ出力する。

ステップ１２０）特徴データ作成部１３０は、入力単語データ記憶部２００の入力単語データと同類語候補データ記憶部１７０の同類語候補データと単語共起データ記憶部３００の単語共起データを読み込み、入力単語及び各同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、その特徴パターンを要素とし、その共起頻度を値とするベクトルを作成して、特徴データ記憶部１８０へ出力する。

ステップ１３０）同類語抽出部１４０は、特徴データ記憶部１８０から特徴データを読み込み、入力単語と各同類語候補との関連度を計算し、関連度の高いものを同類語データ記憶部１９０へ出力する。

ステップ１４０）カテゴリ推定部１５０は、同類語データ記憶部１９０から同類語データと単語カテゴリデータ記憶部４００から既存のカテゴリ属性が付与された単語カテゴリデータを読み込み、同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語データ記憶部５００へ出力する。

次に、本実施形態の動作を具体例により、図２のフローチャートに沿って説明する。

図３は、本発明の一実施の形態における各種データの一例である。

同図（Ａ）は、入力単語データ記憶部２００の入力単語データの例を示す。同図（Ｂ）は、単語共起データ記憶部３００の単語共起データの例を示す。同図（Ｃ）は特徴パターンデータ作成部１１０で生成される入力単語特徴データの例である。同図（Ｄ）は同類語候補抽出部１２０で抽出され、同類語候補データ記憶部１７０に格納される同類語候補データの例である。同図（Ｅ）は、特徴データ作成部１３０で生成され、特徴データ記憶部１８０に格納される同類語候補特徴データの例である。同図（Ｆ）は、同類語抽出部１４０により抽出された同類語抽出処理におけるデータの例であり、同図（Ｇ）は、同類語抽出部１４０により最終的に抽出され、同類語データ記憶部１９０に格納される同類語データの例である。同図（Ｈ）は、単語カテゴリデータ記憶部４００からカテゴリ推定部１５０に入力される単語カテゴリデータの例であり、同図（Ｉ）は、カテゴリ推定部１５０により推定され、属性付き単語データ記憶部５００に格納されるカテゴリデータの例である。

特徴パターンデータ作成部１１０は、入力単語データ記憶部２００の入力単語データと単語共起データ記憶部３００の単語共起データを読み込み、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターンデータ記憶部１６０へ出力する（ステップ１００）。

例えば、図３（Ａ）の入力単語データと図３（Ｂ）の単語共起データが入力される。入力単語データが複数行からなる場合、各行の単語は独立に扱われ、順次処理される。また、図３（Ｂ）の単語共起データは"<tab>"を単語区切りとして単語の共起関係を前後の出現関係も含めて表わすと共に、その共起頻度を付与している。このデータは、例えば、検索ログの複数の検索語が入力されたときの共起関係から前もって作成したものである。図３（Ａ）の入力単語データ"ト○タ"を入力単語として処理する場合、図３（Ｂ）の単語共起データにおいて、共起単語の一方と入力単語が一致したデータを探すと、その１つとして"ト○タ<tab>中古車"が見つかるので、一致した単語の残りの部分である"<tab>中古車"を特徴パターンとして抽出し、図３（Ｃ）の特徴パターンデータ記憶部１６０へ出力する。

同類語候補抽出部１２０は、特徴パターンデータ記憶部１６０の特徴パターンデータと単語共起データ３００の単語共起データを読み出し、特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補データ記憶部１７０へ出力する（ステップ１１０）。

例えば、図３（Ｂ）の単語共起データにおいて、図３（Ｃ）の特徴パターンと一致した残りの単語を同類語候補とし、図３（Ｄ）の同類語候補データ記憶部１７０へ出力する。具体的には、図３（Ｃ）に"<tab>中古車"の特徴パターンがあるので、図３（Ｂ）の"○産<tab>中古車"や"ホ○ダ<tab>中古車"などと一致したものの残りの単語である"○産"や"ホ○ダ"が同類語候補として得られる。なお、同類語候補には入力単語を含めない。同様に、図３（Ｃ）の別の特徴パターンである"車<tab>"は図３（Ｂ）において単語共起データ"車<tab>○産"と一致するため、残りの単語である"○産"が同類語候補として重複して得られる。そこで、各同類語候補に対して、異なる特徴パターンとの重複数もカウントし、全ての同類語候補を抽出し終わったところで、重複度に対し所定の閾値未満の同類語候補を除く。これにより、処理時間を短縮すると共に、入力単語との関係度が低い同類語候補を除けるので精度向上につながる。なお、所定の閾値の設定方法は、特徴パターン数が多いと、同類語候補に対する特徴パターンとの重複数は多くなることが予想されるので、特徴パターン数をaとしたときに、f(a)+bのようなaの関数によって、重複数の閾値を動的に変える（なお、bは定数）。また、f(a)はaの定数倍やaの平方根とすることが考えられる。

特徴データ作成部１３０は、入力単語データ記憶部２００の入力単語データと同類語候補データ記憶部１７０の同類語候補データと単語共起データ記憶部３００の単語共起データを読み込み、入力単語及び各同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、その特徴パターンを要素とし、その共起頻度を値とするベクトルを作成して、特徴データ記憶部１８０へ出力する（ステップ１２０）。

例えば、図３（Ａ）の入力単語データや図３（Ｄ）の同類語候補データと、図３（Ｂ）の単語共起データを読み込む。次に、入力単語もしくは同類語候補に対して、共起する単語のパターンを要素とし、その共起頻度を値とするベクトルデータを作成し、図３（Ｅ）のような特徴データとして特徴データ記憶部１８０に出力する。具体的には、図３（Ｅ）の入力単語が"ト○タ"の場合、共起した単語パターンである"<tab>中古車"では、共起頻度が"318"であるので、ベクトルの1要素に格納される。同類語候補についても同様な処理によって、入力単語及び同類語候補のベクトルは作成され、特徴データ記憶部１８０へ出力される。

同類語抽出部１４０は、特徴データ記憶部１８０から特徴データを読み込み、入力単語と各同類語候補との関連度を計算し、関連度の高いものを同類語データ記憶部１９０へ出力する（ステップ１３０）。

例えば、図３（Ｅ）の入力単語"ト○タ"と同類語候補"中古車"の特徴ベクトル間で関連度を計算する。まず、関連度はcos類似度に基づいて計算する。入力単語の特徴ベクトルXのi番目のベクトルの値をxi、同類語候補の特徴ベクトルYのi番目のベクトルの値をyiとする。ここで、iは共通であるので、同じ特徴に対するXまたはYにおける値を表わす。ベクトルの次元数をMとするとcos類似度は次の式で求める。

cos類似度を計算後、所定の閾値未満となるものを除く。例えば、図３（Ｆ）のように入力単語"ト○タ"と同類語候補"中古車"のcos類似度は、所定の閾値（例えば0.25）未満のため、同類語候補から除く。次に、cos類似度だけでは除けないが、本来除くべき同類語候補について対処する。例えば、自動車メーカ名"ト○タ"とその製造車種"レ○サス"の場合、"レ○サス"と共起した特徴の多くが"ト○タ"と共起した特徴の一部に収まるため、片方にしか出現しない特徴によるcos類似度の低下は見込めない。そこで、"ト○タ"と共起する特徴に限定した共通度を計算する。ベクトルの次元数をMとすると入力単語共通度は次の式で求める。

なお、tiとはi番目の特徴パターンがYに現れ、かつXにも現れた場合のxiである。つまり、入力単語共通度は入力単語の全特徴において、同類語候補と共通する特徴の度合いを表わしたものである。この入力単語共通度を計算した結果、所定の閾値未満となるものは同類語候補から除く。なお、この閾値はcos類似度で設定したものとは異なる。例えば、図３（Ｆ）のように入力単語"ト○タ"と同類語候補"レ○サス"の入力単語共通度は、所定の閾値（例えば0.5）未満のため、同類語候補から除く。以上の後、最終的に残った同類語候補を同類語として、図３（Ｇ）のように抽出される。

カテゴリ推定部１５０は、同類語データ記憶部１９０から同類語と単語カテゴリデータ記憶部４００から単語カテゴリデータを入力し、同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語データ記憶部５００へ出力する（ステップ１４０）。

カテゴリ推定部１５０は、例えば、同類語データとして図３（Ｇ）が、単語カテゴリデータとして図３（Ｈ）が入力された場合、図３（Ｇ）の上位から所定件数もしくは、cosスコアの閾値以上である同類語に対し、図３（Ｈ）の単語と一致したカテゴリについて重複数を求めると、図３（Ｉ）のようなカテゴリデータを得る。個数が最大のものは、多くの同類語に付与されたカテゴリであるので、入力単語と共にカテゴリとして出力する。例えば、入力単語"ト○タ"に図３（Ｉ）の最上位のカテゴリである"日本の自動車メーカー・ブランド"をカテゴリの属性として付与して出力する。また、上位から所定の閾値を最大とする複数のカテゴリを出力したり、重複度が所定の閾値以上に該当する複数のカテゴリを出力することも可能である。

なお、図１の特徴データ作成部１３０と同類語抽出部１４０は別々に行っているが、同類語候補毎に特徴データを作成して、同類語とするかどうかの判定を行うまでを一貫して行う手段であってもよい。

なお、図１のカテゴリ推定部１５０の処理を行わず、同類語データ記憶部１９０の同類語を入力単語に対する属性として付与し、出力することも可能である。

また、本実施形態の単語属性推定装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の関連語計算方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばフレキシブルディスクや、MO（Magneto−Optical disk）、ROM（Read Only Memory）、メモリカード、CD（Compact Disk）-ROM、DVD（Digital Versatile Disk）-ROM、BD（Blu-ray Disk）-ROM、CD-R、CD-RW、DVD-R、DVD-RW、DVD-R DL、DVD+R、DVD+RW、DVD+R DL、BD-Ｒ、BD-RE，HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

なお、本発明は上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

１００単語属性推定装置
１１０特徴パターンデータ作成部
１２０同類語候補抽出部
１３０特徴データ作成部
１４０同類語抽出部
１５０カテゴリ推定部
１６０特徴パターンデータ記憶部
１７０同類語候補データ記憶部
１８０特徴データ記憶部
１９０同類語データ記憶部
２００入力単語データ記憶部
３００単語共起データ記憶部
４００単語カテゴリデータ記憶部
５００属性付き単語データ記憶部

Claims

他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する単語属性推定装置であって、
入力単語データと単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成手段と、
前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出手段と、
前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成手段と、
前記特徴データを取得し、前記入力単語と各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出手段と、
を備えたことを特徴とする単語属性推定装置。
前記同類語記憶手段の同類語データと単語カテゴリデータ記憶手段の単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定手段を更に有する
請求項１に記載の単語属性推定装置。
前記同類語抽出手段は、
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する手段を含む
請求項１または２に記載の単語属性推定装置。
属性が未知である単語に対し、付与すべき属性を推定する単語属性推定方法であって、
特徴パターンデータ作成手段が、入力単語データ記憶手段の入力単語データと単語共起データ記憶手段の単語共起データを取得し、入力単語と共起する単語のパターンを特徴パターンとして抽出し、特徴パターン記憶手段に格納する特徴パターンデータ作成ステップと、
同類語候補抽出手段が、前記特徴パターンデータと前記単語共起データを取得し、前記特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、同類語候補記憶手段に格納する同類語候補抽出ステップと、
特徴データ作成手段が、前記入力単語データと前記同類語候補記憶手段の同類語候補データと前記単語共起データを取得し、前記入力単語及び各前記同類語候補に対し、共起する単語のパターンを特徴パターンとして抽出し、該特徴パターンを要素とし、その共起頻度を値とするベクトルを作成し、特徴データ記憶手段に格納する特徴データ作成ステップと、
同類語抽出手段が、前記特徴データを取得し、前記入力単語と各前記同類語候補との関係度を計算し、関係度の高いものを同類語として抽出し、同類語記憶手段に格納する同類語抽出ステップと、
を行うことを特徴とする単語属性推定方法。
カテゴリ推定手段が、前記同類語記憶手段の同類語データと単語カテゴリデータ記憶手段の単語カテゴリデータを取得し、前記同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、推定したカテゴリを属性として付与した単語を属性付き単語として出力するカテゴリ推定ステップを更に行う
請求項４に記載の単語属性推定方法。
前記同類語抽出ステップにおいて、
前記入力単語と各前記同類語候補との関係度の計算として、入力単語と各同類語候補との類似度を計算し、また、入力単語との共通度を計算して、類似度及び共通度が各々所定の閾値以上のものを同類語として抽出する
請求項４または５に記載の単語属性推定方法。
コンピュータを、
請求項１乃至３のいずれか１項に記載の各手段として機能させるための単語属性推定プログラム。