JP2011175328A

JP2011175328A - 意味属性推定装置、意味属性推定方法、意味属性推定プログラム

Info

Publication number: JP2011175328A
Application number: JP2010037003A
Authority: JP
Inventors: Masahiro Oku; 雅博奥; Katsuto Bessho; 克人別所; Toshiro Uchiyama; 俊郎内山; Masashi Uchiyama; 匡内山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-02-23
Filing date: 2010-02-23
Publication date: 2011-09-08

Abstract

【課題】日本語辞書，日英対訳辞書を要することなく、単語の意味属性を自動で推定する。
【解決手段】意味属性推定装置５は、予め概念ベクトルと意味属性が付与された多数の既存単語の情報を格納した概念ベース４を備える。そして、概念ベクトル付与手段１は意味属性を推定したい単語（処理対象単語）に対して概念ベクトルを算出する。距離計算手段２は、処理対象単語と、予め概念ベース４に格納された既存単語との概念ベクトルにおける距離を算出する。意味属性候補出力手段３は、前記概念ベクトルにおける距離に基づき、処理対象単語の概念ベクトルとの距離が小さな単語を抽出し、抽出された単語の意味属性を処理対象単語の意味属性候補とする。
【選択図】図１

Description

本発明は、単語の概念を表す意味属性を推定する装置および方法に係わり、特に、処理対象単語の意味属性の候補として、処理対象単語と概念ベクトルの近い既存単語の持つ意味属性を出力する意味属性推定装置に関する。

従来から、テキスト解析の精度向上や意味理解を目的として、単語に対して意味属性を付与することが行われている。

例えば、非特許文献１では、日本語約３０万単語に対して約３，０００種類の意味属性を人手で付与した結果が報告されており、非特許文献２として出版されている。また、非特許文献３では、日本語単語表記と英語訳との対を入力し、日本語翻訳に利用される辞書を参照することによって、入力された日本語単語の意味属性を推定する方法が提案されている。

一方、従来から、単語間の類似性判別や文書検索の高精度化を目的として、単語の概念情報をデータベース化する装置・方法が提案されている。例えば、特許文献１や特許文献２では、単語あるいは単語の持つ意味属性を要素とした多次元空間を用意し、該多次元空間中に各単語を概念ベクトルとして配置したデータベース（概念ベース）の作成手法が提案されている。

特開２００６−３３８３４２号公報（段落［００１６］〜［００６５］，第１図）特開２００７−７２６１０号公報（段落［００２９］〜［００５２］，第５図）

白井諭，大山芳史，池原悟，宮崎正弘，横尾昭男，"日本語語彙大系について"、情報処理学会情報メディア研究会、１９９８年１１月、３４−９、ｐｐ４７−５２池原悟，宮崎正弘，白井諭，横尾昭男，小倉健太郎，大山芳史，林良彦、「日本語語彙大系」、岩波書店、１９９７年９月２６日池原悟，白井諭，横尾昭男，ＦｒａｎｃｉｓＢｏｎｄ，小見佳恵，"日英機械翻訳における利用者登録語の意味属性の自動推定"、情報処理学会自然言語処理研究会、１９９４年７月、ＮＬ１０２−１０，ｐｐ．７３−８０

しかしながら、このような従来の技術では以下のような問題が生じていた。

非特許文献１，非特許文献２の意味属性推定方法では、新たな単語に対して人手で意味属性を付与する必要があり、非常に工数が多く、多大な労力を必要としていた。

非特許文献３の意味属性推定方法は、日本語辞書と日英対訳辞書を有していることが前提となっており、かつ、これらの辞書がよく整備されていることが前提となっていた。

特許文献１および特許文献２には、単語間の共起を用いて単語の概念を表現する装置・方法が開示されているが、これらの装置・方法を利用して単語の意味属性を推定することはできなかった。

本発明は上記課題を解決するものであり、日本語辞書，日英対訳辞書を要することなく、単語の意味属性を自動で推定することを解決課題としている。

そこで、本発明は処理対象単語の持つ概念ベクトルと既存単語の持つ概念ベクトルとの距離を計算することにより、意味的に近い既存単語を見つけ出し、該既存単語の持つ意味属性を処理対象単語の意味属性の候補として出力する技術を提供する。

本発明の一態様は、単語の概念を表す意味属性を推定する意味属性推定装置であって、意味属性を推定したい処理対象単語に対して、概念ベクトルを付与する概念ベクトル付与手段と、前記概念ベクトル付与手段において概念ベクトルが付与された処理対象単語と、概念ベクトルと意味属性とが付与されてデータベースに格納された既存単語と、の概念ベクトルにおける距離を計算する距離計算手段と、前記距離計算手段において計算された距離に基づき、前記処理対象単語の概念ベクトルと近い概念ベクトルが付与された既存単語の意味属性を、前記処理対象単語の意味属性の候補として出力する意味属性候補出力手段と、を備えたことを特徴とする。

本発明の他の態様は、単語の概念を表す意味属性を推定する意味属性推定方法であって、概念ベクトル付与手段が、意味属性を推定したい処理対象単語に対して、概念ベクトルを付与する概念ベクトル付与ステップと、距離計算手段が、前記概念ベクトル付与ステップにおいて概念ベクトルが付与された処理対象単語と、概念ベクトルと意味属性とが付与されてデータベースに格納された既存単語と、の概念ベクトルにおける距離を計算する距離計算ステップと、意味属性候補出力手段が、前記距離計算ステップにおいて計算された距離に基づき、前記処理対象単語の概念ベクトルと近い概念ベクトルが付与された既存単語の意味属性を前記処理対象単語の意味属性の候補として出力する意味属性候補出力ステップと、を有することを特徴とする。

なお、本発明は、前記の装置の各手段として、コンピュータを機能させるためのプログラムの態様としても良い。また、このプログラムは記録媒体に格納した態様で提供しても良い。

本発明によれば、日本語辞書，日英対訳辞書を要することなく、単語の意味属性を自動で推定することができる。

本発明の意味属性推定装置の基本構成ブロック図。本発明の意味属性推定装置のハードウェア構成図。概念ベクトル付与部の構成を示すブロック図意味属性推定装置の処理フローチャート。概念ベクトル付与部の処理フローチャート。処理対象単語「野菜園」を検索キーとして外部文書群を検索して得られた文書の一例を示す図。形態素解析結果の一例を示す図。

以下、本発明の実施形態に係る意味属性推定装置を説明する。

本発明では、予め概念ベクトルと意味属性が付与された多数の単語（以下、既存単語と称する）の情報を保有していることを前提としている。本発明の特徴は、意味属性を推定したい単語（以下、処理対象単語と称する）における概念ベクトルを算出し、予め保有している既存単語の中から処理対象単語と概念ベクトルにおける距離が小さな既存単語を抽出し、抽出された既存単語の意味属性を処理対象単語の意味属性候補とする処理にある。この処理により、日本語辞書，日英対訳辞書等を要することなく、処理対象単語の意味属性を自動で推定することが可能となる。

≪構成例≫
図１，図２に基づき本発明の実施形態に係る意味属性推定装置５を説明する。この意味属性推定装置５は、処理対象単語を入力し、その処理対象単語の概念を表す意味属性を推定する装置である。

この意味属性推定装置５は、図２に示すように、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、即ちＲＯＭ５１，ＲＡＭ５２，ＣＰＵ５３，通信インターフェイス（Ｉ／Ｆ）５４，ハードディスク５５，記録媒体読取装置５６などを備えている。

このハードウェアリソースとソフトウェアリソースとの協同の結果、前記意味属性推定装置５は、図１に示すように、コーパス中に含まれる既存単語（概念ベクトルと意味属性が付与された既存単語）の集合が格納されているデータベース（以下、概念ベースと称する）４と、処理対象単語に対して概念ベクトルを付与する概念ベクトル付与手段１と、処理対象単語の概念ベクトルと概念ベース４中の既存単語の概念ベクトルとの距離を計算する距離計算手段２と、処理対象単語と概念ベクトルの距離が短い既存単語の持つ意味属性を処理対象単語の意味属性の候補として出力する意味属性候補出力手段３と、を実装する。なお、前記概念ベース４は、予め構築されるものとする。

図３は、概念ベクトル付与手段１の構成を示すブロック図である。概念ベクトル付与手段１は、処理対象単語を検索キーとして外部文書群１５を検索し、処理対象単語を含む文書を収集する（例えば、全ての文書を収集する）文書収集部１１と、その文書収集部１１で取得した文書を、単語辞書１６に基づいて、単語単位に分割し各単語に文法情報を付加する形態素解析部１２と、形態素解析した文書のある範囲（例えば、文内，段落内等）において、処理対象単語と共起する単語との共起頻度をカウントする共起計数部１３と、その共起計数部１３で得られた計数結果をもとに、処理対象単語の概念ベクトルを生成する概念ベクトル生成部１４と、を備える。

なお、前記外部文書群１５は概念ベクトルを生成するのに必要な既存の文書群（ウェブ文書でも新聞記事でもよいし、これらを融合したものでもよい）を集めた外部文書群を示し、単語辞書１６は単語ごとに品詞情報等の文法情報を記述した単語辞書を示す。

≪意味属性推定処理内容≫
以下、図４に基づき、本発明の意味属性推定装置５の処理ステップ（Ｓ１〜Ｓ７）を説明する。

Ｓ１：意味属性推定装置５の概念ベクトル付与手段１では、処理対象単語に対して概念ベクトルを付与する。

Ｓ２：距離計算手段２は、Ｓ１で得られた処理対象単語の概念ベクトルと、概念ベース４に格納された既存単語の概念ベクトルとの距離を計算するために、概念ベース４から既存単語を１つずつ抽出する。

Ｓ３：距離計算手段２は、処理対象単語の概念ベクトルと概念ベース４から抽出した既存単語の概念ベクトルとの距離を計算する。ベクトル間の距離計算には種々の方法があるが、ここでは特に限定しない。

Ｓ４：次に、距離計算手段２では、Ｓ３で得られた処理対象単語の概念ベクトルと既存単語の概念ベクトルとの距離を既存単語と関連づけて記憶装置（例えば、ＲＡＭ５２やハードディスクドライブ装置５５等）に一時的に格納する。

Ｓ５：距離計算手段２は、概念ベース４中の全ての既存単語との距離計算が終了したか否かを判定する。全ての既存単語との距離計算が終了している場合には、距離計算部２から全ての距離計算結果（Ｓ４で記憶装置に格納した距離と既存単語の対応関係）を意味属性候補出力部３に出力する（Ｓ６に進む）。概念ベース４中の全ての既存単語との距離計算が終了していない場合には、ステップＳ２に戻り距離計算処理を繰り返す。

Ｓ６：意味属性候補出力手段３では、Ｓ２〜Ｓ５の距離計算結果に基づき、処理対象単語と概念ベクトルにおける距離の近い順に、上位ｎ個（ｎ≧１）の既存単語を記憶装置から抽出する（ｎは予め定めた１以上の整数とする）。

Ｓ７：次に、意味属性候補出力手段３では、上位ｎ個（ｎ≧１）の既存単語における意味属性を取り出し、処理対象単語の意味属性の候補として出力する。

以上の動作により、既存単語と処理対象単語との意味的近さを、概念ベクトルの距離計算に基づいた定量的な計算によって算出することが可能となる。その結果、処理対象単語と意味的に近い既存単語ｎ個（ｎ≧１）を選択することができ、さらに、該既存単語の持つ意味属性を処理対象単語の意味属性の候補として出力することが可能となる。
≪概念ベクトル付与の処理内容≫
以下、図５に基づき、概念ベクトル付与手段１の処理ステップ（Ｓ１：Ｓ１１〜Ｓ１７）を説明する。

Ｓ１１：概念ベクトル付与手段１の文書収集部１１は、処理対象単語を検索キーとして外部文書１５を検索する。

Ｓ１２：次に、文書収集部１１は、検索結果として得られた処理対象単語を含む文書を取得（例えば、全ての文書を取得）し、形態素解析部１２に出力する。なお、検索キーとする単語によっては、検索される文書の数が膨大になるので、検索結果の上位から指定した数だけの文書を取得するようにしてもよい。

Ｓ１３，Ｓ１４：形態素解析部１２は、前記文書収集部１１で取得した文書から１文ずつ抽出する（Ｓ１３）。次に、形態素解析部１２は、Ｓ１３で抽出された文に対して、形態素解析処理を行う。この形態素解析処理では、単語辞書１６を参照にして、文を単語単位に分割し、各単語に文法情報を付加することが行われる（Ｓ１４）。

Ｓ１５：形態素解析部１２は、文書収集部１１で取得した全ての文の形態素解析処理が終了したか否かを判定する。全ての文の形態素解析処理が終了している場合はステップＳ１６に進み、そうでない場合にはステップＳ１３に戻り、全ての文の処理が終わるまで、形態素解析処理を繰り返す。

Ｓ１６；共起計数部１３は、形態素解析処理した文書のある範囲に対して、処理対象単語と共起する単語の共起頻度をカウントする。前記ある範囲の定義としては、１文内，段落内などが考えられるが、ここでは特に限定しない。

Ｓ１７：概念ベクトル生成部１４は、前記共起計数部１３でカウントされた共起頻度に基づき、概念ベース４を構築したときと同じ方法によって処理対象単語の概念ベクトルを生成する。概念ベース４の構築方法（概念ベクトルの生成方法）としては、特許文献１のように、処理対象単語の概念ベクトルを該処理対象単語と共起する単語集合のベクトルで表現する方法や、特許文献２のように、処理対象単語の概念ベクトルを該処理対象単語と共起する単語の持つ意味属性集合のベクトルで表現する方法などがあるが、ここでは特に限定しない。

以上でステップＳ１（Ｓ１１〜Ｓ１７）の処理が終了し、その結果として処理対象単語に概念ベクトルが付与される。

≪実施形態１≫（単語対単語の共起頻度を利用する例）
ここで、処理対象単語を「野菜園」とした具体例を用いて本発明の意味属性推定装置５の動作を説明する。以下の説明では、単語表記を「」，品詞を［］，意味属性を〈〉によってそれぞれ囲んで表現する。

≪Ｓ１（Ｓ１１〜Ｓ１７）≫
まず、概念ベクトル付与手段１の処理ステップを説明する。

意味属性推定装置５の概念ベクトル付与手段１は、処理対象単語「野菜園」に対して概念ベクトル付与処理を行う。

Ｓ１１，Ｓ１２：概念ベクトル付与手段１の文書収集部１１は、処理対象単語「野菜園」を検索キーとして外部文書群１５を検索し（Ｓ１１）、検索結果として得られた処理対象単語を含む文書を取得（例えば、全ての文書を取得）し、形態素解析部１２に出力する（Ｓ１２）。

図６は、処理対象単語「野菜園」を検索キーとして外部文書群１５を検索することによって得られた文書の一例を示す図である。外部文書群１５としては、ｗｅｂページや新聞記事などが考えられるが、ここでは特に限定しない。

Ｓ１３〜Ｓ１５：まず、形態素解析部１２は、前記文書収集部１１で取得した文書（図６）から１文ずつ抽出する（Ｓ１３）。次に、形態素解析部１２は単語辞書１６を参照にして、Ｓ１３で抽出された文を単語単位に分割し、各単語に対して文法情報（例えば、品詞や活用形など）を付与する（Ｓ１４）。そして、形態素解析部１２は、文書収集部１１で取得した全ての文の形態素解析処理が終了したか否かを判定する（Ｓ１５）。全ての文の形態素解析処理が終了している場合はステップＳ１６に進み、そうでない場合にはステップＳ１３に戻り、文書収集部１１で取得した全ての文の処理が終わるまで、形態素解析処理を繰り返す。下記表１は形態素解析に用いる単語辞書１６の一例を示す表である。

以上のように、形態素解析処理（Ｓ１３〜Ｓ１５）を行った結果、文書収集部１１で取得した文書（図６）は、図７に示すようになる。

Ｓ１６：共起計数部１３では、形態素解析が行われた文書のある範囲内に対して、処理対象単語「野菜園」と共起する単語の共起頻度をカウントする。ある範囲の定義としては、１文内，段落内などが考えられるが、ここでは１文内をある範囲とする。また、ここでは、品詞が名詞であるものを共起する単語として扱う。外部文書群１５中のどの単語が名詞であるかの判断は、例えば、単語に付随する文法情報（品詞）に基づいて判断する。

下記表２は、本実施形態１における処理対象単語と共起する単語の共起頻度計数の結果を示す表である。

本実施形態１における形態素解析処理後の第１文は、図７に示すように「野菜園ではトマトや南瓜が取れました」である。処理対象単語「野菜園」に対して単語「トマト〈野菜〉」，「南瓜〈野菜〉」の２つの名詞が共起し、共起頻度にカウントされる。第１文における共起頻度計数の結果は上記表２（ａ）に示すようになる。

次に、図７の第２文「ゴーヤや南瓜をマイカーで野菜園から運び…」に対する共起頻度計数処理を行う。第１文と同様にして、第２文では、処理対象単語「野菜園」に対して、単語「ゴーヤ〈野菜〉」，「南瓜〈野菜〉」，「マイカー〈車〉」の３つの名詞が共起し、共起頻度にカウントされる。ここで、第２文の共起頻度のカウントは、第１文における共起頻度計数の結果（表２（ａ））に加算され、その結果上記表２（ｂ）に示すようになる。

第１文，第２文と同様にして、全ての文に対して共起頻度をカウントする。ここでは、全ての文を処理した共起頻度計数の結果が上記表２（ｃ）に示すようになったとする。

Ｓ１７：次に、概念ベクトル生成部１４において、前記Ｓ１６で得られた共起頻度計数の結果（表２（ｃ））に基づき、処理対象単語の概念ベクトルを概念ベース４を構築した時と同じ方法で生成する。本実施形態１における概念ベクトルの生成方法（概念ベース４の構築方法）としては、処理対象単語の概念ベクトルを処理対象単語と共起する単語集合のベクトルで表現する方法が用いられる。

下記表３に本実施形態１に用いられる概念ベース４の一例を示す。

表２（ｃ）の計数結果を、表３の概念ベース４の内容に合わせて列方向の並び替えを行い、処理対象単語「野菜園」に対する概念ベクトルを生成する。その結果が下記表４である。

以上でステップＳ１の処理が終了し、結果として処理対象単語「野菜園」に対する概念ベクトルとして上記表４が得られる。

≪Ｓ２〜Ｓ７≫
次に、意味属性推定装置５におけるＳ２〜Ｓ５の処理ステップを説明する。

Ｓ２〜Ｓ５：距離計算手段２は、ステップＳ１で得られた処理対象単語の概念ベクトル（表４）と表３に示す概念ベース４に格納された既存単語との距離を計算する。具体的に、距離計算手段２は、概念ベース４から既存単語を１つずつ抽出し（Ｓ２）、処理対象単語「野菜園」との概念ベクトルにおける距離計算の処理を行う（Ｓ３）。そして、この距離計算結果を、記憶装置（例えば、ＲＡＭ５２やハードディスク駆動装置５５等）に格納する（Ｓ４）。次に、概念ベース４中の全ての既存単語に対してＳ２〜Ｓ４の処理を行ったか否かの判定を行い、全ての既存単語を処理した場合はＳ６へ、全ての既存単語を処理していない場合は、Ｓ２に戻る（Ｓ５）。

なお、ベクトル間の距離計算には種々の方法（例えば、ユークリッド距離）があるがここでは特に限定しない。

Ｓ６：意味属性候補出力手段３では、上記概念ベクトルにおける距離計算の結果から、既存単語を距離の近い順に並べ替える。その結果が、下記表５であったとする。そして、処理対象単語「野菜園」と概念ベクトルの近い上位ｎ個（ｎ≧１）の既存単語を記憶装置（例えば、ＲＡＭ５２やハードディスク駆動装置５５等）から取り出す。ここで、ｎ＝２とすると、上記表５より既存単語として、「菜園」と「農園」の２つの既存単語が取り出されることとなる。

Ｓ７：次に、意味属性候補出力手段３では、これらの既存単語「菜園」と「農園」の持つ意味属性を取り出し、処理対象単語「野菜園」の意味属性の候補として出力する。「菜園」の意味属性は〈農園〉，「農園」の意味属性は〈農場〉であるので、これらの意味属性が処理対象単語「野菜園」の意味属性候補として出力される。

なお、既存単語「菜園」，「農園」の意味属性を意味属性候補出力手段３が得る方法としては、例えば、単語辞書１６に各単語の意味属性を予め登録しておき（例えば；表１）、意味属性候補出力手段３が既存単語をもとにして単語辞書１６から意味属性を取得する方法がある。

以上の処理（Ｓ１〜Ｓ７）により、既存単語と処理対象単語「野菜園」との意味的近さを、概念ベクトルの距離計算に基づいて定量的に計算することよって、処理対象単語「野菜園」に近い既存単語「菜園」と「農園」を選択することができる。さらに、これらの既存単語の持つ意味属性〈農園〉，〈農場〉を処理対象単語「野菜園」の意味属性の候補として出力することが可能となる。

［実施形態２］（単語対意味属性の共起頻度を利用する例）
本実施形態２は、処理対象単語の概念ベクトルを、処理対象単語と共起する単語の持つ意味属性集合のベクトルで表現されている点が実施形態１と異なる点である。表６に実施形態２における概念ベース４の一例を示す。本実施形態２は、実施形態１と同様に、処理対象単語を「野菜園」とした具体例を用いて本発明の意味属性推定装置５の動作を説明する。

以下、実施形態１と同じ処理（Ｓ１１〜Ｓ１６）を経て、前記表２（ｃ）の共起頻度の計数結果が得られたものとして説明する。

Ｓ１７：上記表６に示すように、本実施形態２における概念ベース４は単語対意味属性の共起頻度をもとに構築されている。そのため、処理対象単語「野菜園」に対する概念ベクトルは共起する単語の持つ意味属性ごとにカウントされる。その結果、処理対象単語「野菜園」に対する概念ベクトルとして下記表７が得られる。

Ｓ２〜Ｓ７：距離計算手段２により、表６に示す概念ベース４に格納された既存単語の概念ベクトルと表７に示す処理対象単語「野菜園」の概念ベクトルとの距離計算を行い（Ｓ２〜Ｓ５）、意味属性候補出力手段３により、処理対象単語「野菜園」と概念ベクトルにおける距離の近い順に既存単語を並べ替える（Ｓ６）。その結果が表８である。実施形態１と同様にして、処理対象単語「野菜園」の意味属性の候補として、上位２個の既存単語「菜園」，「農園」の意味属性〈農園〉，〈農場〉が出力される（Ｓ７）。

以上の動作により、実施形態１と同様に、処理対象単語「野菜園」と意味的に近い既存単語「菜園」と「農園」を選択することができ、さらにこれらの既存単語が持つ意味属性〈農園〉，〈農場〉を処理対象単語「野菜園」の意味属性の候補として出力することができる。

以上のように、実施形態１，実施形態２では、意味属性の候補を自動で提示することができるので、人手による作業の効率化を図ることが可能となる。また、非特許文献３のように、日本語辞書や日英対訳辞書を必要とせずに意味属性の推定が可能となる。さらに、既存単語と処理対象単語との意味的近さを、概念ベクトルの距離計算に基づいて定量的に計算することによって、処理対象単語と意味的に近い既存単語を選択することができ、さらに該既存単語の持つ意味属性を処理対象単語の意味属性の候補として出力することができる。

以上、本発明において、記載された具体例に対してのみ詳細に説明したが、本発明の技術思想の範囲で多彩な変形および修正が可能であることは、当業者にとって明白なことであり、このような変形および修正が特許請求の範囲に属することは当然のことである。

≪プログラム等≫
本発明は前記各手段１〜４，各部１１〜１４の一部もしくは全部としてコンピュータを機能させる意味属性推定プログラムとして構成することもできる。このプログラムによれば、Ｓ１〜Ｓ７，Ｓ１１〜Ｓ１７の一部のステップあるいは全ステップをコンピュータに実行させることが可能である。

また、前記プログラムは、Ｗｅｂサイトや電子メールなどネットワークを通じて提供することができる。また、ＣＤ−ＲＯＭ，ＤＶＤ−ＲＯＭ，ＣＤ−Ｒ，ＣＤ−ＲＷ，ＤＶＤ−Ｒ，ＤＶＤ−ＲＷ，ＭＯ，ＨＤＤ，Ｂｌｕ−ｒａｙＤｉｓｋ（登録商標）などの記録媒体５７に記録して保存，配布することも可能である。この記録媒体５７は図２に示すように、記録媒体読取装置５６を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体５７も本発明を構成する。

１…概念ベクトル付与手段
２…距離計算手段
３…意味属性候補出力手段
４…概念ベース
５…意味属性推定装置
１１…文書収集部（手段）
１２…形態素解析部（手段）
１３…共起計数部（手段）
１４…概念ベクトル部（手段）
１５…外部文書群
１６…単語辞書

Claims

単語の概念を表す意味属性を推定する意味属性推定装置であって、
意味属性を推定したい処理対象単語に対して、概念ベクトルを付与する概念ベクトル付与手段と、
前記概念ベクトル付与手段において概念ベクトルが付与された処理対象単語と、概念ベクトルと意味属性とが付与されてデータベースに格納された既存単語と、の概念ベクトルにおける距離を計算する距離計算手段と、
前記距離計算手段において計算された距離に基づき、前記処理対象単語の概念ベクトルと近い概念ベクトルが付与された既存単語の意味属性を、前記処理対象単語の意味属性の候補として出力する意味属性候補出力手段と、
を備えたことを特徴とする意味属性推定装置。
前記概念ベクトル付与手段は、
既存の文書群から前記処理対象単語を含む文書を収集する文書収集手段と、
前記文書収集手段において収集した文書を単語単位に分割する形態素解析手段と、
前記処理対象単語と、形態素解析手段で分割された単語と、の共起頻度を数える共起計数手段と、
前記共起計数手段において得られた共起頻度に基づき、処理対象単語の概念ベクトルを生成する概念ベクトル生成手段と、
を備えたことを特徴とする請求項１記載の意味属性推定装置。
前記意味属性候補出力手段は、
前記処理対象単語の概念ベクトルと距離の近い順に既存単語を並べ、上位ｎ個（ｎ≧１）の既存単語の持つ意味属性を、前記処理対象単語の意味属性の候補として出力することを特徴とする請求項１または２記載の意味属性推定装置。
単語の概念を表す意味属性を推定する意味属性推定方法であって、
概念ベクトル付与手段が、意味属性を推定したい処理対象単語に対して、概念ベクトルを付与する概念ベクトル付与ステップと、
距離計算手段が、前記概念ベクトル付与ステップにおいて概念ベクトルが付与された処理対象単語と、概念ベクトルと意味属性とが付与されてデータベースに格納された既存単語と、の概念ベクトルにおける距離を計算する距離計算ステップと、
意味属性候補出力手段が、前記距離計算ステップにおいて計算された距離に基づき、前記処理対象単語の概念ベクトルと近い概念ベクトルが付与された既存単語の意味属性を前記処理対象単語の意味属性の候補として出力する意味属性候補出力ステップと、
を有することを特徴とする意味属性推定方法。
前記概念ベクトル付与ステップは、
文書収集手段が、既存の文書群から前記処理対象単語を含む文書を収集する文書収集ステップと、
形態素解析手段が、前記文書収集ステップにおいて収集した文書を単語単位に分割する形態素解析ステップと、
共起計数手段が、前記処理対象単語と、前記形態素解析ステップで分割された単語と、の共起頻度を数える共起計数ステップと
概念ベクトル生成手段が、前記共起計数ステップにおいて得られた共起頻度に基づき、概念ベクトルを生成する概念ベクトル生成ステップと、
を有することを特徴とする請求項４記載の意味属性推定方法。
前記意味属性候補出力ステップは、
前記処理対象単語の概念ベクトルと距離の近い順に既存単語を並べ、上位ｎ個（ｎ≧１）の既存単語の持つ意味属性を、前記処理対象単語の意味属性の候補として出力することを特徴とする請求項４または５記載の意味属性推定方法。
請求項１〜請求項３のいずれか一項に記載の意味属性推定装置を構成する各手段として、コンピュータを機能させるための意味属性推定プログラム。