JP2011175328A - 意味属性推定装置、意味属性推定方法、意味属性推定プログラム - Google Patents

意味属性推定装置、意味属性推定方法、意味属性推定プログラム Download PDF

Info

Publication number
JP2011175328A
JP2011175328A JP2010037003A JP2010037003A JP2011175328A JP 2011175328 A JP2011175328 A JP 2011175328A JP 2010037003 A JP2010037003 A JP 2010037003A JP 2010037003 A JP2010037003 A JP 2010037003A JP 2011175328 A JP2011175328 A JP 2011175328A
Authority
JP
Japan
Prior art keywords
semantic attribute
concept vector
word
processing target
target word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010037003A
Other languages
English (en)
Inventor
Masahiro Oku
雅博 奥
Katsuto Bessho
克人 別所
Toshiro Uchiyama
俊郎 内山
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010037003A priority Critical patent/JP2011175328A/ja
Publication of JP2011175328A publication Critical patent/JP2011175328A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】日本語辞書,日英対訳辞書を要することなく、単語の意味属性を自動で推定する。
【解決手段】意味属性推定装置5は、予め概念ベクトルと意味属性が付与された多数の既存単語の情報を格納した概念ベース4を備える。そして、概念ベクトル付与手段1は意味属性を推定したい単語(処理対象単語)に対して概念ベクトルを算出する。距離計算手段2は、処理対象単語と、予め概念ベース4に格納された既存単語との概念ベクトルにおける距離を算出する。意味属性候補出力手段3は、前記概念ベクトルにおける距離に基づき、処理対象単語の概念ベクトルとの距離が小さな単語を抽出し、抽出された単語の意味属性を処理対象単語の意味属性候補とする。
【選択図】図1

Description

本発明は、単語の概念を表す意味属性を推定する装置および方法に係わり、特に、処理対象単語の意味属性の候補として、処理対象単語と概念ベクトルの近い既存単語の持つ意味属性を出力する意味属性推定装置に関する。
従来から、テキスト解析の精度向上や意味理解を目的として、単語に対して意味属性を付与することが行われている。
例えば、非特許文献1では、日本語約30万単語に対して約3,000種類の意味属性を人手で付与した結果が報告されており、非特許文献2として出版されている。また、非特許文献3では、日本語単語表記と英語訳との対を入力し、日本語翻訳に利用される辞書を参照することによって、入力された日本語単語の意味属性を推定する方法が提案されている。
一方、従来から、単語間の類似性判別や文書検索の高精度化を目的として、単語の概念情報をデータベース化する装置・方法が提案されている。例えば、特許文献1や特許文献2では、単語あるいは単語の持つ意味属性を要素とした多次元空間を用意し、該多次元空間中に各単語を概念ベクトルとして配置したデータベース(概念ベース)の作成手法が提案されている。
特開2006−338342号公報(段落[0016]〜[0065],第1図) 特開2007−72610号公報(段落[0029]〜[0052],第5図)
白井諭,大山芳史,池原悟,宮崎正弘,横尾昭男,"日本語語彙大系について"、情報処理学会情報メディア研究会、1998年11月、34−9、pp47−52 池原悟,宮崎正弘,白井諭,横尾昭男,小倉健太郎,大山芳史,林良彦、「日本語語彙大系」、岩波書店、1997年9月26日 池原悟,白井諭,横尾昭男,Francis Bond,小見佳恵,"日英機械翻訳における利用者登録語の意味属性の自動推定"、情報処理学会自然言語処理研究会、1994年7月、NL102−10,pp.73−80
しかしながら、このような従来の技術では以下のような問題が生じていた。
非特許文献1,非特許文献2の意味属性推定方法では、新たな単語に対して人手で意味属性を付与する必要があり、非常に工数が多く、多大な労力を必要としていた。
非特許文献3の意味属性推定方法は、日本語辞書と日英対訳辞書を有していることが前提となっており、かつ、これらの辞書がよく整備されていることが前提となっていた。
特許文献1および特許文献2には、単語間の共起を用いて単語の概念を表現する装置・方法が開示されているが、これらの装置・方法を利用して単語の意味属性を推定することはできなかった。
本発明は上記課題を解決するものであり、日本語辞書,日英対訳辞書を要することなく、単語の意味属性を自動で推定することを解決課題としている。
そこで、本発明は処理対象単語の持つ概念ベクトルと既存単語の持つ概念ベクトルとの距離を計算することにより、意味的に近い既存単語を見つけ出し、該既存単語の持つ意味属性を処理対象単語の意味属性の候補として出力する技術を提供する。
本発明の一態様は、単語の概念を表す意味属性を推定する意味属性推定装置であって、意味属性を推定したい処理対象単語に対して、概念ベクトルを付与する概念ベクトル付与手段と、前記概念ベクトル付与手段において概念ベクトルが付与された処理対象単語と、概念ベクトルと意味属性とが付与されてデータベースに格納された既存単語と、の概念ベクトルにおける距離を計算する距離計算手段と、前記距離計算手段において計算された距離に基づき、前記処理対象単語の概念ベクトルと近い概念ベクトルが付与された既存単語の意味属性を、前記処理対象単語の意味属性の候補として出力する意味属性候補出力手段と、を備えたことを特徴とする。
本発明の他の態様は、単語の概念を表す意味属性を推定する意味属性推定方法であって、概念ベクトル付与手段が、意味属性を推定したい処理対象単語に対して、概念ベクトルを付与する概念ベクトル付与ステップと、距離計算手段が、前記概念ベクトル付与ステップにおいて概念ベクトルが付与された処理対象単語と、概念ベクトルと意味属性とが付与されてデータベースに格納された既存単語と、の概念ベクトルにおける距離を計算する距離計算ステップと、意味属性候補出力手段が、前記距離計算ステップにおいて計算された距離に基づき、前記処理対象単語の概念ベクトルと近い概念ベクトルが付与された既存単語の意味属性を前記処理対象単語の意味属性の候補として出力する意味属性候補出力ステップと、を有することを特徴とする。
なお、本発明は、前記の装置の各手段として、コンピュータを機能させるためのプログラムの態様としても良い。また、このプログラムは記録媒体に格納した態様で提供しても良い。
本発明によれば、日本語辞書,日英対訳辞書を要することなく、単語の意味属性を自動で推定することができる。
本発明の意味属性推定装置の基本構成ブロック図。 本発明の意味属性推定装置のハードウェア構成図。 概念ベクトル付与部の構成を示すブロック図 意味属性推定装置の処理フローチャート。 概念ベクトル付与部の処理フローチャート。 処理対象単語「野菜園」を検索キーとして外部文書群を検索して得られた文書の一例を示す図。 形態素解析結果の一例を示す図。
以下、本発明の実施形態に係る意味属性推定装置を説明する。
本発明では、予め概念ベクトルと意味属性が付与された多数の単語(以下、既存単語と称する)の情報を保有していることを前提としている。本発明の特徴は、意味属性を推定したい単語(以下、処理対象単語と称する)における概念ベクトルを算出し、予め保有している既存単語の中から処理対象単語と概念ベクトルにおける距離が小さな既存単語を抽出し、抽出された既存単語の意味属性を処理対象単語の意味属性候補とする処理にある。この処理により、日本語辞書,日英対訳辞書等を要することなく、処理対象単語の意味属性を自動で推定することが可能となる。
≪構成例≫
図1,図2に基づき本発明の実施形態に係る意味属性推定装置5を説明する。この意味属性推定装置5は、処理対象単語を入力し、その処理対象単語の概念を表す意味属性を推定する装置である。
この意味属性推定装置5は、図2に示すように、コンピュータにより構成され、通常のコンピュータのハードウェアリソース、即ちROM51,RAM52,CPU53,通信インターフェイス(I/F)54,ハードディスク55,記録媒体読取装置56などを備えている。
このハードウェアリソースとソフトウェアリソースとの協同の結果、前記意味属性推定装置5は、図1に示すように、コーパス中に含まれる既存単語(概念ベクトルと意味属性が付与された既存単語)の集合が格納されているデータベース(以下、概念ベースと称する)4と、処理対象単語に対して概念ベクトルを付与する概念ベクトル付与手段1と、処理対象単語の概念ベクトルと概念ベース4中の既存単語の概念ベクトルとの距離を計算する距離計算手段2と、処理対象単語と概念ベクトルの距離が短い既存単語の持つ意味属性を処理対象単語の意味属性の候補として出力する意味属性候補出力手段3と、を実装する。なお、前記概念ベース4は、予め構築されるものとする。
図3は、概念ベクトル付与手段1の構成を示すブロック図である。概念ベクトル付与手段1は、処理対象単語を検索キーとして外部文書群15を検索し、処理対象単語を含む文書を収集する(例えば、全ての文書を収集する)文書収集部11と、その文書収集部11で取得した文書を、単語辞書16に基づいて、単語単位に分割し各単語に文法情報を付加する形態素解析部12と、形態素解析した文書のある範囲(例えば、文内,段落内等)において、処理対象単語と共起する単語との共起頻度をカウントする共起計数部13と、その共起計数部13で得られた計数結果をもとに、処理対象単語の概念ベクトルを生成する概念ベクトル生成部14と、を備える。
なお、前記外部文書群15は概念ベクトルを生成するのに必要な既存の文書群(ウェブ文書でも新聞記事でもよいし、これらを融合したものでもよい)を集めた外部文書群を示し、単語辞書16は単語ごとに品詞情報等の文法情報を記述した単語辞書を示す。
≪意味属性推定処理内容≫
以下、図4に基づき、本発明の意味属性推定装置5の処理ステップ(S1〜S7)を説明する。
S1:意味属性推定装置5の概念ベクトル付与手段1では、処理対象単語に対して概念ベクトルを付与する。
S2:距離計算手段2は、S1で得られた処理対象単語の概念ベクトルと、概念ベース4に格納された既存単語の概念ベクトルとの距離を計算するために、概念ベース4から既存単語を1つずつ抽出する。
S3:距離計算手段2は、処理対象単語の概念ベクトルと概念ベース4から抽出した既存単語の概念ベクトルとの距離を計算する。ベクトル間の距離計算には種々の方法があるが、ここでは特に限定しない。
S4:次に、距離計算手段2では、S3で得られた処理対象単語の概念ベクトルと既存単語の概念ベクトルとの距離を既存単語と関連づけて記憶装置(例えば、RAM52やハードディスクドライブ装置55等)に一時的に格納する。
S5:距離計算手段2は、概念ベース4中の全ての既存単語との距離計算が終了したか否かを判定する。全ての既存単語との距離計算が終了している場合には、距離計算部2から全ての距離計算結果(S4で記憶装置に格納した距離と既存単語の対応関係)を意味属性候補出力部3に出力する(S6に進む)。概念ベース4中の全ての既存単語との距離計算が終了していない場合には、ステップS2に戻り距離計算処理を繰り返す。
S6:意味属性候補出力手段3では、S2〜S5の距離計算結果に基づき、処理対象単語と概念ベクトルにおける距離の近い順に、上位n個(n≧1)の既存単語を記憶装置から抽出する(nは予め定めた1以上の整数とする)。
S7:次に、意味属性候補出力手段3では、上位n個(n≧1)の既存単語における意味属性を取り出し、処理対象単語の意味属性の候補として出力する。
以上の動作により、既存単語と処理対象単語との意味的近さを、概念ベクトルの距離計算に基づいた定量的な計算によって算出することが可能となる。その結果、処理対象単語と意味的に近い既存単語n個(n≧1)を選択することができ、さらに、該既存単語の持つ意味属性を処理対象単語の意味属性の候補として出力することが可能となる。
≪概念ベクトル付与の処理内容≫
以下、図5に基づき、概念ベクトル付与手段1の処理ステップ(S1:S11〜S17)を説明する。
S11:概念ベクトル付与手段1の文書収集部11は、処理対象単語を検索キーとして外部文書15を検索する。
S12:次に、文書収集部11は、検索結果として得られた処理対象単語を含む文書を取得(例えば、全ての文書を取得)し、形態素解析部12に出力する。なお、検索キーとする単語によっては、検索される文書の数が膨大になるので、検索結果の上位から指定した数だけの文書を取得するようにしてもよい。
S13,S14:形態素解析部12は、前記文書収集部11で取得した文書から1文ずつ抽出する(S13)。次に、形態素解析部12は、S13で抽出された文に対して、形態素解析処理を行う。この形態素解析処理では、単語辞書16を参照にして、文を単語単位に分割し、各単語に文法情報を付加することが行われる(S14)。
S15:形態素解析部12は、文書収集部11で取得した全ての文の形態素解析処理が終了したか否かを判定する。全ての文の形態素解析処理が終了している場合はステップS16に進み、そうでない場合にはステップS13に戻り、全ての文の処理が終わるまで、形態素解析処理を繰り返す。
S16;共起計数部13は、形態素解析処理した文書のある範囲に対して、処理対象単語と共起する単語の共起頻度をカウントする。前記ある範囲の定義としては、1文内,段落内などが考えられるが、ここでは特に限定しない。
S17:概念ベクトル生成部14は、前記共起計数部13でカウントされた共起頻度に基づき、概念ベース4を構築したときと同じ方法によって処理対象単語の概念ベクトルを生成する。概念ベース4の構築方法(概念ベクトルの生成方法)としては、特許文献1のように、処理対象単語の概念ベクトルを該処理対象単語と共起する単語集合のベクトルで表現する方法や、特許文献2のように、処理対象単語の概念ベクトルを該処理対象単語と共起する単語の持つ意味属性集合のベクトルで表現する方法などがあるが、ここでは特に限定しない。
以上でステップS1(S11〜S17)の処理が終了し、その結果として処理対象単語に概念ベクトルが付与される。
≪実施形態1≫(単語対単語の共起頻度を利用する例)
ここで、処理対象単語を「野菜園」とした具体例を用いて本発明の意味属性推定装置5の動作を説明する。以下の説明では、単語表記を「」,品詞を[],意味属性を〈〉によってそれぞれ囲んで表現する。
≪S1(S11〜S17)≫
まず、概念ベクトル付与手段1の処理ステップを説明する。
意味属性推定装置5の概念ベクトル付与手段1は、処理対象単語「野菜園」に対して概念ベクトル付与処理を行う。
S11,S12:概念ベクトル付与手段1の文書収集部11は、処理対象単語「野菜園」を検索キーとして外部文書群15を検索し(S11)、検索結果として得られた処理対象単語を含む文書を取得(例えば、全ての文書を取得)し、形態素解析部12に出力する(S12)。
図6は、処理対象単語「野菜園」を検索キーとして外部文書群15を検索することによって得られた文書の一例を示す図である。外部文書群15としては、webページや新聞記事などが考えられるが、ここでは特に限定しない。
S13〜S15:まず、形態素解析部12は、前記文書収集部11で取得した文書(図6)から1文ずつ抽出する(S13)。次に、形態素解析部12は単語辞書16を参照にして、S13で抽出された文を単語単位に分割し、各単語に対して文法情報(例えば、品詞や活用形など)を付与する(S14)。そして、形態素解析部12は、文書収集部11で取得した全ての文の形態素解析処理が終了したか否かを判定する(S15)。全ての文の形態素解析処理が終了している場合はステップS16に進み、そうでない場合にはステップS13に戻り、文書収集部11で取得した全ての文の処理が終わるまで、形態素解析処理を繰り返す。下記表1は形態素解析に用いる単語辞書16の一例を示す表である。
Figure 2011175328
以上のように、形態素解析処理(S13〜S15)を行った結果、文書収集部11で取得した文書(図6)は、図7に示すようになる。
S16:共起計数部13では、形態素解析が行われた文書のある範囲内に対して、処理対象単語「野菜園」と共起する単語の共起頻度をカウントする。ある範囲の定義としては、1文内,段落内などが考えられるが、ここでは1文内をある範囲とする。また、ここでは、品詞が名詞であるものを共起する単語として扱う。外部文書群15中のどの単語が名詞であるかの判断は、例えば、単語に付随する文法情報(品詞)に基づいて判断する。
下記表2は、本実施形態1における処理対象単語と共起する単語の共起頻度計数の結果を示す表である。
Figure 2011175328
本実施形態1における形態素解析処理後の第1文は、図7に示すように「野菜園ではトマトや南瓜が取れました」である。処理対象単語「野菜園」に対して単語「トマト〈野菜〉」,「南瓜〈野菜〉」の2つの名詞が共起し、共起頻度にカウントされる。第1文における共起頻度計数の結果は上記表2(a)に示すようになる。
次に、図7の第2文「ゴーヤや南瓜をマイカーで野菜園から運び…」に対する共起頻度計数処理を行う。第1文と同様にして、第2文では、処理対象単語「野菜園」に対して、単語「ゴーヤ〈野菜〉」,「南瓜〈野菜〉」,「マイカー〈車〉」の3つの名詞が共起し、共起頻度にカウントされる。ここで、第2文の共起頻度のカウントは、第1文における共起頻度計数の結果(表2(a))に加算され、その結果上記表2(b)に示すようになる。
第1文,第2文と同様にして、全ての文に対して共起頻度をカウントする。ここでは、全ての文を処理した共起頻度計数の結果が上記表2(c)に示すようになったとする。
S17:次に、概念ベクトル生成部14において、前記S16で得られた共起頻度計数の結果(表2(c))に基づき、処理対象単語の概念ベクトルを概念ベース4を構築した時と同じ方法で生成する。本実施形態1における概念ベクトルの生成方法(概念ベース4の構築方法)としては、処理対象単語の概念ベクトルを処理対象単語と共起する単語集合のベクトルで表現する方法が用いられる。
下記表3に本実施形態1に用いられる概念ベース4の一例を示す。
Figure 2011175328
表2(c)の計数結果を、表3の概念ベース4の内容に合わせて列方向の並び替えを行い、処理対象単語「野菜園」に対する概念ベクトルを生成する。その結果が下記表4である。
Figure 2011175328
以上でステップS1の処理が終了し、結果として処理対象単語「野菜園」に対する概念ベクトルとして上記表4が得られる。
≪S2〜S7≫
次に、意味属性推定装置5におけるS2〜S5の処理ステップを説明する。
S2〜S5:距離計算手段2は、ステップS1で得られた処理対象単語の概念ベクトル(表4)と表3に示す概念ベース4に格納された既存単語との距離を計算する。具体的に、距離計算手段2は、概念ベース4から既存単語を1つずつ抽出し(S2)、処理対象単語「野菜園」との概念ベクトルにおける距離計算の処理を行う(S3)。そして、この距離計算結果を、記憶装置(例えば、RAM52やハードディスク駆動装置55等)に格納する(S4)。次に、概念ベース4中の全ての既存単語に対してS2〜S4の処理を行ったか否かの判定を行い、全ての既存単語を処理した場合はS6へ、全ての既存単語を処理していない場合は、S2に戻る(S5)。
なお、ベクトル間の距離計算には種々の方法(例えば、ユークリッド距離)があるがここでは特に限定しない。
S6:意味属性候補出力手段3では、上記概念ベクトルにおける距離計算の結果から、既存単語を距離の近い順に並べ替える。その結果が、下記表5であったとする。そして、処理対象単語「野菜園」と概念ベクトルの近い上位n個(n≧1)の既存単語を記憶装置(例えば、RAM52やハードディスク駆動装置55等)から取り出す。ここで、n=2とすると、上記表5より既存単語として、「菜園」と「農園」の2つの既存単語が取り出されることとなる。
Figure 2011175328
S7:次に、意味属性候補出力手段3では、これらの既存単語「菜園」と「農園」の持つ意味属性を取り出し、処理対象単語「野菜園」の意味属性の候補として出力する。「菜園」の意味属性は〈農園〉,「農園」の意味属性は〈農場〉であるので、これらの意味属性が処理対象単語「野菜園」の意味属性候補として出力される。
なお、既存単語「菜園」,「農園」の意味属性を意味属性候補出力手段3が得る方法としては、例えば、単語辞書16に各単語の意味属性を予め登録しておき(例えば;表1)、意味属性候補出力手段3が既存単語をもとにして単語辞書16から意味属性を取得する方法がある。
以上の処理(S1〜S7)により、既存単語と処理対象単語「野菜園」との意味的近さを、概念ベクトルの距離計算に基づいて定量的に計算することよって、処理対象単語「野菜園」に近い既存単語「菜園」と「農園」を選択することができる。さらに、これらの既存単語の持つ意味属性〈農園〉,〈農場〉を処理対象単語「野菜園」の意味属性の候補として出力することが可能となる。
[実施形態2](単語対意味属性の共起頻度を利用する例)
本実施形態2は、処理対象単語の概念ベクトルを、処理対象単語と共起する単語の持つ意味属性集合のベクトルで表現されている点が実施形態1と異なる点である。表6に実施形態2における概念ベース4の一例を示す。本実施形態2は、実施形態1と同様に、処理対象単語を「野菜園」とした具体例を用いて本発明の意味属性推定装置5の動作を説明する。
以下、実施形態1と同じ処理(S11〜S16)を経て、前記表2(c)の共起頻度の計数結果が得られたものとして説明する。
Figure 2011175328
S17:上記表6に示すように、本実施形態2における概念ベース4は単語対意味属性の共起頻度をもとに構築されている。そのため、処理対象単語「野菜園」に対する概念ベクトルは共起する単語の持つ意味属性ごとにカウントされる。その結果、処理対象単語「野菜園」に対する概念ベクトルとして下記表7が得られる。
Figure 2011175328
S2〜S7:距離計算手段2により、表6に示す概念ベース4に格納された既存単語の概念ベクトルと表7に示す処理対象単語「野菜園」の概念ベクトルとの距離計算を行い(S2〜S5)、意味属性候補出力手段3により、処理対象単語「野菜園」と概念ベクトルにおける距離の近い順に既存単語を並べ替える(S6)。その結果が表8である。実施形態1と同様にして、処理対象単語「野菜園」の意味属性の候補として、上位2個の既存単語「菜園」,「農園」の意味属性〈農園〉,〈農場〉が出力される(S7)。
Figure 2011175328
以上の動作により、実施形態1と同様に、処理対象単語「野菜園」と意味的に近い既存単語「菜園」と「農園」を選択することができ、さらにこれらの既存単語が持つ意味属性〈農園〉,〈農場〉を処理対象単語「野菜園」の意味属性の候補として出力することができる。
以上のように、実施形態1,実施形態2では、意味属性の候補を自動で提示することができるので、人手による作業の効率化を図ることが可能となる。また、非特許文献3のように、日本語辞書や日英対訳辞書を必要とせずに意味属性の推定が可能となる。さらに、既存単語と処理対象単語との意味的近さを、概念ベクトルの距離計算に基づいて定量的に計算することによって、処理対象単語と意味的に近い既存単語を選択することができ、さらに該既存単語の持つ意味属性を処理対象単語の意味属性の候補として出力することができる。
以上、本発明において、記載された具体例に対してのみ詳細に説明したが、本発明の技術思想の範囲で多彩な変形および修正が可能であることは、当業者にとって明白なことであり、このような変形および修正が特許請求の範囲に属することは当然のことである。
≪プログラム等≫
本発明は前記各手段1〜4,各部11〜14の一部もしくは全部としてコンピュータを機能させる意味属性推定プログラムとして構成することもできる。このプログラムによれば、S1〜S7,S11〜S17の一部のステップあるいは全ステップをコンピュータに実行させることが可能である。
また、前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体57に記録して保存,配布することも可能である。この記録媒体57は図2に示すように、記録媒体読取装置56を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体57も本発明を構成する。
1…概念ベクトル付与手段
2…距離計算手段
3…意味属性候補出力手段
4…概念ベース
5…意味属性推定装置
11…文書収集部(手段)
12…形態素解析部(手段)
13…共起計数部(手段)
14…概念ベクトル部(手段)
15…外部文書群
16…単語辞書

Claims (7)

  1. 単語の概念を表す意味属性を推定する意味属性推定装置であって、
    意味属性を推定したい処理対象単語に対して、概念ベクトルを付与する概念ベクトル付与手段と、
    前記概念ベクトル付与手段において概念ベクトルが付与された処理対象単語と、概念ベクトルと意味属性とが付与されてデータベースに格納された既存単語と、の概念ベクトルにおける距離を計算する距離計算手段と、
    前記距離計算手段において計算された距離に基づき、前記処理対象単語の概念ベクトルと近い概念ベクトルが付与された既存単語の意味属性を、前記処理対象単語の意味属性の候補として出力する意味属性候補出力手段と、
    を備えたことを特徴とする意味属性推定装置。
  2. 前記概念ベクトル付与手段は、
    既存の文書群から前記処理対象単語を含む文書を収集する文書収集手段と、
    前記文書収集手段において収集した文書を単語単位に分割する形態素解析手段と、
    前記処理対象単語と、形態素解析手段で分割された単語と、の共起頻度を数える共起計数手段と、
    前記共起計数手段において得られた共起頻度に基づき、処理対象単語の概念ベクトルを生成する概念ベクトル生成手段と、
    を備えたことを特徴とする請求項1記載の意味属性推定装置。
  3. 前記意味属性候補出力手段は、
    前記処理対象単語の概念ベクトルと距離の近い順に既存単語を並べ、上位n個(n≧1)の既存単語の持つ意味属性を、前記処理対象単語の意味属性の候補として出力することを特徴とする請求項1または2記載の意味属性推定装置。
  4. 単語の概念を表す意味属性を推定する意味属性推定方法であって、
    概念ベクトル付与手段が、意味属性を推定したい処理対象単語に対して、概念ベクトルを付与する概念ベクトル付与ステップと、
    距離計算手段が、前記概念ベクトル付与ステップにおいて概念ベクトルが付与された処理対象単語と、概念ベクトルと意味属性とが付与されてデータベースに格納された既存単語と、の概念ベクトルにおける距離を計算する距離計算ステップと、
    意味属性候補出力手段が、前記距離計算ステップにおいて計算された距離に基づき、前記処理対象単語の概念ベクトルと近い概念ベクトルが付与された既存単語の意味属性を前記処理対象単語の意味属性の候補として出力する意味属性候補出力ステップと、
    を有することを特徴とする意味属性推定方法。
  5. 前記概念ベクトル付与ステップは、
    文書収集手段が、既存の文書群から前記処理対象単語を含む文書を収集する文書収集ステップと、
    形態素解析手段が、前記文書収集ステップにおいて収集した文書を単語単位に分割する形態素解析ステップと、
    共起計数手段が、前記処理対象単語と、前記形態素解析ステップで分割された単語と、の共起頻度を数える共起計数ステップと
    概念ベクトル生成手段が、前記共起計数ステップにおいて得られた共起頻度に基づき、概念ベクトルを生成する概念ベクトル生成ステップと、
    を有することを特徴とする請求項4記載の意味属性推定方法。
  6. 前記意味属性候補出力ステップは、
    前記処理対象単語の概念ベクトルと距離の近い順に既存単語を並べ、上位n個(n≧1)の既存単語の持つ意味属性を、前記処理対象単語の意味属性の候補として出力することを特徴とする請求項4または5記載の意味属性推定方法。
  7. 請求項1〜請求項3のいずれか一項に記載の意味属性推定装置を構成する各手段として、コンピュータを機能させるための意味属性推定プログラム。
JP2010037003A 2010-02-23 2010-02-23 意味属性推定装置、意味属性推定方法、意味属性推定プログラム Pending JP2011175328A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010037003A JP2011175328A (ja) 2010-02-23 2010-02-23 意味属性推定装置、意味属性推定方法、意味属性推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010037003A JP2011175328A (ja) 2010-02-23 2010-02-23 意味属性推定装置、意味属性推定方法、意味属性推定プログラム

Publications (1)

Publication Number Publication Date
JP2011175328A true JP2011175328A (ja) 2011-09-08

Family

ID=44688141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010037003A Pending JP2011175328A (ja) 2010-02-23 2010-02-23 意味属性推定装置、意味属性推定方法、意味属性推定プログラム

Country Status (1)

Country Link
JP (1) JP2011175328A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733760A (zh) * 2017-04-25 2018-11-02 松下知识产权经营株式会社 检索方法、检索装置以及程序
CN113763061A (zh) * 2020-06-03 2021-12-07 北京沃东天骏信息技术有限公司 相似物品聚合的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326952A (ja) * 2004-05-12 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 概念辞書への単語登録方法、装置、およびプログラム
JP2009129323A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 同義語抽出装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005326952A (ja) * 2004-05-12 2005-11-24 Nippon Telegr & Teleph Corp <Ntt> 概念辞書への単語登録方法、装置、およびプログラム
JP2009129323A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 同義語抽出装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733760A (zh) * 2017-04-25 2018-11-02 松下知识产权经营株式会社 检索方法、检索装置以及程序
CN108733760B (zh) * 2017-04-25 2023-05-12 松下知识产权经营株式会社 检索方法、检索装置以及程序
CN113763061A (zh) * 2020-06-03 2021-12-07 北京沃东天骏信息技术有限公司 相似物品聚合的方法和装置

Similar Documents

Publication Publication Date Title
Toutanova et al. A dataset and evaluation metrics for abstractive compression of sentences and short paragraphs
Piao et al. Development of the multilingual semantic annotation system
Mori et al. A machine learning approach to recipe text processing
Kaity et al. An automatic non-English sentiment lexicon builder using unannotated corpus
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
Soleh et al. A non word error spell checker for Indonesian using morphologically analyzer and HMM
Magdy et al. An efficient method for using machine translation technologies in cross-language patent search
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6160438B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP2014132406A (ja) 同義語抽出システム、方法およびプログラム
JP2011175328A (ja) 意味属性推定装置、意味属性推定方法、意味属性推定プログラム
Gupta et al. A Ranking based Language Model for Automatic Extractive Text Summarization
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
JP5757551B2 (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
Clouet et al. Splitting of compound terms in non-prototypical compounding languages
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP2960936B2 (ja) 係り受け解析装置
JP2004348514A (ja) 対訳語抽出方法、対訳辞書構築方法及び翻訳メモリ構築方法
Yu et al. Machine translation evaluation metric based on dependency parsing model
KR100837797B1 (ko) 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
JP5594225B2 (ja) 知識獲得装置、知識取得方法、及びプログラム
Reinel et al. Sentiment phrase generation using statistical methods
JP5308918B2 (ja) キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
Han et al. A Method for Extracting Lexicon for Sentiment Analysis Based on Morphological Sentence Patterns

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120308

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130924