JP6106489B2

JP6106489B2 - 語義解析装置、及びプログラム

Info

Publication number: JP6106489B2
Application number: JP2013069219A
Authority: JP
Inventors: 山田　一郎; 一郎山田; 太郎宮▲崎▼
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2013-03-28
Filing date: 2013-03-28
Publication date: 2017-03-29
Anticipated expiration: 2033-03-28
Also published as: JP2014191777A

Description

本発明は、語義解析装置、及びプログラムに関する。

従来、複数の意味を持つような曖昧性のある単語が、どのような意味で使われやすいかという指標は、国語辞典などで人手により生成された情報を用いていた。また、単語の意味を分類した英語の辞書であるWordNetなどでは、各単語に対して意味付けが人手で行われたSemCor Corpus (http://www.gabormelli.com/RKB/SemCor_Corpus)などを元に、単語に対しての語義をランキングしている（非特許文献１参照）。

"WordNet"、［online］、平成２４年１２月２７日、PRINCETON UNIVERSITY、［平成２５年３月１４日検索］、インターネット〈URL：http://wordnet.princeton.edu/〉

人が語義の使われやすさをランキングする作業は、膨大な時間を要するため、辞書の生成や更新は困難である。また、検索に用いる目的で語義のランキング結果を利用する場合は、その検索対象ごとに語義の使われやすさを設定するべきであり、人手でこの設定作業を行うことは非常に困難である。

本発明は、このような事情を考慮してなされたもので、複数の意味を持つ単語が、どのような意味で使われやすいかを検索対象に応じてランキングすることができる語義解析装置、及びプログラムを提供する。

［１］本発明の一態様は、複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、を備えることを特徴とする語義解析装置である。
この発明によれば、語義解析装置は、語義記述テキストデータから、複数の意味を有する単語の語義それぞれを特徴付ける語義特徴付け単語を抽出するとともに、複数の意味を有する当該単語との共起関係に基づいてテキストデータの集合から関連単語を抽出する。語義解析装置は、抽出した語義特徴付け単語と関連単語との間の類似度を計算し、得られた類似度に基づいて、語義記述テキストデータに記述されている各語義が使われやすい順位を決定する。
これにより、語義解析装置は、複数の意味を持つ単語が、どのような意味で使われやすいかをランキングすることができる。また、語義解析装置は、関連単語を抽出する対象となるテキストデータを変えることで、検索対象に応じて語義のランキングを決定することができる。

［２］本発明の一態様は、上述する語義解析装置であって、前記語義特徴付け単語抽出部は、前記語義記述テキストデータに記述されている各語義の定義文の最終文節に含まれる名詞を語義特徴付け単語として抽出する、ことを特徴とする。
この発明によれば、語義解析装置は、語義記述テキストデータに記述されている各語義の定義文の最終文節から語義特徴付け単語となる名詞を抽出する。
これにより、語義解析装置は、語義をよく表す名詞を語義特徴付け単語として抽出することができる。

［３］本発明の一態様は、上述する語義解析装置であって、前記語義特徴付け単語抽出部は、前記定義文の最終文節に含まれる名詞が複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節に含まれる名詞を語義特徴付け単語として抽出する、ことを特徴とする。
この発明によれば、語義解析装置は、語義の定義文の最終文節が、例えば、「ひとつ」、「一種」などの複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節から語義特徴付け単語となる名詞を抽出する。
これにより、語義解析装置は、語義特徴付け単語となる名詞を精度よく抽出することができる。

［４］本発明の一態様は、上述する語義解析装置であって、前記テキストデータの集合は、前記単語に基づいた検索を行う対象のテキストデータの集合である、ことを特徴とする。
この発明によれば、語義解析装置は、キーワード検索の対象となるテキストデータの集合から、キーワードとして用いられる単語の関連単語を抽出する。
これにより、語義解析装置は、複数の意味を持つ単語がどのような意味で使われやすいかを、検索対象に応じて精度よくランキングすることができる。

［５］本発明の一態様は、語義解析装置として用いられるコンピュータを、複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、として機能させるためのプログラムである。

本発明によれば、複数の意味を持つ単語が、どのような意味で使われやすいかを検索対象に応じてランキングすることができる。

本発明の一実施形態における語義解析装置の構成を示す機能ブロック図である。同実施形態における語義記述テキストの例を示す図である。同実施形態におけるベーステキスト集合の例を示す図である。同実施形態における語義解析装置の処理手順を示すフローチャートである。同実施形態における語義特徴付け単語の例を示す図である。同実施形態におけるランキング作成対象単語に対する関連単語の相互情報量の例を示す図である。同実施形態における関連単語及び語義特徴付け単語間の分布類似度の例を示す図である。同実施形態におけるランキング結果の例を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
図１は、本発明の一実施形態による語義解析装置１の構成を示す機能ブロック図である。語義解析装置１は、１台または複数台のコンピュータ装置により実現され、同図に示すように、記憶部１０、語義特徴付け単語抽出部１１、関連単語抽出部１２、類似度計算部１３、及びランキング処理部１４を備えて構成される。

記憶部１０は、各部の処理に用いられる各種データを記憶する。具体的には、記憶部１０は、語義記述テキスト、及びベーステキスト集合を記憶する。語義記述テキストは、複数の意味を持つような曖昧性のある単語についての複数の語義が記述されたテキストデータ（語義記述テキストデータ）である。ベーステキスト集合とは、語義ランキングの作成対象である単語に関連する単語を抽出するベースとなるテキストデータの集合である。

語義特徴付け単語抽出部１１は、語義ランキングの作成対象である単語の語義を特徴付ける単語を記憶部１０に記憶されている語義記述テキストから抽出する。以下では、語義ランキングの作成対象である単語を「ランキング作成対象単語」と記載し、語義を特徴付ける単語を「語義特徴付け単語」記載する。関連単語抽出部１２は、記憶部１０に記憶されているベーステキスト集合からランキング作成対象単語に関連する単語を抽出する。ベーステキスト集合として、例えば、ランキング作成対象単語をキーワードとして検索を行う対象のテキストデータの集合が用いられる。以下では、ランキング作成対象単語に関連する単語を、「関連単語」と記載する。類似度計算部１３は、語義特徴付け単語抽出部１１が抽出した語義特徴付け単語と関連単語抽出部１２が抽出した関連単語との間の類似度を計算する。ランキング処理部１４は、類似度計算部１３が算出した類似度に基づいて、各語義特徴付け単語に対応した語義が使われやすい順位を決定する。これにより、ランキング処理部１４は、語義記述テキストに記述されているどの語義が使われやすいかのランキングを生成する。

次に、語義解析装置１に用いられるデータを説明する。
図２は、語義記述テキストの例を示す図である。この語義記述テキストとして、例えば、インターネット上で提供される既存の百科事典サービスであるWikipedia（http://ja.wikipedia.org/）の曖昧さ回避のページなどを利用できる。なお、語義記述テキストとして、例えば、国語辞典などの辞書データを用いることもできる。同図に示す語義記述テキストの例では、ランキング作成対象単語「雷」に対して、複数の語義を定義した文が記述されている。

図３は、ベーステキスト集合の例を示す図である。同図においては、ベーステキスト集合として、番組ＥＰＧ（Electronic Program Guide）が用いられる場合の例を示している。同図に示す番組ＥＰＧには、複数の番組について、番組を特定する識別子（Id）、番組名（Title)、番組名の短縮表示（Short Title)、番組説明（Description）、及び番組内容（Detail)の情報が含まれている。

続いて、語義解析装置１の動作について説明する。
図４は、図１に示す語義解析装置１の動作手順を示すフローチャートである。

［ステップＳ１：語義特徴付け単語抽出処理］
語義特徴付け単語抽出部１１は、例えばインターネット上で公開されている語義記述テキストから、ランキング作成対象単語の語義記述テキストを読み出し、記憶部１０に書き込む。あるいは、語義特徴付け単語抽出部１１は、予め記憶部１０に記憶されている国語辞典などの語義記述テキストからランキング作成対象単語の語義記述テキストを読み出してもよい。語義特徴付け単語抽出部１１は、ランキング作成対象単語についての複数の語義が記述された語義記述テキストから、それらの各語義を特徴付ける語義特徴付け単語を抽出する。

具体的には、語義特徴付け単語抽出部１１は、ランキング作成対象単語についての語義が記述された語義記述テキストから、各語義を定義する最初の定義文を読み出して構文解析し、その定義文の最終文節を、語義特徴付け単語を抽出する対象の文節とする。以下、語義特徴付け単語を抽出する対象の文節を「単語抽出対象文節」と記載する。語義特徴付け単語抽出部１１は、単語抽出対象文節にある名詞を抽出する。

ただし、最終文節が「ひとつ」、「一種」などの複数の中の一つであることを表す特定単語の場合、語義特徴付け単語抽出部１１は、その最終文節を修飾している「の格」であり、かつ、最終文節に最も近い文節を単語抽出対象文節とし、名詞を抽出する。なお、特定単語は、予め記憶部１０に記憶させておく。例えば、図２に示すランキング作成対象単語「雷」の語義記述テキストの場合、定義文「ゲーム用語のひとつ」の最終文節は「ひとつ」である。そこで、語義特徴付け単語抽出部１１は、最終文節「ひとつ」を修飾する文節「ゲーム用語の」を単語抽出対象文節とし、名詞「ゲーム用語」を抽出する。

さらに、語義特徴付け単語抽出部１１は、単語抽出対象文節から抽出した名詞に不要な接尾辞がある場合、その接尾辞を削除する。例えば、語義特徴付け単語抽出部１１は、「漫画版」から接尾辞「版」を削除して「漫画」とする。なお、不要な接尾辞は、予め記憶部１０に記憶しておく。また、語義特徴付け単語抽出部１１は、定義文に単語抽出対象文節と並列関係にある文節が存在する場合、並列する文節も単語抽出対象文節として名詞を抽出することにより、複数の名詞の抽出を許す。図２に示す語義記述テキストの例に示す定義文「自然現象・気象のひとつ」の場合、最終文節「ひとつ」を修飾し、かつ最終文節に最も近い文節「気象の」が単語抽出対象文節となり、また、この文節と並列関係にある文節「自然現象・」も単語抽出対象文節となる。これにより、語義特徴付け単語抽出部１１は、各単語抽出対象文節からそれぞれ、名詞「自然現象」、名詞「気象」を抽出する。

語義特徴付け単語抽出部１１は、単語抽出対象文節から名詞を抽出する際、できるだけ一般的な名詞を抽出するために、抽出した名詞を構成する形態素（最小の意味単位）を先頭から順に削除し、一般的な名詞か否かを判断する処理を行う。そこで、例えば、ウェブに頻出する上位１００万語の名詞などを頻出名詞として予め記憶部１０に記憶しておく。これは、例えば、インターネット上で公開されている頻出名詞のデータを取得して記憶することでもよく、インターネット上で各名詞を検索したときのヒット数などに基づいて選択した頻出名詞を記憶することでもよい。語義特徴付け単語抽出部１１は、記憶部１０に記憶されている頻出名詞と合致するまで、単語抽出対象文節から抽出した名詞を構成する形態素を、先頭から順に削除する。例えば、図２に示す語義記述テキストの４つめの定義文「日本の男性アイドルグループ」の場合、語義特徴付け単語抽出部１１は、最終文節を単語抽出対象文節として名詞「男性アイドルグループ」を抽出する。語義特徴付け単語抽出部１１は、この抽出した名詞を、形態素解析処理により「男性／アイドル／グループ」に分割する。そしてまず、語義特徴付け単語抽出部１１は、「男性アイドルグループ」が一般的な名詞か否かを判断する。語義特徴付け単語抽出部１１は、「男性アイドルグループ」は頻出名詞に含まれていないため、一般的な名詞ではないと判断して先頭の形態素「男性」を削除し、「アイドルグループ」が一般的な名詞か否かを判断する。語義特徴付け単語抽出部１１は、「アイドルグループ」が頻出名詞に含まれるため一般的な名詞と判断し、４つめの定義文からは「アイドルグループ」を抽出する。
語義特徴付け単語抽出部１１は、上記の処理により抽出した名詞を、語義特徴付け単語として類似度計算部１３に出力する。

図５は、上記処理により語義特徴付け単語抽出部１１が抽出した語義特徴付け単語の例を示す図である。同図においては、語義特徴付け単語抽出部１１が、図２に示す語義記述テキストの各定義文から抽出した語義特徴付け単語を示している。

［ステップＳ２：関連単語抽出処理］
次に、関連単語抽出部１２は、ベーステキスト集合からランキング作成対象単語の関連名詞を抽出する（ステップＳ２）。この処理では、ランキング作成対象単語をキーワードとして用いて検索を行う対象となるテキストデータの集合を、ベーステキスト集合として用いることができる。例えば、テレビ番組を検索する場合、番組ＥＰＧなどのテキストデータをベーステキスト集合として利用する。本実施形態では、図３に示す番組ＥＰＧをベーステキスト集合として用いる。

関連単語抽出部１２は、記憶部１０に記憶されている番組ＥＰＧから番組内容を記述した文（例えばDetailに記述されている文）を抽出して形態素解析を行い、名詞を抽出する。この際、関連単語抽出部１２は、文節ごとに一般的な名詞のみを抽出する。一般的な名詞であるかの判断は、ステップＳ１と同様に、記憶部１０に記憶されている頻出名詞との合致に基づいて行う。

次に、関連単語抽出部１２は、抽出した名詞とランキング作成対象単語との関連性を評価する。この関連性の評価には、例えば、従来からある相互情報量という指標を使うことができる。単語Ａと単語Ｂに対する相互情報量ＭＩ（Ａ,Ｂ）は、以下の式（１）により定義される。ただし、単語Ａをランキング作成対象単語、単語Ｂを関連単語とする。関連単語は、番組内容の記述文においてランキング作成対象単語と共起する名詞である。

式（１）において、Ｐ（Ａ，Ｂ）は単語Ａと単語Ｂが同じ番組の番組内容（Detail）の記述文に出現している確率値、Ｐ（Ａ）は全番組の番組内容の記述文において単語Ａが出現する確率値、Ｐ（Ｂ）は全番組の番組内容の記述文において単語Ｂが出現する確率値を示す。相互情報量ＭＩ（Ａ,Ｂ）の値が大きいほど、単語Ａと単語Ｂは関係が深いと言える。関連単語抽出部１２は、式（１）を用いて、ランキング作成対象単語（単語Ａ）に対する各関連単語（単語Ｂ）の相互情報量を算出する。

図６は、ランキング作成対象単語に対する各関連単語の相互情報量の例を示す図である。同図では、図３に示す番組ＥＰＧの番組内容の記述文においてランキング作成対象単語「雷」と共起する関連名詞についての相互情報量を示している。関連単語抽出部１２は、各関連単語と、それら関連単語について算出した相互情報量とを類似度計算部１３に出力する。

［ステップＳ３：類似度計算処理］
次に、類似度計算部１３は、ステップＳ１において抽出された語義特徴付け単語と、ステップＳ２において抽出された関連単語との間の類似度を求める。本実施形態では、類似度として分布類似度などの指標を利用する。分布類似度では、実際のテキスト等における単語の係り受けの関係に基づいて各単語をクラスタリングし、そのクラスタリングの結果から各単語のクラスへの所属確率の分布を求め、この確率分布間の距離から単語間の類似度を計算する。分布類似度については、例えば、参考文献「風間，De Saeger，鳥澤，村田，”係り受けの確率的クラスタリングを用いた大規模類似語リストの作成，”言語処理学会第第１５回年次大会発表論文集，C1-6，pp.84-87. (2009)）」に記載されている。類似度計算部１３は、関連単語抽出部１２から入力された関連単語のうち、相互情報量が上位の１００までの関連単語を対象として、語義特徴付け単語抽出部１１から入力された各語義特徴付け単語との分布類似度を、ベーステキスト集合の記述を利用して計算する。

図７は、各関連単語と各語義特徴付け単語との分布類似度の計算結果例を示す。同図においては、図５に示す各語義特徴付け単語と、図６に示す関連単語のうち相互情報量が上位１００に含まれる関連単語との分布類似度の計算結果を示している。類似度計算部１３は、各関連単語と各語義特徴付け単語との分布類似度の計算結果をランキング処理部１４に出力する。

なお、上記においては類似度として、分布類似度を用いたが、単語間の類似度を定量的な値で示す他の指標値を用いてもよい。例えば、シソーラスにおける単語間の距離などを類似度として用いることができる。

［ステップＳ４：ランキング処理］
ランキング処理部１４は、ステップＳ３において計算された分布類似度を利用して、各語義のランキングを行う。そこで、ランキング作成対象単語の語義をＳｅｍとすると、ランキング処理部１４は、以下の式（２）により各語義Ｓｅｍの重みであるＷｅｉｇｈｔ（Ｓｅｍ）を算出する。

式（２）において、ｎｏｕｎ（Ｓｅｍ）は、語義Ｓｅｍの語義特徴付け単語としてステップＳ１で抽出された名詞である。また、Ｄ（ｎｏｕｎ（Ｓｅｍ））は、語義Ｓｅｍから語義特徴付け単語として抽出された名詞の数を示す。Ｄｓｉｍ（ｔ，ｅｓ_ｉ）は、単語ｔと単語ｅｓ_ｉとの分布類似度を示し、単語ｔは、ステップＳ２において抽出された関連単語であり、単語ｅｓ_ｉは、語義Ｓｅｍから語義特徴付け単語として抽出されたｉ番目の名詞ｎｏｕｎ（Ｓｅｍ）である（ｉは１以上Ｄ（ｎｏｕｎ（Ｓｅｍ））以下の整数）。例えば、図５に示すように、語義Ｓｅｍが「自然現象・気象のひとつ。稲妻。」の場合、ｎｏｕｎ（Ｓｅｍ）は「自然現象」及び「気象」であり、Ｄ（ｎｏｕｎ（Ｓｅｍ））は「２」であり、単語ｅｓ_１は「自然現象」であり、単語ｅｓ_２は「気象」である。
ランキング処理部１４は、算出したＷｅｉｇｈｔ（Ｓｅｍ）の降順に語義をランキングした結果を示すデータを生成する。

図８は、ランキング作成対象単語「雷」の語義に対するランキング結果を示す図である。ランキング処理部１４は、ランキング結果として、語義Ｓｅｍのランキング（順位）と、その語義Ｓｅｍから語義特徴付け単語として抽出された名詞ｎｏｕｎ（Ｓｅｍ）と、算出された語義Ｓｅｍの重みＷｅｉｇｈｔ（Ｓｅｍ）とを対応付けたデータをランキング結果として生成する。ランキング処理部１４は、生成したランキング結果のデータを、記憶部１０に書き込む、あるいは、表示装置や他のコンピュータ装置などに出力する。

番組をオンデマンドで配信するインターネット上のウェブサイトにおいてユーザが興味のある番組を検索する場合、例えば、番組ＥＰＧが検索対象として利用される。そこで、上述した実施形態のように、ベーステキスト集合として番組ＥＰＧを用いて語義のランキングを作成する。そして、ユーザが番組検索のために入力したキーワードがどのような意味で用いられたかをランキング結果から把握し、把握した意味を番組ＥＰＧの検索に利用することにより、番組検索の精度を高めることが可能となる。
また、例えば、ベーステキスト集合としてニューステキストの集合を用いた場合、「自然現象、気象」を語義特徴付け単語とした語義がランキングの上位となることが予想される。
このように、関連単語を抽出するためのベーステキスト集合を変えることによって、検索対象に依存した語義のランキング結果を得ることができる。

以上説明したように、本実施形態の語義解析装置１によれば、大規模なテキスト集合を利用し、人手を介すことなく、複数の意味を持つような曖昧性のある単語が、どのような意味で使われやすいかを推定することができる。さらに、本実施形態の語義解析装置１によれば、ベーステキスト集合として利用する大規模テキスト集合を、検索対象の文書集合や、検索対象の文書集合と同じまたは類似のカテゴリの文書集合とすることにより、検索対象ごとに語義の使われやすさのランキングを得ることができる。

なお、上述の語義解析装置１は、内部にコンピュータシステムを有している。そして、語義解析装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１語義解析装置
１０記憶部
１１語義特徴付け単語抽出部
１２関連単語抽出部
１３類似度計算部
１４ランキング処理部

Claims

複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、
前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、
前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、
前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、
を備えることを特徴とする語義解析装置。
前記語義特徴付け単語抽出部は、前記語義記述テキストデータに記述されている各語義の定義文の最終文節に含まれる名詞を語義特徴付け単語として抽出する、
ことを特徴とする請求項１に記載の語義解析装置。
前記語義特徴付け単語抽出部は、前記定義文の最終文節に含まれる名詞が複数の中の一つであることを表す特定単語である場合、前記最終文節を修飾している文節に含まれる名詞を語義特徴付け単語として抽出する、
ことを特徴とする請求項２に記載の語義解析装置。
前記テキストデータの集合は、前記単語に基づいた検索を行う対象のテキストデータの集合である、
ことを特徴とする請求項１から請求項３のいずれか１項に記載の語義解析装置。
語義解析装置として用いられるコンピュータを、
複数の意味を有する単語についての複数の語義が記述された語義記述テキストデータから、前記語義それぞれを特徴付ける語義特徴付け単語を抽出する語義特徴付け単語抽出部と、
前記単語との共起関係に基づいてテキストデータの集合から前記単語の関連単語を抽出する関連単語抽出部と、
前記語義特徴付け単語抽出部が抽出した前記語義特徴付け単語と、前記関連単語抽出部が抽出した前記関連単語との類似度を計算する類似度計算部と、
前記類似度計算部により計算された類似度に基づいて前記語義特徴付け単語に対応した語義が使われやすい順位を決定するランキング処理部と、
として機能させるためのプログラム。