JP2010287020A

JP2010287020A - 同義語展開システム及び同義語展開方法

Info

Publication number: JP2010287020A
Application number: JP2009139955A
Authority: JP
Inventors: Yasutsugu Morimoto; 康嗣森本; Naoto Akira; 直人秋良
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2009-06-11
Filing date: 2009-06-11
Publication date: 2010-12-24

Abstract

【課題】文書から抽出された単語を、各単語の出現文脈に適した同じ意味を示す同義語に展開する。
【解決手段】ある単語の係り先となる単語を含む第１文脈情報が格納された第１データベースを参照して、第１単語の第１文脈情報と第２単語の第１文脈情報とを比較することによって、類似度を計算し、類似度が高い第２単語を第１単語の同義語候補に決定し、ある単語から文章中で所定の語数内に出現する単語を含む第２文脈情報が格納された第２データベースを参照して、第１単語の第２文脈情報と少なくとも一以上の同義語候補の第２文脈情報とを比較することによって、文脈適合度を計算し、類似度及び文脈適合度に基づいて、同義語候補の同義語展開スコアを計算し、同義語展開スコアに基づいて、同義語候補から第１単語の同義語を決定する。
【選択図】図１

Description

本発明は、文書から抽出された各単語を、文書中での各単語の出現文脈に適した同義語に展開する技術に関する。

情報爆発時代といわれるように、ユーザがアクセス可能な電子化文書の量が膨大なものとなっている。そこで、計算機が電子化文書を処理するための技術、例えば、文書検索、文書分類などの技術に対するニーズが高まっている。これらの技術は、電子化文書中のテキストデータを構成する単語を処理の単位としている。しかし、日本語のような自然言語では、単語の同義性及び多義性によって、計算機による自動処理が難しい。

ここで、同義性とは同じ意味を表現する単語が複数存在することである。例えば、「電子計算機」と「コンピュータ」とは、ほぼ同じ意味を持つ。多義性とは同じ単語が複数の意味を持つことである。例えば、「コート」という単語は、球技などをするための場所という意味と防寒のための上着という複数の意味を持つ。このため、文書検索を行う場合、例えば、全文検索技術のような単純な文字列の検索だけでは、誤った結果が得られたり、検索漏れが発生したりするので、検索の精度は不十分なことが多い。

そこで、単語の意味を正しく取り扱うための技術が検討されている。検索システムが同義語辞書（又は類義語辞書）を備えることによって、同義語を持つ単語の検索漏れを回避し、さらに、検索クエリに多義性がある場合、ユーザが検索クエリの読みに関する情報を入力することによって、検索クエリの多義性を解消する技術が提案されている（例えば、特許文献１参照）。

また、このような同義語辞書を自動的に構築するための同義語抽出技術がある（例えば、非特許文献１参照）。非特許文献１に記載された同義語抽出技術は、単語の出現文脈同士の類似度を元の単語同士の類似度に代替させることによって同義語を抽出する技術である。具体的には、大量のテキストデータを準備し、このテキストデータ中に出現する各単語の近傍に出現する単語の頻度リストを作成し、これを出現文脈とする。そして、頻度リスト間の距離（例えば、ユークリッド距離など）を計算することによって、単語間の類似度を計算する。非特許文献１に記載された技術によって、同義語関係を抽出することが可能である。抽出された同義語関係は、直接検索に利用され、また、同義語辞書を作成する場合の素材として利用される。

また、多義性の問題を解決するため、単語の出現文脈を利用して単語の多義性を解消する技術が提案されている（例えば、非特許文献２参照）。

特開平６−２６６７７０号公報

相澤彰子、「大規模テキストコーパスを用いた語の類似度計算に関する考察」、情報処理学会論文誌、２００８年、Ｖｏｌ．４９、Ｎｏ．３、ｐｐ．１４２６−１４３６．ＤａｖｉｄＹａｒｏｗｓｋｙ、"Ｕｎｓｕｐｅｒｖｉｓｅｄｗｏｒｄｓｅｎｓｅｄｉｓａｍｂｉｇｕａｔｉｏｎｒｉｖａｌｉｎｇｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓ"、３３ｒｄＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡＣＬ、１９９５、ｐｐ．１８９−１９６

非特許文献１に記載された同義語抽出技術には以下のような問題がある。本来、同義とは同じ意味ということであり、数学的には同値ということである。つまり、例えば、ＡとＢとが同義であり、ＢとＣとが同義であれば、推移律によって、ＡとＣとが同義となるはずである。しかしながら、非特許文献１に記載された同義語抽出技術によると、抽出された同義語関係の結果は、必ずしもＡとＣとが同義とならない。なぜなら、同義語として抽出された各単語の示す意味の範囲はそれぞれ微妙に異なるので、完全に同じ意味の単語は、「プロセッサ」と「プロセッサー」のような表記揺れの場合を除けば、ほとんど存在しないからである。

例えば、非特許文献１に記載された技術によって、「検査」に対して、「検診」及び「点検」が同義語であるという結果が得られる。しかし、「病院での検査」から「病院での検診」への言い換え、又は、「設備の検査」から「設備の点検」への言い換えはそれぞれ成り立つが、「病院での検査」から「病院での点検」への言い換えは不適切である。つまり、同義語として示された「検査」と「点検」とは、これらが使用される文脈によっては必ずしも同義とはならない。

このように、非特許文献１に記載された同義語抽出技術によって得られる同義語辞書に基づいて、ある単語を同義語に展開し、この同義語によって文書検索を実行する場合、誤った文書が検索結果となる問題がある。

なお、前述した非特許文献２に記載された技術は、人によってあらかじめ作成された同義語辞書から、別の同義語辞書を自動作成することを目的としている。また、そのメリットは、例えば、特殊な分野の同義語辞書を低コストで作成できることである。しかし、同義語辞書を参照して得られた同義語の候補の中から、人が文脈に適した同義語を選択しなければならない。非特許文献２に記載された技術は、検索の際に同義語辞書を自動的に展開し、出現文脈に適した同義語を抽出することを考慮したものではない。

また、特許文献１には、多義性（単語の意味の曖昧性）を考慮した検索技術が記載されている。特許文献１によると、検索クエリが、例えば、「金」である場合、検索クエリの多義性を解消するために、ユーザが検索クエリの読み（例えば、「カネ」「キン」）の情報を入力する。これによって、ある程度、曖昧性を解消することができる。しかしながら、例えば、「金」が「カネ」を意味する場合であっても、さらにその「カネ」には、抽象的な財産を意味する場合、紙幣及び硬貨を意味する場合などがある。

特許文献１に記載された技術によっては、検索クエリが持つさらに詳細な意味の違いを区別することができない。また、ユーザによって検索クエリの読みの情報を入力しなければならないため、操作が煩雑である。以上に述べたように、特許文献１に記載された、同義語辞書によって検索漏れを防止する技術には、細かな意味の差異を無視している点で大きな問題がある。

本発明は、前述した問題に鑑みてなされたものであり、文書から抽出された単語を、各単語の出現文脈に適した同じ意味を示す同義語に展開する同義語展開システムを提供することを目的とする。

本発明の代表的な一例を示せば以下のとおりである。すなわち、単語の同義語を決定する同義語展開システムであって、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、前記プロセッサは、前記メモリに格納された同義語展開処理のためのプログラムを実行することによって、ある単語の係り先となる単語を含む第１文脈情報が格納された第１データベースを参照して、第１単語の前記第１文脈情報と第２単語の前記第１文脈情報とを比較することによって、前記第１単語と前記第２単語との間の意味の近さを示す類似度を計算し、前記計算された類似度が高い少なくとも一以上の前記第２単語を前記第１単語の同義語候補に決定し、前記決定された少なくとも一以上の同義語候補とその類似度とを含む第１情報を出力し、ある単語から文章中で所定の語数内に出現する単語を含む第２文脈情報が格納された第２データベースを参照して、前記第１単語の第２文脈情報と、前記出力された第１情報に含まれる少なくとも一以上の同義語候補の第２文脈情報と、を比較することによって、前記少なくとも一以上の同義語候補が出現する文脈とが一致する確率を示す文脈適合度を計算し、前記少なくとも一以上の同義語候補の類似度と、前記計算された文脈適合度とに基づいて、前記同義語候補の同義語展開スコアを計算し、前記少なくとも一以上の同義語候補とその同義語展開スコアとを含む第２情報を出力し、前記出力された第２情報に含まれる少なくとも一以上の同義語候補のうち、前記計算された同義語展開スコアの高い同義語候補を前記第１単語の同義語に決定し、前記決定された第１単語の同義語を含む第３情報を出力することを特徴とする。

本発明の一実施形態によれば、文書中の単語を同じ意味を表す同義語に展開する際に、その単語の出現文脈に沿った意味に展開することが可能となり、文書検索、文書分類などの精度を向上させることができる。

本発明の実施の形態の同義語展開装置の構成を示すブロック図である。本発明の実施の形態の同義語展開装置に格納される処理対象文書の例を示す説明図である。本発明の実施の形態の同義語展開装置に格納される類似度計算用文脈データベースの例を示す説明図である。本発明の実施の形態の同義語展開装置に格納される適合度計算用文脈データベースの例を示す説明図である。本発明の実施の形態の同義語展開装置によって実行される類似度計算用文脈データベースの作成処理を示すフローチャートである。本発明の実施の形態の同義語展開装置に一時的に作成される形態素解析テーブルの例を示す説明図である。本発明の実施の形態の同義語展開装置に一時的に作成される係り受け解析結果の例を示す説明図である。本発明の実施の形態の同義語展開装置に一時的に作成される係り受け関係テーブルの例を示す説明図である。本発明の実施の形態の同義語展開装置によって実行される適合度計算用文脈データベースの作成処理を示すフローチャートである。本発明の実施の形態の同義語展開装置によって実行されるウインドウ共起抽出処理の説明図である。本発明の実施の形態の同義語展開装置に一時的に作成されるウインドウ共起テーブルの説明図である。本発明の実施の形態の同義語展開装置によって実行される同義語展開処理のフローチャートである。本発明の実施の形態の同義語展開装置に一時的に作成される同義語候補テーブルの例を示す説明図である。本発明の実施の形態の同義語展開装置に一時的に作成される同義語展開テーブルの例を示す説明図である。本発明の実施の形態の同義語展開装置に一時的に作成される同義語展開済み形態素解析テーブルの例を示す説明図である。本発明の実施の形態の同義語展開装置のディスプレイに表示されるユーザインターフェイス画面の例を示す説明図である。本発明の実施の形態の同義語展開装置の各装置間の入出力の関係を示す説明図である。

以下、本発明の実施の形態を、図面を参照して説明する。

図１は、本発明の実施の形態の同義語展開装置の構成を示すブロック図である。

本実施の形態の同義語展開装置は、ＣＰＵ１０１、主メモリ１０２、入出力装置１０３及びディスク装置１１０を備える。

主メモリ１０２は、ＣＰＵ１０１によって実行される、ＯＳ１１１及び同義語展開プログラム１１２を格納する。また、ＣＰＵ１０１によって必要とされる情報、例えば、処理対象文書１１４を格納する。

ＯＳ１１１は、同義語展開装置１００の全体の処理を制御する。同義語展開プログラム１１２は、処理対象文書１１４に含まれる単語を同義語に展開する。なお、同義語展開プログラム１１２は、同義語展開処理の他、類似度計算用文脈データベース１１５、適合度計算用文脈データベース１１６を作成する処理を実行してもよい。また、図示されない他のプログラムが、類似度計算用文脈データベース１１５、適合度計算用文脈データベース１１６を作成する処理を実行してもよい。

ＣＰＵ１０１は、主メモリ１０２に格納されるプログラムを実行することによって各種処理を実行するプロセッサである。

ディスク装置１１０は、各種情報を格納する。具体的には、ディスク装置１１０は、テキストデータベース１１３、処理対象文書１１４、類似度計算用文脈データベース１１５（図３参照）、適合度計算用文脈データベース１１６（図４参照）を格納する。なお、ＣＰＵ１０１は、ディスク装置１０１に格納されたＯＳ１１１、同義語展開プログラム、及び他のプログラムを主メモリ１０２に呼び出し、主メモリ１０２に呼び出された各種プログラムを実行してもよい。

テキストデータベース１１３は、類似度計算用文脈データベース１１５及び適合度計算用文脈データベース１１６を作成するために入力された大量のテキストデータを格納するデータベースである。処理対象文書１１４は、同義語展開処理の対象となる文書である。処理対象文書１１４は、テキストデータベース１１３の一部であってもよいし、ネットワークを介して他の装置から取得した文書、又は他の記憶媒体に格納された文書であってもよい。

類似度計算用文脈データベース１１５は、テキストデータベース１１３のテキストデータに含まれるある単語について、その単語の近傍に出現した単語及びその頻度を文脈情報として格納したデータベースであり、後述する図１２のステップＳ３３において、類似度を計算するために用いられる。

適合度計算用文脈データベース１１６は、テキストデータベース１１３中のテキストに含まれるある単語について、その単語の近傍に出現した単語及びその頻度を文脈情報として格納したデータベースであり、後述する図１２のステップＳ３８において、適合度を計算するために用いられる。

以下、類似度計算用文脈データベース１１５及び適合度計算用文脈データベース１１６のいずれにも共通する説明をする場合、その説明において、類似度計算用文脈データベース１１５及び適合度計算用文脈データベース１１６を総称して、文脈データベースと記載する。文脈データベースの構築方法については図２から図１１を用いて説明する。

入出力装置１０３は、例えば、ディスプレイ１０４、キーボード１０５、及びマウス１０６などである。なお、ディスプレイ１０４には、例えば、後述するユーザインターフェイス画面１６００（図１６参照）が表示されてもよい。

なお、本実施の形態では、同義語展開装置を単体の装置として説明したが、端末と計算機（サーバ）とを備えたシステムによって構成してもよい。この場合、端末は、処理対象文書１１４の入力の処理、及び、同義語展開済み形態素解析テーブル１５００（図１５参照）の表示等の処理を実行し、サーバは、その他の処理を実行してもよい。また、同義語展開装置は、別の計算機によってあらかじめ構築された類似度計算用文脈データベース１１５及び適合度計算用文脈データベース１１６を利用して同義語展開処理を実行してもよい。また、本実施の形態の同義語展開装置は、ネットワークインターフェイスを備え、ネットワークに接続されてもよい。

図２は、本発明の実施の形態の同義語展開装置に格納される処理対象文書１１４の例を示す説明図である。

図２に示した処理対象文書１１４の例では、「発電」「設備」「定期」「検査」などの単語が同義語展開の対象である。そして、例えば、「設備」が「装置」、「検査」が「点検」のような同義語に展開される。なお、ユーザによってテキストデータベース１１３から選択された処理対象文書１１４は、入出力装置１０３のディスプレイ１０４に表示されてもよい。

図３は、本発明の実施の形態の同義語展開装置に格納される類似度計算用文脈データベース１１５の例を示す説明図である。

類似度計算用文脈データベース１１５は、見出し語３０１及び文脈情報３０２を含む。文脈情報３０２は、複数の文脈単語列３０３と頻度３０４との組みを含む。

見出し語３０１は、テキストデータベース１１３に記録された電子化文書から抽出された単語である。文脈単語列３０３は、見出し語３０１の近傍に出現した単語（列）である。頻度３０４は、文脈単語列３０３が出現した回数である。例えば、行３１１において、見出し語「検査」の近傍に、「で引っかかる」が４回、「を義務付ける」が４回、「で明らかになる」が４回出現したことを示す。

図４は、本発明の実施の形態の同義語展開装置に格納される適合度計算用文脈データベース１１６の例を示す説明図である。

図４は、適合度計算用文脈データベース１１６は、図３に示した類似度計算用文脈データベース１１５の構造と同じであり、見出し語４０１及び文脈情報４０２を含む。文脈情報４０２は、複数の文脈単語列４０３と頻度４０４との組みを含む。例えば、行４１１において、見出し語「検査」の近傍に、「設備」が４回、「定期」が４回、「異常」が４回出現したことを示す。

以下に、本発明の同義語展開装置が実行する処理について説明する。同義語展開装置の処理には、文脈データベースの作成処理及び同義語展開処理がある。

文脈データベースの作成処理は、任意の単語に関する文脈情報、すなわち、近傍に出現しやすい単語の一覧を作成するための処理である。文脈データベースの作成処理には、類似度計算用文脈データベース１１５の作成処理、及び、適合度計算用文脈データベース１１６の作成処理がある。類似度計算用文脈データベース１１５は、同義語候補抽出処理で用いられる。適合度計算用文脈データベース１１６は、適合度計算処理で用いられる。なお、文脈データベースの作成処理は、同義語展開時に実行することもできるが、処理に長時間を必要とすることが多いため、あらかじめ、バッチ処理によって実行しておくことが望ましい。

同義語展開処理には、同義語候補抽出処理、適合度計算処理、及び、同義語展開スコア計算処理がある。同義語候補抽出処理は、類似度計算用文脈データベース１１５を用い、同義語展開対象である単語の同義語を類似度によって求める処理である。

適合度計算処理は、同義語候補抽出処理によって得られた同義語候補が、同義語展開処理の対象文書の文脈に合致している度合いを示す適合度を計算する処理である。

同義語展開スコア計算処理は、同義語候補抽出処理によって得られる、同義語候補の類似度と、適合度計算処理によって得られる、同義語候補の文脈への適合度との両方に基づいて同義語展開スコアを計算する処理である。

図５は、本発明の実施の形態の同義語展開装置によって実行される類似度計算用文脈データベース１１５の作成処理を示すフローチャートである。

同義語展開装置は、テキストデータベース１１３中のすべての文書について、ステップＳ１１からＳ１４の処理が実行されたか否かを判定する（Ｓ１０）。ステップＳ１０において、すべての文書について処理が実行されたと判定された場合、類似度計算用文脈データベース１１５の作成処理を終了する。一方、ステップＳ１０において、未処理の文書があると判定された場合、ステップＳ１１に進む。

まず、同義語展開装置は、テキストデータベース１１３から文書を取り出し、取り出された文書に対して形態素解析を実行し、文書を形態素（単語）に分割する（Ｓ１１）。

形態素解析については、例えば、「北研二、「言語と計算４確率的言語モデル」、東京大学出版会」に記載されている。形態素解析では、文書の先頭から任意の文字列を取り出して辞書と照合し、文字列が辞書に存在すれば当該文字列が単語であるものとして文字列の直後で文書を分割する処理が繰り返し実行される。また、単語への分割に曖昧性がある場合、例えば、最も長い文字列を優先する最長一致というヒューリスティックスを用いて、確からしい分割を求めることができる。

図６は、本発明の実施の形態の同義語展開装置に一時的に作成される形態素解析テーブル６００の例を示す説明図である。

一般的に、形態素解析の結果は、処理対象文書を形態素に分割することによって得られた単語とその単語の品詞とを含むリスト（形態素解析テーブル）として示される。本実施の形態の形態素解析テーブル６００は、単語６０１及び品詞６０２を含む。本実施の形態では、形態素解析テーブル６００は、一時データであり、主メモリ１０２に格納される。なお、形態素解析テーブル６００は、入出力装置１０３のディスプレイ１０４に表示されてもよい。

図５のステップＳ１２の説明に戻る。同義語展開装置は、ステップＳ１１によって作成された形態素解析テーブル６００に対して、係り受け解析を実行する（Ｓ１２）。

係り受け解析については、例えば、「藤尾正和、松本裕治、「統計的手法を用いた係り受け解析」、自然言語処理研究会、１９９７年、ＮＬ１１７−１２、ｐ.８３−９０」に記載されている。係り受け解析は、単語間の関係を解析する処理である。日本語の係り受け解析では、通常、名詞、動詞などの内容語が対象となる。具体的には、助詞、助動詞などの機能語は、接続している内容語の属性として扱われる。係り受け解析では、内容語又は内容語に接続している助詞の種類に基づいて、連用修飾（用言を修飾する）、又は、連体修飾（体言を修飾する）のいずれかであるかを判定し、係り先を決定する。

例えば、「開発を」の場合、「を」は連用修飾となる助詞であり、「開発を」は用言を修飾する。「開発の」のような場合には、「の」は連体修飾となる助詞であり、「開発の」は体言を修飾する。これによって、形態素解析テーブル６００の内容語の係り先が制約される。形態素解析中のすべての内容語について、このような制約を矛盾なく満たす係り先を決定することによって、係り受け解析が実現される。

図７は、本発明の実施の形態の同義語展開装置に一時的に作成される係り受け解析結果の例を示す説明図である。

図７は、「病気が検査で疑われる。」という文に対して係り受け解析を実行した結果を示す。「病気」と「検査」とがそれぞれ「疑われる」に係り、助詞である「が」と「で」とがそれぞれの係り受け関係の種別を表すラベルとして付与されている。

図８は、本発明の実施の形態の同義語展開装置に一時的に作成される係り受け関係テーブル８００の例を示す説明図である。

係り受け関係テーブル８００は、係り元単語８０１、係り先単語８０２及びラベル８０３を含む。係り元単語８０１は、係り受け解析によって得られた係り受け関係のうちの係り元単語である。係り先単語８０２は、係り受け解析によって得られた係り受け関係のうちの係り先単語である。ラベル８０３は、係り元単語８０１と係り先単語８０２とによって示される係り受け関係の種別を示すラベル（助詞）である。本実施の形態では、係り受け関係テーブル８００は一時データであり、主メモリ１０２に格納される。

図５のステップＳ１３の説明に戻る。

同義語展開装置は、図８に示した係り受け関係テーブル８００中のすべての行が処理されたか否かを判定する（Ｓ１３）。ステップＳ１３において、すべての行が処理されたと判定された場合、ステップＳ１０に戻る。一方、ステップＳ１３において、未処理の行があると判定された場合、ステップＳ１４に進む。

まず、同義語展開装置は、係り受け関係テーブル８００（図８）のｉ番目の行に基づいて、類似度計算用文脈データベース１１５を更新する（Ｓ１４）。具体的には、同義語展開装置は、係り受け関係テーブル８００からｉ番目の行の係り元単語８０１を取得する。次に、係り受け関係テーブル８００のｉ番目の行から、係り先単語８０２とラベル８０３とを取得し、係り先単語８０２とラベル８０３とが連結された文字列を「係り先単語列」として作成する。例えば、係り先単語８０２が「疑われる」であり、ラベル８０３が「が」である場合、「係り先単語列」は「が疑われる」となる。

次に、同義語展開装置は、類似度計算用文脈データベース１１５から、取得した「係り元単語」と一致する見出し語を含む行を検索する。ここで、取得した「係り元単語」と一致する見出し語を含む行がない場合、同義語展開装置は、類似度計算用文脈データベース１１５に、「係り元単語」に該当する見出し語を含む新たな行を追加する。そして、追加された新たな行の文脈単語列３０３に、「係り先単語列」を記録し、さらに、追加された新たな行の頻度３０４に、「１」を記録する。

一方、取得した「係り元単語」と一致する見出し語を含む行（例えば、Ｉ番目の行）がある場合、同義語展開装置は、類似度計算用文脈データベース１１５のＩ番目の行に、「係り先単語列」と一致する文脈単語列３０３があるか否かを検索する。「係り先単語列」と一致する文脈単語列３０３がない場合、空欄となっている文脈単語列３０３に「係り先単語列」を記録し、頻度３０４に「１」を記録する。一方、「係り先単語列」と一致する文脈単語列３０３がある場合、当該文脈単語列３０３の頻度３０４に「１」を加算して、頻度を更新する。

例えば、係り受け関係テーブル８００の１番目の行８０４の係り元単語８０１は「病気」であり、係り先単語８０２は「疑われる」であり、ラベル８０３は「が」である。また、係り先単語列は「が疑われる」である。このため、同義語展開装置は、類似度計算用文脈データベース１１５から係り元単語「病気」と一致する見出し語を含む行を検索する。類似度計算用文脈データベース１１５には、係り元単語「病気」と一致する見出し語３０１を含む行３１２がある。そして、行３１２には、係り先単語列「が疑われる」に該当する文脈単語列３０３があるので、当該文脈単語列３０３の頻度３０４に「１」を加算する。

係り受け関係テーブル８００の２番目の行８０５についても同様に処理する。類似度計算用文脈データベース１１５には、係り元単語「検査」と一致する見出し語３０１を含む行３１１があるが、係り先単語列「が疑われる」に該当する文脈単語列３０３がないので、空欄となっている文脈単語列３０３に係り先単語列「が疑われる」を記録し、頻度３０４に「１」を記録する（図示省略）。

なお、本実施の形態では、係り受け関係のラベルである「が」「で」等の助詞を含む「係り先単語列」を類似度計算用文脈データベース１１５の文脈単語列３０３に記録したが、ラベルを除いた「係り先単語」のみを文脈単語列３０３に記録してもよい。この場合、同義語展開処理の精度は若干低下するが、助詞が文脈単語列に含まれないので、必要な記憶容量を減らすことができる。

また、同様に、係り先単語の助動詞を除き、内容語（名詞、動詞などの単独で意味を持つ単語）のみを係り先単語としてもよい。この場合、例えば、係り受け関係テーブル８００の行８０５の係り元単語「検査」及び係り先単語「疑われる」については、係り元単語「検査」が「類似度計算用文脈データベース１１５の見出し語３０１に記録され、係り先単語「疑う」が文脈単語列３０３に記録される。

図９は、本発明の実施の形態の同義語展開装置によって実行される適合度計算用文脈データベース１１６の作成処理を示すフローチャートである。

ステップＳ２０からＳ２１の処理は、図５のステップＳ１０からＳ１１の処理と同じである。

同義語展開装置は、ウインドウ共起を抽出する（Ｓ２２）。

図１０は、本発明の実施の形態の同義語展開装置によって実行されるウインドウ共起抽出処理の説明図である。

処理対象文書１１４から得られた形態素解析テーブル６００から、内容語（すなわち、名詞、動詞）のみを抽出すると、「発電、設備、定期、検査、異常、発見、事故・・・」という内容語列が得られる。この場合、同義語展開装置は、内容語列のｉ番目の単語に注目し、注目したｉ番目の単語（注目語）と注目語から距離Ｊ以内にある単語との共起を考える。

例えば、ｉ番目の注目語が「検査」である場合、距離Ｊを「２」とすると、同義語展開装置は、「検査」と「設備」、「検査」と「定期」、「検査」と「異常」、「検査」と「発見」という４個の共起を得る。このような共起をウインドウ共起という。

このウインドウ共起を、注目する単語毎にウインドウをずらしながら繰り返すことによって、形態素解析テーブル６００から得られた内容語列において、ｉ番目の注目語と、注目語の前後の距離Ｊ以内にある単語との共起を抽出することができる。なお、距離Ｊは、どの程度離れた単語までを注目語と共起しているとみなすかを示すパラメタである。ウインドウの幅は「２＊Ｊ＋１」で示される。図１０に示した例では、距離Ｊが「２」であるので、ウインドウの幅は「５」である。抽出されたウインドウ共起は、以下に説明する図１１のウインドウ共起テーブル１１００に記録される。

図１１は、本発明の実施の形態の同義語展開装置に一時的に作成されるウインドウ共起テーブル１１００の説明図である。

ウインドウ共起テーブル１１００は、見出し語１１０１及び共起語１１０２を含む。見出し語１１０１は、図１０のウインドウにおいて着目されたｉ番目の注目語である。共起語１１０２は、注目語の前後の距離Ｊ以内にある共起語である。本実施の形態では、ウインドウ共起テーブル１１００は一時データであり、主メモリ１０２に格納される。

図９のステップＳ２３の説明に戻る。

同義語展開装置は、図１１に示したウインドウ共起テーブル１１００中のすべての行が処理されたか否かを判定する（Ｓ２３）。ステップＳ２３において、すべての行が処理済みであると判定された場合、ステップＳ２０に進む。一方、ステップＳ２３において、未処理の行があると判定された場合、ステップＳ２４に進む。

同義語展開装置は、ウインドウ共起テーブル１１００のｉ番目の行に基づいて、適合度計算用文脈データベース１１６を更新する（Ｓ２４）。具体的には、同義語展開装置は、まず、適合度計算用文脈データベース１１６から、ウインドウ共起テーブル１１００のｉ番目の行の見出し語１１０１と一致する見出し語４０１を含む行を検索する。見出し語１１０１と一致する見出し語４０１を含む行がない場合、見出し語１１０１に該当する見出し語４０１の含む行を新たに追加し、新たに追加された行の文脈単語列４０３に共起語１１０２を記録し、頻度４０４に「１」を記録する。

見出し語１１０１と一致する見出し語４０１がある場合であって、ウインドウ共起テーブル１１００のｉ番目の行の共起語１１０２に該当する文脈単語列４０３がない場合、空欄となっている文脈単語列４０３に共起語１１０２を記録し、頻度４０４に「１」を記録する。

見出し語１１０１と一致する見出し語４０１がある場合であって、共起語１１０２に該当する文脈単語列４０３が既にある場合、該当する文脈単語列４０３の頻度４０４に「１」を加算して頻度のみを更新する。

図１２は、本発明の実施の形態の同義語展開装置によって実行される同義語展開処理のフローチャートである。

同義語展開装置の同義語展開プログラム１１２は、処理対象文書１１４を形態素解析し、単語に分割する（Ｓ３０）。次に、処理対象文書１１４中のすべての単語を処理したか否かを判定する（Ｓ３１）。ステップＳ３１において、すべての単語が処理済みであると判定された場合、同義語展開処理を終了する。一方、ステップＳ３１において、未処理の単語があると判定された場合、ステップＳ１３に進む。

次に、図６に示した形態素解析テーブル６００から、ｉ番目の行の単語６０１を注目語として取得する（Ｓ３２）。

次に、取得した注目語の同義語候補テーブル１３００を作成する（Ｓ３３）。具体的には、まず、同義語展開プログラム１１２は、類似度計算用文脈データベース１１５から、取得した注目語と一致する見出し語３０１を検索し、一致する見出し語３０１の文脈情報３０２を取得する。次に、一致する見出し語３０１の文脈情報３０２と他のすべての各行の文脈情報３０２との間の類似度を計算し、類似度が高い順に行をソートして、注目語との類似度が高い単語（同義語候補）とその単語（同義語候補）の類似度との組を出力する。

図１３は、本発明の実施の形態の同義語展開装置に一時的に作成される同義語候補テーブル１３００の例を示す説明図である。

同義語候補テーブル１３００は、同義語候補１３０１及び類似度１３０２を含む。同義語候補１３０１は、注目語の同義語候補である。類似度１３０２は、注目語と同義語候補との間の類似度である。同義語候補テーブル１３００は、少なくとも１個以上の同義語候補を含む。図１３に示した例は、注目語が「検査」である場合の同義語候補テーブルである。

ここで、類似度の計算は、例えば、以下のように実行される。

類似度の計算方法には、各種の方法が存在するが、基本的な考え方は、文脈情報の共通部分が大きいほど類似しているとみなすという考え方である。また、ありふれた、一般によく使われる単語ほど、類似度に対する寄与を小さいと考え、稀な、あまり使われない単語が共通している場合には類似度に対する寄与を大きくすることが一般的である。

本実施の形態では、非特許文献１に記載されている類似度の計算方法を使用することができるが、この方法に限定するものではない。また、このステップＳ３３の処理は大きな計算量を必要とするので、これを高速に実行するため、類似文書検索技術、又は、連想検索技術などの手法を利用してもよい。

ここで、連想検索技術とは、各文書に含まれる特徴的な単語を選出し、それらの出現頻度、単語同士の関連性などに基づいて、内容が類似する文書を検索する技術である。このような技術は、例えば、「北研二、津田和彦、獅々堀正幹、「情報検索アルゴリズム」、共立出版、２００２年」などに記載されている。本実施の形態では、このような検索技術を用いることによって、ステップＳ３３の処理を高速化することが望ましい。

ここで、図１２のステップＳ３４の説明に戻る。同義語展開プログラム１１２は、形態素解析テーブル６００から、注目語の文脈情報を取得し、取得した文脈情報を注目語文脈情報とする（Ｓ３４）。ステップＳ３４は、ステップＳ２２のウインドウ共起抽出と同じ考え方によって実行される。

すなわち、形態素解析テーブル６００中の内容語（名詞、動詞）のみを対象とし、注目語からあらかじめ定められた距離Ｊ内（例えば、２語以内）に存在する単語を注目語文脈情報として取得する。例えば、処理対象文書１１４の形態素解析テーブル６００のうち、内容語は、「発電、設備、定期、検査、異常、発見、・・・」である。注目語を「検査」とすると、注目語「検査」の前後の距離Ｊ「２語」以内にある「設備」「定期」「異常」「発見」の４個の単語が注目語文脈情報として取得される。

次に、同義語展開プログラム１１２は、すべての同義語候補についてステップＳ３６からＳ３９の処理を実行したか否かを判定する（Ｓ３５）。ステップＳ３５において、すべての同義語候補が処理済みであると判定された場合、ステップＳ４０に進む。一方、ステップＳ３５において、未処理の同義語候補があると判定された場合、ステップＳ３６に進む。

まず、同義語展開プログラム１１２は、ステップＳ３３において作成された同義語候補テーブル１３００（図１３参照）のうちのｊ番目の同義語候補を取得する（Ｓ３６）。

次に、同義語展開プログラム１１２は、適合度計算用文脈データベース１１６から、ｊ番目の同義語候補と一致する見出し語４０１の文脈情報４０２を同義語候補文脈情報として取得する（Ｓ３７）。

次に、同義語展開プログラム１１２は、注目語文脈単語と同義語候補文脈情報とから、文脈適合度を計算する（Ｓ３８）。文脈適合度の計算は、以下のように実行される。ステップＳ３４において取得した注目語文脈情報と、ステップＳ３７において取得した同義語候補文脈情報とを比較し、一致する単語がある場合、その単語についてスコア（例えば、自己相互情報量）を計算し、計算されたスコア（自己相互情報量）を同義語候補の文脈適合度とする。一致する単語が２個以上ある場合、自己相互情報量の大きい方を文脈適合度としてもよい。

ここで、自己相互情報量とは、二つの事象が同時に生起する確率を、それぞれの事象が単独で生起する確率で割った値の対数である。自己相互情報量については、例えば、「韓他、「情報と符号化の数理」、培風館、１９９９年、ｐ．４２」に記載されているように、広く知られたものであるので、詳細な説明は省略する。

次に、同義語展開プログラム１１２は、類似度及び文脈適合度に基づいて、同義語展開スコアを計算する（Ｓ３９）。この場合、例えば、計算された各類似度と各文脈適合度とを単純に乗じてもよいし、類似度が大きい順にソートされた同義語候補のうち、あらかじめ定められた上位Ｎ個の同義語候補の中から、文脈適合度が最も高い順に大きいスコアが付与されるようにしてもよい。また、類似度に付与されたスコア及び文脈適合度に付与されたスコアに基づいて、同義語展開スコアを計算してもよい。

図１４は、本発明の実施の形態の同義語展開装置に一時的に作成される同義語展開テーブル１４００の例を示す説明図である。

同義語展開テーブル１４００は、同義語展開スコア順にソートされた同義語候補の一覧を記録するテーブルであり、同義語候補１４０１及び同義語展開スコア１４０２を含む。

ここで、図１２のステップＳ４０の説明に戻る。同義語展開プログラム１１２は、同義語展開を実行する（Ｓ４０）。具体的には、あらかじめ定められた個数（例えば、３個以上）の同義語候補を、同義語展開スコアが大きい順に選択することによって、選択された同義語候補を注目語の同義語に決定する同義語展開を実行する。なお、あらかじめ定められた個数に基づく他にも、あらかじめ定められた閾値以上の同義語展開スコアを持つ同義語候補を選択することによって、同義語展開を実行してもよい。

例えば、図１４に示した例では、同義語展開プログラム１１２は、同義語展開によって、同義語展開スコアが大きい順に、同義語候補「点検」「調査」「査察」の３個を、注目語「検査」の同義語として選択した。これによって、同義語展開済み形態素解析テーブル１５００が得られる。

図１５は、本発明の実施の形態の同義語展開装置に一時的に作成される同義語展開済み形態素解析テーブル１５００の例を示す説明図である。

同義語展開済み形態素解析テーブル１５００は、単語１５０１、品詞１５０２及び同義語１５０３を含む。単語１５０１、品詞１５０２は、各々、形態素解析テーブル６００の単語６０１、品詞６０２と同じである。同義語１５０３は、ステップＳ４０において決定された同義語である。

同義語展開装置は、必要に応じて、同義語展開済み形態素解析テーブル１５００をディスク装置などに出力してもよいし、主メモリ１０２において、さらに、特徴語抽出処理などを実行してもよい。また、同義語展開済み形態素解析テーブル１５００は、入出力装置１０３のディスプレイ１０４に表示されてもよい。

図１６は、本発明の実施の形態の同義語展開装置のディスプレイに表示されるユーザインターフェイス画面の例を示す説明図である。

ユーザインターフェイス画面１６００は、ユーザの各種操作のためにディスプレイ１０４に表示される画面であり、例えば、処理対象文書一覧１６０１、文書選択ボタン１６０２、処理対象文書１６０３、形態素解析開始ボタン１６０４、形態素解析結果１６０５、同義語展開開始ボタン１６０６、及び同義語展開結果１６０７を含む。

処理対象文書一覧１６０１には、テキストデータベース１１３に格納された文書のタイトルなどが表示される。文書選択ボタン１６０２は、ユーザが処理対象文書一覧１６０１に表示された文書を選択するためのボタンである。処理対象文書１６０３には、ユーザによって選択された文書の内容（例えば、図２の処理対象文書１１４）が表示される。

なお、処理対象文書一覧１６０１には、ユーザから検索クエリが入力されてもよい。この場合、処理対象文書１６０３には、テキストデータベース１１３に格納された文書のうち、ユーザによって入力された検索クエリを含む文書が表示される。

さらに、テキストデータベース１１３から処理対象文書１１４を選択しない場合、処理対象文書１６０３には、例えば、ネットワークを介して取得された文書がユーザによって直接入力されてもよい。また、例えば、少なくとも二以上の単語を含む「検査＆病院」のような検索式がユーザによって直接入力されてもよい。

形態素解析開始ボタン１６０４は、処理対象文書１６０３に表示された文書、又は、表示された文書のうちユーザによって選択された部分を形態素に分割する処理を開始するためのボタンである。なお、ユーザによって選択された部分は、例えば、ドット領域で示されてもよい。

形態素解析結果１６０５には、処理対象文書１６０３に表示された文書（例えば、図２の図２の処理対象文書１１４）を形態素に分割した結果（図６の形態素解析テーブル６００）が表示される。同義語展開開始ボタン１６０６は、形態素解析結果１６０５に表示された単語、又は、表示された単語のうちユーザによって選択された単語を同義語に展開する処理を開始するためのボタンである。なお、ユーザによって選択された単語のエントリは、例えば、ドット領域で示されてもよい。

同義語展開結果１６０７には、形態素解析結果１６０５に表示された単語、又はユーザによって選択された単語を同義語に展開した結果（図１５の同義語展開済み形態素解析テーブル１５００）が表示される
図１７は、本発明の実施の形態の同義語展開装置の各装置間の入出力の関係を示す説明図である。

なお、以下では、プログラムが処理を実行すると説明するが、実際は、ＣＰＵ１０１が主メモリ１０２に格納された同義語展開プログラム１１２に基づいて、各種処理を実行する。

まず、同義語展開装置の同義語展開プログラム１１２は、入出力装置１０３のディスプレイ１０４のユーザインターフェイス画面１６００の処理対象文書一覧１６０１に、例えば、テキストデータベース１１３に格納された文書のタイトルを表示する。そして、ユーザによって文書選択ボタン１６０２が操作されると、同義語展開プログラム１１２は、テキストデータベース１１３から選択された文書（例えば、図２に示した処理対象文書１１４）を取得し（Ｓ５１）、取得した処理対象文書１１４をユーザインターフェイス画面１６００の処理対象文書１６０３に表示する（Ｓ５２）。

次に、ユーザによって形態素解析開始ボタン１６０４が操作されると、同義語展開プログラム１１２は、処理対象文書１１４に対して形態素解析処理を実行し、例えば、図６に示した形態素解析テーブル６００を作成し（Ｓ５３）、作成された形態素解析テーブル６００をユーザインターフェイス画面１６００の形態素解析結果１６０５に表示する（Ｓ５４）。なお、ステップＳ５３は、図１２に示したステップＳ３０に対応する。

次に、ユーザによって同義語展開開始ボタン１６０６が操作されると、同義語展開プログラム１１２は、同義語展開処理を実行する。具体的には、同義語展開プログラム１１２は、まず、類似度計算用文脈データベース１１５を参照し、作成された形態素解析テーブル６００に含まれる単語の同義語候補を類似度に基づいて取得し、例えば、図１３に示した同義語候補テーブル１３００を作成する。また、作成された形態素解析テーブル６００に基づいて、例えば、図１１に示したウインドウ共起テーブル１１００を作成する（Ｓ５５）。なお、ステップＳ５５は、図１２に示したステップＳ３１からＳ３４に対応する。

次に、同義語展開プログラム１１２は、適合度計算用文脈データベース１１６を参照して、取得した同義語候補の文脈適合度及び同義語展開スコアを計算し、例えば、図１４に示した同義語展開テーブル１４００を作成する（Ｓ５６）。なお、ステップＳ５６は、図１２に示したステップＳ３５からＳ３９に対応する。

最後に、同義語展開プログラム１１２は、計算された同義語展開スコアに基づいて、同義語候補から同義語を決定し、例えば、図１５に示した同義語展開済み形態素解析テーブル１５００をユーザインターフェイス画面１６００の同義語展開結果１６０７に表示する（Ｓ５７）。なお、ステップＳ５７は、図１２に示したステップＳ４０に対応する。

以上説明したように、本実施の形態によれば、文書中の単語を出現文脈に沿って同義語展開するので、単語に基づいて実行される文書検索、文書分類などの言語処理の精度を向上させることができる。なお、本実施の形態では、文書中の単語を同義語展開したが、文書検索に適用する際には検索クエリの同義語展開に適用することも可能である。

また、検索クエリが２個以上の単語を含む場合、検索クエリをそれらの単語からなる文書であると考えれば、同様の処理を実行することができる。例えば、「検査＆病院」のような検索式が入力された場合、「検査」が「検診」「診断」に展開され、また、「検査＆設備」のような検索式が入力された場合、「検査」が「点検」「査察」に展開された後、検索を実行することも可能である。

１００同義語展開装置
１０１ＣＰＵ
１０２主メモリ
１０３入出力装置
１１０ディスク装置
１１１ＯＳ
１１２同義語展開プログラム
１１３テキストデータベース
１１４処理対象文書
１１５類似度計算用文脈データベース
１１６適合度計算用文脈データベース

Claims

単語の同義語を決定する同義語展開システムであって、
プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
前記プロセッサは、前記メモリに格納された同義語展開処理のためのプログラムを実行することによって、
ある単語の係り先となる単語を含む第１文脈情報が格納された第１データベースを参照して、第１単語の前記第１文脈情報と第２単語の前記第１文脈情報とを比較することによって、前記第１単語と前記第２単語との間の意味の近さを示す類似度を計算し、
前記計算された類似度が高い少なくとも一以上の前記第２単語を前記第１単語の同義語候補に決定し、
前記決定された少なくとも一以上の同義語候補とその類似度とを含む第１情報を出力し、
ある単語から文章中で所定の語数内に出現する単語を含む第２文脈情報が格納された第２データベースを参照して、前記第１単語の第２文脈情報と、前記出力された第１情報に含まれる少なくとも一以上の同義語候補の第２文脈情報と、を比較することによって、前記少なくとも一以上の同義語候補が出現する文脈とが一致する確率を示す文脈適合度を計算し、
前記少なくとも一以上の同義語候補の類似度と、前記計算された文脈適合度とに基づいて、前記同義語候補の同義語展開スコアを計算し、
前記少なくとも一以上の同義語候補とその同義語展開スコアとを含む第２情報を出力し、
前記出力された第２情報に含まれる少なくとも一以上の同義語候補のうち、前記計算された同義語展開スコアの高い同義語候補を前記第１単語の同義語に決定し、
前記決定された第１単語の同義語を含む第３情報を出力することを特徴とする同義語展開システム。
前記プロセッサは、
形態素解析に基づいて、入力された文書から単語を抽出し、
前記抽出された単語とその品詞とを含む第４情報を出力し、
係り受けの関係に基づいて、前記出力された第４情報に含まれる単語の係り先となる動詞及びその動詞の格要素である名詞を決定し、
前記決定された動詞及び名詞を前記単語の前記第１文脈情報に設定し、
前記設定された第１文脈情報を、前記第１データベースに格納することを特徴とする請求項１に記載の同義語展開システム。
前記プロセッサは、
形態素解析に基づいて、入力された文書から単語を抽出し、
前記抽出された単語とその品詞とを含む第４情報を出力し、
前記出力された第４情報に含まれる単語のうち、その品詞が名詞である単語を取得し、
前記取得した名詞である単語を含む第５情報を出力し、
前記出力された第５情報に含まれる単語から所定の語数内にある単語を、前記単語の前記第２文脈情報に設定し、
前記設定された第２文脈情報を、前記第２データベースに格納することを特徴とする請求項１に記載の同義語展開システム。
前記プロセッサは、
前記出力された第１情報に含まれる少なくとも一以上の同義語候補から一の同義語候補を選択し、
前記第２データベースから、前記選択された一の同義語候補に対応する第２文脈情報を取得することを特徴とする請求項１に記載の同義語展開システム。
前記プロセッサは、前記出力された第１情報に含まれる少なくとも一以上の同義語候補の類似度と前記計算された文脈適合度とを乗算することによって、前記同義語候補の同義語展開スコアを計算することを特徴とする請求項１に記載の同義語展開システム。
前記プロセッサは、前記出力された第１情報に含まれる少なくとも一以上の同義語候補の類似度の順位に基づいて付与されたスコアと、前記同義語候補の文脈適合度の順位に基づいて付与されたスコアと、に基づいて、前記同義語候補の同義語展開スコアを計算することを特徴とする請求項１に記載の同義語展開システム。
単語の同義語を決定する同義語展開システムにおいて実行される同義語展開方法であって、
前記同義語展開システムは、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
前記同義語展開方法は、前記プロセッサが、前記メモリに格納された同義語展開処理のためのプログラムを実行することによって、
ある単語の係り先となる単語を含む第１文脈情報が格納された第１データベースを参照して、第１単語の前記第１文脈情報と第２単語の前記第１文脈情報とを比較することによって、前記第１単語と前記第２単語との間の意味の近さを示す類似度を計算し、
前記計算された類似度が高い少なくとも一以上の前記第２単語を前記第１単語の同義語候補に決定し、
前記決定された少なくとも一以上の同義語候補とその類似度とを含む第１情報を出力し、
ある単語から文章中で所定の語数内に出現する単語を含む第２文脈情報が格納された第２データベースを参照して、前記第１単語の第２文脈情報と、前記出力された第１情報に含まれる少なくとも一以上の同義語候補の第２文脈情報と、を比較することによって、前記少なくとも一以上の同義語候補が出現する文脈とが一致する確率を示す文脈適合度を計算し、
前記少なくとも一以上の同義語候補の類似度と、前記計算された文脈適合度とに基づいて、前記同義語候補の同義語展開スコアを計算し、
前記少なくとも一以上の同義語候補とその同義語展開スコアとを含む第２情報を出力し、
前記出力された第２情報に含まれる少なくとも一以上の同義語候補のうち、前記計算された同義語展開スコアの高い同義語候補を前記第１単語の同義語に決定し、
前記決定された第１単語の同義語を含む第３情報を出力することを特徴とする同義語展開方法。
前記プロセッサが、
形態素解析に基づいて、入力された文書から単語を抽出し、
前記抽出された単語とその品詞とを含む第４情報を出力し、
係り受けの関係に基づいて、前記出力された第４情報に含まれる単語の係り先となる動詞及びその動詞の格要素である名詞を決定し、
前記決定された動詞及び名詞を前記単語の前記第１文脈情報に設定し、
前記設定された第１文脈情報を、前記第１データベースに格納することを特徴とする請求項７に記載の同義語展開方法。
前記プロセッサが、
形態素解析に基づいて、入力された文書から単語を抽出し、
前記抽出された単語とその品詞とを含む第４情報を出力し、
前記出力された第４情報に含まれる単語のうち、その品詞が名詞である単語を取得し、
前記取得した名詞である単語を含む第５情報を出力し、
前記出力された第５情報に含まれる単語から所定の語数内にある単語を、前記単語の前記第２文脈情報に設定し、
前記設定された第２文脈情報を、前記第２データベースに格納することを特徴とする請求項７に記載の同義語展開方法。
前記プロセッサが、
前記出力された第１情報に含まれる少なくとも一以上の同義語候補から一の同義語候補を選択し、
前記第２データベースから、前記選択された一の同義語候補に対応する第２文脈情報を取得することを特徴とする請求項７に記載の同義語展開方法。
前記プロセッサが、前記出力された第１情報に含まれる少なくとも一以上の同義語候補の類似度と前記計算された文脈適合度とを乗算することによって、前記同義語候補の同義語展開スコアを計算することを特徴とする請求項７に記載の同義語展開方法。
前記プロセッサが、前記プロセッサは、前記出力された第１情報に含まれる少なくとも一以上の同義語候補の類似度の順位に基づいて付与されたスコアと、前記同義語候補の文脈適合度の順位に基づいて付与されたスコアと、に基づいて、前記同義語候補の同義語展開スコアを計算することを特徴とする請求項７に記載の同義語展開方法。