JP2010152561A

JP2010152561A - 類似表現抽出装置、サーバ装置及びプログラム

Info

Publication number: JP2010152561A
Application number: JP2008328752A
Authority: JP
Inventors: Katei To; 嘉挺董; Kyoko Makino; 恭子牧野
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2008-12-24
Filing date: 2008-12-24
Publication date: 2010-07-08

Abstract

【課題】シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出する。
【解決手段】類似表現抽出装置３０は、入力された電子文書内の文を形態素解析、構文解析及び共起表現抽出し、単語属性値及び単語ベクトルを作成し、単語ベクトル間の単語類似度から単語グループを作成し、シソーラス情報の表現を学習データとして生成し、学習データ間の類似度に基づき学習データグループを作成し、統合された単語グループ毎に、学習データグループ内の学習データを含む度合を示す大域評価値を計算し、単語グループの単語類似度の分散を計算し、得られた分散を局所評価値とし、両評価値に基づいて単語グループの境界を調整し、単語グループ内の各単語を類似表現として抽出して出力する。
【選択図】図１

Description

本発明は、電子文書群から同義もしくは類義で用いられている類似表現を抽出する類似表現抽出装置、サーバ装置及びプログラムに係り、例えば、シソーラス（分類語彙表）に登録されていない表現が多い電子文書からでも、十分な精度を保証しつつ、類似表現を抽出し得る類似表現抽出装置、サーバ装置及びプログラムに関する。

従来、単語に代表される表現を分類する方法としては、大別して、既存のシソーラスに対して追加・修正・部分的抽出などを行なう第１の方法と、コーパスや検索履歴から類義語を抽出する第２の方法との２種類の方法がある。

第１の方法としては、例えば、既存のシソーラスに登録された概念と照合する処理によって類似表現を抽出する技術が知られている（例えば、特許文献１参照。）。

第２の方法としては、例えば、コーパスのみから統計処理により類似表現を抽出する技術が知られている（例えば、特許文献２参照。）。

また、２種類の方法を組み合せた第３の方法としては、例えば、コーパスから抽出した情報に、既存シソーラスの情報を付与して類義語を判定する技術が知られている（例えば、特許文献３参照。）。
特開２００５−３２６９５２号公報特許第３５９８２１１号公報特開２００７−７９７３０号公報

しかしながら、第１の方法は、既存のシソーラスに登録された概念がカバーする範囲では精度が高いものの、組織内で使用されている略記などの対象コーパスに特有の表現を類似表現として抽出することが困難である。

第２の方法では、略記などの対象コーパスに特有の表現も統計処理により抽出できるが、十分な精度が保証されない。

第３の方法では、予めシソーラスに登録された情報を制約条件として、文脈に関わる共起情報とともに単語毎に類似度を定義し、その類似度を用いてクラスタリングを行なうという制約付きクラスタリングを行なっている。この結果、第３の方法は、制約条件を満たした単語では良い分類結果が得られるが、制約条件を満たさない単語では分類しにくい不都合がある。

一般のビジネス文書及びコーパスは、シソーラスに登録されていない略語、特有表現が多い状況にある。この状況により、第３の方法は、略語や特有表現の多いコーパスから類似表現を抽出するには不適切となっている。

本発明は上記実情を考慮してなされたもので、シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出し得る類似表現抽出装置、サーバ装置及びプログラムを提供することを目的とする。

本発明の一つの局面は、データ記憶手段、単語グループ記憶手段及びシソーラス記憶手段を備え、電子文書から類似表現の各単語を抽出するための類似表現抽出装置であって、前記電子文書を入力するための文書入力手段と、前記文書入力手段により入力された電子文書内の文を形態素解析し、得られた形態素解析結果を前記データ記憶手段に書き込む形態素解析手段と、前記データ記憶手段内の形態素解析結果を構文解析し、構文解析結果として得られた文脈情報を前記データ記憶手段に書き込む構文解析手段と、前記データ記憶手段内の文脈情報から２文節の係り受けの組を含む共起表現を抽出し、この共起表現を前記データ記憶手段に書き込む共起表現抽出手段と、前記データ記憶手段内の共起表現のうち、所定の品詞の組合せの２文節からなる共起表現に基づいて、この共起表現における一方の単語毎に、他方の単語との共起頻度と、前記電子文書内の単語との共起頻度とからなる単語属性値を算出する単語属性値算出手段と、前記単語属性値を前記一方の単語に関連付けることにより、当該単語毎に単語ベクトルを作成し、この単語ベクトルを前記データ記憶手段に書き込む単語ベクトル作成手段と、前記データ記憶手段内の各単語ベクトル間の単語類似度を計算し、得られた単語類似度を、当該計算に用いた各単語ベクトルに関連付けて前記データ記憶手段に書き込む単語類似度計算手段と、前記データ記憶手段内の単語類似度に基づいて、教師なし学習手法により、前記単語類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、当該分類された各単語を含む単語グループを前記単語グループ記憶手段に書き込む単語グループ化手段と、前記シソーラス記憶手段内のシソーラス情報に含まれる表現のうち、前記入力された電子文書に含まれる表現を学習データとして生成する学習データ生成手段と、前記生成された学習データに基づいて当該学習データ間の類似度を計算し、この類似度により学習データを含む学習データグループを作成する学習データグループ作成手段と、前記学習データグループの個数に対し、前記単語グループ記憶手段内の単語グループの個数を一致させるように、当該単語グループを統合する単語グループ統合手段と、前記統合された単語グループ毎に、前記学習データグループ内の学習データを含む度合を示す大域評価値を計算し、この大域評価値を前記データ記憶手段に書き込む大域評価手段と、前記統合された単語グループ毎に、単語グループ内の各単語を示す各単語ベクトルに関連する単語類似度の分散を計算し、得られた分散を局所評価値として前記データ記憶手段に書き込む局所評価手段と、前記大域評価値及び前記局所評価値に基づいて、これら両評価値の和を上限値にするように、前記データ記憶手段内の単語グループの境界を調整する単語グループ調整手段と、前記調整された単語グループ内の各単語を前記類似表現として抽出し、当該抽出した類似表現の各単語を出力する類似表現出力手段と、を備えた類似表現抽出装置である。

なお、本発明の一つの局面は、装置として名称で表現したが、これに限らず、方法、プログラム、プログラムを記憶した記憶媒体といった他の名称で表現してもよい。

（作用）
本発明の一つの局面は、シソーラスの表現のグループに基づく大域評価値と、単語グループの各単語の単語類似度に基づく局所評価値とに基づいて、類似表現を示す単語グループを調整する構成により、シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出することができる。

以上説明したように本発明によれば、シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出できる。

以下、本発明の各実施形態について図面を用いて説明する。なお、以下の各装置は、装置毎に、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。

（第１の実施形態）
図１は本発明の第１の実施形態に係る類似表現抽出装置の全体構成を示す模式図である。この類似表現抽出装置３０は、データ記憶部１、単語グループ記憶部２、シソーラス記憶部３、文書入力部４、形態素解析部１１、構文解析部１２、共起表現抽出部１３、単語属性値算出部１４、単語類似度計算部１５、単語グループ化部１６、学習データ生成部２１、単語グループ評価部２２、単語グループ調整部２３及び類似表現出力部２４を備えている。なお、各部１１〜１６は単語グループ作成処理部１０を構成し、各部２１〜２４は評価調整処理部２０を構成する。

ここで、データ記憶部１は、各部１１〜１６，２１〜２４から読出／書込可能な記憶装置であり、処理前後のデータ等が適宜記憶される。

単語グループ記憶部２は、各部１１〜１６，２１〜２４から読出／書込可能な記憶装置であり、類似表現の各単語からなる単語グループが記憶される。

シソーラス記憶部３は、各部２１〜２４から読出／書込可能な記憶装置であり、予めシソーラス情報が記憶されている。

文書入力部４は、電子文書を入力するための入力インタフェースである。電子文書は、例えば、特有分野における表現を含むテキストデータから構成されている。

形態素解析部１１は、文書入力部４により入力された電子文書内の文を形態素解析し、得られた形態素解析結果をデータ記憶部１に書き込む機能をもっている。

構文解析部１２は、データ記憶部１内の形態素解析結果を構文解析し、構文解析結果として得られた文脈情報をデータ記憶部１に書き込む構文解析手段と、
共起表現抽出部１３は、データ記憶部１内の文脈情報から２文節の係り受けの組を含む共起表現を抽出し、この共起表現をデータ記憶部１に書き込む機能をもっている。

単語属性値算出部１４は、データ記憶部１内の共起表現のうち、所定の品詞の組合せの２文節からなる共起表現に基づいて、この共起表現における一方の単語毎に、他方の単語との共起頻度と、電子文書内の単語との共起頻度とからなる単語属性値を算出する機能をもっている。

単語類似度計算部１５は、この単語属性値を一方の単語に関連付けることにより、当該単語毎に単語ベクトルを作成し、この単語ベクトルをデータ記憶部１に書き込む機能と、データ記憶部１内の各単語ベクトル間の単語類似度を計算し、得られた単語類似度を、当該計算に用いた各単語ベクトルに関連付けてデータ記憶部１に書き込む機能とをもっている。

単語グループ化部１６は、データ記憶部１内の単語類似度に基づいて、教師なし学習手法により、単語類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、当該分類された各単語を含む単語グループを単語グループ記憶部２に書き込む機能をもっている。

学習データ生成部２１は、シソーラス記憶部３内のシソーラス情報に含まれる表現のうち、入力された電子文書に含まれる表現を学習データとして生成する機能をもっている。

単語グループ評価部２２は、生成された学習データに基づいて当該学習データ間の類似度を計算し、この類似度により学習データを含む学習データグループを作成する機能と、学習データグループの個数に対し、単語グループ記憶部２内の単語グループの個数を一致させるように、当該単語グループを統合する機能と、統合した単語グループ毎に、学習データグループ内の学習データを含む度合を示す大域評価値を計算し、この大域評価値をデータ記憶部１に書き込む機能と、統合した単語グループ毎に、単語グループ内の各単語を示す各単語ベクトルに関連する単語類似度の分散を計算し、得られた分散を局所評価値としてデータ記憶部１に書き込む機能とをもっている。

単語グループ調整部２３は、データ記憶部１内の大域評価値及び局所評価値に基づいて、これら両評価値の和を上限値にするように、データ記憶部１内の単語グループの境界を調整する機能をもっている。

類似表現出力部２４は、調整された単語グループ内の各単語を類似表現として抽出し、当該抽出した類似表現の各単語を表示部（図示せず）等に出力する機能をもっている。

次に、以上のように構成された類似表現抽出装置の動作を説明する。なお、以下の説明は、大きく分けて単語グループ作成処理及び評価調整処理の順に述べる。
（単語グループ作成処理）
文書入力部４は、図２に示すように、ユーザによる入力装置（図示せず）の操作により、特有分野における表現を含む電子文書を形態素解析部１１に入力する（ＳＴ１）。

形態素解析部１１は、入力された電子文書を形態素解析する（ＳＴ２）。なお、形態素解析部１１は、入力された電子文書のうち、分析対象となる部分を形態素解析してもよい。いずれにしても、形態素解析部１１は、電子文書内の文を形態素解析する。

例えば、「左眼窩内には明らかな異常所見は指摘できません。」という文を形態素解析すると、次に示すように、文節の区切り又は文節内の単語の区切りにて、単語及び品詞を区切った形式の形態素解析結果が得られる。
／左［名詞］／眼窩［名詞］／内［名詞］−に［格助詞］−は［格助詞］／明らか［形容動詞語幹］−な［助動詞］／異常［形容動詞語幹］／所見［名詞］−は［係助詞］／指摘［サ変名詞］／でき［動詞］−ませ［助動詞］−ん［動詞］／。［句点］
ここで、「／」は文節の区切りを示し、「−」は文節内の単語の区切りを示す。また、［］内の品詞は直前の単語の品詞を示す。

形態素解析部１１は、このような形態素解析結果をデータ記憶部１に書き込む。

構文解析部１２は、データ記憶部１内の形態素解析結果を構文解析し（ＳＴ３）、構文解析結果として得られた文脈情報をデータ記憶部１に書き込む。

共起表現抽出部１３は、データ記憶部１内の文脈情報から２文節の係り受けの組を含む共起表現を抽出し（ＳＴ４）、この共起表現をデータ記憶部１に書き込む。共起表現は、例えば、次に示す如き、係り受けの組である２つの単語にそれぞれ単語の品詞を付与し、且つ２つの単語［品詞］を区切り「−」を介して関連付けた形式の情報である。

内［名詞］−指摘［サ変名詞］、
眼窩［名詞］−内［名詞］、
左［名詞］−眼窩［名詞］、
所見［名詞］−指摘［サ変名詞］、
異常［形容動詞語幹］−所見［名詞］、
明らか［形容動詞語幹］−所見［名詞］、
内［名詞］−明らか［形容動詞語幹］。

このような共起表現のうち、所定の品詞の組合せの２文節からなる共起表現のみが用いられる。例えば、名詞もしくは未知語と動詞の２文節からなる共起表現のみが用いられる場合、動詞と形容詞の２文節からなる共起表現のみが用いられる場合、又は名詞と形容詞の２文節からなる共起表現のみが用いられる場合、などがある。

以下、名詞もしくは未知語と動詞の２文節からなる共起表現のみが用いられる場合を例に挙げて述べる。この例では、名詞「所見」が動詞（サ変名詞）「指摘」と共起しているので、この“所見［名詞］−指摘［サ変名詞］”の共起表現が用いられる。同様に、“内［名詞］−指摘［サ変名詞］”の共起表現が用いられる。

すなわち、単語属性値算出部１４は、データ記憶部１内の共起表現のうち、同様の名詞もしくは未知語と動詞の係り受けの組を抽出し、抽出した一方の単語（名詞もしくは未知語）毎に、抽出した他方の単語（各動詞）との共起頻度と、入力された電子文書内の単語との共起頻度とからなる単語属性値を算出する（ＳＴ５）。

補足すると、入力された電子文書を全文検索し、図３に示すように、名詞「所見」が動詞（サ変名詞）「指摘」と共起を発生する頻度が１１である場合、単語属性値算出部１４は、名詞「所見」に対する動詞「指摘」の共起頻度１１を算出する。単語属性値算出部１４は、名詞「所見」に対する他の動詞「解析」「見える」「変化」との共起頻度（０，１，５，…）も算出する。最終的に、単語属性値算出部１４は、名詞「所見」に対する動詞との共起頻度（１１，０，１，５，…）を単語属性値とする。

次に、単語類似度計算部１５は、この単語属性値を単語に付与することにより、図４に示すように、単語毎に単語ベクトルを作成し、この単語ベクトルをデータ記憶部１に書き込む。

単語類似度計算部１５は、データ記憶部１内の各単語ベクトル間の単語類似度を計算する（ＳＴ６）。この例では、単語類似度としてコサイン類似度を用いる。具体的には例えば、電子文書内の全ての名詞・未知語において共起する動詞の数を次元数として単語ベクトルを作成し、各単語ベクトル間のコサイン類似度を算出する。例えば、図４に示した２つの単語ベクトル「所見」，「内」の間のコサイン類似度は、「所見＝［１１，０，１，…，５］」と「内＝［３，０，３，…，０］」とのベクトルの内積＝０．３５として算出される。なお、コサイン類似度は余弦類似度と呼んでもよい。また、単語類似度計算部１５は、算出したコサイン類似度を、当該算出に用いた各単語ベクトルに関連付けてデータ記憶部１に書き込む。

単語グループ化部１６は、データ記憶部１内のコサイン類似度と、予め０を超えて１以下の範囲内に設定したしきい値とを比較する。比較の結果、このコサイン類似度がしきい値以上であれば、単語グループ化部１６は、当該コサイン類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、分類された各単語を含む各単語グループを単語グループ記憶部２に書き込む（ＳＴ７）。

単語グループへの分類手法としては、例えば、教師なし学習手法である非階層クラスタリング手段であるリーダ・フォロワ（leader-follower）手法が使用可能となっている。リーダ・フォロワ手法では、単語グループの個数をあらかじめ設定する必要がなく、しきい値に基づいて対象単語を順次分類することにより、図５に示すように、自動的に単語グループが形成される。図５中、長方形枠で囲まれた単語は、後述する学習データ（シソーラスにもある表現）である。但し、単語グループへの分類手法は、リーダ・フォロワ手法に限らず、任意のクラスタリング手段が使用可能となっている。

（評価調整処理）
学習データ生成部２１は、シソーラス記憶部３内のシソーラス情報に含まれる表現のうち、入力された電子文書に含まれる表現を学習データとして生成する。この例では、図６に示すように、医療分野のシソーラスを用いている（出展：「医学用語シソーラス第５版」医学中央雑誌刊行会）。なお、図６においては、説明の便宜上、シソーラスの周辺に、シソーラス内の単語の深さ及び類似度の計算例を描写している。

次に、単語グループ評価部２２は、図７に示すように、生成された学習データに基づき、大域評価を実行する。大域評価においては、学習データ間の類似度を計算して当該学習データを類似度によりグループ化し、学習データのグループ数に一致するように単語グループ数を調整した後、学習データのグループ毎に、同一の単語グループに含まれる度合を示す大域評価値αを求める。以下、順に説明する。

学習データである２つの単語ｓ_i，ｓ_j間の類似度ｓｉｍ（ｓ_i，ｓ_j）をシソーラスの木構造に基づいて計算する場合を述べる。シソーラス内の一方の単語ｓ_iに対する節点の深さｄ_i、他方の単語ｓ_jに対する節点の深さｄ_j、２節点に対する共通親の深さの最大値ｄ_maxとすると、類似度は式（１）及び図５に示すように計算される。

続いて、単語グループ評価部２２は、予め０〜１の範囲内に設定したしきい値ｋと、計算した類似度とを比較する。単語グループ評価部２２は、この比較の結果、図８に示すように、類似度がしきい値ｋ以上の学習データを類似表現としてグループ化し（ＳＴ１１）、学習データのグループ（以下、学習データグループという）を作成する。図８に示す例では、２つの学習データグループを作成している。

単語グループ評価部２２は、各学習データグループと各単語グループとを統合する（ＳＴ１２）。なお、学習データグループの数が単語グループ数に一致しない場合があるので、統合は学習データグループを基準として行う。統合の手順(i)〜(iv)は以下の通りである。

(i)全ての単語間の空間距離をコサイン類似度で計算する。

(ii)各学習データグループの重心ベクトル（三次元ベクトル平均法）を算出する。

(iii)全ての単語と学習データグループの各重心ベクトルの類似度を計算する。

(iv)これらの手順(i),(iii)により得られた類似度に基づいて、学習データグループを基準として統合を行う。

例えば、学習データグループ数をＡとし、単語グループ数をＡ±Ｂとすると、単語グループ数をＡ±ＢからＡにするように単語グループを統合する。このとき、多数の学習データが含まれる単語グループに各単語グループを統合する。具体的には、単語グループ評価部２２は、学習データグループの周辺の単語・文脈情報とコサイン類似度とに基づき、単語グループを統合する。

次に、単語グループ評価部２２は、統合後の単語グループ毎に、学習データグループの単語を含む度合を示す大域評価値αを次式により計算し（ＳＴ１３）、得られた大域評価値αをデータ記憶部１に書き込む。

大域評価値α＝単語グループが含む学習データグループの単語の個数／当該学習データグループの全ての単語の個数
例えば、ある単語グループが学習データグループの全単語を含む場合、大域評価値αの値は１となる。また、その単語グループが学習データグループの単語を一つも含まない場合、大域評価値αの値は０となる。上式より、大域評価値αは０以上１以下の範囲内で得られる（０≦α≦１）。

続いて、単語グループ評価部２２は、各単語グループの局所評価を行う（ＳＴ１４）。局所評価には、ブートストラップ手法を用いる。具体的には、単語グループ評価部２２は、単語グループ内の各単語を示す各単語ベクトルに関連するコサイン類似度を標本データとし、ブートストラップ手法により標本データ（コサイン類似度）の分散を計算する。ブートストラップは公知技術であるため、ここでは簡単に説明する。

ブートストラップ法では、一つの標本から復元抽出を繰り返して大量の標本（ブートストラップ標本）を生成し、ブートストラップ標本からブートストラップ推定量の値を計算し、母集団（各単語グループ）の推定量の性質（分散推定量）を推定する。

なお、ブートストラップ標本の生成には“確率分布型を仮定する法−parametric”を用いる。母集団におけるデータとは、各単語の類似度指標（コサイン類似度）である。推定手順を以下に示している。

単語グループ評価部２２は、ステップＳＴ１４の結果、得られたブートストラップ分散推定量を、０〜１の範囲内の局所評価値βとしてデータ記憶部１に設定する。

次に、単語グループ調整部２３は、データ記憶部１内の大域評価値α及び局所評価値βに基づいて、単語グループ記憶部２内の単語グループの境界を調整する（ＳＴ１５）。調整の有無の判定基準及び調整方法を以下の場合（ａ）〜（ｃ）に分けて示す。

（ａ）両評価値の和が上限値（α＋β＝２）であるか否かを判定し、上限値であれば、単語グループを調整しない。

（ｂ）大域評価値αの値が０．８以上で１未満（０．８≦α＜１）の範囲内にあり、且つ局所評価値βの値が０．８より大（０．８＜β）であるか否かを判定し、０．８≦α＜１であり且つ０．８＜βである場合には、評価対象の単語グループに含まれない学習データを個別に調整する。

（ｃ）大域評価値αの値が０．８未満（α＜０．８）であるか否かを判定し、α＜０．８であれば、評価されている単語グループを再評価の候補とする。

ここで、単語グループ調整部２３は、２つの場合（ｂ），（ｃ）においては、図９の例に示すように、単語グループの境界を調整した後、単語グループ評価部２２により、単語グループを再評価する（ＳＴ１６）。再評価の結果、単語グループ調整部２３は、前述同様に各評価値α，β及び３つの場合（ａ）〜（ｃ）の判定基準に基づいて、単語グループを更に調整するか否かを判定し（ＳＴ１７）、調整する単語グループが存在しなければ、調整と評価を終了する。

しかる後、類似表現出力部２４は、単語グループ記憶部２内の各単語グループに含まれる単語を類似表現として出力し、これら類似表現をユーザに提示する。

上述したように本実施形態によれば、シソーラスの表現のグループに基づく大域評価値αと、単語グループの各単語のコサイン類似度に基づく局所評価値βとに基づいて、類似表現を示す単語グループを調整する構成により、シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出することができる。

また、本実施形態では、シソーラスに登録されていない類似表現を、入力された電子文書又はコーパスの電子文書から抽出できるため、文書分類においてキーワードによる分類の精度を向上させることができる。

また、テキストマイニングや業務文書チェックに用いる辞書作成においてコストを削減させることができる。

さらに、文書検索において、ユーザが直接指定したキーワードを含まない関連文書の検索再現率を向上させることができる。

（第２の実施形態）
図１０は本発明の第２の実施形態に係る類似表現抽出装置を含む類似表現抽出システムの構成を示す模式図であり、図１と同一部分には同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。

第２の実施形態は、第１の実施形態の類似表現抽出装置３０を有して単語グループの更新、シソーラスの登録及びコーパスの登録を行うサーバ装置４０と、このサーバ装置４０に通信可能なクライアント端末５０とを備えている。

ここで、サーバ装置４０は、類似表現抽出装置３０、コーパス記憶部４１、応答部４２、単語グループ更新判定部４３、シソーラス登録部４４及びコーパス登録部４５を備えている。

コーパス記憶部４１は、各部４，１０，２０，４２〜４５から読出／書込可能な記憶装置であり、文書種類及び文書名を含む電子文書がコーパスとして記憶されている。

応答部４２は、検索対象の単語をクライアント端末５０から受けると、この検索対象の単語に基づいて単語グループ記憶部２を検索し、当該検索対象の単語を含む単語グループ内の各単語をクライアント端末５０に送信する機能と、当該送信した各単語を含む電子文書の送信要求をクライアント端末５０から受けると、当該電子文書をクライアント端末５０に送信する機能と、をもっている。

単語グループ更新判定部４３は、送信した電子文書の排除又は追加を示す更新情報をクライアント端末５０から受けると、当該電子文書内に独自の単語があるか否かを判定する機能と、この判定の結果、独自の単語がある場合には、更新情報に基づいて、単語グループ記憶部２内の単語グループに対し、当該独自の単語を排除又は追加する機能と、独自の単語を排除又は追加した後、単語グループ評価部２２及び単語グループ調整部２３を再実行するように制御する機能と、単語グループ記憶部２内の単語グループ毎に、単語を排除又は追加した最終更新日付を単語グループ記憶部２に書き込む機能とをもっている。

シソーラス登録部４４は、送信した各単語と、当該各単語を送信した送信回数とを互いに関連付けてデータ記憶部１に書き込む機能と、送信回数を書き込んだ後、当該送信回数が所定回数を超えたか否かを判定する機能と、この判定の結果、当該所定回数を超えたとき、最終更新日付と現在日付との差分を示す経過日数が所定日数を超えたか否かを判定する機能と、この判定の結果、当該所定日数を超えたとき、送信した各単語をシソーラス記憶部３に登録する機能とをもっている。

コーパス登録部４５は、送信した電子文書の追加を示す更新情報をクライアント端末５０から受けると、当該電子文書の文書種類がコーパス記憶部４１内のいずれかの電子文書の文書種類と同一であるか否かを判定する機能と、この判定の結果、文書種類が同一である場合には、送信した電子文書の文書名がコーパス記憶部４１内の全ての電子文書の文書名と異なるか否かを判定する機能と、この判定の結果、文書名が異なる場合には、送信した電子文書をコーパス記憶部４１に登録する機能とをもっている。

クライアント端末５０は、結果記憶部５１、編集部５２、検索部５３、分類部５４、検査部５５、機械翻訳部５６及び結果送信部５７を備えている。

ここで、結果記憶部５１は、各部５２〜５７から読出／書込可能な記憶装置であり、各部５２〜５６の処理結果としての電子文書と、結果送信部５７から入力された更新情報（ユーザ確認結果）とを互いに関連付けて記憶している。更新情報は、排除又は追加を示しており、空欄の場合にはそのまま維持することを示している。

編集部５２は、ユーザの操作により、編集処理を実行するものであり、例えば、ユーザの操作により、結果記憶部５１内の電子文書を編集処理し、編集処理結果としての電子文書を結果記憶部５１に書き込む機能とをもっている。

検索部５３は、ユーザの操作により、情報検索処理を実行するものであり、例えば、検索対象の単語をサーバ装置４０に送信する機能と、クライアント端末５０から各単語を受けると、ユーザの操作により、当該各単語を含む電子文書の送信要求をサーバ装置４０に送信する機能と、クライアント端末５０から電子文書を受けると、当該電子文書を処理結果として結果記憶部５１に書き込む機能とをもっている。

分類部５４は、ユーザの操作により、分類処理を実行するものであり、例えば、ユーザの操作により、結果記憶部５１内の電子文書を分類処理し、分類処理結果としての電子文書を結果記憶部５１に書き込む機能とをもっている。

検査部５５は、ユーザの操作により、検査処理を実行するものであり、例えば、ユーザの操作により、結果記憶部５１内の電子文書を検査処理し、検査処理結果としての電子文書を結果記憶部５１に書き込む機能とをもっている。

機械翻訳部５６は、ユーザの操作により、機械翻訳処理を実行するものであり、例えば、ユーザの操作により、結果記憶部５１内の電子文書を機械翻訳処理し、機械翻訳処理結果としての電子文書を結果記憶部５１に書き込む機能とをもっている。

結果送信部５７は、ユーザの操作により、結果記憶部５１内の電子文書に関連付けて、当該電子文書の排除又は追加を示す更新情報を結果記憶部５１に書き込む。なお、ユーザが電子文書の更新を望まない場合、更新情報の書込操作がされず、更新情報は書き込まれない。

また、各部５２〜５６は、類似表現を利用するアプリケーションプログラムをＣＰＵ（図示せず）が実行することにより実現される。また、ここでは、類似表現を利用する形態として、情報検索を例に挙げて述べる。なお、情報検索及び各部５２〜５６に対応するアプリケーションプログラムは、公知技術を適用してもよい。

次に、以上のように構成された類似表現抽出システムの動作を説明する。なお、以下の説明は、大きく分けて単語グループ更新処理、シソーラス登録処理及びコーパス登録処理の順に述べる。なお、ここでは、単語グループ更新処理、シソーラス登録処理及びコーパス登録処理という３種類の処理を全て実行する場合を述べるが、これに限らず、当該３種類の処理のうち、任意の１種類又は２種類の処理を実行するようにも変形可能である。

（単語グループ更新処理）
クライアント端末５０においては、ユーザの操作により、例えば検索部５３が情報検索処理を実行する。例えば、検索部５３は、検索対象の単語をサーバ装置４０に送信する。

サーバ装置４０においては、応答部４２が、この検索対象の単語に基づいて単語グループ記憶部２を検索し、当該検索対象の単語を含む単語グループ内の各単語をクライアント端末５０に送信する。

クライアント端末５０においては、各単語を受けると、ユーザの操作により、例えば検索部５３が、当該各単語を含む電子文書の送信要求をサーバ装置４０に送信する。

サーバ装置４０においては、応答部４２が、この電子文書の送信要求を受けると、当該電子文書をデータ記憶部１又はコーパス記憶部４１から読み出してクライアント端末５０に送信する。

クライアント端末５０においては、電子文書を受けると、ユーザの操作により、例えば結果送信部５７が、図１１に示すように、電子文書と、当該電子文書の排除又は追加を示す更新情報とを互いに関連付けて結果記憶部５１に書き込む。なお、ユーザが電子文書の更新を望まない場合、更新情報の書込操作がされず、更新情報は書き込まれない（図１１の右下の空欄）。但し、ここでは、更新情報を書き込んだとする。

しかる後、クライアント端末５０においては、ユーザの操作により、結果送信部５７が、結果記憶部５１内の電子文書及び更新情報をサーバ装置４０に送信する。

サーバ装置４０においては、電子文書及び更新情報を受けると、単語グループ更新判定部４３が、図１２に示すように、検索結果の中にユーザに排除もしくは追加された文書があるか否かを判定する（ＳＴ２１）。換言すると、単語グループ更新判定部４３は、排除又は追加を示す更新情報に関連付けられた電子文書があるか否かを判定する。

ユーザにより排除もしくは追加された電子文書がある場合、単語グループ更新判定部４３は、その電子文書中に独自のキーワード（独自の単語）があるか否かを判定する（ＳＴ２２）。

独自のキーワードがある場合、単語グループ更新判定部４３は、電子文書が排除された場合にはそのキーワードを単語グループから排除し、電子文書が追加された場合にはそのキーワードを該当単語グループに追加する（ＳＴ２３）。

キーワードの排除もしくは追加後、単語グループ更新判定部４３は、単語グループ評価部２２及び単語グループ調整部２３を再実行するように制御する。これにより、サーバ装置４０においては、第１の実施形態と同様に、単語グループ評価部２２及び単語グループ調整部２３により、単語グループ評価と単語グループ調整を行い、単語グループを再調整する（ＳＴ２４）。

（シソーラス登録処理）
サーバ装置４０では、例えば、前述した単語グループ更新判定部４３が、キーワードを排除又は追加した単語グループ毎に、最終更新日付を単語グループ記憶部２に書き込んでいるとする。

また、サーバ装置４０では、検索対象の単語をクライアント端末５０から受けると、応答部４２が、この検索対象の単語に基づいて単語グループ記憶部２を検索し、当該検索対象の単語を含む単語グループ内の各単語をクライアント端末５０に送信する。

このとき、サーバ装置４０においては、シソーラス登録部４４が、送信した各単語と、当該各単語を送信した送信回数とを互いに関連付けてデータ記憶部１に書き込む。

シソーラス登録部４４は、図１３に示すように、送信回数を書き込んだ後、当該送信回数が所定回数を越えたか否かを判定する（ＳＴ３１）。

シソーラス登録部４４は、この判定の結果、当該所定回数を超えたとき、単語グループ記憶手段内の単語グループの最終更新日付と現在日付との差分を示す経過日数が所定日数を超えたか否かを判定する（ＳＴ３２）。

シソーラス登録部４４は、この判定の結果、当該所定日数を超えたとき、送信した各単語が類似表現として有効であると判定し、当該送信した各単語をシソーラス記憶部３のシソーラス情報に同階層の概念として追加登録する（ＳＴ３３）。

（コーパス登録処理）
サーバ装置４０では、検索対象の単語をクライアント端末５０から受けると、応答部４２が、この検索対象の単語に基づいて単語グループ記憶部２を検索し、当該検索対象の単語を含む単語グループ内の各単語をクライアント端末５０に送信する。

サーバ装置４０においては、応答部４２が、この電子文書の送信要求を受けると、当該電子文書をデータ記憶部１から読み出してクライアント端末５０に送信する。

クライアント端末５０においては、電子文書を受けると、ユーザの操作により、例えば結果送信部５７が、電子文書と、当該電子文書の追加を示す更新情報とを互いに関連付けて結果記憶部５１に書き込む。

しかる後、クライアント端末５０においては、ユーザの操作により、結果送信部５７が、結果記憶部５１内の電子文書及びこの電子文書の追加を示す更新情報をサーバ装置４０に送信する。

サーバ装置４０においては、コーパス登録部４５が、送信した電子文書の追加を示す更新情報をクライアント端末５０から受けると、当該電子文書の文書種類がコーパス記憶部４１内のいずれかの電子文書の文書種類と同一であるか否かを判定する（ＳＴ４１）。ここで、文書種類は、例えば、特許公開公報、社内報告書、ソフトウェア要求仕様書など、文書が記載された目的を示す情報である。

コーパス登録部４５は、この判定の結果、文書種類が同一である場合には、送信した電子文書の文書名がコーパス記憶部４１内の全ての電子文書の文書名と異なるか否か（新規文書であるか否か）を判定する（ＳＴ４２）。

コーパス登録部４５は、この判定の結果、文書名が異なる場合には、送信した電子文書をコーパス記憶部４１に登録（追加登録）する（ＳＴ４３）。

上述したように本実施形態によれば、第１の実施形態の効果に加え、単語グループ更新処理により、類似表現を利用したアプリケーションの処理結果も判定材料として、単語グループ記憶部２内の類似表現の精度を向上させることができる。

また、シソーラス登録処理により、類似表現を利用したアプリケーションによる利用状況を判定材料として、シソーラス記憶部３内のシソーラスを充実させることができる。

さらに、コーパス登録処理により、類似表現抽出の対象であるコーパス記憶部４１内のコーパスを充実させ、類似表現抽出精度を向上させることができる。

なお、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が上記実施形態を実現するための各処理の一部を実行しても良い。

さらに、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

また、記憶媒体は１つに限らず、複数の媒体から上記実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。

尚、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。

また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。

本発明の第１の実施形態に係る類似表現抽出装置の全体構成を示す模式図である。同実施形態における単語グループ作成処理の動作を説明するためのフローチャートである。同実施形態における単語属性値を説明するための模式図である。同実施形態における単語ベクトルの一例を示す模式図である。同実施形態における単語グループの形成例を示す模式図である。同実施形態におけるシソーラス及びその単語の深さ並びに類似度計算例を示す模式図である。同実施形態における評価調整処理の動作を説明するためのフローチャートである。同実施形態における学習データグループを示す模式図である。同実施形態における単語グループの調整例を示す模式図である。本発明の第２の実施形態に係る類似表現抽出システムの構成例を示す模式図である。同実施形態における結果記憶部を説明するための模式図である。同実施形態における単語グループ更新処理の動作を説明するためのフローチャートである。同実施形態におけるシソーラス登録処理の動作を説明するためのフローチャートである。同実施形態におけるコーパス登録処理の動作を説明するためのフローチャートである。

符号の説明

１…データ記憶部、２…単語グループ記憶部、３…シソーラス記憶部、４…文書入力部、１０…単語グループ作成処理部、１１…形態素解析部、１２…構文解析部、１３…共起表現抽出部、１４…単語属性値算出部、１５…単語類似度計算部、１６…単語グループ化部、２０…評価調整処理部、２１…学習データ生成部、２２…単語グループ評価部、２３…単語グループ調整部、２４…類似表現出力部、３０…類似表現抽出装置、４０…サーバ装置、４１…コーパス記憶部、４２…応答部、４３…単語グループ更新判定部、４４…シソーラス登録部、４５…コーパス登録部、５０…クライアント端末、５１…結果記憶部、５２…編集部、５３…検索部、５４…分類部、５５…検査部、５６…機械翻訳部、５７…結果送信部。

Claims

データ記憶手段、単語グループ記憶手段及びシソーラス記憶手段を備え、電子文書から類似表現の各単語を抽出するための類似表現抽出装置であって、
前記電子文書を入力するための文書入力手段と、
前記文書入力手段により入力された電子文書内の文を形態素解析し、得られた形態素解析結果を前記データ記憶手段に書き込む形態素解析手段と、
前記データ記憶手段内の形態素解析結果を構文解析し、構文解析結果として得られた文脈情報を前記データ記憶手段に書き込む構文解析手段と、
前記データ記憶手段内の文脈情報から２文節の係り受けの組を含む共起表現を抽出し、この共起表現を前記データ記憶手段に書き込む共起表現抽出手段と、
前記データ記憶手段内の共起表現のうち、所定の品詞の組合せの２文節からなる共起表現に基づいて、この共起表現における一方の単語毎に、他方の単語との共起頻度と、前記電子文書内の単語との共起頻度とからなる単語属性値を算出する単語属性値算出手段と、
前記単語属性値を前記一方の単語に関連付けることにより、当該単語毎に単語ベクトルを作成し、この単語ベクトルを前記データ記憶手段に書き込む単語ベクトル作成手段と、
前記データ記憶手段内の各単語ベクトル間の単語類似度を計算し、得られた単語類似度を、当該計算に用いた各単語ベクトルに関連付けて前記データ記憶手段に書き込む単語類似度計算手段と、
前記データ記憶手段内の単語類似度に基づいて、教師なし学習手法により、前記単語類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、当該分類された各単語を含む単語グループを前記単語グループ記憶手段に書き込む単語グループ化手段と、
前記シソーラス記憶手段内のシソーラス情報に含まれる表現のうち、前記入力された電子文書に含まれる表現を学習データとして生成する学習データ生成手段と、
前記生成された学習データに基づいて当該学習データ間の類似度を計算し、この類似度により学習データを含む学習データグループを作成する学習データグループ作成手段と、
前記学習データグループの個数に対し、前記単語グループ記憶手段内の単語グループの個数を一致させるように、当該単語グループを統合する単語グループ統合手段と、
前記統合された単語グループ毎に、前記学習データグループ内の学習データを含む度合を示す大域評価値を計算し、この大域評価値を前記データ記憶手段に書き込む大域評価手段と、
前記統合された単語グループ毎に、単語グループ内の各単語を示す各単語ベクトルに関連する単語類似度の分散を計算し、得られた分散を局所評価値として前記データ記憶手段に書き込む局所評価手段と、
前記大域評価値及び前記局所評価値に基づいて、これら両評価値の和を上限値にするように、前記データ記憶手段内の単語グループの境界を調整する単語グループ調整手段と、
前記調整された単語グループ内の各単語を前記類似表現として抽出し、当該抽出した類似表現の各単語を出力する類似表現出力手段と、
を備えたことを特徴とする類似表現抽出装置。
請求項１に記載の類似表現抽出装置において、
前記所定の品詞の組合せは、名詞又は未知語と、動詞との組合せであることを特徴とする類似表現抽出装置。
請求項１又は請求項２に記載の類似表現抽出装置において、
前記単語類似度は、前記各単語ベクトル間の内積として算出されるコサイン類似度であることを特徴とする類似表現抽出装置。
請求項１乃至請求項３のいずれか１項に記載の類似表現抽出装置において、
前記教師なし学習手法は、リーダ・フォロワ手法であることを特徴とする類似表現抽出装置。
請求項１乃至請求項４のいずれかに記載の類似表現抽出装置を備えたサーバ装置において、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段と、
前記クライアント端末から当該送信した各単語を含む電子文書の送信要求を受けると、当該電子文書を前記クライアント端末に送信する手段と、
前記送信した電子文書の排除又は追加を示す更新情報を前記クライアント端末から受けると、当該電子文書内に独自の単語があるか否かを判定する手段と、
この判定の結果、独自の単語がある場合には、前記更新情報に基づいて、単語グループ記憶手段内の単語グループに対し、当該独自の単語を排除又は追加する手段と、
前記独自の単語を排除又は追加した後、前記大域評価手段、前記局所評価手段及び前記単語グループ調整手段を再実行するように制御する手段と、
を備えたことを特徴するサーバ装置。
請求項１乃至請求項５のいずれかに記載の類似表現抽出装置を備えたサーバ装置において、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段と、
前記送信した各単語と、当該各単語を送信した送信回数とを互いに関連付けて前記データ記憶手段に書き込む手段と、
前記単語グループ毎に、最終更新日付を前記単語グループ記憶手段に書き込む手段と、
前記送信回数を書き込んだ後、当該送信回数が所定回数を超えたか否かを判定する手段と、
この判定の結果、当該所定回数を超えたとき、前記最終更新日付と現在日付との差分を示す経過日数が所定日数を超えたか否かを判定する手段と、
この判定の結果、当該所定日数を超えたとき、前記送信した各単語を前記シソーラス記憶手段に登録するシソーラス登録手段と、
を備えたことを特徴とするサーバ装置。
請求項１乃至請求項６のいずれかに記載の類似表現抽出装置を備えたサーバ装置において、
文書種類及び文書名を含む電子文書をコーパスとして記憶するためのコーパス記憶手段と、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段と、
前記クライアント端末から当該送信した各単語を含む電子文書の送信要求を受けると、当該電子文書を前記クライアント端末に送信する手段と、
前記送信した電子文書の追加を示す更新情報を前記クライアント端末から受けると、当該電子文書の文書種類が前記コーパス記憶手段内のいずれかの電子文書の文書種類と同一であるか否かを判定する手段と、
この判定の結果、文書種類が同一である場合には、前記送信した電子文書の文書名が前記コーパス記憶手段内の全ての電子文書の文書名と異なるか否かを判定する手段と、
この判定の結果、文書名が異なる場合には、前記送信した電子文書を前記コーパス記憶手段に登録するコーパス登録手段と、
を備えたことを特徴とするサーバ装置。
データ記憶手段、単語グループ記憶手段及びシソーラス記憶手段を備え、電子文書から類似表現の各単語を抽出するための類似表現抽出装置のプログラムであって、
前記類似表現抽出装置を、
前記電子文書を入力するための文書入力手段、
前記文書入力手段により入力された電子文書内の文を形態素解析し、得られた形態素解析結果を前記データ記憶手段に書き込む形態素解析手段、
前記データ記憶手段内の形態素解析結果を構文解析し、構文解析結果として得られた文脈情報を前記データ記憶手段に書き込む構文解析手段、
前記データ記憶手段内の文脈情報から２文節の係り受けの組を含む共起表現を抽出し、この共起表現を前記データ記憶手段に書き込む共起表現抽出手段、
前記データ記憶手段内の共起表現のうち、所定の品詞の組合せの２文節からなる共起表現に基づいて、この共起表現における一方の単語毎に、他方の単語との共起頻度と、前記電子文書内の単語との共起頻度とからなる単語属性値を算出する単語属性値算出手段、
前記単語属性値を前記一方の単語に関連付けることにより、当該単語毎に単語ベクトルを作成し、この単語ベクトルを前記データ記憶手段に書き込む単語ベクトル作成手段、
前記データ記憶手段内の各単語ベクトル間の単語類似度を計算し、得られた単語類似度を、当該計算に用いた各単語ベクトルに関連付けて前記データ記憶手段に書き込む単語類似度計算手段、
前記データ記憶手段内の単語類似度に基づいて、教師なし学習手法により、前記単語類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、当該分類された各単語を含む単語グループを前記単語グループ記憶手段に書き込む単語グループ化手段、
前記シソーラス記憶手段内のシソーラス情報に含まれる表現のうち、前記入力された電子文書に含まれる表現を学習データとして生成する学習データ生成手段、
前記生成された学習データに基づいて当該学習データ間の類似度を計算し、この類似度により学習データを含む学習データグループを作成する学習データグループ作成手段、
前記学習データグループの個数に対し、前記単語グループ記憶手段内の単語グループの個数を一致させるように、当該単語グループを統合する単語グループ統合手段、
前記統合された単語グループ毎に、前記学習データグループ内の学習データを含む度合を示す大域評価値を計算し、この大域評価値を前記データ記憶手段に書き込む大域評価手段、
前記統合された単語グループ毎に、単語グループ内の各単語を示す各単語ベクトルに関連する単語類似度の分散を計算し、得られた分散を局所評価値として前記データ記憶手段に書き込む局所評価手段、
前記大域評価値及び前記局所評価値に基づいて、これら両評価値の和を上限値にするように、前記データ記憶手段内の単語グループの境界を調整する単語グループ調整手段、
前記調整された単語グループ内の各単語を前記類似表現として抽出し、当該抽出した類似表現の各単語を出力する類似表現出力手段、
として機能させるためのプログラム。
請求項８に記載のプログラムにおいて、
前記所定の品詞の組合せは、名詞又は未知語と、動詞との組合せであることを特徴とするプログラム。
請求項８又は請求項９に記載のプログラムにおいて、
前記単語類似度は、前記各単語ベクトル間の内積として算出されるコサイン類似度であることを特徴とするプログラム。
請求項８乃至請求項１０のいずれか１項に記載のプログラムにおいて、
前記教師なし学習手法は、リーダ・フォロワ手法であることを特徴とするプログラム。
請求項８乃至請求項１１のいずれかに記載の類似表現抽出装置を備えたサーバ装置のプログラムにおいて、
前記サーバ装置を、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段、
前記クライアント端末から当該送信した各単語を含む電子文書の送信要求を受けると、当該電子文書を前記クライアント端末に送信する手段、
前記送信した電子文書の排除又は追加を示す更新情報を前記クライアント端末から受けると、当該電子文書内に独自の単語があるか否かを判定する手段、
この判定の結果、独自の単語がある場合には、前記更新情報に基づいて、単語グループ記憶手段内の単語グループに対し、当該独自の単語を排除又は追加する手段、
前記独自の単語を排除又は追加した後、前記大域評価手段、前記局所評価手段及び前記単語グループ調整手段を再実行するように制御する手段、
として機能させるためのプログラム。
請求項８乃至請求項１２のいずれかに記載の類似表現抽出装置を備えたサーバ装置のプログラムにおいて、
前記サーバ装置を、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段、
前記送信した各単語と、当該各単語を送信した送信回数とを互いに関連付けて前記データ記憶手段に書き込む手段、
前記単語グループ毎に、最終更新日付を前記単語グループ記憶手段に書き込む手段、
前記送信回数を書き込んだ後、当該送信回数が所定回数を超えたか否かを判定する手段、
この判定の結果、当該所定回数を超えたとき、前記最終更新日付と現在日付との差分を示す経過日数が所定日数を超えたか否かを判定する手段、
この判定の結果、当該所定日数を超えたとき、前記送信した各単語を前記シソーラス記憶手段に登録するシソーラス登録手段、
として機能させるためのプログラム。
請求項８乃至請求項１３のいずれかに記載の類似表現抽出装置と、文書種類及び文書名を含む電子文書をコーパスとして記憶するためのコーパス記憶手段とを備えたサーバ装置のプログラムにおいて、
前記サーバ装置を、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段、
前記クライアント端末から当該送信した各単語を含む電子文書の送信要求を受けると、当該電子文書を前記クライアント端末に送信する手段、
前記送信した電子文書の追加を示す更新情報を前記クライアント端末から受けると、当該電子文書の文書種類が前記コーパス記憶手段内のいずれかの電子文書の文書種類と同一であるか否かを判定する手段、
この判定の結果、文書種類が同一である場合には、前記送信した電子文書の文書名が前記コーパス記憶手段内の全ての電子文書の文書名と異なるか否かを判定する手段、
この判定の結果、文書名が異なる場合には、前記送信した電子文書を前記コーパス記憶手段に登録するコーパス登録手段、
として機能させるためのプログラム。