JP2010152561A - 類似表現抽出装置、サーバ装置及びプログラム - Google Patents
類似表現抽出装置、サーバ装置及びプログラム Download PDFInfo
- Publication number
- JP2010152561A JP2010152561A JP2008328752A JP2008328752A JP2010152561A JP 2010152561 A JP2010152561 A JP 2010152561A JP 2008328752 A JP2008328752 A JP 2008328752A JP 2008328752 A JP2008328752 A JP 2008328752A JP 2010152561 A JP2010152561 A JP 2010152561A
- Authority
- JP
- Japan
- Prior art keywords
- word
- electronic document
- group
- storage means
- data storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出する。
【解決手段】類似表現抽出装置30は、入力された電子文書内の文を形態素解析、構文解析及び共起表現抽出し、単語属性値及び単語ベクトルを作成し、単語ベクトル間の単語類似度から単語グループを作成し、シソーラス情報の表現を学習データとして生成し、学習データ間の類似度に基づき学習データグループを作成し、統合された単語グループ毎に、学習データグループ内の学習データを含む度合を示す大域評価値を計算し、単語グループの単語類似度の分散を計算し、得られた分散を局所評価値とし、両評価値に基づいて単語グループの境界を調整し、単語グループ内の各単語を類似表現として抽出して出力する。
【選択図】 図1
【解決手段】類似表現抽出装置30は、入力された電子文書内の文を形態素解析、構文解析及び共起表現抽出し、単語属性値及び単語ベクトルを作成し、単語ベクトル間の単語類似度から単語グループを作成し、シソーラス情報の表現を学習データとして生成し、学習データ間の類似度に基づき学習データグループを作成し、統合された単語グループ毎に、学習データグループ内の学習データを含む度合を示す大域評価値を計算し、単語グループの単語類似度の分散を計算し、得られた分散を局所評価値とし、両評価値に基づいて単語グループの境界を調整し、単語グループ内の各単語を類似表現として抽出して出力する。
【選択図】 図1
Description
本発明は、電子文書群から同義もしくは類義で用いられている類似表現を抽出する類似表現抽出装置、サーバ装置及びプログラムに係り、例えば、シソーラス(分類語彙表)に登録されていない表現が多い電子文書からでも、十分な精度を保証しつつ、類似表現を抽出し得る類似表現抽出装置、サーバ装置及びプログラムに関する。
従来、単語に代表される表現を分類する方法としては、大別して、既存のシソーラスに対して追加・修正・部分的抽出などを行なう第1の方法と、コーパスや検索履歴から類義語を抽出する第2の方法との2種類の方法がある。
第1の方法としては、例えば、既存のシソーラスに登録された概念と照合する処理によって類似表現を抽出する技術が知られている(例えば、特許文献1参照。)。
第2の方法としては、例えば、コーパスのみから統計処理により類似表現を抽出する技術が知られている(例えば、特許文献2参照。)。
また、2種類の方法を組み合せた第3の方法としては、例えば、コーパスから抽出した情報に、既存シソーラスの情報を付与して類義語を判定する技術が知られている(例えば、特許文献3参照。)。
特開2005−326952号公報
特許第3598211号公報
特開2007−79730号公報
しかしながら、第1の方法は、既存のシソーラスに登録された概念がカバーする範囲では精度が高いものの、組織内で使用されている略記などの対象コーパスに特有の表現を類似表現として抽出することが困難である。
第2の方法では、略記などの対象コーパスに特有の表現も統計処理により抽出できるが、十分な精度が保証されない。
第3の方法では、予めシソーラスに登録された情報を制約条件として、文脈に関わる共起情報とともに単語毎に類似度を定義し、その類似度を用いてクラスタリングを行なうという制約付きクラスタリングを行なっている。この結果、第3の方法は、制約条件を満たした単語では良い分類結果が得られるが、制約条件を満たさない単語では分類しにくい不都合がある。
一般のビジネス文書及びコーパスは、シソーラスに登録されていない略語、特有表現が多い状況にある。この状況により、第3の方法は、略語や特有表現の多いコーパスから類似表現を抽出するには不適切となっている。
本発明は上記実情を考慮してなされたもので、シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出し得る類似表現抽出装置、サーバ装置及びプログラムを提供することを目的とする。
本発明の一つの局面は、データ記憶手段、単語グループ記憶手段及びシソーラス記憶手段を備え、電子文書から類似表現の各単語を抽出するための類似表現抽出装置であって、前記電子文書を入力するための文書入力手段と、前記文書入力手段により入力された電子文書内の文を形態素解析し、得られた形態素解析結果を前記データ記憶手段に書き込む形態素解析手段と、前記データ記憶手段内の形態素解析結果を構文解析し、構文解析結果として得られた文脈情報を前記データ記憶手段に書き込む構文解析手段と、前記データ記憶手段内の文脈情報から2文節の係り受けの組を含む共起表現を抽出し、この共起表現を前記データ記憶手段に書き込む共起表現抽出手段と、前記データ記憶手段内の共起表現のうち、所定の品詞の組合せの2文節からなる共起表現に基づいて、この共起表現における一方の単語毎に、他方の単語との共起頻度と、前記電子文書内の単語との共起頻度とからなる単語属性値を算出する単語属性値算出手段と、前記単語属性値を前記一方の単語に関連付けることにより、当該単語毎に単語ベクトルを作成し、この単語ベクトルを前記データ記憶手段に書き込む単語ベクトル作成手段と、前記データ記憶手段内の各単語ベクトル間の単語類似度を計算し、得られた単語類似度を、当該計算に用いた各単語ベクトルに関連付けて前記データ記憶手段に書き込む単語類似度計算手段と、前記データ記憶手段内の単語類似度に基づいて、教師なし学習手法により、前記単語類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、当該分類された各単語を含む単語グループを前記単語グループ記憶手段に書き込む単語グループ化手段と、前記シソーラス記憶手段内のシソーラス情報に含まれる表現のうち、前記入力された電子文書に含まれる表現を学習データとして生成する学習データ生成手段と、前記生成された学習データに基づいて当該学習データ間の類似度を計算し、この類似度により学習データを含む学習データグループを作成する学習データグループ作成手段と、前記学習データグループの個数に対し、前記単語グループ記憶手段内の単語グループの個数を一致させるように、当該単語グループを統合する単語グループ統合手段と、前記統合された単語グループ毎に、前記学習データグループ内の学習データを含む度合を示す大域評価値を計算し、この大域評価値を前記データ記憶手段に書き込む大域評価手段と、前記統合された単語グループ毎に、単語グループ内の各単語を示す各単語ベクトルに関連する単語類似度の分散を計算し、得られた分散を局所評価値として前記データ記憶手段に書き込む局所評価手段と、前記大域評価値及び前記局所評価値に基づいて、これら両評価値の和を上限値にするように、前記データ記憶手段内の単語グループの境界を調整する単語グループ調整手段と、前記調整された単語グループ内の各単語を前記類似表現として抽出し、当該抽出した類似表現の各単語を出力する類似表現出力手段と、を備えた類似表現抽出装置である。
なお、本発明の一つの局面は、装置として名称で表現したが、これに限らず、方法、プログラム、プログラムを記憶した記憶媒体といった他の名称で表現してもよい。
(作用)
本発明の一つの局面は、シソーラスの表現のグループに基づく大域評価値と、単語グループの各単語の単語類似度に基づく局所評価値とに基づいて、類似表現を示す単語グループを調整する構成により、シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出することができる。
本発明の一つの局面は、シソーラスの表現のグループに基づく大域評価値と、単語グループの各単語の単語類似度に基づく局所評価値とに基づいて、類似表現を示す単語グループを調整する構成により、シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出することができる。
以上説明したように本発明によれば、シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出できる。
以下、本発明の各実施形態について図面を用いて説明する。なお、以下の各装置は、装置毎に、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から対応する装置のコンピュータにインストールされ、対応する装置の機能を実現させるためのプログラムが用いられる。
(第1の実施形態)
図1は本発明の第1の実施形態に係る類似表現抽出装置の全体構成を示す模式図である。この類似表現抽出装置30は、データ記憶部1、単語グループ記憶部2、シソーラス記憶部3、文書入力部4、形態素解析部11、構文解析部12、共起表現抽出部13、単語属性値算出部14、単語類似度計算部15、単語グループ化部16、学習データ生成部21、単語グループ評価部22、単語グループ調整部23及び類似表現出力部24を備えている。なお、各部11〜16は単語グループ作成処理部10を構成し、各部21〜24は評価調整処理部20を構成する。
図1は本発明の第1の実施形態に係る類似表現抽出装置の全体構成を示す模式図である。この類似表現抽出装置30は、データ記憶部1、単語グループ記憶部2、シソーラス記憶部3、文書入力部4、形態素解析部11、構文解析部12、共起表現抽出部13、単語属性値算出部14、単語類似度計算部15、単語グループ化部16、学習データ生成部21、単語グループ評価部22、単語グループ調整部23及び類似表現出力部24を備えている。なお、各部11〜16は単語グループ作成処理部10を構成し、各部21〜24は評価調整処理部20を構成する。
ここで、データ記憶部1は、各部11〜16,21〜24から読出/書込可能な記憶装置であり、処理前後のデータ等が適宜記憶される。
単語グループ記憶部2は、各部11〜16,21〜24から読出/書込可能な記憶装置であり、類似表現の各単語からなる単語グループが記憶される。
シソーラス記憶部3は、各部21〜24から読出/書込可能な記憶装置であり、予めシソーラス情報が記憶されている。
文書入力部4は、電子文書を入力するための入力インタフェースである。電子文書は、例えば、特有分野における表現を含むテキストデータから構成されている。
形態素解析部11は、文書入力部4により入力された電子文書内の文を形態素解析し、得られた形態素解析結果をデータ記憶部1に書き込む機能をもっている。
構文解析部12は、データ記憶部1内の形態素解析結果を構文解析し、構文解析結果として得られた文脈情報をデータ記憶部1に書き込む構文解析手段と、
共起表現抽出部13は、データ記憶部1内の文脈情報から2文節の係り受けの組を含む共起表現を抽出し、この共起表現をデータ記憶部1に書き込む機能をもっている。
共起表現抽出部13は、データ記憶部1内の文脈情報から2文節の係り受けの組を含む共起表現を抽出し、この共起表現をデータ記憶部1に書き込む機能をもっている。
単語属性値算出部14は、データ記憶部1内の共起表現のうち、所定の品詞の組合せの2文節からなる共起表現に基づいて、この共起表現における一方の単語毎に、他方の単語との共起頻度と、電子文書内の単語との共起頻度とからなる単語属性値を算出する機能をもっている。
単語類似度計算部15は、この単語属性値を一方の単語に関連付けることにより、当該単語毎に単語ベクトルを作成し、この単語ベクトルをデータ記憶部1に書き込む機能と、データ記憶部1内の各単語ベクトル間の単語類似度を計算し、得られた単語類似度を、当該計算に用いた各単語ベクトルに関連付けてデータ記憶部1に書き込む機能とをもっている。
単語グループ化部16は、データ記憶部1内の単語類似度に基づいて、教師なし学習手法により、単語類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、当該分類された各単語を含む単語グループを単語グループ記憶部2に書き込む機能をもっている。
学習データ生成部21は、シソーラス記憶部3内のシソーラス情報に含まれる表現のうち、入力された電子文書に含まれる表現を学習データとして生成する機能をもっている。
単語グループ評価部22は、生成された学習データに基づいて当該学習データ間の類似度を計算し、この類似度により学習データを含む学習データグループを作成する機能と、学習データグループの個数に対し、単語グループ記憶部2内の単語グループの個数を一致させるように、当該単語グループを統合する機能と、統合した単語グループ毎に、学習データグループ内の学習データを含む度合を示す大域評価値を計算し、この大域評価値をデータ記憶部1に書き込む機能と、統合した単語グループ毎に、単語グループ内の各単語を示す各単語ベクトルに関連する単語類似度の分散を計算し、得られた分散を局所評価値としてデータ記憶部1に書き込む機能とをもっている。
単語グループ調整部23は、データ記憶部1内の大域評価値及び局所評価値に基づいて、これら両評価値の和を上限値にするように、データ記憶部1内の単語グループの境界を調整する機能をもっている。
類似表現出力部24は、調整された単語グループ内の各単語を類似表現として抽出し、当該抽出した類似表現の各単語を表示部(図示せず)等に出力する機能をもっている。
次に、以上のように構成された類似表現抽出装置の動作を説明する。なお、以下の説明は、大きく分けて単語グループ作成処理及び評価調整処理の順に述べる。
(単語グループ作成処理)
文書入力部4は、図2に示すように、ユーザによる入力装置(図示せず)の操作により、特有分野における表現を含む電子文書を形態素解析部11に入力する(ST1)。
(単語グループ作成処理)
文書入力部4は、図2に示すように、ユーザによる入力装置(図示せず)の操作により、特有分野における表現を含む電子文書を形態素解析部11に入力する(ST1)。
形態素解析部11は、入力された電子文書を形態素解析する(ST2)。なお、形態素解析部11は、入力された電子文書のうち、分析対象となる部分を形態素解析してもよい。いずれにしても、形態素解析部11は、電子文書内の文を形態素解析する。
例えば、「左眼窩内には明らかな異常所見は指摘できません。」という文を形態素解析すると、次に示すように、文節の区切り又は文節内の単語の区切りにて、単語及び品詞を区切った形式の形態素解析結果が得られる。
/左[名詞]/眼窩[名詞]/内[名詞]−に[格助詞]−は[格助詞]/明らか[形容動詞語幹]−な[助動詞]/異常[形容動詞語幹]/所見[名詞]−は[係助詞]/指摘[サ変名詞]/でき[動詞]−ませ[助動詞]−ん[動詞]/。[句点]
ここで、「/」は文節の区切りを示し、「−」は文節内の単語の区切りを示す。また、[ ]内の品詞は直前の単語の品詞を示す。
/左[名詞]/眼窩[名詞]/内[名詞]−に[格助詞]−は[格助詞]/明らか[形容動詞語幹]−な[助動詞]/異常[形容動詞語幹]/所見[名詞]−は[係助詞]/指摘[サ変名詞]/でき[動詞]−ませ[助動詞]−ん[動詞]/。[句点]
ここで、「/」は文節の区切りを示し、「−」は文節内の単語の区切りを示す。また、[ ]内の品詞は直前の単語の品詞を示す。
形態素解析部11は、このような形態素解析結果をデータ記憶部1に書き込む。
構文解析部12は、データ記憶部1内の形態素解析結果を構文解析し(ST3)、構文解析結果として得られた文脈情報をデータ記憶部1に書き込む。
共起表現抽出部13は、データ記憶部1内の文脈情報から2文節の係り受けの組を含む共起表現を抽出し(ST4)、この共起表現をデータ記憶部1に書き込む。共起表現は、例えば、次に示す如き、係り受けの組である2つの単語にそれぞれ単語の品詞を付与し、且つ2つの単語[品詞]を区切り「−」を介して関連付けた形式の情報である。
内[名詞]−指摘[サ変名詞]、
眼窩[名詞]−内[名詞]、
左[名詞]−眼窩[名詞]、
所見[名詞]−指摘[サ変名詞]、
異常[形容動詞語幹]−所見[名詞]、
明らか[形容動詞語幹]−所見[名詞]、
内[名詞]−明らか[形容動詞語幹]。
眼窩[名詞]−内[名詞]、
左[名詞]−眼窩[名詞]、
所見[名詞]−指摘[サ変名詞]、
異常[形容動詞語幹]−所見[名詞]、
明らか[形容動詞語幹]−所見[名詞]、
内[名詞]−明らか[形容動詞語幹]。
このような共起表現のうち、所定の品詞の組合せの2文節からなる共起表現のみが用いられる。例えば、名詞もしくは未知語と動詞の2文節からなる共起表現のみが用いられる場合、動詞と形容詞の2文節からなる共起表現のみが用いられる場合、又は名詞と形容詞の2文節からなる共起表現のみが用いられる場合、などがある。
以下、名詞もしくは未知語と動詞の2文節からなる共起表現のみが用いられる場合を例に挙げて述べる。この例では、名詞「所見」が動詞(サ変名詞)「指摘」と共起しているので、この“所見[名詞]−指摘[サ変名詞]”の共起表現が用いられる。同様に、“内[名詞]−指摘[サ変名詞]”の共起表現が用いられる。
すなわち、単語属性値算出部14は、データ記憶部1内の共起表現のうち、同様の名詞もしくは未知語と動詞の係り受けの組を抽出し、抽出した一方の単語(名詞もしくは未知語)毎に、抽出した他方の単語(各動詞)との共起頻度と、入力された電子文書内の単語との共起頻度とからなる単語属性値を算出する(ST5)。
補足すると、入力された電子文書を全文検索し、図3に示すように、名詞「所見」が動詞(サ変名詞)「指摘」と共起を発生する頻度が11である場合、単語属性値算出部14は、名詞「所見」に対する動詞「指摘」の共起頻度11を算出する。単語属性値算出部14は、名詞「所見」に対する他の動詞「解析」「見える」「変化」との共起頻度(0,1,5,…)も算出する。最終的に、単語属性値算出部14は、名詞「所見」に対する動詞との共起頻度(11,0,1,5,…)を単語属性値とする。
次に、単語類似度計算部15は、この単語属性値を単語に付与することにより、図4に示すように、単語毎に単語ベクトルを作成し、この単語ベクトルをデータ記憶部1に書き込む。
単語類似度計算部15は、データ記憶部1内の各単語ベクトル間の単語類似度を計算する(ST6)。この例では、単語類似度としてコサイン類似度を用いる。具体的には例えば、電子文書内の全ての名詞・未知語において共起する動詞の数を次元数として単語ベクトルを作成し、各単語ベクトル間のコサイン類似度を算出する。例えば、図4に示した2つの単語ベクトル「所見」,「内」の間のコサイン類似度は、「所見=[11,0,1,…,5]」と「内=[3,0,3,…,0]」とのベクトルの内積=0.35として算出される。なお、コサイン類似度は余弦類似度と呼んでもよい。また、単語類似度計算部15は、算出したコサイン類似度を、当該算出に用いた各単語ベクトルに関連付けてデータ記憶部1に書き込む。
単語グループ化部16は、データ記憶部1内のコサイン類似度と、予め0を超えて1以下の範囲内に設定したしきい値とを比較する。比較の結果、このコサイン類似度がしきい値以上であれば、単語グループ化部16は、当該コサイン類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、分類された各単語を含む各単語グループを単語グループ記憶部2に書き込む(ST7)。
単語グループへの分類手法としては、例えば、教師なし学習手法である非階層クラスタリング手段であるリーダ・フォロワ(leader-follower)手法が使用可能となっている。リーダ・フォロワ手法では、単語グループの個数をあらかじめ設定する必要がなく、しきい値に基づいて対象単語を順次分類することにより、図5に示すように、自動的に単語グループが形成される。図5中、長方形枠で囲まれた単語は、後述する学習データ(シソーラスにもある表現)である。但し、単語グループへの分類手法は、リーダ・フォロワ手法に限らず、任意のクラスタリング手段が使用可能となっている。
(評価調整処理)
学習データ生成部21は、シソーラス記憶部3内のシソーラス情報に含まれる表現のうち、入力された電子文書に含まれる表現を学習データとして生成する。この例では、図6に示すように、医療分野のシソーラスを用いている(出展:「医学用語シソーラス第5版」医学中央雑誌刊行会)。なお、図6においては、説明の便宜上、シソーラスの周辺に、シソーラス内の単語の深さ及び類似度の計算例を描写している。
学習データ生成部21は、シソーラス記憶部3内のシソーラス情報に含まれる表現のうち、入力された電子文書に含まれる表現を学習データとして生成する。この例では、図6に示すように、医療分野のシソーラスを用いている(出展:「医学用語シソーラス第5版」医学中央雑誌刊行会)。なお、図6においては、説明の便宜上、シソーラスの周辺に、シソーラス内の単語の深さ及び類似度の計算例を描写している。
次に、単語グループ評価部22は、図7に示すように、生成された学習データに基づき、大域評価を実行する。大域評価においては、学習データ間の類似度を計算して当該学習データを類似度によりグループ化し、学習データのグループ数に一致するように単語グループ数を調整した後、学習データのグループ毎に、同一の単語グループに含まれる度合を示す大域評価値αを求める。以下、順に説明する。
学習データである2つの単語si,sj間の類似度sim(si,sj)をシソーラスの木構造に基づいて計算する場合を述べる。シソーラス内の一方の単語siに対する節点の深さdi、他方の単語sjに対する節点の深さdj、2節点に対する共通親の深さの最大値dmaxとすると、類似度は式(1)及び図5に示すように計算される。
続いて、単語グループ評価部22は、予め0〜1の範囲内に設定したしきい値kと、計算した類似度とを比較する。単語グループ評価部22は、この比較の結果、図8に示すように、類似度がしきい値k以上の学習データを類似表現としてグループ化し(ST11)、学習データのグループ(以下、学習データグループという)を作成する。図8に示す例では、2つの学習データグループを作成している。
単語グループ評価部22は、各学習データグループと各単語グループとを統合する(ST12)。なお、学習データグループの数が単語グループ数に一致しない場合があるので、統合は学習データグループを基準として行う。統合の手順(i)〜(iv)は以下の通りである。
(i)全ての単語間の空間距離をコサイン類似度で計算する。
(ii)各学習データグループの重心ベクトル(三次元ベクトル平均法)を算出する。
(iii)全ての単語と学習データグループの各重心ベクトルの類似度を計算する。
(iv)これらの手順(i),(iii)により得られた類似度に基づいて、学習データグループを基準として統合を行う。
例えば、学習データグループ数をAとし、単語グループ数をA±Bとすると、単語グループ数をA±BからAにするように単語グループを統合する。このとき、多数の学習データが含まれる単語グループに各単語グループを統合する。具体的には、単語グループ評価部22は、学習データグループの周辺の単語・文脈情報とコサイン類似度とに基づき、単語グループを統合する。
次に、単語グループ評価部22は、統合後の単語グループ毎に、学習データグループの単語を含む度合を示す大域評価値αを次式により計算し(ST13)、得られた大域評価値αをデータ記憶部1に書き込む。
大域評価値α=単語グループが含む学習データグループの単語の個数/当該学習データグループの全ての単語の個数
例えば、ある単語グループが学習データグループの全単語を含む場合、大域評価値αの値は1となる。また、その単語グループが学習データグループの単語を一つも含まない場合、大域評価値αの値は0となる。上式より、大域評価値αは0以上1以下の範囲内で得られる(0≦α≦1)。
例えば、ある単語グループが学習データグループの全単語を含む場合、大域評価値αの値は1となる。また、その単語グループが学習データグループの単語を一つも含まない場合、大域評価値αの値は0となる。上式より、大域評価値αは0以上1以下の範囲内で得られる(0≦α≦1)。
続いて、単語グループ評価部22は、各単語グループの局所評価を行う(ST14)。局所評価には、ブートストラップ手法を用いる。具体的には、単語グループ評価部22は、単語グループ内の各単語を示す各単語ベクトルに関連するコサイン類似度を標本データとし、ブートストラップ手法により標本データ(コサイン類似度)の分散を計算する。ブートストラップは公知技術であるため、ここでは簡単に説明する。
ブートストラップ法では、一つの標本から復元抽出を繰り返して大量の標本(ブートストラップ標本)を生成し、ブートストラップ標本からブートストラップ推定量の値を計算し、母集団(各単語グループ)の推定量の性質(分散推定量)を推定する。
単語グループ評価部22は、ステップST14の結果、得られたブートストラップ分散推定量を、0〜1の範囲内の局所評価値βとしてデータ記憶部1に設定する。
次に、単語グループ調整部23は、データ記憶部1内の大域評価値α及び局所評価値βに基づいて、単語グループ記憶部2内の単語グループの境界を調整する(ST15)。調整の有無の判定基準及び調整方法を以下の場合(a)〜(c)に分けて示す。
(a)両評価値の和が上限値(α+β=2)であるか否かを判定し、上限値であれば、単語グループを調整しない。
(b)大域評価値αの値が0.8以上で1未満(0.8≦α<1)の範囲内にあり、且つ局所評価値βの値が0.8より大(0.8<β)であるか否かを判定し、0.8≦α<1であり且つ0.8<βである場合には、評価対象の単語グループに含まれない学習データを個別に調整する。
(c)大域評価値αの値が0.8未満(α<0.8)であるか否かを判定し、α<0.8であれば、評価されている単語グループを再評価の候補とする。
ここで、単語グループ調整部23は、2つの場合(b),(c)においては、図9の例に示すように、単語グループの境界を調整した後、単語グループ評価部22により、単語グループを再評価する(ST16)。再評価の結果、単語グループ調整部23は、前述同様に各評価値α,β及び3つの場合(a)〜(c)の判定基準に基づいて、単語グループを更に調整するか否かを判定し(ST17)、調整する単語グループが存在しなければ、調整と評価を終了する。
しかる後、類似表現出力部24は、単語グループ記憶部2内の各単語グループに含まれる単語を類似表現として出力し、これら類似表現をユーザに提示する。
上述したように本実施形態によれば、シソーラスの表現のグループに基づく大域評価値αと、単語グループの各単語のコサイン類似度に基づく局所評価値βとに基づいて、類似表現を示す単語グループを調整する構成により、シソーラスに登録されていない表現が多い電子文書でも、十分な精度を保証しつつ、類似表現を抽出することができる。
また、本実施形態では、シソーラスに登録されていない類似表現を、入力された電子文書又はコーパスの電子文書から抽出できるため、文書分類においてキーワードによる分類の精度を向上させることができる。
また、テキストマイニングや業務文書チェックに用いる辞書作成においてコストを削減させることができる。
さらに、文書検索において、ユーザが直接指定したキーワードを含まない関連文書の検索再現率を向上させることができる。
(第2の実施形態)
図10は本発明の第2の実施形態に係る類似表現抽出装置を含む類似表現抽出システムの構成を示す模式図であり、図1と同一部分には同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。
図10は本発明の第2の実施形態に係る類似表現抽出装置を含む類似表現抽出システムの構成を示す模式図であり、図1と同一部分には同一符号を付してその詳しい説明を省略し、ここでは異なる部分について主に述べる。
第2の実施形態は、第1の実施形態の類似表現抽出装置30を有して単語グループの更新、シソーラスの登録及びコーパスの登録を行うサーバ装置40と、このサーバ装置40に通信可能なクライアント端末50とを備えている。
ここで、サーバ装置40は、類似表現抽出装置30、コーパス記憶部41、応答部42、単語グループ更新判定部43、シソーラス登録部44及びコーパス登録部45を備えている。
コーパス記憶部41は、各部4,10,20,42〜45から読出/書込可能な記憶装置であり、文書種類及び文書名を含む電子文書がコーパスとして記憶されている。
応答部42は、検索対象の単語をクライアント端末50から受けると、この検索対象の単語に基づいて単語グループ記憶部2を検索し、当該検索対象の単語を含む単語グループ内の各単語をクライアント端末50に送信する機能と、当該送信した各単語を含む電子文書の送信要求をクライアント端末50から受けると、当該電子文書をクライアント端末50に送信する機能と、をもっている。
単語グループ更新判定部43は、送信した電子文書の排除又は追加を示す更新情報をクライアント端末50から受けると、当該電子文書内に独自の単語があるか否かを判定する機能と、この判定の結果、独自の単語がある場合には、更新情報に基づいて、単語グループ記憶部2内の単語グループに対し、当該独自の単語を排除又は追加する機能と、独自の単語を排除又は追加した後、単語グループ評価部22及び単語グループ調整部23を再実行するように制御する機能と、単語グループ記憶部2内の単語グループ毎に、単語を排除又は追加した最終更新日付を単語グループ記憶部2に書き込む機能とをもっている。
シソーラス登録部44は、送信した各単語と、当該各単語を送信した送信回数とを互いに関連付けてデータ記憶部1に書き込む機能と、送信回数を書き込んだ後、当該送信回数が所定回数を超えたか否かを判定する機能と、この判定の結果、当該所定回数を超えたとき、最終更新日付と現在日付との差分を示す経過日数が所定日数を超えたか否かを判定する機能と、この判定の結果、当該所定日数を超えたとき、送信した各単語をシソーラス記憶部3に登録する機能とをもっている。
コーパス登録部45は、送信した電子文書の追加を示す更新情報をクライアント端末50から受けると、当該電子文書の文書種類がコーパス記憶部41内のいずれかの電子文書の文書種類と同一であるか否かを判定する機能と、この判定の結果、文書種類が同一である場合には、送信した電子文書の文書名がコーパス記憶部41内の全ての電子文書の文書名と異なるか否かを判定する機能と、この判定の結果、文書名が異なる場合には、送信した電子文書をコーパス記憶部41に登録する機能とをもっている。
クライアント端末50は、結果記憶部51、編集部52、検索部53、分類部54、検査部55、機械翻訳部56及び結果送信部57を備えている。
ここで、結果記憶部51は、各部52〜57から読出/書込可能な記憶装置であり、各部52〜56の処理結果としての電子文書と、結果送信部57から入力された更新情報(ユーザ確認結果)とを互いに関連付けて記憶している。更新情報は、排除又は追加を示しており、空欄の場合にはそのまま維持することを示している。
編集部52は、ユーザの操作により、編集処理を実行するものであり、例えば、ユーザの操作により、結果記憶部51内の電子文書を編集処理し、編集処理結果としての電子文書を結果記憶部51に書き込む機能とをもっている。
検索部53は、ユーザの操作により、情報検索処理を実行するものであり、例えば、検索対象の単語をサーバ装置40に送信する機能と、クライアント端末50から各単語を受けると、ユーザの操作により、当該各単語を含む電子文書の送信要求をサーバ装置40に送信する機能と、クライアント端末50から電子文書を受けると、当該電子文書を処理結果として結果記憶部51に書き込む機能とをもっている。
分類部54は、ユーザの操作により、分類処理を実行するものであり、例えば、ユーザの操作により、結果記憶部51内の電子文書を分類処理し、分類処理結果としての電子文書を結果記憶部51に書き込む機能とをもっている。
検査部55は、ユーザの操作により、検査処理を実行するものであり、例えば、ユーザの操作により、結果記憶部51内の電子文書を検査処理し、検査処理結果としての電子文書を結果記憶部51に書き込む機能とをもっている。
機械翻訳部56は、ユーザの操作により、機械翻訳処理を実行するものであり、例えば、ユーザの操作により、結果記憶部51内の電子文書を機械翻訳処理し、機械翻訳処理結果としての電子文書を結果記憶部51に書き込む機能とをもっている。
結果送信部57は、ユーザの操作により、結果記憶部51内の電子文書に関連付けて、当該電子文書の排除又は追加を示す更新情報を結果記憶部51に書き込む。なお、ユーザが電子文書の更新を望まない場合、更新情報の書込操作がされず、更新情報は書き込まれない。
また、各部52〜56は、類似表現を利用するアプリケーションプログラムをCPU(図示せず)が実行することにより実現される。また、ここでは、類似表現を利用する形態として、情報検索を例に挙げて述べる。なお、情報検索及び各部52〜56に対応するアプリケーションプログラムは、公知技術を適用してもよい。
次に、以上のように構成された類似表現抽出システムの動作を説明する。なお、以下の説明は、大きく分けて単語グループ更新処理、シソーラス登録処理及びコーパス登録処理の順に述べる。なお、ここでは、単語グループ更新処理、シソーラス登録処理及びコーパス登録処理という3種類の処理を全て実行する場合を述べるが、これに限らず、当該3種類の処理のうち、任意の1種類又は2種類の処理を実行するようにも変形可能である。
(単語グループ更新処理)
クライアント端末50においては、ユーザの操作により、例えば検索部53が情報検索処理を実行する。例えば、検索部53は、検索対象の単語をサーバ装置40に送信する。
クライアント端末50においては、ユーザの操作により、例えば検索部53が情報検索処理を実行する。例えば、検索部53は、検索対象の単語をサーバ装置40に送信する。
サーバ装置40においては、応答部42が、この検索対象の単語に基づいて単語グループ記憶部2を検索し、当該検索対象の単語を含む単語グループ内の各単語をクライアント端末50に送信する。
クライアント端末50においては、各単語を受けると、ユーザの操作により、例えば検索部53が、当該各単語を含む電子文書の送信要求をサーバ装置40に送信する。
サーバ装置40においては、応答部42が、この電子文書の送信要求を受けると、当該電子文書をデータ記憶部1又はコーパス記憶部41から読み出してクライアント端末50に送信する。
クライアント端末50においては、電子文書を受けると、ユーザの操作により、例えば結果送信部57が、図11に示すように、電子文書と、当該電子文書の排除又は追加を示す更新情報とを互いに関連付けて結果記憶部51に書き込む。なお、ユーザが電子文書の更新を望まない場合、更新情報の書込操作がされず、更新情報は書き込まれない(図11の右下の空欄)。但し、ここでは、更新情報を書き込んだとする。
しかる後、クライアント端末50においては、ユーザの操作により、結果送信部57が、結果記憶部51内の電子文書及び更新情報をサーバ装置40に送信する。
サーバ装置40においては、電子文書及び更新情報を受けると、単語グループ更新判定部43が、図12に示すように、検索結果の中にユーザに排除もしくは追加された文書があるか否かを判定する(ST21)。換言すると、単語グループ更新判定部43は、排除又は追加を示す更新情報に関連付けられた電子文書があるか否かを判定する。
ユーザにより排除もしくは追加された電子文書がある場合、単語グループ更新判定部43は、その電子文書中に独自のキーワード(独自の単語)があるか否かを判定する(ST22)。
独自のキーワードがある場合、単語グループ更新判定部43は、電子文書が排除された場合にはそのキーワードを単語グループから排除し、電子文書が追加された場合にはそのキーワードを該当単語グループに追加する(ST23)。
キーワードの排除もしくは追加後、単語グループ更新判定部43は、単語グループ評価部22及び単語グループ調整部23を再実行するように制御する。これにより、サーバ装置40においては、第1の実施形態と同様に、単語グループ評価部22及び単語グループ調整部23により、単語グループ評価と単語グループ調整を行い、単語グループを再調整する(ST24)。
(シソーラス登録処理)
サーバ装置40では、例えば、前述した単語グループ更新判定部43が、キーワードを排除又は追加した単語グループ毎に、最終更新日付を単語グループ記憶部2に書き込んでいるとする。
サーバ装置40では、例えば、前述した単語グループ更新判定部43が、キーワードを排除又は追加した単語グループ毎に、最終更新日付を単語グループ記憶部2に書き込んでいるとする。
また、サーバ装置40では、検索対象の単語をクライアント端末50から受けると、応答部42が、この検索対象の単語に基づいて単語グループ記憶部2を検索し、当該検索対象の単語を含む単語グループ内の各単語をクライアント端末50に送信する。
このとき、サーバ装置40においては、シソーラス登録部44が、送信した各単語と、当該各単語を送信した送信回数とを互いに関連付けてデータ記憶部1に書き込む。
シソーラス登録部44は、図13に示すように、送信回数を書き込んだ後、当該送信回数が所定回数を越えたか否かを判定する(ST31)。
シソーラス登録部44は、この判定の結果、当該所定回数を超えたとき、単語グループ記憶手段内の単語グループの最終更新日付と現在日付との差分を示す経過日数が所定日数を超えたか否かを判定する(ST32)。
シソーラス登録部44は、この判定の結果、当該所定日数を超えたとき、送信した各単語が類似表現として有効であると判定し、当該送信した各単語をシソーラス記憶部3のシソーラス情報に同階層の概念として追加登録する(ST33)。
(コーパス登録処理)
サーバ装置40では、検索対象の単語をクライアント端末50から受けると、応答部42が、この検索対象の単語に基づいて単語グループ記憶部2を検索し、当該検索対象の単語を含む単語グループ内の各単語をクライアント端末50に送信する。
サーバ装置40では、検索対象の単語をクライアント端末50から受けると、応答部42が、この検索対象の単語に基づいて単語グループ記憶部2を検索し、当該検索対象の単語を含む単語グループ内の各単語をクライアント端末50に送信する。
クライアント端末50においては、各単語を受けると、ユーザの操作により、例えば検索部53が、当該各単語を含む電子文書の送信要求をサーバ装置40に送信する。
サーバ装置40においては、応答部42が、この電子文書の送信要求を受けると、当該電子文書をデータ記憶部1から読み出してクライアント端末50に送信する。
クライアント端末50においては、電子文書を受けると、ユーザの操作により、例えば結果送信部57が、電子文書と、当該電子文書の追加を示す更新情報とを互いに関連付けて結果記憶部51に書き込む。
しかる後、クライアント端末50においては、ユーザの操作により、結果送信部57が、結果記憶部51内の電子文書及びこの電子文書の追加を示す更新情報をサーバ装置40に送信する。
サーバ装置40においては、コーパス登録部45が、送信した電子文書の追加を示す更新情報をクライアント端末50から受けると、当該電子文書の文書種類がコーパス記憶部41内のいずれかの電子文書の文書種類と同一であるか否かを判定する(ST41)。ここで、文書種類は、例えば、特許公開公報、社内報告書、ソフトウェア要求仕様書など、文書が記載された目的を示す情報である。
コーパス登録部45は、この判定の結果、文書種類が同一である場合には、送信した電子文書の文書名がコーパス記憶部41内の全ての電子文書の文書名と異なるか否か(新規文書であるか否か)を判定する(ST42)。
コーパス登録部45は、この判定の結果、文書名が異なる場合には、送信した電子文書をコーパス記憶部41に登録(追加登録)する(ST43)。
上述したように本実施形態によれば、第1の実施形態の効果に加え、単語グループ更新処理により、類似表現を利用したアプリケーションの処理結果も判定材料として、単語グループ記憶部2内の類似表現の精度を向上させることができる。
また、シソーラス登録処理により、類似表現を利用したアプリケーションによる利用状況を判定材料として、シソーラス記憶部3内のシソーラスを充実させることができる。
さらに、コーパス登録処理により、類似表現抽出の対象であるコーパス記憶部41内のコーパスを充実させ、類似表現抽出精度を向上させることができる。
なお、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
さらに、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から上記実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
尚、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
1…データ記憶部、2…単語グループ記憶部、3…シソーラス記憶部、4…文書入力部、10…単語グループ作成処理部、11…形態素解析部、12…構文解析部、13…共起表現抽出部、14…単語属性値算出部、15…単語類似度計算部、16…単語グループ化部、20…評価調整処理部、21…学習データ生成部、22…単語グループ評価部、23…単語グループ調整部、24…類似表現出力部、30…類似表現抽出装置、40…サーバ装置、41…コーパス記憶部、42…応答部、43…単語グループ更新判定部、44…シソーラス登録部、45…コーパス登録部、50…クライアント端末、51…結果記憶部、52…編集部、53…検索部、54…分類部、55…検査部、56…機械翻訳部、57…結果送信部。
Claims (14)
- データ記憶手段、単語グループ記憶手段及びシソーラス記憶手段を備え、電子文書から類似表現の各単語を抽出するための類似表現抽出装置であって、
前記電子文書を入力するための文書入力手段と、
前記文書入力手段により入力された電子文書内の文を形態素解析し、得られた形態素解析結果を前記データ記憶手段に書き込む形態素解析手段と、
前記データ記憶手段内の形態素解析結果を構文解析し、構文解析結果として得られた文脈情報を前記データ記憶手段に書き込む構文解析手段と、
前記データ記憶手段内の文脈情報から2文節の係り受けの組を含む共起表現を抽出し、この共起表現を前記データ記憶手段に書き込む共起表現抽出手段と、
前記データ記憶手段内の共起表現のうち、所定の品詞の組合せの2文節からなる共起表現に基づいて、この共起表現における一方の単語毎に、他方の単語との共起頻度と、前記電子文書内の単語との共起頻度とからなる単語属性値を算出する単語属性値算出手段と、
前記単語属性値を前記一方の単語に関連付けることにより、当該単語毎に単語ベクトルを作成し、この単語ベクトルを前記データ記憶手段に書き込む単語ベクトル作成手段と、
前記データ記憶手段内の各単語ベクトル間の単語類似度を計算し、得られた単語類似度を、当該計算に用いた各単語ベクトルに関連付けて前記データ記憶手段に書き込む単語類似度計算手段と、
前記データ記憶手段内の単語類似度に基づいて、教師なし学習手法により、前記単語類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、当該分類された各単語を含む単語グループを前記単語グループ記憶手段に書き込む単語グループ化手段と、
前記シソーラス記憶手段内のシソーラス情報に含まれる表現のうち、前記入力された電子文書に含まれる表現を学習データとして生成する学習データ生成手段と、
前記生成された学習データに基づいて当該学習データ間の類似度を計算し、この類似度により学習データを含む学習データグループを作成する学習データグループ作成手段と、
前記学習データグループの個数に対し、前記単語グループ記憶手段内の単語グループの個数を一致させるように、当該単語グループを統合する単語グループ統合手段と、
前記統合された単語グループ毎に、前記学習データグループ内の学習データを含む度合を示す大域評価値を計算し、この大域評価値を前記データ記憶手段に書き込む大域評価手段と、
前記統合された単語グループ毎に、単語グループ内の各単語を示す各単語ベクトルに関連する単語類似度の分散を計算し、得られた分散を局所評価値として前記データ記憶手段に書き込む局所評価手段と、
前記大域評価値及び前記局所評価値に基づいて、これら両評価値の和を上限値にするように、前記データ記憶手段内の単語グループの境界を調整する単語グループ調整手段と、
前記調整された単語グループ内の各単語を前記類似表現として抽出し、当該抽出した類似表現の各単語を出力する類似表現出力手段と、
を備えたことを特徴とする類似表現抽出装置。 - 請求項1に記載の類似表現抽出装置において、
前記所定の品詞の組合せは、名詞又は未知語と、動詞との組合せであることを特徴とする類似表現抽出装置。 - 請求項1又は請求項2に記載の類似表現抽出装置において、
前記単語類似度は、前記各単語ベクトル間の内積として算出されるコサイン類似度であることを特徴とする類似表現抽出装置。 - 請求項1乃至請求項3のいずれか1項に記載の類似表現抽出装置において、
前記教師なし学習手法は、リーダ・フォロワ手法であることを特徴とする類似表現抽出装置。 - 請求項1乃至請求項4のいずれかに記載の類似表現抽出装置を備えたサーバ装置において、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段と、
前記クライアント端末から当該送信した各単語を含む電子文書の送信要求を受けると、当該電子文書を前記クライアント端末に送信する手段と、
前記送信した電子文書の排除又は追加を示す更新情報を前記クライアント端末から受けると、当該電子文書内に独自の単語があるか否かを判定する手段と、
この判定の結果、独自の単語がある場合には、前記更新情報に基づいて、単語グループ記憶手段内の単語グループに対し、当該独自の単語を排除又は追加する手段と、
前記独自の単語を排除又は追加した後、前記大域評価手段、前記局所評価手段及び前記単語グループ調整手段を再実行するように制御する手段と、
を備えたことを特徴するサーバ装置。 - 請求項1乃至請求項5のいずれかに記載の類似表現抽出装置を備えたサーバ装置において、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段と、
前記送信した各単語と、当該各単語を送信した送信回数とを互いに関連付けて前記データ記憶手段に書き込む手段と、
前記単語グループ毎に、最終更新日付を前記単語グループ記憶手段に書き込む手段と、
前記送信回数を書き込んだ後、当該送信回数が所定回数を超えたか否かを判定する手段と、
この判定の結果、当該所定回数を超えたとき、前記最終更新日付と現在日付との差分を示す経過日数が所定日数を超えたか否かを判定する手段と、
この判定の結果、当該所定日数を超えたとき、前記送信した各単語を前記シソーラス記憶手段に登録するシソーラス登録手段と、
を備えたことを特徴とするサーバ装置。 - 請求項1乃至請求項6のいずれかに記載の類似表現抽出装置を備えたサーバ装置において、
文書種類及び文書名を含む電子文書をコーパスとして記憶するためのコーパス記憶手段と、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段と、
前記クライアント端末から当該送信した各単語を含む電子文書の送信要求を受けると、当該電子文書を前記クライアント端末に送信する手段と、
前記送信した電子文書の追加を示す更新情報を前記クライアント端末から受けると、当該電子文書の文書種類が前記コーパス記憶手段内のいずれかの電子文書の文書種類と同一であるか否かを判定する手段と、
この判定の結果、文書種類が同一である場合には、前記送信した電子文書の文書名が前記コーパス記憶手段内の全ての電子文書の文書名と異なるか否かを判定する手段と、
この判定の結果、文書名が異なる場合には、前記送信した電子文書を前記コーパス記憶手段に登録するコーパス登録手段と、
を備えたことを特徴とするサーバ装置。 - データ記憶手段、単語グループ記憶手段及びシソーラス記憶手段を備え、電子文書から類似表現の各単語を抽出するための類似表現抽出装置のプログラムであって、
前記類似表現抽出装置を、
前記電子文書を入力するための文書入力手段、
前記文書入力手段により入力された電子文書内の文を形態素解析し、得られた形態素解析結果を前記データ記憶手段に書き込む形態素解析手段、
前記データ記憶手段内の形態素解析結果を構文解析し、構文解析結果として得られた文脈情報を前記データ記憶手段に書き込む構文解析手段、
前記データ記憶手段内の文脈情報から2文節の係り受けの組を含む共起表現を抽出し、この共起表現を前記データ記憶手段に書き込む共起表現抽出手段、
前記データ記憶手段内の共起表現のうち、所定の品詞の組合せの2文節からなる共起表現に基づいて、この共起表現における一方の単語毎に、他方の単語との共起頻度と、前記電子文書内の単語との共起頻度とからなる単語属性値を算出する単語属性値算出手段、
前記単語属性値を前記一方の単語に関連付けることにより、当該単語毎に単語ベクトルを作成し、この単語ベクトルを前記データ記憶手段に書き込む単語ベクトル作成手段、
前記データ記憶手段内の各単語ベクトル間の単語類似度を計算し、得られた単語類似度を、当該計算に用いた各単語ベクトルに関連付けて前記データ記憶手段に書き込む単語類似度計算手段、
前記データ記憶手段内の単語類似度に基づいて、教師なし学習手法により、前記単語類似度の算出に用いた各単語ベクトルが示す各単語を同一の単語グループに分類し、当該分類された各単語を含む単語グループを前記単語グループ記憶手段に書き込む単語グループ化手段、
前記シソーラス記憶手段内のシソーラス情報に含まれる表現のうち、前記入力された電子文書に含まれる表現を学習データとして生成する学習データ生成手段、
前記生成された学習データに基づいて当該学習データ間の類似度を計算し、この類似度により学習データを含む学習データグループを作成する学習データグループ作成手段、
前記学習データグループの個数に対し、前記単語グループ記憶手段内の単語グループの個数を一致させるように、当該単語グループを統合する単語グループ統合手段、
前記統合された単語グループ毎に、前記学習データグループ内の学習データを含む度合を示す大域評価値を計算し、この大域評価値を前記データ記憶手段に書き込む大域評価手段、
前記統合された単語グループ毎に、単語グループ内の各単語を示す各単語ベクトルに関連する単語類似度の分散を計算し、得られた分散を局所評価値として前記データ記憶手段に書き込む局所評価手段、
前記大域評価値及び前記局所評価値に基づいて、これら両評価値の和を上限値にするように、前記データ記憶手段内の単語グループの境界を調整する単語グループ調整手段、
前記調整された単語グループ内の各単語を前記類似表現として抽出し、当該抽出した類似表現の各単語を出力する類似表現出力手段、
として機能させるためのプログラム。 - 請求項8に記載のプログラムにおいて、
前記所定の品詞の組合せは、名詞又は未知語と、動詞との組合せであることを特徴とするプログラム。 - 請求項8又は請求項9に記載のプログラムにおいて、
前記単語類似度は、前記各単語ベクトル間の内積として算出されるコサイン類似度であることを特徴とするプログラム。 - 請求項8乃至請求項10のいずれか1項に記載のプログラムにおいて、
前記教師なし学習手法は、リーダ・フォロワ手法であることを特徴とするプログラム。 - 請求項8乃至請求項11のいずれかに記載の類似表現抽出装置を備えたサーバ装置のプログラムにおいて、
前記サーバ装置を、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段、
前記クライアント端末から当該送信した各単語を含む電子文書の送信要求を受けると、当該電子文書を前記クライアント端末に送信する手段、
前記送信した電子文書の排除又は追加を示す更新情報を前記クライアント端末から受けると、当該電子文書内に独自の単語があるか否かを判定する手段、
この判定の結果、独自の単語がある場合には、前記更新情報に基づいて、単語グループ記憶手段内の単語グループに対し、当該独自の単語を排除又は追加する手段、
前記独自の単語を排除又は追加した後、前記大域評価手段、前記局所評価手段及び前記単語グループ調整手段を再実行するように制御する手段、
として機能させるためのプログラム。 - 請求項8乃至請求項12のいずれかに記載の類似表現抽出装置を備えたサーバ装置のプログラムにおいて、
前記サーバ装置を、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段、
前記送信した各単語と、当該各単語を送信した送信回数とを互いに関連付けて前記データ記憶手段に書き込む手段、
前記単語グループ毎に、最終更新日付を前記単語グループ記憶手段に書き込む手段、
前記送信回数を書き込んだ後、当該送信回数が所定回数を超えたか否かを判定する手段、
この判定の結果、当該所定回数を超えたとき、前記最終更新日付と現在日付との差分を示す経過日数が所定日数を超えたか否かを判定する手段、
この判定の結果、当該所定日数を超えたとき、前記送信した各単語を前記シソーラス記憶手段に登録するシソーラス登録手段、
として機能させるためのプログラム。 - 請求項8乃至請求項13のいずれかに記載の類似表現抽出装置と、文書種類及び文書名を含む電子文書をコーパスとして記憶するためのコーパス記憶手段とを備えたサーバ装置のプログラムにおいて、
前記サーバ装置を、
検索対象の単語をクライアント端末から受けると、この検索対象の単語に基づいて前記単語グループ記憶手段を検索し、当該検索対象の単語を含む単語グループ内の各単語を前記クライアント端末に送信する手段、
前記クライアント端末から当該送信した各単語を含む電子文書の送信要求を受けると、当該電子文書を前記クライアント端末に送信する手段、
前記送信した電子文書の追加を示す更新情報を前記クライアント端末から受けると、当該電子文書の文書種類が前記コーパス記憶手段内のいずれかの電子文書の文書種類と同一であるか否かを判定する手段、
この判定の結果、文書種類が同一である場合には、前記送信した電子文書の文書名が前記コーパス記憶手段内の全ての電子文書の文書名と異なるか否かを判定する手段、
この判定の結果、文書名が異なる場合には、前記送信した電子文書を前記コーパス記憶手段に登録するコーパス登録手段、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008328752A JP2010152561A (ja) | 2008-12-24 | 2008-12-24 | 類似表現抽出装置、サーバ装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008328752A JP2010152561A (ja) | 2008-12-24 | 2008-12-24 | 類似表現抽出装置、サーバ装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010152561A true JP2010152561A (ja) | 2010-07-08 |
Family
ID=42571594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008328752A Pending JP2010152561A (ja) | 2008-12-24 | 2008-12-24 | 類似表現抽出装置、サーバ装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010152561A (ja) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012234282A (ja) * | 2011-04-28 | 2012-11-29 | Nec Corp | 要求文書分析システム、方法およびプログラム |
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP2014132406A (ja) * | 2013-01-07 | 2014-07-17 | Nec Corp | 同義語抽出システム、方法およびプログラム |
KR101478016B1 (ko) * | 2013-09-04 | 2015-01-02 | 한국과학기술정보연구원 | 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 |
US9324325B2 (en) | 2013-09-11 | 2016-04-26 | International Business Machines Corporation | Converting data between users during a data exchange session |
JP2016161968A (ja) * | 2015-02-26 | 2016-09-05 | 日本電信電話株式会社 | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
JP2018025874A (ja) * | 2016-08-08 | 2018-02-15 | 富士ゼロックス株式会社 | テキスト解析装置及びプログラム |
JP2018041300A (ja) * | 2016-09-08 | 2018-03-15 | 富士ゼロックス株式会社 | 機械学習用モデル生成装置及びプログラム。 |
JP2019179445A (ja) * | 2018-03-30 | 2019-10-17 | 正晃テック株式会社 | 病理診断文入力支援プログラム、病理診断文入力支援方法および病理診断文入力支援システム |
KR20190136911A (ko) * | 2018-05-31 | 2019-12-10 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 리허설 방법, 장치, 서버, 및 기억 매체 |
JP2020113041A (ja) * | 2019-01-11 | 2020-07-27 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび情報処理システム |
JP2022533948A (ja) * | 2019-05-15 | 2022-07-27 | グラブタクシー ホールディングス プライベート リミテッド | 通信サーバ装置、通信装置、およびその動作方法 |
US11514248B2 (en) | 2017-06-30 | 2022-11-29 | Fujitsu Limited | Non-transitory computer readable recording medium, semantic vector generation method, and semantic vector generation device |
WO2022249509A1 (ja) * | 2021-05-27 | 2022-12-01 | 有限会社アクアプラネット | 記録整理プログラム、記録整理方法、記録整理装置、および、記録媒体 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326479A (ja) * | 2003-04-25 | 2004-11-18 | Hitachi Ltd | 単語間類似度計算プログラム及び装置 |
-
2008
- 2008-12-24 JP JP2008328752A patent/JP2010152561A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004326479A (ja) * | 2003-04-25 | 2004-11-18 | Hitachi Ltd | 単語間類似度計算プログラム及び装置 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012234282A (ja) * | 2011-04-28 | 2012-11-29 | Nec Corp | 要求文書分析システム、方法およびプログラム |
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JPWO2014002776A1 (ja) * | 2012-06-25 | 2016-05-30 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP2014132406A (ja) * | 2013-01-07 | 2014-07-17 | Nec Corp | 同義語抽出システム、方法およびプログラム |
KR101478016B1 (ko) * | 2013-09-04 | 2015-01-02 | 한국과학기술정보연구원 | 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법 |
US9324325B2 (en) | 2013-09-11 | 2016-04-26 | International Business Machines Corporation | Converting data between users during a data exchange session |
US9542946B2 (en) | 2013-09-11 | 2017-01-10 | International Business Machines Corporation | Converting data between users during a data exchange session |
JP2016161968A (ja) * | 2015-02-26 | 2016-09-05 | 日本電信電話株式会社 | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム |
CN106021272B (zh) * | 2016-04-04 | 2019-11-19 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
JP2018025874A (ja) * | 2016-08-08 | 2018-02-15 | 富士ゼロックス株式会社 | テキスト解析装置及びプログラム |
JP2018041300A (ja) * | 2016-09-08 | 2018-03-15 | 富士ゼロックス株式会社 | 機械学習用モデル生成装置及びプログラム。 |
US11514248B2 (en) | 2017-06-30 | 2022-11-29 | Fujitsu Limited | Non-transitory computer readable recording medium, semantic vector generation method, and semantic vector generation device |
JP2019179445A (ja) * | 2018-03-30 | 2019-10-17 | 正晃テック株式会社 | 病理診断文入力支援プログラム、病理診断文入力支援方法および病理診断文入力支援システム |
JP7036378B2 (ja) | 2018-03-30 | 2022-03-15 | 正晃テック株式会社 | 病理診断文入力支援プログラム、病理診断文入力支援方法および病理診断文入力支援システム |
KR20190136911A (ko) * | 2018-05-31 | 2019-12-10 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 리허설 방법, 장치, 서버, 및 기억 매체 |
JP2019212287A (ja) * | 2018-05-31 | 2019-12-12 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキストリハーサル方法、装置、サーバ、及び記憶媒体 |
KR102254612B1 (ko) | 2018-05-31 | 2021-05-20 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 텍스트 환언 방법, 장치, 서버, 및 기억 매체 |
US11308286B2 (en) | 2018-05-31 | 2022-04-19 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and device for retelling text, server, and storage medium |
JP2020113041A (ja) * | 2019-01-11 | 2020-07-27 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび情報処理システム |
JP2022533948A (ja) * | 2019-05-15 | 2022-07-27 | グラブタクシー ホールディングス プライベート リミテッド | 通信サーバ装置、通信装置、およびその動作方法 |
US11907275B2 (en) | 2019-05-15 | 2024-02-20 | Grabtaxi Holdings Pte. Ltd. | Systems and methods for processing text data for disabbreviation of text units |
WO2022249509A1 (ja) * | 2021-05-27 | 2022-12-01 | 有限会社アクアプラネット | 記録整理プログラム、記録整理方法、記録整理装置、および、記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010152561A (ja) | 類似表現抽出装置、サーバ装置及びプログラム | |
Qi et al. | Openhownet: An open sememe-based lexical knowledge base | |
EP3203383A1 (en) | Text generation system | |
Buchanan et al. | English semantic word-pair norms and a searchable Web portal for experimental stimulus creation | |
JP2005216126A (ja) | 他言語のテキスト生成方法及びテキスト生成装置 | |
Othman et al. | English-asl gloss parallel corpus 2012: Aslg-pc12 | |
JP2018195330A (ja) | 発話文生成装置とその方法とプログラム | |
CN103678318B (zh) | 多词单元提取方法和设备及人工神经网络训练方法和设备 | |
Grif et al. | Development of computer sign language translation technology for deaf people | |
Brychcín et al. | Latent semantics in language models | |
Bowers et al. | Bridging the gaps between digital humanities, lexicography, and linguistics: A TEI dictionary for the documentation of Mixtepec-Mixtec | |
JP2001331515A (ja) | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 | |
Rasheed et al. | Query expansion in information retrieval for Urdu language | |
Litvak et al. | Improving summarization quality with topic modeling | |
JP2007087157A (ja) | 翻訳システム、翻訳装置、翻訳方法及びプログラム | |
Hamada et al. | Developing a transfer-based system for Arabic Dialects translation | |
JP2009140113A (ja) | 辞書編集装置、および辞書編集方法、並びにコンピュータ・プログラム | |
Moreira et al. | Finding missing cross-language links in wikipedia | |
JP2003330926A (ja) | 翻訳方法、翻訳装置及び翻訳プログラム | |
JP2007213336A (ja) | 辞書作成装置 | |
JP4646078B2 (ja) | 相互に関係する固有表現の組抽出装置及びその方法 | |
Ström et al. | Preparing a corpus of spoken Xhosa | |
JP3921543B2 (ja) | 機械翻訳装置 | |
Althobaiti | Minimally-supervised Methods for Arabic Named Entity Recognition | |
Zhang et al. | Automatic Construction of Parallel Dialogue Corpora with Rich Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120217 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120619 |