JP2016021136A

JP2016021136A - 類義語辞書作成装置

Info

Publication number: JP2016021136A
Application number: JP2014144408A
Authority: JP
Inventors: 陽介弓倉; Yosuke Yumikura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-07-14
Filing date: 2014-07-14
Publication date: 2016-02-04

Abstract

【課題】開発文書から類義語を自動で検出する類義語辞書作成装置を提供する。【解決手段】述語と係り受け関係にある補足語を表す係る形式である”格解析情報”と文節間の係り受け関係を示す”係り受け情報”とから構成される「構文解析情報」と「モダリティ情報」から成る構文解析結果を取得する構文解析部と、構文解析結果から述語文節とそれに係る補足語文節をまとめた節構造へ分解し、同一の文から生成された節構造を、節構造間の係り受け関係を有向の関係でつなげた行為連鎖構造を生成する行為連鎖構造生成部と、行為連鎖構造のペア毎に、２つの節構造間がどれくらい似ているかを表わす相似度を計算する相似度計算部と、相似性の高い行為連鎖構造のペアを利用して、格解析情報とモダリティ情報から、語のペアとなる２つの語の間の類似度を計算する類似度計算部と、語間で類似度の高い語を類義語として類義語辞書を作成し出力する類義語提示部と、を備える。【選択図】図１

Description

本発明の実施形態は、類義語辞書作成装置に関する。

システムの開発では、様々な文書が作成される。作成された文書内には、異なる文字列だが、同じ意味や似た意味を持つ単語、いわゆる類義語が多数存在する。

類義語が存在するために、二人以上の人間が同じ意味と思っていた単語が違う意味だった、あるいは、二人以上の人間が違う意味と思っていた単語が同じ意味だった、このような状況が引き起こされる。

このような状況になると、システムの仕様書や設計書の誤読を惹起し、製品の仕様が抜け漏れる、または、間違った仕様で製品が作られる、あるいは、システムの試験書の誤読を招き、試験すべき項目が実施されず製品の不具合を検出できない、といった問題が引き起こされる。

このため、テキストデータが１つ以上集まった文書であって、テキストデータの絶対量が少なく特有の語を含む文書、いわゆる開発文書から類義語を検出することは、開発するシステムに不具合が残存するリスクを低減することに役立つ。

しかし、この作業を人手で実施することは、工数が掛り、検出率にもムラがあるため難しい、という問題がある。

さらに、従来行われている係り受け関係による類義語辞書の構築や格関係による類義語辞書の構築では、抽出対象となるテキストデータ（文）が少ない場合には精度が低い、との問題があった。

「類義語辞書登録支援」製品名Text Mining Studio NTTデータ数理システム製森辰則他「係り受けの2部グラフと共起関係を利用した同義表現抽出」言語処理学会第10回年次大会発表論文集、 pp. 13--16、 (2004)

本発明が解決しようとする課題は、人手で実施するよりも、少ない工数、かつ、ムラなく特有の語を含む開発文書から類義語を自動で検出することができる類義語辞書作成装置を提供することである。

実施形態の類義語辞書作成装置は、入力した文書内の全ての文の構文解析を行い、文を構成し、語と係り受け関係から成る文節について、語とともに述語と係り受け関係にある補足語を表す係る形式あるいは活用形式から成る文節の情報と、述語と補足語間の関係を表す格解析情報と、文節間の係り受け関係を示す係り受け情報とで構成される構文解析情報とモダリティ情報から成る構文解析の結果を取得する構文解析部と、前記構文解析部における構文解析の結果から、前記構文解析情報と前記モダリティ情報を持ち、述語文節とそれに係る補足語文節という単位でまとめた節構造へ分解し、前記節構造間に存在する係り受け関係から、同一の文から生成された前記節構造を有向の関係である係り受け関係を用いてつなげた行為連鎖構造を生成する行為連鎖構造生成部と、前記行為連鎖構造生成部で生成された前記行為連鎖構造のペア毎に、２つの前記節構造がどれくらい似ているかの指標を表す前記節構造間の相似度を計算する相似度計算部と、相似性の高い前記行為連鎖構造のペアを利用して、前記格解析情報と前記モダリティ情報から、語のペアとなる２つの語の間でどれくらい類似しているかの指標を表す語間の類似度を計算する類似度計算部と、前記語間で前記類似度の高いものを類義語として類義語辞書を作成し出力する類義語提示部と、を備える。

本発明の実施形態に係る類義語辞書作成装置の概略構成を示すブロック図である。実施形態に係る類義語辞書作成装置における類義語辞書作成処理の流れを示すフローチャートである。開発文書内の文について行う構文解析処理を説明する図である。開発文書の構文解析処理の流れを示すフローチャートである。節構造を説明する図である。モダリティ情報の分配を説明する図である。影響関係の生成を説明する図である。構文解析結果に基づく行為連鎖構造の生成処理の流れを示すフローチャートである。図３に示す開発文書の構文解析結果に基づいて行為連鎖構造を生成する例を示す図である。節構造相似関係表の一例を示す図である。節構造間の相似度の計算処理の流れを示すフローチャートである。語間の類似度の算出（ステップその１）における語の定義を説明する図である。作用節Aと作用節Bの網羅的組合せの生成を説明する図である。ペア結果集合Bの生成を説明する図である。手順（５−１）乃至（５−５）の流れを示す模式図である。類似度補正ルールの適用の一例を説明する図である。節構造相似関係表を利用した語間の類似度算出の一例を示す図である。語間の類似度算出処理の流れを示すフローチャートである。図１８に示すフローチャートの語のペアの抽出処理の流れを示すフローチャートである。類義語辞書の作成処理の流れを示すフローチャートである。類義語辞書形式への加工を説明する図である。類義語辞書の一例を示す図である。

以下、本発明の一実施の形態について、図面を参照して説明する。尚、各図において同一箇所については同一の符号を付すとともに、重複した説明は省略する。

まず、本実施形態で用いる主要な用語について説明する。

「開発文書」とは、“テキストデータ”が１つ以上集まった文書であって、テキストデータの絶対量が少なく、特有の語が登場するものをいう。例えば、料理のレシピ本等も該当する。

「テキストデータ」とは、改行、句点、タブを区切り文字とし、自然言語で記述された文字列で区切り文字から区切り文字の間の文字列をいう。

「文」とは、自然言語処理による構文解析にかけられる“テキストデータ”を構成する文節を木構造的に保存するデータをいう。“文”は、複数の“文節”と“モダリティ情報”から成る。

「文節（セグメント）」とは、文を構成する要素で、語と係り受け関係から構成されている。係り受け関係から語は述語、補足語、その他の語に分類できる。

「格（ケース）」とは、述語に対する補足語の修飾関係が持つ属性をいう。述語が表す行為の主語や目的語を示す情報をいう。

「構文解析（の）結果」とは、テキストデータを自然言語処理によって構文解析した結果であって、述語と係り受け関係のある補足語が係る形式の情報である“格解析情報”と、文節間の係り受け関係の情報であって有向関係で表現される“係り受け情報”のデータを保持する。

「節（クロース）」とは、１つの述語とそれに係る複数の補足語で構成される構造をいう。

「節構造」とは、構文解析の結果において、述語文節とそれに係る補足語文節という単位でまとめた構造をいう。

「行為連鎖（アクションチェイン）」とは、節から節への修飾関係を表す構造、因果関係、条件と処理、理由と内容、時間の流れといった関係を表す。複文を構成する複数の節が形成する構造で、一つの文から作られる行為連鎖はN分岐の木構造となる。

「行為連鎖構造」とは、同一の文から生成された節構造を有向の関係である係り受け関係を用いてつなげた構造をいう。

「モダリティ」とは、文や用語に格関係以外の情報を付与するものをいう。言語学的には副詞や助詞などの影響によるものが多く、テンス、ヴォイス、ムード、アスペクト、否定や提題といった情報がモダリティにあたる。本実施形態においては、「受動」や「使役」といった格の属性である表層格が変化するモダリティ、および「条件」や「駆動」といった節の間の関係が持つ属性を利用し、文が保持するモダリティ情報は、節構造に分配される。

本実施形態においては、類義語かどうかの判定に、語間の比較だけでなく、節が持つ属性を利用した節間の比較、行為連鎖が持つ属性を利用した行為連鎖間の比較を行うものである。節が持つ属性を利用した節間の比較では、節内に存在する格の組合せおよび節内に存在するモダリティを利用する。行為連鎖が持つ属性を利用した行為連鎖間の比較では、行為連鎖が形成する木構造の相似具合を計算して類義語の判定に利用し、行為連鎖で節間に形成される係り受け関係に存在するモダリティを利用する。

図１は、本発明の実施形態に係る類義語辞書作成装置の概略構成を示すブロック図である。この装置は汎用のコンピュータ（例えばパーソナルコンピュータ（ＰＣ）等）と、同コンピュータ上で動作するソフトウェアとを用いて実現される。コンピュータとしては、ＣＡＤ（Computer Aided Design）やＣＡＥ（Computer Aided Engineering）に好適なエンジニアリングワークステーション（ＥＷＳ）等も含む。本実施形態はこのようなコンピュータにおいて、構文解析、節構造への分解、行為連鎖構造の生成、節構造間の相似度の計算、語間の類似度の計算、類義語辞書の作成を実行するプログラムとして実施することもできる。

図１に示すように、本実施形態に係る類義語辞書作成装置１は、開発文書を入力し、主として、構文解析部１０、行為連鎖構造生成部２０、相似度計算部３０、類似度計算部４０、類義語提示部５０から構成され、類義語の情報を出力する。

＜開発文書＞
開発文書は、その特性として、テキストデータの絶対量が少なく、１００文〜数万文程度のものが大部分を占めている。あるプロジェクトに関する開発文書においては、当該プロジェクト特有の語として、例えば、型番、機能名、ペットコード等の特有な補足語や、顧客の言い回し、慣例による省略語等の特有な言い回しが登場する。

そのため、特有の語を含む少数の文書から精度よく類義語辞書を作成するのは至難である。

＜各部の機能等＞
次に、各部の機能等について説明する。

構文解析部１０は、入力した開発文書内の全ての文の構文解析を行う。構文解析では、文を構成し、述語と係り受け関係にある補足語が係る形式で表記する文節に分解する。

構文解析した結果は、述語と補足語の関係を表す“格解析情報”と文節間の係り受け関係を示す“係り受け情報”のデータと、モダリティ情報から成る。構文解析した結果については後述する。構文解析した結果は、行為連鎖構造生成部２０に送られる。

行為連鎖構造生成部２０は、構文解析部１０における構文解析の結果から“構文解析情報”、“モダリティ情報”を持ち、述語文節とそれに係る補足語文節という単位でまとめた“節構造”へ分解する。また、節構造間に存在する係り受け関係から、同一の文から生成された節構造を有向の関係である係り受け関係を用いてつなげた“行為連鎖構造”を生成する。

相似度計算部３０は、行為連鎖構造生成部２０で構築された行為連鎖構造のペア毎に、２つの前記節構造がどれくらい似ているかの指標を表す節構造間の相似度を計算する。

類似度計算部４０は、相似性の高い行為連鎖構造のペアを利用して、格関係情報とモダリティ情報から、語のペアとなる２つの語の間でどれくらい類似しているかの指標を表す語間の類似度を計算する。

類義語提示部５０は、語間で類似度の高いものを類義語として類義語辞書を作成し出力する。

次に、以上のように構成された類義語辞書作成装置１における類義語辞書作成処理までの流れについて説明する。

図２は、実施形態に係る類義語辞書作成装置１における類義語辞書作成処理の流れを示すフローチャートである。ここでは、処理の概要を述べ、処理の詳細は後述する。

まず、開発文書の情報を入力し、開発文書に含まれるテキストデータを１つずつ構文解析し、格解析情報と係り受け情報のデータから成る構文解析情報とモダリティ情報を持つ文という形式で保存する（ステップＳ２１）。

次に、文の構文解析情報を分解し、各構文解析情報から、述語文節とそれに係る補足語文節という単位でまとめた節構造へと分解する。モダリティ情報は、関係する構文解析情報を持つ節構造に分配する。構文解析情報の係り受け関係情報を用いて、節構造間に存在する係り受け関係から、同一の文から生成された節構造を有向の関係である係り受け関係を用いてつなげた行為連鎖構造を生成する（ステップＳ２２）。

次に、全ての行為連鎖構造間で節構造相似関係表（後述する）を作成し、行為連鎖構造のペア毎に、２つの節構造がどれくらい似ているかの指標を表す節構造間の相似度を計算する（ステップＳ２３）。

次に、相似性の高い行為連鎖構造のペアを利用して、格関係情報とモダリティ情報から、語のペアとなる２つの語の間でどれくらい類似しているかの指標を表す語間の類似度を計算する。類似度が０（ゼロ）以上のペアを類義語データとして保存する（ステップＳ２４）。

次いで、類義語データの集合から類義語辞書やその他ユーザが設定する閲覧形式に加工して出力する（ステップＳ２５）。

＜構文解析＞
次に、開発文書内の全ての文について行う構文解析について説明する。

図３は、開発文書内の文について行う構文解析処理を説明する図である。図３（ａ）に示す開発文書の例では、［テキストデータ１］、［テキストデータ２］、［テキストデータ３］が含まれている。これらテキストデータについて、周知の自然言語処理を実行して、文を構成する文節と、文節間の係り受け関係を示す係り受け情報およびモダリティ情報を取得する。文節は、述語と係り受け関係のある補足語が係る形式に表記するのが好適である。構文解析の結果、述語と補足語の関係を表す格解析情報と、係り受け情報が生成される。

図３（ｂ）に示すように、［テキストデータ１］「コンセントを差し込むと、設定値にはデフォルト値がセットされ、ポットがアイドル状態になる。」を構文解析すると、“コンセント”、“差し込む”、“設定値”、“デフォルト値”、“セット”、“ポット”、“アイドル状態”、“なる”の各文節は、図３（ｂ）に示すような格解析情報および係り受け情報の関係から成り立っている。構文解析の際に生成されるモダリティ情報は、「駆動」、「受身」である。

同様に、図３（ｃ）に示すように、［テキストデータ２］「コンセントに初めて繋いで直ぐは、一度アイドル状態となる。」を構文解析すると、“コンセント”、“初めて”、“繋ぐ”、“直ぐ”、“一度”、“アイドル状態”、“なる”の各文節は、図３（ｃ）に示すような格解析情報および係り受け情報の関係から成り立っている。

同様に、図３（ｄ）に示すように、［テキストデータ３］「コンセントが差し込まれると、設定値に初期値をセットする。」を構文解析すると、“コンセント”、“差し込む”、“設定値”、“初期値”、“セットする”の各文節は、図３（ｄ）に示すような格解析情報および係り受け情報の関係から成り立っている。構文解析の際に生成されるモダリティ情報は、「駆動」、「受身」である。

図４は、開発文書の構文解析処理の流れを示すフローチャートである。

まず、開発文書の中からテキストデータを１つ取得する（ステップＳ４１）。

次いで、当該テキストデータを構文解析し、格解析情報および係り受け情報から成る構文解析結果を取得する（ステップＳ４２）。文とともに構文解析結果は、記憶装置（図示しない）に保存するのが好適である。

次に、構文解析結果を取り出し、構文解析結果において以下のようなデータをモダリティと判断し、モダリティ情報を抽出する（ステップＳ４３）。

（１）言語解析器が判定したモダリティ情報（例：＜可能表現＞、＜否定表現＞、＜態：受動＞など）
（２）言語解析器が抽出した構文情報の組合せでモダリティ情報を含むと判断されるもの（例：＜ID：〜が＞、＜テモ＞、など）
（３）言語解析器が抽出した単語要素の組合せでモダリティ情報を含むと判断されるもの（例：「従来」、「時」、「場合」、など）
（４）上記（１）〜（３）までの組合せ
モダリティ情報の抽出された情報から、次のように、モダリティを判断する。

＜否定表現＞ → ＜否定＞モダリティ
＜ID：〜が＞ → ＜逆接＞モダリティ
「場合」 → ＜条件＞モダリティ
＜ため-せい＞AND＜ID：〜ため＞ → ＜原因＞モダリティ
抽出したモダリティ情報は、構文解析結果とともに記憶装置に保存する。

次に、解析すべきテキストデータが残っているか否かを判定する（ステップＳ４４）。解析すべきテキストデータが残っていれば（ステップＳ４４でＹｅｓ）、ステップＳ４１に移行する。

解析すべきテキストデータが残っていなければ（ステップＳ４４でＮｏ）、開発文書の構文解析処理を終了する。

＜文の節構造への分解＞
次に、文の節構造への分解について説明する。図５は、節構造を説明する図である。

（１）まず、文の持つ構文解析結果から、以下の手順で各文節のデータを“述語”と“補足語”と“その他の語”に分類する。

（i）まず、構文解析結果で補足語を形成しない用言を含む文節を“述語”とする。

述語の判定は、例えば、係り受け解析を行う周知の言語解析器であるKNPを利用することができる。判定例：「<用言：動>」、など。

（ii）次に、構文解析結果で、以下の条件に該当する文節の集合を“補足語”とする。

・述語ではない、述語に係る文節（文節A）が１つ存在する。

・述語ではない、文節Aにかかる文節が所属する。

・所属する文節が述語に係られない。

（iii）さらに、上記に当てはまらない語を“その他の語”とする。“その他の語”は、節構造間の係り受け関係を示す影響関係（後述する）に変換される。本実施形態においては、接続語等は、“その他の語”に分けられる。

（２）上記で分類された語を以下のように１つの節構造にまとめる。

（i）述語を１つ取り出す。

（ii）述語に係る補足語（を表現する構文解析結果）を全て取り出す。

図５に示すように、節構造では、文節の中から“述語”が取り出され、各述語に係る“補足語”と“その他の語”が関係付けされている。

＜モダリティ情報の分配＞
文のモダリティ情報を節構造へ分配する。文が分割される際に、文が持つモダリティ情報を分配する処理を指す。モダリティ情報は言語解析結果の文節ごとに保持されているため、分割された節構造ごとにそれを保持させることができる。

図６は、モダリティ情報の分配を説明する図である。図６に示す例では、「大阪が雨で、名古屋も雨の場合、明日の東京は雨である。」とのテキストデータを各文節と文節間の係り受け情報に加えて、＜条件＞のモダリティ情報から成る文に構文解析し、２つの節構造に＜条件＞のモダリティ情報が分配されている。

＜影響関係の生成＞
同一の文から生成された節構造を有向の関係である係り受け関係を用いてつなげた行為連鎖構造は、１つ以上の節構造と、節構造間の係り受け関係を示す“影響関係”から構成される。節構造の持つ係り受け情報で係り受け先が節構造の外にある場合、影響関係となる。影響関係は、係る側の節構造である動力節、係られる側の節構造である作用節、および影響関係に分配されるモダリティ情報を持っている。

影響関係を、以下の規則に従って生成する。図７は、影響関係の生成を説明する図である。

（１）述語間に、直接係り受け関係がある場合
（i）１つの影響関係を行為連鎖構造に登録する。

（ii）文全体が持っているモダリティ情報でモダリティ分配ルールに該当するものを割り当てる。

（２）述語間に、その他の語（文節）が介在する係り受け関係がある場合
（i）１つの影響関係を行為連鎖構造に登録する。

（ii）登録する影響関係にその他の語を持つ文節が持っているモダリティ情報を割り当てる。

（iii）文全体が持っているモダリティ情報でモダリティ分配ルールに該当するものを割り当てる。

図７（ａ）は、述語間に、直接係り受け関係がある場合の影響関係の生成例を示し、図７（ｂ）は、述語間に、その他の語（文節）が介在する係り受け関係がある場合の影響関係の生成例を示している。

＜行為連鎖構造の生成＞
１つの文からは１つの行為連鎖構造が作成される。図８は、構文解析結果に基づく行為連鎖構造の生成処理の流れを示すフローチャートである。

まず、文の集合から文を１つ取得する（ステップＳ８１）。次に、文から節構造を生成する（ステップＳ８２）。生成された節構造は、構文解析情報とモダリティ情報を保有し、例えば記憶装置（図示しない）に保存する。

次いで、文のモダリティ情報をモダリティ分配ルールに基づいて節構造へ分配する（ステップＳ８３）。

次に、例えば記憶装置（図示しない）から節構造を１つ取得する（ステップＳ８４）。

次いで、節構造間に係り受け関係を示す影響関係を生成する（ステップＳ８５）。

次に、接続されていない節構造が存在するか否か判定する（ステップＳ８６）。１つの文から複数の節構造が作成され、これらの節構造は必ず１つの行為連鎖構造になる。そこで、接続されていない節構造が全てなくなった段階で行為連鎖構造が出来上がっていることを意味している。

接続されていない節構造が存在していれば（ステップＳ８６でＹｅｓ）、ステップＳ８４に戻る。

一方、接続されていない節構造が存在していなければ（ステップＳ８６でＮｏ）、行為連鎖構造を保存する（ステップＳ８７）。

次に、行為連鎖構造となっていない文が存在するか否か判定する（ステップＳ８８）。

行為連鎖構造となっていない文が存在していれば（ステップＳ８８でＹｅｓ）、ステップＳ８１に戻る。

一方、行為連鎖構造となっていない文が存在していなければ（ステップＳ８８でＮｏ）、行為連鎖構造の生成処理を終了する。

図９は、図３に示す開発文書の構文解析結果に基づいて行為連鎖構造を生成する例を示す図である。図９（ａ）に示す例では、図３（ｂ）に示す構文解析結果から、節構造１−１、節構造１−２、節構造１−３の３つの節構造が生成され、節構造１−２に対して＜受身＞のモダリティ情報が分配されている。そして、節構造１−１と節構造１−２間には、＜駆動＞のモダリティ情報を持つ影響関係があり、節構造１−２と節構造１−３間にも影響関係があり、行為連鎖構造が生成されていることが分かる。

図９（ｂ）に示す例では、図３（ｃ）に示す構文解析結果から、節構造２−１、節構造２−２の２つの節構造が生成されている。そして、節構造２−１と節構造２−２間には、影響関係があり、行為連鎖構造が生成されていることが分かる。

図９（ｃ）に示す例では、図３（ｄ）に示す構文解析結果から、節構造３−１、節構造３−２の２つの節構造が生成され、節構造３−１に対して＜受身＞のモダリティ情報が分配されている。そして、節構造３−１と節構造３−２間には、＜駆動＞のモダリティ情報を持つ影響関係があり、行為連鎖構造が生成されていることが分かる。

＜節構造間の相似度＞
次に、節構造間の相似度を、以下の計算ルールによって計算する。相似度とは、２つの節構造がどれくらい似ているかの指標値をいう。また、相似度の計算ルールは、相似度が計算できるか、また、計算できた際の値を調整するためのルールである。相似度の計算ルールは、記憶装置（図示しない）に保存しておき、必要に応じて参照する。

相似度の計算ルールでは、以下の相似判定ルールを組合せ、もしくは、単独で用いて節構造が似ているか否かの相似判定を行うことにするのが好適である。例えば、以下の「文字列完全一致」や「編集距離１以内」に該当するものについて、相似度＝１とする。

（i）述語…述語の文字列の一致度に関する制約（例：「文字列完全一致」、「編集距離１以内」、など）ここで、文字列１から文字列２までの編集距離とは、文字列１の文字を編集（追加、消去）したときに文字列２になるまでの編集回数等をいう。

（ii）補足語…補足語の文字列の一致度に関する制約（例：「文字列完全一致」、「編集距離１以内」、など）
（iii）格関係情報…格関係の一致度に関する制約（例：「格関係一致」、「ヲ格とガ格」、など）
（iv）モダリティ情報…節構造内に存在するモダリティ情報に関する制約（例：「一方が＜受動＞モダリティを持つ、など）
（v）存在する語…節構造内に存在する語に関する制約（例：「双方とも｛即、すぐ｝という語を含む」）
相似度の計算ルールでは、相似判定ルールが合致した際に相似度の値をどのように調整するかの影響ルールを定めることが好適である。調整は、合致した相似判定ルールの強弱を反映するために行う。換言すれば、類義語を取り出す上で、相似度が重要な判断指標となるが、より効果の高い相似判定ルールに高い得点を、あまり効果の高くない相似判定ルールには低い得点を与えることで、類義語の判断精度を高められるため調整する。係る調整は、例えば、相似判定ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する等である。

＜節構造相似関係表＞
節構造相似関係表とは、節構造間で計算できる相似度を、２つの互いに異なる行為連鎖構造に所属する各節の間で計算した結果を保存する表をいう。節構造相似関係表には、互いに異なる行為連鎖構造に所属している節構造間で相似度を計算した際の情報、いわば、節間相似情報も記入する。節間相似情報は、節構造（比較した２つの節構造）と相似度の２つのデータから構成されている。節構造は、最終的に類義語辞書を構築する際に文字列を取り出すために利用され、相似度は、類似度の算出に利用する。そこで、節間相似情報をここに保持させておく必要がある。

図１０は、節構造相似関係表の一例を示す図である。図１０に示す例では、文１の構文解析結果に基づく節構造１−１、節構造１−２、節構造１−３の３つの節構造がモダリティ情報および影響関係を伴う行為連鎖構造の形で縦方向に配置され、文２の構文解析結果に基づく節構造２−１、節構造２−２の２つの節構造がモダリティ情報および影響関係を伴う行為連鎖構造の形で横方向に配置されている。

図１０に示す例では、節構造１−１の補足語である“コンセント”と節構造２−１の補足語である“コンセント”は文字列完全一致であるが、節構造１−１の述語である“差し込む”と節構造２−１の述語である“繋ぐ”は、文字列として一致せず、双方の格関係も一致していない。よって、図１０に示す例では、本来の相似度０（ゼロ）に節構造１−１と節構造２−１の相似度への影響として０．８を加算し、相似度＝０．８となっている。

さらに、節構造１−３の補足語である“アイドル状態”と節構造２−２の補足語である“アイドル状態”は文字列完全一致であり、節構造１−３の述語である“なる”と節構造２−２の述語である“なる”も文字列完全一致であり、双方の格関係も一致している。よって、図１０に示す例では、節構造１−３と節構造２−２の相似度は２．０となっている。図１０に示す例では、これら以外の節構造間では、上記した相似度計算ルールを適用しても、相似度は０（ゼロ）となっている。

図１１は、節構造間の相似度の計算処理の流れを示すフローチャートである。

まず、行為連鎖構造の集合から、行為連鎖構造のペアを１つ作成する（ステップＳ１１１）。

次に、２つの行為連鎖構造からそれぞれ１つずつ節構造を取り出す（ステップＳ１１２）。

次いで、相似度の計算ルールを適用して、節構造間の相似度を計算する（ステップＳ１１３）。

次に、全ての節構造のペアに対して相似度を求めたか否かを判定する（ステップＳ１１４）。

全ての節構造のペアに対する相似度の算出が済んでいなければ（ステップＳ１１４でＮｏ）、ステップＳ１１２に移行する。

一方、全ての節構造のペアに対する相似度の算出が済んでいれば（ステップＳ１１４でＹｅｓ）、次に、作成した節構造相似関係表を記憶装置（図示しない）に保存する（ステップＳ１１５）。

次いで、行為連鎖構造の全てのペアに対して節構造相似関係表を作成したか否かを判定する（ステップＳ１１６）。

全ての行為連鎖構造のペアに対する節構造相似関係表の作成が済んでいなければ（ステップＳ１１６でＮｏ）、ステップＳ１１１に移行する。

一方、全ての行為連鎖構造のペアに対する節構造相似関係表の作成が済んでいれば（ステップＳ１１６でＹｅｓ）、節構造間の相似度の計算処理を終了する。

＜語間の類似度＞
類似度とは、語のペアとなる２つの語の間でどれくらい類似しているかの指標値をいう。類似度の計算対象となる２つの語は、それぞれ、“関係”および“モダリティ”の情報を持っている。ここで、“関係”の情報とは、語が述語の場合は「述語」という関係が登録され、語が補足語の場合は述語に対する「格情報」が登録されることをいう。“モダリティ”は、節が有しているモダリティ情報である。

＜語間の類似度の算出手法＞
語間の類似度の算出手法については、以下のステップで行うことが好適である。

（ステップその１）
まず、語間の類似度の算出処理で利用する語の定義は以下とする。

作用節…ある節にとっての作用節とは、
（１）ある節が係る先の節、または、
（２）ある節にとっての作用節が係る先の節
動力節…ある節にとっての動力節とは、
（１）ある節に係る元の節、または、
（２）ある節にとっての動力節に係る元の節
子供節…係る先がある節である全ての節
兄弟節…ある節と係る先が同じ全ての節
図１２は、語間の類似度の算出（ステップその１）における語の定義を説明する図である。

以下の制約を満たしながら求まる、最大の類似度を出力とする。

計算対象となる語のペアを作り出した節を双方の「節A」とする。

［制約１］一方の行為連鎖において節Aの動力節となる節は、他方の行為連鎖においても節Aの動力節として存在する、または、どこにも存在しない。

［制約２］一方の行為連鎖において節Aの作用節となる節は、他方の行為連鎖においても節Aの作用節として存在する、または、どこにも存在しない。

［制約３］一方の行為連鎖において兄弟節を形成している節の組みが、他方の行為連鎖で一方の節が他方の作用節になることはない。

この処理の出力は、以下の情報によって補正される。

＜類似度の補正＞
類似度の計算ルールでは、類似度補正ルールが合致した際に類似度の値をどのように調整するかの影響ルールを定めることが好適である。類義語を取り出す上で、類似度の高さが判断指標となる。そこで、より効果の高い類似度補正ルールには高い補正効果を、あまり効果の高くない類似度補正ルールには低い補正効果を与えることで、類義語の判断精度を高められるため調整する。係る調整は、例えば、類似度補正ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する等である。

補正要否の基準は、類似度の計算ルールを設定するユーザに依存する。類義語か否かの判断基準は、類義語の抽出対象となる文書の傾向や分野などにより、記述の傾向が変わることがあり、その修正が主な基準になるからである。

類似度の補正は、語の関係による類似度の補正か、節の関係による類似度の補正かによって、補正のための構成データが変わる。

（１）語の関係による類似度補正ルール構成データ
以下のルールを組合せ、もしくは、単独で用いて補正ルールを作成する。

（i）格関係情報…格関係の一致度に関する制約（例：「格関係一致」、「ヲ格とガ格」、など）
（ii）モダリティ情報…節に存在するモダリティ情報に関する制約（例：「一方が＜受動＞モダリティを持つ、など）
（２）節の関係による類似度補正ルール構成データ
以下のルールを組合せ、もしくは、単独で用いて補正ルールを作成する。

（i）隣接する節の間の節数…２つのペアを形成する。

（ii）隣接する節の持つモダリティ
以上の類似度の補正ルールを前提とし、類似度の計算対象となった語ペアの関係から類似度の補正ルールを適用し、類似度の値を補正する。

他方の行為連鎖の節とペアを形成している節で隣接するものの間にあるモダリティから類似度の補正ルールを適用し、類似度の値を補正する。

（ステップその２）
（１）語のペアのそれぞれが属していた行為連鎖構造を行為連鎖A、行為連鎖Bとする。

（２）語のペアのそれぞれが属していた節を行為連鎖Aに属していた節を節A0、行為連鎖Bに属していた節を節B0とする。

（３）節A0の作用節AとB0の作用節Bの網羅的組合せを作成する。図１３は、作用節Aと作用節Bの網羅的組合せの生成を説明する図である。ただし、相似度が０（ゼロ）となる節のペアが形成されるものは排除し、生成されるペアは［制約２］を必ず守る。

（４）ペアを形成した節をそれぞれ、（A1、B1）、（A２、B2)と名付ける。

（５）作成した各ペアに（A0、B0）を合わせたものに対して、それぞれの節の動作節DAN（Nは番号）の類似度が最大となる組合せを求める。厳密には、「動作節-作用節に属している節が存在する枝に属する節群」から類似度が最大となる組合せを求める。以下は、（５）の処理の詳細である。

（５−１）動作節DANで節ANを起点節とする。この起点節の子供節を子供節集合Aとする。

（５−２）子供節集合Aの１つの節を取り出し、動作節DBNの節BN以外の節と網羅的にペアを作る、または、ペアを作らない。この結果を「ペア結果集合B」と呼び、相似度が０（ゼロ）のペアは計算から除外する。図１４は、ペア結果集合Bの生成を説明する図である。

（５−３）子供節集合Aでペアを形成していないものがまだ存在する場合、（５−４）へ、それ以外の場合は（５−５）に行く。

（５−４）ペア結果集合Bに対して、動作節DBNの節BN以外の節、かつ、ペアが空いている節と網羅的にペアを作る。ただし、相似度が０（ゼロ）のペアについてはペアを作らない。この結果を再び「ペア結果集合B」と呼ぶ。なお、［制約１］、［制約２］、［制約３］に違反するペア結果は、集合から排除する。

（５−５）元の子供節集合Aに所属していた全ての節の子供節の和集合を節集合αとしたとき、節集合αを新しい子供節集合Aに置き換え、（５−３）に戻る。

図１５は、上記した手順（５−１）乃至（５−５）の流れを示す模式図である。

（６）上記の処理で作り出されたペアを形成する木構造の相似度の和を求め、それを語の類似度とする。この計算中に、類似度の計算対象となった語ペアの関係から類似度補正ルールを適用し、類似度の値を補正する。

例えば、
“語１”：関係＝述語、“語２”：関係＝述語の場合 → 類似度を 1.0倍
“語１”：関係＝ヲ格、“語２”：関係＝二格の場合 → 類似度を 0.8倍
“語１”：関係＝ガ格、“語１”モダリティ≠受動、かつ、関係=ヲ格、モダリティ＝受動 → 類似度を 1.0倍する。

また、他方の行為連鎖の節とペアを形成している節で隣接するものの間にあるモダリティから類似度補正ルールを適用し、類似度の値を補正する。

例えば、
ペア（節A0、節B0）とペア（節A1、節B1）の間の双方に駆動モダリティが存在する場合→ペア（節A0、節B0）の相似度を1.2倍、ペア（節A1、節B1）の相似度を1.2倍する。図１６は、類似度補正ルールの適用の一例を説明する図である。

図１７は、節構造相似関係表を利用した語間の類似度算出の一例を示す図である。図１７に示す例では、上述してきた類似度の算出手順を適用した結果、「繋ぐ」と「差し込む」の間の類似度は、２．８と算出している。

図１８は、語間の類似度算出処理の流れを示すフローチャートである。

まず、節構造相似関係表を１つ取得する（ステップＳ１８０１）。

次に、取得した節構造相似関係表から節間相似情報を１つ取得する（ステップＳ１８０２）。

次に、取得した節間相似情報に基づいて、類似度を計算する対象となる語のペアを抽出する（ステップＳ１８０３）。語のペアの抽出については、詳細を後述する。抽出した語のペアは、語のペアの集合として記憶装置（図示しない）に格納する。各語のペアは、それぞれ“語”、“関係”、“モダリティ”を保有している。

続いて、語のペアを１つ取得し、語間の類似度を計算する（ステップＳ１８０４）。必要に応じて、類似度補正ルールを適用する。

次に、類似度を計算した語のペアが、類義語データが既に登録されているか否かを判定する（ステップＳ１８０５）。

既に登録されていれば（ステップＳ１８０５でＹｅｓ）、続いて、語のペアおよび類似度から成る類義語データを保存（ステップＳ１８０６）し、ステップＳ１８０８に移行する。

一方、登録されていなければ（ステップＳ１８０５でＮｏ）、続いて、既存の類義語データの類似度に値を加算（ステップＳ１８０７）し、ステップＳ１８０８に移行する。

次に、類似度を計算していない語のペアが存在するか否かを判定する（ステップＳ１８０８）。

類似度を計算していない語のペアが存在するならば（ステップＳ１８０８でＹｅｓ）、ステップＳ１８０４に戻る。

一方、類似度を計算していない語のペアが存在しなければ（ステップＳ１８０８でＮｏ）、次に、類似度の計算対象にしていない節間相似情報が存在するか否かを判定する（ステップＳ１８０９）。

類似度の計算対象にしていない節間相似情報が存在するならば（ステップＳ１８０９でＹｅｓ）、ステップＳ１８０２に移行する。

一方、類似度の計算対象にしていない節間相似情報が存在しなければ（ステップＳ１８０９でＮｏ）、次に、全ての節構造相似関係表から類義語データを算出したか否かを判定する（ステップＳ１８１０）。

類義語データを算出していなければ（ステップＳ１８１０でＮｏ）、ステップＳ１８０１に移行する。

一方、類義語データを算出したならば（ステップＳ１８１０でＹｅｓ）、語間の類似度算出処理を終了する。

図１９は、図１８に示すフローチャートの語のペアの抽出処理の流れを示すフローチャートである。

まず、節間相似情報を取得し、相似度が０（ゼロ）よりも大きいか否かを判定する（ステップＳ１９１）。

０（ゼロ）よりも大きければ、２つの節構造の間で述語が一致していないか否かを判定する（ステップＳ１９２）。なお、「一致する」の真偽の判定は、編集距離で決める。

述語が一致していなければ（ステップＳ１９２でＹｅｓ）、２つの節構造の述語を語のペアとして出力（ステップＳ１９３）し、ステップＳ１９４に移行する。

一方、述語が一致していれば（ステップＳ１９２でＮｏ）、２つの節構造の間で一致する補足語が存在しない補足語の集合を節構造毎に作る（ステップＳ１９４）。なお、「一致する」の真偽の判定は、編集距離で決める。

次に、各節構造から作られた補足語の集合をAとBとし、その直積を補足語のペアにする（ステップＳ１９５）。

続いて、補足語のペアを１つ取得し、出力する（ステップＳ１９６）。

次に、抽出していない補足語のペアが存在するか否かを判定する（ステップＳ１９７）。

抽出していない補足語のペアが存在すれば（ステップＳ１９７でＹｅｓ）、ステップＳ１９６に移行する。

一方、抽出していない補足語のペアが存在しなければ（ステップＳ１９７でＮｏ）、語のペアの抽出処理を終了する。

＜類義語辞書の作成＞
類義語提示部は、語間で類似度の高いものを類義語とし、類義語データの集合から類義語辞書を作成し出力する。２つの語の間の類似度を記録するためのデータ構造として、“類義語データ”は、類似度を計算する対象となった２つの語の文字列である“語”と、“類似度”から成る。

類義語辞書の出力形式は、ユーザが設定する閲覧形式に加工することもできるが、データ構造としては表形式で管理できる構造となっている。類義語辞書の構成要素としては、類似していると判断された語のペアを示す“類義語ペア”と類似しているかの参考スコアを示す“類似度”である。

図２０は、類義語辞書の作成処理の流れを示すフローチャートである。

まず、類義語データの集合から、類義語データを１つ取得する（ステップＳ２０１）。

次に、類義語辞書形式への加工を行う（ステップＳ２０２）。図２１は、類義語辞書形式への加工を説明する図である。

類義語辞書は、多様な出力形式を考えることができる。図２１（ａ）は、類義語のペアを網羅的に掲載するマトリクス構造の出力形式の一例である。図２１（ｂ）は、複数の語を１つにまとめる語を作成し、その下に類義語をまとめる木構造の出力形式の一例である。

図２１（ｃ）は、数値から距離を求め、１次元や２次元平面上で表示するグラフ形式の出力形式の一例である。

図２２は、類義語辞書の一例を示す図である。図２２に示す例では、節構造１と節構造２における「繋ぐ」と「差し込む」の間の類似度は２．８であり、節構造１と節構造３における「繋ぐ」と「差し込む」の間の類似度は２．６、デフォルト値と初期値の間の類似度は２．６、設定値と初期値の類似度は２．０８であり、節構造２と節構造３における「繋ぐ」と「差し込む」の間の類似度は１．０である。これを反映した類義語辞書が図２２（ｂ）のように作成される。

次に、未加工の類義語データが存在するか否かを判定する（ステップＳ２０３）。

未加工の類義語データが存在するならば（ステップＳ２０３でＹｅｓ）、ステップＳ２０１に戻り、一方、未加工の類義語データが存在しなければ（ステップＳ２０３でＮｏ）、類義語辞書の作成処理を終了する。

以上説明したように、本実施形態によれば、人手で実施するよりも、少ない工数、かつ、ムラなく開発文書から類義語を自動で検出できるようになる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１・・・類義語辞書作成装置
１０・・・構文解析部
２０・・・行為連鎖構造生成部
３０・・・相似度計算部
４０・・・類似度計算部
５０・・・類義語提示部

Claims

入力した文書内の全ての文の構文解析を行い、
文を構成し、語と係り受け関係から成る文節について、語とともに述語と係り受け関係にある補足語を表す係る形式あるいは活用形式から成る文節の情報と、述語と補足語間の関係を表す格解析情報と、文節間の係り受け関係を示す係り受け情報とで構成される構文解析情報とモダリティ情報から成る構文解析の結果を取得する構文解析部と、
前記構文解析部における構文解析の結果から、前記構文解析情報と前記モダリティ情報を持ち、述語文節とそれに係る補足語文節という単位でまとめた節構造へ分解し、
前記節構造間に存在する係り受け関係から、同一の文から生成された前記節構造を有向の関係である係り受け関係を用いてつなげた行為連鎖構造を生成する行為連鎖構造生成部と、
前記行為連鎖構造生成部で生成された前記行為連鎖構造のペア毎に、２つの前記節構造がどれくらい似ているかの指標を表す前記節構造間の相似度を計算する相似度計算部と、
相似性の高い前記行為連鎖構造のペアを利用して、前記格解析情報と前記モダリティ情報から、前記語のペアとなる２つの語の間でどれくらい類似しているかの指標を表す語間の類似度を計算する類似度計算部と、
前記語間で前記類似度の高いものを類義語として類義語辞書を作成し出力する類義語提示部と、を備える類義語辞書作成装置。
前記格解析情報は、述語と係り受け関係のある補足語が係る形式の情報であり、
前記係り受け情報は、前記文節間の係り受け関係の情報であって有向関係で表現される請求項１に記載の類義語辞書作成装置。
前記文節は、補足語を形成しない用言を含む前記文節を述語と分類し、
所定の条件に該当する前記文節の集合を補足語と分類し、
述語と補足語のいずれにも該当しない前記文節をその他の語に分類する請求項１乃至請求項３のいずれか１項に記載の類義語辞書作成装置。
前記その他の語は、前記節構造間の係り受け関係を示す影響関係に変換される請求項３に記載の類義語辞書作成装置。
前記節構造は、１つの述語に対して、前記述語に係る補足語を全て取り出し、その他の語を関係付けて、１つにまとめる請求項１乃至請求項４のいずれか１項に記載の類義語辞書作成装置。
前記文節ごとに保持している前記モダリティ情報は、分割された前記節構造ごとに分配する請求項１乃至請求項５のいずれか１項に記載の類義語辞書作成装置。
前記影響関係の生成は、
（１）述語間に、直接係り受け関係がある場合には、１つの影響関係を前記行為連鎖構造に登録し、文全体が持っている前記モダリティ情報でモダリティ分配ルールに該当するものを割り当て、
（２）述語間に、その他の語（文節）が介在する係り受け関係がある場合には、１つの前記影響関係を前記行為連鎖構造に登録し、登録する前記影響関係にその他の語を持つ文節が持っている前記モダリティ情報を割り当て、文全体が持っている前記モダリティ情報でモダリティ分配ルールに該当するものを割り当てる請求項４に記載の類義語辞書作成装置。
前記行為連鎖構造の生成は、１つの文から複数の前記節構造が作成され、前記節構造間に係り受け関係を示す前記影響関係を生成し、接続されていない前記節構造が全てなくなるまで前記影響関係の生成を行う請求項７に記載の類義語辞書作成装置。
前記節構造間の相似度は、
（１）述語の文字列の一致度に関する制約、（２）補足語の文字列の一致度に関する制約、（３）格関係の一致度に関する制約、（４）前記節構造に存在する前記モダリティ情報に関する制約、（５）前記節構造内に存在する語に関する制約、
の相似判定ルールを組合せ、もしくは、単独で用いて、前記節構造が似ているか否かの相似判定を行う請求項１乃至請求項８のいずれか１項に記載の類義語辞書作成装置。
前記述語の文字列の一致度に関する制約、あるいは、前記補足語の文字列の一致度に関する制約では、
文字列完全一致、あるいは、編集距離１以内に該当するものについて、相似度＝１とし、
前記格関係の一致度に関する制約では、
格関係一致、あるいは、ヲ格とガ格に該当するものについて、相似度＝１とし、
前記節構造に存在するモダリティ情報に関する制約では、
一方が受動のモダリティを持つに該当するものについて、相似度＝１とし、
前記節構造内に存在する語に関する制約では、
双方とも、あるいは、即または直ぐという語を含むに該当するものについて、相似度＝１と、
する請求項９に記載の類義語辞書作成装置。
算出された前記相似度について、
相似判定ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する補正を行う請求項１乃至請求項１０のいずれか１項に記載の類義語辞書作成装置。
前記相似度計算部は、
前記節構造間で計算する前記相似度を、２つの互いに異なる前記行為連鎖構造に所属する各節の間で計算した結果として保存する節構造相似関係表を生成する請求項１乃至請求項１１のいずれか１項に記載の類義語辞書作成装置。
前記節構造相似関係表には、
比較した２つの前記節構造と前記相似度のデータから成る節間相似情報が記載され、
前記節構造は、前記類義語辞書を構築する際に文字列を取り出すために利用され、前記相似度は、前記類似度の算出に利用する請求項１２に記載の類義語辞書作成装置。
前記類似度は、前記類似度の計算対象となる前記語のペアを作り出した節を双方の節Aとしたとき、
（１）一方の前記行為連鎖構造において前記節Aの動力節となる節は、他方の前記行為連鎖においても前記節Aの動力節として存在する、または、どこにも存在しない、
（２）一方の前記行為連鎖構造において前記節Aの作用節となる節は、他方の前記行為連鎖においても前記節Aの作用節として存在する、または、どこにも存在しない、
（３）一方の前記行為連鎖構造において兄弟節を形成している節の組みが、他方の前記行為連鎖で一方の節が他方の作用節になることはない、
の各制約を満たすような２つの前記行為連鎖を比較し、求まる最大の値に設定する請求項１乃至請求項１３のいずれか１項に記載の類義語辞書作成装置。
算出された前記類似度について、
類似度補正ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する補正を行う請求項１乃至請求項１４のいずれか１項に記載の類義語辞書作成装置。
前記類似度の補正は、
語の関係による前記類似度の補正の場合には、格関係の一致度に関する制約、節に存在するモダリティ情報に関する制約を、補正時の補正ルールとして組合せ、あるいは、単独で用い、
節の関係による前記類似度の補正の場合には、隣接する節間の節数、隣接する節の持つモダリティを、補正時の補正ルールとして組合せ、あるいは、単独で用いる請求項１５に記載の類義語辞書作成装置。
前記類義語辞書は、類似していると判断された前記語のペアを表す類義語ペアと、類似しているかの参考スコアを表す前記類似度で構成する請求項１乃至請求項１６のいずれか１項に記載の類義語辞書作成装置。
前記類義語辞書は、類義語のペアを網羅的に掲載するマトリクス構造である請求項１７に記載の類義語辞書作成装置。
前記類義語辞書は、複数の語を１つにまとめる語を作成し、その下に前記類義語をまとめる木構造である請求項１７に記載の類義語辞書作成装置。
前記文書は、テキストデータが１つ以上集まった文書であって、前記テキストデータの絶対量が所定量よりも少なく、特有の語が含まれている請求項１乃至請求項１９のいずれか１項に記載の類義語辞書作成装置。