JP2016021136A - 類義語辞書作成装置 - Google Patents
類義語辞書作成装置 Download PDFInfo
- Publication number
- JP2016021136A JP2016021136A JP2014144408A JP2014144408A JP2016021136A JP 2016021136 A JP2016021136 A JP 2016021136A JP 2014144408 A JP2014144408 A JP 2014144408A JP 2014144408 A JP2014144408 A JP 2014144408A JP 2016021136 A JP2016021136 A JP 2016021136A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- clause
- words
- information
- synonym dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】開発文書から類義語を自動で検出する類義語辞書作成装置を提供する。【解決手段】述語と係り受け関係にある補足語を表す係る形式である”格解析情報”と文節間の係り受け関係を示す”係り受け情報”とから構成される「構文解析情報」と「モダリティ情報」から成る構文解析結果を取得する構文解析部と、構文解析結果から述語文節とそれに係る補足語文節をまとめた節構造へ分解し、同一の文から生成された節構造を、節構造間の係り受け関係を有向の関係でつなげた行為連鎖構造を生成する行為連鎖構造生成部と、行為連鎖構造のペア毎に、2つの節構造間がどれくらい似ているかを表わす相似度を計算する相似度計算部と、相似性の高い行為連鎖構造のペアを利用して、格解析情報とモダリティ情報から、語のペアとなる2つの語の間の類似度を計算する類似度計算部と、語間で類似度の高い語を類義語として類義語辞書を作成し出力する類義語提示部と、を備える。【選択図】図1
Description
本発明の実施形態は、類義語辞書作成装置に関する。
システムの開発では、様々な文書が作成される。作成された文書内には、異なる文字列だが、同じ意味や似た意味を持つ単語、いわゆる類義語が多数存在する。
類義語が存在するために、二人以上の人間が同じ意味と思っていた単語が違う意味だった、あるいは、二人以上の人間が違う意味と思っていた単語が同じ意味だった、このような状況が引き起こされる。
このような状況になると、システムの仕様書や設計書の誤読を惹起し、製品の仕様が抜け漏れる、または、間違った仕様で製品が作られる、あるいは、システムの試験書の誤読を招き、試験すべき項目が実施されず製品の不具合を検出できない、といった問題が引き起こされる。
このため、テキストデータが1つ以上集まった文書であって、テキストデータの絶対量が少なく特有の語を含む文書、いわゆる開発文書から類義語を検出することは、開発するシステムに不具合が残存するリスクを低減することに役立つ。
しかし、この作業を人手で実施することは、工数が掛り、検出率にもムラがあるため難しい、という問題がある。
さらに、従来行われている係り受け関係による類義語辞書の構築や格関係による類義語辞書の構築では、抽出対象となるテキストデータ(文)が少ない場合には精度が低い、との問題があった。
「類義語辞書登録支援」製品名Text Mining Studio NTTデータ数理システム製
森辰則他「係り受けの2部グラフと共起関係を利用した同義表現抽出」言語処理学会第10回年次大会発表論文集、 pp. 13--16、 (2004)
本発明が解決しようとする課題は、人手で実施するよりも、少ない工数、かつ、ムラなく特有の語を含む開発文書から類義語を自動で検出することができる類義語辞書作成装置を提供することである。
実施形態の類義語辞書作成装置は、入力した文書内の全ての文の構文解析を行い、文を構成し、語と係り受け関係から成る文節について、語とともに述語と係り受け関係にある補足語を表す係る形式あるいは活用形式から成る文節の情報と、述語と補足語間の関係を表す格解析情報と、文節間の係り受け関係を示す係り受け情報とで構成される構文解析情報とモダリティ情報から成る構文解析の結果を取得する構文解析部と、前記構文解析部における構文解析の結果から、前記構文解析情報と前記モダリティ情報を持ち、述語文節とそれに係る補足語文節という単位でまとめた節構造へ分解し、前記節構造間に存在する係り受け関係から、同一の文から生成された前記節構造を有向の関係である係り受け関係を用いてつなげた行為連鎖構造を生成する行為連鎖構造生成部と、前記行為連鎖構造生成部で生成された前記行為連鎖構造のペア毎に、2つの前記節構造がどれくらい似ているかの指標を表す前記節構造間の相似度を計算する相似度計算部と、相似性の高い前記行為連鎖構造のペアを利用して、前記格解析情報と前記モダリティ情報から、語のペアとなる2つの語の間でどれくらい類似しているかの指標を表す語間の類似度を計算する類似度計算部と、前記語間で前記類似度の高いものを類義語として類義語辞書を作成し出力する類義語提示部と、を備える。
以下、本発明の一実施の形態について、図面を参照して説明する。尚、各図において同一箇所については同一の符号を付すとともに、重複した説明は省略する。
まず、本実施形態で用いる主要な用語について説明する。
「開発文書」とは、“テキストデータ”が1つ以上集まった文書であって、テキストデータの絶対量が少なく、特有の語が登場するものをいう。例えば、料理のレシピ本等も該当する。
「テキストデータ」とは、改行、句点、タブを区切り文字とし、自然言語で記述された文字列で区切り文字から区切り文字の間の文字列をいう。
「文」とは、自然言語処理による構文解析にかけられる“テキストデータ”を構成する文節を木構造的に保存するデータをいう。“文”は、複数の“文節”と“モダリティ情報”から成る。
「文節(セグメント)」とは、文を構成する要素で、語と係り受け関係から構成されている。係り受け関係から語は述語、補足語、その他の語に分類できる。
「格(ケース)」とは、述語に対する補足語の修飾関係が持つ属性をいう。述語が表す行為の主語や目的語を示す情報をいう。
「構文解析(の)結果」とは、テキストデータを自然言語処理によって構文解析した結果であって、述語と係り受け関係のある補足語が係る形式の情報である“格解析情報”と、文節間の係り受け関係の情報であって有向関係で表現される“係り受け情報”のデータを保持する。
「節(クロース)」とは、1つの述語とそれに係る複数の補足語で構成される構造をいう。
「節構造」とは、構文解析の結果において、述語文節とそれに係る補足語文節という単位でまとめた構造をいう。
「行為連鎖(アクションチェイン)」とは、節から節への修飾関係を表す構造、因果関係、条件と処理、理由と内容、時間の流れといった関係を表す。複文を構成する複数の節が形成する構造で、一つの文から作られる行為連鎖はN分岐の木構造となる。
「行為連鎖構造」とは、同一の文から生成された節構造を有向の関係である係り受け関係を用いてつなげた構造をいう。
「モダリティ」とは、文や用語に格関係以外の情報を付与するものをいう。言語学的には副詞や助詞などの影響によるものが多く、テンス、ヴォイス、ムード、アスペクト、否定や提題といった情報がモダリティにあたる。本実施形態においては、「受動」や「使役」といった格の属性である表層格が変化するモダリティ、および「条件」や「駆動」といった節の間の関係が持つ属性を利用し、文が保持するモダリティ情報は、節構造に分配される。
本実施形態においては、類義語かどうかの判定に、語間の比較だけでなく、節が持つ属性を利用した節間の比較、行為連鎖が持つ属性を利用した行為連鎖間の比較を行うものである。節が持つ属性を利用した節間の比較では、節内に存在する格の組合せおよび節内に存在するモダリティを利用する。行為連鎖が持つ属性を利用した行為連鎖間の比較では、行為連鎖が形成する木構造の相似具合を計算して類義語の判定に利用し、行為連鎖で節間に形成される係り受け関係に存在するモダリティを利用する。
図1は、本発明の実施形態に係る類義語辞書作成装置の概略構成を示すブロック図である。この装置は汎用のコンピュータ(例えばパーソナルコンピュータ(PC)等)と、同コンピュータ上で動作するソフトウェアとを用いて実現される。コンピュータとしては、CAD(Computer Aided Design)やCAE(Computer Aided Engineering)に好適なエンジニアリングワークステーション(EWS)等も含む。本実施形態はこのようなコンピュータにおいて、構文解析、節構造への分解、行為連鎖構造の生成、節構造間の相似度の計算、語間の類似度の計算、類義語辞書の作成を実行するプログラムとして実施することもできる。
図1に示すように、本実施形態に係る類義語辞書作成装置1は、開発文書を入力し、主として、構文解析部10、行為連鎖構造生成部20、相似度計算部30、類似度計算部40、類義語提示部50から構成され、類義語の情報を出力する。
<開発文書>
開発文書は、その特性として、テキストデータの絶対量が少なく、100文〜数万文程度のものが大部分を占めている。あるプロジェクトに関する開発文書においては、当該プロジェクト特有の語として、例えば、型番、機能名、ペットコード等の特有な補足語や、顧客の言い回し、慣例による省略語等の特有な言い回しが登場する。
開発文書は、その特性として、テキストデータの絶対量が少なく、100文〜数万文程度のものが大部分を占めている。あるプロジェクトに関する開発文書においては、当該プロジェクト特有の語として、例えば、型番、機能名、ペットコード等の特有な補足語や、顧客の言い回し、慣例による省略語等の特有な言い回しが登場する。
そのため、特有の語を含む少数の文書から精度よく類義語辞書を作成するのは至難である。
<各部の機能等>
次に、各部の機能等について説明する。
次に、各部の機能等について説明する。
構文解析部10は、入力した開発文書内の全ての文の構文解析を行う。構文解析では、文を構成し、述語と係り受け関係にある補足語が係る形式で表記する文節に分解する。
構文解析した結果は、述語と補足語の関係を表す“格解析情報”と文節間の係り受け関係を示す“係り受け情報”のデータと、モダリティ情報から成る。構文解析した結果については後述する。構文解析した結果は、行為連鎖構造生成部20に送られる。
行為連鎖構造生成部20は、構文解析部10における構文解析の結果から“構文解析情報”、“モダリティ情報”を持ち、述語文節とそれに係る補足語文節という単位でまとめた“節構造”へ分解する。また、節構造間に存在する係り受け関係から、同一の文から生成された節構造を有向の関係である係り受け関係を用いてつなげた“行為連鎖構造”を生成する。
相似度計算部30は、行為連鎖構造生成部20で構築された行為連鎖構造のペア毎に、2つの前記節構造がどれくらい似ているかの指標を表す節構造間の相似度を計算する。
類似度計算部40は、相似性の高い行為連鎖構造のペアを利用して、格関係情報とモダリティ情報から、語のペアとなる2つの語の間でどれくらい類似しているかの指標を表す語間の類似度を計算する。
類義語提示部50は、語間で類似度の高いものを類義語として類義語辞書を作成し出力する。
次に、以上のように構成された類義語辞書作成装置1における類義語辞書作成処理までの流れについて説明する。
図2は、実施形態に係る類義語辞書作成装置1における類義語辞書作成処理の流れを示すフローチャートである。ここでは、処理の概要を述べ、処理の詳細は後述する。
まず、開発文書の情報を入力し、開発文書に含まれるテキストデータを1つずつ構文解析し、格解析情報と係り受け情報のデータから成る構文解析情報とモダリティ情報を持つ文という形式で保存する(ステップS21)。
次に、文の構文解析情報を分解し、各構文解析情報から、述語文節とそれに係る補足語文節という単位でまとめた節構造へと分解する。モダリティ情報は、関係する構文解析情報を持つ節構造に分配する。構文解析情報の係り受け関係情報を用いて、節構造間に存在する係り受け関係から、同一の文から生成された節構造を有向の関係である係り受け関係を用いてつなげた行為連鎖構造を生成する(ステップS22)。
次に、全ての行為連鎖構造間で節構造相似関係表(後述する)を作成し、行為連鎖構造のペア毎に、2つの節構造がどれくらい似ているかの指標を表す節構造間の相似度を計算する(ステップS23)。
次に、相似性の高い行為連鎖構造のペアを利用して、格関係情報とモダリティ情報から、語のペアとなる2つの語の間でどれくらい類似しているかの指標を表す語間の類似度を計算する。類似度が0(ゼロ)以上のペアを類義語データとして保存する(ステップS24)。
次いで、類義語データの集合から類義語辞書やその他ユーザが設定する閲覧形式に加工して出力する(ステップS25)。
<構文解析>
次に、開発文書内の全ての文について行う構文解析について説明する。
次に、開発文書内の全ての文について行う構文解析について説明する。
図3は、開発文書内の文について行う構文解析処理を説明する図である。図3(a)に示す開発文書の例では、[テキストデータ1]、[テキストデータ2]、[テキストデータ3]が含まれている。これらテキストデータについて、周知の自然言語処理を実行して、文を構成する文節と、文節間の係り受け関係を示す係り受け情報およびモダリティ情報を取得する。文節は、述語と係り受け関係のある補足語が係る形式に表記するのが好適である。構文解析の結果、述語と補足語の関係を表す格解析情報と、係り受け情報が生成される。
図3(b)に示すように、[テキストデータ1]「コンセントを差し込むと、設定値にはデフォルト値がセットされ、ポットがアイドル状態になる。」を構文解析すると、“コンセント”、“差し込む”、“設定値”、“デフォルト値”、“セット”、“ポット”、“アイドル状態”、“なる”の各文節は、図3(b)に示すような格解析情報および係り受け情報の関係から成り立っている。構文解析の際に生成されるモダリティ情報は、「駆動」、「受身」である。
同様に、図3(c)に示すように、[テキストデータ2]「コンセントに初めて繋いで直ぐは、一度アイドル状態となる。」を構文解析すると、“コンセント”、“初めて”、“繋ぐ”、“直ぐ”、“一度”、“アイドル状態”、“なる”の 各文節は、図3(c)に示すような格解析情報および係り受け情報の関係から成り立っている。
同様に、図3(d)に示すように、[テキストデータ3]「コンセントが差し込まれると、設定値に初期値をセットする。」を構文解析すると、“コンセント”、“差し込む”、“設定値”、“初期値”、“セットする”の各文節は、図3(d)に示すような格解析情報および係り受け情報の関係から成り立っている。構文解析の際に生成されるモダリティ情報は、「駆動」、「受身」である。
図4は、開発文書の構文解析処理の流れを示すフローチャートである。
まず、開発文書の中からテキストデータを1つ取得する(ステップS41)。
次いで、当該テキストデータを構文解析し、格解析情報および係り受け情報から成る構文解析結果を取得する(ステップS42)。文とともに構文解析結果は、記憶装置(図示しない)に保存するのが好適である。
次に、構文解析結果を取り出し、構文解析結果において以下のようなデータをモダリティと判断し、モダリティ情報を抽出する(ステップS43)。
(1)言語解析器が判定したモダリティ情報(例:<可能表現>、<否定表現>、<態:受動>など)
(2)言語解析器が抽出した構文情報の組合せでモダリティ情報を含むと判断されるもの(例:<ID:〜が>、<テモ>、など)
(3)言語解析器が抽出した単語要素の組合せでモダリティ情報を含むと判断されるもの(例:「従来」、「時」、「場合」、など)
(4)上記(1)〜(3)までの組合せ
モダリティ情報の抽出された情報から、次のように、モダリティを判断する。
(2)言語解析器が抽出した構文情報の組合せでモダリティ情報を含むと判断されるもの(例:<ID:〜が>、<テモ>、など)
(3)言語解析器が抽出した単語要素の組合せでモダリティ情報を含むと判断されるもの(例:「従来」、「時」、「場合」、など)
(4)上記(1)〜(3)までの組合せ
モダリティ情報の抽出された情報から、次のように、モダリティを判断する。
<否定表現> → <否定>モダリティ
<ID:〜が> → <逆接>モダリティ
「場合」 → <条件>モダリティ
<ため-せい>AND<ID:〜ため> → <原因>モダリティ
抽出したモダリティ情報は、構文解析結果とともに記憶装置に保存する。
<ID:〜が> → <逆接>モダリティ
「場合」 → <条件>モダリティ
<ため-せい>AND<ID:〜ため> → <原因>モダリティ
抽出したモダリティ情報は、構文解析結果とともに記憶装置に保存する。
次に、解析すべきテキストデータが残っているか否かを判定する(ステップS44)。解析すべきテキストデータが残っていれば(ステップS44でYes)、ステップS41に移行する。
解析すべきテキストデータが残っていなければ(ステップS44でNo)、開発文書の構文解析処理を終了する。
<文の節構造への分解>
次に、文の節構造への分解について説明する。図5は、節構造を説明する図である。
次に、文の節構造への分解について説明する。図5は、節構造を説明する図である。
(1)まず、文の持つ構文解析結果から、以下の手順で各文節のデータを“述語”と“補足語”と“その他の語”に分類する。
(i)まず、構文解析結果で補足語を形成しない用言を含む文節を“述語”とする。
述語の判定は、例えば、係り受け解析を行う周知の言語解析器であるKNPを利用することができる。判定例:「<用言:動>」、など。
(ii)次に、構文解析結果で、以下の条件に該当する文節の集合を“補足語”とする。
・述語ではない、述語に係る文節(文節A)が1つ存在する。
・述語ではない、文節Aにかかる文節が所属する。
・所属する文節が述語に係られない。
(iii)さらに、上記に当てはまらない語を“その他の語”とする。“その他の語”は、節構造間の係り受け関係を示す影響関係(後述する)に変換される。本実施形態においては、接続語等は、“その他の語”に分けられる。
(2)上記で分類された語を以下のように1つの節構造にまとめる。
(i)述語を1つ取り出す。
(ii)述語に係る補足語(を表現する構文解析結果)を全て取り出す。
図5に示すように、節構造では、文節の中から“述語”が取り出され、各述語に係る“補足語”と“その他の語”が関係付けされている。
<モダリティ情報の分配>
文のモダリティ情報を節構造へ分配する。文が分割される際に、文が持つモダリティ情報を分配する処理を指す。モダリティ情報は言語解析結果の文節ごとに保持されているため、分割された節構造ごとにそれを保持させることができる。
文のモダリティ情報を節構造へ分配する。文が分割される際に、文が持つモダリティ情報を分配する処理を指す。モダリティ情報は言語解析結果の文節ごとに保持されているため、分割された節構造ごとにそれを保持させることができる。
図6は、モダリティ情報の分配を説明する図である。図6に示す例では、「大阪が雨で、名古屋も雨の場合、明日の東京は雨である。」とのテキストデータを各文節と文節間の係り受け情報に加えて、<条件>のモダリティ情報から成る文に構文解析し、2つの節構造に<条件>のモダリティ情報が分配されている。
<影響関係の生成>
同一の文から生成された節構造を有向の関係である係り受け関係を用いてつなげた行為連鎖構造は、1つ以上の節構造と、節構造間の係り受け関係を示す“影響関係”から構成される。節構造の持つ係り受け情報で係り受け先が節構造の外にある場合、影響関係となる。影響関係は、係る側の節構造である動力節、係られる側の節構造である作用節、および影響関係に分配されるモダリティ情報を持っている。
同一の文から生成された節構造を有向の関係である係り受け関係を用いてつなげた行為連鎖構造は、1つ以上の節構造と、節構造間の係り受け関係を示す“影響関係”から構成される。節構造の持つ係り受け情報で係り受け先が節構造の外にある場合、影響関係となる。影響関係は、係る側の節構造である動力節、係られる側の節構造である作用節、および影響関係に分配されるモダリティ情報を持っている。
影響関係を、以下の規則に従って生成する。図7は、影響関係の生成を説明する図である。
(1)述語間に、直接係り受け関係がある場合
(i)1つの影響関係を行為連鎖構造に登録する。
(i)1つの影響関係を行為連鎖構造に登録する。
(ii)文全体が持っているモダリティ情報でモダリティ分配ルールに該当するものを割り当てる。
(2)述語間に、その他の語(文節)が介在する係り受け関係がある場合
(i)1つの影響関係を行為連鎖構造に登録する。
(i)1つの影響関係を行為連鎖構造に登録する。
(ii)登録する影響関係にその他の語を持つ文節が持っているモダリティ情報を割り当てる。
(iii)文全体が持っているモダリティ情報でモダリティ分配ルールに該当するものを割り当てる。
図7(a)は、述語間に、直接係り受け関係がある場合の影響関係の生成例を示し、図7(b)は、述語間に、その他の語(文節)が介在する係り受け関係がある場合の影響関係の生成例を示している。
<行為連鎖構造の生成>
1つの文からは1つの行為連鎖構造が作成される。図8は、構文解析結果に基づく行為連鎖構造の生成処理の流れを示すフローチャートである。
1つの文からは1つの行為連鎖構造が作成される。図8は、構文解析結果に基づく行為連鎖構造の生成処理の流れを示すフローチャートである。
まず、文の集合から文を1つ取得する(ステップS81)。 次に、文から節構造を生成する(ステップS82)。生成された節構造は、構文解析情報とモダリティ情報を保有し、例えば記憶装置(図示しない)に保存する。
次いで、文のモダリティ情報をモダリティ分配ルールに基づいて節構造へ分配する(ステップS83)。
次に、例えば記憶装置(図示しない)から節構造を1つ取得する(ステップS84)。
次いで、節構造間に係り受け関係を示す影響関係を生成する(ステップS85)。
次に、接続されていない節構造が存在するか否か判定する(ステップS86)。1つの文から複数の節構造が作成され、これらの節構造は必ず1つの行為連鎖構造になる。そこで、接続されていない節構造が全てなくなった段階で行為連鎖構造が出来上がっていることを意味している。
接続されていない節構造が存在していれば(ステップS86でYes)、ステップS84に戻る。
一方、接続されていない節構造が存在していなければ(ステップS86でNo)、行為連鎖構造を保存する(ステップS87)。
次に、行為連鎖構造となっていない文が存在するか否か判定する(ステップS88)。
行為連鎖構造となっていない文が存在していれば(ステップS88でYes)、ステップS81に戻る。
一方、行為連鎖構造となっていない文が存在していなければ(ステップS88でNo)、行為連鎖構造の生成処理を終了する。
図9は、図3に示す開発文書の構文解析結果に基づいて行為連鎖構造を生成する例を示す図である。図9(a)に示す例では、図3(b)に示す構文解析結果から、節構造1−1、節構造1−2、節構造1−3の3つの節構造が生成され、節構造1−2に対して<受身>のモダリティ情報が分配されている。そして、節構造1−1と節構造1−2間には、<駆動>のモダリティ情報を持つ影響関係があり、節構造1−2と節構造1−3間にも影響関係があり、行為連鎖構造が生成されていることが分かる。
図9(b)に示す例では、図3(c)に示す構文解析結果から、節構造2−1、節構造2−2の2つの節構造が生成されている。そして、節構造2−1と節構造2−2間には、影響関係があり、行為連鎖構造が生成されていることが分かる。
図9(c)に示す例では、図3(d)に示す構文解析結果から、節構造3−1、節構造3−2の2つの節構造が生成され、節構造3−1に対して<受身>のモダリティ情報が分配されている。そして、節構造3−1と節構造3−2間には、<駆動>のモダリティ情報を持つ影響関係があり、行為連鎖構造が生成されていることが分かる。
<節構造間の相似度>
次に、節構造間の相似度を、以下の計算ルールによって計算する。相似度とは、2つの節構造がどれくらい似ているかの指標値をいう。また、相似度の計算ルールは、相似度が計算できるか、また、計算できた際の値を調整するためのルールである。相似度の計算ルールは、記憶装置(図示しない)に保存しておき、必要に応じて参照する。
次に、節構造間の相似度を、以下の計算ルールによって計算する。相似度とは、2つの節構造がどれくらい似ているかの指標値をいう。また、相似度の計算ルールは、相似度が計算できるか、また、計算できた際の値を調整するためのルールである。相似度の計算ルールは、記憶装置(図示しない)に保存しておき、必要に応じて参照する。
相似度の計算ルールでは、以下の相似判定ルールを組合せ、もしくは、単独で用いて節構造が似ているか否かの相似判定を行うことにするのが好適である。例えば、以下の「文字列完全一致」や「編集距離1以内」に該当するものについて、相似度=1とする。
(i)述語…述語の文字列の一致度に関する制約(例:「文字列完全一致」、「編集距離1以内」、など) ここで、文字列1から文字列2までの編集距離とは、文字列1の文字を編集(追加、消去)したときに文字列2になるまでの編集回数等をいう。
(ii)補足語…補足語の文字列の一致度に関する制約(例:「文字列完全一致」、「編集距離1以内」、など)
(iii)格関係情報…格関係の一致度に関する制約(例:「格関係一致」、「ヲ格とガ格」、など)
(iv)モダリティ情報…節構造内に存在するモダリティ情報に関する制約(例:「一方が<受動>モダリティを持つ、など)
(v)存在する語…節構造内に存在する語に関する制約(例:「双方とも{即、すぐ}という語を含む」)
相似度の計算ルールでは、相似判定ルールが合致した際に相似度の値をどのように調整するかの影響ルールを定めることが好適である。調整は、合致した相似判定ルールの強弱を反映するために行う。換言すれば、類義語を取り出す上で、相似度が重要な判断指標となるが、より効果の高い相似判定ルールに高い得点を、あまり効果の高くない相似判定ルールには低い得点を与えることで、類義語の判断精度を高められるため調整する。係る調整は、例えば、相似判定ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する等である。
(iii)格関係情報…格関係の一致度に関する制約(例:「格関係一致」、「ヲ格とガ格」、など)
(iv)モダリティ情報…節構造内に存在するモダリティ情報に関する制約(例:「一方が<受動>モダリティを持つ、など)
(v)存在する語…節構造内に存在する語に関する制約(例:「双方とも{即、すぐ}という語を含む」)
相似度の計算ルールでは、相似判定ルールが合致した際に相似度の値をどのように調整するかの影響ルールを定めることが好適である。調整は、合致した相似判定ルールの強弱を反映するために行う。換言すれば、類義語を取り出す上で、相似度が重要な判断指標となるが、より効果の高い相似判定ルールに高い得点を、あまり効果の高くない相似判定ルールには低い得点を与えることで、類義語の判断精度を高められるため調整する。係る調整は、例えば、相似判定ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する等である。
<節構造相似関係表>
節構造相似関係表とは、節構造間で計算できる相似度を、2つの互いに異なる行為連鎖構造に所属する各節の間で計算した結果を保存する表をいう。節構造相似関係表には、互いに異なる行為連鎖構造に所属している節構造間で相似度を計算した際の情報、いわば、節間相似情報も記入する。節間相似情報は、節構造(比較した2つの節構造)と相似度の2つのデータから構成されている。節構造は、最終的に類義語辞書を構築する際に文字列を取り出すために利用され、相似度は、類似度の算出に利用する。そこで、節間相似情報をここに保持させておく必要がある。
節構造相似関係表とは、節構造間で計算できる相似度を、2つの互いに異なる行為連鎖構造に所属する各節の間で計算した結果を保存する表をいう。節構造相似関係表には、互いに異なる行為連鎖構造に所属している節構造間で相似度を計算した際の情報、いわば、節間相似情報も記入する。節間相似情報は、節構造(比較した2つの節構造)と相似度の2つのデータから構成されている。節構造は、最終的に類義語辞書を構築する際に文字列を取り出すために利用され、相似度は、類似度の算出に利用する。そこで、節間相似情報をここに保持させておく必要がある。
図10は、節構造相似関係表の一例を示す図である。図10に示す例では、文1の構文解析結果に基づく節構造1−1、節構造1−2、節構造1−3の3つの節構造がモダリティ情報および影響関係を伴う行為連鎖構造の形で縦方向に配置され、文2の構文解析結果に基づく節構造2−1、節構造2−2の2つの節構造がモダリティ情報および影響関係を伴う行為連鎖構造の形で横方向に配置されている。
図10に示す例では、節構造1−1の補足語である“コンセント”と節構造2−1の補足語である“コンセント”は文字列完全一致であるが、節構造1−1の述語である“差し込む”と節構造2−1の述語である“繋ぐ”は、文字列として一致せず、双方の格関係も一致していない。よって、図10に示す例では、本来の相似度0(ゼロ)に節構造1−1と節構造2−1の相似度への影響として0.8を加算し、相似度=0.8となっている。
さらに、節構造1−3の補足語である“アイドル状態”と節構造2−2の補足語である“アイドル状態”は文字列完全一致であり、節構造1−3の述語である“なる”と節構造2−2の述語である“なる”も文字列完全一致であり、双方の格関係も一致している。よって、図10に示す例では、節構造1−3と節構造2−2の相似度は2.0となっている。図10に示す例では、これら以外の節構造間では、上記した相似度計算ルールを適用しても、相似度は0(ゼロ)となっている。
図11は、節構造間の相似度の計算処理の流れを示すフローチャートである。
まず、行為連鎖構造の集合から、行為連鎖構造のペアを1つ作成する(ステップS111)。
次に、2つの行為連鎖構造からそれぞれ1つずつ節構造を取り出す(ステップS112)。
次いで、相似度の計算ルールを適用して、節構造間の相似度を計算する(ステップS113)。
次に、全ての節構造のペアに対して相似度を求めたか否かを判定する(ステップS114)。
全ての節構造のペアに対する相似度の算出が済んでいなければ(ステップS114でNo)、ステップS112に移行する。
一方、全ての節構造のペアに対する相似度の算出が済んでいれば(ステップS114でYes)、次に、作成した節構造相似関係表を記憶装置(図示しない)に保存する(ステップS115)。
次いで、行為連鎖構造の全てのペアに対して節構造相似関係表を作成したか否かを判定する(ステップS116)。
全ての行為連鎖構造のペアに対する節構造相似関係表の作成が済んでいなければ(ステップS116でNo)、ステップS111に移行する。
一方、全ての行為連鎖構造のペアに対する節構造相似関係表の作成が済んでいれば(ステップS116でYes)、節構造間の相似度の計算処理を終了する。
<語間の類似度>
類似度とは、語のペアとなる2つの語の間でどれくらい類似しているかの指標値をいう。類似度の計算対象となる2つの語は、それぞれ、“関係”および“モダリティ”の情報を持っている。ここで、“関係”の情報とは、語が述語の場合は「述語」という関係が登録され、語が補足語の場合は述語に対する「格情報」が登録されることをいう。“モダリティ”は、節が有しているモダリティ情報である。
類似度とは、語のペアとなる2つの語の間でどれくらい類似しているかの指標値をいう。類似度の計算対象となる2つの語は、それぞれ、“関係”および“モダリティ”の情報を持っている。ここで、“関係”の情報とは、語が述語の場合は「述語」という関係が登録され、語が補足語の場合は述語に対する「格情報」が登録されることをいう。“モダリティ”は、節が有しているモダリティ情報である。
<語間の類似度の算出手法>
語間の類似度の算出手法については、以下のステップで行うことが好適である。
語間の類似度の算出手法については、以下のステップで行うことが好適である。
(ステップその1)
まず、語間の類似度の算出処理で利用する語の定義は以下とする。
まず、語間の類似度の算出処理で利用する語の定義は以下とする。
作用節…ある節にとっての作用節とは、
(1)ある節が係る先の節、または、
(2)ある節にとっての作用節が係る先の節
動力節…ある節にとっての動力節とは、
(1)ある節に係る元の節、または、
(2)ある節にとっての動力節に係る元の節
子供節…係る先がある節である全ての節
兄弟節…ある節と係る先が同じ全ての節
図12は、語間の類似度の算出(ステップその1)における語の定義を説明する図である。
(1)ある節が係る先の節、または、
(2)ある節にとっての作用節が係る先の節
動力節…ある節にとっての動力節とは、
(1)ある節に係る元の節、または、
(2)ある節にとっての動力節に係る元の節
子供節…係る先がある節である全ての節
兄弟節…ある節と係る先が同じ全ての節
図12は、語間の類似度の算出(ステップその1)における語の定義を説明する図である。
以下の制約を満たしながら求まる、最大の類似度を出力とする。
計算対象となる語のペアを作り出した節を双方の「節A」とする。
[制約1]一方の行為連鎖において節Aの動力節となる節は、他方の行為連鎖においても節Aの動力節として存在する、または、どこにも存在しない。
[制約2]一方の行為連鎖において節Aの作用節となる節は、他方の行為連鎖においても節Aの作用節として存在する、または、どこにも存在しない。
[制約3]一方の行為連鎖において兄弟節を形成している節の組みが、他方の行為連鎖で一方の節が他方の作用節になることはない。
この処理の出力は、以下の情報によって補正される。
<類似度の補正>
類似度の計算ルールでは、類似度補正ルールが合致した際に類似度の値をどのように調整するかの影響ルールを定めることが好適である。類義語を取り出す上で、類似度の高さが判断指標となる。そこで、より効果の高い類似度補正ルールには高い補正効果を、あまり効果の高くない類似度補正ルールには低い補正効果を与えることで、類義語の判断精度を高められるため調整する。係る調整は、例えば、類似度補正ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する等である。
類似度の計算ルールでは、類似度補正ルールが合致した際に類似度の値をどのように調整するかの影響ルールを定めることが好適である。類義語を取り出す上で、類似度の高さが判断指標となる。そこで、より効果の高い類似度補正ルールには高い補正効果を、あまり効果の高くない類似度補正ルールには低い補正効果を与えることで、類義語の判断精度を高められるため調整する。係る調整は、例えば、類似度補正ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する等である。
補正要否の基準は、類似度の計算ルールを設定するユーザに依存する。類義語か否かの判断基準は、類義語の抽出対象となる文書の傾向や分野などにより、記述の傾向が変わることがあり、その修正が主な基準になるからである。
類似度の補正は、語の関係による類似度の補正か、節の関係による類似度の補正かによって、補正のための構成データが変わる。
(1)語の関係による類似度補正ルール構成データ
以下のルールを組合せ、もしくは、単独で用いて補正ルールを作成する。
以下のルールを組合せ、もしくは、単独で用いて補正ルールを作成する。
(i)格関係情報…格関係の一致度に関する制約(例:「格関係一致」、「ヲ格とガ格」、など)
(ii)モダリティ情報…節に存在するモダリティ情報に関する制約(例:「一方が<受動>モダリティを持つ、など)
(2)節の関係による類似度補正ルール構成データ
以下のルールを組合せ、もしくは、単独で用いて補正ルールを作成する。
(ii)モダリティ情報…節に存在するモダリティ情報に関する制約(例:「一方が<受動>モダリティを持つ、など)
(2)節の関係による類似度補正ルール構成データ
以下のルールを組合せ、もしくは、単独で用いて補正ルールを作成する。
(i)隣接する節の間の節数…2つのペアを形成する。
(ii)隣接する節の持つモダリティ
以上の類似度の補正ルールを前提とし、類似度の計算対象となった語ペアの関係から類似度の補正ルールを適用し、類似度の値を補正する。
以上の類似度の補正ルールを前提とし、類似度の計算対象となった語ペアの関係から類似度の補正ルールを適用し、類似度の値を補正する。
他方の行為連鎖の節とペアを形成している節で隣接するものの間にあるモダリティから類似度の補正ルールを適用し、類似度の値を補正する。
(ステップその2)
(1)語のペアのそれぞれが属していた行為連鎖構造を行為連鎖A、行為連鎖Bとする。
(1)語のペアのそれぞれが属していた行為連鎖構造を行為連鎖A、行為連鎖Bとする。
(2)語のペアのそれぞれが属していた節を行為連鎖Aに属していた節を節A0、行為連鎖Bに属していた節を節B0とする。
(3)節A0の作用節AとB0の作用節Bの網羅的組合せを作成する。図13は、作用節Aと作用節Bの網羅的組合せの生成を説明する図である。ただし、相似度が0(ゼロ)となる節のペアが形成されるものは排除し、生成されるペアは[制約2]を必ず守る。
(4)ペアを形成した節をそれぞれ、(A1、B1)、(A2、B2)と名付ける。
(5)作成した各ペアに(A0、B0)を合わせたものに対して、それぞれの節の動作節DAN(Nは番号)の類似度が最大となる組合せを求める。厳密には、「動作節-作用節に属している節が存在する枝に属する節群」から類似度が最大となる組合せを求める。以下は、(5)の処理の詳細である。
(5−1) 動作節DANで節ANを起点節とする。この起点節の子供節を子供節集合Aとする。
(5−2)子供節集合Aの1つの節を取り出し、動作節DBNの節BN以外の節と網羅的にペアを作る、または、ペアを作らない。この結果を「ペア結果集合B」と呼び、相似度が0(ゼロ)のペアは計算から除外する。図14は、ペア結果集合Bの生成を説明する図である。
(5−3)子供節集合Aでペアを形成していないものがまだ存在する場合、(5−4)へ、それ以外の場合は(5−5)に行く。
(5−4)ペア結果集合Bに対して、動作節DBNの節BN以外の節、かつ、ペアが空いている節と網羅的にペアを作る。ただし、相似度が0(ゼロ)のペアについてはペアを作らない。この結果を再び「ペア結果集合B」と呼ぶ。なお、[制約1]、[制約2]、[制約3]に違反するペア結果は、集合から排除する。
(5−5)元の子供節集合Aに所属していた全ての節の子供節の和集合を節集合αとしたとき、節集合αを新しい子供節集合Aに置き換え、(5−3)に戻る。
図15は、上記した手順(5−1)乃至(5−5)の流れを示す模式図である。
(6)上記の処理で作り出されたペアを形成する木構造の相似度の和を求め、それを語の類似度とする。この計算中に、類似度の計算対象となった語ペアの関係から類似度補正ルールを適用し、類似度の値を補正する。
例えば、
“語1”:関係=述語、“語2”:関係=述語の場合 → 類似度 を 1.0倍
“語1”:関係=ヲ格、“語2”:関係=二格の場合 → 類似度 を 0.8倍
“語1”:関係=ガ格、“語1”モダリティ≠受動、かつ、関係=ヲ格、モダリティ=受動 → 類似度 を 1.0倍する。
“語1”:関係=述語、“語2”:関係=述語の場合 → 類似度 を 1.0倍
“語1”:関係=ヲ格、“語2”:関係=二格の場合 → 類似度 を 0.8倍
“語1”:関係=ガ格、“語1”モダリティ≠受動、かつ、関係=ヲ格、モダリティ=受動 → 類似度 を 1.0倍する。
また、他方の行為連鎖の節とペアを形成している節で隣接するものの間にあるモダリティから類似度補正ルールを適用し、類似度の値を補正する。
例えば、
ペア(節A0、節B0)とペア(節A1、節B1)の間の双方に駆動モダリティが存在する場合→ペア(節A0、節B0)の相似度を1.2倍、ペア(節A1、節B1)の相似度を1.2倍する。図16は、類似度補正ルールの適用の一例を説明する図である。
ペア(節A0、節B0)とペア(節A1、節B1)の間の双方に駆動モダリティが存在する場合→ペア(節A0、節B0)の相似度を1.2倍、ペア(節A1、節B1)の相似度を1.2倍する。図16は、類似度補正ルールの適用の一例を説明する図である。
図17は、節構造相似関係表を利用した語間の類似度算出の一例を示す図である。図17に示す例では、上述してきた類似度の算出手順を適用した結果、「繋ぐ」と「差し込む」の間の類似度は、2.8と算出している。
図18は、語間の類似度算出処理の流れを示すフローチャートである。
まず、節構造相似関係表を1つ取得する(ステップS1801)。
次に、取得した節構造相似関係表から節間相似情報を1つ取得する(ステップS1802)。
次に、取得した節間相似情報に基づいて、類似度を計算する対象となる語のペアを抽出する(ステップS1803)。語のペアの抽出については、詳細を後述する。抽出した語のペアは、語のペアの集合として記憶装置(図示しない)に格納する。各語のペアは、それぞれ“語”、“関係”、“モダリティ”を保有している。
続いて、語のペアを1つ取得し、語間の類似度を計算する(ステップS1804)。必要に応じて、類似度補正ルールを適用する。
次に、類似度を計算した語のペアが、類義語データが既に登録されているか否かを判定する(ステップS1805)。
既に登録されていれば(ステップS1805でYes)、続いて、語のペアおよび類似度から成る類義語データを保存(ステップS1806)し、ステップS1808に移行する。
一方、登録されていなければ(ステップS1805でNo)、続いて、既存の類義語データの類似度に値を加算(ステップS1807)し、ステップS1808に移行する。
次に、類似度を計算していない語のペアが存在するか否かを判定する(ステップS1808)。
類似度を計算していない語のペアが存在するならば(ステップS1808でYes)、ステップS1804に戻る。
一方、類似度を計算していない語のペアが存在しなければ(ステップS1808でNo)、次に、類似度の計算対象にしていない節間相似情報が存在するか否かを判定する(ステップS1809)。
類似度の計算対象にしていない節間相似情報が存在するならば(ステップS1809でYes)、ステップS1802に移行する。
一方、類似度の計算対象にしていない節間相似情報が存在しなければ(ステップS1809でNo)、次に、全ての節構造相似関係表から類義語データを算出したか否かを判定する(ステップS1810)。
類義語データを算出していなければ(ステップS1810でNo)、ステップS1801に移行する。
一方、類義語データを算出したならば(ステップS1810でYes)、語間の類似度算出処理を終了する。
図19は、図18に示すフローチャートの語のペアの抽出処理の流れを示すフローチャートである。
まず、節間相似情報を取得し、相似度が0(ゼロ)よりも大きいか否かを判定する(ステップS191)。
0(ゼロ)よりも大きければ、2つの節構造の間で述語が一致していないか否かを判定する(ステップS192)。なお、「一致する」の真偽の判定は、編集距離で決める。
述語が一致していなければ(ステップS192でYes)、2つの節構造の述語を語のペアとして出力(ステップS193)し、ステップS194に移行する。
一方、述語が一致していれば(ステップS192でNo)、2つの節構造の間で一致する補足語が存在しない補足語の集合を節構造毎に作る(ステップS194)。なお、「一致する」の真偽の判定は、編集距離で決める。
次に、各節構造から作られた補足語の集合をAとBとし、その直積を補足語のペアにする(ステップS195)。
続いて、補足語のペアを1つ取得し、出力する(ステップS196)。
次に、抽出していない補足語のペアが存在するか否かを判定する(ステップS197)。
抽出していない補足語のペアが存在すれば(ステップS197でYes)、ステップS196に移行する。
一方、抽出していない補足語のペアが存在しなければ(ステップS197でNo)、語のペアの抽出処理を終了する。
<類義語辞書の作成>
類義語提示部は、語間で類似度の高いものを類義語とし、類義語データの集合から類義語辞書を作成し出力する。2つの語の間の類似度を記録するためのデータ構造として、“類義語データ”は、類似度を計算する対象となった2つの語の文字列である“語”と、“類似度”から成る。
類義語提示部は、語間で類似度の高いものを類義語とし、類義語データの集合から類義語辞書を作成し出力する。2つの語の間の類似度を記録するためのデータ構造として、“類義語データ”は、類似度を計算する対象となった2つの語の文字列である“語”と、“類似度”から成る。
類義語辞書の出力形式は、ユーザが設定する閲覧形式に加工することもできるが、データ構造としては表形式で管理できる構造となっている。類義語辞書の構成要素としては、類似していると判断された語のペアを示す“類義語ペア”と類似しているかの参考スコアを示す“類似度”である。
図20は、類義語辞書の作成処理の流れを示すフローチャートである。
まず、類義語データの集合から、類義語データを1つ取得する(ステップS201)。
次に、類義語辞書形式への加工を行う(ステップS202)。図21は、類義語辞書形式への加工を説明する図である。
類義語辞書は、多様な出力形式を考えることができる。図21(a)は、類義語のペアを網羅的に掲載するマトリクス構造の出力形式の一例である。図21(b)は、複数の語を1つにまとめる語を作成し、その下に類義語をまとめる木構造の出力形式の一例である。
図21(c)は、数値から距離を求め、1次元や2次元平面上で表示するグラフ形式の出力形式の一例である。
図22は、類義語辞書の一例を示す図である。図22に示す例では、節構造1と節構造2における「繋ぐ」と「差し込む」の間の類似度は2.8であり、節構造1と節構造3における「繋ぐ」と「差し込む」の間の類似度は2.6、デフォルト値と初期値の間の類似度は2.6、設定値と初期値の類似度は2.08であり、節構造2と節構造3における「繋ぐ」と「差し込む」の間の類似度は1.0である。これを反映した類義語辞書が図22(b)のように作成される。
次に、未加工の類義語データが存在するか否かを判定する(ステップS203)。
未加工の類義語データが存在するならば(ステップS203でYes)、ステップS201に戻り、一方、未加工の類義語データが存在しなければ(ステップS203でNo)、類義語辞書の作成処理を終了する。
以上説明したように、本実施形態によれば、人手で実施するよりも、少ない工数、かつ、ムラなく開発文書から類義語を自動で検出できるようになる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1・・・類義語辞書作成装置
10・・・構文解析部
20・・・行為連鎖構造生成部
30・・・相似度計算部
40・・・類似度計算部
50・・・類義語提示部
10・・・構文解析部
20・・・行為連鎖構造生成部
30・・・相似度計算部
40・・・類似度計算部
50・・・類義語提示部
Claims (20)
- 入力した文書内の全ての文の構文解析を行い、
文を構成し、語と係り受け関係から成る文節について、語とともに述語と係り受け関係にある補足語を表す係る形式あるいは活用形式から成る文節の情報と、述語と補足語間の関係を表す格解析情報と、文節間の係り受け関係を示す係り受け情報とで構成される構文解析情報とモダリティ情報から成る構文解析の結果を取得する構文解析部と、
前記構文解析部における構文解析の結果から、前記構文解析情報と前記モダリティ情報を持ち、述語文節とそれに係る補足語文節という単位でまとめた節構造へ分解し、
前記節構造間に存在する係り受け関係から、同一の文から生成された前記節構造を有向の関係である係り受け関係を用いてつなげた行為連鎖構造を生成する行為連鎖構造生成部と、
前記行為連鎖構造生成部で生成された前記行為連鎖構造のペア毎に、2つの前記節構造がどれくらい似ているかの指標を表す前記節構造間の相似度を計算する相似度計算部と、
相似性の高い前記行為連鎖構造のペアを利用して、前記格解析情報と前記モダリティ情報から、前記語のペアとなる2つの語の間でどれくらい類似しているかの指標を表す語間の類似度を計算する類似度計算部と、
前記語間で前記類似度の高いものを類義語として類義語辞書を作成し出力する類義語提示部と、を備える類義語辞書作成装置。 - 前記格解析情報は、述語と係り受け関係のある補足語が係る形式の情報であり、
前記係り受け情報は、前記文節間の係り受け関係の情報であって有向関係で表現される請求項1に記載の類義語辞書作成装置。 - 前記文節は、補足語を形成しない用言を含む前記文節を述語と分類し、
所定の条件に該当する前記文節の集合を補足語と分類し、
述語と補足語のいずれにも該当しない前記文節をその他の語に分類する請求項1乃至請求項3のいずれか1項に記載の類義語辞書作成装置。 - 前記その他の語は、前記節構造間の係り受け関係を示す影響関係に変換される請求項3に記載の類義語辞書作成装置。
- 前記節構造は、1つの述語に対して、前記述語に係る補足語を全て取り出し、その他の語を関係付けて、1つにまとめる請求項1乃至請求項4のいずれか1項に記載の類義語辞書作成装置。
- 前記文節ごとに保持している前記モダリティ情報は、分割された前記節構造ごとに分配する請求項1乃至請求項5のいずれか1項に記載の類義語辞書作成装置。
- 前記影響関係の生成は、
(1)述語間に、直接係り受け関係がある場合には、1つの影響関係を前記行為連鎖構造に登録し、文全体が持っている前記モダリティ情報でモダリティ分配ルールに該当するものを割り当て、
(2)述語間に、その他の語(文節)が介在する係り受け関係がある場合には、1つの前記影響関係を前記行為連鎖構造に登録し、登録する前記影響関係にその他の語を持つ文節が持っている前記モダリティ情報を割り当て、文全体が持っている前記モダリティ情報でモダリティ分配ルールに該当するものを割り当てる請求項4に記載の類義語辞書作成装置。 - 前記行為連鎖構造の生成は、1つの文から複数の前記節構造が作成され、前記節構造間に係り受け関係を示す前記影響関係を生成し、接続されていない前記節構造が全てなくなるまで前記影響関係の生成を行う請求項7に記載の類義語辞書作成装置。
- 前記節構造間の相似度は、
(1)述語の文字列の一致度に関する制約、(2)補足語の文字列の一致度に関する制約、(3)格関係の一致度に関する制約、(4)前記節構造に存在する前記モダリティ情報に関する制約、(5)前記節構造内に存在する語に関する制約、
の相似判定ルールを組合せ、もしくは、単独で用いて、前記節構造が似ているか否かの相似判定を行う請求項1乃至請求項8のいずれか1項に記載の類義語辞書作成装置。 - 前記述語の文字列の一致度に関する制約、あるいは、前記補足語の文字列の一致度に関する制約では、
文字列完全一致、あるいは、編集距離1以内に該当するものについて、相似度=1とし、
前記格関係の一致度に関する制約では、
格関係一致、あるいは、ヲ格とガ格に該当するものについて、相似度=1とし、
前記節構造に存在するモダリティ情報に関する制約では、
一方が受動のモダリティを持つに該当するものについて、相似度=1とし、
前記節構造内に存在する語に関する制約では、
双方とも、あるいは、即または直ぐという語を含むに該当するものについて、相似度=1と、
する請求項9に記載の類義語辞書作成装置。 - 算出された前記相似度について、
相似判定ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する補正を行う請求項1乃至請求項10のいずれか1項に記載の類義語辞書作成装置。 - 前記相似度計算部は、
前記節構造間で計算する前記相似度を、2つの互いに異なる前記行為連鎖構造に所属する各節の間で計算した結果として保存する節構造相似関係表を生成する請求項1乃至請求項11のいずれか1項に記載の類義語辞書作成装置。 - 前記節構造相似関係表には、
比較した2つの前記節構造と前記相似度のデータから成る節間相似情報が記載され、
前記節構造は、前記類義語辞書を構築する際に文字列を取り出すために利用され、前記相似度は、前記類似度の算出に利用する請求項12に記載の類義語辞書作成装置。 - 前記類似度は、前記類似度の計算対象となる前記語のペアを作り出した節を双方の節Aとしたとき、
(1)一方の前記行為連鎖構造において前記節Aの動力節となる節は、他方の前記行為連鎖においても前記節Aの動力節として存在する、または、どこにも存在しない、
(2)一方の前記行為連鎖構造において前記節Aの作用節となる節は、他方の前記行為連鎖においても前記節Aの作用節として存在する、または、どこにも存在しない、
(3)一方の前記行為連鎖構造において兄弟節を形成している節の組みが、他方の前記行為連鎖で一方の節が他方の作用節になることはない、
の各制約を満たすような2つの前記行為連鎖を比較し、求まる最大の値に設定する請求項1乃至請求項13のいずれか1項に記載の類義語辞書作成装置。 - 算出された前記類似度について、
類似度補正ルールが真のとき、所定の値を加算する、あるいは所定の値を減算する、あるいは所定の値を乗算する、あるいは所定の値で除算する補正を行う請求項1乃至請求項14のいずれか1項に記載の類義語辞書作成装置。 - 前記類似度の補正は、
語の関係による前記類似度の補正の場合には、格関係の一致度に関する制約、節に存在するモダリティ情報に関する制約を、補正時の補正ルールとして組合せ、あるいは、単独で用い、
節の関係による前記類似度の補正の場合には、隣接する節間の節数、隣接する節の持つモダリティを、補正時の補正ルールとして組合せ、あるいは、単独で用いる請求項15に記載の類義語辞書作成装置。 - 前記類義語辞書は、類似していると判断された前記語のペアを表す類義語ペアと、類似しているかの参考スコアを表す前記類似度で構成する請求項1乃至請求項16のいずれか1項に記載の類義語辞書作成装置。
- 前記類義語辞書は、類義語のペアを網羅的に掲載するマトリクス構造である請求項17に記載の類義語辞書作成装置。
- 前記類義語辞書は、複数の語を1つにまとめる語を作成し、その下に前記類義語をまとめる木構造である請求項17に記載の類義語辞書作成装置。
- 前記文書は、テキストデータが1つ以上集まった文書であって、前記テキストデータの絶対量が所定量よりも少なく、特有の語が含まれている請求項1乃至請求項19のいずれか1項に記載の類義語辞書作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014144408A JP2016021136A (ja) | 2014-07-14 | 2014-07-14 | 類義語辞書作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014144408A JP2016021136A (ja) | 2014-07-14 | 2014-07-14 | 類義語辞書作成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016021136A true JP2016021136A (ja) | 2016-02-04 |
Family
ID=55265939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014144408A Pending JP2016021136A (ja) | 2014-07-14 | 2014-07-14 | 類義語辞書作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016021136A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3598320A1 (en) | 2018-07-20 | 2020-01-22 | Ricoh Company, Ltd. | Search apparatus, search method, search program, and carrier means |
CN113326686A (zh) * | 2020-02-28 | 2021-08-31 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004264960A (ja) * | 2003-02-28 | 2004-09-24 | Advanced Telecommunication Research Institute International | 用例ベースの文変換装置、およびコンピュータプログラム |
WO2012153524A1 (ja) * | 2011-05-10 | 2012-11-15 | 日本電気株式会社 | 同義表現判定装置、方法及びプログラム |
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP2014106719A (ja) * | 2012-11-27 | 2014-06-09 | Toshiba Corp | 影響関係解析装置 |
JP2014119988A (ja) * | 2012-12-17 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 同義判定装置、同義学習装置、及びプログラム |
-
2014
- 2014-07-14 JP JP2014144408A patent/JP2016021136A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004264960A (ja) * | 2003-02-28 | 2004-09-24 | Advanced Telecommunication Research Institute International | 用例ベースの文変換装置、およびコンピュータプログラム |
WO2012153524A1 (ja) * | 2011-05-10 | 2012-11-15 | 日本電気株式会社 | 同義表現判定装置、方法及びプログラム |
WO2014002776A1 (ja) * | 2012-06-25 | 2014-01-03 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP2014106719A (ja) * | 2012-11-27 | 2014-06-09 | Toshiba Corp | 影響関係解析装置 |
JP2014119988A (ja) * | 2012-12-17 | 2014-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 同義判定装置、同義学習装置、及びプログラム |
Non-Patent Citations (2)
Title |
---|
大森 晃: "接続節における要求表現:並列節と補足節", 情報処理学会研究報告 平成22年度2 [CD−ROM], JPN6018012518, 15 August 2010 (2010-08-15), JP, pages 1 - 8, ISSN: 0003775220 * |
川井 康示 外5名: "仕様書における文脈情報を考慮した同義語の抽出支援手法", 情報処理学会研究報告 2012(平成24)年度3 [CD−ROM], JPN6018012516, 15 October 2012 (2012-10-15), JP, pages 1 - 5, ISSN: 0003775219 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3598320A1 (en) | 2018-07-20 | 2020-01-22 | Ricoh Company, Ltd. | Search apparatus, search method, search program, and carrier means |
US11531816B2 (en) | 2018-07-20 | 2022-12-20 | Ricoh Company, Ltd. | Search apparatus based on synonym of words and search method thereof |
CN113326686A (zh) * | 2020-02-28 | 2021-08-31 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
CN113326686B (zh) * | 2020-02-28 | 2024-05-10 | 株式会社斯库林集团 | 相似度计算装置、记录介质以及相似度计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200293293A1 (en) | Pruning Engine | |
US11042713B1 (en) | Applied artificial intelligence technology for using natural language processing to train a natural language generation system | |
US11093697B2 (en) | Method and system for suggesting revisions to an electronic document | |
Gardent et al. | Creating training corpora for nlg micro-planning | |
Yin et al. | Answering questions with complex semantic constraints on open knowledge bases | |
US9621601B2 (en) | User collaboration for answer generation in question and answer system | |
US9799040B2 (en) | Method and apparatus for computer assisted innovation | |
JP6466952B2 (ja) | 文章生成システム | |
CN105393248A (zh) | 非事实类提问应答系统以及方法 | |
CN108665141B (zh) | 一种从突发事件预案中自动抽取应急响应流程模型的方法 | |
Fernandez-Álvarez et al. | Automatic extraction of shapes using sheXer | |
Lesmo et al. | TULSI: an NLP system for extracting legal modificatory provisions | |
CN106547726A (zh) | 一种基于文档的自动化审查方法及审查装置 | |
JP5441760B2 (ja) | 文書間距離算出器および文章検索器 | |
Iurshina et al. | NILK: entity linking dataset targeting NIL-linking cases | |
Giordani et al. | Automatic generation and reranking of sql-derived answers to nl questions | |
Bond et al. | Some issues with building a multilingual wordnet | |
JP2016021136A (ja) | 類義語辞書作成装置 | |
Song et al. | Semantic query graph based SPARQL generation from natural language questions | |
JP6327799B2 (ja) | 自然言語推論システム、自然言語推論方法及びプログラム | |
Nahshon et al. | Incorporating information extraction in the relational database model | |
Opasjumruskit et al. | Towards learning from user feedback for ontology-based information extraction | |
Doleschal et al. | CHISEL: Sculpting tabular and non-tabular data on the web | |
Skeggs | Using domain specific language and sequence to sequence models as a hybrid framework for a natural language interface to a database solution | |
Martinez-Rodriguez et al. | NLP and the Representation of Data on the Semantic Web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180410 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20181016 |