JP2011175574A

JP2011175574A - 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム

Info

Publication number: JP2011175574A
Application number: JP2010040642A
Authority: JP
Inventors: Hideya Mino; 秀弥美野; Hideki Tanaka; 英輝田中
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2010-02-25
Filing date: 2010-02-25
Publication date: 2011-09-08
Anticipated expiration: 2030-02-25
Also published as: JP5290218B2

Abstract

【課題】不要な変形規則を含まず、難解単語から平易単語への変形規則のみを自動的に獲得することのできる文書平易化装置および平易化規則テーブル作成装置を提供する。
【解決手段】平易化規則テーブル作成装置内では、置換可能単語対作成部が、辞書テーブル記憶部から読み出した単語と語釈文に基づき置換可能単語対として出力する。平易化規則候補認定部は、置換可能単語対に含まれる単語それぞれについて難易度データを読み出し、置換可能単語対が平易化規則となり得るか否かを認定する。文脈類似認定部は、置換可能単語対に含まれる単語に基づいて文脈類似データベース記憶部を読み出し、置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する。平易化規則テーブル書込部は、平易化規則候補認定部によって平易化規則となり得ると認定され且つ文脈類似認定部によって文脈類似な関係にあると認定された平易化規則を生成する。
【選択図】図２

Description

本発明は、入力された文を自動的に平易化する文書平易化装置、その平易化のための平易化規則（変形規則）を自動的に作成する平易化規則テーブル作成装置、およびそれらのコンピュータプログラムに関する。

自然言語で記述された文の文意を変えることなく、文の表現を自動的に変えることが求められる場合がある。例えば、難解な文章を平易な文章に自動的に変換するシステムの技術が、特許文献１に開示されている。この特許文献１の技術は、難解単語と、その難解単語と同義関係にある平易単語を予め記憶した記憶装置を用いることによって、入力文に含まれる難解単語を平易単語に書き換えるものである。

また、特許文献２には、変換対象文が入力されると、あらかじめ記憶された変形規則を用いて変換候補を生成する技術が開示されている。また、この特許文献２の技術では、評価尺度を用いて、生成された変換候補が目的とするふさわしい変換結果であるかどうかを評価するための複数の評価尺度を用いて評価するようになっている。また、特許文献２の段落００２４には、異なる複数の辞書の同じ項目の定義文を照合し、その照合結果から変形規則を得ることが記載されている。

実開平３−８２４４６号公報特開２００３−７６６８７号公報

しかしながら、上記の背景技術には、次のような問題があり、解決が望まれる。
特許文献１に記載された技術では、同義関係にある難解単語と平易単語とを予め収集して記憶装置に記憶させておくことが必要であり、これには膨大な手間を要するという問題がある。
特許文献２に記載された技術では、コンピュータを用いて大量の言語データから変形規則を自動獲得する際に、必要な変形規則だけでなく雑多な変形規則も同時に獲得されてしまい、それら不要な変形規則の適用により不要な変換候補も得られてしまうという問題がある。例えば、難解表現から平易表現への変換のみを行いたい場合にも、難解表現から平易表現への変換のための変形規則だけでなく、その目的に合わない変形規則も同時に獲得されてしまう。また、特許文献２に記載された技術では、変形規則を評価するために、文書集合全体の出現頻度に基づく評価ポイントや、構文解析結果から得られる文法上の言い回しに対する評価ポイントを用いているが、これらはいずれも文書集合全体の評価であり、文単体における変換結果の評価を行なえない。なおここで、文書集合全体とは、例えば、低年齢向け文書の集合や、特定の個人によって執筆された文書の集合である。

本発明は、上記のような課題を解決するものであり、文意を変えずに文または文書に含まれる文字列の平易化を行なうにあたり、不要な変形規則を含まず、難解単語から平易単語への変形規則のみを自動的に獲得することのできる文書平易化装置および平易化規則テーブル作成装置を提供する。
また、本発明は、文意を考慮し、文集合の評価に基づくものではなく文単体における変換結果の評価を行なうことのできる文書平易化装置を提供する。また、複数のドメインの文意情報を用いることによって、特定のドメインにおける文意にも対応することのできる文書平易化装置を提供する。

［１］上記の課題を解決するため、本発明の一態様による平易化規則テーブル作成装置は、単語と前記単語の語釈文とを対応付けて保持する辞書テーブル記憶部と、単語と前記単語の難易度を表す難易度データとを対応付けて保持する単語難易度テーブル記憶部と、単語と、当該単語と文脈類似な他の単語との対応関係を保持する文脈類似データベース記憶部と、前記辞書テーブル記憶部から読み出した前記単語と、当該単語に対応する前記語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する置換可能単語対作成部と、前記置換可能単語対に含まれる単語それぞれについて、前記単語難易度テーブル記憶部から前記難易度データを読み出し、読み出した前記難易度データに基づき前記置換可能単語対が平易化規則となり得るか否かを認定する平易化規則候補認定部と、前記置換可能単語対に含まれる単語に基づいて前記文脈類似データベース記憶部を読み出し、前記置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する文脈類似認定部と、前記置換可能単語対のうち、前記平易化規則候補認定部によって平易化規則となり得ると認定され且つ前記文脈類似認定部によって文脈類似な関係にあると認定された前記置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む平易化規則テーブル書込部とを具備することを特徴とする。

ここで、語釈文とは、単語の意義を説き明かす文のテキストデータである。辞書が見出し語と語釈文との対応関係を収録しているのと同様に、辞書テーブル記憶部は単語とその単語の意義を説き明かす語釈文との対応関係を表わすレコードを単語毎に記憶している。
また、ここで、単語間の文脈類似とは、与えられた文集合において、ある文内において第１の単語が出現する文脈と、ある文内において第２の単語が出現する文脈との類似度に基づくものである。このとき、第１の単語が出現する文と第２の単語が出現する文とは異なる文である場合もあり、また第１の単語と第２の単語が偶々同一の文内に出現する場合もある。この文脈の類似度は、文集合が与えられたときに、数値として算出されるものである。ここで文脈とは、例えば、単語が出現する文内（つまり、上記の第１の単語に対しては当該第１の単語が出現する文内であり、上記の第２の単語に対しては当該第２の単語が出現する文内）において前記単語と共起する他の単語（共起語と呼ぶ）の集合や、共起語の出現頻度分布や、共起語の出現順序や、当該単語が出現する文の係り受け解析結果（これは、係り受け解析木や、等価なデータ等で表される）の構造（その構造における前記単語の位置も含む）やその構造の出現頻度分布などである。これら例示した文脈を用いて、所定の処理により単語間の文脈類似度が計算される。そして、文脈類似度が所定の閾値以上のときに、それらの単語同士は文脈類似であると言う。
上記の構成によれば、置換可能単語対作成部は、辞書テーブル記憶部から、単語とその語釈文内において対応する他の単語との単語対（置換可能単語対）を作成する。平易化規則候補認定部は、前記置換可能単語対に基づいて単語難易度テーブル記憶部を参照し、単語対に含まれる各単語の難易度データに基づき、置換可能単語対が平易化規則となり得るか否かを認定する。例えば、平易化規則において、平易化前の単語よりも平易化後の単語のほうが平易である場合等に、置換可能単語対が平易化規則となり得ると認定する。文脈類似認定部は、置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する。そして、平易化規則候補認定部によって平易化規則となり得ると認定され、且つ文脈類似認定部によって文脈類似であると認定された単語対を含む置換可能単語対を、平易化規則として、平易化規則テーブル書込部がテーブルに書き込む。

［２］また、本発明の一態様による平易化規則テーブル作成装置においては、前記文脈類似データベース記憶部は、特定のドメインに属さない一般的な文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものであることを特徴とする。

上記の構成により、特定のドメインに依存しない一般的な文集合に基づき、文脈差異の比較的小さい平易化を行うことのできる平易化規則のみを自動的に作成することができる。このように作成された平易化規則テーブルを用いることにより、様々なドメインの文に平易化規則を対応させることができる。

［３］また、本発明の一態様による平易化規則テーブル作成装置においては、前記置換可能単語対作成部は、当該単語に対応する前記語釈文の中の最終文節に含まれる自立語を前記他の単語として抽出し、前記置換可能単語対を出力する、ことを特徴とする。

［４］また、本発明の一態様による文書平易化装置は、上記のいずれかの平易化規則テーブル作成装置と、前記平易化規則テーブル作成装置の前記平易化規則テーブル書込部が書き込む前記平易化規則を記憶する平易化規則テーブル記憶部と、単語と当該単語と文脈類似な他の単語との対応関係を保持する第２の文脈類似データベース記憶部と、入力文データを読み込み、前記入力文データの形態素解析処理を行ない、前記入力文データに対応する形態素解析結果データを出力する形態素解析処理部と、前記平易化規則テーブル記憶部から読み出す前記平易化規則に含まれる前記平易化前の単語と前記形態素解析結果データに含まれる単語とをマッチさせることにより前記形態素解析結果データに適用し得る前記平易化規則を選択する平易化規則選択部と、前記平易化規則選択部によって選択された前記平易化規則に基づいて前記第２の文脈類似データベース記憶部を読み出し、当該平易化規則に含まれる前記平易化前の単語と前記平易化後の単語とが文脈類似な関係にあるか否かに基づいて当該平易化規則を適用するか否かを認定するとともに、適用すると認定された前記平易化規則に従い前記形態素解析結果データに含まれる前記平易化前の単語を前記平易化後の単語で置換して、得られた平易文を出力する平易化規則適用認定部と、を具備することを特徴とする。

上記の構成により、この文書平易化装置の形態素解析処理部は、入力文データを形態素の列データ（形態素解析結果データ）に分解する。平易化規則選択部は、形態素解析結果データに適用し得る平易化規則を、平易化規則テーブル記憶部から選び出す。選び出された平易化規則のうち、平易化規則適用認定部は、平易化規則を作成するときの文脈類似データベースとは異なる第２の文脈類似データベースに基づいて適用すべき平易化規則をさらに選び出す。そして、そのように選び出された平易化規則のみを適用して、元の入力文データに対応する平易文を出力する。

［５］また、本発明の一態様による文書平易化装置においては、前記第２の文脈類似データベース記憶部は、特定のドメインに属する文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである、ことを特徴とする。

上記の構成により、特定のドメインのみに属する文集合に基づき、文脈差異の比較的小さい平易化を行うことのできる平易化規則のみ適用することができる。そして、そのような平易化規則のみを適用して、特定のドメインに合った、自然な平易文を出力することができる。

［６］また、本発明の一態様は、単語と前記単語の語釈文とを対応付けて保持する辞書テーブル記憶部と、単語と前記単語の難易度を表す難易度データとを対応付けて保持する単語難易度テーブル記憶部と、単語と、当該単語と文脈類似な他の単語との対応関係を保持する文脈類似データベース記憶部と、前記辞書テーブル記憶部から読み出した前記単語と、当該単語に対応する前記語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する置換可能単語対作成部と、前記置換可能単語対に含まれる単語それぞれについて、前記単語難易度テーブル記憶部から前記難易度データを読み出し、読み出した前記難易度データに基づき前記置換可能単語対が平易化規則となり得るか否かを認定する平易化規則候補認定部と、前記置換可能単語対に含まれる単語に基づいて前記文脈類似データベース記憶部を読み出し、前記置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する文脈類似認定部と、前記置換可能単語対のうち、前記平易化規則候補認定部によって平易化規則となり得ると認定され且つ前記文脈類似認定部によって文脈類似な関係にあると認定された前記置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む平易化規則テーブル書込部と、を具備する平易化規則テーブル作成装置としてコンピュータを機能させるプログラムである。

本発明の文書平易化装置によれば、単語が置かれる文脈や文の意味が不自然にならないように、文の変形を行える。この変形とは、特に平易化（難解な単語を用いた表現を、平易な単語を用いた表現に変形すること）である。
また、本発明の文書平易化装置によれば、ドメイン毎に特有の文脈類似データベース（ドメイン依存文脈類似データベース）を用いるため、特定のドメインにおける文意にも対応できる。また、ドメイン毎に、用いるデータベースを切り替えることもできる。
また、本発明の文書平易化装置によれば、文集合に含まれる多数の文の評価に基づくものではなく、文単体における変換結果の評価を行なうことができる。

本発明の実施形態による文書平易化装置の機能構成を示したブロック図である。同実施形態による平易化規則テーブル作成装置のより詳細な機能構成を示したブロック図である。同実施形態の動作例における入力文と出力文と変形規則の関係を示す概略図である。同実施形態による平易化規則テーブルの構成とそのデータ例を示す概略図である。同実施形態によるドメイン依存文脈類似データベースの構成とそのデータ例を示す概略図である。同実施形態による文書平易化装置が文書を平易化する処理の手順を示すフローチャートである。同実施形態による辞書テーブルの構成およびデータ例を示す概略図である。同実施形態による単語難易度テーブルの構成およびデータ例を示す概略図である。同実施形態による一般文脈類似データベースの構成およびデータ例を示す概略図である。同実施形態による平易化規則テーブル作成装置が平易化規則テーブルを作成する処理の手順を示すフローチャートである。

次に、本発明の一実施形態について、図面を参照しながら説明する。
図１は、本実施形態による文書平易化装置の機能構成を示すブロック図である。この図において、符号１０は文書平易化装置である。この文書平易化装置１０が有する各機能のうち、データを処理する機能は、電子回路を用いて実現される。また、文書平易化装置１０が有する各機能のうち、データを記憶する機能は、半導体メモリや時期ハードディスク装置等を用いて実現される。
図示するように、文書平易化装置１０は、内部に平易化規則テーブル作成装置２０を含んで構成される。また、文書平易化装置１０は、さらに、入力文データ記憶部１１と、形態素解析処理部１２と、平易化規則選択部１３と、平易化規則適用認定部１４と、ドメイン依存文データベース記憶部１５と、ドメイン依存文脈類似データベース記憶部１６（第２の文脈類似データベース記憶部）と、出力平易文データ記憶部１７とを含んで構成される。なお、平易化規則テーブル作成装置２０の内部の構成については後述する。

入力文データ記憶部１１は、平易化の対象となる入力文のテキストデータを記憶する。
形態素解析処理部１２は、入力文データ記憶部１１から入力文を読み出し、形態素解析処理を行い、入力文を形態素の列に分割する。形態素解析処理自体は既存の技術を用いて実現可能であり、例えば形態素解析器プログラム「ＭｅＣａｂ」などを用いる。形態素解析処理部１２は、読み込んだ入力文データに対応する形態素解析結果データを出力する。
平易化規則選択部１３は、平易化規則テーブル作成装置２０によって作成される平易化規則テーブルを平易化規則テーブル記憶部３０から読み出し、形態素解析処理部１２が出力した形態素を変換元単語として含む平易化規則を選択する。言い換えれば、平易化規則選択部１３は、平易化規則に含まれる平易化前の単語と形態素解析結果データに含まれる単語とをマッチさせることにより形態素解析結果データに適用し得る前記平易化規則を選択する。

平易化規則適用認定部１４は、平易化規則選択部１３によって選択された平易化規則に基づいてドメイン依存文脈類似データベース記憶部１６を読み出し、当該平易化規則に含まれる平易化前の単語と平易化後の単語とが文脈類似な関係にあるか否かに基づいて当該平易化規則を適用するか否かを認定する。また、平易化規則適用認定部１４は適用すると認定された平易化規則を実際に適用することによって入力文に対応する平易文を出力する。この平易文は、適用すべき平易化規則に従って、形態素解析結果データに含まれる平易化前の単語を平易化後の単語で置換して得られるものである。
ドメイン依存文データベース記憶部１５は、特定のドメインに属するドメイン依存文をデータベースとして記憶するものである。
ドメイン依存文脈類似データベース記憶部１６は、単語と、その単語と文脈類似な他の単語との対応関係を保持するものである。特に、このドメイン依存文脈類似データベース記憶部１６は、特定のドメインに属する文集合（一例としては、テレビ放送で用いられるニュース文のみの集合）を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである。このドメイン依存文脈類似データベース記憶部１６が記憶するデータは、ドメイン依存文データベース記憶部１５が記憶するドメイン依存文に基づいて予め作成される。

出力平易文データ記憶部１７は、平易化規則適用認定部１４によって出力される平易文を記憶するものである。
平易化規則テーブル作成装置２０は、上記の処理で用いる平易化規則テーブルを自動的に作成するものである。

図２は、平易化規則テーブル作成装置２０の内部機能構成を示すブロック図である。図示するように、平易化規則テーブル作成装置２０は、平易化規則作成部２１と、辞書テーブル記憶部２２と、単語難易度テーブル記憶部２５と、一般文脈類似データベース記憶部２８（文脈類似データベース記憶部）と、平易化規則テーブル記憶部３０とを含んで構成される。平易化規則作成部２１はさらに、置換可能単語対作成部２３と、置換可能単語対テーブル記憶部２４と、平易化規則候補認定部２６と、平易化規則候補テーブル記憶部２７と、文脈類似認定部２９と、平易化規則テーブル書込部３１とを含んで構成される。

平易化規則作成部２１は、辞書テーブル記憶部２２や単語難易度テーブル記憶部２５や一般文脈類似データベース記憶部２８に記憶されているデータを基に、平易化規則を作成し、平易化規則テーブル記憶部３０に書き込む。
辞書テーブル記憶部２２は、単語とその単語の語釈文とを対応付けたテーブルを保持するものである。なお、語釈文とは、単語の意義を説き明かす文のテキストデータである。
単語難易度テーブル記憶部２５は、単語とその単語の難易度を表す難易度データとを対応付けたテーブルを保持するものである。
一般文脈類似データベース記憶部２８は、単語と、その単語と文脈類似な他の単語との対応関係を保持するものである。特に、この一般文脈類似データベース記憶部２８は、特定のドメインに属さない一般的な文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである。
平易化規則テーブル記憶部３０は、単語を平易化するための平易化規則を記憶するテーブルである。このテーブルの詳細については、後述する。

置換可能単語対作成部２３は、辞書テーブル記憶部２２から読み出した単語と、当該単語に対応する語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する。
置換可能単語対テーブル記憶部２４は、置換可能単語対作成部２３によって出力された置換可能単語対を一時的に記憶する。
平易化規則候補認定部２６は、置換可能単語対作成部２３によって出力された置換可能単語対に含まれる単語それぞれについて、単語難易度テーブル記憶部２５から難易度データを読み出し、両単語について読み出した難易度データの関係に基づき、その置換可能単語対が平易化規則となり得るか否かを認定する。言い換えれば、置換可能単語対は方向を有しており、その方向が平易化（難しい単語から平易な単語へ）である場合には、その置換可能単語対は平易化規則となり得る。逆に、その方向が難化（平易な単語から難しい単語へ）である場合には、その置換可能単語対は平易化規則となり得ない。また、ある置換可能単語対に含まれる両方の単語の難易度が同程度である場合にも、その置換可能単語対を平易化規則としない。なお、具体的な難易度データの例を用いた処理については、後述する。

平易化規則候補テーブル記憶部２７は、平易化規則候補認定部２６によって平易化規則となり得ると認定された置換可能単語対を、一時的に記憶する。
文脈類似認定部２９は、置換可能単語対作成部２３によって出力され、平易化規則候補認定部２６によって平易化規則となり得ると認定された置換可能単語対を平易化規則候補テーブル記憶部２７から読み出し、その単語対に含まれる単語に基づいて、一般文脈類似データベース記憶部２８を読み出し、その置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する。
平易化規則テーブル書込部３１は、前記の置換可能単語対のうち、平易化規則候補認定部２６によって平易化規則となり得ると認定され且つ文脈類似認定部２９によって文脈類似な関係にあると認定された置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む。

次に、文書平易化装置１０の簡単な動作例を説明する。図３は、動作例における入力文と出力文と変形規則の関係を示す概略図である。
一例としては、図３（ａ）に示すように、入力文データ記憶部１１には、「校舎や施設が安全に使用できる」という入力文が記憶されている。そして、平易化規則テーブル記憶部３０には、難解単語から平易単語への変形規則のひとつとして、「校舎−建物」という規則が記憶されている。この変形規則を上記の入力文に適用すると、「建物や施設が安全に使用できる」という平易文が出力され、出力平易文データ記憶部１７に書き込まれる。一般的な変形規則としては、上記の「校舎−建物」の他に、例えば「施設−設備」といった変形規則も考え得るが、この「施設−設備」という規則は、単語の平易化に寄与しないため、後述する方法によって平易化規則テーブル作成時に除外されるため、平易化規則テーブル記憶部３０には記憶されておらず、よって上記の入力文に対して適用されることもない。
別の例では、図３（ｂ）に示すように、入力文データ記憶部１１に、「一般の住民が被害にあった」という入力文が記憶されている。そして、平易化規則テーブル記憶部３０には、難解単語から平易単語への変形規則のひとつとして、「一般−普通」という規則が記憶されている。平易化規則選択部１３が上記の入力文に対してこの「一般−普通」という変形規則を適用すると、「普通の住民が被害にあった」という出力文の候補が得られる。しかしながら、「一般の住民が被害にあった」という入力文を「普通の住民が被害にあった」に変形してしまうと文意が変わってしまうため、平易化規則適用認定部１４はこのような変形規則の適用を認定しない。このように文意が変わるのは、単一の文において「一般」という単語が置かれる文脈と、単一の文において「普通」という単語が置かれる文脈との間の類似度が低いためである。つまり、平易化規則適用認定部１４は、文脈類似度を用いることによって変形規則を適用するか否かの認定を行う。これにより、「普通の住民が被害にあった」という出力候補は除外されることとなり、出力されない。なお、一連の詳細な処理手順については後述する。

次に、平易化規則テーブル記憶部３０が記憶する平易化規則テーブルについて説明する。
図４は、平易化規則テーブルの構成とそのデータ例を示す概略図である。図示するように、平易化規則テーブルは例えば表形式のデータとして実現され、平易化前の単語およびその品詞と、平易化後の単語およびその品詞の項目を有する。そして、各行が、平易化規則に対応する。図示する例では平易化規則テーブルは、「校舎」という名詞を「建物」という名詞に平易化する規則（「平易化前：校舎（名詞）−平易化後：建物（名詞）」）と、「車庫」という名詞を「建物」という名詞に平易化する規則（「平易化前：車庫（名詞）−平易化後：建物（名詞）」）とを有している。以下において便宜上、平易化規則に関して、平易化前を左辺、平易化後を右辺と呼ぶ。
なお、図面では、テーブルに保持される限られた数のデータのみを示しているが、実際には日本語およびその単語等に関する多くの数のデータをテーブルは有している。そして、以後、別の図面を参照しながら説明する各種データについても同様である。

次に、ドメイン依存文脈類似データベース記憶部１６が記憶するドメイン依存文脈類似データベースについて説明する。
図５は、ドメイン依存文脈類似データベースの構成とそのデータ例を示す概略図である。図示するように、ドメイン依存文脈類似データベースは例えば表形式のデータとして実現され、単語と、その単語に対応する文脈類似単語リストとの各項目を有している。文脈類似単語リストの項目は単語のリストを値として保持する。つまり、ドメイン依存文脈類似データベースは、単語と、その単語と文脈類似な単語（のリスト）との対応関係を保持するデータベースである。文脈類似単語リストの項目に格納されるリストは、単語の項目に格納される単語との間で所定の閾値以上の文脈類似度を有する単語のリストである。ここで、文脈類似度は、ドメインに依存するものであり、その算出方法については後述する。図示するデータ例は、ニュースのドメインを前提とするデータであり、単語「校舎」に対応する文脈類似単語リストには、「建物」（品詞は名詞）という単語が含まれている。ここで、「・・・」は、リスト中の他の単語の記載を省略していることを表している。また、単語「車庫」に対応する文脈類似単語リストには、「ガレージ」（品詞は名詞）という単語が含まれており、「建物」という単語は含まれていない。

ここで、単語間の文脈類似という関係について説明する。所定の文集合において、単語ｗ_１と単語ｗ_２が出現するとき、当該文集合に含まれる文において単語ｗ_１が出現する文における単語ｗ_１の文脈と、当該文集合に含まれる文において単語ｗ_２が出現する文における単語ｗ_２の文脈とを基に、両方の文脈間の類似度（文脈類似度）を数値的に算出し、その類似度が所定の閾値以上であるときに、その文集合において単語ｗ_１と単語ｗ_２とは文脈類似である。典型例としては、ある文集合において「私の好きな色は赤です。」という表現と「私の好きな色は青です。」という表現とがともに多数出現する場合、「赤」という単語と「青」という単語とは文脈類似と言える。なお、ここで言う文脈とは、文内において単語ｗ_１や単語ｗ_２と共起する単語の集合や、それら共起語の出現頻度分布や、単語ｗ_１や単語ｗ_２を取り巻く係り受け関係などである。

文脈類似度を算出する方法について、いくつかの例を説明する。与えられた文集合に対して、語ｗ（但し、ｗ∈Ｗであり、ここではｗは名詞である）に対する共起語をｖ（ｖ∈Ｖ）とし、語ｗと語ｖとが共起する頻度をｆｒｅｑ（ｗ，ｖ）とする。
（ａ）係り受け関係を利用する場合
前記の文集合に含まれる各文について、形態素解析処理および係り受け解析処理を行う。形態素解析処理および係り受け解析処理自体は、コンピュータおよび既存のコンピュータプログラムを用いて行うことができる。そして、係り受け解析処理の結果を元に、格助詞に着目し、名詞ｗに対する共起動詞の出現頻度を表す共起動詞ベクトルを作成する。
（ｂ）文内共起を利用する場合
前記の文集合に含まれる各文について、形態素解析処理および文節区切り処理を行う。文節区切り処理も、コンピュータおよび既存のコンピュータプログラムを用いて行うことができる。そして、名詞ｗと文内で共起する名詞ｖを抜き出し、これを共起ペアとする。

上記のように係り受け関係または文内共起を利用し、共起頻度行列Ｃを作成する。

但し、ｉ＝１，２，・・・，｜Ｗ｜であり、ｊ＝１，２，・・・，｜Ｖ｜である。そして、｜Ｗ｜は集合Ｗの要素数、ｗ_ｉは集合Ｗのｉ番目の要素、｜Ｖ｜は集合Ｖの要素数、ｖ_ｊは集合Ｖのｊ番目の要素である。
そして、得られた共起頻度行列Ｃを用いて、次の（１）〜（３）のいずれかの方法で単語間の文脈類似度を算出する。

（１）ジャッカード（Ｊａｃｃａｒｄ）係数
ｗ_１，ｗ_２∈Ｗのそれぞれに対して、共起語の集合はＶ_１（＝｛ｖ_ｊ｜ｃ_１，ｊ＞０｝），Ｖ_２（＝｛ｖ_ｊ｜ｃ_２，ｊ＞０｝）である。そして、下の式（１）を用いて計算されるジャッカード係数の値を、ｗ_１，ｗ_２の間の文脈類似度とする。

（２）ｔｆ−ｉｄｆコサイン尺度
共起頻度行列Ｃを基に、ｗ_１，ｗ_２のそれぞれに対応し、ｔｆ−ｉｄｆで重み付けした共起語ベクトル

を求め、下の式（２）を用いて計算されるこれらのコサイン尺度を、ｗ_１，ｗ_２の間の文脈類似度とする。但し、式（２）の右辺の分子は、ベクトルの内積である。このコサイン尺度は、共起語の出現頻度の分布の類似性を表している。

（３）相互情報量
前記（ｂ）の文内共起を利用する場合に、ｗ_１，ｗ_２が出現した文の数を、それぞれ、ｓ（ｗ_１），ｓ（ｗ_２）として、また、同一文内で共起した回数をｓ（ｗ_１，ｗ_２）、文集合に含まれる文の総数をＳとして、下の式（３）を用いて計算される相互情報量（ＰＭＩ，Pointwise Mutual Information）を、ｗ_１，ｗ_２の間の文脈類似度とする。

なお、文集合に含まれる文の数が多い場合には、頻度が低い共起語の中に、一般的に広く用いられる表現で広範囲の語と共起するものが含まれてくる。このような共起語は、上の方法で文脈類似度を算出する際にもノイズとして作用することがある。従って、（１）ジャッカード係数、（２）ｔｆ−ｉｄｆコサイン尺度、（３）相互情報量のいずれを用いる場合にも、共起頻度行列Ｃを作る際に予め共起語の選別を行うようにしてもよい。

上記の計算方法による文脈類似度は、いずれも、単一の文内において語が共起する頻度の情報や、単一の文内における係り受け構造の情報を利用したものである。

以上述べた文脈類似度の計算方法を用いて、予めドメイン依存文脈類似データベースを作成し、ドメイン依存文脈類似データベース記憶部１６に書き込んでおくようにする。その際、ドメイン依存文データベース記憶部１５に記憶されていた特定ドメインに属するテキストを読み出して文集合として与える。なお、ドメイン依存文データベース記憶部１５には、例えばニュース文など、特定のドメインのみに属する多数の文を予め記憶させておくようにする。

図６は、文書平易化装置１０による文書平易化の処理手順を示すフローチャートである。以下、このフローチャートに沿って、文書平易化の処理の手順を説明する。
まずステップＳ１０１において、形態素解析処理部１２は、入力文データ記憶部から入力文データを読み出し、形態素解析処理を行う。その結果、入力文データは形態素ごとに分割され、その品詞情報とともに出力される。例えば、入力文データが「校舎の安全を確認する」（入力文データＡと呼ぶ）である場合、形態素解析処理の結果として、「校舎（名詞）／の（助詞）／安全（名詞）／を（助詞）／確認（名詞）／する（動詞）」のように、「／」によって形態素に区切られ、「（名詞）」や「（助詞）」などといった品詞情報が付加されたデータが出力される。また、例えば入力文データが「車庫に入っていた車」（入力文データＢと呼ぶ）である場合、形態素解析の結果として、「車庫（名詞）／に（助詞）／入っ（動詞）／て（助詞）／い（動詞）／た（助詞）／車（名詞）」というデータが、上と同様に出力される。

次にステップＳ１０２において、平易化規則選択部１３は、形態素解析処理部１２が出力した形態素解析結果を読み取り、平易化規則テーブル記憶部３０から平易化規則を読み取り、そして、形態素解析結果に含まれる形態素（単語）を平易化規則テーブルの中の平易化前の単語と照合する（マッチさせる）。そして平易化規則選択部１３は、ここでマッチした平易化規則を、上の形態素解析結果に適用し得る候補として選択する。例えば、上記の入力文データＡに関しては「校舎（名詞）」がマッチし「平易化前：校舎（名詞）−平易化後：建物（名詞）」という規則（平易化規則Ａと呼ぶ）が得られる。また、上記の入力文Ｂに関しては「車庫（名詞）」がマッチし「平易化前：車庫（名詞）−平易化後：建物（名詞）」という規則（平易化規則Ｂと呼ぶ）が得られる。そして、平易化規則選択部１３は、形態素解析結果と、照合によって得られた平易化規則とを出力する。

次にステップＳ１０３において、平易化規則適用認定部１４は、得られた平易化規則の適用を認定するか否かを判断する。このステップの詳細な処理手順は次の通りである。つまり、平易化規則適用認定部１４は、平易化規則選択部１３によって出力された平易化規則と、ドメイン依存文脈類似データベース記憶部１６に記憶された単語とを照合する。
まず、平易化規則Ａ「平易化前：校舎（名詞）−平易化後：建物（名詞）」の左辺は、平易化前の単語「校舎」（名詞）を表している。平易化規則適用認定部１４は、この単語「校舎」をキーとしてドメイン依存文脈類似データベース記憶部１６を検索する。すると、単語「校舎」に対応する文脈類似単語リスト「・・・・・・，建物（名詞），・・・・・・」が得られる。ここで、平易化規則Ａの右辺で表される平易化後の単語「建物」（名詞）は、ドメイン依存文脈類似データベースから得られた文脈類似単語リストに含まれている。よって、平易化規則適用認定部１４は、平易化規則Ａを適用可能な規則として認定する。
次に、平易化規則Ｂ「平易化前：車庫（名詞）−平易化後：建物（名詞）」の左辺は、単語「車庫」（名詞）を表している。平易化規則適用認定部１４は、この単語「車庫」をキーとしてドメイン依存文脈類似データベース記憶部１６を検索する。すると、単語「車庫」に対応する文脈類似単語リスト「・・・・・・，ガレージ（名詞），・・・・・・」が得られる。ここで、平易化規則Ｂの右辺で表される単語「建物」（名詞）は、この文脈類似単語リストには含まれていない。よって、平易化規則適用認定部１４は、平易化規則Ｂを適用不可の規則として認定する。

次にステップＳ１０４において、平易化規則適用認定部１４は、ステップＳ１０３において適用可能と認定された平易化規則のみを適用し、その結果を出力平易文データ記憶部１７に書き込む。つまり、上の例では、適用可能と認定された平易化規則Ａ「平易化前：校舎（名詞）−平易化後：建物（名詞）」が入力文データに適用され、形態素解析された入力文データＡ「校舎（名詞）／の（助詞）／安全（名詞）／を（助詞）／確認（名詞）／する（動詞）」は、「建物（名詞）／の（助詞）／安全（名詞）／を（助詞）／確認（名詞）／する（動詞）」に平易化される。つまり、平易化規則適用認定部１４は、「建物の安全を確認する」という平易化されたニュース文を出力する。また、適用不可と認定された平易化規則Ｂは適用されない。つまり、形態素解析された入力文データＢ「車庫（名詞）／に（助詞）／入っ（動詞）／て（助詞）／い（動詞）／た（助詞）／車（名詞）」には適用可能な平易化規則がないため、平易化規則適用認定部１４は入力文データＢを変形せずにそのまま出力する。

以上の手順により、文を自動的に平易にすることができる。上で用いた例では、文書平易化装置１０は、「校舎の安全を確認する」という入力文について、平易化規則「平易化前：校舎（名詞）−平易化後：建物（名詞）」を適用することによって、「建物の安全を確認する」と言い換えた文を出力した。一方、文書平易化装置１０は、「車庫に入っていた車」という入力文については、平易化規則「平易化前：車庫（名詞）−平易化後：建物（名詞）」の適用を認定しなかった。仮にこの平易化規則を適用していた場合には「建物に入っていた車」という文が出力されていたことになるが、これは、元の入力文に対して適切な文意を持たない。つまり、平易化規則適用認定部１４による、ドメイン依存文脈類似データベース記憶部１６を用いた認定が、有効に作用している。

次に、平易化規則テーブル作成装置２０の詳細について説明する。まず、平易化規則テーブル作成装置２０が扱うデータを説明する。
図７は、辞書テーブル記憶部２２が記憶する辞書テーブルの構成およびデータ例を示す概略図である。図示するように、この辞書テーブルは、表形式のデータであり、単語と品詞と説明文（語釈文）の各項目を有している。図示するデータ例では、「校舎」という単語の品詞が「名詞」であり、その単語の説明文が「学校の建物」であることを表している。なお、この辞書テーブルのデータは、例えば日本語辞書の情報などを元に、あらかじめ作成して記憶させておくようにする。

図８は、単語難易度テーブル記憶部２５が記憶する単語難易度テーブルの構成およびデータ例を示す概略図である。図示するように、この単語難易度テーブルは、表形式のデータであり、単語と品詞と難易度（難易度データ）の各項目を有している。難易度の項目は、０以上４以下の整数値を保持し、この数値が小さいほど単語が難しく、数値が大きいほど単語が易しいことを表している。図示するデータ例では、単語「校舎」（名詞）の難易度は２であり、単語「建物」（名詞）の難易度は４である。なお、ここでは、日本語能力試験（The Japanese-Language Proficiency Test, http://www.jlpt.jp/）の出題基準により各単語に０から４までの範囲の難易度の値を付与しているが、他の基準により難易度のデータを設定してもよいし、値の範囲が異なっていてもよい。一例としては、参考文献［国立国語研究所・著，「日本語教育のための基本語彙調査」，秀英出版，１９８４年３月］に掲載されている「基本語２０００」および「基本語６０００」を基準として用いることが考えられる。この場合、「基本語２０００」に含まれる単語の難易度を２に設定し、「基本語６０００」に含まれ「基本語２０００」に含まれない単語の難易度を１に設定し、「基本語６０００」にも含まれない単語の難易度を０に設定する。つまりこの場合、難易度の項目は、０以上２以下の整数値を保持する。この場合も、数値が小さいほど単語が難しく、数値が大きいほど単語がやさしいことを表している。
なお、この単語難易度テーブルのデータは、予め作成して記憶させておくようにする。

図９は、一般文脈類似データベース記憶部２８が記憶する一般文脈類似データベースの構成およびデータ例を示す概略図である。図示するように、一般文脈類似データベースは、単語と文脈類似単語リストの各項目を有する。つまり、一般文脈類似データベースは、単語と、その単語と文脈類似な単語（のリスト）との対応関係を保持するデータベースである。図示する例では、単語「建物」との間で文脈の類似性が高い単語のリストとして、「（ビル，教会，ホール，・・・・・・，校舎，車庫，・・・・・・）」が、文脈類似単語リストの項目に保持されている。このデータは、「ビル」、「教会」、「ホール」、「校舎」、「車庫」、その他、このリストに含まれる単語と、単語「建物」との間の文脈の類似性が高いことを表している。なお、単語「倉庫」は、このリストには含まれていない。この一般文脈類似データベースが、単語間の文脈類似度に基づくものであることは既に説明したドメイン依存文脈類似データベースと同様である。しかし、ここで説明している一般文脈類似データベースは、特定のドメインに依存しない文脈類似度に基づくものである点が異なる。

なお、前述の文脈類似度の計算方法を用いて、予め一般文脈類似データベースを作成し、一般文脈類似データベース記憶部２８に書き込んでおくようにする。その際、特定のドメインに属さず、広く一般的なドメインに属するドメイン非依存のテキストを文集合として与えるようにする。このようなドメイン非依存のデータは、例えば、インターネットに接続されたコンピュータを用いて、多数のウェブサーバから取得するようにする。これにより、文脈類似認定部２９は、特定のドメインに属さない一般的な文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を一般文脈類似データベース記憶部２８から読み出し、平易化規則候補が文脈類似か否かを認定する。

置換可能単語対テーブル記憶部２４は、平易化規則テーブル作成の過程において一時的に用いられる記憶部であり、置換可能単語対テーブルを記憶する。この置換可能単語対テーブルは、元の単語と、その単語を置換し得る単語との対を格納する。
平易化規則候補テーブル記憶部２７は、平易化規則テーブル作成の過程において一時的に用いられる記憶部であり、平易化規則候補テーブルを記憶する。この平易化規則候補テーブルもまた単語対を格納するものであり、特に平易化規則候補であると認定された単語対のみを格納する。

図１０は、平易化規則テーブル作成装置２０が平易化規則テーブルを作成する処理の手順を示すフローチャートである。以下、このフローチャートに沿って、平易化テーブル作成処理の手順を説明する。
まずステップＳ２０１において、置換可能単語対作成部２３が、辞書テーブル記憶部２２から、単語とその説明文の一対を読み出す。

次にステップＳ２０２において、置換可能単語対作成部２３が、ステップＳ２０１において読み出した説明文の形態素解析処理を行い、最終文節の自立語を取り出す。取り出された自立語は、元の単語に対応する単語である。置換可能単語対作成部２３は、ここで取り出した最終文節の自立語を、元の単語を置換し得る単語として扱う。例えば、図示した、単語「校舎」（名詞）の説明文「学校の建物」は、形態素解析処理の結果「学校（名詞）／の（助詞）／建物（名詞）」のように形態素に分割され、最終文節の自立語である「建物」（名詞）が取り出される。同様に、単語「倉庫」（名詞）の説明文「品物をしまっておく建物」から最終文節の自立語である「建物」（名詞）が取り出され、単語「車庫」（名詞）の説明文「自動車などをしまっておく建物」から最終文節の自立語である「建物」（名詞）が取り出される。つまり、これらの例では、「校舎（名詞）−建物（名詞）」、「倉庫（名詞）−建物（名詞）」、「車庫（名詞）−建物（名詞）」などの置換可能単語対が作成される。便宜上、これらの単語対の左側を左辺と呼び、右側を右辺と呼ぶ。

次にステップＳ２０３において、置換可能単語対作成部２３が、元の単語と、その単語の説明文における最終文節の自立語との対を、置換可能単語対として、置換可能単語対テーブル記憶部２４に書き込む。
つまり、ステップＳ２０１からＳ２０３までの一連の処理で、置換可能単語対作成部２３は、辞書テーブル記憶部２２から読み出した単語と、その単語に対応する説明文（語釈文）の中で当該単語に対応する他の単語とを、置換可能単語対として出力する。

次にステップＳ２０４において、平易化規則候補認定部２６が、置換可能単語対テーブル記憶部２４から、置換可能単語対を読み出す。
そしてステップＳ２０５において、平易化規則候補認定部２６は、単語難易度テーブル記憶部２５から読み出した難易度のデータを参照しながら、ステップＳ２０４で読み出した単語対が平易化規則候補であるか否かを認定する。ここでは、置換可能単語対における元の単語（左辺）の難易度が｛０，１，２｝のいずれかであって且つ変形後の単語（右辺）の難易度が｛３，４｝のいずれかである場合、またその場合にのみ、平易化規則候補認定部２６は、当該置換可能単語対が平易化規則候補であると認定する。また、当該条件を満たさない場合には、平易化規則候補認定部２６は、当該置換可能単語対が平易化規則候補ではない認定する。
つまり、「校舎（名詞，難易度２）−建物（名詞，難易度４）」（平易化規則候補Ａと呼ぶ）、「倉庫（名詞，難易度２）−建物（名詞，難易度４）（平易化規則候補Ｂと呼ぶ）」、「車庫（名詞，難易度２）−建物（名詞，難易度４）」（平易化規則候補Ｃと呼ぶ）の各々の置換可能単語対は、それぞれの左辺の難易度が２で且つ右辺の難易度が４であるため、平易化規則候補であると認定される。

そしてステップＳ２０６において、平易化規則候補認定部２６は、ステップＳ２０５において平易化規則候補であると認定された単語対のみを平易化規則候補テーブル記憶部２７に書き込む。
次にステップＳ２０７において、文脈類似認定部２９が、平易化規則候補テーブル記憶部２７から、平易化規則候補である単語対を読み出す。

そしてステップＳ２０８において、文脈類似認定部２９は、読み出した平易化規則候補の単語対において、それらの単語間の文脈が類似しているか否かを認定する。上記データ例の場合、平易化規則候補Ａ〜Ｃの各単語対を、文脈類似認定部２９は読み出す。そして、文脈類似認定部２９は、一般文脈類似データベース記憶部２８を検索し、これらの平易化規則候補Ａ〜Ｃの右辺の単語「建物」に対応する文脈類似単語リスト「（ビル，教会，ホール，・・・，校舎，車庫，・・・）」を取得する。平易化規則候補Ａの左辺の単語「校舎」（名詞）および平易化規則候補Ｃの左辺の単語「車庫」（名詞）は、取得された文脈類似単語リストに含まれている。つまり、「建物」と「校舎」との間ではその文脈が類似し、「建物」と「車庫」との間でもその文脈が類似する。一方、平易化規則候補Ｂの左辺の単語「倉庫」（名詞）は、取得された文脈類似単語リストには含まれていない。つまり、「建物」と「倉庫」との間ではその文脈が類似しない。従って、文脈類似認定部２９は、平易化規則候補Ａおよび平易化規則候補Ｃのみを平易化規則として認定し、平易化規則候補Ｂは平易化規則ではないと認定する。
平易化規則は、元の置換可能単語対に対応するものであり、平易化前の単語と平易化後の単語との単語対のデータを含む。

そしてステップＳ２０９において、平易化規則テーブル書込部３１は、単語間の文脈が類似していると認定した平易化規則候補のみを平易化規則テーブル記憶部３０に書き込む。つまり、上記の例では、平易化規則候補Ａ「校舎（名詞）−建物（名詞）」と平易化規則候補Ｃ「車庫（名詞）−建物（名詞）」が平易化規則テーブルに書き込まれる。そして、「平易化規則候補Ｂ「倉庫（名詞）−建物（名詞）」は平易化規則テーブルには書き込まれない。

なお、上述した実施形態における文書平易化装置および平易化規則テーブル作成装置の一部または全部の機能をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
各記憶部が記憶するデータは、上記実施形態では表形式のデータとして構成したが、等価な内容の他の形式のデータとして構成してもよい。例えば、代わりにＸＭＬ形式のデータを用いてもよい。
また、上記実施形態で示したデータ構成と論理的に等価なデータを、物理的に異なる形態で攻勢するようにしてもよい。一例としては、辞書テーブルと単語難易度テーブルとを、一つのテーブルとしてまとめて保持するようにしてもよい。
また、上記実施形態では文書平易化装置１０の内部に平易化規則テーブル作成装置２０を含む構成としたが、文書平易化装置１０の内部に平易化規則テーブル作成装置２０を含まないようにしてもよい。このとき、外部の平易化規則テーブル作成装置２０によって作成された平易化規則テーブルを、適宜、文書平易化装置１０が読み込んで利用する。また、平易化規則テーブル作成装置２０のみを単独で構成するようにしてもよい。
また、上記実施形態では、平易化規則テーブルを作成する処理において、平易化規則候補認定部２６が難易度に基づく認定を行ってから、平易化規則候補認定部２６によって平易化規則となり得ると認定された置換可能対について、文脈類似認定部２９が文脈類似化否かの認定を行っていた。しかし、平易化規則候補認定部２６による処理と文脈類似認定部２９による処理とは、処理順序が逆でもよく、また並列に行なってもよい。これらいずれの場合も、平易化規則テーブル書込部３１は、両方の条件で認定された置換可能単語対に基づく平易化規則を平易化規則テーブルに書き込む。
また、さらに、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、一般的に大量の文章を自動的に平易化変形するために利用することができる。本発明は、特に、報道等の分野で、大量の文書や原稿等を自動的に平易化変形するために利用することができる。

１０文書平易化装置
１１入力文データ記憶部
１２形態素解析処理部
１３平易化規則選択部
１４平易化規則適用認定部
１５ドメイン依存文データベース記憶部
１６ドメイン依存文脈類似データベース記憶部（第２の文脈類似データベース記憶部）
１７出力平易文データ記憶部
２０平易化規則テーブル作成装置
２１平易化規則作成部
２２辞書テーブル記憶部
２３置換可能単語対作成部
２４置換可能単語対テーブル記憶部
２５単語難易度テーブル記憶部
２６平易化規則候補認定部
２７平易化規則候補テーブル記憶部
２８一般文脈類似データベース記憶部（文脈類似データベース記憶部）
２９文脈類似認定部
３０平易化規則テーブル記憶部
３１平易化規則テーブル書込部

Claims

単語と前記単語の語釈文とを対応付けて保持する辞書テーブル記憶部と、
単語と前記単語の難易度を表す難易度データとを対応付けて保持する単語難易度テーブル記憶部と、
単語と、当該単語と文脈類似な他の単語との対応関係を保持する文脈類似データベース記憶部と、
前記辞書テーブル記憶部から読み出した前記単語と、当該単語に対応する前記語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する置換可能単語対作成部と、
前記置換可能単語対に含まれる単語それぞれについて、前記単語難易度テーブル記憶部から前記難易度データを読み出し、読み出した前記難易度データに基づき前記置換可能単語対が平易化規則となり得るか否かを認定する平易化規則候補認定部と、
前記置換可能単語対に含まれる単語に基づいて前記文脈類似データベース記憶部を読み出し、前記置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する文脈類似認定部と、
前記置換可能単語対のうち、前記平易化規則候補認定部によって平易化規則となり得ると認定され且つ前記文脈類似認定部によって文脈類似な関係にあると認定された前記置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む平易化規則テーブル書込部と、
を具備することを特徴とする平易化規則テーブル作成装置。
前記文脈類似データベース記憶部は、特定のドメインに属さない一般的な文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである、
ことを特徴とする請求項１に記載の平易化規則テーブル作成装置。
前記置換可能単語対作成部は、当該単語に対応する前記語釈文の中の最終文節に含まれる自立語を前記他の単語として抽出し、前記置換可能単語対を出力する、
ことを特徴とする請求項１または請求項２に記載の平易化規則テーブル作成装置。
請求項１から３までのいずれか一項に記載の平易化規則テーブル作成装置と、
前記平易化規則テーブル作成装置の前記平易化規則テーブル書込部が書き込む前記平易化規則を記憶する平易化規則テーブル記憶部と、
単語と、当該単語と文脈類似な他の単語との対応関係を保持する第２の文脈類似データベース記憶部と、
入力文データを読み込み、前記入力文データの形態素解析処理を行ない、前記入力文データに対応する形態素解析結果データを出力する形態素解析処理部と、
前記平易化規則テーブル記憶部から読み出す前記平易化規則に含まれる前記平易化前の単語と前記形態素解析結果データに含まれる単語とをマッチさせることにより前記形態素解析結果データに適用し得る前記平易化規則を選択する平易化規則選択部と、
前記平易化規則選択部によって選択された前記平易化規則に基づいて前記第２の文脈類似データベース記憶部を読み出し、当該平易化規則に含まれる前記平易化前の単語と前記平易化後の単語とが文脈類似な関係にあるか否かに基づいて当該平易化規則を適用するか否かを認定するとともに、適用すると認定された前記平易化規則に従い前記形態素解析結果データに含まれる前記平易化前の単語を前記平易化後の単語で置換して、得られた平易文を出力する平易化規則適用認定部と、
を具備することを特徴とする文書平易化装置。
前記第２の文脈類似データベース記憶部は、特定のドメインに属する文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである、
ことを特徴とする請求項４に記載の文書平易化装置。
単語と前記単語の語釈文とを対応付けて保持する辞書テーブル記憶部と、
単語と前記単語の難易度を表す難易度データとを対応付けて保持する単語難易度テーブル記憶部と、
単語と、当該単語と文脈類似な他の単語との対応関係を保持する文脈類似データベース記憶部と、
前記辞書テーブル記憶部から読み出した前記単語と、当該単語に対応する前記語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する置換可能単語対作成部と、
前記置換可能単語対に含まれる単語それぞれについて、前記単語難易度テーブル記憶部から前記難易度データを読み出し、読み出した前記難易度データに基づき前記置換可能単語対が平易化規則となり得るか否かを認定する平易化規則候補認定部と、
前記置換可能単語対に含まれる単語に基づいて前記文脈類似データベース記憶部を読み出し、前記置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する文脈類似認定部と、
前記置換可能単語対のうち、前記平易化規則候補認定部によって平易化規則となり得ると認定され且つ前記文脈類似認定部によって文脈類似な関係にあると認定された前記置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む平易化規則テーブル書込部と、
を具備する平易化規則テーブル作成装置としてコンピュータを機能させるプログラム。