JP2011175574A - 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム - Google Patents

文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム Download PDF

Info

Publication number
JP2011175574A
JP2011175574A JP2010040642A JP2010040642A JP2011175574A JP 2011175574 A JP2011175574 A JP 2011175574A JP 2010040642 A JP2010040642 A JP 2010040642A JP 2010040642 A JP2010040642 A JP 2010040642A JP 2011175574 A JP2011175574 A JP 2011175574A
Authority
JP
Japan
Prior art keywords
word
simplification
context
simplification rule
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010040642A
Other languages
English (en)
Other versions
JP5290218B2 (ja
Inventor
Hideya Mino
秀弥 美野
Hideki Tanaka
英輝 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2010040642A priority Critical patent/JP5290218B2/ja
Publication of JP2011175574A publication Critical patent/JP2011175574A/ja
Application granted granted Critical
Publication of JP5290218B2 publication Critical patent/JP5290218B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】不要な変形規則を含まず、難解単語から平易単語への変形規則のみを自動的に獲得することのできる文書平易化装置および平易化規則テーブル作成装置を提供する。
【解決手段】平易化規則テーブル作成装置内では、置換可能単語対作成部が、辞書テーブル記憶部から読み出した単語と語釈文に基づき置換可能単語対として出力する。平易化規則候補認定部は、置換可能単語対に含まれる単語それぞれについて難易度データを読み出し、置換可能単語対が平易化規則となり得るか否かを認定する。文脈類似認定部は、置換可能単語対に含まれる単語に基づいて文脈類似データベース記憶部を読み出し、置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する。平易化規則テーブル書込部は、平易化規則候補認定部によって平易化規則となり得ると認定され且つ文脈類似認定部によって文脈類似な関係にあると認定された平易化規則を生成する。
【選択図】図2

Description

本発明は、入力された文を自動的に平易化する文書平易化装置、その平易化のための平易化規則(変形規則)を自動的に作成する平易化規則テーブル作成装置、およびそれらのコンピュータプログラムに関する。
自然言語で記述された文の文意を変えることなく、文の表現を自動的に変えることが求められる場合がある。例えば、難解な文章を平易な文章に自動的に変換するシステムの技術が、特許文献1に開示されている。この特許文献1の技術は、難解単語と、その難解単語と同義関係にある平易単語を予め記憶した記憶装置を用いることによって、入力文に含まれる難解単語を平易単語に書き換えるものである。
また、特許文献2には、変換対象文が入力されると、あらかじめ記憶された変形規則を用いて変換候補を生成する技術が開示されている。また、この特許文献2の技術では、評価尺度を用いて、生成された変換候補が目的とするふさわしい変換結果であるかどうかを評価するための複数の評価尺度を用いて評価するようになっている。また、特許文献2の段落0024には、異なる複数の辞書の同じ項目の定義文を照合し、その照合結果から変形規則を得ることが記載されている。
実開平3−82446号公報 特開2003−76687号公報
しかしながら、上記の背景技術には、次のような問題があり、解決が望まれる。
特許文献1に記載された技術では、同義関係にある難解単語と平易単語とを予め収集して記憶装置に記憶させておくことが必要であり、これには膨大な手間を要するという問題がある。
特許文献2に記載された技術では、コンピュータを用いて大量の言語データから変形規則を自動獲得する際に、必要な変形規則だけでなく雑多な変形規則も同時に獲得されてしまい、それら不要な変形規則の適用により不要な変換候補も得られてしまうという問題がある。例えば、難解表現から平易表現への変換のみを行いたい場合にも、難解表現から平易表現への変換のための変形規則だけでなく、その目的に合わない変形規則も同時に獲得されてしまう。また、特許文献2に記載された技術では、変形規則を評価するために、文書集合全体の出現頻度に基づく評価ポイントや、構文解析結果から得られる文法上の言い回しに対する評価ポイントを用いているが、これらはいずれも文書集合全体の評価であり、文単体における変換結果の評価を行なえない。なおここで、文書集合全体とは、例えば、低年齢向け文書の集合や、特定の個人によって執筆された文書の集合である。
本発明は、上記のような課題を解決するものであり、文意を変えずに文または文書に含まれる文字列の平易化を行なうにあたり、不要な変形規則を含まず、難解単語から平易単語への変形規則のみを自動的に獲得することのできる文書平易化装置および平易化規則テーブル作成装置を提供する。
また、本発明は、文意を考慮し、文集合の評価に基づくものではなく文単体における変換結果の評価を行なうことのできる文書平易化装置を提供する。また、複数のドメインの文意情報を用いることによって、特定のドメインにおける文意にも対応することのできる文書平易化装置を提供する。
[1]上記の課題を解決するため、本発明の一態様による平易化規則テーブル作成装置は、単語と前記単語の語釈文とを対応付けて保持する辞書テーブル記憶部と、単語と前記単語の難易度を表す難易度データとを対応付けて保持する単語難易度テーブル記憶部と、単語と、当該単語と文脈類似な他の単語との対応関係を保持する文脈類似データベース記憶部と、前記辞書テーブル記憶部から読み出した前記単語と、当該単語に対応する前記語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する置換可能単語対作成部と、前記置換可能単語対に含まれる単語それぞれについて、前記単語難易度テーブル記憶部から前記難易度データを読み出し、読み出した前記難易度データに基づき前記置換可能単語対が平易化規則となり得るか否かを認定する平易化規則候補認定部と、前記置換可能単語対に含まれる単語に基づいて前記文脈類似データベース記憶部を読み出し、前記置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する文脈類似認定部と、前記置換可能単語対のうち、前記平易化規則候補認定部によって平易化規則となり得ると認定され且つ前記文脈類似認定部によって文脈類似な関係にあると認定された前記置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む平易化規則テーブル書込部とを具備することを特徴とする。
ここで、語釈文とは、単語の意義を説き明かす文のテキストデータである。辞書が見出し語と語釈文との対応関係を収録しているのと同様に、辞書テーブル記憶部は単語とその単語の意義を説き明かす語釈文との対応関係を表わすレコードを単語毎に記憶している。
また、ここで、単語間の文脈類似とは、与えられた文集合において、ある文内において第1の単語が出現する文脈と、ある文内において第2の単語が出現する文脈との類似度に基づくものである。このとき、第1の単語が出現する文と第2の単語が出現する文とは異なる文である場合もあり、また第1の単語と第2の単語が偶々同一の文内に出現する場合もある。この文脈の類似度は、文集合が与えられたときに、数値として算出されるものである。ここで文脈とは、例えば、単語が出現する文内(つまり、上記の第1の単語に対しては当該第1の単語が出現する文内であり、上記の第2の単語に対しては当該第2の単語が出現する文内)において前記単語と共起する他の単語(共起語と呼ぶ)の集合や、共起語の出現頻度分布や、共起語の出現順序や、当該単語が出現する文の係り受け解析結果(これは、係り受け解析木や、等価なデータ等で表される)の構造(その構造における前記単語の位置も含む)やその構造の出現頻度分布などである。これら例示した文脈を用いて、所定の処理により単語間の文脈類似度が計算される。そして、文脈類似度が所定の閾値以上のときに、それらの単語同士は文脈類似であると言う。
上記の構成によれば、置換可能単語対作成部は、辞書テーブル記憶部から、単語とその語釈文内において対応する他の単語との単語対(置換可能単語対)を作成する。平易化規則候補認定部は、前記置換可能単語対に基づいて単語難易度テーブル記憶部を参照し、単語対に含まれる各単語の難易度データに基づき、置換可能単語対が平易化規則となり得るか否かを認定する。例えば、平易化規則において、平易化前の単語よりも平易化後の単語のほうが平易である場合等に、置換可能単語対が平易化規則となり得ると認定する。文脈類似認定部は、置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する。そして、平易化規則候補認定部によって平易化規則となり得ると認定され、且つ文脈類似認定部によって文脈類似であると認定された単語対を含む置換可能単語対を、平易化規則として、平易化規則テーブル書込部がテーブルに書き込む。
[2]また、本発明の一態様による平易化規則テーブル作成装置においては、前記文脈類似データベース記憶部は、特定のドメインに属さない一般的な文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものであることを特徴とする。
上記の構成により、特定のドメインに依存しない一般的な文集合に基づき、文脈差異の比較的小さい平易化を行うことのできる平易化規則のみを自動的に作成することができる。このように作成された平易化規則テーブルを用いることにより、様々なドメインの文に平易化規則を対応させることができる。
[3]また、本発明の一態様による平易化規則テーブル作成装置においては、前記置換可能単語対作成部は、当該単語に対応する前記語釈文の中の最終文節に含まれる自立語を前記他の単語として抽出し、前記置換可能単語対を出力する、ことを特徴とする。
[4]また、本発明の一態様による文書平易化装置は、上記のいずれかの平易化規則テーブル作成装置と、前記平易化規則テーブル作成装置の前記平易化規則テーブル書込部が書き込む前記平易化規則を記憶する平易化規則テーブル記憶部と、単語と当該単語と文脈類似な他の単語との対応関係を保持する第2の文脈類似データベース記憶部と、入力文データを読み込み、前記入力文データの形態素解析処理を行ない、前記入力文データに対応する形態素解析結果データを出力する形態素解析処理部と、前記平易化規則テーブル記憶部から読み出す前記平易化規則に含まれる前記平易化前の単語と前記形態素解析結果データに含まれる単語とをマッチさせることにより前記形態素解析結果データに適用し得る前記平易化規則を選択する平易化規則選択部と、前記平易化規則選択部によって選択された前記平易化規則に基づいて前記第2の文脈類似データベース記憶部を読み出し、当該平易化規則に含まれる前記平易化前の単語と前記平易化後の単語とが文脈類似な関係にあるか否かに基づいて当該平易化規則を適用するか否かを認定するとともに、適用すると認定された前記平易化規則に従い前記形態素解析結果データに含まれる前記平易化前の単語を前記平易化後の単語で置換して、得られた平易文を出力する平易化規則適用認定部と、を具備することを特徴とする。
上記の構成により、この文書平易化装置の形態素解析処理部は、入力文データを形態素の列データ(形態素解析結果データ)に分解する。平易化規則選択部は、形態素解析結果データに適用し得る平易化規則を、平易化規則テーブル記憶部から選び出す。選び出された平易化規則のうち、平易化規則適用認定部は、平易化規則を作成するときの文脈類似データベースとは異なる第2の文脈類似データベースに基づいて適用すべき平易化規則をさらに選び出す。そして、そのように選び出された平易化規則のみを適用して、元の入力文データに対応する平易文を出力する。
[5]また、本発明の一態様による文書平易化装置においては、前記第2の文脈類似データベース記憶部は、特定のドメインに属する文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである、ことを特徴とする。
上記の構成により、特定のドメインのみに属する文集合に基づき、文脈差異の比較的小さい平易化を行うことのできる平易化規則のみ適用することができる。そして、そのような平易化規則のみを適用して、特定のドメインに合った、自然な平易文を出力することができる。
[6]また、本発明の一態様は、単語と前記単語の語釈文とを対応付けて保持する辞書テーブル記憶部と、単語と前記単語の難易度を表す難易度データとを対応付けて保持する単語難易度テーブル記憶部と、単語と、当該単語と文脈類似な他の単語との対応関係を保持する文脈類似データベース記憶部と、前記辞書テーブル記憶部から読み出した前記単語と、当該単語に対応する前記語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する置換可能単語対作成部と、前記置換可能単語対に含まれる単語それぞれについて、前記単語難易度テーブル記憶部から前記難易度データを読み出し、読み出した前記難易度データに基づき前記置換可能単語対が平易化規則となり得るか否かを認定する平易化規則候補認定部と、前記置換可能単語対に含まれる単語に基づいて前記文脈類似データベース記憶部を読み出し、前記置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する文脈類似認定部と、前記置換可能単語対のうち、前記平易化規則候補認定部によって平易化規則となり得ると認定され且つ前記文脈類似認定部によって文脈類似な関係にあると認定された前記置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む平易化規則テーブル書込部と、を具備する平易化規則テーブル作成装置としてコンピュータを機能させるプログラムである。
本発明の文書平易化装置によれば、単語が置かれる文脈や文の意味が不自然にならないように、文の変形を行える。この変形とは、特に平易化(難解な単語を用いた表現を、平易な単語を用いた表現に変形すること)である。
また、本発明の文書平易化装置によれば、ドメイン毎に特有の文脈類似データベース(ドメイン依存文脈類似データベース)を用いるため、特定のドメインにおける文意にも対応できる。また、ドメイン毎に、用いるデータベースを切り替えることもできる。
また、本発明の文書平易化装置によれば、文集合に含まれる多数の文の評価に基づくものではなく、文単体における変換結果の評価を行なうことができる。
本発明の実施形態による文書平易化装置の機能構成を示したブロック図である。 同実施形態による平易化規則テーブル作成装置のより詳細な機能構成を示したブロック図である。 同実施形態の動作例における入力文と出力文と変形規則の関係を示す概略図である。 同実施形態による平易化規則テーブルの構成とそのデータ例を示す概略図である。 同実施形態によるドメイン依存文脈類似データベースの構成とそのデータ例を示す概略図である。 同実施形態による文書平易化装置が文書を平易化する処理の手順を示すフローチャートである。 同実施形態による辞書テーブルの構成およびデータ例を示す概略図である。 同実施形態による単語難易度テーブルの構成およびデータ例を示す概略図である。 同実施形態による一般文脈類似データベースの構成およびデータ例を示す概略図である。 同実施形態による平易化規則テーブル作成装置が平易化規則テーブルを作成する処理の手順を示すフローチャートである。
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態による文書平易化装置の機能構成を示すブロック図である。この図において、符号10は文書平易化装置である。この文書平易化装置10が有する各機能のうち、データを処理する機能は、電子回路を用いて実現される。また、文書平易化装置10が有する各機能のうち、データを記憶する機能は、半導体メモリや時期ハードディスク装置等を用いて実現される。
図示するように、文書平易化装置10は、内部に平易化規則テーブル作成装置20を含んで構成される。また、文書平易化装置10は、さらに、入力文データ記憶部11と、形態素解析処理部12と、平易化規則選択部13と、平易化規則適用認定部14と、ドメイン依存文データベース記憶部15と、ドメイン依存文脈類似データベース記憶部16(第2の文脈類似データベース記憶部)と、出力平易文データ記憶部17とを含んで構成される。なお、平易化規則テーブル作成装置20の内部の構成については後述する。
入力文データ記憶部11は、平易化の対象となる入力文のテキストデータを記憶する。
形態素解析処理部12は、入力文データ記憶部11から入力文を読み出し、形態素解析処理を行い、入力文を形態素の列に分割する。形態素解析処理自体は既存の技術を用いて実現可能であり、例えば形態素解析器プログラム「MeCab」などを用いる。形態素解析処理部12は、読み込んだ入力文データに対応する形態素解析結果データを出力する。
平易化規則選択部13は、平易化規則テーブル作成装置20によって作成される平易化規則テーブルを平易化規則テーブル記憶部30から読み出し、形態素解析処理部12が出力した形態素を変換元単語として含む平易化規則を選択する。言い換えれば、平易化規則選択部13は、平易化規則に含まれる平易化前の単語と形態素解析結果データに含まれる単語とをマッチさせることにより形態素解析結果データに適用し得る前記平易化規則を選択する。
平易化規則適用認定部14は、平易化規則選択部13によって選択された平易化規則に基づいてドメイン依存文脈類似データベース記憶部16を読み出し、当該平易化規則に含まれる平易化前の単語と平易化後の単語とが文脈類似な関係にあるか否かに基づいて当該平易化規則を適用するか否かを認定する。また、平易化規則適用認定部14は適用すると認定された平易化規則を実際に適用することによって入力文に対応する平易文を出力する。この平易文は、適用すべき平易化規則に従って、形態素解析結果データに含まれる平易化前の単語を平易化後の単語で置換して得られるものである。
ドメイン依存文データベース記憶部15は、特定のドメインに属するドメイン依存文をデータベースとして記憶するものである。
ドメイン依存文脈類似データベース記憶部16は、単語と、その単語と文脈類似な他の単語との対応関係を保持するものである。特に、このドメイン依存文脈類似データベース記憶部16は、特定のドメインに属する文集合(一例としては、テレビ放送で用いられるニュース文のみの集合)を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである。このドメイン依存文脈類似データベース記憶部16が記憶するデータは、ドメイン依存文データベース記憶部15が記憶するドメイン依存文に基づいて予め作成される。
出力平易文データ記憶部17は、平易化規則適用認定部14によって出力される平易文を記憶するものである。
平易化規則テーブル作成装置20は、上記の処理で用いる平易化規則テーブルを自動的に作成するものである。
図2は、平易化規則テーブル作成装置20の内部機能構成を示すブロック図である。図示するように、平易化規則テーブル作成装置20は、平易化規則作成部21と、辞書テーブル記憶部22と、単語難易度テーブル記憶部25と、一般文脈類似データベース記憶部28(文脈類似データベース記憶部)と、平易化規則テーブル記憶部30とを含んで構成される。平易化規則作成部21はさらに、置換可能単語対作成部23と、置換可能単語対テーブル記憶部24と、平易化規則候補認定部26と、平易化規則候補テーブル記憶部27と、文脈類似認定部29と、平易化規則テーブル書込部31とを含んで構成される。
平易化規則作成部21は、辞書テーブル記憶部22や単語難易度テーブル記憶部25や一般文脈類似データベース記憶部28に記憶されているデータを基に、平易化規則を作成し、平易化規則テーブル記憶部30に書き込む。
辞書テーブル記憶部22は、単語とその単語の語釈文とを対応付けたテーブルを保持するものである。なお、語釈文とは、単語の意義を説き明かす文のテキストデータである。
単語難易度テーブル記憶部25は、単語とその単語の難易度を表す難易度データとを対応付けたテーブルを保持するものである。
一般文脈類似データベース記憶部28は、単語と、その単語と文脈類似な他の単語との対応関係を保持するものである。特に、この一般文脈類似データベース記憶部28は、特定のドメインに属さない一般的な文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである。
平易化規則テーブル記憶部30は、単語を平易化するための平易化規則を記憶するテーブルである。このテーブルの詳細については、後述する。
置換可能単語対作成部23は、辞書テーブル記憶部22から読み出した単語と、当該単語に対応する語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する。
置換可能単語対テーブル記憶部24は、置換可能単語対作成部23によって出力された置換可能単語対を一時的に記憶する。
平易化規則候補認定部26は、置換可能単語対作成部23によって出力された置換可能単語対に含まれる単語それぞれについて、単語難易度テーブル記憶部25から難易度データを読み出し、両単語について読み出した難易度データの関係に基づき、その置換可能単語対が平易化規則となり得るか否かを認定する。言い換えれば、置換可能単語対は方向を有しており、その方向が平易化(難しい単語から平易な単語へ)である場合には、その置換可能単語対は平易化規則となり得る。逆に、その方向が難化(平易な単語から難しい単語へ)である場合には、その置換可能単語対は平易化規則となり得ない。また、ある置換可能単語対に含まれる両方の単語の難易度が同程度である場合にも、その置換可能単語対を平易化規則としない。なお、具体的な難易度データの例を用いた処理については、後述する。
平易化規則候補テーブル記憶部27は、平易化規則候補認定部26によって平易化規則となり得ると認定された置換可能単語対を、一時的に記憶する。
文脈類似認定部29は、置換可能単語対作成部23によって出力され、平易化規則候補認定部26によって平易化規則となり得ると認定された置換可能単語対を平易化規則候補テーブル記憶部27から読み出し、その単語対に含まれる単語に基づいて、一般文脈類似データベース記憶部28を読み出し、その置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する。
平易化規則テーブル書込部31は、前記の置換可能単語対のうち、平易化規則候補認定部26によって平易化規則となり得ると認定され且つ文脈類似認定部29によって文脈類似な関係にあると認定された置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む。
次に、文書平易化装置10の簡単な動作例を説明する。図3は、動作例における入力文と出力文と変形規則の関係を示す概略図である。
一例としては、図3(a)に示すように、入力文データ記憶部11には、「校舎や施設が安全に使用できる」という入力文が記憶されている。そして、平易化規則テーブル記憶部30には、難解単語から平易単語への変形規則のひとつとして、「校舎−建物」という規則が記憶されている。この変形規則を上記の入力文に適用すると、「建物や施設が安全に使用できる」という平易文が出力され、出力平易文データ記憶部17に書き込まれる。一般的な変形規則としては、上記の「校舎−建物」の他に、例えば「施設−設備」といった変形規則も考え得るが、この「施設−設備」という規則は、単語の平易化に寄与しないため、後述する方法によって平易化規則テーブル作成時に除外されるため、平易化規則テーブル記憶部30には記憶されておらず、よって上記の入力文に対して適用されることもない。
別の例では、図3(b)に示すように、入力文データ記憶部11に、「一般の住民が被害にあった」という入力文が記憶されている。そして、平易化規則テーブル記憶部30には、難解単語から平易単語への変形規則のひとつとして、「一般−普通」という規則が記憶されている。平易化規則選択部13が上記の入力文に対してこの「一般−普通」という変形規則を適用すると、「普通の住民が被害にあった」という出力文の候補が得られる。しかしながら、「一般の住民が被害にあった」という入力文を「普通の住民が被害にあった」に変形してしまうと文意が変わってしまうため、平易化規則適用認定部14はこのような変形規則の適用を認定しない。このように文意が変わるのは、単一の文において「一般」という単語が置かれる文脈と、単一の文において「普通」という単語が置かれる文脈との間の類似度が低いためである。つまり、平易化規則適用認定部14は、文脈類似度を用いることによって変形規則を適用するか否かの認定を行う。これにより、「普通の住民が被害にあった」という出力候補は除外されることとなり、出力されない。なお、一連の詳細な処理手順については後述する。
次に、平易化規則テーブル記憶部30が記憶する平易化規則テーブルについて説明する。
図4は、平易化規則テーブルの構成とそのデータ例を示す概略図である。図示するように、平易化規則テーブルは例えば表形式のデータとして実現され、平易化前の単語およびその品詞と、平易化後の単語およびその品詞の項目を有する。そして、各行が、平易化規則に対応する。図示する例では平易化規則テーブルは、「校舎」という名詞を「建物」という名詞に平易化する規則(「平易化前:校舎(名詞)−平易化後:建物(名詞)」)と、「車庫」という名詞を「建物」という名詞に平易化する規則(「平易化前:車庫(名詞)−平易化後:建物(名詞)」)とを有している。以下において便宜上、平易化規則に関して、平易化前を左辺、平易化後を右辺と呼ぶ。
なお、図面では、テーブルに保持される限られた数のデータのみを示しているが、実際には日本語およびその単語等に関する多くの数のデータをテーブルは有している。そして、以後、別の図面を参照しながら説明する各種データについても同様である。
次に、ドメイン依存文脈類似データベース記憶部16が記憶するドメイン依存文脈類似データベースについて説明する。
図5は、ドメイン依存文脈類似データベースの構成とそのデータ例を示す概略図である。図示するように、ドメイン依存文脈類似データベースは例えば表形式のデータとして実現され、単語と、その単語に対応する文脈類似単語リストとの各項目を有している。文脈類似単語リストの項目は単語のリストを値として保持する。つまり、ドメイン依存文脈類似データベースは、単語と、その単語と文脈類似な単語(のリスト)との対応関係を保持するデータベースである。文脈類似単語リストの項目に格納されるリストは、単語の項目に格納される単語との間で所定の閾値以上の文脈類似度を有する単語のリストである。ここで、文脈類似度は、ドメインに依存するものであり、その算出方法については後述する。図示するデータ例は、ニュースのドメインを前提とするデータであり、単語「校舎」に対応する文脈類似単語リストには、「建物」(品詞は名詞)という単語が含まれている。ここで、「・・・」は、リスト中の他の単語の記載を省略していることを表している。また、単語「車庫」に対応する文脈類似単語リストには、「ガレージ」(品詞は名詞)という単語が含まれており、「建物」という単語は含まれていない。
ここで、単語間の文脈類似という関係について説明する。所定の文集合において、単語wと単語wが出現するとき、当該文集合に含まれる文において単語wが出現する文における単語wの文脈と、当該文集合に含まれる文において単語wが出現する文における単語wの文脈とを基に、両方の文脈間の類似度(文脈類似度)を数値的に算出し、その類似度が所定の閾値以上であるときに、その文集合において単語wと単語wとは文脈類似である。典型例としては、ある文集合において「私の好きな色は赤です。」という表現と「私の好きな色は青です。」という表現とがともに多数出現する場合、「赤」という単語と「青」という単語とは文脈類似と言える。なお、ここで言う文脈とは、文内において単語wや単語wと共起する単語の集合や、それら共起語の出現頻度分布や、単語wや単語wを取り巻く係り受け関係などである。
文脈類似度を算出する方法について、いくつかの例を説明する。与えられた文集合に対して、語w(但し、w∈Wであり、ここではwは名詞である)に対する共起語をv(v∈V)とし、語wと語vとが共起する頻度をfreq(w,v)とする。
(a)係り受け関係を利用する場合
前記の文集合に含まれる各文について、形態素解析処理および係り受け解析処理を行う。形態素解析処理および係り受け解析処理自体は、コンピュータおよび既存のコンピュータプログラムを用いて行うことができる。そして、係り受け解析処理の結果を元に、格助詞に着目し、名詞wに対する共起動詞の出現頻度を表す共起動詞ベクトルを作成する。
(b)文内共起を利用する場合
前記の文集合に含まれる各文について、形態素解析処理および文節区切り処理を行う。文節区切り処理も、コンピュータおよび既存のコンピュータプログラムを用いて行うことができる。そして、名詞wと文内で共起する名詞vを抜き出し、これを共起ペアとする。
上記のように係り受け関係または文内共起を利用し、共起頻度行列Cを作成する。
Figure 2011175574
但し、i=1,2,・・・,|W|であり、j=1,2,・・・,|V|である。そして、|W|は集合Wの要素数、wは集合Wのi番目の要素、|V|は集合Vの要素数、vは集合Vのj番目の要素である。
そして、得られた共起頻度行列Cを用いて、次の(1)〜(3)のいずれかの方法で単語間の文脈類似度を算出する。
(1)ジャッカード(Jaccard)係数
,w∈Wのそれぞれに対して、共起語の集合はV(={v|c1,j>0}),V(={v|c2,j>0})である。そして、下の式(1)を用いて計算されるジャッカード係数の値を、w,wの間の文脈類似度とする。
Figure 2011175574
(2)tf−idfコサイン尺度
共起頻度行列Cを基に、 w,wのそれぞれに対応し、tf−idfで重み付けした共起語ベクトル
Figure 2011175574
を求め、下の式(2)を用いて計算されるこれらのコサイン尺度を、w,wの間の文脈類似度とする。但し、式(2)の右辺の分子は、ベクトルの内積である。このコサイン尺度は、共起語の出現頻度の分布の類似性を表している。
Figure 2011175574
(3)相互情報量
前記(b)の文内共起を利用する場合に、w,wが出現した文の数を、それぞれ、s(w),s(w)として、また、同一文内で共起した回数をs(w,w)、文集合に含まれる文の総数をSとして、下の式(3)を用いて計算される相互情報量(PMI,Pointwise Mutual Information)を、w,wの間の文脈類似度とする。
Figure 2011175574
なお、文集合に含まれる文の数が多い場合には、頻度が低い共起語の中に、一般的に広く用いられる表現で広範囲の語と共起するものが含まれてくる。このような共起語は、上の方法で文脈類似度を算出する際にもノイズとして作用することがある。従って、(1)ジャッカード係数、(2)tf−idfコサイン尺度、(3)相互情報量のいずれを用いる場合にも、共起頻度行列Cを作る際に予め共起語の選別を行うようにしてもよい。
上記の計算方法による文脈類似度は、いずれも、単一の文内において語が共起する頻度の情報や、単一の文内における係り受け構造の情報を利用したものである。
以上述べた文脈類似度の計算方法を用いて、予めドメイン依存文脈類似データベースを作成し、ドメイン依存文脈類似データベース記憶部16に書き込んでおくようにする。その際、ドメイン依存文データベース記憶部15に記憶されていた特定ドメインに属するテキストを読み出して文集合として与える。なお、ドメイン依存文データベース記憶部15には、例えばニュース文など、特定のドメインのみに属する多数の文を予め記憶させておくようにする。
図6は、文書平易化装置10による文書平易化の処理手順を示すフローチャートである。以下、このフローチャートに沿って、文書平易化の処理の手順を説明する。
まずステップS101において、形態素解析処理部12は、入力文データ記憶部から入力文データを読み出し、形態素解析処理を行う。その結果、入力文データは形態素ごとに分割され、その品詞情報とともに出力される。例えば、入力文データが「校舎の安全を確認する」(入力文データAと呼ぶ)である場合、形態素解析処理の結果として、「校舎(名詞)/の(助詞)/安全(名詞)/を(助詞)/確認(名詞)/する(動詞)」のように、「/」によって形態素に区切られ、「(名詞)」や「(助詞)」などといった品詞情報が付加されたデータが出力される。また、例えば入力文データが「車庫に入っていた車」(入力文データBと呼ぶ)である場合、形態素解析の結果として、「車庫(名詞)/に(助詞)/入っ(動詞)/て(助詞)/い(動詞)/た(助詞)/車(名詞)」というデータが、上と同様に出力される。
次にステップS102において、平易化規則選択部13は、形態素解析処理部12が出力した形態素解析結果を読み取り、平易化規則テーブル記憶部30から平易化規則を読み取り、そして、形態素解析結果に含まれる形態素(単語)を平易化規則テーブルの中の平易化前の単語と照合する(マッチさせる)。そして平易化規則選択部13は、ここでマッチした平易化規則を、上の形態素解析結果に適用し得る候補として選択する。例えば、上記の入力文データAに関しては「校舎(名詞)」がマッチし「平易化前:校舎(名詞)−平易化後:建物(名詞)」という規則(平易化規則Aと呼ぶ)が得られる。また、上記の入力文Bに関しては「車庫(名詞)」がマッチし「平易化前:車庫(名詞)−平易化後:建物(名詞)」という規則(平易化規則Bと呼ぶ)が得られる。そして、平易化規則選択部13は、形態素解析結果と、照合によって得られた平易化規則とを出力する。
次にステップS103において、平易化規則適用認定部14は、得られた平易化規則の適用を認定するか否かを判断する。このステップの詳細な処理手順は次の通りである。つまり、平易化規則適用認定部14は、平易化規則選択部13によって出力された平易化規則と、ドメイン依存文脈類似データベース記憶部16に記憶された単語とを照合する。
まず、平易化規則A「平易化前:校舎(名詞)−平易化後:建物(名詞)」の左辺は、平易化前の単語「校舎」(名詞)を表している。平易化規則適用認定部14は、この単語「校舎」をキーとしてドメイン依存文脈類似データベース記憶部16を検索する。すると、単語「校舎」に対応する文脈類似単語リスト「・・・・・・,建物(名詞),・・・・・・」が得られる。ここで、平易化規則Aの右辺で表される平易化後の単語「建物」(名詞)は、ドメイン依存文脈類似データベースから得られた文脈類似単語リストに含まれている。よって、平易化規則適用認定部14は、平易化規則Aを適用可能な規則として認定する。
次に、平易化規則B「平易化前:車庫(名詞)−平易化後:建物(名詞)」の左辺は、単語「車庫」(名詞)を表している。平易化規則適用認定部14は、この単語「車庫」をキーとしてドメイン依存文脈類似データベース記憶部16を検索する。すると、単語「車庫」に対応する文脈類似単語リスト「・・・・・・,ガレージ(名詞),・・・・・・」が得られる。ここで、平易化規則Bの右辺で表される単語「建物」(名詞)は、この文脈類似単語リストには含まれていない。よって、平易化規則適用認定部14は、平易化規則Bを適用不可の規則として認定する。
次にステップS104において、平易化規則適用認定部14は、ステップS103において適用可能と認定された平易化規則のみを適用し、その結果を出力平易文データ記憶部17に書き込む。つまり、上の例では、適用可能と認定された平易化規則A「平易化前:校舎(名詞)−平易化後:建物(名詞)」が入力文データに適用され、形態素解析された入力文データA「校舎(名詞)/の(助詞)/安全(名詞)/を(助詞)/確認(名詞)/する(動詞)」は、「建物(名詞)/の(助詞)/安全(名詞)/を(助詞)/確認(名詞)/する(動詞)」に平易化される。つまり、平易化規則適用認定部14は、「建物の安全を確認する」という平易化されたニュース文を出力する。また、適用不可と認定された平易化規則Bは適用されない。つまり、形態素解析された入力文データB「車庫(名詞)/に(助詞)/入っ(動詞)/て(助詞)/い(動詞)/た(助詞)/車(名詞)」には適用可能な平易化規則がないため、平易化規則適用認定部14は入力文データBを変形せずにそのまま出力する。
以上の手順により、文を自動的に平易にすることができる。上で用いた例では、文書平易化装置10は、「校舎の安全を確認する」という入力文について、平易化規則「平易化前:校舎(名詞)−平易化後:建物(名詞)」を適用することによって、「建物の安全を確認する」と言い換えた文を出力した。一方、文書平易化装置10は、「車庫に入っていた車」という入力文については、平易化規則「平易化前:車庫(名詞)−平易化後:建物(名詞)」の適用を認定しなかった。仮にこの平易化規則を適用していた場合には「建物に入っていた車」という文が出力されていたことになるが、これは、元の入力文に対して適切な文意を持たない。つまり、平易化規則適用認定部14による、ドメイン依存文脈類似データベース記憶部16を用いた認定が、有効に作用している。
次に、平易化規則テーブル作成装置20の詳細について説明する。まず、平易化規則テーブル作成装置20が扱うデータを説明する。
図7は、辞書テーブル記憶部22が記憶する辞書テーブルの構成およびデータ例を示す概略図である。図示するように、この辞書テーブルは、表形式のデータであり、単語と品詞と説明文(語釈文)の各項目を有している。図示するデータ例では、「校舎」という単語の品詞が「名詞」であり、その単語の説明文が「学校の建物」であることを表している。なお、この辞書テーブルのデータは、例えば日本語辞書の情報などを元に、あらかじめ作成して記憶させておくようにする。
図8は、単語難易度テーブル記憶部25が記憶する単語難易度テーブルの構成およびデータ例を示す概略図である。図示するように、この単語難易度テーブルは、表形式のデータであり、単語と品詞と難易度(難易度データ)の各項目を有している。難易度の項目は、0以上4以下の整数値を保持し、この数値が小さいほど単語が難しく、数値が大きいほど単語が易しいことを表している。図示するデータ例では、単語「校舎」(名詞)の難易度は2であり、単語「建物」(名詞)の難易度は4である。なお、ここでは、日本語能力試験(The Japanese-Language Proficiency Test, http://www.jlpt.jp/)の出題基準により各単語に0から4までの範囲の難易度の値を付与しているが、他の基準により難易度のデータを設定してもよいし、値の範囲が異なっていてもよい。一例としては、参考文献[国立国語研究所・著,「日本語教育のための基本語彙調査」,秀英出版,1984年3月]に掲載されている「基本語2000」および「基本語6000」を基準として用いることが考えられる。この場合、「基本語2000」に含まれる単語の難易度を2に設定し、「基本語6000」に含まれ「基本語2000」に含まれない単語の難易度を1に設定し、「基本語6000」にも含まれない単語の難易度を0に設定する。つまりこの場合、難易度の項目は、0以上2以下の整数値を保持する。この場合も、数値が小さいほど単語が難しく、数値が大きいほど単語がやさしいことを表している。
なお、この単語難易度テーブルのデータは、予め作成して記憶させておくようにする。
図9は、一般文脈類似データベース記憶部28が記憶する一般文脈類似データベースの構成およびデータ例を示す概略図である。図示するように、一般文脈類似データベースは、単語と文脈類似単語リストの各項目を有する。つまり、一般文脈類似データベースは、単語と、その単語と文脈類似な単語(のリスト)との対応関係を保持するデータベースである。図示する例では、単語「建物」との間で文脈の類似性が高い単語のリストとして、「(ビル,教会,ホール,・・・・・・,校舎,車庫,・・・・・・)」が、文脈類似単語リストの項目に保持されている。このデータは、「ビル」、「教会」、「ホール」、「校舎」、「車庫」、その他、このリストに含まれる単語と、単語「建物」との間の文脈の類似性が高いことを表している。なお、単語「倉庫」は、このリストには含まれていない。この一般文脈類似データベースが、単語間の文脈類似度に基づくものであることは既に説明したドメイン依存文脈類似データベースと同様である。しかし、ここで説明している一般文脈類似データベースは、特定のドメインに依存しない文脈類似度に基づくものである点が異なる。
なお、前述の文脈類似度の計算方法を用いて、予め一般文脈類似データベースを作成し、一般文脈類似データベース記憶部28に書き込んでおくようにする。その際、特定のドメインに属さず、広く一般的なドメインに属するドメイン非依存のテキストを文集合として与えるようにする。このようなドメイン非依存のデータは、例えば、インターネットに接続されたコンピュータを用いて、多数のウェブサーバから取得するようにする。これにより、文脈類似認定部29は、特定のドメインに属さない一般的な文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を一般文脈類似データベース記憶部28から読み出し、平易化規則候補が文脈類似か否かを認定する。
置換可能単語対テーブル記憶部24は、平易化規則テーブル作成の過程において一時的に用いられる記憶部であり、置換可能単語対テーブルを記憶する。この置換可能単語対テーブルは、元の単語と、その単語を置換し得る単語との対を格納する。
平易化規則候補テーブル記憶部27は、平易化規則テーブル作成の過程において一時的に用いられる記憶部であり、平易化規則候補テーブルを記憶する。この平易化規則候補テーブルもまた単語対を格納するものであり、特に平易化規則候補であると認定された単語対のみを格納する。
図10は、平易化規則テーブル作成装置20が平易化規則テーブルを作成する処理の手順を示すフローチャートである。以下、このフローチャートに沿って、平易化テーブル作成処理の手順を説明する。
まずステップS201において、置換可能単語対作成部23が、辞書テーブル記憶部22から、単語とその説明文の一対を読み出す。
次にステップS202において、置換可能単語対作成部23が、ステップS201において読み出した説明文の形態素解析処理を行い、最終文節の自立語を取り出す。取り出された自立語は、元の単語に対応する単語である。置換可能単語対作成部23は、ここで取り出した最終文節の自立語を、元の単語を置換し得る単語として扱う。例えば、図示した、単語「校舎」(名詞)の説明文「学校の建物」は、形態素解析処理の結果「学校(名詞)/の(助詞)/建物(名詞)」のように形態素に分割され、最終文節の自立語である「建物」(名詞)が取り出される。同様に、単語「倉庫」(名詞)の説明文「品物をしまっておく建物」から最終文節の自立語である「建物」(名詞)が取り出され、単語「車庫」(名詞)の説明文「自動車などをしまっておく建物」から最終文節の自立語である「建物」(名詞)が取り出される。つまり、これらの例では、「校舎(名詞)−建物(名詞)」、「倉庫(名詞)−建物(名詞)」、「車庫(名詞)−建物(名詞)」などの置換可能単語対が作成される。便宜上、これらの単語対の左側を左辺と呼び、右側を右辺と呼ぶ。
次にステップS203において、置換可能単語対作成部23が、元の単語と、その単語の説明文における最終文節の自立語との対を、置換可能単語対として、置換可能単語対テーブル記憶部24に書き込む。
つまり、ステップS201からS203までの一連の処理で、置換可能単語対作成部23は、辞書テーブル記憶部22から読み出した単語と、その単語に対応する説明文(語釈文)の中で当該単語に対応する他の単語とを、置換可能単語対として出力する。
次にステップS204において、平易化規則候補認定部26が、置換可能単語対テーブル記憶部24から、置換可能単語対を読み出す。
そしてステップS205において、平易化規則候補認定部26は、単語難易度テーブル記憶部25から読み出した難易度のデータを参照しながら、ステップS204で読み出した単語対が平易化規則候補であるか否かを認定する。ここでは、置換可能単語対における元の単語(左辺)の難易度が{0,1,2}のいずれかであって且つ変形後の単語(右辺)の難易度が{3,4}のいずれかである場合、またその場合にのみ、平易化規則候補認定部26は、当該置換可能単語対が平易化規則候補であると認定する。また、当該条件を満たさない場合には、平易化規則候補認定部26は、当該置換可能単語対が平易化規則候補ではない認定する。
つまり、「校舎(名詞,難易度2)−建物(名詞,難易度4)」(平易化規則候補Aと呼ぶ)、「倉庫(名詞,難易度2)−建物(名詞,難易度4)(平易化規則候補Bと呼ぶ)」、「車庫(名詞,難易度2)−建物(名詞,難易度4)」(平易化規則候補Cと呼ぶ)の各々の置換可能単語対は、それぞれの左辺の難易度が2で且つ右辺の難易度が4であるため、平易化規則候補であると認定される。
そしてステップS206において、平易化規則候補認定部26は、ステップS205において平易化規則候補であると認定された単語対のみを平易化規則候補テーブル記憶部27に書き込む。
次にステップS207において、文脈類似認定部29が、平易化規則候補テーブル記憶部27から、平易化規則候補である単語対を読み出す。
そしてステップS208において、文脈類似認定部29は、読み出した平易化規則候補の単語対において、それらの単語間の文脈が類似しているか否かを認定する。上記データ例の場合、平易化規則候補A〜Cの各単語対を、文脈類似認定部29は読み出す。そして、文脈類似認定部29は、一般文脈類似データベース記憶部28を検索し、これらの平易化規則候補A〜Cの右辺の単語「建物」に対応する文脈類似単語リスト「(ビル,教会,ホール,・・・,校舎,車庫,・・・)」を取得する。平易化規則候補Aの左辺の単語「校舎」(名詞)および平易化規則候補Cの左辺の単語「車庫」(名詞)は、取得された文脈類似単語リストに含まれている。つまり、「建物」と「校舎」との間ではその文脈が類似し、「建物」と「車庫」との間でもその文脈が類似する。一方、平易化規則候補Bの左辺の単語「倉庫」(名詞)は、取得された文脈類似単語リストには含まれていない。つまり、「建物」と「倉庫」との間ではその文脈が類似しない。従って、文脈類似認定部29は、平易化規則候補Aおよび平易化規則候補Cのみを平易化規則として認定し、平易化規則候補Bは平易化規則ではないと認定する。
平易化規則は、元の置換可能単語対に対応するものであり、平易化前の単語と平易化後の単語との単語対のデータを含む。
そしてステップS209において、平易化規則テーブル書込部31は、単語間の文脈が類似していると認定した平易化規則候補のみを平易化規則テーブル記憶部30に書き込む。つまり、上記の例では、平易化規則候補A「校舎(名詞)−建物(名詞)」と平易化規則候補C「車庫(名詞)−建物(名詞)」が平易化規則テーブルに書き込まれる。そして、「平易化規則候補B「倉庫(名詞)−建物(名詞)」は平易化規則テーブルには書き込まれない。
なお、上述した実施形態における文書平易化装置および平易化規則テーブル作成装置の一部または全部の機能をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
各記憶部が記憶するデータは、上記実施形態では表形式のデータとして構成したが、等価な内容の他の形式のデータとして構成してもよい。例えば、代わりにXML形式のデータを用いてもよい。
また、上記実施形態で示したデータ構成と論理的に等価なデータを、物理的に異なる形態で攻勢するようにしてもよい。一例としては、辞書テーブルと単語難易度テーブルとを、一つのテーブルとしてまとめて保持するようにしてもよい。
また、上記実施形態では文書平易化装置10の内部に平易化規則テーブル作成装置20を含む構成としたが、文書平易化装置10の内部に平易化規則テーブル作成装置20を含まないようにしてもよい。このとき、外部の平易化規則テーブル作成装置20によって作成された平易化規則テーブルを、適宜、文書平易化装置10が読み込んで利用する。また、平易化規則テーブル作成装置20のみを単独で構成するようにしてもよい。
また、上記実施形態では、平易化規則テーブルを作成する処理において、平易化規則候補認定部26が難易度に基づく認定を行ってから、平易化規則候補認定部26によって平易化規則となり得ると認定された置換可能対について、文脈類似認定部29が文脈類似化否かの認定を行っていた。しかし、平易化規則候補認定部26による処理と文脈類似認定部29による処理とは、処理順序が逆でもよく、また並列に行なってもよい。これらいずれの場合も、平易化規則テーブル書込部31は、両方の条件で認定された置換可能単語対に基づく平易化規則を平易化規則テーブルに書き込む。
また、さらに、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、一般的に大量の文章を自動的に平易化変形するために利用することができる。本発明は、特に、報道等の分野で、大量の文書や原稿等を自動的に平易化変形するために利用することができる。
10 文書平易化装置
11 入力文データ記憶部
12 形態素解析処理部
13 平易化規則選択部
14 平易化規則適用認定部
15 ドメイン依存文データベース記憶部
16 ドメイン依存文脈類似データベース記憶部(第2の文脈類似データベース記憶部)
17 出力平易文データ記憶部
20 平易化規則テーブル作成装置
21 平易化規則作成部
22 辞書テーブル記憶部
23 置換可能単語対作成部
24 置換可能単語対テーブル記憶部
25 単語難易度テーブル記憶部
26 平易化規則候補認定部
27 平易化規則候補テーブル記憶部
28 一般文脈類似データベース記憶部(文脈類似データベース記憶部)
29 文脈類似認定部
30 平易化規則テーブル記憶部
31 平易化規則テーブル書込部

Claims (6)

  1. 単語と前記単語の語釈文とを対応付けて保持する辞書テーブル記憶部と、
    単語と前記単語の難易度を表す難易度データとを対応付けて保持する単語難易度テーブル記憶部と、
    単語と、当該単語と文脈類似な他の単語との対応関係を保持する文脈類似データベース記憶部と、
    前記辞書テーブル記憶部から読み出した前記単語と、当該単語に対応する前記語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する置換可能単語対作成部と、
    前記置換可能単語対に含まれる単語それぞれについて、前記単語難易度テーブル記憶部から前記難易度データを読み出し、読み出した前記難易度データに基づき前記置換可能単語対が平易化規則となり得るか否かを認定する平易化規則候補認定部と、
    前記置換可能単語対に含まれる単語に基づいて前記文脈類似データベース記憶部を読み出し、前記置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する文脈類似認定部と、
    前記置換可能単語対のうち、前記平易化規則候補認定部によって平易化規則となり得ると認定され且つ前記文脈類似認定部によって文脈類似な関係にあると認定された前記置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む平易化規則テーブル書込部と、
    を具備することを特徴とする平易化規則テーブル作成装置。
  2. 前記文脈類似データベース記憶部は、特定のドメインに属さない一般的な文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである、
    ことを特徴とする請求項1に記載の平易化規則テーブル作成装置。
  3. 前記置換可能単語対作成部は、当該単語に対応する前記語釈文の中の最終文節に含まれる自立語を前記他の単語として抽出し、前記置換可能単語対を出力する、
    ことを特徴とする請求項1または請求項2に記載の平易化規則テーブル作成装置。
  4. 請求項1から3までのいずれか一項に記載の平易化規則テーブル作成装置と、
    前記平易化規則テーブル作成装置の前記平易化規則テーブル書込部が書き込む前記平易化規則を記憶する平易化規則テーブル記憶部と、
    単語と、当該単語と文脈類似な他の単語との対応関係を保持する第2の文脈類似データベース記憶部と、
    入力文データを読み込み、前記入力文データの形態素解析処理を行ない、前記入力文データに対応する形態素解析結果データを出力する形態素解析処理部と、
    前記平易化規則テーブル記憶部から読み出す前記平易化規則に含まれる前記平易化前の単語と前記形態素解析結果データに含まれる単語とをマッチさせることにより前記形態素解析結果データに適用し得る前記平易化規則を選択する平易化規則選択部と、
    前記平易化規則選択部によって選択された前記平易化規則に基づいて前記第2の文脈類似データベース記憶部を読み出し、当該平易化規則に含まれる前記平易化前の単語と前記平易化後の単語とが文脈類似な関係にあるか否かに基づいて当該平易化規則を適用するか否かを認定するとともに、適用すると認定された前記平易化規則に従い前記形態素解析結果データに含まれる前記平易化前の単語を前記平易化後の単語で置換して、得られた平易文を出力する平易化規則適用認定部と、
    を具備することを特徴とする文書平易化装置。
  5. 前記第2の文脈類似データベース記憶部は、特定のドメインに属する文集合を元に算出された類似度に基づく、単語間の文脈類似な対応関係を保持するものである、
    ことを特徴とする請求項4に記載の文書平易化装置。
  6. 単語と前記単語の語釈文とを対応付けて保持する辞書テーブル記憶部と、
    単語と前記単語の難易度を表す難易度データとを対応付けて保持する単語難易度テーブル記憶部と、
    単語と、当該単語と文脈類似な他の単語との対応関係を保持する文脈類似データベース記憶部と、
    前記辞書テーブル記憶部から読み出した前記単語と、当該単語に対応する前記語釈文の中で当該単語に対応する他の単語とを、置換可能単語対として出力する置換可能単語対作成部と、
    前記置換可能単語対に含まれる単語それぞれについて、前記単語難易度テーブル記憶部から前記難易度データを読み出し、読み出した前記難易度データに基づき前記置換可能単語対が平易化規則となり得るか否かを認定する平易化規則候補認定部と、
    前記置換可能単語対に含まれる単語に基づいて前記文脈類似データベース記憶部を読み出し、前記置換可能単語対に含まれる単語同士が文脈類似な関係にあるか否かを認定する文脈類似認定部と、
    前記置換可能単語対のうち、前記平易化規則候補認定部によって平易化規則となり得ると認定され且つ前記文脈類似認定部によって文脈類似な関係にあると認定された前記置換可能単語対に基づき、平易化前の単語と平易化後の単語との単語対のデータを少なくとも含む平易化規則を平易化規則テーブル記憶部に書き込む平易化規則テーブル書込部と、
    を具備する平易化規則テーブル作成装置としてコンピュータを機能させるプログラム。
JP2010040642A 2010-02-25 2010-02-25 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム Expired - Fee Related JP5290218B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010040642A JP5290218B2 (ja) 2010-02-25 2010-02-25 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010040642A JP5290218B2 (ja) 2010-02-25 2010-02-25 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム

Publications (2)

Publication Number Publication Date
JP2011175574A true JP2011175574A (ja) 2011-09-08
JP5290218B2 JP5290218B2 (ja) 2013-09-18

Family

ID=44688355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010040642A Expired - Fee Related JP5290218B2 (ja) 2010-02-25 2010-02-25 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム

Country Status (1)

Country Link
JP (1) JP5290218B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012185636A (ja) * 2011-03-04 2012-09-27 Nippon Hoso Kyokai <Nhk> 文書平易化装置およびプログラム
GB2502853A (en) * 2012-03-07 2013-12-11 Ibm Domain specific natural language normalization
JP2015118498A (ja) * 2013-12-18 2015-06-25 Kddi株式会社 同一意図の類似文を作成するプログラム、装置及び方法
JP2020057105A (ja) * 2018-09-28 2020-04-09 株式会社リコー 言語処理方法、言語処理プログラム及び言語処理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325018A (ja) * 1993-05-18 1994-11-25 Matsushita Electric Ind Co Ltd 辞書作成支援装置及びその方法
JP2003022266A (ja) * 2001-07-06 2003-01-24 Communication Research Laboratory 文章語文体変換システムおよび文章語文体変換処理プログラム
JP2004326479A (ja) * 2003-04-25 2004-11-18 Hitachi Ltd 単語間類似度計算プログラム及び装置
JP2006190146A (ja) * 2005-01-07 2006-07-20 Nippon Telegr & Teleph Corp <Ntt> 言い換え表現獲得システム、言い換え表現獲得方法及び言い換え表現獲得プログラム
JP2009140073A (ja) * 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 用語難易度変換装置および用語難易度変換プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325018A (ja) * 1993-05-18 1994-11-25 Matsushita Electric Ind Co Ltd 辞書作成支援装置及びその方法
JP2003022266A (ja) * 2001-07-06 2003-01-24 Communication Research Laboratory 文章語文体変換システムおよび文章語文体変換処理プログラム
JP2004326479A (ja) * 2003-04-25 2004-11-18 Hitachi Ltd 単語間類似度計算プログラム及び装置
JP2006190146A (ja) * 2005-01-07 2006-07-20 Nippon Telegr & Teleph Corp <Ntt> 言い換え表現獲得システム、言い換え表現獲得方法及び言い換え表現獲得プログラム
JP2009140073A (ja) * 2007-12-04 2009-06-25 Nippon Telegr & Teleph Corp <Ntt> 用語難易度変換装置および用語難易度変換プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012185636A (ja) * 2011-03-04 2012-09-27 Nippon Hoso Kyokai <Nhk> 文書平易化装置およびプログラム
GB2502853A (en) * 2012-03-07 2013-12-11 Ibm Domain specific natural language normalization
US9122673B2 (en) 2012-03-07 2015-09-01 International Business Machines Corporation Domain specific natural language normalization
US9424253B2 (en) 2012-03-07 2016-08-23 International Business Machines Corporation Domain specific natural language normalization
JP2015118498A (ja) * 2013-12-18 2015-06-25 Kddi株式会社 同一意図の類似文を作成するプログラム、装置及び方法
JP2020057105A (ja) * 2018-09-28 2020-04-09 株式会社リコー 言語処理方法、言語処理プログラム及び言語処理装置
JP7147439B2 (ja) 2018-09-28 2022-10-05 株式会社リコー 言語処理方法、言語処理プログラム及び言語処理装置

Also Published As

Publication number Publication date
JP5290218B2 (ja) 2013-09-18

Similar Documents

Publication Publication Date Title
Lu et al. Gender bias in neural natural language processing
US11055497B2 (en) Natural language generation of sentence sequences from textual data with paragraph generation model
Zitouni Natural language processing of semitic languages
US8560300B2 (en) Error correction using fact repositories
JP5146979B2 (ja) 自然言語における多義解消装置及びコンピュータプログラム
WO2008048090A2 (en) Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language.
Bam Named Entity Recognition for Nepali text using Support Vector Machine
GB2513537A (en) Natural language processing
JP5290218B2 (ja) 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム
CN115310551A (zh) 文本分析模型训练方法、装置、电子设备和存储介质
KR101887629B1 (ko) 자연어기반 정보공개분류시스템
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
Abzianidze Towards a wide-coverage tableau method for natural logic
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
US7593846B2 (en) Method and apparatus for building semantic structures using self-describing fragments
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
JP5528376B2 (ja) 文書平易化装置およびプログラム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
Bruchansky Political footprints: Political discourse analysis using pre-trained word vectors
Roychoudhury et al. A case study on modeling and validating financial regulations using (semi-) automated compliance framework
JP5320326B2 (ja) 記号変換装置、記号変換方法、記号変換プログラム
Almansor et al. Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions
JP4041875B2 (ja) 文章語文体変換システムおよび文章語文体変換処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130430

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130605

LAPS Cancellation because of no payment of annual fees