JP5982162B2

JP5982162B2 - 校閲支援システムおよびプログラム

Info

Publication number: JP5982162B2
Application number: JP2012090358A
Authority: JP
Inventors: 田中　英輝; 英輝田中; 秀弥美野
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-04-11
Filing date: 2012-04-11
Publication date: 2016-08-31
Anticipated expiration: 2032-04-11
Also published as: JP2013218611A

Description

本発明は、テキストの校閲を支援する校閲支援システムと、そのプログラムに関する。

近年、日本語ネイティブではない日本語使用者が増加している。これらの日本語使用者に対しては、平易な日本語による情報提供を行うことが望まれる。例えば、報道機関が伝えるニュース記事では、主に日本語に熟練した者を対象とした表現が多用されており、このような記事を、タイムリーにやさしい日本語に変換して提供することが求められている。

非特許文献１は、「やさしい日本語」の作成を支援するシステムについて記載している。非特許文献１に記載されたシステムは、作成中の文章に含まれる語彙の難しさを判定して表示することができる。また、難しい単語の類似語を提示することができる。

伊藤彰則，鹿嶋彰，前田理佳子，水野義道，御園生保子，米田正人，佐藤和之，「やさしい日本語」作成支援システムの試作，平成２０年度電気関係学会東北支部連合大会講演論文集，２Ｆ０５，p.209，２００８年

しかしながら、非特許文献１に示された技術は、単語の難しさを判定して、難しい単語の類似語を代替候補として提示するのみであり、その他の分析を行うものではない。ある言語の文章の難易度の要因は、単語の難易度だけで決まるものではなく、従来の技術では、一般のテキストをやさしい日本語によるテキストに変換するのに十分ではない。

また、与えられたテキストの難易度を的確に判断することは、やさしい日本語表現の専門家にとっても困難である。

また、やさしい日本語による表現を用いながら、且つ正確性や内容の豊富さを得るためには、やさしい日本語表現の専門家と、対象領域の専門家とが、協調しながらテキストを校閲することのできるシステムが望まれる。何故なら、これら両方の専門家を兼ねることの出来る者はほとんどいないためである。例えば、ニュース記事の校閲に関しては、やさしい日本語の専門家とニュースの専門家とが協調しながらテキストを校閲できるようにすることが求められる。

このとき、下記のような３つの具体的課題がある。
（１）やさしい日本語の専門家（例えば、外国人に日本語を教える日本語教師）と対象領域の専門家（例えば、ニュース記者）は、互いに相手の専門知識を持たないことを想定する必要がある。また、やさしい日本語の専門家の観点と対象領域の専門家の観点では、校閲に関してしばしば相反する要求が生じ、相互の調整を必要とする場合がある。
（２）例えば短時間で大量のテキストを校閲する必要のある組織（例えば、報道機関）において、作業効率を上げるためには、上記の専門家一名ずつで作業するとは限らず、複数のやさしい日本語の専門家と、複数の対象領域の専門家とが、協調的に作業を行なう必要がある。
（３）やさしい日本語の専門家にとっても、やさしい日本語のための、その正確な定義を覚えておくことは困難である。

本発明は、このような事情を考慮して為されたものであり、単語の難しさ以外の様々な要因から、言語表現としての難易度を評価しつつ、複数のユーザーが協調しながらテキストを校閲することの出来る、校閲支援システムを提供するものである。

［１］上記の課題を解決するため、本発明の一態様による校閲支援システムは、テキストデータを入力する入力部と、前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、編集が終了した版のテキストデータを出力する出力部と、を具備する。

［２］また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ全体に由来する難易度と、前記テキストデータに含まれる文に由来する難易度と、前記テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする、ものである。

［３］また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータのサイズに基づき前記テキストデータ全体に由来する難易度を算出する、ものである。
なお、テキストデータのサイズとは、テキストデータに含まれる言語要素の数によって測られるものである。具体的には、テキストデータのサイズとは、例えば、文字数や、形態素数（単語数）や、文節数、文数などである。

［４］また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータが属するジャンルに基づき前記テキストデータ全体に由来する難易度を算出する、ものである。

［５］また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ内に含まれる表現の重複率に基づき前記テキストデータ全体に由来する難易度を算出する、ものである。

［６］また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ内に含まれる文の平均サイズに基づき前記文に由来する難易度を算出する、ものである。

［７］また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ内に含まれる文内での、係り受け関係にある文節間の平均距離に基づき前記文に由来する難易度を算出する、ものである。

［８］また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ内に含まれる単語の難易度の分布に基づき前記単語に由来する難易度を算出する、ものである。

［９］また、本発明の一態様は、上記の校閲支援システムにおいて、前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる単語の難易度に応じた文字属性で前記単語を表示する、ものである。

［１０］また、本発明の一態様は、上記の校閲支援システムにおいて、漢字ごとの難易度のデータを保持する漢字難易度リスト記憶部と、前記漢字難易度リスト記憶部から読み出した漢字ごとの難易度のデータに基づいて、前記テキストデータに含まれる漢字の難易度を決定する漢字難易度決定部とを具備し、前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる漢字の難易度に応じた文字属性で前記漢字を表示する、ものである。

［１１］また、本発明の一態様は、コンピューターを、テキストデータを入力する入力部と、前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、編集が終了した版のテキストデータを出力する出力部、として機能させるためのプログラムである。

本発明によれば、複数の編集者が協力し合いながら、且つ日本語表現のやさしさの評価結果を確認しながら、テキストを校閲することが出来る。例えば本発明をニュース記事に適用した場合、日本語を母国語とする者向けに書かれた日本語ニュース記事を、日本語学習者（外国人等）に合ったやさしい日本語のニュース記事に変換することを支援できる。

本発明によれば、難易度情報をテキストデータと共に表示することによって、やさしい日本語の専門家ですら、やさしい日本語の全ての編集方針を覚えておくのが困難であるという課題を解決し、編集中のテキストデータの日本語としてのやさしさの度合いを、客観的かつわかりやすく、表示させることが出来る。

このように、本発明を使うことで，やさしい日本語の専門家と対象領域の専門家が複数人で、普通の日本語で書かれたテキストデータを、やさしい日本語で書き換えることができる。これらの作業者は互いに相手の専門知識を持たずともよい。また、ニュースの難易度に関わる情報を提示することで、やさしい日本語を作成する際の指標が得られ、やさしい日本語の定義をすべて覚えておく必要がなく、また効率的に作業できる。

本発明の実施形態による校閲支援システムの機能構成を示すブロック図である。同実施形態による漢字難易度リスト記憶部が記憶するデータの構成を示す概略図である。同実施形態による形態素解析部の機能構成を示すブロック図である。同実施形態による形態素解析部内の語釈用辞書記憶部が記憶するデータの構成を示す概略図である。同実施形態による形態素解析部内の単語難易度用辞書記憶部が記憶するデータの構成を示す概略図である。同実施形態によるテキスト評価部の機能構成を示すブロック図である。同実施形態によるテキスト木格納部が記憶するデータ構成の例を示す概略図である。同実施形態によるテキスト木格納部が記憶するデータ構成の別の例を示す概略図である。同実施形態によるテキスト木格納部に格納された、編集対象のテキスト群を表示した画面を示す概略図である。同実施形態による一文処理部の表示画面の例を示す概略図である。同実施形態によるテキスト表示部の表示画面の例を示す概略図である。同実施形態によるテキスト表示部が表示する難易度別の単語数の分布を表わす帯グラフの例を示す概略図である。同実施形態による文間重複計算部が求めた、文間における表現の重複を表示した画面の例を示す概略図である。同実施形態による辞書編集部の画面表示の例を示す概略図である。同実施形態による表示確認部の画面表示の例を示す概略図である。同実施形態によるデータ出力部が出力するデータの表示画面例を示す概略図である。

以下、図面を参照しながら、本発明の実施形態について説明する。
図１は、本実施形態による校閲支援システムの機能構成を示すブロック図である。図示するように、校閲支援システム１は、制御部１０と、テキスト入力部１１と、テキスト選択指示部１２と、テキスト木格納部１４と、テキスト作業バッファ記憶部１５と、テキスト表示部１７と、テキスト評価部２０と、漢字難易度リスト記憶部２９と、辞書編集部３９と、一文処理部４０と、終了決定部５０と、表示確認部６０と、データ出力部６１とを含んで構成される。
また、校閲支援システム１は、外部の形態素解析部３０の機能を利用する。
また、一文処理部４０は、一文編集部４１と、コメント記入部４２と、一文表示部４３とを含んで構成される。

制御部１０は、校閲支援システム１による処理全体の流れを制御する。具体的な処理の流れは以下の通りである。テキストデータ（例えば通常の日本語で書かれたニュース記事など）が入力されると，単数または複数のやさしい日本語の専門家と、単数または複数の対象領域（例えばニュース記事）の専門家が、協調しながら、やさしい日本語によるテキストデータに書き換える。このとき、テキスト評価部２０が漢字難易度リスト記憶部２０から読み込んだリストを用いてテキストデータ中の難しい漢字を表示するよう、制御部１０が制御する。また、形態素解析部３０がテキストデータの形態素解析を行なうよう、制御部１０が制御する。また、テキスト評価部２０が、難しい単語を表示したり、文と文の間の重複表現を抽出して表示したり、テキストデータ全体の難易度を計算して表示したりするよう、制御部１０が制御する。なお、これらのテキスト評価部２０による処理は、形態素解析処理の結果にも基づいて行なわれる。これら、テキストデータの難易度に関連した情報を閲覧しながら、複数の専門家がそれぞれ、テキストデータの書き換えを進める。このようなテキストデータの編集をユーザーが行なえるよう、制御部１０は一文処理部４０の機能を動作させる。

また、元のテキストの意味をそこなわないようにするためには、テキストデータ中の全ての難しい単語を書き換えて良いわけではない。例えば、専門用語や固有名詞などを書き換えることが出来ない場合も多い。そのような専門用語等については、用語集にその単語とやさしい日本語の説明を登録し，登録された内容を提示することができるようにする。そのためには、辞書編集部３９の機能により語釈用辞書を編集する。語釈用辞書にやさしい日本語で書いた説明が書かれていると、形態素解析部３０が形態素解析を行なう際にこの語釈を用いることが出来る。

やさしい日本語への書き換えや、必要な単語の説明の情報がそろったところで、ユーザーの操作に基づき、終了決定部５０が、編集の終了を決定する。すると制御部１０は、表示確認部６０を動作させ、ユーザーが出力データを確認できるようにする。表示確認部６０は、テキストにふりがなを振り、単語の難易度情報や語釈用辞書のための情報を表示する。このときに誤りがあれば、テキストデータを修正することが出来る。この確認が完了すると、制御部１０の制御により、データ出力部６１が最終的に校閲済のテキストデータを出力する。

テキスト入力部１１は、外部装置等から、テキストデータを取得する。ここで、テキストデータは、文章を含むものであり、例えば、ニュース記事や告知文等のテキストである。

テキスト選択指示部１２は、校閲の対象とするテキストを選択する。ここで選択対象となり得るテキストは、テキスト入力部１１が取得したテキストデータそのもの（原文）や、編集途中のものや、校閲が終了した完成稿などである。過去に編集されたことのあるテキストデータは、テキスト木格納部１４に格納されている。また、過去に編集されたことのない新たなテキストを、テキスト選択指示部１２が指定するようにしてもよい。なお、テキスト選択指示部１２がテキストを選択する際に、編集者や編集タイプを指定することによって、選択するテキストを絞り込むようにしても良い。例えば、あるニュース記事を、ニュース専門家とやさしい日本語の専門家が交互に編集する場合、そのニュース記事に関して、ニュース専門家によって編集された版のテキストデータとやさしい日本語の専門家によって編集された版のテキストデータが存在する。また、編集タイプとしては、校閲段階のテキストデータや完成稿のテキストデータ等が存在する。ユーザーの操作指示等によって編集対象とするテキストデータを選択すると、テキスト選択指示部１２は、木構造でテキストデータを管理するテキスト木格納部１４における、選択されたテキストデータに相当するノードの下に、新たな子ノードを作成する。
校閲支援システム１は、テキスト選択指示部１２によって選択された版のテキストデータを、テキスト木格納部１４から読み出して、テキスト作業バッファ記憶部１５に書き込む。

テキスト木格納部１４は、版の更新の関係を表わす木構造を用いて、テキストデータを記憶する。言い換えれば、テキスト木格納部１４は、テキストデータの編集履歴である複数の版を格納する。テキスト木格納部１４が格納するデータの構成については、後で図面を参照しながら詳述する。
テキスト作業バッファ記憶部１５は、テキストデータの編集対象とする版を、編集作業のために記憶するバッファ領域を有する。

テキスト表示部１７は、テキスト作業バッファ記憶部１５に記憶されている書き換え作業中のテキストデータ、あるいはテキスト木格納部１４に格納されているテキストデータを画面に表示する。表示の際に、テキスト表示部１７は、テキストデータそのものに加えて、テキスト評価部２０が求める、漢字難易度、単語難易度、語釈単語、文間重複、記事難易度に関する情報を表示する。また、テキスト表示部１７は、難しい単語や、難しい漢字は、語釈のある単語や、文間の重なりのある箇所については、特別の文字属性でわかりやすく表示する。ここで、文字属性とは、文字の色や、文字の書体（太字体、斜体、それらの組合せ等）や、文字への下線などの表示属性である。テキスト表示部１７の上記のような表示により、ユーザーは、単語等の難易度を把握できる。そこで、難度の高い単語をできるだけ難度の低い単語に書き換えればよいことがわかり、書き換えの指針を得ることができる。また、ユーザーは、記事中で語釈が付けられた単語も把握出来るので、語釈辞書に不足している単語がわかり、これを元に語釈を付ける単語を決定することが出来る。また、文間の重なりが色等の表示属性で表示されていれば、ユーザーは、重複した部分を削除するなどといった作業指針を得ることが出来る。テキスト表示部１７による表示画面の例については、例を図示しながら、後で説明する。

テキスト評価部２０は、テキスト作業バッファ記憶部１５中のテキストデータの難易度を評価する。言い換えれば、テキスト評価部２０は、テキスト木格納部１４に格納されている版のテキストデータを読み出して、読み出された版の難易度を計算する。さらに言うと、テキスト評価部２０は、テキストデータ全体に由来する難易度と、テキストデータに含まれる文に由来する難易度と、テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする。テキスト評価部２０が評価する指標は上記のように複数存在し、それら各々の詳細については、後で詳述する。
漢字難易度リスト記憶部２９は、漢字とその難易度の情報を記憶する。

辞書編集部３９は、形態素解析部３０が用いるユーザー辞書を編集するための機能を有する。辞書編集部３９によって編集するものは、単語ごとの、品詞、活用情報、読み、ふりがな等である。本実施形態の辞書編集部３９は、さらに、単語の難易度を表わす級の情報や、単語の意味をあらわす語釈に関する情報を編集する。ユーザー辞書の詳細については、図面を参照しながら、後で詳述する。

一文処理部４０は、テキストデータの編集のために文を一文ずつ表示し、ユーザーの編集操作に応じて文を更新する。また、編集の際に、編集意図や疑問点等を表わすコメントをユーザーが入力できるようにする。
終了決定部５０は、ユーザーからの操作に基づき、テキストデータの編集の作業の終了を決定し、完成稿のテキストデータを表示確認部６０に渡す。なお、編集作業の終了が決定された版に対して、終了決定部５０は、「完成稿」という編集タイプを付与する。

表示確認部６０は、校閲が終了したテキストを表示して確認するための機能を有する。具体的には、表示確認部６０は、テキスト木格納部１４に格納されているテキストのうち、校閲が終了したことを示す情報が付加されているテキストを取り出し、画面等に表示する。このとき、表示確認部６０は、校閲済テキストとともに、形態素解析結果や、ふりがなや、単語の難易度情報や、語釈識別子の情報などを表示する。表示確認部６０が表示する画面については、図面を参照しながら後で説明する。

データ出力部６１は、表示確認部６０で確認された後の、つまり編集が終了した版のテキストデータを外部に出力する。データ出力部６１は、例えばＨＴＭＬ（HyperText Markup Language）形式などの予め定められた所定の形式で、データを出力する。データ出力部６１が出力するデータは、校閲後の完成稿のテキストデータと、その形態素解析結果（ふりがな等を含む）と、単語ごとの難易度情報と、語釈識別子の情報である。なお、データ出力部６１が、併せて原文のテキストデータを出力するようにしても良い。

前述した一文処理部４０は、一文編集部４１と、コメント記入部４２と、一文表示部４３とを含んで構成される。
一文編集部４１は、ユーザーの編集操作に基づき、一文表示部４３が表示する一文の書き換えを行う。つまり、一文編集部４１は、複数の版のテキストデータおよび難易度の情報が表示されている状態で、最新版のテキストデータを編集するものである。
コメント記入部４２は、ユーザーの編集意図や疑問点等を表わすコメントの入力を受け付け、編集中のテキストデータに関連付けて保存する。
一文表示部４３は、編集対象のテキストデータに含まれる文を、一文ずつ表示する。このとき、一文表示部４３は、テキスト評価部２０が出力する各種の評価情報を併せて表示する。

コメント記入部４２を設けて編集時にコメントを記入できるようにしているため、複数の専門家が自己の編集意図や疑問点等を他の専門家に伝えながら協調的に編集を進めることができる。例えば、やさしい日本語の専門家がやさしく書き換えた記事をニュースの専門家が確認する際に、仮にコメントがなければ、やさしい日本語の表現を普通のニュースの表現に戻してしまう畏れがある。コメントを記入できるようにしたことで、そのような編集時の混乱を避けることが可能となる。また、複数の専門家が作業をする際、ある専門家による編集と他の専門家による編集との間で時差が生じても、書き換えの意図等をコメントから把握することができる。また、これにより、専門家が遠隔地で離れていても、協調的に編集作業を進めることが出来る。

図２は、漢字難易度リスト記憶部２９が記憶するデータの構成を示す概略図である。図示するように、漢字難易度リストは表形式のリストであり、級と漢字の各項目を有する。級は、漢字の難易度を表わす値である。本実施形態では、日本語能力試験（ＪＬＰＴ）の出題基準に従って、漢字に難易度を与えている。なお、この試験の出題基準は、下記の文献に記載されている。この試験基準では、漢字は、１級から４級までの４つの級に分類されており、４級が最も易しく、１級が最も難しい。なお、１級から４級までの級が付与されていない漢字は、０級（１級よりも難しい）として扱う。なお、漢字の難易度として、別の基準を用いても良い。また級の段階数も４段階には限られない。
文献：「日本語能力試験出題基準改訂版」，２００７年，国際交流基金・編集，日本国際教育支援協会・編集，凡人社

なお、上記の出題基準の代わりに、他の基準に基づいて漢字の級を定めても良い。代替手段としては、例えば、文部科学省の小学生の学年別漢字配当表を使うことができる。学年別漢字配当表は、漢字と学習年次（学年）とを対応付けたものであり、漢字の難易度を表わしている。

図３は、形態素解析部の機能構成を示すブロック図である。図示するように、形態素解析部３０は、形態素解析エンジン３１と、システム辞書記憶部３２と、語釈用辞書記憶部３３と、単語難易度用辞書記憶部３４とを含んで構成される。

形態素解析部３０は、テキスト作業バッファ記憶部１５から読み出されるテキストに含まれる文を形態素に分割し、各形態素の品詞情報を付与するとともに、形態素の漢字部分にふりがなを振る。なお、本実施形態では、形態素と単語は同じものである。形態素解析部３０自体は、既存技術を利用して実現可能である。形態素解析部３０としては、一例として、ＭｅＣａｂを使用することが出来る。ＭｅＣａｂは、オープンソースの形態素解析システムであり、パラメータの推定に条件付き確率場（Conditional Random Fields，ＣＲＦ）を用いている。

形態素解析エンジン３１は、システム辞書およびユーザー辞書を用いて、文を解析し、形態素への分割を行なう。ユーザー辞書は、システム辞書に記述されている情報に加えて、ユーザーが目的別に任意に追加することの出来る辞書である。本実施形態では、ユーザー辞書として、語釈用辞書と単語難易度用辞書を使用する。また、形態素解析エンジン３１は、文を形態素に分割する過程の処理において、辞書に基づいて、形態素の品詞およびふりがなを特定する。形態素に振るふりがなは、多くの場合、形態素解析処理によって正しく特定される。

システム辞書記憶部３２は、システム辞書を記憶する。システム辞書は、形態素解析エンジン３１が使用する基本的な辞書であり、形態素解析エンジン３１の開発者によって提供される。
語釈用辞書記憶部３３は、ユーザー辞書の一つである語釈用辞書を記憶する。語釈用辞書のデータ構成については、後述する。
単語難易度用辞書記憶部３４は、ユーザー辞書の一つである単語難易度用辞書を記憶する。単語難易度用辞書のデータ構成については、後述する。

形態素解析部３０は、テキストの処理をした結果、語釈用辞書記憶部３３から得られた単語の語釈の情報や、単語難易度用辞書記憶部３４から得られた単語の難易度（級）の情報を、当該テキストに関連付ける形で、テキスト作業バッファ記憶部１５に書き込む。

図４は、形態素解析部３０内の語釈用辞書記憶部３３が記憶するデータの構成を示す概略図である。図示するように、語釈用辞書記憶部３３は、形態素情報格納部と語釈格納部とを有する。形態素情報格納部は、形態素ごとに情報を格納し、単語、品詞、辞書種別、説明の各項目を含んでいる。これらのうち、単語、品詞、辞書種別は、システム辞書も有する項目である。そして、説明が、ユーザー辞書として付加した項目である。上記のように、形態素情報格納部と語釈格納部に分けたことにより、システム辞書のデータ構成に適合する形で、語釈の情報を保持することが出来る。

単語の項目は、その形態素（単語）の表記データを保持する。図示する例では、単語の表記は「長男」である。品詞の項目は、その形態素の品詞を表わす。図示する例では、単語「長男」の品詞は名詞である。辞書種別の項目は、この形態素情報が、語釈用辞書記憶部３３あるいは単語難易度用辞書記憶部３４のいずれに属するものであるかを表わす。図示する例では、辞書種別は「語釈用辞書」である。説明の項目は、語釈格納部への参照情報である。図示する例では、「００１」という識別子が語釈格納部におけるエントリーを特定している。語釈格納部は、語釈識別子と語釈を格納する。図示する例では、「００１」という語釈識別子が、この語釈をユニークに識別するものである。この語釈識別子によって、形態素情報格納部のエントリーと語釈格納部のエントリーとが互いに関連付けられている。また、「長男」という単語に対応する語釈として、語釈格納部は「最初に生まれた男の人」というデータを保持している。

図５は、形態素解析部３０内の単語難易度用辞書記憶部３４が記憶するデータの構成を示す概略図である。図示するように、単語難易度用辞書記憶部３４は、形態素情報格納部を有する。形態素情報格納部は、形態素ごとに情報を格納し、単語、品詞、辞書種別、級の各項目を含んでいる。これらのうち、単語、品詞、辞書種別の各項目に関しては、語釈用辞書記憶部３３における形態素情報格納部の説明で述べたとおりである。そして、級の項目は、単語の難易度を表わすデータを格納する。図示する例では、単語が「車」であり、その品詞は名詞である。また、辞書種別は「単語難易度用辞書」であることを表わしている。また、級は「４」である。

ここで、単語の難易度を表わす級について説明する。単語の級は、０級から４級までの５段階に加えて、「Ｂ」および「Ｃ」が存在し、計７段階である。１級から４級までは、前記の「日本語能力試験出題基準改訂版」に従う。そして、この基準で１級よりも難しい単語を０級とする。また、４級よりもさらに基礎的な単語（つまり、易しい単語）を「Ｂ」で表わす。また、固有名詞の難易度を「Ｃ」で表わす。ある単語が固有名詞であるか否かを人が判断して、単語難易度用辞書に「Ｃ」という級を付与することが出来る。また、前述の形態素解析エンジンを用いて、単語の品詞を特定し、単語難易度用辞書に「Ｃ」という級を付与するようにしても良い。また、固有名詞をさらに細かく、地名、人名、組織名等に分類して、それぞれを固有の級としても良い。なお、単語の難易度として、「日本語能力試験出題基準改訂版」以外の基準を用いても良い。また級の段階数も７段階には限られない。

図６は、テキスト評価部の機能構成を示すブロック図である。図示するように、テキスト評価部２０は、一文文字数計算部２１と、漢字難易度決定部２２と、単語難易度決定部２３と、語釈単語決定部２４と、文間重複計算部２５と、テキスト難易度計算部２６とを含んで構成される。テキスト評価部２０は、この構成によって得られる評価結果のデータを、テキストデータに関連付ける形で、テキスト作業バッファ記憶部１５に書き込む。
以下、これら各部の機能について説明する。

一文文字数計算部２１は、テキスト作業バッファ記憶部１５中のテキストデータに含まれる一文の文字数を計算する。また、一文文字数計算部２１は、テキストデータに含まれる文の平均文字数を計算する。通常の日本語のテキストにおける文の区切りは句点「。」（まる）であり、文頭から句点までの文字数が一文の文字数である。日本語学習者等にとっては、長い文はそれだけ難しく、一文の文字数が難易度の指標となり得る。

漢字難易度決定部２２は、漢字難易度リスト記憶部２９のテーブルを検索することにより、テキスト作業バッファ記憶部１５中のテキストデータに現れる漢字の難易度を決定する。

単語難易度決定部２３は、テキスト作業バッファ記憶部１５中のテキストデータに含まれる単語の難易度を決定する。既に述べたように、形態素解析部３０による形態素解析処理で、文は既に形態素に分割されている。また、各形態素に対応する級が、単語難易度用辞書記憶部３４から既に得られているので、単語難易度決定部２３は、その値を単語の難易度とする。

語釈単語決定部２４は、テキスト作業バッファ記憶部１５中のテキストデータに含まれる単語の語釈を決定する。既に述べたように、形態素解析部３０による形態素解析処理で、文は既に形態素に分割されている。また、各形態素に対応する語釈が、語釈用辞書記憶部３３から既に得られているので、語釈単語決定部２４は、その語釈を当該単語の意味として付与する。

文間重複計算部２５は、テキスト作業バッファ記憶部１５中の１件のテキストデータ（例えば、ニュース記事テキスト）内における、ある指定された文と他の文との間の重なりを求め、表示する機能を持つ。ニュース記事の場合には、最初の１文ないし２文で記事全体のまとめを行うことが多くこれをリードと呼ぶ。リードは全体のまとめであるため，後続の文群と表現が重なることが多い。通常の日本語で書かれたニュース記事をやさしい日本語に変えるには、記事の文字数を減らすことが効果的であるから、リードとその他の文との間における重複箇所を特定して表示することは、校閲作業の効率向上につながる。また、リードとその他の文との間に限らず、任意の文と後続するその他の文群と間での重複を文間重複計算部２５が求めることによっても、同様の効果を得ることが出来る。

なお、文間重複計算部２５は、重複部分を求めるために、指定されたある文（例えば、リード文）と、他の文群とに対して、例えば、最長共通文字列アルゴリズム（Longest common subsequence algorithm）を用いる。このアルゴリズムは、既存の技術によるものであり、２つの形態素列間で、列内における形態素の順序を変えることなく、共通する部分列のうちの最長のものを求める。動的計画法（ＤＰ）を用いることにより、最長共通部分列を効率よく求めることが出来る。テキスト作業バッファ記憶部１５中のテキストデータは形態素解析部３０によって既に形態素に分割されているため、文間重複計算部２５は、ある文と他の文とをそれぞれ形態素の列として、上記の最長共通文字列アルゴリズムを適用する。このようにして得られた最長共通文字列が、文間の重複部分である。
また、文間重複計算部２５は、例えば下記参考文献に記載された技術などによるアルゴリズムを用いて文間の重複を抽出するようにしても良い。
参考文献： The decomposition of Human-Written Summary Sentences, 22nd International Conference on Research and Development in Information Retrieval, SIGIR99, 129-136, New York, 1999

テキスト難易度計算部２６は、テキスト作業バッファ記憶部１５に記憶され現在編集中のテキストの総合的な難易度を計算する。テキストの総合的な難易度Ｄは、下の式（１）により計算される。
Ｄ＝Ｋ×Ｓ×Ｒ・・・（１）

但し、Ｋは、正整数であり、現在編集しているテキスト全体の文字数である。また、Ｓは正の実数であり、同テキストに含まれる一文あたりの平均文字数である。これらのＫおよびＳは、一文文字数計算部２１によって算出される。また、Ｒは、０以上且つ１以下の実数であり、同テキストに含まれる難しい単語の割合である。このＲは、単語難易度決定部２３によって算出される。なお、難しい単語とは、形態素解析の結果、単語難易度用辞書から得られた級の値が、所定の閾値よりも難しいことを表わしている単語のことである。一例として、前述の日本語能力試験の出題基準を用いる場合、２級より難しい単語（級が、「２」、「１」、または「０」のいずれか）が、単語全体の中に占める割合をＲとする。

式（１）が前提とするモデルは、次の通りである。即ち、テキストデータの難しさは、テキストデータ全体（例えば、ニュース記事）に由来する難しさと、各々の文に由来する難しさと、単語に由来する難しさから成る。上記のＫは、テキストデータ全体に由来する難しさを表わす値である。上記のＳは、文に由来する難しさを表わす値である。上記のＲは、単語に由来する難しさを表わす値である。よって、式（１）では、Ｋ、Ｓ、Ｒのそれぞれは、値が大きいほど難しくなるような正の数値を取る。そして、これらの３つを掛け合わせることにより、テキスト全体の総合的な難しさを表わす値Ｄを計算する。なお，ＫおよびＳを、文字数としたが、代わりに、形態素数、単語数、文節数など、他の言語要素の数により、ＫまたはＳ、あるいはそれら両方の数値としても良い。

図７は、テキスト木格納部１４が記憶するデータ構成の例を示す概略図である。既に述べたように、テキスト木格納部１４は、あるテキストの版の親子関係を表わす木の構造として、テキストデータを記憶する。同図において、一つの四角形がノードを表わし、このノードは一つの版に対応する。そして、ノード間を結ぶ一本の矢印が有向アークを表わし、このアークは版の親子関係を表わす。各ノードは、版ごとにユニークなテキストＩＤのデータと、親ＩＤとを保持している。例えば、テキストＩＤが３８２７２のノード（上から２つ目）は、親ノードのＩＤとして３００７５という値を保持している。これは、テキストＩＤが３００７５のノード（上から１つ目）のノードを親として持つことを表わす。他のノード間の親子関係についても同様である。ある親ノードの子ノードは、親ノードを編集によって書き換えたものである。つまり、テキスト木格納部１４が記憶する木構造のデータは、書き換えの履歴を表わしている。なお、テキストＩＤが３００７５のノードは、校閲前の原文テキストに対応するものであり、親ノードを持たない根（root）ノードである。また、同図が示すデータは、版の枝分かれがない場合のものである。言い換えれば、あるノードの子ノードは、最大で１個である。

同図に示す各ノードは、テキストＩＤおよび親ＩＤの他に、編集者、編集タイプ、日時、およびテキスト本体の各項目のデータを有する。編集者は、編集によりその版のテキストデータを作成したユーザーのアカウント名である。但し、図示する例では、根ノードに限っては、システムによって生成されたデータであり、編集者は「ｒｏｏｔ」である。例示するように、「ｍａｓｕｄａ」という編集者（やさしい日本語の専門家）と「ｉｗａｓａｋｉ」という編集者（ニュースの専門家）とが、交互に編集し版を重ねている。編集タイプは、どういう性質の編集が行なわれたかを表わすデータである。例えば、テキストＩＤが３８２７２、３８２９４の各ノードにおける編集タイプは「（日）校閲」であり、これは、やさしい日本語の専門家による校閲であることを表わしている。また、テキストＩＤが３８２８３のノードにおける編集タイプは「デスク校閲」であり、これは、ニュースの専門家（ニュースデスク）による校閲であることを表わしている。また、テキストＩＤが３８３０３のノードにおける編集タイプは「完成稿」であり、これは校閲が終了した（つまり、終了決定部５０において終了が決定された）テキストデータであることを表わしている。日時は、編集された日時であり、「ＹＹＹＹ−ＭＭ−ＤＤｈｈ：ｍｍ：ｓｓ」（年月日時分秒）の形式で表わされている。テキスト本体の項目は、当該版の編集後のテキストデータそのものを格納している。
このように、テキスト木格納部１４が複数の版のテキストデータを木構造で保持することにより、後々の管理にも、これらのデータを利用できる。

図８は、テキスト木格納部１４が記憶するデータ構成の別の例を示す概略図である。図７に示したデータは、あるノードの子ノードの数が最大で１個に制限されている場合の例であったが、図８は、そのような子ノードの数に関する制限がない場合の例である。図示するように、テキストＩＤが３８２７２のノードが、テキストＩＤが３８２８３および３８２８０の２つの子ノードを有している。これらの２つは、編集するテキストデータを指定する際に単一の親ノードから枝分かれした兄弟ノードである。

図９は、テキスト木格納部１４に格納された、編集対象のテキスト群を表示した画面を示す概略図である。同図に示す画面の左側には、テキストの原文のリストが表示されている。このリストの名称は「Ｄｅｓｋ」である。このリストには、「２８．２０１１１１１９０５３４」から「４４．２０１２０１０１１８３５」までのテキスト原文が含まれている。このリストは、スクロール可能であり、スクロールバーが表示されている。このリストの中の、「４０．２０１２０１０１１５１７」がハイライト表示されており、このテキスト原文およびその編集後の版を表わす木構造が、画面の右側に表示されている。画面の右側では、テキストＩＤが３００７５である原文（その日時は「２０１２−０１−０１１５：１７：００」であり、図７で示したように根ノードに相当）が最も上の行に表示されている。当該ノードの下には、子孫のノード群が、順次表示されている。ここでの表示における字下げ（インデント）の度合いが、木構造におけるレベル（親から子孫への段階のレベル）に対応している。また、図７で示したデータ構成に基づいて、編集タイプや編集者や日時などが表示されている。

校閲支援システム１のユーザーが、図９に示した画面を見て操作しながら、編集対象とするテキストデータおよび版を指示する。その指示操作に応じて、テキスト選択指示部１２が、編集対象のテキストを選択する。

図１０は、一文処理部４０による表示画面を示す概略図である。図９と同様に、画面の左側にはリスト名「Ｄｅｓｋ」のテキスト原文のリストが表示されている。そして、画面の右側には、２行３列のボックスが表示されている。列方向では、３つの版におけるテキスト中の文の対応が、３列で表示されている。この３列は、左列の「原文」と、中列の直前の校閲（編集の版）と、右列の現在の校閲（編集の版）である。中列は「（日）校閲」（やさしい日本語の専門家による編集）であり、右列は「完成稿」（ニュースの専門家による完成稿の編集）である。行方向では、上の段に編集対象のテキスト中の一文が表示され、下の段にはその文に対する編集者のコメントが表示されている。左列および中列において、テキスト本文の一文を表示するのは、一文表示部４３である。そのテキスト本文の一文を右列に表示するとともに編集する（書き換える）機能を有するのは一文編集部４１である。既に入力されたコメントを表示するとともに、新たなコメントを記入する機能を有するのはコメント記入部４２である。なお図１０では記載を省略しているが、この一文を表示／編集する画面を上下方向にスクロールすることにより、あるいは切り替えることにより、当該文の前または後の一文を編集する画面に移ることができるようになっている。また、前または後の一文に移った場合にも、遷移先の一文に対応するコメント記入欄のボックスが表示される。ある版の編集を開始した時点では、各文の中列のテキストが、右列の編集用のボックスにコピーされる。そして、ユーザーが右列のボックス内の一文を編集できるようになる。左列の原文が表示されているのは、編集の際の参考として参照できるようにしているためである。

各列の上段のボックスと下段のボックスの間には、数字が表示されている。これらは、各々の版における文数と文字数である．図示する例では、左列の原文において、文数が１で、文字数が９６である。中列の校閲においては、文数が２で、それぞれの文の文字数が８０と４４で、２文の合計文字数が１２４である。右列の校閲においては、文数が２で、それぞれの文の文字数が７９と４４で、２文の合計文字数が１２３である。つまり、原文と比べて、文を分割することにより、一文あたりの文字数が減少し、よりやさしい日本語となる方向に編集が行なわれている。このような文字数のカウントは、テキスト評価部２０中の一文文字数計算部２１が行なう。なお、右列の上段と下段の間に表示されている「更新」ボタンは、一文を編集した後、文字数の計算をし直すための指示に用いられるものである。

なお、画面中の左列（原文）と中列（直前の校閲）のテキストに関しては、一文表示部４３は、色つきの文字でテキストを表示する（但し、図面においては色の表示を省略し、単色で示す）。この色による表示は、テキスト評価部２０中の単語難易度決定部２３が決定した、各単語の難易度（級）を表わしている。ここでは、一文表示部４３は、１級の単語の文字を赤色で、２級の単語の文字を黄色で、３級の単語の文字を緑色で、４級の単語の文字を青色で、それぞれ表示する。なお、黒色で表示されているのは１級から４級までに属さない、０級の（１級よりも難しい）単語である。また、紫色で表示されているのは、固有名詞である。このように、一文表示部４３が単語の難易度に応じて異なる色で文字を表示することにより、ユーザーが文全体を見たときに直感的に使われている単語の難易度の程度を把握することが出来る。

なお、さらに、一文表示部４３の表示モードを切り替えることにより、単語の難易度に応じた色分け表示の代わりに、漢字難易度決定部２２が決定した、漢字の難易度に応じて色分け表示させるようにしても良い。

つまり、一文表示部４３は、テキスト木格納部１４に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、テキスト評価部２０が計算した難易度の情報とを関連付けて表示する表示部である。

図１１は、テキスト表示部１７による表示画面の例を示す概略図である。図示するように、この画面には、２行３列のボックスと、これら２行のボックスの間の難易度情報とが表示されている。図１０に示した表示画面と同様に、左列が「原文」、中列が直前の校閲、右列が現在の校閲である。なお、テキスト表示部１７、これらの３種類の版ではなく、任意の版を選んで列方向に並べて表示するように切り替えることも出来る。また、上の段に編集対象のテキストが表示され、下の段にはその文章に対する編集者のコメントが表示されている。また、この図１１においても、図１０における表示と同様に、テキスト中の単語（あるいは漢字）には、難易度に応じた色をつけて表示している（図面では単色で示す）。このような色分け表示により、原文には難度の高い単語（例えば、赤色で表示される１級の単語）が多く、校閲後の版（完成稿を含む）では難度の低い単語（例えば、緑色で表示される３級の単語や、青色で表示される４級の単語）が多いことが、ひと目でわかりやすい。ユーザーは、表示されているこれら複数の版のテキストデータを対比しながら、やさしい日本語への変更が程良く行なわれているかどうかを確認することが出来る。

図１１において、上段と下段のボックスの間に表示されているものは、テキスト（例えばニュース記事）全体の日本語としての難易度の情報である。１つのテキスト（複数の文から成る）の総合的な難易度は、前述の通り、テキスト難易度計算部２６によって式（１）を用いて計算されるものである。図示する例では、式（１）のＫの値として文字数を使った場合と形態素数を使った場合の２通りの難易度を画面に表示している。例えば左列の原文に関して、第１行目の「２９２」はテキスト全体の形態素数を示す。また、このテキスト全体の形態素数に後続する括弧内には、コンマで区切られた１１個の数値が表示されている。これは、当該テキストに関する、単語の難易度ごとの形態素数である。即ち、同図に示す例は、単語の難易度を１１段階の級で分けている場合のものである。また、第２行目の「９」は文数を示す。また「512x56.89x0.32=9276.79」という表示は、式（１）に対応するものであり、文字数Ｋが５１２、一文あたりの平均文字数Ｓが５６．８９、難しい単語の割合Ｒが０．３２であって、これらの積であるテキスト難易度Ｄが９２７６．７９であることを示す。また、第３行目の「９」は文数を示す。また「292x32.44x0.32=3017.33」という表示は、形態素数Ｋが２９２、一文あたりの平均形態素数Ｓが３２．４４、難しい単語の割合Ｒが０．３２であって、これらの積であるテキスト難易度Ｄが３０１７．３３であることを示す。

中列および右列における難易度の数値の計算結果も、上記の左列におけるそれと同様である。ＫおよびＳを文字数とした場合、原文の難易度は９２７６．７９で、完成稿の難易度は４３２０．９９である。また、ＫおよびＳを形態素数とした場合、原文の難易度は３０１７．３３で、完成稿の難易度は１５０５．７５である。このように、テキスト表示部１７が、テキスト評価部２０によるテキストの難易度に関する評価結果数値を表示するため、ユーザーは、この情報を編集の目安とすることが出来る。この数値で、テキスト全体が十分にやさしい日本語に変換されていないとユーザーが考えるときには、さらに編集を続けてからテキストを再評価することも出来る。

つまり、テキスト表示部１７は、テキスト木格納部１４に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、テキスト評価部２０が計算した難易度の情報とを関連付けて表示する表示部である。

図１２は、テキスト表示部１７が表示する難易度別の単語数の分布を表わす帯グラフの例を示す概略図である。図１２の（ａ）、（ｂ）、（ｃ）は、それぞれ、図１１における左列（原文）、中列（直前に編集した版）、右列（最新の編集の版（完成稿））に対応する。テキスト表示部１７は、図１２（ａ）、（ｂ）、（ｃ）に示すそれぞれの帯グラフを、図１１の画面内に表示する。各々の帯グラフは、テキストに含まれる難易度（級）別の単語数の比率を示す。即ち、図１１で説明した、括弧内のコンマで区切られた１１個の数値の比率である。そして、画面上では、各々の帯グラフ内において、難易度別に色分けされている。このように色分けされた帯グラフをテキスト表示部１７が表示することにより、ユーザーは、この情報を編集の目安とすることが出来る。ユーザーは、この帯グラフを参照しながら、難しい単語が多く含まれなくなるように、テキストを編集することが出来る。

図１３は、テキスト評価部２０中の文間重複計算部２５が求めた文間における表現の重複を表示した画面の例を示す概略図である。文間重複計算部２５は、前述の方法によって文と文との間の重複を抽出する。同図では、あるテキストデータに含まれる６個の文（第１番目から第６番目までの文）が画面に表示されている。本例では、第１番目の文が、ニュース記事のリード文であり、第２番目から第５番目までがリードに続く文群である。文間で重複している部分は、画面上に、色付きの文字で表示される。例えば、第１番目の文における、「国土交通省は来年」と「羽田空港の発着枠」と「１日あたり」という表現は、第２番目の文に重複している箇所がある。これらは、画面上で青色の文字で表示されている（図面においては、一重下線で表わす）。また、第１番目の文における「について」と「新たに２０便を」と「方針を固めました」という表現は、第３番目の文に重複している箇所がある。これらは、画面上で橙色の文字で表示されている（図面においては、二重下線で表わす）。また、第１番目の文における「大手航空会社」と「新規の航空会社との競争を」と「大手の航空会社の発着枠を」と「一方」と「新規の航空会社」という表現は、第４番目の文に重複している箇所がある。これらは、画面上で緑色の文字で表示されている（図面においては、イタリック体（斜体）文字で表わす）。このような表示により、文間で重複している箇所がユーザーにわかりやすい。ユーザーは、これらの重複箇所を削除候補とすることが出来るため、テキストをやさしい日本語に変換し易くなる。

図１４は、辞書編集部３９による画面表示の例を示す概略図である。図示する画面は、語釈用辞書記憶部３３中の語釈格納部を編集するための画面である。図示するように、辞書編集部３９は、この語釈編集画面に、語釈ＩＤ（語釈識別子）、見出し語、編集者、更新日、コメント、語釈を表示する。また、画面の右上には、見出し語を検索するための検索窓が設けられている。辞書編集部３９は、この検索窓に入力された文字列を用いて、該当する語釈格納部のエントリーを検索するためのＳＱＬ（Structured Query Language）文を自動的に生成する。生成されたＳＱＬ文もまた、画面の下の方に表示される。図示する例では、語釈ＩＤが「１１」で見出し語が「土砂災害」であるエントリーが表示されている。語釈格納部を編集するユーザーは、この画面から、見出し語や、コメントや、語釈を入力・編集することが出来る。ユーザーによる編集が完了すると、辞書編集部３９は、入力されたデータを用いて辞書を更新する。

また、辞書編集部３９は、語釈用辞書記憶部３３および単語難易度用辞書記憶部３４における形態素情報格納部を編集するための画面（図示省略）も表示する。これにより、ユーザーは、図４および図５で説明した辞書データの各項目を編集することが出来る。ユーザーの編集操作に応じて、辞書編集部３９は、同様に辞書を更新する。

図１５は、表示確認部６０による画面表示の例を示す概略図である。図示する通り、この表示確認画面には、編集の終了が決定された完成稿のテキストデータをルビ付きで表示する領域（画面下部）と、そのテキストデータの形態素解析結果を表示する領域（画面上部）が含まれている。表示確認部６０は、形態素解析結果を表示する領域において、表形式の表示を行なう。この表は、形態素、辞書、品詞、カナ、発音、級（難易度）、語釈ＩＤ（語釈識別子）、ルビ（ふりがな）情報の各項目を含んでいる。ユーザーは、この画面を見ながら完成稿を確認するとともに、誤りがある場合には人手で修正することが出来るようになっている。また、表示確認部６０は、完成稿のテキストデータをルビ付きで表示する領域において、既に述べた画面と同様に、単語または漢字の難易度に応じて文字の色を変えた表示を行なう。

図１６は、データ出力部６１が出力するデータの表示画面例を示す概略図である。この画面は、例えば、報道機関等がインターネット等を介して広く一般に提供するウェブページである。図示する例では、「元のニュース」を表示するための左側のボックスと、「やさしい日本語のニュース」を表示するための右側のボックスが、画面に含まれている。「元のニュース」は、前述の原文に相当する。「やさしい日本語のニュース」は、校閲支援システム１によって編集された完成稿のテキストデータに相当する。完成稿は、ふりがな付きで表示されている。なお、データ出力部６１が同図に示したウェブページのＨＴＭＬデータを直接生成して出力するようにしても良いし、データ出力部６１が出力したデータを同図に示したＨＴＭＬデータに変換する機能を校閲支援システム１の外部に設けても良い。

図１６に示したような画面でテキストデータを表示することにより、日本語熟練者にも日本語学習者にも、それぞれのレベルに合った日本語表現でのニュース記事を提供することができる。

「やさしい日本語のニュース」は、主に外国人など、日本語を学習中の者の日本語熟練レベルに合わせて、日本語の表現を易しくしたニュースである。「やさしい日本語のニュース」がターゲットとする日本語学習者は、初級終了から中級準備程度である。より具体的に言うと、旧日本語能力試験２級合格直前程度の学習者をターゲット層としている。つまり、中級の日本語学習者がターゲットである。このようなやさしい日本語のニュースは、述べてきたように、語彙、使用漢字、文法等を、中級の日本語学習者のレベルに合わせたものである。なお、編集者は、できるだけやさしい日本語の語彙を使いながら編集するが、人名や、地名や、専門用語など、あるいは無理に言い換えると記事が不自然になるような単語については変更せずにそのまま用いる。

＜変形例＞
上述した実施形態を、下記のような変形例としても良い。
例えば、式（１）によりテキストデータ全体の総合的な難しさＤを計算する代わりに、別の方法で難しさを計算する。
その一例として、テキストデータ全体に由来する難しさとして、テキストデータが属するジャンルに応じた数値を用いる。この数値を、前述のＫの値と置き換えても良いし、Ｋの値と合わせて用いても良い。ジャンルに応じた数値としては、例えば、政治や経済のジャンルのテキストデータは、他のジャンルのテキストデータよりも難しいので、相対的に大きな値とする。つまり、このとき、テキスト評価部２０は、テキストデータが属するジャンルに基づきテキストデータ全体に由来する難易度を算出する。
ジャンルを特定するためには、人が判断して指定するようにしても良いし、テキスト中の語彙の分布に基づいて自動的にジャンルを判断するようにしても良い。
また、別の一例として、テキストデータ全体に由来する難しさとして、表現の重複率を用いても良い。表現の重複率は、文間で重複する箇所のサイズがテキストデータ全体の中で占める割合として計算できる。つまり、このとき、テキスト評価部２０は、テキストデータ内に含まれる表現の重複率に基づきテキストデータ全体に由来する難易度を算出する。なお、文間での表現の重複を抽出する方法は、文間重複計算部２５の処理として既に述べたとおりである。この数値を、テキストデータ全体に由来する難しさとして単独で用いても良いし、テキストデータ全体に由来する難しさを表わす他の値と合わせて用いても良い。
また、別の一例として、文に由来する難しさとして、係り受け情報を用いた値を使用しても良い。そのためには、構文解析装置を用いて、テキストデータに含まれる各々の文についての構文解析を行なう。構文解析の技術自体は、既存技術を用いることが出来る。そして、構文解析の結果として、文節間の係り受け構造を取得する。そして、係り受けの関係にある文節と文節との間の距離を、文内の全ての係り受け関係について求め、その平均値を用いる。このようにして得られる係り受け文節間の平均距離の数値を、前述のＳの値と置き換えても良いし、Ｓの値と合わせて用いても良い。つまり、このとき、テキスト評価部２０は、テキストデータ内に含まれる文内での、係り受け関係にある文節間の平均距離に基づき文に由来する難易度を算出する。なお、文節間の距離としては、テキストにおける文字数や形態素数などを用いることが出来る。
そして、テキスト難易度計算部２６は、ここに挙げた例を、一つ、または複数組み合わせて用いて、テキストデータ全体の難しさの値を計算する。

また、前述の実施形態では、校閲支援システム１が形態素解析部３０を内部に持たず、外部の形態素解析器を利用することとしていた。変形例としては、校閲支援システム１が形態素解析部３０を内部に持つようにしても良い。

なお、上述した実施形態における校閲支援システム１の各部の機能をコンピューターで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、テキストデータの編集に利用できる。例えば、ニュース記事などの各種原稿の校閲を、複数人数で効率よく行なう必要のある業務に適用できる。例えば、報道機関等における校閲の支援に利用できる。

１校閲支援システム
１０制御部
１１テキスト入力部（入力部）
１２テキスト選択指示部
１４テキスト木格納部（テキスト履歴格納部）
１５テキスト作業バッファ記憶部
１７テキスト表示部（表示部）
２０テキスト評価部
２１一文文字数計算部
２２漢字難易度決定部
２３単語難易度決定部
２４語釈単語決定部
２５文間重複計算部
２６テキスト難易度計算部
２９漢字難易度リスト記憶部
３０形態素解析部
３１形態素解析エンジン
３２システム辞書記憶部
３３語釈用辞書記憶部
３４単語難易度用辞書記憶部
３９辞書編集部
４０一文処理部（編集部）
４１一文編集部（編集部）
４２コメント記入部
４３一文表示部（表示部）
５０終了決定部
６０表示確認部
６１データ出力部（出力部）

Claims

テキストデータを入力する入力部と、
前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
編集が終了した版のテキストデータを出力する出力部と、
を具備し、
前記テキスト評価部は、前記テキストデータ全体に由来する難易度と、前記テキストデータに含まれる文に由来する難易度と、前記テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする、ものであり、
前記テキスト評価部は、前記テキストデータが属するジャンルに基づき前記テキストデータ全体に由来する難易度を算出する、
ことを特徴とする校閲支援システム。
前記テキスト評価部は、前記テキストデータのサイズに基づき前記テキストデータ全体に由来する難易度を算出する、
ことを特徴とする請求項１に記載の校閲支援システム。
テキストデータを入力する入力部と、
前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
編集が終了した版のテキストデータを出力する出力部と、
を具備し、
前記テキスト評価部は、前記テキストデータ全体に由来する難易度と、前記テキストデータに含まれる文に由来する難易度と、前記テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする、ものであり、
前記テキスト評価部は、前記テキストデータ内に含まれる表現の重複率に基づき前記テキストデータ全体に由来する難易度を算出する、
ことを特徴とする校閲支援システム。
前記テキスト評価部は、前記テキストデータ内に含まれる文の平均サイズに基づき前記文に由来する難易度を算出する、
ことを特徴とする請求項１から３までのいずれか一項に記載の校閲支援システム。
前記テキスト評価部は、前記テキストデータ内に含まれる文内での、係り受け関係にある文節間の平均距離に基づき前記文に由来する難易度を算出する、
ことを特徴とする請求項１から４までのいずれか一項に記載の校閲支援システム。
前記テキスト評価部は、前記テキストデータ内に含まれる単語の難易度の分布に基づき前記単語に由来する難易度を算出する、
ことを特徴とする請求項１から５までのいずれか一項に記載の校閲支援システム。
テキストデータを入力する入力部と、
前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
編集が終了した版のテキストデータを出力する出力部と、
を具備し、
前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる単語の難易度に応じた文字属性で前記単語を表示する、
ことを特徴とする校閲支援システム。
テキストデータを入力する入力部と、
前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
編集が終了した版のテキストデータを出力する出力部と、
漢字ごとの難易度のデータを保持する漢字難易度リスト記憶部と、
前記漢字難易度リスト記憶部から読み出した漢字ごとの難易度のデータに基づいて、前記テキストデータに含まれる漢字の難易度を決定する漢字難易度決定部と、
を具備し、
前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる漢字の難易度に応じた文字属性で前記漢字を表示する、
ことを特徴とする校閲支援システム。
コンピューターを、請求項１から８までのいずれか一項に記載の校閲支援システムとして機能させるためのプログラム。