JP5982162B2 - 校閲支援システムおよびプログラム - Google Patents

校閲支援システムおよびプログラム Download PDF

Info

Publication number
JP5982162B2
JP5982162B2 JP2012090358A JP2012090358A JP5982162B2 JP 5982162 B2 JP5982162 B2 JP 5982162B2 JP 2012090358 A JP2012090358 A JP 2012090358A JP 2012090358 A JP2012090358 A JP 2012090358A JP 5982162 B2 JP5982162 B2 JP 5982162B2
Authority
JP
Japan
Prior art keywords
text
text data
difficulty level
unit
version
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012090358A
Other languages
English (en)
Other versions
JP2013218611A (ja
Inventor
田中 英輝
英輝 田中
秀弥 美野
秀弥 美野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012090358A priority Critical patent/JP5982162B2/ja
Publication of JP2013218611A publication Critical patent/JP2013218611A/ja
Application granted granted Critical
Publication of JP5982162B2 publication Critical patent/JP5982162B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、テキストの校閲を支援する校閲支援システムと、そのプログラムに関する。
近年、日本語ネイティブではない日本語使用者が増加している。これらの日本語使用者に対しては、平易な日本語による情報提供を行うことが望まれる。例えば、報道機関が伝えるニュース記事では、主に日本語に熟練した者を対象とした表現が多用されており、このような記事を、タイムリーにやさしい日本語に変換して提供することが求められている。
非特許文献1は、「やさしい日本語」の作成を支援するシステムについて記載している。非特許文献1に記載されたシステムは、作成中の文章に含まれる語彙の難しさを判定して表示することができる。また、難しい単語の類似語を提示することができる。
伊藤彰則,鹿嶋彰,前田理佳子,水野義道,御園生保子,米田正人,佐藤和之,「やさしい日本語」作成支援システムの試作,平成20年度電気関係学会東北支部連合大会 講演論文集,2F05,p.209,2008年
しかしながら、非特許文献1に示された技術は、単語の難しさを判定して、難しい単語の類似語を代替候補として提示するのみであり、その他の分析を行うものではない。ある言語の文章の難易度の要因は、単語の難易度だけで決まるものではなく、従来の技術では、一般のテキストをやさしい日本語によるテキストに変換するのに十分ではない。
また、与えられたテキストの難易度を的確に判断することは、やさしい日本語表現の専門家にとっても困難である。
また、やさしい日本語による表現を用いながら、且つ正確性や内容の豊富さを得るためには、やさしい日本語表現の専門家と、対象領域の専門家とが、協調しながらテキストを校閲することのできるシステムが望まれる。何故なら、これら両方の専門家を兼ねることの出来る者はほとんどいないためである。例えば、ニュース記事の校閲に関しては、やさしい日本語の専門家とニュースの専門家とが協調しながらテキストを校閲できるようにすることが求められる。
このとき、下記のような3つの具体的課題がある。
(1)やさしい日本語の専門家(例えば、外国人に日本語を教える日本語教師)と対象領域の専門家(例えば、ニュース記者)は、互いに相手の専門知識を持たないことを想定する必要がある。また、やさしい日本語の専門家の観点と対象領域の専門家の観点では、校閲に関してしばしば相反する要求が生じ、相互の調整を必要とする場合がある。
(2)例えば短時間で大量のテキストを校閲する必要のある組織(例えば、報道機関)において、作業効率を上げるためには、上記の専門家一名ずつで作業するとは限らず、複数のやさしい日本語の専門家と、複数の対象領域の専門家とが、協調的に作業を行なう必要がある。
(3)やさしい日本語の専門家にとっても、やさしい日本語のための、その正確な定義を覚えておくことは困難である。
本発明は、このような事情を考慮して為されたものであり、単語の難しさ以外の様々な要因から、言語表現としての難易度を評価しつつ、複数のユーザーが協調しながらテキストを校閲することの出来る、校閲支援システムを提供するものである。
[1]上記の課題を解決するため、本発明の一態様による校閲支援システムは、テキストデータを入力する入力部と、前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、編集が終了した版のテキストデータを出力する出力部と、を具備する。
[2]また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ全体に由来する難易度と、前記テキストデータに含まれる文に由来する難易度と、前記テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする、ものである。
[3]また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータのサイズに基づき前記テキストデータ全体に由来する難易度を算出する、ものである。
なお、テキストデータのサイズとは、テキストデータに含まれる言語要素の数によって測られるものである。具体的には、テキストデータのサイズとは、例えば、文字数や、形態素数(単語数)や、文節数、文数などである。
[4]また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータが属するジャンルに基づき前記テキストデータ全体に由来する難易度を算出する、ものである。
[5]また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ内に含まれる表現の重複率に基づき前記テキストデータ全体に由来する難易度を算出する、ものである。
[6]また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ内に含まれる文の平均サイズに基づき前記文に由来する難易度を算出する、ものである。
[7]また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ内に含まれる文内での、係り受け関係にある文節間の平均距離に基づき前記文に由来する難易度を算出する、ものである。
[8]また、本発明の一態様は、上記の校閲支援システムにおいて、前記テキスト評価部は、前記テキストデータ内に含まれる単語の難易度の分布に基づき前記単語に由来する難易度を算出する、ものである。
[9]また、本発明の一態様は、上記の校閲支援システムにおいて、前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる単語の難易度に応じた文字属性で前記単語を表示する、ものである。
[10]また、本発明の一態様は、上記の校閲支援システムにおいて、漢字ごとの難易度のデータを保持する漢字難易度リスト記憶部と、前記漢字難易度リスト記憶部から読み出した漢字ごとの難易度のデータに基づいて、前記テキストデータに含まれる漢字の難易度を決定する漢字難易度決定部とを具備し、前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる漢字の難易度に応じた文字属性で前記漢字を表示する、ものである。
[11]また、本発明の一態様は、コンピューターを、テキストデータを入力する入力部と、前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、編集が終了した版のテキストデータを出力する出力部、として機能させるためのプログラムである。
本発明によれば、複数の編集者が協力し合いながら、且つ日本語表現のやさしさの評価結果を確認しながら、テキストを校閲することが出来る。例えば本発明をニュース記事に適用した場合、日本語を母国語とする者向けに書かれた日本語ニュース記事を、日本語学習者(外国人等)に合ったやさしい日本語のニュース記事に変換することを支援できる。
本発明によれば、難易度情報をテキストデータと共に表示することによって、やさしい日本語の専門家ですら、やさしい日本語の全ての編集方針を覚えておくのが困難であるという課題を解決し、編集中のテキストデータの日本語としてのやさしさの度合いを、客観的かつわかりやすく、表示させることが出来る。
このように、本発明を使うことで,やさしい日本語の専門家と対象領域の専門家が複数人で、普通の日本語で書かれたテキストデータを、やさしい日本語で書き換えることができる。これらの作業者は互いに相手の専門知識を持たずともよい。また、ニュースの難易度に関わる情報を提示することで、やさしい日本語を作成する際の指標が得られ、やさしい日本語の定義をすべて覚えておく必要がなく、また効率的に作業できる。
本発明の実施形態による校閲支援システムの機能構成を示すブロック図である。 同実施形態による漢字難易度リスト記憶部が記憶するデータの構成を示す概略図である。 同実施形態による形態素解析部の機能構成を示すブロック図である。 同実施形態による形態素解析部内の語釈用辞書記憶部が記憶するデータの構成を示す概略図である。 同実施形態による形態素解析部内の単語難易度用辞書記憶部が記憶するデータの構成を示す概略図である。 同実施形態によるテキスト評価部の機能構成を示すブロック図である。 同実施形態によるテキスト木格納部が記憶するデータ構成の例を示す概略図である。 同実施形態によるテキスト木格納部が記憶するデータ構成の別の例を示す概略図である。 同実施形態によるテキスト木格納部に格納された、編集対象のテキスト群を表示した画面を示す概略図である。 同実施形態による一文処理部の表示画面の例を示す概略図である。 同実施形態によるテキスト表示部の表示画面の例を示す概略図である。 同実施形態によるテキスト表示部が表示する難易度別の単語数の分布を表わす帯グラフの例を示す概略図である。 同実施形態による文間重複計算部が求めた、文間における表現の重複を表示した画面の例を示す概略図である。 同実施形態による辞書編集部の画面表示の例を示す概略図である。 同実施形態による表示確認部の画面表示の例を示す概略図である。 同実施形態によるデータ出力部が出力するデータの表示画面例を示す概略図である。
以下、図面を参照しながら、本発明の実施形態について説明する。
図1は、本実施形態による校閲支援システムの機能構成を示すブロック図である。図示するように、校閲支援システム1は、制御部10と、テキスト入力部11と、テキスト選択指示部12と、テキスト木格納部14と、テキスト作業バッファ記憶部15と、テキスト表示部17と、テキスト評価部20と、漢字難易度リスト記憶部29と、辞書編集部39と、一文処理部40と、終了決定部50と、表示確認部60と、データ出力部61とを含んで構成される。
また、校閲支援システム1は、外部の形態素解析部30の機能を利用する。
また、一文処理部40は、一文編集部41と、コメント記入部42と、一文表示部43とを含んで構成される。
制御部10は、校閲支援システム1による処理全体の流れを制御する。具体的な処理の流れは以下の通りである。テキストデータ(例えば通常の日本語で書かれたニュース記事など)が入力されると,単数または複数のやさしい日本語の専門家と、単数または複数の対象領域(例えばニュース記事)の専門家が、協調しながら、やさしい日本語によるテキストデータに書き換える。このとき、テキスト評価部20が漢字難易度リスト記憶部20から読み込んだリストを用いてテキストデータ中の難しい漢字を表示するよう、制御部10が制御する。また、形態素解析部30がテキストデータの形態素解析を行なうよう、制御部10が制御する。また、テキスト評価部20が、難しい単語を表示したり、文と文の間の重複表現を抽出して表示したり、テキストデータ全体の難易度を計算して表示したりするよう、制御部10が制御する。なお、これらのテキスト評価部20による処理は、形態素解析処理の結果にも基づいて行なわれる。これら、テキストデータの難易度に関連した情報を閲覧しながら、複数の専門家がそれぞれ、テキストデータの書き換えを進める。このようなテキストデータの編集をユーザーが行なえるよう、制御部10は一文処理部40の機能を動作させる。
また、元のテキストの意味をそこなわないようにするためには、テキストデータ中の全ての難しい単語を書き換えて良いわけではない。例えば、専門用語や固有名詞などを書き換えることが出来ない場合も多い。そのような専門用語等については、用語集にその単語とやさしい日本語の説明を登録し,登録された内容を提示することができるようにする。そのためには、辞書編集部39の機能により語釈用辞書を編集する。語釈用辞書にやさしい日本語で書いた説明が書かれていると、形態素解析部30が形態素解析を行なう際にこの語釈を用いることが出来る。
やさしい日本語への書き換えや、必要な単語の説明の情報がそろったところで、ユーザーの操作に基づき、終了決定部50が、編集の終了を決定する。すると制御部10は、表示確認部60を動作させ、ユーザーが出力データを確認できるようにする。表示確認部60は、テキストにふりがなを振り、単語の難易度情報や語釈用辞書のための情報を表示する。このときに誤りがあれば、テキストデータを修正することが出来る。この確認が完了すると、制御部10の制御により、データ出力部61が最終的に校閲済のテキストデータを出力する。
テキスト入力部11は、外部装置等から、テキストデータを取得する。ここで、テキストデータは、文章を含むものであり、例えば、ニュース記事や告知文等のテキストである。
テキスト選択指示部12は、校閲の対象とするテキストを選択する。ここで選択対象となり得るテキストは、テキスト入力部11が取得したテキストデータそのもの(原文)や、編集途中のものや、校閲が終了した完成稿などである。過去に編集されたことのあるテキストデータは、テキスト木格納部14に格納されている。また、過去に編集されたことのない新たなテキストを、テキスト選択指示部12が指定するようにしてもよい。なお、テキスト選択指示部12がテキストを選択する際に、編集者や編集タイプを指定することによって、選択するテキストを絞り込むようにしても良い。例えば、あるニュース記事を、ニュース専門家とやさしい日本語の専門家が交互に編集する場合、そのニュース記事に関して、ニュース専門家によって編集された版のテキストデータとやさしい日本語の専門家によって編集された版のテキストデータが存在する。また、編集タイプとしては、校閲段階のテキストデータや完成稿のテキストデータ等が存在する。ユーザーの操作指示等によって編集対象とするテキストデータを選択すると、テキスト選択指示部12は、木構造でテキストデータを管理するテキスト木格納部14における、選択されたテキストデータに相当するノードの下に、新たな子ノードを作成する。
校閲支援システム1は、テキスト選択指示部12によって選択された版のテキストデータを、テキスト木格納部14から読み出して、テキスト作業バッファ記憶部15に書き込む。
テキスト木格納部14は、版の更新の関係を表わす木構造を用いて、テキストデータを記憶する。言い換えれば、テキスト木格納部14は、テキストデータの編集履歴である複数の版を格納する。テキスト木格納部14が格納するデータの構成については、後で図面を参照しながら詳述する。
テキスト作業バッファ記憶部15は、テキストデータの編集対象とする版を、編集作業のために記憶するバッファ領域を有する。
テキスト表示部17は、テキスト作業バッファ記憶部15に記憶されている書き換え作業中のテキストデータ、あるいはテキスト木格納部14に格納されているテキストデータを画面に表示する。表示の際に、テキスト表示部17は、テキストデータそのものに加えて、テキスト評価部20が求める、漢字難易度、単語難易度、語釈単語、文間重複、記事難易度に関する情報を表示する。また、テキスト表示部17は、難しい単語や、難しい漢字は、語釈のある単語や、文間の重なりのある箇所については、特別の文字属性でわかりやすく表示する。ここで、文字属性とは、文字の色や、文字の書体(太字体、斜体、それらの組合せ等)や、文字への下線などの表示属性である。テキスト表示部17の上記のような表示により、ユーザーは、単語等の難易度を把握できる。そこで、難度の高い単語をできるだけ難度の低い単語に書き換えればよいことがわかり、書き換えの指針を得ることができる。また、ユーザーは、記事中で語釈が付けられた単語も把握出来るので、語釈辞書に不足している単語がわかり、これを元に語釈を付ける単語を決定することが出来る。また、文間の重なりが色等の表示属性で表示されていれば、ユーザーは、重複した部分を削除するなどといった作業指針を得ることが出来る。テキスト表示部17による表示画面の例については、例を図示しながら、後で説明する。
テキスト評価部20は、テキスト作業バッファ記憶部15中のテキストデータの難易度を評価する。言い換えれば、テキスト評価部20は、テキスト木格納部14に格納されている版のテキストデータを読み出して、読み出された版の難易度を計算する。さらに言うと、テキスト評価部20は、テキストデータ全体に由来する難易度と、テキストデータに含まれる文に由来する難易度と、テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする。テキスト評価部20が評価する指標は上記のように複数存在し、それら各々の詳細については、後で詳述する。
漢字難易度リスト記憶部29は、漢字とその難易度の情報を記憶する。
辞書編集部39は、形態素解析部30が用いるユーザー辞書を編集するための機能を有する。辞書編集部39によって編集するものは、単語ごとの、品詞、活用情報、読み、ふりがな等である。本実施形態の辞書編集部39は、さらに、単語の難易度を表わす級の情報や、単語の意味をあらわす語釈に関する情報を編集する。ユーザー辞書の詳細については、図面を参照しながら、後で詳述する。
一文処理部40は、テキストデータの編集のために文を一文ずつ表示し、ユーザーの編集操作に応じて文を更新する。また、編集の際に、編集意図や疑問点等を表わすコメントをユーザーが入力できるようにする。
終了決定部50は、ユーザーからの操作に基づき、テキストデータの編集の作業の終了を決定し、完成稿のテキストデータを表示確認部60に渡す。なお、編集作業の終了が決定された版に対して、終了決定部50は、「完成稿」という編集タイプを付与する。
表示確認部60は、校閲が終了したテキストを表示して確認するための機能を有する。具体的には、表示確認部60は、テキスト木格納部14に格納されているテキストのうち、校閲が終了したことを示す情報が付加されているテキストを取り出し、画面等に表示する。このとき、表示確認部60は、校閲済テキストとともに、形態素解析結果や、ふりがなや、単語の難易度情報や、語釈識別子の情報などを表示する。表示確認部60が表示する画面については、図面を参照しながら後で説明する。
データ出力部61は、表示確認部60で確認された後の、つまり編集が終了した版のテキストデータを外部に出力する。データ出力部61は、例えばHTML(HyperText Markup Language)形式などの予め定められた所定の形式で、データを出力する。データ出力部61が出力するデータは、校閲後の完成稿のテキストデータと、その形態素解析結果(ふりがな等を含む)と、単語ごとの難易度情報と、語釈識別子の情報である。なお、データ出力部61が、併せて原文のテキストデータを出力するようにしても良い。
前述した一文処理部40は、一文編集部41と、コメント記入部42と、一文表示部43とを含んで構成される。
一文編集部41は、ユーザーの編集操作に基づき、一文表示部43が表示する一文の書き換えを行う。つまり、一文編集部41は、複数の版のテキストデータおよび難易度の情報が表示されている状態で、最新版のテキストデータを編集するものである。
コメント記入部42は、ユーザーの編集意図や疑問点等を表わすコメントの入力を受け付け、編集中のテキストデータに関連付けて保存する。
一文表示部43は、編集対象のテキストデータに含まれる文を、一文ずつ表示する。このとき、一文表示部43は、テキスト評価部20が出力する各種の評価情報を併せて表示する。
コメント記入部42を設けて編集時にコメントを記入できるようにしているため、複数の専門家が自己の編集意図や疑問点等を他の専門家に伝えながら協調的に編集を進めることができる。例えば、やさしい日本語の専門家がやさしく書き換えた記事をニュースの専門家が確認する際に、仮にコメントがなければ、やさしい日本語の表現を普通のニュースの表現に戻してしまう畏れがある。コメントを記入できるようにしたことで、そのような編集時の混乱を避けることが可能となる。また、複数の専門家が作業をする際、ある専門家による編集と他の専門家による編集との間で時差が生じても、書き換えの意図等をコメントから把握することができる。また、これにより、専門家が遠隔地で離れていても、協調的に編集作業を進めることが出来る。
図2は、漢字難易度リスト記憶部29が記憶するデータの構成を示す概略図である。図示するように、漢字難易度リストは表形式のリストであり、級と漢字の各項目を有する。級は、漢字の難易度を表わす値である。本実施形態では、日本語能力試験(JLPT)の出題基準に従って、漢字に難易度を与えている。なお、この試験の出題基準は、下記の文献に記載されている。この試験基準では、漢字は、1級から4級までの4つの級に分類されており、4級が最も易しく、1級が最も難しい。なお、1級から4級までの級が付与されていない漢字は、0級(1級よりも難しい)として扱う。なお、漢字の難易度として、別の基準を用いても良い。また級の段階数も4段階には限られない。
文献:「日本語能力試験 出題基準 改訂版」,2007年,国際交流基金・編集,日本国際教育支援協会・編集,凡人社
なお、上記の出題基準の代わりに、他の基準に基づいて漢字の級を定めても良い。代替手段としては、例えば、文部科学省の小学生の学年別漢字配当表を使うことができる。学年別漢字配当表は、漢字と学習年次(学年)とを対応付けたものであり、漢字の難易度を表わしている。
図3は、形態素解析部の機能構成を示すブロック図である。図示するように、形態素解析部30は、形態素解析エンジン31と、システム辞書記憶部32と、語釈用辞書記憶部33と、単語難易度用辞書記憶部34とを含んで構成される。
形態素解析部30は、テキスト作業バッファ記憶部15から読み出されるテキストに含まれる文を形態素に分割し、各形態素の品詞情報を付与するとともに、形態素の漢字部分にふりがなを振る。なお、本実施形態では、形態素と単語は同じものである。形態素解析部30自体は、既存技術を利用して実現可能である。形態素解析部30としては、一例として、MeCabを使用することが出来る。MeCabは、オープンソースの形態素解析システムであり、パラメータの推定に条件付き確率場(Conditional Random Fields,CRF)を用いている。
形態素解析エンジン31は、システム辞書およびユーザー辞書を用いて、文を解析し、形態素への分割を行なう。ユーザー辞書は、システム辞書に記述されている情報に加えて、ユーザーが目的別に任意に追加することの出来る辞書である。本実施形態では、ユーザー辞書として、語釈用辞書と単語難易度用辞書を使用する。また、形態素解析エンジン31は、文を形態素に分割する過程の処理において、辞書に基づいて、形態素の品詞およびふりがなを特定する。形態素に振るふりがなは、多くの場合、形態素解析処理によって正しく特定される。
システム辞書記憶部32は、システム辞書を記憶する。システム辞書は、形態素解析エンジン31が使用する基本的な辞書であり、形態素解析エンジン31の開発者によって提供される。
語釈用辞書記憶部33は、ユーザー辞書の一つである語釈用辞書を記憶する。語釈用辞書のデータ構成については、後述する。
単語難易度用辞書記憶部34は、ユーザー辞書の一つである単語難易度用辞書を記憶する。単語難易度用辞書のデータ構成については、後述する。
形態素解析部30は、テキストの処理をした結果、語釈用辞書記憶部33から得られた単語の語釈の情報や、単語難易度用辞書記憶部34から得られた単語の難易度(級)の情報を、当該テキストに関連付ける形で、テキスト作業バッファ記憶部15に書き込む。
図4は、形態素解析部30内の語釈用辞書記憶部33が記憶するデータの構成を示す概略図である。図示するように、語釈用辞書記憶部33は、形態素情報格納部と語釈格納部とを有する。形態素情報格納部は、形態素ごとに情報を格納し、単語、品詞、辞書種別、説明の各項目を含んでいる。これらのうち、単語、品詞、辞書種別は、システム辞書も有する項目である。そして、説明が、ユーザー辞書として付加した項目である。上記のように、形態素情報格納部と語釈格納部に分けたことにより、システム辞書のデータ構成に適合する形で、語釈の情報を保持することが出来る。
単語の項目は、その形態素(単語)の表記データを保持する。図示する例では、単語の表記は「長男」である。品詞の項目は、その形態素の品詞を表わす。図示する例では、単語「長男」の品詞は名詞である。辞書種別の項目は、この形態素情報が、語釈用辞書記憶部33あるいは単語難易度用辞書記憶部34のいずれに属するものであるかを表わす。図示する例では、辞書種別は「語釈用辞書」である。説明の項目は、語釈格納部への参照情報である。図示する例では、「001」という識別子が語釈格納部におけるエントリーを特定している。語釈格納部は、語釈識別子と語釈を格納する。図示する例では、「001」という語釈識別子が、この語釈をユニークに識別するものである。この語釈識別子によって、形態素情報格納部のエントリーと語釈格納部のエントリーとが互いに関連付けられている。また、「長男」という単語に対応する語釈として、語釈格納部は「最初に生まれた男の人」というデータを保持している。
図5は、形態素解析部30内の単語難易度用辞書記憶部34が記憶するデータの構成を示す概略図である。図示するように、単語難易度用辞書記憶部34は、形態素情報格納部を有する。形態素情報格納部は、形態素ごとに情報を格納し、単語、品詞、辞書種別、級の各項目を含んでいる。これらのうち、単語、品詞、辞書種別の各項目に関しては、語釈用辞書記憶部33における形態素情報格納部の説明で述べたとおりである。そして、級の項目は、単語の難易度を表わすデータを格納する。図示する例では、単語が「車」であり、その品詞は名詞である。また、辞書種別は「単語難易度用辞書」であることを表わしている。また、級は「4」である。
ここで、単語の難易度を表わす級について説明する。単語の級は、0級から4級までの5段階に加えて、「B」および「C」が存在し、計7段階である。1級から4級までは、前記の「日本語能力試験 出題基準 改訂版」に従う。そして、この基準で1級よりも難しい単語を0級とする。また、4級よりもさらに基礎的な単語(つまり、易しい単語)を「B」で表わす。また、固有名詞の難易度を「C」で表わす。ある単語が固有名詞であるか否かを人が判断して、単語難易度用辞書に「C」という級を付与することが出来る。また、前述の形態素解析エンジンを用いて、単語の品詞を特定し、単語難易度用辞書に「C」という級を付与するようにしても良い。また、固有名詞をさらに細かく、地名、人名、組織名等に分類して、それぞれを固有の級としても良い。なお、単語の難易度として、「日本語能力試験 出題基準 改訂版」以外の基準を用いても良い。また級の段階数も7段階には限られない。
図6は、テキスト評価部の機能構成を示すブロック図である。図示するように、テキスト評価部20は、一文文字数計算部21と、漢字難易度決定部22と、単語難易度決定部23と、語釈単語決定部24と、文間重複計算部25と、テキスト難易度計算部26とを含んで構成される。テキスト評価部20は、この構成によって得られる評価結果のデータを、テキストデータに関連付ける形で、テキスト作業バッファ記憶部15に書き込む。
以下、これら各部の機能について説明する。
一文文字数計算部21は、テキスト作業バッファ記憶部15中のテキストデータに含まれる一文の文字数を計算する。また、一文文字数計算部21は、テキストデータに含まれる文の平均文字数を計算する。通常の日本語のテキストにおける文の区切りは句点「。」(まる)であり、文頭から句点までの文字数が一文の文字数である。日本語学習者等にとっては、長い文はそれだけ難しく、一文の文字数が難易度の指標となり得る。
漢字難易度決定部22は、漢字難易度リスト記憶部29のテーブルを検索することにより、テキスト作業バッファ記憶部15中のテキストデータに現れる漢字の難易度を決定する。
単語難易度決定部23は、テキスト作業バッファ記憶部15中のテキストデータに含まれる単語の難易度を決定する。既に述べたように、形態素解析部30による形態素解析処理で、文は既に形態素に分割されている。また、各形態素に対応する級が、単語難易度用辞書記憶部34から既に得られているので、単語難易度決定部23は、その値を単語の難易度とする。
語釈単語決定部24は、テキスト作業バッファ記憶部15中のテキストデータに含まれる単語の語釈を決定する。既に述べたように、形態素解析部30による形態素解析処理で、文は既に形態素に分割されている。また、各形態素に対応する語釈が、語釈用辞書記憶部33から既に得られているので、語釈単語決定部24は、その語釈を当該単語の意味として付与する。
文間重複計算部25は、テキスト作業バッファ記憶部15中の1件のテキストデータ(例えば、ニュース記事テキスト)内における、ある指定された文と他の文との間の重なりを求め、表示する機能を持つ。ニュース記事の場合には、最初の1文ないし2文で記事全体のまとめを行うことが多くこれをリードと呼ぶ。リードは全体のまとめであるため,後続の文群と表現が重なることが多い。通常の日本語で書かれたニュース記事をやさしい日本語に変えるには、記事の文字数を減らすことが効果的であるから、リードとその他の文との間における重複箇所を特定して表示することは、校閲作業の効率向上につながる。また、リードとその他の文との間に限らず、任意の文と後続するその他の文群と間での重複を文間重複計算部25が求めることによっても、同様の効果を得ることが出来る。
なお、文間重複計算部25は、重複部分を求めるために、指定されたある文(例えば、リード文)と、他の文群とに対して、例えば、最長共通文字列アルゴリズム(Longest common subsequence algorithm)を用いる。このアルゴリズムは、既存の技術によるものであり、2つの形態素列間で、列内における形態素の順序を変えることなく、共通する部分列のうちの最長のものを求める。動的計画法(DP)を用いることにより、最長共通部分列を効率よく求めることが出来る。テキスト作業バッファ記憶部15中のテキストデータは形態素解析部30によって既に形態素に分割されているため、文間重複計算部25は、ある文と他の文とをそれぞれ形態素の列として、上記の最長共通文字列アルゴリズムを適用する。このようにして得られた最長共通文字列が、文間の重複部分である。
また、文間重複計算部25は、例えば下記参考文献に記載された技術などによるアルゴリズムを用いて文間の重複を抽出するようにしても良い。
参考文献: The decomposition of Human-Written Summary Sentences, 22nd International Conference on Research and Development in Information Retrieval, SIGIR99, 129-136, New York, 1999
テキスト難易度計算部26は、テキスト作業バッファ記憶部15に記憶され現在編集中のテキストの総合的な難易度を計算する。テキストの総合的な難易度Dは、下の式(1)により計算される。
D=K×S×R ・・・ (1)
但し、Kは、正整数であり、現在編集しているテキスト全体の文字数である。また、Sは正の実数であり、同テキストに含まれる一文あたりの平均文字数である。これらのKおよびSは、一文文字数計算部21によって算出される。また、Rは、0以上且つ1以下の実数であり、同テキストに含まれる難しい単語の割合である。このRは、単語難易度決定部23によって算出される。なお、難しい単語とは、形態素解析の結果、単語難易度用辞書から得られた級の値が、所定の閾値よりも難しいことを表わしている単語のことである。一例として、前述の日本語能力試験の出題基準を用いる場合、2級より難しい単語(級が、「2」、「1」、または「0」のいずれか)が、単語全体の中に占める割合をRとする。
式(1)が前提とするモデルは、次の通りである。即ち、テキストデータの難しさは、テキストデータ全体(例えば、ニュース記事)に由来する難しさと、各々の文に由来する難しさと、単語に由来する難しさから成る。上記のKは、テキストデータ全体に由来する難しさを表わす値である。上記のSは、文に由来する難しさを表わす値である。上記のRは、単語に由来する難しさを表わす値である。よって、式(1)では、K、S、Rのそれぞれは、値が大きいほど難しくなるような正の数値を取る。そして、これらの3つを掛け合わせることにより、テキスト全体の総合的な難しさを表わす値Dを計算する。なお,KおよびSを、文字数としたが、代わりに、形態素数、単語数、文節数など、他の言語要素の数により、KまたはS、あるいはそれら両方の数値としても良い。
図7は、テキスト木格納部14が記憶するデータ構成の例を示す概略図である。既に述べたように、テキスト木格納部14は、あるテキストの版の親子関係を表わす木の構造として、テキストデータを記憶する。同図において、一つの四角形がノードを表わし、このノードは一つの版に対応する。そして、ノード間を結ぶ一本の矢印が有向アークを表わし、このアークは版の親子関係を表わす。各ノードは、版ごとにユニークなテキストIDのデータと、親IDとを保持している。例えば、テキストIDが38272のノード(上から2つ目)は、親ノードのIDとして30075という値を保持している。これは、テキストIDが30075のノード(上から1つ目)のノードを親として持つことを表わす。他のノード間の親子関係についても同様である。ある親ノードの子ノードは、親ノードを編集によって書き換えたものである。つまり、テキスト木格納部14が記憶する木構造のデータは、書き換えの履歴を表わしている。なお、テキストIDが30075のノードは、校閲前の原文テキストに対応するものであり、親ノードを持たない根(root)ノードである。また、同図が示すデータは、版の枝分かれがない場合のものである。言い換えれば、あるノードの子ノードは、最大で1個である。
同図に示す各ノードは、テキストIDおよび親IDの他に、編集者、編集タイプ、日時、およびテキスト本体の各項目のデータを有する。編集者は、編集によりその版のテキストデータを作成したユーザーのアカウント名である。但し、図示する例では、根ノードに限っては、システムによって生成されたデータであり、編集者は「root」である。例示するように、「masuda」という編集者(やさしい日本語の専門家)と「iwasaki」という編集者(ニュースの専門家)とが、交互に編集し版を重ねている。編集タイプは、どういう性質の編集が行なわれたかを表わすデータである。例えば、テキストIDが38272、38294の各ノードにおける編集タイプは「(日)校閲」であり、これは、やさしい日本語の専門家による校閲であることを表わしている。また、テキストIDが38283のノードにおける編集タイプは「デスク校閲」であり、これは、ニュースの専門家(ニュースデスク)による校閲であることを表わしている。また、テキストIDが38303のノードにおける編集タイプは「完成稿」であり、これは校閲が終了した(つまり、終了決定部50において終了が決定された)テキストデータであることを表わしている。日時は、編集された日時であり、「YYYY−MM−DD hh:mm:ss」(年月日 時分秒)の形式で表わされている。テキスト本体の項目は、当該版の編集後のテキストデータそのものを格納している。
このように、テキスト木格納部14が複数の版のテキストデータを木構造で保持することにより、後々の管理にも、これらのデータを利用できる。
図8は、テキスト木格納部14が記憶するデータ構成の別の例を示す概略図である。図7に示したデータは、あるノードの子ノードの数が最大で1個に制限されている場合の例であったが、図8は、そのような子ノードの数に関する制限がない場合の例である。図示するように、テキストIDが38272のノードが、テキストIDが38283および38280の2つの子ノードを有している。これらの2つは、編集するテキストデータを指定する際に単一の親ノードから枝分かれした兄弟ノードである。
図9は、テキスト木格納部14に格納された、編集対象のテキスト群を表示した画面を示す概略図である。同図に示す画面の左側には、テキストの原文のリストが表示されている。このリストの名称は「Desk」である。このリストには、「28. 201111190534」から「44. 201201011835」までのテキスト原文が含まれている。このリストは、スクロール可能であり、スクロールバーが表示されている。このリストの中の、「40. 201201011517」がハイライト表示されており、このテキスト原文およびその編集後の版を表わす木構造が、画面の右側に表示されている。画面の右側では、テキストIDが30075である原文(その日時は「2012−01−01 15:17:00」であり、図7で示したように根ノードに相当)が最も上の行に表示されている。当該ノードの下には、子孫のノード群が、順次表示されている。ここでの表示における字下げ(インデント)の度合いが、木構造におけるレベル(親から子孫への段階のレベル)に対応している。また、図7で示したデータ構成に基づいて、編集タイプや編集者や日時などが表示されている。
校閲支援システム1のユーザーが、図9に示した画面を見て操作しながら、編集対象とするテキストデータおよび版を指示する。その指示操作に応じて、テキスト選択指示部12が、編集対象のテキストを選択する。
図10は、一文処理部40による表示画面を示す概略図である。図9と同様に、画面の左側にはリスト名「Desk」のテキスト原文のリストが表示されている。そして、画面の右側には、2行3列のボックスが表示されている。列方向では、3つの版におけるテキスト中の文の対応が、3列で表示されている。この3列は、左列の「原文」と、中列の直前の校閲(編集の版)と、右列の現在の校閲(編集の版)である。中列は「(日)校閲」(やさしい日本語の専門家による編集)であり、右列は「完成稿」(ニュースの専門家による完成稿の編集)である。行方向では、上の段に編集対象のテキスト中の一文が表示され、下の段にはその文に対する編集者のコメントが表示されている。左列および中列において、テキスト本文の一文を表示するのは、一文表示部43である。そのテキスト本文の一文を右列に表示するとともに編集する(書き換える)機能を有するのは一文編集部41である。既に入力されたコメントを表示するとともに、新たなコメントを記入する機能を有するのはコメント記入部42である。なお図10では記載を省略しているが、この一文を表示/編集する画面を上下方向にスクロールすることにより、あるいは切り替えることにより、当該文の前または後の一文を編集する画面に移ることができるようになっている。また、前または後の一文に移った場合にも、遷移先の一文に対応するコメント記入欄のボックスが表示される。ある版の編集を開始した時点では、各文の中列のテキストが、右列の編集用のボックスにコピーされる。そして、ユーザーが右列のボックス内の一文を編集できるようになる。左列の原文が表示されているのは、編集の際の参考として参照できるようにしているためである。
各列の上段のボックスと下段のボックスの間には、数字が表示されている。これらは、各々の版における文数と文字数である.図示する例では、左列の原文において、文数が1で、文字数が96である。中列の校閲においては、文数が2で、それぞれの文の文字数が80と44で、2文の合計文字数が124である。右列の校閲においては、文数が2で、それぞれの文の文字数が79と44で、2文の合計文字数が123である。つまり、原文と比べて、文を分割することにより、一文あたりの文字数が減少し、よりやさしい日本語となる方向に編集が行なわれている。このような文字数のカウントは、テキスト評価部20中の一文文字数計算部21が行なう。なお、右列の上段と下段の間に表示されている「更新」ボタンは、一文を編集した後、文字数の計算をし直すための指示に用いられるものである。
なお、画面中の左列(原文)と中列(直前の校閲)のテキストに関しては、一文表示部43は、色つきの文字でテキストを表示する(但し、図面においては色の表示を省略し、単色で示す)。この色による表示は、テキスト評価部20中の単語難易度決定部23が決定した、各単語の難易度(級)を表わしている。ここでは、一文表示部43は、1級の単語の文字を赤色で、2級の単語の文字を黄色で、3級の単語の文字を緑色で、4級の単語の文字を青色で、それぞれ表示する。なお、黒色で表示されているのは1級から4級までに属さない、0級の(1級よりも難しい)単語である。また、紫色で表示されているのは、固有名詞である。このように、一文表示部43が単語の難易度に応じて異なる色で文字を表示することにより、ユーザーが文全体を見たときに直感的に使われている単語の難易度の程度を把握することが出来る。
なお、さらに、一文表示部43の表示モードを切り替えることにより、単語の難易度に応じた色分け表示の代わりに、漢字難易度決定部22が決定した、漢字の難易度に応じて色分け表示させるようにしても良い。
つまり、一文表示部43は、テキスト木格納部14に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、テキスト評価部20が計算した難易度の情報とを関連付けて表示する表示部である。
図11は、テキスト表示部17による表示画面の例を示す概略図である。図示するように、この画面には、2行3列のボックスと、これら2行のボックスの間の難易度情報とが表示されている。図10に示した表示画面と同様に、左列が「原文」、中列が直前の校閲、右列が現在の校閲である。なお、テキスト表示部17、これらの3種類の版ではなく、任意の版を選んで列方向に並べて表示するように切り替えることも出来る。また、上の段に編集対象のテキストが表示され、下の段にはその文章に対する編集者のコメントが表示されている。また、この図11においても、図10における表示と同様に、テキスト中の単語(あるいは漢字)には、難易度に応じた色をつけて表示している(図面では単色で示す)。このような色分け表示により、原文には難度の高い単語(例えば、赤色で表示される1級の単語)が多く、校閲後の版(完成稿を含む)では難度の低い単語(例えば、緑色で表示される3級の単語や、青色で表示される4級の単語)が多いことが、ひと目でわかりやすい。ユーザーは、表示されているこれら複数の版のテキストデータを対比しながら、やさしい日本語への変更が程良く行なわれているかどうかを確認することが出来る。
図11において、上段と下段のボックスの間に表示されているものは、テキスト(例えばニュース記事)全体の日本語としての難易度の情報である。1つのテキスト(複数の文から成る)の総合的な難易度は、前述の通り、テキスト難易度計算部26によって式(1)を用いて計算されるものである。図示する例では、式(1)のKの値として文字数を使った場合と形態素数を使った場合の2通りの難易度を画面に表示している。例えば左列の原文に関して、第1行目の「292」はテキスト全体の形態素数を示す。また、このテキスト全体の形態素数に後続する括弧内には、コンマで区切られた11個の数値が表示されている。これは、当該テキストに関する、単語の難易度ごとの形態素数である。即ち、同図に示す例は、単語の難易度を11段階の級で分けている場合のものである。また、第2行目の「9」は文数を示す。また「512x56.89x0.32=9276.79」という表示は、式(1)に対応するものであり、文字数Kが512、一文あたりの平均文字数Sが56.89、難しい単語の割合Rが0.32であって、これらの積であるテキスト難易度Dが9276.79であることを示す。また、第3行目の「9」は文数を示す。また「292x32.44x0.32=3017.33」という表示は、形態素数Kが292、一文あたりの平均形態素数Sが32.44、難しい単語の割合Rが0.32であって、これらの積であるテキスト難易度Dが3017.33であることを示す。
中列および右列における難易度の数値の計算結果も、上記の左列におけるそれと同様である。KおよびSを文字数とした場合、原文の難易度は9276.79で、完成稿の難易度は4320.99である。また、KおよびSを形態素数とした場合、原文の難易度は3017.33で、完成稿の難易度は1505.75である。このように、テキスト表示部17が、テキスト評価部20によるテキストの難易度に関する評価結果数値を表示するため、ユーザーは、この情報を編集の目安とすることが出来る。この数値で、テキスト全体が十分にやさしい日本語に変換されていないとユーザーが考えるときには、さらに編集を続けてからテキストを再評価することも出来る。
つまり、テキスト表示部17は、テキスト木格納部14に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、テキスト評価部20が計算した難易度の情報とを関連付けて表示する表示部である。
図12は、テキスト表示部17が表示する難易度別の単語数の分布を表わす帯グラフの例を示す概略図である。図12の(a)、(b)、(c)は、それぞれ、図11における左列(原文)、中列(直前に編集した版)、右列(最新の編集の版(完成稿))に対応する。テキスト表示部17は、図12(a)、(b)、(c)に示すそれぞれの帯グラフを、図11の画面内に表示する。各々の帯グラフは、テキストに含まれる難易度(級)別の単語数の比率を示す。即ち、図11で説明した、括弧内のコンマで区切られた11個の数値の比率である。そして、画面上では、各々の帯グラフ内において、難易度別に色分けされている。このように色分けされた帯グラフをテキスト表示部17が表示することにより、ユーザーは、この情報を編集の目安とすることが出来る。ユーザーは、この帯グラフを参照しながら、難しい単語が多く含まれなくなるように、テキストを編集することが出来る。
図13は、テキスト評価部20中の文間重複計算部25が求めた文間における表現の重複を表示した画面の例を示す概略図である。文間重複計算部25は、前述の方法によって文と文との間の重複を抽出する。同図では、あるテキストデータに含まれる6個の文(第1番目から第6番目までの文)が画面に表示されている。本例では、第1番目の文が、ニュース記事のリード文であり、第2番目から第5番目までがリードに続く文群である。文間で重複している部分は、画面上に、色付きの文字で表示される。例えば、第1番目の文における、「国土交通省は来年」と「羽田空港の発着枠」と「1日あたり」という表現は、第2番目の文に重複している箇所がある。これらは、画面上で青色の文字で表示されている(図面においては、一重下線で表わす)。また、第1番目の文における「について」と「新たに20便を」と「方針を固めました」という表現は、第3番目の文に重複している箇所がある。これらは、画面上で橙色の文字で表示されている(図面においては、二重下線で表わす)。また、第1番目の文における「大手航空会社」と「新規の航空会社との競争を」と「大手の航空会社の発着枠を」と「一方」と「新規の航空会社」という表現は、第4番目の文に重複している箇所がある。これらは、画面上で緑色の文字で表示されている(図面においては、イタリック体(斜体)文字で表わす)。このような表示により、文間で重複している箇所がユーザーにわかりやすい。ユーザーは、これらの重複箇所を削除候補とすることが出来るため、テキストをやさしい日本語に変換し易くなる。
図14は、辞書編集部39による画面表示の例を示す概略図である。図示する画面は、語釈用辞書記憶部33中の語釈格納部を編集するための画面である。図示するように、辞書編集部39は、この語釈編集画面に、語釈ID(語釈識別子)、見出し語、編集者、更新日、コメント、語釈を表示する。また、画面の右上には、見出し語を検索するための検索窓が設けられている。辞書編集部39は、この検索窓に入力された文字列を用いて、該当する語釈格納部のエントリーを検索するためのSQL(Structured Query Language)文を自動的に生成する。生成されたSQL文もまた、画面の下の方に表示される。図示する例では、語釈IDが「11」で見出し語が「土砂災害」であるエントリーが表示されている。語釈格納部を編集するユーザーは、この画面から、見出し語や、コメントや、語釈を入力・編集することが出来る。ユーザーによる編集が完了すると、辞書編集部39は、入力されたデータを用いて辞書を更新する。
また、辞書編集部39は、語釈用辞書記憶部33および単語難易度用辞書記憶部34における形態素情報格納部を編集するための画面(図示省略)も表示する。これにより、ユーザーは、図4および図5で説明した辞書データの各項目を編集することが出来る。ユーザーの編集操作に応じて、辞書編集部39は、同様に辞書を更新する。
図15は、表示確認部60による画面表示の例を示す概略図である。図示する通り、この表示確認画面には、編集の終了が決定された完成稿のテキストデータをルビ付きで表示する領域(画面下部)と、そのテキストデータの形態素解析結果を表示する領域(画面上部)が含まれている。表示確認部60は、形態素解析結果を表示する領域において、表形式の表示を行なう。この表は、形態素、辞書、品詞、カナ、発音、級(難易度)、語釈ID(語釈識別子)、ルビ(ふりがな)情報の各項目を含んでいる。ユーザーは、この画面を見ながら完成稿を確認するとともに、誤りがある場合には人手で修正することが出来るようになっている。また、表示確認部60は、完成稿のテキストデータをルビ付きで表示する領域において、既に述べた画面と同様に、単語または漢字の難易度に応じて文字の色を変えた表示を行なう。
図16は、データ出力部61が出力するデータの表示画面例を示す概略図である。この画面は、例えば、報道機関等がインターネット等を介して広く一般に提供するウェブページである。図示する例では、「元のニュース」を表示するための左側のボックスと、「やさしい日本語のニュース」を表示するための右側のボックスが、画面に含まれている。「元のニュース」は、前述の原文に相当する。「やさしい日本語のニュース」は、校閲支援システム1によって編集された完成稿のテキストデータに相当する。完成稿は、ふりがな付きで表示されている。なお、データ出力部61が同図に示したウェブページのHTMLデータを直接生成して出力するようにしても良いし、データ出力部61が出力したデータを同図に示したHTMLデータに変換する機能を校閲支援システム1の外部に設けても良い。
図16に示したような画面でテキストデータを表示することにより、日本語熟練者にも日本語学習者にも、それぞれのレベルに合った日本語表現でのニュース記事を提供することができる。
「やさしい日本語のニュース」は、主に外国人など、日本語を学習中の者の日本語熟練レベルに合わせて、日本語の表現を易しくしたニュースである。「やさしい日本語のニュース」がターゲットとする日本語学習者は、初級終了から中級準備程度である。より具体的に言うと、旧日本語能力試験2級合格直前程度の学習者をターゲット層としている。つまり、中級の日本語学習者がターゲットである。このようなやさしい日本語のニュースは、述べてきたように、語彙、使用漢字、文法等を、中級の日本語学習者のレベルに合わせたものである。なお、編集者は、できるだけやさしい日本語の語彙を使いながら編集するが、人名や、地名や、専門用語など、あるいは無理に言い換えると記事が不自然になるような単語については変更せずにそのまま用いる。
<変形例>
上述した実施形態を、下記のような変形例としても良い。
例えば、式(1)によりテキストデータ全体の総合的な難しさDを計算する代わりに、別の方法で難しさを計算する。
その一例として、テキストデータ全体に由来する難しさとして、テキストデータが属するジャンルに応じた数値を用いる。この数値を、前述のKの値と置き換えても良いし、Kの値と合わせて用いても良い。ジャンルに応じた数値としては、例えば、政治や経済のジャンルのテキストデータは、他のジャンルのテキストデータよりも難しいので、相対的に大きな値とする。つまり、このとき、テキスト評価部20は、テキストデータが属するジャンルに基づきテキストデータ全体に由来する難易度を算出する。
ジャンルを特定するためには、人が判断して指定するようにしても良いし、テキスト中の語彙の分布に基づいて自動的にジャンルを判断するようにしても良い。
また、別の一例として、テキストデータ全体に由来する難しさとして、表現の重複率を用いても良い。表現の重複率は、文間で重複する箇所のサイズがテキストデータ全体の中で占める割合として計算できる。つまり、このとき、テキスト評価部20は、テキストデータ内に含まれる表現の重複率に基づきテキストデータ全体に由来する難易度を算出する。なお、文間での表現の重複を抽出する方法は、文間重複計算部25の処理として既に述べたとおりである。この数値を、テキストデータ全体に由来する難しさとして単独で用いても良いし、テキストデータ全体に由来する難しさを表わす他の値と合わせて用いても良い。
また、別の一例として、文に由来する難しさとして、係り受け情報を用いた値を使用しても良い。そのためには、構文解析装置を用いて、テキストデータに含まれる各々の文についての構文解析を行なう。構文解析の技術自体は、既存技術を用いることが出来る。そして、構文解析の結果として、文節間の係り受け構造を取得する。そして、係り受けの関係にある文節と文節との間の距離を、文内の全ての係り受け関係について求め、その平均値を用いる。このようにして得られる係り受け文節間の平均距離の数値を、前述のSの値と置き換えても良いし、Sの値と合わせて用いても良い。つまり、このとき、テキスト評価部20は、テキストデータ内に含まれる文内での、係り受け関係にある文節間の平均距離に基づき文に由来する難易度を算出する。なお、文節間の距離としては、テキストにおける文字数や形態素数などを用いることが出来る。
そして、テキスト難易度計算部26は、ここに挙げた例を、一つ、または複数組み合わせて用いて、テキストデータ全体の難しさの値を計算する。
また、前述の実施形態では、校閲支援システム1が形態素解析部30を内部に持たず、外部の形態素解析器を利用することとしていた。変形例としては、校閲支援システム1が形態素解析部30を内部に持つようにしても良い。
なお、上述した実施形態における校閲支援システム1の各部の機能をコンピューターで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、テキストデータの編集に利用できる。例えば、ニュース記事などの各種原稿の校閲を、複数人数で効率よく行なう必要のある業務に適用できる。例えば、報道機関等における校閲の支援に利用できる。
1 校閲支援システム
10 制御部
11 テキスト入力部(入力部)
12 テキスト選択指示部
14 テキスト木格納部(テキスト履歴格納部)
15 テキスト作業バッファ記憶部
17 テキスト表示部(表示部)
20 テキスト評価部
21 一文文字数計算部
22 漢字難易度決定部
23 単語難易度決定部
24 語釈単語決定部
25 文間重複計算部
26 テキスト難易度計算部
29 漢字難易度リスト記憶部
30 形態素解析部
31 形態素解析エンジン
32 システム辞書記憶部
33 語釈用辞書記憶部
34 単語難易度用辞書記憶部
39 辞書編集部
40 一文処理部(編集部)
41 一文編集部(編集部)
42 コメント記入部
43 一文表示部(表示部)
50 終了決定部
60 表示確認部
61 データ出力部(出力部)

Claims (9)

  1. テキストデータを入力する入力部と、
    前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
    前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
    前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
    前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
    編集が終了した版のテキストデータを出力する出力部と、
    を具備し、
    前記テキスト評価部は、前記テキストデータ全体に由来する難易度と、前記テキストデータに含まれる文に由来する難易度と、前記テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする、ものであり、
    前記テキスト評価部は、前記テキストデータが属するジャンルに基づき前記テキストデータ全体に由来する難易度を算出する、
    ことを特徴とす校閲支援システム。
  2. 前記テキスト評価部は、前記テキストデータのサイズに基づき前記テキストデータ全体に由来する難易度を算出する、
    ことを特徴とする請求項に記載の校閲支援システム。
  3. テキストデータを入力する入力部と、
    前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
    前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
    前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
    前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
    編集が終了した版のテキストデータを出力する出力部と、
    を具備し、
    前記テキスト評価部は、前記テキストデータ全体に由来する難易度と、前記テキストデータに含まれる文に由来する難易度と、前記テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする、ものであり、
    前記テキスト評価部は、前記テキストデータ内に含まれる表現の重複率に基づき前記テキストデータ全体に由来する難易度を算出する、
    ことを特徴とする校閲支援システム。
  4. 前記テキスト評価部は、前記テキストデータ内に含まれる文の平均サイズに基づき前記文に由来する難易度を算出する、
    ことを特徴とする請求項からまでのいずれか一項に記載の校閲支援システム。
  5. 前記テキスト評価部は、前記テキストデータ内に含まれる文内での、係り受け関係にある文節間の平均距離に基づき前記文に由来する難易度を算出する、
    ことを特徴とする請求項からまでのいずれか一項に記載の校閲支援システム。
  6. 前記テキスト評価部は、前記テキストデータ内に含まれる単語の難易度の分布に基づき前記単語に由来する難易度を算出する、
    ことを特徴とする請求項からまでのいずれか一項に記載の校閲支援システム。
  7. テキストデータを入力する入力部と、
    前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
    前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
    前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
    前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
    編集が終了した版のテキストデータを出力する出力部と、
    を具備し、
    前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる単語の難易度に応じた文字属性で前記単語を表示する、
    ことを特徴とす校閲支援システム。
  8. テキストデータを入力する入力部と、
    前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
    前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
    前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
    前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
    編集が終了した版のテキストデータを出力する出力部と、
    漢字ごとの難易度のデータを保持する漢字難易度リスト記憶部と、
    前記漢字難易度リスト記憶部から読み出した漢字ごとの難易度のデータに基づいて、前記テキストデータに含まれる漢字の難易度を決定する漢字難易度決定部と、
    を具備し、
    前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる漢字の難易度に応じた文字属性で前記漢字を表示する、
    ことを特徴とす校閲支援システム。
  9. コンピューターを、請求項1から8までのいずれか一項に記載の校閲支援システムとして機能させるためのプログラム。
JP2012090358A 2012-04-11 2012-04-11 校閲支援システムおよびプログラム Active JP5982162B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012090358A JP5982162B2 (ja) 2012-04-11 2012-04-11 校閲支援システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012090358A JP5982162B2 (ja) 2012-04-11 2012-04-11 校閲支援システムおよびプログラム

Publications (2)

Publication Number Publication Date
JP2013218611A JP2013218611A (ja) 2013-10-24
JP5982162B2 true JP5982162B2 (ja) 2016-08-31

Family

ID=49590610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012090358A Active JP5982162B2 (ja) 2012-04-11 2012-04-11 校閲支援システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP5982162B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022215219A1 (ja) * 2021-04-08 2022-10-13 三菱電機株式会社 文評価装置、文評価方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113975A (ja) * 1991-10-22 1993-05-07 Toshiba Corp 共同文書処理システム
JP5322047B2 (ja) * 2007-06-27 2013-10-23 国立大学法人長岡技術科学大学 文章の読み易さ評価システム

Also Published As

Publication number Publication date
JP2013218611A (ja) 2013-10-24

Similar Documents

Publication Publication Date Title
Adolphs Introducing electronic text analysis: A practical guide for language and literary studies
Zhao et al. Facilitating discourse analysis with interactive visualization
US8521512B2 (en) Systems and methods for natural language communication with a computer
US20070112554A1 (en) System of interactive dictionary
Van Atteveldt et al. Computational analysis of communication
JPH02297188A (ja) 文書作成支援装置
Chen et al. Crossdata: Leveraging text-data connections for authoring data documents
Souter et al. Corpus-based computational linguistics
Tojiyev FORMING THE ABILITY TO STRUCTURE INFORMATION TECHNOLOGY
Newman et al. Corpus annotation
Kawaletz The semantics of English-ment nominalizations
Waxman A graph database of scholastic relationships in the Babylonian Talmud
Manning et al. Kirrkirr: Software for browsing and visual exploration of a structured Warlpiri dictionary
Bambaci et al. Encoding the Critical Apparatus by Domain Specific Languages: The Case of the Hebrew Book of Qohelet
JP5982162B2 (ja) 校閲支援システムおよびプログラム
Kalouli et al. Cousbi: A structured and visualized legal corpus of us state bills
Kashyap et al. Insights on Hindi WordNet coming from the IndoWordNet
Winiwarter Mastering Japanese through augmented browsing
Anderl Some reflections on the Database of Medieval Chinese Texts as a multi-purpose tool for research, teaching, and international collaboration
Yáñez-Bouza Methodological approaches to the study of codification, prescription, and prescriptivism
Stolk Evoke: Exploring and extending a thesaurus of old english using a linked data approach
Moritz et al. Generating and evaluating object-oriented designs for instructors and novice students
Iwashokun et al. Structural vetting of academic proposals
JPH05282361A (ja) データベース作成支援装置及び機械翻訳装置
Rambousek et al. New features in DEBVisDic for WordNet Visualization and User Feedback.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160801

R150 Certificate of patent or registration of utility model

Ref document number: 5982162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250