JP2609650B2 - 文書品質評価方式 - Google Patents

文書品質評価方式

Info

Publication number
JP2609650B2
JP2609650B2 JP62331438A JP33143887A JP2609650B2 JP 2609650 B2 JP2609650 B2 JP 2609650B2 JP 62331438 A JP62331438 A JP 62331438A JP 33143887 A JP33143887 A JP 33143887A JP 2609650 B2 JP2609650 B2 JP 2609650B2
Authority
JP
Japan
Prior art keywords
evaluation
document
score
quality
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62331438A
Other languages
English (en)
Other versions
JPH01173161A (ja
Inventor
善文 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62331438A priority Critical patent/JP2609650B2/ja
Publication of JPH01173161A publication Critical patent/JPH01173161A/ja
Application granted granted Critical
Publication of JP2609650B2 publication Critical patent/JP2609650B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔概要〕 文書の品質を評価する文書品質評価装置に関し、 文書の品質を評価する検査項目を得点で表現し、これ
らの得点に重みづけをして累計を評価点として算出し、
文書の品質を定量的かつ客観的に評価することを目的と
し、 入力された文書を解析し、文、単語、漢字、平仮名な
どの文書の品質を評価するために必要な情報を生成する
日本語解析部と、この生成された文書の品質を評価する
ために必要な情報に基づいて、検査項目に対応する予め
定めた評価基準を参照して得点を夫々算出する評価点算
出部と、この評価点算出部によって算出された夫々の得
点に対して重みづけをした後に累計し、評価点を算出す
る評価部とを備え、この評価部によって算出された評価
点および必要に応じてこの評価点に対応する文書の指針
文を併せて記載するように構成する。
〔産業上の利用分野〕
本発明は、文書の品質を評価する文書品質評価装置に
関するものである。
〔従来の技術と発明が解決しようとする問題点〕
従来、人手によって文書の品質を評価することが行わ
れていたが、これは、評価者による主観的かつ定性的な
ものであって、不完全なものであった。例えば評価の
精度を高めるために、評価する項目を幅広く設定する
と、検査する項目数が多くなり、人手による評価作業が
膨大となってしまう。人手による評価は、人為的なミ
スによる漏れ防止が必要となってしまう。技術文書の
分かりやすさの評価は、評価者の主観的なものとなり勝
ちであって、他の評価者との評価に大きな開きが生じて
しまい、相互間の比較が困難となってしまう。
このため、人手に依存しない文書特に技術文書の品質
を評価する手法が望まれている。
本発明は、文書の品質を評価する検査項目を得点で表
現し、これらの得点に重みづけをして累計を評価点とし
て算出し、文書の品質を定量的かつ客観的に評価するこ
とを目的としている。
〔問題点を解決するための手段〕
第1図を参照して問題点を解決するための手段を説明
する。
第1図において、日本語解析部4は、入力された文書
(技術文書など)について、日本語辞書4−1および日
本語文法4−2を参照して解析し、文、単語、平仮名、
漢字などの文書の品質を評価するために必要な情報を生
成するものである。
評価点算出部7は、入力された文書について例えばペ
ージ単位に、検索項目に対応する予め定めた評価基準を
参照して、得点を算出するものである。
評価部8は、評価点算出部7によって算出された得点
に対して、重みづけした後に累計して評価点を求めるも
のである。
〔作用〕
本発明は、第1図に示すように、日本語解析部4が入
力された文書を解析して文、単語、漢字、平仮名などの
文書の品質を評価するために必要な情報を生成し、評価
点算出部7がこの生成された文書の品質を評価するため
に必要な情報に基づいて、検索項目に対応する予め定め
た評価基準を参照して得点を夫々算出し、評価部8がこ
れら算出された得点に対して重みづけした後に累計して
評価点を算出し、必要に応じてこの評価点に対して指針
文を付加して出力するようにしている。
従って、入力された文書特に技術文書について各検査
項目の得点を夫々求め、これらの得点に重みづけした後
に累計した評価点を算出することにより、文書の品質を
定量的に評価することが可能となる。
〔実施例〕
次に、第1図から第5図を用いて本発明の1実施例の
構成および動作を順次詳細に説明する。
第1図において、日本文作成デバイス1は、日本語ワ
ードプロセッサなどであって、日本文による文書特に技
術文書を作成するものである。
文書ライブラリ2は、日本文作成デバイス1を用いて
作成(日本語原稿執筆)した日本文を保管・管理するも
のである。
品質要因項目解析部5は、図中計測データ6の具体例
として示すように、例えば“まえがき情報”などの文書
の品質を評価する上で大きな影響を与える情報を解析す
るものである。
品質評価得点リスト9は、評価部8によって評価され
た評価点(評価得点)を、例えば第5図右端に示すよう
に、ページ単位にリストとして印刷させるものである。
尚、この際、評価点と併せて、この評価点を算出する元
となった各検査項目に対する個々の得点などから、第5
図中央に示すように、指針文をメッセージとして印刷す
るようにしてもよい。
次に、第2図フローチャートに記述した順序に従い、
第3図から第5図を用いて、第1図構成の動作を詳細に
説明する。
第2図において、図中は、文書の入力を行うことを
示す。これは、第1図文書ライブラリ2から読み出した
文書特に技術文書を、品質評価ツール3を構成する日本
語解析部4に入力することを表す。
図中は、文書要素の解析を行うことを示す。これ
は、文書の“まえがき”、“章”、“節”、“項”、
“パラグラフ”、“例”、“注”、“備考”、“図
表”、“付録”、“索引”など、文書の品質を評価する
上で大きな影響を与える情報を切り出すことを表す。
図中は、文書の個々の要素の情報を収集することを
示す。これは、個々の文書要素を収集して、その状態を
把握することを表す。
図中は、文書要素の形態的な正しさの採点を行うこ
とを示す。これは、図中で収集した個々の文書要素の
状態が、基準(値)と合っているか否かについて検索す
ることを表す。その結果を各々の状態の許容範囲を考慮
した方法で得点を計測することを表す。
図中は、文の切り出しを行うことを示す。これは、
文書(技術文書など)の中から、一文づつ切り出すこと
を表す。
図中は、単語を抽出し、単語情報の収集を行うこと
を示す。これは、図中で切り出された一文から単語を
抽出し、更に品詞を解析し、“ひらがな”、“カタカ
ナ”、“漢字”、“英字”、“数字”、“特殊記号”な
どを計測することを表す。
図中は、文節解析を行い、文節情報の収集を行うこ
とを示す。これは、例えば箇条書情報および見出し情報
を計測することを表す。そして、図中からを繰り返
し、例えばページ単位に実行する。これにより、第3図
を用いて説明する評価項目(検査項目)に対応する文の
形態、例えば技術文書の1ページ中に記載されている文
字数、文の平均長、文の数、漢字密度などの形態(形態
素解析による形態)が計測されることとなり、次のステ
ップである図中によって各評価項目(検査項目)の得
点を計算するための準備が整ったこととなる。
図中は、各々の評価項目ごとの得点を計算すること
を示す。これは、図中からを繰り返し、例えばペー
ジ単位に実行して計測した文の形態(文字数、文の平均
長など)の計測結果から各々の評価項目の許容範囲を考
慮して得点を計算することを表す。具体的に説明する
と、第3図に示すように、横軸に指標値(Xn)をとり、
縦軸に得点(Vn)を取る。そして、満点(例えば100
点)を与える許容範囲の下限および上限を実験的に求
めたI1およびI2とし、得点が零となる点を図示ように
“原点”および“2I2"とし、図示のような台形グラフに
よって表されるいわゆる積み上げ防波堤方式の評価基準
を予め作成する。即ち、技術文書について予め文の平均
長を計測し、読みさすさなどを考慮して満点を与えても
よい範囲を例えば第3図に示すように下限“13文字”お
よび上限“44文字”とした場合、I1=13、I2=44、I2
88となり、図示ような評価基準を作成する。そして、
今、技術文書の1ページ中に記載されている文の平均長
が13ないし44文字内に修まっている場合には、得点100
点を与える。それ以外の範囲の場合には、第3図の評価
基準に対応した得点を与える。このように、指定された
検査項目毎に、図中からを繰り返し実行して計測し
た文の形態の計測結果から、第3図に示すような予め作
成された各々の検索項目に対応する評価基準を参照し
て、当該検索項目毎に得点を算出することができる(第
4図を用いて後述する)。
図中は、文の正しさの採点を行うことを示す。これ
は、図中で計算した各々の評価項目(検査項目)ごと
の得点をそれぞれ重みづけをして合計することを表す。
具体的に言えば、後述する第4図に示すように、図中
で求めた各検査項目についての得点Vnに対し、当該検査
項目が文書の品質に与える重要度を加味した重みづけ
(加重比率rn)を各々の得点に乗算し、その乗算した結
果の累積和を評価点として算出することを意味してい
る。この評価点の算出は、通常はページ単位に行うが、
文、パラグラフなどのいずれのレベルで行うようにして
もよい。
図中は、算出結果を編集し、帳票を作成することを
示す。これは、図中からで得られた結果を編集し、
例えば後述する第5図に示すように印刷することを表
す。この第5図は、ページ単位の帳票例を示す。右端に
図中で採点したページ単位の評価点が印刷され、中央
に図中ないし特に図中で検査項目に対して計算さ
れた得点に対応するメッセージが指針文として印刷され
ている。
以上の処理によって、入力された文書の日本語解析が
行われ、文の形態(文の平均長、文の数など)の計測結
果に対し、予め作成しておいた評価基準を参照して検査
項目の得点を各々計算し、更にこれら得点が文書の品質
に与える影響度を考慮した重みづけを行った後に累計を
算出して評価点を求め、この評価点および必要に応じて
指針文を印刷することにより、文書の品質を定量的かつ
客観的に評価することが可能となる。
第3図は、評価基準例を示す。図中横軸は指標値
(Xn)を表し、縦軸は得点(Vn)を表す。
第3図において、図中は許容範囲であって満点を与
える範囲を表し、図中および図中は図示直線によっ
て表されるような減点された得点を与える範囲を表す。
この図中の許容範囲は、予め多数の文書(例えば技術
文書)を参考にして、文書が読み易くかつ理解し易くて
検索項目に対する品質として満点を与えてもよい反域の
指標値の上限I2および下限I1を求めて決めたものであ
る。この図中の許容範囲の両端に、原点および上限I2
の2倍の位置で得点Vnが零となるように直線で結んだ、
図示台形グラフを評価基準として予め作成したものであ
る。具体的に言えば、図中に示すように、検査項目“文
の平均長”に対して、1ページ中に記載されている文の
平均長が例えば13文字から44文字の文書について満点を
与えてもよいと多数の文書を参照して判明した場合、図
示のようにI1=13、I2=44となり、両者を結んだ直線が
図中許容範囲となる。そして、原点とI1との間、およ
びI2を超える部分が図中及びの減点範囲となる。
第4図は、評価点算出説明図を示す。これは、ページ
単位に検査項目文の平均長、ページ内平均文字数、
文の数、漢字密度、非平仮名率、抽象語密度に
ついて、得点V1ないしV6を求めるためのものである。図
中I1およびI2は、第3図を用いて説明したように図中
許容範囲(満点を与える範囲)の下限および上限を与え
る値である。図中およびは、減点範囲である。加重
比率rnは、文書の品質を評価する上で影響度の高い検索
項目に高い重み例えば“2"を与え、そうでないものに重
み“1"を図示のように与えたものである。以下評価点の
算出について簡単に説明する。
第4図において、第1に、各検索項目に対応する形態
情報を、文書のページ単位に計測する。第2に、この形
態情報の計測結果に対し、第4図の台形グラフのいずれ
かを適用して、得点Vi(i=1ないしn)を各々計算す
る。第3に、計算した得点Vnに対して加重比率rnを各々
乗算しその乗算した結果の累計和を評価点として求め
る。第4に、この求めた評価点を第5図の右端に示すよ
うに印刷すると共に、必要に応じて指針文を印刷する。
尚、第4図において、文の平均長は文書のページ内
に記載されている文の平均文字数を表し、ページ内平
均文字数は文書のページ内に記載されている平均文字数
を表し、文の数は文書のページ内に記載されている文
の数を表し、漢字密度は文書のページ内に記載されて
いる漢字数/全文字数を表し、非平仮名率は文書のペ
ージ内に記載されている非平仮名数/全文字数を表し、
抽象語密度は文書のページ内に記載されている抽象語
(〜的という単語、“大きい”、“すばらしい”、“概
念”などの単語)数/全文節数を表す。
第5図は、本発明による説明書の評価点および指針文
例を示す。これは、技術説明書である“TDS/MAPLE説明
書第3章前半”のページ番号1ないし5の部分に対して
実際に印刷したリスト例を示す。図中右端が、第3図お
よび第4図を用いて詳述したようにして算出した評価点
を表し、図中左端が文書のページ番号を表し、図中中央
が指針文を表す。図中中央の指針文は、各検査項目に対
して算出した個々の得点が、図中、の許容範囲から
離れ、減点範囲に入った場合などに、これらに対応する
メッセージとして印刷したものである。
尚、本発明は、設定した全ての検査項目を対象とす
ることにより、品質の評価モレをなくすることができ
る。検査項目の各々の得点に対して重みづけをするこ
とにより、経験的な感覚による文書の品質との差異を少
なくすることができる。検査項目の許容範囲と、それ
以外の減点範囲とを、台形を利用した減点方式を導入す
ることにより、簡単な数式で評価基準の表現が可能とな
り、かつこの評価基準の変更に対しても柔軟に行うこと
ができる。
〔発明の効果〕
以上説明したように、本発明によれば、入力された文
書特に技術文書について各検査項目に対し、予め作成し
ておいた評価基準である台形グラフを参照して得点を夫
々求め、これらの得点に文書の品質に与える影響度を考
慮した重みづけをした後に累計した評価点を例えばペー
ジ単位に算出する構成を採用しているため、文書特に技
術文書の品質を定量かつ客観的に計算機システムを用い
て自動的に評価することができる。これにより、文書
の品質の評価基準を定量化し、これを機械化することに
より、査読・執筆作業の処理量を拡大することが可能と
なる。機械化よる単純ミスの撲滅と文書品質の均質化
により、高品質の技術文書などを作成することが可能と
なる。技術文書などの表現上の正さや分かりやすさを
定量的に評価採点することにより、文書の難易度や正確
さについて他の文書との比較が可能となる。
【図面の簡単な説明】
第1図は本発明の1実施例構成図、第2図は本発明の動
作説明フローチャート、第3図は評価基準例、第4図は
評価点算出説明図、第5図は本発明による説明書の評価
点および指針文例を示す。 図中、4は日本語解析部、5は品質要因項目解析部、6
は計測データ、7は評価点算出部、8は評価部、9は品
質評価点リストを表す。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された文書を解析し、文、単語、漢
    字、平仮名などの文書の品質を評価するために必要な情
    報を生成する日本語解析部と、 この生成された文書の品質を評価するために必要な情報
    に基づいて、ページ単位あるいは複数行の段落までのま
    とまりのある単位に、複数の検査項目に対応する予め定
    めた評価基準を夫々参照して得点を夫々算出すると共
    に、その得点が満点を与える一定範囲を越えた場合には
    減点する評価点算出部と、 この評価点算出部によって算出された夫々の得点に対し
    て、文書の品質に与える影響が大の程、大きい予め定め
    た重み付けした後に累計して評価点を算出し、得点に対
    応する文書の指針文を併せて出力する評価部とを具備す
    ることを特徴とする文書品質評価装置。
  2. 【請求項2】上記評価基準は、上記検査項目について予
    め多数の文書を解析して満点を与えてもよい範囲の下限
    I1および上限I2を求め、得点について、原点から下限I1
    まで徐々に増大し(あるいは下限I1が0の原点と重なる
    ときは原点=下限I1を満点とし)、下限I1から上限I2
    でを満点とし、上限I2から徐々に減少させたことを特徴
    とする特許請求の範囲第(1)項記載の文書品質評価装
    置。
JP62331438A 1987-12-26 1987-12-26 文書品質評価方式 Expired - Fee Related JP2609650B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62331438A JP2609650B2 (ja) 1987-12-26 1987-12-26 文書品質評価方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62331438A JP2609650B2 (ja) 1987-12-26 1987-12-26 文書品質評価方式

Publications (2)

Publication Number Publication Date
JPH01173161A JPH01173161A (ja) 1989-07-07
JP2609650B2 true JP2609650B2 (ja) 1997-05-14

Family

ID=18243665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62331438A Expired - Fee Related JP2609650B2 (ja) 1987-12-26 1987-12-26 文書品質評価方式

Country Status (1)

Country Link
JP (1) JP2609650B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6126173A (ja) * 1984-07-17 1986-02-05 Nec Corp 文章評価装置

Also Published As

Publication number Publication date
JPH01173161A (ja) 1989-07-07

Similar Documents

Publication Publication Date Title
Zhou et al. How consistent are the best-known readability equations in estimating the readability of design standards?
US8577898B2 (en) System and method for rating a written document
US10134297B2 (en) Systems and methods for determining text complexity
El-Haj et al. OSMAN―A Novel Arabic Readability Metric
KR102484007B1 (ko) 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템
Wang The measurement of functional load
CN108280065B (zh) 一种外文文本评价方法及装置
Mohamed et al. Annotating and Learning Morphological Segmentation of Egyptian Colloquial Arabic.
Audichya et al. Computational linguistic prosody rule-based unified technique for automatic metadata generation for Hindi poetry
JP2609650B2 (ja) 文書品質評価方式
Luong et al. Building a corpus for vietnamese text readability assessment in the literature domain
Barry Computerized readability levels
JP2615121B2 (ja) 文書品質評価方式
Tanaka et al. Building a Japanese typo dataset from Wikipedia’s revision history
JP4243942B2 (ja) 文章評価採点装置、プログラム及び記憶媒体
Kharis et al. Tokenization and lemmatization on German learning textbook level A1 of CEFR Standard
JPH01189762A (ja) 文書分かりやすさ評価方式
Barry et al. Using a computer to calculate the Dale-Chall formula
EP4239515A1 (en) A method and system for analyzing a piece of text comprising chinese characters
Aktaş et al. Rule-based sentence detection method (rbsdm) for turkish
Wein Human Raters Cannot Distinguish English Translations from Original English Texts
Karakus et al. Distributed Readability Analysis of Turkish Elementary School Textbooks
Müller et al. LiViTo: linguistic and visual features tool for assisted analysis of historic manuscripts
Oladiipo et al. Spelling Error Patterns in Typed Yorùbá Text Documents
De Joode Digital Masorah: Toward an Index of Orthographic and Morphological Variation at the Lexical Level

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees