JP2008269430A

JP2008269430A - 文章評価システム、文章評価方法及び文章評価プログラム

Info

Publication number: JP2008269430A
Application number: JP2007113530A
Authority: JP
Inventors: Ryozo Saito; 亮三齋藤
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-04-23
Filing date: 2007-04-23
Publication date: 2008-11-06

Abstract

【課題】文章の評価において、大幅な労力・時間の軽減による効率性の向上と、常に同じ基準で評価を行うことによる評価の妥当性・公平性を確保する。
【解決手段】
文字列を取得する評価対象データ取得部304と、文字列を複数の形態素データを抽出する形態素抽出部305と、抽出された形態素を連結する形態素連結部306と、その形態素データ中から単語を抽出する単語抽出部307と、辞書データを照合し、辞書データ中の文字列との一致度に応じて、当該単語の種別を解析するとともに、解析された単語の種別に応じて各単語に関連づけられる属性を決定する単語属性解析部308と、評価対象データ中における各属性の出現頻度をカウントする属性計数部309と、属性計数部によりカウントされた各属性の出現頻度と、各属性に付与された係数とに基づいて、文章を分類する文章評価部310とを備える。
【選択図】図1

Description

本発明は、就職活動時における自己紹介文など、文字列によって表現された文章の内容を評価する文章評価システム、文章評価方法及び文章評価プログラムに関する。

従来より、就職採用試験などでは、就職希望者に自己紹介や志望動機を記入させたいわゆるエントリーシートを提出させ、このエントリーシートを採点して、その採点結果を選考材料として利用する方式が採られている。近年、このエントリーシートについて、例えばインターネット上のサーバーにより、インターネットを通じてWebエントリーシートを就職希望者に提示し、このWebエントリーシートに文章を入力させ、収集されたデータを解析し、集計するシステムも種々開発されている。

ところで、自己紹介文等の文章の評価では、評定者によって評価基準が異なり、仮に評定者を一人にしたとしても、エントリーシートを読む順番で評価にぶれが生じるなど、評価の妥当性や公平性の確保が難しい。

このような評価のぶれを低減させるためのシステムとして、例えば、特許文献1に開示されたものがある。この特許文献1に開示されたシステムでは、ある採点者による採点結果と、他の採点者による採点結果とを比較し、複数の採点者の採点結果が一致しない場合に、採点結果及び採点根拠を出力するとともに、採点者別の分析結果を集計することによって、答案の採点を行う採点者の評価、及び採点の基準の見直しを支援する。
特開2005−25783号公報

しかしながら、上述した特許文献1に開示されたシステムでは、採点者を評価して管理し、採点基準の見直し等により採点基準の妥当性や公平性を確保するが、評価自体を人がするものである以上、その管理には限界がある。

そこで、本発明は以上の点に鑑みてなされたもので、就職活動時における自己紹介文など、文字列によって表現された文章を評価する際、大幅な労力・時間の軽減による効率性の向上と、常に同じ基準で評価を行うことによる評価の妥当性・公平性を確保できる文章評価システム、文章評価方法及び文章評価プログラムを提供することをその課題とする。

上記課題を解決するために、本発明は、文字列によって表現された文章の内容を評価する文章評価システムであって、評価対象データである文字列を取得する評価対象データ取得部と、単語とその品詞とを関連づけて蓄積する形態素辞書と、形態素辞書を照合し、該形態素辞書中の文字列と評価対象データ中の文字列との一致度に応じて、該評価対象データ中の文字列を連続する複数の形態素として分割するとともに、各形態素を、それぞれの品詞と関連づけて出力する形態素抽出部と、形態素抽出部から出力された連続する形態素について、各形態素の品詞が連続するパターンに応じて前後の形態素を連結し、これを単語として抽出するとともに、連続する品詞のパターンに基づいて、各単語に関連づけられる属性を決定する単語属性解析部と、評価対象データ中における各属性の出現頻度をカウントする属性計数部と属性計数部によりカウントされた各属性の出現頻度と、各属性に付与された係数とに基づいて、文章を分類する文章評価部とを備える。ここで、本願発明における形態素とは、文章中において、意味を持つ文字列として最小の言語単位をいう。

また他の発明は、文字列によって表現された文章の内容を評価する文章評価方法であって、
（１）評価対象データである文字列を評価対象データ取得部によって取得するステップと、
（２）単語とその品詞とを関連づけて蓄積する形態素辞書を照合し、該形態素辞書中の文字列と評価対象データ中の文字列との一致度に応じて、該評価対象データ中の文字列を連続する複数の形態素として分割するとともに形態素抽出部によって、各形態素をそれぞれの品詞と関連づけて出力するステップと、
（３）形態素抽出部から出力された連続する形態素について、単語属性解析部により、各形態素の品詞が連続するパターンに応じて前後の形態素を連結し、これを単語として抽出するとともに、連続する品詞のパターンに基づいて、各単語に関連づけられる属性を決定するステップと、
（４）評価対象データ中における各属性の出現頻度を、属性計数部によってカウントするステップと、
（５）属性計数部によりカウントされた各属性の出現頻度と、各属性に付与された係数とに基づいて、文章評価部によって文章を分類するステップと
を備える。

上記発明において、単語の属性には、説得力に関する項目が含まれ、この説得力に関する属性は、前記単語属性解析部において、各単語の積極性レベルを定義した辞書データを照合し、各単語の積極性レベルを解析することによって決定することができる。これによって、自己の意見をバランスよく主張しているかどうかなどを評価することができる。

上記発明において、単語の属性には、語彙力に関する項目が含まれ、この語彙力に関する属性は、前記単語属性解析部において、各単語のキャラクター種別に応じた難易度を定義する辞書データを照合し、各単語のキャラクター種別及び難易度を解析することによって決定することができる。これによって、意見文などにおいて、適度に難しい単語を用いているかを評価することができる。

上記発明において、単語の属性には、表現力に関する項目が含まれ、この表現力に関する属性は、前記単語属性解析部において、各単語の時間情報を定義した辞書データを照合し、各単語の時間情報（その言葉が発生した年代や、流行した年代等）を検索し、その検索結果に応じて単語の非日常性レベルを解析することによって決定することができる。これによって、単語とそのジャンル（分野や、そのトピックスが流行・発生した年代等）との関連づけによって、個性的な表現、及びそのための工夫がなされているか、文章中で取り上げられている話題の中心や広がりを判断することができる。

なお、上述した本発明の文章評価システム及び文章評価方法は、所定の言語で記述されたプログラムをコンピュータ上で実行することにより実現することができる。

以上説明したように本発明によれば、就職活動時における自己紹介文など、文字列によって表現された文章を評価する際、大幅な労力及び時間を軽減することによって効率性を向上させることができ、また、常に同じ基準で評価を行うことができるため、評価の妥当性・公平性を確保することができる。

（文章評価システムの構成）
本発明の実施形態について、図面を参照しつつ説明する。図1は、本実施形態に係る文書評価システムの概略構成を示す説明図である。ここでは、求職者1の就職活動における自己紹介文を、求人側において評価する場合を例に説明する。

同図に示すように、インターネット2上にサーバ3が設置されており、このサーバ3には、インターネット2を通じて、求職者1が使用する情報端末11a〜11dが接続され、求職者1は、サーバ3が提供する求人情報にアクセス可能となっている。

インターネット2は、通信プロトコルTCP/IPを用いて種々の通信回線（電話回線やISDN回線、ADSL回線などの公衆回線、専用回線、無線通信網）を相互に接続して構築される分散型のIP網であり、このIP網には、10BASE-Tや100BASE-TX等によるイントラネット（企業内ネットワーク）や家庭内ネットワークなどのLANなども含まれる。

情報端末11a〜11dは、CPUを備えた演算処理装置であり、パーソナルコンピュータ等の汎用コンピュータや、機能を特化させた専用装置により実現することができ、例えば、モバイルコンピュータやPDA（Personal Digital Assistance）、携帯電話機が含まれる。また、情報端末11a〜11dは、インターネット2に対してデータの送受信を行う通信機能を備えており、サーバ3が提供するWebページ等の情報データをブラウザソフトによって閲覧することができる。

このブラウザソフトは、データ通信を通じて、インターネット2上のWebページを閲覧するためのアプリケーションソフトであり、インターネット2からHTML（HyperText Markup Language）ファイルや画像ファイル、音楽ファイルなどをダウンロードし、レイアウトを解析して表示・再生する。そして、このブラウザソフトを通じて、求職者1は、サーバ3が提供するエントリーシートページを情報端末11a〜11d側に表示させ、所定の入力フォームに自己紹介文などの文書をテキスト文字列によって入力し、サーバ3側に送信することができる。

サーバ3は、WWW（World Wide Web）等のドキュメントシステムにおいて、HTMLファイルや画像ファイル、音楽ファイルなどの情報送信を行うサーバコンピュータ或いはその機能を持ったソフトウェアであり、本実施形態では、エントリーシート等のHTML文書や画像などの情報を蓄積しておき、求職者1側のブラウザソフトの要求に応じて、インターネット2を通じ、求人情報等を配信する。

また、サーバ3には、データベース31及び管理者端末41が接続されており、サーバ3がインターネット2を通じて取得した求職者の個人情報（ID、パスワード等の認証情報を含む。）や、各求職者の自己紹介文及びその評価データをデータベース31に蓄積するとともに、管理者4がこれらの個人情報や評価データ等を管理者端末41を通じて管理・閲覧することができるようになっている。

さらに、サーバ3は、求職者1の自己紹介文など文字列によって表現された文章を評価する文章評価機能を備えている。図2は、本実施形態に係るサーバ3の内部構成を示すブロック図である。なお、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、或いはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。

サーバ3は、先ず、Webページ等をインターネット2に配信するための機能ブロックとして、データ送受信部301と、認証部302と、情報配信部303と、コンテンツ蓄積部31aとを備えている。

データ送受信部301は、TCP（Transmission Control Protocol）やIP（Internet Protocol）等のプロトコルを用いて、データを送受信するモジュールである。情報配信部303は、コンテンツ蓄積部31aに蓄積されたWebページのデータ（HTMLファイル等）をデータ送受信部301を通じてインターネット2上に送出するモジュールである。これらのモジュールによって、求職者1の情報端末11a〜11dとの間でデータの送受信を行うことによって、Webページの配信や、求職者1からの情報の取得を行うことができる。

認証部302は、サーバ3に対するアクセス者の正当性を検証するモジュールであり、例えば、データ送受信部301を通じて、情報端末11a〜11dからユーザ名とパスワードの組み合わせを取得し、個人情報データベース31cの登録情報を照合することによって、アクセス者にその権利があるか否かや、そのアクセス者が本人であるか否かなどを確認する。この認証処理でアクセス者を確認することにより、利用者を識別し、ユーザごとに異なるサービスを提供することを可能とする。なお、認証データの機密性を確保するために、認証データの暗号化やデジタル証明書が用いてもよい。

また、サーバ3は、文章評価のための機能ブロックとして、評価対象データ取得部304と、形態素抽出部305と、形態素連結部306と、単語抽出部307と、単語属性解析部308と、属性計数部309と、文章評価部310とを備えている。

評価対象データ取得部304は、評価対象データである文字列（テキストデータ）を取得するモジュールであり、取得したテキストデータと認証部302で取得した認証情報（ユーザーID）とを関連づけて個人情報データベース31cに登録する機能も備えている。

形態素抽出部305は、形態素辞書を照合し、形態素辞書中の文字列と評価対象データ中の文字列との一致度に応じて、評価対象データ中の文字列を連続する複数の形態素として分割するとともに、各形態素を、それぞれの品詞と関連づけて出力するモジュールである。かかる形態素辞書は、辞書データ31bに格納された辞書ファイルであり、文字列中に包含される形態素の候補を、各形態素の品詞及びその活用形に基づく優先順位に従って、階層的に保持している。

そして、形態素抽出部305は、評価対象データ中の文字列を一文字ずつ読み込んでいき、最小単位の形態素が形成されるまで文字列を連結していき、その形態素の品詞が判別可能となった時点で、前方の文字列と、後方に連結される文字列との関係から、その形態素の活用形が判別される毎に、階層的なデータ構造を下層へ移動し、抽出候補を絞り込んでいく。最終的に絞り込まれた候補が複数ある場合には、階層構造の優先順位に応じて、最も優先度（適性度）が高い候補を出力し、候補が全くない場合は、「未知語」として出力する。この形態素抽出部305で分割された形態素は、形態素毎に配列に格納され、一時的に記憶保持される。

形態素連結部306は、各形態素の品詞の、連続パターンを検出し、そのパターンに合致した前後の形態素を連結するモジュールであり、その連結されて生成された形態素列は、単語抽出部307に出力される。このとき、形態素連結部306は、連結された形態素列について、それに含まれている各形態素の品詞のパターンに基づく属性を決定し、この決定された属性（品詞、活用の他、未知語であるか否か等）を関連づけておく。かかる品詞のパターンとしては、例えば、名詞と名詞とが連結された形態素列の属性は名詞としたり、連結された形態素列に未知語が含まれている形態素列の属性は未知語とするなどが挙げられる。単語抽出部307は、形態素抽出部305で抽出された形態素、及び形態素連結部306で連結されて形成された形態素列から、正規表現による文字列パターンや文字数等を基準として、単語を抽出するモジュールであり、抽出された単語（文字列）は、単語属性解析部308に配列データとして出力される。

単語属性解析部308は、抽出された単語について、辞書データ31bを照合し、辞書データ31b中のキーワードとの一致度に応じて、当該単語の属性（動詞、名詞、品詞等）を解析し決定するモジュールである。属性計数部309は、評価対象データ中における各属性の出現頻度をカウントするモジュールである。この係数結果は、文章評価部310に出力される。なお、この単語属性解析部308での解析、及び属性計数部309でのカウントに際しては、形態素のうちその形態素のみでは語彙を評価できない短い文字列（送りがななど）である「軽量語彙」を除外したり、ありふれた表現や定型的な表現である「平凡語彙」を除外することにより、データ数の削減及び評価制度の向上を図っている。

本実施形態において、この単語属性解析部308で解析される各単語の属性には、説得力、語彙力及び表現力に関する項目が含まれ、これらの項目は、各単語の属性を示すパラメータである「強力語彙」、「重量語彙」及び「素材語彙」の算定結果により評価される。

例えば、説得力に関する属性は、上述した「軽量語彙」や「平凡語彙」を削除するとともに、説得力のある単語を定義する辞書データを照合する。この辞書データの照合により、各単語の積極性レベルを「強力語彙」や「重量語彙」の出現頻度及びその相関として算出して優先順位を決定し、これによって各単語の重み付けを行う。語彙力に関する属性は、単語のキャラクター種別及び難易度とを関連づけた辞書データを照合することにより、各単語の難易度に応じた重み付けを行い「素材語彙」の出現頻度として決定する。例えば、カタカナで表記された単語（カタカナ英語等）や三文字以上の漢字（四字熟語等）など、単語（テキストデータ）のキャラクター種別に応じた難易度を算出する。また、表現力に関する属性は、各単語の時間情報（その言葉が発生・流行した年代等）を検索し、その検索結果に応じて単語の非日常性レベルを「素材語彙」の出現頻度として解析する。

文章評価部310は、属性計数部309によりカウントされた各属性の出現頻度と、各属性に付与された係数とに基づいて、文章を分類し評価するモジュールである。この文章評価部310による評価結果は、個人情報データベース31cにユーザーIDと関連づけて蓄積されるとともに、表示データ生成部311に出力される。

サーバ3は、ユーザーインターフェースのための機能ブロックとして、表示データ生成部311と、管理端末接続部312と、データベース管理部313とを備えている。

表示データ生成部311は、文章評価部310による評価結果を表示するためのデータ（ここではHTMLデータ）を生成するモジュールである。具体的には、評価結果を示す文章を所定のフォームに表記するとともに、評価対象データ取得部304で取得された求職者1の紹介文のテキストデータに対して、文字色等の書式変更を施し、指摘箇所を強調する。

管理端末接続部312は、管理者4が使用する管理者端末41に接続するための外部インターフェースであり、表示データ生成部311で生成されたデータを管理者端末41で表示可能とするとともに、管理者4を認証するセキュリティ機能等も含まれている。また、管理端末接続部312には、データベース管理部313が接続されている。このデータベース管理部313は、データベース31に蓄積されているデータを管理するモジュールであり、データの追加・削除・更新等を管理者端末41から操作可能とする。

（文章評価方法）
以上の構成を有する文章評価システムを動作させることによって、本発明の文章評価方法を実施することができる。図3は、本実施形態に係る文章評価システムの動作を示すフローチャート図である。

まず、求職者1が情報端末11a〜11dからサーバ3にアクセスし、認証処理を完了すると、情報配信部303によって情報端末11a〜11d側にHTMLデータで形成されたエントリーシートが表示される。求職者1は、このエントリーシートに自己紹介文などのテキストデータを入力し、サーバ3側に送信する。

サーバ3側に送信されたエントリーシートのうち、評価対象となるテキストデータが、評価対象データ取得部304によって切り出され、ユーザーIDとともに関連づけられて個人情報データベース31cに蓄積され、文章評価処理が開始される。

まず、個人情報データベース31cに接続し（S101）、評価対象となるテキストデータを読み出す。この時点で読み出されたデータはHTML形式であり、不要なHTMLタグが含まれているためこれを削除したり、不要なスペースを削除したり、半角・全角を統一したりするなどして、解析可能なデータ形式に変換する（S102）。

次いで、文章の評価（採点）に必要な各定数を定義する（S103）。具体的には、採点可能な文字数、1文字の点数率、強力語彙・重量語彙・素材語彙1文字の各点数率、文リズムの点数率などを設定する。この定義により各パラメータの重み付けの調整が行われる。

その後、全文字数のカウントを行うとともに（S104）、「強力語彙」・「重量語彙」・「素材語彙」の各パラメータの抽出及びカウントを行う（S105、S107及びS110）。

具体的には、形態素抽出部305において、形態素辞書中の文字列と評価対象データ中の文字列との一致度に応じて、評価対象データ中の文字列を連続する複数の形態素として分割するとともに、各形態素を、それぞれの品詞と関連づけて出力する。この形態素抽出部305で分割された形態素データは、配列に格納され、一時的に記憶保持され、形態素連結部306での処理に渡される。

形態素連結部306では、各形態素の品詞の、連続パターンを検出し、そのパターンに合致した前後の形態素を連結する。その連結されて生成された形態素列を単語抽出部307に出力する。このとき、連結された形態素列については、それに含まれている各形態素の品詞のパターンに基づく属性を決定し、この決定された属性（品詞、活用の他、未知語であるか否か等）を、新たに生成された形態素列に関連づけておく。単語抽出部307では、形態素抽出部305で抽出された形態素、及び形態素連結部306で連結されて形成された形態素列の中から、正規表現による文字列パターンや文字数等を基準として単語を抽出し、抽出された文字列は、単語属性解析部308に配列データとして出力される。

一方、単語属性解析部308は、抽出された単語について、辞書データ31bを照合し、辞書データ31b中のキーワードとの一致度に応じて、当該単語の属性（動詞、名詞、品詞、活用等）を解析し、各単語に関連づけられる属性を決定する。このとき、形態素連結部306で決定された属性（形態素の品詞の連続パターン）も単語の属性解析に加味される。そして、属性計数部309において、評価対象データ中における各属性の出現頻度をカウントする。

属性計数部309における係数結果は、配列に格納された単語（強力語彙、重量語彙、素材語彙）とともに、文章評価部310に出力される。なお、この文章評価部310に計数結果を出力する際、各単語は、各語彙毎に、文字列長でグループ化・並び換えがされる（S106、S108及びS111）。また、素材語彙については、接続詞であるか、接尾であるか等の判別及びそのカウントを行う（S109）。その後、文章評価部310において各キーワード（単語、語彙、品詞等）毎に重み付けを行い、文章の評価を行う（S112）。

この文章評価部310における文章評価処理について詳述する。図4は、文章評価処理を示すフローチャート図である。

まず、上記パラメータの値から文章の特性を解析する（S201）。具体的には、文リズムや、接続助詞「が」・「て」・「それで」などの出現頻度、素材語彙偏差、文の長さ偏差、文の長さ平均、文の長さ中央値、文の長さの偏差/平均率等を算出する。そして、この算出結果を用いて文リズムによる評価、及び接続助詞によるを行う（S202、S203）。例えば、文の長さに、句読点の間隔、接続助詞の種別等により、文の流れがリズミカルか、流れが自然かなどを評価する。

次いで、素材語彙偏差による評価を行う（S204）。この素材語彙は、辞書データにおいて、単語とそのジャンル（分野や、そのトピックスが流行・発生した年代等）との関連づけがなされており、素材語彙の出現頻度をジャンル別にカウントすることによって文章中で取り上げられている話題の中心や広がりを判断することができる。

その後、文の長さの偏差/平均率による評価、段落の数による評価を行う（S215、S216）。また、これと併せて、常体敬体の統一性による評価（S217）を行う。この常体敬体の統一性による評価では、例えば、いわゆる「である調」と「ですます調」の出現頻度をカウントし、これらの値の大小により統一性を評価する。

さらに、各語彙による評価を行う（S208〜S210）。具体的には、強力語彙によって、自己の意見がバランスよく主張されているかどうかを評価したり（S208）、重量語彙によって、意見文において難しい言葉を使っているかを評価したり（S209）、素材語彙によって個性的な表現、及びそのための工夫がなされているかを評価したりする（S210）。また、これら強力語彙と重量語彙の割合によって、意見中心か事実中心か、理由や方法などを提示しているかなどを評価することもできる。

また、各語彙と、文章全体の字数の差（割合）によっても評価を行う（S211〜S213）。例えば、強力-字数の差によって、意見や説明が長すぎないか、具体的な実例が挙げられているかを評価したり（S211）、重量-字数の差によって、難しい言葉が多すぎないか、平易に表現する工夫がされているか、柔らかい体験実例が含まれているかを評価したり（S212）、素材-字数の差によって、表現が詳しすぎないか、必要に応じて簡潔に表現する工夫がなされているかを評価したりする（S213）。

さらに、強力語彙-素材語彙の差によって、説明や意見が多く、硬い文章になっており過強力の調整が必要でないか、具体的な実例が多過ぎて、冗長な文章になっており、過素材の調整が必要ではないかを評価したり（S214）、字数-素材の差によって、同じ言葉が繰り返し使われ、密度の薄い文章になっている可能性がないかを評価することもできる（S215）。

（文章評価プログラム）
上述した本実施形態に係る文章評価システム及び文章評価方法は、所定の言語で記述されたプログラムをコンピュータ上で実行することにより実現することができる。すなわち、このプログラムを、ユーザー端末やWebサーバ等のコンピュータやICチップにインストールし、CPU上で実行することにより、上述した各機能を有するシステムを容易に構築することができる。このプログラムは、例えば、通信回線を通じて配布することが可能であり、またスタンドアローンの計算機上で動作するパッケージアプリケーションとして譲渡することができる。

そして、このようなプログラムは、汎用コンピュータで読み取り可能な記録媒体に記録することができる。例えば、フレキシブルディスクやカセットテープ等の磁気記録媒体、若しくはCD−ROMやDVD−ROM等の光ディスクの他、RAMカードなど、種々の記録媒体に記録することができる。本実施形態は書き込み不可のCD−ROMやDVD−ROM中にあるコンテンツに対してリンクを設けることができる特徴を有する。

そして、このプログラムを記録したコンピュータ読み取り可能な記録媒体によれば、汎用のコンピュータや専用コンピュータを用いて、上述したシステムや方法を実施することが可能となるとともに、プログラムの保存、運搬及びインストールを容易に行うことができる。

（本実施形態による作用・効果）
以上説明したように本実施形態によれば、就職活動時における自己紹介文など、文字列によって表現された文章を評価する際、大幅な労力及び時間を軽減することによって効率性を向上させることができ、また、常に同じ基準で評価を行うことができるため、評価の妥当性・公平性を確保することができる。

実施形態に係る文書評価システムの概略構成を示す説明図である。実施形態に係るサーバの内部構成を示すブロック図である。実施形態に係る文章評価システムの動作を示すフローチャート図である。実施形態に係る文章評価システムの文章評価処理を示すフローチャート図である。

符号の説明

1…求職者
2…インターネット
3…サーバ
4…管理者
11a〜11d…情報端末
31…データベース
31a…コンテンツ蓄積部
31b…辞書データ
31c…個人情報データベース
41…管理者端末
301…データ送受信部
302…認証部
303…情報配信部
304…評価対象データ取得部
305…形態素抽出部
306…形態素連結部
307…単語抽出部
308…単語属性解析部
309…属性計数部
310…文章評価部
311…表示データ生成部
312…管理端末接続部
313…データベース管理部

Claims

文字列によって表現された文章の内容を評価する文章評価システムであって、
評価対象データである前記文字列を取得する評価対象データ取得部と、
単語とその品詞とを関連づけて蓄積する形態素辞書と、
前記形態素辞書を照合し、該形態素辞書中の文字列と前記評価対象データ中の文字列との一致度に応じて、該評価対象データ中の文字列を連続する複数の形態素として分割するとともに、各形態素を、それぞれの品詞と関連づけて出力する形態素抽出部と、
前記形態素抽出部から出力された連続する形態素について、各形態素の品詞が連続するパターンに応じて前後の形態素を連結し、これを単語として抽出するとともに、連続する品詞のパターンに基づいて、各単語に関連づけられる属性を決定する単語属性解析部と、
評価対象データ中における各属性の出現頻度をカウントする属性計数部と、
前記属性計数部によりカウントされた各属性の出現頻度と、各属性に付与された係数とに基づいて、前記文章を分類する文章評価部と
を備えることを特徴とする文章評価システム。
前記単語の属性には、説得力に関する項目が含まれ、この説得力に関する属性は、
前記単語属性解析部において、各単語の積極性レベルを定義した辞書データを照合し、各単語の積極性レベルを解析することによって決定されることを特徴とする請求項１に記載の文章評価システム。
前記単語の属性には、語彙力に関する項目が含まれ、この語彙力に関する属性は、
前記単語属性解析部において、各単語のキャラクター種別に応じた難易度を定義する辞書データを照合し、各単語のキャラクター種別及び難易度を解析することによって決定されることを特徴とする請求項１に記載の文章評価システム。
前記単語の属性には、表現力に関する項目が含まれ、この表現力に関する属性は、
前記単語属性解析部において、各単語の時間情報を定義した辞書データを照合し、各単語の時間情報を検索し、その検索結果に応じて該単語の非日常性レベルを解析する
ことによって決定されることを特徴とする請求項１に記載の文章評価システム。
文字列によって表現された文章の内容を評価する文章評価方法であって、
評価対象データである前記文字列を評価対象データ取得部によって取得するステップ（１）と、
単語とその品詞とを関連づけて蓄積する形態素辞書を照合し、該形態素辞書中の文字列と前記評価対象データ中の文字列との一致度に応じて、該評価対象データ中の文字列を連続する複数の形態素として分割するとともに形態素抽出部によって、各形態素をそれぞれの品詞と関連づけて出力するステップ（２）と、
前記形態素抽出部から出力された連続する形態素について、単語属性解析部により、各形態素の品詞が連続するパターンに応じて前後の形態素を連結し、これを単語として抽出するとともに、連続する品詞のパターンに基づいて、各単語に関連づけられる属性を決定するステップ（３）と、
評価対象データ中における各属性の出現頻度を、属性計数部によってカウントするステップ（４）と、
前記属性計数部によりカウントされた各属性の出現頻度と、各属性に付与された係数とに基づいて、文章評価部によって前記文章を分類するステップ（５）と
を備えることを特徴とする文章評価方法。
前記単語の属性には、説得力に関する項目が含まれ、前記ステップ（４）において該説得力に関する属性は、
前記単語属性解析部において、各単語の積極性レベルを定義した辞書データを照合し、各単語の積極性レベルを解析することによって決定されることを特徴とする請求項５に記載の文章評価方法。
前記単語の属性には、語彙力に関する項目が含まれ、前記ステップ（４）において前記語彙力に関する属性は、
前記単語属性解析部において、各単語のキャラクター種別に応じた難易度を定義する辞書データを照合し、各単語のキャラクター種別及び難易度を解析することによって決定されることを特徴とする請求項５に記載の文章評価方法。
前記単語の属性には、表現力に関する項目が含まれ、前記ステップ（４）において表現力に関する属性は、
前記単語属性解析部において、各単語の時間情報を定義した辞書データを照合し、各単語の時間情報を検索し、その検索結果に応じて該単語の非日常性レベルを解析する
ことによって決定されることを特徴とする請求項５に記載の文章評価方法。
文字列によって表現された文章の内容を評価する文章評価プログラムであって、コンピュータに、
評価対象データである前記文字列を評価対象データ取得部によって取得するステップ（１）と、
単語とその品詞とを関連づけて蓄積する形態素辞書を照合し、該形態素辞書中の文字列と前記評価対象データ中の文字列との一致度に応じて、該評価対象データ中の文字列を連続する複数の形態素として分割するとともに形態素抽出部によって、各形態素をそれぞれの品詞と関連づけて出力するステップ（２）と、
前記形態素抽出部から出力された連続する形態素について、単語属性解析部により、各形態素の品詞が連続するパターンに応じて前後の形態素を連結し、これを単語として抽出するとともに、連続する品詞のパターンに基づいて、各単語に関連づけられる属性を決定するステップ（３）と、
評価対象データ中における各属性の出現頻度を、属性計数部によってカウントするステップ（４）と、
前記属性計数部によりカウントされた各属性の出現頻度と、各属性に付与された係数とに基づいて、文章評価部によって前記文章を分類するステップ（５）と
を含む処理を実行させることを特徴とする文章評価プログラム。