JP2011170535A

JP2011170535A - 文書品質評価システムおよび文書品質評価プログラム

Info

Publication number: JP2011170535A
Application number: JP2010032634A
Authority: JP
Inventors: Tatsunosuke Yajima; 達之輔矢島; Keisuke Nakagawa; 敬介中川; Junichiro Maki; 純一郎牧; Teruyuki Murata; 輝行村田; Ko Kamibayashi; 航上林
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2010-02-17
Filing date: 2010-02-17
Publication date: 2011-09-01
Anticipated expiration: 2030-02-17
Also published as: JP5265597B2

Abstract

【課題】入力者に対してテキスト文書群の品質の評価結果に加えて、改善すべき文章および見本とすべき文章の例を提示する文書品質評価システムを提供する。
【解決手段】テキスト文書群の品質を評価し、評価結果をユーザに提示する文書品質評価システム１であって、テキスト文書群内の各文章について構文解析を行う構文解析部１０と、テキスト文書群についての品質を複数の評価項目についてスコアリングし、評価結果を第１のユーザに提示する品質評価部２０と、第１のユーザについての最低評価項目において低評価となる条件に該当する第１の文章群と、最低評価項目において第１のユーザよりも評価が高い第２のユーザについての高評価となる条件に該当する第２の文章群とを抽出し、第１と第２の文章群からそれぞれ類似度の高い第１と第２の文章を抽出し、第１の文章を改善対象の例文、第２の文章を見本の例文として提示する例文抽出部３０とを有する。
【選択図】図１

Description

本発明は、言語処理技術に関し、特に、テキスト文書について構文解析の観点での品質を評価する文書品質評価システムおよび文書品質評価プログラムに適用して有効な技術に関するものである。

例えば、顧客にサービスを提供する企業等では、コールセンターなどでオペレータ等が電話やメール等で顧客から受け付けた質問や相談、苦情等の内容をテキスト文書として記録しておき、後に蓄積されたテキスト文書をテキストマイニング等により分析して様々な知見を得るということが行われる。このとき、オペレータ等により入力される文章の記載方法等の内容が不統一では、これらを対象とした分析の精度を向上させることは難しい。従って、入力されるテキスト文書に一定の品質が確保されるようにする必要がある。

入力されるテキスト文書の品質を確保するには、オペレータへの教育等の支援に加えて、情報処理システムによる支援として、例えば、入力されたテキスト文書内の文章を構文解析等により分析し、所定の条件によりテキスト文書（群）の品質をスコアリング等により評価して、評価結果および改善点などを提示する等の手法がとられている。

また、例えば、特開２００７−１６４６７３号公報（特許文献１）には、製品マニュアル等の作成において、ユーザが作成する文書の高品質化や効率化を図るため、文書のチェックの対象となる言語表現が所定の形式で記述されたルールと、所定の形式で記述された背景情報とを関連付けた関連付け情報に基づいて、ルールチェックの実行、背景情報チェックの実行およびチェック結果の出力を制御することにより、ルールチェック結果に基づく背景情報チェックの実行、背景情報チェック結果に基づくルールチェックの実行、ルールチェック結果に関連付けられた背景情報の閲覧等を実施可能とし、ユーザによって有効な文書作成支援を実現することを可能とする技術が記載されている。

特開２００７−１６４６７３号公報

例えば、特許文献１に記載された技術では、コールセンター等でのコールログとは異なり、製品マニュアル等を対象としているため、適切ではない記載は確実に排除する必要があり、ルールチェックに基づく該当箇所を全て抽出してユーザに提示する必要がある。しかし、コールセンター等のオペレータは、製品マニュアルの作成等とは異なり、多様な内容を簡潔にまとめてスピーディに入力する必要があるため、ルールに該当しない記載を全て提示するような手法では確認の負担が大きい。また、入力内容に自由度が高いため、ルールやテンプレートなどの作成自体も困難である。

一方、入力されたテキスト文書（群）をスコアリング等により評価して提示する手法では、全体的な品質のレベルは把握できるものの、具体的にどのような文章や記載の評価が低いのか、さらにはどのように記載すべきであったのかといった情報をオペレータ等のユーザが的確に把握することは難しく、ユーザによる入力の品質向上が図れない場合もある。

そこで本発明の目的は、テキスト文書の入力者に対して、入力されたテキスト文書群の品質の評価結果に加えて、改善すべき文章の例および見本とすべき文章の例を具体的な参考情報として提示することが可能な文書品質評価システムおよび文書品質評価プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。

本発明の代表的な実施の形態による文書品質評価システムおよび文書品質評価プログラムは、ユーザにより入力されたテキスト文書群を取り込み、前記ユーザもしくは前記ユーザが属するグループ毎に、対象となる前記テキスト文書群の品質を構文解析の観点からスコアリングして評価し、評価結果を前記ユーザに提示することで、前記ユーザに対して前記テキスト文書の入力の品質を向上させるための支援を行うものであって、以下の特徴を有するものである。

すなわち、文書品質評価システムおよび文書品質評価プログラムは、取り込んだ前記テキスト文書群内の各文章について形態素解析および構文解析を行い、解析結果に基づいて集計処理を行って、前記解析結果および集計結果をテーブルに格納する構文解析部と、前記テーブルに保持された情報に基づいて、第１のユーザもしくは前記第１のユーザが属するグループ毎に、対象となる前記テキスト文書群についての品質を構文解析の観点から複数の評価項目についてスコアリングして評価し、評価結果を出力して前記第１のユーザに提示する品質評価部とを有する。

さらに、前記第１のユーザについての前記評価結果における評価の最も低い前記評価項目である最低評価項目において低評価となる条件に該当する前記第１のユーザの第１の文章群と、前記最低評価項目において前記第１のユーザよりも評価が高い第２のユーザについての、前記最低評価項目において高評価となる条件に該当する第２の文章群とを抽出し、前記第１の文章群と前記第２の文章群から、それぞれ類似度の高い第１の文章と第２の文章を抽出し、前記第１の文章を改善対象の例文とし、前記第２の文章を見本の例文として出力して前記第１のユーザに提示する例文抽出部とを有することを特徴とするものである。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

本発明の代表的な実施の形態によれば、ユーザが入力したテキスト文書群について、構文解析の観点から複数の評価項目について品質をスコアリングして評価するとともに、スコアの最も低い評価項目について、低評価となる条件に該当する文章群と、高評価となる条件に該当する文章群から類似する文章ペアを抽出して提示することで、改善すべき文章の例および見本とすべき文章の例を提示することが可能となる。

これにより、ユーザに対して簡潔・具体的かつ的確に文章の入力品質を向上させるための支援を行うことが可能となる。さらに、蓄積されるテキスト文書の品質が向上することから、テキストマイニング等による分析を効果的に行うことが可能となる。

本発明の一実施の形態である文書品質評価システムの構成例の概要を示した図である。本発明の一実施の形態におけるテキスト文書管理テーブルのデータ構成および具体的なデータの例について示した図である。本発明の一実施の形態における単語管理のデータ構成および具体的なデータの例について示した図である。本発明の一実施の形態における文章管理のデータ構成および具体的なデータの例について示した図である。本発明の一実施の形態における改善対象および見本の例文を抽出する処理の例を示したフローチャートである。本発明の一実施の形態における文章間のコサイン類似度を算出する場合の例を示した図である。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。

本発明の一実施の形態である文書品質評価システムは、例えば、コールセンターなどでオペレータ等が電話やメール等で顧客から受け付けた質問や相談、苦情等の内容をコールセンターシステム等にコールログ（応対履歴）として入力したテキスト文書群を取り込み、ユーザ（オペレータ等）やグループ毎に、対象となるテキスト文書群の品質を構文解析の観点からスコアリングして評価し、評価結果を提示することで、ユーザに対してテキスト文書の入力品質を向上させるための支援を行う機能を有するコンピュータシステムである。

品質の評価に際しては、構文解析の観点から後述する５つの評価項目により評価を行い、それぞれの評価項目についてスコアリングするとともに統計情報を算出して出力する。また、対象のユーザにおけるスコアの最も低い評価項目において低評価となる条件に該当する文章群と、他のユーザも含めて当該評価項目において高評価となる条件に該当する文章群とを抽出し、これらの文章群から類似度の高い文章ペアを抽出して、改善対象の例文および見本の例文としてそれぞれユーザに提示する。

［システム構成］
図１は、本発明の一実施の形態である文書品質評価システムの構成例の概要を示した図である。文書品質評価システム１は、例えば、サーバやＰＣ（Personal Computer）等によって構成され、ソフトウェアプログラムによって実装された構文解析部１０、品質評価部２０、例文抽出部３０およびインタフェース部４０の各部と、データベースやファイルテーブル等からなるテキスト文書管理５１、単語管理５２および文章管理５３の各テーブルを有する。また、ファイルテーブル等からなる冗長要素１１を有する。

構文解析部１０は、後述するインタフェース部４０等を介して取り込まれたテキスト文書内の各文章について、いわゆる形態素解析および構文解析を行い、単語への分解や構文木の生成などの解析処理を行う機能を有する。なお、形態素解析、構文解析の各解析処理については自然言語処理における公知の技術やアルゴリズムを適宜利用することができ、構文解析部１０に一般的な形態素解析エンジンや構文解析エンジンを組み込んで用いることも可能である。

解析処理の結果は、テキスト文書管理５１、単語管理５２、文章管理５３の各テーブルに格納される。このとき、解析結果に基づいて、後述する品質評価部２０での評価の際に利用するために、各文章における単語の数や、状況描写と判断される表現の数、文章が主語を有するか否かや、冗長要素１１のテーブルに予め設定された挨拶等の冗長的な単語を有するか否か等の集計処理を行い、これらの情報も合わせて文章管理５３のテーブルに格納する。

品質評価部２０は、テキスト文書管理５１、単語管理５２および文章管理５３の各テーブルに保持された情報に基づいて、ユーザ毎やグループ毎に、対象となるテキスト文書群についての品質を構文解析の観点から後述する５つの評価項目についてスコアリングして評価し、評価結果をインタフェース部４０を介してユーザに提示する機能を有する。また、評価結果について各種平均や割合、偏差値等の統計情報を算出して提示する機能や、評価結果をデータベース等に格納して保持しておく機能などを有していてもよい。

例文抽出部３０は、対象のユーザにおける評価（スコア）の最も低い評価項目において低評価となる条件に該当する文章群（対象のユーザが入力したもの）と、当該評価項目において高評価となる条件に該当する文章群（対象のユーザおよび他のユーザが入力したものを含む）とを抽出し、これらの文章群から類似度の高い文章ペアを抽出して、改善対象の例文および見本の例文として、インタフェース部４０を介してユーザに提示する機能を有する。改善対象および見本の例文の抽出結果をデータベース等に格納して保持しておく機能を有していてもよい。

インタフェース部４０は、文書品質評価システム１における画面表示等のユーザインタフェースや、テキスト文書群の取り込みなどの入出力機能を有する。画面等の表示については、図示していないが、例えば、文書品質評価システム１自体が備えるディスプレイ等に直接表示してもよいし、Ｗｅｂサーバプログラムを利用してクライアント端末上のＷｅｂブラウザを介して画面を表示するようにしてもよい。なお、本実施の形態では、文書品質評価システム１を独立したシステムとして実装する例を示しているが、例えば、ユーザからのテキスト文書の入力を受け付けるコールセンターシステム等の他のシステムの一部として実装してもよい。

［データ構成］
図２は、テキスト文書管理５１のデータ構成および具体的なデータの例について示した図である。テキスト文書管理５１は、ユーザが入力した文章からなるテキスト文書を管理するテーブルであり、例えば、テキスト文書ＩＤ、入力者属性などの各項目を有する。テキスト文書ＩＤの項目は、文書品質評価システム１によって割り振られた、各テキスト文書を一意に識別するＩＤの情報を保持する。入力者属性の項目は、対象のテキスト文書を入力したユーザ（入力者）の属性の情報を保持し、少なくともユーザを一意に識別することが可能なＩＤやユーザ名などの情報を保持する。

図３は、単語管理５２のデータ構成および具体的なデータの例について示した図である。単語管理５２は、ユーザが入力した文章に含まれる各単語を管理するテーブルであり、例えば、テキスト文書ＩＤ、文章番号、単語データなどの各項目を有する。テキスト文書ＩＤの項目は、対象の単語が含まれる文章が属するテキスト文書のＩＤの情報を保持する。このテキスト文書ＩＤは、図２のテキスト文書管理５１のテキスト文書ＩＤの項目と対応する。

文章番号の項目は、文書品質評価システム１によって割り振られた、対象の単語が含まれる文章についての対象のテキスト文書内での識別番号を保持する。この文章番号は、後述する図４の文章管理５３の文章番号の項目と対応する。単語データの項目は、構文解析部１０による対象の文章の解析処理の結果得られた単語のテキストデータを保持する。

図４は、文章管理５３のデータ構成および具体的なデータの例について示した図である。文章管理５３は、ユーザが入力した各文章を管理するテーブルであり、例えば、テキスト文書ＩＤ、文章番号、文章データ、単語数、状況描写数、主語フラグ、冗長要素フラグなどの各項目を有する。テキスト文書ＩＤの項目は、対象の文章が属するテキスト文書のＩＤの情報を保持する。このテキスト文書ＩＤは、図２のテキスト文書管理５１のテキスト文書ＩＤの項目と対応する。

文章番号の項目は、文書品質評価システム１によって割り振られた、対象の文章についての対象のテキスト文書内での識別番号の情報を保持する。１つのテキスト文書には１つ以上の文章が含まれ、各文章の識別番号の値は、例えば、テキスト文書内の先頭の文章から順に１、２、…のように割り振る。文章データの項目は、対象の文章のテキストデータを保持する。

単語数の項目は、対象の文章中に含まれる単語の数の情報を保持する。状況描写数は、対象の文章中において状況描写と判断された表現の数の情報を保持する。主語フラグは、対象の文章が主語を有するか否かを示すフラグ値の情報を保持する。冗長要素フラグは、対象の文章が冗長要素１１のテーブルに予め設定された挨拶等の冗長的な単語を有するか否かを示すフラグ値の情報を保持する。これらの各項目の情報は、構文解析部１０による対象の文章についての解析処理の結果に基づいて得られる情報である。

なお、上記の各テーブルおよびそれらのデータ構成は図示したものに限らず、上述したデータ項目を管理可能なものであれば他のテーブル構成であったり、他の項目を有していたりしてもよい。

［スコアリング］
構文解析部１０によって、取り込まれたテキスト文書群について解析処理が行われ、テキスト文書管理５１、単語管理５２、文章管理５３の各テーブルに解析結果に基づく情報が保持されると、次に品質評価部２０では、ユーザ毎やグループ毎に、入力されたテキスト文書群についての品質を構文解析の観点から評価する。本実施の形態では、コールセンターにおけるコールログにおける文章の注目点であり、構文解析の結果から容易に評価可能なものとして、例えば、（１）「文の成立」、（２）「主述関係」、（３）「説明要素」、（４）「状況描写」、（５）「排冗長性」の５つの評価項目についてスコアリングして評価する。これらの評価項目は、評価する対象とするテキスト文書の特性に応じて他の評価項目とすることも可能である。

（１）「文の成立」の評価では、テキスト文書内の文章が単語のみの記述ではなく文として成立しているかという条件でスコアリングする。「文の成立」についてのスコアＳは、例えば、全テキスト文書から文として成立する余地のない文章のみからなるテキスト文書を除外したものの全テキスト文書に対する割合として、以下の式により算出する。

ここで、文として成立する余地のない文章のみからなるテキスト文書の数は、例えば、２つ以上の単語からなる文章を有さないテキスト文書（単語が１つしかない文章のみからなるテキスト文書）の数として求める。なお、文章に含まれる単語の数は、文章管理５３の単語数の項目により把握することができる。また、対象のテキスト文書が対象のユーザやグループに該当するものであるか否かは、テキスト管理５１の入力者属性の項目により判断することができる。

（２）「主述関係」の評価では、テキスト文書内の文章が主語・述語の主述関係を有する文章となっているかという条件でスコアリングする。「主述関係」についてのスコアＳは、例えば、全テキスト文書から上述した文として成立する余地のない文章、および主語がない文章のみからなるテキスト文書を除外したものの全テキスト文書に対する割合として、以下の式により算出する。

なお、主語がない文章については、例えば、文章管理５３の主語フラグの項目がＦＡＬＳＥである文章として把握することができる。

（３）「説明要素」の評価では、テキスト文書内の文章が主語・述語以外に説明要素を有しているかという条件でスコアリングする。「説明要素」についてのスコアＳは、例えば、全テキスト文書から上述した文として成立する余地のない文章と主語がない文章、および主語と述語のみで構成される文章のみからなるテキスト文書を除外したものの全テキスト文書に対する割合として、以下の式により算出する。

なお、主語と述語のみで構成される文章については、主述関係を有する文章のうち、文章管理５３の単語数の項目が３未満の文章として把握することができる。

（４）「状況描写」の評価では、テキスト文書内の文章が状況に関する記述を有しているかという条件でスコアリングする。「状況描写」についてのスコアＳは、例えば、主語を有し、かつ状況に関する記述を有する文章を含むテキスト文書の全テキスト文書に対する割合として、以下の式により算出する。

なお、状況に関する記述を有する文章については、文章管理５３の状況描写数の項目が０より大きい文章として把握することができる。また、これらの文章は、上記（１）〜（３）の評価において除外される文章には該当しないものである。

（５）「排冗長性」の評価では、テキスト文書内の文章が挨拶等の冗長的な単語を有していないかという条件でスコアリングする。「排冗長性」についてのスコアＳは、例えば、全テキスト文書から冗長的な単語を有する文章を有するテキスト文書を除外したものの全テキスト文書に対する割合として、以下の式により算出する。

なお、冗長的な単語を有する文章については、文章管理５３の冗長要素フラグの項目がＴＲＵＥである文章として把握することができる。

上記の数１〜数５に示した式によって、ユーザ毎やグループ毎に、入力されたテキスト文書についての各評価項目でのスコアＳを算出し、インタフェース部４０を介してユーザに提示する。提示の形式は特に限定されず、評価項目毎にスコアをそのまま提示してもよいし、スコアの範囲により予め定義されたランク（例えば“Ａ”〜“Ｅ”など）に変換して提示してもよい。このとき、グループの構成によっては例えば全ユーザがランク“Ａ”に該当してしまい、的確な評価（特に改善点の指摘）が困難となる場合を考慮して、スコアリングの際の重み付け値を設定できるようにしてもよい（例えば“厳しい”評価をする設定の場合はスコアＳの値が小さくなるように重み付け値を設定する）。

［例文抽出］
品質評価部２０によって、ユーザ毎やグループ毎にテキスト文書群についての各評価項目でのスコア（ランク）を算出した後、例文抽出部３０では、対象のユーザに提示するための改善対象の例文および見本の例文（テキスト文書中の重要箇所）を抽出する。図５は、改善対象および見本の例文を抽出する処理の例を示したフローチャートである。

まず、対象のユーザ（入力者１）について、品質評価部２０によって評価された各評価項目についての評価結果の情報を取得する（Ｓ１０１）。次に、各評価項目の評価が全て最高のランク“Ａ”（もしくはスコアが所定の数値以上）であるか否かを判定する（Ｓ１０２）。全ての評価項目がランク“Ａ”である場合は、インタフェース部４０を介して、例えば“特に改善すべき項目はありません”等の、改善点がない旨のメッセージを出力し（Ｓ１１０）、処理を終了する。

ステップＳ１０２で、全ての評価項目がランク“Ａ”ではない場合は、ランク（もしくはスコア）が最低の評価項目を取得する（Ｓ１０３）。次に、ランクが最低の評価項目において低評価となる条件に該当する入力者１の文章を文章群Ａとして抽出し、この情報を配列Ａに格納する（Ｓ１０４）。具体的には、テキスト管理５１によって入力者１が入力したテキスト文書を特定し、文章管理５３において対象のテキスト文書に含まれる文章から低評価となる条件に該当する各文章のテキスト文書ＩＤおよび文章番号の項目を抽出し、この値を配列Ａに格納する。

ここで、各評価項目において低評価となる条件は、上述した品質評価部２０におけるスコアリングの際の条件に対応しており、
「文の成立」：文章管理５３の単語数の項目が１以下である
「主述関係」：文章管理５３の主語フラグの項目がＦＡＬＳＥである
「説明要素」：文章管理５３の単語数の項目が３未満である
「状況描写」：文章管理５３の状況描写数の項目が０である
「排冗長性」：文章管理５３の冗長要素フラグの項目がＴＲＵＥである
の各条件に該当する文章群を抽出することになる。

次に、対象の評価項目（入力者１についてランク（もしくはスコア）が最低の評価項目）において入力者１よりもランク（もしくはスコア）が高いユーザ（入力者２）が存在するか否かを判定する（Ｓ１０５）。評価が高い入力者２が存在する場合は、対象の評価項目において高評価となる条件に該当する入力者２の文章を文章群Ｂとして抽出し、この情報を配列Ｂに格納して（Ｓ１０７）、ステップＳ１０９に進む。具体的には、テキスト管理５１によって入力者２が入力したテキスト文書を特定し、文章管理５３において対象のテキスト文書に含まれる文章から高評価となる条件に該当する各文章のテキスト文書ＩＤおよび文章番号の項目を抽出し、この値を配列Ｂに格納する。

ここで、各評価項目において高評価となる条件は、上述した品質評価部２０におけるスコアリングの際の条件に対応しており（上述した低評価となる条件の逆となる）、
「文の成立」：文章管理５３の単語数の項目が２以上である
「主述関係」：文章管理５３の主語フラグの項目がＴＲＵＥである
「説明要素」：文章管理５３の単語数の項目が３以上である
「状況描写」：文章管理５３の状況描写数の項目が１以上である
「排冗長性」：文章管理５３の冗長要素フラグの項目がＦＡＬＳＥである
の各条件に該当する文章群を抽出することになる。

ステップＳ１０５において評価が高い入力者２が存在しない場合は、対象の評価項目において高評価となる条件に該当する入力者１の文章があるか否かを判定する（Ｓ１０６）。該当する入力者１の文章がない場合は、配列Ａに格納された文章群Ａの情報から入力者１に対する改善対象の例文を抽出して、インタフェース部４０を介して出力する（Ｓ１１３）。具体的には、例えば、配列Ａからテキスト文書ＩＤおよび文章番号の値が最も若い（小さい）データを選択し、これらの値によって特定される文章データを文章管理５３から取得して改善対象の例文とする。さらに、インタフェース部４０を介して、例えば“見本となる文章はありません”等の、見本となる例文がない旨のメッセージを出力し（Ｓ１１４）、処理を終了する。

ステップＳ１０６において高評価となる条件に該当する入力者１の文章がある場合は、対象の評価項目において高評価となる条件に該当する入力者１の文章を文章群Ｂとして抽出し、この情報を配列Ｂに格納する（Ｓ１０８）。文章群Ｂの抽出の具体的な処理は、上述したステップＳ１０７と同様であるため説明は省略する。

次に、文章群Ａと文章群Ｂ（ステップＳ１０７もしくはＳ１０８で抽出されたもの）との中で類似度が最も高い文章ペア（文章群Ａから抽出された文章ａおよび文章群Ｂから抽出された文章ｂ）を抽出する（Ｓ１０９）。文章群Ａもしくは文章群Ｂの中で類似度が最も高い文章が複数存在する場合は、例えば、これらの中で配列Ａもしくは配列Ｂにおけるテキスト文書ＩＤおよび文章番号の値が最も若い（小さい）データを選択し、これらの値によって特定される文章を文章ａもしくは文章ｂとする。

各文章間での類似度の算出には種々の手法を用いることができる。例えば、単語管理５２に基づいて求められる各文章に含まれる単語の出現頻度から文章毎の頻度ベクトルを算出し、頻度ベクトル間のなす角からいわゆるコサイン類似度を算出して類似度とすることができる。

図６は、文章間のコサイン類似度を算出する場合の例を示した図である。図６において、文章ｄ１は、ｔ１、ｔ２、ｔ３、ｔ５の各単語を含んでおり、文章ｄ２は、ｔ１、ｔ２、ｔ４、ｔ５の各単語を含んでいることを示している。ここで、文章ｄ１、ｄ２の頻度ベクトルＵ１、Ｕ２は、それぞれ単語ｔ１〜ｔ５の文章ｄ１、ｄ２における出現頻度を要素として図示するように求められる。ここで、文章ｄ１とｄ２とのコサイン類似度ｃｏｓ（ｄ１，ｄ２）は、図示するように、頻度ベクトルＵ１、Ｕ２の内積を各頻度ベクトルの大きさで除算することで得ることができる。

その後、抽出された文章ペアのうち、文章ａ（入力者１が入力した文章）を入力者１に対する改善対象の例文としてインタフェース部４０を介して出力し（Ｓ１１１）、さらに文章ｂ（入力者２もしくは入力者１が入力した文章）を見本となる例文としてインタフェース部４０を介して出力して（Ｓ１１２）、処理を終了する。文章ペアの文章ａと文章ｂとは内容の類似度が高いため、改善対象の例文と見本となる例文とは、内容が類似したものになる。従って、ユーザは、改善対象の例文について、見本となる例文を参照することでどのように記載すればよかったのかを的確に把握することが可能となる。

インタフェース部４０を介して改善対象および見本となる例文をユーザに提示する際は、例えば、ランクが最低となった評価項目をメッセージ等と合わせて指摘し、当該評価項目についての改善対象の例文および見本となる例文を並べて出力する。見本となる例文については、当該例文を入力したユーザ（入力者２もしくは入力者１）の氏名等の属性や、当該評価項目についてのランク（スコア）の情報を合わせて出力するようにしてもよい。

以上に説明したように、本発明の一実施の形態である文書品質評価システム１によれば、ユーザが入力したテキスト文書群について、構文解析の観点から複数の評価項目について品質をスコアリングして評価するとともに、スコアの最も低い評価項目について、低評価となる条件に該当する文章群と、高評価となる条件に該当する文章群から類似度の高い文章ペアを抽出して提示することで、改善対象の例文および見本の例文を提示することが可能となる。

これにより、ユーザに対して簡潔・具体的かつ的確に文章の入力品質を向上させるための情報を提示して支援を行うことが可能となる。さらに、蓄積されるテキスト文書の品質が向上することから、テキストマイニング等による分析を効果的に行うことが可能となる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

本発明は、テキスト文書について構文解析の観点での品質を評価する文書品質評価システムおよび文書品質評価プログラムに利用可能である。

１…文書品質評価システム、
１０…構文解析部、１１…冗長要素、２０…品質評価部、３０…例文抽出部、４０…インタフェース部、
５１…テキスト文書管理、５２…単語管理、５３…文章管理。

Claims

ユーザにより入力されたテキスト文書群を取り込み、前記ユーザもしくは前記ユーザが属するグループ毎に、対象となる前記テキスト文書群の品質を構文解析の観点からスコアリングして評価し、評価結果を前記ユーザに提示することで、前記ユーザに対して前記テキスト文書の入力の品質を向上させるための支援を行う文書品質評価システムであって、
取り込んだ前記テキスト文書群内の各文章について形態素解析および構文解析を行い、解析結果に基づいて集計処理を行って、前記解析結果および集計結果をテーブルに格納する構文解析部と、
前記テーブルに保持された情報に基づいて、第１のユーザもしくは前記第１のユーザが属するグループ毎に、対象となる前記テキスト文書群についての品質を構文解析の観点から複数の評価項目についてスコアリングして評価し、評価結果を出力して前記第１のユーザに提示する品質評価部と、
前記第１のユーザについての前記評価結果における評価の最も低い前記評価項目である最低評価項目において低評価となる条件に該当する前記第１のユーザの第１の文章群と、前記最低評価項目において前記第１のユーザよりも評価が高い第２のユーザについての、前記最低評価項目において高評価となる条件に該当する第２の文章群とを抽出し、前記第１の文章群と前記第２の文章群から、それぞれ類似度の高い第１の文章と第２の文章を抽出し、前記第１の文章を改善対象の例文とし、前記第２の文章を見本の例文として出力して前記第１のユーザに提示する例文抽出部とを有することを特徴とする文書品質評価システム。
請求項１に記載の文書品質評価システムにおいて、
前記例文抽出部は、前記最低評価項目において前記第１のユーザよりも評価が高い前記第２のユーザが存在しない場合、前記最低評価項目において高評価となる条件に該当する前記第１のユーザの文章群を抽出して前記第２の文章群とすることを特徴とする文書品質評価システム。
請求項２に記載の文書品質評価システムにおいて、
前記例文抽出部は、前記最低評価項目において高評価となる条件に該当する前記第１のユーザの文章が存在しない場合、前記第１の文章群から選択した文章を前記第１の文章とし、前記第１の文章を前記改善対象の例文とするとともに該当する前記見本の例文がない旨を出力して前記第１のユーザに提示することを特徴とする文書品質評価システム。
請求項１〜３のいずれか１項に記載の文書品質評価システムにおいて、
前記例文抽出部は、前記第１のユーザについての前記各評価項目の前記評価結果が全て所定以上の評価である場合に、改善点がない旨を出力して前記第１のユーザに提示することを特徴とする文書品質評価システム。
請求項１〜４のいずれか１項に記載の文書品質評価システムにおいて、
前記例文抽出部は、前記類似度として、対象の各文章に含まれる各単語の出現頻度を要素とする頻度ベクトルに基づくコサイン類似度を用いることを特徴とする文書品質評価システム。
ユーザにより入力されたテキスト文書群を取り込み、前記ユーザもしくは前記ユーザが属するグループ毎に、対象となる前記テキスト文書群の品質を構文解析の観点からスコアリングして評価し、評価結果を前記ユーザに提示することで、前記ユーザに対して前記テキスト文書の入力の品質を向上させるための支援を行うシステムとしてコンピュータを機能させる文書品質評価プログラムであって、
取り込んだ前記テキスト文書群内の各文章について形態素解析および構文解析を行い、解析結果に基づいて集計処理を行って、前記解析結果および集計結果をテーブルに格納する構文解析部と、
前記テーブルに保持された情報に基づいて、第１のユーザもしくは前記第１のユーザが属するグループ毎に、対象となる前記テキスト文書群についての品質を構文解析の観点から複数の評価項目についてスコアリングして評価し、評価結果を出力して前記第１のユーザに提示する品質評価部と、
前記第１のユーザについての前記評価結果における評価の最も低い前記評価項目である最低評価項目において低評価となる条件に該当する前記第１のユーザの第１の文章群と、前記最低評価項目において前記第１のユーザよりも評価が高い第２のユーザについての、前記最低評価項目において高評価となる条件に該当する第２の文章群とを抽出し、前記第１の文章群と前記第２の文章群から、それぞれ類似度の高い第１の文章と第２の文章を抽出し、前記第１の文章を改善対象の例文とし、前記第２の文章を見本の例文として出力して前記第１のユーザに提示する例文抽出部とを有することを特徴とする文書品質評価プログラム。
請求項６に記載の文書品質評価プログラムにおいて、
前記例文抽出部は、前記最低評価項目において前記第１のユーザよりも評価が高い前記第２のユーザが存在しない場合、前記最低評価項目において高評価となる条件に該当する前記第１のユーザの文章群を抽出して前記第２の文章群とすることを特徴とする文書品質評価プログラム。
請求項７に記載の文書品質評価プログラムにおいて、
前記例文抽出部は、前記最低評価項目において高評価となる条件に該当する前記第１のユーザの文章が存在しない場合、前記第１の文章群から選択した文章を前記第１の文章とし、前記第１の文章を前記改善対象の例文とするとともに該当する前記見本の例文がない旨を出力して前記第１のユーザに提示することを特徴とする文書品質評価プログラム。
請求項６〜８のいずれか１項に記載の文書品質評価プログラムにおいて、
前記例文抽出部は、前記第１のユーザについての前記各評価項目の前記評価結果が全て所定以上の評価である場合に、改善点がない旨を出力して前記第１のユーザに提示することを特徴とする文書品質評価プログラム。
請求項６〜９のいずれか１項に記載の文書品質評価プログラムにおいて、
前記例文抽出部は、前記類似度として、対象の各文章に含まれる各単語の出現頻度を要素とする頻度ベクトルに基づくコサイン類似度を用いることを特徴とする文書品質評価プログラム。