JP2011170535A - 文書品質評価システムおよび文書品質評価プログラム - Google Patents

文書品質評価システムおよび文書品質評価プログラム Download PDF

Info

Publication number
JP2011170535A
JP2011170535A JP2010032634A JP2010032634A JP2011170535A JP 2011170535 A JP2011170535 A JP 2011170535A JP 2010032634 A JP2010032634 A JP 2010032634A JP 2010032634 A JP2010032634 A JP 2010032634A JP 2011170535 A JP2011170535 A JP 2011170535A
Authority
JP
Japan
Prior art keywords
sentence
evaluation
user
group
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010032634A
Other languages
English (en)
Other versions
JP5265597B2 (ja
Inventor
Tatsunosuke Yajima
達之輔 矢島
Keisuke Nakagawa
敬介 中川
Junichiro Maki
純一郎 牧
Teruyuki Murata
輝行 村田
Ko Kamibayashi
航 上林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2010032634A priority Critical patent/JP5265597B2/ja
Publication of JP2011170535A publication Critical patent/JP2011170535A/ja
Application granted granted Critical
Publication of JP5265597B2 publication Critical patent/JP5265597B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】入力者に対してテキスト文書群の品質の評価結果に加えて、改善すべき文章および見本とすべき文章の例を提示する文書品質評価システムを提供する。
【解決手段】テキスト文書群の品質を評価し、評価結果をユーザに提示する文書品質評価システム1であって、テキスト文書群内の各文章について構文解析を行う構文解析部10と、テキスト文書群についての品質を複数の評価項目についてスコアリングし、評価結果を第1のユーザに提示する品質評価部20と、第1のユーザについての最低評価項目において低評価となる条件に該当する第1の文章群と、最低評価項目において第1のユーザよりも評価が高い第2のユーザについての高評価となる条件に該当する第2の文章群とを抽出し、第1と第2の文章群からそれぞれ類似度の高い第1と第2の文章を抽出し、第1の文章を改善対象の例文、第2の文章を見本の例文として提示する例文抽出部30とを有する。
【選択図】図1

Description

本発明は、言語処理技術に関し、特に、テキスト文書について構文解析の観点での品質を評価する文書品質評価システムおよび文書品質評価プログラムに適用して有効な技術に関するものである。
例えば、顧客にサービスを提供する企業等では、コールセンターなどでオペレータ等が電話やメール等で顧客から受け付けた質問や相談、苦情等の内容をテキスト文書として記録しておき、後に蓄積されたテキスト文書をテキストマイニング等により分析して様々な知見を得るということが行われる。このとき、オペレータ等により入力される文章の記載方法等の内容が不統一では、これらを対象とした分析の精度を向上させることは難しい。従って、入力されるテキスト文書に一定の品質が確保されるようにする必要がある。
入力されるテキスト文書の品質を確保するには、オペレータへの教育等の支援に加えて、情報処理システムによる支援として、例えば、入力されたテキスト文書内の文章を構文解析等により分析し、所定の条件によりテキスト文書(群)の品質をスコアリング等により評価して、評価結果および改善点などを提示する等の手法がとられている。
また、例えば、特開2007−164673号公報(特許文献1)には、製品マニュアル等の作成において、ユーザが作成する文書の高品質化や効率化を図るため、文書のチェックの対象となる言語表現が所定の形式で記述されたルールと、所定の形式で記述された背景情報とを関連付けた関連付け情報に基づいて、ルールチェックの実行、背景情報チェックの実行およびチェック結果の出力を制御することにより、ルールチェック結果に基づく背景情報チェックの実行、背景情報チェック結果に基づくルールチェックの実行、ルールチェック結果に関連付けられた背景情報の閲覧等を実施可能とし、ユーザによって有効な文書作成支援を実現することを可能とする技術が記載されている。
特開2007−164673号公報
例えば、特許文献1に記載された技術では、コールセンター等でのコールログとは異なり、製品マニュアル等を対象としているため、適切ではない記載は確実に排除する必要があり、ルールチェックに基づく該当箇所を全て抽出してユーザに提示する必要がある。しかし、コールセンター等のオペレータは、製品マニュアルの作成等とは異なり、多様な内容を簡潔にまとめてスピーディに入力する必要があるため、ルールに該当しない記載を全て提示するような手法では確認の負担が大きい。また、入力内容に自由度が高いため、ルールやテンプレートなどの作成自体も困難である。
一方、入力されたテキスト文書(群)をスコアリング等により評価して提示する手法では、全体的な品質のレベルは把握できるものの、具体的にどのような文章や記載の評価が低いのか、さらにはどのように記載すべきであったのかといった情報をオペレータ等のユーザが的確に把握することは難しく、ユーザによる入力の品質向上が図れない場合もある。
そこで本発明の目的は、テキスト文書の入力者に対して、入力されたテキスト文書群の品質の評価結果に加えて、改善すべき文章の例および見本とすべき文章の例を具体的な参考情報として提示することが可能な文書品質評価システムおよび文書品質評価プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態による文書品質評価システムおよび文書品質評価プログラムは、ユーザにより入力されたテキスト文書群を取り込み、前記ユーザもしくは前記ユーザが属するグループ毎に、対象となる前記テキスト文書群の品質を構文解析の観点からスコアリングして評価し、評価結果を前記ユーザに提示することで、前記ユーザに対して前記テキスト文書の入力の品質を向上させるための支援を行うものであって、以下の特徴を有するものである。
すなわち、文書品質評価システムおよび文書品質評価プログラムは、取り込んだ前記テキスト文書群内の各文章について形態素解析および構文解析を行い、解析結果に基づいて集計処理を行って、前記解析結果および集計結果をテーブルに格納する構文解析部と、前記テーブルに保持された情報に基づいて、第1のユーザもしくは前記第1のユーザが属するグループ毎に、対象となる前記テキスト文書群についての品質を構文解析の観点から複数の評価項目についてスコアリングして評価し、評価結果を出力して前記第1のユーザに提示する品質評価部とを有する。
さらに、前記第1のユーザについての前記評価結果における評価の最も低い前記評価項目である最低評価項目において低評価となる条件に該当する前記第1のユーザの第1の文章群と、前記最低評価項目において前記第1のユーザよりも評価が高い第2のユーザについての、前記最低評価項目において高評価となる条件に該当する第2の文章群とを抽出し、前記第1の文章群と前記第2の文章群から、それぞれ類似度の高い第1の文章と第2の文章を抽出し、前記第1の文章を改善対象の例文とし、前記第2の文章を見本の例文として出力して前記第1のユーザに提示する例文抽出部とを有することを特徴とするものである。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
本発明の代表的な実施の形態によれば、ユーザが入力したテキスト文書群について、構文解析の観点から複数の評価項目について品質をスコアリングして評価するとともに、スコアの最も低い評価項目について、低評価となる条件に該当する文章群と、高評価となる条件に該当する文章群から類似する文章ペアを抽出して提示することで、改善すべき文章の例および見本とすべき文章の例を提示することが可能となる。
これにより、ユーザに対して簡潔・具体的かつ的確に文章の入力品質を向上させるための支援を行うことが可能となる。さらに、蓄積されるテキスト文書の品質が向上することから、テキストマイニング等による分析を効果的に行うことが可能となる。
本発明の一実施の形態である文書品質評価システムの構成例の概要を示した図である。 本発明の一実施の形態におけるテキスト文書管理テーブルのデータ構成および具体的なデータの例について示した図である。 本発明の一実施の形態における単語管理のデータ構成および具体的なデータの例について示した図である。 本発明の一実施の形態における文章管理のデータ構成および具体的なデータの例について示した図である。 本発明の一実施の形態における改善対象および見本の例文を抽出する処理の例を示したフローチャートである。 本発明の一実施の形態における文章間のコサイン類似度を算出する場合の例を示した図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。
本発明の一実施の形態である文書品質評価システムは、例えば、コールセンターなどでオペレータ等が電話やメール等で顧客から受け付けた質問や相談、苦情等の内容をコールセンターシステム等にコールログ(応対履歴)として入力したテキスト文書群を取り込み、ユーザ(オペレータ等)やグループ毎に、対象となるテキスト文書群の品質を構文解析の観点からスコアリングして評価し、評価結果を提示することで、ユーザに対してテキスト文書の入力品質を向上させるための支援を行う機能を有するコンピュータシステムである。
品質の評価に際しては、構文解析の観点から後述する5つの評価項目により評価を行い、それぞれの評価項目についてスコアリングするとともに統計情報を算出して出力する。また、対象のユーザにおけるスコアの最も低い評価項目において低評価となる条件に該当する文章群と、他のユーザも含めて当該評価項目において高評価となる条件に該当する文章群とを抽出し、これらの文章群から類似度の高い文章ペアを抽出して、改善対象の例文および見本の例文としてそれぞれユーザに提示する。
[システム構成]
図1は、本発明の一実施の形態である文書品質評価システムの構成例の概要を示した図である。文書品質評価システム1は、例えば、サーバやPC(Personal Computer)等によって構成され、ソフトウェアプログラムによって実装された構文解析部10、品質評価部20、例文抽出部30およびインタフェース部40の各部と、データベースやファイルテーブル等からなるテキスト文書管理51、単語管理52および文章管理53の各テーブルを有する。また、ファイルテーブル等からなる冗長要素11を有する。
構文解析部10は、後述するインタフェース部40等を介して取り込まれたテキスト文書内の各文章について、いわゆる形態素解析および構文解析を行い、単語への分解や構文木の生成などの解析処理を行う機能を有する。なお、形態素解析、構文解析の各解析処理については自然言語処理における公知の技術やアルゴリズムを適宜利用することができ、構文解析部10に一般的な形態素解析エンジンや構文解析エンジンを組み込んで用いることも可能である。
解析処理の結果は、テキスト文書管理51、単語管理52、文章管理53の各テーブルに格納される。このとき、解析結果に基づいて、後述する品質評価部20での評価の際に利用するために、各文章における単語の数や、状況描写と判断される表現の数、文章が主語を有するか否かや、冗長要素11のテーブルに予め設定された挨拶等の冗長的な単語を有するか否か等の集計処理を行い、これらの情報も合わせて文章管理53のテーブルに格納する。
品質評価部20は、テキスト文書管理51、単語管理52および文章管理53の各テーブルに保持された情報に基づいて、ユーザ毎やグループ毎に、対象となるテキスト文書群についての品質を構文解析の観点から後述する5つの評価項目についてスコアリングして評価し、評価結果をインタフェース部40を介してユーザに提示する機能を有する。また、評価結果について各種平均や割合、偏差値等の統計情報を算出して提示する機能や、評価結果をデータベース等に格納して保持しておく機能などを有していてもよい。
例文抽出部30は、対象のユーザにおける評価(スコア)の最も低い評価項目において低評価となる条件に該当する文章群(対象のユーザが入力したもの)と、当該評価項目において高評価となる条件に該当する文章群(対象のユーザおよび他のユーザが入力したものを含む)とを抽出し、これらの文章群から類似度の高い文章ペアを抽出して、改善対象の例文および見本の例文として、インタフェース部40を介してユーザに提示する機能を有する。改善対象および見本の例文の抽出結果をデータベース等に格納して保持しておく機能を有していてもよい。
インタフェース部40は、文書品質評価システム1における画面表示等のユーザインタフェースや、テキスト文書群の取り込みなどの入出力機能を有する。画面等の表示については、図示していないが、例えば、文書品質評価システム1自体が備えるディスプレイ等に直接表示してもよいし、Webサーバプログラムを利用してクライアント端末上のWebブラウザを介して画面を表示するようにしてもよい。なお、本実施の形態では、文書品質評価システム1を独立したシステムとして実装する例を示しているが、例えば、ユーザからのテキスト文書の入力を受け付けるコールセンターシステム等の他のシステムの一部として実装してもよい。
[データ構成]
図2は、テキスト文書管理51のデータ構成および具体的なデータの例について示した図である。テキスト文書管理51は、ユーザが入力した文章からなるテキスト文書を管理するテーブルであり、例えば、テキスト文書ID、入力者属性などの各項目を有する。テキスト文書IDの項目は、文書品質評価システム1によって割り振られた、各テキスト文書を一意に識別するIDの情報を保持する。入力者属性の項目は、対象のテキスト文書を入力したユーザ(入力者)の属性の情報を保持し、少なくともユーザを一意に識別することが可能なIDやユーザ名などの情報を保持する。
図3は、単語管理52のデータ構成および具体的なデータの例について示した図である。単語管理52は、ユーザが入力した文章に含まれる各単語を管理するテーブルであり、例えば、テキスト文書ID、文章番号、単語データなどの各項目を有する。テキスト文書IDの項目は、対象の単語が含まれる文章が属するテキスト文書のIDの情報を保持する。このテキスト文書IDは、図2のテキスト文書管理51のテキスト文書IDの項目と対応する。
文章番号の項目は、文書品質評価システム1によって割り振られた、対象の単語が含まれる文章についての対象のテキスト文書内での識別番号を保持する。この文章番号は、後述する図4の文章管理53の文章番号の項目と対応する。単語データの項目は、構文解析部10による対象の文章の解析処理の結果得られた単語のテキストデータを保持する。
図4は、文章管理53のデータ構成および具体的なデータの例について示した図である。文章管理53は、ユーザが入力した各文章を管理するテーブルであり、例えば、テキスト文書ID、文章番号、文章データ、単語数、状況描写数、主語フラグ、冗長要素フラグなどの各項目を有する。テキスト文書IDの項目は、対象の文章が属するテキスト文書のIDの情報を保持する。このテキスト文書IDは、図2のテキスト文書管理51のテキスト文書IDの項目と対応する。
文章番号の項目は、文書品質評価システム1によって割り振られた、対象の文章についての対象のテキスト文書内での識別番号の情報を保持する。1つのテキスト文書には1つ以上の文章が含まれ、各文章の識別番号の値は、例えば、テキスト文書内の先頭の文章から順に1、2、…のように割り振る。文章データの項目は、対象の文章のテキストデータを保持する。
単語数の項目は、対象の文章中に含まれる単語の数の情報を保持する。状況描写数は、対象の文章中において状況描写と判断された表現の数の情報を保持する。主語フラグは、対象の文章が主語を有するか否かを示すフラグ値の情報を保持する。冗長要素フラグは、対象の文章が冗長要素11のテーブルに予め設定された挨拶等の冗長的な単語を有するか否かを示すフラグ値の情報を保持する。これらの各項目の情報は、構文解析部10による対象の文章についての解析処理の結果に基づいて得られる情報である。
なお、上記の各テーブルおよびそれらのデータ構成は図示したものに限らず、上述したデータ項目を管理可能なものであれば他のテーブル構成であったり、他の項目を有していたりしてもよい。
[スコアリング]
構文解析部10によって、取り込まれたテキスト文書群について解析処理が行われ、テキスト文書管理51、単語管理52、文章管理53の各テーブルに解析結果に基づく情報が保持されると、次に品質評価部20では、ユーザ毎やグループ毎に、入力されたテキスト文書群についての品質を構文解析の観点から評価する。本実施の形態では、コールセンターにおけるコールログにおける文章の注目点であり、構文解析の結果から容易に評価可能なものとして、例えば、(1)「文の成立」、(2)「主述関係」、(3)「説明要素」、(4)「状況描写」、(5)「排冗長性」の5つの評価項目についてスコアリングして評価する。これらの評価項目は、評価する対象とするテキスト文書の特性に応じて他の評価項目とすることも可能である。
(1)「文の成立」の評価では、テキスト文書内の文章が単語のみの記述ではなく文として成立しているかという条件でスコアリングする。「文の成立」についてのスコアSは、例えば、全テキスト文書から文として成立する余地のない文章のみからなるテキスト文書を除外したものの全テキスト文書に対する割合として、以下の式により算出する。
Figure 2011170535
ここで、文として成立する余地のない文章のみからなるテキスト文書の数は、例えば、2つ以上の単語からなる文章を有さないテキスト文書(単語が1つしかない文章のみからなるテキスト文書)の数として求める。なお、文章に含まれる単語の数は、文章管理53の単語数の項目により把握することができる。また、対象のテキスト文書が対象のユーザやグループに該当するものであるか否かは、テキスト管理51の入力者属性の項目により判断することができる。
(2)「主述関係」の評価では、テキスト文書内の文章が主語・述語の主述関係を有する文章となっているかという条件でスコアリングする。「主述関係」についてのスコアSは、例えば、全テキスト文書から上述した文として成立する余地のない文章、および主語がない文章のみからなるテキスト文書を除外したものの全テキスト文書に対する割合として、以下の式により算出する。
Figure 2011170535
なお、主語がない文章については、例えば、文章管理53の主語フラグの項目がFALSEである文章として把握することができる。
(3)「説明要素」の評価では、テキスト文書内の文章が主語・述語以外に説明要素を有しているかという条件でスコアリングする。「説明要素」についてのスコアSは、例えば、全テキスト文書から上述した文として成立する余地のない文章と主語がない文章、および主語と述語のみで構成される文章のみからなるテキスト文書を除外したものの全テキスト文書に対する割合として、以下の式により算出する。
Figure 2011170535
なお、主語と述語のみで構成される文章については、主述関係を有する文章のうち、文章管理53の単語数の項目が3未満の文章として把握することができる。
(4)「状況描写」の評価では、テキスト文書内の文章が状況に関する記述を有しているかという条件でスコアリングする。「状況描写」についてのスコアSは、例えば、主語を有し、かつ状況に関する記述を有する文章を含むテキスト文書の全テキスト文書に対する割合として、以下の式により算出する。
Figure 2011170535
なお、状況に関する記述を有する文章については、文章管理53の状況描写数の項目が0より大きい文章として把握することができる。また、これらの文章は、上記(1)〜(3)の評価において除外される文章には該当しないものである。
(5)「排冗長性」の評価では、テキスト文書内の文章が挨拶等の冗長的な単語を有していないかという条件でスコアリングする。「排冗長性」についてのスコアSは、例えば、全テキスト文書から冗長的な単語を有する文章を有するテキスト文書を除外したものの全テキスト文書に対する割合として、以下の式により算出する。
Figure 2011170535
なお、冗長的な単語を有する文章については、文章管理53の冗長要素フラグの項目がTRUEである文章として把握することができる。
上記の数1〜数5に示した式によって、ユーザ毎やグループ毎に、入力されたテキスト文書についての各評価項目でのスコアSを算出し、インタフェース部40を介してユーザに提示する。提示の形式は特に限定されず、評価項目毎にスコアをそのまま提示してもよいし、スコアの範囲により予め定義されたランク(例えば“A”〜“E”など)に変換して提示してもよい。このとき、グループの構成によっては例えば全ユーザがランク“A”に該当してしまい、的確な評価(特に改善点の指摘)が困難となる場合を考慮して、スコアリングの際の重み付け値を設定できるようにしてもよい(例えば“厳しい”評価をする設定の場合はスコアSの値が小さくなるように重み付け値を設定する)。
[例文抽出]
品質評価部20によって、ユーザ毎やグループ毎にテキスト文書群についての各評価項目でのスコア(ランク)を算出した後、例文抽出部30では、対象のユーザに提示するための改善対象の例文および見本の例文(テキスト文書中の重要箇所)を抽出する。図5は、改善対象および見本の例文を抽出する処理の例を示したフローチャートである。
まず、対象のユーザ(入力者1)について、品質評価部20によって評価された各評価項目についての評価結果の情報を取得する(S101)。次に、各評価項目の評価が全て最高のランク“A”(もしくはスコアが所定の数値以上)であるか否かを判定する(S102)。全ての評価項目がランク“A”である場合は、インタフェース部40を介して、例えば“特に改善すべき項目はありません”等の、改善点がない旨のメッセージを出力し(S110)、処理を終了する。
ステップS102で、全ての評価項目がランク“A”ではない場合は、ランク(もしくはスコア)が最低の評価項目を取得する(S103)。次に、ランクが最低の評価項目において低評価となる条件に該当する入力者1の文章を文章群Aとして抽出し、この情報を配列Aに格納する(S104)。具体的には、テキスト管理51によって入力者1が入力したテキスト文書を特定し、文章管理53において対象のテキスト文書に含まれる文章から低評価となる条件に該当する各文章のテキスト文書IDおよび文章番号の項目を抽出し、この値を配列Aに格納する。
ここで、各評価項目において低評価となる条件は、上述した品質評価部20におけるスコアリングの際の条件に対応しており、
「文の成立」:文章管理53の単語数の項目が1以下である
「主述関係」:文章管理53の主語フラグの項目がFALSEである
「説明要素」:文章管理53の単語数の項目が3未満である
「状況描写」:文章管理53の状況描写数の項目が0である
「排冗長性」:文章管理53の冗長要素フラグの項目がTRUEである
の各条件に該当する文章群を抽出することになる。
次に、対象の評価項目(入力者1についてランク(もしくはスコア)が最低の評価項目)において入力者1よりもランク(もしくはスコア)が高いユーザ(入力者2)が存在するか否かを判定する(S105)。評価が高い入力者2が存在する場合は、対象の評価項目において高評価となる条件に該当する入力者2の文章を文章群Bとして抽出し、この情報を配列Bに格納して(S107)、ステップS109に進む。具体的には、テキスト管理51によって入力者2が入力したテキスト文書を特定し、文章管理53において対象のテキスト文書に含まれる文章から高評価となる条件に該当する各文章のテキスト文書IDおよび文章番号の項目を抽出し、この値を配列Bに格納する。
ここで、各評価項目において高評価となる条件は、上述した品質評価部20におけるスコアリングの際の条件に対応しており(上述した低評価となる条件の逆となる)、
「文の成立」:文章管理53の単語数の項目が2以上である
「主述関係」:文章管理53の主語フラグの項目がTRUEである
「説明要素」:文章管理53の単語数の項目が3以上である
「状況描写」:文章管理53の状況描写数の項目が1以上である
「排冗長性」:文章管理53の冗長要素フラグの項目がFALSEである
の各条件に該当する文章群を抽出することになる。
ステップS105において評価が高い入力者2が存在しない場合は、対象の評価項目において高評価となる条件に該当する入力者1の文章があるか否かを判定する(S106)。該当する入力者1の文章がない場合は、配列Aに格納された文章群Aの情報から入力者1に対する改善対象の例文を抽出して、インタフェース部40を介して出力する(S113)。具体的には、例えば、配列Aからテキスト文書IDおよび文章番号の値が最も若い(小さい)データを選択し、これらの値によって特定される文章データを文章管理53から取得して改善対象の例文とする。さらに、インタフェース部40を介して、例えば“見本となる文章はありません”等の、見本となる例文がない旨のメッセージを出力し(S114)、処理を終了する。
ステップS106において高評価となる条件に該当する入力者1の文章がある場合は、対象の評価項目において高評価となる条件に該当する入力者1の文章を文章群Bとして抽出し、この情報を配列Bに格納する(S108)。文章群Bの抽出の具体的な処理は、上述したステップS107と同様であるため説明は省略する。
次に、文章群Aと文章群B(ステップS107もしくはS108で抽出されたもの)との中で類似度が最も高い文章ペア(文章群Aから抽出された文章aおよび文章群Bから抽出された文章b)を抽出する(S109)。文章群Aもしくは文章群Bの中で類似度が最も高い文章が複数存在する場合は、例えば、これらの中で配列Aもしくは配列Bにおけるテキスト文書IDおよび文章番号の値が最も若い(小さい)データを選択し、これらの値によって特定される文章を文章aもしくは文章bとする。
各文章間での類似度の算出には種々の手法を用いることができる。例えば、単語管理52に基づいて求められる各文章に含まれる単語の出現頻度から文章毎の頻度ベクトルを算出し、頻度ベクトル間のなす角からいわゆるコサイン類似度を算出して類似度とすることができる。
図6は、文章間のコサイン類似度を算出する場合の例を示した図である。図6において、文章d1は、t1、t2、t3、t5の各単語を含んでおり、文章d2は、t1、t2、t4、t5の各単語を含んでいることを示している。ここで、文章d1、d2の頻度ベクトルU1、U2は、それぞれ単語t1〜t5の文章d1、d2における出現頻度を要素として図示するように求められる。ここで、文章d1とd2とのコサイン類似度cos(d1,d2)は、図示するように、頻度ベクトルU1、U2の内積を各頻度ベクトルの大きさで除算することで得ることができる。
その後、抽出された文章ペアのうち、文章a(入力者1が入力した文章)を入力者1に対する改善対象の例文としてインタフェース部40を介して出力し(S111)、さらに文章b(入力者2もしくは入力者1が入力した文章)を見本となる例文としてインタフェース部40を介して出力して(S112)、処理を終了する。文章ペアの文章aと文章bとは内容の類似度が高いため、改善対象の例文と見本となる例文とは、内容が類似したものになる。従って、ユーザは、改善対象の例文について、見本となる例文を参照することでどのように記載すればよかったのかを的確に把握することが可能となる。
インタフェース部40を介して改善対象および見本となる例文をユーザに提示する際は、例えば、ランクが最低となった評価項目をメッセージ等と合わせて指摘し、当該評価項目についての改善対象の例文および見本となる例文を並べて出力する。見本となる例文については、当該例文を入力したユーザ(入力者2もしくは入力者1)の氏名等の属性や、当該評価項目についてのランク(スコア)の情報を合わせて出力するようにしてもよい。
以上に説明したように、本発明の一実施の形態である文書品質評価システム1によれば、ユーザが入力したテキスト文書群について、構文解析の観点から複数の評価項目について品質をスコアリングして評価するとともに、スコアの最も低い評価項目について、低評価となる条件に該当する文章群と、高評価となる条件に該当する文章群から類似度の高い文章ペアを抽出して提示することで、改善対象の例文および見本の例文を提示することが可能となる。
これにより、ユーザに対して簡潔・具体的かつ的確に文章の入力品質を向上させるための情報を提示して支援を行うことが可能となる。さらに、蓄積されるテキスト文書の品質が向上することから、テキストマイニング等による分析を効果的に行うことが可能となる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
本発明は、テキスト文書について構文解析の観点での品質を評価する文書品質評価システムおよび文書品質評価プログラムに利用可能である。
1…文書品質評価システム、
10…構文解析部、11…冗長要素、20…品質評価部、30…例文抽出部、40…インタフェース部、
51…テキスト文書管理、52…単語管理、53…文章管理。

Claims (10)

  1. ユーザにより入力されたテキスト文書群を取り込み、前記ユーザもしくは前記ユーザが属するグループ毎に、対象となる前記テキスト文書群の品質を構文解析の観点からスコアリングして評価し、評価結果を前記ユーザに提示することで、前記ユーザに対して前記テキスト文書の入力の品質を向上させるための支援を行う文書品質評価システムであって、
    取り込んだ前記テキスト文書群内の各文章について形態素解析および構文解析を行い、解析結果に基づいて集計処理を行って、前記解析結果および集計結果をテーブルに格納する構文解析部と、
    前記テーブルに保持された情報に基づいて、第1のユーザもしくは前記第1のユーザが属するグループ毎に、対象となる前記テキスト文書群についての品質を構文解析の観点から複数の評価項目についてスコアリングして評価し、評価結果を出力して前記第1のユーザに提示する品質評価部と、
    前記第1のユーザについての前記評価結果における評価の最も低い前記評価項目である最低評価項目において低評価となる条件に該当する前記第1のユーザの第1の文章群と、前記最低評価項目において前記第1のユーザよりも評価が高い第2のユーザについての、前記最低評価項目において高評価となる条件に該当する第2の文章群とを抽出し、前記第1の文章群と前記第2の文章群から、それぞれ類似度の高い第1の文章と第2の文章を抽出し、前記第1の文章を改善対象の例文とし、前記第2の文章を見本の例文として出力して前記第1のユーザに提示する例文抽出部とを有することを特徴とする文書品質評価システム。
  2. 請求項1に記載の文書品質評価システムにおいて、
    前記例文抽出部は、前記最低評価項目において前記第1のユーザよりも評価が高い前記第2のユーザが存在しない場合、前記最低評価項目において高評価となる条件に該当する前記第1のユーザの文章群を抽出して前記第2の文章群とすることを特徴とする文書品質評価システム。
  3. 請求項2に記載の文書品質評価システムにおいて、
    前記例文抽出部は、前記最低評価項目において高評価となる条件に該当する前記第1のユーザの文章が存在しない場合、前記第1の文章群から選択した文章を前記第1の文章とし、前記第1の文章を前記改善対象の例文とするとともに該当する前記見本の例文がない旨を出力して前記第1のユーザに提示することを特徴とする文書品質評価システム。
  4. 請求項1〜3のいずれか1項に記載の文書品質評価システムにおいて、
    前記例文抽出部は、前記第1のユーザについての前記各評価項目の前記評価結果が全て所定以上の評価である場合に、改善点がない旨を出力して前記第1のユーザに提示することを特徴とする文書品質評価システム。
  5. 請求項1〜4のいずれか1項に記載の文書品質評価システムにおいて、
    前記例文抽出部は、前記類似度として、対象の各文章に含まれる各単語の出現頻度を要素とする頻度ベクトルに基づくコサイン類似度を用いることを特徴とする文書品質評価システム。
  6. ユーザにより入力されたテキスト文書群を取り込み、前記ユーザもしくは前記ユーザが属するグループ毎に、対象となる前記テキスト文書群の品質を構文解析の観点からスコアリングして評価し、評価結果を前記ユーザに提示することで、前記ユーザに対して前記テキスト文書の入力の品質を向上させるための支援を行うシステムとしてコンピュータを機能させる文書品質評価プログラムであって、
    取り込んだ前記テキスト文書群内の各文章について形態素解析および構文解析を行い、解析結果に基づいて集計処理を行って、前記解析結果および集計結果をテーブルに格納する構文解析部と、
    前記テーブルに保持された情報に基づいて、第1のユーザもしくは前記第1のユーザが属するグループ毎に、対象となる前記テキスト文書群についての品質を構文解析の観点から複数の評価項目についてスコアリングして評価し、評価結果を出力して前記第1のユーザに提示する品質評価部と、
    前記第1のユーザについての前記評価結果における評価の最も低い前記評価項目である最低評価項目において低評価となる条件に該当する前記第1のユーザの第1の文章群と、前記最低評価項目において前記第1のユーザよりも評価が高い第2のユーザについての、前記最低評価項目において高評価となる条件に該当する第2の文章群とを抽出し、前記第1の文章群と前記第2の文章群から、それぞれ類似度の高い第1の文章と第2の文章を抽出し、前記第1の文章を改善対象の例文とし、前記第2の文章を見本の例文として出力して前記第1のユーザに提示する例文抽出部とを有することを特徴とする文書品質評価プログラム。
  7. 請求項6に記載の文書品質評価プログラムにおいて、
    前記例文抽出部は、前記最低評価項目において前記第1のユーザよりも評価が高い前記第2のユーザが存在しない場合、前記最低評価項目において高評価となる条件に該当する前記第1のユーザの文章群を抽出して前記第2の文章群とすることを特徴とする文書品質評価プログラム。
  8. 請求項7に記載の文書品質評価プログラムにおいて、
    前記例文抽出部は、前記最低評価項目において高評価となる条件に該当する前記第1のユーザの文章が存在しない場合、前記第1の文章群から選択した文章を前記第1の文章とし、前記第1の文章を前記改善対象の例文とするとともに該当する前記見本の例文がない旨を出力して前記第1のユーザに提示することを特徴とする文書品質評価プログラム。
  9. 請求項6〜8のいずれか1項に記載の文書品質評価プログラムにおいて、
    前記例文抽出部は、前記第1のユーザについての前記各評価項目の前記評価結果が全て所定以上の評価である場合に、改善点がない旨を出力して前記第1のユーザに提示することを特徴とする文書品質評価プログラム。
  10. 請求項6〜9のいずれか1項に記載の文書品質評価プログラムにおいて、
    前記例文抽出部は、前記類似度として、対象の各文章に含まれる各単語の出現頻度を要素とする頻度ベクトルに基づくコサイン類似度を用いることを特徴とする文書品質評価プログラム。
JP2010032634A 2010-02-17 2010-02-17 文書品質評価システムおよび文書品質評価プログラム Active JP5265597B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010032634A JP5265597B2 (ja) 2010-02-17 2010-02-17 文書品質評価システムおよび文書品質評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010032634A JP5265597B2 (ja) 2010-02-17 2010-02-17 文書品質評価システムおよび文書品質評価プログラム

Publications (2)

Publication Number Publication Date
JP2011170535A true JP2011170535A (ja) 2011-09-01
JP5265597B2 JP5265597B2 (ja) 2013-08-14

Family

ID=44684614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010032634A Active JP5265597B2 (ja) 2010-02-17 2010-02-17 文書品質評価システムおよび文書品質評価プログラム

Country Status (1)

Country Link
JP (1) JP5265597B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205950A (ja) * 2012-03-27 2013-10-07 Document House Co Ltd 製品マニュアル評価システム、その評価方法および品質評価サーバ
KR101663681B1 (ko) * 2015-06-11 2016-10-14 주식회사 인포리언스 데이터 활용성 및 품질 평가장치, 기록매체 및 컴퓨터 프로그램
CN110612524A (zh) * 2017-06-16 2019-12-24 日铁系统集成株式会社 信息处理装置、信息处理方法以及程序
JP2022057493A (ja) * 2020-09-30 2022-04-11 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554028A (ja) * 1991-08-28 1993-03-05 Nec Corp 文章検査装置
JPH0554027A (ja) * 1991-08-28 1993-03-05 Matsushita Electric Ind Co Ltd 文章の推敲方法およびその装置
JPH09231222A (ja) * 1996-02-28 1997-09-05 Toshiba Corp 日本語処理装置及び日本語処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0554028A (ja) * 1991-08-28 1993-03-05 Nec Corp 文章検査装置
JPH0554027A (ja) * 1991-08-28 1993-03-05 Matsushita Electric Ind Co Ltd 文章の推敲方法およびその装置
JPH09231222A (ja) * 1996-02-28 1997-09-05 Toshiba Corp 日本語処理装置及び日本語処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013205950A (ja) * 2012-03-27 2013-10-07 Document House Co Ltd 製品マニュアル評価システム、その評価方法および品質評価サーバ
KR101663681B1 (ko) * 2015-06-11 2016-10-14 주식회사 인포리언스 데이터 활용성 및 품질 평가장치, 기록매체 및 컴퓨터 프로그램
CN110612524A (zh) * 2017-06-16 2019-12-24 日铁系统集成株式会社 信息处理装置、信息处理方法以及程序
US11386354B2 (en) 2017-06-16 2022-07-12 Ns Solutions Corporation Information processing apparatus, information processing method, and program
CN110612524B (zh) * 2017-06-16 2023-11-10 日铁系统集成株式会社 信息处理装置、信息处理方法以及记录介质
JP2022057493A (ja) * 2020-09-30 2022-04-11 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法、及びプログラム
JP7453116B2 (ja) 2020-09-30 2024-03-19 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP5265597B2 (ja) 2013-08-14

Similar Documents

Publication Publication Date Title
US8935197B2 (en) Systems and methods for facilitating open source intelligence gathering
JP6007088B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
US9535911B2 (en) Processing a content item with regard to an event
US9218568B2 (en) Disambiguating data using contextual and historical information
US9201928B2 (en) Assessing quality of reviews based on online reviewer generated content
US9075870B2 (en) System, method and apparatus for detecting related topics and competition topics based on topic templates and association words
US20100079464A1 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
JP5711674B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
KR20140045452A (ko) 대화 스레드의 요약 기법
US20180246880A1 (en) System for generating synthetic sentiment using multiple points of reference within a hierarchical head noun structure
JP2012073966A (ja) データ生成装置、データの生成方法及びデータ生成プログラム
JP6392042B2 (ja) 情報提供装置、情報を提供する方法およびプログラム
CN105096023A (zh) 工作标准相关数据的推送系统和方法
JP5265597B2 (ja) 文書品質評価システムおよび文書品質評価プログラム
JP6289989B2 (ja) 商品に対するユーザの感情分析装置及びプログラム
JP2004021445A (ja) テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム
JP5353523B2 (ja) グラフ解析装置、グラフ解析方法及びグラフ解析プログラム
JP2016153998A (ja) サービスの評価装置及びサービスの評価方法
US20220327445A1 (en) Workshop assistance system and workshop assistance method
KR20140026796A (ko) 맞춤형 특허분석 서비스 시스템 및 그 방법
JP2016162357A (ja) 商品に対するユーザの感情分析装置及びプログラム
JP5368900B2 (ja) 情報提示装置、情報提示方法およびプログラム
Yin et al. Research of integrated algorithm establishment of a spam detection system
JP2004227037A (ja) フィールドマッチング装置とそのプログラム、コンピュータ読み取り可能な記録媒体、及び同一フィールド判定方法
JP2012038064A (ja) 会議キーワード抽出装置、会議キーワード抽出方法、及び会議キーワード抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130501

R150 Certificate of patent or registration of utility model

Ref document number: 5265597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250