JP2022057493A

JP2022057493A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2022057493A
Application number: JP2020165778A
Authority: JP
Inventors: 勲園部; Isao Sonobe; 一宏山田; Kazuhiro Yamada; 弘明鷹栖; Hiroaki Takasu; 正隆藤原; Masataka Fujiwara
Original assignee: NS Solutions Corp
Current assignee: NS Solutions Corp
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-11
Anticipated expiration: 2040-09-30
Also published as: CN114330356A; JP7453116B2

Abstract

【課題】人工知能による文書の自動レビューにおいて、評価結果に係る情報をユーザに対して提示できるようにする。【解決手段】文書の品質評価を行う情報処理装置は、文書中の各文について特徴量を取得し、取得された特徴量に基づいて、文の影響予測用の学習データに基づいて作成された影響予測モデルを用いて、評価観点毎の文の影響を予測し、各文の影響予測結果に基づいて、文書品質評価の学習データに基づいて作成された品質評価モデルを用いて、文書の品質評価を行い、文書の品質評価結果の根拠を示す根拠情報を含む評価結果に係る情報を出力する。【選択図】図３

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）の研究開発が活発に行われ、急速に実用化が進んできている。ＡＩは、コンピュータにより、人が実現する学習、推論、判断等の様々な知覚や知性を人工的に再現するものと言える。

ＡＩのなかで、知的労働者の作業や意思決定の姿を手本にしてロボット化するＲＰＡ（ＲｏｂｏｔｉｃＰｒｏｃｅｓｓＡｕｔｏｍａｔｉｏｎ、ＤｉｇｉｔａｌＬａｂｏｒ）は、業務の自動化、効率化を図るものである。人間が意思決定する場面では、物事を認識するときの切り口や判断における基準やこだわり等、各人の個性（観点、好み、指向性等）が現れるが、この個性という情報は暗黙的であり、正確に表現することは難しい。文書の評価を行う際に評価基準を設定するような場合にも、評価基準の設定において個性が現れてくる。

例えば、文書の品質を評価する技術に関して、特許文献１には、文書の品質を評価するとともに見本となる文章を提示する技術が提案されている。特許文献１は、入力者に対してテキスト文書群の品質の評価結果に加えて、改善すべき文章及び見本とすべき文章の例を提示する文書品質評価システムであって、テキスト文書群内の各文章について構文解析を行い、テキスト文書群についての品質を複数の評価項目についてスコアリングし、評価結果を第１のユーザに提示し、第１のユーザについての最低評価項目において低評価となる条件に該当する第１の文章群と、最低評価項目において第１のユーザよりも評価が高い第２のユーザについての高評価となる条件に該当する第２の文章群とを抽出し、第１と第２の文章群からそれぞれ類似度の高い第１と第２の文章を抽出し、第１の文章を改善対象の例文、第２の文章を見本の例文として提示するものである。

特開２０１１－１７０５３５号公報

しかし、特許文献１は、高評価が得られる文章を見本の例文としてユーザに提示するものであるが、どのような評価に基づいて例文とすべき文章例を抽出したのか（なぜ高評価となっているか）、ユーザに対して根拠が明らかにされていない。本発明は、このような問題に鑑みてなされたものであり、人工知能による文書の自動レビューにおいて、評価結果に係る情報をユーザに対して提示できるようにすることを目的とする。

本発明に係る情報処理装置は、文書の品質評価を行う情報処理装置であって、文書中の各文について特徴量を取得する取得手段と、前記取得手段により取得された特徴量に基づいて、文の影響予測用の学習データに基づいて作成された影響予測モデルを用いて、評価観点毎の文の影響を予測する予測手段と、前記予測手段による各文の影響予測結果に基づいて、文書品質評価の学習データに基づいて作成された品質評価モデルを用いて、前記文書の品質評価を行う評価手段と、文書の品質評価結果の根拠を示す根拠情報を含む評価結果に係る情報を出力する出力手段とを有することを特徴とする。

本発明によれば、人工知能により自動で文書のレビューを行い、評価結果に係る情報をユーザに対して提示することが可能となる。

本実施形態における情報処理装置のハードウェア構成の例を示す図である。本実施形態における情報処理装置の機能構成の例を示す図である。本実施形態における情報処理装置の処理例を説明する図である。本実施形態における特徴量計算処理の例を示すフローチャートである。本実施形態における文ベクトル計算を説明する図である。本実施形態における影響予測モデルの作成を説明する図である。本実施形態における学習データの例を示す図である。本実施形態における品質評価モデルの作成を説明する図である。本実施形態におけるレビュー根拠情報の出力を説明する図である。本実施形態におけるレビュー根拠情報の表示例を示す図である。本実施形態におけるレビュー根拠情報の表示例を示す図である。本実施形態におけるレビュー根拠情報の表示例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。

図１は、本発明の一実施形態における情報処理装置１００のハードウェア構成の一例を示す図である。情報処理装置１００は、例えばパーソナルコンピュータ（ＰＣ）、サーバ装置、タブレット装置、スマートフォン等の情報処理装置である。情報処理装置１００は、ＣＰＵ１０１、主記憶装置１０２、補助記憶装置１０３、ネットワークＩ／Ｆ１０４、及び入出力Ｉ／Ｆ１０５を有する。ＣＰＵ１０１、主記憶装置１０２、補助記憶装置１０３、ネットワークＩ／Ｆ１０４、及び入出力Ｉ／Ｆ１０５は、システムバス１０６を介して、互いに通信可能に接続されている。

ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１は、情報処理装置１００を制御する中央演算装置である。主記憶装置１０２は、ＣＰＵ１０１のワークエリアやデータの一時的な記憶場所として機能する記憶装置である。主記憶装置１０２は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等を用いて実装される。補助記憶装置１０３は、各種設定情報、各種プログラム、学習データ、各種辞書データ、各種モデル情報等を記憶する記憶装置である。補助記憶装置１０３は、例えばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、フラッシュメモリ等を用いて実装される。

ネットワークＩ／Ｆ１０４は、例えばインターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等のネットワークを介した外部の装置等との通信に利用されるインターフェースである。入出力Ｉ／Ｆ１０５は、マウス、キーボード、タッチパネルの操作部等の入力装置からの情報の入力に利用されるインターフェースである。また、入出力Ｉ／Ｆ１０５は、ディスプレイ、タッチパネルの表示部、スピーカ等の出力装置への情報の出力に利用されるインターフェースである。

ＣＰＵ１０１が、補助記憶装置１０３に記憶されたプログラムに基づいて処理を実行することで、図２に示す情報処理装置１００の各機能、及び後述する各処理等が実現される。

図２は、本実施形態における情報処理装置１００の機能構成の一例を示す図である。情報処理装置１００は、解析部２０１、学習部２０２、取得部２０３、予測部２０４、評価部２０５、及び出力部２０６を有する。

解析部２０１は、文書データに対して、形態素解析、係り受け解析、単語のカテゴリ分類、文書データ内の文節への特徴量の付与（例えば、各文節への意味役割の付与等）等の解析を行う。

学習部２０２は、学習データを用いた機械学習を行い、学習済みモデルを作成する。例えば、学習部２０２は、文の影響予測用の学習データに基づいて、文の影響度を予測する機械学習を行い、文の影響予測に利用される影響予測モデルを学習する。また、例えば、学習部２０２は、文書品質評価の学習データに基づいて、文書の品質を予測する機械学習を行い、文書の品質評価に利用される品質評価モデルを学習する。

取得部２０３は、解析部２０１による解析結果に基づいて、文書データにおける文単位で影響予測用の特徴量を取得する。取得部２０３は、解析部２０１による解析結果に基づいて、単語の分散表現の取得や文ベクトルの計算等の各種処理を実行し、各文の影響予測用の特徴量を計算する。

予測部２０４は、学習部２０２により作成される影響予測モデルを用いて、文書データの各文について品質評価に対する影響の有無を予測する。予測部２０４は、取得部２０３により文単位に取得された影響予測用の特徴量に基づいて、影響予測モデルを用いて品質評価への評価観点毎の影響度を文毎に予測する。

評価部２０５は、学習部２０２により作成される品質評価モデルを用いて、文書データの品質評価を行う。評価部２０５は、予測部２０４での予測によって得られた品質評価に対する影響の有無（評価観点毎の影響度）に基づいて、品質評価モデルを用いて文書データ全体の品質評価を行う。

出力部２０６は、評価部２０５による文書データの品質評価結果（レビュー結果）を出力する。また、出力部２０６は、ユーザからの要求等に応じて、その品質評価結果となった根拠を示す根拠情報を出力する。また、出力部２０６は、出力する各種情報を表示する機能を有していてもよい。

次に、本実施形態における情報処理装置での処理例について説明する。以下では、説明の便宜上、適宜、文書データの品質評価における評価観点を「場所・時間」、「判断・予測」、及び「対象・事象」の３つとした例を示して説明する。しかし、これは一例であって、本発明はこれに限定されるものではなく、文書データの品質評価における評価観点は、レビュー対象の文書データ等に応じて任意の評価観点を設定することができ、また設定する評価観点の数も任意である。

図３は、本実施形態における情報処理装置での処理例を説明する図である。図３において、自動レビューシステム３００は、各種モデルを使用して、レビュー対象の文書データ３０１を自動でレビューし文書データ３０１の品質評価を行う。文書データのレビューに利用される各種モデルは、学習データを用いた機械学習等によってレビューモデル構築システム３１０で作成され自動レビューシステム３００に提供される。レビュー対象の文書データ３０１は、例えば課題管理システムにおけるチケットデータ（文書データ）である。自動レビューシステム３００は、課題管理システムがレビュー対象の文書データ３０１の登録を受け付けると、文書データ３０１を取得してレビューを開始する。

自動レビューシステム３００は、例えば図２に示した解析部２０１、取得部２０３、予測部２０４、評価部２０５、及び出力部２０６によって実現される。また、レビューモデル構築システム３１０は、例えば図２に示した解析部２０１、学習部２０２、及び取得部２０３によって実現される。なお、自動レビューシステム３００及びレビューモデル構築システム３１０は、１つの情報処理装置によって構成されるようにしてもよいし、別個の情報処理装置によって構成されるようにしてもよい。また、自動レビューシステム３００の各機能が複数の情報処理装置によって構成されるようにしてもよいし、レビューモデル構築システム３１０の各機能が複数の情報処理装置によって構成されるようにしてもよい。

自動レビューシステム３００において、ステップＳ３１１にて、解析部２０１及び取得部２０３は、辞書や機械学習モデル３０３を用いて、レビュー対象の文書データ３０１における各文について影響予測用の特徴量を計算する。解析部２０１及び取得部２０３は、単語辞書や分析モデルやカテゴリ分類モデルなどを用いて、レビュー対象の文書データ３０１に対する解析及び各種処理を実行し、文書データ３０１における各文について影響予測用の特徴量を計算する。

次に、ステップＳ３１２にて、予測部２０４は、ステップＳ３１１において得られた各文の影響予測用の特徴量に基づいて、影響予測モデル３０５を用いて品質評価における各文の評価観点毎の影響度を予測する。影響度は、レビューにおいて評価観点に関わる内容であると評価される確率である。例えば、評価観点が「場所・時間」、「判断・予測」、及び「対象・事象」である場合、予測部２０４は、影響予測モデル３０５を用いて、各文について、場所・時間に関わる内容である確率、判断・予測に関わる内容である確率、及び対象・事象に関わる内容である確率をそれぞれ予測する。この予測結果は、各文に含まれる情報の種類を意味しており、品質評価において理解しやすい根拠になる。予測部２０４による影響予測の結果は、レビュー結果データベース（ＤＢ）３０２に蓄積されるとともに、評価部２０５に供給される。

次に、ステップＳ３１３にて、評価部２０５は、ステップＳ３１２において得られた各文の影響予測結果（評価観点毎の影響度）に基づいて、品質評価モデル３０６を用いてレビュー対象の文書データ３０１全体の品質評価を行う。この文書データ３０１全体の品質評価も評価観点毎に行われる。例えば、ある評価観点について、各文の影響予測結果を入力とした品質評価モデル３０６の出力（文書データ３０１全体で、その評価観点について“〇”である確率）が所定の閾値（例えば、０．５）以上である場合、評価部２０５は、その評価観点の評価結果として“〇”（高評価）を出力し、そうでなければ、その評価観点の評価結果として“×”（低評価）を出力する。評価部２０５による品質評価の結果は、レビュー結果データベース（ＤＢ）３０２に蓄積される。

次に、ステップＳ３１４にて、評価部２０５は、ステップＳ３１３において得られたレビュー対象の文書データ３０１全体の品質評価結果に基づいて、レビュー指摘の文面を生成する。評価部２０５は、文書データ３０１全体の品質評価結果に基づいて、例えば、各評価観点について明確に記述されているか否かの情報や、記述が不足していたり、記述そのものがなかったりする評価観点について記述を改善するアドバイス情報を含むレビュー指摘の文面を生成する。文書データ３０１全体の品質評価結果及び作成されたレビュー指摘の文面は、出力部２０６を介してレビュー結果３０７として出力される。

また、ユーザからの要求等に応じて、ステップＳ３１５にて、出力部２０６は、文書データ３０１に係るレビューの根拠情報３０８を出力するためのレビューの根拠表示処理を行う。出力部２０６は、レビュー結果データベース（ＤＢ）３０２に蓄積された、文書データ３０１の品質評価結果やその品質評価結果となった根拠を示す根拠情報（例えば、ステップＳ３１２において得られる影響予測モデル３０５の出力）をレビューの根拠情報３０８として出力する。

図４は、図３のステップＳ３１１において実行される影響予測用の特徴量計算処理の例を示すフローチャートである。
ステップＳ４０１にて、解析部２０１は、レビュー対象の文書データを取得する。
次に、ステップＳ４０２にて、解析部２０１は、ステップＳ４０１において取得した文書データを文単位に分割する。解析部２０１は、例えば句点や終止符を検出することにより、文書データを文単位に分割する。

以下のステップＳ４０３以降の処理は、ステップＳ４０２において分割された各文についてそれぞれ実行する。
ステップＳ４０３にて、解析部２０１は、ステップＳ４０２において分割された文に基づいて、着目する文（１つの文）とその文脈文に分ける処理を行う。ここで、文脈文とは、着目する文の周囲（前後）にある文（例えば、着目する文と同じパラグラフ中にある、着目する文を除いた全文）である。なお、処理負荷を増大させないよう着目する文に対して前後の一定数の文を文脈文とするようにしてもよい。

ステップＳ４０４にて、着目する文について、解析部２０１が解析処理を行い、その解析結果に基づいて、取得部２０３が着目する文について文ベクトルを計算する。また、ステップＳ４０５にて、文脈文について、解析部２０１が解析処理を行い、その解析結果に基づいて、取得部２０３が文脈文について文ベクトルを計算する。

図５は、図４に示すステップＳ４０４、Ｓ４０５の文ベクトル計算を説明する図である。各文について図５に示す処理を実行することで、各文の文ベクトルを計算する。
ステップＳ５０１にて、解析部２０１は、対象の文について形態素解析及び係り受け解析の処理を行う。形態素解析とは、文を形態素（言語における意味を持つ最小単位）に分解して、各形態素の品詞等を判別する処理である。係り受け解析とは、どの文節がどの文節に係っているかを判別する処理である。解析部２０１は、例えば、単語辞書や解析モデルを用いて、形態素解析及び係り受け解析を行う。

ステップＳ５０２にて、取得部２０３は、ステップＳ５０１の処理結果として得られた単語列に基づいて、単語の分散表現を取得する。分散表現とは、単語を複数次元（例えば、数百次元）の実数ベクトルで表現する技術である。文内の単語の意味は、周辺の単語（文脈語）から定まるとする分布仮説というものがある。分布仮説を前提とすると、単語を、各要素が各文脈語の出現確率を示すベクトルとして表現できる。文脈語となる単語は、膨大（１兆個以上）であるため、このベクトルのサイズも膨大（１兆以上の次元）となってしまう。しかし、このベクトルは、要素のほとんどが０であるため、圧縮が可能（例えば、数百次元のサイズに圧縮）である。分散表現では、分布仮説を前提として、単語がこのように圧縮されたベクトルとして表現される。また、分散表現で表された単語同士は、単語同士の意味が近い程、近いベクトルとなる。すなわち、単語の分散表現が示すベクトルは、意味が近いものほど近いベクトルとなる。取得部２０３は、例えばｗｏｒｄ２ｖｅｃ、ｆａｓｔＴｅｘｔ、ＧｌｏＶｅ等により獲得した意味空間（ベクトル空間）に基づいて、各単語の分散表現（単語ベクトル）を取得する。

ステップＳ５０３にて、取得部２０３は、ステップＳ５０２において取得された複数の単語ベクトルに基づいて、単語ベクトルを集約したベクトルを生成する。取得部２０３は、取得された複数の単語ベクトルに基づいて、単語ベクトルの次元毎の平均値、最大値、最小値をそれぞれ計算し、それらを要素とするベクトルを生成する。この場合、生成されるベクトルは、単語ベクトルが数百次元であれば、（数百×３）次元のベクトルとなる。

ステップＳ５０４にて、解析部２０１は、ステップＳ５０１の処理により得られた係り受け解析結果に基づいて、単語のカテゴリ分類の処理を行う。単語のカテゴリ分類とは、単語とカテゴリとの対応情報を記憶する辞書等を参照して、文中の単語のカテゴリを判別する処理である。解析部２０１は、例えばカテゴリ分類辞書やカテゴリ分類モデルなどを用いて、単語のカテゴリを判別する。

ステップＳ５０５にて、解析部２０１は、各文節への意味役割の付与を行う。各文節への意味役割の付与とは、文の構造を解析し、文中の述語に係る各文節に対して、その述語の意味を解釈する上での文節の役割（例えば、「動作主」や「対象物」等）を付与する処理である。解析部２０１は、例えば、意味役割付与ツールを用いて、文節に意味役割を付与する。

ステップＳ５０６にて、取得部２０３は、ステップＳ５０５において文節に付与された意味役割に基づいて、付与された意味役割に対応する１つの次元の要素だけを“１”とし他の要素を“０”とするワンホットベクトルを文節毎に生成する。例えば、ステップＳ５０５において文節に付与された意味役割のＩＤの列が出力される場合、取得部２０３は、出力されたＩＤのそれぞれを、ＩＤに対応する１つの次元の要素だけが“１”で他の要素が“０”であるワンホットベクトルに変換する。

ステップＳ５０７にて、取得部２０３は、ステップ５０６において生成された複数のワンホットベクトルに基づいて、それらを集約したベクトルを生成する。取得部２０３は、生成された複数のワンホットベクトルに基づいて、次元毎に和を求め、それを各次元の要素値とするベクトルを生成する。つまり、取得部２０３は、文中における各意味役割の出現頻度を示すベクトルを生成する。

ステップＳ５０８にて、取得部２０３は、ステップＳ５０３において生成したベクトルとステップＳ５０７において生成したベクトルとを連結する。
ステップＳ５０９にて、取得部２０３は、ステップＳ５０８において連結して得られたベクトルを対象の文の文ベクトルとして出力する。

なお、文ベクトルは、前述した例に限定されるものではない。例えば、取得部２０３は、ステップＳ５０２において取得された複数の単語ベクトルと、ステップ５０６において生成された複数のワンホットベクトルとを入力にして機械学習したニューラル言語モデル（リカレントニューラルネットワーク）の隠れ層の平均値、最大値、最小値をそれぞれ計算して得られるベクトルを文ベクトルとするようにしてもよい。

図４に戻り、ステップＳ４０４及びＳ４０５において、着目する文及び文脈文の各々について文ベクトルを計算した後、ステップＳ４０６にて、取得部２０３は、着目する文についての文ベクトルと文脈文についての文ベクトルとを統合する。例えば、取得部２０３は、着目する文についての文ベクトルと文脈文についての複数の文ベクトルとをすべて連結することにより文ベクトルの統合を行う。また、例えば、取得部２０３は、文脈文についての複数の文ベクトルの次元毎の平均値、最大値、最小値をそれぞれ計算したベクトルと、着目する文についての文ベクトルとを連結することにより文ベクトルの統合を行うようにしてもよい。

ステップＳ４０７にて、取得部２０３は、ステップＳ４０６において文ベクトルを統合して得られたベクトルを文の影響予測用の特徴量（特徴ベクトル）として出力する。
ステップＳ４０８にて、解析部２０１は、着目する文として影響予測用の特徴量が未計算の文があるか否かを判断し、未計算の文がある場合にはステップＳ４０３に戻り、未計算の文がない場合には影響予測用の特徴量計算処理を終了する。

図６を参照して、本実施形態における影響予測モデルの作成について説明する。影響予測モデルは、レビューモデル構築システム３１０において学習部２０２が、文の影響予測用の学習データ６０１を用いて、文中のどのような表現がどの評価観点に関係するかというパターンを機械学習することによって作成される。

文の影響予測用の学習データ６０１は、文６０２及び正解（文の影響度）に関する情報６０３を含んでいる。文の影響予測用の学習データ６０１は、図７（Ａ）に示す文書ＩＤ７１０、文７０２、及び各評価観点についての正解（文の影響度）に関する情報７０３、７０４、７０５を有する。文書ＩＤ７０１は、文書（文章）単位に付与される識別子（ＩＤ）であり、同一文書に属する文に対しては同じＩＤが付与される。文７０２は、文書に含まれる文の内容であり、文単位に分解されて登録される。正解（文の影響度）に関する情報７０３、７０４、７０５は、文７０２に評価観点に関する情報が含まれているか否かを示す情報である。正解（文の影響度）に関する情報７０３、７０４、７０５は、文７０２の内容に基づいて、評価観点に関する情報が含まれているか否かを人間が判定してラベル付けする。図７（Ａ）に示す例では、各文について、「場所・時間」、「判断・予測」、及び「対象・事象」のそれぞれの評価観点での正解（文の影響度）に関する情報がラベル付けされている。

例えば、「ＬＡＢＯ環境を一元管理するための端末として、Ｔｅｒｍｉｎａｌ０１があるが、次のような理由から３人以上が同時に管理作業できない問題があった。」という文については、「場所・時間」に関連する情報及び「対象・事象」に関連する情報が含まれているとラベル付けされている。また、「・リモートデスクトップのセッション数が２に制限されている。」という文については、「対象・事象」に関連する情報が含まれているとラベル付けされている。

ステップＳ６１１にて、分析部２０１及び取得部２０３は、学習データの文６０２について影響予測用の特徴量を計算する。影響予測用の特徴量計算は、前述したレビュー対象の文書データ３０１をレビューする場合の影響予測用の特徴量計算と同様であるので、具体的な説明は省略する。ステップＳ６１１において、分析部２０１及び取得部２０３が影響予測用の特徴量を計算することにより、学習データの文６０２について影響予測用の特徴量（特徴ベクトル）６０４が出力される。

ステップＳ６１２にて、学習部２０２は、学習データの文６０２についての影響予測用の特徴量６０４及び評価観点についての正解（文の影響度）に関する情報６０３に基づいて、評価観点毎の文の影響度を予測する機械学習を行う。機械学習アルゴリズムは、特定のアルゴリズムに限定されるものではなく、例えば、全結合ニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク等を適用可能である。ステップＳ６１２においての機械学習の結果、影響予測モデル６０５が出力される。このようにして、文の影響予測に利用される影響予測モデル６０５が作成される。

図８を参照して、本実施形態における品質評価モデルの作成について説明する。品質評価モデルは、レビューモデル構築システム３１０において学習部２０２が、文書品質評価の学習データ８０１を用いて、評価観点毎にどの程度の記述があれば良い品質であるとみなすかの基準を機械学習することによって作成される。

文書品質評価の学習データ８０１は、文８０２及び正解（文書の品質）に関する情報８０３を含んでいる。なお、文書品質評価の学習データ８０１としては、同一の文書ＩＤを有するものを１つの文書として取り扱う。文書品質評価の学習データ８０１は、図７（Ａ）に示す文書ＩＤ７０１、文７０２、及び図７（Ｂ）に示す文書ＩＤ７１１、各評価観点についての正解（文書の品質）に関する情報７１２、７１３、７１４を有する。文書ＩＤ７１１は、文書（文章）単位に付与されるＩＤである。正解（文書の品質）に関する情報７１２、７１３、７１４は、文書全体として良い品質であるか悪い品質であるかを示す情報である。正解（文書の品質）に関する情報７１２、７１３、７１４は、文書ＩＤが同一である文書全体で、良い品質であるか悪い品質であるかを人間が判定してラベル付けする。図７（Ｂ）に示す例では、図７（Ａ）に示す例と同様に、「場所・時間」、「判断・予測」、及び「対象・事象」のそれぞれの評価観点での正解（文書の品質）に関する情報がラベル付けされている。例えば、文書ＩＤがＲ０００１の文書については、「場所・時間」及び「判断・予測」の評価観点では悪い品質であると、「対象・事象」の評価観点では良い品質であるとラベル付けされている。

ステップＳ８１１にて、分析部２０１及び取得部２０３は、学習データの文８０２における各文について影響予測用の特徴量を計算する。影響予測用の特徴量計算は、前述したレビュー対象の文書データ３０１をレビューする場合の影響予測用の特徴量計算と同様であるので、具体的な説明は省略する。

次に、ステップＳ８１２にて、予測部２０４は、ステップＳ８１１において得られた各文の影響予測用の特徴量に基づいて、前述したようにして作成された影響予測モデル８０４を用いて品質評価における各文の評価観点毎の影響度を予測する。ステップＳ８１２において、予測部２０４が文の影響度の予測を行うことにより、学習データの文８０２について影響予測結果８０５が出力される。

ステップＳ８１３にて、学習部２０２は、学習データの文８０２についての影響予測結果８０５及び評価観点についての正解（文書の品質）に関する情報８０３に基づいて、文書全体での品質を予測する機械学習を行う。機械学習アルゴリズムは、特定のアルゴリズムに限定されるものではなく、例えば、全結合ニューラルネットワーク、畳み込みニューラルネットワーク、リカレントニューラルネットワーク等を適用可能である。ステップＳ８１３においての機械学習の結果、品質評価モデル８０６が出力される。このようにして、文書の品質評価に利用される品質評価モデル８０６が作成される。

次に、本実施形態におけるレビューの根拠表示処理について説明する。図９に示すように、レビューの根拠表示処理（Ｓ９０１）では、出力部２０６は、レビュー対象の文書データの品質評価に係る情報をレビュー結果データベース（ＤＢ）９０１から取得する。品質評価に係る情報は、品質評価結果やその品質評価結果となった根拠を示す根拠情報（例えば、図３のステップＳ３１２において得られる影響予測モデルの出力）である。そして、出力部２０６は、レビュー結果データベース（ＤＢ）９０１から取得した品質評価に係る情報を、レビューの根拠情報９０２として出力する。

出力部２０６から出力されたレビューの根拠情報９０２は、例えば、パーソナルコンピュータ（ＰＣ）、サーバ装置、タブレット装置、スマートフォン等のユーザが使用する情報処理装置の表示装置（表示部材）に表示され、ユーザに対して提示される。図１０にレビュー根拠情報の表示例を示す。

図１０（Ａ）は、レビュー対象の文書データの品質評価結果の表示例を示している。文書データ全体として、「判断・予測」の評価観点では良い品質（〇）であるが、「場所・時間」及び「対象・事象」の評価観点では悪い品質（×）であることが示されている。この表示によればユーザは文書データ全体の品質について把握できるが、文書データ全体の品質評価に関して文書データ中のどの文が評価に影響を与えたのかは認識することができない。

そこで、本実施形態では、ユーザからの要求等に応じて、品質評価結果の根拠を示す根拠情報を出力し、図１０（Ｂ）に示すようにユーザが認識可能なように表示できるようにする。根拠情報は、文書全体の品質評価結果に関して、どの文が品質評価に影響を与えたか（どの文がどの評価観点に関する記述であると認識されたか）を示す情報である。根拠情報としては、文書データ中の文毎にどの評価観点に属する情報が含まれているかの予測の確信度（確率）が出力される。例えば、図１０（Ｂ）に示す例では、第１文は、「場所・時間」に関する情報が記載されている確率が０．８２であり、「判断・予測」に関する情報が記載されている確率が０．１３であり、「対象・事象」に関する情報が記載されている確率が０．９１であることを示している。

このように根拠情報を表示し、表示された根拠情報をユーザが閲覧することにより、ユーザは品質評価において影響の有無が正しく認識されているか否か（誤認識がないか）を把握することが可能となる。また、誤認識されていると考えられる文が容易にわかることで、その文書データ及び正解の情報を加えて学習データを修正し、その学習データを用いて機械学習を行いモデルを更新することにより品質評価の精度を向上させることができる。

図１０に示した表示例は一例であり、これに限定されるものではない。図１１及び図１２を参照して、レビュー根拠情報の他の表示例について説明する。

図１１は、本実施形態におけるレビュー根拠情報の表示例を示す図である。図１１（Ａ）及び図１１（Ｂ）に示す例では、文書全体の品質評価結果１１０１が示されるとともに、評価観点を選択するトップダウンメニュー（プルダウンメニュー）１１０２が設けられている。文書全体の品質評価結果１１０１は、スコア値で表示し、あわせてスコア値に応じて（良い評価であるか悪い評価であるかに応じて）異なる色で表示するようにしてもよい。トップダウンメニュー（プルダウンメニュー）１１０２から評価観点を選択することにより、選択した評価観点についての根拠情報１１０３、１１０４が、文書全体の品質評価結果１１０１とともに表示される。

図１１（Ａ）は、トップダウンメニュー（プルダウンメニュー）１１０２によって、「場所・時間」の評価観点が選択された例を示しており、文毎に「場所・時間」の評価観点に関する情報が含まれていると予測された確信度（確率）を示す根拠情報１１０３が示されている。また、図１１（Ｂ）は、トップダウンメニュー（プルダウンメニュー）１１０２によって、「判断・予測」の評価観点が選択された例を示しており、文毎に「判断・予測」の評価観点に関する情報が含まれていると予測された確信度（確率）を示す根拠情報１１０４が示されている。根拠情報１１０４においては、各文の右上に予測された確信度（確率）が表示される。また、図１１（Ａ）及び図１１（Ｂ）に示した根拠情報１１０３、１１０４において、予測された確信度（確率）に応じた色で各文をハイライト表示するようにしてもよい。

図１２は、本実施形態におけるレビュー根拠情報の表示例を示す図である。図１２（Ａ）及び図１２（Ｂ）に示す例では、評価観点の選択ボタン１２０１、１２０２、１２０３が表示されるとともに、表示１２０４として評価観点に関する情報が記述されていると予測された文が評価観点毎に表示される。選択ボタン１２０１、１２０２、１２０３により評価観点を選択することにより、選択した評価観点に関する情報が記述されていると予測された文１２０５、１２０６がハイライト表示されている。

以上説明したように、本実施形態によれば、各モデルを用いて自動で文書のレビューを行い、文書全体の品質評価結果の根拠を示す根拠情報を出力することで、ユーザに品質評価結果の根拠を提示することができる。根拠情報として文毎に評価観点に対する予測した影響度を出力ことで、どの文が品質評価の結果に影響を及ぼしているか容易に把握でき、ユーザにとって納得が得られやすい文書の自動レビューを提供することができる。

なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１００情報処理装置
１０１ＣＰＵ
１０２主記憶装置
１０３補助記憶装置
１０４ネットワークＩ／Ｆ
１０５入出力Ｉ／Ｆ
２００情報処理装置
２０１解析部
２０２学習部
２０３取得部
２０４予測部
２０５評価部
２０６出力部

Claims

文書の品質評価を行う情報処理装置であって、
文書中の各文について特徴量を取得する取得手段と、
前記取得手段により取得された特徴量に基づいて、文の影響予測用の学習データに基づいて作成された影響予測モデルを用いて、評価観点毎の文の影響を予測する予測手段と、
前記予測手段による各文の影響予測結果に基づいて、文書品質評価の学習データに基づいて作成された品質評価モデルを用いて、前記文書の品質評価を行う評価手段と、
文書の品質評価結果の根拠を示す根拠情報を含む評価結果に係る情報を出力する出力手段とを有することを特徴とする情報処理装置。
前記根拠情報は、前記予測手段による各文の影響予測結果であることを特徴とする請求項１に記載の情報処理装置。
前記取得手段は、前記文書を分割して得られる各文について着目文と文脈文に振り分け、前記着目文及び前記文脈文からそれぞれ得られるベクトルに基づいて前記特徴量を取得することを特徴とする請求項１又は２に記載の情報処理装置。
前記出力手段は、前記根拠情報を含む評価結果に係る情報を表示することを特徴とする請求項１～３の何れか１項に記載の情報処理装置。
前記出力手段は、前記文書中の各文における評価観点毎の影響予測結果を前記根拠情報として表示することを特徴とする請求項４に記載の情報処理装置。
前記出力手段は、指定された評価観点の文毎の影響予測結果を前記根拠情報として表示することを特徴とする請求項４に記載の情報処理装置。
前記出力手段は、前記文書の品質評価結果をさらに表示することを特徴とする請求項４～６の何れか１項に記載の情報処理装置。
前記文書の品質評価結果に基づいて前記文の影響予測用の学習データを修正し、前記影響予測モデルを更新することを特徴とする請求項１～７の何れか１項に記載の情報処理装置。
前記文書の品質評価結果に基づいて前記文書品質評価の学習データを修正し、前記品質評価モデルを更新することを特徴とする請求項１～８の何れか１項に記載の情報処理装置。
文書の品質評価を行う情報処理装置の情報処理方法であって、
文書中の各文について特徴量を取得する取得工程と、
前記取得工程で取得された特徴量に基づいて、文の影響予測用の学習データに基づいて作成された影響予測モデルを用いて、評価観点毎の文の影響を予測する予測工程と、
前記予測工程での各文の影響予測結果に基づいて、文書品質評価の学習データに基づいて作成された品質評価モデルを用いて、前記文書の品質評価を行う評価工程と、
文書の品質評価結果の根拠を示す根拠情報を含む評価結果に係る情報を出力する出力工程とを有することを特徴とする情報処理方法。
文書の品質評価を行う情報処理装置のコンピュータに、
文書中の各文について特徴量を取得する取得ステップと、
前記取得ステップで取得された特徴量に基づいて、文の影響予測用の学習データに基づいて作成された影響予測モデルを用いて、評価観点毎の文の影響を予測する予測工程と、
前記予測ステップでの各文の影響予測結果に基づいて、文書品質評価の学習データに基づいて作成された品質評価モデルを用いて、前記文書の品質評価を行う評価ステップと、
文書の品質評価結果の根拠を示す根拠情報を含む評価結果に係る情報を出力する出力ステップとを実行させるためのプログラム。