JP2024033123A

JP2024033123A - 文書分析装置、及び文書分析用プログラム

Info

Publication number: JP2024033123A
Application number: JP2022136525A
Authority: JP
Inventors: 光博木谷; マンイウーチャウ; 正裕松原
Original assignee: Hitachi Astemo Ltd
Current assignee: Hitachi Astemo Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-03-13
Also published as: WO2024047997A1

Abstract

【課題】ソフトウェア開発において過去のソフトウェア資産の効率的な利用を可能とし、ソフトウェア開発の効率を高める。【解決手段】この文書分析装置は、分析の対象である第１の文書に含まれる要求事項を判別して複数のグループに分類するグループ分類部と、前記複数のグループに分類された前記要求事項に関連する用語をトピックとして抽出するトピック抽出部と、前記第１の文書とは異なる分析済の第２の文書のグループに含まれるトピックを、前記第１の文書の前記グループに含まれるトピックと比較し、その差分を抽出するトピック差分抽出部と、前記差分を含む分析の結果を示す分析結果を外部に向けて出力する分析結果出力部とを備える。【選択図】図１Ｂ

Description

本発明は、文書分析装置、及び文書分析用プログラムに関する。

ソフトウェア開発において、新規の顧客が提示する新規開発対象のソフトウェアの要求仕様等を説明する文書の分析が行われ、その分析結果に従い、過去のソフトウェア資産の再利用が可能か否かを検討し、再利用が可能であればそれを利用することが一般に知られている。

このような分析・検討は、現状では主に開発者等による人手により、開発者等の知識と経験に基づいて行われているが、顧客要求が多岐に亘ると分析作業も複雑になり、また、過去のソフトウェア資産が増加すると、その探索にも非常に時間が掛かる。結果として、過去のソフトウェア資産を有効に利用することが困難となる。

このような分析・検討をコンピュータが支援するシステムも、例えば特許文献１により知られている。特許文献１は、文書の段落文及び章節をコンピュータにより比較して、二つの文書間の類似度を判定する技術を開示している。この技術では単に新規の文書が過去の文書との比較で新しい段落を含んでいるかを判断できるのみであり、新規のソフトウェア開発において、過去のソフトウェア資産が利用可能か否かの判断に用いることは困難である。

また、新規顧客が、過去のソフトウェア資産の顧客とは異なる場合、要求の記載粒度（プロセス、手法、規格等）が異なる場合があり、新規顧客の要求と、過去のソフトウェア資産での要求との間の差分を的確に抽出することが難しく、結果として利用可能な過去のソフトウェア資産を特定することが難しくなるという問題がある。

特開２０１５－２１９７９９号公報

本開示は、上記の課題に鑑みてなされたものであり、ソフトウェア開発において過去のソフトウェア資産の効率的な利用を可能とし、ソフトウェア開発の効率を高めることを可能にする文書分析装置、及び文書分析用プログラムを提供するものである。

上記の課題を解決するため、本開示に係る文書分析装置は、分析の対象である第１の文書に含まれる要求事項を判別して複数のグループに分類するグループ分類部と、前記複数のグループに分類された前記要求事項に関連する用語をトピックとして抽出するトピック抽出部と、前記第１の文書とは異なる分析済の第２の文書のグループに含まれるトピックを、前記第１の文書の前記グループに含まれるトピックと比較し、その差分を抽出するトピック差分抽出部と、前記差分を含む分析の結果を示す分析結果を外部に向けて出力する分析結果出力部とを備えることを特徴とする。

本開示に係る文書分析装置によれば、ソフトウェア開発において過去のソフトウェア資産の効率的な利用を可能とし、ソフトウェア開発の効率を高めることを可能にする文書分析装置、及び文書分析用プログラムを提供することができる。

第１の実施の形態に係る文書分析装置２００、及びユーザ端末１００を説明する概略図である。第１の実施の形態に係る文書分析装置２００の構成を更に詳細に説明するブロック図である。第１の実施の形態に係る文書分析装置２００での新規要求文書の分析処理を説明する概略図である。第２の実施の形態に係る文書分析装置２００、及びユーザ端末１００を説明する概略図である。第２の実施の形態の文書分析装置２００における、新規要求文書分析処理、新規要求文書の分析結果の表示制御処理、並びにグループ分類の検証処理、トピック抽出の検証、及びスコア算出処理の手順について説明するフローチャートである。第２の実施の形態の文書分析装置２００における、新規要求文書分析処理、新規要求文書の分析結果の表示制御処理、並びにグループ分類の検証処理、トピック抽出の検証、及びスコア算出処理の手順について説明するフローチャートである。第２の実施の形態のユーザ端末１００における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。第２の実施の形態のユーザ端末１００における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。第２の実施の形態のユーザ端末１００における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。第２の実施の形態のユーザ端末１００における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。第２の実施の形態のユーザ端末１００における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。第２の実施の形態のユーザ端末１００における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。第２の実施の形態のユーザ端末１００における分析結果の表示制御処理の手順の一例を説明するフローチャートである。第２の実施の形態のユーザ端末１００における分析結果の表示制御処理の手順の一例を説明するフローチャートである。第２の実施の形態のユーザ端末１００における分析結果の表示制御処理の手順の一例を説明するフローチャートである。第２の実施の形態の分析結果の表示の更新制御のための手順の一例を説明するフローチャートである。第２の実施の形態の分析結果の表示の更新制御のための手順の一例を説明するフローチャートである。第２の実施の形態の新規要求文書の分析結果を更新する更新制御の手順を説明するフローチャートである。

以下、添付図面を参照して本実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本開示の原理に則った実施形態と実装例を示しているが、これらは本開示の理解のためのものであり、決して本開示を限定的に解釈するために用いられるものではない。本明細書の記述は典型的な例示に過ぎず、本開示の特許請求の範囲又は適用例を如何なる意味においても限定するものではない。

本実施形態では、当業者が本開示を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本開示の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

［第１の実施の形態］
図１Ａを参照して、第１の実施の形態に係る文書分析装置２００、及びユーザ端末１００を説明する。第１の実施の形態の文書分析装置２００は、ユーザ端末１００に接続され、ユーザ端末１００から新規に開発されるソフトウェアの設計仕様等に係る文書（以下、「新規要求文書」又は「第１の文書」という）を提供される。

文書分析装置２００は、新規要求文書を分析して、その分析結果に従い、既に分析済で分析結果を格納済である過去の要求文書（以下、「過去要求文書」、又は「第２の文書」という）の中から、新規要求文書と共通点を有する文書を特定する。そして、文書分析装置２００は、特定された関連する過去要求文書と新規要求文書との間の共通点／相違点／新規特徴等を特定してユーザ端末１００に提示する。ユーザ端末１００のユーザ（ソフトウェア開発者）は、提示された過去要求文書と、その共通点、相違点、新規特徴に関する情報を見て、その過去要求文書に係る過去のソフトウェア資産が、新規要求文書に係る新規のソフトウェアの開発に利用可能か否かを判断することができる。

ユーザ端末１００は、汎用のパーソナルコンピュータ等により構成することができ、例えば、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ハードディスクドライブ１０４、入出力制御部１０５、通信制御部１０６、表示制御部１０７、入力デバイス１０８、及びディスプレイ１０９を備える。ハードディスクドライブ１０４等の記憶装置には、本実施の形態の文書分析装置２００の動作のための文書分析用プログラムの一部を構成するユーザインタフェースアプリケーションが格納されている。入力デバイス１０８からは、ユーザからの各種指示や編集動作等のための入力が行われる。ディスプレイ１０９には、ユーザインタフェースアプリケーションの実行画面が表示され得る。

文書分析装置２００は、同様に汎用のパーソナルコンピュータ等により構成することができ、一例として、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ハードディスクドライブ２０４、入出力制御部２０５、通信制御部２０６、表示制御部２０７を備える。ハードディスクドライブ２０４等の記憶装置には、本実施の形態の文書分析装置２００の動作のための文書分析用プログラムが格納されている。図１Ａでは図示は省略しているが、文書分析装置２００は、文書分析装置２００の管理者等により操作される入力デバイスと、分析動作を確認するためのディスプレイを備えることができる。

文書分析用プログラムは、文書分析処理部２１１と、文書分析モデル生成部２１２と、文書分析結果管理部２１３と、文書分析結果入出力部２１４とを文書分析装置２００において実現する。文書分析処理部２１１は、新規要求文書のデータを受信し、新規要求文書に係る各種分析を実行する部分である。また、文書分析モデル生成部２１２は、文書分析処理部２１１での分析に使用される文書分析モデル（要求分類モデル、固有表現抽出モデル）を生成する部分である。

文書分析結果管理部２１３は、新規要求文書の分析結果に関するデータ、過去要求文書の分析結果に関するデータ、その他分析に用いられる各種データを管理する役割を有する。文書分析結果入出力部２１４は、新規要求文書の分析結果をユーザ端末１００において表示するための表示データを生成してユーザ端末１００に出力すると共に、ユーザ端末１００等からの各種入力を受けて、この表示データを変更する機能を有する。

図１Ｂに示すように、文書分析処理部２１１は更に、一例として、グループ分類部２１１１、トピック抽出部２１１２、トピック差分抽出部２１１３、新規要求文書作成部２１１４を備える。グループ分類部２１１１は、分析の対象である新規要求文書に含まれる要求事項を判別して複数のグループに分類する機能を有する。トピック抽出部２１１２は、複数のグループに分類された要求事項に含まれる用語（キーワード）に関連する用語をトピックとして抽出する役割を有する。トピック差分抽出部２１１３は、分析済の過去要求文書の一のグループに含まれるトピックを、新規要求文書のグループに含まれるトピックと比較し、その差分を抽出する役割を有する。新規要求文書作成部２１１４は、差分の抽出の結果を含む新規要求文書を生成する機能を有する。なお、トピック差分抽出部２１１３は、差分に基づいて算出されるトピック一致率、ベクトル類似度を演算する機能も有し得る。

文書分析モデル生成部２１２は、文書分析処理部２１１のグループ分類部２１１１での分類処理に用いる要求分類モデル２１２１を生成すると共に、トピック抽出部２１１２でトピックの抽出に用いられる固有表現抽出モデル２１２２を生成する。要求分類モデル２１２１と固有表現抽出モデル２１２２は、一体として文書分析モデルを構成する。文書分析モデルは、自然言語処理及び機械学習の技術を利用して、適宜更新され得る。トピック抽出部２１１２は、マルチラベル要求分類モデル２１２１’と固有表現抽出モデル２１２２の何れか一方、または両方によって構成され得る。マルチラベル要求分類モデル２１２１’は、トピック抽出部２１１２に複数のトピックを抽出する能力を持たせるためのモデルである。一方、要求分類モデル２１２１は単一のラベル(グループ)に限定される。要求分類モデル２１２１、２１２１’や、固有表現抽出モデル２１２２は互いに異なるモデル(ソフトウェア)として実装され得る。

なお、固有表現抽出モデル２１２２は、場合によって省略することも可能である。また、要求分類モデル２１２１と固有表現抽出モデル２１２２は、グループに応じて別々のモデルを生成しても良い。例えばグループ数が１０の場合は、固有表現抽出モデル２１２２と要求分類モデル２１２１が１０個ずつ生成されてもよい。

文書分析結果管理部２１３は更に、一例として、新規要求文書管理部２１３１、過去要求文書管理部２１３２、トピックデータ管理部２１３３、グループデータ管理部２１３４、文書分析結果データ管理部２１３５、及び文書分析結果更新制御部２１３６を備える。

新規要求文書管理部２１３１は、新規要求文書を管理する役割を有し、具体的には、例えば、新規要求文書の原文データ、新規要求文書についてのグループ分類部２１１１での分類結果、トピック抽出部２１１２での抽出結果、その他新規要求文書に関するデータを管理する。過去要求文書管理部２１３２は、過去要求文書を管理する役割を有し、具体的には、過去要求文書の原文データ、過去要求文書についてのグループ分類部２１１１での分類結果、トピック抽出部２１１２での抽出結果、その他過去要求文書に関するデータを管理する。

トピックデータ管理部２１３３は、トピック抽出部２１１２におけるトピック抽出処理において利用され、トピックに関するデータをデータベースを用いて管理する。グループデータ管理部２１３４は、グループ分類部２１１１における分類処理において利用され、グループに関するデータをデータベースを用いて管理する。文書分析結果データ管理部２１３５は、新規要求文書の分析の結果としての分析結果データを管理する役割を有する。文書分析結果更新制御部２１３６は、分析結果データを更新するための更新制御を担当する。

図２を参照して、文書分析装置２００での新規要求文書の分析処理を説明する。図２の左上に示すように、新規要求文書は、複数の要求事項ＮｅｗＲｅｑ－ｉを含んでいる。同様に、過去要求文書も、複数の要求事項ＯｌｄＲｅｑ－ｉを含んでいる。ここで、「要求事項」は、一の文書においてシステムやサービスの開発についての各種の要求を表現した文章である。要求事項は、単一の文（一の句点のみを有する文）であってもよいし、複数の文であってもよい。

新規要求文書の要求事項ＮｅｗＲｅｑ－ｉは、その内容に応じて、要求分類モデル、グループデータベースに従い、グループ分類部２１１１において複数のグループに分類される。グループは、一例として、図２に示すように、「物体検知」、「診断」、「センサ性能」等を含む。過去要求文書の要求事項ＯｌｄＲｅｑ－ｉも、同様にして複数グループに分類される。

複数のグループのいずれかに分類された要求事項ＮｅｗＲｅｑ－ｉは、トピック抽出部２１１２において、トピック抽出処理の対象とされ、要求事項ＮｅｗＲｅｑ－ｉに含まれる用語がトピックとして抽出される。グループ分類、及びトピック抽出の結果は、新規要求文書管理部２１３１に格納される。

なお、抽出されたトピックの表現（用語）は、トピックデータベースに従い、他の用語に適宜変換される（例えば「走行レーン」が「白線」に変更される）。すなわち、「トピック」は、新規要求文書又は過去要求文書の原文に含まれる用語それ自体である他、それに関連する用語（例：上位概念の用語、下位概念の用語、類義語など）を含み得る。過去要求文書も、同様にトピック抽出の対象とされ、その抽出の結果は過去要求文書管理部２１３２に格納される。

新規要求文書管理部２１３１に新規要求文書のグループ分類及びトピック抽出の結果が格納されると、文書分析処理部２１１のトピック差分抽出部２１１３により、過去要求文書管理部２１３２に格納された過去要求文書と、対応するグループ間でのトピックの比較が実行され、両者の間のトピックの差分（新規要求文書と過去要求文書との間で一致するトピック、新規要求文書において欠落するトピック、新規要求文書において新規のトピック）が抽出される。このような抽出が、新規要求文書と、複数の過去要求文書との間で実行される。ユーザ端末１００のユーザは、この抽出の結果を見て、最も新規要求文書に近い過去要求文書を特定し、その過去要求文書に係る過去のソフトウェア資産を新規要求文書に係るソフトウェア開発に利用することができる。

なお、トピック差分抽出部２１１３は、同一又は関連するグループ名を有するグループ間でのトピックの差分を抽出するものであってもよいが、これに限らず、異なるグループ名を有するグループ間でのトピックの差分を抽出することが可能とされてもよい。また、トピック差分抽出部２１１３での比較分析の対象は、２つのグループに限定される必要はなく、トピックが比較できる限りにおいて、比較分析の対象は不問である。例えば、新規要求文書中の要求事項ＮｅｗＲｅｑと、比較対象の過去要求文書のグループとが比較対象とされても良い。

以上説明したように、第１の実施の形態の文書分析装置２００によれば、文書内に含まれる要求事項がグループに分類され、更にグループ内において、その要求事項中の用語がトピックとして抽出される。そして、そのグループ毎にトピックが比較されることで、過去要求文書との類似度が判定される。これによれば、新規要求文書と近似する過去要求文書を正確に特定することができる。

［第２の実施の形態］
次に、図３を参照して、第２の実施の形態の文書分析装置２００を説明する。第２の実施の形態の文書分析装置２００は、第１の実施の形態と同様に、ユーザ端末１００に接続され、ユーザ端末１００から新規に開発されるソフトウェアの設計仕様等に係る文書（以下、「新規要求文書」又は「第１の文書」という）を提供される。ただし、この第２の実施の形態の文書分析装置は、文書分析の結果の信頼度を算出する文書分析信頼度算出部２１５を備えていると共に、文書分析モデル生成部２１２がベクトル類似度計算モデル生成部２１２３を備えており、この点で第１の実施の形態と異なっている。文書分析の結果の信頼度が算出され、ユーザ端末１００に提示されることで、より文書の分析結果の判断を正確に行うことが可能になる。

文書分析信頼度算出部２１５は、一例として、トピック一致率計算部２１５１、ベクトル類似度計算部２１５２、トピック一致率・ベクトル類似度差分計算部２１５３を備えている。トピック一致率計算部２１５１は、新規要求文書と過去要求文書との間のグループ内におけるトピックの一致の度合を示すトピック一致率を計算する機能を有する。ベクトル類似度計算部２１５２は、新規要求文書と過去要求文書と間のグループ内におけるトピックの類似度をコサイン類似度などのベクトル類似度として計算する機能を有する。トピック一致率・ベクトル類似度差分計算部２１５３は、トピック一致率計算部２１５１で演算されたトピック一致率と、ベクトル類似度計算部２１５２で演算されたベクトル類似度との間の差分を計算し、この差分を閾値と比較する機能を有する。当該差分と閾値との差異に従い、文書分析の信頼度を判断することができる。

次に、図４Ａ及び図４Ｂのフローチャートを参照して、第２の実施の形態の文書分析装置２００における、新規要求文書分析処理、新規要求文書の分析結果の表示制御処理、並びにグループ分類の検証処理、トピック抽出の検証、及びスコア算出処理の手順について説明する。

新規要求文書分析処理においては、まず、新規要求文書に含まれる要求事項についてのグループ分類が実行される（ステップＳ１１）。そして、分類された要求事項に含まれる用語をトピックとして抽出する（ステップＳ１２、Ｓ１３）。ステップＳ１２では、新規要求文書からのトピック抽出が固有表現抽出モデルに従って実行され、ステップＳ１３では、新規要求文書から抽出されたトピックに係る用語が、トピックデータベースに従って他の用語に変換される。ステップＳ１２及びＳ１３でのトピック抽出の結果に従い、グループ分類及びトピック抽出された新規要求文書を作成する（ステップＳ１４）。

次に、過去要求文書管理部２１３２から、過去要求文書のグループ情報を取得すると共に、過去要求文書のトピック抽出情報を取得する（ステップＳ１５、Ｓ１６）。そして、必要に応じてグループ単位でトピックの置き換えを行った過去要求文書が作成される（ステップＳ１７）。このようにして生成された新規要求文書と、過去要求文書とが、グループ単位にてトピックの差分抽出の対象とされる（ステップＳ１８）。

新規要求文書と過去要求文書との間のグループ間のトピックの差分が抽出されると、その差分に基づき、グループ間のトピック一致率が計算される（ステップＳ２１）。更に、新規要求文書において、グループ単位でベクトル類似度の平均値が算出されると共に（ステップＳ２２）、過去要求文書において、グループ単位でベクトル類似度の平均値に関する情報が、過去要求文書管理部２１３２から読み出され、取得される（ステップＳ２３）。そして、新規要求文書と過去要求文書との間のグループ間のベクトル類似度の差分が算出される（ステップＳ２４）。更に、新規要求文書と過去要求文書との間で、トピック一致率とベクトル類似度の差分が計算され、これにより文書分析の信頼度が判定される（ステップＳ２５）。そして、上記の各種計算の結果に従った分析が実行され、その分析結果がユーザ端末１００において表示される（ステップＳ２６）。

図５及び図６を参照して、ユーザ端末１００における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。図５は、その画面の概要であり、図６は、その詳細例を示している。この画面は、一例として、分析・比較対象指定表示画面２と、分析結果一覧表示・分析結果詳細選択画面３と、分析結果詳細表示・編集画面４とを含む。分析・比較対象指定表示画面２は、新規要求文書を分析・比較対象として指定（選択）するための画面と、新規要求文書と比較すべき過去要求文書を指定（選択）する画面と、両者の分析スコアを選択する画面とを含む。

分析結果一覧表示・分析結果詳細選択画面３は、新規要求文書の分析結果を一覧表示すると共に、その分析結果の詳細を選択的に表示するための画面である。分析結果一覧表示・分析結果詳細選択画面３は更に、一例として、分類信頼度スコアテーブル１０と、トピック抽出信頼度スコアテーブル１１とを含んでいる。分類信頼度スコアテーブル１０は、グループ分類における判定の信頼度をスコアとして表示する。トピック抽出信頼度スコアテーブル１１は、トピック抽出部２１１２におけるトピック抽出の処理の信頼度をスコアとして表示する。

分析結果詳細表示・編集画面４は、一例として、新規要求文書表示・編集画面１２、過去要求文書表示・編集画面１３、トピック差分表示画面１４を備える。新規要求文書表示・編集画面１２は、新規要求文書についての分析結果を表示し編集するための画面である。過去要求文書表示・編集画面１３は、新規要求文書と比較される過去要求文書についての分析結果を表示し編集するための画面である。トピック差分表示画面１４は、新規要求画面と過去要求画面との差分、及び差分に係る各種ファクタを表示する画面である。

図６に示すように、新規要求文書表示・編集画面１２は、新規要求文書に関するグループ分類の結果としてのグループ名表示欄１２Ａ、新規要求文書の原文データを表示する原文表示欄１２Ｂ、抽出されたトピックと対応する原文中のワードとの対応関係を示すトピック／原文ワード表示欄１２Ｃを備えている。欄１２Ａ～１２Ｃの下方には、これらのデータに関する編集、保存、分析完了を指示するためのアイコンが表示されていてもよい。図７に、欄１２Ａ～１２Ｃにおける表示の具体例を示す。原文表示欄１２Ｂにおいては、例えば記号（＜＞等）により、トピックの原文中の存在位置を指称することが可能である。図１２Ｃのトピック／原文ワード表示欄１２Ｃでは、トピックと原文対応箇所との関係を把握することができ、また、トピックの表現を、ユーザ端末１００側にてユーザが編集することも可能である。また、トピック文字列や原文対応箇所を確認して、その用語をトピックデータベース等に登録することも可能である。なお、欄１２Ｂと欄１２Ｃは、図８に示すように一の欄に合成して表示されてもよい。

過去要求文書表示・編集画面１３は、新規要求文書との比較対象とされる過去要求文書に関するグループ分類の結果としてのグループ名表示欄１３Ａ、過去要求文書の原文データを表示する原文表示欄１３Ｂ、抽出されたトピックと対応する原文中のワードとの対応関係を示すトピック／原文ワード表示欄１３Ｃを備えている。欄１３Ａ～１３Ｃの下方には、これらのデータに関する編集、保存を指示するためのアイコンが表示されていてもよい。図７に、欄１３Ａ～１３Ｃにおける表示の具体例を示す。

なお、分析結果詳細表示・編集画面４は、再分析開始指示ボタン１５Ａ、Ｐｒｅｖボタン１５Ｂ、及びＮｅｘｔボタン１５Ｃを備えている。再分析開始指示ボタン１５Ａは、欄１２、１３に表示中の新規要求文書、過去要求文書に対する分析を再度実行することを指示する画面である。Ｐｒｅｖボタン１５Ｂ、Ｎｅｘｔボタン１５Ｃは、分析・比較対象指定表示画面２で絞り込みされた分析結果一覧の表示を切り替えるためのボタンである。過去要求文書表示・編集画面１３に表示される過去要求文書を切り替えるためのボタンであり、これが押されることにより、分析・比較対象指定表示画面２に表示される新規要求文書・過去要求文書・その他が切り替わり、新たな分析結果がトピック差分表示画面１４に表示される。

トピック差分表示画面１４は、画面１２に表示される新規要求文書と、画面１３に表示される過去要求文書との間のトピックの差分をグループ単位で表示するための画面であり、具体的には、両文書に共通するトピックを「共通トピック」として、過去要求文書にのみ存在し新規要求文書では不足（欠落）しているトピックを「不足トピック」として、新規要求文書でのみ登場するトピックを「新規トピック」として表示する。図７に、トピック差分表示画面１４の表示の具体例を示す。

図９を参照して、ユーザ端末１００における新規要求文書と過去要求文書との間の比較結果についての画面表示の第１の変形例を説明する。この図９の画面表示は、新規要求文書表示・編集画面１２と、過去要求文書表示・編集画面１３において、抽出されたトピックの文字列と、そのトピックに対応する用語が原文中で登場する位置を示すトピック文字列・原文内位置表示欄１２Ｄ、１３Ｄを備えており、この点において図６の表示例と異なっている。トピックの文字列と、対応する用語の原文中での登場位置が示されることにより、より新規要求文書と過去要求文書との比較が容易になる。

図１０を参照して、ユーザ端末１００における新規要求文書と過去要求文書との間の比較結果についての画面表示の第２の変形例を説明する。この図１０の画面表示は、新規要求文書表示・編集画面１２、及び過去要求文書表示・編集画面１３が複数組並列に表示されており、この点において図６の表示例と異なっている。これにより、複数の過去要求文書の比較結果が一の画面に表示される。ユーザ端末１００のユーザは、複数の過去要求文書のうちのどれが新規要求文書との間で高い類似性を有しているかを一層容易に判定することができる。

図１１～図１２Ｂのフローチャートを参照して、ユーザ端末１００における分析結果の表示制御処理の手順の一例を説明する。まず、新規要求文書と複数の過去要求文書とを比較・分析した結果としての分析結果一覧を並べ替える手順であるステップＳ３１、Ｓ３２が実行される。ステップＳ３１は、一例として、ベクトル類似度スコアを複数の過去要求文書の間で比較し、ベクトル類似度スコアが高い順に分析結果を並び替えるものである。また、ステップＳ３２は、一例として、グループ分類の一致度を複数の過去要求文書の間で比較し、一致度が高い順に分析結果を並び替えるものである（図１２Ｂ参照）。なお、ステップＳ３１では、図１２Ａに示すように、ベクトル類似度スコアの昇順で分析結果を並び替えると共に（ステップＳ３１Ａ）、トピック一致率とベクトル類似度の間の差分のスコアに従い分析結果を降順に並び替えるようにすることもできる（ステップＳ３１Ｂ）。更に、トピック一致率で昇順に分析結果を並び替えると共に（ステップＳ３１Ｃ）、ベクトル類似度とトピック一致率との間の差分のスコアに従い分析結果を降順に並び替えるようにすることもできる（ステップＳ３１Ｄ）。

ステップＳ３３では、分析結果表示終了指示が発行されているか否かが判定され、発行されていれば（Ｙ）図１１の手順は終了し、発行されていなければ（Ｎ）、ステップＳ３４に移行する。

ステップＳ３４では、指定された分析対象としての新規要求文書の情報に基づいてデータ選択及びフィルタリングが実行される。分析対象の指定は、例えば、文書名・グループ名・トピック名を指定して実行され得る。続くステップＳ３５では、指定された比較対象としての過去要求文書の情報に基づいてデータ選択及びフィルタリングが実行される。分析対象の指定は、例えば、過去要求文書の文書名・グループ名・トピック名を指定して実行され得る。

ステップＳ３６では、分析対象の指定において、グループの指定が無いか否かが判定されている。グループの指定があれば（Ｎ）ステップＳ３７に移行し、グループの指定がなければ（Ｙ）ステップＳ３８に移行する。

ステップＳ３７では、指定されたグループに従い、その指定に係るグループについてのグルーピングの結果、当該グループの原文、当該グループ内でのトピック抽出結果、その抽出されたトピックと、比較対象の過去要求文書の対応グループとの間のトピックの差分等が表示される。

一方、ステップＳ３８では、指定された新規要求文書に従い、その指定に係る新規要求文書に含まれる複数のグループの各々についてのグルーピングの結果、当該複数のグループの原文、当該複数のグループの各々でのトピック抽出結果、その抽出されたトピックと、比較対象の過去要求文書の対応グループとの間のトピックの差分等が表示される。上記のような表示制御手順が分析結果表示終了指示が発行されるまで継続される（ステップＳ３３）。

次に、図１３を参照して、分析結果の表示の更新制御のための手順の一例を説明する。
まず、再分析開始指示が再分析開始指示ボタン１５Ａ等により行われた場合（ステップＳ５１のＹ）、画面に表示中の新規要求文書及び過去要求文書について図４Ａ、図４Ｂの手順が実行され、図１３の手順は終了する。一方、分析結果の表示の更新の指示がされた場合には（ステップＳ５１のＮ）、新たな分析の対象としての新規要求文書のデータが、例えば新規要求文書表示・編集画面１２に表示される（ステップＳ５２）。

そして、分析対象のグループの変更が必要であるか否かが判断され（ステップＳ５３）、必要であれば（Ｙ）、グループを変更するためのグループ変更フローが実施される（ステップＳ５４）。また、分析対象のトピックの変更が必要であるか否かが判断され（ステップＳ５５）、必要であれば、分析対象のトピックを変更するトピック変更フローが実施される（ステップＳ５６）。このようにして分析対象の更新制御が完了し、再分析開始指示ボタン１５Ａが押されることで、同様に分析処理が実行される。

図１４の左側のフローチャートは、グループ変更フロー（ステップＳ５４）の詳細な手順の一例を示している。グループ変更が指示されると、分析・比較対象指定表示画面２において、分析対象の新規要求文書に含まれるグループの一覧が表示される（ステップＳ５４Ａ）。ユーザ端末１００のユーザは、このグループの一覧を見て、その一覧中に、次の分析の候補としたいグループが存在するか否かが判断される（ステップＳ５４Ｂ）。もし、一覧中に次の分析の候補となるグループがあれば（Ｙ）、そのグループをグループ一覧から選択する（ステップＳ５４Ｃ）。候補となるグループが見つからない場合には（Ｎ）、新規のグループ名を図示しない検索ボックスから入力することで検索し、対応するグループを特定する（ステップＳ５４Ｄ）。次の分析の対象となるグループが特定されたら、該当する新規要求文書の編集の有無を示す編集有無フラグを”ＴＲＵＥ”に設定する。

また、図１４の右側のフローチャートは、トピック変更フロー（ステップＳ５６）の詳細な手順の一例を示している。トピック変更が指示されると、分析・比較対象指定表示画面２において、分析対象の新規要求文書に含まれるトピックのうち、変更するトピックを削除すると共に（ステップＳ５６Ａ）、新規要求文書内におけるトピックの位置を選択することで（ステップＳ５６Ｂ）、その位置に対応するトピックの一覧を表示する（ステップＳ５６Ｃ）。ユーザ端末１００のユーザは、その一覧を見て、一覧中に判定の候補となるトピックが存在するか否かを判定する（ステップＳ５６Ｄ）。候補となるトピックがあれば（Ｙ）、トピックの一覧から、その候補を選択する（ステップＳ５６Ｅ）。候補となるトピックがなければ（Ｎ）、新規のトピック名を図示しない検索ボックスから入力することで検索し、対応するトピックを特定する（ステップＳ５６Ｆ）。次の分析の対象となるトピックが特定されたら、該当する新規要求文書の編集を示す編集ありフラグを”ＴＲＵＥ”に設定する。

次に、図１５のフローチャートを参照して、新規要求文書の分析結果を更新する更新制御の手順を説明する。まず、新規要求文書管理部２１３１、過去要求文書管理部２１３２において、ユーザが更新した最新の新規・過去要求文書が受信・取得されると（ステップＳ６１）、その新規要求文書についての文書分析結果の更新要求があるか否かが判定される（ステップＳ６２）。更新要求がなければ動作を終了するが（Ｎ）、更新要求がある場合（Ｙ）、再分析要否フラグが“ＴＲＵＥ”になっているかが判定される（ステップＳ６３）。ＴＲＵＥであれば、文書分析モデル生成部２１２において文書分析モデルが更新（再学習）され（ステップＳ６４）、その文書分析モデルによる新規要求文書の再分析が実行される（ステップＳ６５～Ｓ６９）。具体的には、ステップＳ６６では、新規要求文書の分析が確定したか否かを示すフラグが“ＦＡＬＳＥ”（分析が未確定）であれば、図４Ａの手順（ステップＳ１１～Ｓ１８：新規要求文書分析フロー（１））が実行される。新規要求文書の分析が確定しており、文書分析確定フラグが“ＴＲＵＥ”となっていれば（Ｎ）、ステップＳ１１～Ｓ１８は省略して、図４Ｂの手順（ステップＳ２１～Ｓ２６：新規要求文書分析フロー（２）、（３））が実行される。

以上、実施の形態について説明したが、以下のような文書分析手法を採用することも可能である。
（１）新規要求文書と過去要求文書の顧客（＝文書発行元）一致数によって設定された信頼度係数Ｒ_ＮＣＵを、文書間類似度を示す数値や、トピック一致率等に乗算し、信頼度スコアを再計算することができる。新規要求文書と過去要求文書との間の文書発行元一致数が多いほど、分析結果の信頼度は向上することに基づく。
（２）新規要求文書と過去要求文書の要求グループの一致数によって設定された信頼度係数Ｒ_ＮＲＧを、文書間類似度を示す数値や、トピック一致率に乗算し、信頼度スコアを再計算する。同一のグループの出現回数が多いほど、分析結果の信頼度は向上することに基づく。
（３）新規要求文書の要求総数（Ｍ）と、過去要求文書の要求総数（Ｎ）の比率に応じた信頼度係数Ｒ_ＲＮＲを、文書間類似度を示す数値や、トピック一致率に乗算し、信頼度スコアを再計算する。新規要求文書の要求総数（Ｍ）と、過去要求文書の要求総数（Ｎ）の比率が１に近いほど、分析結果の信頼度は向上することに基づく。

なお、本発明は上記した各実施形態に限定されるものではなく、様々な変形例が含まれる。上記した各実施形態は本発明を分かりやすく説明するために詳細に説明されたものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。さらに、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、さらに、ある実施形態の構成に他の実施形態の構成を加えることも可能である。さらに、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

さらに、上記の各構成、機能、処理部、処理手段は、それらの一部又は全部を、集積回路で設計することによって、ハードウェアで実現してよい。さらに、上記の各構成、機能は、プロセッサがそれぞれの機能を実現するプログラムを解釈及び実行することによって、ソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、及びファイルのような情報は、メモリ、ハードディスク、若しくはＳＳＤの記録装置、又は、ＩＣカード、ＳＤカード、若しくはＤＶＤのような記録媒体に格納されてよい。

２…分析・比較対象指定表示画面
３…分析結果一覧表示・分析結果詳細選択画面
４…分析結果詳細表示・編集画面
１０…分類信頼度スコアテーブル
１１…トピック抽出信頼度スコアテーブル
１２…新規要求文書表示・編集画面
１３…過去要求文書表示・編集画面
１４…トピック差分表示画面
１５Ａ…再分析開始指示ボタン
１５Ｂ…Ｐｒｅｖボタン
１５Ｃ…Ｎｅｘｔボタン
１００…ユーザ端末
１０４…ハードディスクドライブ
１０５…入出力制御部
１０６…通信制御部
１０７…表示制御部
１０８…入力デバイス
１０９…ディスプレイ
２００…文書分析装置
２０４…ハードディスクドライブ
２０５…入出力制御部
２０６…通信制御部
２０７…表示制御部
２１１…文書分析処理部
２１２…文書分析モデル生成部
２１３…文書分析結果管理部
２１４…文書分析結果入出力部
２１５…文書分析信頼度算出部
２１１１…グループ分類部
２１１２…トピック抽出部
２１１３…トピック差分抽出部
２１１４…新規要求文書作成部
２１２３…ベクトル類似度計算モデル生成部
２１３１…新規要求文書管理部
２１３２…過去要求文書管理部
２１３３…トピックデータ管理部
２１３４…グループデータ管理部
２１３５…文書分析結果データ管理部
２１３６…文書分析結果更新制御部
２１５１…トピック一致率計算部
２１５２…ベクトル類似度計算部
２１５３…トピック一致率・ベクトル類似度差分計算部

Claims

分析の対象である第１の文書に含まれる要求事項を判別して複数のグループに分類するグループ分類部と、
前記複数のグループに分類された前記要求事項に関連する用語をトピックとして抽出するトピック抽出部と、
前記第１の文書とは異なる分析済の第２の文書のグループに含まれるトピックを、前記第１の文書の前記グループに含まれるトピックと比較し、その差分を抽出するトピック差分抽出部と、
前記差分を含む分析の結果を示す分析結果を外部に向けて出力する分析結果出力部と
を備えることを特徴とする、文書分析装置。
前記第１の文書の分析の信頼度を算出する分析信頼度算出部を更に備え、
前記分析信頼度算出部は、
前記第１の文書の要求事項に含まれる前記トピックと、前記第２の文書の中の要求事項に含まれる前記トピックとを比較してトピック一致率を計算するトピック一致率計算部と、
前記第１の文書に含まれる用語のベクトル類似度を計算するベクトル類似度計算部と、
前記トピック一致率と前記ベクトル類似度との差分を計算し、前記第１の文書の分析の信頼度を算出するトピック一致率・ベクトル類似度差分計算部と
を更に備えた、請求項１に記載の文書分析装置。
前記トピック差分抽出部は、前記第１の文書のトピックと前記第２の文書のトピックとの間の差分に従い、前記第１の文書と前記第２の文書とに共通に含まれる共通トピック、前記第１の文書において不足している不足トピック、及び前記第１の文書にのみ存在する新規トピックとを特定する、請求項１に記載の文書分析装置。
前記トピック抽出部は、前記トピックとして抽出された用語を、データベースに従い他の用語に変換するよう構成された、請求項１に記載の文書分析装置。
前記分析結果出力部は、前記グループ分類部による分類の結果、及び前記トピック抽出部により抽出されたトピックを前記分析結果に含めて出力し、外部の装置において前記トピックを編集可能とする、請求項１に記載の文書分析装置。
分析の対象である第１の文書に含まれる要求事項を判別して複数のグループに分類するステップと、
前記複数のグループに分類された前記要求事項に関連する用語をトピックとして抽出するステップと、
前記第１の文書とは異なる分析済の第２の文書のグループに含まれるトピックを、前記第１の文書の前記グループに含まれるトピックと比較し、その差分を抽出するステップと、
前記差分を含む分析の結果を示す分析結果を外部に向けて出力するステップと
をコンピュータに実行させるよう構成された、文書分析用プログラム。
前記第１の文書の分析の信頼度を算出するステップを更に備え、
前記信頼度を算出するステップは、
前記第１の文書の要求事項に含まれる前記トピックと、前記第２の文書の中の要求事項に含まれる前記トピックとを比較してトピック一致率を計算するステップと、
前記第１の文書に含まれる用語のベクトル類似度を計算するステップと、
前記トピック一致率と前記ベクトル類似度との差分を計算し、前記第１の文書の分析の信頼度を算出するステップと
を更に備える、請求項６に記載の文書分析用プログラム。