JP2024033123A - 文書分析装置、及び文書分析用プログラム - Google Patents

文書分析装置、及び文書分析用プログラム Download PDF

Info

Publication number
JP2024033123A
JP2024033123A JP2022136525A JP2022136525A JP2024033123A JP 2024033123 A JP2024033123 A JP 2024033123A JP 2022136525 A JP2022136525 A JP 2022136525A JP 2022136525 A JP2022136525 A JP 2022136525A JP 2024033123 A JP2024033123 A JP 2024033123A
Authority
JP
Japan
Prior art keywords
document
topic
analysis
difference
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022136525A
Other languages
English (en)
Inventor
光博 木谷
マン イウー チャウ
正裕 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Astemo Ltd
Original Assignee
Hitachi Astemo Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Astemo Ltd filed Critical Hitachi Astemo Ltd
Priority to JP2022136525A priority Critical patent/JP2024033123A/ja
Priority to PCT/JP2023/021277 priority patent/WO2024047997A1/ja
Publication of JP2024033123A publication Critical patent/JP2024033123A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/10Requirements analysis; Specification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ソフトウェア開発において過去のソフトウェア資産の効率的な利用を可能とし、ソフトウェア開発の効率を高める。【解決手段】この文書分析装置は、分析の対象である第1の文書に含まれる要求事項を判別して複数のグループに分類するグループ分類部と、前記複数のグループに分類された前記要求事項に関連する用語をトピックとして抽出するトピック抽出部と、前記第1の文書とは異なる分析済の第2の文書のグループに含まれるトピックを、前記第1の文書の前記グループに含まれるトピックと比較し、その差分を抽出するトピック差分抽出部と、前記差分を含む分析の結果を示す分析結果を外部に向けて出力する分析結果出力部とを備える。【選択図】図1B

Description

本発明は、文書分析装置、及び文書分析用プログラムに関する。
ソフトウェア開発において、新規の顧客が提示する新規開発対象のソフトウェアの要求仕様等を説明する文書の分析が行われ、その分析結果に従い、過去のソフトウェア資産の再利用が可能か否かを検討し、再利用が可能であればそれを利用することが一般に知られている。
このような分析・検討は、現状では主に開発者等による人手により、開発者等の知識と経験に基づいて行われているが、顧客要求が多岐に亘ると分析作業も複雑になり、また、過去のソフトウェア資産が増加すると、その探索にも非常に時間が掛かる。結果として、過去のソフトウェア資産を有効に利用することが困難となる。
このような分析・検討をコンピュータが支援するシステムも、例えば特許文献1により知られている。特許文献1は、文書の段落文及び章節をコンピュータにより比較して、二つの文書間の類似度を判定する技術を開示している。この技術では単に新規の文書が過去の文書との比較で新しい段落を含んでいるかを判断できるのみであり、新規のソフトウェア開発において、過去のソフトウェア資産が利用可能か否かの判断に用いることは困難である。
また、新規顧客が、過去のソフトウェア資産の顧客とは異なる場合、要求の記載粒度(プロセス、手法、規格等)が異なる場合があり、新規顧客の要求と、過去のソフトウェア資産での要求との間の差分を的確に抽出することが難しく、結果として利用可能な過去のソフトウェア資産を特定することが難しくなるという問題がある。
特開2015-219799号公報
本開示は、上記の課題に鑑みてなされたものであり、ソフトウェア開発において過去のソフトウェア資産の効率的な利用を可能とし、ソフトウェア開発の効率を高めることを可能にする文書分析装置、及び文書分析用プログラムを提供するものである。
上記の課題を解決するため、本開示に係る文書分析装置は、分析の対象である第1の文書に含まれる要求事項を判別して複数のグループに分類するグループ分類部と、前記複数のグループに分類された前記要求事項に関連する用語をトピックとして抽出するトピック抽出部と、前記第1の文書とは異なる分析済の第2の文書のグループに含まれるトピックを、前記第1の文書の前記グループに含まれるトピックと比較し、その差分を抽出するトピック差分抽出部と、前記差分を含む分析の結果を示す分析結果を外部に向けて出力する分析結果出力部とを備えることを特徴とする。
本開示に係る文書分析装置によれば、ソフトウェア開発において過去のソフトウェア資産の効率的な利用を可能とし、ソフトウェア開発の効率を高めることを可能にする文書分析装置、及び文書分析用プログラムを提供することができる。
第1の実施の形態に係る文書分析装置200、及びユーザ端末100を説明する概略図である。 第1の実施の形態に係る文書分析装置200の構成を更に詳細に説明するブロック図である。 第1の実施の形態に係る文書分析装置200での新規要求文書の分析処理を説明する概略図である。 第2の実施の形態に係る文書分析装置200、及びユーザ端末100を説明する概略図である。 第2の実施の形態の文書分析装置200における、新規要求文書分析処理、新規要求文書の分析結果の表示制御処理、並びにグループ分類の検証処理、トピック抽出の検証、及びスコア算出処理の手順について説明するフローチャートである。 第2の実施の形態の文書分析装置200における、新規要求文書分析処理、新規要求文書の分析結果の表示制御処理、並びにグループ分類の検証処理、トピック抽出の検証、及びスコア算出処理の手順について説明するフローチャートである。 第2の実施の形態のユーザ端末100における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。 第2の実施の形態のユーザ端末100における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。 第2の実施の形態のユーザ端末100における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。 第2の実施の形態のユーザ端末100における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。 第2の実施の形態のユーザ端末100における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。 第2の実施の形態のユーザ端末100における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。 第2の実施の形態のユーザ端末100における分析結果の表示制御処理の手順の一例を説明するフローチャートである。 第2の実施の形態のユーザ端末100における分析結果の表示制御処理の手順の一例を説明するフローチャートである。 第2の実施の形態のユーザ端末100における分析結果の表示制御処理の手順の一例を説明するフローチャートである。 第2の実施の形態の分析結果の表示の更新制御のための手順の一例を説明するフローチャートである。 第2の実施の形態の分析結果の表示の更新制御のための手順の一例を説明するフローチャートである。 第2の実施の形態の新規要求文書の分析結果を更新する更新制御の手順を説明するフローチャートである。
以下、添付図面を参照して本実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本開示の原理に則った実施形態と実装例を示しているが、これらは本開示の理解のためのものであり、決して本開示を限定的に解釈するために用いられるものではない。本明細書の記述は典型的な例示に過ぎず、本開示の特許請求の範囲又は適用例を如何なる意味においても限定するものではない。
本実施形態では、当業者が本開示を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本開示の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
[第1の実施の形態]
図1Aを参照して、第1の実施の形態に係る文書分析装置200、及びユーザ端末100を説明する。第1の実施の形態の文書分析装置200は、ユーザ端末100に接続され、ユーザ端末100から新規に開発されるソフトウェアの設計仕様等に係る文書(以下、「新規要求文書」又は「第1の文書」という)を提供される。
文書分析装置200は、新規要求文書を分析して、その分析結果に従い、既に分析済で分析結果を格納済である過去の要求文書(以下、「過去要求文書」、又は「第2の文書」という)の中から、新規要求文書と共通点を有する文書を特定する。そして、文書分析装置200は、特定された関連する過去要求文書と新規要求文書との間の共通点/相違点/新規特徴等を特定してユーザ端末100に提示する。ユーザ端末100のユーザ(ソフトウェア開発者)は、提示された過去要求文書と、その共通点、相違点、新規特徴に関する情報を見て、その過去要求文書に係る過去のソフトウェア資産が、新規要求文書に係る新規のソフトウェアの開発に利用可能か否かを判断することができる。
ユーザ端末100は、汎用のパーソナルコンピュータ等により構成することができ、例えば、CPU101、ROM102、RAM103、ハードディスクドライブ104、入出力制御部105、通信制御部106、表示制御部107、入力デバイス108、及びディスプレイ109を備える。ハードディスクドライブ104等の記憶装置には、本実施の形態の文書分析装置200の動作のための文書分析用プログラムの一部を構成するユーザインタフェースアプリケーションが格納されている。入力デバイス108からは、ユーザからの各種指示や編集動作等のための入力が行われる。ディスプレイ109には、ユーザインタフェースアプリケーションの実行画面が表示され得る。
文書分析装置200は、同様に汎用のパーソナルコンピュータ等により構成することができ、一例として、CPU201、ROM202、RAM203、ハードディスクドライブ204、入出力制御部205、通信制御部206、表示制御部207を備える。ハードディスクドライブ204等の記憶装置には、本実施の形態の文書分析装置200の動作のための文書分析用プログラムが格納されている。図1Aでは図示は省略しているが、文書分析装置200は、文書分析装置200の管理者等により操作される入力デバイスと、分析動作を確認するためのディスプレイを備えることができる。
文書分析用プログラムは、文書分析処理部211と、文書分析モデル生成部212と、文書分析結果管理部213と、文書分析結果入出力部214とを文書分析装置200において実現する。文書分析処理部211は、新規要求文書のデータを受信し、新規要求文書に係る各種分析を実行する部分である。また、文書分析モデル生成部212は、文書分析処理部211での分析に使用される文書分析モデル(要求分類モデル、固有表現抽出モデル)を生成する部分である。
文書分析結果管理部213は、新規要求文書の分析結果に関するデータ、過去要求文書の分析結果に関するデータ、その他分析に用いられる各種データを管理する役割を有する。文書分析結果入出力部214は、新規要求文書の分析結果をユーザ端末100において表示するための表示データを生成してユーザ端末100に出力すると共に、ユーザ端末100等からの各種入力を受けて、この表示データを変更する機能を有する。
図1Bに示すように、文書分析処理部211は更に、一例として、グループ分類部2111、トピック抽出部2112、トピック差分抽出部2113、新規要求文書作成部2114を備える。グループ分類部2111は、分析の対象である新規要求文書に含まれる要求事項を判別して複数のグループに分類する機能を有する。トピック抽出部2112は、複数のグループに分類された要求事項に含まれる用語(キーワード)に関連する用語をトピックとして抽出する役割を有する。トピック差分抽出部2113は、分析済の過去要求文書の一のグループに含まれるトピックを、新規要求文書のグループに含まれるトピックと比較し、その差分を抽出する役割を有する。新規要求文書作成部2114は、差分の抽出の結果を含む新規要求文書を生成する機能を有する。なお、トピック差分抽出部2113は、差分に基づいて算出されるトピック一致率、ベクトル類似度を演算する機能も有し得る。
文書分析モデル生成部212は、文書分析処理部211のグループ分類部2111での分類処理に用いる要求分類モデル2121を生成すると共に、トピック抽出部2112でトピックの抽出に用いられる固有表現抽出モデル2122を生成する。要求分類モデル2121と固有表現抽出モデル2122は、一体として文書分析モデルを構成する。文書分析モデルは、自然言語処理及び機械学習の技術を利用して、適宜更新され得る。トピック抽出部2112は、マルチラベル要求分類モデル2121’と固有表現抽出モデル2122の何れか一方、または両方によって構成され得る。マルチラベル要求分類モデル2121’は、トピック抽出部2112に複数のトピックを抽出する能力を持たせるためのモデルである。一方、要求分類モデル2121は単一のラベル(グループ)に限定される。要求分類モデル2121、2121’や、固有表現抽出モデル2122は互いに異なるモデル(ソフトウェア)として実装され得る。
なお、固有表現抽出モデル2122は、場合によって省略することも可能である。また、要求分類モデル2121と固有表現抽出モデル2122は、グループに応じて別々のモデルを生成しても良い。例えばグループ数が10の場合は、固有表現抽出モデル2122と要求分類モデル2121が10個ずつ生成されてもよい。
文書分析結果管理部213は更に、一例として、新規要求文書管理部2131、過去要求文書管理部2132、トピックデータ管理部2133、グループデータ管理部2134、文書分析結果データ管理部2135、及び文書分析結果更新制御部2136を備える。
新規要求文書管理部2131は、新規要求文書を管理する役割を有し、具体的には、例えば、新規要求文書の原文データ、新規要求文書についてのグループ分類部2111での分類結果、トピック抽出部2112での抽出結果、その他新規要求文書に関するデータを管理する。過去要求文書管理部2132は、過去要求文書を管理する役割を有し、具体的には、過去要求文書の原文データ、過去要求文書についてのグループ分類部2111での分類結果、トピック抽出部2112での抽出結果、その他過去要求文書に関するデータを管理する。
トピックデータ管理部2133は、トピック抽出部2112におけるトピック抽出処理において利用され、トピックに関するデータをデータベースを用いて管理する。グループデータ管理部2134は、グループ分類部2111における分類処理において利用され、グループに関するデータをデータベースを用いて管理する。文書分析結果データ管理部2135は、新規要求文書の分析の結果としての分析結果データを管理する役割を有する。文書分析結果更新制御部2136は、分析結果データを更新するための更新制御を担当する。
図2を参照して、文書分析装置200での新規要求文書の分析処理を説明する。図2の左上に示すように、新規要求文書は、複数の要求事項New Req-iを含んでいる。同様に、過去要求文書も、複数の要求事項Old Req-iを含んでいる。ここで、「要求事項」は、一の文書においてシステムやサービスの開発についての各種の要求を表現した文章である。要求事項は、単一の文(一の句点のみを有する文)であってもよいし、複数の文であってもよい。
新規要求文書の要求事項New Req-iは、その内容に応じて、要求分類モデル、グループデータベースに従い、グループ分類部2111において複数のグループに分類される。グループは、一例として、図2に示すように、「物体検知」、「診断」、「センサ性能」等を含む。過去要求文書の要求事項Old Req-iも、同様にして複数グループに分類される。
複数のグループのいずれかに分類された要求事項New Req-iは、トピック抽出部2112において、トピック抽出処理の対象とされ、要求事項New Req-iに含まれる用語がトピックとして抽出される。グループ分類、及びトピック抽出の結果は、新規要求文書管理部2131に格納される。
なお、抽出されたトピックの表現(用語)は、トピックデータベースに従い、他の用語に適宜変換される(例えば「走行レーン」が「白線」に変更される)。すなわち、「トピック」は、新規要求文書又は過去要求文書の原文に含まれる用語それ自体である他、それに関連する用語(例:上位概念の用語、下位概念の用語、類義語など)を含み得る。過去要求文書も、同様にトピック抽出の対象とされ、その抽出の結果は過去要求文書管理部2132に格納される。
新規要求文書管理部2131に新規要求文書のグループ分類及びトピック抽出の結果が格納されると、文書分析処理部211のトピック差分抽出部2113により、過去要求文書管理部2132に格納された過去要求文書と、対応するグループ間でのトピックの比較が実行され、両者の間のトピックの差分(新規要求文書と過去要求文書との間で一致するトピック、新規要求文書において欠落するトピック、新規要求文書において新規のトピック)が抽出される。このような抽出が、新規要求文書と、複数の過去要求文書との間で実行される。ユーザ端末100のユーザは、この抽出の結果を見て、最も新規要求文書に近い過去要求文書を特定し、その過去要求文書に係る過去のソフトウェア資産を新規要求文書に係るソフトウェア開発に利用することができる。
なお、トピック差分抽出部2113は、同一又は関連するグループ名を有するグループ間でのトピックの差分を抽出するものであってもよいが、これに限らず、異なるグループ名を有するグループ間でのトピックの差分を抽出することが可能とされてもよい。また、トピック差分抽出部2113での比較分析の対象は、2つのグループに限定される必要はなく、トピックが比較できる限りにおいて、比較分析の対象は不問である。例えば、新規要求文書中の要求事項New Reqと、比較対象の過去要求文書のグループとが比較対象とされても良い。
以上説明したように、第1の実施の形態の文書分析装置200によれば、文書内に含まれる要求事項がグループに分類され、更にグループ内において、その要求事項中の用語がトピックとして抽出される。そして、そのグループ毎にトピックが比較されることで、過去要求文書との類似度が判定される。これによれば、新規要求文書と近似する過去要求文書を正確に特定することができる。
[第2の実施の形態]
次に、図3を参照して、第2の実施の形態の文書分析装置200を説明する。第2の実施の形態の文書分析装置200は、第1の実施の形態と同様に、ユーザ端末100に接続され、ユーザ端末100から新規に開発されるソフトウェアの設計仕様等に係る文書(以下、「新規要求文書」又は「第1の文書」という)を提供される。ただし、この第2の実施の形態の文書分析装置は、文書分析の結果の信頼度を算出する文書分析信頼度算出部215を備えていると共に、文書分析モデル生成部212がベクトル類似度計算モデル生成部2123を備えており、この点で第1の実施の形態と異なっている。文書分析の結果の信頼度が算出され、ユーザ端末100に提示されることで、より文書の分析結果の判断を正確に行うことが可能になる。
文書分析信頼度算出部215は、一例として、トピック一致率計算部2151、ベクトル類似度計算部2152、トピック一致率・ベクトル類似度差分計算部2153を備えている。トピック一致率計算部2151は、新規要求文書と過去要求文書との間のグループ内におけるトピックの一致の度合を示すトピック一致率を計算する機能を有する。ベクトル類似度計算部2152は、新規要求文書と過去要求文書と間のグループ内におけるトピックの類似度をコサイン類似度などのベクトル類似度として計算する機能を有する。トピック一致率・ベクトル類似度差分計算部2153は、トピック一致率計算部2151で演算されたトピック一致率と、ベクトル類似度計算部2152で演算されたベクトル類似度との間の差分を計算し、この差分を閾値と比較する機能を有する。当該差分と閾値との差異に従い、文書分析の信頼度を判断することができる。
次に、図4A及び図4Bのフローチャートを参照して、第2の実施の形態の文書分析装置200における、新規要求文書分析処理、新規要求文書の分析結果の表示制御処理、並びにグループ分類の検証処理、トピック抽出の検証、及びスコア算出処理の手順について説明する。
新規要求文書分析処理においては、まず、新規要求文書に含まれる要求事項についてのグループ分類が実行される(ステップS11)。そして、分類された要求事項に含まれる用語をトピックとして抽出する(ステップS12、S13)。ステップS12では、新規要求文書からのトピック抽出が固有表現抽出モデルに従って実行され、ステップS13では、新規要求文書から抽出されたトピックに係る用語が、トピックデータベースに従って他の用語に変換される。ステップS12及びS13でのトピック抽出の結果に従い、グループ分類及びトピック抽出された新規要求文書を作成する(ステップS14)。
次に、過去要求文書管理部2132から、過去要求文書のグループ情報を取得すると共に、過去要求文書のトピック抽出情報を取得する(ステップS15、S16)。そして、必要に応じてグループ単位でトピックの置き換えを行った過去要求文書が作成される(ステップS17)。このようにして生成された新規要求文書と、過去要求文書とが、グループ単位にてトピックの差分抽出の対象とされる(ステップS18)。
新規要求文書と過去要求文書との間のグループ間のトピックの差分が抽出されると、その差分に基づき、グループ間のトピック一致率が計算される(ステップS21)。更に、新規要求文書において、グループ単位でベクトル類似度の平均値が算出されると共に(ステップS22)、過去要求文書において、グループ単位でベクトル類似度の平均値に関する情報が、過去要求文書管理部2132から読み出され、取得される(ステップS23)。そして、新規要求文書と過去要求文書との間のグループ間のベクトル類似度の差分が算出される(ステップS24)。更に、新規要求文書と過去要求文書との間で、トピック一致率とベクトル類似度の差分が計算され、これにより文書分析の信頼度が判定される(ステップS25)。そして、上記の各種計算の結果に従った分析が実行され、その分析結果がユーザ端末100において表示される(ステップS26)。
図5及び図6を参照して、ユーザ端末100における新規要求文書と過去要求文書との間の比較結果についての画面表示例を説明する。図5は、その画面の概要であり、図6は、その詳細例を示している。この画面は、一例として、分析・比較対象指定表示画面2と、分析結果一覧表示・分析結果詳細選択画面3と、分析結果詳細表示・編集画面4とを含む。分析・比較対象指定表示画面2は、新規要求文書を分析・比較対象として指定(選択)するための画面と、新規要求文書と比較すべき過去要求文書を指定(選択)する画面と、両者の分析スコアを選択する画面とを含む。
分析結果一覧表示・分析結果詳細選択画面3は、新規要求文書の分析結果を一覧表示すると共に、その分析結果の詳細を選択的に表示するための画面である。分析結果一覧表示・分析結果詳細選択画面3は更に、一例として、分類信頼度スコアテーブル10と、トピック抽出信頼度スコアテーブル11とを含んでいる。分類信頼度スコアテーブル10は、グループ分類における判定の信頼度をスコアとして表示する。トピック抽出信頼度スコアテーブル11は、トピック抽出部2112におけるトピック抽出の処理の信頼度をスコアとして表示する。
分析結果詳細表示・編集画面4は、一例として、新規要求文書表示・編集画面12、過去要求文書表示・編集画面13、トピック差分表示画面14を備える。新規要求文書表示・編集画面12は、新規要求文書についての分析結果を表示し編集するための画面である。過去要求文書表示・編集画面13は、新規要求文書と比較される過去要求文書についての分析結果を表示し編集するための画面である。トピック差分表示画面14は、新規要求画面と過去要求画面との差分、及び差分に係る各種ファクタを表示する画面である。
図6に示すように、新規要求文書表示・編集画面12は、新規要求文書に関するグループ分類の結果としてのグループ名表示欄12A、新規要求文書の原文データを表示する原文表示欄12B、抽出されたトピックと対応する原文中のワードとの対応関係を示すトピック/原文ワード表示欄12Cを備えている。欄12A~12Cの下方には、これらのデータに関する編集、保存、分析完了を指示するためのアイコンが表示されていてもよい。図7に、欄12A~12Cにおける表示の具体例を示す。原文表示欄12Bにおいては、例えば記号(<>等)により、トピックの原文中の存在位置を指称することが可能である。図12Cのトピック/原文ワード表示欄12Cでは、トピックと原文対応箇所との関係を把握することができ、また、トピックの表現を、ユーザ端末100側にてユーザが編集することも可能である。また、トピック文字列や原文対応箇所を確認して、その用語をトピックデータベース等に登録することも可能である。なお、欄12Bと欄12Cは、図8に示すように一の欄に合成して表示されてもよい。
過去要求文書表示・編集画面13は、新規要求文書との比較対象とされる過去要求文書に関するグループ分類の結果としてのグループ名表示欄13A、過去要求文書の原文データを表示する原文表示欄13B、抽出されたトピックと対応する原文中のワードとの対応関係を示すトピック/原文ワード表示欄13Cを備えている。欄13A~13Cの下方には、これらのデータに関する編集、保存を指示するためのアイコンが表示されていてもよい。図7に、欄13A~13Cにおける表示の具体例を示す。
なお、分析結果詳細表示・編集画面4は、再分析開始指示ボタン15A、Prevボタン15B、及びNextボタン15Cを備えている。再分析開始指示ボタン15Aは、欄12、13に表示中の新規要求文書、過去要求文書に対する分析を再度実行することを指示する画面である。Prevボタン15B、Nextボタン15Cは、分析・比較対象指定表示画面2で絞り込みされた分析結果一覧の表示を切り替えるためのボタンである。過去要求文書表示・編集画面13に表示される過去要求文書を切り替えるためのボタンであり、これが押されることにより、分析・比較対象指定表示画面2に表示される新規要求文書・過去要求文書・その他が切り替わり、新たな分析結果がトピック差分表示画面14に表示される。
トピック差分表示画面14は、画面12に表示される新規要求文書と、画面13に表示される過去要求文書との間のトピックの差分をグループ単位で表示するための画面であり、具体的には、両文書に共通するトピックを「共通トピック」として、過去要求文書にのみ存在し新規要求文書では不足(欠落)しているトピックを「不足トピック」として、新規要求文書でのみ登場するトピックを「新規トピック」として表示する。図7に、トピック差分表示画面14の表示の具体例を示す。
図9を参照して、ユーザ端末100における新規要求文書と過去要求文書との間の比較結果についての画面表示の第1の変形例を説明する。この図9の画面表示は、新規要求文書表示・編集画面12と、過去要求文書表示・編集画面13において、抽出されたトピックの文字列と、そのトピックに対応する用語が原文中で登場する位置を示すトピック文字列・原文内位置表示欄12D、13Dを備えており、この点において図6の表示例と異なっている。トピックの文字列と、対応する用語の原文中での登場位置が示されることにより、より新規要求文書と過去要求文書との比較が容易になる。
図10を参照して、ユーザ端末100における新規要求文書と過去要求文書との間の比較結果についての画面表示の第2の変形例を説明する。この図10の画面表示は、新規要求文書表示・編集画面12、及び過去要求文書表示・編集画面13が複数組並列に表示されており、この点において図6の表示例と異なっている。これにより、複数の過去要求文書の比較結果が一の画面に表示される。ユーザ端末100のユーザは、複数の過去要求文書のうちのどれが新規要求文書との間で高い類似性を有しているかを一層容易に判定することができる。
図11~図12Bのフローチャートを参照して、ユーザ端末100における分析結果の表示制御処理の手順の一例を説明する。まず、新規要求文書と複数の過去要求文書とを比較・分析した結果としての分析結果一覧を並べ替える手順であるステップS31、S32が実行される。ステップS31は、一例として、ベクトル類似度スコアを複数の過去要求文書の間で比較し、ベクトル類似度スコアが高い順に分析結果を並び替えるものである。また、ステップS32は、一例として、グループ分類の一致度を複数の過去要求文書の間で比較し、一致度が高い順に分析結果を並び替えるものである(図12B参照)。なお、ステップS31では、図12Aに示すように、ベクトル類似度スコアの昇順で分析結果を並び替えると共に(ステップS31A)、トピック一致率とベクトル類似度の間の差分のスコアに従い分析結果を降順に並び替えるようにすることもできる(ステップS31B)。更に、トピック一致率で昇順に分析結果を並び替えると共に(ステップS31C)、ベクトル類似度とトピック一致率との間の差分のスコアに従い分析結果を降順に並び替えるようにすることもできる(ステップS31D)。
ステップS33では、分析結果表示終了指示が発行されているか否かが判定され、発行されていれば(Y)図11の手順は終了し、発行されていなければ(N)、ステップS34に移行する。
ステップS34では、指定された分析対象としての新規要求文書の情報に基づいてデータ選択及びフィルタリングが実行される。分析対象の指定は、例えば、文書名・グループ名・トピック名を指定して実行され得る。続くステップS35では、指定された比較対象としての過去要求文書の情報に基づいてデータ選択及びフィルタリングが実行される。分析対象の指定は、例えば、過去要求文書の文書名・グループ名・トピック名を指定して実行され得る。
ステップS36では、分析対象の指定において、グループの指定が無いか否かが判定されている。グループの指定があれば(N)ステップS37に移行し、グループの指定がなければ(Y)ステップS38に移行する。
ステップS37では、指定されたグループに従い、その指定に係るグループについてのグルーピングの結果、当該グループの原文、当該グループ内でのトピック抽出結果、その抽出されたトピックと、比較対象の過去要求文書の対応グループとの間のトピックの差分等が表示される。
一方、ステップS38では、指定された新規要求文書に従い、その指定に係る新規要求文書に含まれる複数のグループの各々についてのグルーピングの結果、当該複数のグループの原文、当該複数のグループの各々でのトピック抽出結果、その抽出されたトピックと、比較対象の過去要求文書の対応グループとの間のトピックの差分等が表示される。上記のような表示制御手順が分析結果表示終了指示が発行されるまで継続される(ステップS33)。
次に、図13を参照して、分析結果の表示の更新制御のための手順の一例を説明する。
まず、再分析開始指示が再分析開始指示ボタン15A等により行われた場合(ステップS51のY)、画面に表示中の新規要求文書及び過去要求文書について図4A、図4Bの手順が実行され、図13の手順は終了する。一方、分析結果の表示の更新の指示がされた場合には(ステップS51のN)、新たな分析の対象としての新規要求文書のデータが、例えば新規要求文書表示・編集画面12に表示される(ステップS52)。
そして、分析対象のグループの変更が必要であるか否かが判断され(ステップS53)、必要であれば(Y)、グループを変更するためのグループ変更フローが実施される(ステップS54)。また、分析対象のトピックの変更が必要であるか否かが判断され(ステップS55)、必要であれば、分析対象のトピックを変更するトピック変更フローが実施される(ステップS56)。このようにして分析対象の更新制御が完了し、再分析開始指示ボタン15Aが押されることで、同様に分析処理が実行される。
図14の左側のフローチャートは、グループ変更フロー(ステップS54)の詳細な手順の一例を示している。グループ変更が指示されると、分析・比較対象指定表示画面2において、分析対象の新規要求文書に含まれるグループの一覧が表示される(ステップS54A)。ユーザ端末100のユーザは、このグループの一覧を見て、その一覧中に、次の分析の候補としたいグループが存在するか否かが判断される(ステップS54B)。もし、一覧中に次の分析の候補となるグループがあれば(Y)、そのグループをグループ一覧から選択する(ステップS54C)。候補となるグループが見つからない場合には(N)、新規のグループ名を図示しない検索ボックスから入力することで検索し、対応するグループを特定する(ステップS54D)。次の分析の対象となるグループが特定されたら、該当する新規要求文書の編集の有無を示す編集有無フラグを”TRUE”に設定する。
また、図14の右側のフローチャートは、トピック変更フロー(ステップS56)の詳細な手順の一例を示している。トピック変更が指示されると、分析・比較対象指定表示画面2において、分析対象の新規要求文書に含まれるトピックのうち、変更するトピックを削除すると共に(ステップS56A)、新規要求文書内におけるトピックの位置を選択することで(ステップS56B)、その位置に対応するトピックの一覧を表示する(ステップS56C)。ユーザ端末100のユーザは、その一覧を見て、一覧中に判定の候補となるトピックが存在するか否かを判定する(ステップS56D)。候補となるトピックがあれば(Y)、トピックの一覧から、その候補を選択する(ステップS56E)。候補となるトピックがなければ(N)、新規のトピック名を図示しない検索ボックスから入力することで検索し、対応するトピックを特定する(ステップS56F)。次の分析の対象となるトピックが特定されたら、該当する新規要求文書の編集を示す編集ありフラグを”TRUE”に設定する。
次に、図15のフローチャートを参照して、新規要求文書の分析結果を更新する更新制御の手順を説明する。まず、新規要求文書管理部2131、過去要求文書管理部2132において、ユーザが更新した最新の新規・過去要求文書が受信・取得されると(ステップS61)、その新規要求文書についての文書分析結果の更新要求があるか否かが判定される(ステップS62)。更新要求がなければ動作を終了するが(N)、更新要求がある場合(Y)、再分析要否フラグが“TRUE”になっているかが判定される(ステップS63)。TRUEであれば、文書分析モデル生成部212において文書分析モデルが更新(再学習)され(ステップS64)、その文書分析モデルによる新規要求文書の再分析が実行される(ステップS65~S69)。具体的には、ステップS66では、新規要求文書の分析が確定したか否かを示すフラグが“FALSE”(分析が未確定)であれば、図4Aの手順(ステップS11~S18:新規要求文書分析フロー(1))が実行される。新規要求文書の分析が確定しており、文書分析確定フラグが“TRUE”となっていれば(N)、ステップS11~S18は省略して、図4Bの手順(ステップS21~S26:新規要求文書分析フロー(2)、(3))が実行される。
以上、実施の形態について説明したが、以下のような文書分析手法を採用することも可能である。
(1)新規要求文書と過去要求文書の顧客(=文書発行元)一致数によって設定された信頼度係数RNCUを、文書間類似度を示す数値や、トピック一致率等に乗算し、信頼度スコアを再計算することができる。新規要求文書と過去要求文書との間の文書発行元一致数が多いほど、分析結果の信頼度は向上することに基づく。
(2)新規要求文書と過去要求文書の要求グループの一致数によって設定された信頼度係数RNRGを、文書間類似度を示す数値や、トピック一致率に乗算し、信頼度スコアを再計算する。同一のグループの出現回数が多いほど、分析結果の信頼度は向上することに基づく。
(3)新規要求文書の要求総数(M)と、過去要求文書の要求総数(N)の比率に応じた信頼度係数RRNRを、文書間類似度を示す数値や、トピック一致率に乗算し、信頼度スコアを再計算する。新規要求文書の要求総数(M)と、過去要求文書の要求総数(N)の比率が1に近いほど、分析結果の信頼度は向上することに基づく。
なお、本発明は上記した各実施形態に限定されるものではなく、様々な変形例が含まれる。上記した各実施形態は本発明を分かりやすく説明するために詳細に説明されたものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。さらに、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、さらに、ある実施形態の構成に他の実施形態の構成を加えることも可能である。さらに、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
さらに、上記の各構成、機能、処理部、処理手段は、それらの一部又は全部を、集積回路で設計することによって、ハードウェアで実現してよい。さらに、上記の各構成、機能は、プロセッサがそれぞれの機能を実現するプログラムを解釈及び実行することによって、ソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、及びファイルのような情報は、メモリ、ハードディスク、若しくはSSDの記録装置、又は、ICカード、SDカード、若しくはDVDのような記録媒体に格納されてよい。
2…分析・比較対象指定表示画面
3…分析結果一覧表示・分析結果詳細選択画面
4…分析結果詳細表示・編集画面
10…分類信頼度スコアテーブル
11…トピック抽出信頼度スコアテーブル
12…新規要求文書表示・編集画面
13…過去要求文書表示・編集画面
14…トピック差分表示画面
15A…再分析開始指示ボタン
15B…Prevボタン
15C…Nextボタン
100…ユーザ端末
104…ハードディスクドライブ
105…入出力制御部
106…通信制御部
107…表示制御部
108…入力デバイス
109…ディスプレイ
200…文書分析装置
204…ハードディスクドライブ
205…入出力制御部
206…通信制御部
207…表示制御部
211…文書分析処理部
212…文書分析モデル生成部
213…文書分析結果管理部
214…文書分析結果入出力部
215…文書分析信頼度算出部
2111…グループ分類部
2112…トピック抽出部
2113…トピック差分抽出部
2114…新規要求文書作成部
2123…ベクトル類似度計算モデル生成部
2131…新規要求文書管理部
2132…過去要求文書管理部
2133…トピックデータ管理部
2134…グループデータ管理部
2135…文書分析結果データ管理部
2136…文書分析結果更新制御部
2151…トピック一致率計算部
2152…ベクトル類似度計算部
2153…トピック一致率・ベクトル類似度差分計算部

Claims (7)

  1. 分析の対象である第1の文書に含まれる要求事項を判別して複数のグループに分類するグループ分類部と、
    前記複数のグループに分類された前記要求事項に関連する用語をトピックとして抽出するトピック抽出部と、
    前記第1の文書とは異なる分析済の第2の文書のグループに含まれるトピックを、前記第1の文書の前記グループに含まれるトピックと比較し、その差分を抽出するトピック差分抽出部と、
    前記差分を含む分析の結果を示す分析結果を外部に向けて出力する分析結果出力部と
    を備えることを特徴とする、文書分析装置。
  2. 前記第1の文書の分析の信頼度を算出する分析信頼度算出部を更に備え、
    前記分析信頼度算出部は、
    前記第1の文書の要求事項に含まれる前記トピックと、前記第2の文書の中の要求事項に含まれる前記トピックとを比較してトピック一致率を計算するトピック一致率計算部と、
    前記第1の文書に含まれる用語のベクトル類似度を計算するベクトル類似度計算部と、
    前記トピック一致率と前記ベクトル類似度との差分を計算し、前記第1の文書の分析の信頼度を算出するトピック一致率・ベクトル類似度差分計算部と
    を更に備えた、請求項1に記載の文書分析装置。
  3. 前記トピック差分抽出部は、前記第1の文書のトピックと前記第2の文書のトピックとの間の差分に従い、前記第1の文書と前記第2の文書とに共通に含まれる共通トピック、前記第1の文書において不足している不足トピック、及び前記第1の文書にのみ存在する新規トピックとを特定する、請求項1に記載の文書分析装置。
  4. 前記トピック抽出部は、前記トピックとして抽出された用語を、データベースに従い他の用語に変換するよう構成された、請求項1に記載の文書分析装置。
  5. 前記分析結果出力部は、前記グループ分類部による分類の結果、及び前記トピック抽出部により抽出されたトピックを前記分析結果に含めて出力し、外部の装置において前記トピックを編集可能とする、請求項1に記載の文書分析装置。
  6. 分析の対象である第1の文書に含まれる要求事項を判別して複数のグループに分類するステップと、
    前記複数のグループに分類された前記要求事項に関連する用語をトピックとして抽出するステップと、
    前記第1の文書とは異なる分析済の第2の文書のグループに含まれるトピックを、前記第1の文書の前記グループに含まれるトピックと比較し、その差分を抽出するステップと、
    前記差分を含む分析の結果を示す分析結果を外部に向けて出力するステップと
    をコンピュータに実行させるよう構成された、文書分析用プログラム。
  7. 前記第1の文書の分析の信頼度を算出するステップを更に備え、
    前記信頼度を算出するステップは、
    前記第1の文書の要求事項に含まれる前記トピックと、前記第2の文書の中の要求事項に含まれる前記トピックとを比較してトピック一致率を計算するステップと、
    前記第1の文書に含まれる用語のベクトル類似度を計算するステップと、
    前記トピック一致率と前記ベクトル類似度との差分を計算し、前記第1の文書の分析の信頼度を算出するステップと
    を更に備える、請求項6に記載の文書分析用プログラム。
JP2022136525A 2022-08-30 2022-08-30 文書分析装置、及び文書分析用プログラム Pending JP2024033123A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022136525A JP2024033123A (ja) 2022-08-30 2022-08-30 文書分析装置、及び文書分析用プログラム
PCT/JP2023/021277 WO2024047997A1 (ja) 2022-08-30 2023-06-08 文書分析装置、及び文書分析用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022136525A JP2024033123A (ja) 2022-08-30 2022-08-30 文書分析装置、及び文書分析用プログラム

Publications (1)

Publication Number Publication Date
JP2024033123A true JP2024033123A (ja) 2024-03-13

Family

ID=90099329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022136525A Pending JP2024033123A (ja) 2022-08-30 2022-08-30 文書分析装置、及び文書分析用プログラム

Country Status (2)

Country Link
JP (1) JP2024033123A (ja)
WO (1) WO2024047997A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4945383B2 (ja) * 2007-09-07 2012-06-06 株式会社日立ハイテクノロジーズ 仕様書内容検査方法および仕様書内容検査システム
JP2013105288A (ja) * 2011-11-14 2013-05-30 Hitachi Ltd 要求仕様記述支援方法
WO2017199443A1 (ja) * 2016-05-20 2017-11-23 三菱電機株式会社 テンプレート生成装置、テンプレート生成プログラム及びテンプレート生成方法

Also Published As

Publication number Publication date
WO2024047997A1 (ja) 2024-03-07

Similar Documents

Publication Publication Date Title
US10073827B2 (en) Method and system to generate a process flow diagram
JP2010520531A (ja) 統合ピンイン及び画入力
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
JP2022037955A (ja) 学習モデルを選択するシステム
JP2020113129A (ja) 文書評価装置、文書評価方法及びプログラム
JP2007304796A (ja) データベース解析システム及びデータベース解析方法及びプログラム
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JP5780036B2 (ja) 抽出プログラム、抽出方法及び抽出装置
JP2013050890A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
WO2024047997A1 (ja) 文書分析装置、及び文書分析用プログラム
US20190265954A1 (en) Apparatus and method for assisting discovery of design pattern in model development environment using flow diagram
JP6229512B2 (ja) 情報処理プログラム、情報処理方法及び情報処理装置
JP7415495B2 (ja) 文書処理プログラム、文書処理装置、及び文書処理方法
JP2009134378A (ja) 文書群提示装置および文書群提示プログラム
JP2018156552A (ja) 計算機システム及び文章データの検索方法
JP2021189835A (ja) 情報処理装置、情報処理方法、及びプログラム
JP5803481B2 (ja) 情報処理装置及び情報処理プログラム
JP6677624B2 (ja) 分析装置、分析方法、および分析プログラム
JP2021152751A (ja) 分析支援装置及び分析支援方法
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP2939841B2 (ja) データベース検索装置
JP2014146076A (ja) 文字列抽出方法、文字列抽出装置、および文字列抽出プログラム
JP6413597B2 (ja) 分析プログラム、分析方法及び分析装置
KR20200057206A (ko) 문서 내 언급되지 않은 정보를 가시화하기 위한 방법 및 시스템
JP2019086934A (ja) 文書検索装置および方法