JP2022048762A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2022048762A
JP2022048762A JP2020154763A JP2020154763A JP2022048762A JP 2022048762 A JP2022048762 A JP 2022048762A JP 2020154763 A JP2020154763 A JP 2020154763A JP 2020154763 A JP2020154763 A JP 2020154763A JP 2022048762 A JP2022048762 A JP 2022048762A
Authority
JP
Japan
Prior art keywords
information
function
unit
estimation
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020154763A
Other languages
English (en)
Other versions
JP7362577B2 (ja
Inventor
岳 石井
Takeshi Ishii
英一 砂川
Eiichi Sunagawa
瑞剛 張
Rui Gang Zhang
伸一 長野
Shinichi Nagano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020154763A priority Critical patent/JP7362577B2/ja
Publication of JP2022048762A publication Critical patent/JP2022048762A/ja
Application granted granted Critical
Publication of JP7362577B2 publication Critical patent/JP7362577B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書に内容の不整合が生じていないかについて、より容易に確認できるようにする。【解決手段】情報処理装置は、抽出部と、検索部と、推定部と、を備える。抽出部は、第1機能を実行することを示す複数の第1情報を含む1以上の文書から、第1機能の前提となる第2機能を示す第2情報を含む1以上の第1情報を抽出し、抽出した第1情報から第2情報を抽出する。検索部は、抽出された第2情報について、第2情報が示す第2機能に対応する第1機能を実行することを示す第1情報の候補を文書から検索する検索処理を実行する。推定部は、検索処理により検索された候補が、第2機能を実行することを示す第1情報であるか否かを推定する。【選択図】図1

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
通常、大規模システムは、複数の事業者の共同により開発および構築が行われる。システムの開発および構築にあたっては、その仕様を文書(仕様書)に記載する。仕様が多岐にわたったり、仕様書が契約文書となったりする等の理由から、各事業者がそれぞれの担当範囲を記載した仕様書を作成するのが一般的である。
砂川 英一、長野 伸一、"既存システムの設計文書群からの機能モデル抽出の試み"、人工知能学会セマンティックウェブとオントロジー研究会、SIG-SWO-044-01、2018年
大規模システムの仕様書などの文書に内容の不整合が生じていないかについて、より容易に確認できるようにすることが望ましい。
実施形態の情報処理装置は、抽出部と、検索部と、推定部と、を備える。抽出部は、第1機能を実行することを示す複数の第1情報を含む1以上の文書から、第1機能の前提となる第2機能を示す第2情報を含む1以上の第1情報を抽出し、抽出した第1情報から第2情報を抽出する。検索部は、抽出された第2情報について、第2情報が示す第2機能に対応する第1機能を実行することを示す第1情報の候補を文書から検索する検索処理を実行する。推定部は、検索処理により検索された候補が、第2機能を実行することを示す第1情報であるか否かを推定する。
実施形態にかかる情報処理装置のブロック図。 実施形態における推定処理のフローチャート。 生成されるクエリの一例を示す図。 検索・推定処理のフローチャート。 推定結果を表示する表示画面の一例を示す図。 修正画面の一例を示す図。 結果表示画面の一例を示す図。 修正画面の一例を示す図。 推定処理の具体例を示す図。 推定処理の具体例を示す図。 実施形態にかかる情報処理装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。
上記のように、例えば電力および社会インフラ等の大規模システムでは、複数の事業者により開発および構築が行われうる。事業者は、自身の担当範囲の仕様を文書(仕様書など)に記載するため、担当外の仕様は「与件(与えられる条件)」として記載する。与件は、ある機能(動作、行為、ふるまい、作用)の前提となる他の機能を示すと解釈することができる。
与件に関して、複数の事業者間での認識の違いが生じ、仕様書に記載不備が発生するとシステムに不整合が生じる。また通常、大規模システムは、開発および構築後に増改築が行われる。従って、同一の事業者内であっても、現在の担当者と前任者との間での認識の違いが生じ、仕様書に記載不備が発生するとシステムに不整合が生じる。
このような不整合を防ぐために、関係者間での仕様の読み合わせ等の確認を行う方法がある。しかしこのような方法では、分量が膨大となる大規模システムの仕様書では、確認のための負荷が過大となり、人為的な確認漏れなどが生じる可能性もある。
そこで本実施形態では、大規模システムの仕様書などの文書に内容の不整合が生じていないかについて、より容易に確認できる情報処理装置、情報処理方法およびプログラムを提供する。これにより、例えば、大規模システムの開発および構築における仕様不整合の削減、および、仕様不整合を防ぐための確認の負荷の削減などを実現できる。
図1は、本実施形態にかかる情報処理装置100の構成の一例を示すブロック図である。図1に示すように、情報処理装置100は、受付部101と、抽出部102と、生成部103と、検索部104と、推定部105と、出力制御部106と、更新部107と、文書記憶部121と、抽出モデル記憶部122と、生成モデル記憶部123と、推定モデル記憶部124と、表示部131と、とを備えている。
文書記憶部121は、解析の対象とする文書を記憶する。抽出モデル記憶部122は、抽出部102が文書から与件を含む文を抽出するために用いる抽出モデルに関する情報を記憶する。生成モデル記憶部123は、生成部103がクエリを生成するために用いる生成モデルに関する情報を記憶する。推定モデル記憶部124は、推定部105が推定処理に用いる推定モデルに関する情報を記憶する。各モデルの詳細は後述する。
なお、各記憶部(文書記憶部121、抽出モデル記憶部122、生成モデル記憶部123、推定モデル記憶部124)は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。各記憶部は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶部のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。
表示部131は、出力制御部106による制御に応じて各種情報を表示するための表示装置である。表示部131は、例えば液晶ディスプレイなどにより構成することができる。
受付部101は、情報処理装置100で用いる各種情報の入力を受け付ける。例えば受付部101は、解析の対象とする1以上の文書の入力を受け付ける。受け付けられた文書は、例えば文書記憶部121に記憶される。文書は、識別情報、分類情報、作成者および作成日時の少なくとも一方が異なる複数の文書を含みうる。以下では、大規模システムなどの仕様書を文書として入力する例を主に説明する。適用可能な文書は仕様書に限られず、例えば契約書のように、機能を既定する文書全般に適用可能である。
抽出部102は、システムの機能を説明した文(以下、機能表現という)を仕様書から抽出し、抽出した文から与件(第2情報の一例)を抽出する。例えば抽出部102は、予め学習された修飾構造を抽出する抽出モデルを用いて仕様書から修飾構造を抽出する。抽出モデルは、例えば、複数の機能間の依存構造(前後関係など)を解析するためのルールベースのモデルである。抽出部102は、抽出した修飾構造のうち、機能を実行することを示す特徴量を有する修飾構造を機能表現として抽出する。また抽出部102は、機能表現から与件を抽出する。
抽出部102は、例えば以下の手順で抽出処理を行う。
(A1)文書から、原則として句点で終わる文を抽出する。
(A2)抽出された文を係り受け解析し、修飾構造を得る。
(A3)得られた修飾構造の構成ノードそれぞれを評価して特徴量を求め、機能表現であるか否かを推定する。
(A4)機能表現であると推定された文のうち、与件を含む文を、抽出モデルを用いて抽出する。このとき使用する抽出モデルは、与件の表現を抽出する統計モデル(表現のルールベース)、および、文のうち与件である語句を抽出するように予め学習されたルールベースなどを適用することができる。このルールベースは、例えば、サ変動詞である、および、過去形であるなどの、与件である語句の条件を定めるルールである。なお統計モデルは、例えば、確率モデルおよびベクトル空間モデルなどの、統計量を扱えるモデル(数理式や特徴量を表現したデータ)である。
以下にルールベースの抽出モデルを用いた与件の抽出例について説明する。以下の2つの機能表現が、与件の抽出対象とする機能表現の例である。
機能表現例1:「水温計が周期的に測定した反応槽の温度を監視画面Xに折れ線グラフ表示する」
機能表現例2:「水温計によって周期的に測定された反応槽の温度を監視画面Xに折れ線グラフ表示する」
ルールは、例えば以下のように表される。
「文に複数の機能語があり、完了を示す過去形、または、受け身を示す過去形の機能語を含む表現を与件とみなす。」
機能語は、例えばサ変動詞(例では「測定する」、「表示する」)である。機能表現例1は、「完了を示す過去形」である機能語「測定した」を含むため、この機能語を含む「水温計が周期的に測定した反応槽の温度」が、与件として抽出される。機能表現例2は、「受け身を示す過去形」である機能語「測定された」を含むため、この機能語を含む「水温計によって周期的に測定された反応槽の温度」が、与件として抽出される。
なお、上記ルールを拡張し、「反応槽の温度を監視画面Xに折れ線グラフ表示する。なお、反応槽の温度は水温計が周期的に測定したものとする。」といった、補足または前提等を示す接続詞によって続き、共参照または照応の関係にある1文も与件を含む文とみなしてもよい。
この例では「反応槽の温度」が共参照、または、照応の対象の語句となる「その槽の温度」、「その温度」などと表記される場合もある。共参照解析および照応解析は公知のテキスト処理技術を適用すればよい。
与件と判定する機能語の語形変化は、完了を示す過去形、および、受け身を示す過去形に限られない。例えば、機能が実行されている状態、または、機能が実行されていることによって生じている状態を与件とみなすこともあるため、以下のような語形変化であってもよい。
・状態の継続を示す原形および進行形(~する、~している)
・受け身の継続を示す原形および進行形(~される、~されている)
与件を抽出するためのルールベースは、事前定義されてもよいし、正解ラベル付きの文書を用いた機械学習で表現ルールのベースとなる表現パタンを学習してもよい。事前定義したルールベースと、学習したルールベースとを併用するように構成してもよい。
上記手順は一例であり、文書に含まれる機能表現であって与件を含む文を抽出する方法であればどのような方法であってもよい。
生成部103は、検索部104が検索処理に用いるためのクエリを生成する。例えば生成部103は、生成モデル記憶部123に記憶されたる生成モデルを用いてクエリを生成する。クエリは、述語句ノードと、主体ノード、客体ノード、および、性質ノードのうち少なくとも1つと、の関係をグラフ状に表すように与件を変換した情報である。述語句ノードは、与件に対応する述語句を示す。主体ノードは、機能の主体となる句を示す。客体ノードは、機能の客体となる句を示す。性質ノードは、機能の性質を表す句を示す。
生成モデルは、例えば、文に含まれる複数の句の依存構造を解析するように予め学習されたルールベースのモデルなどを適用することができる。
生成モデルは、以下のようなモデルを含む。
・ノードの元の語の同義語、および、元の語が複合語の場合は複合語を分解した複数の単語を追加するルールベースのモデル(生成部103は、これらの処理に対して、予め用意した辞書を利用してもよい)
・大量の文書から単語間の意味関係(の距離)を学習した統計モデル
生成部103は、ノードの元の語を特徴量化した上で、クエリを生成してもよい。同義語も含むように語が特徴量化される場合は、上記のような同義語を追加するモデルは用いなくてもよい。語の特徴量化には、例えば、Word2Vecなどを用いることができる。
生成部103は、クエリ自体を特徴量化してもよい。例えば生成部103は、機能表現である文の骨格となる知識グラフのノードの依存構造、および、各ノードの表現をまとめて特徴量化してクエリを生成してもよい。このような特徴量化には、例えばSentence2Vecなどを用いることができる。
検索部104は、抽出された文に含まれる与件に対応する機能表現である文の候補を、文書から検索する。例えば検索部104は、生成部103により生成されたクエリを用いて、抽出部102により抽出された与件それぞれについて、与件が示す機能に対応する機能を実行することを示す機能表現(他の文)の候補を、文書から検索する。
例えば検索部104は、クエリのグラフデータと一致または類似する知識グラフを持つ文を検索する。検索する文書から予め機能表現である文が抽出され、抽出された文はクエリと同様の形式の知識グラフにデータ化され、検索部104による検索で使用される。クエリと、文の知識グラフとの照合は、例えばグラフマイニング技術などを適用することができる。
推定部105は、予め学習された推定モデルを用いて、検索処理により検索された候補が、与件が示す機能を実行することを示す他の文であるか否かを推定する。推定モデルは、検索された候補の依存構造を補完し、クエリが示す句の係り受け関係と同一と見なせるかを推定するために用いられるモデルである。推定モデルは、辞書、および、文体(言い回し)のルールベースモデルを含みうる。
例えば推定モデルは、共参照解析および照応解析を行うためのモデルであってもよい。例えば共参照解析および照応解析では、以下のようなルールおよびモデルが用いられる。
・自然言語の構文ルール:例えば、「その」、「この」等の指示代名詞、および、省略されるゼロ代名詞が、元の名詞を指し示すことが分かる構文ルールまたは表現ルール
・大量の学習用文書データから学習した同一判定用の統計モデル(構文/表現パタン)
出力制御部106は、情報処理装置100で用いられる各種情報の出力を制御する。例えば出力制御部106は、推定部105による推定処理の結果(推定結果)を含む表示画面を表示部131に表示する処理を制御する。
更新部107は、抽出結果および推定結果が正しいか否かについてのユーザ等による判断に基づき各モデルを更新する。例えば更新部107は、表示部131に表示された表示画面または他の画面でユーザにより指定された判断結果に従い、推定モデル、生成モデル、および、推定モデルの少なくとも1つを更新する。
上記各部(受付部101、抽出部102、生成部103、検索部104、推定部105、出力制御部106、および、更新部107)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
次に、このように構成された本実施形態にかかる情報処理装置100による推定処理について説明する。図2は、本実施形態における推定処理の一例を示すフローチャートである。
まず受付部101は、解析の対象とする文書の入力を受け付ける(ステップS101)。抽出部102は、受け付けられた文書から、機能を説明する文(機能表現)を抽出する(ステップS102)。抽出部102は、例えば上記(A1)~(A3)の手順に従い、抽出モデルを用いて機能表現を抽出する。
抽出部102は、機能表現である文が抽出されたか否かを判定する(ステップS103)。抽出されていない場合(ステップS103:No)、推定処理が終了する。抽出された場合(ステップS103:Yes)、抽出部102は、抽出された機能表現から、さらに与件を抽出する(ステップS104)。抽出部102は、例えば上記(A4)の手順に従い機能表現から与件を抽出する。
抽出部102は、与件が抽出されたか否かを判定する(ステップS105)。抽出された場合(ステップS105:Yes)、生成部103は、抽出された与件を用いて、与件に対応する機能表現である文の候補するためのクエリを生成する(ステップS106)。
図3は、生成されるクエリの一例を示す図である。なお、以降の説明では、下記の機能表現が抽出された場合を主に説明する。
(B1)与件を含むシステム仕様(機能、動作、行為、ふるまい、作用)の機能表現:
「水温計が周期的に測定した反応槽の温度を監視画面Xに折れ線グラフ表示する」
「水温計によって周期的に測定された反応槽の温度を監視画面Xに折れ線グラフ表示する」
(B2)上記(B1)の与件に関するシステム仕様の機能表現:
「稼働している反応槽αの温度をユーザが設定した時間間隔で測定する」
「稼働している反応槽αの温度をユーザに設定された時間間隔で測定する」
(B3)上記(B2)の与件に関するシステム仕様の機能表現:
「反応槽αの温度を周期的に測定する時間間隔をユーザが設定する」
上記のように、ある与件に関するシステム仕様にさらに別の与件が含まれる場合がある。また、(B2)および(B3)は、相互に参照する(相互が参照先の)関係にある。
(B2)では主語の「水温計」が省略されているが、省略されている語が「水温計」であることは、例えば共参照解析および照応解析などの自然言語解析技術により推定することができる。
上記例では、例えば「水温計が周期的に測定した反応槽の温度」が、与件に相当する。図3では、このような与件に含まれる複数の句の間の係り受け関係を示すグラフ301を変換して得られるクエリ303の例が示されている。グラフ302は、変換の過程を示すグラフである。
図3に示すように、抽出部102による抽出処理では、与件を示す文に含まれる複数の語句間の係り受け関係を示すグラフ301が得られる。生成部103は、このようなグラフ301に対して、生成モデルを用いた語句の依存構造の解析を行い、述語句311を特定するとともに、述語句311が示す機能の主体となる句、機能の客体となる句、および、機能の性質を表す句を特定する。なお、機能の主体となる句、機能の客体となる句、および、機能の性質を表す句のうち、少なくとも1つが特定できない場合がある。
生成部103は、特定した述語句311をルートノードとし、主体、客体および性質に対応するノードを基本レイヤに含み、与件に含まれるその他の句に対応するノードを詳細レイヤに含むクエリ303を生成する。
基本レイヤは、述語句ノードに直接接続されるノード(述語句ノードからのホップ数が1のノード)を含むレイヤである。詳細レイヤは、基本レイヤ内のノードのいずれかに接続されるノードを含むレイヤである(述語句ノードからのホップ数が2以上のノード)。
図2に戻り、クエリが生成されると、クエリを用いた検索・推定処理が実行される(ステップS107)。検索・推定処理の詳細は後述する。
推定処理の後、および、ステップS105で与件が抽出されなかった場合(ステップS105:No)、抽出部102は、抽出されたすべての文に対して処理が終了したか否かを判定する(ステップS108)。終了していない場合(ステップS108:No)、ステップS104に戻り、未処理の文に対して処理が繰り返される。
すべての文に対して終了した場合(ステップS108:Yes)、出力制御部106は、推定結果を表示部131に表示し(ステップS109)、推定処理を終了する。
次に、ステップS107の検索・推定処理の詳細について説明する。図4は、検索・推定処理の一例を示すフローチャートである。
検索部104は、生成されたクエリを用いて、述語句ノードと同一と見なせるノードを含む文の候補を文書から検索する(ステップS201)。
同一と見なせるノードとは、選択したノードと表記が一致すること、または、選択したノードと表記が一致しないが意味が同じであること、を意味する。意味が同じであるかは、例えば同義語を定めた辞書などを参照して判定することができる。同義語を含むように特徴量化されるクエリなどを用いる場合は、検索部104は、辞書などを参照しなくても同一と見なせるノードをクエリにより検索することができる。
また、文書は、クエリと同様に語句間の依存構造を表すグラフで表現されることを前提とする。予めグラフで表現された文書を文書記憶部121に記憶してもよいし、検索部104が文書をグラフ形式に変換し、変換した文書とクエリとを照合するように構成してもよい。
推定部105は、候補が検索されたか否かを判定する(ステップS202)。候補が検索されない場合(ステップS202:No)、検索・推定処理が終了する。
候補が検索された場合(ステップS202:Yes)、推定部105は、クエリの述語句ノード以外のノード(非述語句ノード)と同一と見なせるノードを、候補の依存構造のグラフの基本レイヤに含まれるノードから検索する(ステップS203)。
推定部105は、ノードが検索されたか否かを判定する(ステップS204)。ノードが検索されない場合(ステップS204:No)、推定部105は、クエリの述語句ノード以外のノード(非述語句ノード)と同一と見なせるノードを、候補の依存構造のグラフの詳細レイヤに含まれるノードから検索する(ステップS205)。
ステップS205の後、または、ステップS204でノードが検索された場合(ステップS204:Yes)、推定部105は、同一の度合いを示す確信度を算出する(ステップS206)。
確信度は、例えば以下のような要素を考慮して、候補ごとに算出される。
・述語句ノードに対する同一の度合い(ステップS201)
・基本レイヤのノードに対する同一の度合い(ステップS203)
・詳細レイヤのノードに対する同一の度合い(ステップS205)
例えば推定部105は、上記の各ノードに対して得られる度合いの平均値、または、各度合いを乗算した値などを、候補に対する確信度として算出する。
推定部105は、算出した確信度を用いて、機能表現の候補が、与件が示す機能を実行することを示す他の文であるか否かを推定する(ステップS207)。例えば推定部105は、確信度と予め定められた閾値とを比較し、「実施あり」、「実施の可能性はあるが性質が曖昧である」、「判断できない(または実施なし)」などの推定結果を出力する。「実施」とは、与件が示す機能を実行することを示す機能表現が文書内に記載されていることを意味する。
推定部105は、文書の属性情報をさらに参照して推定を行ってもよい。属性情報は、例えば文書の識別情報、文書の分類情報、文書の作成者(人、組織など)、および、文書の作成日時である。
文書の識別情報は、例えば、開発するシステム名、開発プロジェクト名、契約名等の固有の名称が含まれる文書名、および、文書IDなどである。例えば推定部105は、クエリ生成元の文を含む文書と候補として検索された文を含む文書とが異なる場合、識別情報の類似度(例えば、文書名または文書ID等の一致度)が高いほど値が大きくなるように確信度を算出してもよい。
注文IDおよび契約IDなどのように、開発および契約等の事案に関連する複数の文書に対して共通の識別情報が付与される場合には、推定部105は、同じ識別情報が付与された文書から検索された候補に対して、値が大きくなるように確信度を算出してもよい。
文書の分類情報は、例えば特徴量に基づいて複数の文書を1以上のカテゴリに分類したときのカテゴリを表す情報である。推定部105は、同じまたは類似するカテゴリに分類される文書から検索された候補に対して、値が大きくなるように確信度を算出してもよい。
与件は、開発または契約に応じて、すなわち推定する際の文脈によって、与件の抽出元となった機能表現を含む文書と同じ作成者(人、組織)が実施すべき場合と、別の作成者(人、組織)が実施すべき場合とがありうる。従って、推定部105は、文脈に応じて、同じ作成者(または別の作成者)により作成された文書から検索された候補に対して、値が大きくなるように確信度を算出するか、値が小さくなるように確信度を算出するかを決定してもよい。文脈は、例えば検索を実行する際に指定されてもよい。推定部105は、複数の文脈それぞれに対して確信度を算出してもよい。
与件は、既に実施されている、または、並行して実施されているべき、と解釈できる場合がある。従って推定部105は、クエリ生成元の文を含む文書の作成時期と同じ時期、または、それより前の時期が作成日時である文書から検索された候補に対して、値が大きくなるように確信度を算出してもよい。時期とは、日時の範囲を表し、例えば、年度、半期、四半期などである。
図2のステップS109では、出力制御部106は、算出された確信度とともに推定結果を含む表示画面を表示してもよい。図5は、推定結果を表示する表示画面の一例を示す図である。
図5は、上記の「水温計が周期的に測定した反応槽の温度を監視画面Xに折れ線グラフ表示する」という与件が抽出されたときに、この与件に対応する機能表現の候補の推定結果を表示する表示画面の例である。
表示欄510は、「稼働している反応槽αの温度をユーザが設定した時間間隔で測定する」という機能表現の候補を表示する欄である。表示欄520は、「反応槽αの温度を計測する」および「反応槽の温度をユーザの設定に基づいて測定する」という機能表現の候補を表示する欄である。各表示欄には、機能表現に含まれる句に対応するノードと、機能表現に含まれない句に対応するノードと、を区別する表示態様でクエリを表示してもよい。
表示欄510の機能表現は、確信度が0.754であり、「実施ありと思われます」という推定結果が得られている。表示欄520の機能表現は、確信度が0.528であり、「実施の可能性はありますが性質が曖昧です」という推定結果が得られている。「実施箇所」は、与件に対応する機能表現が記載されている文書およびページなどを特定する情報である。
なお、確信度が、例えば「判断できない」に対応して定められる閾値より小さい場合、出力制御部106は、文書の記載に不備があることを示す情報を表示してもよい。
修正ボタン511、521が押下されると、対応する推定結果が正しいか否かを判断し、判断結果に応じてモデルを修正(更新)するための修正画面が表示される。
図6は、修正画面の一例を示す図である。図6に示すように、修正画面600は、選択ボタン601a、601bと、原文表示ボタン602と、実行ボタン603と、を含む。
選択ボタン601a、601bは、それぞれ推定結果が正しいか(該当)、間違っているか(非該当)を選択するためのボタンである。例えば推定された候補が与件を説明した文であると判断した場合、ユーザは、選択ボタン601aを選択する。推定された候補が与件を説明した文ではないと判断した場合、ユーザは、選択ボタン601bを選択する。
原文表示ボタン602が押下されると、出力制御部106は、推定結果である文の記載箇所を含む原文書を、例えば別の表示画面に表示する。
実行ボタン603が押下されると、更新部107は、ユーザによる判断結果に応じて、以下のように各モデルを更新する。
例えば、更新部107は、利用者による判断結果(正負の教師データに相当)に基づいて推定モデルを更新する。これにより、推定部105による推定の精度を向上させることができる。
更新部107は、例えば、推定モデルに含まれる、知識グラフの構造の一致の度合いの算出に用いる統計モデル(同一判定用の統計モデル)を更新する。この統計モデルは、知識グラフの構造パタンの判別基準を学習したモデルである。
更新部107は、例えば推定結果が正しいことが指定(選択ボタン601aの選択)された場合、検索された候補が与件を説明する文とする確信度として大きい値(例えば1.0)を記録する。更新部107は、例えば推定結果が誤っていることが指定(選択ボタン601bの選択)された場合、検索された候補が与件を説明する文とする確信度として小さい値(例えば0.0)を記録する。
なお、モデルを更新することによって、対象文書の文章構造および文体を学習するとも解釈することができる。
文章構造は、例えば、目次において、機能表現および与件の説明が記載される傾向のある題目、および、機能表現および与件の説明の位置関係などである。位置関係としては、同一文書内の場合、以下のような例が挙げられる。
・機能の実行順に記載する。この場合、与件は前提条件として実行順が先になるので、先に記載される傾向(パタン)がある。
・主機能を骨格に記載する。この場合、与件は内容の詳細として、後述される傾向(パタン)がある。
文章構造が学習できると共参照および照応の解析精度も上がることが期待できる。すなわち、推定部105の性能の向上が期待できる。
文体は、例えば、内容の説明に使う単語および接続詞の使い方の傾向(パタン)などである。使う単語の傾向が学習できると、検索部104および推定部105の性能の向上が期待できる。また、接続詞の使い方の傾向が学習できると、文章構造の学習と同様に、推定部105の性能の向上が期待できる。
更新部107は、推定モデルに含まれる、知識グラフの各ノードの対象の同一の度合いの算出に用いる統計モデルを更新してもよい。この統計モデルは、知識グラフの、主に主体ノード(名詞)、および、客体ノード(名詞)の対象となるものの同一性の判定基準を学習したモデルである。このようなモデルは、同一性の判定を行う共参照解析および照応解析に用いることができる。このようなモデルを更新することも、対象文書の文章構造および文体を学習すると解釈することができる。
なお、これらの統計モデルはいずれも、例えば基本レイヤのノードに対する同一の度合い(ステップS203)、および、詳細レイヤのノードに対する同一の度合い(ステップS205)の算出に用いることができる。
なお、推定部105は、以降に同じ与件を対象に再度推定するときは、記録された判断結果を採用して推定を行ってもよい。
更新部107は、利用者による判断結果(正負の教師データに相当)に基づいて生成モデルを更新してもよい。これにより、検索部104による検索の精度を向上させることができる。
更新部107は、例えば、生成モデルに含まれる、知識グラフの各ノードを表す語句の同義(同じ意味であるか)の度合いの算出に用いる統計モデルを更新する。この統計モデルは、主に検索用のクエリを生成する際に用いられるが、検索部104が検索を実行の際に用いられてもよい。このようなモデルの更新は、対象文書の語句の使い方を学習すると解釈することができる。
与件の抽出結果(ステップS104など)をユーザに出力し、抽出結果をユーザが確認および修正できるように構成してもよい。これにより、抽出部102が用いる抽出モデルを更新可能となる。
図7は、抽出結果を表示する結果表示画面の一例を示す図である。図7に示すように、結果表示画面700は、選択ボタン701と、原文表示ボタン702と、修正ボタン703と、実行ボタン704と、を含む。
結果表示画面700では、例えばステップS102で抽出された機能表現が表示される。また、抽出された機能表現のうち、ステップS104で与件が抽出された機能表現が、選択ボタン701で選択可能に表示される。また抽出された与件の箇所には下線711が付される。
選択ボタン701は、対応する文の候補を検索する与件(検索対象とする与件)を選択するためのボタンである。なお図7に示すように、与件を含まない機能表現は選択ボタン701が選択不可の態様で表示される。
実行ボタン704が押下されると、選択ボタン701で選択された機能表現に含まれる与件に対応する文の候補の検索(図2ではステップS106以降)が実行される。
原文表示ボタン702が押下されると、出力制御部106は、抽出結果である文の記載箇所を含む原文書を、例えば別の表示画面に表示する。
修正ボタン703が押下されると、出力制御部106は、抽出された与件が正しいか否かを判断し、判断結果に応じて抽出モデルを修正(更新)するための修正画面を表示する。
図8は、抽出結果を修正するための修正画面の一例を示す図である。図8に示すように、修正画面800は、実行ボタン801を含む。修正画面800では、例えばユーザは、文に含まれる与件に相当する箇所811の指定(修正、選択)を行うことができる。ユーザは、抽出された与件の指定の解除、すなわち、与件と見なさないことを指定することも可能である。
実行ボタン801が押下されると、更新部107は、ユーザによる指定に応じて与件の抽出結果を修正する。例えば図8の例では、与件が抽出されていなかった図7に2行目の機能表現について、ユーザにより与件の範囲が指定される。実行ボタン801が押下されると、この機能表現について与件が抽出された状態となる。この結果、図7の例では、2行目の機能表現に対応する選択ボタンが、検索対象として選択可能な態様に変更されて表示される。
また更新部107は、ユーザによる修正結果(正負の教師データに相当)に応じて抽出モデルを更新してもよい。これにより、抽出部102による抽出の精度を向上させることができる。
更新部107は、例えば、抽出モデルに含まれる、与件の表現を抽出する統計モデルを更新する。この統計モデルは、与件の表現パタンの判別基準を学習したモデルである。このようなモデルの更新は、対象文書の文体および与件における語句の使い方を学習すると解釈することができる。
次に、推定処理の具体例について説明する。図9および図10は、推定処理の具体例を示す図である。図9および図10は、いずれも「水温計が周期的に測定した反応槽の温度」という与件に対応するクエリ(図3ではクエリ303)を用いて検索された機能表現の候補の例を示す。
図9は、「稼働している反応槽αの温度をユーザが設定した時間間隔で測定する」という機能表現の候補が検索された例である。「測定する」に対応する述語句ノード、および、「温度」に対応する客体ノードは、候補とクエリとの間で同一である。候補では主体ノードが存在しないが、客体ノードが「温度」に対応することから、温度を測定する主体が「水温計」であることを推定することができる。推定部105は、推定した主体がクエリの主体ノードに対応するため、推定した主体がクエリの主体ノードと対応しない場合より大きい値の確信度を算出してもよい。
また、推定部105は、性質ノードに対応する「周期的」と、候補の基本レイヤに含まれる性質を表す「時間間隔」とは同一と見なせると推定する(図4のステップS203)。例えば推定部105は、辞書(推定モデルの一例)を参照して「時間間隔」と「周期的」とが同一と見なせると推定する。
図10は、「ユーザが設定した時間間隔で稼働する反応槽αの温度を測定する」という機能表現の候補が検索された例である。この例では、図9の例と異なり、「ユーザが設定した時間間隔で」は「稼働」を修飾している。このため、候補の基本レイヤ内のノードからは、「周期的」と同一と見なせるノードは検索されない(図4のステップS204:No)。そこで推定部105は、候補の依存構造のグラフの詳細レイヤに含まれるノードから、「周期的」と同一と見なせるノードを検索する(ステップS205)。図10の例では、4ホップ目のノードである「時間間隔」が、「周期的」と同一と見なせるノードとして検索される。
推定部105は、基本レイヤ内で同一と見なせるノードが検索できず、詳細レイヤ内で同一と見なせるノードが検索できた場合、基本レイヤ内で検索できた場合より小さい値の確信度を算出してもよい。検索されるノードが述語句ノードに係らない可能性もより高まるためである。具体的には、詳細レイヤを含めると依存構造が複数に解釈される可能性が高まり、従って、同一と推定する確信度が小さくなると考えることができるためである。
例えば図10の例では、「時間間隔」は「稼働」に係るとする解釈、および、「測定」に係るとする解釈のいずれも間違いではなく、いずれであるかは文脈により決定される。このため、前後の文から文脈を解釈できない場合は、確信度が小さくなる。
以上のように、本実施形態にかかる情報処理装置は、文書から与件を抽出し、抽出した与件に対応する機能の説明(機能表現)が、文書の他の箇所に記載されているか(実施されているか)を推定する。これにより、仕様書などの文書に内容の不整合が生じていないかについて、より容易に確認可能となる。
また、本実施形態では、述語句に対する主体、客体および性質の関係(依存構造)を表すようにクエリを生成する。このため、推定部105は、主体、客体および性質などの句の意味を用いて、複数の句が対応するか(同一と見なせるか)などを推定することができる。
次に、実施形態にかかる情報処理装置のハードウェア構成について図11を用いて説明する。図11は、実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。
実施形態にかかる情報処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
実施形態にかかる情報処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 情報処理装置
101 受付部
102 抽出部
103 生成部
104 検索部
105 推定部
106 出力制御部
107 更新部
121 文書記憶部
122 抽出モデル記憶部
123 生成モデル記憶部
124 推定モデル記憶部
131 表示部

Claims (12)

  1. 第1機能を実行することを示す複数の第1情報を含む1以上の文書から、前記第1機能の前提となる第2機能を示す第2情報を含む1以上の前記第1情報を抽出し、抽出した前記第1情報から前記第2情報を抽出する抽出部と、
    抽出された前記第2情報について、前記第2情報が示す前記第2機能に対応する前記第1機能を実行することを示す前記第1情報の候補を前記文書から検索する検索処理を実行する検索部と、
    前記検索処理により検索された前記候補が、前記第2機能を実行することを示す前記第1情報であるか否かを推定する推定部と、
    を備える情報処理装置。
  2. 前記第2機能に対応する述語句を示す述語句ノードと、前記第2機能の主体となる句を示す主体ノード、前記第2機能の客体となる句を示す客体ノード、および、前記第2機能の性質を表す句を示す性質ノードのうち少なくとも1つと、の関係をグラフ状に表すように前記第2情報を変換したクエリを生成する生成部をさらに備え、
    前記検索部は、生成されたクエリを用いて前記検索処理を実行する、
    請求項1に記載の情報処理装置。
  3. 前記生成部は、前記述語句ノードと、前記主体ノード、前記客体ノード、および、前記性質ノードのうち少なくとも1つと、を前記第2情報から抽出し、抽出した前記述語句ノードと、前記主体ノード、前記客体ノード、および、前記性質ノードのうち少なくとも1つと、の関係をグラフ状に表すように変換する予め学習された生成モデルを用いて、前記クエリを生成する、
    請求項2に記載の情報処理装置。
  4. 前記推定部による推定結果が正しいか否かに基づいて、前記生成モデルを更新する更新部をさらに備える、
    請求項3に記載の情報処理装置。
  5. 前記抽出部は、予め学習された修飾構造を抽出する抽出モデルを用いて前記文書から抽出された前記修飾構造のうち、前記第1機能を実行することを示す特徴量を有する前記修飾構造であって、前記第2情報を含む前記修飾構造を、前記第1情報として抽出する、
    請求項1に記載の情報処理装置。
  6. 抽出された前記第1情報に対する修正結果を用いて前記抽出モデルを更新する更新部をさらに備える、
    請求項5に記載の情報処理装置。
  7. 前記推定部は、予め学習された推定モデルを用いて、前記候補が、前記第2機能を実行することを示すか否かを推定する、
    請求項1に記載の情報処理装置。
  8. 前記推定部による推定結果が正しいか否かに基づいて、前記推定モデルを更新する更新部をさらに備える、
    請求項7に記載の情報処理装置。
  9. 前記推定部は、前記文書の属性情報に基づいて、前記検索処理により検索された前記候補が、前記第2機能を実行することを示す前記第1情報であるか否かを推定する、
    請求項1に記載の情報処理装置。
  10. 前記属性情報は、識別情報、分類情報、作成者、および、作成日時の少なくとも1つである、
    請求項9に記載の情報処理装置。
  11. 第1機能を実行することを示す複数の第1情報を含む1以上の文書から、前記第1機能の前提となる第2機能を示す第2情報を含む1以上の前記第1情報を抽出する抽出ステップと、
    抽出された前記第1情報について、前記文書から、前記第1情報に含まれる前記第2情報が示す前記第2機能に対応する前記第1機能を実行することを示す前記第1情報の候補を検索する検索処理を実行する検索ステップと、
    前記検索処理により検索された前記候補が、前記第2機能を実行することを示す前記第1情報であるか否かを推定する推定ステップと、
    を含む情報処理方法。
  12. コンピュータに、
    第1機能を実行することを示す複数の第1情報を含む1以上の文書から、前記第1機能の前提となる第2機能を示す第2情報を含む1以上の前記第1情報を抽出する抽出ステップと、
    抽出された前記第1情報について、前記文書から、前記第1情報に含まれる前記第2情報が示す前記第2機能に対応する前記第1機能を実行することを示す前記第1情報の候補を検索する検索処理を実行する検索ステップと、
    前記検索処理により検索された前記候補が、前記第2機能を実行することを示す前記第1情報であるか否かを推定する推定ステップと、
    を実行させるためのプログラム。
JP2020154763A 2020-09-15 2020-09-15 情報処理装置、情報処理方法およびプログラム Active JP7362577B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020154763A JP7362577B2 (ja) 2020-09-15 2020-09-15 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020154763A JP7362577B2 (ja) 2020-09-15 2020-09-15 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2022048762A true JP2022048762A (ja) 2022-03-28
JP7362577B2 JP7362577B2 (ja) 2023-10-17

Family

ID=80844428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020154763A Active JP7362577B2 (ja) 2020-09-15 2020-09-15 情報処理装置、情報処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP7362577B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6011180B2 (ja) 2012-03-28 2016-10-19 日本電気株式会社 ファセット生成装置、ファセット生成方法及びファセット生成プログラム
JP2014052863A (ja) 2012-09-07 2014-03-20 Ricoh Co Ltd 情報処理装置、情報処理システム、情報処理方法
JP6375367B2 (ja) 2014-04-04 2018-08-15 株式会社日立製作所 反論生成方法,反論生成システム

Also Published As

Publication number Publication date
JP7362577B2 (ja) 2023-10-17

Similar Documents

Publication Publication Date Title
US11210468B2 (en) System and method for comparing plurality of documents
KR101306667B1 (ko) 지식 그래프 정제 장치 및 방법
Casamayor et al. Functional grouping of natural language requirements for assistance in architectural software design
JP6187877B2 (ja) 同義語抽出システム、方法および記録媒体
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
Loyola et al. Bug localization by learning to rank and represent bug inducing changes
Kochbati et al. From user stories to models: A machine learning empowered automation
JP2022042497A (ja) コーパスに格納された既存の械学習プロジェクトのパイプラインからの新しい機械学習プロジェクトのパイプラインの自動生成
Caplinskas Testing Lightweight Ontology from a Glossary Based on the ONTO6 Methodology
Paydar et al. A semi-automated approach to adapt activity diagrams for new use cases
JP7110554B2 (ja) オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
Zhang et al. Automatically reproducing android bug reports using natural language processing and reinforcement learning
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
Zhang et al. Beqain: An effective and efficient identifier normalization approach with bert and the question answering system
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
KR101983477B1 (ko) 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
JP7362577B2 (ja) 情報処理装置、情報処理方法およびプログラム
Li et al. Feature terms prediction: a feasible way to indicate the notion of features in software product line
JP2022042496A (ja) 新しい械学習プロジェクトにおける使用のために適応可能なコーパスの中の既存機械学習プロジェクトのパイプライン内の機能ブロックの自動ラベル付け
CN113742447A (zh) 基于查询路径生成的知识图谱问答方法、介质和设备
Loureiro et al. Learning to resolve geographical and temporal references in text
JP2005025465A (ja) 文書検索方法及び文書検索装置
Chen et al. Learning word embeddings from intrinsic and extrinsic views

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231004

R151 Written notification of patent or utility model registration

Ref document number: 7362577

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151