JP2022048762A

JP2022048762A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2022048762A
Application number: JP2020154763A
Authority: JP
Inventors: 岳石井; Takeshi Ishii; 英一砂川; Eiichi Sunagawa; 瑞剛張; Rui Gang Zhang; 伸一長野; Shinichi Nagano
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2022-03-28
Anticipated expiration: 2040-09-15
Also published as: JP7362577B2

Abstract

【課題】文書に内容の不整合が生じていないかについて、より容易に確認できるようにする。【解決手段】情報処理装置は、抽出部と、検索部と、推定部と、を備える。抽出部は、第１機能を実行することを示す複数の第１情報を含む１以上の文書から、第１機能の前提となる第２機能を示す第２情報を含む１以上の第１情報を抽出し、抽出した第１情報から第２情報を抽出する。検索部は、抽出された第２情報について、第２情報が示す第２機能に対応する第１機能を実行することを示す第１情報の候補を文書から検索する検索処理を実行する。推定部は、検索処理により検索された候補が、第２機能を実行することを示す第１情報であるか否かを推定する。【選択図】図１

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

通常、大規模システムは、複数の事業者の共同により開発および構築が行われる。システムの開発および構築にあたっては、その仕様を文書（仕様書）に記載する。仕様が多岐にわたったり、仕様書が契約文書となったりする等の理由から、各事業者がそれぞれの担当範囲を記載した仕様書を作成するのが一般的である。

砂川英一、長野伸一、"既存システムの設計文書群からの機能モデル抽出の試み"、人工知能学会セマンティックウェブとオントロジー研究会、SIG-SWO-044-01、２０１８年

大規模システムの仕様書などの文書に内容の不整合が生じていないかについて、より容易に確認できるようにすることが望ましい。

実施形態の情報処理装置は、抽出部と、検索部と、推定部と、を備える。抽出部は、第１機能を実行することを示す複数の第１情報を含む１以上の文書から、第１機能の前提となる第２機能を示す第２情報を含む１以上の第１情報を抽出し、抽出した第１情報から第２情報を抽出する。検索部は、抽出された第２情報について、第２情報が示す第２機能に対応する第１機能を実行することを示す第１情報の候補を文書から検索する検索処理を実行する。推定部は、検索処理により検索された候補が、第２機能を実行することを示す第１情報であるか否かを推定する。

実施形態にかかる情報処理装置のブロック図。実施形態における推定処理のフローチャート。生成されるクエリの一例を示す図。検索・推定処理のフローチャート。推定結果を表示する表示画面の一例を示す図。修正画面の一例を示す図。結果表示画面の一例を示す図。修正画面の一例を示す図。推定処理の具体例を示す図。推定処理の具体例を示す図。実施形態にかかる情報処理装置のハードウェア構成図。

以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。

上記のように、例えば電力および社会インフラ等の大規模システムでは、複数の事業者により開発および構築が行われうる。事業者は、自身の担当範囲の仕様を文書（仕様書など）に記載するため、担当外の仕様は「与件（与えられる条件）」として記載する。与件は、ある機能（動作、行為、ふるまい、作用）の前提となる他の機能を示すと解釈することができる。

与件に関して、複数の事業者間での認識の違いが生じ、仕様書に記載不備が発生するとシステムに不整合が生じる。また通常、大規模システムは、開発および構築後に増改築が行われる。従って、同一の事業者内であっても、現在の担当者と前任者との間での認識の違いが生じ、仕様書に記載不備が発生するとシステムに不整合が生じる。

このような不整合を防ぐために、関係者間での仕様の読み合わせ等の確認を行う方法がある。しかしこのような方法では、分量が膨大となる大規模システムの仕様書では、確認のための負荷が過大となり、人為的な確認漏れなどが生じる可能性もある。

そこで本実施形態では、大規模システムの仕様書などの文書に内容の不整合が生じていないかについて、より容易に確認できる情報処理装置、情報処理方法およびプログラムを提供する。これにより、例えば、大規模システムの開発および構築における仕様不整合の削減、および、仕様不整合を防ぐための確認の負荷の削減などを実現できる。

図１は、本実施形態にかかる情報処理装置１００の構成の一例を示すブロック図である。図１に示すように、情報処理装置１００は、受付部１０１と、抽出部１０２と、生成部１０３と、検索部１０４と、推定部１０５と、出力制御部１０６と、更新部１０７と、文書記憶部１２１と、抽出モデル記憶部１２２と、生成モデル記憶部１２３と、推定モデル記憶部１２４と、表示部１３１と、とを備えている。

文書記憶部１２１は、解析の対象とする文書を記憶する。抽出モデル記憶部１２２は、抽出部１０２が文書から与件を含む文を抽出するために用いる抽出モデルに関する情報を記憶する。生成モデル記憶部１２３は、生成部１０３がクエリを生成するために用いる生成モデルに関する情報を記憶する。推定モデル記憶部１２４は、推定部１０５が推定処理に用いる推定モデルに関する情報を記憶する。各モデルの詳細は後述する。

なお、各記憶部（文書記憶部１２１、抽出モデル記憶部１２２、生成モデル記憶部１２３、推定モデル記憶部１２４）は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。各記憶部は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶部のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。

表示部１３１は、出力制御部１０６による制御に応じて各種情報を表示するための表示装置である。表示部１３１は、例えば液晶ディスプレイなどにより構成することができる。

受付部１０１は、情報処理装置１００で用いる各種情報の入力を受け付ける。例えば受付部１０１は、解析の対象とする１以上の文書の入力を受け付ける。受け付けられた文書は、例えば文書記憶部１２１に記憶される。文書は、識別情報、分類情報、作成者および作成日時の少なくとも一方が異なる複数の文書を含みうる。以下では、大規模システムなどの仕様書を文書として入力する例を主に説明する。適用可能な文書は仕様書に限られず、例えば契約書のように、機能を既定する文書全般に適用可能である。

抽出部１０２は、システムの機能を説明した文（以下、機能表現という）を仕様書から抽出し、抽出した文から与件（第２情報の一例）を抽出する。例えば抽出部１０２は、予め学習された修飾構造を抽出する抽出モデルを用いて仕様書から修飾構造を抽出する。抽出モデルは、例えば、複数の機能間の依存構造（前後関係など）を解析するためのルールベースのモデルである。抽出部１０２は、抽出した修飾構造のうち、機能を実行することを示す特徴量を有する修飾構造を機能表現として抽出する。また抽出部１０２は、機能表現から与件を抽出する。

抽出部１０２は、例えば以下の手順で抽出処理を行う。
（Ａ１）文書から、原則として句点で終わる文を抽出する。
（Ａ２）抽出された文を係り受け解析し、修飾構造を得る。
（Ａ３）得られた修飾構造の構成ノードそれぞれを評価して特徴量を求め、機能表現であるか否かを推定する。
（Ａ４）機能表現であると推定された文のうち、与件を含む文を、抽出モデルを用いて抽出する。このとき使用する抽出モデルは、与件の表現を抽出する統計モデル（表現のルールベース）、および、文のうち与件である語句を抽出するように予め学習されたルールベースなどを適用することができる。このルールベースは、例えば、サ変動詞である、および、過去形であるなどの、与件である語句の条件を定めるルールである。なお統計モデルは、例えば、確率モデルおよびベクトル空間モデルなどの、統計量を扱えるモデル（数理式や特徴量を表現したデータ）である。

以下にルールベースの抽出モデルを用いた与件の抽出例について説明する。以下の２つの機能表現が、与件の抽出対象とする機能表現の例である。
機能表現例１：「水温計が周期的に測定した反応槽の温度を監視画面Ｘに折れ線グラフ表示する」
機能表現例２：「水温計によって周期的に測定された反応槽の温度を監視画面Ｘに折れ線グラフ表示する」

ルールは、例えば以下のように表される。
「文に複数の機能語があり、完了を示す過去形、または、受け身を示す過去形の機能語を含む表現を与件とみなす。」

機能語は、例えばサ変動詞（例では「測定する」、「表示する」）である。機能表現例１は、「完了を示す過去形」である機能語「測定した」を含むため、この機能語を含む「水温計が周期的に測定した反応槽の温度」が、与件として抽出される。機能表現例２は、「受け身を示す過去形」である機能語「測定された」を含むため、この機能語を含む「水温計によって周期的に測定された反応槽の温度」が、与件として抽出される。

なお、上記ルールを拡張し、「反応槽の温度を監視画面Ｘに折れ線グラフ表示する。なお、反応槽の温度は水温計が周期的に測定したものとする。」といった、補足または前提等を示す接続詞によって続き、共参照または照応の関係にある１文も与件を含む文とみなしてもよい。

この例では「反応槽の温度」が共参照、または、照応の対象の語句となる「その槽の温度」、「その温度」などと表記される場合もある。共参照解析および照応解析は公知のテキスト処理技術を適用すればよい。

与件と判定する機能語の語形変化は、完了を示す過去形、および、受け身を示す過去形に限られない。例えば、機能が実行されている状態、または、機能が実行されていることによって生じている状態を与件とみなすこともあるため、以下のような語形変化であってもよい。
・状態の継続を示す原形および進行形（～する、～している）
・受け身の継続を示す原形および進行形（～される、～されている）

与件を抽出するためのルールベースは、事前定義されてもよいし、正解ラベル付きの文書を用いた機械学習で表現ルールのベースとなる表現パタンを学習してもよい。事前定義したルールベースと、学習したルールベースとを併用するように構成してもよい。

上記手順は一例であり、文書に含まれる機能表現であって与件を含む文を抽出する方法であればどのような方法であってもよい。

生成部１０３は、検索部１０４が検索処理に用いるためのクエリを生成する。例えば生成部１０３は、生成モデル記憶部１２３に記憶されたる生成モデルを用いてクエリを生成する。クエリは、述語句ノードと、主体ノード、客体ノード、および、性質ノードのうち少なくとも１つと、の関係をグラフ状に表すように与件を変換した情報である。述語句ノードは、与件に対応する述語句を示す。主体ノードは、機能の主体となる句を示す。客体ノードは、機能の客体となる句を示す。性質ノードは、機能の性質を表す句を示す。

生成モデルは、例えば、文に含まれる複数の句の依存構造を解析するように予め学習されたルールベースのモデルなどを適用することができる。

生成モデルは、以下のようなモデルを含む。
・ノードの元の語の同義語、および、元の語が複合語の場合は複合語を分解した複数の単語を追加するルールベースのモデル（生成部１０３は、これらの処理に対して、予め用意した辞書を利用してもよい）
・大量の文書から単語間の意味関係(の距離)を学習した統計モデル

生成部１０３は、ノードの元の語を特徴量化した上で、クエリを生成してもよい。同義語も含むように語が特徴量化される場合は、上記のような同義語を追加するモデルは用いなくてもよい。語の特徴量化には、例えば、Ｗｏｒｄ２Ｖｅｃなどを用いることができる。

生成部１０３は、クエリ自体を特徴量化してもよい。例えば生成部１０３は、機能表現である文の骨格となる知識グラフのノードの依存構造、および、各ノードの表現をまとめて特徴量化してクエリを生成してもよい。このような特徴量化には、例えばＳｅｎｔｅｎｃｅ２Ｖｅｃなどを用いることができる。

検索部１０４は、抽出された文に含まれる与件に対応する機能表現である文の候補を、文書から検索する。例えば検索部１０４は、生成部１０３により生成されたクエリを用いて、抽出部１０２により抽出された与件それぞれについて、与件が示す機能に対応する機能を実行することを示す機能表現（他の文）の候補を、文書から検索する。

例えば検索部１０４は、クエリのグラフデータと一致または類似する知識グラフを持つ文を検索する。検索する文書から予め機能表現である文が抽出され、抽出された文はクエリと同様の形式の知識グラフにデータ化され、検索部１０４による検索で使用される。クエリと、文の知識グラフとの照合は、例えばグラフマイニング技術などを適用することができる。

推定部１０５は、予め学習された推定モデルを用いて、検索処理により検索された候補が、与件が示す機能を実行することを示す他の文であるか否かを推定する。推定モデルは、検索された候補の依存構造を補完し、クエリが示す句の係り受け関係と同一と見なせるかを推定するために用いられるモデルである。推定モデルは、辞書、および、文体（言い回し）のルールベースモデルを含みうる。

例えば推定モデルは、共参照解析および照応解析を行うためのモデルであってもよい。例えば共参照解析および照応解析では、以下のようなルールおよびモデルが用いられる。
・自然言語の構文ルール：例えば、「その」、「この」等の指示代名詞、および、省略されるゼロ代名詞が、元の名詞を指し示すことが分かる構文ルールまたは表現ルール
・大量の学習用文書データから学習した同一判定用の統計モデル（構文／表現パタン）

出力制御部１０６は、情報処理装置１００で用いられる各種情報の出力を制御する。例えば出力制御部１０６は、推定部１０５による推定処理の結果（推定結果）を含む表示画面を表示部１３１に表示する処理を制御する。

更新部１０７は、抽出結果および推定結果が正しいか否かについてのユーザ等による判断に基づき各モデルを更新する。例えば更新部１０７は、表示部１３１に表示された表示画面または他の画面でユーザにより指定された判断結果に従い、推定モデル、生成モデル、および、推定モデルの少なくとも１つを更新する。

上記各部（受付部１０１、抽出部１０２、生成部１０３、検索部１０４、推定部１０５、出力制御部１０６、および、更新部１０７）は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

次に、このように構成された本実施形態にかかる情報処理装置１００による推定処理について説明する。図２は、本実施形態における推定処理の一例を示すフローチャートである。

まず受付部１０１は、解析の対象とする文書の入力を受け付ける（ステップＳ１０１）。抽出部１０２は、受け付けられた文書から、機能を説明する文（機能表現）を抽出する（ステップＳ１０２）。抽出部１０２は、例えば上記（Ａ１）～（Ａ３）の手順に従い、抽出モデルを用いて機能表現を抽出する。

抽出部１０２は、機能表現である文が抽出されたか否かを判定する（ステップＳ１０３）。抽出されていない場合（ステップＳ１０３：Ｎｏ）、推定処理が終了する。抽出された場合（ステップＳ１０３：Ｙｅｓ）、抽出部１０２は、抽出された機能表現から、さらに与件を抽出する（ステップＳ１０４）。抽出部１０２は、例えば上記（Ａ４）の手順に従い機能表現から与件を抽出する。

抽出部１０２は、与件が抽出されたか否かを判定する（ステップＳ１０５）。抽出された場合（ステップＳ１０５：Ｙｅｓ）、生成部１０３は、抽出された与件を用いて、与件に対応する機能表現である文の候補するためのクエリを生成する（ステップＳ１０６）。

図３は、生成されるクエリの一例を示す図である。なお、以降の説明では、下記の機能表現が抽出された場合を主に説明する。
（Ｂ１）与件を含むシステム仕様（機能、動作、行為、ふるまい、作用）の機能表現：
「水温計が周期的に測定した反応槽の温度を監視画面Ｘに折れ線グラフ表示する」
「水温計によって周期的に測定された反応槽の温度を監視画面Ｘに折れ線グラフ表示する」
（Ｂ２）上記（Ｂ１）の与件に関するシステム仕様の機能表現：
「稼働している反応槽αの温度をユーザが設定した時間間隔で測定する」
「稼働している反応槽αの温度をユーザに設定された時間間隔で測定する」
（Ｂ３）上記（Ｂ２）の与件に関するシステム仕様の機能表現：
「反応槽αの温度を周期的に測定する時間間隔をユーザが設定する」

上記のように、ある与件に関するシステム仕様にさらに別の与件が含まれる場合がある。また、（Ｂ２）および（Ｂ３）は、相互に参照する（相互が参照先の）関係にある。
（Ｂ２）では主語の「水温計」が省略されているが、省略されている語が「水温計」であることは、例えば共参照解析および照応解析などの自然言語解析技術により推定することができる。

上記例では、例えば「水温計が周期的に測定した反応槽の温度」が、与件に相当する。図３では、このような与件に含まれる複数の句の間の係り受け関係を示すグラフ３０１を変換して得られるクエリ３０３の例が示されている。グラフ３０２は、変換の過程を示すグラフである。

図３に示すように、抽出部１０２による抽出処理では、与件を示す文に含まれる複数の語句間の係り受け関係を示すグラフ３０１が得られる。生成部１０３は、このようなグラフ３０１に対して、生成モデルを用いた語句の依存構造の解析を行い、述語句３１１を特定するとともに、述語句３１１が示す機能の主体となる句、機能の客体となる句、および、機能の性質を表す句を特定する。なお、機能の主体となる句、機能の客体となる句、および、機能の性質を表す句のうち、少なくとも１つが特定できない場合がある。

生成部１０３は、特定した述語句３１１をルートノードとし、主体、客体および性質に対応するノードを基本レイヤに含み、与件に含まれるその他の句に対応するノードを詳細レイヤに含むクエリ３０３を生成する。

基本レイヤは、述語句ノードに直接接続されるノード（述語句ノードからのホップ数が１のノード）を含むレイヤである。詳細レイヤは、基本レイヤ内のノードのいずれかに接続されるノードを含むレイヤである（述語句ノードからのホップ数が２以上のノード）。

図２に戻り、クエリが生成されると、クエリを用いた検索・推定処理が実行される（ステップＳ１０７）。検索・推定処理の詳細は後述する。

推定処理の後、および、ステップＳ１０５で与件が抽出されなかった場合（ステップＳ１０５：Ｎｏ）、抽出部１０２は、抽出されたすべての文に対して処理が終了したか否かを判定する（ステップＳ１０８）。終了していない場合（ステップＳ１０８：Ｎｏ）、ステップＳ１０４に戻り、未処理の文に対して処理が繰り返される。

すべての文に対して終了した場合（ステップＳ１０８：Ｙｅｓ）、出力制御部１０６は、推定結果を表示部１３１に表示し（ステップＳ１０９）、推定処理を終了する。

次に、ステップＳ１０７の検索・推定処理の詳細について説明する。図４は、検索・推定処理の一例を示すフローチャートである。

検索部１０４は、生成されたクエリを用いて、述語句ノードと同一と見なせるノードを含む文の候補を文書から検索する（ステップＳ２０１）。

同一と見なせるノードとは、選択したノードと表記が一致すること、または、選択したノードと表記が一致しないが意味が同じであること、を意味する。意味が同じであるかは、例えば同義語を定めた辞書などを参照して判定することができる。同義語を含むように特徴量化されるクエリなどを用いる場合は、検索部１０４は、辞書などを参照しなくても同一と見なせるノードをクエリにより検索することができる。

また、文書は、クエリと同様に語句間の依存構造を表すグラフで表現されることを前提とする。予めグラフで表現された文書を文書記憶部１２１に記憶してもよいし、検索部１０４が文書をグラフ形式に変換し、変換した文書とクエリとを照合するように構成してもよい。

推定部１０５は、候補が検索されたか否かを判定する（ステップＳ２０２）。候補が検索されない場合（ステップＳ２０２：Ｎｏ）、検索・推定処理が終了する。

候補が検索された場合（ステップＳ２０２：Ｙｅｓ）、推定部１０５は、クエリの述語句ノード以外のノード（非述語句ノード）と同一と見なせるノードを、候補の依存構造のグラフの基本レイヤに含まれるノードから検索する（ステップＳ２０３）。

推定部１０５は、ノードが検索されたか否かを判定する（ステップＳ２０４）。ノードが検索されない場合（ステップＳ２０４：Ｎｏ）、推定部１０５は、クエリの述語句ノード以外のノード（非述語句ノード）と同一と見なせるノードを、候補の依存構造のグラフの詳細レイヤに含まれるノードから検索する（ステップＳ２０５）。

ステップＳ２０５の後、または、ステップＳ２０４でノードが検索された場合（ステップＳ２０４：Ｙｅｓ）、推定部１０５は、同一の度合いを示す確信度を算出する（ステップＳ２０６）。

確信度は、例えば以下のような要素を考慮して、候補ごとに算出される。
・述語句ノードに対する同一の度合い（ステップＳ２０１）
・基本レイヤのノードに対する同一の度合い（ステップＳ２０３）
・詳細レイヤのノードに対する同一の度合い（ステップＳ２０５）

例えば推定部１０５は、上記の各ノードに対して得られる度合いの平均値、または、各度合いを乗算した値などを、候補に対する確信度として算出する。

推定部１０５は、算出した確信度を用いて、機能表現の候補が、与件が示す機能を実行することを示す他の文であるか否かを推定する（ステップＳ２０７）。例えば推定部１０５は、確信度と予め定められた閾値とを比較し、「実施あり」、「実施の可能性はあるが性質が曖昧である」、「判断できない（または実施なし）」などの推定結果を出力する。「実施」とは、与件が示す機能を実行することを示す機能表現が文書内に記載されていることを意味する。

推定部１０５は、文書の属性情報をさらに参照して推定を行ってもよい。属性情報は、例えば文書の識別情報、文書の分類情報、文書の作成者（人、組織など）、および、文書の作成日時である。

文書の識別情報は、例えば、開発するシステム名、開発プロジェクト名、契約名等の固有の名称が含まれる文書名、および、文書ＩＤなどである。例えば推定部１０５は、クエリ生成元の文を含む文書と候補として検索された文を含む文書とが異なる場合、識別情報の類似度（例えば、文書名または文書ＩＤ等の一致度）が高いほど値が大きくなるように確信度を算出してもよい。

注文ＩＤおよび契約ＩＤなどのように、開発および契約等の事案に関連する複数の文書に対して共通の識別情報が付与される場合には、推定部１０５は、同じ識別情報が付与された文書から検索された候補に対して、値が大きくなるように確信度を算出してもよい。

文書の分類情報は、例えば特徴量に基づいて複数の文書を１以上のカテゴリに分類したときのカテゴリを表す情報である。推定部１０５は、同じまたは類似するカテゴリに分類される文書から検索された候補に対して、値が大きくなるように確信度を算出してもよい。

与件は、開発または契約に応じて、すなわち推定する際の文脈によって、与件の抽出元となった機能表現を含む文書と同じ作成者（人、組織）が実施すべき場合と、別の作成者（人、組織）が実施すべき場合とがありうる。従って、推定部１０５は、文脈に応じて、同じ作成者（または別の作成者）により作成された文書から検索された候補に対して、値が大きくなるように確信度を算出するか、値が小さくなるように確信度を算出するかを決定してもよい。文脈は、例えば検索を実行する際に指定されてもよい。推定部１０５は、複数の文脈それぞれに対して確信度を算出してもよい。

与件は、既に実施されている、または、並行して実施されているべき、と解釈できる場合がある。従って推定部１０５は、クエリ生成元の文を含む文書の作成時期と同じ時期、または、それより前の時期が作成日時である文書から検索された候補に対して、値が大きくなるように確信度を算出してもよい。時期とは、日時の範囲を表し、例えば、年度、半期、四半期などである。

図２のステップＳ１０９では、出力制御部１０６は、算出された確信度とともに推定結果を含む表示画面を表示してもよい。図５は、推定結果を表示する表示画面の一例を示す図である。

図５は、上記の「水温計が周期的に測定した反応槽の温度を監視画面Ｘに折れ線グラフ表示する」という与件が抽出されたときに、この与件に対応する機能表現の候補の推定結果を表示する表示画面の例である。

表示欄５１０は、「稼働している反応槽αの温度をユーザが設定した時間間隔で測定する」という機能表現の候補を表示する欄である。表示欄５２０は、「反応槽αの温度を計測する」および「反応槽の温度をユーザの設定に基づいて測定する」という機能表現の候補を表示する欄である。各表示欄には、機能表現に含まれる句に対応するノードと、機能表現に含まれない句に対応するノードと、を区別する表示態様でクエリを表示してもよい。

表示欄５１０の機能表現は、確信度が０．７５４であり、「実施ありと思われます」という推定結果が得られている。表示欄５２０の機能表現は、確信度が０．５２８であり、「実施の可能性はありますが性質が曖昧です」という推定結果が得られている。「実施箇所」は、与件に対応する機能表現が記載されている文書およびページなどを特定する情報である。

なお、確信度が、例えば「判断できない」に対応して定められる閾値より小さい場合、出力制御部１０６は、文書の記載に不備があることを示す情報を表示してもよい。

修正ボタン５１１、５２１が押下されると、対応する推定結果が正しいか否かを判断し、判断結果に応じてモデルを修正（更新）するための修正画面が表示される。

図６は、修正画面の一例を示す図である。図６に示すように、修正画面６００は、選択ボタン６０１ａ、６０１ｂと、原文表示ボタン６０２と、実行ボタン６０３と、を含む。

選択ボタン６０１ａ、６０１ｂは、それぞれ推定結果が正しいか（該当）、間違っているか（非該当）を選択するためのボタンである。例えば推定された候補が与件を説明した文であると判断した場合、ユーザは、選択ボタン６０１ａを選択する。推定された候補が与件を説明した文ではないと判断した場合、ユーザは、選択ボタン６０１ｂを選択する。

原文表示ボタン６０２が押下されると、出力制御部１０６は、推定結果である文の記載箇所を含む原文書を、例えば別の表示画面に表示する。

実行ボタン６０３が押下されると、更新部１０７は、ユーザによる判断結果に応じて、以下のように各モデルを更新する。

例えば、更新部１０７は、利用者による判断結果（正負の教師データに相当）に基づいて推定モデルを更新する。これにより、推定部１０５による推定の精度を向上させることができる。

更新部１０７は、例えば、推定モデルに含まれる、知識グラフの構造の一致の度合いの算出に用いる統計モデル（同一判定用の統計モデル）を更新する。この統計モデルは、知識グラフの構造パタンの判別基準を学習したモデルである。

更新部１０７は、例えば推定結果が正しいことが指定（選択ボタン６０１ａの選択）された場合、検索された候補が与件を説明する文とする確信度として大きい値（例えば１．０）を記録する。更新部１０７は、例えば推定結果が誤っていることが指定（選択ボタン６０１ｂの選択）された場合、検索された候補が与件を説明する文とする確信度として小さい値（例えば０．０）を記録する。

なお、モデルを更新することによって、対象文書の文章構造および文体を学習するとも解釈することができる。

文章構造は、例えば、目次において、機能表現および与件の説明が記載される傾向のある題目、および、機能表現および与件の説明の位置関係などである。位置関係としては、同一文書内の場合、以下のような例が挙げられる。
・機能の実行順に記載する。この場合、与件は前提条件として実行順が先になるので、先に記載される傾向（パタン）がある。
・主機能を骨格に記載する。この場合、与件は内容の詳細として、後述される傾向（パタン）がある。

文章構造が学習できると共参照および照応の解析精度も上がることが期待できる。すなわち、推定部１０５の性能の向上が期待できる。

文体は、例えば、内容の説明に使う単語および接続詞の使い方の傾向（パタン）などである。使う単語の傾向が学習できると、検索部１０４および推定部１０５の性能の向上が期待できる。また、接続詞の使い方の傾向が学習できると、文章構造の学習と同様に、推定部１０５の性能の向上が期待できる。

更新部１０７は、推定モデルに含まれる、知識グラフの各ノードの対象の同一の度合いの算出に用いる統計モデルを更新してもよい。この統計モデルは、知識グラフの、主に主体ノード（名詞）、および、客体ノード（名詞）の対象となるものの同一性の判定基準を学習したモデルである。このようなモデルは、同一性の判定を行う共参照解析および照応解析に用いることができる。このようなモデルを更新することも、対象文書の文章構造および文体を学習すると解釈することができる。

なお、これらの統計モデルはいずれも、例えば基本レイヤのノードに対する同一の度合い（ステップＳ２０３）、および、詳細レイヤのノードに対する同一の度合い（ステップＳ２０５）の算出に用いることができる。

なお、推定部１０５は、以降に同じ与件を対象に再度推定するときは、記録された判断結果を採用して推定を行ってもよい。

更新部１０７は、利用者による判断結果（正負の教師データに相当）に基づいて生成モデルを更新してもよい。これにより、検索部１０４による検索の精度を向上させることができる。

更新部１０７は、例えば、生成モデルに含まれる、知識グラフの各ノードを表す語句の同義（同じ意味であるか）の度合いの算出に用いる統計モデルを更新する。この統計モデルは、主に検索用のクエリを生成する際に用いられるが、検索部１０４が検索を実行の際に用いられてもよい。このようなモデルの更新は、対象文書の語句の使い方を学習すると解釈することができる。

与件の抽出結果（ステップＳ１０４など）をユーザに出力し、抽出結果をユーザが確認および修正できるように構成してもよい。これにより、抽出部１０２が用いる抽出モデルを更新可能となる。

図７は、抽出結果を表示する結果表示画面の一例を示す図である。図７に示すように、結果表示画面７００は、選択ボタン７０１と、原文表示ボタン７０２と、修正ボタン７０３と、実行ボタン７０４と、を含む。

結果表示画面７００では、例えばステップＳ１０２で抽出された機能表現が表示される。また、抽出された機能表現のうち、ステップＳ１０４で与件が抽出された機能表現が、選択ボタン７０１で選択可能に表示される。また抽出された与件の箇所には下線７１１が付される。

選択ボタン７０１は、対応する文の候補を検索する与件（検索対象とする与件）を選択するためのボタンである。なお図７に示すように、与件を含まない機能表現は選択ボタン７０１が選択不可の態様で表示される。

実行ボタン７０４が押下されると、選択ボタン７０１で選択された機能表現に含まれる与件に対応する文の候補の検索（図２ではステップＳ１０６以降）が実行される。

原文表示ボタン７０２が押下されると、出力制御部１０６は、抽出結果である文の記載箇所を含む原文書を、例えば別の表示画面に表示する。

修正ボタン７０３が押下されると、出力制御部１０６は、抽出された与件が正しいか否かを判断し、判断結果に応じて抽出モデルを修正（更新）するための修正画面を表示する。

図８は、抽出結果を修正するための修正画面の一例を示す図である。図８に示すように、修正画面８００は、実行ボタン８０１を含む。修正画面８００では、例えばユーザは、文に含まれる与件に相当する箇所８１１の指定（修正、選択）を行うことができる。ユーザは、抽出された与件の指定の解除、すなわち、与件と見なさないことを指定することも可能である。

実行ボタン８０１が押下されると、更新部１０７は、ユーザによる指定に応じて与件の抽出結果を修正する。例えば図８の例では、与件が抽出されていなかった図７に２行目の機能表現について、ユーザにより与件の範囲が指定される。実行ボタン８０１が押下されると、この機能表現について与件が抽出された状態となる。この結果、図７の例では、２行目の機能表現に対応する選択ボタンが、検索対象として選択可能な態様に変更されて表示される。

また更新部１０７は、ユーザによる修正結果（正負の教師データに相当）に応じて抽出モデルを更新してもよい。これにより、抽出部１０２による抽出の精度を向上させることができる。

更新部１０７は、例えば、抽出モデルに含まれる、与件の表現を抽出する統計モデルを更新する。この統計モデルは、与件の表現パタンの判別基準を学習したモデルである。このようなモデルの更新は、対象文書の文体および与件における語句の使い方を学習すると解釈することができる。

次に、推定処理の具体例について説明する。図９および図１０は、推定処理の具体例を示す図である。図９および図１０は、いずれも「水温計が周期的に測定した反応槽の温度」という与件に対応するクエリ（図３ではクエリ３０３）を用いて検索された機能表現の候補の例を示す。

図９は、「稼働している反応槽αの温度をユーザが設定した時間間隔で測定する」という機能表現の候補が検索された例である。「測定する」に対応する述語句ノード、および、「温度」に対応する客体ノードは、候補とクエリとの間で同一である。候補では主体ノードが存在しないが、客体ノードが「温度」に対応することから、温度を測定する主体が「水温計」であることを推定することができる。推定部１０５は、推定した主体がクエリの主体ノードに対応するため、推定した主体がクエリの主体ノードと対応しない場合より大きい値の確信度を算出してもよい。

また、推定部１０５は、性質ノードに対応する「周期的」と、候補の基本レイヤに含まれる性質を表す「時間間隔」とは同一と見なせると推定する（図４のステップＳ２０３）。例えば推定部１０５は、辞書（推定モデルの一例）を参照して「時間間隔」と「周期的」とが同一と見なせると推定する。

図１０は、「ユーザが設定した時間間隔で稼働する反応槽αの温度を測定する」という機能表現の候補が検索された例である。この例では、図９の例と異なり、「ユーザが設定した時間間隔で」は「稼働」を修飾している。このため、候補の基本レイヤ内のノードからは、「周期的」と同一と見なせるノードは検索されない（図４のステップＳ２０４：Ｎｏ）。そこで推定部１０５は、候補の依存構造のグラフの詳細レイヤに含まれるノードから、「周期的」と同一と見なせるノードを検索する（ステップＳ２０５）。図１０の例では、４ホップ目のノードである「時間間隔」が、「周期的」と同一と見なせるノードとして検索される。

推定部１０５は、基本レイヤ内で同一と見なせるノードが検索できず、詳細レイヤ内で同一と見なせるノードが検索できた場合、基本レイヤ内で検索できた場合より小さい値の確信度を算出してもよい。検索されるノードが述語句ノードに係らない可能性もより高まるためである。具体的には、詳細レイヤを含めると依存構造が複数に解釈される可能性が高まり、従って、同一と推定する確信度が小さくなると考えることができるためである。

例えば図１０の例では、「時間間隔」は「稼働」に係るとする解釈、および、「測定」に係るとする解釈のいずれも間違いではなく、いずれであるかは文脈により決定される。このため、前後の文から文脈を解釈できない場合は、確信度が小さくなる。

以上のように、本実施形態にかかる情報処理装置は、文書から与件を抽出し、抽出した与件に対応する機能の説明（機能表現）が、文書の他の箇所に記載されているか（実施されているか）を推定する。これにより、仕様書などの文書に内容の不整合が生じていないかについて、より容易に確認可能となる。

また、本実施形態では、述語句に対する主体、客体および性質の関係（依存構造）を表すようにクエリを生成する。このため、推定部１０５は、主体、客体および性質などの句の意味を用いて、複数の句が対応するか（同一と見なせるか）などを推定することができる。

次に、実施形態にかかる情報処理装置のハードウェア構成について図１１を用いて説明する。図１１は、実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。

実施形態にかかる情報処理装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

実施形態にかかる情報処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００情報処理装置
１０１受付部
１０２抽出部
１０３生成部
１０４検索部
１０５推定部
１０６出力制御部
１０７更新部
１２１文書記憶部
１２２抽出モデル記憶部
１２３生成モデル記憶部
１２４推定モデル記憶部
１３１表示部

Claims

第１機能を実行することを示す複数の第１情報を含む１以上の文書から、前記第１機能の前提となる第２機能を示す第２情報を含む１以上の前記第１情報を抽出し、抽出した前記第１情報から前記第２情報を抽出する抽出部と、
抽出された前記第２情報について、前記第２情報が示す前記第２機能に対応する前記第１機能を実行することを示す前記第１情報の候補を前記文書から検索する検索処理を実行する検索部と、
前記検索処理により検索された前記候補が、前記第２機能を実行することを示す前記第１情報であるか否かを推定する推定部と、
を備える情報処理装置。
前記第２機能に対応する述語句を示す述語句ノードと、前記第２機能の主体となる句を示す主体ノード、前記第２機能の客体となる句を示す客体ノード、および、前記第２機能の性質を表す句を示す性質ノードのうち少なくとも１つと、の関係をグラフ状に表すように前記第２情報を変換したクエリを生成する生成部をさらに備え、
前記検索部は、生成されたクエリを用いて前記検索処理を実行する、
請求項１に記載の情報処理装置。
前記生成部は、前記述語句ノードと、前記主体ノード、前記客体ノード、および、前記性質ノードのうち少なくとも１つと、を前記第２情報から抽出し、抽出した前記述語句ノードと、前記主体ノード、前記客体ノード、および、前記性質ノードのうち少なくとも１つと、の関係をグラフ状に表すように変換する予め学習された生成モデルを用いて、前記クエリを生成する、
請求項２に記載の情報処理装置。
前記推定部による推定結果が正しいか否かに基づいて、前記生成モデルを更新する更新部をさらに備える、
請求項３に記載の情報処理装置。
前記抽出部は、予め学習された修飾構造を抽出する抽出モデルを用いて前記文書から抽出された前記修飾構造のうち、前記第１機能を実行することを示す特徴量を有する前記修飾構造であって、前記第２情報を含む前記修飾構造を、前記第１情報として抽出する、
請求項１に記載の情報処理装置。
抽出された前記第１情報に対する修正結果を用いて前記抽出モデルを更新する更新部をさらに備える、
請求項５に記載の情報処理装置。
前記推定部は、予め学習された推定モデルを用いて、前記候補が、前記第２機能を実行することを示すか否かを推定する、
請求項１に記載の情報処理装置。
前記推定部による推定結果が正しいか否かに基づいて、前記推定モデルを更新する更新部をさらに備える、
請求項７に記載の情報処理装置。
前記推定部は、前記文書の属性情報に基づいて、前記検索処理により検索された前記候補が、前記第２機能を実行することを示す前記第１情報であるか否かを推定する、
請求項１に記載の情報処理装置。
前記属性情報は、識別情報、分類情報、作成者、および、作成日時の少なくとも１つである、
請求項９に記載の情報処理装置。
第１機能を実行することを示す複数の第１情報を含む１以上の文書から、前記第１機能の前提となる第２機能を示す第２情報を含む１以上の前記第１情報を抽出する抽出ステップと、
抽出された前記第１情報について、前記文書から、前記第１情報に含まれる前記第２情報が示す前記第２機能に対応する前記第１機能を実行することを示す前記第１情報の候補を検索する検索処理を実行する検索ステップと、
前記検索処理により検索された前記候補が、前記第２機能を実行することを示す前記第１情報であるか否かを推定する推定ステップと、
を含む情報処理方法。
コンピュータに、
第１機能を実行することを示す複数の第１情報を含む１以上の文書から、前記第１機能の前提となる第２機能を示す第２情報を含む１以上の前記第１情報を抽出する抽出ステップと、
抽出された前記第１情報について、前記文書から、前記第１情報に含まれる前記第２情報が示す前記第２機能に対応する前記第１機能を実行することを示す前記第１情報の候補を検索する検索処理を実行する検索ステップと、
前記検索処理により検索された前記候補が、前記第２機能を実行することを示す前記第１情報であるか否かを推定する推定ステップと、
を実行させるためのプログラム。