JP5315368B2

JP5315368B2 - 文書処理装置

Info

Publication number: JP5315368B2
Application number: JP2011041117A
Authority: JP
Inventors: 君吉待井; 薫川端; 毅横田; 義行小林; 正和藤尾
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2011-02-28
Filing date: 2011-02-28
Publication date: 2013-10-16
Anticipated expiration: 2031-02-28
Also published as: US20120221324A1; JP2012178078A

Description

本発明は、より少ない手間でより短時間で文書を処理するシステムに関する。

本技術分野の背景技術として、特許文献１がある。この公報には、「階層概念辞書の体系情報およびリンク情報をもとに、第１の抽出手段により抽出した概念名の関連概念名を抽出し、この関連概念名に第２の抽出手段により抽出した概念名が含まれていない場合に（中略）記述されるべき表現が不足していると判定する」と記載されている（〔０００８〕参照）。すなわち、ある文書に記載されるべき事項が記載されているかどうかを判断するものである。

特許文献１においては、文書が表形式のフォーマットであることが前提になっており、表には、機器の情報、それに関する不具合症状，報告文を入力する。機器の情報，不具合症状は、予めオントロジに定義されており、それらに関連する内容が報告文に記述されているかどうかを判定する。

また、特許文献２，３には、任意の語句を指定し、文書中における当該語句の出現箇所を抽出する技術が開示されている。特許文献２では、検索語句と関連語句を動的に決定して出現頻度順に表示する技術、特許文献３では、検索語間の文字数や検索範囲を指定して検索する技術がそれぞれ開示されている。

特開２００９−１１０４０５号公報特許第４００９９３７号公報特許第３０９９２９８号公報

契約手続きにおいては、顧客が提出してきた要求仕様書を読み、自社にとって不利となりうる要注意箇所の有無をチェックする必要がある。システムの支援を得ながらこれを実施する場合、要求仕様書は顧客によってフォーマットや文章表現が異なるため、ある特定のフォーマットや表現を想定してシステムを構築することはできない。

例えば特許文献１においては、表の各項目に書かれるべき事項が予めオントロジに定義されており、表には、オントロジに定義されている内容しか書けない。しかし、実際には、ある特定のフォーマットだけを前提にしても、あらゆる顧客から来る要求仕様書を処理することは不可能である。したがって、特定フォーマットに依存せずに要求仕様書と自社技術体系とを比較し、要注意箇所を抽出することが課題となる。

また、特許文献２，３の技術を用いれば、要注意となる語句が予めわかっている場合に限り、当該の語句をキーワード検索することによって要注意箇所の候補がわかる可能性がある。しかし、自社が知らない事項が書かれていた場合、検索すべき語句も知らないはずであるから、キーワード検索は不可能である。

したがって、自社が知らない事項に関する記述を抽出することが課題である。

文書を読み込んで当該文書から特徴を抽出して表示する機能を有する文書処理装置において、文書内のフレーズどうしの関係に基づいて当該文書に含まれるフレーズで構成される知識ネットワークデータを有し、入力文書から抽出した文書構造を前記知識ネットワークデータと比較し、構造の類似度が高いフレーズのスコアを、その類似度に応じて高く評価することによって前記入力文書の記載内容の特徴を抽出することを特徴とする。

また、前記差分抽出機能で抽出した特徴を基に回答文データを選択する回答文選択機能を有し、前記回答文選択機能によって選択された回答文に基づいて前記入力文書に関する回答書を出力する回答書出力機能を有することを特徴とする。

また、前記回答文選択機能は、知識ネットワークデータに存在して前記入力文書に存在しない項目に対しては、項目によらずに定型文を選択し、前記入力文書に存在して知識ネットワークデータに存在しない項目に対しては、前記知識ネットワークデータに保持されている回答文を選択することを特徴とする。

また、契約書の文章の構文を解析することによって文書構造を解析する構造抽出機能を有することを特徴とする。

また、前記特徴を、前記知識ネットワークデータ，前記文書構造データの少なくとも一方に表示することを特徴とする。

また、前記特徴を前記知識ネットワークデータに追加するためのユーザインタフェースと機能を有することを特徴とする。

また、前記知識ネットワークデータと前記文書構造を比較した結果、合致した箇所について表示する機能を有することを特徴とする。

顧客の要求仕様書のフォーマットに依存せずに要求仕様書と自社技術体系とを比較し、要注意箇所または合致箇所を抽出することが可能になる。

文書処理装置の構成図である。ハードウェア構成である。要求仕様書１０１の記述例である。標準項目構造化データ１０３のデータ構造図である。回答文データ１０４の構造図である。文書構造解析部１０５の処理フローである。文書構造解析部１０５の処理フローの具体例である。動詞，前置詞から述語への変換テーブル８００である。構造的差分抽出部１０６の処理フローである。三項関係と標準項目構造化データ１０３とのマッチング処理のフローである。標準項目構造化データ１０３から抽出した三項関係と文書構造解析部１０５で抽出したデータをマッチングする処理フローである。要注意箇所バッファの構成である。回答文選択部１０８の処理フローである。システムのメイン画面である。回答書１１１の例である。編集ＨＭＩ１１０の画面である。構造データ表示画面１７０１である。文書処理装置の別の構成図である。

以下、図面を用いて実施例を説明する。

図１は、本発明の文書処理装置の構成図である。要求仕様書１０１が入力されると、文書構造解析部１０５にて文書構造を解析する。具体的には、要求仕様書１０１に記述されている文の構造，章立て等を解析する。文書構造解析部１０５の処理結果は、構造的差分抽出部１０６に送られ、標準項目構造化データ１０３との差分を抽出する。回答文選択部は、構造的差分抽出部１０６の結果に基づいて、回答書１１１を作成する際の回答文を選択するものである。回答文は、定型文１０７を採用するか、ナレッジＤＢ１０２に格納されている回答文データ１０４を採用するかのいずれかである。回答書作成部１０９は、回答文選択部１０８で選択した回答文、構造的差分抽出部１０６で抽出した差分に基づいて回答書１１１を作成するものである。また、編集ＨＭＩ１１０にて、回答書１１１を編集することが可能である。

上述したように、要求仕様書１０１は、評価対象物であり、評価対象テキスト文書である。

また、標準項目構造化データ１０３は、評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続したものであり、標準知識ネットワークデータである。詳細は、図４に記載する。

また、文書構造解析部１０５は、テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータを作成する処理手段であり、文書知識作成機能手段である。詳細は、図６に記載する。

また、文書構造解析部１０５で作成された評価対象文書知識ネットワークデータは、テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続したものであり、詳細は図７に記載する。

また、構造的差分抽出部１０６は、評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報が相互に異なる場合に、当該特定語句の情報と差異情報とを出力する処理手段である。詳細は図９に記載する。

図２は、本発明におけるハードウェア構成である。ＣＰＵ２０１は、本発明におけるすべての処理を制御する。メモリ２０２は、本実施例において必要なデータを、システムの動作が終了するまで保持する。表示装置２０３は、処理結果を表示してユーザに提示する装置であり、液晶ディスプレイやＣＲＴ（Cathode Ray Tube：ブラウン管）モニターを用いる。読取装置２０４は、要求仕様書１０１を読み込む装置であり、スキャナなどが使われる。また、読取装置２０４は、要求仕様書１０１のテキストデータを生成するためのソフトウェアを備えてもよく、例えばＯＣＲ（Optical Character Recognition：光学文字認識）を用いる。但し、要求仕様書１０１がテキストデータである場合は、読取装置２０４は必ずしも必要ではなく、要求仕様書１０１が紙への印刷物である場合のみ必要になる。記憶装置２０５は、ナレッジＤＢ１０２や案件データバッファを保持するために使われ、例えばハードディスク（ＨＤＤ）を用いる。また、回答書１１１や提案仕様書１１２など、ナレッジＤＢ１０１以外にも、必要なデータがあれば、プログラム実行中または終了後に記憶装置２０５に保存する。入力装置２０６は、回答書１１１の編集や提案仕様書雛形の選択を受け付けるなど、ユーザが入力するための装置であり、キーボードやマウスがこれに該当する。

図３は、要求仕様書１０１の記述例である。本実施例は、図３の記述内容に関して開示する。

図４は、標準項目構造化データ１０３のデータ構造を示す図である。この構造では、ノード同士の関係を用いて、知識体系を表している。例えば、「ｃｏｎｔｒａｃｔ」の部分として「ｐｒｉｃｅ」と「ｉｎｓｕｒａｎｃｅ」があり、これらは「ｃｏｎｔｒａｃｔ」と「ｐａｒｔ_ｏｆ」という関係で結ばれている。また、「ｐｒｉｃｅ」の属性として「ｎｕｍｂｅｒ」があり、「ｌｏｗｅｒ_ｔｈａｎ」という関係で結ばれている。「ｎｕｍｂｅｒ」には、「ｖａｌｕｅ」という関係で「８５」が、「ｕｎｉｔ」という関係で「ｄｏｌｌｅｒ」が結び付けられている。これは、「ｐｒｉｃｅは８５ｄｏｌｌｅｒより低くする」という意味である。「ｎｕｍｂｅｒ」ノードから「ｄｅｖｉ」という関係で結ばれている数値「３」は、回答文データ１０４の回答文番号であり、ｎｕｍｂｅｒノードにて記述されている数値条件に合わない記述があった場合に回答書１１１に記述する内容である。また、「ｉｎｓｕｒａｎｃｅ」と「ｆｉｒｅ」、「ｆｌｏｏｄ」が「ｉｓ_ａ」という関係で結ばれており、「ｉｎｓｕｒａｎｃｅの種類としてｆｉｒｅとｆｌｏｏｄが存在する」という意味である。このように、ノード同士の様々な関係を用いて知識体系を記述したものが、標準項目構造化データ１０３である。これらのような構造は、知識体系を記述するための言語であるＲＤＦ（Resource Description Framework）やＯＷＬ（Web Ontology Language）等を用いて記述することが可能である。

図５は、回答文データ１０４の構造を示す図である。これは、回答文雛形番号５０１と回答文雛形５０２から構成される。上記の「ｎｕｍｂｅｒ」ノードの例では、数値条件に合わない事項が要求仕様書１０１にて指定された場合は、回答書雛形番号「３」のレコード５０３から、「We propose under 80% of fair market price」という回答文雛形を検索し、それを回答書１１１に自動的に記述することになる。

図６は、文書構造解析部１０５の処理フローである。まず、要求仕様書１０１のテキスト情報を読み込み（ステップ６０１）、テキストを１文ずつに区切る（ステップ６０２）。ステップ６０２は、英文の場合、例えばピリオド「．」を文の区切りとしてもよい。但し、省略形のピリオドを誤って文の区切りとしないために、省略形が考えられる単語の辞書を持っておき、それに合致しない場所にピリオドがある場合のみ、文の区切りとしてもよい。以降、区切った文ごとの処理ループに入り、まず、処理対象の文を構文解析して、文を構成する各単語の品詞を決める（ステップ６０３）。次に、処理対象の文から、主語，述語，目的語の三項関係を抽出し（ステップ６０４）、要求仕様書における当該三項関係の出現位置を求める（ステップ６０５）。出現位置は、主語，述語，目的語それぞれの出現位置であり、要求仕様書先頭からカウントした文字位置と、文字列長によって表す。最後に、文と抽出した三項関係と出現位置をバッファに格納する（ステップ６０６）。全部の文について処理を終えたかどうかを判定し（ステップ６０７）、処理を終えていれば終了し、終えていなければ次の文につき、ステップ６０３以降を繰り返す。

図７は、図６で示した処理フローの具体例である。図７の（ａ）で示した文７０１と文７０２についての例を示す。文７０１から三項関係を抽出した例は、図７の（ｂ）に示されている。文７０１では、主語がｐｒｉｃｅ、動詞がｂｅ、目的語が１００％となる。したがって、（ｂ）のように、「ｐｒｉｃｅ」と「１００％」が「ａｔｔｒｉｂｕｔｅ_ｏｆ」という述語で結ばれることになる。文７０２の解析結果は、図７の（ｃ）に示されている。文７０２の場合、主語はｐｒｉｃｅ、動詞がｉｎｃｌｕｄｅｓ、目的語がｔｉｍｅとｃｏｓｔｓとなる。したがって、（ｃ）に示すように、「ｐｒｉｃｅ」を主語とし、「ｔｉｍｅ」と「ｃｏｓｔｓ」がそれぞれ「ｐａｒｔ_ｏｆ」という述語で結ばれる。

図８は、三項関係を抽出する際の、動詞，前置詞から述語への変換テーブル８００である。三項関係の述語は、動詞や前置詞を手がかりに述語へ変換する。図７に示した例では、動詞としてｂｅ，ｉｎｃｌｕｄｅｓが抽出されている。このとき、ｂｅ，ｉｎｃｌｕｄｅｓをカラム８０１から検索し、それに対応するカラム８０２に示された述語へ変換し、それぞれａｔｔｒｉｂｕｔｅ_ｏｆ，ｐａｒｔ_ｏｆという関係に変換される。

図９は、構造的差分抽出部１０６の処理フローである。まず、文書構造解析部１０５で抽出した三項関係を読み込む。以下、抽出した三項関係の一つずつについて処理を実行する。次に、三項関係の主語，目的語の両者が、標準項目構造化データ１０３に存在するかどうかを調べる（ステップ９０２）。これは、標準項目構造化データ１０３に関連が無い記述がなされていないかを判断するための処理であり（ステップ９０３）、主語，目的語ともに存在しないと判断した場合は、ステップ９０２に戻り、次の三項関係の処理に移る。もし、主語，目的語の少なくとも一方が存在する場合は、三項関係と標準項目構造化データ１０３をマッチングする（ステップ９０４）。最後に、全部の三項関係を処理したかを判定し（ステップ９０５）、三項関係がまだ残っていたら、ステップ９０２に戻って、次の三項関係を処理する。処理を終えていたら次の処理を実行する。ステップ９０１〜９０５は、要求仕様書１０１に存在し、標準項目構造化データ１０３に無い項目の抽出である。すなわち、自社の標準仕様に存在しない項目の指定があれば、それを要注意箇所として抽出するための処理である。また、ステップ９０１〜９０５で抽出された、要求仕様書１０１に存在し、標準項目構造化データ１０３に無い項目は、評価対象文書知識ネットワークデータに存在し標準知識ネットワークデータに存在しない第２の差異情報である。詳細は図１２に記載する。

ステップ９０６以降は、９０５までの処理と逆の処理になる。すなわち、標準項目構造化データ１０３に存在し、要求仕様書１０１に存在しない項目を抽出する。ステップ９０６では、標準項目構造化データ１０３から、三項関係を抽出する。その三項関係と、文書構造解析部１０５で抽出したデータをマッチングする（ステップ９０７）。標準項目構造化データ１０３から、すべての三項関係を抽出し、マッチング処理をしたかどうかを判定し（ステップ９０８）、すべての三項関係について処理を終えていれば、すべての処理を終了する。終えていなければ、ステップ９０６に戻って、処理を継続する。ステップ９０６〜９０８で抽出された、標準項目構造化データ１０３に存在し、要求仕様書１０１に存在しない項目は、標準知識ネットワークデータに存在し評価対象文書知識ネットワークデータに存在しない第１の差異情報である。詳細は図１２に記載する。

尚、ステップ９０１〜９０５とステップ９０６〜９０８は独立して実行しても良いし、順序が逆でも良い。

図１０は、ステップ９０４の、三項関係と標準項目構造化データ１０３とのマッチング処理のフローである。まず、三項関係の目的語を変数として、当該三項関係の主語，述語にマッチする目的語の有無を問い合わせるクエリーを生成する（ステップ１００１）。このクエリーは、例えばＳＰＡＲＱＬ（SPARQL Protocol and RDF Query Language）によるものが好適である。次に、そのクエリーを、標準項目構造化データ１０３に対して発行する（ステップ１００２）。その結果として、当該主語，述語を持つ三項関係に合致する目的語を獲得し、それらをバッファリングする（ステップ１００３）。次に、獲得した目的語の中に、当該三項関係に合致する目的語があるかどうかを判定する（１００４）。もしあれば、当該の目的語は標準項目構造化データ１０３に存在するので、要注意ではなく、標準合致箇所バッファに登録する（ステップ１００６）。これは、標準項目に合致した箇所を、画面に表示する場合に用いるデータである。一方、無かった場合は、当該の目的語は標準項目構造化データ１０３に存在しないことになるため、標準から外れる項目が記述されているとみなし、要注意箇所バッファに登録する（ステップ１００５）。

図１１は、ステップ９０７の、標準項目構造化データ１０３から抽出した三項関係と文書構造解析部１０５で抽出したデータをマッチングする処理フローである。まず、標準項目構造化データ１０３から抽出した三項関係の目的語を変数として問合せクエリーを生成する（ステップ１１０１）。このクエリーは、図１０の処理フローと同様に、ＳＰＡＲＱＬ（SPARQL Protocol and RDF Query Language）によるものが好適である。次に、文書構造解析部１０５で抽出した三項関係に対してクエリーを発行する（ステップ１１０２）。次に、その結果として、当該主語，述語を持つ三項関係に合致する目的語を獲得し、それらをバッファリングする（ステップ１１０３）。次に、獲得した目的語の中に、当該三項関係に合致する目的語があるかどうかを判定する（１１０４）。もしあれば、当該の目的語は要求仕様書１０１に存在することになるので、要注意ではない。無ければ、要注意箇所バッファに登録する（ステップ１１０５）。尚、図１１の処理は、自社の標準仕様に存在するが顧客から要求されていない項目を抽出するものであるため、必ずしも要注意ではない。むしろ、顧客に対する確認を促す項目を抽出する処理である。

図１２は、要注意箇所バッファの構成である。つまり差異情報である。要注意箇所バッファは、メモリ２０２に生成され、記憶装置２０５には必ずしも保存される必要は無い。もちろん、記憶装置２０５に生成することも好適である。要注意文カラム１２０１には、要注意箇所を含む文であり、当該の三項関係の基の文が格納されている。主語カラム１２０２には、図１０の処理にて要注意と判断された三項関係の主語が格納され、主語位置カラム１２０３には、要求仕様書１０１における当該主語の開始位置が格納される。目的語カラム１２０４には、図１０の処理にて要注意と判断された三項関係の目的語が格納され、目的語位置カラム１２０５には、要求仕様書における当該目的語の開始位置が格納される。種類カラム１２０６は、当該の要注意箇所がどのような方法でみつかったかを示すフラグである。具体的には、標準項目構造化データ１０３に無く要求仕様書１０１に存在する項目を「１」、要求仕様書１０１に無く標準項目構造化データ１０３に存在する項目を「２」とする。前者の場合は、主語カラム１２０２，目的語カラム１２０４には、要求仕様書１０１の記述を基にフレーズが入る。主語位置カラム１２０３，目的語位置カラム１２０５も、要求仕様書１０１の記述に基づく。一方、後者の場合は、標準項目構造化データ１０３における主語，目的語が入り、主語位置，目的語位置は空白になる。回答番号カラム１２０７は、回答書１１１に記載する回答文の番号を示している。これは、標準項目構造化データ１０３に格納されており、図４では「ｄｅｖｉ」という関係で記述されている。例えばノード４０１の場合は、「ｄｅｖｉ」で結ばれているのは「１」であり、回答文番号「１」の内容を回答書１１１に記載するということになる。

また、要注意箇所バッファの構造は、標準項目合致箇所バッファにも用いることが可能である。この場合、種類カラム１２０６，回答番号１２０７は空欄としてもよい。

上述したように種類「１」の行の差異情報は、標準項目構造化データ１０３に無く要求仕様書１０１に存在する項目であり、また、種類「２」の行の差異情報は、要求仕様書１０１に無く標準項目構造化データ１０３に存在する項目である。

図１３は、回答文選択部１０８の処理フローである。回答文選択部１０８は、要注意箇所抽出の過程に応じて、回答文を選択するものである。具体的には、要求仕様書１０１に無く標準項目構造化データ１０３に存在する項目と、要求仕様書１０１に無く標準項目構造化データ１０３に存在する項目で、回答文を変える。まず、要注意箇所バッファを読み込む（ステップ１３０１）。次に種類カラム１２０６の値を評価し（ステップ１３０２）、１ならば回答文１０７を読み込み（ステップ１３０３）、回答文を生成する（ステップ１３０４）。回答文１０７の内容は、「Regarding □□，○○ is not in our proposal.」という内容であり、ステップ１３０４は、「□□」「○○」の部分に要注意フレーズを入れる処理である。「□□」には主語、「○○」には目的語を入れる。例えば、図１２の最初のレコードの場合、「Regarding price, time is not in our proposal.」という回答文になる。一方、種類カラム１２０６の値が２ならば、回答番号カラム１２０７に記載された番号の回答文を読み込む（ステップ１３０５）。例えば図１２の２番目のレコードの場合、回答文データ１０４の回答文番号「１」の「Our insurance is for flood and fire.」という回答文が選択される。最後に、要注意箇所バッファの最後まで処理したかどうかを判定し（ステップ１３０６）、最後まで処理が終わっていれば終了、終わっていなければステップ１３０１へ戻る。

このように、回答文選択部１０８は、標準知識ネットワークデータを構成する語句群に関連付けられた文を保持する文データベースを有し、文データベースから第１の差異情報に含まれる語句をキーに文を検索し第１の差異情報とともに出力する機能と、定型文データを第２の差異情報とともに出力する機能を有する処理手段である。

図１４は、本実施例で開示するシステムのメイン画面である。要求仕様書読込ボタン１４０１は、要求仕様書１０１を読み込むためのボタンである。要注意箇所抽出ボタン１４０２をクリックすると、文書構造解析部１０５と構造的差分抽出部１０６が起動し、要求仕様書１０１と標準項目構造化データ１０３との差分が抽出される。回答書作成ボタン１４０３をクリックすると、回答文選択部１０８と回答書作成部１０９が起動し、回答書の雛形が生成される。回答書編集ボタン１４０４をクリックすると、生成された回答書の編集ＨＭＩ１１０が表示され、ユーザによる回答書の編集が可能になる。回答書出力ボタン１４０５をクリックすると、回答書の内容が表計算ソフトや文書作成ソフトのフォーマットで保存される。要求仕様書ウィンドウ１４０６は、要求仕様書１０１の内容を表示するウィンドウである。また、要注意箇所を抽出すると、要注意箇所が強調表示され、本実施例の場合は１４０７の「ｔｉｍｅ」が強調表示（異なる字体としたり、色を変えた表示）されている。また、標準項目構造化データ１０３に合致している箇所も同時に強調表示され、本実施例の場合は１４０８の「ｃｏｓｔｓ」が強調されている。「ｔｉｍｅ」と「ｃｏｓｔｓ」の強調表示の仕方は異なる。終了ボタン１４０９をクリックすると、すべての処理が終了する。このように差異情報が画面へ出力され、強調表示される。

図１５は、回答書１１１の例である。Ｎo.カラム１５０１は、回答項目に付与された通し番号である。要注意箇所カラム１５０２は、要注意箇所を含む文である。回答文カラム１５０３は、各要注意箇所に対する回答文である。回答書１１１は、一般の表計算ソフトや文書作成ソフトで編集可能なフォーマットに格納するのが好適である。

図１６は、編集ＨＭＩ１１０の画面である。編集カラム１６０１は、編集オプションを選択するものであり、編集と削除が可能である。編集ボタン１６０５をクリックすると、回答書の編集が可能になる。削除ボタン１６０６をクリックすると、当該の項目が回答書リストから削除される。要注意箇所カラム１６０２は、要注意箇所を含む文である。回答文カラム１６０３は、当該要注意箇所に対する回答文である。保存ボタン１６０９をクリックすると、編集内容がバッファに保存される。終了ボタン１６０８をクリックすると、編集ＨＭＩ１１０が画面から消え、編集処理が終了する。詳細ボタン１６０７をクリックすると、当該項目に関する構造データの表示画面１７０１が表示される。

図１７は、構造データ表示画面１７０１である。これは、当該の要注意箇所に関する情報であり、標準項目構造化データ１０３の関係箇所，要注意箇所それぞれの構造を、標準項目ウィンドウ１７０２，要注意箇所ウィンドウ１７０３に表示する。この状態で、追加ボタン１７０４をクリックすると、ウィンドウ１７０３に表示されている内容が、標準項目構造化データ１０３に反映される。具体的には、図１７（ｂ）のようになり、本実施例の場合は、ｔｉｍｅノード１７０６が標準項目構造化データに反映される。閉じるボタン１７０５をクリックすると、構造データ表示画面１７０１が消滅する。これによって、要注意箇所の抽出結果を、標準項目構造化データ１０３にフィードバックすることが可能になる。

図１８は、文書処理装置の別の構成図である。図１と異なるのは、構造的差分抽出部１０６が構造的合致情報抽出部１８０６に代わった点である。構造的合致情報抽出部１８０６の処理は、図１０，図１１のマッチングのフローと同じである。違う点は、図１０のステップ１００４の三項関係に合致する目的語があるかどうかの処理で、Ｙｅｓの処理が構造的合致情報抽出部１８０６としての処理であり、Ｎｏの処理が構造的差分抽出部１０６としての処理である。また、図１１ステップ１１０４の三項関係に合致する目的語があるかどうかの処理で、Ｙｅｓの処理が構造的合致情報抽出部１８０６としての処理であり、Ｎｏの処理が構造的差分抽出部１０６としての処理である。そのほかの処理としては、要注意箇所を合致箇所として解釈できる部分や、差異情報を合致情報として解釈できる部分は、同じ処理をすることとなるので詳細は省略する。本実施例により、顧客の要求仕様書のフォーマットに依存せずに要求仕様書と自社技術体系とを比較し、合致箇所を抽出することが可能になる。作業者にとって、合致箇所を抽出することにより、自社技術体系に重きを置きながら、自社が知らない事項に関する記述を抽出することにも役立つ。

図１４は、実施例１（または実施例２）で開示するシステムのメイン画面である。画面は、構造的差分抽出部１０６または構造的合致情報抽出部１８０６で表示装置２０３へ出力されたものである。実施例１または実施例２では、文書構造解析部１０５により解析することを前提としていたが、その解析処理を終えたデータは図４や図７のようにデータベースへ記録しておけば必ずしも解析処理は必要ではない。つまり、図１４の画面は、構造的差分抽出部１０６で、それらデータベースに記録された評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造を比較することにより表示する。

つまり、テキスト文書の記述内容から特定の記述を抽出する処理装置の表示方法において、評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続した標準知識ネットワークデータ（標準項目構造化データ１０３）をデータベースに保持し、前記テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータ（図７（ｂ），（ｃ）のデータ）をデータベースに保持し、評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報が相互に異なる又は合致する場合に、当該特定語句の情報を含む、差異情報又は合致情報とを表示手段に強調表示する（構造的差分抽出部１０６，構造的合致情報抽出部１８０６の処理）文書処理装置の表示方法とすることにより、顧客の要求仕様書のフォーマットに依存せずに要求仕様書と自社技術体系とを比較し、要注意箇所または合致箇所を抽出することが可能になる。

また、差異情報及び合致情報を異なる表示で強調表示する表示方法により、作業者は、要注意箇所と合致箇所を同時に把握しつつ、文書全体を容易に確認することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成，機能，処理部，処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成，機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム，テーブル，ファイル，測定情報，算出情報等の情報は、メモリや、ハードディスク，ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード，ＳＤカード，ＤＶＤ等の記録媒体に置くことができる。よって、各処理，各構成は、処理部，処理ユニット，プログラムモジュールなどとして各機能を実現可能である。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１０１要求仕様書
１０２ナレッジＤＢ
１０３標準項目構造化データ
１０４回答文データ
１０５文書構造解析部
１０６構造的差分抽出部
１０７定型文
１０８回答文選択部
１０９回答書作成部
１１０編集ＨＭＩ
１１１回答書
１８０６構造的合致情報抽出部

Claims

テキスト文書の記述内容から特定の記述を抽出する処理装置において、
評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続した標準知識ネットワークデータを保持し、
前記テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータを作成する文書知識作成機能を有し、
評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報が相互に異なる場合に、当該特定語句の情報を含む差異情報を出力する処理手段を有することを特徴とするテキスト文書処理装置。
請求項１において、
前記差異情報とは、前記標準知識ネットワークデータに存在し前記評価対象文書知識ネットワークデータに存在しない第１の差異情報，前記評価対象文書知識ネットワークデータに存在し前記標準知識ネットワークデータに存在しない第２の差異情報の少なくとも一方であることを特徴とするテキスト文書処理装置。
請求項２において、
前記標準知識ネットワークデータを構成する語句群に関連付けられた文を保持する文データベースを有し、前記文データベースから前記第１の差異情報に含まれる語句をキーに文を検索し前記第１の差異情報とともに出力する機能と、定型文データを前記第２の差異情報とともに出力する機能を有する処理手段を有することを特徴とするテキスト文書処理装置。
請求項２ないし請求項３のいずれかにおいて、
前記評価対象テキスト文書を表示する際に、前記第２の差異情報に含まれる語句を、異なる字体で表示することを特徴とするテキスト文書処理装置。
請求項２ないし請求項４のいずれかにおいて、
前記第２の差異情報に含まれる語句を、前記標準知識ネットワークデータの前記特定語句にネットワーク接続するか否かを決定するための入力手段を有することを特徴とするテキスト文書処理装置。
テキスト文書の記述内容から特定の記述を抽出する処理装置において、
評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続した標準知識ネットワークデータを保持し、
前記テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータを作成する文書知識作成機能を有し、
評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報のうち相互に合致する語句群情報を合致情報として出力する処理手段を有することを特徴とするテキスト文書処理装置。
請求項６において、
前記評価対象テキスト文書を表示する際に、前記合致情報に含まれる語句を、異なる字体で表示することを特徴とするテキスト文書処理装置。
テキスト文書の記述内容から特定の記述を抽出する文書処理装置の表示方法において、
評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続した標準知識ネットワークデータをデータベースに保持し、
前記テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータをデータベースに保持し、
評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報が相互に異なる又は合致する場合に、当該特定語句の情報を含む、差異情報又は合致情報とを表示手段に強調表示することを特徴とする文書処理装置の表示方法。
請求項８において、前記差異情報及び前記合致情報を異なる表示で強調表示することを特徴とする文書処理装置の表示方法。