JP5315368B2 - 文書処理装置 - Google Patents

文書処理装置 Download PDF

Info

Publication number
JP5315368B2
JP5315368B2 JP2011041117A JP2011041117A JP5315368B2 JP 5315368 B2 JP5315368 B2 JP 5315368B2 JP 2011041117 A JP2011041117 A JP 2011041117A JP 2011041117 A JP2011041117 A JP 2011041117A JP 5315368 B2 JP5315368 B2 JP 5315368B2
Authority
JP
Japan
Prior art keywords
document
information
network data
words
text document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011041117A
Other languages
English (en)
Other versions
JP2012178078A (ja
Inventor
君吉 待井
薫 川端
毅 横田
義行 小林
正和 藤尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2011041117A priority Critical patent/JP5315368B2/ja
Priority to US13/397,497 priority patent/US20120221324A1/en
Publication of JP2012178078A publication Critical patent/JP2012178078A/ja
Application granted granted Critical
Publication of JP5315368B2 publication Critical patent/JP5315368B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、より少ない手間でより短時間で文書を処理するシステムに関する。
本技術分野の背景技術として、特許文献1がある。この公報には、「階層概念辞書の体系情報およびリンク情報をもとに、第1の抽出手段により抽出した概念名の関連概念名を抽出し、この関連概念名に第2の抽出手段により抽出した概念名が含まれていない場合に(中略)記述されるべき表現が不足していると判定する」と記載されている(〔0008〕参照)。すなわち、ある文書に記載されるべき事項が記載されているかどうかを判断するものである。
特許文献1においては、文書が表形式のフォーマットであることが前提になっており、表には、機器の情報、それに関する不具合症状,報告文を入力する。機器の情報,不具合症状は、予めオントロジに定義されており、それらに関連する内容が報告文に記述されているかどうかを判定する。
また、特許文献2,3には、任意の語句を指定し、文書中における当該語句の出現箇所を抽出する技術が開示されている。特許文献2では、検索語句と関連語句を動的に決定して出現頻度順に表示する技術、特許文献3では、検索語間の文字数や検索範囲を指定して検索する技術がそれぞれ開示されている。
特開2009−110405号公報 特許第4009937号公報 特許第3099298号公報
契約手続きにおいては、顧客が提出してきた要求仕様書を読み、自社にとって不利となりうる要注意箇所の有無をチェックする必要がある。システムの支援を得ながらこれを実施する場合、要求仕様書は顧客によってフォーマットや文章表現が異なるため、ある特定のフォーマットや表現を想定してシステムを構築することはできない。
例えば特許文献1においては、表の各項目に書かれるべき事項が予めオントロジに定義されており、表には、オントロジに定義されている内容しか書けない。しかし、実際には、ある特定のフォーマットだけを前提にしても、あらゆる顧客から来る要求仕様書を処理することは不可能である。したがって、特定フォーマットに依存せずに要求仕様書と自社技術体系とを比較し、要注意箇所を抽出することが課題となる。
また、特許文献2,3の技術を用いれば、要注意となる語句が予めわかっている場合に限り、当該の語句をキーワード検索することによって要注意箇所の候補がわかる可能性がある。しかし、自社が知らない事項が書かれていた場合、検索すべき語句も知らないはずであるから、キーワード検索は不可能である。
したがって、自社が知らない事項に関する記述を抽出することが課題である。
文書を読み込んで当該文書から特徴を抽出して表示する機能を有する文書処理装置において、文書内のフレーズどうしの関係に基づいて当該文書に含まれるフレーズで構成される知識ネットワークデータを有し、入力文書から抽出した文書構造を前記知識ネットワークデータと比較し、構造の類似度が高いフレーズのスコアを、その類似度に応じて高く評価することによって前記入力文書の記載内容の特徴を抽出することを特徴とする。
また、前記差分抽出機能で抽出した特徴を基に回答文データを選択する回答文選択機能を有し、前記回答文選択機能によって選択された回答文に基づいて前記入力文書に関する回答書を出力する回答書出力機能を有することを特徴とする。
また、前記回答文選択機能は、知識ネットワークデータに存在して前記入力文書に存在しない項目に対しては、項目によらずに定型文を選択し、前記入力文書に存在して知識ネットワークデータに存在しない項目に対しては、前記知識ネットワークデータに保持されている回答文を選択することを特徴とする。
また、契約書の文章の構文を解析することによって文書構造を解析する構造抽出機能を有することを特徴とする。
また、前記特徴を、前記知識ネットワークデータ,前記文書構造データの少なくとも一方に表示することを特徴とする。
また、前記特徴を前記知識ネットワークデータに追加するためのユーザインタフェースと機能を有することを特徴とする。
また、前記知識ネットワークデータと前記文書構造を比較した結果、合致した箇所について表示する機能を有することを特徴とする。
顧客の要求仕様書のフォーマットに依存せずに要求仕様書と自社技術体系とを比較し、要注意箇所または合致箇所を抽出することが可能になる。
文書処理装置の構成図である。 ハードウェア構成である。 要求仕様書101の記述例である。 標準項目構造化データ103のデータ構造図である。 回答文データ104の構造図である。 文書構造解析部105の処理フローである。 文書構造解析部105の処理フローの具体例である。 動詞,前置詞から述語への変換テーブル800である。 構造的差分抽出部106の処理フローである。 三項関係と標準項目構造化データ103とのマッチング処理のフローである。 標準項目構造化データ103から抽出した三項関係と文書構造解析部105で抽出したデータをマッチングする処理フローである。 要注意箇所バッファの構成である。 回答文選択部108の処理フローである。 システムのメイン画面である。 回答書111の例である。 編集HMI110の画面である。 構造データ表示画面1701である。 文書処理装置の別の構成図である。
以下、図面を用いて実施例を説明する。
図1は、本発明の文書処理装置の構成図である。要求仕様書101が入力されると、文書構造解析部105にて文書構造を解析する。具体的には、要求仕様書101に記述されている文の構造,章立て等を解析する。文書構造解析部105の処理結果は、構造的差分抽出部106に送られ、標準項目構造化データ103との差分を抽出する。回答文選択部は、構造的差分抽出部106の結果に基づいて、回答書111を作成する際の回答文を選択するものである。回答文は、定型文107を採用するか、ナレッジDB102に格納されている回答文データ104を採用するかのいずれかである。回答書作成部109は、回答文選択部108で選択した回答文、構造的差分抽出部106で抽出した差分に基づいて回答書111を作成するものである。また、編集HMI110にて、回答書111を編集することが可能である。
上述したように、要求仕様書101は、評価対象物であり、評価対象テキスト文書である。
また、標準項目構造化データ103は、評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続したものであり、標準知識ネットワークデータである。詳細は、図4に記載する。
また、文書構造解析部105は、テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータを作成する処理手段であり、文書知識作成機能手段である。詳細は、図6に記載する。
また、文書構造解析部105で作成された評価対象文書知識ネットワークデータは、テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続したものであり、詳細は図7に記載する。
また、構造的差分抽出部106は、評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報が相互に異なる場合に、当該特定語句の情報と差異情報とを出力する処理手段である。詳細は図9に記載する。
図2は、本発明におけるハードウェア構成である。CPU201は、本発明におけるすべての処理を制御する。メモリ202は、本実施例において必要なデータを、システムの動作が終了するまで保持する。表示装置203は、処理結果を表示してユーザに提示する装置であり、液晶ディスプレイやCRT(Cathode Ray Tube:ブラウン管)モニターを用いる。読取装置204は、要求仕様書101を読み込む装置であり、スキャナなどが使われる。また、読取装置204は、要求仕様書101のテキストデータを生成するためのソフトウェアを備えてもよく、例えばOCR(Optical Character Recognition:光学文字認識)を用いる。但し、要求仕様書101がテキストデータである場合は、読取装置204は必ずしも必要ではなく、要求仕様書101が紙への印刷物である場合のみ必要になる。記憶装置205は、ナレッジDB102や案件データバッファを保持するために使われ、例えばハードディスク(HDD)を用いる。また、回答書111や提案仕様書112など、ナレッジDB101以外にも、必要なデータがあれば、プログラム実行中または終了後に記憶装置205に保存する。入力装置206は、回答書111の編集や提案仕様書雛形の選択を受け付けるなど、ユーザが入力するための装置であり、キーボードやマウスがこれに該当する。
図3は、要求仕様書101の記述例である。本実施例は、図3の記述内容に関して開示する。
図4は、標準項目構造化データ103のデータ構造を示す図である。この構造では、ノード同士の関係を用いて、知識体系を表している。例えば、「contract」の部分として「price」と「insurance」があり、これらは「contract」と「part_of」という関係で結ばれている。また、「price」の属性として「number」があり、「lower_than」という関係で結ばれている。「number」には、「value」という関係で「85」が、「unit」という関係で「doller」が結び付けられている。これは、「priceは85dollerより低くする」という意味である。「number」ノードから「devi」という関係で結ばれている数値「3」は、回答文データ104の回答文番号であり、numberノードにて記述されている数値条件に合わない記述があった場合に回答書111に記述する内容である。また、「insurance」と「fire」、「flood」が「is_a」という関係で結ばれており、「insuranceの種類としてfireとfloodが存在する」という意味である。このように、ノード同士の様々な関係を用いて知識体系を記述したものが、標準項目構造化データ103である。これらのような構造は、知識体系を記述するための言語であるRDF(Resource Description Framework)やOWL(Web Ontology Language)等を用いて記述することが可能である。
図5は、回答文データ104の構造を示す図である。これは、回答文雛形番号501と回答文雛形502から構成される。上記の「number」ノードの例では、数値条件に合わない事項が要求仕様書101にて指定された場合は、回答書雛形番号「3」のレコード503から、「We propose under 80% of fair market price」という回答文雛形を検索し、それを回答書111に自動的に記述することになる。
図6は、文書構造解析部105の処理フローである。まず、要求仕様書101のテキスト情報を読み込み(ステップ601)、テキストを1文ずつに区切る(ステップ602)。ステップ602は、英文の場合、例えばピリオド「.」を文の区切りとしてもよい。但し、省略形のピリオドを誤って文の区切りとしないために、省略形が考えられる単語の辞書を持っておき、それに合致しない場所にピリオドがある場合のみ、文の区切りとしてもよい。以降、区切った文ごとの処理ループに入り、まず、処理対象の文を構文解析して、文を構成する各単語の品詞を決める(ステップ603)。次に、処理対象の文から、主語,述語,目的語の三項関係を抽出し(ステップ604)、要求仕様書における当該三項関係の出現位置を求める(ステップ605)。出現位置は、主語,述語,目的語それぞれの出現位置であり、要求仕様書先頭からカウントした文字位置と、文字列長によって表す。最後に、文と抽出した三項関係と出現位置をバッファに格納する(ステップ606)。全部の文について処理を終えたかどうかを判定し(ステップ607)、処理を終えていれば終了し、終えていなければ次の文につき、ステップ603以降を繰り返す。
図7は、図6で示した処理フローの具体例である。図7の(a)で示した文701と文702についての例を示す。文701から三項関係を抽出した例は、図7の(b)に示されている。文701では、主語がprice、動詞がbe、目的語が100%となる。したがって、(b)のように、「price」と「100%」が「attribute_of」という述語で結ばれることになる。文702の解析結果は、図7の(c)に示されている。文702の場合、主語はprice、動詞がincludes、目的語がtimeとcostsとなる。したがって、(c)に示すように、「price」を主語とし、「time」と「costs」がそれぞれ「part_of」という述語で結ばれる。
図8は、三項関係を抽出する際の、動詞,前置詞から述語への変換テーブル800である。三項関係の述語は、動詞や前置詞を手がかりに述語へ変換する。図7に示した例では、動詞としてbe,includesが抽出されている。このとき、be,includesをカラム801から検索し、それに対応するカラム802に示された述語へ変換し、それぞれattribute_of,part_ofという関係に変換される。
図9は、構造的差分抽出部106の処理フローである。まず、文書構造解析部105で抽出した三項関係を読み込む。以下、抽出した三項関係の一つずつについて処理を実行する。次に、三項関係の主語,目的語の両者が、標準項目構造化データ103に存在するかどうかを調べる(ステップ902)。これは、標準項目構造化データ103に関連が無い記述がなされていないかを判断するための処理であり(ステップ903)、主語,目的語ともに存在しないと判断した場合は、ステップ902に戻り、次の三項関係の処理に移る。もし、主語,目的語の少なくとも一方が存在する場合は、三項関係と標準項目構造化データ103をマッチングする(ステップ904)。最後に、全部の三項関係を処理したかを判定し(ステップ905)、三項関係がまだ残っていたら、ステップ902に戻って、次の三項関係を処理する。処理を終えていたら次の処理を実行する。ステップ901〜905は、要求仕様書101に存在し、標準項目構造化データ103に無い項目の抽出である。すなわち、自社の標準仕様に存在しない項目の指定があれば、それを要注意箇所として抽出するための処理である。また、ステップ901〜905で抽出された、要求仕様書101に存在し、標準項目構造化データ103に無い項目は、評価対象文書知識ネットワークデータに存在し標準知識ネットワークデータに存在しない第2の差異情報である。詳細は図12に記載する。
ステップ906以降は、905までの処理と逆の処理になる。すなわち、標準項目構造化データ103に存在し、要求仕様書101に存在しない項目を抽出する。ステップ906では、標準項目構造化データ103から、三項関係を抽出する。その三項関係と、文書構造解析部105で抽出したデータをマッチングする(ステップ907)。標準項目構造化データ103から、すべての三項関係を抽出し、マッチング処理をしたかどうかを判定し(ステップ908)、すべての三項関係について処理を終えていれば、すべての処理を終了する。終えていなければ、ステップ906に戻って、処理を継続する。ステップ906〜908で抽出された、標準項目構造化データ103に存在し、要求仕様書101に存在しない項目は、標準知識ネットワークデータに存在し評価対象文書知識ネットワークデータに存在しない第1の差異情報である。詳細は図12に記載する。
尚、ステップ901〜905とステップ906〜908は独立して実行しても良いし、順序が逆でも良い。
図10は、ステップ904の、三項関係と標準項目構造化データ103とのマッチング処理のフローである。まず、三項関係の目的語を変数として、当該三項関係の主語,述語にマッチする目的語の有無を問い合わせるクエリーを生成する(ステップ1001)。このクエリーは、例えばSPARQL(SPARQL Protocol and RDF Query Language)によるものが好適である。次に、そのクエリーを、標準項目構造化データ103に対して発行する(ステップ1002)。その結果として、当該主語,述語を持つ三項関係に合致する目的語を獲得し、それらをバッファリングする(ステップ1003)。次に、獲得した目的語の中に、当該三項関係に合致する目的語があるかどうかを判定する(1004)。もしあれば、当該の目的語は標準項目構造化データ103に存在するので、要注意ではなく、標準合致箇所バッファに登録する(ステップ1006)。これは、標準項目に合致した箇所を、画面に表示する場合に用いるデータである。一方、無かった場合は、当該の目的語は標準項目構造化データ103に存在しないことになるため、標準から外れる項目が記述されているとみなし、要注意箇所バッファに登録する(ステップ1005)。
図11は、ステップ907の、標準項目構造化データ103から抽出した三項関係と文書構造解析部105で抽出したデータをマッチングする処理フローである。まず、標準項目構造化データ103から抽出した三項関係の目的語を変数として問合せクエリーを生成する(ステップ1101)。このクエリーは、図10の処理フローと同様に、SPARQL(SPARQL Protocol and RDF Query Language)によるものが好適である。次に、文書構造解析部105で抽出した三項関係に対してクエリーを発行する(ステップ1102)。次に、その結果として、当該主語,述語を持つ三項関係に合致する目的語を獲得し、それらをバッファリングする(ステップ1103)。次に、獲得した目的語の中に、当該三項関係に合致する目的語があるかどうかを判定する(1104)。もしあれば、当該の目的語は要求仕様書101に存在することになるので、要注意ではない。無ければ、要注意箇所バッファに登録する(ステップ1105)。尚、図11の処理は、自社の標準仕様に存在するが顧客から要求されていない項目を抽出するものであるため、必ずしも要注意ではない。むしろ、顧客に対する確認を促す項目を抽出する処理である。
図12は、要注意箇所バッファの構成である。つまり差異情報である。要注意箇所バッファは、メモリ202に生成され、記憶装置205には必ずしも保存される必要は無い。もちろん、記憶装置205に生成することも好適である。要注意文カラム1201には、要注意箇所を含む文であり、当該の三項関係の基の文が格納されている。主語カラム1202には、図10の処理にて要注意と判断された三項関係の主語が格納され、主語位置カラム1203には、要求仕様書101における当該主語の開始位置が格納される。目的語カラム1204には、図10の処理にて要注意と判断された三項関係の目的語が格納され、目的語位置カラム1205には、要求仕様書における当該目的語の開始位置が格納される。種類カラム1206は、当該の要注意箇所がどのような方法でみつかったかを示すフラグである。具体的には、標準項目構造化データ103に無く要求仕様書101に存在する項目を「1」、要求仕様書101に無く標準項目構造化データ103に存在する項目を「2」とする。前者の場合は、主語カラム1202,目的語カラム1204には、要求仕様書101の記述を基にフレーズが入る。主語位置カラム1203,目的語位置カラム1205も、要求仕様書101の記述に基づく。一方、後者の場合は、標準項目構造化データ103における主語,目的語が入り、主語位置,目的語位置は空白になる。回答番号カラム1207は、回答書111に記載する回答文の番号を示している。これは、標準項目構造化データ103に格納されており、図4では「devi」という関係で記述されている。例えばノード401の場合は、「devi」で結ばれているのは「1」であり、回答文番号「1」の内容を回答書111に記載するということになる。
また、要注意箇所バッファの構造は、標準項目合致箇所バッファにも用いることが可能である。この場合、種類カラム1206,回答番号1207は空欄としてもよい。
上述したように種類「1」の行の差異情報は、標準項目構造化データ103に無く要求仕様書101に存在する項目であり、また、種類「2」の行の差異情報は、要求仕様書101に無く標準項目構造化データ103に存在する項目である。
図13は、回答文選択部108の処理フローである。回答文選択部108は、要注意箇所抽出の過程に応じて、回答文を選択するものである。具体的には、要求仕様書101に無く標準項目構造化データ103に存在する項目と、要求仕様書101に無く標準項目構造化データ103に存在する項目で、回答文を変える。まず、要注意箇所バッファを読み込む(ステップ1301)。次に種類カラム1206の値を評価し(ステップ1302)、1ならば回答文107を読み込み(ステップ1303)、回答文を生成する(ステップ1304)。回答文107の内容は、「Regarding □□,○○ is not in our proposal.」という内容であり、ステップ1304は、「□□」「○○」の部分に要注意フレーズを入れる処理である。「□□」には主語、「○○」には目的語を入れる。例えば、図12の最初のレコードの場合、「Regarding price, time is not in our proposal.」という回答文になる。一方、種類カラム1206の値が2ならば、回答番号カラム1207に記載された番号の回答文を読み込む(ステップ1305)。例えば図12の2番目のレコードの場合、回答文データ104の回答文番号「1」の「Our insurance is for flood and fire.」という回答文が選択される。最後に、要注意箇所バッファの最後まで処理したかどうかを判定し(ステップ1306)、最後まで処理が終わっていれば終了、終わっていなければステップ1301へ戻る。
このように、回答文選択部108は、標準知識ネットワークデータを構成する語句群に関連付けられた文を保持する文データベースを有し、文データベースから第1の差異情報に含まれる語句をキーに文を検索し第1の差異情報とともに出力する機能と、定型文データを第2の差異情報とともに出力する機能を有する処理手段である。
図14は、本実施例で開示するシステムのメイン画面である。要求仕様書読込ボタン1401は、要求仕様書101を読み込むためのボタンである。要注意箇所抽出ボタン1402をクリックすると、文書構造解析部105と構造的差分抽出部106が起動し、要求仕様書101と標準項目構造化データ103との差分が抽出される。回答書作成ボタン1403をクリックすると、回答文選択部108と回答書作成部109が起動し、回答書の雛形が生成される。回答書編集ボタン1404をクリックすると、生成された回答書の編集HMI110が表示され、ユーザによる回答書の編集が可能になる。回答書出力ボタン1405をクリックすると、回答書の内容が表計算ソフトや文書作成ソフトのフォーマットで保存される。要求仕様書ウィンドウ1406は、要求仕様書101の内容を表示するウィンドウである。また、要注意箇所を抽出すると、要注意箇所が強調表示され、本実施例の場合は1407の「time」が強調表示(異なる字体としたり、色を変えた表示)されている。また、標準項目構造化データ103に合致している箇所も同時に強調表示され、本実施例の場合は1408の「costs」が強調されている。「time」と「costs」の強調表示の仕方は異なる。終了ボタン1409をクリックすると、すべての処理が終了する。このように差異情報が画面へ出力され、強調表示される。
図15は、回答書111の例である。No.カラム1501は、回答項目に付与された通し番号である。要注意箇所カラム1502は、要注意箇所を含む文である。回答文カラム1503は、各要注意箇所に対する回答文である。回答書111は、一般の表計算ソフトや文書作成ソフトで編集可能なフォーマットに格納するのが好適である。
図16は、編集HMI110の画面である。編集カラム1601は、編集オプションを選択するものであり、編集と削除が可能である。編集ボタン1605をクリックすると、回答書の編集が可能になる。削除ボタン1606をクリックすると、当該の項目が回答書リストから削除される。要注意箇所カラム1602は、要注意箇所を含む文である。回答文カラム1603は、当該要注意箇所に対する回答文である。保存ボタン1609をクリックすると、編集内容がバッファに保存される。終了ボタン1608をクリックすると、編集HMI110が画面から消え、編集処理が終了する。詳細ボタン1607をクリックすると、当該項目に関する構造データの表示画面1701が表示される。
図17は、構造データ表示画面1701である。これは、当該の要注意箇所に関する情報であり、標準項目構造化データ103の関係箇所,要注意箇所それぞれの構造を、標準項目ウィンドウ1702,要注意箇所ウィンドウ1703に表示する。この状態で、追加ボタン1704をクリックすると、ウィンドウ1703に表示されている内容が、標準項目構造化データ103に反映される。具体的には、図17(b)のようになり、本実施例の場合は、timeノード1706が標準項目構造化データに反映される。閉じるボタン1705をクリックすると、構造データ表示画面1701が消滅する。これによって、要注意箇所の抽出結果を、標準項目構造化データ103にフィードバックすることが可能になる。
図18は、文書処理装置の別の構成図である。図1と異なるのは、構造的差分抽出部106が構造的合致情報抽出部1806に代わった点である。構造的合致情報抽出部1806の処理は、図10,図11のマッチングのフローと同じである。違う点は、図10のステップ1004の三項関係に合致する目的語があるかどうかの処理で、Yesの処理が構造的合致情報抽出部1806としての処理であり、Noの処理が構造的差分抽出部106としての処理である。また、図11ステップ1104の三項関係に合致する目的語があるかどうかの処理で、Yesの処理が構造的合致情報抽出部1806としての処理であり、Noの処理が構造的差分抽出部106としての処理である。そのほかの処理としては、要注意箇所を合致箇所として解釈できる部分や、差異情報を合致情報として解釈できる部分は、同じ処理をすることとなるので詳細は省略する。本実施例により、顧客の要求仕様書のフォーマットに依存せずに要求仕様書と自社技術体系とを比較し、合致箇所を抽出することが可能になる。作業者にとって、合致箇所を抽出することにより、自社技術体系に重きを置きながら、自社が知らない事項に関する記述を抽出することにも役立つ。
図14は、実施例1(または実施例2)で開示するシステムのメイン画面である。画面は、構造的差分抽出部106または構造的合致情報抽出部1806で表示装置203へ出力されたものである。実施例1または実施例2では、文書構造解析部105により解析することを前提としていたが、その解析処理を終えたデータは図4や図7のようにデータベースへ記録しておけば必ずしも解析処理は必要ではない。つまり、図14の画面は、構造的差分抽出部106で、それらデータベースに記録された評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造を比較することにより表示する。
つまり、テキスト文書の記述内容から特定の記述を抽出する処理装置の表示方法において、評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続した標準知識ネットワークデータ(標準項目構造化データ103)をデータベースに保持し、前記テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータ(図7(b),(c)のデータ)をデータベースに保持し、評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報が相互に異なる又は合致する場合に、当該特定語句の情報を含む、差異情報又は合致情報とを表示手段に強調表示する(構造的差分抽出部106,構造的合致情報抽出部1806の処理)文書処理装置の表示方法とすることにより、顧客の要求仕様書のフォーマットに依存せずに要求仕様書と自社技術体系とを比較し、要注意箇所または合致箇所を抽出することが可能になる。
また、差異情報及び合致情報を異なる表示で強調表示する表示方法により、作業者は、要注意箇所と合致箇所を同時に把握しつつ、文書全体を容易に確認することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成,機能,処理部,処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成,機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム,テーブル,ファイル,測定情報,算出情報等の情報は、メモリや、ハードディスク,SSD(Solid State Drive)等の記録装置、または、ICカード,SDカード,DVD等の記録媒体に置くことができる。よって、各処理,各構成は、処理部,処理ユニット,プログラムモジュールなどとして各機能を実現可能である。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
101 要求仕様書
102 ナレッジDB
103 標準項目構造化データ
104 回答文データ
105 文書構造解析部
106 構造的差分抽出部
107 定型文
108 回答文選択部
109 回答書作成部
110 編集HMI
111 回答書
1806 構造的合致情報抽出部

Claims (9)

  1. テキスト文書の記述内容から特定の記述を抽出する処理装置において、
    評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続した標準知識ネットワークデータを保持し、
    前記テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータを作成する文書知識作成機能を有し、
    評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報が相互に異なる場合に、当該特定語句の情報を含む差異情報を出力する処理手段を有することを特徴とするテキスト文書処理装置。
  2. 請求項1において、
    前記差異情報とは、前記標準知識ネットワークデータに存在し前記評価対象文書知識ネットワークデータに存在しない第1の差異情報,前記評価対象文書知識ネットワークデータに存在し前記標準知識ネットワークデータに存在しない第2の差異情報の少なくとも一方であることを特徴とするテキスト文書処理装置。
  3. 求項2において、
    前記標準知識ネットワークデータを構成する語句群に関連付けられた文を保持する文データベースを有し、前記文データベースから前記第1の差異情報に含まれる語句をキーに文を検索し前記第1の差異情報とともに出力する機能と、定型文データを前記第2の差異情報とともに出力する機能を有する処理手段を有することを特徴とするテキスト文書処理装置。
  4. 請求項ないし請求項3のいずれかにおいて、
    前記評価対象テキスト文書を表示する際に、前記第2の差異情報に含まれる語句を、異なる字体で表示することを特徴とするテキスト文書処理装置。
  5. 請求項ないし請求項4のいずれかにおいて、
    前記第2の差異情報に含まれる語句を、前記標準知識ネットワークデータの前記特定語句にネットワーク接続するか否かを決定するための入力手段を有することを特徴とするテキスト文書処理装置。
  6. テキスト文書の記述内容から特定の記述を抽出する処理装置において、
    評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続した標準知識ネットワークデータを保持し、
    前記テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータを作成する文書知識作成機能を有し、
    評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報のうち相互に合致する語句群情報を合致情報として出力する処理手段を有することを特徴とするテキスト文書処理装置。
  7. 請求項6において、
    前記評価対象テキスト文書を表示する際に、前記合致情報に含まれる語句を、異なる字体で表示することを特徴とするテキスト文書処理装置。
  8. テキスト文書の記述内容から特定の記述を抽出する文書処理装置の表示方法において、
    評価対象である評価対象テキスト文書の記述内容が含まれる知識分野を構成する語句群における、相互の関連性が高い語句どうしをネットワーク接続した標準知識ネットワークデータをデータベースに保持し、
    前記テキスト文書を構成する語句群について関連性の高い語句どうしをネットワーク接続した評価対象文書知識ネットワークデータをデータベースに保持し、
    評価対象文書知識ネットワークデータの構造と標準知識ネットワークデータの構造に対し、それらを構成する特定語句に着目し、当該特定語句にネットワーク接続している語句群の情報が相互に異なる又は合致する場合に、当該特定語句の情報を含む、差異情報又は合致情報とを表示手段に強調表示することを特徴とする文書処理装置の表示方法。
  9. 請求項8において、前記差異情報及び前記合致情報を異なる表示で強調表示することを特徴とする文書処理装置の表示方法。
JP2011041117A 2011-02-28 2011-02-28 文書処理装置 Expired - Fee Related JP5315368B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011041117A JP5315368B2 (ja) 2011-02-28 2011-02-28 文書処理装置
US13/397,497 US20120221324A1 (en) 2011-02-28 2012-02-15 Document Processing Apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011041117A JP5315368B2 (ja) 2011-02-28 2011-02-28 文書処理装置

Publications (2)

Publication Number Publication Date
JP2012178078A JP2012178078A (ja) 2012-09-13
JP5315368B2 true JP5315368B2 (ja) 2013-10-16

Family

ID=46719608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011041117A Expired - Fee Related JP5315368B2 (ja) 2011-02-28 2011-02-28 文書処理装置

Country Status (2)

Country Link
US (1) US20120221324A1 (ja)
JP (1) JP5315368B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9229930B2 (en) * 2012-08-27 2016-01-05 Oracle International Corporation Normalized ranking of semantic query search results
JPWO2014064777A1 (ja) * 2012-10-24 2016-09-05 株式会社日立製作所 文書評価支援システム、及び文書評価支援方法
US10325106B1 (en) * 2013-04-04 2019-06-18 Marklogic Corporation Apparatus and method for operating a triple store database with document based triple access security
US10108697B1 (en) * 2013-06-17 2018-10-23 The Boeing Company Event matching by analysis of text characteristics (e-match)
US20150127323A1 (en) * 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
CN104102738B (zh) * 2014-07-28 2018-04-27 百度在线网络技术(北京)有限公司 一种扩充实体库的方法及装置
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
WO2017212553A1 (ja) * 2016-06-07 2017-12-14 三菱電機株式会社 仲介装置、仲介方法及び仲介プログラム
US10783138B2 (en) * 2017-10-23 2020-09-22 Google Llc Verifying structured data
JP2022182212A (ja) * 2021-05-27 2022-12-08 有限会社アクアプラネット 記録整理プログラム、記録整理方法、記録整理装置、および、記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3887867B2 (ja) * 1997-02-26 2007-02-28 株式会社日立製作所 構造化文書の登録方法
US10515374B2 (en) * 2005-03-10 2019-12-24 Adobe Inc. Keyword generation method and apparatus
JP4803709B2 (ja) * 2005-07-12 2011-10-26 独立行政法人情報通信研究機構 単語用法差異情報取得プログラム及び同装置
US20070073745A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
JP2007172260A (ja) * 2005-12-21 2007-07-05 Mitsubishi Electric Corp 文書ルール作成支援装置および文書ルール作成支援方法並びに文書ルール作成支援プログラム
JP5044236B2 (ja) * 2007-01-12 2012-10-10 富士フイルム株式会社 コンテンツ検索装置、およびコンテンツ検索方法
US20090119572A1 (en) * 2007-11-02 2009-05-07 Marja-Riitta Koivunen Systems and methods for finding information resources
JP5156456B2 (ja) * 2008-03-31 2013-03-06 株式会社日立製作所 文書評価支援方法及びシステム
JP2010128559A (ja) * 2008-11-25 2010-06-10 Seiko Epson Corp 情報処理方法、そのプログラム及び情報処理装置
US8335754B2 (en) * 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
JP5302759B2 (ja) * 2009-04-28 2013-10-02 株式会社日立製作所 文書作成支援装置、文書作成支援方法及び文書作成支援プログラム
US8793208B2 (en) * 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
KR100963885B1 (ko) * 2010-03-30 2010-06-17 한국과학기술정보연구원 Rdf 네트워크 기반 연관검색 서비스 시스템 및 방법
US10496714B2 (en) * 2010-08-06 2019-12-03 Google Llc State-dependent query response

Also Published As

Publication number Publication date
US20120221324A1 (en) 2012-08-30
JP2012178078A (ja) 2012-09-13

Similar Documents

Publication Publication Date Title
JP5315368B2 (ja) 文書処理装置
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
JP5392077B2 (ja) オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
JP6176017B2 (ja) 検索装置、検索方法、およびプログラム
JP5370159B2 (ja) 情報抽出装置及び情報抽出システム
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
JP2002297605A (ja) 構造化文書検索方法および構造化文書検索装置およびプログラム
US20100241645A1 (en) Method and system for integrating personal information search and interaction on web/desktop applications
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
JP2007304796A (ja) データベース解析システム及びデータベース解析方法及びプログラム
US11301441B2 (en) Information processing system and information processing method
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
US20110270862A1 (en) Information processing apparatus and information processing method
JP4954674B2 (ja) ソフトウェア開発支援方法、ソフトウェア開発支援装置、ソフトウェア開発支援プログラム、及び計算機システム
KR102518843B1 (ko) Lda를 이용한 기업 컨텐츠 관리 시스템
JP2008003656A (ja) 概念辞書生成装置、文書分類装置、概念辞書生成方法および文書分類方法
CN112699642B (zh) 复杂医疗文书的索引提取方法及装置、介质及电子设备
JP2010191851A (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
JP5187187B2 (ja) 体験情報検索システム
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
US20230409620A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system
JP2003223461A (ja) 知的労働者の知的創造支援のための検索システム
JP7116940B2 (ja) オープンデータを効率的に構造化し補正する方法及びプログラム
JP7004123B1 (ja) 情報検索システム
WO2022215433A1 (ja) 情報表現構造解析装置、および情報表現構造解析方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130522

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130708

R151 Written notification of patent or utility model registration

Ref document number: 5315368

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees