JP2010113412A

JP2010113412A - 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体

Info

Publication number: JP2010113412A
Application number: JP2008283451A
Authority: JP
Inventors: Hidefumi Konishi; 秀文小西; Hidenori Yatake; 英紀八竹; Takako Onishi; 貴子大西
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2008-11-04
Filing date: 2008-11-04
Publication date: 2010-05-20

Abstract

【課題】文章内に複数種類の項目を含む文書を視覚化する対象の文書とし、１つの項目が文書内の一箇所にまとめて記述されている点を有効利用して文書中の有用情報の発見をより良好に支援できるようにする。
【解決手段】不具合事例を文書読込部１２で読込んでテキストを抽出して、そのテキスト中における２単語のペアの重要度（関連度）をペア重要度算出部１４により算出して、そのペア重要度の高い単語同士をリンクで結合してノード集合のグラフをグラフ生成部１６により生成し、そのグラフについてユーザが削除あるいは不具合事象として選択操作し、その選択結果である分類結果を分類結果ＤＢ１８に格納する。ペア重要度算出部１４によるペア重要度の算出において、現象、原因、対策等の複数項目ごとに構造化されている不具合事例文書について、２単語の距離の集合が小さい距離が多くなるほど重要度が高くなる評価関数を用いてペア重要度を算出する。
【選択図】図３

Description

本発明は、たとえば、製品の不良や故障あるいはクレームなどの不具合事例の文書や保健指導の対話を記録したカウンセリング事例の文書などの対応の文書から有用情報の発見を支援するための文書情報の加工技術に関する。

従来から、製品設計等に関する問題を故障モードに基づいて抽出し、設計段階で使用時に発生する問題を明らかにすることを目的とした手法であるＦＭＥＡ（Failure Mode and Effect Analysis：故障モード影響解析）が知られている。

係るＦＭＥＡでは、一般的に、予想される不良発生パターンを抽出し、各不良発生パターンを製品の構成要素、たとえば、部品毎に区分し、その不良特有の現象や、影響、原因、対策などを記載した一覧表、いわゆるＦＭＥＡシートを作成し、故障や不具合を未然に防止するものである。

このＦＭＥＡでは起こり得る不具合をすべて網羅すべきであるが、設計者の経験・知識のみに頼って作成すると、設計者の知識、経験の相違等に起因して、担当者によるばらつきや抜け漏れが発生しがちであり、不具合の再発生に繋がるという課題がある。

このようなばらつき、抜け漏れをなくし、設計品質を向上させるには、市場不具合、工程不具合などのいわゆる過去トラからなる不具合事例をすべて確認してＦＭＥＡに反映することが効果的であるが、大量の不具合事例が存在する場合には膨大な工数がかかる不都合がある。

また、このような不具合事例に含まれる不具合事象（故障内容など）を効率的に確認するための一般的な方法としては、キーワード検索があるが、次のような課題が存在する。

まず、担当者の経験やスキルの違いによって、検索キーワードがばらつき、不具合事象の確認精度にばらつきが生ずる。

次に、不具合事例の作成者は一般的に言って品質管理部門が多く、不具合事例を確認する設計者は一般的に言って開発部門が多く、不具合事例の作成者が不具合事例を確認する設計者とは別の人間であることが多いため、表現が設計者の想定と異なり、適切な検索キーワードを決定できない場合がある。

さらに、製品についての工法や材料が変わると新しい不具合事例が発生するが、それらを抽出できるような検索キーワードを決定することは困難である。特に、ライフサイクルの短い商品ではそれが顕著となる。

このような事情に鑑み、抜け漏れなく不具合事象を抽出するには、次のようなステップで個々の不具合事例の内容を精査する必要がある。

（１）検索キーワードの決定
（２）決定された検索キーワードを用いての検索の実行
（３）検索結果の確認
（４）不具合事例の内容を精査し検索キーワードの妥当性の検証を行なう
（５）検証結果検索キーワードが妥当でない場合に（１）〜（４）のステップを繰返す。

このようなステップを経る必要があるために、現実的な工数では実施できないという不都合があった。

このような実情に鑑み、不具合事例の確認を支援する技術として、不具合事象の視覚化を行なうものがあった（たとえば特許文献１）。

この特許文献１に記載の技術では、文書内容を単語間の関連度に基づいてグラフ化し、グラフを用いて視覚的に検索・分析を支援する。その結果、ユーザが適切なキーワードを知らなくても、グラフ（またはその一部）を選択して検索を実行することができる。
特開２００３−３３０９６６号公報

しかし、特許文献１に記載された技術の場合には、以下のような課題が存在する。
（１）グラフ化の目的が不具合事例確認を支援することであるため、グラフに表示する単語数は一覧性を損なわない程度に制限しなくてはならないが、文書内での出現頻度等の単純な統計値で単語を選別して単語数を規制すると、不具合事象の理解に必要な重要単語が欠落するという不都合が生ずる。

（２）不具合事例には、一般的に言って、不具合の現象、不具合の原因、不具合に対する対策などの項目に従った記述がなされており、それらの項目すべての単語をまとめてグラフ化すると、それらの項目同士の単語が混在したまとまりのないグラフとなり、不具合事象を理解することが困難になる。

（３）複数の文書からなる文書集合全体の内容を視覚化すると、グラフに複数の不具合事象の内容が混在し、理解することが困難になる。

以上要するに、特許文献１に記載の技術は、文書の中から有用な情報の発見を支援することを目的とし、文書情報に基づいてグラフを生成して視覚化するものであるが、文書内での出現頻度等の単純な統計値に従った視覚化であるために、文書中からの有用情報の発見を十分には支援できないという欠点があった。

本発明は、係る実情に鑑み考え出されたものであり、その目的は、文章内に複数種類の項目を含む文書を視覚化する対象の文書とし、１つの項目が文書内の一箇所にまとめて記述されている点を有効利用して文書中の有用情報の発見をより良好に支援できるようにすることである。

上記目的を達成するために、本発明のある局面に従うと、文書中からの有用情報の発見を支援するための文書情報加工方法であって、文章内に複数種類の項目を含む文書を読込むステップと、文書を読込むステップにより読込まれた文書から単語を抽出するステップと、単語を抽出するステップにより抽出された単語同士の距離の集合に基づいた単語間の関連度を算出し、関連のある単語同士をリンクで結合して単語集合のグラフを生成するステップと、グラフを生成するステップにより生成されたグラフを表示装置に表示させるための制御を行なうステップと、表示させるための制御を行なうステップにより表示制御されたグラフを見たユーザによる当該グラフについての有用か否かの判断結果の入力を受付け、有用と判断された有用グラフの特徴を表わすラベルを当該有用グラフに付与して格納するステップとを含む。

このような構成によれば、文章内に複数種類の項目を含む文書では、１つの項目が文書内の一箇所にまとめて記述されているために、或る項目内に頻発する単語同士の距離の集合が短い距離の多いものとなるという、短距離増加現象が見られる。よって、単語間の距離の集合に基づいた単語間の関連度を算出していることにより、前述の短距離増加現象を反映させた単語間の関連度を算出でき、このような方法で算出された関連度に基づいて関連のある単語同士をリンクで結合して単語集合のグラフを生成することにより、各項目別の単語集合のグラフが生成できる。また、グラフに表示する単語数を一覧性を損なわない程度に制限したとしても、前述の短距離増加現象を反映させた単語間の関連度に基づいたグラフ化を行なっているために、項目内での重要単語が欠落する不都合を極力減少できるとともに、文章内容が理解できなくなる不都合も減少できる。

好ましくは、グラフを生成するステップは、単語を抽出するステップにより抽出された複数の単語のうちから任意の２単語を順次選択して、当該２単語の文書中における距離の集合について小さい距離が多いほど関連度が高くなる評価関数に基づいて関連度を算出する。

このような構成によれば、文章内に複数種類の項目を含む文書では、１つの項目が文書内の一箇所にまとめて記述されているために、或る項目内に頻発する単語同士の距離の集合が短い距離の多いものとなるという、短距離増加現象が見られる。よって、単語を抽出するステップにより抽出された複数の単語のうちから任意の２単語を順次選択して、当該２単語の文書中における距離の集合について小さい距離が多いほど関連度が高くなる評価関数に基づいて関連度を算出することにより、前述の短距離増加現象が強く現れる単語同士の関連度が高くなり、このような方法で算出された関連度に基づいて関連のある単語同士をリンクで結合して単語集合のグラフを生成することにより、各項目別の単語集合同士がリンクで結合されたグラフが生成できる。また、グラフに表示する単語数を一覧性を損なわない程度に制限したとしても、項目内での重要単語が欠落する不都合を極力減少できるとともに、文章内容が理解できなくなる不都合も減少できる。

本発明の他の局面に従うと、文書中からの有用情報の発見を支援するための文書情報加工装置であって、文章内に複数種類の項目を含む文書を読込む文書読込み手段と、文書読込み手段により読込まれた文書から単語を抽出する単語抽出手段と、単語抽出手段により抽出された単語同士の距離の集合に基づいた単語間の関連度を算出し、関連のある単語同士をリンクで結合して単語集合のグラフを生成するグラフ生成手段と、グラフ生成手段により生成されたグラフを表示させるための制御を行なうグラフ表示制御手段と、グラフ表示制御手段により表示制御されたグラフを見たユーザによる当該グラフについての有用か否かの判断結果の入力を受付け、有用と判断された有用グラフの特徴を表わすラベルを当該有用グラフに付与して分類済みグラフとして格納する格納手段とを含む。

好ましくは、グラフ生成手段は、単語抽出手段により抽出された複数の単語のうちから任意の２単語を順次選択して、当該２単語の文書中における距離の集合について小さい距離が多いほど関連度が高くなる評価関数に基づいて関連度を算出する。

このような構成によれば、文章内に複数種類の項目を含む文書では、１つの項目が文書内の一箇所にまとめて記述されているために、或る項目内に頻発する単語同士の距離の集合が短い距離の多いものとなるという、短距離増加現象が見られる。よって、単語抽出手段により抽出された複数の単語のうちから任意の２単語を順次選択して、当該２単語の文書中における距離の集合について小さい距離が多いほど関連度が高くなる評価関数に基づいて関連度を算出することにより、前述の短距離増加現象が強く現れる単語同士の関連度が高くなり、このような方法で算出された関連度に基づいて関連のある単語同士をリンクで結合して単語集合のグラフを生成することにより、各項目別の単語集合同士がリンクで結合されたグラフが生成できる。また、グラフに表示する単語数を一覧性を損なわない程度に制限したとしても、項目内での重要単語が欠落する不都合を極力減少できるとともに、文章内容が理解できなくなる不都合も減少できる。

本発明のさらに他の局面に従うと、文書中からの有用情報の発見を支援するための文書情報加工装置であって、文章内に複数種類の項目を含む文書のデータを記憶している文書データ記憶手段と、文書データ記憶手段に記憶されている文書データから単語を抽出する単語抽出手段と、単語抽出手段により抽出された単語同士の距離の集合に基づいた単語間の関連度を算出する単語間関連度算出手段と、単語間関連度算出手段により算出された関連度に基づいて、関連のある単語同士をリンクで結合して単語集合のグラフを生成するグラフ生成手段と、グラフ生成手段により生成されたグラフを表示させるための制御を行なうグラフ表示制御手段とを含む。

好ましくは、単語間関連度算出手段は、単語抽出手段により抽出された複数の単語のうちから任意の２単語を順次選択して、当該２単語の文書中における距離の集合について小さい距離が多いほど関連度が高くなる評価関数に基づいて関連度を算出する。

さらに好ましくは、グラフ生成手段は、複数の文書からなる文書集合についてのグラフを生成する文書集合グラフ生成手段をさらに含み、文書集合グラフ生成手段は、グラフの生成対象となる文書集合に含まれている複数文書の１文書毎に算出した単語間の関連度を用いて、文書集合のグラフを生成する。

このような構成によれば、複数の文章集合全体を１つの文書として取扱ってグラフ化しているのではなく、各文書それぞれの単語間の関連度を求め、その単一文書レベルでの単語間の関連度を全ての文書について集計して、複数の文章集合のグラフを生成しているため、複数の文章集合をグラフ化する場合に、関連性の低い単語同士がグラフ上で混在することがなく、かつ同種の内容の文章はまとめられたグラフとなり、別々の内容の文章は分離されたグラフとなる。その結果、理解しやすい。

さらに好ましくは、グラフ表示制御手段は、グラフ生成手段により生成された複数のグラフのうち、関連度の高い単語同士が多く含まれているグラフを上位から所定数選択して表示する制御を行なう上位表示処理を実行し、グラフ生成手段は、上位表示処理による表示を見たユーザによる当該グラフについての有用か否かの判断結果の入力に基づいて、有用でないと判断された削除対象グラフと有用と判断された有用グラフとに含まれる単語ペアを除く残りの単語ペアについて、単語同士の距離の集合に基づいた単語間の関連度を算出し、関連のある単語同士をリンクで結合して単語集合のグラフを生成する残り単語ペアグラフ生成処理を実行し、上位表示処理と残り単語ペアグラフ生成処理とを繰返し実行し、その結果を分類済みグラフとして格納手段が格納するとともに、有用ではなく削除対象と判断された削除対象グラフを削除対象であることを示す識別子を付与して格納する。ここに、単語ペアとは、グラフにおいてリンクで直接結合された２単語のことである。

このような構成によれば、上位表示処理と残り単語ペアグラフ生成処理とが繰返し実行され、その結果が分類済みグラフとして格納手段に格納されるために、ユーザによる有用か否かの判断結果が十分に反映された分類済みグラフが格納手段に格納され、利用価値の高い分類済みグラフのデータを取得できる状態となる。

さらに好ましくは、文書読込み手段により読込まれた新たな文書を自動的に分類するための分類ルールを設定する分類ルール設定手段をさらに含み、分類ルール設定手段は、グラフ生成手段により生成されたグラフのうち、関連度の高い単語同士が多く含まれているグラフを上位から所定数選択して格納する上位格納処理を実行する上位格納手段と、新たな文書のうち、上位格納手段により格納されたグラフに含まれる単語ペアを所定の重要度で含んでいる文書を除く残りの文書を割出す残り文書割出し処理を実行する残り文書割出し手段と、を含み、グラフ生成手段は、残り文書割出し処理により割出された残りの文書についてグラフを生成する残り文書グラフ生成処理を実行し、分類ルール設定手段は、さらに、残り文書グラフ生成処理と、該残り文書グラフ生成処理により生成された残りの文書のグラフについて行なう上位格納処理と、残り文書割出し処理とを、繰返し実行して、その結果上位格納手段に格納されたグラフをグラフ表示制御手段により表示制御させ、該表示制御されたグラフを見たユーザによる当該グラフについての有用か否かの判断結果の入力を受付け、有用と判断された有用グラフの特徴を表わすラベルを当該有用グラフに付与して分類ルールとして格納する分類ルール格納手段を含む。

このような構成によれば、残り文書グラフ生成処理と、該残り文書グラフ生成処理により生成された残りの文書のグラフについて行なう上位格納処理と、残り文書割出し処理とを、繰返し実行して、その結果上位格納手段に格納されたグラフを見たユーザによる当該グラフについての有用か否かの判断結果の入力を受付け、有用と判断された有用グラフの特徴を表わすラベルを当該有用グラフに付与して分類ルールとして格納しているために、ユーザによる有用か否かの判断結果が反映された分類ルールが分類ルール格納手段に格納され、その分類ルールを利用して、新たな文書の自動分類が可能となる。

さらに好ましくは、文書読込み手段により新たな文書が読込まれたときに、該新たな文書についてグラフ生成手段が生成した新たなグラフと分類ルール格納手段に格納されている分類ルールとしてのグラフとの類似度を算出し、類似する新たなグラフを類似する分類ルールに対応付けて格納する対応付け格納手段をさらに含む。

このような構成によれば、新たな文書についてのグラフと分類ルール格納手段に格納されている分類ルールとしてのグラフとの類似度が算出され、類似する新たなグラフが類似する分類ルールに対応付けて格納されるために、分類ルールを利用しての新たな文書の自動分類ができる。

また、この発明によれば、上述した文書情報加工方法をコンピュータに実行させるためのプログラムである。

また、この発明によれば、コンピュータ読取可能な記録媒体であって、上述した文書情報加工方法をコンピュータに実行させるためのプログラムを記録する。

次に、本発明の実施の形態を図面に基づいて詳細に説明する。
第１実施の形態
文章内に複数種類の項目を含む文書（例えば、複数種類の項目に関する記載を含み各項目に対応する記載エリア内に該当する項目に関連する記載が集中している文書）の一例として、不具合事例文書を図１に示す。不具合事例文書の場合には、一般的に言って、記載エリアが複数種類の項目に分割されている。たとえば、不具合の現象と不具合の原因と対策とからなる３つの項目について記述されている。不具合事例文書作成者は、まず不具合の現象を記述し、次にその現象が起こる原因を記述し、最後に不具合を解決するための対策を記述する。よって、不具合事例文書は、一般的に、現象の項目のエリアに不具合の現象に関する記述が集中しており、また原因の項目に関する記述エリアに対策の記述が集中している。現象の項目エリアでは、たとえば、コード、断線、ＯＦＦなどの現象に関連する単語が頻出し、対策の項目エリアには設計、工程、検査などの対策に関連する単語が頻出し、原因の項目エリアには外力、過大、衝撃などの原因に関連する単語が頻出する。なお、本発明が対象としている、記載エリアが複数種類の項目に分割されている文書としては、表などの構造化された形式や統一されたフォーマットで記述されているとは限らず、機械処理での項目抽出は困難な場合が多い。

このような不具合事例文書において、文書全体で頻出頻度が高い単語が不具合事象を的確に表わしているとは限らないが、１つの項目内に限定すると、出現頻度が高い単語は不具合事象を表わす可能性が高くなる。

したがって、次の方法によって不具合事象を理解するために適切なグラフを生成できる。

文書全体ではなく、文書内テキストにおける位置関係に基づいて単語間の関連度を算出する。具体的には、テキスト中で近くに出現することが多い２単語は、関連度を高くする。

このようにすることにより、たとえば現象の項目エリアに記載されている前述したライト、ＯＦＦ、スイッチ等の現象に関連する単語同士では、たとえば原因の項目エリアに記載されているコンデンサ、焼損、電源などの原因に関連する単語同士に比べて、任意の２単語の距離が短い。その結果、文書全体での分布状況に依存せず、各項目の重要な単語を抽出することができる。

次に、このような方法で求めた単語間の関連度に基づいて、関連度が高い２単語はグラフ上でリンクを結合し、関連度が低い２単語はグラフ上でリンクを分離することにより、グラフを生成する。

このようにグラフを生成することにより、現象、原因、対策などの各項目別にまとまった単語集合を個別のグラフとして生成できる。

また、１文書ではなく複数の文書からなる文書集合をグラフ化する場合は、文書集合から得られる統計値（単語の出現回数の合計など）ではなく、各単一文書から得られた単語間の関連度を基にグラフを作成する。

つまり、各単一文書から抽出された不具合事象すなわち関連度の高い単語の組合せからグラフを作成するため、関連のない単語同士がグラフ上で混在することを防止でき、同種の不具合事象はまとめられ、別々の不具合事象は分離されたグラフになり、理解しやすいグラフとなる。

次に、本発明が適用されるシステム構成例を図２に基づいて説明する。企業等の事業所Ａには、データセンター３、設計部門６、製造／品質管理部門７等の各種部門が作られている。データセンターには、サーバ４と知識データベース５とが備えられている。以下にデータベースのことを単にＤＢと記載する。この知識ＤＢは、具体的には、後述するように、不具合事例ＤＢとペア重要度ＤＢと分類結果ＤＢとを含んでいる。

設計部門６と製造／品質管理部門７とには、クライアントとしてのパーソナルコンピュータ８，９がそれぞれ設けられている。事業所Ｂについても、事業所Ａと同様の構成となっている。

サーバ４と各パーソナルコンピュータ８，９とは、ＬＡＮ／ＷＡＮ１０により情報の送受信ができるようになっている。

製品について故障等の不具合が発生した場合に、製造／品質管理部門７において担当者がパーソナルコンピュータ９を操作することにより、図１に示したような不具合事例文書を入力して作成する。この不具合事例文書は、データセンター３のサーバ４へ送信され、サーバ４においてテキストが抽出され、その抽出されたテキストに不具合事例ＩＤを対応づけて知識ＤＢ５の不具合事例ＤＢ１３（図4参照）に格納される。

サーバ４は、この不具合事例ＤＢ１３に格納されている不具合実例のテキストデータを順次不具合事例ＤＢ１３から読出し、単語ペアの重要度を算出し、その算出結果であるペア重要度データを不具合事例ＩＤに対応づけてペア重要度ＤＢ１５（具体的には図５の不具合事例別ペア重要度ＤＢ１５ａ）に格納する。また、サーバ４は、そのペア重要度ＤＢ１５に格納されているペア重要度データに基づいて、グラフを生成してパーソナルコンピュータ８または９により表示させる。設計部門６または製造／品質管理部門７のオペレータは、その表示されたグラフを見て、不具合事象と判断したグラフおよび不要と判断したグラフを特定する操作を行なう。この操作に従って、サーバ４が、不要と指定されたグラフに削除を示す弁別フラグを付与して分類結果ＤＢ１８（図１１参照）に格納するとともに、不具合事象と指定されたグラフについて不具合の内容を表わすターム（ラベル名）を付するラベリングを行なって分類結果ＤＢ１８に格納する。

次に、第１実施の形態における文書情報加工装置１１の機能ブロック図を図３に示す。図３を参照して、文書情報記憶装置１１は、不具合事例の文書を読込むための文書読込部１２と、不具合事例のテキストを格納する不具合事例ＤＢ１３と、ペア重要度算出部１４と、その算出されたペア重要度を格納するペア重要度ＤＢ１５と、ペア重要度に基づいてグラフを生成するためのグラフ生成部１６と、生成されたグラフを表示するとともにユーザ（オペレータ）の操作に従ってグラフを分類するグラフ表示・分類実施部１７と、分類されたグラフデータを格納するための分類結果ＤＢ１８とを含む。

不具合事例の文書が１文書ずつ文書読込部１２に読込まれる。文書読込部１２では、その読込まれた１文書ごとにテキストを抽出して１文書ごとの不具合事例ＩＤを付与して、その不具合事例ＩＤに対応づけて１文書ごとの不具合事例テキストのデータを不具合事例ＤＢ１３に格納する。その格納処理と同時並行で、文書読込部１２は、読込まれた１文書ごとのテキストをペア重要度算出部１４に伝送する。ペア重要度算出部１４では、その伝送されてきた不具合事例テキストに基づいて後述するようにペア重要度を算出し、その算出結果であるペア重要度データをペア重要度ＤＢ１５に格納する。

なお、ペア重要度の算出においては、すべての不具合事例のテキストが不具合事例ＤＢ１３に一旦格納された後それを順次読出してペア重要度算出部１４によりペア重要度の算出を行なうようにしてもよい。

次に、グラフを生成するべくグラフ生成部１６がペア重要度ＤＢ１５からペア重要度データを読出し、そのペア重要度データに基づいてノード集合のグラフを生成する。その生成されたグラフがグラフ表示・分類実施部１７によって表示される。ユーザ（オペレータ）は、その表示されたグラフを見て不要であり削除すべきグラフであるか分類するべくラベリングすべきグラフであるかを判断する。その判断結果が入力されると、グラフ表示・分類実施部１７では、その入力に従って、削除を指定されたグラフに削除を示す弁別フラグを付与して分類結果ＤＢ１８に格納する。また、削除を指定されなかったグラフすなわちラベリングすべきグラフについては、分類済を示す弁別フラグを付与してかつラベリングして分類結果ＤＢ１８に格納する。

なお、文書情報加工装置１１には、不具合事例の文書の他に、不具合事例ＩＤも入力される。この不具合事例ＩＤが入力された場合には、その不具合事例ＩＤに基づいて不具合事例ＤＢ１３が検索されて入力された不具合事例ＩＤに対応する不具合事例テキストが取得され、そのテキストデータが表示される。

次に、第１実施の形態における分類情報加工装置の制御動作を、図４〜図９に基づいて説明する。

図４（ａ）は、メインプログラムのフローチャートを示している。まずステップＳ（以下単にＳという）１により、文書読込処理が行なわれ、Ｓ２により、ペア重要度算出処理が行なわれ、Ｓ３により、グラフの生成／表示／分類実施処理が行なわれ、Ｓ４により指定グラフ表示処理が実行される。

Ｓ１の文書読込処理の具体的制御動作を図４（ｂ）に示す。まずＳ１０により、情報の入力があったか否かの判断がなされ、ない場合にはこの文書読込処理が終了する。情報の入力があった場合には、Ｓ１１により、その入力された情報が不具合事例の文書であるかまたは不具合事例ＩＤであるか判断される。不具合事例の文書であった場合には、Ｓ１２により、その入力された文書からテキストを抽出し、Ｓ１３により、その抽出されたテキスト、ファイル名、ファイル実態をＩＤとともに不具合事例ＤＢに保存し、かつ抽出されたテキストをペア重要度算出部１４に出力する処理が行なわれる。

このＳ１３による処理が行なわれた結果、不具合事例ＤＢ１３には、図４（ｃ）に示すようなデータが格納される。つまり、入力された不具合事例の文書１つ１つに対応する不具合事例ＩＤ００００、０００１、…Ｎに対応づけて、不具合事例のテキスト、ファイル名、ファイル実態のデータがテーブルの形で格納される。

一方、入力された情報が不具合事例ＩＤであった場合には、図４（ｂ）のＳ１４に制御が進み、入力されたＩＤに基づいて不具合事例ＤＢ１３を検索して対応するテキストを取得してそれを表示する処理が行なわれる。

次に、Ｓ２に示したペア重要度算出処理の具体的制御動作を図５に示す。まずＳ２０により、文書読込部１２からの不具合事例のテキストの入力があったか否かの判断がなされる。前述のＳ１３により、文書読込部１２からテキストが出力されてくれば、Ｓ２０によりＹＥＳの判断がなされる。文書読込部１２からは、たとえば、不具合事例テキストとして、「過大な外力の印加によりコード断線が発生した結果、出力信号の常時ＯＦＦによる装置異常が発生。…過大な外力が原因と推測…コード断線に至った経緯については確認中…」が出力されてくる。

次にＳ２２により、入力された不具合事例テキストに対し形態素解析を行なって単語を抽出する処理が実行される。その結果、たとえば前述のテキストの場合には、「過大，外力，印加，コード断線，発生，結果，出力信号，…」という単語が抽出される。

次にＳ２３により、抽出されたすべての単語のペア（２単語の組合せ）に対して、評価関数を用いてペアの重要度を算出する。

使用する評価関数としては、２単語について小さい距離が多くなるほど重要度（関連度）が高くなる関数を用いる。たとえば、

（Ａ→Ｂは、単語Ａを基準とした単語Ｂまでの距離の集合、Ｂ→Ａは、単語Ｂを基準とした単語Ａまでの距離の集合、ｄは距離）
このような評価関数を用いてペアの重要度を算出した場合に、たとえば前述のテキストから抽出した単語の場合には、
コード断線−出力信号 …７５
コード断線−常時ＯＦＦ…６５
コード断線−過大 …５５
コード断線−外力 …６５
等のような重要度となる。

次にＳ２４により、重要度の算出結果をペア重要度ＤＢ１５に格納する処理が行なわれる。この処理は、不具合事例ＩＤに対応づけてペア重要度データをペア重要度ＤＢ１５の不具合事例別ペア重要度ＤＢ１５ａに格納する。

次に、文書読込部１２からのテキストの入力が終了した段階で、Ｓ２７に制御が進み、不具合事例集合におけるペア重要度算出処理が実行される。

このように、本実施の形態では、文書読込部１２により不具合事例が順次読込まれて文書読込部１２により順次テキストを抽出し、その後順次抽出されたテキストが不具合事例ＤＢ１３に順次格納されるとともに、同時にテキストデータが順次ペア重要度算出部１４に与えられてペア重要度の算出が行なわれてペア重要度ＤＢ１５に順次格納される。つまり、不具合事例ＤＢ１３へのテキストの格納と並行してペア重要度算出部１４によるペア重要度の算出を行なって、その算出結果をペア重要度ＤＢ１５に格納する。その他の方法としては、すべての不具合事例のテキストが不具合事例ＤＢ１３に一旦格納された後それを順次読出してペア重要度算出部１４によりペア重要度の算出を行なうようにしてもよい。

次に、Ｓ２７に示した不具合事例集合におけるペア重要度算出処理のサブルーチンプログラムのフローチャートを図６に示す。この図６に示す不具合事例集合におけるペア重要度算出処理は、１つ１つの不具合事例について前述のＳ２１〜Ｓ２４の処理により求めたペア重要度のデータをもとに、複数の不具合事例についての不具合事例集合におけるペア重要度を算出する点に特徴がある。

Ｓ３０により、１分類確認操作があったか否かの判断がなされる。本実施の形態における不具合事例集合のペア重要度の算出は、２種類の、モードがあり、通常モードにおいては、ペア重要度を算出する対象の不具合事例集合に含まれている多くの文書に共通して出現するペアについては重要度を増加させる処理を行なう。一方、分類済の不具合事例集合の１分類を確認するときなどにおいて、個々の不具合事例に特徴的な情報を抽出したい場合に実行される１分類確認モードにおいては、多くの文書に共通して出現するペアについては一般的で特徴量が少ないものとして重要度を減少させる。

このＳ３０により、通常モードか１分類確認モードかの判別を行ない、ユーザが１分類確認モードを選択する操作を行なった場合にはＳ３０によりＹＥＳの判断がなされるが、１分類確認モードの操作を行なわなかった場合にはＳ３０によりＮＯの判断がなされ、制御がＳ３１へ進む。Ｓ３１では、ペア重要度ＤＢ１５の不具合事例別ペア重要度ＤＢ１５ａを検索して複数のテキストに共通するペアを特定する処理が行なわれる。次にＳ３２により、その特定された共通するペアの各共通ペアにおける共通するテキスト数を算出する処理が行なわれる。次にＳ３３により、その算出された共通テキスト数に応じて各共通ペアの重要度を増加させる処理が行なわれる。つまり、共通テキスト数の数が多ければ多いほど共通ペアの重要度を増加させる。次にＳ３４により、ペア重要度データを共通化処理した後ペア重要度ＤＢ１５の不具合事例別ペア重要度ＤＢ１５ａにおける集合共通領域に記憶させる処理が行なわれる。なお、この共通化処理とは、同種のものをまとめて１つにすることであり、ペア重要度データ中の２単語について同じ２単語が存在する場合にはそれをまとめて１つにすることである。

Ｓ３０により、１分類確認操作があったと判断された場合には、Ｓ３５により、ペア重要度ＤＢ１５の不具合事例別ペア重要度ＤＢ１５ａを検索して複数のテキストに共通するペアを特定し、Ｓ３６により、各共通ペアにおける共通するテキスト数を算出し、Ｓ３７により、各共通ペアの重要度を共通テキスト数に応じて減少させ、Ｓ３８により、ペア重要度データを共通化処理した後ペア重要度ＤＢ１５の不具合事例別ペア重要度ＤＢ１５ａにおける１分類確認領域に記憶させる処理が行なわれる。

図４のＳ３に示したグラフ生成／表示／分類実施処理の具体的制御内容を図７に示す。このグラフ生成／表示／分類実施処理は、前述のペア重要度算出処理により算出されたペア重要度を利用してグラフを生成しユーザに表示し、そのグラフを見たユーザが不要なグラフで削除対象とするか不具合事象として選択するかの弁別操作（分類操作）を受付け、その操作結果を反映させた分類結果ＤＢ１８を作成するものである。

図７を参照して、Ｓ５０により、ペア重要度集計処理が行なわれ、Ｓ５１によりグラフ生成表示処理が行なわれる。この２つの処理については、後述する。Ｓ５１により表示されたグラフを見たユーザ（オペレータ）が、そのグラフを不要であると判断して削除対象として指定するかあるいは不具合事象として選択するかの操作を行ない、その操作がＳ５２により受付けられ、その受付けた操作結果に応じて、不具合事象として選択されたグラフをラベリングして分類済フラグを付与して分類結果ＤＢ１８に保存する処理が行なわれる。次にＳ５３により、受付けた操作結果に応じて、削除対象として選択されたグラフを削除フラグを付与して分類結果ＤＢ１８に保存する処理が行なわれる。

グラフの表示およびＳ５２、Ｓ５３の処理の状態が、図１１に示されている。図１１を参照して、生成されたグラフのうち重要度の合計が多い順にグラフを上位から規定数表示した状態が、図１１の上方部分に表示画面として示されている。この規定数は、固定値、ユーザ指定、あるいは過去の操作履歴からの学習などによって決定される。この図１１では、上位から３つのグラフが表示されている。この表示状態を見たユーザ（オペレータ）が、中央のグラフに対して、不具合事象と判断し、そのグラフを分類結果ＤＢ１８に保存する弁別操作する。その結果が、分類結果ＤＢ１８に格納されることとなる。

分類結果ＤＢ１８は、グラフデータの行数、グラフデータ、弁別フラグ、グラフデータをラベリングしたときのラベル名、不具合事例ＩＤの各項目がテーブルとして記憶される。ユーザが不具合事象として入力指定されたグラフは、そのグラフデータが分類結果ＤＢ１８に格納されるとともに、それに対応して、弁別フラグの項目に「弁別済」のフラグが格納される。このような不具合事象として入力されたグラフについては、Ｓ５２によりラベリングされるのであり、グラフデータの特徴を表わすターム（ラベル）が自動的にユーザに表示され、その表示されたラベリング名（ターム）に同意する操作が行なわれれば、そのラベリング名（ターム）が対応するグラフデータに対応付けてラベリング名の欄に格納される。またユーザが不要と判断したグラフについて削除対象として入力指定されれば、そのグラフデータが分類結果ＤＢ１８に格納されるとともにそれに対応付けて弁別フラグの項目に削除のフラグが付与される。なお、ユーザが前述のラベリング名（ターム）に同意しないときには、ユーザ自ら適切なラベリング名（ターム）を考え出し、それを入力してラベリング名（ターム）にすることができる。

図７に戻り、次にＳ５４により、削除対象として選択されたグラフに含まれるペアと同じものを不具合事例別ペア重要度ＤＢ１５ａから検索し、検索したペアに使用不可能フラグを付与する処理が行なわれる。次にＳ５５により、未分類不具合事例ＩＤ取得処理が行なわれる。この未分類具合事例ＩＤ取得処理は、分類結果ＤＢ１８に保存したグラフに含まれるペアを持つ不具合事例を不具合事例別ペア重要度ＤＢ１５ａから検索し、当該グラフで検索されない不具合事例ＩＤの集合を取得する処理であり、詳しくは後述する。Ｓ５５の処理の結果、後述するＳ１１０によりスコアが基準値未満の不具合事例ＩＤの集合が取出されるのであり、そのスコアが基準値未満の不具合事例ＩＤが存在するか否かが、Ｓ５６により判断される。未だ存在する場合にはＳ５０に進み、ペア重要度集計処理が行なわれた後Ｓ５１に戻り、Ｓ５１〜Ｓ５５の処理が繰返し実行される。そして、スコアが基準値未満の不具合事例ＩＤが存在しなくなった段階でＳ５６によりＮＯの判断がなされてこのグラフ生成／表示／分類実施処理が終了する。

前述のＳ５０に示したペア重要度集計処理のサブルーチンプログラムを図８（ａ）に示す。このペア重要度集計処理は、集計対象の不具合事例についての単語ペアと重要度を不具合事例別ペア重要度ＤＢ１５ａから読出してきて共通する単語ペアについてはその重要度を累積加算して当該単語ペアを単一のものにまとめ、ユニークな単語ペアとそれに対応する重要度合計とからなるペア重要度ＤＢ１５ｂ（図８（ｂ）参照）を生成するための処理である。

まずＳ６０により、ペア重要度集計ＤＢ１５ｂの全行を削除する処理が行なわれる。これは、ペア重要度集計ＤＢ１５ｂに記憶されている古いデータを削除する処理である。次にＳ６１により、集計対象の不具合事例ＩＤの集合ＩＤ（０）〜ＩＤ（Ｒ）を受取る処理が行なわれる。これは、このペア重要度集計処理のサブルーチンプログラムが前述のＳ５１のグラフ生成表示処理の前の最初の段階で実行される場合には、不具合事例別ペア重要度ＤＢ１５ａに記憶されているすべての不具合事例ＩＤが集計対象の不具合事例ＩＤとなる。よって、この場合には、Ｓ６１では、不具合事例別ペア重要度ＤＢ１５ａに記憶されているすべての不具合事例ＩＤの集合ＩＤ（００００）〜ＩＤ（Ｎ）を不具合事例別ペア重要度ＤＢ１５ａから受取ることとなる。一方、このペア重要度集計処理のサブルーチンプログラムが前述したＳ５６によりＹＥＳの判断がなされたときに行なわれる場合には、Ｓ５５の未分類不具合事例ＩＤ取得処理の最後のステップであるＳ１１０（図１０参照）によって取出されたスコア（Ｄ）が基準値未満の不具合事例ＩＤが、Ｓ６１により受取る集計対象の不具合事例ＩＤとなる。

次にＳ６２により、Ｋを「０」にする初期化処理が実行される。これは、Ｓ６１により受取った不具合事例ＩＤの集合ＩＤ（０）〜ＩＤ（Ｒ）をすべて順次ループさせるための初期化処理である。次にＳ６３に進み、不具合事例別ペア重要度ＤＢ１５ａの不具合事例ＩＤ（Ｋ）に属する単語ペアと重要度とを読出す処理が行なわれる。Ｋが「０」の段階では、Ｓ６３により読出す対象としては、不具合事例ＩＤが「００００」に属する単語ペアのすべてと重要度のすべて（図５の不具合事例別ペア重要度ＤＢ１５ａ参照）である。そして、この読出されたペアと重要度との組合せについてそのすべてを順次ループするための初期化処理が、Ｓ６４により行なわれる。すなわち、ＰＳを、不具合事例ＩＤ（Ｋ）に属するペアの総数にするとともに、Ｐを「１」にする。次にＳ６５により、Ｓ６３により読出されている単語ペアと重要度とのうち、Ｐ番目の単語ペアと重要度とを特定する処理が行なわれる。次にＳ６６により、ペア重要度集計ＤＢ１５ｂを検索する処理が行なわれる。そして、Ｓ６５により特定された単語ペアと同じ単語ペアがペア重要度集計ＤＢ１５ｂに存在するか否かの判断がＳ６７により行なわれ、存在しない場合には、Ｓ６８により、Ｓ６５により特定されている単語ペアと重要度とを、ペア重要度ＤＢ１５ｂに追加して記憶させる処理が行なわれる。一方、Ｓ６７により同じペアがあると判断された場合には、Ｓ６９により、当該ペアについての重要度を加算してペア重要度集計ＤＢ１５ｂの重要度を加算更新する処理が行なわれる。

なお、Ｓ６０によりペア重要度集計ＤＢ１５ｂの全行が削除された後の最初の実行段階においては、ペア重要度集計ＤＢ１５ｂには何らデータが記憶されていないために、Ｓ６７では、同じペアが存在しないと判断されてＳ６８の処理が実行されることとなる。

次にＳ７０により、Ｐ＝ＰＳになったか否かの判断が行なわれ、未だなっていない場合にはＳ７１に進み、Ｐに「１」加算する処理がなされた後Ｓ６５に戻り、Ｓ６５〜Ｓ７１の処理が繰返し実行される。この処理の繰返し実行に伴うＳ７１のＰへの加算処理の結果、Ｐ＝ＰＳすなわちＳ６３により読出された単語ペアおよびその重要度すべてについてＳ６５〜Ｓ６９の処理が実行された段階で、Ｓ７０によりＹＥＳの判断がなされてＳ７２により、Ｋに「１」を加算する処理が行なわれ、Ｓ７３によりＫ＝Ｒであるか否かの判断がなされる。未だＫ＝Ｒになっていない場合には制御がＳ６３に移行し、Ｓ６３〜Ｓ７３の処理をループして繰返し実行することとなる。この処理の繰返し実行のたびにＳ７２によりＫへの１加算処理がなされ、Ｋ＝ＲすなわちＳ６１により受取った不具合事例ＩＤの集合のすべてについてＳ６３〜Ｓ７１の処理が実行された段階で、Ｓ７３によりＹＥＳの判断がなされてこのペア重要度集計処理のサブルーチンプログラムが終了する。

このペア重要度集計処理のサブルーチンプログラムの実行の結果、図８（ｂ）に示すデータがペア重要度集計ＤＢ１５ｂに格納されることとなる。図８（ｂ）に示すように、重要度の高い単語ペアから順番に０行から下位行に向かってペア重要度集計データが格納される。

次に、前述したＳ５１により示されたグラフ生成表示処理のサブルーチンプログラムを図９（ａ）に示す。まずＳ８０により、Ｂを０にし、ペア重要度集計ＤＢ１５ｂの全行数をＧにする初期化処理が実行される。次にＳ８１により、ペア重要度集計ＤＢ１５ｂの行数Ｂのペアと重要度とを読出す処理が行なわれる。次にＳ８２により、使用可能ペアであるか否かの判断がなされる。これは、前述したＳ５４により使用不可能フラグが付与されたペアであるか否かを判別し、使用不可能フラグが付与されていないペアのみを使用可能ペアと判別する。Ｓ８２により使用可能ペアでないと判断された場合にはＳ８３に進み、Ｂに「１」加算する処理を行ない、Ｓ８４によりＢ＝Ｇとなったか否かの判断がなされ、未だにＢ＝Ｇになっていない場合にはＳ８１に戻り、１加算されたＢの行数（次の行数）のペアと重要度とをペア重要度集計ＤＢ１５ｂから読出し、その読出したものが使用可能ペアであるか否かの判断がなされる。Ｓ８１〜Ｓ８４のループを巡回して使用可能ペアと判断された場合には制御はＳ８５に進み、すべての読出済ペアに対して一致する単語を検索する処理が行なわれる。使用可能ペアを読出した１番最初の段階では、読出済ペアが存在しないために、Ｓ８５の検索の結果一致する単語が存在せず、Ｓ８６によりＮＯの判断が行なわれてＳ８８によりノードの結合を行なわない処理が行なわれ、Ｓ８９によりＢ＝Ｇの判断がなされる。そして未だにＢ＝Ｇになっていない段階ではＳ９０によりＢに「１」加算する処理が行なわれた後再度Ｓ８１に制御が戻る。そしてＳ８１〜Ｓ９０のステップをループして繰返し実行し、その繰返しのたびにＳ９０によるＢへの１加算処理が行なわれて、ペア重要度集計ＤＢ１５ｂの全行数にわたってＳ８１〜Ｓ９０の処理が実行された段階でＳ８９によりＹＥＳの判断がなされて、Ｓ９１に制御が移行する。なお、Ｇをペア重要度集計ＤＢ１５ｂの全行とする代わりに、全行の１／２あるいは上位から数えて規定の行等にし、ペア重要度集計ＤＢ１５ｂの上位の重要度の単語ペアのみについてＳ８１〜Ｓ８８の処理を行なうようにしてもよい。

そして、２回目以降の使用可能ペアの読出の段階では、読出済ペアが存在するために、Ｓ８５では、その読出済ペアに対して一致する単語を検索し、一致する単語があった場合にはＳ８６によりＹＥＳの判断がなされてＳ８７へ進み、一致する単語を介してペア同士をノードで結合する処理が行なわれる。

この処理を、図９の（ｂ）〜（ｄ）に基づいて説明する。使用可能ペアがＳ８１により読出された状態が（ｂ）に示されている。たとえば「コード断線」と「外力」との単語ペアが読出されている。次に、前回以前の読出の段階で、読出済ペアとして「コード断線」と「出力信号」との単語ペアが読出済となっている場合（図９（ｃ）参照）、Ｓ８７によるノード結合処理が行なわれた結果、（ｄ）に示すように、読出したペアと読出済ペアとにおける共通する単語である「コード断線」を介してそれ以外の単語である「外力」、「出力信号」がノード結合される。

このような処理をペア重要度集計ＤＢ１５ｂの全行数にわたって実行した後、Ｓ９１により、リンクで結合されているノード集合を１グラフとし、重要度の合計が多い順にグラフを上位から規定数表示する処理が行なわれる。この規定数は、固定値、ユーザ指定、あるいは過去の操作履歴からの学習などによって決定される。

前述したＳ５５に示された未分類不具合事例ＩＤ取得処理のサブルーチンプログラムを図１０（ａ）に示す。この未分類不具合事例ＩＤ取得処理は、分類結果ＤＢ１８に保存したグラフに含まれるペアを持つ不具合事例を不具合事例別ペア重要度ＤＢ１５ｂから検索し、当該グラフで検索されない不具合事例ＩＤの集合を取得する処理である。まずＳ１００により、分類結果ＤＢ１８の全行数をＡとし、Ｃを１にするとともに、Ｄを００００にする初期化処理が実行される。次にＳ１０１により、分類結果ＤＢ１８の行数Ｃのグラフに含まれるペアを取出す処理が実行される。この処理の具体例が図１０（ｂ）に示されている。分類結果ＤＢの行数Ｃのグラフが、たとえば「外力」と「コード断線」と「出力信号」との３つの単語がノード結合されたグラフであったとする。そして、このグラフに含まれるペアは、「コード断線−外力」と「コード断線−出力信号」の２つのペアとなる。

次にＳ１０２により、不具合事例別ペア重要度ＤＢ１５ａにおけるＩＤがＤに属するペアを取出す処理が実行される。そして、Ｓ１０１により取出されたペアとＳ１０２に取出されたペアとが一致するか否かがＳ１０３により判断される。一致しない場合にはＳ１０５へ進むが、一致する場合には、Ｓ１０４へ進み、不具合事例別ペア重要度ＤＢ１５ａの当該ペアの重要度をスコア（Ｄ）に累積加算する処理が行なわれた後Ｓ１０５へ進む。

Ｓ１０５では、Ｄに「１」加算する処理が行なわれ、Ｓ１０６により、Ｄ＝Ｎになったか否かの判断がなされ、未だになっていない場合にはＳ１０２へ戻り、Ｓ１０２〜Ｓ１０６のステップをループして繰返し実行し、その繰返し実行のたびにＤに「１」が加算されて不具合事例別ペア重要度ＤＢ１５ａの全行であるＮについて繰返し実行された段階でＳ１０６によりＹＥＳの判断がなされる。そして、Ｓ１０７により、再びＤを００００に初期化し、Ｓ１０８によりＣ＝Ａの判断がなされ、未だにＣ＝Ａになっていない場合にはＳ１０９により、Ｃに「１」加算する処理がなされた後Ｓ１０１に戻る。そして、Ｓ１０１〜Ｓ１０９の処理をループして繰返し実行し、分類結果ＤＢ１８の全行数について繰返し実行された段階で、Ｃ＝Ｄになるために、Ｓ１０８によりＹＥＳの判断がなされてＳ１１０へ進む。

すなわち、分類結果ＤＢ１８に記憶されているグラフに含まれるペアと同じペアが不具合事例別ペア重要度ＤＢ１５ａに存在すれば、その存在するペアの重要度を累積加算して当該存在するペアの不具合事例ＩＤのスコアとして記憶するのである。分類結果ＤＢに記憶されているグラフに含まれるペアが全く存在しない不具合事例ＩＤについてはスコアが０となる。

そして、Ｓ１１０により、スコア（Ｄ）が基準値未満の不具合事例ＩＤの集合を取出す処理がなされる。この取出された不具合事例ＩＤが、前述したＳ６１による集計対象の不具合事例ＩＤの集合として受取られてペア重要度集計処理として用いられる。

図１２（ａ）は指定グラフ表示処理のフローチャートを示している。この指定グラフ表示処理は、特に設計部門６のユーザ（オペレータ）がラベル名（ターム）を入力指定してそのラベル名の付されたグラフを読出して表示するための処理である。

まずＳ１２０により、ラベル名を入力して検索表示する操作が行なわれたか否かの判断がなされ、行なわれた場合には、Ｓ１２１により、その入力されたラベル名に基づいて分類結果ＤＢ１８を検索し、Ｓ１２２により、その検索されたグラフを表示する処理がなされる。

一方、この指定グラフ表示処理は、ラベル名を指定しての表示ばかりでなく、集合グラフの表示も可能となっている。ユーザ（オペレータ）が集合グラフ表示の入力操作を行なえば、Ｓ１２０によりＮＯの判断がなされてＳ１２３によりＹＥＳの判断がなされ、Ｓ１２４により、集合グラフ生成表示処理が実行される。

この集合グラフ生成表示処理のサブルーチンプログラムを図１２（ｂ）に示す。まずＳ１３０により、１分類確認モードに基づいた表示であるか否かの判断がなされる。この１分類確認モードとは、前述した図６のＳ３０で説明したように、１分類確認操作があった場合のペア重要度算出処理に基づいて表示モードである。１分類確認モードに基づいた表示の場合には、Ｓ１３４に制御が進み、不具合事例別ペア重要度ＤＢ１５ａの１分類確認領域に記憶されたペア重要度データすなわちＳ３８により記憶されたペア重要度データを読出す処理が行なわれた後Ｓ１３２へ進む。一方、１分類確認モードに基づいた表示でないと判断された場合には制御がＳ１３１へ進み、不具合事例別ペア重要度ＤＢ１５ａの集合共通領域に記憶されているペア重要度データすなわちＳ３４により記憶されたペア重要度データを読出す処理が行なわれた後Ｓ１３２へ進む。

Ｓ１３２では、重要度の高いペアを上位から規定数取出し、Ｓ１３３により、そのペアに含まれる２単語をリンクで結合し、各リンクに重要度の値を付与し、Ｓ１３５により、ノード集合をリンクで接続されているか否かで分割し、１個以上のグラフを生成し、Ｓ１３６により、その生成されたグラフのうち重要度の高いペアがより含まれているグラフを上位から規定数表示する処理が行なわれる。この規定数の取出しおよび規定数の表示における規定数は、固定値、ユーザ指定、あるいは過去の操作履歴からの学習などによって決定される。

第２実施の形態
図１３〜図１６に基づいて第２実施の形態を説明する。

この図１３に示した機能ブロック図において、図３に示した第１実施の形態における機能ブロック図と同じ部分についてはハッチングのブロックで示しており、第１実施の形態との相違点を主に説明する。この第２実施の形態においては、分類ルール設定部１９と自動分類部２１と分類ルールＤＢ２０とが追加されている。これら追加部分の機能について以下に詳しく説明する。

図１４は分類ルール設定処理の制御動作を示すフローチャートである。まずＳ１４０により、ペア重要度集計処理が実行され、Ｓ１４１により、グラフ生成登録処理が実行され、Ｓ１４２により、未分類不具合事例ＩＤ取得処理が行なわれる。このＳ１４０によるペア重要度集計処理とＳ１４２による未分類不具合事例ＩＤ取得処理とは、前述の第１実施の形態と同様の処理である。ただし、未分類不具合事例ＩＤ取得処理のＳ１００とＳ１０１とのステップにおける「分類結果ＤＢ」が「分類ルールＤＢ」に変更される。

次にＳ１４３により、スコアが基準値未満の不具合事例ＩＤが存在するか否かの判断がなされる。そして存在する場合にはＳ１４４によるペア重要度集計処理が実行され、制御がＳ１４１に戻る。そしてこのＳ１４１〜Ｓ１４４の処理をループして繰返し実行し、何回か繰返すことにより、スコアが基準値未満の不具合事例ＩＤが存在しなくなり、制御がＳ１４５へ進み、分類ルールの表示弁別処理が実行されてこの分類ルール設定処理が終了する。

なお、Ｓ１４４のペア重要度集計処理は、第１実施の形態と同じ処理である。
前述のＳ１４１に示したグラフ生成登録処理のサブルーチンプログラムを図１５（ａ）に示す。まずＳ１５０により、Ｓ８０〜Ｓ９０のステップを実行する処理が行なわれる。このＳ８０〜Ｓ９０のステップは、図９（ａ）の第１実施の形態で示したグラフ生成表示処理のステップである。そして、Ｓ１５１により、リンクで結合されているノードの集合を１グラフとし、重要度の合計が多い順にグラフを上位から規定数分類ルールＤＢ２０に保存する処理が行なわれて、このグラフ生成登録処理が終了する。この規定数は、固定値、ユーザ指定、あるいは過去の操作履歴からの学習などによって決定される。

前述したＳ１４５の分類ルールの表示弁別処理のサブルーチンプログラムを図１５（ｂ）に示す。まずＳ１５５により、分類ルールＤＢ２０の全行数をＲＧとし、Ｒを「１」にして、初期化処理が実行される。次にＳ１５６により、分類ルールＤＢ２０からＲの行数のグラフを読出して表示する処理が行なわれる。次にＳ１５７により、ユーザ（オペレータ）の弁別操作があったか否かの判断がなされ、あるまで待機する。この弁別操作は、表示されたグラフをユーザが不要と判断して削除指定する場合と表示されたグラフを不具合事象として選択する場合に加えて、表示されたグラフの一部を削除指定する場合とがある。

ユーザの弁別操作があれば制御がＳ１５８へ進み、グラフ全体の削除指定がなされた場合にそのグラフに削除フラグを付与して分類ルールＤＢ２０に保存する。また、グラフの一部削除指定があった場合にはそのグラフの指定された部分のノードを削除してラベリングした上で分類ルールＤＢ２０に保存する。さらに、不具合事象として選択されたグラフをラベリングして分類ルールＤＢ２０に保存する処理が行なわれる。

次にＳ１５９により、Ｒ＝ＲＧであるか否かの判断がなされ、未だＲ＝ＲＧになっていない場合にはＳ１６０に進み、Ｒに「１」加算する処理が行なわれた後にＳ１５６へ進む。そして、Ｓ１５６〜Ｓ１６０の処理をループして繰返し実行し、その繰返し実行のたびにＳ１６０によるＲへの１加算処理が行なわれ、分類ルールＤＢ２０の全行数にわたってこのＳ１５６〜Ｓ１５８の処理が実行された段階で、Ｒ＝ＲＧとなり、Ｓ１５９によりＹＥＳの判断がなされてこの分類ルール表示弁別処理が終了する。

次に、分類ルール設定処理により設定された分類ルールを利用して新たな不具合事例のテキストを自動分類するための自動分類処理を図１６に示す。

図１６を参照して、まずＳ１７０により、Ｊを０００１とし、自動分類するテキスト総数をＭとする初期化処理が実行される。この図１６に示す自動分類処理の実行に際しては、前提として、図４（ｃ）の不具合事例ＤＢ１３に不具合事例ＩＤが００００〜ＮのＮ＋１個の不具合事例テキストが既に格納されており、その不具合事例テキストについてペア重要度の算出処理が既になされておりその算出結果のデータが不具合事例別ペア重要度ＤＢ１５ａに格納されており、その不具合事例別ペア重要度ＤＢａに格納されているデータに基づいて図１４の分類ルール設定処理が既に実行されて分類ルールＤＢ２０に分類済のデータが保存されている状態となっている。

このような状態を前提とし、さらに新たな不具合事例の文書が読込まれて不具合事例ＩＤとしてＮ＋１〜Ｎ＋Ｍの新たな不具合事例テキストが不具合事例ＤＢ１３に格納され、その新たな不具合事例テキストに基づいてペア重要度算出処理が行なわれて不具合事例別ペア重要度ＤＢ１５ａに不具合事例ＩＤとしてＮ＋１〜Ｎ＋Ｍのデータが新たに格納される。その状態において、Ｓ１７１以降の処理が実行される。

Ｓ１７１により、不具合事例ＩＤがＮ＋Ｊのペア重要度データを不具合事例別ペア重要度ＤＢ１５ａから読出す処理が行なわれる。次にＳ１７２により、その読出したペア重要度データから１個以上のグラフを生成する処理が行なわれる。次にＳ１７３により、その生成されたグラフのうち重要度の高いペアがより含まれているグラフを上位から規定数選択する処理が行なわれる。この規定数は、固定値、ユーザ指定、あるいは過去の操作履歴からの学習などによって決定される。次にＳ１７４により、その選択されたグラフと分類ルールＤＢ２０に既に記憶されているすべてのグラフとを比較し、類似度を算出する処理が行なわれる。

次にＳ１７５により、最も類似度が高いグラフとの類似度が閾値以下であるか否かの判断がなされ、閾値を超えていると判断された場合にはＳ１７６に進み、Ｓ１７３により選択されたグラフを、最も類似度の高いグラフ（分類ルール）と対応付けて分類結果ＤＢ１８に保存する処理が行なわれる。一方、Ｓ１７５により、最も類似度の高いグラフとの類似度が閾値以下であると判断された場合には、制御がＳ１７７へ進み、類似分類なしのフラグを付与して分類結果ＤＢ１８に保存する処理が行なわれる。この類似分類なしのフラグが付与されたグラフについてのみ、Ｓ１４０〜Ｓ１４５の処理を実行して、ユーザ（オペレータ）による弁別操作に基づいた人為的な分類処理を行なうようにしてもよい。

第３実施の形態
図１７に基づいて第３実施の形態を説明する。図１７の機能ブロック図におけるハッチングのブロックは前述の第２実施の形態と同じ部分であり、ここでは相違点のみについて説明する。

この第３実施の形態においては、分類設定部２２が付け加わっている。この分類設定部２２を、文書読込部１２が読込んだ不具合事例のそれぞれに対し、ユーザが分類を入力するその入力操作を受付けて、その入力された分類ごとに読込不具合事例を分類して分割する機能を有する。この入力する分類は、ユーザが任意に決定してもよく、あるいは、規定の分類からユーザが選択して入力してもよい。この分類設定部２２で入力された分類ごとに分割された状態で、文書読込部１２により読込まれた文書のテキストが不具合事例ＤＢ１３に格納される。それ以降、入力されたすべての不具合事例を一括して処理するのではなく、設定された分類によって不具合事例集合に分割し、それぞれの不具合事例集合に対して、ペア重要度算出部１４によるペア重要度算出処理、グラフ生成部１６によるグラフ生成処理、グラフ表示・分類実施部１７によるグラフ表示・分類実施、分類ルール設定部１９による分類ルールの設定処理、自動分類部２１による自動分類処理が実行されることとなる。

分類ルール設定部１９では、分類ルール（グラフ）を１個ずつ分類ルールＤＢ２０に登録する際に、分類設定部２２により設定されたどの分類の不具合事例から作成された分類ルール（グラフ）かを示す情報を付与して登録する。

第４実施の形態
次に、第４実施の形態を図１８、図１９に示す。図１８に示した第４実施の形態における機能ブロック図において、ハッチングで示す部分は第１実施の形態と同じ部分であり、ここでは異なる部分のみを説明する。

この図１８に示す第４実施の形態においては、クラス設定部２３が付け加わっている。このクラス設定部２３は、表示されたグラフの全体または一部についてユーザが選択し、クラス（たとえば、原因、結果、部位、部品等）を入力するためのものである。入力するクラスは、ユーザが任意に決定してもよく、あるいは規定のクラスからユーザが選択するようにしてもよい。このクラス設定部によりクラス設定された場合には、そのクラス設定されたグラフとともにクラスを分類結果ＤＢ１８に保存する。

図１９は、クラス設定部２３によるクラス設定処理を説明するための説明図である。この図１９では、表示されたグラフについてユーザが一部を選択した場合が示されている。これは、ユーザがマウス等を操作してグラフの一部やノードを選択する。表示画面上では、その選択部分が枠組みされている。この選択操作を行なうことにより、表示画面上に、クラス分けの項目である部品、故障モード、原因、対策が表示される。この項目のうちユーザがマウス等を操作して１つを選択することにより、指定されたグラフ（またはグラフの一部）について故障モードというクラスが割付けられ、そのグラフとともに故障モードというクラスが分類結果ＤＢ１８に保存される。

なお、クラスごとに表示方法（色など）を変えることによって、ユーザの理解を支援できるようにしてもよい。

分類結果ＤＢ１８に保存されたクラスは、たとえば、グラフ表示・分類実施部１７において、指定クラスのみを表示したり、前述の第２実施の形態における自動分類部２１における類似度算出処理で、指定クラスに属するリンクの重みを増加あるいは減少させるような処理を行なう。

第５実施の形態
次に図２０、図２１に第５実施の形態を示す。図２０に示す機能ブロック図において、ハッチングブロックの部分は、第１実施の形態と同じであり、ここでは、相違点のみを説明する。この第５実施の形態においては、複合語・ストップワード登録部２４と、複合語・ストップワードＤＢ２５とが付け加わっている。この複合語・ストップワード登録部２４による複合語・ストップワードの登録処理の具体例を、図２１に基づいて説明する。ユーザ（オペレータ）は、まずグラフで別の単語として表示されている複数のノードを選択する。図２１の画面図では、「抵抗」と「導体」とが選択される場合を示している。この選択方法は、ドラッグ＆ドロップなどのＧＵＩ操作でもよいし、あるいは表形式で表示された単語リストに対する操作などであってもよい。「抵抗」と「導体」とが複合語として選択された場合には、「導体抵抗」という複合語として扱われるようになる。どちらの単語をどちらに持っていくかによって、複合語の順序を決定することができ、効率的である。

このようにして選択された複数のノードの単語が、複合語・ストップワードＤＢ２５に複合語として登録され、ペア重要度算出部１４での形態素解析処理を行なう際に使用される。

また、ストップワードの登録を行なう場合には、グラフ上でのノードを選択し、その選択されたノードの単語が、複合語・ストップワードＤＢ２５にストップワードとして登録される。このストップワードとして登録された単語は、ペア重要度算出部１４での形態素解析処理の際に、単語として抽出されなくなる。

以上説明した各実施の形態におけるフローチャートは、それらフローチャートで示されるプログラムがネットワークあるいは記録媒体に記録された状態で流通販売され、サーバ４あるいはパーソナルコンピュータ８，９に適宜記憶されて動作するように構成される。

また、以上説明した各実施の形態では、ソフトウェアにより制御するものを示したが、図３、図１３、図１７、図１８、図２０で示したの各機能ブロックの全部または一部をハードウェアで構成するようにしてもよい。

さらに、以上説明した各実施の形態では、記載エリアが複数種類の項目に分割されている文書の一例として、ＦＭＥＡに用いられる不具合事例文書を示したが、これに限らず、文章内に複数種類の項目を含む文書であれば事足り、保健指導の対話を記録したカウンセリング事例等、種々のものが対象となる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

不具合事例文書を説明する説明図である。システム構成例を示す図である。第１実施の形態における機能ブロック図である。（ａ）はメインプログラムを示すフローチャート、（ｂ）は文書読込処理の具体的制御内容を示すフローチャート、（ｃ）は不具合事例ＤＢの記憶データを説明するための図である。ペア重要度算出処理の具体的制御内容を示すフローチャート、および、ペア重要度算出の具体例を説明する図である。不具合事例集合におけるペア重要度算出処理の具体的制御内容を示すフローチャートである。グラフ生成／表示／分類実施処理の具体的制御内容を示すフローチャートである。（ａ）は、ペア重要度集計処理のサブルーチンプログラムを示すフローチャートであり、（ｂ）はペア重要度集計ＤＢに格納されているデータを説明するための図である。（ａ）はグラフ生成表示処理のサブルーチンプログラムを示すフローチャートであり、（ｂ）は読出したペアを示す図であり、（ｃ）は読出済ペアを示す図であり、（ｄ）は、ノード結合の状態を示す図である。（ａ）は未分類不具合事例ＩＤ取得処理のサブルーチンプログラムを示すフローチャートであり、（ｂ）は分類結果ＤＢのグラフに含まれるペアを取出すときの具体例を示す図である。表示されたグラフを見たユーザによるグラフの弁別操作入力の具体例およびその入力操作に従って分類結果ＤＢに格納されるデータを説明するための図である。（ａ）は指定グラフ表示処理の制御動作を示す図であり、（ｂ）は集合グラフ生成表示処理のサブルーチンプログラムを示すフローチャートである。第２実施の形態における機能ブロック図である。分類ルール設定処理の制御動作を示すフローチャートである。（ａ）はグラフ生成登録処理のサブルーチンプログラムを示すフローチャートであり、（ｂ）は分類ルールの表示弁別処理のサブルーチンプログラムを示すフローチャートである。自動分類処理の制御動作を示すフローチャートである。第３実施の形態における機能ブロック図である。第４実施の形態における機能ブロック図である。クラス設定部によるクラス設定の具体例を説明するための説明図である。第５実施の形態における機能ブロック図である。複合語・ストップワード登録部による複合語ストップワードの登録操作の具体例を示す説明図である。

符号の説明

４サーバ、５知識ＤＢ、８，９パーソナルコンピュータ、１１文書情報加工装置、１９文書読込部、１３不具合事例ＤＢ、１４ペア重要度算出部、１５ペア重要度ＤＢ、１６グラフ生成部、１７グラフ表示・分類実施部、１８分類結果ＤＢ、１５ａ不具合事例別ペア重要度ＤＢ、１５ｂペア重要度集計ＤＢ、１９分類ルール設定部、２０分類ルールＤＢ、２１自動分類部、２２分類設定部、２３クラス設定部、２４複合語・ストップワード登録部、２５複合語・ストップワードＤＢ。

Claims

文書中からの有用情報の発見を支援するための文書情報加工方法であって、
文章内に複数種類の項目を含む文書を読込むステップと、
前記文書を読込むステップにより読込まれた文書から単語を抽出するステップと、
前記単語を抽出するステップにより抽出された単語同士の距離の集合に基づいた単語間の関連度を算出し、関連のある単語同士をリンクで結合して単語集合のグラフを生成するステップと、
前記グラフを生成するステップにより生成されたグラフを表示装置に表示させるための制御を行なうステップと、
前記表示させるための制御を行なうステップにより表示制御されたグラフを見たユーザによる当該グラフについての有用か否かの判断結果の入力を受付け、有用と判断された有用グラフの特徴を表わすラベルを当該有用グラフに付与して格納するステップとを含む、文書情報加工方法。
前記グラフを生成するステップは、前記単語を抽出するステップにより抽出された複数の単語のうちから任意の２単語を順次選択して、当該２単語の前記文書中における距離の集合について小さい距離が多いほど関連度が高くなる評価関数に基づいて関連度を算出する、請求項１に記載の文書情報加工方法。
文書中からの有用情報の発見を支援するための文書情報加工装置であって、
文章内に複数種類の項目を含む文書を読込む文書読込み手段と、
前記文書読込み手段により読込まれた文書から単語を抽出する単語抽出手段と、
前記単語抽出手段により抽出された単語同士の距離の集合に基づいた単語間の関連度を算出し、関連のある単語同士をリンクで結合して単語集合のグラフを生成するグラフ生成手段と、
前記グラフ生成手段により生成されたグラフを表示させるための制御を行なうグラフ表示制御手段と、
前記グラフ表示制御手段により表示制御されたグラフを見たユーザによる当該グラフについての有用か否かの判断結果の入力を受付け、有用と判断された有用グラフの特徴を表わすラベルを当該有用グラフに付与して分類済みグラフとして格納する格納手段とを含む、文書情報加工装置。
前記グラフ生成手段は、前記単語抽出手段により抽出された複数の単語のうちから任意の２単語を順次選択して、当該２単語の前記文書中における距離の集合について小さい距離が多いほど関連度が高くなる評価関数に基づいて関連度を算出する、請求項３に記載の文書情報加工装置。
文書中からの有用情報の発見を支援するための文書情報加工装置であって、
文章内に複数種類の項目を含む文書のデータを記憶している文書データ記憶手段と、
前記文書データ記憶手段に記憶されている文書データから単語を抽出する単語抽出手段と、
前記単語抽出手段により抽出された単語同士の距離の集合に基づいた単語間の関連度を算出する単語間関連度算出手段と、
前記単語間関連度算出手段により算出された関連度に基づいて、関連のある単語同士をリンクで結合して単語集合のグラフを生成するグラフ生成手段と、
前記グラフ生成手段により生成されたグラフを表示させるための制御を行なうグラフ表示制御手段とを含む、文書情報加工装置。
前記単語間関連度算出手段は、
前記単語抽出手段により抽出された複数の単語のうちから任意の２単語を順次選択して、当該２単語の前記文書中における距離の集合について小さい距離が多いほど関連度が高くなる評価関数に基づいて関連度を算出する、請求項５に記載の文書情報加工装置。
前記グラフ生成手段は、複数の文書からなる文書集合についてのグラフを生成する文書集合グラフ生成手段をさらに含み、
前記文書集合グラフ生成手段は、グラフの生成対象となる文書集合に含まれている複数文書の１文書毎に算出した単語間の関連度を用いて、文書集合のグラフを生成する、請求項３〜請求項６のいずれかに記載の文書情報加工装置。
前記グラフ表示制御手段は、前記グラフ生成手段により生成された複数のグラフのうち、関連度の高い単語同士が多く含まれているグラフを上位から所定数選択して表示する制御を行なう上位表示処理を実行し、
前記グラフ生成手段は、前記上位表示処理による表示を見たユーザによる当該グラフについての有用か否かの判断結果の入力に基づいて、有用でないと判断された削除対象グラフと有用と判断された前記有用グラフとに含まれる単語ペアを除く残りの単語ペアについて、前記単語同士の距離の集合に基づいた単語間の関連度を算出し、関連のある単語同士をリンクで結合して単語集合のグラフを生成する残り単語ペアグラフ生成処理を実行し、
前記上位表示処理と前記残り単語ペアグラフ生成処理とを繰返し実行し、その結果を前記分類済みグラフとして前記格納手段が格納するとともに、有用ではなく削除対象と判断された削除対象グラフを削除対象であることを示す識別子を付与して格納する、請求項３〜請求項７のいずれかに記載の文書情報加工装置。
前記文書読込み手段により読込まれた新たな文書を自動的に分類するための分類ルールを設定する分類ルール設定手段をさらに含み、
前記分類ルール設定手段は、
前記グラフ生成手段により生成されたグラフのうち、関連度の高い単語同士が多く含まれているグラフを上位から所定数選択して格納する上位格納処理を実行する上位格納手段と、
前記新たな文書のうち、前記上位格納手段により格納されたグラフに含まれる単語ペアを所定の重要度で含んでいる文書を除く残りの文書を割出す残り文書割出し処理を実行する残り文書割出し手段と、を含み、
前記グラフ生成手段は、前記残り文書割出し処理により割出された残りの文書についてグラフを生成する残り文書グラフ生成処理を実行し、
前記分類ルール設定手段は、さらに、前記残り文書グラフ生成処理と、該残り文書グラフ生成処理により生成された残りの文書のグラフについて行なう前記上位格納処理と、前記残り文書割出し処理とを、繰返し実行して、その結果前記上位格納手段に格納されたグラフを前記グラフ表示制御手段により表示制御させ、該表示制御されたグラフを見たユーザによる当該グラフについての有用か否かの判断結果の入力を受付け、有用と判断された有用グラフの特徴を表わすラベルを当該有用グラフに付与して分類ルールとして格納する分類ルール格納手段を含む、請求項３〜請求項８のいずれかに記載の文書情報加工装置。
前記文書読込み手段により新たな文書が読込まれたときに、該新たな文書について前記グラフ生成手段が生成した新たなグラフと前記分類ルール格納手段に格納されている分類ルールとしてのグラフとの類似度を算出し、類似する前記新たなグラフを類似する前記分類ルールに対応付けて格納する対応付け格納手段をさらに含む、請求項９に記載の文書情報加工装置。
請求項１に記載の文書情報加工方法をコンピュータに実行させるためのプログラム。
請求項１に記載の文書情報加工方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体。