JP4572265B2 - 実績管理支援システム及び実績管理支援プログラム - Google Patents

実績管理支援システム及び実績管理支援プログラム Download PDF

Info

Publication number
JP4572265B2
JP4572265B2 JP2003294851A JP2003294851A JP4572265B2 JP 4572265 B2 JP4572265 B2 JP 4572265B2 JP 2003294851 A JP2003294851 A JP 2003294851A JP 2003294851 A JP2003294851 A JP 2003294851A JP 4572265 B2 JP4572265 B2 JP 4572265B2
Authority
JP
Japan
Prior art keywords
character string
search
string class
cell
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003294851A
Other languages
English (en)
Other versions
JP2005063284A (ja
Inventor
文人 桝井
慎司 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NSXE CO. LTD
Original Assignee
NSXE CO. LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NSXE CO. LTD filed Critical NSXE CO. LTD
Priority to JP2003294851A priority Critical patent/JP4572265B2/ja
Publication of JP2005063284A publication Critical patent/JP2005063284A/ja
Application granted granted Critical
Publication of JP4572265B2 publication Critical patent/JP4572265B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、実績管理支援システム及び実績管理支援プログラムに関し、更に詳しくは、工場やオフィスで発生するトラブル保全管理を支援するために有用な情報をデータベースから取り出して容易に利用する技術に関する。
高度な設備保全管理システムの運用によって設備の安定稼働は飛躍的に向上したが、設備保全管理担当者がトラブルに遭遇する機会が減り、担当者が交代することも要因となって担当者個人にとっては初めて体験するトラブルが増えている。そのためトラブル対応策の特定に時間がかかることもありトラブル対応高速化のための支援システムが求められている。その一つとしてオフィスや工場において、現場業務に関連した様々な情報を蓄積・管理するための高機能なリレーショナルデータベースシステム(以下単に「RDBシステム」という)に蓄積されたデータを利用する技術が種々提案されている。
このRDBシステムは情報が蓄積され続けるため時間が経つに従って大規模化・複雑化する。そのためRDBシステムを効果的に運用するためには、RDBに格納されているデータを取りだして再構築し再利用する必要があるため専門的な知識や熟練した操作経験が必要とされる。例えば、予防保全の実施計画を策定するには、蓄積情報の分類や解析が不可欠である。蓄積情報の分類や解析には、ある程度の専門的知識が必要となる。従って誰もがRDBシステムを気軽に且つ容易に利用できる状況ではない。そのため大量な業務関連情報が蓄積されているにも関わらず、それらが効率的に利用されていないという問題が生じている。
RDBシステムを現場業務に再利用する技術としては以下のものが周知である。例えば、非特許文献1には日報として記述された文章から知識辞書を用いて重要概念を抜き出し、個々の重要概念の因果関係を示す構造を抽出する技術が開示されている。
また特許文献1に開示された情報サービスシステムは、形態素解析を利用してユーザからの自然言語文による問い合わせを構造化し、その問い合わせに対する情報を事例情報データベース及び製品情報データベースから検索して取り出し表示するものである。
特許文献2に開示された情報共有システムの情報保守管理装置は、効率的に情報の点検作業を行える情報共有システムであり、蓄積された情報の信頼性を形態素解析を利用して行い管理者に通知するというものである。
特許文献3に開示されたヘルプデスク支援装置は、ある製品に関する問題を解決するために形態素解析を利用して事例情報に関連づけられた付帯情報と、事例情報を元に分類された分類項目とを呈示するというものである。
上記の非特許文献1及び特許文献1〜3に開示された技術はいずれも自然言語処理技術として形態素解析を使用することを前提としているため、いわゆる国語辞典のようなあらゆる単語や品詞をカバーした形態素解析用知識辞書が必要となる。そのため不要なデータまでサポートすることになる一方、専門用語に弱いという欠点があった。形態素解析用知識辞書では専門用語がサポートされていないためである。非特許文献1のようにユーザが辞書作成支援ツールを用いて作成することも考えられるが効率的ではない。また形態素解析用知識辞書では参照される頻度が極めて低い知識を記憶しておくため必要度が低い知識における記憶容量が膨大になるという問題点もある。
そこで形態素解析用知識辞書を使用しないでドキュメントや文章からキーワードや文字列を切り出す試みとしてサフィックスアレイを用いる手法が注目を集めている。その基本的な手法が非特許文献2〜3に開示されている。「サフィックスアレイ」とは、テキストをそのテキスト中に存在する全ての文字からテキストの終端までの部分文字列(サフィックス;接尾辞)の集合(n−gram集合)であると考え、その集合を辞書順に並べたデータ構造をいう。二分探索法を用いてテキストを検索したり、各部分文字列の重複関係などに基づいて文字列クラス(キーワードとして)を切り出すのに用いられるデータ構造である。
その基本的な手法は例えば非特許文献2〜3に開示されている。非特許文献2〜3にはサフィックスアレイを用いて、共通部分を含む文字列から文字列クラス(キーワードとして)を切り出すべく、区間内部での共通部分の文字列長さが当該区間境界での共通部分の文字列長さよりも大きいときに文字列クラスを形成するとし、その当該文字列クラスを代表する文字列として、当該クラスのなかで最長の文字列を取り出す手法が開示されている。このときに区間の中にまた区間が存在するという階層関係をも考慮している。
また実際のシステムに組み込んだ例として特許文献4〜5にサフィックスアレイを用いたキーワード抽出技術や情報検索技術が開示されている。特許文献4に開示された技術は、キーワードであると決定するために何らかの閾値を用いて行っている。また特許文献5に開示された技術は、大量の文書から特徴を取り出してそれを検索できるようにしたものであるが、重要語を取り出すときに、入力文書に出現する出現頻度と、検索対象となる文書に出現する出現頻度との対比から文字列の特徴量を計算し、これを評価することにより特徴文字列の抽出を行うものである。
電子情報通信学会論文誌 Vol. J86-D-11, No.2, pp.310-323., 2003. 「日報分析システムと分析用知識既述支援ツールの開発」 自然言語処理 2002年10月 Volume 9, Number 5, pp.43-70.「文字列をk回以上含む文書数の計数アルゴリズム」 Computational Linguistics Volume 27, Number 1., pp.1-30., March 2001. 「Using Suffix Array to Compute Term Frequency and Document Frequency for All Substrings in a Corpus」 特開平10−207902号公報 特開2000−285135号公報 特開2003−85186号公報 特開2002−197195号公報 特開平9−293077号公報
しかしながら、実績管理(工場での生産管理や在庫管理、営業所での販売管理や受注管理など全ての業務を含む)や予防保全(将来的に発生する可能性があるトラブルに対する対策業務)などの現場業務を行うべく、上記非特許文献に開示されたサフィックスアレイ、形態素解析用知識辞書、n−gramモデルなどを用いると、無関係な文字列クラスについての計算を大量に行うこととなり計算量が膨大になるうえ時間もかかり実用的ではないという問題があった。上記特許文献のものでは新聞記事などを対象としているので、これをそのまま適用すると、実績管理や予防保全においても一律に多くの膨大な量のサフィックスを生成するため計算量が膨大になるからである。
つまり、現場業務は、ある程度「限定された分野」について行うものであるため、例えばRDBに格納されるデータに含まれる文字列(テキスト)の種類が一般の形態素解析用知識辞書に較べれば格段に少なく更にその量も少ないような場合には、ユーザの要求に柔軟に且つ的確に対応できる技術を適用すべきである。形態素解析用知識辞書やn−gramモデルでは、無関係な文字列クラスについての計算を大量に行うこととなり実用的ではない。そのため「分野が限定された実績管理や予防保全などの現場業務」においては情報収集やトラブル支援のために専門分野に適用でき且つ利便性の高い知識辞書の自動構築及びその活用手段の構築が所望されていた。
具体的には、あるトラブルについて検索したところ、いくつかの対応実績が見つかったときに、同様の原因で発生するトラブルが他の設備でも発生するのか否かがシステムに負荷をかけずに短時間で簡単に連想的に検索でき未然に対応策を練ることを可能とするシステムが求められていた。
また現場業務では設備保全管理担当者が交代することもあり、以前同じトラブルが何度も発生していても担当者にとっては初めて遭遇するトラブルであることもある。そのため、トラブル対応策の特定に時間がかかることもあり、トラブル対応高速化のための保全支援システムが求められている。
本発明はこのような事情に鑑みてなされたものであり、その第一の目的は、形態素解析用知識辞書を用いることなくシステム特有の知識辞書を自動的に構築し利用することができる実績管理支援システム及び実績管理支援プログラムを提供することにある。
本発明の第二の目的は、専門知識を持たなくても簡単に使用できる実績管理支援システム及び実績管理支援プログラムを提供することにある。
上記課題を解決するために請求項1に記載された一又は複数のフィールドからなるレコードを単位とするトラブル情報が格納された知識抽出対象データベース(以下単に「DB」とする)から当該トラブル情報を取り出して処理を行う実績管理支援システムは、前記トラブル情報に含まれるサフィックスを取り出しソートしてサフィックス群を生成し、当該サフィックス群を構成する各サフィックス同士の比較を、先頭から順番に、連続する二つのサフィックスのそれぞれを構成する文字同士一文字ずつ順番に行い、その結果一致部分があれば一致している部分のうち最大重複文字列を文字列クラスとして切り出し文字列クラス群を生成する文字列クラス群生成手段と、切り出した文字列クラスをソートし、文字列クラスの出現頻度を数えて出現頻度を生成する文字列クラス出現頻度生成手段と、前記文字列クラス群を構成する各文字列クラスの出現頻度に基づいて文字列クラスを選択する文字列クラス選択手段と、メモリ領域から、処理対象となる文字列クラスと一つ前に処理対象とされた文字列クラスとを読み込み、これらの文字列クラスを参照し比較して含有関係を判断するように構成されるとともに、少なくとも、前記各文字列クラスが当該各文字列クラス以外の他の文字列クラスと包含関係にあるか否かに基づいて重要語を抽出し重要語辞書を構築する第一知識抽出/辞書構築手段、包含関係にある下位文字列クラスと上位文字列クラスそれぞれの出現頻度に基づいて当該下位文字列クラスを重要語として抽出し重要語辞書を構築する第二知識抽出/辞書構築手段、及び、包含関係にある下位文字列クラスと上位文字列クラスそれぞれの出現頻度に基づいて前記下位文字列クラスを前記上位文字列クラスの一部とし、前記上位文字列クラスを重要語として抽出し重要語辞書を構築する第三知識抽出/辞書構築手段のうちいずれかを含む知識抽出/辞書構築手段と、前記知識抽出/辞書構築手段により抽出された重要語と、当該重要語が前記知識抽出対象DBのどこに格納されているかを示しセル番号とセル内の位置から決定される位置情報とを含むインデックスを前記重要語又は前記位置情報をキーとして生成するインデックス生成手段と、任意の文字列が検索質問文として入力される検索質問文入力手段と、前記インデックスを参照することにより、当該インデックスに格納された重要語と一致する一致文字列を、当該検索質問文がその全体又は一部に含むか否かを判断し、当該一致文字列を検索キーとして切り出す検索キー生成手段と、前記検索キーを検索するのに前記知識抽出対象DBのどのフィールドを検索範囲とするかを選択するフィールド選択手段と、前記フィールド選択手段によって検索範囲として選択されたフィールド(以下単に「選択フィールド」という)を検出するフィールド検出手段と、前記選択フィールドに属するセルから前記検索キーを含むセル(以下単に「含有セル」という)を検索する検索手段とを備えたことを要旨とするものである。
ここで「知識抽出対象DB」とは工場やオフィスにおけるトラブル事象や日常作業記録などのデータが「何らかの意味をなす完成文又は未完成文」という形でテキストその他のフォーマットで格納されたDBや、ユーザが抽出しようとする実績管理支援情報が格納されたDBであればよい。「レコード」は、例えば、トラブルの内容を記録した「トラブル事象」、そのトラブルの原因を記録した「原因」、そのトラブルに対してとった処置を記録した「処置」、そのトラブルの発生を予防するための措置を記録した「対策」、どのレコードかを特定するための「レコード番号」、ある事象が発生した日時を記録した「日時」、ある事象が発生した設備を特定するための「設備番号」などのフィールドに属するデータからなる。
「サフィックス」とはテキスト中に存在する全ての文字からテキストの終端までの部分文字列をいう。換言すれば「サフィックス」とは「何らかの区切り(セル番号毎、列毎など)単位」における「何らかの意味をなす完成文又は未完成文」に存在する全ての文字からの終端までの部分文字列ということができる。「その比較結果」とはテキストが同一かどうかとか、テキストの長さは同一かどうかといった観点による比較結果をいう。「文字列クラス」とはサフィックスから切り出された文字列をいい、特に限定されないが、例えば、比較するサフィックスどうしの共通部分や、比較するサフィックスどうしに全く共通部分がないときはそのサフィックスそのものなどをいう。「文字列クラス群」とは少なくとも一つの文字列クラスからなる群をいう。「出現頻度」とは知識抽出対象DBの全部又は一部から切り出された文字列クラスが出現する頻度をいう。
「包含関係」とは、「ボー」と、「ボード」を比較したときに「ボー」は「ボード」に包含されるという関係をいう。「下位文字列クラス」とは包含されるほうの文字列クラスといい、「上位文字列クラス」とは包含するほうの文字列クラスをいい、例えば、「ボー」と「ボード」とでは、「ボー」が下位文字列クラス、「ボード」が上位文字列クラスとなる。また「前記下位文字列クラスは前記上位文字列クラスと見なして」とは、例えば、下位文字列クラスたる「ボー」を上位文字列クラスたる「ボード」として抽出するということを意味するものである。
「重要語」とは文字列クラスからある条件を満たすことにより抽出されたデータであればよい。これにより工場やオフィスで使用される専門用語、キーワードが重要語として抽出されるからである。
「位置情報」とは直接的なものでも間接的なものでもよく、最終的に知識抽出対象DBのどこに格納されているかを示すものであればよい。「重要語をキー」とは、重要語を引けばそれに対応づけられた情報(ここでは当該重要語の位置情報)が全て得られることを意味し、「位置情報をキー」とは、位置情報を引けばそれに対応づけられた情報(ここでは当該位置(例えば、セル番号で示される位置)に格納されている重要語)が全て得られることを意味する。「検索質問文」とはユーザにより入力されたデータ又は知識抽出対象DBに格納されたあるフィールドに属するセルのデータのことをいい、任意の文字列からなるものであればよい。
ここで前記検索キー生成手段は、前記一致文字列を当該検索質問文の全体又は一部に含むか否かの判断を、例えば、前記検索質問文から任意に切り出したサフィックスや文字列と前記重要語とを先頭から順番に一文字ずつ比較することにより行うことができる。そして前記検索キー生成手段は、前記検索質問文から一致文字列を切り出した後は、例えば、(1)当該検索質問文のうち当該一致文字列の直後の文字列と前記重要語とを順番に一文字ずつ比較することにより、(2)検索質問文から任意に切り出した他のサフィックスや文字列と前記重要語とを順番に一文字ずつ比較することにより行うことができる。また、インデックスを参照することによって検索キーを切り出すこととしているが、インデックスを生成するために用いた重要語辞書を参照することによって検索キーを切り出すようにしてもよい。また、「フィールド選択手段」としては、コンピュータの画面表示に従って、操作されるキーボード、マウス、ポインティングデバイスその他の入力デバイスを用いることができる。「セル」とは、レコードとフィールドとによって特定されるあるデータの格納位置を示すものであり、検索キーが、例えば、「ボード」であったとしたならば、「ボード」という文字列を含有する含有セルが検索手段によって検索される。
上記構成を備えた請求項1に記載の実績管理支援システムによれば、文字列クラス群生成手段は、一又は複数のフィールドからなるレコードを単位とするトラブル情報に含まれるサフィックスを取り出してサフィックス群を生成し、当該サフィックス群を構成する各サフィックスどうしを比較し、その比較結果に基づいて文字列クラスを切り出し文字列クラス群を生成する。文字列クラス選択手段は前記文字列クラス群を構成する各文字列クラスの出現頻度に基づいて文字列クラスを選択する。知識抽出/辞書構築手段は、第一知識抽出/辞書構築手段が前記各文字列クラスが当該各文字列クラス以外の他の文字列クラスと包含関係にあるかどうかに基づいて重要語を抽出し、第二知識抽出/辞書構築手段が包含関係にある下位文字列クラスと上位文字列クラスそれぞれの出現頻度に基づいて当該下位文字列クラスを重要語として抽出し、第三知識抽出/辞書構築手段が包含関係にある下位文字列クラスと上位文字列クラスそれぞれの出現頻度に基づいて前記下位文字列クラスを前記上位文字列クラスと見なして重要語として抽出し、重要語辞書を構築する。そのため形態素解析用知識辞書を用いることなくシステム特有の知識辞書として重要語辞書が自動的に構築される。
インデックス生成手段は、知識抽出/辞書構築手段により抽出された重要語と、当該重要語が前記知識抽出対象DBのどこに格納されているかを示す位置情報とを含むインデックスを前記重要語又は前記位置情報をキーとして生成する。検索質問文入力手段を介して任意の文字列が検索質問文として入力される。任意の文字列が検索質問文として入力され得るためユーザが専門知識を持たなくても簡単に使用される。検索キー生成手段は、前記インデックスを参照することにより、当該インデックスに格納された重要語と一致する一致文字列を、当該検索質問文がその全体又は一部に含むか否かを判断し、当該一致文字列を検索キーとして切り出す。検索手段は、含有セルを検索する。そのため、知識抽出対象DBに格納されているデータの分類化や因果関係を事前登録しなくても当該DBから容易に所望の情報を取り出すことができ、結果として分類化された情報を取り出すことができる
ここで対象となる知識抽出対象DBのデータ形式やDB構造は、限定されず、本システムは、例えば、MS−EXCEL、MS−ACCESS、ORACLE、SQL−Serverなどの市販のデータベースに対応させることができる。また、既存DBに格納された自然言語で記述されたデータは、その性質上、対象とする一文、一文書の単位が比較的短いため生成されるサフィックス数は膨大にならない。重要語辞書を作成する場合において文数そのものは線形で増加するため全体としての計算量は新聞記事を対象として知識を抽出する場合より遙かに低く抑えることができる。
またインデックスが作成されるため特化された範囲で検索を行うことができ、処理速度の向上に寄与するものとなる。また検索キーがユーザによって入力される検索質問文から切り出されるため、検索質問文として受け付けられる文字列を予め登録しておかなくても完全自動処理が実現される。
この場合に請求項2に記載されるように前記重要語の出現頻度に基づいて当該重要語の重要度を求める重要度演算手段と、前記検索キーを要素とし、前記重要度演算手段により求められた重要度をその値とする検索キーベクトルと、前記含有セルに含まれる重要語を要素とし、前記重要度演算手段により求められた重要度をその値とする索引ベクトルとに基づいて当該含有セルの類似度を求める類似度演算手段とを備えるように構成してもよい。
ここで「重要度」とは出現頻度に基づくものであればよく、通常は出現頻度が多いものほど重要度が高く、出現頻度が少ないものほど重要度が低いものととらえて差し支えないが、これに限定されるものではない。すなわち、ここでいう「重要度」は出現頻度が高くても不要なものは除去し、出現頻度が少なくても重要なものは当然包含する意味である。本発明の場合、第一知識抽出/辞書構築手段、第二知識抽出/辞書構築手段及び第三知識抽出/辞書構築手段から選ばれる少なくとも一つの手段により不要なものが除去されていることで具体的な構成が示されているものといえる。また「重要度」とは換言すれば、DBにおいて重要語がどれだけ特徴的であるかを示す尺度ともいえる。
重要度に基づいて類似度が計算されるため、検索質問文と関連性の高いデータがどのデータであるかが容易に判別することができる。また、類似度を利用してランク分けすれば、絞り込み過ぎや広げすぎといったことが回避される。また選択フィールドを検索範囲とするので、実績管理支援情報の検索を形態素解析用知識辞書を用いたときよりも少ない計算量で行われる。
この場合に請求項3に記載されるように、当該含有セル以外のセルであって当該含有セルが含まれるレコードと同じレコードに含まれるいずれかのセル(以下単に「非含有セル」という)に格納されたデータを検索質問文として設定する連想検索設定手段を備え、前記検索キー生成手段は、前記インデックスを参照することにより、当該非含有セルに含まれる重要語を検索キーとして切り出すように構成してもよい。
すなわち、「含有セル」が、例えば、「トラブル事象」というフィールドに属するものとすれば、「非含有セル」としては「原因」、「処置」、「対策」など「トラブル事象」以外のフィールドに属するフィールドから設定される。「含有セル」が、例えば、「原因」というフィールドに属するものとすれば、「非含有セル」としては「トラブル事象」、「処置」、「対策」など「原因」以外のフィールドに属するフィールドから設定される。従って、検索結果から更に検索結果で得られた文章や他のフィールドの文章で検索を実行することができる。すなわち、逆引き検索やハイパーリンク検索が可能となる。
この場合に請求項4に記載されるように、前記含有セルに格納されたデータと、前記非含有セルに格納されたデータとを識別可能に表示する表示手段を備えるように構成してもよい。表示手段は、例えば、含有セルに格納されたデータとしては、前記知識抽出対象DBに格納された全ての含有セルを対象とすることができ、非含有セルに格納されたデータとしては、特定の含有セルについてのデータを対象として表示することができる。また表示位置を別々にしたり、どのフィールドに属するかを表示することによって「識別可能に表示」することができる。従ってユーザにしてみれば表示された情報の関係を瞬時に把握することができ利便性が高いものとなる。
この場合に請求項5に記載されるように、前記表示手段は、前記類似度に基づいてデータを表示するように構成してもよい。これにより検索質問文と関連の強い順番で表示することができるため、検索作業において絞り込み過ぎや広げすぎがなくなる。分類化・体系化をしなくても結果的に分類化・体系化した情報が得られる。
本発明に係る実績管理支援システム及び実績管理支援プログラムは、重要語を抽出し重要語辞書を構築し、これを用いて検索を行うため、形態素解析用知識辞書を用いることなくシステム特有の知識辞書を自動的に構築し利用することができるという効果がある。従って形態素解析用知識辞書などを使用しなくても様々な専門分野のシステムで活用することができるという効果がある。
本発明に係る実績管理支援システム及び実績管理支援プログラムは、検索質問文入力手段を介して検索質問文として任意の文字列が入力されると、検索キー生成手段が前記インデックスを参照することにより、当該インデックスに格納された重要語と一致する一致文字列を、当該検索質問文がその全体又は一部に含むか否かを判断し、当該一致文字列を検索キーとして切り出すものであるから、ユーザは専門知識を持たなくても簡単に使用することができるという効果がある。
以下に本発明の一実施の形態について図面を参照して説明する。
[一実施形態の概要]
本発明の一実施形態に係るトラブル保全管理支援システムAは、DB再利用モジュールBを構成するDB知識抽出モジュールC及びDB知識検索モジュールDにおける情報処理がサフィックスアレイを用いた新規な手法によって実現されている点に特徴がある。
DB再利用モジュールBはコンピュータに実装すればよいが、DB再利用モジュールBを構成する全ての要素を一台のコンピュータに実装してもよいし、各要素に分けて別個のコンピュータに実装してもよいし、更には各要素を更に細分化して別個のコンピュータに実装してもよい。別個に実装する場合には各コンピュータが双方向通信可能に接続されていればよい。DB再利用モジュールBとして機能させるために必要なプログラムは、各種の記録媒体(例えば、CD−ROM、CD−R、CD−RW、DVD−R)からインストールされたものやネットワークを通じて配信されたものを利用することができる。
[トラブル保全管理支援システムA]
図1Aは本発明の一実施形態に係るトラブル保全管理支援システムAの構成を示したもの、図1BはDB再利用モジュールBの構成を示したものである。また図2AはリレーショナルDB1(以下「RDB1」とする)に格納されている知識の一例としてデータテーブルT10を示したもの、図2B〜図2Dはそれぞれ、重要語辞書DB8a,8b,8c,8d(以下、重要語辞書DBを総称する場合には、単に「重要語辞書DB8」とする)、インデックスDB10a,10b,10c,10d(以下、インデックスDBを総称する場合には、単に「インデックスDB10」とする)、重要度DB11a,11b,11c,11d(以下、重要度DBを総称する場合には単に「重要度DB11」とする)に格納されるデータテーブルT20〜T40又はその一部の一例を示したものである。
重要語辞書DB8a、インデックスDB10a、重要度DB11aは、トラブル保全管理支援システムAが知識抽出対象とするRDB1に格納された図2Aに示したデータテーブルT10のうち、「トラブル事象」というフィールドに属するデータを対象として構築されたDBである。重要語辞書DB8b、インデックスDB10b、重要度DB11bは、同図に示したデータテーブルT10のうち、「原因」というフィールドに属するデータを対象として構築されたDBである。重要語辞書DB8c、インデックスDB10c、重要度DB11cは、同図に示したデータテーブルT10のうち、「処置」というフィールドに属するデータを対象として構築されたDBである。重要語辞書DB8d、インデックスDB10d、重要度DB11dは、同図に示したデータテーブルT10のうち、「対策」というフィールドに属するデータを対象として構築されたDBである。
これらの図においてトラブル保全管理支援システムAは、自動車及びその部品などの生産工場におけるトラブル保全管理支援、情報収集、情報分析、意思決定など種々の場面で利用できる適用範囲の広いシステムであり、DB再利用モジュールB、RDB1、入出力装置2、HDD装置3、媒体記録装置4などからなる。DB再利用モジュールBはRDB1に格納された特定データDTを読み出し、処理し、重要語抽出や知識再構成を行うものである。
HDD装置3はデータを記憶するものであり、DB再利用モジュールBが実装されているコンピュータと同一コンピュータに搭載されたものでもよいし、別途設けられたディスク装置でもよい。媒体記録装置4は、CD−ROM、CD−R、CD−RW、DVD−RWなどの記録媒体5を装着して使用され、これらの記録媒体5からプログラムを読み込んでインストールしたり、その逆に種々のデータを記憶させるために用いられるものである。
RDB1は既存のリレーショナルデータベースであり、生産工場での業務に関する自然言語記述データが格納されたものであれば何でもよい。すなわち、RDB1には例えば図2Aに示したように、各レコード(行)がセル番号(換言すればデータ番号)、日付、トラブル事象、原因、処置、対策というフィールド(列)からなるデータテーブルT10が格納されている。各フィールド(列)のデータサイズは特に限定されないが、数文字から数百文字程度が望ましい。入出力装置2はデータ入力に用いるキーボード・マウスなどの入力手段(入力デバイス)2aや、検索結果や入力情報を表示するモニタ2bからなる。また入出力装置2には図示を省略するが各種データを印刷するための印刷装置が接続されている。
トラブル保全管理支援システムAがDB知識検索モジュールDとして機能するときのユーザ入力促進画面は対話型で表示される。図3Aから図3Eはその表示例を示したものである。
図3Aはトラブル保全管理支援システムAをDB知識検索モジュールDとして起動させたときの起動画面SC1の画面構成を示したものである。起動画面では、例えば、タイトル21、入力支援表示22、ユーザ入力欄23、実行ボタン24が表示される。
タイトル21は、例えば、「トラブル保全管理支援システム」と表示されている。入力支援表示22は、ユーザが何をすべきかが対話型で表示され、例えば、「トラブルに関する質問を入力して下さい」と表示される。ユーザ入力欄23は、ユーザがキーボードやマウスなどを用いて入力した検索質問文が表示され、例えば、「ウインド ダンマリ停止」という検索入力文が表示される。実行ボタン24は、実行指示ボタンであり、ユーザ入力欄23に入力された文字列を検索質問文qとして検索処理を行わせるための指示を行うためのボタンである。これをマウスカーソルで選択した状態でダブルクリックすることにより検索処理が開始される。
図3B〜図3Gは、検索画面SC2を示しており、起動画面SC1と同様にタイトル21、入力支援表示22、ユーザ入力欄23、実行ボタン24が表示され、更に、フィールド選択欄25が表示される。なお、起動画面SC1から一度検索作業が行われた以降は検索画面SC2が表示されることになる。
フィールド選択欄25は、RDB1に格納されているデータベースのどのフィールドで検索するかを設定するためにユーザがキーボードやマウスなどを用いて入力したフィールドが表示される。検索範囲となるフィールドは、初期設定では「トラブル事象」というフィールドが自動的に設定されているため、それが表示される。実行ボタン24は、マウスなどで選択された状態でこれをクリックすることにより実際の検索を行わせることができるボタンである。
検索画面SC2は、検索範囲とされた選択フィールド内の検索結果26と、検索結果26で表示されたセルが含まれるレコードの選択フィールド以外のセルの内容が検索結果27として表示される。
選択フィールド内の検索結果26としては、図3B〜Eに示したように、選択フィールドとしてキーボードやマウス入力により選択された選択フィールドを示すフィールド名26a、当該選択フィールドに属するセルのうち「キーボードやマウス入力により入力されユーザ入力欄23に表示されている検索質問文から切り出された検索キー」を含有するセル(「含有セル」ともいう)の含有セル内容26b、含有セルを含むレコード(検索してヒットしたレコード)の当該フィールドにおける通し番号26c、類似度26dが各レコード毎に類似度が高い順に表示される。類似度の計算の方法については後述するが、出現頻度に基づいて求められる重要度に基づいて求められる数値であり類似度が高いほど検索質問文と関連性が高く類似度が低いほど検索質問文と関連性が低い。
また図3Dの含有セル内容26bによれば、検索質問文が少し異なっていても検索結果には差がない。例えば、1番目の「LS異常で停止」と、2番目の「LS異常にて停止」とでは厳密には「で」と「にて」との違いがあるが、検索質問文に含まれている重要語Wがトラブル事象に含まれているか否かに基づいて検索されるため、重要語Wが含まれている限り重要語辞書DBには存在しないテキストの存在の有無やテキストの違いは検索結果には影響が出ない。このことは、図の含有セル内容26bの3番目の「W/W LS異常にて停止」と、4番目の「W/W LS異常で停止」、更に7番目の「ウォッシャーLS異常にて停止」と、8番目の「ウォッシャーLS異常で停止」でも同様である。
更に図3F〜Gに示したようにユーザチェック欄26eを設けることもできる。図3Fのチェックが無い状態において、同図に示したように7番目と8番目の欄にユーザチェックを行い、実行ボタン24が押されると、図3Gに示したようにユーザチェックが付されたトラブル事象に係るレコードについては省略して表示される。従って、検索結果のうち必要なデータのみを表示させることができる。例えば、図3Dであれば(同図ではユーザチェック欄は省略されているが)、その1番目と2番目、3番目と4番目、7番目と8番目は、検索結果としては同一と判断できるので、図3F〜Gのようにチェック欄を設けてチェックを付することにより表示を省略することができる。
検索結果27としては、フィールド名26a以外のフィールド名27a、含有セル以外のセルであって当該含有セルが属するレコードと同じレコードに属するいずれかのセル(「非含有セル」ともいう)の各フィールド名27b及びその内容である非含有セル内容27cが表示される。
検索結果27に表示されるレコード数は、表示スペースの関係から検索結果26に表示されるレコード数(この例では10件)よりも少ない。そのため検索結果26に表示されたレコードから選択的に検索結果27に表示されることとなる。初期設定では検索結果26に表示されるレコードのうち第一番目からデータが表示される。セル内容26bはマウスカーソルで選択すると、色を変えるなどして選択表示されるようになっており、これをダブルクリックすれば、ダブルクリックしたセル内容26bに対応するレコードの内容から順番に検索結果27に表示されるように構成される。
また非含有セル内容27cはマウスカーソルで選択すると、色を変えるなどして選択表示されるようになっている。これをダブルクリックすれば、この非含有セル27cに格納されたデータが検索質問文qとして設定されるようになっており、当該データを検索質問文qとして検索が行われその結果が表示される。この場合、例えば、「トラニオン調整不良」をマウスカーソルで選択しながらダブルクリックすると、原因というフィールドを検索範囲として検索処理が行われ、検索結果26には原因というフィールドで検索した結果が表示され、検索結果27には原因以外のフィールドのデータが表示される。従って、連想検索や逆引き検索が簡単にできるように構成されている。
なお、検索結果27にはレコード3〜4件分程度のデータが表示されている。検索結果27には、通常は通し番号26cの一番上に表示されているレコードのデータから例えば3〜4件ずつ表示されるが、含有セル内容26bをマウスカーソルで選択してこれをダブルクリックすれば、任意のレコードから検索結果27の内容を表示させることができるように構成される。関連情報28は、検索質問文qの内容とともに、ヒットしたレコードの件数や、検索結果26に「何件目から何件目までが表示されるか」といった情報が表示される。
[DB再利用モジュールB]
DB再利用モジュールBは、DB知識抽出モジュールCと、DB知識検索モジュールDとを含む。DB知識抽出モジュールCにおいては、データテーブルT10の特定データDT(例えばトラブル事象、原因、処置、対策のフィールド(列))のデータ一群が読み出され、これに対して処理がなされ、DBの再構築、すなわち、重要語辞書DB8と、インデックスDB10と、重要度DB11の構築がなされる。DB再利用モジュールBの起動はDB再利用モジュールBが実装されている図示しないコンピュータから、生産工場の非稼働時になされるようになっている。メモリの競合によるデータ不一致の問題を排除するためである。DB再利用モジュールBの起動は入出力装置2を介して特権ユーザの操作により起動されるようにしてもよい。
[DB知識抽出モジュールC及び構築されるDB]
DB知識抽出モジュールCについて更に説明する。DB知識抽出モジュールCは、重要語抽出/辞書構築部7と、DB再構築部9とを含み、これらにより、重要語辞書DB8と、インデックスDB10と、重要度DB11とが構築される。
重要語抽出/辞書構築部7はデータテーブルT10から特定データDT(トラブル事象、原因、処置、対策のフィールド(列)のいずれか)を取りだし、サフィックスアレイデータ構造、最長一致法(Longest Match Method)、LCPs法(Longest Common Prefixes)及びアダプテイション法に基づいて、文字列クラスCを切り出して重要語Wを抽出し重要語辞書DB8を構築するものである。
具体的には、重要語抽出/辞書構築部7はRDB1から特定データDTを読み出し、読み出した特定データDTを用いてサフィックスアレイSAを生成し、全ての文字列クラスCを切りだした後、重要語Wを抽出するように構成される。特定データDTは位置情報Lを単位として読み出される。従って例えばセル番号毎(すなわちレコード(一行)毎)に読み出すように構成される。
読み出し方については、位置情報Lを単位として処理対象となる特定データDTを一度に全て読み込んでおきその後のサフィックスアレイSAの生成以降の処理に供するように構成しても良いし、位置情報Lを単位として読み込む度にサフィックスアレイSAの生成を行って文字列クラスCの切りだし以降の処理に供するように構成してもよい。特定データDTに数字が含まれる場合には、全ての数字を合わせた状態が一つの文字として読み出されるように構成してもよい。位置情報Lは直接アドレスでも間接アドレスでもよくあらゆる手法により表すことが可能である。
読み出された特定データDTに基づいて位置情報Lに対応する一行の文字列(自然言語記述部)から構成し得る全ての部分文字列(サフィックス)が生成される。すなわち、一文字を一つのメンバとして(数字の場合には全ての数字を合わせた状態を一つのメンバとすることが望ましい)、文字を一文字ずつずらしながら終端記号に達するまで続けることによって全ての部分文字列(サフィックス)を表現する配列構造が構築される。重要語抽出/辞書構築部7は最終的には全ての部分文字列(サフィックス)を統合し先頭文字をキーとして辞書順にソートしたサフィックスアレイSAを作成するように構成される。
文字列クラスCの切り出しのため重要語抽出/辞書構築部7は、サフィックスアレイSAを生成すると、先頭から順番にi番目のサフィックスsfと(i+1)番目のサフィックスsfとの比較を各サフィックスを構成する文字同士一文字ずつ順番に行い、一致部分があれば一致している部分のうち最大重複文字列を文字列クラスCとして切り出すように構成される。そして重要語抽出/辞書構築部7は、全てのサフィックスsfについてこの処理が終わると切り出した文字列クラスCをソートし、文字列クラスCの出現頻度Tiを数えて同一文字列クラスCを統合するように構成される。予め設定した出現頻度T1より少ない文字列クラスCは除外するように構成される。換言すれば、重要語抽出/辞書構築部7は、出現頻度T1以上の文字列クラスCを選択するように構成される。
重要語辞書DB8構築のため重要語抽出/辞書構築部7は、サフィックスアレイSAを利用してLCPs法によって切り出された文字列クラスC(図6G、図6Hに示したもの)から出現頻度差を利用したアダプティション手法と最長一致法とを用いて、さらに絞込みを行い重要語Wを抽出し、更に抽出された重要語Wを重要語辞書DB8に登録するように構成されている。出現頻度差を利用したアダプティション手法と最長一致法とを用いたのは文字列クラスCは包含関係が生じているが最大文字列クラス(最も長い文字列クラス)で代表してしまうと冗長になるためこれを避けるためである。
具体的には重要語抽出/辞書構築部7は、RAM領域から「処理対象となる文字列クラスC(i番目の文字列クラスC)」と「一つ前に処理対象とされた前回読み込んだ文字列クラスC((i−1)番目の文字列クラスC)」とを読み込み、これらの文字列クラスCを参照し比較するように構成され、更に二つの文字列クラスCが文字列上の包含関係にあれば、頻度比Gapの計算を行いこの結果に基づいて重要度Wを抽出するように構成される(図7参照)。ここでは包含関係にある文字列クラスCを上位文字列クラスC、下位文字列クラスCといい、例えば、「ボー」と「ボード」では「ボード」が上位文字列クラスC、「ボー」が下位文字列クラスCということになる。尚、包含関係にない場合には両者を独立クラスの重要語Wとして抽出するように構成される。
頻度比Gapの計算は次の数1に示す。
Figure 0004572265
重要語抽出/辞書構築部7は、例えば、この頻度比Gapに基づいて比較された文字列クラスCの一方を他方の文字列クラスCの部分文字列であると判定するように構成される。一例を挙げれば、重要語抽出/辞書構築部7は最長一致法によって文字列長の長い文字列クラスCを残し、他方の文字列クラスCを消去するように又はこの逆を行うように構成される。重要語抽出/辞書構築部7は頻度比Gapが閾値T2以上の場合は下位文字列クラスCが上位文字列クラスCとは独立した文字列であると認識するように構成され、例えば、「ボー」と「ボード」とでは「ボー」をそのまま重要語辞書DB8へ登録するように構成される。重要語抽出/辞書構築部7は頻度比Gapが閾値T2より小さい場合は、下位文字列クラスCは上位文字列クラスCと見なして重要語Wとして抽出するように構成され、例えば、「ボー」は「ボード」として抽出するように構成され、「L」(リミットの意味)と「LS」(リミットスイッチの意味)との関係が最終的に閾値T2より小さいと判断されるような処理を経たときには、「L」は「LS」として抽出するように構成される(図3Dにおいて検索入力文として「ロボットがL異常で停止」と設定されても同図と同様の結果が得られる)。そのため、検索質問文に「L」と「LS」とが別個に入力されたとしても、同じ検索結果が得られる。従って、「L」と「LS」とでOR検索をかける必要もないということができる。
重要語辞書DB8の構築又は重要語辞書DB8への登録のために重要語抽出/辞書構築部7は、重要語W及びその属性データ(通し番号、位置情報L、重要語W、頻度Ti、その他のデータなど)を処理、加工するように構成され、例えば、図2Bに示した構造のデータテーブルT20を作成して重要語辞書DB8に格納するように構成される。位置情報Lとしては、RDB1上の位置を直接的又は間接的に表すものであれば何でも良く、セル番号とセル内の位置から決定される「固有の番号」や「通し番号」などを用いることができる。
次にDB再構築部9は、(1)重要語Wの位置情報Lを取り出して重要語WとともにインデックスDB10に格納し、(2)重要語Wの相互の重要度Wiを計算して重要語Wとともに重要度DB11に格納するように構成される。
インデックスDB10は、少なくとも重要語辞書DB8に格納された重要語WがRDB1内のどこに格納されているかを示す位置情報L(例えばRDB1上での「セル番号」、「セル番号」と「セル内の位置」、セル番号とセル内の位置から決定される「固有の番号」などのいずれか又は組合せ)と、重要語Wとが格納される。インデックスDB10には、例えば、図2Cに示した構造のデータテーブルT30a、T30bが格納され、データテーブルT30aを参照することにより重要語Wから位置情報L(「セル番号」、「セル内の位置」、「固有の番号」、「通番」など)を引くこともできるし、データテーブルT30bを参照することにより位置情報Lから重要語Wを引くこともできるように構成されている。
尚、インデックスDB10の構築は、重要語抽出/辞書構築部7により行うようにしてもよい。この場合も、重要語Wをキーにして重要語Wが格納されているRDB1上の全ての位置情報Lを得ることができるようにデータテーブルT30aを作成するように構成してもよいし、位置情報Lをキーにして当該位置に格納されている重要語Wを得ることができるようにデータテーブルT30bを作成するように構成してもよい。
重要度DB11は、重要語辞書DB8に格納された重要語Wが相互にどの程度関連が強いかを示す重要度Wiと重要語Wとが格納されるところである。重要度DB11には、例えば、図2Dに示したデータテーブルT40a、T40bが格納され、データテーブルT40aを参照することにより位置情報Lで示される位置に含まれる全ての重要語Wの重要度Wiを全て引くこともできるし、データテーブルT40bを参照することにより重要語Wから重要度Wiを引くこともできるように構成されている。
再構築部9において重要度Wiは次の数2の計算式により求められる。
Figure 0004572265
ここで共起頻度Ciは異なり語数を意味するものである。再構築部9は、例えばデータテーブルT30aを参照して、ある重要語Wが出現する位置情報Lを得た後、データテーブルT30bを参照することにより、これらの位置情報Lで示される位置に存在する異なり語数、すなわち「他の重要語Wの種類の総数」を数えることにより共起頻度Ciを求めるように構成される。この場合、再構築部9は、共起するパターンが何度出てきてもそれは1通りとしてカウントするように構成してもよいし、共起するパターンに関係なく累算するように構成することもできる。
補正項α、βとしては定数が設定される。重要度Wiの計算は、相互情報量、dice co-efficient, tf*idf値などの計算法により行うこともできる。出現頻度Tiは、データテーブルT30aの位置情報Lの個数を計算することにより求めることができる。又は再構成部9を介して重要語辞書DB8を引くことにより求めることもできる。
[DB知識検索モジュールD]
DB知識検索モジュールDは、入力部12と、参照部13と、出力部14とからなる。これらは、インデックスDB10と、重要度DB11を直接参照することにより、入出力装置2を介して入力される一般ユーザからの情報要求に応じ、RDB1から必要なデータを取り出して当該一般ユーザに情報を提供すべく他のデータと共にモニタ2bに表示するものである。インデックスDB10と、重要度DB11は重要語辞書DB8に格納された重要語Wに基づいて構築されたDBであり、インデックスDB10と、重要度DB11とを直接参照するということは、結局、重要度辞書DB8を間接的に参照していることになる。
入力部12はインデックスDB10のうちデータテーブルT30aを参照することにより、当該インデックスに格納された重要語と一致する一致文字列を、キーボードやマウスによってユーザから入力された検索質問文qがその全体又は一部に含むか否かを判断し、当該一致文字列を検索キーSとして切り出すものである。
また、逆引き検索を行う場合には、入力部12は、含有セル以外のセルであって当該含有セルが属するレコードと同じレコードに属するいずれかのセル(「非含有セル」ともいう)に格納されたデータとして、マウスカーソルで選択されダブルクリックされた非含有セル内容27cにより表示された内容を検索質問文qとして設定する。この場合には入力部12は非含有セル内容27cの位置情報Lも取得し、インデックスDB10のうちデータテーブルT30bを参照することにより、当該非含有セルに含まれる重要語を検索キーSとして切り出すように構成される。
また入力部12は一般ユーザからの情報要求としての検索質問文qを受け付け解析する場合には、検索質問文qに含まれるサフィックスsfを取り出してサフィックス群sfgを生成し、サフィックス群sfgを構成する各サフィックスと重要語Wとを比較して、その比較結果に基づいて検索キーSを切り出すように構成してもよい。
参照部13はインデックスDB10と重要語DB11とを参照して一般ユーザの検索質問文qに対応した回答をRDB1のどこからどのような順序で取り出したらよいかを決定するものである。まずRDB1のどこから取り出すかについてであるが、参照部13はデータテーブルT30aを参照して入力部12によって切り出された検索キーSと一致する重要語Wの位置情報Lを参照して取り出すべき回答がRDB1のどこに格納されているかを認識するように構成される。そして参照部13は、データテーブルT40aを参照して位置情報Lで示される位置に含まれる全ての重要語Wの重要度Wiを参照して、重要語Wを要素としてその重要度Wiをその値とする索引ベクトルViを作成するように構成される(図2C、図2D、図9D参照)。また参照部13はデータテーブルT40bを参照して検索質問文qから切り出された重要語Wと一致する検索キーSの重要度Wiを参照して重要語Wを要素としてその重要度Wiをその値とする検索キー群ベクトルVsを作成するように構成される(図2C、図2D、図9D参照)。
次に重要語Wを取り出す順序についてであるが、その順序は類似度simを計算することにより決定される。類似度simは、参照部13により数3の計算式により求められる。
Figure 0004572265
出力部14は、参照部13において求めた位置情報L及びその優先順位に基づいてRDB1の回答が格納された位置から必要なデータを取り出すとともに取り出した知識データを入出力装置2のモニタ2bに表示するように構成される。
[その他]
尚、図1Bに示した重要語抽出/辞書構築部7、再構築部9、入力部12、参照部13及び出力部14は、これらを同一のコンピュータに実装することもできるし、ネットワークを介して相互にデータのやりとりができる限り別々のコンピュータに実装することもできる。図4はそのコンピュータのブロック構成の一例を示したものである。
図4に示したように、そのようなコンピュータは、プログラムを読み出して当該プログラムの命令を装置各部に送出して制御する中央制御装置(CPU)15、当該コンピュータ及び各種デバイスを制御するためのプログラムであってメインメモリに読み込まれるプログラムを記憶させたリードオンリメモリ(ROM)16、当該コンピュータを「トラブル保全管理支援システムとして機能させるためのプログラム(以下単に「トラブル保全管理支援プログラム」という)や図2A〜図2D、後述する図6A〜図6Hに示した各種データ、その他演算データを記憶させるのに用いられるランダムアクセスメモリ(RAM)17、データ入力に用いるキーボード・マウスなどの入力装置18、実行結果や入力情報を表示するモニタ19からなるものであればよい。またコンピュータには各種データや手続書類を印刷するための印刷装置その他の周辺機器20が接続される。
尚、RDB再利用システムAにおいてCPU15は、RAM17から「トラブル保全管理支援プログラム」を読み出して当該コンピュータ及び各種デバイスに制御指令を送出し、特権ユーザの入力指示に従って、トラブル保全管理支援システムAを構成する重要語辞書DB8、インデックスDB10及び重要度DB11の構築を行ったり、一般ユーザの入力指示に従って検索を行う。構築された重要語辞書DB8、インデックスDB10及び重要度DB11は、同一コンピュータ内のRAM17に格納することもできるし、媒体記録装置4やHDD装置3、他のコンピュータに格納することもできる。
また重要語辞書DB8、インデックスDB10及び重要度DB11は、HDD装置3や媒体記憶装置4を介して記録媒体5に保存され利用することができる。利用形態に応じて、フレキシブルディスク、CD−R、CD−RW、DVD−Rなどに保存することができる。
以下に図面を参照して上記構成を備えたトラブル保全管理支援システムAにおける情報処理について説明する。
[重要語辞書DB8の構築処理]
図5AはDB知識抽出の全体概略フローチャートであり、重要語辞書DB8の構築は(1)サフィックスアレイSAの結合及びソート(S100)、(2)文字列クラスの切出し(S200)、(3)重要語Wの抽出と重要語辞書DB8の構築(S300)という手順からなる。既に述べたが「サフィックスアレイ」とは、テキストをそのテキスト中に存在する全ての文字からテキストの終端までの部分文字列(サフィックス;接尾辞)の集合(n−gram集合)であると考え、その集合を辞書順に並べたデータ構造をいう。また「サフィックス」とはテキスト中に存在する全ての文字からテキストの終端までのテキストをいう。
[S100における詳細処理]
次に図5Bを参照してS100のサフィックスアレイSAの統合及びソートの処理について説明する。同図に示したように、S101においてはRDB1からデータテーブルT10の位置情報Lとしての「セル番号」と特定データDTとしての「トラブル事象」とが配列順に一度に読み出され、図6Aに示したデータテーブルT21としてRAM領域に格納される(S101)。
次にS102においては図6Bに示したように、読み出された特定データDT(「トラブル事象」)を構成するテキストをそのテキスト中に存在する全ての文字からテキストの終端までの部分文字列(サフィックス:接頭辞)の集合(n−gram集合)であると考え、その集合を辞書順に並べたサフィックスsfが、位置情報L(例えば、「セル番号」)毎にデータテーブルT22としてRAM領域に生成される。S102においては更に図6Cに示したように、生成されたサフィックスsf(部分文字列)全てに対して当該サフィックスsf(部分文字列)における先頭文字列を基準とした「セル内の位置」(ここではidx[]で表現されている)を表す情報と、「通し番号」(又は「通番」という)とが付与されデータテーブルT23としてRAM領域に格納される。
S103においては図6Dに示したように、位置情報Lのうち「セル番号」が同じ特定データDT毎に、各サフィックスsfが辞書順にソートされるとともに、各サフィックスsfに固有の番号(sfx[])が付与され初期化され、データテーブルT24としてRAM領域に格納される。ここで「固有の番号」とはRDB1内での位置を示すデータであり、データテーブルT23で「セル番号」と「セル内の位置」とにより決定される情報と同じ意味を有するデータである。直接アドレスでも間接アドレスでもあらゆる手法によるアドレス指定が可能である。
S104においては図6Eに示したように、位置情報Lごとではなく全てのサフィックスsfが統合され全体がソートされたサフィックスアレイSAが得られ、データテーブルT25としてRAM領域に格納される。
[S200における詳細処理]
次に図5Cを参照してS200の文字列クラス切出処理について説明する。S201においてはカウンタiと、サフィックス総数jとに所定の値が設定される。カウンタiには初期値として0が設定され、サフィックス総数jにはS104で「ソート及び統合」された全サフィックス数が設定される(図6Eから図6Fの例では62が設定される)。次にS202においては「i番目のサフィックス」と「(i−1)番目のサフィックス」とが比較され一致部分があるかどうか判断される。
一致部分があると判断されると(S202:YES)、S203へ進み一致部分が文字列クラスCとして切り出され、切り出された文字列クラスCは図6Fに示したデータテーブルT26としてRAM領域に格納される。図6Fに示したように「固有の番号」と「通し番号」は位置情報Lとしてそのまま引き継がれている。ここでは一文字でも同じ文字列があれば文字列クラスCとして切り出される。結果的に少なくとも2回出現する文字列クラスCは切り出されることになる。
そしてS203の処理がなされた後又はS202において一致部分がないと判断されたときは、S204及びS205を介してS202に戻り、次の「(i+1)番目のサフィックス」についての処理がなされる。
図6Eから図6Fの例ではS204において「カウンタi←62」となるまでS202からS205の処理が繰り返し行われる。図6Eに示したデータテーブルT25のサフィックスについて左上から順番に通番13→通番26→通番53→、…、→通番54→通番03、…、→通番42というように最後まで処理に供されたサフィックスは処理結果に応じて文字列クラスCとして切り出され図6Fに示したデータテーブルT26として格納される(S203)。図6Fには図6Eに示したサフィックスを切り出した結果を例示している。
S206においては図6Gに示したように切り出された文字列クラスCの出現頻度Tiが計算され、データテーブルT27が作成されRAM領域に格納される。図においては出現頻度Tiの例は、必要限度にとどめている。そしてS207においては図6Hに示したように辞書順にソートされるが、先頭文字が同一のものについては上位文字列クラスが先に下位文字列クラスが後の配列となるようにソートされてRAM領域に格納される。また同一文字列クラスC(図6G参照)は統合されてRAM領域に格納される。このとき図6Hに示したように文字列クラスCが格納されている位置情報L(例えば、「固有の番号」)も付加される。なお包含関係については既に説明したがここでもう一度言及しておくと、「ボー」と「ボード」との関係をいうものであり、この場合「ボー」が下位文字列クラス、「ボード」が上位文字列クラスとなる関係をいう。
S208においては文字列クラスCの出現頻度Tiが所定の閾値T1より小さいか否かが判断され、所定の閾値T1より出現頻度Tiが小さいときにはその文字列クラスCは除外され、残りの文字列クラスCが選択される。この除外は例えば図6Hに示したデータテーブルT27に除外するかしないかを示すフラグを立てることによりなされる。例えば、「T1=5」としたときは、C34の文字列クラス「熱暴走」が除外対象となり、「除外」の列にフラグ「1」が立てられる。
これに代えて、フラグを立てずに、除外する文字列クラスCを除いてデータテーブルT27と同様のテーブルを作成しなおしてもよい。このように出現頻度Tiが少ない文字列クラスを除外するのは、このような文字列クラスは無意味な場合が多いことが統計的に判明していることに基づく。ここで閾値T1の決め方であるが、例えば定数とすることもできるし、出現頻度Tiの全文字列クラス数Cの出現頻度の総数に対する割合とすることもできる。
[S300における詳細処理]
次に図5Dを参照して重要語抽出処理について説明する。
S301においては、カウンタiが0に設定され、文字列クラスC総数jが設定される。図6Hの例では除外された文字列クラスCが除外されて総数jとして設定されるため、例えば、「36−X(X:除外された文字列クラス総数)」が設定される。
S302においては、「処理対象となる文字列クラスC(i番目の文字列クラスC)」が「一つ前に処理対象とされた前回読み込んだ文字列クラスC((i−1)番目の文字列クラスC)」と包含関係にあるか否かが判断される。さて包含関係にないと判断されると(S302:NO)、S305においてi番目の文字列クラスCは独立クラスとして重要語辞書DB8に登録される。重要語辞書DB8に登録されるときのデータ構造は例えばデータテーブルT20に示したものが用いられる。
一方、包含関係にあると判断されると(S302:YES)、S303において包含関係にある文字列クラスどうしで頻度比Gapが所定の閾値T2より小さいか否かが判断される。数1に基づいて演算を行った結果、閾値T2より小さいと判断されると(S303:YES)、最長一致法に基づき上位文字列クラスCに下位文字列クラスCが圧縮され(S304)、下位文字列クラスCは上位文字列クラスCと見なして重要語辞書DB8へ登録される(S305)。
そしてS305の処理がなされた後は、S306及びS307を介してS302に戻り、次の「(i+1)番目の文字列クラス」についての処理がなされる。
図6Hの例ではS206において「カウンタi←(36−X)(X:除外された文字列クラス総数)」となるまでS302からS307の処理が繰り返し行われる。
図5Dの処理について図7を参照して更に説明する。図7はデータテーブルT28からどのように重要語Wが抽出されるのかを概念的に示したものである。まず閾値T1を「T1=5」とし、閾値T2を「T2=2.0」とする。
例えば文字列クラスC1とC2とを比較すると、これらは包含関係にあるため数1により計算するとGap(C1,C2)=|log8/8|=0<閾値T2となるため、文字列クラスC2は文字列クラスC1に圧縮されて、文字列クラスC1と見なして重要語辞書DB8へ登録される。「13ランバス」は「13ランバス加熱」として登録される。
また例えば文字列クラスC2とC3とを比較すると、これらは包含関係にないため文字列クラスC3はそのまま独立クラスと見なして重要語辞書DB8へ登録される。
また例えば文字列クラスC20とC21とを比較すると、これらは包含関係にあるため数1により計算するとGap(C20,C21)=|log8/1000|=2.096>閾値T2となるため、文字列クラスC21は文字列クラスC1に圧縮されることなくそのまま独立クラスとして重要語辞書DB8へ登録される。
[重要語辞書DBの再構成]
再構築部9においては知識関連付けとして、図8Aに示したようにインデックスDB10の構築(S400)と、重要度DB11の構築(S500)とが行われる。
[S400における詳細処理]
再構築部9におけるインデックスDB10の構築について図8Bを参照して説明する。
S401においては図5Aから図5Dのフローチャートの処理によって抽出された重要語Wと位置情報Lとが図7に示したデータテーブルT29から取り出される。そしてデータテーブルT30a、T30bが例えばハッシュ構造で作成され、インデックスDB10として格納される(図2D参照)。
[S500における詳細処理]
次に再構築部9における重要度DB11の構築について図8Cを参照して説明する。
まずS501においてカウンタiに初期値0が設定されるとともに、全データ数jに重要語Wの総数が設定される。次にS502とS503においてそれぞれ共起頻度Ciと出現頻度Tiとが求められる。共起頻度CiはデータテーブルT30aを参照して、ある重要語Wが出現する位置情報L(例えば、「固有の番号」や「セル番号」)を得た後、データテーブルT30bを参照することにより、これらの位置情報L(例えば、「固有の番号」や「セル番号」)で示される位置に含まれる他の重要語Wの種類の総数を数えることにより求められる。従って、共起するパターンが何度出てきてもそれは1通りとしてカウントされる。出現頻度TiはデータテーブルT30aの重要語Wごとの位置情報Lがいくつあるかに基づいてカウントすることにより求めることができる。
S504においては重要度Wiが数2に基づいて計算され、S505においては重要語Wと重要度Wiとが図2Dに示したデータテーブルT40a、T40bに格納される。S502からS506までの処理が重要語Wの総数分行われる。以上のようにして構築されたインデックスDB10と重要度DB11は、例えば一般ユーザによる検索に用いられる。
以上の説明では「トラブル事象」に属するフィールドのデータについての処理を例として説明したが、「トラブル事象」以外のフィールド(例えば、「原因」、「処置」、「対策」)について重要語辞書DB、インデックスDBを構築する場合も同様にして行うことができる。
[検索モジュールCを用いた検索]
一般ユーザが入出力装置(コンピュータ)2からトラブル保全管理支援プログラムを起動させると、図3Aの起動画面SC1が表示される。そして図9Aに示したように検索質問文qの入力と検索キーの切り出し処理(S600)、参照及び演算処理(S700)、検索結果の出力処理(S800)がなされる。
[S600における詳細処理]
図9Bを参照して検索質問文qの入力と検索キーの切り出し処理について説明する。
(1)起動時における検索キーSの切り出し(図3A)の場合
起動時においては、図3Aの起動画面SC1が表示され、一般ユーザからユーザ入力欄23に検索質問文qが入力される。そして実行ボタン24が押されると(S601:YES)、S606に進む。
起動画面SC1上で図9Dに示したように一般ユーザにより、例えば、「CL13フリーズ」というデータが入力されたとすると(検索範囲としては起動画面SC1では「トラブル事象」というフィールドが自動的に選択される)、検索質問文qとして「CL13フリーズ」という文字列が取得される。そしてS607においては、インデックスDB10のデータテーブルT30aが参照され、当該インデックスDB10に格納された重要語Wと一致する一致文字列が、一般ユーザによって入力された検索質問文qの全体又は一部に含まれるか否かが判断され、含まれると判断されると当該一致文字列が検索キーSとして切り出される。ここでは「CL13」と「フリーズ」とが切り出される。
(2)起動時以降における検索キーSの切り出し(図3B)の場合
起動時以降においては、図3Bなどに示した検索画面SC2が表示され、一般ユーザからユーザ入力欄23に検索質問文qが入力され、フィールド選択欄25で検索範囲とするフィールドが選択される。フィールド選択欄25で何も選択されなければそのとき選択されているフィールドが引き続き選択される。そして実行ボタン24が押されると(S601:NO、S602:NO、S604:NO)、S606に進む。なおここでは「トラブル事象」が選択フィールドとして選択されているとする。
検索画面SC2上で図9Dに示したように一般ユーザにより、例えば、「CL13フリーズ」というデータが入力されたとすると、検索質問文qとして「CL13フリーズ」という文字列が取得される。そしてS607においては、インデックスDB10のデータテーブルT30aが参照され、当該インデックスDB10に格納された重要語Wと一致する一致文字列が、キーボードやマウスによってユーザから入力された検索質問文qの全体又は一部に含まれるか否かが判断され、含まれると判断されると当該一致文字列が検索キーSとして切り出される。ここでは「CL13」と「フリーズ」とが切り出される。
(3)起動時以降における選択フィールドの内容表示の場合
次に起動後における処理について説明する。図3Bなどに示した検索画面SC2が表示された状態で一般ユーザによっていずれかの含有セル内容26bがダブルクリックされたとすると(S601:NO、S602:YES)、S603に進み、ダブルクリックされたトラブル事象に属する含有セル内容26bが含まれるレコードの当該含有セル以外のセル内容、すなわち、原因、処置、対策などのフィールドに属する非含有セル内容27cが結果表示27の一番上の位置に表示される。二番目以降は表示可能な数だけ、レコードの含有セル内容26bに対応する非含有セル内容27cが順次表示される。
(4)起動時以降−逆引き検索における検索キーSの切り出し
次に逆引き検索の処理について説明する。図3Bなどに示した検索画面SC2が表示された状態で一般ユーザによっていずれかの非含有セル内容27c、例えば図3Bの「トラニオン調整不良」を選択してこれがダブルクリックされたとすると(S601:NO、S602:NO、S604:YES)、S605に進む。S605においては「トラニオン調整不良」が属するフィールドとして「原因」が選択フィールドとして自動的に設定される。すなわち、フィールド選択欄25を原因にしなくても自動的に「原因」が選択フィールドとして自動的に設定される。
そしてS608に進み、ユーザ入力欄23に「トラニオン調整不良」が検索質問文qとして設定され、当該「トラニオン調整不良」が格納されている位置情報Lが取得される。そしてS608においては、位置情報LをキーとしてインデックスDB11のデータテーブルT30bを参照し、検索質問文qに含まれる重要語Wが検索キーSとして切り出される。
なお、非含有セル内容27cが属するフィールドは、一回限り選択フィールドとして設定されるのみで、フィールド選択欄25から選択フィールドが設定された場合にのみ引きづつきそのフィールドが選択されるようにしてもよい。
[S700における詳細処理]
S700の処理では、S607又はS609において切り出された検索キーSとインデックスDB10中の重要語Wとが照合される(S701)。そしてS702においては検索キーSと一致する重要語Wの位置情報L(例えば、「固有の番号」や「セル番号」)が参照されるが、このとき重要語Wが複数含まれている場合には、そのうちの重要語Wが一つでも一致したときには位置情報Lが参照される。例えば検索質問文q={CL13フリーズ}である場合には、重要語Wとして「CL13」と「フリーズ」が取り出され、「CL13」と「フリーズ」のうち一つでも含まれている位置情報Lが参照される。位置情報Lは、類似度simを求めるのに用いられる。
次にS703においては「参照した位置情報Lで示される位置に含まれる全ての重要語W」について重要度DB11が参照される。すなわち、選択フィールドたる「トラブル事象」に属するセルのうち検索キーSを含むセル(含有セル)の重要度DB11が参照される。そして「参照した位置情報Lで示される位置のセル(すなわち、含有セル)に含まれる全ての重要語W」を要素とし、数2により求められた重要度Wiをその値とする索引ベクトルViが作成される。その例を図9D(2)に示す。この例の場合にはデータテーブルT40aから要素となる重要語Wの重要度Wiが参照され、S704においては索引ベクトルVi1={10,10,50}、索引ベクトルVi2={10,100,50}が作成される。
また一般ユーザにより手入力された検索質問文qについては、S701の処理で一致した重要語Wを要素としその重要度Wiをその値とする検索キー群ベクトルVsが作成される。その例を図9D(1)に示す。この例の場合にはS703においてデータテーブルT40bから要素となる重要語Wの重要度Wiが参照され、S705においては検索キー群ベクトルVs={10,50}が作成される。一方、逆引き検索によりインデックスDBから取得された検索質問文qについては「S608で参照した位置情報Lで示される位置に含まれる全ての重要語W」について重要度DB11が参照され、「そのセルに含まれる全ての重要語W」を要素とし、数2により求められた重要度Wiをその値とする検索キー群ベクトルVsが作成される。
S706においては余弦尺度を用いて検索質問文qと重要語Wとの類似度simが数3に基づいて判断される。この類似度simの値が大きい方が優先順位が高く低い方が優先順位が低く設定される。上記の例の場合には次の数4のような式となる。
Figure 0004572265
S707においては、類似度simが同じ値になったものがあるかないかが判断され、同じ値になったものがあると判断された場合には(S707:YES)、出現頻度Ti又は文字列クラスの一致度(%)によって優先順位が決定される。上記の例では索引ベクトルVi2に係る特定データDTの方が優先順位が高いと判断され、S708を飛ばしてS709に進み、類似度simを必要な位置情報Lとしてのセル番号全てについて求め終わると、類似度simの順に位置情報LがRAM領域に記憶される。
[S800における詳細処理]
S709において記憶された優先順位に従ってRDB1から表示対象となる位置情報Lに係るレコード(行)のデータが順次読み出される(S801)。そして、S802においてはユーザからのフィードバックを反映させるべく、図3Fのようにチェック欄26eにチェックが付されていないか否かが判断される。チェックが付されていなければ(S802:NO)、S803に進み、優先順位に基づいてRDB1から読み出されたデータが図3B〜Eのように表示される(S803)。一方、表示された状態が図3Fのチェック欄26eのチェックがない状態である場合に、ユーザによってチェックが付され、実行ボタン24が押されると、図3Gのようにチェックが付されたトラブル事象については省略して表示される(S804)。
以上説明した本発明の一実施形態に係るトラブル保全管理支援システムによれば、RDB中の自然言語記述部である特定データDTを解析し再構成するため、既存のRDBでは把握できなかった関連性や知識を導き出すことができ、これを参照することができるようになる。例えば類似度simの計算により特定データDT相互の関係を数値で見出したり、サフィックスアレイを利用した重要語Wの抽出により、システム特有の専門用語が必ずサポートされるという効果がある。
本実施形態によれば、形態素解析や既存の辞書情報を一切使用することなく、サフィックスアレイを用いて、重要語Wを抽出してDBを再構築して利用するため、分野や言語、専門性の差異や事前知識の有無を意識することなくDB知識の利用が可能となるという効果がある。例えば、ユーザは検索を行うに際して分類化や因果関係を事前に登録することなく既存DBから簡単に結果的に分類化された類似情報を抽出することができる。例えば、同一事象を別の表現で行った場合であっても同一とみなすことができる。そのため、情報を分類して登録する手間が不要となり、検索時間を節約できるという効果がある。すなわち、ダイレクトに欲しい情報を得ることができる。更に発生したトラブルについて、過去にどのような対応をしたかを迅速に見つけることができるためトラブル保全管理処理のスピードアップを図ることができ、人件費を節約することができるという効果がある。
本実施形態によれば、検索質問文と検索結果として抽出すべきデータとの類似度を演算して、検索結果として抽出すべきレコードが検索質問文と関連が強いと判断される順番で表示される。通常のDB検索では絞り込みすぎると検索結果の情報数が少なくなり、OR検索のように幅広く抽出すると情報量が多すぎるという不都合があるが、本実施形態によれば、表示順に従って必要なレコードだけを取得すればよいため、ストレスを感じることなく、結果的に分類化体系化したデータを得ることができるという効果がある。
本実施形態によれば、検索質問文に含まれる重要語が自動的に抽出されるため、検索質問文は業務日報に記述するような文章とすることができる。すなわち、検索質問文はDB構造やマスタデータの内容を気にすることなく設定でき、また重要語を予め登録する必要もないため、システムを知らない一般ユーザも有用性の高い情報を容易に得ることができるという効果がある。また、検索質問文の記述が多少異なっていてもその中に重要語が存在するか否かによって検索がなされるため、ほぼ同じ検索結果、近い類似度が得られるという効果がある。
本実施形態によれば、検索結果を検索質問文として設定することにより(逆引き検索)、選択フィールドや検索質問文を変えて手軽に検索することができるため、得ようとする情報と関連の深い情報を様々な視点で容易に得ることができるという効果がある。例えば、見つかった「原因」から同様の原因で他にはどんな「トラブル事象」が報告されているかということを容易に検索することができる。従って連想検索が可能となり人の思考に近い使い方が可能となるという効果がある。「以前どういう処置をとったか?」という情報を抽出したい場合には、見つかった「処置」からどんな「トラブル事象」が報告されているかを検索すればよい。
本実施形態によれば、対象となる既存DBは、限定されることはないため、フレキシブルに使用することができる。すなわち、既存DBに付加的に利用することができるし、インターネットを利用するための閲覧ソフトさえ備えていれば簡単に利用することができるので追加投資は不要となり、システム投資を抑えることができるという効果がある。
本発明に係る実績管理支援システム及び実績管理支援プログラムは、既存DBに格納された情報を有効活用するものであるため、生産業のみならず、プラント、病院ビル管理、自治体設備、インターネット取引設備、各種情報産業などの用途にも適用できる。
本発明の一実施形態に係るトラブル保全管理支援システムAの構成を示したブロック図である。 本発明の一実施形態に係るトラブル保全管理支援システムAのDB再利用モジュールBの構成を示したブロック図である。 RDB1に格納されているデータテーブルT10の一例を示した図である。 重要語辞書DB8に格納されているデータテーブルT20の一例を示した図である。 インデックスDB10に格納されているデータテーブルT30a、T30bの一例を示した図である。 重要度DB11に格納されているデータテーブルT40a、T40bの一例を示した図である。 本発明の一実施形態に係るトラブル保全管理支援システムAの起動画面の一例を示した図である。 本発明の一実施形態に係るトラブル保全管理支援システムAの一般ユーザによる検索画面の一例を示した図である。 本発明の一実施形態に係るトラブル保全管理支援システムAの一般ユーザによる検索画面の一例を示した図である。 本発明の一実施形態に係るトラブル保全管理支援システムAの一般ユーザによる検索画面の一例を示した図である。 本発明の一実施形態に係るトラブル保全管理支援システムAの一般ユーザによる検索画面の一例を示した図である。 本発明の一実施形態に係るトラブル保全管理支援システムAの一般ユーザによる検索画面の一例を示した図である。 本発明の一実施形態に係るトラブル保全管理支援システムAの一般ユーザによる検索画面の一例を示した図である。 本発明の一実施形態に係るトラブル保全管理支援システムAを構成する各モジュールとして用いられるコンピュータの構成の一例を示したブロック図である。 本発明の一実施形態に係るトラブル保全管理支援システムAのDB知識抽出処理の全体概略フローチャートである。 図5Aに示したステップS100のフローチャートである。 図5Aに示したステップS200のフローチャートである。 図5Aに示したステップS300のフローチャートである。 文字列クラスC切出しの説明図である。 文字列クラスC切出しの説明図である。 文字列クラスC切出しの説明図である。 文字列クラスC切出しの説明図である。 文字列クラスC切出しの説明図である。 文字列クラスC切出しの説明図である。 文字列クラスC切出しの説明図である。 文字列クラスC切出しの説明図である。 重要語Wの抽出の説明図である。 本発明の一実施形態に係るトラブル保全管理支援システムAのDB知識抽出又は知識検索の前準備ともいえる処理の全体概略フローチャートである。 図8Aに示したステップS400のフローチャートである。 図8Aに示したステップS500のフローチャートである。 本発明の一実施形態に係るトラブル保全管理支援システムAのDB知識検索処理の全体概略フローチャートである。 図10Aに示したステップS600のフローチャートである。 図10Aに示したステップS700のフローチャートである。 類似度simの計算を説明するための図である。 図10Aに示したステップS800のフローチャートである。
符号の説明
A トラブル保全管理支援システム
B DB再利用モジュール
C DB知識抽出モジュール
D DB知識検索モジュール

Claims (10)

  1. 一又は複数のフィールドからなるレコードを単位とするトラブル情報が格納された知識抽出対象データベース(以下単に「DB」とする)から当該トラブル情報を取り出して処理を行う実績管理支援システムであって、
    前記トラブル情報に含まれるサフィックスを取り出しソートしてサフィックス群を生成し、当該サフィックス群を構成する各サフィックス同士の比較を、先頭から順番に、連続する二つのサフィックスのそれぞれを構成する文字同士一文字ずつ順番に行い、その結果一致部分があれば一致している部分のうち最大重複文字列を文字列クラスとして切り出し文字列クラス群を生成する文字列クラス群生成手段と、
    切り出した文字列クラスをソートし、文字列クラスの出現頻度を数えて出現頻度を生成する文字列クラス出現頻度生成手段と、
    前記文字列クラス群を構成する各文字列クラスの出現頻度に基づいて文字列クラスを選択する文字列クラス選択手段と、
    メモリ領域から、処理対象となる文字列クラスと一つ前に処理対象とされた文字列クラスとを読み込み、これらの文字列クラスを参照し比較して含有関係を判断するように構成されるとともに、少なくとも、前記各文字列クラスが当該各文字列クラス以外の他の文字列クラスと包含関係にあるか否かに基づいて重要語を抽出し重要語辞書を構築する第一知識抽出/辞書構築手段、包含関係にある下位文字列クラスと上位文字列クラスそれぞれの出現頻度に基づいて当該下位文字列クラスを重要語として抽出し重要語辞書を構築する第二知識抽出/辞書構築手段、及び、包含関係にある下位文字列クラスと上位文字列クラスそれぞれの出現頻度に基づいて前記下位文字列クラスを前記上位文字列クラスの一部とし、前記上位文字列クラスを重要語として抽出し重要語辞書を構築する第三知識抽出/辞書構築手段のうちいずれかを含む知識抽出/辞書構築手段と、
    前記知識抽出/辞書構築手段により抽出された重要語と、当該重要語が前記知識抽出対象DBのどこに格納されているかを示しセル番号とセル内の位置から決定される位置情報とを含むインデックスを前記重要語又は前記位置情報をキーとして生成するインデックス生成手段と、
    任意の文字列が検索質問文として入力される検索質問文入力手段と、
    前記インデックスを参照することにより、当該インデックスに格納された重要語と一致する一致文字列を、当該検索質問文がその全体又は一部に含むか否かを判断し、当該一致文字列を検索キーとして切り出す検索キー生成手段と、
    前記検索キーを検索するのに前記知識抽出対象DBのどのフィールドを検索範囲とするかを選択するフィールド選択手段と、
    前記フィールド選択手段によって検索範囲として選択されたフィールド(以下単に「選択フィールド」という)を検出するフィールド検出手段と、
    前記選択フィールドに属するセルから前記検索キーを含むセル(以下単に「含有セル」という)を検索する検索手段とを備えたことを特徴とする実績管理支援システム。
  2. 前記重要語の出現頻度に基づいて当該重要語の重要度を求める重要度演算手段と、
    前記検索キーを要素とし、前記重要度演算手段により求められた重要度をその値とする検索キーベクトルと、前記検索手段により検索された前記含有セルに含まれる重要語を要素とし、前記重要度演算手段により求められた重要度をその値とする索引ベクトルとに基づいて当該含有セルの類似度を求める類似度演算手段とを備えたことを特徴とする請求項1に記載の実績管理支援システム。
  3. 当該含有セル以外のセルであって当該含有セルが含まれるレコードと同じレコードに含まれるいずれかのセル(以下単に「非含有セル」という)に格納されたデータを検索質問文として設定する連想検索設定手段を備え、
    前記検索キー生成手段は、前記インデックスを参照することにより、当該非含有セルに含まれる重要語を検索キーとして切り出すことを特徴とする請求項2に記載の実績管理支援システム。
  4. 前記含有セルに格納されたデータと、前記非含有セルに格納されたデータとを識別可能に表示する表示手段を備えたことを特徴とする請求項3に記載の実績管理支援システム。
  5. 前記表示手段は、前記類似度に基づいてデータを表示することを特徴とする請求項4に記載の実績管理支援システム。
  6. 一又は複数のフィールドからなるレコードを単位とするトラブル情報が格納された知識抽出対象データベース(以下単に「DB」とする)から当該トラブル情報を取り出してコンピュータに処理を行わせるための実績管理支援プログラムであって、
    コンピュータを、
    前記トラブル情報に含まれるサフィックスを取り出しソートしてサフィックス群を生成し、当該サフィックス群を構成する各サフィックス同士の比較を、先頭から順番に、連続する二つのサフィックスのそれぞれを構成する文字同士一文字ずつ順番に行い、その比較結果に一致部分があれば一致している部分のうち最大重複文字列を文字列クラスとして切り出し文字列クラス群を生成する文字列クラス群生成手段、
    切り出した文字列クラスをソートし、文字列クラスの出現頻度を数えて出現頻度を生成する文字列クラス出現頻度生成手段、
    前記文字列クラス群を構成する各文字列クラスの出現頻度に基づいて文字列クラスを選択する文字列クラス選択手段、
    メモリ領域から、処理対象となる文字列クラスと一つ前に処理対象とされた文字列クラスとを読み込み、これらの文字列クラスを参照し比較して含有関係を判断するように構成されるとともに、少なくとも、前記各文字列クラスが当該各文字列クラス以外の他の文字列クラスと包含関係にあるか否かに基づいて重要語を抽出し重要語辞書を構築する第一知識抽出/辞書構築手段、包含関係にある下位文字列クラスと上位文字列クラスそれぞれの出現頻度に基づいて当該下位文字列クラスを重要語として抽出し重要語辞書を構築する第二知識抽出/辞書構築手段、及び、包含関係にある下位文字列クラスと上位文字列クラスそれぞれの出現頻度に基づいて前記下位文字列クラスを前記上位文字列クラスの一部とし、前記上位文字列クラスを重要語として抽出し重要語辞書を構築する第三知識抽出/辞書構築手段のうちいずれかを含む知識抽出/辞書構築手段、
    前記知識抽出/辞書構築手段により抽出された重要語と、当該重要語が前記知識抽出対象DBのどこに格納されているかを示しセル番号とセル内の位置から決定される位置情報とを含むインデックスを前記重要語又は前記位置情報をキーとして生成するインデックス生成手段、
    任意の文字列が検索質問文として入力される検索質問文入力手段、
    前記インデックスを参照することにより、当該インデックスに格納された重要語と一致する一致文字列を、当該検索質問文がその全体又は一部に含むか否かを判断し、当該一致文字列を検索キーとして切り出す検索キー生成手段、
    前記検索キーを検索するのに前記知識抽出対象DBのどのフィールドを検索範囲とするかを選択するフィールド選択手段、
    前記フィールド選択手段によって検索範囲として選択されたフィールド(以下単に「選択フィールド」という)を検出するフィールド検出手段、
    前記選択フィールドに属するセルから前記検索キーを含むセル(以下単に「含有セル」という)を検索する検索手段として機能させるための実績管理支援プログラム。
  7. コンピュータを、
    前記重要語の出現頻度に基づいて当該重要語の重要度を求める重要度演算手段、
    前記検索キーを要素とし、前記重要度演算手段により求められた重要度をその値とする検索キーベクトルと、前記検索手段により検索された前記含有セルに含まれる重要語を要素とし、前記重要度演算手段により求められた重要度をその値とする索引ベクトルとに基づいて当該含有セルの類似度を求める類似度演算手段として機能させるための請求項6に記載の実績管理支援プログラム。
  8. コンピュータを、
    当該含有セル以外のセルであって当該含有セルが含まれるレコードと同じレコードに含まれるいずれかのセル(以下単に「非含有セル」という)に格納されたデータを検索質問文として設定する連想検索設定手段として機能させるととともに、
    前記検索キー生成手段を、前記インデックスを参照することにより、当該非含有セルに含まれる重要語を検索キーとして切り出すものとして機能させることを特徴とする請求項7に記載の実績管理支援プログラム。
  9. コンピュータを、
    前記含有セルに格納されたデータと、前記非含有セルに格納されたデータとを識別可能に表示する表示手段として機能させるための請求項8に記載の実績管理支援プログラム。
  10. 前記表示手段を、前記類似度に基づいてデータを表示するものとして機能させることを特徴とする請求項9に記載の実績管理支援プログラム。
JP2003294851A 2003-08-19 2003-08-19 実績管理支援システム及び実績管理支援プログラム Expired - Fee Related JP4572265B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003294851A JP4572265B2 (ja) 2003-08-19 2003-08-19 実績管理支援システム及び実績管理支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003294851A JP4572265B2 (ja) 2003-08-19 2003-08-19 実績管理支援システム及び実績管理支援プログラム

Publications (2)

Publication Number Publication Date
JP2005063284A JP2005063284A (ja) 2005-03-10
JP4572265B2 true JP4572265B2 (ja) 2010-11-04

Family

ID=34371261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003294851A Expired - Fee Related JP4572265B2 (ja) 2003-08-19 2003-08-19 実績管理支援システム及び実績管理支援プログラム

Country Status (1)

Country Link
JP (1) JP4572265B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007057843A (ja) 2005-08-24 2007-03-08 Sony Corp 光学素子
JP6510125B1 (ja) * 2018-07-11 2019-05-08 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
JP2005063284A (ja) 2005-03-10

Similar Documents

Publication Publication Date Title
CN100535898C (zh) 问答式文献检索系统和方法
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
US7912849B2 (en) Method for determining contextual summary information across documents
US7644047B2 (en) Semantic similarity based document retrieval
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
US20020002450A1 (en) Article and method of automatically filtering information retrieval results using text genre
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Manaf et al. Comparison of carp rabin algorithm and Jaro-Winkler distance to determine the equality of Sunda languages
JP2006163941A (ja) 重複レコード検出システム、および重複レコード検出プログラム
Yehia et al. Text mining and knowledge discovery from big data: challenges and promise
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP4572265B2 (ja) 実績管理支援システム及び実績管理支援プログラム
JP7264115B2 (ja) 情報検索システム
JP4362492B2 (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP2000105769A (ja) 文書表示方法
Mallek et al. Automatic detection of variable data in web document: Graphical representation on demand
Thambi et al. Graph based document model and its application in keyphrase extraction
Bhaskar et al. Theme based English and Bengali ad-hoc monolingual information retrieval in fire 2010
CN112559768B (zh) 一种短文本图谱化及推荐方法
JP2005032179A (ja) データベース知識抽出システム、データベース知識検索システム並びにデータベース知識抽出プログラム、データベース知識検索プログラム
Guetari et al. Graphics on demand: the automatic data visualization on the WEB
JP7027687B2 (ja) 判定支援プログラム、検索プログラム、情報処理装置、判定支援方法、および検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060809

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060809

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061110

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20061221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees