JP2006031194A - 検索システム、検索方法、報告システム、報告方法、及びプログラム - Google Patents

検索システム、検索方法、報告システム、報告方法、及びプログラム Download PDF

Info

Publication number
JP2006031194A
JP2006031194A JP2004206567A JP2004206567A JP2006031194A JP 2006031194 A JP2006031194 A JP 2006031194A JP 2004206567 A JP2004206567 A JP 2004206567A JP 2004206567 A JP2004206567 A JP 2004206567A JP 2006031194 A JP2006031194 A JP 2006031194A
Authority
JP
Japan
Prior art keywords
concept
document data
search
document
search sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004206567A
Other languages
English (en)
Other versions
JP4587163B2 (ja
Inventor
Hiroshi Nomiyama
野美山 浩
Daisuke Takuma
大介 宅間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2004206567A priority Critical patent/JP4587163B2/ja
Priority to US11/180,328 priority patent/US7571383B2/en
Publication of JP2006031194A publication Critical patent/JP2006031194A/ja
Application granted granted Critical
Publication of JP4587163B2 publication Critical patent/JP4587163B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索文の内容を適切に反映して文書データを検索すると共に、順次追加される文書データから適切に問題発生を検出する。
【解決手段】複数の文書データから、検索文の内容を含む文書データを検索する検索システムであって、複数の文書データを記憶する文書データベースと、階層構造により複数の概念を記憶する概念データベースと、それぞれの文書データに含まれるキーワードに基づいて、当該文書データに対応する文書概念を抽出する文書データ概念抽出部と、検索文に含まれるキーワードに基づいて検索文概念を抽出する検索文概念抽出部と、複数の文書データのそれぞれのうち、検索文概念が文書概念の上位階層又は下位階層の概念となる文書データを検索する概念検索部と、概念検索部により検索された文書データを、検索文により指定される内容を含む文書データとして出力する検索結果出力部とを備える検索システムを提供する。
【選択図】図1

Description

本発明は、検索システム、検索方法、報告システム、報告方法、及びプログラムに関する。特に本発明は、複数の文書データから文書データを検索し、特定の概念を有する文書データの数が増加していることを報告する検索システム、検索方法、報告システム、報告方法、及びプログラムに関する。
従来、複数の文書データから、入力された検索文により指定される内容を含む文書データを検索する検索システムとして、文書データ中に検索文自体が完全に含まれていなくても、検索意図を反映して適切な文書を検索する検索システムが研究されている。このような検索システムは、例えば製品の製造メーカにおいて、コールセンターに寄せられた製品についての問い合わせ及び問い合わせに対する回答を文書データとしてテキスト化したコールログデータベースを作成し、このデータベースを活用して問い合わせに対する回答を適切に行うための支援システムの基本技術として活用できる(非特許文献5参照。)。
このような検索システムの一例として、検索に用いる検索文や文書データから自立語のキーワードを抽出する際に曖昧性を考慮するものが提案されている(非特許文献1、2及び6参照。)。また、検索をより正確に行うため、キーワードとして、付属語で表現される意味を組み込むものが提案されている(非特許文献5参照。)。更に、検索文や文書データ中にキーワードが含まれるか否かのみでなく、単語間の係り受けを考慮するものが提案されている(非特許文献4、特許文献1及び2参照。)。また、質問文に対する答えを出力するシステムとして、質問に対する正解例に基づいて学習するものが提案されている(非特許文献3参照。)。
また、企業にとって、顧客との信頼関係を確立し、製品の品質や顧客サポートを更に向上していくことが重要である。このため、企業において、製品やサービス上の問題を早期発見することが望まれており、この問題発見の手段としてコールセンターのコールログを活用することが期待される。
このように順次蓄積される情報から問題を検知する方法としては、非特許文献7が提案されている。また、このような方法の一例として、文書ストリーム中において特定のキーワードに関する文書の入力間隔が小さくなっている部分を判定して問題を検知するシステムが提案されている(非特許文献8参照。)。更に、この判定において時間当たりの書き込み数を考慮するもの(非特許文献9参照。)や、特定のトピックの出現回数がしきい値を超えた場合に警告を発するもの(非特許文献10参照。)や、キーワードの頻度が増加したことを検知し急騰話題を抽出するもの(非特許文献11参照。)等が提案されている。また、製品等における既知の不具合の事例を用いて予測的解析を行うものが提案されている(非特許文献12参照。)。
特開平11−259524号公報 特許3266586号公報 JUSTSYSTEM、「ConceptBase 技術とは」、[online]、平成15年7月30日、JUSTSYSTEM、[平成16年6月30日検索]、インターネット<URL: http://www.justsystem.co.jp/km/whats/search_q_104.html> NRI、「サービスについて(NRIサイバーパテント)」、[online]、[平成16年6月30日検索]、インターネット<URL: http://www.patent.ne.jp/01gaiyo/s-point/06.html> 佐々木他、「SVMを用いた学習型質問応答システムSAIQA-II」、情報処理学会論文誌、Vol. 45、No 02、2004年 松村他、「単語間の係受け関係を用いた情報検索手法の評価」、情報処理学会論文誌、Vol. 41、No. SIG01-003、2000年 T. Nasukawa and T. Nagano, "Text analysis and knowledge mining system", IBM Systems Journal, Vol. 40, No. 4, 2001年 Autonomy, "Conceptual Search", [online], [平成16年6月30日検索]、インターネット<URL: http://www.autonomy.com/c/content/Products/IDOL/f/Conceptual_Search> T. Fawcett and F. Provost, "Activity monitoring: Noticing interesting changes in behavior.", In Proc. Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 53--62, 1999年 Jon Kleinberg, "Bursty and hierarchical structure in streams", In Proc.The 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2002年 藤木 稔明,南野 朋之,鈴木 泰裕,奥村 学、「document streamにおけるburstの発見」、情報処理学会研究報告、2004-NL-160、p.85-92 山西健司、「テキストマイニングとNLPビジネス」、[online]、NEC、[平成16年6月30日検索]、インターネット<URL:http://it.jeita.or.jp/eltech/committee/knowledge/PDF/2003/Yamanishi.pdf 野村総合研究所、「True Tellerとは?」、[online]、[平成16年6月30日検索]、インターネット<URL: http://www.trueteller.net/about/index.shtml> JUSTSYSTEM、「Alize」、[online]、[平成16年6月30日検索]、インターネット<URL: http://www.justsystem.co.jp/km/ssm>
このような分野においては、コールを受けたスタッフが問い合わせの内容を検索文として入力し、検索意図に沿った文書データを効率良く検索することが望まれる。
キーワード抽出において曖昧性を考慮する検索システムにおいて、キーワードとして自立語のみを対象とした場合、例えば「ハードディスクを認識しない」という検索文から「ハードディスク」及び「認識」が抽出される。この結果、「認識しない」という検索意図が欠落し、「認識する」という文書データまでも検索されてしまう。
また、キーワードとして付属語を考慮した場合、「ハードディスクを認識しない」という検索文から「ハードディスク」及び「認識[否定]」が抽出され、「認識しない」という検索意図が反映される。しかし、指定されたキーワードが文書中に現れる否かに基づいて検索されるため、「CD−ROMは認識できないが、ハードディスクは認識する」という文書データが検索されてしまう。
また、単語間の係り受けを考慮した場合であっても、検索意図を表現する様々な表現形式、例えば「ハードディスクが認識できない」や「ハードディスクが見えない」等の表現形式を一致させるのが困難である。なぜなら、各単語を類義語の範囲で拡張して検索文を意味的に解析したとしても、「ハードディスクが見えない」等の特定の状況でのみ使用する表現(単語の組み合わせ)を適切に区別できないためである。
更に、問題発見の手段としてコールセンターのコールログを活用する場合、単語ベースの処理においては個々の問題を表現する単語が少なく問題の切り分けが困難である。また、増加が報告されたキーワードによりどのような問題が生じているかを判別することができない。また、新たな製品については、全ての問題についてのコール数が増加する傾向となるが、このような状況において特定の問題を早期に発見することが難しい。
そこで本発明は、上記の課題を解決することのできる検索システム、検索方法、報告システム、報告方法、及びプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
本発明の第1の形態によると、複数の文書データから、入力された検索文により指定される内容を含む文書データを検索する検索システムであって、前記複数の文書データを記憶する文書データベースと、一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、前記検索文に含まれるキーワードに基づいて、前記検索文に対応する前記概念である検索文概念を抽出する検索文概念抽出部と、前記複数の文書データのそれぞれのうち、前記検索文概念が前記文書概念の上位階層又は下位階層の概念となる前記文書データを検索する概念検索部と、前記概念検索部により検索された前記文書データを、前記検索文により指定される内容を含む前記文書データとして出力する検索結果出力部とを備える検索システムと、当該検索システムに関する検索方法、プログラム及び記録媒体とを提供する。
本発明の第2の形態によると、複数の文書データが順次入力される報告システムであって、入力された文書データを順次記憶する文書データベースと、一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、前記文書データベース内の前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する概念比率算出部と、それぞれの前記概念に対応する基準比率に対する、前記概念比率算出部により算出された比率の大きさを示す相対頻度を算出する相対頻度算出部と、前記複数の概念のうち、前記相対頻度が予め定められたしきい値以上となる前記概念を選択する多頻度概念選択部と、前記多頻度概念選択部が選択した第1の前記概念と、前記第1の概念の上位階層の第2の前記概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択する優先概念選択部と、前記第1の概念又は前記第2の概念のうち、前記優先概念選択部により選択された前記概念の相対頻度が高くなっていることを、使用者へ通知する通知部とを備える報告システムと、当該報告システムに関する報告方法、プログラム及び記録媒体とを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によれば、検索文の内容を適切に反映して文書データを検索すると共に、順次追加される文書データから適切に問題発生を検出することができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本発明の実施形態に係る検索システム10の構成を示す。検索システム10は、複数の文書データから、利用者等により入力された検索文により指定される内容を含む文書データを適切に検索する。本実施形態において、検索システム10は、一例として、コールセンターに寄せられた製品についての問い合わせとその回答をテキスト化した文書データを検索するものである。
検索システム10は、文書DB100と、概念DB105(概念データベース)と、製品DB106(製品データベース)と、構成要素DB107(構成要素データベース)と、辞書DB110(辞書データベース)と、類義語DB115(類義語データベース)と、文書データ正規化部120と、概念抽出規則DB125と、文書データ概念抽出部130と、検索インデクスDB135(検索インデクスデータベース)と、検索文正規化部140と、検索文概念抽出部145と、概念検索部150と、概念選択支援部155と、検索結果出力部160とを備える。
文書DB100は、複数の文書データを記憶する。本実施形態において、文書DB100は、製品についての複数の不具合のそれぞれについて、当該不具合の内容を示す、例えば製品の使用者からの問い合わせと問い合わせに対する回答との内容を含む文書データを記憶する。この文書データは、問い合わせ及び回答が行われる度に順次蓄積されていく。
概念DB105は、一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する。ここで、概念とは、検索システム10の製造者又は使用者により予め定義され、検索システム10が扱う文章の意味内容を体系的に分類した個々の情報である。本実施形態に係る概念DB105は、製品についての複数の不具合を特定する複数の概念を記憶する。
製品DB106は、複数の製品の製品名の包含関係を階層構造により記憶する。構成要素DB107は、製品の各構成要素の包含関係を階層構造により記憶する。辞書DB110は、単語の品詞や正規表現等を記述した辞書を記憶する。類義語DB115は、予め定められた語句と、当該語句の類義語であるキーワードとの対応付けを記憶する。
文書データ正規化部120は、辞書DB110を用いて、文書DB100に記憶されたそれぞれの文書データの形態素解析及び構文解析を行う。また、文書データ正規化部120は、類義語DB115を用いて、それぞれの文書データに含まれる語句を、当該語句の類義語であるキーワードに置換することにより、当該文書データを正規化する。
概念抽出規則DB125は、1又は複数のキーワードと、当該1又は複数のキーワードの意味内容を示す概念との組を含む概念抽出規則を記憶する。文書データ概念抽出部130は、それぞれの文書データに含まれるキーワードに基づいて、当該文書データに対応する概念である文書概念を抽出する。本実施形態に係る文書データ概念抽出部130は、文書データに含まれる1又は複数のキーワードに対して概念抽出規則DB125に格納された概念抽出規則を適用し、1又は複数のキーワードに対応する概念に変換する。検索インデクスDB135は、それぞれの文書データについて、文書データ概念抽出部130により抽出された、当該文書データの文書概念と、当該文書データとの対応付けを記憶する。
検索文正規化部140は、文書データ正規化部120と同様にして、検索文の形態素解析及び構文解析を行うと共に、検索文を正規化する。検索文概念抽出部145は、文書データ正規化部120と同様にして、検索文に含まれるキーワードに基づいて、検索文に対応する概念である検索文概念を抽出する。
概念検索部150は、検索インデクスDB135を用いて、複数の文書データのうち、検索文概念に対応する文書概念を有する文書データを検索する。この際、概念検索部150は、複数の文書データのそれぞれのうち、検索文概念が文書概念の上位階層又は下位階層の概念となる文書データを検索する。概念選択支援部155は、検索システム10の使用者の指示に基づいて、検索文概念の上位概念化及び/又は下位概念化を支援する。
検索結果出力部160は、概念検索部150により検索された文書データを、検索文により指定される内容を含む文書データとして出力する。
以上に示した検索システム10によれば、予め定められた階層構造により概念の包含関係を体系化して定義しておき、検索文概念と文書概念の包含関係を考慮して文書データを検索することができる。これにより、検索文及び文書データを適切に概念にマッピングして、検索文の内容を適切に反映した検索を行うことができる。
図2は、本発明の実施形態に係る概念DB105が記憶する不具合の概念階層の一例を示す。
本実施形態に係る概念DB105は、一例として、ある物又は構成要素を特定する概念を上位階層とし、その物又は構成要素の状態等を説明する概念を下位階層とした階層構造を記憶する。
不具合の概念階層は、一の概念を意味的に包含する他の概念を一の概念の上位階層とする階層構造により、製品に発生し得る各不具合を特定する各概念を体系的にまとめたものである。例えば、図2の階層構造におけるノードである「ハードウェア」は、「ハードウェアに不具合がある」という意味内容の概念であり、「/不具合/ハードウェア」と表される。また、「ハードディスク」は、「ハードウェアの(一部である)ハードディスクに不具合がある」という意味内容の概念であり、「/不具合/ハードウェア/ハードディスク」と表される。
本実施形態において、下位階層の概念は、当該概念の上位階層の概念に意味的に包含される。例えば、「ハードウェアの(一部である)ハードディスクに不具合がある」を示す概念である「/不具合/ハードウェア/ハードディスク」は、「ハードウェアに不具合がある」を示す概念である「/不具合/ハードウェア」の一形態であり、下位階層の概念が成立する場合に上位階層の概念も成立する包含関係を有する。同様に、「ハードウェアの(一部である)ディスプレイがちらつく不具合がある」を示す概念である「/不具合/ハードウェア/ディスプレイ/ちらつき」は、「ハードウェアの(一部である)ディスプレイが不具合がある」を示す概念である「/不具合/ハードウェア/ディスプレイ」の一形態であり、上位概念に包含される。
また、本実施形態において、概念DB105は、製品の構成要素に不具合があることを示す概念(例えば「不具合/ハードウェア」)の下位階層に、当該構成要素の不具合の状態を示す概念(例えば「不具合/ハードウェア/騒音」)又は当該構成要素の一部分の構成要素を示す概念(例えば「不具合/ハードウェア/ハードディスク」を設けた階層構造により複数の概念を記憶する。
図3は、本発明の実施形態に係る製品DB106が記憶する製品の概念階層の一例を示す。
製品の概念階層は、複数の製品のそれぞれの製品名を示す概念の包含関係を階層構造により体系的にまとめたものである。本実施形態においては、不具合の概念階層と同様に、一の概念を包含する他の概念を一の概念の上位階層とする階層構造が用いられる。例えば、図3における「/製品/PC製品/ノート/シリーズA」は、「/製品/PC製品/ノート/シリーズA/モデルA1」及び「/製品/PC製品/ノート/シリーズA/モデルA2」を包含する総称的な製品名を示す概念である。
以上に示した製品の概念階層は、不具合についての階層構造とは異なる階層構造として概念DB105に記憶されてもよい。この場合、概念DB105は、 概念DB105は、複数の概念のそれぞれを、互いに異なる複数の階層構造(第1の階層構造、第2の階層構造、…)のいずれかのノードとして記憶する。
図4は、本発明の実施形態に係る構成要素DB107が記憶する構成要素の概念階層の一例を示す。
構成要素の概念階層は、製品を構成する各構成要素を示す各概念の包含関係を、階層構造により体系的にまとめたものである。本実施形態においては、不具合の概念階層と同様に、一の概念を包含する他の概念を一の概念の上位階層とする階層構造が用いられる。例えば、図4における「構成要素/ハードウェア」は、「構成要素/ハードウェア/ハードディスク」、「構成要素/ハードウェア/CPU」、「構成要素/ハードウェア/CDドライブ」、及び「構成要素/ハードウェア/キーボード」を包含する構成要素を示す概念となる。
以上に示した構成要素の概念階層は、不具合についての階層構造とは異なる階層構造として概念DB105に記憶されてもよい。
図5は、本発明の実施形態に係る検索システム10の動作フローを示す。
まず、文書データ正規化部120は、辞書DB110を用いて、文書DB100に記憶された各文書データの形態素解析及び構造解析等のテキスト解析を行う(S500)。次に、文書データ正規化部120は、テキスト解析の結果抽出された各語句を、当該語句の正書に対応するキーワードに置換して、文書データを正規化する(S505)。この際、文書データ正規化部120は、当該語句に対応して一意に定まる概念が辞書中に記録されていた場合、この概念を用いて正規化を行う。
次に、文書データ概念抽出部130は、それぞれの文書データに含まれるキーワードに基づいて、当該文書データの概念(文書概念)を抽出する(S510)。ここで、概念DB105が概念の階層構造を複数記憶している場合、文書データ概念抽出部130は、文書データに対応して、それぞれの階層構造について当該階層構造に属する文書概念を抽出する。すなわち例えば、概念DB105が各概念を第1の階層構造又は第2の階層構造のノードとして記憶している場合、文書データ概念抽出部130は、各文書データに対応して、第1の階層構造に属する第1の文書概念と、第2の階層構造に属する第2の文書概念とを抽出してもよい。また、文書データ概念抽出部130は、文書データに含まれるキーワードに基づいて、文書データに記述された製品名を示す文書概念、及び/又は、文書データに記述された構成要素を示す文書概念を更に抽出してもよい。そして文書データ概念抽出部130は、各文書データを識別する情報に当該文書データの文書概念を付加した検索インデクスを作成して検索インデクスDB135に格納する(S515)。
検索文が入力されると(S520)、検索文正規化部140は、文書データ正規化部120と同様にして、検索文のテキスト解析を行う(S525)。次に、検索文正規化部140は、検索文に含まれる語句を、当該語句の類義語であるキーワードに置換することにより検索文を正規化する(S530)。
次に、検索文概念抽出部145は、文書データ概念抽出部130と同様にして、検索文から検索文概念を抽出する(S535)。本実施形態において、検索文概念抽出部145は、S520において利用者により入力された、製品についての不具合を検索するための検索文に対応する検索文概念を抽出する。また、検索文概念抽出部145は、検索文に含まれるキーワードに基づいて、検索文に記述された構成要素を示す検索文概念、及び/又は、検索文に記述された製品名を示す検索文概念を更に抽出してもよい。
次に、概念検索部150は、検索文から抽出した検索文概念と、文書データから抽出した文書概念とに基づいて、文書データの概念検索を行う(S540)。より具体的には、概念検索部150は、文書概念が検索文概念と同一である場合や、文書概念が検索文概念の上位階層又は下位階層の概念となる場合に、当該文書データを検索文に対応する文書データとして選択する。この際、概念検索部150は、検索文概念が、検索文が入力される前に検索インデクスDB135に格納された文書概念の上位階層又は下位階層の概念となる場合に、当該文書概念に対応する文書データを検索結果として出力する。これにより、概念検索部150は、既に抽出された文書概念に基づいて検索を行うことができ、検索する度に各文書データから文書概念を抽出する場合と比較し検索を高速に行うことができる。
次に、検索結果出力部160は、概念検索部150により検索された文書データを検索結果として出力する(S545)。本実施形態に係る検索結果出力部160は、概念検索部150により検索された文書データを、利用者により入力された製品についての不具合の内容を示す文書データとして出力する。
そして、検索システム10は、次に検索文の入力を受けると、処理をS520へ進める。なお、新たな文書データが文書DB100に追加された場合、検索システム10は、処理をS500へ進めて、当該文書データから文書概念を抽出し、検索インデクスDB135へ格納する。
以上に示した検索システム10によれば、予め定められた階層構造により概念の包含関係を体系化して定義しておき、検索文概念と文書概念の包含関係を考慮して文書データを検索することができる。これにより、検索文及び文書データを適切に概念にマッピングして、検索文の内容を適切に反映した検索を行うことができる。このような機能は、製品に対する問い合わせ及び回答をデータベース化し、新たな問い合わせに対する対応に用いる場合のように、限られた種類の概念を正確に定義し、的確に検索可能とすることが望まれる場合に特に有効である。
図6は、本発明の実施形態に係る類義語DB115が記憶する正規化規則の一例を示す。
類義語DB115は、検索文及び文書データを正規化するために、図6に例示した正規化規則を記憶する。図6の正規化規則は、「電源を切る」又は「電源を落とす」という表現における「切る」又は「落とす」等の語句を、これらの類義語であるキーワード「遮断(する)」に置換して正規化するための規則である。文書データ正規化部120及び検索文正規化部140は、文書データ又は検索文の構文解析の結果、主語が「電源」、述語が「切る」又は「落とす」となる表現を検出した場合に、述語を「遮断(する)」に置換する。また、文書データ正規化部120及び検索文正規化部140は、単なる語句の置き換えだけでなく、「腹を立てる」を「怒る」に置換したり、「激怒する」を「非常に起こる」に置換する等の表現の正規化を、正規化規則に基づいて行ってもよい。そして、文書データ概念抽出部130は、正規化された文書データから文書概念を抽出し、検索文概念抽出部145は、正規化された検索文から検索文概念を抽出する。
このようにして、概念検索に先立って予め語句レベルで類義語を正規化することにより、検索文に対応する文書データの検索精度を高めることができる。
図7は、本発明の実施形態に係る概念抽出規則DB125が記憶する概念抽出規則の一例を示す。
概念抽出規則DB125は、検索文及び文書データから抽出する概念を予め定義するために、図7に例示した概念抽出規則を記憶する。ここで、概念抽出規則は、テキスト解析により得られた文章の構文(係り受け関係等)に基づいて、構文木中の1又は複数のキーワードを、当該1又は複数のキーワードの意味内容を示す概念に変換するための規則である。図7においては、「ハードディスクを認識できない」という文章から抽出されるキーワード「ハードディスク」及び「認識」と、「認識」の係り受け関係“否定”(hitei=“1”)とに基づいて、概念「/不具合/ハードウェア/ハードディスク」を抽出する規則を定めている。
文書データ概念抽出部130は、概念抽出規則DB125に格納されたいずれかの概念抽出規則に含まれる1又は複数のキーワードが文書データに含まれる場合に、当該概念抽出規則に含まれる概念を文書概念として抽出する。同様に、検索文概念抽出部145は、概念抽出規則DB125に格納されたいずれかの概念抽出規則に含まれる1又は複数のキーワードが検索文に含まれる場合に、当該概念抽出規則に含まれる概念を、検索文概念として抽出する。
以上において、キーワード、係り受け、及び、属性のみでなく、「問題」、「要望」などの総称的な語を用いて概念抽出規則を定義し、これらに基づいて文書データ概念抽出部130及び検索文概念抽出部145により概念の抽出を行ってもよい。すなわち例えば、文書データ概念抽出部130及び検索文概念抽出部145は、「ハードディスクの問題」から、概念「/不具合/ハードウェア/ハードディスク」を抽出してもよい。
また、概念抽出規則DB125は、不具合についての概念階層のみでなく、製品や構成要素の概念階層についての概念抽出規則を更に記憶してもよい。
以上の処理により、文書データ概念抽出部130及び検索文概念抽出部145は、「ノート・シリーズA・モデルA1でハードディスクを認識しない」という文章から、「不具合/ハードウェア/ハードディスク」、「製品/PC製品/ノート/シリーズA/モデルA1」、「構成要素/ハードウェア/ハードディスク」の3つの概念を抽出することができる。
このように、本実施形態に係る検索システム10によれば、1又は複数のキーワードとこれらの係り受け関係とに応じて、対応する概念を予め定義しておくことができる。これにより、自然言語の文章を、検索システム10の応用分野に応じて体系化された概念に適切に変換することができる。
図8は、本発明の実施形態に係る概念検索部150の構成を示す。概念検索部150は、同一概念出力部800と、上位概念取得部810と、汎化概念出力部820と、下位概念取得部830と、特化概念出力部840とを有する。
同一概念出力部800は、検索文概念が、文書概念と一致する場合において、検索文概念を特化しない場合に、当該文書データを検索結果として検索結果出力部160に出力する。上位概念取得部810は、検索文概念が、文書概念と一致しない場合に、検索文概念の上位階層の概念である検索文上位概念を取得する。汎化概念出力部820は、検索文上位概念が、文書概念と一致する場合に、当該文書データを検索結果として出力する。下位概念取得部830は、検索文概念を下位階層の概念である検索文下位概念に置換しても同一の文書データを検索できる場合に、検索文概念を検索文下位概念に置換する。特化概念出力部840は、検索文下位概念が文書概念と一致する文書データを検索結果として出力する。
図9は、本発明の実施形態に係る概念検索部150の動作フローを示す。
まず、概念検索部150は、検索文から抽出された1又は複数の検索文概念を受け取る。また、概念検索部150は、各文書データについて、当該文書データから抽出された1又は複数の文書概念を受け取る。そして、同一概念出力部800は、検索文概念が文書概念と一致する場合(S900:Yes)に、処理をS940へ進める。これにより、同一概念出力部800は、検索文概念を検索文下位概念に置換できないことを条件として(S945:No)、当該文書データを検索結果として検索結果出力部160に出力する(S910)。ここで、複数の階層構造に対応して複数の検索文概念及び複数の文書概念が抽出されている場合、同一概念出力部800は、検索文概念の全てが、いずれかの文書概念と同一である場合に、当該文書データを検索結果として出力する。例えば、「不具合/ハードウェア/ハードディスク」、「製品/PC製品/ノート/シリーズA/モデルA1」、及び「構成要素/ハードウェア/ハードディスク」の3つの検索文概念が抽出された場合、同一概念出力部800は、これら3つの概念の全てを文書概念として含む文書データを検索結果として出力する。
一方、上位概念取得部810は、検索文概念が文書概念と一致しない場合(S900:No)に、検索文上位概念を取得する(S920)。ここで、複数の検索文概念(例えば第1の検索文概念及び第2の検索文概念)が抽出された場合、上位概念取得部810は、第1の検索文概念及び第2の検索文概念が、第1の文書概念及び第2の文書概念とそれぞれ同一でない場合に、第1の検索文概念の上位階層の第1の検索文上位概念と、第2の検索文概念の上位階層の第2の検索文上位概念とを取得する。
本実施形態に係る上位概念取得部810は、構成要素に不具合があること又は構成要素の不具合の状態を示す、不具合の概念階層に属する検索文概念が存在する場合に、当該概念の上位階層となる概念を、検索文上位概念の1つとして取得する。また、構成要素の概念階層に属する検索文概念が存在する場合に、構成要素を示す検索文概念の上位階層となる概念を、検索文上位概念の1つとして取得する。また、製品の概念階層に属する検索文概念が存在する場合に、製品名を示す検索文概念の上位階層となる概念を、検索文概念の1つとして取得する。
例えば、「不具合/ハードウェア/ハードディスク」、「製品/PC製品/ノート/シリーズA/モデルA1」、及び「構成要素/ハードウェア/ハードディスク」の3つの検索文概念が抽出された場合、上位概念取得部810は、「不具合/ハードウェア」、「製品/PC製品/ノート/シリーズA」、及び「構成要素/ハードウェア」の3つの検索文上位概念を概念DB105、製品DB106、及び構成要素DB107から取得する。この結果、検索文は、検索文上位概念を用いて1階層分の汎化を行った場合、以下の3つに上位概念化される。
(1)第1の検索文上位概念「不具合/ハードウェア」、検索文概念「製品/PC製品/ノート/シリーズA/モデルA1」、及び検索文概念「構成要素/ハードウェア/ハードディスク」の組からなる概念
すなわち例えば、文書データ概念抽出部130が、文書データに含まれるキーワードに基づいて、一の構成要素に不具合があることを示す文書概念を抽出し、検索文概念抽出部145が、検索文に含まれるキーワードに基づいて、当該一の構成要素の一部に不具合があることを示す検索概念を抽出した場合、上位概念取得部810は、当該検索文概念の上位階層の概念である、一の構成要素に不具合があることを示す概念を検索文上位概念として取得する。
同様に、文書データ概念抽出部130が、文書データに含まれるキーワードに基づいて、一の構成要素に不具合があることを示す文書概念を抽出し、検索文概念抽出部145が、検索文に含まれるキーワードに基づいて、一の構成要素の不具合の状態を示す検索文概念を抽出した場合、上位概念取得部810は、検索文概念の上位階層の概念である、一の構成要素に不具合があることを示す概念を検索文上位概念として取得する。この結果、検索結果出力部160は、検索文上位概念と一致する、一の構成要素に不具合があることを示す文書概念を有する文書データを、検索結果として出力することができる。
(2)検索文概念「不具合/ハードウェア/ハードディスク」、第2の検索文上位概念「製品/PC製品/ノート/シリーズA」、及び検索文概念「構成要素/ハードウェア/ハードディスク」の組からなる概念
すなわち例えば、文書データ概念抽出部130が、文書データに含まれるキーワードに基づいて、一の製品名を示す文書概念を抽出し、検索文概念抽出部145が、検索文に含まれるキーワードに基づいて、当該製品名の下位階層の製品名を示す検索文概念を抽出した場合、上位概念取得部810は、検索文概念の上位階層の製品名に対応する概念を検索文上位概念として取得する。
(3)検索文概念「不具合/ハードウェア/ハードディスク」、検索文概念「製品/PC製品/ノート/シリーズA/モデルA1」、及び第3の検索文上位概念「構成要素/ハードウェア」
すなわち例えば、文書データ概念抽出部130が、文書データに含まれるキーワードに基づいて、一の構成要素を示す文書概念を抽出し、検索文概念抽出部145が、検索文に含まれるキーワードに基づいて、当該構成要素の一部の構成要素を示す検索文概念を抽出した場合、上位概念取得部810は、検索文概念の上位階層の構成要素に対応する概念を検索文上位概念として取得する。
以上において、上位概念取得部810は、検索文上位概念として、検索文概念に対して複数階層分上位階層に位置する概念を取得してもよい。この場合において、上位概念取得部810は、検索文上位概念が文書概念と一致するまで、検索文概念を上位階層の概念に順次置換し、いずれかの階層の検索文上位概念が文書概念と一致した場合に(S930:Yes)、当該検索文上位概念を用いることを決定してもよい。また、検索文に対応して、複数種類の検索文概念及び/又は検索文上位概念の組み合わせを取得した場合、汎化概念出力部820は、適切な検索文概念及び/又は検索文上位概念の組み合わせを選択する(S935)。
この処理において、汎化概念出力部820は、より情報量が高い文書データを検索可能な検索文上位概念を選択する。すなわち例えば、汎化概念出力部820は、第1の検索文上位概念及び第1の文書概念と、第2の検索文概念及び第2の文書概念とがそれぞれ同一となる第1の文書データの数が、第1の検索文概念及び第1の文書概念と、第2の検索文上位概念及び第2の文書概念とがそれぞれ同一となる第2の文書データの数より小さい場合に、第1の文書データを検索結果として出力する。これにより汎化概念出力部820は、検索対象となる文書データをより適切に選択して出力することができる。
次に、下位概念取得部830は、S900における検索文概念又はS935により得られた検索文概念の下位階層の概念である検索文下位概念を取得する(S940)。ここで、S935により得られた検索文概念の検索文下位概念が存在しなければ(S945:No)、汎化概念出力部820は、検索文上位概念と一致する文書概念を有する文書データ(S930参照)を検索結果として検索結果出力部160に出力する(S910)。
ここで、複数の検索文上位概念が取得された場合においては、少なくとも1つの検索文概念を上位階層の検索文上位概念とした場合に、全ての検索文概念又は検索文概念を置き換えた検索文上位概念と一致する文書概念を有する文書データを検索結果として出力する。すなわち、例えば第1の検索文上位概念及び第2の検索文上位概念が取得された場合において、汎化概念出力部820は、第1の検索文概念及び第2の検索文概念の少なくとも一方を上位階層の概念とした場合に、第1の検索文概念と一致する文書概念及び第2の検索文概念と一致する文書概念を有する文書データを検索結果として出力する。
一方、検索文下位概念が存在する場合(S945:Yes)、下位概念取得部830は、検索文概念と同一の文書概念を有する文書データの全てが検索文概念の下位階層の概念である検索文下位概念と同一の文書概念を有することを条件として(S950:Yes)、検索文概念を当該検索文下位概念に置換し、処理をS940へ進める(S950:Yes)。そして、下位概念取得部830は、S940及びS945の処理を再度行い、検索文概念を更に特化する。
このようにして、下位概念取得部830は、前述の条件が成立しなくなるまで(S950:No)、検索文概念を下位階層の概念に順次置換していく。これにより、下位概念取得部830は、検索文下位概念として、検索文概念に対して複数階層分下位階層に位置する概念を選択することができる。したがって、下位概念取得部830は、検索インデクスDB135に格納された各文書データの文書概念に応じて、適切な検索文概念を選択することができる。
そして、特化概念出力部840は、検索文下位概念が文書概念と一致する文書データ(S950:No)を、検索結果として出力する(S910)。
以上に示した概念検索部150によれば、検索結果に応じて検索文概念を上位概念化又は下位概念化することにより、検索対象の文書データを適切に検索することができる。
なお、以上に示した処理の結果、得られた検索文概念の全てが下位階層の概念を有しない場合、検索結果出力部160は、図5のS545において、検索文概念と一致する文書概念を有する文書データの一覧を表示する。一方、いずれかの検索文概念が2以上の下位概念を有する場合には、概念選択支援部155は、当該検索文概念を2以上の下位概念のそれぞれとした場合に検索される文書データの数を利用者に表示し、利用者によりいずれかの下位概念を選択させてもよい。これに代えて、検索結果出力部160は、検索される文書データの数に基づいて、例えばエントロピーを低減する等の基準により、いずれかの下位概念を選択してもよい。
図10は、本発明の実施形態に係る概念検索部150による汎化・特化の一例を示す。
上位概念取得部810は、検索文概念と一致する文書概念を有する文書データが存在しない場合、図9のS920に示したように検索文概念を汎化する。例えば、本図において検索文概念が「…/シリーズA/モデルA3」であった場合、同一概念出力部800は、検索文概念「…/シリーズA/モデルA3」と同一の文書概念を有する文書データを1件も抽出することができない。そこで、上位概念取得部810は、検索文概念「…/シリーズA/モデルA3」を、上位階層の検索文上位概念「…/シリーズA」に置換し汎化する。
この汎化により、当該検索文上位概念と同一の文書概念を有する文書データを5件抽出することができる。ここで、本図のケースにおいては、「…/シリーズA」に対応する文書データの数が、「…/シリーズA/モデルA2」に対応する文書データの数と同一であり、汎化後の検索文概念(すなわち検索文上位概念)と同一の文書概念を有する文書データの全てが、検索文下位概念「…/シリーズA/モデルA2」と同一の文書概念を有していることが分かる。このように、検索文概念と同一の文書概念を有する文書データの全てが、検索文概念の下位階層の概念である検索文下位概念と同一の文書概念を有する場合に、下位概念取得部830は、検索文概念を、当該検索文下位概念に置換して特化する。これにより、下位概念取得部830は、検索文概念を一意に特化することができる。
なお、複数の検索文概念が抽出された場合において、下位概念取得部830は、1又は2以上の検索文概念を下位概念とした場合に同一の文書データを検索可能であれば、これらの検索文概念を下位概念に置換して特化してもよい。
図11は、本発明の実施形態に係る検索システム10の表示画面1100の一例を示す。
表示画面1100は、検索文入力画面1110と、概念操作画面1130と、検索結果出力画面1160とを備える。検索文入力画面1110は、検索システム10の利用者に検索文を入力させるための画面である。検索文正規化部140は、製品の機種名及び検索文を、検索文入力画面1110を用いて入力させ、検索ボタンにより検索開始の指示を受ける。また、検索文入力画面1110は、概念検索部150により汎化又は特化が行われた場合、その旨を例えば「シリーズAモデルA3をシリーズAに汎化しました。」のように表示する。
概念操作画面1130は、概念選択支援部155の指示に基づいて、検索文から抽出した各検索文概念を表示する。概念選択支援部155は、複数の検索文概念が抽出された場合、これらの検索文概念の関係(AND条件、OR条件)を概念操作画面1130に表示する。また、概念選択支援部155は、各検索文概念と同一の文書概念を有する文書データの数(頻度)を表示してもよい。概念選択支援部155は、検索文概念の削除ボタンにより当該検索文概念を削除する指示を受けると、当該検索文概念を検索条件から取り除く。また、上位概念ボタンにより検索文概念を上位階層の検索文上位概念に置換する指示を受けると、当該検索文概念を検索文上位概念に置換する。概念選択支援部155は、概念操作画面1130を介して検索文概念を表示し、各検索文概念に対する操作を受けることにより、検索文概念の上位概念化及び/又は下位概念化を支援する。
検索結果出力画面1160は、検索結果出力部160により出力される検索結果を表示する。
以上に示したように、検索システム10によれば、階層構造により体系化された概念に基づいて、検索文の内容を適切に反映して文書データを検索することができる。そして、検索システム10の利用者は、表示画面1100を介して検索処理を効率良く行うことができる。
以上に示した検索システム10は、製品についての問い合わせ及び回答の検索に用いる他、各種の技術情報を文書データとして記憶しておき、検索文に基づいて検索を行う技術情報検索システムとしても使用できる。例えば、検索システム10は、各種の薬についての情報を文書データとして記憶しておき、「がん細胞を増幅させるたんぱく質」等の検索文に概念的に一致する文書データを検索するシステムとして用いられてもよい。
図12は、本発明の実施形態に係る報告システム20の構成を示す。報告システム20は、順次入力される文書データのそれぞれの文書概念を抽出し、特定の文書概念の頻度が所定の値以上となった場合にその旨を利用者に通知する。本実施形態に係る報告システム20は、一例として、コールセンターに寄せられた製品についての問い合わせをテキスト化した文書データから不具合を示す文書概念を抽出し、特定の文書概念の頻度が所定の値以上となった場合に当該製品に当該不具合が多発していることを通知するものである。
報告システム20は、文書DB100と、概念DB105と、製品DB106と、構成要素DB107と、辞書DB110と、類義語DB115と、文書データ正規化部120と、概念抽出規則DB125と、文書データ概念抽出部130と、検索インデクスDB135と、概念比率算出部1200と、相対頻度算出部1210と、多頻度概念選択部1220と、優先概念選択部1230と、基準頻度算出部1240と、通知部1250とを備える。ここで、文書DB100、概念DB105、製品DB106、構成要素DB107、辞書DB110、類義語DB115、文書データ正規化部120、概念抽出規則DB125、文書データ概念抽出部130、及び検索インデクスDB135は、図1に示した同一符号の部材と略同一の機能及び構成を採るため、以下相違点を除き説明を省略する。
文書DB100は、入力された文書データを順次記憶する。本実施形態に係る文書DB100は、複数の製品のそれぞれについて、当該製品の不具合の内容を示す文書データを記憶する。概念DB105は、製品についての複数の不具合を特定する複数の概念を、図2に例示した階層構造により記憶する。
概念比率算出部1200は、検索インデクスDB135に格納された文書概念を用いて、文書DB100内の文書データの数に対する、それぞれの概念に対応する文書データの数の比率を算出する。概念比率算出部1200は、全製品概念比率算出部1203及び特定製品概念比率算出部1206を有する。全製品概念比率算出部1203は、比較対象となる複数の製品について、文書データの数に対する、それぞれの概念に対応する文書データの数の比率を算出する。例えば、文書DB100に格納された文書データ数が1000であり、文書概念「/不具合/ハードウェア/ハードディスク」を有する文書データの数が35の場合、当該比率は3.5%(35/1000)となる。
特定製品概念比率算出部1206は、不具合が多発していることを報告する対象となる少なくとも1つの製品について、文書データの数に対する、それぞれの概念に対応する当該製品についての文書データの数の比率を算出する。例えば、製品「/製品/PC製品/ノート/シリーズA/モデルA2」について文書DB100に格納された文書データの数が100であり、文書概念「/不具合/ハードウェア/ハードディスク」を有する文書データの数が10の場合、当該比率は10%(10/100)となる。
相対頻度算出部1210は、それぞれの概念に対応する基準比率に対する、概念比率算出部1200内の特定製品概念比率算出部1206により算出された比率の大きさを示す相対頻度を算出する。本実施形態に係る相対頻度算出部1210は、全製品概念比率算出部1203が算出した比率を基準比率として用い、全製品概念比率算出部1203により算出された比率に対する、特定製品概念比率算出部1206により算出された比率の大きさを示す相対頻度を算出する。すなわち、上記の例の場合、製品「/製品/PC製品/ノート/シリーズA/モデルA2」について文書概念「/不具合/ハードウェア/ハードディスク」に対応する相対頻度は、約2.9(10%/3.5%)である。
多頻度概念選択部1220は、複数の概念のうち、相対頻度が予め定められたしきい値以上となる概念を選択する。優先概念選択部1230は、多頻度概念選択部1220が選択した第1の概念と、第1の概念の上位階層の第2の概念との一方を、第1の概念及び第2の概念の相対頻度に基づいて選択する。これにより、優先概念選択部1230は、多頻度概念選択部1220が選択した概念のうち、上位階層又は下位階層の関係にある概念の中から、報告する概念の階層を適切に選択する。
基準頻度算出部1240は、いずれの概念を報告するかを選択する基準となる頻度を計算する。通知部1250は、第1の概念又は第2の概念のうち、優先概念選択部1230により選択された概念の相対頻度が高くなっていることを、使用者へ通知する。
以上に示した報告システム20によれば、特定の概念に対応する文書データが頻繁に入力されている場合に、概念の階層を適切に選択して、当該概念が多発していることを利用者に報告することができる。これにより、コールセンタへの問い合わせを順次文書データとして登録する文書DB100を利用し、ある製品について特定の不具合が多発していることを早期に検出し報告することができる。
なお、以上に示した報告システム20は、図1に示した検索システム10の一部として設けられてもよい。すなわち例えば、図1に示した検索システム10は、図12に示した概念比率算出部1200、相対頻度算出部1210、多頻度概念選択部1220、優先概念選択部1230、基準頻度算出部1240、及び通知部1250を更に備えてもよい。
図13は、本発明の実施形態に係る報告システム20の動作フローを示す。図13において、図5と同一のステップ番号を付した段階は、図5と略同一の動作を行うため、以下相違点を除き説明を省略する。
まず、報告システム20は、文書データが入力される度に、当該文書データのテキスト解析(S500)、正規化(S505)、概念抽出(S510)、及び検索インデクスの作成(S515)を行う。
次に、概念比率算出部1200は、文書DB100内の文書データの数に対する、それぞれの概念又は概念の組に対応する文書データの数の比率を算出する(S1340)。より具体的には、全製品概念比率算出部1203は、全ての製品についての当該比率Rallを以下の式(1)により算出し、特定製品概念比率算出部1206は、不具合を報告する対象とする製品についての当該比率Rを以下の式(2)により算出する。
Rall = #(Aall∩X) / #Aall (1)
R = #(A∩X) / #A (2)
ここで、Aallは全ての製品、Aは不具合を報告する対象とする製品、Xは不具合に対応する概念又は概念の組、#Cは概念Cに対応する文書データの数を示す。ここで全ての製品とは、相対頻度算出部1210が相対頻度を算出する基準となる基準比率に寄与する複数の製品である。報告システム20は、この基準比率に寄与する製品として、図3に例示した製品の概念階層において、発生する不具合の傾向が略同一と認められる階層に対応する複数の製品を用いてよい。すなわち例えば、報告システム20は、図3における「製品/PC製品/ノート」の下位階層に位置する「シリーズA」、「シリーズB」、及び「シリーズC」等を基準比率に寄与する製品として用いてもよい。
なお、概念DB105が、複数の概念のそれぞれを、不具合の概念階層、製品の概念階層、及び、構成要素の概念階層等の複数の階層構造のノードとして記憶している場合、文書データ概念抽出部130は、文書データに対応して、複数の階層構造のそれぞれに属する複数の文書概念を抽出してもよい(S510)。例えば、概念DB105が複数の概念のそれぞれを第1の階層構造又は第2の階層構造のノードとして記憶している場合、文書データ概念抽出部130は、各文書データに対応して、第1の階層構造に属する第1の文書概念及び第2の階層構造に属する第2の文書概念を抽出してもよい。
この場合、概念比率算出部1200は、全ての製品及び対象の製品のそれぞれについて、文書DB100内の文書データの数に対する、第1の階層構造の概念に対応する文書データの数の第1比率R1all及びR1と、第2の階層構造の概念に対応する文書データの数の第2比率R2all及びR2と、第1の階層構造の概念及び第2の階層構造の概念の組み合わせに対応する文書データの数の第3比率R1&2all及びR1&2とをそれぞれ算出しておく。
次に、相対頻度算出部1210は、それぞれの概念に対応する基準比率に対する、概念比率算出部1200内の特定製品概念比率算出部1206により算出された比率の大きさを示す相対頻度RR(=R/Rall)を算出する(S1350)。本実施形態に係る相対頻度算出部1210は、全製品概念比率算出部1203により算出された比率を基準比率とし、不具合を報告する対象とする製品についての特定製品概念比率算出部1206により算出された比率が、全ての製品についての平均的な比率に対してどれだけ大きいかを示す相対頻度を算出する。
ここで、文書データに対応して第1の文書概念及び第2の文書概念の組が抽出された場合、相対頻度算出部1210は、第1の階層構造の概念X1に対応する基準比率R1allに対する第1比率R1の大きさを示す第1相対頻度RR1(=R1/R1all)と、第2の階層構造の概念X2に対応する基準比率R2allに対する第2比率R2の大きさを示す第2相対頻度RR2(=R2/R2all)と、第1の階層構造の概念及び第2の階層構造の概念の組み合わせに対応する概念X1&2に対応する基準比率R1&2allに対する、第3比率R1&2の大きさを示す第3相対頻度RR1&2(=R1&2/R1&2all)とを算出する。
ここで、相対頻度算出部1210は、概念に対応する製品についての文書データの数が小さい場合に、大きい場合と比較し当該製品についての当該概念の相対頻度を小さく補正してもよい。より具体的には、相対頻度算出部1210は、相対頻度として、信頼係数80%での区間推定における、信頼区間の最小値を用いてもよい。これにより、相対頻度算出部1210は、サンプル数が少なく不具合が多発していると認定するのが難しい状態で不具合を報告するのを避けることができる。
次に、多頻度概念選択部1220は、複数の概念のうち、相対頻度が予め定められたしきい値以上となる概念を選択する(S1360)。より具体的には、多頻度概念選択部1220は、複数の概念のうち、少なくとも1つの製品についての相対頻度が、予め定められたしきい値以上となる概念を選択する。ここで、文書データに対応して第1の階層構造の概念及び第2の階層構造の概念の組が複数抽出された場合、多頻度概念選択部1220は、第1の階層構造の概念及び第2の階層構造の概念の組み合わせのうち、相対頻度がしきい値以上となる第1の階層構造の概念及び第2の階層構造の概念の組を選択する。
次に、基準頻度算出部1240は、2以上の文書概念の組み合わせに対応する文書データの相対頻度がしきい値以上である場合に、これらの文書概念の組み合わせを報告するか、又は、これらの文書概念の組み合わせを上位概念化若しくは下位概念化して報告するかを選択する基準となる頻度を計算する(S1370)。
より具体的には、基準頻度算出部1240は、第1の文書概念及び第2の文書概念の組を報告するか、それとも第1の文書概念として報告するかを判定するための基準頻度として、第1の文書概念及び第2の文書概念が独立事象であった場合における相対頻度の計算値RR1&2baseを算出する。基準頻度算出部1240は、当該基準頻度RR1&2baseを、第1の文書概念についての相対頻度RR1及び第2の文書概念についての相対頻度RR2に基づいて、以下の式(3)により算出する。
RR1&2base = RR1×RR2×(#(X1∩Aall)×#(X2∩Aall)) / (#(X1∩X2∩Aall)×#Aall) (3)
次に、優先概念選択部1230は、多頻度概念選択部1220が選択した概念と、当該概念の上位階層の概念との一方を、当該概念及び当該概念の上位階層の概念の相対頻度に基づいて選択する(S1380)。優先概念選択部1230は、この上位階層の概念を、多頻度概念選択部1220が選択した概念の中から選択し用いてもよい。S1380の処理により優先概念選択部1230は、特定の概念の相対頻度がしきい値以上である場合に、当該概念を報告するか、又は、当該概念の上位階層の概念を報告するかを選択する。
より具体的には、1又は複数の文書概念の組{X1,X2,…,Xn}からなる概念Xと、1又は複数の文書概念の組{Y1,Y2,…,Ym}からなる、概念Xより詳細な概念Yとのいずれを報告するかを、以下の(1)又は(2)に示すように選択する。ここで、概念Yが概念Xより詳細とは、任意のXiに対し、いずれかのYjがある概念階層においてXiと同一又は下位階層の概念であることをいい、概念Xが概念Yより一般的であるとも表現する。
(1)X={X1,X2,…,Xn}、Y={Y1,Y2,…,Yn}であり、全てのXkが、ある概念階層におけるYkと同一又は上位階層の概念である場合
例えば、概念Xが「/不具合/ハードウェア/インプット・デバイス/ポインティング・デバイス」(={X1})であり、概念Yが「/不具合/ハードウェア/インプット・デバイス/ポインティング・デバイス/マウス」(={Y1})の場合である。
この場合、優先概念選択部1230は、多頻度概念選択部1220が選択した概念Y(={Y1,Y2,…,Yn})と、その上位階層の概念X(={X1,X2,…,Xn})とが、以下の式(4)を満たすか否かを判断する。
(Yの相対頻度) > α×(Xの相対頻度) (4)
ただし、αは予め定められた割合であり、例えば1.5〜2程度の値をとる。
そして、優先概念選択部1230は、概念Yの相対頻度が、概念Xの相対頻度と比較して予め定められた割合α以上大きい場合に概念Yを選択し、予め定められた割合α以上大きくない場合に概念Xを選択する。これにより、優先概念選択部1230は、上位階層の概念Xの相対頻度が低く、概念Yの相対頻度が高い場合に概念Yを報告し、上位階層の概念Xの相対頻度ががある程度高い場合に概念Yを概念Xにまとめて報告させることができる。
(2)X={X1,X2,…,Xn}、Y={Y1,Y2,…,Yn,…,Ym}であり、全てのXk(k=1,…,n)が、ある概念階層におけるYkと同一又は上位階層の概念である場合
例えば、概念Xが「/構成要素/ハードウェア/ファン」(={X1})であり、概念Yが「/構成要素/ハードウェア/ファン」(=Y1)&&「/問題/ハードウェア/騒音」(=Y2)の場合である。なお、“&&”は、概念Yが、概念Y1及び概念Y2のAND条件であることを示す。
この場合、優先概念選択部1230は、多頻度概念選択部1220が選択した概念Yと、その上位階層の概念Xとが、以下の式(5)を満たすか否かを判断する。ただし、Zは、同一の概念階層における上位階層又は下位階層の相違を考慮しない場合のXとYの差分の概念の組(={Yn+1,…,Ym}、上記の例においては{Y2})である。
(Yの相対頻度)>α×(XとZが独立事象である場合のYの相対頻度(RR1&2base)) (5)
そして、優先概念選択部1230は、概念Yの相対頻度RR1&2が、概念X及び概念Zが独立事象であった場合における概念Yの相対頻度の計算値RR1&2baseと比較して予め定められた割合α以上大きい場合に、概念X及び概念Zの組み合わせである概念Yを選択し、予め定められた割合α以上大きくない場合に、概念Xを選択する。これにより、優先概念選択部1230は、概念Yが概念X及び概念Zの組み合わせに起因する可能性が高い場合に、概念Yを報告させることができる。
なお、優先概念選択部1230は、概念Yに対して上記(1)及び(2)の両方を適用することにより、より上位階層の概念Xを求めてもよい。
次に、通知部1250は、概念Y又は概念Xのうち、優先概念選択部1230により選択された概念に対応する不具合が少なくとも1つの製品に多発していることを、当該検索システム10の使用者へ通知する(S1390)。ここで上記(2)の場合、通知部1250は、優先概念選択部1230により選択された、概念X及び概念Zの組み合わせである概念Y、又は概念Xの相対頻度が高くなっていることを、使用者へ通知する。
そして、新たな文書データが文書DB100に追加されると、報告システム20は、処理をS500へ進める(S1395)。これに代えて、報告システム20は、例えば1週間等の予め定められた期間毎に、上記の処理を行ってもよい。
以上に示した報告システム20によれば、順次入力される文書データのそれぞれの文書概念を抽出し、多頻度概念選択部1220及び優先概念選択部1230により選択された概念を通知することにより、特定の文書概念又は文書概念の組の頻度が所定の値以上となった場合にその旨を利用者に通知することができる。これにより、例えばコールセンターに寄せられる製品についての問い合わせの数に応じて、製品の不具合を早期に通知することができる。
図14は、本実施形態に係るコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、及び表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、及びCD−ROMドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、及び入出力チップ2070を有するレガシー入出力部とを備える。
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000及びグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010及びRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、CD−ROMドライブ2060を接続する。通信インターフェイス2030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラム及びデータを格納する。CD−ROMドライブ2060は、CD−ROM2095からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、及び入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラムや、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050や、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続する。
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、CD−ROM2095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
コンピュータ1900にインストールされ、コンピュータ1900を検索システム10として機能させる検索プログラムは、文書DB100を管理する文書DB管理モジュールと、概念DB105を管理する概念DB管理モジュールと、製品DB106を管理する製品DB管理モジュールと、構成要素DB107を管理する構成要素DB管理モジュールと、辞書DB110を管理する辞書DBモジュールと、類義語DB115を管理する類義語DBモジュールと、文書データ正規化モジュールと、概念抽出規則DB125を管理する概念抽出規則DBモジュールと、文書データ概念抽出モジュールと、検索インデクスDB135を管理する検索インデクスDBモジュールと、検索文正規化モジュールと、検索文概念抽出モジュールと、概念検索モジュールと、概念選択支援モジュールと、検索結果出力モジュールとを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、文書DB100と、概念DB105と、製品DB106と、構成要素DB107と、辞書DB110と、類義語DB115と、文書データ正規化部120と、概念抽出規則DB125と、文書データ概念抽出部130と、検索インデクスDB135と、検索文正規化部140と、検索文概念抽出部145と、概念検索部150と、概念選択支援部155と、検索結果出力部160としてそれぞれ機能させる。
また、コンピュータ1900にインストールされ、コンピュータ1900を報告システム20として機能させる報告プログラムは、文書DB100を管理する文書DB管理モジュールと、概念DB105を管理する概念DB管理モジュールと、製品DB106を管理する製品DB管理モジュールと、構成要素DB107を管理する構成要素DB管理モジュールと、辞書DB110を管理する辞書DBモジュールと、類義語DB115を管理する類義語DBモジュールと、文書データ正規化モジュールと、概念抽出規則DB125を管理する概念抽出規則DBモジュールと、文書データ概念抽出モジュールと、検索インデクスDB135を管理する検索インデクスDBモジュールと、全製品概念比率算出モジュール及び特定製品概念比率算出モジュールを有する概念比率算出モジュールと、相対頻度算出モジュールと、多頻度概念選択モジュールと、優先概念選択モジュールと、基準頻度算出モジュールと、通知モジュールとを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、文書DB100と、概念DB105と、製品DB106と、構成要素DB107と、辞書DB110と、類義語DB115と、文書データ正規化部120と、概念抽出規則DB125と、文書データ概念抽出部130と、検索インデクスDB135と、全製品概念比率算出部1203及び特定製品概念比率算出部1206を有する概念比率算出部1200と、相対頻度算出部1210と、多頻度概念選択部1220と、優先概念選択部1230と、基準頻度算出部1240と、通知部1250としてそれぞれ機能させる。
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク2090、CD−ROM2095の他に、DVDやCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
本発明の実施形態に係る検索システム10の構成を示す。 本発明の実施形態に係る概念DB105が記憶する不具合の概念階層の一例を示す。 本発明の実施形態に係る製品DB106が記憶する製品の概念階層の一例を示す。 本発明の実施形態に係る構成要素DB107が記憶する構成要素の概念階層の一例を示す。 本発明の実施形態に係る検索システム10の動作フローを示す。 本発明の実施形態に係る類義語DB115が記憶する正規化規則の一例を示す。 本発明の実施形態に係る概念抽出規則DB125が記憶する概念抽出規則の一例を示す。 本発明の実施形態に係る概念検索部150の構成を示す。 本発明の実施形態に係る概念検索部150の動作フローを示す。 本発明の実施形態に係る概念検索部150による汎化・特化の一例を示す。 本発明の実施形態に係る検索システム10の表示画面1100の一例を示す。 本発明の実施形態に係る報告システム20の構成を示す。 本発明の実施形態に係る報告システム20の動作フローを示す。 本発明の実施形態に係るコンピュータ1900のハードウェア構成の一例を示す。
符号の説明
10 検索システム
20 報告システム
100 文書DB
105 概念DB
106 製品DB
107 構成要素DB
110 辞書DB
115 類義語DB
120 文書データ正規化部
125 概念抽出規則DB
130 文書データ概念抽出部
135 検索インデクスDB
140 検索文正規化部
145 検索文概念抽出部
150 概念検索部
155 概念選択支援部
160 検索結果出力部
800 同一概念出力部
810 上位概念取得部
820 汎化概念出力部
830 下位概念取得部
840 特化概念出力部
1100 表示画面
1110 検索文入力画面
1130 概念操作画面
1160 検索結果出力画面
1200 概念比率算出部
1203 全製品概念比率算出部
1206 特定製品概念比率算出部
1210 相対頻度算出部
1220 多頻度概念選択部
1230 優先概念選択部
1240 基準頻度算出部
1250 通知部
1900 コンピュータ
2000 CPU
2010 ROM
2020 RAM
2030 通信インターフェイス
2040 ハードディスクドライブ
2050 フレキシブルディスク・ドライブ
2060 CD−ROMドライブ
2070 入出力チップ
2075 グラフィック・コントローラ
2080 表示装置
2082 ホスト・コントローラ
2084 入出力コントローラ
2090 フレキシブルディスク
2095 CD−ROM

Claims (20)

  1. 複数の文書データから、入力された検索文により指定される内容を含む文書データを検索する検索システムであって、
    前記複数の文書データを記憶する文書データベースと、
    一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、
    それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、
    前記検索文に含まれるキーワードに基づいて、前記検索文に対応する前記概念である検索文概念を抽出する検索文概念抽出部と、
    前記複数の文書データのそれぞれのうち、前記検索文概念が前記文書概念の上位階層又は下位階層の概念となる前記文書データを検索する概念検索部と、
    前記概念検索部により検索された前記文書データを、前記検索文により指定される内容を含む前記文書データとして出力する検索結果出力部と
    を備える検索システム。
  2. 1又は複数の前記キーワードと、当該1又は複数のキーワードの意味内容を示す前記概念との組を含む概念抽出規則を記憶する概念抽出規則データベースを更に備え、
    前記検索文概念抽出部は、いずれかの前記概念抽出規則に含まれる前記1又は複数のキーワードが前記検索文に含まれる場合に、当該概念抽出規則に含まれる前記概念を、前記検索文概念として抽出する
    請求項1記載の検索システム。
  3. 前記文書データ概念抽出部は、いずれかの前記概念抽出規則に含まれる前記1又は複数のキーワードが前記文書データに含まれる場合に、当該概念抽出規則に含まれる前記概念を、前記文書概念として抽出する
    請求項2記載の検索システム。
  4. それぞれの前記文書データについて、前記文書データ概念抽出部により抽出された、当該文書データの前記文書概念と、当該文書データとの対応付けを記憶する検索インデクスデータベースを更に備え、
    前記概念検索部は、前記検索文概念が、前記検索文が入力される前に前記検索インデクスデータベースに格納された前記文書概念の上位階層又は下位階層の概念となる場合に、当該文書概念に対応する前記文書データを検索結果として出力する
    請求項1記載の検索システム。
  5. 予め定められた語句と、当該語句の類義語である前記キーワードとの対応付けを記憶する類義語データベースと、
    それぞれの前記文書データに含まれる前記語句を、当該語句の類義語である前記キーワードに置換することにより当該文書データを正規化する文書データ正規化部と、
    前記検索文に含まれる前記語句を、当該語句の類義語である前記キーワードに置換することにより前記検索文を正規化する検索文正規化部と
    を更に備え、
    前記文書データ概念抽出部は、正規化された前記文書データから前記文書概念を抽出し、
    前記検索文概念抽出部は、正規化された前記検索文から前記検索文概念を抽出する
    請求項1記載の検索システム。
  6. 前記概念検索部は、
    前記検索文概念が、前記文書概念と一致しない場合に、前記検索文概念の上位階層の概念である検索文上位概念を取得する上位概念取得部と、
    前記検索文上位概念が、前記文書概念と一致する場合に、当該文書データを検索結果として出力する汎化概念出力部と
    を有する請求項1記載の検索システム。
  7. 前記概念データベースは、前記複数の概念のそれぞれを、第1の前記階層構造又は第2の前記階層構造のノードとして記憶し、
    前記文書データ概念抽出部は、前記文書データに対応して、前記第1の階層構造に属する第1の前記文書概念及び前記第2の階層構造に属する第2の前記文書概念を抽出し、
    前記検索文概念抽出部は、前記検索文に対応して、前記第1の階層構造に属する第1の前記検索文概念及び前記第2の階層構造に属する第2の前記検索文概念を抽出し、
    前記上位概念取得部は、前記第1の検索文概念及び前記第2の検索文概念が、前記第1の文書概念及び前記第2の文書概念とそれぞれ同一でない場合に、前記第1の検索文概念の上位階層の第1の前記検索文上位概念と、前記第2の検索文概念の上位階層の第2の前記検索文上位概念とを取得し、
    前記汎化概念出力部は、前記第1の検索文上位概念及び前記第1の文書概念と、前記第2の検索文概念及び前記第2の文書概念とがそれぞれ同一となる第1の前記文書データの数が、前記第1の検索文概念及び前記第1の文書概念と、前記第2の検索文上位概念及び前記第2の文書概念とがそれぞれ同一となる第2の前記文書データの数より小さい場合に、前記第1の文書データを検索結果として出力する
    請求項6記載の検索システム。
  8. 前記概念検索部は、
    前記検索文概念と同一の前記文書概念を有する前記文書データの全てが、前記検索文概念の下位階層の概念である検索文下位概念と同一の前記文書概念を有する場合に、前記検索文概念を、当該検索文下位概念に置換する下位概念取得部と、
    前記検索文下位概念が前記文書概念と一致する前記文書データを検索結果として出力する特化概念出力部と
    を有する請求項1記載の検索システム。
  9. 前記概念データベースは、製品についての複数の不具合を特定する前記複数の概念を記憶し、
    前記文書データベースは、それぞれの前記不具合について、当該不具合の内容を示す前記文書データを記憶し、
    前記検索文概念抽出部は、利用者により入力された、前記製品についての前記不具合を検索するための前記検索文に対応する前記検索文概念を抽出し、
    前記検索結果出力部は、前記概念検索部により検索された前記文書データを、前記利用者により入力された前記製品についての前記不具合の内容を示す前記文書データとして出力する
    請求項1記載の検索システム。
  10. 前記概念データベースは、前記製品の構成要素に不具合があることを示す前記概念の下位階層に、当該構成要素の不具合の状態を示す前記概念を設けた階層構造により前記複数の概念を記憶し、
    前記文書データ概念抽出部は、前記文書データに含まれるキーワードに基づいて、一の前記構成要素に不具合があることを示す前記文書概念を抽出し、
    前記検索文概念抽出部は、前記検索文に含まれるキーワードに基づいて、前記一の構成要素の不具合の状態を示す前記検索文概念を抽出し、
    前記概念検索部は、
    前記検索文概念の上位階層の前記概念である、前記一の構成要素に不具合があることを示す前記概念を検索文上位概念として取得する上位概念取得部と、
    前記検索文上位概念と一致する、前記一の構成要素に不具合があることを示す前記文書概念を有する前記文書データを、検索結果として出力する汎化概念出力部と
    を有する
    請求項1記載の検索システム。
  11. 前記製品の各構成要素の包含関係を階層構造により記憶する構成要素データベースを更に備え、
    前記文書データ概念抽出部は、前記文書データに含まれるキーワードに基づいて、前記文書データに記述された前記構成要素を示す前記文書概念を更に抽出し、
    前記検索文概念抽出部は、前記検索文に含まれるキーワードに基づいて、前記検索文に記述された前記構成要素を示す前記検索文概念を更に抽出し、
    前記上位概念取得部は、前記構成要素に不具合があること又は前記構成要素の不具合の状態を示す第1の前記検索文概念の上位階層となる前記概念と、前記構成要素を示す第2の前記検索文概念の上位階層となる前記概念とを取得し、
    前記汎化概念出力部は、前記第1の検索文概念及び前記第2の検索文概念の少なくとも一方を上位階層の前記概念とした場合に、前記第1の検索文概念と一致する前記文書概念及び前記第2の検索文概念と一致する前記文書概念を有する前記文書データを検索結果として出力する
    請求項10記載の検索システム。
  12. 複数の前記製品の製品名の包含関係を階層構造により記憶する製品データベースを更に備え、
    前記文書データ概念抽出部は、前記文書データに含まれるキーワードに基づいて、前記文書データに記述された前記製品名を示す前記文書概念を更に抽出し、
    前記検索文概念抽出部は、前記検索文に含まれるキーワードに基づいて、前記検索文概念抽出部に記述された前記製品名を示す前記検索文概念を更に抽出し、
    前記上位概念取得部は、前記構成要素に不具合があること又は前記構成要素の不具合の状態を示す第1の前記検索文概念の上位階層となる前記概念と、前記製品名を示す第2の前記検索文概念の上位階層となる前記概念とを取得し、
    前記汎化概念出力部は、前記第1の検索文概念及び前記第2の検索文概念の少なくとも一方を上位階層の前記概念とした場合に、前記第1の検索文概念と一致する前記文書概念及び前記第2の検索文概念と一致する前記文書概念を有する前記文書データを検索結果として出力する
    請求項10記載の検索システム。
  13. 入力された文書データを順次記憶する文書データベースと、
    一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、
    それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、
    前記文書データベース内の前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する概念比率算出部と、
    それぞれの前記概念に対応する基準比率に対する、前記概念比率算出部により算出された比率の大きさを示す相対頻度を算出する相対頻度算出部と、
    前記複数の概念のうち、前記相対頻度が予め定められたしきい値以上となる前記概念を選択する多頻度概念選択部と、
    前記多頻度概念選択部が選択した第1の前記概念と、前記第1の概念の上位階層の第2の前記概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択する優先概念選択部と、
    前記第1の概念又は前記第2の概念のうち、前記優先概念選択部により選択された前記概念の相対頻度が高くなっていることを、使用者へ通知する通知部と
    を備える報告システム。
  14. 前記文書データベースは、複数の製品のそれぞれについて、当該製品の不具合の内容を示す文書データを記憶し、
    前記概念データベースは、製品についての複数の不具合を特定する前記複数の概念を記憶し、
    前記文書データ概念抽出部は、それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出し、
    前記概念比率算出部は、
    前記複数の製品について、前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する全製品概念比率算出部と、
    少なくとも1つの前記製品についての前記文書データの数に対する、それぞれの前記概念に対応する当該製品についての前記文書データの数の比率を算出する特定製品概念比率算出部と
    を有し、
    前記相対頻度算出部は、前記全製品概念比率算出部により算出された比率に対する、前記特定製品概念比率算出部により算出された比率の大きさを示す前記相対頻度を算出し、
    前記多頻度概念選択部は、前記複数の概念のうち、前記少なくとも1つの製品についての前記相対頻度が、前記予め定められたしきい値以上となる前記概念を選択し、
    前記優先概念選択部は、前記多頻度概念選択部が選択した前記第1の概念と、前記第1の概念の上位階層の前記第2の概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択し、
    前記通知部は、前記第1の概念又は前記第2の概念のうち、前記優先概念選択部により選択された前記概念に対応する不具合が前記少なくとも1つの製品に多発していることを、当該検索システムの使用者へ通知する
    請求項13記載の報告システム。
  15. 前記優先概念選択部は、前記第1の概念の相対頻度が、前記第2の概念の相対頻度と比較して予め定められた割合以上大きい場合に前記第1の概念を選択し、前記予め定められた割合以上大きくない場合に前記第2の概念を選択する請求項13記載の報告システム。
  16. 前記概念データベースは、前記複数の概念のそれぞれを、第1の前記階層構造又は第2の前記階層構造のノードとして記憶し、
    前記文書データ概念抽出部は、前記文書データに対応して、前記第1の階層構造に属する第1の前記文書概念及び前記第2の階層構造に属する第2の前記文書概念を抽出し、
    前記概念比率算出部は、前記文書データベース内の前記文書データの数に対する、前記第1の階層構造の前記概念に対応する前記文書データの数の第1比率と、前記第2の階層構造の前記概念に対応する前記文書データの数の第2比率と、前記第1の階層構造の前記概念及び前記第2の階層構造の前記概念の組み合わせに対応する前記文書データの数の第3比率とを算出し、
    前記相対頻度算出部は、前記第1の階層構造の前記概念に対応する基準比率に対する前記第1比率の大きさを示す第1相対頻度と、前記第2の階層構造の前記概念に対応する基準比率に対する前記第2比率の大きさを示す第2相対頻度と、前記第1の階層構造の前記概念及び前記第2の階層構造の前記概念の組み合わせに対応する基準比率に対する、前記第3比率の大きさを示す第3相対頻度とを算出し、
    前記多頻度概念選択部は、前記第1の階層構造の前記概念及び前記第2の階層構造の前記概念の組み合わせのうち、前記相対頻度が前記しきい値以上となる前記第1の階層構造の第3の概念及び前記第2の階層構造の第4の概念の組を選択し、
    当該報告システムは、前記第3の概念についての前記第1相対頻度及び前記第4の概念についての前記第2相対頻度に基づいて、前記第3の概念及び前記第4の概念が独立事象であった場合における前記第3相対頻度の計算値を算出する基準頻度算出部を更に備え、
    前記優先概念選択部は、前記第3相対頻度が、前記第3の概念及び前記第4の概念が独立事象であった場合における当該第3相対頻度の計算値と比較して予め定められた割合以上大きい場合に、前記第3の概念及び前記第4の概念の組み合わせを選択し、前記予め定められた割合以上大きくない場合に、前記第3の概念を選択し、
    前記通知部は、前記優先概念選択部により選択された前記第3の概念及び前記第4の概念の組み合わせ、又は前記第3の概念の相対頻度が高くなっていることを、使用者へ通知する
    請求項13記載の報告システム。
  17. 複数の文書データから、入力された検索文により指定される内容を含む文書データを検索する検索システムによる検索方法であって、
    前記複数の文書データを記憶する文書データベース記憶段階と、
    一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベース段階段階と、
    それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出段階と、
    前記検索文に含まれるキーワードに基づいて、前記検索文に対応する前記概念である検索文概念を抽出する検索文概念抽出段階と、
    前記複数の文書データのそれぞれのうち、前記検索文概念が前記文書概念の上位階層又は下位階層の概念となる前記文書データを検索する概念検索段階と、
    前記概念検索部により検索された前記文書データを、前記検索文により指定される内容を含む前記文書データとして出力する検索結果出力段階と
    を備える検索方法。
  18. 複数の文書データが順次入力される報告システムにおける報告方法であって、
    入力された文書データを順次記憶する文書データベース記憶段階と、
    一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベース記憶段階と、
    それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出段階と、
    前記文書データベース記憶段階において記憶された前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する概念比率算出段階と、
    それぞれの前記概念に対応する基準比率に対する、前記概念比率算出段階により算出された比率の大きさを示す相対頻度を算出する相対頻度算出段階と、
    前記複数の概念のうち、前記相対頻度が予め定められたしきい値以上となる前記概念を選択する多頻度概念選択段階と、
    前記多頻度概念選択段階が選択した第1の前記概念と、前記第1の概念の上位階層の第2の前記概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択する優先概念選択段階と、
    前記第1の概念又は前記第2の概念のうち、前記優先概念選択段階により選択された前記概念の相対頻度が高くなっていることを、使用者へ通知する通知段階と
    を備える報告方法。
  19. 複数の文書データから、入力された検索文により指定される内容を含む文書データを検索する検索システム用のプログラムであって、
    当該プログラムは、前記検索システムを、
    前記複数の文書データを記憶する文書データベースと、
    一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、
    それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、
    前記検索文に含まれるキーワードに基づいて、前記検索文に対応する前記概念である検索文概念を抽出する検索文概念抽出部と、
    前記複数の文書データのそれぞれのうち、前記検索文概念が前記文書概念の上位階層又は下位階層の概念となる前記文書データを検索する概念検索部と、
    前記概念検索部により検索された前記文書データを、前記検索文により指定される内容を含む前記文書データとして出力する検索結果出力部と
    して機能させるプログラム。
  20. 複数の文書データが順次入力される報告システム用のプログラムであって、
    当該プログラムは、前記報告システムを、
    入力された文書データを順次記憶する文書データベースと、
    一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、
    それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、
    前記文書データベース内の前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する概念比率算出部と、
    それぞれの前記概念に対応する基準比率に対する、前記概念比率算出部により算出された比率の大きさを示す相対頻度を算出する相対頻度算出部と、
    前記複数の概念のうち、前記相対頻度が予め定められたしきい値以上となる前記概念を選択する多頻度概念選択部と、
    前記多頻度概念選択部が選択した第1の前記概念と、前記第1の概念の上位階層の第2の前記概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択する優先概念選択部と、
    前記第1の概念又は前記第2の概念のうち、前記優先概念選択部により選択された前記概念の相対頻度が高くなっていることを、使用者へ通知する通知部と
    して機能させるプログラム。
JP2004206567A 2004-07-13 2004-07-13 検索システム、検索方法、報告システム、報告方法、及びプログラム Expired - Fee Related JP4587163B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004206567A JP4587163B2 (ja) 2004-07-13 2004-07-13 検索システム、検索方法、報告システム、報告方法、及びプログラム
US11/180,328 US7571383B2 (en) 2004-07-13 2005-07-13 Document data retrieval and reporting

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004206567A JP4587163B2 (ja) 2004-07-13 2004-07-13 検索システム、検索方法、報告システム、報告方法、及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010111458A Division JP5046170B2 (ja) 2010-05-13 2010-05-13 検索システム、検索方法、報告システム、報告方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2006031194A true JP2006031194A (ja) 2006-02-02
JP4587163B2 JP4587163B2 (ja) 2010-11-24

Family

ID=35600675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004206567A Expired - Fee Related JP4587163B2 (ja) 2004-07-13 2004-07-13 検索システム、検索方法、報告システム、報告方法、及びプログラム

Country Status (2)

Country Link
US (1) US7571383B2 (ja)
JP (1) JP4587163B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272888A (ja) * 2006-03-30 2007-10-18 Internatl Business Mach Corp <Ibm> ファイルシステムの検索ランキング方法および関連の検索エンジン
JP2011070453A (ja) * 2009-09-25 2011-04-07 Five Drive Inc 調達情報検索システム
JP2012027788A (ja) * 2010-07-26 2012-02-09 Fyuutorekku:Kk 文書検索システム、文書検索方法およびプログラム
KR20130093889A (ko) * 2012-02-15 2013-08-23 한국전자통신연구원 한국어 키워드 검색문 해석 장치 및 방법
WO2017090175A1 (ja) * 2015-11-27 2017-06-01 株式会社日立製作所 検証支援システム及び方法
JP2018092574A (ja) * 2016-12-02 2018-06-14 本田技研工業株式会社 評価装置、評価方法、および評価プログラム
JP2018124729A (ja) * 2017-01-31 2018-08-09 Kpmgコンサルティング株式会社 マッチング測定装置、方法およびプログラム
JP2020190970A (ja) * 2019-05-23 2020-11-26 株式会社日立製作所 文書処理装置およびその方法、プログラム
US11373198B2 (en) 2016-12-02 2022-06-28 Honda Motor Co., Ltd. Evaluation device, evaluation method, and evaluation program

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE46973E1 (en) 2001-05-07 2018-07-31 Ureveal, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US8589413B1 (en) 2002-03-01 2013-11-19 Ixreveal, Inc. Concept-based method and system for dynamically analyzing results from search engines
JP5368100B2 (ja) * 2005-10-11 2013-12-18 アイエックスリビール インコーポレイテッド 概念ベースの検索および解析のためのシステム、方法、およびコンピュータプログラム製品
US7886220B2 (en) * 2006-02-16 2011-02-08 Xerox Corporation Smart layer rendering
US20070219986A1 (en) * 2006-03-20 2007-09-20 Babylon Ltd. Method and apparatus for extracting terms based on a displayed text
US8255383B2 (en) * 2006-07-14 2012-08-28 Chacha Search, Inc Method and system for qualifying keywords in query strings
WO2008055034A2 (en) * 2006-10-30 2008-05-08 Noblis, Inc. Method and system for personal information extraction and modeling with fully generalized extraction contexts
US7724918B2 (en) * 2006-11-22 2010-05-25 International Business Machines Corporation Data obfuscation of text data using entity detection and replacement
US8396850B2 (en) * 2009-02-27 2013-03-12 Red Hat, Inc. Discriminating search results by phrase analysis
US8527500B2 (en) * 2009-02-27 2013-09-03 Red Hat, Inc. Preprocessing text to enhance statistical features
US8386511B2 (en) * 2009-02-27 2013-02-26 Red Hat, Inc. Measuring contextual similarity
US9588963B2 (en) * 2009-03-18 2017-03-07 Iqintell, Inc. System and method of grouping and extracting information from data corpora
US9245243B2 (en) * 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
US10891659B2 (en) 2009-05-29 2021-01-12 Red Hat, Inc. Placing resources in displayed web pages via context modeling
WO2011086820A1 (ja) * 2010-01-15 2011-07-21 日本電気株式会社 情報処理装置、情報処理方法、及びコンピュータ読み取り可能な記録媒体
JP5444115B2 (ja) * 2010-05-14 2014-03-19 株式会社Nttドコモ データ検索装置、データ検索方法及びプログラム
US9886446B1 (en) * 2011-03-15 2018-02-06 Veritas Technologies Llc Inverted index for text searching within deduplication backup system
JP5442799B2 (ja) * 2012-04-27 2014-03-12 楽天株式会社 タグ管理装置、タグ管理方法、タグ管理プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP5568194B1 (ja) * 2013-10-25 2014-08-06 楽天株式会社 検索システム、検索条件設定装置、検索条件設定装置の制御方法、プログラム、及び情報記憶媒体
CN105279283A (zh) * 2015-11-20 2016-01-27 上海熠派信息科技有限公司 一种公司名称编码系统
US11182393B2 (en) * 2017-02-21 2021-11-23 International Business Machines Corporation Spatial data analyzer support
US10872107B2 (en) * 2017-06-30 2020-12-22 Keysight Technologies, Inc. Document search system for specialized technical documents
CN113297254A (zh) * 2021-06-21 2021-08-24 中国农业银行股份有限公司 一种概念化查询方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288201A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 質問応答処理方法,質問応答処理プログラム,質問応答処理プログラム記録媒体および質問応答処理装置
JP2004029906A (ja) * 2002-06-21 2004-01-29 Fuji Xerox Co Ltd 文書検索装置および方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5794237A (en) * 1995-11-13 1998-08-11 International Business Machines Corporation System and method for improving problem source identification in computer systems employing relevance feedback and statistical source ranking
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
EP1486891A3 (en) * 1997-02-12 2005-03-09 Kokusai Denshin Denwa Co., Ltd Document retrieval apparatus
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6098066A (en) * 1997-06-13 2000-08-01 Sun Microsystems, Inc. Method and apparatus for searching for documents stored within a document directory hierarchy
US6269368B1 (en) * 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
US6513032B1 (en) * 1998-10-29 2003-01-28 Alta Vista Company Search and navigation system and method using category intersection pre-computation
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6385611B1 (en) * 1999-05-07 2002-05-07 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
JP2001084169A (ja) * 1999-09-10 2001-03-30 Ricoh Co Ltd 文書データベースアクセス装置
JP2002175331A (ja) * 2000-12-07 2002-06-21 Patent Mall:Kk 特許分類表示方法、装置、記録媒体およびプログラム
US7162465B2 (en) * 2001-12-21 2007-01-09 Tor-Kristian Jenssen System for analyzing occurrences of logical concepts in text documents
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
US7152059B2 (en) * 2002-08-30 2006-12-19 Emergency24, Inc. System and method for predicting additional search results of a computerized database search user based on an initial search query
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
US7071011B2 (en) * 2004-01-15 2006-07-04 Powerchip Semiconductor Corp. Method of defect review

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002288201A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 質問応答処理方法,質問応答処理プログラム,質問応答処理プログラム記録媒体および質問応答処理装置
JP2004029906A (ja) * 2002-06-21 2004-01-29 Fuji Xerox Co Ltd 文書検索装置および方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272888A (ja) * 2006-03-30 2007-10-18 Internatl Business Mach Corp <Ibm> ファイルシステムの検索ランキング方法および関連の検索エンジン
JP2011070453A (ja) * 2009-09-25 2011-04-07 Five Drive Inc 調達情報検索システム
JP2012027788A (ja) * 2010-07-26 2012-02-09 Fyuutorekku:Kk 文書検索システム、文書検索方法およびプログラム
KR20130093889A (ko) * 2012-02-15 2013-08-23 한국전자통신연구원 한국어 키워드 검색문 해석 장치 및 방법
KR101696499B1 (ko) 2012-02-15 2017-01-13 한국전자통신연구원 한국어 키워드 검색문 해석 장치 및 방법
WO2017090175A1 (ja) * 2015-11-27 2017-06-01 株式会社日立製作所 検証支援システム及び方法
JPWO2017090175A1 (ja) * 2015-11-27 2017-11-24 株式会社日立製作所 検証支援システム及び方法
JP2018092574A (ja) * 2016-12-02 2018-06-14 本田技研工業株式会社 評価装置、評価方法、および評価プログラム
US11373198B2 (en) 2016-12-02 2022-06-28 Honda Motor Co., Ltd. Evaluation device, evaluation method, and evaluation program
JP2018124729A (ja) * 2017-01-31 2018-08-09 Kpmgコンサルティング株式会社 マッチング測定装置、方法およびプログラム
JP2020190970A (ja) * 2019-05-23 2020-11-26 株式会社日立製作所 文書処理装置およびその方法、プログラム

Also Published As

Publication number Publication date
US20060015486A1 (en) 2006-01-19
US7571383B2 (en) 2009-08-04
JP4587163B2 (ja) 2010-11-24

Similar Documents

Publication Publication Date Title
JP4587163B2 (ja) 検索システム、検索方法、報告システム、報告方法、及びプログラム
Maedche et al. The ontology extraction & maintenance framework Text-To-Onto
US8712926B2 (en) Using rule induction to identify emerging trends in unstructured text streams
JP5241828B2 (ja) 辞書の単語及び熟語の判定
CA2711665C (en) Aspect-based sentiment summarization
US7953754B2 (en) Method and system for finding the focus of a document
US8595245B2 (en) Reference resolution for text enrichment and normalization in mining mixed data
JP5313337B2 (ja) モバイル・コンピューティング装置に対する検索結果の提供
US7284009B2 (en) System and method for command line prediction
EP0889419A2 (en) Keyword extracting system and text retrieval system using the same
JP3266586B2 (ja) データ分析システム
WO2008098956A1 (en) Method and apparatus for automatically discovering features in free form heterogeneous data
JP2012093927A (ja) ファイル管理装置及びファイル管理方法
US7739743B2 (en) Information presentation apparatus, and information presentation method and program for use therein
US20220342896A1 (en) Method and system for document indexing and retrieval
US20080215585A1 (en) System and method for creation, representation, and delivery of document corpus entity co-occurrence information
JP5836893B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
JP5046170B2 (ja) 検索システム、検索方法、報告システム、報告方法、及びプログラム
JP5218409B2 (ja) 関連情報検索システム及び関連情報検索方法
US20160246794A1 (en) Method for entity-driven alerts based on disambiguated features
Neri et al. Mining the web to monitor the political consensus
JP2006065366A (ja) キーワード分類装置およびその方法、端末装置ならびにプログラム
JP7364512B2 (ja) ラベル付与モデル生成装置、及びラベル付与モデル生成方法
JP2002288189A (ja) 文書分類方法及び文書分類装置並びに文書分類処理プログラムを記録した記録媒体
US20190147109A1 (en) Methods for performing a search and devices thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100824

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20100825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100831

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees