JP5046170B2 - SEARCH SYSTEM, SEARCH METHOD, REPORT SYSTEM, REPORT METHOD, AND PROGRAM - Google Patents
SEARCH SYSTEM, SEARCH METHOD, REPORT SYSTEM, REPORT METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP5046170B2 JP5046170B2 JP2010111458A JP2010111458A JP5046170B2 JP 5046170 B2 JP5046170 B2 JP 5046170B2 JP 2010111458 A JP2010111458 A JP 2010111458A JP 2010111458 A JP2010111458 A JP 2010111458A JP 5046170 B2 JP5046170 B2 JP 5046170B2
- Authority
- JP
- Japan
- Prior art keywords
- concept
- document data
- search
- document
- search sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、検索システム、検索方法、報告システム、報告方法、及びプログラムに関する。特に本発明は、複数の文書データから文書データを検索し、特定の概念を有する文書データの数が増加していることを報告する検索システム、検索方法、報告システム、報告方法、及びプログラムに関する。 The present invention relates to a search system, a search method, a report system, a report method, and a program. In particular, the present invention relates to a search system, a search method, a report system, a report method, and a program that search document data from a plurality of document data and report that the number of document data having a specific concept is increasing.
従来、複数の文書データから、入力された検索文により指定される内容を含む文書データを検索する検索システムとして、文書データ中に検索文自体が完全に含まれていなくても、検索意図を反映して適切な文書を検索する検索システムが研究されている。このような検索システムは、例えば製品の製造メーカにおいて、コールセンターに寄せられた製品についての問い合わせ及び問い合わせに対する回答を文書データとしてテキスト化したコールログデータベースを作成し、このデータベースを活用して問い合わせに対する回答を適切に行うための支援システムの基本技術として活用できる(非特許文献5参照。)。 Conventionally, as a search system that searches document data that includes the contents specified by the input search sentence from multiple document data, the search intention is reflected even if the search sentence itself is not completely included in the document data. Search systems that search for appropriate documents are being studied. Such a search system, for example, in a product manufacturer, creates a call log database in which an inquiry about a product sent to a call center and an answer to the inquiry are converted into text as document data, and the answer to the inquiry is made using this database. Can be utilized as a basic technology of a support system for appropriately performing (see Non-Patent Document 5).
このような検索システムの一例として、検索に用いる検索文や文書データから自立語のキーワードを抽出する際に曖昧性を考慮するものが提案されている(非特許文献1、2及び6参照。)。また、検索をより正確に行うため、キーワードとして、付属語で表現される意味を組み込むものが提案されている(非特許文献5参照。)。更に、検索文や文書データ中にキーワードが含まれるか否かのみでなく、単語間の係り受けを考慮するものが提案されている(非特許文献4、特許文献1及び2参照。)。また、質問文に対する答えを出力するシステムとして、質問に対する正解例に基づいて学習するものが提案されている(非特許文献3参照。)。
As an example of such a search system, a system that considers ambiguity when extracting a keyword of an independent word from a search sentence or document data used for search has been proposed (see Non-Patent
また、企業にとって、顧客との信頼関係を確立し、製品の品質や顧客サポートを更に向上していくことが重要である。このため、企業において、製品やサービス上の問題を早期発見することが望まれており、この問題発見の手段としてコールセンターのコールログを活用することが期待される。 It is also important for companies to establish relationships of trust with customers and further improve product quality and customer support. For this reason, it is desirable for companies to detect problems in products and services at an early stage, and it is expected that call logs of call centers will be used as means for finding problems.
このように順次蓄積される情報から問題を検知する方法としては、非特許文献7が提案されている。また、このような方法の一例として、文書ストリーム中において特定のキーワードに関する文書の入力間隔が小さくなっている部分を判定して問題を検知するシステムが提案されている(非特許文献8参照。)。更に、この判定において時間当たりの書き込み数を考慮するもの(非特許文献9参照。)や、特定のトピックの出現回数がしきい値を超えた場合に警告を発するもの(非特許文献10参照。)や、キーワードの頻度が増加したことを検知し急騰話題を抽出するもの(非特許文献11参照。)等が提案されている。また、製品等における既知の不具合の事例を用いて予測的解析を行うものが提案されている(非特許文献12参照。)。
[先行技術文献]
[特許文献1]特開平11−259524号公報
[特許文献2]特許3266586号公報
[非特許文献1]JUSTSYSTEM、「ConceptBase 技術とは」、[online]、平成15年7月30日、JUSTSYSTEM、[平成16年6月30日検索]、インターネット<URL: http://www.justsystem.co.jp/km/whats/search_q_104.html>
[非特許文献2]NRI、「サービスについて(NRIサイバーパテント)」、[online]、[平成16年6月30日検索]、インターネット<URL: http://www.patent.ne.jp/01gaiyo/s-point/06.html>
[非特許文献3]佐々木他、「SVMを用いた学習型質問応答システムSAIQA-II」、情報処理学会論文誌、Vol. 45、No 02、2004年
[非特許文献4]松村他、「単語間の係受け関係を用いた情報検索手法の評価」、情報処理学会論文誌、Vol. 41、No. SIG01-003、2000年
[非特許文献5]T. Nasukawa and T. Nagano, "Text analysis and knowledge mining system", IBM Systems Journal, Vol. 40, No. 4, 2001年
[非特許文献6]Autonomy, "Conceptual Search", [online], [平成16年6月30日検索]、インターネット<URL: http://www.autonomy.com/c/content/Products/IDOL/f/Conceptual_Search>
[非特許文献7]T. Fawcett and F. Provost, "Activity monitoring: Noticing interesting changes in behavior.", In Proc. Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 53--62, 1999年
[非特許文献8]Jon Kleinberg, "Bursty and hierarchical structure in streams", In Proc.The 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2002年
[非特許文献9]藤木 稔明,南野 朋之,鈴木 泰裕,奥村 学、「document streamにおけるburstの発見」、情報処理学会研究報告、2004-NL-160、p.85-92
[非特許文献10]山西健司、「テキストマイニングとNLPビジネス」、[online]、NEC、[平成16年6月30日検索]、インターネット<URL:http://it.jeita.or.jp/eltech/committee/knowledge/PDF/2003/Yamanishi.pdf
[非特許文献11]野村総合研究所、「True Tellerとは?」、[online]、[平成16年6月30日検索]、インターネット<URL: http://www.trueteller.net/about/index.shtml>
[非特許文献12]JUSTSYSTEM、「Alize」、[online]、[平成16年6月30日検索]、インターネット<URL: http://www.justsystem.co.jp/km/ssm>
Non-patent document 7 has been proposed as a method of detecting a problem from information sequentially accumulated in this way. In addition, as an example of such a method, a system has been proposed in which a problem is detected by determining a portion of a document stream where a document input interval related to a specific keyword is small (see Non-Patent Document 8). . Further, in this determination, the number of writing per time is taken into consideration (see Non-Patent Document 9), or a warning is issued when the number of appearances of a specific topic exceeds a threshold (see Non-Patent Document 10). ), And those that detect that the frequency of keywords has increased and extract a sudden topic (see Non-Patent Document 11) have been proposed. Moreover, what performs a predictive analysis using the case of the known malfunction in a product etc. is proposed (refer nonpatent literature 12).
[Prior art documents]
[Patent Document 1] Japanese Patent Application Laid-Open No. 11-259524 [Patent Document 2] Japanese Patent 3266586 [Non-Patent Document 1] JUSTSYSTEM, “What is ConceptBase Technology”, [online], July 30, 2003, JUSTSYSTEM, [Search June 30, 2004], Internet <URL: http://www.justsystem.co.jp/km/whats/search_q_104.html>
[Non-Patent Document 2] NRI, “About Services (NRI Cyber Patent)”, [online], [Search June 30, 2004], Internet <URL: http://www.patent.ne.jp/01gaiyo /s-point/06.html>
[Non-patent document 3] Sasaki et al., “Learning-type question answering system SAIQA-II using SVM”, IPSJ Journal, Vol. 45, No 02, 2004 [Non-patent document 4] Matsumura et al., “Word Evaluation of Information Retrieval Method Using Dependency Relationship between Information Processing, ”IPSJ Journal, Vol. 41, No. SIG01-003, 2000 [Non-Patent Document 5] T. Nasukawa and T. Nagano,“ Text analysis and knowledge mining system ", IBM Systems Journal, Vol. 40, No. 4, 2001 [Non-Patent Document 6] Autonomy," Conceptual Search ", [online], [Search June 30, 2004], Internet < URL: http://www.autonomy.com/c/content/Products/IDOL/f/Conceptual_Search>
[Non-Patent Document 7] T. Fawcett and F. Provost, "Activity monitoring: Noticing interesting changes in behavior.", In Proc. Fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 53--62, 1999 [ Non-Patent Document 8] Jon Kleinberg, "Bursty and hierarchical structure in streams", In Proc. The 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002 [Non-patent document 9] Fujiaki Yasuaki, Minamino Yasuyuki, Suzuki Yasuhiro, Okumura Manabu, "Discovery of burst in document stream", Information Processing Society of Japan, 2004- NL-160, p.85-92
[Non-Patent Document 10] Kenji Yamanishi, “Text Mining and NLP Business”, [online], NEC, [Search June 30, 2004], Internet <URL: http://it.jeita.or.jp/ eltech / committee / knowledge / PDF / 2003 / Yamanishi.pdf
[Non-Patent Document 11] Nomura Research Institute, “What is True Teller?”, [Online], [Search June 30, 2004], Internet <URL: http://www.trueteller.net/about/ index.shtml>
[Non-Patent Document 12] JUSTSYSTEM, “Alize”, [online], [searched on June 30, 2004], Internet <URL: http://www.justsystem.co.jp/km/ssm>
このような分野においては、コールを受けたスタッフが問い合わせの内容を検索文として入力し、検索意図に沿った文書データを効率良く検索することが望まれる。 In such a field, it is desired that the staff who receives the call inputs the contents of the inquiry as a search sentence and efficiently searches the document data according to the search intention.
キーワード抽出において曖昧性を考慮する検索システムにおいて、キーワードとして自立語のみを対象とした場合、例えば「ハードディスクを認識しない」という検索文から「ハードディスク」及び「認識」が抽出される。この結果、「認識しない」という検索意図が欠落し、「認識する」という文書データまでも検索されてしまう。 In a search system that considers ambiguity in keyword extraction, when only an independent word is targeted as a keyword, for example, “hard disk” and “recognition” are extracted from a search sentence “does not recognize hard disk”. As a result, the search intention “not recognized” is lost, and even document data “recognized” is searched.
また、キーワードとして付属語を考慮した場合、「ハードディスクを認識しない」という検索文から「ハードディスク」及び「認識[否定]」が抽出され、「認識しない」という検索意図が反映される。しかし、指定されたキーワードが文書中に現れる否かに基づいて検索されるため、「CD−ROMは認識できないが、ハードディスクは認識する」という文書データが検索されてしまう。 In addition, when an ancillary word is considered as a keyword, “hard disk” and “recognition [denial]” are extracted from a search sentence “does not recognize hard disk”, and the search intention “does not recognize” is reflected. However, because the search is performed based on whether or not the specified keyword appears in the document, document data “CD-ROM cannot be recognized but hard disk is recognized” is searched.
また、単語間の係り受けを考慮した場合であっても、検索意図を表現する様々な表現形式、例えば「ハードディスクが認識できない」や「ハードディスクが見えない」等の表現形式を一致させるのが困難である。なぜなら、各単語を類義語の範囲で拡張して検索文を意味的に解析したとしても、「ハードディスクが見えない」等の特定の状況でのみ使用する表現(単語の組み合わせ)を適切に区別できないためである。 In addition, even when taking into account dependency between words, it is difficult to match various expression formats that express search intent, for example, “Unable to recognize hard disk” and “Invisible hard disk”. It is. Because, even if each word is expanded in the range of synonyms and the search sentence is semantically analyzed, expressions (word combinations) used only in a specific situation such as “I can't see the hard disk” cannot be properly distinguished. It is.
更に、問題発見の手段としてコールセンターのコールログを活用する場合、単語ベースの処理においては個々の問題を表現する単語が少なく問題の切り分けが困難である。また、増加が報告されたキーワードによりどのような問題が生じているかを判別することができない。また、新たな製品については、全ての問題についてのコール数が増加する傾向となるが、このような状況において特定の問題を早期に発見することが難しい。 Further, when call center call logs are used as means for finding problems, it is difficult to isolate problems in word-based processing because there are few words expressing individual problems. Further, it is impossible to determine what kind of problem is caused by the keyword for which the increase has been reported. In addition, for new products, the number of calls for all problems tends to increase, but it is difficult to find a specific problem early in such a situation.
そこで本発明は、上記の課題を解決することのできる検索システム、検索方法、報告システム、報告方法、及びプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。 Accordingly, an object of the present invention is to provide a search system, a search method, a report system, a report method, and a program that can solve the above-described problems. This object is achieved by a combination of features described in the independent claims. The dependent claims define further advantageous specific examples of the present invention.
本発明の第1の形態によると、複数の文書データから、入力された検索文により指定される内容を含む文書データを検索する検索システムであって、前記複数の文書データを記憶する文書データベースと、一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、前記検索文に含まれるキーワードに基づいて、前記検索文に対応する前記概念である検索文概念を抽出する検索文概念抽出部と、前記複数の文書データのそれぞれのうち、前記検索文概念が前記文書概念の上位階層又は下位階層の概念となる前記文書データを検索する概念検索部と、前記概念検索部により検索された前記文書データを、前記検索文により指定される内容を含む前記文書データとして出力する検索結果出力部とを備える検索システムと、当該検索システムに関する検索方法、プログラム及び記録媒体とを提供する。 According to a first aspect of the present invention, there is provided a search system for searching document data including content specified by an input search sentence from a plurality of document data, the document database storing the plurality of document data, Based on a concept database that stores a plurality of predetermined concepts and a keyword included in each of the document data by using a hierarchical structure in which another concept including the one concept is an upper hierarchy of the one concept. A document data concept extracting unit that extracts the document concept that is the concept corresponding to the document data, and a search sentence concept that is the concept corresponding to the search sentence based on a keyword included in the search sentence The search sentence concept extraction unit, and the search sentence concept of each of the plurality of document data is a concept of an upper hierarchy or a lower hierarchy of the document concept A search system comprising: a concept search unit that searches for document data; and a search result output unit that outputs the document data searched by the concept search unit as the document data including content specified by the search sentence; A search method, a program, and a recording medium relating to the search system are provided.
本発明の第2の形態によると、複数の文書データが順次入力される報告システムであって、入力された文書データを順次記憶する文書データベースと、一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、前記文書データベース内の前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する概念比率算出部と、それぞれの前記概念に対応する基準比率に対する、前記概念比率算出部により算出された比率の大きさを示す相対頻度を算出する相対頻度算出部と、前記複数の概念のうち、前記相対頻度が予め定められたしきい値以上となる前記概念を選択する多頻度概念選択部と、前記多頻度概念選択部が選択した第1の前記概念と、前記第1の概念の上位階層の第2の前記概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択する優先概念選択部と、前記第1の概念又は前記第2の概念のうち、前記優先概念選択部により選択された前記概念の相対頻度が高くなっていることを、使用者へ通知する通知部とを備える報告システムと、当該報告システムに関する報告方法、プログラム及び記録媒体とを提供する。 According to the second aspect of the present invention, there is provided a reporting system in which a plurality of document data is sequentially input, the document database storing the input document data sequentially, and other concepts including one concept. A concept database that stores a plurality of predetermined concepts, and a document concept that is the concept corresponding to the document data, based on a keyword included in each of the document data. A document data concept extraction unit that extracts the document data, a concept ratio calculation unit that calculates a ratio of the number of document data corresponding to each concept to the number of document data in the document database, and each of the concepts A relative frequency calculation unit that calculates a relative frequency indicating the magnitude of the ratio calculated by the concept ratio calculation unit with respect to a corresponding reference ratio; Of a plurality of concepts, a frequent concept selection unit that selects the concept having a relative frequency equal to or higher than a predetermined threshold, the first concept selected by the frequent concept selection unit, and the first A priority concept selection unit that selects one of the second concept and the second concept in the upper hierarchy of the concept based on the relative frequency of the first concept and the second concept; and the first concept or the first concept A reporting system including a notifying unit for notifying a user that the relative frequency of the concept selected by the priority concept selecting unit among the two concepts is high, and a reporting method and program related to the reporting system And a recording medium.
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。 The above summary of the invention does not enumerate all the necessary features of the present invention, and sub-combinations of these feature groups can also be the invention.
本発明によれば、検索文の内容を適切に反映して文書データを検索すると共に、順次追加される文書データから適切に問題発生を検出することができる。 According to the present invention, it is possible to search document data by appropriately reflecting the contents of a search sentence and to appropriately detect occurrence of a problem from sequentially added document data.
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。 Hereinafter, the present invention will be described through embodiments of the invention. However, the following embodiments do not limit the invention according to the scope of claims, and all combinations of features described in the embodiments are included. It is not necessarily essential for the solution of the invention.
図1は、本発明の実施形態に係る検索システム10の構成を示す。検索システム10は、複数の文書データから、利用者等により入力された検索文により指定される内容を含む文書データを適切に検索する。本実施形態において、検索システム10は、一例として、コールセンターに寄せられた製品についての問い合わせとその回答をテキスト化した文書データを検索するものである。
FIG. 1 shows a configuration of a
検索システム10は、文書DB100と、概念DB105(概念データベース)と、製品DB106(製品データベース)と、構成要素DB107(構成要素データベース)と、辞書DB110(辞書データベース)と、類義語DB115(類義語データベース)と、文書データ正規化部120と、概念抽出規則DB125と、文書データ概念抽出部130と、検索インデクスDB135(検索インデクスデータベース)と、検索文正規化部140と、検索文概念抽出部145と、概念検索部150と、概念選択支援部155と、検索結果出力部160とを備える。
The
文書DB100は、複数の文書データを記憶する。本実施形態において、文書DB100は、製品についての複数の不具合のそれぞれについて、当該不具合の内容を示す、例えば製品の使用者からの問い合わせと問い合わせに対する回答との内容を含む文書データを記憶する。この文書データは、問い合わせ及び回答が行われる度に順次蓄積されていく。
The document DB 100 stores a plurality of document data. In the present embodiment, the
概念DB105は、一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する。ここで、概念とは、検索システム10の製造者又は使用者により予め定義され、検索システム10が扱う文章の意味内容を体系的に分類した個々の情報である。本実施形態に係る概念DB105は、製品についての複数の不具合を特定する複数の概念を記憶する。
The
製品DB106は、複数の製品の製品名の包含関係を階層構造により記憶する。構成要素DB107は、製品の各構成要素の包含関係を階層構造により記憶する。辞書DB110は、単語の品詞や正規表現等を記述した辞書を記憶する。類義語DB115は、予め定められた語句と、当該語句の類義語であるキーワードとの対応付けを記憶する。
The product DB 106 stores an inclusion relationship of product names of a plurality of products in a hierarchical structure. The
文書データ正規化部120は、辞書DB110を用いて、文書DB100に記憶されたそれぞれの文書データの形態素解析及び構文解析を行う。また、文書データ正規化部120は、類義語DB115を用いて、それぞれの文書データに含まれる語句を、当該語句の類義語であるキーワードに置換することにより、当該文書データを正規化する。
The document
概念抽出規則DB125は、1又は複数のキーワードと、当該1又は複数のキーワードの意味内容を示す概念との組を含む概念抽出規則を記憶する。文書データ概念抽出部130は、それぞれの文書データに含まれるキーワードに基づいて、当該文書データに対応する概念である文書概念を抽出する。本実施形態に係る文書データ概念抽出部130は、文書データに含まれる1又は複数のキーワードに対して概念抽出規則DB125に格納された概念抽出規則を適用し、1又は複数のキーワードに対応する概念に変換する。検索インデクスDB135は、それぞれの文書データについて、文書データ概念抽出部130により抽出された、当該文書データの文書概念と、当該文書データとの対応付けを記憶する。
The concept
検索文正規化部140は、文書データ正規化部120と同様にして、検索文の形態素解析及び構文解析を行うと共に、検索文を正規化する。検索文概念抽出部145は、文書データ正規化部120と同様にして、検索文に含まれるキーワードに基づいて、検索文に対応する概念である検索文概念を抽出する。
Similar to the document
概念検索部150は、検索インデクスDB135を用いて、複数の文書データのうち、検索文概念に対応する文書概念を有する文書データを検索する。この際、概念検索部150は、複数の文書データのそれぞれのうち、検索文概念が文書概念の上位階層又は下位階層の概念となる文書データを検索する。概念選択支援部155は、検索システム10の使用者の指示に基づいて、検索文概念の上位概念化及び/又は下位概念化を支援する。
The
検索結果出力部160は、概念検索部150により検索された文書データを、検索文により指定される内容を含む文書データとして出力する。
The search
以上に示した検索システム10によれば、予め定められた階層構造により概念の包含関係を体系化して定義しておき、検索文概念と文書概念の包含関係を考慮して文書データを検索することができる。これにより、検索文及び文書データを適切に概念にマッピングして、検索文の内容を適切に反映した検索を行うことができる。
According to the
図2は、本発明の実施形態に係る概念DB105が記憶する不具合の概念階層の一例を示す。
本実施形態に係る概念DB105は、一例として、ある物又は構成要素を特定する概念を上位階層とし、その物又は構成要素の状態等を説明する概念を下位階層とした階層構造を記憶する。
FIG. 2 shows an example of a concept hierarchy of defects stored in the
The
不具合の概念階層は、一の概念を意味的に包含する他の概念を一の概念の上位階層とする階層構造により、製品に発生し得る各不具合を特定する各概念を体系的にまとめたものである。例えば、図2の階層構造におけるノードである「ハードウェア」は、「ハードウェアに不具合がある」という意味内容の概念であり、「/不具合/ハードウェア」と表される。また、「ハードディスク」は、「ハードウェアの(一部である)ハードディスクに不具合がある」という意味内容の概念であり、「/不具合/ハードウェア/ハードディスク」と表される。 The concept hierarchy of defects is a systematic summary of each concept that identifies each defect that can occur in a product, with a hierarchical structure in which other concepts that semantically include one concept are the upper hierarchy of one concept. It is. For example, “hardware” which is a node in the hierarchical structure of FIG. 2 is a concept of meaning content “hardware has a defect” and is represented as “/ fault / hardware”. “Hard disk” is a concept of the meaning content “a hard disk (which is a part) has a defect” and is represented as “/ failure / hardware / hard disk”.
本実施形態において、下位階層の概念は、当該概念の上位階層の概念に意味的に包含される。例えば、「ハードウェアの(一部である)ハードディスクに不具合がある」を示す概念である「/不具合/ハードウェア/ハードディスク」は、「ハードウェアに不具合がある」を示す概念である「/不具合/ハードウェア」の一形態であり、下位階層の概念が成立する場合に上位階層の概念も成立する包含関係を有する。同様に、「ハードウェアの(一部である)ディスプレイがちらつく不具合がある」を示す概念である「/不具合/ハードウェア/ディスプレイ/ちらつき」は、「ハードウェアの(一部である)ディスプレイが不具合がある」を示す概念である「/不具合/ハードウェア/ディスプレイ」の一形態であり、上位概念に包含される。 In the present embodiment, the concept of the lower hierarchy is semantically included in the concept of the upper hierarchy of the concept. For example, “/ defect / hardware / hard disk”, which is a concept indicating that “a hardware (part of) hard disk has a defect”, is a concept indicating “defect in hardware” “/ defect. / Hardware ”and has an inclusive relationship in which the concept of the upper hierarchy is also established when the concept of the lower hierarchy is established. Similarly, “/ defect / hardware / display / flicker”, which is a concept indicating that “the display of the hardware (which is a part) flickers”, This is a form of “/ defect / hardware / display”, which is a concept indicating “defect”, and is included in the superordinate concept.
また、本実施形態において、概念DB105は、製品の構成要素に不具合があることを示す概念(例えば「不具合/ハードウェア」)の下位階層に、当該構成要素の不具合の状態を示す概念(例えば「不具合/ハードウェア/騒音」)又は当該構成要素の一部分の構成要素を示す概念(例えば「不具合/ハードウェア/ハードディスク」を設けた階層構造により複数の概念を記憶する。
Further, in the present embodiment, the
図3は、本発明の実施形態に係る製品DB106が記憶する製品の概念階層の一例を示す。
製品の概念階層は、複数の製品のそれぞれの製品名を示す概念の包含関係を階層構造により体系的にまとめたものである。本実施形態においては、不具合の概念階層と同様に、一の概念を包含する他の概念を一の概念の上位階層とする階層構造が用いられる。例えば、図3における「/製品/PC製品/ノート/シリーズA」は、「/製品/PC製品/ノート/シリーズA/モデルA1」及び「/製品/PC製品/ノート/シリーズA/モデルA2」を包含する総称的な製品名を示す概念である。
FIG. 3 shows an example of a conceptual hierarchy of products stored in the
The product concept hierarchy is a systematic collection of concept inclusions indicating product names of a plurality of products in a hierarchical structure. In the present embodiment, similarly to the concept hierarchy of defects, a hierarchical structure is used in which another concept including one concept is an upper hierarchy of the one concept. For example, “/ product / PC product / notebook / series A” in FIG. 3 is “/ product / PC product / notebook / series A / model A1” and “/ product / PC product / notebook / series A / model A2”. It is the concept which shows the generic product name which includes.
以上に示した製品の概念階層は、不具合についての階層構造とは異なる階層構造として概念DB105に記憶されてもよい。この場合、概念DB105は、 概念DB105は、複数の概念のそれぞれを、互いに異なる複数の階層構造(第1の階層構造、第2の階層構造、…)のいずれかのノードとして記憶する。
The concept hierarchy of the product shown above may be stored in the
図4は、本発明の実施形態に係る構成要素DB107が記憶する構成要素の概念階層の一例を示す。
構成要素の概念階層は、製品を構成する各構成要素を示す各概念の包含関係を、階層構造により体系的にまとめたものである。本実施形態においては、不具合の概念階層と同様に、一の概念を包含する他の概念を一の概念の上位階層とする階層構造が用いられる。例えば、図4における「構成要素/ハードウェア」は、「構成要素/ハードウェア/ハードディスク」、「構成要素/ハードウェア/CPU」、「構成要素/ハードウェア/CDドライブ」、及び「構成要素/ハードウェア/キーボード」を包含する構成要素を示す概念となる。
FIG. 4 shows an example of the conceptual hierarchy of the components stored in the
The concept hierarchy of the component is a systematic summary of the inclusion relationship of each concept indicating each component constituting the product by a hierarchical structure. In the present embodiment, similarly to the concept hierarchy of defects, a hierarchical structure is used in which another concept including one concept is an upper hierarchy of the one concept. For example, “component / hardware” in FIG. 4 includes “component / hardware / hard disk”, “component / hardware / CPU”, “component / hardware / CD drive”, and “component / This is a concept indicating components including “hardware / keyboard”.
以上に示した構成要素の概念階層は、不具合についての階層構造とは異なる階層構造として概念DB105に記憶されてもよい。
The concept hierarchies of the constituent elements described above may be stored in the
図5は、本発明の実施形態に係る検索システム10の動作フローを示す。
まず、文書データ正規化部120は、辞書DB110を用いて、文書DB100に記憶された各文書データの形態素解析及び構造解析等のテキスト解析を行う(S500)。次に、文書データ正規化部120は、テキスト解析の結果抽出された各語句を、当該語句の正書に対応するキーワードに置換して、文書データを正規化する(S505)。この際、文書データ正規化部120は、当該語句に対応して一意に定まる概念が辞書中に記録されていた場合、この概念を用いて正規化を行う。
FIG. 5 shows an operation flow of the
First, the document
次に、文書データ概念抽出部130は、それぞれの文書データに含まれるキーワードに基づいて、当該文書データの概念(文書概念)を抽出する(S510)。ここで、概念DB105が概念の階層構造を複数記憶している場合、文書データ概念抽出部130は、文書データに対応して、それぞれの階層構造について当該階層構造に属する文書概念を抽出する。すなわち例えば、概念DB105が各概念を第1の階層構造又は第2の階層構造のノードとして記憶している場合、文書データ概念抽出部130は、各文書データに対応して、第1の階層構造に属する第1の文書概念と、第2の階層構造に属する第2の文書概念とを抽出してもよい。また、文書データ概念抽出部130は、文書データに含まれるキーワードに基づいて、文書データに記述された製品名を示す文書概念、及び/又は、文書データに記述された構成要素を示す文書概念を更に抽出してもよい。そして文書データ概念抽出部130は、各文書データを識別する情報に当該文書データの文書概念を付加した検索インデクスを作成して検索インデクスDB135に格納する(S515)。
Next, the document data
検索文が入力されると(S520)、検索文正規化部140は、文書データ正規化部120と同様にして、検索文のテキスト解析を行う(S525)。次に、検索文正規化部140は、検索文に含まれる語句を、当該語句の類義語であるキーワードに置換することにより検索文を正規化する(S530)。
When a search sentence is input (S520), the search
次に、検索文概念抽出部145は、文書データ概念抽出部130と同様にして、検索文から検索文概念を抽出する(S535)。本実施形態において、検索文概念抽出部145は、S520において利用者により入力された、製品についての不具合を検索するための検索文に対応する検索文概念を抽出する。また、検索文概念抽出部145は、検索文に含まれるキーワードに基づいて、検索文に記述された構成要素を示す検索文概念、及び/又は、検索文に記述された製品名を示す検索文概念を更に抽出してもよい。
Next, the search sentence
次に、概念検索部150は、検索文から抽出した検索文概念と、文書データから抽出した文書概念とに基づいて、文書データの概念検索を行う(S540)。より具体的には、概念検索部150は、文書概念が検索文概念と同一である場合や、文書概念が検索文概念の上位階層又は下位階層の概念となる場合に、当該文書データを検索文に対応する文書データとして選択する。この際、概念検索部150は、検索文概念が、検索文が入力される前に検索インデクスDB135に格納された文書概念の上位階層又は下位階層の概念となる場合に、当該文書概念に対応する文書データを検索結果として出力する。これにより、概念検索部150は、既に抽出された文書概念に基づいて検索を行うことができ、検索する度に各文書データから文書概念を抽出する場合と比較し検索を高速に行うことができる。
Next, the
次に、検索結果出力部160は、概念検索部150により検索された文書データを検索結果として出力する(S545)。本実施形態に係る検索結果出力部160は、概念検索部150により検索された文書データを、利用者により入力された製品についての不具合の内容を示す文書データとして出力する。
Next, the search
そして、検索システム10は、次に検索文の入力を受けると、処理をS520へ進める。なお、新たな文書データが文書DB100に追加された場合、検索システム10は、処理をS500へ進めて、当該文書データから文書概念を抽出し、検索インデクスDB135へ格納する。
Then, when the
以上に示した検索システム10によれば、予め定められた階層構造により概念の包含関係を体系化して定義しておき、検索文概念と文書概念の包含関係を考慮して文書データを検索することができる。これにより、検索文及び文書データを適切に概念にマッピングして、検索文の内容を適切に反映した検索を行うことができる。このような機能は、製品に対する問い合わせ及び回答をデータベース化し、新たな問い合わせに対する対応に用いる場合のように、限られた種類の概念を正確に定義し、的確に検索可能とすることが望まれる場合に特に有効である。
According to the
図6は、本発明の実施形態に係る類義語DB115が記憶する正規化規則の一例を示す。
類義語DB115は、検索文及び文書データを正規化するために、図6に例示した正規化規則を記憶する。図6の正規化規則は、「電源を切る」又は「電源を落とす」という表現における「切る」又は「落とす」等の語句を、これらの類義語であるキーワード「遮断(する)」に置換して正規化するための規則である。文書データ正規化部120及び検索文正規化部140は、文書データ又は検索文の構文解析の結果、主語が「電源」、述語が「切る」又は「落とす」となる表現を検出した場合に、述語を「遮断(する)」に置換する。また、文書データ正規化部120及び検索文正規化部140は、単なる語句の置き換えだけでなく、「腹を立てる」を「怒る」に置換したり、「激怒する」を「非常に起こる」に置換する等の表現の正規化を、正規化規則に基づいて行ってもよい。そして、文書データ概念抽出部130は、正規化された文書データから文書概念を抽出し、検索文概念抽出部145は、正規化された検索文から検索文概念を抽出する。
FIG. 6 shows an example of normalization rules stored in the
The
このようにして、概念検索に先立って予め語句レベルで類義語を正規化することにより、検索文に対応する文書データの検索精度を高めることができる。 In this way, by synchronizing synonyms in advance at the phrase level prior to concept search, the search accuracy of document data corresponding to a search sentence can be increased.
図7は、本発明の実施形態に係る概念抽出規則DB125が記憶する概念抽出規則の一例を示す。
概念抽出規則DB125は、検索文及び文書データから抽出する概念を予め定義するために、図7に例示した概念抽出規則を記憶する。ここで、概念抽出規則は、テキスト解析により得られた文章の構文(係り受け関係等)に基づいて、構文木中の1又は複数のキーワードを、当該1又は複数のキーワードの意味内容を示す概念に変換するための規則である。図7においては、「ハードディスクを認識できない」という文章から抽出されるキーワード「ハードディスク」及び「認識」と、「認識」の係り受け関係"否定"(hitei="1")とに基づいて、概念「/不具合/ハードウェア/ハードディスク」を抽出する規則を定めている。
FIG. 7 shows an example of the concept extraction rules stored in the concept
The concept
文書データ概念抽出部130は、概念抽出規則DB125に格納されたいずれかの概念抽出規則に含まれる1又は複数のキーワードが文書データに含まれる場合に、当該概念抽出規則に含まれる概念を文書概念として抽出する。同様に、検索文概念抽出部145は、概念抽出規則DB125に格納されたいずれかの概念抽出規則に含まれる1又は複数のキーワードが検索文に含まれる場合に、当該概念抽出規則に含まれる概念を、検索文概念として抽出する。
When one or more keywords included in any one of the concept extraction rules stored in the concept
以上において、キーワード、係り受け、及び、属性のみでなく、「問題」、「要望」などの総称的な語を用いて概念抽出規則を定義し、これらに基づいて文書データ概念抽出部130及び検索文概念抽出部145により概念の抽出を行ってもよい。すなわち例えば、文書データ概念抽出部130及び検索文概念抽出部145は、「ハードディスクの問題」から、概念「/不具合/ハードウェア/ハードディスク」を抽出してもよい。
また、概念抽出規則DB125は、不具合についての概念階層のみでなく、製品や構成要素の概念階層についての概念抽出規則を更に記憶してもよい。
In the above, concept extraction rules are defined using not only keywords, dependency, and attributes but also generic terms such as “problem” and “request”, and the document data
The concept
以上の処理により、文書データ概念抽出部130及び検索文概念抽出部145は、「ノート・シリーズA・モデルA1でハードディスクを認識しない」という文章から、「不具合/ハードウェア/ハードディスク」、「製品/PC製品/ノート/シリーズA/モデルA1」、「構成要素/ハードウェア/ハードディスク」の3つの概念を抽出することができる。
Through the above processing, the document data
このように、本実施形態に係る検索システム10によれば、1又は複数のキーワードとこれらの係り受け関係とに応じて、対応する概念を予め定義しておくことができる。これにより、自然言語の文章を、検索システム10の応用分野に応じて体系化された概念に適切に変換することができる。
Thus, according to the
図8は、本発明の実施形態に係る概念検索部150の構成を示す。概念検索部150は、同一概念出力部800と、上位概念取得部810と、汎化概念出力部820と、下位概念取得部830と、特化概念出力部840とを有する。
FIG. 8 shows a configuration of the
同一概念出力部800は、検索文概念が、文書概念と一致する場合において、検索文概念を特化しない場合に、当該文書データを検索結果として検索結果出力部160に出力する。上位概念取得部810は、検索文概念が、文書概念と一致しない場合に、検索文概念の上位階層の概念である検索文上位概念を取得する。汎化概念出力部820は、検索文上位概念が、文書概念と一致する場合に、当該文書データを検索結果として出力する。下位概念取得部830は、検索文概念を下位階層の概念である検索文下位概念に置換しても同一の文書データを検索できる場合に、検索文概念を検索文下位概念に置換する。特化概念出力部840は、検索文下位概念が文書概念と一致する文書データを検索結果として出力する。
The same
図9は、本発明の実施形態に係る概念検索部150の動作フローを示す。
まず、概念検索部150は、検索文から抽出された1又は複数の検索文概念を受け取る。また、概念検索部150は、各文書データについて、当該文書データから抽出された1又は複数の文書概念を受け取る。そして、同一概念出力部800は、検索文概念が文書概念と一致する場合(S900:Yes)に、処理をS940へ進める。これにより、同一概念出力部800は、検索文概念を検索文下位概念に置換できないことを条件として(S945:No)、当該文書データを検索結果として検索結果出力部160に出力する(S910)。ここで、複数の階層構造に対応して複数の検索文概念及び複数の文書概念が抽出されている場合、同一概念出力部800は、検索文概念の全てが、いずれかの文書概念と同一である場合に、当該文書データを検索結果として出力する。例えば、「不具合/ハードウェア/ハードディスク」、「製品/PC製品/ノート/シリーズA/モデルA1」、及び「構成要素/ハードウェア/ハードディスク」の3つの検索文概念が抽出された場合、同一概念出力部800は、これら3つの概念の全てを文書概念として含む文書データを検索結果として出力する。
FIG. 9 shows an operation flow of the
First, the
一方、上位概念取得部810は、検索文概念が文書概念と一致しない場合(S900:No)に、検索文上位概念を取得する(S920)。ここで、複数の検索文概念(例えば第1の検索文概念及び第2の検索文概念)が抽出された場合、上位概念取得部810は、第1の検索文概念及び第2の検索文概念が、第1の文書概念及び第2の文書概念とそれぞれ同一でない場合に、第1の検索文概念の上位階層の第1の検索文上位概念と、第2の検索文概念の上位階層の第2の検索文上位概念とを取得する。
On the other hand, if the search sentence concept does not match the document concept (S900: No), the superordinate
本実施形態に係る上位概念取得部810は、構成要素に不具合があること又は構成要素の不具合の状態を示す、不具合の概念階層に属する検索文概念が存在する場合に、当該概念の上位階層となる概念を、検索文上位概念の1つとして取得する。また、構成要素の概念階層に属する検索文概念が存在する場合に、構成要素を示す検索文概念の上位階層となる概念を、検索文上位概念の1つとして取得する。また、製品の概念階層に属する検索文概念が存在する場合に、製品名を示す検索文概念の上位階層となる概念を、検索文概念の1つとして取得する。
The higher-level
例えば、「不具合/ハードウェア/ハードディスク」、「製品/PC製品/ノート/シリーズA/モデルA1」、及び「構成要素/ハードウェア/ハードディスク」の3つの検索文概念が抽出された場合、上位概念取得部810は、「不具合/ハードウェア」、「製品/PC製品/ノート/シリーズA」、及び「構成要素/ハードウェア」の3つの検索文上位概念を概念DB105、製品DB106、及び構成要素DB107から取得する。この結果、検索文は、検索文上位概念を用いて1階層分の汎化を行った場合、以下の3つに上位概念化される。
For example, when three search sentence concepts of “defect / hardware / hard disk”, “product / PC product / notebook / series A / model A1”, and “component / hardware / hard disk” are extracted, the superordinate concept The
(1)第1の検索文上位概念「不具合/ハードウェア」、検索文概念「製品/PC製品/ノート/シリーズA/モデルA1」、及び検索文概念「構成要素/ハードウェア/ハードディスク」の組からなる概念
すなわち例えば、文書データ概念抽出部130が、文書データに含まれるキーワードに基づいて、一の構成要素に不具合があることを示す文書概念を抽出し、検索文概念抽出部145が、検索文に含まれるキーワードに基づいて、当該一の構成要素の一部に不具合があることを示す検索概念を抽出した場合、上位概念取得部810は、当該検索文概念の上位階層の概念である、一の構成要素に不具合があることを示す概念を検索文上位概念として取得する。
(1) Set of first search sentence superordinate concept “defect / hardware”, search sentence concept “product / PC product / notebook / series A / model A1”, and search sentence concept “component / hardware / hard disk” That is, for example, the document data
同様に、文書データ概念抽出部130が、文書データに含まれるキーワードに基づいて、一の構成要素に不具合があることを示す文書概念を抽出し、検索文概念抽出部145が、検索文に含まれるキーワードに基づいて、一の構成要素の不具合の状態を示す検索文概念を抽出した場合、上位概念取得部810は、検索文概念の上位階層の概念である、一の構成要素に不具合があることを示す概念を検索文上位概念として取得する。この結果、検索結果出力部160は、検索文上位概念と一致する、一の構成要素に不具合があることを示す文書概念を有する文書データを、検索結果として出力することができる。
Similarly, the document data
(2)検索文概念「不具合/ハードウェア/ハードディスク」、第2の検索文上位概念「製品/PC製品/ノート/シリーズA」、及び検索文概念「構成要素/ハードウェア/ハードディスク」の組からなる概念
すなわち例えば、文書データ概念抽出部130が、文書データに含まれるキーワードに基づいて、一の製品名を示す文書概念を抽出し、検索文概念抽出部145が、検索文に含まれるキーワードに基づいて、当該製品名の下位階層の製品名を示す検索文概念を抽出した場合、上位概念取得部810は、検索文概念の上位階層の製品名に対応する概念を検索文上位概念として取得する。
(2) From the combination of search sentence concept “defect / hardware / hard disk”, second search sentence superordinate concept “product / PC product / note / series A”, and search sentence concept “component / hardware / hard disk” That is, for example, the document data
(3)検索文概念「不具合/ハードウェア/ハードディスク」、検索文概念「製品/PC製品/ノート/シリーズA/モデルA1」、及び第3の検索文上位概念「構成要素/ハードウェア」
すなわち例えば、文書データ概念抽出部130が、文書データに含まれるキーワードに基づいて、一の構成要素を示す文書概念を抽出し、検索文概念抽出部145が、検索文に含まれるキーワードに基づいて、当該構成要素の一部の構成要素を示す検索文概念を抽出した場合、上位概念取得部810は、検索文概念の上位階層の構成要素に対応する概念を検索文上位概念として取得する。
(3) Search sentence concept “defect / hardware / hard disk”, search sentence concept “product / PC product / notebook / series A / model A1”, and third search sentence superordinate concept “component / hardware”
That is, for example, the document data
以上において、上位概念取得部810は、検索文上位概念として、検索文概念に対して複数階層分上位階層に位置する概念を取得してもよい。この場合において、上位概念取得部810は、検索文上位概念が文書概念と一致するまで、検索文概念を上位階層の概念に順次置換し、いずれかの階層の検索文上位概念が文書概念と一致した場合に(S930:Yes)、当該検索文上位概念を用いることを決定してもよい。また、検索文に対応して、複数種類の検索文概念及び/又は検索文上位概念の組み合わせを取得した場合、汎化概念出力部820は、適切な検索文概念及び/又は検索文上位概念の組み合わせを選択する(S935)。
In the above, the higher
この処理において、汎化概念出力部820は、より情報量が高い文書データを検索可能な検索文上位概念を選択する。すなわち例えば、汎化概念出力部820は、第1の検索文上位概念及び第1の文書概念と、第2の検索文概念及び第2の文書概念とがそれぞれ同一となる第1の文書データの数が、第1の検索文概念及び第1の文書概念と、第2の検索文上位概念及び第2の文書概念とがそれぞれ同一となる第2の文書データの数より小さい場合に、第1の文書データを検索結果として出力する。これにより汎化概念出力部820は、検索対象となる文書データをより適切に選択して出力することができる。
In this processing, the generalized
次に、下位概念取得部830は、S900における検索文概念又はS935により得られた検索文概念の下位階層の概念である検索文下位概念を取得する(S940)。ここで、S935により得られた検索文概念の検索文下位概念が存在しなければ(S945:No)、汎化概念出力部820は、検索文上位概念と一致する文書概念を有する文書データ(S930参照)を検索結果として検索結果出力部160に出力する(S910)。
ここで、複数の検索文上位概念が取得された場合においては、少なくとも1つの検索文概念を上位階層の検索文上位概念とした場合に、全ての検索文概念又は検索文概念を置き換えた検索文上位概念と一致する文書概念を有する文書データを検索結果として出力する。すなわち、例えば第1の検索文上位概念及び第2の検索文上位概念が取得された場合において、汎化概念出力部820は、第1の検索文概念及び第2の検索文概念の少なくとも一方を上位階層の概念とした場合に、第1の検索文概念と一致する文書概念及び第2の検索文概念と一致する文書概念を有する文書データを検索結果として出力する。
Next, the lower
Here, in the case where a plurality of search sentence superordinate concepts are acquired, when at least one search sentence concept is set as a high-order search sentence superordinate concept, all search sentence concepts or search sentence concepts replaced with search sentence superordinate concepts Document data having a document concept that matches the superordinate concept is output as a search result. That is, for example, when the first search sentence superordinate concept and the second search sentence superordinate concept are acquired, the generalized
一方、検索文下位概念が存在する場合(S945:Yes)、下位概念取得部830は、検索文概念と同一の文書概念を有する文書データの全てが検索文概念の下位階層の概念である検索文下位概念と同一の文書概念を有することを条件として(S950:Yes)、検索文概念を当該検索文下位概念に置換し、処理をS940へ進める(S950:Yes)。そして、下位概念取得部830は、S940及びS945の処理を再度行い、検索文概念を更に特化する。
On the other hand, when a search sentence subordinate concept exists (S945: Yes), the subordinate
このようにして、下位概念取得部830は、前述の条件が成立しなくなるまで(S950:No)、検索文概念を下位階層の概念に順次置換していく。これにより、下位概念取得部830は、検索文下位概念として、検索文概念に対して複数階層分下位階層に位置する概念を選択することができる。したがって、下位概念取得部830は、検索インデクスDB135に格納された各文書データの文書概念に応じて、適切な検索文概念を選択することができる。
In this way, the lower-level
そして、特化概念出力部840は、検索文下位概念が文書概念と一致する文書データ(S950:No)を、検索結果として出力する(S910)。
Then, the specialized
以上に示した概念検索部150によれば、検索結果に応じて検索文概念を上位概念化又は下位概念化することにより、検索対象の文書データを適切に検索することができる。
According to the
なお、以上に示した処理の結果、得られた検索文概念の全てが下位階層の概念を有しない場合、検索結果出力部160は、図5のS545において、検索文概念と一致する文書概念を有する文書データの一覧を表示する。一方、いずれかの検索文概念が2以上の下位概念を有する場合には、概念選択支援部155は、当該検索文概念を2以上の下位概念のそれぞれとした場合に検索される文書データの数を利用者に表示し、利用者によりいずれかの下位概念を選択させてもよい。これに代えて、検索結果出力部160は、検索される文書データの数に基づいて、例えばエントロピーを低減する等の基準により、いずれかの下位概念を選択してもよい。
As a result of the processing described above, if all of the obtained search sentence concepts do not have a lower hierarchy concept, the search
図10は、本発明の実施形態に係る概念検索部150による汎化・特化の一例を示す。
上位概念取得部810は、検索文概念と一致する文書概念を有する文書データが存在しない場合、図9のS920に示したように検索文概念を汎化する。例えば、本図において検索文概念が「…/シリーズA/モデルA3」であった場合、同一概念出力部800は、検索文概念「…/シリーズA/モデルA3」と同一の文書概念を有する文書データを1件も抽出することができない。そこで、上位概念取得部810は、検索文概念「…/シリーズA/モデルA3」を、上位階層の検索文上位概念「…/シリーズA」に置換し汎化する。
FIG. 10 shows an example of generalization / specialization by the
When there is no document data having a document concept that matches the search sentence concept, the higher-level
この汎化により、当該検索文上位概念と同一の文書概念を有する文書データを5件抽出することができる。ここで、本図のケースにおいては、「…/シリーズA」に対応する文書データの数が、「…/シリーズA/モデルA2」に対応する文書データの数と同一であり、汎化後の検索文概念(すなわち検索文上位概念)と同一の文書概念を有する文書データの全てが、検索文下位概念「…/シリーズA/モデルA2」と同一の文書概念を有していることが分かる。このように、検索文概念と同一の文書概念を有する文書データの全てが、検索文概念の下位階層の概念である検索文下位概念と同一の文書概念を有する場合に、下位概念取得部830は、検索文概念を、当該検索文下位概念に置換して特化する。これにより、下位概念取得部830は、検索文概念を一意に特化することができる。
By this generalization, five pieces of document data having the same document concept as the search sentence superordinate concept can be extracted. Here, in the case of the figure, the number of document data corresponding to “.. ./Series A” is the same as the number of document data corresponding to “. It can be seen that all document data having the same document concept as the search sentence concept (that is, the search sentence superordinate concept) has the same document concept as the search sentence subordinate concept “... / Series A / model A2”. As described above, when all of the document data having the same document concept as the search sentence concept has the same document concept as the search sentence subordinate concept that is a concept of the lower hierarchy of the search sentence concept, the lower
なお、複数の検索文概念が抽出された場合において、下位概念取得部830は、1又は2以上の検索文概念を下位概念とした場合に同一の文書データを検索可能であれば、これらの検索文概念を下位概念に置換して特化してもよい。
When a plurality of search sentence concepts are extracted, the lower-level
図11は、本発明の実施形態に係る検索システム10の表示画面1100の一例を示す。
表示画面1100は、検索文入力画面1110と、概念操作画面1130と、検索結果出力画面1160とを備える。検索文入力画面1110は、検索システム10の利用者に検索文を入力させるための画面である。検索文正規化部140は、製品の機種名及び検索文を、検索文入力画面1110を用いて入力させ、検索ボタンにより検索開始の指示を受ける。また、検索文入力画面1110は、概念検索部150により汎化又は特化が行われた場合、その旨を例えば「シリーズAモデルA3をシリーズAに汎化しました。」のように表示する。
FIG. 11 shows an example of a display screen 1100 of the
The display screen 1100 includes a search
概念操作画面1130は、概念選択支援部155の指示に基づいて、検索文から抽出した各検索文概念を表示する。概念選択支援部155は、複数の検索文概念が抽出された場合、これらの検索文概念の関係(AND条件、OR条件)を概念操作画面1130に表示する。また、概念選択支援部155は、各検索文概念と同一の文書概念を有する文書データの数(頻度)を表示してもよい。概念選択支援部155は、検索文概念の削除ボタンにより当該検索文概念を削除する指示を受けると、当該検索文概念を検索条件から取り除く。また、上位概念ボタンにより検索文概念を上位階層の検索文上位概念に置換する指示を受けると、当該検索文概念を検索文上位概念に置換する。概念選択支援部155は、概念操作画面1130を介して検索文概念を表示し、各検索文概念に対する操作を受けることにより、検索文概念の上位概念化及び/又は下位概念化を支援する。
The
検索結果出力画面1160は、検索結果出力部160により出力される検索結果を表示する。
The search
以上に示したように、検索システム10によれば、階層構造により体系化された概念に基づいて、検索文の内容を適切に反映して文書データを検索することができる。そして、検索システム10の利用者は、表示画面1100を介して検索処理を効率良く行うことができる。
以上に示した検索システム10は、製品についての問い合わせ及び回答の検索に用いる他、各種の技術情報を文書データとして記憶しておき、検索文に基づいて検索を行う技術情報検索システムとしても使用できる。例えば、検索システム10は、各種の薬についての情報を文書データとして記憶しておき、「がん細胞を増幅させるたんぱく質」等の検索文に概念的に一致する文書データを検索するシステムとして用いられてもよい。
As described above, according to the
The
図12は、本発明の実施形態に係る報告システム20の構成を示す。報告システム20は、順次入力される文書データのそれぞれの文書概念を抽出し、特定の文書概念の頻度が所定の値以上となった場合にその旨を利用者に通知する。本実施形態に係る報告システム20は、一例として、コールセンターに寄せられた製品についての問い合わせをテキスト化した文書データから不具合を示す文書概念を抽出し、特定の文書概念の頻度が所定の値以上となった場合に当該製品に当該不具合が多発していることを通知するものである。
FIG. 12 shows the configuration of the
報告システム20は、文書DB100と、概念DB105と、製品DB106と、構成要素DB107と、辞書DB110と、類義語DB115と、文書データ正規化部120と、概念抽出規則DB125と、文書データ概念抽出部130と、検索インデクスDB135と、概念比率算出部1200と、相対頻度算出部1210と、多頻度概念選択部1220と、優先概念選択部1230と、基準頻度算出部1240と、通知部1250とを備える。ここで、文書DB100、概念DB105、製品DB106、構成要素DB107、辞書DB110、類義語DB115、文書データ正規化部120、概念抽出規則DB125、文書データ概念抽出部130、及び検索インデクスDB135は、図1に示した同一符号の部材と略同一の機能及び構成を採るため、以下相違点を除き説明を省略する。
The reporting
文書DB100は、入力された文書データを順次記憶する。本実施形態に係る文書DB100は、複数の製品のそれぞれについて、当該製品の不具合の内容を示す文書データを記憶する。概念DB105は、製品についての複数の不具合を特定する複数の概念を、図2に例示した階層構造により記憶する。
The
概念比率算出部1200は、検索インデクスDB135に格納された文書概念を用いて、文書DB100内の文書データの数に対する、それぞれの概念に対応する文書データの数の比率を算出する。概念比率算出部1200は、全製品概念比率算出部1203及び特定製品概念比率算出部1206を有する。全製品概念比率算出部1203は、比較対象となる複数の製品について、文書データの数に対する、それぞれの概念に対応する文書データの数の比率を算出する。例えば、文書DB100に格納された文書データ数が1000であり、文書概念「/不具合/ハードウェア/ハードディスク」を有する文書データの数が35の場合、当該比率は3.5%(35/1000)となる。
The concept
特定製品概念比率算出部1206は、不具合が多発していることを報告する対象となる少なくとも1つの製品について、文書データの数に対する、それぞれの概念に対応する当該製品についての文書データの数の比率を算出する。例えば、製品「/製品/PC製品/ノート/シリーズA/モデルA2」について文書DB100に格納された文書データの数が100であり、文書概念「/不具合/ハードウェア/ハードディスク」を有する文書データの数が10の場合、当該比率は10%(10/100)となる。
The specific product concept
相対頻度算出部1210は、それぞれの概念に対応する基準比率に対する、概念比率算出部1200内の特定製品概念比率算出部1206により算出された比率の大きさを示す相対頻度を算出する。本実施形態に係る相対頻度算出部1210は、全製品概念比率算出部1203が算出した比率を基準比率として用い、全製品概念比率算出部1203により算出された比率に対する、特定製品概念比率算出部1206により算出された比率の大きさを示す相対頻度を算出する。すなわち、上記の例の場合、製品「/製品/PC製品/ノート/シリーズA/モデルA2」について文書概念「/不具合/ハードウェア/ハードディスク」に対応する相対頻度は、約2.9(10%/3.5%)である。
The relative
多頻度概念選択部1220は、複数の概念のうち、相対頻度が予め定められたしきい値以上となる概念を選択する。優先概念選択部1230は、多頻度概念選択部1220が選択した第1の概念と、第1の概念の上位階層の第2の概念との一方を、第1の概念及び第2の概念の相対頻度に基づいて選択する。これにより、優先概念選択部1230は、多頻度概念選択部1220が選択した概念のうち、上位階層又は下位階層の関係にある概念の中から、報告する概念の階層を適切に選択する。
The frequent
基準頻度算出部1240は、いずれの概念を報告するかを選択する基準となる頻度を計算する。通知部1250は、第1の概念又は第2の概念のうち、優先概念選択部1230により選択された概念の相対頻度が高くなっていることを、使用者へ通知する。
The reference
以上に示した報告システム20によれば、特定の概念に対応する文書データが頻繁に入力されている場合に、概念の階層を適切に選択して、当該概念が多発していることを利用者に報告することができる。これにより、コールセンタへの問い合わせを順次文書データとして登録する文書DB100を利用し、ある製品について特定の不具合が多発していることを早期に検出し報告することができる。
According to the
なお、以上に示した報告システム20は、図1に示した検索システム10の一部として設けられてもよい。すなわち例えば、図1に示した検索システム10は、図12に示した概念比率算出部1200、相対頻度算出部1210、多頻度概念選択部1220、優先概念選択部1230、基準頻度算出部1240、及び通知部1250を更に備えてもよい。
The reporting
図13は、本発明の実施形態に係る報告システム20の動作フローを示す。図13において、図5と同一のステップ番号を付した段階は、図5と略同一の動作を行うため、以下相違点を除き説明を省略する。
FIG. 13 shows an operation flow of the
まず、報告システム20は、文書データが入力される度に、当該文書データのテキスト解析(S500)、正規化(S505)、概念抽出(S510)、及び検索インデクスの作成(S515)を行う。
First, every time document data is input, the reporting
次に、概念比率算出部1200は、文書DB100内の文書データの数に対する、それぞれの概念又は概念の組に対応する文書データの数の比率を算出する(S1340)。より具体的には、全製品概念比率算出部1203は、全ての製品についての当該比率Rallを以下の式(1)により算出し、特定製品概念比率算出部1206は、不具合を報告する対象とする製品についての当該比率Rを以下の式(2)により算出する。
Next, the concept
Rall = #(Aall∩X) / #Aall (1)
R = #(A∩X) / #A (2)
ここで、Aallは全ての製品、Aは不具合を報告する対象とする製品、Xは不具合に対応する概念又は概念の組、#Cは概念Cに対応する文書データの数を示す。ここで全ての製品とは、相対頻度算出部1210が相対頻度を算出する基準となる基準比率に寄与する複数の製品である。報告システム20は、この基準比率に寄与する製品として、図3に例示した製品の概念階層において、発生する不具合の傾向が略同一と認められる階層に対応する複数の製品を用いてよい。すなわち例えば、報告システム20は、図3における「製品/PC製品/ノート」の下位階層に位置する「シリーズA」、「シリーズB」、及び「シリーズC」等を基準比率に寄与する製品として用いてもよい。
R all = # (A all ∩X) / #A all (1)
R = # (A∩X) / #A (2)
Here, A all indicates all products, A indicates a product for which a defect is to be reported, X indicates a concept or a set of concepts corresponding to the defect, and #C indicates the number of document data corresponding to the concept C. Here, all the products are a plurality of products that contribute to a reference ratio that is a reference for the relative
なお、概念DB105が、複数の概念のそれぞれを、不具合の概念階層、製品の概念階層、及び、構成要素の概念階層等の複数の階層構造のノードとして記憶している場合、文書データ概念抽出部130は、文書データに対応して、複数の階層構造のそれぞれに属する複数の文書概念を抽出してもよい(S510)。例えば、概念DB105が複数の概念のそれぞれを第1の階層構造又は第2の階層構造のノードとして記憶している場合、文書データ概念抽出部130は、各文書データに対応して、第1の階層構造に属する第1の文書概念及び第2の階層構造に属する第2の文書概念を抽出してもよい。
When the
この場合、概念比率算出部1200は、全ての製品及び対象の製品のそれぞれについて、文書DB100内の文書データの数に対する、第1の階層構造の概念に対応する文書データの数の第1比率R1all及びR1と、第2の階層構造の概念に対応する文書データの数の第2比率R2all及びR2と、第1の階層構造の概念及び第2の階層構造の概念の組み合わせに対応する文書データの数の第3比率R1&2all及びR1&2とをそれぞれ算出しておく。
In this case, the concept
次に、相対頻度算出部1210は、それぞれの概念に対応する基準比率に対する、概念比率算出部1200内の特定製品概念比率算出部1206により算出された比率の大きさを示す相対頻度RR(=R/Rall)を算出する(S1350)。本実施形態に係る相対頻度算出部1210は、全製品概念比率算出部1203により算出された比率を基準比率とし、不具合を報告する対象とする製品についての特定製品概念比率算出部1206により算出された比率が、全ての製品についての平均的な比率に対してどれだけ大きいかを示す相対頻度を算出する。
Next, the relative
ここで、文書データに対応して第1の文書概念及び第2の文書概念の組が抽出された場合、相対頻度算出部1210は、第1の階層構造の概念X1に対応する基準比率R1allに対する第1比率R1の大きさを示す第1相対頻度RR1(=R1/R1all)と、第2の階層構造の概念X2に対応する基準比率R2allに対する第2比率R2の大きさを示す第2相対頻度RR2(=R2/R2all)と、第1の階層構造の概念及び第2の階層構造の概念の組み合わせに対応する概念X1&2に対応する基準比率R1&2allに対する、第3比率R1&2の大きさを示す第3相対頻度RR1&2(=R1&2/R1&2all)とを算出する。
Here, when a set of the first document concept and the second document concept is extracted corresponding to the document data, the relative
ここで、相対頻度算出部1210は、概念に対応する製品についての文書データの数が小さい場合に、大きい場合と比較し当該製品についての当該概念の相対頻度を小さく補正してもよい。より具体的には、相対頻度算出部1210は、相対頻度として、信頼係数80%での区間推定における、信頼区間の最小値を用いてもよい。これにより、相対頻度算出部1210は、サンプル数が少なく不具合が多発していると認定するのが難しい状態で不具合を報告するのを避けることができる。
Here, the relative
次に、多頻度概念選択部1220は、複数の概念のうち、相対頻度が予め定められたしきい値以上となる概念を選択する(S1360)。より具体的には、多頻度概念選択部1220は、複数の概念のうち、少なくとも1つの製品についての相対頻度が、予め定められたしきい値以上となる概念を選択する。ここで、文書データに対応して第1の階層構造の概念及び第2の階層構造の概念の組が複数抽出された場合、多頻度概念選択部1220は、第1の階層構造の概念及び第2の階層構造の概念の組み合わせのうち、相対頻度がしきい値以上となる第1の階層構造の概念及び第2の階層構造の概念の組を選択する。
Next, the frequent
次に、基準頻度算出部1240は、2以上の文書概念の組み合わせに対応する文書データの相対頻度がしきい値以上である場合に、これらの文書概念の組み合わせを報告するか、又は、これらの文書概念の組み合わせを上位概念化若しくは下位概念化して報告するかを選択する基準となる頻度を計算する(S1370)。
Next, when the relative frequency of the document data corresponding to the combination of two or more document concepts is equal to or higher than the threshold, the reference
より具体的には、基準頻度算出部1240は、第1の文書概念及び第2の文書概念の組を報告するか、それとも第1の文書概念として報告するかを判定するための基準頻度として、第1の文書概念及び第2の文書概念が独立事象であった場合における相対頻度の計算値RR1&2baseを算出する。基準頻度算出部1240は、当該基準頻度RR1&2baseを、第1の文書概念についての相対頻度RR1及び第2の文書概念についての相対頻度RR2に基づいて、以下の式(3)により算出する。
RR1&2base = RR1×RR2×(#(X1∩Aall)×#(X2∩Aall)) / (#(X1∩X2∩Aall)×#Aall) (3)
More specifically, the reference
RR1 & 2 base = RR1 × RR2 × (# (X1∩A all ) × # (X2∩A all )) / (# (X1∩X2∩A all ) × # A all ) (3)
次に、優先概念選択部1230は、多頻度概念選択部1220が選択した概念と、当該概念の上位階層の概念との一方を、当該概念及び当該概念の上位階層の概念の相対頻度に基づいて選択する(S1380)。優先概念選択部1230は、この上位階層の概念を、多頻度概念選択部1220が選択した概念の中から選択し用いてもよい。S1380の処理により優先概念選択部1230は、特定の概念の相対頻度がしきい値以上である場合に、当該概念を報告するか、又は、当該概念の上位階層の概念を報告するかを選択する。
Next, the priority
より具体的には、1又は複数の文書概念の組{X1,X2,…,Xn}からなる概念Xと、1又は複数の文書概念の組{Y1,Y2,…,Ym}からなる、概念Xより詳細な概念Yとのいずれを報告するかを、以下の(1)又は(2)に示すように選択する。ここで、概念Yが概念Xより詳細とは、任意のXiに対し、いずれかのYjがある概念階層においてXiと同一又は下位階層の概念であることをいい、概念Xが概念Yより一般的であるとも表現する。 More specifically, a concept X consisting of a set of one or more document concepts {X1, X2, ..., Xn} and a set of one or more document concepts {Y1, Y2, ..., Ym} Which of the more detailed concepts Y to report than X is selected as shown in (1) or (2) below. Here, concept Y is more detailed than concept X means that for any Xi, any Yj is the same or lower-level concept as Xi in a certain concept hierarchy. Concept X is more general than concept Y It is also expressed.
(1)X={X1,X2,…,Xn}、Y={Y1,Y2,…,Yn}であり、全てのXkが、ある概念階層におけるYkと同一又は上位階層の概念である場合
例えば、概念Xが「/不具合/ハードウェア/インプット・デバイス/ポインティング・デバイス」(={X1})であり、概念Yが「/不具合/ハードウェア/インプット・デバイス/ポインティング・デバイス/マウス」(={Y1})の場合である。
(1) When X = {X1, X2,..., Xn}, Y = {Y1, Y2,..., Yn}, and all Xk are the same or higher-level concepts as Yk in a certain concept hierarchy. The concept X is “/ defect / hardware / input device / pointing device” (= {X1}) and the concept Y is “/ defect / hardware / input device / pointing device / mouse” (= {Y1}).
この場合、優先概念選択部1230は、多頻度概念選択部1220が選択した概念Y(={Y1,Y2,…,Yn})と、その上位階層の概念X(={X1,X2,…,Xn})とが、以下の式(4)を満たすか否かを判断する。
(Yの相対頻度) > α×(Xの相対頻度) (4)
ただし、αは予め定められた割合であり、例えば1.5〜2程度の値をとる。
In this case, the priority
(Relative frequency of Y)> α × (Relative frequency of X) (4)
However, (alpha) is a predetermined ratio and takes the value of about 1.5-2, for example.
そして、優先概念選択部1230は、概念Yの相対頻度が、概念Xの相対頻度と比較して予め定められた割合α以上大きい場合に概念Yを選択し、予め定められた割合α以上大きくない場合に概念Xを選択する。これにより、優先概念選択部1230は、上位階層の概念Xの相対頻度が低く、概念Yの相対頻度が高い場合に概念Yを報告し、上位階層の概念Xの相対頻度ががある程度高い場合に概念Yを概念Xにまとめて報告させることができる。
Then, the prioritized
(2)X={X1,X2,…,Xn}、Y={Y1,Y2,…,Yn,…,Ym}であり、全てのXk(k=1,…,n)が、ある概念階層におけるYkと同一又は上位階層の概念である場合
例えば、概念Xが「/構成要素/ハードウェア/ファン」(={X1})であり、概念Yが「/構成要素/ハードウェア/ファン」(=Y1)&&「/問題/ハードウェア/騒音」(=Y2)の場合である。なお、"&&"は、概念Yが、概念Y1及び概念Y2のAND条件であることを示す。
(2) X = {X1, X2, ..., Xn}, Y = {Y1, Y2, ..., Yn, ..., Ym}, and all Xk (k = 1, ..., n) are in a certain concept hierarchy. For example, the concept X is “/ component / hardware / fan” (= {X1}) and the concept Y is “/ component / hardware / fan” (= = Y1) && “/ Problem / Hardware / Noise” (= Y2). “&&” indicates that the concept Y is an AND condition of the concepts Y1 and Y2.
この場合、優先概念選択部1230は、多頻度概念選択部1220が選択した概念Yと、その上位階層の概念Xとが、以下の式(5)を満たすか否かを判断する。ただし、Zは、同一の概念階層における上位階層又は下位階層の相違を考慮しない場合のXとYの差分の概念の組(={Yn+1,…,Ym}、上記の例においては{Y2})である。
(Yの相対頻度)>α×(XとZが独立事象である場合のYの相対頻度(RR1&2base)) (5)
In this case, the priority
(Relative frequency of Y)> α × (Relative frequency of Y when X and Z are independent events (RR1 & 2 base )) (5)
そして、優先概念選択部1230は、概念Yの相対頻度RR1&2が、概念X及び概念Zが独立事象であった場合における概念Yの相対頻度の計算値RR1&2baseと比較して予め定められた割合α以上大きい場合に、概念X及び概念Zの組み合わせである概念Yを選択し、予め定められた割合α以上大きくない場合に、概念Xを選択する。これにより、優先概念選択部1230は、概念Yが概念X及び概念Zの組み合わせに起因する可能性が高い場合に、概念Yを報告させることができる。
Then, the priority
なお、優先概念選択部1230は、概念Yに対して上記(1)及び(2)の両方を適用することにより、より上位階層の概念Xを求めてもよい。
Note that the priority
次に、通知部1250は、概念Y又は概念Xのうち、優先概念選択部1230により選択された概念に対応する不具合が少なくとも1つの製品に多発していることを、当該検索システム10の使用者へ通知する(S1390)。ここで上記(2)の場合、通知部1250は、優先概念選択部1230により選択された、概念X及び概念Zの組み合わせである概念Y、又は概念Xの相対頻度が高くなっていることを、使用者へ通知する。
Next, the notifying
そして、新たな文書データが文書DB100に追加されると、報告システム20は、処理をS500へ進める(S1395)。これに代えて、報告システム20は、例えば1週間等の予め定められた期間毎に、上記の処理を行ってもよい。
Then, when new document data is added to the
以上に示した報告システム20によれば、順次入力される文書データのそれぞれの文書概念を抽出し、多頻度概念選択部1220及び優先概念選択部1230により選択された概念を通知することにより、特定の文書概念又は文書概念の組の頻度が所定の値以上となった場合にその旨を利用者に通知することができる。これにより、例えばコールセンターに寄せられる製品についての問い合わせの数に応じて、製品の不具合を早期に通知することができる。
According to the
図14は、本実施形態に係るコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、及び表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、及びCD−ROMドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、及び入出力チップ2070を有するレガシー入出力部とを備える。
FIG. 14 shows an example of a hardware configuration of a
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000及びグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010及びRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
The
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、CD−ROMドライブ2060を接続する。通信インターフェイス2030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラム及びデータを格納する。CD−ROMドライブ2060は、CD−ROM2095からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
The input /
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、及び入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラムや、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050や、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を接続する。
The input /
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、CD−ROM2095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
A program provided to the
コンピュータ1900にインストールされ、コンピュータ1900を検索システム10として機能させる検索プログラムは、文書DB100を管理する文書DB管理モジュールと、概念DB105を管理する概念DB管理モジュールと、製品DB106を管理する製品DB管理モジュールと、構成要素DB107を管理する構成要素DB管理モジュールと、辞書DB110を管理する辞書DBモジュールと、類義語DB115を管理する類義語DBモジュールと、文書データ正規化モジュールと、概念抽出規則DB125を管理する概念抽出規則DBモジュールと、文書データ概念抽出モジュールと、検索インデクスDB135を管理する検索インデクスDBモジュールと、検索文正規化モジュールと、検索文概念抽出モジュールと、概念検索モジュールと、概念選択支援モジュールと、検索結果出力モジュールとを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、文書DB100と、概念DB105と、製品DB106と、構成要素DB107と、辞書DB110と、類義語DB115と、文書データ正規化部120と、概念抽出規則DB125と、文書データ概念抽出部130と、検索インデクスDB135と、検索文正規化部140と、検索文概念抽出部145と、概念検索部150と、概念選択支援部155と、検索結果出力部160としてそれぞれ機能させる。
The search program installed in the
また、コンピュータ1900にインストールされ、コンピュータ1900を報告システム20として機能させる報告プログラムは、文書DB100を管理する文書DB管理モジュールと、概念DB105を管理する概念DB管理モジュールと、製品DB106を管理する製品DB管理モジュールと、構成要素DB107を管理する構成要素DB管理モジュールと、辞書DB110を管理する辞書DBモジュールと、類義語DB115を管理する類義語DBモジュールと、文書データ正規化モジュールと、概念抽出規則DB125を管理する概念抽出規則DBモジュールと、文書データ概念抽出モジュールと、検索インデクスDB135を管理する検索インデクスDBモジュールと、全製品概念比率算出モジュール及び特定製品概念比率算出モジュールを有する概念比率算出モジュールと、相対頻度算出モジュールと、多頻度概念選択モジュールと、優先概念選択モジュールと、基準頻度算出モジュールと、通知モジュールとを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、文書DB100と、概念DB105と、製品DB106と、構成要素DB107と、辞書DB110と、類義語DB115と、文書データ正規化部120と、概念抽出規則DB125と、文書データ概念抽出部130と、検索インデクスDB135と、全製品概念比率算出部1203及び特定製品概念比率算出部1206を有する概念比率算出部1200と、相対頻度算出部1210と、多頻度概念選択部1220と、優先概念選択部1230と、基準頻度算出部1240と、通知部1250としてそれぞれ機能させる。
The report program installed in the
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク2090、CD−ROM2095の他に、DVDやCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
The program or module shown above may be stored in an external storage medium. As the storage medium, in addition to the
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. It will be apparent to those skilled in the art that various modifications or improvements can be added to the above-described embodiment. It is apparent from the scope of the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.
10 検索システム
20 報告システム
100 文書DB
105 概念DB
106 製品DB
107 構成要素DB
110 辞書DB
115 類義語DB
120 文書データ正規化部
125 概念抽出規則DB
130 文書データ概念抽出部
135 検索インデクスDB
140 検索文正規化部
145 検索文概念抽出部
150 概念検索部
155 概念選択支援部
160 検索結果出力部
800 同一概念出力部
810 上位概念取得部
820 汎化概念出力部
830 下位概念取得部
840 特化概念出力部
1100 表示画面
1110 検索文入力画面
1130 概念操作画面
1160 検索結果出力画面
1200 概念比率算出部
1203 全製品概念比率算出部
1206 特定製品概念比率算出部
1210 相対頻度算出部
1220 多頻度概念選択部
1230 優先概念選択部
1240 基準頻度算出部
1250 通知部
1900 コンピュータ
2000 CPU
2010 ROM
2020 RAM
2030 通信インターフェイス
2040 ハードディスクドライブ
2050 フレキシブルディスク・ドライブ
2060 CD−ROMドライブ
2070 入出力チップ
2075 グラフィック・コントローラ
2080 表示装置
2082 ホスト・コントローラ
2084 入出力コントローラ
2090 フレキシブルディスク
2095 CD−ROM
10
105 Concept DB
106 Product DB
107 Component DB
110 Dictionary DB
115 Synonyms DB
120 Document
130 Document Data
140 Search
2010 ROM
2020 RAM
2030
Claims (20)
一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、
それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、
前記文書データベース内の前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する概念比率算出部と、
それぞれの前記概念に対応する基準比率に対する、前記概念比率算出部により算出された比率の大きさを示す相対頻度を算出する相対頻度算出部と、
前記複数の概念のうち、前記相対頻度が予め定められたしきい値以上となる前記概念を選択する多頻度概念選択部と、
前記多頻度概念選択部が選択した第1の前記概念と、前記第1の概念の上位階層の第2の前記概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択する優先概念選択部と、
前記第1の概念又は前記第2の概念のうち、前記優先概念選択部により選択された前記概念の相対頻度が高くなっていることを、使用者へ通知する通知部と
を備える報告システム。 A document database for sequentially storing input document data;
A concept database that stores a plurality of predetermined concepts by means of a hierarchical structure in which another concept including one concept is an upper hierarchy of the one concept;
A document data concept extraction unit that extracts a document concept that is the concept corresponding to the document data based on a keyword included in each of the document data;
A concept ratio calculation unit that calculates a ratio of the number of document data corresponding to each concept to the number of document data in the document database;
A relative frequency calculating unit that calculates a relative frequency indicating a magnitude of the ratio calculated by the concept ratio calculating unit with respect to a reference ratio corresponding to each of the concepts;
Among the plurality of concepts, a multi-frequency concept selecting unit that selects the concept having the relative frequency equal to or higher than a predetermined threshold;
One of the first concept selected by the frequent concept selection unit and the second concept in the upper hierarchy of the first concept is set as the relative frequency of the first concept and the second concept. A priority concept selection unit to select based on;
A reporting system comprising: a notifying unit for notifying a user that the relative frequency of the concept selected by the priority concept selecting unit from the first concept or the second concept is high.
前記概念データベースは、製品についての複数の不具合を特定する前記複数の概念を記憶し、
前記文書データ概念抽出部は、それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出し、
前記概念比率算出部は、
前記複数の製品について、前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する全製品概念比率算出部と、
少なくとも1つの前記製品についての前記文書データの数に対する、それぞれの前記概念に対応する当該製品についての前記文書データの数の比率を算出する特定製品概念比率算出部と
を有し、
前記相対頻度算出部は、前記全製品概念比率算出部により算出された比率に対する、前記特定製品概念比率算出部により算出された比率の大きさを示す前記相対頻度を算出し、
前記多頻度概念選択部は、前記複数の概念のうち、前記少なくとも1つの製品についての前記相対頻度が、前記予め定められたしきい値以上となる前記概念を選択し、
前記優先概念選択部は、前記多頻度概念選択部が選択した前記第1の概念と、前記第1の概念の上位階層の前記第2の概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択し、
前記通知部は、前記第1の概念又は前記第2の概念のうち、前記優先概念選択部により選択された前記概念に対応する不具合が前記少なくとも1つの製品に多発していることを、当該報告システムの使用者へ通知する
請求項1記載の報告システム。 The document database stores, for each of a plurality of products, document data indicating contents of defects of the plurality of products,
The concept database stores the plurality of concepts for identifying a plurality of defects about a product,
The document data concept extraction unit extracts a document concept that is the concept corresponding to the document data based on a keyword included in each document data,
The concept ratio calculation unit
An overall product concept ratio calculating unit that calculates a ratio of the number of document data corresponding to each concept to the number of document data for the plurality of products;
A specific product concept ratio calculating unit that calculates a ratio of the number of document data for the product corresponding to each concept to the number of the document data for at least one product,
The relative frequency calculation unit calculates the relative frequency indicating the size of the ratio calculated by the specific product concept ratio calculation unit with respect to the ratio calculated by the all product concept ratio calculation unit,
The multi-frequency concept selection unit selects, from the plurality of concepts, the concept in which the relative frequency for the at least one product is equal to or higher than the predetermined threshold value,
The priority concept selection unit selects one of the first concept selected by the frequent concept selection unit and the second concept in a higher hierarchy of the first concept as the first concept and the first concept. Select based on the relative frequency of the two concepts,
The notification unit reports that the at least one product frequently has a defect corresponding to the concept selected by the priority concept selection unit from the first concept or the second concept. Notify system users
The reporting system according to claim 1 .
前記文書データ概念抽出部は、前記文書データに対応して、前記第1の階層構造に属する第1の前記文書概念及び前記第2の階層構造に属する第2の前記文書概念を抽出し、
前記概念比率算出部は、前記文書データベース内の前記文書データの数に対する、前記第1の階層構造の前記概念に対応する前記文書データの数の第1比率と、前記第2の階層構造の前記概念に対応する前記文書データの数の第2比率と、前記第1の階層構造の前記概念及び前記第2の階層構造の前記概念の組み合わせに対応する前記文書データの数の第3比率とを算出し、
前記相対頻度算出部は、前記第1の階層構造の前記概念に対応する基準比率に対する前記第1比率の大きさを示す第1相対頻度と、前記第2の階層構造の前記概念に対応する基準比率に対する前記第2比率の大きさを示す第2相対頻度と、前記第1の階層構造の前記概念及び前記第2の階層構造の前記概念の組み合わせに対応する基準比率に対する、前記第3比率の大きさを示す第3相対頻度とを算出し、
前記多頻度概念選択部は、前記第1の階層構造の前記概念及び前記第2の階層構造の前記概念の組み合わせのうち、前記相対頻度が前記予め定められたしきい値以上となる前記第1の階層構造の第3の概念及び前記第2の階層構造の第4の概念の組を選択し、
当該報告システムは、前記第3の概念についての前記第1相対頻度及び前記第4の概念についての前記第2相対頻度に基づいて、前記第3の概念及び前記第4の概念が独立事象であった場合における前記第3相対頻度の計算値を算出する基準頻度算出部を更に備え、
前記優先概念選択部は、前記第3相対頻度が、前記第3の概念及び前記第4の概念が独立事象であった場合における当該第3相対頻度の計算値と比較して予め定められた割合以上大きい場合に、前記第3の概念及び前記第4の概念の組み合わせを選択し、前記予め定められた割合以上大きくない場合に、前記第3の概念を選択し、
前記通知部は、前記優先概念選択部により選択された前記第3の概念及び前記第4の概念の組み合わせ、又は前記第3の概念の相対頻度が高くなっていることを、使用者へ通知する
請求項1から3のいずれか記載の報告システム。 The concept database stores each of the plurality of concepts as a node of the first hierarchical structure or the second hierarchical structure,
The document data concept extraction unit extracts the first document concept belonging to the first hierarchical structure and the second document concept belonging to the second hierarchical structure corresponding to the document data,
The concept ratio calculation unit includes a first ratio of the number of the document data corresponding to the concept of the first hierarchical structure with respect to the number of the document data in the document database, and the second hierarchical structure. A second ratio of the number of document data corresponding to a concept, and a third ratio of the number of document data corresponding to a combination of the concept of the first hierarchical structure and the concept of the second hierarchical structure. Calculate
The relative frequency calculation unit includes a first relative frequency indicating a magnitude of the first ratio with respect to a reference ratio corresponding to the concept of the first hierarchical structure, and a reference corresponding to the concept of the second hierarchical structure. A second relative frequency indicating a magnitude of the second ratio with respect to a ratio, and a third ratio with respect to a reference ratio corresponding to a combination of the concept of the first hierarchical structure and the concept of the second hierarchical structure. Calculating the third relative frequency indicating the magnitude,
The frequent concept selection unit is configured such that the relative frequency of the combination of the concept of the first hierarchical structure and the concept of the second hierarchical structure is equal to or higher than the predetermined threshold value . Selecting a third concept of the second hierarchical structure and a fourth concept of the second hierarchical structure;
The reporting system is configured such that the third concept and the fourth concept are independent events based on the first relative frequency for the third concept and the second relative frequency for the fourth concept. A reference frequency calculation unit for calculating a calculated value of the third relative frequency in the case of
The priority concept selection unit is configured such that the third relative frequency is a ratio determined in advance in comparison with a calculated value of the third relative frequency when the third concept and the fourth concept are independent events. If greater than or equal to, select a combination of the third concept and the fourth concept; if not greater than the predetermined percentage, select the third concept;
The notification unit notifies the user that the combination of the third concept and the fourth concept selected by the priority concept selection unit or the relative frequency of the third concept is high.
The reporting system according to any one of claims 1 to 3 .
複数の前記文書データのそれぞれのうち、前記検索文概念が前記文書概念の上位階層又は下位階層の概念となる文書データを検索する概念検索部と、 A concept search unit for searching for document data in which the search sentence concept is an upper hierarchy or lower hierarchy concept of the document concept among each of the plurality of document data;
前記概念検索部により検索された前記文書データを、前記検索文により指定される内容を含む前記文書データとして出力する検索結果出力部と A search result output unit for outputting the document data searched by the concept search unit as the document data including content specified by the search sentence;
をさらに備える請求項1から4のいずれか記載の報告システム。 The reporting system according to claim 1, further comprising:
前記検索文概念抽出部は、いずれかの前記概念抽出規則に含まれる前記1又は複数のキーワードが前記検索文に含まれる場合に、当該概念抽出規則に含まれる前記概念を、前記検索文概念として抽出する The search sentence concept extraction unit, when the one or more keywords included in any of the concept extraction rules are included in the search sentence, the concept included in the concept extraction rule as the search sentence concept Extract
請求項5記載の報告システム。 The reporting system according to claim 5.
請求項6記載の報告システム。 The reporting system according to claim 6.
前記概念検索部は、前記検索文概念が、前記検索文が入力される前に前記検索インデクスデータベースに格納された前記文書概念の上位階層又は下位階層の概念となる場合に、当該文書概念に対応する前記文書データを検索結果として出力する The concept search unit corresponds to a document concept when the search sentence concept is a concept of an upper hierarchy or a lower hierarchy of the document concept stored in the search index database before the search sentence is input. Output the document data as search results
請求項5から7のいずれか記載の報告システム。 The reporting system according to any one of claims 5 to 7.
それぞれの前記文書データに含まれる前記語句を、当該語句の類義語である前記キーワードに置換することにより当該文書データを正規化する文書データ正規化部と、 A document data normalization unit that normalizes the document data by replacing the phrase included in each document data with the keyword that is a synonym of the phrase;
前記検索文に含まれる前記語句を、当該語句の類義語である前記キーワードに置換することにより前記検索文を正規化する検索文正規化部と A search sentence normalization unit that normalizes the search sentence by replacing the phrase included in the search sentence with the keyword that is a synonym of the phrase;
を更に備え、 Further comprising
前記文書データ概念抽出部は、正規化された前記文書データから前記文書概念を抽出し、 The document data concept extraction unit extracts the document concept from the normalized document data,
前記検索文概念抽出部は、正規化された前記検索文から前記検索文概念を抽出する The search sentence concept extraction unit extracts the search sentence concept from the normalized search sentence
請求項5から8のいずれか記載の報告システム。 The reporting system according to any one of claims 5 to 8.
前記検索文概念が、前記文書概念と一致しない場合に、前記検索文概念の上位階層の概念である検索文上位概念を取得する上位概念取得部と、 A superordinate concept acquisition unit that, when the search sentence concept does not match the document concept, acquires a search sentence superordinate concept that is a concept of an upper hierarchy of the search sentence concept;
前記検索文上位概念が、前記文書概念と一致する場合に、当該文書データを検索結果として出力する汎化概念出力部と A generalized concept output unit that outputs the document data as a search result when the search sentence superordinate concept matches the document concept;
を有する請求項5から9のいずれか記載の報告システム。 The reporting system according to any one of claims 5 to 9.
前記文書データ概念抽出部は、前記文書データに対応して、前記第1の階層構造に属する第1の前記文書概念及び前記第2の階層構造に属する第2の前記文書概念を抽出し、 The document data concept extraction unit extracts the first document concept belonging to the first hierarchical structure and the second document concept belonging to the second hierarchical structure corresponding to the document data,
前記検索文概念抽出部は、前記検索文に対応して、前記第1の階層構造に属する第1の前記検索文概念及び前記第2の階層構造に属する第2の前記検索文概念を抽出し、 The search sentence concept extraction unit extracts the first search sentence concept belonging to the first hierarchical structure and the second search sentence concept belonging to the second hierarchical structure corresponding to the search sentence. ,
前記上位概念取得部は、前記第1の検索文概念及び前記第2の検索文概念が、前記第1の文書概念及び前記第2の文書概念とそれぞれ同一でない場合に、前記第1の検索文概念の上位階層の第1の前記検索文上位概念と、前記第2の検索文概念の上位階層の第2の前記検索文上位概念とを取得し、 The higher-level concept acquisition unit, when the first search sentence concept and the second search sentence concept are not the same as the first document concept and the second document concept, respectively. Obtaining the first search sentence superordinate concept in the upper hierarchy of the concept and the second search sentence superordinate concept in the upper hierarchy of the second search sentence concept;
前記汎化概念出力部は、前記第1の検索文上位概念及び前記第1の文書概念と、前記第2の検索文概念及び前記第2の文書概念とがそれぞれ同一となる第1の前記文書データの数が、前記第1の検索文概念及び前記第1の文書概念と、前記第2の検索文上位概念及び前記第2の文書概念とがそれぞれ同一となる第2の前記文書データの数より小さい場合に、前記第1の文書データを検索結果として出力する The generalization concept output unit includes the first document in which the first search sentence superordinate concept and the first document concept are the same as the second search sentence concept and the second document concept. The number of second document data in which the number of data is the same as the first search sentence concept and the first document concept, and the second search sentence superordinate concept and the second document concept. If smaller, output the first document data as a search result
請求項10記載の報告システム。 The reporting system according to claim 10.
前記検索文概念と同一の前記文書概念を有する前記文書データの全てが、前記検索文概念の下位階層の概念である検索文下位概念と同一の前記文書概念を有する場合に、前記検索文概念を、当該検索文下位概念に置換する下位概念取得部と、 When all of the document data having the same document concept as the search sentence concept has the same document concept as the search sentence subordinate concept that is a concept of a lower hierarchy of the search sentence concept, the search sentence concept is , A subordinate concept obtaining unit that replaces the search sentence subordinate concept,
前記検索文下位概念が前記文書概念と一致する前記文書データを検索結果として出力する特化概念出力部と A specialized concept output unit for outputting the document data whose search sentence subordinate concept matches the document concept as a search result;
を有する請求項5から11のいずれか記載の報告システム。 The reporting system according to claim 5, comprising:
前記文書データベースは、それぞれの前記複数の不具合について、当該複数の不具合の内容を示す前記文書データを記憶し、 The document database stores, for each of the plurality of defects, the document data indicating the contents of the plurality of defects,
前記検索文概念抽出部は、利用者により入力された、前記製品についての不具合を検索するための前記検索文に対応する前記検索文概念を抽出し、 The search sentence concept extraction unit extracts the search sentence concept corresponding to the search sentence for searching for defects in the product, which is input by a user,
前記検索結果出力部は、前記概念検索部により検索された前記文書データを、前記利用者により入力された前記製品についての前記不具合の内容を示す前記文書データとして出力する請求項5から12のいずれか記載の報告システム。 The search result output unit outputs the document data searched by the concept search unit as the document data indicating the content of the defect of the product input by the user. Or reporting system.
前記文書データ概念抽出部は、前記文書データに含まれるキーワードに基づいて、一の前記構成要素に不具合があることを示す前記文書概念を抽出し、 The document data concept extraction unit extracts the document concept indicating that one component is defective based on a keyword included in the document data,
前記検索文概念抽出部は、前記検索文に含まれるキーワードに基づいて、前記一の構成要素の不具合の状態を示す前記検索文概念を抽出し、 The search sentence concept extraction unit extracts the search sentence concept indicating a failure state of the one component based on a keyword included in the search sentence,
前記概念検索部は、 The concept search unit
前記検索文概念の上位階層の前記概念である、前記一の構成要素に不具合があることを示す前記概念を検索文上位概念として取得する上位概念取得部と、 An upper concept acquisition unit that acquires the concept indicating that there is a defect in the one component, which is the concept in the upper hierarchy of the search sentence concept, as a search sentence upper concept;
前記検索文上位概念と一致する、前記一の構成要素に不具合があることを示す前記文書概念を有する前記文書データを、検索結果として出力する汎化概念出力部と A generalized concept output unit that outputs the document data having the document concept indicating that there is a defect in the one component that matches the search sentence superordinate concept, as a search result;
を有する Have
請求項13記載の報告システム。 The reporting system according to claim 13.
前記文書データ概念抽出部は、前記文書データに含まれるキーワードに基づいて、前記文書データに記述された前記構成要素を示す前記文書概念を更に抽出し、 The document data concept extraction unit further extracts the document concept indicating the component described in the document data based on a keyword included in the document data,
前記検索文概念抽出部は、前記検索文に含まれるキーワードに基づいて、前記検索文に記述された前記構成要素を示す前記検索文概念を更に抽出し、 The search sentence concept extraction unit further extracts the search sentence concept indicating the components described in the search sentence based on a keyword included in the search sentence,
前記上位概念取得部は、前記構成要素に不具合があること又は前記構成要素の不具合の状態を示す第1の前記検索文概念の上位階層となる前記概念と、前記構成要素を示す第2の前記検索文概念の上位階層となる前記概念とを取得し、 The higher concept acquisition unit includes the concept that is a higher hierarchy of the first search sentence concept indicating that the component has a defect or a failure state of the component, and the second that indicates the component. Obtain the concept that is the upper hierarchy of the search sentence concept,
前記汎化概念出力部は、前記第1の検索文概念及び前記第2の検索文概念の少なくとも一方を上位階層の前記概念とした場合に、前記第1の検索文概念と一致する前記文書概念及び前記第2の検索文概念と一致する前記文書概念を有する前記文書データを検索結果として出力する The generalization concept output unit, when at least one of the first search sentence concept and the second search sentence concept is the higher-level concept, the document concept that matches the first search sentence concept And the document data having the document concept matching the second search sentence concept is output as a search result.
請求項14記載の報告システム。 The reporting system according to claim 14.
前記文書データ概念抽出部は、前記文書データに含まれるキーワードに基づいて、前記文書データに記述された前記製品名を示す前記文書概念を更に抽出し、 The document data concept extraction unit further extracts the document concept indicating the product name described in the document data based on a keyword included in the document data,
前記検索文概念抽出部は、前記検索文に含まれるキーワードに基づいて、前記検索文概念抽出部に記述された前記製品名を示す前記検索文概念を更に抽出し、 The search sentence concept extraction unit further extracts the search sentence concept indicating the product name described in the search sentence concept extraction unit based on a keyword included in the search sentence,
前記上位概念取得部は、前記構成要素に不具合があること又は前記構成要素の不具合の状態を示す第1の前記検索文概念の上位階層となる前記概念と、前記製品名を示す第2の前記検索文概念の上位階層となる前記概念とを取得し、 The higher-level concept acquisition unit includes the concept that is an upper layer of the first search statement concept indicating that the component has a defect or a defect state of the component, and the second that indicates the product name. Obtain the concept that is the upper hierarchy of the search sentence concept,
前記汎化概念出力部は、前記第1の検索文概念及び前記第2の検索文概念の少なくとも一方を上位階層の前記概念とした場合に、前記第1の検索文概念と一致する前記文書概念及び前記第2の検索文概念と一致する前記文書概念を有する前記文書データを検索結果として出力する The generalization concept output unit, when at least one of the first search sentence concept and the second search sentence concept is the higher-level concept, the document concept that matches the first search sentence concept And the document data having the document concept matching the second search sentence concept is output as a search result.
請求項14または15記載の報告システム。 The reporting system according to claim 14 or 15.
入力された文書データを順次記憶する文書データベース記憶段階と、
一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベース記憶段階と、
それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出段階と、
前記文書データベース記憶段階において記憶された前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する概念比率算出段階と、
それぞれの前記概念に対応する基準比率に対する、前記概念比率算出段階により算出された比率の大きさを示す相対頻度を算出する相対頻度算出段階と、
前記複数の概念のうち、前記相対頻度が予め定められたしきい値以上となる前記概念を選択する多頻度概念選択段階と、
前記多頻度概念選択段階が選択した第1の前記概念と、前記第1の概念の上位階層の第2の前記概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択する優先概念選択段階と、
前記第1の概念又は前記第2の概念のうち、前記優先概念選択段階により選択された前記概念の相対頻度が高くなっていることを、使用者へ通知する通知段階と
を備える報告方法。 A reporting method in a reporting system in which a plurality of document data is sequentially input,
A document database storage stage for sequentially storing input document data;
A concept database storage stage for storing a plurality of predetermined concepts in a hierarchical structure in which another concept including the one concept is an upper hierarchy of the one concept;
A document data concept extraction step for extracting a document concept, which is the concept corresponding to the document data, based on a keyword included in each document data;
A concept ratio calculating step of calculating a ratio of the number of the document data corresponding to each of the concepts to the number of the document data stored in the document database storing step;
A relative frequency calculating step for calculating a relative frequency indicating a magnitude of the ratio calculated by the concept ratio calculating step with respect to a reference ratio corresponding to each of the concepts;
Of the plurality of concepts, a multi-frequency concept selection step of selecting the concept having the relative frequency equal to or higher than a predetermined threshold;
One of the first concept selected in the frequent concept selection stage and the second concept in the upper hierarchy of the first concept is set as the relative frequency of the first concept and the second concept. A priority concept selection stage to select based on;
A reporting method comprising: a notification step of notifying a user that the relative frequency of the concept selected in the priority concept selection step of the first concept or the second concept is high.
前記複数の文書データのそれぞれのうち、前記検索文概念が前記文書概念の上位階層又は下位階層の概念となる前記文書データを検索する概念検索段階と、 A concept search step of searching for the document data in which the search sentence concept is an upper hierarchy or lower hierarchy concept of the document concept among each of the plurality of document data;
概念検索部により検索された前記文書データを、前記検索文により指定される内容を含む前記文書データとして出力する検索結果出力段階と A search result output step of outputting the document data searched by the concept search unit as the document data including the content specified by the search sentence;
をさらに備える請求項17記載の報告方法。 The reporting method according to claim 17, further comprising:
当該プログラムは、前記報告システムを、
入力された文書データを順次記憶する文書データベースと、
一の概念を包含する他の概念を当該一の概念の上位階層とする階層構造により、予め定められた複数の概念を記憶する概念データベースと、
それぞれの前記文書データに含まれるキーワードに基づいて、当該文書データに対応する前記概念である文書概念を抽出する文書データ概念抽出部と、
前記文書データベース内の前記文書データの数に対する、それぞれの前記概念に対応する前記文書データの数の比率を算出する概念比率算出部と、
それぞれの前記概念に対応する基準比率に対する、前記概念比率算出部により算出された比率の大きさを示す相対頻度を算出する相対頻度算出部と、
前記複数の概念のうち、前記相対頻度が予め定められたしきい値以上となる前記概念を選択する多頻度概念選択部と、
前記多頻度概念選択部が選択した第1の前記概念と、前記第1の概念の上位階層の第2の前記概念との一方を、前記第1の概念及び前記第2の概念の相対頻度に基づいて選択する優先概念選択部と、
前記第1の概念又は前記第2の概念のうち、前記優先概念選択部により選択された前記概念の相対頻度が高くなっていることを、使用者へ通知する通知部と
して機能させるプログラム。 A program for a reporting system in which a plurality of document data is sequentially input,
The program uses the reporting system,
A document database for sequentially storing input document data;
A concept database that stores a plurality of predetermined concepts by means of a hierarchical structure in which another concept including one concept is an upper hierarchy of the one concept;
A document data concept extraction unit that extracts a document concept that is the concept corresponding to the document data based on a keyword included in each of the document data;
A concept ratio calculation unit that calculates a ratio of the number of document data corresponding to each concept to the number of document data in the document database;
A relative frequency calculating unit that calculates a relative frequency indicating a magnitude of the ratio calculated by the concept ratio calculating unit with respect to a reference ratio corresponding to each of the concepts;
Among the plurality of concepts, a multi-frequency concept selecting unit that selects the concept having the relative frequency equal to or higher than a predetermined threshold;
One of the first concept selected by the frequent concept selection unit and the second concept in the upper hierarchy of the first concept is set as the relative frequency of the first concept and the second concept. A priority concept selection unit to select based on;
A program that functions as a notifying unit for notifying a user that the relative frequency of the concept selected by the priority concept selecting unit of the first concept or the second concept is high.
入力された検索文に含まれるキーワードに基づいて、前記検索文に対応する前記概念である検索文概念を抽出する検索文概念抽出部と、 A search sentence concept extraction unit that extracts a search sentence concept that is the concept corresponding to the search sentence, based on a keyword included in the input search sentence;
前記複数の文書データのそれぞれのうち、前記検索文概念が前記文書概念の上位階層又は下位階層の概念となる前記文書データを検索する概念検索部と、 A concept search unit for searching the document data in which the search statement concept is an upper hierarchy or lower hierarchy concept of the document concept among each of the plurality of document data;
前記概念検索部により検索された前記文書データを、前記検索文により指定される内容を含む前記文書データとして出力する検索結果出力部と A search result output unit for outputting the document data searched by the concept search unit as the document data including content specified by the search sentence;
してさらに機能させる請求項19記載のプログラム。 The program according to claim 19, further functioning.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010111458A JP5046170B2 (en) | 2010-05-13 | 2010-05-13 | SEARCH SYSTEM, SEARCH METHOD, REPORT SYSTEM, REPORT METHOD, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010111458A JP5046170B2 (en) | 2010-05-13 | 2010-05-13 | SEARCH SYSTEM, SEARCH METHOD, REPORT SYSTEM, REPORT METHOD, AND PROGRAM |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004206567A Division JP4587163B2 (en) | 2004-07-13 | 2004-07-13 | SEARCH SYSTEM, SEARCH METHOD, REPORT SYSTEM, REPORT METHOD, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010211821A JP2010211821A (en) | 2010-09-24 |
JP5046170B2 true JP5046170B2 (en) | 2012-10-10 |
Family
ID=42971834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010111458A Expired - Fee Related JP5046170B2 (en) | 2010-05-13 | 2010-05-13 | SEARCH SYSTEM, SEARCH METHOD, REPORT SYSTEM, REPORT METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5046170B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5696555B2 (en) * | 2011-03-28 | 2015-04-08 | 富士ゼロックス株式会社 | Program and information processing apparatus |
JP6115487B2 (en) * | 2014-01-29 | 2017-04-19 | トヨタ自動車株式会社 | Information collecting method, dialogue system, and information collecting apparatus |
JP6361472B2 (en) * | 2014-11-14 | 2018-07-25 | 富士通株式会社 | Correspondence information generation program, correspondence information generation apparatus, and correspondence information generation method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001273381A (en) * | 2000-03-28 | 2001-10-05 | Shigeo Kaneda | Method and device for supporting fashion prediction, and storing medium with fashion prediction supporting program stored thereon |
JP2003281161A (en) * | 2002-03-19 | 2003-10-03 | Seiko Epson Corp | Information classification method, information classification device, program and record medium |
-
2010
- 2010-05-13 JP JP2010111458A patent/JP5046170B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010211821A (en) | 2010-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4587163B2 (en) | SEARCH SYSTEM, SEARCH METHOD, REPORT SYSTEM, REPORT METHOD, AND PROGRAM | |
US20200320086A1 (en) | Method and system for content recommendation | |
Maedche et al. | The ontology extraction & maintenance framework Text-To-Onto | |
US8712926B2 (en) | Using rule induction to identify emerging trends in unstructured text streams | |
US10394830B1 (en) | Sentiment detection as a ranking signal for reviewable entities | |
CA2711665C (en) | Aspect-based sentiment summarization | |
WO2023029420A1 (en) | Power user appeal screening method and system, electronic device, and storage medium | |
US8595245B2 (en) | Reference resolution for text enrichment and normalization in mining mixed data | |
US20080005094A1 (en) | Method and system for finding the focus of a document | |
WO2008098956A1 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
JPWO2008146807A1 (en) | Ontology processing apparatus, ontology processing method, and ontology processing program | |
Federici et al. | A knowledge-based approach for aspect-based opinion mining | |
JP2012093927A (en) | File management device and file management method | |
US20170109358A1 (en) | Method and system of determining enterprise content specific taxonomies and surrogate tags | |
Xu et al. | Non-negative matrix factorization for implicit aspect identification | |
US7739743B2 (en) | Information presentation apparatus, and information presentation method and program for use therein | |
Basile et al. | Exploiting the web for semantic change detection | |
JP5218409B2 (en) | Related information search system and related information search method | |
JP5836893B2 (en) | File management apparatus, file management method, and program | |
JP5046170B2 (en) | SEARCH SYSTEM, SEARCH METHOD, REPORT SYSTEM, REPORT METHOD, AND PROGRAM | |
US20210056131A1 (en) | Methods and systems for generating timelines for entities | |
US20190147109A1 (en) | Methods for performing a search and devices thereof | |
US9336280B2 (en) | Method for entity-driven alerts based on disambiguated features | |
Modha et al. | Design and analysis of microblog-based summarization system | |
Neri et al. | Mining the web to monitor the political consensus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20120613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120706 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |