JP2006106872A - 知識情報収集システム、知識検索システム及び知識情報収集方法 - Google Patents

知識情報収集システム、知識検索システム及び知識情報収集方法 Download PDF

Info

Publication number
JP2006106872A
JP2006106872A JP2004289070A JP2004289070A JP2006106872A JP 2006106872 A JP2006106872 A JP 2006106872A JP 2004289070 A JP2004289070 A JP 2004289070A JP 2004289070 A JP2004289070 A JP 2004289070A JP 2006106872 A JP2006106872 A JP 2006106872A
Authority
JP
Japan
Prior art keywords
knowledge
information
natural language
expression
table information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004289070A
Other languages
English (en)
Other versions
JP4119413B2 (ja
Inventor
Koji Shioda
弘二 塩田
Kouichi Sasaki
光一 笹氣
Katsuhiko Takachio
勝彦 高知尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2004289070A priority Critical patent/JP4119413B2/ja
Publication of JP2006106872A publication Critical patent/JP2006106872A/ja
Application granted granted Critical
Publication of JP4119413B2 publication Critical patent/JP4119413B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】収集された知識情報に含まれる表情報を自然言語で知識データベースへ登録することを可能とする。
【解決手段】表情報解析モジュール112aは、収集制御モジュール111によって収集された知識情報に表情報が含まれている場合、当該表情報を解析する。自然言語付加モジュール112bは、表情報解析モジュール112aの表情報解析結果を自然言語に変換する。テキスト抽出モジュール114は、自然言語付加モジュール112bによって変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、知識DB121への知識情報登録を行う登録モジュール13へ送出する。
【選択図】 図1

Description

本発明は、ナレッジマネジメントシステムで用いられる知識データベースに登録すべき情報を外部データソースから収集し、また知識データベースに登録された情報を検索するのに好適な、知識情報収集システム、知識検索システム及び知識情報収集方法に関する。
近年、知識情報の共有支援を図るためのナレッジマネジメントシステムが開発されている。このナレッジマネジメントシステムは、個人のノウハウなどの知識情報を知識データベースに蓄積して管理するためのものであり、自然言語検索などの検索機能と組み合わせることにより、蓄積された知識情報の効率的な活用を実現する。
このようなナレッジマネジメントシステムでは、知識情報をいかに効率よく収集するかが重要なポイントとなる。そこで最近は、外部データソースとしてのネットワーク、例えばインターネットから、ファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集するための知識情報収集システムが開発されている(例えば、特許文献1参照)。この特許文献1に記載された知識情報収集システムにおいては、設定ファイルに設定された知識情報収集のための条件(知識情報収集条件)に従って、インターネットから、文書情報が次のように収集される。
まず、知識情報収集システムは、設定ファイルとWeb収集モジュールとを有する。設定ファイルには、ユーザ(例えば管理者である管理ユーザ)の操作によって、情報収集の対象となるリンクの段数及びリンク毎の収集ファイル個数の少なくとも一方が、起点URL(Uniform Resource Locator)と共に設定される。Web収集モジュールは、起点URL及びリンクの段数が設定ファイルに設定されている場合、当該起点URLから設定されたリンクの段数の上限を超えない範囲で、全てのリンクを辿ってインターネットから文書情報(ページ情報)を収集する。また、起点URL及びリンクの段数に加えて、リンク毎の収集ファイル個数が設定されている場合、Web収集モジュールは、起点URLから設定されたリンクの段数の上限を超えず、かつ設定されたリンク毎の収集ファイル個数を超えない範囲で、全てのリンクを辿ってインターネットから文書情報を収集する。
特開2003−303197号公報(段落0008,0010,0086乃至0089)
上記したように、特許文献1に記載された知識情報収集技術(以下、先行技術と称する)によれば、設定ファイルを用いて、ネットワーク上からの情報収集の対象となるリンクの段数等を任意に指定することで、起点URLから指定のリンクの段数の上限を超えない範囲で、全てのリンクを辿って文書情報が収集される。
このように先行技術では、あるURLの情報を収集することができるが、元情報がどのように書かれているかは考慮されていない。このため先行技術においては、元情報中に表があっても、表内に記述されている単語は単純なテキストとして、知識データベースに格納されるだけであり、自然言語検索をする場合の精度に対する工夫はなされていない。したがって先行技術には、収集された知識情報が表形式で書かれている場合に、知識データベースを対象とする自然言語検索の精度が芳しくなく、且つ表示される要約が利用者に分かりにくいという問題がある。
本発明は上記事情を考慮してなされたものでその目的は、収集された知識情報に含まれる表情報を自然言語で知識データベースへ登録することができる知識情報収集システム及び方法を提供することにある。
本発明の他の目的は、知識情報収集システムによって収集された知識情報が登録された知識データベースを有効に利用することで、ユーザにとって分かりやすい要約を提示できる知識検索システムを提供することにある。
本発明の1つの観点によれば、知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソース上から収集する知識情報収集システムが提供される。この知識情報収集システムは、収集された知識情報に表情報が含まれている場合、当該表情報を解析する表情報解析手段と、この表情報解析手段の表情報解析結果を自然言語に変換する自然言語変換手段と、収集された知識情報からテキストデータを抽出するテキスト抽出手段であって、上記自然言語変換手段によって変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、上記知識データベースへの知識情報登録を行う登録手段へ送出するテキスト抽出手段とを備える。
このような構成においては、収集された知識情報に含まれている表情報を自然言語として当該知識情報(から抽出されたテキストデータ)に付して知識データベースに登録することが可能となるため、自然言語検索の精度の向上が期待できる。
ここで、表を構成する、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリ毎に、そのカテゴリに適用し得る表現を保持する解析辞書を追加し、上記表情報解析手段は、表情報から、前記解析辞書に保持されている表現に合致する、対象の表現、要素種別の表現及び要素値の表現を抽出し、上記自然言語変換手段は上記表情報解析手段によって抽出された対象の表現、要素種別の表現及び要素値の表現を含む自然言語を作成する構成とするならば、表情報から自然言語に容易に変換できる。
また、本発明の他の観点によれば、上記知識情報収集システムによって収集された知識情報が登録される知識データベースと、ユーザにより指定された自然言語検索条件に従って自然言語検索処理を行って上記知識データベースから当該検索条件に合致した検索結果を取得する検索手段であって、検索結果に表情報を含む知識情報がある場合、当該知識情報に付されている上記表情報から変換された自然言語を、当該知識情報の要約としてユーザに提示する検索手段とを備えた知識検索システムが提供される。
このような構成においては、検索結果に表情報を含む知識情報がある場合、ユーザに提示される検索結果としての当該知識情報の要約に、表情報から変換された自然言語が用いられるため、ユーザは目的の検索結果を探し易くなる。
本発明によれば、収集された知識データベースに登録すべき知識情報に表情報が含まれている場合、その表情報を自然言語に変換して当該知識データベースに登録することが可能となるため、自然言語検索の精度の向上が可能となる。
また本発明によれば、検索結果に表情報を含む知識情報がある場合、ユーザに提示する当該知識情報の要約に、表情報から変換された自然言語を用いることにより、ユーザにとって分かり易い要約を提示することができる。
以下、本発明の一実施形態につき図面を参照して説明する。
図1は本発明の一実施形態に係るナレッジマネジメントシステムの構成を示すブロック図である。このナレッジマネジメントシステムは、知識情報の収集、分析及び検索等のサービスを提供する。ナレッジマネジメントシステムは、Web情報収集システム11、知識検索システム12、登録モジュール13及び設定ファイル14を含む。Web情報収集システム11、登録モジュール13及び設定ファイル14は、ナレッジマネジメントシステムが提供するサービスの1つである知識情報の収集を行うための知識情報収集システムを構築する。
Web情報収集システム11は、外部データソースとしてのネットワーク、例えばインターネット/イントラネット20上のWebサーバ等からユーザに有用なWeb情報(ページ情報)を収集してテキスト部分を抽出する。Web情報収集システム11は、収集制御モジュール111、表情報自然言語変換機構112及びテキスト抽出モジュール114から構成される。
表情報自然言語変換機構112は、表情報解析モジュール112a、自然言語付加モジュール112b及び解析用辞書112cと、変換設定ファイル113とを備える。表情報解析モジュール112aは、収集された情報から表情報を検出して当該表情報を解析する。自然言語付加モジュール112bは、表情報解析モジュール112aによって解析された結果を自然言語に変換する。解析用辞書112cは、表情報解析モジュール112aによる表情報解析と、自然言語付加モジュール112bによる自然言語への変換に用いられる。変換設定ファイル113は、表情報解析モジュール112aによる表情報解析と、自然言語付加モジュール112bによる自然言語への変換の条件等を保持するのに用いられる。
図2は、表情報の示す表の一例を示す。ここでは、自動車ABCの商品内容が表形式で示されている。一般に、表は、タイトル(表名)と、セルの行列とから構成される。表のタイトル(表名)等を「対象」と呼ぶ。表内のセルは、項目が設定される項目セルと、データ(要素値)が設定されるデータセル(要素値セル)とに大別される。項目セルは、「対象」を補足する「副対象」項目セルと、要素値の種別を表す「要素種別」項目セルとに分類される。つまり、表は、「対象」と、「副対象」と、「要素種別」と、「要素値」とによって表すことができる。但し、「副対象」(「副対象」項目)を持たない表もある。図2の表の例では、「X」「Y」が記載されたセルが「副対象」項目セルであり、「車両価格」「駆動方式」「全長」「全幅」「全高」「室内長」「室内幅」「室内高」が記載されたセルが「要素種別」項目セルである。
図3は解析用辞書112cのデータ構造例を示す。解析用辞書112cは、表を表現する要素、つまり表の構成要素である、「対象」「副対象」「要素種別」及び「要素値」の4つのカテゴリ(表現カテゴリ)毎に、適用し得る表現(文字列)例を保持している。但し、「要素値」は、複数の要素値型(データ型)に分類され、要素値型によっては、その要素値型に固有の表現形式を示す情報を保持している。図3の解析用辞書112cの例では、要素値型は、「○×」型、「数値」型、「非数値」型に分類される。ここでは、「○×」型の場合、つまり要素値が記号「○」または「×」の場合、それぞれ文字列「あり」「無し」を「要素値の表現」とすることが示されている。また、「数値」型の場合、つまり要素値が数値の場合、対応する要素値(=数値)に一致する「数字」を「要素値の表現」とすることが示されている。同様に、「非数値」型の場合、つまり要素値が非数値の場合、対応する要素値(=非数値)をそのまま「要素値の表現」とすることが示されている。
再び図1を参照すると、知識検索システム12は、知識DB121及び検索エンジン122から構成される。知識DB121は、Web情報収集システム11内の収集制御モジュール111によって収集されたページ情報から、テキスト抽出モジュール114によって抽出された文書情報(テキスト)を蓄積しておくのに用いられる。検索エンジン122は、ユーザ102の操作に応じてWebブラウザ16から入力された検索要求の示す検索条件に従って知識DB121を対象に全文検索または自然言語検索を行う。
次に、図1のシステムにおける情報収集と検索の概要について説明する。
管理ユーザ(管理者)は、図示せぬクライアント端末上で動作するWebブラウザ15を通して、起点URL、インターネット/イントラネット20上からの情報収集の対象となるリンクの段数、収集ページ数の上限等、Web情報収集のための条件(知識情報収集条件)を指定するための入力操作を行う。この入力操作で指定された知識情報収集条件は、設定ファイル14に設定される。
収集制御モジュール111は、設定ファイル14に設定された知識情報収集条件に従って、インターネット/イントラネット20から知識情報を収集する。つまり設定ファイル14は、知識条件設定手段として用いられる。以下の説明では、収集制御モジュール111によって収集される知識情報が、HTML(HyperText Markup Language)文書情報であるものとする。
表情報自然言語変換機構112は、収集制御モジュール111によって収集された知識情報に表情報が含まれている場合、その表情報を解析し、当該表情報から自然言語を作成するための表情報自然言語変換処理を行う。この表情報自然言語変換機構112の動作の詳細は後述する。
テキスト抽出モジュール114は、収集制御モジュール111によって収集された知識情報からテキスト情報を抽出する。テキスト抽出モジュール114は、抽出されたテキスト情報を、表情報自然言語変換機構112によって作成された自然言語と組み合わせて、登録モジュール13へ送る。登録モジュール13は、テキスト抽出モジュール114から送られたテキスト情報を知識DB121へ登録する。
ユーザ102は、図示せぬクライアント端末上で動作するWebブラウザ16を通して、検索条件を指定するための入力操作を行う。この入力操作で指定された検索条件は、Webブラウザ16により知識検索システム12に送られる。知識検索システム12内の検索エンジン122は、Webブラウザ16から送られた検索条件に従って、知識DB121に格納されている情報から検索結果を得る。検索エンジン122は、この検束結果をWebブラウザ16を介してユーザ102に提示する。
次に、表情報自然言語変換機構112による表情報自然言語変換処理の手順について、図4のフローチャートを参照して説明する。
まず表情報自然言語変換機構112の表情報解析モジュール112aは、収集制御モジュール111によって収集された知識情報、例えばHTML文書情報を解析して、当該文書情報に表情報に含まれているかを判定する(ステップS1)。本実施形態では、表を示すタグ(例えばHTMLの<TABLE>)があるか否かにより、表情報であるか否かが判定される。
さて、収集された文書情報が、「ABCについて」というタイトルの文書情報であり、当該文書情報に図2の表を示す表情報が含まれているものとする。この場合、表情報解析モジュール112aは、図3に示されている解析用辞書112cを参照して、当該表情報から、「対象の表現」を取得する(ステップS2)。ここでは、表情報から、解析用辞書112cに「対象」カテゴリの「表現」として保持されている文字列に一致する文字列を抽出することにより、「対象の表現」が取得される。具体的には、「ABC」が「対象の表現」として抽出される。この他に、HTMLの<TITLE>タグで示される要素の内容を、「対象」カテゴリの「表現」として取得することも可能である。
次に表情報解析モジュール112aは、表の1列を示すタグ(例えばHTMLの<TR>タグ)から表情報の列数を取得し、その列数分だけ、次のステップS4を繰り返す(ステップS3)。
また表情報解析モジュール112aは、表の項目を示すタグ(例えばHTMLの<TD>タグ)から、列の項目数を取得し、その項目数分だけ、次のステップS5及びS6を繰り返す(ステップS4)。なお、本実施形態で適用される表は、第1列に項目が存在することを前提としている。
以下、ステップS5及びS6と、ステップS6に続いて自然言語付加モジュール112bによって実行されるステップS7の処理について説明する。
表情報解析モジュール112aはステップS5において、対象となる項目が存在する第i行(ここではi=2)の第1列のセルから単語を取り出す。表情報解析モジュール112aは、取り出された単語をキーに解析用辞書112cを参照することにより、当該単語が「要素種別の表現」であるかを判別し、「要素種別の表現」であれば、当該単語を「要素種別の表現」として取り出す。図2の表の例では、i=2の場合、「車両価格」が「要素種別の表現」として取り出される。
次に、表情報解析モジュール112aはステップS6において、対象となる項目が存在する第i行の第j列(ここでは、j=2)のセルから単語を取り出す。表情報解析モジュール112aは、取り出された単語をキーに解析用辞書112cを参照することにより、当該単語が「要素値の表現」であるかを判別し、「要素値の表現」であれば、当該単語を「要素値の表現」として取り出す。図2の表の例では、i=2,j=2の場合、「123万円」が「要素値の表現」として取り出される。
また、図4のフローチャートでは省略されているが、図2の表のように、第1列の第1行のセルに「要素種別の表現」が存在しない場合、第j列の第1行のセルから単語が取り出されて、「副対象の表現」であるかが判別される。そして、「副対象の表現」であれば、当該単語が「副対象の表現」として取り出される。ここでは、「X」が「副対象の表現」として取り出される。
自然言語付加モジュール112bは、表情報解析モジュール112aによってステップS2で取得された「対象の表現」と、ステップS5及びS6でそれぞれ取り出された「要素種別の表現」及び「要素値の表現」に基づいて、例えば『「対象の表現」の(「副対象の表現」)の「要素種別の表現」は「要素値の表現」です』という自然言語を作成する。上記の例では、「ABCのXの車両価格は123万円です」という自然言語が作成される。
ステップS5乃至S7は、列を切り替えながら、最終列まで繰り返される。この動作が、項目数分行を変えながら繰り返される。これにより図2の表の例では、上記自然言語の他に、「ABCのXの駆動方式はFFです」「ABCのZの駆動方式はAWDです」「ABCのXの全幅は1760mmです」などが作成される。
また、解析用辞書112cに含まれる「要素種別の表現」または「要素値の表現」に合致するものが表内に存在しない、次のケース1乃至3においても、以下の手順で自然言語を作成することが可能である。
<ケース1>
まず、解析用辞書112cに含まれる「要素種別の表現」に合致するものが表内に見つからないケース1の動作について、図5のフローチャートを参照して説明する。
表情報解析モジュール112aは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する(ステップS11)。もし、「対象の表現」と一致するものがあるならば、表情報解析モジュール112aは、表の2列目以降において、1行目或は2行目から最終行(つまり、少なくとも2行目から最終行)までのセルに、「要素値」カテゴリに含まれる「表現」が出現するかを判定する(ステップS12)。
表情報解析モジュール112aは、ステップS11及びS12の判定条件を満たす場合、ステップS12の判定条件を満たす列で一番左側に位置する列に対し、その左側に隣接する列のセルの内容を「要素種別の表現」とみなす(ステップS13)。
この際、ステップS12の判定条件を満たす列の1行目のセルに、「要素値」カテゴリに含まれる表現がないならば(ステップS14)、表情報解析モジュール112aは、当該セルの内容を「副対象の表現」とみなす(ステップS15)。
<ケース2>
次に、解析用辞書112cに含まれる「要素値の表現」に合致するものが表内に見つからないケース2の動作について、図6のフローチャートを参照して説明する。
表情報解析モジュール112aは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する(ステップS21)。もし、「対象の表現」と一致するものがあるならば、表内に「要素種別の表現」が出現する列の右列以降を、それぞれ「要素値」のセルを含む列と見なす(ステップS22)。
この際、表情報解析モジュール112aは、「要素種別の表現」が出現する列の1行目のセルが「要素種別の表現」に合致しないならば(ステップS23)、1行目をタイトル行と見なし、1行目で「要素種別の表現」が出現する列の右列以降のセルの内容を「副対象の表現」と見なす。
<ケース3>
次に、解析用辞書112cに含まれる「要素種別の表現」及び「要素値の表現」が共に表内に見つからないケース3の動作について、図7のフローチャートを参照して説明する。
表情報解析モジュール112aは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する(ステップS31)。もし、「対象の表現」と一致するものがあるならば、表情報解析モジュール112aは、表の2列目以降において、1行目或は2行目から最終行までのセルに、「数字のみ」または「数字+一定文字数以下の短い文字列」の表現が出現するかを判定する(ステップS32)。
表情報解析モジュール112aは、ステップS31及びS32の判定条件を満たす場合、ステップS32の判定条件を満たす列で一番左側に位置する列に対し、その左側に隣接する列のセルの内容を「要素種別の表現」とみなす(ステップS33)。
この際、ステップS32の判定条件を満たす列の1行目のセルに、「数字のみ」または「数字+短い文字列」の表現がないならば(ステップS34)、表情報解析モジュール112aは、当該セルの内容を「副対象の表現」とみなす(ステップS35)。
これにより、解析用辞書112cに含まれる「要素種別の表現」または「要素値の表現」に合致するものが表内に存在しない場合にも、当該「要素種別の表現」または「要素値の表現」、更には「副対象の表現」が既出されたセルを推定できるため、自然言語を作成することが可能である。
ここでは、上記ケース1乃至3の処理に関し、いずれのケースの処理を適用するか否かを、管理ユーザ101が変換設定ファイル113に従って選択することができる。
更に、上記ケース1,2,3のそれぞれステップS11,S21,S31の判定で、表が出現する直前の文において「対象の表現」と一致するものが含まれないと判定された場合に、以前に「対象の表現」が見つかった文において、(A)「対象の表現出現直前までの記述」及び(B)「対象の表現出現直後の記述」を記憶しておくことにより、(A)と(B)に挟まれた表現を「対象の表現」と見なすことも可能である。この動作についても、管理ユーザ101が変換設定ファイル113に従って選択することができる。
なお、要素種別の項目と副対象の項目の配列が逆の場合に対処するには、上述の説明の列と行とを入れ替えて処理すれば良い。
前述したように、自然言語付加モジュール112bによって作成された自然言語は、テキスト抽出モジュール114によって知識情報から抽出されたテキスト情報と組み合わされて、登録モジュール13へ送られる。ここでは、タイトルが「ABCについて」の文書情報から抽出されたテキスト情報に、自然言語付加モジュール112bによって作成された自然言語が付されて、登録モジュール13へ送られる。登録モジュール13は、この自然言語が付されたテキスト情報を知識DB121へ登録する。このように、知識情報に含まれている表情報を自然言語に変換して知識DB121に登録した場合、単に表情報から単語を抽出する場合と比べて、自然言語検索の精度を向上することができる。
例えば、図2の表を示す表情報を収集した場合、先行技術では、「自動車ABCの商品内容」「X」「Y」「車両価格」「123万円」「138万円」「駆動方式」「FF」「AWD」「全幅」「1760mm」…とそれぞれが1つの単語として収集されるだけである。このため、「ABCの全幅は?」といった自然言語検索では、「全幅」そのものの値はあるものの、全幅とその値が結びついてないため検索精度は必ずしも良くない。これに対して本実施形態では、「ABCのXの全幅は1760mmです」などの自然言語が作成されて元の知識情報(文書情報)から抽出されたテキスト情報と合わせて知識DB121に登録される。このため、先行技術と比べて自然言語検索の精度を向上することができる。
図8は、自然言語検索の検索画面例を示す。この検索画面は、検索エンジン122によりWebブラウザ16を介してユーザ102に提示される。ユーザ102は、検索画面に配置された検索条件入力フィールド51に、任意の検索条件を入力するための操作を行う。図8の例は、自然言語検索のために「ABCの金額は?」という検索条件が検索条件入力フィールド51に入力されて、検索ボタン52が押された場合を想定している。この場合、検索エンジン122は、「ABCの金額は?」に合致する知識情報を知識DB121から検索し、その検索結果の一覧を図8に示す検索画面の検索結果表示領域に配置する。この検索結果の一覧に、タイトルが「ABCについて」の文書情報が含まれているものとする。この場合、検索エンジン122は、タイトルが「ABCについて」の文書情報に含まれている図2に示す表から変換された自然言語のうち、検索条件に合致した自然言語「ABCのXの車両価格は123万円です」を、図8に示すように、タイトルが「ABCについて」の文書情報の要約43として提示する。つまり、検索結果の要約に自然言語が表示される。これにより、ユーザ102は、検索結果一覧から目的の検索結果を容易に探すことができる。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明の一実施形態に係るナレッジマネジメントシステムの構成を示すブロック図。 表の一例を示す図。 図1中の解析用辞書112cのデータ構造例を示す図。 表情報自然言語変換機構112による表情報自然言語変換処理の手順を示すフローチャート。 解析用辞書112cに含まれる「要素種別の表現」が表内に見つからない場合の処理手順を示すフローチャート。 解析用辞書112cに含まれる「要素値の表現」が表内に見つからない場合の処理手順を示すフローチャート。 解析用辞書112cに含まれる「要素種別の表現」及び「要素値の表現」が共に表内に見つからない場合の処理手順を示すフローチャート。 自然言語検索の検索画面例を示す図。
符号の説明
11…Web情報収集システム、12…知識検索システム、13…登録モジュール、14…設定ファイル、20…インターネット/イントラネット、111…収集制御モジュール、112…表情報自然言語変換機構、112a…表情報解析モジュール、112b…自然言語付加モジュール、112c…解析用辞書、113…変換設定ファイル、114…テキスト抽出モジュール、121…知識DB(データベース)、122…検索エンジン。

Claims (4)

  1. 知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソースから収集する知識情報収集システムにおいて、
    収集された知識情報に表情報が含まれている場合、当該表情報を解析する表情報解析手段と、
    前記表情報解析手段の表情報解析結果を自然言語に変換する自然言語変換手段と、
    収集された知識情報からテキストデータを抽出するテキスト抽出手段であって、前記自然言語変換手段によって変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、前記知識データベースへの知識情報登録を行う登録手段へ送出するテキスト抽出手段と
    を具備することを特徴とする知識情報収集システム。
  2. 表を構成する、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリ毎に、そのカテゴリに適用し得る表現を保持する解析辞書を更に具備し、
    前記表情報解析手段は、表情報から、前記解析辞書に保持されている表現に合致する、対象の表現、要素種別の表現及び要素値の表現を抽出し、
    前記自然言語変換手段は前記表情報解析手段によって抽出された対象の表現、要素種別の表現及び要素値の表現を含む自然言語を作成する
    ことを特徴とする請求項1記載の知識情報収集システム。
  3. 請求項1記載の知識情報収集システムによって収集された知識情報が登録される知識データベースと、
    ユーザにより指定された自然言語検索条件に従って自然言語検索処理を行って前記知識データベースから当該検索条件に合致した検索結果を取得する検索手段であって、検索結果に表情報を含む知識情報がある場合、当該知識情報に付されている前記表情報から変換された自然言語を、当該知識情報の要約としてユーザに提示する検索手段と
    を具備することを特徴とする知識検索システム。
  4. 知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソースから収集する知識情報収集方法において、
    収集された知識情報に表情報が含まれているかを判定するステップと、
    収集された知識情報に表情報が含まれている場合、当該表情報を解析するステップと、
    前記表情報の解析結果を自然言語に変換するステップと、
    前記変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、前記知識データベースに登録させるステップと
    を具備することを特徴とする知識情報収集方法。
JP2004289070A 2004-09-30 2004-09-30 知識情報収集システム、知識検索システム及び知識情報収集方法 Expired - Fee Related JP4119413B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004289070A JP4119413B2 (ja) 2004-09-30 2004-09-30 知識情報収集システム、知識検索システム及び知識情報収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004289070A JP4119413B2 (ja) 2004-09-30 2004-09-30 知識情報収集システム、知識検索システム及び知識情報収集方法

Publications (2)

Publication Number Publication Date
JP2006106872A true JP2006106872A (ja) 2006-04-20
JP4119413B2 JP4119413B2 (ja) 2008-07-16

Family

ID=36376578

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004289070A Expired - Fee Related JP4119413B2 (ja) 2004-09-30 2004-09-30 知識情報収集システム、知識検索システム及び知識情報収集方法

Country Status (1)

Country Link
JP (1) JP4119413B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008305105A (ja) * 2007-06-06 2008-12-18 Toshiba Corp 文書データ処理装置
CN101542743B (zh) * 2007-07-27 2012-09-05 松下电器产业株式会社 半导体装置的制造方法
CN111078216A (zh) * 2019-11-08 2020-04-28 泰康保险集团股份有限公司 信息展示方法、装置、电子设备及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099515A (ja) * 1998-09-21 2000-04-07 Nippon Telegr & Teleph Corp <Ntt> 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体
JP2002099294A (ja) * 2000-06-29 2002-04-05 Fujitsu Ltd 情報処理装置
JP2002140620A (ja) * 2000-11-06 2002-05-17 Matsushita Electric Ind Co Ltd 比較情報提供システム
JP2003150624A (ja) * 2001-11-12 2003-05-23 Mitsubishi Electric Corp 情報抽出装置および情報抽出方法
JP2004102369A (ja) * 2002-09-05 2004-04-02 Sangaku Renkei Kiko Kyushu:Kk 同系統情報を取得する情報検索方法、同系統情報を取得する広域ネットワーク上の情報検索方法、情報検索装置、検索エンジンサーバ装置、同系統検索エンジンサーバ装置、検索用インデックス作成装置、及び情報検索システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099515A (ja) * 1998-09-21 2000-04-07 Nippon Telegr & Teleph Corp <Ntt> 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体
JP2002099294A (ja) * 2000-06-29 2002-04-05 Fujitsu Ltd 情報処理装置
JP2002140620A (ja) * 2000-11-06 2002-05-17 Matsushita Electric Ind Co Ltd 比較情報提供システム
JP2003150624A (ja) * 2001-11-12 2003-05-23 Mitsubishi Electric Corp 情報抽出装置および情報抽出方法
JP2004102369A (ja) * 2002-09-05 2004-04-02 Sangaku Renkei Kiko Kyushu:Kk 同系統情報を取得する情報検索方法、同系統情報を取得する広域ネットワーク上の情報検索方法、情報検索装置、検索エンジンサーバ装置、同系統検索エンジンサーバ装置、検索用インデックス作成装置、及び情報検索システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008305105A (ja) * 2007-06-06 2008-12-18 Toshiba Corp 文書データ処理装置
CN101542743B (zh) * 2007-07-27 2012-09-05 松下电器产业株式会社 半导体装置的制造方法
CN111078216A (zh) * 2019-11-08 2020-04-28 泰康保险集团股份有限公司 信息展示方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
JP4119413B2 (ja) 2008-07-16

Similar Documents

Publication Publication Date Title
US9208185B2 (en) Indexing and search query processing
US8504553B2 (en) Unstructured and semistructured document processing and searching
US20080306941A1 (en) System for automatically extracting by-line information
Han et al. Wrapping web data into XML
US20150067476A1 (en) Title and body extraction from web page
US20080115057A1 (en) High precision data extraction
CN108090104B (zh) 用于获取网页信息的方法和装置
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
JP2011108085A (ja) 知識構築装置およびプログラム
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP2005346495A (ja) 情報処理システム、情報処理方法、および情報処理プログラム
JP6653169B2 (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
JP2008269069A (ja) 情報処理システム及び情報処理方法
JP2007108889A (ja) 知的財産管理システム、知的財産管理方法およびプログラム
Rasmussen et al. The data documentation initiative: a preservation standard for research
JP4119413B2 (ja) 知識情報収集システム、知識検索システム及び知識情報収集方法
JP5423470B2 (ja) 名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法
JP4505389B2 (ja) 広告コンテンツ送信システム、広告コンテンツ送信方法
US20120150899A1 (en) System and method for selectively generating tabular data from semi-structured content
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP5008152B2 (ja) 調達情報検索システム
JP2010003159A (ja) Web利用者支援システム、Web利用者支援方法、およびWeb利用者支援プログラム
US20030237042A1 (en) Document processing device and document processing method
JP5769648B2 (ja) 関連語取得装置及び関連語取得方法
JP2007199987A (ja) 特許情報検索システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080422

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080424

R150 Certificate of patent or registration of utility model

Ref document number: 4119413

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120502

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120502

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130502

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130502

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140502

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees