JP2006040166A - 情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システム - Google Patents
情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システム Download PDFInfo
- Publication number
- JP2006040166A JP2006040166A JP2004222283A JP2004222283A JP2006040166A JP 2006040166 A JP2006040166 A JP 2006040166A JP 2004222283 A JP2004222283 A JP 2004222283A JP 2004222283 A JP2004222283 A JP 2004222283A JP 2006040166 A JP2006040166 A JP 2006040166A
- Authority
- JP
- Japan
- Prior art keywords
- information
- character string
- document
- type
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】関連情報へリンク可能な文書に記載される特定種類の情報を網羅的に抽出する。
【解決手段】本発明の情報抽出装置は、関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置であって、各文書中において特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて文書毎に特定させる記載範囲特定手段と、記載範囲特定手段により特定された各文書の記載範囲内で、参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段と、文字列抽出手段により抽出された文字列を特定情報として出力させる出力手段とを備えることを特徴とする。
【選択図】 図1
【解決手段】本発明の情報抽出装置は、関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置であって、各文書中において特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて文書毎に特定させる記載範囲特定手段と、記載範囲特定手段により特定された各文書の記載範囲内で、参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段と、文字列抽出手段により抽出された文字列を特定情報として出力させる出力手段とを備えることを特徴とする。
【選択図】 図1
Description
本発明は、情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムに関し、例えば、ハイパーテキスト構造の文書集合から特定種類の情報を網羅的に抽出する装置、及び、抽出された情報を利用するシステムに好適である。
従来、検索システムの1つに、例えば、Webページを複数の属性で検索し、検索結果を多次元で提示する検索システムがある(特許文献1参照)。この検索システムでは、指定された製品カテゴリをキーワードして検索し、ヒットした文書数を企業ごとに表示したりしている。しかし、特許文献1におけるキーワード抽出装置は、各キーワードが、例えば、製品カテゴリを表すのか、人名を表すのか等のキーワードの分類をしていない。したがって、特定種類(例えば、特定企業の製品カテゴリなど)のキーワードだけを網羅して一覧表示するという要件には対応できない。
特定の企業の製品カテゴリを表すキーワードを網羅し、製品カテゴリや製品を抽出するための従来方法として、次の2つの方法が考えられる。
まず第1の方法は、製品カテゴリや製品名の辞書を用意したり、「○○装置」などの正規表現で表されるパターンを用意したりして情報抽出する技術を利用する方法である(非特許文献1参照)。
第2の方法は、サイトごとに固有のテンプレートを利用するWebラッパーを利用する方法である(非特許文献2参照)。
特開2002−297661号公報
福本淳一,下畑光夫,桝井文人,「固有表現抽出における日本語と英語の比較」,信学技報,社団法人 電子情報通信学会,1998,NLC98−21,pp.45−52
山田康寛,他3名,「WWWからの情報抽出−Webラッパーの自動構築−」,人工知能学会誌,2004,Vo1.19,No.3,pp.302−310
しかしながら、非特許文献1の情報抽出技術は、製品カテゴリや製品名の辞書を用意することで、その製品カテゴリや製品名を抽出することはできるが、製品カテゴリや製品名は膨大であるため、それら情報を網羅する辞書を用意することが困難である。また、製品カテゴリや製品名に一定の規則性があるわけではなく、それらの情報を抽出するための有効な表現を設定できない。
また、非特許文献2のWebラッパーは、ショッピングモールサイトなど、サイト内の各文書に同一のテンプレートが使われている場合や、1つの文書の中に同じフォーマットが繰り返される場合には有効である。しかし、様々な企業サイトから情報を収集する場合には、同一のテンプレートや同じフォーマットが繰り返されることがない文書を対象にするため、有効ではない。
そのため、関連情報にリンク可能な1又は複数の文書の中から特定情報を抽出するものであって、抽出する特定情報を網羅する辞書を用意することなく、又特定情報の種類を区別することができる情報抽出装置、情報抽出方法、情報抽出プログラム、及び、情報抽出装置が抽出した情報を利用する情報検索システムが求められている。
かかる課題を解決するために、第1の本発明の情報抽出装置は、関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置であって、(1)各文書中において特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて文書毎に特定させる記載範囲特定手段と、(2)記載範囲特定手段により特定された各文書の記載範囲内で、参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段と、(3)文字列抽出手段により抽出された文字列を特定情報として出力させる出力手段とを備えることを特徴とする。
第2の本発明の情報抽出装置は、関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置であって、(1)各文書から参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段と、(2)少なくとも各文書の種別情報を記憶する記憶手段と、(3)互いに異なる文書の複数の文字列間で、文字列及び又は種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段とを備えることを特徴とする。
第3の本発明の情報抽出方法は、第1の本発明の情報抽出装置に対応するものである。第3の本発明の情報抽出方法は、関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出方法であって、(1)記載範囲特定手段が、各文書中において特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて文書毎に特定し、(2)文字列抽出手段が、記載範囲特定手段により特定された各文書の記載範囲内で、参照識別子を構成する文字列を文書毎に抽出し、(3)出力手段が、文字列抽出手段により抽出された文字列を特定情報として出力することを特徴とする。
第4の本発明の情報抽出方法は、第2の本発明の情報抽出装置に対応するものである。第4の本発明の情報抽出方法は、関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出方法であって、(1)文字列抽出手段が、各文書から参照識別子を構成する文字列を文書毎に抽出し、(2)記憶手段が、少なくとも各文書の種別情報を記憶し、(3)種類分別手段が、互いに異なる文書の複数の文字列間で、文字列及び又は種別情報の共通性を判断し、当該文字列の種類を分別することを特徴とする。
第5の本発明の情報抽出プログラムは、第1の情報抽出装置に対応するものである。第5の本発明の情報抽出プログラムは、関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置に、(1)各文書中において特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて文書毎に特定させる記載範囲特定手段、(2)記載範囲特定手段により特定された各文書の記載範囲内で、参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段、(3)文字列抽出手段により抽出された文字列を特定情報として出力させる出力手段として機能させるためのものである。
第6の本発明の情報抽出プログラムは、第2の本発明の情報抽出装置に対応するものである。第6の本発明の情報抽出プログラムは、関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置に、(1)各文書から参照識別子を構成する文字列を文書毎に抽出させる文字列抽出手段、(2)少なくとも各文書の種別情報を記憶する記憶手段、(3)互いに異なる文書の複数の文字列間で、文字列及び又は種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段として機能させるためのものである。
第7の本発明の情報検索システムは、1又は複数の文書から指示された特定情報を検索する情報検索システムにおいて、第1又は第2の本発明の情報抽出装置を備えることを特徴とする。
本発明によれば、関連情報にリンク可能な1又は複数の文書の中から特定情報を抽出するときに、抽出する特定情報を網羅する辞書を用意することなく、又特定情報の種類を区別することができる。
以下、本発明の情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムを実施するための最良の形態について図面を参照し説明する。
以下で説明する実施形態は、ハイパーリンクを有するHTML文書に含まれる情報を抽出する場合について説明する。
(A)第1の実施形態
まず、本発明の情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムの第1の実施形態について図面を参照して説明する。
まず、本発明の情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムの第1の実施形態について図面を参照して説明する。
第1の実施形態は、企業のサイトマップや製品一覧等のHTML文書から、製品カテゴリや製品名を抽出目的語(目的ワード)として抽出する情報抽出システムに適用した場合を説明する。
また、第1の実施形態の情報抽出システムは、HTML文書が、他の関連文書にリンクするための参照識別子(HTML文書の場合のアンカー。以下、アンカーとする。)を有し、アンカーを構成する文字列(以下、アンカー文字列)が記載されている範囲を特定し、その特定範囲のアンカー文字列を目的ワードとして抽出するものである。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の情報抽出システムの機能を説明するための機能ブロック図である。
図1は、第1の実施形態の情報抽出システムの機能を説明するための機能ブロック図である。
図1に示すように、本実施形態の情報抽出システム10は、入力部1、記載範囲決定部2、特徴単語格納部3、リンク抽出部4、目的ワード抽出部5、出力部6を備える。
入力部1は、入力文書としてHTML文書を取り込み、取り込んだHTML文書を構成するHTMLタグ及び文字列を区別し、HTMLタグ及び文字列を区別した文書情報を記載範囲決定部2及びリンク抽出部4に与えるものである。本実施形態では、入力部1は、企業のサイトマップや製品一覧などのHTMLページを入力文書として取り込む。
記載範囲決定部2は、入力部1からHTML文書(入力文書)の文書情報を受け取り、特徴単語格納部3に格納されている特徴単語を参照して、製品カテゴリや製品名等の記載範囲を、受け取ったHTML文書の中から決定するものである。また、記載範囲決定部2は、決定した製品カテゴリや製品名等の記載範囲を、目的ワード抽出部5に与えるものである。
特徴単語格納部3は、入力文書中における抽出目的とする単語(本実施形態では製品カテゴリや製品名等)の記載範囲を特定するための手がかりになる単語を格納するものである。
ここで、一般的に、サイトマップや製品一覧等の文書では、製品カテゴリや製品名等がアンカー文字列として示されている場合が多い。また、このようなアンカー文字列は、サイトマップ等の一定領域に記載されている場合が多い。従って、これらの点を考慮して、ある一定の領域(範囲)を特定し、その範囲内から抽出したアンカー文字列を抽出目的語とする。
図2は、特徴単語格納部3が格納するデータの項目例を示す。図2に示すように、特徴単語格納部3が格納する項目として、開始単語21及び終了単語22を格納する。開始単語21は、入力文書中における検索対象とする単語の記載範囲の開始位置を決定するための単語であり、終了単語22は、入力文書中における抽出対象とする文字列の記載範囲の終了位置を決定するための単語である。開始単語21及び終了単語22は、企業のサイトマップや製品一覧などの文書における一般的な構成などをもとにして、経験的、統計的又は確率的に判断して設定する方法が考えられる。
リンク抽出部4は、入力部1からHTML文書(入力文書)の文書情報を受け取り、その文書情報全体に含まれるアンカーを抽出するものである。リンク抽出部4は、例えば、HTML文書において、「Aタグ」と「/Aタグ」との間で囲まれる範囲をアンカー部分として抽出する。また、リンク抽出部4は、抽出したアンカー部分を目的ワード抽出部5に与えるものである。
目的ワード抽出部5は、記載範囲決定部2が決定した記載範囲を受け取り、その記載範囲におけるリンク抽出部4により抽出されたアンカーの構成文字列(アンカー文字列)を、目的ワード(本実施形態では製品カテゴリや製品名等)として抽出するものである。また、目的ワード抽出部5は、抽出したアンカー文字列のうち、例えば、記号や数字など製品カテゴリや製品名として不適な文字列を除去するものである。これにより、より精度を高くして目的ワードを抽出することができる。
出力部6は、目的ワード抽出部5が抽出した文字列を出力するものである。
(A−2)第1の実施形態の動作
次に、第1の実施形態の情報抽出システムの動作について図面を参照して説明する。図3は、第1の実施形態の情報抽出システムの動作フローチャートである。
次に、第1の実施形態の情報抽出システムの動作について図面を参照して説明する。図3は、第1の実施形態の情報抽出システムの動作フローチャートである。
企業のサイトマップや製品一覧等のHTML文書が入力文書として入力部1に取り込まれる(ステップ100)。
入力部1にHTML文書が入力すると、HTML文書は、入力部1により、HTMLタグ及び文字列を区別した文書情報に整形される(ステップ110)。
ここで、入力部1におけるHTML文書の整形について図面を参照して説明する。図4は入力部1に入力されたHTML文書例を示す図であり、図5は入力部1により整形された文書情報例を示す図である。
図4に示すように、HTML文書は、HTMLタグとHTMLタグ以外の文字列とにより構成される。従って、入力部1は、HTMLタグであるか否かを判断することで、HTMLタグとHTMLタグ以外の文字列とを区別することができる。なお、HTMLタグは、「<」及び「>」で囲まれているので、従来の文字列マッチング方式を利用可能である。
そして、入力部1において、HTMLタグとHTMLタグ以外の文字列とを区別すると、図5に示すように、区別したHTMLタグ及びHTML以外の文字列をそれぞれ1行とする文書情報を作成する。つまり、HTMLタグの行は、「<」で始まり、HTML以外の文字列の行は、「<」で始まらない。これによりHTMLタグとそれ以外の文字列とを容易に区別可能な文書情報に整形できる。
入力部1によりHTML文書が整形されると、その整形された文書情報が、記載範囲決定部2及びリンク抽出部4に与えられる。
文書情報が記載範囲決定部2に与えられると、文書情報は、記載範囲決定部2により特徴単語格納部3で格納される特徴単語(文字列)と照合され、HTMLタグでない各行の文字列が、特徴単語格納部3の特徴単語(文字列)と同一又は特徴単語(文字列)を一部として含むものであるかどうか判断される(ステップ120)。
例えば、特徴単語格納部3が図2に例示する特徴単語を格納している場合、図5の文書情報において、特徴単語と同一又は一部を含む行は次の通りである。
特徴単語格納部3の開始単語については、23行目の「製品紹介」が特徴単語「製品」を一部に含み、終了単語については、9行目の「会社概要」が特徴単語の「会社概要」と同じであり、18行目の「投資家向け情報」が特徴単語「投資家」を一部に含み、及び、41行目の「プレスリリース」が特徴単語「プレスリリース」と同じである。
記載範囲決定部2により特徴単語との一致性が判断されると、記載範囲決定部2により、「特徴単語格納部3の開始単語に一致した行」を、決定する記載範囲の開始位置(開始行)とし、開始位置以降であって開始位置から最も近い「特徴単語格納部3の終了単語に一致する行」を終了位置(終了行)とし、この範囲が、特定ワードが記載され得る記載範囲として決定される(ステップ130)。
例えば、図5において、開始位置は23行目になり、開始位置以降であって、開始位置からもっと近い41行目が終了位置となる。従って、記載範囲は、23行目〜41行目である。
なお、決定される記載範囲は、特徴単語との照合結果によって、複数箇所の場合も考えられる。
一方、入力部1からの文書情報がリンク抽出部4に与えられると、文書情報は、リンク抽出部4により、HTMLタグの各行について、他の文書へのリンクを表すAタグから/Aタグで囲まれる範囲が抽出される(ステップ140)。
例えば、図5において、リンク抽出部4により抽出される範囲は、13行目〜15行目、17行目〜19行目、27行目〜29行目、31行目〜33行目、35行目〜37行目、45行目〜47行目、及び、49行目〜51行目となる。
記載範囲決定部2により記載範囲が決定され、リンク抽出部4によりリンク記載範囲が抽出されると、これら記載範囲とリンク記載範囲とは目的ワード抽出部5に与えられる。
目的ワード抽出部5において、記載範囲決定部2により決定された記載範囲と、リンク抽出部4により抽出されたリンク記載範囲とが共通する領域が抽出される(ステップ150)。
例えば、図5において、記載範囲決定部2により決定された範囲は23行目〜41行目と、リンク抽出部4により抽出されたリンク記載範囲との共通領域は、27行目〜29行目、31行目〜33行目、及び、35行目〜37行目である。
なお、図3では、記載範囲の特定後、アンカー文字列を抽出して共通領域を計算するものとして示すが(ステップ130〜150)、この順序で行なうことに限定されない。
目的ワード抽出部5により共通領域が抽出されると、その共通領域にあるHTMLタグでない行の文字列(アンカー文字列)が、製品カテゴリ及び製品名を表す文字列を含む文字列として抽出される(ステップ160)。
例えば、図5において、共通領域である27行目〜29行目において、HTMLタグでない行である28行目の「1.パソコン」が抽出される。また同様に、共通領域31行目〜33行目及び35行目〜37行目において、32行目の「2.プリンタ」及び36行目の「3.デジカメ」が抽出される。
目的ワード抽出部5により文字列が抽出されると、目的ワード抽出部5において、その抽出された文字列のうち、製品カテゴリや製品名として適切でない文字列が、例えばパターンマッチング方式や固有表現抽出技術などにより、除去される(ステップ170)。
例えば、パターンマッチング方式や固有表現抽出等により、次のような不要文字列を除去する。
(1)「O」「●」「※」「├」「┘」などの記号や「(1)」「(2)」「1.」「2.」…などの見出しをパターンマッチングによって除去する。
(2)「5/29」などの日付を表す表現や「〜本部」など組織を表す単語を固有表現抽出し、製品カテゴリや製品名以外の、日付や組織名などに分類された固有表現を除去する。
(3)「商品検索」「製品ラインナップ」など、リンク先に製品情報が記載されていることを示す単語をパターンマッチングによって除去する。
例えば、図5において、目的ワード抽出部5が抽出した「1.パソコン」、「2.プリンタ」及び「3.デジカメ」の場合、「1.」、「2.」及び「3.」などの表現を取り除く。
このようにして、目的ワード抽出部5により不要な文字列の削除がなされた抽出文字列は、出力部6に与えられ、出力部6により出力される(ステップ180)。
例えば、本実施形態の例の場合、目的ワード抽出部5により、不要な文字列が除去されて残った、「パソコン」、「プリンタ」及び「デジカメ」が出力部6から出力される。
(A−3)第1の実施形態の効果
以上、第1の実施形態によれば、特定ワードが記載され得る記載範囲を特定する記載範囲決定手段を備え、その記載範囲内のアンカー文字列を抽出し、その抽出した文字列を目的ワードとして出力することができるので、従来のように、抽出する目的ワードを格納する辞書を備える必要がない。
以上、第1の実施形態によれば、特定ワードが記載され得る記載範囲を特定する記載範囲決定手段を備え、その記載範囲内のアンカー文字列を抽出し、その抽出した文字列を目的ワードとして出力することができるので、従来のように、抽出する目的ワードを格納する辞書を備える必要がない。
(B)第2の実施形態
次に、本発明の情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムの第2の実施形態について図面を参照して説明する。
次に、本発明の情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システムの第2の実施形態について図面を参照して説明する。
第2の実施形態の情報抽出システムは、複数のサイトマップや製品一覧の入力文書と、サイトの企業種別の情報(電気機器、機械、精密機器、銀行など)とを入力情報として取り込み、サイトマップや製品一覧の入力文書から、製品カテゴリや製品名を表す文字列を抽出した後、抽出した文字列間で、文字列及び企業種別の共通性に基づいて、抽出文字列の種類を判断するものである。
これは、例えば一般に電気機器メーカーは、同一の製品カテゴリの商品を掲載している可能性が高い。従って、第1の実施形態で抽出された単語に共通の文字列がある場合、共通する部分は製品カテゴリである可能性が高いと考えられ、一方、共通しない部分は製品名である可能性が高いと考えられる。
例えば、ある電気機器メーカーサイトで「プリンタP−2004」という文字列が抽出され、別の電気機器メーカーサイトで「プリンタ」という文字列が抽出された場合、文字列が共通する部分の「プリンタ」は製品カテゴリ名であり、共通しない部分の「P−2004」は製品名と判断できる。
また、電気機器メーカーと機械メーカーとの間では、共通する製品カテゴリは存在しない。従って、第1の実施形態で抽出された単語に共通の文字列がある場合でも、これらは製品カテゴリでも製品名でもないと判断できる。
例えば、電気機器メーカーサイトで「ラインナップ」が抽出され、機械メーカーでも「ラインナップ」が抽出された場合、これらは製品カテゴリでも製品名でもないと判断する。
以上の点を考慮し、本発明の第2の実施形態について説明する。
(B−1)第2の実施形態の構成
図6は、第2の実施形態の情報抽出システムの内部機能を説明する機能ブロック図である。
図6は、第2の実施形態の情報抽出システムの内部機能を説明する機能ブロック図である。
図6に示すように、情報抽出システム20は、入力部1、記載範囲決定部2、特徴単語格納部3、リンク抽出部4、目的ワード抽出部5、目的ワード一時記憶部7、目的ワード選別部8、出力部6を備える。
図6において、第1の実施形態で説明した情報抽出システム10の機能構成と同一・対応構成については対応する符号を付して示す。また、第1の実施形態で説明した情報抽出システム10の同一・対応構成についての詳細な機能説明は省略する。
第2の実施形態の情報抽出システム20は、目的ワード一時記憶部7及び目的ワード選別部8を備える点が、第1の実施形態の情報抽出システム10と異なる。
入力部1は、第1の実施形態と同様に、入力文書を取り込み、文書情報として記載範囲決定部2及びリンク抽出部4に与えるものである。本実施形態も第1の実施形態と同様に、入力部1は、企業のサイトマップや製品一覧のHTML文書を入力文書として取り込むものとする。また、入力部1は、取り込んだ入力文書についての企業種別の情報を取り込むものである。入力部1が取り込んだ入力文書の企業種別の情報は、後述する目的ワード一時記憶部7に記憶される。
目的ワード一時記憶部7は、目的ワード抽出部5が第1の実施形態と同様にして抽出した目的ワード(製品カテゴリや製品名)を格納するものである。また、目的ワード一時記憶部7は、入力部1が取り込んだ企業種別の情報を、入力文書に対応させて格納するものである。
目的ワード選別部8は、目的ワード一時記憶部7を参照し、目的ワード抽出部5で格納した文字列で、共通した文字列を見つけることで、製品名、製品カテゴリ、いずれでもない、のいずれであるかを判断するものである。なお、目的ワード選別部8が選別する文字列種類の内容や数は、目的ワードに応じて適宜設定可能である。
出力部6は、目的ワード選別部8により選別された製品名と製品カテゴリを出力するものである。
(B−2)第2の実施形態の動作
次に、第2の実施形態の情報抽出システム20の動作について図面を参照して説明する。図7は、情報抽出システム20の動作を示すフローチャートである。
次に、第2の実施形態の情報抽出システム20の動作について図面を参照して説明する。図7は、情報抽出システム20の動作を示すフローチャートである。
以下では、入力部1が取り込む文書が、企業種別が「電気機器」である文書1(図2の示す文書)、企業種別が「電気機器」と「精密機器」である文書2(図示せず)、企業種別が「機械」である文書3、企業種別が「電気機器」である文書4(図示せず)である場合について述べる。また、企業が複数の製品分野にまたがっている場合もあるので、企業種別は1つとは限らず複数でもよい。
まず、入力部1には、文書1〜4と、文書1〜4のそれぞれの企業種別とが入力され、文書と企業種別との組が取り込まれる(ステップ200)。
図8は、入力部1に入力される文書と企業種別との入力例である。例えば、図8に示すように、文書1に対応するように企業種別「電気機器」が入力され、文書2に対応するように企業種別「電気機器」及び「精密機器」が入力され、文書3に対応するように企業種別「機械」が入力され、文書4に対応するように「電気機器」が入力される。
なお、文書と企業種別との組の入力は、企業種別を文書に対応させて入力部1に取り込ませることができれば色々な手法が考えられる。
各文書と企業種別との組が入力部1に入力されると、入力部1において、以下で説明する処理がすべての文書に対して処理がなされた否かが判断され(ステップ210)、未処理の文書がある場合には、その未処理の文書が選択される(ステップ220)。
未処理の文書がある場合に、入力部1により選択された未処理の文書は、入力部1により、HTMLタグ及び文字列が区別された文書情報として整形され、第1の実施形態で説明した図3のステップ110〜170が実行される(ステップ230)。
すなわち、入力部1が取り込んだ文書は、記載範囲決定部2により決定された記載範囲及びリンク抽出部4により抽出されたリンク記載範囲に基づいて、目的ワード抽出部5により、記載範囲内のアンカー文字列が目的ワードとして抽出される。
目的ワード抽出部5により、目的ワードが抽出されると、その抽出された目的ワードは、目的ワード一時記憶部7に登録される(ステップ240)。
このように、未処理の文書について、目的ワード抽出部5により抽出された目的ワードが目的ワード一時記憶部7に登録される。そして、すべての文書についての目的ワードが目的ワード一時記憶部7に登録されるまで繰り返しなされる(ステップ210)。
ここで、図9は、目的ワード一時記憶部7の構造例を示す。図9に示すように、目的ワード一時記憶部7の管理項目例として、文書識別子項目、企業種別項目、抽出文字列項目などから構成される。
文書識別子項目は、入力された文書を一意に識別するための情報である。この例では、文書1、文書2、文書3、文書4を格納する。
企業種別項目は、各文書に対応する文書種別である。この例では、「電気機器」、「精密機器」、「機械」を格納する。
抽出文字列項目は、目的ワード抽出部5が抽出した文字列である。例えば、文書1については、目的ワード抽出部5により抽出された「パソコン」、「プリンタ」、「デジカメ」を格納する。
また、目的ワード一時記憶部7は、図9に示すように、抽出文字列に対応したレコードを割り当てて登録する。例えば、文書1の「パソコン」、「プリンタ」、「デジカメ」にそれぞれ第1〜3レコードを登録する。
すべての文書についての目的ワードが目的ワード一時記憶部7に登録されると、目的ワード選別部8は、抽出した文字列間に共通する文字列を見つけることで、文字列が、製品名、製品カテゴリ、いずれでもない、のいずれであるかを判断する(ステップ250)。
ここで、目的ワード選別部8における詳細な処理について図10を参照して説明する。図10は、目的ワード選別部8の動作を示すフローチャートである。
また、以下では目的ワード一時記憶部7のi番目のレコードをRiとして示す。
まず、目的ワード一時記憶部7において、処理対象のレコード番号を示すカウンタiを「1」に初期化する。また、Riの抽出文字列の種類(製品名、製品カテゴリ、いずれでもない、のいずれか)を格納する変数word_typeiを「製品名」に初期化する。
カウンタiの初期化がされると、カウンタiと総レコード数とを比較することで、すべてのレコードについて処理が終了したか否かを判断し、カウンタiが、総レコード数以下の場合ステップ1020に進み、総レコード数を超えた場合終了する(ステップ1010)。
次に、ステップ1020において、Riの文字列と比較する相手側のレコードを示すカウンタjを「1」に初期化する(ステップ1020)。
カウンタjの初期化がされると、カウンタjと総レコード数とを比較し、カウンタjが、総レコード数以下の場合ステップ1040に進み、総レコード数を超えた場合、他のすべてのレコードの文字列との比較が終了したと判断して、ステップ1130に進み、カウンタiをi+1にする(ステップ1030)。これにより、次のカウンタi+1に相当するレコードRi+1の文字列について処理する。
カウンタjが総レコード数以下の場合、Riの文書識別子とRjの文書識別子とを比較し、Riの文書識別子とRjの文書識別子とが一致するか否かを判断する(ステップ1040)。
Riの文書識別子とRjの文書識別子とが一致する場合、Ri及びRjの文書は同一文書であると判断され、ステップ1120に進み、カウンタjに1を加えて、次のレコードと比較させる(ステップ1120)。
一方、Riの文書識別子とRjの文書識別子とが一致しない場合、Ri及びRjの文書は異なる文書であると判断され、次に、Riの抽出文字列とRjの抽出文字列とが比較される(ステップ1050)。
ここで、ステップ1050では、Riの抽出文字列とRjの抽出文字列との間で、一方の文字列が他方の文字列の全部又は一部を包含するか否かを判断し、その判断結果に応じて異なるステップに進む。
つまり、(1)Riの抽出文字列が、Rjの抽出文字列と同じ又はRjの抽出文字列に包含される場合、ステップ1060に進む。また、(2)Rjの抽出文字列が、Riの抽出文字列に包含される場合、ステップ1090に進む。さらに、(3)Riの抽出文字列とRjの抽出文字列とが包含関係にない場合、ステップ1120に進む。
例えば、図9において、Ri=1、Rj=8の場合、第1レコードの抽出文字列は「パソコン」であり、第8レコードの抽出文字列は「ノートパソコンNPCシリーズ」であるから、Riの抽出文字列は、Rjの抽出文字列に包含される。従って、この場合、ステップ1060に進む。
また例えば、Ri=2、Rj=11の場合、第2レコードの抽出文字列は「プリンタ」であり、第11レコードの抽出文字列は「プリンタカートリッジ」であるから、Riの抽出文字列は、Rjの抽出文字列に包含される。従って、この場合、ステップ1060に進む。
また例えば、Ri=4、Rj=6の場合とRi=6、Rj=4の場合、第4レコード及び第6レコードの抽出文字列はいずれも「ラインナップ」と同じであるから、ステップ1060に進む。
また例えば、Ri=5、Rj=2の場合、第5レコードの抽出文字列が「プリンタP−AA」であり、第2レコードの抽出文字列が「プリンタ」であるから、Rjの抽出文字列が、Riの抽出文字列を包含する。従って、この場合、ステップ1090に進む。
また例えば、Ri=8、Rj=1の場合、第8レコードの抽出文字列が「ノートパソコンNPCシリーズ」であり、第1レコードの抽出文字列が「パソコン」であるから、Rjの抽出文字列が、Riの抽出文字列に包含される。従って、この場合、ステップ1090に進む。
さらに、Ri=1、Rj=4の場合、第1レコードの抽出文字列が「パソコン」であり、第4レコードの抽出文字列が「ラインナップ」であり、Riの抽出文字列とRjの抽出文字列との間で包含関係がないので、ステップ1120に進む。
図10に戻り、ステップ1050において、Riの抽出文字列がRjの抽出文字列と同じ又は包含されると判断されると、Riの企業種別とRjの企業種別とが比較される(ステップ1060)。
ステップ1060において、Riの企業種別とRjの企業種別とが同じ場合、Riの抽出文字列の種類を示す変数word_typeiを「製品カテゴリ」と判断する(ステップ1070)。そして、ステップ1120に進み、カウンタjが更新されて次のレコードとの比較がなされる。
例えば、第1レコードと第8レコードの企業種別項目が一致するため、第1レコードの抽出文字列「パソコン」の種類は「製品カテゴリ」と判断される。
また、第2レコードと第5レコード、第2レコードと第11レコードの企業種別項目は一致するため、第2レコードの抽出文字列「プリンタ」の種類は「製品カテゴリ」と判断される。
一方、ステップ1060において、Riの企業種別とRjの企業種別とが同じでない場合、Riの抽出文字列の変数word_typeiは「いずれでもない」と判断される。そして、ステップ1130に進み、カウンタiが更新されて次のレコードについての選別処理がなされる(ステップ1130)。
例えば、第4レコードと第6レコードでは、企業種別項目が異なるため、第4レコードの抽出文字列「ラインナップ」の種類は「いずれでもない」に決定される。第6レコードも同様である。
また、ステップ1050において、Rjの抽出文字列がRiの抽出文字列に包含されると判断されると、Riの企業種別とRjの企業種別とが比較される(ステップ1090)。
ステップ1090において、Riの企業種別とRjの企業種別とが同じ場合、Riの抽出文字列は、Rjと共通する部分について変数word_typeiを「製品カテゴリ」と判断し、Rjと相違する部分について変数word_typeiを「製品名」と判断する(ステップ1100)。ただし、変数word_typeiに既に「製品カテゴリ」が設定されていた場合には、「製品カテゴリ」の文字列長が長い方を設定する。そして、ステップ1120に進み、カウンタjが更新されて次のレコードとの比較がなされる。
例えば、第5レコードと第2レコードでは企業種別項目が一致する。それらの間の共通の文字列は「プリンタ」であり、第5レコードの抽出文字列「プリンタ」は「製品カテゴリ」と、「P−AA」の種類は「製品名」と判断される。
また、共通する部分と共通しない部分の間に、空白がない場合や、文字種の変化がない場合や、カギ括弧などの切れ目を示す単語がない場合には、全体を製品カテゴリと判断する。
例えば、第11レコードと第2レコードの間の共通の文字列は「プリンタ」である。したがって、この条件がないと、「プリンタ」が製品カテゴリで、「カートリッジ」が製品名になってしまう。一般に、製品カテゴリと製品名では、切れ目の手がかりとなる文字が存在する。そこで、この条件によって、「プリンタ」の末尾文字「タ」と「カートリッジ」の先頭文字「カ」の文字種の変化がないので、全体で製品カテゴリとする。
また、共通する部分が、文字列の中間にある場合、例えば、第8レコードと第1レコードの場合である。この場合には、前方の共通しない部分を「製品カテゴリ」に含める。つまり、第8レコードの「ノート」を含めて「ノートパソコン」を製品カテゴリと判断し、「NPCシリーズ」を製品名と判断する。
一方、ステップ1090において、Riの企業種別とRjの企業種別とが同じでない場合、Riの抽出文字列の変数word_typeiを「いずれでもない」と判断する。そして、ステップ1130に進み、カウンタiが更新されて次のレコードについての選別処理がなされる(ステップ1110)。
以上のようにして、Riの抽出文字列に対して選別処理を行なう。図11は、各レコードの抽出文字列の選別結果の一覧を示す。
図11に示すように、第1レコードの「パソコン」は製品カテゴリ、第2レコードの「プリンタ」は製品カテゴリ、第3レコードの「デジカメ」は製品カテゴリ、第4レコードの「ラインナップ」はいずれでもない、第5レコードの「プリンタP−AA」は「プリンタ」が製品カテゴリ及び「P−AA」が製品名、第6レコード:「ラインナップ」はいずれでもない、第7レコードの「電気ドリル」は製品名、第8レコードの「ノートパソコンNPCシリーズ」は「ノートパソコン」が製品カテゴリ及び「NPCシリーズ」が製品名、第9レコードの「デジカメdigicame−1」は「デジカメ」が製品カテゴリ及び「digicame−1」が製品名、第10レコードの「Printer−2004」は製品名、第11レコードの「プリンタカートリッジ」は製品カテゴリとなる。
最後に、図7に戻り、出力部6は、各レコードごとにword_typeiを出力する(ステップ260)。
(B−3)第2の実施形態の効果
以上、第2の実施形態によれば、様々な企業サイトのサイトマップや製品一覧の文書に対して、製品カテゴリ名や製品名の抽出処理を実施し、それらの単語の共通の文字列を利用することで、製品カテゴリ名や製品名として適当でない単語を除去できる。さらに、抽出した文字列を、製品名と製品カテゴリに区別することができる。
以上、第2の実施形態によれば、様々な企業サイトのサイトマップや製品一覧の文書に対して、製品カテゴリ名や製品名の抽出処理を実施し、それらの単語の共通の文字列を利用することで、製品カテゴリ名や製品名として適当でない単語を除去できる。さらに、抽出した文字列を、製品名と製品カテゴリに区別することができる。
(C)他の実施形態
(C−1)上述した第1及び第2の実施形態では、入力文書をHTML文書として説明したが、それに限らず、他の文書(関連文書)へのハイパーリンクが存在する文書であれば適用可能である。つまり、インターネット上の文書に限定されるものではない。
(C−1)上述した第1及び第2の実施形態では、入力文書をHTML文書として説明したが、それに限らず、他の文書(関連文書)へのハイパーリンクが存在する文書であれば適用可能である。つまり、インターネット上の文書に限定されるものではない。
(C−2)上述した第1及び第2の実施形態では、企業のサイトマップや製品一覧等から製品カテゴリや製品名を抽出する場合について説明したが、サイトマップや製品一覧に限らず、文書中の特定の範囲に、特定の種類の単語がアンカー文字列となっている文書全般に適用できる。例えば、大学サイト等の組織一覧や人名一覧等において、組織名や人名等を網羅して抽出する場合が考えられる。
(C−3)上述した第1及び第2の実施形態において、記載範囲決定部2が、特徴単語格納部3の特徴単語と文書を構成する語とを照合することで、文字列マッチングをすることとして説明したが、まず文書について形態素解析を実行した後に、特徴単語と文字列マッチングをするようにしてもよい。これにより、誤った文字区切りでの文字列マッチングを減少させることができる。
(C−4)上述した第1及び第2の実施形態の変形例として、例えば、アンカー文字列が「製品一覧」など、リンク先の文書にカテゴリ名が記載されていることもある。したがって、このような単語にマッチしたアンカー文字列については、そのリンク先の文書も処理対象にしてもよい。
(C−5)また、アンカー文字列が製品カテゴリや製品名を含んでいると判断できれば、そのリンク先のページの種別が、製品カテゴリ情報や製品情報を含む文書であるという、文書分類もできる。
(C−6)上述した第1及び第2の実施形態において、図3のステップ170で示した目的ワード抽出部5による文字列の削除は、パターンマッチングや固有表現抽出方式など限らない。例えば、アンカー文字列が所望の特定情報でないと判断できるのであれば、アンカー文字列が長いものや、動詞で終わっているものを除くようにする方法が考えられる。
(C−7)上述した第2の実施形態において、目的ワード選別部8は、「製品カテゴリ」「製品名」「いずれでもない」のうち1つだけを選別する場合について説明した。しかし、例えば、共通する文字列が多いほど「製品カテゴリ」である確率が高いなどの確率を利用してもよい。
(C−8)上述した第2の実施形態において、情報抽出システム20の機能構成は図6に限定されない。つまり、目的ワード抽出部5以外の機能により抽出された情報についても、目的ワード選別部8は種類選別することができる。
(C−9)上述した第1及び第2の実施形態では、情報抽出システムについて詳細に説明したが、これら情報抽出システムは、情報検索システムや情報提供システムなどに広く利用可能である。
1…入力部、2…記載範囲決定部2、3…特徴単語格納部、4…リンク抽出部、
5…目的ワード抽出部、6…出力部、7…目的ワード一時記憶部、
8…目的ワード選別部、10、20…情報抽出システム。
5…目的ワード抽出部、6…出力部、7…目的ワード一時記憶部、
8…目的ワード選別部、10、20…情報抽出システム。
Claims (8)
- 関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置であって、
上記各文書中において上記特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて上記文書毎に特定させる記載範囲特定手段と、
上記記載範囲特定手段により特定された上記各文書の記載範囲内で、上記参照識別子を構成する文字列を上記文書毎に抽出させる文字列抽出手段と、
上記文字列抽出手段により抽出された文字列を上記特定情報として出力させる出力手段と
を備えることを特徴とする情報抽出装置。 - 少なくとも上記各文書の種別情報を記憶する記憶手段と、
互いに異なる文書の複数の文字列間で、文字列及び又は上記種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段と
を備えることを特徴とする請求項1に記載の情報抽出装置。 - 関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置であって、
上記各文書から上記参照識別子を構成する文字列を上記文書毎に抽出させる文字列抽出手段と、
少なくとも上記各文書の種別情報を記憶する記憶手段と、
互いに異なる文書の複数の文字列間で、文字列及び又は上記種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段と
を備えることを特徴とする情報抽出装置。 - 関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出方法であって、
記載範囲特定手段が、上記各文書中において上記特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて上記文書毎に特定し、
文字列抽出手段が、上記記載範囲特定手段により特定された上記各文書の記載範囲内で、上記参照識別子を構成する文字列を上記文書毎に抽出し、
出力手段が、上記文字列抽出手段により抽出された文字列を上記特定情報として出力する
ことを特徴とする情報抽出方法。 - 関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出方法であって、
文字列抽出手段が、上記各文書から上記参照識別子を構成する文字列を上記文書毎に抽出し、
記憶手段が、少なくとも上記各文書の種別情報を記憶し、
種類分別手段が、互いに異なる文書の複数の文字列間で、文字列及び又は上記種別情報の共通性を判断し、当該文字列の種類を分別する
ことを特徴とする情報抽出方法。 - 関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置に、
上記各文書中において上記特定情報が記載されていると予測される範囲を、予め設定された範囲特定語を用いて上記文書毎に特定させる記載範囲特定手段、
上記記載範囲特定手段により特定された上記各文書の記載範囲内で、上記参照識別子を構成する文字列を上記文書毎に抽出させる文字列抽出手段、
上記文字列抽出手段により抽出された文字列を上記特定情報として出力させる出力手段
として機能させるための情報抽出プログラム。 - 関連情報にリンクするための参照識別子を有する1又は複数の文書における特定情報を抽出する情報抽出装置に、
上記各文書から上記参照識別子を構成する文字列を上記文書毎に抽出させる文字列抽出手段、
少なくとも上記各文書の種別情報を記憶する記憶手段、
互いに異なる文書の複数の文字列間で、文字列及び又は上記種別情報の共通性を判断し、当該文字列の種類を分別させる種類分別手段
として機能させるための情報抽出プログラム。 - 1又は複数の文書から指示された特定情報を検索する情報検索システムにおいて、請求項1〜3のいずれかに記載の情報抽出装置を備えることを特徴とする情報検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004222283A JP2006040166A (ja) | 2004-07-29 | 2004-07-29 | 情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004222283A JP2006040166A (ja) | 2004-07-29 | 2004-07-29 | 情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006040166A true JP2006040166A (ja) | 2006-02-09 |
Family
ID=35905056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004222283A Pending JP2006040166A (ja) | 2004-07-29 | 2004-07-29 | 情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006040166A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008093569A1 (ja) * | 2007-01-29 | 2008-08-07 | Nec Corporation | 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム |
JP2012238296A (ja) * | 2011-04-28 | 2012-12-06 | Ird:Kk | データベース構築装置、商標侵害検知装置、データベース構築方法、およびプログラム |
-
2004
- 2004-07-29 JP JP2004222283A patent/JP2006040166A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008093569A1 (ja) * | 2007-01-29 | 2008-08-07 | Nec Corporation | 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム |
JP5040925B2 (ja) * | 2007-01-29 | 2012-10-03 | 日本電気株式会社 | 情報抽出規則作成支援システム、情報抽出規則作成支援方法及び情報抽出規則作成支援プログラム |
US8380650B2 (en) | 2007-01-29 | 2013-02-19 | Nec Corporation | Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program |
JP2012238296A (ja) * | 2011-04-28 | 2012-12-06 | Ird:Kk | データベース構築装置、商標侵害検知装置、データベース構築方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8630972B2 (en) | Providing context for web articles | |
US6381593B1 (en) | Document information management system | |
US10445359B2 (en) | Method and system for classifying media content | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
US6178417B1 (en) | Method and means of matching documents based on text genre | |
EP1424640A2 (en) | Information storage and retrieval apparatus and method | |
EP1426882A2 (en) | Information storage and retrieval | |
US7024405B2 (en) | Method and apparatus for improved internet searching | |
GB2509773A (en) | Automatic genre determination of web content | |
US20130254190A1 (en) | Search device, search method, and computer program product | |
US9971782B2 (en) | Document tagging and retrieval using entity specifiers | |
KR20070009338A (ko) | 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치 | |
KR101472451B1 (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
US20040010556A1 (en) | Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program | |
JP2004348771A (ja) | 技術文書検索装置 | |
JP2004110834A (ja) | 情報記憶検索システム及び方法 | |
JP4606349B2 (ja) | 話題画像抽出方法及び装置及びプログラム | |
JP2005107931A (ja) | 画像検索装置 | |
JP4544047B2 (ja) | Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP2009205499A (ja) | ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム | |
JP2006040166A (ja) | 情報抽出装置、情報抽出方法、情報抽出プログラム及び情報検索システム | |
JP2007188427A (ja) | 話題画像選出方法及び装置及プログラム | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
CN109388665B (zh) | 作者关系在线挖掘方法及系统 | |
EP1876539A1 (en) | Method and system for classifying media content |