JP2000200288A

JP2000200288A - 検索結果解析方式

Info

Publication number: JP2000200288A
Application number: JP11002333A
Authority: JP
Inventors: Takekazu Yanagimoto; 豪一柳本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-01-07
Filing date: 1999-01-07
Publication date: 2000-07-18

Abstract

(57)【要約】【課題】区切り文字を用いて検索結果を分割できるよ
うにし、項目に割り当てられたタイプに応じて、さらに
細かく分割を行うかどうかを指定して解析を行う。【解決手段】入力データとして検索結果を読み込み、
検索結果解析部11で検索結果の解析を行う。すなわち、
検索結果解析部11では、入力された検索結果が一対象一
行化部において、検索対象に関する属性情報の書式は検
索結果の中で繰り返し出現するので、この繰り返しパタ
ンを用いて、各検索対象語との属性情報を一行にまとめ
る処理を行う。そして、一対象一行化部により分割され
た検索結果は、各行ごとに行解析部に送られ、行内部の
属性の解析を行う。行解析部は、一対象一行化部によっ
て分割された全ての行に対して処理を行う。このように
して、解析により得られた結果は解析結果保持部12に蓄
えられる。そして、知識作成部13が、解析結果保持部12
に蓄えられた結果に基づいて抽出知識を作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、検索により得られ
た検索結果を解析し、ユーザに必要な情報のみを抽出す
る知識を作成する手法に関する。

【０００２】

【従来の技術】複数の検索サービスにアクセスし、検索
結果から必要な情報を抽出し、統一した形式でユーザに
表示するには、必要な情報を抽出する処理を検索サービ
スごとに作成する必要がある。各検索サービスに容易に
対応をとるため、抽出処理を知識化したとしても、抽出
知識を作成する必要がある。このような知識を作成する
には、検索結果のどの部分がどの属性であるかを解析す
る必要があるため、人手で行うことが多かった。これを
自動化するためには、次のような幾つかの技術が提案さ
れている。例えば、特開平２ー６１７２６号公報では、
形態素解析を用いることによって入力文章を自動的に分
割し、各項目の属性を決定することで必要な情報を抽出
している。さらに、特開平５ー２３３７１６号公報で
は、入力文字列中に含まれる区切り文字によって項目を
自動分割し、各項目の決定と抽出を行っている。

【０００３】

【発明が解決しようとする課題】従来より、検索結果の
書式は、電子図書館から出力される検索結果内では統一
されているが、電子図書館間では異なっており、利用さ
れている区切り文字の使い方に関しても電子図書館ごと
に異なっている。そこで、検索結果から文献を判断する
のに必要な項目を切り出して、統一した形式でユーザに
表示する場合を考える。従来の技術で実現されている方
法では、入力文字列を分割し、個々の部分文字列にタイ
プを割り当て、そのタイプに応じてさらに細かく分割す
るかしないかを制御することが困難であるため、必要な
項目のみを切り出すことができず、解析が不十分となっ
てしまうなどの問題がある。

【０００４】例えば、前述の特開平２ー６１７２６号公
報では、入力情報の解析には形態素解析のみを用いてお
り、区切り文字によるフォーマット情報を利用していな
いので、必要項目の解析を充分に行うことができない。
また、特開平５ー２３３７１６号公報では、入力文字列
に対して、区切り文字で分割を行っているが、区切り文
字間に優先順位の指定などが行えないため、特定の属性
を持つ項目のみを、詳細に項目の分割をしたり、解析を
繰り返すなどの処理が行えないなどの不具合がある。

【０００５】本発明は、このような事情に鑑みてなされ
たものであり、その目的は、区切り文字を用いて検索結
果を分割できるようにし、もって、項目に割り当てられ
たタイプに応じて、さらに細かく分割を行うかどうかを
指定し、解析を行える枠組みを備えた検索結果解析方式
を提供することにある。

【０００６】

【課題を解決するための手段】前記課題を解決するため
に、請求項１に係る検索結果解析方式は、複数の検索サ
ービスにアクセスし、各検索結果から必要な情報を抽出
し、抽出した情報の表示位置や表示する情報の種類を統
一してユーザに表示する処理において、検索結果を解析
する検索結果解析部と、この検索結果解析部が解析した
結果を保持する解析結果保持部と、この解析結果保持部
の情報を利用し情報抽出用の知識を作成する知識作成部
とを備えたことを特徴とする。

【０００７】請求項２に係る検索結果解析方式は、請求
項１記載の検索結果解析方式において、検索結果解析部
が、検索結果の中で繰り返し出現する検索対象の属性情
報のパタンを利用し、各検索対象ごとの属性情報を一行
にまとめる一対象一行化部と、この一対象一行化部の結
果を各行ごとに解析する行解析部とを備え、解析結果保
持部に各行毎の解析結果を保持させることを特徴とす
る。

【０００８】請求項３に係る検索結果解析方式は、請求
項２記載の検索結果解析方式において、行解析部が、区
切り文字のグループを保持する区切り文字保持部と、こ
の区切り文字保持部がもつ各区切り文字によって、入力
された行を部分文字列に分割する分割処理部と、タイプ
判定辞書に登録されたデータとを用いて、与えられた部
分文字列のタイプを判定するタイプ判定部と、このタイ
プ判定部が判定したタイプを、部分文字列と共に保持す
る部分文字列保持部と、区切り文字グループとタイプを
対応させた区切り文字テーブルと、部分文字列保持部が
持つ部分文字列ごとに、部分文字列と共に登録されてい
るタイプと同じタイプを持つ区切り文字グループを区切
り文字テーブルから呼び出し、その区切り文字グループ
に含まれる各区切り文字を使って、部分文字列を分割す
るタイプ別分割処理部とを備え、タイプ別分割処理部に
よって分割された部分文字列に対して、タイプ判定部に
よるタイプ判定を行い、部分文字列と判定されたタイプ
を、部分文字列保持部へ登録することを特徴とする。

【０００９】請求項４に係る検索結果解析方式は、請求
項３記載の検索結果解析方式において、タイプ判定部が
部分文字列に対して複数のタイプを重複して割り当てた
とき、区切り文字テーブルにおいて対応するタイプを持
つ区切り文字グループを呼び出し、区切り文字グループ
に含まれる区切り文字より優先順位に従って部分文字列
を分割し、タイプ別分割処理部が、部分文字列に割り当
てられたタイプが分離したときに処理を中断することを
特徴とする。

【００１０】請求項５に係る検索結果解析方式は、請求
項３または請求項４記載の検索結果解析方式において、
分割処理部及びタイプ別分割処理部が、部分文字列保持
部に登録する際に、分割した部分文字列とタイプ判定部
が判定したタイプ以外に、分割する際に利用した区切り
文字も登録することを特徴とする。

【００１１】請求項６に係る検索結果解析方式は、請求
項３〜請求項５の何れか１項記載の検索結果解析方式に
おいて、分割処理部及びタイプ別分割処理部が、部分文
字列保持部に登録する際に、分割した部分文字列とタイ
プ判定部が判定したタイプと分割する際に利用した区切
ち文字以外に、その部分文字列がその行内で出現した位
置も登録することを特徴とする。

【００１２】請求項７に係る検索結果解析方式は、請求
項５または請求項６記載の検索結果解析方式において、
知識作成部が、各行ごとの部分文字列の個数と、部分文
字列において割り当てられたタイプの出現位置が同じ部
分文字列とを集計する文字列集計部と、文字列集計部に
より得られたデータを保存する部分文字列解析表と、前
記部分文字列解析表を用いて抽出知識を作成する抽出知
識作成部とを備えたことを特徴とする。

【００１３】請求項８に係る検索結果解析方式は、請求
項７記載の検索結果解析方式において、知識作成部が、
各行ごとの部分文字列の個数と、それぞれのタイプの出
現位置が同じものごとに集計した部分文字列解析表とを
作成し、各部分文字列の個数が同じものの中で、最も個
数の多いタイプと出現位置の組み合わせを選択し、その
組み合わせを持つ部分文字列の組を各行ごとに一つづつ
選択し、部分文字列保持部が保持する部分文字列の中で
の組を典型パターンとしてマークし、典型パターンとし
てマークされた部分文字列の組から、抽出知識を作成す
ることを特徴とする。

【００１４】請求項９に係る検索結果解析方式は、請求
項８記載の検索結果解析方式において、典型パターンと
してマークされた部分文字列の組から抽出知識を作成す
る際に、マークされた部分文字列と共に登録されている
区切り文字の情報を用い、該区切り文字以外の文字が０
個以上マッチする正規表現と区切り文字を一つの組と
し、該正規表現とマッチする部分が、該部分文字列のタ
イプの情報として抽出できるように抽出知識を作成する
ことを特徴とする。

【００１５】請求項１０に係る検索結果解析方式は、請
求項２記載の検索結果解析方式において、一対象一行化
部が、検索条件や見出しや検索結果の件数を含む表記が
固定している情報からなるヘッダー部分と、検索された
対象の属性情報が繰り返し現れる検索結果部分と、検索
サービス提供者の名称を含む表記が固定している情報か
らなるフッター部分からなる検索結果より、検索結果部
分を切り出す検索結果切り出し部と、検索結果部分に含
まれる複数の対象に関する情報を、一対象に対するすべ
ての属性を一行にまとめる検索結果整形部と、から成る
ことを特徴とする。

【００１６】請求項１１に係る検索結果解析方式は、請
求項１０記載の検索結果解析方式において、検索結果切
り出し部が、改行、検索に利用したキーワードの出現位
置、箇条書き・字下げによるレイアウトの繰り返しを見
つけ、ヘッダー部分と検索結果部分とフッター部分とを
判別し、ヘッダー部分における最終行に含まれる文字列
とフッター部分における開始行に含まれる文字列とを取
り出すことを特徴とする。

【００１７】請求項１２に係る検索結果解析方式は、請
求項１０記載の検索結果解析方式において、検索結果整
形部が、改行、検索に利用したキーワードの出現位置、
箇条書き・字下げによるレイアウト情報により対象に関
する情報の列挙部分を見つけて、一つの対象に関するす
べての属性情報を一行にまとめることを特徴とする。

【００１８】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を詳細に説明する。図１は本発明の検索結果解析
方式の構成を表す図である。まず、入力データとして検
索結果を読み込み、検索結果解析部11で検索結果の解析
を行う。解析により得られた結果は、解析結果保持部12
に保存される。知識作成部13では、解析結果保持部12に
蓄えられた結果をもとに抽出知識を作成する。

【００１９】図２は、図１の検索結果解析部11の構成を
示した図である。先ず、入力された検索結果は、一対象
一行化部21において、検索対象に関する属性情報の書式
は、検索結果の中で繰り返し出現するので、この繰り返
しパタンを用いて、各検索対象語との属性情報を一行に
まとめる処理を行う。一対象一行化部21により、分割さ
れた検索結果は、各行ごとに行解析部22に送られ、行内
部の属性の解析を行う。行解析部22は、一対象一行化部
21によって分割されたすべての行に対して処理を行う。
解析により得られた結果は解析結果保持部12に蓄えられ
る。

【００２０】図３は、図２の行解析部22の構成を示した
図である。まず、入力された文字列は、区切り文字列保
持部31に登録されている区切り文字グループを用いて、
分割処理部32において複数の部分文字列に分割される。
分割された部分文字列は、タイプ判定部33に送られ、タ
イプ判定辞書34を用いて、部分文字列ごとに対応するタ
イプを決定する。タイプを付けられた部分文字列は、部
分文字列保存部35に蓄えられる。そして、部分文字列保
存部35に蓄えられた部分文字列は、付加されたタイプに
応じて、タイプ別分割処理部36でさらに細かい部分文字
列に分割される。このとき、区切り文字テーブル37を用
いて、タイプに応じた区切り文字のグループを選んで分
割処理を行う。タイプ別分割処理部36において分割され
た部分文字列はタイプ判定部33に送られて、部分文字列
ごとにタイプを割り当てる。割り当てられた部分文字列
は、部分文字列保存部35に蓄えられる。

【００２１】図４は、図３のタイプ判定辞書34に含まれ
るデータの一例を示す図である。タイプ判定辞書はタイ
プ41と判別用データ42とからなっており、判別用データ
42に登録された単語が部分文字列に含まれるかどうかに
より、部分文字列のタイプを決定する。タイトル部分に
ついては、ユーザが検索を行うときに予めタイトルに特
定キーワード（ここでは「流通」）を含むように、検索
を行うことによってタイプの判定に利用する。著者、出
版者のタイプを決める判別用データ42は、出版者名や著
者名で利用されやすい単語をあらかじめ格納しておくこ
とによって、タイプを決定する際の精度を上げるてい
る。

【００２２】図５は、図３の区切り文字テーブル37の一
例を示す。区切り文字はタイプごとにグループ化されて
おり、優先順位の高いものから順番に左から並んでい
る。図３の区切り文字テーブル37に登録されているタイ
プを持つ部分文字列のみがタイプ別分割処理36の対象と
なり、登録されていないタイプを持つ部分文字列につい
ては、分割は行わない。例えば、図４の「タイトル」の
タイプはこの区切り文字テーブルには登録されていない
ので、「タイトル」のタイプを持つ部分文字列はタイプ
別分割処理36の対象とはならない。このように、入力さ
れた部分文字列に対してタイプが割り当てられているの
で、タイプ別分割処理36では、図５の区切り文字グルー
プ51、52が利用される。例えば、部分文字列のタイプが
著者であった場合には、区切り文字グループ51が選択さ
れ、部分文字列の分割処理が行われる。区切り文字グル
ープ53は、一つの部分文字列に複数のタイプが割り当て
られているときに利用する。

【００２３】図６は、実際の検索結果を用いた分割処理
の説明図である。入力された一つの文献に関する情報が
一行にまとめられた検索結果60は、図３の区切り文字保
持部31において登録されている区切り文字61を用いて分
割を行う。区切り文字61により分割された部分文字列62
〜65に対して、タイプ判定辞書34を利用してタイプを決
定したものが部分文字列66〜69である。タイプ判定辞書
34でタイプが決められない場合には、その部分文字列は
「その他」というタイプが付けられる。

【００２４】図７は、図６において実際のデータを用い
たタイプ別分割処理の説明図である。図７では、図６に
おいてタイプが出版者となっている部分文字列69を取り
出して、図３のタイプ別分割処理36について説明を行
う。区切り文字テーブル37から、タイプが"出版者"とな
っている区切り文字グループ52（図５）を取り出し、こ
の区切り文字グループ52のうち優先順位の高い区切り文
字である「-」を用いて、出版者のタイプを持つ部分文
字列71をさらに細かい部分文字列に分割する。分割され
たそれぞれの部分文字列に対して、タイプ判定辞書34を
用いてタイプの決定を行い部分文字列72に出版者のタイ
プを割り当て、他の部分文字列は「その他」というタイ
プを付ける。次の優先順位を持つ区切り文字を利用す
るときには、出版者のタイプがついている部分文字列72
のみに対して分割を行い、「その他」のタイプを持つ部
分文字列については、分割を行わない。以降、出版者の
タイプが付けられた部分文字列のみを分割対象として分
割を行い、全ての区切り文字を使用することで、部分文
字列73〜79まで分割する。

【００２５】図８は、図３の部分文字列保存部35に保存
されている一例である。すなわち、図８は、図３の区切
り文字テーブル37に含まれるすべての区切り文字を用い
て検索結果の分割を行い、その後、部分文字列保存部35
に蓄えられた情報を示したものである。検索結果から分
割された部分文字列は先頭から順番に番号が振られてお
り、この番号が出現位置となる。また、それぞれの部分
文字列が分割される際に利用された区切り文字は部分文
字列の最後尾についており、部分文字列を見ることによ
り、分割の際に利用された区切り文字が何であるかが分
かるようになっている。

【００２６】図９は、図３のタイプ別分割処理部36でタ
イプが重複した時の説明図であり、同じ部分文字列にタ
イプが２つ以上重なった時の処理を示している。部分文
字列91のように出版者と著者のタイプが同じ部分文字列
に付けられた場合、区切り文字テーブル37からタイプが
重複となっている区切り文字グループ53（図５）を利用
して、タイプの分離を行う。このとき、優先順位の高い
区切り文字から利用して部分文字列を分割する。部分文
字列の分割にともない、タイプが分離した時に処理を終
了する。この例では、２番目の優先順位を持つ「-」の
区切り文字によって、出版者と著者のタイプが分離さ
れ、部分文字列93、94のようになったとき、重複時の区
切り文字グループ92を用いた部分文字列の分割処理は終
了する。これ以降は、タイプ別の区切り文字を利用した
タイプ別分割処理36を行うことで、必要な情報の抽出を
行う。

【００２７】図１０は、図１の知識作成部１３の処理を
示す図であり、この図を用いて知識作成部13の処理の流
れについて説明を行う。図１の解析結果保持部12に蓄え
られている解析結果を文字列集計部101に読み込む。こ
の文字列集計部101では、各行ごとの部分文字列の個
数、タイプの出現位置、及びタイプの出現位置が同じ部
分文字列の個数を計測することで部分文字列解析表102
を作成する。そして、部分文字列解析表102をもとに、
抽出知識作成部103で検索結果から必要な情報を切り出
す抽出知識を作成する。

【００２８】図１１は、図１０の部分文字列解析表102
の一例を示す。図１０の部分文字列解析表102は、部分
文字列の総数と「タイトル」、「著者」、「出版者」の
タイプの出現位置とその出現位置と同じパタンを持つ部
分文字列の個数より構成したものである。図３に示すタ
イプ別分割処理36とタイプ判定部33の処理が終わった時
点で、複数の部分文字列に分割されて部分文字列ごとに
タイプが割り当てられているので、タイプの出現パタン
ごとに同じパタンを持つ検索結果の件数をカウントする
ことで、部分文字列解析表102を作成する。検索結果の
表記は電子図書館ごとに数種類存在するだけであるの
で、このテーブルから部分文字列の個数が同じものから
一つずつ抽出知識を作成する。よって、部分文字列の個
数が同じもののうち、対応する検索結果の件数が多いパ
ターンである111と112のみ取り出して、抽出知識の作成
に利用する。

【００２９】図１２は、図１０の抽出知識作成部103の
処理の流れをを示す図であり、この図を用いて抽出知識
作成部103の処理を説明する。抽出知識作成部103では、
部分文字列に分割された検索結果を用いてPerlの正規表
現(Perlプログラミング,1993,ソフトバンク,p.134-p.13
8,ISBN4-89052-384-7)を用いて抽出知識を記述する。こ
こでは抽出知識の作成方法をステップごとに説明する。
先ずステップ１（121)で、検索結果を分割した部分文
字列の内容を見て、この部分文字列を分割する際に利用
した区切り文字を探す。次にステップ２(122)で、区切
り文字以外の文字の連結を表す正規表現を作成し、正規
表現の最後に区切り文字を付ける。もし、項目の中身が
区切り文字だけであった場合には、その区切り文字だけ
を記述する。また、出現位置が最後尾である部分文字列
の場合には、区切り文字が含まれていないため、正規表
現を記述する際には、文字列の最後を示す"$"を最後に
付ける。

【００３０】そしてステップ３(123)で、入力された検
索結果は、複数の部分文字列から成り立っているので、
すべての部分文字列に対してステップ２（122）の処理
を行い、すべての部分文字列を正規表現で記述する。さ
らにステップ４(124)で、出現位置の順番に応じて先頭
から順番に正規表現で記述した項目を並べて、一つの検
索結果を正規表現で記述する。最後にステップ５(125)
で、項目とタイプの値を対応づける情報を記述し、抽出
用の知識を作成する。このようにして、検索結果から情
報を抽出する知識を作成する。

【００３１】図１３は、実際のデータを用いて、図１０
の抽出知識作成部103の処理の流れを示す説明図であ
る。この図により、実際の検索結果を用いて知識を作成
する手順を説明する。図１２のステップ１(122)とステ
ップ２(122）により、部分文字列132は、正規表現を用
いて133のように記述できる。次にステップ３(123)によ
り、134に示すように正規表現によって表された項目を
並べる。そして、ステップ４(124)により、131により指
定されている出現位置を用いて、タイプと抽出項目の位
置を指定して、抽出知識135が作成される。これが図１
０の抽出知識作成部103により生成される抽出知識であ
る。

【００３２】図１４は、図２の一対象一行化部21の処理
の流れを示す説明図であり、この図を用いて一対象一行
化部21の処理について述べる。まず、図２の一対象一行
化部21では、入力された検索結果の全体の構成を調べ
て、検索した対象に関する属性情報が含まれている部分
と、それ以外の検索条件や見出しや検索結果の件数を含
む情報からなるヘッダー部分と検索サービスの提供者の
情報を含むフッター部分とを分離するとともに、ヘッダ
ー部分の最終行に含まれる文字列とフッター部分の開始
行に含まれる文字列を切り取り判定文字列として取り出
す。この処理は、検索結果切り出し部141で行われ、切
り取り判定文字列は切り取り判定文字保存部142に蓄え
られる。検索結果切り出し部141により、対象に関する
属性情報だけを切り出した入力情報には、複数の対象に
対する属性情報が含まれている。この属性情報の並び方
も、一つの対象に関する情報が一行にまとまっておら
ず、複数行に分かれていたり、すべての対象に対する属
性情報が一行にまとまっている可能性もある。そこで、
検索結果整形部143で、一つの対象に関する属性情報を
一行にまとめる処理を行うことによって、図２の行解析
部22の入力の形式にする。

【００３３】図１５は、図１４の検索結果切り出し部14
1の処理の流れを示す説明図であり、この図により検索
結果切り出し部141内部の処理について述べる。先ずス
テップ１(151)で、レイアウト解析部が、入力された検
索結果全体のレイアウト構成を調べて、同一のレイアウ
トが連続して並んでいる箇所を見つけだす。例えば、箇
条書きや字下げの処理が繰り返し行われている箇所を探
す処理を行う。次にステップ２(152)で、キーワード確
認部が、検索結果には「タイトル」のタイプを決定する
ために利用するキーワードが含まれているので、そのキ
ーワードがステップ１(151)で見つかった部分に繰り返
し出現しているかを調べる。もし、繰り返し出現してい
るのであれば、対象の属性情報が含まれているため、そ
の一連の部分を行解析部22に渡すべき部分であると判断
する。

【００３４】さらにステップ３(153)で、ヘッダ終了文
字抽出部が、ステップ２(152)により切り出すべき部分
である検索結果部分が見つかったため、検索結果部分の
直前の行に含まれる文字列を抽出する。これは、ヘッダ
部分の終了を識別する文字列となるので、切り取り判定
文字保存部142に保存する。そしてステップ４(154)で、
フッタ開始文字抽出部が、ステップ２(152)により切り
出すべき部分である検索結果部分が見つかったため、検
索結果部分の直後の行に含まれる文字列を抽出する。こ
れは、フッター部分の開始を識別する文字列となるの
で、切り取り判定文字保存部142に保存する。以上の処
理により、入力された検索結果から対象の属性情報が含
まれる部分のみを抽出するための知識を作成する。

【００３５】図１６は、図１４の検索結果整形部143の
処理の流れを示す説明図であり、この図を用いて検索結
果整形部143の処理について述べる。先ずステップ１(16
1)で、書式解析部が、図１４の検索結果切り出し部141
を用いて、切り出した対象の属性情報が含まれる部分か
ら繰り返し現れる文字列を調べる。例えば、箇条書きを
行うために「・」や数字を利用して記述する場合には、
切り出された部分には「・」や数字が繰り返し現れるこ
ととなる。また、字下げを行っている場合には、空白文
字が周期的に現れる。

【００３６】そしてステップ２(162)で、キーワード確
認部が、ステップ１(161)により見つけた文字で文字列
を分割した場合に、分割された各ブロックに「タイト
ル」のタイプを決定する際に利用するキーワードが必ず
含まれているかを確認する。もし含まれていないブロッ
クが発生すると、一つの対象に関する属性情報ごとに分
離されていないと考えられるため、別の文字が周期的に
現れていないか調べ直す。さらにステップ３(163)で、
行開始文字抽出部が、ステップ２(162)によりステップ
１(161)で見つけた文字で分割が正確に行われることが
判明した場合、各ブロックの先頭文字を抽出する。この
文字は一対象に関する属性情報の始まりを示すものであ
る。以上の処理により、検索結果から一つの対象に関す
る属性情報を一行にまとめる処理を行う知識を作成す
る。

【００３７】

【発明の効果】以上のシステムにより、辞書のみによる
文字列解析による項目の分離より、レイアウト情報を用
いた項目の分離が行え、分離の精度をよくすることがで
きる。また、分離した項目のタイプに応じて解析の細か
さを制御することが可能となり、特定の項目に対して詳
細な分割を行うことが可能となり、余分な情報を取り除
くこともできる。さらに、このシステムによれば人手を
介さないため、自動的に必要な情報だけに絞り込んで切
り出すことができる情報抽出知識を作成することが可能
となり、従来に比べて知識作成者の負担を大幅に軽減す
ることができる。

【図面の簡単な説明】

【図１】本発明の検索結果解析方式の構成を示す図で
ある。

【図２】図１の検索結果解析部の構成を示す図であ
る。

【図３】図２の行解析部の構成を示す図である。

【図４】図３のタイプ判定辞書に含まれるデータの一
例を示す図である。

【図５】図３の区切り文字テーブルの一例を示す図で
ある。

【図６】実際の検索結果を用いた分割処理の説明図で
ある。

【図７】図６において実際のデータを用いたタイプ別
分割処理の説明図である。

【図８】図３の部分文字列保存部に保存されているデ
ータの一例である。

【図９】図３のタイプ別分割処理部でタイプが重複し
た時の説明図である。

【図１０】図１の知識作成部の処理の流れを示す説明
図である。

【図１１】図１０の部分文字列解析表の一例である。

【図１２】図１０の抽出知識作成部の処理の流れを示
す説明図である。

【図１３】実際のデータを用いて、図１０の抽出知識
作成部の処理の流れを示す説明図である。

【図１４】図２の一対象一行化部の処理の流れを示す
説明図である。

【図１５】図１４の検索結果切り出し部の処理の流れ
を示す説明図である。

【図１６】図１４の検索結果整形部の処理の流れを示
す説明図である。

【符号の説明】

１１…検索結果解析部、１２…解析結果保持部、１３…
知識作成部、２１…一対象一行化部、２２…行解析部、
３１…区切り文字保持部、３２…分割処理部、３３…タ
イプ判定部、３４…タイプ判定辞書、３５…部分文字列
保存部、３６…タイプ別分割処理部、３７…区切り文字
テーブル、４１〜４２…タイプ判定辞書のデータ、５１
〜５３…区切り文字テーブルのデータ、６０〜６９…分
割処理により分割されたデータ、７１〜７９…タイプ別
分割処理により分割されたデータ、９１〜９４…タイプ
が重複したときのタイプ別分割書により分割されたデー
タ、１０１…文字列集計部、１０２…部分文字列解析
表、１０３…抽出知識作成部、１１１〜１１２…部分文
字列解析表に含まれるデータ、１２１〜１２５抽出知
識作成部の処理ステップ、１３１〜１３５抽出知識作
成部におけるデータの流れ、１４１…検索結果切り出し
部、１４２…切り取り判定文字保存部、１４３…検索結
果整形部、１５１〜１５４…検索結果切り出し部の処理
フロー、１６１〜１６３…検索結果整形部の処理フロー

Claims

【特許請求の範囲】

【請求項１】複数の検索サービスにアクセスし、各検
索結果から必要な情報を抽出し、抽出した情報の表示位
置や表示する情報の種類を統一してユーザに表示する処
理において、検索結果を解析する検索結果解析部と、前記検索結果解析部が解析した結果を保持する解析結果
保持部と、前記解析結果保持部の情報を利用し情報抽出用の知識を
作成する知識作成部と、を備えたことを特徴とする検索
結果解析方式。
【請求項２】前記検索結果解析部が、検索結果の中で繰り返し出現する検索対象の属性情報の
パタンを利用し、各検索対象ごとの属性情報を一行にまとめる一対象一行
化部と、前記一対象一行化部の結果を各行ごとに解析する行解析
部とを備え、前記解析結果保持部に、各行ごとの解析結果を保持させ
ることを特徴とする請求項１記載の検索結果解析方式。
【請求項３】前記行解析部が、区切り文字のグループを保持する区切り文字保持部と、前記区切り文字保持部がもつ各区切り文字によって、入
力された行を部分文字列に分割する分割処理部と、タイプ判定辞書に登録されたデータを用いて、与えられ
た部分文字列のタイプを判定するタイプ判定部と、前記タイプ判定部が判定したタイプを、前記部分文字列
と共に保持する部分文字列保持部と、区切り文字グループとタイプを対応させた区切り文字テ
ーブルと、前記部分文字列保持部が持つ前記部分文字列ごとに、前
記部分文字列と共に登録されているタイプと同じタイプ
を持つ区切り文字グループを前記区切り文字テーブルか
ら呼び出し、該区切り文字グループに含まれる各区切り
文字を使って、前記部分文字列を分割するタイプ別分割
処理部とを備え、前記タイプ別分割処理部によって分割された部分文字列
に対して、前記タイプ判定部によるタイプ判定を行い、
前記部分文字列と判定されたタイプを、前記部分文字列
保持部へ登録することを特徴とする請求項２記載の検索
結果解析方式。
【請求項４】前記タイプ判定部が、部分文字列に対して複数のタイプを重複して割り当てた
とき、前記区切り文字テーブルにおいて、対応するタイプを持
つ区切り文字グループを呼び出し、前記区切り文字グループに含まれる区切り文字より、優
先順位に従って前記部分文字列を分割し、前記タイプ別分割処理部が、前記部分文字列に割り当てられたタイプが分離したとき
に処理を中断させる、ことを特徴とする請求項３記載の検索結果解析方式。
【請求項５】前記分割処理部及び前記タイプ別分割処
理部が、前記部分文字列保持部に登録する際、分割した前記部分
文字列と前記タイプ判定部が判定したタイプ以外に、分
割する際に利用した区切り文字も登録することを特徴と
する請求項３または請求項４記載の検索結果解析方式。
【請求項６】前記分割処理部及び前記タイプ別分割処
理部が、前記部分文字列保持部に登録する際、分割した前記部分
文字列とタイプ判定部が判定したタイプと分割する際に
利用した区切り文字以外に、その部分文字列がその行内
で出現した位置も登録することを特徴とする請求項３〜
請求項５の何れか１項記載の検索結果解析方式。
【請求項７】前記知識作成部が、各行ごとの部分文字列の個数と前記部分文字列において
割り当てられたタイプの出現位置が同じ部分文字列とを
集計する文字列集計部と、前記文字列集計部により得られたデータを保存する部分
文字列解析表と、前記部分文字列解析表を用いて抽出知識を作成する抽出
知識作成部と、を備えたことを特徴とする請求項５または請求項６記載
の検索結果解析方式。
【請求項８】前記知識作成部が、各行ごとの部分文字列の個数とそれぞれのタイプの出現
位置が同じもの毎に集計した部分文字列解析表とを作成
し、各部分文字列の個数が同じものの中で、最も個数の多い
タイプと出現位置の組み合わせを選択し、その組み合わ
せを持つ部分文字列の組を各行ごとに一つづつ選択し、
前記部分文字列保持部が保持する部分文字列の中での組
を典型パターンとしてマークし、前記典型パターンとしてマークされた部分文字列の組か
ら、前記抽出知識を作成することを特徴とする請求項７
記載の検索結果解析方式。
【請求項９】前記典型パターンとしてマークされた部
分文字列の組から前記抽出知識を作成する際に、マークされた部分文字列と共に登録されている区切り文
字の情報を用い、該区切り文字以外の文字が０個以上マ
ッチする正規表現と前記区切り文字を一つの組とし、該正規表現とマッチする部分が、該部分文字列のタイプ
の情報として抽出できるように、前記抽出知識を作成す
ることを特徴とする請求項８記載の検索結果解析方式。
【請求項１０】前記一対象一行化部が、検索条件や見出しや検索結果の件数を含む表記が固定し
ている情報からなるヘッダー部分と、検索された対象の属性情報が繰り返し現れる検索結果部
分と、検索サービス提供者の名称を含む表記が固定している情
報からなるフッター部分からなる検索結果より、前記検
索結果部分を切り出す検索結果切り出し部と、前記検索結果部分に含まれる複数の対象に関する情報
を、一対象に対するすべての属性を一行にまとめる検索
結果整形部と、から成ることを特徴とする請求項２記載の検索結果解析
方式。
【請求項１１】検索結果切り出し部が、改行、検索に利用したキーワードの出現位置、箇条書き
・字下げによるレイアウトの繰り返しを見つけ、ヘッダー部分と検索結果部分とフッター部分を判別し、前記ヘッダー部分における最終行に含まれる文字列と、
前記フッター部分における開始行に含まれる文字列とを
取り出すことを特徴とする請求項１０記載の検索結果解
析方式。
【請求項１２】前記検索結果整形部が、改行、検索に
利用したキーワードの出現位置、箇条書き・字下げによ
るレイアウト情報により、対象に関する情報の列挙部分
を見つけて、一つの対象に関するすべての属性情報を一
行にまとめることを特徴とする請求項１０記載の検索結
果解析方式。