JP2000200288A - 検索結果解析方式 - Google Patents

検索結果解析方式

Info

Publication number
JP2000200288A
JP2000200288A JP11002333A JP233399A JP2000200288A JP 2000200288 A JP2000200288 A JP 2000200288A JP 11002333 A JP11002333 A JP 11002333A JP 233399 A JP233399 A JP 233399A JP 2000200288 A JP2000200288 A JP 2000200288A
Authority
JP
Japan
Prior art keywords
unit
character string
partial character
search result
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11002333A
Other languages
English (en)
Inventor
Takekazu Yanagimoto
豪一 柳本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11002333A priority Critical patent/JP2000200288A/ja
Publication of JP2000200288A publication Critical patent/JP2000200288A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 区切り文字を用いて検索結果を分割できるよ
うにし、項目に割り当てられたタイプに応じて、さらに
細かく分割を行うかどうかを指定して解析を行う。 【解決手段】 入力データとして検索結果を読み込み、
検索結果解析部11で検索結果の解析を行う。すなわち、
検索結果解析部11では、入力された検索結果が一対象一
行化部において、検索対象に関する属性情報の書式は検
索結果の中で繰り返し出現するので、この繰り返しパタ
ンを用いて、各検索対象語との属性情報を一行にまとめ
る処理を行う。そして、一対象一行化部により分割され
た検索結果は、各行ごとに行解析部に送られ、行内部の
属性の解析を行う。行解析部は、一対象一行化部によっ
て分割された全ての行に対して処理を行う。このように
して、解析により得られた結果は解析結果保持部12に蓄
えられる。そして、知識作成部13が、解析結果保持部12
に蓄えられた結果に基づいて抽出知識を作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索により得られ
た検索結果を解析し、ユーザに必要な情報のみを抽出す
る知識を作成する手法に関する。
【0002】
【従来の技術】複数の検索サービスにアクセスし、検索
結果から必要な情報を抽出し、統一した形式でユーザに
表示するには、必要な情報を抽出する処理を検索サービ
スごとに作成する必要がある。各検索サービスに容易に
対応をとるため、抽出処理を知識化したとしても、抽出
知識を作成する必要がある。このような知識を作成する
には、検索結果のどの部分がどの属性であるかを解析す
る必要があるため、人手で行うことが多かった。これを
自動化するためには、次のような幾つかの技術が提案さ
れている。例えば、特開平2ー61726号公報では、
形態素解析を用いることによって入力文章を自動的に分
割し、各項目の属性を決定することで必要な情報を抽出
している。さらに、特開平5ー233716号公報で
は、入力文字列中に含まれる区切り文字によって項目を
自動分割し、各項目の決定と抽出を行っている。
【0003】
【発明が解決しようとする課題】従来より、検索結果の
書式は、電子図書館から出力される検索結果内では統一
されているが、電子図書館間では異なっており、利用さ
れている区切り文字の使い方に関しても電子図書館ごと
に異なっている。そこで、検索結果から文献を判断する
のに必要な項目を切り出して、統一した形式でユーザに
表示する場合を考える。従来の技術で実現されている方
法では、入力文字列を分割し、個々の部分文字列にタイ
プを割り当て、そのタイプに応じてさらに細かく分割す
るかしないかを制御することが困難であるため、必要な
項目のみを切り出すことができず、解析が不十分となっ
てしまうなどの問題がある。
【0004】例えば、前述の特開平2ー61726号公
報では、入力情報の解析には形態素解析のみを用いてお
り、区切り文字によるフォーマット情報を利用していな
いので、必要項目の解析を充分に行うことができない。
また、特開平5ー233716号公報では、入力文字列
に対して、区切り文字で分割を行っているが、区切り文
字間に優先順位の指定などが行えないため、特定の属性
を持つ項目のみを、詳細に項目の分割をしたり、解析を
繰り返すなどの処理が行えないなどの不具合がある。
【0005】本発明は、このような事情に鑑みてなされ
たものであり、その目的は、区切り文字を用いて検索結
果を分割できるようにし、もって、項目に割り当てられ
たタイプに応じて、さらに細かく分割を行うかどうかを
指定し、解析を行える枠組みを備えた検索結果解析方式
を提供することにある。
【0006】
【課題を解決するための手段】前記課題を解決するため
に、請求項1に係る検索結果解析方式は、複数の検索サ
ービスにアクセスし、各検索結果から必要な情報を抽出
し、抽出した情報の表示位置や表示する情報の種類を統
一してユーザに表示する処理において、検索結果を解析
する検索結果解析部と、この検索結果解析部が解析した
結果を保持する解析結果保持部と、この解析結果保持部
の情報を利用し情報抽出用の知識を作成する知識作成部
とを備えたことを特徴とする。
【0007】請求項2に係る検索結果解析方式は、請求
項1記載の検索結果解析方式において、検索結果解析部
が、検索結果の中で繰り返し出現する検索対象の属性情
報のパタンを利用し、各検索対象ごとの属性情報を一行
にまとめる一対象一行化部と、この一対象一行化部の結
果を各行ごとに解析する行解析部とを備え、解析結果保
持部に各行毎の解析結果を保持させることを特徴とす
る。
【0008】請求項3に係る検索結果解析方式は、請求
項2記載の検索結果解析方式において、行解析部が、区
切り文字のグループを保持する区切り文字保持部と、こ
の区切り文字保持部がもつ各区切り文字によって、入力
された行を部分文字列に分割する分割処理部と、タイプ
判定辞書に登録されたデータとを用いて、与えられた部
分文字列のタイプを判定するタイプ判定部と、このタイ
プ判定部が判定したタイプを、部分文字列と共に保持す
る部分文字列保持部と、区切り文字グループとタイプを
対応させた区切り文字テーブルと、部分文字列保持部が
持つ部分文字列ごとに、部分文字列と共に登録されてい
るタイプと同じタイプを持つ区切り文字グループを区切
り文字テーブルから呼び出し、その区切り文字グループ
に含まれる各区切り文字を使って、部分文字列を分割す
るタイプ別分割処理部とを備え、タイプ別分割処理部に
よって分割された部分文字列に対して、タイプ判定部に
よるタイプ判定を行い、部分文字列と判定されたタイプ
を、部分文字列保持部へ登録することを特徴とする。
【0009】請求項4に係る検索結果解析方式は、請求
項3記載の検索結果解析方式において、タイプ判定部が
部分文字列に対して複数のタイプを重複して割り当てた
とき、区切り文字テーブルにおいて対応するタイプを持
つ区切り文字グループを呼び出し、区切り文字グループ
に含まれる区切り文字より優先順位に従って部分文字列
を分割し、タイプ別分割処理部が、部分文字列に割り当
てられたタイプが分離したときに処理を中断することを
特徴とする。
【0010】請求項5に係る検索結果解析方式は、請求
項3または請求項4記載の検索結果解析方式において、
分割処理部及びタイプ別分割処理部が、部分文字列保持
部に登録する際に、分割した部分文字列とタイプ判定部
が判定したタイプ以外に、分割する際に利用した区切り
文字も登録することを特徴とする。
【0011】請求項6に係る検索結果解析方式は、請求
項3〜請求項5の何れか1項記載の検索結果解析方式に
おいて、分割処理部及びタイプ別分割処理部が、部分文
字列保持部に登録する際に、分割した部分文字列とタイ
プ判定部が判定したタイプと分割する際に利用した区切
ち文字以外に、その部分文字列がその行内で出現した位
置も登録することを特徴とする。
【0012】請求項7に係る検索結果解析方式は、請求
項5または請求項6記載の検索結果解析方式において、
知識作成部が、各行ごとの部分文字列の個数と、部分文
字列において割り当てられたタイプの出現位置が同じ部
分文字列とを集計する文字列集計部と、文字列集計部に
より得られたデータを保存する部分文字列解析表と、前
記部分文字列解析表を用いて抽出知識を作成する抽出知
識作成部とを備えたことを特徴とする。
【0013】請求項8に係る検索結果解析方式は、請求
項7記載の検索結果解析方式において、知識作成部が、
各行ごとの部分文字列の個数と、それぞれのタイプの出
現位置が同じものごとに集計した部分文字列解析表とを
作成し、各部分文字列の個数が同じものの中で、最も個
数の多いタイプと出現位置の組み合わせを選択し、その
組み合わせを持つ部分文字列の組を各行ごとに一つづつ
選択し、部分文字列保持部が保持する部分文字列の中で
の組を典型パターンとしてマークし、典型パターンとし
てマークされた部分文字列の組から、抽出知識を作成す
ることを特徴とする。
【0014】請求項9に係る検索結果解析方式は、請求
項8記載の検索結果解析方式において、典型パターンと
してマークされた部分文字列の組から抽出知識を作成す
る際に、マークされた部分文字列と共に登録されている
区切り文字の情報を用い、該区切り文字以外の文字が0
個以上マッチする正規表現と区切り文字を一つの組と
し、該正規表現とマッチする部分が、該部分文字列のタ
イプの情報として抽出できるように抽出知識を作成する
ことを特徴とする。
【0015】請求項10に係る検索結果解析方式は、請
求項2記載の検索結果解析方式において、一対象一行化
部が、検索条件や見出しや検索結果の件数を含む表記が
固定している情報からなるヘッダー部分と、検索された
対象の属性情報が繰り返し現れる検索結果部分と、検索
サービス提供者の名称を含む表記が固定している情報か
らなるフッター部分からなる検索結果より、検索結果部
分を切り出す検索結果切り出し部と、検索結果部分に含
まれる複数の対象に関する情報を、一対象に対するすべ
ての属性を一行にまとめる検索結果整形部と、から成る
ことを特徴とする。
【0016】請求項11に係る検索結果解析方式は、請
求項10記載の検索結果解析方式において、検索結果切
り出し部が、改行、検索に利用したキーワードの出現位
置、箇条書き・字下げによるレイアウトの繰り返しを見
つけ、ヘッダー部分と検索結果部分とフッター部分とを
判別し、ヘッダー部分における最終行に含まれる文字列
とフッター部分における開始行に含まれる文字列とを取
り出すことを特徴とする。
【0017】請求項12に係る検索結果解析方式は、請
求項10記載の検索結果解析方式において、検索結果整
形部が、改行、検索に利用したキーワードの出現位置、
箇条書き・字下げによるレイアウト情報により対象に関
する情報の列挙部分を見つけて、一つの対象に関するす
べての属性情報を一行にまとめることを特徴とする。
【0018】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を詳細に説明する。図1は本発明の検索結果解析
方式の構成を表す図である。まず、入力データとして検
索結果を読み込み、検索結果解析部11で検索結果の解析
を行う。解析により得られた結果は、解析結果保持部12
に保存される。知識作成部13では、解析結果保持部12に
蓄えられた結果をもとに抽出知識を作成する。
【0019】図2は、図1の検索結果解析部11の構成を
示した図である。先ず、入力された検索結果は、一対象
一行化部21において、検索対象に関する属性情報の書式
は、検索結果の中で繰り返し出現するので、この繰り返
しパタンを用いて、各検索対象語との属性情報を一行に
まとめる処理を行う。一対象一行化部21により、分割さ
れた検索結果は、各行ごとに行解析部22に送られ、行内
部の属性の解析を行う。行解析部22は、一対象一行化部
21によって分割されたすべての行に対して処理を行う。
解析により得られた結果は解析結果保持部12に蓄えられ
る。
【0020】図3は、図2の行解析部22の構成を示した
図である。まず、入力された文字列は、区切り文字列保
持部31に登録されている区切り文字グループを用いて、
分割処理部32において複数の部分文字列に分割される。
分割された部分文字列は、タイプ判定部33に送られ、タ
イプ判定辞書34を用いて、部分文字列ごとに対応するタ
イプを決定する。タイプを付けられた部分文字列は、部
分文字列保存部35に蓄えられる。そして、部分文字列保
存部35に蓄えられた部分文字列は、付加されたタイプに
応じて、タイプ別分割処理部36でさらに細かい部分文字
列に分割される。このとき、区切り文字テーブル37を用
いて、タイプに応じた区切り文字のグループを選んで分
割処理を行う。タイプ別分割処理部36において分割され
た部分文字列はタイプ判定部33に送られて、部分文字列
ごとにタイプを割り当てる。割り当てられた部分文字列
は、部分文字列保存部35に蓄えられる。
【0021】図4は、図3のタイプ判定辞書34に含まれ
るデータの一例を示す図である。タイプ判定辞書はタイ
プ41と判別用データ42とからなっており、判別用データ
42に登録された単語が部分文字列に含まれるかどうかに
より、部分文字列のタイプを決定する。タイトル部分に
ついては、ユーザが検索を行うときに予めタイトルに特
定キーワード(ここでは「流通」)を含むように、検索
を行うことによってタイプの判定に利用する。著者、出
版者のタイプを決める判別用データ42は、出版者名や著
者名で利用されやすい単語をあらかじめ格納しておくこ
とによって、タイプを決定する際の精度を上げるてい
る。
【0022】図5は、図3の区切り文字テーブル37の一
例を示す。区切り文字はタイプごとにグループ化されて
おり、優先順位の高いものから順番に左から並んでい
る。図3の区切り文字テーブル37に登録されているタイ
プを持つ部分文字列のみがタイプ別分割処理36の対象と
なり、登録されていないタイプを持つ部分文字列につい
ては、分割は行わない。例えば、図4の「タイトル」の
タイプはこの区切り文字テーブルには登録されていない
ので、「タイトル」のタイプを持つ部分文字列はタイプ
別分割処理36の対象とはならない。このように、入力さ
れた部分文字列に対してタイプが割り当てられているの
で、タイプ別分割処理36では、図5の区切り文字グルー
プ51、52が利用される。例えば、部分文字列のタイプが
著者であった場合には、区切り文字グループ51が選択さ
れ、部分文字列の分割処理が行われる。区切り文字グル
ープ53は、一つの部分文字列に複数のタイプが割り当て
られているときに利用する。
【0023】図6は、実際の検索結果を用いた分割処理
の説明図である。入力された一つの文献に関する情報が
一行にまとめられた検索結果60は、図3の区切り文字保
持部31において登録されている区切り文字61を用いて分
割を行う。区切り文字61により分割された部分文字列62
〜65に対して、タイプ判定辞書34を利用してタイプを決
定したものが部分文字列66〜69である。タイプ判定辞書
34でタイプが決められない場合には、その部分文字列は
「その他」というタイプが付けられる。
【0024】図7は、図6において実際のデータを用い
たタイプ別分割処理の説明図である。図7では、図6に
おいてタイプが出版者となっている部分文字列69を取り
出して、図3のタイプ別分割処理36について説明を行
う。区切り文字テーブル37から、タイプが"出版者"とな
っている区切り文字グループ52(図5)を取り出し、こ
の区切り文字グループ52のうち優先順位の高い区切り文
字である「-」を用いて、出版者のタイプを持つ部分文
字列71をさらに細かい部分文字列に分割する。分割され
たそれぞれの部分文字列に対して、タイプ判定辞書34を
用いてタイプの決定を行い部分文字列72に出版者のタイ
プを割り当て、他の部分文字列は「その他」というタイ
プを付ける。 次の優先順位を持つ区切り文字を利用す
るときには、出版者のタイプがついている部分文字列72
のみに対して分割を行い、「その他」のタイプを持つ部
分文字列については、分割を行わない。以降、出版者の
タイプが付けられた部分文字列のみを分割対象として分
割を行い、全ての区切り文字を使用することで、部分文
字列73〜79まで分割する。
【0025】図8は、図3の部分文字列保存部35に保存
されている一例である。すなわち、図8は、図3の区切
り文字テーブル37に含まれるすべての区切り文字を用い
て検索結果の分割を行い、その後、部分文字列保存部35
に蓄えられた情報を示したものである。検索結果から分
割された部分文字列は先頭から順番に番号が振られてお
り、この番号が出現位置となる。また、それぞれの部分
文字列が分割される際に利用された区切り文字は部分文
字列の最後尾についており、部分文字列を見ることによ
り、分割の際に利用された区切り文字が何であるかが分
かるようになっている。
【0026】図9は、図3のタイプ別分割処理部36でタ
イプが重複した時の説明図であり、同じ部分文字列にタ
イプが2つ以上重なった時の処理を示している。部分文
字列91のように出版者と著者のタイプが同じ部分文字列
に付けられた場合、区切り文字テーブル37からタイプが
重複となっている区切り文字グループ53(図5)を利用
して、タイプの分離を行う。このとき、優先順位の高い
区切り文字から利用して部分文字列を分割する。部分文
字列の分割にともない、タイプが分離した時に処理を終
了する。この例では、2番目の優先順位を持つ「-」の
区切り文字によって、出版者と著者のタイプが分離さ
れ、部分文字列93、94のようになったとき、重複時の区
切り文字グループ92を用いた部分文字列の分割処理は終
了する。これ以降は、タイプ別の区切り文字を利用した
タイプ別分割処理36を行うことで、必要な情報の抽出を
行う。
【0027】図10は、図1の知識作成部13の処理を
示す図であり、この図を用いて知識作成部13の処理の流
れについて説明を行う。図1の解析結果保持部12に蓄え
られている解析結果を文字列集計部101に読み込む。こ
の文字列集計部101では、各行ごとの部分文字列の個
数、タイプの出現位置、及びタイプの出現位置が同じ部
分文字列の個数を計測することで部分文字列解析表102
を作成する。そして、部分文字列解析表102をもとに、
抽出知識作成部103で検索結果から必要な情報を切り出
す抽出知識を作成する。
【0028】図11は、図10の部分文字列解析表102
の一例を示す。図10の部分文字列解析表102は、部分
文字列の総数と「タイトル」、「著者」、「出版者」の
タイプの出現位置とその出現位置と同じパタンを持つ部
分文字列の個数より構成したものである。図3に示すタ
イプ別分割処理36とタイプ判定部33の処理が終わった時
点で、複数の部分文字列に分割されて部分文字列ごとに
タイプが割り当てられているので、タイプの出現パタン
ごとに同じパタンを持つ検索結果の件数をカウントする
ことで、部分文字列解析表102を作成する。検索結果の
表記は電子図書館ごとに数種類存在するだけであるの
で、このテーブルから部分文字列の個数が同じものから
一つずつ抽出知識を作成する。よって、部分文字列の個
数が同じもののうち、対応する検索結果の件数が多いパ
ターンである111と112のみ取り出して、抽出知識の作成
に利用する。
【0029】図12は、図10の抽出知識作成部103の
処理の流れをを示す図であり、この図を用いて抽出知識
作成部103の処理を説明する。抽出知識作成部103では、
部分文字列に分割された検索結果を用いてPerlの正規表
現(Perlプログラミング,1993,ソフトバンク,p.134-p.13
8,ISBN4-89052-384-7)を用いて抽出知識を記述する。こ
こでは抽出知識の作成方法をステップごとに説明する。
先ずステップ1(121)で、検索結果を分割した部分文
字列の内容を見て、この部分文字列を分割する際に利用
した区切り文字を探す。次にステップ2(122)で、区切
り文字以外の文字の連結を表す正規表現を作成し、正規
表現の最後に区切り文字を付ける。もし、項目の中身が
区切り文字だけであった場合には、その区切り文字だけ
を記述する。また、出現位置が最後尾である部分文字列
の場合には、区切り文字が含まれていないため、正規表
現を記述する際には、文字列の最後を示す"$"を最後に
付ける。
【0030】そしてステップ3(123)で、入力された検
索結果は、複数の部分文字列から成り立っているので、
すべての部分文字列に対してステップ2(122)の処理
を行い、すべての部分文字列を正規表現で記述する。さ
らにステップ4(124)で、出現位置の順番に応じて先頭
から順番に正規表現で記述した項目を並べて、一つの検
索結果を正規表現で記述する。最後にステップ5(125)
で、項目とタイプの値を対応づける情報を記述し、抽出
用の知識を作成する。このようにして、検索結果から情
報を抽出する知識を作成する。
【0031】図13は、実際のデータを用いて、図10
の抽出知識作成部103の処理の流れを示す説明図であ
る。この図により、実際の検索結果を用いて知識を作成
する手順を説明する。図12のステップ1(122)とステ
ップ2(122)により、部分文字列132は、正規表現を用
いて133のように記述できる。次にステップ3(123)によ
り、134に示すように正規表現によって表された項目を
並べる。そして、ステップ4(124)により、131により指
定されている出現位置を用いて、タイプと抽出項目の位
置を指定して、抽出知識135が作成される。これが図1
0の抽出知識作成部103により生成される抽出知識であ
る。
【0032】図14は、図2の一対象一行化部21の処理
の流れを示す説明図であり、この図を用いて一対象一行
化部21の処理について述べる。まず、図2の一対象一行
化部21では、入力された検索結果の全体の構成を調べ
て、検索した対象に関する属性情報が含まれている部分
と、それ以外の検索条件や見出しや検索結果の件数を含
む情報からなるヘッダー部分と検索サービスの提供者の
情報を含むフッター部分とを分離するとともに、ヘッダ
ー部分の最終行に含まれる文字列とフッター部分の開始
行に含まれる文字列を切り取り判定文字列として取り出
す。この処理は、検索結果切り出し部141で行われ、切
り取り判定文字列は切り取り判定文字保存部142に蓄え
られる。検索結果切り出し部141により、対象に関する
属性情報だけを切り出した入力情報には、複数の対象に
対する属性情報が含まれている。この属性情報の並び方
も、一つの対象に関する情報が一行にまとまっておら
ず、複数行に分かれていたり、すべての対象に対する属
性情報が一行にまとまっている可能性もある。そこで、
検索結果整形部143で、一つの対象に関する属性情報を
一行にまとめる処理を行うことによって、図2の行解析
部22の入力の形式にする。
【0033】図15は、図14の検索結果切り出し部14
1の処理の流れを示す説明図であり、この図により検索
結果切り出し部141内部の処理について述べる。 先ずス
テップ1(151)で、レイアウト解析部が、入力された検
索結果全体のレイアウト構成を調べて、同一のレイアウ
トが連続して並んでいる箇所を見つけだす。例えば、箇
条書きや字下げの処理が繰り返し行われている箇所を探
す処理を行う。次にステップ2(152)で、キーワード確
認部が、検索結果には「タイトル」のタイプを決定する
ために利用するキーワードが含まれているので、そのキ
ーワードがステップ1(151)で見つかった部分に繰り返
し出現しているかを調べる。もし、繰り返し出現してい
るのであれば、対象の属性情報が含まれているため、そ
の一連の部分を行解析部22に渡すべき部分であると判断
する。
【0034】さらにステップ3(153)で、ヘッダ終了文
字抽出部が、ステップ2(152)により切り出すべき部分
である検索結果部分が見つかったため、検索結果部分の
直前の行に含まれる文字列を抽出する。これは、ヘッダ
部分の終了を識別する文字列となるので、切り取り判定
文字保存部142に保存する。そしてステップ4(154)で、
フッタ開始文字抽出部が、ステップ2(152)により切り
出すべき部分である検索結果部分が見つかったため、検
索結果部分の直後の行に含まれる文字列を抽出する。こ
れは、フッター部分の開始を識別する文字列となるの
で、切り取り判定文字保存部142に保存する。以上の処
理により、入力された検索結果から対象の属性情報が含
まれる部分のみを抽出するための知識を作成する。
【0035】図16は、図14の検索結果整形部143の
処理の流れを示す説明図であり、この図を用いて検索結
果整形部143の処理について述べる。先ずステップ1(16
1)で、書式解析部が、図14の検索結果切り出し部141
を用いて、切り出した対象の属性情報が含まれる部分か
ら繰り返し現れる文字列を調べる。例えば、箇条書きを
行うために「・」や数字を利用して記述する場合には、
切り出された部分には「・」や数字が繰り返し現れるこ
ととなる。また、字下げを行っている場合には、空白文
字が周期的に現れる。
【0036】そしてステップ2(162)で、キーワード確
認部が、ステップ1(161)により見つけた文字で文字列
を分割した場合に、分割された各ブロックに「タイト
ル」のタイプを決定する際に利用するキーワードが必ず
含まれているかを確認する。もし含まれていないブロッ
クが発生すると、一つの対象に関する属性情報ごとに分
離されていないと考えられるため、別の文字が周期的に
現れていないか調べ直す。さらにステップ3(163)で、
行開始文字抽出部が、ステップ2(162)によりステップ
1(161)で見つけた文字で分割が正確に行われることが
判明した場合、各ブロックの先頭文字を抽出する。この
文字は一対象に関する属性情報の始まりを示すものであ
る。以上の処理により、検索結果から一つの対象に関す
る属性情報を一行にまとめる処理を行う知識を作成す
る。
【0037】
【発明の効果】以上のシステムにより、辞書のみによる
文字列解析による項目の分離より、レイアウト情報を用
いた項目の分離が行え、分離の精度をよくすることがで
きる。また、分離した項目のタイプに応じて解析の細か
さを制御することが可能となり、特定の項目に対して詳
細な分割を行うことが可能となり、余分な情報を取り除
くこともできる。さらに、このシステムによれば人手を
介さないため、自動的に必要な情報だけに絞り込んで切
り出すことができる情報抽出知識を作成することが可能
となり、従来に比べて知識作成者の負担を大幅に軽減す
ることができる。
【図面の簡単な説明】
【図1】 本発明の検索結果解析方式の構成を示す図で
ある。
【図2】 図1の検索結果解析部の構成を示す図であ
る。
【図3】 図2の行解析部の構成を示す図である。
【図4】 図3のタイプ判定辞書に含まれるデータの一
例を示す図である。
【図5】 図3の区切り文字テーブルの一例を示す図で
ある。
【図6】 実際の検索結果を用いた分割処理の説明図で
ある。
【図7】 図6において実際のデータを用いたタイプ別
分割処理の説明図である。
【図8】 図3の部分文字列保存部に保存されているデ
ータの一例である。
【図9】 図3のタイプ別分割処理部でタイプが重複し
た時の説明図である。
【図10】 図1の知識作成部の処理の流れを示す説明
図である。
【図11】 図10の部分文字列解析表の一例である。
【図12】 図10の抽出知識作成部の処理の流れを示
す説明図である。
【図13】 実際のデータを用いて、図10の抽出知識
作成部の処理の流れを示す説明図である。
【図14】 図2の一対象一行化部の処理の流れを示す
説明図である。
【図15】 図14の検索結果切り出し部の処理の流れ
を示す説明図である。
【図16】 図14の検索結果整形部の処理の流れを示
す説明図である。
【符号の説明】
11…検索結果解析部、12…解析結果保持部、13…
知識作成部、21…一対象一行化部、22…行解析部、
31…区切り文字保持部、32…分割処理部、33…タ
イプ判定部、34…タイプ判定辞書、35…部分文字列
保存部、36…タイプ別分割処理部、37…区切り文字
テーブル、41〜42…タイプ判定辞書のデータ、51
〜53…区切り文字テーブルのデータ、60〜69…分
割処理により分割されたデータ、71〜79…タイプ別
分割処理により分割されたデータ、91〜94…タイプ
が重複したときのタイプ別分割書により分割されたデー
タ、101…文字列集計部、102…部分文字列解析
表、103…抽出知識作成部、111〜112…部分文
字列解析表に含まれるデータ、121〜125 抽出知
識作成部の処理ステップ、131〜135 抽出知識作
成部におけるデータの流れ、141…検索結果切り出し
部、142…切り取り判定文字保存部、143…検索結
果整形部、151〜154…検索結果切り出し部の処理
フロー、161〜163…検索結果整形部の処理フロー

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 複数の検索サービスにアクセスし、各検
    索結果から必要な情報を抽出し、抽出した情報の表示位
    置や表示する情報の種類を統一してユーザに表示する処
    理において、 検索結果を解析する検索結果解析部と、 前記検索結果解析部が解析した結果を保持する解析結果
    保持部と、 前記解析結果保持部の情報を利用し情報抽出用の知識を
    作成する知識作成部と、を備えたことを特徴とする検索
    結果解析方式。
  2. 【請求項2】前記検索結果解析部が、 検索結果の中で繰り返し出現する検索対象の属性情報の
    パタンを利用し、 各検索対象ごとの属性情報を一行にまとめる一対象一行
    化部と、 前記一対象一行化部の結果を各行ごとに解析する行解析
    部とを備え、 前記解析結果保持部に、各行ごとの解析結果を保持させ
    ることを特徴とする請求項1記載の検索結果解析方式。
  3. 【請求項3】前記行解析部が、 区切り文字のグループを保持する区切り文字保持部と、 前記区切り文字保持部がもつ各区切り文字によって、入
    力された行を部分文字列に分割する分割処理部と、 タイプ判定辞書に登録されたデータを用いて、与えられ
    た部分文字列のタイプを判定するタイプ判定部と、 前記タイプ判定部が判定したタイプを、前記部分文字列
    と共に保持する部分文字列保持部と、 区切り文字グループとタイプを対応させた区切り文字テ
    ーブルと、 前記部分文字列保持部が持つ前記部分文字列ごとに、前
    記部分文字列と共に登録されているタイプと同じタイプ
    を持つ区切り文字グループを前記区切り文字テーブルか
    ら呼び出し、該区切り文字グループに含まれる各区切り
    文字を使って、前記部分文字列を分割するタイプ別分割
    処理部とを備え、 前記タイプ別分割処理部によって分割された部分文字列
    に対して、前記タイプ判定部によるタイプ判定を行い、
    前記部分文字列と判定されたタイプを、前記部分文字列
    保持部へ登録することを特徴とする請求項2記載の検索
    結果解析方式。
  4. 【請求項4】 前記タイプ判定部が、 部分文字列に対して複数のタイプを重複して割り当てた
    とき、 前記区切り文字テーブルにおいて、対応するタイプを持
    つ区切り文字グループを呼び出し、 前記区切り文字グループに含まれる区切り文字より、優
    先順位に従って前記部分文字列を分割し、 前記タイプ別分割処理部が、 前記部分文字列に割り当てられたタイプが分離したとき
    に処理を中断させる、 ことを特徴とする請求項3記載の検索結果解析方式。
  5. 【請求項5】 前記分割処理部及び前記タイプ別分割処
    理部が、 前記部分文字列保持部に登録する際、分割した前記部分
    文字列と前記タイプ判定部が判定したタイプ以外に、分
    割する際に利用した区切り文字も登録することを特徴と
    する請求項3または請求項4記載の検索結果解析方式。
  6. 【請求項6】 前記分割処理部及び前記タイプ別分割処
    理部が、 前記部分文字列保持部に登録する際、分割した前記部分
    文字列とタイプ判定部が判定したタイプと分割する際に
    利用した区切り文字以外に、その部分文字列がその行内
    で出現した位置も登録することを特徴とする請求項3〜
    請求項5の何れか1項記載の検索結果解析方式。
  7. 【請求項7】 前記知識作成部が、 各行ごとの部分文字列の個数と前記部分文字列において
    割り当てられたタイプの出現位置が同じ部分文字列とを
    集計する文字列集計部と、 前記文字列集計部により得られたデータを保存する部分
    文字列解析表と、 前記部分文字列解析表を用いて抽出知識を作成する抽出
    知識作成部と、 を備えたことを特徴とする請求項5または請求項6記載
    の検索結果解析方式。
  8. 【請求項8】 前記知識作成部が、 各行ごとの部分文字列の個数とそれぞれのタイプの出現
    位置が同じもの毎に集計した部分文字列解析表とを作成
    し、 各部分文字列の個数が同じものの中で、最も個数の多い
    タイプと出現位置の組み合わせを選択し、その組み合わ
    せを持つ部分文字列の組を各行ごとに一つづつ選択し、
    前記部分文字列保持部が保持する部分文字列の中での組
    を典型パターンとしてマークし、 前記典型パターンとしてマークされた部分文字列の組か
    ら、前記抽出知識を作成することを特徴とする請求項7
    記載の検索結果解析方式。
  9. 【請求項9】 前記典型パターンとしてマークされた部
    分文字列の組から前記抽出知識を作成する際に、 マークされた部分文字列と共に登録されている区切り文
    字の情報を用い、該区切り文字以外の文字が0個以上マ
    ッチする正規表現と前記区切り文字を一つの組とし、 該正規表現とマッチする部分が、該部分文字列のタイプ
    の情報として抽出できるように、前記抽出知識を作成す
    ることを特徴とする請求項8記載の検索結果解析方式。
  10. 【請求項10】 前記一対象一行化部が、 検索条件や見出しや検索結果の件数を含む表記が固定し
    ている情報からなるヘッダー部分と、 検索された対象の属性情報が繰り返し現れる検索結果部
    分と、 検索サービス提供者の名称を含む表記が固定している情
    報からなるフッター部分からなる検索結果より、前記検
    索結果部分を切り出す検索結果切り出し部と、 前記検索結果部分に含まれる複数の対象に関する情報
    を、一対象に対するすべての属性を一行にまとめる検索
    結果整形部と、 から成ることを特徴とする請求項2記載の検索結果解析
    方式。
  11. 【請求項11】 検索結果切り出し部が、 改行、検索に利用したキーワードの出現位置、箇条書き
    ・字下げによるレイアウトの繰り返しを見つけ、 ヘッダー部分と検索結果部分とフッター部分を判別し、 前記ヘッダー部分における最終行に含まれる文字列と、
    前記フッター部分における開始行に含まれる文字列とを
    取り出すことを特徴とする請求項10記載の検索結果解
    析方式。
  12. 【請求項12】 前記検索結果整形部が、改行、検索に
    利用したキーワードの出現位置、箇条書き・字下げによ
    るレイアウト情報により、対象に関する情報の列挙部分
    を見つけて、一つの対象に関するすべての属性情報を一
    行にまとめることを特徴とする請求項10記載の検索結
    果解析方式。
JP11002333A 1999-01-07 1999-01-07 検索結果解析方式 Pending JP2000200288A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11002333A JP2000200288A (ja) 1999-01-07 1999-01-07 検索結果解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11002333A JP2000200288A (ja) 1999-01-07 1999-01-07 検索結果解析方式

Publications (1)

Publication Number Publication Date
JP2000200288A true JP2000200288A (ja) 2000-07-18

Family

ID=11526397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11002333A Pending JP2000200288A (ja) 1999-01-07 1999-01-07 検索結果解析方式

Country Status (1)

Country Link
JP (1) JP2000200288A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263461A (ja) * 2002-03-08 2003-09-19 Just Syst Corp 記号列を格納するデータ構造、登録装置、検索装置、登録方法、検索方法、ならびに、プログラム
JP2020525960A (ja) * 2017-07-12 2020-08-27 ノートンライフロック インコーポレイテッド サーバ上の脆弱性を検出するためのシステム及び方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05127959A (ja) * 1991-11-07 1993-05-25 Fujitsu Ltd 異種データベース間のデータ結合装置
JPH0765032A (ja) * 1993-08-27 1995-03-10 Toshiba Corp データベース言語変換機能を持つ情報処理システム
JPH10143539A (ja) * 1996-09-11 1998-05-29 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法および情報検索システムおよび情報資源辞書データを記録した記録媒体および情報検索プログラムを記録した記録媒体
JPH10222539A (ja) * 1996-10-02 1998-08-21 Jangree Corp 半構造化情報の照会および解釈を構造化する方法および装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05127959A (ja) * 1991-11-07 1993-05-25 Fujitsu Ltd 異種データベース間のデータ結合装置
JPH0765032A (ja) * 1993-08-27 1995-03-10 Toshiba Corp データベース言語変換機能を持つ情報処理システム
JPH10143539A (ja) * 1996-09-11 1998-05-29 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法および情報検索システムおよび情報資源辞書データを記録した記録媒体および情報検索プログラムを記録した記録媒体
JPH10222539A (ja) * 1996-10-02 1998-08-21 Jangree Corp 半構造化情報の照会および解釈を構造化する方法および装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263461A (ja) * 2002-03-08 2003-09-19 Just Syst Corp 記号列を格納するデータ構造、登録装置、検索装置、登録方法、検索方法、ならびに、プログラム
JP2020525960A (ja) * 2017-07-12 2020-08-27 ノートンライフロック インコーポレイテッド サーバ上の脆弱性を検出するためのシステム及び方法

Similar Documents

Publication Publication Date Title
US5542090A (en) Text retrieval method and system using signature of nearby words
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
e Silva et al. Design of an end-to-end method to extract information from tables
CN109344230B (zh) 代码库文件生成、代码搜索、联结、优化以及移植方法
EP0657828A1 (en) An apparatus and a method for retrieving image objects
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
SE524595C2 (sv) Förfarande och datorprogram för normalisering av stilkast
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JPH02299068A (ja) 入力文字列からワードを分離する方法
JP2006146802A (ja) テキストマイニング装置およびテキストマイニング方法
JP3612769B2 (ja) 情報検索装置および情報検索方法
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JPH06162092A (ja) 情報検索装置
JPH0869476A (ja) 検索システム
JP2000200288A (ja) 検索結果解析方式
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP5621145B2 (ja) 文書チェック装置、文書チェックプログラムおよび文書チェック方法
JPH05250416A (ja) データベースの登録・検索装置
JP2003141132A (ja) 情報処理装置およびその方法
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP2549745B2 (ja) 文書検索装置
JP2004133510A (ja) 技術文献検索システム
JP2009181524A (ja) 文書検索システム及び文書検索方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030902