JPH08137898A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH08137898A
JPH08137898A JP6273437A JP27343794A JPH08137898A JP H08137898 A JPH08137898 A JP H08137898A JP 6273437 A JP6273437 A JP 6273437A JP 27343794 A JP27343794 A JP 27343794A JP H08137898 A JPH08137898 A JP H08137898A
Authority
JP
Japan
Prior art keywords
unit
concept
keyword
document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6273437A
Other languages
English (en)
Inventor
Seiji Washisaki
誠司 鷲崎
Masahiro Oku
雅博 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP6273437A priority Critical patent/JPH08137898A/ja
Publication of JPH08137898A publication Critical patent/JPH08137898A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 検索時の洩れを極力少なくして適確な検索を
行うことができる文書検索装置を提供する。 【構成】 検索キーワード入力部1から入力された検索
キーワードに対して概念ネットワーク8内での位置を確
定し、この確定された語句から関連付けられている語句
をキーワード拡張部3で検索して、追加キーワードとし
て採用し、このキーワードに対して概念ネットワーク8
内に蓄積された関連度の大小によりキーワードの優先順
位をキーワード優先順位付与部4で付与し、優先度を付
与されたキーワードを用いて検索対象文書を検索し、各
キーワード毎に検索対象文書内の単語と一致する回数を
検索実行部5で算出し、この一致回数を基に文書を文書
得点化部6で得点化し、各キーワードに関して得点化さ
れた文書を全キーワードの優先順位に基づき集計した上
でキーワードの精度を文書順位化部7で順位化する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、利用者によって入力さ
れたキーワードの内容をよく表す文書を検索するための
文書検索装置に関し、特に文書検索時に語句間の概念関
係を記述した概念辞書を利用してキーワードを拡張し、
検索の精度を上げる文書検索装置に関する。
【0002】
【従来の技術】近年、様々な検索手法の中でも、フルテ
キスト検索と呼ばれる手法が注目されている。従来のフ
ルテキスト検索システムと呼ばれる文書検索装置は、検
索対象である各文書には、検索のためのインデックス情
報が付与されておらず、システムは基本的にはユーザに
よって入力されたキーワード、あるいは検索文が持つ内
容に最も近いような検索対象を検索し、それを検索結果
として出力していた。
【0003】特に、ユーザの入力がキーワードである場
合、検索の精度を高めるため、 1.シソーラスと呼ばれる語句間の上位下位関係 2.各語句間の様々な関係を網状につながりとして持た
せた語句のネットワークモデル を用いてキーワードを拡張し、この拡張されたキーワー
ドを検索キーとして検索対象を検索し、その結果を検索
結果として出力するなどの方法があった。
【0004】第1の例としては、「検索条件式作成方法
(特願平5−334364号)」があり、第2の例とし
ては、「動的シソーラスを用いた連想検索(情報処理学
会自然言語処理研究会76−9)」がある。
【0005】上述した第1の例のシソーラスにおける語
句の上位および下位関係を用いて検索キーワードを拡張
する方法の場合、入力された検索キーワードでは検索が
うまくいかない場合は、シソーラス上で上位/下位概念
のものをキーワードに追加して、それらを用いて再検索
を行う。
【0006】第2の例の語句のネットワークモデルを用
いて検索キーワードを拡張する方法の場合は、基本とな
るシソーラスを与え、それに対してある一定数の学習用
検索対象分野の文書から、その文書のキーワードとなる
語句を、その尤もらしさを得点化した上で抽出する。そ
して、抽出されたキーワードを用いて基本となるシソー
ラスに対して新たな関係を付与し、さらに尤もらしさを
付与した関係に得点として与える。こうして基本となる
シソーラスからキーワード拡張のための語句のネットワ
ークモデルを再構築しておく。入力キーワードの拡張
は、この語句のネットワークモデルの該当する語句をキ
ーとして、それから予め決められたしきい値を越えない
範囲で関連する語句を該当キーワードとして採用し、こ
れにより検索対象を検索する。
【0007】
【発明が解決しようとする課題】上述したように入力さ
れたキーワードを拡張して検索の精度を上げる手法にお
いては、以下に説明するような問題点がある。
【0008】第1の例のシソーラスにおける語句の上位
および下位関係を用いて検索キーワードを拡張する方法
においては、入力されたキーワードが同意語をもつ場合
には、全く異なる概念で検索することになりかねない。
このように固定されたシソーラスを用いるだけではキー
ワードをうまく拡張できない場合があった。更に、この
基となるシソーラス自体がある観点により収集・構築さ
れたものであり、検索キーワードの拡張の際に、上位お
よび下位概念が入力語句の属する分野とずれている可能
性があるため、正確なキーワード拡張ができない場合が
あった。
【0009】第2の例の語句のネットワークモデルを用
いて検索キーワードを拡張する方法においては、文書の
キーワードとなる語句は文書中の文章の並列表現、連体
修飾語、シソーラスの上位および下位関係、キーワード
の出現位置、頻度などの文の表層情報を主に用いて、そ
の尤もらしさを算出しているため、文書中の文章の本当
の意味を代表しているものが抽出できているとは限ら
ず、これによって生成した語句のネットワークモデルも
学習用の文書の内容を本当に反映しているとは言えなか
った。このような問題を解決するためには、学習用の文
書の内容をよりうまく反映できるような仕組みが必要で
ある。
【0010】本発明は、上記に鑑みてなされたもので、
その目的とするところは、検索時の洩れを極力少なくし
て適確な検索を行うことができる文書検索装置を提供す
ることにある。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、本発明の文書検索装置は、入力キーワードから蓄積
された文章を検索する文書検索装置であって、概念間の
関係に対して、各々の意味的な関連の度合を得点化して
保持する概念ネットワークと、該概念ネットワークを作
成する概念ネットワーク作成部と、検索対象とする文書
を蓄積する検索対象データベースと、検索キーワードを
入力する検索キーワード入力部と、上記検索キーワード
入力部から入力された検索キーワードに対して前記概念
ネットワーク内での位置を確定する概念ネットワークマ
ッチング部と、上記概念ネットワークマッチング部によ
り確定された語句から関連付けられている語句を検索
し、予め決められたしきい値を越えない範囲で追加キー
ワードとして採用するキーワード拡張部と、上記キーワ
ード拡張部により拡張されたキーワードに対して、概念
ネットワーク内に蓄積された関連度の大小によりキーワ
ードの優先順位を付与するキーワード優先順位付与部
と、上記キーワード優先順位付与部により優先度を付与
されたキーワードを用いて検索対象文書を検索し、各キ
ーワード毎に検索対象文書内の単語と一致する回数を算
出する検索実行部と、上記検索実行部により算出された
キーワードの一致回数を基に、各々の拡張されたキーワ
ードが検索対象文書中に現れる頻度に比例し、そのキー
ワードを含む文書数に反比例するように文書を得点化す
る文書得点化部と、上記文書得点化部によって各キーワ
ードに関して得点化された文書を全キーワードの優先順
位に基づき集計した上でキーワードの精度を順位化する
文書順位化部と、検索結果を出力する検索結果出力部と
を有することを要旨とする。
【0012】また、本発明の文書検索装置は、前記概念
ネットワーク作成部が予め格解析されたコーパスと、文
の文法情報、意味情報、および品詞情報の語句の基本的
な情報を蓄積する単語辞書と、語句間の概念間の関係を
記述した語句の概念辞書と、上記コーパスから一文に当
たるブロックを読み出すコーパス読み出し部と、上記コ
ーパス読み出し部で読み込んだ1ブロックから、動詞
句、その動作格、および対象格に相当する名詞句を抽出
する格抽出部と、上記格抽出部により抽出された動詞句
に対しては、修飾部分を取り除いた後で原型にし、名詞
句に対しては代名詞、固有名詞、連体修飾部分、並列部
分、および名詞の前後に付属し特定の意味を表す機能語
を除去する語句正規化部と、上記語句正規化部により正
規化した動詞毎に、動作格および対象格となる名詞を分
類し、この分類した各名詞に対して、動詞の出現頻度と
各々の名詞の出現頻度に比例するように各名詞に対して
得点を付与する名詞得点化部と、上記名詞得点化部によ
って得点化された名詞をその得点および動詞と共に記憶
しておく語句共起関係記憶部と、上記語句共起関係記憶
部の中の各名詞に対して予め記憶されている概念辞書の
どの部分に当たるかを検知する概念辞書マッチング部
と、上記概念辞書マッチング部によってマッチングされ
た名詞と上位および下位関係にない上記語句共起関係記
憶部にある各名詞に対して新たに共起関係を作成する共
起関係作成部と、上記共起関係作成部によって作成され
た共起関係に対しては上記語句共起関係記憶部に記憶さ
れた名詞間の相対的な得点を関係に付与し、概念辞書に
元から存在する関係に対してはマッチングした名詞を基
準にして上位および下位の関係が遠くなるに従って得点
が相対的に低くなるように得点化し付与する概念間得点
化部と、上記概念間得点化部により概念間の関係の度合
を付与して新たに作成された情報を概念ネットワークと
して記憶する概念ネットワーク蓄積部とを有することを
要旨とする。
【0013】
【作用】本発明の文書検索装置では、検索キーワード入
力部から入力された検索キーワードに対して概念ネット
ワーク内での位置を確定し、この確定された語句から関
連付けられている語句を検索し、予め決められたしきい
値を越えない範囲で追加キーワードとして採用し、この
キーワードに対して概念ネットワーク内に蓄積された関
連度の大小によりキーワードの優先順位を付与し、優先
度を付与されたキーワードを用いて検索対象文書を検索
し、各キーワード毎に検索対象文書内の単語と一致する
回数を算出し、この算出されたキーワードの一致回数を
基に各々の拡張されたキーワードが検索対象文書中に現
れる頻度に比例し、そのキーワードを含む文書数に反比
例するように文書を得点化し、この得点化された文書を
全キーワードの優先順位に基づき集計した上でキーワー
ドの精度を順位化している。
【0014】また、本発明の文書検索装置では、概念ネ
ットワーク作成部はコーパスから一文に当たるブロック
を読み出し、この1ブロックから、動詞句、名詞句を抽
出し、動詞句に対しては原型にし、名詞句に対しては機
能語を除去し、正規化した動詞毎に動作格および対象格
となる名詞を分類し、該各名詞に対して動詞の出現頻度
と各々の名詞の出現頻度に比例するように各名詞に対し
て得点を付与し、この得点化された名詞をその得点およ
び動詞と共に記憶し、この各名詞に対して予め記憶され
ている概念辞書のどの部分に当たるかを検知し、この検
知された名詞と上位下位関係にない各名詞に対して新た
に共起関係を作成し、この共起関係に対しては名詞間の
相対的な得点を関係に付与し、概念辞書に元から存在す
る関係に対してはマッチングした名詞を基準にして上位
下位の関係が遠くなるに従って得点が相対的に低くなる
ように得点化し、概念間の関係の度合を付与して新たに
作成された情報を概念ネットワークとして記憶する。
【0015】
【実施例】図1は、本発明の一実施例に係る文書検索装
置の基本構成を示すブロック図である。
【0016】図1において、1は、検索キーワードを入
力する検索キーワード入力部、2は、入力されたキーワ
ードに対して、概念ネットワークのどの概念に該当する
かをチェックする概念ネットワークマッチング部、3
は、予め設定されたしきい値を利用して、概念ネットワ
ークのノードを辿り、しきい値を越えないようにキーワ
ードを拡張するキーワード拡張部、4は、キーワード拡
張部3により拡張されたキーワード群に対して、ノード
に付与された得点により実際の検索時にキーワードの優
先順位を付与するキーワード優先順位付与部、5は、キ
ーワード優先順位付与部4により付与されたキーワード
を用いて実際に検索を行う検索実行部、6は、検索実行
部5により検索された文書に対して、優先キーワードに
関するヒット率により文書にマッチングの度合を測る文
書得点部、7は、文書得点部により得点化された文書を
その高いものから順に整列させる文書順位化部である。
【0017】また、図1において、8は、概念辞書に対
して新たな関係を付与した概念ネットワーク、9は、検
索対象となる文書を蓄積しておく検索対象データベー
ス、91は前記概念ネットワーク8を作成する概念ネッ
トワーク作成部、93は検索結果を出力する検索結果出
力部である。
【0018】図2は、図1に示す文書検索装置で使用さ
れている概念ネットワーク作成部91の基本構成を示す
ブロック図である。
【0019】図2において、19は、予め文の構造を解
析した上で蓄積したコーパス、20は、単語の品詞など
の詳細情報を含む単語辞書、21は、概念間の関係を記
述した概念辞書(シソーラス)、8は、概念辞書21に
新たな関係を付与した前記概念ネットワークである。
【0020】また、図2において、10は、コーパス1
9に蓄積された言語データを一行ずつ読み込むコーパス
読み出し部、11は、読み出したコーパスの内容から処
理に不必要な部分を削除した上で、格要素に相当する部
分だけを抽出する格抽出部、12は、格抽出部11で抽
出した格要素候補から、連体修飾語句や語尾変化などの
部分を一般の語句に変形する語句正規化部、13は、正
規化した格要素に対して、動詞の出現頻度と名詞の出現
頻度に比例するように名詞に対して得点を付与する名詞
得点化部、14は、得点化された名詞をその得点と共に
動詞を合わせて記憶しておく語句共起関係記憶部、15
は、上記記憶部14における各名詞が概念辞書21中の
どの語句と一致するかを決定する概念辞書マッチング
部、16は、マッチングに失敗した名詞に対して、概念
辞書のノードを辿り、リンクが張られていない概念に対
しては、新たな共起関係としてノードを作成する共起関
係作成部、17は、前記語句共起関係記憶部14に記憶
された全名詞に対する得点を概念辞書21中の概念間の
ノードに対して付与する概念間得点化部、18は、概念
間得点化部17で付与された得点と概念を新たな関係と
して概念ネットワーク8に蓄積する概念ネットワーク蓄
積部である。
【0021】次に、図3に示すフローチャートを参照し
て、概念ネットワーク作成時の処理の流れを詳細に説明
する。
【0022】まず、前記コーパス読み出し部10は、コ
ーパス19から内容を抽出する(ステップS23)。具
体的には、コーパス19から1ブロック分だけ読み出す
処理を行う。コーパスとは、文章を予め構文解析して、
更にその意味構造の補助情報とともに格納されたもので
ある。また、これに加えて単語と概念のインデックスが
用意され、単語と概念の双方から必要な用例が抽出でき
るようになっているものである。
【0023】図5はコーパスのフォーマットの例であ
り、図6はコーパスの一例である。図6に示すように、
「ショッキングな銀行犯罪が、海の向こうから暴露され
た。」という文章が構文解析され、さらに意味解析の結
果までがこの中に含まれている。コーパス読み出し部1
0では、このような情報が全文に渡り蓄積されているコ
ーパス情報から、1ブロックずつ読み込む。
【0024】次に、コーパス読み出し部10で読み込ま
れたブロックは、格抽出部11に供給され、格抽出部1
1はこの読み込んだ1ブロックから本文書検索装置で使
用しない部分の除去を行う(ステップS24)。本文書
検索装置では、コーパス情報の内、品詞情報、概念情
報、意味構造を利用する。その他の情報はこのステップ
で除去する。
【0025】それから、ステップS23で得られた必要
情報の中から、格情報の抽出を行う(ステップS2
5)。本文書検索装置では、動詞句とそれに関連する動
作格と対象格の抽出を行う。図6の文章の場合は、動詞
句は「暴露された」であり、それに関連する動作格は
「nil」、対象格は「銀行犯罪」である。この時、動
詞句が取得できない場合や(ステップS26)、動作格
と対象格双方ともに取得できない場合は、このブロック
を終了してステップS23に戻り次のブロックを読み込
む(ステップS27)。
【0026】続いて、語句正規化部12において、ステ
ップS24,S25で得られた動詞句、および動作格・
対象格を単語辞書20に存在する表層形に修正する(ス
テップS28)。例えば、図6の例の場合、動詞句「暴
露された」のみが「暴露する」に修正され、他の格要素
に関してはそのまま採用される。
【0027】ここで、名詞得点化部13の処理が始ま
る。図3では、ステップS29からステップS32まで
に相当する。ステップS29では、ステップS28で正
規化された格要素の中から1つ名詞を抽出する。図6の
例の場合は、動作格はないので対象格をその候補として
抽出する。
【0028】ステップS30では、ステップS28で正
規化した動詞句をキーにして、格要素を分類する。図6
の例の場合では、動詞句「暴露する」がキーとなり、対
象格「銀行犯罪」が関連する1つの情報として蓄積され
る。これをステップS25で抽出したすべての格要素に
対して行う。そのため、他の格要素が存在する場合は、
ステップS29に戻る(ステップS31)。
【0029】ステップS32では、すべての名詞に関し
て分類後、各名詞に対して得点化する。コーパスに存在
する全文に対してステップS23からステップS31ま
での処理を行うと、様々な動詞句に対して、いくつかの
名詞が関連したものとして分類される。このときある動
詞句に対して同じ名詞が何回も登場する場合がある。
【0030】例えば、図8の場合では、動詞句「暴露す
る」に対して名詞「銀行犯罪」が分類できたが、その他
の文からも動詞句「暴露する」、名詞「銀行犯罪」が取
得できる場合もある。この頻度を計算し記憶しておく。
それで、最終的に動詞句「暴露する」がm回登場し、
「銀行犯罪」がn回登場したとする。名詞への重み付け
として、動詞句の出現頻度と、それに対する名詞の出現
頻度が比例するように得点化すると、対象格「銀行犯
罪」は動詞句「暴露する」に対してm×nの得点を持
つ。このとき、格要素と動詞句の意味的な関連の強弱を
鑑みて、動作格よりも対象格の方に重みを付ける。例え
ば、動作格と対象格の関連度の比率を1:2として得点
を計算する。例として、例えば図6の文章から動作格と
してある名詞が抽出された場合、動詞句の出現頻度とこ
の名詞の出現頻度×1/3となり、対象格の場合は上の
例を計算すると、m×n×2/3となる。
【0031】図8は、上記の計算の例を示したものであ
る。この図では、動詞句「暴露する」に対して、3つの
名詞「銀行犯罪」、「犯罪」、「失敗」が関連付けられ
ている。動詞句「暴露する」の頻度freq(暴露す
る)はm、名詞「銀行犯罪」が動詞句の動作格となる頻
度freq(暴露する、subject:銀行犯罪)は
n11、対象格となる頻度freq(暴露する、obj
ect:銀行犯罪)はn12、同様にfreq(暴露す
る、subject:犯罪)、freq(暴露する、o
bject:犯罪)なども得点化されている。各名詞に
対するノードの値はこれらに対して重み付けをした上で
決定される。例えば、動詞句「暴露する」と名詞「銀行
犯罪」のノードの値α1は、以下の計算式により決定さ
れる。
【0032】
【数1】 α1=(1/3×freq(暴露する、subject:銀行犯罪) +2/3×freq(暴露する、object:銀行犯罪))×m =(n11+n12×2))×m/3 このようにすべての動詞句と名詞のペアに対して、ステ
ップS32で得点付けされたものを、一旦ステップS3
3で語句共起関係として記憶しておく。図8の例の場合
では、 (動詞句:暴露する (名詞:銀行犯罪ノード値:α1) (名詞:犯罪ノード値:β1) (名詞:失敗ノード値:γ1)) などのように記憶し、蓄積しておく。
【0033】ここから、共起関係作成部16の処理とな
る。上記のステップですべての動詞句に係る名詞への得
点付けが終了した後、ステップS34で1つずつ名詞を
抽出する。
【0034】ステップS35では、ステップS32で抽
出された名詞と一致するエントリーを、概念辞書21か
ら検索する。概念とは、文や単語の意味内容のことであ
り、さらに概念辞書は概念項目の集合によって表現され
るネットワーク構造をしており、ノードが概念を、アー
ク(リンク)が概念間の関係を表している。概念関係の
ネットワークは立体的な広がりを持ち、概念間の種々の
関係を表す概念記述の上に、概念体系が形成されてい
る。この概念辞書の例を図7および図9に示す。
【0035】図7は、概念辞書のフォーマットとその例
を示し、図9は概念辞書の一部を階層上に表示したもの
を示す。トップとして「概念」を親に持ち、そこから下
位分類された概念間の上位下位関係を記述している。こ
の例では、今後の説明上、親からの物理的な距離をレベ
ル(level)として記述してある。すなわち、トッ
プ概念がレベル0(level0)、その下の概念であ
る「抽象」、「具体」はレベル1(level1)など
記述してある。このような概念辞書に対して、ステップ
S34で抽出した名詞と一致する概念を取得する。図9
の辞書からは、レベル5の「銀行犯罪」が一致する。
【0036】一致する概念の取得後、共起関係作成部1
6へ進む。すなわちステップS36で、関連のない語句
へのリンク付けを行う。まず、図8のように予め蓄積し
た語句共起関係から「銀行犯罪」と一致する部分を含む
関係を抽出する。この例では、動詞句「暴露する」と
「集中する」双方ともに関連していると考える。そし
て、「暴露する」を通して関連あると考えられる「銀行
犯罪」、「犯罪」、「失敗」の各々の間でリンクが張ら
れていないものに対して、新たに関係を付与する。例え
ば、「銀行犯罪」と「犯罪」間は上位下位関係が予め付
与されているのに対して、「銀行犯罪」と「失敗」間は
直接的な関係が付与されていない。よって、これらの間
に新たなリンク付けを行う。同様にすべてのリンク付け
されていない関係に対してリンク付けを行う。
【0037】概念間への関連付けを終了したら、概念間
得点化部17の処理となる。ステップS37で新旧すべ
てのリンクに対して得点を付与する。得点の付与は次の
ステップにより行う。
【0038】1.語句共起関係中のリンクの得点の付与 ステップS33で蓄積されたノード間の関係から、単語
間の関係の度合を数値化したものをノード間の得点とし
て付与する。最初に、ステップS33で蓄積された得点
を正規化するため、概念辞書中のすべてのエントリーに
対して最大の値を持つ名詞をnmax 、その値をV(n
max )とする。そして、各々の名詞をni としたとき、
名詞に付与する正規化された得点εi は、以下の式で表
すこととする。
【0039】
【数2】 そして、2つの名詞、ni ,nj 間の関係の度合Rel
(ni ,nj )を以下のように定義する。
【0040】
【数3】 は、すべての動詞句に対する名詞の得点の和を求めるこ
とを示す。例えば、「銀行犯罪」と「失敗」間のリンク
には、図8のRel1 (銀行犯罪、失敗)を与える。
【0041】2.概念辞書の上位下位関係(意味の親子
関係)を利用した得点の付与 ステップS33で蓄積された名詞に一致する概念辞書の
概念をni とする。更に、その上位の意味を持つ概念を
i-1 ,ni-2 ,…とする。上位概念との間の関係の度
合Rel2 (ni ,ni-j )を以下のように定義する。
【0042】
【数4】 このようにして求めた得点を上位概念との関係の度合と
して付与する。
【0043】3.兄弟関係にある概念への得点付与 概念辞書において、意味的に同じ概念は図9でいう同じ
レベルにあることになる。同じ概念の単語を兄弟関係に
あると考えると、これらは意味的にも類似した関係にな
るため、類似度を以下のように得点化する。ある概念n
i-1 に対して、その子の関係となる概念をnij、その親
の関係となる概念をni と表す。図9の例で、n3
「人間活動」とした場合、n41は「犯罪」、n42は「失
敗」などとなる。任意の2つの概念間の関係Rel
3 (ni ,npq)を以下の計算式で定義する。
【0044】
【数5】 上記ステップS37で得点化されたものを、全名詞に対
してその和
【数6】 を求めて存在するすべてのノードに対する得点とする
(ステップS38,S39)。
【0045】最終的にコーパス中にあるすべての文章に
対して、上記の処理を行い、リンク間に重みが付与され
た概念ネットワーク8を作成する(概念ネットワーク蓄
積部18、ステップS40)。
【0046】こうして作成した概念ネットワークの例を
図10に示す。図10は、概念ネットワークの基となる
概念辞書を上に、コーパスを介して学習して新たなリン
クを追加し、概念間の関係を点数化したものを下に記述
してある。この例では、概念辞書になかった「銀行犯
罪」と「人」との間に新たなリンクが追加されており、
各々の概念間には意味的な関係を得点化したものが付与
されている。
【0047】次に、以上のようにして作成した概念ネッ
トワーク8を利用して、実際に検索する検索実行時の処
理の流れを図4に示すフローチャートを基に説明する。
【0048】始めに、検索キーワード入力部1を通して
検索キーワードを入力する(ステップS41)。ここで
は、一単語が入力されると仮定する。例えば、「銀行犯
罪」というキーワードが入力されたとする。
【0049】キーワードの入力後、ステップS42で
は、ステップS41で入力されたキーワードが、概念ネ
ットワーク8のどの概念に該当するかをチェックする
(概念ネットワークマッチング部2)。その後、検索キ
ーワードを拡張するかしないかをステップS43からス
テップS47までで決定する(キーワード拡張部3)。
【0050】ステップS43では、該当する概念とリン
ク付けされた概念を取得し、それらとの関係の度合を得
る。図10の例の場合では、「銀行犯罪」というキーワ
ードに対して、例えば、拡張キーワードとして「罪」が
得られるとする。
【0051】上記ステップで取得できた概念1つ1つに
対して得点をチェックし、予め設定したしきい値を越え
るかどうかを調査する(ステップS46)。そして、し
きい値を越えない概念を拡張キーワードとして採用する
(ステップS47)。
【0052】そして、すべての拡張キーワードに関して
上記のチェックを行い、すべての概念に対して終了させ
る。そして終了していなければ、次の拡張キーワードの
チェックを行う(ステップS47)。
【0053】このようにして獲得できた拡張キーワード
の得点を比較して、得点が高いものは検索に有効である
ということから、拡張キーワードに対して検索の優先順
位を付与する(キーワード優先順位付与部4、ステップ
S48)。
【0054】図10の例では、拡張キーワードとして
「銀行犯罪」、「罪」、「失敗」、「人」の順で得られ
る。
【0055】こうして優先順位を付与された拡張キーワ
ードを用いて検索対象データベース9に対して検索を実
行する(検索実行部5、ステップS49)。もしも検索
成功文書が0件の場合(ステップS50)は、しきい値
を増加させてステップS43に戻り、拡張キーワードを
増やして再検索する(ステップS53)。
【0056】ステップS49,S50で得られた文書に
対して、検索の精度を付与する(文書得点化部6、ステ
ップS51)。検索対象の文書の集合を
【数7】 とする。さらに、拡張キーワードの集合をK={N∋
i,iは拡張キーワードの個数|ki }、拡張キーワー
ドが持つ得点をS(ki )とする。任意のキーワードk
i に対して、ある検索対象文書の中の単語がマッチング
した回数をfreq(ki )、さらにそのキーワードに
よる検索でマッチする単語を含む検索対象文書の数をf
req(success(ki ))とした時、文書T
(x)検索の精度I(T(x))を以下の式で定義する。
【0057】
【数8】 こうして検索対象文書すべてに対して検索の精度が付与
され、これを用いて文書順位化部7は、検索精度順に並
べて表示する(ステップS52)。
【0058】上述したように、本発明の文書検索装置で
は、入力された検索キーワードを自動的に拡張して、検
索の失敗に対処しているが、従来手法では拡張の際に利
用していた概念辞書が固定されているかあるいは分野情
報を用いて学習する際に学習元となる情報が単純なルー
ルに基づいているために、本当にその情報を反映した拡
張キーワードが生成できなかった。本発明の文書検索装
置では、学習用に文章の意味的な情報を備えたコーパス
を利用し、これを用いて概念辞書内の概念間に対して、
意味的な近さを統計的に数値情報として与え、これを用
いて入力された検索キーワードに対して意味的に近いも
のを拡張キーワードとして追加し検索対象文書を検索す
ることで、より正確に該当文書を検索できるようにな
る。
【0059】
【発明の効果】以上説明したように、本発明によれば、
検索対象の分野に関係する文章を用いて概念辞書を学習
させ、概念間の類似度を得点付けし、この得点を反映さ
せて文書のキーワードとなる語句を選択するので、固定
されたシソーラスにおける語句の上位・下位関係を用い
て検索キーワードを拡張する手法の問題点であるキーワ
ードの拡張での失敗に対しては、シソーラスに相当する
概念辞書内の概念間に新たな関係を付与することで検索
キーワードの拡張時の洩れは少なくなる。また、語句の
ネットワークモデルを用いた検索キーワードの拡張手法
の問題点であるネットワーク中の概念間の関係の度合の
正確さに関しても、学習元であるコーパス自体の意味的
な情報関係を利用して概念間に関係を付与するために、
より正確で詳細な情報が語句のネットワークモデルに追
加できるようになる。従って、本発明による文書検索装
置は、従来手法と比較して検索時の洩れがなくなるとい
う利点がある。
【図面の簡単な説明】
【図1】本発明の一実施例に係る文書検索装置の基本構
成を示すブロック図である。
【図2】図1に示す文書検索装置で使用されている概念
ネットワーク作成部の基本構成を示すブロック図であ
る。
【図3】図1に示す文書検索装置の概念ネットワーク作
成時の処理の流れを示すフローチャートである。
【図4】図1に示す文書検索装置の検索実行時の処理の
流れを示すフローチャートである。
【図5】コーパスのフォーマットの例を示す図である。
【図6】コーパスの例を示す図である。
【図7】概念辞書のフォーマットと概念辞書の例を示す
図である。
【図8】共起情報の数値化の例を示す図である。
【図9】概念辞書の例を示す図である。
【図10】概念ネットワークの例を示す図である。
【符号の説明】
1 検索キーワード入力部 2 概念ネットワークマッチング部 3 キーワード拡張部 4 キーワード優先順位付与部 5 検索実行部 6 文書得点部 7 文書順位化部 8 概念ネットワーク 9 検索対象データベース 91 概念ネットワーク作成部 93 検索結果出力部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力キーワードから蓄積された文章を検
    索する文書検索装置であって、 概念間の関係に対して、各々の意味的な関連の度合を得
    点化して保持する概念ネットワークと、 該概念ネットワークを作成する概念ネットワーク作成部
    と、 検索対象とする文書を蓄積する検索対象データベース
    と、 検索キーワードを入力する検索キーワード入力部と、 上記検索キーワード入力部から入力された検索キーワー
    ドに対して前記概念ネットワーク内での位置を確定する
    概念ネットワークマッチング部と、 上記概念ネットワークマッチング部により確定された語
    句から関連付けられている語句を検索し、予め決められ
    たしきい値を越えない範囲で追加キーワードとして採用
    するキーワード拡張部と、 上記キーワード拡張部により拡張されたキーワードに対
    して、概念ネットワーク内に蓄積された関連度の大小に
    よりキーワードの優先順位を付与するキーワード優先順
    位付与部と、 上記キーワード優先順位付与部により優先度を付与され
    たキーワードを用いて検索対象文書を検索し、各キーワ
    ード毎に検索対象文書内の単語と一致する回数を算出す
    る検索実行部と、 上記検索実行部により算出されたキーワードの一致回数
    を基に、各々の拡張されたキーワードが検索対象文書中
    に現れる頻度に比例し、そのキーワードを含む文書数に
    反比例するように文書を得点化する文書得点化部と、 上記文書得点化部によって各キーワードに関して得点化
    された文書を全キーワードの優先順位に基づき集計した
    上でキーワードの精度を順位化する文書順位化部と、 検索結果を出力する検索結果出力部とを有することを特
    徴とする文書検索装置。
  2. 【請求項2】 前記概念ネットワーク作成部は、 予め格解析されたコーパスと、 文の文法情報、意味情報、および品詞情報の語句の基本
    的な情報を蓄積する単語辞書と、 語句間の概念間の関係を記述した語句の概念辞書と、 上記コーパスから一文に当たるブロックを読み出すコー
    パス読み出し部と、 上記コーパス読み出し部で読み込んだ1ブロックから、
    動詞句、その動作格、および対象格に相当する名詞句を
    抽出する格抽出部と、 上記格抽出部により抽出された動詞句に対しては、修飾
    部分を取り除いた後で原型にし、名詞句に対しては代名
    詞、固有名詞、連体修飾部分、並列部分、および名詞の
    前後に付属し特定の意味を表す機能語を除去する語句正
    規化部と、 上記語句正規化部により正規化した動詞毎に、動作格お
    よび対象格となる名詞を分類し、この分類した各名詞に
    対して、動詞の出現頻度と各々の名詞の出現頻度に比例
    するように各名詞に対して得点を付与する名詞得点化部
    と、 上記名詞得点化部によって得点化された名詞をその得点
    および動詞と共に記憶しておく語句共起関係記憶部と、 上記語句共起関係記憶部の中の各名詞に対して予め記憶
    されている概念辞書のどの部分に当たるかを検知する概
    念辞書マッチング部と、 上記概念辞書マッチング部によってマッチングされた名
    詞と上位および下位関係にない上記語句共起関係記憶部
    にある各名詞に対して新たに共起関係を作成する共起関
    係作成部と、 上記共起関係作成部によって作成された共起関係に対し
    ては上記語句共起関係記憶部に記憶された名詞間の相対
    的な得点を関係に付与し、概念辞書に元から存在する関
    係に対してはマッチングした名詞を基準にして上位およ
    び下位の関係が遠くなるに従って得点が相対的に低くな
    るように得点化し付与する概念間得点化部と、 上記概念間得点化部により概念間の関係の度合を付与し
    て新たに作成された情報を概念ネットワークとして記憶
    する概念ネットワーク蓄積部とを有することを特徴とす
    る請求項1記載の文書検索装置。
JP6273437A 1994-11-08 1994-11-08 文書検索装置 Pending JPH08137898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6273437A JPH08137898A (ja) 1994-11-08 1994-11-08 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6273437A JPH08137898A (ja) 1994-11-08 1994-11-08 文書検索装置

Publications (1)

Publication Number Publication Date
JPH08137898A true JPH08137898A (ja) 1996-05-31

Family

ID=17527904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6273437A Pending JPH08137898A (ja) 1994-11-08 1994-11-08 文書検索装置

Country Status (1)

Country Link
JP (1) JPH08137898A (ja)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105577A (ja) * 1996-08-28 1998-04-24 Philips Electron Nv 情報項目選択方法および選択系
JPH11328221A (ja) * 1998-05-14 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> データ検索方法、その装置および記録媒体
US6263333B1 (en) 1998-10-22 2001-07-17 International Business Machines Corporation Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
JP2002132807A (ja) * 2000-10-26 2002-05-10 Communication Research Laboratory 階層構造データ検索システム,階層構造データ検索処理方法およびそのプログラム記録媒体
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
US6697798B2 (en) 2001-04-24 2004-02-24 Takahiro Nakamura Retrieval system of secondary data added documents in database, and program
JP2006106962A (ja) * 2004-10-01 2006-04-20 Ntt Docomo Inc インタラクション制御システムおよび端末装置並びにインタラクション制御方法
JP2006227807A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> 概念コンテンツ検索装置および方法
JP2006285418A (ja) * 2005-03-31 2006-10-19 Sony Corp 情報処理装置および方法、並びにプログラム
JP2007519069A (ja) * 2003-10-09 2007-07-12 ヤフー! インコーポレイテッド スーパーユニットを用いた検索処理のためのシステム及び方法
JP2008533596A (ja) * 2005-03-10 2008-08-21 ヤフー! インコーポレイテッド 検索結果の関連性の再ランク付けおよびその増強
JP2009038502A (ja) * 2007-07-31 2009-02-19 Toshiba Corp 情報処理装置および情報表示方法
JP2010033465A (ja) * 2008-07-30 2010-02-12 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2011008538A (ja) * 2009-06-25 2011-01-13 Fuji Xerox Co Ltd データ出力装置、表示装置及びプログラム
JP2012080790A (ja) * 2010-10-07 2012-04-26 Mega Chips Corp 育成支援システム
JP2013524382A (ja) * 2010-04-14 2013-06-17 マイクロソフト コーポレーション ユーザー行為に基づく検索広告の選択
JP2014506357A (ja) * 2011-01-05 2014-03-13 プライマル フュージョン インコーポレイテッド 1人以上のユーザに関心ある情報を提供する方法及び装置
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
CN113505196A (zh) * 2021-06-30 2021-10-15 和美(深圳)信息技术股份有限公司 基于词性的文本检索方法、装置、电子设备及存储介质
CN113569566A (zh) * 2021-07-30 2021-10-29 苏州七星天专利运营管理有限责任公司 一种词汇扩展方法和系统
JPWO2022049664A1 (ja) * 2020-09-02 2022-03-10

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007149129A (ja) * 1996-08-28 2007-06-14 Koninkl Philips Electronics Nv 情報項目選択方法および選択システム
JP4553910B2 (ja) * 1996-08-28 2010-09-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 情報処理システム内の品物の選択方法および選択システム
JPH10105577A (ja) * 1996-08-28 1998-04-24 Philips Electron Nv 情報項目選択方法および選択系
JPH11328221A (ja) * 1998-05-14 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> データ検索方法、その装置および記録媒体
US6263333B1 (en) 1998-10-22 2001-07-17 International Business Machines Corporation Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
JP2002132807A (ja) * 2000-10-26 2002-05-10 Communication Research Laboratory 階層構造データ検索システム,階層構造データ検索処理方法およびそのプログラム記録媒体
US6697798B2 (en) 2001-04-24 2004-02-24 Takahiro Nakamura Retrieval system of secondary data added documents in database, and program
JP2007519069A (ja) * 2003-10-09 2007-07-12 ヤフー! インコーポレイテッド スーパーユニットを用いた検索処理のためのシステム及び方法
JP2006106962A (ja) * 2004-10-01 2006-04-20 Ntt Docomo Inc インタラクション制御システムおよび端末装置並びにインタラクション制御方法
JP4489552B2 (ja) * 2004-10-01 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ システムおよび端末装置並び方法
JP2006227807A (ja) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> 概念コンテンツ検索装置および方法
JP2008533596A (ja) * 2005-03-10 2008-08-21 ヤフー! インコーポレイテッド 検索結果の関連性の再ランク付けおよびその増強
JP2006285418A (ja) * 2005-03-31 2006-10-19 Sony Corp 情報処理装置および方法、並びにプログラム
JP2009038502A (ja) * 2007-07-31 2009-02-19 Toshiba Corp 情報処理装置および情報表示方法
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US9792550B2 (en) 2008-05-01 2017-10-17 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
JP2010033465A (ja) * 2008-07-30 2010-02-12 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP2011008538A (ja) * 2009-06-25 2011-01-13 Fuji Xerox Co Ltd データ出力装置、表示装置及びプログラム
JP2013524382A (ja) * 2010-04-14 2013-06-17 マイクロソフト コーポレーション ユーザー行為に基づく検索広告の選択
JP2012080790A (ja) * 2010-10-07 2012-04-26 Mega Chips Corp 育成支援システム
JP2014506357A (ja) * 2011-01-05 2014-03-13 プライマル フュージョン インコーポレイテッド 1人以上のユーザに関心ある情報を提供する方法及び装置
JPWO2022049664A1 (ja) * 2020-09-02 2022-03-10
CN113505196A (zh) * 2021-06-30 2021-10-15 和美(深圳)信息技术股份有限公司 基于词性的文本检索方法、装置、电子设备及存储介质
CN113505196B (zh) * 2021-06-30 2024-01-30 和美(深圳)信息技术股份有限公司 基于词性的文本检索方法、装置、电子设备及存储介质
CN113569566A (zh) * 2021-07-30 2021-10-29 苏州七星天专利运营管理有限责任公司 一种词汇扩展方法和系统

Similar Documents

Publication Publication Date Title
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
JPH08137898A (ja) 文書検索装置
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
US7260571B2 (en) Disambiguation of term occurrences
US7870118B2 (en) Search system
KR970004100B1 (ko) 일문 문서용 키 워드 추출 장치
US9201957B2 (en) Method to build a document semantic model
US7376634B2 (en) Method and apparatus for implementing Q&amp;A function and computer-aided authoring
US20040049499A1 (en) Document retrieval system and question answering system
WO2005020091A1 (en) System and method for processing text utilizing a suite of disambiguation techniques
JPH03172966A (ja) 類似文書検索装置
JP2007323475A (ja) 自然言語における多義解消装置及びコンピュータプログラム
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN114706972A (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
CN112307364A (zh) 一种面向人物表征的新闻文本发生地抽取方法
JP3198932B2 (ja) 文書検索装置
Gopan et al. Comparative study on different approaches in keyword extraction
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
EP1503295A1 (en) Text generation method and text generation device
CN111428031A (zh) 一种融合浅层语义信息的图模型过滤方法
Fahrni et al. HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013.
KR100498574B1 (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
Wu et al. Text categorization using automatically acquired domain ontology
Roy et al. An unsupervised normalization algorithm for noisy text: a case study for information retrieval and stance detection
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置