JP3019286B2 - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JP3019286B2
JP3019286B2 JP5263472A JP26347293A JP3019286B2 JP 3019286 B2 JP3019286 B2 JP 3019286B2 JP 5263472 A JP5263472 A JP 5263472A JP 26347293 A JP26347293 A JP 26347293A JP 3019286 B2 JP3019286 B2 JP 3019286B2
Authority
JP
Japan
Prior art keywords
vector
input
input sentence
feature vector
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5263472A
Other languages
English (en)
Other versions
JPH07121549A (ja
Inventor
洋 池内
育雄 芥子
保司 小渕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP5263472A priority Critical patent/JP3019286B2/ja
Publication of JPH07121549A publication Critical patent/JPH07121549A/ja
Application granted granted Critical
Publication of JP3019286B2 publication Critical patent/JP3019286B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は電子辞書、データベー
ス等の検索機能に利用されるものである。
【0002】
【従来の技術】一般的に特徴ベクトルによる文書検索手
段は、単語辞書内の各単語、及び文章の各レコードを数
百の特徴単語でベクトルとして特徴付けしておき、下の
様なステップで文章検索を行なうものである。
【0003】ステップS21では、入力された入力文か
ら単語辞書を用いて、単語抽出を行い、ステップS22
に進む。
【0004】ステップS22では、抽出された各単語の
特徴ベクトルの和を入力文の特徴ベクトルとして生成
し、ステップS23に進む。
【0005】ステップS23では、入力文の特徴ベクト
ルと文章の各レコードの特徴ベクトルとの距離を求め、
ステップS24に進む。
【0006】ステップS24では、その距離が近いレコ
ードの文章が入力文と関連が深い文章であると判断す
る。
【0007】ここで、実際にはベクトル間の距離の計算
を簡単にするため、文章の各レコードの特徴ベクトルは
ある一定の長さで正規化されており、ベクトル間の距離
を計算する代りに、ベクトル同士の内積を計算するのが
一般的である。
【0008】一例として、数百の特徴単語で特徴空間を
構成し、全単語、文書、質問文のベクトルから距離が近
い順に文書をランク付けて検索する方法が、「大規模文
書データベースからの連想検索」として、(社)電子情
報通信学会発行の信学技報AI92−99(1993-
01)に発表されている。
【0009】なお、特徴ベクトル間の距離とは、特徴ベ
クトルをユークリッド空間内の点として捉えた時の2点
間の距離のことで、以下の式で与えられる。
【0010】特徴ベクトルX=(x1,x2,...xn)と Y=(y1,y
2,....yn)の距離dは、 d=√(Σi=1 n(xi−yi2) また、ベクトルX=(x1,x2,...x n )の長さlは、 l=√(Σi=1 ni) で与えられる。
【0011】また、ベクトルX=(x1,x2,...x n )を長さl
で正規化するとは、Xの方向を変えずに長さをlにする
ことで以下の式で与えられる。
【0012】X=(x1,x2,...x n )を長さlに正規化して得
られたベクトルをY=(y1,y2,....yn)とすると yi=yi*l/√(Σi=1 ni 2) 従って、一定の長さに正規化するとは、全てのベクトル
を同じ長さにすることである。
【0013】ベクトルX=(x1,x2,...x n )とY=(y1,y2,....
yn)の内積pは、 p=Σi=1 ni*yi で表される。
【0014】
【発明が解決しようとする課題】従来の技術では、入
文の特徴ベクトルと文章の各レコードの特徴ベクトルと
の距離を求めるために、数百次元のベクトル同士の内積
の計算を文書のレコードの数だけ実行しなければなら
ず、それが文書検索の際の負担となり、処理速度の向上
を妨げていた。
【0015】本発明は、上述の内積の計算の負担を大幅
に軽減し、文書検索の処理速度の向上を可能とするもの
である。
【0016】
【課題を解決するための手段】上記した目的は、入力文
を入力する入力手段と、前記入力手段により入力された
入力文について前記単語辞書を検索し前記入力文の特徴
ベクトルを生成するベクトル生成手段と、前記ベクトル
生成手段により生成された入力文の特徴ベクトルの各要
素を、該特徴ベクトルの最大値で割った値が所定値以上
のときには1、所定値未満のときには0に変換してか
ら、特徴ベクトルを概観するための概略ベクトル情報を
生成する概略ベクトル情報生成手段と、前記ベクトル生
成手段により生成された前記入力文の特徴ベクトルと前
記文書ファイル各々のレコードの特徴ベクトル間の距離
に基づくとともに前記入力文および前記文書ファイル双
方の概略ベクトル情報を使用して検索を行う検索手段
と、前記検索手段より出力される検索結果を出力する出
力手段と、前記入力手段、ベクトル生成手段検索手
段、概略ベクトル情報生成手段及び検索手段より出力さ
れる情報を必要に応じて記憶する記憶手段とを具備する
文書検索装置によって達成される。
【0017】
【作用】入力手段によって入力された入力文について、
ベクトル生成手段は、単語辞書を検索し前記入力文の特
徴ベクトルを生成し、特徴ベクトルの付加された入力文
を概略ベクトル情報生成手段に出力する。概略ベクトル
情報生成手段では、入力文の特徴ベクトルの各要素を、
特徴ベクトルの最大値で割った値が所定値以上のときに
は1、所定値未満のときには0に変換してから、特徴ベ
クトルを概観するための概略ベクトル情報を生成し、特
徴ベクトル及び概略ベクトル情報の付加された入力文を
検索手段へ出力する。検索手段は、入力文の特徴ベクト
ルと文書ファイル各々のレコードの特徴ベクトル間の距
離に基づき検索を行うとともに前記入力文および前記文
書ファイル双方の概略ベクトル情報を使用して検索を行
う。その結果は出力手段により、出力される。なお、記
憶手段は、前記入力手段、ベクトル生成手段検索手
段、概略ベクトル情報生成手段、検索手段より出力され
る情報を必要に応じて記憶している。
【0018】
【実施例】以下に、図面を用いて本発明による文書検索
装置の実施例を詳細に説明する。
【0019】図1は、第1の実施例の構成図を示し、入
力文を入力する手段であるキーボード等の入力手段1
と、検索処理を実行するための制御部9と、出力するた
めのディスプレイ等の出力手段8とで構成される。
【0020】制御部9は、各単語についてその特徴ベク
トルを保持する単語辞書2と、入力文について前記単語
辞書2を用いて単語抽出を行ない入力文の特徴ベクトル
を生成するベクトル生成手段3と、前記ベクトル生成手
段3より得られた入力文の特徴ベクトルから入力文の概
略ベクトル情報を生成する概略ベクトル情報生成手段4
と、文章がレコード単位に分割されており各レコードに
はその文章の正規化された特徴ベクトルおよび概略ベク
トル情報が保持されている検索対象である文書ファイル
5と、前記ベクトル生成手段3により生成された入力文
の特徴ベクトルと概略ベクトル情報生成手段4より生成
された概略ベクトル情報と文書ファイル5の各レコード
の特徴ベクトル及び概略ベクトル情報とを用いて効率的
に前記文書ファイル5から文章を検索する検索手段7
と、前記入力手段1・ベクトル生成手段3・概略ベクト
ル情報生成手段4・検索手段7からの情報を必要に応じ
て記憶しておくためのメモリ6とで構成される。
【0021】ここで、単語辞書2と文書ファイル5の構
成の一例をそれぞれ図2、図3に示す。
【0022】図2に示す様に、単語辞書2は、「愛」に
は(0,1,0,...1,1)が、「相合い傘」には(1,2,1,...0,1)
というように、単語各々に特徴ベクトルが割り当てら
れ、格納されている。
【0023】また、図3に示す様に、文書ファイル5に
は、実際の文章であるレコード1に対応した特徴ベクト
ルと概略ベクトル情報が、またレコード2に対応した特
徴ベクトルと概略ベクトル情報と言うようにそれぞれの
レコードに対応した特徴ベクトルと概略ベクトル情報と
が格納されている。
【0024】図4は、本実施例全体の動作を示すフロー
チャートである。
【0025】ステップS1では、入力文が入力手段1に
よって入力され、ステップS2に進む。
【0026】ステップS2では、ステップS1で入力さ
れた入力文から単語辞書2を参照しながらベクトル生成
手段3によって入力文の特徴ベクトルが生成され、ステ
ップS3に進む。
【0027】ステップS3では、入力文の特徴ベクトル
から概略ベクトル情報生成手段4によって概略ベクトル
情報を生成し、ステップS4に進む。
【0028】ステップS4では、入力文の特徴ベクト
ル、概略ベクトル情報を元に文書ファイル5から検索手
段7を用いて関連する文章を検索し、ステップS5に進
む。
【0029】ステップS5では、ステップS4にて検索
された文章が出力手段8により出力される。
【0030】尚、上記過程で一時記憶を必要とするもの
は、記憶手段6を使用出来るよう構成されている。
【0031】ステップS1、ステップS5についてはす
でに実現されているものであり、ステップS2は、従来
の文書検索装置で提案されているものをそのまま使用す
るものとし、以下に本実施例の特徴であるステップS
3、ステップS4について具体例を用いて詳細に説明す
る。
【0032】本実施例では、入力文の特徴ベクトルおよ
び文書の各レコードの特徴ベクトルは128次元すなわ
ち128個の特徴単語で特徴付けられ、文書の各レコー
ドの特徴ベクトルは長さ10で正規化されており、ベク
トルの各要素は0以上の整数値で表されている。
【0033】まず、本実施例で導入された概略ベクトル
情報について、図5を用いて説明する。
【0034】(F1)は特徴ベクトルで、各ai (0≦
i≦127)は0以上の整数値である。
【0035】(F2)は(F1)の各要素を0または1
で表したものであり、各bi はaiをa0 ,a1 …,a
127 の中の最大値で割った値がα以上の時には1、α未
満の時には0である。本実施例ではα=0.6に設定し
ている。
【0036】(F3)は概略ベクトル情報で、各ci
それぞれ(F2)のベクトルの8個の要素にc0 はb0
からb7 まで、c1 はb8 からb15までというように対
応し、8個の要素の中に1つでも1があればcの値は
1、なければcの値は0となる。
【0037】(F1)から(F3)を得る手段は、計算
機を用いて簡単に実現できるものであり、概略ベクトル
生成手段4は容易に構成可能なものである。
【0038】以下、図6を用いてステップS4の具体例
について説明する。
【0039】図6に示すフローチャートは、主に検索手
段7にて行われる入力文の特徴ベクトルと文書レコード
の特徴ベクトルとの内積の大きさが上位20に入るもの
を出力するためのフローチャートである。
【0040】まず、ステップS11では、入力文の特徴
ベクトルを変数qvに代入し、ステップS12に進む。
【0041】ステップS12では、入力文の概略ベクト
ル情報を変数qvgに代入し、ステップS13に進む。
【0042】ステップS13では、第一番目の文書レコ
ードを指すように変数iを初期化し、ステップS14に
進む。
【0043】ステップS14では、変数rvgに文書レ
コードiの概略ベクトル情報を代入し、ステップS15
に進む。
【0044】ステップS15では、qvgとrvgの内
積を計算し0の時はステップS19へ、また、0でない
場合は、ステップS16へ進む。
【0045】ステップS16では、変数rvに文書レコ
ードiの特徴ベクトルを代入し、ステップS17へ進
む。
【0046】ステップS17では、qvとrvの内積を
求めfに代入し、ステップS18へ進む。
【0047】ステップS18では、(f,i)の組を記
憶手段内にあるバッファにストアし、ステップS19へ
進む。
【0048】ステップS19では、次のレコードを指す
ようiに1を加え、ステップS20へ進む。
【0049】ステップS20では、レコードの終りかど
うかの判断を行ない終りの場合にはステップS21へ進
み、そうでない場合は、ステップS14へ戻る。
【0050】ステップS21では、バッファ内の(f,
i)の組からfの大きいもの上位20を取り出す。
【0051】ステップS21での上位20を取り出す方
法については、従来様々なアルゴリズムが提案されてお
り、実現は容易である。
【0052】上述の方法で、従来までの単純に内積を計
算する方法に比べ検索の精度がほとんど変わらずに処理
速度が向上される理由を以下に説明する。
【0053】まず、各レコードの特徴ベクトルは128
次元のデータで、長さが10に正規化されており、実際
には128個の要素のほとんどが0である。
【0054】また、実際に内積の値に本質的な影響を持
つ特徴ベクトルの要素は、その最大要素に近い値を持つ
要素のみであるため、図3の(F1)を(F2)に構成
し直してもかまわない。
【0055】(F2)においてもまだ0が多いため、8
個ずつ要素をまとめて(F3)を構成することにより冗
長な0をまとめることが出来る。
【0056】入力文の概略ベクトル情報と各レコードの
概略ベクトル情報との内積はほとんどのものは0とな
り、本実施例ではそれらの実際の特徴ベクトル同士の内
積演算を省略することにより処理速度の向上を計ってい
る。
【0057】実際概略ベクトル情報同志の内積が0のも
のは、上記理由により実際の特徴ベクトル同士の内積の
値は小さいのでその内積の計算を省略しても検索の精度
が落ちることはほとんどない。
【0058】更に概略ベクトル情報は16個の0または
1の要素で表されているため、16ビットのデータとし
て表現できるものであるため、概略ベクトル情報同志の
内積が0になるかどうかの判断は実際の計算機上では1
6ビットのデータ同士の「and」演算で実現できる。
従って、それによりさらに処理速度の向上が計れる。
【0059】本実施例では128次元の0以上の整数値
を持つ特徴ベクトルを長さ10に正規化し、また概略ベ
クトル情報を16次元データとした時の例を挙げたが本
発明による効果はその場合だけに限定されるものではな
い。
【0060】上述の説明から明らかなように、従来の概
略ベクトル情報を持たず特徴ベクトルのみを持つ文書を
概略ベクトル情報を持つ文書に置き換えることは、概略
ベクトル生成手段4を文書の各レコードの特徴ベクトル
を元に概略ベクトルを生成するよう構成し直すことで達
っせられる。
【0061】
【発明の効果】上記した様に、本発明では特徴ベクトル
同士の内積を計算する際にその値が小さいもの、言い替
えれば、入力文との関連性が小さいものを概略ベクトル
情報から見つけ出し、そのものについては、その実際の
内積の計算を省略しようというものであり、それにより
文書検索の処理速度の大幅な高速化を可能とするもので
ある。
【図面の簡単な説明】
【図1】本発明による文書検索装置の一実施例の構成図
である。
【図2】本実施例において用いられる単語辞書の一例を
示す。
【図3】本実施例において用いられる文書ファイルの一
例を示す。
【図4】本実施例全体のフローチャートである。
【図5】本実施例において用いられる概略ベクトル情報
を説明するために用いる図である。
【図6】本実施例の文書検索部分の動作を説明するため
のフローチャートである。
【符号の説明】
1 入力手段 2 単語辞書 3 ベクトル生成手段 4 概略ベクトル情報生成手段 5 検索対象となる文書 6 記憶手段 7 検索手段 8 出力手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−159222(JP,A) 特開 平5−225248(JP,A) 特開 平2−247778(JP,A) 大規模文書データベースからの連想検 索,信学技報AI92−99,1993 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 各々の単語に対して特徴ベクトルを保持
    する単語辞書と複数のレコードに分割され各々のレコー
    ドに対し特徴ベクトルを保持する文書ファイルとを備え
    ており単語または文章からなる入力文を扱う文書検索装
    置であって、 入力文を入力する入力手段と、 前記入力手段により入力された入力文について前記単語
    辞書を検索し前記入力文の特徴ベクトルを生成するベク
    トル生成手段と、 前記ベクトル生成手段により生成された入力文の特徴ベ
    クトルの各要素を、該特徴ベクトルの最大値で割った値
    が所定値以上のときには1、所定値未満のときには0に
    変換してから、特徴ベクトルを概観するための概略ベク
    トル情報を生成する概略ベクトル情報生成手段と、 前記ベクトル生成手段により生成された前記入力文の特
    徴ベクトルと前記文書ファイル各々のレコードの特徴ベ
    クトル間の距離に基づき検索を行うとともに前記入力文
    および前記文書ファイル双方の概略ベクトル情報を使用
    して検索を行う検索手段と、 前記検索手段より出力される検索結果を出力する出力手
    段と、 前記入力手段、ベクトル生成手段、検索手段、概略ベク
    トル情報生成手段及び検索手段より出力される情報を必
    要に応じて記憶する記憶手段とを具備することを特徴と
    する文書検索装置。
JP5263472A 1993-10-21 1993-10-21 文書検索装置 Expired - Fee Related JP3019286B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5263472A JP3019286B2 (ja) 1993-10-21 1993-10-21 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5263472A JP3019286B2 (ja) 1993-10-21 1993-10-21 文書検索装置

Publications (2)

Publication Number Publication Date
JPH07121549A JPH07121549A (ja) 1995-05-12
JP3019286B2 true JP3019286B2 (ja) 2000-03-13

Family

ID=17389991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5263472A Expired - Fee Related JP3019286B2 (ja) 1993-10-21 1993-10-21 文書検索装置

Country Status (1)

Country Link
JP (1) JP3019286B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100685023B1 (ko) * 2001-11-13 2007-02-20 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
JP5164876B2 (ja) * 2009-02-12 2013-03-21 日本電信電話株式会社 代表語抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP7013957B2 (ja) * 2018-03-12 2022-02-01 富士通株式会社 生成プログラム、生成方法、情報処理装置および情報処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大規模文書データベースからの連想検索,信学技報AI92−99,1993

Also Published As

Publication number Publication date
JPH07121549A (ja) 1995-05-12

Similar Documents

Publication Publication Date Title
US5450580A (en) Data base retrieval system utilizing stored vicinity feature valves
JP3195752B2 (ja) 検索装置
JP2742115B2 (ja) 類似文書検索装置
JP2741575B2 (ja) 文字認識文字補完方法及びコンピュータ・システム
CN111324750B (zh) 一种大规模文本相似度计算及文本查重方法
JPH06309362A (ja) 情報検索方法
KR100240243B1 (ko) 데이터 검색장치
JP3024045B2 (ja) 自然言語に基づくデータ検索装置
KR100495593B1 (ko) 파일 처리 방법, 데이터 처리 장치, 및 기억 매체
JP3258063B2 (ja) データベース検索システム及び方法
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
JP3019286B2 (ja) 文書検索装置
JP3123836B2 (ja) テキスト型データベース装置
US6338060B1 (en) Data processing apparatus and method for outputting data on the basis of similarity
CN114003685B (zh) 分词位置索引构建方法及其装置、文档检索方法及其装置
JP3418876B2 (ja) データ・ベース検索装置および方法
JP2817103B2 (ja) データ検索装置及びデータ検索方法
JP3162907B2 (ja) 文書データ検索装置
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
EP1076305A1 (en) A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
JP3288063B2 (ja) 可変長データの格納および参照システム
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
JP2993539B2 (ja) データベース検索システムおよびその方法
JP2018180866A (ja) 判別方法、判別プログラム及び判別装置
JP3006526B2 (ja) 類似文書検索方法および類似文書検索装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees