JPH10207911A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH10207911A
JPH10207911A JP9166100A JP16610097A JPH10207911A JP H10207911 A JPH10207911 A JP H10207911A JP 9166100 A JP9166100 A JP 9166100A JP 16610097 A JP16610097 A JP 16610097A JP H10207911 A JPH10207911 A JP H10207911A
Authority
JP
Japan
Prior art keywords
vector
unit
document
search
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9166100A
Other languages
English (en)
Other versions
JP3598742B2 (ja
Inventor
Kenichi Numata
賢一 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP16610097A priority Critical patent/JP3598742B2/ja
Priority to US08/975,468 priority patent/US5943669A/en
Publication of JPH10207911A publication Critical patent/JPH10207911A/ja
Application granted granted Critical
Publication of JP3598742B2 publication Critical patent/JP3598742B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書内の文脈情報を考慮した上で、必要な箇
所の検索を行う。 【解決手段】 分類単位指定部2は、分類単位の指定を
行う。論理構造解析部3は、文書を蓄積している文書蓄
積部1から読み込んだ文書の論理構造を解析する。基本
ベクトル生成部4は、文書の論理構造を分類単位で分割
してキーワードを抽出し、基本ベクトルを生成する。見
出しベクトル生成部5は、基本ベクトル生成の対象とな
った分類単位よりも上位に配置されている構成要素の見
出しからキーワードを抽出し、見出しベクトルを生成す
る。ベクトル合成部6は、基本ベクトルと見出しベクト
ルとを合成して、合成ベクトルを生成する。合成ベクト
ル保持部7は、合成ベクトル生成の対象となった分類単
位と合成ベクトルとを対応付けて保持する。分類部8
は、保持された合成ベクトルの類似度に基づいて、文書
の構成要素を分類単位毎に分類する。表示部10は、分
類の結果を表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書検索装置に関
し、特にある構成要素が他の構成要素を含んでいくよう
な木構造の構造を持った文書群を検索し、構成要素毎に
分類して表示する文書検索装置に関する。
【0002】
【従来の技術】通常、文書の特徴を捉えるためには、文
書内容からキーワードを抽出する方法が一般的である。
キーワードは、形態素解析や、予め用意された単語リス
トとの照合等によって抽出される。
【0003】抽出されたキーワードを利用して、文書の
検索を自動的に行うシステムも考えられている。キーワ
ードを利用して文書自動検索システムを構成する場合に
は、ベクトル空間モデルと呼ばれる手法を利用すること
がある。この手法では、文書と文書検索の問合せ(以
下、単に問合せという)とをキーワードの重みを要素と
したベクトルで表現する。そして、文書のベクトルと問
合せのベクトルとの類似度を計算し、類似度の高い文書
から順に文書検索の結果として出力する。この際、予め
ベクトルの類似度の高い文書同士を、カテゴリーと呼ば
れる集合に分類しておき、検索速度を上げることも考え
られている。
【0004】なお、キーワードに対応する重みには、そ
のキーワードが文書中で用いられていれば正の値を、用
いられていなければ0を設定する。また重みとして設定
する値には、対応するキーワードの文書中の出現頻度T
F(Term Frequency)とカテゴリー内での分散度IDF(I
nverse Document Frequency)とを用いる場合が多い。
【0005】このような文書自動検索システムでは、抽
出されたキーワードから、文書と問合せとの類似度や文
書同士の類似度、文書とカテゴリーとの類似度等を計算
している。類似度の計算方法には、共通したキーワード
の数が多いものを類似度が高いものとする単純な方法
や、上記のベクトル空間モデルのように、キーワードの
出現頻度および分散に基づいて重み付けを行ったベクト
ルの類似度計算を行う方法など、さまざまなものがあ
る。なお、ベクトルの類似度計算の方法には、ベクトル
の内積やコサイン係数を利用する。このような文書自動
検索システムでは検索の単位を文書としているものが多
い。
【0006】しかし、検索の単位を文書とした場合、検
索結果として得られるのは文書全体であり、検索者はそ
の文書がどんなに長くとも、その全体に目を通さなけれ
ば必要な部分を見つけることはできない。また逆に、文
章中に複数の話題が展開されている場合に、そこに含ま
れる話題に関する問合せを行っても、文書全体と問合せ
との類似度が低いために、検索洩れとなることがある。
【0007】これらの問題点について、ここで具体例を
あげて説明する。図29は、自動検索の対象文書の例を
示した図である。ここでは、4つの文書301、30
2、303、304と各々の内容から抽出されたキーワ
ード集合とを共に示す。但し、ここでは説明を簡単にす
るために、実際の文書よりも出現するキーワード数を少
なくしてある。
【0008】4つの文書301、302、303、30
4は、キーワードの共有の度合に基づいて、2つのカテ
ゴリー310と320とに分類できる。カテゴリー31
0は、文書301と文書302との共通のキーワード
「情報、空間、可視化、構造、アーキテクチャ、実験」
から、おそらく「情報空間の可視化を行うシステムにつ
いて記述したもの」と推定できる。同様に、カテゴリー
320は、文書303と文書304との共通のキーワー
ド「文書、類似度、ベクトル、分類、実験、評価、適合
率」から、「文書を類似度に基づいて分類するシステム
について記述したもの」と推定できる。
【0009】図30は、図29に示した各文書を、その
段落構成と共に示したものである。各文書は複数の段落
に分かれており、各段落ごとにキーワードが抽出されて
いる。なお、図29に示した各文書に対応するキーワー
ド集合は、各文書の全段落のキーワード集合の論理和を
とったものである。
【0010】ここで、利用者が「文書検索」について興
味を持っているとする。図30に示した文書の中で「文
書検索」について述べていると思われる箇所は、文書3
02の第2段落と、文書303の第2段落である。
【0011】しかし、図29に示した分類では文書30
2と文書303とは、それぞれ別のカテゴリー310、
320に分類されている。その上、カテゴリー310の
主題は「情報空間の可視化」であり、カテゴリー320
の主題は「文書の分類」であり、どちらにも「文書検
索」との関連性はない。これでは、カテゴリー310、
320に「文書検索」について述べている文書が分類さ
れていると推測することは難しい。
【0012】つまり、検索の単位が文書である場合、文
書中に複数の話題が展開されていても、その情報が文書
全体の主題の中に埋もれてしまう。そのため、せっかく
関連性のある話題が蓄積されていても、必要なときに抽
出できないという問題が生じてしまう。
【0013】文書自動検索システムにおける上記の問題
を解決する方法として、文書を章、節、段落などの論理
的な構成要素に分割し、分割された構成要素を単位とし
て、検索を行う方法がある。
【0014】例えば、文書から章見出しと段落を抽出
し、問合せと章見出しとの類似度、および問合せと段落
の類似度を各々計算し、2つの類似度を加算して、これ
を問合せと章全体との類似度とし、類似度の高い順に章
単位で検索結果として出力する方法がある(特開平4−
84271号公報「文書内情報検索装置」)。この方法
では問合せに関連する単語が章見出しと段落との両方に
含まれている章を、一方にしか含まれない章よりも、高
い候補順位で検索できる。
【0015】
【発明が解決しようとする課題】しかし、この方法では
文書を章と段落のみからなるものと仮定しており、それ
以上の複雑な階層構造を持つ文書については、考慮され
ていない。また、各章がそれぞれ独立の情報として扱わ
れており、その章の内容が文書内に占める位置、すなわ
ち文脈については考慮されない。
【0016】図31は、表題、章、節、段落などの論理
構成要素を持つ文書の一例を示す図である。図におい
て、段落P2は、「『情報検索の技術動向』という表題
の文書中の、『自然言語処理の利用』について記述され
た章の、特に『文書構造解析』について記述された節の
中にある」という文脈(文章背景)を持っている。
【0017】しかし、上記の方法でこの段落を検索する
場合、類似度計算の対象となるのはキーワード「文、意
味、役割、検索」および3章2節の見出しから抽出され
るキーワード「文書、構造、解析」のみであって、上記
文脈は何ら考慮されない。従って、段落P2は自然言語
処理を利用した技術について述べているものとは判断さ
れず、結果として検索されないことになる。
【0018】また、文脈を考慮せずに構成要素単位でカ
テゴリーへの分類を行っても、同様の問題が生じる。図
31において段落P2の記述に基づいて、段落を単位に
分類しても、段落P2が「自然言語処理の中の文書構造
解析に関わるもの」であることは、分類の結果には反映
されない。
【0019】つまり、文書の構成要素は、それのみで必
要な情報を十分に含んでいるとは限らない。本発明はこ
のような点に鑑みてなされたものであり、文書全体の文
脈も考慮に入れた上で構成要素単位の検索を可能とする
文書検索装置を提供することを目的とする。
【0020】
【課題を解決するための手段】本発明では上記課題を解
決するために、ある構成要素が他の構成要素を含んでい
くような木構造の論理構造を持った文書群を検索し、構
成要素毎に分類して表示する文書検索装置において、前
記文書を蓄積する文書蓄積手段と、分類しようとする前
記構成要素の分類単位を指定する分類単位指定手段と、
前記文書蓄積手段から文書を読み込み、その論理構造を
解析する論理構造解析手段と、前記分類単位指定手段に
て指定された分類単位の各構成要素の内容からキーワー
ドを抽出し、基本ベクトルを生成する基本ベクトル生成
手段と、前記分類単位の構成要素よりも論理構造的に上
位に配置されているすべての構成要素の見出しからキー
ワードを抽出し、見出しベクトルを生成する見出しベク
トル生成手段と、前記基本ベクトルと前記見出しベクト
ルとを合成し、合成ベクトルを生成するベクトル合成手
段と、前記合成ベクトルを前記分類単位の構成要素と対
応付けて保持する合成ベクトル保持手段と、前記合成ベ
クトルの類似度に基づいて、前記文書の構成要素を分類
する分類手段と、前記分類手段による分類の結果を表示
する表示手段と、を有することを特徴とする文書検索装
置が提供される。
【0021】このような構成の文書検索装置で、ある構
成要素が他の構成要素を含んでいくような木構造の論理
構造を持った文書群を検索し、構成要素毎に分類して表
示する場合、文書蓄積手段が文書を蓄積する。分類単位
指定手段にて分類しようとする前記構成要素の分類単位
が指定されると、論理構造解析手段は、文書蓄積手段か
ら文書を読み込み、その論理構造を解析する。基本ベク
トル生成手段は、分類単位指定手段にて指定された分類
単位の各構成要素の内容からキーワードを抽出し、基本
ベクトルを生成する。また、見出しベクトル生成手段
は、分類単位の構成要素よりも論理構造的に上位に配置
されているすべての構成要素の見出しからキーワードを
抽出して見出しベクトルを生成する。ベクトル合成手段
は、基本ベクトルと見出しベクトルとを合成して、合成
ベクトルを生成する。合成ベクトル保持手段は、生成さ
れた合成ベクトルを、分類単位の各構成要素と対応付け
て保持する。分類手段は、合成ベクトルの類似度に基づ
いて文書の構成要素を分類する。そして、表示手段は、
分類の結果を表示する。
【0022】このように、本発明の文書検索装置では、
検索対象とする文書の分類単位毎の内容と、その分類単
位よりも上位に配置された構成要素の見出しとをキーワ
ードにて示し、それらのキーワードから生成したベクト
ルの類似度に基づいて、検索対象文書の構成要素を分類
する。従って、類似度が高く、相互に関連性のある構成
要素を文章全体の見出しの情報も生かして絞り込み、表
示させることができる。
【0023】また、本発明では上記課題を解決するため
に、ある構成要素が他の構成要素を含んでいくような木
構造の論理構造を持った文書群を構成要素毎に検索して
表示する文書検索装置において、前記文書を蓄積する文
書蓄積手段と、検索しようとする前記構成要素の検索単
位を指定する検索単位指定手段と、前記文書蓄積手段か
ら文書を読み込み、その論理構造を解析する論理構造解
析手段と、前記検索単位指定手段にて指定された検索単
位の各構成要素の内容からキーワードを抽出し、基本ベ
クトルを生成する基本ベクトル生成手段と、前記検索単
位の構成要素よりも論理構造的に上位に配置されている
すべての構成要素の見出しからキーワードを抽出し、見
出しベクトルを生成する見出しベクトル生成手段と、前
記基本ベクトルと前記見出しベクトルとを合成し、合成
ベクトルを生成するベクトル合成手段と、前記合成ベク
トルを前記検索単位の構成要素と対応付けて保持する合
成ベクトル保持手段と、キーワード列または自然言語文
により構成される問合せを入力する問合せ入力手段と、
問合せから問合せベクトルを生成する問合せベクトル生
成手段と、前記問合せベクトルと前記合成ベクトルとの
類似度に基づいて、前記検索単位の構成要素を検索し
て、類似度の高い合成ベクトルに対応する構成要素を抽
出する検索手段と、前記検索手段による検索の結果を表
示する表示手段と、を有することを特徴とする文書検索
装置が提供される。
【0024】このような構成の文書検索装置で、ある構
成要素が他の構成要素を含んでいくような木構造の論理
構造を持った文書群を構成要素毎に検索して表示する場
合、文書蓄積手段が文書を蓄積する。検索単位指定手段
にて検索しようとする前記構成要素の検索単位が指定さ
れると、論理構造解析手段は、文書蓄積手段から文書を
読み込み、その論理構造を解析する。基本ベクトル生成
手段は、検索単位指定手段にて指定された検索単位の各
構成要素の内容からキーワードを抽出し、基本ベクトル
を生成する。見出しベクトル生成手段は、検索単位の構
成要素よりも論理構造的に上位に配置されているすべて
の構成要素の見出しからキーワードを抽出し、見出しベ
クトルを生成する。ベクトル合成手段は、基本ベクトル
と見出しベクトルとを合成し、合成ベクトルを生成す
る。合成ベクトル保持手段は、合成ベクトルを検索単位
の構成要素と対応付けて保持する。問合せ入力手段は、
キーワード列または自然言語文により構成される問合せ
を入力する。問合せベクトル生成手段は、問合せから問
合せベクトルを生成する。検索手段は、問合せベクトル
と合成ベクトルとの類似度に基づいて、検索単位の構成
要素を検索して、類似度の高い合成ベクトルに対応する
構成要素を抽出する。そして、表示手段が検索手段によ
る検索の結果を表示する。
【0025】このように、本発明の文書検索装置では、
検索対象とする文書の検索単位毎の内容と、その検索単
位よりも上位に配置された構成要素の見出しとをキーワ
ードにて示し、それらのキーワードから生成した合成ベ
クトルと、問合せから生成した問合せベクトルと、の類
似度に基づいて構成要素を検索する。従って、問合せと
同一キーワードを含む確率の高い構成要素を、文章全体
の見出しの情報も生かして検索することができる。
【0026】また、本発明では上記課題を解決するため
に、ある構成要素が他の構成要素を含んでいくような木
構造の論理構造を持った文書群を検索し、構成要素毎に
分類して表示する文書検索装置において、前記文書を蓄
積する文書蓄積手段と、分類しようとする前記構成要素
の分類単位を指定する分類単位指定手段と、前記文書蓄
積手段から文書を読み込み、その論理構造を解析する論
理構造解析手段と、前記分類単位指定手段にて指定され
た分類単位の各構成要素の内容からキーワードを抽出
し、基本ベクトルを生成する基本ベクトル生成手段と、
前記分類単位の構成要素を除くすべての構成要素の内容
からキーワードを抽出し、内容ベクトルを生成する内容
ベクトル生成手段と、前記基本ベクトルと前記内容ベク
トルとを合成し、合成ベクトルを生成するベクトル合成
手段と、前記合成ベクトルを前記分類単位の構成要素と
対応付けて保持する合成ベクトル保持手段と、前記合成
ベクトルの類似度に基づいて、前記文書の構成要素を分
類する分類手段と、前記分類手段による分類の結果を表
示する表示手段と、を有することを特徴とする文書検索
装置が提供される。
【0027】このような構成の文書検索装置で、ある構
成要素が他の構成要素を含んでいくような木構造の論理
構造を持った文書群を検索し、構成要素毎に分類して表
示する場合、文書蓄積手段が文書を蓄積する。分類単位
指定手段が、分類しようとする構成要素の分類単位を指
定すると、論理構造解析手段が、文書蓄積手段から文書
を読み込んでその論理構造を解析する。基本ベクトル生
成手段は、分類単位指定手段にて指定された分類単位の
各構成要素の内容からキーワードを抽出し、基本ベクト
ルを生成する。また、内容ベクトル生成手段は、分類単
位の構成要素を除くすべての構成要素の内容からキーワ
ードを抽出し、内容ベクトルを生成する。ベクトル合成
手段は、基本ベクトルと内容ベクトルとを合成し、合成
ベクトルを生成する。合成ベクトル保持手段は、合成ベ
クトルを分類単位の構成要素と対応付けて保持する。分
類手段は、合成ベクトルの類似度に基づいて、文書の構
成要素を分類する。そして表示手段が、分類手段による
分類の結果を表示する。
【0028】このように、本発明の文書検索装置では、
検索対象とする文書の分類単位毎の内容と、その分類単
位以外のすべての構成要素の内容とをキーワードにて示
し、それらのキーワードから生成したベクトルの類似度
に基づいて検索対象文書の構成要素を分類する。従っ
て、類似度が高く、相互に関連性のある構成要素を文章
全体の内容の情報も生かして絞り込み、表示させること
ができる。
【0029】また、本発明では上記課題を解決するため
に、ある構成要素が他の構成要素を含んでいくような木
構造の論理構造を持った文書群を、構成要素毎に検索し
て表示する文書検索装置において、前記文書を蓄積する
文書蓄積手段と、検索しようとする前記構成要素の検索
単位を指定する検索単位指定手段と、前記文書蓄積手段
から文書を読み込み、その論理構造を解析する論理構造
解析手段と、前記検索単位指定手段にて指定された検索
単位の各構成要素の内容からキーワードを抽出し、基本
ベクトルを生成する基本ベクトル生成手段と、前記検索
単位の構成要素を除くすべての構成要素の内容からキー
ワードを抽出し、内容ベクトルを生成する内容ベクトル
生成手段と、前記基本ベクトルと前記内容ベクトルとを
合成し、合成ベクトルを生成するベクトル合成手段と、
前記合成ベクトルを前記検索単位の構成要素と対応付け
て保持する合成ベクトル保持手段と、キーワード列また
は自然言語文により構成される問合せを入力する問合せ
入力手段と、問合せから問合せベクトルを生成する問合
せベクトル生成手段と、前記問合せベクトルと前記合成
ベクトルとの類似度に基づいて、前記検索単位の構成要
素を検索して、類似度の高い合成ベクトルに対応する構
成要素を抽出する検索手段と、前記検索手段による検索
の結果を表示する表示手段と、を有することを特徴とす
る文書検索装置が提供される。
【0030】このような構成の文書検索装置で、ある構
成要素が他の構成要素を含んでいくような木構造の論理
構造を持った文書群を、構成要素毎に検索して表示する
場合、文書蓄積手段が文書を蓄積する。検索単位指定手
段が、検索しようとする構成要素の検索単位を指定する
と、論理構造解析手段が文書蓄積手段から文書を読み込
み、その論理構造を解析する。基本ベクトル生成手段
は、検索単位指定手段にて指定された検索単位の各構成
要素の内容からキーワードを抽出し、基本ベクトルを生
成する。内容ベクトル生成手段は、検索単位の構成要素
を除くすべての構成要素の内容からキーワードを抽出
し、内容ベクトルを生成する。ベクトル合成手段は、基
本ベクトルと内容ベクトルとを合成する。問合せ入力手
段は、キーワード列または自然言語文により構成される
問合せを入力する。問合せベクトル生成手段は、問合せ
から問合せベクトルを生成する。検索手段は、問合せベ
クトルと合成ベクトルとの類似度に基づいて、検索単位
の構成要素を検索して、類似度の高い合成ベクトルに対
応する構成要素を抽出する。そして、表示手段が、検索
手段による検索の結果を表示する。
【0031】このように、本発明の文書検索装置では、
検索対象とする文書の検索単位毎の内容と、その検索単
位以外の内容とをキーワードにて示し、それらのキーワ
ードから生成した合成ベクトルと、問合せから生成した
問合せベクトルと、の類似度に基づいて構成要素を検索
する。従って、問合せと同一キーワードを含む確率の高
い構成要素を、文書全体の内容の情報も生かして検索す
ることができる。
【0032】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の文書検索装置の
第1の実施の形態の原理構成を示した図である。
【0033】文書検索装置の第1の実施の形態は、文書
蓄積部1と、分類単位指定部2と、論理構造解析部3
と、基本ベクトル生成部4と、見出しベクトル生成部5
と、ベクトル合成部6と、合成ベクトル保持部7と、分
類部8と、分類結果保持部9と、表示部10と、再分類
指示部11と、検索文書抽出部12と、から構成されて
いる。また、検索文書抽出部12は、表示要素選択部1
2aと、表示範囲選択部12bと、表示文書抽出部12
cと、から構成されている。
【0034】文書蓄積部1は、検索の母集合となる文書
群を蓄積している。ここではその蓄積の形態は特に限定
しない。分類単位指定部2は、分類単位を「文書」にす
るか、「章」にするか、「節」にするか、「段落」にす
るか等の指定を行う。論理構造解析部3は、文書蓄積部
1から文書を読み込み、読み込んだ文書の論理構造を解
析する。基本ベクトル生成部4は、論理構造解析部3に
て解析された文書の論理構造を、分類単位指定部2にて
指定された分類単位で分割して各分類単位毎にキーワー
ドを抽出し、このキーワードに基づいて基本ベクトルを
生成する。
【0035】見出しベクトル生成部5は、論理構造解析
部3にて解析された文書の論理構造において、基本ベク
トル生成部4にて基本ベクトル生成の対象となった分類
単位の構成要素よりも上位に配置されている全構成要素
の見出しからキーワードを抽出し、このキーワードに基
づいて見出しベクトルを生成する。なお、この見出しベ
クトル生成については、後に例を挙げて説明する。
【0036】ベクトル合成部6は、基本ベクトル生成部
4にて生成された基本ベクトルと、見出しベクトル生成
部5にて生成された見出しベクトルとを合成して、合成
ベクトルを生成する。合成ベクトル保持部7は、基本ベ
クトル生成部4にて基本ベクトル生成の対象となった分
類単位の構成要素と、ベクトル合成部5にて生成された
合成ベクトルとを、対応付けて保持する。
【0037】分類部8は、合成ベクトル保持部7に保持
された合成ベクトルの類似度に基づいて、検索の母集合
となる文書を1つ以上のカテゴリーに分類する。この分
類は、分類単位指定部2にて指定された単位毎に行われ
る。分類結果保持部9は、分類部8にて行われた分類の
結果を保持する。表示部10は、分類部8にて行われた
分類の結果、すなわち、1つ以上のカテゴリーと、各カ
テゴリーに含まれる分類単位に分割された文書とを表示
する。再分類指示部11は、分類部8にて行われた分類
結果から、再分類の必要なカテゴリーを選択し、再分類
を指示する。
【0038】検索文書抽出部12は、分類部8にて分類
されたカテゴリーから、必要なものを選択し、表示部1
0に表示させる。すなわち、表示要素選択部12aが、
表示部10にて通常表示されるカテゴリーおよび各カテ
ゴリーに含まれる分類単位に分割された文書から、抽出
表示の対象とする要素を選択する。表示範囲選択部12
bが、抽出表示の範囲を選択する。そして、表示文書抽
出部12cが、表示範囲選択部12bにて選択された抽
出表示範囲の文書を、文書蓄積部1から抽出し、表示部
10に表示させる。
【0039】次に、このような構成の文書検索装置の第
1の実施の形態における文書検索の手順を説明する。図
2は、文書検索装置の第1の実施の形態における文書検
索の全体手順を示すフローチャートである。
【0040】本発明の文書検索装置の第1の実施の形態
において文書検索を行う場合には、まず分類単位指定部
2にて分類単位の指定が行われる(ステップS1)。次
に、論理構造解析部3が文書蓄積部1から検索対象であ
る文書を1つ読み込み(ステップS2)、読み込んだ文
書の論理構造を解析する(ステップS3)。基本ベクト
ル生成部4は、論理構造解析部3にて解析された論理構
造の分類単位の構成要素毎に、基本ベクトルを生成する
(ステップS4)。また、見出しベクトル生成部5も基
本ベクトル生成部4と同様、分類単位の構成要素毎に見
出しベクトルを生成する(ステップS5)。
【0041】ベクトル合成部6は基本ベクトルと見出し
ベクトルとを合成して、合成ベクトルを生成する(ステ
ップS6)。合成ベクトル保持部7はベクトル生成の対
象となった分類単位の構成要素と合成ベクトルとを、対
応付けて保持する(ステップS7)。ここで、文書蓄積
部1に、検索対象であり、まだステップS2〜ステップ
S7の処理の対象となっていない文書が残っているか否
かが判断される(ステップS8)。そして、文書が残っ
ていればステップS2に再度進み、文書が残っていなけ
ればステップS9に進む。文書が残っていないというこ
とは、検索対象である文書すべてに関して、ベクトルが
生成されたということである。分類部8は、合成ベクト
ル保持部7に保持された合成ベクトルを読み込んで(ス
テップS9)文書を分類し、その結果を表示部10に表
示させる(ステップS10)。
【0042】次に、このフローチャートのステップS1
0にあたる分類および結果表示の処理について、順を追
って説明する。図3は、文書検索装置の第1の実施の形
態における文書の分類および結果表示の手順を示すフロ
ーチャートである。
【0043】分類部8は、図2のステップS9にて読み
込んだ各文書の分類単位の構成要素毎の合成ベクトルの
類似度に基づいて、すべての検索対象文書を1つ以上の
カテゴリーに分類する(ステップS11)。分類結果保
持部9は、ステップS11にて行われた分類の結果を保
持する(ステップS12)。また、表示部10は、ステ
ップS11にて行われた分類の結果を表示する(ステッ
プS13)。
【0044】次に、表示された分類結果から、再分類が
必要か否か判断される(ステップS14)。ここで、再
分類が必要であると判断されると、再分類指示部11に
て再分類の必要なカテゴリーの選択が行われる(ステッ
プS15)。この選択は複数であってもよく、再分類が
必要であるとされたカテゴリーに対しては、再度ステッ
プS11〜ステップS14の処理が繰り返される。
【0045】ステップS14における判断にて再分類の
必要がないと判断された場合には、抽出表示を行うか否
かの判断が行われる(ステップS16)。抽出表示を行
う場合には、表示要素選択部12aにて抽出表示の対象
となる要素が選択され(ステップS17)、表示範囲選
択部12bにて抽出表示の範囲が選択される(ステップ
S18)。そして表示文書抽出部12cにて文書蓄積部
1から抽出表示範囲の文書が抽出され(ステップS1
9)、表示部10に表示される(ステップS20)。
【0046】この時点で、抽出表示を行わなかった場合
には表示部10に分類結果が表示される。また、抽出表
示を行った場合には、表示部10に抽出文書が表示され
る。そして、いずれにしても、表示部10の表示から、
この文書検索処理を終了するか否かが判断され(ステッ
プS21)、終了しない場合は、再度ステップS13以
降の処理へ進む。
【0047】ここで、本発明の文書検索装置の第1の実
施の形態にて文書検索を行った場合に、どのように分類
および検索が行われるのかを、図2および図3のフロー
チャートに沿って具体的な例を挙げて説明する。
【0048】図4は、図1に示した文書蓄積部1に蓄積
される文書の一例を示す図である。図に示した文書10
0は、「情報検索の技術動向」という表題を持つ文書で
ある。この「文書」は、それぞれが「見出し」を持つ複
数の「章」から構成されており、1章の見出しは「はじ
めに」、2章の見出しは「XXX」、3章の見出しは
「自然言語処理の利用」、4章の見出しは「ZZZ」、
・・・である。また、「章」は、それぞれが「見出し」
を持つ複数の「節」から構成されている。3章1節の見
出しは「YYY」であり、3章2節の見出しは「文書構
造解析」である。そして「節」は、さらに複数の「段
落」から構成されている。3章2節の段落P1はキーワ
ード(文脈、テキスト、概念、検索)で示される内容を
持ち、段落P2はキーワード(文、意味、役割、検索)
で示される内容を持ち、段落P3はキーワード(検索、
精度、統計、情報)で示される内容を持っている。
【0049】分類単位指定部2にて分類単位を「段落」
とし(図2のステップS1)、論理構造解析部3に図4
に示した文書100が検索対象として読み込まれると
(図2のステップS2)、文書100の論理構造が解析
され、木構造として表現される(図2のステップS
3)。
【0050】図5は、図4に示した文書の論理構造を木
構造にて示した図である。ここでは、文書の構成要素を
矩形で示している。なお、図中左に記載されている構成
要素ほど、上位に配置されていることを示す。また、こ
の木構造に沿って、特定の構成要素からその上位および
下位の任意の構成要素へ到達できる。
【0051】基本ベクトル生成部4は、まず文書100
を、分類単位である「段落」毎に読み込み、各「段落」
の内容からキーワードを抽出する。この抽出には、形態
素解析を利用して構成要素内の文章からキーワードとな
る単語を抽出する方法や、予めキーワードの候補となる
単語リストを用意しておき、構成要素内の文章に含まれ
た単語を照合して、一致した単語をキーワードとして抽
出する方法等、様々な方法が考えられる。なお、本発明
の文書検索におけるキーワードの抽出には上記のような
従来技術を利用するものとし、特に方法の限定はしな
い。
【0052】次に基本ベクトル生成部4は、次式(1)
で示される計算を行って、抽出したキーワードk個を基
に、各「段落」に対するt次元の基本ベクトルを生成す
る(図2のステップS4)。ここで次元数tは、分類に
利用するキーワードの総数である。この次元数tの算出
方法はキーワードの抽出方法によって異なり、キーワー
ドの抽出に単語リストを使用する場合には、その単語リ
ストに含まれる単語の総数がtとなる。
【0053】ある構成要素Pi の基本ベクトルApiは次
式(1)で表現される。
【0054】
【数1】 Api=(pi1,pi2,・・・,pit) ………(1) ここでpikは、構成要素Pi におけるキーワードkの値
を表わす。なお本実施の形態では、構成要素Pi 中に単
語kが出現していればpik=1、出現していなければp
ik=0とする。このキーワードkの値には、単語kの出
現頻度や分散の度合に応じて重み付けを行っても良い。
【0055】ここで、文書100に則し具体的に基本ベ
クトルの例を挙げる。単語リストとして「情報、検索、
技術、動向、自然、言語、処理、利用、文書、構造、解
析、役割、文、意味」を利用すると、キーワード(文
脈、テキスト、概念、検索)を含む段落P1の基本ベク
トルAP1は、次式(2)で表現される。
【0056】
【数2】 AP1=(0,1,0,0,0,0,0,0,0,0,0,0,0,0 ) ………(2) 同様に、キーワード(文、意味、役割、検索)を含む段
落P2の基本ベクトルAP2は、次式(3)で表現され
る。
【0057】
【数3】 AP2=(0,1,0,0,0,0,0,0,0,0,0,1,1,1 ) ………(3) また、キーワード(検索、精度、統計、情報)を含む段
落P3の基本ベクトルAP3は、次式(4)で、表現され
る。
【0058】
【数4】 AP3=(1,1,0,0,0,0,0,0,0,0,0,0,0,0 ) ………(4) 見出しベクトル生成部5は、論理構造解析部3において
抽出された全論理構成要素のうち、各「段落」より上位
にある全ての構成要素の「見出し」(「文書」の「表
題」、「章」の「見出し」、「節」の「見出し」)を読
み込む。そして、各「見出し」に関するt次元の見出し
ベクトルを生成する(図2のステップS5)。ここで例
えば、「文書の表題」から得られる見出しベクトルB
は、次式(5)で表現される。
【0059】
【数5】 B=(B1 ,B2 ,・・・,Bk ) ………(5) ここでBk は、「文書の表題」におけるキーワードkの
値を表わす。また、「章の見出し」から得られる見出し
ベクトルCは、次式(6)で表現される。
【0060】
【数6】 C=(C1 ,C2 ,・・・,Ck ) ………(6) ここでCk は、「章の見出し」におけるキーワードkの
値を表わす。また同様に、「節の見出し」から得られる
見出しベクトルDは、次式(7)で表現される。
【0061】
【数7】 D=(D1 ,D2 ,・・・,Dk ) ・・・(7) ここでDk は、「節の見出し」におけるキーワードkの
値を表わす。ここでは、論理構成要素として「文書」、
「章」、「節」、「段落」のみを挙げたが、これ以外に
構成要素を持つような文書でも、式(5)〜式(7)と
同様に見出しベクトルを生成する。なお、見出しベクト
ルを求める式(5)〜式(7)は、本質的には式(1)
と同一のものである。
【0062】ここで,文書100に則し具体的に見出し
ベクトルの例を挙げると、キーワード(情報、検索、技
術、動向)を含む文書の見出しベクトルB100 は、次式
(8)で表現される。
【0063】
【数8】 B100 =(1,1,1,1,0,0,0,0,0,0,0,0,0,0 ) ………(8) 同様に、キーワード(自然、言語、処理、利用)を含む
3章の見出しベクトルC100 は次式(9)で表現され
る。
【0064】
【数9】 C100 =(0,0,0,0,1,1,1,1,0,0,0,0,0,0 ) ………(9) またキーワード(文書、構造、解析)を含む3章2節の
見出しベクトルD100は次式(10)で、表現される。
【0065】
【数10】 D100 =(0,0,0,0,0,0,0,0,1,1,1,0,0,0 ) ………(10) このようにして、分類単位の構成要素に対する基本ベク
トルおよび見出しベクトルが生成されると、ベクトル合
成部6はこれらのベクトルを合成し、合成ベクトルを生
成する(図2のステップS6)。ここで、ある章の下の
ある節の下のある段落の合成ベクトルSは、次式(1
1)で表わされる。
【0066】
【数11】 S=A+w1 D+w2 C+w3 B ………(11) ここで、式(11)において、Aは基本ベクトル、Dは
節の見出しベクトル、Cは章の見出しベクトル、Bは文
書の表題ベクトルを表わす。また、w1 、w2、w
3 は、それぞれのベクトルに対する重み付けを表わす。
【0067】重み付けには、0より大きく1以下の任意
の値をとることができる。一般に、文書が論理的な階層
構造を持つとき、上位の階層は下位の階層よりも広い概
念を表す。従って、本実施の形態では、重み付けwr
次式(12)にて算出する。
【0068】
【数12】wr =1/(r+1) ………(12) この式(12)において、rは分類単位「段落」からの
距離を表わす。すなわち、「節」、「章」、「文書」の
順に重み付けが小さくなり、節見出しの重みは1/2、
章見出しの重みは1/3、表題の重みは1/4になる。
このように下位概念に重きを置いた分類は、検索者の要
求が具体的である場合に適している。
【0069】図6は、図4に示した文書100の段落P
2に対する合成ベクトルの生成を示す表である。図にお
いて、見出しベクトルの欄に記載されている値は、既に
重み付けされた値である。ここでは、節見出しへの重み
付けを0.6、章見出しへの重み付けを0.4、表題へ
の重み付けを0.2としている。ベクトル合成部6にて
合成される段落P2に対する合成ベクトルVP2は、次式
(13)にて表わされる。
【0070】
【数13】
【0071】このようにして分類単位の構成要素に対す
る合成ベクトルが生成されると、合成ベクトル保持部7
は、分類単位の構成要素と合成ベクトルとを対応付けて
保持する(図2のステップS7)。
【0072】図7は、図4に示した文書100に関し
て、分類単位「段落」に対応する合成ベクトル保持の様
子を示した図である。なお、ここでは先に求めた段落P
2に対する合成ベクトルについてのみ具体例を示してお
く。
【0073】この時点で文書蓄積部1に検索の対象とす
べき文書がまだ残っていれば、以上と同様の処理を再度
行う(図2ステップS8の分岐にてステップS2へ進
む)が、ここでは図4に示した文書100のみを検索の
対象として説明を続ける。
【0074】検索対象である文書すべての分類単位の構
成要素に対する合成ベクトルの生成、保持が終了する
と、分類部8は合成ベクトル保持部7に保持された合成
ベクトルを、すべて読み込む(図2のステップS9)。
そして分類部8は、読み込んだ合成ベクトルの類似度に
基づいて、検索対象である文書すべてを、分類単位毎
に、1つ以上のカテゴリーに分類する(図3のステップ
S11)。
【0075】ここで、ベクトルの類似度の計算方法とし
ては、様々なものが知られている。ベクトルの内積を利
用する方法や、コサイン係数に基づく方法等、本実施の
形態では、これらの従来技術を任意に適用すればよい。
また分類の方法としては、多変量解析における種々のク
ラスタリング手法が利用できる。
【0076】分類の結果は、分類結果保持部9に保持さ
れ(図3のステップS12)、表示部10に表示される
(図3のステップS13)。ここで、図4に示した文書
100に則して、分類結果を表示する表示部10の表示
画面の一例を挙げてみる。
【0077】図8は、分類結果の表示画面の一例を示す
図である。表示画面200には、分類結果であるカテゴ
リー群の表示を行うカテゴリー表示ウィンドウ210、
再分類を指示する分類ボタン201、検索文書の抽出表
示を行う際に表示範囲の選択を行う範囲選択ボタン20
2、および検索文書の抽出表示を指示する文書取り出し
ボタン203、が設けられている。
【0078】ここで、カテゴリー表示ウィンドウ210
には、分類の結果であるカテゴリー211、212、・
・・が表示されている。各カテゴリーには、再分類を行
う際カテゴリーの選択に使用する選択用チェックボック
ス211a、212a、・・・が設けられている。ま
た、各カテゴリーには、そのカテゴリーに分類された分
類単位の構成要素を表示する要素表示欄211b、21
1c、・・・、212b、212c、・・・、・・・が
設けられている。なお、カテゴリー表示ウィンドウ21
0およびカテゴリー211、212、・・・には、必要
に応じてスクロールバーが設けられる。
【0079】要素表示欄211b、212b、・・・に
分類単位の構成要素を表示する方法には様々な方法が考
えられる。各分類単位の構成要素の先頭から一定長の文
字列を表示させる方法や、各分類単位の構成要素から抽
出されたキーワード群を表示させる方法等、分類単位の
構成要素を一意に識別する方法であれば、どのような方
法でもよい。なお、図に示した表示画面200では、各
分類単位の構成要素の先頭から一定長の文字列を表示さ
せる方法を示している。また、表示画面200の範囲選
択ボタン202は「文書」、「章」、「節」、「段落」
から範囲を選択できるように構成されているが、さらに
複雑な論理構成を持つ文書を検索対象とする場合には、
その構成に基づいて範囲を選択できるように構成され
る。
【0080】このように表示された分類の結果から、カ
テゴリーの再分類が必要か否か判断される(図3のステ
ップS14)。分類が必要と判断された場合には、分類
結果として得られたカテゴリー群から再分類の対象とす
べき1つ以上のカテゴリーが選択される(図3のステッ
プS15)。
【0081】ここで、図8に示した表示画面にて再分類
を指示する方法を説明する。図9は、図8に示した表示
画面において、再分類を指示する様子を示した図であ
る。
【0082】カテゴリーの選択は、選択用チェックボッ
クス211a、212a、・・・をマウス等のポインテ
ィングデバイスで選択することによって行われる。図
は、選択用チェックボックス211aが選択された様子
を示しており、選択用チェックボックス211aには選
択されたことを示すチェックが入っている。この状態
で、再分類を指示する分類ボタン201をマウス等のポ
インティングデバイスにて選択すると、カテゴリー21
1を対象に再度分類部8による分類が行われて、更に1
つ以上のカテゴリーに分類される。この分類の結果は分
類結果保持部9に保持され、表示部10に表示される。
【0083】本実施の形態の文書検索装置では、表示さ
れた分類結果に再分類が必要でない時や、再分類が必要
か否かを表示画面からだけでは判断できない時には、分
類単位の構成要素を抽出して表示させることができる
(図3のステップS16)。抽出表示を行う場合には、
まず抽出表示をさせたい分類単位の構成要素を表示要素
として選択し(図3のステップS17)、次に抽出表示
をさせたい範囲を選択する(図3のステップS18)。
【0084】図10は、図8に示した表示画面におい
て、抽出表示を指示する様子を示した図である。表示要
素および表示範囲の選択は、マウス等のポインティング
デバイスにて行う。図は、表示要素として要素表示欄2
11bが選択され、表示範囲として範囲選択ボタン20
2の「節」が選択され、選択された2箇所が反転等によ
り確認できるようになっている様子を示している。つま
り、表示画面200のカテゴリー表示ウィンドウ210
に示された、要素表示欄211b、211c、・・・、
212b、212c、・・・、・・・は、図1に示した
表示要素選択部12aに対応している。同様に、表示画
面200の範囲選択ボタン202は、図1に示した表示
範囲選択部12bに対応している。また、取り出しボタ
ン203は、図1に示した表示文書抽出部12cに対応
している。従って、この状態で取り出しボタン203が
マウス等のポインティングデバイスにて選択されると、
文書蓄積部1に蓄積された文書から、選択範囲および選
択要素が抽出される(図3のステップS19)。そして
抽出された文書は、表示部10に表示される(図3のス
テップS20)。
【0085】図11は、抽出文書の表示画面の一例であ
る。表示画面220には、選択された表示範囲の構成要
素名を表示する範囲名表示欄221と、選択され、抽出
された表示範囲の文書を表示する範囲内容表示欄222
と、選択要素を拡大表示する抽出要素表示欄223とが
設けられている。ここでは、図10に示した抽出表示の
指示通りに、図4に示した文書100の、3章2節の段
落P2を抽出要素として、また、この段落P2を含む節
を抽出範囲として、表示している。なお、表示画面22
0には、必要に応じてスクロールバーが設けられる。
【0086】文書の抽出表示をしてみて、さらに分類が
必要であると判断されれば、処理は再び分類部8による
文書の分類へ進み、その必要がなければ、この文書検索
処理は終了である(図3のステップS21)。
【0087】このように、本発明の文書検索装置の第1
の実施の形態では、蓄積された文書を任意の分類単位で
分割し、その際、分類単位の上位に位置する構成要素の
見出しをも考慮に入れた上で、類似度の高いもの同士で
分類し、カテゴリーを生成して必要な話題を含む分類単
位の構成要素のみを絞り込む。その後、必要に応じて詳
細な内容を表示させることができるため、多量の文書や
巨大な文書から、必要な話題のみを簡単に抽出すること
が可能である。図11では抽出要素を拡大表示させた
が、単に矩形で囲んだり、下線を引いたり、といった方
法で表示範囲との区別がつくようにしてもよい。
【0088】次に、本発明の文書検索装置の第2の実施
の形態について説明する。第2の実施の形態では、第1
の実施の形態で示した文書検索装置にて階層的な論理構
造の明示されていない文書を対象とした文書検索を行
う。この実施の形態の装置構成は図1に示した第1の実
施の形態の装置構成と同一である。また、文書検索処理
は図2及び図3に示したフローチャートと同様の処理手
順にて実現される。
【0089】具体的な文書群として、例えば、WWW(W
orld Wide Web)で公開されているHTML(Hyper Text
Markup Language)文書を文書蓄積部1に格納して、分類
および検索の対象とすることができる。HTMLは、構
造化文書の国際規格であるSGML(Standard Generali
zed Markup Language; ISO8879) の応用のひとつであ
り、文書タイプ定義DTD(Document Type Definition)
によって、文書構造が規定されている。
【0090】HTMLのDTDは階層的な論理構造を明
示的に規定できるものではないが、本実施の形態では見
出しの大きさを疑似的に階層の深さとみなすことによ
り、階層的な論理構造を持つものとして解析する。ま
た、文書中に出現する章番号、節番号により、階層的な
構造を取り出すことができる。
【0091】ここで、本発明の第2の実施の形態の文書
検索装置にて、HTML文書を分類する場合の処理につ
いて具体例をあげて説明する。なお、説明に必要な文書
検索装置の構成要素及び文書検索処理のステップ等は、
第1の実施の形態の説明に使用した図1〜図3の符号を
流用する。
【0092】図12は、図1に示した文書蓄積部1に蓄
積されるHTML文書の一例を示す図である。図に示し
た文書110において、文書中の各要素は、その開始を
示すタグと終了を示すタグによって囲まれている。ある
要素Aについて、開始タグは<A>、終了タグは</A
>で示される。従って、文書110はまず、文書の開始
を示すタグ<HTML>と、文書の終了を示すタグ</
HTML>によって囲まれている。
【0093】また、文書110はヘッダ要素(HEA
D)と本体要素(BODY)からなり、ヘッダ要素は表
題要素(TITLE)を包含している。そして、本体要
素は、見出し要素(H2およびH3)と段落要素(P)
の並びを包含している。なお、HTMLのDTDでは見
出し要素としてH1〜H6の6種類が規定されており、
H1が最も重要度の高い見出しとして、H6が最も重要
度の低い見出しとして規定される。
【0094】一般的に階層的な見出しを構成する場合、
重要度の高い見出しほど上位階層の見出しとして記述さ
れる。従って、ここでは、要素H2を章見出し、要素H
3を節見出しとして論理構造を解析する。また、見出し
とともに記述される章番号や節番号から論理構造を解析
する。
【0095】分類単位指定部2にて分類単位を「段落」
とし( 図2のステップS1)、論理構造解析部3に図1
2に示した文書110が読み込まれると( 図2のステッ
プS2)、文書の論理構造が解析され、表題要素(TI
TLE)、見出し要素(H2およびH3)、段落要素
(P)が取り出され、木構造として表現される( 図2の
ステップS3)。
【0096】図13は、図12に示した文書の論理構造
を木構造にて示した図である。基本ベクトル生成部4
は、まず文書110を、分類単位である「段落」毎に読
み込み、各「段落」内容からキーワードを抽出する。こ
こでキーワードの抽出方法は従来技術を利用するものと
し、特に一つの方法には限定しない。
【0097】次に基本ベクトル生成部4は、前述の式
(1)で示される計算を行って、各段落に対するt次元
の基本ベクトルを生成する( 図2のステップS4)。こ
こで、文書110のように文書の階層的な論理構造が明
示されていない場合、式(1)におけるpikの値に単語
kの出現頻度及び分散の度合に応じて重み付けを行い、
基本ベクトルのノルムが1になるように正規化を行う必
要がある。基本ベクトルのノルムが1になるように正規
化することにより、「段落」と「見出し」のテキスト量
の違いによる影響を排除することができる。
【0098】例えば、段落数の合計がN個である文書群
を対象とした場合、i番目(i=1,・・・,N)の段
落のベクトルAPi=(pi1,pi2,・・・,pit)のj
番目(j=1,・・・,t)の要素の値Pijは、出現頻
度(TF)と分散(IDF)を用いて、次式(14)、
(15)にて表される。
【0099】
【数14】Pij=fij・gj ………(14)
【0100】
【数15】 gj =Log(N/dj ) ………(15) ただし、fijは、j番目の単語のi番目の段落における
出現頻度でTFに対応する。またgj はIDFに対応
し、dj はj番目の単語が出現する段落の数を表す。こ
こで、APiをノルムが1になるように正規化したA' Pi
は、次式(16)により計算される。
【0101】
【数16】
【0102】本実施の形態では、基本ベクトルとしてこ
のA' Piを用いる。ここで例えば、図12に示す文書1
10の2章3節の段落P18を対象に基本ベクトルを生
成する場合、段落P18からはキーワードとして(NIS
T、現在、コンピュータ、セキュリティ、ハンドブッ
ク、作成、...)が抽出される。そして、各キーワー
ドの出現頻度(TF)と分散(IDF)が計算され、ノ
ルムが1になるように正規化された基本ベクトルA'
P18 が生成される。
【0103】次に、見出しベクトル生成部5は、論理構
造解析部3において抽出された全論理構成要素のうち、
各「段落」より上位にあるすべての「見出し」(文書の
「表題」、「章見出し」「節見出し」)を読み込む。そ
して、各「見出し」に関するt次元の見出しベクトルを
生成する(図2のステップS5)。なお、ここでも、各
見出しベクトルにも基本ベクトル同様、単語の出現頻度
と分散を用いて重み付けを行い、見出しベクトルのノル
ムが1になるように正規化を行う。
【0104】図12に示す文書110の段落P18に関
しては、上位の見出しとして文書の表題「National Inf
ormation Infrastructure (NII)」、2章の見出しであ
る「ネットワークセキュリティのための方策」、2章3
節の見出しである「ネットワークセキュリティ管理」か
らそれぞれキーワードが抽出され、各キーワードの出現
頻度と分散が計算され、ノルムが1になるように正規化
された見出しベクトルが生成される。
【0105】ベクトル合成部6は、図2のステップS4
及びステップS5で生成された基本ベクトルと見出しベ
クトルとを合成する(図2のステップS6)。なお、合
成ベクトルの算出に関しては前述の式(11)を、式
(11)における各ベクトルに対する重み付けに関して
は、前述の式(12)を、それぞれ流用する。
【0106】分類単位の構成要素に対する合成ベクトル
が生成されると、合成ベクトル保持部7は、分類単位の
構成要素と合成ベクトルを対応付けて保持する(図2の
ステップS7)。この時点で文書蓄積部1に分類の対象
とすべき文書がまだ残っていれば、以上と同様の処理を
行う(図2のステップS8の分岐にてステップS2へ進
む)。分類対象である文書すべての分類単位の構成要素
に対する合成ベクトルの生成、保持が終了すると、分類
部8は合成ベクトル保持部7に保持された合成ベクトル
を、すべて読み込む(図2のステップS9)。そして分
類部8は、読み込んだ合成ベクトルの類似度に基づい
て、分類対象である文書すべてを、分類単位毎に、1つ
以上のカテゴリーに分類し(図3のステップS11)、
分類結果保持部9に分類結果を保持する(図3のステッ
プS12)。
【0107】なお、ここではベクトルの類似度の計算方
法としてコサイン係数に基づく方法を用いる。コサイン
係数に基づくベクトルの類似度の計算方法については、
後述する式(20)にて述べる。また、分類の方法とし
て、公知技術であるk平均クラスタリングを用いる。
【0108】ここで、本実施の形態にて実際に文書を分
類した実験の結果を説明する。対象とする文書群とし
て、WWWで公開されているHTML文書33件(社団
法人日本電子工業振興協会が発行している「電子工業月
報」の「ニューヨーク駐在員報告」94年6月号から9
7年2月号)を利用、1635段落に分割して、文書の
分類を行った。
【0109】図14は、実験対象とする文書群を人手に
より分類した結果を示す分類表である。実験の対象とし
た33件の文書はすべて米国の情報産業の動向に関する
もので、図14に示した分類表の各カテゴリには、その
カテゴリに含まれる段落群の内容から判断して適切なト
ピックが付与されている。なお、カテゴリは全部で27
個あり、各カテゴリは最少で8個、最多で164個の段
落を含んでいる。また、これ以降この分類表の示す分類
結果を、標準セットと呼ぶ。
【0110】実験では、上述のHTML文書33件を図
1に示した文書蓄積部1に蓄積し、図2及び図3のフロ
ーチャートに示す処理手順に従って処理した結果を標準
セットと比較した。
【0111】ここで、k平均クラスタリングについて説
明する。なお、これ以降、「クラスタ」は「カテゴリ
ー」と同義であるとする。k平均クラスタリングでは、
生成するクラスタの数kをパラメータとして与える。k
個のクラスタ中心の初期値は、標本ベクトルの中から適
当に選ばれる。
【0112】ここでは人手による分類と比較するため、
クラスタ数kを図14に示した標準セットのカテゴリー
数と同数、すなわちk=27とする。また、k個のクラ
スタ中心の初期値は、図14に示した標準セットの各カ
テゴリーのトピックに対して、最も類似度の高い段落を
選ぶ。
【0113】各カテゴリーのトピックと、対象とする
「段落」との類似度は、トピックから生成したベクトル
と、各「段落」の基本ベクトルとの類似度計算、例えば
コサイン係数を用いる方法等によって計算できる。
【0114】これにより、図2および図3のフローチャ
ートに示す処理手順に沿って処理した結果のクラスタ数
は、標準セットのカテゴリー数と揃えることができる。
また、標準セットの各カテゴリーのトピックに対応する
クラスタが生成されることが期待できる。
【0115】なお、ここでは標準セットの各カテゴリー
のトピックに対して、最も類似度の高い「段落」の基本
ベクトルをクラスタ中心の初期値として選択したが、こ
れは人手による分類との比較を目的としたものであり、
実用上は、クラスタ中心の初期値をどのように決めても
良い。
【0116】標準セットのカテゴリー集合を{C1 ,C
2 ,・・・,Cm }、本実施の形態における分類の結果
のクラスタ集合を{C'1,C'2,・・・,C' m }と
し、クラスタAの要素数をn(A)、クラスタAとクラ
スタBに共通する要素の数をn(A∩B)で表す。ま
た、対象となる構成要素の総数をNとする。
【0117】このとき、標準セットに対する正解率Sは
次式(17)により求められる。
【0118】
【数17】
【0119】上記の式(17)から、この実験結果であ
る正解率Sを算出すると、70.6%となった。これに
対し、図2のステップS5およびステップS6を省略し
た場合、つまり基本ベクトルのみを合成ベクトル保持部
7に保持するようにした場合、分類結果の正解率Sは、
55.6%となる。すなわち、基本ベクトルに見出しベ
クトルを合成して分類を行うことにより、正解率Sは1
5.0%向上した。
【0120】以上説明したように、本発明の文書検索装
置の第2の実施の形態では、蓄積された文書を任意の分
類単位で分割し、その際、分類単位の構成要素の上位に
位置する見出しを、そのテキストの長さを含めて考慮に
入れた上で、類似度の高いもの同士で分類し、カテゴリ
ーを生成して必要な話題を含む分類単位の構成要素のみ
を絞り込む。 その後、必要に応じて詳細な内容を表示
させることができるため、多量の文書や巨大な文書か
ら、必要な話題のみを簡単に抽出することが可能であ
る。
【0121】次に、本発明の文書検索装置の第3の実施
の形態を説明する。図15は、本発明の文書検索装置の
第3の実施の形態の原理構成を示した図である。文書検
索装置の第3の実施の形態は、文書蓄積部21と、検索
単位指定部22と、論理構造解析部23と、基本ベクト
ル生成部24と、見出しベクトル生成部25と、ベクト
ル合成部26と、合成ベクトル保持部27と、問合せ入
力部28と、問合せベクトル生成部29と、検索部30
と、表示部31と、検索文書抽出部32と、から構成さ
れている。
【0122】文書蓄積部21、論理構造解析部23およ
びベクトル合成部26は、図1に示した第1の実施の形
態の文書蓄積部1、論理構造解析部3及びベクトル合成
部6と同一の構成要素であるので、説明は省略する。
【0123】また、表示部31および検索文書抽出部3
2も、図1に示した第1の実施の形態の表示部10およ
び検索文書抽出部12と同一の構成要素であるので、説
明を省略する。検索文書抽出部32を構成する表示要素
選択部32a、表示範囲選択部32bおよび表示文書抽
出部32cは、図1に示した検索文書抽出部12を構成
する表示要素選択部12a、表示範囲選択部12bおよ
び表示文書抽出部32cと同一の構成要素である。
【0124】検索単位指定部22は、検索単位を「文
書」にするか、「章」にするか、「節」にするか、「段
落」にするか等の指定を行う。基本ベクトル生成部24
は、論理構造解析部23にて解析された文書の論理構造
を、検索単位指定部22にて指定された検索単位で分割
して検索単位の各構成要素毎にキーワードを抽出し、こ
のキーワードに基づいて基本ベクトルを生成する。
【0125】見出しベクトル生成部25は、論理構造解
析部23にて解析された文書の論理構造において、基本
ベクトル生成部24にて基本ベクトル生成の対象となっ
た検索単位の構成要素よりも上位に配置されているすべ
ての構成要素の見出しからキーワードを抽出し、このキ
ーワードに基づいて見出しベクトルを生成する。合成ベ
クトル保持部27は、基本ベクトル生成部24にて基本
ベクトル生成の対象となった検索単位の構成要素と、ベ
クトル合成部25にて生成された合成ベクトルとを、対
応付けて保持する。
【0126】問合せ入力部28は、キーワード列または
自然言語文により構成される検索の問合せの入力を受け
付ける。問合せベクトル生成部29は、問合せ入力部2
8にて受け付けた問合せから、問合せベクトルを生成す
る。そして、検索部30は、問合せベクトル生成部29
にて生成された問合せベクトルと、合成ベクトル保持部
27にて保持されている合成ベクトルとを読み込む。そ
して、問合せベクトルと合成ベクトルとの類似度を算出
し、類似度の高い合成ベクトルと対応する検索単位の構
成要素を検索する。
【0127】次に、このような構成の文書検索装置の第
3の実施の形態における文書検索の手順を説明する。図
16は、文書検索装置の第3の実施の形態における文書
検索の準備を行う手順を示すフローチャートである。
【0128】本発明の文書検索装置の第3の実施の形態
において文書検索を行う場合には、まず検索単位指定部
22にて検索単位の指定が行われる(ステップS3
1)。次に、論理構造解析部23が文書蓄積部21から
検索対象である文書を1つ読み込み(ステップS3
2)、読み込んだ文書の論理構造を解析する(ステップ
S33)。基本ベクトル生成部24は、論理構造解析部
23にて解析された論理構造の検索単位の構成要素毎
に、基本ベクトルを生成する(ステップS34)。ま
た、見出しベクトル生成部25も基本ベクトル生成部2
4と同様、検索単位の構成要素毎に見出しベクトルを生
成する(ステップS35)。
【0129】ベクトル合成部26は、基本ベクトルと見
出しベクトルとを合成して、合成ベクトルを生成する
(ステップS36)。合成ベクトル保持部27は、ベク
トル生成の対象となった検索単位の構成要素と合成ベク
トルとを、対応付けて保持する(ステップS37)。こ
こで、文書蓄積部21に、検索対象であり、まだステッ
プS32〜ステップS37の処理の対象となっていない
文書が残っているか否かが判断される(ステップS3
8)。そして、文書が残っていればステップS32に再
度進み、文書が残っていなければこのフローチャートの
処理を終了する。ステップS38の判断において文書が
残っていないということは、検索対象である文書すべて
に関して、ベクトルが生成されたということである。そ
して、図16に示した文書検索の準備が終了した後に実
際に文書検索を行う。
【0130】図17は、文書検索装置の第3の実施の形
態において、文書検索準備終了後に行う文書検索処理の
手順を示したフローチャートである。本発明の文書検索
装置の第3の実施の形態において文書検索を行う場合、
問合せ入力部28にて、問合せを入力する(ステップS
41)。問合せベクトル生成部29は、入力された問合
せがキーワード列であればそこから、自然言語文であれ
ばその内容からキーワードを抽出して、問合せベクトル
を生成する(ステップS42)。
【0131】問合せベクトルが生成されると、検索部3
0は、問合せベクトル生成部29から問合せベクトル
を、合成ベクトル保持部27から検索対象である文書に
対する合成ベクトルすべてを、読み込む(ステップS4
3)。そして問合せベクトルと合成ベクトル群との比較
を行い(ステップS44)、問合せベクトルとの類似度
の高い合成ベクトルから順に、対応する検索単位の構成
要素とともに表示部31に表示させる(ステップS4
5)。
【0132】ここまでの処理で、文書検索自体は一応終
了であるが、ここで、文書検索の結果を基に、検索した
文書の抽出表示を行うか否かの判断が行われる(ステッ
プS46)。抽出表示を行う場合には、表示要素選択部
32aにて抽出表示の対象となる構成要素が選択され
(ステップS47)、表示範囲選択部32bにて抽出表
示の範囲が選択される(ステップS48)。そして表示
文書抽出部32cにて文書蓄積部21から抽出表示範囲
の文書が抽出され(ステップS49)、表示部31に表
示される(ステップS50)。
【0133】この時点で、抽出表示を行わなかった場
合、表示部31には文書検索の結果が表示されている。
また、抽出表示を行った場合、表示部31には抽出文書
が表示されている。そして、いずれにしても、表示部3
1の表示から、この文書検索処理を終了するか否かが判
断され(ステップS51)、終了しない場合には、再度
ステップS46以降の処理へ進み、別の構成要素に対す
る抽出表示を行うことが可能である。
【0134】ここで、本実施の形態の文書検索装置にて
文書検索を行う場合に、問合せを入力したり、検索結果
を表示したりする入出力画面の一例を挙げておく。図1
8は、本発明の文書検索装置の第3の実施の形態に係る
入出力画面の一例を示した図である。
【0135】入出力画面230には、問合せの入力を受
け付ける問合せ入力欄231、検索開始を指示する検索
ボタン232、検索文書の抽出表示を行う際に表示範囲
の選択を行う範囲選択ボタン233、検索文書の抽出表
示を指示する表示ボタン234、および検索結果を表示
する検索結果表示欄235が設けられている。
【0136】ここで、問合せ入力欄231は問合せ入力
部28に対応している。また、検索ボタン232は検索
部30に、範囲選択ボタン233は表示範囲選択部32
bに、表示ボタン234は表示文書抽出部32cに、検
索結果表示欄235は表示部31に、それぞれ対応して
いる。
【0137】次に、本発明の文書検索装置の第3の実施
の形態で文書検索を行った場合に、どのように処理が行
われるのかを、図16のフローチャートに沿って、具体
的な例を挙げて説明する。
【0138】図19は、文書蓄積部21に蓄積される文
書の一例を示す図である。文書120は、「情報検索の
技術動向」という表題を持つ文書である。文書全体は複
数の「章」から構成されており、1章の見出しは「背
景」、2章の見出しは「ベクトル空間モデル」、3章の
見出しは「自然言語処理の利用」、4章の見出しは「ユ
ーザインタフェース」、・・・である。また、章の中に
は複数の「節」から構成されているものがある。3章1
節の見出しは「シソーラス」であり、3章2節の見出し
は「文書構造解析」である。章や節はさらに複数の「段
落」から構成されている。1章の段落P21はキーワー
ド(インターネット、情報、アクセス)で示される内容
を持ち、段落P22はキーワード(マルチメディア、テ
キスト、検索)で示される内容を持っている。また、2
章の段落P23はキーワード(部分、照合、検索)で示
される内容を持ち、段落P24はキーワード(単語、重
み、ベクトル)で示される内容を持ち、段落P25はキ
ーワード(頻度、分散、類似度)で示される内容を持っ
ている。更に、3章1節の段落P26はキーワード(語
彙、辞書、検索)で示される内容を持ち、3章2節の段
落P27はキーワード(文脈、テキスト、概念、検索)
で示される内容を持ち、段落P28はキーワード(文、
意味、役割、検索)で示される内容を持ち、段落P29
はキーワード(検索、精度、統計、情報)で示される内
容を持っている。そして、4章の段落P30はキーワー
ド(利用者、インタラクション、ブラウジング)で示さ
れる内容を持っている。
【0139】このような文書120を含んだ検索対象に
文書検索を行う際には、まず図16に示したフローチャ
ートの処理に沿って、検索単位の全ての構成要素毎に合
成ベクトルを生成する。
【0140】ここで検索単位として「段落」を指定する
とする。その後、図18に示した入出力画面230の問
合せ入力欄231に、「問合せ」として、例えば「自然
言語処理を利用した情報検索」を入力し、検索ボタン2
32をマウスなどのポインティングデバイスにて選択す
る(図17のステップS41)。
【0141】すると、問合せベクトル生成部29が、入
力された問合せからキーワードを抽出して問合せベクト
ルを生成する(図17のステップS42)。検索部30
は、作成された問合せベクトルを問合せベクトル生成部
29から、保持されている合成ベクトル群を合成ベクト
ル保持部27から読み込む(図17のステップS4
3)。それから、読み込んだ問合せベクトルと合成ベク
トルとを比較する(図17のステップS44)。
【0142】図20は、図19に示した文書120の段
落毎の合成ベクトルと問合せベクトルとの比較の様子を
示した表である。本実施の形態では、問合せベクトルと
合成ベクトル群との類似度は、一致しているキーワード
の数値の合計から算出され、表121が生成される。表
121によれば、「情報」と「検索」とをキーワードと
して段落内に有し、「自然」「言語」「処理」「利用」
を上位構造である章(3章)の見出しとして有し、「情
報」と「検索」とをやはり上位構造である文書の見出し
として有する段落P29が、問合せ「自然言語処理を利
用した情報検索」と最も類似度が高いことになる。ま
た、段落P26、P27、P28の3つは、段落P29
の次に類似度が高いことになる。
【0143】このようにして類似度を求めた検索部30
は、類似度の高い順に、検索結果表示欄235に検索単
位を表示する(図17のステップS45)。図21は、
検索結果の表示された入出力画面の一例を示す図であ
る。
【0144】図において、問合せ入力欄231には、問
合せ「自然言語処理を利用した情報検索」が入力されて
いる。また検索結果表示欄235には、類似度の高い順
に、検索単位の構成要素を一意に特定する情報(ここで
は、キーワード)と類似度とが、表示されている。検索
単位の構成要素を一意に特定する情報としてはここに示
すキーワードを利用する方法の他に、文字列を先頭から
一定の長さだけ抽出する等の方法を採ってもよい。ま
た、検索対象となる文書が多ければ多い程、検索結果も
多くなるので、実用に際しては一定の類似度を閾値とし
て設け、閾値以下の類似度の検索単位の構成要素は表示
しないようにする。
【0145】このようにして検索した結果から、抽出表
示を行うことができる。抽出表示したい要素(検索単
位)が、検索結果表示欄235からマウス等のポインテ
ィングデバイスにて選択され(図17のステップS4
7)、同様に範囲選択ボタン233から任意の表示範囲
が選択され(図17のステップS48)、表示ボタン2
34が選択されると、検索文書抽出部32の表示文書抽
出部32cによって、対象となる文書が文書蓄積部21
から抽出され(図17のステップS49)、表示部31
に表示される(図17のステップS50)。この抽出表
示の様子は、第1の実施の形態で行った抽出表示の様子
と全く同じである。
【0146】このように、本発明の文書検索装置の第3
の実施の形態では、蓄積された文書を任意の検索単位で
分割し、各検索単位の構成要素に含まれるキーワードに
対応して生成される合成ベクトルと、問合せに含まれる
キーワードに対応して生成される問合せベクトルとの類
似度を計算し、類似度の高いものから順に表示させる。
その後、必要に応じて詳細な内容を表示させることがで
きるため、多量の文書や巨大な文書から、必要な話題の
みを簡単に抽出することが可能である。
【0147】次に、本発明の文書検索装置の第4の実施
の形態を説明する。図22は、本発明の文書検索装置の
第4の実施の形態の原理構成を示した図である。なお、
本発明の文書検索装置の第4の実施の形態の構成は、第
1の実施の形態の構成と基本的に同一である。よって、
同一構成要素には同一符号を付して詳しい説明を省略す
る。
【0148】文書検索装置の第4の実施の形態は、文書
蓄積部1と、分類単位指定部2と、論理構造解析部3
と、基本ベクトル生成部4と、内容ベクトル生成部45
と、ベクトル合成部46と、合成ベクトル保持部7と、
分類部8と、分類結果保持部9と、表示部10と、再分
類指示部11と、検索文書抽出部12と、から構成され
ている。
【0149】内容ベクトル生成部45は、論理構造解析
部3にて解析された文書の論理構造において、基本ベク
トル生成部4にて基本ベクトル生成の対象となった分類
単位の構成要素以外の構成要素の内容からキーワードを
抽出し、内容ベクトルを生成する。この内容ベクトル生
成については、後に例を挙げて詳しく説明する。
【0150】ベクトル合成部46は、基本ベクトル生成
部4にて生成された基本ベクトルと、内容ベクトル生成
部45にて生成された内容ベクトルとを合成して、合成
ベクトルを生成する。ベクトル合成部46の処理は、第
1の実施の形態のベクトル合成部6の処理と、基本的に
は同一のものである。
【0151】このような構成の文書検索装置における文
書検索の手順は第1の実施の形態における文書検索の手
順とほぼ同じで、図2、図3に示したフローチャートに
沿って処理が行われる。但し、図2に示したステップS
5の見出しベクトルの生成の代わりに、内容ベクトルの
生成が行われる。以下、この内容ベクトルの生成につい
て説明を行う。
【0152】図23は、文書検索装置の第4の実施の形
態における文書検索中、内容ベクトルを生成する際の手
順を示すフローチャートである。内容ベクトル生成部4
5は、まず基本ベクトル生成部4で基本ベクトル生成の
対象となっている分類単位を「X」として読み込む(ス
テップS61)。次に、「X」に、親に当たる構成要素
が存在するか否か判断する(ステップS62)。「X」
に、親に当たる構成要素が存在しなければ、このフロー
チャートに示す処理は終了となる。また、「X」に、親
に当たる構成要素が存在すれば、その構成要素を「Y」
として読み込む(ステップS63)。それから、「Y」
に、まだベクトル生成の対象となっていない子構成要素
があるか否か判断する(ステップS64)。ここで言う
ベクトル生成では、生成されるベクトルが基本ベクトル
か、要素ベクトル(内容ベクトルを構成するために生成
される複数のベクトルを、要素ベクトルと呼ぶ)かの違
いは問わない。
【0153】まだベクトル生成の対象となっていない子
構成要素が存在すれば、その構成要素を「Z」として読
み込み(ステップS65)、「Z」を対象とした要素ベ
クトルを生成する(ステップS66)。なお、この
「Z」を対象とした要素ベクトル生成の手順について
は、後に詳しく説明する。
【0154】「Z」を対象とした要素ベクトル生成が終
了した場合には再度ステップS64に進む。ステップS
64において、「Y」にはもう、まだベクトル生成の対
象となっていない子構成要素はない、と判断された場
合、ステップS64〜ステップS66の処理で生成され
た要素ベクトルを、「Y」の内容ベクトルとして合成す
る(ステップS67)。構成要素「Y」に対する内容ベ
クトル生成が終了したので、「Y」を「X」として(ス
テップS68)、再度ステップS61に進む。
【0155】次に、このフローチャートのステップS6
6にあたる、要素ベクトル生成の手順を説明する。図2
4は、文書検索装置の第4の実施の形態における文書検
索中、内容ベクトル生成のために、要素ベクトルを生成
する手順を示すフローチャートである。
【0156】内容ベクトル生成部45は、まず要素ベク
トル生成の対象となっている要素が、段落あるいは見出
しであるか否か判断する(ステップS71)。そして、
要素ベクトル生成の対象となっている要素が、段落ある
いは見出しである場合、その内容に含まれるキーワード
を抽出して要素ベクトルを生成して(ステップS7
2)、このフローチャートに示す処理は終了となる。ま
た、ステップS71の判断において、要素ベクトル生成
の対象となっている要素が段落でも見出しでもなかった
場合、その要素に、まだベクトル生成の対象となってい
ない子構成要素が存在するか否か判断する(ステップS
73)。ここで言うベクトル生成では、生成されるベク
トルが基本ベクトルか、要素ベクトルか、の違いは問わ
ない。
【0157】まだベクトル生成の対象となっていない子
構成要素が存在すれば、その子構成要素を読み込む(ス
テップS74)。そして、読み込んだ子構成要素を対象
として、要素ベクトルの生成を行う(ステップS7
5)、すなわちこのフローチャートに示すステップS7
1〜終了までの処理対象とする。
【0158】子構成要素を対象とした要素ベクトルの生
成が終了したら、再度ステップS73へ進む。ステップ
S73において、まだベクトル生成の対象となっていな
い子構成要素が存在しない、と判断された場合、ステッ
プS73〜ステップS75の処理で生成された要素ベク
トルを合成し(ステップS76)、このフローチャート
に示す処理は終了となる。
【0159】ここで、本発明の文書検索装置の第4の実
施の形態で文書検索を行った場合に、どのように処理が
行われるのかを、図2、図3および図23、図24のフ
ローチャートに沿って図19に示した文書120を例に
具体的に説明する。
【0160】分類単位指定部2にて検索単位が「段落」
とされ(図2のステップS1)、論理構造解析部3に図
19に示した文書120が検索対象として読み込まれる
と(図2のステップS2)、文書120の論理構造が解
析され、木構造として表現される(図2のステップS
3)。
【0161】図25は、図19に示した文書の論理構造
を木構造にて示した図である。基本ベクトル生成部4
は、文書120を検索単位である「段落」毎に読み込
み、各「段落」の内容からキーワードを抽出する。ここ
で、キーワードの抽出には従来技術を利用するものと
し、特に方法の限定はしない。
【0162】次に基本ベクトル生成部4は、前述の式
(1)で示される計算を行って、抽出したキーワードk
個を基に、各「段落」に対するt次元の基本ベクトルを
生成する(図2のステップS4)。ここで次元数tは、
分類に利用するキーワードの総数である。この次元数t
の算出方法はキーワードの抽出方法によって異なり、キ
ーワードの抽出に単語リストを使用する場合には、その
単語リストに含まれる単語の総数がtとなる。
【0163】内容ベクトル生成部45は、論理構造解析
部3において抽出された全論理構成要素のうち、各「段
落」より上位にある全ての構成要素を読み込む。そし
て、各構成要素に関するt次元の内容ベクトルを生成す
る。
【0164】ここで例えば、基本ベクトル生成部4で、
文書120の3章2節の、段落P28を対象に基本ベク
トルFp28 が生成されているとする。この場合、どのよ
うにして基本ベクトルFP28 に対応した内容ベクトルが
生成されるか、図23〜図24のフローチャートに沿っ
て説明する。
【0165】内容ベクトル生成部45は、内容ベクトル
生成対象「X」として、文書120の3章2節段落P2
8を読み込む(図23のステップS61)。「X」に親
要素が存在するか否かを、図25に示した木構造から判
断すると(図23のステップS62)、「節」が存在し
ている。そこでこの文書120の3章の2節を、「Y」
とする(図23のステップS63)。「Y」に未処理の
子構成要素が存在しているか否かを判断すると(図23
のステップS64)、まず「見出し」が存在している。
そこでこの文書120の3章2節の「見出し」を、
「Z」とし(図23のステップS65)、「Z」の要素
ベクトルを生成する。「Z」の要素ベクトルを生成する
にあたって、この要素「Z」が段落、もしくは見出しで
あるか否かを判断すると(図24のステップS71)、
「Z」は「見出し」である。従って、この要素「Z」の
内容、すなわち文字列「文書構造解析」からキーワード
を抽出して、要素ベクトルG1 を生成する(図24のス
テップS72)。なお、以後頻出する要素ベクトルの生
成には、基本ベクトルの生成式である前述の式(1)を
そのまま流用する。
【0166】再度「Y」に未処理の子構成要素が存在し
ているか否かを判断すると(図23のステップS6
4)、「段落P27」が存在している。そこでこの文書
120の3章2節の「段落P27」を、新たな「Z」と
し(図23のステップS65)、「Z」の要素ベクトル
を生成する。「Z」の要素ベクトルを生成するにあたっ
て、この要素「Z」が段落、もしくは見出しであるか否
かを判断すると(図24のステップS71)、「Z」は
「段落」である。従って、この要素「Z」からキーワー
ド(文脈、テキスト、概念、検索)を抽出して、要素ベ
クトルG2 を生成する(図24のステップS72)。
【0167】同様に、文書120の3章2節の「段落P
29」に対する要素ベクトルG3 も生成する。なお、文
書120の3章2節の「段落P28」は既に基本ベクト
ルの生成対象となっているので、要素ベクトル生成の対
象からは外される。「段落P29」に対する要素ベクト
ル生成が終了すると、「Y」には、もう未処理の子構成
要素は存在しない、との判断がなされる(図23のステ
ップS64)。そこで、ここまでで生成した要素ベクト
ルG1 〜G3 を合成し、Y(文書120の3章2節)に
対する内容ベクトルGP28 を生成する(図23のステッ
プS67)。また、内容ベクトルGP28 の生成が終了し
たので、新たな内容ベクトル生成対象「X」として
「Y」を定義する(図23のステップS68)。
【0168】内容ベクトル生成部45は、内容ベクトル
生成対象「X」として、文書120の3章2節を読み込
む(図23のステップS61)。「X」に親要素が存在
するか否かを、図25に示した木構造から判断すると
(図23のステップS62)、「章」が存在している。
そこでこの文書120の3章を、Yとする(図23のス
テップS63)。「Y」に未処理の子構成要素が存在し
ているか否かを判断すると(図23のステップS6
4)、まず「見出し」が存在している。そこでこの文書
120の3章の「見出し」を、「Z」とし(図23のス
テップS65)、「Z」の要素ベクトルを生成する。
「Z」の要素ベクトルを生成するにあたって、この要素
「Z」が段落、もしくは見出しであるか否かを判断する
と(図24のステップS71)、「Z」は「見出し」で
ある。従って、この要素「Z」の内容、すなわち文字列
「自然言語処理の利用」からキーワードを抽出して、要
素ベクトルH1 を生成する(図24のステップS7
2)。
【0169】再度「Y」に未処理の子構成要素が存在し
ているか否かを判断すると(図23のステップS6
4)、「1節」が存在している。そこでこの文書120
の3章の「1節」を、新たな「Z」とし(図23のステ
ップS65)、「Z」の要素ベクトルを生成する。
「Z」の要素ベクトルを生成するにあたって、この要素
「Z」が段落、もしくは見出しであるか否かを判断する
と(図24のステップS71)、「Z」は見出しでも、
段落でもない。また、この要素「Z」が未処理の子構成
要素を持つか否か判断すると(図24のステップS7
3)、まず「見出し」が存在している。
【0170】そこで、この文書120の3章1節の「見
出し」を読み込み(図24のステップS74)、この要
素に対する要素ベクトルを生成する(図24のステップ
S75)。すなわち、この要素が段落、もしくは見出し
であるか否か判断し(図24のステップS71)、「見
出し」であるので、この要素の内容である文字列「シソ
ーラス」からキーワードを抽出して、要素ベクトルH21
を生成する(図24のステップS72)。
【0171】再度「Z」が未処理の子構成要素を持つか
否か判断すると(図24のステップS73)、「段落P
26」が存在している。そこで、この文書120の3章
1節の「段落P26」を読み込み(図24のステップS
74)、この要素に対する要素ベクトルを生成する(図
24のステップS75)。すなわち、この要素が段落、
もしくは見出しであるか否か判断し(図24のステップ
S71)、「段落」であるので、この要素からキーワー
ド(語彙、辞書、検索)を抽出して、要素ベクトルH22
を生成する(図24のステップS72)。
【0172】再度「Z」が未処理の子構成要素を持つか
否か判断すると(図24のステップS73)、もう未処
理の子構成要素は存在しないので、ここまでで生成した
要素ベクトルH21とH22とを合成し、要素「Z」(文書
120の3章1節)の要素ベクトルH2 を生成する(図
24のステップS76)。
【0173】それから再度「Y」に未処理の子構成要素
が存在しているか否かを判断すると(図23のステップ
S64)、もう未処理の子構成要素は存在しない。従っ
て、ここまでで生成した要素ベクトルH1 とH2 とを合
成し、「Y」(文書120の3章)に対する内容ベクト
ルHP28 を生成する(図23のステップS67)。ま
た、内容ベクトルHP28 の生成の終了が終了したので、
新たな内容ベクトル生成対象「X」として「Y」を定義
する(図23のステップS68)。
【0174】内容ベクトル生成部45は、内容ベクトル
生成対象「X」として、文書120の3章を読み込む
(図23のステップS61)。「X」に親要素が存在す
るか否かを、図25に示した木構造から判断すると(図
23のステップS62)、「文書」が存在している。そ
こでこの文書120を「Y」とし(図23のステップS
63)、ここまでの説明と同様の手順で「文書120」
に対する内容ベクトルJ P28 を生成する。新たな内容ベ
クトル生成対象「X」として「文書」を定義すると(図
23のステップS68)、「X」には親要素が存在しな
い。よって、この内容ベクトル生成処理は終了する。
【0175】ここまでの処理をまとめると、分類単位の
構成要素であり、基本ベクトルFP2 8 生成の対象とされ
た「段落P28」に対し、「文書120の3章2節」の
内容ベクトルGP28 と、「文書120の3章」の内容ベ
クトルHP28 と、「文書120」の内容ベクトルJP28
とが生成されている。
【0176】図2の、文書検索全体のフローチャートに
戻って説明を続けると、ベクトル合成部46により、こ
こまでに生成された基本ベクトルと内容ベクトルとが合
成される(図2のステップS6)。ここで、ある章の下
のある節の下のある段落に対する合成ベクトルTは、次
式(18)で表わされる。
【0177】
【数18】T=F+w1G+w2H+w3J ………(18) この式(18)において、Fは基本ベクトル、Gは節の
内容ベクトル、Hは章の内容ベクトル、Jは文書の内容
ベクトルを表わす。また、w1 、w2 、w3 は前述の式
(12)にて算出される重み付けである。このように下
位概念に重きを置いた検索は、検索者の要求が具体的で
ある場合に適している。
【0178】具体例として先に説明した基本ベクトルF
P28 、内容ベクトルGP28 、HP28、JP28 を式(1
8)に適用すると、合成ベクトルTP28 は、下記の式
(19)にて表わすことができる。
【0179】
【数19】 TP28 =FP28 +w1P28 +w2P28 +w3P28 ………(19) なお、内容ベクトルG、H、Jには、0より大きく1以
下の任意の値wc等を乗じて、さらに重み付けをするこ
とができる。
【0180】このようにして分類単位の構成要素に対す
る合成ベクトルが生成されると、合成ベクトル保持部7
は、分類単位の構成要素と合成ベクトルとを対応付けて
保持する(図2のステップS7)。この時点で文書蓄積
部1に検索の対象とすべき文書がまだ残っていれば、以
上と同様の処理を再度行う(図2のステップS8の分岐
にてステップS2へ進む)が、ここでは図19に示した
文書120のみを検索の対象として説明を続ける。
【0181】検索対象である文書すべての分類単位の構
成要素に対する合成ベクトルの生成、保持が終了する
と、分類部8は合成ベクトル保持部7に保持された合成
ベクトルを、すべて読み込む(図2のステップS9)。
そして分類部8は、読み込んだ合成ベクトルの類似度に
基づいて、検索対象である文書すべてを、分類単位毎
に、1つ以上のカテゴリーに分類し、表示する(図2の
ステップS10)。ここで、文書の分類および結果の表
示は、第1の実施の形態と同様、図3に示したフローチ
ャートに沿って処理するものとする。
【0182】以上説明したように、本発明の文書検索装
置の第4の実施の形態では、蓄積された文書を任意の分
類単位で分割し、その際、分類単位の構成要素の上位に
位置する構成要素の内容をも考慮に入れた上で、類似度
の高いもの同士で分類し、カテゴリーを生成して必要な
話題を含む構成要素のみを絞り込む。その後、必要に応
じて詳細な内容を表示させることができるため、多量の
文書や巨大な文書から、必要な話題のみを簡単に抽出す
ることが可能である。
【0183】なお、本実施の形態では、「見出し」の要
素ベクトルと、「段落」の要素ベクトルとを同価値とし
て内容ベクトルを合成したが、検索の趣旨や文書の様子
によって、「見出し」の要素ベクトルへの重み付けと
「段落」の要素ベクトルへの重み付けとを変えてもよ
い。例えば、「見出し」の要素ベクトルへの重み付け
を、「段落」の要素ベクトルへの重み付けよりも重くす
れば、「段落」の内容よりも「見出し」の内容を重視し
た文書検索が可能となる。
【0184】また、「見出し」あるいは「段落」に対す
る要素ベクトルを生成する際に、既に生成されている基
本ベクトルとの類似度を計算し、高い類似度を持つ要素
ベクトルへの重み付けを重くするようにしてもよい。例
えば、従来知られているようにコサイン係数を利用する
と、次式(20)にてt次元のベクトルP=(p1 ,・
・・,pt ),Q=(qt ,・・・,qt )の類似度s
im(P,Q)(0<sim(P,Q)<1)が計算で
きる。
【0185】
【数20】
【0186】この類似度sim(P、Q)を重み付けに
利用すれば、分類が個々の検索単位の内容に特に着目し
て行われるようになるため、文書検索の精度を高めるこ
とが可能となる。
【0187】次に、本発明の文書検索装置の第5の実施
の形態を説明する。第5の実施の形態では、第4の実施
の形態で示した文書検索装置にて、階層的な論理構造の
明示されていない文書を対象とした文書検索を行う。こ
の実施の形態の装置構成は図22に示した第4の実施の
形態の装置構成と同一である。また、文書検索処理は図
2および図3に示したフローチャートと同様の処理手順
にて実現される。但し、図2に示したステップS5の見
出しベクトルの生成の代わりに、内容ベクトルの生成が
行われる。以下、この内容ベクトルの生成について説明
する。
【0188】図26は、文書検索装置の第5の実施の形
態における文書検索中、内容ベクトルを生成する際の手
順を示すフローチャートである。内容ベクトル生成部4
5は、まず論理構造解析部3にて解析された文書の論理
構造から構成要素をひとつ読み込む(ステップS8
1)。次に、読み込んだ構成要素が図2のステップS4
で基本ベクトルの生成の対象となった構成要素であるか
否か判断する(ステップS82)。読み込んだ構成要素
が、図2のステップS5で基本ベクトルの生成の対象と
なった構成要素であれば、この構成要素に対しては処理
を行わず、次の構成要素を読み込むために再度ステップ
S81へ進む。ステップS81で読み込んだ構成要素
が、基本ベクトルの生成の対象となった構成要素ではな
い場合、その構成要素が段落、もしくは見出しであるか
否か判断する(ステップS83)。
【0189】構成要素が段落でも見出しでもない場合、
この構成要素に対しては処理を行わず、次の構成要素を
読み込むために再度ステップS81へ進む。ステップS
81で読み込んだ構成要素が、段落、もしくは見出しで
ある場合、この構成要素に対する要素ベクトルを生成す
る(ステップS84)。次に、図2のステップS4で基
本ベクトルの生成対象となった構成要素と、ステップS
84で要素ベクトルを生成した構成要素との距離を計算
する(ステップS85)。
【0190】ここで、構成要素間の距離は、図2のステ
ップS3で論理構造を解析した結果として得られる木構
造に基づいて計算する。この計算方法について、図を示
して説明する。
【0191】図27は、図31に示した文書の論理構造
を木構造にて表現し、構成要素間の距離を示した図であ
る。木構造上で、あるノードから目的のノードへ辿る際
に経由する枝の数を、ノード間の距離という。構成要素
間の距離を木構造上でのノード間の距離と定義すると、
この図27において、段落P2から、3.2節の「見出
し」までの距離は2である。また、段落P2から第3章
の「見出し」までの距離は3、段落P2から文書の「表
題」までの距離は4となる。さらに、段落P2から第1
章の「見出し」までの距離は5となる。
【0192】図26のフローチャートに戻って説明を続
けると、ステップS85にて構成要素間の距離が計算さ
れると、この距離に基づいて、ステップS84で生成さ
れた要素ベクトルに対して重み付けを行う(ステップS
86)。重み付けの方法については、後に例を挙げて詳
しく説明する。最後に、全ての構成要素を読み込んだか
否かを判断し(ステップS87)、まだ読み込んでいな
い構成要素があれば、ステップS81へ戻って、次の構
成要素に対する処理を続行する。また、全ての構成要素
を読み込んでいれば、ここまでに生成された全ての要素
ベクトルを合成して内容ベクトルを生成し(ステップS
88)、処理を終了する。
【0193】ここで、本発明の第5の実施の形態にて文
書検索を行った場合、どのように分類および検索が行わ
れるか、図2、図3および図26のフローチャートに沿
って具体的な例を挙げて説明する。
【0194】具体的な文書群として、例えば、WWWで
公開されているHTML文書を文書蓄積部1に格納し
て、分類の対象とすることができる。本実施の形態で
は、本発明の第2の実施の形態において説明した、図1
2に示した文書を、文書蓄積部1に蓄積されるHTML
文書の例として用いる。
【0195】分類単位指定部2にて分類単位を「段落」
とし(図2のステップS1)、論理構造解析部3に図1
2に示した文書が読み込まれると(図2のステップS
2)、文書の論理構造が解析され、表題要素(TITL
E)、見出し要素(H2およびH3)、段落要素(P)
が取り出され、木構造として表現される(図2のステッ
プS3)。
【0196】基本ベクトル生成部4は、図12に示した
文書を、分類単位である「段落」毎に読み込み、各「段
落」内容からキーワードを抽出する。キーワードの抽出
方法としては、従来技術を利用するものとし、特に一つ
の方法には限定しない。次に基本ベクトル生成部4は、
式(1)で示される計算を行って、各段落に対するt次
元の基本ベクトルを生成する(図2のステップS4)。
【0197】なお、本実施の形態では、前述の式(1)
におけるpikの値に単語kの出現頻度及び分散の度合に
応じて重み付けを行い、基本ベクトルのノルムが1にな
るように正規化を行う。基本ベクトルのノルムが1にな
るように正規化することにより、各構成要素のテキスト
量の違いによる影響を排除することができる。
【0198】単語の出現頻度、分散の度合に応じた重み
付けの方法、および基本ベクトルのノルムが1になるよ
うに正規化する方法については、本発明の第2の実施の
形態において説明した方法と同一の方法とする。
【0199】ここで例えば、図12に示した文書110
の2章3節の「段落P18」を対象に基本ベクトルを生
成する場合、基本ベクトル生成部4では、まず、「段落
P18」からキーワードとして(NIST、現在、コンピュ
ータ、セキュリティ、ハンドブック、作成、...)が
抽出され、各キーワードの出現頻度(TF)と分散(I
DF)が計算され、ノルムが1になるように正規化され
た基本ベクトルLP18が生成される。
【0200】内容ベクトル生成部45は、論理構造解析
部3において抽出された全論理構成要素から、まず「表
題」を読み込む(ステップS81)。構成要素が基本ベ
クトルの生成対象であるか否かを判断すると(ステップ
S82)、ここでは「段落P18」を基本ベクトルの生
成対象としているので、「表題」は基本ベクトルの生成
対象ではない。
【0201】次に、構成要素が段落、もしくは見出しで
あるか否かを判断すると(ステップS83)、「表題」
は最上位の見出しである。従って、「表題」からキーワ
ードを抽出して、要素ベクトルM1 を生成する。なお、
以後頻出する要素ベクトルの生成方法は、基本ベクトル
の生成方法と同じであるとする。
【0202】ここで、基本ベクトルの生成の対象となっ
た「段落P18」と、要素ベクトルを生成した「表題」
との距離を、図13に示した木構造に沿って計算すると
(ステップS85)、構成要素間の距離は4である。構
成要素間の距離が計算されると、「表題」の要素ベクト
ルM1 に対して、重み付けがなされる(ステップS8
6)。
【0203】本実施の形態では、構成要素間の距離dに
ついて単調減少する重み関数α(d)を、重み付けに利
用する。すなわち、基本ベクトルの生成対象である構成
要素から遠い距離にある構成要素ほど、要素ベクトルの
値が小さくなるように重み付けが行われる。なお、0<
α(d)≦1 とする。 例えば、「表題」の要素ベク
トルM1 に対しては、α(4)で重み付けを行う。
【0204】要素ベクトルへの重み付けの処理が終了す
ると、内容ベクトル生成部45は、文書中の全ての構成
要素を読み込んだか否かを判断する(ステップS8
7)。図12に示した文書では、「表題」の次に「段落
P11」が存在するので、ステップS81へ戻り、「段
落P11」が読み込まれる。
【0205】構成要素が基本ベクトルの生成対象である
か否かを判断すると(ステップS82)、「段落P1
1」は基本ベクトルの生成対象ではない。次に、構成要
素が段落、もしくは見出しであるか否かを判断すると
(ステップS83)、「段落P11」は段落である。
【0206】したがって、「段落P11」からキーワー
ドを抽出して、要素ベクトルM2 を生成する。次に、基
本ベクトルの生成の対象となった「段落P18」と、要
素ベクトルを生成した「段落P11」との距離を、図1
3に示した木構造に沿って計算すると(ステップS8
5)、構成要素間の距離は4である。構成要素間の距離
が計算されると、「段落P11」の要素ベクトルM2に
対して、重み付けがなされる(ステップS86)。「段
落P11」の要素ベクトルM2 に対しては、α(4)で
重み付けを行う。
【0207】要素ベクトルへの重み付けの処理が終了す
ると、内容ベクトル生成部45は、文書中の全ての構成
要素を読み込んだか否かを判断する(ステップS8
7)。図12に示した文書では、「段落P11」の次に
「章」が存在するので、ステップS81へ戻り、「章」
が読み込まれる。
【0208】以下同様に、文書中の全ての構成要素が読
み込まれ、その構成要素が基本ベクトルの生成対象では
なく、かつ、段落もしくは見出しである場合には、要素
ベクトルが生成され、基本ベクトルの生成対象である
「段落P18」との距離dに基づいて、重み付け関数α
(d)で重み付けが行われる。すなわち、図13に示し
た文書の論理構造のうち、構成要素「章」と「節」につ
いては、要素ベクトルは生成されない。また、基本ベク
トルの生成対象である「段落P18」についても、要素
ベクトルは生成されない。
【0209】ここまでの処理をまとめると、分類単位の
構成要素であり、基本ベクトルの生成の対象とされた
「段落P18」に対し、「表題」、1章の「見出し」、
1章1節と1章2節の「見出し」、2章の「見出し」、
2章1節から2章4節の「見出し」、「段落P11」〜
「段落P17」、および「段落P19」の、計17個の
要素ベクトルM1 〜M17が生成され、各要素ベクトル
は、「段落 P18」との距離dに応じて、関数α
(d)で重み付けされている。
【0210】全ての構成要素が読み込まれると、ここま
でに生成された全ての要素ベクトルを合成して内容ベク
トルを生成する(ステップS88)。基本ベクトルの生
成の対象となった段落に対し、内容ベクトルMは、次式
(21)にて表される。
【0211】
【数21】
【0212】ここで、nは要素ベクトルの生成対象とな
った構成要素の数を表し、di は基本ベクトルの生成の
対象となった構成要素と、要素ベクトルMi の生成の対
象となった構成要素との距離を表す。
【0213】具体例として、「段落P18」を基本ベク
トルの生成対象とした場合、生成される内容ベクトルM
P18 は、次式で表される。
【0214】
【数22】
【0215】ここで、di は「段落P18」と要素ベク
トルMi の生成の対象となった構成要素との距離を表
す。図2の文書検索全体のフローチャートに戻って説明
を続けると、ベクトル合成部46により、ここまでに生
成された基本ベクトルと内容ベクトルとが合成される
(図2のステップS6)。
【0216】すなわち、「段落P18」に対する合成ベ
クトルUP18 は、次式(23)にて表される。
【0217】
【数23】UP18 = LP18 +MP18 ………(23) このようにして分類単位の構成要素に対する合成ベクト
ルが生成されると、合成ベクトル保持部7は、分類単位
の構成要素と合成ベクトルとを対応付けて保持する(図
2のステップS7)。
【0218】この時点で文書蓄積部1に分類の対象とす
べき文書がまだ残っていれば、以上と同様の処理を再度
行う(図2のステップS8の分岐にてステップS2へ進
む)が、ここでは、図12に示した文書のみを対象とし
て説明を続ける。
【0219】分類対象である文書すべての分類単位の構
成要素に対する合成ベクトルの生成、保持が終了する
と、分類部8は合成ベクトル保持部7に保持された合成
ベクトルを、すべて読み込む(図2のステップS9)。
【0220】そして分類部8は、読み込んだ合成ベクト
ルの類似度に基づいて、分類対象である文書すべてを、
分類単位毎に、1つ以上のカテゴリーに分類し、分類結
果保持部9に分類結果を保持する(図3のステップS1
2)。本実施の形態では、ベクトルの類似度の計算方法
として、コサイン係数に基づく方法、すなわち前述の式
(16)を用いる。また、分類の方法として、k平均ク
ラスタリングを用いる。
【0221】ここで、図14に示した標準セットと、本
実施の形態にて文書を分類した結果とを比較する実験を
行った。なお、図3のステップS11にて行われる分類
の方法としては第2の実施の形態にて説明したk平均ク
ラスタリングを採用した。
【0222】重み付け関数α(d)= 1/dとし、正解
率Sを算出する式(17)に基づいて、本実施の形態の
正解率Sを算出すると、61.2%となった。これに対
し、図2のステップS5およびステップS6を省略した
場合、すなわち、基本ベクトルのみを合成ベクトル保持
部7に保持するようにした場合、分類結果の正解率S
は、55.6%となる。すなわち、基本ベクトルに内容
ベクトルを合成して分類を行うことにより、正解率は
5.6%向上した。
【0223】なお、この実験では要素ベクトルに重み付
けを行う際に重み付け関数α(d)= 1/dとしたが、
α(d)= 1/ (nd)とした場合、正解率Sは、6
7.0%となった。ただし、nは、文書中のすべての構
成要素の数を表す。
【0224】このように、前述のα(d)= 1/dを、
さらに文書中のすべての構成要素数で除することによ
り、文書毎の構成要素の総数の差異による影響を排除し
て、より高精度な分類が可能になる。
【0225】また、要素ベクトルに重み付けを行う際
に、既に生成されている基本ベクトルとの類似度を計算
し、高い類似度を持つ要素ベクトルへの重み付けを重く
するようにしてもよい。ベクトルの類似度の計算は、例
えば、式(16)に示したものを利用すればよく、重み
付け関数α(d)= 1/dに式(16)に示した類似度
を乗じて実験を行うと、正解率Sは72.8%となっ
た。
【0226】このように、基本ベクトルと要素ベクトル
の類似度を重み付けとして加味することにより、分類の
精度をさらに高めることが可能となる。次に、本発明の
文書検索装置の第6の実施の形態を説明する。
【0227】図28は、本発明の文書検索装置の第6の
実施の形態の原理構成を示した図である。なお、本発明
の文書検索装置の第6の実施の形態の構成は、第3の実
施の形態の構成と第4の実施の構成を組み合わせたもの
である。よって、同一構成要素には同一符号を付して詳
しい説明を省略する。
【0228】文書検索装置の第6の実施の形態は、文書
蓄積部21と、検索単位指定部22と、論理構造解析部
23と、基本ベクトル生成部24と、内容ベクトル生成
部45と、ベクトル合成部46と、合成ベクトル保持部
27と、問合せ入力部28と、問合せベクトル生成部2
9と、検索部30と、表示部31と、検索文書抽出部3
2と、から構成されている。ここで、内容ベクトル生成
部45と、ベクトル合成部46とは第4の実施の形態の
構成要素と、それ以外は第3の実施の形態の構成要素
と、同一のものである。
【0229】このような構成の文書検索装置にて文書検
索が行われる際には、まず図16に示したフローチャー
トの手順にて準備が行われるが、本実施の形態では、図
16のステップS35の見出しベクトル生成の代わり
に、前述の図23〜図24にて説明した内容ベクトル生
成が行われる。
【0230】すなわち、まず検索単位指定部22にて検
索単位の指定が行われる(図16のステップS31)。
次に、論理構造解析部23が文書蓄積部21から検索対
象である文書を1つ読み込み(図16のステップS3
2)、読み込んだ文書の論理構造を解析する(図16の
ステップS33)。基本ベクトル生成部24は、論理構
造解析部23にて解析された論理構造の検索単位の構成
要素毎に、基本ベクトルを生成する(ステップS3
4)。ここで内容ベクトル生成部45は、図23〜図2
4にて説明した手順にて、内容ベクトルを生成する。ま
た、ベクトル合成部46は、基本ベクトルと内容ベクト
ルとを合成して、合成ベクトルを生成する(図16のス
テップS36)。
【0231】合成ベクトル保持部27は、ベクトル生成
の対象となった検索単位の構成要素と合成ベクトルと
を、対応付けて保持する(ステップS37)。ここで、
文書蓄積部21に、検索対象であり、まだステップS3
2〜ステップS37の処理の対象となっていない文書が
残っているか否かが判断される(ステップS38)。そ
して、文書が残っていればステップS32に再度進み、
文書が残っていなければこのフローチャートの処理を終
了する。ステップS38の判断において文書が残ってい
ないということは、検索対象である文書すべてに関し
て、ベクトルが生成されたということである。
【0232】以上の文書検索準備が終了した後に、実際
に文書検索が行われるが、この文書検索は、図17に示
したフローチャートの手順にて行われる。すなわち、ま
ず問合せ入力部28にて、問合せが入力される(図17
のステップS41)。問合せベクトル生成部29は、入
力された問合せがキーワード列であればそこから、自然
言語文であればその内容からキーワードを抽出して、問
合せベクトルを生成する(図17のステップS42)。
【0233】問合せベクトルが生成されると、検索部3
0は、問合せベクトル生成部29から問合せベクトル
を、合成ベクトル保持部27から検索単位の構成要素に
対する合成ベクトルすべてを、読み込む(図17のステ
ップS43)。そして問合せベクトルと合成ベクトル群
との比較を行い(図17のステップS44)、問合せベ
クトルとの類似度の高い合成ベクトルから順に、対応す
る検索単位の構成要素とともに表示部31に表示させる
(図17のステップS45)。
【0234】ここまでの処理で文書検索自体は一応終了
であるが、ここで文書検索の結果を基に、検索した文書
の抽出表示を行うか否かの判断が行われる(図17のス
テップS46)。抽出表示を行う場合には、表示要素選
択部32aにて抽出表示の対象となる構成要素が選択さ
れ(図17のステップS47)、表示範囲選択部32b
にて抽出表示の範囲が選択される(図17のステップS
48)。そして表示文書抽出部32cにて文書蓄積部2
1から抽出表示範囲の文書が抽出され(図17のステッ
プS49)、表示部31に表示される(図17のステッ
プS50)。
【0235】この時点で、抽出表示を行わなかった場
合、表示部31には文書検索の結果が表示されている。
また、抽出表示を行った場合、表示部31には抽出文書
が表示されている。そしていずれにしても、表示部31
の表示から、この文書検索処理を終了してもよいか否か
が判断され(図17のステップS51)、終了しない場
合は、再度ステップS46以降の処理へ進み、別の構成
要素に対する抽出表示を行うことが可能である。
【0236】このように、本発明の文書検索装置の第6
の実施の形態では、蓄積された文書を任意の検索単位で
分割し、その際、検索単位の構成要素と各検索単位の構
成要素の上位に位置する構成要素の内容とに含まれるキ
ーワードに対応して生成される合成ベクトルと、問合せ
に含まれるキーワードに対応して生成される問合せベク
トルとの類似度を計算し、類似度の高いものから順に表
示させる。その後、必要に応じて詳細な内容を表示させ
ることができるため、多量の文書や巨大な文書から、必
要な話題のみを簡単に抽出することが可能である。
【0237】なお、本実施の形態では、「見出し」の要
素ベクトルと、「段落」の要素ベクトルとを同価値とし
て内容ベクトルを合成したが、検索の趣旨や文書の様子
によって、「見出し」の要素ベクトルへの重み付けと
「段落」の要素ベクトルへの重み付けとを変えてもよ
い。例えば、「見出し」の要素ベクトルへの重み付け
を、「段落」の要素ベクトルへの重み付けよりも重くす
れば、「段落」の内容よりも「見出し」の内容を重視し
た文書検索が可能となる。
【0238】また、「見出し」あるいは「段落」に対す
る要素ベクトルを生成する際に、既に生成されている基
本ベクトルとの類似度を計算し、高い類似度を持つ要素
ベクトルへの重み付けを重くするようにしてもよい。例
えば、従来知られているようにコサイン係数を利用して
前述の式(20)にてt次元のベクトルP=(p1 ,・
・・,pt ),Q=(q1 ,・・・,qt )の類似度s
im(P,Q)(0<sim(P,Q)<1)を計算
し、この類似度sim(P,Q)を重み付けに利用すれ
ば、分類が個々の検索単位の内容に特に着目して行われ
るようになる。これにより、文書検索の精度を高めるこ
とが可能となる。
【0239】
【発明の効果】以上説明したように本発明では、文書全
体の文脈を考慮に入れて、文書の構成要素の検索を行う
ために、検索単位もしくは分類単位として指定された構
成要素が持つキーワードから、基本ベクトルを生成する
基本ベクトル生成手段を設けた。そして、指定された構
成要素よりも上位に配置されている構成要素の見出しか
ら生成した見出しベクトルや、指定された構成要素以外
の構成要素が持つキーワードから生成した内容ベクトル
と、基本ベクトルとを合成して合成ベクトルを生成する
合成ベクトル生成部とを設けた。そして、さらに、この
合成ベクトルの類似度を利用して文書の構成要素を分
類、表示する分類手段を設けた。またはこの分類手段の
代わりに、問合せから生成する問合せベクトルと、合成
ベクトルとを比較して類似度の高いものを検索する検索
手段を設けた。
【0240】これにより、文書全体の文脈を考慮に入れ
た上で構成要素単位の話題の検索が可能となる。また、
見出しベクトルや内容ベクトルを基本ベクトルと合成す
る際に任意の重み付けを行うことにより、検索意図や検
索対象文書の性質に沿った検索を行うことができる。
【図面の簡単な説明】
【図1】本発明の文書検索装置の第1の実施の形態の原
理構成を示した図である。
【図2】文書検索装置の第1の実施の形態における文書
検索の全体手順を示すフローチャートである。
【図3】文書検索装置の第1の実施の形態における文書
の分類および結果表示の手順を示すフローチャートであ
る。
【図4】図1に示した文書蓄積部に蓄積される文書の一
例を示す図である。
【図5】図4に示した文書の論理構造を木構造にて示し
た図である。
【図6】図4に示した文書の段落P2に対する合成ベク
トルの生成を示す表である。
【図7】図4に示した文書に関して、分類単位「段落」
に対応する合成ベクトル保持の様子を示した図である。
【図8】分類結果の表示画面の一例を示す図である。
【図9】図8に示した表示画面において、再分類を指示
する様子を示した図である。
【図10】図8に示した表示画面において、抽出表示を
指示する様子を示した図である。
【図11】抽出文書の表示画面の一例である。
【図12】図1に示した文書蓄積部に蓄積されるHTM
L文書の一例を示す図である。
【図13】図12に示した文書の論理構造を木構造にて
示した図である。
【図14】実験対象とする文書群を人手により分類した
結果を示す分類表である。
【図15】本発明の文書検索装置の第3の実施の形態の
原理構成を示した図である。
【図16】文書検索装置の第3の実施の形態における文
書検索の準備を行う手順を示すフローチャートである。
【図17】文書検索装置の第3の実施の形態において文
書検索準備終了後に行う文書検索処理の手順を示すフロ
ーチャートである。
【図18】本発明の文書検索装置の第3の実施の形態に
係る入出力画面の一例を示した図である。
【図19】文書蓄積部に蓄積される文書の一例を示す図
である。
【図20】図19に示した文書の段落毎の合成ベクトル
と問合せベクトルとの比較の様子を示した表である。
【図21】検索結果の表示された入出力画面の一例を示
す図である。
【図22】本発明の文書検索装置の第4の実施の形態の
原理構成を示した図である。
【図23】文書検索装置の第4の実施の形態における文
書検索中、内容ベクトルを生成する際の手順を示すフロ
ーチャートである。
【図24】文書検索装置の第4の実施の形態における文
書検索中、内容ベクトルを生成するために、要素ベクト
ルを生成する手順を示すフローチャートである。
【図25】図19に示した文書の論理構造を木構造にて
示した図である。
【図26】文書検索装置の第5の実施の形態における文
書検索中、内容ベクトルを生成する際の手順を示すフロ
ーチャートである。
【図27】図31に示した文書の論理構造を木構造にて
表現し、構成要素間の距離を示した図である。
【図28】本発明の文書検索装置の第6の実施の形態の
原理構成を示した図である。
【図29】自動検索の対象文書の例を示した図である。
【図30】図29に示した各文書を、その段落構成と共
に示したものである。
【図31】表題、章、節、段落などの論理構成要素を持
つ文書の一例を示す図である。
【符号の説明】
1 文書蓄積部 2 分類単位指定部 3 論理構造解析部 4 基本ベクトル生成部 5 見出しベクトル生成部 6 ベクトル合成部 7 合成ベクトル保持部 8 分類部 9 分類結果保持部 10 表示部 11 再分類指示部 12 検索文書抽出部 12a 表示要素選択部 12b 表示範囲選択部 12c 表示文書抽出部

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 ある構成要素が他の構成要素を含んでい
    くような木構造の論理構造を持った文書群を検索し、構
    成要素毎に分類して表示する文書検索装置において、 前記文書を蓄積する文書蓄積手段と、 分類しようとする前記構成要素の分類単位を指定する分
    類単位指定手段と、 前記文書蓄積手段から文書を読み込み、その論理構造を
    解析する論理構造解析手段と、 前記分類単位指定手段にて指定された分類単位の各構成
    要素の内容からキーワードを抽出し、基本ベクトルを生
    成する基本ベクトル生成手段と、 前記分類単位の構成要素よりも論理構造的に上位に配置
    されているすべての構成要素の見出しからキーワードを
    抽出し、見出しベクトルを生成する見出しベクトル生成
    手段と、 前記基本ベクトルと前記見出しベクトルとを合成し、合
    成ベクトルを生成するベクトル合成手段と、 前記合成ベクトルを前記分類単位の構成要素と対応付け
    て保持する合成ベクトル保持手段と、 前記合成ベクトルの類似度に基づいて、前記文書の構成
    要素を分類する分類手段と、 前記分類手段による分類の結果を表示する表示手段と、 を有することを特徴とする文書検索装置。
  2. 【請求項2】 前記分類手段による分類の結果を保持す
    る分類結果保持手段と、前記分類の結果に対し再分類を
    指示する再分類指示手段と、をさらに有することを特徴
    とする請求項1記載の文書検索装置。
  3. 【請求項3】 前記分類手段による分類の結果から、内
    容を表示するための構成要素の単位を選択する表示要素
    選択部と、選択された単位を含む上位の構成要素から表
    示させたい構成要素を選択する表示範囲選択部と、前記
    表示範囲選択部にて選択された前記構成要素を前記文書
    蓄積手段から抽出し、前記表示手段に表示させる表示文
    書抽出部と、を含む検索文書抽出手段を、さらに有する
    ことを特徴とする請求項1記載の文書検索装置。
  4. 【請求項4】 ある構成要素が他の構成要素を含んでい
    くような木構造の論理構造を持った文書群を、構成要素
    毎に検索して表示する文書検索装置において、 前記文書を蓄積する文書蓄積手段と、 検索しようとする前記構成要素の検索単位を指定する検
    索単位指定手段と、 前記文書蓄積手段から文書を読み込み、その論理構造を
    解析する論理構造解析手段と、 前記検索単位指定手段にて指定された検索単位の各構成
    要素の内容からキーワードを抽出し、基本ベクトルを生
    成する基本ベクトル生成手段と、 前記検索単位の構成要素よりも論理構造的に上位に配置
    されているすべての構成要素の見出しからキーワードを
    抽出し、見出しベクトルを生成する見出しベクトル生成
    手段と、 前記基本ベクトルと前記見出しベクトルとを合成し、合
    成ベクトルを生成するベクトル合成手段と、 前記合成ベクトルを前記検索単位の構成要素と対応付け
    て保持する合成ベクトル保持手段と、 キーワード列または自然言語文により構成される問合せ
    を入力する問合せ入力手段と、 問合せから問合せベクトルを生成する問合せベクトル生
    成手段と、 前記問合せベクトルと前記合成ベクトルとの類似度に基
    づいて、前記検索単位の構成要素を検索して、類似度の
    高い合成ベクトルに対応する構成要素を抽出する検索手
    段と、 前記検索手段による検索の結果を表示する表示手段と、 を有することを特徴とする文書検索装置。
  5. 【請求項5】 前記検索手段による検索の結果から、内
    容を表示するための構成要素の単位を選択する表示要素
    選択部と、選択された単位を含む上位の構成要素から表
    示させたい構成要素を選択する表示範囲選択部と、前記
    表示範囲選択部にて選択された前記構成要素を前記文書
    蓄積手段から抽出し、前記表示手段に表示させる表示文
    書抽出部と、を含む検索文書抽出手段を、さらに有する
    ことを特徴とする請求項4記載の文書検索装置。
  6. 【請求項6】 ある構成要素が他の構成要素を含んでい
    くような木構造の論理構造を持った文書群を検索し、構
    成要素毎に分類して表示する文書検索装置において、 前記文書を蓄積する文書蓄積手段と、 分類しようとする前記構成要素の分類単位を指定する分
    類単位指定手段と、 前記文書蓄積手段から文書を読み込み、その論理構造を
    解析する論理構造解析手段と、 前記分類単位指定手段にて指定された分類単位の各構成
    要素の内容からキーワードを抽出し、基本ベクトルを生
    成する基本ベクトル生成手段と、 前記分類単位の構成要素を除くすべての構成要素の内容
    からキーワードを抽出し、内容ベクトルを生成する内容
    ベクトル生成手段と、 前記基本ベクトルと前記内容ベクトルとを合成し、合成
    ベクトルを生成するベクトル合成手段と、 前記合成ベクトルを前記分類単位の構成要素と対応付け
    て保持する合成ベクトル保持手段と、 前記合成ベクトルの類似度に基づいて、前記文書の構成
    要素を分類する分類手段と、 前記分類手段による分類の結果を表示する表示手段と、 を有することを特徴とする文書検索装置。
  7. 【請求項7】 前記ベクトル合成手段は、前記内容ベク
    トルが見出しであるか否かによって、前記内容ベクトル
    に、さらに重み付けを行うことを特徴とする請求項6記
    載の文書検索装置。
  8. 【請求項8】 前記ベクトル合成手段は、前記基本ベク
    トルと前記内容ベクトルとの類似度に応じて、前記内容
    ベクトルに、さらに重み付けを行うことを特徴とする請
    求項6記載の文書検索装置。
  9. 【請求項9】 前記分類手段による分類の結果を保持す
    る分類結果保持手段と、前記分類の結果に対し再分類を
    指示する再分類指示手段と、をさらに有することを特徴
    とする請求項6記載の文書検索装置。
  10. 【請求項10】 前記分類手段による分類の結果から、
    内容を表示するための構成要素の単位を選択する表示要
    素選択部と、選択された単位を含む上位の構成要素から
    表示させたい構成要素を選択する表示範囲選択部と、前
    記表示範囲選択部にて選択された前記構成要素を前記文
    書蓄積手段から抽出し、前記表示手段に表示させる表示
    文書抽出部と、を含む検索文書抽出手段を、さらに有す
    ることを特徴とする請求項6記載の文書検索装置。
  11. 【請求項11】 ある構成要素が他の構成要素を含んで
    いくような木構造の論理構造を持った文書群を、構成要
    素毎に検索して表示する文書検索装置において、 前記文書を蓄積する文書蓄積手段と、 検索しようとする前記構成要素の検索単位を指定する検
    索単位指定手段と、 前記文書蓄積手段から文書を読み込み、その論理構造を
    解析する論理構造解析手段と、 前記検索単位指定手段にて指定された検索単位の各構成
    要素の内容からキーワードを抽出し、基本ベクトルを生
    成する基本ベクトル生成手段と、 前記検索単位の構成要素を除くすべての構成要素の内容
    からキーワードを抽出し、内容ベクトルを生成する内容
    ベクトル生成手段と、 前記基本ベクトルと前記内容ベクトルとを合成し、合成
    ベクトルを生成するベクトル合成手段と、 前記合成ベクトルを前記検索単位の構成要素と対応付け
    て保持する合成ベクトル保持手段と、 キーワード列または自然言語文により構成される問合せ
    を入力する問合せ入力手段と、 問合せから問合せベクトルを生成する問合せベクトル生
    成手段と、 前記問合せベクトルと前記合成ベクトルとの類似度に基
    づいて、前記検索単位の構成要素を検索して、類似度の
    高い合成ベクトルに対応する構成要素を抽出する検索手
    段と、 前記検索手段による検索の結果を表示する表示手段と、 を有することを特徴とする文書検索装置。
  12. 【請求項12】 前記ベクトル合成手段は、前記内容ベ
    クトルが見出しであるか否かによって、前記内容ベクト
    ルに、さらに重み付けを行うことを特徴とする請求項1
    1記載の文書検索装置。
  13. 【請求項13】 前記ベクトル合成手段は、前記基本ベ
    クトルと前記内容ベクトルとの類似度に応じて、前記内
    容ベクトルに、さらに重み付けを行うことを特徴とする
    請求項11記載の文書検索装置。
  14. 【請求項14】 前記検索手段による検索の結果から、
    内容を表示するための構成要素の単位を選択する表示要
    素選択部と、選択された単位を含む上位の構成要素から
    表示させたい構成要素を選択する表示範囲選択部と、前
    記表示範囲選択部にて選択された前記構成要素を前記文
    書蓄積手段から抽出し、前記表示手段に表示させる表示
    文書抽出部と、を含む検索文書抽出手段を、さらに有す
    ることを特徴とする請求項11記載の文書検索装置。
JP16610097A 1996-11-25 1997-06-23 文書検索装置及び文書検索方法 Expired - Fee Related JP3598742B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP16610097A JP3598742B2 (ja) 1996-11-25 1997-06-23 文書検索装置及び文書検索方法
US08/975,468 US5943669A (en) 1996-11-25 1997-11-21 Document retrieval device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP31376196 1996-11-25
JP8-313761 1996-11-25
JP16610097A JP3598742B2 (ja) 1996-11-25 1997-06-23 文書検索装置及び文書検索方法

Publications (2)

Publication Number Publication Date
JPH10207911A true JPH10207911A (ja) 1998-08-07
JP3598742B2 JP3598742B2 (ja) 2004-12-08

Family

ID=26490600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16610097A Expired - Fee Related JP3598742B2 (ja) 1996-11-25 1997-06-23 文書検索装置及び文書検索方法

Country Status (2)

Country Link
US (1) US5943669A (ja)
JP (1) JP3598742B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034638A (ja) * 1999-07-27 2001-02-09 Fujitsu Ltd 索引生成装置及び方法及び記録媒体
JP2003519841A (ja) * 1999-12-22 2003-06-24 キム,チュンテ 情報モデリング方法及び情報モデリングにより構築されたデータベースを用いて検索を行う方法
JP2008234670A (ja) * 1998-12-24 2008-10-02 Ricoh Co Ltd 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008305088A (ja) * 2007-06-06 2008-12-18 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法および文書処理プログラム
JP2009075627A (ja) * 2007-09-18 2009-04-09 Konica Minolta Business Technologies Inc 文書処理装置
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2009211277A (ja) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP2010211664A (ja) * 2009-03-12 2010-09-24 Toshiba Corp 検索を支援する装置、方法およびプログラム
JP2011146059A (ja) * 2005-03-04 2011-07-28 Chutnoon Inc 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法
US8046370B2 (en) 2003-01-06 2011-10-25 Microsoft Corporation Retrieval of structured documents
WO2015159702A1 (ja) * 2014-04-14 2015-10-22 株式会社toor 部分情報抽出システム
JP2018005718A (ja) * 2016-07-06 2018-01-11 カシオ計算機株式会社 データ管理システムおよびデータ管理プログラム
JP2019101993A (ja) * 2017-12-07 2019-06-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP2020095496A (ja) * 2018-12-13 2020-06-18 コニカミノルタ株式会社 文書処理装置および文書処理プログラム

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144973A (en) * 1996-09-06 2000-11-07 Kabushiki Kaisha Toshiba Document requesting system and method of receiving related document in advance
JPH10143403A (ja) * 1996-11-12 1998-05-29 Fujitsu Ltd 情報管理装置および情報管理プログラム記憶媒体
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6865715B2 (en) * 1997-09-08 2005-03-08 Fujitsu Limited Statistical method for extracting, and displaying keywords in forum/message board documents
US20080028292A1 (en) * 1997-12-22 2008-01-31 Ricoh Company, Ltd. Techniques to facilitate reading of a document
US6571251B1 (en) * 1997-12-30 2003-05-27 International Business Machines Corporation Case-based reasoning system and method with a search engine that compares the input tokens with view tokens for matching cases within view
JP4194680B2 (ja) * 1998-01-30 2008-12-10 康 清木 データ処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
US7194471B1 (en) * 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document
US6842876B2 (en) * 1998-04-14 2005-01-11 Fuji Xerox Co., Ltd. Document cache replacement policy for automatically generating groups of documents based on similarity of content
JP3696731B2 (ja) * 1998-04-30 2005-09-21 株式会社日立製作所 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000029902A (ja) * 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
US6582475B2 (en) * 1998-09-09 2003-06-24 Ricoh Company Limited Automatic adaptive document printing help system
JP2000285140A (ja) * 1998-12-24 2000-10-13 Ricoh Co Ltd 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US7047486B1 (en) * 1999-01-21 2006-05-16 Sony Corporation Method and device for processing documents and recording medium
JP3880235B2 (ja) * 1999-01-29 2007-02-14 キヤノン株式会社 情報検索装置及びその方法、及びそのプログラムを記憶した記憶媒体
US6360227B1 (en) * 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
US8572069B2 (en) 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
AU4328000A (en) 1999-03-31 2000-10-16 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US6408294B1 (en) * 1999-03-31 2002-06-18 Verizon Laboratories Inc. Common term optimization
WO2000079426A1 (en) * 1999-06-18 2000-12-28 The Trustees Of Columbia University In The City Of New York System and method for detecting text similarity over short passages
US7228492B1 (en) 1999-07-06 2007-06-05 Ricoh Company, Ltd. 2D graph displaying document locations of user-specified concept of interest
US6718363B1 (en) 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US6397211B1 (en) * 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
US6912525B1 (en) 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US20020040363A1 (en) * 2000-06-14 2002-04-04 Gadi Wolfman Automatic hierarchy based classification
US7069310B1 (en) 2000-11-10 2006-06-27 Trio Systems, Llc System and method for creating and posting media lists for purposes of subsequent playback
WO2002054279A1 (en) * 2001-01-04 2002-07-11 Agency For Science, Technology And Research Improved method of text similarity measurement
US6778975B1 (en) * 2001-03-05 2004-08-17 Overture Services, Inc. Search engine for selecting targeted messages
WO2002082224A2 (en) * 2001-04-04 2002-10-17 West Publishing Company System, method, and software for identifying historically related legal opinions
US20030046297A1 (en) * 2001-08-30 2003-03-06 Kana Software, Inc. System and method for a partially self-training learning system
JP3873135B2 (ja) * 2002-03-08 2007-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理方法、これを用いた情報処理システム及びプログラム
US7130837B2 (en) * 2002-03-22 2006-10-31 Xerox Corporation Systems and methods for determining the topic structure of a portion of text
JP4226261B2 (ja) * 2002-04-12 2009-02-18 三菱電機株式会社 構造化文書種別判定システム及び構造化文書種別判定方法
JP2004086846A (ja) * 2002-06-27 2004-03-18 Oki Electric Ind Co Ltd 情報区分装置、方法及びプログラム、並びに、情報区分プログラムを記録した記録媒体
US20060244768A1 (en) * 2002-11-15 2006-11-02 Humanizing Technologies, Inc. Enhanced personalized portal page
US20060248570A1 (en) * 2002-11-15 2006-11-02 Humanizing Technologies, Inc. Customized media presentation
US8032358B2 (en) 2002-11-28 2011-10-04 Nuance Communications Austria Gmbh Classifying text via topical analysis, for applications to speech recognition
JP4238616B2 (ja) * 2003-03-28 2009-03-18 株式会社日立製作所 類似文書検索方法および類似文書検索装置
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
AU2004281008A1 (en) * 2003-10-10 2005-04-21 Humanizing Technologies, Inc Clustering based personalized web experience
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
JP2006033795A (ja) * 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。
US20060036649A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
US20060036566A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
US8805803B2 (en) * 2004-08-12 2014-08-12 Hewlett-Packard Development Company, L.P. Index extraction from documents
US9031898B2 (en) * 2004-09-27 2015-05-12 Google Inc. Presentation of search results based on document structure
US20060167930A1 (en) * 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
JP2008522311A (ja) * 2004-12-01 2008-06-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツアイテムの関連付けに基づく自動的なコンテンツ整理
JP4170325B2 (ja) * 2005-08-05 2008-10-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 辞書の妥当性を評価する装置、方法およびプログラム
JP4321549B2 (ja) * 2005-09-28 2009-08-26 セイコーエプソン株式会社 文書作成システム、文書作成方法、プログラムおよび記憶媒体
JP4923604B2 (ja) * 2006-02-13 2012-04-25 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7519619B2 (en) * 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
US8401841B2 (en) * 2006-08-31 2013-03-19 Orcatec Llc Retrieval of documents using language models
KR100837751B1 (ko) * 2006-12-12 2008-06-13 엔에이치엔(주) 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
US20080288488A1 (en) * 2007-05-15 2008-11-20 Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer Method and system for determining trend potentials
KR20090011232A (ko) * 2007-07-25 2009-02-02 삼성전자주식회사 정보 검색방법 및 이를 적용한 방송 수신장치
US20090063470A1 (en) 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US20090116736A1 (en) * 2007-11-06 2009-05-07 Copanion, Inc. Systems and methods to automatically classify electronic documents using extracted image and text features and using a machine learning subsystem
US8572084B2 (en) 2009-07-28 2013-10-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor
WO2011028553A1 (en) 2009-08-24 2011-03-10 Fti Technology Llc Generating a reference set for use during document review
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
US20110106797A1 (en) * 2009-11-02 2011-05-05 Oracle International Corporation Document relevancy operator
US20120041955A1 (en) * 2010-08-10 2012-02-16 Nogacom Ltd. Enhanced identification of document types
US20120166415A1 (en) * 2010-12-23 2012-06-28 Microsoft Corporation Supplementing search results with keywords derived therefrom
US9098570B2 (en) 2011-03-31 2015-08-04 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for paragraph-based document searching
WO2013009879A1 (en) 2011-07-11 2013-01-17 Paper Software LLC System and method for processing document
AU2012281160B2 (en) * 2011-07-11 2017-09-21 Paper Software LLC System and method for processing document
US10592593B2 (en) 2011-07-11 2020-03-17 Paper Software LLC System and method for processing document
US10452764B2 (en) 2011-07-11 2019-10-22 Paper Software LLC System and method for searching a document
JP2013149061A (ja) * 2012-01-19 2013-08-01 Nec Corp 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム
US9959315B1 (en) * 2014-01-31 2018-05-01 Google Llc Context scoring adjustments for answer passages
US10366126B2 (en) * 2014-05-28 2019-07-30 Hewlett-Packard Development Company, L.P. Data extraction based on multiple meta-algorithmic patterns
US10866992B2 (en) * 2016-05-14 2020-12-15 Gratiana Denisa Pol System and methods for identifying, aggregating, and visualizing tested variables and causal relationships from scientific research
WO2017210618A1 (en) 2016-06-02 2017-12-07 Fti Consulting, Inc. Analyzing clusters of coded documents
CN107808007A (zh) * 2017-11-16 2018-03-16 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN110728139A (zh) * 2018-06-27 2020-01-24 鼎复数据科技(北京)有限公司 关键信息提取模型及其构建方法
US11556572B2 (en) * 2019-04-23 2023-01-17 Nice Ltd. Systems and methods for coverage analysis of textual queries
US11789944B2 (en) * 2021-04-12 2023-10-17 Microsoft Technology Licensing, Llc User-specific computer interaction recall

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5130924A (en) * 1988-06-30 1992-07-14 International Business Machines Corporation System for defining relationships among document elements including logical relationships of elements in a multi-dimensional tabular specification
JP2885487B2 (ja) * 1990-07-26 1999-04-26 日本電信電話株式会社 文書内情報検索装置
US5434962A (en) * 1990-09-07 1995-07-18 Fuji Xerox Co., Ltd. Method and system for automatically generating logical structures of electronic documents
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
AU5969896A (en) * 1995-06-07 1996-12-30 International Language Engineering Corporation Machine assisted translation tools

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234670A (ja) * 1998-12-24 2008-10-02 Ricoh Co Ltd 文書分類装置、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001034638A (ja) * 1999-07-27 2001-02-09 Fujitsu Ltd 索引生成装置及び方法及び記録媒体
JP2003519841A (ja) * 1999-12-22 2003-06-24 キム,チュンテ 情報モデリング方法及び情報モデリングにより構築されたデータベースを用いて検索を行う方法
US8046370B2 (en) 2003-01-06 2011-10-25 Microsoft Corporation Retrieval of structured documents
JP2011146059A (ja) * 2005-03-04 2011-07-28 Chutnoon Inc 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法
JP2008305088A (ja) * 2007-06-06 2008-12-18 Konica Minolta Business Technologies Inc 文書処理装置、文書処理方法および文書処理プログラム
JP2009075627A (ja) * 2007-09-18 2009-04-09 Konica Minolta Business Technologies Inc 文書処理装置
US8983965B2 (en) 2007-10-12 2015-03-17 Nec Corporation Document rating calculation system, document rating calculation method and program
JP5187313B2 (ja) * 2007-10-12 2013-04-24 日本電気株式会社 文書重要度算出システム、文書重要度算出方法およびプログラム
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP4594992B2 (ja) * 2008-03-03 2010-12-08 日本電信電話株式会社 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP2009211277A (ja) * 2008-03-03 2009-09-17 Nippon Telegr & Teleph Corp <Ntt> 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
JP2010211664A (ja) * 2009-03-12 2010-09-24 Toshiba Corp 検索を支援する装置、方法およびプログラム
WO2015159702A1 (ja) * 2014-04-14 2015-10-22 株式会社toor 部分情報抽出システム
JP2015203960A (ja) * 2014-04-14 2015-11-16 株式会社toor 部分情報抽出システム
JP2018005718A (ja) * 2016-07-06 2018-01-11 カシオ計算機株式会社 データ管理システムおよびデータ管理プログラム
JP2019101993A (ja) * 2017-12-07 2019-06-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
JP2020095496A (ja) * 2018-12-13 2020-06-18 コニカミノルタ株式会社 文書処理装置および文書処理プログラム

Also Published As

Publication number Publication date
JP3598742B2 (ja) 2004-12-08
US5943669A (en) 1999-08-24

Similar Documents

Publication Publication Date Title
JP3598742B2 (ja) 文書検索装置及び文書検索方法
Tandel et al. A survey on text mining techniques
Jalal et al. Text documents clustering using data mining techniques.
US7971150B2 (en) Document categorisation system
US9600533B2 (en) Matching and recommending relevant videos and media to individual search engine results
US6442540B2 (en) Information retrieval apparatus and information retrieval method
EP1736901B1 (en) Method for classifying sub-trees in semi-structured documents
US6772148B2 (en) Classification of information sources using graphic structures
CN106202124B (zh) 网页分类方法及装置
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US20090300046A1 (en) Method and system for document classification based on document structure and written style
Lydia et al. Correlative study and analysis for hidden patterns in text analytics unstructured data using supervised and unsupervised learning techniques
JP3735335B2 (ja) 類似性判断のための例題ベース検索方法及び検索システム
Holzinger et al. Using ontologies for extracting product features from web pages
Sarkar et al. Automatic bangla text summarization using term frequency and semantic similarity approach
Gopan et al. Comparative study on different approaches in keyword extraction
Visa Technology of text mining
KR20010064269A (ko) 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
Hybridised OntoKnowNHS: Ontology Driven Knowledge Centric Novel Hybridised Semantic Scheme for Image Recommendation Using Knowledge Graph
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
Ramachandran et al. Document Clustering Using Keyword Extraction
Lagus et al. WEBSOM-a status report
Alanzi et al. Query-Focused Multi-document Summarization Survey
Bernardes et al. Exploring NPL: Generating Automatic Control Keywords

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040906

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070924

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080924

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090924

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100924

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees