JPH0721212A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH0721212A
JPH0721212A JP5166929A JP16692993A JPH0721212A JP H0721212 A JPH0721212 A JP H0721212A JP 5166929 A JP5166929 A JP 5166929A JP 16692993 A JP16692993 A JP 16692993A JP H0721212 A JPH0721212 A JP H0721212A
Authority
JP
Japan
Prior art keywords
document
dictionary
word
search
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5166929A
Other languages
English (en)
Inventor
Hidetoshi Hamada
英俊 濱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP5166929A priority Critical patent/JPH0721212A/ja
Publication of JPH0721212A publication Critical patent/JPH0721212A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】解析用辞書と検索用辞書とを一元的に管理し
て、辞書間の整合処理の排除及び記憶容量の低減を図
る。 【構成】見出し語に対応して、文書識別子を含む属性情
報と形態素解析用データを備える辞書13dと、指定さ
れた文書から辞書13dを参照して語句を抽出する形態
素解析部13cと、抽出された語句に対応する辞書13
dの見出し語の文書属性欄に当該指定文書の文書識別子
を登録する登録部13bと、指定語句から辞書13dの
見出し語を参照して当該見出し語を含む文書識別子を検
索する検索部13aとから構成される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書処理装置に関し、
特に文書から語句を抽出して辞書に登録し、指定した語
句を持つ文書を該辞書を用いて検索する文書処理装置に
関する。
【0002】
【従来の技術】従来、光ディスク装置のような大容量の
記憶媒体に複数の文書を予め記憶しておき、キーワード
を検索条件として入力することにより、当該検索条件に
合致する文書を記憶媒体から取り出す文書検索技術が知
られている。
【0003】この技術においては、文書を効率良く検索
するために、キーワードを予め各文書から取り出してキ
ーワード専用ファイルに記憶しておき、入力キーワード
を含む文書がこのキーワード専用ファイルの検索結果と
して出力されることになる。
【0004】この際、膨大な文書から人手を使ってキー
ワードを抽出していたのでは、人的及び時間的負担が大
きいため、最近では自動抽出技術が用いられることが多
い。
【0005】例えば、特開昭63−228326号公報
に開示されるキーワード自動抽出方式では、形態素解析
処理の中に不要語除去処理を組み込み、利用者辞書と基
本辞書を分離した発明が記載されている。
【0006】すなわち、キーワードの自動抽出を行う際
には、各文書から語句の単位でキーワードを抽出する必
要があるため、上記発明のように辞書が用いられること
となる。
【0007】ところで、文書検索を行う際には、文書か
ら抽出したキーワードと入力したキーワードとを効率良
く照合して、該当文書を取り出す必要があるため、文書
から抽出したキーワードを格納するキーワードファイル
にインデックス等を付して辞書的に取り扱う技術が知ら
れている。
【0008】例えば、特開昭60−100223号公報
には、文書からページ単位で検索語を選び出し、読み仮
名順に登録を行う索引作成機能を有する文書管理方法が
開示されている。この発明では、索引語に読み仮名を付
与して読み仮名順に索引語をソートする手段を有してい
るため、キーワードの照合を効率的に行うことができる
のである。
【0009】このため、かかる従来技術を実現する際に
は、文書からキーワードを抽出するための辞書(以下、
「解析用辞書」という)と、文書検索を行うための辞書
的なキーワードファイル(以下、「検索用辞書」とい
う)とが別々に必要となる。
【0010】
【発明が解決しようとする課題】しかしながら、解析用
辞書及び検索用辞書を別々に持つとすると、辞書の見出
し語と該見出し語の内容とからなるレコード(以下、
「エントリ」という)を辞書に追加する場合や辞書の更
新を行う場合に、両者の辞書を整合させる必要が生じ
る。
【0011】例えば、解析用辞書に「文書」及び「検
索」という2つのエントリが含まれる場合に、該解析用
辞書を用いて文書の形態素解析を行うと、当該文書から
「文書」及び「検索」という語句が抽出されるため、検
索用辞書の「文書」エントリ及び「検索」エントリに、
当該文書識別子が登録されることになる。
【0012】ここで、解析用辞書の「文書」及び「検
索」という2つのエントリを統合して新たに「文書検
索」というエントリを設けた場合には、以後形態素解析
を行う文書は、「文書検索」というエントリに登録され
ることになる。
【0013】このため、検索用辞書を用いて「文書検
索」という語句を有する文書を検索した場合に、解析用
辞書のエントリ変更を行う前に検索用辞書に登録した文
書は、検索できないことになる。
【0014】このように、解析用辞書及び検索用辞書は
互いに従属する性質を有するため、解析用辞書に新たな
エントリを追加する際には、併せて検索用辞書のエント
リ変更を行う必要が生じるのである。
【0015】さらに、かかる検索用辞書の変更は、解析
用辞書の変更と同時に行わなければ、該当文書を検索で
きないおそれがあるため、辞書のエントリ変更は辞書管
理上大きな負担となっている。
【0016】そこで、本発明では上記問題点を解決し、
解析用辞書と検索用辞書とを一元的に管理することによ
り、複数の辞書相互間の整合処理を排除するとともに、
該辞書の記憶容量を低減できる文書処理装置を提供する
ことを目的とする。
【0017】
【課題を解決するための手段】上記目的を達成するた
め、本発明では、記憶部に記憶した複数の文書から指定
された語句を持つ文書を検索する文書処理装置におい
て、前記語句を見出し語として、該見出し語に対応して
該見出し語を含む文書の識別子を示す属性情報及び形態
素解析のための情報を記憶する辞書(図1の13d)
と、前記辞書の見出し語と形態素解析のための情報とを
用いて、前記記憶部に記憶した複数の文書のうち指定し
た文書から語句を抽出する形態素解析手段(図1の13
c)と、該文書から抽出した語句に対応する見出し語に
対応して当該文書の識別子を登録する登録手段(図1の
13b)と、前記辞書の見出し語と属性情報とを用い
て、指定された語句を持つ文書の文書識別子を検索する
検索手段(図1の13a)とを設けたことを特徴とす
る。
【0018】
【作用】本発明によれば、形態素解析手段により指定文
書から語句を抽出する際に用いる辞書と、検索手段によ
り指定語句を持つ文書を検索する際に用いる辞書とを共
用する。
【0019】そして、指定文書の持つ語句を辞書に登録
する際には、指定文書に対して前記辞書を用いた形態素
解析により語句を抽出し、当該語句を前記辞書の見出し
語に、また指定文書の識別子を該見出し語の属性情報に
登録する。
【0020】また、指定語句を持つ文書を検索する際に
は、指定語句に対応する前記見出し語を探し、該見出し
語の属性情報から該文書を持つ文書の識別子を検索す
る。
【0021】これにより、形態素解析手段で用いる辞書
と、検索手段で用いる検索用辞書とを一元的に管理で
き、複数の辞書相互間の整合処理を不要とし、かつ辞書
の記憶容量を低減できる。
【0022】
【実施例】以下、本発明の一実施例について図面を参照
して説明する。
【0023】図1は、本発明による文書処理装置の構成
ブロック図であり、辞書に登録する文書の指定及び検索
条件として語句の入力を行う入力部11と、検索結果等
の表示を行う表示部12と、文書登録及び文書検索を行
う処理部13と、各種文書を管理する文書管理部14
と、各種文書を記憶する外部記憶装置15とから構成さ
れる。
【0024】この入力部11において、外部記憶装置1
5に記憶した文書の中から辞書に登録する文書の指定が
行われた場合には、指定文書の文書名が処理部3の登録
部13bに出力され、所望の語句が指定された場合に
は、当該語句が処理部3内の検索部13aに出力され
る。
【0025】表示部12には、検索部13aが検索した
指定語句を持つ文書の文書識別子等が表示される。
【0026】処理部13は、検索部13aと、登録部1
3bと、形態素解析部13cと、辞書13dとから構成
される。
【0027】検索部13aは、指定した語句を含む文書
の文書識別子を辞書13dから検索し、表示部12に表
示するものである。
【0028】登録部13bは、指定した文書を文書管理
部14を介して外部記憶装置15から取り出し、該文書
を形態素解析部13cに出力する。そして、形態素解析
部13cが該文書から抽出した語句を受け取り辞書13
dに登録する。
【0029】形態素解析部13cは、受け取った文書に
対し辞書13dを用いて形態素解析を行うことにより得
られる語句を、登録部13bに出力する。
【0030】この形態素解析とは、”長尾真、「日本語
情報処理」、電子情報通信学会”に記載された公知技術
であり、文書から形態素を自動的に抽出する際に一般的
に用いられる技術の一つである。
【0031】また、”形態素”とは単語や接辞のような
意味を伴う文の最小構成要素であり、本発明における”
語句”に対応するものである。この形態素解析技術を用
いると、文を構成する形態素を明らかにすることができ
るため、単語の切り出しを効率的に行うことができるの
である。
【0032】辞書13dは、形態素解析部13cが解析
を行う際に用いる解析用辞書と検索部13aが文書検索
を行う際に用いる検索用辞書とを兼用した辞書である。
このため、この辞書13dは、見出し語毎に文書属性欄
を含む属性情報と形態素解析用データとから構成され
る。
【0033】文書管理装置14は、外部記憶装置15に
記憶した各種の文書を管理するものである。具体的に
は、文書管理装置14が登録部13bから指定文書名を
受け取ったならば、該文書名に該当する文書データを外
部記憶装置15の所定のアドレスから取り出し登録部1
3bに出力する。
【0034】外部記憶装置15は、膨大な各種文書を記
憶する外部記憶媒体である。
【0035】次に、辞書13dが有するデータ構造につ
いて図2に示す一例を用いて詳細に説明する。
【0036】辞書13は、見出し語21と、属性情報2
2と、形態素解析用データ23とから構成される。ここ
で、属性情報22及び形態素解析用データ23は、見出
し語ごとにデータを有するデータ構造を持つため、属性
情報22及び形態素解析用データ23を見出し語21毎
に整理したレコード(以下、「エントリ」という)の集
合として表現される。
【0037】なお、見出し語21は、形態素解析部13
cが形態素解析を行う際に必要となる索引語と、検索部
13aが検索を行う際に必要となる索引語の役割を果た
すため、解析を行うために予め設定された語句だけでな
く、検索を行うために追加登録された語句が含まれる。
【0038】また、本実施例では、属性情報22を関連
見出し語22a及び文書属性22bにより構成してい
る。
【0039】関連見出し語22aとは、見出し語に関連
する見出し語であり、例えば見出し語が”インフォメー
ション”である場合には、図示したように”informatio
n”や”情報”が関連見出し語となる。
【0040】このため、この関連見出し語22aを用い
ると、指定語句に合致する見出し語21の属性情報欄だ
けでなく、関連見出し語22aの文書属性欄を参照する
ことにより、指定語句及び関連語句を持つ文書を効率的
に検索することができる。
【0041】文書属性22bには、見出し語21を含む
文書の文書識別子が格納される。例えば、”インフォメ
ーション”という見出し語が文書1及び文書2に含まれ
る場合には、当該文書の文書識別子(文書1、文書2)
が文書属性22bに格納される。
【0042】また、形態素解析用データ23は、辞書1
3dを用いて形態素解析部13cが形態素解析を行う際
に用いるものであり、具体的には当該見出し語の品詞、
活用形及びバイト数等が格納される。例えば、見出し語
が”インフォメーション”である場合には、品詞であ
る”名詞”とバイト数”18”とが格納される。
【0043】なお、辞書13dに対して登録部13bが
新たな見出し語を付加する場合には、当該新たな見出し
語に対応するエントリを新たに作成し、該エントリの形
態素解析用データ欄に解析用データを自動生成して格納
する。
【0044】このように、辞書13dに上記データ構造
を採用することにより、辞書13dを見出し語21と形
態素解析用データ23とを用いた形態素解析用辞書、ま
たは見出し語21と属性情報22とを用いた検索用辞書
として利用することができることになる。
【0045】また、上記のように、本発明では、辞書1
3dが解析用及び検索用として兼用されるため、形態素
解析部13cが形態素解析を行う際に属性情報22を利
用することもできる。
【0046】すなわち、従来の形態素解析によれば、指
定文書からあらゆる語句が抽出されるが、該形態素の中
には形態素として抽出する価値の無い語句が含まれてい
る。例えば、”処理”という語句は、画像処理、文書処
理等広範に用いられる語句であるため、この語句を用い
ても文書を特定できない場合が多い。この場合、かかる
語句に対応する見出し語の文書属性欄に文書識別子を登
録したとしても、膨大な量の文書識別子が含まれるた
め、文書検索に寄与しない。
【0047】そこで、形態素解析を行う際に文書属性欄
を用いることにより、文書属性欄に一定量以上の文書識
別子が含まれる場合には、該見出し語を用いた形態素解
析処理を行わない等の禁則条件を付与できることにな
る。
【0048】次に、上記構成を持つ文書処理装置におけ
る文書登録処理について図3及び図4に示すフローチャ
ートを用いて説明する。
【0049】図3は、文書登録の全体処理の流れを示す
フローチャートである。
【0050】図3に示すように、入力部11から辞書1
3dに登録する文書の指定が行われたならば(S30
1)、文書管理部14が管理する外部記憶装置15から
当該指定文書が取り出され(S302)、登録部13b
を介して形態素解析部13cに送出される。また、当該
指定文書を受け取った形態素解析部13cでは、辞書1
3dを用いて当該指定文書から語句を自動抽出し(S3
03)、登録部13bに出力する。
【0051】そして、形態素解析部13cが抽出した各
語句を受け取った登録部13bは、各語句に対応する見
出し語21を調べ、当該見出し語の文書属性欄22bに
当該文書の文書識別子を登録する(S304)ことにな
る。
【0052】さらに、この文書識別子登録処理(S30
4)について、図4に示すフローチャートを用いて詳細
に説明する。図4に示すように、まず形態素解析部13
cが抽出した語句を受け取った登録部13bは、当該語
句をバッファに格納する(S401)。そして、まずバ
ッファから語句を1つ取り出して(S402)、当該語
句を見出しとする辞書13d内のエントリを探し(S4
03)、当該語句が既に辞書13dに登録されているか
否かを確認する(S404)。
【0053】ここで、当該語句が辞書13dに登録され
ていない場合には、当該語句のエントリを新たに作成し
て(S405)、当該語句に対応する形態素解析データ
を自動生成した後、当該エントリの文書属性欄22bに
当該文書識別子を登録する(S406)。一方、当該語
句が既に辞書13dに登録済みである場合には、そのま
ま当該エントリの文書属性欄22bに当該文書識別子を
追加する(S406)。
【0054】そして、バッファ内に未処理の語句が有る
か否かを確認し(S407)、未処理の語句が有る場合
には該語句に対してS402〜S406の処理を繰り返
す。
【0055】上記処理をバッファ内の語句がなくなるま
で繰り返し、語句がなくなった時点で処理を終了する。
【0056】なお、S405においてエントリの追加を
行う際に、新たな見出し語が複数の見出し語を統合した
見出し語である場合には、各見出し語に共通する文書識
別子を当該新たな見出し語の文書属性欄に自動的に追加
する。
【0057】例えば、新たに「文書検索」という見出し
語を持つエントリを追加する場合には、「文書」及び
「検索」という2つの見出し語の文書属性欄22bを照
合し、両者に含まれる文書識別子のみを「文書検索」エ
ントリの文書属性欄22bに自動設定する。
【0058】上記登録処理を行うことにより、形態素解
析部13c及び辞書13dを用いて指定文書から取り出
した語句を当該指定文書の文書識別子とともに辞書13
dに登録できることになる。
【0059】次に、辞書13dを用いた文書検索処理に
ついて図5を用いて説明する。
【0060】図5に示すように、入力部1から複数の語
句を検索条件として入力したならば(S501)、当該
語句をバッファに格納する(S502)。そして、まず
バッファから語句を1つ取り出し(S503)、辞書1
3dの中から当該語句を見出しとするエントリを探す
(S504)。ここで、辞書13d内に当該語句のエン
トリが有る場合には当該エントリの文書属性欄22bか
ら文書識別子を取り出し(S505)、該当するエント
リがない場合には処理を終了する。
【0061】上記処理をバッファ内の語句がなくなるま
で繰り返し(S506)、語句がなくなった時点で、全
ての語句に共通する文書識別子を表示部12に表示した
後処理を終了する。
【0062】このように、形態素解析部13cが解析の
際に用いる辞書13dを用いて、指定した語句を含む文
書の文書識別子を検索することにより、辞書の整合処理
を行うことなく文書検索を行うことができる。
【0063】ところで、かかる辞書形式のテーブルを用
いて文書検索を行う際には、”青江順一、「キー検索手
法−4 トライとその応用」、情報処理Vol.34No.2、pp
244〜251”に記載された”文字トライ(trie)”と呼ば
れる検索用インデックスが用いられることが多い。
【0064】この文字トライとは、ディジタル検索法の
一種であり、文字列を対象とした語彙の検索に適する従
来技術であるため、本発明の辞書13dに適用すること
により検索効率を上げることができる。
【0065】そこで、属性情報に読み仮名欄を含む辞書
13dに対して、文字トライを用いてインデックスを付
与する一例について図6〜図7を用いて説明する。
【0066】図6は、見出し語61と、属性情報62
と、形態素解析用データ63とからなる本発明に係わる
辞書13dのデータ構造を示しており、図2に示す関連
見出し語22aに代えて読み仮名62aを用いた例であ
る。
【0067】この場合には、索引として見出し語61の
欄と属性情報62の読み仮名欄62aとを使用し、見出
し語61に対応する見出し語インデックス(図7(a))
及び読み仮名欄62aに対応する読み仮名インデックス
(図7(b))を付与することができる。
【0068】図7(a)に示す見出し語インデックスは、
英字・カタカナ・漢字の順に各見出し語を配置した文字
毎に枝を持つ木構造を形成する。ここで、見出し語”d
ata”及び見出し語”date”は、共に文字列”d
at”を持つため、ルートからノード70までの枝を共
用するとともにノード70において分岐する。また、ノ
ード71及びノード72に示すような見出し語の終端ノ
ード(以下、「終端ノード」という)には、辞書13b
の見出し語61に対応するアドレス情報を付与してい
る。
【0069】このため、指定語句に対応する見出し語を
検索する場合には、かかる見出し語インデックスを辿り
該当するアドレス情報を探索することにより、辞書のエ
ントリを確認できることになる。
【0070】例えば、図7(a)に示すノード71は、”
data”の終端ノードであるため、該ノードにおいて
は辞書13dの見出し語”data”のアドレス情報を
有する。同様に、ノード73では”date”のアドレ
ス情報を有する。
【0071】また、図7(b)に示す読み仮名インデック
スについても同様に、読み仮名の五十音順に木構造を形
成し、辞書13dの見出し語とリンクすることができ
る。この読み仮名インデックスにおいては、ノード73
及びノード74に示す終端ノードに、複数のアドレス情
報を保持することになる。
【0072】例えば、ノード73は、”いんふぉめーし
ょん”の終端であるため、辞書13dの見出し語”イン
フォメーション”及び”information”とい
う2つのアドレス情報を保持する。
【0073】このように、上記インデックスを用いるこ
とにより、辞書13dの見出し語のアドレス情報を得る
ことができるため、辞書13dの見出し語探索を効率的
に行うことができる。
【0074】次に、この文字トライによる見出し語イン
デックスを用いて辞書13dのエントリを一覧表示する
場合について説明する。
【0075】図8は、文字コード昇順にインデックスを
辿り辞書13dのエントリを表示する処理を示すフロー
チャートである。
【0076】図8に示すように、辞書13dを文字コー
ド昇順にインデックスを辿り、エントリを一覧表示する
際には、インデックスのルートを出発節として(S80
1)、辿っていない枝の有無を確認し(S802)、未
辿の枝が有る場合には最も文字コードが上位の枝を辿り
次のノードに至る(S803)。そして、当該ノードが
辞書13dへのアドレス情報を有するか否かを確認し
(S804)、アドレス情報を有している場合には辞書
の当該エントリを表示した後(S805)、未辿の枝の
有無の確認(S802)に移行し、アドレス情報を有し
ていない場合にはそのまま未辿の枝の有無の確認(S8
02)を続行する。
【0077】一方、未辿の枝が無い場合には、直前の分
岐ノードである親ノードに戻り得るか否かを確認し(S
806)、戻り得る場合には当該親ノードから未辿の枝
の有無の確認(S802)を続行する。そして、戻り得
る親ノードが無くなった時点で処理を終了する。なお、
各分岐ノードにおいては、未辿の枝の有無を確認できる
ように、フラグ等を用いることになる。
【0078】このようにして、インデックスの木構造を
探索することにより、辞書13dのエントリを文字コー
ド昇順に一覧表示することができる。また、図8のS8
03において、未辿の枝が有る場合には最も文字コード
が下位の枝を辿ることにより、文字コード降順の一覧表
示を行うこともできる。
【0079】次に、この文字トライによる見出し語イン
デックス及び読み仮名インデックスを用いて指定語句に
対応する辞書13dのエントリを探索し、当該エントリ
に含まれる文書識別子を検索する実施例ついて説明す
る。
【0080】図9は、指定語句を持つ文書識別子を表示
するフローチャートである。
【0081】この場合には、図9に示すように、見出し
語インデックスのルートを出発ノードとして検索を開始
し(S901)、指定語句の各文字を全て走査したか否
かを確認する(S902)。そして、指定語句を全て走
査していなければ、指定語句から1文字取り出し(S9
03)、その文字に対応した枝が有るか否かを確認する
(S904)。
【0082】そして、文字に対応する枝が有る場合には
当該枝を辿り次のノードに進み(S905)、上記処理
(S902〜S904)を繰り返す。一方、文字に対応
する枝が無い場合には処理を終了する。
【0083】また、S902において指定語句の各文字
を全て走査したならば、最終ノードが辞書13dのエン
トリに対応するアドレス情報を持つか否かを確認し(S
906)、アドレス情報を持つ場合には辞書13dの当
該エントリ内の文書識別子を表示した後(S907)処
理を終了する。
【0084】上記処理により、指定語句を含む文書の文
書識別子を迅速に表示することができる。なお、複数の
語句を含む文書を検索する場合には、上記処理を各語句
毎に繰り返し、各語句に共通する文書識別子を出力すれ
ば良い。
【0085】このように、辞書13dの見出し語に対し
て文字トライを適用した見出し語インデックスを用いる
ことにより、検索効率の良い文書検索を行うことができ
る。
【0086】また、辞書13dの読み仮名インデックス
を用いることにより、同様の検索を行うこともできる。
このため、上記のインデックスを用いた辞書13dのエ
ントリ表示方式は、図10に示すようにインデックスの
種別10a、開始ノード10b及び検索順序10cに対
応して各種の方式が使用できる。
【0087】すなわち、上記文字トライを用いた各種イ
ンデックスを使用することにより、検索効率を上げるこ
とができるのである。
【0088】上述したように、本実施例では、見出し語
21に対応して文書属性22bを含む属性情報22と形
態素解析用データ23とを備える辞書13dを用いて、
指定文書から語句を抽出して該辞書13dに登録し、指
定語句を持つ文書を該辞書13dから検索するよう構成
したので、解析の際に用いる辞書と検索の際に用いる辞
書とを一元管理することができる。このため、解析用辞
書と検索用辞書とを整合させる処理が不要となり、辞書
13dのエントリ変更等を容易に行うことができる。
【0089】また、解析用辞書と検索用辞書とを別々に
用いる場合に比して、見出し部分の重複を排し、メモリ
容量を節約することもできる。
【0090】さらに、形態素解析部13cから受け取っ
た語句を辞書13dに登録する登録部13bを用いて、
辞書13dのエントリを逐次追加するとともに当該追加
エントリの形態素解析用データを自動生成することによ
り、形態素解析時の解析効率を上げることもできる。
【0091】また、形態素解析を行う際に、形態素解析
用データだけではなく、文書識別子を用いることによ
り、多くの文書が含まれる語句に対しては形態素解析を
行わない等の制約を設け、検索効率を高めることもでき
る。
【0092】さらに、辞書13dの見出し語に対応する
インデックスを用いることにより、効率良く文書検索を
行うこともできる。
【0093】なお、本実施例では、辞書13dに登録を
行う文書を入力部11から指定することとしたが、本発
明はこれに限定されるものではなく、外部記憶装置15
に文書を記憶した時点で辞書13dに該文書を自動登録
することもできる。
【0094】
【発明の効果】以上詳細に説明したように、本発明によ
れば、見出し語、文書識別子を格納する属性情報及び形
態素解析のための情報を有する辞書を、文書登録時の形
態素解析用辞書及び文書検索時の検索用辞書として用い
るように構成したので、 1)辞書更新を行う際に、検索用辞書と解析用辞書との
見出し語を整合させる処理が不必要となる。
【0095】2)別個に検索用辞書と解析用辞書とを用
いる場合に比して、辞書の記憶容量を低減することが可
能となる。
【0096】3)形態素解析を行う際に、見出し語及び
形態素解析に関する情報に加えて属性情報を用いること
により、形態素解析を効率的に行うことが可能となる。
【0097】という効果がある。
【図面の簡単な説明】
【図1】 本発明の全体構成を示すブロック図。
【図2】 図1に示す辞書のデータ構造の一例を示す
図。
【図3】 文書登録処理の流れを示すフローチャート。
【図4】 図3に示す文書識別子登録処理の流れを示す
フローチャート。
【図5】 文書検索処理の流れを示すフローチャート。
【図6】 図2に示す関連見出し語に代えて読み仮名を
用いた場合の辞書のデータ構造を示す例。
【図7】 図6に示す辞書に対して、文字トライを用い
てインデックスを付与した例を示す図。
【図8】 図7に示すインデックスを用いて、文字コー
ド昇順に辞書13dのエントリを表示する処理を示すフ
ローチャート。
【図9】 図7に示すインデックスを用いて、指定語句
を持つ辞書の文書識別子を表示するフローチャート。
【図10】 図7に示すインデックスを用いた各種文書
検索手法を示す図。
【符号の説明】
11 入力部、 12 表示部、 13 処理部、 1
3a 検索部、13b 登録部、 13c 形態素解析
部、 13d 辞書、14 文書管理部、 15 外部
記憶装置

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】記憶部に記憶した複数の文書から指定され
    た語句を持つ文書を検索する文書処理装置において、 前記語句を見出し語として、該見出し語に対応して該見
    出し語を含む文書の識別子を示す属性情報及び形態素解
    析のための情報を記憶する辞書と、 前記辞書の見出し語と形態素解析のための情報とを用い
    て、前記記憶部に記憶した複数の文書のうち指定した文
    書から語句を抽出する形態素解析手段と、 該文書から抽出した語句に対応する見出し語に対応して
    当該文書の識別子を登録する登録手段と、 前記辞書の見出し語と属性情報とを用いて、指定された
    語句を持つ文書の文書識別子を検索する検索手段とを設
    けたことを特徴とする文書処理装置。
JP5166929A 1993-07-06 1993-07-06 文書処理装置 Pending JPH0721212A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5166929A JPH0721212A (ja) 1993-07-06 1993-07-06 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5166929A JPH0721212A (ja) 1993-07-06 1993-07-06 文書処理装置

Publications (1)

Publication Number Publication Date
JPH0721212A true JPH0721212A (ja) 1995-01-24

Family

ID=15840281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5166929A Pending JPH0721212A (ja) 1993-07-06 1993-07-06 文書処理装置

Country Status (1)

Country Link
JP (1) JPH0721212A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007004408A1 (ja) * 2005-06-30 2007-01-11 Sony Corporation 情報処理装置,情報処理方法および情報処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007004408A1 (ja) * 2005-06-30 2007-01-11 Sony Corporation 情報処理装置,情報処理方法および情報処理プログラム
US8312025B2 (en) 2005-06-30 2012-11-13 Sony Corporation Information processing device, information processing method, and information processing program

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US20060031207A1 (en) Content search in complex language, such as Japanese
JP2009266244A (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
US20100185438A1 (en) Method of creating a dictionary
JP2005038395A (ja) データベース検索装置
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JP4382663B2 (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
US5682543A (en) Dictionary editing apparatus
JPH09319767A (ja) 類義語辞書登録方法
JPH08263521A (ja) 文書登録検索システム
JPH056398A (ja) 文書登録装置及び文書検索装置
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JPH03260869A (ja) データ検索装置及びデータ検索方法
EP1605371A1 (en) Content search in complex language, such as japanese
JPS61248160A (ja) 文書情報登録方式
JPH0721212A (ja) 文書処理装置
JP2005158044A (ja) 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JP3187671B2 (ja) 電子辞書表示装置
JPH0944521A (ja) インデックス作成装置および文書検索装置
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JP2000339342A (ja) 文書検索方法および文書検索装置
JPH09245051A (ja) 自然言語事例検索装置及び自然言語事例検索方法
JPS6057421A (ja) 文書作成装置