JP2000231563A

JP2000231563A - 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2000231563A
Application number: JP11030909A
Authority: JP
Inventors: Katsumi Tada; 勝己多田; Takuya Okamoto; 卓哉岡本; Natsuko Sugaya; 菅谷　　奈津子; Tadataka Matsubayashi; 忠孝松林; Yasuhiko Inaba; 靖彦稲場; Yasushi Kawashita; 靖司川下
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-02-09
Filing date: 1999-02-09
Publication date: 2000-08-22
Anticipated expiration: 2019-02-09
Also published as: US7039636B2; JP3696745B2; US20030200211A1

Abstract

(57)【要約】【課題】指定された検索タームを含む文書を漏れなく
検索できる任意語での検索と、単語境界を意識した検索
とを使いわけることのできる検索システム。【解決手段】登録対象文書に対し形態素解析等の単語
識別処理を行ない、単語の先頭位置と末尾位置を識別
し、識別結果を基に単語境界情報を取得し、登録対象文
書から抽出した所定長の部分文字列（ｎ−ｇｒａｍ）に
対し文書識別情報と該ｎ−ｇｒａｍの文書における出現
位置情報と前記単語境界情報を有する検索用インデクス
を作成する。そして検索時には、検索タームに対応する
検索用インデクスを抽出し、該検索用インデクスに基づ
き、これらの単語境界情報を用いて単語の境界を意識し
た単語識別検索（前方一致、後方一致、完全一致検索）
と、単語境界情報を用いない単語境界を意識しない任意
語検索を高速に実現する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、大規模な文書デー
タベースの全文を対象として、指定した文字列の存在す
る文書を高速に検索するフルテキストサーチに係わり、
データベース、文書管理システム、文書ファイリングシ
ステムおよびＤＴＰ（ＤｅｓｋＴｏｐＰｕｂｌｉｓｈ
ｉｎｇ）システムなどに適用されるものである。

【０００２】

【従来の技術】大規模な文書データベースから指定され
た検索文字列（以下、検索タームと呼ぶ）が含まれる文
書を高速に探し出す方式として、ｎ−ｇｒａｍインデク
ス方式（以下、方式１と呼ぶ）がある。ｎ−ｇｒａｍイ
ンデクス方式とは、文書の登録時に文書中の全てのｎ−
ｇｒａｍ（連続するｎ文字からなる文字列）についてそ
の出現位置情報をインデクスとして格納しておき、検索
時には検索ターム中のｎ−ｇｒａｍに対しそのインデク
スを参照し、検索ターム中の位置関係とインデクス中の
位置関係が等しいかどうかを判定（以下、隣接判定と呼
ぶ）することによって、検索タームが出現する文書を探
し出す方式である。

【０００３】図２に１−ｇｒａｍインデクス方式の例を
示す。本図に示すように、方式１では、文書の登録時に
文書中の全てのｎ−ｇｒａｍ（図２の例ではｎ＝１）に
ついてその出現位置情報をインデクスとして格納する。
例えば、“に”という１−ｇｒａｍは文書‘００１’の
‘３’文字目に出現するので、その文書番号‘００１’
と文字位置‘３’を“に”に対応するインデクス２００
に格納する。検索時には、指定された検索タームから抽
出したｎ−ｇｒａｍ（図２の例ではｎ＝１）のインデク
ス間で出現位置情報の隣接判定を行うことにより、検索
タームの出現位置情報を取得する。例えば、“微生物”
が検索タームとして指定された場合には、この検索ター
ムからまず、１−ｇｒａｍ “微”、“生”および
“物”を抽出する。そして、“微”に対応するインデク
ス２０１、“生”に対応するインデクス２０２および
“物”に対応するインデクス２０３の間で出現位置情報
の隣接判定を行うことによって、“微生物”の出現位置
情報を取得する。本図の例では、“微”、“生”および
“物”が文書番号‘００１’の‘９’文字目から、文書
番号‘０５６’の‘５’文字目から隣り合っているの
で、それらの出現位置に“微生物”が存在することが分
かる。以上のように、方式１では、文書を走査すること
なしに、インデクスの読込みと出現位置情報の隣接判定
だけで検索が行えるため、大規模な文書データベースに
適用した場合でも高速なフルテキストサーチを実現でき
る可能性がある。

【０００４】しかし、方式１では、ｎを１とすると、す
なわち１−ｇｒａｍのインデクスを用いると、１−ｇｒ
ａｍは全文書中（データベース中）における出現頻度が
高いため、一つの１−ｇｒａｍに対する出現位置情報が
増え、個々のインデクスの容量が大きくなる。このため
インデクスの読込みに時間が掛かるばかりでなく、出現
位置情報による隣接判定の回数も増えるため、検索に時
間が掛かるという問題が生じる。検索を高速にするため
にはｎの値を増やした容量の小さなインデクスを作成す
る必要があるが、短い検索タームが指定された場合でも
検索が行えるようにｎの小さなインデクスも全て作成し
ておかなければならない。その結果、総インデクス容量
が増加することになる。

【０００５】また、方式１のようなインデクス型の文書
検索方法では、“キー探索技法−ＩＶトライとその応
用”（青江順一著、情報処理Ｖｏｌ．３４、Ｎｏ．２、
１９９３、ｐｐ．２４４−２５１）に記載されているト
ライのような木構造で文字列（方式１の場合はｎ−ｇｒ
ａｍ）を管理する必要がある。トライとは検索対象とな
る文字列すなわちキーワードの集合（以下、キー集合と
呼ぶ）における各キーワード（以下、キーと呼ぶ）に共
通な前方部分文字列を共通の節で括り出して作られる木
構造である。このトライは登録や検索の際に用いられ、
登録する文字列あるいは検索ターム中の文字列でキーを
辿ってトライを探索することにより、その文字列に対応
するインデクスを指し示すポインタ情報を取得すること
ができる。トライの探索に掛かる時間はキーの数に依存
しないため、大規模なデータベースに適用した場合で
も、高速にキーワードを探索できるという特徴がある。

【０００６】図３にキー集合｛ｂａｂｙ、ｂａｄｇｅ、
ｂａｄｇｅｒ、ｊａｒ｝に対応するトライを示す。この
トライでは節１（３００）から節２（３０１）へ枝ラベ
ルｂ（３０２）が定義され、二重丸で示すキーの末尾に
あたる節にはそのキーに対するインデクスへのポインタ
情報が設定されている。例えば、検索タームとして“ｂ
ａｂｙ”が指定された場合には、文字列“ｂａｂｙ”で
本図のトライを探索することにより、節５（３０３）に
設定されているポインタ情報Ｐｔ１が得られ、このポイ
ンタ情報Ｐｔ１が示す先に検索ターム“ｂａｂｙ”に対
応するインデクスが格納されていることになる。方式１
において、このトライを用いてｎ−ｇｒａｍを管理する
際、個々のインデクスの容量を小さくして検索を高速に
するためにｎ−ｇｒａｍを長くしたインデクスを作成す
ると、ｎ−ｇｒａｍの種類が増え、トライの節が増える
ため、トライ全体の規模が大きくなってしまうという問
題がある。

【０００７】この総インデクス容量とインデクスを管理
する木構造の容量の増加という問題を解決するために
「特開平８−１９４７１８号」（以下、公知例１と呼
ぶ）で、インデクスの容量がある基準値（以下、基準イ
ンデクスサイズと呼ぶ）を超えたｎ−ｇｒａｍに対して
のみ、ｎの値を増やして容量の小さなインデクスを作成
することにより、常に容量の小さなインデクスの読込み
と出現位置情報の隣接判定で済むようにして、高速な検
索を実現するとともに、総インデクス容量およびインデ
クスを管理する木構造（以下、トライで説明する）の容
量の増加を防ぐ方式が開示されている。図４に公知例１
に開示されているインクリメンタルｎ−ｇｒａｍインデ
クス方式の概要を示す。本方式では、文書の登録時にｎ
−ｇｒａｍに対応するインデクスを作成するともに、文
書中の２文字の接続情報をトライ１２２に登録する。そ
して、文書を登録していき、インデクスの容量が基準イ
ンデクスサイズを超えた場合には、対応するｎ−ｇｒａ
ｍに１文字追加したｎ−ｇｒａｍ（以下、拡張ｎ−ｇ
ｒａｍと呼ぶ）のインデクスを作成する。以下、図４を
用いてインデクスの作成方法を具体的に説明する。ｎ−
ｇｒａｍに１文字追加した拡張ｎ−ｇｒａｍを作成する
ためには、まずトライ１２２を参照してそのｎ−ｇｒａ
ｍに続く可能性のあるｎ−ｇｒａｍを取得する。そし
て、検出されたｎ−ｇｒａｍ（以下、接続ｎ−ｇｒａｍ
と呼ぶ）のインデクスと基準インデクスサイズより容量
が大きくなったｎ−ｇｒａｍ（以下、基準インデクス超
過ｎ−ｇｒａｍと呼ぶ）のインデクスの間で出現位置情
報の隣接判定を行うことにより、拡張ｎ−ｇｒａｍのイ
ンデクスを作成する。本図の例では、“生”という１−
ｇｒａｍに対応するインデクスが基準インデクスサイズ
より大きくなっており、“生”が基準インデクス超過ｎ
−ｇｒａｍとなる。ここで、まず、“生”という文字で
トライ１２２を探索し、“生”に続く接続ｎ−ｇｒａｍ
を取得する。本図に示す例では、トライ１２２を探索す
ることにより、“生”の後ろに“物”と“息”が続くこ
とが分かる。そこで、“生”と“物”、“生”と“息”
のインデクスの間で出現位置情報の隣接判定を行うこと
により、“生物”、“生息”といった“生”に１文字追
加した拡張ｎ−ｇｒａｍのインデクス４００を作成す
る。以上のように、公知例１を用いることにより、容量
が大きく検索に時間が掛かるインデクスに対しては、そ
のｎ−ｇｒａｍに１文字追加した拡張ｎ−ｇｒａｍに対
するインデクスを作成するため、常に容量の小さなイン
デクスの読込みと出現位置情報の隣接判定で済むように
なるため、高速な検索を実現することができるようにな
る。また、それ以外のインデクスに対しては、ｎ−ｇｒ
ａｍの長さを増やしたインデクスを作成しないため、総
インデクス容量およびｎ−ｇｒａｍを管理する木構造
（トライ）の容量の増加を防ぐことができる。

【０００８】

【発明が解決しようとする課題】以上説明したように、
公知例１に開示されているｎ−ｇｒａｍ型のインデクス
方式によると、基準インデクスサイズより容量が大きく
検索に時間が掛かるインデクスに対しては、そのキーで
あるｎ−ｇｒａｍに１文字を追加した容量の小さなイン
デクスを作成することになるため、常に容量の小さなイ
ンデクスの読込みと出現位置情報の隣接判定で済むよう
になり、高速な検索を実現することが可能となる。ま
た、基準インデクスサイズより容量の小さなインデクス
に対しては、それ以上ｎ−ｇｒａｍを長くしたインデク
スを作成しないため、総インデクス容量およびｎ−ｇｒ
ａｍを管理する木構造（トライ）の容量の増加を防ぐこ
とが可能となる。

【０００９】しかし、ｎ−ｇｒａｍ型のインデクス方式
による全文検索では、検索対象に指定された検索ターム
が、検索タームの持つ本来の意味ではなく、別単語中の
部分語として含まれるようなノイズ文書が検索されてし
まうという問題がある。例えば、登録対象文書中の全て
の隣り合う２文字に対しインデクスを作成する２−ｇｒ
ａｍインデクス方式では、登録対象文書中の“電気温水
器”という文字列から“電気”、“気温”、“温水”お
よび“水器”がインデクス作成対象文字列として抽出さ
れる。そして、検索時に“気温”という検索タームが指
定された場合には、“気温”に該当する２−ｇｒａｍイ
ンデクスを参照することにより検索結果を得る。このた
め、検索ターム本来の“気温”としての意味ではなく、
“電気”の部分文字“気”と“温水器”の部分文字
“温”が隣接して現れた前記文書も、検索結果として抽
出されてしまうことになる。

【００１０】これに対し、指定された検索タームが別単
語中の部分語として含まれるような文書をノイズ文書と
して排除する方法として、従来から形態素解析を用いた
単語インデクス方式が用いられており、その概要が「鍵
を握るインデクス処理」（日経バイト記事、1996年10月
号、158ページ〜167ページ）」内の161ページ右（以
下、公知例２と呼ぶ）に示されている。この方式では、
文書登録時に、登録対象文書中の文字列を品詞毎に分解
し、その中から辞書を用いて有意語（単語）を抽出する
形態素解析処理を行う。そして、これらの有意語に対
し、検索用のインデクスを作成する。

【００１１】本方式によると、先述した登録対象文書中
の文字列“電気温水器”から、単語として“電気温水
器”のみが抽出され、検索用のインデクスが作成され
る。すなわち、“気温”は単語として抽出されないた
め、インデクスは作成されず、検索タームとして“気
温”が指定された場合にも本文書は検索されることなく
検索結果から排除されることになる。しかし、単語イン
デクス方式では、逆に辞書に登録されていない語（新
語、造語、略語、複合語など）は検索できないという問
題がある。すなわち、先ほどの例において辞書中に“電
気温水器”が登録されていない場合には、“電気温水
器”に対しインデクスが作成されず、その結果検索ター
ムとして“電気温水器”が指定された場合に本文書が検
索できないという問題がある。

【００１２】このようにｎ−ｇｒａｍ型のインデクシン
グ方式と形態素解析型の単語インデクシング方式には、
互いに相反する問題点（辞書に未登録の語を含む任意語
の検索を実現しようとすると、指定された検索タームが
別単語中の部分語として含まれるノイズ文書が検索され
てしまう）がある。すなわち、検索時に検索目的に応じ
てこれらの検索機能を使い分けるためには、ｎ−ｇｒａ
ｍ型のインデクシング方式と形態素解析型の単語インデ
クシング方式を併用する必要がある。つまり、ｎ−ｇｒ
ａｍと単語の両方についてインデクスを作成することに
なり、十分な検索性能を得るためにはインデクス容量が
大きくなりシステムが高価になる、十分な登録性能が得
られない、ならびに保守性に劣るという問題点があっ
た。

【００１３】すなわち、本発明が解決しようとする課題
は、指定された検索タームを含む文書を漏れなく検索で
きる任意語での検索と、指定された検索タームが別単語
中の部分文字列として存在する文書を検索結果から排除
する単語境界を意識した検索を、検索目的に応じて使い
わけることのできる、保守性に優れた検索システムを、
高性能かつ安価に提供することである。

【００１４】

【課題を解決するための手段】上記課題を解決するため
に、本発明は、予め登録された文書の集合を対象とし
て、指定された文字列を含む文書の検索を行なう文書検
索システムにおける文書検索方法であり、登録する文書
のテキストデータを対象として単語の抽出処理を行い、
該テキストデータ中の単語の先頭位置と末尾位置を識別
し、先頭または末尾を示す識別情報をそれぞれ単語先頭
文字または末尾文字に付加したテキストデータを生成す
る単語境界識別ステップと、該生成したテキストデータ
から所定長の部分文字列（ｎ−ｇｒａｍ）を抽出する登
録用ｎ−ｇｒａｍ抽出ステップと、前記抽出ｎ−ｇｒａ
ｍについて、該テキストデータのテキスト識別情報と該
テキストデータにおける出現位置情報を含む文字位置情
報を抽出するとともに、前記単語境界識別ステップの識
別結果に基づき、該ｎ−ｇｒａｍの先頭文字が単語の先
頭位置であった場合には単語の先頭境界識別情報を、ま
た該ｎ−ｇｒａｍの末尾文字が単語の末尾位置であった
場合には単語の末尾境界識別情報を抽出し、該抽出ｎ−
ｇｒａｍについて抽出した情報を有する該抽出ｎ−ｇｒ
ａｍに対応する検索用インデクスを生成し、記憶する単
語境界情報格納型ｎ−ｇｒａｍインデクス作成登録ステ
ップとを有するようにしている。

【００１５】さらに、前記単語境界識別ステップは、単
語の抽出処理において、形態素解析用の単語辞書と、漢
字、カタカナ、ひらがな、数字、アルファベット、およ
び記号のうち少なくとも２種類以上の文字種別情報と、
所定長の部分文字列の前方および後方において文字種の
変化点に現れる頻度を統計的に蓄積した文字種境界確率
とのうち、少なくとも１つ以上を用いるようにしてい
る。

【００１６】また、予め登録された文書の集合を対象と
して、指定された文字列を含む文書の検索を行なう文書
検索システムにおける文書検索方法であり、指定された
検索タームから、所定長の部分文字列（ｎ−ｇｒａｍ）
を抽出する検索用ｎ−ｇｒａｍ抽出ステップと、前記ｎ
−ｇｒａｍに関するテキスト識別情報と該テキストデー
タにおける出現位置情報と単語の先頭境界識別情報と単
語の末尾境界識別情報を有するインデクスデータを抽出
する検索用インデクス抽出ステップと、検索用インデク
ス抽出ステップにおいて抽出されたインデクス中のテキ
スト識別情報と、出現位置情報と、単語の先頭境界識別
情報ないし末尾境界識別情報の少なくとも一つ以上とを
用いて、別単語中の部分文字列として含まれる文書をノ
イズとして排除して指定された検索タームを含む文書を
漏れなく検索する単語識別検索ステップとを有するよう
にしている。

【００１７】さらに、指定された検索条件が、指定され
た検索タームを含む文書を漏れなく検索する任意語検索
であるか、指定された検索タームが別単語中の部分文字
列として存在する文書を検索結果から排除する単語境界
を意識した単語識別検索であるかを判定する検索条件判
定ステップと、該検索条件判定ステップにおける判定結
果が任意語検索の場合には、検索用インデクス抽出ステ
ップにおいて抽出されたインデクス中のテキスト識別情
報と出現位置情報基づき、指定された検索タームを含む
全ての文書を漏れなく検索する任意語検索ステップを有
し、前記検索条件判定ステップにおける判定結果が単語
識別検索の場合には、前記単語識別検索ステップを実行
するようにしている。

【００１８】また、予め登録された文書の集合を対象と
して、指定された文字列を含む文書の検索を行なう文書
検索システムであり、登録する文書のテキストデータを
対象として単語の抽出処理を行い、該テキストデータ中
の単語の先頭位置と末尾位置を識別し、先頭または末尾
を示す識別情報をそれぞれ単語先頭文字または末尾文字
に付加したテキストデータを生成する単語境界識別手段
と、該生成したテキストデータから所定長の部分文字列
（ｎ−ｇｒａｍ）を抽出する登録用ｎ−ｇｒａｍ抽出手
段と、前記抽出ｎ−ｇｒａｍについて、該テキストデー
タのテキスト識別情報と該テキストデータにおける出現
位置情報を含む文字位置情報を抽出するとともに、前記
単語境界識別ステップの識別結果に基づき、該ｎ−ｇｒ
ａｍの先頭文字が単語の先頭位置であった場合には単語
の先頭境界識別情報を、また該ｎ−ｇｒａｍの末尾文字
が単語の末尾位置であった場合には単語の末尾境界識別
情報を抽出し、該抽出ｎ−ｇｒａｍについて抽出した情
報を有する該抽出ｎ−ｇｒａｍに対応する検索用インデ
クスを生成し、記憶する単語境界情報格納型ｎ−ｇｒａ
ｍインデクス作成登録手段とを有するようにしている。

【００１９】また、予め登録された文書の集合を対象と
して、指定された文字列を含む文書の検索を行なう文書
検索システムであり、指定された検索タームから、所定
長の部分文字列（ｎ−ｇｒａｍ）を抽出する検索用ｎ−
ｇｒａｍ抽出手段と、前記ｎ−ｇｒａｍに関するテキス
ト識別情報と該テキストデータにおける出現位置情報と
単語の先頭境界識別情報と単語の末尾境界識別情報を有
するインデクスデータを抽出する検索用インデクス抽出
手段と、指定された検索条件が、指定された検索ターム
を含む文書を漏れなく検索する任意語検索であるか、指
定された検索タームが別単語中の部分文字列として存在
する文書を検索結果から排除する単語境界を意識した単
語識別検索であるかを判定する検索条件判定手段と、該
判定の結果が任意語検索の場合に、検索用インデクス抽
出手段により抽出されたインデクス中のテキスト識別情
報と出現位置情報基づき、指定された検索タームを含む
全ての文書を漏れなく検索する任意語検索手段と、前記
判定の結果が単語識別検索の場合に、検索用インデクス
抽出手段により抽出されたインデクス中のテキスト識別
情報と、出現位置情報と、単語の先頭境界識別情報ない
し末尾境界識別情報の少なくとも一つ以上とを用いて、
別単語中の部分文字列として含まれる文書をノイズとし
て排除して指定された検索タームを含む文書を漏れなく
検索する単語識別検索手段とを有するようにしている。

【００２０】また、文書検索プログラムを記録したコン
ピュータ読み取り可能な記録媒体であり、指定された検
索タームから、所定長の部分文字列（ｎ−ｇｒａｍ）を
抽出する手順と、前記ｎ−ｇｒａｍに関するテキスト識
別情報と該テキストデータにおける出現位置情報と単語
の先頭境界識別情報と単語の末尾境界識別情報を有する
インデクスデータを抽出する手順と、指定された検索条
件が、指定された検索タームを含む文書を漏れなく検索
する任意語検索であるか、指定された検索タームが別単
語中の部分文字列として存在する文書を検索結果から排
除する単語境界を意識した単語識別検索であるかを判定
する手順と、該判定結果が任意語検索の場合に、前記抽
出されたインデクス中のテキスト識別情報と出現位置情
報基づき、指定された検索タームを含む全ての文書を漏
れなく検索する手順と、前記判定結果が単語識別検索の
場合に、前記抽出されたインデクス中のテキスト識別情
報と、出現位置情報と、単語の先頭境界識別情報ないし
末尾境界識別情報の少なくとも一つ以上とを用いて、別
単語中の部分文字列として含まれる文書をノイズとして
排除して指定された検索タームを含む文書を漏れなく検
索する手順とを有するようにしている。

【００２１】

【発明の実施の形態】本発明による文書検索システムの
第一の実施例の構成を図１に示す。本図に示す文書検索
システムは検索結果を表示するディスプレイ１０、登録
および検索のコマンドを入力するキーボード２０、登録
処理および検索処理を実行する中央演算処理装置ＣＰＵ
３０、フロッピディスクからデータを読み出すフロッピ
ディスクドライバ４０、データベースへ登録する文書デ
ータを格納したフロッピディスク５０、登録および検索
用のプログラムならびにデータなどを一時的に格納する
主メモリ６０、各種データおよびプログラムを格納する
磁気ディスク７０およびこれらを接続するバス８０で構
成される。主メモリ６０にはシステム制御プログラム１
００に加え、登録用のプログラムとして登録制御プログ
ラム１１０、単語境界識別プログラム１１１、登録用ｎ
−ｇｒａｍ抽出プログラム１１２および単語境界情報格
納型ｎ−ｇｒａｍインデクス作成登録プログラム１１３
が、また検索用のプログラムとして検索制御プログラム
１２０、検索用ｎ−ｇｒａｍ抽出プログラム１２１、検
索用インデクス抽出プログラム１２２、検索条件判定プ
ログラム１２３、任意語検索プログラム１２４および単
語識別検索プログラム１２５が磁気ディスク７０から読
み出されるとともに、ワークエリア１３０が確保され
る。また、磁気ディスク７０にはテキスト格納領域１４
０、単語境界情報格納型ｎ−ｇｒａｍインデクス格納領
域１４１、形態素解析用辞書格納領域１４２および各種
プログラム格納領域１４３が確保されている。以上が本
文書検索システムの構成である。

【００２２】次に、本実施例における本文書検索システ
ムの文書登録時の処理の概要について説明する。始め
に、キーボード２０から入力される登録コマンドにより
システム制御プログラム１００は登録制御プログラム１
１０を起動し、文書の登録処理を開始する。文書登録
時の処理を図５に示すPAD(Problem Analysis Diagram)
を用いて説明する。登録制御プログラム１１０は、フロ
ッピディスク５０に格納されている全ての登録対象文書
について、ステップ１００１からステップ１００５まで
に示す一連の処理を繰り返し実行する（ステップ１００
０）。まず、ステップ１００１ではフロッピディスクド
ライバ４０を通じてフロッピディスク５０に格納されて
いる登録対象文書群から未処理の文書を１個選択し、主
メモリ６０上のワークエリア１３０に読み出す。次に、
ステップ１００２で、ステップ１００１で読み込んだ登
録対象文書に対し、文書データベース中で該当文書を一
意に識別するための番号である文書識別子を割り当て
る。また、登録対象文書を磁気ディスク７０上のテキス
ト格納領域１４０に格納する。

【００２３】さらに、ステップ１００３において主メモ
リ６０上のワークエリア１３０に読み込まれた登録対象
文書に対し、単語境界識別プログラム１１１を実行し、
磁気ディスク７０上の形態素解析用辞書１４２を参照し
ながら形態素解析処理を行うことにより、単語の抽出処
理を行い、単語の境界位置に識別記号を付加していく。
そして、ステップ１００４で登録用ｎ−ｇｒａｍ抽出プ
ログラム１１２を実行し、登録対象文書中から所定長の
部分文字列（ｎ−ｇｒａｍ）を検索用インデクス生成対
象文字列として抽出する。最後に、単語境界情報格納型
ｎ−ｇｒａｍインデクス作成登録プログラム１１３を実
行し、ステップ１００４において抽出されたｎ−ｇｒａ
ｍの文字位置情報に加え、該当ｎ−ｇｒａｍの先頭文字
が単語の先頭境界に当たる場合には先頭境界識別情報
を、また該当ｎ−ｇｒａｍの末尾文字が単語の末尾境界
に当たる場合には末尾境界識別情報を付加した検索用イ
ンデクスを作成する。そして、これを磁気ディスク７０
上の単語境界情報格納型ｎ−ｇｒａｍインデクス格納領
域１４１に格納する。以上が本実施例における登録処理
の概要である。

【００２４】次に、図５におけるステップ１００３、ス
テップ１００４およびステップ１００５の処理内容につ
いて簡単に説明を補足する。まず、ステップ１００３に
おける単語境界識別プログラムでは登録対象文書の内容
を解析することにより単語を抽出し、各単語の先頭およ
び末尾に識別記号を付与したテキストを生成しワークエ
リア１３０に出力する。なお、本実施例における単語の
抽出処理では公知例２に記載されている形態素解析技術
に基づく方法も用いるものとする。

【００２５】また、ステップ１００４における登録用ｎ
−ｇｒａｍ抽出処理では、ステップ１００３によりワー
クエリア１３０上に生成された単語の先頭および末尾の
識別記号を付与されたテキストから、所定長の部分文字
列（ｎ−ｇｒａｍ）を抽出する。ここで抽出するｎ−ｇ
ｒａｍの文字長は検索性能および検索用インデクスの容
量に大きく依存するが、説明の簡略化のため本実施例で
は登録対象文書中の全ての１文字を抽出する方法（１−
ｇｒａｍインデクス方式）を用いるものとする。そし
て、単語の先頭を表す識別記号直後および単語の末尾を
表す識別記号直前の１−ｇｒａｍについては、それを識
別するための符号を付与する。

【００２６】さらに、ステップ１００５における単語境
界情報格納型ｎ−ｇｒａｍインデクス作成登録プログラ
ムでは、ステップ１００４で抽出した登録対象文書中の
全ての１文字（１−ｇｒａｍ）について、登録対象文書
における文書識別子と各１−ｇｒａｍが登録対象文書内
の何文字目に現れたかを示す出現位置情報の組みを文字
位置情報として生成する。また、各１−ｇｒａｍが単語
の先頭を表す識別記号直後の場合には単語の先頭境界識
別情報を、単語の末尾を表す識別記号を直前の１−ｇｒ
ａｍについては単語の末尾境界識別情報を付与した検索
用インデクスを作成する。

【００２７】以下、本プログラムの処理内容について図
６に示すPADを用いて説明する。まず、ステップ１１０
０では既に登録済みの文書があるか否かを判定する。そ
して、その判定の結果、まだ登録された文書が存在しな
い場合にはステップ１１０１においてトライおよび検索
用インデクス(単語境界情報格納型ｎ−ｇｒａｍインデ
クス)の初期化処理を行う。次に、ステップ１１０２に
おいて該当文書の文書識別子を抽出した後、ステップ１
１０３において、単語境界情報を付与したテキストデー
タの先頭から末尾に至るまでステップ１１０４からステ
ップ１１０８に示す一連の処理を繰り返す。すなわち、
ステップ１１０４において登録用ｎ−ｇｒａｍとしてテ
キストデータから１文字（１−ｇｒａｍ）を読み込み、
ステップ１１０５において該当文字がトライに登録済み
であるか否かを判定する。そして、トライ未登録の場合
にはステップ１１０６において該当文字に関するインデ
クス格納領域をアロケートした後、ステップ１１０７で
トライへの登録処理を行う。そして、ステップ１１０８
において該当文字に関するインデクス格納領域末尾に該
当文書の文書識別子、文字位置を格納するとともに、該
当文字が単語の先頭境界の場合には単語の先頭境界フラ
グに“１”を付与する。また該当文字が単語の末尾境界
の場合には単語の末尾境界識フラグに“１”を付与した
検索用インデクス（単語境界情報格納型ｎ−ｇｒａｍイ
ンデクス）を生成し、これを磁気ディスク７０上の単語
境界情報格納型ｎ−ｇｒａｍインデクス格納領域１４１
に格納する。以上が、本実施例におけるステップ１００
３、１００４および１００５の処理内容である。

【００２８】次に、本実施例における文書登録時の具体
的な処理内容について、「新型の電気温水器を開発し
た。」という文書が登録された場合を例に説明する。本
例では、登録対象文書は１件であるため図５に示すPAD
におけるステップ１０００の繰り返し処理は、本文書の
みを対象として実行されることになる。まず、図５に示
すPADにおけるステップ１００１では、「新型の電気温
水器を開発した。」というテキストデータを主メモリ６
０上ワークエリア１３０に読み込む。そして図５に示す
PADにおけるステップ１００２において、本登録対象文
書をデータベース中で一意に識別するための番号として
文書識別子001を割り当てる。次に、図５に示すPADに
おけるステップ１００３では、形態素解析用辞書を参照
することにより単語として“新型”、“電気温水器”お
よび“開発”を識別する。そして図７に示すように、そ
れらの前方と末尾に、それぞれ単語の先頭を表わす識別
記号“[TOW]”（TOWはTop Of Wordの略）およびそれぞ
れ単語の末尾を表わす識別記号“[EOW]”（EOWはEnd Of
Wordの略）を付加して主メモリ６０上のワークエリア
１３０に格納する。

【００２９】さらにステップ１００４では、図８に示す
ようにステップ１００３において生成された単語の境界
情報を付加したテキストデータから、登録対象となるｎ
−ｇｒａｍとして該当文書中の全ての１文字“新”、
“型”、“の”、“電”、“気”、“温”、“水”、
“器”、“を”、・・・を抽出する。そして、単語の先
頭境界の直後の文字にあたる“新”、“電”および
“開”に対し先頭境界情報を、また単語の末尾境界の直
前の文字にあたる“型”、“器”および“発”に対し末
尾境界情報を付与する。

【００３０】最後にステップ１００５で、ステップ１０
０４において抽出したｎ−ｇｒａｍに対し該当文書の文
書識別子（Did）および該当文書内での文字位置（Pos）
を出現位置情報として格納するとともに、単語の境界フ
ラグを付与した検索用インデクス（単語境界情報格納型
ｎ−ｇｒａｍインデクス）およびトライを生成する。

【００３１】すなわち、まずはじめに図６に示すPADの
ステップ１１００を実行するが、この時点では登録済み
の文書が存在しないためステップ１１００での判定結果
は“なし”となり、ステップ１１０１においてトライお
よび単語境界情報格納型ｎ−ｇｒａｍインデクスの初期
化処理を行う。そして、ステップ１１０２において登録
対象文書の文書識別子“001”を抽出する。次にステッ
プ１１０３における繰り返し処理の１回目の処理として
ステップ１１０４で第一文字目の“新”を抽出する。こ
の時点では“新”は未だ登録されていないため、ステッ
プ１１０５での判定結果は“未登録”であり、ステップ
１１０６において“新”に関するインデクス領域をアロ
ケートするとともにステップ１１０７において該当イン
デクス領域へのポインタ“Pt1”をトライに登録する。
そして、ステップ１１０８において文書識別子Didとし
て“001”を、文字位置Posとして“1”を格納するとと
もに単語の先頭境界フラグに“１”を、末尾境界フラグ
に“０”付与したインデクスを生成する。次に、ステッ
プ１１０３における繰り返し処理の２回目の処理として
ステップ１１０４で第二文字目の“型”を抽出する。こ
の時点では“型”は未登録のため、ステップ１１０５で
の判定結果は“未登録”とあり、ステップ１１０６にお
いて“型”に関するインデクス領域をアロケートすると
ともにステップ１１０７において該当インデクス領域へ
のポインタ“Pt2”をトライに登録する。そして、ステ
ップ１１０８において文書識別子Didとして“001”を、
文字位置Posとして“2”を格納するとともに単語の先頭
境界フラグに“０”を、末尾境界フラグに“１”付与し
たインデクスを生成する。以下、同様の処理を全てのテ
キストデータに対し繰り返すことにより図８に示すトラ
イおよび検索用インデクス（単語境界情報格納型ｎ−ｇ
ｒａｍインデクス）を生成する。そして、これを磁気デ
ィスク７０上の単語境界情報格納型ｎ−ｇｒａｍインデ
クス格納領域１４１に格納することにより登録処理を完
了する。以上が本実施例における登録時の処理例であ
る。

【００３２】次に、検索時の処理について説明する。本
実施例における文書検索システムに対してネットワーク
を介してユーザから検索コマンドが入力されると、シス
テム制御プログラム１００は検索制御プログラム１２０
を起動し、文書の検索処理を開始する。文書検索時の処
理を図９に示すPADを用いて説明する。始めに、検索制
御プログラム１２０はステップ２０００で検索用ｎ−ｇ
ｒａｍ抽出プログラム１２１を実行し、指定された検索
タームから全ての１文字（１−ｇｒａｍ）を抽出するこ
とにより検索用のｎ−ｇｒａｍを抽出する。次に、ステ
ップ２００１で検索用インデクス抽出プログラム１２２
を実行し、ステップ２０００で抽出した全ての１−ｇｒ
ａｍについて検索用インデクス（単語境界識別情報格納
型ｎ−ｇｒａｍインデクス）を参照し、検索を実行する
ために必要となるインデクスデータを抽出する。そし
て、ステップ２００２において検索条件判定プログラム
１２３を実行し、指定された検索条件が単語の境界を意
識しない任意語での検索であるか、単語の境界を意識し
た単語識別検索であるかを判定する。そして、指定され
た検索条件が任意語検索の場合にはステップ２００３に
おいて任意語検索プログラム１２４を実行し、単語境界
を意識しない任意語での検索を行う。また、指定された
検索条件が単語識別検索の場合には、ステップ２００４
で単語識別検索プログラム１２５を実行し、単語境界を
意識した検索を行う。最後に、検索制御プログラム１２
０は、以上の処理によって得られた検索結果をシステム
制御プログラム１００を介して検索者に返送することに
より検索処理を終了する。以上が、本実施例における検
索処理の概要である。

【００３３】次に、図９におけるステップ２００３およ
びステップ２００４の処理内容について簡単に説明を補
足する。まず、ステップ２００３における任意語検索プ
ログラム１２４では、単語の先頭および末尾境界フラグ
を参照することなく従来技術（例えば、公知例１）に示
されているように指定された検索タームを含む文書の検
索を行う。すなわち、各ｎ−ｇｒａｍに関するインデク
スデータとして格納されている文書識別子と文字位置を
参照し、各ｎ−ｇｒａｍが同一文書中に存在し、かつ各
ｎ−ｇｒａｍの並びが検索タームと同一である文書を抽
出することにより検索を行う。

【００３４】また、ステップ２００４における単語識別
検索プログラム１２５では、上述したステップ２００３
における任意語検索処理に加え、単語の先頭および末尾
境界フラグを利用した判定処理を行う。ここで想定して
いる単語識別検索としては単語の前方一致検索（例えば
検索タームとして“気温”を指定した場合に“気温
差”、“気温変化”などを含む文書を検索）、後方一致
検索（例えば検索タームとして“気温”を指定した場合
に“外気温”、“平均気温”などを含む文書を検索）、
ならびに完全一致検索（例えば検索タームとして“気
温”を指定した場合に“気温”そのものを含む文書のみ
を検索）がある。そして、これらのそれぞれに対し、前
方一致検索の場合には検索タームの先頭から抽出したｎ
−ｇｒａｍに関する単語の先頭境界フラグに“１”が設
定されているものだけを、後方一致検索の場合には検索
タームの末尾から抽出したｎ−ｇｒａｍに関する単語の
末尾境界フラグに“１”が設定されているものだけを、
また完全一致検索の場合にはこれらの両方に“１”が設
定されているものだけを抽出することにより単語境界を
意識した検索を実行する。以上が検索時処理の処理内容
である。

【００３５】次に、各種検索条件が指定された場合につ
いて、具体的な検索処理の内容を例を挙げて説明する。
まず、図８に示すトライおよび検索用インデクスを対象
として検索ターム“電気温水器”で任意語検索を行った
場合の処理例について図１０を用いて説明する。まず、
図９に示すPADのステップ２０００において検索用ｎ−
ｇｒａｍ抽出処理を実行することにより、検索ターム中
“電気温水器”中の全ての１−ｇｒａｍ“電”、
“気”、“温”、“水”および“器”を抽出する。そし
てステップ２００１において検索用インデクス抽出処理
を実行することにより図８に示すトライおよび検索用イ
ンデクスから“電”、“気”、“温”、“水”および
“器”に該当するインデクスデータを抽出する。そし
て、本例では検索条件は任意語検索であるため、ステッ
プ２００２における判定結果は“任意語検索”となり、
ステップ２００３の任意語検索処理を実行する。すなわ
ち、本処理では“電”、“気”、“温”、“水”および
“器”に関するインデクスデータが同一の文書識別子
（Did）を持ち、かつ文字位置（Pos）が１ずつ異なって
連続しているか否かを判定することにより、文書識別子
Didが001である文書の文字位置4に指定された検索ター
ムが存在することが分かる。

【００３６】次に、先ほどと同様に図８に示すトライお
よび検索用インデクスを対象として検索ターム“電気温
水器”で単語の完全一致検索を行った場合の処理例につ
いて図１１を用いて説明する。まず、図９に示すPADの
ステップ２０００およびステップ２００１においては、
先ほどの例と同一の処理を行うことにより、図８に示す
トライおよび検索用インデクスから“電”、“気”、
“温”、“水”および“器”に該当するインデクスデー
タを抽出する。次に、ステップ２００２で検索条件の判
定処理を行うが、本例では検索条件は単語の完全一致検
索（単語識別検索）であるため、判定結果は“単語識別
検索”となり、ステップ２００４の単語識別検索処理を
実行する。すなわち、本処理では“電”、“気”、
“温”、“水”および“器”に関するインデクスデータ
が同一の文書識別子（Did）を持ち、かつ文字位置（Po
s）が１ずつ異なって連続しているか否かを判定するこ
とにより、文書識別子Didが001である文書の文字位置4
に指定された検索タームが存在することが分かる。さら
に単語の境界判定処理を行うことにより、検索ターム
“電気温水器”から抽出した先頭のｎ−ｇｒａｍ“電”
の先頭境界フラグが“１”であり、かつ末尾のｎ−ｇｒ
ａｍ“器”の末尾境界フラグが“１”であるものを抽出
することにより、検索結果として文書識別子Didが001で
ある文書の文字位置4を検索結果として出力する。

【００３７】さらに、先ほどと同様に図８に示すトライ
および検索用インデクスを対象として検索ターム“気
温”で単語の完全一致検索を行った場合の処理例につい
て図１２を用いて説明する。まず、図９に示すPADのス
テップ２０００およびステップ２００１において、検索
用ｎ−ｇｒａｍ抽出処理および検索用インデクス抽出処
理を行うことにより、図８に示すトライおよび検索用イ
ンデクスから“気”および“温”に該当するインデクス
データを抽出する。次に、ステップ２００２で検索条件
の判定処理を行うが、本例では検索条件は単語の完全一
致検索（単語識別検索）であるため、判定結果は“単語
識別検索”となり、ステップ２００４の単語識別検索処
理を実行する。すなわち、本処理では“気”および
“温”に関するインデクスデータが同一の文書識別子
（Did）を持ち、かつ文字位置（Pos）が１ずつ異なって
連続しているか否かを判定することにより、文書識別子
Didが001である文書の文字位置5に指定された検索ター
ムが存在することが分かる。さらに単語の境界判定処理
では、検索ターム“気温”から抽出した先頭のｎ−ｇｒ
ａｍ“気”の先頭境界フラグが“１”であり、かつ末尾
のｎ−ｇｒａｍ“温”の末尾境界フラグが“１”である
ものを抽出するが、ここではこれらのフラグが共に
“０”であるため検索結果として出力されない。以上が
本実施例における文書検索時の処理内容である。

【００３８】このように、本発明によると文書の登録時
に登録対象文書に対し形態素解析処理を行い単語の境界
を識別するとともに、該当ｎ−ｇｒａｍが単語の先頭境
界であったか否かを示す先頭境界フラグ、ならびに末尾
境界であったか否かを示す末尾境界フラグを付加した検
索用のインデクスを生成する。そして、検索時に検索条
件が単語の境界を意識した単語識別検索の場合には、検
索タームの先頭から抽出したｎ−ｇｒａｍに関する先頭
境界フラグおよび末尾から抽出したｎ−ｇｒａｍに関す
る末尾境界フラグから、単語識別検索（単語の前方一致
検索、末尾一致検索、完全一致検索）を実現することが
可能になる。さらに、本例では図７における形態素解析
用辞書に“電気温水器”が登録されていることを前提と
して説明を行った。しかし、文書登録の時点で“電気”
および“温水器”が辞書に登録されているが、その複合
語である“電気温水器”が辞書に登録されていない場合
にも、“電”が“電気温水器”を構成する単語“電気”
の先頭境界であり、“器”が“電気温水器”を構成する
単語“温水器”の末尾境界であることから、複合語であ
る検索ターム“電気温水器”に対する単語一致検索を実
現することが可能である。

【００３９】なお、本実施例では登録対象１件毎に磁気
ディスク７０におけるテキスト格納領域１４０ならびに
単語境界情報格納型ｎ−ｇｒａｍインデクス格納領域１
４１上のデータを更新していく方式について述べたが、
全ての登録対象文書に対するテキストおよび単語境界情
報格納型ｎ−ｇｒａｍインデクスを主メモリ６０上のワ
ークエリア１８０に作成したあと、これらを一括して磁
気ディスク７０に書き込む方式であっても構わない。

【００４０】また、本実施例では単語境界識別プログラ
ム１１１として公知例２に示されている形態素解析処理
を行う方式について述べたが、文書の先頭から順次単語
辞書を機械的に参照しながら文字列を抽出していく方法
であっても構わないし、例えば漢字、カタカナやアルフ
ァベットなどの連続した同一文字種文字列を単語として
切り出すといったように、漢字、カタカナ、平仮名、数
字、記号およびアルファベットといった文字種情報を用
いて分割した単語を用いる方法であっても構わない。ま
た、特願平１０−１４８７２１に開示したように、テキ
ストデータベースから抽出した各ｎ−ｇｒａｍ前後での
文字種の区切れ目に着目し、全出現頻度に対してその前
後に文字種の区切れ目が出現した確率（文字種境界確
率）を用いて単語を抽出する処理であっても構わない。
すなわち、本方式に基づく文書検索方法では、所定の文
書から抽出したｎ−ｇｒａｍに対し、該当ｎ−ｇｒａｍ
の出現回数を算出する。また、該当ｎ−ｇｒａｍの前に
文字種の変化点が現れた回数および該当ｎ−ｇｒａｍの
後方で文字種の変化点が現れた回数を計数することによ
り、各ｎ−ｇｒａｍの前方に文字種の変化点が現れる確
率と各ｎ−ｇｒａｍの後方で文字種の変化点が現れる確
率を算出し、それぞれを前方文字種境界確率および後方
文字種境界確率としておく。そして文書登録時には、登
録文書内の各文字位置において、その前後のｎ−ｇｒａ
ｍを抽出し、前方側のｎ−ｇｒａｍにおける後方文字種
境界確率と後方ｎ−ｇｒａｍにおける前方文字種境界確
率から、単語境界を判定する方式であっても構わない。

【００４１】さらに、本実施例における登録用ｎ−ｇｒ
ａｍ抽出プログラム１１２では登録対象文書から、また
検索用ｎ−ｇｒａｍ抽出プログラム１２２では検索ター
ムから全ての１文字を文字列を抽出する１−ｇｒａｍイ
ンデクス方式について述べたが、１文字以上の所定長の
部分文字列に対して検索用インデクスを作成するｎ−ｇ
ｒａｍインデクス方式一般について本発明に示す検索機
能は適用可能であることは云うまでもない。また、公知
例１に示されているように、データベース中での出現頻
度に応じてインデクス作成対象とする部分文字列長（ｎ
−ｇｒａｍ長）を動的に変更するインクリメンタルｎ−
ｇｒａｍインデクス方式に適用することも可能である。

【００４２】そして、本実施例では検索用プログラムお
よび登録用プログラムを磁気ディスク上７０上の各種プ
ログラム格納領域１４３に格納したが、光磁気ディスク
装置など他の二次記憶装置に格納する構成であっても構
わない。また、ＣＤ−ＲＯＭなどの可搬型の媒体に格納
し、これらを必要に応じてＣＤ−ＲＯＭドライブ（図示
せず）から読み出す構成であっても構わない。また、上
記実施例からも明らかなように、登録用のプログラムと
検索用のプログラムは独立して動作することが可能であ
ることから、これらを別々の媒体に格納することも可能
であるし、別々のコンピュータシステムないしはＣＰＵ
で動作させることも可能である。

【００４３】

【発明の効果】本発明によると、指定された検索ターム
を含む文書を漏れなく検索できる任意語での検索と、指
定された検索タームが別単語中の部分文字列として存在
する文書を検索結果から排除する単語境界を意識した検
索を、検索目的に応じて使いわけることのできる、保守
性に優れた検索システムを、高性能かつ安価に提供する
ことが可能になる。

【図面の簡単な説明】

【図１】本発明の第一の実施例における構成を示す図で
ある。

【図２】従来方式１（ｎ−ｇｒａｍインデクス方式）の
概要を示す図である。

【図３】従来方式におけるトライの構成を示す図であ
る。

【図４】公知例１の処理内容を示す図である。

【図５】実施例における登録処理のフローを示す図であ
る。

【図６】実施例における単語境界情報格納型ｎ−ｇｒａ
ｍインデクス作成登録プログラムの処理フローを示す図
である。

【図７】実施例における登録処理（単語境界識別処理）
の例を示す図である。

【図８】実施例における登録処理（登録用ｎ−ｇｒａｍ
抽出処理および単語境界情報格納型ｎ−ｇｒａｍインデ
クス作成登録処理）の例を示す図である。

【図９】実施例における検索処理のフローを示す図であ
る。

【図１０】実施例における検索処理の例（1）を示す図
である。

【図１１】実施例における検索処理の例（2）を示す図
である。

【図１２】実施例における検索処理の例（3）を示す図
である。

【符号の説明】

１０ディスプレイ２０キーボード３０中央演算処理装置ＣＰＵ４０フロッピディスクドライバ５０フロッピディスク６０主メモリ７０磁気ディスク８０バス１００システム制御プログラム１１０登録制御プログラム１１１単語境界識別プログラム１１２登録用ｎ−ｇｒａｍ抽出プログラム１１３単語境界情報格納型ｎ−ｇｒａｍインデクス作
成登録プログラム１２０検索制御プログラム１２１検索用ｎ−ｇｒａｍ抽出プログラム１２２検索用インデクス抽出プログラム１２３検索条件判定プログラム１２４任意語検索プログラム１２５単語識別検索プログラム１３０ワークエリア１４０テキスト格納領域１４１単語境界情報格納型ｎ−ｇｒａｍインデクス格
納領域１４２形態素解析用辞書格納領域１４３各種プログラム格納領域

───────────────────────────────────────────────────── フロントページの続き (72)発明者菅谷奈津子神奈川県川崎市幸区鹿島田890番地株式会社日立製作所システム開発本部内 (72)発明者松林忠孝神奈川県川崎市幸区鹿島田890番地株式会社日立製作所システム開発本部内 (72)発明者稲場靖彦神奈川県川崎市幸区鹿島田890番地株式会社日立製作所システム開発本部内 (72)発明者川下靖司神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア事業部内Ｆターム(参考） 5B075 ND03 NK02 NK13 NK48 NR06 PP23 QM01 QM03

Claims

【特許請求の範囲】

【請求項１】予め登録された文書の集合を対象とし
て、指定された文字列を含む文書の検索を行なう文書検
索システムにおける文書検索方法であって、登録する文書のテキストデータを対象として単語の抽出
処理を行い、該テキストデータ中の単語の先頭位置と末
尾位置を識別し、先頭または末尾を示す識別情報をそれ
ぞれ単語先頭文字または末尾文字に付加したテキストデ
ータを生成する単語境界識別ステップと、該生成したテキストデータから所定長の部分文字列（ｎ
−ｇｒａｍ）を抽出する登録用ｎ−ｇｒａｍ抽出ステッ
プと、前記抽出ｎ−ｇｒａｍについて、該テキストデータのテ
キスト識別情報と該テキストデータにおける出現位置情
報を含む文字位置情報を抽出するとともに、前記単語境
界識別ステップの識別結果に基づき、該ｎ−ｇｒａｍの
先頭文字が単語の先頭位置であった場合には単語の先頭
境界識別情報を、また該ｎ−ｇｒａｍの末尾文字が単語
の末尾位置であった場合には単語の末尾境界識別情報を
抽出し、該抽出ｎ−ｇｒａｍについて抽出した情報を有
する該抽出ｎ−ｇｒａｍに対応する検索用インデクスを
生成し、記憶する単語境界情報格納型ｎ−ｇｒａｍイン
デクス作成登録ステップとを有することを特徴とする文
書検索方法。
【請求項２】請求項１記載の文書検索方法において、前記単語境界識別ステップは、単語の抽出処理におい
て、形態素解析用の単語辞書と、漢字、カタカナ、ひら
がな、数字、アルファベット、および記号のうち少なく
とも２種類以上の文字種別情報と、所定長の部分文字列
の前方および後方において文字種の変化点に現れる頻度
を統計的に蓄積した文字種境界確率とのうち、少なくと
も１つ以上を用いることを特徴とする文書検索方法。
【請求項３】予め登録された文書の集合を対象とし
て、指定された文字列を含む文書の検索を行なう文書検
索システムにおける文書検索方法であって、指定された検索タームから、所定長の部分文字列（ｎ−
ｇｒａｍ）を抽出する検索用ｎ−ｇｒａｍ抽出ステップ
と、前記ｎ−ｇｒａｍに関するテキスト識別情報と該テキス
トデータにおける出現位置情報と単語の先頭境界識別情
報と単語の末尾境界識別情報を有するインデクスデータ
を抽出する検索用インデクス抽出ステップと、検索用インデクス抽出ステップにおいて抽出されたイン
デクス中のテキスト識別情報と、出現位置情報と、単語
の先頭境界識別情報ないし末尾境界識別情報の少なくと
も一つ以上とを用いて、別単語中の部分文字列として含
まれる文書をノイズとして排除して指定された検索ター
ムを含む文書を漏れなく検索する単語識別検索ステップ
とを有することを特徴とする文書検索方法。
【請求項４】請求項３記載の文書検索方法において、指定された検索条件が、指定された検索タームを含む文
書を漏れなく検索する任意語検索であるか、指定された
検索タームが別単語中の部分文字列として存在する文書
を検索結果から排除する単語境界を意識した単語識別検
索であるかを判定する検索条件判定ステップと、該検索条件判定ステップにおける判定結果が任意語検索
の場合には、検索用インデクス抽出ステップにおいて抽
出されたインデクス中のテキスト識別情報と出現位置情
報基づき、指定された検索タームを含む全ての文書を漏
れなく検索する任意語検索ステップを有し、前記検索条件判定ステップにおける判定結果が単語識別
検索の場合には、前記単語識別検索ステップを実行する
ことを特徴とする文書検索方法。
【請求項５】予め登録された文書の集合を対象とし
て、指定された文字列を含む文書の検索を行なう文書検
索システムであって、登録する文書のテキストデータを対象として単語の抽出
処理を行い、該テキストデータ中の単語の先頭位置と末
尾位置を識別し、先頭または末尾を示す識別情報をそれ
ぞれ単語先頭文字または末尾文字に付加したテキストデ
ータを生成する単語境界識別手段と、該生成したテキストデータから所定長の部分文字列（ｎ
−ｇｒａｍ）を抽出する登録用ｎ−ｇｒａｍ抽出手段
と、前記抽出ｎ−ｇｒａｍについて、該テキストデータのテ
キスト識別情報と該テキストデータにおける出現位置情
報を含む文字位置情報を抽出するとともに、前記単語境
界識別ステップの識別結果に基づき、該ｎ−ｇｒａｍの
先頭文字が単語の先頭位置であった場合には単語の先頭
境界識別情報を、また該ｎ−ｇｒａｍの末尾文字が単語
の末尾位置であった場合には単語の末尾境界識別情報を
抽出し、該抽出ｎ−ｇｒａｍについて抽出した情報を有
する該抽出ｎ−ｇｒａｍに対応する検索用インデクスを
生成し、記憶する単語境界情報格納型ｎ−ｇｒａｍイン
デクス作成登録手段とを有することを特徴とする文書検
索システム。
【請求項６】予め登録された文書の集合を対象とし
て、指定された文字列を含む文書の検索を行なう文書検
索システムであって、指定された検索タームから、所定長の部分文字列（ｎ−
ｇｒａｍ）を抽出する検索用ｎ−ｇｒａｍ抽出手段と、前記ｎ−ｇｒａｍに関するテキスト識別情報と該テキス
トデータにおける出現位置情報と単語の先頭境界識別情
報と単語の末尾境界識別情報を有するインデクスデータ
を抽出する検索用インデクス抽出手段と、指定された検索条件が、指定された検索タームを含む文
書を漏れなく検索する任意語検索であるか、指定された
検索タームが別単語中の部分文字列として存在する文書
を検索結果から排除する単語境界を意識した単語識別検
索であるかを判定する検索条件判定手段と、該判定の結果が任意語検索の場合に、検索用インデクス
抽出手段により抽出されたインデクス中のテキスト識別
情報と出現位置情報基づき、指定された検索タームを含
む全ての文書を漏れなく検索する任意語検索手段と、前記判定の結果が単語識別検索の場合に、検索用インデ
クス抽出手段により抽出されたインデクス中のテキスト
識別情報と、出現位置情報と、単語の先頭境界識別情報
ないし末尾境界識別情報の少なくとも一つ以上とを用い
て、別単語中の部分文字列として含まれる文書をノイズ
として排除して指定された検索タームを含む文書を漏れ
なく検索する単語識別検索手段とを有することを特徴と
する文書検索システム。
【請求項７】指定された検索タームから、所定長の部
分文字列（ｎ−ｇｒａｍ）を抽出する手順と、前記ｎ−ｇｒａｍに関するテキスト識別情報と該テキス
トデータにおける出現位置情報と単語の先頭境界識別情
報と単語の末尾境界識別情報を有するインデクスデータ
を抽出する手順と、指定された検索条件が、指定された検索タームを含む文
書を漏れなく検索する任意語検索であるか、指定された
検索タームが別単語中の部分文字列として存在する文書
を検索結果から排除する単語境界を意識した単語識別検
索であるかを判定する手順と、該判定結果が任意語検索の場合に、前記抽出されたイン
デクス中のテキスト識別情報と出現位置情報基づき、指
定された検索タームを含む全ての文書を漏れなく検索す
る手順と、前記判定結果が単語識別検索の場合に、前記抽出された
インデクス中のテキスト識別情報と、出現位置情報と、
単語の先頭境界識別情報ないし末尾境界識別情報の少な
くとも一つ以上とを用いて、別単語中の部分文字列とし
て含まれる文書をノイズとして排除して指定された検索
タームを含む文書を漏れなく検索する手順とを有する文
書検索プログラムを記録したコンピュータ読み取り可能
な記録媒体。