JPH11338883A

JPH11338883A - 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体

Info

Publication number: JPH11338883A
Application number: JP10148721A
Authority: JP
Inventors: Tadataka Matsubayashi; 忠孝松林; Katsumi Tada; 勝己多田; Takuya Okamoto; 卓哉岡本; Natsuko Sugaya; 菅谷　　奈津子; Yasushi Kawashita; 靖司川下
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-05-29
Filing date: 1998-05-29
Publication date: 1999-12-10
Anticipated expiration: 2018-05-29
Also published as: KR19990088678A; JP3622503B2; US6473754B1; CN1237738A; KR100309062B1; CN1151456C

Abstract

(57)【要約】【課題】本発明の課題は、単語辞書を用いずに文書に記
述された内容の特徴を抽出する方法と、この方法を用い
て、高速で高精度な類似文書検索システムを提供するこ
とである。【解決手段】テキストデータベース中のテキスト１５０
に存在する文字列のそのテキスト１５０における単語の
境界に出現する確率を出現確率ファイル１５２として格
納するステップと、テキスト１５０に存在する文字列の
出現回数を出現回数ファイル１５３として格納するステ
ップと、出現確率ファイル１５２を用いてユーザが指定
したテキストから特徴文字列を抽出するステップと、ユ
ーザが指定したテキストにおける特徴文字列の出現回数
を計数するステップとを有し、出現回数ファイル１５３
とユーザが指定したテキストにおける出現回数を用いて
ユーザが指定したテキストに対する類似度を算出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書に記述された
内容の特徴を表す文字列を抽出する方法および装置並び
に文字列抽出プログラムを格納した記憶媒体と、この方
法および装置を用いて、ユーザが指定した文書に記述さ
れている内容と類似する内容を含む文書を文書データベ
ースの中から検索する方法および装置並びに検索プログ
ラムを格納した記憶媒体に関する。

【０００２】

【従来の技術】近年、パーソナルコンピュータやインタ
ーネット等の普及に伴い、電子化文書が爆発的に増加し
ており、今後も加速度的に増大していくものと予想され
る。このような状況において、ユーザが所望する情報を
含んだ文書を高速かつ効率的に検索したいという要求が
高まってきている。

【０００３】このような要求に応える技術として全文検
索がある。全文検索では、検索対象文書をテキストとし
て計算機システムに登録してデータベース化し、この中
からユーザが指定した検索文字列（以下、検索タームと
呼ぶ）を含む文書を検索する。このように全文検索で
は、文書中の文字列そのものを対象として検索を行うた
め、予めキーワードを付与し、このキーワードを手掛り
に検索する従来のキーワード検索システムとは異なり、
どんな言葉でも検索ができるという特長がある。

【０００４】しかし、ユーザが所望する情報を含んだ文
書を的確に検索するためには、ユーザの検索意図を正確
に表わす複雑な検索条件式を作成し、入力する必要があ
る。これは、情報検索の専門家でない一般のユーザにと
っては容易なことではない。

【０００５】この繁雑さを解消するために、ユーザが自
分の所望する内容を含んだ文書（以下、種文書と呼ぶ）
を例示し、その文書と類似する文書を検索する類似文書
検索技術が注目されている。

【０００６】類似文書検索の方法としては、例えば、
「特開平８−３３５２２２号公報」に、形態素解析によ
り種文書中に含まれる単語を抽出し、これを用いて類似
文書を検索する技術（以下、従来技術１と呼ぶ）が開示
されている。

【０００７】従来技術１では、形態素解析により種分書
中に含まれる単語を抽出し、この単語を含む文書を類似
文書として検索する。例えば、文書１「・・・。携帯電
話の使用時のマナーが問題になる。・・・」を種文書と
する場合、形態素解析により単語辞書を参照して、「携
帯電話」「マナー」「問題」等の単語を抽出する。この
結果、「携帯電話」を含む文書２「・・・。電車内での
携帯電話の使用は禁止されている・・・」を類似文書と
して検索することができる。

【０００８】しかし、従来技術１では、単語の抽出に単
語辞書を用いるため、次のような２つの問題がある。

【０００９】まず、単語辞書に掲載されていない単語が
文書の本質的な内容（以下、中心概念と呼ぶ）を表わす
場合、この単語が種文書から検索用の単語として抽出さ
れないため、他の単語によって類似検索が行われたとし
ても、文書の中心概念が正確に検索できない恐れがあ
る。すなわち、ユーザが所望する情報が新語で表される
ような場合、これが単語辞書に含まれていないと、目的
とする中心概念からずれた文書が検索されてしまうとい
う問題がある。

【００１０】次に、ユーザが所望する情報を表わす言葉
が単語辞書に掲載されている場合でも、単語の抽出の仕
方によっては検索の対象とする中心概念がずれてしまう
という問題がある。例えば、上記の文書１「・・・。携
帯電話の使用のマナーが問題になる。・・・」という種
文書からは、「携帯電話」「マナー」「問題」等の単語
が抽出される。しかし、「電話」という単語が抽出され
ないため文書３「・・・。電話での話し方について注意
された。・・・」という文書の類似度が低く算出されて
しまう恐れがある。

【００１１】これらは、全て単語辞書を用いて検索用の
単語を抽出する方法を用いていることに起因する。

【００１２】以上が従来技術１の問題点である。

【００１３】この問題を解決するために、「特願平９−
３０９０７８号」で、単語辞書を用いずに、種文書中か
ら漢字やカタカナ等の文字種別に連続する n文字の文字
列（以下、n-gramと呼ぶ）を漢字やカタカナ等の文字種
別に機械的に抽出し、これを用いて類似文書を検索する
技術（以下、従来技術２と呼ぶ）を提案した。

【００１４】従来技術２では、文字種別にn-gramの抽出
方法を変え、意味のまとまりをもったn-gram（以下、特
徴文字列と呼ぶ）を抽出する。例えば、漢字で構成され
る文字列（以下、漢字文字列と呼ぶ）からは機械的に2-
gramを抽出し、カタカナで構成される文字列（以下、カ
タカナ文字列と呼ぶ）からは、カタカナで構成される最
長の文字列（以下、カタカナ最長文字列と呼ぶ）、すな
わちカタカナ文字列そのものを抽出する。この場合、上
記の文書１「・・・。携帯電話の使用のマナーが問題に
なる。・・・」という種文書からは、「携帯」「帯電」
「電話」「使用」「マナー」「問題」等という特徴文字
列が抽出される。すなわち、「電話」という文字列も漏
れなく抽出されるため、従来技術１では低い類似度が算
出されてしまう文書３「・・・。電話での話し方につい
て注意された。・・・」についても正しく類似度が算出
されるようになる。

【００１５】しかし、従来技術２では、複合語を構成す
る可能性のある漢字文字列等からは、単語間にまたがる
n-gramも抽出する可能性がある。このため、これを検索
に用いると、内容の類似しない文書に対してまでも類似
度が算出され、この結果、関連のない文書が類似文書と
して検索されるという問題が生じる。例えば、上記の文
書１「・・・。携帯電話の使用のマナーが問題になる。
・・・」という種文書から抽出された「帯電」という特
徴文字列により類似度が算出され、文書４「・・・。電
荷の帯電を防ぐために、接地しなくてはならない。・・
・」という文書が類似文書として誤って検索されてしま
うという問題がある。

【００１６】この問題を解決するための技術として、
「情報処理学会論文誌 pp.2286〜2297, Vol.38, No.11,
Nov.1997」に、1-gramの統計情報を用いて特徴文字列
を抽出する技術（以下、従来技術３と呼ぶ）が提案され
ている。

【００１７】従来技術３では、文書登録時に登録文書中
に出現する各1-gramについて、単語の先頭である確率
（以下、先頭確率と呼ぶ）と末尾である確率（以下、末
尾確率と呼ぶ）を算出しておく。ここでは、単語を、漢
字やカタカナ等の文字種境界で区切られ、単一の文字種
で構成される文字列（以下、単一文字種文字列と呼ぶ）
とし、文字種境界の直後に位置する1-gramを単語の先頭
にある1-gramとし、文字種境界の直前に位置する1-gram
を単語の末尾にある1-gramとしている。

【００１８】例えば、上記の文書１「・・・。携帯電話
の使用のマナーが問題になる。・・・」から文字種境界
で抽出した“使用”という漢字文字列では、“使”が単
語の先頭にある1-gramで、“用”が単語の末尾にある1-
gramとなる。

【００１９】類似文書検索時には、まず指定された種文
書から単一文字種文字列を抽出する。次に、単一文字種
文字列内の連続する２個の1-gramにおける前方の1-gram
の末尾確率と後方の1-gramの先頭確率から、これらの1-
gram間で単一文字種文字列が分割される確率（以下、分
割確率と呼ぶ）を算出し、この値が所定の値（以下、分
割閾値と呼ぶ）を越えている場合には、そこで単一文字
種文字列を分割するという処理を行う。

【００２０】以下、分割閾値を0.050として、従来技術
３の具体的な処理方法を説明する。

【００２１】まず、文書登録時には全登録対象文書中に
出現する各1-gramについて、出現回数、単語の先頭に出
現する回数（以下、先頭回数と呼ぶ）および末尾に出現
する回数（以下、末尾回数と呼ぶ）を計数し、出現情報
ファイルに格納する。例えば、上記の文書１では“携”
の出現回数は１回、先頭回数は１回および末尾回数は０
回という出現情報が得られる。図２に出現情報ファイル
の例を示す。

【００２２】その後、上記出現情報ファイルを参照し、
各1-gramについて、それぞれ先頭確率と末尾確率を算出
し、出現確率ファイルに格納する。例えば、1-gram
“携”の先頭確率は768 / 4,740 = 0.16、末尾確率は 4
92 / 4,740 = 0.10となる。図３に出現確率ファイルの
例を示す。

【００２３】次に、単一文字種文字列「携帯電話」を例
として、従来技術３の文書検索方法を説明する。

【００２４】まず、単一文字種文字列「携帯電話」の中
から1-gramの二つの組として、（“携”，“帯”）、
（“帯”，“電”）および（“電”，“話”）の３個を
抽出する。次に、各1-gramの組において、前方の1-gram
の末尾確率と後方の1-gramの先頭確率を、登録時に作成
した出現確率ファイルから取得し、分割確率を算出す
る。

【００２５】図４に、「携帯電話」から抽出した３個の
1-gramの組における分割確率の算出過程を示す。本例で
は、（“携”，“帯”）、（“帯”，“電”）および
（“電”，“話”）の分割確率として、それぞれ0.01
1、0.054および0.005が算出され、これらの分割確率の
うち、（“帯”，“電”）の0.054が分割閾値0.050より
大きいので、“帯”と“電”の間で分割される。一方、
（“携”，“帯”）および（“電”，“話”）の分割確
率はそれぞれ0.011および0.005であり、これらは分割閾
値0.050より小さいので、これらの1-gram間では分割さ
れない。その結果、「携帯電話」が“帯”と“電”の間
で分割され、「携帯」と「電話」の２個の特徴文字列が
抽出されることになる。

【００２６】以上が、従来技術３の具体的な処理方法で
ある。このように従来技術３では、1-gramの統計情報を
用いて特徴文字列を抽出することにより、単語間にまた
がる不適切な特徴文字列を抽出しないようにして、内容
の類似しない文書が検索されることのないように配慮し
ている。

【００２７】しかし、従来技術３では、分割確率の絶対
値で分割の可否を判断するため、単語としての特徴文字
列の抽出精度が低いという問題がある。例えば、単一文
字種文字列「帯電」に対しては、1-gramの組（“帯”，
“電”）が抽出され、この1-gram間の分割確率として0.
054が算出される。

【００２８】この値は分割閾値0.050より大きいため、
「帯電」が「帯」と「電」のように誤って分割（以下、
誤分割と呼ぶ）されてしまい、不適切な２個の特徴文字
列が抽出されてしまう。この結果、「帯（おび）」に関
係のある文書等も類似文書として検索されてしまい、検
索ノイズが混入して、目的とする中心概念がずれた文書
が類似文書として検索されてしまうという問題がある。

【００２９】

【発明が解決しようとする課題】以上述べたように、従
来技術１のように単語辞書を用いて単語を抽出する方法
では、単語辞書に掲載されていない単語が種文書の中心
概念を表す場合には、中心概念からずれた文書が検索さ
れてしまうという問題がある。

【００３０】また、従来技術２のように単一文字種文字
列から文字種別に、単純にn-gramを抽出する方法では、
複合語を構成する可能性のある漢字文字列等から単語間
にまたがるn-gramを抽出してしまうことにより、関連の
ない文書が類似文書として検索されてしまうという問題
がある。

【００３１】さらに、従来技術３のように、1-gramの統
計情報を用いて分割確率を算出し、この値の絶対値で分
割の可否を判断する方法においても、単語としての特徴
文字列の抽出精度が低いため、検索ノイズが混入し、目
的とする中心概念がずれた文書が類似文書として検索さ
れてしまうという問題がある。

【００３２】こうした従来技術の問題に対し、本発明で
は、誤分割が少なくなるように特徴文字列を抽出する方
法および装置を提供することを目的とする。

【００３３】また、誤分割が少なくなるように特徴文字
列を抽出することにより、検索ノイズを少なくすること
で中心概念のずれを低減した類似文書検索が行える方法
および装置を提供することを目的とする。

【００３４】

【課題を解決するための手段】上記課題を解決するため
に、本発明による特徴文字列抽出方法では、以下に示す
ステップからなる処理により、種文書から特徴文字列の
抽出を行なう。

【００３５】すなわち、本発明による特徴文字列抽出方
法では、文書の登録処理として、（ステップ１）登録対象文書を読み込む文書読込みステ
ップ、（ステップ２）上記文書読込みステップで読み込んだ登
録対象文書中の文字列を、漢字やカタカナ等の文字種境
界で分割し、単一文字種文字列として抽出する単一文字
種文字列抽出ステップ、（ステップ３）上記単一文字種文字列抽出ステップで抽
出された単一文字種文字列に対して、その文字種を判定
し、漢字やカタカナならば予め定められた長さのn-gram
について登録文書における出現回数、単語の先頭に出現
する回数（以下、先頭回数と呼ぶ）と末尾に出現する回
数（以下、末尾回数と呼ぶ）、およびn-gramそのものが
単語として出現する回数（以下、単独回数と呼ぶ）を計
数する出現情報計数ステップ、（ステップ４）上記出現情報計数ステップで計数された
n-gramの出現情報を、既にデータベースに登録されてい
る文書に関する該n-gramの出現情報に加算することで、
データベース全体の出現情報を算出し、該当する出現情
報ファイルへ格納する出現情報ファイル作成登録ステッ
プ、（ステップ５）上記出現情報計数ステップで出現情報が
計数されたn-gramに関して、該当する出現情報ファイル
からデータベース全体における出現情報を取得し、単語
の先頭である確率（以下、先頭確率と呼ぶ）と末尾であ
る確率（以下、末尾確率と呼ぶ）およびn-gramそのもの
が単語として出現する確率（以下、単独確率と呼ぶ）を
算出し、該当する出現確率ファイルに格納する出現確率
ファイル作成登録ステップ、（ステップ６）上記単一文字種文字列抽出ステップで抽
出された単一文字種文字列から、予め定められた長さの
n-gramを抽出し、登録対象文書中における出現回数を計
数する出現回数計数ステップ、（ステップ７）上記出現回数計数ステップで計数された
出現回数を該当する出現回数ファイルに格納する出現回
数ファイル作成登録ステップ、を有し、種文書から特徴
文字列を抽出する処理として、（ステップ８）種文書を読み込む種文書読込みステッ
プ、（ステップ９）上記種文書読込みステップにおいて読み
込まれた種文書中の文字列を文字種境界で分割し、単一
文字種文字列として抽出する検索用単一文字種文字列抽
出ステップ、（ステップ１０）上記検索用単一文字種文字列抽出ステ
ップで抽出された単一文字種文字列に関して、その文字
種を判定し、漢字やカタカナならば、前記出現確率ファ
イルを読み込み、単一文字種文字列の先頭から i文字目
までの文字列の単独確率、(i+1)文字目までの文字列の
単独確率、(i+1)文字目の文字の先頭確率および(i+2)文
字目の文字の先頭確率を取得し、i文字目で単一文字種
文字列が分割される確率（以下、分割確率と呼ぶ）を i
文字目までの文字列の単独確率と(i+1)文字目の文字の
先頭確率の積として算出し、（ｉ＋１）文字目での分割
確率を、(i+1)文字目までの文字列の単独確率と(i+2)文
字目の文字の先頭確率の積として算出し、これらの i文
字目と(i+1)文字目の分割確率を比較して、値の大きい
方を単一文字種文字列が分割される点（以下、分割点と
呼ぶ）とし、先頭から分割点までの文字列を特徴文字列
として抽出し、漢字やカタカナ以外ならば、単一文字種
文字列そのものを特徴文字列として抽出し、抽出された
特徴文字列を除外した残りの文字列に対して、同様の処
理を繰り返すことによって特徴文字列を抽出する特徴文
字列抽出ステップを有する。

【００３６】また、前述の課題を解決するために、本発
明による類似文書検索方法では、上記ステップからなる
処理により、種文書と類似する文書を検索するための特
徴文字列を抽出し、これを用いて類似文書検索を行う。

【００３７】すなわち、本発明による類似文書検索方法
では、文書の登録処理として、（ステップ１）登録対象文書を読み込む文書読込みステ
ップ、（ステップ２）上記文書読込みステップで読み込んだ登
録対象文書中の文字列を、漢字やカタカナ等の文字種境
界で分割し、単一文字種文字列として抽出する単一文字
種文字列抽出ステップ、（ステップ３）上記単一文字種文字列抽出ステップで抽
出された単一文字種文字列に対して、その文字種を判定
し、漢字やカタカナならば予め定められた長さのn-gram
について登録文書における出現回数、単語の先頭に出現
する回数（以下、先頭回数と呼ぶ）と末尾に出現する回
数（以下、末尾回数と呼ぶ）、およびn-gramそのものが
単語として出現する回数（以下、単独回数と呼ぶ）を計
数する出現情報計数ステップ、（ステップ４）上記出現情報計数ステップで計数された
n-gramの出現情報を、既にデータベースに登録されてい
る文書に関する該n-gramの出現情報に加算することで、
データベース全体の出現情報を算出し、該当する出現情
報ファイルへ格納する出現情報ファイル作成登録ステッ
プ、（ステップ５）上記出現情報計数ステップで出現情報が
計数されたn-gramに関して、該当する出現情報ファイル
からデータベース全体における出現情報を取得し、単語
の先頭である確率（以下、先頭確率と呼ぶ）と末尾であ
る確率（以下、末尾確率と呼ぶ）およびn-gramそのもの
が単語として出現する確率（以下、単独確率と呼ぶ）を
算出し、該当する出現確率ファイルに格納する出現確率
ファイル作成登録ステップ、（ステップ６）上記単一文字種文字列抽出ステップで抽
出された単一文字種文字列から、予め定められた長さの
n-gramを抽出し、登録対象文書中における出現回数を計
数する出現回数計数ステップ、（ステップ７）上記出現回数計数ステップで計数された
出現回数を該当する出現回数ファイルに格納する出現回
数ファイル作成登録ステップ、を有し、種文書に類似す
る文書の検索処理として、（ステップ８）種文書を読み込む種文書読込みステッ
プ、（ステップ９）上記種文書読込みステップにおいて読み
込まれた種文書中の文字列を文字種境界で分割し、単一
文字種文字列として抽出する検索用単一文字種文字列抽
出ステップ、（ステップ１０）上記検索用単一文字種文字列抽出ステ
ップで抽出された単一文字種文字列に関して、その文字
種を判定し、漢字やカタカナならば、前記出現確率ファ
イルを読み込み、単一文字種文字列の先頭から i文字目
までの文字列の単独確率、(i+1)文字目までの文字列の
単独確率、(i+1)文字目の文字の先頭確率および(i+2)文
字目の文字の先頭確率を取得し、i文字目で単一文字種
文字列が分割される確率（以下、分割確率と呼ぶ）を i
文字目までの文字列の単独確率と(i+1)文字目の文字の
先頭確率の積として算出し、(i+1)文字目での分割確率
を、(i+1)文字目までの文字列の単独確率と(i+2)文字目
の文字の先頭確率の積として算出し、これらの i文字目
と(i+1)文字目の分割確率を比較して、値の大きい方を
単一文字種文字列が分割される点（以下、分割点と呼
ぶ）とし、先頭から分割点までの文字列を特徴文字列と
して抽出し、漢字やカタカナ以外ならば、単一文字種文
字列そのものを特徴文字列として抽出し、抽出された特
徴文字列を除外した残りの文字列に対して、同様の処理
を繰り返すことによって特徴文字列を抽出する特徴文字
列抽出ステップ、（ステップ１１）上記特徴文字列抽出ステップで抽出さ
れた全ての特徴文字列に対して、種文書内における出現
回数を計数する種文書内出現回数計数ステップ、（ステップ１２）上記特徴文字列抽出ステップで抽出さ
れた全ての特徴文字列に対して、前記出現回数ファイル
を読み込み、データベース内の各文書における該当特徴
文字列の出現回数を取得するデータベース内出現回数取
得ステップ、（ステップ１３）上記特徴文字列抽出ステップで抽出さ
れた特徴文字列に対し、上記種文書内出現回数計数ステ
ップで計数された種文書内の出現回数と、上記データベ
ース内出現回数取得ステップで取得されたデータベース
内の各文書における出現回数を用いて、予め定められた
算出式に基づいて種文書とデータベース内の各文書との
類似度を算出する類似度算出ステップ、（ステップ１４）上記類似度算出ステップで算出された
類似度に基づいて、検索結果を出力する検索結果出力ス
テップを有する。

【００３８】上記文書検索方法を用いた本発明の原理
を、以下に説明する。

【００３９】本発明では、文書を登録する際に、（ステ
ップ１）〜（ステップ７）を実行する。

【００４０】まず、文書読込みステップ（ステップ１）
で登録対象となる文書を読み込む。次に、単一文字種文
字列抽出ステップ（ステップ２）において、上記文書読
込みステップ（ステップ１）で読み込まれた登録対象文
書中の文字列を、漢字やカタカナ等の文字種境界で分割
し、単一文字種からなる文字列を抽出する。例えば、前
述の文書２「・・・。電車内での携帯電話の使用は禁止
されている。・・・」という文書からは、「電車内」
「での」「携帯電話」「の」「使用」「は」「禁止」
「されている」等の単一文字種文字列が抽出される。

【００４１】次に、出現情報計数ステップ（ステップ
３）において、単一文字種文字列抽出ステップ（ステッ
プ２）で抽出された上記各単一文字種文字列について、
その文字種を判定し、漢字やカタカナならば予め定めら
れた長さ nのn-gramの登録対象文書中の出現回数、先頭
回数、末尾回数および単独回数を計数する。例えば、漢
字文字列とカタカナ文字列から1-gramおよび2-gramの出
現回数、先頭回数および末尾回数を計数するものと定め
られている場合には、上記単一文字種文字列抽出ステッ
プ（ステップ２）で抽出された単一文字種文字列につい
て、“携”の出現回数は１回、そのうち先頭回数は１
回、末尾回数は０回、単独回数は０回であり、“携帯”
の出現回数は１回、そのうち先頭回数は１回、末尾回数
は０回、単独回数は０回と計数される。

【００４２】次に、出現情報ファイル作成登録ステップ
（ステップ４）において、先に出現情報計数ステップ
（ステップ３）で抽出されたn-gramの出現情報を、既に
データベースに登録されている文書に関する出現情報に
加算し、累積情報としての出現情報を該当する出現情報
ファイルへ格納する。図５に出現情報ファイルの例を示
す。本図に示した出現情報ファイルは、上記出現情報計
数ステップ（ステップ３）において抽出された出現情報
を格納した場合の例である。本図に示した出現情報ファ
イルは、前述の1-gram“携”に関しては、出現回数4,74
0回、先頭回数768回、末尾回数492回、および単独回数4
2回という情報を格納し、2-gram“携帯”に関しては、
出現回数462回、先頭回数419回、末尾回数52回、および
単独回数48回という情報を格納していることを表わす。

【００４３】次に、出現確率ファイル作成登録ステップ
（ステップ５）において、出現情報ファイル作成登録ス
テップ（ステップ４）で出現情報が格納されたn-gramに
対して、それぞれ出現確率を算出し、該当する出現確率
ファイルに格納する。例えば、図５に示すように、1-gr
am“携”に関しては、出現回数4,740回、先頭回数768
回、末尾回数492回、および単独回数42回であることか
ら、先頭確率は768 / 4,740 = 0.16、末尾確率は 492 /
4,740 = 0.10、単独確率は42 / 4,740 = 0.01と計算さ
れる。図６に出現確率ファイルの例を示す。本図に示し
た出現確率ファイルは、上記出現情報計数ステップ（ス
テップ３）において抽出された出現確率を格納した場合
の例であり、前述の1-gram“携”に関しては、先頭確率
0.16、末尾確率0.10、および単独確率0.01という情報が
格納され、2-gram“携帯”に関しては、先頭確率0.90、
末尾確率0.11、および単独確率0.10という情報が格納さ
れていることを表わす。

【００４４】次に、出現回数計数ステップ（ステップ
６）において、単一文字種文字列抽出ステップ（ステッ
プ２）で抽出された全ての単一文字種文字列から、予め
定められた長さのn-gramを抽出し、登録対象文書中にお
ける出現回数を計数する。そして、出現回数ファイル作
成登録ステップ（ステップ７）において、上記出現回数
計数ステップ（ステップ６）で抽出された各n-gramの出
現回数を該当する出現回数ファイルに格納する。

【００４５】図２４に、前述の文書２「・・・。電車内
での携帯電話の使用は禁止されている。・・・」を例
に、出現回数ファイル作成処理の手順を示す。

【００４６】まず、単一文字種文字列抽出ステップ（ス
テップ２）で登録対象文書である文書２から全ての単一
文字種文字列を抽出する。

【００４７】次に、出現回数計数ステップ（ステップ
６）で、上記単一文字種文字列抽出ステップ（ステップ
２）で抽出された全ての単一文字種文字列から予め定め
られた長さのn-gramを抽出し、登録対象文書内の出現回
数を計数する。本図に示した例では、単一文字種文字列
から長さが３のn-gramまでを抽出するものとし、単一文
字種文字列２４０４に含まれる「電車内」から、長さが
１の“電”、“車”、“内”、長さが２の“電車”、
“車内”、および長さが３の“電車内”が抽出され、文
書２における出現回数が計数される。この結果、“電”
は文書２の中に２回出現し、“車”は文書２の中に１回
出現しているというように計数される。

【００４８】そして、出現回数ファイル作成登録ステッ
プ（ステップ７）で、出現回数計数ステップ（ステップ
６）で抽出された各n-gramの出現回数を該当する出現回
数ファイルに格納する。この結果、文書２からは、1-gr
am“電”（２，２）、“車”（２，１）、“内”（２，
１）、2-gram“電車”（２，１）、“車内”（２，
１）、3-gram“電車内”（２，１）のように各n-gramの
登録対象文書の識別番号と出現回数が組みとして格納さ
れる。ここで、“電車”（２，１）は、2-gram“電車”
が文書番号２の文書に、１回出現するということを示し
ている。

【００４９】検索時には、（ステップ８）〜（ステップ
１４）を実行する。

【００５０】まず、種文書読込みステップ（ステップ
８）において、種文書として文書１を読み込む。次
に、検索用単一文字種文字列抽出ステップ（ステップ
９）において、上記種文書読込みステップ（ステップ
８）で読み込まれた種文書（文書１）中の文字列を文字
種境界で分割し、単一文字種文字列を抽出する。

【００５１】次に、特徴文字列抽出ステップ（ステップ
１０）において、上記検索用単一文字種文字列抽出ステ
ップ（ステップ９）で抽出された単一文字種文字列につ
いて、その文字種を判定する。

【００５２】この文字種が、漢字やカタカナならば、前
述した出現確率ファイルを読み込み、単一文字種文字列
の先頭から i文字目までの文字列の単独確率、(i+1)文
字目までの文字列の単独確率、(i+1)文字目の文字の先
頭確率および(i+2)文字目の文字の先頭確率を取得す
る。そして、 i文字目での分割確率を i文字目までの文
字列の単独確率と(i+1)文字目の文字の先頭確率の積と
して算出し、(i+1)文字目での分割確率を(i+1)文字目ま
での文字列の単独確率と(i+2)文字目の文字の先頭確率
の積として算出する。そして、これらの i文字目と(i+
1)文字目の分割確率を比較して、値の大きい方を分割点
とし、先頭から該分割点までの文字列を特徴文字列とし
て抽出する。

【００５３】また、漢字やカタカナでなければ、単一文
字種文字列そのものを特徴文字列として抽出し、以下、
同様の処理を繰り返すことによって、特徴文字列を抽出
する。

【００５４】図８に、文書１から抽出した単一文字種文
字列「携帯電話」から特徴文字列を抽出する例を示す。
まず、「携帯電話」における1文字目での分割確率は、
「携」の単独確率0.01と「帯」の先頭確率0.11の積とし
て0.001が算出され、2文字目での分割確率は、「携帯」
の単独確率0.10と「電」の先頭確率0.36の積として0.03
6が算出される。次に、これらの分割確率を比較し、値
の大きい方で単一文字種文字列を分割する。この場合、
2文字目の分割確率0.036の方が大きいので、単一文字種
文字列「携帯電話」は「携帯」と「電話」に分割され
る。

【００５５】また、図９に、従来技術３では適切に分割
されない単一文字種文字列「帯電」の例について、本発
明の分割処理を示す。まず、「帯電」における 1文字目
での分割確率は、「帯」の単独確率0.01と「電」の単独
確率0.01の積として0.0001と算出される。また、 2文字
目での分割確率、すなわち「帯電」が単一文字種文字列
そのものとして出現する確率は、「帯電」の単独確率0.
10と算出される。これらの値を比較して、値の大きい方
で単一文字種文字列に分割される。この場合、「帯電」
の単独確率0.10の方が大きいので、「帯電」は 2文字目
で分割されることになり、結果的に単一文字種文字列
「帯電」は分割されず、一塊の文字列として抽出される
ことになる。

【００５６】このように分割確率を比較して単一文字種
文字列を分割することにより、データベース中での実際
の出現状況を正確に反映した単語分割が行なえるため、
分割確率の絶対値で分割する前述した従来技術３に比
べ、不適切な分割を大幅に削減することが可能になる。

【００５７】次に、種文書内出現回数計数ステップ（ス
テップ１１）において、上記特徴文字列抽出ステップ
（ステップ１０）で抽出された特徴文字列の種文書内に
おける出現回数を計数する。

【００５８】そして、データベース内出現回数取得ステ
ップ（ステップ１２）において、上記特徴文字列抽出ス
テップ（ステップ１０）で抽出された特徴文字列に対し
て、前述した出現回数ファイルを参照し、データベース
内の各文書における出現回数を得る。

【００５９】そして、類似度算出ステップ（ステップ１
３）において、前記特徴文字列抽出ステップ（ステップ
１０）で抽出された特徴文字列に対して、上記種文書内
出現回数計数ステップ（ステップ１１）とデータベース
内出現回数取得ステップ（ステップ１２）で計数された
種文書内における出現回数と、データベース内の各文書
における出現回数を基に、類似度が算出される。

【００６０】類似度の算出には、例えば、「特開平６−
１１０９４８号公報」に開示されている以下に示す類似
度算出式（１）を用いてもよい。

【００６１】

【数式１】

【００６２】ここで、U(j)は種文書中の j番目のn-gram
の正規化ウエイトを示し、各n-gramの種文書内出現回数
から算出される。R(j)はデータベース中文書の j番目の
n-gramの正規化ウエイトを示、各n-gramのデータベース
内の各文書における出現回数から算出される。正規化ウ
エイトとは、データベースにおけるn-gramの出現偏りを
表し、この値が大きいn-gramほどある特定の文書に偏っ
て出現することを意味する。この正規化ウエイトの算出
方法については、「特開平６−１１０９４８号公報」で
説明されているため、ここでは説明を省略する。また、
nはデータベース中の全文書数を表わす。

【００６３】この類似度算出式（１）を用いて、文書１
が種文書として指定された場合の文書 iの類似度S(i)を
算出すると、次のようになる。

【００６４】S(1) = 1.0 S(2) = 0.262 S(3) = 0.048 S(4) = 0.0 この結果、検索結果出力ステップ（ステップ１４）で、
文書を類似度の降順に整列すると、文書１、文書２、お
よび文書３の順に表示されることになる。類似度が 0の
文書４は検索結果としては出力されない。

【００６５】以上説明したように、本発明の特徴文字列
抽出方法を用いた類似文書検索方法によれば、従来技
術１のように単語辞書を用いることなく単一文字種文字
列から文字列を機械的に抽出することができるため、ど
のような単語についても漏れなく検索に供することがで
き、種文書が表わす概念を正確に検索することが可能と
なる。

【００６６】また、従来技術２のように単一文字種文字
列から文字種別に、単純にn-gramを抽出するのではな
く、統計情報を用いて意味のまとまったn-gramを抽出す
ることにより、種文書が表わす概念をより正確に検索す
ることが可能となる。

【００６７】さらに、従来技術３のように分割確率の絶
対値で分割するのではなく、分割確率を比較し、その値
が大きい方で分割することにより、データベース中での
実際の出現状況を正確に反映した単語分割が可能とな
り、不適切な単語分割を大幅に削減することが可能とな
る。そのため、従来技術３に比べ不適切な特徴文字列が
検索に供されないため、種文書が表わす概念を適切に検
索できるとともに、高速に類似文書を検索することがで
きるようになる。

【００６８】

【発明の実施の形態】以下、本発明の第一の実施例につ
いて図１を用いて説明する。

【００６９】本発明を適用した類似文書検索システムの
第一の実施例は、ディスプレイ１００、キーボード１０
１、中央演算処理装置（ＣＰＵ）１０２、磁気ディスク
装置１０５、フロッピディスクドライブ（ＦＤＤ）１０
３、主メモリ１０６およびこれらを結ぶバス１０７から
構成される。

【００７０】磁気ディスク装置１０５には、テキスト１
５０、出現情報ファイル１５１、出現確率ファイル１５
２および出現回数ファイル１５３が格納される。ＦＤＤ
１０３を介してフロッピディスク１０４に格納されてい
る登録文書や種文書等の情報が、主メモリ１０６内に確
保されるワークエリア１７０あるいは磁気ディスク装置
１０５へ読み込まれる。

【００７１】主メモリ１０６には、システム制御プログ
ラム１１０、文書登録制御プログラム１１１、共有ライ
ブラリ１６０、テキスト登録プログラム１２０、出現情
報ファイル作成登録プログラム１２１、出現確率ファイ
ル作成登録プログラム１２４、出現回数ファイル作成登
録プログラム１２７、検索制御プログラム１１２、検索
条件式解析プログラム１３０、類似文書検索プログラム
１３１および検索結果出力プログラム１３２が格納され
るとともにワークエリア１７０が確保される。これらの
プログラムは、フロッピーディスクやＣＤ−ＲＯＭなど
の持ち運び可能な記憶媒体に格納され、ここから読み出
し磁気ディスク装置１０５へインストールする。本装置
起動時に、システム制御プログラム１１０が起動し、こ
れらのプログラムを磁気ディスク装置１０５から読み出
し、主メモリ１０６へ格納する。

【００７２】共有ライブラリ１６０は、単一文字種文字
列抽出プログラム１６１で構成される。

【００７３】出現情報ファイル作成登録プログラム１２
１は、出現情報計数プログラム１２２と出現情報ファイ
ル作成プログラム１２３で構成されるとともに、後述す
るように共有ライブラリ１６０から単一文字種文字列抽
出プログラム１６１を呼び出す構成をとる。

【００７４】出現確率ファイル作成登録プログラム１２
４は、出現確率算出プログラム１２５と出現確率ファイ
ル作成プログラム１２６で構成される。

【００７５】出現回数ファイル作成登録プログラム１２
７は、出現回数計数プログラム１２８と出現回数ファイ
ル作成プログラム１２９で構成される。

【００７６】類似文書検索プログラム１３１は、種文書
読込みプログラム１４０、特徴文字列抽出プログラム１
４１、種文書内出現回数計数プログラム１４５、出現回
数取得プログラム１４６および類似度算出プログラム１
４８で構成されるとともに、後述するように共有ライブ
ラリ１６０から単一文字種文字列抽出プログラム１６１
を呼び出す構成をとる。

【００７７】特徴文字列抽出プログラム１４１は、分割
確率比較特徴文字列抽出プログラム１４２を呼び出す構
成をとる。分割確率比較特徴文字列抽出プログラム１４
２は、分割確率算出プログラム１４３を呼び出す構成を
とる。分割確率算出プログラム１４３は出現確率ファイ
ル読込みプログラム１４４を呼び出す構成をとる。

【００７８】出現回数取得プログラム１４６は、出現回
数ファイル読込みプログラム１４７を呼び出す構成をと
る。

【００７９】文書登録制御プログラム１１１および検索
制御プログラム１１２は、ユーザによるキーボード１０
１からの指示に応じてシステム制御プログラム１１０に
よって起動され、それぞれテキスト登録プログラム１２
０、出現情報ファイル作成登録プログラム１２１、出現
確率ファイル作成登録プログラム１２４および出現回数
ファイル作成登録プログラム１２７の制御と、検索条件
式解析プログラム１３０、類似文書検索プログラム１３
１および検索結果出力プログラム１３２の制御を行な
う。

【００８０】以下、本実施例における類似文書検索シス
テムの処理手順について説明する。

【００８１】まず、システム制御プログラム１１０の処
理手順について図１０のＰＡＤ（ＰｒｏｂｌｅｍＡｎ
ａｌｙｓｉｓＤｉａｇｒａｍ）図を用いて説明する。

【００８２】システム制御プログラム１１０では、まず
ステップ１０００で、キーボード１０１から入力された
コマンドを解析する。

【００８３】次に、ステップ１００１で、この解析結果
が登録実行のコマンドであると判定された場合には、ス
テップ１００２で文書登録制御プログラム１１１を起動
して、文書の登録を行なう。

【００８４】またステップ１００３で、検索実行のコマ
ンドであると判定された場合には、ステップ１００４で
検索制御プログラム１１２を起動して、類似文書の検索
を行なう。

【００８５】以上が、システム制御プログラム１１０の
処理手順である。

【００８６】次に、図１０に示したステップ１００２で
システム制御プログラム１１０により起動される文書登
録制御プログラム１１１の処理手順について、図１１の
ＰＡＤ図を用いて説明する。

【００８７】文書登録制御プログラム１１１では、まず
ステップ１１００でテキスト登録プログラム１２０を起
動し、ＦＤＤ１０３に挿入されたフロッピディスク１０
４から登録すべき文書のテキストデータをワークエリア
１７０に読み込み、これをテキスト１５０として磁気デ
ィスク装置１０５に格納する。テキストデータは、フロ
ッピディスク１０４を用いて入力するだけに限らず、通
信回線やＣＤ−ＲＯＭ装置（図１には示していない）等
を用いて他の装置から入力するような構成を取ることも
可能である。

【００８８】次に、ステップ１１０１で出現情報ファイ
ル作成登録プログラム１２１を起動し、ワークエリア１
７０に格納されているテキスト１５０を読み出し、その
中の各n-gramに対する出現情報ファイル１５１を作成
し、磁気ディスク装置１０５に格納する。

【００８９】次に、ステップ１１０２で出現確率ファイ
ル作成登録プログラム１２４を起動し、ワークエリア１
７０に格納されているテキスト１５０中の各n-gramに対
する出現確率を算出し、該当する出現確率ファイル１５
２として、磁気ディスク装置１０５へ格納する。

【００９０】次に、ステップ１１０３で出現回数ファイ
ル作成登録プログラム１２７を起動し、ワークエリア１
７０に格納されているテキスト１５０を読み出し、その
中の各文書における全てのn-gramに対する出現回数を計
数し、該当する出現回数ファイル１５３として、磁気デ
ィスク装置１０５へ格納する。

【００９１】以上が、文書登録制御プログラム１１１の
処理手順である。

【００９２】次に、図１１に示したステップ１１０１で
文書登録制御プログラム１１１により起動される出現情
報ファイル作成登録プログラム１２１の処理手順につい
て、図１２のＰＡＤ図を用いて説明する。

【００９３】出現情報ファイル作成登録プログラム１２
１では、まずステップ１２００で単一文字種文字列抽出
プログラム１６１を起動し、テキスト１５０の文字列を
文字種境界で分割することにより単一文字種文字列を抽
出し、ワークエリア１７０に格納する。

【００９４】次に、ステップ１２０１において、出現情
報計数プログラム１２２を起動し、テキスト１５０にお
ける予め定められた長さのn-gramの出現回数と、ワーク
エリア１７０に格納されている単一文字種文字列の先頭
回数、末尾回数および単独回数を計数し、同じくワーク
エリア１７０に格納する。

【００９５】そして、ステップ１２０２において、出現
情報ファイル作成プログラム１２３を起動し、ワークエ
リア１７０に格納されているテキスト１５０におけるn-
gramの出現回数、先頭回数、末尾回数および単独回数
を、それぞれ出現情報ファイル１５１に格納されている
該当n-gramの出現回数、先頭回数、末尾回数および単独
回数に加算し、ワークエリア１７０に格納するとともに
出現情報ファイル１５１として磁気ディスク装置１０５
に格納する。

【００９６】以上が、出現情報ファイル作成登録プログ
ラム１２１の処理手順である。

【００９７】次に、図１１に示したステップ１１０２で
文書登録制御プログラム１１１により起動される出現確
率ファイル作成登録プログラム１２４の処理手順につい
て、図１６のＰＡＤ図を用いて説明する。

【００９８】出現確率ファイル作成登録プログラム１２
４では、まずステップ１６００で出現確率算出プログラ
ム１２５を起動し、ワークエリア１７０に格納されてい
る各n-gramの出現情報から、各n-gramの単独確率、先頭
確率および末尾確率を算出し、ワークエリア１７０へ格
納する次に、ステップ１６０１において、出現確率ファイル作
成プログラム１２６を起動し、ワークエリア１７０に格
納されている各n-gramの単独確率、先頭確率および末尾
確率を出現確率ファイル１５２として磁気ディスク装置
１０５に格納する。

【００９９】以上が、出現確率ファイル作成登録プログ
ラム１２４の処理手順である。

【０１００】次に、図１１に示したステップ１１０３で
文書登録制御プログラム１１１により起動される出現回
数ファイル作成登録プログラム１２７の処理手順につい
て、図２５に示すＰＡＤ図を用いて説明する。

【０１０１】出現回数ファイル作成登録プログラム１２
７では、まずステップ２５００で出現回数計数プログラ
ム１２８を起動し、図１２のステップ１２００でワーク
エリア１７０に格納した全ての単一文字種文字列の中か
ら、長さが１から単一文字種文字列自体の長さｍまでの
n-gramを抽出し、登録対象文書におけるそれらの出現回
数を計数し、ワークエリア１７０に格納する。

【０１０２】次に、ステップ２５０１において、出現回
数ファイル作成プログラム１２９を起動し、ステップ２
５００で計数した各n-gramの出現回数を登録対象文書の
識別番号（以下、文書番号と呼ぶ）とともに出現回数フ
ァイル１５３として磁気ディスク装置１０５に格納する次に、図１０に示したステップ１００４でシステム制御
プログラム１１０により起動される検索制御プログラム
１１２による類似文書検索の処理手順について、図１３
のＰＡＤ図を用いて説明する。

【０１０３】検索制御プログラム１１２では、まずステ
ップ１３００で検索条件式解析プログラム１３０を起動
し、キーボード１０１から入力された検索条件式を解析
し、検索条件式のパラメータとして指定された種文書の
文書番号を抽出する。

【０１０４】次に、ステップ１３０１で類似文書検索プ
ログラム１３１を起動し、上記検索条件式解析プログラ
ム１３０により抽出された文書番号の種文書に対し、磁
気ディスク装置１０５に格納されているテキスト１５０
中の各文書の類似度を算出する。

【０１０５】最後に、ステップ１３０２において、検索
結果出力プログラム１３２を起動し、上記類似文書検索
プログラム１３１で算出された各文書の類似度に基づい
て、検索結果を出力する。

【０１０６】以上が、検索制御プログラム１１２による
文書検索の処理手順である。

【０１０７】次に、図１３に示したステップ１３０１で
検索制御プログラム１１２により起動される類似文書検
索プログラム１３１の処理手順について、図１４のＰＡ
Ｄ図を用いて説明する。

【０１０８】類似文書検索プログラム１３１では、まず
ステップ１４００で種文書読込みプログラム１４０を起
動し、検索条件式解析プログラム１３０によって検索条
件式から抽出された文書番号の種文書を磁気ディスク装
置１０５中のテキスト１５０からワークエリア１７０に
読み込む。

【０１０９】ここで、種文書は、テキスト１５０中に格
納されている文書を読み込むだけでなく、キーボード１
０１から直接入力することも可能であり、フロッピディ
スク１０４、ＣＤ−ＲＯＭ装置（図１には示していな
い）や通信回線等を用いて、他の装置から入力するよう
な構成を取ることも可能であり、また、全文検索システ
ム等による検索結果から入力するような構成を取ること
も可能であり、さらには、検索結果出力プログラム１３
２の出力から種文書を選択する構成を取ることも可能で
ある。

【０１１０】次に、ステップ１４０１において、共有ラ
イブラリ１６０の単一文字種文字列抽出プログラム１６
１を起動し、上記種文書読込みプログラム１４０で読み
込んだ種文書のテキストを、文字種境界で分割して単一
文字種文字列を取得し、ワークエリア１７０に格納す
る。

【０１１１】そして、ステップ１４０２において、後述
する特徴文字列抽出プログラム１４１を起動し、上記単
一文字種文字列抽出プログラム１６１で取得した単一文
字種文字列から、特徴文字列を抽出する。

【０１１２】次に、ステップ１４０３において、種文書
内出現回数計数プログラム１４５を起動し、上記特徴文
字列抽出プログラム１４１で取得した特徴文字列の、種
文書内での出現回数を計数する。

【０１１３】次に、ステップ１４０４において、出現回
数取得プログラム１４６を起動し、上記特徴文字列抽出
プログラム１４１で取得した特徴文字列のテキスト１５
０中の各文書における出現回数を取得する。

【０１１４】最後に、ステップ１４０５において、類似
度算出プログラム１４８を起動し、上記特徴文字列抽出
プログラム１４１で取得した各特徴文字列に対する、上
記種文書内出現回数取得プログラム１４５で取得した種
文書内出現回数と、上記出現回数取得プログラム１４６
で取得したテキスト１５０中の各文書における出現回数
から、種文書とテキスト１５０内の各文書との類似度を
算出する。

【０１１５】本実施例では、類似度の算出に、前述の類
似度算出式（１）を用いるが、他の方法を用いても構わ
ない。この類似度算出式（１）を用いて、前述の文書１
「・・・。携帯電話の使用時のマナーが問題になる。・
・・」が種文書として指定された場合の文書 iの類似度
S(i)を算出すると、次のようになる。

【０１１６】S(1) = 1.0 S(2) = 0.262 S(3) = 0.048 S(4) = 0.0 以上が、類似文書検索プログラム１３１の処理手順であ
る。

【０１１７】次に、図１４に示したステップ１４０２に
おいて、類似文書検索プログラム１３１により起動され
る特徴文字列抽出プログラム１４１の処理手順につい
て、図１７のＰＡＤ図を用いて説明する。

【０１１８】特徴文字列抽出プログラム１４１では、ス
テップ１７００において、図１４に示したステップ１４
０１における単一文字種文字列抽出プログラム１６１に
より、ワークエリア１７０に格納されている全ての単一
文字種文字列を取得する。

【０１１９】次に、ステップ１７０１において、上記ス
テップ１７００で取得した全ての単一文字種文字列に対
して、次のステップ１７０２〜１７０４を繰り返し実行
する。

【０１２０】すなわち、ステップ１７０２では、ステッ
プ１７００で取得した単一文字種文字列の文字種を判定
し、その文字種が漢字やカタカナである場合には、ステ
ップ１７０３を実行し、漢字やカタカナ以外の場合に
は、ステップ１７０４を実行する。

【０１２１】ステップ１７０３では、後述する分割確率
比較特徴文字列抽出プログラム１４２を起動し、漢字や
カタカナの単一文字種文字列から特徴文字列を抽出す
る。

【０１２２】ステップ１７０４では、漢字やカタカナ以
外の単一文字種文字列そのものを特徴文字列として抽出
する。

【０１２３】そして、最後にステップ１７０５におい
て、上記ステップ１７０２やステップ１７０３で抽出さ
れた特徴文字列をワークエリア１７０へ格納する。

【０１２４】以上が、特徴文字列抽出プログラム１４１
の処理手順である。

【０１２５】以下、図１４に示した特徴文字列抽出プロ
グラム１４１の処理手順について具体例を用いて説明す
る。

【０１２６】図２７に、前述の文書１「・・・。携帯電
話の使用時のマナーが問題になる。・・・」から特徴文
字列を抽出する例を示す。

【０１２７】まず、文書１から単一文字種文字列「・・
・」「。」「携帯電話」「の」「使用時」「の」「マナ
ー」「が」「問題」「になる」「。」「・・・」を抽出
する。

【０１２８】次に、これらの単一文字種文字列の文字種
を判定し、漢字文字列「携帯電話」、「使用時」および
「問題」とカタカナ文字列「マナー」に対して分割確率
比較特徴文字列抽出プログラム１４２により特徴文字列
を抽出し、漢字文字列とカタカナ文字列以外の文字列
「の」「の」「が」「になる」「。」からは単一文字種
文字列そのものを特徴文字列として抽出する。

【０１２９】以上が、特徴文字列抽出プログラム１４１
の具体的な処理例である。

【０１３０】次に、図１４に示したステップ１４０４に
おいて類似文書検索プログラム１３１により起動される
出現回数取得プログラム１４６の処理手順を図２６のＰ
ＡＤ図を用いて説明する。

【０１３１】出現回数取得プログラム１４６では、図１
４に示したステップ１４０２においてワークエリア１７
０に格納した特徴文字列を取得する（ステップ２６０
０）。

【０１３２】そして、ワークエリア１７０に格納されて
いる全ての特徴文字列に対して、ステップ２６０２を実
行する（ステップ２６０１）。

【０１３３】ステップ２６０２では、出現回数ファイル
読込みプログラム１４７を起動し、テキスト１５０内の
各文書における特徴文字列の出現回数を取得し、ワーク
エリア１７０に格納する。

【０１３４】以上が、出現回数取得プログラム１４６の
処理手順である。

【０１３５】次に、図１７に示したステップ１７０３に
おいて特徴文字列抽出プログラム１４１により起動され
る分割確率比較特徴文字列抽出プログラム１４２の処理
手順について、図１８のＰＡＤ図を用いて説明する。

【０１３６】分割確率比較特徴文字列抽出プログラム１
４２は、ステップ１８００において、最後に特徴文字列
が抽出された末尾の文字位置（以下、最新分割点と呼
ぶ）LSの初期値を 0に設定する。

【０１３７】そして、図１７に示したステップ１７０３
において、入力された単一文字種文字列の文字列長が予
め定められた長さ以上のとき、次のステップ１８０２〜
１８０９までを繰り返し実行する（ステップ１８０
１）。

【０１３８】ステップ１８０２では、後述する分割確率
算出プログラム１４３を起動し、単一文字種文字列の先
頭から i文字目の分割確率P(i)と、(i+1)文字目の分割
確率P(i+1)を算出する。

【０１３９】次に、ステップ１８０３において、上記分
割確率算出プログラム１４３で算出したP(i)とP(i+1)の
値を比較し、P(i)がP(i+1)よりも大きい場合にはステッ
プ１８０４を実行し、P(i)がP(i+1)よりも小さい場合に
はステップ１８０６を実行し、P(i)とP(i+1)が等しい場
合にはステップ１８０８を実行する。

【０１４０】ステップ１８０４では、単一文字種文字列
の先頭から i文字目までの文字列を特徴文字列として抽
出する。そして、ステップ１８０５において、最新分割
点LSを iに設定し、 iの値を 1加算する。

【０１４１】ステップ１８０６では、単一文字種文字列
の先頭から(i+1)文字目までの文字列を特徴文字列とし
て抽出する。そして、ステップ１８０７において、最新
分割点LSを(i+1)に設定し、iの値を 2加算する。

【０１４２】ステップ１８０８では、それぞれ単一文字
種文字列の先頭から i文字目までの文字列と(i+1)文字
目までの文字列を特徴文字列として抽出する。そして、
ステップ１８０９において、最新分割点LSを(i+1)に設
定し、 iの値を 2加算する。

【０１４３】以上が、分割確率比較特徴文字列抽出プロ
グラム１４２の処理手順である。

【０１４４】以下、図１８に示した分割確率比較特徴文
字列抽出プログラム１４２の処理手順について具体例を
用いて説明する。

【０１４５】図８に、前述の文書１「・・・。携帯電話
の使用時のマナーが問題になる。・・・」から抽出され
た単一文字種文字列「携帯電話」から特徴文字列を抽出
する例を示す。

【０１４６】まず、「携帯電話」における1文字目での
分割確率P(1)は、「携」の単独確率0.01と「帯」の先頭
確率0.11の積として0.001が算出され、2文字目での分割
確率P(2)は、「携帯」の単独確率0.10と「電」の先頭確
率0.36の積として0.036が算出される。次に、これらの
分割確率を比較し、値の大きい方で単一文字種文字列
「携帯電話」を分割する。この場合、1文字目の分割確
率P(1)(=0.000)よりも2文字目の分割確率P(2)(=0.036)
の方が大きいので、単一文字種文字列「携帯電話」は
「携帯」と「電話」に分割される。

【０１４７】また、図２０に、上記文書１から抽出した
単一文字種文字列「マナー」から特徴文字列を抽出する
例を示す。まず、「マナー」における2文字目での分割
確率P(2)は、「マナ」の単独確率0.00と「ー」の単独確
率0.00の積として0.00と算出される。次に、3文字目で
の分割確率P(3)、すなわち「マナー」が単一文字種文字
列そのものとして出現する確率は「ナー」の末尾確率0.
79と1.0の積として0.79と算出される。これらの値を比
較して、値の大きい方で単一文字種文字列に分割され
る。この場合、「マナー」の2文字目での分割確率P(2)
(=0.00)よりも3文字目での分割確率P(3)(=0.79)の方が
大きいので、3文字目で分割されることになり、結果的
に単一文字種文字列「マナー」は分割されないことにな
る。

【０１４８】以上が、分割確率比較特徴文字列抽出プロ
グラム１４２の具体的な処理手順である。

【０１４９】次に、図１８に示したステップ１８０１に
おいて分割確率比較特徴文字列抽出プログラム１４２に
より起動される分割確率算出プログラム１４３の処理手
順について、図１９のＰＡＤ図を用いて説明する。

【０１５０】分割確率算出プログラム１４３は、ステッ
プ１９００において、図１８に示したステップ１８０１
において指定される分割確率の算出位置 iおよび最新分
割点LSを取得する。

【０１５１】次に、算出位置 iにおける分割確率P(i)を
算出するために、ステップ１９０１〜１９０６を実行
し、各出現確率を取得する。

【０１５２】まず、ステップ１９０１において、図１２
に示したステップ１２０１で抽出されたn-gramの長さ n
と分割確率の算出位置 iを比較し、(i - LS)が n以下で
ある場合には、ステップ１９０２を実行し、(i - LS)が
nよりも大きい場合には、ステップ１９０３を実行す
る。

【０１５３】ステップ１９０２では、出現確率ファイル
読込みプログラム１４４を起動し、最新分割点LSから i
文字目までの文字列の単独確率を取得し、分割確率算出
位置iの前方の文字列の出現確率Pre(i)とする。

【０１５４】ステップ１９０３では、出現確率ファイル
読込みプログラム１４４を起動し、最新分割点LSから i
文字目までの文字列の後方のn-gramの末尾確率を取得
し、分割確率算出位置 iの前方の文字列の出現確率Pre
(i)とする。

【０１５５】次に、ステップ１９０４において、単一文
字種文字列の文字列長Lnと分割確率算出位置 iを比較
し、Lnが(i+1)よりも大きい場合にはステップ１９０５
を実行し、Lnが(i+1)と等しい場合には、ステップ１９
０６を実行する。

【０１５６】ステップ１９０５では、出現確率ファイル
読込みプラグラム１４４を起動し、(i+1)文字目の1gram
の先頭確率を取得し、分割確率算出位置 iの後方の文字
列の出現確率Post(i)とする。

【０１５７】ステップ１９０６では、出現確率ファイル
読込みプラグラム１４４を起動し、(i+1)文字目の1gram
の単独確率を取得し、分割確率算出位置 iの後方の文字
列の出現確率Post(i)とする。

【０１５８】次に、算出位置(i+1)における分割確率P(i
+1)を算出するために、ステップ１９０７〜１９１３を
実行し、各出現確率を取得する。

【０１５９】まず、ステップ１９０７において、図１２
に示したステップ１２０１で抽出されたn-gramの長さ n
と分割確率の算出位置 iを比較し、((i+1) - LS)が n以
下である場合には、ステップ１９０８を実行し、((i+1)
- LS)が nよりも大きい場合には、ステップ１９０９を
実行する。

【０１６０】ステップ１９０８では、出現確率ファイル
読込みプログラム１４４を起動し、最新分割点LSから(i
+1)文字目までの文字列の単独確率を取得し、分割確率
算出位置(i+1)の前方の文字列の出現確率Pre(i+1)とす
る。

【０１６１】ステップ１９０９では、出現確率ファイル
読込みプログラム１４４を起動し、最新分割点LSから(i
+1)文字目までの文字列の後方のn-gramの末尾確率を取
得し、分割確率算出位置(i+1)の後方の文字列の出現確
率Pre(i+1)とする。

【０１６２】次に、ステップ１９１０において、単一文
字種文字列の文字列長Lnと分割確率算出位置 iを比較
し、Lnが(i+2)よりも大きい場合にはステップ１９１１
を実行し、Lnが(i+2)と等しい場合には、ステップ１９
１２を実行し、Lnが(i+1)と等しい場合には、ステップ
１９１３を実行する。

【０１６３】ステップ１９１１では、出現確率ファイル
読込みプラグラム１４４を起動し、(i+2)文字目の1gram
の先頭確率を取得し、分割確率算出位置(i+1)の後方の
文字列の出現確率Post(i+1)とする。

【０１６４】ステップ１９１２では、出現確率ファイル
読込みプラグラム１４４を起動し、(i+2)文字目の1gram
の単独確率を取得し、分割確率算出位置(i+1)の後方の
文字列の出現確率Post(i+1)とする。

【０１６５】ステップ１９１３では、分割確率算出位置
(i+1)の後方の文字列の出現確率Post(i+1) = 1とする。

【０１６６】次に、ステップ１９１４において、上記ス
テップ１９０１〜１９０３で取得したPre(i)と上記ステ
ップ１９０４〜１９０６で取得したPost(i)の積を算出
位置iにおける分割確率P(i)とし、上記ステップ１９０
７〜１９０９で取得したPre(i+1)と上記ステップ１９１
０〜１９１３で取得したPost(i+1)の積を算出位置(i+1)
における分割確率P(i+1)として、それぞれワークエリア
１７０に格納する。

【０１６７】以上が、分割確率算出プログラム１４３の
処理手順である。

【０１６８】以下、図１９に示した分割確率算出プログ
ラム１４３の処理手順について具体例を用いて説明す
る。

【０１６９】図２８に前述の文書１「・・・。携帯電話
の使用時のマナーが問題になる。・・・」から抽出され
た単一文字種文字列「携帯電話」の分割確率を算出する
例を示す。なお、本図に示す例では、出現確率ファイル
１５２に格納されているn-gram長を 2とし、分割確率を
算出する i文字目を 1文字目とする。すなわち、 1文字
目での分割確率P(1)および 2文字目での分割確率P(2)を
算出するものとして、以下の説明を行なう。

【０１７０】まず、分割確率の算出位置である 1文字目
までの文字列の単独確率が出現確率ファイル６００に格
納されているかどうかを確認するために、出現確率ファ
イル６００に格納されているn-gram長 2と分割確率算出
位置 1を比較する。その結果、格納されているn-gram長
の方が大きいので、 1文字目までの文字列「携」の単独
確率0.01を出現確率ファイル６００より取得する。

【０１７１】次に、分割確率の算出位置の後方に何文字
存在するかを確認するために、単一文字種文字列「携帯
電話」の文字列長 4と分割確率算出位置 1を比較する。
その結果、 2文字以上の文字列「帯電話」が存在するた
め、「帯」の先頭確率0.11を出現確率ファイル６００か
ら取得する。そして、「携」の単独確率0.01と「帯」の
先頭確率0.11の積を算出し、 1文字目での分割確率P(1)
=0.001を得る。

【０１７２】同様に、分割確率の算出位置である 2文字
目までの文字列の単独確率が出現確率ファイル６００に
格納されているかを確認するために、出現確率ファイル
６００に格納されているn-gram長 2と分割確率算出位置
2を比較する。その結果、格納されているn-gram長と算
出位置が等しいので、 2文字目までの文字列「携帯」の
単独確率0.10を出現確率ファイル６００より取得する。

【０１７３】次に、分割確率の算出位置の後方に何文字
存在するかを確認するために、単一文字種文字列「携帯
電話」の文字列長 4と分割確率算出位置 2を比較する。
その結果、 2文字以上の文字列「電話」が存在するた
め、「電」の先頭確率0.36を出現確率ファイル６００か
ら取得する。そして、「携帯」の単独確率0.10と「帯」
の先頭確率0.36の積を算出し、2文字目での分割確率P
(2)=0.036を得る。

【０１７４】以上が、分割確率算出プログラム１４３の
具体的な処理手順である。

【０１７５】以上が、本発明の第一の実施例である。

【０１７６】本実施例では、出現情報ファイル１５１と
出現確率ファイル１５２に格納するn-gramの長さとして
２を用いて、特徴文字列抽出プログラム１４３の処理手
順を説明したが、この長さとして１や３等の固定値を用
いてもよいし、データベース中の出現回数等の情報に基
づき可変長としてもよいし、単一文字種文字列自体の長
さｍとしてもよいし、さらには、それらの組み合わせで
あっても、同様に特徴文字列抽出の処理を行なうことが
できるのは明らかであろう。

【０１７７】また、本実施例では、種文書の内容に類似
する文書を検索するものとして特徴文字列抽出プログラ
ム１４３の処理手順を説明したが、この種文書の代わり
に、文章が指定されたとしても同様に特徴文字列を抽出
することができ、類似文書検索を行なうことができるの
は明らかであろう。

【０１７８】また、本実施例では、単一文字種文字列の
先頭から n文字目までの分割確率と(n+1)文字目までの
分割確率を比較することで特徴文字列を抽出する例を用
いて、分割確率比較特徴文字列抽出プログラム１４２の
処理手順を説明したが、単一文字種文字列の末尾から、
それぞれ n文字目までの分割確率と(n+1)文字目までの
分割確率を比較しても、さらには、単一文字種文字列中
の m文字( mは 1以上の整数)と n文字の分割確率を比較
しても、同様に、文書の特徴を表す特徴文字列の抽出が
行えることは明らかであろう。

【０１７９】なお、本実施例においては、漢字やカタカ
ナの単一文字種文字列に対する分割確率比較特徴文字列
抽出プログラム１４２を含む構成として説明したが、漢
字あるいはカタカナを含まないデータベースを対象とす
る場合等には、対応する分割確率比較特徴文字列抽出プ
ログラム１４２を含まない構成としてもよいし、漢字や
カタカナ以外に対応する分割確率比較特徴文字列抽出プ
ログラム１４２を含む構成としてもよいし、従来技術２
で示したように、各文字種に対応する特徴文字列抽出プ
ログラムを含む構成であってもよい。

【０１８０】また、本実施例においては、単一文字種文
字列から特徴文字列を抽出する構成としたが、特定の文
字種間を境界として前後に跨る部分文字列から特徴文字
列を抽出することにより、例えば、「Ｆ１」や「ビタミ
ンＣ」、「Ｗ杯」、「ケイ素」等の文字列を検索に用い
ることができ、さらに高精度な類似文書検索を実現する
ことも可能となる。

【０１８１】また、本実施例における出現情報ファイル
作成登録プログラム１２１では、文字種境界を単語の区
切れ目とみなし、各n-gramの先頭回数、末尾回数および
単独回数を計数するものとしたが、付属語、すなわち助
詞や助動詞等を単語の区切れ目の候補とみなし、各n-gr
amの先頭回数、末尾回数および単独回数を計数してもよ
い。

【０１８２】さらに、本実施例においては、出現情報フ
ァイル１５１を図５に示した表形式で作成されるものと
したが、この方法では、対象とするn-gram長が増大する
にともない、n-gram種類が増加するため、分割確率ファ
イル作成登録プログラム１２４の処理に長大な時間を要
することになる。この問題は、特徴文字列に対して、検
索用のインデクスを付加することにより解決できる。こ
れにより、n-gram種類が増加しても、高速に登録処理を
実現することができる。この特徴文字列に対する検索用
インデクスとしては、全文検索用インデクス１５３を用
いてもよいし、「特開平８−３２９１１２号公報」等に
開示されているような単語インデクス方式を用いてもよ
い。この問題は、出現確率ファイル１５２および出現回
数ファイル１５３においても発生するが、同様に検索用
のインデクスを付加することで解決することができる。

【０１８３】さらに、本実施例においては、文書登録時
に出現確率ファイル作成登録プログラム１２４を起動
し、出現確率ファイル１５２を作成する構成としたが、
類似文書検索時の分割確率比較特徴文字列抽出プログラ
ム１４２実行時に、出現情報ファイル１５１に格納され
ている各n-gramの出現情報から該当する出現確率を算出
することにより、磁気ディスク１０５に格納するファイ
ルを削減することも可能である。

【０１８４】また、本実施例においては、特徴文字列抽
出プログラム１４１により抽出された特徴文字列を用い
た類似文書検索システムについて説明したが、種文書か
ら特徴文字列を抽出する特徴文字列抽出システムとして
用いることも可能であるし、「特開平８−１５３１２１
号公報」に示されるような形態素解析により文書中に含
まれる単語を抽出し、これを用いて文書を自動的に分類
するシステムに用いることも可能である。

【０１８５】ただし、第一の実施例における分割確率比
較特徴文字列抽出プログラム１４２は、 i文字目での分
割確率P(i)と(i+1)文字目での分割確率P(i+1)を比較
し、その値の大きい方で分割するため、全ての単一文字
種文字列から(i+1)文字以下の特徴文字列が抽出されて
しまい、(i+1)文字より長い単語が誤って分割されてし
まうという問題がある。

【０１８６】以下、第一の実施例で(i+1)文字より長い
単語が誤って分割されてしまうという問題が生じる例を
図２２に示す具体例を用いて説明する。なお、本図で
は、漢字で構成される単一文字種文字列「北海道」を対
象とし、分割確率算出位置 iの初期値を 1とする。

【０１８７】分割確率比較特徴文字列抽出プログラム１
４２では、まず、ステップ２２００において、前述した
分割確率算出プログラム１４３を起動し、1文字目の分
割確率P(1)と2文字目の分割確率P(2)を算出する。本図
に示した例では、単一文字種文字列「北海道」の1文字
目で「北」と「海道」に分割される確率は、1-gram
「北」の単独確率0.03と2-gram「海道」の単独確率0.00
の積としてP(1)=0.000と算出される。同様に、2文字目
で「北海」と「道」に分割される確率は、2-gram「北
海」の単独確率0.03と1-gram「道」の単独確率0.12の積
P(2)=0.004として算出される。

【０１８８】次に、ステップ２２０１において、上記ス
テップ２２００で算出されたP(1)とP(2)のうち、値の大
きい方を分割点とし、単一文字種文字列の先頭から分割
点までの文字列を特徴文字列として抽出する。本図に示
した例では、P(2)の方がP(1)よりも大きいので、 2文字
目で単一文字種文字列「北海道」を分割し、 2文字目ま
での文字列“北海”を特徴文字列として抽出する。

【０１８９】次に、ステップ２２０２において、最後に
特徴文字列が抽出された末尾の文字位置（以下、最新分
割点と呼ぶ）LSを 2に設定し、最新分割点以降の単一文
字種文字列「道」を対象に特徴文字列抽出処理を継続す
る。

【０１９０】次に、ステップ２２０３において、単一文
字種文字列「道」の文字列長 1は、予め定められた長さ
2未満であるため、文字列“道”が特徴文字列として抽
出される。この結果、「・・・。道の駅と呼ばれるサー
ビスエリアが国道沿いに建設されることになった。・・
・」等という文書が類似文書として誤って検索されてし
まうことになる。

【０１９１】以上が、第一の実施例における分割確率比
較特徴文字列抽出プログラム１４２の処理例である。本
図に示した例では、 1文字目と 2文字目の分割確率P(1)
とP(2)を比較し、値の大きい方を分割点とするため、単
一文字種文字列「北海道」から“北海”と“道”が特徴
文字列として抽出されてしまい、種文書の中心概念から
ずれた文書が類似文書として検索されてしまう。

【０１９２】このために、本発明を適用した類似文書検
索システムの第二の実施例では、単一文字種文字列から
特徴文字列を抽出する際に算出された分割確率が所定値
（以下、分割閾値と呼ぶ）よりも高い場合にのみ、比較
処理を行なうことにより、(i+1)文字より長い特徴文字
列を抽出できるようにする。

【０１９３】本実施例は、第一の実施例（図１）とほぼ
同様の構成を取るが、分割確率比較特徴文字列抽出プロ
グラム１４２の処理手順が異なり、図２１のＰＡＤ図に
示すように、ステップ２１００〜２１０４が追加され
る。

【０１９４】以下、第二の実施例における分割確率比較
特徴文字列抽出プログラム１４２ａの処理手順について
図２１のＰＡＤ図を用いて説明する。

【０１９５】分割確率比較特徴文字列抽出プログラム１
４２ａでは、ステップ１８００において、最新分割点LS
の初期値を 0に設定する。

【０１９６】そして、特徴文字列の抽出対象となる単一
文字種文字列の文字列長が予め定められた長さ以上のと
き、次のステップ１８０２〜１８０７、ステップ２１０
１〜２１０３までを繰り返し実行する（ステップ２１０
０）。

【０１９７】ステップ１８０２では、分割確率算出プロ
グラム１４３を起動し、単一文字種文字列の先頭から i
文字目の分割確率P(i)と、(i+1)文字目の分割確率P(i+
1)を算出する。

【０１９８】次に、ステップ２１００において、上記分
割確率算出プログラム１４３で算出された分割確率P
(i)、P(i+1)の値および予め定められた分割閾値Thの値
を比較し、最大のものを抽出する。この結果、分割確率
P(i)が抽出されたならばステップ１８０４を実行し、分
割確率P(i+1)が抽出された場合にはステップ１８０６を
実行し、分割閾値Thが抽出された場合にはステップ２１
０１を実行する。

【０１９９】ステップ１８０４では、単一文字種文字列
の先頭から i文字目までの文字列を特徴文字列として抽
出する。そして、ステップ１８０５において、最新分割
点LSを iに設定し、 iの値を 1加算する。

【０２００】ステップ１８０６では、単一文字種文字列
の先頭から(i+1)文字目までの文字列を特徴文字列とし
て抽出する。そして、ステップ１８０７において、最新
分割点LSを(i+1)に設定し、iの値を 2加算する。

【０２０１】ステップ２１０１では、分割確率の算出位
置 iと単一文字種文字列の文字列長Lnとを比較し、(i+
1)が文字列長Lnよりも小さい場合には、ステップ２１
０２を実行し、(i+1)が文字列長Ln以上であるならば、
ステップ２１０３を実行する。

【０２０２】ステップ２１０２では、分割確率の算出位
置 iの値を 1加算する。

【０２０３】ステップ２１０３では、単一文字種文字列
そのものを特徴文字列として抽出する。そして、ステッ
プ２１０４において、最新分割点LSを文字列長Lnに設定
し、iの値を 1加算する。

【０２０４】以上が、分割確率比較特徴文字列抽出プロ
グラム１４２ａの処理手順である。

【０２０５】以下、第二の実施例における分割確率比較
特徴文字列抽出プログラム１４２ａの処理手順をそれぞ
れ図２３に示す具体例で説明する。なお、本図では、漢
字で構成される単一文字種文字列「北海道」を対象と
し、分割閾値Thを0.050とし、分割確率算出位置 iの初
期値を 1として分割確率比較特徴文字列抽出プログラム
１４２ａの処理手順を説明する。

【０２０６】分割確率比較特徴文字列抽出プログラム１
４２ａでは、まず、ステップ２２００において、前述し
た分割確率算出プログラム１４３を起動し、 1文字目の
分割確率P(1)と 2文字目の分割確率P(2)を算出し、P(1)
=0.000およびP(2)=0.004を得る。

【０２０７】次にステップ２３０１において、上記ステ
ップ２２００で算出した分割確率P(1)、P(2)および分割
閾値Thうち、最大のものを抽出する。この結果、分割閾
値Thが最大であるので、ステップ２３０２において、分
割確率の算出位置 i(=1)と単一文字種文字列「北海道」
の文字列長Ln(=3)を比較する。この結果、分割確率の算
出位置 iの方が小さいので、 iの値を 1加算する。

【０２０８】そして、ステップ２３０４において、2文
字目での分割確率P(2)と3文字目での分割確率P(3)を算
出する。この例では、2文字目で「北海」と「道」に分
割される確率は、2-gram「北海」の単独確率0.03と1-gr
am「道」の単独確率0.12の積P(2)=0.004として算出さ
れ、3文字目までの「北海道」として出現する確率は、2
-gram「北海」の先頭確率と2-gram「海道」の末尾確率
の積P(3)=0.465として算出される。

【０２０９】次に、ステップ２３０５において、上記ス
テップ２３０４で算出した分割確率P(2)、P(3)および分
割閾値Thのうち、最大のものを抽出する。この結果、P
(3)が最大であるので、3文字目「北海道」までが特徴文
字列として抽出される。

【０２１０】以上説明したように、本実施例によれば、
分割確率が分割閾値よりも高い場合にのみ、比較処理を
行なうようにすることにより、本来分割されることのな
い位置での分割を削減することができる。このため、第
一の実施例で抽出されていた不適切な特徴文字列を大幅
に削減することが可能となる。そのため、種文書が表わ
す概念を適切に検索できるとともに、高速に類似文書を
検索することができるようになる。

【０２１１】次に、本発明の第三の実施例について図２
９を用いて説明する。

【０２１２】第一の実施例および第二の実施例において
は、特徴文字列として抽出される可能性のある全ての文
字列を出現回数ファイル１５３中に格納しておく必要が
あるため、文字列の種類の増加に伴い、データベース内
の各文書における出現回数の取得に長大な時間を要する
とともに、必要な磁気ディスク容量が増加してしまう。

【０２１３】本発明を適用した類似文書検索システムの
第三の実施例は、種文書から抽出した特徴文字列に対す
るデータベース内の各文書における出現回数の取得に、
出現回数ファイル１５３を用いずに、全文検索用インデ
クスを利用することにより上記必要な磁気ディスク容量
を低減する方式である。

【０２１４】すなわち、本実施例によれば、第一の実施
例におけるデータベース内の各文書における出現回数の
取得に全文検索システムを利用することにより、文字列
の種類数が多いデータベースに対しても高速な類似文書
検索を実現することが可能となる。さらに、出現回数フ
ァイル１５３を全文検索用インデクスで代用するため、
本類似文書検索システムを全文検索システムと組み合わ
せて実現した場合に、第一の実施例に比べ必要となる磁
気ディスク容量を削減できることになる。

【０２１５】本実施例は、第一の実施例（図１）とほぼ
同様の構成を取るが、類似文書検索プログラム１３１中
の出現回数取得プログラム１４６を構成する出現回数フ
ァイル読込みプログラム１４７が異なる。このプログラ
ムの代わりに、図２９に示すように全文検索プログラム
２９０２が用いられる。

【０２１６】以下、本実施例における処理手順のうち、
第一の実施例とは異なる出現回数取得プログラム１４６
ａの処理手順について、図３０を用いて説明する。

【０２１７】ここで、第一の実施例における出現回数取
得プログラム１４６（図２６）と異なる点は、出現回数
取得ステップ３０００だけである。他の処理ステップの
処理手順は、第一の実施例で説明した通りである。

【０２１８】出現回数取得ステップ３０００では、特徴
文字列抽出プログラム１４１によりワークエリア１７０
に格納された特徴文字列を全文検索プログラム２９０２
で検索することにより、テキスト１５０内の各文書にお
ける該特徴文字列の出現回数を取得する。

【０２１９】本実施例の出現回数取得ステップ３０００
で用いる全文検索プログラム２９０２としては、どのよ
うな方式を適用しても構わない。例えば、「特開昭６４
−３５６２７号公報」（以下、従来技術４と呼ぶ）で開
示されているようなn-gramインデクス方式を用いること
も可能である。

【０２２０】この従来技術４によるn-gramインデクス方
式では、図２９に示すように、文書の登録時に、データ
ベースへ登録する文書のテキストデータからn-gramとそ
のn-gramのテキスト中における出現位置を抽出し、全文
検索用インデクス２９０１として磁気ディスク装置２９
００に格納しておく。検索時には指定された検索ターム
中に出現するn-gramを抽出し、これらに対応するインデ
クスを上記磁気ディスク装置２９００中の全文検索用イ
ンデクス２９０１から読み込み、インデクス中のn-gram
の出現位置を比較し、検索タームから抽出したn-gramの
位置関係とインデクス中のn-gramの位置関係が等しいか
どうかを判定することによって、指定された検索ターム
が出現する文書を高速に検索する。

【０２２１】この方法を用いて、特徴文字列を検索ター
ムとして全文検索プログラム２９０２へ入力し、該特徴
文字列の出現文書とその位置情報を取得することによ
り、該特徴文字列の各文書における出現回数を取得する
ことが可能となる。

【０２２２】以下、この従来技術４を用いた出現回数の
取得方法を図７と図１５を用いて具体的に説明する。な
お、本図では、n-gramの nの値を 1としている。

【０２２３】まず、文書の登録時の処理手順を図７を用
いて具体的に説明する。データベースに登録するテキス
ト７０１がn-gramインデクス作成登録ステップ７０２に
読み込まれ、n-gramインデクス７００が作成される。こ
のn-gramインデクス７００には、テキスト７０１に出現
する全ての1-gramとテキスト７０１における1-gramの出
現位置が格納される。

【０２２４】本図に示すテキスト７０１では、「携」と
いう1-gramはテキスト７０１内の文書番号２の２６文字
目に現れるので、n-gramインデクス７００には1-gram
「携」とこれに対応したかたちで、出現位置（２，２
６）が格納される。ここで、例えば、（２，２６）は、
文書番号２の２６文字目に出現するということを示して
いる。

【０２２５】次に、検索時の処理手順を図１５を用いて
具体的に説明する。本図では、前述の文書１「携帯電話
の使用のマナーが問題になる。・・・」から抽出された
特徴文字列「電話」の出現回数を、前述したn-gramイン
デクス７００から取得する例について示す。

【０２２６】まず、検索対象となる特徴文字列がn-gram
抽出部１５００に入力され、特徴文字列中に出現する全
ての n-gramとその n-gramの特徴文字列における出現位
置が抽出される。次に、抽出された n-gramとこれに対
応する n-gramの特徴文字列における出現位置がインデ
クス検索部１５０１に入力される。インデクス検索部１
５０１では、特徴文字列から抽出された n-gramに対応
するインデクスが n-gramインデクス７００から読み込
まれ、これらのインデクスの中から文書番号が一致し、
かつ特徴文字列中の位置関係と同じ位置関係を持つもの
が抽出され、検索結果として出力される。

【０２２７】特徴文字列として「電話」が入力された本
図の場合、まず、n-gram抽出部１５００において、（1-
gram「電」、1-gram位置「１」）と（1-gram「話」、1-
gram位置「２」）が抽出される。ここで、 n-gram位置
「１」は検索タームの先頭、n-gram位置「２」はその次
の文字位置を示す。

【０２２８】次に、インデクス検索部１５０１におい
て、n-gramインデクス７００から1-gram「電」と「話」
に対応するインデクスが読み込まれる。これらのインデ
クスにおける出現文書番号が等しく、かつ出現位置がn-
gram位置「１」とn-gram位置「２」のように連続するも
のが、すなわち隣接するものが抽出され検索結果として
出力される。

【０２２９】本図では、 1-gram「電」の（２，２８）
と1-gram「話」の出現位置（２，２９）が文書番号が同
じで、位置が「２８」と「２９」で隣接するため、 n-g
ram「電話」が文字列として存在することが分かり、文
書２中に検索ターム「電話」が出現することが検出され
る。しかし、 1-gram「電」の（３，１１）と1-gram
「話」の（３，１５）は隣接していないため、この位置
には特徴文字列「電話」が出現しないことが分かる。

【０２３０】そして、上記インデクス検索部１５０１か
ら検索結果として出力される出現位置を計数することに
より、該当特徴文字列の出現回数を得る。

【０２３１】以上説明したように、本実施例によれば、
出現回数ファイルの特徴文字列検索用インデクスと出現
回数ファイルの代わりに、全文検索用インデクスを利用
することにより、余分なファイルを増やさずに、高速に
類似文書検索を実現することが可能となる。

【０２３２】次に、本発明の第四の実施例について図３
１を用いて説明する。

【０２３３】第一、第二および第三の実施例において
は、種文書から抽出された単一文字種文字列の先頭から
n文字目での分割確率と(n+1)文字目での分割確率を比
較することで特徴文字列を抽出するものとしたが、出現
情報ファイル１５１と出現確率ファイル１５２を保持す
る必要があるため、文字列の種類の増加に伴い、必要な
磁気ディスク容量が増加してしまう。

【０２３４】本発明を適用した類似文書検索システムの
第四の実施例は、出現情報ファイル１５１と出現確率フ
ァイル１５２を用いずに、出現回数ファイル１５３を利
用することで、上記必要な磁気ディスク容量を低減する
方式である。

【０２３５】本発明を適用した第四の実施例は、第一の
実施例（図１）とほぼ同様の構成をとるが、類似文書検
索プログラム１３１を構成する特徴文字列抽出プログラ
ム１４１が異なり、n-gram抽出プログラム３１００と前
述の出現回数取得プログラム１４６で構成される。

【０２３６】以下、本実施例における処理手順のうち、
第一の実施例とは異なる特徴文字列抽出プログラム１４
１ａの処理手順について、図３２を用いて説明する。

【０２３７】特徴文字列抽出プログラム１４１ａは、ま
ずステップ３２００において、前述の単一文字種文字列
抽出プログラム１６１により、ワークエリア１７０に格
納されている全ての単一文字種文字列を取得する。

【０２３８】次に、ステップ３２０１において、上記ス
テップ３２００で取得した全ての単一文字種文字列に対
して、次のステップ３２０２〜３２０５を繰り返し実行
する。

【０２３９】すなわち、ステップ３２０２では、n-gram
抽出プログラム３１００を起動し、ステップ３２００で
取得した単一文字種文字列から、予め定められた長さ n
（ nは 1以上の整数）のn-gramを先頭から 1文字ずつず
らしながら、全てのn-gramを抽出する。

【０２４０】そして、ステップ３２０３において、上記
n-gram抽出プログラム３１００により抽出された全ての
n-gramに対して、次のステップ３２０４を繰り返し実行
する。すなわち、ステップ３２０４では、出現回数取得
プログラム１４６を起動し、上記n-gram抽出プログラム
３１００により抽出されたn-gramの出現回数を取得す
る。

【０２４１】そして、ステップ３２０５において、上記
ステップ３２０４で取得した各n-gramの出現回数の降順
にソートし、上位から予め定められた個数のn-gramを特
徴文字列として抽出する。

【０２４２】以上が、特徴文字列抽出プログラム１４１
ａの処理手順である。

【０２４３】以下、図３２に示した特徴文字列抽出プロ
グラム１４１ａの処理手順について具体例を用いて説明
する。

【０２４４】図３３に、前述の文書１「・・・。携帯電
話の使用時のマナーが問題になる。・・・」から特徴文
字列を抽出する例を示す。本図に示す例ではn-gramのn
の値を2とし、各単一文字種文字列から2個の2-gramを特
徴n-gramとして抽出するものとする。

【０２４５】まず、文書１から単一文字種文字列「・・
・」「。」「携帯電話」「の」「使用時」「の」「マナ
ー」「が」「問題」「になる」「。」「・・・」を抽出
する。

【０２４６】次に、これらの単一文字種文字列の先頭か
ら1文字ずつずらしながら全ての2-gramを抽出し、各2-g
ramの出現回数の降順にソートする。例えば、単一文字
種文字列「携帯電話」からは“携帯”、“帯電”、“電
話”の3つの2-gramを抽出し、それぞれデータベース内
の出現回数を取得する。この結果、（電話，5,283）、
（携帯，462）、（帯電，269）が得られる。ここで（電
話，5,282）は、2-gram“電話”のデータベース内にお
ける出現回数が5,283回であることを表わす。

【０２４７】次に、各単一文字種文字列において、上位
2個の2-gramを特徴n-gramとして抽出する。この結果、
単一文字種文字列「携帯電話」では（電話，5,283）、
（携帯，462）が上位2個であるため、“電話”および
“携帯”が特徴文字列として抽出される。

【０２４８】以上が、特徴文字列抽出プログラム１４１
ａの具体的な処理例である。

【０２４９】以上説明したように、本実施例によれば、
出現情報ファイル１５１と出現確率ファイル１５２を用
いずに、出現回数ファイル１５３を利用することによ
り、データベース中での実際の出現状況を正確に反映し
た特徴文字列を抽出することが可能となる。

【０２５０】なお、本実施例では、単一文字種文字列の
先頭から 1文字ずつずらしながら予め定められた長さ n
のn-gramを全て抽出するものとして、n-gram抽出プログ
ラム３１００の処理手順を説明したが、単一文字種文字
列中の任意のn-gramを抽出してもよいし、さらには、単
一文字種文字列中の m-gram( mは 1以上の整数)と n-gr
amを抽出してもよい。さらに、抽出するn-gramの長さ n
を予め定められたものとしたが、単一文字種文字列の長
さにより抽出する nの値を変更してもよいし、単一文字
種文字列の文字種により変更してもよい。また、本発明
のn-gram抽出手法は、文書の特徴を表すn-gramを抽出す
ることができるため、n-gramを用いた文書の特徴を表す
ベクトルの算出やn-gramを用いた文書の分類にも適用可
能である。

【０２５１】

【発明の効果】本発明によれば、誤分割が少なくなるよ
うに特徴文字列を抽出することができるようになる。こ
れにより、単語辞書を参照せずに類似文書検索を行なっ
た場合でも、意味のまとまった文字列を用いて検索を行
なうことができるため、中心概念のずれを低減した類似
文書検索を実現できる。

【図面の簡単な説明】

【図１】本発明による類似文書検索システムの第一の実
施例の全体構成を示す図である。

【図２】従来技術３における出現情報ファイルの例を示
す図である。

【図３】従来技術３における出現確率ファイルの例を示
す図である。

【図４】従来技術３における特徴文字列抽出方法の例を
示す図である。

【図５】本発明による出現情報ファイルの例を示す図で
ある。

【図６】本発明による出現確率ファイルの例を示す図で
ある。

【図７】本発明の第三の実施例におけるn-gramインデク
スの例を示す図である。

【図８】本発明の第一の実施例における分割確率比較特
徴文字列抽出プログラム１４２を漢字文字列に適用した
場合の処理例を示す図である。

【図９】本発明による特徴文字列の抽出方法の例を示す
図である。

【図１０】本発明の第一の実施例におけるシステム制御
プログラム１１０の処理手順を示すＰＡＤ図である。

【図１１】本発明の第一の実施例における文書登録制御
プログラム１１１の処理手順を示すＰＡＤ図である。

【図１２】本発明の第一の実施例における出現情報ファ
イル作成登録プログラム１２１の処理手順を示すＰＡＤ
図である。

【図１３】本発明の第一の実施例における検索制御プロ
グラム１１２の処理手順を示すＰＡＤ図である。

【図１４】本発明の第一の実施例における類似文書検索
プログラム１３１の処理手順を示すＰＡＤ図である。

【図１５】本発明の第三の実施例における出現回数取得
の例を示す図である。

【図１６】本発明の第一の実施例における出現確率ファ
イル作成登録プログラム１２４の処理手順を示すＰＡＤ
図である。

【図１７】本発明の第一の実施例における特徴文字列抽
出プログラム１４１の処理手順を示すＰＡＤ図である。

【図１８】本発明の第一の実施例における分割確率比較
特徴文字列抽出プログラム１４２の処理手順を示すＰＡ
Ｄ図である。

【図１９】本発明の第一の実施例における分割確率算出
プログラム１４３の処理手順を示すＰＡＤ図である。

【図２０】本発明の第一の実施例における分割確率比較
特徴文字列抽出プログラム１４２をカタカナ文字列に適
用した場合の処理例を示す図である。

【図２１】本発明の第二の実施例における分割確率比較
特徴文字列抽出プログラム１４２ａの処理手順を示すＰ
ＡＤ図である。

【図２２】本発明の第一の実施例における分割確率比較
特徴文字列抽出プログラム１４２の処理例を示す図であ
る。

【図２３】本発明の第二の実施例における分割確率比較
特徴文字列抽出プログラム１４２ａの処理例を示す図で
ある。

【図２４】本発明による出現回数ファイル作成処理の手
順を示す図である。

【図２５】本発明の第一の実施例における出現回数ファ
イル作成登録プログラム１２７の処理手順を示すＰＡＤ
図である。

【図２６】本発明の第一の実施例における出現回数取得
プログラム１４６の処理手順を示すＰＡＤ図である。

【図２７】本発明の第一の実施例における特徴文字列抽
出プログラム１４１の処理例を示す図である。

【図２８】本発明の第一の実施例における分割確率算出
の処理例を示す図である。

【図２９】本発明の第三の実施例における類似文書検索
プログラム１３１の構成を示す図である。

【図３０】本発明の第三の実施例における出現回数取得
プログラム１４６ａの処理手順を示す図である。

【図３１】本発明の第四の実施例における特徴文字列抽
出プログラム１４１ａの構成を示す図である。

【図３２】本発明の第四の実施例における特徴文字列抽
出プログラム１４１ａの処理手順を示すＰＡＤ図であ
る。

【図３３】本発明の第四の実施例における特徴文字列抽
出プログラム１４１ａの処理例を示す図である。

【符号の説明】

１００…ディスプレイ、１０１…キーボード、１０２…中央演算処理装置（ＣＰＵ）、１０３…フロッピディスクドライブ（ＦＤＤ）、１０４…フロッピディスク、１０５…磁気ディスク装置、１０６…主メモリ、１０７…バス、１１０…システム制御プログラム、１１１…文書登録制御プログラム、１１２…検索制御プログラム、１２０…テキスト登録プログラム、１２１…出現情報ファイル作成登録プログラム、１２２…出現情報計数プログラム、１２３…出現情報ファイル作成プログラム、１２４…出現確率ファイル作成登録プログラム、１２５…出現確率算出プログラム、１２６…出現確率ファイル作成プログラム、１２７…出現回数ファイル作成登録プログラム、１２８…出現回数計数プログラム、１２９…出現回数ファイル作成プログラム、１３０…検索条件式解析プログラム、１３１…類似文書検索プログラム、１３２…検索結果出力プログラム、１４０…種文書読込みプログラム、１４１…特徴文字列抽出プログラム、１４２…分割確率比較特徴文字列抽出プログラム、１４３…分割確率算出プログラム、１４４…出現確率ファイル読込みプログラム、１４５…種文書内出現回数計数プログラム、１４６…出現回数取得プログラム、１４７…出現回数ファイル読込みプログラム、１４８…類似度算出プログラム、１５０…テキスト、１５１…出現情報ファイル、１５２…出現確率ファイル、１５３…出現回数ファイル、１６０…共有ライブラリ、１６１…同一文字種文字列抽出プログラム、１７０…ワークエリア

───────────────────────────────────────────────────── フロントページの続き (72)発明者菅谷奈津子神奈川県横浜市都筑区加賀原二丁目２番株式会社日立製作所システム開発本部内 (72)発明者川下靖司神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内

Claims

【特許請求の範囲】

【請求項１】テキストを含む文書から特徴を表す文字列
（特徴文字列と呼ぶ）を抽出する特徴文字列抽出方法に
おいて、単語間の区切れ目を境界として単語の候補となる文字列
を上記テキストから抽出する文字列抽出ステップと、上記文字列抽出ステップで抽出された文字列中の長さが
n（ nは 1以上の整数）の連続する文字列（n-gramと呼
ぶ）に関するテキストデータベース内での出現回数を参
照し、該出現回数が最大のn-gramを特徴文字列として抽
出する特徴n-gram抽出ステップとを有することを特徴と
した特徴文字列抽出方法。
【請求項２】請求項１記載の特徴文字列抽出方法におけ
る前記文字列抽出ステップとして、所定の文字種の変わり目を境界としてテキストから単語
の候補となる文字列を抽出する文字列抽出ステップを有
することを特徴とした特徴文字列抽出方法。
【請求項３】請求項１記載の特徴文字列抽出方法におけ
る前記特徴n-gram抽出ステップとして、前記文字列抽出ステップで単語の候補として抽出された
文字列からm-gram（ mは 1以上の整数）とn-gram（ nは
1以上の整数）を抽出し、該m-gramと該n-gramに関するテキストデータベース内で
の出現回数を参照し、両者のうち出現回数の多い方を特
徴文字列として抽出する特徴n-gram抽出ステップを有す
ることを特徴とした特徴文字列抽出方法。
【請求項４】請求項１記載の特徴文字列抽出方法におい
て、テキストデータベースへの文書登録時の処理とし
て、テキストから単語の区切れ目を抽出し、これを境界とし
て単語の候補となる文字列を抽出する登録用文字列抽出
ステップと、上記登録用文字列抽出ステップで抽出された文字列（抽
出文字列と呼ぶ）に関し、テキストデータベース中での
出現回数を計数し、テキストデータベース中の全ての抽
出文字列の出現回数に対する割合から出現確率を算出す
る出現確率算出ステップを有するとともに、前記特徴n-gram抽出ステップにおいて、出現回数の代わ
りに該当する出現確率を参照し、前記文字列抽出ステッ
プで抽出された文字列中のn-gramの出現確率を参照し、
該出現確率が最大のn-gramを特徴文字列として抽出する
特徴n-gram抽出ステップとを有することを特徴とした特
徴文字列抽出方法。
【請求項５】文字情報をコードデータとして蓄積したテ
キストデータベースを対象として、ユーザが指定した文
章あるいは文書（以後、まとめて文書と呼ぶ）と類似す
る文書を検索する類似文書検索方法において、ユーザが指定した文書のテキスト（指定テキストと呼
ぶ）から、単語間の区切れ目を抽出し、これを境界とし
て単語の候補となる文字列を抽出する文字列抽出ステッ
プと、上記文字列抽出ステップで抽出された文字列の中から、
長さが n（ nは 1以上の整数）の連続する文字列（n-gr
amと呼ぶ）に関するテキストデータベース内での出現回
数を参照し、該出現回数が最大のn-gramを特徴文字列と
して抽出する特徴n-gram抽出ステップと、上記特徴n-gram抽出ステップで抽出された特徴文字列に
対して、指定テキスト内の出現回数を計数する指定テキ
スト内出現回数計数ステップと、上記特徴n-gram抽出ステップで抽出された特徴文字列に
対して、テキストデータベース内の各文書における出現
回数を取得するテキストデータベース内出現回数取得ス
テップと、上記指定テキスト内出現回数計数ステップで計数した該
特徴文字列の指定テキスト内の出現回数と、上記テキス
トデータベース内出現回数取得ステップで取得した該特
徴文字列のテキストデータベース内の各文書における出
現回数を用いて、指定テキストとテキストデータベース
内の各文書の類似度を算出する類似度算出ステップと、上記類似度算出ステップで算出されたテキストデータベ
ース内の各文書の指定テキストに対する類似度を、検索
結果として出力する検索結果出力ステップとを有するこ
とを特徴とした類似文書検索方法。
【請求項６】請求項５記載の類似文書検索方法におい
て、テキストデータベースへの文書登録処理として、テキストから単語の区切れ目を抽出し、これを境界とし
て単語の候補となる文字列を抽出する登録用文字列抽出
ステップと、上記登録用文字列抽出ステップで抽出された文字列か
ら、長さが１から該文字列自体の長さｍまでの全てのn-
gramを抽出し、該登録文書の識別番号と該登録文書のテ
キストにおける出現回数を組みとして、これを該当する
出現回数ファイルへ格納する出現回数ファイル作成ステ
ップを有するとともに、前記テキストデータベース内出現回数取得ステップとし
て、前記特徴n-gram抽出ステップで抽出された特徴文字列に
対し、該当する上記出現回数ファイルを参照して、該特
徴文字列のテキストデータベース内の各文書における該
特徴文字列の出現回数を取得するテキストデータベース
内出現回数取得ステップを有する類似文書検索方法。
【請求項７】請求項６記載の類似文書検索方法における
前記文字列抽出ステップとして、所定の文字種の変わり目を境界としてテキストから単語
の候補となる文字列を抽出する文字列抽出ステップを有
することを特徴とした類似文書検索方法。
【請求項８】テキストを含む文書の特徴を表す文字列
（特徴文字列と呼ぶ）を抽出する特徴文字列抽出装置に
おいて、単語間の区切れ目を境界として単語の候補となる文字列
を上記テキストから抽出する文字列抽出手段と、上記文字列抽出装置で抽出された文字列中の長さが n
（ nは 1以上の整数）の連続する文字列（n-gramと呼
ぶ）に関するテキストデータベース内での出現回数を参
照し、該出現回数が最大のn-gramを特徴文字列として抽
出する特徴n-gram抽出手段とを備えたことを特徴とした
特徴文字列抽出装置。
【請求項９】文字情報をコードデータとして蓄積したテ
キストデータベースを対象として、ユーザが指定した文
章あるいは文書（以後、まとめて文書と呼ぶ）と類似す
る文書を検索する類似文書検索装置において、ユーザが指定した文書のテキスト（指定テキストと呼
ぶ）から、単語間の区切れ目を検出し、これを境界とし
て単語の候補となる文字列を抽出する文字列抽出手段
と、上記文字列抽出手段で抽出された文字列の中から、長さ
が n（ nは 1以上の整数）の連続する文字列（n-gramと
呼ぶ）に関するテキストデータベース内での出現回数を
参照し、該出現回数が最大のn-gramを特徴文字列として
抽出する特徴n-gram抽出手段と、上記特徴n-gram抽出手段で抽出された特徴文字列に対し
て、指定テキスト内の出現回数を計数する指定テキスト
内出現回数計数手段と、上記特徴n-gram抽出手段で抽出された特徴文字列に対し
て、テキストデータベース内の各文書における出現回数
を取得するテキストデータベース内出現回数取得手段
と、上記指定テキスト内出現回数計数ステップで計数した該
特徴文字列の指定テキスト内の出現回数と、上記テキス
トデータベース内出現回数取得手段で取得した該特徴文
字列のテキストデータベース内の各文書における出現回
数を用いて、指定テキストとテキストデータベース内の
各文書の類似度を算出する類似度算出手段と、上記類似度算出手段で算出したテキストデータベース内
の各文書の指定テキストに対する類似度を、検索結果と
して出力する検索結果出力手段とを備えたことを特徴と
した類似文書検索方法。
【請求項１０】テキストを含む文書の特徴を表す文字列
（特徴文字列と呼ぶ）を抽出する特徴文字抽出プログラ
ムを格納する記憶媒体において、単語間の区切れ目を境界として単語の候補となる文字列
を上記テキストから抽出する文字列抽出ステップと、上記文字列抽出ステップで抽出された文字列中の長さが
n（ nは 1以上の整数）の連続する文字列（n-gramと呼
ぶ）に関するテキストデータベース内での出現回数を参
照し、該出現回数が最大のn-gramを特徴文字列として抽
出する特徴n-gram抽出ステップとを有する特徴文字列抽
出プログラムを格納することを特徴とした記憶媒体。
【請求項１１】文字情報をコードデータとして蓄積した
テキストデータベースを対象として、ユーザが指定した
文章あるいは文書（以後、まとめて文書と呼ぶ）と類似
する文書を検索する類似文書検索プログラムを格納する
記憶媒体において、ユーザが指定した文書のテキスト（指定テキストと呼
ぶ）から、単語間の区切れ目を検出し、これを境界とし
て単語の候補となる文字列を抽出する文字列抽出ステッ
プと、上記文字列抽出ステップで抽出された文字列の中から、
長さが n（ nは 1以上の整数）の連続する文字列（n-gr
amと呼ぶ）に関するテキストデータベース内での出現回
数を参照し、該出現回数が最大のn-gramを特徴文字列と
して抽出する特徴n-gram抽出ステップと、上記特徴n-gram抽出ステップで抽出された特徴文字列に
対して、指定テキスト内の出現回数を計数する指定テキ
スト内出現回数計数ステップと、上記特徴n-gram抽出ステップで抽出された特徴文字列に
対して、テキストデータベース内の各文書における出現
回数を取得するテキストデータベース内出現回数取得ス
テップと、上記指定テキスト内出現回数計数ステップで計数した該
特徴文字列の指定テキスト内の出現回数と、上記テキス
トデータベース内出現回数取得ステップで取得した該特
徴文字列のテキストデータベース内の各文書における出
現回数を用いて、指定テキストとテキストデータベース
内の各文書の類似度を算出する類似度算出ステップと、上記類似度算出ステップで算出されたテキストデータベ
ース内の各文書の指定テキストに対する類似度を、検索
結果として出力する検索結果出力ステップを有する類似
文書検索プログラムを格納することを特徴とした記憶媒
体。