JPH02271468A

JPH02271468A - データ処理方法

Info

Publication number: JPH02271468A
Application number: JP2008541A
Authority: JP
Inventors: Richard G Carlgren; リチヤード・ゴーラン・カールグレン; William D Modlin; ウイリアム・デヴイド・モデリン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1989-01-19
Filing date: 1990-01-19
Publication date: 1990-11-06
Anticipated expiration: 2010-11-13
Also published as: CA2007285C; EP0378848A2; EP0378848A3; US5099426A; CA2007285A1; JPH07104870B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本明細書に開示されている発明は総括的にデータ処理技
術に関し、さらに具体的には、文書要約処理でキーワー
ドを作成するための改善された方法、及び文書検索で使
用される照会項を、文書要約の間に得られたキーワード
に関連付けるための改善された方法に関するものである
。本発明は、キーワードが形態論的に互いに関連付けら
れることを必要とする任意の設定で有用であり、価値が
ある。そのような用途には文書検索、及びデータベース
管理システムに対する自然言語インターフェースがある
が、これらに限定されるものではない。

Ｂ、従来の技術関連出願は、１９８７年３月２０日に出願され、ＩＢＭ
社に譲渡された、ｒＰａｒａｄｉｇｍ−ＢａｓｅｄＭｏ
ｒｐｈｏｌｏｇｉｃａｌ　　Ｔｅｘｔ　Ａｎａｌｙｓｉ
ｓ　ｆｏｒ　ＮａｔｕｒａｌＬａｎｇｕａｇｅｓ、Ｊと
いう名称の特許出願第０２８４３７号である。本書に開
示された発明を実施することが可能なデータ処理システ
ムを開示しているものとして１ｒＭｕｌｔｉｌｉｎｇｕ
ａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ｆｏｒＳｃｒｅｅｎ　Ｉ
ｍａｇｅ　Ｂｕｉｌｄ　ａｎｄ　Ｃｏｍｍａｎｄ　Ｄｅ
ｃｏｄｅ　ｉｎ　ａ’Ｊｏｒｄ　　Ｐｒｏｃｅｓｓｏｒ
ｓ　　Ｗｉｔｈ　　Ｆｕｌｌ　　Ｃｏｍｍａｎｄ、　　
Ｍｅｓｓａｇｅａｎｄ　Ｈｅ１ｐ　５ｕｐｐｏｒｔＪと
いう名称の、ＩＢＭ社に譲渡された米国特許第４７３１
７３５号明細書も参照される。

上に引用した特許出願の開示は、本書に開示された発明
に関する背景を提供するため、引用により本明細書に組
み込まれている。

過去２０年の間、コンピュータを使用した文書検索はビ
ジネス及び図書館学の両方での使用が際立っていた。文
書を作成する方法及び文書を検索する方法の２つの方法
は最新技術で確立された。

それらの方法は次の通りである。

・キーワード　−文書検索時に、操作員の考えで、記憶
される文書の内容／主題を記述する１組の項を文書に添
付するため、操作員の介入が必要とされる。ワードまた
は句は文書内に現れることも、現れないこともあり、将
来本文書をどのように照会することができるかに関する
操作員による主観的判断を表す。

・文脈　−文書検索に先立って、文書内の各ワードが調
べられ、基準または１組の基準に基づいて、ワード及び
句が対象文書のための検索項として選ばれる。その最も
簡単な形では、文書の各ワードを検索項と見なすことが
できる。別の方法では、精巧な文法基準を使って、キー
ワードの選択をもっと具体的なワードに縮小することが
でき、これらのワードは、言語学及び情報科学上の方法
論に基づいて、もっと高度の特殊性、及び後の検索のた
め一層の有用性を持つように決定される。

キーワードに基づいた検索システムの一例は現行のＩＢ
Ｍ社のＰＲＯＦＳシステムであり、文脈システムの一例
は現行のＩＢＭ社の５ＴＡＩＲＳプログラム・プロダク
ト製品である。本発明においては、経験的方法、または
言語学的方法のいずれか、または別の方法であろうと、
操作員により得られたキーワード間の区別、または何ら
かの自動基準により得られた文脈参照間の区別を行なわ
ない。この開示における以下の考察では、キーワードが
、バラグラフ、行、及び行内の位置を指すポインタを有
する反転ファイルとして文書に再度関連付けられるかど
うか、または、それらキーワードが、内部参照またはポ
インタを有さないエンティティとして文書に関連付けら
れるだけであるかどうかについて、何も区別していない
。

自動文書記憶、要約及び検索の最も初期の出現から、ワ
ードを記憶し、文書と関連付けるコンピュータ技術は、
−度文書が保管されると、文書の検索可能度を保証する
際の重要な要素ではないことが認識されていたｏ　Ａｕ
ｔｏｍａｔｉｃ　ＣｏｍｐｕｔｉｎｇＭａｃｈｉｎｅｒ
ｙ　（ＡＣＭ）　Ｐｒｏｃｅｅｄｉｎｇｓ　（１９８５
年３月）等の論文は、検索の精度及び信頼性をもたらす
主な要素が、検索照会でのキーワードを、文書に割り当
てられた、または文書から自動的に得られた実際のキー
ワードに関連付けることに関係していることを示す研究
を含む。具体的にいうと、語形変化により引き起こされ
た同義性または曖昧性は文書を検索不能にする恐れがあ
る。すなわち、照会がキーワードの同義語を含む場合、
または、キーワードが、文書で見つけられたのと同じで
ないある語形変化を有する場合は、照会はキーワードの
リストと一致せず、文書は見つからない。ユーザが正確
な語形変化に到るまでキーワードを詳細に覚えている可
能性が低いことが、文書検索の使用に大幅な妥協を強い
る信頼性要素を付は加えることは明らかである。この−
例はｒＢＵＩ　ＬＤＪというワードであろう。このワー
ドが文書と関連付けられており、照会がｒＢＵＩＬＴＪ
という形式を含む場合は、照会は最新技術を使ってこの
文書を見つけることができない。部分マスキング等の代
りの方法が文献で提案されてきた。すなわち、ＢＵＩ　
ＬＴ、ＢＵＩ　ＬＤ及びＢＵＩＬＤＩＮＧについてＢＵ
ＩＬＸ等のワードの一部における一致である。しかし、
この手法は計算が冗長であり、曖昧性を生じる可能性が
あり、かつ操作員の知的素養及び先見性がある水準に達
していることを必要とする。同様の問題は文書検索の分
野のみならず、データベース管理に関連したデータ辞書
に対するアクセスにも存在し、特に、自然言語照会シス
テムの場合にそうである。

Ｃ１発明が解決しようとする課題したがって、本発明の目的は、語形変化に基づいて異な
ることがあるキーワードを関連付けるための改善された
情報検索方法を提供することである。

本発明の他の目的は、形態学的手段を使って語形変化に
おける任意のワードをそのレンフ（前照）にマツプし、
次にとのレンフを使ってテキスト部分にアクセスするこ
とにより、文書検索または一般的なワード処理用途でテ
キスト部分にアクセスするための改善された方法を提供
することである。

０１課題を解決するための手段これら及びその他の目的、機能及び利点が、本明細書に
開示された発明により実現される。テキストを記憶、検
索するためのデータ処理方法が開示されている。この方
法の記憶部分は、テキストに現れるワードの語棄リスト
を編集するステップと、語負リストを、増補ワード・リ
ストとしてテキスト内のワードのレンフで増補するステ
ップを含む。記憶部分はさらに、ワードのレンフをテキ
スト内のワードの位置に関連付ける相互参照テーブルを
編集するステップと、テキスト、増補ワード・リスト及
び相互参照テーブルを記憶するステップが続く。

この方法の検索部分は、記憶されたテキストの一部分に
アクセスするため照会ワードを入力するステップと、照
会ワードを探索項として使って増補語危リストを探索す
るステップと、記憶されたテキストの上記部分を探し出
すため、照会ワードのレンフで相互参照テーブルにアク
セスするステップを含む。

この方法の検索部分のさらに詳細な幾つかのステップと
しては、照会ワードのレンフのレンフ異形を発生するス
テップと、レンフ異形と同じ異形を有するその他のレン
フを発生するステップがある。この方法は次に、アクセ
ス・ステップで探し出した記憶テキストの部分を表示す
るステップと。

表示される記憶テキストの部分に現れた４合に、照会ワ
ード、レンフ異形、及びその他のレンフを強調するステ
ップを実行する。

本発明のもう１つの実施例では、この方法は、複数のワ
ード句からなる照会を処理することができ、入力ステッ
プは、記憶テキストの所望の部分にアクセスするため、
少なくとも第１及び第２の照会ワードを照会句として入
力し、第１の照会ワードは記憶テキストの第１の複数部
分に現れ、第２の照会ワードは記憶テキストの第２の複
数部分に現れる。アクセス・ステップはさらに、第１の
照会ワードの第１のレンフで相互参照テーブルにアクセ
スして、記憶テキストの第１の複数部分を探し出すステ
ップと、第２の照会ワードの第２のレンフで相互参照テ
ーブルにアクセスして、記憶テキストの第２の複数部分
を探し出すステップを含む。次に、この方法は、記憶テ
キストの第１及び第２の複数部分のための共通位置を有
する記憶テキストの共通部分を識別するステップと、記
憶テキストの共通部分を所望の部分として表示するステ
ップと、表示される記憶テキストの共通部分に現れる場
合に照会句を強調するステップを実行する。

結果として得られる発明は、検索処理を使用される相互
参照リストを簡潔に記憶することを可能にすると共に、
文書内のテキストの「ファジィ」探索のためのいっそう
の高速性能を可能にする。

Ｅ、実施例本発明の実施例は以下のステップを含む。

ステップ１−　本発明の実施例の第１のステップでは、
文書語炙りストとして編集されたキーワードのリストが
ワード単位で自動的に調べられ、リスト内の各ワードの
レンフが「先験的に」リストに存在するかどうか判定さ
れる。レンフの存在の判定は、１９８７年３月２０日に
出願され、１８Ｍ社に譲渡された、ｒＰａｒａｄｉｇｍ
−ＢａｓｅｄＭｏｒｐｈｏｌｏｇｉｃａｌ　Ｔｅｘｔ　
Ａｎａｌｙｓｉｓ　ｆｏｒ　ＮａｔｕｒａｌＬａｎｇｕ
ａｇｅｓ　Ｊという名称の上記関連特許出願第Ｏ２８４
３７号で開示されているものと同様な方法により構成す
ることができる形態辞書を参照することにより行なわれ
る。レンフがキーワード・リストにある場合、すなわち
、文書から文脈的に得られたキーワードのリストにワー
ドが単独で現れた場合は、何の処置も取られない。キー
ワード内のワードがレンフでない場合は、このステップ
でそのレンフが形態辞書から人工的に生成され、キーワ
ード・リストに挿入される。姓等のワードが形態辞書に
見つからない場合は、そのワードはあたかもレンフであ
るかのように扱われ、キーワード・リストに追加される
。

ステップ２−　ステップ１でそのように増補されたキー
ワード・リストは次に、記録保管の完了に先立って、元
の文書と対照して調べられる。

元の文書内のキーワードの各々はキーワードのレンフに
連鎖されているので、レンフが文書内に存在していない
としても、そのレンフの語形変化の出現はレンフ自体と
して認識され、文書内での語形変化の位置が相互参照テ
ーブルでレンフに割す当てられる。

ステップ３−　ステップ３は、操作員が文書の検索の最
中にあり、その検索のための照会を生成したとき生じる
。文書は既に要約され、キーワード・リストはステップ
１及び２と同様に形成され、さらに文書は保管されてい
るものとする。この時点で、検索のための照会ワードが
システムにより調べられる。照会ワードは、キーワード
・リストを探索するため探索類として使用される。照会
ワードがレンフである場合は、この照会ワードを使って
相互参照テーブルがアクセスされ、照会ワードを含む文
書の部分が探し出される。照会ワードがキーワード・リ
ストで一致したが、レンフでない場合は、そのレンフが
生成され、相互参照テーブルにアクセスするため使用さ
れる。さらに、照会ワードがキーワード・リストで一致
しない場合は、そのレンフが形態辞書から見つけられ、
そのレンフを使って、キーワード・リストを探索し、相
互参照テーブルにアクセスする。したがって、ＢＵＩ　
ＬＴ等のレンフでないワードが照会で使用された場合は
、自動的に照会ワードのレンフがワードＢＵＩＬＤの形
で生成され、探索類として使用される。同様な方法で（
目的はわずかに異なるが）、照会ワードがワードＢＵＩ
ＬＤＩＮＧであった場合は、形態参照は、まずワードＢ
ＵＩＬＤＩＮＧがそれ自体レンフであることを示し、さ
らに、ＢＵＩＬＤＩＮＧが派生した可能性があるレンフ
、すなわち、ＢＵＩＬＤを１旨すことにより、２つの目
的を実現することとなる。そこで、ＢＵＩＬＤＩＮＧ及
びＢＵＩＬＤは共に探索類として使用することができる
。別の方法では、これらのどちらが照会で予定されてい
たかの判定は文法的解析に任せることができる。選択は
実際の言語照会の用途により左右される。照会ワードの
レンフを探索類として使用することは、「ファジィ」探
索のためのより高速の能力を可能にする。

要するに、本発明の実施例は、各語負ワードのレンフ形
式が存在することを確認するため文書語危リストに作用
すると共に、同様に、レンフ形式がルックアップのため
生成されることを確認するため、照会されているワード
に作用する。他の用途として、レンフ形式が照会に存在
していると、それを使って直接同義語辞書にアクセスし
、同義性に基づいて照会をさらに拡張することができる
。

本発明は、本発明に従ってブック・ファイルに圧縮され
、後で照会される元のテキストの特定の例と関連して最
もよく説明することできる。元のテキストの例は第１３
図に示すが、これはバトリック・ヘンリー（Ｐａｔｒｉ
ｃｋ　Ｈｅｎｒｙ）の演説ｒＧｉｖｅ　ＭｅＬｉｂｅｒ
ｔｙ　ｏｒ　Ｇｉｖｅ　）（ｅ　ＤｅａｔｈＪの一部で
ある。第１図の流れ図を参照すると、第１３図に示す元
のテキストを圧縮されたブックに変換するためデータ処
理システムで実行される動作ステップのシーケンスがス
テップ２０で始まる。ステップ２０は、第１３図により
示される入力テキストを走査する。

第１３図のテキストは大容量記憶ディスクまたはテープ
装置、または通信リンクからのファイル入力でよく、ま
たは、キーボードから順次入力することもできる。次に
、ステップ２２は、テキスト内のすべてのワードについ
て、データ処理システムのメモリに語炙りストを作成す
る。これは第９図に示しである。第９図は、第１３図の
元のテキストで見出される句読点を含む、個々のワード
及びストリングのすべてのリストからなる。第１図のブ
ック作成処理は、ステップ２４で、元のテキストにおけ
る各々の固有ワードの出現の頻度を判定することにより
続行する。このステップは、頻繁に現れるワードに短い
トークンを割り当てることにより、元のテキストに見出
されるワードの効率的な圧縮をもたらすため実行される
。

本発明によれば、第１図の次のステップは、第４図に示
すような、データ処理システムに記憶された形態辞書で
各テキスト・ワードのレンマヲ探すことであり、これは
ステップ２６で行なわれる。

形態辞書は英語のワードの大部分を含み、レンフとそれ
らの異形の間の言語学的関係を示している。

ワードのレンフは、言語で使用されるワードの標準的形
式であり、通常は、動詞の不定詞または名詞の単数形で
ある。第４図の形態辞書に示すように、各レンフはその
言語学的異形に関連付けられる。レンフの異形は、たと
えば、不定詞以外の動詞の皿々の形式、または名詞の複
数等、レンフに言語学的に関連したワードである。レン
フ及びそれらの言語学的異形の詳細は上記関連特許出願
に説明されている。

第１図の次のステップは、ステップ２８で、見つからな
いレンフを語負リストに追加し、第２図に示す増補ワー
ド・リスト５２を作成することである。増補ワード・リ
スト５２は、第１３図の元のテキストに見出される元の
ワードのすべてのリストに、ステップ２６で見つかった
レンフを加えたものである。第１３図に対応する増補ワ
ード・リストを第１０図に示す。ステップ２６はまた、
第１３図の元のテキストに現れる、大文字で書かれたワ
ードの小文字異形を追加する。そのようなワードの小文
字異形は増補ワード・リスト５２に追加される。各々の
異なるワード及びストリングはワード番号（ＷＮ）によ
り識別される。ワードｒＡＤＤＲＥｓｓＪは第１０図の
増補ワード・リストに存在するが、第９図の語負リスト
により示される原始テキストには現れなかったことに留
意されたい。ワードｒＡＤＤＲＥｓｓＪは、ワードｒＡ
ＤＤＲＥｓｓＥＤ」に対するレンフがワードｒＡＤＤＲ
ＥｓｓＪであるというワード形態データを第４図の形態
辞書から得た結果として、第１０図の増補ワード・リス
トに追加された。同様に、ワードｒＭＵＣＨＪ及びｒｓ
ＯＭＥＪは第４図の形態辞書から第１０図の増補ワード
・リストに追加された。第４図の形態辞書は、第１図の
作成処理におけるのと同じデータ処理システムに共存す
るデータベースでよい。

第１図のブック作成処理は、ステップ３０に示すように
、増補ワード・リスト５２のワードにワード番号（ＷＮ
）を割り当てることにより継続する。

次に、第２図に示すように、第１３図の元のテキストに
現れる高頻度ワードのワード番号を含む高頻度ワード・
ポインタ・リスト５０が作成される。ポインタ・リスト
は、増補ワード・リスト５２に列挙されるときの高頻度
ワードのワード番号を含む。高頻度リスト５０は、対応
するワードに対するテキストが増補語禽リスト５２のど
こで見つけることができるかを示すワード番号を含む。

元のテキストを圧縮するため、第１３図の元のテキスト
におけるそれぞれのワードがトークン化される。すなわ
ち、それらのワードは１バイトまたは２バイト表示によ
り示される。ブック内のワードのトークン化は、説明す
るように、後で第１図のブック作成処理で行なわれる。

第１図のブック作成処理の次のステップはステップ３４
であり、言語学的異形をそれらのレンフに関連付けるレ
ンフ・リスト５４に対するワード番号が作成される。ワ
ード番号対しンマ番号リストＣＷＮ／ＬＮ）５４の一例
を第１１図に示すと共に、第２図にも示しである。ワー
ド番号対しンマ番号リスト５４は、増補ワード・リスト
５２内のワードのワード番号を表すＷＮという２つの欄
を有する。ワード番号対しンマ番号リスト５４は、その
ワードの対応する語根（レンフ）のワード番号である、
ＬＮと表示された第２の欄も有する。

それら自身のレンフであるワード（たとえば、ｒＡＣＴ
Ｊ　）はワード番号対レンフ番号５４に項目を必要とし
ないが（第１１図参照）、以下に説明するように、それ
らのワードは第２図及び第１２図のレンツ番号／テキス
ト位置リスト５Ｂに項目を必要とする。ｒＡＢＩＬＩＴ
ＩＥＳＪのようなワードは、そのレンフとしてワードｒ
ＡＢＩＬＩＴＹＪを指す項目をワード番号／レンマ番号
リスト５４に存するであろう。ｒＭＯＲＥＪのようなワ
ードはワード番号／レンマ番号リスト５４に複数の項目
を有し、１つの項目はその形態学的レンフｒＭＵＣＨＪ
をｔ旨し、もう１つの項目はその形態学的レンフｒｓＯ
ＭＥＪを指す。本発明のもう１つの実施例では、第１３
図の元のテキストに現れるレンフはＷＮ／ＬＮリスト５
４にも含まれることが可能であり、その場合は、ワード
がレンフでもあることを示すフラッグを含むこともでき
る。

第１図のブック作成処理はステップ３６で継続し、第１
３図の元のテキストが再走査される。再走査動作中、ス
テップ３８は、増補ワード・リスト５２からワード番号
を受は取り、ワード番号／レンマ番号リスト５４からレ
ンフ番号を見つけることにより、各テキスト・ワードに
対するレンフ番号を識別する。（レンフ番号は言語学的
異形に対する対応するレンフのワード番号にすぎない。

）処理は次にステップ４０で、第２図及び第１２図に示
すレンフ番号対テキスト位置リスト５６を作成すること
により継続する。第１３図の元のテキレンマ番号／テキ
スト位置リスト５６はレンフ番号（ＬＮ）　、すなわち
、増補ＭｆＪリスト５２に現れるレンフに対するワード
番号のみを使って、第１３図の元のテキストにおけるワ
ード位置を示す。

このことは、ワードが取る可能性がある文法形態にかか
わらず、ワードの探索を高速とすることを可能にする。

第１３図の元のテキストの圧縮がこのとき行なわれ、そ
れにより第２図の圧縮されたテキスト５８がもたらされ
る。このことは第１図のステップ４２で始まって実行さ
れ、第１３図の元のテキストに現れた各高頻度テキスト
・ワードの代りに１バイトのトークンが挿入される。１
バイト・トークンは高頻度ワード・ポインタ・リスト５
０に記入される項目である。圧縮動作は次に第１図のス
テップ４４で継続し、第１３図の元のテキストに現れる
頻度が低いテキスト・ワードの代りに２バイトのトーク
ンがテキストに挿入される。２バイト・トークンは増補
ワード・リスト５２におけるワードのワード番号である
。高頻度リスト５０は、対応するワードに対するテキス
トを増補語負リスト５２のどこに見つけることができる
かを示すワード番号からなる。第１３図の例示テキスト
では、７ｉＩＪ頻度リスト６０に現れる９８個のワード
がある。

ワードが高頻度リスト５０に示されていることが判明し
た場合は、ワードは圧縮テキスト５８で１バイトの２進
数としてトークン化され、増補語量りスト５２における
ワードのテキストを取り出すため使用されるワード番号
を取り出すための高頻度リスト５０における位置を示す
。原始テキスト・ワードが高頻度リスト５０の項目で示
されない場合は、２バイトの数でトークン化され、その
最初のバイトは、原始テキスト・ワードを高頻度リスト
５０の最初の９８個の項目から区別するよう、値９８よ
りも大きい。２バイト・トークンは次に、増補Ｍ負すス
ト５２で示すワードのテキストを直接探し出すため使用
される。

第１図の処理はステップ４６で、第１３図の元のテキス
トに処理すべきテキストが他にあるかどうか判定するこ
とにより継続する。ある場合は、処理はステップ３８に
戻る。ない場合は、処理はステップ４８で継続し、第３
図に概略的に示すように、圧縮されたブック・ファイル
が書かれる。

圧縮されたブック・ファイルは高頻度ワード・ポインタ
・リスト５０１増補語徴リスト５２、ワード番号／レン
マ番号リスト５４、圧縮された（トークン化された）テ
キスト５８、及びレンツ番号／テキスト位置リスト５６
を含む。ファイル６０のどこで種々のリスト及び圧縮テ
キストが始まるかを示すファイル・ディレクトリ４９を
含むこともできる。圧縮されたブック・ファイル６０は
次に大容量記憶装置に記憶することができ、通信リンク
を介して遠隔ロケーシロンに伝送することができ、また
は、さもなければ、初めに第１３図の元のテキストによ
り示された情報の簡潔な貯蔵所として保管ないし伝送す
ることができる。圧縮されたブック・ファイル６０を伝
送するときは、ステップは、第２のロケ−シロンに配置
された第２のバッファに通信リンクにより接続された第
１のロケーシロンにおける第１のバッファにファイルを
記憶することから始まる。次に、第１のロケーシロンに
おける第１のバッファからファイルを通信リンクを介し
て第２のロケーシロンに配置された第２のバッフ１に伝
送する。次に、第２のロケータ８ンに配置された第２の
バッファにファイルを記憶する。次に、第２のロケーシ
ロンで検索ステップが実行される。

後で、ユーザが圧縮されたブックを読み、ユーザが照会
表現により特徴付ける情報を含むブックの特定部分まで
ベージングしたいときは、本発明によれば、第５図のブ
ック読取り処理が用いられる。データ処理システムで実
行される第５図の処理は、ステップ６２でユーザが照会
ワードを入力し、その照会ワードまたは関連ワードを見
つけることができる第１３図の元のテキストの部分を探
し出すため「ファジィ」探索を所望していることを示す
ことにより開始する。第５図の処理は次にステップ６４
で継続し、入力された照会ワードを使って増補語業リス
ト５２が探索される。ステップ６６で、照会ワードに関
して正確な一致が増補語量りスト５２で見つかった場合
は、ステップ８８で、第６図に示す一致ワード・リスト
１００に照会ワードが追加される。一致ワード・リスト
１００はブック読取り処理中に構成される。照会ワード
の追加と共に、増補語負リスト５２の探索中に見つかっ
たそのワード番号が一致ワード・リスト１００に追加さ
れる。処理は次にステップ７０で継続し、照会ワードの
レンツを決定するためワード番号／レンマ番号リスト５
４が探索される。この実施例では、リスト５４は照会ワ
ードのワード番号について探索される。項目がリスト５
４にない場合は、照会ワードはレンツでもあるはずであ
る。処理は次にステップ７２で継続し、照会ワードがレ
ンツであるかどうか判断する。照会ワードがレンツであ
る場合は、ステップ７４で、照会ワードと関連した一致
ワード・リスト１００にフラッグが記入され、照会ワー
ドがレンツであることを表示する。処理はステップ９２
に進む。逆に、ステップ７２で照会がレンツでないこと
が判明した場合は、ステップ７６で２進フラツグが一致
ワード・リスト１００に記入され、レンツでないことを
示す。ステップ７８で、対応するレンツ番号がワード番
号／レンマ番号リスト５４からアクセスされ、ステップ
８０で、必要な場合は、照会ワードに対するレンツが、
そのワード番号及び、それがレンツであることを示すフ
ラッグ値と共に一致ワード・リスト１００に追加される
。処理はステップ９２に進む。

一致判断ステップ６６が、照会ワードが増補語負リスト
５２のどの項目とも正確に一致しないことを示す場合は
、処理はステップ８２に進む。第５図のステップ８２で
、照会ワードのレンツを取り出すため、第４図の形態辞
書がアクセスされる。

第６図の例３で、照会ワードがｒＴＨＩＮＫｒＮＧ」で
ある場合は、第４図の形態辞書はワードｒＴＨＩＮＫＪ
をレンツとして認識するであろう。

レンツが見つからない場合は、処理はステップ８３を出
て、ステップ８６で「見つからなかった」を表示する。

レンツが見つかった場合は、ステップ８３からステップ
８・４に進み、形態辞書からアクセスされたレンツが増
補語負リスト５２にあるかどうかについて判定がなされ
る。リスト５２にない場合は、ステップ８６で、照会ワ
ードが「見つからなかった」という表示がなされる。逆
に、レンツが増補語億リスト５２にある場合は、ステッ
プ８８は、形態辞書からアクセスされたレンツを一致ワ
ードとして使用する。ステップ９０では、一致ワードが
そのワード番号と共に一致ワード・リスト１００に追加
され、レンツとしてフラッグを立てられる。処理は次に
直接ステップ１０８に移り、見せかけの探索的中を回避
する。

ステップ７４及び８０は第５図のステップ９２に進み、
ステップ９２では、同じレンフを指す異形ワードが他に
あるかどうか識別するため、ワード番号／レンマ番号リ
スト５４のレンフ番号（ＬＮ）側が探索される。ステッ
プ９４で、他の異形がある場合は、処理はステップ９６
に進み、異形及びそのワード番号が、それを非しンマと
して示すフラッグと共に一致リスト１００に追加される
。

処理は次にステップ９８に進み、ワード番号／レンマ番
号リスト５４のワード番号（ＷＮ）側の探索が、このワ
ードをレンフとして有するその他のレンフを識別する。

ステップ１０２で、その他のレンフがある場合は、ステ
ップ１０４で、その他のレンフもそれらのワード番号と
共に一致リスト１０ｏに追加される。

ステップ９４で、その他の異形がない場合は、処理はス
テップ９８に進み、ステップ７４またはステップ８０か
らのレンフ自体が他のレンフの異形であるかどうか判定
する。ステップ１０２で、その他のレンフがない場合は
、ステップ１０２はステップ１０４の出力と共にステッ
プ１０６に流れ、ステップ１０８は、入力された照会ワ
ードに関するはっきりしない一致の位置を識別する処理
を開始する。ステップ１０θで、レンフとしてフラッグ
を立てられた、一致ワード・リスト１００で最初に現れ
るワードがアクセスされる。ステップ１０８で、レンフ
に対応する第１３図の元のテキストにおけるテキスト部
分の位置がレンフ／相互参照リスト５Ｂで識別される。

第１３図の元のテキストはいくつかの方法で複数部分に
分割することができる。第１３図の例の場合は、テキス
トは行単位で分割されたので、第１行は行１と見なされ
、第２行は行２と見なされ、最後の行は行１９である。

しかし、バラグラフごとの分割、ワードごとの分割、ま
たは１つのバラグラフ当り任意の数のワード等、元のテ
キストにおけるその他のワード集合を選ぶことが可能で
ある。そのような分割の各々を、本明細書では元のテキ
ストの「部分」と呼ぶ。

一致リスト１００からアクセスされたレンフに対応する
テキスト部分の位置が識別された後、ステップ１１０は
圧縮テキスト５８を非トークン化して、増補語寅リスト
５２から第１３図の元のテキストを発生する。圧縮テキ
スト５８で見つかった各トークンは、高頻度リスト５０
を指す１バイト・トークンか、または増補語負リスト５
２における項目を存する２バイト・トークンのいずれか
であるので、圧縮テキスト５８における各連続トークン
は、第１３図の元のテキストに現れたときそれが表す、
対応する元のワードに変換することができる。

照会ワードと「ファジィ一致」した、復元されるテキス
ト部分におけるワードを強調表示するため、第５図のス
テップ１１２はテキスト部分におけるワード番号を一致
リスト１００内のすべてのワード番号と比較する。明確
な類似がある場合、復元されたテキストにおけるワード
が強調表示される。ステップ１１４で、復元されるテキ
スト部分が、強調表示される一致リスト１００からの任
意のワードと共に、たとえば、ＣＲＴモニタ上に表示さ
れる。

この時点で、操作員は、表示されるテキスト部分が操作
員の要求を溝たすかどうか判定することができる。ステ
ップ１１８で、操作員は、そのように所望する場合は、
次の一致を要求することができる。次の一致が要求され
た場合は、ステップ１１８は、レンツ番号／テキスト位
置リスト５６に示されることが可能なこのレンフに対す
るその他の位置があるかどうか判定する。ある場合は、
処理はステップ１０８に戻る。このレンフに対してその
他の位置がない場合は、処理はステップ１２０に進み、
一致リスト１００にその他のレンフがあるかどうかが判
定される。一致リスト１００にまだレンフがある場合は
、処理はステップ１０６に進み、レンフとしてフラッグ
を立てられている一致リスト内の次のワードがアクセス
される。

しかし、ステップ１２０が、一致リストにそれ以上レン
フがないと判定した場合は、ステップ１２２は、他にテ
キスト部分が見つからないことを示す。逆に、ステップ
１１６で、操作員が次の一致を要求しない場合は、ステ
ップ１２４で処理が終了する。

第６図は、入力された単一照会ワードと、形成される対
応一致ワード・リスト１００の５つの異なる例を示す。

一致ワード・リストは、各一致ワード項目に対するワー
ド番号（ＷＮ）と、それがレンフである（Ｙ）か、また
はレンフでない（Ｎ）かを示すそのフラッグを表にする
ことにより、第５図の読取り処理の間に形成される。例
１では、照会ワードはｒＭＵｃＨＪであり、対応する一
致ワード・リストは、ワードｒＭＵｃＨＪ　　（ＷＮ＝
１８１、フラッグ＝Ｙ）、ｒＭＯＲＥＪ　　（ＷＮ＝１
８０、フラッグ＝Ｎ）及びｒｓＯＭＥＪ　　（ＷＮ＝２
１７、フラッグ＝Ｙ）からなる。例２では、ワードｒＴ
ＨＩＮＫＪが照会ワードであり、一致ワード・リストは
ワードｒＴＨＩＮＫＪ　　（ＷＮ＝２２７、フラッグ＝
Ｙ）、ｒＴＨＩＮＫｓ」　（ＷＮ＝２２８、フラッグ＝
Ｎ）、及びｒＴＨＯＵＧＨＴＪ　　（ＷＮ＝２３２、フ
ラッグ＝Ｎ）を含む。

例３では、照会ワードｒＴＨＩＮＫＩＮＧＪは例２と同
じ一致ワード・リストをもたらす。例４では、照会ワー
ドｒＴＨＩＮＫＳＪは例２と同じ一致ワード・リストを
もたらす。例５では、照会ワード　　ｒＴＨＯＵＧＨＴ
ｓＪ　　　は　、　　　ｒＴＨＯＵＧＨＴＪ（ＷＮ＝２
３２、フラッグ＝Ｙ）からなる一致ワード・リストをも
たらす。

第１２図のレンツ番号／テキスト位置データの最適圧縮
のため、第１２図に示すテキスト位置は、元のブックの
テキストにおける所与のワードでの出現頻度に応じて、
いくつかの異なる方法で表示することができる。頻繁に
現れないワードについては、それらのワードはオフセッ
トのストリングとして表すことができ、各オフセットは
ワードの前回の出現からのテキスト内の距離である。原
始テキストのほとんどどこにでも現れるワードについて
は、ワードが現れないテキスト位置へのオフセットのス
トリングとして表すことができる。あるいはまた、テキ
スト位置を、テキスト位置があるのと同じだけの数のビ
ットを含むビット・マスクで表すことができ、「オン」
である各ビットは、ワードが見つけられるテキスト位置
を示す。

レンツ番号／テキスト位置リスト５６がワード・レンフ
位置を示すという事実は、ワードがブックの原始テキス
トで取り得る文法的形態にかかわらず、ワードの探索で
最適の能力を可能にする。このことはまた、圧縮された
ブック・ファイル６０に記憶される必要があるデータの
大きさを大幅に減少させることを可能にする。

本発明のもう１つの実施例では、第５図の照会処理は、
複数ワード７句照会の処理に適応させることができる。

第７図は句照会処理の流れ図であり、第５図の流れ図を
変更したものである。第５図では、複数ワード７句照会
は単一ワード照会と同様な方法で処理することができ、
各ワードは入力ステップ８２で連続的に適用され、複数
ワード句における各ワードに対するレンフを一致リスト
１００内に編集するため同じ方法で処理される。

第８図の例６で、入力された句照会がｒＳＯＭＥＭＥＮ
　　ＴＨＩＮＫＪであった場合は、各連続ワードＳＯＭ
Ｅ１ＭＥＮ及びＴＨＩＮＫが第５図の処理のステップ６
２ないしステップ１０４で処理されて、第８図の例６に
対して示す一致リスト１００を発生する。複数ワード７
句照会は、第７図に示すように、第５図の単一ワード照
会処理から逸脱する。第７図の句照会流れ図のステップ
１０６及びステップ１０８は、第５図に示す単一ワード
照会処理のステタブ１０６及び１０８と同じである。

第７図のステップ１０８の後で、句照会流れ図はステッ
プ１０９に進み、照会が単一ワードよりも大きいかどう
かが判定される。照会が単一ワードよりも大きくない場
合は、第７図の流れ図は第５図のステップ１１０に戻り
、単一ワード照会のための処理を続行する。そうではな
く、ステップ１０９が、照会が単一ワードよりも大きい
、言い換えると、句であると判定した場合は、第７図の
処理はステップ１２６に進み、一致リスト１００にその
他のレンフがあるかどうか判定する。その他にもレンフ
が一致リストにある場合は、処理はステップ１２８に進
み、レンフとしてフラッグを立てられていた次のワード
が一致リストからアクセスされる。流れは次にステップ
１３０に進み、レンフに対応するテキスト部分の位置が
レンツ番号／テキスト位置リスト５６から得られる。流
れは次にステップ１２８の入力に戻り、一致リストにそ
の他のレンフがあるかどうか判定する。ある場合は、処
理は引き続いて次のレンフを一致リストから取り出し、
それらのレンフに対応するテキスト位置のそれらの位置
を取り出す。すべてのレンフが一致リスト１００から取
り出された後、ステップ１２６はステップ１３２に進む
。

句照会は少なくとも第１及び第２の照会ワードを有し、
句またはその言語学的等価句を見つけることができる記
憶テキストの所望部分を探し出すことが目的である。句
における第１の照会ワードは、ここで第１の複数部分と
呼んでいるテキストのいくつかの部分に現れることがで
きる。句における第２の照会ワードはテキストのさらに
他の部分に現れることができ、これらの部分はここでは
第２の複数部分と呼ばれる。第１の照会ワードの言語学
的等価ワード及び第２の照会ワードの言語学的等価ワー
ドの両方を１つの句で共通に見出すことができるテキス
トの部分を探し出すことが句照会処理における目的であ
る。ステップ１２８及び１３０は、第１の照会ワード七
言語学的に等価なワードを含むテキストの第１の複数部
分を探し出すため、レンツ番号／テキスト位置リスト５
６にアクセスした。ステップ１２８及び１３０はまた、
第２の照会ワードと言語学的に等価なワードを含むテキ
ストの第２の複数部分を探し出すため、レンツ番号／テ
キスト位置リスト５６にアクセスした。次にステップ１
３２の目的は、第１の複数部分の少な（とも１つ及び第
２の複数部分の少なくとも１つにとっての共通位置を有
する記憶テキストの共通部分を識別することである。句
照会に対する言語学的等価句を含む所望部分であるべき
なのは、記憶テキストのこの部分である。

次に第６図の例６を参照すると、レンツ番号／テキスト
位置リストＳ６が例６に対する一致リスト１００の横に
示されている。レンツ番号／テキスト位置リスト５６で
、句照会ｒｓＯＭＥ　　ＭＥＮ　　ＴＨＩＮＫＪについ
て、レンフｒｓＯＭＥＪは、第１３図のテキストの行２
を指す位置ポインタを有することが理解できる。レンフ
ｒＭＵｃＨＪは、行２を指す位置ポインタを有する。レ
ンフｒＭＡＮＪは、行２及び行４を指す位置ポインタを
有する。レンフｒＴＨＩＮＫＪは、行２及び行５を指す
位置ポインタを存する。第７図の句照会流れ図のステッ
プ１３２では、一致リスト１００のすべてのレンフは、
照会句におけるワードに対するテキストの共通部分を識
別するため、互いに論理ＡＮＤ演算される。第６図の例
６を参照すると、４つのレンフの各々に対する位置が互
いにＡＮＤ演算されたとき、行２を指す位置ポインタの
みが４つのレンフすべてにとって共通であることが理解
できる。したがって、本発明によれば、入力照会句に対
する言語学的等価句は第１３図の元のテキストの行２で
見つけられるはずである。第１３図を調べると、行２に
おける句はｒＭＡＮＴＨＩＮＫＳ　　ＭＯＲＥＪである
ことが理解できる。これは、句照会処理により求められ
ている言語学的に等価な句である。

第７図の処理は次にステップ１３２からステップ１３４
に流れ、ステップ１３４は圧縮テキスト５８を非トーク
ン化し、この例では行２である共通部分の元のテキスト
を増補ワード・リスト５２から生成する。次にステップ
１３６で、テキストの共通部分のワードのワード番号が
強調表示のため一致リスト１００のワード番号と比較さ
れる。

次にステップ１３８で、共通テキスト部分（この例では
行２）がＣＲＴ表示装置上に表示され、句ワードｒＭＡ
Ｎ　　ＴＨＩＮＫＳ　　ＭＯＲＥＪが強調表示される。

＃ｊ＃− Ｆ発明の尋者工、キーワード及び文脈型の両方の文書検索システム。

上述のように、入力照会ワードの文法的異形を探索ワー
ド・リストに自動的に含むことができない場合は、キー
ワードに基づいて文書を見っける能力は弱体化される。

２．ワードをそのレンツに再びマツプする能力。

レンツは次に同義語辞書のアクセスのため使用される。

技術及び特許のこの態様は単なる逆方向検索よりもはる
かに広い用途をもたらし、一般的なワード処理用途を包
含する。目的はテキスト内のキーワードまたはワードを
受は取り、すべての関連同義語を判定することができる
ことである。このことは通常、同義語辞書等のあらかじ
め編集された著書を参照することにより行なわれ、通常
は所与のワードのレンツであるマスク項目によるその辞
書のアクセスを必要とする。文書検索に関しては、照会
におけるキーワードは、レンツに再びマツプされた後で
、適切な同義語を見つけるため、及び実際に文書内のキ
ーワードである可能性があり、かつ文書検索照会の作成
で正確に再現され、使用されなかった関連キーワードを
探索するためにも使用することができる。

【図面の簡単な説明】

第１図は本発明によるブック作成処理のためのデータ処
理方法の流れ図である。第２図は、第１図の処理により形成される、圧縮された
ブック・ファイルの部分を示す説明図である。第３図は、第１図の処理の結果である連続レコードとし
て、圧縮されたブック・ファイルを示す説明図である。第４図は、第１図及び第５図の方法を実施するデータ処
理システムに記憶された例示的形態辞書を示す説明図で
ある。第５図は、本発明によるブック読取り処理のためのデー
タ処理方法の流れ図である。第６図は、ブック読取り処理の間に構成される一散ワー
ド・リストを示す説明図である。第７図は、複数ワード句である照会を処理するための本
発明のもう１つの実施例の流れ図である。第８図は、ワード・リスト関係を示す説明図である。第９図は、テキスト内の全ワードの語常リストの説明図
である。第１０図は、第１３図に対応する増補ワード・リストの
説明図である。第１１図は、ワード番号対しンマ番号リスト（ＷＮ／Ｌ
Ｎ）の−例を示す説明図である。第１２図は、レンツ相互参照データ・テーブルの説明図
である。第１３図は、元のテキストの一例を示す説明図である。出願人　　インターナシ日ナル・ビジネス・マシーンズ
ｅコーポレーシロン代理人　　弁理士　　頓　　宮　　孝（外工名）第３図ＵＨＦ−ＨＦワードリストテープｌしくワード・リスト間係）ＨＦワードリスμ （ＩＬＩＢＥＲＴＹ　５ＰＥＥＣＨＩ）Ｐａｔｒｉｃｋ
　Ｈｅｎｒｙ＋　Ｍａｒｃｈ　２３１１７７５゜第１３
図第１　Ｚ　図手続補正帯（方式）補正の対象平成２年５月１／日

Claims

【特許請求の範囲】テキストを記憶、検索するためのデータ処理方法であっ
て、上記テキストに現れるワードの語彙リストを編集するス
テップ、上記語彙リストを、増補ワード・リストとして、上記テ
キスト内の上記ワードのレンマで増補するステップ、上
記ワードの上記レンマを上記テキスト内の上記ワードの
位置に関連付ける相互参照テーブルを編集するステップ
、上記テキスト、上記増補ワード・リスト及び上記相互参
照テーブルを記憶するステップ、上記記憶されたテキストの一部分にアクセスするため照
会ワードを入力するステップ、上記照会ワードを探索項として使って、上記増補語彙リ
ストを探索するステップ、上記照会ワードのレンマで上記相互参照テーブルにアク
セスして、上記記憶されたテキストの上記部分を探し出
すステップからなることを特徴とするデータ処理方法。