JPH02271468A - データ処理方法 - Google Patents

データ処理方法

Info

Publication number
JPH02271468A
JPH02271468A JP2008541A JP854190A JPH02271468A JP H02271468 A JPH02271468 A JP H02271468A JP 2008541 A JP2008541 A JP 2008541A JP 854190 A JP854190 A JP 854190A JP H02271468 A JPH02271468 A JP H02271468A
Authority
JP
Japan
Prior art keywords
word
list
text
query
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008541A
Other languages
English (en)
Other versions
JPH07104870B2 (ja
Inventor
Richard G Carlgren
リチヤード・ゴーラン・カールグレン
William D Modlin
ウイリアム・デヴイド・モデリン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH02271468A publication Critical patent/JPH02271468A/ja
Publication of JPH07104870B2 publication Critical patent/JPH07104870B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 本明細書に開示されている発明は総括的にデータ処理技
術に関し、さらに具体的には、文書要約処理でキーワー
ドを作成するための改善された方法、及び文書検索で使
用される照会項を、文書要約の間に得られたキーワード
に関連付けるための改善された方法に関するものである
。本発明は、キーワードが形態論的に互いに関連付けら
れることを必要とする任意の設定で有用であり、価値が
ある。そのような用途には文書検索、及びデータベース
管理システムに対する自然言語インターフェースがある
が、これらに限定されるものではない。
B、従来の技術 関連出願は、1987年3月20日に出願され、IBM
社に譲渡された、rParadigm−BasedMo
rphological  Text Analysi
s for NaturalLanguages、Jと
いう名称の特許出願第028437号である。本書に開
示された発明を実施することが可能なデータ処理システ
ムを開示しているものとして1rMultilingu
al Processing forScreen I
mage Build and Command De
code in a’Jord  Processor
s  With  Full  Command、  
Messageand He1p 5upportJと
いう名称の、IBM社に譲渡された米国特許第4731
735号明細書も参照される。
上に引用した特許出願の開示は、本書に開示された発明
に関する背景を提供するため、引用により本明細書に組
み込まれている。
過去20年の間、コンピュータを使用した文書検索はビ
ジネス及び図書館学の両方での使用が際立っていた。文
書を作成する方法及び文書を検索する方法の2つの方法
は最新技術で確立された。
それらの方法は次の通りである。
・キーワード −文書検索時に、操作員の考えで、記憶
される文書の内容/主題を記述する1組の項を文書に添
付するため、操作員の介入が必要とされる。ワードまた
は句は文書内に現れることも、現れないこともあり、将
来本文書をどのように照会することができるかに関する
操作員による主観的判断を表す。
・文脈 −文書検索に先立って、文書内の各ワードが調
べられ、基準または1組の基準に基づいて、ワード及び
句が対象文書のための検索項として選ばれる。その最も
簡単な形では、文書の各ワードを検索項と見なすことが
できる。別の方法では、精巧な文法基準を使って、キー
ワードの選択をもっと具体的なワードに縮小することが
でき、これらのワードは、言語学及び情報科学上の方法
論に基づいて、もっと高度の特殊性、及び後の検索のた
め一層の有用性を持つように決定される。
キーワードに基づいた検索システムの一例は現行のIB
M社のPROFSシステムであり、文脈システムの一例
は現行のIBM社の5TAIRSプログラム・プロダク
ト製品である。本発明においては、経験的方法、または
言語学的方法のいずれか、または別の方法であろうと、
操作員により得られたキーワード間の区別、または何ら
かの自動基準により得られた文脈参照間の区別を行なわ
ない。この開示における以下の考察では、キーワードが
、バラグラフ、行、及び行内の位置を指すポインタを有
する反転ファイルとして文書に再度関連付けられるかど
うか、または、それらキーワードが、内部参照またはポ
インタを有さないエンティティとして文書に関連付けら
れるだけであるかどうかについて、何も区別していない
自動文書記憶、要約及び検索の最も初期の出現から、ワ
ードを記憶し、文書と関連付けるコンピュータ技術は、
−度文書が保管されると、文書の検索可能度を保証する
際の重要な要素ではないことが認識されていたo Au
tomatic ComputingMachiner
y (ACM) Proceedings (1985
年3月)等の論文は、検索の精度及び信頼性をもたらす
主な要素が、検索照会でのキーワードを、文書に割り当
てられた、または文書から自動的に得られた実際のキー
ワードに関連付けることに関係していることを示す研究
を含む。具体的にいうと、語形変化により引き起こされ
た同義性または曖昧性は文書を検索不能にする恐れがあ
る。すなわち、照会がキーワードの同義語を含む場合、
または、キーワードが、文書で見つけられたのと同じで
ないある語形変化を有する場合は、照会はキーワードの
リストと一致せず、文書は見つからない。ユーザが正確
な語形変化に到るまでキーワードを詳細に覚えている可
能性が低いことが、文書検索の使用に大幅な妥協を強い
る信頼性要素を付は加えることは明らかである。この−
例はrBUI LDJというワードであろう。このワー
ドが文書と関連付けられており、照会がrBUILTJ
という形式を含む場合は、照会は最新技術を使ってこの
文書を見つけることができない。部分マスキング等の代
りの方法が文献で提案されてきた。すなわち、BUI 
LT、BUI LD及びBUILDINGについてBU
ILX等のワードの一部における一致である。しかし、
この手法は計算が冗長であり、曖昧性を生じる可能性が
あり、かつ操作員の知的素養及び先見性がある水準に達
していることを必要とする。同様の問題は文書検索の分
野のみならず、データベース管理に関連したデータ辞書
に対するアクセスにも存在し、特に、自然言語照会シス
テムの場合にそうである。
C1発明が解決しようとする課題 したがって、本発明の目的は、語形変化に基づいて異な
ることがあるキーワードを関連付けるための改善された
情報検索方法を提供することである。
本発明の他の目的は、形態学的手段を使って語形変化に
おける任意のワードをそのレンフ(前照)にマツプし、
次にとのレンフを使ってテキスト部分にアクセスするこ
とにより、文書検索または一般的なワード処理用途でテ
キスト部分にアクセスするための改善された方法を提供
することである。
01課題を解決するための手段 これら及びその他の目的、機能及び利点が、本明細書に
開示された発明により実現される。テキストを記憶、検
索するためのデータ処理方法が開示されている。この方
法の記憶部分は、テキストに現れるワードの語棄リスト
を編集するステップと、語負リストを、増補ワード・リ
ストとしてテキスト内のワードのレンフで増補するステ
ップを含む。記憶部分はさらに、ワードのレンフをテキ
スト内のワードの位置に関連付ける相互参照テーブルを
編集するステップと、テキスト、増補ワード・リスト及
び相互参照テーブルを記憶するステップが続く。
この方法の検索部分は、記憶されたテキストの一部分に
アクセスするため照会ワードを入力するステップと、照
会ワードを探索項として使って増補語危リストを探索す
るステップと、記憶されたテキストの上記部分を探し出
すため、照会ワードのレンフで相互参照テーブルにアク
セスするステップを含む。
この方法の検索部分のさらに詳細な幾つかのステップと
しては、照会ワードのレンフのレンフ異形を発生するス
テップと、レンフ異形と同じ異形を有するその他のレン
フを発生するステップがある。この方法は次に、アクセ
ス・ステップで探し出した記憶テキストの部分を表示す
るステップと。
表示される記憶テキストの部分に現れた4合に、照会ワ
ード、レンフ異形、及びその他のレンフを強調するステ
ップを実行する。
本発明のもう1つの実施例では、この方法は、複数のワ
ード句からなる照会を処理することができ、入力ステッ
プは、記憶テキストの所望の部分にアクセスするため、
少なくとも第1及び第2の照会ワードを照会句として入
力し、第1の照会ワードは記憶テキストの第1の複数部
分に現れ、第2の照会ワードは記憶テキストの第2の複
数部分に現れる。アクセス・ステップはさらに、第1の
照会ワードの第1のレンフで相互参照テーブルにアクセ
スして、記憶テキストの第1の複数部分を探し出すステ
ップと、第2の照会ワードの第2のレンフで相互参照テ
ーブルにアクセスして、記憶テキストの第2の複数部分
を探し出すステップを含む。次に、この方法は、記憶テ
キストの第1及び第2の複数部分のための共通位置を有
する記憶テキストの共通部分を識別するステップと、記
憶テキストの共通部分を所望の部分として表示するステ
ップと、表示される記憶テキストの共通部分に現れる場
合に照会句を強調するステップを実行する。
結果として得られる発明は、検索処理を使用される相互
参照リストを簡潔に記憶することを可能にすると共に、
文書内のテキストの「ファジィ」探索のためのいっそう
の高速性能を可能にする。
E、実施例 本発明の実施例は以下のステップを含む。
ステップ1− 本発明の実施例の第1のステップでは、
文書語炙りストとして編集されたキーワードのリストが
ワード単位で自動的に調べられ、リスト内の各ワードの
レンフが「先験的に」リストに存在するかどうか判定さ
れる。レンフの存在の判定は、1987年3月20日に
出願され、18M社に譲渡された、rParadigm
−BasedMorphological Text 
Analysis for NaturalLangu
ages Jという名称の上記関連特許出願第O284
37号で開示されているものと同様な方法により構成す
ることができる形態辞書を参照することにより行なわれ
る。レンフがキーワード・リストにある場合、すなわち
、文書から文脈的に得られたキーワードのリストにワー
ドが単独で現れた場合は、何の処置も取られない。キー
ワード内のワードがレンフでない場合は、このステップ
でそのレンフが形態辞書から人工的に生成され、キーワ
ード・リストに挿入される。姓等のワードが形態辞書に
見つからない場合は、そのワードはあたかもレンフであ
るかのように扱われ、キーワード・リストに追加される
ステップ2− ステップ1でそのように増補されたキー
ワード・リストは次に、記録保管の完了に先立って、元
の文書と対照して調べられる。
元の文書内のキーワードの各々はキーワードのレンフに
連鎖されているので、レンフが文書内に存在していない
としても、そのレンフの語形変化の出現はレンフ自体と
して認識され、文書内での語形変化の位置が相互参照テ
ーブルでレンフに割す当てられる。
ステップ3− ステップ3は、操作員が文書の検索の最
中にあり、その検索のための照会を生成したとき生じる
。文書は既に要約され、キーワード・リストはステップ
1及び2と同様に形成され、さらに文書は保管されてい
るものとする。この時点で、検索のための照会ワードが
システムにより調べられる。照会ワードは、キーワード
・リストを探索するため探索類として使用される。照会
ワードがレンフである場合は、この照会ワードを使って
相互参照テーブルがアクセスされ、照会ワードを含む文
書の部分が探し出される。照会ワードがキーワード・リ
ストで一致したが、レンフでない場合は、そのレンフが
生成され、相互参照テーブルにアクセスするため使用さ
れる。さらに、照会ワードがキーワード・リストで一致
しない場合は、そのレンフが形態辞書から見つけられ、
そのレンフを使って、キーワード・リストを探索し、相
互参照テーブルにアクセスする。したがって、BUI 
LT等のレンフでないワードが照会で使用された場合は
、自動的に照会ワードのレンフがワードBUILDの形
で生成され、探索類として使用される。同様な方法で(
目的はわずかに異なるが)、照会ワードがワードBUI
LDINGであった場合は、形態参照は、まずワードB
UILDINGがそれ自体レンフであることを示し、さ
らに、BUILDINGが派生した可能性があるレンフ
、すなわち、BUILDを1旨すことにより、2つの目
的を実現することとなる。そこで、BUILDING及
びBUILDは共に探索類として使用することができる
。別の方法では、これらのどちらが照会で予定されてい
たかの判定は文法的解析に任せることができる。選択は
実際の言語照会の用途により左右される。照会ワードの
レンフを探索類として使用することは、「ファジィ」探
索のためのより高速の能力を可能にする。
要するに、本発明の実施例は、各語負ワードのレンフ形
式が存在することを確認するため文書語危リストに作用
すると共に、同様に、レンフ形式がルックアップのため
生成されることを確認するため、照会されているワード
に作用する。他の用途として、レンフ形式が照会に存在
していると、それを使って直接同義語辞書にアクセスし
、同義性に基づいて照会をさらに拡張することができる
本発明は、本発明に従ってブック・ファイルに圧縮され
、後で照会される元のテキストの特定の例と関連して最
もよく説明することできる。元のテキストの例は第13
図に示すが、これはバトリック・ヘンリー(Patri
ck Henry)の演説rGive MeLiber
ty or Give )(e DeathJの一部で
ある。第1図の流れ図を参照すると、第13図に示す元
のテキストを圧縮されたブックに変換するためデータ処
理システムで実行される動作ステップのシーケンスがス
テップ20で始まる。ステップ20は、第13図により
示される入力テキストを走査する。
第13図のテキストは大容量記憶ディスクまたはテープ
装置、または通信リンクからのファイル入力でよく、ま
たは、キーボードから順次入力することもできる。次に
、ステップ22は、テキスト内のすべてのワードについ
て、データ処理システムのメモリに語炙りストを作成す
る。これは第9図に示しである。第9図は、第13図の
元のテキストで見出される句読点を含む、個々のワード
及びストリングのすべてのリストからなる。第1図のブ
ック作成処理は、ステップ24で、元のテキストにおけ
る各々の固有ワードの出現の頻度を判定することにより
続行する。このステップは、頻繁に現れるワードに短い
トークンを割り当てることにより、元のテキストに見出
されるワードの効率的な圧縮をもたらすため実行される
本発明によれば、第1図の次のステップは、第4図に示
すような、データ処理システムに記憶された形態辞書で
各テキスト・ワードのレンマヲ探すことであり、これは
ステップ26で行なわれる。
形態辞書は英語のワードの大部分を含み、レンフとそれ
らの異形の間の言語学的関係を示している。
ワードのレンフは、言語で使用されるワードの標準的形
式であり、通常は、動詞の不定詞または名詞の単数形で
ある。第4図の形態辞書に示すように、各レンフはその
言語学的異形に関連付けられる。レンフの異形は、たと
えば、不定詞以外の動詞の皿々の形式、または名詞の複
数等、レンフに言語学的に関連したワードである。レン
フ及びそれらの言語学的異形の詳細は上記関連特許出願
に説明されている。
第1図の次のステップは、ステップ28で、見つからな
いレンフを語負リストに追加し、第2図に示す増補ワー
ド・リスト52を作成することである。増補ワード・リ
スト52は、第13図の元のテキストに見出される元の
ワードのすべてのリストに、ステップ26で見つかった
レンフを加えたものである。第13図に対応する増補ワ
ード・リストを第10図に示す。ステップ26はまた、
第13図の元のテキストに現れる、大文字で書かれたワ
ードの小文字異形を追加する。そのようなワードの小文
字異形は増補ワード・リスト52に追加される。各々の
異なるワード及びストリングはワード番号(WN)によ
り識別される。ワードrADDREssJは第10図の
増補ワード・リストに存在するが、第9図の語負リスト
により示される原始テキストには現れなかったことに留
意されたい。ワードrADDREssJは、ワードrA
DDREssED」に対するレンフがワードrADDR
EssJであるというワード形態データを第4図の形態
辞書から得た結果として、第10図の増補ワード・リス
トに追加された。同様に、ワードrMUCHJ及びrs
OMEJは第4図の形態辞書から第10図の増補ワード
・リストに追加された。第4図の形態辞書は、第1図の
作成処理におけるのと同じデータ処理システムに共存す
るデータベースでよい。
第1図のブック作成処理は、ステップ30に示すように
、増補ワード・リスト52のワードにワード番号(WN
)を割り当てることにより継続する。
次に、第2図に示すように、第13図の元のテキストに
現れる高頻度ワードのワード番号を含む高頻度ワード・
ポインタ・リスト50が作成される。ポインタ・リスト
は、増補ワード・リスト52に列挙されるときの高頻度
ワードのワード番号を含む。高頻度リスト50は、対応
するワードに対するテキストが増補語禽リスト52のど
こで見つけることができるかを示すワード番号を含む。
元のテキストを圧縮するため、第13図の元のテキスト
におけるそれぞれのワードがトークン化される。すなわ
ち、それらのワードは1バイトまたは2バイト表示によ
り示される。ブック内のワードのトークン化は、説明す
るように、後で第1図のブック作成処理で行なわれる。
第1図のブック作成処理の次のステップはステップ34
であり、言語学的異形をそれらのレンフに関連付けるレ
ンフ・リスト54に対するワード番号が作成される。ワ
ード番号対しンマ番号リストCWN/LN)54の一例
を第11図に示すと共に、第2図にも示しである。ワー
ド番号対しンマ番号リスト54は、増補ワード・リスト
52内のワードのワード番号を表すWNという2つの欄
を有する。ワード番号対しンマ番号リスト54は、その
ワードの対応する語根(レンフ)のワード番号である、
LNと表示された第2の欄も有する。
それら自身のレンフであるワード(たとえば、rACT
J )はワード番号対レンフ番号54に項目を必要とし
ないが(第11図参照)、以下に説明するように、それ
らのワードは第2図及び第12図のレンツ番号/テキス
ト位置リスト5Bに項目を必要とする。rABILIT
IESJのようなワードは、そのレンフとしてワードr
ABILITYJを指す項目をワード番号/レンマ番号
リスト54に存するであろう。rMOREJのようなワ
ードはワード番号/レンマ番号リスト54に複数の項目
を有し、1つの項目はその形態学的レンフrMUCHJ
をt旨し、もう1つの項目はその形態学的レンフrsO
MEJを指す。本発明のもう1つの実施例では、第13
図の元のテキストに現れるレンフはWN/LNリスト5
4にも含まれることが可能であり、その場合は、ワード
がレンフでもあることを示すフラッグを含むこともでき
る。
第1図のブック作成処理はステップ36で継続し、第1
3図の元のテキストが再走査される。再走査動作中、ス
テップ38は、増補ワード・リスト52からワード番号
を受は取り、ワード番号/レンマ番号リスト54からレ
ンフ番号を見つけることにより、各テキスト・ワードに
対するレンフ番号を識別する。(レンフ番号は言語学的
異形に対する対応するレンフのワード番号にすぎない。
)処理は次にステップ40で、第2図及び第12図に示
すレンフ番号対テキスト位置リスト56を作成すること
により継続する。第13図の元のテキレンマ番号/テキ
スト位置リスト56はレンフ番号(LN) 、すなわち
、増補MfJリスト52に現れるレンフに対するワード
番号のみを使って、第13図の元のテキストにおけるワ
ード位置を示す。
このことは、ワードが取る可能性がある文法形態にかか
わらず、ワードの探索を高速とすることを可能にする。
第13図の元のテキストの圧縮がこのとき行なわれ、そ
れにより第2図の圧縮されたテキスト58がもたらされ
る。このことは第1図のステップ42で始まって実行さ
れ、第13図の元のテキストに現れた各高頻度テキスト
・ワードの代りに1バイトのトークンが挿入される。1
バイト・トークンは高頻度ワード・ポインタ・リスト5
0に記入される項目である。圧縮動作は次に第1図のス
テップ44で継続し、第13図の元のテキストに現れる
頻度が低いテキスト・ワードの代りに2バイトのトーク
ンがテキストに挿入される。2バイト・トークンは増補
ワード・リスト52におけるワードのワード番号である
。高頻度リスト50は、対応するワードに対するテキス
トを増補語負リスト52のどこに見つけることができる
かを示すワード番号からなる。第13図の例示テキスト
では、7iIJ頻度リスト60に現れる98個のワード
がある。
ワードが高頻度リスト50に示されていることが判明し
た場合は、ワードは圧縮テキスト58で1バイトの2進
数としてトークン化され、増補語量りスト52における
ワードのテキストを取り出すため使用されるワード番号
を取り出すための高頻度リスト50における位置を示す
。原始テキスト・ワードが高頻度リスト50の項目で示
されない場合は、2バイトの数でトークン化され、その
最初のバイトは、原始テキスト・ワードを高頻度リスト
50の最初の98個の項目から区別するよう、値98よ
りも大きい。2バイト・トークンは次に、増補M負すス
ト52で示すワードのテキストを直接探し出すため使用
される。
第1図の処理はステップ46で、第13図の元のテキス
トに処理すべきテキストが他にあるかどうか判定するこ
とにより継続する。ある場合は、処理はステップ38に
戻る。ない場合は、処理はステップ48で継続し、第3
図に概略的に示すように、圧縮されたブック・ファイル
が書かれる。
圧縮されたブック・ファイルは高頻度ワード・ポインタ
・リスト501増補語徴リスト52、ワード番号/レン
マ番号リスト54、圧縮された(トークン化された)テ
キスト58、及びレンツ番号/テキスト位置リスト56
を含む。ファイル60のどこで種々のリスト及び圧縮テ
キストが始まるかを示すファイル・ディレクトリ49を
含むこともできる。圧縮されたブック・ファイル60は
次に大容量記憶装置に記憶することができ、通信リンク
を介して遠隔ロケーシロンに伝送することができ、また
は、さもなければ、初めに第13図の元のテキストによ
り示された情報の簡潔な貯蔵所として保管ないし伝送す
ることができる。圧縮されたブック・ファイル60を伝
送するときは、ステップは、第2のロケ−シロンに配置
された第2のバッファに通信リンクにより接続された第
1のロケーシロンにおける第1のバッファにファイルを
記憶することから始まる。次に、第1のロケーシロンに
おける第1のバッファからファイルを通信リンクを介し
て第2のロケーシロンに配置された第2のバッフ1に伝
送する。次に、第2のロケータ8ンに配置された第2の
バッファにファイルを記憶する。次に、第2のロケーシ
ロンで検索ステップが実行される。
後で、ユーザが圧縮されたブックを読み、ユーザが照会
表現により特徴付ける情報を含むブックの特定部分まで
ベージングしたいときは、本発明によれば、第5図のブ
ック読取り処理が用いられる。データ処理システムで実
行される第5図の処理は、ステップ62でユーザが照会
ワードを入力し、その照会ワードまたは関連ワードを見
つけることができる第13図の元のテキストの部分を探
し出すため「ファジィ」探索を所望していることを示す
ことにより開始する。第5図の処理は次にステップ64
で継続し、入力された照会ワードを使って増補語業リス
ト52が探索される。ステップ66で、照会ワードに関
して正確な一致が増補語量りスト52で見つかった場合
は、ステップ88で、第6図に示す一致ワード・リスト
100に照会ワードが追加される。一致ワード・リスト
100はブック読取り処理中に構成される。照会ワード
の追加と共に、増補語負リスト52の探索中に見つかっ
たそのワード番号が一致ワード・リスト100に追加さ
れる。処理は次にステップ70で継続し、照会ワードの
レンツを決定するためワード番号/レンマ番号リスト5
4が探索される。この実施例では、リスト54は照会ワ
ードのワード番号について探索される。項目がリスト5
4にない場合は、照会ワードはレンツでもあるはずであ
る。処理は次にステップ72で継続し、照会ワードがレ
ンツであるかどうか判断する。照会ワードがレンツであ
る場合は、ステップ74で、照会ワードと関連した一致
ワード・リスト100にフラッグが記入され、照会ワー
ドがレンツであることを表示する。処理はステップ92
に進む。逆に、ステップ72で照会がレンツでないこと
が判明した場合は、ステップ76で2進フラツグが一致
ワード・リスト100に記入され、レンツでないことを
示す。ステップ78で、対応するレンツ番号がワード番
号/レンマ番号リスト54からアクセスされ、ステップ
80で、必要な場合は、照会ワードに対するレンツが、
そのワード番号及び、それがレンツであることを示すフ
ラッグ値と共に一致ワード・リスト100に追加される
。処理はステップ92に進む。
一致判断ステップ66が、照会ワードが増補語負リスト
52のどの項目とも正確に一致しないことを示す場合は
、処理はステップ82に進む。第5図のステップ82で
、照会ワードのレンツを取り出すため、第4図の形態辞
書がアクセスされる。
第6図の例3で、照会ワードがrTHINKrNG」で
ある場合は、第4図の形態辞書はワードrTHINKJ
をレンツとして認識するであろう。
レンツが見つからない場合は、処理はステップ83を出
て、ステップ86で「見つからなかった」を表示する。
レンツが見つかった場合は、ステップ83からステップ
8・4に進み、形態辞書からアクセスされたレンツが増
補語負リスト52にあるかどうかについて判定がなされ
る。リスト52にない場合は、ステップ86で、照会ワ
ードが「見つからなかった」という表示がなされる。逆
に、レンツが増補語億リスト52にある場合は、ステッ
プ88は、形態辞書からアクセスされたレンツを一致ワ
ードとして使用する。ステップ90では、一致ワードが
そのワード番号と共に一致ワード・リスト100に追加
され、レンツとしてフラッグを立てられる。処理は次に
直接ステップ108に移り、見せかけの探索的中を回避
する。
ステップ74及び80は第5図のステップ92に進み、
ステップ92では、同じレンフを指す異形ワードが他に
あるかどうか識別するため、ワード番号/レンマ番号リ
スト54のレンフ番号(LN)側が探索される。ステッ
プ94で、他の異形がある場合は、処理はステップ96
に進み、異形及びそのワード番号が、それを非しンマと
して示すフラッグと共に一致リスト100に追加される
処理は次にステップ98に進み、ワード番号/レンマ番
号リスト54のワード番号(WN)側の探索が、このワ
ードをレンフとして有するその他のレンフを識別する。
ステップ102で、その他のレンフがある場合は、ステ
ップ104で、その他のレンフもそれらのワード番号と
共に一致リスト10oに追加される。
ステップ94で、その他の異形がない場合は、処理はス
テップ98に進み、ステップ74またはステップ80か
らのレンフ自体が他のレンフの異形であるかどうか判定
する。ステップ102で、その他のレンフがない場合は
、ステップ102はステップ104の出力と共にステッ
プ106に流れ、ステップ108は、入力された照会ワ
ードに関するはっきりしない一致の位置を識別する処理
を開始する。ステップ10θで、レンフとしてフラッグ
を立てられた、一致ワード・リスト100で最初に現れ
るワードがアクセスされる。ステップ108で、レンフ
に対応する第13図の元のテキストにおけるテキスト部
分の位置がレンフ/相互参照リスト5Bで識別される。
第13図の元のテキストはいくつかの方法で複数部分に
分割することができる。第13図の例の場合は、テキス
トは行単位で分割されたので、第1行は行1と見なされ
、第2行は行2と見なされ、最後の行は行19である。
しかし、バラグラフごとの分割、ワードごとの分割、ま
たは1つのバラグラフ当り任意の数のワード等、元のテ
キストにおけるその他のワード集合を選ぶことが可能で
ある。そのような分割の各々を、本明細書では元のテキ
ストの「部分」と呼ぶ。
一致リスト100からアクセスされたレンフに対応する
テキスト部分の位置が識別された後、ステップ110は
圧縮テキスト58を非トークン化して、増補語寅リスト
52から第13図の元のテキストを発生する。圧縮テキ
スト58で見つかった各トークンは、高頻度リスト50
を指す1バイト・トークンか、または増補語負リスト5
2における項目を存する2バイト・トークンのいずれか
であるので、圧縮テキスト58における各連続トークン
は、第13図の元のテキストに現れたときそれが表す、
対応する元のワードに変換することができる。
照会ワードと「ファジィ一致」した、復元されるテキス
ト部分におけるワードを強調表示するため、第5図のス
テップ112はテキスト部分におけるワード番号を一致
リスト100内のすべてのワード番号と比較する。明確
な類似がある場合、復元されたテキストにおけるワード
が強調表示される。ステップ114で、復元されるテキ
スト部分が、強調表示される一致リスト100からの任
意のワードと共に、たとえば、CRTモニタ上に表示さ
れる。
この時点で、操作員は、表示されるテキスト部分が操作
員の要求を溝たすかどうか判定することができる。ステ
ップ118で、操作員は、そのように所望する場合は、
次の一致を要求することができる。次の一致が要求され
た場合は、ステップ118は、レンツ番号/テキスト位
置リスト56に示されることが可能なこのレンフに対す
るその他の位置があるかどうか判定する。ある場合は、
処理はステップ108に戻る。このレンフに対してその
他の位置がない場合は、処理はステップ120に進み、
一致リスト100にその他のレンフがあるかどうかが判
定される。一致リスト100にまだレンフがある場合は
、処理はステップ106に進み、レンフとしてフラッグ
を立てられている一致リスト内の次のワードがアクセス
される。
しかし、ステップ120が、一致リストにそれ以上レン
フがないと判定した場合は、ステップ122は、他にテ
キスト部分が見つからないことを示す。逆に、ステップ
116で、操作員が次の一致を要求しない場合は、ステ
ップ124で処理が終了する。
第6図は、入力された単一照会ワードと、形成される対
応一致ワード・リスト100の5つの異なる例を示す。
一致ワード・リストは、各一致ワード項目に対するワー
ド番号(WN)と、それがレンフである(Y)か、また
はレンフでない(N)かを示すそのフラッグを表にする
ことにより、第5図の読取り処理の間に形成される。例
1では、照会ワードはrMUcHJであり、対応する一
致ワード・リストは、ワードrMUcHJ  (WN=
181、フラッグ=Y)、rMOREJ  (WN=1
80、フラッグ=N)及びrsOMEJ  (WN=2
17、フラッグ=Y)からなる。例2では、ワードrT
HINKJが照会ワードであり、一致ワード・リストは
ワードrTHINKJ  (WN=227、フラッグ=
Y)、rTHINKs」 (WN=228、フラッグ=
N)、及びrTHOUGHTJ  (WN=232、フ
ラッグ=N)を含む。
例3では、照会ワードrTHINKINGJは例2と同
じ一致ワード・リストをもたらす。例4では、照会ワー
ドrTHINKSJは例2と同じ一致ワード・リストを
もたらす。例5では、照会ワード  rTHOUGHT
sJ   は 、   rTHOUGHTJ(WN=2
32、フラッグ=Y)からなる一致ワード・リストをも
たらす。
第12図のレンツ番号/テキスト位置データの最適圧縮
のため、第12図に示すテキスト位置は、元のブックの
テキストにおける所与のワードでの出現頻度に応じて、
いくつかの異なる方法で表示することができる。頻繁に
現れないワードについては、それらのワードはオフセッ
トのストリングとして表すことができ、各オフセットは
ワードの前回の出現からのテキスト内の距離である。原
始テキストのほとんどどこにでも現れるワードについて
は、ワードが現れないテキスト位置へのオフセットのス
トリングとして表すことができる。あるいはまた、テキ
スト位置を、テキスト位置があるのと同じだけの数のビ
ットを含むビット・マスクで表すことができ、「オン」
である各ビットは、ワードが見つけられるテキスト位置
を示す。
レンツ番号/テキスト位置リスト56がワード・レンフ
位置を示すという事実は、ワードがブックの原始テキス
トで取り得る文法的形態にかかわらず、ワードの探索で
最適の能力を可能にする。このことはまた、圧縮された
ブック・ファイル60に記憶される必要があるデータの
大きさを大幅に減少させることを可能にする。
本発明のもう1つの実施例では、第5図の照会処理は、
複数ワード7句照会の処理に適応させることができる。
第7図は句照会処理の流れ図であり、第5図の流れ図を
変更したものである。第5図では、複数ワード7句照会
は単一ワード照会と同様な方法で処理することができ、
各ワードは入力ステップ82で連続的に適用され、複数
ワード句における各ワードに対するレンフを一致リスト
100内に編集するため同じ方法で処理される。
第8図の例6で、入力された句照会がrSOMEMEN
  THINKJであった場合は、各連続ワードSOM
E1MEN及びTHINKが第5図の処理のステップ6
2ないしステップ104で処理されて、第8図の例6に
対して示す一致リスト100を発生する。複数ワード7
句照会は、第7図に示すように、第5図の単一ワード照
会処理から逸脱する。第7図の句照会流れ図のステップ
106及びステップ108は、第5図に示す単一ワード
照会処理のステタブ106及び108と同じである。
第7図のステップ108の後で、句照会流れ図はステッ
プ109に進み、照会が単一ワードよりも大きいかどう
かが判定される。照会が単一ワードよりも大きくない場
合は、第7図の流れ図は第5図のステップ110に戻り
、単一ワード照会のための処理を続行する。そうではな
く、ステップ109が、照会が単一ワードよりも大きい
、言い換えると、句であると判定した場合は、第7図の
処理はステップ126に進み、一致リスト100にその
他のレンフがあるかどうか判定する。その他にもレンフ
が一致リストにある場合は、処理はステップ128に進
み、レンフとしてフラッグを立てられていた次のワード
が一致リストからアクセスされる。流れは次にステップ
130に進み、レンフに対応するテキスト部分の位置が
レンツ番号/テキスト位置リスト56から得られる。流
れは次にステップ128の入力に戻り、一致リストにそ
の他のレンフがあるかどうか判定する。ある場合は、処
理は引き続いて次のレンフを一致リストから取り出し、
それらのレンフに対応するテキスト位置のそれらの位置
を取り出す。すべてのレンフが一致リスト100から取
り出された後、ステップ126はステップ132に進む
句照会は少なくとも第1及び第2の照会ワードを有し、
句またはその言語学的等価句を見つけることができる記
憶テキストの所望部分を探し出すことが目的である。句
における第1の照会ワードは、ここで第1の複数部分と
呼んでいるテキストのいくつかの部分に現れることがで
きる。句における第2の照会ワードはテキストのさらに
他の部分に現れることができ、これらの部分はここでは
第2の複数部分と呼ばれる。第1の照会ワードの言語学
的等価ワード及び第2の照会ワードの言語学的等価ワー
ドの両方を1つの句で共通に見出すことができるテキス
トの部分を探し出すことが句照会処理における目的であ
る。ステップ128及び130は、第1の照会ワード七
言語学的に等価なワードを含むテキストの第1の複数部
分を探し出すため、レンツ番号/テキスト位置リスト5
6にアクセスした。ステップ128及び130はまた、
第2の照会ワードと言語学的に等価なワードを含むテキ
ストの第2の複数部分を探し出すため、レンツ番号/テ
キスト位置リスト56にアクセスした。次にステップ1
32の目的は、第1の複数部分の少な(とも1つ及び第
2の複数部分の少なくとも1つにとっての共通位置を有
する記憶テキストの共通部分を識別することである。句
照会に対する言語学的等価句を含む所望部分であるべき
なのは、記憶テキストのこの部分である。
次に第6図の例6を参照すると、レンツ番号/テキスト
位置リストS6が例6に対する一致リスト100の横に
示されている。レンツ番号/テキスト位置リスト56で
、句照会rsOME  MEN  THINKJについ
て、レンフrsOMEJは、第13図のテキストの行2
を指す位置ポインタを有することが理解できる。レンフ
rMUcHJは、行2を指す位置ポインタを有する。レ
ンフrMANJは、行2及び行4を指す位置ポインタを
有する。レンフrTHINKJは、行2及び行5を指す
位置ポインタを存する。第7図の句照会流れ図のステッ
プ132では、一致リスト100のすべてのレンフは、
照会句におけるワードに対するテキストの共通部分を識
別するため、互いに論理AND演算される。第6図の例
6を参照すると、4つのレンフの各々に対する位置が互
いにAND演算されたとき、行2を指す位置ポインタの
みが4つのレンフすべてにとって共通であることが理解
できる。したがって、本発明によれば、入力照会句に対
する言語学的等価句は第13図の元のテキストの行2で
見つけられるはずである。第13図を調べると、行2に
おける句はrMANTHINKS  MOREJである
ことが理解できる。これは、句照会処理により求められ
ている言語学的に等価な句である。
第7図の処理は次にステップ132からステップ134
に流れ、ステップ134は圧縮テキスト58を非トーク
ン化し、この例では行2である共通部分の元のテキスト
を増補ワード・リスト52から生成する。次にステップ
136で、テキストの共通部分のワードのワード番号が
強調表示のため一致リスト100のワード番号と比較さ
れる。
次にステップ138で、共通テキスト部分(この例では
行2)がCRT表示装置上に表示され、句ワードrMA
N  THINKS  MOREJが強調表示される。
#j#− F発明の尋者 工、キーワード及び文脈型の両方の文書検索システム。
上述のように、入力照会ワードの文法的異形を探索ワー
ド・リストに自動的に含むことができない場合は、キー
ワードに基づいて文書を見っける能力は弱体化される。
2.ワードをそのレンツに再びマツプする能力。
レンツは次に同義語辞書のアクセスのため使用される。
技術及び特許のこの態様は単なる逆方向検索よりもはる
かに広い用途をもたらし、一般的なワード処理用途を包
含する。目的はテキスト内のキーワードまたはワードを
受は取り、すべての関連同義語を判定することができる
ことである。このことは通常、同義語辞書等のあらかじ
め編集された著書を参照することにより行なわれ、通常
は所与のワードのレンツであるマスク項目によるその辞
書のアクセスを必要とする。文書検索に関しては、照会
におけるキーワードは、レンツに再びマツプされた後で
、適切な同義語を見つけるため、及び実際に文書内のキ
ーワードである可能性があり、かつ文書検索照会の作成
で正確に再現され、使用されなかった関連キーワードを
探索するためにも使用することができる。
【図面の簡単な説明】
第1図は本発明によるブック作成処理のためのデータ処
理方法の流れ図である。 第2図は、第1図の処理により形成される、圧縮された
ブック・ファイルの部分を示す説明図である。 第3図は、第1図の処理の結果である連続レコードとし
て、圧縮されたブック・ファイルを示す説明図である。 第4図は、第1図及び第5図の方法を実施するデータ処
理システムに記憶された例示的形態辞書を示す説明図で
ある。 第5図は、本発明によるブック読取り処理のためのデー
タ処理方法の流れ図である。 第6図は、ブック読取り処理の間に構成される一散ワー
ド・リストを示す説明図である。 第7図は、複数ワード句である照会を処理するための本
発明のもう1つの実施例の流れ図である。 第8図は、ワード・リスト関係を示す説明図である。 第9図は、テキスト内の全ワードの語常リストの説明図
である。 第10図は、第13図に対応する増補ワード・リストの
説明図である。 第11図は、ワード番号対しンマ番号リスト(WN/L
N)の−例を示す説明図である。 第12図は、レンツ相互参照データ・テーブルの説明図
である。 第13図は、元のテキストの一例を示す説明図である。 出願人  インターナシ日ナル・ビジネス・マシーンズ
eコーポレーシロン 代理人  弁理士  頓  宮  孝 (外工名) 第3図 UHF−HFワードリストテープlし くワード・リスト間係) HFワードリスμ (ILIBERTY 5PEECHI)Patrick
 Henry+ March 2311775゜第13
図 第 1 Z 図 手続補正帯 (方式) 補正の対象 平成2年5月1/日

Claims (1)

  1. 【特許請求の範囲】 テキストを記憶、検索するためのデータ処理方法であっ
    て、 上記テキストに現れるワードの語彙リストを編集するス
    テップ、 上記語彙リストを、増補ワード・リストとして、上記テ
    キスト内の上記ワードのレンマで増補するステップ、上
    記ワードの上記レンマを上記テキスト内の上記ワードの
    位置に関連付ける相互参照テーブルを編集するステップ
    、 上記テキスト、上記増補ワード・リスト及び上記相互参
    照テーブルを記憶するステップ、 上記記憶されたテキストの一部分にアクセスするため照
    会ワードを入力するステップ、 上記照会ワードを探索項として使って、上記増補語彙リ
    ストを探索するステップ、 上記照会ワードのレンマで上記相互参照テーブルにアク
    セスして、上記記憶されたテキストの上記部分を探し出
    すステップからなることを特徴とするデータ処理方法。
JP2008541A 1989-01-19 1990-01-19 データ処理方法 Expired - Lifetime JPH07104870B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US299181 1989-01-19
US07/299,181 US5099426A (en) 1989-01-19 1989-01-19 Method for use of morphological information to cross reference keywords used for information retrieval

Publications (2)

Publication Number Publication Date
JPH02271468A true JPH02271468A (ja) 1990-11-06
JPH07104870B2 JPH07104870B2 (ja) 1995-11-13

Family

ID=23153647

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008541A Expired - Lifetime JPH07104870B2 (ja) 1989-01-19 1990-01-19 データ処理方法

Country Status (4)

Country Link
US (1) US5099426A (ja)
EP (1) EP0378848A3 (ja)
JP (1) JPH07104870B2 (ja)
CA (1) CA2007285C (ja)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5471610A (en) * 1989-06-14 1995-11-28 Hitachi, Ltd. Method for character string collation with filtering function and apparatus
US6978277B2 (en) * 1989-10-26 2005-12-20 Encyclopaedia Britannica, Inc. Multimedia search system
US5241671C1 (en) 1989-10-26 2002-07-02 Encyclopaedia Britannica Educa Multimedia search system using a plurality of entry path means which indicate interrelatedness of information
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
JP2895184B2 (ja) * 1990-08-22 1999-05-24 株式会社日立製作所 文書処理システム及び文書処理方法
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
US5708829A (en) * 1991-02-01 1998-01-13 Wang Laboratories, Inc. Text indexing system
US5586218A (en) * 1991-03-04 1996-12-17 Inference Corporation Autonomous learning and reasoning agent
US5475587A (en) * 1991-06-28 1995-12-12 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
US5559693A (en) * 1991-06-28 1996-09-24 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
CA2051135C (en) * 1991-09-11 1996-05-07 Kim D. Letkeman Compressed language dictionary
JP2659896B2 (ja) * 1992-04-29 1997-09-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 構造化文書複製管理方法及び構造化文書複製管理装置
JP2596869B2 (ja) * 1992-04-30 1997-04-02 松下電器産業株式会社 概念辞書管理装置
GB9217886D0 (en) * 1992-08-21 1992-10-07 Canon Res Ct Europe Ltd Method and apparatus for parsing natural language
US5412567A (en) * 1992-12-31 1995-05-02 Xerox Corporation Augmenting a lexical transducer by analogy
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
WO1995002221A1 (en) * 1993-07-07 1995-01-19 Inference Corporation Case-based organizing and querying of a database
US5500796A (en) * 1993-07-22 1996-03-19 General Electric Company Method for extracting open-issue data from textual specifications using natural language text processing
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
JPH07160684A (ja) * 1993-12-03 1995-06-23 Matsushita Electric Ind Co Ltd 文書圧縮装置および文書圧縮方法
US5724594A (en) * 1994-02-10 1998-03-03 Microsoft Corporation Method and system for automatically identifying morphological information from a machine-readable dictionary
US5584024A (en) * 1994-03-24 1996-12-10 Software Ag Interactive database query system and method for prohibiting the selection of semantically incorrect query parameters
US5619684A (en) * 1994-07-25 1997-04-08 International Business Machines Corporation Method and apparatus for consistent user interface in a multiple application personal communications device
US5568536A (en) * 1994-07-25 1996-10-22 International Business Machines Corporation Selective reconfiguration method and apparatus in a multiple application personal communications device
US5590373A (en) * 1994-07-25 1996-12-31 International Business Machines Corporation Field programming apparatus and method for updating programs in a personal communications device
US5680605A (en) * 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
US5694559A (en) * 1995-03-07 1997-12-02 Microsoft Corporation On-line help method and system utilizing free text query
US6070160A (en) * 1995-05-19 2000-05-30 Artnet Worldwide Corporation Non-linear database set searching apparatus and method
US5704060A (en) * 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging
US6021412A (en) * 1996-04-02 2000-02-01 Microsoft Corporation Method and system for automatically adding graphics to a document to illustrate concepts referred to therein
US6173298B1 (en) 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
US6119114A (en) * 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
US5913209A (en) * 1996-09-20 1999-06-15 Novell, Inc. Full text index reference compression
US6278990B1 (en) 1997-07-25 2001-08-21 Claritech Corporation Sort system for text retrieval
US5893094A (en) 1997-07-25 1999-04-06 Claritech Corporation Method and apparatus using run length encoding to evaluate a database
DE19756040A1 (de) * 1997-09-22 1999-03-25 Rahmstorf Antje Vorrichtung zum systematischen Erfassen und Bearbeiten von sprachbezogenen Daten
US6105021A (en) * 1997-11-21 2000-08-15 International Business Machines Corporation Thorough search of document database containing compressed and noncompressed documents
US6886130B1 (en) 1997-11-26 2005-04-26 International Business Machines Corporation Compiled structure for efficient operation of distributed hypertext
US6230168B1 (en) 1997-11-26 2001-05-08 International Business Machines Corp. Method for automatically constructing contexts in a hypertext collection
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
US7257589B1 (en) 1997-12-22 2007-08-14 Ricoh Company, Ltd. Techniques for targeting information to users
US7596755B2 (en) 1997-12-22 2009-09-29 Ricoh Company, Ltd. Multimedia visualization and integration environment
JP4183311B2 (ja) 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
US6192333B1 (en) * 1998-05-12 2001-02-20 Microsoft Corporation System for creating a dictionary
US6369811B1 (en) 1998-09-09 2002-04-09 Ricoh Company Limited Automatic adaptive document help for paper documents
US6582475B2 (en) 1998-09-09 2003-06-24 Ricoh Company Limited Automatic adaptive document printing help system
US6263333B1 (en) 1998-10-22 2001-07-17 International Business Machines Corporation Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
US6310633B1 (en) 1999-03-23 2001-10-30 Ricoh Company Limited Method and system for organizing document information
US6647534B1 (en) 1999-06-30 2003-11-11 Ricoh Company Limited Method and system for organizing document information in a non-directed arrangement of documents
US7228492B1 (en) 1999-07-06 2007-06-05 Ricoh Company, Ltd. 2D graph displaying document locations of user-specified concept of interest
US6405192B1 (en) 1999-07-30 2002-06-11 International Business Machines Corporation Navigation assistant-method and apparatus for providing user configured complementary information for data browsing in a viewer context
US6356908B1 (en) 1999-07-30 2002-03-12 International Business Machines Corporation Automatic web page thumbnail generation
US6665838B1 (en) 1999-07-30 2003-12-16 International Business Machines Corporation Web page thumbnails and user configured complementary information provided from a server
US20040102197A1 (en) * 1999-09-30 2004-05-27 Dietz Timothy Alan Dynamic web page construction based on determination of client device location
WO2001080077A1 (en) * 2000-04-18 2001-10-25 Korea Telecom Method and system for retrieving information based on meaningful core word
AU2001243610A1 (en) 2000-05-25 2001-12-11 Manyworlds Consulting, Inc. Fuzzy content network management and access
US7013261B2 (en) * 2001-10-16 2006-03-14 Xerox Corporation Method and system for accelerated morphological analysis
US7149957B2 (en) 2001-11-19 2006-12-12 Ricoh Company, Ltd. Techniques for retrieving multimedia information using a paper-based interface
US20040098380A1 (en) * 2002-11-19 2004-05-20 Dentel Stephen D. Method, system and apparatus for providing a search system
GB0228942D0 (en) * 2002-12-12 2003-01-15 Ibm Linguistic dictionary and method for production thereof
JP3600611B2 (ja) * 2002-12-12 2004-12-15 本田技研工業株式会社 情報処理装置および情報処理方法、並びに情報処理プログラム
US6980949B2 (en) * 2003-03-14 2005-12-27 Sonum Technologies, Inc. Natural language processor
US7552381B2 (en) 2003-03-31 2009-06-23 Ricoh Co., Ltd. Check boxes for identifying and processing stored documents
US20040225497A1 (en) * 2003-05-05 2004-11-11 Callahan James Patrick Compressed yet quickly searchable digital textual data format
US20090018918A1 (en) 2004-11-04 2009-01-15 Manyworlds Inc. Influence-based Social Network Advertising
US7606772B2 (en) 2003-11-28 2009-10-20 Manyworlds, Inc. Adaptive social computing methods
US8600920B2 (en) 2003-11-28 2013-12-03 World Assets Consulting Ag, Llc Affinity propagation in adaptive network-based systems
US7539652B2 (en) 2003-11-28 2009-05-26 Manyworlds, Inc. Adaptive self-modifying and recombinant systems
US7526458B2 (en) 2003-11-28 2009-04-28 Manyworlds, Inc. Adaptive recommendations systems
US7526459B2 (en) 2003-11-28 2009-04-28 Manyworlds, Inc. Adaptive social and process network systems
US7526464B2 (en) * 2003-11-28 2009-04-28 Manyworlds, Inc. Adaptive fuzzy network system and method
USRE45770E1 (en) 2003-11-28 2015-10-20 World Assets Consulting Ag, Llc Adaptive recommendation explanations
US8566263B2 (en) * 2003-11-28 2013-10-22 World Assets Consulting Ag, Llc Adaptive computer-based personalities
US8051096B1 (en) * 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US7870172B1 (en) * 2005-12-22 2011-01-11 Network Appliance, Inc. File system having a hybrid file system format
US7962466B2 (en) * 2006-01-23 2011-06-14 Chacha Search, Inc Automated tool for human assisted mining and capturing of precise results
US7739255B2 (en) * 2006-09-01 2010-06-15 Ma Capital Lllp System for and method of visual representation and review of media files
US20080109845A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp System and method for generating advertisements for use in broadcast media
US20080109409A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Brokering keywords in radio broadcasts
US20080109305A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Using internet advertising as a test bed for radio advertisements
WO2009094633A1 (en) * 2008-01-25 2009-07-30 Chacha Search, Inc. Method and system for access to restricted resource(s)
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
SG184817A1 (en) * 2010-04-12 2012-11-29 Flight Focus Pte Ltd Use of a meta language for processing of aviation related messages
CN102346741A (zh) * 2010-07-28 2012-02-08 英业达股份有限公司 根据输入关键词产生衍生关键词的资料检索系统及其方法
US20120278102A1 (en) * 2011-03-25 2012-11-01 Clinithink Limited Real-Time Automated Interpretation of Clinical Narratives
CN102737012B (zh) * 2011-04-06 2015-09-30 赛恩倍吉科技顾问(深圳)有限公司 文本信息对比方法及系统
US9158755B2 (en) * 2012-10-30 2015-10-13 International Business Machines Corporation Category-based lemmatizing of a phrase in a document
US9805312B1 (en) * 2013-12-13 2017-10-31 Google Inc. Using an integerized representation for large-scale machine learning data
US10748526B2 (en) * 2018-08-28 2020-08-18 Accenture Global Solutions Limited Automated data cartridge for conversational AI bots

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59226972A (ja) * 1983-06-08 1984-12-20 Hitachi Ltd 文書処理装置
JPS6340938A (ja) * 1986-08-05 1988-02-22 Nec Corp 情報検索における同意語検索方式

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4270182A (en) * 1974-12-30 1981-05-26 Asija Satya P Automated information input, storage, and retrieval system
US4499553A (en) * 1981-09-30 1985-02-12 Dickinson Robert V Locating digital coded words which are both acceptable misspellings and acceptable inflections of digital coded query words
WO1985001814A1 (en) * 1983-10-19 1985-04-25 Text Sciences Corporation Method and apparatus for data compression
JPS60159970A (ja) * 1984-01-30 1985-08-21 Hitachi Ltd 情報蓄積検索方式
US4731735A (en) * 1985-09-30 1988-03-15 International Business Machines Corporation Multilingual processing for screen image build and command decode in a word processor, with full command, message and help support
JPS62251876A (ja) * 1986-04-18 1987-11-02 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 言語処理システム
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
US4862408A (en) * 1987-03-20 1989-08-29 International Business Machines Corporation Paradigm-based morphological text analysis for natural languages

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59226972A (ja) * 1983-06-08 1984-12-20 Hitachi Ltd 文書処理装置
JPS6340938A (ja) * 1986-08-05 1988-02-22 Nec Corp 情報検索における同意語検索方式

Also Published As

Publication number Publication date
CA2007285C (en) 1994-03-29
EP0378848A2 (en) 1990-07-25
EP0378848A3 (en) 1991-07-17
US5099426A (en) 1992-03-24
CA2007285A1 (en) 1990-07-19
JPH07104870B2 (ja) 1995-11-13

Similar Documents

Publication Publication Date Title
JPH02271468A (ja) データ処理方法
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US7266553B1 (en) Content data indexing
JP4658420B2 (ja) 文字列の正規化表示を生成するシステム
JP4559371B2 (ja) Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法
US7523102B2 (en) Content search in complex language, such as Japanese
US5995962A (en) Sort system for merging database entries
US6697801B1 (en) Methods of hierarchically parsing and indexing text
JP2742115B2 (ja) 類似文書検索装置
US8171052B2 (en) Information search system, method and program
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
EP1011057B1 (en) Identifying a group of words using modified query words obtained from successive suffix relationships
EP0813160B1 (en) Apparatus for and method of accessing a database
JPH0567144A (ja) 前編集支援方法およびその装置
US6470334B1 (en) Document retrieval apparatus
JPH0844771A (ja) 情報検索装置
JPH06348757A (ja) 文書検索装置および方法
JPH03260869A (ja) データ検索装置及びデータ検索方法
EP1605371A1 (en) Content search in complex language, such as japanese
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2004318381A (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH02253474A (ja) テキストベース検索方法
JPH03268064A (ja) データ検索装置及びデータ検索方法
JPH0954781A (ja) 文書検索システム