JPH01286019A - 文字ストリング処理方法 - Google Patents

文字ストリング処理方法

Info

Publication number
JPH01286019A
JPH01286019A JP1058069A JP5806989A JPH01286019A JP H01286019 A JPH01286019 A JP H01286019A JP 1058069 A JP1058069 A JP 1058069A JP 5806989 A JP5806989 A JP 5806989A JP H01286019 A JPH01286019 A JP H01286019A
Authority
JP
Japan
Prior art keywords
character
string
weight
characters
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1058069A
Other languages
English (en)
Inventor
Philip Y Chang
フイリツプ・エン―タング・チヤング
Michael R Cross
マイケル・レイ・クロス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH01286019A publication Critical patent/JPH01286019A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/22Arrangements for sorting or merging computer data on continuous record carriers, e.g. tape, drum, disc
    • G06F7/24Sorting, i.e. extracting data from one or more carriers, rearranging the data in numerical or other ordered sequence, and rerecording the sorted data on the original carrier or on a different carrier or set of carriers sorting methods in general
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Devices For Executing Special Programs (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 本発明は、一般的にはテキストを分類し、索引付けるこ
とに関し、特に、分類及び索引付けのこれらの機能間の
一貫性を維持しながら、分類及び索引付げにおいて言語
規約を適用することに関する。
B、従来技術及びその問題点 テキスト“・データを処理するのにコンピュータを用い
ることは周知である。テキスト・データを処理するデー
タ処理の1タイプの例は、データ・ペース管理である。
データ・ペース管理は、1群の封筒をアドレス指定する
程の簡単なアプリケーションからデータをアクセスして
処理するのにかなりの時間を要する非常に複雑なアプリ
ケーションまで多岐にわたっている。
データ・ペースからユーザに情報を提供する際には、通
常、情報を分類形式でユーザに与えることが望ましい。
情報は時には、数字に関係する形式、例えば、経済的に
又はコストに従って分類される。情報の少なくとも1部
分をアルファベット類に即ち英字に基づいて分類するこ
とが通常行なわれている。本発明は、数字に基づく分類
というよりはむしろ英字に基づいて情報を分類すること
に関係する。
英語言語のみを扱う人にとっては、英字分類のタスクは
単純なもののように思えるであろう。実際、その子供達
は、話すことができるよ5になるとすぐにアルファベッ
トにおける文字の順序を教わるし、また、低学年のうち
に単語をアルファベットで表わす方法を教わる。多数の
人々が順序として英字に基づいて複数の英単語をリスト
することに同意することはかなりの確信をもって言える
ことである。
英語以外の幾つかの言語では、タスクは英語程単純には
ならない。例えば、その他の言語としては、英語のアル
ファベットにおける文字よりも多い又は少い文字を用い
るものがあり、共通文字が英語の英字についての正しい
順序と異なる順序になっているものがある。従って、他
の言語の何らかの知識なしには、そのタスクは不可能で
ある。
他の言語に習熟した人だって、幾(つかの文字を含む単
語をアルファベットで表わすことにおいてその優先順位
に同意しかねることがある。
英語の場合には、ASCI I (AmericanS
tandard  Code  for  Infor
mationInterchange)即ちアスキーが
用いられるときは、タスクは学生ばかりでなくコンピュ
ータにとっても簡°単である。これは、もちろん、アス
キーが英語言語に基づいているためであり、それ故に、
アスキーの順序については文字が意図的にアルファベッ
ト類に配置されている。従って、′c”という文字は、
′X″という文字よりも小さなアスキーの値を有する。
このように、英語以外の言語に基づく単語をアルファベ
ットで表わすことについての問題の1解法は、アスキー
に類似する別のコード・セットへ翻訳することである。
そのコード・セットでは、その言語の文字がその言語に
ついての正しい即ち少なくとも認められた英字順に順序
付けられる。この解法は、しかしながら、多くの既存の
パーソナルΦコンピューティンク・システムで許容でき
る性能をもたらすには余りにも複雑すぎる。
!3R1及びマイクロソフト両社のオペレーティング・
システム/2(O8/2)は、その言語における各文字
が照合の“重み(weight)″を割り当てられるテ
ーブルを定義することにより、言語の幾(つかの特色を
出している。このテーブルを参照することにより、異な
る文字の相対的な順序がアルファベット化処理の間に明
白になることがある。全ての文字についてのこれらのテ
ーブルの1つの欠陥は、同じ文字の大文字及び小文字の
画形式に対して同じ重みが割り当てられることである。
別の深刻な問題は、幾くつかの重みが単一の文字という
よりはむしろ文字のグループに当てはめられることであ
る。例えば、文字″′a”の全ての形式は、多くの変化
する判別記号を伴なうが、同じ重みを有している。従っ
て、アルファベット化の間に”同じになること(tie
 )”が起り得る。
これは、多(のコンピュータ処理においては許容できな
いことである。
それ故に、先行技術のようにシステムの性能を犠牲にす
るようなことなく、パーソナル・コンピュータ・システ
ムにおいて一貫したアルファベット化処理を保証する簡
単な技術を提供することは大変有用である。
C1問題点を解決するための手段 比較されている2つの異なる文字ストリングの対応する
文字ベアのいずれかに照合の重みの差が存在する限り、
文字の重みを照合するオペレーティング・システムが信
頼できるような技術が提供される。この比較がなされて
いる間一致しない対応する文字のベアについての照合重
みが最初に同、じになることにより、同じ忙なった2つ
の対応する文字のアスキー・コード値の比較がトリガさ
れる。そのような同じになることが起きたと仮定すると
、この処理の終了に達した後に対応する文字の照合重み
に差が見出されないなら、それから、一方のストリング
がより小さなアスキーもコード値の対応する文字を有す
るなら、そのストリングはアルファベット順における他
方のス) IJソング先行すると考えられる。
特に、2つの文字ストリングの各々における対応する文
字ペアについての個々の照合重みが比較される。2つの
対応する文字の照合重みに差が検出されるなら、より小
さな照合重みの対応する文字を有する文字ストリングが
、他方の文字ストリングに先行するとみなされる。しか
しながら、−致しない対応する文字のペアが同じ照合重
みを有するなら、2つの文字のうちの2進アスキー・コ
ード値が比較され、より小さなアスキー・コード値を有
する文字が条件付きで他方の文字に先行するとみなされ
る。対応するペアの残る比較の間に、ペアが異なる照合
重みを有していると見出されると、その差(前の文字の
アスキーの差ではない)が、2つの文字ストリングの配
列を制御する。しかしながら、各対応する文字ベアの後
続の比較の間に、照合重みに差が検出されないなら、一
致しないアスキー文字の最初のペアのアスキー値の差が
、より小さなアスキー値の対応する文字を有する文字ス
トリングを他方の文字ストリングよりも前に配置するこ
とによって2つの文字ストリングの順序を決めるために
用いられる。このように、対応する文字ペアの照合重み
が1次比較に利用され、一方、1次比較が全てなされて
しまった後に中断されずに重みの同じことが続いている
ときには、最初の一致しないが重みの同じ対応する文字
ペアのアスキー・コードの2進値が、2次比較に利用さ
れる。
D、実施例 第1図のブロック図を参照するに、この図にはIBM社
のパーソナル・コンピュータに用いられている構成のよ
うな典型的なパーソナル・コンピュータのアーキテクチ
ャが示されている。このアーキテクチャのポイントは、
例えばインテル社の80286等のマイクロプロセッサ
1を含むことである。マイクロプロセッサ1は、1組の
データ線、1組のアドレス線及び1組の制御線から成る
バス2に接続されている。複数のI10装置、メモリ又
は記憶装置3乃至8が夫々側々のアダプタ9乃至14を
介してバス2に接続されている。例えば、デイスプレィ
4としては、IBM社のパーソナル・コンピュータ・カ
ラー・デイスプレィがあり、またアダプタ10としては
、IBM社のカラー/グラフィックス・アダプタがある
。その他の装置3及び5乃至8並びにアダプタ9及び1
1乃至14が、いずれも、IBM社のパーソナル・コン
ピュータの1部分として含まれるか又は、IBM社から
のプラグOイン・オプションとして利用できる。ランダ
ム・アクセス・メモリ(RAM)6及びリード・オンリ
・メモリ(ROM)8並びにそれらの対応するアダプタ
12及び14が、IBM社のパーソナル・コンピュータ
における標準装置として含まれる。補足メモリ6に対し
て、プラグ・イン・メモリ拡張オプションにより追加ラ
ンダム・アクセス・メモリが付加され得る。
リード・オンリ・メモリ8内には、マイクロプロセッサ
1による実行のための基本的な入出力動作システム即ち
BiO2として知られている複数の命令が記憶されてい
る。B IO8は、コンピュータの基本動作を制御する
。IBM社のパーソナル・コンピュータ・ファミリー及
びパーソナル・システム/2コンピユータ・ファミリー
のうちの幾くつかと共に用いられているIBM社のオペ
レーティング・システム/2即ちO8/2のようなオペ
レーティング・システムがメモリ6中にロードされ、R
OMa中に記憶されているB IO8と共に動作する。
BIOSプログラムへなされる変更によって基本的なシ
ステム動作への変更ができるようにROMa中よりもむ
しろメモリ6中にBiO2が部分的に又は全て記憶され
る構成をパーソナル・コンピュータ・システムがなシ、
ランダムΦアクセス・メモリ6へ容易にロードできるこ
とは、当業者の理解するとζろである。
データ・ベース管理を含むタスクの包括的なセット力第
1図に示されたパーソナル−コンピュータ・システムに
よって実行され得るようにマイクロプロセッサ1へ命令
を提供するために、アプリケーション・プログラムtt
ttタメモリ6中へロードされる。メモリ6中へロード
されたアプリケージョン・プログラムは、先にメモリ6
中ヘロードされたオペレーティング・7ステムと共に動
作する。
O8/2と共に動作するデータ・ベース管理アプリケー
ションが本発明の説明のためのプログラムの例として用
いられるが、本発明によって様々なタイプのアプリケー
ション・プログラムが拡張される。前述のハードウェア
・システムは周知であるが、本発明は、以下詳細に説明
されるように、本発明の教示に従って構成される即ちプ
ログラムされるハードウェア・システムの組合せを含む
さて、第2図を参照するに、この図では本発明の実施に
おける論理演算が説明されている。文字1及び文字2は
、2つのテキスト・ワード、ストリング1及びストリン
グ2の対応する文字である。
ステップ100で、比較されるストリング1及びストリ
ング2を受取る。ステップ110で、2次比較がEQU
ALに即ち等しい状態にセットされる。
ステップ120では、テスト中のストリングに文字が残
っているかどうかを決めるためにテストがなされる。さ
て、テストされるストリングに文字が残っていると仮定
する。従って、ステップ130では、比較されている2
つの対応する文字が同じでないかどうかを決めるために
テストがなされる。(もちろん、この最初の通過では、
テストされている2つの対応する文字は、各ストリング
の最初の文字である。)文字が同じなら、動作はステッ
プ200ヘジヤンプする。ステップ200では、同じ文
字の配列においては相異することが存在するはずがない
ので、対応する文字の次のベアが調べられる。さて、文
字が同じでないと仮定する。すると、動作は、文字2の
重みに対する文字1の重みを決定するために、第5図の
文字重み(Weighchars)サブルーチンヘジャ
ンプする。
第5図では、ステップ430で、文字1及び文字2の重
みを比較するために、文字重みサブルーチンが入力され
る。前述のO8/2のようなオペレーティング・システ
ムの照合テーブルへの索引付けのために、文字自体の値
が用いられる。変数DIFFがステップ440で計算さ
れる。ステップ441は、文字1の照合重みから文字2
の照合重みを差引いた差を求めることを表わしている。
ステップ450では、DIFFがゼロよシ大きいかどう
かを決めるためにテストがなされる。もし大きいなら、
ステップ460へ分岐する。ステップ460では、スト
リング1がストリング2よシも大きな重みを有すること
を示す大きいという結果(HIGI()が戻される。も
ちろん、これは、よシ低い重みはアルファベット順のよ
シ始めの方に位置するので、ストリング2の方がアルフ
ァベット順ではストリング1に先行することを意味する
。ステップ450でDIFFがゼロよりも太き(ないな
ら、ステップ470へ分岐して、そこでDIFFがゼロ
よシも小さいかどうか決めるためにテストがなされる。
もし小さいなら、ステップ490で、ストリング1がス
トリング2よシも小さな重みを有することを示す小さい
という結果(LOW)が戻される。これは、ストリング
1がアルファベット順でストリング2に先行することを
意味する。ステップ470でDIFFがゼロよりも小さ
(ないなら、ステップ480へ分岐して、そこでこれら
2つの対応する文字には同じ重みが存在することを意味
する等しいという結果(EQUAL)が戻される。さて
、動作は第2図のステップ150へ戻る。
第2図のステップ150では、第5図の文字重みサブル
ーチンにおいて両方の文字が同じ重みを有することがわ
かったかどうかを決めるためにテストがなされる。それ
らが同じ重みを有しないなら、等しくない重みによって
アルファベット順の優先順位が確立される。即ち、小さ
いという結果が戻されると、ストリング1がストリング
2に先行すべきであシ、一方、大きいという結果が戻さ
れると、ストリング2がストリング1に先行すべきであ
る。これらいずれの場合にも、本発明の動作は、この地
点で出て行く。しかしながら、文字1及び文字20両方
が同じ重みを有することがわかると、動作はステップ1
60へ進む。ステップ160では、前の対応する文字の
重みが同じことが2次比較によって何ら中断されていな
かったかどうかを決めるためにテストがなされる。前の
重みの同じことが中断されていfcなら、動作はステッ
プ200へ進み、そこでは、対応する文字の次のペアが
アクセスされ比較される。異なる重みを有するストリン
グ1及びストリング2において後に対応する文字のペア
がみつかったなら、その比較が優先する。
ステップ160で2次比較によシ前の重みの同じことが
何ら決められていなかったなら、ステップ170で文字
1のアスキー・コードカ;1文字2のアスキー・コード
よりも小さな2進値を有するかどうかを決めるためにテ
ストがなされる。もしそうなら、ステップ190で2次
比較によシストリング1が条件付きでストリング2に先
行することが保持される。もしそうでないなら、ステッ
プ180で2次比較によりストリング2が条件付きでス
トリング1に先行することが保持される。これらいずれ
の場合にも、動作はステップ200へ進む。そζでは次
の対応する文字がテストされる。
それで、残る対応する文字のテストにおいて検出される
重みの差は、ステップ170でのテストの結果というよ
シもストリングの配列における制御因子となる。しかし
ながら、対応する文字のペアの重みについての残るテス
トの全てが同じという結果を戻すような場合には、ステ
ップ170でのテストの結果によって、ストリング1又
はストリング2のいずれを文字ストリングの出力リステ
ィングにおいて先に配置するのかが決まる。
さて、文字1及び文字2の幾(つかの対応するペアがテ
ストされ念後に、ステップ120でストリングの少な(
とも1つにおいて文字が残っていないことがわかったと
仮定する。動作は第3図のステップ220ヘジヤンプす
る。そこでは、ストリング2が調べ尽されてしまったか
どうかを決めるためにテストがなされる。ストリング2
の全ての文字の重み付げされていなかったと仮定すると
、ステップ230でストリング2の文字2がブランクで
ないかどうかを決めるためにテストがなされる。文字2
がブランクなら、動作はステッピ3゜0ヘジヤンプする
。そこでは、ブランク文字の配列には何ら差が存在する
はずはないので、ストリング2の次の文字が調べられる
。文字がブランクでないなら、ステップ240で第5図
の文字重みサブルーチンが、ブランクの重みに文字20
重みの比較のために、再び呼び出される。ここでの文字
重みサブルーチンの動作は、先に述べたのと実質的に同
じである。違いは、比較するストリング1の文字1が存
在する代りに、ストリング2の文字2が文字1の位置を
もはやとっているブランクに対して比較されることであ
る。
第5図の文字重みサブルーチンが終って、動作は第6図
のステップ250へ戻る。そこでは、第5図の文字重み
サブルーチンにおいて文字2とブランクの両方が同じ重
みを有していることが見出されたかどうかを決めるべ(
、動作が進行する。
同じ重みを有していないなら、異なる重みによって順序
における優先順位が確立される。即ち、小さいという結
果が戻されたなら、ストリング1がストリング2に先行
すべきであるし、一方、太きいという結果が戻されたな
ら、ストリング2がストリング1に先行すべきである。
これらのいずれの場合にも、本発明の動作はこの地点で
出て行く。
しかしながら、ブランクと文字2の両方が同じ重みを有
することが見出されたなら、動作はステップ260へ進
む。そこでは、前の対応する文字の重みが同じであるこ
とが2次比較によって何ら中断されていなかったかどう
かを決めるためにテストがなされる。もし前の重みの同
じことが中断されていたなら、動作はステップ300へ
進む。
そこでは、ス) IJング2が調べ尽されてしまったか
どうかを決めるために、ストリング2が再びテストされ
る。もし前の重みの同じことが中断されていないなら、
ストリング2の次の文字とブランクとの重みが比較され
る。ストリング20文字とブランクから成るペアが異な
る重みを有すると後に見出されたなら、その比較が優先
する。
ステップ260で前の重みの同じことが2次比較により
何ら決められていなかったなら、ステップ270で文字
2のアスキー・コードがブランクのアスキー・コードよ
りも大きな2進値を有するかどうかを決めるためにテス
トがなされる。もしそうなら、ステップ290で2次比
較によりストリング1が条件付きでストリング2に先行
することが保持される。もしそうでないなら、ステップ
280で2次比較によりストリング2が条件付きでスト
リング1に先行することが保持される。これらいずれの
場合にも、動作はステップ300へ進む。そこでは、ス
トリング2の次の文字がブランクに対してテストされる
。それで、残る文字のテストにおいて検出される重みの
差は、ステップ270でのテストの結果というよりもス
トリングの配列における制御因子となる。しかしながら
、ストリング2に残る文字の重みについての残る全ての
テストでブランクの重みと比較して同じになる場合には
、ステップ270でのテストの結果によって、ストリン
グ1又はストリング2のいずれを文字ストリングの出力
リスティングにおいて先に配置するのかが決まる。
ステップ220でストリング2が調べ尽されていたなら
、動作は第4図のステップ320へ進む。
そこでは、ス) IJソングが調べ尽されているかどう
かを決めるためにテストがなされる。ストリング1の全
ての文字が重み付けされていなかったと仮定すると、ス
テップ330でストリング1の文字1がブランクでない
かどうかを決めるためにテストがなされる。文字1がブ
ランクなら、動作はステップ400ヘジヤンプする。そ
こでは、ブランク文字の一列には何ら差が存在するはず
はないので、ストリング10次の文字が調べられる。文
字1がブランクでないなら、ステップ340でブランク
の重みに対する文字1の重みの比較のために第5図の文
字重みサブルーチンが再び呼び出される。ここでの文字
重みサブルーチンの動作は、先に述べたのと実質的に同
じである。違いは、比較するストリング2の文字2が存
在する代りに、ストリング1の文字1が、文字2の位置
をもはやとっているブランクに対して比較されることで
ある。
第5図の文字重みサブルーチンが終って、動作゛は第4
図のステップ350へ進む。そこでは、第5図の文字重
みサブルーチンにおいて文字1とブランクの両方が同じ
重みを有していることが見出されたかどうかを決めるべ
く動作が進行する。同じ重みを有していないなら、異な
る重みによって順序における優先順位が確立される。即
ち、小さいという結果が戻されたなら、ストリング1が
ストリング2に先行すべきであるし、一方、大きいとい
う結果が戻されたなら、ストリング2がストリング1に
先行すべきである。これらのいずれの場合にも、本発明
の動作はこの地点で出て行く。
しかしながら、ブランクと文字1の両方が同じ重みを有
することが見出されたなら、動作はステップ360へ進
む。そこでは、前の対応する文字の重みが同じであるこ
とが2次比較によって何ら中断されていなかったかどう
かを決めるためにテストがなされる。もし前の重みの同
じことが中断されていたなら、動作はステップ400へ
進む。そこでは、ストリング1が調べ尽されてしまった
かどうかを決めるために、ストリング1が再びテストさ
れる。もし前の重みの同じことが中断されていないなら
、ストリング1の次の文字とブランクとの重みが比較さ
れる。ス) IJソングの文字とブランクから成るペア
が異なる重みを有すると後に見出されたなら、その比較
が優先する。
ステップ3°60で前の重みの同じことが2次比較によ
り何ら決められていなかったなら、ステップ370で文
字1のアスキーのコードがブランクのアスキー・コー゛
ドよりも大きな2進値を有、するかどうかを決めるため
にテストがなされる。もしそうなら、ステップ390で
2次比較によりストリング1が条件付きでストリング2
に先行することが保持される。もしそうでないなら、ス
テップ380で2次比較によりストリング2が条件付き
でストリング1に先行することが保持される。これらの
いずれの場合にも、動作はステップ400へ進む。そこ
では、ストリング10次の文字がブランクに対してテス
トされる。それで、残る文字のテストにおいて検出され
る重みの差は、ステップ370でのテストの結果という
よりもストリングの配列における制御因子となる。しか
しながら、ストリング1に残る文字の重みについての残
る全てのテストでブランクの重みと比較して同じになる
場合には、ストリング1における文字が全て調べ尽され
ているとき、動作はステップ410へ進む。
そこでは、ステップ170.270又は370の2次比
較テストの結果によって、文字ストリングの出力リステ
ィングにおいてストリング1又はストリング2のいずれ
を先に配置するのかが決まる。
以下のCプログラム言語リスティングは、本発明の上記
論理動作の説明のもう1つの形式をなす。
このリスティングは、第2図乃至第5図の先に説明した
動作に対応する。
o″や #雰            ハ  −−\ \ \ 
\ 蒼 簀  弄  そ \ \ \ \ そ  簀  そ  そ \ \ \ \ 黄  栂  そ  黄 釜 Cで 要するに、比較されている2つの異なる文字ストリング
の対応する文字ペアのいずれかに照合のの重みの差が存
在する限シ、文次の重みを照合するオペレーティング・
システムが信頼できるような技術が説明された。この比
較がなされている間、一致しない対応する文次のベアに
ついての照合重みが最初に同じになることよシ、同じに
なった2つの対応する文字のアスキー・コード値の比較
がトリガされる。そのような同じになることが起きたと
仮定すると、この処理の終了に達した後に対応する文字
の照合重みに差が見出されないなら、それから、一方の
ストリングがより小さなアスキー・コード値の対応する
文字を有するなら、そのストリングはアルファベラ)J
[における他方のストリングに先行すると考えられる。
こうして自動化されたアルファベット化の処理手順が達
成される。この処理手順は、文字ス) IJソング記憶
順序にかかわらず一貫しておシ、可能なときには言語規
約の特色を保ち、そして実質的に余分な計算能力を必要
としない解法を提供する。
本発明はアルファベットの昇順に分類することを参照し
て説明されたが、本発明の原理を用いて降頴に分類する
ことに本発明を同様に適用することができる。
E0発明の効果 本発明によシ、文字ストリングの記憶順序にかかわらず
一貫してい1、d語規約、の特色を保ちながら実質的に
余分な計算能力を必要としない解決を提供する自動化さ
れたアルファベット化処理手順が達成される。
【図面の簡単な説明】
第1図は、本発明の機能を実行するための記憶式フログ
ラムを含むデータ処理システムのブロック図及び第2図
乃至第5図は、本発明の好実施例の動作中に実行される
論理動作のフローチャートである。 出願人  インターナショカル・ビジネス・マシ←Zズ
・コーポレーション代理人 弁理士 頓  宮   孝
  −(外1名)

Claims (1)

  1. 【特許請求の範囲】 第1及び第2文字ストリングの対応する文字のペアにつ
    いて各文字の重みを比較し、 等しい重みを有すると決められた前記対応する文字の最
    初のペアについて文字コードを比較し、前記最初のペア
    に続く対応する文字の全てのペアが等しい重みを有する
    ときには、文字コードが小さい方の対応する文字を有す
    る文字ストリングを、他方の文字ストリングに対して所
    定の順序となるように配置することを含む、文字ストリ
    ングを順序付けるべくコンピュータ・システムを動作さ
    せる文字ストリング処理方法。
JP1058069A 1988-04-08 1989-03-13 文字ストリング処理方法 Pending JPH01286019A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/179,179 US5060146A (en) 1988-04-08 1988-04-08 Multilingual indexing system for alphabetical lysorting by comparing character weights and ascii codes
US179179 1994-01-10

Publications (1)

Publication Number Publication Date
JPH01286019A true JPH01286019A (ja) 1989-11-17

Family

ID=22655554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1058069A Pending JPH01286019A (ja) 1988-04-08 1989-03-13 文字ストリング処理方法

Country Status (4)

Country Link
US (1) US5060146A (ja)
EP (1) EP0336582A3 (ja)
JP (1) JPH01286019A (ja)
BR (1) BR8901643A (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1280215C (en) * 1987-09-28 1991-02-12 Eddy Lee Multilingual ordered data retrieval system
US5072386A (en) * 1989-12-27 1991-12-10 International Business Machines Corporation Method for culturally predictable keysort within a national language support (nls) data processing system
US5077669A (en) * 1989-12-27 1991-12-31 International Business Machines Corporation Method for quasi-key search within a national language support (nls) data processing system
US5218700A (en) * 1990-01-30 1993-06-08 Allen Beechick Apparatus and method for sorting a list of items
US5396588A (en) * 1990-07-03 1995-03-07 Froessl; Horst Data processing using digitized images
WO1993023809A1 (en) * 1992-05-15 1993-11-25 Connective Strategies, Inc. Isdn-based high speed communication system
US5485373A (en) * 1993-03-25 1996-01-16 Taligent, Inc. Language-sensitive text searching system with modified Boyer-Moore process
EP0668558B1 (en) * 1994-01-14 2002-04-17 Sun Microsystems, Inc. Method and apparatus for automating the localization of a computer program
US5675818A (en) * 1995-06-12 1997-10-07 Borland International, Inc. System and methods for improved sorting with national language support
US5926815A (en) * 1995-07-27 1999-07-20 James, Iii; J. Colin Binary sort access method and apparatus
US6794135B1 (en) 1996-03-26 2004-09-21 Oncomedx, Inc. Method for detection of 5T4 RNA in plasma or serum
US6467038B1 (en) * 1999-03-12 2002-10-15 Compaq Information Technologies Group, L.P. Method for supporting optical international language modules flashed into ROM
EP1242456B1 (en) 1999-11-18 2008-10-15 Oxford Biomedica (UK) Limited Scfv antibodies against disease associated molecules
US6614789B1 (en) * 1999-12-29 2003-09-02 Nasser Yazdani Method of and apparatus for matching strings of different lengths
US7130470B1 (en) * 2002-03-15 2006-10-31 Oracle International Corporation System and method of context-based sorting of character strings for use in data base applications
CA2390849A1 (en) * 2002-06-18 2003-12-18 Ibm Canada Limited-Ibm Canada Limitee System and method for sorting data
US7899665B2 (en) * 2004-08-20 2011-03-01 International Business Machines Corporation Methods and systems for detecting the alphabetic order used by different languages
US20060100857A1 (en) * 2004-11-05 2006-05-11 Microsoft Corporation Custom collation tool
US20060101015A1 (en) * 2004-11-05 2006-05-11 Microsoft Corporation Automated collation creation
US20070239738A1 (en) * 2006-03-29 2007-10-11 Harman Robert M Method and apparatus for sorting character strings having complex characters

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6266326A (ja) * 1985-09-19 1987-03-25 Fujitsu Ltd 日本語デ−タ整列処理方式

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US4498148A (en) * 1980-06-17 1985-02-05 International Business Machines Corporation Comparing input words to a word dictionary for correct spelling
FR2490365B1 (fr) * 1980-09-17 1986-11-21 Texas Instruments France Dispositif de visualisation de donnees en des ecritures de natures differentes telles que les ecritures arabe et latine
JPS6028027B2 (ja) * 1981-03-31 1985-07-02 富士通株式会社 韓国語ソ−ト制御方式
US4510567A (en) * 1981-05-18 1985-04-09 International Business Machines Corp. Qualifying and sorting file record data
JPS5840684A (ja) * 1981-09-04 1983-03-09 Hitachi Ltd 自然言語間の自動翻訳方式
US4499555A (en) * 1982-05-06 1985-02-12 At&T Bell Laboratories Sorting technique
US4468756A (en) * 1982-05-20 1984-08-28 Chan Computer Corporation Method and apparatus for processing languages
US4595995A (en) * 1983-02-17 1986-06-17 At&T Bell Laboratories Sort circuit and method using multiple parallel sorts of the sorted items
US4864628A (en) * 1983-08-26 1989-09-05 Texas Instruments Incorporated Method of optical character recognition
JPS6089275A (ja) * 1983-10-21 1985-05-20 Hitachi Ltd 翻訳方式
US4611280A (en) * 1984-03-12 1986-09-09 At&T Bell Laboratories Sorting method
US4731021A (en) * 1984-09-14 1988-03-15 Chan See F Classification language and method
US4882703A (en) * 1984-09-17 1989-11-21 Nicolai Robert L Procedure for fining all words contained within any given word including creation of a dictionary
US4809158A (en) * 1985-10-23 1989-02-28 Mccauley Peter B Sorting method and apparatus
CA1265623A (en) * 1987-06-11 1990-02-06 Eddy Lee Method of facilitating computer sorting
US4873625A (en) * 1987-11-17 1989-10-10 International Business Machines Corporation Method and apparatus for extending collation functions of a sorting program
US4849898A (en) * 1988-05-18 1989-07-18 Management Information Technologies, Inc. Method and apparatus to identify the relation of meaning between words in text expressions

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6266326A (ja) * 1985-09-19 1987-03-25 Fujitsu Ltd 日本語デ−タ整列処理方式

Also Published As

Publication number Publication date
EP0336582A3 (en) 1991-07-24
BR8901643A (pt) 1989-11-21
US5060146A (en) 1991-10-22
EP0336582A2 (en) 1989-10-11

Similar Documents

Publication Publication Date Title
JPH01286019A (ja) 文字ストリング処理方法
US5218536A (en) Electronic spelling machine having ordered candidate words
US5159552A (en) Method for checking the correct and consistent use of units or chemical formulae in a text processing system
US7043492B1 (en) Automated classification of items using classification mappings
US4471459A (en) Digital data processing method and means for word classification by pattern analysis
US8380650B2 (en) Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
US20050171949A1 (en) Method and system for mapping strings for comparison
JPH0816562A (ja) 属性混在文字列のソート装置及び属性混在文字列のソート方法
JPH08255176A (ja) データベースのテーブルを比較する方法及びシステム
Muth Jr et al. Correcting human error in alphanumeric terminal input
US4747053A (en) Electronic dictionary
US5072386A (en) Method for culturally predictable keysort within a national language support (nls) data processing system
US20060041422A1 (en) Methods and systems for detecting the alphabetic order used by different languages
JPS60105039A (ja) 文字列照合方式
CA2390849A1 (en) System and method for sorting data
JP5846658B1 (ja) テキスト比較装置、テキスト比較プログラム及びテキスト比較方法
KR890002957B1 (ko) 한글 문자 입력장치
JP2848430B2 (ja) 情報抽出方法
JP2639314B2 (ja) 文字認識方式
JPS63263589A (ja) 手書き文字認識の侯補文字表示方法及びそれを用いた手書き文字認識装置
JP4195780B2 (ja) プログラム、データ処理システム及び記憶媒体
JP3210842B2 (ja) 情報処理装置
JPS61173379A (ja) スペルチエツク装置
JPS61267824A (ja) 日本語デ−タ整列化処理方式
JPS62143173A (ja) 文字列つづり訂正方法