JPS6081639A - 項目整列方式 - Google Patents

項目整列方式

Info

Publication number
JPS6081639A
JPS6081639A JP58187716A JP18771683A JPS6081639A JP S6081639 A JPS6081639 A JP S6081639A JP 58187716 A JP58187716 A JP 58187716A JP 18771683 A JP18771683 A JP 18771683A JP S6081639 A JPS6081639 A JP S6081639A
Authority
JP
Japan
Prior art keywords
file
japanese
sort
record
keys
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58187716A
Other languages
English (en)
Inventor
Hiroshi Tarumi
樽見 広志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP58187716A priority Critical patent/JPS6081639A/ja
Publication of JPS6081639A publication Critical patent/JPS6081639A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は、日本語項目を所定の順序、例えば五十音順に
ノートする項目整列方式に関する。
従来技術 一般に、コンピュータ等のデータ処理装置で日本語項目
を扱う場合、その項目を所定のコードに変換し、これを
並べた項目として取り扱う。
例えば、日本語項目が漢字で表わされる場合は、その項
目を、Hs C6226(情報交換用漢字符号系)に基
づいたコードデータ(漢字コード)に変換し、また、項
目が漢字を含まないとき等の場合は、その項目をJIS
 C6220(情報交換用符号)に基づいたコードデー
タに変換してレコードを形成し、このレコード単位でデ
ータ処理が行々われる。
データ処理装置で日本語項目からなるファイルの内容を
五十音順に整列(ソート)する場合には、上記したコー
ドからなるレコードを小さい順に並べ換える。
例えば、「百葉箱(ひやくようばこ)、鼻薬(びやく)
、白夜(びやくや)、日向(ひなた)・飛躍(ひやり)
」という5つのレコードからなるファイルの内容をJI
SC6226の漢字コードで表わしてソートした結果を
第1表に、JISC6220のコードで表わした結果を
第2表に、そして、通常の国語辞書での並び方を第3表
にそれぞれ示す。
第1表 第2表 第3表 このように、従来のソート方法では、ノートしたファイ
ル中でのレコードの並び方が国語辞書の語順と異なシ、
読みにくいという不都合を生じていた。
目的 本発明はこのような従来技術の欠点を解消し、ソートし
たファイル中でのレコードの並び方が国語辞書の語順に
一致するような項目整列方式を提供することを目的とす
る。
構成 本発明の構成について以下、一実施例に基づいて説明す
る。
第1図は、本発明に係る項目整列方式を実現するデータ
処理装置の実施例を機能ブロックで示したものである。
同図において、ブロックlはソートする前の元データフ
ァイル、2は元データファイル1をなす各レコードから
日本語データを抽出する日本語データ抽出部、3は日本
語データに基づいて後述する方法でソートキーを生成す
るソートキー生成部、4はソートキー生成部3で生成さ
れたソートキーからなる作業ファイル、5は作業ファイ
ル4の内容を所定のソート方法(ルール)によって並べ
替えて作業ファイル6を作成するソート部、7は元デー
タファイルlのレコードを作業ファイル6のソートキー
の並びと同様に並び替えてソート済ファイル8を作成す
るレコード並び替え部、および9はソート済ファイル8
の内容を表示する表示部を示す。
なお、これらの要素のうち元データファイル1、作業フ
ァイル4および6、ソート済ファイル8は通常、データ
処理装置における補助記憶装置で実現され、日本語抽出
部2、ソートキー生成部3、ソート部5およびレコード
並べ替え部7は通常、データ処理装置の中央処理装置と
プログラムを記憶した記憶装置で実現される。
元データファイル1を形成するレコードのフォーマット
例を第2図に示す。レコード長はlバイト、レコードの
先頭から日本語データ項目30までの隔たりはmバイト
、日本語データ項目30の長さはnバイトである。
また、日本語データ項目30は本実施例ではJIS06
226の漢字コードで表わされている。
したがって漢字コードは、1つが2・ぐイトの長さを持
つから、この日本語データ項目30の文字数はn/2で
ある。
先頭のmバイト部分32の中には、このレコードを識別
するだめのレコード番号を含んでいる。
ソートキー34のフォーマットを第3図に示す。ソート
キー34は、読みがな部36、文字属性部38およびレ
コード番号40からなる。
読みがな部36は、日本語データ項目30の読みを、濁
音、半濁音、清音の区別をせず、また、「や」、「ヨ」
、「つ」 等の小さい文字(拗音および促音)と通常の
文字を区別せず、さらに・ひらがな、かたかなの区別を
しない文字として、所定のコード北側、たとえばJIS
C6220で表わしたものである。
文字属性部38は、読みがなの各文字の属性を、次の第
4表に従ってJISC6220で表現したコードを収容
する。また、空白および「−」(長音)のように属性の
ない文字には[−〇」のコードを割シ当てる。
第4表 いま、第4図(a)に示したような6つのレコードから
なる元データファイルlをソートすることを考える。こ
れらのレコードには図の上から順にレコード番号が付さ
れている。
第5図に示したように、まず日本語データ抽出部2が元
データファイル1からレコード番号順に1件レコードを
入力する(処理11)。元データファイル1からレコー
ドをすべて読み出すまでは判断12の結果がNoであシ
、日本語データ抽出部2は読み出したレコードに含まれ
る日本語データ項目を抽出してレコード番号とともにソ
ートキー生成部3へと送る。すなわち、例えば日本語デ
ータ項目「百葉箱」とともにレコード番号ro001J
がソートキー生成部3に送られる。
ソートキー生成部3ば、はじめに日本語データ項目の読
みがなを作成し、上述したようなソートキーを生成する
(処理14)。例えば、日本語データ項目「百葉箱」に
ついては、そのソートキーの読みがな部は「ヒヤクヨウ
ハコ」に対応するJISC6220のコードからなシ、
文字属性部はr 42444640 Jのコードからな
り、レコード番号はroooljのコードからなる。
そして、生成したソートキーを作業ファイル4の所定の
領域に記憶する(処理15)。
以上の処理11.13.14および15を元データファ
イルlの全レコードに対して実行すると、判断12の結
果がYESとなシ、したがって、作業ファイル4には第
4図(b)に示しだような順序のソートキーからなるフ
ァイルが形成される。
次いで、ノート部5は作業ファイル4の各レコード(ノ
ートキー)を、所定のコード北側、すなわち本実施例で
は周知のJISC6220のコードからなるレコードを
ソートするルールに従ってノートする(処理16)。そ
の際、各ソートキーの読みがな部と文字属性部を連続し
た1つのレコードとみなし、かつ、読みがな部の第1桁
(最左桁)を最上位桁とみる。
このソート結果は作業ファイル6に記憶され、これによ
υ作業ファイル6には第4図(c)に示したような順序
のソートキーからなるファイルが形成される。
そこで、レコード並べ警部7は並んだ順に1件づつソー
トキーを作業ファイル6から読み出しく処理17)、ソ
ートキーのレコード番号を抽出して(処理19)、元デ
ータファイル1のレコードのうちこのレコード番号と同
じレコード番号をもつものを読み出してノート済ファイ
ル8に記憶する(処理20)。
作業ファイル6の全ソートギーについて処理17.19
および20が実行されて判断18の結果がYESとなシ
、すべての処理が終了した時点で、第4図(C)に示し
たような順序のレコードからなるファイルがソート済フ
ァイル8に形成される。
このソートファイル8の内容は、表示部9で第6図に示
したように表示される。
以上の処理によって、日本語データ項目は前述した第3
表の国語辞書の語順と同じ語順に配列される。
なお、上述の実施例ではソートキーの読みがな部をJI
SC6220のコードで表わしたが、このコード体系で
は「を」に「あ」よりも小さいコードが割シ当てられて
いるだめ、「を」を含む日本語データ項目を適正にソー
トできないことがある。そこで、50音順を正確に表わ
しだ他のコード体系を読みがな部に適用することで、「
を」を含んだ日本語データ項目も、上述した実施例と同
様の手順で国語辞書と同様な語順にソートできる。
効果 本発明によれば、読みがな部と文字属性部からなるソー
トキーを設けることに」ニジ、日本語データ項目を国語
辞書と同じ語順に配列することができるという利点を得
る。
【図面の簡単な説明】
第1図は本発明の一実施例に係る項目整列方式を実現す
るデータ処理装置の実施例を示した機能ブロック図、 第2図はレコードのフォーマット例を示す模式図、 第3図はソートキーのフォーマツ1゛例を示す模式図、 第4図(a)は元データファイルの内容の一例を示す模
式図、 同図(b)は作業フッイル4の内容の一例を示す模式図
、 同図(c)は作業ファイル6の内容の一例を示す模式図
、 同図(d)はノート済ファイル8の内容の一例を示す模
式図、 第5図は第1図に示すデータ処理装置によるソート手順
の例を示したフローチャート、第6図は表示部の表示例
を示す模式図である。 主 部分の、−号の説明 1・・・元データファイル 2・・・日本語データ抽出部 3・・・ソートキー生成部 4.6・・・作業ファイル 5・・・ソート部 7・・レコード並べ替え部 8・・・ソート済ファイル 9・・・表示部 特許出願人 株式会社 リ コー 氷/図 筑2図 2J>3 凹 幕4 図 (a) 葬25 図 本ろ 図 手続者l]三書 11?1和59年3月3日 特許庁長官 若松和犬 殿 1、事件の表示 昭和58年特許願第187716号 2、発明の名称 項目整列方式 3 補正をする者 事件との関係 特許出願人 住 所 東京都大田区中馬込1丁[]33番613名 
称 株式会社 リ コ − 4、代理人 住所〒105 東京都港区虎ノ門1−13−4 5、補正q対象 (1)明細書の「発明の詳細な説明」の欄(2)図面 ・l l−1tj、 :曵1、− 6、補正の内容 (1)明細書第2頁第13行の 「コードからなるレコードな」を 「コートで読みを表現した項目のあるコートを」に訂正
する。 (2)同第2頁第18行〜第19行の 「漢字コードで」を 「コードで読みを」に訂1Fする。 (3)同第2頁第20行の 「コードで表わした」を 「コードで読みを表わした」に訂正する。 (4)同第6頁第 1行の 「漢字コードで」を 「コードで読みか」に訂正する。 5)同第6頁第5行〜第7行の 「先頭の10.含んでいる。」を削除する。 (6)同第8頁第2行および第8行の 「百葉箱」を 「ひりくようばこ」に訂正する。 (7)願書に添付した図面の第4図を本手続補正書に添
4=Jの差替12面(第4図)と差し科える。 7 添イq書類の目録 (1)差替図面(第4図) 1通 第4図

Claims (1)

  1. 【特許請求の範囲】 複数の日本語項目を五十音順に整列する項目整列方式に
    おいて、該方式は、 前記複数の日本語項目のそれぞれの読みを所定のコード
    北側に従って示す読みデータ、および該読みデータの属
    性を示す属性データを各日本語項目ごとに生成し、 前記所定のコード北側に基づいて、該生成した読みデー
    タおよび属性データに従って該日本語項目を五十音順に
    整列することを特徴とする項目整列方式。
JP58187716A 1983-10-08 1983-10-08 項目整列方式 Pending JPS6081639A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58187716A JPS6081639A (ja) 1983-10-08 1983-10-08 項目整列方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58187716A JPS6081639A (ja) 1983-10-08 1983-10-08 項目整列方式

Publications (1)

Publication Number Publication Date
JPS6081639A true JPS6081639A (ja) 1985-05-09

Family

ID=16210921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58187716A Pending JPS6081639A (ja) 1983-10-08 1983-10-08 項目整列方式

Country Status (1)

Country Link
JP (1) JPS6081639A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04115325A (ja) * 1990-09-06 1992-04-16 Hitachi Inf Syst Ltd 文字コードのソート方式
JP2001125915A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04115325A (ja) * 1990-09-06 1992-04-16 Hitachi Inf Syst Ltd 文字コードのソート方式
JP2001125915A (ja) * 1999-10-28 2001-05-11 Fujitsu Ltd 情報検索装置

Similar Documents

Publication Publication Date Title
US20020169763A1 (en) Method and system for expanding document retrieval information
McMahon et al. Unix time-sharing system: Statistical text processing
JPWO2008018287A1 (ja) 検索装置及び検索データベース生成装置
JPS6081639A (ja) 項目整列方式
JPS60176169A (ja) 文章処理装置
JPH0612548B2 (ja) 文書処理装置
JP2634926B2 (ja) かな漢字変換装置
JPH0944521A (ja) インデックス作成装置および文書検索装置
JP3022079B2 (ja) 全文データベースシステム
JPH0664572B2 (ja) 辞書作成装置
JPH0227423A (ja) 日本語文字データの並び換え方法
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPS62115519A (ja) 住所データ印字装置
JPH05181719A (ja) 可変長データの格納および参照システム
JPS60150169A (ja) 電子式単語辞書
JPS63229563A (ja) 索引作成方式
JPH0344334B2 (ja)
JPH0338786A (ja) 文字認識処理装置
JPS62266616A (ja) 文書作成装置における葉書連続印刷方式
JPS6175467A (ja) 仮名漢字変換方式
JPS60189071A (ja) 電子式辞書
JPS6229833B2 (ja)
JPH02311952A (ja) かな漢字変換装置
JPS58101326A (ja) カナ漢字変換処理装置
Bright Introduction to Handbook of American Indian Languages