JPS5822434A - 日本語文章処理システム - Google Patents

日本語文章処理システム

Info

Publication number
JPS5822434A
JPS5822434A JP56120199A JP12019981A JPS5822434A JP S5822434 A JPS5822434 A JP S5822434A JP 56120199 A JP56120199 A JP 56120199A JP 12019981 A JP12019981 A JP 12019981A JP S5822434 A JPS5822434 A JP S5822434A
Authority
JP
Japan
Prior art keywords
data
japanese
document
input
coded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56120199A
Other languages
English (en)
Inventor
Tomonori Suda
須田 智紀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56120199A priority Critical patent/JPS5822434A/ja
Publication of JPS5822434A publication Critical patent/JPS5822434A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は文章石層システムに係り、特に大量の日本語文
章データの保存または転記が必要なシステムに関する◎ 日本語文章を蓄積、検索t7tは電子メールとして送る
場合、データ量の少ないことが望ましい。
従来、日本餠文章処瑠システムでは、日本語文章データ
11文字2バイトの漢字コードで表わしていた。Sバイ
トで表現できる文字種約64000に対し、実際に使用
さnる漢字は約1万であり非常にすきまの多い;−ド化
方式でろ−)九〇他方、文章データは文字の無秩序な並
びではなく、数千〜数万種の決うた文字の並び(単語)
が一定の規則九より配置されたものである。したがって
、従来の漢字コードにエリ日本語文章を表現する方法は
きわめて冗長性が尚く、処理効率が悪匹という欠点があ
った。本発明は、日本語文章の冗長性に着目し、一連の
文字の並び(単語)に対して漢字コードと重複しないよ
うにコードを割り尚て、これと従来の1文字率位の漢字
コードを併用することで、処理対象のデータ量を大量に
減らし、データの格納スペースの節減、データ転送処理
効率の同上を図ることを目的とする。
この目的は日本語文章を処理するシステムに2いて、入
力さnた日本語文章データを、文字種別に部分文字列に
分離する手段と、該分離された一身の部分文字をf供用
の辞沓倉用いてコード化または部分的にコード化する正
変換手段と、該コード化された日本語文章データを保存
、転記その他の処理を行ない、必要に応じて逆変換用の
辞書を用いて元の日本語文章に復元する逆変換手段を設
けたこと1kq!I徴とする日本語文章処理システムに
よって達成される。
本発明は、日本語文章データが漢字、カタカナ、ひらが
な、アルファベット、数字等の混在したものであり、こ
れら文字種別の変化する位置で区切ることにエリ簡単に
部分文字列が得られることを利用する・ 即ち、入力データの個々の文字についてよ記文字種別を
調べ、文字種別が同一の一連の文字全ひとつの部分文字
列として抽出し、この文字コードが辞書に登録さルてい
るかどうか判定し、登録さnていればそのコードに変換
し、登録されていなければもとの漢字コードのtまとす
る方式である・以下本発明を図rkJ′fr使って詳細
に説明するO第1図は本発明の一実施例を示す漢字/単
語コード系を示す図である。
図において、11は漢字コード領域、lIlは単語コー
ド領域、18は制御コード領域、14#i上位バイト、
15ti下位バイトである。
第3図は本発明の一実施例を示す全体のブロック図であ
る。
図において、zOは入出力端末、B1は入出力側御゛部
、gsFi文章データバッファ、88は文字種別判定部
、!4#′i文字種別判定テーブル、115は文章デー
タ圧縮部、16は単語コード変換辞書テーブル、27は
圧縮データバッファ、88はデータ処理S(蓄積、検索
、電子メール処り、29は文章データ伸長部、80は単
語コード逆R換辞書テーブル、81はディスクである。
ここで85゜g6は正変換手段s ′B9e80は逆変
換手段という。
第8図は本発明の一実施例を示す文字種別判定テーブル
を示す図である0図において、88は漢字コードの上位
バイト、88は文字種別である・第4図は本発明の一実
施例を示す単一コード変換辞書を示す図である。図にお
いて41は単語、4怠は単語コードである。
さて、オペレータに1す「日本語文書処理システムは計
算機による事務合理化の決定版です0」という文章が入
出力端末goより入力されると。
入出刃側#fI6slを介して文章データバッファBB
に格納される。
文字種別判定部S8は、文字種別判定テーブルma(8
8図に示す)をもとに尚該文章を以下のlOの部分文字
列に分解する・ 日本語文書処理  文字種別・・・・・・・・・漢  
字システム       l     カタカナは  
         I     ひらがな計算MA  
      l     漢  字による      
 l    ひらがな事務合理化      1   
  漢  字の            l     
 ひらがな決定版         I     漢 
 字です         I     ひらがなI 
記号 文章データ圧11f1mBでは、 *醋コード変換辞薔
テーブル36(纂4図に示す)t−もとに、ごれらを単
FIIi:1−ド化し、圧縮データバッファS7に格納
する。この際、文字列全体が単語コード変換辞書に登録
さnていなくても%部分的にコード化可能なものはコー
ド化し、圧縮効率を高める(例日亭語文書兜理→日本飴
、文書、処理)。
変換結果は次のようになる。
文字列 日本語文書処理  8櫂の単語コード    DD89
文IF  jF    IJI80 処理 I    BO91 システム    システム  jF       58
90は        漢字コードのまま(注)   
ム40F針算4!!      計算機の単語コード 
  7058にL心     によjbz      
 4人6F事務合理化   事務  s      A
178合理化   IF        7i&?9の
         漢字コードのまま(注)   ム4
0B決定版     決定版の単語コード    76
50です      です   a       41
8J1゜        漢字コードのまま(a  A
IA8(注)賜ともと1文字なので単語コード化の意味
Fiない。
これによりs9文字(58バイト)のデータが36バイ
トで表現でき、圧縮率は5511である。
圧縮さnた文章データは讐データ処理部g8を介して保
存、送受信される。逆にデータを出力する場合は、文章
データ伸長sz9にてまずSバイト単位のコードチェッ
クが行われる。もし、単語コードがあれば(下位バイト
がX’ 41 ’〜@h61である・・・・・・l!a
18照)、その部分を単語コード逆R洪辞書テーブル8
0を用いて、尤の文字列にもどす◎こf’LKより最初
に入力さnた文字列が復元され文章データバッファに蓄
えられ、必’IK応じて入出力側@i!BS1を介して
入出力端末IQへ表示したり、印刷することができる。
以上Ii5!明したように本発明に工nば日本語文章デ
ータを効果的に圧縮でき、データの格納容量の節減、電
子メール時のデータ転送量の減少を図A。
転送時間が削減されるという効果がるる。
【図面の簡単な説明】
一ド系を示す図である。 第s図は本発明の一実施例を示す全体のブロック図であ
る。 am11!Jは本発明の一実施例を示す文字種別判定テ
ーブルを示す図である。 第4図は本発明の一実施例を示す単語コード変換辞書を
示す図である◎ 記号の説kJ11go−・−人出カ趨宋、g 1−−−
−−− 入出力側@@、■・・・・・・文章データバッ
ファ、B8・・・・・・文字種別判定部s B 4 ”
””−文字種別判定テーブル、85・・・・・・文章プ
リ圧am%B6・・・用単飴コード変換辞書テーブル、
!I7・・・・・・圧縮データバy7y゛ gg°°°
°°°データ処j1部(蓄積、検索、電子メール処[八
89・・・用文章データ伸畏部、s。 ・・・・・・jIi餠シード逆変換辞薔テーブル、81
・・・・・・ディスク。 第3図 第 4図

Claims (1)

    【特許請求の範囲】
  1. 日本語文章を1IJIfflすゐシステムにおいて、入
    力された日本語文章データを、文字種別に部分文字列に
    分離する手段と、該分離され九個々の部分文字t−変換
    用の辞書を用iてコード化または部分的にコード化する
    正変換手段と、該コード化された日本語文章データを保
    存、転記その他の処理を行ない、必要に応じて逆変換用
    の辞11を用いて元の日本語文章に復元する逆変換手段
    を設けたことを特徴とする日本語文章処理システム。
JP56120199A 1981-07-31 1981-07-31 日本語文章処理システム Pending JPS5822434A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56120199A JPS5822434A (ja) 1981-07-31 1981-07-31 日本語文章処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56120199A JPS5822434A (ja) 1981-07-31 1981-07-31 日本語文章処理システム

Publications (1)

Publication Number Publication Date
JPS5822434A true JPS5822434A (ja) 1983-02-09

Family

ID=14780353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56120199A Pending JPS5822434A (ja) 1981-07-31 1981-07-31 日本語文章処理システム

Country Status (1)

Country Link
JP (1) JPS5822434A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61131952A (ja) * 1984-11-29 1986-06-19 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 電話によるプロセツサ補助通信装置
JPS61232724A (ja) * 1985-04-08 1986-10-17 Nippon Denki Off Syst Kk 文字コ−ドデ−タの圧縮方式
JPS63289667A (ja) * 1987-05-21 1988-11-28 Matsushita Electric Ind Co Ltd 日本語文書編集装置
JPH06131152A (ja) * 1992-04-13 1994-05-13 Compaq Computer Corp セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61131952A (ja) * 1984-11-29 1986-06-19 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 電話によるプロセツサ補助通信装置
JPH0137061B2 (ja) * 1984-11-29 1989-08-03 Intaanashonaru Bijinesu Mashiinzu Corp
JPS61232724A (ja) * 1985-04-08 1986-10-17 Nippon Denki Off Syst Kk 文字コ−ドデ−タの圧縮方式
JPS63289667A (ja) * 1987-05-21 1988-11-28 Matsushita Electric Ind Co Ltd 日本語文書編集装置
JPH06131152A (ja) * 1992-04-13 1994-05-13 Compaq Computer Corp セパレータが無いか少ない言語を表わすコンピュータファイルのためのデータ圧縮方法

Similar Documents

Publication Publication Date Title
JPH11215007A (ja) データ圧縮装置及び復元装置並びにその方法
Nandi et al. A compression technique based on optimality of LZW code (OLZW)
JPS5822434A (ja) 日本語文章処理システム
CN105653506B (zh) 一种基于字符编码转换的gpu内文本处理的方法及装置
JP7247460B2 (ja) 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
Teahan et al. Preprocessing for PPM: compressing UTF-8 encoded natural language text
Anto et al. A Compression System for Unicode Files Using an Enhanced Lzw Method.
Hossain et al. Transliteration based bengali text compression using huffman principle
Awajan et al. Hybrid technique for Arabic text compression
JP2729416B2 (ja) テキストデータの復元方法
JPS58184646A (ja) メツセ−ジ通信方式
US11720760B2 (en) Method of abbreviated typing and compression of texts written in languages using alphabetic scripts
JPH0546358A (ja) テキストデータの圧縮方法
Adubi et al. Syllable-based text compression: a language case study
Shanmugasundaram et al. Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE)
Jrai et al. Improving LZW Compression of Unicode Arabic Text Using Multi-Level Encoding and a Variable-Length Phrase Code
JPH0554077A (ja) 単語辞書検索装置
JPS6382061A (ja) デ−タ圧縮方式
JP4953145B2 (ja) 文字列データ圧縮装置及びその方法並びに文字列データ復元装置及びその方法
CN100410852C (zh) 字处理方法和装置
JPS63263561A (ja) 日本語文の圧縮方法
Hossain et al. Performance improvement of bengali text compression using transliteration and huffman principle
JP2004013680A (ja) 文字コード圧縮・復元装置および同方法
JPH04167821A (ja) データ符号化及び復号化方法
JPS61232724A (ja) 文字コ−ドデ−タの圧縮方式