JPH08328825A - 日本語順列編成方法 - Google Patents

日本語順列編成方法

Info

Publication number
JPH08328825A
JPH08328825A JP7132441A JP13244195A JPH08328825A JP H08328825 A JPH08328825 A JP H08328825A JP 7132441 A JP7132441 A JP 7132441A JP 13244195 A JP13244195 A JP 13244195A JP H08328825 A JPH08328825 A JP H08328825A
Authority
JP
Japan
Prior art keywords
code
japanese
permutation
jis8
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7132441A
Other languages
English (en)
Inventor
Atsushi Ohashi
淳 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7132441A priority Critical patent/JPH08328825A/ja
Publication of JPH08328825A publication Critical patent/JPH08328825A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 日本語順列をソートするとき、JIS8コー
ドで記述された日本語コードを専用コード変換テーブル
を用いてコード変換し、読み順列に一致する日本語順列
に編成する。 【構成】 日本語順列300を入力し(ステップ1)、
JIS8コード302を専用コード変換テーブル200
を用いてコード変換を行う(ステップ2)。変換後のコ
ードに基づいて、専用コード402を再ソートし、読み
がなに適切な順列が得られる(ステップ3)。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は日本語順列編成方法に
関し、特にコード化日本語を読み順に並び換える日本語
順列編成方法に関する。
【0002】
【従来の技術】従来の日本語順列の日本語順列のソート
において、読みがなをJIS8コード、あるいはシフト
JISコードで表わして、コード順にソートする方法を
とっている。JIS8コードによる日本語順列を例示す
る図3(a)を参照すると、「読みがな」301の列の
「ヴィーナス」303,「コース」305,「コイヌ」
307,「マッチ」309,「マグロ」311の各日本
語は、「読みコード(JIS8)」302によって順列
させられて、日本語順列の見出し語順となっている。そ
の結果、「ヴ」をハ行の読みとすると、「ヴィーナス」
301は「コース」305および「コイヌ」307と読
みがなの順列が逆転し、また、「マッチ」309と「マ
グロ」311が読みがなの順列が逆転している。日本語
の読みがなによって検索するとき、日本語順列の逆転は
好ましくない。
【0003】
【発明が解決しようとする課題】従来の日本語の読みが
なのコードとして、JIS8コードあるいはシフトJI
Sコードを使用し、それのコード順に日本語がソートさ
れていたため、それぞれ以下のような問題点があった。
【0004】長音(−)が「アイウエオ…」よりも前
にあるため、ソート結果が不適切となる。
【0005】JIS8コードでは「ヲ(A6)」が
「アイウエオ…」よりも前にあるため、ソート結果が不
適切となる。
【0006】JIS8コードでは拗促音「ァ,ィ,
ゥ,ェ,ォ,…」が「ア,イ,ウ,エ,オ…」よりも前
にあるため、ソート結果が不適切となる。
【0007】JIS8コードでは濁点および半濁点が
単独の1バイトを要し、「ン(DD)」よりも後ろにあ
るため、ソート結果が不適切となる上、データバイト数
が1バイト余計に必要となる。
【0008】シフトJISコードでは「ヴ(839
4)」が「ン」よりも後ろにあるため、ソート結果が不
適切となる。
【0009】
【課題を解決するための手段】この発明の目的は、JI
S8コードによって、ソートされた日本語順列を読みが
な順列に一致させるためJIS8コードを専用コードで
再変換し、読みがな順とコード順を一致させる日本語順
列編成方法の提供である。
【0010】このため、この発明の方法は、日本語の読
みがなをJIS8コードに変換してJIS8コード順に
ソートする日本語順列編成方法において、JIS8コー
ドでソートされた日本語順列を入力するステップと、前
記日本語のJIS8コードを専用コード変換テーブルに
よって再変換し、専用コード化日本語を取得するステッ
プと、前記専用コード化日本語を前記専用コードによっ
てソートして日本語順列を得るステップと、を含む。
【0011】また、前記専用コード変換テーブルは、列
および行のセルを0からFの16進コードの番号で表わ
し、列番号および行番号で定まるセルに五十音のJIS
8コードを割当ててなるコードテーブルの、セル40か
ら昇順に4番おきに五十音の清音を割り当て、清音がヴ
を除く濁音を有するとき、清音のセルの一つ昇順のセル
に濁音を割当て、清音が半濁音または拗音あるいは促音
を有するとき、清音のセルの二つ昇順のセルに半濁音ま
たは拗音あるいは促音を割当て、長音の前の文字の母音
がアであるとき、長音をセル43に割当て、長音の前の
文字の母音がイであるとき、長音をセル47に割当て、
長音の前の文字の母音がウであるとき、長音をセル4B
に割当て、長音の前の文字の母音がエであるとき、長音
をセル4Fに割当て、長音の前の文字の母音がオである
とき、長音をセル53に割当て、ヴをセルAFに割当て
ることを特徴とする。
【0012】
【実施例】次に、この発明について図面を参照して説明
する。
【0013】この発明の方法の一実施例を示すフローチ
ャート図1を参照すると、JIS8コードの日本語順列
を入力するステップ1と、専用コード変換テーブルによ
ってJIS8コードを変換するステップ2と、変換後の
コードによってコード順にソートするステップ3と、を
含む。
【0014】更に、専用コード変換テーブルによるコー
ド変換処理は、16進コードのJIS8コードによって
実施されるが、理解を容易にするため、JIS8コード
に代えて五十音表記専用コード変換テーブル200でも
って説明する。図2に示す五十音表記専用コード変換テ
ーブル200は16進コードの列番号および行番号で定
まるセル「40」を五十音のアに割当て、以降五十音の
清音を4つ昇順のセルに順次割当てて、「ヴ」を除く濁
音を清音の次の昇順のセルに割当て、清音の半濁音ある
いは拗音または促音を清音の二つ目の昇順のセルに割当
て、長音の前の文字の母音「ア」,「イ」,「ウ」,
「エ」,「オ」のそれぞれに応じて長音をセル「4
3」,セル「47」,セル「4B」,セル「4F」,セ
ル「53」にそれぞれ割当て、「ヴ」をセル「AF」に
割当てるコード表である。
【0015】次に、図1のフローチャートと、図2の五
十音表記専用コード変換テーブル200によって、この
実施例の方法を説明する。頻繁に現れる5項目の日本語
順列を図3(a)に例示する。日本語順列300は、読
みがなコード301とそれのJIS8コード302で表
される。日本語順列300は、JIS8コード順にソー
トされた状態で入力される(ステップ1)。日本語順列
のJIS8コード302をテーブル200を参照して変
換する。JIS8−ード302の変換後の読み401お
よび専用コード402を図3(b)に示す(ステップ
2)。「マグロ」311は、JIS8コード「CF,B
8,DE,DB」312が、変換後専用コード「B8,
5D,E8」412になり、4バイトが3バイトで1バ
イト減っている。
【0016】変換後の専用コード402をコード順にソ
ートし直す(ステップ3)。再ソート後の日本語順列5
00を図3(C)に示す。読みの部分501乃至511
の順列をみると、「ヴーナス」は「コース」の次に、
「マッチ」は「マグロ」の次にそれぞれ入れ替えられ
て、五十音の読み順にソートされ、逆転のないことが確
認できる。なお、“ヴ”はバ行の扱いとしている。
【0017】以上の説明で、専用コード変換テーブルに
よる変換をを五十音表記で説明したが、情報処理におい
ては五十音文字でなくJIS8コードで処理されれこと
は当然である。
【0018】この実施例では日本語の読みがなによるソ
ートの例を挙げたが、専用コード変換テーブル200に
アルファベットおよびアラビア数字も同時に定義するこ
とにより、英語の読みおよび数字を含んだ順列にも適用
できることは明らかである。
【0019】
【発明の効果】以上説明したようにこの発明によれば、
日本語順列編成のソートにおいて、専用コード変換テー
ブルを用いて、読みがなコードのJIS8コードを変換
し、再ソート後の日本語順列が読みがなに対して適切な
順列になる。
【0020】また、この発明によれば、専用コード変換
により一部濁点を含む2バイトのJIS8コードを1バ
イトに圧縮できるため、日本語コードとしてのデータバ
イト数を少なくすることができる。
【図面の簡単な説明】
【図1】この発明の方法を示すフローチャートである。
【図2】図1の専用コード変換テーブルを五十音表記で
示す図である。
【図3】分図(a),(b),(c)は、それぞれ、J
IS8コードによる日本語順列,専用コード変換による
コード変換,コード変換後の再ソートの日本語順列を例
示する図である。
【符号の説明】
200 専用コード変換テーブル(五十音表記)

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 日本語の読みがなをJIS8コードに変
    換してJIS8コード順にソートする日本語順列編成方
    法において、 JIS8コードでソートされた日本語順列を入力するス
    テップと、 前記日本語のJIS8コードを専用コード変換テーブル
    によって再変換し、専用コード化日本語を取得するステ
    ップと、 前記専用コード化日本語を前記専用コードによってソー
    トして日本語順列を得るステップと、 を含むことを特徴とする日本語順列編成方法。
  2. 【請求項2】 前記専用コード変換テーブルは、 列および行のセルを0からFの16進コード番号で表わ
    し、列番号および行番号で定まる所定のセルに五十音の
    JIS8コードを割当てるコードテーブルの、セル40
    から昇順に4番おきに五十音の清音を割り当て、清音が
    ヴを除く濁音を有するとき、清音のセルの一つ昇順のセ
    ルに濁音を割当て、清音が半濁音または拗音あるいは促
    音を有するとき、清音のセルの二つ昇順のセルに半濁音
    または拗音あるいは促音を割当て、長音の前の文字の母
    音がアであるとき、前記長音をセル43に割当て、長音
    の前の文字の母音がイであるとき、前記長音をセル47
    に割当て、長音の前の文字の母音がウであるとき、前記
    長音をセル4Bに割当て、長音の前の文字の母音がエで
    あるとき、前記長音をセル4Fに割当て、長音の前の文
    字の母音がオであるとき、前記長音をセル53に割当
    て、ヴをセルAFに割当てることを特徴とする請求項1
    記載の日本語順列編成方法。
JP7132441A 1995-05-30 1995-05-30 日本語順列編成方法 Pending JPH08328825A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7132441A JPH08328825A (ja) 1995-05-30 1995-05-30 日本語順列編成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7132441A JPH08328825A (ja) 1995-05-30 1995-05-30 日本語順列編成方法

Publications (1)

Publication Number Publication Date
JPH08328825A true JPH08328825A (ja) 1996-12-13

Family

ID=15081446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7132441A Pending JPH08328825A (ja) 1995-05-30 1995-05-30 日本語順列編成方法

Country Status (1)

Country Link
JP (1) JPH08328825A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227423A (ja) * 1988-07-18 1990-01-30 Oki Electric Ind Co Ltd 日本語文字データの並び換え方法
JPH04115325A (ja) * 1990-09-06 1992-04-16 Hitachi Inf Syst Ltd 文字コードのソート方式
JPH06259226A (ja) * 1993-03-04 1994-09-16 Nec Software Ltd データソート方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0227423A (ja) * 1988-07-18 1990-01-30 Oki Electric Ind Co Ltd 日本語文字データの並び換え方法
JPH04115325A (ja) * 1990-09-06 1992-04-16 Hitachi Inf Syst Ltd 文字コードのソート方式
JPH06259226A (ja) * 1993-03-04 1994-09-16 Nec Software Ltd データソート方法

Similar Documents

Publication Publication Date Title
US6094633A (en) Grapheme to phoneme module for synthesizing speech alternately using pairs of four related data bases
RU99118670A (ru) Способ расширения активного словаря распознавателей речи методом сегментации
US5208863A (en) Encoding method for syllables
KR20010025857A (ko) 외래어 음차표기 유사도 비교 방법
KR20020005709A (ko) 휴대형 문자 입력 장치
JPH08328825A (ja) 日本語順列編成方法
JPH10269204A (ja) 中国語文書自動校正方法及びその装置
JPH0227423A (ja) 日本語文字データの並び換え方法
JPH03210627A (ja) 電子計算機
JPS61267824A (ja) 日本語デ−タ整列化処理方式
JPH04127199A (ja) 外国語単語の日本語発音決定方法
JP2976682B2 (ja) 言語再生装置
JPS62121570A (ja) 接続確率に基づく連文節変換処理方式
JPH0778155A (ja) 文書認識装置
JPS61177575A (ja) 日本語文章作成装置
JPH0338772A (ja) 文字コードデータの圧縮方式
JPS63140366A (ja) 漢字変換装置
JPH04114278A (ja) 文字列比較方式
JPH05341961A (ja) 整列のカストマイズ方法
JPH0350292B2 (ja)
JPH01241671A (ja) アルファベット―カタカナ変換方式
JPS62222359A (ja) 音声入力ワ−ドプロセツサ
JPS6159400A (ja) 音声合成装置
JPS62229367A (ja) 中文辞書装置
Lehal A Gurmukhi Collation Algorithm

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19970805