JPH0664572B2 - 辞書作成装置 - Google Patents

辞書作成装置

Info

Publication number
JPH0664572B2
JPH0664572B2 JP59003288A JP328884A JPH0664572B2 JP H0664572 B2 JPH0664572 B2 JP H0664572B2 JP 59003288 A JP59003288 A JP 59003288A JP 328884 A JP328884 A JP 328884A JP H0664572 B2 JPH0664572 B2 JP H0664572B2
Authority
JP
Japan
Prior art keywords
kanji
dictionary
input
counting
kanji dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59003288A
Other languages
English (en)
Other versions
JPS60147868A (ja
Inventor
美和子 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP59003288A priority Critical patent/JPH0664572B2/ja
Publication of JPS60147868A publication Critical patent/JPS60147868A/ja
Publication of JPH0664572B2 publication Critical patent/JPH0664572B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Description

【発明の詳細な説明】 〔発明の技術分野〕 この発明は分野別又は個人用の既存の資料を利用して、
これらに最適な漢字辞書を作成する辞書作成装置に関す
る。
〔発明の技術的背景とその問題点〕
最近、ワードプロセッサは広い分野にわたり使用されて
いるが、これに用いられる漢字辞書は平均的なオフィス
などで使用されるのに最適なように作成されている。
したがって、このような漢字辞書は例えば医療分野のよ
うな特殊分野ではそのまま使用することができず、そこ
で従来このような分野に最適な漢字辞書は別個に作成す
るようにしている。
ところがこのような特殊辞書は例えば辞書作成担当者が
人海戦術をもって文献や診断書などの関連資料をもとに
手作業にて作成するようにしているためかかる作業に多
大の人手と手間がかかる欠点があり、このためこのよう
な漢字辞書を各分野について整備することなど到底不可
能であった。
一方、個人用漢字辞書についてはワードプロセッサに所
謂学習機能が付加されていると、使用にともなう辞書の
使い易さの向上とともに実現可能であるが、実際にはワ
ードプロセッサはオフィスなどにおいてはいろいろな部
署の人が使用するので学習機能が有効に生かされず、こ
のため個人的に有用な漢字辞書の作成も現実は困難であ
った。
ところで、個人が実際に使用する漢字は高々数千語と言
われており、したがってこの数を登録した辞書があれば
変換速度や変換率が向上するが、現状ではこのような個
人用辞書を提供する手段も全く見当らない。
〔発明の目的〕
この発明の上記事情に鑑みてなされたもので、分野別又
は個人別に最適な漢字辞書を簡単に作成することができ
る辞書作成装置を提供することを目的とする。
〔発明の概要〕
この発明は、分野別又は個人用の既存の資料が入力され
る入力手段と、多数の漢字とともにこれら漢字の出現頻
度を記憶した漢字辞書と、この漢字辞書より上記入力手
段の入力に対応した漢字を検索する漢字かな変換手段
と、上記入力手段より与えられる入力中の漢字の出現回
数をカウントする計数手段と、この計数手段のカウント
結果を前記漢字辞書に記憶された出現頻度に関係づけて
同音異義語の順序を決定した新規の漢字辞書を作成する
手段とにより構成されている。
〔発明の効果〕
この発明によれば、新規に同音異義語の順序を決定する
のに、過去の実績として漢字辞書に記憶されている漢字
の出現頻度をベースにして新たに入力される分野別又は
個人用の既存の資料中の漢字の出現回数のカウント結果
を加味するようになるので、このカウント結果により次
第に同音異義語の順序が固まっていき、分野別又は個人
用の既存の資料中の漢字の出現頻度を大幅に盛り込んだ
分野別又は個人用として有用な新しい漢字辞書を簡単に
得られる。しかも、既存の漢字辞書としては、その記憶
された漢字の出現頻度がそのまま保存されているので、
その後、通常の使用に戻った場合も、従前通りの漢字の
出現頻度を記憶した漢字辞書として使用することができ
る。
〔発明の実施例〕
以下、この発明の一実施例を図面に従い説明する。
第1図において、1は入力装置で、この入力装置1は分
野別又は個人用の既存の資料例えば漢字かな混り文書が
記憶された磁気テープあるいはフロッピーディスクなど
の外部記憶媒体よりコード化された文書データを入力す
るものである。2は漢字辞書で、この辞書2は多数の漢
字を記憶した既成の例えばフロッピーベースのものが用
いられる。3は漢字かな変換装置で、この装置3は入力
装置1より入力された文書コード例えばJISコードなど
で表現された漢字と漢字辞書2の内容との対応ずけを行
なうためのものである。そして、これら入力装置1,漢
字辞書2,漢字かな変換装置3にはこれら間の情報変換
を制御するCPU4を接続している。この場合、漢字辞書
2には、検索対象となった漢字の出現回数をカウントす
る計数装置6を設けている。また、CPU4には、新規な
辞書内容を記憶する新漢字辞書7を接続している。ここ
で、入力装置1には、OCRを用いてもよい。
次に、その作用を説明する。
いま、入力装置1より文書データとして例えば「…の会
葬は…」に対応するJISコード「0446/1881/3382/044
7」が入力されたとすると、CPU4はJISコードの上位1
桁が0のものは漢字でないことを知っているのでこのと
きのコード列より漢字コード「1881/3382」(会葬)の
みが抽出され、これが漢字かな変換装置3に送られる。
すると、漢字かな変換装置3にて第2図に示す方法によ
り漢字辞書2の内容との対応ずけが行なわれる。まず、
コード「1881」により第1変換が行なわれ、これにより
コード「1881」(会)に対応する熟語が「会する」から
「会話」まであることがポインタにより示される。ま
た、コード「1881」に続くコード「3382」により第2次
変換が行なわれる。この場合、第2次変換ではすべての
熟語に対応する漢字辞書2上のポインタが記憶されてお
りコード「3382」(葬)にもとづくサーチが行なわれ、
漢字辞書2中の「かいそう/会葬」とが対応ずけられ
る。
ここで、入力装置1より入力される入力コードが例えば
「1881/2136/3076/2974」(会議場所)である場合、
漢字かな変換装置3の第2次変換において「2136/000
0」(会議)が部分的に整合するが、次をサーチすると
「2355/0000」(会計)となり整合しない。そこで、こ
のようなときはポイントを1つ前に戻し「2136/0000」
(会議)に対応する漢字辞書2へのポインタを得、次い
で残りのコード「3076/2974」(場所)について同様に
サーチをするようにする。
また、入力コードが「1881/2355/2746」(会計士)で
ある場合、漢字かな変換装置3の第2次変換において
「2355/0000」(会計)に部分的に整合するが、次をサ
ーチすると「2355/2746」(会計士)となり完全に一致
するので、これに対応する漢字辞書2へのポインタが得
られる。
このようにして入力装置1より文書コードが入力される
と、このコードをもとに漢字辞書2をサーチする。そし
て検索対象となった漢字があると、この漢字に対応する
頻度をそのままにして計数装置6のカウントを増加して
いく。例えば大量に文書データを処理したところ第3図
に示すようなカウント結果が得られたとすると、CPU4
にて例えば第6図のカウント結果をもとに、このうちで
カウント数0のものを除いて第4図(a)に示すようにカ
ウント数の多い順に同音異義語を並べこれらを新漢字辞
書7に書き込む。この場合、第4図(b)に示すように頻
度とカウント数の和をもとに例えば30以下のものを除い
てこれらを上述同様に並べ新漢字辞書7に書き込むよう
にしてもよく、また第4図(c)に示すように頻度とカウ
ント数の和が30以下又はカウント数が0のものを除い
て、これらを上述同様に並べ新漢字辞書7に書き込むよ
うにしてもよい。このようにすれば、新規に同音異義語
の順序を決定するのに、過去の実績として漢字辞書に記
憶されている漢字の出現頻度をベースにして新たに入力
される分野別又は個人用の既存の資料中の漢字の出現回
数のカウント結果を加味するようになるので、このカウ
ント結果により次第に同音異義語の順序が固まってい
き、分野別又は個人用の既存の資料中の漢字の出現頻度
を大幅に盛り込んだ分野別又は個人用として有用な新し
い漢字辞書を簡単に得られる。しかも、既存の漢字辞書
としては、その記憶された漢字の出現頻度がそのまま保
存されているので、その後、通常の使用に戻った場合
も、従前通りの漢字の出現頻度を記憶した漢字辞書とし
て使用することができる。
なお、この発明は上記実施例にのみ限定されず要旨を変
更しない範囲で適宜変形して実施できる。例えば上述で
は入力データとしてJISコードを用いているがASCIIコー
ドの入力を用いることもできる。また、例えば漢字辞書
の形態は、第6図もしくは第7図のような一次元の形態
に限定されるものでなく、ネットワーク構造や木構造な
どの二次元以上の形態を取ることも可能である。さら
に、文書中に出現した回数を用いた辞書の作成は、一度
だけでなく、ワードプロセッサの使用時にも適宜行うよ
うにすることも可能である。さらにまた、既成の漢字辞
書には必ずしも出現頻度を具備している必要はなく、単
に表示順序に沿って配列されるだけの形態も可能であ
る。
【図面の簡単な説明】
第1図はこの発明の一実施例を示す概略的構成図、第2
図、第3図および第4図(a)(b)(c)は同実施例を説明す
るための図である。 1…入力装置、2…漢字辞書 3…漢字かな変換装置、4…CPU 5…OCR、6…計数装置 7…新漢字辞書

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】分野別又は個人用の既存の資料が入力され
    る入力手段と、 多数の漢字とともにこれら漢字の出現頻度を記憶した漢
    字辞書と、 この漢字辞書より上記入力手段の入力に対応した漢字を
    検索する漢字かな変換手段と、 上記入力手段より与えられる入力中の漢字の出現回数を
    カウントする計数手段と、 この計数手段のカウント結果を前記漢字辞書に記憶され
    た出現頻度に関係づけて同音異義語の順序を決定した新
    規の漢字辞書を作成する手段とを具備したことを特徴と
    する辞書作成装置。
JP59003288A 1984-01-11 1984-01-11 辞書作成装置 Expired - Lifetime JPH0664572B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59003288A JPH0664572B2 (ja) 1984-01-11 1984-01-11 辞書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59003288A JPH0664572B2 (ja) 1984-01-11 1984-01-11 辞書作成装置

Publications (2)

Publication Number Publication Date
JPS60147868A JPS60147868A (ja) 1985-08-03
JPH0664572B2 true JPH0664572B2 (ja) 1994-08-22

Family

ID=11553208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59003288A Expired - Lifetime JPH0664572B2 (ja) 1984-01-11 1984-01-11 辞書作成装置

Country Status (1)

Country Link
JP (1) JPH0664572B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62271051A (ja) * 1986-05-20 1987-11-25 Matsushita Electric Ind Co Ltd 日本語文書作成装置
JPH01103768A (ja) * 1987-03-16 1989-04-20 Nec Corp 知識データベースを用いた中国語ワードプロセッサ,中国語知識データベーファイルの構築方式および中国語の漢字文字パターンファイル方式
US7788327B2 (en) 2002-11-28 2010-08-31 Panasonic Corporation Device, program and method for assisting in preparing email
WO2004049193A1 (ja) * 2002-11-28 2004-06-10 Matsushita Electric Industrial Co.,Ltd. 電子メール作成支援のための装置、プログラムおよび方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5851381A (ja) * 1981-09-22 1983-03-26 Ricoh Co Ltd カナ漢字変換処理装置

Also Published As

Publication number Publication date
JPS60147868A (ja) 1985-08-03

Similar Documents

Publication Publication Date Title
CN103282903A (zh) 话题提取装置和程序
JPH0664572B2 (ja) 辞書作成装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP2828692B2 (ja) 情報検索装置
JPH0236019B2 (ja)
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPS62284460A (ja) 文書作成支援装置
JPH0571982B2 (ja)
JPS6175952A (ja) 文書入力処理方式
Hersey et al. Computer usage in the development of a water resources thesaurus
JP2830097B2 (ja) 文章検索方式
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH02112058A (ja) 文字認識入力装置
JP3086464B2 (ja) かな漢字変換装置
JP2830098B2 (ja) 文章検索方式
JPH02244380A (ja) データベースシステム
JPS63217418A (ja) 日本語テキストキ−ワ−ド抽出方式
JPS595335A (ja) 日本語入力装置
JPH04330565A (ja) 自然言語処理システム
JPS6128159A (ja) 複合語の学習機能を持つかな漢字変換装置
JPH06290298A (ja) 誤字の修正方法
JPS6081639A (ja) 項目整列方式
JPH0454557A (ja) 文字処理装置
JPH01319860A (ja) 特殊文字変換方式
JPH09218868A (ja) 漢字指定方法及び装置