JPH0664572B2 - 辞書作成装置 - Google Patents
辞書作成装置Info
- Publication number
- JPH0664572B2 JPH0664572B2 JP59003288A JP328884A JPH0664572B2 JP H0664572 B2 JPH0664572 B2 JP H0664572B2 JP 59003288 A JP59003288 A JP 59003288A JP 328884 A JP328884 A JP 328884A JP H0664572 B2 JPH0664572 B2 JP H0664572B2
- Authority
- JP
- Japan
- Prior art keywords
- kanji
- dictionary
- input
- counting
- kanji dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Description
【発明の詳細な説明】 〔発明の技術分野〕 この発明は分野別又は個人用の既存の資料を利用して、
これらに最適な漢字辞書を作成する辞書作成装置に関す
る。
これらに最適な漢字辞書を作成する辞書作成装置に関す
る。
最近、ワードプロセッサは広い分野にわたり使用されて
いるが、これに用いられる漢字辞書は平均的なオフィス
などで使用されるのに最適なように作成されている。
いるが、これに用いられる漢字辞書は平均的なオフィス
などで使用されるのに最適なように作成されている。
したがって、このような漢字辞書は例えば医療分野のよ
うな特殊分野ではそのまま使用することができず、そこ
で従来このような分野に最適な漢字辞書は別個に作成す
るようにしている。
うな特殊分野ではそのまま使用することができず、そこ
で従来このような分野に最適な漢字辞書は別個に作成す
るようにしている。
ところがこのような特殊辞書は例えば辞書作成担当者が
人海戦術をもって文献や診断書などの関連資料をもとに
手作業にて作成するようにしているためかかる作業に多
大の人手と手間がかかる欠点があり、このためこのよう
な漢字辞書を各分野について整備することなど到底不可
能であった。
人海戦術をもって文献や診断書などの関連資料をもとに
手作業にて作成するようにしているためかかる作業に多
大の人手と手間がかかる欠点があり、このためこのよう
な漢字辞書を各分野について整備することなど到底不可
能であった。
一方、個人用漢字辞書についてはワードプロセッサに所
謂学習機能が付加されていると、使用にともなう辞書の
使い易さの向上とともに実現可能であるが、実際にはワ
ードプロセッサはオフィスなどにおいてはいろいろな部
署の人が使用するので学習機能が有効に生かされず、こ
のため個人的に有用な漢字辞書の作成も現実は困難であ
った。
謂学習機能が付加されていると、使用にともなう辞書の
使い易さの向上とともに実現可能であるが、実際にはワ
ードプロセッサはオフィスなどにおいてはいろいろな部
署の人が使用するので学習機能が有効に生かされず、こ
のため個人的に有用な漢字辞書の作成も現実は困難であ
った。
ところで、個人が実際に使用する漢字は高々数千語と言
われており、したがってこの数を登録した辞書があれば
変換速度や変換率が向上するが、現状ではこのような個
人用辞書を提供する手段も全く見当らない。
われており、したがってこの数を登録した辞書があれば
変換速度や変換率が向上するが、現状ではこのような個
人用辞書を提供する手段も全く見当らない。
この発明の上記事情に鑑みてなされたもので、分野別又
は個人別に最適な漢字辞書を簡単に作成することができ
る辞書作成装置を提供することを目的とする。
は個人別に最適な漢字辞書を簡単に作成することができ
る辞書作成装置を提供することを目的とする。
この発明は、分野別又は個人用の既存の資料が入力され
る入力手段と、多数の漢字とともにこれら漢字の出現頻
度を記憶した漢字辞書と、この漢字辞書より上記入力手
段の入力に対応した漢字を検索する漢字かな変換手段
と、上記入力手段より与えられる入力中の漢字の出現回
数をカウントする計数手段と、この計数手段のカウント
結果を前記漢字辞書に記憶された出現頻度に関係づけて
同音異義語の順序を決定した新規の漢字辞書を作成する
手段とにより構成されている。
る入力手段と、多数の漢字とともにこれら漢字の出現頻
度を記憶した漢字辞書と、この漢字辞書より上記入力手
段の入力に対応した漢字を検索する漢字かな変換手段
と、上記入力手段より与えられる入力中の漢字の出現回
数をカウントする計数手段と、この計数手段のカウント
結果を前記漢字辞書に記憶された出現頻度に関係づけて
同音異義語の順序を決定した新規の漢字辞書を作成する
手段とにより構成されている。
この発明によれば、新規に同音異義語の順序を決定する
のに、過去の実績として漢字辞書に記憶されている漢字
の出現頻度をベースにして新たに入力される分野別又は
個人用の既存の資料中の漢字の出現回数のカウント結果
を加味するようになるので、このカウント結果により次
第に同音異義語の順序が固まっていき、分野別又は個人
用の既存の資料中の漢字の出現頻度を大幅に盛り込んだ
分野別又は個人用として有用な新しい漢字辞書を簡単に
得られる。しかも、既存の漢字辞書としては、その記憶
された漢字の出現頻度がそのまま保存されているので、
その後、通常の使用に戻った場合も、従前通りの漢字の
出現頻度を記憶した漢字辞書として使用することができ
る。
のに、過去の実績として漢字辞書に記憶されている漢字
の出現頻度をベースにして新たに入力される分野別又は
個人用の既存の資料中の漢字の出現回数のカウント結果
を加味するようになるので、このカウント結果により次
第に同音異義語の順序が固まっていき、分野別又は個人
用の既存の資料中の漢字の出現頻度を大幅に盛り込んだ
分野別又は個人用として有用な新しい漢字辞書を簡単に
得られる。しかも、既存の漢字辞書としては、その記憶
された漢字の出現頻度がそのまま保存されているので、
その後、通常の使用に戻った場合も、従前通りの漢字の
出現頻度を記憶した漢字辞書として使用することができ
る。
以下、この発明の一実施例を図面に従い説明する。
第1図において、1は入力装置で、この入力装置1は分
野別又は個人用の既存の資料例えば漢字かな混り文書が
記憶された磁気テープあるいはフロッピーディスクなど
の外部記憶媒体よりコード化された文書データを入力す
るものである。2は漢字辞書で、この辞書2は多数の漢
字を記憶した既成の例えばフロッピーベースのものが用
いられる。3は漢字かな変換装置で、この装置3は入力
装置1より入力された文書コード例えばJISコードなど
で表現された漢字と漢字辞書2の内容との対応ずけを行
なうためのものである。そして、これら入力装置1,漢
字辞書2,漢字かな変換装置3にはこれら間の情報変換
を制御するCPU4を接続している。この場合、漢字辞書
2には、検索対象となった漢字の出現回数をカウントす
る計数装置6を設けている。また、CPU4には、新規な
辞書内容を記憶する新漢字辞書7を接続している。ここ
で、入力装置1には、OCRを用いてもよい。
野別又は個人用の既存の資料例えば漢字かな混り文書が
記憶された磁気テープあるいはフロッピーディスクなど
の外部記憶媒体よりコード化された文書データを入力す
るものである。2は漢字辞書で、この辞書2は多数の漢
字を記憶した既成の例えばフロッピーベースのものが用
いられる。3は漢字かな変換装置で、この装置3は入力
装置1より入力された文書コード例えばJISコードなど
で表現された漢字と漢字辞書2の内容との対応ずけを行
なうためのものである。そして、これら入力装置1,漢
字辞書2,漢字かな変換装置3にはこれら間の情報変換
を制御するCPU4を接続している。この場合、漢字辞書
2には、検索対象となった漢字の出現回数をカウントす
る計数装置6を設けている。また、CPU4には、新規な
辞書内容を記憶する新漢字辞書7を接続している。ここ
で、入力装置1には、OCRを用いてもよい。
次に、その作用を説明する。
いま、入力装置1より文書データとして例えば「…の会
葬は…」に対応するJISコード「0446/1881/3382/044
7」が入力されたとすると、CPU4はJISコードの上位1
桁が0のものは漢字でないことを知っているのでこのと
きのコード列より漢字コード「1881/3382」(会葬)の
みが抽出され、これが漢字かな変換装置3に送られる。
すると、漢字かな変換装置3にて第2図に示す方法によ
り漢字辞書2の内容との対応ずけが行なわれる。まず、
コード「1881」により第1変換が行なわれ、これにより
コード「1881」(会)に対応する熟語が「会する」から
「会話」まであることがポインタにより示される。ま
た、コード「1881」に続くコード「3382」により第2次
変換が行なわれる。この場合、第2次変換ではすべての
熟語に対応する漢字辞書2上のポインタが記憶されてお
りコード「3382」(葬)にもとづくサーチが行なわれ、
漢字辞書2中の「かいそう/会葬」とが対応ずけられ
る。
葬は…」に対応するJISコード「0446/1881/3382/044
7」が入力されたとすると、CPU4はJISコードの上位1
桁が0のものは漢字でないことを知っているのでこのと
きのコード列より漢字コード「1881/3382」(会葬)の
みが抽出され、これが漢字かな変換装置3に送られる。
すると、漢字かな変換装置3にて第2図に示す方法によ
り漢字辞書2の内容との対応ずけが行なわれる。まず、
コード「1881」により第1変換が行なわれ、これにより
コード「1881」(会)に対応する熟語が「会する」から
「会話」まであることがポインタにより示される。ま
た、コード「1881」に続くコード「3382」により第2次
変換が行なわれる。この場合、第2次変換ではすべての
熟語に対応する漢字辞書2上のポインタが記憶されてお
りコード「3382」(葬)にもとづくサーチが行なわれ、
漢字辞書2中の「かいそう/会葬」とが対応ずけられ
る。
ここで、入力装置1より入力される入力コードが例えば
「1881/2136/3076/2974」(会議場所)である場合、
漢字かな変換装置3の第2次変換において「2136/000
0」(会議)が部分的に整合するが、次をサーチすると
「2355/0000」(会計)となり整合しない。そこで、こ
のようなときはポイントを1つ前に戻し「2136/0000」
(会議)に対応する漢字辞書2へのポインタを得、次い
で残りのコード「3076/2974」(場所)について同様に
サーチをするようにする。
「1881/2136/3076/2974」(会議場所)である場合、
漢字かな変換装置3の第2次変換において「2136/000
0」(会議)が部分的に整合するが、次をサーチすると
「2355/0000」(会計)となり整合しない。そこで、こ
のようなときはポイントを1つ前に戻し「2136/0000」
(会議)に対応する漢字辞書2へのポインタを得、次い
で残りのコード「3076/2974」(場所)について同様に
サーチをするようにする。
また、入力コードが「1881/2355/2746」(会計士)で
ある場合、漢字かな変換装置3の第2次変換において
「2355/0000」(会計)に部分的に整合するが、次をサ
ーチすると「2355/2746」(会計士)となり完全に一致
するので、これに対応する漢字辞書2へのポインタが得
られる。
ある場合、漢字かな変換装置3の第2次変換において
「2355/0000」(会計)に部分的に整合するが、次をサ
ーチすると「2355/2746」(会計士)となり完全に一致
するので、これに対応する漢字辞書2へのポインタが得
られる。
このようにして入力装置1より文書コードが入力される
と、このコードをもとに漢字辞書2をサーチする。そし
て検索対象となった漢字があると、この漢字に対応する
頻度をそのままにして計数装置6のカウントを増加して
いく。例えば大量に文書データを処理したところ第3図
に示すようなカウント結果が得られたとすると、CPU4
にて例えば第6図のカウント結果をもとに、このうちで
カウント数0のものを除いて第4図(a)に示すようにカ
ウント数の多い順に同音異義語を並べこれらを新漢字辞
書7に書き込む。この場合、第4図(b)に示すように頻
度とカウント数の和をもとに例えば30以下のものを除い
てこれらを上述同様に並べ新漢字辞書7に書き込むよう
にしてもよく、また第4図(c)に示すように頻度とカウ
ント数の和が30以下又はカウント数が0のものを除い
て、これらを上述同様に並べ新漢字辞書7に書き込むよ
うにしてもよい。このようにすれば、新規に同音異義語
の順序を決定するのに、過去の実績として漢字辞書に記
憶されている漢字の出現頻度をベースにして新たに入力
される分野別又は個人用の既存の資料中の漢字の出現回
数のカウント結果を加味するようになるので、このカウ
ント結果により次第に同音異義語の順序が固まってい
き、分野別又は個人用の既存の資料中の漢字の出現頻度
を大幅に盛り込んだ分野別又は個人用として有用な新し
い漢字辞書を簡単に得られる。しかも、既存の漢字辞書
としては、その記憶された漢字の出現頻度がそのまま保
存されているので、その後、通常の使用に戻った場合
も、従前通りの漢字の出現頻度を記憶した漢字辞書とし
て使用することができる。
と、このコードをもとに漢字辞書2をサーチする。そし
て検索対象となった漢字があると、この漢字に対応する
頻度をそのままにして計数装置6のカウントを増加して
いく。例えば大量に文書データを処理したところ第3図
に示すようなカウント結果が得られたとすると、CPU4
にて例えば第6図のカウント結果をもとに、このうちで
カウント数0のものを除いて第4図(a)に示すようにカ
ウント数の多い順に同音異義語を並べこれらを新漢字辞
書7に書き込む。この場合、第4図(b)に示すように頻
度とカウント数の和をもとに例えば30以下のものを除い
てこれらを上述同様に並べ新漢字辞書7に書き込むよう
にしてもよく、また第4図(c)に示すように頻度とカウ
ント数の和が30以下又はカウント数が0のものを除い
て、これらを上述同様に並べ新漢字辞書7に書き込むよ
うにしてもよい。このようにすれば、新規に同音異義語
の順序を決定するのに、過去の実績として漢字辞書に記
憶されている漢字の出現頻度をベースにして新たに入力
される分野別又は個人用の既存の資料中の漢字の出現回
数のカウント結果を加味するようになるので、このカウ
ント結果により次第に同音異義語の順序が固まってい
き、分野別又は個人用の既存の資料中の漢字の出現頻度
を大幅に盛り込んだ分野別又は個人用として有用な新し
い漢字辞書を簡単に得られる。しかも、既存の漢字辞書
としては、その記憶された漢字の出現頻度がそのまま保
存されているので、その後、通常の使用に戻った場合
も、従前通りの漢字の出現頻度を記憶した漢字辞書とし
て使用することができる。
なお、この発明は上記実施例にのみ限定されず要旨を変
更しない範囲で適宜変形して実施できる。例えば上述で
は入力データとしてJISコードを用いているがASCIIコー
ドの入力を用いることもできる。また、例えば漢字辞書
の形態は、第6図もしくは第7図のような一次元の形態
に限定されるものでなく、ネットワーク構造や木構造な
どの二次元以上の形態を取ることも可能である。さら
に、文書中に出現した回数を用いた辞書の作成は、一度
だけでなく、ワードプロセッサの使用時にも適宜行うよ
うにすることも可能である。さらにまた、既成の漢字辞
書には必ずしも出現頻度を具備している必要はなく、単
に表示順序に沿って配列されるだけの形態も可能であ
る。
更しない範囲で適宜変形して実施できる。例えば上述で
は入力データとしてJISコードを用いているがASCIIコー
ドの入力を用いることもできる。また、例えば漢字辞書
の形態は、第6図もしくは第7図のような一次元の形態
に限定されるものでなく、ネットワーク構造や木構造な
どの二次元以上の形態を取ることも可能である。さら
に、文書中に出現した回数を用いた辞書の作成は、一度
だけでなく、ワードプロセッサの使用時にも適宜行うよ
うにすることも可能である。さらにまた、既成の漢字辞
書には必ずしも出現頻度を具備している必要はなく、単
に表示順序に沿って配列されるだけの形態も可能であ
る。
第1図はこの発明の一実施例を示す概略的構成図、第2
図、第3図および第4図(a)(b)(c)は同実施例を説明す
るための図である。 1…入力装置、2…漢字辞書 3…漢字かな変換装置、4…CPU 5…OCR、6…計数装置 7…新漢字辞書
図、第3図および第4図(a)(b)(c)は同実施例を説明す
るための図である。 1…入力装置、2…漢字辞書 3…漢字かな変換装置、4…CPU 5…OCR、6…計数装置 7…新漢字辞書
Claims (1)
- 【請求項1】分野別又は個人用の既存の資料が入力され
る入力手段と、 多数の漢字とともにこれら漢字の出現頻度を記憶した漢
字辞書と、 この漢字辞書より上記入力手段の入力に対応した漢字を
検索する漢字かな変換手段と、 上記入力手段より与えられる入力中の漢字の出現回数を
カウントする計数手段と、 この計数手段のカウント結果を前記漢字辞書に記憶され
た出現頻度に関係づけて同音異義語の順序を決定した新
規の漢字辞書を作成する手段とを具備したことを特徴と
する辞書作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59003288A JPH0664572B2 (ja) | 1984-01-11 | 1984-01-11 | 辞書作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59003288A JPH0664572B2 (ja) | 1984-01-11 | 1984-01-11 | 辞書作成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS60147868A JPS60147868A (ja) | 1985-08-03 |
JPH0664572B2 true JPH0664572B2 (ja) | 1994-08-22 |
Family
ID=11553208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59003288A Expired - Lifetime JPH0664572B2 (ja) | 1984-01-11 | 1984-01-11 | 辞書作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0664572B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62271051A (ja) * | 1986-05-20 | 1987-11-25 | Matsushita Electric Ind Co Ltd | 日本語文書作成装置 |
JPH01103768A (ja) * | 1987-03-16 | 1989-04-20 | Nec Corp | 知識データベースを用いた中国語ワードプロセッサ,中国語知識データベーファイルの構築方式および中国語の漢字文字パターンファイル方式 |
US7788327B2 (en) | 2002-11-28 | 2010-08-31 | Panasonic Corporation | Device, program and method for assisting in preparing email |
WO2004049193A1 (ja) * | 2002-11-28 | 2004-06-10 | Matsushita Electric Industrial Co.,Ltd. | 電子メール作成支援のための装置、プログラムおよび方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5851381A (ja) * | 1981-09-22 | 1983-03-26 | Ricoh Co Ltd | カナ漢字変換処理装置 |
-
1984
- 1984-01-11 JP JP59003288A patent/JPH0664572B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPS60147868A (ja) | 1985-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103282903A (zh) | 话题提取装置和程序 | |
JPH0664572B2 (ja) | 辞書作成装置 | |
JPH08314966A (ja) | 文書検索装置のインデックス作成方法及び文書検索装置 | |
JP2828692B2 (ja) | 情報検索装置 | |
JPH0236019B2 (ja) | ||
JP2535629B2 (ja) | 検索システムの入力文字列正規化方式 | |
JPS62284460A (ja) | 文書作成支援装置 | |
JPH0571982B2 (ja) | ||
JPS6175952A (ja) | 文書入力処理方式 | |
Hersey et al. | Computer usage in the development of a water resources thesaurus | |
JP2830097B2 (ja) | 文章検索方式 | |
JP2001092831A (ja) | 文書検索装置及び文書検索方法 | |
JPH02112058A (ja) | 文字認識入力装置 | |
JP3086464B2 (ja) | かな漢字変換装置 | |
JP2830098B2 (ja) | 文章検索方式 | |
JPH02244380A (ja) | データベースシステム | |
JPS63217418A (ja) | 日本語テキストキ−ワ−ド抽出方式 | |
JPS595335A (ja) | 日本語入力装置 | |
JPH04330565A (ja) | 自然言語処理システム | |
JPS6128159A (ja) | 複合語の学習機能を持つかな漢字変換装置 | |
JPH06290298A (ja) | 誤字の修正方法 | |
JPS6081639A (ja) | 項目整列方式 | |
JPH0454557A (ja) | 文字処理装置 | |
JPH01319860A (ja) | 特殊文字変換方式 | |
JPH09218868A (ja) | 漢字指定方法及び装置 |