JPS60147868A - 辞書作成装置 - Google Patents

辞書作成装置

Info

Publication number
JPS60147868A
JPS60147868A JP59003288A JP328884A JPS60147868A JP S60147868 A JPS60147868 A JP S60147868A JP 59003288 A JP59003288 A JP 59003288A JP 328884 A JP328884 A JP 328884A JP S60147868 A JPS60147868 A JP S60147868A
Authority
JP
Japan
Prior art keywords
kanji
dictionary
input
codes
kaiso
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59003288A
Other languages
English (en)
Other versions
JPH0664572B2 (ja
Inventor
Miwako Doi
美和子 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP59003288A priority Critical patent/JPH0664572B2/ja
Publication of JPS60147868A publication Critical patent/JPS60147868A/ja
Publication of JPH0664572B2 publication Critical patent/JPH0664572B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 この発明は分野別又は個人用の既存の資料を利用腎て、
これらに最適な漢字辞書、を作成する辞書作成装置に関
する。
〔発明の技術的背竺とその問題点〕
最近、ワードプロセッサは広い分野にわた。り使用され
ているが、これに用いられる漢字辞書番門平均的なオフ
ィスなどで使用されるのに最適なように作成されている
したがって、このような漢字辞書は例えば医療分野のよ
うな特殊分野ではそのまま使用することができず、そこ
で憚来このような分野に一適ケ漢字辞書は別個に作成す
るようにしている。
ところがこのような特殊辞書は例えば辞書作成担当者が
人海戦術をもって文献や診断書などの関連資料をもとに
手作業にて作成するようにしてい野について整備するこ
となど到底不可能であった。
一方1個人用漢字辞書についてはワードプロセッサに所
謂学習機能が付加されていると、使用にともなう辞書の
使い易さの向上とともに実現可能であるが、実際にはワ
ードプロセッサはオフィスなどにおいてはいろいろな部
署の人が使用するので学習機能が有効に生かされず、こ
のため個人的に有用な漢字辞書の作成も現実は困難であ
った。
とヒろで1個人が実際に使用する漢字は高・々数千語と
言われており、したがってこの数を登録した辞書があれ
ば変換速度や変換率が向上するが。
現状ではこのような個人用辞書を提供する手段も全く見
当らない。
〔発明の目的〕
この発明は上記事情に鑑みてなされたもので、分野別又
は個人別に最適な漢字辞書を簡単に作成することができ
る辞書作成装置を提供することを目的とする。
〔発明の概要〕
゛この発明にかかる辞書作成装置は分野別又は個人用の
既存の資料を入力するとともにこの入力中の漢字の出現
回数を検出し、この検出結果より漢字辞書の同音異義語
の表示順位を書き替え1分野別又は個人用に最適な新規
な漢字辞書を作成するようにしている。
〔発明の効果〕
この発明によれば分野別又は個人用の既存の文書などの
資料を入力するのみで文書中の漢字の出現回数に応じて
使用頻度の高い順に表示順序が書き替えられた新しい辞
書を作成することができるので、従来各分野毎に整備す
るのは不可能とされていた分野別の漢字辞書を簡単に得
られるとともに個人用としても有用な新しい漢字辞書を
簡単に得ることができる。
〔発明の実施例〕
以下、この発明の一実施例を図面に従い説明する。
第1図において、1は入力装装置で、この入力装置1は
分野別又は個人用の既存(DJL料例えば漢字かな混シ
文書が記憶された磁気テープあるいは)・・ビープ4ス
クなどの外部Etli媒体よシーード化された文書デー
タを入力する□ものである。2は漢字辞書で、この辞書
2は多数の1字を記憶した既成の例えばフロッピーベー
スのものが用いられる。3は漢字かな変換装置で、この
装置3は入力装置1よシ入力された文書コード例えばJ
I8コードなどで表現された漢字と漢字辞書2の内容と
の対応ずけを行なうためのものである。そして、これら
入力装置l、漢字辞書2.′漢字かな変換装置3にはこ
れら間の情報変換を制御するCPU 4を接続している
次忙、その作用を説明する。
いま、入力装置lよ)文書データとして例えば「・・・
の会葬は・・・」に対応するJISコード[0446/
1881/338210447Jが入力されたとすると
、CPU4はJIS:r−)”。上位、桁7、。:、、
)も。は漢字−Cヶいことを知っているのでとのときの
コード列より漢字コードr 1881/3382J (
会葬)のみが抽出され、これが漢字かな変換装置3に送
られる。すると、漢字かな変換装−3にて第2図に示す
方法により漢字辞書2の内容との対応ずけが行なわれる
まず、コード「1881」により第1次変換が行なわれ
、これKよ妙コードr1881J (会)に対応する熟
語が「会する」か′ラ−「会話」まであるとと示ポイン
タにより示され木。また、コードr 1881 Jに続
くコード[3382J Kより第2次変換が行滌われる
。この場合、第2次変換ではすべての熟語に対応する漢
字辞書2上のポインタが記憶されておりコードr338
24 (葬)にもとすくサーチが行なわれ、漢字辞書2
中の「かいそう/会葬」と糸対応ずけられる。 □ との場合第2図に示すように漢字辞書2は「かいそう」
に対して同音異義語が予め設定された頻度の順例えば「
回想」 「改装」・・・「会葬」のiで並べられている
ものメすると、上述の「合一」のサーチによシこの「会
葬」の出現頻度が「60」から「61」に変更される。
以下、同様にして入力装置1より入力される文書データ
中に「会葬」なるコードが現われる毎に漢字辞書2中の
「会葬」が検索され、その度に出現頻度が積算されてい
く。そして、この頻度が所定数この場合例えば8oを超
えると、□辞書2中の同音異義語の順序が「回想」 「
改装」 「会葬」 「海草」・・・に、つまり「会葬」
が頻度8oの「海草」゛の前如位置されるようになり辞
書2の内容が変更されていく。
ここで、入力装置1よシ入力される入力コードが例えば
r 1881/2136/3076/2974J (会
議場所)である場合、漢字かな変換装置3の第2次変換
処おいてr213610OOOJ (会議)が部分的に
整合するが、次をサーチするとr235510OOOJ
 (会計)となシ整合しない。そこで、このようなとき
はポイントを1つ前に戻しr213610OOOJ (
会議)に対応する漢字辞書2へのポインタを得1次いで
残シのコード「3076/2974J (場所)につい
て同様にサーチをするようにする。こめ場合は辞書2中
の(会議)および(場所)Kついて夫々出現頻度が積算
される。
また、入力コードが「1881/2355/2746J
 (会計士)である場合、漢字かな変換装置3の@2次
変換においてr235510OOOJ (会計)に部分
的に整合するが1次をサーチするとr2355/274
6J (会計士)とな抄完全に一致するので、これ知対
応する漢字辞書2へのポインタが得られる。この場合は
辞書2中の(会計士)のみについて出現頻度が積算され
る。
したがって、このようにすれば入力装置1より分野別又
は個人用の資料にもとず〈文書データが入力されると、
各漢字について出現頻度が積算されるとともにこの結果
によし辞書2の内容が更新されていくことになり、これ
により分野別又は個人用として有用な新しい漢字辞書が
得られることになる。
なお、入力装置1より入力さルた漢字に対応するものが
漢字辞書2にない場合は従来の辞書への新語登録法を用
いて新たに登録するようになる。
次に、この発明の他実施例を述べると、まず漢字かな変
換装置3は第2図で述べたものの他に例えば第3図に示
すように第1次変換の対象となるコード例えば「188
1J (会)の最も一般的な読み「かい」に対応する熟
語へのポインタと、これと異なる「え」に対応する熟語
へのポインタを分離するようKしたものを用いることも
できる。このようシζすれば第2次変換でのサーチを効
率的に行なうことができるとともに漢字に対応する辞書
へのポインタを速みやかに得られるので漢字辞書の作成
作業の能率向上を図ることができる。この場合漢字かな
変換装置3は漢字かな変換辞書を流用して直接読みを得
るものを用いるとともできる。
また、第4図に示すように入力装置1として文字等の認
識に用いられるOCRsを使用したものでもよい。その
他第4図は第1図と同一部分には同符号を付している。
しかして、上述の実施例では磁気テープなどに入力済み
の文書データを用いるため現状で圧到的に多い印刷物あ
るいは手書き文書などをそのまま入力できない不都合が
あったがこのものによればOCR5により印刷物又は手
書き文書を認識、しこれを例えばJI8コード化するこ
とにより、これらについても新規辞書の作成を行なうこ
とができる。このことは最近の0CII、 50目覚し
い認識率の向上とあいまって大量の印刷物9手書き文書
について能率的に新規な辞書作成を行なうこともできる
更に、上述の実施例のものはすべて既成の漢字辞書2を
用い、これ、の内容を変更して新規な漢字辞書を作成し
ているが、これらの既成辞書は普通十万語程度の漢字を
記憶している。これに対し。
一般に個人が常用する漢字は高々数千程度であり。
とのため個人用辞書の作成に既成の漢字辞書をそのまま
使用するのでは丸刃語以上も不必要とな9経済的に極め
て不利である。そこで、既成の漢字辞書より個人用とし
て使用頻度の高い漢字のみを選択しこれらの漢字だけで
新規な漢字辞書を作成するようKしてもよい。第5図に
七〇実施例を示している。この場合、既成の漢字辞書2
に検索対象とまった漢字の出現回数をカウントする針数
装置6を設けるとともに、新規な辞書内容を記憶する新
漢字辞書7を設けている。その他は第1図と同一部分に
は同符号を付している。ここで入力装置1は第4図で述
べたOCR5を用いてもよい。しかして、このものは入
力装R1より文書コードが入力されると、このコードを
もとに漢字辞書2をサーチする。そして検索対象となっ
た漢字があると、この漢字に対応する頻度をそのままに
して計数装置6のカウントを増加していく。例えば大量
に文書データを処理したところ第6図に示すようなカウ
ント結果が得られたとすると、CPU4にて例えば第6
図のカウント結果をもとに、このうちでカウント数0の
ものを除いて第7図(a)に示すようにカウント数の多
い順に同音異義語を並べこれらを新漢字辞書7に書き込
む。この場合、第7図(b)に示すように頻度とカウン
ト数の和をもとに例えば30以下のものを除いてこれら
を上述同様に並べ新漢字辞書7に書き込むようにしても
よく、また第7図(C)に示すように頻度とカウント数
の和が30以下又はカウント数が0のものを除いて、こ
れらを上述同様に並べ新漢字辞書7に書き込むようにし
てもよい。このようにすれば特に個人用として使用頻度
の高い漢字のみからなる新規な漢字辞書を自動的に作成
できることになる。この場合の個人用辞書は極めて小型
にできるので書替えのきかないROMベースの辞書では
好都合である。
なお、この発明は上記実施例にのみ限定されず要旨を変
更しない範囲で適宜変形して実施できる。
例えば上述では入力データとしてJISコードを用いて
いるがASCIIコードの入力を用いることもできる。
【図面の簡単な説明】
第1図はこの発明の一実施例を示す概略的構成図、第2
図は同実施例に用いられる漢字かな変換装置を説明する
ための図、第3図はこの発明の他実施例に用いられる漢
字かな変換装置を説明する丸めの図、第4図はこの発明
の他実施例を示す概略的構成図、第5図はこの発明の異
なる他実施例・を示す概略的構成図、第6図および第7
図は夫々同異なる他実施例を説明するための図である。 1・・・入力装置 2・・・漢字辞書 3・・・漢字かな変換装置 4・・・CPU5 、、、
 OCR6・・・計数装置 7・・・新漢字辞書 第5図 2 第7図 (a) (b) Lxう イ±# Lr3 1i穆 Cc) 乙ζ多 4土4鍵 #m 祠゛m 垢m

Claims (4)

    【特許請求の範囲】
  1. (1) 分野別又は個人用の既存の資料が入力される入
    力手段と、既成の漢字辞書と、この辞書より上記入力手
    段の入力に対応した漢字を検索する漢字かな変換手段と
    、上記入力手段より与えられる入力中の漢字の出現回数
    を検出しこの回数に応じて辞書中の同音異義語の順序を
    書き替え新規な漢字辞書を作成する手段とを具備したこ
    とを特徴とする辞書作成装置。
  2. (2) 上記入力手段は分野別又は個人用の既介の資料
    として漢字混りの文書を記憶した記憶一体の内容を入力
    する手段を用いたことを特徴とする特許請求の範囲第1
    項記載の辞書作成装置。
  3. (3)上記入力手段は印刷又は手書き文書を!識する手
    段を用いたことを特徴とする特許請求の範囲第1項記載
    の辞書作成装置。
  4. (4)上記新規な漢字辞書を作成する手段は上記既成の
    漢字辞書中の検索対象となった漢字の出現回数をカウン
    トする計数手段およびこの計数手段のカウント結果にも
    とすき所定の漢字を選択し新漢字辞書を作成する手段を
    有する0とi、、41F徴とする特許請求の範囲第1項
    乃至第3項、のいずれかに記載の辞書作成装置。
JP59003288A 1984-01-11 1984-01-11 辞書作成装置 Expired - Lifetime JPH0664572B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59003288A JPH0664572B2 (ja) 1984-01-11 1984-01-11 辞書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59003288A JPH0664572B2 (ja) 1984-01-11 1984-01-11 辞書作成装置

Publications (2)

Publication Number Publication Date
JPS60147868A true JPS60147868A (ja) 1985-08-03
JPH0664572B2 JPH0664572B2 (ja) 1994-08-22

Family

ID=11553208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59003288A Expired - Lifetime JPH0664572B2 (ja) 1984-01-11 1984-01-11 辞書作成装置

Country Status (1)

Country Link
JP (1) JPH0664572B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62271051A (ja) * 1986-05-20 1987-11-25 Matsushita Electric Ind Co Ltd 日本語文書作成装置
JPH01103768A (ja) * 1987-03-16 1989-04-20 Nec Corp 知識データベースを用いた中国語ワードプロセッサ,中国語知識データベーファイルの構築方式および中国語の漢字文字パターンファイル方式
WO2004049193A1 (ja) * 2002-11-28 2004-06-10 Matsushita Electric Industrial Co.,Ltd. 電子メール作成支援のための装置、プログラムおよび方法
US7788327B2 (en) 2002-11-28 2010-08-31 Panasonic Corporation Device, program and method for assisting in preparing email

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5851381A (ja) * 1981-09-22 1983-03-26 Ricoh Co Ltd カナ漢字変換処理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5851381A (ja) * 1981-09-22 1983-03-26 Ricoh Co Ltd カナ漢字変換処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62271051A (ja) * 1986-05-20 1987-11-25 Matsushita Electric Ind Co Ltd 日本語文書作成装置
JPH01103768A (ja) * 1987-03-16 1989-04-20 Nec Corp 知識データベースを用いた中国語ワードプロセッサ,中国語知識データベーファイルの構築方式および中国語の漢字文字パターンファイル方式
WO2004049193A1 (ja) * 2002-11-28 2004-06-10 Matsushita Electric Industrial Co.,Ltd. 電子メール作成支援のための装置、プログラムおよび方法
US7788327B2 (en) 2002-11-28 2010-08-31 Panasonic Corporation Device, program and method for assisting in preparing email

Also Published As

Publication number Publication date
JPH0664572B2 (ja) 1994-08-22

Similar Documents

Publication Publication Date Title
ATE206834T1 (de) Auf kombiniertem lexikon und zeichenreihenwahrscheinlichkeit basierte handschrifterkennung
JPS60147868A (ja) 辞書作成装置
JP2765712B2 (ja) 文字認識入力装置
JPS595335A (ja) 日本語入力装置
JPS613268A (ja) 仮名漢字変換処理装置
JP2745484B2 (ja) 手書文字認識方法および装置
JPH01106263A (ja) 文書の格納検索装置
JPH0944521A (ja) インデックス作成装置および文書検索装置
JP3317767B2 (ja) データベース自動作成装置
JP2904849B2 (ja) 文字認識装置
JP3552842B2 (ja) 単漢字検索装置
JP3368359B2 (ja) グループ文書情報システム
JPH035877A (ja) データ操作方式
JP2003186873A (ja) 情報提供装置および情報提供方法
JPH0435785B2 (ja)
Mayr Die Technik der Vorzeit, der geschichtlichen Zeit und der Naturvölker by Franz Maria Feldhaus
JPS6222187A (ja) 文字認識装置
JPH09218868A (ja) 漢字指定方法及び装置
JPH04352063A (ja) 日本語文書処理装置
JPH0357065A (ja) 接尾語処理方式
JPS61128364A (ja) 辞書検索装置
JPH03154152A (ja) 用例表示装置
JPS63133228A (ja) 情報抽出装置
JPH02128270A (ja) ワードプロセッサ
JPH1027173A (ja) 人名変換装置