JPH06266701A - かな漢字変換装置 - Google Patents

かな漢字変換装置

Info

Publication number
JPH06266701A
JPH06266701A JP5056704A JP5670493A JPH06266701A JP H06266701 A JPH06266701 A JP H06266701A JP 5056704 A JP5056704 A JP 5056704A JP 5670493 A JP5670493 A JP 5670493A JP H06266701 A JPH06266701 A JP H06266701A
Authority
JP
Japan
Prior art keywords
field
information
kana
dictionary
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5056704A
Other languages
English (en)
Inventor
Tatsuya Uehara
龍也 上原
Yoshimi Saito
佳美 齋藤
Hiroyasu Nogami
宏康 野上
Tatsuya Dewa
達也 出羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5056704A priority Critical patent/JPH06266701A/ja
Publication of JPH06266701A publication Critical patent/JPH06266701A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 本発明は、かな漢字変換装置において、分野
を指定することなしに従来よりも入力文書の分野に適し
た同音語を優先することを目的とする。 【構成】 分野別の単語情報辞書と、分野別の共起関係
辞書と、入力文が標題であるか判別する手段と、判別さ
れた標題から分野を推測する手段を有する。 【効果】 文章の標題の情報を用いて、自動的に使用分
野を判定することにより、文書入力前に使用分野を指定
する利用者の手間を軽減する効果がある。また、標題の
情報のみから分野を推測するために、文章全体から推測
するよりも精度の良い分野の推測が可能となる。さら
に、共起関係情報を分野別に持つことにより、適切な共
起関係のみを同音異義語の選択に利用することができ、
利用者の候補の選択作業の手間を軽減させる効果があ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、かな文字列を入力して
漢字かなまじり文字列を出力するかな漢字変換装置に関
する。
【0002】
【従来の技術】日本語には、同音異義語が多数存在する
ために、かな漢字変換の技術においては、利用者が入力
した「かな列」から入力したいと考えている語をいかに
第1候補として提示するかが問題となってきた。この問
題を解決する手段として、入力する文章の使用分野を限
定すれば、同音異義語の出現頻度が偏ることを利用し
て、使用分野ごとに出現頻度を記憶した辞書を用意して
おき、使用分野をあらかじめ指定することにより、出現
頻度の高いものを優先して出すことができ、利用者の同
音異義語の選択の手間を減少させる方法が提案されてい
る。例えば、この種の装置としては、特開昭58−14
238号公報が知られている。
【0003】この装置は、辞書部に用意してある各漢字
につき、それぞれの使用頻度を予め選択指定した文書種
別毎に記憶しておく一方、読み仮名入力の漢字変換が指
示された場合は、指定されている文書種別毎の使用頻度
を参照して表示の優先順位を決定する手段を有してい
る。
【0004】以下、この従来の装置におけるかな漢字変
換処理について説明する。例えば、「しこう」には、同
音語として、「思考」や「施行」や「施工」などがある
が、「建築」に関する文章では、「思考」や「施行」よ
りも「施工」が使用頻度が高いと考えられる。したがっ
て、「建築」に関する分野の単語の使用頻度として、
「施工」が「思考」や「施行」よりも使用頻度が高いこ
とを予め記憶しておき、入力前に入力する文章の分野と
して「建築」を選択することによって、「施工」を第1
位にすることができ、文章の分野に適した変換をするこ
とが可能となる。
【0005】しかしながら、従来の装置では、利用者が
文章を入力する前に予め分野を指定しなければならず、
手間がかかる。さらに、利用者が分野の指定を忘れる
か、もしくは、誤った分野を指定した場合には、変換を
誤る可能性が高くなる。
【0006】一方、「とうき」の同音異義語としては、
「当期」や「投機」や「登記」などがあるが、たとえ
ば、「契約書」に関する文章では、必ずしも「登記」の
使用頻度が高いとはいえないので従来の装置で優先する
ことができない。
【0007】たとえば、「とうきを行う」の場合、「契
約書」では「とうき」は「登記」である可能性が高いと
考えられる。このような性質を利用して問題を解決する
方法の1つとしては、単語と単語の共起関係を用いるも
のが提案されている。例えば、この種の装置としては、
特開昭60−124774号公報が知られている。
【0008】この装置は、共起単語辞書と該共起単語辞
書を用いて入力文から切り出された単語およびその同音
語について相互の共起関係の有無を判定する手段とこの
判定手段の結果に基づいてかな漢字変換結果を生成する
手段を有している。
【0009】しかしながら、このような装置では、共起
関係が入力する文章の分野に依存する場合には、適して
いない。例えば、「とうきを行う」に対して、「契約
書」に関する文書の場合は「とうき」は「登記」である
が、「株式」に関する文書では、「投機」である可能性
が高いが、従来の装置ではこのような使いわけをするこ
とができない。
【0010】
【発明が解決しようとする課題】このように予め入力す
る文書の分野を指定する従来のかな漢字変換装置では、
利用者が文章を入力する前に予め分野を指定しなければ
ならず、手間がかかった。さらに、利用者が分野の指定
を忘れるか、もしくは、誤った分野を指定した場合に
は、かえって変換を誤る可能性が高くなるという問題点
があった。
【0011】また、共起情報を用いる従来のかな漢字変
換装置では、分野によって共起関係による同音異義語の
優先を変化させることができないと言う問題点があっ
た。本発明は上記のような従来技術の欠点を除去し、分
野を指定するという利用者の手間を軽減し、さらに、従
来よりも入力文書の分野に適した同音語を優先すること
により、利用者の文書入力の能率を向上させるかな漢字
変換装置の提供を目的とする。
【0012】
【課題を解決するための手段】前記課題を解決するため
に、本願第1の発明は、日本語文章の読み情報を入力す
る読み情報入力手段と、使用分野別に単語の読みと漢字
およびその使用頻度を対応付けて記憶した分野別単語情
報記憶手段と、上記読み情報入力手段によって入力され
た読み情報が標題であるか判定する標題判別手段と、上
記標題判別手段を用いて判別された標題中にキーワード
を有無を検出して文章の分野を判定する分野判定手段
と、上記分野判定手段の結果に基づいて、上記分野別単
語情報記憶手段で記憶された単語情報辞書の中から該当
する辞書を選択する単語情報辞書選択手段と、上記読み
情報入力手段を用いて入力された読み情報に基づいて、
上記単語情報辞書選択手段で選択された辞書から読み出
した単語情報に基づいて、上記入力されたかな情報を漢
字かなまじりの文字情報に変換するかな漢字変換手段
と、上記漢字かなまじりの文字情報を保持し、表示する
保持・表示手段により構成されている。
【0013】本願第2の発明は、前記第1の発明におい
て、使用分野別に単語間の共起関係情報を記憶する分野
別共起関係記憶手段と、分野判定手段の結果に基づい
て、上記分野別共起関係記憶手段で記憶された共起関係
辞書の中から該当する辞書を選択する共起情報情報辞書
選択手段と、上記読み情報入力手段を用いて入力された
読み情報に基づいて、上記単語情報辞書選択手段で選択
された辞書から読み出した単語情報を、上記共起情報辞
書選択手段で選択された辞書から読み出された共起情報
によって特定し、上記入力されたかな情報を漢字かなま
じりの文字情報に変換するかな漢字変換手段により構成
されている。
【0014】
【作用】この結果、本発明によれば、文章の標題の情報
を用いて、文章から自動的に使用分野を判定することに
より、文書入力前に使用分野を指定する利用者の手間を
軽減することが可能となる。また、文章の内容を的確に
表していると考えられる標題の情報のみから分野を推測
するために、文章全体から推測するよりも精度の良い分
野の推測が可能となる。
【0015】さらに、共起関係情報を分野別に持つこと
により、適切な共起関係のみを同音異義の選択に利用す
ることができ、利用者の候補の選択作業の手間を軽減さ
せることが可能となる。
【0016】
【実施例】以下、本発明の一実施例を図面に従い説明す
る。図1は、同実施例の概略構成を示すブロック図であ
る。図1において、入力部1はかな漢字変換処理の対象
となるかな文字列の入力、もしくは、同音異義語選択な
どの編集のためのコマンドの入力を行なうためのキーボ
ードなどからなっている。かな漢字変換部2は、編集制
御部11を介して、上記入力部1から受けとったかな文
字列を分野別辞書選択部6で選択された単語情報辞書8
に記憶された情報を用いて、漢字かな交じり文に変換
し、分野辞書選択部6で選択された共起関係辞書9に記
憶された共起情報および上記単語情報辞書8に記憶され
た単語の使用頻度ををもとに各候補の順位づけをおこな
い、その結果を変換結果メモリ13に書き込む。後述す
る標題検出の際にはかな漢字変換部2は一般辞書13を
用いて漢字かな交り文に変換する。
【0017】標題検出部3は、編集制御部11から変換
された文字情報およびフォント、位置情報などを受けと
り、変換された文字が標題であると判断された場合、そ
の文字列を分野判定部4に送る。分野判定部4は、分野
を特定することができる単語とその分野の組を記憶した
分野判定辞書(テーブル)10を用いて、標題検出部3
から受けとった文字列の中に、分野を特定する単語があ
るか調べ、もし存在すれば、その分野を分野選択部7に
転送する。
【0018】分野指定部5は、利用者に入力する文章の
分野を入力部1を通じて指定させる。また、利用者に分
野判別を自動か手動か選択させる。また、分野別辞書選
択部6は、分野指定部5で指定された使用分野と分野判
定部4で判定された使用分野から分野別辞書8Nを選択
する。
【0019】分野別辞書8は、N個の分野別辞書(81
〜8N)からなり、それぞれの辞書は、単語の読み、見
出し、使用頻度などを記憶した単語情報辞書9と単語の
共起情報を記憶した共起情報辞書10からなっている。
【0020】編集制御部11は、変換結果メモリ13の
内容を参照して利用者に提示する情報を決定し、出力部
12に送るようにしている。また、カーソルの移動、文
字列の削除、同音語の選択など編集コマンドを受けと
り、それぞれのコマンドに従って予め決められた動作を
行なう。また、出力部12は、かな漢字変換処理された
変換結果、あるいは変換結果の修正に用いられる同音異
義語リストなどを表示する。
【0021】図2は、単語情報辞書8に記憶される単語
情報のフォーマットの一例である。図3はそのフォーマ
ットに従って表現された辞書内容の一例である。本辞書
は、「読み」21、「見出し」22、「文法情報」2
3、「見出し番号」は単語の読み(例えば、「しこ
う」)が記憶され、「見出し」22の部分には、「読
み」21の部分の読みを持つ単語の漢字かな交じり表記
(例えば、「思考」)が記憶されている。「文法情報」
23には、単語の文法情報(例えば、「サ変名詞」)が
記憶されている。「見出し番号」24には、各見出しご
とに付けられた認識番号(例えば、「1」)が記憶され
ている。「使用頻度」25には、単語の使用頻度(例え
ば「15」)が0〜100の範囲で付けられている。な
お、もっとも頻度の高いものが100になるように調整
する。
【0022】図4は、共起関係辞書9に記憶される共起
関係のフォーマットである。図5はそのフォーマットに
したがって表現された辞書内容の一例である。本辞書
は、「見出し番号1」41、「見出し番号2」42、
「助詞種類」43の各項目から構成されている。「見出
し番号1」41と「見出し番号2」42は、見出し番号
(例えば、「5」)が記憶され、かな漢字変換辞書7に
記憶された「見出し番号」24と対応している。「助詞
種類」43は、助詞(例えば「の」)が記憶され、「見
出し番号1」41の示す単語に「助詞種類」33の示す
助詞がついたものが、「見出し番号2」42の示す単語
と共起関係にあることを示している。例えば、「見出し
番号1」41の指す語が「法律」、「見出し番号2」4
2が指す語を 「施行」、「助詞種類」の内容が「の」
の場合、「法律の」と「施行」が共起関係にあることを
表している。
【0023】図6は、分野判定辞書10に記憶される分
野判定情報のフォーマットである。図7はそのフォーマ
ットにしたがって記憶された分野判定情報の一例であ
る。本情報は「見出し」61、「分野」62、「点数」
63の項目からなっている。標題中に「見出し」61に
記憶された見出し(例えば「建設」)が現れた場合「分
野」62(例えば「建築」)に記憶された使用分野であ
る可能性が高いことを示している。「点数」63はその
分野である可能性がどの程度高いかを表しており、可能
性が高いほど高い点数が与えられる。
【0024】図8は、かな漢字変換の結果を保持する変
換結果メモリ9の格納フォーマットである。図9はその
フォーマットにしたがって記憶されたかな漢字変換結果
の一例である。変換結果は文節毎に区切られているが、
これらの文節を「文節番号」81、「全候補数」82、
「選択候補番号」83、「同音語データ」84の項目で
表現している。「文節番号」81は、かな漢字変換され
た結果、この項目のあるレコードが、先頭から何番目の
文節を表しているかを格納している。「全候補数」82
は、「同音語データ」84の候補の数を保持するもので
ある。「選択候補番号」83は、「同音語データ」84
のどの候補が現在選択されいるかを格納している。「同
音語データ」84は、N個の「文節候補データ」841
〜84Nによって構成されている。「文節候補データ」
841〜84Nは、「かな漢字変換結果」85、「助
詞」86、「見出し番号」87、「頻度」88からな
る。「かな漢字変換結果」85はその文節の自立語の候
補(例えば、「春」)が記憶される。「助詞」86はそ
の候補の助詞の部分(例えば、「が」)が記憶される。
「見出し番号」87は、「かな漢字変換結果」85に対
する見出し番号(例えば、「1」)が記憶される。「頻
度」88は、「かな漢字変換結果」85に記憶された語
の使用頻度を表している。
【0025】まず、全体の動きを図10の流れ図を用い
て説明する。ステップA1で入力部1が変換すべきかな
文字列を受けとると、ステップA2でかな漢字変換部2
によって入力されたかな文字列が、かな漢字交じりの文
字列の候補に図8のフォーマットに従って変換される。
つぎに、ステップA3では、編集制御部11によって、
利用者に同音語の候補を選択させる。そして、同音語の
候補の選択および編集が終了すれば、その文字列が標題
であるか判定し(ステップA4)、もし標題でなければ
ステップA6に進む。もし、標題である時は、標題から
分野の判定を行ない(ステップA5)、ステップA6に
進む。次に、ステップA6では、次の入力の有無を調
べ、もし、入力があれば、ステップA1にもどり、入力
がないときは終了する。
【0026】つぎに、かな漢字変換部2の動作(ステッ
プA2)を図11の流れ図に従って説明する。まず、入
力部1から受けとったかな列に対して、分野別辞書選択
部6で選択された単語情報辞書8を用いて、かな漢字交
じり文の候補を生成し、候補を変換結果メモリ13に書
き込む(ステップB1)。候補の生成の処理について
は、例えば、特開昭60−72014号公報等によって
開示されている手法を流用すれば良いので、ここでは詳
しく述べない。つぎにステップB2において、共起関係
辞書9に記憶された共起関係を用いて、変換結果メモリ
13に記憶された候補中から共起関係にある単語を検出
する(ステップB2)。そして、ステップB3において
変換結果メモリ中13の同音異義語を頻度の値によって
ソートする。
【0027】さらに、ステップB2について図12の流
れ図に従って詳細に説明する。まず、変換結果メモリ1
3に記憶された文節番号を表す変数BNに1を代入し
(ステップC1)、文節候補の番号を表す変数KNに1
を代入する(ステップC2)。次に、変数BNの指す文
節番号を持つレコードにおいて変数KNの指している変
換結果メモリ13に記憶された「文節候補データN」8
4Nの「見出し番号」87が共起関係辞書9の「見出し
語1」41と同じレコードが存在するか調べ、存在しな
ければステップC7にとぶ(ステップC3)。さらに、
変数BNの指している文節番号を持つレコードの変数K
Nの指している「文節候補データN」84Nの「助詞」
86が、検索した共起関係辞書8のレコードの内、「助
詞」43と一致しているものがなければ、ステップC7
にとぶ(ステップC4)。そして、一致している共起関
係辞書9のレコードの「見出し番号2」が、文節番号が
変数BNより大きい値を持つ変換結果のレコードのう
ち、「文節候補データN」84Nの「見出し番号」87
と同じになっていれば、ステップC6に進み、同じもの
がなければ、ステップC7へ進む(ステップC5)。ス
テップC6では、まず、変数BNの指している文節番号
を持つレコードの変数KNの指している「文節候補デー
タN」84N(NはKN)の「頻度」88の値を頻度の
最大値(この場合は100)に1を加えたものに変更す
る。これによりステップB3の頻度によるソートによっ
て最優先するためである。次に、ステップC7では、も
し、変数KNの値が、変数BNが指しているレコードの
「全候補数」82の内容と一致していなければ、変数K
Nを1増加させ(ステップC9)、ステップC3に戻
る。一致している時は、ステップC8に進み、変数BN
が最終文節を指していなければ、変数BNを1増加させ
(ステップC10)、ステップC2に戻る。もし一致し
ていれば、ステップB2は終了する。
【0028】また、ステップB3について図13の流れ
図に従って説明をする。まず、変換結果メモリ13に記
憶された文節番号を表す変数BNに1を代入する(ステ
ップD1)。つぎに、変数BNが指すレコード中の同音
異義語を「頻度」88に従って、文節候補データ84N
を降順にソートする(ステップD2)。ソートの方法は
バブルソートでもクイックソートでも何でも良い。次に
ステップD3において、変数BNが最終文節を指してい
なければ、変数BNを1増加させ(ステップD4)、ス
テップD2に戻る。もし一致していれば、ステップB2
は終了する。
【0029】また、図10のステップA4の標題の判断
について図14に従って説明する。まず、編集制御部1
1から受けとった情報から、対象となる文字列がセンタ
リングされているか調べ(ステップE1)、もし、され
ていれば、標題であると判断する。そうでなければ、ス
テップE2において、対象の文字列が「2章」や「2.
2」などの章や節を表す表現で文字列の最後が体言止め
ならば、ステップE3へ飛ぶ。そうでなければ標題でな
いと判断される。ステップE3では、文字列の長さが定
数N(ここでは30)より小さければ標題であると判定
し、そうでなければ、標題ではないと判定する。
【0030】さらに、図10のステップA5の分野の判
定について図15の流れ図に従って説明する。まず、分
野指定部5は、図16のようなインタフェースによって
利用者から情報を受けとっているので、利用者の指定が
自動判別を選択しているか調べて(ステップF1)、自
動判別でなければ、利用者が特定の分野を指定していれ
ば、その分野を、そうでなければ、分野指定はなく辞書
はデフォルトを使うようにする(ステップF11・F1
2・F13)。
【0031】一方、自動判別の指定があれば、使用分野
を要素とする配列BUと点数を要素とする配列TEを用
意し、配列BUのインデックスを表す変数MLに1を、
分野判定辞書10のレコード番号を表す変数RPに1を
代入する(ステップF2)。次に、ステップF3におい
て、変数RPの指すレコードの「見出し」61に記憶さ
れている語が、標題であると判定された文字列の中に含
まれていなれば、ステップF7に飛び、含まれている時
は、配列BUのなかに、変数RPの指すレコードの「分
野」62に記憶されている分野と同じものがあるか調べ
る(ステップF4)。もしなければ、配列BUの第ML
要素に「分野」62を、配列TEの第ML要素に「点
数」63を代入し(ステップF5)、変数MLに1を加
え(ステップF6)、ステップF7へ飛ぶ。もし、ステ
ップF4で、同じものがある場合は、そのBUのインデ
ックスをMPとし、配列TEの第MP番めの要素に「点
数」63を加える(ステップF8)。つぎに、ステップ
F7では、変数RPが分野判定辞書10の最終レコード
を指しているか調べ、もし、まだ最終レコードに達して
いなければ、変数RPに1を加え(ステップF9)、ス
テップF3に戻る。一方最終レコードならば、配列TE
の中で最大値をもつ要素のインデックスを求め、そのイ
ンデックスがさす配列BUの要素が推定された分野とな
る。
【0032】次に、本実施例における実際の処理例を示
す。例えば、図10のステップA3で「ビル工事につい
てのお知らせ」と文が確定され、センタリングされてい
るとするとステップA4において、標題であると判断さ
れ(図14ステップE1の条件より)、ステップA5が
実行される。ステップA5では、利用者の分野の指定が
自動判別になっているとすると、図7の分野判定辞書1
0の内容に従って「工事」という見出しからBU[1]
が「建築」、BU[2]が「経理」、TE[1]が1
0、TE[2]が5となり(ステップF5)、さらに、
「ビル」という見出しによって、TE[1]に5が加え
られ15になる(ステップF8)。そして、ステップF
9において、配列TEのなかで最大のものがTE[1]
であるので、BU[1]に格納されている「建築」が使
用分野として判定される。
【0033】次に、入力として「しこうのけっか」いう
かな文字列(正解は「施工の結果」)が入力部1を通じ
て入力されたとする(ステップA1)。つぎに、かな漢
字変換部2によって、まず変換候補の生成が行なわれ
る。このとき、用いられる辞書は、推測される分野が
「建築」であるので、分野別辞書選択部6によって、単
語情報辞書8としては図3のものが、共起情報辞書9と
しては図5のものが選択される。指定された単語情報辞
書8を用いることによってステップB1では変換結果メ
モリ13の内容は図9のようになる。この場合、適用で
きる共起情報が共起情報辞書9にないので、ステップB
2の共起情報の適用によって変換結果メモリ13の内容
は変化しない。次にステップB3で各文節ごとに、頻度
順にソートされ、変換結果メモリの内容は図17のよう
になり、第1候補として「施工の結果」のように正しい
結果を得ることができる。
【0034】また、推定された分野が「契約書」である
とき、入力として「とうきをおこなう」いうかな文字列
(正解は「登記を行う」)が入力部1を通じて入力され
たとする(ステップA1)。この場合選択される辞書
は、「契約書」の分野別辞書である単語情報辞書8(図
18)と共起情報辞書9(図19)が選択される。これ
らの辞書を用いて、ステップB1の結果、変換結果メモ
リ13は図20のようになる。次に、ステップB2にお
いて共起の適用が行なわれ、図19の共起情報辞書の第
3レコードの共起情報(「登記」「を」「行う」)が適
用される。その結果、変換結果メモリ13は図21のよ
うになり、共起が適用された「登記」と「行う」の頻度
が「101」になっている。これに対して、さらにステ
ップB3で頻度によるソートを行なうと、変換結果メモ
リの内容が図22のようになり、「登記を行う」が優先
される。
【0035】なお、本発明は、上記実施例にのみに限定
されず、要旨を変更しない範囲で適宜変形して実施可能
である。本実施例では、使用分野は同時に1種類しか用
いていないが、複数を指定することも可能である。例え
ば、ステップA5において、配列TEの上位2つをその
分野として推測し、頻度はこれらの分野別辞書の平均値
もしくは上位の分野に重みをかけた平均値とすればよ
い。これにより、「取引」の文書で「建築」の話しをす
るといった状態も扱うことができる。さらに、利用者が
指定した分野とシステムが推定した分野を同時に扱える
ようにもできる。
【0036】また、本発明では、1分野に対してそれぞ
れ単語情報辞書と共起情報辞書を持っているが、辞書を
各分野に共通部分と、相違部分にわけ、共通部分の辞書
を1つ用意し、分野別辞書は、相違部分のみという構成
にすることができる。
【0037】この方法により、全体の辞書のサイズを減
少させることができる。次に、本発明では、標題の条件
としてセンタリングや体言止めを用いているが他の情報
も利用できる。例えば、入力文書がTeXやSGMLの
ように構造化されている場合、それらの中に含ませてい
る標題であるという情報を利用すれば、さらに精度をあ
げることができる。
【0038】さらに、本実施例では、同音語の優先手段
として共起関係と頻度情報のみを用いているが、長期学
習や短期学習、構文情報や意味情報を用いたかな漢字変
換手法と組合わせることも可能である。また、共起関係
辞書に記憶されている共起関係について、予め記憶され
ているものだけでなく、文章中から学習された共起関係
を同様に扱うことができる。また、頻度情報についても
利用者が文章中に利用した語の頻度情報を用いて推定し
た分野の頻度情報を修正することもできる。
【0039】又、さらに入力部1はOCRのようなもの
でもよく、この際かな漢字変換部2は文字認識部となり
単語情報辞書は文字認識用辞書となる。又、本実施例を
機械翻訳に応用することも可能である。この場合入力さ
れた原稿(第1言語)の標題から分野別の翻訳辞書を選
択することになる。したがって、かな漢字変換部2は翻
訳部となる。
【0040】
【発明の効果】以上のように本発明によれば、文章の標
題の情報を用いて、自動的に使用分野を判定することに
より、文書入力前に使用分野を指定する利用者の手間を
軽減する効果がある。また、文章の内容を的確に表して
いると考えられる標題の情報のみから分野を推測するた
めに、文章全体から推測するよりも精度の良い分野の推
測が可能となる。
【0041】さらに、共起関係情報を分野別に持つこと
により、適切な共起関係のみを同音異義の選択に利用す
ることができ、利用者の候補の選択作業の手間を軽減さ
せる効果がある。
【図面の簡単な説明】
【図1】 実施例の概要構成を示すブロック図。
【図2】 かな漢字変換辞書に記憶される単語情報のフ
ォーマットを示す図。
【図3】 かな漢字変換辞書に記憶される単語情報の一
例を示す図。
【図4】 共起関係辞書に記憶される共起関係のフォー
マットを示す図。
【図5】 共起関係辞書に記憶される共起関係の一例を
示す図。
【図6】 分野判定辞書に記憶される分野判定情報のフ
ォーマットを示す図。
【図7】 分野判定辞書に記憶される分野判定情報の一
例を示す図。
【図8】 変換結果メモリに記憶される変換候補のフォ
ーマットを示す図。
【図9】 変換結果メモリに記憶される変換候補の一例
を示す図。
【図10】 全体の動きを示す流れ図。
【図11】 かな漢字変換処理の流れ図。
【図12】 共起関係適用処理の流れ図。
【図13】 頻度による同音異義語のソートの処理の流
れ図。
【図14】 標題検出部の処理の流れ図。
【図15】 分野判定部の処理の流れ図。
【図16】 分野指定のためのユーザインタフェースの
一例を示す図。
【図17】 「しこうのけっか」に対する変換結果メモ
リの内容を示す図。
【図18】 分野「契約書」の単語情報辞書の内容例を
示す図。
【図19】 分野「契約書」の共起情報辞書の内容例を
示す図。
【図20】 「とうきをおこなう」に対するステップB
1後の変換結果メモリの内容を示す図。
【図21】 「とうきをおこなう」に対するステップB
2後の変換結果メモリの内容を示す図。
【図22】 「とうきをおこなう」に対するステップB
3後の変換結果メモリの内容を示す図。
【符号の説明】
1 入力部 2 かな漢字変換部 3 標題検出部 4 分野判定部 5 分野指定部 6 分野別辞書選択部 7N 分野別辞書 8 単語情報辞書 9 共起関係辞書 10 分野判定辞書 11 編集制御部 12 出力部 13 変換結果メモリ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 出羽 達也 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】日本語文章の読み情報を入力する読み情報
    入力手段と、 使用分野別に単語の読みと漢字とを対応付けて単語情報
    を記憶した分野別単語情報記憶手段と、 上記読み情報入力手段によって入力された読み情報が標
    題であるかを判別する標題判別手段と、 この標題判別手段を用いて判別された標題の文章から分
    野を判定する分野判定手段と、 この分野判定手段の結果に基づいて、上記分野別単語情
    報記憶手段に記憶された該当する分野の単語情報を選択
    する単語情報選択手段と、 この単語情報選択手段で選択された該当する分野の単語
    情報に基づいて、上記読み情報入力手段を用いて入力さ
    れた読み情報を漢字かなまじりの文字情報に変換するか
    な漢字変換手段とを具備することとを特徴とするかな漢
    字変換装置。
  2. 【請求項2】請求項1記載のかな漢字変換装置におい
    て、 使用分野別に単語間の共起関係情報を記憶する分野別共
    起関係記憶手段と、 上記分野判定手段の結果に基づいて、上記分野別共起関
    係記憶手段に記憶された該当する分野の共起関係を選択
    する共起情報選択手段と、 上記単語情報選択手段で選択された該当する分野の単語
    情報を、上記共起情報辞書選択手段で選択された辞書か
    ら読み出された共起情報によって特定し、上記読み情報
    入力手段を用いて入力された読み情報を漢字かなまじり
    の文字情報に変換するかな漢字変換手段とを具備するこ
    とを特徴とするかな漢字変換装置。
JP5056704A 1993-03-17 1993-03-17 かな漢字変換装置 Pending JPH06266701A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5056704A JPH06266701A (ja) 1993-03-17 1993-03-17 かな漢字変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5056704A JPH06266701A (ja) 1993-03-17 1993-03-17 かな漢字変換装置

Publications (1)

Publication Number Publication Date
JPH06266701A true JPH06266701A (ja) 1994-09-22

Family

ID=13034864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5056704A Pending JPH06266701A (ja) 1993-03-17 1993-03-17 かな漢字変換装置

Country Status (1)

Country Link
JP (1) JPH06266701A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183126A (ja) * 2000-12-14 2002-06-28 Mitsubishi Electric Corp 仮名漢字変換システム、端末装置、および辞書サーバ装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183126A (ja) * 2000-12-14 2002-06-28 Mitsubishi Electric Corp 仮名漢字変換システム、端末装置、および辞書サーバ装置

Similar Documents

Publication Publication Date Title
US5983171A (en) Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
US7234942B2 (en) Summarisation representation apparatus
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Ernst-Gerlach et al. Generating search term variants for text collections with historic spellings
JPH06266701A (ja) かな漢字変換装置
JPS61248160A (ja) 文書情報登録方式
CN100562885C (zh) 搜索、识别和定位墨水中的术语的方法、装置
JPH06348751A (ja) 言語変換装置
Bokaei et al. Segmental HMM-based part-of-speech tagger
JPH0748217B2 (ja) 文書要約装置
JPH07244669A (ja) 文書検索方式
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JPS646499B2 (ja)
JPH04290158A (ja) 文書作成装置
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH0546612A (ja) 文章誤り検出装置
JPS59116835A (ja) 短縮入力機能付日本語入力装置
JPH0225973A (ja) 機械翻訳装置
JPH0675943A (ja) かな漢字変換装置
JPH08180052A (ja) 文書作成装置及びその制御方法
JPS6386073A (ja) 日本語修飾関係解析装置
JPH0567076A (ja) かな漢字変換装置
JPH06149791A (ja) 漢字文章入力装置