JPH07249036A - かな漢字変換システムにおける辞書生成方法 - Google Patents

かな漢字変換システムにおける辞書生成方法

Info

Publication number
JPH07249036A
JPH07249036A JP7022375A JP2237595A JPH07249036A JP H07249036 A JPH07249036 A JP H07249036A JP 7022375 A JP7022375 A JP 7022375A JP 2237595 A JP2237595 A JP 2237595A JP H07249036 A JPH07249036 A JP H07249036A
Authority
JP
Japan
Prior art keywords
data
phrase
character string
dictionary
kana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7022375A
Other languages
English (en)
Inventor
Akira Sugiyama
彰 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP7022375A priority Critical patent/JPH07249036A/ja
Publication of JPH07249036A publication Critical patent/JPH07249036A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】単語の切れ目がはっきりしない日本語の文章に
あって、たとえ長文であっても一括して迅速にかな、漢
字等が混ざった文章に変換することを可能とするもので
あり、文章作成を効率的に行うことを目的とする。 【構成】本発明によれば、連結文節生成手段において入
力され、確定された文章の文字列のうち、1つの文節中
の後段と、これに続く文節中の前段との間で生成される
連結文節の語句データに対して、1つの読みデータを相
互補完的に対応させ、順次登録し、さらに検索文字列認
識手段において入力され、確定され、一つの文章として
認識された任意の文字列にあって、文字列の始期および
終期の文節を確定し、それらの語句データに関する読み
データを順次生成・登録することが可能となる。こうし
て登録し、生成された辞書を日本語ワードプロセッサや
そのソフトウェアを使用する際に用いることとすれば、
入力される仮名情報がたとえ長文からなる多くの文節を
含む文字列にあったとしても、一括して日本語文章に変
換することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語ワードプロセッ
サーやそのソフトウェアを使用する際に用いられるかな
漢字変換システムにおける辞書生成方法に関する。
【0002】
【従来の技術】従来日本語ワードプロセッサーに用いら
れる辞書にあっては、ローマ字あるいは平がなにて入力
される読みデータに対して、その都度辞書から語句デー
タ(例えば単語、文節等)を呼び出し、特公平1−57
826号に記載される「日本語文解析システム」等を採
用してのかな漢字変換を行うようにしていた。すなわ
ち、この方法によれば入力される文字列を日本語単語辞
書と文法辞書および意味関係辞書等を用いて解析し、こ
れらに基づき例えば任意の連体修飾関係を特定して文章
作成を行っていた。
【0003】
【発明が解決しようとする問題点】しかしながら、この
方法にあっても文章中の任意の文字列を変換するにあた
り、特定の同音異義語に対して完全に対応することが不
可能とされていた。例えば文章中において「あついてっ
ぱん」の文字列をキー入力する場合、その文章のみに着
目して変換を行うため、「熱い鉄板」なのかあるいは
「厚い鉄板」であるのかが判明不可能とされていた。し
かし、この文節の前部に存在する語が「手に持つには重
すぎる」という語である場合、その後に変換すべき文節
は「厚い鉄板」であり、このような場合にあっても従来
の方法では、その都度変換キーを押して正しい文章に対
応する語を選択しなければならなかった。このため、一
括した長文のかな漢字変換等や日−英等の機械翻訳装置
等、さらに日本語対応の文献検索システム等を構築する
上でこの部分が特に大きな障害になっていた。
【0004】本発明は、このように単語の切れ目がはっ
きりしない日本語の文章にあって、たとえ長文であって
も一括して迅速にかな、漢字等が混ざった文章に変換す
ることを可能とするものであり、文章作成を効率的に行
うことを目的とするものである。
【0005】
【問題点を解決するための手段】上記目的を達成するた
め、本発明は、平がなまたはカタカナ情報にて入力され
る文章をかな及び漢字あるいは数字、各種記号等が混ざ
った日本語文章に変換するために用いるかな漢字変換シ
ステムにあって、入力される仮名情報を一括して日本語
文章に変換可能とするため、A)入力され、確定された
文章の文字列のうち、1つの文節中の後段と、これに続
く文節中の前段との間で生成される連結文節の語句デー
タに対して、1つの読みデータを相互補完的に対応さ
せ、順次登録する連結文節生成手段と、B)確定され、
一つの文章として認識された任意の文字列にあって、文
字列の始期および終期の文節を確定し、それらの語句デ
ータに関する読みデータを順次生成・登録する検索文字
列認識手段と、を備え、上記各手段にて生成されたデー
タを順次保存してデータベース化し、これを辞書として
用いることにより日本語文章を作成可能とするものであ
る。
【0006】
【作用】本発明によれば、A)連結文節生成手段、B)
検索文字列認識手段の各手段により生成されるデータを
順次登録して蓄積することで辞書化することが可能とな
り、こうして登録し、生成された辞書を日本語ワードプ
ロセッサやそのソフトウェアを使用する際に用いること
とすれば、入力される仮名情報がたとえ長文からなる多
くの文節を含む文字列にあったとしても、一括して日本
語文章に変換することができる。この結果、文章作成を
迅速かつ効率的に行うことが可能となる。
【0007】
【実施例】以下、本発明の実施例を説明する。先ず以下
実施例に係る辞書を作成するにあたっては、既存のワー
プロソフトウェア(例えば一太郎等)やまた前記従来の
「日本語文解析システム」(特公平1−57826号)
を用いることとする。すなわち、辞書の生成にあたって
は既存の日本語文章の印刷物を原材料として用いること
とし、これらを上記従来のワープロソフトウェアでキー
入力することとする。入力方式としてはローマ字入力、
あるいはかな入力(平がなおよびカタカナ)のいずれで
も差支えなく、順次原材料としての日本語文章をかなお
よび漢字あるいは数字、各種記号等が混ざった日本語文
章に変換する作業を行うものとする。
【0008】図1は本実施例に係る辞書生成方法を模式
的に示すシステム図である。このシステム図において1
はキー入力装置、2はCPU、3はメモリ、4はCRT
または液晶表示体等からなる表示装置である。メモリ3
内には、例えば従来のワープロソフトウェア(「日本語
文解析システム」特公平1−57826号)と同様に日
本語単語辞書5、文法辞書6、意味関係辞書7等が内蔵
され、キー装置により入力される仮名情報をこれらの各
辞書に基づき、CPU2にて日本語文章に変換するよう
にしている。そしてこれらの変換プロセスについては、
表示装置4上に表示され、オペレータはキー入力装置1
上の変換キーを操作しながら入力される仮名情報を対応
する日本語文章に変換操作するものとしている。
【0009】CPU2内には連結文節生成手段8と検索
文字列認識手段9のそれぞれが内蔵される。連結文節生
成手段8はキー入力装置1により入力され、日本語文章
に変換されて表示装置4上に表示された確定文章の文字
列を次のようにして分割することとしている。ここに
「私はスーパーに行ってリンゴと豚肉を買った。」とい
う変換し、確定された日本語文章が存在するとする。一
般にこの文章についての〈従来の文節〉は次の通りに分
割される。 〈従来の文節〉 私は/スーパーに/行って/リンゴと/豚肉を/買った
【0010】こうした従来の各文節に対応する単語は、
メモリ3の日本語単語辞書5に内蔵されるところである
が、連結文節生成手段8はこうした従来の文節とは別に
次の通り文章の分割をすることとする。 〈連結文節への分割〉 私/はスーパー/に行/ってリンゴ/と豚肉/を買った
【0011】すなわち、連結文節生成手段8は、「私
は」という文節の後段「は」と、これに続く文節「スー
パーに」の前段「スーパー」とを連結して連結文節「は
スーパー」を構成し、こうして構成される語句データに
対して、下記表のように1つの読みデータ「はすーぱ
ー」を相互補完的に対応させるものとする。
【0012】こうして連結文節生成手段8にて生成され
た語句データに対応する読みデータは順次メモリ3内の
連結文節辞書10に登録され、保存される。このように
して、原材料としての多くの日本語文章を入力し、連結
文節生成手段8にて連結文節を生成して連結文節辞書に
データベースとしてファイル化することができる。デー
タとしては、通常30万語以上の連結文節を保存させる
ものとし、さらにユーザがその都度生成することとして
もよく、データの数は無限としてもよい。
【0013】一方、検索文字列認識手段9はキー入力装
置1により入力され、日本語文章に変換されて表示装置
4上に表示された確定された任意の文字列を次のように
認識することとしている。先ずここに「ギリシャの哲人
プラトンは、人間は天体を観察し、昼と夜や月と年の周
期を知ることによって数をつくり出し、時間の概念をつ
くり出したと述べている。」という確定文章の文字列が
存在し、表示装置4において表示されていたとする。こ
の文章を句点および読点の部分で分割すると次の4つの
部分から構成されることとなる。 1.ギリシャの哲人プラトンは、 2.人間は天体を観察し、 3.昼と夜や月と年の周期を知ることによって数をつく
り出し、 4.時間の概念をつくり出したと述べている。
【0014】検索文字列認識手段9は、このような文章
が順次入力される状態において、文字列の入力開始(始
期)から句点、読点または任意の区切りに至るまでの文
章の終期を認識することとし、上記の文例においては例
えば1〜4の4つの文章が認識されることとなる。すな
わち、検索文字列認識手段9は上記1〜4に対応する文
章の語句データに対応して下記1a〜4aの各読みデー
タを認識することとし、これら生成された各文章のデー
タに対応する読みデータは順次メモリ3内の検索文字列
辞書11に登録され、保存される。 1a.ぎりしゃのてつじんぷらとん、 2a.にんげんはてんたいをかんさつ、 3a.ひるとよるやつきととしのしゅうきをしることに
よってかずをつくりだ、4a.じかんのがいねんをつ
くりだしたとのべている
【0015】すなわち、上記1a〜4aの各文章におい
て、検索文字列認識手段9は、それぞれの文字列に関し
て下線部に示す語を各文章の始期および終期として認識
し、これらの間の文節を一文章としてメモリ3内の検索
文字列辞書11に順次登録し、保存することとしてい
る。
【0016】すなわち、上記連結文節生成手段8並びに
検索文字列認識手段9においては、次の規則性をもって
入力される文字列を認識するようにしている。先ず下記
のような原材料としての文章例が存在するとする。 〈文章例〉 「若者にエイズ問題への理解を深めてもらおうと、今年
の成人式では自治体やボランティア団体がコンドームを
無料で配る例が増えているが、これに対し自治体の各市
民からは疑問の声が上がっている。」 〈対応する読みデータ〉 「わかものにえいずもんだいへのりかいをふかめてもら
おうと、ことしのせいじんしきではじちたいやぼらんて
ぃあだんたいがこんどーむをむりょうでくばるれいがふ
えているが、これにたいしじちたいのかくしみんからは
ぎもんのこえがあがっている。」
【0017】〈認識方法1〉例えば読点が入力されるま
での文字列を一つの大きな検索文字列として認識する方
法。
【0018】検索文字列の内容:わかものにえいずもん
だいへのりかいをふかめてもらおうと、ことしのせいじ
んしきではじちたいやぼらんてぃあだんたいがこんどー
むをむりょうでくばるれいがふえているが、これにたい
しじちたいのかくしみんからはぎもんのこえがあがって
いる。
【0019】〈認識方法2〉例えば句点または読点が入
力されるまでの文字列をそれぞれ検索文字列として認識
する方法。
【0020】文字列1:わかものにえいずもんだいへの
りかいをふかめてもらおうと、 文字列2:ことしのせいじんしきではじちたいやぼらん
てぃあだんたいがこんどーむをむりょうでくばるれいが
ふえているが、 文字列3:これにたいしじちたいのかくしみんからはぎ
もんのこえがあがっている。
【0021】〈認識方法3〉連結文節を生成するため、
先ず入力された次の文字列を分割して番号を付記し、各
番号に対応する文字列同士を結合する。
【0022】連結文節等を生成するために、上記番号を
もって分割した語句データを次の順序で規則性をもって
結合生成する。
【0023】このようにして認識方法3に基づき分割さ
れた読みデータに、それぞれ対応する漢字、カタカナ、
ひらがな、数字、特殊記号等が混ざった語句データを下
記の通り相互補完的にあてはめ、データ化し、これをメ
モリ3内の連結文節辞書11に登録させる。
【0024】上記のようにして認識方法1〜3に基づい
て生成された連結文節並びに検索文字列は、それぞれメ
モリ3内の対応する辞書10、11に登録されることと
なる。こうして数多くの原材料としての日本語文章を上
記分割方法に基づき連結文節生成手段8並びに検索文字
列認識手段9にて生成することによりシステム辞書とし
てのメモリ3が完備されることとなる。なお、こうした
システム辞書の生成は、図2に従って行われる。原材料
として用いられる日本語文章は、新聞、雑誌、科学文
献、小説、文芸書等様々なものがあり、またシステム辞
書を法律事務所、特許事務所、商社、小説家等、各エン
ドユーザ向けに対応して生成する場合、それぞれのユー
ザの特性に合わせて入力する文献の分野別の割合(文
芸、大衆紙、各専門書等の各割合)を調整することとす
ればよい。
【0025】このように上記実施例にあっては、システ
ム辞書中の連結文節辞書11、検索文字列辞書12の生
成において、従来の辞書(例えば日本語単語辞書5、文
法辞書6、意味関係辞書7)のような一切の文法的解釈
を採用することなく、きわめて機械的な分割および結合
方法がとられることとなる。すなわち、従来の辞書にに
あっては、読みデータと変換データとの関係が必ずしも
1:1の関係になく、1:nの関係にあるが、上記連結
文節辞書11、検索文字列辞書12では読みデータと変
換データとの関係が常に1:1の絶対関係にある。した
がって、ユーザがキー入力装置1を操作して入力する仮
名情報について、連続する文節の係り受け関係、意味的
結合関係、連体修飾関係、複文解析関係を瞬時にして連
結文節辞書10、検索文字列辞書11並びにこれらを相
乗化して得られる情報に基づき、日本語文章に変換する
ことができる。この結果、上記のように「わかものにえ
いずもんだいへのりかいをふかめて・・・・・かくしみ
んからはぎもんのこえがあがっている。」というような
長い文章の読みデータでも一度の変換キーの操作で一括
して正確な日本語文章に変換することができる。こうし
たことから、例えば「あついてっぱん」という読みデー
タに関しても、前後の文脈にかかる読みデータで即座に
「厚い鉄板」に変換すべきか、あるいは「熱い鉄板」に
変換すべきかを自動的に選択することとなる。
【0026】さらに、ユーザにあっては、こうしたかな
漢字変換の履歴をメモリ3の新たなる追加データとして
連結文節辞書10、検索文字列辞書11に生成、蓄積、
保存させていくことが可能となり、システム辞書自体を
自己増殖させ、かな漢字変換の性能を日々使い込むほど
に自動的に向上させることが可能となる。
【0027】加えて上記実施例にあっては、日本語にお
ける、いわゆる、かな漢字変換の機能ばかりではなく、
他の言語、例えば英語、仏語、独語をはじめ、世界中の
あらゆる言語、さらには言語以外のあらゆるデータ(各
種キャラクタ、記号、図形、画像、映像、数値等)の変
換装置としての機能も付加させることが可能となる。す
なわち、統合化された語句、読み、文字列のサンプル例
の日本語データに英訳文字列を付加する。この場合、該
当する語句文字列が存在するすべてのデータに同一の英
訳文字列を付加していく。該当する語句データが存在し
ない場合には、英訳文字列を付加しない。また、この場
合、英訳文字列以外にも、他のあらゆる言語の付加が可
能なことは言うまでもない。
【0028】システム辞書の生成において、一切の文法
的解釈を採用せずに、上記手段による、きわめて機械的
な分割・結合方法を採用し、しかも〈読みデータ〉と
〈変換データ〉の関係を、従来の〈1:n〉ではなく、
〈1:1〉の絶対関係にした。そのため、エンドユーザ
が通常のかな漢字変換作業を行う過程において、そのか
な漢字変換履歴を、メモリの新たな追加データとして機
械的に取り込むことが可能になり、ここに初めて、シス
テム辞書自身が自己増殖し、さらに、その結果、かな漢
字変換の性能が、日々、使い込むほどに自動的に向上し
ていくという機能が実現できたのである。すなわち、上
記実施例に係る辞書の生成法では、〈読みデータ〉と
〈変換データ〉の関係を〈1:n〉ではなく〈1:1〉
の絶対関係にしたために、〈読みデータ〉に該当する
〈変換データ〉が確定できれば、その確定した〈読みデ
ータ〉を、今度は、〈仮想・読みデータ〉として認識さ
せ、さらに新たな〈翻訳変換データ〉をデータベース化
したシステム辞書として〈1:1:1〉の絶対関係で追
加することが可能となる。 *(〈わかもの〉:〈若者〉:〈Young man〉=1:
1:1)×nデータ個
【0029】その結果、この手法を拡大応用すれば、翻
訳変換データはいかなる国の文字列であっても認識させ
ることが可能である。
【0030】また、上記実施例のシステム辞書の生成
は、(1:1:1・・・1〈n〉)の関係で構成されて
いるため、〈わかもの〉を読みデータ(検索キー)とし
て〈若者〉という漢字混じり文字列(変換データ)を確
定し、さらにその後に、その(変換データ)に結合して
いる、任意の翻訳変換データを出力することが可能とな
る。
【0031】さらに、たとえば、今度は〈若者〉を読み
データとして仮想的に想定すれば、〈わかもの〉という
平仮名文字列の検索はもちろん、他のいかなる翻訳変換
データも出力することが可能になる。そして、たとえ
ば、今度はフランス語の翻訳変換データを、仮想的に読
みデータと想定すれば、漢字混じり文字列はもちろん、
他のいかなる翻訳変換データをも出力することが可能と
なる。
【0032】このように上記実施例にあっては、一括し
た長文からなる日本語文章のかな漢字変換ばかりでな
く、日−英等の機械翻訳、さらに日本語対応の文献検索
システム等にも応用することができる。なお、上記実施
例としては、入力手段をキー入力装置1としているが、
マウス、音声その他の入力手段を用いることとしてもよ
い。
【発明の効果】以上のように、本発明によれば、単語の
切れ目がはっきりしない日本語の文章にあって、たとえ
長文であっても一括して迅速にかな漢字等が混ざった文
章に変換することが可能となり、文章作成を効率的に行
うことができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係る辞書生成方法を用いて
構成されるシステムを示すブロック図である。
【図2】システム辞書の生成過程を示すフローチャート
である。
【符号の説明】
1 キー入力装置 2 CPU 3 メモリ 4 表示装置 5 日本語単語辞書 6 文法辞書 7 意味関係辞書 8 連結文節生成手段 9 検索文字列認識手段 10 連結文節辞書 11 検索文字列辞書

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 平がなまたはカタカナ情報にて入力され
    る文章をかな及び漢字あるいは数字、各種記号等が混ざ
    った日本語文章に変換するために用いるかな漢字変換シ
    ステムにあって、入力される仮名情報を一括して日本語
    文章に変換可能とするため、 A)入力され、確定された文章の文字列のうち、1つの
    文節中の後段と、これに続く文節中の前段との間で生成
    される連結文節の語句データに対して、1つの読みデー
    タを相互補完的に対応させ、順次登録する連結文節生成
    手段と、 B)確定され、一つの文章として認識された任意の文字
    列にあって、文字列の始期および終期の文節を確定し、
    それらの語句データに関する読みデータを順次生成・登
    録する検索文字列認識手段と、 を備え、上記各手段にて生成されたデータを順次保存し
    てデータベース化し、これを辞書として用いることによ
    り日本語文章を作成可能とするかな漢字変換システムに
    おける辞書生成方法。
JP7022375A 1994-01-18 1995-01-18 かな漢字変換システムにおける辞書生成方法 Pending JPH07249036A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7022375A JPH07249036A (ja) 1994-01-18 1995-01-18 かな漢字変換システムにおける辞書生成方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP3077794 1994-01-18
JP6-30777 1994-01-18
JP7022375A JPH07249036A (ja) 1994-01-18 1995-01-18 かな漢字変換システムにおける辞書生成方法

Publications (1)

Publication Number Publication Date
JPH07249036A true JPH07249036A (ja) 1995-09-26

Family

ID=26359581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7022375A Pending JPH07249036A (ja) 1994-01-18 1995-01-18 かな漢字変換システムにおける辞書生成方法

Country Status (1)

Country Link
JP (1) JPH07249036A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453132A (zh) * 2023-06-14 2023-07-18 成都锦城学院 基于机器翻译的日语假名和汉字识别方法、设备及存储器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453132A (zh) * 2023-06-14 2023-07-18 成都锦城学院 基于机器翻译的日语假名和汉字识别方法、设备及存储器
CN116453132B (zh) * 2023-06-14 2023-09-05 成都锦城学院 基于机器翻译的日语假名和汉字识别方法、设备及存储器

Similar Documents

Publication Publication Date Title
JP2515726B2 (ja) 情報検索方法及び装置
JPH07249036A (ja) かな漢字変換システムにおける辞書生成方法
JPH1011431A (ja) 漢字検索装置および方法
JPH07230472A (ja) 人名誤読補正方法
JPH0350668A (ja) 文字処理装置
JPH0612453A (ja) 未知語抽出登録装置
JPH01185766A (ja) かな漢字変換装置
JPS59153232A (ja) 文字変換装置
JPS63156275A (ja) かな・カナ変換候補自動追加式氏名入力装置
JPS63136264A (ja) 機械翻訳装置
JPH0232460A (ja) 文書処理装置
JPS6174060A (ja) 外来語簡易入力方式
JPS62226270A (ja) 文章作成装置
JPH05151199A (ja) 文書作成装置
JPH03257666A (ja) 日本語文書処理装置
JPH0589138A (ja) 文書作成装置
JPS61128364A (ja) 辞書検索装置
JPS63116269A (ja) 日本語処理の仮名漢字変換装置
JPH0344760A (ja) 日本語処理装置
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH04205166A (ja) 日本語文章入力装置
JPH03222060A (ja) 日本語読解システム
JPS59221731A (ja) カナ漢字変換処理装置
JPH06259413A (ja) 日本語入力方式
JPH03225462A (ja) ローマ字漢字変換装置