JP2660998B2 - 日本語処理装置 - Google Patents
日本語処理装置Info
- Publication number
- JP2660998B2 JP2660998B2 JP61044740A JP4474086A JP2660998B2 JP 2660998 B2 JP2660998 B2 JP 2660998B2 JP 61044740 A JP61044740 A JP 61044740A JP 4474086 A JP4474086 A JP 4474086A JP 2660998 B2 JP2660998 B2 JP 2660998B2
- Authority
- JP
- Japan
- Prior art keywords
- processing means
- processing
- morphological analysis
- kana
- kanji
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】
〔技術分野〕
本発明は日本語処理装置に係り、詳しくは、主にワー
ドプロセッサにおいて仮名漢字変換処理に用いられてい
る形態素解析技術を、OCR文字認識や音声認識の後処理
にも共通に利用可能とした日本語処理装置に関する。 〔従来技術〕 ワードプロセッサにおいては、キーボード等から入力
された文字列に対する仮名漢字変換処理に主として形態
素解析の技術が用いられている。一方、OCR文字認識装
置や音声認識装置では、OCRあるいは音声による入力情
報について文字認識処理や音声認識処理を行って候補文
字を決めるが、該候補文字について更に後処理を施すこ
とにより認識精度を高めることができる。 近年、上記OCR文字認識処理や音声認識処理の後処理
に形態素解析の技術を取り入れることが提案されてきて
いる。しかしながら、従来は該文字認識処理や音声認識
処理の後処理に形態素解析の技術を利用する場合、仮名
漢字変換処理で利用されている形態素解析とは別のアル
ゴリズムやプログラムで実現しており、非常に不経済で
あった。 〔目 的〕 本発明の目的は、日本語処理装置において、形態素解
析機能を独立したサブルーチンとし、仮名漢字変換のみ
ならず、OCR文字認識や音声認識の後処理にも利用可能
とし、ソフトウェア資料の有効利用を図ることにある。 〔構 成〕 以下、本発明の一実施例について図面により詳述す
る。 第1図は本発明の一実施例の日本語処理装置の全体構
成図を示す。キーボード10は文字を入力する他に各種の
モード(仮名漢字変換、漢字仮名変換、OCR文字認識、
音声認識等)を指定するのに用いる。OCR11は原稿を光
学的に読取り、音声入力装置12は使用者の生の音声を入
力する。処理装置13はキーボード10やOCR11や音声入力
装置12からの入力情報について、指定されたモードに従
った処理を実行し、出力装置16に出力する。出力装置16
はディスプレイ装置、プリンタ、音声出力装置等を総称
して示したものである。処理装置13の処理に必要なプロ
グラムはプログラムメモリ(ROM)14に格納されるが、
こゝで注目すべきことは、形態素解析プログラム145を
独立したサブルーチンとし、仮名漢字変換141、及びOCR
文字認識142と音声認識143の後処理144のために共通化
したことである。データメモリ(RAM)15は処理装置13
での処理途中のデータやパラメータ、及び各種辞書を格
納するのに用いる。 第1図の全体の処理フローを第2図に示す。こゝで、
モードnは1〜7あり、それぞれの意味は第1表の通り
とする。 まず、キーボード10により7つのモードのうち1つを
指定した後(ステップ201)、当該モードで必要なパラ
メータを設定する(ステップ202)、処理装置13は指定
されたモードを判定し(ステップ203)、ROM14のプログ
ラム141〜145に基づきモードごとに以下の処理を実行す
る。以下、入力文字列は「応用力をようせいするために
は、…」であるとする。 n=1の場合 キーボード1から仮名の文字列「おうようりょくをよ
うせいするためには、…」を入力する(ステップ20
4)。処理装置13は、このキー入力の文字コード列によ
り形態素解析を行う(ステップ205)、もし未知語が出
てきた場合には、1字読みとばしなどの未知語処理を行
い(ステップ206)、形態素解析を続行する。そして、
1ユニット(句読点で区切られた文字列)ごとに、単語
辞書中に登録されている“表記”の部分を出力して次の
ユニットの処理をする(ステップ207,211)。このよう
にして、最終的に「応用力を養成するためには、…」が
出力装置16に出力される。 n=2,4,5,6の場合 OCR11で原稿を光学的に読み取る(ステップ208)。処
理装置13は、入力パターンについて文字認識し(ステッ
プ209)、候補文字と距離(相違度)を算出してデータ
メモリ15へ格納する(ステップ210,211,212)。この
時、ステップ211の前処理では、濁点・半濁点を1文字
として記入する場合の連結処理(例「は」+「゛」→
「ば」)や、促音や拗音を認識した時に候補文字中に対
応する大文字を挿入する処理(例「ゃ」→「や」)を行
う。次に、形態素解析の技術を用いて誤認識文字の自動
訂正処理(後処理)を行う(ステップ213)。このよう
にして、n=2,4の場合は単語の“表記”部分を出力し
(ステップ211)、n=5の場合は単語の“よみ”部分
を出力し(ステップ220)、n=6の場合は認識文字を
出力して(ステップ219)、次のユニットの処理に移
る。こゝで、n=4のケースでは、「応用力をようせい
するためには、」を入力すると、「応用力を養成するた
めには、」が出力される。 n=3,7の場合 音声入力装置12から単音節ごとに、「お」「う」
「よ」「う」「り」「ょ」「く」「を(お)」「よ」
「う」「せ」「い」…を入力する(ステップ214)。ユ
ニットの区切りは、「まる」、「てん」などと発生し
て、これを認識するか、キーボード10の特定キーを押下
するなどの方法が考えられる。音声認識、候補文と距離
の算出(ステップ215,216)は基本的には原稿入力の場
合と同様である。ステップ218の訂正のための前処理で
は、認識された音素列を文字列に変換する。この場合、
拗音を考慮して第3図のように候補列を作成し、データ
メモリ15へ格納する。即ち、1音素に2文字分の文字コ
ードを対応させる。なお、これはステップ211でも同様
である。次に誤認文字の訂正処理を行い(ステップ21
3)、単語の“よみ”あるいは単語の“表記”部分を出
力する(ステップ220,211)。 第4図は第2図中の形態素解析を利用した訂正処理
(ステップ213)の詳細フローである。 まず、第1位候補文字のみからなる文字列を作成し
(ステップ401)、形態素解析処理を行う(ステップ40
2)。こゝで、単語辞書中には、音声入力の場合を考慮
して、例えば「おうよう」(応用)だけでなく「おおよ
う」などの“よみ”をもつ単語も記録しておく。「わ」
を“よみ”に、表記を「は」(格助詞)とする単語を登
録しておくことも同様である。 次に、未知語部がある場合には、その先頭位置(この
位置をm0とする)が返され(ステップ403)、そこから
長さL1(ステップ401で、たとえばL1=6と初期設定し
ておく)の文字列に対して“距離”から誤認識文字の検
出を行う(ステップ404)。一般に、誤認識文字の個数
はk、その位置はm1〜mkで表わされる。今、n=4のケ
ースで入力文が「応用力をようせいするには、…」であ
ったとし、未知誤部「をようせいす」で「せ」と「す」
が誤認と判定されたとする(k=2,m0=4,m1=6)。こ
の場合、N=N1(=3とおく)位までの候補文字を
「せ」と「す」に関して取り出してN1 2=9通りの文字
列を作成し(ステップ405,406)、それぞれについて形
態素解析する(ステップ407)。そして、文字列ごとの
評価値(単語の評価値の和と、分割数とから計算する)
を計算し(ステップ408)、その判定を行う(ステップ4
09)。切り出された最尤文字列の中に「す」が含まれて
いればステップ410、420の処理へ進むが、そうでなけれ
ば、N→N+1位までの候補を考えてステップ407〜409
の処理を繰り返す(ステップ411,412,413)。 次に、候補文字の順位の或る上限値N2をすぎると、見
出し語辞書中を検索し(ステップ214)、「せ」と
「す」を除した「をよう□い□」にマッチする見出し語
をもつ単語をさがし出す。ある長さL2(L2=3とする)
以上のマッチする見出し語がなければステップ415〜418
の処理により、L1=9−4=5となり、「をようしす」
に対してステップ404以下の処理を行う。このようにし
て、L1=3となった時に、「を」(助詞)が切り出され
(ステップ422,423)、ステップ420,421,402を経て、ス
テップ414でL1=4の時に「ようせい」がマッチし、ス
テップ410で「養成」が選択される。 なお、誤認識文字を含む文字列の形態素解析は、誤字
周辺でバックトラックを多数回繰り返すので単語の評価
値に加減を設定し、無駄な探索をやめるようにする。 〔効 果〕 以上の説明から明らかな如く、本発明によれば、形態
素解析処理手段(形態素解析サブルーチン)を独立させ
ることで、仮名漢字変換と、OCR文字認識処理及び/又
は音声認識処理の大半が共通化される。さらに、OCR文
字認識と音声認識における自動訂正処理とを同一アルゴ
リズムで行っているために、プログラムの共通化、単語
辞書等の共通化による省メモリ効果が大きい。したがっ
て、パソコンなどの小型コンピュータでの実行が可能と
なる。
ドプロセッサにおいて仮名漢字変換処理に用いられてい
る形態素解析技術を、OCR文字認識や音声認識の後処理
にも共通に利用可能とした日本語処理装置に関する。 〔従来技術〕 ワードプロセッサにおいては、キーボード等から入力
された文字列に対する仮名漢字変換処理に主として形態
素解析の技術が用いられている。一方、OCR文字認識装
置や音声認識装置では、OCRあるいは音声による入力情
報について文字認識処理や音声認識処理を行って候補文
字を決めるが、該候補文字について更に後処理を施すこ
とにより認識精度を高めることができる。 近年、上記OCR文字認識処理や音声認識処理の後処理
に形態素解析の技術を取り入れることが提案されてきて
いる。しかしながら、従来は該文字認識処理や音声認識
処理の後処理に形態素解析の技術を利用する場合、仮名
漢字変換処理で利用されている形態素解析とは別のアル
ゴリズムやプログラムで実現しており、非常に不経済で
あった。 〔目 的〕 本発明の目的は、日本語処理装置において、形態素解
析機能を独立したサブルーチンとし、仮名漢字変換のみ
ならず、OCR文字認識や音声認識の後処理にも利用可能
とし、ソフトウェア資料の有効利用を図ることにある。 〔構 成〕 以下、本発明の一実施例について図面により詳述す
る。 第1図は本発明の一実施例の日本語処理装置の全体構
成図を示す。キーボード10は文字を入力する他に各種の
モード(仮名漢字変換、漢字仮名変換、OCR文字認識、
音声認識等)を指定するのに用いる。OCR11は原稿を光
学的に読取り、音声入力装置12は使用者の生の音声を入
力する。処理装置13はキーボード10やOCR11や音声入力
装置12からの入力情報について、指定されたモードに従
った処理を実行し、出力装置16に出力する。出力装置16
はディスプレイ装置、プリンタ、音声出力装置等を総称
して示したものである。処理装置13の処理に必要なプロ
グラムはプログラムメモリ(ROM)14に格納されるが、
こゝで注目すべきことは、形態素解析プログラム145を
独立したサブルーチンとし、仮名漢字変換141、及びOCR
文字認識142と音声認識143の後処理144のために共通化
したことである。データメモリ(RAM)15は処理装置13
での処理途中のデータやパラメータ、及び各種辞書を格
納するのに用いる。 第1図の全体の処理フローを第2図に示す。こゝで、
モードnは1〜7あり、それぞれの意味は第1表の通り
とする。 まず、キーボード10により7つのモードのうち1つを
指定した後(ステップ201)、当該モードで必要なパラ
メータを設定する(ステップ202)、処理装置13は指定
されたモードを判定し(ステップ203)、ROM14のプログ
ラム141〜145に基づきモードごとに以下の処理を実行す
る。以下、入力文字列は「応用力をようせいするために
は、…」であるとする。 n=1の場合 キーボード1から仮名の文字列「おうようりょくをよ
うせいするためには、…」を入力する(ステップ20
4)。処理装置13は、このキー入力の文字コード列によ
り形態素解析を行う(ステップ205)、もし未知語が出
てきた場合には、1字読みとばしなどの未知語処理を行
い(ステップ206)、形態素解析を続行する。そして、
1ユニット(句読点で区切られた文字列)ごとに、単語
辞書中に登録されている“表記”の部分を出力して次の
ユニットの処理をする(ステップ207,211)。このよう
にして、最終的に「応用力を養成するためには、…」が
出力装置16に出力される。 n=2,4,5,6の場合 OCR11で原稿を光学的に読み取る(ステップ208)。処
理装置13は、入力パターンについて文字認識し(ステッ
プ209)、候補文字と距離(相違度)を算出してデータ
メモリ15へ格納する(ステップ210,211,212)。この
時、ステップ211の前処理では、濁点・半濁点を1文字
として記入する場合の連結処理(例「は」+「゛」→
「ば」)や、促音や拗音を認識した時に候補文字中に対
応する大文字を挿入する処理(例「ゃ」→「や」)を行
う。次に、形態素解析の技術を用いて誤認識文字の自動
訂正処理(後処理)を行う(ステップ213)。このよう
にして、n=2,4の場合は単語の“表記”部分を出力し
(ステップ211)、n=5の場合は単語の“よみ”部分
を出力し(ステップ220)、n=6の場合は認識文字を
出力して(ステップ219)、次のユニットの処理に移
る。こゝで、n=4のケースでは、「応用力をようせい
するためには、」を入力すると、「応用力を養成するた
めには、」が出力される。 n=3,7の場合 音声入力装置12から単音節ごとに、「お」「う」
「よ」「う」「り」「ょ」「く」「を(お)」「よ」
「う」「せ」「い」…を入力する(ステップ214)。ユ
ニットの区切りは、「まる」、「てん」などと発生し
て、これを認識するか、キーボード10の特定キーを押下
するなどの方法が考えられる。音声認識、候補文と距離
の算出(ステップ215,216)は基本的には原稿入力の場
合と同様である。ステップ218の訂正のための前処理で
は、認識された音素列を文字列に変換する。この場合、
拗音を考慮して第3図のように候補列を作成し、データ
メモリ15へ格納する。即ち、1音素に2文字分の文字コ
ードを対応させる。なお、これはステップ211でも同様
である。次に誤認文字の訂正処理を行い(ステップ21
3)、単語の“よみ”あるいは単語の“表記”部分を出
力する(ステップ220,211)。 第4図は第2図中の形態素解析を利用した訂正処理
(ステップ213)の詳細フローである。 まず、第1位候補文字のみからなる文字列を作成し
(ステップ401)、形態素解析処理を行う(ステップ40
2)。こゝで、単語辞書中には、音声入力の場合を考慮
して、例えば「おうよう」(応用)だけでなく「おおよ
う」などの“よみ”をもつ単語も記録しておく。「わ」
を“よみ”に、表記を「は」(格助詞)とする単語を登
録しておくことも同様である。 次に、未知語部がある場合には、その先頭位置(この
位置をm0とする)が返され(ステップ403)、そこから
長さL1(ステップ401で、たとえばL1=6と初期設定し
ておく)の文字列に対して“距離”から誤認識文字の検
出を行う(ステップ404)。一般に、誤認識文字の個数
はk、その位置はm1〜mkで表わされる。今、n=4のケ
ースで入力文が「応用力をようせいするには、…」であ
ったとし、未知誤部「をようせいす」で「せ」と「す」
が誤認と判定されたとする(k=2,m0=4,m1=6)。こ
の場合、N=N1(=3とおく)位までの候補文字を
「せ」と「す」に関して取り出してN1 2=9通りの文字
列を作成し(ステップ405,406)、それぞれについて形
態素解析する(ステップ407)。そして、文字列ごとの
評価値(単語の評価値の和と、分割数とから計算する)
を計算し(ステップ408)、その判定を行う(ステップ4
09)。切り出された最尤文字列の中に「す」が含まれて
いればステップ410、420の処理へ進むが、そうでなけれ
ば、N→N+1位までの候補を考えてステップ407〜409
の処理を繰り返す(ステップ411,412,413)。 次に、候補文字の順位の或る上限値N2をすぎると、見
出し語辞書中を検索し(ステップ214)、「せ」と
「す」を除した「をよう□い□」にマッチする見出し語
をもつ単語をさがし出す。ある長さL2(L2=3とする)
以上のマッチする見出し語がなければステップ415〜418
の処理により、L1=9−4=5となり、「をようしす」
に対してステップ404以下の処理を行う。このようにし
て、L1=3となった時に、「を」(助詞)が切り出され
(ステップ422,423)、ステップ420,421,402を経て、ス
テップ414でL1=4の時に「ようせい」がマッチし、ス
テップ410で「養成」が選択される。 なお、誤認識文字を含む文字列の形態素解析は、誤字
周辺でバックトラックを多数回繰り返すので単語の評価
値に加減を設定し、無駄な探索をやめるようにする。 〔効 果〕 以上の説明から明らかな如く、本発明によれば、形態
素解析処理手段(形態素解析サブルーチン)を独立させ
ることで、仮名漢字変換と、OCR文字認識処理及び/又
は音声認識処理の大半が共通化される。さらに、OCR文
字認識と音声認識における自動訂正処理とを同一アルゴ
リズムで行っているために、プログラムの共通化、単語
辞書等の共通化による省メモリ効果が大きい。したがっ
て、パソコンなどの小型コンピュータでの実行が可能と
なる。
【図面の簡単な説明】
第1図は本発明方式を適用した日本語処理システムの全
体構成図、第2図は第1図の全体の処理フロー図、第3
図は候補文字列の一例を示す図、第4図は第2図におけ
る訂正処理の詳細フロー図である。 10……キーボード、11……光学文字読取装置(OCR)、1
2……音声入力装置、13……処理装置、14……プログラ
ムメモリ、141〜145……プログラム、15……データメモ
リ、16……出力装置。
体構成図、第2図は第1図の全体の処理フロー図、第3
図は候補文字列の一例を示す図、第4図は第2図におけ
る訂正処理の詳細フロー図である。 10……キーボード、11……光学文字読取装置(OCR)、1
2……音声入力装置、13……処理装置、14……プログラ
ムメモリ、141〜145……プログラム、15……データメモ
リ、16……出力装置。
Claims (1)
- (57)【特許請求の範囲】 1.仮名漢字相互変換処理手段とOCR文字認識処理手段
を具備してなる日本語処理装置において、 前記仮名漢字相互変換処理手段とOCR文字認識処理手段
とに共通に形態素解析処理手段を設け、 前記仮名漢字相互変換処理手段の仮名漢字変換処理、及
び、前記OCR文字認識処理手段での入力文字の認識処理
と誤認文字の訂正処理に、各々前記形態素解析処理手段
を使用し、 且つ、訂正処理において誤認文字を除いた候補文字列と
見出し語とのマッチングをとる際、前記形態素解析処理
手段の形態素解析にもとづき、マッチング範囲を段階的
にせばめて探索を繰り返すことを特徴とする日本語処理
装置。 2.仮名漢字相互変換処理手段と音声認識処理手段を具
備してなる日本語処理装置において、 前記仮名漢字相互変換処理手段と音声認識処理手段とに
共通に形態素解析処理手段を設け、 前記仮名漢字相互変換処理手段での仮名漢字変換処理、
及び、前記音声認識処理手段での入力音声の認識処理と
誤認音声の訂正処理に、各々前記形態素解析処理手段を
使用し、 且つ、訂正処理において誤認文字を除いた候補文字列と
見出し語とのマッチングをとる際、前記形態素解析処理
手段の形態素解析にもとづき、マッチング範囲を段階的
にせばめて探索を繰り返すことを特徴とする日本語処理
装置。 3.仮名漢字相互変換処理手段、OCR文字認識処理手段
及び音声認識処理手段を具備してなる日本語処理装置に
おいて、 前記仮名漢字相互変換処理手段とOCR文字認識処理手段
と音声認識処理手段とに共通に形態素解析処理手段を設
け、 前記仮名漢字相互変換処理手段での仮名漢字変換処理、
前記OCR文字認識処理手段での入力文字の認識処理と誤
認文字の訂正処理、及び、前記音声認識処理手段での入
力音声の認識処理と誤認音声の訂正処理に、各々前記形
態素解析処理手段を使用し、 且つ、訂正処理において誤認文字を除いた候補文字列と
見出し語とのマッチングをとる際、前記形態素解析処理
手段の形態素解析にもとづき、マッチング範囲を段階的
にせばめて探索を繰り返すことを特徴とする日本語処理
装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61044740A JP2660998B2 (ja) | 1986-03-01 | 1986-03-01 | 日本語処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61044740A JP2660998B2 (ja) | 1986-03-01 | 1986-03-01 | 日本語処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62202283A JPS62202283A (ja) | 1987-09-05 |
JP2660998B2 true JP2660998B2 (ja) | 1997-10-08 |
Family
ID=12699841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61044740A Expired - Lifetime JP2660998B2 (ja) | 1986-03-01 | 1986-03-01 | 日本語処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2660998B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4872285B2 (ja) * | 2005-09-14 | 2012-02-08 | 富士ゼロックス株式会社 | 文書管理装置、文書管理システムおよび文書管理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60142464A (ja) * | 1983-12-28 | 1985-07-27 | Fujitsu Ltd | 音声入力による文章作成システム |
-
1986
- 1986-03-01 JP JP61044740A patent/JP2660998B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPS62202283A (ja) | 1987-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255113B (zh) | 智能校对系统 | |
US8185376B2 (en) | Identifying language origin of words | |
US7174288B2 (en) | Multi-modal entry of ideogrammatic languages | |
CN110489760A (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
US20110106814A1 (en) | Search device, search index creating device, and search system | |
JP2660998B2 (ja) | 日本語処理装置 | |
CN116595970A (zh) | 语句同义改写方法、装置和电子设备 | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP2001229162A (ja) | 中国語文書自動校正方法及び装置 | |
WO1992005517A1 (en) | Audio-augmented handwriting recognition | |
JP2000099084A (ja) | 音声認識方法及びその装置 | |
JP3001334B2 (ja) | 認識用言語処理装置 | |
JPS62224859A (ja) | 日本語処理方式 | |
JPS62202285A (ja) | パタ−ン認識の後処理方式 | |
JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
JPS62202284A (ja) | Ocr・音声認識後処理方式 | |
JPH0574867B2 (ja) | ||
JPH0627985A (ja) | 音声認識方法 | |
JPS62247451A (ja) | 日本語処理装置の単語辞書構成法 | |
JPS61139828A (ja) | 言語入力装置 | |
JPH06289894A (ja) | 日本語音声認識方法 | |
JPH06308994A (ja) | 日本語音声認識方法 | |
JPS61121167A (ja) | 区切り発声に基づく音声ワ−ドプロセツサ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |