JPH0773174A - 日本語処理システム - Google Patents

日本語処理システム

Info

Publication number
JPH0773174A
JPH0773174A JP5159466A JP15946693A JPH0773174A JP H0773174 A JPH0773174 A JP H0773174A JP 5159466 A JP5159466 A JP 5159466A JP 15946693 A JP15946693 A JP 15946693A JP H0773174 A JPH0773174 A JP H0773174A
Authority
JP
Japan
Prior art keywords
gram
dictionary
japanese
text
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5159466A
Other languages
English (en)
Inventor
Picon Joseph
パイコン ジョセフ
Staples Thomas
ステイプルズ トマス
Kazuhiro Kondo
和弘 近藤
Maremochi Arai
希望 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Priority to JP5159466A priority Critical patent/JPH0773174A/ja
Publication of JPH0773174A publication Critical patent/JPH0773174A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 日本語文章を平仮名に変換することである。 【構成】 日本語文章を漢字と平仮名とカタカナに区分
して、各々の読みを辞書から検索し、且つ組み合わせる
ことにより正確な読みを出力する手段を設ける。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、変換する日本語入力テ
キストを綴りの正しいユニット(以下、「η−グラム」
と称する。)の最適候補を定められた手順に従い選択
し、そして入力テキストを鎖状に接続することを可能に
する。包括的な辞書は既に開発された漢字、平仮名、η
−グラム及びそれら平仮名のような翻訳(ASCIIコ
ードを用いた手段)を含み、閉鎖された組の試験、η−
グラムのアルゴリズムを、幾つかのパブリックドメイン
のアルゴリズムより最適な能力を提供するように表現し
て、広範囲な日本語テキスト資料の文章を平仮名に変換
する際の誤り率を3%以下にさせるシステム及び方法に
関する。また、本発明の実施例である記述された日本
語、配列を整合させるアルゴリズムを他の言語における
近似した問題にも適用することに関する。更に、本発明
のアルゴリズムは、現実に使用された10,000の音
韻種バランス文章の日本語音声データベースプロジェク
トのデータベースを提供することに関する。
【0002】
【従来の技術】従来の幾つかのシステムは、パブリック
ドメインとして用意されている。下記に詳述するよう
に、本発明を創作する上で、3つのパブリックドメイン
のアルゴリズムの性能を説明する。それは、「JUMA
N」、「WNN」及び「KAKASI」と称されてい
る。この3つのアルゴリズムは、規則と例外辞書を含ん
でいる(文献の中では良い資料ではないと考えられ
る)。各々のシステムは、日本語テキストの量を公正に
制限しつつ、日本語テキストを正確な平仮名文字へ変換
する処理を行っている。
【0003】漢字の到達範囲は、システムの評価に於て
重要なことである。本発明を完成させる過程で、日本語
会話文章の大きなデータベースの収集をする必要があ
る。このテキスト資料の種々の組から大きな文章データ
ベースを発生させることができる。このデータベース
は、一般に知られている電子書籍(EB)であって、だ
いたい1Gバイトのデータ、19のテキスト・ソースか
ら抽出した文書が含まれている。この中には、複数の日
本語標準辞書、日本語ブリタニカ百科辞典、一流新聞及
び幾つかの文献がある。表2にテキストデータベースの
一覧を示す。
【0004】従来の日本語テキストを平仮名に変換する
3つのパブリックドメインアルゴリズムは、それらが有
効であることに基き選択され、一般社会で利用が広く行
きわたった、又は確実に鍵となるアプリケーションのた
めに事実上標準として採用されたものである。第1は、
JUMAN(日本大学形態素論分析)のようなシステム
である。漢字から平仮名への変換は、この広範囲にわた
るパッケージの小さな部分によって、一般の日本語テキ
スト処理及び辞書アクセスを支持するものである。この
パッケージは、日本語研究分野の中で広範囲に使用され
ている。
【0005】第2に評価されたパブリック・ドメイン・
アルゴリズムは、通称「Wnn」と称するものである。
Wnnは多くの日本語ワードプロセッサの一部にUNI
X環境下で利用可能なものである。これは、入力の取扱
とX11ウインドウシステムが日本語に拡張している及
び日本語バージョンのemac(有名なWYSIWYG
テキストエディタ)のための漢字テキストの表示に使用
される。複数の有名な商業用ワードプロセッサパッケー
ジもまたWnnソフトウエアを使用している。
【0006】第3に選択されたアルゴリズムは、KAK
ASIである。KAKASIの辞書は、最も広範囲にわ
たることが明らかである。事実、これらは広辞苑から派
生したように見える。KAKASIは、また計算機上そ
れらアルゴリズムの最も能率的なものであり、また、こ
の辞書フォーマットが公正で良い資料であって且つ簡単
であることから最も広範囲にわたるものに見える。しか
しながら、主な欠点の1つは、このパターン整合のアプ
ローチは単純され過ぎていて、高度な辞書活用できない
ことである。
【0007】この評価に於て、各アルゴリズムの出力
は、人手で評価された誤りの結果を、2つの例で作表さ
れた。変換不能−システムは有効な変換を出力しない
こと、誤変換−システムは1又はそれ以上の漢字文字
を不正確に変換することである。システムの評価は主に
2種の誤りを合計したものとなる。図8に、最も頻発し
た読違え文字を示す。処理に時間を消費するため、評価
するデータベースの大きさを約1,000文章に限定し
た。
【0008】本発明のη−グラムアルゴリズムの結果は
驚くべきものでない。本アルゴリズムとしては、表3の
KAKASIが他の2つのアルゴリズムより一層よい特
徴と判断した。JUMANとWnnの能力レベルは、一
般の研究使用の為には事実上役に立たないと考えられ
る。
【0009】上記より評価データベースが含む文章、そ
の文章は特別に選択された常用漢字文字セット内で使用
されるものである。表3及び表4に能力を示し、平均よ
り大きい能力上での低い制約に注意しなければならな
い。明瞭なのは、データベースは多くの試みをするのに
困るのは辞書文字にない文字の取扱である−それら辞書
にない文字を全て揃える問題点は究極的にはシステム全
体の能力を抑えてしまう。
【0010】
【発明が解消しようとする課題】従来の音声処理の共通
問題は、記述された言語を発音記号群に変換することで
ある。このようなアルゴリズムは英語でサウンドルール
(sound rules )という標題、又は、テキストの構成要
素の中核の音声合成システム(D.H.Klatt,"Review of t
ext-to-speech conversion for English",Journal of t
he Acoustical Society )と呼ばれている。最近では、
興味ある言語の総語集音声認識の成長があり、また音声
データベースプロジェクトはこの課題を解消することを
熱望している。また、そのアルゴリズムは音声の調和さ
れた文章セットの開発に適用させる技術を創設するもの
であり、そして音声認識を評価することである。
【0011】
【課題を解決するための手段】上記目的を達成するため
に、本発明の日本語テキスト音声処理システムにおいて
は、テキストを漢字、平仮名及びカタカナに区分した後
に、区分された文字情報のηグラム単位を解析して、テ
キストのバックポインタから先頭文字までの最適通路を
計算すると共に、この最適通路に従ってηグラム辞書単
位に検索を行い日本語テキストの平仮名読み及び発音記
号を発生させるものである。
【0012】上記ηグラム辞書には、標準的な漢字辞書
と変則的で不明確な読みを有する特殊文字の為の辞書と
を有し、入力テキスト中の漢字文字及び前後の平仮名文
字の前後関係を調査する結果に基いて、最適読み変換を
する手段を有するものである。
【0013】
【作用】上記のように構成された日本語音声処理システ
ムに、漢字、平仮名及びカタカナが混合されたテキスト
を入力すると、テキスト中の各々の文字に対応する重み
に従い、最適な変換通路を解析するため、テキストは重
複する誤った読みを削除することができ、且つ、正確な
日本語発音の読みを出力することができる。
【0014】また、変則的若しくは専門用語の場合は、
特殊文字専用のηグラム辞書を検索、変更及び追加する
ことにより、初心者でも辞書の更新ができるシステムの
柔軟性を提供することができる。
【0015】
【実施例】日本語書体システムはロゴ・グラフィックで
あって、書体システム各々の文字、参照される描画等の
全ての語の部分を意味する。公知の慣習的記述システム
は混合される3つの型の象徴から成り:漢字、平仮名及
びカタカナがある。この漢字の象徴は、中国語の記述シ
ステムを改造したものであり、概念語又は固有名詞の表
現に使用される。平仮名の象徴は、漢字で記述された概
念語の語尾変化のある記載に使用され、また非漢字であ
る多種の原語にも使用される。カタカナ象徴は、外国起
源の表現語として使用される。これら平仮名とカタカナ
は音節文字である。
【0016】図1には、一般の日本語綴りを示す。この
ローマ字綴りで”watashi ”又は
【外1】 の様な単語(以下、適宜ローマ字綴りを””で囲って示
す。)は、図示する複数の漢字から成り立っている。”
ikimashita”(英語で、 to go )のような動詞は図1
に示すように、漢字の文字「行」(”iku ”)を混合す
ること又は動詞の種族に基づき表現されている若しくは
平仮名文字で表現される動詞の活用(過去時制)「きま
した」を含んでいる。
【外2】 (英語で NewYork )の様な外国都市の地名はカタカナ
「ニューヨーク」と記述される。なお、ローマ字綴りを
使用するのは、音声処理をする際にローマ字綴りに基き
発音させるのに便利な場合があるためである。
【0017】日本語綴り、文中の文字は非標準的な空白
又は幾つかの他の印で決定され、これらは単語若しくは
境界を表す。文字の境界はこれのみによって決定され
る。本発明の概念は、テキストを区切って図表の各群を
それらの意味又は発音に変換させなければならないこと
である。図1には、正確に区切られたテキスト「私 は
東京 から ニューヨーク まで 行 きました」が示
されている。このように自動的に句切ることは、日本語
テキストの機械処理による1つの試みである。
【0018】最も正式な記述(例えば、 新聞、雑誌、
業務文書及び電子メディア)は、推奨される漢字を使用
して制約された国標準の組であり、参照される常用漢字
( Everyday Kanji )である。この組は1、945文字
を含み、また中核となる漢字の組は平均的な読者が容易
に読めることが期待できるとみなせる。いくぶん全体の
視野で問題の大きさに重きを置くと、平均的な大学卒業
者は約3,000文字を読むことができることや良い辞
書には約12,000文字を含むことが知れている。本
発明は、常用される組の範囲の文字のみで成り立つテキ
ストについて正確な演算をするアルゴリズムについて成
されたものである。一方、これ以外の文字の組は、希に
生じるので特別な扱いとするのが有利である。
【0019】2以上の広範囲な文字の組は、近代的な今
日の計算機環境のため電子表示により紹介されているこ
とが公知である。これらに役立つ表現は、ASCII文
字の組に似た機能であり−それらは独立した形式の機械
にテキストを蓄積する手段を提供する。それらは辞書リ
スト及び一般的な漢字文字表現の辞書漢字リスト以外に
定められた外字リストの2つの特殊な組を有する。
【0020】上記、2つの組の第1の組は、日本工業規
格(シフトJIS)のような8ビットの既知の組であ
る。この組の各々の文字は2バイトで、また先導するバ
イトによりシフトJISの2バイトのシーケンスを調査
することができる。広範なコンピューティング・プラッ
トホーム及び電子メディア上でシフトJISを見出すこ
とができる。例えば、シフトJISは日本語圏内で支持
されている。例えば、X11ウインド(Window)システ
ムがある(たいていのUNIXワークステーションで利
用可能である)。
【0021】上記第2の組の傾向は、主にサン社のワー
クステーション(又は連合する第3パーティのツール)
用の日本語環境に使用され、また、UNIXコード(E
UC)文字セットの環境である。これらの主な特徴はマ
ルチバイト文字の組(1、2及び3バイト処理が現在支
持されている)、更に、一般のASCIIテキスト及び
日本語綴りの両者を同一の文字の組の中で支持されてい
る。
【0022】両者の各々の文字の組は約7,000文字
が含まれている。これはテキストの源にアクセスするこ
とが容易であり、電子書籍又は百科辞典のような、常用
文字以外の文字の組を使用するほど広範囲である。今日
の電子情報処理において、それら組の中の文字に漢字の
使用制限の規制が行われていることが特徴である。よっ
て、本発明は、テキスト処理アルゴリズムの開発におい
てこれら文字の組の働きが重要であることに鑑みてなさ
れたものである。
【0023】簡易な形式を一致させる対応において、平
仮名の意味の1つは、極端な表現に使用される記述言語
である。この言語の組は、約125文字に制限されてい
る。もちろん、平仮名は発音記号の組ではないから、こ
の発音を直接配置するものではない。ただ、追加の処理
をいくつか必要とし、平仮名は明かに現実に近い発音を
表現するので、テキストの区分による複雑な音響の中に
おける計測に有利である。
【0024】日本語の顕著な視点の1つは、記述された
すべてのテキストは平仮名に変換することができ、その
発音についても損失のない情報であるけれども、これは
多少の理解を阻む可能性を有する。例えば、図1に示さ
れたものがある。むしろ日本語綴りの顕著なもう1つの
視点は、漢字文字に表される平仮名の前後関係により正
確な変換をすることである。各々の漢字は通常複数の共
通読みを有し、また文字が発生する前後関係の調査結果
により不適当な読みを消去しなければならない。他の書
体システムにおいて、中国語のような、更に漢字文字は
使用されるが、各々の文字の変換は敏感な前後関係がよ
り少なく、また独立−前後関係辞書を見渡す十分なアル
ゴリズムであるといえる。
【0025】本発明においては、一般的な日本語綴りを
平仮名の様な記号の組に変換するアルゴリズムを提供す
る。これらはより標準的なテキストの発音にほぼ近いも
のとすることである。アルゴリズムは2つの前提に基づ
く、漢字文字の正確な読みは、隣接する文字の調査に
より定められた小さな数であること;辞書に要求され
るのは、処理し易い組み合せの数量に抑制することであ
る。
【0026】この選択アルゴリズムは、最上のテキスト
変換が図表の処理の最有力候補の構成に影響される。こ
の構成は、入力テキストが鎖状につながれた型である。
既に開発された包括的な辞書は、漢字η−グラム(漢字
と平仮名を混合して使用する)とそれら平仮名の様な翻
訳(ASCIIコードを使用した手段)とを含む。実際
のアルゴリズムは、それらη−グラム辞書の品質は極端
な従属関係であり、詳細は後述する。
【0027】音声処理の一般的哲学では、CPU又はメ
モリ上で簡略的なアルゴリズムが望まれる。今日のコン
ピュータ・メモリ及びCPU速度は激しく増加している
ことから、オンライン辞書の1つの考えで、データ処理
の上で物理的メモリの中に蓄積する現在の手順の実行
は、負荷が大きすぎることが課題である。本発明の取り
組み方は、本質的には従来の基本辞書と基本規則よりも
強力なメモリを使用することができる。代表的な設計の
目標はシステム開発であり、それは初心者によっても容
易に増強させることができるものである。改良された基
本規則システムは、しばしば広範囲な予測及び自然な言
語処理の専門技術を必要とする。また、経時的に維持す
るのが困難である。故に、本発明は統計的なアルゴリズ
ムによる新規且つ簡易なシステムを開発する必要性に鑑
み、種々の日本語テキストの範囲内で漢字平仮名変換及
び日本語音声処理する為にテキストを取り扱うことであ
る。
【0028】また、本発明による辞書設計及び辞書化状
況の一覧表の概略を開示する。次に、文法的関係に基い
て辞書内の最適な組合せの型の場所を用いるアルゴリズ
ムにつて開示する。もちろん、辞書の設計と文法的関係
アルゴリズムは、高い相互関係があるので、2つのデー
タベース上で幾つかの比較評価の結果を得た。また、シ
ステムの限界についても検討することとする。
【0029】本発明に使用されるN−グラム辞書の概要
について説明する。ここで、日本語テキストから平仮名
への変換の問題を2つの段階に分解することとする。そ
れは辞書の設計及び文章の文法的関係である。辞書設計
の問題について、辞書設計の2つの主要な構成は、辞書
の構成が簡略であること及び辞書が極めて容易に増大で
きることである。概念としては、システムが単語辞書を
使用しながら見ることができることである。経験によっ
て、容易にη−グラム単位(連続長の漢字文字を含
む。)に分離された辞書を見つけ出し維持することであ
る。このシステムは、現在使用する1から9までのη−
グラムの長さを含む9つの辞書化を行う。
【0030】上記辞書の中には、3つの本質的要素範囲
が含まれている。平仮名のような翻訳と関連する漢字順
序、重み若しくは発生の可能性の要素である。本発明で
は、平仮名のような翻訳を引用し、この読みの一貫性を
文学研究と共に維持することができる。現在、それら記
号のためにASCII表現を使用することができる。こ
の記号表示の組は日本電子工業開発協会(JEIDA)
推奨のASCIIの平仮名記号表から引用していて、図
2に全体の記号の組を示す。
【0031】本発明は、ある特徴的な改良を除いて、上
記JEIDA標準に忠実に従う。本発明は、明瞭な母音
長のモデル表現を拡張することができる−長い母音の綴
りの最後は”@”記号のマークがなされる。例えば、
【外3】 (日本語の形容詞として”大きい”)は翻訳すると”o
@ ki@”である。この変更の為の主要な動機は幾つ
かの発音の考慮に基くものである。
【0032】日本語の会話で用いられる母音の持続は、
重要であると考えられる。これは、少なくとも3つの型
の母音の期間がある。”hon”の中の”o”のような
短い母音がある。これらは適切な記号で配列されたもの
を図2に示す。
【外4】 の中の”o”のような長い母音は、母音に続いて”@”
(例えば、”o@”のように)で出力される。ある時
は、2つの連続した語の中の位置の母音の発音は単一の
長い母音であることがある。この事例もまた”@”記号
を使用する。故に、”okii”の”ii”は”i@”
と出力され、これは通常
【外5】
【0033】最後に、連続する2つの母音の位置は2つ
に独立した母音で発音される。この事例では、2つの母
音の出力(例えば、”ii”又は長い母音のような2つ
の短い母音/”o@ o”のような短い母音の組合せ)
である。複数の連続する母音の単語又は長い母音/単語
の中の連続する短い母音の境界を通り越して発生する傾
向がある。本発明は、様々な母音の前後関係を予測する
方法を提供する。その前後関係の区別は後の音声認識の
研究に有益となるであろう。
【0034】一般の型が使用されて記述する各々の辞書
の入力は、次の数式1に示す。
【数1】
【0035】η−グラムの単位は、N、N=m+n+l
の様に定義される。
【数2】
【0036】kは、漢字文字を表現し、mとlは、前後
の文字の数を表現し、またηは、前後関係の真中の文字
の数を表現する。更にhp は、平仮名文字の出力順序を
η−グラム入力によって表現するものである。
【0037】左右の前後関係は選択可能である。これは
Eqに表示される。数式2は、四角い括弧で囲まれたk
m とkl による。もちろん、唯一前後関係が独立の入力
が必要とされたとき−事例に於てkm 又はkl のどちら
か一方を必要としないとき、これは有利である。大きな
パーセンテージの入力の為(例えば、適切な名詞)に、
これは明瞭な選択をする場合である。
【0038】上記大きなパーセンテージの入力であって
も、正しい前後関係の使用により適切な読みを定義する
ことができる。正確な前後関係は上級のη−グラムのた
めのより頻繁な隣接する漢字文字の組、又は共通する漢
字と平仮名の混合である。時折、左の前後関係を使用
し、主に平仮名を漢字に変換するときの定義である。変
換はしばしば文字に役立つ、それら文章の機能との強力
な相関のために共通する読みはほとんど存在しないであ
ろう。ある時は、これは調査により平仮名文字を無視し
て分離されることがある。
【0039】Eq.でも数式1は、複雑に見える辞書の
入力の作成を掲載する。各々の入力は実際には非常に単
純なものである。図3に辞書からη−グラムの1、2、
及び3つの単位の見本を示す。各々の入力はη−グラム
コードを含み、EUCを使用して、ASCII図表及び
重みを表示する。
【0040】最初に、辞書入力の見込みのための重みを
期待する。言語テキストデータベースの統計値を解析す
ることによってそれらの見込みを計算することができ
る。使用する確率をあいまいな表現に分解して予想す
る。また、最も共通する文字順序の翻訳を”学習”する
ことにより実現する。更に、複雑な状況の型は、各々他
の場所で試みることにするほうが有利である。しかしな
がら、複雑な状況の型であっても、その独自の型は装置
内で行う正確な連続した値を有することができる。この
連続値は、幾つかの価値を有する明確な二進数の値の重
みを有するためである。
【0041】この驚くべき事は、幾つかの単純な規則の
重みを辞書の入力に分配すれば十分であることが判明し
た。第1に、名詞語句の重みのη−グラムをそれら長さ
に比例して与える。この事例では、文字名詞語句中の各
々に同じ重み1.0を付与する。あいまいな表現が発生
したときは、η−グラムの上級単位は混合のη−グラム
の低い単位の上にするのが良いことが判明した。例え
ば、図3から、名詞語句の重みの3グラムは、幾つか許
される混合の1グラム又は2グラムより僅かに高いこと
がわかる。
【0042】第3に、η−グラムは平仮名と漢字の組合
せを超えて全ての漢字入力を包含することが望ましい。
ある時は、平仮名文字の順序は2つの漢字文字の多数の
意味に従う−1グラムは、2グラム又はその逆に従うこ
ととなる。η−グラムの重みを調整することは、全ての
漢字文字が証明された効果の確認アルゴリズムを含み、
このアルゴリズムは適当に区分されたものである。
【0043】図3を参照すると、1−グラムの組内の最
後の4入力「史・浪」等は、JYO又は、EUC の様
なタグ、及びそれら入力の重みは単語(1.0)の名詞
語句の重みより小さいことがわかる。これは診断計器を
開示するものである。幾つかの文字の1−グラムは変換
してはならないことである。何故なら、これらの読みは
非常に不明瞭だからである。このカテゴリ内の文字は常
用セットのタグとJYO の記号の範囲内に納まる。こ
の納まった常用セット外の文字は、 EUC 記号のタ
グが付される。何故なら、それら入力の重みは1−グラ
ム入力よりも低くセットされているからである。これら
入力は、他の選択をしない時(変換候補がなくシステム
の処理が中断している間に文字を実質的に納める時)に
のみ使用される。これは、重要な診断道具であって辞書
が改良を必要とする事例を確定するためのものである。
【0044】最後に、また最も重要なことは、音声処理
が必要とする、辞書の入力を追加するための論理的解釈
である。η−グラム辞書は明白な一対一のマッピングで
ある。各々のη−グラムは辞書にただ1つの入力を有す
る。一般に、文字は最も有力な読みを有していて、それ
は1グラム辞書の中に入力される。運悪く、これは最多
数の文字のための事例でない場合−高い可能性の2から
4の中でどちらかを選ぶ標準的な共通文字である。
【0045】この手法は、高い順序辞書内の幾つか履行
されない読み、又は1グラム辞書内の履行されない読み
の入力から1グラム辞書内の履行されない読みの入力か
ら削除する多くの前後関係を定めることである。例え
ば、図4に示すように、1グラム文字の入力は、一般に
「つばさ」というように読む。しかしながら、図中の2
グラムの翼はの文字は「よく」と読む。このような読み
を網羅するのに約30の入力が必要である。
【0046】この結果、新たな入力辞書へ追加するため
の通常の手順は、最初の読みをηグラムの最も低い辞
書に追加すること、上記の例外をηグラムのより高い
辞書に追加することである。この手順は、良い日本語漢
字辞書によって容易でありまた公知の技術でもある。本
発明は、初心者を連続して訓練し、辞書を維持する働き
を有する−全ては、上記平均的な漢字の読みのレベルと
良き漢字辞書が要求される。よって、本発明の第1の目
的は、簡易な辞書の更新を行うことである。
【0047】各々のη−グラム辞書の大きさの一覧を表
1に示す。この辞書全体の大きさは,145,753個
の入力を有するものである。2グラム辞書の入力の分配
が頂点(68,407個)であること及び末尾(9グラ
ムに相当)の終りが22個と小さいのは、意外なことで
はない。これら辞書の初めの入力は、複数の公共に利用
できる電子辞書からでのものであり、また幾つかの経験
の結果(後述する)、その後の手作業により修正され
る。
【0048】驚くべき事は、それら入力が実際にどのく
らいの大きさを必要とするかである。これは堅い定義で
ある。テキストデータベースの分配の末尾は、大きくな
る傾向がある。単一プロッセサでない限り、種々の多数
源からの莫大な量のデータがあり、1つでは与えられた
入力の効果が確かではない。これを簡易な実験で実証す
れば、例えば、900,000のテキストデータベース
の文章を広範囲なテキスト源から選択したアルゴリズム
を用いた。各々の辞書の使用の解析を示すと、それは未
だ使用されたことがない40%を超える入力が存在する
ことが判明した。非公式の調査では、現在の辞書にこの
結果が確認されている。即ち、多くの辞書入力は不必要
なものである。例えば、多くの4グラムと5グラムの入
力は必要とされないであろう。何故なら、同じ前後関係
は2グラム又は3グラム辞書に包摂されているためであ
る。
【0049】ここで、手作業により辞書と重複した入力
の合併整理を調査した。追加研究の課題は、最適化した
辞書の文法編集技術に基いた演算アルゴリズムである。
最適化を除外したとしても、現在の辞書が占める約15
Mバイトのコンピュータ・メモリの近代的なデスクトッ
プコンピュータでは、十分ではない。もし、辞書がメモ
リ内に導入されない場合は、CPUの必要条件を今日の
標準的な計算機により一層質素なものにできることとな
る。
【0050】また、辞書検索時間は重要な課題ではな
い。現在の辞書は、二等分の検索アルゴリズムを使用し
て検索する。それは0(logN)の複雑さを有する。アル
ゴリズムと共に、たとえもし辞書の大きさが本発明の2
倍であっても、費用増加の課題は、CPU時間において
重要ではない。故に、メモリに関して、極端に大きな辞
書は障害とはならない。本発明を適用した場合は、本発
明の規模が現在のシステムの範囲を拡張するものと考え
ても、辞書全体の大きさが現在の大きさの2倍以上には
ならないと確信する。
【0051】本発明の実施例において、無理な長さのダ
イナミックプログラミングを提供することができる。記
述的には効率的であるが極めて圧縮されたテキストを変
換する課題を解消する辞書の最適な組合せを提供する。
本発明を説明する前に、辞書入力の検索アルゴリズムと
辞書設計は密接に結合される。辞書入力の重みは、検索
アルゴリズムの中で最高の通路の選択に強く影響を及ぼ
す。何故なら、能率的な検索アルゴリズムは、許容され
る組合せの総数が潜在的な言語及び非常に大きな辞書
(設計による。)にとって非常に重要となるためであ
る。
【0052】最も簡易なアプローチによれば、基本−辞
書アルゴリズムは、テキストを左から右へ走査するか、
又は最も大きいη−グラムを辞書内から発見して選択す
ることである。本発明の手法は、”第1位の最も大きい
η−グラム”のアプローチと称する、以下これを説明す
る。
【0053】
【数3】
【0054】上記Mは連続入力の長さを、kl は入力さ
れた1文字を、及び、Nは最大η−グラム単位を各々示
す。例えば、第1番目の文字から開始し、9文字全体の
為に最初は9グラム辞書を検索するものとする。もし、
辞書に適合しないことを発見したときは、先頭の8文字
の為に8グラム辞書を検索するという手順に従う。辞書
内のη−グラム単位iに適合したことを発見したとき、
又は、(i+1)st 番目の文字に照合を移動すること
となる。多くの常用漢字図表は、1グラム入力を有し、
一般に最も小さく、全部1グラムから成る読みを出力す
る。
【0055】この戦略は、ある程度の問題を有する。何
故なら、この戦略は完全な変換に有効なものとはいえな
い−できたらあいまいな表現の80%が典型的に遭遇す
るために有効となるからである。しかしながら、ある高
速学習ではこの戦略が高い能力のために十分といえな
い。しばしば、辞書の初期段階での選択は固定的であ
り、その後文章に合わない変換を生じる結果となる。そ
のようなものを、例えば、図5に示す。この事例では、
最初に2グラムの選択をした結果、次の3文字の為に無
意味な品詞・文法的関係を解析している。この事例での
可能性は、続いて起こる3文字を3グラム又は3つの1
グラムとして扱っている。但し、両事例の読みは正しい
のもであるが、明らかな相違は、全体的に最適化されて
いるか否かである。入力テキスト中の「多くの可能性」
又は「最適」な変換手順、及び、それらを後進及び前進
する作業により未決のη−グラムを全て選択して完了す
ることができる。それら競合する中から可能性の存在す
るものを選択して、この最適化の問題という課題に対し
て最適なものを割り当てることとする。また、公正な標
準ダイナミックプログラム(以下「DP」という。)の
アプローチを使用することでこれらは解決するであろ
う。
【0056】必要な大きさの辞書内の入力の数によっ
て、辞書の検索回数を限界と考える。ここで注意するこ
とは、費用を増加させるアプローチを使用した最適化の
問題は、累積された先行する両節点(事例”N型”)で
ある。本発明の節点費用は次のように定められる。
【数4】
【0057】この w[kl+j-1 :ki ] は、η−グ
ラム辞書入力の長さの重みを表現し、jは入力テキスト
中の文字 kl+j-1 から ki に対応している。選択さ
れた方向は最大の費用を伴う最良の方向である。
【0058】遷移費用は検索空間を限定するのに非常に
重要である。また、この定義を次に示す。
【数5】 上記式の dtrasnsはある節から次の節まで遷移する為
の費用を表す。ここにNmax はη−グラム単位の最大を
意味する。数式5は、本発明では直前の遷移のみを検索
すれば良いことを示し、その範囲は、1≦l≦Nmax
ある。
【0059】図6に、漢字文字(入力)を水平軸にη−
グラム単位を垂直軸に割り当てた解析結果を示す。図5
のダイナミック・プログラミングに基ずく検索事例を図
6に示す。このアプローチを適宜「長さを制約したダイ
ナミック・プログラミング」と称することとする。何故
なら、これは図6から自明なのであって、最良の通路は
η−グラム単位の長さの合計が入力テキストの長さと同
じであることのみを制約した許容ηグラムの組合せに帰
着する。
【0060】ここで、節(i,j)から適切な辞書のη
−グラムで成り立っている漢字文字kl+j-1 からki
でが節の費用となる。辞書は一対一に対応するから、こ
れらは各節から1つのみ選択することが可能となる。た
とえ複数を選択することが許容されても、多くの可能性
(又は入力が大きな重みを伴っても)を各最適化処理の
中で選択することができる−それらは、従来のように発
見する最適通路の中からの選択を保持する必要はない。
しかしながら、他のアプリケーションのため、各節で複
数の読みのη−グラムを決定させるなければならない。
例えば、テキストの可能な全ての読みを出力する如くで
ある。
【0061】もちろん、DPでの革新は、バックポイン
タから戻す数を選択でき、その必要な調査を最小限に維
持することができる。この事例において、不完全な通路
の戻す数は、η−グラム単位jの機能を検索すれば良
い。図6右上に1及び2グラム節をバックポインタとし
た例を示す。各々の節から戻す数は、潜在的に1、2及
び3グラム単位の様に種々選択することができる。ここ
で、「店側」の「側」のη−グラム単位jの機能を3か
ら1まで検索して1グラムを得た場合は、戻すηグラム
単位jを1とする。次に、図6の左下図を参照するとi
=K4 を現在のηグラムとすれば1でありこれを起点と
して「総代理店」を同様4から1まで検索する。そして
「代理店」を3グラム単位の辞書内に発見すれば、戻す
ηグラム単位を3とすることができる。更に、残りのテ
キスト「総」について検索するとηグラムは1となりK
0 において1グラム単位に戻せば良いことがわかる。即
ち、バックポインタの位置からテキストを右(末尾)か
ら左(先頭)へ検索する過程で、ηグラム辞書を調査
し、最良の通路を見出せば長い漢字熟語を正しい平仮名
に変換できるのである。従来の辞書には、各々の漢字文
字及び熟語について重複する辞書入力が存在すため辞書
が増大し、且つ複数の読みを発生させるので正確な読み
を手作業で選択する必要があるか又は誤った読みを発生
させることとなる。即ち、従来は、唯一の行i−jを求
めるために、バックポインタから戻す不完全な通路を全
て検索する必要があるので、現在の節のη−グラムから
不完全な通路の戻りを、テキストの末尾(行i−j)か
ら現在の節までの全ての文字を消費しなければならな
い。この意味に於て、η−グラムは消費される入力文字
の後の位置に設定される−これは、辞書内の文字をテキ
ストの最後から最初に沿って消費することとなる。図6
に、選択される通路の軌跡を示す。
【0062】競合する数を仮定すると、それはさほど大
きくはなく、また検索時間は実際には入力テキストの長
さと共に比例する。後述するデータベース上において、
文章の19%に、少なくとも1つの不明瞭な文字順序が
含まれていることが判明した。基礎となる文字の特徴
は、約5%の文字(DP格子内の行)表示が複数の不完
全な通路であることである。故に、もしある決定が正し
く高い能力の時には、DP整合アルゴリズムを使用しな
けれなければならない。他方で、もし約80%の確度で
不明瞭な文字順序(多くのパブリックドメインのアルゴ
リズムのような)の時は、DP整合の必要性は明らかで
はない。
【0063】最後に、η−グラムアルゴリズムからの出
力について、図5の事例を図7に図示することとする。
このASCII読みは、幾つかの修正された情報に沿っ
た出力である。一般に、全ての区読点は入力と出力に表
示されていない中の一部分ある。もし「JYO」又は
「EUC」のような記号が出力に表示されている場合
は、何か間違っていると専門家は知ることができる。D
P修正表示は、それに示された不完全な通路、競合する
辞書入力等に利用できる。これらは、アルゴリズムと必
要な辞書の改良決定の修正に非常に有利である。
【0064】以上の様に、漢字を平仮名に変換する高い
能力のアルゴリズムを開示した。その能力は、2つの評
価の上で上位の3つのパブリックドメインアルゴリズム
を示した。アルゴリズムは現在の取扱で広範囲の共通漢
字文字、及び、より難しいテキストへこの辞書の増加に
よって簡単に広げることができる。
【0065】本発明は、解放−セット試験を網羅する可
能性を有している。多用化されたテキストを更なる実験
と共に獲得し、本発明の辞書への入力数を最小とするこ
とができた。また、辞書の整備費用を抑えることができ
る。本発明により漢字を平仮名に変換する多くの問題を
解決可能である。
【0066】
【発明の効果】本発明は、上述のように構成されている
ので、以下に記載されるような効果を奏する。本発明の
アルゴリズムは、表2の初めから5つのテキスト・ソー
スの上で広範囲にわたり容易に訓練することができる。
【0067】本発明のη−グラムアルゴリズムは、辞書
を整備することができる。即ち、最初は19%の文章誤
りであっても、この誤りの75%を超える読み間違え
は、約5つの共通する文字である。FJニュースデータ
ベース上での誤り調査の後に、また、辞書を適切に修正
した結果を表4に示す。この結果3.6%程度まで改善
される。
【0068】本発明のアルゴリズムに於て、テキストの
長さと機能についてCPU時間を調査した。その結果を
図9に示す。ダイナミックプログラミング格子配列はη
−グラム単位の機能と入力長によるものである。また、
競合する数の前提は、小さく、CPU時間は入力長に比
例するアルゴリズムである。CPU時間を図9に示し
た。サン社のスパークステーション10/30と専らC
++記述プログラムの為の128Mバイトメモリ上でこ
の計算を行った。平均すると、処理時間は、1文字当り
約1ミリ秒である。現在のソフトウエアは前処理でメモ
リ内に辞書をロードするため、20秒程度のCPU時間
を初期化に要する。小さなデータベースのためには、こ
れがCPU時間の全体を短縮する最も有力な要素であ
る。
【0069】以上のように、本発明の特定の実施例につ
いて述べてきたが、それらは本発明の範囲を実施例に限
定するものではない。本明細書を参照することで、当業
者にはその他の実施例が可能である。
【0070】
【表1】
【0071】
【表2】
【0072】
【表3】
【0073】
【表4】
【図面の簡単な説明】
【図1】一般的な日本語綴りを平仮名変換処理をした例
である。
【図2】漢字平仮名変換の出力記号のリストを表示した
図である。
【図3】1グラム、2グラム及び3グラム辞書から抜粋
した漢字に対応する読み及びηグラムの例示である。
【図4】文字の前後関係により複数の辞書から選択する
ことを可能とする漢字文字の事例である。
【図5】長いηグラム文字の変換例を示した図である。
【図6】能率的な辞書検索をするダイナミックプログラ
ミングを証明する図である。
【図7】図5の事例をηグラムアルゴリズムで出力した
例を示す図である。
【図8】複数のアルゴリズムに、最も共通する読み間違
えの例示である。
【図9】ηグラムアルゴリズムが完了するまでCPUタ
イムを示した図である。
【図10】ηグラムアルゴリズムの3等級の問題を表し
た図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 近藤 和弘 茨城県つくば市御幸が丘17番地 日本テキ サス・インスツルメンツ株式会社内 (72)発明者 新井 希望 茨城県つくば市御幸が丘17番地 日本テキ サス・インスツルメンツ株式会社内

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 日本語テキストを漢字と平仮名に区分す
    る手段と、この区分された平仮名と漢字に対応する読み
    を辞書から検索し、且つ結合して平仮名読みを出力する
    出力手段を有する日本語処理システム。
JP5159466A 1993-06-29 1993-06-29 日本語処理システム Pending JPH0773174A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5159466A JPH0773174A (ja) 1993-06-29 1993-06-29 日本語処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5159466A JPH0773174A (ja) 1993-06-29 1993-06-29 日本語処理システム

Publications (1)

Publication Number Publication Date
JPH0773174A true JPH0773174A (ja) 1995-03-17

Family

ID=15694387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5159466A Pending JPH0773174A (ja) 1993-06-29 1993-06-29 日本語処理システム

Country Status (1)

Country Link
JP (1) JPH0773174A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149643A (ja) * 2000-07-21 2002-05-24 Microsoft Corp 日本語の表意文字の読み方を予測する方法
JP2007199410A (ja) * 2006-01-26 2007-08-09 Internatl Business Mach Corp <Ibm> テキストに付与する発音情報の編集を支援するシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149643A (ja) * 2000-07-21 2002-05-24 Microsoft Corp 日本語の表意文字の読み方を予測する方法
JP2007199410A (ja) * 2006-01-26 2007-08-09 Internatl Business Mach Corp <Ibm> テキストに付与する発音情報の編集を支援するシステム

Similar Documents

Publication Publication Date Title
CN100492350C (zh) 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
US6073146A (en) System and method for processing chinese language text
US6760695B1 (en) Automated natural language processing
US6014615A (en) System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5214583A (en) Machine language translation system which produces consistent translated words
US5285386A (en) Machine translation apparatus having means for translating polysemous words using dominated codes
JP2006164293A (ja) 自動自然言語翻訳
Naseem et al. A novel approach for ranking spelling error corrections for Urdu
Kumar et al. A study of spell checking techniques for indian languages
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
KR960038586A (ko) 컴플렉스 언어 전사용 데이타 처리시스템 및 문자생성 데이타 처리방법
KR102182248B1 (ko) 문법 검사 시스템 및 방법과 이를 위한 컴퓨터 프로그램
JPH0773174A (ja) 日本語処理システム
Ren et al. A hybrid approach to automatic Chinese text checking and error correction
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JP2003178087A (ja) 外国語電子辞書検索装置および方法
ASAHIAH et al. A survey of diacritic restoration in abjad and alphabet writing systems
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
CN111581991B (zh) 一种基于端到端神经机器翻译的汉盲翻译方法及系统
JP2915225B2 (ja) 文書作成装置
Picone et al. Kanji-to-Hiragana conversion based on a length-constrained n-gram analysis
Chae Improvement of Korean proofreading system using corpus and collocation rules
Rakhimova et al. The Task of Identifying Morphological Errors of Words in the Kazakh Language in Social Networks
JP2802369B2 (ja) かな漢字変換装置
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法