JPH0773174A

JPH0773174A - 日本語処理システム

Info

Publication number: JPH0773174A
Application number: JP5159466A
Authority: JP
Inventors: Picon Joseph; パイコンジョセフ; Staples Thomas; ステイプルズトマス; Kazuhiro Kondo; 和弘近藤; Maremochi Arai; 希望新井
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1993-06-29
Filing date: 1993-06-29
Publication date: 1995-03-17

Abstract

(57)【要約】【目的】日本語文章を平仮名に変換することである。【構成】日本語文章を漢字と平仮名とカタカナに区分
して、各々の読みを辞書から検索し、且つ組み合わせる
ことにより正確な読みを出力する手段を設ける。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、変換する日本語入力テ
キストを綴りの正しいユニット（以下、「η−グラム」
と称する。）の最適候補を定められた手順に従い選択
し、そして入力テキストを鎖状に接続することを可能に
する。包括的な辞書は既に開発された漢字、平仮名、η
−グラム及びそれら平仮名のような翻訳（ＡＳＣＩＩコ
ードを用いた手段）を含み、閉鎖された組の試験、η−
グラムのアルゴリズムを、幾つかのパブリックドメイン
のアルゴリズムより最適な能力を提供するように表現し
て、広範囲な日本語テキスト資料の文章を平仮名に変換
する際の誤り率を３％以下にさせるシステム及び方法に
関する。また、本発明の実施例である記述された日本
語、配列を整合させるアルゴリズムを他の言語における
近似した問題にも適用することに関する。更に、本発明
のアルゴリズムは、現実に使用された１０，０００の音
韻種バランス文章の日本語音声データベースプロジェク
トのデータベースを提供することに関する。

【０００２】

【従来の技術】従来の幾つかのシステムは、パブリック
ドメインとして用意されている。下記に詳述するよう
に、本発明を創作する上で、３つのパブリックドメイン
のアルゴリズムの性能を説明する。それは、「ＪＵＭＡ
Ｎ」、「ＷＮＮ」及び「ＫＡＫＡＳＩ」と称されてい
る。この３つのアルゴリズムは、規則と例外辞書を含ん
でいる（文献の中では良い資料ではないと考えられ
る）。各々のシステムは、日本語テキストの量を公正に
制限しつつ、日本語テキストを正確な平仮名文字へ変換
する処理を行っている。

【０００３】漢字の到達範囲は、システムの評価に於て
重要なことである。本発明を完成させる過程で、日本語
会話文章の大きなデータベースの収集をする必要があ
る。このテキスト資料の種々の組から大きな文章データ
ベースを発生させることができる。このデータベース
は、一般に知られている電子書籍（ＥＢ）であって、だ
いたい１Ｇバイトのデータ、１９のテキスト・ソースか
ら抽出した文書が含まれている。この中には、複数の日
本語標準辞書、日本語ブリタニカ百科辞典、一流新聞及
び幾つかの文献がある。表２にテキストデータベースの
一覧を示す。

【０００４】従来の日本語テキストを平仮名に変換する
３つのパブリックドメインアルゴリズムは、それらが有
効であることに基き選択され、一般社会で利用が広く行
きわたった、又は確実に鍵となるアプリケーションのた
めに事実上標準として採用されたものである。第１は、
ＪＵＭＡＮ（日本大学形態素論分析）のようなシステム
である。漢字から平仮名への変換は、この広範囲にわた
るパッケージの小さな部分によって、一般の日本語テキ
スト処理及び辞書アクセスを支持するものである。この
パッケージは、日本語研究分野の中で広範囲に使用され
ている。

【０００５】第２に評価されたパブリック・ドメイン・
アルゴリズムは、通称「Ｗｎｎ」と称するものである。
Ｗｎｎは多くの日本語ワードプロセッサの一部にＵＮＩ
Ｘ環境下で利用可能なものである。これは、入力の取扱
とＸ１１ウインドウシステムが日本語に拡張している及
び日本語バージョンのｅｍａｃ（有名なＷＹＳＩＷＹＧ
テキストエディタ）のための漢字テキストの表示に使用
される。複数の有名な商業用ワードプロセッサパッケー
ジもまたＷｎｎソフトウエアを使用している。

【０００６】第３に選択されたアルゴリズムは、ＫＡＫ
ＡＳＩである。ＫＡＫＡＳＩの辞書は、最も広範囲にわ
たることが明らかである。事実、これらは広辞苑から派
生したように見える。ＫＡＫＡＳＩは、また計算機上そ
れらアルゴリズムの最も能率的なものであり、また、こ
の辞書フォーマットが公正で良い資料であって且つ簡単
であることから最も広範囲にわたるものに見える。しか
しながら、主な欠点の１つは、このパターン整合のアプ
ローチは単純され過ぎていて、高度な辞書活用できない
ことである。

【０００７】この評価に於て、各アルゴリズムの出力
は、人手で評価された誤りの結果を、２つの例で作表さ
れた。変換不能−システムは有効な変換を出力しない
こと、誤変換−システムは１又はそれ以上の漢字文字
を不正確に変換することである。システムの評価は主に
２種の誤りを合計したものとなる。図８に、最も頻発し
た読違え文字を示す。処理に時間を消費するため、評価
するデータベースの大きさを約１，０００文章に限定し
た。

【０００８】本発明のη−グラムアルゴリズムの結果は
驚くべきものでない。本アルゴリズムとしては、表３の
ＫＡＫＡＳＩが他の２つのアルゴリズムより一層よい特
徴と判断した。ＪＵＭＡＮとＷｎｎの能力レベルは、一
般の研究使用の為には事実上役に立たないと考えられ
る。

【０００９】上記より評価データベースが含む文章、そ
の文章は特別に選択された常用漢字文字セット内で使用
されるものである。表３及び表４に能力を示し、平均よ
り大きい能力上での低い制約に注意しなければならな
い。明瞭なのは、データベースは多くの試みをするのに
困るのは辞書文字にない文字の取扱である−それら辞書
にない文字を全て揃える問題点は究極的にはシステム全
体の能力を抑えてしまう。

【００１０】

【発明が解消しようとする課題】従来の音声処理の共通
問題は、記述された言語を発音記号群に変換することで
ある。このようなアルゴリズムは英語でサウンドルール
（sound rules ）という標題、又は、テキストの構成要
素の中核の音声合成システム（D.H.Klatt,"Review of t
ext-to-speech conversion for English",Journal of t
he Acoustical Society ）と呼ばれている。最近では、
興味ある言語の総語集音声認識の成長があり、また音声
データベースプロジェクトはこの課題を解消することを
熱望している。また、そのアルゴリズムは音声の調和さ
れた文章セットの開発に適用させる技術を創設するもの
であり、そして音声認識を評価することである。

【００１１】

【課題を解決するための手段】上記目的を達成するため
に、本発明の日本語テキスト音声処理システムにおいて
は、テキストを漢字、平仮名及びカタカナに区分した後
に、区分された文字情報のηグラム単位を解析して、テ
キストのバックポインタから先頭文字までの最適通路を
計算すると共に、この最適通路に従ってηグラム辞書単
位に検索を行い日本語テキストの平仮名読み及び発音記
号を発生させるものである。

【００１２】上記ηグラム辞書には、標準的な漢字辞書
と変則的で不明確な読みを有する特殊文字の為の辞書と
を有し、入力テキスト中の漢字文字及び前後の平仮名文
字の前後関係を調査する結果に基いて、最適読み変換を
する手段を有するものである。

【００１３】

【作用】上記のように構成された日本語音声処理システ
ムに、漢字、平仮名及びカタカナが混合されたテキスト
を入力すると、テキスト中の各々の文字に対応する重み
に従い、最適な変換通路を解析するため、テキストは重
複する誤った読みを削除することができ、且つ、正確な
日本語発音の読みを出力することができる。

【００１４】また、変則的若しくは専門用語の場合は、
特殊文字専用のηグラム辞書を検索、変更及び追加する
ことにより、初心者でも辞書の更新ができるシステムの
柔軟性を提供することができる。

【００１５】

【実施例】日本語書体システムはロゴ・グラフィックで
あって、書体システム各々の文字、参照される描画等の
全ての語の部分を意味する。公知の慣習的記述システム
は混合される３つの型の象徴から成り：漢字、平仮名及
びカタカナがある。この漢字の象徴は、中国語の記述シ
ステムを改造したものであり、概念語又は固有名詞の表
現に使用される。平仮名の象徴は、漢字で記述された概
念語の語尾変化のある記載に使用され、また非漢字であ
る多種の原語にも使用される。カタカナ象徴は、外国起
源の表現語として使用される。これら平仮名とカタカナ
は音節文字である。

【００１６】図１には、一般の日本語綴りを示す。この
ローマ字綴りで”watashi ”又は

【外１】の様な単語（以下、適宜ローマ字綴りを””で囲って示
す。）は、図示する複数の漢字から成り立っている。”
ikimashita”（英語で、 to go ）のような動詞は図１
に示すように、漢字の文字「行」（”iku ”）を混合す
ること又は動詞の種族に基づき表現されている若しくは
平仮名文字で表現される動詞の活用（過去時制）「きま
した」を含んでいる。

【外２】（英語で NewYork ）の様な外国都市の地名はカタカナ
「ニューヨーク」と記述される。なお、ローマ字綴りを
使用するのは、音声処理をする際にローマ字綴りに基き
発音させるのに便利な場合があるためである。

【００１７】日本語綴り、文中の文字は非標準的な空白
又は幾つかの他の印で決定され、これらは単語若しくは
境界を表す。文字の境界はこれのみによって決定され
る。本発明の概念は、テキストを区切って図表の各群を
それらの意味又は発音に変換させなければならないこと
である。図１には、正確に区切られたテキスト「私は
東京からニューヨークまで行きました」が示
されている。このように自動的に句切ることは、日本語
テキストの機械処理による１つの試みである。

【００１８】最も正式な記述（例えば、新聞、雑誌、
業務文書及び電子メディア）は、推奨される漢字を使用
して制約された国標準の組であり、参照される常用漢字
（ Everyday Kanji ）である。この組は１、９４５文字
を含み、また中核となる漢字の組は平均的な読者が容易
に読めることが期待できるとみなせる。いくぶん全体の
視野で問題の大きさに重きを置くと、平均的な大学卒業
者は約３，０００文字を読むことができることや良い辞
書には約１２，０００文字を含むことが知れている。本
発明は、常用される組の範囲の文字のみで成り立つテキ
ストについて正確な演算をするアルゴリズムについて成
されたものである。一方、これ以外の文字の組は、希に
生じるので特別な扱いとするのが有利である。

【００１９】２以上の広範囲な文字の組は、近代的な今
日の計算機環境のため電子表示により紹介されているこ
とが公知である。これらに役立つ表現は、ＡＳＣＩＩ文
字の組に似た機能であり−それらは独立した形式の機械
にテキストを蓄積する手段を提供する。それらは辞書リ
スト及び一般的な漢字文字表現の辞書漢字リスト以外に
定められた外字リストの２つの特殊な組を有する。

【００２０】上記、２つの組の第１の組は、日本工業規
格（シフトＪＩＳ）のような８ビットの既知の組であ
る。この組の各々の文字は２バイトで、また先導するバ
イトによりシフトＪＩＳの２バイトのシーケンスを調査
することができる。広範なコンピューティング・プラッ
トホーム及び電子メディア上でシフトＪＩＳを見出すこ
とができる。例えば、シフトＪＩＳは日本語圏内で支持
されている。例えば、Ｘ１１ウインド（Window）システ
ムがある（たいていのＵＮＩＸワークステーションで利
用可能である）。

【００２１】上記第２の組の傾向は、主にサン社のワー
クステーション（又は連合する第３パーティのツール）
用の日本語環境に使用され、また、ＵＮＩＸコード（Ｅ
ＵＣ）文字セットの環境である。これらの主な特徴はマ
ルチバイト文字の組（１、２及び３バイト処理が現在支
持されている）、更に、一般のＡＳＣＩＩテキスト及び
日本語綴りの両者を同一の文字の組の中で支持されてい
る。

【００２２】両者の各々の文字の組は約７，０００文字
が含まれている。これはテキストの源にアクセスするこ
とが容易であり、電子書籍又は百科辞典のような、常用
文字以外の文字の組を使用するほど広範囲である。今日
の電子情報処理において、それら組の中の文字に漢字の
使用制限の規制が行われていることが特徴である。よっ
て、本発明は、テキスト処理アルゴリズムの開発におい
てこれら文字の組の働きが重要であることに鑑みてなさ
れたものである。

【００２３】簡易な形式を一致させる対応において、平
仮名の意味の１つは、極端な表現に使用される記述言語
である。この言語の組は、約１２５文字に制限されてい
る。もちろん、平仮名は発音記号の組ではないから、こ
の発音を直接配置するものではない。ただ、追加の処理
をいくつか必要とし、平仮名は明かに現実に近い発音を
表現するので、テキストの区分による複雑な音響の中に
おける計測に有利である。

【００２４】日本語の顕著な視点の１つは、記述された
すべてのテキストは平仮名に変換することができ、その
発音についても損失のない情報であるけれども、これは
多少の理解を阻む可能性を有する。例えば、図１に示さ
れたものがある。むしろ日本語綴りの顕著なもう１つの
視点は、漢字文字に表される平仮名の前後関係により正
確な変換をすることである。各々の漢字は通常複数の共
通読みを有し、また文字が発生する前後関係の調査結果
により不適当な読みを消去しなければならない。他の書
体システムにおいて、中国語のような、更に漢字文字は
使用されるが、各々の文字の変換は敏感な前後関係がよ
り少なく、また独立−前後関係辞書を見渡す十分なアル
ゴリズムであるといえる。

【００２５】本発明においては、一般的な日本語綴りを
平仮名の様な記号の組に変換するアルゴリズムを提供す
る。これらはより標準的なテキストの発音にほぼ近いも
のとすることである。アルゴリズムは２つの前提に基づ
く、漢字文字の正確な読みは、隣接する文字の調査に
より定められた小さな数であること；辞書に要求され
るのは、処理し易い組み合せの数量に抑制することであ
る。

【００２６】この選択アルゴリズムは、最上のテキスト
変換が図表の処理の最有力候補の構成に影響される。こ
の構成は、入力テキストが鎖状につながれた型である。
既に開発された包括的な辞書は、漢字η−グラム（漢字
と平仮名を混合して使用する）とそれら平仮名の様な翻
訳（ＡＳＣＩＩコードを使用した手段）とを含む。実際
のアルゴリズムは、それらη−グラム辞書の品質は極端
な従属関係であり、詳細は後述する。

【００２７】音声処理の一般的哲学では、ＣＰＵ又はメ
モリ上で簡略的なアルゴリズムが望まれる。今日のコン
ピュータ・メモリ及びＣＰＵ速度は激しく増加している
ことから、オンライン辞書の１つの考えで、データ処理
の上で物理的メモリの中に蓄積する現在の手順の実行
は、負荷が大きすぎることが課題である。本発明の取り
組み方は、本質的には従来の基本辞書と基本規則よりも
強力なメモリを使用することができる。代表的な設計の
目標はシステム開発であり、それは初心者によっても容
易に増強させることができるものである。改良された基
本規則システムは、しばしば広範囲な予測及び自然な言
語処理の専門技術を必要とする。また、経時的に維持す
るのが困難である。故に、本発明は統計的なアルゴリズ
ムによる新規且つ簡易なシステムを開発する必要性に鑑
み、種々の日本語テキストの範囲内で漢字平仮名変換及
び日本語音声処理する為にテキストを取り扱うことであ
る。

【００２８】また、本発明による辞書設計及び辞書化状
況の一覧表の概略を開示する。次に、文法的関係に基い
て辞書内の最適な組合せの型の場所を用いるアルゴリズ
ムにつて開示する。もちろん、辞書の設計と文法的関係
アルゴリズムは、高い相互関係があるので、２つのデー
タベース上で幾つかの比較評価の結果を得た。また、シ
ステムの限界についても検討することとする。

【００２９】本発明に使用されるＮ−グラム辞書の概要
について説明する。ここで、日本語テキストから平仮名
への変換の問題を２つの段階に分解することとする。そ
れは辞書の設計及び文章の文法的関係である。辞書設計
の問題について、辞書設計の２つの主要な構成は、辞書
の構成が簡略であること及び辞書が極めて容易に増大で
きることである。概念としては、システムが単語辞書を
使用しながら見ることができることである。経験によっ
て、容易にη−グラム単位（連続長の漢字文字を含
む。）に分離された辞書を見つけ出し維持することであ
る。このシステムは、現在使用する１から９までのη−
グラムの長さを含む９つの辞書化を行う。

【００３０】上記辞書の中には、３つの本質的要素範囲
が含まれている。平仮名のような翻訳と関連する漢字順
序、重み若しくは発生の可能性の要素である。本発明で
は、平仮名のような翻訳を引用し、この読みの一貫性を
文学研究と共に維持することができる。現在、それら記
号のためにＡＳＣＩＩ表現を使用することができる。こ
の記号表示の組は日本電子工業開発協会（ＪＥＩＤＡ）
推奨のＡＳＣＩＩの平仮名記号表から引用していて、図
２に全体の記号の組を示す。

【００３１】本発明は、ある特徴的な改良を除いて、上
記ＪＥＩＤＡ標準に忠実に従う。本発明は、明瞭な母音
長のモデル表現を拡張することができる−長い母音の綴
りの最後は”＠”記号のマークがなされる。例えば、

【外３】（日本語の形容詞として”大きい”）は翻訳すると”ｏ
＠ｋｉ＠”である。この変更の為の主要な動機は幾つ
かの発音の考慮に基くものである。

【００３２】日本語の会話で用いられる母音の持続は、
重要であると考えられる。これは、少なくとも３つの型
の母音の期間がある。”ｈｏｎ”の中の”ｏ”のような
短い母音がある。これらは適切な記号で配列されたもの
を図２に示す。

【外４】の中の”ｏ”のような長い母音は、母音に続いて”＠”
（例えば、”ｏ＠”のように）で出力される。ある時
は、２つの連続した語の中の位置の母音の発音は単一の
長い母音であることがある。この事例もまた”＠”記号
を使用する。故に、”ｏｋｉｉ”の”ｉｉ”は”ｉ＠”
と出力され、これは通常

【外５】

【００３３】最後に、連続する２つの母音の位置は２つ
に独立した母音で発音される。この事例では、２つの母
音の出力（例えば、”ｉｉ”又は長い母音のような２つ
の短い母音／”ｏ＠ｏ”のような短い母音の組合せ）
である。複数の連続する母音の単語又は長い母音／単語
の中の連続する短い母音の境界を通り越して発生する傾
向がある。本発明は、様々な母音の前後関係を予測する
方法を提供する。その前後関係の区別は後の音声認識の
研究に有益となるであろう。

【００３４】一般の型が使用されて記述する各々の辞書
の入力は、次の数式１に示す。

【数１】

【００３５】η−グラムの単位は、Ｎ、Ｎ＝ｍ＋ｎ＋ｌ
の様に定義される。

【数２】

【００３６】ｋは、漢字文字を表現し、ｍとｌは、前後
の文字の数を表現し、またηは、前後関係の真中の文字
の数を表現する。更にｈ^pは、平仮名文字の出力順序を
η−グラム入力によって表現するものである。

【００３７】左右の前後関係は選択可能である。これは
Ｅｑに表示される。数式２は、四角い括弧で囲まれたｋ
^mとｋ^lによる。もちろん、唯一前後関係が独立の入力
が必要とされたとき−事例に於てｋ^m又はｋ^lのどちら
か一方を必要としないとき、これは有利である。大きな
パーセンテージの入力の為（例えば、適切な名詞）に、
これは明瞭な選択をする場合である。

【００３８】上記大きなパーセンテージの入力であって
も、正しい前後関係の使用により適切な読みを定義する
ことができる。正確な前後関係は上級のη−グラムのた
めのより頻繁な隣接する漢字文字の組、又は共通する漢
字と平仮名の混合である。時折、左の前後関係を使用
し、主に平仮名を漢字に変換するときの定義である。変
換はしばしば文字に役立つ、それら文章の機能との強力
な相関のために共通する読みはほとんど存在しないであ
ろう。ある時は、これは調査により平仮名文字を無視し
て分離されることがある。

【００３９】Ｅｑ．でも数式１は、複雑に見える辞書の
入力の作成を掲載する。各々の入力は実際には非常に単
純なものである。図３に辞書からη−グラムの１、２、
及び３つの単位の見本を示す。各々の入力はη−グラム
コードを含み、ＥＵＣを使用して、ＡＳＣＩＩ図表及び
重みを表示する。

【００４０】最初に、辞書入力の見込みのための重みを
期待する。言語テキストデータベースの統計値を解析す
ることによってそれらの見込みを計算することができ
る。使用する確率をあいまいな表現に分解して予想す
る。また、最も共通する文字順序の翻訳を”学習”する
ことにより実現する。更に、複雑な状況の型は、各々他
の場所で試みることにするほうが有利である。しかしな
がら、複雑な状況の型であっても、その独自の型は装置
内で行う正確な連続した値を有することができる。この
連続値は、幾つかの価値を有する明確な二進数の値の重
みを有するためである。

【００４１】この驚くべき事は、幾つかの単純な規則の
重みを辞書の入力に分配すれば十分であることが判明し
た。第１に、名詞語句の重みのη−グラムをそれら長さ
に比例して与える。この事例では、文字名詞語句中の各
々に同じ重み１．０を付与する。あいまいな表現が発生
したときは、η−グラムの上級単位は混合のη−グラム
の低い単位の上にするのが良いことが判明した。例え
ば、図３から、名詞語句の重みの３グラムは、幾つか許
される混合の１グラム又は２グラムより僅かに高いこと
がわかる。

【００４２】第３に、η−グラムは平仮名と漢字の組合
せを超えて全ての漢字入力を包含することが望ましい。
ある時は、平仮名文字の順序は２つの漢字文字の多数の
意味に従う−１グラムは、２グラム又はその逆に従うこ
ととなる。η−グラムの重みを調整することは、全ての
漢字文字が証明された効果の確認アルゴリズムを含み、
このアルゴリズムは適当に区分されたものである。

【００４３】図３を参照すると、１−グラムの組内の最
後の４入力「史・浪」等は、ＪＹＯ又は、ＥＵＣの様
なタグ、及びそれら入力の重みは単語（１．０）の名詞
語句の重みより小さいことがわかる。これは診断計器を
開示するものである。幾つかの文字の１−グラムは変換
してはならないことである。何故なら、これらの読みは
非常に不明瞭だからである。このカテゴリ内の文字は常
用セットのタグとＪＹＯの記号の範囲内に納まる。こ
の納まった常用セット外の文字は、ＥＵＣ記号のタ
グが付される。何故なら、それら入力の重みは１−グラ
ム入力よりも低くセットされているからである。これら
入力は、他の選択をしない時（変換候補がなくシステム
の処理が中断している間に文字を実質的に納める時）に
のみ使用される。これは、重要な診断道具であって辞書
が改良を必要とする事例を確定するためのものである。

【００４４】最後に、また最も重要なことは、音声処理
が必要とする、辞書の入力を追加するための論理的解釈
である。η−グラム辞書は明白な一対一のマッピングで
ある。各々のη−グラムは辞書にただ１つの入力を有す
る。一般に、文字は最も有力な読みを有していて、それ
は１グラム辞書の中に入力される。運悪く、これは最多
数の文字のための事例でない場合−高い可能性の２から
４の中でどちらかを選ぶ標準的な共通文字である。

【００４５】この手法は、高い順序辞書内の幾つか履行
されない読み、又は１グラム辞書内の履行されない読み
の入力から１グラム辞書内の履行されない読みの入力か
ら削除する多くの前後関係を定めることである。例え
ば、図４に示すように、１グラム文字の入力は、一般に
「つばさ」というように読む。しかしながら、図中の２
グラムの翼はの文字は「よく」と読む。このような読み
を網羅するのに約３０の入力が必要である。

【００４６】この結果、新たな入力辞書へ追加するため
の通常の手順は、最初の読みをηグラムの最も低い辞
書に追加すること、上記の例外をηグラムのより高い
辞書に追加することである。この手順は、良い日本語漢
字辞書によって容易でありまた公知の技術でもある。本
発明は、初心者を連続して訓練し、辞書を維持する働き
を有する−全ては、上記平均的な漢字の読みのレベルと
良き漢字辞書が要求される。よって、本発明の第１の目
的は、簡易な辞書の更新を行うことである。

【００４７】各々のη−グラム辞書の大きさの一覧を表
１に示す。この辞書全体の大きさは，１４５，７５３個
の入力を有するものである。２グラム辞書の入力の分配
が頂点（６８，４０７個）であること及び末尾（９グラ
ムに相当）の終りが２２個と小さいのは、意外なことで
はない。これら辞書の初めの入力は、複数の公共に利用
できる電子辞書からでのものであり、また幾つかの経験
の結果（後述する）、その後の手作業により修正され
る。

【００４８】驚くべき事は、それら入力が実際にどのく
らいの大きさを必要とするかである。これは堅い定義で
ある。テキストデータベースの分配の末尾は、大きくな
る傾向がある。単一プロッセサでない限り、種々の多数
源からの莫大な量のデータがあり、１つでは与えられた
入力の効果が確かではない。これを簡易な実験で実証す
れば、例えば、９００，０００のテキストデータベース
の文章を広範囲なテキスト源から選択したアルゴリズム
を用いた。各々の辞書の使用の解析を示すと、それは未
だ使用されたことがない４０％を超える入力が存在する
ことが判明した。非公式の調査では、現在の辞書にこの
結果が確認されている。即ち、多くの辞書入力は不必要
なものである。例えば、多くの４グラムと５グラムの入
力は必要とされないであろう。何故なら、同じ前後関係
は２グラム又は３グラム辞書に包摂されているためであ
る。

【００４９】ここで、手作業により辞書と重複した入力
の合併整理を調査した。追加研究の課題は、最適化した
辞書の文法編集技術に基いた演算アルゴリズムである。
最適化を除外したとしても、現在の辞書が占める約１５
Ｍバイトのコンピュータ・メモリの近代的なデスクトッ
プコンピュータでは、十分ではない。もし、辞書がメモ
リ内に導入されない場合は、ＣＰＵの必要条件を今日の
標準的な計算機により一層質素なものにできることとな
る。

【００５０】また、辞書検索時間は重要な課題ではな
い。現在の辞書は、二等分の検索アルゴリズムを使用し
て検索する。それは０(logＮ）の複雑さを有する。アル
ゴリズムと共に、たとえもし辞書の大きさが本発明の２
倍であっても、費用増加の課題は、ＣＰＵ時間において
重要ではない。故に、メモリに関して、極端に大きな辞
書は障害とはならない。本発明を適用した場合は、本発
明の規模が現在のシステムの範囲を拡張するものと考え
ても、辞書全体の大きさが現在の大きさの２倍以上には
ならないと確信する。

【００５１】本発明の実施例において、無理な長さのダ
イナミックプログラミングを提供することができる。記
述的には効率的であるが極めて圧縮されたテキストを変
換する課題を解消する辞書の最適な組合せを提供する。
本発明を説明する前に、辞書入力の検索アルゴリズムと
辞書設計は密接に結合される。辞書入力の重みは、検索
アルゴリズムの中で最高の通路の選択に強く影響を及ぼ
す。何故なら、能率的な検索アルゴリズムは、許容され
る組合せの総数が潜在的な言語及び非常に大きな辞書
（設計による。）にとって非常に重要となるためであ
る。

【００５２】最も簡易なアプローチによれば、基本−辞
書アルゴリズムは、テキストを左から右へ走査するか、
又は最も大きいη−グラムを辞書内から発見して選択す
ることである。本発明の手法は、”第１位の最も大きい
η−グラム”のアプローチと称する、以下これを説明す
る。

【００５３】

【数３】

【００５４】上記Ｍは連続入力の長さを、ｋ^lは入力さ
れた１文字を、及び、Ｎは最大η−グラム単位を各々示
す。例えば、第１番目の文字から開始し、９文字全体の
為に最初は９グラム辞書を検索するものとする。もし、
辞書に適合しないことを発見したときは、先頭の８文字
の為に８グラム辞書を検索するという手順に従う。辞書
内のη−グラム単位ｉに適合したことを発見したとき、
又は、（ｉ＋１）st 番目の文字に照合を移動すること
となる。多くの常用漢字図表は、１グラム入力を有し、
一般に最も小さく、全部１グラムから成る読みを出力す
る。

【００５５】この戦略は、ある程度の問題を有する。何
故なら、この戦略は完全な変換に有効なものとはいえな
い−できたらあいまいな表現の８０％が典型的に遭遇す
るために有効となるからである。しかしながら、ある高
速学習ではこの戦略が高い能力のために十分といえな
い。しばしば、辞書の初期段階での選択は固定的であ
り、その後文章に合わない変換を生じる結果となる。そ
のようなものを、例えば、図５に示す。この事例では、
最初に２グラムの選択をした結果、次の３文字の為に無
意味な品詞・文法的関係を解析している。この事例での
可能性は、続いて起こる３文字を３グラム又は３つの１
グラムとして扱っている。但し、両事例の読みは正しい
のもであるが、明らかな相違は、全体的に最適化されて
いるか否かである。入力テキスト中の「多くの可能性」
又は「最適」な変換手順、及び、それらを後進及び前進
する作業により未決のη−グラムを全て選択して完了す
ることができる。それら競合する中から可能性の存在す
るものを選択して、この最適化の問題という課題に対し
て最適なものを割り当てることとする。また、公正な標
準ダイナミックプログラム（以下「ＤＰ」という。）の
アプローチを使用することでこれらは解決するであろ
う。

【００５６】必要な大きさの辞書内の入力の数によっ
て、辞書の検索回数を限界と考える。ここで注意するこ
とは、費用を増加させるアプローチを使用した最適化の
問題は、累積された先行する両節点（事例”Ｎ型”）で
ある。本発明の節点費用は次のように定められる。

【数４】

【００５７】このｗ［ｋ_l+j-1：ｋ_i］は、η−グ
ラム辞書入力の長さの重みを表現し、ｊは入力テキスト
中の文字ｋ_l+j-1からｋ_iに対応している。選択さ
れた方向は最大の費用を伴う最良の方向である。

【００５８】遷移費用は検索空間を限定するのに非常に
重要である。また、この定義を次に示す。

【数５】上記式のｄ_trasnsはある節から次の節まで遷移する為
の費用を表す。ここにＮ_maxはη−グラム単位の最大を
意味する。数式５は、本発明では直前の遷移のみを検索
すれば良いことを示し、その範囲は、１≦ｌ≦Ｎ_maxで
ある。

【００５９】図６に、漢字文字（入力）を水平軸にη−
グラム単位を垂直軸に割り当てた解析結果を示す。図５
のダイナミック・プログラミングに基ずく検索事例を図
６に示す。このアプローチを適宜「長さを制約したダイ
ナミック・プログラミング」と称することとする。何故
なら、これは図６から自明なのであって、最良の通路は
η−グラム単位の長さの合計が入力テキストの長さと同
じであることのみを制約した許容ηグラムの組合せに帰
着する。

【００６０】ここで、節（ｉ，ｊ）から適切な辞書のη
−グラムで成り立っている漢字文字ｋ_l+j-1からｋ_iま
でが節の費用となる。辞書は一対一に対応するから、こ
れらは各節から１つのみ選択することが可能となる。た
とえ複数を選択することが許容されても、多くの可能性
（又は入力が大きな重みを伴っても）を各最適化処理の
中で選択することができる−それらは、従来のように発
見する最適通路の中からの選択を保持する必要はない。
しかしながら、他のアプリケーションのため、各節で複
数の読みのη−グラムを決定させるなければならない。
例えば、テキストの可能な全ての読みを出力する如くで
ある。

【００６１】もちろん、ＤＰでの革新は、バックポイン
タから戻す数を選択でき、その必要な調査を最小限に維
持することができる。この事例において、不完全な通路
の戻す数は、η−グラム単位ｊの機能を検索すれば良
い。図６右上に１及び２グラム節をバックポインタとし
た例を示す。各々の節から戻す数は、潜在的に１、２及
び３グラム単位の様に種々選択することができる。ここ
で、「店側」の「側」のη−グラム単位ｊの機能を３か
ら１まで検索して１グラムを得た場合は、戻すηグラム
単位ｊを１とする。次に、図６の左下図を参照するとｉ
＝Ｋ₄を現在のηグラムとすれば１でありこれを起点と
して「総代理店」を同様４から１まで検索する。そして
「代理店」を３グラム単位の辞書内に発見すれば、戻す
ηグラム単位を３とすることができる。更に、残りのテ
キスト「総」について検索するとηグラムは１となりＫ
₀において１グラム単位に戻せば良いことがわかる。即
ち、バックポインタの位置からテキストを右（末尾）か
ら左（先頭）へ検索する過程で、ηグラム辞書を調査
し、最良の通路を見出せば長い漢字熟語を正しい平仮名
に変換できるのである。従来の辞書には、各々の漢字文
字及び熟語について重複する辞書入力が存在すため辞書
が増大し、且つ複数の読みを発生させるので正確な読み
を手作業で選択する必要があるか又は誤った読みを発生
させることとなる。即ち、従来は、唯一の行ｉ−ｊを求
めるために、バックポインタから戻す不完全な通路を全
て検索する必要があるので、現在の節のη−グラムから
不完全な通路の戻りを、テキストの末尾（行ｉ−ｊ）か
ら現在の節までの全ての文字を消費しなければならな
い。この意味に於て、η−グラムは消費される入力文字
の後の位置に設定される−これは、辞書内の文字をテキ
ストの最後から最初に沿って消費することとなる。図６
に、選択される通路の軌跡を示す。

【００６２】競合する数を仮定すると、それはさほど大
きくはなく、また検索時間は実際には入力テキストの長
さと共に比例する。後述するデータベース上において、
文章の１９％に、少なくとも１つの不明瞭な文字順序が
含まれていることが判明した。基礎となる文字の特徴
は、約５％の文字（ＤＰ格子内の行）表示が複数の不完
全な通路であることである。故に、もしある決定が正し
く高い能力の時には、ＤＰ整合アルゴリズムを使用しな
けれなければならない。他方で、もし約８０％の確度で
不明瞭な文字順序（多くのパブリックドメインのアルゴ
リズムのような）の時は、ＤＰ整合の必要性は明らかで
はない。

【００６３】最後に、η−グラムアルゴリズムからの出
力について、図５の事例を図７に図示することとする。
このＡＳＣＩＩ読みは、幾つかの修正された情報に沿っ
た出力である。一般に、全ての区読点は入力と出力に表
示されていない中の一部分ある。もし「ＪＹＯ」又は
「ＥＵＣ」のような記号が出力に表示されている場合
は、何か間違っていると専門家は知ることができる。Ｄ
Ｐ修正表示は、それに示された不完全な通路、競合する
辞書入力等に利用できる。これらは、アルゴリズムと必
要な辞書の改良決定の修正に非常に有利である。

【００６４】以上の様に、漢字を平仮名に変換する高い
能力のアルゴリズムを開示した。その能力は、２つの評
価の上で上位の３つのパブリックドメインアルゴリズム
を示した。アルゴリズムは現在の取扱で広範囲の共通漢
字文字、及び、より難しいテキストへこの辞書の増加に
よって簡単に広げることができる。

【００６５】本発明は、解放−セット試験を網羅する可
能性を有している。多用化されたテキストを更なる実験
と共に獲得し、本発明の辞書への入力数を最小とするこ
とができた。また、辞書の整備費用を抑えることができ
る。本発明により漢字を平仮名に変換する多くの問題を
解決可能である。

【００６６】

【発明の効果】本発明は、上述のように構成されている
ので、以下に記載されるような効果を奏する。本発明の
アルゴリズムは、表２の初めから５つのテキスト・ソー
スの上で広範囲にわたり容易に訓練することができる。

【００６７】本発明のη−グラムアルゴリズムは、辞書
を整備することができる。即ち、最初は１９％の文章誤
りであっても、この誤りの７５％を超える読み間違え
は、約５つの共通する文字である。ＦＪニュースデータ
ベース上での誤り調査の後に、また、辞書を適切に修正
した結果を表４に示す。この結果３．６％程度まで改善
される。

【００６８】本発明のアルゴリズムに於て、テキストの
長さと機能についてＣＰＵ時間を調査した。その結果を
図９に示す。ダイナミックプログラミング格子配列はη
−グラム単位の機能と入力長によるものである。また、
競合する数の前提は、小さく、ＣＰＵ時間は入力長に比
例するアルゴリズムである。ＣＰＵ時間を図９に示し
た。サン社のスパークステーション１０／３０と専らＣ
＋＋記述プログラムの為の１２８Ｍバイトメモリ上でこ
の計算を行った。平均すると、処理時間は、１文字当り
約１ミリ秒である。現在のソフトウエアは前処理でメモ
リ内に辞書をロードするため、２０秒程度のＣＰＵ時間
を初期化に要する。小さなデータベースのためには、こ
れがＣＰＵ時間の全体を短縮する最も有力な要素であ
る。

【００６９】以上のように、本発明の特定の実施例につ
いて述べてきたが、それらは本発明の範囲を実施例に限
定するものではない。本明細書を参照することで、当業
者にはその他の実施例が可能である。

【００７０】

【表１】

【００７１】

【表２】

【００７２】

【表３】

【００７３】

【表４】

【図面の簡単な説明】

【図１】一般的な日本語綴りを平仮名変換処理をした例
である。

【図２】漢字平仮名変換の出力記号のリストを表示した
図である。

【図３】１グラム、２グラム及び３グラム辞書から抜粋
した漢字に対応する読み及びηグラムの例示である。

【図４】文字の前後関係により複数の辞書から選択する
ことを可能とする漢字文字の事例である。

【図５】長いηグラム文字の変換例を示した図である。

【図６】能率的な辞書検索をするダイナミックプログラ
ミングを証明する図である。

【図７】図５の事例をηグラムアルゴリズムで出力した
例を示す図である。

【図８】複数のアルゴリズムに、最も共通する読み間違
えの例示である。

【図９】ηグラムアルゴリズムが完了するまでＣＰＵタ
イムを示した図である。

【図１０】ηグラムアルゴリズムの３等級の問題を表し
た図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者近藤和弘茨城県つくば市御幸が丘17番地日本テキサス・インスツルメンツ株式会社内 (72)発明者新井希望茨城県つくば市御幸が丘17番地日本テキサス・インスツルメンツ株式会社内

Claims

【特許請求の範囲】

【請求項１】日本語テキストを漢字と平仮名に区分す
る手段と、この区分された平仮名と漢字に対応する読み
を辞書から検索し、且つ結合して平仮名読みを出力する
出力手段を有する日本語処理システム。