JP2002149643A

JP2002149643A - 日本語の表意文字の読み方を予測する方法

Info

Publication number: JP2002149643A
Application number: JP2001219792A
Authority: JP
Inventors: Lee Kuricchirou Richard; リチャード・リー・クリッチロウ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2000-07-21
Filing date: 2001-07-19
Publication date: 2002-05-24
Anticipated expiration: 2021-07-19
Also published as: US20020152246A1; US7328404B2; JP5231698B2

Abstract

(57)【要約】【課題】日本語の表意文字の効果的かつ信頼性の高い
読み方予測を可能にするシステムおよび方法を提供す
る。【解決手段】例示の実施態様では、「学習」および
「実行／ランタイム」モードで動作する読み方予測シス
テムを提供する。「学習」モードでは、読み方予測シス
テムは、多数の入力ソース上で動作し、判断ツリーを生
成し、これを「実行／ランタイム」モードにおいて用い
て、日本語の表意文字を含む入力日本語文章に対する読
み方の予測を返す。「学習」モードにおいて利用する入
力の中には、基準日本語スクリプトの読み方、訓練コー
プス、および疑似音素規則がある。これらの入力から、
基本的読み方および判断ツリーを作成する。「実行／ラ
ンタイム」モードで動作する場合、読み方予測システム
は、形態学的分析部を用いて、入力文章に対して形態学
的分析を行なう。形態学的分析を用いて、疑似音韻規
則、基本的読み方、および判断ツリー読み方予測を与え
る。

Description

【発明の詳細な説明】

【０００１】

【優先権】本願は、"METHOD FOR PREDICTING THE READI
NG OF JAPANESE IDEOGRAPHS"（日本語の表意文字の読み
方を予測する方法）と題し、２０００年６月２１に出願
された米国予備特許出願第60/219,981号に関連し、35U.
S.C.§119(e)に基づく優先権を主張する。その内容は、
この言及によりその全体が本願にも含まれるものとす
る。

【０００２】

【発明の属する技術分野】本発明は、外国語の読み方の
予測という分野に関し、更に特定すれば、日本語の表意
文字の読み方を信頼性高くしかも効果的に予測すること
に関する。

【０００３】

【従来の技術】日本語は、４つのスクリプト、平仮名、
カタカナ、ローマ字、および表意文字の組み合わせを用
いて書かれる。平仮名およびカタカナは音節文字であ
り、各キャラクタが単語の音節を表わす表音スクリプト
である。一般に、平仮名およびカタカナは、集合的に仮
名と呼ばれている。カタカナは、通常、過去４００年に
間に外国語（中国語を除く）から借用した単語を書き表
すために用意されている。また、これらは、強調または
グラフィック効果を与えるために用いることもできる。
ローマ字は、アルファベット、即ち、北アメリカ、ヨー
ロッパおよびその他の各地でなじみのあるラテン・アル
ファベットである。過去において、ローマ字は、外来語
を転記するため、強調のため、および外国の占領軍隊の
ために日本語を転記するために用いられてきた。漢字は
表意文字、即ち、特定の音ではなく、特定の単語または
単語の一部を表わすキャラクタである。漢字は、しかし
ながら、自由な浮遊するアイデアだけに関係する訳では
ない**。漢字および単語間の連携は、殆どの部分では固
定されている。即ち、殆どの単語では、書き手は異なる
漢字の間で選択することはできない。例えば、全ての日
本語の話者が、キャラクタ□および□が本質的に「犬」
を意味することに同意しても、キャラクタ□を用いて単
語□□（ちゅうけん）「忠実な犬」と書いても、理解で
きないであろう。同様に、単語およびその発音の間の連
携も固定である。即ち、方言的変種は除いて、単語の発
音のしかたは、通常１つだけである。したがって、漢字
および発音の間には確固とした連携があるが、これは直
接的ではない。常に、書かれている特定の単語によって
仲介される。

【０００４】書き手は、しかしながら、漢字を用いるか
否か選択することができる。ちゅうけんを書く際、平仮
名（□□□□）、ひらがな（□□□□□）、ローマ字
（ｃｈｕｕｋｅｎ）、または混合（□□□、□□□□）
を用いても間違いではない。漢字および平仮名の組み合
わせで単語（特に動詞）を書くことは、非常に一般的で
ある。しかしながら、同じ単語内におけるスクリプトの
別の混成は、いずれも突飛であり、間違いと見なされ
る。漢字を含む単語は、表音スクリプトで書くこともで
きるので、当該単語における漢字の表音値（phonetic v
alue）について話すことができる。これは、特定の単語
における漢字の読み方、単語を音読するときのその発
音、または単語を音素的に書くときの音素スクリプトに
おける綴りを意味する。例えば、□□における□の読み
方はけんである。しかしながら、日本語特有の歴史のた
め、殆どの漢字は少なくとも２つの完全に別個の読み方
がある。例えば、単語□□□（いぬおよぎ）における□
の読み方は、いぬであり、□は□□（にんげん）におい
てにんと読み、□□□（にほんじん）においてじんと読
み、□□（ひとびと）においてひとと読む。更に、多く
の漢字は、互いに系統的に関連のある、異なった読み方
を有する。例えば、□は□□（かいはつ）でははつと読
まれ、□□（はっぴょう）ではは？と読まれ、□□（か
っぱつ）ではぱつと読まれる。

【０００５】日本語の書き言葉（例えば、日本語のスク
リプト）の基本的読み方を判定する際の複雑さの最後の
源泉は、１つの単語のどれくらいが漢字で表わされるか
ということについて、いくらかのばらつきがあることで
ある。例えば、かきつけという単語は、□□□□と書か
れる場合もあるが、□□□と書かれる場合もある。漢字
□の読み方は、最初の変形ではかであり、第２ではかき
である。これらの変形は双方とも容認可能と見なされる
が、２つの変形を単一の文書内で混合すると、誤りと見
なされる。

【０００６】前述の変形の源泉全てに対し、所与の単語
において漢字の正しい読み方を予測することは、単純な
作業ではない。教育を受けた日本語のネーティブ・スピ
ーカは、通常漢字の正しい読み方を覚えているか、想像
することができるが、ソフトウエアがこのタスクを実行
しても、成功する可能性は低い。

【０００７】

【発明が解決しようとする課題】現在、日本語スクリプ
トの読み取りを自動化する現状は、非効率であり、信頼
性にかける可能性がある。例えば、この問題に対する暴
力的解決策は、単語の辞書を作成し、単語の音素的綴り
に対するエントリを、それの他の辞書の綴り全てに対す
るエントリに連携させることである。しかしながら、こ
の種の解決策は、いくつかの問題に直面する。日本語は
伝統的に単語間に空白を挿入しないで書くので、辞書で
単語を調べることは並大抵のことではない。最初に、単
語間の境界を識別する必要があるが、相当のレベルの言
語的知識、およびかなりのリソースの出費が必要とな
る。日本語は英語よりもはるかに屈折した言語であるの
で、接辞添加や複合によって、単語の形態が広範囲に変
更するのは、通常よくあることである。単語に可能な形
態を全て収容すると、辞書は驚くべき大きさとなり、扱
いにくくなるであろう。したがって、日本語のスクリプ
トの読み方を適切に予測できるほどに、辞書を大きくす
ることは不可能である。更に、新しい単語が常に作られ
たり、あるいは借用されているので、このような辞書は
適応可能でありしかも更新可能でなければならない。

【０００８】以上のことから、日本語のスクリプトの読
み方を効率的かつ信頼性高く予測するシステムおよび方
法が必要とされていることが認められる。これらのシス
テムおよび方法を有することによって、既存の実施にお
ける欠点が克服されよう。

【０００９】

【課題を解決するための手段】日本語のスクリプトの読
み方を効率的に予測するシステムおよび方法を提供す
る。例示の実施態様では、本発明は、２つのモード、即
ち、「学習」および「実行／ランタイム」モードで動作
する読み方予測システムから成る。「学習」モードで
は、読み方分析部が、入力として、基準日本語スクリプ
ト（即ち、漢字）読み方、訓練コープス（例えば、日本
語の単語の語彙およびその読み方）、および疑似音韻規
則を受け入れ、訓練コープスにおける各エントリ毎に、
分析コープスおよび基本の読み方を生成する。次に、コ
ープス分類部を呼び出して、判断ツリーを生成する。記
載する実施態様では、コープス分類部は、学習アルゴリ
ズムを用いて、判断ツリーを作成する。

【００１０】「実行／ランタイム」モードで動作する場
合、読み方予測部が、作成した判断ツリー、生成した基
本の読み方、および疑似音韻規則を入力として受け入れ
る。加えて、読み方予測部は、日本語表意文字を有する
入力日本語文章の形態学的分析を入力として受け入れ
る。形態学的分析は、形態学的分析部によって行われ、
これは、とりわけ、入力日本語文章を解析するように動
作する。これらの入力を用いて、読み方予測部は、入力
日本語文章に対して読み方予測を行なう。

【００１１】以上に記載した実施態様では、読み方予測
システムは、一例の計算機アプリケーション内に組み込
まれ、入力日本語テキストに対する文型チェックを行な
う。

【００１２】

【発明の実施の形態】日本語表意文字の読み方予測方法
およびシステムについて、添付図面を参照しながら更に
説明する。概要日本語は、日本の約１億２千万人の住人、ならびにハワ
イや北および南アメリカ本土に住む日本人によって話さ
れている。また、今世紀当初における日本占領下に住ん
でいた中国人および韓国人も、第２言語として話してい
る。

【００１３】一般に、日本語には３つの単語類別があ
る。自生の日本語単語が最も大きな類を構成し、続い
て、歴史初期に中国から元々借用した単語が続き、そし
て最も小さいが急速に成長しているのが、近年になって
英語のような西洋語から借用された単語の類である。こ
の第３類は、他の亜細亜言語から来た少数の単語も含
む。これら３種類の単語の頻度は、調べる筆記文書の種
類によって異なる。例えば、雑誌では、自生の日本語の
単語が全単語の半分以上を占めるが、中国からの借用語
は平均約４０％であり、残りは、西洋言語から最近にな
って借用された単語から持ち込まれたものである。新聞
では、中国語起源の単語が、日本の自生単語よりも多
い。

【００１４】日本語は、開放音節音響パターンを有する
ので、殆どの音節は母音で終わる。即ち、音節は母音の
みで構成される場合もある。５つの母音/a/, /i/, /u/,
/e/および/o/がある。とが"door"を意味し、とおが"te
n"を意味するように、母音長が単語を区別する場合が多
い。基本子音は、/k/,/s/,/t/, /n/, /h/,/m/,/y/,/r/,
/w/、および鼻音節/N/である。これらの子音の多くは、
母音/a/,/u/, および/0/の前では口蓋音化され、例え
ば、/kya/, /kyu/,/kyo/となる。２つの子音/s/,/t/が
母音/i/と一緒になると、これらの子音は自動的に口蓋
音化され、/shi/および/chi/となる。子音/t/は、母音/
u/の前では/ts/と発音する。ストレス・アクセントを有
する英語と異なり、日本語はピッチ・アクセントを有す
る。これが意味するのは、アクセントのある音節の後で
は、ピッチが低下するということである。"chopsticks"
を示す単語、はしは、第１音節にアクセントを有するの
で、そのピッチ輪郭は、ha shiとなる。第１音節にアク
セントがないと、はしは"bridge"または"edge"を意味す
る。"bridge"は、第２音節にアクセントを有し、これ
は、「はしが」のように、主語標識「が」のような文法
的小辞（particle）が単語に付いたときにみることがで
きる。"edge"はアクセントを有さないので、「が」のよ
うな文法的標識があっても、ピッチが全く落ちずに発音
される。

【００１５】あらゆる言語は、文章における単語に対し
て、基本的な単語の順序を有する。英語では、"Naomi u
ses a computer"という文章は、主語(Naomi)、動詞(use
s)、および目的語(a computer)という順序を有する。対
応する日本語の文章では、主語は英語と同様最初に来る
ものの、次に目的語が来て、最後に動詞が続く。なおみ
−が(Naomi) こんぴゅーた−を(computer) つかう(us
e)となる。日本語における大雑把な規則（a rule of th
umb）は、文章では、動詞が最後にくる。２つの単語の
順序、英語では主語−動詞−目的語、日本語では主語−
目的語−動詞となるが、双方とも、世界の言語の中では
めずらしくはない。再度日本語の文章を見てみると、主
語および目的語は、小辞を伴っており、主語"Naomi"に
は「が」が（なおみ−が）、そして目的語"computer"に
は「お」（こんぴゅーた−お）が付いている。これら
は、格標識（case marker）と呼ばれており、世界の言
語の大多数がこれらを有する。英語においても、格標識
システムの名残を見ることができる。英語の名詞は、生
ずる場所によっては、形状が変化する。he/she/theyは
主語の位置であるが、目的語の位置ではhim/her/themと
なる（例えば、She saw him)。同様に、５００年ないし
１０００年前の古い英語は、最近の日本語と同様に、広
範な格標識システムを有していた。これらの格標識は、
日本語の単語が、異なる順序で現れても、同じ意味を保
持することを可能にする。例示の文章では、目的語を、
主語が通常では位置するところに置くことができ、主語
の通常の目的語位置に置くことができ、しかも意味は変
化しない。こんぴゅーた−おなおみ−がつかうとな
る。英語では、同じ転地を行なうと、文章の意味が全く
変わってしまう（例えば、The computer uses Naomi)。
日本語におけるその他の変形は、英語から日本語へまた
はその逆の転記作業を非常に困難にする。

【００１６】日本語は、主に、２つの正書法システム、
中国語キャラクタおよび表音文字を用いて筆記される。
中国語キャラクタ、即ち、漢字は、約１，５００年前か
ら中国から持ち込まれていた。その導入前では、日本語
は完全に話し言葉であった。中国語キャラクタは、膨大
な数のキャラクタ、ならびに各キャラクタの筆記および
読み方双方の複雑さのために、はるかに難しいシステム
である。各キャラクタには、意味が伴い、例えば、キャ
ラクタ□は、基本的な意味"dog"を有する。何万ものキ
ャラクタが実証されているが、１９４６年に、日本政府
が、日常の使用のために、１，８５０キャラクタを特定
した。１９８１年に、このリストは、１，９４５キャラ
クタに数が増加され、常用漢字表（日常用いる漢字）と
いう名称が与えられた。常用リストにあるキャラクタ
は、小学校および中学校で習得しなければならず、新聞
は通常このリストの漢字の使用に抑えている。殆どのキ
ャラクタには、少なくとも２通りの読み方があり、自生
の日本語の読み方、および同じキャラクタの元の中国語
発音を真似た読み方がある。同じキャラクタが日本に異
なる時期に、または中国の異なる方言地域から導入され
た場合、キャラクタにはいくつかの中国語の読み方が付
けられ、異なる時代、および方言的相違を表わす。第２
の筆記システムは表音文字、即ち、仮名であり、これは
約１，０００年前にある中国語キャラクタから、日本人
によって作り出された。表音文字における各キャラクタ
は、言語における１音節を表わし、中国語キャラクタと
は異なり、音を表わすが、意味を表わさない。表音文字
には２種類、平仮名およびカタカナがあり、各々同じ組
の音を含む。平仮名は、多くの場合中国語キャラクタと
組み合わせて用いられ、例えば、キャラクタがおおまか
に動詞の語根を表わし、平仮名で語尾変化を書き表わ
す。カタカナは、英語、フランス語、およびドイツ語の
ような西洋言語からの借用言語を書くために用いられ
る。同じ文章において漢字、平仮名、およびカタカナが
用いられているのを発見するのは、めずらしくない。中
国語キャラクタおよび表音文字と共に、ラテン・アルフ
ァベットも、組織の名称のようなものに用いられる場合
がある。この複雑な状況において、日本語スクリプトを
信頼性高く読むのは、非常に骨が折れる可能性があるこ
とを想像するのは難しくない。

【００１７】本発明は、各漢字の基本的読み方の最少集
合を特定し、基本的読み方に対して作用する１組の疑似
音韻規則を定義して表皮読み方（surface reading）を
生成し、判断ツリー・データ構造を構築し、これを用い
て、どの基本的読み方を単語内の各漢字に選ぶべきか判
断することによって読み方の予測を行なうという課題に
取り組む。基本的読み方は、文言通りの読み方と、疑似
音韻規則の動作を制御する１組のデータとによって構成
される。判断ツリーによって、アルゴリズムが、発見し
た単語の形態学的分析の間に得られた情報のみに基づい
て、最も可能性が高い読み方を漢字に選択することを可
能にする。

【００１８】１組の基本的読み方および判断ツリーは、
語彙、形態学、および音韻情報を含む１組の言語リソー
スから、自動的に学習する。最適な１組の読み方および
ツリーの構築によって、効率的に読み方の予測を行なう
ことが可能となる。

【００１９】以下で図１ないし図７に関して説明する
が、本発明は、日本語のスクリプトの読み方を効果的か
つ信頼性高く予測するシステムおよび方法を対象とす
る。その例示の実施態様によれば、本発明は、コンテン
ツ・プロバイダに、好適なデータ・タイプのデータを提
供するシステムおよび方法を備える。

【００２０】一実施形態では、以下で更に詳しく説明す
るが、本発明の方法および装置は、日本語スクリプトの
読み取りおよび分析を行なう１つ以上のコンポーネント
を実行する計算機環境の一部として実装することができ
る。計算機環境は、種々のハードウエアおよびソフトウ
エアの組み合わせから成り、日本語スクリプトの読み方
を理解することができる。計算機環境の一例図１は、本発明を実現可能な、適当な計算機システム環
境１００の一例を示す。計算機システム環境１００は、
単に適当な計算機環境の一例に過ぎず、本発明の使用ま
たは機能性の範囲に対して限定を示唆する意図は全くな
い。また、計算機環境１００は、一例の動作環境１００
に示すコンポーネントのいずれの１つまたはその組み合
わせに関するいずれの依存性も要件も有するものとして
解釈しないこととする。

【００２１】本発明は、多数の他の汎用または特殊目的
計算機システム環境または構成とでも動作する。本発明
と共に用いるのに適した公知の計算機システム、環境、
および／または構成の例には、限定する訳ではないが、
パーソナル・コンピュータ、サーバ・コンピュータ、ハ
ンドヘルドまたはラップトップ・デバイス、マルチプロ
セッサ・システム、マイクロプロセッサを用いたシステ
ム、セット・トップ・ボックス、プログラム可能な消費
者用電子機器、ネットワークＰＣ、ミニコンピュータ、
メインフレーム・コンピュータ、前述のシステムまたは
デバイスのいずれかを含む分散計算機環境等を含む。

【００２２】本発明の説明は、プログラム・モジュール
のような、コンピュータが実行する一般的なコンピュー
タ実行可能命令に関連して行なう。一般に、プログラム
・モジュールは、ルーチン、プログラム、オブジェク
ト、コンポーネント、データ構造等を含み、特定のタス
クを実行したり、あるいは特定の抽象的データ・タイプ
を実装する。更に、本発明は、分散型計算機環境におい
ても実施可能であり、この場合、通信ネットワークを通
じてリンクされたリモート処理デバイスによってタスク
を実行する。分散型計算機環境では、プログラム・モジ
ュールは、メモリ記憶装置を含むローカルおよびリモー
ト・コンピュータ記憶媒体双方に位置することができ
る。

【００２３】図１を参照すると、本発明を実現するシス
テムの一例は、従来のコンピュータ１１０の形態の汎用
計算機を含む。このコンピュータ１１０のコンポーネン
トは、限定する訳ではないが、演算装置１２０、システ
ム・メモリ１３０、およびシステム・メモリから演算装
置１２０までを含む種々のシステム・コンポーネントを
結合するシステム・バス１２１を含む。システム・バス
１２１は、数種類のバス構造のいずれでもよく、メモリ
・バスまたはメモリ・コントローラ、周辺バス、および
種々のバス構造のいずれかを用いるローカル・バスが含
まれる。一例として、そして限定ではなく、このような
アーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）
バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）
バス、改良ＩＳＡ（ＥＩＳＡ）バス、ビデオ電子規格協
会（ＶＥＳＡ）ローカル・バス、および（Ｍｅｚｚａｎ
ｉｎｅバスとしても知られている）周辺素子相互接続
（ＰＣＩ）バスを含む。

【００２４】コンピュータ１１０は、典型的に、種々の
コンピュータ読み取り可能媒体を含む。コンピュータ読
み取り可能媒体は、コンピュータ１１０がアクセス可能
であれば、入手可能な媒体のいずれでも可能であり、揮
発性および不揮発性双方の媒体、リムーバブルおよび非
リムーバブル媒体を含む。一例として、そして限定では
なく、コンピュータ読み取り可能媒体は、コンピュータ
記憶媒体および通信媒体を含むことができる。コンピュ
ータ記憶媒体は、揮発性および不揮発性、リムーバブル
および非リムーバブル双方の媒体を含み、コンピュータ
読み取り可能命令、データ構造、プログラム・モジュー
ルまたはその他のデータのような情報の格納のためのあ
らゆる方法または技術において使用されている。コンピ
ュータ記憶媒体は、限定する訳ではないが、ＲＡＭ、Ｒ
ＯＭ、ＥＥＰＲＯＭ、フラッシュ・メモリまたはその他
のメモリ技術、ＣＤ−ＲＯＭ、ディジタル・バーサタイ
ル・ディスク（ＤＶＤ）、またはその他の光ディスク・
ストレージ、磁気カセット、磁気テープ、磁気ディスク
・ストレージ、またはその他の磁気記憶装置、あるいは
所望の情報を格納するために使用可能であり、コンピュ
ータ１００によってアクセス可能なその他のいずれの媒
体でも含まれる。通信媒体は、典型的に、コンピュータ
読み取り可能命令、データ構造、プログラム・モジュー
ル、またはその他データを、キャリアＷＡＶまたはその
他のトランスポート機構のような変調データ信号におい
て具体化し、あらゆる情報配信媒体を含む。「変調デー
タ信号」という用語は、当該信号内に情報をエンコード
するように、その１つ以上の特性を設定または変更した
信号を意味する。一例として、そして限定ではなく、通
信媒体は、有線ネットワークまたは直接有線接続のよう
な有線媒体、ならびに音響、ＲＦ、赤外線およびその他
のワイヤレス媒体のようなワイヤレス媒体を含む。前述
のいずれの組み合わせでも、コンピュータ読み取り可能
媒体の範囲内に含まれて当然である。

【００２５】システム・メモリ１３０は、リード・オン
リ・メモリ（ＲＯＭ）１３１およびランダム・アクセス
・メモリ（ＲＡＭ）１３２のような揮発性および／また
は不揮発性メモリの形態のコンピュータ記憶媒体を含
む。基本入出力システム１３３（ＢＩＯＳ）は、起動中
のように、コンピュータ２０内のエレメント間における
データ転送を補助する基本的なルーチンを含み、典型的
にＲＯＭ１３１内に格納されている。ＲＡＭ１３２は、
典型的に、演算装置１２０が直ちにアクセス可能である
データおよび／またはプログラム・モジュール、または
現在これによって処理されているデータおよび／または
プログラム・モジュールを収容する。一例として、そし
て限定ではなく、図１は、オペレーティング・システム
１３４、アプリケーション・プログラム１３５、その他
のプログラム・モジュール１３６、およびプログラム・
データ１３７を示す。

【００２６】また、コンピュータ１１０は、その他のリ
ムーバブル／非リムーバブル揮発性／不揮発性コンピュ
ータ記憶媒体も含むことができる。一例としてのみ、図
１は、非リムーバブル不揮発性磁気媒体からの読み取り
およびこれへの書き込みを行なうハード・ディスク・ド
ライブ１４１、リムーバブル不揮発性磁気ディスク１５
２からの読み取りおよびこれへの書き込みを行なう磁気
ディスク・ドライブ１５１、ならびにＣＤＲＯＭまた
はその他の光媒体のようなリムーバブル不揮発性光ディ
スク１５６からの読み取りおよびこれへの書き込みを行
なう光ディスク・ドライブ１５５を示す。動作環境の一
例において使用可能なその他のリムーバブル／非リムー
バブル、揮発性／不揮発性コンピュータ記憶媒体には、
限定する訳ではないが、磁気テープ・カセット、フラッ
シュ・メモリ・カード、ディジタル・バーサタイル・デ
ィスク、ディジタル・ビデオ・テープ、ソリッド・ステ
ートＲＡＭ、ソリッド・ステートＲＯＭ等が含まれる。
ハード・ディスク・ドライブ１４１は、典型的に、イン
ターフェース１４０のような非リムーバブル・メモリ・
インターフェースを介してシステム・バス１２１に接続
され、磁気ディスク・ドライバ１５１および光ディスク
・ドライブ１５５は、典型的に、インターフェース１５
０のようなリムーバブル・メモリ・インターフェースに
よって、システム・バス１２１に接続する。

【００２７】先に論じ図１に示すドライブおよびそれら
と連動するコンピュータ記憶媒体は、コンピュータ読み
取り可能命令、データ構造、プログラム・モジュール、
およびコンピュータ１１０のその他のデータを格納す
る。図１では、例えば、ハード・ディスク・ドライブ１
４１は、オペレーティング・システム１４４、アプリケ
ーション・プログラム１４５、その他のプログラム・モ
ジュール１４６、およびプログラム・データ１４７を格
納するように示されている。尚、これらのコンポーネン
トは、オペレーティング・システム１３４、アプリケー
ション・プログラム１３５、その他のプログラム・モジ
ュール１３６、およびプログラム・データ１３７と同じ
でも異なっていても可能であることを注記しておく。オ
ペレーティング・システム１４４、アプリケーション・
プログラム１４５、その他のプログラム・モジュール１
４６、およびプログラム・データ１４７は、ここで、少
なくともこれらが異なるコピーであることを示すため
に、異なる番号が与えられている。ユーザは、キーボー
ド１６２、および一般にマウス、トラックボールまたは
タッチ・パッドと呼ばれているポインティング・デバイ
ス１６１によって、コマンドおよび情報をコンピュータ
１１０に入力することができる。他の入力デバイス（図
示せず）は、マイクロフォン、ジョイスティック、ゲー
ム・パッド、衛星ディッシュ、スキャナ等を含むことが
できる。これらおよびその他の入力デバイスは、多くの
場合、ユーザ入力インターフェース１６０を介して、演
算装置１２０に接続されている。ユーザ入力インターフ
ェース１６０は、システム・バスに結合されているが、
パラレル・ポート、ゲーム・ポートまたはユニバーサル
・シリアル・バス（ＵＳＢ）のようなその他のインター
フェースおよびバス構造によって接続することも可能で
ある。モニタ１９１またはその他の形式の表示装置も、
ビデオ・インターフェース１９０のようなインターフェ
ースを介して、システム・バス１２１に接続されてい
る。モニタに加えて、コンピュータは、スピーカ１９７
およびプリンタ１９６のようなその他の周辺出力デバイ
スを含むこともでき、これらは出力周辺インターフェー
ス１９０を介して接続することができる。

【００２８】コンピュータ１１０は、リモート・コンピ
ュータ１８０のような１つ以上のリモート・コンピュー
タへの論理接続を用いて、ネットワーク環境において動
作することも可能である。リモート・コンピュータ１８
０は、パーソナル・コンピュータ、ハンド・ヘルド・デ
バイス、サーバ、ルータ、ネットワークＰＣ、ピア・デ
バイス、またはその他の共通ネットワーク・ノードとす
ることができ、典型的に、コンピュータ１１０に関して
先に説明したエレメントの多くまたは全てを含むが、図
１にはメモリ記憶装置１８１のみを示す。図１に示す論
理接続は、ローカル・エリア・ネットワーク（ＬＡＮ）
１７１およびワイド・エリア・ネットワーク（ＷＡＮ）
１７３を含むが、他のネットワークも含むことができ
る。このようなネットワーク環境は、事務所、企業規模
のコンピュータ・ネットワーク、イントラネットおよび
インターネットにおいては、一般的である。

【００２９】ＬＡＮネットワーク環境で用いる場合、コ
ンピュータ１１０は、ネットワーク・インターフェース
またはアダプタ１７０を介してＬＡＮ１７１に接続す
る。ＷＡＮネットワーク環境で用いる場合、コンピュー
タ１１０は、典型的に、モデム１７２、またはインター
ネットのようなＷＡＮ１７３を通じて通信を確立するそ
の他の手段を含む。モデム１７２は、内蔵でも外付けで
もよく、ユーザ入力インターフェース１６０またはその
他の適切な機構を介してシステム・バス１２１に接続す
ることができる。ネットワーク環境では、コンピュータ
１１０に関して図示したプログラム・モジュール、また
はその一部は、リモート・メモリ記憶装置に格納するこ
ともできる。一例として、そして限定ではなく、図１
は、リモート・アプリケーション・プログラム１８５が
メモリ素子１８１上に常駐するものとして示している。
尚、図示のネットワーク接続は一例であり、コンピュー
タ間で通信リンクを確立する他の手段も使用可能である
ことは認められよう。表意文字の読み方予測図２および図３は、日本語表意文字の読み方を予測する
ときに用いる、基本的読み方および判断ツリーを生成す
るための、読み方予測システム２００の種々のデータお
よび処理コンポーネントの協働を示す。図示の実施態様
では、読み方予測システム２００は、基準漢字読み方２
０５、訓練コープス２１０、疑似音韻規則２１５、読み
方分析部２２０、基本的読み方２２５、分析コープス２
３０、コープス分類部２３５、判断ツリー２４０、入力
文章２７０、読み方予測部２６５、形態学的分析部２７
５、形態学的分析２８０、および読み方予測２６０から
成る。読み方予測システム２００は、２段階、即ち、
「訓練段階」および「実行／ランタイム段階」で動作す
る。図２は、読み方予測システム２００の「訓練段階」
のための例示コンポーネントの協働を示す。「訓練段
階」は、読み方予測システム２００に、判断ツリー２４
０および基本的読み方２２５を供給する。これらは、
「実行／ランタイム」段階において用いられ（図３に示
すその他の例示のコンポーネントと共に）、読み方の予
測を行なう。

【００３０】図２に示すように、読み方分析部２２０
は、入力として、基準漢字読み方２０５、訓練コープス
２１０、および疑似音韻ルール２１５を受け入れる。こ
れらのデータを用いて、読み取り分析部２２０は、分析
コープス２３０および基本的読み方２２５を作成する。
分析コープス２３０は、コープス分類部２３５への入力
として作用し、コープス分類部２３５は判断ツリー２４
０を生成する。更に、図示のように、一旦基本的読み方
２２５および分析コープス２３０を生成したなら、処理
は読み方分析部２２０からコープス分類部２３５に渡さ
れる。判断ツリー２４０および基本的読み方２２５を用
いて、読み方予測システム２００は、「実行／ランタイ
ム段階」中に読み方予測２６０を行なうことができる。
図３に示すように、読み方予測部２６５は、入力とし
て、文章２７０、判断ツリー２４０、基本的読み方２２
５、疑似音韻規則２１５、形態学的分析２８０を受け入
れ、読み取り予測２６０を生成する。動作において、入
力文章には、読み方予測部２６５および形態学的分析部
２７５が処理を加える。形態学的分析部２７５は、入力
文書２７０に処理を行い、形態学的分析２８０を生成す
る。形態学的分析部２７５については、本発明の譲受人
である、ＭｉｃｒｏｓｏｆｔＣｏｒｐ．に譲渡された
米国特許第５，９６３，８９３号および第５，９４６，
６４８号により良く記載されている。双方共、この言及
により、その全体が本願にも含まれるものとする。一
方、形態学的分析２８０は、読み方予測部２６５への入
力として作用し、読み方予測部２６５はこれを用いて入
力文書２７０を処理する。

【００３１】即ち、読み方予測システム２００は、各漢
字の基準読み方の完全なリストから開始する。基準読み
方は、読み方の発音および歴史的等級に関する情報のみ
を含む。読み方は、その読み方が元々中国語から借用さ
れた（音読み）のか、または明白に日本人によって創作
された（訓読み）のかに基づいて、２つの等級に分割さ
れる。この情報は、元々、Ｍｉｃｒｏｓｏｆｔが購入し
た機械読み取り可能日本語辞典から取ったのであり、続
いて、リストを必要に応じて変更し、予測手順の性能を
向上させた。基準読み方は、テキスト・ファイルで格納
し、訓練プログラムが読み取る。

【００３２】以下に続く例示の一例では、漢字および単
語／形態素の読み方を、読み手の便宜上、ローマ字で表
わすことにする。しかしながら、実際のデータでは、読
み方は常に平仮名で書かれている。したがって、例は、
「読み方の最初の仮名」等を示す。例えば、□に対する
基準読み方キャラクタ・データは、次の通りである。

【００３３】

【表１】hatsu、音読み hotsu、音読み abaki、訓読み okoshi、訓読み tachi、訓読み、 hasshi、訓読み、 hana、訓読み、 hira、訓読み。

【００３４】また、疑似音韻規則の完全なリストも最初
にある。この規則は、読み方が特定の環境で生じると、
ある変更が起こることを指定する。これらの規則は、弱
母音の削除やリーマンの法則のような純粋に音韻的現
象、および読み方の仮名の綴り部分の実施（送り仮名）
のような純粋に正書法的現象の双方をカプセル化する。
各規則は、照合すべき環境（規則の「左側」）および取
るべき処置（「右側」）として実施される。

【００３５】規則の一部は、次のように言い換えること
ができる。仮名が訓読みの一部であり、それが形態素に
おける最初の仮名であり、そしてそれが鼻音節仮名の後
にあり、そして無声子音で始まり、そして形態素の残り
部分が有声閉鎖音を含まない場合、無声子音をその有声
子音と置き換える。

【００３６】読み方が基礎の？音素で終わる場合、その
音素を削除し、それに続く読み方の最初の子音を二重に
する。読み方が２つよりも多い仮名を有する場合、最後
の２つの仮名を除去する。

【００３７】規則は、常に固定順序で適用し、それら自
体の出力に適用することはできない。更に、一部の規則
には、適用されると他の規則の適用を禁止する場合があ
る。訓練データのコープスが組み立てられ、これは、日
本語形態学的分析部の主要語彙における全ての単語、分
析部の有限状態文法における形態素の全て、公知の非標
準的綴り変形のリスト、ならびに典型的な数および日付
のリストを含む。各エントリは、項目の綴り、その形態
学的類別または話法の一部、および項目の読み方を含
む。コープスを処理していくつかのテキスト・ファイル
とし、これを図２の読み方分析部２２０で処理する。

【００３８】コープスに含まれるデータ例の一部は次の
通りである。

【００３９】

【表２】GOku, aba,□ GOsu, oko, □ GOsu, ha?,□ GOtu, ta, □ Geo, hassamu, □□ Lnme, hossa, □□ Noun, kappatsu,□□ Noun, hatsumei, □□ Noun, ichinenhokki, □□□□ Noun, kanpatsu, □□ Noun, kanpatsu, □□ Noun, hokku, □□ Noun, hotsui, □□ DER class shot hatu, ippatsu, □□ DER class shot hatu, nihatsu, □□ DER class shot-hatu,sanpatsu, □□ 「訓練段階」の間、訓練コープスの各エントリを分析
し、各単語における各漢字について、どの基準読み方を
用いるか、どの音韻規則を適用するか、どの規則を適用
すべきであったがしなかったか判定を行なう。このステ
ップを実行するには、可能な組み合わせを余すことなく
探索し、エントリの読み方に一致する読み方を生成する
ものを見つけ出す。処理の一例は次の通りである。

【００４０】

【表３】訓練コープスにおける各エントリについて、綴
りにおける各漢字について、漢字の基準読み方の各々に
ついて、漢字の基準読み方を代えて、読み方仮説を形成
する各読み方仮説について、環境が一致した各音韻規則
について、現読み方仮説を複製する一方のコピーにおい
て、規則の作用部分を実行し、規則が適用されたことを
印する他方のコピーにおいて、ルールが禁止されたこと
を印する読み方仮説がエントリの読み方と一致した場
合、仮説を保存する読み方分析部２２０が１つよりも多
い仮説を生成するのに成功することも、全く生成できな
いこともあり得る。多数の仮説ができた場合、読み方予
測システムは、単純な方の仮説を優先する探索法を用い
て、最良の仮説を選択する。「学習段階」の出力を検査
することによって、１組の基準読み方および音韻規則を
変更し、曖昧さおよび不良の数を減少させることができ
る。

【００４１】典型的な動作の一例として、「訓練段階」
の間、以下のエントリを次のように分析することができ
る。 Noun, kanpatsu, □□ キャラクタ□は、１つの基準読み方のみを有する。 kan, 音先に列挙した□の８つの基準読み方と組み合わせると、
音韻規則を適用する前に、８つの読み方仮説、kanhhats
u, kanhotsu, kanabaki, kanakoshi, kantachi, kanhas
shi, kanhana,およびkanhiraが得られる。読み方分析部
２００（読み方分析部によって実行するアルゴリズム）
は、kanhatsuが、鼻音節の後の子音を有声化するNasalV
oicingと呼ぶ規則の環境に一致することを認める。この
規則を適用すると、kanbatsuが得られ、以降の規則適用
の組み合わせは、正しい読み方に至らない。しかしなが
ら、NasalVoicingが禁止されると、仮説は、別の規則Na
salStoppingの環境と一致する。この規則を適用する
と、kanpatsuが得られる。後の規則、Spelling Variant
は、kanpatsuをkanpaに変化させる。この規則が禁止さ
れると、最後の仮説、kanpatsuが残る。これが正しい表
皮読み方となる。

【００４２】読み方仮説は、単純な方法で基本的読み方
に変換される。各音素規則は、禁止されなければ、その
環境が一致したときに適用されると仮定する。したがっ
て、基本的読み方は、どの規則が禁止されたかのみを記
録すればよい。先の例では、基本的読み方は、次のよう
になる。

【００４３】□−kan、音、−NasalVoicing □−hatu、音、−Spelling Vaariant1 このように訓練コープス全体を分析した後、読み方予測
システム２００は、各漢字に対して、基本的読み方２２
５の完全な集合、および各読み方が現れた単語の完全な
集合を特定している。読み方予測システム２００は、こ
の情報を用いて、各漢字について判断ツリー２４０を作
成する。判断ツリー２４０は、所与の文脈における漢字
の基本的読み方を予測する。判断ツリー２４０は、文章
の形態学的分析から得られる情報のみを用いる。言い方
を変えると、判断ツリー２４０は、訓練コープスにどの
単語が現れるかには無関係に、単語の基本的読み方に関
する予測を行なうことができる。

【００４４】例示の実施態様では、判断ツリー２４０
は、公知のＩＤ３機械学習アルゴリズムの変形を用いて
作成する。即ち、各単語をイベントとして扱う。その結
果（正しい基本的読み方）はわかっている。アルゴリズ
ムは、全て同じ結果を有する部分集合にイベントを分類
する。これを行なうには、イベントの集合を部分集合に
分割する。部分集合の各メンバは、同じ値の分類属性を
有する。属性は、結果以外のイベントに関して分かって
いる何かである。分割前後における各集合のエントロピ
ーを計算することによって、アルゴリズムには、エント
ロピー利得と呼ばれるメトリックが与えられる。アルゴ
リズムは、各分割においてエントロピー利得が最大とな
る一連の属性検査を探索し、更に一連の検査を行い、最
終的にイベントを同じ結果を共有する類似部分集合に分
類する。

【００４５】「学習段階」の間、読み方予測システム２
００は、分類属性を用いる。これは、形態学的分析から
得られる情報である。集合は、次のような属性を含む。

【００４６】

【表４】IsBoundMorpheme - 漢字を含む形態素が接頭
辞である場合真 IsStemMorpheme − 漢字を含む形態素が語幹である場
合真 IsMorphInitial − 漢字が形態素における最初のキャ
ラクタである場合真 IsMorphFinal − 漢字が形態素における最後のキャラ
クタである場合真 PrecedesKanji − 形態素において漢字が他の単語の直
前にある場合真 FollowsKanji − 形態素において漢字が他の単語の直
後にある場合真 PrecedsHiragana − 形態素において、漢字が平仮名の
直前にある場合真 FollowsHiragana − 形態素において漢字が平仮名の直
後にある場合真 PrecedsKatakana − 形態素において漢字がカタカナの
直前にある場合真 FollowsKatakana − 形態素において漢字がカタカナの
直後にある場合真 AllKanji − 漢字を含む形態素におけるキャラクタ全
てが漢字である場合真 IsUnigram − 漢字を含む形態素が１キャラクタ長であ
る場合真 IsBigram − 漢字を含む形態素が２キャラクタ長であ
る場合真 IsTrigram − 漢字を含む形態素が３キャラクタ長であ
る場合真 IsTetragram − 漢字を含む形態素が４キャラクタ長で
ある場合真 IsFactoid − 漢字を含む形態が、名称、日付、または
数値である場合真 IsBoundR − 漢字を含む形態素が１キャラクタ接尾語
である場合真 IsBoundL − 漢字を含む形態素が１キャラクタ接頭語
である場合真 MorphIDEquals(X) − 漢字を含む形態素がＸである場
合真 WordIDEquals(X) − 漢字を含む単語がＸである場合真 NextCharEquals(X) − 形態素において漢字がＸの直前
にある場合真 ThirdCharEquals(X) − 形態素において漢字がＸより
も２キャラクタ前にある場合真 PrevCharEquals(X) − 形態素において漢字がＸの直後
にある場合真読み方予測システム２００は、分類属性を用いて、次の
例に対して以下のような処理を行なう。例えば、訓練コ
ープスにおける□のインスタンスのみが次の通りである
と仮定する。

【００４７】

【表５】１．GOku, aba, □ ２．GOsu, oko, □ ３．Noun, kappatsu, □□ ４．NCna, hatsumei, □□ ５．Noun, ichinenhokki, □□□□ ６．Noun, kanpatsu, □□ ７．Noun, hokku, □□ ８．Noun, hotsui, □□ 分析段階によって特定された□の基本的読み方は、次の
通りである。

【００４８】

【表６】１．Ａ：aba, 訓、-SpellingVariant1 ２．Ｂ：oko, 訓、-SpellingVariant1 ３．Ｃ：hatsu, 音、-SpellingVariant1 ４．Ｃ：hatsu, 音、-SpellingVariant1 ５．Ｄ：hotsu, 音６．Ｃ：hatsu, 音、-SpellingVariant1 ７．Ｄ：hotsu, 音８．Ｅ：hotsu, 音、- 読み方分析部アルゴリズムは、以下のような判断ツリー
を作成する。

【００４９】

【表７】 If IsMorphID(GOku) Reading A Else If IsMorphID(GOsu) Reading B Else If IsFinal Reading C Else If IsTetragram Reading D Else If IsMorphID(Ncna) Reading C Else If NextCharEquals(□) Reading D Else Reading E 場合によっては、分類属性は、単語を類似等級に完全に
分離できない場合もある。この状況が発生した場合、ア
ルゴリズムは、例の頻度に基づいて、確率的に最終分離
を行なう。これは、訓練コープスにおける単語の頻度か
ら計算する。前述の例のデータが次の項目も含み、９．Noun, hatsui, □□(reading C) 項目８および９双方が同じ頻度を有する場合、上記ツリ
ーの最終片は、以下と置き換えられる。

【００５０】

【表８】 If NextCharEquals(□) Reading D Else Probalilistic .5 Reading E .5 Reading C 「実行／ランタイム」段階における速度を最大化するた
めに、作業の殆どを「学習」段階の間に行なう。「実行
／ランタイム」段階の間、読み方予測アルゴリズムは、
一例の計算機アプリケーション（図７に示す）における
モジュールとして実装され、日本語形態学分析部も含
む。所与の漢字に対する読み方を予測するために、形態
学エンジンを用いて、漢字を含む単語を含む文章を分析
する。分類属性の値を分析から計算し、判断ツリーを通
過し、当該漢字に対する基本的読み方を見つけるために
用いる。

【００５１】次に、音韻規則を基本的読み方に適用し
（基本的読み方によって禁止されていない場合）、読み
方の表皮形態を生成する。また、表皮読み方に対する信
頼度も計算する。判断ツリーの横断で、確率ノードに遭
遇した場合、信頼度は、続く経路の確率を反映する。同
じ入力単語に対して読み方予測モジュールを繰り返しコ
ールする場合、信頼性の降順で全ての可能な異なる予測
を返す。

【００５２】図４は、読み方予測システム２００が実行
し、例示の文章に対する読み方予測を分析し与える一般
的なステップを示す。図示のように、以下の文章におけ
る単語□□（３０５）の単語の読み方を決定する。

【００５３】□□□□□□. （３００）最初に図３の形態学的分析部２７５によってこの文章を
分析し、構造を究明する。

【００５４】□□（代名詞）□（小辞）□（名詞補語）
□（コプラ）. （３００）次に、２つの漢字□および
□に対する分類属性を計算する。次に、２つの漢字の各
々の判断ツリーを、属性値にしたがって、通過する。

【００５５】基本的読み方（３１５）： hatsu, 音、-SpellingVariant1 mei, 音、-SpellingVariant1 が選択され、hatsumeiという単語の読み方の表現を作成
する。次に、音韻規則を単語の読み方に適用し、そして
一致する環境を有する唯一の規則がSpellingVariant1で
あり、この規則は双方の読み方に適用するのを禁止され
ているので、最終的な表皮読み方予測は、hatsumeiとな
る。

【００５６】図５は、「学習段階」において動作する場
合に、読み方予測システムが実行する処理を更に詳細に
示す。処理はブロック４００にて開始し、ブロック４０
５に進み、読み方予測システム２００に日本語読み方デ
ータをロードする。例示の実施態様では、日本語読み方
データは、１組の標準的漢字読み方から成り、音読みま
たは訓読みとしての分類を含む。これから、ブロック４
１０において、疑似音韻規則を読み方予測システム２０
０にロードする。次に、日本語データ４１５のコープス
を読み方予測システム２００にロードする。日本語デー
タのコープスは、日本語辞書からのエントリ、日本語有
限状態文法からの形態素、ならびに数および日付のよう
な１組の日本語の句から成る。各項目は、綴り、読み
方、およびスピーチまたは形態学的類別の一部を含む。
次に、ブロック４２０において、日本語データ・コープ
スの各エントリに、基準読み方を割り当てる。次に、処
理はブロック４２５に進み、日本語データ・コープスの
各エントリに対して読み方の仮説を行なう。次に、ブロ
ック４３０において、ブロック４２５で得た仮説を、基
本的読み方に変換する。基本的読み方を用いて、読み方
予測システム２００は、判断ツリーを作成し、これを読
み方予測システム２００の「実行／ランタイム段階」に
おいて用いる。判断ツリーを生成し、処理はブロック４
４０で終了する。

【００５７】図６は、「実行／ランタイム」モード／段
階において動作する場合に、読み方予測システムが実行
する処理を示す。図示のように、処理はブロック４４５
にて開始し、ブロック４５０に進んで、形態学的分析部
を用いて入力文章を分析する。ここから、処理はブロッ
ク４５５に進み、入力文章内にある日本語表意文字の分
類属性を計算する。分類属性を用いて、判断ツリー（図
５のブロック４３５において生成した）を「辿り」、日
本語表意文字（漢字）の基本的読み方、および予測に対
する信頼度を判定する。次に、ブロック４６５におい
て、音韻規則を作成した基本的読み方に適用することに
よって、表皮形態読み取りを生成する。ブロック４７０
において、信頼性の降順で表皮形態を戻す。次いで、ブ
ロック４７５において処理は終了する。

【００５８】図７は、本発明のフィーチャ（feature）
を組み込んだ計算機アプリケーションの一例のスクリー
ン・ショットを示す。一例の計算機環境５００は、表示
／インターフェース制御部５１０および表示／インター
フェース・エリア５１５を有する表示／インターフェー
ス・ページを備えている。図示のように、日本語の表意
文字（即ち、漢字スクリプト）５２０は、表示／インタ
ーフェース・エリア５２０に表示することができる。動
作において、一例の計算機アプリケーション５００は、
本発明のフィーチャを用いて、入力した日本語表意文字
（例えば、５２０）上で文型チェックを行い、提出され
た日本語文章における入力日本語表意文字の適性な使用
を確認する。このような動作は、一例の計算機アプリケ
ーションでは、"Style Checker"の使用によって実現す
ることができる。"Style Checker"は、表示／インター
フェース制御部５１０の１つとして組み込み、日本語の
文章（即ち、日本語の表意文字から成る単語を有する日
本語文章）が、表示／インターフェース・エリア５１５
上に表示するために入力されたときに、読み方予測シス
テム（図２および図３）を組み込んだ"Style Checker"
が、入力された日本語文章を処理し、入力された日本語
の表意文字の一貫性のある使用を確認することができる
ようにする。

【００５９】要約すると、本発明は、日本語の表意文字
に対して効果的でかつ信頼性の高い読み方予測を可能に
するシステムおよび方法を提供する。しかしながら、本
発明は、種々の変更や代替構造も容易に可能であること
は理解されよう。本発明を、ここに記載した具体的な構
造に限定する意図はない。逆に、本発明は、本発明の範
囲および精神に該当するあらゆる変更、代替構造、およ
び同等物も包含することを意図している。

【００６０】尚、本発明は、種々のコンピュータ・シス
テムにおいて実現可能であることには、当然気が付くで
あろう。ここに記載した種々の技法は、ハードウエアま
たはソフトウエア、あるいは双方の組み合わせで実現す
ることができる。好ましくは、各々、プロセッサ、当該
プロセッサによって読み取り可能な記憶媒体（揮発性お
よび不揮発性メモリおよび／または記憶エレメントを含
む）、少なくとも１つの入力装置、および少なくとも１
つの出力装置を含む、プログラム可能なコンピュータ上
で実行するコンピュータ・プログラムにおいて、前述の
技法を実現する。プログラム・コードを、入力装置を用
いて入力したデータに適用し、前述の機能を実行し、出
力情報を生成する。出力情報を１つ以上の出力装置に適
用する。各プログラムは、高級プロシージャまたはオブ
ジェクト指向プログラミング言語で実現し、コンピュー
タ・システムと通信することが好ましい。しかしなが
ら、プログラムは、望ましければ、アセンブリまたは機
械語で実現することも可能である。いずれの場合でも、
言語は、コンパイルまたはインタープリタ言語とすれば
よい。このようなコンピュータ・プログラムは、各々、
汎用または特殊目的用プログラム可能コンピュータよっ
て読み取り可能な記憶媒体または素子（例えば、ＲＯＭ
または磁気ディスク）上に格納することが好ましく、コ
ンピュータが記憶媒体または素子を読み取って前述の手
順を実行するときに、コンピュータのコンフィギュレー
ションを設定し、動作させるようにする。また、システ
ムは、コンピュータ・プログラムを構成する、コンピュ
ータ読み取り可能記憶媒体として実現することも考えら
れ、この場合、このように構成した記憶媒体は、コンピ
ュータに具体的かつ既定の方法で動作させる。更に、一
例の計算機アプリケーションの記憶エレメントは、種々
の組み合わせおよびコンフィギュレーションでデータを
格納可能な、リレーショナルまたはシーケンシャル（フ
ラット・ファイル）方計算機データベースとしてもよ
い。

【００６１】以上、本発明の実施形態の一例について詳
しく説明したが、多くの追加の変更も、本発明の新規な
教示や利点から著しく逸脱することなく、実施形態の一
例において可能であることを、当業者は容易に認めよ
う。したがって、これらおよびこのような全ての変更
は、添付した特許請求の範囲にしたがってその広さおよ
び範囲を解釈する、本発明の範囲に含まれることを意図
するものとする。

【図面の簡単な説明】

【図１】本発明の態様を組み込むことができる計算機環
境の一例のブロック図である。

【図２】本発明にしたがって、日本語スクリプトの読み
方の効果的な予測に関する学習フィーチャを実行するた
めに協働するコンポーネントのブロック図である。

【図３】本発明したがって、日本語スクリプトの読み方
の予測実行を実現するために協働するコンポーネントの
ブロック図である。

【図４】本発明による日本語スクリプト処理の一例のブ
ロック図である。

【図５】本発明にしたがって日本語スクリプトの読み方
を予測するときに用いる判断ツリーを形成するために実
行する処理のフロー図である。

【図６】本発明にしたがって日本語スクリプトの読み方
を予測するときに実行する処理のフロー図である。

【図７】本発明による、日本語読み取りフィーチャを有
する、計算機アプリケーションの一例のスクリーン・シ
ョットである。

【符号の説明】

１１０コンピュータ１２０演算装置１２１システム・バス１３０システム・メモリ１３１リード・オンリ・メモリ（ＲＯＭ）１３２ランダム・アクセス・メモリ（ＲＡＭ）１３３基本入出力システム（ＢＩＯＳ）１３４オペレーティング・システム１３５アプリケーション・プログラム１３６その他のプログラム・モジュール１３７プログラム・データ１４１ハード・ディスク・ドライブ１４４オペレーティング・システム１４５アプリケーション・プログラム１４６その他のプログラム・モジュール１４７プログラム・データ１５０インターフェース１５１磁気ディスク・ドライブ１５２リムーバブル不揮発性磁気ディスク１５５光ディスク・ドライブ１５６リムーバブル不揮発性光ディスク１６０ユーザ入力インターフェース１６１ポインティング・デバイス１６２キーボード１７１ローカル・エリア・ネットワーク（ＬＡＮ）１７３ワイド・エリア・ネットワーク（ＷＡＮ）１８０リモート・コンピュータ１８１モニタ１８５リモート・アプリケーション・プログラム１９０出力周辺インターフェース１９６プリンタ１９７スピーカ２００読み方予測システム２０５基準漢字読み方２１０訓練コープス２１５疑似音韻ルール２２０読み方分析部２２５基本的読み方２３０分析コープス２３５コープス分類部２４０判断ツリー２６０読み方予測２６５読み方予測部２７０文章２７５形態学的分析部２８０形態学的分析５００計算機環境５１０表示／インターフェース制御部５１５表示／インターフェース・エリア５２０表示／インターフェース・エリア

Claims

【特許請求の範囲】

【請求項１】日本語の単語および／または文章の日本
語表意文字の読み方を予測する方法であって、日本語の表意文字を含む日本語の単語を有するデータ・
ストアに対して、基本的読み方を作成するステップであ
って、基準漢字読み方および疑似音韻規則のいずれかか
ら成るデータを用いて、前記基本的読み方を作成する、
ステップと、判断ツリーを生成するステップであって、該判断ツリー
が、前記日本語表意文字の読み方を予測するステップを
明記する、ステップと、前記日本語の単語および／または文章を処理し、前記日
本語の単語および／文章の前記日本語の表意文字の読み
方を与えるステップと、から成る方法。
【請求項２】請求項１記載の方法において、前記作成
するステップは、更に、読み方分析部を設けるステップ
を含み、前記読み方分析部が、入力として、前記基準漢
字読み方、前記疑似音韻規則、および処理用訓練コープ
スを受け入れて前記基本的読み方を作成し、前記訓練コ
ープスが、日本語表意文字を含む日本語単語を有する前
記データ・ストアを構成する、方法。
【請求項３】請求項１記載の方法において、前記生成
するステップは、更に、学習アルゴリズムを設けるステ
ップを含み、該学習アルゴリズムが、前記判断ツリーを
作成するステップを明記する、方法。
【請求項４】請求項３記載の方法において、前記設け
るステップは、ＩＤ３型機械学習アルゴリズムを装備す
るステップを含む、方法。
【請求項５】請求項４記載の方法であって、更に、日本語表意文字を含む日本語の単語を有する前記データ
・ストアの各日本語単語における各日本語表意文字をイ
ベントとして扱うステップであって、各イベントの結果
が、前記日本語単語における前記各日本語表意文字の正
しい基本的読み方である、ステップと、前記イベントを、同じ結果を有する集合に分類するステ
ップであって、該分類するステップが、更に、前記集合を部分集合に分割し、該部分集合の各メンバが
同じ値の分類属性を有し、前記分類属性が、前記結果以
外のイベントに関する既知の事実である、ステップと、分割前後における各集合のエントロピーを計算し、エン
トロピー利得を生成するステップと、各分割において前記エントロピー利得を最大化する一連
の属性検査を探索し、一連の検査を作成して、前記イベ
ントを同じ結果を共有する類似部分集合に分類するステ
ップと、から成る、分類ステップと、を含む方法。
【請求項６】請求項１記載の方法において、前記処理
するステップは、更に、入力として、前記判断ツリーのいずれか、前記基本的読
み方、前記疑似音韻規則、および読み方予測部による形
態学的分析から成る種々のデータ・ソースを受け入れる
ステップを含み、前記読み方予測部は、前記データ・ソ
ースを用いて日本語の単語および／または文章を解析
し、日本語の表意文字およびそれぞれの読み方を特定
し、言語形態学規則を用いて、形態学分析部によって前記形
態学的分析を生成する、方法。
【請求項７】請求項６記載の方法であって、更に、形態学分析部によって日本語の単語および／または文章
を分析してその構造を判定するステップであって、前記
構造が日本語表意文字から成る、ステップと、前記日本語表意文字に対して分類属性を計算するステッ
プと、前記計算した属性の値にしたがって、前記判断ツリーを
辿るステップと、前記日本語表意文字に対して、適切な基本的読み方を選
択するステップと、前記疑似音韻規則を前記基本的読み方に適用し、表皮読
み方を生成するステップと、を含む方法。
【請求項８】請求項１記載のアクトを実行するよう
に、コンピュータに命令するコンピュータ実行可能命令
を備えたコンピュータ読み取り可能記憶媒体。
【請求項９】日本語の表意文字の読み方を予測するシ
ステムであって、日本語読み方分析部であって、日本語データを入力とし
て受け入れ、前記日本語の単語のコープスにおける日本
語の表意文字に対する基本的読み方と、日本語の表意文
字の読み方を予測する際に用いる判断ツリーとを生成す
る、日本語読み方分析部と、日本語読み方予測部であって、前記生成した判断ツリ
ー、前記日本語データ、および形態学的分析を入力とし
て受け入れ、日本語の単語および／または文章に対して
処理を行い、前記入力した日本語の単語および／または
文章内にある日本語の表意文字に対する読み方予測を行
なう、日本語読み方予測部と、を備えるシステム。
【請求項１０】請求項９記載のシステムにおいて、前
記日本語データは、基本漢字読み方、日本語の単語およ
び形態素のコープス、ならびに疑似音韻規則のいずれか
から成る、システム。
【請求項１１】請求項９記載のシステムにおいて、前
記形態学的分析は、形態学的分析部によって作成され、
該形態学的分析部が、既定の日本語形態学規則にしたが
って、日本語の単語および／または文章を処理する能力
を有する、システム。
【請求項１２】請求項１０記載のシステムにおいて、
前記形態学的分析部は、入力として、日本語の単語およ
び／または文章を受け入れ、該入力した日本語の単語お
よび／または文章内にある日本語の表意文字に対して分
類属性を計算し、該分類属性が、前記読み方予測部を補
佐して、前記入力した日本語の単語および／または文章
内の日本語の表意文字に対して表皮読み方を作成する、
システム。
【請求項１３】請求項１２記載のシステムにおいて、
前記分類属性は、IsBoundMorpheme, IsStemMorpheme,
IsMorphInitial, IsMorphFinal, PrecedesKanji, Follo
wsKanji, PrecedesHiragana, FollowsHiragana, Prece
desKatakana,FollwsKatakana, AllKanji, IsUnigram, I
sBigram, IsTrigram, IsTetragram,IsFactoid, IsBound
R, IsBoundL, MorphIDEquals(X), WorldIDEquals(X), N
extCharEquals(X), ThirdCharEquals(X), およびPrevCh
arEquals(X)のいずれかから成る、システム。
【請求項１４】請求項１３記載のシステムにおいて、
前記分類属性を前記日本語規則に定着させる、システ
ム。
【請求項１５】請求項９記載のシステムにおいて、前
記読み方分析部は、学習アルゴリズムを備え、該学習ア
ルゴリズムが、前記判断ツリーの作成を容易にする手段
を備える、システム。
【請求項１６】請求項１５記載のシステムにおいて、
前記学習アルゴリズムは、ＩＤ３−型機械学習アルゴリ
ズムである、システム。
【請求項１７】請求項９記載のシステムにおいて、該
システムを計算機アプリケーションの一部として組み込
み、前記計算機アプリケーションが、文型チェックのた
めに、日本語の表意文字の読み方を与えるフィーチャを
備える、システム。
【請求項１８】日本語の表意文字の効果的かつ信頼性
高い読み方予測を可能にする方法であって、読み方分析部を設けるアクトであって、該読み取り分析
部が入力として種々の日本語データを受け入れる、アク
トと、前記読み方分析部を学習モードで動作させるアクトであ
って、前記読み方分析部は、前記入力データに対して処
理を行い、前記日本語データに対して基本的読み方を生
成し、日本語の表意文字の読み方を予測するときに用い
る判断ツリーを生成する、アクトと、読み方予測部を設けるアクトであって、該読み方予測部
が、前記生成した基本的読み方および前記生成した判断
ツリーを用いて、入力した日本語の単語および／または
文章における日本語の表意文字の特性を判定し、該特性
が前記日本語の表意文字の読み方予測に寄与する、アク
トと、を実行する方法。
【請求項１９】請求項１８記載の方法において、前記
読み方分析部を設けるアクトは、更に、基準漢字読み
方、日本語語彙、および疑似形態学規則のいずれかから
成る日本語データを与えるアクトを含む、方法。
【請求項２０】請求項１８記載の方法において、前記
読み方予測部を設けるアクトは、更に、前記入力した日
本語の単語および／または文章に対して形態学的分析を
行なうアクトを含み、該形態学的分析は、形態学的分析
部が、日本語形態学規則を用いて、前記入力した日本語
の単語および／または文章に対して処理を行なうことに
よって生成する、方法。
【請求項２１】請求項１８記載のアクトを実行するよ
うに、コンピュータに命令するコンピュータ実行可能命
令を備えるコンピュータ読み取り可能記憶媒体。
【請求項２２】ストレージを有するコンピュータ・シ
ステムにおいて、自然言語キャラクタの入力ストリング
の分析を表わし、前記入力ストリングの一部をなす前記
キャラクタの読み方を特定するために用いる方法であっ
て、前記入力ストリングを処理し、前記ストリングにお
ける自然言語キャラクタおよび前記ストリングにおける
形態素を特定するコンピュータ実施ステップと、前記自
然言語キャラクタの特性を保持するストレージ内に構造
を作成し、該構造を用いて、前記入力ストリングを構成
する前記自然言語キャラクタの読み方を特定するために
用いられるようにし、前記特性が、根および葉を含む接
続ノードから成る判断ツリーを表わし、前記根から葉ま
での前記判断ツリーの各経路が、前記自然キャラクタに
対する代替読み方分析を表わす、コンピュータ実施ステ
ップと、から成る方法。
【請求項２３】請求項２２記載の方法において、前記
入力ストリングは、日本語の表意文字を有する日本語キ
ャラクタから成る、方法。
【請求項２４】請求項２２記載の方法において、前記
入力ストリングを処理するステップは、言語形態学規則
を用いて、前記入力ストリングを処理することから成
る、方法。
【請求項２５】請求項２４記載の方法であって、更
に、形態学的分析部によって前記入力ストリングを処理
するステップを含む、方法。
【請求項２６】請求項２２記載の方法において、前記
構造を作成するステップは、学習アルゴリズムを用いて
前記判断ツリーを生成することを含む、方法。