JP2002149643A - 日本語の表意文字の読み方を予測する方法 - Google Patents

日本語の表意文字の読み方を予測する方法

Info

Publication number
JP2002149643A
JP2002149643A JP2001219792A JP2001219792A JP2002149643A JP 2002149643 A JP2002149643 A JP 2002149643A JP 2001219792 A JP2001219792 A JP 2001219792A JP 2001219792 A JP2001219792 A JP 2001219792A JP 2002149643 A JP2002149643 A JP 2002149643A
Authority
JP
Japan
Prior art keywords
japanese
reading
input
computer
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001219792A
Other languages
English (en)
Other versions
JP5231698B2 (ja
Inventor
Lee Kuricchirou Richard
リチャード・リー・クリッチロウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2002149643A publication Critical patent/JP2002149643A/ja
Application granted granted Critical
Publication of JP5231698B2 publication Critical patent/JP5231698B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 日本語の表意文字の効果的かつ信頼性の高い
読み方予測を可能にするシステムおよび方法を提供す
る。 【解決手段】 例示の実施態様では、「学習」および
「実行/ランタイム」モードで動作する読み方予測シス
テムを提供する。「学習」モードでは、読み方予測シス
テムは、多数の入力ソース上で動作し、判断ツリーを生
成し、これを「実行/ランタイム」モードにおいて用い
て、日本語の表意文字を含む入力日本語文章に対する読
み方の予測を返す。「学習」モードにおいて利用する入
力の中には、基準日本語スクリプトの読み方、訓練コー
プス、および疑似音素規則がある。これらの入力から、
基本的読み方および判断ツリーを作成する。「実行/ラ
ンタイム」モードで動作する場合、読み方予測システム
は、形態学的分析部を用いて、入力文章に対して形態学
的分析を行なう。形態学的分析を用いて、疑似音韻規
則、基本的読み方、および判断ツリー読み方予測を与え
る。

Description

【発明の詳細な説明】
【0001】
【優先権】本願は、"METHOD FOR PREDICTING THE READI
NG OF JAPANESE IDEOGRAPHS"(日本語の表意文字の読み
方を予測する方法)と題し、2000年6月21に出願
された米国予備特許出願第60/219,981号に関連し、35U.
S.C.§119(e)に基づく優先権を主張する。その内容は、
この言及によりその全体が本願にも含まれるものとす
る。
【0002】
【発明の属する技術分野】本発明は、外国語の読み方の
予測という分野に関し、更に特定すれば、日本語の表意
文字の読み方を信頼性高くしかも効果的に予測すること
に関する。
【0003】
【従来の技術】日本語は、4つのスクリプト、平仮名、
カタカナ、ローマ字、および表意文字の組み合わせを用
いて書かれる。平仮名およびカタカナは音節文字であ
り、各キャラクタが単語の音節を表わす表音スクリプト
である。一般に、平仮名およびカタカナは、集合的に仮
名と呼ばれている。カタカナは、通常、過去400年に
間に外国語(中国語を除く)から借用した単語を書き表
すために用意されている。また、これらは、強調または
グラフィック効果を与えるために用いることもできる。
ローマ字は、アルファベット、即ち、北アメリカ、ヨー
ロッパおよびその他の各地でなじみのあるラテン・アル
ファベットである。過去において、ローマ字は、外来語
を転記するため、強調のため、および外国の占領軍隊の
ために日本語を転記するために用いられてきた。漢字は
表意文字、即ち、特定の音ではなく、特定の単語または
単語の一部を表わすキャラクタである。漢字は、しかし
ながら、自由な浮遊するアイデアだけに関係する訳では
ない**。漢字および単語間の連携は、殆どの部分では固
定されている。即ち、殆どの単語では、書き手は異なる
漢字の間で選択することはできない。例えば、全ての日
本語の話者が、キャラクタ□および□が本質的に「犬」
を意味することに同意しても、キャラクタ□を用いて単
語□□(ちゅうけん)「忠実な犬」と書いても、理解で
きないであろう。同様に、単語およびその発音の間の連
携も固定である。即ち、方言的変種は除いて、単語の発
音のしかたは、通常1つだけである。したがって、漢字
および発音の間には確固とした連携があるが、これは直
接的ではない。常に、書かれている特定の単語によって
仲介される。
【0004】書き手は、しかしながら、漢字を用いるか
否か選択することができる。ちゅうけんを書く際、平仮
名(□□□□)、ひらがな(□□□□□)、ローマ字
(chuuken)、または混合(□□□、□□□□)
を用いても間違いではない。漢字および平仮名の組み合
わせで単語(特に動詞)を書くことは、非常に一般的で
ある。しかしながら、同じ単語内におけるスクリプトの
別の混成は、いずれも突飛であり、間違いと見なされ
る。漢字を含む単語は、表音スクリプトで書くこともで
きるので、当該単語における漢字の表音値(phonetic v
alue)について話すことができる。これは、特定の単語
における漢字の読み方、単語を音読するときのその発
音、または単語を音素的に書くときの音素スクリプトに
おける綴りを意味する。例えば、□□における□の読み
方はけんである。しかしながら、日本語特有の歴史のた
め、殆どの漢字は少なくとも2つの完全に別個の読み方
がある。例えば、単語□□□(いぬおよぎ)における□
の読み方は、いぬであり、□は□□(にんげん)におい
てにんと読み、□□□(にほんじん)においてじんと読
み、□□(ひとびと)においてひとと読む。更に、多く
の漢字は、互いに系統的に関連のある、異なった読み方
を有する。例えば、□は□□(かいはつ)でははつと読
まれ、□□(はっぴょう)ではは?と読まれ、□□(か
っぱつ)ではぱつと読まれる。
【0005】日本語の書き言葉(例えば、日本語のスク
リプト)の基本的読み方を判定する際の複雑さの最後の
源泉は、1つの単語のどれくらいが漢字で表わされるか
ということについて、いくらかのばらつきがあることで
ある。例えば、かきつけという単語は、□□□□と書か
れる場合もあるが、□□□と書かれる場合もある。漢字
□の読み方は、最初の変形ではかであり、第2ではかき
である。これらの変形は双方とも容認可能と見なされる
が、2つの変形を単一の文書内で混合すると、誤りと見
なされる。
【0006】前述の変形の源泉全てに対し、所与の単語
において漢字の正しい読み方を予測することは、単純な
作業ではない。教育を受けた日本語のネーティブ・スピ
ーカは、通常漢字の正しい読み方を覚えているか、想像
することができるが、ソフトウエアがこのタスクを実行
しても、成功する可能性は低い。
【0007】
【発明が解決しようとする課題】現在、日本語スクリプ
トの読み取りを自動化する現状は、非効率であり、信頼
性にかける可能性がある。例えば、この問題に対する暴
力的解決策は、単語の辞書を作成し、単語の音素的綴り
に対するエントリを、それの他の辞書の綴り全てに対す
るエントリに連携させることである。しかしながら、こ
の種の解決策は、いくつかの問題に直面する。日本語は
伝統的に単語間に空白を挿入しないで書くので、辞書で
単語を調べることは並大抵のことではない。最初に、単
語間の境界を識別する必要があるが、相当のレベルの言
語的知識、およびかなりのリソースの出費が必要とな
る。日本語は英語よりもはるかに屈折した言語であるの
で、接辞添加や複合によって、単語の形態が広範囲に変
更するのは、通常よくあることである。単語に可能な形
態を全て収容すると、辞書は驚くべき大きさとなり、扱
いにくくなるであろう。したがって、日本語のスクリプ
トの読み方を適切に予測できるほどに、辞書を大きくす
ることは不可能である。更に、新しい単語が常に作られ
たり、あるいは借用されているので、このような辞書は
適応可能でありしかも更新可能でなければならない。
【0008】以上のことから、日本語のスクリプトの読
み方を効率的かつ信頼性高く予測するシステムおよび方
法が必要とされていることが認められる。これらのシス
テムおよび方法を有することによって、既存の実施にお
ける欠点が克服されよう。
【0009】
【課題を解決するための手段】日本語のスクリプトの読
み方を効率的に予測するシステムおよび方法を提供す
る。例示の実施態様では、本発明は、2つのモード、即
ち、「学習」および「実行/ランタイム」モードで動作
する読み方予測システムから成る。「学習」モードで
は、読み方分析部が、入力として、基準日本語スクリプ
ト(即ち、漢字)読み方、訓練コープス(例えば、日本
語の単語の語彙およびその読み方)、および疑似音韻規
則を受け入れ、訓練コープスにおける各エントリ毎に、
分析コープスおよび基本の読み方を生成する。次に、コ
ープス分類部を呼び出して、判断ツリーを生成する。記
載する実施態様では、コープス分類部は、学習アルゴリ
ズムを用いて、判断ツリーを作成する。
【0010】「実行/ランタイム」モードで動作する場
合、読み方予測部が、作成した判断ツリー、生成した基
本の読み方、および疑似音韻規則を入力として受け入れ
る。加えて、読み方予測部は、日本語表意文字を有する
入力日本語文章の形態学的分析を入力として受け入れ
る。形態学的分析は、形態学的分析部によって行われ、
これは、とりわけ、入力日本語文章を解析するように動
作する。これらの入力を用いて、読み方予測部は、入力
日本語文章に対して読み方予測を行なう。
【0011】以上に記載した実施態様では、読み方予測
システムは、一例の計算機アプリケーション内に組み込
まれ、入力日本語テキストに対する文型チェックを行な
う。
【0012】
【発明の実施の形態】日本語表意文字の読み方予測方法
およびシステムについて、添付図面を参照しながら更に
説明する。概要 日本語は、日本の約1億2千万人の住人、ならびにハワ
イや北および南アメリカ本土に住む日本人によって話さ
れている。また、今世紀当初における日本占領下に住ん
でいた中国人および韓国人も、第2言語として話してい
る。
【0013】一般に、日本語には3つの単語類別があ
る。自生の日本語単語が最も大きな類を構成し、続い
て、歴史初期に中国から元々借用した単語が続き、そし
て最も小さいが急速に成長しているのが、近年になって
英語のような西洋語から借用された単語の類である。こ
の第3類は、他の亜細亜言語から来た少数の単語も含
む。これら3種類の単語の頻度は、調べる筆記文書の種
類によって異なる。例えば、雑誌では、自生の日本語の
単語が全単語の半分以上を占めるが、中国からの借用語
は平均約40%であり、残りは、西洋言語から最近にな
って借用された単語から持ち込まれたものである。新聞
では、中国語起源の単語が、日本の自生単語よりも多
い。
【0014】日本語は、開放音節音響パターンを有する
ので、殆どの音節は母音で終わる。即ち、音節は母音の
みで構成される場合もある。5つの母音/a/, /i/, /u/,
/e/および/o/がある。とが"door"を意味し、とおが"te
n"を意味するように、母音長が単語を区別する場合が多
い。基本子音は、/k/,/s/,/t/, /n/, /h/,/m/,/y/,/r/,
/w/、および鼻音節/N/である。これらの子音の多くは、
母音/a/,/u/, および/0/の前では口蓋音化され、例え
ば、/kya/, /kyu/,/kyo/となる。2つの子音/s/,/t/が
母音/i/と一緒になると、これらの子音は自動的に口蓋
音化され、/shi/および/chi/となる。子音/t/は、母音/
u/の前では/ts/と発音する。ストレス・アクセントを有
する英語と異なり、日本語はピッチ・アクセントを有す
る。これが意味するのは、アクセントのある音節の後で
は、ピッチが低下するということである。"chopsticks"
を示す単語、はしは、第1音節にアクセントを有するの
で、そのピッチ輪郭は、ha shiとなる。第1音節にアク
セントがないと、はしは"bridge"または"edge"を意味す
る。"bridge"は、第2音節にアクセントを有し、これ
は、「はしが」のように、主語標識「が」のような文法
的小辞(particle)が単語に付いたときにみることがで
きる。"edge"はアクセントを有さないので、「が」のよ
うな文法的標識があっても、ピッチが全く落ちずに発音
される。
【0015】あらゆる言語は、文章における単語に対し
て、基本的な単語の順序を有する。英語では、"Naomi u
ses a computer"という文章は、主語(Naomi)、動詞(use
s)、および目的語(a computer)という順序を有する。対
応する日本語の文章では、主語は英語と同様最初に来る
ものの、次に目的語が来て、最後に動詞が続く。なおみ
−が(Naomi) こんぴゅーた−を(computer) つかう(us
e)となる。日本語における大雑把な規則(a rule of th
umb)は、文章では、動詞が最後にくる。2つの単語の
順序、英語では主語−動詞−目的語、日本語では主語−
目的語−動詞となるが、双方とも、世界の言語の中では
めずらしくはない。再度日本語の文章を見てみると、主
語および目的語は、小辞を伴っており、主語"Naomi"に
は「が」が(なおみ−が)、そして目的語"computer"に
は「お」(こんぴゅーた−お)が付いている。これら
は、格標識(case marker)と呼ばれており、世界の言
語の大多数がこれらを有する。英語においても、格標識
システムの名残を見ることができる。英語の名詞は、生
ずる場所によっては、形状が変化する。he/she/theyは
主語の位置であるが、目的語の位置ではhim/her/themと
なる(例えば、She saw him)。同様に、500年ないし
1000年前の古い英語は、最近の日本語と同様に、広
範な格標識システムを有していた。これらの格標識は、
日本語の単語が、異なる順序で現れても、同じ意味を保
持することを可能にする。例示の文章では、目的語を、
主語が通常では位置するところに置くことができ、主語
の通常の目的語位置に置くことができ、しかも意味は変
化しない。こんぴゅーた−お なおみ−が つかうとな
る。英語では、同じ転地を行なうと、文章の意味が全く
変わってしまう(例えば、The computer uses Naomi)。
日本語におけるその他の変形は、英語から日本語へまた
はその逆の転記作業を非常に困難にする。
【0016】日本語は、主に、2つの正書法システム、
中国語キャラクタおよび表音文字を用いて筆記される。
中国語キャラクタ、即ち、漢字は、約1,500年前か
ら中国から持ち込まれていた。その導入前では、日本語
は完全に話し言葉であった。中国語キャラクタは、膨大
な数のキャラクタ、ならびに各キャラクタの筆記および
読み方双方の複雑さのために、はるかに難しいシステム
である。各キャラクタには、意味が伴い、例えば、キャ
ラクタ□は、基本的な意味"dog"を有する。何万ものキ
ャラクタが実証されているが、1946年に、日本政府
が、日常の使用のために、1,850キャラクタを特定
した。1981年に、このリストは、1,945キャラ
クタに数が増加され、常用漢字表(日常用いる漢字)と
いう名称が与えられた。常用リストにあるキャラクタ
は、小学校および中学校で習得しなければならず、新聞
は通常このリストの漢字の使用に抑えている。殆どのキ
ャラクタには、少なくとも2通りの読み方があり、自生
の日本語の読み方、および同じキャラクタの元の中国語
発音を真似た読み方がある。同じキャラクタが日本に異
なる時期に、または中国の異なる方言地域から導入され
た場合、キャラクタにはいくつかの中国語の読み方が付
けられ、異なる時代、および方言的相違を表わす。第2
の筆記システムは表音文字、即ち、仮名であり、これは
約1,000年前にある中国語キャラクタから、日本人
によって作り出された。表音文字における各キャラクタ
は、言語における1音節を表わし、中国語キャラクタと
は異なり、音を表わすが、意味を表わさない。表音文字
には2種類、平仮名およびカタカナがあり、各々同じ組
の音を含む。平仮名は、多くの場合中国語キャラクタと
組み合わせて用いられ、例えば、キャラクタがおおまか
に動詞の語根を表わし、平仮名で語尾変化を書き表わ
す。カタカナは、英語、フランス語、およびドイツ語の
ような西洋言語からの借用言語を書くために用いられ
る。同じ文章において漢字、平仮名、およびカタカナが
用いられているのを発見するのは、めずらしくない。中
国語キャラクタおよび表音文字と共に、ラテン・アルフ
ァベットも、組織の名称のようなものに用いられる場合
がある。この複雑な状況において、日本語スクリプトを
信頼性高く読むのは、非常に骨が折れる可能性があるこ
とを想像するのは難しくない。
【0017】本発明は、各漢字の基本的読み方の最少集
合を特定し、基本的読み方に対して作用する1組の疑似
音韻規則を定義して表皮読み方(surface reading)を
生成し、判断ツリー・データ構造を構築し、これを用い
て、どの基本的読み方を単語内の各漢字に選ぶべきか判
断することによって読み方の予測を行なうという課題に
取り組む。基本的読み方は、文言通りの読み方と、疑似
音韻規則の動作を制御する1組のデータとによって構成
される。判断ツリーによって、アルゴリズムが、発見し
た単語の形態学的分析の間に得られた情報のみに基づい
て、最も可能性が高い読み方を漢字に選択することを可
能にする。
【0018】1組の基本的読み方および判断ツリーは、
語彙、形態学、および音韻情報を含む1組の言語リソー
スから、自動的に学習する。最適な1組の読み方および
ツリーの構築によって、効率的に読み方の予測を行なう
ことが可能となる。
【0019】以下で図1ないし図7に関して説明する
が、本発明は、日本語のスクリプトの読み方を効果的か
つ信頼性高く予測するシステムおよび方法を対象とす
る。その例示の実施態様によれば、本発明は、コンテン
ツ・プロバイダに、好適なデータ・タイプのデータを提
供するシステムおよび方法を備える。
【0020】一実施形態では、以下で更に詳しく説明す
るが、本発明の方法および装置は、日本語スクリプトの
読み取りおよび分析を行なう1つ以上のコンポーネント
を実行する計算機環境の一部として実装することができ
る。計算機環境は、種々のハードウエアおよびソフトウ
エアの組み合わせから成り、日本語スクリプトの読み方
を理解することができる。計算機環境の一例 図1は、本発明を実現可能な、適当な計算機システム環
境100の一例を示す。計算機システム環境100は、
単に適当な計算機環境の一例に過ぎず、本発明の使用ま
たは機能性の範囲に対して限定を示唆する意図は全くな
い。また、計算機環境100は、一例の動作環境100
に示すコンポーネントのいずれの1つまたはその組み合
わせに関するいずれの依存性も要件も有するものとして
解釈しないこととする。
【0021】本発明は、多数の他の汎用または特殊目的
計算機システム環境または構成とでも動作する。本発明
と共に用いるのに適した公知の計算機システム、環境、
および/または構成の例には、限定する訳ではないが、
パーソナル・コンピュータ、サーバ・コンピュータ、ハ
ンドヘルドまたはラップトップ・デバイス、マルチプロ
セッサ・システム、マイクロプロセッサを用いたシステ
ム、セット・トップ・ボックス、プログラム可能な消費
者用電子機器、ネットワークPC、ミニコンピュータ、
メインフレーム・コンピュータ、前述のシステムまたは
デバイスのいずれかを含む分散計算機環境等を含む。
【0022】本発明の説明は、プログラム・モジュール
のような、コンピュータが実行する一般的なコンピュー
タ実行可能命令に関連して行なう。一般に、プログラム
・モジュールは、ルーチン、プログラム、オブジェク
ト、コンポーネント、データ構造等を含み、特定のタス
クを実行したり、あるいは特定の抽象的データ・タイプ
を実装する。更に、本発明は、分散型計算機環境におい
ても実施可能であり、この場合、通信ネットワークを通
じてリンクされたリモート処理デバイスによってタスク
を実行する。分散型計算機環境では、プログラム・モジ
ュールは、メモリ記憶装置を含むローカルおよびリモー
ト・コンピュータ記憶媒体双方に位置することができ
る。
【0023】図1を参照すると、本発明を実現するシス
テムの一例は、従来のコンピュータ110の形態の汎用
計算機を含む。このコンピュータ110のコンポーネン
トは、限定する訳ではないが、演算装置120、システ
ム・メモリ130、およびシステム・メモリから演算装
置120までを含む種々のシステム・コンポーネントを
結合するシステム・バス121を含む。システム・バス
121は、数種類のバス構造のいずれでもよく、メモリ
・バスまたはメモリ・コントローラ、周辺バス、および
種々のバス構造のいずれかを用いるローカル・バスが含
まれる。一例として、そして限定ではなく、このような
アーキテクチャは、業界標準アーキテクチャ(ISA)
バス、マイクロ・チャネル・アーキテクチャ(MCA)
バス、改良ISA(EISA)バス、ビデオ電子規格協
会(VESA)ローカル・バス、および(Mezzan
ineバスとしても知られている)周辺素子相互接続
(PCI)バスを含む。
【0024】コンピュータ110は、典型的に、種々の
コンピュータ読み取り可能媒体を含む。コンピュータ読
み取り可能媒体は、コンピュータ110がアクセス可能
であれば、入手可能な媒体のいずれでも可能であり、揮
発性および不揮発性双方の媒体、リムーバブルおよび非
リムーバブル媒体を含む。一例として、そして限定では
なく、コンピュータ読み取り可能媒体は、コンピュータ
記憶媒体および通信媒体を含むことができる。コンピュ
ータ記憶媒体は、揮発性および不揮発性、リムーバブル
および非リムーバブル双方の媒体を含み、コンピュータ
読み取り可能命令、データ構造、プログラム・モジュー
ルまたはその他のデータのような情報の格納のためのあ
らゆる方法または技術において使用されている。コンピ
ュータ記憶媒体は、限定する訳ではないが、RAM、R
OM、EEPROM、フラッシュ・メモリまたはその他
のメモリ技術、CD−ROM、ディジタル・バーサタイ
ル・ディスク(DVD)、またはその他の光ディスク・
ストレージ、磁気カセット、磁気テープ、磁気ディスク
・ストレージ、またはその他の磁気記憶装置、あるいは
所望の情報を格納するために使用可能であり、コンピュ
ータ100によってアクセス可能なその他のいずれの媒
体でも含まれる。通信媒体は、典型的に、コンピュータ
読み取り可能命令、データ構造、プログラム・モジュー
ル、またはその他データを、キャリアWAVまたはその
他のトランスポート機構のような変調データ信号におい
て具体化し、あらゆる情報配信媒体を含む。「変調デー
タ信号」という用語は、当該信号内に情報をエンコード
するように、その1つ以上の特性を設定または変更した
信号を意味する。一例として、そして限定ではなく、通
信媒体は、有線ネットワークまたは直接有線接続のよう
な有線媒体、ならびに音響、RF、赤外線およびその他
のワイヤレス媒体のようなワイヤレス媒体を含む。前述
のいずれの組み合わせでも、コンピュータ読み取り可能
媒体の範囲内に含まれて当然である。
【0025】システム・メモリ130は、リード・オン
リ・メモリ(ROM)131およびランダム・アクセス
・メモリ(RAM)132のような揮発性および/また
は不揮発性メモリの形態のコンピュータ記憶媒体を含
む。基本入出力システム133(BIOS)は、起動中
のように、コンピュータ20内のエレメント間における
データ転送を補助する基本的なルーチンを含み、典型的
にROM131内に格納されている。RAM132は、
典型的に、演算装置120が直ちにアクセス可能である
データおよび/またはプログラム・モジュール、または
現在これによって処理されているデータおよび/または
プログラム・モジュールを収容する。一例として、そし
て限定ではなく、図1は、オペレーティング・システム
134、アプリケーション・プログラム135、その他
のプログラム・モジュール136、およびプログラム・
データ137を示す。
【0026】また、コンピュータ110は、その他のリ
ムーバブル/非リムーバブル揮発性/不揮発性コンピュ
ータ記憶媒体も含むことができる。一例としてのみ、図
1は、非リムーバブル不揮発性磁気媒体からの読み取り
およびこれへの書き込みを行なうハード・ディスク・ド
ライブ141、リムーバブル不揮発性磁気ディスク15
2からの読み取りおよびこれへの書き込みを行なう磁気
ディスク・ドライブ151、ならびにCD ROMまた
はその他の光媒体のようなリムーバブル不揮発性光ディ
スク156からの読み取りおよびこれへの書き込みを行
なう光ディスク・ドライブ155を示す。動作環境の一
例において使用可能なその他のリムーバブル/非リムー
バブル、揮発性/不揮発性コンピュータ記憶媒体には、
限定する訳ではないが、磁気テープ・カセット、フラッ
シュ・メモリ・カード、ディジタル・バーサタイル・デ
ィスク、ディジタル・ビデオ・テープ、ソリッド・ステ
ートRAM、ソリッド・ステートROM等が含まれる。
ハード・ディスク・ドライブ141は、典型的に、イン
ターフェース140のような非リムーバブル・メモリ・
インターフェースを介してシステム・バス121に接続
され、磁気ディスク・ドライバ151および光ディスク
・ドライブ155は、典型的に、インターフェース15
0のようなリムーバブル・メモリ・インターフェースに
よって、システム・バス121に接続する。
【0027】先に論じ図1に示すドライブおよびそれら
と連動するコンピュータ記憶媒体は、コンピュータ読み
取り可能命令、データ構造、プログラム・モジュール、
およびコンピュータ110のその他のデータを格納す
る。図1では、例えば、ハード・ディスク・ドライブ1
41は、オペレーティング・システム144、アプリケ
ーション・プログラム145、その他のプログラム・モ
ジュール146、およびプログラム・データ147を格
納するように示されている。尚、これらのコンポーネン
トは、オペレーティング・システム134、アプリケー
ション・プログラム135、その他のプログラム・モジ
ュール136、およびプログラム・データ137と同じ
でも異なっていても可能であることを注記しておく。オ
ペレーティング・システム144、アプリケーション・
プログラム145、その他のプログラム・モジュール1
46、およびプログラム・データ147は、ここで、少
なくともこれらが異なるコピーであることを示すため
に、異なる番号が与えられている。ユーザは、キーボー
ド162、および一般にマウス、トラックボールまたは
タッチ・パッドと呼ばれているポインティング・デバイ
ス161によって、コマンドおよび情報をコンピュータ
110に入力することができる。他の入力デバイス(図
示せず)は、マイクロフォン、ジョイスティック、ゲー
ム・パッド、衛星ディッシュ、スキャナ等を含むことが
できる。これらおよびその他の入力デバイスは、多くの
場合、ユーザ入力インターフェース160を介して、演
算装置120に接続されている。ユーザ入力インターフ
ェース160は、システム・バスに結合されているが、
パラレル・ポート、ゲーム・ポートまたはユニバーサル
・シリアル・バス(USB)のようなその他のインター
フェースおよびバス構造によって接続することも可能で
ある。モニタ191またはその他の形式の表示装置も、
ビデオ・インターフェース190のようなインターフェ
ースを介して、システム・バス121に接続されてい
る。モニタに加えて、コンピュータは、スピーカ197
およびプリンタ196のようなその他の周辺出力デバイ
スを含むこともでき、これらは出力周辺インターフェー
ス190を介して接続することができる。
【0028】コンピュータ110は、リモート・コンピ
ュータ180のような1つ以上のリモート・コンピュー
タへの論理接続を用いて、ネットワーク環境において動
作することも可能である。リモート・コンピュータ18
0は、パーソナル・コンピュータ、ハンド・ヘルド・デ
バイス、サーバ、ルータ、ネットワークPC、ピア・デ
バイス、またはその他の共通ネットワーク・ノードとす
ることができ、典型的に、コンピュータ110に関して
先に説明したエレメントの多くまたは全てを含むが、図
1にはメモリ記憶装置181のみを示す。図1に示す論
理接続は、ローカル・エリア・ネットワーク(LAN)
171およびワイド・エリア・ネットワーク(WAN)
173を含むが、他のネットワークも含むことができ
る。このようなネットワーク環境は、事務所、企業規模
のコンピュータ・ネットワーク、イントラネットおよび
インターネットにおいては、一般的である。
【0029】LANネットワーク環境で用いる場合、コ
ンピュータ110は、ネットワーク・インターフェース
またはアダプタ170を介してLAN171に接続す
る。WANネットワーク環境で用いる場合、コンピュー
タ110は、典型的に、モデム172、またはインター
ネットのようなWAN173を通じて通信を確立するそ
の他の手段を含む。モデム172は、内蔵でも外付けで
もよく、ユーザ入力インターフェース160またはその
他の適切な機構を介してシステム・バス121に接続す
ることができる。ネットワーク環境では、コンピュータ
110に関して図示したプログラム・モジュール、また
はその一部は、リモート・メモリ記憶装置に格納するこ
ともできる。一例として、そして限定ではなく、図1
は、リモート・アプリケーション・プログラム185が
メモリ素子181上に常駐するものとして示している。
尚、図示のネットワーク接続は一例であり、コンピュー
タ間で通信リンクを確立する他の手段も使用可能である
ことは認められよう。表意文字の読み方予測 図2および図3は、日本語表意文字の読み方を予測する
ときに用いる、基本的読み方および判断ツリーを生成す
るための、読み方予測システム200の種々のデータお
よび処理コンポーネントの協働を示す。図示の実施態様
では、読み方予測システム200は、基準漢字読み方2
05、訓練コープス210、疑似音韻規則215、読み
方分析部220、基本的読み方225、分析コープス2
30、コープス分類部235、判断ツリー240、入力
文章270、読み方予測部265、形態学的分析部27
5、形態学的分析280、および読み方予測260から
成る。読み方予測システム200は、2段階、即ち、
「訓練段階」および「実行/ランタイム段階」で動作す
る。図2は、読み方予測システム200の「訓練段階」
のための例示コンポーネントの協働を示す。「訓練段
階」は、読み方予測システム200に、判断ツリー24
0および基本的読み方225を供給する。これらは、
「実行/ランタイム」段階において用いられ(図3に示
すその他の例示のコンポーネントと共に)、読み方の予
測を行なう。
【0030】図2に示すように、読み方分析部220
は、入力として、基準漢字読み方205、訓練コープス
210、および疑似音韻ルール215を受け入れる。こ
れらのデータを用いて、読み取り分析部220は、分析
コープス230および基本的読み方225を作成する。
分析コープス230は、コープス分類部235への入力
として作用し、コープス分類部235は判断ツリー24
0を生成する。更に、図示のように、一旦基本的読み方
225および分析コープス230を生成したなら、処理
は読み方分析部220からコープス分類部235に渡さ
れる。判断ツリー240および基本的読み方225を用
いて、読み方予測システム200は、「実行/ランタイ
ム段階」中に読み方予測260を行なうことができる。
図3に示すように、読み方予測部265は、入力とし
て、文章270、判断ツリー240、基本的読み方22
5、疑似音韻規則215、形態学的分析280を受け入
れ、読み取り予測260を生成する。動作において、入
力文章には、読み方予測部265および形態学的分析部
275が処理を加える。形態学的分析部275は、入力
文書270に処理を行い、形態学的分析280を生成す
る。形態学的分析部275については、本発明の譲受人
である、Microsoft Corp.に譲渡された
米国特許第5,963,893号および第5,946,
648号により良く記載されている。双方共、この言及
により、その全体が本願にも含まれるものとする。一
方、形態学的分析280は、読み方予測部265への入
力として作用し、読み方予測部265はこれを用いて入
力文書270を処理する。
【0031】即ち、読み方予測システム200は、各漢
字の基準読み方の完全なリストから開始する。基準読み
方は、読み方の発音および歴史的等級に関する情報のみ
を含む。読み方は、その読み方が元々中国語から借用さ
れた(音読み)のか、または明白に日本人によって創作
された(訓読み)のかに基づいて、2つの等級に分割さ
れる。この情報は、元々、Microsoftが購入し
た機械読み取り可能日本語辞典から取ったのであり、続
いて、リストを必要に応じて変更し、予測手順の性能を
向上させた。基準読み方は、テキスト・ファイルで格納
し、訓練プログラムが読み取る。
【0032】以下に続く例示の一例では、漢字および単
語/形態素の読み方を、読み手の便宜上、ローマ字で表
わすことにする。しかしながら、実際のデータでは、読
み方は常に平仮名で書かれている。したがって、例は、
「読み方の最初の仮名」等を示す。例えば、□に対する
基準読み方キャラクタ・データは、次の通りである。
【0033】
【表1】hatsu、音読み hotsu、音読み abaki、訓読み okoshi、訓読み tachi、訓読み、 hasshi、訓読み、 hana、訓読み、 hira、訓読み。
【0034】また、疑似音韻規則の完全なリストも最初
にある。この規則は、読み方が特定の環境で生じると、
ある変更が起こることを指定する。これらの規則は、弱
母音の削除やリーマンの法則のような純粋に音韻的現
象、および読み方の仮名の綴り部分の実施(送り仮名)
のような純粋に正書法的現象の双方をカプセル化する。
各規則は、照合すべき環境(規則の「左側」)および取
るべき処置(「右側」)として実施される。
【0035】規則の一部は、次のように言い換えること
ができる。仮名が訓読みの一部であり、それが形態素に
おける最初の仮名であり、そしてそれが鼻音節仮名の後
にあり、そして無声子音で始まり、そして形態素の残り
部分が有声閉鎖音を含まない場合、無声子音をその有声
子音と置き換える。
【0036】読み方が基礎の?音素で終わる場合、その
音素を削除し、それに続く読み方の最初の子音を二重に
する。読み方が2つよりも多い仮名を有する場合、最後
の2つの仮名を除去する。
【0037】規則は、常に固定順序で適用し、それら自
体の出力に適用することはできない。更に、一部の規則
には、適用されると他の規則の適用を禁止する場合があ
る。訓練データのコープスが組み立てられ、これは、日
本語形態学的分析部の主要語彙における全ての単語、分
析部の有限状態文法における形態素の全て、公知の非標
準的綴り変形のリスト、ならびに典型的な数および日付
のリストを含む。各エントリは、項目の綴り、その形態
学的類別または話法の一部、および項目の読み方を含
む。コープスを処理していくつかのテキスト・ファイル
とし、これを図2の読み方分析部220で処理する。
【0038】コープスに含まれるデータ例の一部は次の
通りである。
【0039】
【表2】GOku, aba,□ GOsu, oko, □ GOsu, ha?,□ GOtu, ta, □ Geo, hassamu, □□ Lnme, hossa, □□ Noun, kappatsu,□□ Noun, hatsumei, □□ Noun, ichinenhokki, □□□□ Noun, kanpatsu, □□ Noun, kanpatsu, □□ Noun, hokku, □□ Noun, hotsui, □□ DER class shot hatu, ippatsu, □□ DER class shot hatu, nihatsu, □□ DER class shot-hatu,sanpatsu, □□ 「訓練段階」の間、訓練コープスの各エントリを分析
し、各単語における各漢字について、どの基準読み方を
用いるか、どの音韻規則を適用するか、どの規則を適用
すべきであったがしなかったか判定を行なう。このステ
ップを実行するには、可能な組み合わせを余すことなく
探索し、エントリの読み方に一致する読み方を生成する
ものを見つけ出す。処理の一例は次の通りである。
【0040】
【表3】訓練コープスにおける各エントリについて、綴
りにおける各漢字について、漢字の基準読み方の各々に
ついて、漢字の基準読み方を代えて、読み方仮説を形成
する各読み方仮説について、環境が一致した各音韻規則
について、現読み方仮説を複製する一方のコピーにおい
て、規則の作用部分を実行し、規則が適用されたことを
印する他方のコピーにおいて、ルールが禁止されたこと
を印する読み方仮説がエントリの読み方と一致した場
合、仮説を保存する読み方分析部220が1つよりも多
い仮説を生成するのに成功することも、全く生成できな
いこともあり得る。多数の仮説ができた場合、読み方予
測システムは、単純な方の仮説を優先する探索法を用い
て、最良の仮説を選択する。「学習段階」の出力を検査
することによって、1組の基準読み方および音韻規則を
変更し、曖昧さおよび不良の数を減少させることができ
る。
【0041】典型的な動作の一例として、「訓練段階」
の間、以下のエントリを次のように分析することができ
る。 Noun, kanpatsu, □□ キャラクタ□は、1つの基準読み方のみを有する。 kan, 音 先に列挙した□の8つの基準読み方と組み合わせると、
音韻規則を適用する前に、8つの読み方仮説、kanhhats
u, kanhotsu, kanabaki, kanakoshi, kantachi, kanhas
shi, kanhana,およびkanhiraが得られる。読み方分析部
200(読み方分析部によって実行するアルゴリズム)
は、kanhatsuが、鼻音節の後の子音を有声化するNasalV
oicingと呼ぶ規則の環境に一致することを認める。この
規則を適用すると、kanbatsuが得られ、以降の規則適用
の組み合わせは、正しい読み方に至らない。しかしなが
ら、NasalVoicingが禁止されると、仮説は、別の規則Na
salStoppingの環境と一致する。この規則を適用する
と、kanpatsuが得られる。後の規則、Spelling Variant
は、kanpatsuをkanpaに変化させる。この規則が禁止さ
れると、最後の仮説、kanpatsuが残る。これが正しい表
皮読み方となる。
【0042】読み方仮説は、単純な方法で基本的読み方
に変換される。各音素規則は、禁止されなければ、その
環境が一致したときに適用されると仮定する。したがっ
て、基本的読み方は、どの規則が禁止されたかのみを記
録すればよい。先の例では、基本的読み方は、次のよう
になる。
【0043】□−kan、音、−NasalVoicing □−hatu、音、−Spelling Vaariant1 このように訓練コープス全体を分析した後、読み方予測
システム200は、各漢字に対して、基本的読み方22
5の完全な集合、および各読み方が現れた単語の完全な
集合を特定している。読み方予測システム200は、こ
の情報を用いて、各漢字について判断ツリー240を作
成する。判断ツリー240は、所与の文脈における漢字
の基本的読み方を予測する。判断ツリー240は、文章
の形態学的分析から得られる情報のみを用いる。言い方
を変えると、判断ツリー240は、訓練コープスにどの
単語が現れるかには無関係に、単語の基本的読み方に関
する予測を行なうことができる。
【0044】例示の実施態様では、判断ツリー240
は、公知のID3機械学習アルゴリズムの変形を用いて
作成する。即ち、各単語をイベントとして扱う。その結
果(正しい基本的読み方)はわかっている。アルゴリズ
ムは、全て同じ結果を有する部分集合にイベントを分類
する。これを行なうには、イベントの集合を部分集合に
分割する。部分集合の各メンバは、同じ値の分類属性を
有する。属性は、結果以外のイベントに関して分かって
いる何かである。分割前後における各集合のエントロピ
ーを計算することによって、アルゴリズムには、エント
ロピー利得と呼ばれるメトリックが与えられる。アルゴ
リズムは、各分割においてエントロピー利得が最大とな
る一連の属性検査を探索し、更に一連の検査を行い、最
終的にイベントを同じ結果を共有する類似部分集合に分
類する。
【0045】「学習段階」の間、読み方予測システム2
00は、分類属性を用いる。これは、形態学的分析から
得られる情報である。集合は、次のような属性を含む。
【0046】
【表4】IsBoundMorpheme - 漢字を含む形態素が接頭
辞である場合真 IsStemMorpheme − 漢字を含む形態素が語幹である場
合真 IsMorphInitial − 漢字が形態素における最初のキャ
ラクタである場合真 IsMorphFinal − 漢字が形態素における最後のキャラ
クタである場合真 PrecedesKanji − 形態素において漢字が他の単語の直
前にある場合真 FollowsKanji − 形態素において漢字が他の単語の直
後にある場合真 PrecedsHiragana − 形態素において、漢字が平仮名の
直前にある場合真 FollowsHiragana − 形態素において漢字が平仮名の直
後にある場合真 PrecedsKatakana − 形態素において漢字がカタカナの
直前にある場合真 FollowsKatakana − 形態素において漢字がカタカナの
直後にある場合真 AllKanji − 漢字を含む形態素におけるキャラクタ全
てが漢字である場合真 IsUnigram − 漢字を含む形態素が1キャラクタ長であ
る場合真 IsBigram − 漢字を含む形態素が2キャラクタ長であ
る場合真 IsTrigram − 漢字を含む形態素が3キャラクタ長であ
る場合真 IsTetragram − 漢字を含む形態素が4キャラクタ長で
ある場合真 IsFactoid − 漢字を含む形態が、名称、日付、または
数値である場合真 IsBoundR − 漢字を含む形態素が1キャラクタ接尾語
である場合真 IsBoundL − 漢字を含む形態素が1キャラクタ接頭語
である場合真 MorphIDEquals(X) − 漢字を含む形態素がXである場
合真 WordIDEquals(X) − 漢字を含む単語がXである場合真 NextCharEquals(X) − 形態素において漢字がXの直前
にある場合真 ThirdCharEquals(X) − 形態素において漢字がXより
も2キャラクタ前にある場合真 PrevCharEquals(X) − 形態素において漢字がXの直後
にある場合真 読み方予測システム200は、分類属性を用いて、次の
例に対して以下のような処理を行なう。例えば、訓練コ
ープスにおける□のインスタンスのみが次の通りである
と仮定する。
【0047】
【表5】1.GOku, aba, □ 2.GOsu, oko, □ 3.Noun, kappatsu, □□ 4.NCna, hatsumei, □□ 5.Noun, ichinenhokki, □□□□ 6.Noun, kanpatsu, □□ 7.Noun, hokku, □□ 8.Noun, hotsui, □□ 分析段階によって特定された□の基本的読み方は、次の
通りである。
【0048】
【表6】1.A:aba, 訓、-SpellingVariant1 2.B:oko, 訓、-SpellingVariant1 3.C:hatsu, 音、-SpellingVariant1 4.C:hatsu, 音、-SpellingVariant1 5.D:hotsu, 音 6.C:hatsu, 音、-SpellingVariant1 7.D:hotsu, 音 8.E:hotsu, 音、- 読み方分析部アルゴリズムは、以下のような判断ツリー
を作成する。
【0049】
【表7】 If IsMorphID(GOku) Reading A Else If IsMorphID(GOsu) Reading B Else If IsFinal Reading C Else If IsTetragram Reading D Else If IsMorphID(Ncna) Reading C Else If NextCharEquals(□) Reading D Else Reading E 場合によっては、分類属性は、単語を類似等級に完全に
分離できない場合もある。この状況が発生した場合、ア
ルゴリズムは、例の頻度に基づいて、確率的に最終分離
を行なう。これは、訓練コープスにおける単語の頻度か
ら計算する。前述の例のデータが次の項目も含み、 9.Noun, hatsui, □□(reading C) 項目8および9双方が同じ頻度を有する場合、上記ツリ
ーの最終片は、以下と置き換えられる。
【0050】
【表8】 If NextCharEquals(□) Reading D Else Probalilistic .5 Reading E .5 Reading C 「実行/ランタイム」段階における速度を最大化するた
めに、作業の殆どを「学習」段階の間に行なう。「実行
/ランタイム」段階の間、読み方予測アルゴリズムは、
一例の計算機アプリケーション(図7に示す)における
モジュールとして実装され、日本語形態学分析部も含
む。所与の漢字に対する読み方を予測するために、形態
学エンジンを用いて、漢字を含む単語を含む文章を分析
する。分類属性の値を分析から計算し、判断ツリーを通
過し、当該漢字に対する基本的読み方を見つけるために
用いる。
【0051】次に、音韻規則を基本的読み方に適用し
(基本的読み方によって禁止されていない場合)、読み
方の表皮形態を生成する。また、表皮読み方に対する信
頼度も計算する。判断ツリーの横断で、確率ノードに遭
遇した場合、信頼度は、続く経路の確率を反映する。同
じ入力単語に対して読み方予測モジュールを繰り返しコ
ールする場合、信頼性の降順で全ての可能な異なる予測
を返す。
【0052】図4は、読み方予測システム200が実行
し、例示の文章に対する読み方予測を分析し与える一般
的なステップを示す。図示のように、以下の文章におけ
る単語□□(305)の単語の読み方を決定する。
【0053】□□□□□□. (300) 最初に図3の形態学的分析部275によってこの文章を
分析し、構造を究明する。
【0054】□□(代名詞)□(小辞)□(名詞補語)
□(コプラ). (300)次に、2つの漢字□および
□に対する分類属性を計算する。次に、2つの漢字の各
々の判断ツリーを、属性値にしたがって、通過する。
【0055】基本的読み方(315): hatsu, 音、-SpellingVariant1 mei, 音、-SpellingVariant1 が選択され、hatsumeiという単語の読み方の表現を作成
する。次に、音韻規則を単語の読み方に適用し、そして
一致する環境を有する唯一の規則がSpellingVariant1で
あり、この規則は双方の読み方に適用するのを禁止され
ているので、最終的な表皮読み方予測は、hatsumeiとな
る。
【0056】図5は、「学習段階」において動作する場
合に、読み方予測システムが実行する処理を更に詳細に
示す。処理はブロック400にて開始し、ブロック40
5に進み、読み方予測システム200に日本語読み方デ
ータをロードする。例示の実施態様では、日本語読み方
データは、1組の標準的漢字読み方から成り、音読みま
たは訓読みとしての分類を含む。これから、ブロック4
10において、疑似音韻規則を読み方予測システム20
0にロードする。次に、日本語データ415のコープス
を読み方予測システム200にロードする。日本語デー
タのコープスは、日本語辞書からのエントリ、日本語有
限状態文法からの形態素、ならびに数および日付のよう
な1組の日本語の句から成る。各項目は、綴り、読み
方、およびスピーチまたは形態学的類別の一部を含む。
次に、ブロック420において、日本語データ・コープ
スの各エントリに、基準読み方を割り当てる。次に、処
理はブロック425に進み、日本語データ・コープスの
各エントリに対して読み方の仮説を行なう。次に、ブロ
ック430において、ブロック425で得た仮説を、基
本的読み方に変換する。基本的読み方を用いて、読み方
予測システム200は、判断ツリーを作成し、これを読
み方予測システム200の「実行/ランタイム段階」に
おいて用いる。判断ツリーを生成し、処理はブロック4
40で終了する。
【0057】図6は、「実行/ランタイム」モード/段
階において動作する場合に、読み方予測システムが実行
する処理を示す。図示のように、処理はブロック445
にて開始し、ブロック450に進んで、形態学的分析部
を用いて入力文章を分析する。ここから、処理はブロッ
ク455に進み、入力文章内にある日本語表意文字の分
類属性を計算する。分類属性を用いて、判断ツリー(図
5のブロック435において生成した)を「辿り」、日
本語表意文字(漢字)の基本的読み方、および予測に対
する信頼度を判定する。次に、ブロック465におい
て、音韻規則を作成した基本的読み方に適用することに
よって、表皮形態読み取りを生成する。ブロック470
において、信頼性の降順で表皮形態を戻す。次いで、ブ
ロック475において処理は終了する。
【0058】図7は、本発明のフィーチャ(feature)
を組み込んだ計算機アプリケーションの一例のスクリー
ン・ショットを示す。一例の計算機環境500は、表示
/インターフェース制御部510および表示/インター
フェース・エリア515を有する表示/インターフェー
ス・ページを備えている。図示のように、日本語の表意
文字(即ち、漢字スクリプト)520は、表示/インタ
ーフェース・エリア520に表示することができる。動
作において、一例の計算機アプリケーション500は、
本発明のフィーチャを用いて、入力した日本語表意文字
(例えば、520)上で文型チェックを行い、提出され
た日本語文章における入力日本語表意文字の適性な使用
を確認する。このような動作は、一例の計算機アプリケ
ーションでは、"Style Checker"の使用によって実現す
ることができる。"Style Checker"は、表示/インター
フェース制御部510の1つとして組み込み、日本語の
文章(即ち、日本語の表意文字から成る単語を有する日
本語文章)が、表示/インターフェース・エリア515
上に表示するために入力されたときに、読み方予測シス
テム(図2および図3)を組み込んだ"Style Checker"
が、入力された日本語文章を処理し、入力された日本語
の表意文字の一貫性のある使用を確認することができる
ようにする。
【0059】要約すると、本発明は、日本語の表意文字
に対して効果的でかつ信頼性の高い読み方予測を可能に
するシステムおよび方法を提供する。しかしながら、本
発明は、種々の変更や代替構造も容易に可能であること
は理解されよう。本発明を、ここに記載した具体的な構
造に限定する意図はない。逆に、本発明は、本発明の範
囲および精神に該当するあらゆる変更、代替構造、およ
び同等物も包含することを意図している。
【0060】尚、本発明は、種々のコンピュータ・シス
テムにおいて実現可能であることには、当然気が付くで
あろう。ここに記載した種々の技法は、ハードウエアま
たはソフトウエア、あるいは双方の組み合わせで実現す
ることができる。好ましくは、各々、プロセッサ、当該
プロセッサによって読み取り可能な記憶媒体(揮発性お
よび不揮発性メモリおよび/または記憶エレメントを含
む)、少なくとも1つの入力装置、および少なくとも1
つの出力装置を含む、プログラム可能なコンピュータ上
で実行するコンピュータ・プログラムにおいて、前述の
技法を実現する。プログラム・コードを、入力装置を用
いて入力したデータに適用し、前述の機能を実行し、出
力情報を生成する。出力情報を1つ以上の出力装置に適
用する。各プログラムは、高級プロシージャまたはオブ
ジェクト指向プログラミング言語で実現し、コンピュー
タ・システムと通信することが好ましい。しかしなが
ら、プログラムは、望ましければ、アセンブリまたは機
械語で実現することも可能である。いずれの場合でも、
言語は、コンパイルまたはインタープリタ言語とすれば
よい。このようなコンピュータ・プログラムは、各々、
汎用または特殊目的用プログラム可能コンピュータよっ
て読み取り可能な記憶媒体または素子(例えば、ROM
または磁気ディスク)上に格納することが好ましく、コ
ンピュータが記憶媒体または素子を読み取って前述の手
順を実行するときに、コンピュータのコンフィギュレー
ションを設定し、動作させるようにする。また、システ
ムは、コンピュータ・プログラムを構成する、コンピュ
ータ読み取り可能記憶媒体として実現することも考えら
れ、この場合、このように構成した記憶媒体は、コンピ
ュータに具体的かつ既定の方法で動作させる。更に、一
例の計算機アプリケーションの記憶エレメントは、種々
の組み合わせおよびコンフィギュレーションでデータを
格納可能な、リレーショナルまたはシーケンシャル(フ
ラット・ファイル)方計算機データベースとしてもよ
い。
【0061】以上、本発明の実施形態の一例について詳
しく説明したが、多くの追加の変更も、本発明の新規な
教示や利点から著しく逸脱することなく、実施形態の一
例において可能であることを、当業者は容易に認めよ
う。したがって、これらおよびこのような全ての変更
は、添付した特許請求の範囲にしたがってその広さおよ
び範囲を解釈する、本発明の範囲に含まれることを意図
するものとする。
【図面の簡単な説明】
【図1】本発明の態様を組み込むことができる計算機環
境の一例のブロック図である。
【図2】本発明にしたがって、日本語スクリプトの読み
方の効果的な予測に関する学習フィーチャを実行するた
めに協働するコンポーネントのブロック図である。
【図3】本発明したがって、日本語スクリプトの読み方
の予測実行を実現するために協働するコンポーネントの
ブロック図である。
【図4】本発明による日本語スクリプト処理の一例のブ
ロック図である。
【図5】本発明にしたがって日本語スクリプトの読み方
を予測するときに用いる判断ツリーを形成するために実
行する処理のフロー図である。
【図6】本発明にしたがって日本語スクリプトの読み方
を予測するときに実行する処理のフロー図である。
【図7】本発明による、日本語読み取りフィーチャを有
する、計算機アプリケーションの一例のスクリーン・シ
ョットである。
【符号の説明】
110 コンピュータ 120 演算装置 121 システム・バス 130 システム・メモリ 131 リード・オンリ・メモリ(ROM) 132 ランダム・アクセス・メモリ(RAM) 133 基本入出力システム(BIOS) 134 オペレーティング・システム 135 アプリケーション・プログラム 136 その他のプログラム・モジュール 137 プログラム・データ 141 ハード・ディスク・ドライブ 144 オペレーティング・システム 145 アプリケーション・プログラム 146 その他のプログラム・モジュール 147 プログラム・データ 150 インターフェース 151 磁気ディスク・ドライブ 152 リムーバブル不揮発性磁気ディスク 155 光ディスク・ドライブ 156 リムーバブル不揮発性光ディスク 160 ユーザ入力インターフェース 161 ポインティング・デバイス 162 キーボード 171 ローカル・エリア・ネットワーク(LAN) 173 ワイド・エリア・ネットワーク(WAN) 180 リモート・コンピュータ 181 モニタ 185 リモート・アプリケーション・プログラム 190 出力周辺インターフェース 196 プリンタ 197 スピーカ 200 読み方予測システム 205 基準漢字読み方 210 訓練コープス 215 疑似音韻ルール 220 読み方分析部 225 基本的読み方 230 分析コープス 235 コープス分類部 240 判断ツリー 260 読み方予測 265 読み方予測部 270 文章 275 形態学的分析部 280 形態学的分析 500 計算機環境 510 表示/インターフェース制御部 515 表示/インターフェース・エリア 520 表示/インターフェース・エリア

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 日本語の単語および/または文章の日本
    語表意文字の読み方を予測する方法であって、 日本語の表意文字を含む日本語の単語を有するデータ・
    ストアに対して、基本的読み方を作成するステップであ
    って、基準漢字読み方および疑似音韻規則のいずれかか
    ら成るデータを用いて、前記基本的読み方を作成する、
    ステップと、 判断ツリーを生成するステップであって、該判断ツリー
    が、前記日本語表意文字の読み方を予測するステップを
    明記する、ステップと、 前記日本語の単語および/または文章を処理し、前記日
    本語の単語および/文章の前記日本語の表意文字の読み
    方を与えるステップと、から成る方法。
  2. 【請求項2】 請求項1記載の方法において、前記作成
    するステップは、更に、読み方分析部を設けるステップ
    を含み、前記読み方分析部が、入力として、前記基準漢
    字読み方、前記疑似音韻規則、および処理用訓練コープ
    スを受け入れて前記基本的読み方を作成し、前記訓練コ
    ープスが、日本語表意文字を含む日本語単語を有する前
    記データ・ストアを構成する、方法。
  3. 【請求項3】 請求項1記載の方法において、前記生成
    するステップは、更に、学習アルゴリズムを設けるステ
    ップを含み、該学習アルゴリズムが、前記判断ツリーを
    作成するステップを明記する、方法。
  4. 【請求項4】 請求項3記載の方法において、前記設け
    るステップは、ID3型機械学習アルゴリズムを装備す
    るステップを含む、方法。
  5. 【請求項5】 請求項4記載の方法であって、更に、 日本語表意文字を含む日本語の単語を有する前記データ
    ・ストアの各日本語単語における各日本語表意文字をイ
    ベントとして扱うステップであって、各イベントの結果
    が、前記日本語単語における前記各日本語表意文字の正
    しい基本的読み方である、ステップと、 前記イベントを、同じ結果を有する集合に分類するステ
    ップであって、該分類するステップが、更に、 前記集合を部分集合に分割し、該部分集合の各メンバが
    同じ値の分類属性を有し、前記分類属性が、前記結果以
    外のイベントに関する既知の事実である、ステップと、 分割前後における各集合のエントロピーを計算し、エン
    トロピー利得を生成するステップと、 各分割において前記エントロピー利得を最大化する一連
    の属性検査を探索し、一連の検査を作成して、前記イベ
    ントを同じ結果を共有する類似部分集合に分類するステ
    ップと、から成る、分類ステップと、を含む方法。
  6. 【請求項6】 請求項1記載の方法において、前記処理
    するステップは、更に、 入力として、前記判断ツリーのいずれか、前記基本的読
    み方、前記疑似音韻規則、および読み方予測部による形
    態学的分析から成る種々のデータ・ソースを受け入れる
    ステップを含み、前記読み方予測部は、前記データ・ソ
    ースを用いて日本語の単語および/または文章を解析
    し、日本語の表意文字およびそれぞれの読み方を特定
    し、 言語形態学規則を用いて、形態学分析部によって前記形
    態学的分析を生成する、方法。
  7. 【請求項7】 請求項6記載の方法であって、更に、 形態学分析部によって日本語の単語および/または文章
    を分析してその構造を判定するステップであって、前記
    構造が日本語表意文字から成る、ステップと、 前記日本語表意文字に対して分類属性を計算するステッ
    プと、 前記計算した属性の値にしたがって、前記判断ツリーを
    辿るステップと、 前記日本語表意文字に対して、適切な基本的読み方を選
    択するステップと、 前記疑似音韻規則を前記基本的読み方に適用し、表皮読
    み方を生成するステップと、 を含む方法。
  8. 【請求項8】 請求項1記載のアクトを実行するよう
    に、コンピュータに命令するコンピュータ実行可能命令
    を備えたコンピュータ読み取り可能記憶媒体。
  9. 【請求項9】 日本語の表意文字の読み方を予測するシ
    ステムであって、 日本語読み方分析部であって、日本語データを入力とし
    て受け入れ、前記日本語の単語のコープスにおける日本
    語の表意文字に対する基本的読み方と、日本語の表意文
    字の読み方を予測する際に用いる判断ツリーとを生成す
    る、日本語読み方分析部と、 日本語読み方予測部であって、前記生成した判断ツリ
    ー、前記日本語データ、および形態学的分析を入力とし
    て受け入れ、日本語の単語および/または文章に対して
    処理を行い、前記入力した日本語の単語および/または
    文章内にある日本語の表意文字に対する読み方予測を行
    なう、日本語読み方予測部と、を備えるシステム。
  10. 【請求項10】 請求項9記載のシステムにおいて、前
    記日本語データは、基本漢字読み方、日本語の単語およ
    び形態素のコープス、ならびに疑似音韻規則のいずれか
    から成る、システム。
  11. 【請求項11】 請求項9記載のシステムにおいて、前
    記形態学的分析は、形態学的分析部によって作成され、
    該形態学的分析部が、既定の日本語形態学規則にしたが
    って、日本語の単語および/または文章を処理する能力
    を有する、システム。
  12. 【請求項12】 請求項10記載のシステムにおいて、
    前記形態学的分析部は、入力として、日本語の単語およ
    び/または文章を受け入れ、該入力した日本語の単語お
    よび/または文章内にある日本語の表意文字に対して分
    類属性を計算し、該分類属性が、前記読み方予測部を補
    佐して、前記入力した日本語の単語および/または文章
    内の日本語の表意文字に対して表皮読み方を作成する、
    システム。
  13. 【請求項13】 請求項12記載のシステムにおいて、
    前記分類属性は、IsBoundMorpheme, IsStemMorpheme,
    IsMorphInitial, IsMorphFinal, PrecedesKanji, Follo
    wsKanji, PrecedesHiragana, FollowsHiragana, Prece
    desKatakana,FollwsKatakana, AllKanji, IsUnigram, I
    sBigram, IsTrigram, IsTetragram,IsFactoid, IsBound
    R, IsBoundL, MorphIDEquals(X), WorldIDEquals(X), N
    extCharEquals(X), ThirdCharEquals(X), およびPrevCh
    arEquals(X)のいずれかから成る、システム。
  14. 【請求項14】 請求項13記載のシステムにおいて、
    前記分類属性を前記日本語規則に定着させる、システ
    ム。
  15. 【請求項15】 請求項9記載のシステムにおいて、前
    記読み方分析部は、学習アルゴリズムを備え、該学習ア
    ルゴリズムが、前記判断ツリーの作成を容易にする手段
    を備える、システム。
  16. 【請求項16】 請求項15記載のシステムにおいて、
    前記学習アルゴリズムは、ID3−型機械学習アルゴリ
    ズムである、システム。
  17. 【請求項17】 請求項9記載のシステムにおいて、該
    システムを計算機アプリケーションの一部として組み込
    み、前記計算機アプリケーションが、文型チェックのた
    めに、日本語の表意文字の読み方を与えるフィーチャを
    備える、システム。
  18. 【請求項18】 日本語の表意文字の効果的かつ信頼性
    高い読み方予測を可能にする方法であって、 読み方分析部を設けるアクトであって、該読み取り分析
    部が入力として種々の日本語データを受け入れる、アク
    トと、 前記読み方分析部を学習モードで動作させるアクトであ
    って、前記読み方分析部は、前記入力データに対して処
    理を行い、前記日本語データに対して基本的読み方を生
    成し、日本語の表意文字の読み方を予測するときに用い
    る判断ツリーを生成する、アクトと、 読み方予測部を設けるアクトであって、該読み方予測部
    が、前記生成した基本的読み方および前記生成した判断
    ツリーを用いて、入力した日本語の単語および/または
    文章における日本語の表意文字の特性を判定し、該特性
    が前記日本語の表意文字の読み方予測に寄与する、アク
    トと、を実行する方法。
  19. 【請求項19】 請求項18記載の方法において、前記
    読み方分析部を設けるアクトは、更に、基準漢字読み
    方、日本語語彙、および疑似形態学規則のいずれかから
    成る日本語データを与えるアクトを含む、方法。
  20. 【請求項20】 請求項18記載の方法において、前記
    読み方予測部を設けるアクトは、更に、前記入力した日
    本語の単語および/または文章に対して形態学的分析を
    行なうアクトを含み、該形態学的分析は、形態学的分析
    部が、日本語形態学規則を用いて、前記入力した日本語
    の単語および/または文章に対して処理を行なうことに
    よって生成する、方法。
  21. 【請求項21】 請求項18記載のアクトを実行するよ
    うに、コンピュータに命令するコンピュータ実行可能命
    令を備えるコンピュータ読み取り可能記憶媒体。
  22. 【請求項22】 ストレージを有するコンピュータ・シ
    ステムにおいて、自然言語キャラクタの入力ストリング
    の分析を表わし、前記入力ストリングの一部をなす前記
    キャラクタの読み方を特定するために用いる方法であっ
    て、前記入力ストリングを処理し、前記ストリングにお
    ける自然言語キャラクタおよび前記ストリングにおける
    形態素を特定するコンピュータ実施ステップと、前記自
    然言語キャラクタの特性を保持するストレージ内に構造
    を作成し、該構造を用いて、前記入力ストリングを構成
    する前記自然言語キャラクタの読み方を特定するために
    用いられるようにし、前記特性が、根および葉を含む接
    続ノードから成る判断ツリーを表わし、前記根から葉ま
    での前記判断ツリーの各経路が、前記自然キャラクタに
    対する代替読み方分析を表わす、コンピュータ実施ステ
    ップと、から成る方法。
  23. 【請求項23】 請求項22記載の方法において、前記
    入力ストリングは、日本語の表意文字を有する日本語キ
    ャラクタから成る、方法。
  24. 【請求項24】 請求項22記載の方法において、前記
    入力ストリングを処理するステップは、言語形態学規則
    を用いて、前記入力ストリングを処理することから成
    る、方法。
  25. 【請求項25】 請求項24記載の方法であって、更
    に、形態学的分析部によって前記入力ストリングを処理
    するステップを含む、方法。
  26. 【請求項26】 請求項22記載の方法において、前記
    構造を作成するステップは、学習アルゴリズムを用いて
    前記判断ツリーを生成することを含む、方法。
JP2001219792A 2000-07-21 2001-07-19 日本語の表意文字の読み方を予測する方法 Expired - Lifetime JP5231698B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US21998100P 2000-07-21 2000-07-21
US09/859341 2001-05-17
US09/859,341 US7328404B2 (en) 2000-07-21 2001-05-17 Method for predicting the readings of japanese ideographs
US60/219981 2001-05-17

Publications (2)

Publication Number Publication Date
JP2002149643A true JP2002149643A (ja) 2002-05-24
JP5231698B2 JP5231698B2 (ja) 2013-07-10

Family

ID=26914455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001219792A Expired - Lifetime JP5231698B2 (ja) 2000-07-21 2001-07-19 日本語の表意文字の読み方を予測する方法

Country Status (2)

Country Link
US (1) US7328404B2 (ja)
JP (1) JP5231698B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005534968A (ja) * 2002-07-31 2005-11-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 漢字語の読みの決定
JP3956368B2 (ja) * 2003-10-16 2007-08-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 形態素解析システム
KR20080007261A (ko) * 2005-04-25 2008-01-17 테직 커뮤니케이션 인코포레이티드 표의문자 언어 구의 사용자 입력을 처리하기 위한 회로,방법 및 시스템
TWI295783B (en) * 2005-08-12 2008-04-11 Delta Electronics Inc Text inputting device for mobile communication device and method thereof
US20090299822A1 (en) 2006-11-08 2009-12-03 P C Grocery Ltd. System and method for optimized shopping transactions
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム
US9055161B2 (en) * 2009-07-18 2015-06-09 Abbyy Development Llc Text processing method for a digital camera
US9251428B2 (en) 2009-07-18 2016-02-02 Abbyy Development Llc Entering information through an OCR-enabled viewfinder
RU2586577C2 (ru) * 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US20160062979A1 (en) * 2014-08-27 2016-03-03 Google Inc. Word classification based on phonetic features
US9852123B1 (en) * 2016-05-26 2017-12-26 Google Inc. Semiotic class normalization
IT201900002235A1 (it) 2019-02-15 2020-08-15 Univ Ca Foscari Di Venezia Sistema e metodo per l’unione di morfemi in unita’ lessicali e relativa trascrizione in sillabe hiragana e in caratteri latini di un testo giapponese
KR20190080833A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 음성 정보 기반 언어 모델링 시스템 및 방법
KR20190080834A (ko) * 2019-06-18 2019-07-08 엘지전자 주식회사 사투리 음소 적응 학습 시스템 및 방법
CN110990674A (zh) * 2019-11-25 2020-04-10 创新奇智(青岛)科技有限公司 一种文章阅读量的预测方法及系统
US11625494B2 (en) * 2020-02-06 2023-04-11 AVAST Software s.r.o. Data privacy policy based network resource access controls

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0773174A (ja) * 1993-06-29 1995-03-17 Texas Instr Inc <Ti> 日本語処理システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718102A (en) * 1983-01-19 1988-01-05 Communication Intelligence Corporation Process and apparatus involving pattern recognition
EP0218218A3 (en) * 1985-10-07 1989-11-08 Sharp Kabushiki Kaisha An inputting system and an editing system in an inquiry-and-answer system
JPH02159674A (ja) * 1988-12-13 1990-06-19 Matsushita Electric Ind Co Ltd 意味解析装置と構文解析装置
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
US5586198A (en) * 1993-08-24 1996-12-17 Lakritz; David Method and apparatus for identifying characters in ideographic alphabet
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6621424B1 (en) * 2000-02-18 2003-09-16 Mitsubishi Electric Research Laboratories Inc. Method for predicting keystroke characters on single pointer keyboards and apparatus therefore

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0773174A (ja) * 1993-06-29 1995-03-17 Texas Instr Inc <Ti> 日本語処理システム

Also Published As

Publication number Publication date
JP5231698B2 (ja) 2013-07-10
US20020152246A1 (en) 2002-10-17
US7328404B2 (en) 2008-02-05

Similar Documents

Publication Publication Date Title
US6490563B2 (en) Proofreading with text to speech feedback
US6108627A (en) Automatic transcription tool
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
Hasegawa-Johnson et al. Grapheme-to-phoneme transduction for cross-language ASR
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2004303240A (ja) 単語解析のためのシステムおよび方法
Ananthakrishnan et al. Automatic diacritization of Arabic transcripts for automatic speech recognition
Schubotz et al. Y’know vs. you know: What phonetic reduction can tell us about pragmatic function
Tjalve et al. Pronunciation variation modelling using accent features
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Asahiah Development of a Standard Yorùbá digital text automatic diacritic restoration system
Kirov et al. Context-aware Transliteration of Romanized South Asian Languages
Rajendran et al. Text processing for developing unrestricted Tamil text to speech synthesis system
Blaschke Explainable Machine Learning in Linguistics and Applied NLP: Two Case Studies of Norwegian Dialectometry and Sexism Detection in French Tweets
Ferri et al. A complete linguistic analysis for an Italian text-to-speech system
JPS63153596A (ja) 音声文章入力装置
Diaconescu et al. A rule-based approach to generating large phonetic databases for Romanian results of the AFLR project
JP3048793B2 (ja) 文字変換装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110901

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111201

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120229

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121024

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130322

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250