JP2007004633A

JP2007004633A - 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置

Info

Publication number: JP2007004633A
Application number: JP2005185764A
Authority: JP
Inventors: Hiroaki Kaneki; 宏明鹿子木; Miyuki Seki; 美由紀関; Ryoji Sato; 良治佐藤
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2005-06-24
Filing date: 2005-06-24
Publication date: 2007-01-11

Abstract

【課題】かな漢字変換候補のヒット率を向上させる。
【解決手段】かな漢字変換処理で使用する言語モデルの記載内容に読みの要素を加える。より具体的には言語モデルを作成する際に同一の表記および読みを有する複数の単語の出現頻度をコーパスの中で計数し、少なくとも、その計数結果から得られる出現確率を格納するフィールドと対応の単語の読みを格納するフィールドおよび対応する表記を格納するフィールドとで言語モデルを構成する。
【選択図】図３

Description

本発明は、読みをその表記に変換する言語処理装置で使用される言語モデルを作成する言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置などに関する。

従来、読みをその表記に変換する処理は、一般的にはかな漢字変換と呼ばれている。日本語や中国語などのように、言語処理装置に対して文字を入力する場合、読みを示す文字列をキーボードから入力し、言語処理装置において、入力された読み（表音文字、いわゆるかな文字）の文字列をその表記を表す文字列（表意文字、いわゆる漢字）に変換した後、変換された文字列をアプリケーションプログラム、例えば、ワープロソフトに引き渡す。

この際に、読みに対して、複数の変換候補、いわゆる同音異義語が存在する場合、言語処理装置は複数の変換候補あるいは最優先の変換候補を表示画面に表示してユーザの選択を受け付ける。同音異義語の優先順位を付ける場合に言語モデルを使用する言語処理方法が知られている（特許文献１参照）。

従来の言語モデルの構成を図１に示す。
図１に示す言語モデル１００はトライグラム（３つの連続する単語の組み合わせ）の例を示す

図１において、１０１は第１番目の単語のフィールド（格納欄）で表記の文字列の形態で格納される。１０２は第１番目の単語に引き続いて使用される単語のフィールドで表記の文字列の形態で記憶される。１０３は第２番目の単語に引きついて使用される単語のフィールドであり、表記の文字列の形態で格納される。１０４はこれら３つの単語が存在する確率の値を格納するフィールドである。

新聞や雑誌に記載されている多数の文に基づいて３つの連続する単語の同一の組み合わせの出現個数が計数されて、確率の値があらかじめ決められる。

このような言語モデル１００を使用して、同音異義語の順位付けを次に説明する。
図２（ａ）に示すように、ユーザがキーボードから「にほんはうつくしいくにです」と読みの文字列を入力し、第１番目の表記として「日本」を確定し、第２番目の表記として「は」を確定したとする。第３番目の表記を確定する前に情報処理装置は最初に「うつくしい」に相当する変換候補「美しい」、「うつくしい」、「ウツクシイ」、「倩」などの変換候補を漢字辞書から取得する。漢字辞書は単語辞書とも呼ばれ、読みと表記を記載した辞書である。

次に情報処理装置は図２（ｂ）に示すように第１番目および第２番目の表記の文字列の単語と第３番目の変換候補の表記の文字列の単語を組み合わせ、その組み合わせに対応する確率を図１の言語モデルから取得する。取得した確率の順に優先順位が決められる。

上述の例はトライグラムの言語モデルを使用する変換例であるが、実際には、バイグラム（２つの単語の組み合わせ）の言語モデルと併用される。

特開平２００２−１１７０２５

上述したように言語モデルはｎ（２以上の整数）個の表記の組み合わせとその組み合わせの出現の確率で少なくとも構成されるので、読みのつながりを配慮していない。

たとえば、「むだ」と入力した場合のかな漢字変換処理についての問題を説明する。
「夢」は「ゆめ」、「む」という読みを持つ。
読み「む」に対応する表記を有する単語しては以下のものがある。
夢だ
白日夢
無駄
夢だ

従来技術は、表記だけでとらえる。従って、仮に上記単語に読みをあてた場合、以下のいずれも許容して、従来の言語モデルでは同じ出現確率としてしまう。
夢（ゆめ）だ
夢（む）だ

従来の言語モデルでは、上記の場合出現確率がP(夢)=3/7, P(だ|夢)=2/3, P(だ)=2/7, P(白日)=1/7, P(夢|白日)=1, P(無駄)=1/7 となる。

したがって「むだ」という読みを入力として与えられた場合、かな漢字変換処理では漢字（単語）辞書を引いて、「無駄」「夢」「だ」を得る。

次いで言語モデルを検索し、出現確率P(無駄)=1/7, P(夢)*P(だ|夢)=3/7*2/3=9/21を得る。その結果、「むだ」の読みに対して「夢だ」を変換結果として返してしまう。ユーザが「無駄」への変換を希望している場合、これはエラーである。

そこで、本発明の目的は、上述の点に鑑みて、読みから表記への変換効率（ヒット率）を向上させる言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置、ならびに関連の方法およびプログラムを提供することにある。

このような目的を達成するために、本発明は、複数の自然語の文が表記の文字の形態で記載されたコーパスを入力する入力手段と、当該入力されたコーパスの中の文に対して単語単位で読みを付加する付加手段と、当該付加された読みおよび対応する表記の前記コーパス中の出現個数を計数することにより該読みおよび対応する表記の出現確率を計算する計算手段と、当該計算手段により計算された出現確率、対応する読みおよび対応する表記を言語モデルとして記憶する記憶手段とを備えたことを特徴とする。

本発明は、さらに、請求項１に記載の言語モデル作成装置により作成された言語モデルを使用して、入力の読みを、対応する表記に変換する言語処理装置であって、前記言語モデルを記憶する記憶手段と、前記記憶手段に記憶された言語モデルの出現確率に応じて、読みから変換すべき変換候補の順位付けを行なう情報処理手段とを備えたことを特徴とする。

本発明によれば、従来の言語モデルの構成に単語の読みのつながりが単語の出現確率の値の中に加味されているので、表記のつながりの出現確率だけを使用する従来の言語モデルよりも出現確率の精度が向上する。

さらに本発明のモデルを使用することにより、読みから表記の際に行なう変換候補の順位付けの精度（ヒット率）も向上する。

具体例を挙げると、表記に読みを付加し、コーパスを以下の状態にする。
夢・ゆめだ・だ
白日・はくじつ夢・む
無駄・むだ
夢・ゆめだ・だ

表記および読みの対の出現確率は、 P(夢・ゆめ)=2/7, P(だ・だ|夢・ゆめ)=1, P(だ,だ)=1/7, P(白日・はくじつ)=1/7, P(夢・む|白日・はくじつ)=1, P(夢・む)=1/7, P(無駄・むだ)=1/7. となる。

このため、入力として「むだ」を与えられた場合、かな漢字変換処理では漢字辞書を引き、「無駄・むだ」、「夢・む」、「だ・だ」を得る。次に、言語モデルを検索し、P(だ・だ|夢・む)という確率が存在しないので出現確率を0とし、さらに出現確率P(無駄・むだ)=1/7, P(夢・む)*P(だ・だ|夢・む)=1/7*0=0 を得る。「無駄・むだ」の方が（夢・む)(だ・だ)よりも出現確率が高いので、かな漢字変換処理では、そこで、出現確率の高い方の「無駄」を変換結果の候補として高い順位を与える。

以下、図面を参照して本発明の実施形態を詳細に説明する。

最初に本発明に係わる言語モデルの構成を図３を参照して説明する。図３において、３００は言語モデルである。３１０は第１の単語のためのフィールドで有り、単語の表記のためのサブフィールド３１１およびその単語の読みのためのサブフィールド３１２を有する。３２０は第第１の単語に隣接して接続して使用される２の単語のためのフィールドで有り、単語の表記のためのサブフィールド３２１およびその単語の読みのためのサブフィールド３２２を有する。

３３０は第２の単語に隣接して接続して使用される３の単語のためのフィールドで有り、単語の表記のためのサブフィールド３３１およびその単語の読みのためのサブフィールド３３２を有する。

一例を挙げると「日本」「は」「美しい」という３つの連続する単語に対して、
「日本」という第１番目の単語の表記がサブフィールド３１１に格納され、その読み「にほん」がサブフィールド３１２に格納される。第２番目の単語の表記「は」はサブフィールド３２１に格納され、その読み「は」がサブフィールド３２２に格納される。第３番目の単語の表記「美しい」はサブフィールド３３１に格納され、その読み「うつくしい」がサブフィールド３３２に格納される。

なお、「日本」にはべつの読みとして「にっぽん」があるが、このように１つの単語の表記に対して複数の読みがある場合には、その読みを使用して、別のレコードを格納すればよい。

この例では「日本、にほん、は、は、美しい、うつくしい」が１つのレコードであり、さらに、「日本、にっぽん、は、は、美しい、うつくしい」という別のレコードが言語モデルに格納される。

３４０は上述した３つの単語の表記および読みの組み合わせが出現する確率（出現確率）の値を格納するフィールドである。

以上が言語モデル３００の必要最小限のデータ構成であるが、その他、複数の単語の組み合わせの分野を示す属性値などを言語モデル３００に格納してもよい。

図３に示す言語モデルを作成するための言語モデル作成装置を図４に示す。言語モデル作成装置としては市販されているパーソナルコンピュータを使用することができるので説明は簡単にとどめる。

図４において、４０１は言語モデルを作成するための情報処理を実行するＣＰＵ４０１である。４０２にはディスプレイであり、言語モデル作成に係わる表示を行なう。４０３はシステムメモリであり、ＣＰＵ４０１が実行する言語モデル作成プログラム、そのプログラムの実行に必要なデータを記憶する。システムメモリ４０３に加えて、ハードディスク記憶装置を併用してもよい。４０４は第１の入力装置であり、コーパスの入力を行なう。第１の入力装置４０４としては、コーパスを文字の形態で入力するキーボード、コーパスを電子データの形態でフロッピー（登録商標）ディスク、ＣＤＲＯＭなどから入力するディスクドライブ（ディスク読取装置）、インターネットなどを介して外部のコンピュータから入力するモデムなどの通信装置およびその他のいずれかを使用することができる。本実施形態では、コーパスとは新聞、雑誌など複数の文章、すなわち、自然言語の複数の単語の表記が記載された文書を総称する用語を意味する。

４０５は第２の入力装置であり、ＣＰＵ４０１に対する指示などを入力する。第２の入力装置４０５としてはキーボードおよびマウスなどのポインティングデバイスを使用することができる。

４０６は言語モデルを出力するための出力装置であり、出力装置４０６としては、フロッピー（登録商標）ディスク、ＣＤＲＯＭに書き込むディスク書き込み装置、モデムなどの通信装置、プリンタなどを種々の出力装置を使用することができる。

このようなシステム構成の言語モデル作成装置で実行される言語モデル作成処理を図５を参照して説明する。図５はＣＰＵ４０１が実行する言語モデル作成プログラムの内容を示す。

言語モデル作成プログラムは、不図示のハードディスク装置からシステムメモリ４０３にロードされた後、ＣＰＵ４０１により実行される。

最初に第１の入力装置４０４からコーパスを入力する。一例としては、ＣＰＵ４０１の制御でテキストファイルの形態で新聞記事が格納されたＣＤＲＯＭから新聞記事を第１の入力装置４０４により読み取り、システムメモリ４０３内の作業領域に格納する。次に、ＣＰＵ４０１は格納されたテキストファイルをイメージに変換してディスプレイ４０２によりディスプレイ４０２の表示画面５０３に図６に示すように表示させる（Ｓ４０１）。ユーザはマウス（第２の入力装置４０５）を使用して作成ボタン５０１を操作するとＣＰＵ４０１は、システムメモリ４０３の作業領域に格納されている新聞記事（コーパス）の中の文（複数の単語の表記のつながり）を単語単位で区切る（Ｓ４０２）。単語を区切る方法は従来の言語モデル作成方法と同じ方法を使用することができ、また、その方法は良く知られているので、ここでは詳細な説明を省略する。続いて、ＣＰＵ４０１は区切られた単語の表記の各々に読みを付加する。読みの付加の方法には
（１）キーボードを利用して読みを入力する。
（２）漢字辞書（表記とその読みを記載した辞書）を参照して、表記に対応する読みをＣＰＵ４０１により取得する。
などの方法を採用することができる。本実施形態は（２）の例を説明する。

このようにし各単語に対する読みをＣＰＵ４０１が取得すると、システムメモリ４０３の作業領域中で、単語の表記とその読みを１組のデータとしたストリーム（複数のデータのつながり）を作成する（Ｓ４０３）。ＣＰＵ４０１は図７に示すように表画面の左画面６０１に入力した新聞記事を表示させ、右画面６０２には、作成したストリームを表示させる。

ユーザは自動的に付加された読みについて、修正すべき箇所をキーボード等により修正する。ユーザの修正に応じてＣＰＵ４０１はシステムメモリ４０３の作業領域中のストリームの中の該当箇所を修正する。最後にユーザがＯＫボタン５０２をマウスで操作するとＣＰＵ４０１は修正後のストリームに基づいて言語モデルを作成する。

一例としては、システムメモリ４０３の作業領域中のストリームの中の先頭から３つの連続する表記および読みの対を順次に取り出す。ただし、先頭の単語については２つの仮想単語の表記および読みを与える。２番目の単語については１つの仮想単語の表記および読みを与える。この表記を「＠」で表すとする。図７のストリームの例では、ＣＰＵ４０１は
（１）３つの単語の組み合わせは、先頭の単語（日本／にほん）については（＠／＠）、（＠／＠）、（日本／にほん）となる。
（２）２番目の単語については、（＠／＠）、（日本／にほん）、（は／は）となる。
（３）３番目の単語については、（日本／にほん）、（は／は）、（美しい／うつくしい）となる。
（４）以下、ターゲットとする単語の表記および読みの対を３番目の単語位置に配置し、それ以前に隣接する単語の表記および読みの対を第１番目および第２番目の単語位置に配置した３つの単語の組み合わせをシステムメモリ４０３の作業領域上で作成する（Ｓ４０４）。

ＣＰＵ４０１は３つの単語の組み合わせを１組作成すると、ストリーム中を検索し、同じ組み合わせの出現個数を計数する（Ｓ４０５）。計数が終了すると、システムメモリ４０３中の言語モデル（図１参照）に、今回使用した３つの単語（表記および読み）および計数結果（出現確率）を対応するフィールドに書き込む（Ｓ４０６）。なお、計数結果の値の変わりに計数結果／ストリーム中の全単語数などを出現確率として使用してもよい。

以下、ターゲットする単語を移動させながら３つの連続する単語（表記および表記）を順次に選択して上述と同様の処理を繰り返す（Ｓ４０４〜Ｓ４０７のループ処理）。

ターゲットとする単語がストリーム中の最後の単語まで移動したときに図５の処理手順が終了する。ターゲットとなる単語を有する３つの単語の組み合わせの重複的な計数を避けるためには、計数に先立って、言語モデルの中に、これから計数しようとする３つの単語がすでに登録されているか、言語モデルを参照すればよい。登録されている場合には、計数を行なわずターゲットの単語を移動させる。

上述のようにしてシステムメモリ４０３中で作成された言語モデルは出力装置４０６により、ＣＤＲＯＭなどの携帯用記録媒体に出力したり、通信回線を使用して他の情報処理装置に出力すればよい。上述の実施形態ではトライグラム（つの単語の組み合わせ）の言語モデルを作成する例を説明したが、バイグラム（２つの単語の組み合わせ）の場合には、図１の言語モデル中の単語のフィールドが３つから２つに変わることは当業者であれば容易に理解しえよう。各単語のフィールドが読みと表記のサブフィールドを有することは言うまでもない。また、コーパスから取り出す単語が３つから２つに変わることも同様に理解しえよう。

次に言語モデル作成装置により作成された言語モデルを使用してかな漢字変換（読みから表記へ変換する）処理を説明する。

この処理を行う言語処理装置としては市販のパーソナルコンピュータ、携帯電話、サーバなどを使用することができるので、詳細な説明を省略する。なお、システム構成については図４を参照されたい。

言語処理装置のハードディスクに対して上述の言語モデル作成装置により作成され、ＣＤＲＯＭ等に出力された本発明に係わる言語モデル（図３）が格納されているものとする。このための処理は、たとえば、かな漢字変換プログラムをＣＤＲＯＭからインストールする際に、言語モデルもＣＰＵ４０１によりハードディスクに記憶すればよい。ＣＰＵ４０１はキーボード（第２の入力装置４０５）から表記へ変換すべき読み（たとえば、図９の（ａ）の読みの入力を受け付ける（Ｓ７０１）。「にほんは」の読みに対して「日本は」が確定されたものとすると、ＣＰＵ４０１は、次に、読み「うつくしい」に対応する変換候補の表記「美しい」、「うつくしい」、「ウツクシイ」を単語辞書から取得する。次に、確定済の２つの単語の表記および各変換候補の表記および読みを組み合わせる、この例では、（日本／にほん）と（は／は）と変換候補の表記と読み（美しい／うつくしい）の組み合わせ、（日本／にほん）と（は／は）と変換候補の表記と読み（うつくしい／うつくしい）組み合わせ、（日本／にほん）と（は／は）と変換候補の表記と読み（ウツクシイ／うつくしい）の組み合わせがＣＰＵ４０１により作成される（Ｓ７０３）。ＣＰＵ４０１は各組み合わせに対応する出現確率を言語モデルの検索により取得する（Ｓ７０４）。

最後にＣＰＵ４０１は出現確率の値の大きさの順位にしたがって、変換候補「美しい」、「うつくしい」、「ウツクシイ」等の順位付けを行なう（Ｓ７０６）。この例では最高位の「美しい」が初期的に変換候補として表示される（Ｓ７０７）。

以上の述べた変換候補の順位付け処理と従来のかな漢字変換時の順位付け処理の相違点をここで、説明しておく。

従来の順位付けは、変換後の表記のみを組み合わせて言語モデルから出現確率を取り出す。これに対して、本実施形態では表記およびその読みを有する３つの単語を組み合わせ、その組み合わせに対応する出現確率を言語モデルから取り出す点が従来と相違する。

このように、本実施形態では、たとえば、３つの単語の表記が一致し、および３つの単語の読みが一致するような変換候補（表記）を言語モデルから探すので、ヒット率が高くなることは理解されよう。

（第２の実施形態）
コーパスに記載された単語の表記に読みを付加する方法として、表を使用することができる。表はシステムメモリ４０３上に設ける。

第１の入力装置４０４からコーパスが入力されると、ＣＰＵ４０１により、コーパスかに記載された単語を記載順に取り出して図１０に示すように表記記載欄１００１に格納していく。次に、表記記載欄１００１に対応する読みをＣＰＵ４０１により、単語辞書から取得して読みの記載欄１００２に格納する。全ての単語をコーパスから抽出し、読みを付加した後、ディスプレイに図１０の表を表示してユーザのキーボードによる修正を受け付ける。修正の後、３つの単語（表記および読みの）を組み合わせて、出現頻度を計算する処理は上述と同様である。

上述の実施形態の他に次の形態を実施できる。
１）上述の実施形態では、言語モデル作成装置はかな漢字変換プログラム製造会社側に設置する例であったが、かな漢字変換プログラムに言語モデル作成プログラムを付加し、ユーザサイドで言語モデルを作成してもよい。
２）さらに、サーバに本発明に係わる分野ごとの言語モデルを用意し、サーバにアクセスしてくるパソコンに言語モデルを搭載するようにしてもよいこと勿論である。

上述の他にも種々の改良形態が存在するが、その改良形態が本発明の技術思想に基づくものである限り、その改良形態は本発明の技術範囲内に属する。

従来の言語モデルの構成の一例を示す説明図である。かな漢字変換処理を説明するための説明図である。本発明実施形態の言語モデルの構成の一例を示す説明図である。本発明実施形態のシステム構成を示すブロック図である。本発明実施形態の言語モデルの作成手順を示すフローチャートである。言語モデル作成途中の表示画面の内容を示す説明図である。言語モデル作成途中の表示画面の内容を示す説明図である。本発明実施形態の言語モデルを使用したかな漢字変換処理を示すフローチャートである。本発明実施形態のかな漢字処理の内容を説明するための説明図である。第２の実施形態の言語モデル作成方法を説明するための説明図である。

符号の説明

４０１ＣＰＵ
４０２ディスプレイ
４０３システムメモリ
４０４第１の入力装置
４０５第２の入力装置
４０６出力装置

Claims

複数の自然語の文が表記の文字の形態で記載されたコーパスを入力する入力手段と、
当該入力されたコーパスの中の文に対して単語単位で読みを付加する付加手段と、
当該付加された読みおよび対応する表記の前記コーパス中の出現個数を計数することにより該読みおよび対応する表記の出現確率を計算する計算手段と、
当該計算手段により計算された出現確率、対応する読みおよび対応する表記を言語モデルとして記憶する記憶手段と
を備えたことを特徴とする言語モデル作成装置。
請求項１に記載の言語モデル作成装置において、前記記憶手段に記憶された言語モデルを出力する出力手段をさらに備えたことを特徴とする言語モデル作成装置。
請求項１または２に記載の言語モデル作成装置において、前記入力手段から入力されたコーパスを表示する表示手段をさらに有することを特徴とする言語モデル作成装置。
請求項１〜３のいずれかに記載の言語モデル作成装置において、前記付加手段は単語の読みと表記を記載した単語辞書を有し、前記付加手段は該単語辞書から、付加すべき読みを取得することを特徴とする言語モデル作成装置。
請求項４に記載の言語モデル作成装置において、前記単語辞書から取得され、単語の表記に付加された読みを修正する修正手段をさらに備えたことを特徴とする言語モデル作成装置。
請求項１〜５のいずれかに記載に言語モデル作成装置において、前記付加された読みおよび対応する表記のストリームを表示する表示手段をさらに備えたことを特徴とする言語モデル作成装置。
入力手段と、付加手段と、計算手段と、記憶手段とを有する言語モデル作成装置の言語モデル作成方法であって、
前記入力手段から複数の自然語の文が表記の文字の形態で記載されたコーパスを入力する入力ステップと、
当該入力されたコーパスの中の文に対して単語単位で読みを前記付加手段により付加する付加ステップと、
当該付加された読みおよび対応する表記の前記コーパス中の出現個数を計数することにより該読みおよび対応する表記の出現確率を前記計算手段により計算する計算ステップと、
当該計算手段により計算された出現確率、対応する読みおよび対応する表記を言語モデルとして前記記憶手段に記憶する記憶ステップと
を備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
請求項７に記載の言語モデル作成装置の言語モデル作成方法において、前記言語作成装置は出力手段をさらに有し、前記記憶手段に記憶された言語モデルを前記出力手段により出力する出力ステップをさらに備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
請求項７または８に記載の言語モデル作成装置の言語モデル作成方法において、前記言語作成装置は表示手段をさらに有し、前記入力手段から入力されたコーパスを前記表示手段により表示する表示ステップをさらに有することを特徴とする言語モデル作成装置の言語モデル作成方法。
請求項７〜９のいずれかに記載の言語モデル作成装置の言語モデル作成方法において、前記付加手段は単語の読みと表記を記載した単語辞書を有し、前記付加により該単語辞書から、付加すべき読みを取得するステップをさらに備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
請求項１０に記載の言語モデル作成装置の言語モデル作成方法において、前記言語作成装置は修正手段をさらに有し、前記単語辞書から取得され、単語の表記に付加された読みを前記修正手段により修正する修正ステップをさらに備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
請求項７〜１１のいずれかに記載に言語モデル作成装置の言語モデル作成方法において、前記付加された読みおよび対応する表記のストリームを前記表示手段により表示する表示ステップをさらに備えたことを特徴とする言語モデル作成装置の言語モデル作成方法。
入力手段と、付加手段と、計算手段と、記憶手段とを有する言語モデル作成装置のためのプログラムであって、
前記入力手段から複数の自然語の文が表記の文字の形態で記載されたコーパスを入力する入力ステップと、
当該入力されたコーパスの中の文に対して単語単位で読みを前記付加手段により付加する付加ステップと、
当該付加された読みおよび対応する表記の前記コーパス中の出現個数を計数することにより該読みおよび対応する表記の出現確率を前記計算手段により計算する計算ステップと、
当該計算手段により計算された出現確率、対応する読みおよび対応する表記を言語モデルとして前記記憶手段に記憶する記憶ステップと
を備えたことを特徴とする言語モデル作成装置のためのプログラム。
請求項１３に記載の言語モデル作成装置のためのプログラムにおいて、前記言語作成装置は出力手段をさらに有し、前記記憶手段に記憶された言語モデルを前記出力手段により出力する出力ステップをさらに備えたことを特徴とする言語モデル作成装置のためのプログラム。
請求項１３または１４に記載の言語モデル作成装置のためのプログラムにおいて、前記言語作成装置は表示手段をさらに有し、前記入力手段から入力されたコーパスを前記表示手段により表示する表示ステップをさらに有することを特徴とする言語モデル作成装置のためのプログラム。
請求項１３〜１５のいずれかに記載の言語モデル作成装置のためのプログラムにおいて、前記付加手段は単語の読みと表記を記載した単語辞書を有し、前記付加手段により該単語辞書から、付加すべき読みを取得するステップをさらに備えたことを特徴とする言語モデル作成装置のためのプログラム。
請求項１６に記載の言語モデル作成装置のためのプログラムにおいて、前記言語作成装置は修正手段をさらに有し、前記単語辞書から取得され、単語の表記に付加された読みを前記修正手段により修正する修正ステップをさらに備えたことを特徴とする言語モデル作成装置のためのプログラム。
請求項１３〜１７のいずれかに記載に言語モデル作成装置のためのプログラムにおいて、前記付加された読みおよび対応する表記のストリームを前記表示手段により表示する表示ステップをさらに備えたことを特徴とする言語モデル作成装置のためのプログラム。
請求項１に記載の言語モデル作成装置により作成された言語モデルを使用して、入力の読みを、対応する表記に変換する言語処理装置であって、
前記言語モデルを記憶する記憶手段と、
前記記憶手段に記憶された言語モデルの出現確率に応じて、読みから変換すべき変換候補の順位付けを行なう情報処理手段と
を備えたことを特徴とする言語処理装置。
記憶手段および情報処理手段を有し、請求項１に記載の言語モデル作成装置により作成された言語モデルを使用して、入力の読みを、対応する表記に変換する言語処理装置のための言語処理方法であって、
前記言語モデルを前記記憶手段に記憶する記憶ステップと、
前記記憶手段に記憶された言語モデルの出現確率に応じて、読みから変換すべき変換候補の順位付けを前記情報処理手段により行なう情報処理ステップと
を備えたことを特徴とする言語処理装置のための言語処理方法。
記憶手段および情報処理手段を有し、請求項１に記載の言語モデル作成装置により作成された言語モデルを使用して、入力の読みを、対応する表記に変換する言語処理装置のためのプログラムであって、
前記言語モデルを前記記憶手段に記憶する記憶ステップと、
前記記憶手段に記憶された言語モデルの出現確率に応じて、読みから変換すべき変換候補の順位付けを前記情報処理手段により行なう情報処理ステップと
を備えたことを特徴とする言語処理装置のためのプログラム。