JP2007004637A - Kana-kanji conversion - Google Patents
Kana-kanji conversion Download PDFInfo
- Publication number
- JP2007004637A JP2007004637A JP2005185768A JP2005185768A JP2007004637A JP 2007004637 A JP2007004637 A JP 2007004637A JP 2005185768 A JP2005185768 A JP 2005185768A JP 2005185768 A JP2005185768 A JP 2005185768A JP 2007004637 A JP2007004637 A JP 2007004637A
- Authority
- JP
- Japan
- Prior art keywords
- probability
- character string
- language model
- statistical language
- confirmed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
言語モデルとしてnグラムモデルを使用するかな漢字変換に関し、その方法およびこのかな漢字変換のプログラムを格納するコンピュータ読み取り可能な記録媒体に関する。 The present invention relates to kana-kanji conversion using an n-gram model as a language model, and to a method and a computer-readable recording medium for storing the kana-kanji conversion program.
一般に、コンピュータシステム等に日本語をタイプ入力する際、タイプ入力されたかな文字を漢字に変換するかな漢字変換の処理が行われる。そのかな漢字変換プログラムの代表的なものとして、本出願人によるMS−IME(その関連技術は、特許文献1等に開示されている)などがある。
日本語をタイプ入力するとき、ユーザがどのタイミングで変換キーを押すかは定かではない。しかし、ユーザビリティテストや誤変換報告などから、細かく変換キーを押しながら入力するユーザが多いということが分かっている。
In general, when Japanese is typed into a computer system or the like, kana-kanji conversion processing is performed to convert the typed kana characters into kanji. As a typical kana-kanji conversion program, there is MS-IME (the related technology is disclosed in Patent Document 1) by the present applicant.
When typing in Japanese, it is not certain when the user presses the conversion key. However, it is known from the usability test and misconversion reports that many users input while pressing the conversion key in detail.
一方、純粋なSLM(Statistical Language Model:統計的言語モデル)で、このような細切れ入力をシミュレーションし変換精度(CER:Character Error Rate)を測定したところ、細切れ入力の変換精度が低いという結果が出た。実際に、細切れ入力の場合、びっくりするような誤変換の後、再入力すると期待通りの変換となることがあり、ユーザを戸惑わせるようなことが起き易い。特に、細切れ入力で先に特定の文字がある場合と、そうでない場合とで変換結果が異なることが起きていた。 On the other hand, when such a shredded input is simulated and measured with a pure SLM (Statistical Language Model), the conversion accuracy (CER: Character Error Rate) is measured. It was. Actually, in the case of input with a small amount, if the input is re-input after a surprising conversion error, the conversion may be as expected, and the user is likely to be confused. In particular, conversion results differed between the case where a specific character was first input and the case where the character was not input.
また、特定の記号がない場合でも、前に確定済みの文字列がある場合とない場合とで、それに続く文字列に対して期待される変換結果が異なる場合があった。 Even when there is no specific symbol, the conversion result expected for the subsequent character string may differ depending on whether or not there is a previously determined character string.
上記のように、細切れ入力をするユーザは多数存在している。したがって、細切れ入力の変換精度が低いという上記問題を解決し、細切れ入力をするユーザでも長めに入力するユーザと同等かそれ以上の変換精度を体験できる必要がある。 As described above, there are a large number of users who input shredded pieces. Therefore, it is necessary to solve the above-mentioned problem that the conversion accuracy of the shredded input is low and to experience a conversion accuracy equivalent to or higher than that of the user who inputs a long time even if the user inputs the shredded input.
本発明は、以上の点に鑑みなされたもので、その目的は、ユーザが細かく変換キーを押しながら入力する場合でも、体感を損なわず、より高い精度の変換ができるかな漢字変換の技術を提供することにある。 The present invention has been made in view of the above points, and an object of the present invention is to provide a kana-kanji conversion technique that can perform conversion with higher accuracy without impairing the sensation even when the user performs fine input while pressing the conversion key. There is.
上記目的を達成するため、請求項1に記載の発明は、統計的言語モデルを備えるデータベースと前記統計的言語モデルを利用するかな漢字変換プログラムとを格納するコンピュータ読み取り可能な記録媒体であって、前記かな漢字変換プログラムは、前記統計的言語モデルから得られる確率であって入力された文の単語が特定の記号に続く確率が、補正された値となるようにする第1の処理を実行することを特徴とする。 In order to achieve the above object, the invention described in claim 1 is a computer-readable recording medium storing a database having a statistical language model and a kana-kanji conversion program using the statistical language model, The kana-kanji conversion program executes a first process that makes a probability obtained from the statistical language model and a probability that an input sentence word follows a specific symbol becomes a corrected value. Features.
また、請求項2に記載の発明は、請求項1に記載のコンピュータ読み取り可能な記録媒体において、前記特定の記号の内、所定の記号に対しては、該所定の記号が確定された場合のみ、前記第1の処理を実行することを特徴とする。 The invention according to claim 2 is the computer-readable recording medium according to claim 1, wherein, for the predetermined symbol, the predetermined symbol is determined only when the predetermined symbol is determined. The first process is executed.
また、請求項3に記載の発明は、請求項1または請求項2に記載のコンピュータ読み取り可能な記録媒体において、前記かな漢字変換プログラムは、入力された文に前記特定の記号が含まれず、かつ、先に入力された文字列が確定された場合、該確定された文字列に続く単語が該確定された文字列に続く確率が、補正された値となるようにする第2の処理を実行することを特徴とする。 The invention according to claim 3 is the computer-readable recording medium according to claim 1 or 2, wherein the kana-kanji conversion program does not include the specific symbol in the input sentence, and When the previously input character string is confirmed, a second process is executed such that the probability that the word following the confirmed character string follows the confirmed character string becomes a corrected value. It is characterized by that.
また、請求項4に記載の発明は、請求項1または請求項2に記載のコンピュータ読み取り可能な記録媒体において、前記第1の処理により得られる前記確率は、前記特定の記号を、文頭を示す文頭マークとみなして前記統計的言語モデルから得られる確率であることを特徴とする。 According to a fourth aspect of the present invention, in the computer-readable recording medium according to the first or second aspect, the probability obtained by the first processing indicates the specific symbol and the beginning of a sentence. It is a probability obtained from the statistical language model as a sentence mark.
また、請求項5に記載の発明は、請求項3に記載のコンピュータ読み取り可能な記録媒体において、前記第2の処理により得られる前記確率は、前記統計的言語モデルから得られる確率であって前記確定された文字列に続く単語が該確定された文字列に続く確率と、前記確定された文字列に含まれる単語を文頭マークとみなして前記統計的言語モデルから得られる確率であって前記確定された文字列に続く単語が該確定された文字列に続く確率とを、線形補間することにより得られる確率であることを特徴とする。 According to a fifth aspect of the present invention, in the computer-readable recording medium according to the third aspect, the probability obtained by the second process is a probability obtained from the statistical language model. A probability that a word following the confirmed character string follows the confirmed character string, and a probability obtained from the statistical language model by regarding a word included in the confirmed character string as a head mark, and the confirmation The probability that a word following the determined character string follows the determined character string is a probability obtained by linear interpolation.
また、請求項6に記載の発明は、請求項1から請求項5のいずれかに記載のコンピュータ読み取り可能な記録媒体において、前記統計的言語モデルは、nグラムモデルであることを特徴とする。 According to a sixth aspect of the present invention, in the computer-readable recording medium according to any of the first to fifth aspects, the statistical language model is an n-gram model.
また、請求項7に記載の発明は、コンピュータシステム上で実行される、統計的言語モデルを利用するかな漢字変換方法であって、データベースに備わる統計的言語モデルから得られる確率であって入力された文の単語が特定の記号に続く確率が、補正された値となるようにする第1の処理を実行するステップを備えることを特徴とする。 The invention according to claim 7 is a kana-kanji conversion method using a statistical language model, which is executed on a computer system, and is input with a probability obtained from a statistical language model provided in a database. It is characterized by comprising the step of executing a first process so that a probability that a word of a sentence follows a specific symbol becomes a corrected value.
また、請求項8に記載の発明は、請求項7に記載のコンピュータ読み取り可能な記録媒体において、前記特定の記号の内、所定の記号に対しては、該所定の記号が確定された場合のみ、前記第1の処理を実行することを特徴とする。 The invention according to claim 8 is the computer-readable recording medium according to claim 7, wherein, for the predetermined symbol among the specific symbols, only when the predetermined symbol is determined. The first process is executed.
また、請求項9に記載の発明は、請求項7または請求項8に記載の方法において、入力された文に前記特定の記号が含まれず、かつ、先に入力された文字列が確定された場合、該確定された文字列に続く単語が該確定された文字列に続く確率が、補正された値となるようにする第2の処理を実行するステップをさらに備えることを特徴とする。 In the method according to claim 9, in the method according to claim 7 or claim 8, the input sentence does not include the specific symbol, and the previously input character string is confirmed. In this case, the method further includes a step of executing a second process so that a probability that a word following the confirmed character string continues to the confirmed character string becomes a corrected value.
また、請求項10に記載の発明は、請求項7から請求項9のいずれかに記載の方法において、前記第1の処理により得られる前記確率は、前記特定の記号を、文頭を示す文頭マークとみなして前記統計的言語モデルから得られる確率であることを特徴とする。 The invention according to claim 10 is the method according to any one of claims 7 to 9, wherein the probability obtained by the first processing is the initial mark indicating the specific symbol, the initial mark. This is a probability obtained from the statistical language model.
また、請求項11に記載の発明は、請求項9に記載の方法おいて、前記第2の処理により得られる前記確率は、前記統計的言語モデルから得られる確率であって前記確定された文字列に続く単語が該確定された文字列に続く確率と、前記確定された文字列に含まれる単語を文頭マークとみなして前記統計的言語モデルから得られる確率であって前記確定された文字列に続く単語が該確定された文字列に続く確率とを、線形補間することにより得られる確率であることを特徴とする。 The invention according to claim 11 is the method according to claim 9, wherein the probability obtained by the second process is a probability obtained from the statistical language model and the determined character. A probability that a word following a string follows the confirmed character string, and a probability obtained from the statistical language model by regarding a word included in the confirmed character string as a head mark, and the confirmed character string It is a probability obtained by linearly interpolating the probability that the word following is followed by the confirmed character string.
また、請求項12に記載の発明は、請求項7から請求項11のいずれかに記載の方法において、前記統計的言語モデルは、nグラムモデルであることを特徴とする。 The invention according to claim 12 is the method according to any one of claims 7 to 11, wherein the statistical language model is an n-gram model.
本発明によれば、ユーザが細かく変換キーを押す細切れ変換でも、かな漢字変換の変換精度を向上させ、ユーザの体感を損なうことを防ぐことができる。
また、上記効果を、変換候補を得るための確率を補正されたものとする処理だけで享受できるので、統計的言語モデル自体に対し何ら変更を行う必要がない。
According to the present invention, it is possible to improve the conversion accuracy of kana-kanji conversion even when the user presses the conversion key finely, and to prevent the user's experience from being impaired.
In addition, since the above effect can be enjoyed only by processing in which the probability for obtaining the conversion candidate is corrected, it is not necessary to make any changes to the statistical language model itself.
図1に、本発明を実施することができる適切なコンピュータシステム100の一例を示す。このコンピュータシステム100は適切なコンピュータシステムの一例にすぎず、通信ネットワークを介してリンクされている遠隔処理デバイスによってタスクが実施される分散型コンピュータシステムで実施することもできる。分散型コンピュータシステムでは、コンピュータに所定の処理を実行させるためのプログラムモジュールを、ローカルおよび遠隔コンピュータの記録媒体内に配置することができる。
FIG. 1 illustrates an example of a
図1を参照すると、本発明を実施するための例示的システムであるコンピュータシステム100は、コンピュータ110で示す汎用コンピューティングデバイスを含む。コンピュータ110の構成要素は、処理ユニット120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理ユニット120に結合するシステムバス121等を含む。
With reference to FIG. 1, a
コンピュータ110は、一般に様々なコンピュータ読み取り可能な記録媒体を備える。コンピュータ読み取り可能な記録媒体は、コンピュータ110によってアクセス可能であれば任意の媒体であってよく、揮発性媒体および不揮発性媒体、取り外し可能媒体および固定の媒体のいずれでもよい。こうしたコンピュータ読み取り可能な記録媒体には、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多目的ディスクまたは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ(ハードディスクドライブ141)または他の磁気記憶装置、所望の情報を格納するために使用され、またコンピュータ110によってアクセスすることができる任意の媒体が挙げられる。
The
コンピュータ110はまた、取り外し可能な媒体に対して読み書きを行うためのドライブを備える。例示として、図1に、取り外し可能な不揮発性磁気ディスク152に対して読み出しまたは書込みする磁気ディスクドライブ151、取り外し可能な不揮発性光ディスク156に対して読み出しまたは書込みをする、CD−ROMまたは他の光学媒体などの光ディスクドライブ155を示している。ハードディスクドライブ141は、一般に、インターフェース140などの固定のインターフェースを介してシステムバス121に接続されており、磁気ディスクドライブ151および光ディスクドライブ155は、一般に、インターフェース150などの取り外し可能なインターフェースによってシステムバス121に接続されている。
The
システムメモリ130は、読み出し専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性または不揮発性のメモリからなっている。起動時などに、コンピュータ110内の要素間で情報を転送するために役立つ基本ルーチンを含んでいる基本入出力システム133(BIOS)は、一般にROM131内に格納されている。RAM132は、一般に、処理ユニット120に即時アクセス可能な、またはその時点において処理ユニット120により操作されているデータまたはプログラムモジュールを含む。これらの例示として、図1に、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136およびプログラムデータ137を示す。
The
なお、図1では、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147には、最低限、それらが異なるコピーであることを示すために異なる番号を付与している。ユーザは、キーボード162および、一般にマウス、トラックボールまたはタッチパッドと呼ばれるポインティングデバイス161などの入力デバイスによってコンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)は、マイクロフォン、ジョイスティック、ゲームパッド、スキャナなどを含むことができる。これらの入力デバイスは、システムバスに結合されたユーザ入力インターフェース160を介して処理ユニット120に接続されるが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)などの他のインターフェースを介して接続することもできる。モニタ191または他のタイプの表示装置も、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタの他に、コンピュータは、出力周辺インターフェース195を介して接続することができるスピーカ197およびプリンタ196など、他の周辺出力装置を含むこともできる。
In FIG. 1, different numbers are assigned to the
また、コンピュータ110は、前述のように遠隔コンピュータ180などの1つまたは複数の遠隔コンピュータへの論理接続を使用してネットワーク化された環境において動作することができる。遠隔コンピュータ180は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイスまたは他の共通ネットワークノードであってよく、図1では記憶装置181しか示していないが、遠隔コンピュータ180も、コンピュータ110に関して上記で説明した多くのまたはすべての要素を含む。図1で示す論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、イントラネットおよびインターネットなどのコンピュータネットワークでは一般的なことである。
LANネットワーキング環境で使用されるとき、コンピュータ110は、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用されるとき、コンピュータ110は、通常、インターネットなどのWAN173を介して通信を確立するモデム172または他の手段を備える。内蔵型または外付けのモデム172は、ユーザ入力インターフェース160を介してシステムバス121に接続することができる。ネットワーク環境において、コンピュータ110に関して示されたプログラムモジュールまたはその一部は、遠隔記憶装置に格納することができる。例示として、図1に、記憶装置181上に常駐するものとして遠隔アプリケーションプログラム185を示している。
When used in a LAN networking environment, the
以下の説明では、本発明は、特に指摘しない限り、アプリケーションプログラム(かな漢字変換プログラム)のコンピュータ実行可能命令をシステムメモリ131にロードした処理ユニット120が、そのコンピュータ実行可能命令に基づき実行することができる動作を説明する。この動作において、処理ユニット120はコンピュータ実行可能命令に基づきプログラムデータ137を参照し、あるいはその更新を行う。なお、本発明に関わるかな漢字変換プログラムは、前述のコンピュータ読み取り可能な記録媒体に記録してユーザに提供することも、通信媒体を介してユーザに配布することもできる。
In the following description, unless otherwise specified, the present invention can be executed by the
図2は、本実施形態に係るプログラムデータ137の内容をより詳細に示す図であり、本発明に関わる部分のみを概略的に示している(詳細は後述する)。
FIG. 2 is a diagram showing the details of the
プログラムデータ137は、コーパス202と、辞書204と、ユーザ辞書206とを含んでいる。コーパス202は、自然言語処理等に利用される大規模テキストデータであって、文字列が形態素ごとに分割され、各形態素について品詞が決定された(即ち、品詞タグ付けされた)ものである。その他、係り受けなどの統語情報が付加されたものもコーパス202として利用することができる。辞書204は、語および品詞の各々に対する識別子(ID)を定義したデータである。ここで、語は文字の表記とその読みとを含んでいる。ユーザ辞書206は、ユーザ個人が使い勝手を良くするために単語や定型句を登録して作成する登録辞書の1つである。ここで、登録辞書は、ユーザ辞書の他、専門辞書や分野別辞書などのベンダにより登録されるものであっても良い。
The
ここでnグラムモデルについて簡単に説明する。
n−1 個の単語列W1W2...Wn−1 の後にn 番目の単語Wnが続く確率は、次のような条件付確率で示される。
P=P(Wn|W1W2...Wn−1)
=P(W1W2...Wn)/P(W1W2...Wn−1)
これをnグラムモデルという。 以下ではトライグラムモデル(すなわち、上式でn=3)を例に挙げて説明するが、本発明はバイグラムモデル等の他のマルチグラムモデル(以下では、総称して統計的言語モデルと記す)にも適用可能であることはいうまでもない。
Here, the n-gram model will be briefly described.
n-1 word strings W 1 W 2 . . . The probability that the nth word Wn follows Wn −1 is indicated by the following conditional probability.
P = P (W n | W 1 W 2 ... W n-1)
= P (W 1 W 2 ... W n) / P (W 1 W 2 ... W n-1)
This is called an n-gram model. Hereinafter, a trigram model (that is, n = 3 in the above formula) will be described as an example, but the present invention is another multigram model such as a bigram model (hereinafter collectively referred to as a statistical language model). Needless to say, this is also applicable.
図3は、本実施形態に係るかな漢字変換の方法の概要を示す図である。
なお、以下の説明において使用されるコンピュータシステムとして図1に示すものが使用される。
FIG. 3 is a diagram showing an outline of a kana-kanji conversion method according to the present embodiment.
The computer system shown in FIG. 1 is used as the computer system used in the following description.
図3に示すステップS3002において、コンピュータシステムは、辞書202とユーザ辞書とを用いて、入力ひらがな704から語IDと品詞IDの混ざったIDの組み合わせ(パス)の集合(ラティス)を作成する。ステップS3004において、統計的言語モデル304から、各パスの生起する確率を取り出し、各パスと確率を対応付けたパス−確率対応表708を生成する。ステップS3006では、パス−確率対応表708のうちから、最も確率の高いパスを変換候補710として選択する。そして、ステップS3008では、辞書202とユーザ辞書206とを用いて、選択されたパスをかな漢字文字列712に変換する(なお、かな漢字変換の方法の詳細は、例えば特許文献1等が参考となろう)。
In step S3002 shown in FIG. 3, the computer system uses the
以上のようにして、コンピュータシステム上で、統計的言語モデルを利用したかな漢字変換が行われるが、前述のように細切れ入力で先に特定の記号がある場合と、そうでない場合とで変換結果が異なるという問題が起きている。以下に、この点について説明する。 As described above, Kana-Kanji conversion using a statistical language model is performed on a computer system. However, as described above, conversion results are different depending on whether there is a specific symbol in the first segment input or not. There is a problem of being different. This point will be described below.
例えば、行のはじめ(文頭)にスペース(空白文字:ここでは□で表す)が入力され、さらに“きょう”が入力されたとする。この場合の単語列は、
<s>□きょう
となる。ここでは文頭を示す文頭マークを<s>、文末マークを</s>で表している。なお、文頭マーク<s>は、改行の後に自動的に付けられる。
一方、文頭から“きょう”が入力されたとする。この場合は、
<s>きょう</s>
となる。
For example, it is assumed that a space (blank character: represented here by □) is input at the beginning (start of sentence) of a line, and “Kyo” is further input. The word string in this case is
<S> □ Today
It becomes. Here, the beginning mark indicating the beginning of the sentence is represented by <s> and the end of sentence mark is represented by </ s>. The sentence head mark <s> is automatically added after a line feed.
On the other hand, it is assumed that “Kyo” is input from the beginning of the sentence. in this case,
<S> Today </ s>
It becomes.
以上の2つのケースでは、“きょう”に対するそれぞれのトライグラムP(きょう|<s>,□)と、P(きょう|<s>,<s>)(この場合、トライグラム計算のため<s>を2つ並べている)は異なるものとなる。したがって、かな漢字変換の結果も異なる場合がある。同様に、文頭にかぎかっこ“「”がくる場合も、そうでない場合とで変換結果が異なってくる。例えば、“「きょう”は、“「今日”ではなく“「強”と変換されたりする。 In the above two cases, the respective trigrams P (today | <s>, □) and P (today | <s>, <s>) (in this case, <s 2> are different). Therefore, the result of Kana-Kanji conversion may be different. Similarly, the conversion result differs depending on whether or not the bracket ““ ”comes at the beginning of the sentence. For example, ““ Kyoto ”is converted to“ “Strong” instead of “Today”.
“きょう”が“今日”と変換されるのをユーザが所望しているとき、文頭に(あるいは文中に)スペースやかぎかっこなどの特定の記号があった場合にも、同様に“□今日”、“「今日”と変換されるのが望ましい。
この問題を解決するため、本実施形態では、文頭や文中にスペースやかぎかっこなど特定の記号がくる場合、所定の条件のもとでこの特定の記号を文頭マーク<s>とみなして、単語W3に対するトライグラムP(W3)を補正されたものにして、前述のかな漢字変換におけるパスの生起する確率を求める(詳細は後述する)。
If the user wishes to convert “today” to “today” and there is a specific symbol such as a space or an angle bracket at the beginning of the sentence (or in the sentence), “ , "Today" should be converted.
In order to solve this problem, in the present embodiment, when a specific symbol such as a space or an angle bracket appears in the beginning of a sentence or a sentence, the specific symbol is regarded as a beginning mark <s> under a predetermined condition, and a word trigram P for W 3 (W 3) and to that corrected, (details will be described later) for determining the probability of occurrence of a path in the kana-kanji conversion described above.
ここで、上記特定の記号について述べる。本実施形態において特定の記号類は、1.オープンブラケットグループ(Open brackets group)、2.バレットグループ(Bullets group)の2つに分けて扱う(この場合、スペースはオープンブラケットグループと同じ扱いとすることができる)。すなわち、 Here, the specific symbol will be described. In this embodiment, specific symbols are: Open bracket group (Open brackets group), 2. The two bullet groups are handled (in this case, the space can be treated the same as the open bracket group). That is,
1の記号の場合、記号が確定済みか未確定かに関係なく、その記号を文頭マークとみなして、補正された確率値を求める。2の記号の場合は、その記号が確定済みか未確定かをみて、確定済みの場合にその記号を文頭マークとみなして補正された確率値を求める。 In the case of a symbol of 1, regardless of whether the symbol is confirmed or not yet confirmed, the symbol is regarded as a head mark and a corrected probability value is obtained. In the case of the symbol of 2, it is determined whether the symbol has been confirmed or not yet confirmed, and if it has been confirmed, the symbol is regarded as a head mark and a corrected probability value is obtained.
例えば、“「AB”または“「”確定 “AB”とタイプ入力された場合(1の記号の場合)は、“「<s><s>AB”と見なして補正された確率値を求める。一方、“●AB”とタイプ入力された場合(2の記号の場合)は、通常の確率値を求め、“●”確定 “AB”とタイプ入力された場合は、これを“●<s><s>AB”とみなして補正された確率値を求める。なお、ここで記号右側の「確定」は、前の記号が確定されたことを示している。また、記号“”はオープンブラケットグループに属する記号であるが、本明細書においては、記号・文字列を強調して示すためにも使用しており(例えば、“●”など)、この場合、この記号がタイプ入力されることを示すものではないことを理解されたい。 For example, when ““ AB ”or“ “” determined “AB” is typed (in the case of a symbol of 1), a corrected probability value is obtained by regarding ““ <s> <s> AB ””. On the other hand, when “● AB” is typed (in the case of symbol 2), a normal probability value is obtained, and when “●” is confirmed and “AB” is typed, this is replaced with “● <s>”. <S> AB ”is regarded as a corrected probability value. Here, “confirm” on the right side of the symbol indicates that the previous symbol has been confirmed. In addition, the symbol “” is a symbol belonging to the open bracket group, but in this specification, it is also used to emphasize and indicate a symbol / character string (for example, “●”). It should be understood that this symbol does not indicate that it is being typed.
以上では、特定の記号が存在する場合について言及したが、特定の記号がない場合でも、前確定文字列がある場合とない場合とで、それに続く文字列に対して期待される変換が異なる場合がある。
例えば、「きょうはいしゃにいく」に対して、もっとも高い確率を有するパスに対応するものが「今日は医者に行く」だとする。ところが「今日」でいったん確定をして「はいしゃにいく」と入力した場合、ユーザが期待するのは「は医者に行く」ではなく、「歯医者に行く」の場合がほとんどである。しかし、統計的言語モデル では「は医者に行く」が一番高い確率になってしまう。一方、文頭マークにつながる「はいしゃにいく」に対しては「歯医者に行く」が一番高い確率をもつ。このようにユーザがいったん確定を行った後は、文頭マークにつながるとした場合の確率も加味したほうがよい場合がある。この問題を解決するため、このような場合には、下式のように線形補間を行うようにする。
(1)確定済みの単語/記号のPrevW1 PrevW2に続き単語/記号W3が挿入された場合:
P(W3)=P(W3|<s>,<s>)*(1−α)
+P(W3|PrevW1,PrevW2)*α
(2)確定済みの単語/記号のPrevW1に続き未確定の単語/記号W2,W3が挿入された場合:
P(W3)=P(W3|<s>,W2)*P(W2|<s>,<s>)*(1−α)
+P(W3|PrevW1,W2)*α
として補正を行う。上式において、0≦α≦1であり、αは固定値として、よりよくかな漢字変換がなされるように適宜設定される。例えば、上記例の場合、α=0が好ましい。
In the above, the case where a specific symbol exists is mentioned, but even when there is no specific symbol, the expected conversion for the subsequent character string differs depending on whether there is a predetermined character string or not. There is.
For example, suppose that “to go to the doctor today” corresponds to the path having the highest probability for “going to today”. However, when “Today” is confirmed and the user inputs “go to the hospital”, the user expects not to “go to the doctor” but to “go to the dentist” in most cases. However, in the statistical language model, “Go to the doctor” has the highest probability. On the other hand, “going to the dentist” has the highest probability of “going to saishani” connected to the sentence mark. In this way, once the user has confirmed, there is a case where it is better to consider the probability when it is connected to the sentence head mark. In order to solve this problem, in such a case, linear interpolation is performed as in the following equation.
(1) When a word / symbol W 3 is inserted after PrevW 1 PrevW 2 of a confirmed word / symbol:
P (W 3 ) = P (W 3 | <s>, <s>) * (1-α)
+ P (W 3 | PrevW 1 , PrevW 2 ) * α
(2) When uncertain words / symbols W 2 and W 3 are inserted after PrevW 1 of the confirmed word / symbol:
P (W 3 ) = P (W 3 | <s>, W 2 ) * P (W 2 | <s>, <s>) * (1-α)
+ P (W 3 | PrevW 1 , W 2 ) * α
As a correction. In the above equation, 0 ≦ α ≦ 1, and α is appropriately set as a fixed value so that a better kanji conversion is performed. For example, in the above example, α = 0 is preferable.
次に、上記補正された確率値を得るための処理の一例を、図4に示す概念的なプログラムソースを参照して説明する。
トライグラムでは、3つの単語の列W1W2W3から3番目の単語W3が続く確率を求めるが、ここではこの3つの単語をLeft,Middle,Rightで表すこととする。
Next, an example of a process for obtaining the corrected probability value will be described with reference to a conceptual program source shown in FIG.
In the trigram, the probability that the third word W 3 continues from the three word strings W 1 W 2 W 3 is obtained. Here, these three words are represented by Left, Middle, and Right.
図4に示す処理では、まず、Middleに前確定文字列(すなわち、確定済みの文字列)が存在し、かつ、Middleがバレットかスペースかオープンブラケットである(条件1)か否かを判断している。この条件1を満たす場合、MiddleとLeftのそれぞれに文頭マークを設定する。 In the process shown in FIG. 4, first, it is determined whether or not a previously confirmed character string (that is, a confirmed character string) exists in the Middle, and whether the Middle is a bullet, a space, or an open bracket (condition 1). ing. When this condition 1 is satisfied, a sentence head mark is set for each of Middle and Left.
次いで、上記条件1を満たさない場合、すなわち、Middleに前確定文字列がないか、または、Middleがバレット、スペース、オープンブラケットのいずれでもない場合、さらに、Leftに前確定文字列が存在し、かつ、Leftがバレットかスペースかオープンブラケットである(条件2)か否かを判断している。この段階で、この条件2を満たしている場合、Leftに文頭マーク<s>を設定する。 Next, when the above condition 1 is not satisfied, that is, when there is no pre-determined character string in Middle, or when Middle is not any of bullet, space, or open bracket, a pre-determined character string exists in Left, In addition, it is determined whether Left is a bullet, a space, or an open bracket (condition 2). At this stage, when the condition 2 is satisfied, the head mark <s> is set in Left.
次いで、上記条件2をも満たさない場合、すなわち、Middleに前確定文字列がないか、または、Middleがバレット、スペース、オープンブラケットのいずれでもない場合で、さらに、Leftに前確定文字列がないか、または、Leftがバレット、スペース、オープンブラケットのいずれでもない場合、さらに、Middleがオープンブラケットである(条件3)か否か判断している。この段階で、この条件3を満たしている場合、MiddleとLeftのそれぞれに文頭マーク<s>を設定する。 Next, when the above condition 2 is not satisfied, that is, when there is no preceding fixed character string in Middle, or when Middle is not any of bullet, space, or open bracket, and there is no preceding fixed character string in Left. If Left is not a bullet, space, or open bracket, it is further determined whether Middle is an open bracket (condition 3). At this stage, if the condition 3 is satisfied, the head mark <s> is set in each of Middle and Left.
次いで、上記条件3をも満たさない場合、すなわち、Middleに前確定文字列がないか、または、Middleがバレット、スペース、オープンブラケットのいずれでもなく、さらに、Leftに前確定文字列がないか、または、Leftがバレット、スペース、オープンブラケットのいずれでもなく、さらに、Middleがオープンブラケットでない場合、Leftがオーブンブラケットである(条件4)か否か判断している。この段階で、Leftがオープンブラケットである場合、Leftのみ文頭マーク<s>を設定する。 Next, when the above condition 3 is not satisfied, that is, there is no pre-defined character string in Middle, or Middle is not any of bullet, space, open bracket, and there is no pre-defined character string in Left, Alternatively, if Left is not a bullet, space, or open bracket, and Middle is not an open bracket, it is determined whether Left is an oven bracket (condition 4). At this stage, if Left is an open bracket, only the Left character is set with a head mark <s>.
上記条件1,2,3,4のいずれも満たさない場合は、MiddleおよびLeftは元の設定(元の単語列のMiddleとLeftの内容)のままとする。 If none of the above conditions 1, 2, 3, and 4 is satisfied, Middle and Left are left at their original settings (contents of Middle and Left of the original word string).
以上のようにして設定されたMiddleとLeftを用いて、前述のトライグラムを算出する。図では、関数GetTrigram(Left,Middle,Right)で表し、これを“通常の確率”として設定している(上記各条件を満たさない場合は、まさに通常の確率であり、いずれかの条件を満たした場合は、補正された確率がこの“通常の確率”に設定される)。 The above-described trigram is calculated using Middle and Left set as described above. In the figure, it is represented by the function GetTrigram (Left, Middle, Right), which is set as “normal probability” (if the above conditions are not satisfied, it is just a normal probability, and either condition is satisfied) The corrected probability is set to this “normal probability”).
次いで、Left,Middleからなる単語列が、スペース、バレット、スペース、オープンブラケット(これらを、図4ではSpecial Charと称す)のいずれも含まず、前確定文字列を含む場合は、さらに以下の処理を行う。 Next, if the word string consisting of Left and Middle does not include any of spaces, bullets, spaces, and open brackets (these are referred to as “special char” in FIG. 4) and includes a pre-determined character string, the following processing is further performed I do.
Middleが前確定文字列である場合(このとき、当然にLeftも前確定文字列である)、Sentence Start(文頭マーク)との確率として、P(W3|<s>,<s>)を求める。一方、Middleが前確定文字列でない場合、Leftのみが前確定文字列であるので、この場合は、Sentence Startとの確率として、P(W3|<s>,W2)*P(W2|<s>,<s>)を求める。
そして、通常の確率として、
通常の確率=通常の確率*α+Sentence Startとの確率*(1−α)
を求める。ここで係数αは前述のように、0≦α≦1の範囲で、好ましいかな漢字変換が行われるように適宜設定される。
When Middle is a pre-determined character string (in this case, of course, Left is also a pre-determined character string), P (W 3 | <s>, <s>) is used as the probability of a sentence start (sentence mark). Ask. On the other hand, when Middle is not a pre-determined character string, only Left is a pre-determined character string, and in this case, P (W 3 | <s>, W 2 ) * P (W 2 ) as the probability of Sentence Start. | <S>, <s>).
And as a normal probability
Normal probability = normal probability * α + probability with Sentence Start * (1−α)
Ask for. Here, the coefficient α is appropriately set so that preferable kana-kanji conversion is performed in the range of 0 ≦ α ≦ 1, as described above.
以上のようにして算出された“通常の確率”を用いて、最終確率(=通常の確率*前の単語までの確率)を算出する。この最終確率は、補正された該当パスの生起する確率として用い、前述のようにしてかな漢字変換を行う。 Using the “normal probability” calculated as described above, the final probability (= normal probability * probability to previous word) is calculated. This final probability is used as the probability of occurrence of the corrected corresponding path, and kana-kanji conversion is performed as described above.
以上のように処理することで、文頭や文中に特定の記号がある場合の単語W3の補正された確率値(トライグラム値)は、単語W3が文頭にある場合の確率に等しくなり、したがって、文頭や文中にスペースやかぎかっこなどの特定の記号がある場合とそうでない場合で変換結果が異なるという問題を解決することができる。
また、特定の記号がない場合でも、前確定文字列がある場合とない場合とで、それに続く文字列に対して期待される変換が異なる場合があるが、上記のように文頭マークにつながる確率との線形補間を施すことで、より好ましい変換結果を得ることができるようになる。
したがって、本実施形態によれば、統計的言語モデル自体をトレーニングする(調整する)ことなく、上記ように補正された確率値を得る処理だけで前述の問題に対応することができるようにもなる。
By processing as described above, the corrected probability value of a word W 3 when there is a specific symbol on the beginning of a sentence or statement (trigram value), a word W 3 is equal to the probability in a case in beginning of a sentence, Therefore, it is possible to solve the problem that the conversion result differs depending on whether or not there is a specific symbol such as a space or an angle bracket in the beginning or sentence.
In addition, even if there is no specific symbol, the expected conversion for the subsequent character string may be different depending on whether there is a pre-determined character string or not. A more preferable conversion result can be obtained by performing linear interpolation.
Therefore, according to the present embodiment, the problem described above can be dealt with only by obtaining the probability value corrected as described above, without training (adjusting) the statistical language model itself. .
100 コンピュータシステム
110 コンピュータ
120 処理ユニット
121 システムバス
130 システムメモリ
131 読み出し専用メモリ
132 ランダムアクセスメモリ
133 基本入出力システム
134 オペレーティングモジュール
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140 取り外し不可能不揮発性メモリインターフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
150 取り外し可能不揮発性メモリインターフェース
151 磁気ディスクドライブ
152 取り外し可能な不揮発性磁気ディスク
155 光ディスクドライブ
156 取り外し可能な不揮発性光ディスク
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
170 アダプタ
171 ローカルエリアネットワーク(LAN)
172 モデム
173 ワイドエリアネットワーク(WAN)
180 遠隔コンピュータ
181 記憶装置
184 マルチレベルキャッシュ
185 遠隔アプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ
202 コーパス
204 辞書
206 ユーザ辞書
304 統計的言語モデル
704 入力ひらがな
706 ラティス
708 パス−確率対応表
710 変換候補
712 かな漢字文字列
100
180
Claims (12)
前記かな漢字変換プログラムは、前記統計的言語モデルから得られる確率であって入力された文の単語が特定の記号に続く確率が、補正された値となるようにする第1の処理を実行することを特徴とするコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium for storing a database including a statistical language model and a kana-kanji conversion program using the statistical language model,
The kana-kanji conversion program executes a first process that makes a probability obtained from the statistical language model and a probability that an input sentence word follows a specific symbol becomes a corrected value. A computer-readable recording medium characterized by the above.
データベースに備わる統計的言語モデルから得られる確率であって入力された文の単語が特定の記号に続く確率が、補正された値となるようにする第1の処理を実行するステップを備えることを特徴とする方法。 A kana-kanji conversion method using a statistical language model executed on a computer system,
And a step of executing a first process in which a probability obtained from a statistical language model provided in a database and a word of an inputted sentence follows a specific symbol becomes a corrected value. Feature method.
12. A method according to any of claims 7 to 11, wherein the statistical language model is an n-gram model.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005185768A JP4796341B2 (en) | 2005-06-24 | 2005-06-24 | Kana-Kanji conversion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005185768A JP4796341B2 (en) | 2005-06-24 | 2005-06-24 | Kana-Kanji conversion |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2007004637A true JP2007004637A (en) | 2007-01-11 |
JP2007004637A5 JP2007004637A5 (en) | 2008-08-07 |
JP4796341B2 JP4796341B2 (en) | 2011-10-19 |
Family
ID=37690177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005185768A Active JP4796341B2 (en) | 2005-06-24 | 2005-06-24 | Kana-Kanji conversion |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4796341B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01228057A (en) * | 1988-03-08 | 1989-09-12 | Ricoh Co Ltd | Kana/kanji converter |
-
2005
- 2005-06-24 JP JP2005185768A patent/JP4796341B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01228057A (en) * | 1988-03-08 | 1989-09-12 | Ricoh Co Ltd | Kana/kanji converter |
Also Published As
Publication number | Publication date |
---|---|
JP4796341B2 (en) | 2011-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8005662B2 (en) | Translation method, translation output method and storage medium, program, and computer used therewith | |
Silberztein | Formalizing natural languages: The NooJ approach | |
KR101292404B1 (en) | Method and system for generating spelling suggestions | |
JP4769031B2 (en) | Method for creating language model, kana-kanji conversion method, apparatus, computer program, and computer-readable storage medium | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
JP4286299B2 (en) | Japanese virtual dictionary | |
US20100235780A1 (en) | System and Method for Identifying Words Based on a Sequence of Keyboard Events | |
JP2007004633A (en) | Language model generation device and language processing device using language model generated by the same | |
WO2001084357A2 (en) | Cluster and pruning-based language model compression | |
WO2015166606A1 (en) | Natural language processing system, natural language processing method, and natural language processing program | |
JP2006331329A (en) | Language processor, language processing method, and language processing program, and storage medium | |
CN1704882A (en) | Asian language input by using keyboard | |
CN113822044B (en) | Grammar error correction data generating method, device, computer equipment and storage medium | |
Alhawiti | Adaptive models of Arabic text | |
JP4796341B2 (en) | Kana-Kanji conversion | |
JP2009157888A (en) | Transliteration model generation device, transliteration apparatus, and computer program therefor | |
JP2015095182A (en) | Character string processing device, method, and program | |
JP2003178087A (en) | Retrieval device and method for electronic foreign language dictionary | |
Robertson | Automatic Normalisation of Historical Text | |
JP2000353159A (en) | Notation-reading correspondence device, notation- reading dictionary generating method, text reading arranging device, text reading arranging method, and recording medium | |
JP2008090247A (en) | Dictionary of germanic language with roman alphabet abbreviation of japanese translation added thereto | |
JP2007316834A (en) | Japanese sentence modification device, japanese sentence modification method, and program for japanese sentence modification | |
JP2004118461A (en) | Method and device for training language model, method and device for kana/kanji conversion, computer program, and computer readable recording medium | |
JP4729063B2 (en) | Machine translation apparatus, method and program | |
CN117291155A (en) | Data generation method, model training method, text error correction method and related devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080624 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110722 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110729 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4796341 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140805 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |