JP2002117025A - かな漢字変換装置およびかな漢字変換方法 - Google Patents

かな漢字変換装置およびかな漢字変換方法

Info

Publication number
JP2002117025A
JP2002117025A JP2000304102A JP2000304102A JP2002117025A JP 2002117025 A JP2002117025 A JP 2002117025A JP 2000304102 A JP2000304102 A JP 2000304102A JP 2000304102 A JP2000304102 A JP 2000304102A JP 2002117025 A JP2002117025 A JP 2002117025A
Authority
JP
Japan
Prior art keywords
kana
character string
character
dictionary
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000304102A
Other languages
English (en)
Other versions
JP3622841B2 (ja
Inventor
Toshihisa Tashiro
敏久 田代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Priority to JP2000304102A priority Critical patent/JP3622841B2/ja
Publication of JP2002117025A publication Critical patent/JP2002117025A/ja
Application granted granted Critical
Publication of JP3622841B2 publication Critical patent/JP3622841B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 かな漢字変換装置において、計算量を抑えな
がら変換精度の向上を図る。 【解決手段】 形態素解析手段111によって選出さ
れ、格フレーム解析手段113によって改めて優先順位
が付けられた文字列の候補について、トライグラム解析
手段115が実際のテキストコーパスから抽出した単語
の組み合わせを用いて、格フレーム解析後の候補を改め
て並べ替える。これにより、現実のテキスト中に含まれ
る語の並びが含まれる候補が優先されることになる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、かな漢字変換装置
およびかな漢字変換方法に関し、より詳細には、コンピ
ュータ・システムに日本語を入力するために使用されて
いるかな漢字変換装置およびかな漢字変換方法に関す
る。
【0002】
【従来の技術】日本語の文字列を入力する装置として、
キーボードから入力したい漢字列に対応するかな文字列
を入力し、漢字変換キーの入力に応答して、かな文字列
をかな漢字文字列に変換するパーソナル・コンピュータ
やワード・プロセッサなどのかな漢字変換装置が従来か
ら知られている。この装置に入力したかな文字列をかな
漢字文字列に変換する場合は、漢字変換用の特定の1つ
または複数のキーを組み合わせて押下し、かな漢字文字
列の候補を表示する。また、連続して候補を表示するこ
とも可能であり、この場合直前の候補を呼び出すとき
は、前候補キーを押下するなどして、文章を入力するこ
とができる。かな文字列をカタカナ文字列に変換する場
合や、ローマ字文字列に変換する場合も、上記と同様の
手順で行われる。
【0003】入力された文字列についてかな漢字変換を
行うかな漢字変換装置では、文字列に対応する漢字を決
定するのに、形態素や各フレームの解析情報を参照する
ことによって、変換精度を高めている。ここで、形態素
とは、一つ以上の音素からなる意味をもった最小の言語
単位をいい、形態素解析では、文字列に含まれている形
態素の切れ目を認識し、および形態素の品詞を認定す
る。
【0004】また、格フレーム解析では、文字列に含ま
れている単語間の意味的な結合関係を「格文法」の考え
方によって表現する。
【0005】従来のかな漢字変換装置では、上述のよう
な品詞に基く形態素解析と、格フレーム解析とを用いて
いる場合が多い。
【0006】
【発明が解決しようとする課題】しかし、上述した従来
のかな漢字変換方式では、正確に変換することが難しい
言語現象も存在する。また、従来のかな漢字変換方式の
場合、特殊な語彙や表現についてもできる限り楽に変換
できるように、文字列に対応する表現を広く認めると、
そのような特殊な用語を使用しないユーザにとっては、
不可解な単語の連続や、共起関係が薄い同音類義語の誤
変換/学習等の副作用が生じるという問題があった。
【0007】一方、音声認識システムにおいて使用され
ている言語モデルとして、トライグラムが知られてい
る。このトライグラムでは、品詞に基く形態素解析や、
格フレームでは正確に変換できないような言語現象にも
対応出来るというメリットがある。
【0008】しかし、トライグラムの計算量は極めて大
きいので、かな漢字変換のような高速性が要求されるシ
ステムにトライグラムをそのまま応用することは非常に
困難であるという問題があった。
【0009】本発明はこのような問題に鑑みてなされた
ものであり、その目的とするところは、従来のかな漢字
変換において生じていた誤変換等の副作用を抑制するこ
とができるかな漢字変換装置およびかな漢字変換方法を
提供することにある。
【0010】
【課題を解決するための手段】本発明は、このような目
的を達成するために、請求項1に記載の発明は、かな漢
字変換の候補となる文字および該文字の優先度を記述す
る辞書、2つの品詞の接続の優先度を記述する品詞の接
続表、文字列の中に含まれる語句の他の語句に対する意
味的関係を記述する格フレーム辞書、および実際のテキ
ストを含むテキストコーパスの中に単語のN(N≧3)
個の連鎖が出現する確率を記述するNグラムデータを記
憶する記憶装置と、該記憶装置に記憶された前記辞書、
前記品詞の接続表、前記格フレーム辞書、および前記N
グラムデータに基づいて、入力装置から入力されたかな
文字列をかな漢字文字列に変換するデータ処理装置とを
備えたかな漢字変換装置であって、前記データ処理装置
は、入力された前記かな文字列にマッチする前記文字を
前記辞書から抽出する辞書引き手段と、前記文字の優先
度と、前記品詞の接続の優先度とに基づき、前記辞書引
き手段により抽出された前記文字を組み合わせて1つ以
上のかな漢字文字列の候補を含む第1の候補を作成する
形態素解析手段と、前記格フレーム辞書に基づき、前記
第1の候補に含まれる前記かな漢字文字列の候補の優先
順位を並べ替えて、第2の候補を作成する格フレーム解
析手段と、前記単語のN個の連鎖が出現する確率に基づ
いて、前記第2の候補に含まれる前記かな漢字文字列の
候補の優先順位を並べ替えるNグラム解析手段とを備え
たことを特徴とする。
【0011】また、請求項2に記載の発明は、請求項1
に記載のかな漢字変換装置において、前記記憶装置は、
ローマ字に対応するかな文字を記述するローマ字かな変
換表を記憶し、前記データ処理装置は、前記入力装置か
ら入力されたローマ字をローマ字かな変換表に基づいて
前記かな文字列に変換するローマ字かな変換手段を備
え、前記辞書引き手段は、前記ローマ字かな変換手段に
よって変換された前記かな文字列にマッチする前記文字
を前記辞書から抽出することを特徴とする。
【0012】また、請求項3に記載の発明は、記憶装置
に記憶された、かな漢字変換の候補となる文字および該
文字の優先度を記述する辞書、2つの品詞の接続の優先
度を記述する品詞の接続表、文字列の中に含まれる語句
の他の語句に対する意味的関係を記述する格フレーム辞
書、および実際のテキストを含むテキストコーパスの中
に単語のN(N≧3)個の連鎖が出現する確率を記述す
るNグラムデータに基づいて、入力装置から入力された
かな文字列をかな漢字文字列に変換するかな漢字変換方
法であって、入力された前記かな文字列にマッチする前
記文字を前記辞書から抽出する辞書引きステップと、前
記文字の優先度と、前記品詞の接続の優先度とに基づ
き、前記辞書引きステップにおいて抽出された前記文字
を組み合わせて1つ以上のかな漢字文字列の候補を含む
第1の候補を作成する形態素解析ステップと、前記格フ
レーム辞書に基づき、前記第1の候補に含まれる前記か
な漢字文字列の候補の優先順位を並べ替えて、第2の候
補を作成する格フレーム解析ステップと、前記単語のN
個の連鎖が出現する確率に基づいて、前記第2の候補に
含まれる前記かな漢字文字列の候補の優先順位を並べ替
えるNグラム解析ステップとを備えることを特徴とす
る。
【0013】さらに、請求項4に記載の発明は、請求項
3に記載のかな漢字変換方法であって、前記記憶装置
は、ローマ字に対応するかな文字を記述するローマ字か
な変換表を記憶し、前記入力装置から入力されたローマ
字をローマ字かな変換表に基づいて前記かな文字列に変
換するローマ字かな変換ステップを備え、前記辞書引き
ステップは、前記ローマ字かな変換ステップにおいて変
換された前記かな文字列にマッチする前記文字を前記辞
書から抽出することを特徴とする。
【0014】この方法によれば、極度に長い時間および
大きなディスク容量を必要とせずに、かな漢字変換の精
度を上げることができる。
【0015】
【発明の実施の形態】以下に、図面を参照し、本発明の
実施の形態について詳細に説明する。
【0016】図1は、本実施形態に係るかな漢字変換装
置の機能ブロック図である。図1の例に示すように、本
実施形態のかな漢字変換装置は、入力装置101と、表
示装置103と、データ処理装置105と、記憶装置1
17とを備えいる。入力装置101は、かな漢字変換を
するためのかな文字列を入力したり、変換、確定等の各
種指示を行うためのキーボード等によって構成される。
【0017】表示装置103は、具体的にはCRTやL
CD等によって構成され、入力装置101によって入力
される文字列等が表示される。
【0018】データ処理装置105は、中央演算処理装
置(CPU)においてコンピュータ・プログラムを構成
する命令の読みだし、および実行を行う基本処理装置
(BPU)や制御装置によって構成されており、ローマ
字かな変換手段107と、辞書引き手段109と、形態
素解析手段111と、格フレーム解析手段113と、ト
ライグラム解析手段115とによって構成されている。
【0019】ローマ字かな変換手段107は、外部から
入力されたローマ字をかな文字、すなわちひらがなまた
はカタカナに変換する処理を行なう。辞書引き手段10
9は、かな漢字変換を行うことを目的としてかな漢字変
換装置に記憶されている辞書から、ローマ字かな変換手
段107により変換されたかな文字の読みに対応する漢
字を見つけ出す。
【0020】なお、入力装置101から、かな文字が直
接入力された場合には、ローマ字かな変換手段107に
よる処理を経ることなく辞書引き手段109による処理
が行われることとなる。入力装置101からローマ字が
入力されるか、あるいはかな文字が入力されるかは、か
な漢字変換装置における、文字の入力モードによって決
定される。
【0021】形態素解析手段111は、入力された文字
列をかな漢字混じりの文字列、すなわちかな漢字文字列
に変換した場合に含まれる単語について、品詞の接続情
報および語の優先順位を用いて各単語間のつながり安さ
を判定する。格フレーム解析手段113は、動詞とその
主語、目的語との関係に基づいて、かな漢字混じりの文
字列の候補についてより意味的に正しいと思われる順に
文字列の候補の優先順位を変更する。
【0022】トライグラム解析手段115は、テキスト
コーパスから抽出した3つの単語の組み(トライグラ
ム)を用いて、格フレーム解析手段113により順位付
けされた文字列の候補を改めて並べ替える。
【0023】記憶装置117は、データを格納するため
の主記憶装置等によって構成されており、本発明に関係
し、CPUによってアクセスされるデータが記憶されて
いる。本実施形態において、記憶装置117には、かな
漢字変換において参照されるデータとして、ローマ字か
な変換表119、辞書121、品詞の接続表123、格
フレーム辞書125、およびトライグラムデータ127
が記憶されている。
【0024】また、記憶装置117の図示しない領域に
は、入力された文字列や検索された漢字の候補、データ
処理装置105を含むCPUによって実行されるコンピ
ュータ・プログラムの実行命令が格納されている。そし
て、CPUはこの内容を直接アクセスして命令やデータ
をレジスタに入れ、プログラムの実行やデータに対する
操作、あるいはデータに基づく操作を行うことができ
る。
【0025】図2〜図6は、「ほんをに、さんさつよん
だ」という文字列について、本実施形態に係るかな漢字
変換装置によるかな漢字変換の流れを説明するための図
である。以下、本実施形態に係るかな漢字変換装置の動
作について説明する。
【0026】まず、図2において、入力装置107から
「honwoni,sannsatuyonda」とい
うローマ字が入力されると、ローマ字かな変換手段10
7は、ローマ字の読みに対応するひらがなを選択する。
ローマ字かな変換手段119は、ローマ字かな変換表1
19を参照し、 ho → ほ n → ん wo → を などの対応関係から、「ほんをに、さんさつよんだ」と
いうひらがな列を作成する。
【0027】次に、辞書引き手段109が、このように
して変換されたひらがな列の読みにマッチする文字列を
辞書121から抽出する。具体的には、「ほ」という読
みに対応する語として「穂」、「歩」、「帆」、「ほ」
を、「ほん」という読みに対応する語として「本」、
「翻」という文字が抽出されており、この処理はひらが
な列の終端まで続けられる。
【0028】続いて、図4に示すように、形態素解析手
段111が、辞書引き手段109によって見つけ出され
た語の集合について、品詞の接続表123に基づき、漢
字を含む文字列の候補を作成し、各候補に優先順位を付
ける。本実施形態において、文字列の候補は、辞書12
1に含まれている語の各々に付与されている優先度、お
よび品詞の接続表123において、品詞の接続の種類毎
に付与されている優先度を合計し、その合計点数の低い
文字列が優先されるように順位付けがなされている。
【0029】たとえば、「本を似、三冊呼んだ」という
文字列の場合は、辞書121に基づいて、 (本)+(を)+(似)+(、)+(三)+(冊)+
(呼)+(んだ) という点数計算が行われ、単語の優先度として 10+5+10+5+10+2+20+5=85点 という点数が算出される。また、この文字列は、 名詞−助詞−一段活用動詞−読点−数詞−助数詞−バ行
五段活用−語尾 という品詞の接続からなるため、品詞の接続表121に
基づいて、 (名詞−助詞)+(助詞−一段活用助詞)+(一段活用
助詞−読点)+(読点−数詞)+(数詞−助数詞)+
(助数詞−バ行五段活用)+(バ行五段活用−語尾) という点数計算が行われ、品詞の接続による優先度とし
て、 30+20+30+40+10+40+30=200点 という点数が得られる。そして、単語の優先度と品詞の
接続による優先度を合計し、優先度は285点と計算さ
れる。
【0030】同様の計算を行うことにより、「本を似、
三冊読んだ」というかな漢字文字列について290点、
「本を二、三冊呼んだ」について295点、「本を二、
三冊読んだ」というかな漢字文字列について300点と
いう点数が算出される。したがって、これら4つの候補
の優先順位は、 1.本を似、三冊呼んだ 2.本を似、三冊読んだ 3.本を二、三冊呼んだ 4.本を二、三冊読んだ となる。そして、優先度を示す点数がある基準値以上の
場合は、つながりにくい候補、すなわち可能性の低い候
補として除外される。たとえば「翻を似、三冊呼んだ」
など、他にも種々の語の組み合わせが可能であるが、こ
のようなかな漢字文字列については、計算の結果優先度
の点数が高くなるため、候補から除外される。
【0031】続いて、図5に示すように、上述したよう
に優先順位がつけられ絞込みが行われた候補について、
格フレーム解析手段113が並べ替えを行う。格フレー
ム解析手段113は、格フレーム辞書125を参照し、
以下のような判断処理を行う。
【0032】たとえば、格フレーム辞書125によれ
ば、「読」という語の前に「が」という助詞が位置する
場合、主格が人であればその文字列は意味的に正しいと
判断される。また、「を」という助詞が「読」の前に位
置する場合、対象格が「本」であれば意味的に正しいと
判断される。同様に、「呼」という語の前に「が」とい
う助詞が位置する場合は主格が「人」である場合、また
「を」が位置する場合は対象格が人である場合に意味的
に正しいと判断される。従って、格フレーム解析手段1
13では、「本を似、三冊読んだ」および「本を二、三
冊読んだ」といった候補の方が「本を似、三冊呼んだ」
および「本を二、三冊呼んだ」よりもふさわしい、すな
わち意味的に正しいものと判断され、優先順位は高くな
る。
【0033】このような順位付けによる結果、優先順位
は 1.本を似、三冊読んだ 2.本を二、三冊読んだ 3.本を似、三冊呼んだ 4.本を二、三冊呼んだ となる。
【0034】続いて、トライグラム解析手段115がト
ライグラムデータ127を参照し、図6に示すように、
格フレーム解析手段113によって順位付けされた候補
の並べ替えを行う。
【0035】トライグラムデータ127には、3個の単
語の連鎖がテキストに出現する確率が記述されており、
この確率は、実際のテキストコーパスから作成される。
すなわち、トライグラムデータ127は、実際のテキス
トコーパスに含まれている大量のテキストのデータにつ
いて、当該テキストを単語毎に区切り、3個の連語が出
現する確率を求めることにより作成される。
【0036】トライグラムデータ127を参照した場
合、「二」「、」「三」という語の並びが出現する確率
が高い(言い換えれば、現実のテキストの中には、
「二」「、」「三」という語の並びが多い)ので、
「二」「、」「三」という単語の連鎖を多く含む候補が
優先されるように文字列の候補が並べ替えられることと
なる。なお、図6に示す例では、たとえば「似」「、」
「三」という単語の並び等の、極めて確率の低い単語の
連鎖については省略されている。
【0037】したがって、トライグラム解析手段115
による優先順位の並べ替えの結果は、 1.本を二、三冊読んだ 2.本を二、三冊呼んだ 3.本を似、三冊読んだ 4.本を似、三冊呼んだ となる。
【0038】以下、本実施形態に係るかな漢字変換装置
を使用した実験の結果を記す。
【0039】一回のかな漢字変換処理で文字列に含まれ
る文字が正しい文字に変換される確率(以下、char
rateという)が94.09%、一回のかな漢字変
換処理で文字列全体が正しい文字列に変換される確率
(以下、sentence rateという)が46.
05%である従来のかな漢字変換処理装置について、百
数十MBの実際のテキストコーパスに基づいて作成した
約80MBのトライグラムデータを使用したトライグラ
ムによる解析処理を適用した結果、char rate
は95.03%、sentence rateは52.
68%であった。すなわち、文字単位においても、文単
位においても、一回の変換処理で正しい文字列に変換さ
れる確率が上昇することが確認された。
【0040】以上、本発明の好適な実施形態について説
明したが、本発明はこれに限られず、他の種々の形態で
実施することが可能である。
【0041】たとえば、上述の実施形態では、実際のテ
キストコーパスに含まれるテキスト中に、3個の単語の
連鎖が出現する確率を記述するトライグラムデータを作
成することとしたが、単語の連鎖の数は3個に限定され
ず、任意のN(N≧2)個の単語の連鎖であってもよ
い。この場合、かな漢字変換装置の記憶装置には、N個
の単語の連鎖がテキストコーパスに出現する確率を記述
するNグラムデータが記憶される。すなわち、Nグラム
データは、実際のテキストコーパスに含まれている大量
のテキストのデータについて、当該テキストを単語毎に
区切り、N個の連語が出現する確率を求めることにより
作成される。
【0042】そして、上述の実施形態におけるトライグ
ラム解析手段に代えて、Nグラム解析手段がNグラムデ
ータを参照し、格フレーム解析手段により並べ替えられ
た文字列の候補の優先順位をさらに並べ替えることとな
る。
【0043】
【発明の効果】以上説明したように、本発明によれば、
かな漢字変換の候補となる文字および該文字の優先度を
記述する辞書、2つの品詞の接続の優先度を記述する品
詞の接続表、文字列の中に含まれる語句の他の語句に対
する意味的関係を記述する格フレーム辞書、および実際
のテキストを含むテキストコーパスの中に単語のN(N
≧2)個の連鎖が出現する確率を記述するNグラムデー
タを記憶する記憶装置と、該記憶装置に記憶された前記
辞書、前記品詞の接続表、前記格フレーム辞書、および
前記Nグラムデータに基づいて、入力装置から入力され
たかな文字列をかな漢字文字列に変換するデータ処理装
置とを備えたかな漢字変換装置であって、前記データ処
理装置は、入力された前記かな文字列にマッチする前記
文字を前記辞書から抽出する辞書引き手段と、前記文字
の優先度と、前記品詞の接続の優先度とに基づき、前記
辞書引き手段により抽出された前記文字を組み合わせて
1つ以上のかな漢字文字列の候補を含む第1の候補を作
成する形態素解析手段と、前記格フレーム辞書に基づ
き、前記第1の候補に含まれる前記かな漢字文字列の候
補の優先順位を並べ替えて、第2の候補を作成する格フ
レーム解析手段と、前記単語のN個の連鎖が出現する確
率に基づいて、前記第2の候補に含まれる前記かな漢字
文字列の候補の優先順位を並べ替えるNグラム解析手段
とを備えたので、従来のかな漢字変換が出力する候補に
のみトライグラムを適用することにより、計算量を抑え
ながら変換精度の向上を図ることができる。
【0044】また、前記記憶装置は、ローマ字に対応す
るかな文字を記述するローマ字かな変換表を記憶し、前
記データ処理装置は、前記入力装置から入力されたロー
マ字をローマ字かな変換表に基づいて前記かな文字列に
変換するローマ字かな変換手段を備え、前記辞書引き手
段は、前記ローマ字かな変換手段によって変換された前
記かな文字列にマッチする前記文字を前記辞書から抽出
するので、ローマ字入力モードあるいはかな入力モード
のいずれにおいても、極度に長い時間および大きなディ
スク容量を必要とせずに、かな漢字変換の精度を上げる
ことができる。
【図面の簡単な説明】
【図1】本実施形態に係るかな漢字変換装置の機能ブロ
ック図である。
【図2】本実施形態に係るかな漢字変換装置によるかな
漢字変換の流れを説明するための図である。
【図3】本実施形態に係るかな漢字変換装置によるかな
漢字変換の流れを説明するための図である。
【図4】本実施形態に係るかな漢字変換装置によるかな
漢字変換の流れを説明するための図である。
【図5】本実施形態に係るかな漢字変換装置によるかな
漢字変換の流れを説明するための図である。
【図6】本実施形態に係るかな漢字変換装置によるかな
漢字変換の流れを説明するための図である。
【符号の説明】
101 入力装置 103 表示装置 105 データ処理装置 107 ローマ字かな変換手段 109 辞書引き手段 111 形態素解析手段 113 格フレーム解析手段 115 トライグラム解析手段 117 記憶装置 119 ローマ字かな変換表 121 辞書 123 品詞の接続表 125 格フレーム辞書 127 トライグラムデータ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 かな漢字変換の候補となる文字および該
    文字の優先度を記述する辞書、2つの品詞の接続の優先
    度を記述する品詞の接続表、文字列の中に含まれる語句
    の他の語句に対する意味的関係を記述する格フレーム辞
    書、および実際のテキストを含むテキストコーパスの中
    に単語のN(N≧2)個の連鎖が出現する確率を記述す
    るNグラムデータを記憶する記憶装置と、 該記憶装置に記憶された前記辞書、前記品詞の接続表、
    前記格フレーム辞書、および前記Nグラムデータに基づ
    いて、入力装置から入力されたかな文字列をかな漢字文
    字列に変換するデータ処理装置とを備えたかな漢字変換
    装置であって、前記データ処理装置は、 入力された前記かな文字列にマッチする前記文字を前記
    辞書から抽出する辞書引き手段と、 前記文字の優先度と、前記品詞の接続の優先度とに基づ
    き、前記辞書引き手段により抽出された前記文字を組み
    合わせて1つ以上のかな漢字文字列の候補を含む第1の
    候補を作成する形態素解析手段と、 前記格フレーム辞書に基づき、前記第1の候補に含まれ
    る前記かな漢字文字列の候補の優先順位を並べ替えて、
    第2の候補を作成する格フレーム解析手段と、 前記単語のN個の連鎖が出現する確率に基づいて、前記
    第2の候補に含まれる前記かな漢字文字列の候補の優先
    順位を並べ替えるNグラム解析手段とを備えたことを特
    徴とするかな漢字変換装置。
  2. 【請求項2】 前記記憶装置は、ローマ字に対応するか
    な文字を記述するローマ字かな変換表を記憶し、前記デ
    ータ処理装置は、前記入力装置から入力されたローマ字
    をローマ字かな変換表に基づいて前記かな文字列に変換
    するローマ字かな変換手段を備え、前記辞書引き手段
    は、前記ローマ字かな変換手段によって変換された前記
    かな文字列にマッチする前記文字を前記辞書から抽出す
    ることを特徴とする請求項1に記載のかな漢字変換装
    置。
  3. 【請求項3】 記憶装置に記憶された、かな漢字変換の
    候補となる文字および該文字の優先度を記述する辞書、
    2つの品詞の接続の優先度を記述する品詞の接続表、文
    字列の中に含まれる語句の他の語句に対する意味的関係
    を記述する格フレーム辞書、および実際のテキストを含
    むテキストコーパスの中に単語のN(N≧2)個の連鎖
    が出現する確率を記述するNグラムデータに基づいて、
    入力装置から入力されたかな文字列をかな漢字文字列に
    変換するかな漢字変換方法であって、 入力された前記かな文字列にマッチする前記文字を前記
    辞書から抽出する辞書引きステップと、 前記文字の優先度と、前記品詞の接続の優先度とに基づ
    き、前記辞書引きステップにおいて抽出された前記文字
    を組み合わせて1つ以上のかな漢字文字列の候補を含む
    第1の候補を作成する形態素解析ステップと、 前記格フレーム辞書に基づき、前記第1の候補に含まれ
    る前記かな漢字文字列の候補の優先順位を並べ替えて、
    第2の候補を作成する格フレーム解析ステップと、 前記単語のN個の連鎖が出現する確率に基づいて、前記
    第2の候補に含まれる前記かな漢字文字列の候補の優先
    順位を並べ替えるNグラム解析ステップとを備えること
    を特徴とするかな漢字変換方法。
  4. 【請求項4】 前記記憶装置は、ローマ字に対応するか
    な文字を記述するローマ字かな変換表を記憶し、前記入
    力装置から入力されたローマ字をローマ字かな変換表に
    基づいて前記かな文字列に変換するローマ字かな変換ス
    テップを備え、前記辞書引きステップは、前記ローマ字
    かな変換ステップにおいて変換された前記かな文字列に
    マッチする前記文字を前記辞書から抽出することを特徴
    とする請求項3に記載のかな漢字変換方法。
JP2000304102A 2000-10-03 2000-10-03 かな漢字変換装置およびかな漢字変換方法 Expired - Fee Related JP3622841B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000304102A JP3622841B2 (ja) 2000-10-03 2000-10-03 かな漢字変換装置およびかな漢字変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000304102A JP3622841B2 (ja) 2000-10-03 2000-10-03 かな漢字変換装置およびかな漢字変換方法

Publications (2)

Publication Number Publication Date
JP2002117025A true JP2002117025A (ja) 2002-04-19
JP3622841B2 JP3622841B2 (ja) 2005-02-23

Family

ID=18785198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000304102A Expired - Fee Related JP3622841B2 (ja) 2000-10-03 2000-10-03 かな漢字変換装置およびかな漢字変換方法

Country Status (1)

Country Link
JP (1) JP3622841B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231149A (ja) * 2009-03-30 2010-10-14 Kddi Corp 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP2011210149A (ja) * 2010-03-30 2011-10-20 Baidu Japan Inc 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231149A (ja) * 2009-03-30 2010-10-14 Kddi Corp 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP2011210149A (ja) * 2010-03-30 2011-10-20 Baidu Japan Inc 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム

Also Published As

Publication number Publication date
JP3622841B2 (ja) 2005-02-23

Similar Documents

Publication Publication Date Title
US7395203B2 (en) System and method for disambiguating phonetic input
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
US6073146A (en) System and method for processing chinese language text
US6014615A (en) System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US20050060448A1 (en) Efficient Method and Apparatus For Text Entry Based On Trigger Sequences
KR20120006489A (ko) 입력 방법 편집기
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Sharma et al. Word prediction system for text entry in Hindi
JP3622841B2 (ja) かな漢字変換装置およびかな漢字変換方法
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
KR100463376B1 (ko) 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
Guta INSTITUTE OF TECHNOLOGY SCHOOL OF COMPUTING
JP2008140074A (ja) 例文検索装置および例文検索処理プログラム
Tanaka-Ishii et al. Text entry in East Asian languages
JPS63115264A (ja) 文書処理装置
JP2022151023A (ja) 読み方推定装置、読み方推定方法、読み方推定プログラム、および記録媒体
JPS59103136A (ja) カナ漢字変換処理装置
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPS5998236A (ja) 日本文入力装置
JPH10307823A (ja) 翻訳方法、翻訳装置及び翻訳プログラムを格納した 記録媒体
JPH0773174A (ja) 日本語処理システム
JPH08241315A (ja) 文書処理装置の単語登録機構
Oo et al. Myanmar Syllable Suggestion Input Method on Android Smart phone
JPH01114973A (ja) 文書作成・校正支援装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041019

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3622841

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071203

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081203

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101203

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101203

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111203

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111203

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121203

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121203

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees