JP4001872B2 - ローマ字カナ変換装置、その方法及びそのプログラム - Google Patents

ローマ字カナ変換装置、その方法及びそのプログラム Download PDF

Info

Publication number
JP4001872B2
JP4001872B2 JP2004046612A JP2004046612A JP4001872B2 JP 4001872 B2 JP4001872 B2 JP 4001872B2 JP 2004046612 A JP2004046612 A JP 2004046612A JP 2004046612 A JP2004046612 A JP 2004046612A JP 4001872 B2 JP4001872 B2 JP 4001872B2
Authority
JP
Japan
Prior art keywords
kana
information
character
roman
mora
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004046612A
Other languages
English (en)
Other versions
JP2005235100A (ja
Inventor
久子 浅野
秀治 中嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004046612A priority Critical patent/JP4001872B2/ja
Publication of JP2005235100A publication Critical patent/JP2005235100A/ja
Application granted granted Critical
Publication of JP4001872B2 publication Critical patent/JP4001872B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、ローマ字で表記されたローマ字表記文字列を、カナ文字で表記されたカナ表記文字列に変換するローマ字カナ変換技術に関するものである。
ローマ字カナ変換は、モーラ(拍)単位のカナ文字とこれに対応するローマ字との関係を全てのモーラ単位のカナ文字について記述したローマ字カナ対応表(例:ta→タ)と、促音(ッ)、撥音(ン)に対する例外処理とを用いることにより容易に実現でき、フリーソフトウェアとしても一般に流通している(例えば非特許文献1,2参照)。
例外処理の実現法の一例としては、促音に対しては同じ子音が連続する場合に促音に変換し、撥音に対しては‘n’の後が子音の場合は‘ン’に変換するのが一般的である。
"ローマ字変換ソフト"、Vector Inc.、[平成16年2月10日検索]、インターネット<http://www.vector.co.jp/soft/win95/util/se215618.html> "ローマ字<−>ひらがな変換 RtoK by福太郎"、Vector Inc.、[平成16年2月10日検索]、インターネット<http://www.vector.co.jp/soft/win95/util/se287403.html>
しかしながら、ローマ字カナ対応表のみを利用する方法では、読み仮名を付与しようとした場合、ローマ字表記上省略されている長母音には対応できず、例えば「TOKYO」は「トキョ」(正しくは「トキョ」と「ウ」を追加すべき)という誤った変換となる。
また、テキスト音声合成による読み上げに用いようとした場合、いわゆる辞書における読み表記とは異なり、追加すべきカナ文字を長音に置き換える必要がある場合がある。例えば上記の「TOKYO」は、読み上げのためには「トキョ」(「ウ」ではなく「ー」)と長音を追加する必要があるが、これにも対応できない。
さらに、ローマ字表記において長母音が省略されていない場合でも、ローマ字カナ対応表に対応するカナ文字ではなく、長音に置き換える必要がある(例:「Touhoku」→「トホク」(「ウ」ではなく「ー」)。これはローマ字表記の長母音に相当する並び(例えば「o」の後の「u」)を長音化するという単純な規則で実現できるが、漢字表記上の文字境界に相当するところでは長音化しない(例:「shimouchi」(下内)→「シモチ」(「ー」ではなく「ウ」))という例外に対応できない。
本発明は、上記の点に鑑みなされたもので、ローマ字表記文字列のカナ表記文字列への変換において、読み仮名付与用にはローマ字表記上省略されているカナ文字を追加でき、読み上げ用にはローマ字表記上省略されている長音を追加でき、また、ローマ字表記上省略されていないが、ローマ字カナ対応表から得られるカナ文字を必要に応じて長音に置換できるローマ字カナ変換装置、その方法及びそのプログラムを提供することを目的とする。
本発明では、前記目的を達成するため、ローマ字で表記されたローマ字表記文字列を、カナ文字で表記されたカナ表記文字列に変換するローマ字カナ変換装置において、モーラ単位のカナ文字とこれに対応するローマ字との関係を全てのモーラ単位のカナ文字について記述したローマ字カナ対応表を用いて、ローマ字表記文字列を、モーラ単位のローマ字とこれに対応するカナ文字を含む情報の集合からなるローマ字カナ対応文字列に変換する対応表変換手段と、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報についてカナ五十音表における各行及び各段の位置をローマ字で表した行情報及び段情報を付与する行・段情報付与手段と、モーラ単位の一の情報の行情報及び段情報と、モーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報と、当該モーラ単位の一の情報をそのままとする「通常」または長音を追加する「長音追加」または長音に置換する「長音置換」のいずれであるかの出力値とからなる学習データを用いて予め学習した識別関数である長母音判定モデルと、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報についてその行情報及び段情報とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを前記長母音判定モデルに入力して、「通常」または「長音追加」または「長音置換」のいずれであるかの判定結果を得るモデル判定手段と、前記ローマ字カナ対応文字列を構成するモーラ単位の情報のうち、「通常」と判定されたモーラ単位の情報のカナ文字についてはそのままとし、「長音追加」と判定されたモーラ単位の情報のカナ文字についてはその末尾に長音「ー」を追加し、「長音置換」と判定されたモーラ単位の情報のカナ文字についてはその末尾を長音「ー」に置換し、最終的なカナ表記文字列を出力するカナ文字置換・追加手段とを備えたことを特徴とする。
また、本発明では、ローマ字カナ変換装置を用いて、ローマ字で表記されたローマ字表記文字列を、カナ文字で表記されたカナ表記文字列に変換するローマ字カナ変換方法において、前記ローマ字カナ変換装置の対応表変換手段が、モーラ単位のカナ文字とこれに対応するローマ字との関係を全てのモーラ単位のカナ文字について記述したローマ字カナ対応表を用いて、ローマ字表記文字列を、モーラ単位のローマ字とこれに対応するカナ文字を含む情報の集合からなるローマ字カナ対応文字列に変換する対応表変換ステップと、前記ローマ字カナ変換装置の行・段情報付与手段が、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報についてカナ五十音表における各行及び各段の位置をローマ字で表した行情報及び段情報を付与する行・段情報付与ステップと、前記ローマ字カナ変換装置のモデル判定手段が、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報について、その行情報及び段情報とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを、モーラ単位の一の情報の行情報及び段情報と、モーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報と、当該モーラ単位の一の情報をそのままとする「通常」または長音を追加する「長音追加」または長音に置換する「長音置換」のいずれであるかの出力値とからなる学習データを用いて予め学習した識別関数である長母音判定モデルに入力して、「通常」または「長音追加」または「長音置換」のいずれであるかの判定結果を得るモデル判定ステップと、前記ローマ字カナ変換装置のカナ文字置換・追加手段が、前記ローマ字カナ対応文字列を構成するモーラ単位の情報のうち、「通常」と判定されたモーラ単位の情報のカナ文字についてはそのままとし、「長音追加」と判定されたモーラ単位の情報のカナ文字についてはその末尾に長音「ー」を追加し、「長音置換」と判定されたモーラ単位の情報のカナ文字についてはその末尾を長音「ー」に置換し、最終的なカナ表記文字列を出力するカナ文字置換・追加ステップとを実行することを特徴とする。
また、本発明では、コンピュータを、ローマ字で表記されたローマ字表記文字列を、カナ文字で表記されたカナ表記文字列に変換するローマ字カナ変換装置として機能させるローマ字カナ変換プログラムであって、コンピュータに、モーラ単位のカナ文字とこれに対応するローマ字との関係を全てのモーラ単位のカナ文字について記述したローマ字カナ対応表を用いて、ローマ字表記文字列を、モーラ単位のローマ字とこれに対応するカナ文字を含む情報の集合からなるローマ字カナ対応文字列に変換する対応表変換機能、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報についてカナ五十音表における各行及び各段の位置をローマ字で表した行情報及び段情報を付与する行・段情報付与機能、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報について、その行情報及び段情報とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを、モーラ単位の一の情報の行情報及び段情報と、モーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報と、当該モーラ単位の一の情報をそのままとする「通常」または長音を追加する「長音追加」または長音に置換する「長音置換」のいずれであるかの出力値とからなる学習データを用いて予め学習した識別関数である長母音判定モデルに入力して、「通常」または「長音追加」または「長音置換」のいずれであるかの判定結果を得るモデル判定機能、前記ローマ字カナ対応文字列を構成するモーラ単位の情報のうち、「通常」と判定されたモーラ単位の情報のカナ文字についてはそのままとし、「長音追加」と判定されたモーラ単位の情報のカナ文字についてはその末尾に長音「ー」を追加し、「長音置換」と判定されたモーラ単位の情報のカナ文字についてはその末尾を長音「ー」に置換し、最終的なカナ表記文字列を出力するカナ文字置換・追加機能とを実現させることを特徴とする。
なお、前記以外のローマ字カナ変換装置、その方法及びプログラム、並びにそれらの詳細については発明の実施の形態において説明する。
このように、本発明によれば、ローマ字表記文字列に対して、読み仮名付与用としては、ローマ字表記上省略されている長母音位置を推定して不足している母音を追加し、読み上げ用としては、ローマ字表記上省略されている長母音位置を推定して不足している長音を追加し、また、ローマ字表記上省略されていないが、長音化すべき母音を長音に置換することにより、カナ表記文字列への適切な変換が可能となる。
以下、本発明を図示の実施の形態により詳細に説明する。
[第1の実施の形態]
図1は本発明のローマ字カナ変換装置の第1の実施の形態、ここでは読み仮名付与用に対応した装置の実施の形態を示すもので、図中、1はローマ字カナ変換表、2は対応表変換部、3は正規化表、4は長母音判定モデル、5は長母音判定部である。
ローマ字カナ変換表1は、モーラ単位のカナ文字(基本的にはカナ1文字が1モーラに相当。但し、拗音は2文字で1モーラとなる(例:「キャ」、「ウィ」=1モーラ))とこれに対応するローマ字との関係を全てのモーラ単位のカナ文字について記述した周知のもので、ここでは同一のカナ文字に対応するローマ字を2種類以上含む場合(例:‘シ’=‘si’、‘shi’)があるものを用いた。図2にローマ字カナ変換表1の一例を示す。
対応表変換部2は、ローマ字で表記された任意のローマ字表記文字列を、ローマ字カナ変換表1を用いて、モーラ単位のローマ字とこれに対応するカナ文字を含む情報の集合からなるローマ字カナ対応文字列に変換し、長母音判定部5へ渡す。なお、ローマ字表記文字列はキーボード等から直接入力されたものでも、また、予めローマ字表記文字列を格納したハードディスクやメモリ等から読み出されたものでも良い。また、ローマ字カナ対応文字列では、ローマ字表記は全て小文字表記とする。
正規化表3は、前述した同一のカナ文字に対応する2種類以上のローマ字を1種類に統一する(正規化する)ためのもので、2種類以上のローマ字のうちの1つを置換後のローマ字とし、残りのローマ字を置換前のローマ字として、同一のカナ文字に対応する2種類以上のローマ字を含む全てのローマ字について記述している(正規表現も記述可能とする)。
図3は正規化表3の一例(ここではPerlの正規表現に従う例)を示すもので、例えば‘ジ’を表す‘ji’は‘zi’に置換してザ行として扱い、また、‘ジャ’、‘ジュ’、‘ジョ’を表す‘ja’、‘ju’、‘jo’は‘zya’、‘zyu’、‘zyo’に置換(但し、図3ではj([auo])→zy([auo])という一括した記述様式で表している。)してジャ行として扱うものとしている。
長母音判定モデル4は、モーラ単位の一の情報の行情報及び段情報(後述する)とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを入力することにより、当該一の情報がそのままとすべき通常の情報(「通常」)または長母音を追加すべき情報(「長母音追加」)のいずれであるかの判定結果を出力する識別関数である。
識別関数としては、例えば、V.Vapnik,”The nature of statistical learning theory”,Springer,1995に述べられているSupport Vector Machine(SVM)の識別関数を用い、識別関数のパラメータは、予め、行情報・段情報・出力値(「通常」か「長母音追加」)からなる学習データをSVMで学習して決定しておく。ここでは学習アルゴリズムとしてSVMを挙げたが、決定木、最大エントロピー法等の他の学習アルゴリズムを利用しても良い。
長母音判定部5は、正規化表3及び長母音判定モデル4を用いて、対応表変換部2から渡されたローマ字カナ対応文字列を構成するモーラ単位の各情報についてそのままとするかまたは長母音を追加するかを判定し、該判定結果に応じてカナ文字置換・追加を行い、カナ文字で表記されたカナ表記文字列を出力するもので、以下、詳細に説明する。
図4は長母音判定部5の詳細を示すもので、図中、51は行・段情報付与部、52はモデル判定部、53はカナ文字置換・追加部である。
行・段情報付与部51は、ローマ字カナ対応文字列を入力とし、該ローマ字カナ対応文字列を構成するモーラ単位の各情報についてカナ五十音表における各行及び各段の位置をローマ字で表した行情報及び段情報を付与し、これをローマ字カナ対応文字列とともにモデル判定部52に出力するもので、ここでは前述した正規化表3を用いて正規化された行情報及び段情報を付与するようにしている。
図5は行・段情報付与部51の処理の流れを示すもので、その動作を具体的に説明する。
ステップS1では、モーラ単位の情報のローマ字が‘a’,‘i’,‘u’,‘e’,‘o’のいずれかに一致するかを判定する。条件を満たす場合にはS6、満たさない場合にはS2へ移る。
ステップS2では、モーラ単位の情報のカナ文字が促音‘ッ’であるかを判定する。条件を満たす場合にはS7、満たさない場合にはS3へ移る。
ステップS3では、モーラ単位の情報のカナ文字が撥音‘ン’であるかを判定する。条件を満たす場合にはS8、満たさない場合にはS4へ移る。
ステップS4では、モーラ単位の情報のローマ字に対して正規化表4を適用して正規化し、ステップS5に移る。
ステップS5では、行(情報)=モーラ単位の情報のローマ字の末尾文字以外、段(情報)=モーラ単位の情報のローマ字の末尾文字と設定して処理を終了する。
ステップS6では、行(情報)=’a’(ア行)、段(情報)=モーラ単位の情報のローマ字と設定して処理を終了する。
ステップS7では、行(情報)=‘T’、段(情報)=‘T’と設定して処理を終了する。
ステップS8では、行(情報)=‘N’、段(情報)=‘N’と設定して処理を終了する。
モデル判定部52は、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報について、モーラ単位の一の情報の行情報及び段情報とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを前記長母音判定モデル4に入力し、その判定結果、即ち「通常」または「長母音追加」のいずれであるかの判定結果を得て、これをローマ字カナ対応文字列とともにカナ文字置換・追加部53へ出力する。
カナ文字置換・追加部53は、ローマ字カナ対応文字列を構成するモーラ単位の情報のうち、モデル判定部52において「通常」と判定されたモーラ単位の情報のカナ文字についてはそのままとし、「長母音追加」と判定されたモーラ単位の情報のカナ文字についてはそのローマ字の末尾文字が‘a’であれば‘ア’、‘i’であれば‘イ’、‘u’であれば‘ウ’、‘e’であれば‘エ’、‘o’であれば‘ウ’を末尾に追加し、最終的なカナ表記文字列を出力する。
[第2の実施の形態]
第1の実施の形態では読み仮名付与用に対応した装置について説明したが、第2の実施の形態では読み上げ用に対応した装置の実施の形態について説明する。基本的な構成・動作は第1の実施の形態の場合と同様であり、長母音判定モデル4と、モデル判定部52及びカナ文字置換・追加部53における処理とが異なる。
即ち、第2の実施の形態における長母音判定モデル4は、モーラ単位の一の情報の行情報及び段情報とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを入力することにより、当該一の情報がそのままとすべき通常の情報(「通常」)または長音を追加すべき情報(「長音追加」)または長音に置換すべき情報(「長音置換」)のいずれであるかの判定結果を出力する識別関数である。
識別関数としては、前述のSVMの識別関数を用い、識別関数のパラメータは、予め、行情報・段情報・出力値(「通常」か「長音追加」か「長音置換」)からなる学習データをSVMで学習して決定しておく。SVMは2値の識別アルゴリズムであるが、Pairwise法やone−vs−rest法により多値分類に拡張できるので、ここではそれらの拡張アルゴリズムを用いる。また、ここでは学習アルゴリズムとしてSVMを挙げたが、決定木、最大エントロピー法等の他の学習アルゴリズムを利用しても良い。
モデル判定部52は、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報について、モーラ単位の一の情報の行情報及び段情報とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを前記長母音判定モデル4に入力し、その判定結果、即ち「通常」または「長音追加」または「長音置換」のいずれであるかの判定結果を得て、これをローマ字カナ対応文字列とともにカナ文字置換・追加部53へ出力する。
カナ文字置換・追加部53は、ローマ字カナ対応文字列を構成するモーラ単位の情報のうち、モデル判定部52において「通常」と判定されたモーラ単位の情報のカナ文字についてはそのままとし、「長音追加」と判定されたモーラ単位の情報のカナ文字についてはその末尾に長音「ー」を追加し、「長音置換」と判定されたモーラ単位の情報のカナ文字についてはその末尾を長音「ー」に置換し、最終的なカナ表記文字列を出力する。
なお、第1及び第2の実施の形態において、対応表変換部2に入力されるローマ字表記文字列が元々、同一のカナ文字に対応するローマ字として、正規化表3中の置換後の1種類のみを含むものである場合、前述した正規化表3は不要であり、行・段情報付与部51における正規化処理(S4)も不要であることはいうまでもない。
[処理例1]
図6は第1の実施の形態によるローマ字カナ変換処理の一例を示すもので、ここでは長母音判定モデル4の学習器としてはSVMを用い、長母音判定モデル4における判定に用いる情報としては、判定しようとするモーラ単位の一の情報の行情報及び段情報と、モーラ単位でその前後の2つの情報の行情報及び段情報と、モーラ単位でその前の2つの情報の判定結果とした。なお、前後情報をどこまで使うかは一例であり、さらに多くの情報を使っても良い。
図6に示すようなローマ字表記文字列61「Hokkaido」が対応表変換部2に入力されると、ローマ字カナ対応表1を用いて、「kk」の部分の子音連続の部分には促音が追加され、図6に示すようなローマ字カナ対応文字列62が長母音判定部5の行・段情報付与部51へ渡される。
行・段情報付与部51では、図5のフローに従い、次のようにして行情報及び段情報が付与される。即ち、No.1,3,5のモーラの情報はステップS1→ステップS2→ステップS3→ステップS4→ステップS5とたどり、また、No.2のモーラの情報はステップS1→ステップS2→ステップS7とたどり、さらにまた、No.4のモーラの情報はステップS1→ステップS6とたどり、行情報及び段情報が付与され、図6に示すような行情報及び段情報63が、ローマ字カナ対応文字列62とともにモデル判定部52へ渡される。なお、この例では正規化表3による置換が適用される情報は存在しない。
モデル判定部52では、モーラ単位の各情報に対してそれぞれ、長母音判定モデル4を用いた判定が行われる。
例えば、No.1のモーラの情報を判定する場合は、
−2モーラ:行情報=なし
−2モーラ:段情報=なし
−1モーラ:行情報=なし
−1モーラ:段情報=なし
0モーラ:行情報=h
Oモーラ:段情報=o
1モーラ:行情報=T
1モーラ:段情報=T
2モーラ:行情報=k
2モーラ:段情報=a
という情報が長母音判定モデル4に入力され、「通常」という判定結果が得られる。
同様にして、No.2〜5のモーラの情報も判定され、図6に示すようなモデル判定結果64が得られ、ローマ字カナ対応文字列62とともにカナ文字置換・追加部53へ渡される。
カナ文字置換・追加部53では、ローマ字カナ対応文字列62のカナ文字のうち、モデル判定結果64で「長母音追加」と判定されたNo.5のモーラに対応するカナ文字「ド」の末尾に‘o’に対応する‘ウ’を追加して「ドウ」とし、全てのモーラに対応するカナ文字をつなげて、最終的にカナ表記文字列65「ホッカイドウ」を出力する。
[処理例2]
図7は第2の実施の形態によるローマ字カナ変換処理の一例を示すもので、ここでは処理例1と同様、長母音判定モデル4の学習器としてはSVMを用い、長母音判定モデル4における判定に用いる情報としては、判定しようとするモーラ単位の一の情報の行情報及び段情報と、モーラ単位でその前後の2つの情報の行情報及び段情報と、モーラ単位でその前の2つの情報の判定結果とした。なお、前後情報をどこまで使うかは一例であり、さらに多くの情報を使っても良いことはいうまでない。
図7に示すようなローマ字表記文字列71「HEISEICHO」が対応表変換部2に入力されると、ローマ字カナ対応表1を用いて、図7に示すようなローマ字カナ対応文字列72が長母音判定部5の行・段情報付与部51へ渡される。
行・段情報付与部51では、図5のフローに従い、次のようにして行情報及び段情報が付与される。即ち、No.1,3,5のモーラの情報はステップS1→ステップS2→ステップS3→ステップS4→ステップS5とたどり、また、No.2,4のモーラの情報はステップS1→ステップS6とたどり、行情報及び段情報が付与される。このうち、No.5のモーラの情報はステップS4において、正規化表3のNo.8の表現とマッチするため、ローマ字「cho」が「tyo」に置換される。このようにして付与された図7に示すような行情報及び段情報73が、ローマ字カナ対応文字列72とともにモデル判定部52へ渡される。
モデル判定部52では、モーラ単位の各情報に対してそれぞれ、長母音判定モデル4を用いた判定が行われる。
例えば、No.3のモーラの判定を行う場合には、
−2モーラ:行情報=h
−2モーラ:段情報=e
−1モーラ:行情報=a
−1モーラ:段情報=i
0モーラ:行情報=s
0モーラ:段情報=e
1モーラ:行情報=a
1モーラ:段情報=i
2モーラ:行情報=ty
2モーラ:段情報=o
という情報が長母音判定モデル4に入力される。長母音判定モデル4ではNo.1,2のモーラに対する判定結果(No.1=通常、No.2=長音置換)も判定情報に加えて「通常」という判定結果が得られる。
同様にして、No.1,2,4,5のモーラの情報も判定され、図7に示すようなモデル判定結果74が得られ、ローマ字カナ対応文字列72とともにカナ文字置換・追加部53へ渡される。
カナ文字置換・追加部53では、ローマ字カナ対応文字列72のカナ文字のうち、モデル判定結果74で「長音置換」と判定されたNo.2,4のモーラに対応するカナ文字「イ」を「ー」に置換、「長音追加」と判定されたNo.5のモーラに対応するカナ文字「チョ」の末尾に長音を追加して「チョー」とし、全てのモーラに対応するカナ文字をつなげて、最終的にカナ表記文字列75「ヘーセーチョー」を出力する。
本発明のローマ字カナ変換装置の第1の実施の形態を示す機能ブロック図 ローマ字カナ変換表の一例を示す説明図 正規化表の一例を示す説明図 長母音判定部の詳細を示す機能ブロック図 行・段情報付与手段における処理の流れ図 第1の実施の形態によるローマ字カナ変換処理の一例を示す説明図 第2の実施の形態によるローマ字カナ変換処理の一例を示す説明図
符号の説明
1:ローマ字カナ変換表、2:対応表変換部、3:正規化表、4:長母音判定モデル、5:長母音判定部、51:行・段情報付与部、52:モデル判定部、53:カナ文字置換・追加部。

Claims (6)

  1. ローマ字で表記されたローマ字表記文字列を、カナ文字で表記されたカナ表記文字列に変換するローマ字カナ変換装置において、
    モーラ単位のカナ文字とこれに対応するローマ字との関係を全てのモーラ単位のカナ文字について記述したローマ字カナ対応表を用いて、ローマ字表記文字列を、モーラ単位のローマ字とこれに対応するカナ文字を含む情報の集合からなるローマ字カナ対応文字列に変換する対応表変換手段と、
    前記ローマ字カナ対応文字列を構成するモーラ単位の各情報についてカナ五十音表における各行及び各段の位置をローマ字で表した行情報及び段情報を付与する行・段情報付与手段と、
    モーラ単位の一の情報の行情報及び段情報と、モーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報と、当該モーラ単位の一の情報をそのままとする「通常」または長音を追加する「長音追加」または長音に置換する「長音置換」のいずれであるかの出力値とからなる学習データを用いて予め学習した識別関数である長母音判定モデルと、
    前記ローマ字カナ対応文字列を構成するモーラ単位の各情報についてその行情報及び段情報とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを前記長母音判定モデルに入力して、「通常」または「長音追加」または「長音置換」のいずれであるかの判定結果を得るモデル判定手段と、
    前記ローマ字カナ対応文字列を構成するモーラ単位の情報のうち、「通常」と判定されたモーラ単位の情報のカナ文字についてはそのままとし、「長音追加」と判定されたモーラ単位の情報のカナ文字についてはその末尾に長音「ー」を追加し、「長音置換」と判定されたモーラ単位の情報のカナ文字についてはその末尾を長音「ー」に置換し、最終的なカナ表記文字列を出力するカナ文字置換・追加手段とを備えた
    ことを特徴とするローマ字カナ変換装置。
  2. 請求項1記載のローマ字カナ変換装置において、
    行・段情報付与手段は、ローマ字カナ対応文字列が同一のカナ文字に対応するローマ字を2種類以上含む場合、これを1種類に統一する正規化表を用いて正規化された行情報及び段情報を付与する
    ことを特徴とするローマ字カナ変換装置。
  3. ローマ字カナ変換装置を用いて、ローマ字で表記されたローマ字表記文字列を、カナ文字で表記されたカナ表記文字列に変換するローマ字カナ変換方法において、
    前記ローマ字カナ変換装置の対応表変換手段が、モーラ単位のカナ文字とこれに対応するローマ字との関係を全てのモーラ単位のカナ文字について記述したローマ字カナ対応表を用いて、ローマ字表記文字列を、モーラ単位のローマ字とこれに対応するカナ文字を含む情報の集合からなるローマ字カナ対応文字列に変換する対応表変換ステップと、
    前記ローマ字カナ変換装置の行・段情報付与手段が、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報についてカナ五十音表における各行及び各段の位置をローマ字で表した行情報及び段情報を付与する行・段情報付与ステップと、
    前記ローマ字カナ変換装置のモデル判定手段が、前記ローマ字カナ対応文字列を構成するモーラ単位の各情報について、その行情報及び段情報とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを、モーラ単位の一の情報の行情報及び段情報と、モーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報と、当該モーラ単位の一の情報をそのままとする「通常」または長音を追加する「長音追加」または長音に置換する「長音置換」のいずれであるかの出力値とからなる学習データを用いて予め学習した識別関数である長母音判定モデルに入力して、「通常」または「長音追加」または「長音置換」のいずれであるかの判定結果を得るモデル判定ステップと、
    前記ローマ字カナ変換装置のカナ文字置換・追加手段が、前記ローマ字カナ対応文字列を構成するモーラ単位の情報のうち、「通常」と判定されたモーラ単位の情報のカナ文字についてはそのままとし、「長音追加」と判定されたモーラ単位の情報のカナ文字についてはその末尾に長音「ー」を追加し、「長音置換」と判定されたモーラ単位の情報のカナ文字についてはその末尾を長音「ー」に置換し、最終的なカナ表記文字列を出力するカナ文字置換・追加ステップとを実行する
    ことを特徴とするローマ字カナ変換方法。
  4. 請求項3記載のローマ字カナ変換方法において、
    行・段情報付与ステップは、ローマ字カナ対応文字列が同一のカナ文字に対応するローマ字を2種類以上含む場合、これを1種類に統一する正規化表を用いて正規化された行情報及び段情報を付与する
    ことを特徴とするローマ字カナ変換方法。
  5. コンピュータを、ローマ字で表記されたローマ字表記文字列を、カナ文字で表記されたカナ表記文字列に変換するローマ字カナ変換装置として機能させるローマ字カナ変換プログラムであって、
    コンピュータに、
    ーラ単位のカナ文字とこれに対応するローマ字との関係を全てのモーラ単位のカナ文字について記述したローマ字カナ対応表を用いて、ローマ字表記文字列を、モーラ単位のローマ字とこれに対応するカナ文字を含む情報の集合からなるローマ字カナ対応文字列に変換する対応表変換機能
    記ローマ字カナ対応文字列を構成するモーラ単位の各情報についてカナ五十音表における各行及び各段の位置をローマ字で表した行情報及び段情報を付与する行・段情報付与機能
    記ローマ字カナ対応文字列を構成するモーラ単位の各情報について、その行情報及び段情報とモーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報とを、モーラ単位の一の情報の行情報及び段情報と、モーラ単位でその前後一定の範囲に含まれる情報の行情報及び段情報と、当該モーラ単位の一の情報をそのままとする「通常」または長音を追加する「長音追加」または長音に置換する「長音置換」のいずれであるかの出力値とからなる学習データを用いて予め学習した識別関数である長母音判定モデルに入力して、「通常」または「長音追加」または「長音置換」のいずれであるかの判定結果を得るモデル判定機能
    記ローマ字カナ対応文字列を構成するモーラ単位の情報のうち、「通常」と判定されたモーラ単位の情報のカナ文字についてはそのままとし、「長音追加」と判定されたモーラ単位の情報のカナ文字についてはその末尾に長音「ー」を追加し、「長音置換」と判定されたモーラ単位の情報のカナ文字についてはその末尾を長音「ー」に置換し、最終的なカナ表記文字列を出力するカナ文字置換・追加機能とを実現させる
    ことを特徴とするローマ字カナ変換プログラム。
  6. 請求項5記載のローマ字カナ変換プログラムにおいて、
    前記行・段情報付与機能は、ローマ字カナ対応文字列が同一のカナ文字に対応するローマ字を2種類以上含む場合、これを1種類に統一する正規化表を用いて正規化された行情報及び段情報を付与する
    ことを特徴とするローマ字カナ変換プログラム。
JP2004046612A 2004-02-23 2004-02-23 ローマ字カナ変換装置、その方法及びそのプログラム Expired - Lifetime JP4001872B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004046612A JP4001872B2 (ja) 2004-02-23 2004-02-23 ローマ字カナ変換装置、その方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004046612A JP4001872B2 (ja) 2004-02-23 2004-02-23 ローマ字カナ変換装置、その方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2005235100A JP2005235100A (ja) 2005-09-02
JP4001872B2 true JP4001872B2 (ja) 2007-10-31

Family

ID=35017973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004046612A Expired - Lifetime JP4001872B2 (ja) 2004-02-23 2004-02-23 ローマ字カナ変換装置、その方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP4001872B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7119682B2 (ja) 2018-07-17 2022-08-17 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4773813B2 (ja) * 2005-12-07 2011-09-14 日本電信電話株式会社 読み付与装置、読み付与方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7119682B2 (ja) 2018-07-17 2022-08-17 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理プログラム

Also Published As

Publication number Publication date
JP2005235100A (ja) 2005-09-02

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
CN1779783B (zh) 普通拼写助记法
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
KR100344947B1 (ko) 한자입력장치 및 방법
JP2009223463A (ja) 同義性判定装置、その方法、プログラム及び記録媒体
WO2019208507A1 (ja) 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
JP4001872B2 (ja) ローマ字カナ変換装置、その方法及びそのプログラム
JP5853595B2 (ja) 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP3664383B2 (ja) 日本語入力システム、日本語入力方法、および、記録媒体
JP5676517B2 (ja) 文字列類似度計算装置、方法、及びプログラム
JP2006053866A (ja) カタカナ文字列の表記ゆれの検出方法
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
KR102571215B1 (ko) 한글 기반 패스워드 추측 방법
JPWO2020246175A5 (ja)
JP4940251B2 (ja) 文書処理プログラム及び文書処理装置
JP3961858B2 (ja) 翻字装置及びそのプログラム
KR102442109B1 (ko) 타일 소진 미션 게임 시스템
JP7106479B2 (ja) 電子機器、文字入力方法およびプログラム
JP7367839B2 (ja) 音声認識装置、制御方法、及びプログラム
JP6640788B2 (ja) 言語変換プログラム及び言語変換装置
JP4395620B2 (ja) 表示制御装置及びプログラム
US10275429B2 (en) Kernel based string descriptors

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20061221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070815

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4001872

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100824

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110824

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120824

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130824

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term