JP2018028848A

JP2018028848A - 変換処理装置、音訳処理装置、およびプログラム

Info

Publication number: JP2018028848A
Application number: JP2016161211A
Authority: JP
Inventors: 太郎宮▲崎▼; Taro Miyazaki; 正熊野; Tadashi Kumano; 今井　篤; Atsushi Imai; 篤今井
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2018-02-22

Abstract

【課題】同一の、あるいは類似の表記であっても、音訳時に、適切に訳し分けできるような音訳モデルを構築することのできる変換処理装置および音訳処理装置を提供する。【解決手段】変換処理装置は、変換モデル記憶部と、学習部とを備える。変換モデル記憶部は、第１表記による第１データと、前記第１表記による前記第１データの属性を表す情報である属性情報と、前記属性情報を前提として前記第１データを第２表記による第２データに変換する際の、前記第１データと前記属性情報と前記第２データとの統計的関係を表す変換モデルを記憶する。学習部は、前記第１表記による第１データと、前記第１データに対応する前記属性情報と、前記第１表記によるデータを第２表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって変換モデルを更新し、得られた学習済みの変換モデルを前記変換モデル記憶部に書き込む。【選択図】図７

Description

本発明は、変換処理装置、音訳処理装置、およびそれらのプログラムに関する。

ある言語における単語を、別の言語において音を表す単語に、効率的に変換することが求められる場合がある。
例えば、放送事業において、ある言語における単語（例えば、人名や地名等）を、自動的に日本語のカタカナ表記に変換することができれば、放送コンテンツの制作コストを大幅に削減することができる。ここで、放送コンテンツとは、通常の映像や音声によるコンテンツだけではなく、データ放送のコンテンツや、文字スーパー等のテキストのコンテンツや、通常の放送だけでは伝わりづらい情報を補足的に音声で放送する「解説放送」のコンテンツなども含まれる。例えば、大規模なスポーツイベントにおいて、各国語で与えられる多数の出場選手の姓名の読み方を自動的にカタカナ表記に変換することができれば、便利である。また、各国語で与えられる出場選手らの姓名の読み方を一旦カタカナに変換することができれば、自動音声でそれらの姓名を読み上げることも可能となる。

こういった、ある言語による表記を、他の言語による表記に変換する技術の研究は、従来にも行われている。

例えば、特許文献１および非特許文献１には、他言語（日本語以外）の単語からカタカナへの単語の翻字を実現するための技術が記載されている。この技術では、他言語の単語とカタカナの単語とにおける部分文字列が対応付けられたデータに基づいて変換候補の規則を生成する。また、確率モデルに基づいて、他言語の単語を変換単位に分割する際の確率を求める。そして、これらに基づいて、変換候補の生起確率を計算し、生起確率が最大となる変換候補を選択する。

また例えば、非特許文献２にも、複数言語間で、統計データに基づいて表記のアラインメントを行い、翻字する方法が記載されている。

特開２００５−０９２６８２号公報

後藤功雄，田中英輝，加藤直人，江原暉将，浦谷則好，「部分文字列への最適な分割と文脈を考慮した変換による翻字処理」，電子情報通信学会論文誌，Vol.J92-D，No.6，pp.909-920，２００９年 Katsuhito Sudoh，Shinsuke Mori，Masaaki Nagata，"Noise-aware Character Alignment for Bootstrapping Statistical Machine Transliteration from Bilingual Corpora"，Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing，pages 204-209，２０１３年

しかしながら、アルファベットの並びとしては同一の単語であっても、日本語のカタカナ表記としては異なる結果が得られるように訳し分けることが必要となる場合がある。例えば、「Michael」という人名は、音訳してカタカナ表記に変換したとき「マイケル」、「ミシェル」、「ミヒャエル」など、様々に訳し分けられる。
従来技術（特許文献１、非特許文献１、非特許文献２など）による手法では、こういった訳し分けをすることは困難であった。

本発明は、上記の課題認識に基づいて行なわれたものであり、同一の、あるいは類似の表記であっても、変換時に、適切に訳し分けできるような変換モデルを構築することのできる変換処理装置およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による変換処理装置は、第１表記による第１データと、前記第１表記による前記第１データの属性を表す情報である属性情報と、前記属性情報を前提として前記第１データを第２表記による第２データに変換する際の、前記第１データと前記属性情報と前記第２データとの統計的関係を表す変換モデルを記憶する変換モデル記憶部と、前記第１表記による第１データと、前記第１データに対応する前記属性情報と、前記第１表記によるデータを第２表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって変換モデルを更新し、得られた学習済みの変換モデルを前記変換モデル記憶部に書き込む学習部と、を具備することを特徴とする。

［２］また、上記の課題を解決するため、本発明の一態様による音訳処理装置は、固有名詞のアルファベット表記によるアルファベット表記データと、前記アルファベット表記データに対応した所属を表す情報である所属情報と、前記所属情報を前提として前記アルファベット表記データをカナ表記により当該固有名詞の読みを表すカナ表記データに音訳する際の、前記アルファベット表記データと前記所属情報と前記カナ表記データとの統計的関係を表す音訳モデルを記憶する音訳モデル記憶部と、固有名詞の前記アルファベット表記データと、前記アルファベット表記データに対応する前記所属情報と、前記アルファベット表記データをカナ表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって音訳モデルを更新し、得られた学習済みの音訳モデルを前記音訳モデル記憶部に書き込む学習部と、を具備することを特徴とする。

［３］また、本発明の一態様は、上記の音訳処理装置において、前記音訳モデル記憶部は、再帰型ニューラルネットによる音訳モデルを記憶するものであり、前記学習部は、再帰型ニューラルネットを用いて学習を行うことによって、前記音訳モデルを更新する、ことを特徴とする。

［４］また、本発明の一態様は、上記の音訳処理装置において、前記音訳モデル記憶部から前記学習済みの音訳モデルを読み込むとともに、読み込んだ前記音訳モデルを用いて、入力したアルファベット表記によるアルファベット表記データと前記アルファベット表記データに対応する前記所属情報との組を、前記アルファベット表記データに対応するカナ表記によるカナ表記データに変換する音訳実行部、をさらに具備することを特徴とする。

［５］また、本発明の一態様は、上記の音訳処理装置において、前記所属情報は、前記固有名詞に対応する国籍を表す国籍情報である、ことを特徴とする。

［６］また、本発明の一態様は、コンピューターを、上記［１］に記載の変換処理装置として機能させるためのプログラムである。

［７］また、本発明の一態様は、コンピューターを、上記［２］から［５］までのいずれかに記載の音訳処理装置として機能させるためのプログラムである。

本発明によれば、同一の、あるいは類似の表記を、所属情報に応じて適切に訳し分けることが可能となる。

本発明の第１実施形態による音訳処理装置の概略機能構成を示すブロック図である。同実施形態による学習データ記憶部が保持する学習データの構造とデータ例を示す概略図である。同実施形態で使用する再帰型ニューラルネットの一例（国籍およびアルファベット表記に対応するＩＤを入力し、カナ表記に対応するＩＤを出力する）を示す概略図である。同実施形態による学習部が再帰型ニューラルネットによる学習処理を行うための手順を示すフローチャートである。本発明の第２実施形態による音訳処理装置の概略機能構成を示すブロック図である。同実施形態による音訳実行部が学習済みの再帰型ニューラルネットにより音訳処理を行うための手順を示すフローチャートである。本発明の第３実施形態による変換処理装置の概略機能構成を示すブロック図である。

以下、図面を参照しながら、本発明の実施形態について説明する。

［第１実施形態］
図１は、第１実施形態による音訳処理装置の概略機能構成を示すブロック図である。図示するように、音訳処理装置１は、学習データ記憶部１１と、データ選択部１２と、カナ−ＩＤ変換部１４と、アルファベット−ＩＤ変換部１５と、国籍−ＩＤ変換部１６と、学習部１８と、音訳モデル記憶部１９とを含んで構成される。これらの各部は、例えば、電子回路を用いて実現される。なお、後述するようにコンピュータープログラムによりこれら各部の機能を実現するようにしてもよい。また、学習データ記憶部１１と音訳モデル記憶部１９は、データを記憶するための記憶手段を備えている。ここで記憶手段とは、例えば、磁気ハードディスク装置や半導体メモリ等である。音訳処理装置１を構成する各部の機能は、次に説明する通りである。

学習データ記憶部１１は、音訳処理装置１が学習に用いるためのデータを記憶する。学習データ記憶部１１が記憶する学習データについては、あとでより詳細に説明する。学習データは、「教師データ」あるいは「正解データ」とも呼ばれるデータである。

データ選択部１２は、学習データ記憶部１１が記憶するデータから、適宜、データを選択して、カナ−ＩＤ変換部１４と、アルファベット−ＩＤ変換部１５と、国籍−ＩＤ変換部１６とに供給する。１件の学習データは、相互に関連付けられた、カナ表記のデータと、アルファベット表記のデータと、国籍情報のデータである。データ選択部１２は、後述するように、再帰型ニューラルネットの学習効果を高めるために、学習データ記憶部１１が記憶する学習データの集合を繰り返し学習部１８における学習処理のために供給する。データ選択部１２は、学習処理の繰り返しの回数を管理する。また、データ選択部１２は、そのような繰り返しの際、学習データの順序を入れ替えて、学習部１８における学習処理のために供給する。
なお、データ選択部１２は、内部に、データ乱択部１２１と、学習回数管理部１２２とを備えている。
データ乱択部１２１は、学習データ記憶部１１に記憶されている学習データの集合から、ランダムな順序でデータを選択する。
学習回数管理部１２２は、データ選択部１２が学習用に学習データを供給した回数をカウントし、管理する。

カナ−ＩＤ変換部１４は、データ選択部１２から供給されるカタカナ表記による固有名詞（人名等）のデータを、対応するＩＤに変換し、学習部１８に供給する。なお、カナ−ＩＤ変換部１４は、後述する「カナトークン」に対応したＩＤへの変換を行う。学習部１８は、学習処理において、カナ−ＩＤ変換部１４から供給されるカナ表記を、音訳の正解データとして取り扱う。
アルファベット−ＩＤ変換部１５は、データ選択部１２から供給されるアルファベット表記による固有名詞（人名等）のデータを、アルファベットの各文字に対応したＩＤに変換し、学習部１８に供給する。学習部１８はアルファベット表記の１文字ずつを逐次処理するため、アルファベット−ＩＤ変換部１５は、各文字に対応するＩＤを学習部１８に供給する。
国籍−ＩＤ変換部１６は、上記のアルファベット表記のデータに関連付けられた国籍情報をデータ選択部１２から取得し、これを、国籍を表すＩＤに変換し、学習部１８に供給する。

学習部１８は、学習データを用いて、ニューラルネットの学習を行う。学習部１８は、内部に、再帰型ニューラルネットを備える。学習部１８がニューラルネットに入力するためのＩＤのデータは、上述したカナ−ＩＤ変換部１４とアルファベット−ＩＤ変換部１５と国籍−ＩＤ変換部１６とからそれぞれ供給される。そして、学習部１８は、学習の結果として得られる学習済みの音訳モデルを、音訳モデル記憶部１９に保存する。
なお、一般的な表現をすると、学習部１８は、アルファベット表記によるアルファベット表記データと、アルファベット表記データに対応する所属情報（国籍情報）と、アルファベット表記データをカナ表記に音訳したときの正解を表す正解データ（学習データ内のカナ表記データ）とを用いて、機械学習を行うことによって音訳モデルを更新し、得られた学習済みの音訳モデルを音訳モデル記憶部１９に書き込む。

なお、本実施形態では、ニューラルネットとして、再帰型ニューラルネット（recurrent neural network，ＲＮＮ）を用いる。再帰型ニューラルネットを実装するために、例えば、ＬＳＴＭ（Long Short Term Memory）やＧＲＵ（Gated Recurrent Unit）を用いることができる。
再帰型ニューラルネットのモデルの構造は、予め定めておくようにする。ここでは、入力が、アルファベットと記号とを合わせた３２次元と、国籍数として２１６次元との、合計２４８次元である。また、再帰型ニューラルネットの中間層を、例えば１０００次元とする。また出力は、カナトークンの４５５次元である。このカナトークンでは、通常のカナのみから成るトークンに加え、促音とそれに後続するカナとをひとつのトークンとしてまとめ、また長音あるいは拗音とそれに先行するカナとをひとつのトークンとしてまとめる。これらの組み合わせにより、本実施形態は次のようなカナトークンを、再帰型ニューラルネットの出力として扱うものであり、それらのカナトークンの種類の合計が上記の４５５次元である。
（１）カナのみで成るトークン：例えば「ア」
（２）カナ＋拗音で成るトークン：例えば「ジョ」
（３）カナ＋長音で成るトークン：例えば「ター」
（４）カナ＋拗音＋長音で成るトークン：例えば「ツァー」
（５）促音＋カナで成るトークン：例えば「ット」
（６）促音＋カナ＋拗音で成るトークン：例えば「ッジョ」
（７）促音＋カナ＋長音で成るトークン：例えば「ッター」
（８）促音＋カナ＋拗音＋長音で成るトークン：例えば「ッツァー」
なお、これらの各トークンは、カナの「ＩＤ」に対応するものである。

音訳モデル記憶部１９は、音訳モデルの情報を記憶する。なお、音訳モデルの情報は、再帰型ニューラルネットにおけるノード間の接続形態を表す情報と、ノード間の接続の重み（前段のノードの値を基に後段のノードの値を積和演算する際の重み）の値の情報とを、少なくとも含む。学習済みの音訳モデルは、学習データに基づいて最適化された重みの値の情報を含む。これは、学習データ（正解データ）の統計的特徴を表すものである。
なお、一般的な表現をすると、音訳モデル記憶部１９は、アルファベット表記によるアルファベット表記データと、アルファベット表記によるアルファベット表記データの文化的所属（例えば国籍）を表す情報である所属情報（国籍情報）と、前記所属情報を前提としてアルファベット表記データをカナ表記によるカナ表記データに音訳する際の、アルファベット表記データと所属情報とカナ表記データとの統計的関係を表す音訳モデルを記憶するものである。

次に、学習データについて説明する。学習データ記憶部１１は、再帰型ニューラルネットの学習を行うための大量のデータを記憶している。学習データ記憶部１１が記憶するデータは、いわゆる教師データである。即ち、学習データは、固有名詞のアルファベット表記とカタカナ表記との正しい対応付けを表す多数の例を含む。
図２は、学習データ記憶部１１が保持する学習データの構造とデータ例を示す概略図である。図示するように、学習データは、表形式のデータとして保持され得る。この表は、アルファベット表記と、カタカナ表記と、国籍の、各項目を有している。アルファベット表記の項目は、固有名詞（人名）のアルファベット表記のデータを保持する。カタカナ表記の項目は、その固有名詞（人名）のカタカナ表記のデータを保持する。国籍の項目は、その固有名詞（人名）が関連付けられる国籍を表すコード情報を保持する。そして、この表における各行が、１件の固有名詞（人名）に対応している。なお、同図において、便宜的にデータの各行に行番号を付している。
一例として、行番号「１」に対応するアルファベット表記は「Peter Taylor」であり、カタカナ表記は「ピーター・テイラー」であり、国籍を表すコード情報は「ＩＥ」（アイルランド）である。

なお、ここで用いている「国籍」は、表記（音訳処理の入力側であるアルファベット表記）がどういった文化的属性を有するものであるかを表す所属情報の一例である。
国籍の他に、例えば、言語圏（英語圏、フランス語圏、スペイン語圏、中国語圏など）も、所属情報の一例である。
また、国籍と言語圏とを組み合わせたもの（カナダ国籍の英語圏、カナダ国籍のフランス語圏など）も、所属情報の一例である。
また、ここに例示した者に限らず、固有名詞の表記を他の表記に音訳する際に鍵となる属性は、所属情報であり得る。
つまり、国籍や言語圏等の上位概念を「所属情報」と呼ぶ。
本実施形態では所属情報として国籍の情報を用いているが、所属情報として、上に例示したような他の情報を用いるようにしてもよい。

図３は、国籍およびアルファベット表記に対応するＩＤを入力し、カナ表記に対応するＩＤを出力するニューラルネットの一例を示す概略図である。具体的には、ニューラルネットの一種である再帰型ニューラルネットを用いる。図示するように、再帰型ニューラルネットは、入力されるＩＤに応じて内部の状態を更新しながら、内部の状態に応じたＩＤを出力する。この再帰型ニューラルネットに入力されるＩＤは、始端記号、国籍に対応するＩＤ、アルファベットに対応するＩＤ、および終端記号である。図中において、始端記号を「＜ｓ＞」で、終端記号を「＜ｅ＞」で、それぞれ表している。また、この再帰型ニューラルネットが出力するＩＤは、カナに対応するＩＤ、またはヌル（空記号）に対応するＩＤである。図中において、「Φ」がヌルである。同図において、入力には「ｉ１」から「ｉ８」までの記号を付しており、また出力には「ｏ１」から「ｏ８」までの出力を付している。この再帰型ニューラルネットの動作例は、次の通りである。

図示する再帰型ニューラルネットは、既に学習済みであり、入力されるＩＤと、そのときの内部状態とに対応して、ＩＤを出力する。入力ｉ１に出力ｏ１が対応する。また入力ｉ２に出力ｏ２が対応し、以下も同様である。また、再帰型ニューラルネットは、入力されるＩＤとそのときの内部状態とに対応して、都度、内部状態を更新する。
同図に示す例では、まず、入力ｉ１は始端記号＜ｓ＞に対応するＩＤである。この始端記号＜ｓ＞の入力に対応する出力ｏ１は空記号Φに対応するＩＤである。
次に、入力ｉ２は、国籍「ＵＳＡ」に対応するＩＤである。この国籍「ＵＳＡ」の入力に対する出力ｏ２は空記号Φである。
次に、入力ｉ３からｉ７までは、それぞれ、アルファベットの「Ｓ」，「Ｔ」，「Ｅ」，「Ｖ」，「Ｅ」に対応するＩＤである。これらの入力に対応する出力ｏ３からｏ７までは、それぞれ、空記号Φ，カナ「ス」，空記号Φ，カナ「ティー」，空記号Φに対応するＩＤである。
そして最後の入力ｉ８は終端記号＜ｅ＞である。この終端記号＜ｅ＞の入力に対応する出力ｏ８は、カナ「ブ」に対応するＩＤである。
つまり、＜ｓ＞−国籍ＵＳＡ−ＳＴＥＶＥ−＜ｅ＞という入力列に対応して、再帰型ニューラルネットは、Φ−Φ−Φ−「ス」−Φ−「ティー」−Φ−「ブ」という出力列を出力する。この出力列から空記号Φを除去して、出力されたカナのみを連結すると、「スティーブ」が得られる。つまり、この再帰型ニューラルネットは、事前に学習を行っていたことにより、入力である国籍ＵＳＡとアルファベット表記「ＳＴＥＶＥ」に対応して、その音訳であるカナ表記「スティーブ」を出力する。

再帰型ニューラルネットは、それまでに入力された情報を内部状態として保管しておく機能がある。したがって、例えば図示した例のように、アルファベット「Ｓ」の直後にアルファベット「Ｔ」が入力されると、その時点で「Ｓ」の部分の読みが確定する。これにより、再帰型ニューラルネットは、アルファベット「Ｔ」の入力に対応してカナ「ス」を出力する。
また、同様に、アルファベット表記よりも前に国籍情報を入力することにより、再帰型ニューラルネットの内部では、常にその国籍情報を考慮した状態が維持される。したがって、国籍情報よりも後に入力されるアルファベット表記が、その国籍を前提としたカナ出力を生じさせる。

次に、再帰型ニューラルネットの学習を行う処理について説明する。図３に示したような音訳が行えるモデルを作成するために、再帰型ニューラルネットの学習を行う。学習の処理としては、ＣＴＣ（connectionist temporal classification）により、入力と出力との間の誤差を計算し、その誤差を用いて出力から逆向きに順次に計算して学習を行う誤差逆伝搬法（back propagation，バックプロパゲーション）によるモデル更新を行うことを繰り返す。ＣＴＣは、入力データ長と正解データ長とが異なる場合に有効な手法である。具体的には、ＣＴＣでは、出力系列の中に空文字（空記号）を挿入し、正解データが正しい順序で出力される場合のコストを計算する。これにより、複数の入力データから一つの正解を出す場合にも有効である。なお、ＣＴＣ自体は、既存の技術である。
仮にＣＴＣを使わずに同様の結果を得ようとすると、事前に文字同士の対応関係を作成し、その対応関係を考慮して空文字を正解データに挿入しておく必要がある。ＣＴＣを用いる場合にはそのような煩雑さを避けることができる。

図４は、再帰型ニューラルネットによる学習処理の手順を示すフローチャートである。学習時には、学習部１８への入力として、固有名詞（人名等）のアルファベット表記と、国籍情報と、それらに対応する正解データ（カナ表記）を供給する。以下、このフローチャートに沿って説明する。

まずステップＳ１において、学習部１８は、再帰型ニューラルネットの構造を持ったモデルを作成する。学習部１８が再帰型ニューラルネットのモデルを作成する代わりに、作成済みのモデルを外部から読み込むようにしてもよい。

次にステップＳ２において、学習部１８は、再帰型ニューラルネットの内部変数をリセットする。以前の処理（今回の１件の学習用データよりも前の学習用データの処理）の過程で内部変数の値が変化していた場合にも、本ステップでの処理により、内部変数は初期化される。なお、本ステップでリセットする内部変数には、再帰型ニューラルネットからの出力を保存するためのスタックを含む。そして、本ステップで内部変数をリセットしても、学習効果がリセットされるわけではない。

次にステップＳ３において、学習部１８は、再帰型ニューラルネットに、１件の学習データの始端記号＜ｓ＞と国籍ＩＤを入力する。そして、学習部１８は、これらの入力ＩＤのそれぞれに対応する出力ＩＤを、逐次、スタックに保存する。ただし、本ステップにおいて入力される入力ＩＤは、始端記号と国籍ＩＤのみであるので、これらに対応する出力ＩＤはいずれも空記号Φに対応するＩＤである。

次にステップＳ４において、学習部１８は、再帰型ニューラルネットに、アルファベット表記のデータに含まれる１文字に対応するＩＤを入力する。学習部１８は、具体的には、当該学習データのアルファベット表記に含まれるアルファベットであって、未入力の文字のうちの先頭の１文字に対応するＩＤを入力する。そして、学習部１８は、その入力ＩＤに対応して再帰型ニューラルネットから出力される出力ＩＤを、スタックに保存する。本ステップで出力されるＩＤは、カナ表記に対応するＩＤ、または空記号Φに対応するＩＤである。
次にステップＳ５において、学習部１８は、１件の学習用データのアルファベットが全て入力済みであるか否かを判断する。当該１件の全アルファベットに対応するＩＤが入力済みである場合（ステップＳ５：ＹＥＳ）には、次のステップＳ６に進む。当該１件のデータのアルファベット表記に関して未入力のアルファベットがまだ残っている場合（ステップＳ５：ＮＯ）には、前のステップＳ４に戻る。
上記のステップＳ４およびＳ５のループにより、学習部１８は、アルファベット表記に含まれるアルファベットを先頭から１文字ずつ再帰型ニューラルネットに入力する。そして、これらの入力に対応する出力ＩＤは、スタックに蓄積される。

次にステップＳ６に進んだ場合、同ステップにおいて、学習部１８は、再帰型ニューラルネットに、終端記号＜ｅ＞に対応するＩＤを入力する。そして、学習部１８は、この終端記号＜ｅ＞に対応して再帰型ニューラルネットから出力される出力ＩＤを、スタックに保存する。

次にステップＳ７において、学習部１８は、ステップＳ３からＳ６までの処理でスタックに保存された出力と、正解データであるカナ表記（学習データとして与えられたカタカナ表記のデータ）との間での誤差をＣＴＣにより計算する。なおこのとき、学習部１８は、スタックに保存された出力ＩＤの各々を、カナ表記に変換する。また、学習部１８は、出力ＩＤの列から、空記号Φに対応するＩＤを除去する。
次にステップＳ８において、学習部１８は、ステップＳ７で求めた誤差を用いて、誤差逆伝搬法により、再帰型ニューラルネットのモデルを更新する。具体的には、学習部１８は、再帰型ニューラルネットのノード間の接続における重み付けを更新する。

次にステップＳ９において、学習部１８は、学習が完了したかどうかを判断する。具体的には、学習部１８は、データ選択部１２から供給される学習データの全件による学習処理を終えたか否かを判断する。学習が完了している場合（ステップＳ９：ＹＥＳ）には、次のステップＳ１０に進む。学習が未完了である場合（ステップＳ９：ＮＯ）には、ステップＳ２に戻って、次の学習データによる処理を行う。

次にステップＳ１０に進んだ場合、同ステップにおいて、学習部１８は、学習済みの再帰型ニューラルネットモデルを出力、保存する。具体的には、学習部１８は、ニューラルネットのノード間の接続形態の情報や、学習済みのノード間の接続の重み（前段のノードの値を基に後段のノードの値を積和演算する際の重み）の値の情報を、モデルとして、音訳モデル記憶部１９に書き込む。
以上により、再帰型ニューラルネットの学習処理を終了する。

なお、上記の学習処理においては、ひとまとまりのデータでの学習を複数回繰り返すこととする。例えば、学習データに１０，０００件の固有名詞のデータが含まれていれば、その１０，０００件のデータを用いて学習処理を行い、モデルを出力した後に、再度、その学習済みのモデルを用いて同じ１０，０００件の固有名詞のデータで学習を行う。こういった学習処理を、複数回繰り返す。これにより、ひとまとまりのデータで１回だけ学習を行う場合よりも、モデルの学習の効果を高めることができる。今回の固有名詞の音訳処理に関しては、ひとまとまりのデータを用いて１０回から２０回程度学習を繰り返すことにより、良い性能が得られることがわかっている。
つまり、データ選択部１２は、学習データ記憶部１１に記憶されているひとまとまりの学習データによる学習を複数回繰り返せるように、学習データを適宜選択し、学習部１８に供給する。

また、学習時にドロップアウト（drop out）と呼ばれる手法を用いるようにする。このドロップアウトは、ニューラルネットの内部で故意にデータを欠損させることにより、データの揺れをシミュレートする効果を生じさせる手法である。これにより、入力データが整っていない場合や、学習データと全く同じ系列のデータが出力しない場合にも、それなりに学習を行うことが可能となる。
つまり、データ選択部１２は、このドロップアウトの手法をも用いて、学習データを学習部１８に供給する。

また、学習時に、学習データのランダムな並べ替えを行うようにしてもよい。一般にニューラルネットの学習では、学習データの順序がモデルに影響を及ぼす。即ち、同一の学習データ集合を用いて学習を行っても、学習データを並べた順序によって、学習結果に差が生じ得る。このような作用を打ち消すために、学習データのランダムな並べ替えを行って、順序による影響を平均化することが有効である。
つまり、データ選択部１２は、このランダムな並べ替えの手法をも用いて、学習データを学習部１８に供給する。

［第２実施形態］
次に、第２実施形態を説明する。なお、前実施形態において既に説明した事項についてはここでは説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。

図５は、本実施形態による音訳処理装置の概略機能構成を示すブロック図である。図示するように、音訳処理装置２は、学習データ記憶部１１と、データ選択部１２と、カナ−ＩＤ変換部１４と、アルファベット−ＩＤ変換部１５と、国籍−ＩＤ変換部１６と、学習部１８と、音訳モデル記憶部１９と、アルファベット−ＩＤ変換部２５と、国籍−ＩＤ変換部２６と、音訳実行部２８と、ＩＤ−カナ変換部３４とを含んで構成される。なお、ここで、学習データ記憶部１１と、データ選択部１２と、カナ−ＩＤ変換部１４と、アルファベット−ＩＤ変換部１５と、国籍−ＩＤ変換部１６と、学習部１８と、音訳モデル記憶部１９とのそれぞれは、前実施形態におけるそれらと同様の機能を有している。
つまり、音訳処理装置２は、前実施形態における音訳処理装置１が備える構成に加えて、さらに、アルファベット−ＩＤ変換部２５と、国籍−ＩＤ変換部２６と、音訳実行部２８と、ＩＤ−カナ変換部３４とを含んでいる。これら各部の機能を、次に説明する。

上記の構成を有する音訳処理装置２は、学習部１８によって学習済みの音訳モデルを用いて、アルファベット表記をカタカナ表記に変換する処理を行う。即ち、音訳実行部２８は、音訳モデル記憶部１９から、学習済みの再帰型ニューラルネットのモデルを読み込み、音訳処理を行う。音訳処理装置２は、外部から、音訳対象である固有名詞（人名等）のアルファベット表記のデータと、その固有名詞に関連付けられた国籍情報とを、ペアとして取得する。

アルファベット−ＩＤ変換部２５は、外部から入力されるアルファベット表記による固有名詞（人名等）のデータを、アルファベットの各文字に対応したＩＤに変換し、音訳実行部２８に供給する。音訳実行部２８はアルファベット表記の１文字ずつを逐次処理するため、アルファベット−ＩＤ変換部２５は、各文字に対応するＩＤを逐次、音訳実行部２８に供給する。
国籍−ＩＤ変換部２６は、上記のアルファベット表記のデータに関連付けられた国籍情報を外部から取得し、これを、国籍を表すＩＤに変換し、音訳実行部２８に供給する。

音訳実行部２８は、国籍−ＩＤ変換部２６から供給される国籍のＩＤと、アルファベット−ＩＤ変換部２５から供給されるアルファベット表記に対応したＩＤの列とに基づいて、そのアルファベット表記の音訳を行い、カタカナの列に対応したＩＤを出力する。
一般化して言うと、音訳実行部２８は、音訳モデル記憶部１９から学習済みの音訳モデルを読み込むとともに、読み込んだ音訳モデルを用いて、入力したアルファベット表記によるアルファベット表記データと、アルファベット表記データに対応する所属情報（国籍情報）との組を、アルファベット表記データに対応するカナ表記によるカナ表記データに変換する。
なお、音訳実行部２８は、再帰型ニューラルネットの機能を内部に有しており、音訳モデル記憶部１９からモデルの情報を読み込んで使用する。音訳モデル記憶部１９は、予め、学習によって得られたモデルの情報を記憶している。

ＩＤ−カナ変換部３４は、音訳実行部２８から出力されるＩＤの列を、対応するカタカナの列に変換し、得られたカタカナ列を外部に出力する。なおこのとき、１つのＩＤが１文字のカタカナに対応する場合と、１つのＩＤが複数のカタカナから成るカナトークンに対応する場合とがある。

図６は、学習済みの再帰型ニューラルネットを用いて、アルファベット表記をカタカナ表記（音訳表現）に変換する処理の手順を示すフローチャートである。
このフローチャートに示す処理は、１件の固有名詞（人名等）についてアルファベット表記をカタカナ表記に変換する処理である。複数件の固有名詞についてカタカナ表記への変換を行う場合には、このフローチャートで示す処理を繰り返せばよい。あるいは、複数件の固有名詞について変換を行う場合には、ステップＳ１１の処理を一旦行った後は、ステップＳ１２からＳ１８までの処理を繰り返せばよい。
以下、このフローチャートに沿って説明する。

まずステップＳ１１において、音訳実行部２８は、音訳モデル記憶部１９から、再帰型ニューラルネットのモデルを読み込む。この再帰型ニューラルネットは、学習部１８による学習が済んでいるものである。本ステップで音訳実行部２８が読み込むモデルの情報としては、学習済みの再帰型ニューラルネットのノード間接続における重みのパラメーターの情報が含まれる。
次に、ステップＳ１２において、音訳実行部２８は、再帰型ニューラルネットの内部変数をリセットする。

次に、ステップＳ１３において、音訳実行部２８は、再帰型ニューラルネットに、始端記号＜ｓ＞に対応するＩＤを入力し、次に国籍に対応するＩＤを入力する。これにより、再帰型ニューラルネットは、各入力に対応して出力ＩＤを出力する。音訳実行部２８は、出力ＩＤをスタックに保存する。ただし、本ステップではまだ再帰型ニューラルネットに始端記号と国籍ＩＤしか入力していないため、出力されるＩＤはそれぞれ空記号Φに対応するＩＤである。
なお、本ステップにおいて音訳実行部２８が入力する国籍のＩＤは、外部から入力される国籍の情報を国籍−ＩＤ変換部２６が変換して得られたＩＤである。

次に、ステップＳ１４において、音訳実行部２８は、アルファベット表記のうちの１文字に対応するＩＤを、再帰型ニューラルネットに入力する。具体的には、音訳実行部２８は、アルファベット表記に含まれる文字の列の中の、未入力の文字の先頭文字に対応するＩＤを入力する。これにより、再帰型ニューラルネットは、入力に対応した出力ＩＤを出力する。音訳実行部２８は、出力ＩＤをスタックに保存する。
次に、ステップＳ１５において、音訳実行部２８は、アルファベット表記に含まれるすべての文字が入力済みであるか否かを判断する。全アルファベットが入力済みである場合（ステップＳ１５：ＹＥＳ）には、次のステップＳ１６に進む。全アルファベットが入力済みではなく、残っている文字がまだ存在する場合（ステップＳ１５：ＮＯ）には、次の文字を入力するためにステップＳ１４に戻る。
これら、ステップＳ１４およびＳ１５からなるループの処理を繰り返すことにより、再帰型ニューラルネットは、アルファベット表記に含まれる全文字に対応するＩＤを逐次入力する。

次に、ステップＳ１６に進んだ場合、同ステップにおいて、音訳実行部２８は、再帰型ニューラルネットに終端記号＜ｅ＞を入力する。これにより、再帰型ニューラルネットは、入力に対応した出力ＩＤを出力する。音訳実行部２８は、その出力ＩＤをスタックに保存する。

次に、ステップＳ１７において、ＩＤ−カナ変換部３４は、スタック上に蓄積された出力ＩＤをカタカナの列に変換する。なおこのとき、ＩＤ−カナ変換部３４は、空記号Φに対応するＩＤを、空文字に変換する。言い換えれば、ＩＤ−カナ変換部３４は、空記号Φに対応するＩＤに対応して、何も出力しない。ＩＤ−カナ変換部３４は、カタカナをすべてつなぎ合わせて得られる文字列を、出力する。これで、入力された固有名詞に対応するカナ表記が得られる。
そして、ステップＳ１８において、ＩＤ−カナ変換部３４は、ステップＳ１７の処理で得られたカタカナの列を、音訳結果として外部に出力する。
以上で、音訳処理装置２は、アルファベット表記による１件の固有名詞のデータを、カタカナ表記に音訳する処理の全体を終了する。

なお、上述した各実施形態における音訳処理装置の機能の少なくとも一部をコンピューターで実現するようにしても良い。その場合、この音訳処理装置の機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。

［変形例１］
第２実施形態で説明した音訳処理装置２は、学習部１８をはじめとする学習処理のための機能と、音訳実行部２８をはじめとする音訳実行のための機能の、両方を備えていた。
変形例１として、代わりに、音訳処理装置が学習処理のための機能を含まないようにしてもよい。その場合、音訳処理装置自体が学習機能を含まなくても、例えば第１実施形態で説明した音訳処理装置１で得られた音訳モデル（学習済みの音訳モデル）の情報を、記憶部に記憶させておき、音訳実行部２８がその音訳モデルの情報を読み込むことによって、適切に音訳を行うことができる。

［変形例２］
第１実施形態および第２実施形態で説明した音訳処理装置は、アルファベットによる表記をカタカナ（カナ）による表記に変換するための音訳モデルを構築するものであった。
変形例２として、アルファベットによる表記によるデータを、カタカナ以外の表記に変換するための音訳モデルを構築する音訳処理装置としてもよい。あるいは、アルファベット以外の表記によるデータを、カタカナによる表記に変換するための音訳モデルを構築する音訳処理装置としてもよい。あるいは、アルファベット以外の表記によるデータを、カタカナ以外による表記に変換するための音訳モデルを構築する音訳処理装置としてもよい。

以上、説明した、第１実施形態、第２実施形態およびそれらの変形例において、音訳処理装置は、変換処理装置の一特殊例である。即ち、音訳処理は、変換処理の一例である。また、アルファベット表記は、第１表記の一例である。また、アルファベット表記によるデータは、第１データの一例である。また、カナ表記は、第２表記の一例である。また、カナ表記によるデータは、第２データの一例である。また、国籍および国籍情報は、それぞれ、所属および所属情報の一例である。国籍および国籍情報は、それぞれ、属性および属性情報の一例であるとも言える。また、音訳モデルおよび音訳モデル記憶部は、それぞれ、変換モデルおよび変換モデル記憶部の一例である。また、音訳実行部は、変換実行部の一例である。

［第３実施形態］
次に、第３実施形態を説明する。なお、前実施形態までにおいて既に説明した事項についてはここでは説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。

図７は、本実施形態による変換処理装置の概略機能構成を示すブロック図である。図示するように、変換処理装置３は、学習データ記憶部６１と、データ選択部６２と、第２表記−ＩＤ変換部６４と、第１表記−ＩＤ変換部６５と、属性−ＩＤ変換部６６と、学習部６８と、変換モデル記憶部６９と、第１表記−ＩＤ変換部７５と、属性−ＩＤ変換部７６と、変換実行部７８と、ＩＤ−第２表記変換部８４と、を含んで構成される。

この変換処理装置の構成は、第２実施形態で説明した音訳処理装置の構成に対応している。即ち、次の通りである。
学習データ記憶部６１は、学習データ記憶部１１に対応し、同等の機能を有する。
データ選択部６２は、データ選択部１２に対応し、同等の機能を有する。なお、データ選択部６２は、データ乱択部６２１と学習回数管理部６２２を含む。これは、データ選択部１２がデータ乱択部１２１と学習回数管理部１２２を含んで構成されるのと同様である。
第２表記−ＩＤ変換部６４は、カナ−ＩＤ変換部１４に対応し、同等の機能を有する。
第１表記−ＩＤ変換部６５は、アルファベット−ＩＤ変換部１５に対応し、同等の機能を有する。
属性−ＩＤ変換部６６は、国籍−ＩＤ変換部１６に対応し、同等の機能を有する。
学習部６８は、学習部１８に対応し、同等の機能を有する。
変換モデル記憶部６９は、音訳モデル記憶部１９に対応し、同等の機能を有する。
第１表記−ＩＤ変換部７５は、アルファベット−ＩＤ変換部２５に対応し、同等の機能を有する。
属性−ＩＤ変換部７６は、国籍−ＩＤ変換部２６に対応し、同等の機能を有する。
変換実行部７８は、音訳実行部２８に対応し、同等の機能を有する。
ＩＤ−第２表記変換部８４は、ＩＤ−カナ変換部３４に対応し、同等の機能を有する。

本実施形態による変換処理装置３は、アルファベット表記によるデータの音訳処理（カナ表記によるデータへの変換）だけでなく、一般に、第１表記による第１データの、第２表記による第２データへの変換を行うための、変換モデルの学習を行う。また、変換処理装置３は、学習済みの変換モデルを用いて、第１表記による第１データの、第２表記による第２データへの変換を行う。

なお、変換処理装置３が、第１表記−ＩＤ変換部７５と、属性−ＩＤ変換部７６と、変換実行部７８と、ＩＤ−第２表記変換部８４とを含まない構成としてもよい。この場合、変換処理装置３は、モデルの学習のみを行い、実際の変換実行を行わない。

また、逆に、変換処理装置３が、変換モデル記憶部６９と、第１表記−ＩＤ変換部７５と、属性−ＩＤ変換部７６と、変換実行部７８と、ＩＤ−第２表記変換部８４とのみを含む構成としてもよい。この場合、変換処理装置３は、学習済みのモデルを用いて、変換実行の処理を行う。

なお、変換処理装置３の具体的な処理手順は、第１実施形態および第２実施形態でフローチャートを参照しながら説明した手順と同様である。ただし、このとき、変換処理装置３は、アルファベット表記を「第１表記」に置き換え、カナ表記を「第２表記」に置き換え、国籍を「属性」に置き換えた処理を行う。

このような構成を有する変換処理装置３は、学習処理を効果的に行い、学習済みのモデルに基づく変換処理を良好に行う。

本実施形態で扱う具体的なデータの例は、次の通りである。

例１：数字列を、その数字列の読み方を示すかな（例えば、平仮名）に変換する。
属性情報としては、「郵便番号」、「金額」、「時刻」などがあり得る。
属性が「郵便番号」である場合、数字列「１５７８５１０」は、「いちごななはちごいちれい」に変換される。
属性が「金額」である場合、上と同じ数字列「１５７８５１０」は、「ひゃくごじゅうななまんはっせんごひゃくじゅう」に変換される。
属性が「時刻」である場合、数字列「１５０７」は、「じゅうごじななふん」に変換される。
このように、同じ数字でも読み方を変える必要がある場合に，変換処理装置３は有用である。これにより、効率的なモデルの学習が可能となる。

例２：かなの列を漢字の列に変換する。いわゆる「かな漢字変換」の処理である。
属性が「技術資料」である場合、かな文字列「こうせい」は、漢字列「校正」に変換される。
属性が「歴史資料」である場合、かな文字列「こうせい」は、漢字列「後世」に変換される。
属性が「組織図」である場合、かな文字列「こうせい」は、漢字列「構成」に変換される。
また、別のかな文字列の例は次の通りである。
かな文字列：さんか
属性が「案内文」である場合、かな文字列「さんか」は、漢字文字列「参加」に変換される。
属性が「科学文章」である場合、かな文字列「さんか」は、漢字文字列「酸化」に変換される。
属性が「歴史資料」である場合、かな文字列「さんか」は、漢字文字列「惨禍」に変換される。
このように、同じひらがなでも異なる漢字に変換され得る場合、変換処理装置３は有用である。これにより、効率的なモデルの学習が可能となる。

なお、上述した各実施形態における変換処理装置の機能の少なくとも一部をコンピューターで実現するようにしても良い。その場合、この変換処理装置の機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

実データを用いて実施した性能比較の結果は、下の表に示す通りである。
本願実施形態による手法は、第１実施形態に記載した方法で学習済みの音訳処理装置を用いて、第２実施形態に記載した方法でアルファベット表記をカタカナ表記に変換したものである。なお、この実施例では、再帰型ニューラルネットとして、ＬＳＴＭ（Long Short Term Memory）を用いている。性能は、正解率およびＢＬＥＵ値により評価する。なお「ＢＬＥＵ」は、「BiLingual Evaluation Understudy」の略である。
比較対象の（１）のＳＭＴは、従来技術による統計的翻訳手法を用いた音訳である。また、（２）のEncoder-Decoderは、ニューラルネットを用いた機械翻訳で主流の手法である。また、（３）は再帰型ニューラルネット（ＲＮＮ）を用いた手法（ただし、国籍情報等を入力しない）である。
これらのいずれの比較対象よりも、本願実施形態による手法の性能は良い。
なお、比較対象（１）のＳＭＴは、比較対象（２）や（３）よりは高い性能を示すが、本願実施形態のように国籍情報を利用することが困難である。

本発明は、複数の国や文化等に属する語（固有名詞など）を音訳するビジネスに利用可能である。典型的には、多数の固有名詞の音訳データとして整備するビジネス（例えば、放送事業やデータベース事業等）に利用可能である。

１，２音訳処理装置
３変換処理装置
１１学習データ記憶部
１２データ選択部
１４カナ−ＩＤ変換部
１５アルファベット−ＩＤ変換部
１６国籍−ＩＤ変換部
１８学習部
１９音訳モデル記憶部
２５アルファベット−ＩＤ変換部
２６国籍−ＩＤ変換部
２８音訳実行部
３４ＩＤ−カナ変換部
６１学習データ記憶部
６２データ選択部
６４第２表記−ＩＤ変換部
６５第１表記−ＩＤ変換部
６６属性−ＩＤ変換部
６８学習部
６９変換モデル記憶部
７５第１表記−ＩＤ変換部
７６属性−ＩＤ変換部
７８変換実行部
８４ＩＤ−第２表記変換部
１２１，６２１データ乱択部
１２２，６２２学習回数管理部

Claims

第１表記による第１データと、前記第１表記による前記第１データの属性を表す情報である属性情報と、前記属性情報を前提として前記第１データを第２表記による第２データに変換する際の、前記第１データと前記属性情報と前記第２データとの統計的関係を表す変換モデルを記憶する変換モデル記憶部と、
前記第１表記による第１データと、前記第１データに対応する前記属性情報と、前記第１表記によるデータを第２表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって変換モデルを更新し、得られた学習済みの変換モデルを前記変換モデル記憶部に書き込む学習部と、
を具備することを特徴とする変換処理装置。
固有名詞のアルファベット表記によるアルファベット表記データと、前記アルファベット表記データに対応した所属を表す情報である所属情報と、前記所属情報を前提として前記アルファベット表記データをカナ表記により当該固有名詞の読みを表すカナ表記データに音訳する際の、前記アルファベット表記データと前記所属情報と前記カナ表記データとの統計的関係を表す音訳モデルを記憶する音訳モデル記憶部と、
固有名詞の前記アルファベット表記データと、前記アルファベット表記データに対応する前記所属情報と、前記アルファベット表記データをカナ表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって音訳モデルを更新し、得られた学習済みの音訳モデルを前記音訳モデル記憶部に書き込む学習部と、
を具備することを特徴とする音訳処理装置。
前記音訳モデル記憶部は、再帰型ニューラルネットによる音訳モデルを記憶するものであり、
前記学習部は、再帰型ニューラルネットを用いて学習を行うことによって、前記音訳モデルを更新する、
ことを特徴とする請求項２に記載の音訳処理装置。
前記音訳モデル記憶部から前記学習済みの音訳モデルを読み込むとともに、読み込んだ前記音訳モデルを用いて、入力したアルファベット表記によるアルファベット表記データと前記アルファベット表記データに対応する前記所属情報との組を、前記アルファベット表記データに対応するカナ表記によるカナ表記データに変換する音訳実行部、
をさらに具備することを特徴とする請求項２または３に記載の音訳処理装置。
前記所属情報は、前記固有名詞に対応する国籍を表す国籍情報である、
ことを特徴とする請求項２から４までのいずれか一項に記載の音訳処理装置。
コンピューターを、
請求項１に記載の変換処理装置として機能させるためのプログラム。
コンピューターを、
請求項２から５までのいずれか一項に記載の音訳処理装置として機能させるためのプログラム。