JP2018028848A - 変換処理装置、音訳処理装置、およびプログラム - Google Patents

変換処理装置、音訳処理装置、およびプログラム Download PDF

Info

Publication number
JP2018028848A
JP2018028848A JP2016161211A JP2016161211A JP2018028848A JP 2018028848 A JP2018028848 A JP 2018028848A JP 2016161211 A JP2016161211 A JP 2016161211A JP 2016161211 A JP2016161211 A JP 2016161211A JP 2018028848 A JP2018028848 A JP 2018028848A
Authority
JP
Japan
Prior art keywords
data
notation
transliteration
learning
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016161211A
Other languages
English (en)
Inventor
太郎 宮▲崎▼
Taro Miyazaki
太郎 宮▲崎▼
正 熊野
Tadashi Kumano
正 熊野
今井 篤
Atsushi Imai
篤 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016161211A priority Critical patent/JP2018028848A/ja
Publication of JP2018028848A publication Critical patent/JP2018028848A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】同一の、あるいは類似の表記であっても、音訳時に、適切に訳し分けできるような音訳モデルを構築することのできる変換処理装置および音訳処理装置を提供する。【解決手段】変換処理装置は、変換モデル記憶部と、学習部とを備える。変換モデル記憶部は、第1表記による第1データと、前記第1表記による前記第1データの属性を表す情報である属性情報と、前記属性情報を前提として前記第1データを第2表記による第2データに変換する際の、前記第1データと前記属性情報と前記第2データとの統計的関係を表す変換モデルを記憶する。学習部は、前記第1表記による第1データと、前記第1データに対応する前記属性情報と、前記第1表記によるデータを第2表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって変換モデルを更新し、得られた学習済みの変換モデルを前記変換モデル記憶部に書き込む。【選択図】図7

Description

本発明は、変換処理装置、音訳処理装置、およびそれらのプログラムに関する。
ある言語における単語を、別の言語において音を表す単語に、効率的に変換することが求められる場合がある。
例えば、放送事業において、ある言語における単語(例えば、人名や地名等)を、自動的に日本語のカタカナ表記に変換することができれば、放送コンテンツの制作コストを大幅に削減することができる。ここで、放送コンテンツとは、通常の映像や音声によるコンテンツだけではなく、データ放送のコンテンツや、文字スーパー等のテキストのコンテンツや、通常の放送だけでは伝わりづらい情報を補足的に音声で放送する「解説放送」のコンテンツなども含まれる。例えば、大規模なスポーツイベントにおいて、各国語で与えられる多数の出場選手の姓名の読み方を自動的にカタカナ表記に変換することができれば、便利である。また、各国語で与えられる出場選手らの姓名の読み方を一旦カタカナに変換することができれば、自動音声でそれらの姓名を読み上げることも可能となる。
こういった、ある言語による表記を、他の言語による表記に変換する技術の研究は、従来にも行われている。
例えば、特許文献1および非特許文献1には、他言語(日本語以外)の単語からカタカナへの単語の翻字を実現するための技術が記載されている。この技術では、他言語の単語とカタカナの単語とにおける部分文字列が対応付けられたデータに基づいて変換候補の規則を生成する。また、確率モデルに基づいて、他言語の単語を変換単位に分割する際の確率を求める。そして、これらに基づいて、変換候補の生起確率を計算し、生起確率が最大となる変換候補を選択する。
また例えば、非特許文献2にも、複数言語間で、統計データに基づいて表記のアラインメントを行い、翻字する方法が記載されている。
特開2005−092682号公報
後藤功雄,田中英輝,加藤直人,江原暉将,浦谷則好,「部分文字列への最適な分割と文脈を考慮した変換による翻字処理」,電子情報通信学会論文誌,Vol.J92-D,No.6,pp.909-920,2009年 Katsuhito Sudoh,Shinsuke Mori,Masaaki Nagata,"Noise-aware Character Alignment for Bootstrapping Statistical Machine Transliteration from Bilingual Corpora",Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,pages 204-209,2013年
しかしながら、アルファベットの並びとしては同一の単語であっても、日本語のカタカナ表記としては異なる結果が得られるように訳し分けることが必要となる場合がある。例えば、「Michael」という人名は、音訳してカタカナ表記に変換したとき「マイケル」、「ミシェル」、「ミヒャエル」など、様々に訳し分けられる。
従来技術(特許文献1、非特許文献1、非特許文献2など)による手法では、こういった訳し分けをすることは困難であった。
本発明は、上記の課題認識に基づいて行なわれたものであり、同一の、あるいは類似の表記であっても、変換時に、適切に訳し分けできるような変換モデルを構築することのできる変換処理装置およびプログラムを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様による変換処理装置は、第1表記による第1データと、前記第1表記による前記第1データの属性を表す情報である属性情報と、前記属性情報を前提として前記第1データを第2表記による第2データに変換する際の、前記第1データと前記属性情報と前記第2データとの統計的関係を表す変換モデルを記憶する変換モデル記憶部と、前記第1表記による第1データと、前記第1データに対応する前記属性情報と、前記第1表記によるデータを第2表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって変換モデルを更新し、得られた学習済みの変換モデルを前記変換モデル記憶部に書き込む学習部と、を具備することを特徴とする。
[2]また、上記の課題を解決するため、本発明の一態様による音訳処理装置は、固有名詞のアルファベット表記によるアルファベット表記データと、前記アルファベット表記データに対応した所属を表す情報である所属情報と、前記所属情報を前提として前記アルファベット表記データをカナ表記により当該固有名詞の読みを表すカナ表記データに音訳する際の、前記アルファベット表記データと前記所属情報と前記カナ表記データとの統計的関係を表す音訳モデルを記憶する音訳モデル記憶部と、固有名詞の前記アルファベット表記データと、前記アルファベット表記データに対応する前記所属情報と、前記アルファベット表記データをカナ表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって音訳モデルを更新し、得られた学習済みの音訳モデルを前記音訳モデル記憶部に書き込む学習部と、を具備することを特徴とする。
[3]また、本発明の一態様は、上記の音訳処理装置において、前記音訳モデル記憶部は、再帰型ニューラルネットによる音訳モデルを記憶するものであり、前記学習部は、再帰型ニューラルネットを用いて学習を行うことによって、前記音訳モデルを更新する、ことを特徴とする。
[4]また、本発明の一態様は、上記の音訳処理装置において、前記音訳モデル記憶部から前記学習済みの音訳モデルを読み込むとともに、読み込んだ前記音訳モデルを用いて、入力したアルファベット表記によるアルファベット表記データと前記アルファベット表記データに対応する前記所属情報との組を、前記アルファベット表記データに対応するカナ表記によるカナ表記データに変換する音訳実行部、をさらに具備することを特徴とする。
[5]また、本発明の一態様は、上記の音訳処理装置において、前記所属情報は、前記固有名詞に対応する国籍を表す国籍情報である、ことを特徴とする。
[6]また、本発明の一態様は、コンピューターを、上記[1]に記載の変換処理装置として機能させるためのプログラムである。
[7]また、本発明の一態様は、コンピューターを、上記[2]から[5]までのいずれかに記載の音訳処理装置として機能させるためのプログラムである。
本発明によれば、同一の、あるいは類似の表記を、所属情報に応じて適切に訳し分けることが可能となる。
本発明の第1実施形態による音訳処理装置の概略機能構成を示すブロック図である。 同実施形態による学習データ記憶部が保持する学習データの構造とデータ例を示す概略図である。 同実施形態で使用する再帰型ニューラルネットの一例(国籍およびアルファベット表記に対応するIDを入力し、カナ表記に対応するIDを出力する)を示す概略図である。 同実施形態による学習部が再帰型ニューラルネットによる学習処理を行うための手順を示すフローチャートである。 本発明の第2実施形態による音訳処理装置の概略機能構成を示すブロック図である。 同実施形態による音訳実行部が学習済みの再帰型ニューラルネットにより音訳処理を行うための手順を示すフローチャートである。 本発明の第3実施形態による変換処理装置の概略機能構成を示すブロック図である。
以下、図面を参照しながら、本発明の実施形態について説明する。
[第1実施形態]
図1は、第1実施形態による音訳処理装置の概略機能構成を示すブロック図である。図示するように、音訳処理装置1は、学習データ記憶部11と、データ選択部12と、カナ−ID変換部14と、アルファベット−ID変換部15と、国籍−ID変換部16と、学習部18と、音訳モデル記憶部19とを含んで構成される。これらの各部は、例えば、電子回路を用いて実現される。なお、後述するようにコンピュータープログラムによりこれら各部の機能を実現するようにしてもよい。また、学習データ記憶部11と音訳モデル記憶部19は、データを記憶するための記憶手段を備えている。ここで記憶手段とは、例えば、磁気ハードディスク装置や半導体メモリ等である。音訳処理装置1を構成する各部の機能は、次に説明する通りである。
学習データ記憶部11は、音訳処理装置1が学習に用いるためのデータを記憶する。学習データ記憶部11が記憶する学習データについては、あとでより詳細に説明する。学習データは、「教師データ」あるいは「正解データ」とも呼ばれるデータである。
データ選択部12は、学習データ記憶部11が記憶するデータから、適宜、データを選択して、カナ−ID変換部14と、アルファベット−ID変換部15と、国籍−ID変換部16とに供給する。1件の学習データは、相互に関連付けられた、カナ表記のデータと、アルファベット表記のデータと、国籍情報のデータである。データ選択部12は、後述するように、再帰型ニューラルネットの学習効果を高めるために、学習データ記憶部11が記憶する学習データの集合を繰り返し学習部18における学習処理のために供給する。データ選択部12は、学習処理の繰り返しの回数を管理する。また、データ選択部12は、そのような繰り返しの際、学習データの順序を入れ替えて、学習部18における学習処理のために供給する。
なお、データ選択部12は、内部に、データ乱択部121と、学習回数管理部122とを備えている。
データ乱択部121は、学習データ記憶部11に記憶されている学習データの集合から、ランダムな順序でデータを選択する。
学習回数管理部122は、データ選択部12が学習用に学習データを供給した回数をカウントし、管理する。
カナ−ID変換部14は、データ選択部12から供給されるカタカナ表記による固有名詞(人名等)のデータを、対応するIDに変換し、学習部18に供給する。なお、カナ−ID変換部14は、後述する「カナトークン」に対応したIDへの変換を行う。学習部18は、学習処理において、カナ−ID変換部14から供給されるカナ表記を、音訳の正解データとして取り扱う。
アルファベット−ID変換部15は、データ選択部12から供給されるアルファベット表記による固有名詞(人名等)のデータを、アルファベットの各文字に対応したIDに変換し、学習部18に供給する。学習部18はアルファベット表記の1文字ずつを逐次処理するため、アルファベット−ID変換部15は、各文字に対応するIDを学習部18に供給する。
国籍−ID変換部16は、上記のアルファベット表記のデータに関連付けられた国籍情報をデータ選択部12から取得し、これを、国籍を表すIDに変換し、学習部18に供給する。
学習部18は、学習データを用いて、ニューラルネットの学習を行う。学習部18は、内部に、再帰型ニューラルネットを備える。学習部18がニューラルネットに入力するためのIDのデータは、上述したカナ−ID変換部14とアルファベット−ID変換部15と国籍−ID変換部16とからそれぞれ供給される。そして、学習部18は、学習の結果として得られる学習済みの音訳モデルを、音訳モデル記憶部19に保存する。
なお、一般的な表現をすると、学習部18は、アルファベット表記によるアルファベット表記データと、アルファベット表記データに対応する所属情報(国籍情報)と、アルファベット表記データをカナ表記に音訳したときの正解を表す正解データ(学習データ内のカナ表記データ)とを用いて、機械学習を行うことによって音訳モデルを更新し、得られた学習済みの音訳モデルを音訳モデル記憶部19に書き込む。
なお、本実施形態では、ニューラルネットとして、再帰型ニューラルネット(recurrent neural network,RNN)を用いる。再帰型ニューラルネットを実装するために、例えば、LSTM(Long Short Term Memory)やGRU(Gated Recurrent Unit)を用いることができる。
再帰型ニューラルネットのモデルの構造は、予め定めておくようにする。ここでは、入力が、アルファベットと記号とを合わせた32次元と、国籍数として216次元との、合計248次元である。また、再帰型ニューラルネットの中間層を、例えば1000次元とする。また出力は、カナトークンの455次元である。このカナトークンでは、通常のカナのみから成るトークンに加え、促音とそれに後続するカナとをひとつのトークンとしてまとめ、また長音あるいは拗音とそれに先行するカナとをひとつのトークンとしてまとめる。これらの組み合わせにより、本実施形態は次のようなカナトークンを、再帰型ニューラルネットの出力として扱うものであり、それらのカナトークンの種類の合計が上記の455次元である。
(1)カナのみで成るトークン:例えば「ア」
(2)カナ+拗音で成るトークン:例えば「ジョ」
(3)カナ+長音で成るトークン:例えば「ター」
(4)カナ+拗音+長音で成るトークン:例えば「ツァー」
(5)促音+カナで成るトークン:例えば「ット」
(6)促音+カナ+拗音で成るトークン:例えば「ッジョ」
(7)促音+カナ+長音で成るトークン:例えば「ッター」
(8)促音+カナ+拗音+長音で成るトークン:例えば「ッツァー」
なお、これらの各トークンは、カナの「ID」に対応するものである。
音訳モデル記憶部19は、音訳モデルの情報を記憶する。なお、音訳モデルの情報は、再帰型ニューラルネットにおけるノード間の接続形態を表す情報と、ノード間の接続の重み(前段のノードの値を基に後段のノードの値を積和演算する際の重み)の値の情報とを、少なくとも含む。学習済みの音訳モデルは、学習データに基づいて最適化された重みの値の情報を含む。これは、学習データ(正解データ)の統計的特徴を表すものである。
なお、一般的な表現をすると、音訳モデル記憶部19は、アルファベット表記によるアルファベット表記データと、アルファベット表記によるアルファベット表記データの文化的所属(例えば国籍)を表す情報である所属情報(国籍情報)と、前記所属情報を前提としてアルファベット表記データをカナ表記によるカナ表記データに音訳する際の、アルファベット表記データと所属情報とカナ表記データとの統計的関係を表す音訳モデルを記憶するものである。
次に、学習データについて説明する。学習データ記憶部11は、再帰型ニューラルネットの学習を行うための大量のデータを記憶している。学習データ記憶部11が記憶するデータは、いわゆる教師データである。即ち、学習データは、固有名詞のアルファベット表記とカタカナ表記との正しい対応付けを表す多数の例を含む。
図2は、学習データ記憶部11が保持する学習データの構造とデータ例を示す概略図である。図示するように、学習データは、表形式のデータとして保持され得る。この表は、アルファベット表記と、カタカナ表記と、国籍の、各項目を有している。アルファベット表記の項目は、固有名詞(人名)のアルファベット表記のデータを保持する。カタカナ表記の項目は、その固有名詞(人名)のカタカナ表記のデータを保持する。国籍の項目は、その固有名詞(人名)が関連付けられる国籍を表すコード情報を保持する。そして、この表における各行が、1件の固有名詞(人名)に対応している。なお、同図において、便宜的にデータの各行に行番号を付している。
一例として、行番号「1」に対応するアルファベット表記は「Peter Taylor」であり、カタカナ表記は「ピーター・テイラー」であり、国籍を表すコード情報は「IE」(アイルランド)である。
なお、ここで用いている「国籍」は、表記(音訳処理の入力側であるアルファベット表記)がどういった文化的属性を有するものであるかを表す所属情報の一例である。
国籍の他に、例えば、言語圏(英語圏、フランス語圏、スペイン語圏、中国語圏など)も、所属情報の一例である。
また、国籍と言語圏とを組み合わせたもの(カナダ国籍の英語圏、カナダ国籍のフランス語圏など)も、所属情報の一例である。
また、ここに例示した者に限らず、固有名詞の表記を他の表記に音訳する際に鍵となる属性は、所属情報であり得る。
つまり、国籍や言語圏等の上位概念を「所属情報」と呼ぶ。
本実施形態では所属情報として国籍の情報を用いているが、所属情報として、上に例示したような他の情報を用いるようにしてもよい。
図3は、国籍およびアルファベット表記に対応するIDを入力し、カナ表記に対応するIDを出力するニューラルネットの一例を示す概略図である。具体的には、ニューラルネットの一種である再帰型ニューラルネットを用いる。図示するように、再帰型ニューラルネットは、入力されるIDに応じて内部の状態を更新しながら、内部の状態に応じたIDを出力する。この再帰型ニューラルネットに入力されるIDは、始端記号、国籍に対応するID、アルファベットに対応するID、および終端記号である。図中において、始端記号を「<s>」で、終端記号を「<e>」で、それぞれ表している。また、この再帰型ニューラルネットが出力するIDは、カナに対応するID、またはヌル(空記号)に対応するIDである。図中において、「Φ」がヌルである。同図において、入力には「i1」から「i8」までの記号を付しており、また出力には「o1」から「o8」までの出力を付している。この再帰型ニューラルネットの動作例は、次の通りである。
図示する再帰型ニューラルネットは、既に学習済みであり、入力されるIDと、そのときの内部状態とに対応して、IDを出力する。入力i1に出力o1が対応する。また入力i2に出力o2が対応し、以下も同様である。また、再帰型ニューラルネットは、入力されるIDとそのときの内部状態とに対応して、都度、内部状態を更新する。
同図に示す例では、まず、入力i1は始端記号<s>に対応するIDである。この始端記号<s>の入力に対応する出力o1は空記号Φに対応するIDである。
次に、入力i2は、国籍「USA」に対応するIDである。この国籍「USA」の入力に対する出力o2は空記号Φである。
次に、入力i3からi7までは、それぞれ、アルファベットの「S」,「T」,「E」,「V」,「E」に対応するIDである。これらの入力に対応する出力o3からo7までは、それぞれ、空記号Φ,カナ「ス」,空記号Φ,カナ「ティー」,空記号Φに対応するIDである。
そして最後の入力i8は終端記号<e>である。この終端記号<e>の入力に対応する出力o8は、カナ「ブ」に対応するIDである。
つまり、<s>−国籍USA−STEVE−<e>という入力列に対応して、再帰型ニューラルネットは、Φ−Φ−Φ−「ス」−Φ−「ティー」−Φ−「ブ」という出力列を出力する。この出力列から空記号Φを除去して、出力されたカナのみを連結すると、「スティーブ」が得られる。つまり、この再帰型ニューラルネットは、事前に学習を行っていたことにより、入力である国籍USAとアルファベット表記「STEVE」に対応して、その音訳であるカナ表記「スティーブ」を出力する。
再帰型ニューラルネットは、それまでに入力された情報を内部状態として保管しておく機能がある。したがって、例えば図示した例のように、アルファベット「S」の直後にアルファベット「T」が入力されると、その時点で「S」の部分の読みが確定する。これにより、再帰型ニューラルネットは、アルファベット「T」の入力に対応してカナ「ス」を出力する。
また、同様に、アルファベット表記よりも前に国籍情報を入力することにより、再帰型ニューラルネットの内部では、常にその国籍情報を考慮した状態が維持される。したがって、国籍情報よりも後に入力されるアルファベット表記が、その国籍を前提としたカナ出力を生じさせる。
次に、再帰型ニューラルネットの学習を行う処理について説明する。図3に示したような音訳が行えるモデルを作成するために、再帰型ニューラルネットの学習を行う。学習の処理としては、CTC(connectionist temporal classification)により、入力と出力との間の誤差を計算し、その誤差を用いて出力から逆向きに順次に計算して学習を行う誤差逆伝搬法(back propagation,バックプロパゲーション)によるモデル更新を行うことを繰り返す。CTCは、入力データ長と正解データ長とが異なる場合に有効な手法である。具体的には、CTCでは、出力系列の中に空文字(空記号)を挿入し、正解データが正しい順序で出力される場合のコストを計算する。これにより、複数の入力データから一つの正解を出す場合にも有効である。なお、CTC自体は、既存の技術である。
仮にCTCを使わずに同様の結果を得ようとすると、事前に文字同士の対応関係を作成し、その対応関係を考慮して空文字を正解データに挿入しておく必要がある。CTCを用いる場合にはそのような煩雑さを避けることができる。
図4は、再帰型ニューラルネットによる学習処理の手順を示すフローチャートである。学習時には、学習部18への入力として、固有名詞(人名等)のアルファベット表記と、国籍情報と、それらに対応する正解データ(カナ表記)を供給する。以下、このフローチャートに沿って説明する。
まずステップS1において、学習部18は、再帰型ニューラルネットの構造を持ったモデルを作成する。学習部18が再帰型ニューラルネットのモデルを作成する代わりに、作成済みのモデルを外部から読み込むようにしてもよい。
次にステップS2において、学習部18は、再帰型ニューラルネットの内部変数をリセットする。以前の処理(今回の1件の学習用データよりも前の学習用データの処理)の過程で内部変数の値が変化していた場合にも、本ステップでの処理により、内部変数は初期化される。なお、本ステップでリセットする内部変数には、再帰型ニューラルネットからの出力を保存するためのスタックを含む。そして、本ステップで内部変数をリセットしても、学習効果がリセットされるわけではない。
次にステップS3において、学習部18は、再帰型ニューラルネットに、1件の学習データの始端記号<s>と国籍IDを入力する。そして、学習部18は、これらの入力IDのそれぞれに対応する出力IDを、逐次、スタックに保存する。ただし、本ステップにおいて入力される入力IDは、始端記号と国籍IDのみであるので、これらに対応する出力IDはいずれも空記号Φに対応するIDである。
次にステップS4において、学習部18は、再帰型ニューラルネットに、アルファベット表記のデータに含まれる1文字に対応するIDを入力する。学習部18は、具体的には、当該学習データのアルファベット表記に含まれるアルファベットであって、未入力の文字のうちの先頭の1文字に対応するIDを入力する。そして、学習部18は、その入力IDに対応して再帰型ニューラルネットから出力される出力IDを、スタックに保存する。本ステップで出力されるIDは、カナ表記に対応するID、または空記号Φに対応するIDである。
次にステップS5において、学習部18は、1件の学習用データのアルファベットが全て入力済みであるか否かを判断する。当該1件の全アルファベットに対応するIDが入力済みである場合(ステップS5:YES)には、次のステップS6に進む。当該1件のデータのアルファベット表記に関して未入力のアルファベットがまだ残っている場合(ステップS5:NO)には、前のステップS4に戻る。
上記のステップS4およびS5のループにより、学習部18は、アルファベット表記に含まれるアルファベットを先頭から1文字ずつ再帰型ニューラルネットに入力する。そして、これらの入力に対応する出力IDは、スタックに蓄積される。
次にステップS6に進んだ場合、同ステップにおいて、学習部18は、再帰型ニューラルネットに、終端記号<e>に対応するIDを入力する。そして、学習部18は、この終端記号<e>に対応して再帰型ニューラルネットから出力される出力IDを、スタックに保存する。
次にステップS7において、学習部18は、ステップS3からS6までの処理でスタックに保存された出力と、正解データであるカナ表記(学習データとして与えられたカタカナ表記のデータ)との間での誤差をCTCにより計算する。なおこのとき、学習部18は、スタックに保存された出力IDの各々を、カナ表記に変換する。また、学習部18は、出力IDの列から、空記号Φに対応するIDを除去する。
次にステップS8において、学習部18は、ステップS7で求めた誤差を用いて、誤差逆伝搬法により、再帰型ニューラルネットのモデルを更新する。具体的には、学習部18は、再帰型ニューラルネットのノード間の接続における重み付けを更新する。
次にステップS9において、学習部18は、学習が完了したかどうかを判断する。具体的には、学習部18は、データ選択部12から供給される学習データの全件による学習処理を終えたか否かを判断する。学習が完了している場合(ステップS9:YES)には、次のステップS10に進む。学習が未完了である場合(ステップS9:NO)には、ステップS2に戻って、次の学習データによる処理を行う。
次にステップS10に進んだ場合、同ステップにおいて、学習部18は、学習済みの再帰型ニューラルネットモデルを出力、保存する。具体的には、学習部18は、ニューラルネットのノード間の接続形態の情報や、学習済みのノード間の接続の重み(前段のノードの値を基に後段のノードの値を積和演算する際の重み)の値の情報を、モデルとして、音訳モデル記憶部19に書き込む。
以上により、再帰型ニューラルネットの学習処理を終了する。
なお、上記の学習処理においては、ひとまとまりのデータでの学習を複数回繰り返すこととする。例えば、学習データに10,000件の固有名詞のデータが含まれていれば、その10,000件のデータを用いて学習処理を行い、モデルを出力した後に、再度、その学習済みのモデルを用いて同じ10,000件の固有名詞のデータで学習を行う。こういった学習処理を、複数回繰り返す。これにより、ひとまとまりのデータで1回だけ学習を行う場合よりも、モデルの学習の効果を高めることができる。今回の固有名詞の音訳処理に関しては、ひとまとまりのデータを用いて10回から20回程度学習を繰り返すことにより、良い性能が得られることがわかっている。
つまり、データ選択部12は、学習データ記憶部11に記憶されているひとまとまりの学習データによる学習を複数回繰り返せるように、学習データを適宜選択し、学習部18に供給する。
また、学習時にドロップアウト(drop out)と呼ばれる手法を用いるようにする。このドロップアウトは、ニューラルネットの内部で故意にデータを欠損させることにより、データの揺れをシミュレートする効果を生じさせる手法である。これにより、入力データが整っていない場合や、学習データと全く同じ系列のデータが出力しない場合にも、それなりに学習を行うことが可能となる。
つまり、データ選択部12は、このドロップアウトの手法をも用いて、学習データを学習部18に供給する。
また、学習時に、学習データのランダムな並べ替えを行うようにしてもよい。一般にニューラルネットの学習では、学習データの順序がモデルに影響を及ぼす。即ち、同一の学習データ集合を用いて学習を行っても、学習データを並べた順序によって、学習結果に差が生じ得る。このような作用を打ち消すために、学習データのランダムな並べ替えを行って、順序による影響を平均化することが有効である。
つまり、データ選択部12は、このランダムな並べ替えの手法をも用いて、学習データを学習部18に供給する。
[第2実施形態]
次に、第2実施形態を説明する。なお、前実施形態において既に説明した事項についてはここでは説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
図5は、本実施形態による音訳処理装置の概略機能構成を示すブロック図である。図示するように、音訳処理装置2は、学習データ記憶部11と、データ選択部12と、カナ−ID変換部14と、アルファベット−ID変換部15と、国籍−ID変換部16と、学習部18と、音訳モデル記憶部19と、アルファベット−ID変換部25と、国籍−ID変換部26と、音訳実行部28と、ID−カナ変換部34とを含んで構成される。なお、ここで、学習データ記憶部11と、データ選択部12と、カナ−ID変換部14と、アルファベット−ID変換部15と、国籍−ID変換部16と、学習部18と、音訳モデル記憶部19とのそれぞれは、前実施形態におけるそれらと同様の機能を有している。
つまり、音訳処理装置2は、前実施形態における音訳処理装置1が備える構成に加えて、さらに、アルファベット−ID変換部25と、国籍−ID変換部26と、音訳実行部28と、ID−カナ変換部34とを含んでいる。これら各部の機能を、次に説明する。
上記の構成を有する音訳処理装置2は、学習部18によって学習済みの音訳モデルを用いて、アルファベット表記をカタカナ表記に変換する処理を行う。即ち、音訳実行部28は、音訳モデル記憶部19から、学習済みの再帰型ニューラルネットのモデルを読み込み、音訳処理を行う。音訳処理装置2は、外部から、音訳対象である固有名詞(人名等)のアルファベット表記のデータと、その固有名詞に関連付けられた国籍情報とを、ペアとして取得する。
アルファベット−ID変換部25は、外部から入力されるアルファベット表記による固有名詞(人名等)のデータを、アルファベットの各文字に対応したIDに変換し、音訳実行部28に供給する。音訳実行部28はアルファベット表記の1文字ずつを逐次処理するため、アルファベット−ID変換部25は、各文字に対応するIDを逐次、音訳実行部28に供給する。
国籍−ID変換部26は、上記のアルファベット表記のデータに関連付けられた国籍情報を外部から取得し、これを、国籍を表すIDに変換し、音訳実行部28に供給する。
音訳実行部28は、国籍−ID変換部26から供給される国籍のIDと、アルファベット−ID変換部25から供給されるアルファベット表記に対応したIDの列とに基づいて、そのアルファベット表記の音訳を行い、カタカナの列に対応したIDを出力する。
一般化して言うと、音訳実行部28は、音訳モデル記憶部19から学習済みの音訳モデルを読み込むとともに、読み込んだ音訳モデルを用いて、入力したアルファベット表記によるアルファベット表記データと、アルファベット表記データに対応する所属情報(国籍情報)との組を、アルファベット表記データに対応するカナ表記によるカナ表記データに変換する。
なお、音訳実行部28は、再帰型ニューラルネットの機能を内部に有しており、音訳モデル記憶部19からモデルの情報を読み込んで使用する。音訳モデル記憶部19は、予め、学習によって得られたモデルの情報を記憶している。
ID−カナ変換部34は、音訳実行部28から出力されるIDの列を、対応するカタカナの列に変換し、得られたカタカナ列を外部に出力する。なおこのとき、1つのIDが1文字のカタカナに対応する場合と、1つのIDが複数のカタカナから成るカナトークンに対応する場合とがある。
図6は、学習済みの再帰型ニューラルネットを用いて、アルファベット表記をカタカナ表記(音訳表現)に変換する処理の手順を示すフローチャートである。
このフローチャートに示す処理は、1件の固有名詞(人名等)についてアルファベット表記をカタカナ表記に変換する処理である。複数件の固有名詞についてカタカナ表記への変換を行う場合には、このフローチャートで示す処理を繰り返せばよい。あるいは、複数件の固有名詞について変換を行う場合には、ステップS11の処理を一旦行った後は、ステップS12からS18までの処理を繰り返せばよい。
以下、このフローチャートに沿って説明する。
まずステップS11において、音訳実行部28は、音訳モデル記憶部19から、再帰型ニューラルネットのモデルを読み込む。この再帰型ニューラルネットは、学習部18による学習が済んでいるものである。本ステップで音訳実行部28が読み込むモデルの情報としては、学習済みの再帰型ニューラルネットのノード間接続における重みのパラメーターの情報が含まれる。
次に、ステップS12において、音訳実行部28は、再帰型ニューラルネットの内部変数をリセットする。
次に、ステップS13において、音訳実行部28は、再帰型ニューラルネットに、始端記号<s>に対応するIDを入力し、次に国籍に対応するIDを入力する。これにより、再帰型ニューラルネットは、各入力に対応して出力IDを出力する。音訳実行部28は、出力IDをスタックに保存する。ただし、本ステップではまだ再帰型ニューラルネットに始端記号と国籍IDしか入力していないため、出力されるIDはそれぞれ空記号Φに対応するIDである。
なお、本ステップにおいて音訳実行部28が入力する国籍のIDは、外部から入力される国籍の情報を国籍−ID変換部26が変換して得られたIDである。
次に、ステップS14において、音訳実行部28は、アルファベット表記のうちの1文字に対応するIDを、再帰型ニューラルネットに入力する。具体的には、音訳実行部28は、アルファベット表記に含まれる文字の列の中の、未入力の文字の先頭文字に対応するIDを入力する。これにより、再帰型ニューラルネットは、入力に対応した出力IDを出力する。音訳実行部28は、出力IDをスタックに保存する。
次に、ステップS15において、音訳実行部28は、アルファベット表記に含まれるすべての文字が入力済みであるか否かを判断する。全アルファベットが入力済みである場合(ステップS15:YES)には、次のステップS16に進む。全アルファベットが入力済みではなく、残っている文字がまだ存在する場合(ステップS15:NO)には、次の文字を入力するためにステップS14に戻る。
これら、ステップS14およびS15からなるループの処理を繰り返すことにより、再帰型ニューラルネットは、アルファベット表記に含まれる全文字に対応するIDを逐次入力する。
次に、ステップS16に進んだ場合、同ステップにおいて、音訳実行部28は、再帰型ニューラルネットに終端記号<e>を入力する。これにより、再帰型ニューラルネットは、入力に対応した出力IDを出力する。音訳実行部28は、その出力IDをスタックに保存する。
次に、ステップS17において、ID−カナ変換部34は、スタック上に蓄積された出力IDをカタカナの列に変換する。なおこのとき、ID−カナ変換部34は、空記号Φに対応するIDを、空文字に変換する。言い換えれば、ID−カナ変換部34は、空記号Φに対応するIDに対応して、何も出力しない。ID−カナ変換部34は、カタカナをすべてつなぎ合わせて得られる文字列を、出力する。これで、入力された固有名詞に対応するカナ表記が得られる。
そして、ステップS18において、ID−カナ変換部34は、ステップS17の処理で得られたカタカナの列を、音訳結果として外部に出力する。
以上で、音訳処理装置2は、アルファベット表記による1件の固有名詞のデータを、カタカナ表記に音訳する処理の全体を終了する。
なお、上述した各実施形態における音訳処理装置の機能の少なくとも一部をコンピューターで実現するようにしても良い。その場合、この音訳処理装置の機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
[変形例1]
第2実施形態で説明した音訳処理装置2は、学習部18をはじめとする学習処理のための機能と、音訳実行部28をはじめとする音訳実行のための機能の、両方を備えていた。
変形例1として、代わりに、音訳処理装置が学習処理のための機能を含まないようにしてもよい。その場合、音訳処理装置自体が学習機能を含まなくても、例えば第1実施形態で説明した音訳処理装置1で得られた音訳モデル(学習済みの音訳モデル)の情報を、記憶部に記憶させておき、音訳実行部28がその音訳モデルの情報を読み込むことによって、適切に音訳を行うことができる。
[変形例2]
第1実施形態および第2実施形態で説明した音訳処理装置は、アルファベットによる表記をカタカナ(カナ)による表記に変換するための音訳モデルを構築するものであった。
変形例2として、アルファベットによる表記によるデータを、カタカナ以外の表記に変換するための音訳モデルを構築する音訳処理装置としてもよい。あるいは、アルファベット以外の表記によるデータを、カタカナによる表記に変換するための音訳モデルを構築する音訳処理装置としてもよい。あるいは、アルファベット以外の表記によるデータを、カタカナ以外による表記に変換するための音訳モデルを構築する音訳処理装置としてもよい。
以上、説明した、第1実施形態、第2実施形態およびそれらの変形例において、音訳処理装置は、変換処理装置の一特殊例である。即ち、音訳処理は、変換処理の一例である。また、アルファベット表記は、第1表記の一例である。また、アルファベット表記によるデータは、第1データの一例である。また、カナ表記は、第2表記の一例である。また、カナ表記によるデータは、第2データの一例である。また、国籍および国籍情報は、それぞれ、所属および所属情報の一例である。国籍および国籍情報は、それぞれ、属性および属性情報の一例であるとも言える。また、音訳モデルおよび音訳モデル記憶部は、それぞれ、変換モデルおよび変換モデル記憶部の一例である。また、音訳実行部は、変換実行部の一例である。
[第3実施形態]
次に、第3実施形態を説明する。なお、前実施形態までにおいて既に説明した事項についてはここでは説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
図7は、本実施形態による変換処理装置の概略機能構成を示すブロック図である。図示するように、変換処理装置3は、学習データ記憶部61と、データ選択部62と、第2表記−ID変換部64と、第1表記−ID変換部65と、属性−ID変換部66と、学習部68と、変換モデル記憶部69と、第1表記−ID変換部75と、属性−ID変換部76と、変換実行部78と、ID−第2表記変換部84と、を含んで構成される。
この変換処理装置の構成は、第2実施形態で説明した音訳処理装置の構成に対応している。即ち、次の通りである。
学習データ記憶部61は、学習データ記憶部11に対応し、同等の機能を有する。
データ選択部62は、データ選択部12に対応し、同等の機能を有する。なお、データ選択部62は、データ乱択部621と学習回数管理部622を含む。これは、データ選択部12がデータ乱択部121と学習回数管理部122を含んで構成されるのと同様である。
第2表記−ID変換部64は、カナ−ID変換部14に対応し、同等の機能を有する。
第1表記−ID変換部65は、アルファベット−ID変換部15に対応し、同等の機能を有する。
属性−ID変換部66は、国籍−ID変換部16に対応し、同等の機能を有する。
学習部68は、学習部18に対応し、同等の機能を有する。
変換モデル記憶部69は、音訳モデル記憶部19に対応し、同等の機能を有する。
第1表記−ID変換部75は、アルファベット−ID変換部25に対応し、同等の機能を有する。
属性−ID変換部76は、国籍−ID変換部26に対応し、同等の機能を有する。
変換実行部78は、音訳実行部28に対応し、同等の機能を有する。
ID−第2表記変換部84は、ID−カナ変換部34に対応し、同等の機能を有する。
本実施形態による変換処理装置3は、アルファベット表記によるデータの音訳処理(カナ表記によるデータへの変換)だけでなく、一般に、第1表記による第1データの、第2表記による第2データへの変換を行うための、変換モデルの学習を行う。また、変換処理装置3は、学習済みの変換モデルを用いて、第1表記による第1データの、第2表記による第2データへの変換を行う。
なお、変換処理装置3が、第1表記−ID変換部75と、属性−ID変換部76と、変換実行部78と、ID−第2表記変換部84とを含まない構成としてもよい。この場合、変換処理装置3は、モデルの学習のみを行い、実際の変換実行を行わない。
また、逆に、変換処理装置3が、変換モデル記憶部69と、第1表記−ID変換部75と、属性−ID変換部76と、変換実行部78と、ID−第2表記変換部84とのみを含む構成としてもよい。この場合、変換処理装置3は、学習済みのモデルを用いて、変換実行の処理を行う。
なお、変換処理装置3の具体的な処理手順は、第1実施形態および第2実施形態でフローチャートを参照しながら説明した手順と同様である。ただし、このとき、変換処理装置3は、アルファベット表記を「第1表記」に置き換え、カナ表記を「第2表記」に置き換え、国籍を「属性」に置き換えた処理を行う。
このような構成を有する変換処理装置3は、学習処理を効果的に行い、学習済みのモデルに基づく変換処理を良好に行う。
本実施形態で扱う具体的なデータの例は、次の通りである。
例1:数字列を、その数字列の読み方を示すかな(例えば、平仮名)に変換する。
属性情報としては、「郵便番号」、「金額」、「時刻」などがあり得る。
属性が「郵便番号」である場合、数字列「1578510」は、「いちごななはちごいちれい」に変換される。
属性が「金額」である場合、上と同じ数字列「1578510」は、「ひゃくごじゅうななまんはっせんごひゃくじゅう」に変換される。
属性が「時刻」である場合、数字列「1507」は、「じゅうごじななふん」に変換される。
このように、同じ数字でも読み方を変える必要がある場合に,変換処理装置3は有用である。これにより、効率的なモデルの学習が可能となる。
例2:かなの列を漢字の列に変換する。いわゆる「かな漢字変換」の処理である。
属性が「技術資料」である場合、かな文字列「こうせい」は、漢字列「校正」に変換される。
属性が「歴史資料」である場合、かな文字列「こうせい」は、漢字列「後世」に変換される。
属性が「組織図」である場合、かな文字列「こうせい」は、漢字列「構成」に変換される。
また、別のかな文字列の例は次の通りである。
かな文字列:さんか
属性が「案内文」である場合、かな文字列「さんか」は、漢字文字列「参加」に変換される。
属性が「科学文章」である場合、かな文字列「さんか」は、漢字文字列「酸化」に変換される。
属性が「歴史資料」である場合、かな文字列「さんか」は、漢字文字列「惨禍」に変換される。
このように、同じひらがなでも異なる漢字に変換され得る場合、変換処理装置3は有用である。これにより、効率的なモデルの学習が可能となる。
なお、上述した各実施形態における変換処理装置の機能の少なくとも一部をコンピューターで実現するようにしても良い。その場合、この変換処理装置の機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
実データを用いて実施した性能比較の結果は、下の表に示す通りである。
本願実施形態による手法は、第1実施形態に記載した方法で学習済みの音訳処理装置を用いて、第2実施形態に記載した方法でアルファベット表記をカタカナ表記に変換したものである。なお、この実施例では、再帰型ニューラルネットとして、LSTM(Long Short Term Memory)を用いている。性能は、正解率およびBLEU値により評価する。なお「BLEU」は、「BiLingual Evaluation Understudy」の略である。
比較対象の(1)のSMTは、従来技術による統計的翻訳手法を用いた音訳である。また、(2)のEncoder-Decoderは、ニューラルネットを用いた機械翻訳で主流の手法である。また、(3)は再帰型ニューラルネット(RNN)を用いた手法(ただし、国籍情報等を入力しない)である。
これらのいずれの比較対象よりも、本願実施形態による手法の性能は良い。
なお、比較対象(1)のSMTは、比較対象(2)や(3)よりは高い性能を示すが、本願実施形態のように国籍情報を利用することが困難である。
Figure 2018028848
本発明は、複数の国や文化等に属する語(固有名詞など)を音訳するビジネスに利用可能である。典型的には、多数の固有名詞の音訳データとして整備するビジネス(例えば、放送事業やデータベース事業等)に利用可能である。
1,2 音訳処理装置
3 変換処理装置
11 学習データ記憶部
12 データ選択部
14 カナ−ID変換部
15 アルファベット−ID変換部
16 国籍−ID変換部
18 学習部
19 音訳モデル記憶部
25 アルファベット−ID変換部
26 国籍−ID変換部
28 音訳実行部
34 ID−カナ変換部
61 学習データ記憶部
62 データ選択部
64 第2表記−ID変換部
65 第1表記−ID変換部
66 属性−ID変換部
68 学習部
69 変換モデル記憶部
75 第1表記−ID変換部
76 属性−ID変換部
78 変換実行部
84 ID−第2表記変換部
121,621 データ乱択部
122,622 学習回数管理部

Claims (7)

  1. 第1表記による第1データと、前記第1表記による前記第1データの属性を表す情報である属性情報と、前記属性情報を前提として前記第1データを第2表記による第2データに変換する際の、前記第1データと前記属性情報と前記第2データとの統計的関係を表す変換モデルを記憶する変換モデル記憶部と、
    前記第1表記による第1データと、前記第1データに対応する前記属性情報と、前記第1表記によるデータを第2表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって変換モデルを更新し、得られた学習済みの変換モデルを前記変換モデル記憶部に書き込む学習部と、
    を具備することを特徴とする変換処理装置。
  2. 固有名詞のアルファベット表記によるアルファベット表記データと、前記アルファベット表記データに対応した所属を表す情報である所属情報と、前記所属情報を前提として前記アルファベット表記データをカナ表記により当該固有名詞の読みを表すカナ表記データに音訳する際の、前記アルファベット表記データと前記所属情報と前記カナ表記データとの統計的関係を表す音訳モデルを記憶する音訳モデル記憶部と、
    固有名詞の前記アルファベット表記データと、前記アルファベット表記データに対応する前記所属情報と、前記アルファベット表記データをカナ表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって音訳モデルを更新し、得られた学習済みの音訳モデルを前記音訳モデル記憶部に書き込む学習部と、
    を具備することを特徴とする音訳処理装置。
  3. 前記音訳モデル記憶部は、再帰型ニューラルネットによる音訳モデルを記憶するものであり、
    前記学習部は、再帰型ニューラルネットを用いて学習を行うことによって、前記音訳モデルを更新する、
    ことを特徴とする請求項2に記載の音訳処理装置。
  4. 前記音訳モデル記憶部から前記学習済みの音訳モデルを読み込むとともに、読み込んだ前記音訳モデルを用いて、入力したアルファベット表記によるアルファベット表記データと前記アルファベット表記データに対応する前記所属情報との組を、前記アルファベット表記データに対応するカナ表記によるカナ表記データに変換する音訳実行部、
    をさらに具備することを特徴とする請求項2または3に記載の音訳処理装置。
  5. 前記所属情報は、前記固有名詞に対応する国籍を表す国籍情報である、
    ことを特徴とする請求項2から4までのいずれか一項に記載の音訳処理装置。
  6. コンピューターを、
    請求項1に記載の変換処理装置として機能させるためのプログラム。
  7. コンピューターを、
    請求項2から5までのいずれか一項に記載の音訳処理装置として機能させるためのプログラム。
JP2016161211A 2016-08-19 2016-08-19 変換処理装置、音訳処理装置、およびプログラム Pending JP2018028848A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016161211A JP2018028848A (ja) 2016-08-19 2016-08-19 変換処理装置、音訳処理装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016161211A JP2018028848A (ja) 2016-08-19 2016-08-19 変換処理装置、音訳処理装置、およびプログラム

Publications (1)

Publication Number Publication Date
JP2018028848A true JP2018028848A (ja) 2018-02-22

Family

ID=61248455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016161211A Pending JP2018028848A (ja) 2016-08-19 2016-08-19 変換処理装置、音訳処理装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP2018028848A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021107445A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치
JP2021189429A (ja) * 2020-05-28 2021-12-13 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識方法及び装置、電子機器並びに記憶媒体
JP2022515048A (ja) * 2018-12-12 2022-02-17 グーグル エルエルシー 音声認識の訓練および採点のための音訳

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324718A (ja) * 1992-05-19 1993-12-07 Fujitsu Ltd 固有名詞処理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324718A (ja) * 1992-05-19 1993-12-07 Fujitsu Ltd 固有名詞処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
安江 祐貴: "外国人名カタカナ表記自動推定における各国適応", 一般社団法人 人工知能学会 第30回全国大会論文集CD−ROM [CD−ROM] 2016年度 人工, JPN6020002687, 9 June 2016 (2016-06-09), pages 1 - 1, ISSN: 0004315527 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022515048A (ja) * 2018-12-12 2022-02-17 グーグル エルエルシー 音声認識の訓練および採点のための音訳
JP7208399B2 (ja) 2018-12-12 2023-01-18 グーグル エルエルシー 音声認識の訓練および採点のための音訳
WO2021107445A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치
JP2021189429A (ja) * 2020-05-28 2021-12-13 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識方法及び装置、電子機器並びに記憶媒体
JP7216065B2 (ja) 2020-05-28 2023-01-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声認識方法及び装置、電子機器並びに記憶媒体
US11756529B2 (en) 2020-05-28 2023-09-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for speech recognition, and storage medium

Similar Documents

Publication Publication Date Title
Vajjala et al. Practical natural language processing: a comprehensive guide to building real-world NLP systems
Silberztein Formalizing natural languages: The NooJ approach
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
CN106233375A (zh) 基于众包的用户文本输入从头开始学习语言模型
Amba Hombaiah et al. Dynamic language models for continuously evolving content
US20180173694A1 (en) Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion
JP2008052720A (ja) 簡体字と繁体字とを相互変換する方法及びその変換装置
KR102043353B1 (ko) 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법
Zhou et al. Spelling correction as a foreign language
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
JP2018028848A (ja) 変換処理装置、音訳処理装置、およびプログラム
CN107153469B (zh) 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品
CN113255331A (zh) 文本纠错方法、装置及存储介质
US20220383159A1 (en) Systems and methods for open domain multi-hop question answering
JP2019191900A (ja) 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
Pinter Integrating approaches to word representation
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
CN113204966B (zh) 语料增广方法、装置、设备及存储介质
CN111814433B (zh) 一种维吾尔语实体识别的方法、装置和电子设备
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置
Almansor et al. Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions
Linn et al. Part of speech tagging for kayah language using hidden markov model
CN102156693B (zh) 一种盲文输入方法和系统
Chaonithi et al. A hybrid approach for Thai word segmentation with crowdsourcing feedback system

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200804