JP2018028848A - 変換処理装置、音訳処理装置、およびプログラム - Google Patents
変換処理装置、音訳処理装置、およびプログラム Download PDFInfo
- Publication number
- JP2018028848A JP2018028848A JP2016161211A JP2016161211A JP2018028848A JP 2018028848 A JP2018028848 A JP 2018028848A JP 2016161211 A JP2016161211 A JP 2016161211A JP 2016161211 A JP2016161211 A JP 2016161211A JP 2018028848 A JP2018028848 A JP 2018028848A
- Authority
- JP
- Japan
- Prior art keywords
- data
- notation
- transliteration
- learning
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
例えば、放送事業において、ある言語における単語(例えば、人名や地名等)を、自動的に日本語のカタカナ表記に変換することができれば、放送コンテンツの制作コストを大幅に削減することができる。ここで、放送コンテンツとは、通常の映像や音声によるコンテンツだけではなく、データ放送のコンテンツや、文字スーパー等のテキストのコンテンツや、通常の放送だけでは伝わりづらい情報を補足的に音声で放送する「解説放送」のコンテンツなども含まれる。例えば、大規模なスポーツイベントにおいて、各国語で与えられる多数の出場選手の姓名の読み方を自動的にカタカナ表記に変換することができれば、便利である。また、各国語で与えられる出場選手らの姓名の読み方を一旦カタカナに変換することができれば、自動音声でそれらの姓名を読み上げることも可能となる。
従来技術(特許文献1、非特許文献1、非特許文献2など)による手法では、こういった訳し分けをすることは困難であった。
図1は、第1実施形態による音訳処理装置の概略機能構成を示すブロック図である。図示するように、音訳処理装置1は、学習データ記憶部11と、データ選択部12と、カナ−ID変換部14と、アルファベット−ID変換部15と、国籍−ID変換部16と、学習部18と、音訳モデル記憶部19とを含んで構成される。これらの各部は、例えば、電子回路を用いて実現される。なお、後述するようにコンピュータープログラムによりこれら各部の機能を実現するようにしてもよい。また、学習データ記憶部11と音訳モデル記憶部19は、データを記憶するための記憶手段を備えている。ここで記憶手段とは、例えば、磁気ハードディスク装置や半導体メモリ等である。音訳処理装置1を構成する各部の機能は、次に説明する通りである。
なお、データ選択部12は、内部に、データ乱択部121と、学習回数管理部122とを備えている。
データ乱択部121は、学習データ記憶部11に記憶されている学習データの集合から、ランダムな順序でデータを選択する。
学習回数管理部122は、データ選択部12が学習用に学習データを供給した回数をカウントし、管理する。
アルファベット−ID変換部15は、データ選択部12から供給されるアルファベット表記による固有名詞(人名等)のデータを、アルファベットの各文字に対応したIDに変換し、学習部18に供給する。学習部18はアルファベット表記の1文字ずつを逐次処理するため、アルファベット−ID変換部15は、各文字に対応するIDを学習部18に供給する。
国籍−ID変換部16は、上記のアルファベット表記のデータに関連付けられた国籍情報をデータ選択部12から取得し、これを、国籍を表すIDに変換し、学習部18に供給する。
なお、一般的な表現をすると、学習部18は、アルファベット表記によるアルファベット表記データと、アルファベット表記データに対応する所属情報(国籍情報)と、アルファベット表記データをカナ表記に音訳したときの正解を表す正解データ(学習データ内のカナ表記データ)とを用いて、機械学習を行うことによって音訳モデルを更新し、得られた学習済みの音訳モデルを音訳モデル記憶部19に書き込む。
再帰型ニューラルネットのモデルの構造は、予め定めておくようにする。ここでは、入力が、アルファベットと記号とを合わせた32次元と、国籍数として216次元との、合計248次元である。また、再帰型ニューラルネットの中間層を、例えば1000次元とする。また出力は、カナトークンの455次元である。このカナトークンでは、通常のカナのみから成るトークンに加え、促音とそれに後続するカナとをひとつのトークンとしてまとめ、また長音あるいは拗音とそれに先行するカナとをひとつのトークンとしてまとめる。これらの組み合わせにより、本実施形態は次のようなカナトークンを、再帰型ニューラルネットの出力として扱うものであり、それらのカナトークンの種類の合計が上記の455次元である。
(1)カナのみで成るトークン:例えば「ア」
(2)カナ+拗音で成るトークン:例えば「ジョ」
(3)カナ+長音で成るトークン:例えば「ター」
(4)カナ+拗音+長音で成るトークン:例えば「ツァー」
(5)促音+カナで成るトークン:例えば「ット」
(6)促音+カナ+拗音で成るトークン:例えば「ッジョ」
(7)促音+カナ+長音で成るトークン:例えば「ッター」
(8)促音+カナ+拗音+長音で成るトークン:例えば「ッツァー」
なお、これらの各トークンは、カナの「ID」に対応するものである。
なお、一般的な表現をすると、音訳モデル記憶部19は、アルファベット表記によるアルファベット表記データと、アルファベット表記によるアルファベット表記データの文化的所属(例えば国籍)を表す情報である所属情報(国籍情報)と、前記所属情報を前提としてアルファベット表記データをカナ表記によるカナ表記データに音訳する際の、アルファベット表記データと所属情報とカナ表記データとの統計的関係を表す音訳モデルを記憶するものである。
図2は、学習データ記憶部11が保持する学習データの構造とデータ例を示す概略図である。図示するように、学習データは、表形式のデータとして保持され得る。この表は、アルファベット表記と、カタカナ表記と、国籍の、各項目を有している。アルファベット表記の項目は、固有名詞(人名)のアルファベット表記のデータを保持する。カタカナ表記の項目は、その固有名詞(人名)のカタカナ表記のデータを保持する。国籍の項目は、その固有名詞(人名)が関連付けられる国籍を表すコード情報を保持する。そして、この表における各行が、1件の固有名詞(人名)に対応している。なお、同図において、便宜的にデータの各行に行番号を付している。
一例として、行番号「1」に対応するアルファベット表記は「Peter Taylor」であり、カタカナ表記は「ピーター・テイラー」であり、国籍を表すコード情報は「IE」(アイルランド)である。
国籍の他に、例えば、言語圏(英語圏、フランス語圏、スペイン語圏、中国語圏など)も、所属情報の一例である。
また、国籍と言語圏とを組み合わせたもの(カナダ国籍の英語圏、カナダ国籍のフランス語圏など)も、所属情報の一例である。
また、ここに例示した者に限らず、固有名詞の表記を他の表記に音訳する際に鍵となる属性は、所属情報であり得る。
つまり、国籍や言語圏等の上位概念を「所属情報」と呼ぶ。
本実施形態では所属情報として国籍の情報を用いているが、所属情報として、上に例示したような他の情報を用いるようにしてもよい。
同図に示す例では、まず、入力i1は始端記号<s>に対応するIDである。この始端記号<s>の入力に対応する出力o1は空記号Φに対応するIDである。
次に、入力i2は、国籍「USA」に対応するIDである。この国籍「USA」の入力に対する出力o2は空記号Φである。
次に、入力i3からi7までは、それぞれ、アルファベットの「S」,「T」,「E」,「V」,「E」に対応するIDである。これらの入力に対応する出力o3からo7までは、それぞれ、空記号Φ,カナ「ス」,空記号Φ,カナ「ティー」,空記号Φに対応するIDである。
そして最後の入力i8は終端記号<e>である。この終端記号<e>の入力に対応する出力o8は、カナ「ブ」に対応するIDである。
つまり、<s>−国籍USA−STEVE−<e>という入力列に対応して、再帰型ニューラルネットは、Φ−Φ−Φ−「ス」−Φ−「ティー」−Φ−「ブ」という出力列を出力する。この出力列から空記号Φを除去して、出力されたカナのみを連結すると、「スティーブ」が得られる。つまり、この再帰型ニューラルネットは、事前に学習を行っていたことにより、入力である国籍USAとアルファベット表記「STEVE」に対応して、その音訳であるカナ表記「スティーブ」を出力する。
また、同様に、アルファベット表記よりも前に国籍情報を入力することにより、再帰型ニューラルネットの内部では、常にその国籍情報を考慮した状態が維持される。したがって、国籍情報よりも後に入力されるアルファベット表記が、その国籍を前提としたカナ出力を生じさせる。
仮にCTCを使わずに同様の結果を得ようとすると、事前に文字同士の対応関係を作成し、その対応関係を考慮して空文字を正解データに挿入しておく必要がある。CTCを用いる場合にはそのような煩雑さを避けることができる。
次にステップS5において、学習部18は、1件の学習用データのアルファベットが全て入力済みであるか否かを判断する。当該1件の全アルファベットに対応するIDが入力済みである場合(ステップS5:YES)には、次のステップS6に進む。当該1件のデータのアルファベット表記に関して未入力のアルファベットがまだ残っている場合(ステップS5:NO)には、前のステップS4に戻る。
上記のステップS4およびS5のループにより、学習部18は、アルファベット表記に含まれるアルファベットを先頭から1文字ずつ再帰型ニューラルネットに入力する。そして、これらの入力に対応する出力IDは、スタックに蓄積される。
次にステップS8において、学習部18は、ステップS7で求めた誤差を用いて、誤差逆伝搬法により、再帰型ニューラルネットのモデルを更新する。具体的には、学習部18は、再帰型ニューラルネットのノード間の接続における重み付けを更新する。
以上により、再帰型ニューラルネットの学習処理を終了する。
つまり、データ選択部12は、学習データ記憶部11に記憶されているひとまとまりの学習データによる学習を複数回繰り返せるように、学習データを適宜選択し、学習部18に供給する。
つまり、データ選択部12は、このドロップアウトの手法をも用いて、学習データを学習部18に供給する。
つまり、データ選択部12は、このランダムな並べ替えの手法をも用いて、学習データを学習部18に供給する。
次に、第2実施形態を説明する。なお、前実施形態において既に説明した事項についてはここでは説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
つまり、音訳処理装置2は、前実施形態における音訳処理装置1が備える構成に加えて、さらに、アルファベット−ID変換部25と、国籍−ID変換部26と、音訳実行部28と、ID−カナ変換部34とを含んでいる。これら各部の機能を、次に説明する。
国籍−ID変換部26は、上記のアルファベット表記のデータに関連付けられた国籍情報を外部から取得し、これを、国籍を表すIDに変換し、音訳実行部28に供給する。
一般化して言うと、音訳実行部28は、音訳モデル記憶部19から学習済みの音訳モデルを読み込むとともに、読み込んだ音訳モデルを用いて、入力したアルファベット表記によるアルファベット表記データと、アルファベット表記データに対応する所属情報(国籍情報)との組を、アルファベット表記データに対応するカナ表記によるカナ表記データに変換する。
なお、音訳実行部28は、再帰型ニューラルネットの機能を内部に有しており、音訳モデル記憶部19からモデルの情報を読み込んで使用する。音訳モデル記憶部19は、予め、学習によって得られたモデルの情報を記憶している。
このフローチャートに示す処理は、1件の固有名詞(人名等)についてアルファベット表記をカタカナ表記に変換する処理である。複数件の固有名詞についてカタカナ表記への変換を行う場合には、このフローチャートで示す処理を繰り返せばよい。あるいは、複数件の固有名詞について変換を行う場合には、ステップS11の処理を一旦行った後は、ステップS12からS18までの処理を繰り返せばよい。
以下、このフローチャートに沿って説明する。
次に、ステップS12において、音訳実行部28は、再帰型ニューラルネットの内部変数をリセットする。
なお、本ステップにおいて音訳実行部28が入力する国籍のIDは、外部から入力される国籍の情報を国籍−ID変換部26が変換して得られたIDである。
次に、ステップS15において、音訳実行部28は、アルファベット表記に含まれるすべての文字が入力済みであるか否かを判断する。全アルファベットが入力済みである場合(ステップS15:YES)には、次のステップS16に進む。全アルファベットが入力済みではなく、残っている文字がまだ存在する場合(ステップS15:NO)には、次の文字を入力するためにステップS14に戻る。
これら、ステップS14およびS15からなるループの処理を繰り返すことにより、再帰型ニューラルネットは、アルファベット表記に含まれる全文字に対応するIDを逐次入力する。
そして、ステップS18において、ID−カナ変換部34は、ステップS17の処理で得られたカタカナの列を、音訳結果として外部に出力する。
以上で、音訳処理装置2は、アルファベット表記による1件の固有名詞のデータを、カタカナ表記に音訳する処理の全体を終了する。
第2実施形態で説明した音訳処理装置2は、学習部18をはじめとする学習処理のための機能と、音訳実行部28をはじめとする音訳実行のための機能の、両方を備えていた。
変形例1として、代わりに、音訳処理装置が学習処理のための機能を含まないようにしてもよい。その場合、音訳処理装置自体が学習機能を含まなくても、例えば第1実施形態で説明した音訳処理装置1で得られた音訳モデル(学習済みの音訳モデル)の情報を、記憶部に記憶させておき、音訳実行部28がその音訳モデルの情報を読み込むことによって、適切に音訳を行うことができる。
第1実施形態および第2実施形態で説明した音訳処理装置は、アルファベットによる表記をカタカナ(カナ)による表記に変換するための音訳モデルを構築するものであった。
変形例2として、アルファベットによる表記によるデータを、カタカナ以外の表記に変換するための音訳モデルを構築する音訳処理装置としてもよい。あるいは、アルファベット以外の表記によるデータを、カタカナによる表記に変換するための音訳モデルを構築する音訳処理装置としてもよい。あるいは、アルファベット以外の表記によるデータを、カタカナ以外による表記に変換するための音訳モデルを構築する音訳処理装置としてもよい。
次に、第3実施形態を説明する。なお、前実施形態までにおいて既に説明した事項についてはここでは説明を省略する場合がある。以下では、本実施形態に特有の事項を中心に説明する。
学習データ記憶部61は、学習データ記憶部11に対応し、同等の機能を有する。
データ選択部62は、データ選択部12に対応し、同等の機能を有する。なお、データ選択部62は、データ乱択部621と学習回数管理部622を含む。これは、データ選択部12がデータ乱択部121と学習回数管理部122を含んで構成されるのと同様である。
第2表記−ID変換部64は、カナ−ID変換部14に対応し、同等の機能を有する。
第1表記−ID変換部65は、アルファベット−ID変換部15に対応し、同等の機能を有する。
属性−ID変換部66は、国籍−ID変換部16に対応し、同等の機能を有する。
学習部68は、学習部18に対応し、同等の機能を有する。
変換モデル記憶部69は、音訳モデル記憶部19に対応し、同等の機能を有する。
第1表記−ID変換部75は、アルファベット−ID変換部25に対応し、同等の機能を有する。
属性−ID変換部76は、国籍−ID変換部26に対応し、同等の機能を有する。
変換実行部78は、音訳実行部28に対応し、同等の機能を有する。
ID−第2表記変換部84は、ID−カナ変換部34に対応し、同等の機能を有する。
属性情報としては、「郵便番号」、「金額」、「時刻」などがあり得る。
属性が「郵便番号」である場合、数字列「1578510」は、「いちごななはちごいちれい」に変換される。
属性が「金額」である場合、上と同じ数字列「1578510」は、「ひゃくごじゅうななまんはっせんごひゃくじゅう」に変換される。
属性が「時刻」である場合、数字列「1507」は、「じゅうごじななふん」に変換される。
このように、同じ数字でも読み方を変える必要がある場合に,変換処理装置3は有用である。これにより、効率的なモデルの学習が可能となる。
属性が「技術資料」である場合、かな文字列「こうせい」は、漢字列「校正」に変換される。
属性が「歴史資料」である場合、かな文字列「こうせい」は、漢字列「後世」に変換される。
属性が「組織図」である場合、かな文字列「こうせい」は、漢字列「構成」に変換される。
また、別のかな文字列の例は次の通りである。
かな文字列:さんか
属性が「案内文」である場合、かな文字列「さんか」は、漢字文字列「参加」に変換される。
属性が「科学文章」である場合、かな文字列「さんか」は、漢字文字列「酸化」に変換される。
属性が「歴史資料」である場合、かな文字列「さんか」は、漢字文字列「惨禍」に変換される。
このように、同じひらがなでも異なる漢字に変換され得る場合、変換処理装置3は有用である。これにより、効率的なモデルの学習が可能となる。
本願実施形態による手法は、第1実施形態に記載した方法で学習済みの音訳処理装置を用いて、第2実施形態に記載した方法でアルファベット表記をカタカナ表記に変換したものである。なお、この実施例では、再帰型ニューラルネットとして、LSTM(Long Short Term Memory)を用いている。性能は、正解率およびBLEU値により評価する。なお「BLEU」は、「BiLingual Evaluation Understudy」の略である。
比較対象の(1)のSMTは、従来技術による統計的翻訳手法を用いた音訳である。また、(2)のEncoder-Decoderは、ニューラルネットを用いた機械翻訳で主流の手法である。また、(3)は再帰型ニューラルネット(RNN)を用いた手法(ただし、国籍情報等を入力しない)である。
これらのいずれの比較対象よりも、本願実施形態による手法の性能は良い。
なお、比較対象(1)のSMTは、比較対象(2)や(3)よりは高い性能を示すが、本願実施形態のように国籍情報を利用することが困難である。
3 変換処理装置
11 学習データ記憶部
12 データ選択部
14 カナ−ID変換部
15 アルファベット−ID変換部
16 国籍−ID変換部
18 学習部
19 音訳モデル記憶部
25 アルファベット−ID変換部
26 国籍−ID変換部
28 音訳実行部
34 ID−カナ変換部
61 学習データ記憶部
62 データ選択部
64 第2表記−ID変換部
65 第1表記−ID変換部
66 属性−ID変換部
68 学習部
69 変換モデル記憶部
75 第1表記−ID変換部
76 属性−ID変換部
78 変換実行部
84 ID−第2表記変換部
121,621 データ乱択部
122,622 学習回数管理部
Claims (7)
- 第1表記による第1データと、前記第1表記による前記第1データの属性を表す情報である属性情報と、前記属性情報を前提として前記第1データを第2表記による第2データに変換する際の、前記第1データと前記属性情報と前記第2データとの統計的関係を表す変換モデルを記憶する変換モデル記憶部と、
前記第1表記による第1データと、前記第1データに対応する前記属性情報と、前記第1表記によるデータを第2表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって変換モデルを更新し、得られた学習済みの変換モデルを前記変換モデル記憶部に書き込む学習部と、
を具備することを特徴とする変換処理装置。 - 固有名詞のアルファベット表記によるアルファベット表記データと、前記アルファベット表記データに対応した所属を表す情報である所属情報と、前記所属情報を前提として前記アルファベット表記データをカナ表記により当該固有名詞の読みを表すカナ表記データに音訳する際の、前記アルファベット表記データと前記所属情報と前記カナ表記データとの統計的関係を表す音訳モデルを記憶する音訳モデル記憶部と、
固有名詞の前記アルファベット表記データと、前記アルファベット表記データに対応する前記所属情報と、前記アルファベット表記データをカナ表記に音訳したときの正解を表す正解データとを用いて、機械学習を行うことによって音訳モデルを更新し、得られた学習済みの音訳モデルを前記音訳モデル記憶部に書き込む学習部と、
を具備することを特徴とする音訳処理装置。 - 前記音訳モデル記憶部は、再帰型ニューラルネットによる音訳モデルを記憶するものであり、
前記学習部は、再帰型ニューラルネットを用いて学習を行うことによって、前記音訳モデルを更新する、
ことを特徴とする請求項2に記載の音訳処理装置。 - 前記音訳モデル記憶部から前記学習済みの音訳モデルを読み込むとともに、読み込んだ前記音訳モデルを用いて、入力したアルファベット表記によるアルファベット表記データと前記アルファベット表記データに対応する前記所属情報との組を、前記アルファベット表記データに対応するカナ表記によるカナ表記データに変換する音訳実行部、
をさらに具備することを特徴とする請求項2または3に記載の音訳処理装置。 - 前記所属情報は、前記固有名詞に対応する国籍を表す国籍情報である、
ことを特徴とする請求項2から4までのいずれか一項に記載の音訳処理装置。 - コンピューターを、
請求項1に記載の変換処理装置として機能させるためのプログラム。 - コンピューターを、
請求項2から5までのいずれか一項に記載の音訳処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016161211A JP2018028848A (ja) | 2016-08-19 | 2016-08-19 | 変換処理装置、音訳処理装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016161211A JP2018028848A (ja) | 2016-08-19 | 2016-08-19 | 変換処理装置、音訳処理装置、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018028848A true JP2018028848A (ja) | 2018-02-22 |
Family
ID=61248455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016161211A Pending JP2018028848A (ja) | 2016-08-19 | 2016-08-19 | 変換処理装置、音訳処理装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018028848A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021107445A1 (ko) * | 2019-11-25 | 2021-06-03 | 주식회사 데이터마케팅코리아 | 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치 |
JP2021189429A (ja) * | 2020-05-28 | 2021-12-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法及び装置、電子機器並びに記憶媒体 |
JP2022515048A (ja) * | 2018-12-12 | 2022-02-17 | グーグル エルエルシー | 音声認識の訓練および採点のための音訳 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05324718A (ja) * | 1992-05-19 | 1993-12-07 | Fujitsu Ltd | 固有名詞処理装置 |
-
2016
- 2016-08-19 JP JP2016161211A patent/JP2018028848A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05324718A (ja) * | 1992-05-19 | 1993-12-07 | Fujitsu Ltd | 固有名詞処理装置 |
Non-Patent Citations (1)
Title |
---|
安江 祐貴: "外国人名カタカナ表記自動推定における各国適応", 一般社団法人 人工知能学会 第30回全国大会論文集CD−ROM [CD−ROM] 2016年度 人工, JPN6020002687, 9 June 2016 (2016-06-09), pages 1 - 1, ISSN: 0004315527 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022515048A (ja) * | 2018-12-12 | 2022-02-17 | グーグル エルエルシー | 音声認識の訓練および採点のための音訳 |
JP7208399B2 (ja) | 2018-12-12 | 2023-01-18 | グーグル エルエルシー | 音声認識の訓練および採点のための音訳 |
WO2021107445A1 (ko) * | 2019-11-25 | 2021-06-03 | 주식회사 데이터마케팅코리아 | 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치 |
JP2021189429A (ja) * | 2020-05-28 | 2021-12-13 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法及び装置、電子機器並びに記憶媒体 |
JP7216065B2 (ja) | 2020-05-28 | 2023-01-31 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法及び装置、電子機器並びに記憶媒体 |
US11756529B2 (en) | 2020-05-28 | 2023-09-12 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for speech recognition, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vajjala et al. | Practical natural language processing: a comprehensive guide to building real-world NLP systems | |
Silberztein | Formalizing natural languages: The NooJ approach | |
CN112711948B (zh) | 一种中文句子的命名实体识别方法及装置 | |
JP4319860B2 (ja) | 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置 | |
CN106233375A (zh) | 基于众包的用户文本输入从头开始学习语言模型 | |
Amba Hombaiah et al. | Dynamic language models for continuously evolving content | |
US20180173694A1 (en) | Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion | |
JP2008052720A (ja) | 簡体字と繁体字とを相互変換する方法及びその変換装置 | |
KR102043353B1 (ko) | 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 | |
Zhou et al. | Spelling correction as a foreign language | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
JP2018028848A (ja) | 変換処理装置、音訳処理装置、およびプログラム | |
CN107153469B (zh) | 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品 | |
CN113255331A (zh) | 文本纠错方法、装置及存储介质 | |
US20220383159A1 (en) | Systems and methods for open domain multi-hop question answering | |
JP2019191900A (ja) | 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム | |
Pinter | Integrating approaches to word representation | |
Muhamad et al. | Proposal: A hybrid dictionary modelling approach for malay tweet normalization | |
CN113204966B (zh) | 语料增广方法、装置、设备及存储介质 | |
CN111814433B (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
CN110866404B (zh) | 基于lstm神经网络的词向量生成方法及装置 | |
Almansor et al. | Transferring informal text in arabic as low resource languages: State-of-the-art and future research directions | |
Linn et al. | Part of speech tagging for kayah language using hidden markov model | |
CN102156693B (zh) | 一种盲文输入方法和系统 | |
Chaonithi et al. | A hybrid approach for Thai word segmentation with crowdsourcing feedback system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190702 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200131 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200804 |