JP2022064779A - 学習装置、予測装置、学習方法および学習プログラム - Google Patents
学習装置、予測装置、学習方法および学習プログラム Download PDFInfo
- Publication number
- JP2022064779A JP2022064779A JP2020173612A JP2020173612A JP2022064779A JP 2022064779 A JP2022064779 A JP 2022064779A JP 2020173612 A JP2020173612 A JP 2020173612A JP 2020173612 A JP2020173612 A JP 2020173612A JP 2022064779 A JP2022064779 A JP 2022064779A
- Authority
- JP
- Japan
- Prior art keywords
- information
- model
- learning
- unit
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 79
- 230000008569 process Effects 0.000 claims description 54
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 21
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 235000016496 Panda oleosa Nutrition 0.000 description 6
- 240000000220 Panda oleosa Species 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
〔1.実施形態に係る学習処理の概要〕
まず、実施形態に係る学習処理の概要について音声認識技術を例に説明する。例えば、音声認識を行うコンピュータには、音素などの短い単位ごとの標準的な特徴量挙動パターン(音響モデル)、発声された文の中に出現し得る単語の一覧とそれぞれの読み(単語辞書)、文中の単語つながりパターン(言語モデル)などが予め蓄えられている。
続いて、図1を用いて実施形態に係る学習処理の全体像と、音声認識の中での位置付けについて説明する。図1は、実施形態に係る学習処理の全体像を示す図である。図1に示される学習処理は、学習装置の一例である学習装置100によって行われる。また、係る例では、学習装置100は、音声認識に特化した装置(すなわち音声認識装置)であってよい。また、本実施形態では、学習装置100は、サーバ装置であるものとするが、クラウドによって構成されてもよい。
上述した説明した通り、実施形態に係る学習処理の対象となるモデルは、音声認識DNNに含まれる言語モデルMD2である。したがって、次に、図2を用いて、言語モデルMD2に焦点を当てた学習処理についてより詳細に説明する。図2は、実施形態に係る学習処理の一例を示す図である。図2に示す言語モデルMD2は、LSTMを用いたアテンション付きのエンコーダ-デコーダモデルである。
続いて、図3を用いて、図1および図2で学習されたモデル(音声認識DNN)の一例を示すとともに、係るモデルを用いた予測処理について説明する。予測処理は、図2に示したスマートスピーカー10によって行われる。図3は、実施形態に係る予測処理の一例を示す図である。
次に、図4を用いて、実施形態に係る学習装置100および予測装置10について説明する。図4は、実施形態に係る学習装置100および予測装置10の構成例を示す図である。
まず、実施形態に係る学習装置100について説明する。図4に示すように、学習装置100は、通信部110と、記憶部120と、制御部130とを有する。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、例えば、予測装置10との間で情報の送受信を行う。
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、モデル情報記憶部121を有する。
モデル情報記憶部121は、モデルに関する各種情報を記憶する。例えば、モデル情報記憶部121は、モデルごとに当該モデルの学習に用いる学習用データを記憶する。例えば、モデル情報記憶部121は、図1および図2で説明した表記情報や読み情報を学習用データとして記憶する。
制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、学習装置100内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
データ制御部131は、モデルの学習に用いるデータに関する各種制御を行う。
生成部132は、所定の音響モデルを用いて、入力された音声データからモデルの学習に用いるデータを生成する。
取得部133は、予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する。具体的には、取得部133は、所定の情報として、字面が優先された文字列で予測対象情報が表記された文字情報であって、所定の中間表現で構成された文字情報を取得し、別種情報として、所定の情報が発話された際の発話音に応じて表記された文字情報を取得する。
学習部134は、図1および図2で説明した実施形態に係る学習処理を行う。例えば、学習部134は、音響認識DNNに含まれるモデル(ニューラルネットワーク)のうち、言語モデルMD2を対象として、実施形態に係る学習処理を行う。
提供部135は、学習部134によって学習が行われた学習済のモデルを、係るモデルを用いて予測(例えば、音声認識)を行う予測装置10に提供する。図1の例では、提供部135は、予測装置10の一例であるスマートスピーカー10に学習済のモデルを提供している。
次に、実施形態に係る予測装置10について説明する。図4に示すように、予測装置10は、通信部11と、制御部13とを有する。
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、ネットワークNと有線または無線で接続され、例えば、学習装置100との間で情報の送受信を行う。
制御部13は、CPUやMPU等によって、予測装置10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部13は、例えば、ASICやFPGA等の集積回路により実現される。
取得部13aは、学習済のモデルを取得する。具体的には、取得部13aは、学習済のモデルを学習装置100から取得する。例えば、取得部13aは、実施形態に係る学習処理によりモデルが更新(学習)されるたびに、学習済のモデルを学習装置100から取得する。
入力受付部13bは、利用者から予測対象となる情報の入力を受け付ける。例えば、音声認識のシチュエーションでは、入力受付部13bは、利用者による発話に応じた音声入力を受け付ける。また、例えば、機械翻訳のシチュエーションでは、入力部13bは、機械翻訳の対象となる文字情報の入力を受け付ける。
予測部13cは、入力受付部13bにより予測対象となる情報の入力を受け付けられた場合には、取得部13aにより取得された学習済のモデルを用いて、入力データを示す文字情報(文字列)を予測する。例えば、音声認識のシチュエーションでは、予測部13cは、図3に示す音声認識DNNを用いて、入力データを示す文字情報(文字列)を予測する。例えば、予測部13cは、単語列Wが発現する確率を計算することで、単語列中の次の単語を予測する。
出力制御部13dは、予測部13cにより予測された予測結果に応じて生成された情報(文字列)が利用者に向けて出力されるよう出力制御する。例えば、出力制御部13dは、予測装置10と紐付けられている他のデバイス(例えば、利用者のスマートフォンなど)が存在する場合には、この他のデバイスに対して予測結果に応じて生成された情報(音声認識結果や翻訳結果など)を表示させてもよい。
次に、図5を用いて、実施形態に係る学習処理の手順について説明する。図5は、実施形態に係る学習処理手順を示すフローチャートである。なお、図5の例では、データ制御部131が、利用者から音声入力を受け付けたことで、音声データに対応する特徴量(音響特徴量系列)を抽出したものとし、これに引き続いて行われる実施形態に係る学習処理の手順を示す。また、図5では、図2の例を適宜採用して説明することにする。
上記実施形態に係る学習装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、学習装置100の他の実施形態について説明する。
上記実施形態では、学習部134が、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された単位ごとの特徴を示す値がモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する例を示した。しかしながら、学習部134は、別種情報に対応する品詞情報をさらに用いてモデルに学習させてもよい。具体的には、学習部134は、別種情報の特徴を示す値として、別種情報を示す文字列が所定の単位で分解された各単位の品詞の特徴を示す値がモデルに入力されることで出力された出力情報に基づいて、予測対象情報を生成するようにモデルを学習する。この点について、図6の例を用いて説明する。図6は、変形例に係る学習処理の一例を示す図である。
上記実施形態では、表記情報および読み情報の双方が1の利用者による入力データに基づくものである例を示した。表記情報および読み情報は、それぞれ異なる利用者による入力データから生成されてもよい。例えば、学習装置100は、利用者U3による音声データに対応する表記情報を取得し、利用者U4に対応する音声データに対応する読み情報を取得することで、利用者U3の表記情報と、利用者U4の読み情報とに基づいて、予測対象情報が生成されるようにモデルを学習してもよい。
上記実施形態では、学習装置100が、学習に用いられるデータを生成する例を示した。例えば、学習装置100が、利用者による音声入力に応じて、音声データから表記情報および読み情報を生成する例を示した。しかしながら、学習装置100は、必ずしも学習に用いられるデータを生成する必要はない。例えば、表記情報および読み情報は、学習装置100に対して外部から入力されてもよい。例えば、表記情報および読み情報は、利用者による操作に応じて外部のコンピュータから学習装置100へと入力されてもよい。
また、上記実施形態に係る学習装置100および予測装置10は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、コンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
120 記憶部
121 モデル情報記憶部
130 制御部
131 データ制御部
132 生成部
133 取得部
134 学習部
135 提供部
10 予測装置
13 制御部
13a 取得部
13b 入力受付部
13c 予測部
13d 出力制御部
Claims (10)
- 予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得部と、
前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習部と
を有することを特徴とする学習装置。 - 前記取得部は、前記所定の情報として、字面が優先された文字列で前記予測対象情報が表記された文字情報であって、所定の中間表現で構成された文字情報を取得し、前記別種情報として、前記所定の情報が発話された際の発話音に応じて表記された文字情報を取得する
ことを特徴とする請求項1に記載の学習装置。 - 前記学習部は、前記別種情報の特徴を示す値に応じて前記モデルにより出力された出力情報に基づいて、前記予測対象情報を生成するようにモデルを学習する
ことを特徴とする請求項1または2に記載の学習装置。 - 前記学習部は、前記別種情報の特徴を示す値として、前記別種情報を示す文字列が所定の単位で分解された単位ごとの特徴を示す値が前記モデルに入力されることで出力された前記出力情報に基づいて、前記予測対象情報を生成するようにモデルを学習する
ことを特徴とする請求項3に記載の学習装置。 - 前記学習部は、前記別種情報の特徴を示す値として、前記別種情報を示す文字列が所定の単位で分解された各単位の品詞の特徴を示す値が前記モデルに入力されることで出力された前記出力情報に基づいて、前記予測対象情報を生成するようにモデルを学習する
ことを特徴とする請求項3または4に記載の学習装置。 - 前記学習部は、前記モデルのうち第1のモデルが出力した値が、前記別種情報の特徴を示す値に応じて補正されたことによる補正後の値を、前記モデルのうち第2のモデルに入力することで、当該第2のモデルが前記予測対象情報を出力するように前記モデルを学習させる
ことを特徴とする請求項3~5のいずれか1つに記載の学習装置。 - 所定の音響モデルを用いて、入力された音声データから前記所定の情報を生成する生成部をさらに有し、
前記学習部は、前記生成部により生成された所定の情報と、前記別種情報とに基づいて、前記モデルを学習する
ことを特徴とする請求項1~6のいずれか1つに記載の学習装置。 - 請求項1~7のいずれか1つに記載の学習装置により学習されたモデルを用いて、入力データを示す文字情報を予測する予測装置。
- 学習装置が実行する学習方法であって、
予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得工程と、
前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習工程と
を含むことを特徴とする学習方法。 - 予測対象となる文字情報である予測対象情報を示す所定の情報と、当該所定の情報の種別とは異なる種別の情報であって、当該所定の情報に対応する情報である別種情報とを取得する取得手順と、
前記所定の情報と、前記別種情報とに基づいて、前記所定の情報を入力とした場合の予測結果となる前記予測対象情報が生成されるようにモデルを学習する学習手順と
をコンピュータに実行させることを特徴とする学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020173612A JP7244473B2 (ja) | 2020-10-14 | 2020-10-14 | 学習装置、予測装置、学習方法および学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020173612A JP7244473B2 (ja) | 2020-10-14 | 2020-10-14 | 学習装置、予測装置、学習方法および学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022064779A true JP2022064779A (ja) | 2022-04-26 |
JP7244473B2 JP7244473B2 (ja) | 2023-03-22 |
Family
ID=81385756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020173612A Active JP7244473B2 (ja) | 2020-10-14 | 2020-10-14 | 学習装置、予測装置、学習方法および学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7244473B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
-
2020
- 2020-10-14 JP JP2020173612A patent/JP7244473B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020030367A (ja) * | 2018-08-24 | 2020-02-27 | 日本放送協会 | 音声認識結果整形モデル学習装置およびそのプログラム |
Non-Patent Citations (2)
Title |
---|
増田嵩志,鶴岡慶雅: "ニューラルネットワーク日英機械翻訳における品詞情報の利用", 言語処理学会第22回年次大会発表論文集, JPN6022037702, 2016, pages 294 - 297, ISSN: 0004867670 * |
田中智大,外2名: "複数仮説を考慮したニューラル誤り訂正言語モデルの検討", 電子情報通信学会技術研究報告, vol. 第118巻,第198号, JPN6022037703, August 2018 (2018-08-01), pages 31 - 36, ISSN: 0004867671 * |
Also Published As
Publication number | Publication date |
---|---|
JP7244473B2 (ja) | 2023-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP7066349B2 (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
KR102582291B1 (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
CN112309366B (zh) | 语音合成方法、装置、存储介质及电子设备 | |
CN112735373A (zh) | 语音合成方法、装置、设备及存储介质 | |
WO2020098269A1 (zh) | 一种语音合成方法及语音合成装置 | |
JP2020034883A (ja) | 音声合成装置及びプログラム | |
EP3550449A1 (en) | Search method and electronic device using the method | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
KR102367778B1 (ko) | 언어 정보를 처리하기 위한 방법 및 그 전자 장치 | |
KR20220128397A (ko) | 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱 | |
JP2023546930A (ja) | 言語間音声合成を改良するための音声認識の使用 | |
CN113823259A (zh) | 将文本数据转换为音素序列的方法及设备 | |
KR20200095947A (ko) | 전자 장치 및 이의 제어 방법 | |
CN112785667A (zh) | 视频生成方法、装置、介质及电子设备 | |
KR20200140171A (ko) | 전자 장치 및 이의 제어 방법 | |
JP7244473B2 (ja) | 学習装置、予測装置、学習方法および学習プログラム | |
CN114242035A (zh) | 语音合成方法、装置、介质以及电子设备 | |
Šoić et al. | Spoken notifications in smart environments using Croatian language | |
JP7012935B1 (ja) | プログラム、情報処理装置、方法 | |
US20230017892A1 (en) | Injecting Text in Self-Supervised Speech Pre-training | |
US20220310061A1 (en) | Regularizing Word Segmentation | |
JP7102986B2 (ja) | 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230309 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7244473 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |