JP2021162798A - 学習装置、学習方法および学習プログラム - Google Patents
学習装置、学習方法および学習プログラム Download PDFInfo
- Publication number
- JP2021162798A JP2021162798A JP2020066879A JP2020066879A JP2021162798A JP 2021162798 A JP2021162798 A JP 2021162798A JP 2020066879 A JP2020066879 A JP 2020066879A JP 2020066879 A JP2020066879 A JP 2020066879A JP 2021162798 A JP2021162798 A JP 2021162798A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- posterior probability
- symbol string
- learning
- ctc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 79
- 230000006870 function Effects 0.000 claims abstract description 20
- 230000005236 sound signal Effects 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 6
- 230000010365 information processing Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
図1は、本実施形態の学習装置の概略構成を例示する模式図である。図1に例示するように、本実施形態の学習装置10は、パソコン等の汎用コンピュータで実現され、記憶部11、および制御部12を備える。
次に、図3を参照して、本実施形態に係る学習装置10による学習処理について説明する。図3は、学習処理手順を示すフローチャートである。図3のフローチャートは、例えば、ユーザが開始を指示する操作入力を行ったタイミングで開始される。
上記実施形態に係る学習装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、学習装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。
11 記憶部
11a パラメータ
12 制御部
12a データ選択部
12b 符号化器
12c 第1復号化器(CTCデコーダ)
12d 第2復号化器
12e データクレンジング部
12f 更新部
12g 終了判定部
Claims (6)
- 第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換部と、
第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出部と、
第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出部と、
前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出部が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新部と、
を有することを特徴とする学習装置。 - 前記第2の算出部の処理を、前記CTCに基づく事後確率が所定の閾値より大きい場合に行うことを特徴とする請求項1に記載の学習装置。
- 前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークを、全体として1つのend−to−endのニューラルネットワークとみなして学習することを特徴とする請求項1に記載の学習装置。
- 前記損失関数値が所定の閾値以下となった場合、前記パラメータの更新回数が所定の回数に到達した場合、または前記パラメータの更新量が所定の閾値以下となった場合の少なくともいずれかの場合に、前記パラメータの更新を終了する終了判定部をさらに有することを特徴とする請求項1に記載の学習装置。
- 学習装置で実行される学習方法であって、
第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換工程と、
第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出工程と、
第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出工程と、
前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出工程が算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新工程と、
を含んだことを特徴とする学習方法。 - 第1のニューラルネットワークを用いて、入力された学習用の音声信号の特徴量を、符号化した中間特徴量に変換する変換ステップと、
第2のニューラルネットワークを用いて、前記中間特徴量から、予測される記号列と該記号列のCTC(Connectionist Temporal Classification)に基づく事後確率を算出する第1の算出ステップと、
第3のニューラルネットワークを用いて、正解記号列と前記中間特徴量とから、予測される記号列と該記号列の事後確率とを算出する第2の算出ステップと、
前記CTCに基づく事後確率が所定の閾値より大きい場合に、前記第2の算出ステップが算出した前記事後確率と、前記CTCに基づく事後確率とから算出した損失関数値を用いて、前記第1のニューラルネットワーク、前記第2のニューラルネットワークおよび前記第3のニューラルネットワークのパラメータを更新する更新ステップと、
をコンピュータに実行させるための学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020066879A JP7274441B2 (ja) | 2020-04-02 | 2020-04-02 | 学習装置、学習方法および学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020066879A JP7274441B2 (ja) | 2020-04-02 | 2020-04-02 | 学習装置、学習方法および学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021162798A true JP2021162798A (ja) | 2021-10-11 |
JP7274441B2 JP7274441B2 (ja) | 2023-05-16 |
Family
ID=78004876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020066879A Active JP7274441B2 (ja) | 2020-04-02 | 2020-04-02 | 学習装置、学習方法および学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7274441B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017027049A (ja) * | 2015-07-22 | 2017-02-02 | グーグル インコーポレイテッド | 個別化されたホットワード検出モデル |
JP2018031812A (ja) * | 2016-08-22 | 2018-03-01 | 日本電信電話株式会社 | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム |
JP2020505650A (ja) * | 2017-05-11 | 2020-02-20 | 三菱電機株式会社 | 音声認識システム及び音声認識の方法 |
-
2020
- 2020-04-02 JP JP2020066879A patent/JP7274441B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017027049A (ja) * | 2015-07-22 | 2017-02-02 | グーグル インコーポレイテッド | 個別化されたホットワード検出モデル |
JP2018031812A (ja) * | 2016-08-22 | 2018-03-01 | 日本電信電話株式会社 | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム |
JP2020505650A (ja) * | 2017-05-11 | 2020-02-20 | 三菱電機株式会社 | 音声認識システム及び音声認識の方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7274441B2 (ja) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113905391B (zh) | 集成学习网络流量预测方法、系统、设备、终端、介质 | |
CN111128137B (zh) | 一种声学模型的训练方法、装置、计算机设备和存储介质 | |
CN108804611B (zh) | 一种基于自我评论序列学习的对话回复生成方法及系统 | |
CN112435656B (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
CN111081230B (zh) | 语音识别方法和设备 | |
CN113628059B (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN116884391B (zh) | 基于扩散模型的多模态融合音频生成方法及装置 | |
US20210073645A1 (en) | Learning apparatus and method, and program | |
KR20190136578A (ko) | 음성 인식 방법 및 장치 | |
KR20210042696A (ko) | 모델 학습 방법 및 장치 | |
CN115803806A (zh) | 用于训练双模式机器学习言语识别模型的系统和方法 | |
CN115762489A (zh) | 语音识别模型的数据处理系统及方法、语音识别方法 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN115222046A (zh) | 神经网络结构搜索方法、装置、电子设备及存储介质 | |
JP2021039220A (ja) | 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム | |
JP6973192B2 (ja) | 言語モデルを利用する装置、方法及びプログラム | |
CN111797220A (zh) | 对话生成方法、装置、计算机设备和存储介质 | |
JP2021162798A (ja) | 学習装置、学習方法および学習プログラム | |
JP6633556B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
CN112885367B (zh) | 基频获取方法、装置、计算机设备和存储介质 | |
CN114912441A (zh) | 文本纠错模型生成方法、纠错方法、系统、设备和介质 | |
CN114023310A (zh) | 应用于语音数据处理的方法、装置及计算机程序产品 | |
JP2021039218A (ja) | 学習装置、学習方法及び学習プログラム | |
JP2021135314A (ja) | 学習装置、音声認識装置、学習方法、および、学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200403 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220728 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230418 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230501 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7274441 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |