JP2021039216A - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents
音声認識装置、音声認識方法及び音声認識プログラム Download PDFInfo
- Publication number
- JP2021039216A JP2021039216A JP2019159951A JP2019159951A JP2021039216A JP 2021039216 A JP2021039216 A JP 2021039216A JP 2019159951 A JP2019159951 A JP 2019159951A JP 2019159951 A JP2019159951 A JP 2019159951A JP 2021039216 A JP2021039216 A JP 2021039216A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- feature amount
- neural network
- voice recognition
- recognition device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000006243 chemical reaction Methods 0.000 claims abstract description 72
- 238000004364 calculation method Methods 0.000 claims abstract description 51
- 230000006978 adaptation Effects 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims description 42
- 239000013598 vector Substances 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 230000010354 integration Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
まず、非特許文献2に開示されている従来のend-to-end音声認識装置について説明する。図12は、従来の音声認識装置の構成を示す図である。図12に示すように従来の音声認識装置50は、第1変換部51及び第2変換部52を有する。第1変換部と第2変換部とをあわせた全体が、1つのニューラルネットワークで構成されるend-to-endのモデルとなっている。
図1を用いて、第1の実施形態の音声認識装置の構成について説明する。図1は、第1の実施形態に係る音声認識装置の構成の一例を示す図である。図1に示すように、音声認識装置10は、適応部11、計算部12、第1変換部13及び第2変換部14を有する。適応部11と計算部12と第1変換部13と第2変換部14とをあわせた全体が、1つのニューラルネットワークで構成されるend-to-endのモデルとなっている。音声認識装置10は、適応部11及び計算部12を有している点で、図12の音声認識装置50と異なる。
図4を用いて、本実施形態の音声認識装置10の処理の流れを説明する。図4は、第1の実施形態に係る音声認識装置の処理の流れを示すフローチャートである。図4に示すように、まず、音声認識装置10は、音声特徴量系列の入力を受け付ける(ステップS11)。
これまで説明してきたように、計算部12は、音声特徴量の系列から、音響条件への適応のための特徴量である補助特徴量を計算する。また、適応部11は、補助特徴量を用いて、音声特徴量を音響条件に適応させた適応済み音声特徴量を計算する。また、第1変換部13及び第2変換部14は、適応済み音声特徴量を、音声に対応するシンボル列を特定可能なデータに変換する。ここで、計算部12、適応部11、第1変換部13、第2変換部14は、音声特徴量を入力として事後確率を出力するend-to-endのニューラルネットワークの層の一部である。このように、音声認識装置10は、音響条件への適応処理及び音声特徴量をシンボル列を特定可能なデータに変換する処理を、end-to-endで行うことができる。
ここで、第2の実施形態として、音声認識装置10を構成するend-to-endニューラルネットワークのパラメータを学習するための学習装置について説明する。図9は、第2の実施形態に係る学習装置の構成の一例を示す図である。図9に示すように、学習装置20は、事後確率算出部20a及び更新部25を有する。
上記の実施形態では、図3に示すように、第2変換部14が注意機構141及びデコーダ142を有するものとして説明した。一方で、図10に示すように、第2変換部14は、参考文献1に記載の構成と同様に、CTCデコーダ143を有していてもよい。図10は、その他の実施形態に係る第2変換部の構成の一例を示す図である。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、音声認識装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声認識処理を実行する音声認識プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声認識プログラムを情報処理装置に実行させることにより、情報処理装置を音声認識装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
11、21 適応部
11a 第3変換部
12、22 計算部
13、23 第1変換部
14、24 第2変換部
20 学習装置
20a 事後確率算出部
111 第1層
112 第2層
113 統合部
141 注意機構
142 デコーダ
Claims (8)
- ニューラルネットワークを用いて、音声信号に対応する音声特徴量から認識結果であるシンボル系列を特定可能なデータを得る音声認識装置であって、
前記ニューラルネットワークは、
前記音声特徴量の系列を入力として、音響条件への適応のための特徴量である補助特徴量に変換する計算部と、
前記補助特徴量を用いて、前記音声特徴量を前記音響条件に適応させた適応済み音声特徴量に変換する適応部と、
前記適応済み音声特徴量を、音声に対応するシンボル列を特定可能なデータに変換する変換部と、
を含むことを特徴とする音声認識装置。 - 前記計算部の出力は、前記変換部の入力と連結されている
ことを特徴とする請求項1記載の音声認識装置。 - 前記適応部における変換は、
前記補助特徴量を前記音声特徴量と同じ次元のベクトルに射影し、当該射影したベクトルを前記音声特徴量に加算するものである
ことを特徴とする請求項1又は2記載の音声認識装置。 - 前記適応部の入力となる前記補助特徴量は、前記適応部の変換対象とする前記音声特徴量に対応する時間フレームと、当該時間フレームの前後の1以上の時間フレームとにそれぞれ対応する音声特徴量から得たものである
ことを特徴とする請求項1乃至3の何れか1項に記載の音声認識装置。 - 前記計算部は、前記音声特徴量を入力とするSSNN(Sequence summarizing neural network)を用いて前記補助特徴量を計算することを特徴とする請求項1乃至4の何れか1項に記載の音声認識装置。
- 前記計算部で用いられるニューラルネットワークのパラメータ及び前記変換部で用いられるニューラルネットワークのパラメータは、各ニューラルネットワークを1つのend-to-endのニューラルネットワークとみなして学習されたものであることを特徴とする請求項1乃至5の何れか1項に記載の音声認識装置。
- ニューラルネットワークにより、音声信号に対応する音声特徴量から認識結果であるシンボル系列を特定可能なデータを得る音声認識方法であって、
前記ニューラルネットワークの計算部により、音声特徴量の系列を、音響条件への適応のための特徴量である補助特徴量に変換する計算工程と、
前記ニューラルネットワークの適応部により、前記補助特徴量を用いて、前記音声特徴量を前記音響条件に適応させた適応済み音声特徴量を計算する適応工程と、
前記ニューラルネットワークの変換部により、前記適応済み音声特徴量を、音声に対応するシンボル列を特定可能なデータに変換する変換工程と、
を含むことを特徴とする音声認識方法。 - コンピュータを、請求項1から6の何れか1項に記載の音声認識装置として機能させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019159951A JP2021039216A (ja) | 2019-09-02 | 2019-09-02 | 音声認識装置、音声認識方法及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019159951A JP2021039216A (ja) | 2019-09-02 | 2019-09-02 | 音声認識装置、音声認識方法及び音声認識プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021039216A true JP2021039216A (ja) | 2021-03-11 |
Family
ID=74848556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019159951A Pending JP2021039216A (ja) | 2019-09-02 | 2019-09-02 | 音声認識装置、音声認識方法及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021039216A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024029875A1 (ko) * | 2022-08-05 | 2024-02-08 | 삼성전자주식회사 | 전자 장치, 지능형 서버, 및 화자 적응형 음성 인식 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007279444A (ja) * | 2006-04-07 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
-
2019
- 2019-09-02 JP JP2019159951A patent/JP2021039216A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007279444A (ja) * | 2006-04-07 | 2007-10-25 | Toshiba Corp | 特徴量補正装置、特徴量補正方法および特徴量補正プログラム |
US20180261225A1 (en) * | 2017-03-13 | 2018-09-13 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Multichannel End-to-End Speech Recognition |
Non-Patent Citations (3)
Title |
---|
DELCROIX, MARC ET AL.: ""Auxiliary feature based adaptation of end-to-end ASR systems"", PROC. OF THE INTERSPEECH 2018, JPN7022003445, 2 September 2018 (2018-09-02), pages 2444 - 2448, ISSN: 0005000185 * |
TOMASHENKO, NATALIA ET AL: ""Evaluation of Feature-Space Speaker Adaptation for End-to-End Acoustic Models"", PROC. OF THE LANGUAGE RESOURCES AND EVALUATION CONFERENCE 2018, JPN7022003444, 7 May 2018 (2018-05-07), pages 3163 - 3170, ISSN: 0004833974 * |
VESELY, KAREL ET AL.: ""SEQUENCE SUMMARIZING NEURAL NETWORK FOR SPEAKER ADAPTATION"", PROC. OF THE 2016 IEEE ICASSP, JPN7022003443, 19 May 2016 (2016-05-19), pages 5315 - 5319, ISSN: 0005000186 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024029875A1 (ko) * | 2022-08-05 | 2024-02-08 | 삼성전자주식회사 | 전자 장치, 지능형 서버, 및 화자 적응형 음성 인식 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US11081105B2 (en) | Model learning device, method and recording medium for learning neural network model | |
US11586930B2 (en) | Conditional teacher-student learning for model training | |
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
US11610108B2 (en) | Training of student neural network with switched teacher neural networks | |
US9123333B2 (en) | Minimum bayesian risk methods for automatic speech recognition | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
CN113743117B (zh) | 用于实体标注的方法和装置 | |
CN113053367A (zh) | 语音识别方法、语音识别的模型训练方法以及装置 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP6646337B2 (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
JP2021039216A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP2021039220A (ja) | 音声認識装置、学習装置、音声認識方法、学習方法、音声認識プログラムおよび学習プログラム | |
JP6772115B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、及びプログラム | |
JPWO2020166125A1 (ja) | 翻訳用データ生成システム | |
JP2020129061A (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
US11893983B2 (en) | Adding words to a prefix tree for improving speech recognition | |
JP2015141368A (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
JP2017167378A (ja) | 単語スコア計算装置、単語スコア計算方法及びプログラム | |
JP2021039218A (ja) | 学習装置、学習方法及び学習プログラム | |
WO2024023946A1 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20190917 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20190924 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211021 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220726 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230228 |