JP6903613B2 - 音声認識装置、音声認識方法及びプログラム - Google Patents
音声認識装置、音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP6903613B2 JP6903613B2 JP2018168708A JP2018168708A JP6903613B2 JP 6903613 B2 JP6903613 B2 JP 6903613B2 JP 2018168708 A JP2018168708 A JP 2018168708A JP 2018168708 A JP2018168708 A JP 2018168708A JP 6903613 B2 JP6903613 B2 JP 6903613B2
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- acoustic model
- label
- data
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
はじめに、第1実施形態の音声認識装置10の機能構成の例について説明する。
図1は第1実施形態の音声認識装置10の機能構成の例を示す図である。第1実施形態の音声認識装置10は、生成部1、決定部2、選択部3及び適応部4を備える。音声認識装置10の一部又は全ての機能は、ソフトウェア(プログラム)で実現されても良いし、ハードウェアで実現されても良い。
図3は第1実施形態の音声認識装置10の動作方法の例を示すフローチャートである。はじめに、生成部1が、言語モデル101とベース音響モデル102とを用いて音声データを認識する(ステップS1)。次に、生成部1が、ステップS1の処理により認識された音声データに含まれる発話を識別するラベルを生成する(ステップS2)。
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略する。
図4は第2実施形態の音声認識装置10−2の機能構成の例を示すブロック図である。第2実施形態の音声認識装置10−2は、生成部1、選択部3−2、適応部4及び計算部5を備える。生成部1及び適応部4の説明は、第1実施形態と同様なので省略する。
次に第3実施形態について説明する。第3実施形態の説明では、第1及び第2実施形態と同様の説明については省略する。第3実施形態では、第1及び第2実施形態を組み合わせる場合の動作について説明する。
図6は第3実施形態の音声認識装置10−3の機能構成の例を示すブロック図である。第3実施形態の音声認識装置10−3は、生成部1、決定部2、選択部3−3、適応部4及び計算部5を備える。生成部1、決定部2及び適応部4の説明は、第1実施形態と同様なので省略する。計算部5の説明は、第2実施形態と同様なので省略する。
次に第4実施形態について説明する。第4実施形態の説明では、第1実施形態と同様の説明については省略する。第4実施形態では、適応音響モデル103を使用して、音声認識をする構成について説明する。
図7は第4実施形態の音声認識装置10−4の機能構成の例を示す図である。第4実施形態の音声認識装置10−4は、生成部1、決定部2、選択部3、適応部4及び認識部6を備える。生成部1、決定部2、選択部3及び適応部4の説明は、第1実施形態と同様なので省略する。
次に第5実施形態について説明する。第5実施形態の説明では、第1実施形態と同様の説明については省略する。第1実施形態では、言語モデル101及びベース音響モデル102の2種類のモデルを用いて適応を行っていた。第5実施形態では、言語モデル101及びベース音響モデル102を区別せずに、End−to−Endの音声認識方法により、適応を行う場合の構成について説明する。
図8は第5実施形態の音声認識装置10−5の機能構成の例を示す図である。第5実施形態の音声認識装置10−5は、生成部1−2、決定部2、選択部3及び適応部4−2を備える。決定部2及び選択部3の説明は、第1実施形態と同様なので省略する。
図9は第1乃至第5実施形態の音声認識装置10(10−2,10−3,10−4,10−5)のハードウェア構成の例を示す図である。以下では、第1実施形態の音声認識装置10の場合を例にして説明する。なお、第2乃至第5実施形態の音声認識装置10−2(10−3,10−4,10−5))のハードウェア構成も、第1実施形態の音声認識装置10のハードウェア構成と同様である。
2 決定部
3 選択部
4 適応部
5 計算部
6 認識部
101 言語モデル
102 ベース音響モデル
103 適応音響モデル
104 音声認識ベースモデル
105 音声認識適応モデル
301 制御装置
302 主記憶装置
303 補助記憶装置
304 表示装置
305 入力装置
306 通信装置
310 バス
Claims (13)
- 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
前記重みに基づいて前記音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部と、
を備える音声認識装置。 - 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
前記音声フレームの比率が所定の選択範囲以内である音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部と、
を備える音声認識装置。 - 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
前記重みと、前記音声フレームの比率とに基づいて、前記音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部と、
を備える音声認識装置。 - 前記決定部は、前記個数が多いほど、前記重みを小さく決定する、
請求項1に記載の音声認識装置。 - 前記選択部は、前記重みが閾値より大きいか否かを判定し、前記閾値よりも大きい重みが付与された音声データを選択する、
請求項1に記載の音声認識装置。 - 前記言語モデルと前記第2音響モデルとを用いて、前記音声データの音声認識を行う認識部、
を更に備える請求項1に記載の音声認識装置。 - 前記言語モデル及び前記第1音響モデルは、音声の言語的な特徴、及び、音声の音響的な特徴の両方を区別せずにモデル化された1つの音声認識ベースモデルにより表され、
前記適応部は、前記選択部により選択された音声データを用いて、前記音声認識ベースモデルを適応させる、
請求項1に記載の音声認識装置。 - 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成するステップと、
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定するステップと、
前記重みに基づいて前記音声データを選択するステップと、
前記選択するステップにより選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成するステップと、
を含む音声認識方法。 - 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成するステップと、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算するステップと、
前記音声フレームの比率が所定の選択範囲以内である音声データを選択する選択部と、
前記選択するステップにより選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成するステップと、
を含む音声認識方法。 - 言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成するステップと、
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定するステップと、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算するステップと、
前記重みと、前記音声フレームの比率とに基づいて、前記音声データを選択するステップと、
前記選択するステップにより選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成するステップと、
を含む音声認識方法。 - コンピュータを、
言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
前記重みに基づいて前記音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部、
として機能させるためのプログラム。 - コンピュータを、
言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
前記音声フレームの比率が所定の選択範囲以内である音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部、
として機能させるためのプログラム。 - コンピュータを、
言語モデルと第1音響モデルとを用いて音声データを認識し、前記音声データに含まれる発話を識別するラベルを生成する生成部と、
前記ラベルを用いて、同じ発話を含む音声データの個数を特定し、前記音声データに付与する重みを前記個数に応じて決定する決定部と、
前記ラベルを用いて、前記音声データに含まれる音声フレームと、前記音声データに含まれる非音声フレームとの比率を計算する計算部と、
前記重みと、前記音声フレームの比率とに基づいて、前記音声データを選択する選択部と、
前記選択部により選択された音声データを用いて、前記第1音響モデルを適応させることにより、第2音響モデルを生成する適応部、
として機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018168708A JP6903613B2 (ja) | 2018-09-10 | 2018-09-10 | 音声認識装置、音声認識方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018168708A JP6903613B2 (ja) | 2018-09-10 | 2018-09-10 | 音声認識装置、音声認識方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020042130A JP2020042130A (ja) | 2020-03-19 |
| JP6903613B2 true JP6903613B2 (ja) | 2021-07-14 |
Family
ID=69798141
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018168708A Active JP6903613B2 (ja) | 2018-09-10 | 2018-09-10 | 音声認識装置、音声認識方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6903613B2 (ja) |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000305589A (ja) * | 1999-04-16 | 2000-11-02 | Kobe Steel Ltd | 適応型音声認識装置,音声処理装置,及びペット玩具 |
| EP1197949B1 (en) * | 2000-10-10 | 2004-01-07 | Sony International (Europe) GmbH | Avoiding online speaker over-adaptation in speech recognition |
| JP5980101B2 (ja) * | 2012-11-19 | 2016-08-31 | 日本電信電話株式会社 | 音響モデル学習用テキスト作成装置とその方法とプログラム |
-
2018
- 2018-09-10 JP JP2018168708A patent/JP6903613B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020042130A (ja) | 2020-03-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102803152B1 (ko) | 음성 인식을 위한 종단 간 모델과 함께 컨텍스트 정보 사용 | |
| US11315548B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
| US10741170B2 (en) | Speech recognition method and apparatus | |
| US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
| US10249321B2 (en) | Sound rate modification | |
| JP7055630B2 (ja) | 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 | |
| WO2019065263A1 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
| US20160180839A1 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
| JP5072206B2 (ja) | 音声分類および音声認識のための隠れ条件付確率場モデル | |
| JP6996570B2 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
| JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
| JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
| EP4068279B1 (en) | Method and system for performing domain adaptation of end-to-end automatic speech recognition model | |
| KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 | |
| JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
| CN111816164A (zh) | 用于语音识别的方法及设备 | |
| US20230343332A1 (en) | Joint Segmenting and Automatic Speech Recognition | |
| JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
| US8438029B1 (en) | Confidence tying for unsupervised synthetic speech adaptation | |
| JP6903613B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
| JP5961530B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
| JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
| JP6006674B2 (ja) | 音響モデル選択装置とその方法とプログラム | |
| JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
| JP3841342B2 (ja) | 音声認識装置および音声認識プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200701 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210517 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210623 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6903613 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |