JP2017191278A - 音素誤り獲得装置、辞書追加装置、音声認識装置、音素誤り獲得方法、音声認識方法、およびプログラム - Google Patents
音素誤り獲得装置、辞書追加装置、音声認識装置、音素誤り獲得方法、音声認識方法、およびプログラム Download PDFInfo
- Publication number
- JP2017191278A JP2017191278A JP2016081898A JP2016081898A JP2017191278A JP 2017191278 A JP2017191278 A JP 2017191278A JP 2016081898 A JP2016081898 A JP 2016081898A JP 2016081898 A JP2016081898 A JP 2016081898A JP 2017191278 A JP2017191278 A JP 2017191278A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- native
- error
- utterance
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】非ネイティブ音素頻度集計部20は、非ネイティブ発話の音声を音素認識した非ネイティブ音素認識結果を非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素ペア毎に音素誤り頻度を集計する。ネイティブ音素頻度集計部21は、ネイティブ発話の音声を音素認識したネイティブ音素認識結果をネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素ペア毎に音素誤り頻度を集計する。音素誤り獲得部22は、非ネイティブ発話の音素誤り頻度とネイティブ発話の音素誤り頻度とを比較して、音素ペア毎に、非ネイティブ発話がネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する。
【選択図】図3
Description
実施形態の音素認識装置は、図1に示すように、非ネイティブ書記素音素変換部10、ネイティブ書記素音素変換部11、非ネイティブ音素書起し記憶部12、ネイティブ音素書起し記憶部13、非ネイティブ音響モデル学習部14、ネイティブ音響モデル学習部15、非ネイティブ音響モデル記憶部16、ネイティブ音響モデル記憶部17、非ネイティブ音素認識部18、およびネイティブ音素認識部19を含む。この音素認識装置が図2に示す各ステップの処理を行うことにより実施形態の音素認識方法が実現される。
〔参考文献1〕Maximilian Bisani, Hermann Ney, "Joint-sequence models for grapheme-to-phoneme conversion", Speech Communication, vol. 50(5), pp. 434-451, 2008
実施形態の音素誤り獲得装置は、図3に示すように、非ネイティブ音素頻度集計部20、ネイティブ音素頻度集計部21、音素誤り獲得部22、および音素誤り記憶部23を含む。この音素誤り獲得装置が図4に示す各ステップの処理を行うことにより実施形態の音素誤り獲得方法が実現される。
実施形態の辞書追加装置は、図6に示すように、音素誤り記憶部23、ネイティブ発音辞書記憶部30、複数読み追加部31、および非ネイティブ発音辞書記憶部32を含む。音素誤り記憶部23には、音素誤り獲得装置により生成された音素誤りが記憶されている。この辞書追加装置が図7に示す各ステップの処理を行うことにより実施形態の辞書追加方法が実現される。
実施形態の音声認識装置は、図8に示すように、非ネイティブ発音辞書記憶部32、言語モデル記憶部40、および音声認識部41を含む。非ネイティブ発音辞書記憶部32には、辞書追加装置により生成された非ネイティブ発音辞書が記憶されている。言語モデル記憶部40には、音声認識において用いられる標準的な言語モデルが記憶されている。この音声認識装置が図9に示す各ステップの処理を行うことにより実施形態の音声認識方法が実現される。
上述の実施形態では、ネイティブ発話と非ネイティブ発話とを比較して非ネイティブ発話で誤りやすい音素のみを抽出して発音辞書へ変動読みを追加する構成を説明した。この発明の音声認識技術は、同様にして、方言や訛りなどの標準的な言語体系から外れた発話に適用して、例えば、方言発話に特有の音素誤りのみを抽出して発音辞書へ変動読みを追加することも可能である。
カイ2乗値の計算において、ネイティブ発話に関する項と、非ネイティブに関する項を逆にしてもよい。すなわち、次式によりカイ2乗値を計算してもよい。
音素認識装置において、音響モデル学習に用いる音声と音素認識に用いる音声とは異なるものである構成を説明した。しかしながら、これらの音声は同じものであってもよい。すなわち、非ネイティブ音素認識部18が用いる非ネイティブ音声と非ネイティブ単語書起しは、非ネイティブ音響モデル学習部14が用いる非ネイティブ音声と非ネイティブ単語書起しの全部もしくは一部であってもよく、ネイティブ音素認識部19が用いるネイティブ音声とネイティブ単語書起しは、ネイティブ音響モデル学習部15が用いるネイティブ音声とネイティブ単語書起しの全部もしくは一部であってもよい。
辞書追加装置において、カイ2乗値に基づいて抽出した音素ペアを用いて変動読みを追加する構成を説明した。しかしながら、同様に音素ペアを抽出した後、他の開発セット等の音声データを用意し、それに対していくつかの音素組み合わせに対して音声認識を実施し、音声認識精度等の認識結果評価尺度を計算し、その値に基づいて変動読みの追加に用いる音素ペアを決定してもよい。
音素誤り獲得装置において、カイ2乗検定によりネイティブ発話と非ネイティブ発話で誤りやすい音素の抽出を行った。しかしながら、ネイティブと非ネイティブの頻度分布の類似性の判定または類似性の定量的評価方法としては、カイ2乗検定に限定されず、その他の統計学的検定法や頻度値によるヒューリスティクスを用いてもよい。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
11 ネイティブ書記素音素変換部
12 非ネイティブ音素書起し記憶部
13 ネイティブ音素書起し記憶部
14 非ネイティブ音響モデル学習部
15 ネイティブ音響モデル学習部
16 非ネイティブ音響モデル記憶部
17 ネイティブ音響モデル記憶部
18 非ネイティブ音素認識部
19 ネイティブ音素認識部
20 非ネイティブ音素頻度集計部
21 ネイティブ音素頻度集計部
22 音素誤り獲得部
23 音素誤り記憶部
30 ネイティブ発音辞書記憶部
31 複数読み追加部
32 非ネイティブ発音辞書記憶部
40 言語モデル記憶部
41 音声認識部
Claims (8)
- 非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を上記非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計する非ネイティブ音素頻度集計部と、
ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果を上記ネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計するネイティブ音素頻度集計部と、
上記非ネイティブ発話の音素誤り頻度と上記ネイティブ発話の音素誤り頻度とを比較して、上記音素ペア毎に、上記非ネイティブ発話が上記ネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する音素誤り獲得部と、
を含む音素誤り獲得装置。 - 請求項1に記載の音素誤り獲得装置であって、
上記非ネイティブ音素頻度集計部は、上記非ネイティブ音素認識結果を上記非ネイティブ音素書起しと比較して、各音素ペアの音素誤り頻度を値にもつ非ネイティブ音素混同行列を生成するものであり、
上記ネイティブ音素頻度集計部は、上記ネイティブ音素認識結果を上記ネイティブ音素書起しと比較して、各音素ペアの音素誤り頻度を値にもつネイティブ音素混同行列を生成するものであり、
上記音素誤り獲得部は、上記非ネイティブ音素混同行列と上記ネイティブ音素混同行列とをそれぞれ頻度分布とみなして、上記音素ペア毎に検定値を算出し、その検定値を音素ペアに付与した音素誤りを獲得するものである、
音素誤り獲得装置。 - 請求項1または2に記載の音素誤り獲得装置により生成された音素誤りを記憶する音素誤り記憶部と、
各単語に標準的な読みを表す音素列が付与されたネイティブ発音辞書を記憶する発音辞書記憶部と、
上記発音辞書に含まれる単語のうち上記音素誤りに含まれる音素書起しの音素を含む単語について、上記単語に付与された音素列に含まれる音素書起しの音素を上記音素誤りに含まれる音素認識結果の音素に置換した変動読みを上記発音辞書へ追加して非ネイティブ発音辞書を生成する複数読み追加部と、
を含む辞書追加装置。 - 請求項3に記載の辞書追加装置により生成された非ネイティブ発音辞書を記憶する発音辞書記憶部と、
上記非ネイティブ発音辞書を用いて入力音声を音声認識し音声認識結果を出力する音声認識部と、
を含む音声認識装置。 - 非ネイティブ音素頻度集計部が、非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を上記非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計し、
ネイティブ音素頻度集計部が、ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果を上記ネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計し、
音素誤り獲得部が、上記非ネイティブ発話の音素誤り頻度と上記ネイティブ発話の音素誤り頻度とを比較して、上記音素ペア毎に、上記非ネイティブ発話が上記ネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する、
音素誤り獲得方法。 - 発音辞書記憶部に、非ネイティブ発音辞書が記憶されており、
音声認識部が、上記非ネイティブ発音辞書を用いて入力音声を音声認識し音声認識結果を出力し、
上記非ネイティブ発音辞書は、各単語に標準的な読みを表す音素列が付与されたネイティブ発音辞書に含まれる単語のうち請求項5に記載の音素誤り獲得方法により生成された音素誤りに含まれる音素書起しの音素を含む単語について、上記単語に付与された音素列に含まれる音素書起しの音素を上記音素誤りに含まれる音素認識結果の音素に置換した変動読みを上記発音辞書へ追加して生成したものである、
音声認識方法。 - 請求項1または2に記載の音素誤り獲得装置としてコンピュータを機能させるためのプログラム。
- 請求項4に記載の音声認識装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016081898A JP6577900B2 (ja) | 2016-04-15 | 2016-04-15 | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016081898A JP6577900B2 (ja) | 2016-04-15 | 2016-04-15 | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2017191278A true JP2017191278A (ja) | 2017-10-19 |
| JP6577900B2 JP6577900B2 (ja) | 2019-09-18 |
Family
ID=60084752
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016081898A Active JP6577900B2 (ja) | 2016-04-15 | 2016-04-15 | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6577900B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020042174A (ja) * | 2018-09-11 | 2020-03-19 | 日本電信電話株式会社 | 語学学習支援装置、その方法、およびプログラム |
| CN112133325A (zh) * | 2020-10-14 | 2020-12-25 | 北京猿力未来科技有限公司 | 错误音素识别方法及装置 |
| CN112634874A (zh) * | 2020-12-24 | 2021-04-09 | 江西台德智慧科技有限公司 | 一种基于人工智能的自动调音终端设备 |
| CN115762496A (zh) * | 2022-11-08 | 2023-03-07 | 紫光展锐(重庆)科技有限公司 | 降低相近语音误识的方法、语音识别方法及其装置 |
-
2016
- 2016-04-15 JP JP2016081898A patent/JP6577900B2/ja active Active
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2020042174A (ja) * | 2018-09-11 | 2020-03-19 | 日本電信電話株式会社 | 語学学習支援装置、その方法、およびプログラム |
| JP6997993B2 (ja) | 2018-09-11 | 2022-01-18 | 日本電信電話株式会社 | 語学学習支援装置、その方法、およびプログラム |
| CN112133325A (zh) * | 2020-10-14 | 2020-12-25 | 北京猿力未来科技有限公司 | 错误音素识别方法及装置 |
| CN112133325B (zh) * | 2020-10-14 | 2024-05-07 | 北京猿力未来科技有限公司 | 错误音素识别方法及装置 |
| CN112634874A (zh) * | 2020-12-24 | 2021-04-09 | 江西台德智慧科技有限公司 | 一种基于人工智能的自动调音终端设备 |
| CN112634874B (zh) * | 2020-12-24 | 2022-09-23 | 江西台德智慧科技有限公司 | 一种基于人工智能的自动调音终端设备 |
| CN115762496A (zh) * | 2022-11-08 | 2023-03-07 | 紫光展锐(重庆)科技有限公司 | 降低相近语音误识的方法、语音识别方法及其装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP6577900B2 (ja) | 2019-09-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114038447B (zh) | 语音合成模型的训练方法、语音合成方法、装置及介质 | |
| CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
| US10249294B2 (en) | Speech recognition system and method | |
| Ferrer et al. | Study of senone-based deep neural network approaches for spoken language recognition | |
| Schuster et al. | Japanese and korean voice search | |
| CN104969288B (zh) | 基于话音记录日志提供话音识别系统的方法和系统 | |
| JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
| US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
| JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
| US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
| US8738378B2 (en) | Speech recognizer, speech recognition method, and speech recognition program | |
| CN104143332A (zh) | 声音处理装置以及声音处理方法 | |
| US12437150B2 (en) | System and method of performing data training on morpheme processing rules | |
| JP6577900B2 (ja) | 音素誤り獲得装置、音素誤り獲得方法、およびプログラム | |
| KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
| Srivastava et al. | Homophone Identification and Merging for Code-switched Speech Recognition. | |
| Coto‐Solano | Computational sociophonetics using automatic speech recognition | |
| CN116343752B (zh) | 一种声学模型性能评估方法、声学识别方法及相关装置 | |
| KR20160061071A (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
| CN112259084A (zh) | 语音识别方法、装置和存储介质 | |
| KR20130011323A (ko) | 통계 기반의 다중 발음 사전 생성 장치 및 방법 | |
| KR101095864B1 (ko) | 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법 | |
| JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
| JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
| CN112997247A (zh) | 利用大数据的最佳语言模型生成方法及用于其的装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180626 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190510 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190521 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190617 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190820 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190823 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6577900 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
