JP7306626B2 - 予測装置、予測方法及び予測プログラム - Google Patents
予測装置、予測方法及び予測プログラム Download PDFInfo
- Publication number
- JP7306626B2 JP7306626B2 JP2019148529A JP2019148529A JP7306626B2 JP 7306626 B2 JP7306626 B2 JP 7306626B2 JP 2019148529 A JP2019148529 A JP 2019148529A JP 2019148529 A JP2019148529 A JP 2019148529A JP 7306626 B2 JP7306626 B2 JP 7306626B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- prediction
- recognition
- output
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明の実施の形態について説明する。本実施の形態は、被験者実験で得られる単語了解を、音声認識器の音素の認識率を基に予測する単語了解度予測装置に関する。
次に、単語了解度予測装置10が実行する予測処理について説明する。図5は、実施の形態に係る単語了解度予測処理の処理手順を示すフローチャートである。
図6は、図1に示す単語了解度予測装置10の評価実験を説明する図である。評価実験では、音声信号データセット(訓練データ)として、CSJ(The corpus of spontaneous Japanese)(詳細は、Sadaoki Furui, Kikuo Maekawa, and Hitoshi Isahara,“A japanese national project on sponta-neous speech corpus and processing technology”,In ASR2000-Automatic Speech Recognition:Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW), pp. 244-248, 2000、及び、Kikuo Maekawa,“CORPUS OF SPONTANEOUS JAPANESE: ITS DESIGN AND EVALUATION”,In ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition, 2003を参照)を用いる。ここでは、CSJコーパスから得られる音素バイグラムを使って音素言語モデル131の学習を行った。
本実施の形態は、入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを出力する音響モデルを用いて、予測対象の音声信号に対する音声認識を行い、音声認識結果を基に、音声信号の品質評価尺度である単語了解度を予測する。上述の評価実験にも示したように、本実施の形態によれば、従来のSTOI,HASPIや最近提案されているGEDIと比して、単語了解度の予測精度を高めることができる。
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図7は、プログラムが実行されることにより、単語了解度予測装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
11 音声認識部
12 音素出力部
13 音素並び出力部
14 音素認識部
15 認識率計算部
16 単語了解度予測部
121 音響モデル
131 音素並び言語モデル
Claims (4)
- 入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを示す各音素の確率を出力する音響モデルを用いて、予測対象の音声信号の各フレームに対応する音素の候補を出力する音素出力部と、
前記音素出力部が出力した前記音素の候補に対して音素の並びの尤もらしさを出力する音素レベルの音素言語モデルであって、正解テキストから音素の並びの出現頻度を計算して学習する音素Nグラムである音素言語モデルを用いて、前記音素出力部が出力した音素の候補に対応する音素の並びの候補を出力する音素並び出力部と、
前記音素出力部が出力した前記音素の候補と、前記音素並び出力部が出力した前記音素の並びの候補とを基に、前記予測対象の音声信号に対応する音素系列を認識する音素認識部と、
前記音素認識部によって認識された前記予測対象の音声信号に対応する音素系列と、正解テキストの音素系列とを照合し、前記音素認識部によって認識された前記予測対象の音声信号に対応する音素系列の、前記正解テキストの音素系列に対する正解率である音素認識正解率を計算する認識率計算部と、
を有する音声認識部と、
前記認識率計算部によって計算された音素認識正解率を基に、聴取者が正しく聴取できた単語数の割合として定義される単語了解度を、事前にパラメータが調整された予測関数を用いて予測する予測部と、
を有することを特徴とする予測装置。 - 前記予測部は、前記音素認識正解率と被験者実験による前記単語了解度から前記予測関数のパラメータを調整し、該パラメータが調整された予測関数を用いて、前記音素認識正解率から前記単語了解度を予測する、
ことを特徴とする請求項1に記載の予測装置。 - 予測装置が実行する予測方法であって、
入力された音声信号の各フレームがどの音素に対応するのが尤もらしいかを示す各音素の確率を出力する音響モデルを用いて、予測対象の音声信号の各フレームに対応する音素の候補を出力する音素出力工程と、
前記音素出力工程において出力された前記音素の候補に対して音素の並びの尤もらしさを出力する音素レベルの音素言語モデルであって、正解テキストから音素の並びの出現頻度を計算して学習する音素Nグラムである音素言語モデルを用いて、前記音素出力工程において出力された音素の候補に対応する音素の並びの候補を出力する音素並び出力工程と、
前記音素出力工程において出力された前記音素の候補と、前記音素並び出力工程において出力された前記音素の並びの候補とを基に、前記予測対象の音声信号に対応する音素系列を認識する音素認識工程と、
前記音素認識工程において認識された前記予測対象の音声信号に対応する音素系列と、正解テキストの音素系列とを照合し、前記音素認識工程において認識された前記予測対象の音声信号に対応する音素系列の、前記正解テキストの音素系列に対する正解率である音素認識正解率を計算する認識率計算工程と、
前記認識率計算工程において計算された音素認識正解率を基に、聴取者が正しく聴取できた単語数の割合として定義される単語了解度を、事前にパラメータが調整された予測関数を用いて予測する予測工程と、
を含んだことを特徴とする予測方法。 - コンピュータを請求項1または2に記載の予測装置として機能させるための予測プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019148529A JP7306626B2 (ja) | 2019-08-13 | 2019-08-13 | 予測装置、予測方法及び予測プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019148529A JP7306626B2 (ja) | 2019-08-13 | 2019-08-13 | 予測装置、予測方法及び予測プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021032909A JP2021032909A (ja) | 2021-03-01 |
JP7306626B2 true JP7306626B2 (ja) | 2023-07-11 |
Family
ID=74677222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019148529A Active JP7306626B2 (ja) | 2019-08-13 | 2019-08-13 | 予測装置、予測方法及び予測プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7306626B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7490062B2 (ja) | 2019-12-23 | 2024-05-24 | ディーティーエス・インコーポレイテッド | ダイアログの了解度を評価する方法及び装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262120A (ja) | 2007-04-13 | 2008-10-30 | Nippon Hoso Kyokai <Nhk> | 発話評価装置及び発話評価プログラム |
JP2015197621A (ja) | 2014-04-02 | 2015-11-09 | 日本電信電話株式会社 | 話し方評価装置、話し方評価方法、プログラム |
JP2016161765A (ja) | 2015-03-02 | 2016-09-05 | 日本放送協会 | 発音系列拡張装置およびそのプログラム |
JP2016188944A (ja) | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
JP2018109760A (ja) | 2017-01-04 | 2018-07-12 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び音声認識装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09319395A (ja) * | 1996-03-26 | 1997-12-12 | Meidensha Corp | 離散単語音声認識システムにおける音声データ学習装置 |
-
2019
- 2019-08-13 JP JP2019148529A patent/JP7306626B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008262120A (ja) | 2007-04-13 | 2008-10-30 | Nippon Hoso Kyokai <Nhk> | 発話評価装置及び発話評価プログラム |
JP2015197621A (ja) | 2014-04-02 | 2015-11-09 | 日本電信電話株式会社 | 話し方評価装置、話し方評価方法、プログラム |
JP2016161765A (ja) | 2015-03-02 | 2016-09-05 | 日本放送協会 | 発音系列拡張装置およびそのプログラム |
JP2016188944A (ja) | 2015-03-30 | 2016-11-04 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
JP2018109760A (ja) | 2017-01-04 | 2018-07-12 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音声認識方法及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021032909A (ja) | 2021-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kingsbury et al. | Robust speech recognition using the modulation spectrogram | |
Shahnawazuddin et al. | Pitch-Adaptive Front-End Features for Robust Children's ASR. | |
Islam et al. | A robust speaker identification system using the responses from a model of the auditory periphery | |
EP2363852B1 (en) | Computer-based method and system of assessing intelligibility of speech represented by a speech signal | |
Meyer et al. | Effect of speech-intrinsic variations on human and automatic recognition of spoken phonemes | |
KR20080078466A (ko) | 다단계 음성인식장치 및 방법 | |
WO2019240228A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
Xu et al. | Voice conversion based on Gaussian processes by coherent and asymmetric training with limited training data | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
Moore et al. | Say What? A Dataset for Exploring the Error Patterns That Two ASR Engines Make. | |
Arai et al. | Predicting Speech Intelligibility of Enhanced Speech Using Phone Accuracy of DNN-Based ASR System. | |
Dumitru et al. | A comparative study of feature extraction methods applied to continuous speech recognition in romanian language | |
KR20190032868A (ko) | 음성인식 방법 및 그 장치 | |
JP7306626B2 (ja) | 予測装置、予測方法及び予測プログラム | |
Liao et al. | Joint uncertainty decoding for robust large vocabulary speech recognition | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
Umesh | Studies on inter-speaker variability in speech and its application in automatic speech recognition | |
Sudhakara et al. | Noise robust goodness of pronunciation measures using teacher's utterance. | |
JP4922225B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
Kurian et al. | Connected digit speech recognition system for Malayalam language | |
Song et al. | Experimental study of discriminative adaptive training and MLLR for automatic pronunciation evaluation | |
JP7424587B2 (ja) | 学習装置、学習方法、推定装置、推定方法及びプログラム | |
Galić et al. | HMM-based Whisper Recognition using μ-law Frequency Warping | |
Akila et al. | Performance enhancement of syllable based Tamil speech recognition system using time normalization and rate of speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190813 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7306626 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |