JP2013061402A - 音声言語評価装置、方法、及びプログラム - Google Patents
音声言語評価装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2013061402A JP2013061402A JP2011198383A JP2011198383A JP2013061402A JP 2013061402 A JP2013061402 A JP 2013061402A JP 2011198383 A JP2011198383 A JP 2011198383A JP 2011198383 A JP2011198383 A JP 2011198383A JP 2013061402 A JP2013061402 A JP 2013061402A
- Authority
- JP
- Japan
- Prior art keywords
- language
- evaluation
- phoneme
- feature information
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】音素表現計算部13で、学習用音声信号から抽出されたメルスペクトルをNMFにより分解して言語の種類毎に音素表現Hと配合比率Uとを求め、音素表現Hを音素表現記憶部14に言語の種類毎に記憶する。評価用音声信号が入力されると、特徴情報抽出部12で、メルスペクトルを抽出し、音素配合比率計算部15で、抽出されたメルスペクトルと、音素表現記憶部14に記憶された音素表現Hとに基づいて、言語の種類毎に配合比率Uを計算する。言語類似性評価部16で、計算された配合比率Uと音素表現記憶部14に記憶された音素表現Hとの積を言語の種類毎に各々計算し、評価用音声信号から抽出されたメルスペクトルとの類似度に基づいて、評価用音声信号が示す言語の種類を評価する。
【選択図】図1
Description
NMFによって音声信号を音素へ分解するイメージを図2に示す。図中Yは、特徴情報抽出部12で抽出されたメルスペクトルを、図中Hは、音素表現(音素毎の基底ベクトルを並べたもの。音素の基底ベクトルを、以下では単に「音素」ともいう)を、図中Uは、各音素がYにどのくらいの比率で配合されているかを示す配合比率を表す。NMFによる繰り返し演算で、メルスペクトルYと、音素表現Hと配合比率Uとの積との差を最小化することにより、適切な音素表現H及び配合比率Uを求めることができる。評価段階では、音素表現Hのみを利用するため、求めた音素表現Hを出力する。
2 学習部
3 評価部
11 音声信号入力部
12 特徴情報抽出部
13 音素表現計算部
14 音素表現記憶部
15 音素配合比率計算部
16 言語類似性評価部
17 表示制御部
Claims (8)
- 言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する抽出手段と、
言語の種類が既知の複数の学習用音声信号から抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより得られた音素毎の基底ベクトルで表された言語の種類毎の音素表現と、前記抽出手段により抽出された評価用特徴情報とに基づいて、該評価用特徴情報に配合された各音素の基底ベクトルの比率を示す配合比率を、言語の種類毎に計算する配合比率計算手段と、
前記評価用特徴情報と、前記配合比率計算手段により計算された言語の種類毎の配合比率と前記言語の種類毎の音素表現との積で示される情報各々との類似度に基づいて、該評価用特徴情報に対応する評価用音声信号が示す言語の種類を評価する評価手段と、
を含む音声言語評価装置。 - 前記音素表現を、時系列構造の音素表現とした請求項1記載の音声言語評価装置。
- 前記評価手段は、前記類似度が最も高くなるときの音素表現に対応する言語の種類を、前記評価用音声信号が示す言語の種類であると識別するか、または、言語の種類毎の類似度に基づいて、言語の種類間の系統的関連性を示す言語系統樹を作成する請求項1または請求項2記載の音声言語評価装置。
- 前記配合比率計算手段は、発話者の性別及び年齢の少なくとも一方が既知の学習用音声信号から抽出された学習用特徴情報より得られた言語の種類並びに性別及び年齢別の少なくとも一方毎の音素表現に基づいて、言語の種類並びに性別及び年齢別の少なくとも一方毎に前記配合比率を計算する請求項1〜請求項3のいずれか1項記載の音声言語評価装置。
- 前記抽出手段は、前記複数の学習用音声信号から前記言語の種類毎の学習用特徴情報を抽出し、
前記抽出手段により抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより前記言語の種類毎の音素表現を計算する音素表現計算手段
を含む請求項1〜請求項4のいずれか1項記載の音声言語評価装置。 - 抽出手段と、配合比率計算手段と、評価手段とを含む音声言語評価装置における音声言語評価方法であって、
前記抽出手段は、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出し、
前記配合比率計算手段は、言語の種類が既知の複数の学習用音声信号から抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより得られた音素毎の基底ベクトルで表された言語の種類毎の音素表現と、前記抽出手段により抽出された評価用特徴情報とに基づいて、該評価用特徴情報に配合された各音素の基底ベクトルの比率を示す配合比率を、言語の種類毎に計算し、
前記評価手段は、前記評価用特徴情報と、前記配合比率計算手段により計算された言語の種類毎の配合比率と前記言語の種類毎の音素表現との積で示される情報各々との類似度に基づいて、該評価用特徴情報に対応する評価用音声信号が示す言語の種類を評価する
音声言語評価方法。 - 前記音声言語評価装置は、音素表現計算手段を更に含み、
前記抽出手段は、前記複数の学習用音声信号から前記言語の種類毎の学習用特徴情報を抽出し、
前記音素表現計算手段は、前記抽出手段により抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより前記言語の種類毎の音素表現を計算する
請求項6記載の音声言語評価方法。 - コンピュータを、請求項1〜請求項5のいずれか1項記載の音声言語評価装置を構成する各手段として機能させるための音声言語評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011198383A JP5544575B2 (ja) | 2011-09-12 | 2011-09-12 | 音声言語評価装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011198383A JP5544575B2 (ja) | 2011-09-12 | 2011-09-12 | 音声言語評価装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013061402A true JP2013061402A (ja) | 2013-04-04 |
JP5544575B2 JP5544575B2 (ja) | 2014-07-09 |
Family
ID=48186140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011198383A Active JP5544575B2 (ja) | 2011-09-12 | 2011-09-12 | 音声言語評価装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5544575B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014164187A (ja) * | 2013-02-26 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声言語評価装置、パラメータ推定装置、方法、及びプログラム |
CN105261246A (zh) * | 2015-12-02 | 2016-01-20 | 武汉慧人信息科技有限公司 | 一种基于大数据挖掘技术的英语口语纠错系统 |
CN109065059A (zh) * | 2018-09-26 | 2018-12-21 | 新巴特(安徽)智能科技有限公司 | 用音频特征主成分建立的语音群集来识别说话人的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282360A (ja) * | 1992-03-31 | 1993-10-29 | Hitachi Ltd | 多国語入力装置 |
US6212500B1 (en) * | 1996-09-10 | 2001-04-03 | Siemens Aktiengesellschaft | Process for the multilingual use of a hidden markov sound model in a speech recognition system |
KR20030055480A (ko) * | 2001-12-26 | 2003-07-04 | 한국전자통신연구원 | 음성언어 식별 장치 및 방법 |
US20110035219A1 (en) * | 2009-08-04 | 2011-02-10 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
JP2012103554A (ja) * | 2010-11-11 | 2012-05-31 | Advanced Telecommunication Research Institute International | 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム |
-
2011
- 2011-09-12 JP JP2011198383A patent/JP5544575B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282360A (ja) * | 1992-03-31 | 1993-10-29 | Hitachi Ltd | 多国語入力装置 |
US6212500B1 (en) * | 1996-09-10 | 2001-04-03 | Siemens Aktiengesellschaft | Process for the multilingual use of a hidden markov sound model in a speech recognition system |
KR20030055480A (ko) * | 2001-12-26 | 2003-07-04 | 한국전자통신연구원 | 음성언어 식별 장치 및 방법 |
US20110035219A1 (en) * | 2009-08-04 | 2011-02-10 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
JP2012103554A (ja) * | 2010-11-11 | 2012-05-31 | Advanced Telecommunication Research Institute International | 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014164187A (ja) * | 2013-02-26 | 2014-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 音声言語評価装置、パラメータ推定装置、方法、及びプログラム |
CN105261246A (zh) * | 2015-12-02 | 2016-01-20 | 武汉慧人信息科技有限公司 | 一种基于大数据挖掘技术的英语口语纠错系统 |
CN109065059A (zh) * | 2018-09-26 | 2018-12-21 | 新巴特(安徽)智能科技有限公司 | 用音频特征主成分建立的语音群集来识别说话人的方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5544575B2 (ja) | 2014-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gharavian et al. | Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network | |
CN106782560B (zh) | 确定目标识别文本的方法及装置 | |
Ghai et al. | Literature review on automatic speech recognition | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
EP3113176A1 (en) | Speech recognition apparatus, speech recognition method, and electronic device | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
US7996214B2 (en) | System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US6845357B2 (en) | Pattern recognition using an observable operator model | |
CN111145718A (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
US8583417B2 (en) | Translation device and computer program product | |
Black et al. | Automated evaluation of non-native English pronunciation quality: combining knowledge-and data-driven features at multiple time scales | |
AU2012388796B2 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
Lounnas et al. | CLIASR: a combined automatic speech recognition and language identification system | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
US20080120108A1 (en) | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations | |
JP5544575B2 (ja) | 音声言語評価装置、方法、及びプログラム | |
Shafran et al. | A comparison of classifiers for detecting emotion from speech | |
Escudero et al. | Identifying characteristic prosodic patterns through the analysis of the information of Sp_ToBI label sequences | |
Azim et al. | Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition | |
Rashmi et al. | Text-to-Speech translation using Support Vector Machine, an approach to find a potential path for human-computer speech synthesizer | |
Vasuki | Design of Hierarchical Classifier to Improve Speech Emotion Recognition. | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
Qin | On spoken English phoneme evaluation method based on sphinx-4 computer system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130813 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5544575 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |