JP5342621B2 - 音響モデル生成装置、音響モデル生成方法、プログラム - Google Patents
音響モデル生成装置、音響モデル生成方法、プログラム Download PDFInfo
- Publication number
- JP5342621B2 JP5342621B2 JP2011195854A JP2011195854A JP5342621B2 JP 5342621 B2 JP5342621 B2 JP 5342621B2 JP 2011195854 A JP2011195854 A JP 2011195854A JP 2011195854 A JP2011195854 A JP 2011195854A JP 5342621 B2 JP5342621 B2 JP 5342621B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- acoustic model
- model
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
男女識別の識別対象となる音声データには、入力時に音声のみしか入力されないような特段の工夫が存在しない場合、実際には音声がない無音区間や、音声以外の雑音が含まれる雑音区間(以下、これら音声でない区間を総称する場合に非音声区間という)が含まれる。したがって、音響モデルを学習する際には、音響モデル学習に用いられる音声データに含まれている非音声区間から非音声モデル、音声区間から音声モデルを学習しておく必要がある。識別の際には識別対象となる音声データ(非音声区間含む)に対して、男声音響モデル、女声音響モデルそれぞれの音声区間モデルと非音声区間モデルとの尤度の値に基づいて、男声か女声かを識別する方法が一般的である。しかし、前述のとおり男声音響モデルを学習する際に用いたデータと、女声音響モデルを学習する際に用いたデータとは異なるため、それぞれの非音声区間のデータも当然異なる。そのため男女識別を行う場合に、男声音響モデルの非音声区間モデルと識別対象となる音声データの非音声部分の尤度と、女声音響モデルの非音声区間モデルと当該非音声部分の尤度とはそれぞれ異なった値をとる。例えば識別対象となる音声データの音声区間について、男声音響モデルの音声区間モデルとの尤度が低い一方、女声音響モデルの音声区間モデルとの尤度が高い場合には、識別対象となる音声データは女声と識別すべきである。しかし、当該識別対象となる音声データに含まれている雑音の特徴が、偶然に男声音響モデルの非音声区間モデルと類似しており、当該雑音区間と男声音響モデルの非音声区間モデルとの尤度が高くなってしまった結果、識別対象全体の尤度の総合的な判断として男声と識別されてしまう可能性があり、問題である。
第一の問題を避けるため、従来の音声区間検出技術(特許文献2)を用いて識別対象となる音声データから音声区間のみを識別・分離し、分離された音声区間のみに対して男女識別を行う方法も考えられる。しかし、従来の音声区間検出技術(特許文献2)によっても、音声区間の識別誤りを完全には避けられないため、結局分離された音声区間に対しても、非音声区間が含まれることを前提に男女識別を行わざるを得ず、前述と同じ問題が生じる。
第一の問題を避けるため、例えば識別対象となる音声データのうち、音声区間として識別された区間の尤度のみに基づいて男女声を識別する方法も考えられる。しかし前述の問題から、男声音響モデルを用いた場合と、女声音響モデルを用いた場合では、音声区間と非音声区間の識別結果が異なる。そのため例えば男声音声が含まれる音声が識別対象として与えられた場合に、当該識別対象データの非音声区間と音声区間の境界付近の特定部分において、男声音響モデルの非音声区間モデルの尤度が音声区間モデルの尤度より高く非音声と判断される一方で、女声音響モデルの非音声区間モデルの尤度が音声区間モデルの尤度より低く、音声区間として判断されるような場合も生じる。そうすると女声音響モデルを用いた場合と、男声音響モデルを用いた場合で、尤度を求めるべき音声区間が異なることになる。一般的には男女声識別は一定長のフレーム単位で尤度を求め、その尤度の総和または平均値をスコアとし、男声音響モデルを用いた場合と女声音響モデルを用いた場合と、いずれがスコアが高いかで、男声か女声かを識別する。識別に用いる区間が異なるとスコアの基準が異なってしまうことになり、いずれか一方が優位に判定され、結果的に識別誤りが増えるといった問題が生じる。
以下、モデル学習部940が行う男性(女性)音声区間モデル・非音声区間モデルの学習について、その具体的な方法を説明する。男女声の識別においては、GMM(Gaussian Mixture Model)を用いて、学習と識別を行う。GMMとは以下のような式で表せるモデルである。
音声区間検出手段212の具体的な実現方法について以下に説明する。音声区間検出手段212については、例えば特許文献2記載の音声信号区間推定装置をそのまま適応することができる。この場合、音声区間検出手段212は、第1音響信号分析手段と、第2音響信号分析手段と、重み算出手段と、音声確率/非音声確率算出手段と、音声信号区間推定手段とを備える。
以下、図6、図7、図8を参照して実施例1〜5の変形例1〜5について説明する。図6は変形例1の音響モデル生成装置100’の構成を示すブロック図である。図7は変形例2〜5の音響モデル生成装置200’〜500’の構成を示すブロック図である。図8は変形例1〜5の音響モデル生成装置100’〜500’の動作を示すフローチャートである。変形例1の音響モデル生成装置100’は実施例1の音響モデル生成装置100を変形したものである。変形例2の音響モデル生成装置200’は実施例2の音響モデル生成装置200を変形したものである。変形例3の音響モデル生成装置300’は実施例3の音響モデル生成装置300を変形したものである。変形例4の音響モデル生成装置400’は実施例4の音響モデル生成装置400を変形したものである。変形例5の音響モデル生成装置500’は実施例5の音響モデル生成装置500を変形したものである。
Claims (8)
- 男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータから特徴量を抽出する特徴量抽出部と、
前記男性音声データから抽出された特徴量から男性音声区間モデルを、前記女性音声データから抽出された特徴量から女性音声区間モデルを、前記非音声データから抽出された特徴量から非音声区間モデルを学習するモデル学習部と、
前記男性音声区間モデルと、前記非音声区間モデルを統合して男声音響モデルを生成し、前記女性音声区間モデルと、前記非音声区間モデルを統合して女声音響モデルを生成するモデル統合部と、
を備えることを特徴とする音響モデル生成装置。 - 請求項1に記載の音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータを生成するデータ生成部をさらに備え、
前記データ生成部が、
非音声データを含む男性音声データと、非音声データを含む女性音声データを記憶するデータ記憶手段と、
前記記憶されたデータが非音声であることの尤度(以下、非音声尤度という)を予め定めた区間ごとに計算し、前記記憶された非音声データを含む男性音声データの非音声尤度が予め定めた値以下となる区間のデータを前記音響モデルの生成に用いられる男性音声データと判定し、前記記憶された非音声データを含む女性音声データの非音声尤度が予め定めた値以下となる区間のデータを前記音響モデルの生成に用いられる女性音声データと判定し、前記記憶されたデータの非音声尤度が予め定めた値を超える区間のデータを前記音響モデルの生成に用いられる非音声データと判定する音声区間検出手段と、
を備えることを特徴とする音響モデル生成装置。 - 請求項2に記載の音響モデル生成装置であって、
前記データ生成部が、
前記音声区間検出手段が前記音響モデルの生成に用いられる非音声データと判定したデータのうち、前記非音声尤度が予め定めたしきい値を超えるデータのみを抽出して、当該抽出したデータを前記音響モデルの生成に用いる非音声データと再判定する尤度判定手段をさらに備えること
を特徴とする音響モデル生成装置。 - 請求項1に記載の音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータを生成するデータ生成部をさらに備え、
前記データ生成部が、
非音声データを含む男性音声データと、非音声データを含む女性音声データを記憶するデータ記憶手段と、
前記記憶されたデータが音声であるか非音声であるかを区間ごとに識別する初期識別手段と、
前記記憶されたデータから特徴量を抽出する特徴量抽出手段と、
前記記憶された非音声データを含む男性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮男性音声区間モデルを、前記記憶された非音声データを含む女性音声データのうち音声と識別された区間のデータから抽出された特徴量から仮女性音声区間モデルを、前記記憶されたデータのうち非音声と識別された区間のデータから抽出された特徴量から仮非音声区間モデルを学習し、前記仮男性音声区間モデルと、前記仮非音声区間モデルを統合して仮男声音響モデルを生成し、前記仮女性音声区間モデルと、前記仮非音声区間モデルを統合して仮女声音響モデルを生成するモデル学習統合手段と、
前記仮男声音響モデルと前記仮女声音響モデルとを用いて、前記記憶されたデータが前記音響モデルの生成に用いられる男性音声データ、女性音声データ、非音声データの何れに属するかを区間ごとに識別する識別手段と、
を備えることを特徴とする音響モデル生成装置。 - 請求項1に記載の音響モデル生成装置であって、
前記音響モデルの生成に用いられるデータを生成するデータ生成部をさらに備え、
前記データ生成部が、
非音声データを含む男性音声データと非音声データを含む女性音声データとを混合した混合音声データと、前記非音声データを含む男性音声データと、前記非音声データを含む女性音声データと、を記憶するデータ記憶手段と、
前記記憶されたデータが音声であるか非音声であるかを区間ごとに識別し、前記記憶された非音声データを含む男性音声データのうち音声であると識別された区間のデータを前記音響モデルの生成に用いられる男性音声データと判定し、前記記憶された非音声データを含む女性音声データのうち音声であると識別された区間のデータを前記音響モデルの生成に用いられる女性音声データと判定し、前記記憶された混合音声データのうち非音声であると識別された区間のデータを前記音響モデルの生成に用いられる非音声データと判定する初期識別手段と、
を備えることを特徴とする音響モデル生成装置。 - 請求項1から5の何れかに記載の音響モデル生成装置であって、
前記モデル学習部が、雑音のバリエーション数に比例した数よりも1大きい数の混合ガウス分布により非音声区間モデルを学習すること
を特徴とする音響モデル生成装置。 - 男性音声データと、女性音声データと、非音声データとを音響モデルの生成に用いる音響モデル生成方法であって、
前記音響モデルの生成に用いられるデータから特徴量を抽出する特徴量抽出ステップと、
前記男性音声データから抽出された特徴量から男性音声区間モデルを、前記女性音声データから抽出された特徴量から女性音声区間モデルを、前記非音声データから抽出された特徴量から非音声区間モデルを学習するモデル学習ステップと、
前記男性音声区間モデルと、前記非音声区間モデルを統合して男声音響モデルを生成し、前記女性音声区間モデルと、前記非音声区間モデルを統合して女声音響モデルを生成するモデル統合ステップと、
を備えることを特徴とする音響モデル生成方法。 - コンピュータを、請求項1から6の何れかに記載の音響モデル生成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011195854A JP5342621B2 (ja) | 2011-09-08 | 2011-09-08 | 音響モデル生成装置、音響モデル生成方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011195854A JP5342621B2 (ja) | 2011-09-08 | 2011-09-08 | 音響モデル生成装置、音響モデル生成方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013057789A JP2013057789A (ja) | 2013-03-28 |
JP5342621B2 true JP5342621B2 (ja) | 2013-11-13 |
Family
ID=48133724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011195854A Active JP5342621B2 (ja) | 2011-09-08 | 2011-09-08 | 音響モデル生成装置、音響モデル生成方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5342621B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6786887B2 (ja) * | 2016-06-03 | 2020-11-18 | コニカミノルタ株式会社 | 紫外線硬化膜の形成方法および紫外線照射装置 |
WO2022249450A1 (ja) * | 2021-05-28 | 2022-12-01 | 日本電信電話株式会社 | 学習方法、検出方法、それらの装置、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002236494A (ja) * | 2001-02-09 | 2002-08-23 | Denso Corp | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 |
JP2007072143A (ja) * | 2005-09-07 | 2007-03-22 | Advanced Telecommunication Research Institute International | 音声認識装置、およびプログラム |
JP2009109712A (ja) * | 2007-10-30 | 2009-05-21 | National Institute Of Information & Communication Technology | オンライン話者逐次区別システム及びそのコンピュータプログラム |
JP5149107B2 (ja) * | 2008-08-29 | 2013-02-20 | 日本放送協会 | 音響処理装置およびプログラム |
-
2011
- 2011-09-08 JP JP2011195854A patent/JP5342621B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013057789A (ja) | 2013-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10403268B2 (en) | Method and system of automatic speech recognition using posterior confidence scores | |
US9536547B2 (en) | Speaker change detection device and speaker change detection method | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
JP6158348B2 (ja) | 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定 | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
KR102191306B1 (ko) | 음성 감정 인식 시스템 및 방법 | |
KR20180121831A (ko) | 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
US11900949B2 (en) | Signal extraction system, signal extraction learning method, and signal extraction learning program | |
JP4787979B2 (ja) | 雑音検出装置および雑音検出方法 | |
US20210264939A1 (en) | Attribute identifying device, attribute identifying method, and program storage medium | |
JP6148150B2 (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
JP5974901B2 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
JP5342621B2 (ja) | 音響モデル生成装置、音響モデル生成方法、プログラム | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
JP5496945B2 (ja) | 話者分類装置、話者分類方法、プログラム | |
JP5672175B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
WO2022249302A1 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP2021096349A (ja) | 相対位相特徴量抽出用ニューラルネットワークの訓練方法及び装置、話者認識用又は話者認証用モデルの訓練方法、並びに話者認識又は話者認証方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5342621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |