JP2008176155A - 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 - Google Patents
音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 Download PDFInfo
- Publication number
- JP2008176155A JP2008176155A JP2007010853A JP2007010853A JP2008176155A JP 2008176155 A JP2008176155 A JP 2008176155A JP 2007010853 A JP2007010853 A JP 2007010853A JP 2007010853 A JP2007010853 A JP 2007010853A JP 2008176155 A JP2008176155 A JP 2008176155A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- mfcc
- syllable
- speech
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】音節強調発声判定部13は、音響分析部で抽出された入力音声のパワー(E)やn次元のMFCC(MFCCの0次項C0を含む)等の音響特徴量に基づいて入力音声の発声区間を検知する発声区間検知部131と、検知された発声区間の出現周期性を判定する周期性判定部132とを主要な構成とし、発声区間の出現周期性が所定の基準値よりも高いときに入力音声を音節強調発声と判定する。入力音声が音節強調発声と判定されると、利用者に通常達成での再発生を要求したり、あるいは音声認識用の統計モデルを音節強調発声用の統計モデルに切り換えて音声認識が実行される。
【選択図】図3
Description
(1)入力音声の音響特徴量を抽出する音響分析手段と、抽出された音響特徴量に基づいて音声認識を行うための統計モデルと、抽出された音響特徴量の周期性に基づいて、入力音声が音節強調発声であるか否かを判定する音節強調発声判定手段と、音響特徴量に前記統計モデルを適用して探索処理を実行する探索処理部とを備え、入力音声が音節強調発声であるか否かの判定結果に応じて固有の音声認識動作を実行することを特徴とする。
(2)入力音声が音節強調発声と判定されたときに、発声者に対して再度の発声を要求する手段を含むことを特徴とする。
(3)通常発声に固有の音響特徴量に対応した第1統計モデルと、音節強調発声に固有の音響特徴量に対応した第2統計モデルとを備え、探索処理部は、入力音声が音節強調発声と判定されたときに第2統計モデルを用いて探索処理を実行することを特徴とする。
(1)利用者の発声が通常発声および音節強調発声のいずれであるかを探索処理の開始前に判定できるので、利用者の発声に対応した適性処理へ短時間で移行できるようになる。
(2)利用者の発声が通常発声および音節強調発声のいずれであるかを、音響特徴量の周期性に着目して判定するようにしたので、少ない処理負荷で正確な判定が可能になる。
(3)利用者の発声が音節強調発声と判定されると、利用者に通常発声での再発声を促すようにしたので、通常発声に基づく正確な音声認識が可能になる。
(4)通常発声用の統計モデルと音節強調発声用の統計モデルとを備え、利用者の発声が通常発声および音節強調発声のいずれであるかの応じて統計モデルを使い分けるようにしたので、利用者が通常発声および音節強調発声のいずれで発声しても良好な音声認識が可能になる。
Claims (22)
- 入力音声の音響特徴量を抽出する音響分析手段と、
前記抽出された音響特徴量に基づいて音声認識を行うための統計モデルと、
前記抽出された音響特徴量の周期性に基づいて、入力音声が音節強調発声であるか否かを判定する音節強調発声判定手段と、
前記音響特徴量に前記統計モデルを適用して探索処理を実行する探索処理部とを含み、
入力音声が音節強調発声であるか否かの判定結果に応じて固有の音声認識動作を実行することを特徴とする音声認識装置。 - 前記音節強調発声判定手段が、
抽出された音響特徴量に基づいて入力音声の発声区間を検知する発声区間検知手段と、
前記発声区間の出現周期性を判定する周期性判定手段とを含み、
前記出現周期性が所定の基準値よりも高いときに、入力音声を音節強調発声と判定することを特徴とする請求項1に記載の音声認識装置。 - 前記周期性判定手段は、前記発声区間の出現周期の自己相関に基づいて出現周期性を判定することを特徴とする請求項2に記載の音声認識装置。
- 前記周期性判定手段は、前記発声区間の出現周期の一次の自己相関に基づいて出現周期性を判定することを特徴とする請求項3に記載の音声認識装置。
- 入力音声が音節強調発声と判定されたときに、発声者に対して再度の発声を要求する手段を含むことを特徴とする請求項1ないし4のいずれかに記載の音声認識装置。
- 通常発声に固有の音響特徴量に対応した第1統計モデルと、
音節強調発声に固有の音響特徴量に対応した第2統計モデルとを備え、
前記探索処理部は、入力音声が音節強調発声と判定されたときに、前記第2統計モデルを用いて探索処理を実行することを特徴とする請求項1ないし4のいずれかに記載の音声認識装置。 - 前記音響特徴量が入力音声のパワー(E)を含み、
前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。 - 前記音響特徴量が入力音声のMFCCを含み、
前記発声区間検知手段が、入力音声のMFCCの0次項の時間変化率(ΔC0)に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。 - 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じて得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。 - 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを平滑化して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。 - 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを所定の一定区間ごとに当該区間の最大振幅で代表して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項2ないし6のいずれかに記載の音声認識装置。 - 入力音声が音節強調発声であるか否かを判定する発声判定方法において、
入力音声の音響特徴量を抽出する手順と、
前記抽出された音響特徴量の周期性に基づいて、入力音声が音節強調発声であるか否かを判定する手順とを含むことを特徴とする発声判定方法。 - 前記入力音声が音節強調発声であるか否かを判定する手順が、
抽出された音響特徴量に基づいて入力音声の発声区間を検知する手順と、
前記発声区間の出現周期性を判定する手順とを含み、
前記出現周期性が所定の基準値よりも高いときに、入力音声を音節強調発声と判定することを特徴とする請求項12に記載の発声判定方法。 - 前記出現周期性を判定する手順は、前記発声区間の出現周期の自己相関に基づいて出現周期性を判定することを特徴とする請求項13に記載の発声判定方法。
- 前記出現周期性を判定する手順は、前記発声区間の出現周期の一次の自己相関に基づいて出現周期性を判定することを特徴とする請求項13に記載の発声判定方法。
- 前記音響特徴量が入力音声のパワー(E)を含み、
前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。 - 前記音響特徴量が入力音声のMFCCを含み、
前記発声区間を検知する手順が、入力音声のMFCCの0次項の時間変化率(ΔC0)に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。 - 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じて得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。 - 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを平滑化して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。 - 前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの0次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを所定の一定区間ごとに当該区間の最大振幅で代表して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項13ないし15のいずれかに記載の発声判定方法。 - 前記請求項12ないし20のいずれかに記載の発声判定方法をコンピュータに実行させる発声判定プログラム。
- 前記請求項21に記載の発声判定プログラムをコンピュータによる読み出し可能に記憶した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007010853A JP4986028B2 (ja) | 2007-01-19 | 2007-01-19 | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007010853A JP4986028B2 (ja) | 2007-01-19 | 2007-01-19 | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008176155A true JP2008176155A (ja) | 2008-07-31 |
JP4986028B2 JP4986028B2 (ja) | 2012-07-25 |
Family
ID=39703216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007010853A Expired - Fee Related JP4986028B2 (ja) | 2007-01-19 | 2007-01-19 | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4986028B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010098130A1 (ja) * | 2009-02-27 | 2010-09-02 | パナソニック株式会社 | トーン判定装置およびトーン判定方法 |
JP2015215503A (ja) * | 2014-05-12 | 2015-12-03 | 日本電信電話株式会社 | 音声認識方法、音声認識装置および音声認識プログラム |
CN105632512A (zh) * | 2016-01-14 | 2016-06-01 | 华南理工大学 | 一种基于统计模型的双传感器语音增强方法与装置 |
CN111768800A (zh) * | 2020-06-23 | 2020-10-13 | 中兴通讯股份有限公司 | 语音信号处理方法、设备及存储介质 |
US11996115B2 (en) | 2019-03-08 | 2024-05-28 | Nec Corporation | Sound processing method |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62164097A (ja) * | 1986-01-14 | 1987-07-20 | 株式会社リコー | 音声判別方式 |
JPS62166400A (ja) * | 1986-01-20 | 1987-07-22 | 株式会社リコー | 音声ワ−ドプロセツサ装置 |
JPH0383100A (ja) * | 1989-08-25 | 1991-04-09 | Ricoh Co Ltd | 音声区間の検出装置 |
JP2000099070A (ja) * | 1998-09-17 | 2000-04-07 | Canon Inc | 音声認識装置及びその方法、コンピュータ可読メモリ |
JP2001265367A (ja) * | 2000-03-16 | 2001-09-28 | Mitsubishi Electric Corp | 音声区間判定装置 |
JP2006010739A (ja) * | 2004-06-22 | 2006-01-12 | Toyota Central Res & Dev Lab Inc | 音声認識装置 |
WO2007046267A1 (ja) * | 2005-10-20 | 2007-04-26 | Nec Corporation | 音声判別システム、音声判別方法及び音声判別用プログラム |
-
2007
- 2007-01-19 JP JP2007010853A patent/JP4986028B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62164097A (ja) * | 1986-01-14 | 1987-07-20 | 株式会社リコー | 音声判別方式 |
JPS62166400A (ja) * | 1986-01-20 | 1987-07-22 | 株式会社リコー | 音声ワ−ドプロセツサ装置 |
JPH0383100A (ja) * | 1989-08-25 | 1991-04-09 | Ricoh Co Ltd | 音声区間の検出装置 |
JP2000099070A (ja) * | 1998-09-17 | 2000-04-07 | Canon Inc | 音声認識装置及びその方法、コンピュータ可読メモリ |
JP2001265367A (ja) * | 2000-03-16 | 2001-09-28 | Mitsubishi Electric Corp | 音声区間判定装置 |
JP2006010739A (ja) * | 2004-06-22 | 2006-01-12 | Toyota Central Res & Dev Lab Inc | 音声認識装置 |
WO2007046267A1 (ja) * | 2005-10-20 | 2007-04-26 | Nec Corporation | 音声判別システム、音声判別方法及び音声判別用プログラム |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010098130A1 (ja) * | 2009-02-27 | 2010-09-02 | パナソニック株式会社 | トーン判定装置およびトーン判定方法 |
CN102334156A (zh) * | 2009-02-27 | 2012-01-25 | 松下电器产业株式会社 | 音调判定装置及音调判定方法 |
JP2015215503A (ja) * | 2014-05-12 | 2015-12-03 | 日本電信電話株式会社 | 音声認識方法、音声認識装置および音声認識プログラム |
CN110070883A (zh) * | 2016-01-14 | 2019-07-30 | 深圳市韶音科技有限公司 | 语音增强方法 |
CN110010149A (zh) * | 2016-01-14 | 2019-07-12 | 深圳市韶音科技有限公司 | 基于统计模型的双传感器语音增强方法 |
CN110070880A (zh) * | 2016-01-14 | 2019-07-30 | 深圳市韶音科技有限公司 | 用于分类的联合统计模型的建立方法及应用方法 |
CN105632512A (zh) * | 2016-01-14 | 2016-06-01 | 华南理工大学 | 一种基于统计模型的双传感器语音增强方法与装置 |
CN110085250A (zh) * | 2016-01-14 | 2019-08-02 | 深圳市韶音科技有限公司 | 气导噪声统计模型的建立方法及应用方法 |
CN110010149B (zh) * | 2016-01-14 | 2023-07-28 | 深圳市韶音科技有限公司 | 基于统计模型的双传感器语音增强方法 |
CN110070883B (zh) * | 2016-01-14 | 2023-07-28 | 深圳市韶音科技有限公司 | 语音增强方法 |
CN110085250B (zh) * | 2016-01-14 | 2023-07-28 | 深圳市韶音科技有限公司 | 气导噪声统计模型的建立方法及应用方法 |
CN110070880B (zh) * | 2016-01-14 | 2023-07-28 | 深圳市韶音科技有限公司 | 用于分类的联合统计模型的建立方法及应用方法 |
US11996115B2 (en) | 2019-03-08 | 2024-05-28 | Nec Corporation | Sound processing method |
CN111768800A (zh) * | 2020-06-23 | 2020-10-13 | 中兴通讯股份有限公司 | 语音信号处理方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4986028B2 (ja) | 2012-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
JP2004258658A (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
EP3065130B1 (en) | Voice synthesis | |
JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
CN112435654A (zh) | 通过帧插入对语音数据进行数据增强 | |
JPWO2009081895A1 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
JP5398295B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
WO2010100853A1 (ja) | 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体 | |
JP4986028B2 (ja) | 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体 | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5983604B2 (ja) | 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP5296455B2 (ja) | 話者識別装置、及びコンピュータプログラム | |
JP4256393B2 (ja) | 音声処理方法及びそのプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
WO2012032748A1 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JPH0950288A (ja) | 音声認識装置及び音声認識方法 | |
JP2006243213A (ja) | 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム | |
JP2012255867A (ja) | 音声認識装置 | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
JP2007248529A (ja) | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 | |
JP5170449B2 (ja) | 検出装置、音声認識装置、検出方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120326 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120418 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4986028 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150511 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |