JP2004139049A - 話者正規化方法及びそれを用いた音声認識装置 - Google Patents
話者正規化方法及びそれを用いた音声認識装置 Download PDFInfo
- Publication number
- JP2004139049A JP2004139049A JP2003321374A JP2003321374A JP2004139049A JP 2004139049 A JP2004139049 A JP 2004139049A JP 2003321374 A JP2003321374 A JP 2003321374A JP 2003321374 A JP2003321374 A JP 2003321374A JP 2004139049 A JP2004139049 A JP 2004139049A
- Authority
- JP
- Japan
- Prior art keywords
- frequency conversion
- phoneme
- frame
- conversion condition
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】入力音声の音響特徴量を抽出する特徴量抽出部201と、所定の周波数変換係数を用いて周波数変換する周波数変換部202と、周波数変換部202に変換係数を与える変換係数設定部203と、変換後特徴量と標準音韻モデルの音響特徴量を用いて類似度又は距離を算出する類似度乃至距離算出部204と、最尤の音韻と最適周波数軸変換係数とを選択決定する変換条件決定部207と、周波数変換部202からの変換後特徴量を入力とする音声認識処理部209とを備え、音声認識処理部209が変換条件決定部207によって決定された条件を用いて変換係数設定部203において選択された周波数変換係数を用いて周波数変換部202において周波数変換された変換後特徴量を用いて認識処理を行うことにより、音声認識性能を向上させることができる。
【選択図】図2
Description
用いて、入力音声を正規化するステップとを含むことを特徴としている。
のである。これによって、周波数変換を行う対象として、最も信頼性の高い母音の情報を利用して全区間の周波数変換条件を決定することになるため、決定された周波数変換条件の信頼度を、より高いものにすることができ、かつ標準音韻モデルのデータ量を少なく抑えることができる。
に対する重みを求め、前記周波数変換条件決定部が、前記音韻別周波数変換条件に前記重みを反映して、当該フレームの周波数変換条件を決定するものである。これによって、各入力フレームのスペクトルを周波数変換する変換係数は、複数選定され、重み付き合算処理が行われ、かつ入力フレーム毎に重みの組値が異なることとなる。このため、フレーム毎により精度良く話者正規化を行うことが可能になり、いかなる音声に対しても、本発明の音声認識装置を用いた際の性能を向上させることができる。
図1は本発明の第1の実施の形態である話者正規化を用いた音声認識システムのハードウェアを示すブロック図である。図1において、マイクロフォン101は音声を取り込み、A/D変換器102が音声のアナログ信号をディジタル信号に変換する。シリアルコンバータ(以下「SCO」という。)103は、A/D変換器102からのシリアル信号をバスライン112に送る。記憶装置104には、あらかじめ複数の話者の音声から学習した音韻毎の特徴量を統計処理した数値群である標準話者群音韻モデル(以下「標準音韻モデル」という。)、及び、あらかじめ複数の話者の音声から学習した音声片毎の特徴量を統計処理して得られた数値群である音声片モデルを連結して得られる単語モデルが記憶さ
れている。
本来は可変の値であるが、本実施の形態1においては、処理の都合上、‘−0.15’、‘−0.1’、‘−0.05’、‘0’、‘+0.05’、‘+0.10’、‘+0.15’の7つの離散値α1乃至α7を用いた。これらを以下では変換係数群と呼ぶこととする。
この音韻の選択については、電子情報通信学会論文誌D−II NO.12 pp.2096−pp.2103において述べられている。
図4は、本発明の第2の実施の形態である音声認識装置の機能構成を示す。第1の実施の形態とは、類似度乃至距離算出部204が、周波数変換部202からの出力の他に特徴量抽出部201の出力である音響特徴量と標準音韻モデル205とを比較する点が異なる。更に、変換条件決定部207が、類似度乃至距離算出部204の結果から得られ結果蓄積部206に蓄積されていた結果のうち、後述する代表音韻の結果を用いて変換条件の判定を行う点が異なる。
す。
図6は、本発明の第3の実施の形態である音声認識装置の機能構成を示す。第2の実施の形態とは、特徴量から音韻毎の重みを算出する音韻重み算出部601を備えている点が異なる。
図12は、本発明の第4の実施の形態である家庭内機器用統合音声リモコン装置の機能を示すブロック図を示す。
した音声認識装置を使用する場合について説明するが、実施の形態1から実施の形態3で説明した全ての音声認識装置を使用することが可能である。
される。電源のオンオフを制御する電子機器群125がビデオ127の場合は使用者が発声した「びでお」という語、テレビ128である場合は「てれび」という語が認識され、同様に制御される。
101 マイクロフォン
102 A/D変換器
103 SCO
104 記憶装置
105 PIO
106 DMA
107 RAM
108 ROM
109 CPU
110 出力装置
112 バスライン
121 起動スイッチ
122 スイッチ
123 表示装置
124 リモコン信号発生装置
125 電子機器群
201 特徴量抽出部
202 周波数変換部
203 変換係数設定部
204 類似度乃至距離算出部
205 標準音韻モデル
206 結果蓄積部
207 変換条件決定部
208 特徴量蓄積部
209 音声認識処理部
210 単語モデル
601 音韻重み算出部
1301 文字表示
1302 重み表示グラフ
Claims (16)
- 入力音声を一定時間長に区切ってフレームとし、前記フレーム毎の音響特徴量を抽出する特徴量抽出ステップと、前記音響特徴量を予め定めておいた複数の周波数変換係数を用いて周波数変換する周波数変換ステップと、前記周波数変換により得られる複数の変換後特徴量と少なくとも1つの標準音韻モデルとの全ての組み合わせを用いて、前記フレーム毎の変換後特徴量と標準音韻モデルとの類似度又は距離を複数個算出するステップと、前記複数の類似度又は距離を用いて、前記入力音声を正規化するための周波数変換条件を決定するステップと、前記周波数変換条件用いて前記入力音声を正規化するステップとを含む話者正規化方法。
- 周波数変換条件を決定するステップは、前記フレームから構成した入力フレームに含まれる前記複数の類似度又は距離を相互に比較するステップと、前記フレーム毎に、前記比較結果を用いて、最尤となる音韻および周波数変換係数の組み合わせを選定するステップと、前記最尤となった周波数変換係数の頻度を複数のフレームに渡って累積し、前記頻度の最も多い周波数変換係数を周波数変換条件に決定するステップとを有する請求項1に記載の話者正規化方法。
- 周波数変換条件を決定するステップは、前記入力フレームから構成された入力フレームに含まれる前記複数の類似度又は距離を相互に比較するステップと、前記比較結果を用いて、最尤の結果を与える標準音韻モデルの音韻と周波数変換係数との組み合わせを選定するステップと、前記選定された周波数変換係数を当該フレームの周波数変換条件に決定するステップとを含む請求項1に記載の話者正規化方法。
- 類似度又は距離を算出するステップは、前記フレーム毎の音響特徴量と前記標準音韻モデルを用いて、フレーム毎に、各音韻の類似度又は距離の比を重みとして算出するステップを更に含み、周波数変換条件を決定するステップは、前記重みを用いて前記周波数変換条件を決定するステップである請求項1に記載の話者正規化方法。
- 各音韻の類似度又は距離の比を重みとして算出するステップは、前記フレーム毎に、標準音韻モデルの全ての音韻に対して最尤周波数変換係数を選定するステップと、前記標準音韻モデルの全ての音韻に対して、前記最尤周波数変換係数を複数のフレームに渡って前記音韻毎に累積した結果から、前記全ての音韻に対する音韻別周波数変換条件を決定するステップと、前記音韻別周波数変換条件と前記類似度又は距離とを用いて、前記フレーム毎に前記音韻別周波数変換条件に対する重みを求めるステップとを含み、周波数変換条件を決定するステップは、前記音韻別周波数変換条件に前記重みを反映して、当該フレームの周波数変換条件を決定するものである請求項4に記載の話者正規化方法。
- 周波数変換条件を決定するステップは、前記類似度又は距離の比較に少なくとも母音を使用することを特徴とする請求項1乃至5のいずれかに記載の話者正規化方法。
- 周波数変換条件を決定するステップは、前記類似度又は距離の比較に母音のみを使用することを特徴とする請求項1乃至5のいずれかに記載の話者正規化方法。
- 入力音声を一定時間長に区切ってフレームとし、前記フレーム毎の音響特徴量を抽出する特徴量抽出部と、前記音響特徴量を予め定めておいた複数の周波数変換係数を用いて周波数変換する周波数変換部と、前記周波数変換して得られる複数の変換後特徴量と少なくとも1つの標準音韻モデルとの全ての組み合わせを用いて、前記フレーム毎の変換後特徴量と標準音韻モデルとの類似度又は距離を複数個算出する類似度乃至距離算出部と、前記複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する
周波数変換条件決定部と、前記入力音声と認識対象音響モデルとを用いて音声を認識する音声認識処理部とを含み、前記決定された周波数変換条件用いて、前記入力音声を正規化した上で音声認識を行うことを特徴とする音声認識装置。 - 前記周波数変換条件決定部は、前記フレームから構成した入力フレームに含まれる前記複数の類似度又は距離を相互に比較し、フレーム毎に、前記比較結果を用いて、最尤となる音韻および周波数変換係数の組み合わせを選定し、前記最尤となった周波数変換係数の頻度を複数のフレームに渡って累積し、前記頻度の最も多い周波数変換係数を前記周波数変換条件に決定とすることを特徴とする請求項8に記載の音声認識装置。
- 前記周波数変換条件判定部は、前記入力フレームから構成された入力フレームに含まれる前記複数の類似度又は距離を相互に比較し、前記比較結果を用いて、最尤の結果を与える標準音韻モデルの音韻と周波数変換係数との組み合わせを選定し、前記選定された周波数変換係数を当該フレームの周波数変換条件に決定することを特徴とする請求項8に記載の音声認識装置。
- 前記類似度乃至距離算出部が、前記フレーム毎の音響特徴量と前記標準音韻モデルを用いて、フレーム毎に各音韻の類似度又は距離の比を重みとして算出し、前記周波数変換条件決定部が、前記重みを用いて前記周波数変換条件を決定することを特徴とする請求項8に記載の音声認識装置。
- 前記類似度乃至距離算出部が、前記フレーム毎に、標準音韻モデルの全ての音韻に対して最尤周波数変換係数を選定し、前記標準音韻モデルの全ての音韻に対して、前記最尤周波数変換係数を複数のフレームに渡って前記音韻毎に累積した結果から、前記全ての音韻に対する音韻別周波数変換条件を決定し、前記音韻別周波数変換条件と前記類似度又は距離とを用いて前記フレーム毎に前記音韻別周波数変換条件に対する重みを求め、前記周波数変換条件決定部が、前記音韻別周波数変換条件に前記重みを反映して、当該フレームの周波数変換条件を決定することを特徴とする請求項11に記載の音声認識装置。
- 周波数変換条件決定部は、前記類似度又は距離の比較に少なくとも母音を使用することを特徴とする請求項9乃至12のいずれかに記載の音声認識装置。
- 周波数変換条件決定部は、前記類似度又は距離の比較に母音のみを使用することを特徴とする請求項9乃至12のいずれかに記載の音声認識装置。
- 前記周波数変換条件決定部の内部処理によって得られる中間データを、使用者に対して表示する周波数変換条件プロセス表示部を備えたことを特徴とする請求項8乃至12のいずれかに記載の音声認識装置。
- 入力音声を取り込むマイクロフォンと、入力音声をAD変換するAD変換器と、話者正規化を実施するか否かを選択するスイッチと、請求項8乃至14のいずれかに記載の音声認識装置と、操作対象である電子機器群に対応認識対象語を記憶する記憶装置と、音声認識処理の結果および話者正規化を行っているか否かを出力する出力装置と、前記出力装置の出力に応じてリモコン信号を発声するリモコン信号発生装置とを有することを特徴とする音声リモコン装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321374A JP4449380B2 (ja) | 2002-09-24 | 2003-09-12 | 話者正規化方法及びそれを用いた音声認識装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002277022 | 2002-09-24 | ||
JP2003321374A JP4449380B2 (ja) | 2002-09-24 | 2003-09-12 | 話者正規化方法及びそれを用いた音声認識装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004139049A true JP2004139049A (ja) | 2004-05-13 |
JP2004139049A5 JP2004139049A5 (ja) | 2006-08-17 |
JP4449380B2 JP4449380B2 (ja) | 2010-04-14 |
Family
ID=32473041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003321374A Expired - Fee Related JP4449380B2 (ja) | 2002-09-24 | 2003-09-12 | 話者正規化方法及びそれを用いた音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4449380B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007141923A1 (ja) * | 2006-06-02 | 2007-12-13 | Nec Corporation | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
JP2019040123A (ja) * | 2017-08-28 | 2019-03-14 | 株式会社日立製作所 | 変換モデルの学習方法および変換モデルの学習装置 |
JP2022008928A (ja) * | 2018-03-15 | 2022-01-14 | 日本電気株式会社 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
-
2003
- 2003-09-12 JP JP2003321374A patent/JP4449380B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007141923A1 (ja) * | 2006-06-02 | 2007-12-13 | Nec Corporation | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
US8401844B2 (en) | 2006-06-02 | 2013-03-19 | Nec Corporation | Gain control system, gain control method, and gain control program |
JP2019040123A (ja) * | 2017-08-28 | 2019-03-14 | 株式会社日立製作所 | 変換モデルの学習方法および変換モデルの学習装置 |
JP2022008928A (ja) * | 2018-03-15 | 2022-01-14 | 日本電気株式会社 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
JP7268711B2 (ja) | 2018-03-15 | 2023-05-08 | 日本電気株式会社 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
US11842741B2 (en) | 2018-03-15 | 2023-12-12 | Nec Corporation | Signal processing system, signal processing device, signal processing method, and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP4449380B2 (ja) | 2010-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6705008B2 (ja) | 話者照合方法及びシステム | |
EP1635327B1 (en) | Information transmission device | |
JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
JPH09500223A (ja) | 多言語音声認識システム | |
JP2007264126A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JPH11119791A (ja) | 音声感情認識システムおよび方法 | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
CN112786052A (zh) | 语音识别方法、电子设备和存储装置 | |
JP5040778B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2018013549A (ja) | 発話内容認識装置 | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
CN1312656C (zh) | 说话人标准化方法及用该方法的语音识别装置 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
KR101560833B1 (ko) | 음성 신호를 이용한 감정 인식 장치 및 방법 | |
JP2007101813A (ja) | 認識システム | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Furui | Robust methods in automatic speech recognition and understanding. | |
JP4449380B2 (ja) | 話者正規化方法及びそれを用いた音声認識装置 | |
JPH08211897A (ja) | 音声認識装置 | |
JP2003044078A (ja) | 発声速度正規化分析を用いた音声認識装置 | |
US11043212B2 (en) | Speech signal processing and evaluation | |
JP2007248529A (ja) | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060630 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060630 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060712 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091106 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20091119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100105 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100118 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4449380 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140205 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |