JP4449380B2 - 話者正規化方法及びそれを用いた音声認識装置 - Google Patents
話者正規化方法及びそれを用いた音声認識装置 Download PDFInfo
- Publication number
- JP4449380B2 JP4449380B2 JP2003321374A JP2003321374A JP4449380B2 JP 4449380 B2 JP4449380 B2 JP 4449380B2 JP 2003321374 A JP2003321374 A JP 2003321374A JP 2003321374 A JP2003321374 A JP 2003321374A JP 4449380 B2 JP4449380 B2 JP 4449380B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency conversion
- standard
- frequency
- phoneme
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1は本発明の第1の実施の形態である話者正規化を用いた音声認識システムのハードウェアを示すブロック図である。図1において、マイクロフォン101は音声を取り込み、A/D変換器102が音声のアナログ信号をディジタル信号に変換する。シリアルコンバータ(以下「SCO」という。)103は、A/D変換器102からのシリアル信号をバスライン112に送る。記憶装置104には、あらかじめ複数の話者の音声から学習した音韻毎の特徴量を統計処理した数値群である標準話者群音韻モデル(以下「標準音韻モデル」という。)、及び、あらかじめ複数の話者の音声から学習した音声片毎の特徴量を統計処理して得られた数値群である音声片モデルを連結して得られる単語モデルが記憶さ
れている。
本来は可変の値であるが、本実施の形態1においては、処理の都合上、‘−0.15’、‘−0.1’、‘−0.05’、‘0’、‘+0.05’、‘+0.10’、‘+0.15’の7つの離散値α1乃至α7を用いた。これらを以下では変換係数群と呼ぶこととする。
この音韻の選択については、電子情報通信学会論文誌D−II NO.12 pp.2096−pp.2103において述べられている。
図4は、本発明の第2の実施の形態である音声認識装置の機能構成を示す。第1の実施の形態とは、類似度乃至距離算出部204が、周波数変換部202からの出力の他に特徴量抽出部201の出力である音響特徴量と標準音韻モデル205とを比較する点が異なる。更に、変換条件決定部207が、類似度乃至距離算出部204の結果から得られ結果蓄積部206に蓄積されていた結果のうち、後述する代表音韻の結果を用いて変換条件の判定を行う点が異なる。
す。
図6は、本発明の第3の実施の形態である音声認識装置の機能構成を示す。第2の実施の形態とは、特徴量から音韻毎の重みを算出する音韻重み算出部601を備えている点が異なる。
図12は、本発明の第4の実施の形態である家庭内機器用統合音声リモコン装置の機能を示すブロック図を示す。
した音声認識装置を使用する場合について説明するが、実施の形態1から実施の形態3で説明した全ての音声認識装置を使用することが可能である。
される。電源のオンオフを制御する電子機器群125がビデオ127の場合は使用者が発声した「びでお」という語、テレビ128である場合は「てれび」という語が認識され、同様に制御される。
101 マイクロフォン
102 A/D変換器
103 SCO
104 記憶装置
105 PIO
106 DMA
107 RAM
108 ROM
109 CPU
110 出力装置
112 バスライン
121 起動スイッチ
122 スイッチ
123 表示装置
124 リモコン信号発生装置
125 電子機器群
201 特徴量抽出部
202 周波数変換部
203 変換係数設定部
204 類似度乃至距離算出部
205 標準音韻モデル
206 結果蓄積部
207 変換条件決定部
208 特徴量蓄積部
209 音声認識処理部
210 単語モデル
601 音韻重み算出部
1301 文字表示
1302 重み表示グラフ
Claims (9)
- フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を記憶する特徴量記憶部と、
複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、
前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、
前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、
単語モデルを用いて音声認識する音声認識処理部と、を備え、
前記周波数変換条件決定部は、前記算出された複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、当該選定された結果を用いて最尤となる標準音韻および当該標準音韻に対応する周波数変換係数の組み合わせを前記フレーム毎に選定し、前記周波数変換係数の出現頻度を複数フレームに渡って周波数変換係数毎に累積し、前記出現頻度の最も多い周波数変換係数を全フレームに渡る周波数変換係数とし、
前記周波数変換部は、前記周波数変換条件決定部によって決定された周波数変換条件を用いて前記特徴量記憶部に記憶された前記音響特徴量を周波数変換し、
前記音声認識処理部は、前記周波数変換条件を用いて周波数変換された前記音響特徴量と前記単語モデルを用いて音声認識をする、音声認識装置。 - フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を記憶する特徴量記憶部と、
複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、
前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、
前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、
単語モデルを用いて音声認識する音声認識処理部と、を備え、
前記周波数変換条件決定部は、
前記算出された複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、
前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、
前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、
前記算出された複数の類似度又は距離から、当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい音韻を、フレーム毎にフレームを代表する代表標準音韻として決定し、
前記周波数変換部は、
前記決定された代表標準音韻を用いて前記全フレームに渡る標準音韻に対応する周波数変換係数をフレーム毎に選択し、当該選択された周波数変換を用いて前記音響特徴量をフレーム毎に周波数変換する、
音声認識装置。 - フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を記憶する特徴量記憶部と、
複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、
前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出し、かつ、前記特徴量抽出部が抽出した音響特徴量と標準音韻の標準音韻モデルとの前記音響特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、
前記算出された前記変換後特徴量と前記標準音韻モデルとの複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、
単語モデルを用いて音声認識する音声認識処理部と、を備え、
前記周波数変換条件決定部は、
前記算出された前記変換後特徴量と前記標準音韻モデルとの複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、
前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、
前記標準音韻毎に、前記算出された前記音響特徴量と前記標準音韻モデルとの類似度又は距離に対応する標準音韻毎の重みをフレーム毎に算出し、
前記周波数変換部は、
前記全フレームに渡る標準音韻に対応する周波数変換係数と前記算出したフレーム毎の標準音韻毎の重みを用いて、前記音響特徴量をフレーム毎に周波数変換する、
音声認識装置。 - 前記標準音韻は母音である請求項1から3までのいずれか一つに記載の音声認識装置。
- 前記標準音韻は母音のみである請求項1から3までのいずれか一つに記載の音声認識装置。
- 前記入力音声を取り込むマイクロフォンと、前記入力音声が入力される請求項1から5までのいずれかに一つに記載の音声認識装置と、前記音声認識装置からの認識結果である操作対象装置に対して操作信号を発信する信号発生装置とを有する、音声リモコン装置。
- 特徴量抽出部が、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出ステップと、
前記音響特徴量を特徴量記憶部に記憶する特徴量記憶ステップと、
周波数変換部が、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換ステップと、
類似度乃至距離算出部が、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出ステップと、
周波数変換条件決定部が、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定ステップと、
音声認識処理部が、単語モデルを用いて音声認識する音声認識処理ステップと、を含み、
前記周波数変換条件決定ステップは、前記算出された複数の類似度又は距離から標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、当該選定された結果を用いて最尤となる標準音韻および当該標準音韻に対応する周波数変換係数の組み合わせを前記フレーム毎に選定し、前記周波数変換係数の出現頻度を複数フレームに渡って周波数変換係数毎に累積し、前記出現頻度の最も多い周波数変換係数を全フレームに渡る周波数変換係数とし、
前記周波数変換ステップは、前記周波数変換条件決定ステップによって決定された周波数変換条件を用いて前記特徴量記憶部に記憶された前記音響特徴量を周波数変換し、
前記音声認識処理ステップは、前記周波数変換条件を用いて周波数変換された前記音響特徴量と前記単語モデルを用いて音声認識をする、音声認識方法。 - 特徴量抽出部が、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出ステップと、
前記音響特徴量を特徴量記憶部に記憶する特徴量記憶ステップと、
周波数変換部が、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換ステップと、
類似度乃至距離算出部が、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出ステップと、
周波数変換条件決定部が、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定ステップと、
音声認識処理部が、単語モデルを用いて音声認識する音声認識処理ステップと、を含み、
前記周波数変換条件決定ステップは、前記算出された複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、
前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、前記算出された複数の類似度又は距離から、当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい音韻を、フレーム毎にフレームを代表する代表標準音韻として決定し、
前記周波数変換ステップは、
前記決定された代表標準音韻を用いて前記全フレームに渡る標準音韻に対応する周波数変換係数をフレーム毎に選択し、当該選択された周波数変換を用いて前記音響特徴量をフレーム毎に周波数変換する、
音声認識方法。 - 特徴量抽出部が、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出ステップと、
前記音響特徴量を特徴量記憶部に記憶する特徴量記憶ステップと、
周波数変換部が、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換ステップと、
類似度乃至距離算出部が、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出し、かつ、前記特徴量抽出部が抽出した音響特徴量と標準音韻の標準音韻モデルとの前記音響特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出ステップと、
周波数変換条件決定部が、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定ステップと、
音声認識処理部が、単語モデルを用いて音声認識する音声認識処理ステップと、を含み、
前記周波数変換条件決定ステップは、前記算出された前記変換後特徴量と前記標準音韻モデルとの複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、
前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、前記標準音韻毎に、前記算出された前記音響特徴量と前記標準音韻モデルとの類似度又は距離に対応する標準音韻毎の重みをフレーム毎に算出し、
前記周波数変換ステップは、前記全フレームに渡る標準音韻に対応する周波数変換係数と前記算出したフレーム毎の標準音韻毎の重みを用いて、前記音響特徴量をフレーム毎に周波数変換する、
音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321374A JP4449380B2 (ja) | 2002-09-24 | 2003-09-12 | 話者正規化方法及びそれを用いた音声認識装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002277022 | 2002-09-24 | ||
JP2003321374A JP4449380B2 (ja) | 2002-09-24 | 2003-09-12 | 話者正規化方法及びそれを用いた音声認識装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004139049A JP2004139049A (ja) | 2004-05-13 |
JP2004139049A5 JP2004139049A5 (ja) | 2006-08-17 |
JP4449380B2 true JP4449380B2 (ja) | 2010-04-14 |
Family
ID=32473041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003321374A Expired - Fee Related JP4449380B2 (ja) | 2002-09-24 | 2003-09-12 | 話者正規化方法及びそれを用いた音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4449380B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5262713B2 (ja) | 2006-06-02 | 2013-08-14 | 日本電気株式会社 | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
JP2019040123A (ja) * | 2017-08-28 | 2019-03-14 | 株式会社日立製作所 | 変換モデルの学習方法および変換モデルの学習装置 |
JP6958723B2 (ja) | 2018-03-15 | 2021-11-02 | 日本電気株式会社 | 信号処理システム、信号処理装置、信号処理方法、およびプログラム |
-
2003
- 2003-09-12 JP JP2003321374A patent/JP4449380B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004139049A (ja) | 2004-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6705008B2 (ja) | 話者照合方法及びシステム | |
EP1635327B1 (en) | Information transmission device | |
JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
JP4867804B2 (ja) | 音声認識装置及び会議システム | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
JP2007264126A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JPH09500223A (ja) | 多言語音声認識システム | |
CN112786052A (zh) | 语音识别方法、电子设备和存储装置 | |
JP2018013549A (ja) | 発話内容認識装置 | |
US20030220792A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
JP4353202B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
CN1312656C (zh) | 说话人标准化方法及用该方法的语音识别装置 | |
JP5201053B2 (ja) | 合成音声判別装置、方法及びプログラム | |
KR20040038419A (ko) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 | |
JP4449380B2 (ja) | 話者正規化方法及びそれを用いた音声認識装置 | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JP3493849B2 (ja) | 音声認識装置 | |
US11043212B2 (en) | Speech signal processing and evaluation | |
JP2007248529A (ja) | 音声認識装置、音声認識プログラム、及び音声動作可能な装置 | |
JP2506730B2 (ja) | 音声認識方法 | |
JP2008107408A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060630 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060630 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060712 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091106 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20091119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100105 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100118 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4449380 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140205 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |