JP2008233782A - パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 - Google Patents
パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 Download PDFInfo
- Publication number
- JP2008233782A JP2008233782A JP2007076928A JP2007076928A JP2008233782A JP 2008233782 A JP2008233782 A JP 2008233782A JP 2007076928 A JP2007076928 A JP 2007076928A JP 2007076928 A JP2007076928 A JP 2007076928A JP 2008233782 A JP2008233782 A JP 2008233782A
- Authority
- JP
- Japan
- Prior art keywords
- local
- average value
- value
- range
- pattern matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】全体平均計算部301は、第1の範囲に含まれる特徴量の平均値である全体平均値を取得する。局所平均計算部302は、第1の範囲よりも小さい第2の範囲に含まれる特徴量の平均値である局所平均値を計算する。局所分散計算部303は、局所平均値に基づいて、第2の範囲に含まれる特徴量の分散値である局所分散値を計算する。正規化処理計算部304は、全体平均値と複数の局所分散値とに基づいて特徴量を正規化する。
【選択図】図3
Description
まず、本発明の第1の実施形態を説明する。図3は、本実施形態による正規化処理部102の構成を示している。マイクなどから音声認識装置に入力された1発声全体の音響特徴量は、音響分析部101によって図示せぬバッファに格納されている。全体平均計算部301は、発声全体に対応したフレーム数T内の音響特徴量をバッファから読み出し、その平均値を計算する。発声全体の長さとして、単語の長さ、音声の切れ目までの長さ、句読点から句読点までの長さ、入力された音声全体の長さなどを用いることが可能である。発声全体の音響特徴量の平均値E(x)は計算式(16)で求める。
次に、本発明の第2の実施形態を説明する。図5は、本実施形態による正規化処理部102の構成を示している。本実施形態では、対象とする局所のフレーム数での局所平均値および局所分散値を算出する際に、1つ前の局所のフレーム数の音響特徴量から計算した局所平均値(以下、1つ前の局所平均値と記す。)および1つ前の局所のフレーム数の音響特徴量から計算した局所分散値(以下、1つ前の局所分散値と記す。)を用いることを特徴とする。突発的な雑音が音声認識装置に入力された場合、局所平均値および局所分散値が大きく変わり、入力された音声データを正しく認識することが困難となるが、1つ前の局所平均値および1つ前の局所分散値を用いることで、突発的に音声認識装置に雑音が入力された場合でも局所平均値および局所分散値が大きく変わらず、音声認識制度の劣化を低減することができる。
次に、本発明の第3の実施形態を説明する。図6は、本実施形態による正規化処理部102の構成を示している。本実施形態では、実施形態1での発声全体の音響特徴量の平均値を算出する代わりに、予め計算した固定の平均値を用いることを特徴とする。これにより、発声全体から音響特徴量の平均値を計算する必要がないため、音響特徴量の正規化が完了するまでの待ち時間が、局所分散の計算に必要な時間となり、リアルタイム処理が可能となる。
次に、本発明の第4の実施形態を説明する。図7は、本実施形態による正規化処理部102の構成を示している。本実施形態では、全体平均計算部702の前段に音声検出部を設ける事により音声区間を同定し、音声区間とその前後の数十ミリ秒を加えた時間に対応するフレーム数τ´での平均値を用いて正規化することを特徴とする。これにより、発声終了後に無音区間が長く続いた場合においても、正規化処理までの待ち時間を短くすることが可能となる。
次に、本発明の第5の実施形態を説明する。図8は本実施形態による画像認識装置の構成を示している構成図である。図4において、マイクから入力された音声データの代わりにカメラから入力された画像とし、単語辞書・文法と音響モデルの代わりにオブジェクトモデルとし、音声認識結果の代わりに画像認識結果と置き換えることで、画像認識への適用も可能となる。
また、画像認識に時間要素を取り入れることで、動画についても動画特徴量のミスマッチ成分を低減することができ、動画認識精度の劣化を低減することができる。
Claims (7)
- 外部より入力されたデータの特徴量を算出する分析手段と、
前記分析手段で算出された前記特徴量を正規化する正規化手段と、
前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、
を備えたパタンマッチング装置において、
前記正規化手段は、
第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、
前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、
前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、
を備えたことを特徴とするパタンマッチング装置。 - 前記全体平均取得手段は、前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算する
ことを特徴とする、請求項1に記載のパタンマッチング装置。 - 前記全体平均取得手段は、予め記憶した所定値を前記全体平均値とする
ことを特徴とする、請求項1に記載のパタンマッチング装置。 - パタンマッチングの対象とする前記特徴量が含まれる範囲を同定する範囲同定手段
を備え、
前記全体平均取得手段は、前記範囲同定手段で同定された範囲に基づく前記第1の範囲に含まれる前記特徴量から前記全体平均値を計算することを特徴とする、請求項2に記載のパタンマッチング装置。 - 前記局所平均計算手段は、過去に計算した前記局所平均値を重み付けした値に基づいて、前記局所平均値を計算し、
前記局所分散計算手段は、過去に計算した前記局所分散値を重み付けした値に基づいて、前記局所分散値を計算する
ことを特徴とする請求項1〜4に記載のパタンマッチング装置。 - 外部より入力されたデータの特徴量を算出する分析手段と、
前記分析手段で算出された前記特徴量を正規化する正規化手段と、
前記正規化手段で正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチング手段と、
としてコンピュータを機能させるためのパタンマッチングプログラムにおいて、
前記正規化手段は、
第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得手段と、
前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算手段と、
前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算手段と、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算手段と、
としてコンピュータを機能させるためのパタンマッチングプログラム。 - 外部より入力されたデータの特徴量を算出する分析ステップと、
前記分析ステップで算出された前記特徴量を正規化する正規化ステップと、
前記正規化ステップで正規化された正規化済み特徴量に基づいて、パタンマッチングを行うパタンマッチングステップと、
を備えたパタンマッチング方法において、
前記正規化ステップは、
第1の範囲に含まれる前記特徴量の平均値である全体平均値を取得する全体平均取得ステップと、
前記第1の範囲よりも小さい第2の範囲に含まれる前記特徴量の平均値である局所平均値を計算する局所平均計算ステップと、
前記局所平均値に基づいて、前記第2の範囲に含まれる前記特徴量の分散値である局所分散値を計算する局所分散計算ステップと、
前記全体平均値と複数の前記局所分散値とに基づいて前記特徴量を正規化する正規化処理計算ステップと、
を備えたことを特徴とするパタンマッチング方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076928A JP4864783B2 (ja) | 2007-03-23 | 2007-03-23 | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076928A JP4864783B2 (ja) | 2007-03-23 | 2007-03-23 | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008233782A true JP2008233782A (ja) | 2008-10-02 |
JP4864783B2 JP4864783B2 (ja) | 2012-02-01 |
Family
ID=39906602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007076928A Expired - Fee Related JP4864783B2 (ja) | 2007-03-23 | 2007-03-23 | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4864783B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010096808A (ja) * | 2008-10-14 | 2010-04-30 | Nippon Telegr & Teleph Corp <Ntt> | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
JP2011039434A (ja) * | 2009-08-18 | 2011-02-24 | Kddi Corp | 音声認識装置およびその特徴量正規化方法 |
JP2019219468A (ja) * | 2018-06-18 | 2019-12-26 | Zホールディングス株式会社 | 生成装置、生成方法及び生成プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185200A (ja) * | 1997-09-12 | 1999-03-30 | Kokusai Denshin Denwa Co Ltd <Kdd> | 音声認識のための音響分析方法 |
JP2003167599A (ja) * | 2001-12-03 | 2003-06-13 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
JP2005521091A (ja) * | 2002-03-15 | 2005-07-14 | 松下電器産業株式会社 | 音声相関構造に基づくブラインド伝送路推定方法および装置 |
JP2006084659A (ja) * | 2004-09-15 | 2006-03-30 | Nippon Telegr & Teleph Corp <Ntt> | オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体 |
JP2007536562A (ja) * | 2004-01-12 | 2007-12-13 | ヴォイス シグナル テクノロジーズ インコーポレーティッド | 自動音声認識チャンネルの正規化 |
-
2007
- 2007-03-23 JP JP2007076928A patent/JP4864783B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1185200A (ja) * | 1997-09-12 | 1999-03-30 | Kokusai Denshin Denwa Co Ltd <Kdd> | 音声認識のための音響分析方法 |
JP2003167599A (ja) * | 2001-12-03 | 2003-06-13 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
JP2005521091A (ja) * | 2002-03-15 | 2005-07-14 | 松下電器産業株式会社 | 音声相関構造に基づくブラインド伝送路推定方法および装置 |
JP2007536562A (ja) * | 2004-01-12 | 2007-12-13 | ヴォイス シグナル テクノロジーズ インコーポレーティッド | 自動音声認識チャンネルの正規化 |
JP2006084659A (ja) * | 2004-09-15 | 2006-03-30 | Nippon Telegr & Teleph Corp <Ntt> | オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010096808A (ja) * | 2008-10-14 | 2010-04-30 | Nippon Telegr & Teleph Corp <Ntt> | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
JP2011039434A (ja) * | 2009-08-18 | 2011-02-24 | Kddi Corp | 音声認識装置およびその特徴量正規化方法 |
JP2019219468A (ja) * | 2018-06-18 | 2019-12-26 | Zホールディングス株式会社 | 生成装置、生成方法及び生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4864783B2 (ja) | 2012-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11776530B2 (en) | Speech model personalization via ambient context harvesting | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN109545243B (zh) | 发音质量评价方法、装置、电子设备及存储介质 | |
Czyzewski et al. | An audio-visual corpus for multimodal automatic speech recognition | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
US8762142B2 (en) | Multi-stage speech recognition apparatus and method | |
EP3156978A1 (en) | A system and a method for secure speaker verification | |
US20150325240A1 (en) | Method and system for speech input | |
US20140350934A1 (en) | Systems and Methods for Voice Identification | |
RU2720359C1 (ru) | Способ и оборудование распознавания эмоций в речи | |
Justin et al. | Speaker de-identification using diphone recognition and speech synthesis | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
JP2007507784A (ja) | オーディオビジュアルコンテント合成システム及び方法 | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
CN110600013A (zh) | 非平行语料声音转换数据增强模型训练方法及装置 | |
US20230070000A1 (en) | Speech recognition method and apparatus, device, storage medium, and program product | |
Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
JP4864783B2 (ja) | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
JP2011033879A (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
JP6786065B2 (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
US20180268815A1 (en) | Quality feedback on user-recorded keywords for automatic speech recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20090710 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110412 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110607 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141118 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4864783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |