JP2009042552A - 音声処理装置及び方法 - Google Patents
音声処理装置及び方法 Download PDFInfo
- Publication number
- JP2009042552A JP2009042552A JP2007208090A JP2007208090A JP2009042552A JP 2009042552 A JP2009042552 A JP 2009042552A JP 2007208090 A JP2007208090 A JP 2007208090A JP 2007208090 A JP2007208090 A JP 2007208090A JP 2009042552 A JP2009042552 A JP 2009042552A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- channels
- feature
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract 2
- 238000004364 calculation method Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 48
- 210000000056 organ Anatomy 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 24
- 230000001755 vocal effect Effects 0.000 claims description 23
- 238000012795 verification Methods 0.000 claims description 14
- 238000000844 transformation Methods 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 15
- 230000005855 radiation Effects 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】第1音源100より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホン101と;前記チャネル間の相関を示す第1特徴量を算出する算出部110と;第2音源より発生された音声を前記複数のマイクロホン101により受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している記憶部120と;前記第1特徴量と前記第2特徴量を照合し、前記第1音源100が前記第2音源に一致するか否かを判定する照合部102と;を具備する。
【選択図】 図1
Description
古井他、「音声情報処理」、森北出版株式会社、1998
(第1の実施形態)
図1に示すように本発明の第1の実施形態に係る音声処理装置は、n個のマイクロホン101−1〜101−n、チャネル間特徴量算出部110、照合部102、及びチャネル間特徴量記憶部120を有する。チャネル間特徴量算出部110は、n個のフーリエ変換部111−1〜111−n及びコヒーレンス算出部112を含む。尚、マイクロホン101及びフーリエ変換部111の個数nは2以上の整数とする。以下、n=2として説明するが、これに限定されるものでない。
まず、マイクロホン101−1及び101−2は、音源100より発せられた音響信号を受信し、入力信号X1及びX2としてフーリエ変換部111−1及び111−2に夫々転送する(ステップS201)。
図7に示すように、本発明の第2の実施形態に係る音声処理装置では、図1に示す音声処理装置に加えて、更に総合判定部303及び話者認識部330を設けている。以下の説明では図7において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
図8に示すように、本発明の第3の実施形態に係る音声処理装置では、図1に示す音声処理装置に加えて、更に音声認識部450を更に設けている。以下の説明では図8において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
図9に示すように、本発明の第4の実施形態に係る音声処理装置では、図1に示すチャネル間特徴量算出部110をチャネル間特徴量算出部510に、チャネル間特徴量記憶部120をチャネル間特徴量記憶部520に夫々置き換えている。以下の説明では図9において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。尚、本実施形態に係る音声処理装置は上記に限られず、例えば図7または図8に示すチャネル間特徴量算出部110をチャネル間特徴量算出部510に、チャネル間特徴量記憶部120をチャネル間特徴量記憶部520に夫々置き換えてもよい。
図10に示すように本発明の第5の実施形態に係る音声処理システムでは、上記各実施形態に係る音声処理装置が実装されており、端末670及びマイクロホン101−1及び101−2を有する。
マイクロホン101−1及び101−2は、音源100及び音源600から発される音声を受信し、端末670中の図示しない処理部へと転送する。ここで、音源600は、音源100を模した「なりすまし」を目的とする音源である。端末670は、上記各実施形態に係る音声処理装置のマイクロホン以外の構成要素が実装されており、マイクロホン101−1及び101−2が受信した音源100及び音源600からの音声に対して所定の処理を実行する。
101・・・マイクロホン
102・・・照合部
110・・・チャネル間特徴量算出部
111・・・フーリエ変換部
112・・・コヒーレンス算出部
120・・・チャネル間特徴量記憶部
303・・・総合判定部
330・・・話者認識部
331・・・話者特徴量算出部
332・・・照合部
340・・・話者特徴量記憶部
450・・・音声認識部
451・・・音声特徴量算出部
452・・・照合部
460・・・音響モデル記憶部
510・・・チャネル間特徴量算出部
512・・・パワ比算出部
520・・・チャネル間特徴量記憶部
600・・・音源
670・・・端末
Claims (18)
- 第1音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホンと、
前記チャネル間の相関を示す第1特徴量を算出する算出部と、
第2音源より発生された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している記憶部と、
前記第1特徴量と前記第2特徴量を照合し、前記第1音源が前記第2音源に一致するか否かを判定する照合部と
を具備することを特徴とする音声処理装置。 - 前記第2音源は、人間の発声器官であることを特徴とする請求項1記載の音声処理装置。
- 前記第2音源は、人間の発声器官であり、
前記記憶部は、スピーカより再生された録音音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第3音声信号のチャネル間の相関を示す第3特徴量を更に記憶しており、
前記照合部は、更に前記第1特徴量と前記第3特徴量を照合し、前記第1特徴量が前記第3特徴量よりも前記第2特徴量に近ければ、前記第1音源が前記第2音源に一致すると判定することを特徴とする請求項1記載の音声処理装置。 - 前記第2音源は、特定の話者の発声器官であることを特徴とする請求項1記載の音声処理装置。
- 前記第2音源は、特定の話者の発声器官であり、
前記記憶部は、前記特定の話者とは異なる話者の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第4音声信号のチャネル間の相関を示す第4特徴量を更に記憶しており、
前記照合部は、更に前記第1特徴量と前記第4特徴量を照合し、前記第1特徴量が前記第4特徴量よりも前記第2特徴量に近ければ、前記第1音源が前記第2音源に一致すると判定することを特徴とする請求項4記載の音声処理装置。 - 前記第1特徴量及び第2特徴量は前記チャネル間のコヒーレンスであることを特徴とする請求項1記載の音声処理装置。
- 前記第1特徴量及び第2特徴量は前記チャネル間のコヒーレンスの線形変換であることを特徴とする請求項1記載の音声処理装置。
- 前記第1特徴量及び第2特徴量は前記チャネル間のパワ比であることを特徴とする請求項1記載の音声処理装置。
- 前記複数のマイクロホンは、第1マイクロホンと、前記第1のマイクロホンとの間に人間の唇の幅以上の間隔を空けて配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
- 前記複数のマイクロホンは、前記第1音源または前記第2音源から第1水平距離離れた位置に配置された第1マイクロホンと、前記第1音源または前記第2音源から第2水平距離離れた位置に配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
- 前記複数のマイクロホンは、前記第1音源または前記第2音源から第1垂直距離離れた位置に配置された第1マイクロホンと、前記第1音源または前記第2音源から第2垂直距離離れた位置に配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
- 前記複数のマイクロホンは、第1方向から前記第1音源または前記第2音源に向けて配置され第1マイクロホンと、第2方向から前記第1音源または前記第2音源に向けて配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
- 前記複数のマイクロホンは、第1地上高に配置された第1マイクロホンと、第2地上高に配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
- 前記第1地上高は前記第1音源または前記第2音源の位置よりも高く、前記第2地上高は前記第1音源または前記第2音源の位置よりも低いことを特徴とする請求項13記載の音声処理装置。
- 音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホンと、
前記チャネル間の相関を示す第1特徴量を算出する算出部と、
人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している第1の記憶部と、
前記第1特徴量と前記第2特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第1の照合部と、
前記音源による音声の特徴を示す第1話者特徴量を算出する第2の算出部と、
特定の話者による発声音声の特徴を示す第2話者特徴量を予め記憶する第2の記憶部と、
前記第1話者特徴量と前記第2話者特徴量を照合し、前記音源による音声が前記特定の話者による発声音声に一致するか否かを判定する第2の照合部と、
前記第1の照合部における照合結果及び前記第2の照合部における照合結果に基づいて、前記音源が前記特定の話者の発声器官であるか否かを判定する判定部と
を具備することを特徴とする音声処理装置。 - 音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホンと、
前記チャネル間の相関を示す第1特徴量を算出する算出部と、
人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している第1の記憶部と、
前記第1特徴量と前記第2特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第1の照合部と、
前記音源による音声の第1音声特徴量を算出する第2の算出部と、
複数の単語列の第2音声特徴量が予め記憶されている第2の記憶部と、
前記第1の照合部によって前記音源と前記人間の発声器官とが一致すると判定された場合に、前記第1音声特徴量と前記第2音声特徴量を照合し、前記音源による音声に最も近いらしい単語列を出力する第2の照合部と
を具備することを特徴とする音声処理装置。 - 第1音源より発生された音声を受信して複数チャネルの第1音声信号を出力する受信ステップと、
前記チャネル間の相関を示す第1特徴量を算出する算出ステップと、
前記第1特徴量と、第2音源より発生された音声を前記受信ステップにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を照合し、前記第1音源が前記第2音源に一致するか否かを判定する照合ステップと
を具備することを特徴とする音声処理方法。 - コンピュータを
第1音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホン、
前記チャネル間の相関を示す第1特徴量を算出する算出手段、
第2音源より発生された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している記憶手段、
前記第1特徴量と前記第2特徴量を照合し、前記第1音源が前記第2音源に一致するか否かを判定する照合手段
として機能させるための音声処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007208090A JP4469880B2 (ja) | 2007-08-09 | 2007-08-09 | 音声処理装置及び方法 |
US12/176,668 US8229739B2 (en) | 2007-08-09 | 2008-07-21 | Speech processing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007208090A JP4469880B2 (ja) | 2007-08-09 | 2007-08-09 | 音声処理装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009042552A true JP2009042552A (ja) | 2009-02-26 |
JP4469880B2 JP4469880B2 (ja) | 2010-06-02 |
Family
ID=40347339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007208090A Expired - Fee Related JP4469880B2 (ja) | 2007-08-09 | 2007-08-09 | 音声処理装置及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8229739B2 (ja) |
JP (1) | JP4469880B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013120467A (ja) * | 2011-12-07 | 2013-06-17 | National Institute Of Advanced Industrial & Technology | 信号特徴抽出装置および信号特徴抽出方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11256869B2 (en) * | 2018-09-06 | 2022-02-22 | Lg Electronics Inc. | Word vector correction method |
CN113380267B (zh) * | 2021-04-30 | 2024-04-19 | 深圳地平线机器人科技有限公司 | 对音区进行定位的方法、装置、存储介质及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131683A (ja) * | 2001-10-22 | 2003-05-09 | Sony Corp | 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体 |
JP4247002B2 (ja) * | 2003-01-22 | 2009-04-02 | 富士通株式会社 | マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置 |
-
2007
- 2007-08-09 JP JP2007208090A patent/JP4469880B2/ja not_active Expired - Fee Related
-
2008
- 2008-07-21 US US12/176,668 patent/US8229739B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013120467A (ja) * | 2011-12-07 | 2013-06-17 | National Institute Of Advanced Industrial & Technology | 信号特徴抽出装置および信号特徴抽出方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4469880B2 (ja) | 2010-06-02 |
US8229739B2 (en) | 2012-07-24 |
US20090043566A1 (en) | 2009-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
Sahidullah et al. | Introduction to voice presentation attack detection and recent advances | |
US11869261B2 (en) | Robust audio identification with interference cancellation | |
US11710478B2 (en) | Pre-wakeword speech processing | |
Shiota et al. | Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification | |
EP2216775B1 (en) | Speaker recognition | |
US8706488B2 (en) | Methods and apparatus for formant-based voice synthesis | |
US20180040325A1 (en) | Speaker recognition | |
US9153235B2 (en) | Text dependent speaker recognition with long-term feature based on functional data analysis | |
US20090150146A1 (en) | Microphone array based speech recognition system and target speech extracting method of the system | |
GB2552722A (en) | Speaker recognition | |
JP2006235243A (ja) | 音響信号分析装置及び音響信号分析プログラム | |
JP4469880B2 (ja) | 音声処理装置及び方法 | |
Yaguchi et al. | Replay attack detection using generalized cross-correlation of stereo signal | |
Knox et al. | Getting the last laugh: automatic laughter segmentation in meetings. | |
Jayanna et al. | Fuzzy vector quantization for speaker recognition under limited data conditions | |
KR101890303B1 (ko) | 가창 음성 생성 방법 및 그에 따른 장치 | |
JP6480124B2 (ja) | 生体検知装置、生体検知方法及びプログラム | |
JP2007133413A (ja) | 話者テンプレート圧縮方法および装置、複数の話者テンプレートをマージする方法および装置、ならびに話者認証 | |
JP7347511B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Biagetti et al. | Distributed speech and speaker identification system for personalized domotic control | |
Nisa et al. | A speaker identification-verification approach for noise-corrupted and improved speech using fusion features and a convolutional neural network | |
Hemavathi et al. | Spectro-temporal features for audio replay attack detection | |
Cemal et al. | Spoofing detection goes noisy: An analysis of synthetic speech detection in the presence of additive noise | |
BenZeghiba et al. | Posteriori Probabilities and Likelihoods Combination for Speech and Speaker Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090811 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100301 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140305 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |