JP2007256689A - 音声の類似度の評価を行う方法および装置 - Google Patents
音声の類似度の評価を行う方法および装置 Download PDFInfo
- Publication number
- JP2007256689A JP2007256689A JP2006081853A JP2006081853A JP2007256689A JP 2007256689 A JP2007256689 A JP 2007256689A JP 2006081853 A JP2006081853 A JP 2006081853A JP 2006081853 A JP2006081853 A JP 2006081853A JP 2007256689 A JP2007256689 A JP 2007256689A
- Authority
- JP
- Japan
- Prior art keywords
- correlation matrix
- voice
- unit
- similarity
- inter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 122
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 51
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Traffic Control Systems (AREA)
Abstract
【解決手段】 周波数分析部51および帯域別エンベロープ生成部52は、周波数軸上において間を空けて並んだ複数の帯域に各々属する各成分を入力音声から抽出し、それらのエンベロープE−i(i=1〜N)を出力する。相関値算出部53は、j=1〜N、k=1〜Nの範囲内の全ての(j,k)の組み合わせについて、E−jおよびE−k間の相関値ajkを算出し、これらを要素とする帯域間相関行列を出力する。この帯域間相関行列を音声の特徴量として使用し、音声の類似度を評価する。
【選択図】図2
Description
2002年3月の電子情報通信学会における風間道子、東山三樹夫、山崎芳男による発表論文「包絡線の帯域間相関行列を用いた話者識別」
この発明によれば、類似度の算出に用いられる両帯域間相関行列は、個人差の現れない要素が排除された内容となっている。従って、この帯域間相関行列を用いることにより、音声の類似度の評価の精度を高めることができる。
この発明による音声の類似度の評価の技術が具現される典型例として、例えば話者認証や話者識別がある。その詳細は以下に掲げる「発明を実施するための最良の形態」において明らかにされる。
<第1実施形態>
図1はこの発明の一実施形態である話者認証装置の構成を示すブロック図である。この話者認証装置は、大別して、登録部10と、テンプレートDB(データベース)20と、認証部30とにより構成されている。
以上が特徴量抽出部14および34の構成並びにこれらにより抽出される帯域間相関行列の内容の詳細である。
D=√(trace(AB−1)・trace(BA−1)) ………(1)
ただし、上記式(1)において、trace()は、括弧内の正方行列の対角線要素の和を意味する。
本実施形態も、上記第1実施形態と同様、話者認証装置に関するものである。本実施形態による話者認証装置は上記第1実施形態のものと基本的に同様な構成を有する。本実施形態と上記第1実施形態との相違は、特徴量抽出部14および34における帯域間相関行列の生成方法並びに特徴量比較部36における帯域間相関行列の比較方法にある。
従って、本実施形態においても上記第1実施形態と同様な効果が得られる。
図6はこの発明の一実施形態である話者識別装置の構成を示すブロック図である。この話者識別装置は、上記第1実施形態(図1)のものと同様な登録部10とテンプレートDB20を有するとともに、識別部40を有する。
上記第2実施形態において特徴量比較部36は、比較対象である2つの帯域間相関行列の各々から1種類の抽出方法(例えば奇数列および奇数行の間引き、あるいは偶数列かつ偶数行の要素の抽出)により各1種類の小行列を抽出し、各小行列同士を比較することにより音声の類似度を算出した。しかし、2つの帯域間相関行列の各々から小行列を抽出する方法は1種類ではない。本実施形態において特徴量比較部36は、比較対象である2つの音声について得られた各帯域間相関行列から、異なった複数種類の抽出方法により複数種類の小行列を各々抽出する。そして、比較対象である2つの音声の帯域間相関行列から同一の抽出方法により各々抽出された2つの小行列間の類似度を算出する処理を複数種類の抽出方法の各々について実行する。そして、各抽出方法について得られた小行列間の類似度の総合的な評価(例えば各類似度の平均)を行うことにより比較対象である2つの音声の類似度を算出するのである。本実施形態による類似度の評価方法は、上記第1および2実施形態において示したような話者認証システムに用いてもよいし、上記第3実施形態において示したような話者識別システムに用いてもよい。
(a)奇数列かつ奇数行の要素の抽出
(b)偶数列かつ偶数行の要素の抽出
(c)偶数列かつ奇数行の要素の抽出
(d)奇数列かつ偶数行の要素の抽出
本願発明者らは、上記各実施形態の効果を確認するため、上記第3実施形態(図6)のような話者識別システムを構成し、これによる話者識別実験を行った。この実験に当たり、男性25人のグループ、女性28人のグループの各人から音声を採取して帯域間相関行列を生成し、上述したテンプレートDB20を予め作成した。なお、この帯域間相関行列の生成の際、特徴量抽出部14では、FFTではなく、LPFおよび複数のBPFからなるフィルタバンクにより各帯域別の音声信号のエンベロープを求めた。特徴量抽出部43による入力音声の帯域間相関行列の生成方法も同様である。そして、実験では、男性、女性のグループ毎に、グループ内の任意の者の音声を音声入力部41に与えて話者識別を行わせ、識別結果の正答率である識別率を求めた。その際、特徴量比較部44において比較対象である2つの帯域間相関行列から類似度の算出に用いる小行列を得る際の間引き間隔を変化させ、これに対する識別率の依存性を求めた。
(1)上記第1実施形態において、第1帯域〜第N帯域の各々の幅と、各帯域の間隔は等しくてもよく、異なっていてもよい。
(2)上記第2実施形態では、周波数軸上において隙間なく並んだ複数の帯域間における音声の成分のエンベロープを入力音声から求め、これらのエンベロープの帯域間における相関値を要素とする帯域間相関行列を特徴量として使用した。しかし、帯域間相関行列の元となる音声の成分のエンベロープは、必ずしも周波数軸上において隙間なく並んだ複数の帯域におけるものである必要はなく、隙間を空けて並んだ複数の帯域における音声の成分であってもよい。
(3)上記第1実施形態および第2実施形態における話者認証装置では、認証部30とは別の装置として登録部10が設けられているが、認証部30に登録部10の機能を併せ持たせ、ユーザが認証に用いる自分の音声の帯域間相関行列を認証部30を介してテンプレートDB20に登録し得るように構成してもよい。上記第3実施形態における話者識別装置も同様であり、識別部40に登録部10の機能を併せ持たせてもよい。
Claims (9)
- 周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
比較対象である2つの音声について前記帯域間相関行列生成過程により得られた各帯域間相関行列を用いて音声の類似度を算出する類似度算出過程と
を具備することを特徴とする音声の類似度評価方法。 - 周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を入力音声から生成する帯域間相関行列生成過程と、
比較対象である2つの音声について前記帯域間相関行列生成過程により得られた各帯域間相関行列から、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、各小行列を用いて音声の類似度を算出する類似度算出過程と
を具備することを特徴とする音声の類似度評価方法。 - 周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
比較対象である2つの音声について前記帯域間相関行列生成手段により得られた各帯域間相関行列を用いて音声の類似度を算出する類似度算出手段と
を具備することを特徴とする音声の類似度評価装置。 - 周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を入力音声から生成する帯域間相関行列生成手段と、
比較対象である2つの音声について前記帯域間相関行列生成手段により得られた各帯域間相関行列から、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、各小行列同士を用いて音声の類似度を算出する類似度算出手段と
を具備することを特徴とする音声の類似度評価装置。 - 前記類似度算出手段は、比較対象である2つの音声について得られた各帯域間相関行列から、異なった複数種類の抽出方法により複数種類の前記小行列を各々抽出し、比較対象である2つの音声の帯域間相関行列から同一の抽出方法により各々抽出された2つの小行列間の類似度を算出する処理を前記複数種類の抽出方法の各々について実行し、各抽出方法について得られた小行列間の類似度の総合的な評価を行うことにより前記比較対象である2つの音声の類似度を算出することを特徴とする請求項4に記載の音声の類似度評価装置。
- 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
認証対象であるユーザのIDを受け取るID入力部と、
前記認証対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
前記ID入力部が受け取ったユーザのIDに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列とから音声の類似度を算出する特徴量比較部と、
前記特徴量比較部により算出された音声の類似度に基づいて前記音声入力部が受け取った音声の発生元であるユーザが前記ID入力部が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
を具備することを特徴とする話者認証装置。 - 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
認証対象であるユーザのIDを受け取るID入力部と、
前記認証対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
前記ID入力部が受け取ったユーザのIDに対応付けられた帯域間相関行列を前記データベースから読み出す登録情報選択部と、
前記特徴量抽出部により生成された帯域間相関行列と前記登録情報選択部により読み出された帯域間相関行列の各々から、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、各小行列を用いて音声の類似度を算出する特徴量比較部と、
前記特徴量比較部により算出された音声の類似度に基づき、前記音声入力部が受け取った音声の発生元であるユーザが前記ID入力部が受け取ったIDに対応したユーザであるか否かの認証を行い、認証結果を出力する認証結果出力部と
を具備することを特徴とする話者認証装置。 - 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
識別対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において間を空けて並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
前記特徴量抽出部により生成された帯域間相関行列と前記データベースに記憶された各帯域間相関行列の各々との各類似度を各々算出する特徴量比較部と、
前記特徴量比較部により算出された各類似度に基づき、前記データベースに記憶された各帯域間相関行列の中から前記特徴量抽出部により生成された帯域間相関行列と最も類似するものを選択し、選択した帯域間相関行列に対応付けられたIDを出力する識別結果出力部と
を具備することを特徴とする話者識別装置。 - 1または複数のユーザから得られた各音声の特徴量として、周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列をユーザのIDに対応付けて記憶するデータベースと、
識別対象であるユーザの音声を受け取る音声入力部と、
周波数軸上において並んだ複数の帯域間における音声の成分のエンベロープの相関値を要素とする帯域間相関行列を前記音声入力部が受け取った音声から生成する特徴量抽出部と、
前記特徴量抽出部により生成された帯域間相関行列および前記データベースに記憶された各帯域間相関行列の各々から、所定行数間隔かつ所定列数間隔で並んだ各要素を各々抽出して小行列を各々構成し、前記特徴量抽出部により生成された帯域間相関行列から得られた小行列と前記データベースに記憶された各帯域間相関行列から得られた各小行列との各類似度を各々算出する特徴量比較部と、
前記特徴量比較部により算出された各類似度に基づき、前記データベースに記憶された各帯域間相関行列の中から前記特徴量抽出部により生成された帯域間相関行列と最も類似するものを選択し、選択した帯域間相関行列に対応付けられたIDを出力する識別結果出力部と
を具備することを特徴とする話者識別装置。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006081853A JP4527679B2 (ja) | 2006-03-24 | 2006-03-24 | 音声の類似度の評価を行う方法および装置 |
US11/726,077 US7996213B2 (en) | 2006-03-24 | 2007-03-20 | Method and apparatus for estimating degree of similarity between voices |
TW096109552A TWI328798B (en) | 2006-03-24 | 2007-03-20 | Method and apparatus for estimating degree of similarity between voices |
EP07104554A EP1837863B1 (en) | 2006-03-24 | 2007-03-21 | Method and apparatus for estimating degreee of similarity between voices |
KR1020070028801A KR100919546B1 (ko) | 2006-03-24 | 2007-03-23 | 음성 간의 유사도를 평가하는 방법 및 장치 |
CN2007100880853A CN101042870B (zh) | 2006-03-24 | 2007-03-26 | 用于评估声音间相似度的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006081853A JP4527679B2 (ja) | 2006-03-24 | 2006-03-24 | 音声の類似度の評価を行う方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007256689A true JP2007256689A (ja) | 2007-10-04 |
JP4527679B2 JP4527679B2 (ja) | 2010-08-18 |
Family
ID=38191379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006081853A Expired - Fee Related JP4527679B2 (ja) | 2006-03-24 | 2006-03-24 | 音声の類似度の評価を行う方法および装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7996213B2 (ja) |
EP (1) | EP1837863B1 (ja) |
JP (1) | JP4527679B2 (ja) |
KR (1) | KR100919546B1 (ja) |
CN (1) | CN101042870B (ja) |
TW (1) | TWI328798B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590632A (zh) * | 2015-12-16 | 2016-05-18 | 广东德诚网络科技有限公司 | 一种基于语音相似性识别的s-t教学过程分析方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140331B2 (en) * | 2007-07-06 | 2012-03-20 | Xia Lou | Feature extraction for identification and classification of audio signals |
CN101221760B (zh) * | 2008-01-30 | 2010-12-22 | 中国科学院计算技术研究所 | 一种音频匹配方法及系统 |
TWI412019B (zh) | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
CN102956238B (zh) * | 2011-08-19 | 2016-02-10 | 杜比实验室特许公司 | 用于在音频帧序列中检测重复模式的方法及设备 |
US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
CN104580754B (zh) * | 2014-12-03 | 2018-08-17 | 贵阳朗玛信息技术股份有限公司 | Ivr系统及基于ivr的聊天速配方法 |
CN105679324B (zh) * | 2015-12-29 | 2019-03-22 | 福建星网视易信息系统有限公司 | 一种声纹识别相似度评分的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01103759A (ja) * | 1987-10-16 | 1989-04-20 | Nec Corp | パスワード検出装置 |
JPH03266898A (ja) * | 1990-03-16 | 1991-11-27 | Fujitsu Ltd | 大語彙音声認識処理方式 |
JP2003044077A (ja) * | 2001-07-26 | 2003-02-14 | Toshiba Corp | 音声特徴量抽出方法と装置及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
JPS60158498A (ja) * | 1984-01-27 | 1985-08-19 | 株式会社リコー | パターン照合装置 |
US5583961A (en) * | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
KR100484210B1 (ko) * | 1996-05-03 | 2006-07-25 | 위니베르시떼 피에르 에 마리 퀴리 | 예측모델을사용한,특히억세스제어응용을위한발성자음성인식방법 |
JP2000330590A (ja) * | 1999-05-21 | 2000-11-30 | Ricoh Co Ltd | 話者照合方法および話者照合システム |
DE60038535T2 (de) * | 1999-08-26 | 2009-07-02 | Sony Corp. | Verfahren und vorrichtung, speicherverfahren und - vorrichtung zur informationsbeschaffung und verarbeitung |
US7024359B2 (en) | 2001-01-31 | 2006-04-04 | Qualcomm Incorporated | Distributed voice recognition system using acoustic feature vector modification |
JP3969079B2 (ja) | 2001-12-12 | 2007-08-29 | ソニー株式会社 | 音声認識装置および方法、記録媒体、並びにプログラム |
JP4314016B2 (ja) * | 2002-11-01 | 2009-08-12 | 株式会社東芝 | 人物認識装置および通行制御装置 |
JP4510539B2 (ja) * | 2004-07-26 | 2010-07-28 | 日本放送協会 | 特定話者音声出力装置及び特定話者判定プログラム |
-
2006
- 2006-03-24 JP JP2006081853A patent/JP4527679B2/ja not_active Expired - Fee Related
-
2007
- 2007-03-20 TW TW096109552A patent/TWI328798B/zh not_active IP Right Cessation
- 2007-03-20 US US11/726,077 patent/US7996213B2/en not_active Expired - Fee Related
- 2007-03-21 EP EP07104554A patent/EP1837863B1/en not_active Not-in-force
- 2007-03-23 KR KR1020070028801A patent/KR100919546B1/ko not_active IP Right Cessation
- 2007-03-26 CN CN2007100880853A patent/CN101042870B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01103759A (ja) * | 1987-10-16 | 1989-04-20 | Nec Corp | パスワード検出装置 |
JPH03266898A (ja) * | 1990-03-16 | 1991-11-27 | Fujitsu Ltd | 大語彙音声認識処理方式 |
JP2003044077A (ja) * | 2001-07-26 | 2003-02-14 | Toshiba Corp | 音声特徴量抽出方法と装置及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590632A (zh) * | 2015-12-16 | 2016-05-18 | 广东德诚网络科技有限公司 | 一种基于语音相似性识别的s-t教学过程分析方法 |
Also Published As
Publication number | Publication date |
---|---|
TW200805252A (en) | 2008-01-16 |
US7996213B2 (en) | 2011-08-09 |
CN101042870B (zh) | 2010-12-29 |
TWI328798B (en) | 2010-08-11 |
EP1837863A3 (en) | 2011-11-16 |
KR20070096913A (ko) | 2007-10-02 |
KR100919546B1 (ko) | 2009-10-01 |
CN101042870A (zh) | 2007-09-26 |
EP1837863A2 (en) | 2007-09-26 |
US20070225979A1 (en) | 2007-09-27 |
JP4527679B2 (ja) | 2010-08-18 |
EP1837863B1 (en) | 2013-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4527679B2 (ja) | 音声の類似度の評価を行う方法および装置 | |
Xiao et al. | Single-channel speech extraction using speaker inventory and attention network | |
Todisco et al. | A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients. | |
Todisco et al. | Constant Q cepstral coefficients: A spoofing countermeasure for automatic speaker verification | |
JP5662276B2 (ja) | 音響信号処理装置および音響信号処理方法 | |
CN112331218B (zh) | 一种针对多说话人的单通道语音分离方法和装置 | |
Thakur et al. | Speech recognition using euclidean distance | |
JP6622159B2 (ja) | 信号処理システム、信号処理方法およびプログラム | |
Mansour et al. | Voice recognition using dynamic time warping and mel-frequency cepstral coefficients algorithms | |
CN103811023A (zh) | 音频处理装置以及音频处理方法 | |
CN105283916B (zh) | 电子水印嵌入装置、电子水印嵌入方法及计算机可读记录介质 | |
CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
JP2012163918A (ja) | 音声信号処理装置、および音声信号処理方法、並びにプログラム | |
JPWO2018051945A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Williamson et al. | Estimating nonnegative matrix model activations with deep neural networks to increase perceptual speech quality | |
Linh et al. | MFCC-DTW algorithm for speech recognition in an intelligent wheelchair | |
Verma et al. | Indian language identification using k-means clustering and support vector machine (SVM) | |
Damper et al. | Improving speaker identification in noise by subband processing and decision fusion | |
Gangonda et al. | Speech processing for marathi numeral recognition using MFCC and DTW features | |
Grais et al. | Audio-Visual speech recognition with background music using single-channel source separation | |
JP4490384B2 (ja) | 音声の類似度の評価を行う方法および装置 | |
Mahmood et al. | Artificially intelligent recognition of Arabic speaker using voice print-based local features | |
Barbu | A supervised text-independent speaker recognition approach | |
JP4305509B2 (ja) | 音声処理装置およびプログラム | |
Permana et al. | Similarity measurement for speaker identification using frequency of vector pairs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100323 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100603 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |