JP2001022385A - 声紋による本人認証及びその強化法 - Google Patents

声紋による本人認証及びその強化法

Info

Publication number
JP2001022385A
JP2001022385A JP11227878A JP22787899A JP2001022385A JP 2001022385 A JP2001022385 A JP 2001022385A JP 11227878 A JP11227878 A JP 11227878A JP 22787899 A JP22787899 A JP 22787899A JP 2001022385 A JP2001022385 A JP 2001022385A
Authority
JP
Japan
Prior art keywords
analysis
voice
individual
function
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11227878A
Other languages
English (en)
Inventor
Masahiro Koura
雅裕 小浦
Yoshimi Baba
芳美 馬場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP11227878A priority Critical patent/JP2001022385A/ja
Publication of JP2001022385A publication Critical patent/JP2001022385A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

(57)【要約】 【課題】従来、非対面で本人である事を確認する為に
は、コールセンターの存在が必要だった。また、無人で
本人を認証して決済を行うには、以下に述べるような課
題の解決が必要である。電話やマイクのような有限のR
MS帯域幅での本人の識別が可能か。非対面で通信又は
それに類する状態で音声応答で、通常の人間の記憶を手
段とする認証妨害を排除できるか。 【解決手段】人間に特定の言葉を話させ、携帯電話等の
通信機を使い、人間の声をデジタル信号に変換してコン
ピュータに送り、その音声データをウェーブレット変換
によって解析し、声データによって本人である事を確認
する。声紋データ解析による認証手法に、さらに技巧を
加えたFiat−Shamir法を応用する事による認
証力の強化が行われる。また、その為にはユーザーイン
ターフェースにより、人間を誘導し、認証強度を上げて
いる。認証判断のレベルを考えるには、動作システムに
対する時間的空間的防御の考え方も必要である。

Description

【発明の詳細な説明】
【発明の属する技術分野】発明の必要とされる産業上の
分野を説明するため、従来から行われ現在も行われてい
る「オペレーター対応」について説明する。従来、非対
面で本人である事を確認する為には、コールセンターの
存在が必要だった。この為には、コミュニケータの育成
やオフィス環境の整備、コールセンターの構築および運
用が必要だった。その時、必要なノウハウとしては、以
下の5つが言われている。 ・“共感”性の高い人材の育成。 ・品質と効率を両立させるマネジメント体制。 ・通話量管理に基づく運用マネジメント。 ・音声系とデータ系を統合したシステム。 ・データベースによる情報サポート体系。 今までは、こうしたコールセンターをそれぞれの事業に
合わせた形で提供する必要があった。すなわち、マーケ
ティングプランに合わせたマニュアルの作成やシステム
構築および研修が必要で、特にそれらを24時間・36
5日体制での電話受け付けを運用するのが大変だった。
また、実際に本人を特定する際には、本人しか知り得な
い情報を一対一で確認する、個人情報に類する物を複
数、問診する、あるいは、話し方に言い澱みがないか注
目するなどの、運用上の判断技術も必要であった。本発
明においては、こうした多数のノウハウを集大成したコ
ールセンターの負担を大幅に軽減する、乃至は、必要性
を減らす事が出来る、事に大きな特徴を持つものであ
る。
【従来の技術】こうした産業上、あるいは業務上の要望
に応えるために、従来行われていた方法は、電話の音声
信号のFourier変換による解析である。これによ
り、何らかの本人の特徴を抽出して、それを活用しよう
とするものであるが、以下の説明でもわかるように、単
純なFourier変換だけでは、良い結果を得る事は
大変困難がある。以下に「Fourier変換」の特徴
を要約して、従来技術の特徴と限界を示す。また、後で
述べる、本発明の特徴であるWavelet変換は、以
下に述べるFourier変換による解析の発展であ
る。まず第一に、フーリエ解析の特徴は、微分方程式と
不可分の関係を持つ事である。三角関数(eiωx)は
微分作用素(∂/∂x)の固有値iωに属する固有関数
になっており、この為たとえば、定数係数線形微分作用
素とは、線形作用素と固有関数系の関係となっている。
このようにRの平行移動で不変(平行移動作用素と可
換)な線形作用素は、三角関数(eiωx)によって対
角化され、理論上も実用上も、フーリエ解析の大きな利
点となっている。例えば、19世紀の光のスペクトル分
析の基礎や、20世紀量子力学の基礎原理と不可分であ
る。電気工学では信号分析の重要な手法として用いられ
た。電流からみればコンデンサーやコイルなど電気回路
の基本要素は積分や微分の演算子であるため、信号観察
手法に留まらず回路動作の理解に不可欠な概念になって
いる。ここでフーリエ解析とは、信号を各周波数成分に
分析することを指しており、通常、信号の周波数解析で
は、フーリエ・スペクトル(フーリエ係数の絶対値の2
乗)を用いて、周波数成分の有無や大小を議論する。一
方、マンデルブローはスペクトルが周波数ωのベキ関数
になる場合に注目し、このスペクトルは、現象を生起す
る機構に特徴的な長さや時間がないことを示し、フラク
タル集合に伴って現れることが多い事を指摘した。この
場合、ωのべき乗が現れるのは、対象現象のフラクタル
性ばかりでなく、さまざまなωに対するeiωxが相似
変換x→axによって互いに移り合う、からでもある。
このようにフーリエ変換では、一つの関数eixから相
似変換によって生成される関数系を基本としている点も
大きな特徴であり、フーリエ解析の有用性の根拠となっ
ている。まとめて述べれば、フーリエ解析の特徴は、
1、微分演算子と相性の良が良い事、2、相似変換によ
って生成される関数系を基本としている事、の2つであ
る。動物の心臓の鼓動や天体であるパルサーの電波は、
おおむね規則的な振動を繰り返しており、周期のゆらぎ
はあまり大きくないのが普通である。このような信号に
対しては、フーリエ解析で得られる周波数成分分析は妥
当な解釈を与える。しかしTV画像のように時間ととも
に色が激しく変化する光や、ラジオの長時間の音声のよ
うな場合は、データ全体を一挙にフーリエ変換したとし
ても、それが妥当な解釈を与えるとは言えない。音楽で
も、曲の全体を一つの時系列と考えて一挙にフーリエ変
換しても、得られた周波数分解が楽音の解析に便利とは
考えられない。たとえ数学的に分解・再構成が可能であ
っても、実用的な意味で便利である事とは異なるのであ
る。やはり音楽に対しては一つの音符程度の時間に区切
って周波数分解し表示した楽譜が一番便利な周波数解析
の方法である。いつもフーリエ解析が便利なわけではな
く、フーリエ解析よりも詳細に時間の各瞬間における信
号の周波数分解の枠組み(時間−周波数解析)が望まれ
る。しかしこのような道具は原理的に矛盾をはらんでい
る。関数とそのフーリエ変換の間にはつねに不確定性関
係ΔΔω≧1/2による制限があり、時間と周波数を
ある程度以上の精度で同時に指定しようとしても、その
ような時間一周波数成分を持つ信号(関数)が存在しな
いからである。このため、高い精度で時間一周波数解析
を行おうとすると、何らかの曖昧さや解釈の余地を避け
ることができない。それでも、時間一周波数解析の必要
性は高く、さまざまな手法が提案された。例えば、信号
f(x)に窓関数ω(x−x)をかけてフーリエ変換
する方法で「短時間フーリエ変換」とよばれている。こ
こで、xは窓の時刻を表す。 述される。この方法は分かりやすいし、それなりの結果
を得ることもできるが、論理的にはすっきりしない点が
多い。スペクトログラムを周波数について積分しても|
f(x)|に一致しない、時間関数や周波数関数の
平均を正しく与えない、また、窓関数の選択は結果に大
きな影響を与える、などの問題点を挙げる事ができる。
さらに、ガボール(Gabor)の1946年の結果に
よれば、短時間フーリエ変換の基礎関数eiωxω(x
−x)のパラメーターωとxを等間隔に離散化して
(R)のフレームを作っても、周波数と時間に標準
偏差Δx,Δωの少なくとも一方が無限大となってしま
うという困難がある。これは、バリアン(Balia
n)−ロウ(Low)の定理と呼ばれる。この事実は、
短時間フーリエ変換の積分核を離散化しても、うまい基
底が作れず、時間−周波数平面での局所化があまり良く
ならないことを意味している。
【発明が利用しようとする技術】短時間フーリエ変換で
は、窓関数の存在がさまざまな困難を引き起こした。そ
こでウィグナー分布やコーエン・クラスでは、時間の局
所化に伴う窓関数を避け、関数展開とは異なるやり方で
分布関数を定義した。これに対し、窓関数を展開関数そ
のものの中に組込み、窓関数を含めてスケーリングする
方向で、短時間フーリエ変換の使いづらさを克服したの
が積分Wavelet変換(IWT;lntegral
Wavelete Transformation)
である。1982年、フランスの石油会社エルフ・アキ
テーヌの技術者であったモルレ(Morlet)は、地
下の地震探査データの解析にガウシアンを窓関数とする
短時間フーリエ変換を用いたが、「窓中の振動回数が、
高周波数では多すぎ、低周波数では少なすぎ」て良い結
果が得られなかった。そこで彼は、窓の幅を周波数とと
もに変化させて「窓中の振動の回数がつねに一定にな
る」ような関数系を用いる「短時間フーリエ変換」を着
想し、この関数系を「一定の形をもつウエーブレット
(ondelettes de forme cons
tante)」と名付けた。彼の作った関数系は、数値
処理のことも考えて離散的な関数系、今で言う離散ウェ
ーブレット、であったが、これを知った物理学者グロス
マン(Grossmann)をはじめとするマルセイユ
のグループは、モルレの用いた関数系と量子力学で用い
られるコヒーレント状態の類似性に着目し、アフィン変
換群の表現に伴う関数の分解として連続ウェーブレット
変換を定式化することに成功した。L(R)の場合、
関数f(x)の連続ウェーブレット変換は次のように定
義される。 フーリエ解析との類似性は明らかである。パラメーター
aはフーリエ変換の1/ωに対応するが、bはフーリエ
変換にはない時刻のパラメーターである。この変換の基
礎となる関数ψ(x)(マザー・ウェーブレット)は、
逆変換の存在を保証する簡単な条件(遠方である程度速
く減衰していること、積分がゼロであること、など)を
満たす関数であればなんでもよい。そのため、非常に多
彩な変換のバラエティが生まれる。ここでψ((x−
b)/a)という形で「窓関数をこめて」スケーリング
が行われていることは重要である。フーリエ解析では無
限に広がったいたeiωxがここでは局在した関数ψ
(a,b)(x)で置き換えられており、これによって
T(a,b)は「時刻bにおける周波数1/aの成分の
大きさ」という意味を(不確定性関係の範囲内で)持
つ。連続ウェーブレット変換の重要な特徴は、ウェーブ
レットψ(a,b)(x)の形状が互いに相似な点にあ
る。先に触れたようにこれはフーリエ解析の特徴だった
が、ウェーブレット解析はそれを継承している。連続ウ
ェーブレット変換は、すぐに物理学者によってカオスや
フラクタルなどの非線型現象の解析に応用された。時間
−周波数平面で局在した相似関数系であるウエーブレッ
トは、多くの潜在的需要を掘り起こすことが可能であ
る。
【発明が解決しようとする課題】前記の従来技術では、
本人を認証して決済を行う時に、以下に述べるような課
題の解決が計られている必要がある。すなわち 1.電話やマイクのような有限のRMS帯域幅での本人
の識別が可能か。(ここで、RMS帯域幅とは roo
t meal square band width
のことである。) 2.非対面で通信又はそれに類する状態で音声応答のみ
で、通常の人間の記憶を手段とする認証妨害を排除でき
るか。
【課題を解決するための手段】これらの課題については
以下の手段によって対応することができる。上記課題1
に対しては、Wavelet変換を利用した正規直交系
による級数展開における、主要項が利用できる。これは
以下の式で定義され、使用の仕方は後に示した通りであ
る。 これは、L射影L:f(t)→(Lf)(t)の
級数展開で、 によって定義される。但し、ここで、 である。これらの式の使用方法は、上式のf(t)とし
て、人間に特定の言葉を一定速度で話させたものを電気
信号に変換したものを利用し、そのときのCkの分布を
比較する事で、本人を特定する事ができる。この部分の
実際的な理論表現は以下の新周波数解析による音声分析
の基礎理論によって明らかである。まず、すべての正規
直交系は、リース基底、ただしリース上下界A=B=1
に、その一部として含まれている。ここで、ディジタル
標本を係数とした標本化作用素Vと正規直交低域通過
窓関数φ(t)によるL−射影Lとの関係を考察す
る。それには、φ(t)の共役(dual)φ(t)に
より正規直交でないφ(t)にも一般化する必要があ
る。 f(t);信号,Ω;帯域幅,帯域制限されたとする。
この時、 φ(t);低域通過窓関数,{ka:k Z};標本
集合,として正規直交系を生成できる。Parseva
lの等式により となるが、φ(t)のフィルター特性が、 的(almost ideal)であるので、上式右辺
積分は と計算できる。これにより、次の命題が証明された。 φ(t)として高階のButterworth正規直交
低域通過フィルタ関数 近似的に)成立している。従って、十分小さい帯域幅を
もつ帯域制限されたアナログ信号f(t)について、標
本化作用素VはL−射影Lの良い近似になってい
る事になる。上記課題2については、以下に述べる零知
識認証方法が有効である。 [Fiat&Shamir法] 秘密情報 以下S1)−S5)をk回繰り返す S1)説明者:乱数r S2)x=r(mod n)送信 S3)検証者: S4)説明者 y=r・s(mod n) S5)検証者 y≠x・v(mod n)停止 ただし、v=√rであるとする。このテストを終了する
と、間違って認証する確率は1/2になる。証明者と
検証者の間でアプローチがあって検証する仕組みとして
機能する。実際に当たっては、nの素因数分解の計算が
終わるよりも速く答えさせるなどの制限も必要となる。
【発明の実施の形態】上記システムを、C言語を利用し
たウェーブレットのライブラリーを作って、携帯電話機
を利用するように構築したところ、かなりの程度に本人
を認証する事が可能であった。
【実施例】実施にあったては、若い女性の声によるガイ
ダンスを使いそれを真似させる事によって、音声を話す
速さと口調を誘導すると、認証効果が高かった。
【発明の効果】発明の効果は明らかである。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】人間に特定の言葉を話させ、携帯電話等の
    通信機を使い、人間の声をデジタル信号に変換してコン
    ピュータに送り、その音声データをウェーブレット変換
    し級数に展開する事によって解析し、その声紋データ解
    析によって本人である事を確認する手法。
  2. 【請求項2】請求項1に記載の声紋データ解析による認
    証手法。
  3. 【請求項3】請求項2に記載の認証手法に、さらにFi
    at−Shamir法を応用する事による認証力の強化
    手法。
  4. 【請求項4】人間に判りやすいユーザーインターフェー
    スを構築する事により人間の話し方を誘導し、認証強度
    を上げる手法。
  5. 【請求項5】上記システムに対する時間的空間的防御方
    法。
JP11227878A 1999-07-07 1999-07-07 声紋による本人認証及びその強化法 Pending JP2001022385A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11227878A JP2001022385A (ja) 1999-07-07 1999-07-07 声紋による本人認証及びその強化法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11227878A JP2001022385A (ja) 1999-07-07 1999-07-07 声紋による本人認証及びその強化法

Publications (1)

Publication Number Publication Date
JP2001022385A true JP2001022385A (ja) 2001-01-26

Family

ID=16867770

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11227878A Pending JP2001022385A (ja) 1999-07-07 1999-07-07 声紋による本人認証及びその強化法

Country Status (1)

Country Link
JP (1) JP2001022385A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030011412A (ko) * 2001-08-02 2003-02-11 주식회사 비즈모델라인 음성인식기능이 내장된 무선통신장치를 이용한 신용카드 결제 시스템
WO2005013263A1 (ja) * 2003-07-31 2005-02-10 Fujitsu Limited 音声認証システム
CN106971725A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和系统
CN107093430A (zh) * 2017-05-10 2017-08-25 哈尔滨理工大学 一种基于小波包变换的声纹特征提取算法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030011412A (ko) * 2001-08-02 2003-02-11 주식회사 비즈모델라인 음성인식기능이 내장된 무선통신장치를 이용한 신용카드 결제 시스템
WO2005013263A1 (ja) * 2003-07-31 2005-02-10 Fujitsu Limited 音声認証システム
US7447632B2 (en) 2003-07-31 2008-11-04 Fujitsu Limited Voice authentication system
CN106971725A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和系统
CN106971725B (zh) * 2016-01-14 2021-06-15 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和系统
CN107093430A (zh) * 2017-05-10 2017-08-25 哈尔滨理工大学 一种基于小波包变换的声纹特征提取算法

Similar Documents

Publication Publication Date Title
CN103426434B (zh) 结合源方向信息通过独立分量分析的源分离
US11282505B2 (en) Acoustic signal processing with neural network using amplitude, phase, and frequency
Heyser Determination of loudspeaker signal arrival times: Part 1
CN103426437A (zh) 使用利用混合多元概率密度函数的独立分量分析的源分离
Irino et al. Signal reconstruction from modified auditory wavelet transform
CN113921022B (zh) 音频信号分离方法、装置、存储介质和电子设备
Kitamura et al. Student's t multichannel nonnegative matrix factorization for blind source separation
Bigiin Local symmetry features in imageprocessing
US20210319802A1 (en) Method for processing speech signal, electronic device and storage medium
Walter et al. Source counting in speech mixtures by nonparametric Bayesian estimation of an infinite Gaussian mixture model
Lu Sound event detection and localization based on CNN and LSTM
JP2001022385A (ja) 声紋による本人認証及びその強化法
Casebeer et al. Deep tensor factorization for spatially-aware scene decomposition
Ewing et al. Computer recognition of speech using zero-crossing information
Mitianoudis Audio source separation using independent component analysis
Erten et al. Voice extraction by on-line signal separation and recovery
Ihara et al. Multichannel speech separation and localization by frequency assignment
Murata et al. Sparse sound field decomposition with multichannel extension of complex NMF
Al-Jouhar et al. Feature combination and mapping using multiwavelet transform
Murata et al. Spatio-temporal sparse sound field decomposition considering acoustic source signal characteristics
Irino et al. Signal reconstruction from modified wavelet transform-An application to auditory signal processing
Potapova et al. On the possibility of the Skype channel speaker identification (On the basis of acoustic parameters)
Maeda et al. Nonlinear and noisy extension of independent component analysis: Theory and its application to a pitch sensation model
Otsuka et al. An on-line algorithm of guitar performance transcription using non-negative matrix factorization
Rahman et al. Spectrum estimation for voiced speech using average weighted linear prediction