JP2002517175A - 人間の音源を識別するための手段および装置 - Google Patents

人間の音源を識別するための手段および装置

Info

Publication number
JP2002517175A
JP2002517175A JP50704692A JP50704692A JP2002517175A JP 2002517175 A JP2002517175 A JP 2002517175A JP 50704692 A JP50704692 A JP 50704692A JP 50704692 A JP50704692 A JP 50704692A JP 2002517175 A JP2002517175 A JP 2002517175A
Authority
JP
Japan
Prior art keywords
sound
unknown
samples
individual
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP50704692A
Other languages
English (en)
Inventor
ジョージ エム パーラ
Original Assignee
シーウェイ テクノロジーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シーウェイ テクノロジーズ インコーポレイテッド filed Critical シーウェイ テクノロジーズ インコーポレイテッド
Publication of JP2002517175A publication Critical patent/JP2002517175A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 口から鼻の通路を通って発せられる音声の音響プロフィルにより、個人の識別を行うことができる。入力音声はテープレコーダ(12)やマイクロホン(11)により受信され、その後アナログからディジタルの形式に変換される(13)。その信号はその後それを分析し周波数情報を得るコンピュータへ送られる。その音声情報はビデオ端末(16D)、プリンタ(16P)上に表示され、そしてメモリー(16M)に蓄積される。

Description

【発明の詳細な説明】 人間の音源を識別するための手段および装置 発明の背景と簡単な説明 本発明は人間の音源を識別する改良された手段と装置を対象としている。人間 の口(口腔・鼻腔)を通って発せられる音声の実質的に確実な識別を行うことが 望ましい多くの状況がある。銀行業務およびクレジットカードの場合には、カー ドを提示している人間とカードの所有者の識別の相関は、ある種の難しい識別方 法を必要とする。その他の例として、警察業務では脅迫、妨害、および猥褻電話 に対し、容疑者を逮捕する前に他の証拠との関連で発信者の実質的に確実な識別 を必要とする。それ以外にも、電話によるクレジット販売では、販売者はクレジ ットカード番号の検証に加えて、発信者に音声の証拠と蓄積されている証拠との 相関を要求することがある。特にある品物が注文されたかどうかに疑問がある時 である。 本発明は、話された言葉を機械により識別し、機械翻訳や識別のみを行おうと する音声認識とは別のものである。事実本発明の応用においては、(容疑者が偽 装するかもしれない)識別できる通話を構成する、識別可能な母音、子音、およ び音節等は廃棄され、不可聴部分(一般的には、可聴下周波(超低周波)あるい は可聴の下の帯域)、あるいは音声として人間の口を通して発せられた音響のみ が、容疑者の実質的に正確な認識あるいは識別を行うのに使用される。音声を偽 装することができても、容疑者の音声器官の定まった物理的な構造は、全ての実 用的な目的に対して、人間により制御することができないこと、また空気の最初 の吐き出しは通常音声帯域の可聴下周波領域の不可聴音を作り出すこと、および このような音響は(可聴周波数範囲より低く)不可聴音であるけれども、各個人 に固有であるという事実に、本発明は基づいている。このようにして、人間の口 、口腔から発せられる音の可聴部分も、識別の目的に使用することができるけれ ども、本発明は口腔を通して発せられる通話あるいは他の音響において、人間の 発した音響の低エネルギーレベルの部分に関係するものである。 本発明によれば、録音された音声は最初にディジタル化される(例えば、アナ ログ波の継続的なサンプルは2進語に変換され、(この好ましい実施例では)そ の後の操作で先ず録音された音声の可聴部分を消去する)。その後残りの部分は 時間的に、周波数的に、振幅的に(3つの領域で)分析され、そして電子的な表 示装置、および必要ならば、印刷する表示装置の両方に表示される。表示の元の 信号は、同様に発せられた容疑者の音声に対する記録された翻訳データと、電子 的に比較し相関点を見いだすことができ、あるいは目視で比較し相関点を見いだ すこともできる。 電話回線がその音声の音響パターンを取るのに使用した媒体の経路の一部にな っている場合は、電話の帯域の制限の為にスペクトルが急峻に切られてしまうの で、認識すべき音波は、本発明の比較処理の前に基本的に同一なあるいは同様な 経路を通さなければならない。 通話の「音響」に影響を与える、口の形状、舌、唇、および他の物理的な構造 は、種々の筋肉の訓練により音声を偽装するように制御することができる。しか しながら、可聴の通話の波の前、即ち立ち上がりあるいは立ち下がり部分におけ る不可聴音を構成するのに寄与する環境は、一般に上記のような制御には従わず 、意図的には変えられない。従ってこの不可聴音はある人に対し同一、且つ固有 のものである。大略500Hzより下の周波数帯域は通話スペクトルの全体に渡り見 ることができ、通話スペクトルの下の帯域の音、即ち不可聴部分は特に本発明に とって有用である。 一般には、大多数のデープレコーダは口腔を通し音声で発せられる不可聴音の 録音は比較的良好であり、高い周波数範囲ではあまり良好ではない。従って、本 発明の応用では高品質の録音装置が使用されるけれども、本発明の利点と特徴の 一つは、高価でない磁気テープレコーダ(VAR)と低価格の音響処理装置を、本 発明の実施の為に使用できることである。更に、盗難防止のための事業用施設( 銀 行、コンビニエンスストア、ガスステーション等)の音響監視には、自動反転テ ープカセット、エンドレスループ等を持つ、通常の業務の時間中連続して動作す る、低価格の音声起動レコーダ、あるいは大規模のFIFOメモリアレイを持つディ ジタルレコーダが、低域音響の捕捉に使用される。希望により、時間を限って、 あるいは日にちを決めて、永久メモリーに記録する録音方法が重要となろう。ま た、ビデオカメラのような写真の証拠が事件を記録するのに使用され、あるいは 容疑者の正確な識別を行うために本発明とともに使用できることが評価されるで あろう。 ここに述べたように準備された、(例えば)カード所有者の名前のディジタル 化された部分の音声サンプルは、クレジット銀行のあるいはチャージカードの磁 気ストリップに記録される。使用時点でカードを所持している人は、その人の名 前を話すように要求され、本発明の原理を使用して、それは電気信号に変換され 、ディジタル化され、そして蓄積されたディジタルの翻訳データと比較される。 本発明の一面によれば、音響あるいは音声により起動されるレコーダは、銀行 の金銭出納係の窓口に置かれ、例えば、銀行強盗から発せられた低周波の音響を 録音する。そしてその録音は後日銀行強盗の正確な識別を助けるのに使用される 。各金銭出納係は人目に付かない場所に置かれた、音声で起動するレコーダ(VA R)あるいはVARのマイクロフォンを持っている。各VARは1/2ないし1時間連続に 録音する。録音は15分のエンドレステープあるいは自動テープ反転装置を使用 し、繰り返し使用する。それはまたディジタル録音器即ちアナログ−ディジタル 変換器およびFIFOメモリを含んだ固体メモリとすることもできる。また銀行強盗 の場合、VARは銀行強盗の発言、例えば「俺は強盗だ。有り金全部袋に詰めろ。 」、「爆弾を持っているぞ。」等により起動される。このような銀行強盗の使用 する短い共通的な用語は、強盗の場合に録音、保存され、容疑の可能性のある人 を識別する目的で、本発明による分析のために警察に渡される。 本発明のその他の使用法として、誠実な電話加入者により作成された不可聴音 の予め録音されたサンプルはその加入者による追加の電話注文を検証するのに使 用することができる。本発明はまた銀行へ入る人の識別、あるいは保護あるいは 制限されている地域へ入る許可を与える為に使用することができる。 本発明のシステムは先ずディジタル音声のサンプルを入手し、蓄積することか ら成っている。これは被検者がアナログ・ディジタル(AD)変換回路に接続され たマイクロホンに向かって話すことにより行われる。このようなAD回路はマイク ロホンからのアナログ入力を毎秒約5,500サンプルの速度で(あるいは少なくと も必要な最高周波数の2倍の速さで)サンプルすることが可能でなければならず 、またサンプリング速度の正確な選択が可能な扱い者制御の手段を備えなければ ならない。AD回路はコンピュータのデータバスに接続され、コンピュータは蓄積 のためにディジタル値の出力を取り出すことができる。このように変換された音 声サンプルは、音声ファイルと呼ばれる磁気ディスクに蓄積される。 上記の方法で作成された音声ファイル内のデータは、その後それは画面上のビ デオ表示の二つのタイプに変換することができるコンピュータソフトウェアに入 れられる。第1の表示タイプは時間(x)と振幅(y)を表す二つの軸のグラフで ある。ソフトウェアはコンピュータのマウスのような指示装置を使用して、画像 として表されたデータの一部を選択すること(「マーキング」)が可能でなけれ ばならない。ソフトウェアはその後ビデオ表示の選択(「マーキング」)された 部分ににより表されるデータの部分を釘面上の表示の第2のタイプに変換する。 第2の表示タイプは時間(x)、周波数(y)、および振幅(z)で表される3 軸のグラフである。この選択されたデータの部分は、元の音声サンプルデータの 複数サンプルあるいは「スライス」としてグラフに作られる。グラフに作られる スライスの数は、等時間間隔で区分された複数のスライスの表示のグループを作 成する音声ファイルデータの、選択された部分からn番目の各サンプルの値を選 択するソフトウェアにより制御される。各スライスの間隔を前と次のスライスか ら等間隔にすることにより、従属したパターンが表示装置上に作成され、それは 完成すると3次元の映像の配列となる。我々の目的からこの表示をディジタルホ ログラムとなる「ディジタル音響ホログラム」と呼ぶこととする。 任意の一つのスライスの線と曲線をその隣のスライスのそれと並置してみると 、音響ホログラムの従属パターンにより判明するように、本発明の音声の比較の 基礎となる処理された音声のサンプルの骨組みを構成する。ホログラムで明かな 輪郭と傾向は、音声サンプルを識別できる「マーク」である。 警察の使用の為の本発明の音声識別システムは、被検者から電話あるいはマイ クロフォンのいづれかにより得られた、磁気テープ上に記録された音声サンプル の比較を意図している。ディジタル化されたサンプルは、テープ録音されたサン ブルが再生され、そしてこのようにして作成されたアナログ信号がアナログ・デ ィジタル(AD)変換回路に接続された時に取得され蓄積される。このAD回路はテ ープから得られたアナログ入力を少なくとも毎秒約5,500サンプルの速度で(あ るいは必要な最高周波数の2倍の速さで)サンプルすることが可能でなければな らず、またサンプリング速度の正確な選択が可能な扱い者制御の手段を備えなけ ればならない。AD回路はコンピュータのデータバスに接続され、コンピュータは 蓄積装置からディジタル値の出力を取り出すことができる。このように変換され た音声サンプルは、音声ファイルと呼ばれる磁気ディスクに蓄積される。 上記の方法で作成された音声ファイル内のデータは、その後それは画面上の図 形表示に変換することができるコンピュータソフトウェアに入れられる。コンピ ュータのソフトウェアにより作成された表示は時間(x)と振幅(y)を表す二つ の軸のグラフである。 ソフトウェアはまた第1のグラフの他に第2の2軸のグラフを同時に提供する 。第2のグラフは、既知の人間の音声サンプルからのディジタル化された値を含 む第2の音声ファイルからソフトウェアにより作成される。このようにして並べ て表示された2つの音声サンプルは、担当者により視覚で比較することができ、 その担当者は2つの音声サンプルが暫定的に一致していると考える程充分に似て いるかどうかを判断する。 比較可能なデータサンプルを持つ2つのグラフを得るために、ソフトウェアは 各サンプルを編集し、表示されたグラフから関係のない雑音、過剰に長く話され た意味のない文句、および沈黙の期間あるいは間隙を除くことが可能でなければ ならない。このような編集に含まれるけれども、各サンプルは、せき、くしゃみ 、息づかい、等の全ての無関係の音響を除き、それが単に被検者の声帯から作ら れたと分かる音響を表すように削減することができ、且つ他のサンプルと大略同 じ時間長になるように削減することができる。サンプルの編集は、「マーキング 」およびそれに続くデータの削除ができるコンピュータのマウスのような指示装 置 を使用することにより最もよく遂行することができる。ソフトウェアはその後残 りのデータを示す表示を見直す。 本発明の音声識別システムは、刑事訴訟において証拠として使用するために警 察当局に音声分析を提供することを意図していないことに留意すべきである。音 声分析が将来証拠として受け入れられる可能性はあるけれども、ここに開示する システムの目的は警察の使用の為のツールを提供することである。例えば、音声 分析の使用により、捜査官が、数十人の容疑者を除いて、数人の容疑者にのみ捜 査の努力を集中することができれば、成功と考えることができるであろう。 上記のように、本発明は録音された通話の可聴部分を識別のために使用する必 要はないが、それは他の通話識別手段および装置に関連して使用されることが明 確に理解されるべきである。 特許4,837,804に述べたシステムは、電話により受信されたアナログ音声信号 を、数値情報がアナログ音声の特徴を指定する処理手段へ送られる。その特許の 説明の中に「ディジタル化」の用語を含んでいるけれども、それは波形の特徴の 差を指定する演算的な値であって、音声サンプルそれ自身のディジタル化は含ん でいない。 本発明は、音声サンプルが比較に先だってディジタル化される点で特許4,837, 804のモデルとは異なっている。これは波形の特徴のより正確な測定、磁気媒体 へのディジタル化されたサンプルの蓄積、およびサンプルの取扱いを比較の処理 に適するようにすることを可能にする。また特許4,837,804のシステムは500Hzか ら下の周波数成分を削除して電話回線からの音声のサンプルを取得するので、本 特許の比較方法で最も重要な波形を含む周波数スペクトルの下の部分を無視して いる。 特許4,827,518により開示された方法は音声サンプルのディジタル化とはっき り発音された句から音声の性質の特徴を抽出する方法を含んでいる。しかしなが ら、一つの音声サンプルから次のサンプル間の変動があることを考慮すると、複 数のサンプルから取得した「複数のケプストラム(会話のパワースペクトルの対 数のフーリエ変換)の係数セット」の蓄積を必要とする。 本発明の方法は複数のサンプルから「近似の韻律」を計算し、この韻律に基づ いて「決定」を行う点で、本発明のシステムは上記の方法とは異なっている。本 発明のシステムは周波数スペクトルの下の帯域の部分のみを分析するので、複数 のサンプルを参照する必要はない。これはこの下の周波数における作用は同じ被 検者から取得した多くのサンプル間で一つの音声サンプルと次のサンプルの間に 実質的に変化がないという認識に基づいている。 特許4,827,518のシステムは、本特許のシステムと同様に、音声サンプルのデ ィジタル化を使用しているけれども、ディジタル化されるサンプルの最高周波数 はサンプル速度の半分に制限されるというナイキスト効果により課せられる制約 を認識していない。聴覚のスペクトル範囲(測定するという意味において)の少 なくとも全ての周波数を再生するのに充分なサンプル速度でサンプルを取得しな ければならないこと、および比較すべき二つのサンプルの各々は同じサンプル速 度で取得しなければならないことを規定しないことにより、上記のシステムは実 用的な利益が決して得られない性能のレベルまでそのシステムを低下させている 。 特許4,827,518のシステムの他の特徴は音声の特徴がカードに蓄積されること である。しかしながら、本発明のシステムはディジタル化されたデータの蓄積を クレジットカードと同じ大きさのカードに搭載された磁気ストリップ上に蓄積す ることを提案しており、ところが特許4,827,518のカードは実際はユーザインタ フェース端末と相互動作する印刷配線板を含んでいる。 米国特許4,833,713のシステムは、特許4,837,518のシステムと同様に、比較の ためにアナログ音声信号を提案している。話された語あるいは句を構成する波形 は一つのサンプルと次のサンプルでは正確には同じでないことを装置は認識して いる。それは、複数のサンブルを蓄積することではなく、「複数の音声パターン 」の重畳から作られる統合音声パターンを蓄積することにより、これに対して保 証することを意味している。本発明は複数のサンプルの重畳により蓄積された音 声サンプルを無視するものでも軽視するものでもない。 要約 本発明は比較に先だって音声サンプルをディジタル化し、公知の技術で必要と されるような特定の区間の時間の枠内に切りとられた、はっきり発音されたサン プルに適合するように制約されない点で、本発明は従来の方法とは異なっている 。本発明は音響のサンプルの非常に薄いスライスにも含まれるデータを比較する 。この時間間隔は1秒の1/100ほどの短い時間とすることができる。更に、本発 明のシステムはいかなる二つの発音されたサンプルにも適合するように、比較を 行うことができる。サンプルは発言された同じ語あるいは句を比較する必要はな く、あるいはまた話された語が全然無くとも構わない。声帯を使用した発音があ れば充分である。 本発明のシステムと見直している従来技術の最も重要な一つの相違点は、音響 サンプルの可聴部分において一つの音声サンプルと次のサンプルとの違いに関係 なく、スペクトルの低い、下位帯域部分の振動が同じ人間の一つの音声サンプル と次のサンプルと比較した時に実質的に同一であるという本発明の明確な認識方 法である。従って、話された語あるいは句の全体をサンプルする必要はなく、声 帯の振動を含む音響をサンプルすれば充分である。 本発明の上記のおよびその他の目的、利点および特徴は次の明細書およびそれ に付随した図面を使用して考察した時に、より明確になるであろう。ここで、 図1aは本発明の記録処理のブロック図であり、図1bは本発明を実施したシステ ムのブロック図であり、図1cは図1aに示したシステムの図式表現である。 図2aは分析のために不可聴部分のサンプリングに示された音声プリントの表現 であり、図2bはソフトウェアによりディジタル音声サンプルから作成された音声 プリントである。 図3は、時間(x軸)、周波数(y軸)、および振幅(z軸)を示し、且つ本発 明に使用される谷/ピークの特徴点を図示する3次元の波形である。 図4は、カード所有者の音響プリントの翻訳データを入れた磁気ストリップを 持つクレジットカードを図示する。 図5は、図4のカードを使用して検証するシステムのブロック図である。 図6は、音声で起動するレコーダを備えた銀行の金銭出納係の窓口である。そ して 図7は、音声で起動するレコーダの従来の回路と本発明の目的にそれを適合さ せる状態を図示する。 発明の詳細な説明 図1aおよび1cを参照して、ある人間10がテープレコーダ12のマイクロホン 11に対して話をする。このレコーダは発生した音波をディジタル信号に変換す る。テープレコーダ12とマイクロホン11は別々に示されている。これはテー プ録音は明らかにマイクロホンとは分離することが可能でありそのテープは再生 テーププレーヤ14(図1c)により再生することができることを示すためである 。これらのアナログ信号はアナログ・ディジタル変換ユニット13に送られる。 (前に注記したように、犯罪行為が追跡されているところでは、基本的に同じチ ャネルが準備された録音を行うのに使用され、またアナログ信号をコンピュータ のアナログ・ディジタル変換器に送るのに使用することが望ましい)。 図1cは、アナログ信号を商用のPCコンピュータ14へ送る従来のテーププレー ヤの図式表示である。このコンピュータでは、タンディ社(レディオ・シャック )の商業的に入手可能な音声を取り込むコンピュータソフトウェアにより、アナ ログのサンプルはディジタルのサンプルに変換される。アナログ音声信号のディ ジタル版(図2c)は表示画面15DSに送られ、そこで扱い者は(例えば、マウスに より)小さなサンプルあるいは部分を、好ましくは分析のために可聴の下の帯域 部分を、選択することができる。選ばれたディジタル化された部分あるいはサン プルは磁気ディスクに録音され、ディスクドライブ15DDより取り出され、ハード ディスクドライブに商用コンピュータの音響分析ソフトウェア(例えば、GEM社 の登録商号のサンプルビジョン)を搭載したPC 16のディスクドライブに挿入さ れる。そのコンピュータの音響分析ソフトウェアは扱い者により抽出されたディ ジタル音響信号の小さな部分を処理し、時間(x軸)、周波数(y軸)、および振 幅(z軸)を示す図3の3次元ディスプレイ76Pのグラフを作成する。時間軸は各 周波数によるスライスあるいはサンプルである。音声の様相は音声ファイルメモ リ16Mに蓄積され、プリンタ16Pで印刷することができる。 ここで図1bを参照すると、本発明を実施する一般化されたブロック図は音源2 0を示しており、それはアナログ・ディジタル変換器21によりディジタル化さ れた入力とそれから表示ユニット22へ供給される出力を持っている。その表示 ユニットは蓄積とより詳細な分析のためにデータの一部を選択することができる 。選択装置23は鍵盤、マウス等で構成することができ、図1cに関連して述べた 選択動作に関連して動作することができる。入力音波の選択された部分の3次元 表示はPC比較器24により準備される。 光CD、磁気メモリ等で構成することができる蓄積ユニット25は、図3の3次 元のディスプレイに対応して、個人(銀行の顧客、クレジットカードのユーザ、 その他の公知の個人も)に対する音響プロフィルのライブラリを蓄積しており、 音源22からの音響プロフィルあるいは署名に対して比較するために比較器24 に供給される。 図3は、不可聴音(ここで使用されるような、周波数および・あるいはエネル ギーレベルが可聴範囲以下である音響)ビーク点Ppと谷の点Pvを持つことを示し ており、それらは相互に関連して区別できるパターンを持っており、指紋の細か な相違点(縁の終端部、フォーク状の部分、等)と同様に、各個人に固有のパタ ーンである。しかも指紋と異なって、個人の通話パターンの全部に渡って見いだ すことができる。各周波数に対して、短い時間間隔に渡る隣接の周波数と関連し たエネルギーのピークと谷が、隣接の周波数のピークと谷と関連を持ち、そして 各個人に固有なコードパターンを構成している。この識別コードは1秒の1/10以 下の短い時間の周波数・時間・振幅の図において検出することができる。図3に おいて、大略240のサンプルが示されており、ここでサンプリング速度は毎秒5,5 00サンプルである。時間サンプルTs11を考察すると、ここで各周波数ラインF1、 F2、F3...FNは時間のサンプルと交差する。エネルギーレベルは任意であるが 、ピークと谷の正規化されたレベル間にある。使用するのは、ピークと谷(ある いは谷とピーク)の間の比であるから、振輻には依存しない。例えば、点F1 Pv1 1谷であり、一方F2 Pp11はピークであり、そしてFN Pp11もその周囲の点との関 連で、ピークである。音波の1秒以下の小さい部分のこれらの特徴の分布は各個 人に固有なコードを構成し、これは個人の通話を通して繰り返 される。上記のように、毎秒5,500のサンプリング速度は1秒の小さな部分内で 識別を行うために充分な点のデータを得るのに使用することができる。 図4と5を参照すると、一般にプラスチックで作られているカード30はその 一面(裏面)32に磁気ストリップ31、署名ブロック即ちフィールド33、お よびカード番号、カード所有者、有効期限、等を表示するためのセクション34 を備えている。 本発明によれば、上記のように作成されたディジタルの音響プロフィルは、カー ド所有者のそれに対応して磁気ストリップ30に記録される。 カードの携帯者がカードの所有者でもあることが要求されるような、前述の作 業のためにそのカードが提示された場合は、その携帯者はマイクロフォン35の 前でほんの数語話すことが要求され、その電気アナログ信号は増幅器36により 増幅され、そしてアナログ・ディジタル変換器37によりディジタル信号に変換 され、そしてそのディジタル信号は図3に図示した音響プロフィルに対応したデ ィジタル信号を作成するために音響プロフィルの柚出回路38に送られる。その 音響プロフィルはマイクロプロセッサ39に供給される。カード30はカード読 み取り器40の溝40Sを通過し、そのカード読み取り器はディジタルに符号化さ れた磁気ストリップの音響プロフィルを読みだし、それを比較のためにマイクロ プロセッサ39に供給し、比較結果によりユーティリゼーション装置41を起動 する。そのユーティリゼーション装置は相関の有無と音響プロフィルを持つ音声 ファイルに蓄積された識別結果を表示する信号装置とすることができる。 カード30の代わりに、16Mの中に作られたライブラリ即ち音声ファイルを主 メモリ42に蓄積することが可能で、話した人の識別を検証するためにアクセス することができる。 また図6と7を参照して、例えば(金融業務を行っている他の場所も同じであ るが)音声で起動するレコーダ(VAR)50は、銀行の係員の窓口に置かれたマ イクロホン51を持っており、例えば強盗の音声がテープ、あるいは固体メモリ に録音される。盗難あるいは強盗の場合、口腔(口から鼻への通路)から発せら れた音響は録音され、前に説明したように、分析され、後で比較するために強盗 の音響プロフィルを作成し、被告の識別に使用される。図7に示すようにVAR 50はディジタル・アナログ変換器を含むことができ、その出力を固体メモリ5 3あるいはエンドレスのディジタルオーディオテープ(DAT)54のいづれか使 用されているものに供給する。永久記録も必要ならば行うことができる。 本発明の好ましい実施例を示し説明してきたが、本発明の種々の変形と適応は 当業者には容易に明白であることは理解できるであろう。そして、このような変 形あるいは適応はここに述べる請求範囲に取り込まれることが意図されている。
【手続補正書】特許法第184条の7第1項 【提出日】平成4年8月3日(1992.8.3) 【補正内容】 請求の範囲 1. 未知の個人を識別する手段において、 人間の口腔・鼻腔より作られた音響を第1のディジタル電気信号に変換し、そ して前記音響の可聴部分に対応する電気信号をそれより削除して、前記音響の不 可聴部分に対応する第2のディジタル電気信号を作成し、 前記第2のディジタル電気信号を、周波数、振幅および時間サンプルの3つの 領域の様式に変換して、前記個人の未知の音響プロフィルを構成するピークおよ び谷の配列を作成し、 既知の個人の同じ様式の音響プロフィルの元ファイルを備え、 前記既知の個人の前記音響プロフィルの前記のピークおよび谷の関係位置を含 む相互関係を前記未知の個人の音響プロフィルと比較し、そして 前記音響プロフィル間の相関を検出するあるいは検出しない有用な信号を提供 することから成る未知の個人を識別するの手段。 2. 各音響プロフィルの前記ディジタル電気信号の1秒以下の部分のみで前記比 較を行うことを特徴とする請求項1に記載の手段。 3. 未知の個人を識別する装置において、 人間の口腔・鼻腔より作られた音響を第1のディジタル電気信号に変換し、そ して前記音響の可聴部分に対応する電気信号をそれより検出して、前記音響の不 可聴部分に対応する第2のディジタル電気信号を作成するための手段、 前記第2のディジタル電気信号を、周波数、振幅および時間サンプルの3つの 領域の様式に変換して、前記個人の未知の音響プロフィルを構成するピークおよ び谷の配列を作成するための手段、 既知の個人の同じ様式の音響プロフィルの元ファイルを備えるための手段、 前記既知の個人の前記音響プロフィルの前記のピークおよび谷の関係位置を含 む相互関係を前記未知の個人の音響プロフィルと比較し、そして 前記音響プロフィル間の相関を検出するあるいは検出しない有用な信号を提供 する手段から成る未知の個人を識別するための装置。 4. 各音響プロフィルの前記ディジタル電気信号の1秒以下の部分のみで前記比 較を行うことを特徴とする請求項3に規定した装置。 5. 前記時間サンプルが話された語全部よりも少ないことを特徴とする請求項1 に規定の発明。 6. 前記時間サンプルが1秒の1/100のように短いことを特徴とする請求項5に 規定の発明。 7. 変換される前記音響が可聴の下の帯域範囲であることを特徴とする請求項1 に規定の発明。 8. 前記音響が可聴下周波(超低周波)の範囲であることを特徴とする請求項1 に規定の発明。 9. 前記時間サンプルが話された語全部よりも少ないことを特徴とする請求項3 に規定の発明。 10.前記時間サンプルが1秒の1/100のように短いことを特徴とする請求項3に 規定の発明。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FR,GB,GR,IT,LU,MC,N L,SE),AU,CA,JP,KR 【要約の続き】

Claims (1)

  1. 【特許請求の範囲】 1. 未知の個人を識別する手段において、 人間の口腔・鼻孔よりつくられた音響をのディジタル電気信号に変換し、 前記ディジタル電気信号を、周波数、振幅および時間サンプルの3つの領域の 様式に変換して、前記個人の未知の音響プロフィルを構成するピークおよび谷の 配列を作成し、 既知の個人の同じ様式の音響プロフィルの元のファイルを与え、 前記既知の個人の前記音響プロフィルの前記ピークおよび谷の関係位置を含む 相互関係を前記未知の個人のものと比較し、そして 前記音響プロフィル間の相関を検出するあるいは検出しない有用な信号を提供 することから成る未知の個人を識別する手段。 2. 各音響プロフィルの前記ディジタル電気信号の1秒部分のみが前記比較を行 うことに必要とさえることを特徴とする請求項1に記載の手段。 3. 前記時間サンプルが少なくとも毎秒5,500サンプルであることを特徴と する請求項1に記載の手段。 4. 未知の個人を識別する装置において、 人間の口腔・鼻孔よりつくられた音響をのディジタル電気信号に変換するため の手段 前記ディジタル電気信号を、周波数、振幅および時間サンプルの3つの領域の 様式に変換して、前記個人の未知の音響プロフィルを構成するピークおよび谷の 配列を作成するための手段、 既知の個人の同じ様式の音響プロフィルの元ソースを与えるための手段、 前記既知の個人の前記音響プロフィルの前記ピークおよび谷の関係位置を含む 相互関係を前記未知の個人の音響プロフィルものと比較し、そして 前記音響プロフィル間の相関を検出するあるいは検出しない有用な信号を提供 するための手段から成る未知の個人を識別する装置。 5. 各音響プロフィルの前記ディジタル電気信号の1秒の部分のみが前記比較を 行うことに必要とされることを特徴とする請求項3に規定した装置。 6. 前記時間サンプルが少なくとも毎秒5,500サンプルであることを特徴と する請求項4に規定した装置。 7. 前記時間サンプルが話された語全部よりも少ないことを特徴とする請求項1 に規定の発明。 8. 前記時間サンプルが1秒の1/100のように短いことを特徴とする請求項7に 規定の発明。 9. 変換される前記音響が可聴の下の帯域範囲であることを特徴とする請求項1 に規定の発明。 10.前記音響が可聴下周波(超低周波)の範囲であることを特徴とする請求項1 に規定の発明。 11.前記時間サンプルが話された語全部よりも少ないことを特徴とする請求項4 に規定の発明。 12.前記時間サンプルが1秒の1/100のように短いことを特徴とする請求項4に 規定の発明。 13.変換される前記音響が可聴の下の帯域範囲であることを特徴とする請求項4 に規定の発明。 14.前記音響が可聴下周波(超低周波)の範囲であることを特徴とする請求項4 に規定の発明。
JP50704692A 1991-02-22 1992-02-21 人間の音源を識別するための手段および装置 Pending JP2002517175A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US65864291A 1991-02-22 1991-02-22
US658,642 1991-02-22
US68839591A 1991-04-22 1991-04-22
US688,395 1991-04-22
PCT/US1992/001122 WO1992015090A1 (en) 1991-02-22 1992-02-21 Acoustic method and apparatus for identifying human sonic sources

Publications (1)

Publication Number Publication Date
JP2002517175A true JP2002517175A (ja) 2002-06-11

Family

ID=27097671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50704692A Pending JP2002517175A (ja) 1991-02-22 1992-02-21 人間の音源を識別するための手段および装置

Country Status (6)

Country Link
US (1) US5313556A (ja)
EP (1) EP0572531A4 (ja)
JP (1) JP2002517175A (ja)
AU (1) AU1436792A (ja)
CA (1) CA2104393A1 (ja)
WO (1) WO1992015090A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148425A (zh) * 2019-05-14 2019-08-20 杭州电子科技大学 一种基于完整局部二进制模式的伪装语音检测方法

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1252551B (it) * 1991-12-19 1995-06-19 Alcatel Italia Circuito per il riconoscimento del parlato
US5675708A (en) * 1993-12-22 1997-10-07 International Business Machines Corporation Audio media boundary traversal method and apparatus
AU4760696A (en) * 1995-01-19 1996-08-07 Ann Adcock Corporation Speaker verification method
US5835894A (en) * 1995-01-19 1998-11-10 Ann Adcock Corporation Speaker and command verification method
DE19522940A1 (de) * 1995-06-23 1997-01-02 Fraunhofer Ges Forschung Verfahren zum Identifizieren einer menschlichen Stimme
US5903868A (en) * 1995-11-22 1999-05-11 Yuen; Henry C. Audio recorder with retroactive storage
GB2314232B (en) * 1996-06-14 2000-11-22 Fujitsu Ltd Telephone transaction support system
US5832441A (en) * 1996-09-16 1998-11-03 International Business Machines Corporation Creating speech models
US6213391B1 (en) 1997-09-10 2001-04-10 William H. Lewis Portable system for personal identification based upon distinctive characteristics of the user
US6594632B1 (en) 1998-11-02 2003-07-15 Ncr Corporation Methods and apparatus for hands-free operation of a voice recognition system
JP2002529799A (ja) * 1998-11-10 2002-09-10 ボイス・セキュリティ・システムズ・インコーポレイテッド セキュリティ制御のために発話を比較する方法
US6519565B1 (en) 1998-11-10 2003-02-11 Voice Security Systems, Inc. Method of comparing utterances for security control
US6676460B1 (en) 2001-07-05 2004-01-13 Maruta Electric Boatworks Llc Electronic propeller guard
US20040090195A1 (en) * 2001-06-11 2004-05-13 Motsenbocker Marvin A. Efficient control, monitoring and energy devices for vehicles such as watercraft
US7335071B1 (en) 2001-07-05 2008-02-26 Maruta Electric Boatworks Llc Electronic shut off systems
US7065544B2 (en) * 2001-11-29 2006-06-20 Hewlett-Packard Development Company, L.P. System and method for detecting repetitions in a multimedia stream
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
US7308403B2 (en) * 2002-07-01 2007-12-11 Lucent Technologies Inc. Compensation for utterance dependent articulation for speech quality assessment
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
US20070198262A1 (en) * 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US20060079187A1 (en) * 2004-10-03 2006-04-13 Struck James T GPS, infrasonics, audio tools armband for location and assistance in response to astronomical and other crises
US20060078098A1 (en) * 2004-10-08 2006-04-13 Sereboff Marcel J Answering phone calls
WO2006059325A1 (en) * 2004-11-30 2006-06-08 Oded Sarel Method and system of indicating a condition of an individual
EP1679696A1 (en) * 2005-01-05 2006-07-12 Alcatel Speech verification for dispatching request
US7264014B2 (en) * 2005-08-29 2007-09-04 Jeffrey Goldstein Safety system hose
RU2419890C1 (ru) * 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
US9043210B1 (en) 2012-10-02 2015-05-26 Voice Security Systems, Inc. Biometric voice command and control switching device and method of use
US9672408B2 (en) * 2015-02-20 2017-06-06 Sony Corporation Hidden biometric setup
CN108922533A (zh) * 2018-07-26 2018-11-30 广州酷狗计算机科技有限公司 确定是否是真唱的方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3673331A (en) * 1970-01-19 1972-06-27 Texas Instruments Inc Identity verification by voice signals in the frequency domain
US3737580A (en) * 1971-01-18 1973-06-05 Stanford Research Inst Speaker authentication utilizing a plurality of words as a speech sample input
BE787377A (fr) * 1971-08-09 1973-02-09 Waterbury Nelson J Cartes de securite et systeme d'utilisation de telles cartes
US3855418A (en) * 1972-12-01 1974-12-17 F Fuller Method and apparatus for phonation analysis leading to valid truth/lie decisions by vibratto component assessment
US4053710A (en) * 1976-03-01 1977-10-11 Ncr Corporation Automatic speaker verification systems employing moment invariants
US4675904A (en) * 1983-08-11 1987-06-23 Compusonics, Inc. Method for detecting suicidal predisposition
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
US4833713A (en) * 1985-09-06 1989-05-23 Ricoh Company, Ltd. Voice recognition system
JPS62163445A (ja) * 1986-01-14 1987-07-20 Mitsubishi Electric Corp 電話切換装置
US4827518A (en) * 1987-08-06 1989-05-02 Bell Communications Research, Inc. Speaker verification system using integrated circuit cards

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148425A (zh) * 2019-05-14 2019-08-20 杭州电子科技大学 一种基于完整局部二进制模式的伪装语音检测方法

Also Published As

Publication number Publication date
AU1436792A (en) 1992-09-15
EP0572531A1 (en) 1993-12-08
CA2104393A1 (en) 1992-09-03
WO1992015090A1 (en) 1992-09-03
US5313556A (en) 1994-05-17
EP0572531A4 (en) 1995-03-22

Similar Documents

Publication Publication Date Title
JP2002517175A (ja) 人間の音源を識別するための手段および装置
US10977299B2 (en) Systems and methods for consolidating recorded content
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
Naik Speaker verification: A tutorial
Ortega-Garcia et al. AHUMADA: A large speech corpus in Spanish for speaker characterization and identification
US7496510B2 (en) Method and apparatus for the automatic separating and indexing of multi-speaker conversations
Markel et al. Text-independent speaker recognition from a large linguistically unconstrained time-spaced data base
Singh et al. MFCC VQ based speaker recognition and its accuracy affecting factors
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
Roy et al. Automatic spoken affect analysis and classification
CN111901549B (zh) 一种基于人声识别技术辅助现场录制编目方法
Rodman et al. Computer recognition of speakers who disguise their voice
Zhang et al. Advancements in whisper-island detection within normally phonated audio streams.
Campbell The Recording of Emotional speech; JST/CREST database research
RU2107950C1 (ru) Способ идентификации личности по фонограммам произвольной устной речи
JP2000148187A (ja) 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体
KR20080065775A (ko) 구화 교육용 발성 시각화 시스템
JPS6287998A (ja) 音声認識装置
Cohen Forensic Applications of Automatic Speaker Verification
OM et al. I VERIFICATION
Palivela et al. Voice Authentication System
Patil et al. Comparison of subband cepstrum and Mel cepstrum for open set speaker classification
Ekpenyong et al. Speech Quality Enhancement in Digital Forensic Voice Analysis
Patil et al. Effectiveness of LP based features for identification of professional mimics in Indian languages