JP2009042552A - 音声処理装置及び方法 - Google Patents

音声処理装置及び方法 Download PDF

Info

Publication number
JP2009042552A
JP2009042552A JP2007208090A JP2007208090A JP2009042552A JP 2009042552 A JP2009042552 A JP 2009042552A JP 2007208090 A JP2007208090 A JP 2007208090A JP 2007208090 A JP2007208090 A JP 2007208090A JP 2009042552 A JP2009042552 A JP 2009042552A
Authority
JP
Japan
Prior art keywords
sound source
sound
channels
feature
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007208090A
Other languages
English (en)
Other versions
JP4469880B2 (ja
Inventor
Ko Amada
皇 天田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007208090A priority Critical patent/JP4469880B2/ja
Priority to US12/176,668 priority patent/US8229739B2/en
Publication of JP2009042552A publication Critical patent/JP2009042552A/ja
Application granted granted Critical
Publication of JP4469880B2 publication Critical patent/JP4469880B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】入力される音声を適切に処理し、音源認識、話者認識または音声認識を精度良く行う音声処理装置を提供する。
【解決手段】第1音源100より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホン101と;前記チャネル間の相関を示す第1特徴量を算出する算出部110と;第2音源より発生された音声を前記複数のマイクロホン101により受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している記憶部120と;前記第1特徴量と前記第2特徴量を照合し、前記第1音源100が前記第2音源に一致するか否かを判定する照合部102と;を具備する。
【選択図】 図1

Description

本発明は、入力音声から音源認識、話者認識または音声認識を行う音声処理装置及び方法に関する。
個人認証技術の1つとして、入力音声の特徴量から話者を認識する話者認識技術が知られている。非特許文献1に開示されているように、話者認識技術はテキスト依存型、テキスト独立型及びテキスト指定型の3つの類型に分類される。
テキスト依存型の話者認識システムでは、認識対象の話者(ユーザという)による特定のテキストに対する発声内容と、事前にシステム側で用意されている同じテキストに対応する多数の話者による発声内容の特徴量との比較から話者を認識する。
テキスト独立型の話者認識システムでは、ユーザが発声するテキストは自由である。即ち、システムはユーザの発声内容を正規化して得た特徴量と、予め記録しておいた複数の話者の発声内容の特徴量とを照合することにより話者認識を行う。従って、上記テキスト依存型の話者認識に比べて困難であることが知られている。
テキスト指定型の話者認識システムでは、ユーザに対して発声を求めるテキストがシステム側から指定される。ユーザは指定されたテキストを実際に発声し、システムはこのユーザから得た特徴量と予め記録している特徴量との比較から話者を認識する。
古井他、「音声情報処理」、森北出版株式会社、1998
テキスト依存型及びテキスト独立型の話者認識システムは、スピーカ等を用いて他人の録音音声を再生することにより、本人を詐称する「なりすまし」によって欺かれるおそれがある。一方、テキスト指定型の話者認識システムは認証時にテキストを指定するため、テキスト依存型及びテキスト独立型の話者認識システムに比べて「なりすまし」への耐性が高いと考えられる。しかしながら、近年のデジタル信号処理技術の進歩を鑑みるに、音声合成技術を用いて他人の録音音声を合成することにより、指定されたテキストをその場で生成されることも想定する必要があると考えられる。また、テキスト依存型及びテキスト指定型の話者認識システムでは、ユーザはテキストを読み間違えてはならないため使い勝手が悪いという問題もある。
また、入力音声のスペクトル形状や時間変化などを比較して音源を識別する手法も知られているが、この手法では例えば犬と人間など明らかに種別の異なる音源の識別は可能であるが、実発声または録音音声のいずれであるかを識別することは困難である。
また、話者認識に限らず音声認識においてもユーザの周囲の環境音(テレビやラジオなどのスピーカから出力される音声)が入力に混入し、誤認識を誘発するおそれがある。
従って、本発明は入力される音声を適切に処理し、音源認識、話者認識または音声認識を精度良く行う音声処理装置を提供することを目的とする。
本発明の一態様に係る音声処理装置は、第1音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホンと;前記チャネル間の相関を示す第1特徴量を算出する算出部と;第2音源より発生された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している記憶部と;前記第1特徴量と前記第2特徴量を照合し、前記第1音源が前記第2音源に一致するか否かを判定する照合部と;を具備する。
本発明の他の態様に係る音声処理装置は、音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホンと;前記チャネル間の相関を示す第1特徴量を算出する算出部と;人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している第1の記憶部と;前記第1特徴量と前記第2特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第1の照合部と;前記音源による音声の特徴を示す第1話者特徴量を算出する第2の算出部と;特定の話者による発声音声の特徴を示す第2話者特徴量を予め記憶する第2の記憶部と;前記第1話者特徴量と前記第2話者特徴量を照合し、前記音源による音声が前記特定の話者による発声音声に一致するか否かを判定する第2の照合部と;前記第1の照合部における照合結果及び前記第2の照合部における照合結果に基づいて、前記音源が前記特定の話者の発声器官であるか否かを判定する判定部と;を具備する。
本発明の他の態様に係る音声処理装置は、音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホンと;前記チャネル間の相関を示す第1特徴量を算出する算出部と;人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している第1の記憶部と;前記第1特徴量と前記第2特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第1の照合部と;前記音源による音声の第1音声特徴量を算出する第2の算出部と;複数の単語列の第2音声特徴量が予め記憶されている第2の記憶部と;前記第1の照合部によって前記音源と前記人間の発声器官とが一致すると判定された場合に、前記第1音声特徴量と前記第2音声特徴量を照合し、前記音源による音声に最も近いらしい単語列を出力する第2の照合部と;を具備する。
本発明によれば、入力される音声を適切に処理し、音源認識、話者認識または音声認識を精度良く行うことができる。
以下、図面を参照して本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように本発明の第1の実施形態に係る音声処理装置は、n個のマイクロホン101−1〜101−n、チャネル間特徴量算出部110、照合部102、及びチャネル間特徴量記憶部120を有する。チャネル間特徴量算出部110は、n個のフーリエ変換部111−1〜111−n及びコヒーレンス算出部112を含む。尚、マイクロホン101及びフーリエ変換部111の個数nは2以上の整数とする。以下、n=2として説明するが、これに限定されるものでない。
マイクロホン101−1及び101−2は、音源100より発せられた音声を受信し、各マイクロホンに対応したチャネルの音声信号X1及びX2を出力する。音声信号X1及びX2は、フーリエ変換部111−1及び111−2に入力される。マイクロホン101−1及び101−2は様々な配置が可能である。例えば図2A及び2Bに示すようにマイクロホン101−1及びマイクロホン101−2は近接して配置される。この場合、マイクロホン101−1及びマイクロホン101−2が近接し過ぎると、音声信号X1及びX2が近似してしまうため、チャネル間の相関を適切に見積もることができない。従って、マイクロホン101−1及び101−2の間隔は少なくとも人間の唇の幅程度とするのが望ましい。
図3A及び3Bの例では、マイクロホン101−1は音源100の正面に配置され、マイクロホン101−2は音源100の側面に配置される。このようにマイクロホン101−1及びマイクロホン101−2を音源100から異なる方向に配置すれば、音源100の放射特性の変化が後述するチャネル間特徴量に反映されやすくなり、効果的に音源を識別できる。
また、マイクロホン101−1と音源100間の垂直距離と、マイクロホン101−2と音源100間の垂直距離とが異なるように配置しても、音源100の放射特性の変化が後述するチャネル間特徴量に反映されやすくなり、効果的に音源を識別できる。例えば、図3A及び3Bに示すように、マイクロホン101−1は音源100よりも高く、マイクロホン101−2は音源100よりも低く配置される。音源100が人間の発声器官である場合、口だけでなく鼻及び喉などの部位からも音が放射されるため、マイクロホン101−1を鼻の近くに配置し、マイクロホン101−2を口の近くに配置することで、鼻と口による放射特性の差が後述するチャネル間特徴量に反映されやすくなり、効果的に音源を識別できる。例えば口を閉じて発声する音と口を開けて発声する音とでは、放射特性が大きく異なる。
図4A及び4Bの例では、音源100から一直線上にマイクロホン101−1及びマイクロホン101−2が配置される。このように音源100とマイクロホン101−1との間の水平距離と、音源100とマイクロホン101−2との間の水平距離とが異なるように配置しつつ、マイクロホン101−1及び101−2を配置することにより、設置スペースを節約することができる。
フーリエ変換部111−1及び111−2は、入力される音声信号X1及びX2をフーリエ変換し、フーリエ変換信号X1(1),…,X1(k)及びX2(1),…,X2(k)を出力する。ここで、kは周波数成分番号を示している。例えば、フーリエ変換部111−1及び111−2は音声信号X1及びX2を長さLの窓で切り出した後、フーリエ変換を行い、長さMシフトする処理を繰り返す。ここで、各切り出しで生成される単位をフレームと呼ぶ。フーリエ変換部111−1からのフーリエ変換信号X1(1),…,X1(k)及びフーリエ変換部111−2からのフーリエ変換信号X2(1),…,X2(k)は、コヒーレンス算出部112に入力される。
コヒーレンス算出部112は、フーリエ変換信号X1(1),…,X1(k)及びフーリエ変換信号X2(1),…,X2(k)を用いてコヒーレンスを算出する。ここで、コヒーレンスは信号間の関係を示す指標としてよく用いられ、例えば以下に示す複素コヒーレンスが知られている。
Figure 2009042552
ここで、kは周波数番号、γ(k)はk番目の複素コヒーレンス値、E(X)はXの期待値、*は複素共役を夫々示す。
通常、E(X)はXの時間方向の期待値であり、計算済みのフレームにおけるXの平均値を用いて導出することが多い。また、以下に示すように数式(1)のγ(k)の絶対値を二乗した振幅二乗コヒーレンスも知られている。
Figure 2009042552
コヒーレンス算出部112が算出するコヒーレンスは、数式(1)に示す複素コヒーレンス及び数式(2)に示す振幅二乗コヒーレンスのいずれであってもよい。例えば、数式(1)に示す複素コヒーレンスでは算出結果が複素数であるから、入力信号X1及びX(2)の位相差を反映した値が得られる。数式(2)に示す振幅二乗コヒーレンスでは算出結果が正数であるから、比較を含む各種処理を容易に実行できる。
ここで、チャネル間特徴量としてコヒーレンスを用いる技術的意義について説明する。例えば、文献 "Exploration of Pressure Field Around the Human Head During Speech" H. K. Dunn and D. W. Farnsworth, Bell Telephone Laboratories, New York, New York, January 1939 に示されるように、人間の発声音声の放射特性が方向によって異なることはよく知られている。この放射特性は、発声する音素によっても異なると考えられ、口以外にも鼻や喉など発声器官各部から音が放射され、これらの音の重ね合わせにより放射特性が時々刻々と変化する。従って、コヒーレンスγの算出において、期待値E(X)を求める時間長を十分長く、例えば単語長程度とすれば音声信号X1及びX2間の相関は小さくなり、コヒーレンスγも小さな値となる。一方、スピーカは音素に依存しない所定の放射特性を有しているため、人間の録音音声を再生する場合であっても、コヒーレンスγは最大値1に近い値を取る。
このように、同じ単語を人間の発声器官より発声した場合と、当該発声を録音してスピーカより再生した場合とではコヒーレンスγに違いが生じることとなる。本実施形態では、このコヒーレンスγの違いに着目し、音源100がスピーカ及び人間の発声器官のいずれであるかを識別する。
一方、人間の実発声と録音音声との放射特性の違いのみに着目すれば、例えば音源の周囲に複数のマイクロホンを設けて得られた複数のパワを要素に持つベクトルを特徴量とする手法も考えられる。しかしながら、この手法では人間の平均的な放射特性を小型のスピーカを組み合わせて模擬することにより、「なりすまし」が可能となるおそれがある。従って、本実施形態に比べて音源識別の精度が低くなってしまう。
コヒーレンス算出部112は、算出したコヒーレンスγ(1),…,γ(k)に基づいてチャネル間特徴量fを算出し、照合部102へと転送する。ここで、チャネル間特徴量fは例えば、コヒーレンス算出部112が算出したコヒーレンスγ(1),…,γ(k)をそのままk個の成分として持つベクトルを用いる。また、k個全ての成分を特徴量とする必要は無く、周波数方向に平均化して、次元を圧縮してもよい。例えば全周波数に亘って平均して1次元に圧縮したベクトルを用いてもよいし、サブバンド単位に平均化して次元を圧縮してもよい。この他、主成分分析や線形判別分析に基づく次元数の削減などの次元圧縮技術を用いることで効果的に次元を圧縮できる。次元を圧縮することで後述する照合部102における処理負担を軽減することができる。また、音声の主要な周波数帯域のみを選択する間引き処理を施してもよい。また、各成分を重み付けしたり、各成分に線形変換を施したりしてもよい。また、入力音声が連続単語であるなど十分な時間長を有する場合には、コヒーレンスを算出する時間長を時間軸上に複数個所設けて、複数のコヒーレンスの時系列データをチャネル間特徴量fとしてもよい。
実際の環境では、コヒーレンス算出部112が算出するコヒーレンスγは音源100から直接受信した音声だけでなく、反射や残響に影響されるため、特定の周波数で大きくずれる場合がある。例えば、コヒーレンスγの値が特定の周波数でディップ状に低下することがある。このようなコヒーレンスγのずれによって、チャネル間特徴量fの値が変わるおそれがあり、照合部102による照合の精度を低下させる原因となる。しかしながら、上記ずれは音源100の位置が微妙に変化するだけでも影響が大きく、未然に防ぐことは困難である。従って、事後的にコヒーレンスγを周波数方向に平滑化して、ずれを小さくすることが有効である。コヒーレンスγを周波数方向に平滑するために、コヒーレンス算出部112は例えば移動平均を算出したり、中央値フィルタを利用したりする。
チャネル間特徴量記憶部120には、特定音源Aに関するチャネル間特徴量fAが、当該特定音源Aと対応付けられて予め格納されている。尚、チャネル間特徴量fAの形式は、前述したコヒーレンス算出部112が算出するチャネル間特徴量fと一致しているものとする。
照合部102は、コヒーレンス算出部112より転送された音源100に関するチャネル間特徴量fと、チャネル間特徴量記憶部120から読み出した特定音源Aに関するチャネル間特徴量fAを照合し、音源100が特定音源Aに一致するか否かを判定する。具体的には、照合部102は例えばチャネル間特徴量f及びチャネル間特徴量fA間のユークリッド距離を予め定める閾値と比較して、音源100が特定音源Aに一致するか否かを判定する。また、照合部102は例えばチャネル間特徴量f及びチャネル間特徴量fAをパラメタとする確率モデルの尤度を予め定める閾値と比較して、音源100が特定音源Aに一致するか否かを判定してもよい。この他、パターンマッチング技術などにおける種々の手法が適用可能である。
また、チャネル間特徴量記憶部120は特定音源Aとは異なる特定音源Bに関するチャネル間特徴量fBを更に格納してもよい。この例では上記閾値を設けなくともよく、照合部102はチャネル間特徴量f及びチャネル間特徴量fA間のユークリッド距離dAと、チャネル間特徴量f及びチャネル間特徴量fB間のユークリッド距離dBとの大小を比較して、音源100が特定音源Aに一致するか否かを判定してもよい。また、チャネル間特徴量f及びチャネル間特徴量fAをパラメタとする確率モデルの尤度LAと、チャネル間特徴量f及びチャネル間特徴量fBをパラメタとする上記確率モデルの尤度LBとの大小を比較して、音源100と特定音源Aが一致するか否かを判定してもよい。また、前述したようにスピーカを音源とするチャネル間特徴量は、コヒーレンスが全周波数に亘ってほぼ1に近い値をとる。従って、チャネル間特徴量記憶部120を設けずに、音源100に関して算出したコヒーレンスγが1と比べてどの程度小さいかによって、音源100がスピーカであるか否かを判定してもよい。
また、特定音源Aが人間の発声器官である場合、同一話者であっても発話内容によってコヒーレンスγが異なるため、特定音源Aからから得られた複数の発話サンプルより算出したコヒーレンスをチャネル間特徴量fAとしてチャネル間特徴量記憶部120に格納しておき、これらのいずれか1つとチャネル間特徴量fが近ければ、音源100と特定音源Aが一致すると判定することで、照合部102の照合精度を向上させることができる。また、上記複数の発話サンプルから得られたコヒーレンスの平均値を特定音源Aに関するチャネル間特徴量fAの代表値としてチャネル間特徴量記憶部120に格納するようにしてもよい。
以下、図6に示すフローチャートを用いて、本実施形態に係る音声処理装置の動作について説明する。
まず、マイクロホン101−1及び101−2は、音源100より発せられた音響信号を受信し、入力信号X1及びX2としてフーリエ変換部111−1及び111−2に夫々転送する(ステップS201)。
次に、チャネル間特徴量算出部110はステップS201において受信した入力信号X1及びX2からチャネル間特徴量fを算出する(ステップS202)。即ち、フーリエ変換部111−1及び111−2は、ステップS201において受音された入力信号X1及びX2をk個の周波数成分からなるフーリエ変換信号X1(1),…,X1(k)及びX2(1),…,X2(k)に夫々変換し、コヒーレンス算出部112へと転送する。続いてコヒーレンス算出部112は、フーリエ変換信号X1(1),…,X1(k)及びX2(1),…,X2(k)から夫々算出したk個のコヒーレンスγ(1),…,γ(k)に基づいてチャネル間特徴量fを算出して、照合部102へと転送する。
次に、照合部102はステップS202において算出したチャネル間特徴量fとチャネル間特徴量記憶部120より読み出した特定音源Aに関するチャネル間特徴量fAを照合する(ステップS203)。照合部102は、チャネル間特徴量fをチャネル間特徴量fAとの一致度に基づき、音源100が特定音源Aに一致するか否かを示す判定結果を出力する。
以上説明したように、本実施形態では特定音源に関するチャネル間特徴量を予め記憶しておき、認識対象となる音源に関するチャネル間特徴量と照合することにより、当該認識対象となる音源が上記特定音源に一致するか否かを判定している。従って、本実施形態によれば、入力音声から精度良く音源認識する音声処理装置を提供できる。例えば特定音源を人間の発声器官とすれば、認識対象となる音源が人間の発声器官か否かを判定することができる。また、特定音源を人間の録音音声を再生するスピーカとすれば、認識対象となる音源が上記スピーカか否かを判定することができる。また、特定音源を複数の人間の発声器官とすれば、話者を認識することができる。
(第2の実施形態)
図7に示すように、本発明の第2の実施形態に係る音声処理装置では、図1に示す音声処理装置に加えて、更に総合判定部303及び話者認識部330を設けている。以下の説明では図7において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
総合判定部303は、照合部102から音源100が人間の発声器官であるか否かを示す照合結果を受け、話者認識部330から音源100に最も近いらしい話者を示す照合結果を受ける。総合判定部303は、これら照合結果を総合して、音源100が話者の発声器官であるか否かを示す判定結果を出力する。具体的には、総合判定部303は、例えば音源100が人間の発声器官であるとの照合結果が照合部102から得られた場合にのみ、話者認識部330からの照合結果にて示される特定の話者の発声器官に一致するとの判定結果を出力する。尚、総合判定部303の動作は上記に限られず、例えば照合部102からの照合結果と話者認識部330からの照合結果がスコアで得られるならば、両スコアの値または当該スコアをパラメタとする関数値と予め定める閾値との比較により、判定しても良い。
話者認識部330は、話者特徴量算出部331、照合部332及び話者特徴量記憶部340を有している。話者認識部330は、マイクロホン101−1及び101−2からの入力音声X1及びX2から音源100に最も近いらしい話者を出力する。
話者特徴量算出部331は、マイクロホン101−1及び101−2からの入力音声X1及びX2に基づいて話者特徴量を算出し、照合部332へと転送する。照合部332は、話者特徴量算出部331より転送された話者特徴量と、話者特徴量記憶部340に記憶されている話者特徴量を照合し、音源100に最も近いらしい話者を照合結果として総合判定部303へと通知する。話者特徴量記憶部340は、予め定める複数の話者について話者特徴量算出部331から取得した話者特徴量を話者に夫々対応付けて記憶している。
本実施形態では、上記第1の実施形態における音源識別と、一般的な話者認識とを組み合わせている。従って、本実施形態によれば「なりすまし」を防止しつつ、入力音声の特徴量から精度良く話者認識する音声処理装置を提供できる。
(第3の実施形態)
図8に示すように、本発明の第3の実施形態に係る音声処理装置では、図1に示す音声処理装置に加えて、更に音声認識部450を更に設けている。以下の説明では図8において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。
音声認識部450は、音声特徴量算出部451、照合部452及び音響モデル記憶部460を有している。音声認識部450は、照合部102から音源100が人間の発声器官に一致するとの照合結果を受けた場合にのみ、マイクロホン101−1及び101−2からの入力音声X1及びX2に最も近いらしい単語列を出力する。
音声特徴量算出部451は、マイクロホン101−1及び101−2からの入力音声X1及びX2に基づいて音声特徴量を算出し、照合部452へと転送する。照合部452は、音声特徴量算出部451より転送された音声特徴量と、音響モデル記憶部460に記憶されている音響モデルを照合し、音響的な一致度に基づいて入力音声に最も近いらしい単語列を出力する。音響モデル記憶部460は、複数の単語列の音声特徴量を格納している。格納方法として単語列そのものを記憶しておく方法もあるが、単語単位や音素単位で記憶することで記憶容量を削減できる。その場合はこれらを組み合わせて単語列を生成する。
本実施形態では、音源が人間であると識別された場合にのみ、音声認識結果を出力している。従って、本実施形態によれば、ユーザからの入力音声にテレビ音声などの環境音が混入する場合であっても、ユーザからの入力音声の特徴量のみを対象として精度よく音声認識する音声処理装置を提供できる。
尚、本実施形態において音声認識部は音響モデルを用いて音響的な一致度のみに基づいて音声認識を実行しているが、特に連続音声認識を実行する場合には言語モデルを用いて算出した言語的な一致度も併せて利用することが有効である。
(第4の実施形態)
図9に示すように、本発明の第4の実施形態に係る音声処理装置では、図1に示すチャネル間特徴量算出部110をチャネル間特徴量算出部510に、チャネル間特徴量記憶部120をチャネル間特徴量記憶部520に夫々置き換えている。以下の説明では図9において、図1と同一部分には同一符号を付して詳細な説明を省略し、図1と異なる部分を中心に述べる。尚、本実施形態に係る音声処理装置は上記に限られず、例えば図7または図8に示すチャネル間特徴量算出部110をチャネル間特徴量算出部510に、チャネル間特徴量記憶部120をチャネル間特徴量記憶部520に夫々置き換えてもよい。
チャネル間特徴量算出部510は、前述したチャネル間特徴量算出部110においてコヒーレンス算出部112をパワ比算出部512に置き換えている。チャネル間特徴量算出部510は、マイクロホン101−1及び101−2からの入力音声X1及びX2からチャネル間特徴量fを算出する。
パワ比算出部512は、フーリエ変換部111−1からの信号X1(1),…,X1(k)及びフーリエ変換部111−2からの信号X2(1),…,X2(k)からパワ比p(1),…,p(k)を算出する。具体的には、パワ比算出部512は例えば以下に示す数式(3)を用いてパワ比pを算出する。
Figure 2009042552
ここで、kは周波数成分番号、p(k)はk番目のパワ比を夫々示している。
パワ比算出部512はチャネル間特徴量fとして例えばk個の成分、即ち上記パワ比p(1),…,p(k)を要素に持つベクトルを出力する。尚、パワ比算出部512が出力するチャネル間特徴量fは上記に限られず、例えば複数のサブバンド単位に集約したり、全周波数で1つの成分に集約したりするなどして次元を圧縮してもよい。また、入力音声X1及びX2の発声時間長が十分長い場合には、時間軸上の複数個所で上記パワ比pを算出して形成した時系列データをチャネル間特徴量fとして用いてもよい。チャネル間特徴量として時系列データを用いる場合には、例えば隠れマルコフモデルを用いることにより音素毎の継続時間の変動を吸収して、チャネル間特徴量fの質を向上することができる。
チャネル間特徴量記憶部520は、前述したチャネル間特徴量記憶部120と同様に、予め定める音源についてチャネル間特徴量算出部510から取得したチャネル間特徴量fを格納している。
本実施形態では、チャネル間特徴量としてパワ比を用いており、上記各実施形態におけるコヒーレンスを代替できる。また、上記コヒーレンスと併用することにより、音源認識、話者認識及び音声認識の精度を向上させることもできる。従って、本実施形態によれば入力音声の特徴量から精度良く音源認識、話者認識または音声認識する音声処理装置を提供できる。
(第5の実施形態)
図10に示すように本発明の第5の実施形態に係る音声処理システムでは、上記各実施形態に係る音声処理装置が実装されており、端末670及びマイクロホン101−1及び101−2を有する。
マイクロホン101−1及び101−2は、音源100及び音源600から発される音声を受信し、端末670中の図示しない処理部へと転送する。ここで、音源600は、音源100を模した「なりすまし」を目的とする音源である。端末670は、上記各実施形態に係る音声処理装置のマイクロホン以外の構成要素が実装されており、マイクロホン101−1及び101−2が受信した音源100及び音源600からの音声に対して所定の処理を実行する。
以上説明したように、本実施形態よれば、「なりすまし」を目的とする音源を認識することができるため、システムに対する悪意ある操作を防ぐことができる。即ち、認識対象となる音源が「なりすまし」を目的とする音源であれば、以降の処理を実行しないなどの措置を採ることができる。
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係る音声処理装置を示すブロック図。 図1に示すマイクロホンの第1の配置例を示す上面図。 図1に示すマイクロホンの第1の配置例を示す正面図。 図1に示すマイクロホンの第2の配置例を示す上面図。 図1に示すマイクロホンの第2の配置例を示す正面図。 図1に示すマイクロホンの第3の配置例を示す上面図。 図1に示すマイクロホンの第3の配置例を示す正面図。 図1に示すマイクロホンの第4の配置例を示す上面図。 図1に示すマイクロホンの第4の配置例を示す正面図。 図1に示す音声処理装置の動作を示すフローチャート。 本発明の第2の実施形態に係る音声処理装置を示すブロック図。 本発明の第3の実施形態に係る音声処理装置を示すブロック図。 本発明の第4の実施形態に係る音声処理装置を示すブロック図。 本発明の第5の実施形態に係る音声処理システムを示す図。
符号の説明
100・・・音源
101・・・マイクロホン
102・・・照合部
110・・・チャネル間特徴量算出部
111・・・フーリエ変換部
112・・・コヒーレンス算出部
120・・・チャネル間特徴量記憶部
303・・・総合判定部
330・・・話者認識部
331・・・話者特徴量算出部
332・・・照合部
340・・・話者特徴量記憶部
450・・・音声認識部
451・・・音声特徴量算出部
452・・・照合部
460・・・音響モデル記憶部
510・・・チャネル間特徴量算出部
512・・・パワ比算出部
520・・・チャネル間特徴量記憶部
600・・・音源
670・・・端末

Claims (18)

  1. 第1音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホンと、
    前記チャネル間の相関を示す第1特徴量を算出する算出部と、
    第2音源より発生された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している記憶部と、
    前記第1特徴量と前記第2特徴量を照合し、前記第1音源が前記第2音源に一致するか否かを判定する照合部と
    を具備することを特徴とする音声処理装置。
  2. 前記第2音源は、人間の発声器官であることを特徴とする請求項1記載の音声処理装置。
  3. 前記第2音源は、人間の発声器官であり、
    前記記憶部は、スピーカより再生された録音音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第3音声信号のチャネル間の相関を示す第3特徴量を更に記憶しており、
    前記照合部は、更に前記第1特徴量と前記第3特徴量を照合し、前記第1特徴量が前記第3特徴量よりも前記第2特徴量に近ければ、前記第1音源が前記第2音源に一致すると判定することを特徴とする請求項1記載の音声処理装置。
  4. 前記第2音源は、特定の話者の発声器官であることを特徴とする請求項1記載の音声処理装置。
  5. 前記第2音源は、特定の話者の発声器官であり、
    前記記憶部は、前記特定の話者とは異なる話者の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第4音声信号のチャネル間の相関を示す第4特徴量を更に記憶しており、
    前記照合部は、更に前記第1特徴量と前記第4特徴量を照合し、前記第1特徴量が前記第4特徴量よりも前記第2特徴量に近ければ、前記第1音源が前記第2音源に一致すると判定することを特徴とする請求項4記載の音声処理装置。
  6. 前記第1特徴量及び第2特徴量は前記チャネル間のコヒーレンスであることを特徴とする請求項1記載の音声処理装置。
  7. 前記第1特徴量及び第2特徴量は前記チャネル間のコヒーレンスの線形変換であることを特徴とする請求項1記載の音声処理装置。
  8. 前記第1特徴量及び第2特徴量は前記チャネル間のパワ比であることを特徴とする請求項1記載の音声処理装置。
  9. 前記複数のマイクロホンは、第1マイクロホンと、前記第1のマイクロホンとの間に人間の唇の幅以上の間隔を空けて配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
  10. 前記複数のマイクロホンは、前記第1音源または前記第2音源から第1水平距離離れた位置に配置された第1マイクロホンと、前記第1音源または前記第2音源から第2水平距離離れた位置に配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
  11. 前記複数のマイクロホンは、前記第1音源または前記第2音源から第1垂直距離離れた位置に配置された第1マイクロホンと、前記第1音源または前記第2音源から第2垂直距離離れた位置に配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
  12. 前記複数のマイクロホンは、第1方向から前記第1音源または前記第2音源に向けて配置され第1マイクロホンと、第2方向から前記第1音源または前記第2音源に向けて配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
  13. 前記複数のマイクロホンは、第1地上高に配置された第1マイクロホンと、第2地上高に配置された第2マイクロホンとを含むことを特徴とする請求項1記載の音声処理装置。
  14. 前記第1地上高は前記第1音源または前記第2音源の位置よりも高く、前記第2地上高は前記第1音源または前記第2音源の位置よりも低いことを特徴とする請求項13記載の音声処理装置。
  15. 音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホンと、
    前記チャネル間の相関を示す第1特徴量を算出する算出部と、
    人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している第1の記憶部と、
    前記第1特徴量と前記第2特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第1の照合部と、
    前記音源による音声の特徴を示す第1話者特徴量を算出する第2の算出部と、
    特定の話者による発声音声の特徴を示す第2話者特徴量を予め記憶する第2の記憶部と、
    前記第1話者特徴量と前記第2話者特徴量を照合し、前記音源による音声が前記特定の話者による発声音声に一致するか否かを判定する第2の照合部と、
    前記第1の照合部における照合結果及び前記第2の照合部における照合結果に基づいて、前記音源が前記特定の話者の発声器官であるか否かを判定する判定部と
    を具備することを特徴とする音声処理装置。
  16. 音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホンと、
    前記チャネル間の相関を示す第1特徴量を算出する算出部と、
    人間の発声器官より発声された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している第1の記憶部と、
    前記第1特徴量と前記第2特徴量を照合し、前記音源が前記人間の発声器官に一致するか否かを判定する第1の照合部と、
    前記音源による音声の第1音声特徴量を算出する第2の算出部と、
    複数の単語列の第2音声特徴量が予め記憶されている第2の記憶部と、
    前記第1の照合部によって前記音源と前記人間の発声器官とが一致すると判定された場合に、前記第1音声特徴量と前記第2音声特徴量を照合し、前記音源による音声に最も近いらしい単語列を出力する第2の照合部と
    を具備することを特徴とする音声処理装置。
  17. 第1音源より発生された音声を受信して複数チャネルの第1音声信号を出力する受信ステップと、
    前記チャネル間の相関を示す第1特徴量を算出する算出ステップと、
    前記第1特徴量と、第2音源より発生された音声を前記受信ステップにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を照合し、前記第1音源が前記第2音源に一致するか否かを判定する照合ステップと
    を具備することを特徴とする音声処理方法。
  18. コンピュータを
    第1音源より発生された音声を受信して複数チャネルの第1音声信号を出力する複数のマイクロホン、
    前記チャネル間の相関を示す第1特徴量を算出する算出手段、
    第2音源より発生された音声を前記複数のマイクロホンにより受信して得られる複数チャネルの第2音声信号のチャネル間の相関を示す第2特徴量を予め記憶している記憶手段、
    前記第1特徴量と前記第2特徴量を照合し、前記第1音源が前記第2音源に一致するか否かを判定する照合手段
    として機能させるための音声処理プログラム。
JP2007208090A 2007-08-09 2007-08-09 音声処理装置及び方法 Expired - Fee Related JP4469880B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007208090A JP4469880B2 (ja) 2007-08-09 2007-08-09 音声処理装置及び方法
US12/176,668 US8229739B2 (en) 2007-08-09 2008-07-21 Speech processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007208090A JP4469880B2 (ja) 2007-08-09 2007-08-09 音声処理装置及び方法

Publications (2)

Publication Number Publication Date
JP2009042552A true JP2009042552A (ja) 2009-02-26
JP4469880B2 JP4469880B2 (ja) 2010-06-02

Family

ID=40347339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007208090A Expired - Fee Related JP4469880B2 (ja) 2007-08-09 2007-08-09 音声処理装置及び方法

Country Status (2)

Country Link
US (1) US8229739B2 (ja)
JP (1) JP4469880B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013120467A (ja) * 2011-12-07 2013-06-17 National Institute Of Advanced Industrial & Technology 信号特徴抽出装置および信号特徴抽出方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11256869B2 (en) * 2018-09-06 2022-02-22 Lg Electronics Inc. Word vector correction method
CN113380267B (zh) * 2021-04-30 2024-04-19 深圳地平线机器人科技有限公司 对音区进行定位的方法、装置、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131683A (ja) * 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP4247002B2 (ja) * 2003-01-22 2009-04-02 富士通株式会社 マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013120467A (ja) * 2011-12-07 2013-06-17 National Institute Of Advanced Industrial & Technology 信号特徴抽出装置および信号特徴抽出方法

Also Published As

Publication number Publication date
JP4469880B2 (ja) 2010-06-02
US8229739B2 (en) 2012-07-24
US20090043566A1 (en) 2009-02-12

Similar Documents

Publication Publication Date Title
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
Sahidullah et al. Introduction to voice presentation attack detection and recent advances
US11869261B2 (en) Robust audio identification with interference cancellation
US11710478B2 (en) Pre-wakeword speech processing
Shiota et al. Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification
EP2216775B1 (en) Speaker recognition
US8706488B2 (en) Methods and apparatus for formant-based voice synthesis
US20180040325A1 (en) Speaker recognition
US9153235B2 (en) Text dependent speaker recognition with long-term feature based on functional data analysis
US20090150146A1 (en) Microphone array based speech recognition system and target speech extracting method of the system
GB2552722A (en) Speaker recognition
JP2006235243A (ja) 音響信号分析装置及び音響信号分析プログラム
JP4469880B2 (ja) 音声処理装置及び方法
Yaguchi et al. Replay attack detection using generalized cross-correlation of stereo signal
Knox et al. Getting the last laugh: automatic laughter segmentation in meetings.
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
JP6480124B2 (ja) 生体検知装置、生体検知方法及びプログラム
JP2007133413A (ja) 話者テンプレート圧縮方法および装置、複数の話者テンプレートをマージする方法および装置、ならびに話者認証
JP7347511B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Biagetti et al. Distributed speech and speaker identification system for personalized domotic control
Nisa et al. A speaker identification-verification approach for noise-corrupted and improved speech using fusion features and a convolutional neural network
Hemavathi et al. Spectro-temporal features for audio replay attack detection
Cemal et al. Spoofing detection goes noisy: An analysis of synthetic speech detection in the presence of additive noise
BenZeghiba et al. Posteriori Probabilities and Likelihoods Combination for Speech and Speaker Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100301

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees