JP2006162694A - 音声処理装置,音声処理方法,プログラム及び記録媒体 - Google Patents

音声処理装置,音声処理方法,プログラム及び記録媒体 Download PDF

Info

Publication number
JP2006162694A
JP2006162694A JP2004350241A JP2004350241A JP2006162694A JP 2006162694 A JP2006162694 A JP 2006162694A JP 2004350241 A JP2004350241 A JP 2004350241A JP 2004350241 A JP2004350241 A JP 2004350241A JP 2006162694 A JP2006162694 A JP 2006162694A
Authority
JP
Japan
Prior art keywords
voiceprint
data
voice
processing
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004350241A
Other languages
English (en)
Inventor
Akira Masuda
彰 増田
Masafumi Nagai
雅文 永易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004350241A priority Critical patent/JP2006162694A/ja
Publication of JP2006162694A publication Critical patent/JP2006162694A/ja
Pending legal-status Critical Current

Links

Images

Abstract


【課題】 自然な会話による音声データから所定の時間間隔の音声データ毎に声紋データを生成して認証を行う際に、CPUのスペック等に依存することなく、正確な声紋データを生成する。
【解決手段】 所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段32に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段31と、外部から入力する音声データを蓄積手段33に一時的に蓄積させる蓄積処理手段34と、蓄積手段33から所定の時間間隔分ずつ音声データをロードするロード手段36と、ロード手段36によってロードされた所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルを声紋認証手段31に順次転送するファイル化手段37とを備える。
【選択図】 図9

Description

本発明は、音声に基づいて声紋認証技術により発話者を特定する音声処理装置,音声処理方法等に関する。
従来より、音声に基づいて当該音声に係る発話者を特定するため、音声処理装置としての声紋認証エンジンが知られており、かかる声紋認証エンジンが、例えば、銀行のコールセンター等に適用されている。
一般に、個々人の声紋の相違は、それぞれの人特有の顔形から生ずる口腔・鼻孔の容積・構造の相違、及び身長や性別から生ずる声帯の相違から生ずるため、声紋認証技術では、声紋に対してスペクトル分析を行い、登録された声紋データと照合することにより、高い精度で発話者を特定することが可能となる。例えば、発話者が風邪等によって声がかすれたり鼻声になったとしても、声紋の波形の強さや周波数は変化がないため、かかる場合でも発話者特定の認証精度が高い。
具体的には、声紋認証エンジンは、声紋モデル生成部と声紋照合部と声紋レジスタとを含んで構成される。声紋レジスタには、認証対象ユーザの発話に基づいて、各ユーザの声紋モデル(声紋データ)が予め登録される。
従来の声紋認証エンジンは、以下の処理を行うことで発話者を特定する。
(1)声紋モデルの生成
声紋モデル生成部は、音声をスペクトル分析し、声紋の特徴を抽出することで、声紋モデル(声紋データ)を作成する。声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。
(2)声紋モデルの照合
声紋照合部は、声紋認証エンジンが認証のために入力した音声の声紋の特徴を抽出して生成した声紋モデルと、予め声紋レジスタに登録された声紋モデルとを比較照合し、モデルの特徴量が近似する度合いに応じた照合値(特徴量が近似するほど大きい)を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応する発話者を特定する。
本特許出願の出願時には未公開であるが、従来、こうした声紋認証エンジンに関する技術としては、会議中の発言のような自然な会話による音声データから、所定の時間間隔(例えば3秒間)の声紋認証単位時間の音声データ毎に声紋データを生成して認証を行うものが提案されていた(例えば、出願番号特願2003−286256号,特願2004−143952号の特許出願)。
ところで、このように自然な会話による音声データから単位時間の音声データ毎に声紋データを生成するためには、入力する音声データをバッファメモリ等に一時的に蓄積し、そのバッファメモリ等から単位時間分ずつの音声データを声紋認証エンジンに転送する必要がある。
図10は、声紋登録時(各ユーザの声紋データを声紋レジスタに予め登録するとき)に声紋認証エンジンに音声データを転送する従来の方法を例示する図である。外部から入力するアナログ音声データ(認証対象ユーザの発話による音声データ)を、A/D変換器101によってサンプリング周波数8kHz,量子化ビット数8ビット(1バイト)でディジタル変換した後、CPU(図示略)の制御のもとでバッファメモリ102に一時的に蓄積する。バッファメモリ102は、声紋認証単位時間(ここでは3秒間とする)よりも長い10秒間分の音声データ(8000×1×10=80000バイトの音声データ)の蓄積容量を有している。
CPUは、内部のタイマーを用いて40乃至50ミリ秒程度の間隔をあけつつ、バッファメモリ102から100ミリ秒分ずつの音声データ(8000×1×0.1=800バイトずつの音声データ)を声紋認証エンジン103に転送する。
声紋認証エンジン103は、3秒間分の音声データ(8000×3×10=24000バイトの音声データ)が転送される毎に、転送された音声データから声紋データを生成し、生成した声紋データを声紋レジスタ104に登録する。
図11は、声紋認証時に声紋認証エンジンに音声データを転送する従来の方法を例示する図である。外部から入力するアナログ音声データ(会議等での自然な会話による音声データ)を、登録時と同様に、A/D変換器101でディジタル変換してバッファメモリ102に一時的に蓄積する。
CPU(図示略)は、登録時と同様に、100ミリ秒分(800バイト)ずつの音声データをバッファメモリ102から読み出して声紋認証エンジン103に転送する。
声紋認証エンジン103は、3秒間分の音声データ(8000×3×10=24000バイトの音声データ)が転送される毎に、転送された音声データから声紋データを生成する。そして、生成した声紋データを、声紋レジスタ104に登録済みの声紋データとを比較照合して、最も近似する声紋データに対応する発話者を特定する。
しかし、この図10,図11のような転送方法では、CPUのスペック(クロック周波数等)によっては、バッファメモリ102から声紋認証エンジン103に転送するデータにビット落ち等が生じることにより、転送すべき音声データ(声紋認証単位時間分の音声データ)を正常に声紋認証エンジン103に転送できないことがあった。そのため、声紋登録時に正確な声紋データを生成して声紋レジスタ104に登録することができなくなったり、認証時に正確な声紋データを生成することができなくなり、その結果認証率が低下してしまうことがあった。
本発明は、上述の点に鑑み、自然な会話による音声データから声紋認証単位時間の音声データ毎に声紋データを生成して認証を行う際に、CPUのスペック等に依存することなく、正確な声紋データを生成できるようにすることを課題としてなされたものである。
この課題を解決するために、本発明に係る第1の音声処理装置は、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段と、外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段と、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードするロード手段と、このロード手段によってロードされたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送するファイル化手段とを備えたことを特徴とする。
また、本発明に係る第2の音声処理装置は、それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、これらの複数のマイクロフォンからの音声データの音圧に応じて、一つのマイクロフォンからの音声データを選択するマイクロフォン選択手段と、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段と、このマイクロフォン選択手段で選択された音声データを蓄積手段に一時的に蓄積させる蓄積処理手段と、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードするロード手段と、このロード手段によってロードされたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送するファイル化手段とを備えたことを特徴とする。
また、本発明に係る音声処理方法は、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段を用いて声紋認証を行う方法において、外部から入力する音声データを蓄積手段に一時的に蓄積させる第1のステップと、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードする第2のステップと、この第2のステップでロードしたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送する第3のステップとを有することを特徴とする。
また、本発明に係るプログラムは、コンピュータを、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段、外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードするロード手段、このロード手段によってロードされたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送するファイル化手段、として機能させることを特徴とする。
また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータを、所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段、外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段、この蓄積手段からこの所定の時間間隔分ずつ音声データをロードするロード手段、このロード手段によってロードされたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルをこの声紋認証手段に順次転送するファイル化手段、として機能させるプログラムを記録したことを特徴とする。
本発明では、外部から入力する音声データ(第2の音声処理装置では、複数のマイクロフォンのうちマイクロフォン選択手段で選択された一つのマイクロフォンからの音声データ)を一時的に蓄積する蓄積手段から、声紋認証手段が声紋データを抽出する単位時間である所定の時間間隔分ずつの音声データをロードする。そして、ロードしたこの所定の時間間隔分ずつの音声データを音声ファイルに変換し、その音声ファイルを声紋認証手段に順次転送する。
このように、声紋認証単位時間分の音声データを1つの音声ファイルとして一括して声紋認証手段に転送するので、CPUのスペック等にかかわらず、転送するデータにビット落ち等が生じなくなり、転送すべき音声データ(声紋認証単位時間分の音声データ)が正常に声紋認証手段に転送される。これにより、自然な会話による音声データから声紋認証単位時間の音声データ毎に声紋データを生成して認証を行う際に、CPUのスペック等に依存することなく、正確な声紋データを生成することができる。
なお、蓄積手段からの音声データのロードの開始から声紋認証手段での声紋認証処理の終了までの所要時間は、この所定の時間間隔以内にし、ロードの開始からこの所定の時間間隔が経過するまでに、ロードされた音声データを蓄積手段から破棄することが好適である。
それにより、外部から入力する音声データが途切れなく蓄積手段に蓄積されるので、自然な会話による音声データに対してリアルタイムに声紋認証を行うことができるようになる。
また、声紋認証手段が、記憶手段に予め声紋データを記憶させる処理として、この所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを記憶手段に記憶させる声紋登録処理をさらに行うものである場合には、声紋登録処理を行うときにも、声紋認証処理を行うときと同じく、声紋認証単位時間分の音声データを1つの音声ファイルとして一括して声紋認証手段に転送することが好適である。
それにより、声紋登録時にも正確な声紋データを生成して記憶手段に登録することができる。
本発明によれば、例えば会議中の発言のような自然な会話による音声データから声紋認証単位時間の音声データ毎に声紋データを生成して認証を行う際に、CPUのスペック等に依存することなく、正確な声紋データを生成することができるので、認証率が向上するという効果が得られる。
また、自然な会話による音声データに対してリアルタイムに声紋認証を行うことができるという効果が得られる。
また、声紋登録時にも正確な声紋データを生成して記憶手段に登録することができるので、認証率が向上するという効果が得られる。
以下、会議用の音声処理装置に本発明を適用した例について、図面を用いて具体的に説明する。この音声処理装置は、それぞれ複数の会議参加者が存在し、遠隔に位置する2つの会議室間において、双方向の通話を可能とする通話装置である。この通話装置の一部に、本発明に係る声紋認証処理技術が適用される。以下、先ず、この音声処理装置が適用される用途について述べる。
図1は、この音声処理装置が適用される一例を示す図である。図1(a)に示すように、遠隔に位置する2つの会議室901,902にそれぞれ音声処理装置2(会議室901については2A,会議室902については2Bと表記するが、同一の構成である)が設置されており、これらの音声処理装置2A,2Bが電話回線920で接続されている。
図1(b)に示すように、会議室901において、音声処理装置2Aがテーブル911の中央に置かれている。図示は省略するが、会議室902においても、同様にして、音声処理装置2Bがテーブルに置かれている。
図1(b)及び(c)に示すように、音声処理装置2Aが置かれたテーブル911の周囲に、複数(本実施形態においては6名)の会議参加者A1〜A6がほぼ等間隔に着席している。図示は省略するが、会議室902においても、同様にして、音声処理装置2Bが置かれたテーブルの周囲に複数の会議参加者が着席している。
音声処理装置2によれば、2つの会議室901,902の間で、電話回線920を介して音声による通話が可能である。また、電話回線920を介しての会話は、通常、1人の話者と1人の話者同士、すなわち1対1で通話を行うが、音声処理装置2によれば、一つの電話回線920を用いて複数の会議参加者A1〜A6同士の通話が可能である。
以下、かかる音声処理装置2の構成について述べる。
〔音声処理装置2の構成〕
図2は、音声処理装置2の外観構成の一例を示す図であり、図2(a)は斜視図、図2(b)は図2(a)のマイクロフォン収容部11の内部の上面図である。
音声処理装置2は、双方向の通話を可能とするために、マイクロフォンとスピーカとが一体として構成され、図2(a)に示すように、マイクロフォンを収容するためのマイクロフォン収容部11と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部12と、操作部13とを含んでいる。
操作部13には、図示は省略するが、声紋登録の開始・終了を指示するための釦や、声紋認証対象のユーザのユーザIDを入力するための釦や、声紋認証の開始・終了を指示するための釦が配置されている。
図2(b)に示すように、マイクロフォン収容部11の内部には、6本のマイクロフォンMC1〜MC6が全方位に均等に配置されている。各マイクロフォンは、単一指向性を持つマイクロフォンである。
スピーカ収容部12に収容されるスピーカは、収容筐体の中心に位置しており、スピーカからの音声が各マイクロフォンMC1〜MC6に対してほぼ同音量・同位相で届くように構成されている。
会議参加者A1〜A6は、通常、図1(c)に例示したように、音声処理装置2の周囲360度方向に、60度間隔で配設されているマイクロフォンMC1〜MC6の近傍にほぼ等間隔で位置している。
図3は、音声処理装置2の回路構成の一例を示すブロック図である。音声処理装置2は、全方位音声入力部3と、声紋認証部1とを含んでいる。
全方位音声入力部3は、DSP52と、DSP53と、A/D変換器ブロック51と、A/D変換器517と、D/A変換器551,552,553と、増幅器561,562と、スピーカ57とを含んでいる。図3においては、A/D変換器ブロック51の一例として、各マイクロフォンMC1〜MC6に対応する6個のA/D変換器511〜516を示している。また、図示は省略するが、全方位音声入力部3は、相手方会議室に送信する音声を圧縮符号化するためのコーデック等も含んでいる。
全方位音声入力部3は、これらの回路を実装した基板を、例えば、図2(a)に示すマイクロフォン収容部11の内部に設置したものである。
DSP52は、A/D変換器511〜516によりディジタル信号に変換された6本のマイクロフォンMC1〜MC6からの音声信号に基づいて、一つのマイクロフォンの音声信号を選択する処理(マイクロフォン選択処理)等の各種の信号処理を行う。DSP52の内部処理については後述する。
DSP53は、エコーキャンセラーとして機能する。すなわち、A/D変換器517を介して入力する相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、DSP52を介して入力する音声信号から減じる処理を行うことにより、エコー消去処理を行う。
DSP53の処理結果は、、D/A変換器551,552によりアナログ信号に変換されて出力される。D/A変換器552からの出力は、必要に応じて、図示しないコーデック等で符号化され、増幅器562を介して電話回線920(図1(a))のラインアウト(LINE OUT)に出力され、相手方会議室に設置された音声処理装置2のスピーカを介して、音として出力される。
相手方の会議室に設置された音声処理装置2からの音声は、電話回線920(図1(a))のラインイン(LINE IN) を介して入力され、A/D変換器517においてディジタル信号に変換され、DSP53に入力されてエコーキャンセル処理に使用されるとともに、D/A変換器551及び増幅器561を介し、スピーカ57から音として出力される。
一方、DSP52により選択されたマイクロフォンの音声信号も、CPU54及びDSP53を介してスピーカ57から音として出力される。
すなわち、図1(c)に示す会議参加者A1〜A6は、上述したスピーカ57を通して、相手会議室に配置された音声処理装置2により選択された話者の音声に加えて、その会議室にいる発言者が発した音声をもスピーカ57を介して聞くことができる。
音声処理装置2に内蔵された6本のマイクロフォンMC1〜MC6は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのS/Nが混同してあまり良い音が集音できない。これを避けるために、音声処理装置2では、指向性マイクロフォンで集音することにより、周辺のノイズとのS/Nを改善している。
〔DSP52の処理〕
次に、DSP52で行う処理内容について述べる。
DSP52で行われる主な処理は、マイクロフォン(以下、単にマイクと称する場合もある)の選択・切替え処理である。
すなわち、各マイクロフォンからの音声に基づいて、一つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、全方位音声入力部3を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。
本処理を正確に行うため、DSP52は、下記に例示する各種の信号処理を行う。
(a)マイク信号の帯域分離とピークホールド処理
(b)発言の開始、終了の判定処理
(c)発言者方向マイクの検出処理
(d)マイク信号の選択切替え処理
図4は、DSP52において実行される処理を示す機能ブロック図である。
図4に示すように、DSP52は、各マイク信号に対してBPF処理を行い、音圧レベルデータを生成するBPF5211〜5216からなるBPFブロック521と、BPF処理された各マイクの音圧レベルデータに対してPH処理を行い、後述するピーク値を生成するPH5221〜5226からなるPHブロック522と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部523と、を含んで構成される。
かかる構成を有するDSP52による上述した各信号処理(a)〜(d)について、以下に述べる。
(a)マイク信号の帯域分離とピ−クホールド処理
本処理は、図4に示すBPFブロック521及びPHブロック522によって行われる。
BPFブロック521の各BPF処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性(例えば、100〜600Hz)に基づいて行われる。
PH処理は、BPF処理された音圧レベルデータ(マイク信号)の最大値を保持(ピークホールド)する処理を行った後のデータであるピーク値を生成する。
以降の処理、すなわち、上記(b)〜(d)の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部523により実行される。
(b)発言の開始、終了の判定処理
発言の開始判定、終了判定処理は、各マイク毎に独立に、例えば、所定の閾値と音圧レベルを比較することにより、発言の開始/終了を判定する。また、定常的な騒音レベルを逐次測定し、上記所定の閾値を可変とするように構成してもよい。
DSP52は、例えば、マイクロフォンMC1の発言の開始を判定すると、マイクロフォンMC1に設定された出力ゲインを増加させる。逆に、マイクロフォンMC1の発言の終了を判定すると、マイクロフォンMC1に設定された出力ゲインを減少させる。
(c)発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい一つのマイクを選択する処理である。すなわち、1人の話者が発言を開始する場合には、一つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定する。
なお、発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図4に示すように、各マイクを通して入力する音圧レベルデータに対して、バンドパス・フィルタ(BPF)処理及びピークホールド(PH)処理を行うことにより得られるピーク値である。
(d)マイク信号の選択切替え処理
本処理では、(c)発言者方向マイクの検出処理により選択されたマイクにDSP52の出力を切り替える処理を行う。
具体的には、各マイク毎に設定する出力ゲインを変化させることにより行う。例えば、図5に示すように、マイク信号の選択切替え処理は、6回路の乗算器と6入力の加算器により構成され、選択されたマイク信号が接続されている乗算器のチャンネルゲイン(CH Gain)を「1」に、その他の乗算器のチャンネルゲインを「0」とすることにより、加算器には〔選択されたマイク信号×1〕と〔他のマイク信号×0〕の処理結果が加算される。これにより、選択されたマイク信号(選択マイク信号)が出力される。
図3に示すように、DSP52から出力した選択マイク信号は、後段のDSP53に送られるとともに、D/A変換器553でアナログ信号に変換されて声紋認証部1に送られる。また、DSP52からは、どのマイクを選択したかを表すマイク選択情報が声紋認証部1に送られる。
〔声紋認証部の説明〕
次に、声紋認証部1の構成及び処理内容について述べる。
図3に示した声紋認証部1は、音声処理装置2を使用した会議において発話者の認証のために使用する装置である。図6は、声紋認証部1の回路構成例を示すブロック図である。声紋認証部1は、サウンドボード21と、CPU22と、メモリ23とを含んでいる。
声紋認証部1は、これらの回路を実装した基板を、例えば、図2(a)に示すマイクロフォン収容部11の内部に設置したものである。
サウンドボード21には、図3に示した全方位音声入力部3のD/A変換器552からのアナログ音声データが入力する。サウンドボード21は、入力したアナログ音声データを、サンプリング周波数8kHz,量子化ビット数8ビット(1バイト)でディジタル変換する。
メモリ23には、OS(基本ソフト)としてWindows(「Windows」は登録商標)が格納されるとともに、Windows上で動作する各種のプログラム(声紋認証エンジンを含む)が格納されている。
図7は、これらのプログラムによる声紋認証部1の機能ブロック図である。声紋認証部1は、機能的に、以下の各部を含んでいる。
・声紋認証エンジン31
・声紋モデル(声紋データ)を登録するための声紋レジスタ32(図6のメモリ23の一部の領域)
・サウンドボード21でディジタル変換された音声データを一時的に蓄積するためのバッファメモリ33(図6のメモリ23の一部の領域)
・バッファメモリ33への音声データの蓄積を制御する蓄積制御部34(プログラム) ・バッファメモリ33内の音声データをロードするためのデータリスト35(図6のメモリ23の一部の領域)
・バッファメモリ33内の音声データをデータリスト35にロードするロード部36(プログラム)
・データリスト35にロードされた音声データを、Windows標準の音声ファイルの形式であるWAVEファイルに変換し、そのWAVEファイルを声紋認証エンジン31に転送するファイル化部37(プログラム)
声紋認証エンジン31,蓄積制御部34,ロード部36,ファイル化部37は、1つのプログラム内の別々のルーチンであってもよいし、あるいは互いに別々のプログラムであってもよい。
声紋認証エンジン31は、供給される音声データを、声紋認証可能な単位時間(声紋認証単位時間。本実施形態では、3秒間)毎に声紋認証して、発話者(ユーザID)を特定する。声紋認証技術としては、すでに公知の技術を声紋認証エンジン31に適用させることが可能である。
なお、声紋認証単位時間は、発話者が複数存在し、発話者が切り替わる場合等を考慮すると、発話者特定精度の観点から、声紋認証エンジン31や図6のCPU22の処理能力が許せば、極力短い時間が望ましい。
声紋認証エンジン31の処理は、声紋登録処理と声紋認証処理とに分けられる。声紋登録処理は、声紋レジスタ32に声紋認証対象のユーザ(会議参加予定者)の声紋データを登録する処理であり、以下の(1)及び(2)の処理から成っている。
(1)声紋モデルの生成
声紋認証対象の各ユーザの音声データ(声紋認証対象のユーザが音声処理装置2のいずれかのマイクロフォンに向かって発話し、DSP52によって選択されたそのマイクロフォンの音声信号)をスペクトル分析し、声紋の特徴を抽出することで、声紋モデル(声紋データ)を作成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数および音の強さの三次元のパターンで表現したものである。
(2)声紋モデルの登録
生成した各ユーザの声紋モデルを、そのユーザのユーザID(図2の操作部13で入力されたユーザID)と関連付けて声紋レジスタ32に記憶させる。
声紋認証処理は、会議中に発話者を認証する処理であり、以下の(1)乃至(3)の処理から成っている。
(1)声紋モデルの生成
声紋登録処理時と同様に、発話者の音声データ(全方位音声入力部3のDSP52によって選択されたマイクロフォンの音声信号)から声紋モデルを作成する。
(2)声紋モデルの照合
生成した声紋モデルと、声紋登録処理によって予め声紋レジスタ32に登録された声紋モデルとを比較/照合し、モデルの特徴量が近似する度合いに応じた照合スコアSCR(特徴量が近似するほど大きい)を算出する。その結果、声紋レジスタに登録された声紋モデルの中で、入力した音声の声紋モデルに最も近似する声紋モデルに対応するユーザIDを特定する。
(3)照合スコアと閾値との比較
上記(2)の処理で算出した照合スコアSCRを、閾値THDと比較し、照合スコアSCRが閾値THDを越える場合には、上記(2)の処理で特定したユーザIDを有効なものと判断し、図6及び図3に示すV_IDとして出力する。
バッファメモリ33は、声紋認証単位時間(3秒間)よりも長い10秒間分の音声データ(8000×1×10=80000バイトの音声データ)の蓄積容量を有している。
図8は、図7のような機能的構成を有する声紋認証部1における声紋登録時の処理内容を経時的に示す図である。図2の操作部13で声紋登録の開始を指示する操作が行われると、蓄積制御部34が、図8(a)に示すように、サウンドボード21(図6,図7)に入力してディジタル変換された音声データをバッファメモリ33に蓄積させていく。
バッファメモリ33に3秒間(声紋認証単位時間)分の音声データが蓄積されると、ロード部36が、図8(b)に示すように、バッファメモリ33から、この3秒間分の音声データを、データリスト35にロードする。なお、ロード部36は、このロードを行う直前にデータリスト35が空であった場合には、データ処理の開始をファイル化部37に通知する。
ファイル化部37は、このデータ処理の開始の通知を受けると、図8(c)に示すように、データリスト35にある音声データをWAVEファイルに変換し、そのWAVEファイルを声紋認証エンジン31に転送する。このWAVEファイルの作成及び転送に要する時間は、一般的なスペックのCPUでは0.2秒程度である。
声紋認証エンジン31は、このWAVEファイルとして転送された3秒間分の音声データに対して、図8(d)に示すように、前述の声紋登録処理を行う。声紋登録処理に要する時間は、一般的なスペックのCPUでは、0.5秒未満である。したがって、ロード部36でのロードの開始から声紋認証エンジン31での声紋登録処理の終了までの所要時間(声紋登録実時間)は、3秒間(声紋認証単位時間)よりも十分短くなっている。
ロード部36は、声紋認証エンジン31での声紋登録処理が終了すると、ロードした3秒間分の音声データをデータリスト35から削除する。ただし、声紋登録処理が終了しない場合でも、リミットタイムとして設定した声紋登録待ち時間(例えば1秒乃至2秒程度の時間)が経過すると、強制的にこの音声データをデータリスト35から削除する。
蓄積制御部34は、声紋認証エンジン31での声紋登録処理が終了すると、ロードされた3秒間分の音声データをバッファメモリ33から破棄(上書き消去の対象に)する。ただし、声紋登録処理が終了しない場合でも、上記声紋登録待ち時間が経過すると、強制的にこの音声データをバッファメモリ33から破棄する。
以下、図2の操作部13で声紋登録の終了を指示する操作が行われるまで、この処理を繰り返す。そして、声紋登録の終了を指示する操作が行われると、処理を終了する。
図9は、この声紋認証部1における声紋認証時の処理内容を経時的に示す図である。図2の操作部13で声紋認証の開始を指示する操作が行われると、蓄積制御部34が、図9(a)に示すように、サウンドボード21(図6,図7)に入力してディジタル変換された音声データをバッファメモリ33に蓄積させていく。
バッファメモリ33に3秒間(声紋認証単位時間)分の音声データが蓄積されると、ロード部36が、図9(b)に示すように、バッファメモリ33から、この3秒間分の音声データを、データリスト35にロードする。なお、ロード部36は、このロードを行う直前にデータリスト35が空であった場合には、データ処理の開始をファイル化部37に通知する。
ファイル化部37は、このデータ処理の開始の通知を受けると、図9(c)に示すように、データリスト35にある音声データをWAVEファイルに変換し、そのWAVEファイルを声紋認証エンジン31に転送する。このWAVEファイルの作成及び転送に要する時間は、図8(c)にも示したように0.2秒程度である。
声紋認証エンジン31は、このWAVEファイルとして転送された3秒間分の音声データに対して、図9(d)に示すように、前述の声紋認証処理を行う。声紋認証処理に要する時間は、一般的なスペックのCPUでは、0.5秒程度である。したがって、ロード部36でのロードの開始から声紋認証エンジン31での声紋認証処理の終了までの所要時間(声紋認証実時間)は、3秒間(声紋認証単位時間)よりも十分短くなっている。
ロード部36は、声紋認証エンジン31での声紋認証処理が終了すると、ロードした3秒間分の音声データをデータリスト35から削除する。ただし、声紋認証処理が終了しない場合でも、リミットタイムとして設定した声紋認証待ち時間(例えば1秒乃至2秒程度の時間)が経過すると、強制的にこの音声データをデータリスト35から削除する。
蓄積制御部34は、声紋認証エンジン31での声紋認証処理が終了すると、ロードされた3秒間分の音声データをバッファメモリ33から破棄(上書き消去の対象に)する。ただし、声紋認証処理が終了しない場合でも、上記声紋認証待ち時間が経過すると、強制的にこの音声データをバッファメモリ33から破棄する。
以下、図2の操作部13で声紋認証の終了を指示する操作が行われるまで、この転送処理を繰り返す。そして、声紋認証の終了を指示する操作が行われると、この転送処理を終了する。
なお、例えば会議参加者のうちの一部の者だけに発言が許可されており、その一部の者のユーザIDに関する情報がメモリ23(図6)に記憶されているような場合には、CPU22(図6)は、声紋認証処理によって特定したユーザIDがこの発言を許可された一部の者のユーザIDに該当しないときに、図6及び図3に示すように全方位音声入力部3のDSP53に制御信号を送って、DSP53からD/A変換器552に音声信号を出力させない(したがって、発言を許可されていない者の音声を相手方会議室に送らせない)ようにすることができる。
また、前述のように、声紋認証部1には、全方位音声入力部3のDSP52から、どのマイクを選択したかを表すマイク選択情報が送られるので、このマイク選択情報に基づいて、さらに認証精度を向上させることもできる。
すなわち、マイク番号とユーザIDとが対応付けられたデータが予めメモリ23に格納されていれば、CPU22は、マイク選択情報と、マイク番号に対応付けられたユーザIDを照合することにより、ユーザIDを特定することができる。
例えば、このマイク選択情報に基づいて特定したユーザIDと、声紋認証処理によって特定したユーザIDとを比較して、一致した場合にのみ、正しいユーザIDを特定したものとしてその後の処理を行うことができる。
あるいはまた、マイク選択情報に基づいて特定したユーザIDと、声紋認証処理によって特定したユーザIDとが一致しない場合は、声紋認証処理の精度がより高いと判断して、声紋認証処理によって特定したユーザIDに基いてその後の処理を行うこともできる。
また、図6及び図3に示した出力V_IDは、例えば会議中にリアルタイムな声紋認証結果に基いて何らかの操作(例えば現在発言中の会議出席者にカメラを向ける操作)を行うために利用することができる。
以上のように、この声紋認証部1では、声紋登録処理時及び声紋認証処理時に、外部(図3のDSP52)から入力する音声データを一時的に蓄積するバッファメモリ33から、声紋認証エンジン31での声紋認証単位時間である3秒間分ずつの音声データをロードする。そして、ロードしたこの3秒間分ずつの音声データをWAVEファイルに変換し、そのWAVEファイルを声紋認証エンジン31に順次転送する。
このように、声紋認証単位時間分の音声データを1つのWAVEファイルとして一括して声紋認証エンジン31に転送するので、CPU22(図6)のスペック等にかかわらず、転送するデータにビット落ち等が生じなくなり、転送すべき音声データ(声紋認証単位時間分の音声データ)が正常に声紋認証エンジン31に転送される。
これにより、会議の開始前に、声紋認証対象のユーザ(会議参加予定者)の音声データから、CPU22のスペック等に依存することなく正確な声紋データを生成して声紋レジスタ32に登録することができる。また、会議中にも、発話者の音声データから、CPU22のスペック等に依存することなく、正確な声紋データを生成して声紋認証を行うことができる。したがって、認証率が向上するようになる。
また、前述のように、声紋認証実時間が声紋認証単位時間よりも短くなっており、声紋認証処理が終了すると、ロードされた声紋認証単位時間分の音声データをバッファメモリ33から破棄する(さらに、万一一部の音声データについて通常の声紋認証実時間内に声紋認証処理が終了しない場合でも、リミットタイムとして設定した声紋認証待ち時間が経過すると強制的にこの音声データをバッファメモリ33から破棄する)ようにしているので、外部から入力する音声データが途切れなくバッファメモリ33に蓄積される。したがって、会議中に、発話者の音声データに対してリアルタイムに声紋認証を行うことができる。
なお、以上の例では、声紋認証部1を音声処理装置2の内部に設けている。しかし、別の例として、音声処理装置2の外部に、声紋認証部1と同一の機能を有する音声処理装置を設けるようにしてもよい。その音声処理装置は、専用の装置として構成してもよいが、パーソナルコンピュータを用いてもよい。パーソナルコンピュータを用いる場合には、図7に示した蓄積制御部34,ロード部36,ファイル化部37及び声紋認証エンジン31のような処理内容のアプリケーションソフトウェアを、例えばCD−ROM等の記録媒体として提供してパーソナルコンピュータにインストールさせたり、あるいはまたWebサイトからダウンロードさせてパーソナルコンピュータにインストールさせるようにすればよい。
あるいはまた、音声処理装置2内において、図3の声紋認証部1と全方位音声入力部3とを同じ基板上に実装して、DSP52から直接図6のCPU22に選択マイク信号(ディジタル音声データ)を送る(DSP53にはCPU22を介して音声データを送る)ようにしてもよい。
また、以上の例では、OSとしてWindowsを用いていることから、音声データをWindows標準の音声ファイルの形式であるWAVEファイルに変換しているが、Windows以外のOSを用いる場合にも、音声データを当該OSにおける標準の音声ファイルに変換すればよい。
また、以上の例では会議用の音声処理装置に本発明を適用しているが、これに限らず、自然な会話による音声データから声紋データを生成して声紋認証を行うあらゆる場面に本発明を適用してよい。
本発明の音声処理装置の適用例を示す図である。 本発明の音声処理装置の外観構成例を示す図である。 本発明の音声処理装置の回路構成例を示すブロック図である。 図3のDSP52の機能ブロック図である。 DSP52のマイク信号選択切替え処理を示す機能ブロック図である。 図3の声紋認証部の回路構成例を示すブロック図である。 図3の声紋認証部の機能ブロック図である。 声紋認証部における声紋登録時の処理内容を経時的に示す図である。 声紋認証部における声紋認証時の処理内容を経時的に示す図である。 声紋登録時に声紋認証エンジンに音声データを転送する従来の方法を例示する図である。 声紋認証時に声紋認証エンジンに音声データを転送する従来の方法を例示する図である。
符号の説明
1 声紋認証部、 2 音声処理装置、 3 全方位音声入力部、 11 マイクロフォン収容部、 12 スピーカ収容部、 13 操作部、 21 サウンドボード、 22 CPU、 23 メモリ、 31 声紋認証エンジン、 32 声紋レジスタ、 33 バッファメモリ、 34 蓄積制御部、 35 データリスト、 36 ロード部、 37 ファイル化部、 511〜516 A/D変換器、 52,53 DSP、 57 スピーカ

Claims (7)

  1. 所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段と、
    外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段と、
    前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードするロード手段と、
    前記ロード手段によってロードされた前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送するファイル化手段と
    を備えたことを特徴とする音声処理装置。
  2. 請求項1に記載の音声処理装置において、
    前記ロード手段でのロードの開始から前記声紋認証手段での前記声紋認証処理の終了までの所要時間を、前記所定の時間間隔以内にし、
    前記蓄積処理手段は、前記ロード手段でのロードの開始から前記所定の時間間隔が経過するまでに、ロードされた音声データを前記蓄積手段から破棄することを特徴とする音声処理装置。
  3. 請求項1に記載の音声処理装置において、
    前記声紋認証手段は、前記記憶手段に予め声紋データを記憶させる処理として、前記所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを前記記憶手段に記憶させる声紋登録処理をさらに行い、
    前記蓄積処理手段,前記ロード手段及び前記ファイル化手段は、前記声紋認証手段が前記声紋登録処理を行うときと前記声紋認証処理を行うときで同じ処理を行う
    ことを特徴とする音声処理装置。
  4. それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、
    前記複数のマイクロフォンからの音声データの音圧に応じて、一つのマイクロフォンからの音声データを選択するマイクロフォン選択手段と、
    所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段と、
    前記マイクロフォン選択手段で選択された音声データを蓄積手段に一時的に蓄積させる蓄積処理手段と、
    前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードするロード手段と、
    前記ロード手段によってロードされた前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送するファイル化手段と
    を備えたことを特徴とする音声処理装置。
  5. 所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段
    を用いて声紋認証を行う方法において、
    外部から入力する音声データを蓄積手段に一時的に蓄積させる第1のステップと、
    前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードする第2のステップと、
    前記第2のステップでロードした前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送する第3のステップと
    を有することを特徴とする音声処理方法。
  6. コンピュータを、
    所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段、
    外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段、
    前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードするロード手段、
    前記ロード手段によってロードされた前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送するファイル化手段、
    として機能させるためのプログラム。
  7. コンピュータを、
    所定の時間間隔分の音声データから声紋データを抽出し、抽出した声紋データを、予め記憶手段に発話者データと関連付けて記憶された声紋データと比較して発話者を特定する声紋認証処理を行う声紋認証手段、
    外部から入力する音声データを蓄積手段に一時的に蓄積させる蓄積処理手段、
    前記蓄積手段から前記所定の時間間隔分ずつ音声データをロードするロード手段、
    前記ロード手段によってロードされた前記所定の時間間隔分ずつの音声データを音声ファイルに変換し、前記音声ファイルを前記声紋認証手段に順次転送するファイル化手段、
    として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2004350241A 2004-12-02 2004-12-02 音声処理装置,音声処理方法,プログラム及び記録媒体 Pending JP2006162694A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004350241A JP2006162694A (ja) 2004-12-02 2004-12-02 音声処理装置,音声処理方法,プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004350241A JP2006162694A (ja) 2004-12-02 2004-12-02 音声処理装置,音声処理方法,プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2006162694A true JP2006162694A (ja) 2006-06-22

Family

ID=36664825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004350241A Pending JP2006162694A (ja) 2004-12-02 2004-12-02 音声処理装置,音声処理方法,プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2006162694A (ja)

Similar Documents

Publication Publication Date Title
JP4085924B2 (ja) 音声処理装置
CN102056036B (zh) 再现设备、头戴式耳机和再现方法
CN101163354B (zh) 用于运行助听器的方法以及助听器
CN103578470B (zh) 一种电话录音数据的处理方法及系统
JP5533854B2 (ja) 音声認識処理システム、および音声認識処理方法
JP2009139592A (ja) 音声処理装置、音声処理システム及び音声処理プログラム
JP5332798B2 (ja) 通信制御装置、通信制御方法、及び通信制御プログラム
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
TW201240423A (en) System and method for removing the call noise
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
KR20160108874A (ko) 대화록 자동 생성 방법 및 장치
CN110545504A (zh) 个人听力装置、外部声音处理装置及相关计算机程序产品
US8768406B2 (en) Background sound removal for privacy and personalization use
JPWO2020017518A1 (ja) 音声信号処理装置
JP2005055667A (ja) 音声処理装置
JP2005055666A (ja) 音声処理装置
CN112130801A (zh) 音响装置及音响处理方法
JP2010199741A (ja) 携帯電話端末装置
JP4507905B2 (ja) 音声会議用の通信制御装置,通信制御方法,プログラム及び記録媒体
JP2006154484A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
JP2006171226A (ja) 音声処理装置
JP2006162694A (ja) 音声処理装置,音声処理方法,プログラム及び記録媒体
KR101386883B1 (ko) 휴대 단말기 및 그 통화 기능 수행 방법
JP2005338454A (ja) 音声対話装置
JP2005181391A (ja) 音声処理装置および音声処理方法