JP6220304B2

JP6220304B2 - 音声識別装置

Info

Publication number: JP6220304B2
Application number: JP2014067421A
Authority: JP
Inventors: 鈴木　良平; 良平鈴木
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2014-03-28
Filing date: 2014-03-28
Publication date: 2017-10-25
Anticipated expiration: 2034-03-28
Also published as: JP2015191076A

Description

本発明は、入力された音声について個人を識別する音声識別装置に関する。

入力された音声に基づいて個人の認証を行う音声識別装置が知られている。その際、正当なユーザが発声した音声を秘かに録音しておき、その録音した音声を再生機のスピーカから再生することで、正当なユーザになりすまして認証を行う可能性があった。このため、従来から、入力音声が生音声であるか再生音声であるかを高精度に判定することが求められている。

生音声か再生音声かを判定する技術として、特許文献１には、生音声と再生音声の位相情報の違いに着目し、入力音声が生音声であるか再生音声であるかを判定することが記載されている。

特開２００１−１０９４９４号公報

しかしながら、再生音声を用いたなりすまし行為を確実に排除するためには、さらに、多様な対策を講じる必要がある。発明者は、実験によって、生音声と再生音声を識別するために有効な特徴が入力音声の超音波帯域に表れることを新たに発見した。
そこで、本発明は、超音波帯域における違いに着目して、再生音声を用いたなりすまし行為を排除することを目的とする。

本発明の１つの態様は、可聴帯域及び超音波帯域を含む音響信号を入力する入力部と、前記入力部から入力された音響信号から個人を識別する個人識別部と、前記入力部から入力された音響信号から超音波帯域の信号を抽出する帯域抽出部と、前記抽出された超音波帯域の信号を用いて、前記入力部から入力された音響信号が前記入力部に生で入力された生音声であるか否かを判定する生音声検出部と、を備える音声識別装置である。

ここで、音響信号の可聴帯域において個人を識別するための特徴量を個人に対応付けて記憶する記憶部を備え、前記帯域抽出部は、前記入力部から入力された音響信号から可聴帯域の信号を抽出し、前記個人識別部は、前記抽出された可聴帯域の信号から抽出された個人を識別するための特徴量と、前記記憶部に記憶された特徴量とを照合することによって個人を識別することが好適である。

また、前記生音声検出部において生音声と判定され、かつ前記個人識別部において個人が特定された場合に、前記入力部から入力された音響信号に対応する個人を特定した識別結果を出力する出力部を備えることが好適である。

また、前記生音声検出部は、前記抽出された超音波帯域の信号の信号強度が所定基準値以上であれば前記入力部から入力された音響信号が生音声であると判定することが好適である。

また、音響信号における超音波帯域の信号の信号強度の時間的推移パターンを記憶する記憶部を備え、前記生音声検出部は、前記抽出された超音波帯域の信号の信号強度の時間的推移パターンと前記記憶された時間的推移パターンの類似度が所定基準値以上であれば前記入力部から入力された音響信号が生音声であると判定することが好適である。

本発明によれば、再生音声によるなりすまし行為を防止しつつ、入力音声から個人を識別できる。

本発明の実施の形態における音声識別装置を組み込んだ出入管理システムの構成を示す図である。本発明の実施の形態における音声識別装置の構成を示す図である。本発明の実施形態における可聴帯域におけるスペクトル包絡を用いた個人識別処理を説明する図である。本発明の実施の形態における超音波帯域の信号強度の時間的推移パターンを用いた生音声識別処理を説明する図である。人間の生音声と機械による再生音声の周波数スペクトルの例を示す図である。本発明の実施の形態における音声識別処理のフローチャートである。

＜音声識別装置の構成＞
本発明の実施の形態における音声識別装置１は、音声によって個人の認証を行うシステム等に適用されて用いられる。具体的には、音声識別装置１は、重要エリアへの出入管理を行うシステムに組み込んで用いることができる。図１は、本発明の実施形態における音声識別装置１を組み込んだ出入管理システムの構成を示す図である。まず、ユーザは、重要エリアの入口に設けられた音声識別装置１に対して、ＩＤを入力し、その後、予め設定したキーワードを発声する。音声識別装置１は、入力された音響信号に基づいて、キーワードを発声したのがＩＤに対応するユーザ本人であるか否かを識別する。音声識別装置１は、識別結果を出入管理装置２に出力する。出入管理装置２は、識別結果と出入管理データベース３を照合し、重要エリアに入る権限を有するユーザ本人であれば、入口の電気錠４を解錠する。また、入力された音響信号が重要エリアに入る権限を有しないユーザであれば、入口の電気錠４を解錠しない。

なお、音声識別装置１は、出入管理システム以外のシステムに組み込んで使用することも可能である。

次に、音声識別装置１の構成について説明する。図２は、本実施の形態における音声識別装置１の構成を示す図である。音声識別装置１は、図２に示すように、操作部１１、入力部１２、帯域抽出部１３、記憶部１４、個人識別部１５、生音声検出部１６及び判定出力部１７から構成される。帯域抽出部１３、個人識別部１５、生音声検出部１６及び判定出力部１７は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）又はＭＣＵ（ＭｉｃｒｏＣｏｎｔｒｏｌＵｎｉｔ）等の演算処理部を含むコンピュータにおいて、記憶部１４に記憶されている各種プログラムを読み出して実行することにより実現できる。なお、本実施の形態では、音声識別装置１として各部を一体的に説明するが、音声識別装置１に含まれる各部を別個に構成し、通信技術を駆使して必要な制御信号等を通信するようにしてもよい。なお、これに限らず、その他の筐体構成を採用してもよい。

操作部１１は、ユーザが自身を特定するためのＩＤを入力するために用いられる。入力されたＩＤは、入力部１２において当該ＩＤを入力したユーザが発声した音響信号と関連付けられて帯域抽出部１３に入力される。ＩＤは、音声識別装置１の各部の処理に利用される。操作部１１におけるＩＤの入力方法は、どのような方法でもよい。例えば、ＩＤが数字の組み合わせである場合にはテンキーを用いて入力する方法を採用することができる。また、ＩＣタグや音声によるＩＤの入力を採用してもよい。また、指紋や顔画像の入力によってＩＤを特定してもよい。

入力部１２は、音響信号を装置に入力するために用いられる。入力部１２は、可聴帯域から超音波帯域までの広帯域（例えば、１００Ｈｚ〜４８ｋＨｚ）の音響信号を取得可能である。入力部１２は、例えば、広帯域マイク、増幅器（アンプ）及びＡ／Ｄ変換器を含んで構成される。入力部１２は、音響信号を入力した後に背景雑音等のノイズを除去する処理や距離減衰を考慮したプリエンファシス処理などを行うようにしてもよい。入力部１２は、入力された音響信号をデジタル化し、操作部１１から取得したＩＤに関連付けて帯域抽出部１３に出力する。

なお、本実施の形態では、入力部１２は、可聴帯域から超音波帯域までの広帯域の音響信号を取得可能な広帯域マイクを含むものとしたが、これに限らない。例えば、入力部１２として、超音波帯域の信号（例えば、２０ｋＨｚ〜４８ｋＨｚ）を取得する超音波マイクと、可聴帯域の信号（例えば、１００Ｈｚ〜２０ｋＨｚ）を取得する可聴帯域マイクを併用する構成としてもよい。

帯域抽出部１３は、入力部１２により入力されデジタル化された音響信号について、可聴帯域の信号と超音波帯域の信号を抽出する。超音波帯域は、一般的に２０ｋＨｚ以上の周波数帯域を意味するが、本実施の形態では、後述の方法によって生音声と機械による再生音声とを分別するために用いることができる周波数帯域以上を意味するものとする。具体的には、超音波帯域は１５ｋＨｚ以上の周波数帯域を含む場合がある。また、ユーザ毎の生音声と再生音声の分別のし易さを考慮して、超音波帯域を何ｋＨｚ以上と定義するかをユーザ毎に設定するようにしてもよい。また、可聴帯域は、超音波帯域未満の周波数帯域を意味するものとする。

本実施の形態では、帯域抽出部１３は、音響信号を周波数解析し、１００Ｈｚ以上２０ｋＨｚ未満の可聴帯域の信号と２０ｋＨｚ以上４８ｋＨｚ未満の超音波帯域の信号とを分割して抽出する。そして、帯域抽出部１３は、可聴帯域の信号を個人識別部１５に出力し、超音波帯域の信号を生音声検出部１６に出力する。

記憶部１４は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の半導体メモリ、ハードディスク等のメモリ装置で構成される。記憶部１４は、音声識別装置１の各部からアクセス可能である。記憶部１４は、音声識別装置１の各部で実行されるソフトウェア及び各種プログラム等を記憶する。

さらに、記憶部１４は、後述する個人識別部１５で使用される照合用可聴特徴１４１を記憶する。照合用可聴特徴１４１は、可聴帯域における個人を識別可能な特徴量であり、ユーザ毎に対応付けて予め記憶部１４に記憶される。本実施の形態では、照合用可聴特徴１４１として可聴帯域のスペクトル包絡情報を採用し、当該スペクトル包絡情報をユーザの名前とＩＤに対応付けて記憶させる。具体的には、予め、認証の際に用いるキーワードをユーザに発声させ、その音響信号から可聴帯域のスペクトル包絡情報を抽出し、当該ユーザに対応付けて記憶させる。なお、スペクトル包絡情報は、ある瞬間において音響信号に含まれている周波数成分の分布の概形のことであり、メル周波数ケプストラム係数（ＭＦＣＣ）等から求めることができる。

また、記憶部１４は、後述する生音声検出部１６で使用される照合用超音波特徴１４２を記憶する。照合用超音波特徴１４２は、超音波帯域における生音声と再生音声とを識別可能な特徴量である。本実施の形態では、照合用超音波特徴１４２として超音波帯域の信号強度（レベル）の時間的推移パターンを採用し、当該時間的推移パターンをユーザのＩＤと対応付けて記憶させる。具体的には、予め、認証の際に用いるキーワードをユーザに発声させ、広帯域マイクを用いて取得した音響信号から超音波帯域の信号強度の時間的推移パターンを求め、当該ユーザのＩＤに対応付けて記憶させる。

個人識別部１５は、帯域抽出部１３から受けた可聴帯域の信号に基づいて入力部１２から入力された音声の個人を識別する処理を行う。具体的には、個人識別部１５は、可聴帯域の信号から個人を識別可能な特徴（可聴帯域特徴）を抽出し、抽出した可聴帯域特徴と記憶部１４に記憶した照合用可聴特徴１４１とを照合し、その類似度に基づいて個人を識別する。

本実施の形態では、個人識別部１５は、可聴帯域特徴として、入力した可聴帯域の信号から可聴帯域のスペクトル包絡情報を抽出する。スペクトル包絡情報は、メル周波数ケプストラム係数（ＭＦＣＣ）等から求めることができる。ここで、スペクトル包絡情報は、記憶部１４に照合用可聴特徴１４１として記憶されている可聴帯域のスペクトル包絡情報と同様の方法で求められる。個人識別部１５は、処理対象となっている音響信号に関連付けられているＩＤを用いて、記憶部１４からそのＩＤに関連付けられて記憶されている可聴帯域のスペクトル包絡情報を読み出す。個人識別部１５は、抽出された可聴帯域のスペクトル包絡情報とＩＤに基づいて記憶部１４から読み出した可聴帯域のスペクトル包絡情報とを照合し、これらの信号間の類似度を算出する。類似度は、例えば、ＨＭＭによる尤度から求めればよい。その場合、記憶部１４に記憶されている照合用可聴特徴１４１を予め機械学習しておけばよい。個人識別部１５は、求めた類似度が所定以上（例えば、対数尤度が登録時の尤度−３以上）となった場合に、入力された音響信号の発声者がＩＤに関連付けて登録されている人物であると判定する。

図３は、本実施の形態における個人識別処理を説明するための図である。図３は、認証に用いるキーワードに「あ」という音声が含まれているとした場合の「あ」を発声したときの可聴帯域のスペクトル包絡である。可聴帯域のスペクトル包絡５と可聴帯域のスペクトル包絡６はそれぞれ別の人物が入力部１２から入力した音響信号から抽出した信号である。なお、操作部１１から入力されたＩＤはいずれの場合も同じであったとする。

まず、入力部１２に対してキーワードを発声した人物と操作部１１から入力されたＩＤで特定される人物とが一致しない場合について説明する。個人識別部１５は、操作部１１から入力されたＩＤに関連付けられて登録されている可聴帯域の照合用可聴特徴（スペクトル包絡）１４１を記憶部１４から読み出す。そして、個人識別部１５は、図３（ａ）に示すように、入力部１２から入力された音響信号の可聴帯域のスペクトル包絡５と記憶部１４から読み出された可聴帯域の照合用可聴特徴（スペクトル包絡）１４１とを照合する。図３（ａ）に示すように、同じ語（「あ」）を発声しても、発声した人物とＩＤで特定される人物とが別人である場合、可聴帯域の照合用可聴特徴（スペクトル包絡）１４１と可聴帯域のスペクトル包絡５との差が大きいため、音声全体（キーワード全体）から求めた類似度は低くなる。よって、発声した人物は、ＩＤで特定される人物ではないと判定される。

一方、入力部１２に対してキーワードを発声した人物と操作部１１から入力されたＩＤで特定される人物とが一致する場合、図３（ｂ）に示すように、入力された音響信号の可聴帯域のスペクトル包絡６と可聴帯域の照合用可聴特徴（スペクトル包絡）１４１とが照合される。図３（ｂ）に示すように、発声した人物とＩＤで特定される人物とが同一である場合、同じ語（「あ」）を発声したときの可聴帯域のスペクトル包絡６と可聴帯域の照合用可聴特徴（スペクトル包絡）１４１との差は小さいため、音声全体（キーワード全体）から求めた類似度は高くなる。よって、発声した人物は、ＩＤで特定される人物であると判定される。

このように、個人識別部１５は、広帯域マイクで入力した音響信号のうち個人識別に適している可聴帯域の信号を用いて個人識別を行うことで高い確度で個人を識別できる。個人を識別するための特徴量として一般的に高次のスペクトル包絡情報やフォルマント周波数などの声道によって決定される情報を用いることができるが、声道の共振周波数は、可聴帯域など比較的低い周波数に存在するため可聴帯域は個人識別に適している。

なお、本実施の形態では、個人識別部１５は、可聴帯域のスペクトル包絡情報を用いて個人を識別したが、これに限らない。例えば、個人識別部１５は、フォルマント周波数を用いて個人識別を行ってもよい。フォルマント周波数は、個人毎に異なる喉や口の形状の共振特性から決まるので、入力された音声信号から抽出されたフォルマント周波数を予め記憶部１４に記憶しておいた個人毎のフォルマント周波数と照合することで個人識別が可能となる。具体的な照合方法としては、まず、個人識別部１５は、可聴帯域の信号から可聴帯域特徴としてフォルマント周波数を抽出し、キーワードを発声したときのフォルマント周波数の時間的推移パターンを抽出する。また、個人識別部１５は、入力されたＩＤに関連付けられているフォルマント周波数の時間的推移パターンを記憶部１４から読み出す。そして、個人識別部１５は、抽出されたフォルマント周波数の時間的推移パターンと、記憶部１４から読み出されたフォルマント周波数の時間的推移パターンとの類似度に応じて音響信号を入力した発声者を特定する。この場合、ユーザ毎のフォルマント周波数の推移パターンを照合用可聴特徴１４１としてユーザのＩＤに対応付けて記憶部１４に予め記憶しておけばよい。

また、本実施の形態では、個人識別部１５は、帯域抽出部１３にて抽出した可聴帯域の信号を用いて個人を識別するものとしたが、これに限らない。例えば、個人識別部１５は、入力部１２から入力された音響信号の可聴帯域以外からも個人を識別可能な特徴を抽出し、個人を識別するようにしてもよい。この場合、記憶部１４は、可聴帯域以外の帯域を含んだユーザの発話音声から個人を識別可能な特徴を抽出し、照合用の特徴として予め記憶しておけばよい。

また、本実施の形態では、個人識別部１５は、ユーザが入力したＩＤに対応する照合用可聴特徴１４１と入力された可聴帯域信号から抽出された可聴帯域特徴との類似度を求めたが、これに限らない。例えば、個人識別部１５は、可聴帯域信号から抽出された可聴帯域特徴と記憶部１４に記憶されている照合用可聴特徴１４１の全てについて類似度を求めてもよい。この場合、個人識別部１５は、求めた類似度が最も高い照合用可聴特徴１４１に関連付けられた人物が入力部１２に入力された音声を発声した人物であると判定する。なお、この場合、操作部１１を設けなくてもよい。

生音声検出部１６は、帯域抽出部１３から受けた超音波帯域の信号に基づいて入力部１２から入力された音声が生音声か機械による再生音声かを識別する処理を行う。具体的には、生音声検出部１６は、超音波帯域の信号から生音声か再生音声かを識別可能な特徴（超音波特徴）を抽出し、抽出した超音波特徴に基づいて入力部１２で入力した音響信号が生音声か再生音声かを判定する。

本実施の形態では、生音声検出部１６は、超音波帯域の信号から超音波特徴として超音波帯域の信号強度の時間的推移パターンを抽出する。また、生音声検出部１６は、処理対象となっている音響信号に関連付けられているＩＤを用いて、記憶部１４からそのＩＤに関連付けられて記憶されている超音波帯域の信号強度の時間的推移パターンを読み出す。そして、生音声検出部１６は、抽出した超音波帯域の信号強度の時間的推移パターンと、記憶部１４から読み出された超音波帯域の信号強度の時間的推移パターンを照合し、これら信号間の類似度を算出する。類似度は、例えば、ＨＭＭによる尤度から求めればよい。その場合、記憶部１４に記憶されている照合用超音波特徴１４２を予め機械学習しておけばよい。生音声検出部１６は、求めた類似度が所定以上（例えば、対数尤度が登録時の尤度−３以上）となった場合に、入力された音響信号が生音声であると判定する。ここでの基準値は、生音声か再生音声かを識別できる値を経験的に求めたものでよい。

図４は、本実施の形態における生音声検出処理を説明するための図である。図４は、認証に用いるキーワードが「あかさたな」である場合の「あかさたな」を発声したときの超音波帯域の信号強度の時間的推移パターンである。

生音声検出部１６は、入力部１２から入力した音響信号のＩＤに対応する照合用超音波特徴（超音波帯域の信号強度の時間的推移パターン）１４２を記憶部１４から読み出す。図４（ａ）は、読み出した超音波帯域の信号強度の時間的推移パターン１４２を示した図である。また、図４（ｂ）及び図４（ｃ）は、入力部１２から入力された音響信号から求めた超音波帯域の信号強度の時間的推移パターンを示した図であり、それぞれ別の入力によるものである。なお、操作部１１から入力されたＩＤはいずれの場合も同じであったとする。

まず、入力部１２から入力したキーワードの音声が生音声、すなわち入力部１２に対してユーザが直接発声した音響信号である場合について説明する。この場合、図４（ｂ）に示すように、時間的推移パターン７と照合用超音波特徴（時間的推移パターン）１４２とが類似する。したがって、生音声検出部１６は、時間的推移パターン７を抽出した音響信号は生音声であると判定する。一方、入力部１２から入力したキーワードの音声が生音声でない場合、図４（ｃ）に示すように、時間的推移パターン８と照合用超音波特徴（時間的推移パターン）１４２とが類似しない。したがって、生音声検出部１６は、時間的推移パターン８を抽出した音響信号は生音声ではなく、録音した音声を再生して入力部１２から入力した再生音声であると判定する。

ここで、生音声検出部１６は、広帯域マイクで入力した音響信号のうち超音波帯域の信号を用いて生音声か再生音声かを判定することで高い確度で生音声を検出できる。図５は、人間の生音声と機械による再生音声の周波数スペクトルを比較した図であるが、人間の生音声には、図５の実線９で示すように、可聴帯域だけでなく、発声によって生じる超音波帯域の成分が含まれている。これに対して、一般的な録音機や再生機では、可聴帯域から超音波帯域までの広帯域にわたって音声の信号を再現することが困難であり、周波数特性が制限される。一般的な録音機や再生機では、主に可聴帯域において高い再現性が求められるので、図５の破線１０で示すように、超音波帯域の信号は減衰したり歪んだりし易くなる。したがって、一般的な録音機や再生機において再生された再生音声では、超音波帯域の信号が正確に再現されない。このため、生音声と再生音声とでは超音波帯域において明確な信号の差を生じる。

また、発声によって生じる超音波帯域の成分は、１つの発声中、一定の信号強度で生じるものではなく、母音や子音の種類によって検出される信号強度が変動する。すなわち、ユーザが発声したキーワードの内容によって信号の時間的な変動の仕方が異なる。したがって、本実施の形態のように、超音波帯域の信号強度の時間的推移パターンを用いて生音声か再生音声かを判定することで、入力部１２から音響信号を入力する際に録音機や再生機による再生音声に加えて超音波の信号を重畳させて入力した場合であっても誤って生音声であると判定されることを防ぐことができる。

なお、本実施の形態では、生音声検出部１６は、超音波帯域の信号強度の時間的推移パターンを用いて生音声か再生音声かを識別したが、これに限らない。例えば、生音声検出部１６は、超音波特徴として超音波帯域の信号強度を抽出し、超音波帯域の信号強度が所定基準値以上（例えば、暗騒音の超音波帯域の信号強度よりも２ｄＢ以上）であるか否かによって入力された音響信号に超音波成分が含まれるか否かを判定し、超音波帯域の信号強度が所定以上であれば生音声であり、そうでなければ再生音声であると判定してもよい。このとき、信号強度を判定する際の所定基準値を、入力部１２から入力された音響信号の可聴帯域の信号強度に応じて設定するようにしてもよい。例えば、可聴帯域の信号強度が低くなるほど超音波帯域の信号強度も低くなる傾向を示すので信号強度を判定する際の所定基準値もより低く設定することが好適である。なお、信号強度に基づいて判定を行う場合、照合用超音波特徴１４２を記憶しなくてもよい。

また、生音声検出部１６は、超音波帯域のスペクトル包絡情報を用いて、生音声か再生音声かを判定するようにしてもよい。この場合、ユーザが発声したキーワードの音響信号の超音波帯域のスペクトル包絡情報を個人ＩＤに対応付けて照合用超音波特徴１４２として記憶部１４に予め記憶しておき、帯域抽出部１３から入力された超音波帯域の信号から抽出した超音波帯域のスペクトル包絡情報との類似度を算出し、類似度が所定基準値以上である場合に生音声と判定すればよい。このとき、所定基準値は、生音声か再生音声かを識別できる程度であればよいため、前述した可聴帯域のスペクトル包絡情報に基づいて個人を特定するときに用いられる基準値よりも低い値にしてもよい。このように、照合用超音波特徴１４２は、生音声検出部１６で生音声か再生音声かの判定に用いる超音波特徴に応じて記憶すればよい。

また、本実施の形態では、生音声検出部１６においてユーザが入力したＩＤに対応する照合用超音波特徴１４２と入力された音響信号の超音波帯域の信号から抽出された超音波特徴との類似度を求めたが、これに限らない。例えば、ユーザ間で共通の超音波帯域の信号強度の時間的推移パターンを照合用超音波特徴１４２として予め記憶しておき、生音声検出部１６は、この時間的推移パターンと超音波帯域の信号から抽出された超音波特徴との類似度を求めてもよい。ユーザ間で共通の超音波帯域の信号強度の時間的推移パターンは、認証の際に用いるユーザ間で共通のキーワードをユーザが発声したときの音響信号を広帯域マイクを用いて取得し、当該音響信号から超音波帯域の信号強度の時間的推移パターンを抽出して照合用超音波特徴１４２として記憶部１４に記憶させればよい。この場合、操作部１１を設けなくてもよい。

また、ＩＤを用いない、別の判定方法として、生音声検出部１６は、超音波帯域信号から抽出された超音波帯域特徴と記憶部１４に記憶されている照合用超音波特徴１４２の全てについて類似度を求めてもよい。この場合、生音声検出部１６は、求めた類似度のうち類似度が所定基準値以上となるものがあれば入力された音響信号は生音声であると判定し、そうでなければ再生音声と判定する。なお、この場合も操作部１１を設けなくてもよい。

また、本実施の形態では、照合用可聴特徴や照合用超音波特徴との類似度の計算においてＨＭＭの尤度を用いたがこれに限らない。例えば、ＤＰマッチングの類似度を用いてもよい。また、本実施の形態では、スペクトル包絡情報は、メル周波数ケプストラム係数（ＭＦＣＣ）から求めたがこれに限らない。例えば、スペクトル包絡情報は、ＬＰＣ分析やケプストラム分析を用いて求めてもよい。また、スペクトル包絡情報の分析次数を可聴帯域と超音波帯域とで変えてもよい。

判定出力部１７は、個人識別部１５及び生音声検出部１６からそれぞれの判定結果を受けて、判定結果に基づいて入力部１２で入力された音響信号の個人が特定されたか否かの結果を示す信号を出力する。

判定出力部１７は、個人識別部１５にて個人が特定され、かつ生音声検出部１６にて生音声と判定された場合に入力部１２に入力された音響信号の個人が特定された旨の信号を外部に出力する。個人が特定された旨の信号は、例えば、個人識別部１５にて特定されたユーザの名前やＩＤとする。図１に示した出入管理システムを例に説明すると、特定されたユーザの名前やＩＤは出入管理装置２に出力され、出入管理装置２は、その名前又はＩＤを出入管理データベース３内のデータと照合し、重要エリアに入る権限を有するユーザと一致すれば入口の電気錠４を解錠する。

一方、判定出力部１７は、個人識別部１５にて個人が特定されなかった（ＩＤに対応する人物でないと判定された）、又は、生音声検出部１６にて再生音声と判定された場合には何も出力しない。又は、判定出力部１７は、入力部１２で入力された音響信号の個人が特定されなかった旨の信号を外部に出力してもよい。例えば、判定出力部１７は、認証できなかった旨をモニタ（図示しない）に報知するようにしてもよい。また、判定出力部１７は、生音声検出部１６にて再生音声と判定された場合は、外部の監視センタにその旨を出力するようにしてもよい。

＜音声識別処理＞
次に、図６のフローチャートを参照して、本実施の形態の音声識別装置１において実行される音声識別処理の流れを説明する。

ステップＳ１では、操作部１１を用いて入力されたＩＤ及び入力部１２を用いて入力された音響信号を取得すると音声識別処理が開始される。ここで、入力部１２は、入力された音響信号とＩＤとを関連付けて帯域抽出部１３に出力する。

ステップＳ２では、帯域抽出部１３は、入力された音響信号から可聴帯域の信号と超音波帯域の信号をそれぞれ抽出する。そして、帯域抽出部１３は、可聴帯域の信号を個人識別部１５に出力し、超音波帯域の信号を生音声検出部１６に出力する。

ステップＳ３では、個人識別部１５は、入力された可聴帯域の信号について個人識別を行う。個人識別部１５は、音響信号に関連付けられて入力されたＩＤに対応する照合用可聴特徴１４１、すなわち可聴帯域のスペクトル包絡情報を記憶部１４から読み出す。また、個人識別部１５は、入力された可聴帯域の信号からスペクトル包絡情報を抽出する。そして、個人識別部１５は、記憶部１４から読み出された可聴帯域のスペクトル包絡情報と入力された可聴帯域の信号から抽出された可聴帯域のスペクトル包絡情報との類似度を算出する。

ステップＳ４では、個人識別部１５は、算出された類似度が所定基準値以上であるか否かを判定する。個人識別部１５は、類似度が所定基準値以上であれば、入力部１２に入力された音声の発声者が音声識別装置１にＩＤに関連付けて登録されている人物と一致すると判定してステップＳ５へ処理を移行させる。一方、個人識別部１５は、類似度が所定基準値未満であれば、入力部１２に入力された音声の発声者が音声識別装置１にＩＤに関連付けて登録されている人物と一致しないと判定してステップＳ８へ処理を移行させ、音声識別処理を終了させる。

ステップＳ５では、生音声検出部１６は、入力された超音波帯域の信号を用いて入力部１２で入力された音響信号が生音声であるか再生音声であるかを判定する。生音声検出部１６は、音響信号に関連付けられて入力されたＩＤに対応する照合用超音波特徴１４２、すなわち超音波帯域の信号強度の時間的推移パターンを記憶部１４から読み出す。また、生音声検出部１６は、入力された超音波帯域の信号から超音波帯域の信号強度の時間的推移パターンを抽出する。そして、記憶部１４から読み出された超音波帯域の信号強度の時間的推移パターンと入力された超音波帯域の信号から抽出された超音波帯域の信号強度の時間的推移パターンとの類似度を算出する。

ステップＳ６では、生音声検出部１６は、算出された類似度が所定基準値以上であるか否かを判定する。生音声検出部１６は、類似度が所定基準値以上であれば、入力部１２にて入力された音響信号は生音声であると判定してステップＳ７へ処理を移行させる。また、生音声検出部１６は、類似度が所定基準値以下であれば、入力部１２にて入力された音響信号は再生音声であると判定してステップＳ８へ処理を移行させ、音声識別処理を終了させる。

ステップＳ７では、判定出力部１７は、入力部１２を用いて入力された音響信号の発声者はその音響信号に関連付けられたＩＤに対応する登録済みの人物である旨を示す信号を出力する。その後、判定出力部１７は、ステップＳ８へ処理を移行させ、音声識別処理を終了させる。

１音声識別装置、２出入管理装置、３出入管理データベース、４電気錠、５，６スペクトル包絡信号、７，８時間的推移パターン、９実線、１０破線、１１操作部、１２入力部、１３帯域抽出部、１４記憶部、１５個人識別部、１６生音声検出部、１７判定出力部、１４１照合用可聴特徴（スペクトル包絡）、１４２照合用超音波特徴（時間的推移パターン）。

Claims

可聴帯域及び超音波帯域を含む音響信号を入力する入力部と、
前記入力部から入力された音響信号から個人を識別する個人識別部と、
前記入力部から入力された音響信号から超音波帯域の信号を抽出する帯域抽出部と、
前記抽出された超音波帯域の信号を用いて、前記入力部から入力された音響信号が前記入力部に生で入力された生音声であるか否かを判定する生音声検出部と、
を備える音声識別装置。
請求項１に記載の音声識別装置であって、
音響信号の可聴帯域において個人を識別するための特徴量を個人に対応付けて記憶する記憶部を備え、
前記帯域抽出部は、前記入力部から入力された音響信号から可聴帯域の信号を抽出し、
前記個人識別部は、前記抽出された可聴帯域の信号から抽出された個人を識別するための特徴量と、前記記憶部に記憶された特徴量とを照合することによって個人を識別する音声識別装置。
請求項２に記載の音声識別装置であって、
前記生音声検出部において生音声と判定され、かつ前記個人識別部において個人が特定された場合に、前記入力部から入力された音響信号に対応する個人を特定した識別結果を出力する出力部を備える音声識別装置。
請求項１〜３のいずれか１項に記載の音声識別装置であって、
前記生音声検出部は、前記抽出された超音波帯域の信号の信号強度が所定基準値以上であれば前記入力部から入力された音響信号が生音声であると判定する音声識別装置。
請求項１〜３のいずれか１項に記載の音声識別装置であって、
音響信号における超音波帯域の信号の信号強度の時間的推移パターンを記憶する記憶部を備え、
前記生音声検出部は、前記抽出された超音波帯域の信号の信号強度の時間的推移パターンと前記記憶された時間的推移パターンの類似度が所定基準値以上であれば前記入力部から入力された音響信号が生音声であると判定する音声識別装置。