JP6220304B2 - 音声識別装置 - Google Patents

音声識別装置 Download PDF

Info

Publication number
JP6220304B2
JP6220304B2 JP2014067421A JP2014067421A JP6220304B2 JP 6220304 B2 JP6220304 B2 JP 6220304B2 JP 2014067421 A JP2014067421 A JP 2014067421A JP 2014067421 A JP2014067421 A JP 2014067421A JP 6220304 B2 JP6220304 B2 JP 6220304B2
Authority
JP
Japan
Prior art keywords
unit
input
voice
band
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014067421A
Other languages
English (en)
Other versions
JP2015191076A (ja
Inventor
鈴木 良平
良平 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2014067421A priority Critical patent/JP6220304B2/ja
Publication of JP2015191076A publication Critical patent/JP2015191076A/ja
Application granted granted Critical
Publication of JP6220304B2 publication Critical patent/JP6220304B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)

Description

本発明は、入力された音声について個人を識別する音声識別装置に関する。
入力された音声に基づいて個人の認証を行う音声識別装置が知られている。その際、正当なユーザが発声した音声を秘かに録音しておき、その録音した音声を再生機のスピーカから再生することで、正当なユーザになりすまして認証を行う可能性があった。このため、従来から、入力音声が生音声であるか再生音声であるかを高精度に判定することが求められている。
生音声か再生音声かを判定する技術として、特許文献1には、生音声と再生音声の位相情報の違いに着目し、入力音声が生音声であるか再生音声であるかを判定することが記載されている。
特開2001−109494号公報
しかしながら、再生音声を用いたなりすまし行為を確実に排除するためには、さらに、多様な対策を講じる必要がある。発明者は、実験によって、生音声と再生音声を識別するために有効な特徴が入力音声の超音波帯域に表れることを新たに発見した。
そこで、本発明は、超音波帯域における違いに着目して、再生音声を用いたなりすまし行為を排除することを目的とする。
本発明の1つの態様は、可聴帯域及び超音波帯域を含む音響信号を入力する入力部と、前記入力部から入力された音響信号から個人を識別する個人識別部と、前記入力部から入力された音響信号から超音波帯域の信号を抽出する帯域抽出部と、前記抽出された超音波帯域の信号を用いて、前記入力部から入力された音響信号が前記入力部に生で入力された生音声であるか否かを判定する生音声検出部と、を備える音声識別装置である。
ここで、音響信号の可聴帯域において個人を識別するための特徴量を個人に対応付けて記憶する記憶部を備え、前記帯域抽出部は、前記入力部から入力された音響信号から可聴帯域の信号を抽出し、前記個人識別部は、前記抽出された可聴帯域の信号から抽出された個人を識別するための特徴量と、前記記憶部に記憶された特徴量とを照合することによって個人を識別することが好適である。
また、前記生音声検出部において生音声と判定され、かつ前記個人識別部において個人が特定された場合に、前記入力部から入力された音響信号に対応する個人を特定した識別結果を出力する出力部を備えることが好適である。
また、前記生音声検出部は、前記抽出された超音波帯域の信号の信号強度が所定基準値以上であれば前記入力部から入力された音響信号が生音声であると判定することが好適である。
また、音響信号における超音波帯域の信号の信号強度の時間的推移パターンを記憶する記憶部を備え、前記生音声検出部は、前記抽出された超音波帯域の信号の信号強度の時間的推移パターンと前記記憶された時間的推移パターンの類似度が所定基準値以上であれば前記入力部から入力された音響信号が生音声であると判定することが好適である。
本発明によれば、再生音声によるなりすまし行為を防止しつつ、入力音声から個人を識別できる。
本発明の実施の形態における音声識別装置を組み込んだ出入管理システムの構成を示す図である。 本発明の実施の形態における音声識別装置の構成を示す図である。 本発明の実施形態における可聴帯域におけるスペクトル包絡を用いた個人識別処理を説明する図である。 本発明の実施の形態における超音波帯域の信号強度の時間的推移パターンを用いた生音声識別処理を説明する図である。 人間の生音声と機械による再生音声の周波数スペクトルの例を示す図である。 本発明の実施の形態における音声識別処理のフローチャートである。
<音声識別装置の構成>
本発明の実施の形態における音声識別装置1は、音声によって個人の認証を行うシステム等に適用されて用いられる。具体的には、音声識別装置1は、重要エリアへの出入管理を行うシステムに組み込んで用いることができる。図1は、本発明の実施形態における音声識別装置1を組み込んだ出入管理システムの構成を示す図である。まず、ユーザは、重要エリアの入口に設けられた音声識別装置1に対して、IDを入力し、その後、予め設定したキーワードを発声する。音声識別装置1は、入力された音響信号に基づいて、キーワードを発声したのがIDに対応するユーザ本人であるか否かを識別する。音声識別装置1は、識別結果を出入管理装置2に出力する。出入管理装置2は、識別結果と出入管理データベース3を照合し、重要エリアに入る権限を有するユーザ本人であれば、入口の電気錠4を解錠する。また、入力された音響信号が重要エリアに入る権限を有しないユーザであれば、入口の電気錠4を解錠しない。
なお、音声識別装置1は、出入管理システム以外のシステムに組み込んで使用することも可能である。
次に、音声識別装置1の構成について説明する。図2は、本実施の形態における音声識別装置1の構成を示す図である。音声識別装置1は、図2に示すように、操作部11、入力部12、帯域抽出部13、記憶部14、個人識別部15、生音声検出部16及び判定出力部17から構成される。帯域抽出部13、個人識別部15、生音声検出部16及び判定出力部17は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)又はMCU(Micro Control Unit)等の演算処理部を含むコンピュータにおいて、記憶部14に記憶されている各種プログラムを読み出して実行することにより実現できる。なお、本実施の形態では、音声識別装置1として各部を一体的に説明するが、音声識別装置1に含まれる各部を別個に構成し、通信技術を駆使して必要な制御信号等を通信するようにしてもよい。なお、これに限らず、その他の筐体構成を採用してもよい。
操作部11は、ユーザが自身を特定するためのIDを入力するために用いられる。入力されたIDは、入力部12において当該IDを入力したユーザが発声した音響信号と関連付けられて帯域抽出部13に入力される。IDは、音声識別装置1の各部の処理に利用される。操作部11におけるIDの入力方法は、どのような方法でもよい。例えば、IDが数字の組み合わせである場合にはテンキーを用いて入力する方法を採用することができる。また、ICタグや音声によるIDの入力を採用してもよい。また、指紋や顔画像の入力によってIDを特定してもよい。
入力部12は、音響信号を装置に入力するために用いられる。入力部12は、可聴帯域から超音波帯域までの広帯域(例えば、100Hz〜48kHz)の音響信号を取得可能である。入力部12は、例えば、広帯域マイク、増幅器(アンプ)及びA/D変換器を含んで構成される。入力部12は、音響信号を入力した後に背景雑音等のノイズを除去する処理や距離減衰を考慮したプリエンファシス処理などを行うようにしてもよい。入力部12は、入力された音響信号をデジタル化し、操作部11から取得したIDに関連付けて帯域抽出部13に出力する。
なお、本実施の形態では、入力部12は、可聴帯域から超音波帯域までの広帯域の音響信号を取得可能な広帯域マイクを含むものとしたが、これに限らない。例えば、入力部12として、超音波帯域の信号(例えば、20kHz〜48kHz)を取得する超音波マイクと、可聴帯域の信号(例えば、100Hz〜20kHz)を取得する可聴帯域マイクを併用する構成としてもよい。
帯域抽出部13は、入力部12により入力されデジタル化された音響信号について、可聴帯域の信号と超音波帯域の信号を抽出する。超音波帯域は、一般的に20kHz以上の周波数帯域を意味するが、本実施の形態では、後述の方法によって生音声と機械による再生音声とを分別するために用いることができる周波数帯域以上を意味するものとする。具体的には、超音波帯域は15kHz以上の周波数帯域を含む場合がある。また、ユーザ毎の生音声と再生音声の分別のし易さを考慮して、超音波帯域を何kHz以上と定義するかをユーザ毎に設定するようにしてもよい。また、可聴帯域は、超音波帯域未満の周波数帯域を意味するものとする。
本実施の形態では、帯域抽出部13は、音響信号を周波数解析し、100Hz以上20kHz未満の可聴帯域の信号と20kHz以上48kHz未満の超音波帯域の信号とを分割して抽出する。そして、帯域抽出部13は、可聴帯域の信号を個人識別部15に出力し、超音波帯域の信号を生音声検出部16に出力する。
記憶部14は、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリ、ハードディスク等のメモリ装置で構成される。記憶部14は、音声識別装置1の各部からアクセス可能である。記憶部14は、音声識別装置1の各部で実行されるソフトウェア及び各種プログラム等を記憶する。
さらに、記憶部14は、後述する個人識別部15で使用される照合用可聴特徴141を記憶する。照合用可聴特徴141は、可聴帯域における個人を識別可能な特徴量であり、ユーザ毎に対応付けて予め記憶部14に記憶される。本実施の形態では、照合用可聴特徴141として可聴帯域のスペクトル包絡情報を採用し、当該スペクトル包絡情報をユーザの名前とIDに対応付けて記憶させる。具体的には、予め、認証の際に用いるキーワードをユーザに発声させ、その音響信号から可聴帯域のスペクトル包絡情報を抽出し、当該ユーザに対応付けて記憶させる。なお、スペクトル包絡情報は、ある瞬間において音響信号に含まれている周波数成分の分布の概形のことであり、メル周波数ケプストラム係数(MFCC)等から求めることができる。
また、記憶部14は、後述する生音声検出部16で使用される照合用超音波特徴142を記憶する。照合用超音波特徴142は、超音波帯域における生音声と再生音声とを識別可能な特徴量である。本実施の形態では、照合用超音波特徴142として超音波帯域の信号強度(レベル)の時間的推移パターンを採用し、当該時間的推移パターンをユーザのIDと対応付けて記憶させる。具体的には、予め、認証の際に用いるキーワードをユーザに発声させ、広帯域マイクを用いて取得した音響信号から超音波帯域の信号強度の時間的推移パターンを求め、当該ユーザのIDに対応付けて記憶させる。
個人識別部15は、帯域抽出部13から受けた可聴帯域の信号に基づいて入力部12から入力された音声の個人を識別する処理を行う。具体的には、個人識別部15は、可聴帯域の信号から個人を識別可能な特徴(可聴帯域特徴)を抽出し、抽出した可聴帯域特徴と記憶部14に記憶した照合用可聴特徴141とを照合し、その類似度に基づいて個人を識別する。
本実施の形態では、個人識別部15は、可聴帯域特徴として、入力した可聴帯域の信号から可聴帯域のスペクトル包絡情報を抽出する。スペクトル包絡情報は、メル周波数ケプストラム係数(MFCC)等から求めることができる。ここで、スペクトル包絡情報は、記憶部14に照合用可聴特徴141として記憶されている可聴帯域のスペクトル包絡情報と同様の方法で求められる。個人識別部15は、処理対象となっている音響信号に関連付けられているIDを用いて、記憶部14からそのIDに関連付けられて記憶されている可聴帯域のスペクトル包絡情報を読み出す。個人識別部15は、抽出された可聴帯域のスペクトル包絡情報とIDに基づいて記憶部14から読み出した可聴帯域のスペクトル包絡情報とを照合し、これらの信号間の類似度を算出する。類似度は、例えば、HMMによる尤度から求めればよい。その場合、記憶部14に記憶されている照合用可聴特徴141を予め機械学習しておけばよい。個人識別部15は、求めた類似度が所定以上(例えば、対数尤度が登録時の尤度−3以上)となった場合に、入力された音響信号の発声者がIDに関連付けて登録されている人物であると判定する。
図3は、本実施の形態における個人識別処理を説明するための図である。図3は、認証に用いるキーワードに「あ」という音声が含まれているとした場合の「あ」を発声したときの可聴帯域のスペクトル包絡である。可聴帯域のスペクトル包絡5と可聴帯域のスペクトル包絡6はそれぞれ別の人物が入力部12から入力した音響信号から抽出した信号である。なお、操作部11から入力されたIDはいずれの場合も同じであったとする。
まず、入力部12に対してキーワードを発声した人物と操作部11から入力されたIDで特定される人物とが一致しない場合について説明する。個人識別部15は、操作部11から入力されたIDに関連付けられて登録されている可聴帯域の照合用可聴特徴(スペクトル包絡)141を記憶部14から読み出す。そして、個人識別部15は、図3(a)に示すように、入力部12から入力された音響信号の可聴帯域のスペクトル包絡5と記憶部14から読み出された可聴帯域の照合用可聴特徴(スペクトル包絡)141とを照合する。図3(a)に示すように、同じ語(「あ」)を発声しても、発声した人物とIDで特定される人物とが別人である場合、可聴帯域の照合用可聴特徴(スペクトル包絡)141と可聴帯域のスペクトル包絡5との差が大きいため、音声全体(キーワード全体)から求めた類似度は低くなる。よって、発声した人物は、IDで特定される人物ではないと判定される。
一方、入力部12に対してキーワードを発声した人物と操作部11から入力されたIDで特定される人物とが一致する場合、図3(b)に示すように、入力された音響信号の可聴帯域のスペクトル包絡6と可聴帯域の照合用可聴特徴(スペクトル包絡)141とが照合される。図3(b)に示すように、発声した人物とIDで特定される人物とが同一である場合、同じ語(「あ」)を発声したときの可聴帯域のスペクトル包絡6と可聴帯域の照合用可聴特徴(スペクトル包絡)141との差は小さいため、音声全体(キーワード全体)から求めた類似度は高くなる。よって、発声した人物は、IDで特定される人物であると判定される。
このように、個人識別部15は、広帯域マイクで入力した音響信号のうち個人識別に適している可聴帯域の信号を用いて個人識別を行うことで高い確度で個人を識別できる。個人を識別するための特徴量として一般的に高次のスペクトル包絡情報やフォルマント周波数などの声道によって決定される情報を用いることができるが、声道の共振周波数は、可聴帯域など比較的低い周波数に存在するため可聴帯域は個人識別に適している。
なお、本実施の形態では、個人識別部15は、可聴帯域のスペクトル包絡情報を用いて個人を識別したが、これに限らない。例えば、個人識別部15は、フォルマント周波数を用いて個人識別を行ってもよい。フォルマント周波数は、個人毎に異なる喉や口の形状の共振特性から決まるので、入力された音声信号から抽出されたフォルマント周波数を予め記憶部14に記憶しておいた個人毎のフォルマント周波数と照合することで個人識別が可能となる。具体的な照合方法としては、まず、個人識別部15は、可聴帯域の信号から可聴帯域特徴としてフォルマント周波数を抽出し、キーワードを発声したときのフォルマント周波数の時間的推移パターンを抽出する。また、個人識別部15は、入力されたIDに関連付けられているフォルマント周波数の時間的推移パターンを記憶部14から読み出す。そして、個人識別部15は、抽出されたフォルマント周波数の時間的推移パターンと、記憶部14から読み出されたフォルマント周波数の時間的推移パターンとの類似度に応じて音響信号を入力した発声者を特定する。この場合、ユーザ毎のフォルマント周波数の推移パターンを照合用可聴特徴141としてユーザのIDに対応付けて記憶部14に予め記憶しておけばよい。
また、本実施の形態では、個人識別部15は、帯域抽出部13にて抽出した可聴帯域の信号を用いて個人を識別するものとしたが、これに限らない。例えば、個人識別部15は、入力部12から入力された音響信号の可聴帯域以外からも個人を識別可能な特徴を抽出し、個人を識別するようにしてもよい。この場合、記憶部14は、可聴帯域以外の帯域を含んだユーザの発話音声から個人を識別可能な特徴を抽出し、照合用の特徴として予め記憶しておけばよい。
また、本実施の形態では、個人識別部15は、ユーザが入力したIDに対応する照合用可聴特徴141と入力された可聴帯域信号から抽出された可聴帯域特徴との類似度を求めたが、これに限らない。例えば、個人識別部15は、可聴帯域信号から抽出された可聴帯域特徴と記憶部14に記憶されている照合用可聴特徴141の全てについて類似度を求めてもよい。この場合、個人識別部15は、求めた類似度が最も高い照合用可聴特徴141に関連付けられた人物が入力部12に入力された音声を発声した人物であると判定する。なお、この場合、操作部11を設けなくてもよい。
生音声検出部16は、帯域抽出部13から受けた超音波帯域の信号に基づいて入力部12から入力された音声が生音声か機械による再生音声かを識別する処理を行う。具体的には、生音声検出部16は、超音波帯域の信号から生音声か再生音声かを識別可能な特徴(超音波特徴)を抽出し、抽出した超音波特徴に基づいて入力部12で入力した音響信号が生音声か再生音声かを判定する。
本実施の形態では、生音声検出部16は、超音波帯域の信号から超音波特徴として超音波帯域の信号強度の時間的推移パターンを抽出する。また、生音声検出部16は、処理対象となっている音響信号に関連付けられているIDを用いて、記憶部14からそのIDに関連付けられて記憶されている超音波帯域の信号強度の時間的推移パターンを読み出す。そして、生音声検出部16は、抽出した超音波帯域の信号強度の時間的推移パターンと、記憶部14から読み出された超音波帯域の信号強度の時間的推移パターンを照合し、これら信号間の類似度を算出する。類似度は、例えば、HMMによる尤度から求めればよい。その場合、記憶部14に記憶されている照合用超音波特徴142を予め機械学習しておけばよい。生音声検出部16は、求めた類似度が所定以上(例えば、対数尤度が登録時の尤度−3以上)となった場合に、入力された音響信号が生音声であると判定する。ここでの基準値は、生音声か再生音声かを識別できる値を経験的に求めたものでよい。
図4は、本実施の形態における生音声検出処理を説明するための図である。図4は、認証に用いるキーワードが「あかさたな」である場合の「あかさたな」を発声したときの超音波帯域の信号強度の時間的推移パターンである。
生音声検出部16は、入力部12から入力した音響信号のIDに対応する照合用超音波特徴(超音波帯域の信号強度の時間的推移パターン)142を記憶部14から読み出す。図4(a)は、読み出した超音波帯域の信号強度の時間的推移パターン142を示した図である。また、図4(b)及び図4(c)は、入力部12から入力された音響信号から求めた超音波帯域の信号強度の時間的推移パターンを示した図であり、それぞれ別の入力によるものである。なお、操作部11から入力されたIDはいずれの場合も同じであったとする。
まず、入力部12から入力したキーワードの音声が生音声、すなわち入力部12に対してユーザが直接発声した音響信号である場合について説明する。この場合、図4(b)に示すように、時間的推移パターン7と照合用超音波特徴(時間的推移パターン)142とが類似する。したがって、生音声検出部16は、時間的推移パターン7を抽出した音響信号は生音声であると判定する。一方、入力部12から入力したキーワードの音声が生音声でない場合、図4(c)に示すように、時間的推移パターン8と照合用超音波特徴(時間的推移パターン)142とが類似しない。したがって、生音声検出部16は、時間的推移パターン8を抽出した音響信号は生音声ではなく、録音した音声を再生して入力部12から入力した再生音声であると判定する。
ここで、生音声検出部16は、広帯域マイクで入力した音響信号のうち超音波帯域の信号を用いて生音声か再生音声かを判定することで高い確度で生音声を検出できる。図5は、人間の生音声と機械による再生音声の周波数スペクトルを比較した図であるが、人間の生音声には、図5の実線9で示すように、可聴帯域だけでなく、発声によって生じる超音波帯域の成分が含まれている。これに対して、一般的な録音機や再生機では、可聴帯域から超音波帯域までの広帯域にわたって音声の信号を再現することが困難であり、周波数特性が制限される。一般的な録音機や再生機では、主に可聴帯域において高い再現性が求められるので、図5の破線10で示すように、超音波帯域の信号は減衰したり歪んだりし易くなる。したがって、一般的な録音機や再生機において再生された再生音声では、超音波帯域の信号が正確に再現されない。このため、生音声と再生音声とでは超音波帯域において明確な信号の差を生じる。
また、発声によって生じる超音波帯域の成分は、1つの発声中、一定の信号強度で生じるものではなく、母音や子音の種類によって検出される信号強度が変動する。すなわち、ユーザが発声したキーワードの内容によって信号の時間的な変動の仕方が異なる。したがって、本実施の形態のように、超音波帯域の信号強度の時間的推移パターンを用いて生音声か再生音声かを判定することで、入力部12から音響信号を入力する際に録音機や再生機による再生音声に加えて超音波の信号を重畳させて入力した場合であっても誤って生音声であると判定されることを防ぐことができる。
なお、本実施の形態では、生音声検出部16は、超音波帯域の信号強度の時間的推移パターンを用いて生音声か再生音声かを識別したが、これに限らない。例えば、生音声検出部16は、超音波特徴として超音波帯域の信号強度を抽出し、超音波帯域の信号強度が所定基準値以上(例えば、暗騒音の超音波帯域の信号強度よりも2dB以上)であるか否かによって入力された音響信号に超音波成分が含まれるか否かを判定し、超音波帯域の信号強度が所定以上であれば生音声であり、そうでなければ再生音声であると判定してもよい。このとき、信号強度を判定する際の所定基準値を、入力部12から入力された音響信号の可聴帯域の信号強度に応じて設定するようにしてもよい。例えば、可聴帯域の信号強度が低くなるほど超音波帯域の信号強度も低くなる傾向を示すので信号強度を判定する際の所定基準値もより低く設定することが好適である。なお、信号強度に基づいて判定を行う場合、照合用超音波特徴142を記憶しなくてもよい。
また、生音声検出部16は、超音波帯域のスペクトル包絡情報を用いて、生音声か再生音声かを判定するようにしてもよい。この場合、ユーザが発声したキーワードの音響信号の超音波帯域のスペクトル包絡情報を個人IDに対応付けて照合用超音波特徴142として記憶部14に予め記憶しておき、帯域抽出部13から入力された超音波帯域の信号から抽出した超音波帯域のスペクトル包絡情報との類似度を算出し、類似度が所定基準値以上である場合に生音声と判定すればよい。このとき、所定基準値は、生音声か再生音声かを識別できる程度であればよいため、前述した可聴帯域のスペクトル包絡情報に基づいて個人を特定するときに用いられる基準値よりも低い値にしてもよい。このように、照合用超音波特徴142は、生音声検出部16で生音声か再生音声かの判定に用いる超音波特徴に応じて記憶すればよい。
また、本実施の形態では、生音声検出部16においてユーザが入力したIDに対応する照合用超音波特徴142と入力された音響信号の超音波帯域の信号から抽出された超音波特徴との類似度を求めたが、これに限らない。例えば、ユーザ間で共通の超音波帯域の信号強度の時間的推移パターンを照合用超音波特徴142として予め記憶しておき、生音声検出部16は、この時間的推移パターンと超音波帯域の信号から抽出された超音波特徴との類似度を求めてもよい。ユーザ間で共通の超音波帯域の信号強度の時間的推移パターンは、認証の際に用いるユーザ間で共通のキーワードをユーザが発声したときの音響信号を広帯域マイクを用いて取得し、当該音響信号から超音波帯域の信号強度の時間的推移パターンを抽出して照合用超音波特徴142として記憶部14に記憶させればよい。この場合、操作部11を設けなくてもよい。
また、IDを用いない、別の判定方法として、生音声検出部16は、超音波帯域信号から抽出された超音波帯域特徴と記憶部14に記憶されている照合用超音波特徴142の全てについて類似度を求めてもよい。この場合、生音声検出部16は、求めた類似度のうち類似度が所定基準値以上となるものがあれば入力された音響信号は生音声であると判定し、そうでなければ再生音声と判定する。なお、この場合も操作部11を設けなくてもよい。
また、本実施の形態では、照合用可聴特徴や照合用超音波特徴との類似度の計算においてHMMの尤度を用いたがこれに限らない。例えば、DPマッチングの類似度を用いてもよい。また、本実施の形態では、スペクトル包絡情報は、メル周波数ケプストラム係数(MFCC)から求めたがこれに限らない。例えば、スペクトル包絡情報は、LPC分析やケプストラム分析を用いて求めてもよい。また、スペクトル包絡情報の分析次数を可聴帯域と超音波帯域とで変えてもよい。
判定出力部17は、個人識別部15及び生音声検出部16からそれぞれの判定結果を受けて、判定結果に基づいて入力部12で入力された音響信号の個人が特定されたか否かの結果を示す信号を出力する。
判定出力部17は、個人識別部15にて個人が特定され、かつ生音声検出部16にて生音声と判定された場合に入力部12に入力された音響信号の個人が特定された旨の信号を外部に出力する。個人が特定された旨の信号は、例えば、個人識別部15にて特定されたユーザの名前やIDとする。図1に示した出入管理システムを例に説明すると、特定されたユーザの名前やIDは出入管理装置2に出力され、出入管理装置2は、その名前又はIDを出入管理データベース3内のデータと照合し、重要エリアに入る権限を有するユーザと一致すれば入口の電気錠4を解錠する。
一方、判定出力部17は、個人識別部15にて個人が特定されなかった(IDに対応する人物でないと判定された)、又は、生音声検出部16にて再生音声と判定された場合には何も出力しない。又は、判定出力部17は、入力部12で入力された音響信号の個人が特定されなかった旨の信号を外部に出力してもよい。例えば、判定出力部17は、認証できなかった旨をモニタ(図示しない)に報知するようにしてもよい。また、判定出力部17は、生音声検出部16にて再生音声と判定された場合は、外部の監視センタにその旨を出力するようにしてもよい。
<音声識別処理>
次に、図6のフローチャートを参照して、本実施の形態の音声識別装置1において実行される音声識別処理の流れを説明する。
ステップS1では、操作部11を用いて入力されたID及び入力部12を用いて入力された音響信号を取得すると音声識別処理が開始される。ここで、入力部12は、入力された音響信号とIDとを関連付けて帯域抽出部13に出力する。
ステップS2では、帯域抽出部13は、入力された音響信号から可聴帯域の信号と超音波帯域の信号をそれぞれ抽出する。そして、帯域抽出部13は、可聴帯域の信号を個人識別部15に出力し、超音波帯域の信号を生音声検出部16に出力する。
ステップS3では、個人識別部15は、入力された可聴帯域の信号について個人識別を行う。個人識別部15は、音響信号に関連付けられて入力されたIDに対応する照合用可聴特徴141、すなわち可聴帯域のスペクトル包絡情報を記憶部14から読み出す。また、個人識別部15は、入力された可聴帯域の信号からスペクトル包絡情報を抽出する。そして、個人識別部15は、記憶部14から読み出された可聴帯域のスペクトル包絡情報と入力された可聴帯域の信号から抽出された可聴帯域のスペクトル包絡情報との類似度を算出する。
ステップS4では、個人識別部15は、算出された類似度が所定基準値以上であるか否かを判定する。個人識別部15は、類似度が所定基準値以上であれば、入力部12に入力された音声の発声者が音声識別装置1にIDに関連付けて登録されている人物と一致すると判定してステップS5へ処理を移行させる。一方、個人識別部15は、類似度が所定基準値未満であれば、入力部12に入力された音声の発声者が音声識別装置1にIDに関連付けて登録されている人物と一致しないと判定してステップS8へ処理を移行させ、音声識別処理を終了させる。
ステップS5では、生音声検出部16は、入力された超音波帯域の信号を用いて入力部12で入力された音響信号が生音声であるか再生音声であるかを判定する。生音声検出部16は、音響信号に関連付けられて入力されたIDに対応する照合用超音波特徴142、すなわち超音波帯域の信号強度の時間的推移パターンを記憶部14から読み出す。また、生音声検出部16は、入力された超音波帯域の信号から超音波帯域の信号強度の時間的推移パターンを抽出する。そして、記憶部14から読み出された超音波帯域の信号強度の時間的推移パターンと入力された超音波帯域の信号から抽出された超音波帯域の信号強度の時間的推移パターンとの類似度を算出する。
ステップS6では、生音声検出部16は、算出された類似度が所定基準値以上であるか否かを判定する。生音声検出部16は、類似度が所定基準値以上であれば、入力部12にて入力された音響信号は生音声であると判定してステップS7へ処理を移行させる。また、生音声検出部16は、類似度が所定基準値以下であれば、入力部12にて入力された音響信号は再生音声であると判定してステップS8へ処理を移行させ、音声識別処理を終了させる。
ステップS7では、判定出力部17は、入力部12を用いて入力された音響信号の発声者はその音響信号に関連付けられたIDに対応する登録済みの人物である旨を示す信号を出力する。その後、判定出力部17は、ステップS8へ処理を移行させ、音声識別処理を終了させる。
1 音声識別装置、2 出入管理装置、3 出入管理データベース、4 電気錠、5,6 スペクトル包絡信号、7,8 時間的推移パターン、9 実線、10 破線、11 操作部、12 入力部、13 帯域抽出部、14 記憶部、15 個人識別部、16 生音声検出部、17 判定出力部、141 照合用可聴特徴(スペクトル包絡)、142 照合用超音波特徴(時間的推移パターン)。

Claims (5)

  1. 可聴帯域及び超音波帯域を含む音響信号を入力する入力部と、
    前記入力部から入力された音響信号から個人を識別する個人識別部と、
    前記入力部から入力された音響信号から超音波帯域の信号を抽出する帯域抽出部と、
    前記抽出された超音波帯域の信号を用いて、前記入力部から入力された音響信号が前記入力部に生で入力された生音声であるか否かを判定する生音声検出部と、
    を備える音声識別装置。
  2. 請求項1に記載の音声識別装置であって、
    音響信号の可聴帯域において個人を識別するための特徴量を個人に対応付けて記憶する記憶部を備え、
    前記帯域抽出部は、前記入力部から入力された音響信号から可聴帯域の信号を抽出し、
    前記個人識別部は、前記抽出された可聴帯域の信号から抽出された個人を識別するための特徴量と、前記記憶部に記憶された特徴量とを照合することによって個人を識別する音声識別装置。
  3. 請求項2に記載の音声識別装置であって、
    前記生音声検出部において生音声と判定され、かつ前記個人識別部において個人が特定された場合に、前記入力部から入力された音響信号に対応する個人を特定した識別結果を出力する出力部を備える音声識別装置。
  4. 請求項1〜3のいずれか1項に記載の音声識別装置であって、
    前記生音声検出部は、前記抽出された超音波帯域の信号の信号強度が所定基準値以上であれば前記入力部から入力された音響信号が生音声であると判定する音声識別装置。
  5. 請求項1〜3のいずれか1項に記載の音声識別装置であって、
    音響信号における超音波帯域の信号の信号強度の時間的推移パターンを記憶する記憶部を備え、
    前記生音声検出部は、前記抽出された超音波帯域の信号の信号強度の時間的推移パターンと前記記憶された時間的推移パターンの類似度が所定基準値以上であれば前記入力部から入力された音響信号が生音声であると判定する音声識別装置。
JP2014067421A 2014-03-28 2014-03-28 音声識別装置 Active JP6220304B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014067421A JP6220304B2 (ja) 2014-03-28 2014-03-28 音声識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014067421A JP6220304B2 (ja) 2014-03-28 2014-03-28 音声識別装置

Publications (2)

Publication Number Publication Date
JP2015191076A JP2015191076A (ja) 2015-11-02
JP6220304B2 true JP6220304B2 (ja) 2017-10-25

Family

ID=54425620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014067421A Active JP6220304B2 (ja) 2014-03-28 2014-03-28 音声識別装置

Country Status (1)

Country Link
JP (1) JP6220304B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017130170A (ja) * 2016-01-22 2017-07-27 日本ユニシス株式会社 会話連動システム、会話連動装置、会話連動方法、および、会話連動プログラム
GB2581595B (en) * 2017-10-13 2021-09-22 Cirrus Logic Int Semiconductor Ltd Detection of Replay Attack
JP6728261B2 (ja) * 2018-03-28 2020-07-22 ソフトバンク株式会社 音声で操作可能な情報処理装置、制御方法及びプログラム
KR102080994B1 (ko) * 2018-07-09 2020-02-25 김순원 데이터 추출을 통한 사용자 검증 방법
CN110096902B (zh) * 2019-03-15 2021-04-06 杭州钱袋数字科技有限公司 一种声纹加密装置及方法
JP7302219B2 (ja) * 2019-03-25 2023-07-04 オムロンヘルスケア株式会社 情報管理システム、及び、計測機器と情報端末の機器登録方法
JP7302220B2 (ja) * 2019-03-25 2023-07-04 オムロンヘルスケア株式会社 情報管理システム、及び、計測機器と情報端末の機器登録方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3643648B2 (ja) * 1996-06-24 2005-04-27 三菱重工業株式会社 自動車事故監視装置
JP4328423B2 (ja) * 1999-10-04 2009-09-09 セコム株式会社 音声識別装置
JP2001350494A (ja) * 2000-06-05 2001-12-21 Secom Co Ltd 照合装置及び照合方法
JP2004120066A (ja) * 2002-09-24 2004-04-15 Matsushita Electric Ind Co Ltd 移動通信端末装置及びユーザ認証方法
JP2006126558A (ja) * 2004-10-29 2006-05-18 Asahi Kasei Corp 音声話者認証システム
JP4438014B1 (ja) * 2008-11-06 2010-03-24 株式会社ネイクス 有害顧客検知システム、その方法及び有害顧客検知プログラム
JP2011150237A (ja) * 2010-01-25 2011-08-04 Nec Corp 認証装置、認証方法及びプログラム

Also Published As

Publication number Publication date
JP2015191076A (ja) 2015-11-02

Similar Documents

Publication Publication Date Title
JP6220304B2 (ja) 音声識別装置
US10950245B2 (en) Generating prompts for user vocalisation for biometric speaker recognition
US11735191B2 (en) Speaker recognition with assessment of audio frame contribution
US7447632B2 (en) Voice authentication system
US11869513B2 (en) Authenticating a user
JP4573792B2 (ja) ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム
JP2002514318A (ja) 録音された音声を検出するシステムおよび方法
GB2541466A (en) Replay attack detection
WO2008083571A1 (fr) Système de certification de cryptage aléatoire d'empreinte vocale, verrou de cryptage aléatoire d'empreinte vocale, et procédé de création associé à ceux-ci
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
JP6239826B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
JP2015079152A (ja) 音声認証装置、音声認証方法及び音声認証プログラム
CN107533415B (zh) 声纹检测的方法和装置
JP6430318B2 (ja) 不正音声入力判定装置、方法及びプログラム
CN111294642A (zh) 一种视频流播放方法及装置
KR20110079161A (ko) 이동 단말기에서 화자 인증 방법 및 장치
JP4440414B2 (ja) 話者照合装置及び方法
Tsuge et al. Bone-and air-conduction speech combination method for speaker recognition
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
JP2001350494A (ja) 照合装置及び照合方法
CN113113021A (zh) 语音生物识别认证实时检测方法及系统
Chen et al. Personal threshold in a small scale text-dependent speaker recognition
Paul et al. Presence of speech region detection using vowel-like regions and spectral slope information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170929

R150 Certificate of patent or registration of utility model

Ref document number: 6220304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250