JP2020504329A

JP2020504329A - 共振器を利用した話者認識方法及びその装置

Info

Publication number: JP2020504329A
Application number: JP2019534648A
Authority: JP
Inventors: キム，チェフン; カン，ソンチャン; パク，サンファ; ユン，ヨンソプ; ホリ，チュン
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-12-29
Filing date: 2017-12-19
Publication date: 2020-02-06
Anticipated expiration: 2037-12-19
Also published as: EP3598086A4; KR102520858B1; EP3598086B1; US20220270615A1; US11887606B2; WO2018124590A1; US11341973B2; US20190348050A1; CN110121633A; EP3598086A1; JP7048619B2; CN110121633B; KR20190092379A

Abstract

【課題】共振器を利用した話者認識方法を提供する。【解決手段】共振器を利用した話者認識方法に係り、該話者認識方法は、互いに異なる共振帯域を有する複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を受信し（Ｓ３１０）、電気的信号を利用し、共振帯域のサイズ差を算出し（Ｓ３２０）、共振帯域のサイズ差を利用し、話者を認識する（Ｓ３３０）。【選択図】図４

Description

本発明は、共振器を利用した話者認識方法及びその装置に関する。

音響または振動のスペクトルを分析するスペクトル分析器は、多様な機器においても使用される。例えば、音響または振動と係わる音声認識、話者認識、状況認識のために、コンピュータ、自動車、携帯電話または家電機器などにも採用されて使用される。また、振動情報を分析するために、建築物、各種家電機器などにも搭載されて使用される。

スペクトル分析器としては、特定領域の周波数帯域の信号をフィルタリング（ｆｉｌｔｅｒｉｎｇ）するために、機械的共振器（ｍｅｃｈａｎｉｃａｌｒｅｓｏｎａｔｏｒ）、電気アナログ（ｅｌｅｃｔｒｉｃａｌａｎａｌｏｇ）またはデジタルフィルタ（ｄｉｇｉｔａｌｆｉｌｔｅｒ）のようなセンサが使用される。そのようなセンサから得られた信号を利用し、フーリエ変換（Ｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）などを行って分析することができる。

本開示においては、共振器を利用した話者認識方法を提供する。また、本開示においては、共振器を含んで話者認識を行う話者認識装置を提供する。

一側面（ａｓｐｅｃｔ）による話者（ｓｐｅａｋｅｒ）認識方法は、互いに異なる共振帯域を有する複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を受信する段階と、前記電気的信号を利用し、共振帯域のサイズ差を算出する段階と、前記共振帯域のサイズ差を利用し、前記話者を認識する段階と、を含む。

そして、前記共振帯域のサイズ差は、周波数を基準に、隣接する共振周波数を有する２つの共振器から出力された電気的信号のサイズ差である。

また、前記話者を認識する段階は、前記共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成する段階と、前記帯域傾度のビットマップを利用し、前記話者を認識する段階と、を含んでもよい。

そして、前記符号化は、前記共振帯域のサイズ差を、３以上の奇数個の値のうちいずれか一つに変換することができる。

また、前記３個以上の奇数個の値は、１つの値を基準に、残りの値のうち対応する値は、絶対値が同じでありながら、符号が反対でもある。

そして、前記３個以上の奇数個の値は、ａ、０、−ａ（ここで、ａは、定数である）を含んでもよい。

また、前記話者音声が登録過程音声である場合、前記話者を認識する段階は、前記帯域傾度のビットマップを利用し、話者モデルを生成する段階と、前記話者モデルを認証テンプレートとして登録する段階と、を含んでもよい。

そして、前記話者音声が登録過程音声ではない場合、前記話者を認識する段階は、前記帯域傾度のビットマップを利用し、話者特徴値を生成する段階と、前記話者特徴値を、前記登録された認証テンプレートと比較し、前記話者が登録された話者であるか否かということを決定する段階と、を含んでもよい。

また、前記話者を認識する段階は、前記共振帯域のサイズ差を利用し、前記話者の音声のうち母音を決定する段階を含んでもよい。

そして、前記母音を決定する段階は、前記共振帯域のサイズ差を利用し、フォルマントの相対的位置を推定する段階と、前記フォルマントの相対的位置から前記母音を決定する段階と、を含んでもよい。

また、前記フォルマントの個数は、３個である。

そして、前記共振帯域のサイズ差は、前記共振器センサのうち４個の共振器から受信された電気的信号の大きさによっても決定される。

また、前記話者を認識する段階は、前記決定された母音に加重値を割り当てる段階と、前記母音を決定するために利用された共振帯域のサイズ差と異なる、共振帯域のサイズ差を利用し、帯域傾度のビットマップを生成する段階と、前記帯域傾度のビットマップを利用し、話者特徴値を生成する段階と、前記加重値を利用し、前記話者特徴値と認証テンプレートとを比較することにより、前記話者が登録された話者であるか否かということを認識する段階と、を含んでもよい。

そして、前記加重値を割り当てる段階は、前記決定された母音の加重値を、他の母音の加重値より高く割り当てることができる。

また、前記加重値は、前記決定された母音には、１が割り当てられ、前記他の母音には、０が割り当てられてもよい。

そして、前記帯域傾度のビットマップを生成するために利用された共振帯域のサイズ差の個数は、前記母音を決定するために利用された共振帯域のサイズ差の個数よりも多い。

一方、一実施形態による話者認識装置は、互いに異なる共振帯域を有する複数個の共振器を含み、前記複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を出力する共振器センサと、前記電気的信号を利用し、共振帯域のサイズ差を算出し、前記共振帯域のサイズ差を利用し、前記話者を認識するプロセッサと、を含む。

また、前記プロセッサは、前記共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成し、前記帯域傾度のビットマップを利用し、前記話者を認識することができる。

そして、前記プロセッサは、前記共振帯域のサイズ差を、３以上の奇数個の値のうちいずれか一つに変換することにより、前記共振帯域のサイズ差を符号化することができる。

また、前記プロセッサは、前記帯域傾度のビットマップを利用し、決定された話者特徴値を、登録された認証テンプレートと比較し、前記話者が登録された話者であるか否かということを決定することができる。

そして、前記プロセッサは、前記共振帯域のサイズ差を利用し、前記話者の音声のうち母音を決定することができる。

また、前記プロセッサは、前記共振帯域のサイズ差を利用し、フォルマントの相対的位置を推定し、前記フォルマントの相対的位置から前記母音を決定することができる。

そして、前記共振器センサのうち４個の共振器から受信された電気的信号の大きさによっても決定される。

また、前記プロセッサは、前記決定された母音に加重値を割り当て、前記母音を決定するために利用された共振帯域のサイズ差と異なる、共振帯域のサイズ差を利用し、話者特徴値を生成し、前記加重値を利用し、前記話者特徴値と認証テンプレートと比較することにより、話者を認識することができる。

一方、他の実施形態による話者認識方法は、話者の音声に対応する周波数帯域の信号を受信する段階と、前記信号のサイズ差を算出する段階と、前記サイズ差を利用し、前記話者の音声のうち母音を決定する段階と、前記決定された母音を利用し、前記話者が登録された話者であるか否かということを判断する段階と、を含む。

そして、前記母音を決定する段階は、前記サイズ差を利用し、フォルマントの相対的位置を推定する段階と、前記フォルマントの相対的位置から前記母音を決定する段階と、を含んでもよい。

また、前記周波数帯域の信号は、互いに異なる共振帯域を有する複数個の共振器から受信することができる。

そして、前記話者が登録された話者であるか否かということを判断する段階は、前記決定された母音に加重値を割り当てる段階と、前記話者の音声に対応する前記話者の特徴値を生成する段階と、前記加重値を利用し、前記話者の特徴値と認証テンプレートとを比較することにより、前記話者が登録された話者であるか否かということ判断する段階と、を含んでもよい。

また、前記加重値を割り当てる段階は、前記決定された母音の加重値を、他の母音の加重値より高く割り当てることができる。

そして、前記加重値は、前記決定された母音には、１が割り当てられ、前記他の母音には、０が割り当てられてもよい。

本開示によれば、話者認識のために長い発話が要求されず、比較的短い入力信号によっても、正確な話者認識が可能である。入力信号において母音を決定し、話者認識のための比較群を限定して使用することにより、話者認識の効率性を向上させることができる。

本開示によれば、共振器センサは、フーリエ変換が要求されず、周波数帯域の情報を維持し、時間分解能を向上させることができる。隣接した共振器の電気的信号の差のみを利用するので、共通ノイズ（ｃｏｍｍｏｎｎｏｉｓｅ）に対する影響を除去することができる。

例示的な実施形態による、多数の共振器を含む共振器センサの概略的な構造を示した平面図である。図１に示した例示的な実施形態による共振器を、Ｌ１−Ｌ２を基準にして切り取った断面を示した図面である。例示的な実施形態による、共振器を含む話者認識装置を概略的に示したブロック図である。例示的な実施形態による、共振器を利用した話者認識方法を示した図面である。共振帯域が異なる音声を示すグラフの例である。例示的な実施形態による、共振帯域のサイズ差を利用し、帯域傾度のビットマップを生成する例を示した図面である。一実施形態による、共振帯域のサイズ差を符号化する式を示すグラフである。例示的な実施形態による、経時的な二次元帯域傾度のビットマップを示す図面である。母音［ＡＨ］発音の共振帯域を示すスペクトルである。母音［ＥＥ］発音の共振帯域を示すスペクトルである。例示的な実施形態による、母音決定と係わり、互いに離隔された共振器を利用したフォルマントの位置を推定することを示したグラフである。例示的な実施形態による、母音決定と係わり、互いに離隔された共振器を利用したフォルマントの位置を推定することを示したグラフである。例示的な実施形態による、母音のフォルマントの位置を示す参照図面である。母音と帯域傾度とのビットマップを利用し、話者を認識する方法について説明するフローチャートである。短い発話時、話者特徴値と認証テンプレートとの比較について説明する参照図面である。例示的な実施形態による、共振器センサの多数の共振器の中心周波数が等比間隔に設定された例を示した図面である。例示的な実施形態による、共振器センサの多数の共振器の中心周波数が等比間隔に設定された例を示した図面である。例示的な実施形態による、共振器センサの多数の共振器の中心周波数が等差間隔に設定された例を示した図面である。例示的な実施形態による、共振器センサの多数の共振器の中心周波数が等差間隔に設定された例を示した図面である。例示的な実施形態による、共振器センサの多数の共振器の中心周波数が任意の間隔に設定された例を示した図面である。例示的な実施形態による、共振器センサの多数の共振器の中心周波数が任意の間隔に設定された例を示した図面である。例示的な実施形態による、多数の共振器を含む共振器センサの概略的な構造を示した平面図である。例示的な実施形態による、共振器センサの多数の共振器の帯域幅を多様に変更させた例を示したグラフである。例示的な実施形態による、共振器センサの多数の共振器の帯域幅を多様に変更させた例を示したグラフである。例示的な実施形態による、共振器センサの多数の共振器の帯域幅を多様に変更させた例を示したグラフである。例示的な実施形態による、共振器センサの多数の共振器のうち特定共振器の帯域幅が広く設定されたところを示したグラフである。

以下、添付された図面を参照し、実施形態について詳細に説明する。以下の図面において、同一参照符号は、同一構成要素を指し、図面上において、各構成要素の大きさは、説明の明瞭さと便宜さとのために、誇張されてもいる。一方、以下で説明される実施形態は、単に例示的なものにすぎず、多様な変形が可能である。以下において、「上」であったり「上部」であったりと記載されたものは、接触して真上にあるものだけではなく、非接触で上にあるものも含んでもよい。また、ある部分がある構成要素を「含む」とするとき、それは、特別に反対となる記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含んでもよいということを意味する。

図１は、例示的な実施形態による、多数の共振器を含む共振器センサの概略的な構造を示した平面図である。

図１の共振器センサ１００（ｒｅｓｏｎａｔｏｒｓｅｎｓｏｒ）は、音響または振動のスペクトルを分析するスペクトル分析器として利用することができる。共振器センサ１００は、互いに異なる共振帯域を有する複数個の共振器、例えば、第１共振器Ｒ１、第２共振器Ｒ２，…，第ｎ共振器Ｒｎを含んでもよい。共振器センサ１００に含まれる単位共振器の個数は、２個以上の多数個でもあり、ユーザの選択によっても決定され、制限はない。共振器Ｒ１，Ｒ２，…，Ｒｎは、およそ数ｍｍ以下の長さを有するようにも形成され、例えばＭＥＭＳ（ｍｉｃｒｏｅｌｅｃｔｒｏｍｅｃｈａｎｉｃａｌｓｙｓｔｅｍ）工程によっても製造される。各共振器は、特定帯域の周波数に対してのみ共振し、共振する周波数帯域を共振帯域と言う。

図２は、図１に示した例示的な実施形態による共振器を、Ｌ１−Ｌ２を基準にして切り取った断面を示した図面である。

図２を参照すれば、第１共振器Ｒ１は、固定部１１、固定部１１から一方向、例えば、ｙ方向に突出して延長した支持部１４を含んでもよい。支持部１４上には、センサ部１２及び質量部１６が形成される。センサ部１２は、支持部１４の一側端部、例えば、固定部１１と隣接した領域に形成される。そして、質量部１６は、支持部１４の一側端部反対側である他側端部、例えば、固定部１１から相対的に遠い領域に形成される。

固定部１１は、共振器Ｒ１，Ｒ２，…，Ｒｎの支持部１４が突出するように形成された領域であり、一般的に、電子素子の基板として使用される物質によっても形成される。支持部１４は、Ｓｉなどによっても形成され、ビーム（ｂｅａｍ）形状、または薄く、一方向に長いプレート形状を有することができ、カンチレバー（ｃａｎｔｉｌｅｖｅｒ）あるいは片持ち梁というような名称によっても称される。支持部１４の一端部は、固定部１１によって固定され、他端部は、他の物体によって固定されず、図２に図示されているように、上下方向、例えば、ｚ方向に自由に振動することができる。図２と異なり、共振器の支持部は、両側が固定部に固定され、支持部の中心部位が振動する形態を有することもできる。

センサ部１２は、外部音声や振動により、共振器Ｒ１，Ｒ２，…，Ｒｎの支持部の遊動による信号をセンシングする領域であり、例えば、ピエゾセンサでもある。センサ部１２は、支持部１４の一側表面上に順次に形成された下部電極１２ａ、圧電物質層１２ｂ及び上部電極１２ｃを含んでもよい。センサ部１２の下部電極１２ａ及び上部電極１２ｃは、伝導性物質によっても形成され、例えば、モリブデン（Ｍｏ）などによっても形成される。下部電極１２ａと支持部１４との間には、選択的に絶縁層がさらに形成される。圧電物質層１２ｂは、ピエゾセンサに使用される圧電物質材料であるならば、制限なしに利用される。圧電物質層１２ｂは、例えば、ＡｌＮ、ＺｎＯ、ＳｎＯ、ＰＺＴ、ＺｎＳｎＯ３、ポリフッ化ビニリデン（ＰＶＤＦ）、ポリ（フッ化ビニリデン−トリフルオロエチレン）（Ｐ（ＶＤＦ−ＴｒＦＥ））またはＰＭＮ−ＰＴを含んでも形成される。ただし、共振器Ｒ１，Ｒ２，…，Ｒｎは、そのようにピエゾセンサを含む圧電方式に制限されるものではなく、静電方式のセンサが使用されることも可能である。

質量部１６の形成物質には、制限がなく、例えば、Ａｕのような金属によっても形成できる。

図２において例として挙げた第１共振器Ｒ１が、固定部１１、支持部１４、センサ部１２及び質量部１６を含む構成は、図１の第２共振器Ｒ２ないし第ｎ共振器Ｒｎにも同一に適用される。

図１及び図２に示した共振器Ｒ１，Ｒ２，…，Ｒｎに、外部から音声、振動または力が作用するとき、質量部１６の挙動によって慣性力が発生する。支持部１４の共振周波数と、外部の振動、音響または力の周波数とが一致することになれば、共振現象が発生し、慣性力が増大する。そのような慣性力は、センサ部１２に曲げモーメントを発生させ、該曲げモーメントは、センサ部１２の各層にストレスを誘発する。その場合、作用するストレスに比例する大きさの電荷（ｃｈａｒｇｅ）が圧電物質層１２ｂで発生し、電極１２ａ，１２ｃ間の静電容量に反比例し、電圧が発生する。整理すれば、共振器Ｒ１，Ｒ２，…，Ｒｎ外部からの、音声、振動または力などの入力信号により、センサ部１２で生じた電圧を検出して解析すれば、音声、振動または力などの入力信号に係わる情報を得ることができる。

共振器Ｒ１，Ｒ２，…，Ｒｎによってセンシングされる入力信号の周波数帯域は、およそ２０Ｈｚ〜２０ｋＨｚ範囲の可聴周波数帯域でもあるが、それに限定されるものではなく、２０ｋＨｚ以上の超音波帯域、あるいは２０Ｈｚ以下の超低音帯域の音声を受信することができる。

本開示においては、共振器センサ１００が検出した出力値、すなわち、電気的信号を利用し、話者（ｓｐｅａｋｅｒ）を認識する装置及び方法を提供する。

図３は、例示的な実施形態による、共振器を含む話者認識装置を概略的に示したブロック図である。

図３を参照すれば、話者認識装置２００は、図１及び図２に図示されたように、入力される外部の入力信号に対して反応し、特定値の電気的信号を出力する共振器センサ１００と、共振器センサ１００から受信された電気的信号から共振帯域のサイズ差を算出し、共振帯域のサイズ差を利用し、話者を認識するプロセッサ２１０と、を含む。

共振器センサ１００は、図１及び図２に図示されたように、互いに異なる共振周波数、すなわち、共振帯域を有する複数個の共振器を含んでもよい。共振器センサ１００の各共振器は、入力信号に対応する電気的信号を出力することができる。共振器センサ１００において、入力信号の周波数に含まれた共振帯域を有する共振器は、大きい電気的信号（例えば、電圧）を出力し、入力信号の周波数に含まれない共振帯域を有する共振器は、大きさが小さい電気的信号を出力することができる。従って、共振器センサ１００の各共振器は、入力信号に対応する電気的信号を出力することにより、共振器センサ１００は、周波数別に細分化された電気的信号を出力することができる。

共振器センサ１００は、後述するプロセッサ２１０の少なくとも一部を含んでも構成される。例えば、共振器センサ１００は、話者の音声を検出する動作以外に、音声に対する電気的信号を補正したり、電気的信号の特徴を算出したりするというような動作を含んでもよい。その場合、共振器センサ１００は、ハードウェアモジュール及びソフトウェアモジュールを有する機能的モジュールにもなる。

プロセッサ２１０は、オペレーションシステム及び応用プログラムを駆動し、プロセッサ２１０に連結された多数の構成要素を制御することができる。プロセッサ２１０は、共振器センサ１００から獲得された電気的信号を利用し、話者認識を行うことができる。

例えば、プロセッサ２１０は、共振器センサ１００から受信された電気的信号を利用し、共振帯域のサイズ差を算出し、算出された共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成することができる。該共振帯域のサイズ差は、共振帯域が互いに異なる共振器から出力された電気的信号のサイズ差を意味する。帯域傾度のビットマップは、共振帯域のサイズ差を簡素化させたマップであり、後述する。

プロセッサ２１０は、特定話者の登録過程音声から、帯域傾度のビットマップを生成することができ、該帯域傾度のビットマップを利用し、個人化された話者モデルを生成することができる。例えば、プロセッサ２１０は、該帯域傾度のビットマップを高速フーリエ変換（ＦＦＴ：ｆａｓｔＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）、２ＤＤＣＴ（ｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ）、ＤＴＷ（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ）、人工神経網、ＶＱ（ｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎ）、ＧＭＭ（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）などを利用し、話者登録過程音声の特徴値を生成することができ、登録過程音声の特徴値から、個人化された話者モデルを生成することができる。プロセッサ２１０は、一般化された背景モデル（ＵＢＭ：ｕｎｉｖｅｒｓａｌｂａｃｋｇｒｏｕｎｄｍｏｄｅｌ）に、登録過程音声の特徴値を適用し、個人化された話者モデルを生成することができる。そのように生成された個人化された話者モデルは、その後入力される特定話者の音声との比較に使用するために、認証テンプレートとして、メモリ２２０の保安領域にも保存される。

音声認証時、プロセッサ２１０は、入力された不特定話者の音声から、帯域傾度のビットマップを生成し、帯域傾度のビットマップを利用し、特徴値を生成した後、登録された認証テンプレートとの比較を介して、話者を認証することができる。このとき、プロセッサ２１０は、登録された認証テンプレートとの比較のために、不特定話者の特徴値の形態を変換することもでき、変換された特徴値と登録された認証テンプレートとを比較し、類似度を判断することができる。該類似度は、最大類似度推定方法（ｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎ）などを適用することができる。プロセッサ２１０は、類似度が第１基準値より高ければ、認証に成功したと判断することができ、該類似度が第１基準値以下であるならば、認証に失敗したと判断することができる。第１基準値は、不特定話者の特徴値が認証テンプレートが同一であると判断することができる基準になる値であり、事前に定義されている。

追加して、プロセッサ２１０は、共振器センサ１００から受信された電気的信号を利用し、共振帯域のサイズ差を算出し、算出された共振帯域のサイズ差を利用し、母音を決定することができる。該母音は、音響エネルギーが集中される周波数帯域であるフォルマントを複数個含んでもよい。話者ごとに、特定フォルマントは、異なるが、他の母音との区別を不可能にさせるほどの変化ではない。従って、話者に係わりなく発音される母音は、一般的に区別され、認証テンプレートのうちそのように決定された母音に該当するモデルが話者認識にも使用される。母音決定方法は、後述する。

話者認識装置２００は、認証テンプレートが保存されたメモリ２２０を含んでもよい。メモリ２２０には、不特定話者の音声に係わる情報が一時的に保存される。

また、話者認識装置２００は、情報などを表示するディスプレイ２３０をさらに含んでもよい。ディスプレイ２３０は、認識に係わる各種情報、例えば、認識のためのユーザインターフェース、認識結果などを示すインジケータなどを表示することができる。

図４は、例示的な実施形態による、共振器を利用した話者認識方法を示した図面である。

図４を参照すれば、本開示による話者認識方法において、プロセッサ２１０は、共振器センサ１００から、話者の音声に対応する電気的信号を受信することができる（Ｓ３１０）。共振器センサ１００の各共振器は、音声に対応する電気的信号を出力し、プロセッサ２１０は、電気的信号を受信することができる。

プロセッサ２１０は、共振器センサ１００から受信された電気的信号を利用し、共振帯域のサイズ差を算出することができる（Ｓ３２０）。共振帯域のサイズ差は、互いに異なる共振器で受信された電気的信号のサイズ差、例えば、周波数を基準に、隣接する共振周波数を有する２つの共振器から出力される電気的信号のサイズ差である。

プロセッサ２１０は、共振器センサ１００に含まれた全体共振器を利用し、共振帯域のサイズ差を算出することができる。図１において、第１共振器ないし第ｎ共振器が順次に変わる共振帯域を有する場合、プロセッサ２１０は、第１共振器と第２共振器とで受信された電気的信号のサイズ差を、第１共振帯域のサイズ差として算出し、第２共振器と第３共振器とで受信された電気的信号のサイズ差を、第２共振帯域のサイズ差として算出し、第ｎ−１共振器と第ｎ共振器とで受信された電気的信号の差を、第ｎ−１共振帯域のサイズ差として算出することができる。

プロセッサ２１０は、共振器センサ１００に含まれた一部共振器のみを利用し、共振帯域のサイズ差を算出することもできる。例えば、プロセッサ２１０は、第１共振器、第４共振器、第ｋ共振器及び第ｎ共振器から受信された電気的信号を利用し、共振帯域のサイズ差を算出することもできる。第１共振器と第４共振器との共振帯域が隣接し、第４共振器と第ｋ共振器との共振帯域が隣接し、第ｋ共振器と第ｎ共振器との共振帯域が隣接すれば、プロセッサ２１０は、第１共振器と第４共振器とで受信された電気的信号の差を、第１共振帯域のサイズ差として算出することができ、第４共振器と第ｋ共振器とで受信された電気的信号の差を、第２共振帯域のサイズ差として算出することができ、第ｋ共振器と第ｎ共振器とで受信された電気的信号の差を、第３共振帯域のサイズ差として算出することができる。

プロセッサ２１０は、算出された共振帯域のサイズ差を利用し、話者を認識することができる（Ｓ３３０）。例えば、プロセッサ２１０は、共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成し、帯域傾度のビットマップを利用し、話者音声の特徴値を生成し、生成された特徴値を、保存された認証テンプレートと比較し、話者を認識することができる。帯域傾度のビットマップは、共振帯域のサイズ差を簡素化したマップであり、後述する。

追加して、プロセッサ２１０は、共振帯域のサイズ差を利用し、母音を決定することができ、そのように決定された母音は、発音した話者が登録された話者であるか否かということの判断にも利用される。例えば、認証テンプレートに含まれた個人化された話者モデルのうち、決定された母音に該当するモデルに加重値を付与して使用されたり、当該モデルだけが話者認識に使用されたりもする。そのように、話者認識装置２００は、共振帯域のサイズ差を利用し、話者を認識することができる。共振帯域のサイズ差を利用する方式は、共振周波数間に存在する共通ノイズを効率的に除去することができる。

図５は、共振帯域が異なる音声を示すグラフの例である。共振帯域の中心周波数識別に、共振帯域のサイズ差を利用すれば、図５にハッチングされた領域が除去される。ハッチングされた領域は、共振帯域の中心周波数と関連性が弱い周波数領域であり、ノイズに該当する。そして、共振帯域のサイズ差を利用し、中心周波数と関連度が低い共通ノイズ（ｃｏｍｍｏｎｎｏｉｓｅ）を効率的に除去することができる。そのような共通ノイズの除去は、ノイズ除去のための各種アルゴリズムを利用する必要がないか、あるいはそれを簡素化させることができ、さらに効率的に音声認識を行うことができる。言い換えれば、共振帯域がサイズ差を利用すれば、ノイズ除去のための前処理過程を省略することができるか、あるいはそれを簡素化させることができる。

図６は、共振帯域のサイズ差を利用し、帯域傾度のビットマップを生成する例を示した図面である。図１及び図６を参照すれば、共振器センサ１００の各共振器Ｒ１，Ｒ２，…，Ｒｎは、話者の音声に反応して電気的信号を出力することができる。各共振器Ｒ１，Ｒ２，…，Ｒｎは、図６（ａ）に図示されたような共振周波数を有することができる。話者の音声には、複数個の共振周波数が混在されており、各共振器は、話者の音声に含まれた周波数により、それに対応する電気的信号を出力することができる。例えば、話者の音声に、第１周波数が含まれていれば、第１共振器Ｒ１は、共振し、大きい電気的信号を出力することができる。

プロセッサ２１０は、共振器センサ１００から受信された電気的信号を利用し、図６（ｂ）に図示されたような共振帯域のサイズ差を算出することができる。プロセッサ２１０は、共振周波数を基準に、隣接する共振器から出力された電気的信号を利用し、共振帯域のサイズ差を算出することができる。図６（ｂ）は、共振器センサ１００に含まれた全体共振器を利用し、共振帯域のサイズ差を算出した結果を示す。図６（ａ）において、第１共振器ないし第ｎ共振器が順次に変わる共振帯域を有するとしているが、プロセッサ２１０は、第１共振器ないし第ｎ共振器のうち隣接する共振器の電気的信号のサイズ差を、共振帯域のサイズ差として算出することができる。例えば、第１共振帯域のサイズ差Ｇ１は、第１共振器と第２共振器とで受信された電気的信号のサイズ差であり、第２共振帯域のサイズ差Ｇ２は、第２共振器と第３共振器とで受信された電気的信号のサイズ差であり、第３共振帯域のサイズ差Ｇ３は、第３共振器と第４共振器とで受信された電気的信号のサイズ差である。そして、第ｎ−１共振帯域のサイズ差Ｇｎ−１は、第ｎ−１共振器と第ｎ共振器とで受信された電気的信号のサイズ差である。

プロセッサ２１０は、共振帯域のサイズ差を、図６（ｃ）に図示されたように符号化することができる。例えば、プロセッサ２１０は、下記の数式１を利用し、音声差を符号化することができる。

ここで、Ｈｋは、ｋ番目共振器の帯域特性（すなわち、電気的信号）、Ｈｋ＋１は、ｋ＋１番目共振器の帯域特性を示し、Ｔｋは、ｋ番目帯域の共振器とｋ＋１番目の共振器との帯域特性差を符号化した値である。符号化された値を、共振帯域のビット値とのことである。αは、任意の定数であり、実施形態によっても決定される。

図７は、一実施形態による、共振帯域のサイズ差を符号化する数式を示すグラフを示す。α及び−αは、閾値（ｔｈｒｅｓｈｏｌｄ）であり、該閾値の大きさにより、話者の音声に対する符号化値は、異なる。数式１及び図７を参照すれば、話者からの音声に対して、プロセッサ２１０は、隣接した共振帯域を有する共振器Ｒ１，Ｒ２，…，Ｒｎ間の出力値の差が、特定値α以上であるならば、１と表現して、−α未満であるならば、−１と表現し、α未満でありながら、−α以上であるならば、０と表現することにより、共振帯域のサイズ差を、３種の結果値（−１，０，＋１）に符号化することができる。

図６（ｃ）において、Ｔ１、Ｔ２、Ｔ＋、…、Ｔｎ−１で示した各領域の双方境界線での値に対して、数式１を利用し、共振帯域のビット値を算出すれば、Ｔ１は０、Ｔ２は−１、Ｔ３は０、Ｔｎは−１と表現される結果を得ることができる。図６（ｄ）は、図６（ｃ）に図示されたビット値をグラフ化したものである。共振器センサ１００から出力された電気的信号において、最大サイズと最小サイズは、図６（ｂ）に図示されたように、１００倍ほどの違いがある。しかし、共振器センサ１００から出力された信号を、帯域傾度のビット値に変換すれば、図６（ｄ）に図示されたように、８レベルに単純化することができる。

図６において、プロセッサ２１０は、共振帯域のサイズ差を、−１、０、１に符号化するとしたが、それは、例示的なものに過ぎない。プロセッサ２１０は、多様な形態に、共振帯域のサイズ差を符号化することができる。例えば、プロセッサ２１０は、共振帯域のサイズ差を、３個以上の奇数個の値のうちいずれか一つに符号化することができ、３個以上の奇数個の値のうち一つを基準に、残り値のうち対応する値は、絶対値が互いに同じであり、符号が反対でもある。例えば、プロセッサ２１０は、共振帯域のサイズ差を、−２、−１、０、１、２に符号化することができる。または、プロセッサ２１０は、共振帯域のサイズ差を、偶数個の値のうちいずれか一つに符号化することができる。偶数個の値のうち対応する値は、絶対値が互いに同じであり、符号が反対でもある。例えば、プロセッサ２１０は、共振帯域のサイズ差を、−３、−１、１、３に符号化することができる。

そのような作業を、共振器センサ１００から出力された電気的信号全体に対して適用すれば、経時的な二次元帯域傾度のビットマップを生成することができる。二次元帯域傾度のビットマップは、話者によって異なり、話者認識のための特徴にもなる。図８は、例示的な実施形態による、経時的な二次元帯域傾度のビットマップを示す図面である。図８に図示されているように、帯域傾度のビットマップは、時間フレーム別にも生成される。プロセッサ２１０は、一定時間単位のフレームにより、帯域傾度のビットマップを生成することができるが、それに限定されるものではない。一定時間単位で帯域傾度のビットマップを生成したが、連続して生成されたビットマップが同一である場合、１つのビットマップのみを話者認識が利用し、その後、同一ビットマップは、話者認識に利用しない。例えば、話者が「ウ」という音節を１秒間発声し、２秒間発声しもする。そのような場合、プロセッサは、２秒間発声される間に生成された帯域傾度のビットマップを話者認識に利用することもできるが、２秒間発声される間に生成された帯域傾度のビットマップのうち同一ビットマップを除去し、同じではないビットマップのみを話者認識に利用することもできる。二次元帯域傾度のビットマップ生成方法は、認識の活用度によっても変わる。

プロセッサ２１０は、帯域傾度のビットマップを利用し、特定話者の個人化された話者モデルを生成し、個人化された話者モデルを認証テンプレートとして保存することにより、話者の音声を登録することができる。追って、不特定話者の音声が受信されれば、事前に保存された認証テンプレートとの類似度を比較し、不特定話者が登録された話者と同一であるか否かということを判断することができる。

例えば、認識のための音声として、「スタート」を登録する場合、特定話者は、「スタート」を発声する。共振器センサ１００の各共振器、または一部の共振器は、「スタート」に対応する電気的信号を出力することができる。プロセッサ２１０は、共振器センサ１００から受信された電気的信号から、共振帯域のサイズ差を算出して符号化し、帯域傾度のビットマップを生成した後、帯域傾度のビットマップを利用し、「スタート」に対応する個人化された特徴値を計算し、個人化された特徴値でもって、個人化された話者モデルを生成し、認証テンプレートとして登録することができる。追って、不特定話者が「スタート」を発声すれば、プロセッサ２１０は、それに対応する帯域傾度のビットマップを生成し、該ビットマップを利用し、不特定話者の「スタート」に該当する特徴値を計算する。プロセッサ２１０は、該特徴値を認証テンプレートと比較することができる形態に変換し、変換された形態の特徴値と、認証テンプレートとを比較し、不特定話者が登録された話者であるか否かということを判断し、話者認識を行うことができる。

そのように、帯域傾度、すなわち、共振帯域のサイズ差を利用し、話者認識を行えば、ＳＴＦＴ（ｓｈｏｒｔｔｉｍｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）やメル周波数ケプストラム係数（ＭＦＣＣ）などを利用した音声の処理よりも処理過程が単純化される。

本開示による話者認識方法は、追加して母音を利用することができる。母音は、構成音素であるフォルマントを含んでもよい。ここで、該フォルマントは、人の発音器官の通路の形状、大きさなどによる空洞共振（ｃａｖｉｔｙｒｅｓｏｎａｎｃｅ）現象によって生じる音響エネルギーの周波数強度の分布、すなわち、音響エネルギーが集中される周波数帯域を意味する。図９及び図１０は、音声モデルにおいて、特定母音のエネルギー分布を示したグラフである。図９は、母音［ＡＨ］発音の共振帯域を示すスペクトルであり、図１０は、母音［ＥＥ］発音の共振帯域を示すスペクトルである。図９及び図１０を参照し、母音のスペクトルについて述べれば、共振帯域が一つではなく、いくつか存在するということを確認することができる。話者により、母音［ＡＨ］発音及び母音［ＥＥ］発音のスペクトルは、異なる。しかし、そのような話者によるスペクトルの変化は、母音［ＡＨ］と母音［ＥＥ］とを区別することができないほどではない。そのような現象は、他の母音にも、同一に適用される。言い換えれば、話者個人の音声特徴にもかかわらず、母音は、一般的に区別される。

母音において、共振帯域を低い周波数の方から、第１フォルマントＦ１、第２フォルマントＦ２及び第３フォルマントＦ３と称することができ、第１フォルマントＦ１の中心周波数が最も小さく、第３フォルマントＦ３の中心周波数が最も大きい。第２フォルマントＦ２の中心周波数は、第１フォルマントＦ１と第３フォルマントＦ３との間の大きさを有することができる。話者からの音声に対して、図１に示した共振器センサ１００の各共振器Ｒ１，Ｒ２，…，Ｒｎによる出力を比較すれば、音声の中心周波数を決定することができ、第１フォルマントＦ１、第２フォルマントＦ２及び第３フォルマントＦ３の位置を得ることができる。第１フォルマントＦ１、第２フォルマントＦ２及び第３フォルマントＦ３の位置を得れば、話者からの音声での母音を得ることができる。

図１１及び図１２は、例示的な実施形態による、母音決定と係わり、互いに離隔された共振器を利用したフォルマントの位置を推定するところを示したグラフである。

図１に示した共振器センサ１００の各共振器Ｒ１，Ｒ２，…，Ｒｎにおいて、互いに異なる２個の共振器は、話者からの入力信号に対応する電気的信号を出力することができる。離隔された２個の共振器は、隣接したり隣接しなかったりする共振器でもある。図１１を参照すれば、共振周波数がωａである第１共振器、及び共振周波数がωｅである第２共振器は、話者の入力信号に対応する互いに異なる大きさの電気的信号を出力することができる。例えば、音声の中心周波数がωａである場合、第１共振器での出力値Ｈ１（ω）は、非常に大きくなり、第２共振器での出力値Ｈ２（ω）は、ゼロであるか、あるいは非常に小さくなる。そして、音声の中心周波数がωｃである場合、第１共振器での出力値Ｈ１（ω）、及び第２共振器での出力値Ｈ２（ω）は、いずれも非常に小さくなる。また、音声の中心周波数がωｅである場合、第１共振器での出力値Ｈ１（ω）は、ゼロであるか、あるいは非常に小さくなり、第２共振器での出力値Ｈ２（ω）は、非常に大きくなる。

言い換えれば、音声の中心周波数が、ωａ、ωｂ、ωｃ、ωｄまたはωｅなどの値を有する場合、第１共振器及び第２共振器での出力値が互いに異なる。従って、第１共振器及び第２共振器の出力値の差（Ｈ２（ω）−Ｈ１（ω））も、図１２に図示されているように、音声の中心周波数によっても異なるということを確認することができる。それにより、２つの共振期間の出力値の差から、音声の中心周波数を逆に決定することができる。すなわち、共振器間の共振帯域のサイズ差を利用し、音声の中心周波数であるフォルマントを決定することができ、中心周波数の位置から母音を決定することができる。

母音は、一般的に３個のフォルマントを含んでいるが、プロセッサ２１０は、共振器センサ１００のうち４個の共振器を選択し、選択された共振器から出力された電気的信号を利用し、フォルマントを決定することができる。

図１３は、例示的な実施形態による、母音のフォルマントの位置を示す参照図面である。

図１３を参照すれば、横軸は、母音の種類を示し、縦軸は、各母音による第１フォルマントＦ１、第２フォルマントＦ２及び第３フォルマントＦ３の中心周波数を示す。図１３に示した各母音による第１フォルマントＦ１、第２フォルマントＦ２及び第３フォルマントＦ３の位置は、一般的に知られている各母音のフォルマントの位置データを使用することができる。例えば、母音のフォルマントの位置は、ＵＢＭ（ｕｎｉｖｅｒｓａｌｂａｃｋｇｒｏｕｎｄｍｏｄｅｌ）と称する多様な話者による母音情報データベースを利用しても獲得される。

図１３に図示されているように、各母音は、一般的に、３個のフォルマントを含むということを確認することができる。そして、母音ごとに、フォルマントの位置が異なるということを確認することができる。３個のフォルマントのうち最も低い中心周波数のフォルマントを、第１フォルマント、最も高い中心周波数のフォルマントを、第３フォルマント、及び真ん中の中心周波数のフォルマントを、第２フォルマントと称することができる。

３個のフォルマントを決定するために、プロセッサ２１０は、図１に図示された共振器センサ１００において、共振周波数が互いに異なる４個の共振器を選択することができる。４個の共振器の選択において、第１フォルマントの中心周波数より低い共振周波数を有する共振器のうちいずれか一つを、第１共振器に、第１フォルマントの中心周波数と、第２フォルマントの中心周波数との間の共振周波数を有する共振器のうちいずれか一つを、第２共振器に、第２フォルマントの中心周波数と、第３フォルマントの中心周波数との間の共振周波数を有する共振器のうちいずれか一つを、第３共振器に、第３フォルマントの中心周波数より大きい共振周波数を有する共振器のうちいずれか一つを、第４共振器に選択することができる。例えば、プロセッサ２１０は、それぞれ約３００Ｈｚ、約８１０Ｈｚ、約２，２９０Ｈｚ、約３，０００Ｈｚである共振周波数を有する４個の共振器が選択される。

プロセッサ２１０は、４個の共振器のうち、共振帯域が隣接する２つの共振器の出力値の差を利用し、第１フォルマントないし第３フォルマントを決定することができる。例えば、第１共振器及び第２共振器の出力値の差（Ｈ２（ω）−Ｈ１（ω））により、第１フォルマントを決定し、第２共振器及び第３共振器の出力値の差（Ｈ３（ω）−Ｈ２（ω））により、第２フォルマントを決定することができる。そして、第３フォルマントＦ３は、第３共振器及び第４共振器の出力値の差（Ｈ４（ω）−Ｈ３（ω））によって決定することができる。プロセッサ２１０は、第１共振器及び第２共振器の出力値の差（Ｈ２（ω）−Ｈ１（ω））、第２共振器及び第３共振器の出力値の差（Ｈ３（ω）−Ｈ２（ω））、第３共振器及び第４共振器の出力値の差（Ｈ４（ω）−Ｈ３（ω））から、それぞれ第１フォルマントないし第３フォルマントを決定することができ、第１フォルマントないし第３フォルマントを利用し、話者がだれであるかということに係わりなく発音された母音を決定することができる。そのように決定された母音は、発音した話者が登録された話者であるか否かということを判断するのにも利用される。具体的には、認証テンプレートに含まれた個人化された話者モデルのうち、決定された母音に該当するモデルだけ話者認識にも使用される。

図１４は、母音と帯域傾度とのビットマップを利用し、話者を認識する方法について説明するフローチャートである。図１４を参照すれば、プロセッサ２１０は、共振器センサ１００から、話者の音声に対応する電気的信号を受信することができる（Ｓ１１１０）。例えば、話者は「ウリ（韓国語で「私ども」の意味）」を発声することができ、共振器センサ１００は、「ウリ」に対応する電気的信号を出力することにより、プロセッサ２１０は、「ウリ」に対応する電気的信号を受信することができる。

プロセッサ２１０は、一部共振器で受信された電気的信号を利用し、共振帯域のサイズ差を算出することができる（Ｓ１１２０）。一部共振器は、母音のフォルマントを決定するためのものとして、事前に定義される。例えば、プロセッサ２１０は、前述の３個のフォルマントを決定するために、既決定の４個の共振器で受信された電気的信号を利用し、共振帯域のサイズ差を算出することができる。

プロセッサ２１０は、一部共振器の共振帯域のサイズ差を利用し、母音を決定することができる（Ｓ１１３０）。例えば、プロセッサ２１０は、４個の共振器帯域のサイズ差を利用し、第１フォルマントないし第３フォルマントを決定し、第１フォルマントないし第３フォルマントの相対的位置関係を利用し、母音を決定することができる。母音決定時、図１３に図示されたグラフを利用することができる。例えば、プロセッサ２１０は、第１フォルマントないし第３フォルマントの相対的位置関係を利用し、時間順に「ウ」及び「イ」という母音を決定することができる。

プロセッサ２１０は、決定された母音に加重値を割り当てることができる（Ｓ１１４０）。例えば、プロセッサ２１０は、決定された母音の加重値を、他の母音の加重値と異なり、高く割り当てることができる。

一方、プロセッサ２１０は、共振器センサ１００に含まれた全体共振器から受信された電気的信号を利用し、帯域傾度のビットマップを生成することができる（Ｓ１１５０）。具体的には、共振器センサ１００の全体共振器から受信された電気的信号を利用し、共振帯域のサイズ差を算出して符号化し、帯域傾度のビットマップを生成することができる。Ｓ１１５０段階において、プロセッサ２１０は、全体共振器から受信された電気的信号を利用し、帯域傾度のビットマップを生成するとしたが、一部共振器から受信された電気的信号を利用し、帯域傾度のビットマップを生成することもできる。帯域傾度のビットマップは、母音決定より詳細な話者の音声に係わる情報を含まなければならないために、母音決定のために利用される共振器の個数よりも多い。

プロセッサ２１０は、生成された帯域傾度のビットマップを利用し、話者特徴値を生成することができる（Ｓ１１６０）。プロセッサ２１０は、帯域傾度のビットマップを高速フーリエ変換（ＦＦＴ）、２ＤＤＣＴ（ｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ）、ＤＴＷ（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ）、人工神経網、ＶＱ（ｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎ）、ＧＭＭ（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）などを利用し、帯域傾度のビットマップから、話者特徴値を生成することができる。該話者特徴値は、認証テンプレートと比較することができる形態にも変換され、その変換過程において、プロセッサ２１０は、一般化された背景モデル（ＵＢＭ：ｕｎｉｖｅｒｓａｌｂａｃｋｇｒｏｕｎｄｍｏｄｅｌ）を使用することもできる。

プロセッサ２１０は、加重値を利用して変換された話者特徴値と、認証テンプレートとを比較することにより、話者を認識することができる（Ｓ１１７０）。認証テンプレートにおいて決定された母音成分に該当するモデルに高い加重値を適用し、他の母音成分には、低い加重値を適用することができる。例えば、決定された母音が「ウ」及び「イ」である場合、該プロセッサは、認証テンプレートにおいて、「ウ」及び「イ」の成分に該当するモデルに高い加重値を適用し、残り成分には、低い加重値を適用して変換された話者特徴値と、認証テンプレートとを比較することができる。該比較結果が基準値以上である場合、プロセッサ２１０は、発音した話者を登録された話者と判断することができ、比較結果が基準値未満である場合、発音した話者が登録された話者ではないと判断することができる。

割り当てられた加重値は、１または０でもある。言い換えれば、プロセッサ２１０は、認証テンプレートのうち決定された母音に該当するモデルのみを比較に利用することもできる。

図１５は、短い発話時、話者特徴値と認証テンプレートとの比較について説明する参照図面である。図１５において、斜線領域は、ＵＢＭモデルを示し、＋パターン領域は、個人化された話者モデル、すなわち、登録された認証テンプレートを示し、▲は、話者特徴値を示す。例えば、話者が「ウリ」と短く発話すれば、プロセッサ２１０は、発話した母音成分として、「ウ（Ｕ）」及び「イ（Ｉ）」を獲得することができる。プロセッサ２１０が話者特徴値を生成するとき、「ウ」及び「イ」の母音成分が話者を示す特徴にもなる。従って、認証テンプレートにおいて、「ウ」及び「イ」の母音成分に該当するモデル１２１０の加重値が高く、残り母音成分に該当するモデル１２２０の加重値が低く割り当てられれば、話者特徴値１２３０との類似度判断時、発話された母音成分の影響力が大きいために、話者認識の正確度を高めることができる。

話者特徴値を生成する段階（Ｓ１１５０及びＳ１１６０）と、加重値を割り当てるための一連の段階（Ｓ１１２０ないしＳ１１４０）は、必ずしも順次に実行されるものではなく、２つの過程を同時に進めたり、加重値を割り当てるための過程のうち一部段階をまず進めたりし、その後、話者特徴値を生成する段階（Ｓ１１５０及びＳ１１６０）を進めることができる。例えば、図１に示した共振器センサ１００において、互いに異なる帯域を有した４個の共振器を利用し、話者の音声から母音を決定する段階（Ｓ１１３０）を進めると共に、全体共振器Ｒ１，Ｒ２，…，Ｒｎによって出力された信号を利用し、帯域傾度のビットマップを生成する段階（Ｓ１１５０）を進めることができる。

これまで、帯域傾度のビットマップと母音決定とをいずれも利用し、話者を認識する方法について説明したが、帯域傾度のビットマップを利用し、話者を認識することも可能である。例えば、既決定の特定単語（例：「スタート」）を使用し、話者を認識すると約束された場合、認証テンプレートは、特定話者の「スタート」に該当する個人化されたモデルだけで認識が可能である。その場合、帯域傾度のビットマップのみを利用し、話者認識が可能であり、母音決定は不要となる。それと異なり、特定話者がランダムに、単語、句または文章を発話する場合にも、認識が可能になるためには、認証テンプレートに、多くの個人化されたモデルが必要となる。その場合、個人化されたモデルは、母音別に区別され、決定された母音に該当するモデルが、認識のための比較にも使用される。また、帯域傾度のビットマップではない他の方法によって生成された話者の特徴値に、母音によって割り当てられた加重値を適用することにより、話者を認識することもできる。前述のように、本開示による共振器を利用した話者認識方法及びその装置において、共振器センサ１００は、多様な形態の多数の機械的共振器（ｍｅｃｈａｎｉｃａｌｒｅｓｏｎａｔｏｒ）を含んでもよい。共振器センサ１００の場合、多様な形態を有することができ、含まれる共振器の形状または配列は、必要によっても選択される。共振器センサ１００に含まれる共振器の中心周波数は、図２に示した支持部１４の長さＬを調節して変更させることができる。ユーザの必要により、共振器センサ１００の共振器は、多様な中心周波数間隔を有するようにも形成される。

図１６及び図１７は、例示的な実施形態による、共振器センサ１００ａの多数の共振器の中心周波数が、等比間隔に設定された例を示した図面である。

図１６を参照すれば、共振器Ｒｍの中心周波数は、共振器長、すなわち、図２に示した支持部１４の長さＬの二乗に逆比例する。それにより、図１７に図示されているように、共振器センサ１００ａに含まれる共振器Ｒｍは、互いに隣接する共振器Ｒｍ間の長さの差が一定である場合、比較的低い周波数の中心周波数を有した共振器の比率高周波領域の中心周波数を有した共振器の比率に比べて大きくなる。

図１８及び図１９は、例示的な実施形態による、共振器センサ１００ｂの多数の共振器の中心周波数が、等差間隔に設定された例を示した図面である。

図１８及び図１９を参照すれば、共振器センサ１００ｂに含まれる共振器Ｒｎは、互いに隣接する共振器Ｒｎ間の長さの差を、長さが長い共振器から短い共振器に行くほど小さく形成することができる。その場合、共振器Ｒｎの中心周波数の差は、一定等差間隔を有するようにも設定される。

図２０及び図２１は、例示的な実施形態による、共振器センサ１００ｃの多数の共振器の中心周波数が、任意の間隔に設定された例を示した図面である。

図２０及び図２１を参照すれば、共振器センサ１００ｃに含まれる共振器Ｒｏの長さ間隔を、特定規則性を有さない形態に、共振器センサ１００ｃが形成される。例えば、図２１においては、２，０００ないし３，０００Ｈｚ区間の中心周波数を有した共振器の比率を高めるために、一部区間の共振器の長さが調節される。

そのように、本開示による共振器を利用した話者認識方法及びその装置において、共振器センサ１００，１００ａ，１００ｂ，１００ｃは、等差、等比の共振周波数を有した共振器を含んだり、任意の帯域の共振周波数を有したりするように形成された共振器を含んでもよい。

図２２は、例示的な実施形態による、多数の共振器を含む共振器センサ１００ｄの概略的な構造を示した平面図である。

図２２を参照すれば、共振器センサ１００ｄは、中央部位に、キャビティまたは貫通ホール４０が形成された支持部３０、及び支持部３０から延長され、キャビティまたは貫通ホール４０を取り囲んで形成された多数の共振器Ｒを含んでもよい。前述の図１においては、共振器センサ１００の共振器Ｒ１，Ｒ２，…，Ｒｎが一方向に並んで延長されて形成された構造を示したが、図１３に図示されているように、本開示による共振器センサ１００ｄは、多様な構造を有するようにも形成される。

図２３ないし図２５は、例示的な実施形態による、共振器センサの多数の共振器の帯域幅を多様に変更させた例を示したグラフである。

本開示による共振器センサの場合、必要により、共振器帯域の周波数間隔を変更させたり、特定帯域の分解能を向上させるために、共振器の帯域を狭くしたりして形成することができる。例えば、図２３の共振器周波数帯域幅を、基準帯域幅Ｓ１１とすれば、図２４の場合、基準帯域幅Ｓ１１より狭い帯域幅Ｓ１２を有するように共振器を形成することができる。また、図２５に図示されているように、図２３の基準帯域幅Ｓ１１より広い帯域幅Ｓ１３を有するように共振器を形成することができる。

図２６は、例示的な実施形態による、共振器センサの多数の共振器のうち特定共振器の帯域幅が広く設定されたところを示したグラフである。

図２６を参照すれば、図３の入力信号の母音を決定するために使用される共振器センサ１００の特定共振器の帯域幅Ｓ２２を、共振器センサ１００の残り共振器の帯域幅Ｓ２１に比べて相対的に広く形成し、入力信号の母音を決定する過程をさらに効率的に進めることができる。

前述のような話者認識方法及びその装置は、多様な分野にも応用される。例えば、音声信号を介して、話者が登録された話者であるか否かということを正確に認識することにより、モバイル機器、家庭または車に採用されたり装着されたりした特定機器を動作させたりロッキングさせたりすることができる。

以上、技術的原理の理解の一助とするために、例示的な実施形態について説明され、添付された図面に図示された。しかし、そのような実施形態は、単に例示的なものであり、権利範囲を制限するものではないという点が理解されなければならないのである。

１１固定部、
１２センサ部、
１２ａ下部電極、
１２ｂ圧電物質層、
１２ｃ上部電極、
１４、３０支持部、
１６質量部、
４０貫通ホール、
Ｒ共振器、
１００、１００ｄ共振器センサ、
２００話者認識装置、
２１０プロセッサ、
２２０メモリ、
２３０ディスプレイ。

Claims

互いに異なる共振帯域を有する複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を受信する段階と、
前記電気的信号を利用し、前記共振帯域のサイズ差を算出する段階と、
前記共振帯域のサイズ差を利用し、前記話者を認識する段階と、
を含む話者認識方法。
前記共振帯域のサイズ差は、
周波数を基準に、隣接する共振周波数を有する２つの共振器から出力された電気的信号のサイズ差であることを特徴とする請求項１に記載の話者認識方法。
前記話者を認識する段階は、
前記共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成する段階と、
前記帯域傾度のビットマップを利用し、前記話者を認識する段階と、
を含むことを特徴とする請求項１に記載の話者認識方法。
前記符号化は、
前記共振帯域のサイズ差を、３以上の奇数個の値のうちいずれか一つに変換することを特徴とする請求項３に記載の話者認識方法。
前記３以上の奇数個の値は、
１つの値を基準に、残りの値のうち対応する値は、絶対値が同じでありながら、符号が反対であることを特徴とする請求項４に記載の話者認識方法。
前記３以上の奇数個の値は、
ａ、０、−ａ（ここで、ａは、定数である）を含むことを特徴とする請求項４に記載の話者認識方法。
話者音声が登録過程音声である場合、前記話者を認識する段階は、
前記帯域傾度のビットマップを利用し、話者モデルを生成する段階と、
前記話者モデルを認証テンプレートとして登録する段階と、
を含むことを特徴とする請求項３に記載の話者認識方法。
前記話者音声が登録過程音声ではない場合、前記話者を認識する段階は、
前記帯域傾度のビットマップを利用し、話者特徴値を生成する段階と、
前記話者特徴値を、前記登録された認証テンプレートと比較し、前記話者が登録された話者であるか否かということを決定する段階と、
を含むことを特徴とする請求項７に記載の話者認識方法。
前記話者を認識する段階は、
前記共振帯域のサイズ差を利用し、前記話者の音声のうち母音を決定する段階を含むことを特徴とする請求項１に記載の話者認識方法。
前記母音を決定する段階は、
前記共振帯域のサイズ差を利用し、フォルマントの相対的位置を推定する段階と、
前記フォルマントの相対的位置から前記母音を決定する段階と、
を含むことを特徴とする請求項９に記載の話者認識方法。
前記フォルマントの個数は、３個であることを特徴とする請求項１０に記載の話者認識方法。
前記共振帯域のサイズ差は、
共振器センサのうち４個の共振器から受信された電気的信号の大きさによって決定されることを特徴とする請求項１０に記載の話者認識方法。
前記話者を認識する段階は、
前記決定された母音に加重値を割り当てる段階と、
前記母音を決定するために利用された共振帯域のサイズ差と異なる、共振帯域のサイズ差を利用し、帯域傾度のビットマップを生成する段階と、
前記帯域傾度のビットマップを利用し、話者特徴値を生成する段階と、
前記加重値を利用し、前記話者特徴値と認証テンプレートとを比較することにより、前記話者が登録された話者であるか否かということを認識する段階と、
を含むことを特徴とする請求項９に記載の話者認識方法。
前記加重値を割り当てる段階は、
前記決定された母音の加重値を、他の母音の加重値より高く割り当てることを特徴とする請求項１３に記載の話者認識方法。
前記加重値は、
前記決定された母音には、１が割り当てられ、前記他の母音には、０が割り当てられたことを特徴とする請求項１４に記載の話者認識方法。
前記帯域傾度のビットマップを生成するために利用された共振帯域のサイズ差の個数は、前記母音を決定するために利用された共振帯域のサイズ差の個数より多いことを特徴とする請求項１４に記載の話者認識方法。
互いに異なる共振帯域を有する複数個の共振器を含み、前記複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を出力する共振器センサと、
前記電気的信号を利用し、共振帯域のサイズ差を算出し、前記共振帯域のサイズ差を利用し、前記話者を認識するプロセッサと、を利用した話者認識装置。
前記共振帯域のサイズ差は、
周波数を基準に、隣接する共振周波数を有する２つの共振器から出力された電気的信号のサイズ差であることを特徴とする請求項１７に記載の話者認識装置。
前記プロセッサは、
前記共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成し、前記帯域傾度のビットマップを利用し、前記話者を認識することを特徴とする請求項１７に記載の話者認識装置。
前記プロセッサは、
前記共振帯域のサイズ差を、３以上の奇数個の値のうちいずれか一つに変換することにより、前記共振帯域のサイズ差を符号化することを特徴とする請求項１９に記載の話者認識装置。
前記プロセッサは、
前記帯域傾度のビットマップを利用し、決定された話者特徴値を、登録された認証テンプレートと比較し、前記話者が登録された話者であるか否かということを決定することを特徴とする請求項１９に記載の話者認識装置。
前記プロセッサは、
前記共振帯域のサイズ差を利用し、前記話者の音声のうち母音を決定することを特徴とする請求項１７に記載の話者認識装置。
前記プロセッサは、
前記共振帯域のサイズ差を利用し、フォルマントの相対的位置を推定し、前記フォルマントの相対的位置から前記母音を決定することを特徴とする請求項２２に記載の話者認識装置。
前記共振帯域のサイズ差は、
前記共振器センサのうち４個の共振器から受信された電気的信号の大きさによって決定されることを特徴とする請求項２３に記載の話者認識装置。
前記プロセッサは、
前記決定された母音に加重値を割り当て、
前記母音を決定するために利用された共振帯域のサイズ差と異なる、共振帯域のサイズ差を利用し、話者特徴値を生成し、
前記加重値を利用し、前記話者特徴値と認証テンプレートとを比較することにより、話者を認識することを特徴とする請求項２３に記載の話者認識装置。
帯域傾度のビットマップを生成するために利用された共振帯域のサイズ差の個数は、前記母音を決定するために利用された共振帯域のサイズ差の個数より多いことを特徴とする請求項２５に記載の話者認識装置。
話者の音声に対応する周波数帯域の信号を受信する段階と、
前記信号のサイズ差を算出する段階と、
前記サイズ差を利用し、前記話者の音声のうち母音を決定する段階と、
前記決定された母音を利用し、前記話者が登録された話者であるか否かということを判断する段階と、
を含む話者認識方法。
前記母音を決定する段階は、
前記サイズ差を利用し、フォルマントの相対的位置を推定する段階と、
前記フォルマントの相対的位置から前記母音を決定する段階と、
を含むことを特徴とする請求項２７に記載の話者認識方法。
前記周波数帯域の信号は、
互いに異なる共振帯域を有する複数個の共振器から受信することを特徴とする請求項２８に記載の話者認識方法。
前記話者が登録された話者であるか否かということを判断する段階は、
前記決定された母音に加重値を割り当てる段階と、
前記話者の音声に対応する前記話者の特徴値を生成する段階と、
前記加重値を利用し、前記話者の特徴値と認証テンプレートとを比較することにより、前記話者が登録された話者であるか否かということ判断する段階と、
を含むことを特徴とする請求項２７に記載の話者認識方法。
前記加重値を割り当てる段階は、
前記決定された母音の加重値を、他の母音の加重値より高く割り当てることを特徴とする請求項３０に記載の話者認識方法。
前記加重値は、
前記決定された母音には、１が割り当てられ、前記他の母音には、０が割り当てられることを特徴とする請求項３１に記載の話者認識方法。