JP2020504329A - 共振器を利用した話者認識方法及びその装置 - Google Patents

共振器を利用した話者認識方法及びその装置 Download PDF

Info

Publication number
JP2020504329A
JP2020504329A JP2019534648A JP2019534648A JP2020504329A JP 2020504329 A JP2020504329 A JP 2020504329A JP 2019534648 A JP2019534648 A JP 2019534648A JP 2019534648 A JP2019534648 A JP 2019534648A JP 2020504329 A JP2020504329 A JP 2020504329A
Authority
JP
Japan
Prior art keywords
speaker
band
size difference
vowel
resonator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019534648A
Other languages
English (en)
Other versions
JP7048619B2 (ja
Inventor
キム,チェフン
カン,ソンチャン
パク,サンファ
ユン,ヨンソプ
ホ リ,チュン
ホ リ,チュン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2020504329A publication Critical patent/JP2020504329A/ja
Application granted granted Critical
Publication of JP7048619B2 publication Critical patent/JP7048619B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H13/00Measuring resonant frequency
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】共振器を利用した話者認識方法を提供する。【解決手段】共振器を利用した話者認識方法に係り、該話者認識方法は、互いに異なる共振帯域を有する複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を受信し(S310)、電気的信号を利用し、共振帯域のサイズ差を算出し(S320)、共振帯域のサイズ差を利用し、話者を認識する(S330)。【選択図】図4

Description

本発明は、共振器を利用した話者認識方法及びその装置に関する。
音響または振動のスペクトルを分析するスペクトル分析器は、多様な機器においても使用される。例えば、音響または振動と係わる音声認識、話者認識、状況認識のために、コンピュータ、自動車、携帯電話または家電機器などにも採用されて使用される。また、振動情報を分析するために、建築物、各種家電機器などにも搭載されて使用される。
スペクトル分析器としては、特定領域の周波数帯域の信号をフィルタリング(filtering)するために、機械的共振器(mechanical resonator)、電気アナログ(electrical analog)またはデジタルフィルタ(digital filter)のようなセンサが使用される。そのようなセンサから得られた信号を利用し、フーリエ変換(Fourier transform)などを行って分析することができる。
本開示においては、共振器を利用した話者認識方法を提供する。また、本開示においては、共振器を含んで話者認識を行う話者認識装置を提供する。
一側面(aspect)による話者(speaker)認識方法は、互いに異なる共振帯域を有する複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を受信する段階と、前記電気的信号を利用し、共振帯域のサイズ差を算出する段階と、前記共振帯域のサイズ差を利用し、前記話者を認識する段階と、を含む。
そして、前記共振帯域のサイズ差は、周波数を基準に、隣接する共振周波数を有する2つの共振器から出力された電気的信号のサイズ差である。
また、前記話者を認識する段階は、前記共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成する段階と、前記帯域傾度のビットマップを利用し、前記話者を認識する段階と、を含んでもよい。
そして、前記符号化は、前記共振帯域のサイズ差を、3以上の奇数個の値のうちいずれか一つに変換することができる。
また、前記3個以上の奇数個の値は、1つの値を基準に、残りの値のうち対応する値は、絶対値が同じでありながら、符号が反対でもある。
そして、前記3個以上の奇数個の値は、a、0、−a(ここで、aは、定数である)を含んでもよい。
また、前記話者音声が登録過程音声である場合、前記話者を認識する段階は、前記帯域傾度のビットマップを利用し、話者モデルを生成する段階と、前記話者モデルを認証テンプレートとして登録する段階と、を含んでもよい。
そして、前記話者音声が登録過程音声ではない場合、前記話者を認識する段階は、前記帯域傾度のビットマップを利用し、話者特徴値を生成する段階と、前記話者特徴値を、前記登録された認証テンプレートと比較し、前記話者が登録された話者であるか否かということを決定する段階と、を含んでもよい。
また、前記話者を認識する段階は、前記共振帯域のサイズ差を利用し、前記話者の音声のうち母音を決定する段階を含んでもよい。
そして、前記母音を決定する段階は、前記共振帯域のサイズ差を利用し、フォルマントの相対的位置を推定する段階と、前記フォルマントの相対的位置から前記母音を決定する段階と、を含んでもよい。
また、前記フォルマントの個数は、3個である。
そして、前記共振帯域のサイズ差は、前記共振器センサのうち4個の共振器から受信された電気的信号の大きさによっても決定される。
また、前記話者を認識する段階は、前記決定された母音に加重値を割り当てる段階と、前記母音を決定するために利用された共振帯域のサイズ差と異なる、共振帯域のサイズ差を利用し、帯域傾度のビットマップを生成する段階と、前記帯域傾度のビットマップを利用し、話者特徴値を生成する段階と、前記加重値を利用し、前記話者特徴値と認証テンプレートとを比較することにより、前記話者が登録された話者であるか否かということを認識する段階と、を含んでもよい。
そして、前記加重値を割り当てる段階は、前記決定された母音の加重値を、他の母音の加重値より高く割り当てることができる。
また、前記加重値は、前記決定された母音には、1が割り当てられ、前記他の母音には、0が割り当てられてもよい。
そして、前記帯域傾度のビットマップを生成するために利用された共振帯域のサイズ差の個数は、前記母音を決定するために利用された共振帯域のサイズ差の個数よりも多い。
一方、一実施形態による話者認識装置は、互いに異なる共振帯域を有する複数個の共振器を含み、前記複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を出力する共振器センサと、前記電気的信号を利用し、共振帯域のサイズ差を算出し、前記共振帯域のサイズ差を利用し、前記話者を認識するプロセッサと、を含む。
そして、前記共振帯域のサイズ差は、周波数を基準に、隣接する共振周波数を有する2つの共振器から出力された電気的信号のサイズ差である。
また、前記プロセッサは、前記共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成し、前記帯域傾度のビットマップを利用し、前記話者を認識することができる。
そして、前記プロセッサは、前記共振帯域のサイズ差を、3以上の奇数個の値のうちいずれか一つに変換することにより、前記共振帯域のサイズ差を符号化することができる。
また、前記プロセッサは、前記帯域傾度のビットマップを利用し、決定された話者特徴値を、登録された認証テンプレートと比較し、前記話者が登録された話者であるか否かということを決定することができる。
そして、前記プロセッサは、前記共振帯域のサイズ差を利用し、前記話者の音声のうち母音を決定することができる。
また、前記プロセッサは、前記共振帯域のサイズ差を利用し、フォルマントの相対的位置を推定し、前記フォルマントの相対的位置から前記母音を決定することができる。
そして、前記共振器センサのうち4個の共振器から受信された電気的信号の大きさによっても決定される。
また、前記プロセッサは、前記決定された母音に加重値を割り当て、前記母音を決定するために利用された共振帯域のサイズ差と異なる、共振帯域のサイズ差を利用し、話者特徴値を生成し、前記加重値を利用し、前記話者特徴値と認証テンプレートと比較することにより、話者を認識することができる。
そして、前記帯域傾度のビットマップを生成するために利用された共振帯域のサイズ差の個数は、前記母音を決定するために利用された共振帯域のサイズ差の個数よりも多い。
一方、他の実施形態による話者認識方法は、話者の音声に対応する周波数帯域の信号を受信する段階と、前記信号のサイズ差を算出する段階と、前記サイズ差を利用し、前記話者の音声のうち母音を決定する段階と、前記決定された母音を利用し、前記話者が登録された話者であるか否かということを判断する段階と、を含む。
そして、前記母音を決定する段階は、前記サイズ差を利用し、フォルマントの相対的位置を推定する段階と、前記フォルマントの相対的位置から前記母音を決定する段階と、を含んでもよい。
また、前記周波数帯域の信号は、互いに異なる共振帯域を有する複数個の共振器から受信することができる。
そして、前記話者が登録された話者であるか否かということを判断する段階は、前記決定された母音に加重値を割り当てる段階と、前記話者の音声に対応する前記話者の特徴値を生成する段階と、前記加重値を利用し、前記話者の特徴値と認証テンプレートとを比較することにより、前記話者が登録された話者であるか否かということ判断する段階と、を含んでもよい。
また、前記加重値を割り当てる段階は、前記決定された母音の加重値を、他の母音の加重値より高く割り当てることができる。
そして、前記加重値は、前記決定された母音には、1が割り当てられ、前記他の母音には、0が割り当てられてもよい。
本開示によれば、話者認識のために長い発話が要求されず、比較的短い入力信号によっても、正確な話者認識が可能である。入力信号において母音を決定し、話者認識のための比較群を限定して使用することにより、話者認識の効率性を向上させることができる。
本開示によれば、共振器センサは、フーリエ変換が要求されず、周波数帯域の情報を維持し、時間分解能を向上させることができる。隣接した共振器の電気的信号の差のみを利用するので、共通ノイズ(common noise)に対する影響を除去することができる。
例示的な実施形態による、多数の共振器を含む共振器センサの概略的な構造を示した平面図である。 図1に示した例示的な実施形態による共振器を、L1−L2を基準にして切り取った断面を示した図面である。 例示的な実施形態による、共振器を含む話者認識装置を概略的に示したブロック図である。 例示的な実施形態による、共振器を利用した話者認識方法を示した図面である。 共振帯域が異なる音声を示すグラフの例である。 例示的な実施形態による、共振帯域のサイズ差を利用し、帯域傾度のビットマップを生成する例を示した図面である。 一実施形態による、共振帯域のサイズ差を符号化する式を示すグラフである。 例示的な実施形態による、経時的な二次元帯域傾度のビットマップを示す図面である。 母音[AH]発音の共振帯域を示すスペクトルである。 母音[EE]発音の共振帯域を示すスペクトルである。 例示的な実施形態による、母音決定と係わり、互いに離隔された共振器を利用したフォルマントの位置を推定することを示したグラフである。 例示的な実施形態による、母音決定と係わり、互いに離隔された共振器を利用したフォルマントの位置を推定することを示したグラフである。 例示的な実施形態による、母音のフォルマントの位置を示す参照図面である。 母音と帯域傾度とのビットマップを利用し、話者を認識する方法について説明するフローチャートである。 短い発話時、話者特徴値と認証テンプレートとの比較について説明する参照図面である。 例示的な実施形態による、共振器センサの多数の共振器の中心周波数が等比間隔に設定された例を示した図面である。 例示的な実施形態による、共振器センサの多数の共振器の中心周波数が等比間隔に設定された例を示した図面である。 例示的な実施形態による、共振器センサの多数の共振器の中心周波数が等差間隔に設定された例を示した図面である。 例示的な実施形態による、共振器センサの多数の共振器の中心周波数が等差間隔に設定された例を示した図面である。 例示的な実施形態による、共振器センサの多数の共振器の中心周波数が任意の間隔に設定された例を示した図面である。 例示的な実施形態による、共振器センサの多数の共振器の中心周波数が任意の間隔に設定された例を示した図面である。 例示的な実施形態による、多数の共振器を含む共振器センサの概略的な構造を示した平面図である。 例示的な実施形態による、共振器センサの多数の共振器の帯域幅を多様に変更させた例を示したグラフである。 例示的な実施形態による、共振器センサの多数の共振器の帯域幅を多様に変更させた例を示したグラフである。 例示的な実施形態による、共振器センサの多数の共振器の帯域幅を多様に変更させた例を示したグラフである。 例示的な実施形態による、共振器センサの多数の共振器のうち特定共振器の帯域幅が広く設定されたところを示したグラフである。
以下、添付された図面を参照し、実施形態について詳細に説明する。以下の図面において、同一参照符号は、同一構成要素を指し、図面上において、各構成要素の大きさは、説明の明瞭さと便宜さとのために、誇張されてもいる。一方、以下で説明される実施形態は、単に例示的なものにすぎず、多様な変形が可能である。以下において、「上」であったり「上部」であったりと記載されたものは、接触して真上にあるものだけではなく、非接触で上にあるものも含んでもよい。また、ある部分がある構成要素を「含む」とするとき、それは、特別に反対となる記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含んでもよいということを意味する。
図1は、例示的な実施形態による、多数の共振器を含む共振器センサの概略的な構造を示した平面図である。
図1の共振器センサ100(resonator sensor)は、音響または振動のスペクトルを分析するスペクトル分析器として利用することができる。共振器センサ100は、互いに異なる共振帯域を有する複数個の共振器、例えば、第1共振器R1、第2共振器R2,…,第n共振器Rnを含んでもよい。共振器センサ100に含まれる単位共振器の個数は、2個以上の多数個でもあり、ユーザの選択によっても決定され、制限はない。共振器R1,R2,…,Rnは、およそ数mm以下の長さを有するようにも形成され、例えばMEMS(micro electro mechanical system)工程によっても製造される。各共振器は、特定帯域の周波数に対してのみ共振し、共振する周波数帯域を共振帯域と言う。
図2は、図1に示した例示的な実施形態による共振器を、L1−L2を基準にして切り取った断面を示した図面である。
図2を参照すれば、第1共振器R1は、固定部11、固定部11から一方向、例えば、y方向に突出して延長した支持部14を含んでもよい。支持部14上には、センサ部12及び質量部16が形成される。センサ部12は、支持部14の一側端部、例えば、固定部11と隣接した領域に形成される。そして、質量部16は、支持部14の一側端部反対側である他側端部、例えば、固定部11から相対的に遠い領域に形成される。
固定部11は、共振器R1,R2,…,Rnの支持部14が突出するように形成された領域であり、一般的に、電子素子の基板として使用される物質によっても形成される。支持部14は、Siなどによっても形成され、ビーム(beam)形状、または薄く、一方向に長いプレート形状を有することができ、カンチレバー(cantilever)あるいは片持ち梁というような名称によっても称される。支持部14の一端部は、固定部11によって固定され、他端部は、他の物体によって固定されず、図2に図示されているように、上下方向、例えば、z方向に自由に振動することができる。図2と異なり、共振器の支持部は、両側が固定部に固定され、支持部の中心部位が振動する形態を有することもできる。
センサ部12は、外部音声や振動により、共振器R1,R2,…,Rnの支持部の遊動による信号をセンシングする領域であり、例えば、ピエゾセンサでもある。センサ部12は、支持部14の一側表面上に順次に形成された下部電極12a、圧電物質層12b及び上部電極12cを含んでもよい。センサ部12の下部電極12a及び上部電極12cは、伝導性物質によっても形成され、例えば、モリブデン(Mo)などによっても形成される。下部電極12aと支持部14との間には、選択的に絶縁層がさらに形成される。圧電物質層12bは、ピエゾセンサに使用される圧電物質材料であるならば、制限なしに利用される。圧電物質層12bは、例えば、AlN、ZnO、SnO、PZT、ZnSnO3、ポリフッ化ビニリデン(PVDF)、ポリ(フッ化ビニリデン−トリフルオロエチレン)(P(VDF−TrFE))またはPMN−PTを含んでも形成される。ただし、共振器R1,R2,…,Rnは、そのようにピエゾセンサを含む圧電方式に制限されるものではなく、静電方式のセンサが使用されることも可能である。
質量部16の形成物質には、制限がなく、例えば、Auのような金属によっても形成できる。
図2において例として挙げた第1共振器R1が、固定部11、支持部14、センサ部12及び質量部16を含む構成は、図1の第2共振器R2ないし第n共振器Rnにも同一に適用される。
図1及び図2に示した共振器R1,R2,…,Rnに、外部から音声、振動または力が作用するとき、質量部16の挙動によって慣性力が発生する。支持部14の共振周波数と、外部の振動、音響または力の周波数とが一致することになれば、共振現象が発生し、慣性力が増大する。そのような慣性力は、センサ部12に曲げモーメントを発生させ、該曲げモーメントは、センサ部12の各層にストレスを誘発する。その場合、作用するストレスに比例する大きさの電荷(charge)が圧電物質層12bで発生し、電極12a,12c間の静電容量に反比例し、電圧が発生する。整理すれば、共振器R1,R2,…,Rn外部からの、音声、振動または力などの入力信号により、センサ部12で生じた電圧を検出して解析すれば、音声、振動または力などの入力信号に係わる情報を得ることができる。
共振器R1,R2,…,Rnによってセンシングされる入力信号の周波数帯域は、およそ20Hz〜20kHz範囲の可聴周波数帯域でもあるが、それに限定されるものではなく、20kHz以上の超音波帯域、あるいは20Hz以下の超低音帯域の音声を受信することができる。
本開示においては、共振器センサ100が検出した出力値、すなわち、電気的信号を利用し、話者(speaker)を認識する装置及び方法を提供する。
図3は、例示的な実施形態による、共振器を含む話者認識装置を概略的に示したブロック図である。
図3を参照すれば、話者認識装置200は、図1及び図2に図示されたように、入力される外部の入力信号に対して反応し、特定値の電気的信号を出力する共振器センサ100と、共振器センサ100から受信された電気的信号から共振帯域のサイズ差を算出し、共振帯域のサイズ差を利用し、話者を認識するプロセッサ210と、を含む。
共振器センサ100は、図1及び図2に図示されたように、互いに異なる共振周波数、すなわち、共振帯域を有する複数個の共振器を含んでもよい。共振器センサ100の各共振器は、入力信号に対応する電気的信号を出力することができる。共振器センサ100において、入力信号の周波数に含まれた共振帯域を有する共振器は、大きい電気的信号(例えば、電圧)を出力し、入力信号の周波数に含まれない共振帯域を有する共振器は、大きさが小さい電気的信号を出力することができる。従って、共振器センサ100の各共振器は、入力信号に対応する電気的信号を出力することにより、共振器センサ100は、周波数別に細分化された電気的信号を出力することができる。
共振器センサ100は、後述するプロセッサ210の少なくとも一部を含んでも構成される。例えば、共振器センサ100は、話者の音声を検出する動作以外に、音声に対する電気的信号を補正したり、電気的信号の特徴を算出したりするというような動作を含んでもよい。その場合、共振器センサ100は、ハードウェアモジュール及びソフトウェアモジュールを有する機能的モジュールにもなる。
プロセッサ210は、オペレーションシステム及び応用プログラムを駆動し、プロセッサ210に連結された多数の構成要素を制御することができる。プロセッサ210は、共振器センサ100から獲得された電気的信号を利用し、話者認識を行うことができる。
例えば、プロセッサ210は、共振器センサ100から受信された電気的信号を利用し、共振帯域のサイズ差を算出し、算出された共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成することができる。該共振帯域のサイズ差は、共振帯域が互いに異なる共振器から出力された電気的信号のサイズ差を意味する。帯域傾度のビットマップは、共振帯域のサイズ差を簡素化させたマップであり、後述する。
プロセッサ210は、特定話者の登録過程音声から、帯域傾度のビットマップを生成することができ、該帯域傾度のビットマップを利用し、個人化された話者モデルを生成することができる。例えば、プロセッサ210は、該帯域傾度のビットマップを高速フーリエ変換(FFT:fast Fourier transform)、2D DCT(discrete cosine transform)、DTW(dynamic time warping)、人工神経網、VQ(vector quantization)、GMM(Gaussian mixture model)などを利用し、話者登録過程音声の特徴値を生成することができ、登録過程音声の特徴値から、個人化された話者モデルを生成することができる。プロセッサ210は、一般化された背景モデル(UBM:universal background model)に、登録過程音声の特徴値を適用し、個人化された話者モデルを生成することができる。そのように生成された個人化された話者モデルは、その後入力される特定話者の音声との比較に使用するために、認証テンプレートとして、メモリ220の保安領域にも保存される。
音声認証時、プロセッサ210は、入力された不特定話者の音声から、帯域傾度のビットマップを生成し、帯域傾度のビットマップを利用し、特徴値を生成した後、登録された認証テンプレートとの比較を介して、話者を認証することができる。このとき、プロセッサ210は、登録された認証テンプレートとの比較のために、不特定話者の特徴値の形態を変換することもでき、変換された特徴値と登録された認証テンプレートとを比較し、類似度を判断することができる。該類似度は、最大類似度推定方法(maximum likelihood estimation)などを適用することができる。プロセッサ210は、類似度が第1基準値より高ければ、認証に成功したと判断することができ、該類似度が第1基準値以下であるならば、認証に失敗したと判断することができる。第1基準値は、不特定話者の特徴値が認証テンプレートが同一であると判断することができる基準になる値であり、事前に定義されている。
追加して、プロセッサ210は、共振器センサ100から受信された電気的信号を利用し、共振帯域のサイズ差を算出し、算出された共振帯域のサイズ差を利用し、母音を決定することができる。該母音は、音響エネルギーが集中される周波数帯域であるフォルマントを複数個含んでもよい。話者ごとに、特定フォルマントは、異なるが、他の母音との区別を不可能にさせるほどの変化ではない。従って、話者に係わりなく発音される母音は、一般的に区別され、認証テンプレートのうちそのように決定された母音に該当するモデルが話者認識にも使用される。母音決定方法は、後述する。
話者認識装置200は、認証テンプレートが保存されたメモリ220を含んでもよい。メモリ220には、不特定話者の音声に係わる情報が一時的に保存される。
また、話者認識装置200は、情報などを表示するディスプレイ230をさらに含んでもよい。ディスプレイ230は、認識に係わる各種情報、例えば、認識のためのユーザインターフェース、認識結果などを示すインジケータなどを表示することができる。
図4は、例示的な実施形態による、共振器を利用した話者認識方法を示した図面である。
図4を参照すれば、本開示による話者認識方法において、プロセッサ210は、共振器センサ100から、話者の音声に対応する電気的信号を受信することができる(S310)。共振器センサ100の各共振器は、音声に対応する電気的信号を出力し、プロセッサ210は、電気的信号を受信することができる。
プロセッサ210は、共振器センサ100から受信された電気的信号を利用し、共振帯域のサイズ差を算出することができる(S320)。共振帯域のサイズ差は、互いに異なる共振器で受信された電気的信号のサイズ差、例えば、周波数を基準に、隣接する共振周波数を有する2つの共振器から出力される電気的信号のサイズ差である。
プロセッサ210は、共振器センサ100に含まれた全体共振器を利用し、共振帯域のサイズ差を算出することができる。図1において、第1共振器ないし第n共振器が順次に変わる共振帯域を有する場合、プロセッサ210は、第1共振器と第2共振器とで受信された電気的信号のサイズ差を、第1共振帯域のサイズ差として算出し、第2共振器と第3共振器とで受信された電気的信号のサイズ差を、第2共振帯域のサイズ差として算出し、第n−1共振器と第n共振器とで受信された電気的信号の差を、第n−1共振帯域のサイズ差として算出することができる。
プロセッサ210は、共振器センサ100に含まれた一部共振器のみを利用し、共振帯域のサイズ差を算出することもできる。例えば、プロセッサ210は、第1共振器、第4共振器、第k共振器及び第n共振器から受信された電気的信号を利用し、共振帯域のサイズ差を算出することもできる。第1共振器と第4共振器との共振帯域が隣接し、第4共振器と第k共振器との共振帯域が隣接し、第k共振器と第n共振器との共振帯域が隣接すれば、プロセッサ210は、第1共振器と第4共振器とで受信された電気的信号の差を、第1共振帯域のサイズ差として算出することができ、第4共振器と第k共振器とで受信された電気的信号の差を、第2共振帯域のサイズ差として算出することができ、第k共振器と第n共振器とで受信された電気的信号の差を、第3共振帯域のサイズ差として算出することができる。
プロセッサ210は、算出された共振帯域のサイズ差を利用し、話者を認識することができる(S330)。例えば、プロセッサ210は、共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成し、帯域傾度のビットマップを利用し、話者音声の特徴値を生成し、生成された特徴値を、保存された認証テンプレートと比較し、話者を認識することができる。帯域傾度のビットマップは、共振帯域のサイズ差を簡素化したマップであり、後述する。
追加して、プロセッサ210は、共振帯域のサイズ差を利用し、母音を決定することができ、そのように決定された母音は、発音した話者が登録された話者であるか否かということの判断にも利用される。例えば、認証テンプレートに含まれた個人化された話者モデルのうち、決定された母音に該当するモデルに加重値を付与して使用されたり、当該モデルだけが話者認識に使用されたりもする。そのように、話者認識装置200は、共振帯域のサイズ差を利用し、話者を認識することができる。共振帯域のサイズ差を利用する方式は、共振周波数間に存在する共通ノイズを効率的に除去することができる。
図5は、共振帯域が異なる音声を示すグラフの例である。共振帯域の中心周波数識別に、共振帯域のサイズ差を利用すれば、図5にハッチングされた領域が除去される。ハッチングされた領域は、共振帯域の中心周波数と関連性が弱い周波数領域であり、ノイズに該当する。そして、共振帯域のサイズ差を利用し、中心周波数と関連度が低い共通ノイズ(common noise)を効率的に除去することができる。そのような共通ノイズの除去は、ノイズ除去のための各種アルゴリズムを利用する必要がないか、あるいはそれを簡素化させることができ、さらに効率的に音声認識を行うことができる。言い換えれば、共振帯域がサイズ差を利用すれば、ノイズ除去のための前処理過程を省略することができるか、あるいはそれを簡素化させることができる。
図6は、共振帯域のサイズ差を利用し、帯域傾度のビットマップを生成する例を示した図面である。図1及び図6を参照すれば、共振器センサ100の各共振器R1,R2,…,Rnは、話者の音声に反応して電気的信号を出力することができる。各共振器R1,R2,…,Rnは、図6(a)に図示されたような共振周波数を有することができる。話者の音声には、複数個の共振周波数が混在されており、各共振器は、話者の音声に含まれた周波数により、それに対応する電気的信号を出力することができる。例えば、話者の音声に、第1周波数が含まれていれば、第1共振器R1は、共振し、大きい電気的信号を出力することができる。
プロセッサ210は、共振器センサ100から受信された電気的信号を利用し、図6(b)に図示されたような共振帯域のサイズ差を算出することができる。プロセッサ210は、共振周波数を基準に、隣接する共振器から出力された電気的信号を利用し、共振帯域のサイズ差を算出することができる。図6(b)は、共振器センサ100に含まれた全体共振器を利用し、共振帯域のサイズ差を算出した結果を示す。図6(a)において、第1共振器ないし第n共振器が順次に変わる共振帯域を有するとしているが、プロセッサ210は、第1共振器ないし第n共振器のうち隣接する共振器の電気的信号のサイズ差を、共振帯域のサイズ差として算出することができる。例えば、第1共振帯域のサイズ差G1は、第1共振器と第2共振器とで受信された電気的信号のサイズ差であり、第2共振帯域のサイズ差G2は、第2共振器と第3共振器とで受信された電気的信号のサイズ差であり、第3共振帯域のサイズ差G3は、第3共振器と第4共振器とで受信された電気的信号のサイズ差である。そして、第n−1共振帯域のサイズ差Gn−1は、第n−1共振器と第n共振器とで受信された電気的信号のサイズ差である。
プロセッサ210は、共振帯域のサイズ差を、図6(c)に図示されたように符号化することができる。例えば、プロセッサ210は、下記の数式1を利用し、音声差を符号化することができる。
ここで、Hkは、k番目共振器の帯域特性(すなわち、電気的信号)、Hk+1は、k+1番目共振器の帯域特性を示し、Tkは、k番目帯域の共振器とk+1番目の共振器との帯域特性差を符号化した値である。符号化された値を、共振帯域のビット値とのことである。αは、任意の定数であり、実施形態によっても決定される。
図7は、一実施形態による、共振帯域のサイズ差を符号化する数式を示すグラフを示す。α及び−αは、閾値(threshold)であり、該閾値の大きさにより、話者の音声に対する符号化値は、異なる。数式1及び図7を参照すれば、話者からの音声に対して、プロセッサ210は、隣接した共振帯域を有する共振器R1,R2,…,Rn間の出力値の差が、特定値α以上であるならば、1と表現して、−α未満であるならば、−1と表現し、α未満でありながら、−α以上であるならば、0と表現することにより、共振帯域のサイズ差を、3種の結果値(−1,0,+1)に符号化することができる。
図6(c)において、T1、T2、T+、…、Tn−1で示した各領域の双方境界線での値に対して、数式1を利用し、共振帯域のビット値を算出すれば、T1は0、T2は−1、T3は0、Tnは−1と表現される結果を得ることができる。図6(d)は、図6(c)に図示されたビット値をグラフ化したものである。共振器センサ100から出力された電気的信号において、最大サイズと最小サイズは、図6(b)に図示されたように、100倍ほどの違いがある。しかし、共振器センサ100から出力された信号を、帯域傾度のビット値に変換すれば、図6(d)に図示されたように、8レベルに単純化することができる。
図6において、プロセッサ210は、共振帯域のサイズ差を、−1、0、1に符号化するとしたが、それは、例示的なものに過ぎない。プロセッサ210は、多様な形態に、共振帯域のサイズ差を符号化することができる。例えば、プロセッサ210は、共振帯域のサイズ差を、3個以上の奇数個の値のうちいずれか一つに符号化することができ、3個以上の奇数個の値のうち一つを基準に、残り値のうち対応する値は、絶対値が互いに同じであり、符号が反対でもある。例えば、プロセッサ210は、共振帯域のサイズ差を、−2、−1、0、1、2に符号化することができる。または、プロセッサ210は、共振帯域のサイズ差を、偶数個の値のうちいずれか一つに符号化することができる。偶数個の値のうち対応する値は、絶対値が互いに同じであり、符号が反対でもある。例えば、プロセッサ210は、共振帯域のサイズ差を、−3、−1、1、3に符号化することができる。
そのような作業を、共振器センサ100から出力された電気的信号全体に対して適用すれば、経時的な二次元帯域傾度のビットマップを生成することができる。二次元帯域傾度のビットマップは、話者によって異なり、話者認識のための特徴にもなる。図8は、例示的な実施形態による、経時的な二次元帯域傾度のビットマップを示す図面である。図8に図示されているように、帯域傾度のビットマップは、時間フレーム別にも生成される。プロセッサ210は、一定時間単位のフレームにより、帯域傾度のビットマップを生成することができるが、それに限定されるものではない。一定時間単位で帯域傾度のビットマップを生成したが、連続して生成されたビットマップが同一である場合、1つのビットマップのみを話者認識が利用し、その後、同一ビットマップは、話者認識に利用しない。例えば、話者が「ウ」という音節を1秒間発声し、2秒間発声しもする。そのような場合、プロセッサは、2秒間発声される間に生成された帯域傾度のビットマップを話者認識に利用することもできるが、2秒間発声される間に生成された帯域傾度のビットマップのうち同一ビットマップを除去し、同じではないビットマップのみを話者認識に利用することもできる。二次元帯域傾度のビットマップ生成方法は、認識の活用度によっても変わる。
プロセッサ210は、帯域傾度のビットマップを利用し、特定話者の個人化された話者モデルを生成し、個人化された話者モデルを認証テンプレートとして保存することにより、話者の音声を登録することができる。追って、不特定話者の音声が受信されれば、事前に保存された認証テンプレートとの類似度を比較し、不特定話者が登録された話者と同一であるか否かということを判断することができる。
例えば、認識のための音声として、「スタート」を登録する場合、特定話者は、「スタート」を発声する。共振器センサ100の各共振器、または一部の共振器は、「スタート」に対応する電気的信号を出力することができる。プロセッサ210は、共振器センサ100から受信された電気的信号から、共振帯域のサイズ差を算出して符号化し、帯域傾度のビットマップを生成した後、帯域傾度のビットマップを利用し、「スタート」に対応する個人化された特徴値を計算し、個人化された特徴値でもって、個人化された話者モデルを生成し、認証テンプレートとして登録することができる。追って、不特定話者が「スタート」を発声すれば、プロセッサ210は、それに対応する帯域傾度のビットマップを生成し、該ビットマップを利用し、不特定話者の「スタート」に該当する特徴値を計算する。プロセッサ210は、該特徴値を認証テンプレートと比較することができる形態に変換し、変換された形態の特徴値と、認証テンプレートとを比較し、不特定話者が登録された話者であるか否かということを判断し、話者認識を行うことができる。
そのように、帯域傾度、すなわち、共振帯域のサイズ差を利用し、話者認識を行えば、STFT(short time Fourier transform)やメル周波数ケプストラム係数(MFCC)などを利用した音声の処理よりも処理過程が単純化される。
本開示による話者認識方法は、追加して母音を利用することができる。母音は、構成音素であるフォルマントを含んでもよい。ここで、該フォルマントは、人の発音器官の通路の形状、大きさなどによる空洞共振(cavity resonance)現象によって生じる音響エネルギーの周波数強度の分布、すなわち、音響エネルギーが集中される周波数帯域を意味する。図9及び図10は、音声モデルにおいて、特定母音のエネルギー分布を示したグラフである。図9は、母音[AH]発音の共振帯域を示すスペクトルであり、図10は、母音[EE]発音の共振帯域を示すスペクトルである。図9及び図10を参照し、母音のスペクトルについて述べれば、共振帯域が一つではなく、いくつか存在するということを確認することができる。話者により、母音[AH]発音及び母音[EE]発音のスペクトルは、異なる。しかし、そのような話者によるスペクトルの変化は、母音[AH]と母音[EE]とを区別することができないほどではない。そのような現象は、他の母音にも、同一に適用される。言い換えれば、話者個人の音声特徴にもかかわらず、母音は、一般的に区別される。
母音において、共振帯域を低い周波数の方から、第1フォルマントF1、第2フォルマントF2及び第3フォルマントF3と称することができ、第1フォルマントF1の中心周波数が最も小さく、第3フォルマントF3の中心周波数が最も大きい。第2フォルマントF2の中心周波数は、第1フォルマントF1と第3フォルマントF3との間の大きさを有することができる。話者からの音声に対して、図1に示した共振器センサ100の各共振器R1,R2,…,Rnによる出力を比較すれば、音声の中心周波数を決定することができ、第1フォルマントF1、第2フォルマントF2及び第3フォルマントF3の位置を得ることができる。第1フォルマントF1、第2フォルマントF2及び第3フォルマントF3の位置を得れば、話者からの音声での母音を得ることができる。
図11及び図12は、例示的な実施形態による、母音決定と係わり、互いに離隔された共振器を利用したフォルマントの位置を推定するところを示したグラフである。
図1に示した共振器センサ100の各共振器R1,R2,…,Rnにおいて、互いに異なる2個の共振器は、話者からの入力信号に対応する電気的信号を出力することができる。離隔された2個の共振器は、隣接したり隣接しなかったりする共振器でもある。図11を参照すれば、共振周波数がωaである第1共振器、及び共振周波数がωeである第2共振器は、話者の入力信号に対応する互いに異なる大きさの電気的信号を出力することができる。例えば、音声の中心周波数がωaである場合、第1共振器での出力値H1(ω)は、非常に大きくなり、第2共振器での出力値H2(ω)は、ゼロであるか、あるいは非常に小さくなる。そして、音声の中心周波数がωcである場合、第1共振器での出力値H1(ω)、及び第2共振器での出力値H2(ω)は、いずれも非常に小さくなる。また、音声の中心周波数がωeである場合、第1共振器での出力値H1(ω)は、ゼロであるか、あるいは非常に小さくなり、第2共振器での出力値H2(ω)は、非常に大きくなる。
言い換えれば、音声の中心周波数が、ωa、ωb、ωc、ωdまたはωeなどの値を有する場合、第1共振器及び第2共振器での出力値が互いに異なる。従って、第1共振器及び第2共振器の出力値の差(H2(ω)−H1(ω))も、図12に図示されているように、音声の中心周波数によっても異なるということを確認することができる。それにより、2つの共振期間の出力値の差から、音声の中心周波数を逆に決定することができる。すなわち、共振器間の共振帯域のサイズ差を利用し、音声の中心周波数であるフォルマントを決定することができ、中心周波数の位置から母音を決定することができる。
母音は、一般的に3個のフォルマントを含んでいるが、プロセッサ210は、共振器センサ100のうち4個の共振器を選択し、選択された共振器から出力された電気的信号を利用し、フォルマントを決定することができる。
図13は、例示的な実施形態による、母音のフォルマントの位置を示す参照図面である。
図13を参照すれば、横軸は、母音の種類を示し、縦軸は、各母音による第1フォルマントF1、第2フォルマントF2及び第3フォルマントF3の中心周波数を示す。図13に示した各母音による第1フォルマントF1、第2フォルマントF2及び第3フォルマントF3の位置は、一般的に知られている各母音のフォルマントの位置データを使用することができる。例えば、母音のフォルマントの位置は、UBM(universal background model)と称する多様な話者による母音情報データベースを利用しても獲得される。
図13に図示されているように、各母音は、一般的に、3個のフォルマントを含むということを確認することができる。そして、母音ごとに、フォルマントの位置が異なるということを確認することができる。3個のフォルマントのうち最も低い中心周波数のフォルマントを、第1フォルマント、最も高い中心周波数のフォルマントを、第3フォルマント、及び真ん中の中心周波数のフォルマントを、第2フォルマントと称することができる。
3個のフォルマントを決定するために、プロセッサ210は、図1に図示された共振器センサ100において、共振周波数が互いに異なる4個の共振器を選択することができる。4個の共振器の選択において、第1フォルマントの中心周波数より低い共振周波数を有する共振器のうちいずれか一つを、第1共振器に、第1フォルマントの中心周波数と、第2フォルマントの中心周波数との間の共振周波数を有する共振器のうちいずれか一つを、第2共振器に、第2フォルマントの中心周波数と、第3フォルマントの中心周波数との間の共振周波数を有する共振器のうちいずれか一つを、第3共振器に、第3フォルマントの中心周波数より大きい共振周波数を有する共振器のうちいずれか一つを、第4共振器に選択することができる。例えば、プロセッサ210は、それぞれ約300Hz、約810Hz、約2,290Hz、約3,000Hzである共振周波数を有する4個の共振器が選択される。
プロセッサ210は、4個の共振器のうち、共振帯域が隣接する2つの共振器の出力値の差を利用し、第1フォルマントないし第3フォルマントを決定することができる。例えば、第1共振器及び第2共振器の出力値の差(H2(ω)−H1(ω))により、第1フォルマントを決定し、第2共振器及び第3共振器の出力値の差(H3(ω)−H2(ω))により、第2フォルマントを決定することができる。そして、第3フォルマントF3は、第3共振器及び第4共振器の出力値の差(H4(ω)−H3(ω))によって決定することができる。プロセッサ210は、第1共振器及び第2共振器の出力値の差(H2(ω)−H1(ω))、第2共振器及び第3共振器の出力値の差(H3(ω)−H2(ω))、第3共振器及び第4共振器の出力値の差(H4(ω)−H3(ω))から、それぞれ第1フォルマントないし第3フォルマントを決定することができ、第1フォルマントないし第3フォルマントを利用し、話者がだれであるかということに係わりなく発音された母音を決定することができる。そのように決定された母音は、発音した話者が登録された話者であるか否かということを判断するのにも利用される。具体的には、認証テンプレートに含まれた個人化された話者モデルのうち、決定された母音に該当するモデルだけ話者認識にも使用される。
図14は、母音と帯域傾度とのビットマップを利用し、話者を認識する方法について説明するフローチャートである。図14を参照すれば、プロセッサ210は、共振器センサ100から、話者の音声に対応する電気的信号を受信することができる(S1110)。例えば、話者は「ウリ(韓国語で「私ども」の意味)」を発声することができ、共振器センサ100は、「ウリ」に対応する電気的信号を出力することにより、プロセッサ210は、「ウリ」に対応する電気的信号を受信することができる。
プロセッサ210は、一部共振器で受信された電気的信号を利用し、共振帯域のサイズ差を算出することができる(S1120)。一部共振器は、母音のフォルマントを決定するためのものとして、事前に定義される。例えば、プロセッサ210は、前述の3個のフォルマントを決定するために、既決定の4個の共振器で受信された電気的信号を利用し、共振帯域のサイズ差を算出することができる。
プロセッサ210は、一部共振器の共振帯域のサイズ差を利用し、母音を決定することができる(S1130)。例えば、プロセッサ210は、4個の共振器帯域のサイズ差を利用し、第1フォルマントないし第3フォルマントを決定し、第1フォルマントないし第3フォルマントの相対的位置関係を利用し、母音を決定することができる。母音決定時、図13に図示されたグラフを利用することができる。例えば、プロセッサ210は、第1フォルマントないし第3フォルマントの相対的位置関係を利用し、時間順に「ウ」及び「イ」という母音を決定することができる。
プロセッサ210は、決定された母音に加重値を割り当てることができる(S1140)。例えば、プロセッサ210は、決定された母音の加重値を、他の母音の加重値と異なり、高く割り当てることができる。
一方、プロセッサ210は、共振器センサ100に含まれた全体共振器から受信された電気的信号を利用し、帯域傾度のビットマップを生成することができる(S1150)。具体的には、共振器センサ100の全体共振器から受信された電気的信号を利用し、共振帯域のサイズ差を算出して符号化し、帯域傾度のビットマップを生成することができる。S1150段階において、プロセッサ210は、全体共振器から受信された電気的信号を利用し、帯域傾度のビットマップを生成するとしたが、一部共振器から受信された電気的信号を利用し、帯域傾度のビットマップを生成することもできる。帯域傾度のビットマップは、母音決定より詳細な話者の音声に係わる情報を含まなければならないために、母音決定のために利用される共振器の個数よりも多い。
プロセッサ210は、生成された帯域傾度のビットマップを利用し、話者特徴値を生成することができる(S1160)。プロセッサ210は、帯域傾度のビットマップを高速フーリエ変換(FFT)、2D DCT(discrete cosine transform)、DTW(dynamic time warping)、人工神経網、VQ(vector quantization)、GMM(Gaussian mixture model)などを利用し、帯域傾度のビットマップから、話者特徴値を生成することができる。該話者特徴値は、認証テンプレートと比較することができる形態にも変換され、その変換過程において、プロセッサ210は、一般化された背景モデル(UBM:universal background model)を使用することもできる。
プロセッサ210は、加重値を利用して変換された話者特徴値と、認証テンプレートとを比較することにより、話者を認識することができる(S1170)。認証テンプレートにおいて決定された母音成分に該当するモデルに高い加重値を適用し、他の母音成分には、低い加重値を適用することができる。例えば、決定された母音が「ウ」及び「イ」である場合、該プロセッサは、認証テンプレートにおいて、「ウ」及び「イ」の成分に該当するモデルに高い加重値を適用し、残り成分には、低い加重値を適用して変換された話者特徴値と、認証テンプレートとを比較することができる。該比較結果が基準値以上である場合、プロセッサ210は、発音した話者を登録された話者と判断することができ、比較結果が基準値未満である場合、発音した話者が登録された話者ではないと判断することができる。
割り当てられた加重値は、1または0でもある。言い換えれば、プロセッサ210は、認証テンプレートのうち決定された母音に該当するモデルのみを比較に利用することもできる。
図15は、短い発話時、話者特徴値と認証テンプレートとの比較について説明する参照図面である。図15において、斜線領域は、UBMモデルを示し、+パターン領域は、個人化された話者モデル、すなわち、登録された認証テンプレートを示し、▲は、話者特徴値を示す。例えば、話者が「ウリ」と短く発話すれば、プロセッサ210は、発話した母音成分として、「ウ(U)」及び「イ(I)」を獲得することができる。プロセッサ210が話者特徴値を生成するとき、「ウ」及び「イ」の母音成分が話者を示す特徴にもなる。従って、認証テンプレートにおいて、「ウ」及び「イ」の母音成分に該当するモデル1210の加重値が高く、残り母音成分に該当するモデル1220の加重値が低く割り当てられれば、話者特徴値1230との類似度判断時、発話された母音成分の影響力が大きいために、話者認識の正確度を高めることができる。
話者特徴値を生成する段階(S1150及びS1160)と、加重値を割り当てるための一連の段階(S1120ないしS1140)は、必ずしも順次に実行されるものではなく、2つの過程を同時に進めたり、加重値を割り当てるための過程のうち一部段階をまず進めたりし、その後、話者特徴値を生成する段階(S1150及びS1160)を進めることができる。例えば、図1に示した共振器センサ100において、互いに異なる帯域を有した4個の共振器を利用し、話者の音声から母音を決定する段階(S1130)を進めると共に、全体共振器R1,R2,…,Rnによって出力された信号を利用し、帯域傾度のビットマップを生成する段階(S1150)を進めることができる。
これまで、帯域傾度のビットマップと母音決定とをいずれも利用し、話者を認識する方法について説明したが、帯域傾度のビットマップを利用し、話者を認識することも可能である。例えば、既決定の特定単語(例:「スタート」)を使用し、話者を認識すると約束された場合、認証テンプレートは、特定話者の「スタート」に該当する個人化されたモデルだけで認識が可能である。その場合、帯域傾度のビットマップのみを利用し、話者認識が可能であり、母音決定は不要となる。それと異なり、特定話者がランダムに、単語、句または文章を発話する場合にも、認識が可能になるためには、認証テンプレートに、多くの個人化されたモデルが必要となる。その場合、個人化されたモデルは、母音別に区別され、決定された母音に該当するモデルが、認識のための比較にも使用される。また、帯域傾度のビットマップではない他の方法によって生成された話者の特徴値に、母音によって割り当てられた加重値を適用することにより、話者を認識することもできる。前述のように、本開示による共振器を利用した話者認識方法及びその装置において、共振器センサ100は、多様な形態の多数の機械的共振器(mechanical resonator)を含んでもよい。共振器センサ100の場合、多様な形態を有することができ、含まれる共振器の形状または配列は、必要によっても選択される。共振器センサ100に含まれる共振器の中心周波数は、図2に示した支持部14の長さLを調節して変更させることができる。ユーザの必要により、共振器センサ100の共振器は、多様な中心周波数間隔を有するようにも形成される。
図16及び図17は、例示的な実施形態による、共振器センサ100aの多数の共振器の中心周波数が、等比間隔に設定された例を示した図面である。
図16を参照すれば、共振器Rmの中心周波数は、共振器長、すなわち、図2に示した支持部14の長さLの二乗に逆比例する。それにより、図17に図示されているように、共振器センサ100aに含まれる共振器Rmは、互いに隣接する共振器Rm間の長さの差が一定である場合、比較的低い周波数の中心周波数を有した共振器の比率高周波領域の中心周波数を有した共振器の比率に比べて大きくなる。
図18及び図19は、例示的な実施形態による、共振器センサ100bの多数の共振器の中心周波数が、等差間隔に設定された例を示した図面である。
図18及び図19を参照すれば、共振器センサ100bに含まれる共振器Rnは、互いに隣接する共振器Rn間の長さの差を、長さが長い共振器から短い共振器に行くほど小さく形成することができる。その場合、共振器Rnの中心周波数の差は、一定等差間隔を有するようにも設定される。
図20及び図21は、例示的な実施形態による、共振器センサ100cの多数の共振器の中心周波数が、任意の間隔に設定された例を示した図面である。
図20及び図21を参照すれば、共振器センサ100cに含まれる共振器Roの長さ間隔を、特定規則性を有さない形態に、共振器センサ100cが形成される。例えば、図21においては、2,000ないし3,000Hz区間の中心周波数を有した共振器の比率を高めるために、一部区間の共振器の長さが調節される。
そのように、本開示による共振器を利用した話者認識方法及びその装置において、共振器センサ100,100a,100b,100cは、等差、等比の共振周波数を有した共振器を含んだり、任意の帯域の共振周波数を有したりするように形成された共振器を含んでもよい。
図22は、例示的な実施形態による、多数の共振器を含む共振器センサ100dの概略的な構造を示した平面図である。
図22を参照すれば、共振器センサ100dは、中央部位に、キャビティまたは貫通ホール40が形成された支持部30、及び支持部30から延長され、キャビティまたは貫通ホール40を取り囲んで形成された多数の共振器Rを含んでもよい。前述の図1においては、共振器センサ100の共振器R1,R2,…,Rnが一方向に並んで延長されて形成された構造を示したが、図13に図示されているように、本開示による共振器センサ100dは、多様な構造を有するようにも形成される。
図23ないし図25は、例示的な実施形態による、共振器センサの多数の共振器の帯域幅を多様に変更させた例を示したグラフである。
本開示による共振器センサの場合、必要により、共振器帯域の周波数間隔を変更させたり、特定帯域の分解能を向上させるために、共振器の帯域を狭くしたりして形成することができる。例えば、図23の共振器周波数帯域幅を、基準帯域幅S11とすれば、図24の場合、基準帯域幅S11より狭い帯域幅S12を有するように共振器を形成することができる。また、図25に図示されているように、図23の基準帯域幅S11より広い帯域幅S13を有するように共振器を形成することができる。
図26は、例示的な実施形態による、共振器センサの多数の共振器のうち特定共振器の帯域幅が広く設定されたところを示したグラフである。
図26を参照すれば、図3の入力信号の母音を決定するために使用される共振器センサ100の特定共振器の帯域幅S22を、共振器センサ100の残り共振器の帯域幅S21に比べて相対的に広く形成し、入力信号の母音を決定する過程をさらに効率的に進めることができる。
前述のような話者認識方法及びその装置は、多様な分野にも応用される。例えば、音声信号を介して、話者が登録された話者であるか否かということを正確に認識することにより、モバイル機器、家庭または車に採用されたり装着されたりした特定機器を動作させたりロッキングさせたりすることができる。
以上、技術的原理の理解の一助とするために、例示的な実施形態について説明され、添付された図面に図示された。しかし、そのような実施形態は、単に例示的なものであり、権利範囲を制限するものではないという点が理解されなければならないのである。
11 固定部、
12 センサ部、
12a 下部電極、
12b 圧電物質層、
12c 上部電極、
14、30 支持部、
16 質量部、
40 貫通ホール、
R 共振器、
100、100d 共振器センサ、
200 話者認識装置、
210 プロセッサ、
220 メモリ、
230 ディスプレイ。

Claims (32)

  1. 互いに異なる共振帯域を有する複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を受信する段階と、
    前記電気的信号を利用し、前記共振帯域のサイズ差を算出する段階と、
    前記共振帯域のサイズ差を利用し、前記話者を認識する段階と、
    を含む話者認識方法。
  2. 前記共振帯域のサイズ差は、
    周波数を基準に、隣接する共振周波数を有する2つの共振器から出力された電気的信号のサイズ差であることを特徴とする請求項1に記載の話者認識方法。
  3. 前記話者を認識する段階は、
    前記共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成する段階と、
    前記帯域傾度のビットマップを利用し、前記話者を認識する段階と、
    を含むことを特徴とする請求項1に記載の話者認識方法。
  4. 前記符号化は、
    前記共振帯域のサイズ差を、3以上の奇数個の値のうちいずれか一つに変換することを特徴とする請求項3に記載の話者認識方法。
  5. 前記3以上の奇数個の値は、
    1つの値を基準に、残りの値のうち対応する値は、絶対値が同じでありながら、符号が反対であることを特徴とする請求項4に記載の話者認識方法。
  6. 前記3以上の奇数個の値は、
    a、0、−a(ここで、aは、定数である)を含むことを特徴とする請求項4に記載の話者認識方法。
  7. 話者音声が登録過程音声である場合、前記話者を認識する段階は、
    前記帯域傾度のビットマップを利用し、話者モデルを生成する段階と、
    前記話者モデルを認証テンプレートとして登録する段階と、
    を含むことを特徴とする請求項3に記載の話者認識方法。
  8. 前記話者音声が登録過程音声ではない場合、前記話者を認識する段階は、
    前記帯域傾度のビットマップを利用し、話者特徴値を生成する段階と、
    前記話者特徴値を、前記登録された認証テンプレートと比較し、前記話者が登録された話者であるか否かということを決定する段階と、
    を含むことを特徴とする請求項7に記載の話者認識方法。
  9. 前記話者を認識する段階は、
    前記共振帯域のサイズ差を利用し、前記話者の音声のうち母音を決定する段階を含むことを特徴とする請求項1に記載の話者認識方法。
  10. 前記母音を決定する段階は、
    前記共振帯域のサイズ差を利用し、フォルマントの相対的位置を推定する段階と、
    前記フォルマントの相対的位置から前記母音を決定する段階と、
    を含むことを特徴とする請求項9に記載の話者認識方法。
  11. 前記フォルマントの個数は、3個であることを特徴とする請求項10に記載の話者認識方法。
  12. 前記共振帯域のサイズ差は、
    共振器センサのうち4個の共振器から受信された電気的信号の大きさによって決定されることを特徴とする請求項10に記載の話者認識方法。
  13. 前記話者を認識する段階は、
    前記決定された母音に加重値を割り当てる段階と、
    前記母音を決定するために利用された共振帯域のサイズ差と異なる、共振帯域のサイズ差を利用し、帯域傾度のビットマップを生成する段階と、
    前記帯域傾度のビットマップを利用し、話者特徴値を生成する段階と、
    前記加重値を利用し、前記話者特徴値と認証テンプレートとを比較することにより、前記話者が登録された話者であるか否かということを認識する段階と、
    を含むことを特徴とする請求項9に記載の話者認識方法。
  14. 前記加重値を割り当てる段階は、
    前記決定された母音の加重値を、他の母音の加重値より高く割り当てることを特徴とする請求項13に記載の話者認識方法。
  15. 前記加重値は、
    前記決定された母音には、1が割り当てられ、前記他の母音には、0が割り当てられたことを特徴とする請求項14に記載の話者認識方法。
  16. 前記帯域傾度のビットマップを生成するために利用された共振帯域のサイズ差の個数は、前記母音を決定するために利用された共振帯域のサイズ差の個数より多いことを特徴とする請求項14に記載の話者認識方法。
  17. 互いに異なる共振帯域を有する複数個の共振器を含み、前記複数個の共振器のうち少なくとも一部の共振器から、話者の音声に対応する電気的信号を出力する共振器センサと、
    前記電気的信号を利用し、共振帯域のサイズ差を算出し、前記共振帯域のサイズ差を利用し、前記話者を認識するプロセッサと、を利用した話者認識装置。
  18. 前記共振帯域のサイズ差は、
    周波数を基準に、隣接する共振周波数を有する2つの共振器から出力された電気的信号のサイズ差であることを特徴とする請求項17に記載の話者認識装置。
  19. 前記プロセッサは、
    前記共振帯域のサイズ差を符号化し、帯域傾度のビットマップを生成し、前記帯域傾度のビットマップを利用し、前記話者を認識することを特徴とする請求項17に記載の話者認識装置。
  20. 前記プロセッサは、
    前記共振帯域のサイズ差を、3以上の奇数個の値のうちいずれか一つに変換することにより、前記共振帯域のサイズ差を符号化することを特徴とする請求項19に記載の話者認識装置。
  21. 前記プロセッサは、
    前記帯域傾度のビットマップを利用し、決定された話者特徴値を、登録された認証テンプレートと比較し、前記話者が登録された話者であるか否かということを決定することを特徴とする請求項19に記載の話者認識装置。
  22. 前記プロセッサは、
    前記共振帯域のサイズ差を利用し、前記話者の音声のうち母音を決定することを特徴とする請求項17に記載の話者認識装置。
  23. 前記プロセッサは、
    前記共振帯域のサイズ差を利用し、フォルマントの相対的位置を推定し、前記フォルマントの相対的位置から前記母音を決定することを特徴とする請求項22に記載の話者認識装置。
  24. 前記共振帯域のサイズ差は、
    前記共振器センサのうち4個の共振器から受信された電気的信号の大きさによって決定されることを特徴とする請求項23に記載の話者認識装置。
  25. 前記プロセッサは、
    前記決定された母音に加重値を割り当て、
    前記母音を決定するために利用された共振帯域のサイズ差と異なる、共振帯域のサイズ差を利用し、話者特徴値を生成し、
    前記加重値を利用し、前記話者特徴値と認証テンプレートとを比較することにより、話者を認識することを特徴とする請求項23に記載の話者認識装置。
  26. 帯域傾度のビットマップを生成するために利用された共振帯域のサイズ差の個数は、前記母音を決定するために利用された共振帯域のサイズ差の個数より多いことを特徴とする請求項25に記載の話者認識装置。
  27. 話者の音声に対応する周波数帯域の信号を受信する段階と、
    前記信号のサイズ差を算出する段階と、
    前記サイズ差を利用し、前記話者の音声のうち母音を決定する段階と、
    前記決定された母音を利用し、前記話者が登録された話者であるか否かということを判断する段階と、
    を含む話者認識方法。
  28. 前記母音を決定する段階は、
    前記サイズ差を利用し、フォルマントの相対的位置を推定する段階と、
    前記フォルマントの相対的位置から前記母音を決定する段階と、
    を含むことを特徴とする請求項27に記載の話者認識方法。
  29. 前記周波数帯域の信号は、
    互いに異なる共振帯域を有する複数個の共振器から受信することを特徴とする請求項28に記載の話者認識方法。
  30. 前記話者が登録された話者であるか否かということを判断する段階は、
    前記決定された母音に加重値を割り当てる段階と、
    前記話者の音声に対応する前記話者の特徴値を生成する段階と、
    前記加重値を利用し、前記話者の特徴値と認証テンプレートとを比較することにより、前記話者が登録された話者であるか否かということ判断する段階と、
    を含むことを特徴とする請求項27に記載の話者認識方法。
  31. 前記加重値を割り当てる段階は、
    前記決定された母音の加重値を、他の母音の加重値より高く割り当てることを特徴とする請求項30に記載の話者認識方法。
  32. 前記加重値は、
    前記決定された母音には、1が割り当てられ、前記他の母音には、0が割り当てられることを特徴とする請求項31に記載の話者認識方法。
JP2019534648A 2016-12-29 2017-12-19 共振器を利用した話者認識方法及びその装置 Active JP7048619B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20160182792 2016-12-29
KR10-2016-0182792 2016-12-29
PCT/KR2017/015020 WO2018124590A1 (ko) 2016-12-29 2017-12-19 공진기를 이용한 화자 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2020504329A true JP2020504329A (ja) 2020-02-06
JP7048619B2 JP7048619B2 (ja) 2022-04-05

Family

ID=62709541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019534648A Active JP7048619B2 (ja) 2016-12-29 2017-12-19 共振器を利用した話者認識方法及びその装置

Country Status (6)

Country Link
US (2) US11341973B2 (ja)
EP (1) EP3598086B1 (ja)
JP (1) JP7048619B2 (ja)
KR (1) KR102520858B1 (ja)
CN (1) CN110121633B (ja)
WO (1) WO2018124590A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102335774B1 (ko) 2017-09-01 2021-12-06 삼성전자주식회사 다중 공진기 어레이를 포함하는 소리 방향 탐지 센서
KR102477099B1 (ko) * 2018-08-21 2022-12-13 삼성전자주식회사 소리 방향 탐지 센서 및 이를 포함하는 전자 장치
KR20200024602A (ko) * 2018-08-28 2020-03-09 삼성전자주식회사 사용자 단말의 학습 방법 및 장치
KR102626924B1 (ko) 2019-06-20 2024-01-19 삼성전자주식회사 지향성 음향 센서와, 이를 이용한 지향 특성의 조절 방법 및 특정 방향의 음향 신호 감쇄 방법
US20220188432A1 (en) * 2020-12-14 2022-06-16 Netflix, Inc. Secure video capture platform
KR20220121631A (ko) * 2021-02-25 2022-09-01 삼성전자주식회사 음성 인증 방법 및 이를 이용한 장치
US20230169981A1 (en) * 2021-11-30 2023-06-01 Samsung Electronics Co., Ltd. Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals
KR20230086877A (ko) 2021-12-08 2023-06-16 삼성전자주식회사 지향성 음향 센서
KR20230095689A (ko) 2021-12-22 2023-06-29 삼성전자주식회사 마이크로폰 패키지 및 이를 포함하는 전자 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02500864A (ja) * 1987-07-09 1990-03-22 ブリテツシュ・テレコミユニケイシヨン・パブリツク・リミテツド・カンパニー パターン認識
JPH1097274A (ja) * 1996-09-24 1998-04-14 Kokusai Denshin Denwa Co Ltd <Kdd> 話者認識方法及び装置
JP2002196784A (ja) * 2000-12-27 2002-07-12 Sumitomo Metal Ind Ltd 時系列信号の識別方法及び装置
US6791433B1 (en) * 1999-07-14 2004-09-14 International Business Machines Corporation Signal processing by means of resonators
JP2004538526A (ja) * 2001-08-09 2004-12-24 サムスン エレクトロニクス カンパニー リミテッド 音声登録方法及びそのシステム,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステム
JP2005202309A (ja) * 2004-01-19 2005-07-28 Sony Corp 認証方法、認証装置及びmemsフィルタバンク

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4343969A (en) * 1978-10-02 1982-08-10 Trans-Data Associates Apparatus and method for articulatory speech recognition
US4379949A (en) * 1981-08-10 1983-04-12 Motorola, Inc. Method of and means for variable-rate coding of LPC parameters
US5054085A (en) * 1983-05-18 1991-10-01 Speech Systems, Inc. Preprocessing system for speech recognition
US5856722A (en) 1996-01-02 1999-01-05 Cornell Research Foundation, Inc. Microelectromechanics-based frequency signature sensor
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
SE515447C2 (sv) * 1996-07-25 2001-08-06 Telia Ab Metod och anordning för talverifiering
JP3248452B2 (ja) 1997-05-26 2002-01-21 住友金属工業株式会社 音響センサ
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
JP2001117579A (ja) 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
EP1246164A1 (en) * 2001-03-30 2002-10-02 Sony France S.A. Sound characterisation and/or identification based on prosodic listening
EP1565899A1 (en) 2002-11-27 2005-08-24 Visual Pronunciation Software Ltd. A method, system and software for teaching pronunciation
US20050171774A1 (en) * 2004-01-30 2005-08-04 Applebaum Ted H. Features and techniques for speaker authentication
DE102004013952A1 (de) 2004-03-22 2005-10-20 Infineon Technologies Ag Schaltkreis-Anordnung und Signalverarbeitungs-Vorrichtung
US7454337B1 (en) * 2004-05-13 2008-11-18 The United States Of America As Represented By The Director, National Security Agency, The Method of modeling single data class from multi-class data
US7991167B2 (en) * 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
US10154819B2 (en) * 2006-04-20 2018-12-18 Jack S. Emery Systems and methods for impedance analysis of conductive medium
US7863714B2 (en) 2006-06-05 2011-01-04 Akustica, Inc. Monolithic MEMS and integrated circuit device having a barrier and method of fabricating the same
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
US8103027B2 (en) 2007-06-06 2012-01-24 Analog Devices, Inc. Microphone with reduced parasitic capacitance
JP5203730B2 (ja) * 2008-01-28 2013-06-05 株式会社東芝 磁気共鳴診断装置
US20090326939A1 (en) * 2008-06-25 2009-12-31 Embarq Holdings Company, Llc System and method for transcribing and displaying speech during a telephone call
WO2010045107A2 (en) 2008-10-14 2010-04-22 Knowles Electronics, Llc Microphone having multiple transducer elements
CN101436405A (zh) * 2008-12-25 2009-05-20 北京中星微电子有限公司 说话人识别方法和系统
KR101022519B1 (ko) * 2009-04-17 2011-03-16 고려대학교 산학협력단 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
US9031834B2 (en) * 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US8831942B1 (en) * 2010-03-19 2014-09-09 Narus, Inc. System and method for pitch based gender identification with suspicious speaker detection
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
CN102655003B (zh) 2012-03-21 2013-12-04 北京航空航天大学 基于声道调制信号mfcc的汉语语音情感点识别方法
CN104704560B (zh) * 2012-09-04 2018-06-05 纽昂斯通讯公司 共振峰依赖的语音信号增强
US20140100839A1 (en) * 2012-09-13 2014-04-10 David Joseph Arendash Method for controlling properties of simulated environments
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
KR20140050951A (ko) * 2012-10-22 2014-04-30 한국전자통신연구원 음성 인식 시스템
CN102968990B (zh) * 2012-11-15 2015-04-15 朱东来 说话人识别方法和系统
US10203762B2 (en) * 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US9621713B1 (en) * 2014-04-01 2017-04-11 Securus Technologies, Inc. Identical conversation detection method and apparatus
US10008216B2 (en) * 2014-04-15 2018-06-26 Speech Morphing Systems, Inc. Method and apparatus for exemplary morphing computer system background
KR102207928B1 (ko) 2014-08-13 2021-01-26 삼성전자주식회사 음향 센싱 소자 및 주파수 정보 획득 방법
KR101718214B1 (ko) * 2015-06-09 2017-03-20 한국과학기술원 사물인터넷용 초저전력 유연압전 음성인식 센서
US9558734B2 (en) * 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice
KR20180015482A (ko) 2016-08-03 2018-02-13 삼성전자주식회사 음향 스펙트럼 분석기 및 이에 구비된 공진기들의 배열방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02500864A (ja) * 1987-07-09 1990-03-22 ブリテツシュ・テレコミユニケイシヨン・パブリツク・リミテツド・カンパニー パターン認識
JPH1097274A (ja) * 1996-09-24 1998-04-14 Kokusai Denshin Denwa Co Ltd <Kdd> 話者認識方法及び装置
US6791433B1 (en) * 1999-07-14 2004-09-14 International Business Machines Corporation Signal processing by means of resonators
JP2002196784A (ja) * 2000-12-27 2002-07-12 Sumitomo Metal Ind Ltd 時系列信号の識別方法及び装置
JP2004538526A (ja) * 2001-08-09 2004-12-24 サムスン エレクトロニクス カンパニー リミテッド 音声登録方法及びそのシステム,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステム
JP2005202309A (ja) * 2004-01-19 2005-07-28 Sony Corp 認証方法、認証装置及びmemsフィルタバンク

Also Published As

Publication number Publication date
EP3598086A4 (en) 2020-08-26
JP7048619B2 (ja) 2022-04-05
CN110121633A (zh) 2019-08-13
US11341973B2 (en) 2022-05-24
EP3598086A1 (en) 2020-01-22
CN110121633B (zh) 2023-04-04
KR102520858B1 (ko) 2023-04-13
US20220270615A1 (en) 2022-08-25
EP3598086B1 (en) 2024-04-17
US11887606B2 (en) 2024-01-30
US20190348050A1 (en) 2019-11-14
KR20190092379A (ko) 2019-08-07
WO2018124590A1 (ko) 2018-07-05

Similar Documents

Publication Publication Date Title
JP7048619B2 (ja) 共振器を利用した話者認識方法及びその装置
KR101688354B1 (ko) 신호 소스 분리
EP2022042B1 (en) Intersession variability compensation for automatic extraction of information from voice
US20160071526A1 (en) Acoustic source tracking and selection
CN110706714B (zh) 说话者模型制作系统
US10878812B1 (en) Determining devices to respond to user requests
Jung et al. Deep learning-based noise robust flexible piezoelectric acoustic sensors for speech processing
Tjandra et al. Combination of two-dimensional cochleogram and spectrogram features for deep learning-based ASR
Das et al. A voice identification system using hidden markov model
Jolad et al. An art of speech recognition: a review
Saritha et al. A comprehensive review on speaker recognition
CN111261184A (zh) 声源分离装置和声源分离方法
KR101593672B1 (ko) 음향 분리 방법 및 장치
DiPassio et al. Direction of arrival estimation of an acoustic wave using a single structural vibration sensor
Larcher et al. Constrained temporal structure for text-dependent speaker verification
Jayamaha et al. Voizlock-human voice authentication system using hidden markov model
Lee et al. Fast frequency discrimination and phoneme recognition using a biomimetic membrane coupled to a neural network
JP2000200098A (ja) 学習装置および学習方法、並びに認識装置および認識方法
Thakur et al. Design of Hindi key word recognition system for home automation system using MFCC and DTW
Jung et al. Normalized minimum-redundancy and maximum-relevancy based feature selection for speaker verification systems
DiPassio et al. Estimating the Direction of Arrival of a Spoken Wake Word Using a Single Sensor on an Elastic Panel
Ichikawa et al. Harmonic feature fusion for robust neural network-based acoustic modeling
JP2010145784A (ja) 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム
US10930279B2 (en) Voice frequency analysis system, voice frequency analysis method, and voice recognition system and voice recognition method using the same
Manzo-Martínez et al. A New and Efficient Alignment Technique by Cosine Distance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220324

R150 Certificate of patent or registration of utility model

Ref document number: 7048619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150