JP2019028464A

JP2019028464A - 話者認証方法及び音声認識システム

Info

Publication number: JP2019028464A
Application number: JP2018140621A
Authority: JP
Inventors: 奉眞李; Bong Jin Lee; 明祐呉; Myung Woo Oh; 益 ▲祥▼ 韓; Ick Sang Han; 五赫權; Oh Hyeok Kwon; 丙烈金; Byeong Yeol Kim; 燦奎李; Chan Kyu Lee; 貞姫任; Jung Hui Im; 丁牙崔; Jung A Choi; 秀桓金; Suhwan Kim; 漢容姜; Han Yong Kang
Original assignee: Line Corp; Naver Corp
Current assignee: Z Intermediate Global Corp; Naver Corp
Priority date: 2017-07-26
Filing date: 2018-07-26
Publication date: 2019-02-21
Anticipated expiration: 2038-07-26
Also published as: KR102002903B1; JP6738867B2; KR20190012066A

Abstract

【課題】話者認証方法及び音声認識システムを提供する。【解決手段】話者を正確に認識することができる音声認識システム及びその話者認証方法に関し、本話者認証方法は、音声認識サーバが実行する次の段階を含む：音声認識装置から、第１話者の音声を含む音声信号を受信する段階、音声信号に対して音声認識を実行し、第１音声認識結果を生成する段階、音声信号から、第１話者特徴ベクトルを抽出し、第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算する段階、類似度が、第１基準値以上である場合、音声信号の話者が登録された第２話者であると決定する段階、第１話者または第２話者に認証音声を要求する段階、第１話者または第２話者から、認証音声信号を受信する段階、認証音声信号を基に、第２話者と第１話者との同一性を認証する段階、及び、同一性が認証された場合、第１音声認識結果に対応する動作を実行する段階。【選択図】図４Ａ

Description

本発明は、話者認証方法及び話者認識システムに関し、さらに詳細には、音声認識装置及び音声認識サーバを含む音声認識システムにおいて話者を認証する方法に関する。

音声認識機能が搭載された人工知能スピーカ装置が市場に出回っている。人工知能スピーカ装置は、ユーザの音声を認識し、音声に含まれている命令を抽出し、命令による動作を実行し、その結果を音声として出力することにより、人工知能秘書のような役割を果たす。人工知能スピーカ装置が、単に音声質疑に応答し、質疑結果を音声として出力するレベルを超え、金融取り引きやショッピングのように、セキュリティが必要な分野で使用されるためには、正確に話者を認識及び識別しなければならない。しかしながら、人工知能スピーカ装置は、声を基にユーザを識別せざるを得ないため、指紋認識や虹彩認識のような生体情報を利用したユーザ識別方法またはユーザ認証方法に比べ、正確度が下がる。

本発明が解決しようとする課題は、前述の問題を解決するためのものであり、話者の音声から、音声の内容と話者とを正確に認識した後、話者を追加で認証することができる方法を提供することである。

前述の技術的課題を達成するための技術的手段として、本開示の第１側面は、音声認識装置及び音声認識サーバを含む音声認識システムにおける話者認証方法を提供する。本話者認証方法は、前記音声認識サーバが、前記音声認識装置から、第１話者の音声を含む音声信号を受信する段階と、前記音声認識サーバが、前記音声信号に対して音声認識を実行し、第１音声認識結果を生成する段階と、前記音声認識サーバが、前記音声信号から、第１話者特徴ベクトルを抽出し、前記第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算する段階と、前記類似度が、第１基準値以上である場合、前記音声認識サーバが、前記音声信号の話者が登録された第２話者であると決定する段階と、前記音声認識サーバが、前記第１話者または前記第２話者に認証音声を要求する段階と、前記音声認識サーバが、前記第１話者または前記第２話者から、認証音声信号を受信する段階と、前記音声認識サーバが、前記認証音声信号を基に、前記第２話者と前記第１話者との同一性を認証する段階と、前記同一性が認証された場合、前記音声認識サーバが、前記第１音声認識結果に対応する動作を実行する段階と、を含む。

本開示の第２側面は、音声認識装置と通信する通信モジュールと、プロセッサと、を含む音声認識サーバを提供する。前記プロセッサは、前記通信モジュールを利用し、前記音声認識装置から、第１話者の音声を含む音声信号を受信し、前記音声信号に対して音声認識を実行し、第１音声認識結果を生成し、前記音声信号から、第１話者特徴ベクトルを抽出し、前記第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、前記類似度が、第１基準値以上である場合、前記音声信号の話者が登録された第２話者であると決定し、前記第１話者または前記第２話者に認証音声を要求し、前記第１話者または前記第２話者から、認証音声信号を受信し、前記認証音声信号を基に、前記第２話者と前記第１話者との同一性を認証し、前記同一性が認証された場合、前記第１音声認識結果に対応する動作を実行するように構成される。

本開示の第３側面は、第２側面による音声認識サーバと通信する通信モジュールと、オーディオ信号を生成するマイクロフォンと、前記オーディオ信号から第１話者の音声を含む音声信号を検出し、前記音声信号を前記音声認識サーバに送信し、前記音声認識サーバから合成音信号を受信するように構成されるプロセッサと、前記合成音信号に対応する合成音を再生するスピーカと、を含む音声認識装置を提供する。

本開示の第４側面は、音声認識サーバ及び音声認識装置を含む音声認識システムを提供する。前記音声認識装置は、前記音声認識サーバと通信する第１通信モジュールと、オーディオ信号を生成するマイクロフォンと、前記オーディオ信号から第１話者の音声を含む音声信号を検出し、前記音声信号を前記音声認識サーバに送信し、前記音声認識サーバから合成音信号を受信するように構成される第１プロセッサと、前記合成音信号に対応する合成音を再生するスピーカと、を含む。前記音声認識サーバは、第２プロセッサと、前記音声認識装置と通信する第２通信モジュールと、を含む。前記第２プロセッサは、前記音声認識装置から前記音声信号を受信し、前記音声信号に対して音声認識を実行し、第１音声認識結果を生成し、前記音声信号から、第１話者特徴ベクトルを抽出し、前記第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、前記類似度が、第１基準値以上である場合、前記音声信号の話者が登録された第２話者であると決定し、前記第１話者または前記第２話者に認証音声を要求し、前記第１話者または前記第２話者から、認証音声信号を受信し、前記認証音声信号を基に、前記第２話者と前記第１話者との同一性を認証し、前記同一性が認証された場合、前記第１音声認識結果に対応する動作を実行するように構成される。

本開示の第５側面は、音声認識システムの音声認識サーバのプロセッサに、第２側面による話者認証方法を実行させるプログラムを提供する。

本開示の第６側面は、第５側面によるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。

本発明の実施形態によれば、話者認証手続きを介して、話者を正確に識別することができるので、話者誤認識や声盗用による誤動作の心配なしに、音声認識システムは、話者の命令を安全で正確に実行することができる。

一実施形態による音声認識システムの例示的なネットワーク構成図である。一実施形態による音声認識スピーカ装置の内部構成について説明するためのブロック図である。一実施形態による音声認識サーバの内部構成について説明するためのブロック図である。一実施形態による音声認識サーバのプロセッサの内部構成について説明するためのブロック図である。他の実施形態による音声認識サーバのプロセッサの内部構成について説明するためのブロック図である。一実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。他の実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。他の実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。

以下、添付した図面を参照し、本発明が属する技術分野で当業者が容易に実施することができるように、本発明の実施形態について詳細に説明する。しかしながら、本発明は、さまざまに異なる形態に具現化され、ここで説明する実施形態に限定されるものではない。そして、図面において、本発明について明確に説明するために、説明と関係ない部分を省略し、全体を通じて、類似部分については、類似した図面符号を付している。

明細書全体において、ある部分が他の部分と「連結／接続」されているとするとき、それは、「直接連結／接続」されている場合だけではなく、その中間に、他の要素を挟んで「電気的に連結／接続」されている場合も含む。また、ある部分がある構成要素を「含む」とするとき、それは、特別に反対となる記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含んでもよい、ということを意味する。

本明細書において、多様な箇所に登場する「一部の実施形態において」または「一実施形態において」というような語句は、必ずしも同一の実施形態を示すものではない。

一実施形態は、機能的なブロック構成、及び多様な処理段階で示される。そのような機能ブロックの一部または全部は、特定機能を実行する多様な個数のハードウェアコンポーネント及び／またはソフトウェアコンポーネントによっても具現化される。例えば、本開示の機能ブロックは、１以上のマイクロプロセッサによって具現化されることもあるし、所定機能のための回路構成によって具現化されることもある。また、例えば、本開示の機能ブロックは、多様なプログラミング言語またはスクリプト言語によって具現化されることもある。かような機能ブロックは、１以上のプロセッサで実行されるアルゴリズムによって具現化されることもある。また、本開示は、電子的な環境設定、信号処理及び／またはデータ処理などのために、従来技術を採用することができる。モジュール及び構成のような用語は、汎用され、機械的であって物理的な構成として限定されるものではない。

また、図面に図示されている構成要素間の連結／接続線または連結／接続部材は、機能的な連結／接続、及び／または物理的または回路的な連結／接続を例示的に示したものに過ぎない。実際の装置においては、代替可能であったり追加されたりする多様な機能的な連結／接続、物理的または回路的な連結／接続により、構成要素間の連結／接続が示される。

本開示において、音声認識機能は、ユーザの音声を含む音声信号を、文字列（または、テキスト）に変換することをいう。かような音声認識機能によって音声信号が変換された文字列（または、テキスト）は、音声認識結果とも呼ばれる。ユーザの音声信号は、音声命令を含み、かような音声認識結果も、音声命令に対応する命令を含み得る。かような音声命令は、音声認識スピーカ装置または音声認識サーバの特定機能を実行することができる。一方、本開示において、音声合成機能は、音声認識機能とは反対に、文字列（または、テキスト）を音声信号に変換することをいう。かような音声合成機能によって文字列（または、テキスト）が変換された音声信号は、合成音信号とも呼ばれる。

本開示において、「登録された」という表現は、音声認識システムに、ユーザ、またはその関連情報として登録されていることを意味する。「登録されたユーザ」は、音声認識システムにユーザ登録を終えたユーザを意味する。ある一人が、本開示による音声認識システムに、ユーザとして登録することができ、ユーザとして登録するとき、かような音声認識システムが提示する文章を発話した本人の音声を入力することができる。かような音声認識システムは、ユーザ登録時に入力された音声の音声信号から話者特徴ベクトルを抽出し、登録されたユーザの関連情報として保存することができる。そのように、音声認識システムに保存された話者特徴ベクトルは、登録された話者特徴ベクトルと呼ばれることがある。また、ユーザ登録時、自身が所有する携帯装置の識別番号を共に保存することができる。

かような音声認識システムに保存されるユーザの関連情報としては、ユーザ認証に使用される暗号が含まれてよい。また、ユーザ登録時にユーザは、自分固有の暗号を発話した暗号音声を、音声認識システムに入力することができる。かような音声認識システムは、暗号音声の暗号音声信号を保存し、暗号音声信号の音声認識結果、すなわち、暗号文字列、または暗号音声信号から抽出された話者特徴ベクトルを保存することができる。かような音声認識システムに保存された暗号音声信号、暗号文字列、暗号音声信号から抽出された話者特徴ベクトルはそれぞれ、登録された暗号音声信号、登録された暗号文字列、登録された話者特徴ベクトルとも呼ばれる。

かような音声認識システムには、複数のユーザが登録される。本開示において、第１話者は、音声信号の音声を実際に発話した人を意味し、登録された第２話者は、音声認識システムに登録された複数のユーザのうち、音声認識システムが、音声信号の音声を発話したと認識したり決定したりしたユーザを意味する。登録された第２話者は、一般的に、第１話者と同一であるが、音声認識システムの話者誤認識や声盗用が発生する場合、登録された第２話者は、第１話者とは異なる。

本開示において、キーワードは、単語形態を有するか、あるいは句形態を有することができる。本開示において、ウェークアップキーワード後に発話される音声命令は、自然言語形態の文章形態、単語形態または句形態を有することができる。

以下、添付された図面を参照し、本開示について詳細に説明する。

図１は、一実施形態による音声認識システムの例示的なネットワーク構成図である。図１を参照すると、音声認識システムのネットワーク環境は、音声認識スピーカ装置１００、音声認識サーバ２００、携帯装置３００及びネットワーク４００を含むと例示的に図示されている。かような音声認識システムは、音声認識スピーカ装置１００及び音声認識サーバ２００を含む。

音声認識スピーカ装置１００は、音声認識装置の一例であり、音声制御機能が搭載されて特定機能を実行するスピーカ装置である。音声認識スピーカ装置１００は、スマートスピーカ装置または人工知能スピーカ装置とも呼ばれる。音声認識スピーカ装置１００は、話者の音声を受信すると、音声と話者とを認識し、音声に含まれている命令を抽出し、命令による動作を実行し、その結果を音声として出力することができる。音声認識スピーカ装置１００が実行することができる特定機能は、例えば、音声情報提供、音楽再生、インターネットショッピング、金融取り引き、電話かけ、メッセージ送信、アラーム設定、及び、ネットワークを介して音声認識スピーカ装置に接続される電子装置または機械装置の制御などを含んでよい。

例えば、音声認識スピーカ装置１００が、ネットワークを介してスマートテレビに接続される場合、特定機能は、チャンネル視聴、チャンネル検索、動画再生及びプログラム検索などを含んでよい。例えば、音声認識スピーカ装置１００が、スマート冷蔵庫のような家電機器に接続される場合、特定機能は、冷蔵状態及び冷凍状態の点検、並びに温度設定などを含んでよい。しかしながら、本開示において、かような特定機能は、前述の機能に限定されるものではない。

音声認識スピーカ装置１００は、無線通信または有線通信を介して、ネットワーク４００を介して、音声認識サーバ２００と通信することができる。

ネットワーク４００の通信方式は、限定されるものではなく、ネットワーク４００に含まれる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を活用した通信方式だけではなく、音声認識スピーカ装置１００との近距離無線通信が含まれてもよい。例えば、ネットワーク４００は、ＰＡＮ（personal area network）、ＬＡＮ（local area network）、ＣＡＮ（campus area network）、ＭＡＮ（metropolitan area network）、ＷＡＮ（wide area network）、ＢＢＮ（broadband network）、インターネットなどのネットワークのうち１以上の任意のネットワークを含んでよい。ネットワーク４００は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター・バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジーのうち任意の１以上を含んでよいが、それらに限定されるものではない。

音声認識サーバ２００は、ネットワーク４００を介して、音声認識スピーカ装置１００と通信し、少なくとも１つのコンピュータ装置によって具現化され得る。音声認識サーバ２００は、クラウド形態に分散され、命令、コード、ファイル、コンテンツなどを提供することができる。

音声認識サーバ２００は、音声認識スピーカ装置１００から受信された音声信号を、文字列（または、テキスト）に変換し、音声認識結果を生成することができる。音声認識サーバ２００は、音声認識スピーカ装置１００が再生する音声を合成し、合成音信号を生成し、この合成音信号を、音声認識スピーカ装置１００に送信することができる。

音声認識サーバ２００は、音声認識スピーカ装置１００が実行することができる特定機能を、実際に実行することができる。例えば、音声情報提供機能の場合、音声認識サーバ２００は、音声認識スピーカ装置１００から受信された音声信号に含まれている情報要求を認識し、この情報要求に応じた結果を生成し、合成音信号の形態で、音声認識スピーカ装置１００に送信することができる。電話かけ機能の場合、音声認識サーバ２００は、音声認識スピーカ装置１００から受信された音声信号に含まれている電話かけ要求を認識し、要求に応じて電話かけを実行し、電話かけ時、送信信号と受信信号とを中継することができる。音声認識サーバ２００は、ネットワーク４００を介して、家電機器にも接続され、音声認識サーバ２００は、音声認識スピーカ装置１００から受信された音声信号に含まれている制御命令により、家電機器を制御することができる。

音声認識サーバ２００は、ネットワーク４００を介して、携帯装置３００にも接続される。音声認識サーバ２００と音声認識スピーカ装置１００とを接続するネットワークと、音声認識サーバ２００と携帯装置３００とを接続するネットワークは、互いに異なる種類であり得る。例えば、音声認識サーバ２００と音声認識スピーカ装置１００とを接続するネットワークは、ＬＡＮまたはインターネットであり、音声認識サーバ２００と携帯装置３００とを接続するネットワークは、移動通信網であり得る。一実施形態によれば、音声認識サーバ２００は、携帯装置３００に接続されない。

携帯装置３００は、ユーザが携帯して持ち歩くことができる、無線通信をサポートする電子機器である。例えば、携帯装置３００は、携帯電話機、スマートフォン、タブレットＰＣ（personal computer）またはノート型ＰＣなどであってよい。携帯装置３００は、電話機能、メッセージ機能またはメッセンジャー機能を有することができる。携帯装置３００は、ユーザの音声を音声信号に変換し、音声信号を音声認識サーバ２００に提供することができる。また、携帯装置３００は、音声認識サーバ２００から受信された音声信号または映像信号を再生することができる。携帯装置３００は、一般的に、一個人が使用する電子機器でもある。

図１には、音声認識スピーカ装置１００が、ネットワーク４００を介して、音声認識機能を実行する音声認識サーバ２００に接続されるように図示されているが、それは、例示的なものであり、音声認識スピーカ装置１００は、独立して、音声認識機能または音声合成機能を実行することもできる。

図２は、一実施形態による音声認識スピーカ装置１００の内部構成について説明するためのブロック図である。図２を参照すると、音声認識スピーカ装置１００は、プロセッサ１１０、マイクロフォン１２０、スピーカ１３０及び通信モジュール１４０を含んでよい。音声認識スピーカ装置１００は、図２に図示されている構成要素より多くの構成要素を含んでもよい。例えば、音声認識スピーカ装置１００は、メモリをさらに含んでもよい。音声認識スピーカ装置１００は、通信モジュール１４０を介して、図１のネットワーク４００に接続され、音声認識サーバ２００と通信することができる。

マイクロフォン１２０は、周辺のオーディオを電気的な音響データに変換することにより、オーディオ信号を直接生成することができる。また、音声認識スピーカ装置１００は、複数のマイクロフォン１２０を含んでもよく、複数のマイクロフォン１２０を利用し、オーディオ信号の入力方向を探し出すことができる。他の例によれば、音声認識スピーカ装置１００は、通信モジュール１４０を介して、外部装置から送信されたオーディオ信号を受信することもできる。スピーカ１３０は、オーディオ信号を音声に変換して出力することができる。

プロセッサ１１０は、基本的な算術、ロジック及び入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成される。かような命令は、メモリからプロセッサ１１０に提供されるか、あるいは通信モジュール１４０を介して受信され、プロセッサ１１０に提供される。例えば、プロセッサ１１０は、メモリのような記録装置に保存されたプログラムコードによって命令を実行するように構成され得る。

プロセッサ１１０は、マイクロフォン１２０で生成されたオーディオ信号から、話者の音声に対応する音声信号を検出し、通信モジュール１４０を介して、検出された音声信号を音声認識サーバ２００に送信することができる。プロセッサ１１０は、キーワードを利用し、オーディオ信号から音声信号を検出することができる。プロセッサ１１０は、オーディオ信号のうち、キーワードに対応するキーワード音声信号を抽出することにより、キーワード音声信号に後続して受信される音声信号を識別することができる。

プロセッサ１１０は、音声認識サーバ２００から合成音信号を受信し、スピーカ１３０を介して、合成音信号に対応する合成音を再生することができる。

図３は、一実施形態による音声認識サーバ２００の内部構成について説明するためのブロック図である。図３を参照すると、音声認識サーバ２００は、プロセッサ２１０、メモリ２２０及び通信モジュール２３０を含む。音声認識サーバ２００は、図３に図示されている構成要素より多くの構成要素を含んでもよい。例えば、音声認識サーバ２００は、入出力装置をさらに含んでもよい。

通信モジュール２３０は、ネットワーク４００を介して音声認識サーバ２００が音声認識スピーカ装置１００と通信するための機能を提供することができる。音声認識サーバ２００は、通信モジュール２３０を介して、図１のネットワーク４００に接続され、音声認識スピーカ装置１００と通信することができる。一実施形態によれば、音声認識サーバ２００は、通信モジュール２３０を介して、携帯装置３００とも通信することができる。

メモリ２２０は、コンピュータ読み取り可能な記録媒体であり、ＲＡＭ（random access memory）、ＲＯＭ（read-only memory）及びディスクドライブのような永続的大容量記録装置を含んでよい。メモリ２２０には、オペレーティングシステムと、少なくとも１つのプログラムコード（例えば、音声認識サーバ２００においてインストールされて実行される音声認識アプリケーション、音声合成アプリケーションなどのためのコード）と、が保存される。そのようなソフトウェアコンポーネントは、通信モジュール２３０を利用し、通信を介して、メモリ２２０にロードされ得る。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムが、ネットワーク４００を介して提供するファイルによってインストールされるプログラムに基づき、メモリ２２０にロードされる。

プロセッサ２１０は、基本的な算術、ロジック及び入出力演算を実行するものであり、コンピュータプログラムの命令を処理するように構成され得る。プロセッサ２１０は、メモリ２２０に保存されたプログラムコードによって命令を実行するように構成され得る。

プロセッサ２１０は、音声認識スピーカ装置１００から、第１話者の音声を含む音声信号を受信し、音声信号に対して音声認識を実行し、第１音声認識結果を生成するように構成され得る。例えば、プロセッサ２１０は、音声信号に対する音声認識を実行するために、音声信号の周波数特性を抽出し、音響モデル及び言語モデルを利用し、音声認識を実行することができる。かような周波数特性は、音響入力の周波数スペクトルを分析して抽出される音響入力の周波数成分の分布を意味する。音響モデル及び言語モデルは、メモリ２２０に保存される。ただし、音声認識方法は、これに限定されるものではなく、音声信号を文字列（または、テキスト）に変換する多様な技術が使用される。本開示において、第１音声認識結果は、第１話者の音声を含む音声信号に対して音声認識を実行した結果を意味する。

プロセッサ２１０は、音声信号を分析し、音声信号に含まれている音声を発話した話者がだれであるかを決定することができる。プロセッサ２１０は、音声信号から、第１話者特徴ベクトルを抽出し、第１話者特徴ベクトルを登録された話者特徴ベクトルと比較し、この比較の結果により、音声信号の話者が登録された第２話者であると決定するように構成され得る。例えば、プロセッサ２１０は、第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、計算された類似度を基準値と比較することにより、音声信号の話者を識別することができる。本明細書において、第１話者特徴ベクトルは、第１話者の音声を含む音声信号から抽出された話者特徴ベクトルを意味する。登録された第２話者は、音声認識システムに登録されたユーザのうちの一人であり、音声認識スピーカ装置１００を正常に使用するように事前に登録された者を意味する。

登録された話者特徴ベクトルは、ユーザ登録時、第２話者の関連情報として、メモリ２２０に事前に保存される。音声認識サーバ２００には、複数の話者が登録され、その場合、メモリ２２０には、複数の登録された話者特徴ベクトルが保存される。登録された話者特徴ベクトルは、登録された話者の関連情報であり、登録された話者にそれぞれ対応する。第２話者は、音声認識サーバ２００に事前に登録されたユーザのうちの一人である。

プロセッサ２１０は、音声信号の話者を決定するために、音響モデルから抽出された事後情報（states posteriors）、一般的背景モデル及び全体変異性変換情報のうち少なくとも一つを利用し、音声信号の周波数特性から、話者特徴ベクトルを生成することができる。メモリ２２０には、事後情報、一般的背景モデル、全体変異性変換情報、及び登録された話者情報のうち少なくとも一つが保存される。

プロセッサ２１０は、第１話者特徴ベクトルとメモリ２２０に保存された登録された話者特徴ベクトルとに基づいて、音声信号の話者が登録された話者であるか否かを決定することができる。プロセッサ２１０は、第１話者特徴ベクトルを、登録された話者特徴ベクトルそれぞれと比較することができる。プロセッサ２１０は、第１話者特徴ベクトルと最も類似度が高い登録された話者特徴ベクトルを、登録された第２話者特徴ベクトルとして選択することができる。最も高い類似度が、第１基準値以上である場合、プロセッサ２１０は、登録された第２話者特徴ベクトルの登録された第２話者を、音声信号の話者であると決定することができる。最も高い類似度が第１基準値未満である場合、プロセッサ２１０は、音声信号の話者が登録されていない話者であると決定することができる。

プロセッサ２１０は、第１話者または第２話者に認証音声を要求し、第１話者または第２話者から、認証音声信号を受信するように構成され得る。プロセッサ２１０は、受信された認証音声信号を基に、第２話者が第１話者と同一であるか否かを追加で確認することにより、第１話者と第２話者との同一性を認証することができる。

プロセッサ２１０は、第１話者と第２話者との同一性が認証された場合、第１音声認識結果に対応する動作を実行するように構成され得る。プロセッサ２１０は、第１話者特徴ベクトルと登録された第２話者特徴ベクトルとの類似度が、第１基準値より高い第２基準値以上である場合、登録された第２話者を、音声信号の話者と見なし、話者認証過程を省略し、第１音声認識結果に対応する動作を即座に実行するように構成され得る。

プロセッサ２１０は、第１音声認識結果に対応する機能を決定し、この機能を実行することができる。プロセッサ２１０は、動作の実行結果を報告するための合成音信号を生成するように構成され得る。プロセッサ２１０は、合成音信号を音声認識スピーカ装置１００に送信するように構成され得る。

音声認識サーバ２００は、入出力装置であるマイクロフォンまたはスピーカをさらに含んでもよい。音声認識サーバ２００は、音声信号を直接生成し、合成音を直接再生することもできる。

図４Ａは、一実施形態による音声認識サーバのプロセッサの内部構成について説明するためのブロック図である。図４Ａを参照すると、音声認識サーバ２００のプロセッサ２１０は、音声信号受信部２１１、音声認識部２１２、話者認識部２１３、話者認証部２１４、機能部２１５、及び合成音信号生成部２１６を含む。話者認識部２１３は、話者特徴ベクトル抽出部２１３ａ、話者特徴ベクトル比較部２１３ｂ及び登録話者決定部２１３ｃを含む。

音声信号受信部２１１は、音声認識スピーカ装置１００から、第１話者の音声を含む音声信号を受信する。

音声認識部２１２は、音声信号受信部２１１によって受信された音声信号に対して音声認識を実行し、第１音声認識結果を生成する。音声認識部２１２は、音声信号に対して音声認識を実行し、話者の音声を文字列（または、テキスト）に変換することができる。音声認識部２１２は、変換された文字列（または、テキスト）を自然言語処理し、音声信号に含まれている話者の命令を抽出することができる。第１音声認識結果は、第１話者の命令を含み、音声認識結果に対応する動作は、第１話者の命令による動作を意味する。

話者認識部２１３は、音声信号受信部２１１によって受信された音声信号の話者が、第２話者であると決定する。例えば、話者特徴ベクトル抽出部２１３ａは、音声信号受信部２１１によって受信された音声信号から話者特徴ベクトルを抽出する。話者特徴ベクトル抽出部２１３ａは、時間領域ベースの音声信号を、周波数領域の信号に変換し、変換された信号の周波数エネルギーが互いに異なるように変形することにより、話者特徴ベクトルを抽出することができる。例えば、かような話者特徴ベクトルは、メル周波数ケプストラム係数またはフィルタバンクエネルギーを基に抽出されるが、それらに限定されるものではなく、多様な方式で、オーディオデータから話者特徴ベクトルを抽出することができる。第１話者の音声を含む音声信号から抽出された話者特徴ベクトルは、第１話者特徴ベクトルと呼ばれる。

話者特徴ベクトル比較部２１３ｂは、話者特徴ベクトル抽出部２１３ａによって抽出された第１話者特徴ベクトルを、メモリ２２０に保存されている登録された話者特徴ベクトルと比較する。例えば、話者特徴ベクトル比較部２１３ｂは、第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算する。

メモリ２２０には、複数の登録された話者特徴ベクトルが存在し、話者特徴ベクトル比較部２１３ｂは、第１話者特徴ベクトルを、複数の登録された話者特徴ベクトルそれぞれと比較し、最も類似度が高い登録された話者特徴ベクトルを決定する。最も類似度が高い登録された話者特徴ベクトルは、第２話者特徴ベクトルと呼ばれる。

登録話者決定部２１３ｃは、話者特徴ベクトル比較部２１３ｂの比較の結果により、音声信号の話者が、登録された第２話者であると決定する。例えば、登録話者決定部２１３ｃは、第１話者特徴ベクトルと第２話者特徴ベクトルとの類似度が、第１基準値以上であり、第２基準値未満である場合、音声信号の話者が、第２話者特徴ベクトルに対応する第２話者であると決定することができる。第２基準値は、第１基準値より高い。第２話者は、音声認識システムまたは音声認識サーバ２００に登録されたユーザのうちの１ユーザである。そのような側面において、第２話者は、登録された第２話者とも呼ばれる。

登録話者決定部２１３ｃは、第１話者特徴ベクトルと第２話者特徴ベクトルとの類似度が、第２基準値以上である場合、音声信号の話者が第２話者であると見なすことができる。その場合、第１話者特徴ベクトルと第２話者特徴ベクトルとの類似度が非常に高いために、第２話者に対する認証が省略される。

第１話者特徴ベクトルと登録された話者特徴ベクトルそれぞれとの類似度が、いずれも事前に設定された基準値を超えない場合、すなわち、第１話者特徴ベクトルと第２話者特徴ベクトルとの類似度が第１基準値未満である場合、登録話者決定部２１３ｃは、音声信号の話者が、登録されたユーザの中にいない、すなわち、音声信号の話者が、登録されていないユーザであると決定することができる。その場合、プロセッサ２１０は、音声認識結果に対応する動作を実行しないか、あるいは、音声認識結果に対応する動作が、だれもが実行することができる動作に設定されている場合に限り、かような動作を実行することができる。

話者認証部２１４は、第１話者または第２話者に認証音声を要求し、第１話者または第２話者から、認証音声信号を受信するように構成され得る。一例によれば、話者認証部２１４は、音声認識スピーカ装置１００に認証音声要求を送信することができる。音声認識スピーカ装置１００を使用している第１話者は、認証音声要求を受信することができる。第１話者は、音声認識スピーカ装置１００に認証音声を発話し、音声認識スピーカ装置１００は、認証音声に対応する認証音声信号をプロセッサ２１０に送信することができる。

他の例によれば、話者認証部２１４は、第２話者の携帯装置３００に認証音声を要求し、第２話者は、認証音声要求に応じて、認証音声を発話することができる。第２話者は、認証音声を、音声認識スピーカ装置１００に発話するか、あるいは第２話者の携帯装置３００に発話することもできる。第２話者の携帯装置３００の識別情報は、第２話者が音声認識システムにユーザとして登録するときに入力され、メモリ２２０に事前に保存されることが可能である。ここで、話者認証部２１４は、第２話者の携帯装置３００に、認証音声の要求と共に、音声認識結果及び音声信号を送信することができる。第２話者の携帯装置３００は、第２話者の登録された携帯装置３００とも呼ばれる。

話者認証部２１４は、受信された認証音声信号を基に、第２話者が第１話者と同一であるか否かを追加で確認し、第１話者と第２話者との同一性を認証することができる。

機能部２１５は、話者認証部２１４において、第１話者と第２話者との同一性が認証された場合、音声認識部２１３によって生成された第１音声認識結果に対応する動作を実行する。機能部２１５は、第１話者特徴ベクトルと第２話者特徴ベクトルとの類似度が、第２基準値以上である場合、話者認証手続きなしに、音声認識部２１３によって生成された第１音声認識結果に対応する動作を実行することができる。

機能部２１５は、登録話者決定部２１３ｃにおいて、音声信号の話者が登録されていない話者であると決定されるか、あるいは、話者認証部２１４において、第１話者と第２話者との同一性が認証されなかった場合、第１音声認識結果に対応する動作を実行しない。

合成音信号生成部２１６は、機能部２１５が動作を実行した場合、動作の実行結果を報告するための合成音信号を生成する。合成音信号生成部２１６は、音声信号の話者が、登録されていないユーザであると決定され、第１音声認識結果に対応する動作が実行されていない場合、または、話者認証部２１４において、同一性が認証されず、第１音声認識結果に対応する動作が実行されていない場合、動作が実行されていないということを報告するための合成音信号を生成することができる。

他の実施形態によれば、プロセッサ２１０は、話者ベクトル改善部をさらに含んでもよい。第１話者特徴ベクトルと第２話者特徴ベクトルとの類似度が、第２基準値以上であるか、あるいは、話者認証部２１４において、第１話者と第２話者との同一性が認証された場合、音声信号の話者が、第２話者であるか否かということが確認されたわけであるので、かような話者ベクトル改善部は、第１話者特徴ベクトルを利用し、メモリ２２０に保存された第２話者の第２話者特徴ベクトルを改善させることができる。かような話者特徴ベクトル改善部は、音声信号から抽出された第１話者特徴ベクトルを利用した適応訓練方式を介して、第２話者の第２話者特徴ベクトルを生成し、新たに生成された第２話者特徴ベクトルが、適応訓練以前の第２話者特徴ベクトルに比べ、適応訓練性能が上昇した場合、新たに生成された第２話者特徴ベクトルを、メモリ２２０に保存することにより、第２話者特徴ベクトルを改善させることができる。

図４Ｂは、他の実施形態による音声認識サーバのプロセッサの内部構成について説明するためのブロック図である。図４Ｂを参照すると、音声認識サーバ２００のプロセッサ２１０ａは、音声信号受信部２１１、音声認識部２１２、話者認識部２１３、認証いかん決定部２１７、話者認証部２１４、機能部２１５及び合成音信号生成部２１６を含む。

第１話者特徴ベクトルと第２話者特徴ベクトルとの類似度が、第１基準値以上であり、第２基準値未満であるため、登録話者決定部２１３ｃにおいて、音声信号の話者が、第２話者であると決定された場合、認証いかん決定部２１７は、第１音声認識結果に対応する動作、及び第２話者の設定のうち少なくとも一つを基に、話者認証部２１４の動作を実行するか否かを決定する。

一例によれば、第１音声認識結果による動作が、第２話者が事前に設定した事前承認動作リストに含まれる場合、認証いかん決定部２１７は、話者認証部２１４の動作を実行するように決定することができる。事前承認動作リストは、メモリ２２０に保存され、音声認識スピーカ装置１００または音声認識サーバ２００が実行することができる動作のうち一部の動作が、事前に設定した事前承認動作リストに含まれてよい。例えば、金融取り引きやインターネットショッピング、メッセージ送信のような動作が、事前に設定した事前承認動作リストに含まれてよい。かような事前承認動作リストに含まれる動作は、登録された話者ごとに異なるようにも設定される。

他の例によれば、第１音声認識結果による動作が、第２話者が事前に設定した事後通知動作リストに含まれる場合、認証いかん決定部２１７は、機能部２１５により第１音声認識結果に対応する動作がまず実行され、第２話者の携帯装置３００に音声認識結果及び音声信号を送信するように決定することができる。かような事後通知動作リストは、メモリ２２０に保存され、音声認識スピーカ装置１００が実行することができる動作のうち一部の動作が、事前に設定した事後通知動作リストに含まれてよい。例えば、電話かけ、設定変更のような動作が、事前に設定した事後通知動作リストに含まれてよい。かような事後通知動作リストに含まれる動作は、登録された話者ごとに異なるようにも設定される。

さらに他の例によれば、認証いかん決定部２１７は、第２話者の携帯装置３００の位置及び現在時間のうち少なくとも一つが、事前承認条件に符合する場合、話者認証部２１４の動作を実行するように決定することができる。例えば、第２話者の携帯装置３００が、音声認識スピーカ装置１００の位置の近くに位置する場合、例えば、第２話者の携帯装置３００と、音声認識スピーカ装置１００とが同一無線Ｗｉ−Ｆｉ（登録商標）アクセスポイントに接続される場合や、第２話者の携帯装置３００のＧＰＳ（global position system）位置または無線網接続位置が、音声認識スピーカ装置１００の位置と実質的に一致する場合、第２話者が、音声信号受信部２１１によって受信された音声信号に含まれている音声を実際に発話した可能性が高いので、認証いかん決定部２１７は、話者認証部２１４の動作を省略することができる。登録された話者は、かような話者認証部２１４の動作の省略いかんをそれぞれ設定することができる。

認証いかん決定部２１７は、第２話者が設定した時間、例えば、平日昼時間には、話者認証部２１４の動作を実行するように決定することができる。例えば、会社員である第２話者は、平日昼時間には、家にいない可能性が高いので、家に位置する音声認識スピーカ装置１００が、第２話者の音声を受信する可能性は低い。認証いかん決定部２１７は、そのような場合、話者認証部２１４の動作を実行するように決定することができる。登録された話者は、時間を基に、話者認証部２１４の動作を実行するか否かをそれぞれ設定することができる。

事前承認条件は、第２話者によって事前に設定され、メモリ２２０にも保存される。また、現在時間を基に、話者認証部２１４の動作を実行するように決定する場合、事前承認条件は、第２話者の行動パターンに基づいても決定される。第２話者の行動パターンは、第２話者の携帯装置３００の位置や実行動作を基に生成される。例えば、認証いかん決定部２１７は、第２話者の携帯装置３００の位置を、長時間の間収集することができる。認証いかん決定部２１７は、携帯装置３００の位置を分析し、第２話者が音声認識スピーカ装置１００の近くに位置しない時間帯を決定することができる。認証いかん決定部２１７は、現在時間が、この時間帯に該当する場合、話者認証部２１４の動作を実行するように自動的に決定することができる。

図５は、一実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。図５を参照すると、音声認識システムは、音声認識スピーカ装置１００及び音声認識サーバ２００を含む。

音声認識スピーカ装置１００は、マイクロフォン１２０（図２Ａ）を利用し、周辺の音を電気的に変換し、オーディオ信号を生成することができる（Ｓ１０１）。

音声認識スピーカ装置１００は、オーディオ信号から音声信号を検出することができる（Ｓ１０２）。かような音声信号は、ユーザの音声を含み得る。ここで、ユーザを第１話者とする。かような音声は、第１話者の音声命令を含み得る。かような音声命令には、音声情報検索、電話かけ、メッセージ送信、金融取り引き、インターネットショッピング、食べ物配達、周辺家電機器制御、スマートホーム制御などが含まれてよい。本例においては、音声命令が金融取り引きに係わるものであり、第１話者の音声が、「Ｂに１００万ウォン送金せよ」というものであると仮定する。第１話者の音声には、音声認識スピーカ装置１００をウェークアップするためのトリガキーワードが含まれてもよい。音声認識スピーカ装置１００は、トリガキーワードを認識することにより、オーディオ信号から音声信号を検出することができる。

音声認識スピーカ装置１００は、音声信号を音声認識サーバ２００に送信し、音声認識サーバ２００は、音声認識スピーカ装置１００から音声信号を受信する（Ｓ１０３）。

音声認識サーバ２００は、音声信号に対して音声認識を実行し、第１音声認識結果を生成する（Ｓ１０４）。音声認識サーバ２００は、音声信号の周波数特性を抽出し、音響モデル及び言語モデルを利用し、音声認識を実行することができる。音声認識サーバ２００は、音声信号を文字列に変換し、文字列を自然言語処理することにより、音声認識結果を生成することができる。かような音声認識結果は、第１話者の音声命令を含み得る。

音声認識サーバ２００は、音声信号から、第１話者特徴ベクトルを抽出する（Ｓ１０５）。音声認識サーバ２００は、音響モデルから抽出された事後情報、一般的背景モデル、及び全体変異性変換情報のうち少なくとも一つを利用し、音声信号の周波数特性から、第１話者特徴ベクトルを生成することができる。

音声認識サーバ２００は、第１話者特徴ベクトルと登録された話者特徴ベクトルとを比較する（Ｓ１０６）。登録された話者特徴ベクトルは、メモリ２２０（図３）に保存され、ユーザが音声認識システムに登録するときに入力されるユーザの音声を基に、事前に生成される。音声認識サーバ２００は、第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算することができる。メモリ２２０には、音声認識スピーカ装置１００の正当なユーザにそれぞれ対応する複数の話者特徴ベクトルが保存され、音声認識サーバ２００は、第１話者特徴ベクトルと登録された話者特徴ベクトルそれぞれとの類似度を計算し、計算された類似度のうち最も高い類似度を決定することができる。ここで、登録された話者特徴ベクトルのうち第１話者特徴ベクトルと最も高い類似度を有する登録された話者特徴ベクトルは、第２話者特徴ベクトルと呼ばれ、最も高い類似度は、第１類似度と呼ばれる。

音声認識サーバ２００は、第１類似度を第１基準値ｒｅｆ１と比較する（Ｓ１０７）。第１基準値ｒｅｆ１は、音声認識サーバ２００の話者認識性能によっても決定される。第１類似度が、第１基準値ｒｅｆ１以上である場合、音声認識サーバ２００は、音声信号の話者が、第２話者特徴ベクトルに対応する第２話者であると決定する（Ｓ１０８）。ここで、第２話者は、音声認識システムに登録された音声認識スピーカ装置１００のユーザのうちの一人であり、登録された第２話者とも呼ばれる。

第１類似度が、第１基準値ｒｅｆ１未満である場合、音声認識サーバ２００は、音声信号の話者が登録されていないユーザであると決定し、第１音声認識結果に対応する動作を実行しない（Ｓ１１５）。その場合、音声認識サーバ２００は、例えば、「音声の話者が識別されず、動作を実行しませんでした。音声を再び入力してください」という合成音に対応する合成音信号を生成することができる（Ｓ１１６）。

音声信号の話者が第２話者であると決定された場合、音声認識サーバ２００は、第１類似度を第２基準値ｒｅｆ２と比較する（Ｓ１０９）。第２基準値ｒｅｆ２は、第１基準値ｒｅｆ１より高く、音声認識サーバ２００の話者認識性能によっても決定される。図５に図示されている段階（Ｓ１０７ないしＳ１０９）の順序は、例示的なものであり、それらの順序は可変的である。

第１類似度が、第２基準値ｒｅｆ２以上である場合、第１話者特徴ベクトルと第２話者特徴ベクトルとの類似度が非常に高いので、音声認識サーバ２００は、音声信号の話者が第２話者であると見なすことができる。その場合、音声認識サーバ２００は、さらなる認証手続きなしに、第１音声認識結果に対応する動作を実行することができる（Ｓ１１４）。

第１類似度が、第２基準値ｒｅｆ２未満である場合、音声認識サーバ２００は、第１話者が第２話者と一致するか否かをさらに確認するために、認証手続きを実行することができる。第２話者は、一般的に第１話者と同一である。しかしながら、音声認識サーバ２００の話者認識機能の誤謬により、第２話者は、第１話者と異なってしまう。

例えば、第１話者が音声命令を発話したが、音声認識サーバ２００は、話者認識機能の誤謬により、音声命令を第１話者と異なる第２話者が発話したものであると認識してしまう。その場合、音声認識サーバ２００は、第２話者が、「Ｂに１００万ウォン送金せよ」と発話したと認識し、音声認識サーバ２００は、第２話者の口座からＢに１００万ウォンを送金するという問題が発生する。

他の例として、第１話者が第２話者の声を真似て音声命令を発話し、音声認識サーバ２００は、この音声命令を第２話者が発話したものであると認識してしまう。その場合は、声盗用による場合である。その場合にも、音声認識サーバ２００は、第２話者が、「Ｂに１００万ウォン送金せよ」と発話したと認識し、音声認識サーバ２００は、第２話者の口座からＢに１００万ウォンを送金する問題が発生する。

そのような問題を防止するために、本実施形態によれば、音声認識サーバ２００は、音声認識スピーカ装置１００に、暗号発声を要求することができる。かような暗号音声要求は、音声認識サーバ２００から音声認識スピーカ装置１００に送信される（Ｓ１１０）。例えば、音声認識サーバ２００は、例えば、「暗号を言ってください」という合成音に対応する合成音信号を生成し、音声認識スピーカ装置１００に送信することができる。音声認識スピーカ装置１００は、合成音信号を受信し、スピーカ１３０（図２）を利用し、合成音を再生することができる。

音声認識スピーカ装置１００を使用している第１話者は、暗号音声要求に応じて、暗号を発話することができる。音声認識スピーカ装置１００は、第１話者が発話した暗号音声を含む暗号音声信号を検出することができる（Ｓ１１１）。暗号音声信号は、音声認識スピーカ装置１００から音声認識サーバ２００にも送信される（Ｓ１１２）。暗号音声信号は、認証音声信号とも呼ばれる。

音声認識サーバ２００は、受信された暗号音声信号を基に、第２話者と第１話者との同一性を認証することができる（Ｓ１１３）。音声認識サーバ２００が、音声認識スピーカ装置１００から、事前に設定された時間内に暗号音声信号を受信できなかった場合、音声信号の話者が、第２話者ではないと決定し、同一性を否定することができる。

段階（Ｓ１１３）の一例によれば、音声認識サーバ２００は、受信された暗号音声信号に対して音声認識を実行し、第２音声認識結果を生成することができる。暗号音声信号に対する音声認識と、第１話者の音声信号に対する音声認識は、互いに同一方式によっても実行される。第２音声認識結果は、第１話者が発話した暗号音声を含み得る。音声認識サーバ２００は、第２音声認識結果から、暗号に該当する部分を検出することができる。

音声認識サーバ２００は、第２音声認識結果を、第２話者の登録された暗号と比較することができる。第２話者の登録された暗号は、第２話者が音声認識システムに音声認識スピーカ装置１００のユーザとして登録するとき、第２話者によって事前に登録されたものであり、メモリ２２０に保存されている。

音声認識サーバ２００は、第２音声認識結果と第２話者の暗号とが実質的に同一である場合、例えば、第２音声認識結果に、第２話者の暗号が含まれている場合、第１話者と第２話者とが互いに同一であると判定し、第１話者と第２話者との同一性が認証される。その場合、音声認識サーバ２００は、第１音声認識結果による動作を実行することができる（Ｓ１１４）。その場合、音声認識サーバ２００は、例えば、「第２話者の口座にＢに１００万ウォンを送金しました」という合成音に対応する合成音信号を生成することができる（Ｓ１１６）。

音声認識サーバ２００は、第２音声認識結果と第２話者の暗号とが実質的に同一ではない場合、第１話者と第２話者とが互いに異なると判定し、第１話者と第２話者との同一性認証に失敗したと判定することができる。その場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行しない（Ｓ１１５）。その場合、音声認識サーバ２００は、例えば、「暗号が一致せず、動作を実行しませんでした」という合成音に対応する合成音信号を生成することができる（Ｓ１１６）。

Ｓ１１３段階の他の例によれば、音声認識サーバ２００は、受信された暗号音声信号から、第３話者特徴ベクトルを抽出することができる。音声認識サーバ２００は、第３話者特徴ベクトルを、第２話者の登録された暗号音声信号から抽出された第４話者特徴ベクトルと比較することができる。第２話者の登録された暗号音声信号は、第２話者が音声認識システムに音声認識スピーカ装置１００のユーザとして登録するとき、第２話者が発話した暗号音声を基に事前に生成され、メモリ２２０に保存されている。また、第４話者特徴ベクトルも、やはり第２話者の登録された暗号音声信号が生成されるときに登録された暗号音声信号から抽出され、メモリ２２０に保存されている。メモリ２２０には、第４話者特徴ベクトルだけが保存され、第２話者の登録された暗号音声信号は保存されない。

音声認識サーバ２００は、第３話者特徴ベクトルと第４話者特徴ベクトルとの類似度が、事前に設定された基準値より高い場合、第１話者と第２話者とが互いに同一であると判定し、第１話者と第２話者との同一性が認証される。その場合、音声認識サーバ２００は、第１音声認識結果による動作を実行することができる（Ｓ１１４）。第３話者特徴ベクトル及び第４話者特徴ベクトルは、同一暗号を発話した音声を含む音声信号から抽出されたものであるので、類似度結果の信頼度が高い。

音声認識サーバ２００は、第３話者特徴ベクトルと第４話者特徴ベクトルとの類似度が、事前に設定された基準値より低い場合、第１話者と第２話者とが互いに異なると判定し、第１話者と第２話者との同一性認証に失敗したと判定し、第１音声認識結果に対応する動作を実行しない（Ｓ１１５）。

Ｓ１１３段階のさらに他の例によれば、音声認識サーバ２００は、受信された暗号音声信号から、第３話者特徴ベクトルを抽出することができる。音声認識サーバ２００は、第３話者特徴ベクトルを、第２話者の登録された暗号音声信号から抽出された第４話者特徴ベクトルと比較することができる。

音声認識サーバ２００は、受信された暗号音声信号に対して音声認識を実行し、第２音声認識結果を生成することができる。第２音声認識結果は、第１話者が発話した暗号音声を含み得、音声認識サーバ２００は、第２音声認識結果から、暗号に該当する部分を検出することができる。音声認識サーバ２００は、第２音声認識結果を、第２話者の登録された暗号音声信号の第３音声認識結果と比較することができる。第３音声認識結果は、第２話者の登録された暗号音声信号が生成されるとき、第２話者の登録された暗号音声信号に対して音声認識が実行された結果であり、メモリ２２０に事前に保存されている。第３音声認識結果も、やはり第２話者が発話した暗号音声を含み得、音声認識サーバ２００は、第３音声認識結果から、暗号に該当する部分を検出することができる。

音声認識サーバ２００は、第３話者特徴ベクトルと第４話者特徴ベクトルとの類似度が、事前に設定された基準値より高く、第２音声認識結果と第３音声認識結果とが実質的に同一である場合、第１話者と第２話者との同一性が認証される。その場合、音声認識サーバ２００は、第１音声認識結果による動作を実行することができる（Ｓ１１４）。

音声認識サーバ２００は、第３話者特徴ベクトルと第４話者特徴ベクトルとの類似度が、事前に設定された基準値より低いか、あるいは、第２音声認識結果と第３音声認識結果とが実質的に同一ではない場合、第１話者と第２話者とが互いに異なると判定し、第１話者と第２話者との同一性認証に失敗したと判定し、第１音声認識結果に対応する動作を実行しないこともある（Ｓ１１５）。

Ｓ１１３段階において、第１話者と第２話者との同一性が認証されるか、あるいは、Ｓ１０９段階において、第１類似度が、第２基準値ｒｅｆ２以上である場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行することができる（Ｓ１１４）。音声認識サーバ２００は、第１音声認識結果に対応する動作を実行した結果を報告するための合成音信号を生成することができる（Ｓ１１６）。

Ｓ１１３段階において、第１話者と第２話者との同一性が認証されないか、あるいは、Ｓ１０７段階において、第１類似度が、第１基準値ｒｅｆ１未満である場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行しない（Ｓ１１５）。音声認識サーバ２００は、第１音声認識結果に対応する動作を実行しなかったことを報告するための合成音信号を生成することができる（Ｓ１１６）。

音声認識サーバ２００は、生成された合成音信号を音声認識スピーカ装置１００に送信することができる（Ｓ１１７）。音声認識スピーカ装置１００は、合成音信号に対応する合成音を再生することができる（Ｓ１１８）。従って、音声信号の音声を発話した第１話者は、自分の音声命令の実行結果を直接確認することができる。

他の実施形態により、Ｓ１１４段階において、第１話者と第２話者との同一性が確認されたので、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行しつつ、第１話者特徴ベクトルを利用し、第２話者の登録された第２話者特徴ベクトルを改善させることができる。

図６は、他の実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。図６を参照すると、音声認識システムは、音声認識スピーカ装置１００及び音声認識サーバ２００を含む。第２話者の携帯装置３００は、ネットワークを介して音声認識サーバ２００に接続される。

図６に図示されている段階（Ｓ２０１−Ｓ２０９）及び段階（Ｓ２１６−Ｓ２２０）は、図５を参照して説明した段階（Ｓ１０１−Ｓ１０９）及び段階（Ｓ１１４−Ｓ１１８）とそれぞれ実質的に同一であるので、それらについては、反復して説明しない。以下では、図５の実施形態と違いがある段階（Ｓ２１０ないしＳ２１５）を中心に説明する。

Ｓ２０７段階ないしＳ２０９段階において、第１類似度が、第１基準値ｒｅｆ１以上であり、第２基準値ｒｅｆ２未満である場合、音声認識サーバ２００は、音声信号の話者が第２話者であると決定しつつ、第１話者が第２話者と一致するか否かをさらに確認するために、認証手続きを実行することができる。

音声認識サーバ２００は、認証手続きのために、ワンタイムパスワード（ＯＴＰ）を生成し（Ｓ２１０）、生成されたワンタイムパスワードを、第２話者の携帯装置３００に送信することができる（Ｓ２１１）。前述のように、携帯装置３００の識別番号は、第２話者が音声認識システムにユーザとして登録するときに共に入力され、メモリ２２０に保存されている。ワンタイムパスワードは、文字メッセージ、チャットアプリケーションのテキストメッセージ、ワンタイムパスワードを含むイメージなどの方式で、音声認識サーバ２００から携帯装置３００に送信される。例えば、かようなワンタイムパスワードは、一桁または複数桁の数字であり得る。他の例によれば、かようなワンタイムパスワードは、テキスト単語、テキスト文章または事物イメージであり得る。

携帯装置３００は、ワンタイムパスワードを受信し、それをディスプレイウィンドウに表示することができる（Ｓ２１２）。携帯装置３００の所有者である第２話者は、ディスプレイウィンドウに表示されたワンタイムパスワードを確認することができる（Ｓ２１２ａ）。例えば、携帯装置３００のディスプレイウィンドウには、「認証番号は、ＸＸＸです。認証ボタンを押した後、音声認識スピーカ装置の前で認証番号を言ってください」というメッセージを含む通知ウィンドウがアクティブ化される。通知ウィンドウには、認証ボタンと共に、残り時間が表示される。

第２話者は、通知ウィンドウのメッセージを確認し、認証ボタンを押した後、音声認識スピーカ装置の前で、ワンタイムパスワードに指定された認証番号を発話することができる（Ｓ２１２ａ）。音声認識スピーカ装置１００は、第２話者が発話した認証番号の音声を含む認証音声信号を検出することができる（Ｓ２１３）。認証音声信号は、音声認識スピーカ装置１００から音声認識サーバ２００に送信されもする（Ｓ２１４）。

音声認識サーバ２００は、受信された認証音声信号を基に、第２話者と第１話者との同一性を認証することができる（Ｓ２１５）。音声認識サーバ２００が、音声認識スピーカ装置１００から、事前に設定された時間内に認証音声信号を受信できなかった場合、音声信号の話者が、第２話者ではないと決定し、同一性を否定することができる。

Ｓ２１５段階の一例によれば、音声認識サーバ２００は、受信された認証音声信号に対して音声認識を実行し、第２音声認識結果を生成することができる。第２音声認識結果は、第１話者が発話したワンタイムパスワードまたは認証番号の音声を含み得る。音声認識サーバ２００は、第２音声認識結果から、ワンタイムパスワードまたは認証番号に該当する部分を検出することができる。認証音声信号に対する音声認識と、第１話者の音声信号に対する音声認識は、互いに同一方式によっても実行される。他の例によれば、ワンタイムパスワードは、一桁または複数桁の数字であり得る。その場合、認証音声信号は、数字を発話した音声を含み、認証音声信号に対して音声認識を実行するとき、数字に特化された言語モデルが使用される。これとは対照的に、第１話者の音声信号に対する音声認識は、文字に特化された言語モデルを使用しても実行される。

音声認識サーバ２００は、第２音声認識結果を、Ｓ２１０段階で音声認識サーバ２００が生成したワンタイムパスワードまたは指定番号と比較することができる。

音声認識サーバ２００は、第２音声認識結果が、ワンタイムパスワードまたは指定番号と実質的に同一である場合、例えば、第２音声認識結果に、ワンタイムパスワードまたは指定番号が含まれている場合、第１話者と第２話者とが互いに同一であると判定し、第１話者と第２話者との同一性が認証される。その場合、音声認識サーバ２００は、第１音声認識結果による動作を実行することができる（Ｓ２１６）。その場合、音声認識サーバ２００は、動作の実行を報告するための合成音信号を生成することができる（Ｓ２１８）。

音声認識サーバ２００は、第２音声認識結果とワンタイムパスワードとが実質的に同一ではない場合、例えば、第２音声認識結果に、ワンタイムパスワードまたは指定番号が含まれていない場合、第１話者と第２話者とが互いに異なると判定し、第１話者と第２話者との同一性認証に失敗したと判定することができる。その場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行しない（Ｓ２１７）。その場合、音声認識サーバ２００は、動作の不実行を報告するための合成音信号を生成することができる（Ｓ２１８）。

Ｓ２１５段階の他の例によれば、音声認識サーバ２００は、受信された認証音声信号に対して音声認識を実行し、第２音声認識結果を生成することができる。音声認識サーバ２００は、第２音声認識結果を、ワンタイムパスワードと比較することができる。

音声認識サーバ２００は、受信された認証音声信号から、第３話者特徴ベクトルを抽出することができる。音声認識サーバ２００は、第３話者特徴ベクトルを、第２話者の登録された話者特徴ベクトル、すなわち、第２話者特徴ベクトルと比較することができる。一例により、ワンタイムパスワードが数字からなる場合、音声認識サーバ２００は、数字に特化された特徴ベクトルを基に、第２話者特徴ベクトルと第３話者特徴ベクトルとを互いに比較することができる。また、第２話者がユーザ登録するとき、第２話者特徴ベクトルを生成するために、第２話者は、音声認識システムが提示する特定文章を発話するが、かような特定文章は、数字が良好に認識される文章としても選択される。

音声認識サーバ２００は、第２音声認識結果とワンタイムパスワードとが実質的に同一であり、第３話者特徴ベクトルと第２話者特徴ベクトルとの類似度が、事前に設定された基準値より高い場合、第１話者と第２話者とが互いに同一であると判定し、第１話者と第２話者との同一性が認証される。その場合、音声認識サーバ２００は、第１音声認識結果による動作を実行することができる（Ｓ２１６）。

音声認識サーバ２００は、第２音声認識結果とワンタイムパスワードとが実質的に同一ではないか、あるいは、第３話者特徴ベクトルと第２話者特徴ベクトルとの類似度が、事前に設定された基準値より低い場合、第１話者と第２話者とが互いに異なると判定し、第１話者と第２話者との同一性認証に失敗したと判定し、第１音声認識結果に対応する動作を実行しない（Ｓ２１７）。

Ｓ２１５段階において、第１話者と第２話者との同一性が認証されるか、あるいは、Ｓ２０９段階において、第１類似度が、第２基準値ｒｅｆ２以上である場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行することができる（Ｓ２１６）。Ｓ２１５段階において、第１話者と第２話者との同一性が認証されないか、あるいは、Ｓ２０７段階において、第１類似度が、第１基準値ｒｅｆ１未満である場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行しない（Ｓ２１７）。

図７は、他の実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。図７を参照すると、音声認識システムは、音声認識スピーカ装置１００及び音声認識サーバ２００を含む。第２話者の携帯装置３００は、ネットワークを介して音声認識サーバ２００に接続される。

図７に図示されている段階（Ｓ３０１−Ｓ３０９）及び段階（Ｓ３１４−Ｓ３１８）は、図５を参照して説明した段階（Ｓ１０１−Ｓ１０９）及び段階（Ｓ１１４−Ｓ１１８）とそれぞれ実質的に同一であるので、それらについては、反復して説明しない。以下では、図５の実施形態と違いがある段階（Ｓ３１０ないしＳ３１３）を中心に説明する。

段階（Ｓ３０７ないしＳ３０９）において、第１類似度が、第１基準値ｒｅｆ１以上であり、第２基準値ｒｅｆ２未満である場合、音声認識サーバ２００は、音声信号の話者が第２話者であると決定しつつ、第１話者が第２話者と一致するか否かをさらに確認するために、認証手続きを実行することができる。

音声認識サーバ２００は、認証手続きのために、第２話者の携帯装置３００、すなわち、第２話者に、第１話者の音声と同一内容を発話するように要求することができる（Ｓ３１０）。ここで、第１話者の音声は、Ｓ３０２段階において音声認識スピーカ装置が検出した音声信号に含まれている音声を意味する。第２話者と第１話者とが同一である場合、第２話者は、Ｓ３０２段階で受信された音声信号の内容を知ることができ、それは、第１話者、すなわち、第２話者だけが知っているので、秘密性がある。

携帯装置３００は、同一内容発話要求を受信し、それを外部に、例えば、ディスプレイウィンドウに表示することができる。例えば、携帯装置３００のディスプレイウィンドウには、「音声認識スピーカ装置から、第２話者の氏名で命令が実行されました。この命令を、今一度話してください」というメッセージを含む通知ウィンドウがアクティブ化されている。携帯装置３００の所有者である第２話者は、同一内容発話要求に応じて、同一内容の音声を発話することができる。携帯装置３００は、同一内容の音声を含む認証音声信号を検出することができる（Ｓ３１１）。認証音声信号は、携帯装置３００から音声認識サーバ２００に送信される（Ｓ３１２）。

音声認識サーバ２００は、受信された認証音声信号を基に、第２話者と第１話者との同一性を認証することができる（Ｓ３１３）。音声認識サーバ２００が、携帯装置３００から、事前に設定された時間内に認証音声信号を受信できなかった場合、音声信号の話者が、第２話者ではないと決定し、同一性を否定することができる。

Ｓ３１３段階の一例によれば、音声認識サーバ２００は、受信された認証音声信号と、Ｓ３０３段階で受信された第１話者の音声信号と、を比較することができる。認証音声信号及び第１話者の音声信号は、同じような時点で生成され、実質的に同一内容の音声を含むので、類似の波形を有することができる。認証音声信号と第１話者の音声信号との比較は、波形、周波数スペクトルなどについて実行される。認証音声信号と音声信号との比較方式は、限定されるものではない。認証音声信号と音声信号との比較の結果、認証音声信号と音声信号との類似度が計算される。

音声認識サーバ２００は、比較の結果として計算された類似度が、事前に設定された基準値を超える場合、第１話者と第２話者とが互いに同一であると判定し、第１話者と第２話者との同一性が認証される。その場合、音声認識サーバ２００は、第１音声認識結果による動作を実行することができる（Ｓ３１４）。音声認識サーバ２００は、類似度が、事前に設定された基準値より低い場合、第１話者と第２話者とが互いに異なると判定し、第１話者と第２話者との同一性認証に失敗したと判定することができる。その場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行しない（Ｓ３１５）。

Ｓ３１３段階の他の例によれば、音声認識サーバ２００は、受信された認証音声信号に対して音声認識を実行し、第２音声認識結果を生成することができる。かような認証音声信号に対する音声認識と、第１話者の音声信号に対する音声認識は、互いに同一方式によって実行される。音声認識サーバ２００は、第２音声認識結果を、第１話者の音声信号に対する第１音声認識結果と比較することができる。

音声認識サーバ２００は、第２音声認識結果と第１音声認識結果とが実質的に同一である場合、例えば、第２音声認識結果と第１音声認識結果とが意味論的に同一である場合、第１話者と第２話者とが互いに同一であると判定し、第１話者と第２話者との同一性が認証される。その場合、音声認識サーバ２００は、第１音声認識結果による動作を実行することができる（Ｓ３１４）。

音声認識サーバ２００は、第２音声認識結果と第１音声認識結果とが実質的に同一ではない場合、第１話者と第２話者とが互いに異なると判定し、第１話者と第２話者との同一性認証に失敗したと判定することができる。その場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行しない（Ｓ３１５）。

Ｓ３１３段階のさらに他の例によれば、音声認識サーバ２００は、受信された認証音声信号に対して音声認識を実行し、第２音声認識結果を生成することができる。音声認識サーバ２００は、第２音声認識結果を、第１話者の音声信号に対する第１音声認識結果と比較することができる。

音声認識サーバ２００は、受信された認証音声信号から、第３話者特徴ベクトルを抽出することができる。音声認識サーバ２００は、第３話者特徴ベクトルを、第１話者特徴ベクトルと比較することができる。第２話者の認証音声信号及び第１話者の音声信号は、同一内容を含み、類似した時点で生成されたので、第２話者と第１話者とが同一である場合、第３話者特徴ベクトルと第１話者特徴ベクトルとは、互いに容易に比較され、高類似度が計算されるのである。

音声認識サーバ２００は、第２音声認識結果と第１音声認識結果とが実質的に同一であり、第３話者特徴ベクトルと第１話者特徴ベクトルとの類似度が、事前に設定された基準値より高い場合、第１話者と第２話者とが互いに同一であると判定し、第１話者と第２話者との同一性が認証される。その場合、音声認識サーバ２００は、第１音声認識結果による動作を実行することができる（Ｓ３１４）。

音声認識サーバ２００は、第２音声認識結果と第１音声認識結果とが実質的に同一ではないか、あるいは、第３話者特徴ベクトルと第１話者特徴ベクトルとの類似度が、事前に設定された基準値より低い場合、第１話者と第２話者とが互いに異なると判定し、第１話者と第２話者との同一性認証に失敗したと判定し、第１音声認識結果に対応する動作を実行しない（Ｓ３１５）。

Ｓ３１３段階で、第１話者と第２話者との同一性が認証されるか、あるいは、Ｓ３０９段階で、第１類似度が、第２基準値ｒｅｆ２以上である場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行することができる（Ｓ３１４）。Ｓ３１３段階で、第１話者と第２話者との同一性が認証されないか、あるいは、Ｓ３０７段階で、第１類似度が第１基準値ｒｅｆ１未満である場合、音声認識サーバ２００は、第１音声認識結果に対応する動作を実行しない（Ｓ３１５）。

上記で説明した本発明による実施形態は、コンピュータ上で多様な構成要素を介して実行されるコンピュータプログラムの形態によって具現化され、そのようなコンピュータプログラムは、コンピュータ読み取り可能な媒体に記録され得る。ここで、かような媒体は、コンピュータ実行可能なプログラムを続けて保存するものであってもよいし、実行またはダウンロードのために、一時的に保存するものであってもよい。また、かような媒体は、単一または複数個のハードウェアが結合された形態の多様な記録手段または保存手段であってよいが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散されて存在するものであってもよい。かような媒体の例は、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体；ＣＤ−ＲＯＭ（compact disc read only memory）及びＤＶＤ（digital versatile disc）のような光記録媒体；フロプティカルディスク（floptical disk）のような光磁気媒体；及びＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が保存されるように構成されたものがある。また、他の媒体の例として、アプリケーションを配布するアプリケーションストアや、その他多様なソフトウェアを供給したり配布したりするサイト、サーバなどで管理する記録媒体も挙げられる。

本明細書において、「部」、「モジュール」などは、プロセッサまたは回路のようなハードウェアコンポーネント、及び／またはプロセッサのようなハードウェアコンポーネントによって実行されるソフトウェアコンポーネントであり得る。例えば、「部」、「モジュール」などは、ソフトウェアコンポーネント、オブジェクト指向ソフトウェアコンポーネント、クラスコンポーネント及びタスクコンポーネントのようなコンポーネント；並びにプロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウエア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数によって具現化され得る。

前述の本発明の説明は、例示のためのものであり、本発明が属する技術分野の当業者であれば、本発明の技術的思想や、必須な特徴を変更せずとも、他の具体的な形態で容易に変形が可能であるということを理解することができるであろう。従って、上記で説明した実施形態は、全ての面で例示的なものであり、限定的ではないと理解しなければならない。例えば、単一型と説明されている各構成要素は、分散されて実施されることもあるし、同様に、分散されていると説明されている構成要素は、結合された形態で実施されることもある。

本発明の範囲は、前述の詳細な説明ではなく、特許請求の範囲によって示され、特許請求の範囲の意味、範囲及びその均等概念から導き出される全ての変更または変形された形態が本発明の範囲に含まれると解釈されなければならない。

本発明の実施形態に係る話者認証方法及び音声認識システムは、例えば、セキュリティ関連の技術分野に効果的に適用可能である。

１００音声認識スピーカ装置
１１０プロセッサ
１２０マイクロフォン
１３０スピーカ
１４０通信モジュール
２００音声認識サーバ
２１０，２１０ａプロセッサ
２１１音声信号受信部
２１２音声認識部
２１３話者認識部
２１３ａ話者特徴ベクトル抽出部
２１３ｂ話者特徴ベクトル比較部
２１３ｃ登録話者決定部
２１４話者認証部
２１５機能部
２１６合成音信号生成部
２１７認証いかん決定部
２２０メモリ
２３０通信モジュール
３００携帯装置
４００ネットワーク

Claims

音声認識装置及び音声認識サーバを含む音声認識システムにおける話者認証方法であって、
前記音声認識サーバが、前記音声認識装置から、第１話者の音声を含む音声信号を受信する段階と、
前記音声認識サーバが、前記音声信号に対して音声認識を実行し、第１音声認識結果を生成する段階と、
前記音声認識サーバが、前記音声信号から、第１話者特徴ベクトルを抽出し、前記第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算する段階と、
前記類似度が、第１基準値以上である場合、前記音声認識サーバが、前記音声信号の話者が登録された第２話者であると決定する段階と、
前記音声認識サーバが、前記第１話者または前記第２話者に認証音声を要求する段階と、
前記音声認識サーバが、前記第１話者または前記第２話者から、認証音声信号を受信する段階と、
前記音声認識サーバが、前記認証音声信号を基に、前記第２話者と前記第１話者との同一性を認証する段階と、
前記同一性が認証された場合、前記音声認識サーバが、前記第１音声認識結果に対応する動作を実行する段階と、
を含む話者認証方法。
前記認証音声を要求する段階は、前記音声認識サーバが、前記音声認識装置に暗号発声を要求する段階を含み、
前記認証音声信号を受信する段階は、前記音声認識サーバが、前記音声認識装置から暗号音声を含む前記認証音声信号を受信する段階を含む、請求項１に記載の話者認証方法。
前記同一性を認証する段階は、
前記音声認識サーバが、前記認証音声信号から第２話者特徴ベクトルを抽出する段階と、
前記音声認識サーバが、前記第２話者特徴ベクトルを、前記第２話者の登録された暗号音声信号から抽出された話者特徴ベクトルと比較する段階と、
前記音声認識サーバが、少なくとも前記比較の結果に基づいて、前記第１話者と前記第２話者との同一性を判定する段階と、
を含む、請求項２に記載の話者認証方法。
前記認証音声を要求する段階は、
前記音声認識サーバが、ワンタイムパスワードを生成する段階と、
前記音声認識サーバが、前記第２話者の携帯装置に前記ワンタイムパスワードを送信する段階と、
を含み、
前記認証音声信号を受信する段階は、前記音声認識サーバが、前記音声認識装置から、前記ワンタイムパスワードの音声を含む前記認証音声信号を受信する段階を含む、請求項１ないし３のうちいずれか１項に記載の話者認証方法。
前記同一性を認証する段階は、
前記音声認識サーバが、前記認証音声信号に対して音声認識を実行し、第２音声認識結果を生成する段階と、
前記音声認識サーバが、前記第２音声認識結果を、前記ワンタイムパスワードと比較する段階と、
前記音声認識サーバが、少なくとも前記比較の結果に基づいて、前記第１話者と前記第２話者との同一性を判定する段階と、
を含む、請求項４に記載の話者認証方法。
前記同一性を認証する段階は、
前記音声認識サーバが、前記認証音声信号に対して音声認識を実行し、第２音声認識結果を生成する段階と、
前記音声認識サーバが、前記認証音声信号から第２話者特徴ベクトルを抽出する段階と、
前記音声認識サーバが、前記第２音声認識結果と前記ワンタイムパスワードとの同一性、及び、前記第２話者特徴ベクトルと前記第２話者の登録された話者特徴ベクトルとの類似度に基づいて、前記第１話者と前記第２話者との同一性を判定する段階と、
を含む、請求項４に記載の話者認証方法。
前記認証音声を要求する段階は、前記音声認識サーバが、前記第２話者の携帯装置に対して、前記第２話者に前記第１話者の音声と同一内容を発話するように要求する段階を含み、
前記認証音声信号を受信する段階は、前記音声認識サーバが、前記携帯装置から、前記第２話者の音声を含む前記認証音声信号を受信する段階を含む、請求項１ないし６のうちいずれか１項に記載の話者認証方法。
前記同一性を認証する段階は、
前記音声認識サーバが、前記音声信号を前記認証音声信号と比較する段階と、
前記音声認識サーバが、少なくとも前記比較の結果に基づいて、前記第１話者と前記第２話者との同一性を判定する段階と、
を含む、請求項７に記載の話者認証方法。
前記同一性を認証する段階は、
前記音声認識サーバが、前記認証音声信号に対して音声認識を実行し、第２音声認識結果を生成する段階と、
前記音声認識サーバが、前記第２音声認識結果を前記第１音声認識結果と比較する段階と、
前記音声認識サーバが、少なくとも前記比較の結果に基づいて、前記第１話者と前記第２話者との同一性を判定する段階と、
を含む、請求項７に記載の話者認証方法。
前記類似度が、前記第１基準値より高い第２基準値以上である場合、前記音声認識サーバが、前記音声信号の話者が前記登録された第２話者であると決定した後、前記認証音声を要求する段階、前記認証音声信号を受信する段階、及び前記同一性を認証する段階を実行せず、前記第１音声認識結果に対応する動作を実行する段階を含む、請求項１ないし９のうちいずれか１項に記載の話者認証方法。
前記類似度が、前記第１基準値未満である場合、前記音声認識サーバが、前記音声信号の話者が登録されていないユーザであると決定し、前記認証音声を要求する段階、前記認証音声信号を受信する段階、及び前記同一性を認証する段階を実行せず、前記第１音声認識結果に対応する動作を実行しない段階を含む、請求項１ないし１０のうちいずれか１項に記載の話者認証方法。
前記登録された第２話者は、前記音声認識システムに登録された複数のユーザのうちの一人である、請求項１ないし１１のうちいずれか１項に記載の話者認証方法。
音声認識システムの音声認識サーバのプロセッサに、請求項１ないし１２のうちいずれか１項に記載の話者認証方法を実行させるプログラム。
音声認識装置と通信する通信モジュールと、
前記通信モジュールを利用し、前記音声認識装置から、第１話者の音声を含む音声信号を受信し、前記音声信号に対して音声認識を実行し、第１音声認識結果を生成し、前記音声信号から、第１話者特徴ベクトルを抽出し、前記第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、前記類似度が、第１基準値以上である場合、前記音声信号の話者が登録された第２話者であると決定し、前記第１話者または前記第２話者に認証音声を要求し、前記第１話者または前記第２話者から、認証音声信号を受信し、前記認証音声信号を基に、前記第２話者と前記第１話者との同一性を認証し、前記同一性が認証された場合、前記第１音声認識結果に対応する動作を実行するように構成されるプロセッサと、
を含む音声認識サーバ。
前記通信モジュールは、前記第２話者の携帯装置と通信し、
前記プロセッサは、
前記携帯装置に対して、前記第２話者に前記第１話者の音声と同一内容を発話するように要求し、
前記携帯装置から前記第２話者の音声を含む認証音声信号を受信し、
該認証音声信号に対して音声認識を実行し、第２音声認識結果を生成し、
前記第２音声認識結果を前記第１音声認識結果と比較し、
少なくとも前記比較の結果に基づいて、前記第１話者と前記第２話者との同一性を判定するように構成される、請求項１４に記載の音声認識サーバ。
請求項１４または１５に記載の音声認識サーバと通信する通信モジュールと、
オーディオ信号を生成するマイクロフォンと、
前記オーディオ信号から第１話者の音声を含む音声信号を検出し、前記音声信号を前記音声認識サーバに送信し、前記音声認識サーバから合成音信号を受信するように構成されるプロセッサと、
前記合成音信号に対応する合成音を再生するスピーカと、
を含む音声認識装置。
音声認識サーバ及び音声認識装置を含む音声認識システムであって、
前記音声認識装置は、前記音声認識サーバと通信する第１通信モジュールと、オーディオ信号を生成するマイクロフォンと、前記オーディオ信号から第１話者の音声を含む音声信号を検出し、前記音声信号を前記音声認識サーバに送信し、前記音声認識サーバから合成音信号を受信するように構成される第１プロセッサと、前記合成音信号に対応する合成音を再生するスピーカと、を含み、
前記音声認識サーバは、第２プロセッサと、前記音声認識装置と通信する第２通信モジュールと、を含み、
前記第２プロセッサは、
前記音声認識装置から前記音声信号を受信し、
前記音声信号に対して音声認識を実行し、第１音声認識結果を生成し、
前記音声信号から、第１話者特徴ベクトルを抽出し、前記第１話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、
前記類似度が、第１基準値以上である場合、前記音声信号の話者が登録された第２話者であると決定し、
前記第１話者または前記第２話者に認証音声を要求し、
前記第１話者または前記第２話者から、認証音声信号を受信し、
前記認証音声信号を基に、前記第２話者と前記第１話者との同一性を認証し、
前記同一性が認証された場合、前記第１音声認識結果に対応する動作を実行するように構成される、音声認識システム。
前記第２通信モジュールは、前記第２話者の携帯装置と通信し、
前記第２プロセッサは、
前記携帯装置に対して、前記第２話者に前記第１話者の音声と同一内容を発話するように要求し、
前記携帯装置から前記第２話者の音声を含む認証音声信号を受信し、
該認証音声信号に対して音声認識を実行し、第２音声認識結果を生成し、
前記第２音声認識結果を前記第１音声認識結果と比較し、
少なくとも前記比較の結果に基づいて、前記第１話者と前記第２話者との同一性を判定するように構成される、請求項１７に記載の音声認識システム。