JP2019028464A - 話者認証方法及び音声認識システム - Google Patents

話者認証方法及び音声認識システム Download PDF

Info

Publication number
JP2019028464A
JP2019028464A JP2018140621A JP2018140621A JP2019028464A JP 2019028464 A JP2019028464 A JP 2019028464A JP 2018140621 A JP2018140621 A JP 2018140621A JP 2018140621 A JP2018140621 A JP 2018140621A JP 2019028464 A JP2019028464 A JP 2019028464A
Authority
JP
Japan
Prior art keywords
speaker
voice
voice recognition
authentication
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018140621A
Other languages
English (en)
Other versions
JP6738867B2 (ja
Inventor
奉 眞 李
Bong Jin Lee
奉 眞 李
明 祐 呉
Myung Woo Oh
明 祐 呉
益 ▲祥▼ 韓
Ick Sang Han
益 ▲祥▼ 韓
五 赫 權
Oh Hyeok Kwon
五 赫 權
丙 烈 金
Byeong Yeol Kim
丙 烈 金
燦 奎 李
Chan Kyu Lee
燦 奎 李
貞 姫 任
Jung Hui Im
貞 姫 任
丁 牙 崔
Jung A Choi
丁 牙 崔
秀 桓 金
Suhwan Kim
秀 桓 金
漢 容 姜
Han Yong Kang
漢 容 姜
▲みん▼ 碩 崔
Min Seok Choi
▲みん▼ 碩 崔
智 須 崔
Ji Su Choi
智 須 崔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Z Intermediate Global Corp
Naver Corp
Original Assignee
Line Corp
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Line Corp, Naver Corp filed Critical Line Corp
Publication of JP2019028464A publication Critical patent/JP2019028464A/ja
Application granted granted Critical
Publication of JP6738867B2 publication Critical patent/JP6738867B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • G06F21/46Structures or tools for the administration of authentication by designing passwords or checking the strength of passwords
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • H04L63/0838Network architectures or network communication protocols for network security for authentication of entities using passwords using one-time-passwords

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 話者認証方法及び音声認識システムを提供する。【解決手段】 話者を正確に認識することができる音声認識システム及びその話者認証方法に関し、本話者認証方法は、音声認識サーバが実行する次の段階を含む:音声認識装置から、第1話者の音声を含む音声信号を受信する段階、音声信号に対して音声認識を実行し、第1音声認識結果を生成する段階、音声信号から、第1話者特徴ベクトルを抽出し、第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算する段階、類似度が、第1基準値以上である場合、音声信号の話者が登録された第2話者であると決定する段階、第1話者または第2話者に認証音声を要求する段階、第1話者または第2話者から、認証音声信号を受信する段階、認証音声信号を基に、第2話者と第1話者との同一性を認証する段階、及び、同一性が認証された場合、第1音声認識結果に対応する動作を実行する段階。【選択図】 図4A

Description

本発明は、話者認証方法及び話者認識システムに関し、さらに詳細には、音声認識装置及び音声認識サーバを含む音声認識システムにおいて話者を認証する方法に関する。
音声認識機能が搭載された人工知能スピーカ装置が市場に出回っている。人工知能スピーカ装置は、ユーザの音声を認識し、音声に含まれている命令を抽出し、命令による動作を実行し、その結果を音声として出力することにより、人工知能秘書のような役割を果たす。人工知能スピーカ装置が、単に音声質疑に応答し、質疑結果を音声として出力するレベルを超え、金融取り引きやショッピングのように、セキュリティが必要な分野で使用されるためには、正確に話者を認識及び識別しなければならない。しかしながら、人工知能スピーカ装置は、声を基にユーザを識別せざるを得ないため、指紋認識や虹彩認識のような生体情報を利用したユーザ識別方法またはユーザ認証方法に比べ、正確度が下がる。
本発明が解決しようとする課題は、前述の問題を解決するためのものであり、話者の音声から、音声の内容と話者とを正確に認識した後、話者を追加で認証することができる方法を提供することである。
前述の技術的課題を達成するための技術的手段として、本開示の第1側面は、音声認識装置及び音声認識サーバを含む音声認識システムにおける話者認証方法を提供する。本話者認証方法は、前記音声認識サーバが、前記音声認識装置から、第1話者の音声を含む音声信号を受信する段階と、前記音声認識サーバが、前記音声信号に対して音声認識を実行し、第1音声認識結果を生成する段階と、前記音声認識サーバが、前記音声信号から、第1話者特徴ベクトルを抽出し、前記第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算する段階と、前記類似度が、第1基準値以上である場合、前記音声認識サーバが、前記音声信号の話者が登録された第2話者であると決定する段階と、前記音声認識サーバが、前記第1話者または前記第2話者に認証音声を要求する段階と、前記音声認識サーバが、前記第1話者または前記第2話者から、認証音声信号を受信する段階と、前記音声認識サーバが、前記認証音声信号を基に、前記第2話者と前記第1話者との同一性を認証する段階と、前記同一性が認証された場合、前記音声認識サーバが、前記第1音声認識結果に対応する動作を実行する段階と、を含む。
本開示の第2側面は、音声認識装置と通信する通信モジュールと、プロセッサと、を含む音声認識サーバを提供する。前記プロセッサは、前記通信モジュールを利用し、前記音声認識装置から、第1話者の音声を含む音声信号を受信し、前記音声信号に対して音声認識を実行し、第1音声認識結果を生成し、前記音声信号から、第1話者特徴ベクトルを抽出し、前記第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、前記類似度が、第1基準値以上である場合、前記音声信号の話者が登録された第2話者であると決定し、前記第1話者または前記第2話者に認証音声を要求し、前記第1話者または前記第2話者から、認証音声信号を受信し、前記認証音声信号を基に、前記第2話者と前記第1話者との同一性を認証し、前記同一性が認証された場合、前記第1音声認識結果に対応する動作を実行するように構成される。
本開示の第3側面は、第2側面による音声認識サーバと通信する通信モジュールと、オーディオ信号を生成するマイクロフォンと、前記オーディオ信号から第1話者の音声を含む音声信号を検出し、前記音声信号を前記音声認識サーバに送信し、前記音声認識サーバから合成音信号を受信するように構成されるプロセッサと、前記合成音信号に対応する合成音を再生するスピーカと、を含む音声認識装置を提供する。
本開示の第4側面は、音声認識サーバ及び音声認識装置を含む音声認識システムを提供する。前記音声認識装置は、前記音声認識サーバと通信する第1通信モジュールと、オーディオ信号を生成するマイクロフォンと、前記オーディオ信号から第1話者の音声を含む音声信号を検出し、前記音声信号を前記音声認識サーバに送信し、前記音声認識サーバから合成音信号を受信するように構成される第1プロセッサと、前記合成音信号に対応する合成音を再生するスピーカと、を含む。前記音声認識サーバは、第2プロセッサと、前記音声認識装置と通信する第2通信モジュールと、を含む。前記第2プロセッサは、前記音声認識装置から前記音声信号を受信し、前記音声信号に対して音声認識を実行し、第1音声認識結果を生成し、前記音声信号から、第1話者特徴ベクトルを抽出し、前記第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、前記類似度が、第1基準値以上である場合、前記音声信号の話者が登録された第2話者であると決定し、前記第1話者または前記第2話者に認証音声を要求し、前記第1話者または前記第2話者から、認証音声信号を受信し、前記認証音声信号を基に、前記第2話者と前記第1話者との同一性を認証し、前記同一性が認証された場合、前記第1音声認識結果に対応する動作を実行するように構成される。
本開示の第5側面は、音声認識システムの音声認識サーバのプロセッサに、第2側面による話者認証方法を実行させるプログラムを提供する。
本開示の第6側面は、第5側面によるプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。
本発明の実施形態によれば、話者認証手続きを介して、話者を正確に識別することができるので、話者誤認識や声盗用による誤動作の心配なしに、音声認識システムは、話者の命令を安全で正確に実行することができる。
一実施形態による音声認識システムの例示的なネットワーク構成図である。 一実施形態による音声認識スピーカ装置の内部構成について説明するためのブロック図である。 一実施形態による音声認識サーバの内部構成について説明するためのブロック図である。 一実施形態による音声認識サーバのプロセッサの内部構成について説明するためのブロック図である。 他の実施形態による音声認識サーバのプロセッサの内部構成について説明するためのブロック図である。 一実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。 他の実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。 他の実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。
以下、添付した図面を参照し、本発明が属する技術分野で当業者が容易に実施することができるように、本発明の実施形態について詳細に説明する。しかしながら、本発明は、さまざまに異なる形態に具現化され、ここで説明する実施形態に限定されるものではない。そして、図面において、本発明について明確に説明するために、説明と関係ない部分を省略し、全体を通じて、類似部分については、類似した図面符号を付している。
明細書全体において、ある部分が他の部分と「連結/接続」されているとするとき、それは、「直接連結/接続」されている場合だけではなく、その中間に、他の要素を挟んで「電気的に連結/接続」されている場合も含む。また、ある部分がある構成要素を「含む」とするとき、それは、特別に反対となる記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含んでもよい、ということを意味する。
本明細書において、多様な箇所に登場する「一部の実施形態において」または「一実施形態において」というような語句は、必ずしも同一の実施形態を示すものではない。
一実施形態は、機能的なブロック構成、及び多様な処理段階で示される。そのような機能ブロックの一部または全部は、特定機能を実行する多様な個数のハードウェアコンポーネント及び/またはソフトウェアコンポーネントによっても具現化される。例えば、本開示の機能ブロックは、1以上のマイクロプロセッサによって具現化されることもあるし、所定機能のための回路構成によって具現化されることもある。また、例えば、本開示の機能ブロックは、多様なプログラミング言語またはスクリプト言語によって具現化されることもある。かような機能ブロックは、1以上のプロセッサで実行されるアルゴリズムによって具現化されることもある。また、本開示は、電子的な環境設定、信号処理及び/またはデータ処理などのために、従来技術を採用することができる。モジュール及び構成のような用語は、汎用され、機械的であって物理的な構成として限定されるものではない。
また、図面に図示されている構成要素間の連結/接続線または連結/接続部材は、機能的な連結/接続、及び/または物理的または回路的な連結/接続を例示的に示したものに過ぎない。実際の装置においては、代替可能であったり追加されたりする多様な機能的な連結/接続、物理的または回路的な連結/接続により、構成要素間の連結/接続が示される。
本開示において、音声認識機能は、ユーザの音声を含む音声信号を、文字列(または、テキスト)に変換することをいう。かような音声認識機能によって音声信号が変換された文字列(または、テキスト)は、音声認識結果とも呼ばれる。ユーザの音声信号は、音声命令を含み、かような音声認識結果も、音声命令に対応する命令を含み得る。かような音声命令は、音声認識スピーカ装置または音声認識サーバの特定機能を実行することができる。一方、本開示において、音声合成機能は、音声認識機能とは反対に、文字列(または、テキスト)を音声信号に変換することをいう。かような音声合成機能によって文字列(または、テキスト)が変換された音声信号は、合成音信号とも呼ばれる。
本開示において、「登録された」という表現は、音声認識システムに、ユーザ、またはその関連情報として登録されていることを意味する。「登録されたユーザ」は、音声認識システムにユーザ登録を終えたユーザを意味する。ある一人が、本開示による音声認識システムに、ユーザとして登録することができ、ユーザとして登録するとき、かような音声認識システムが提示する文章を発話した本人の音声を入力することができる。かような音声認識システムは、ユーザ登録時に入力された音声の音声信号から話者特徴ベクトルを抽出し、登録されたユーザの関連情報として保存することができる。そのように、音声認識システムに保存された話者特徴ベクトルは、登録された話者特徴ベクトルと呼ばれることがある。また、ユーザ登録時、自身が所有する携帯装置の識別番号を共に保存することができる。
かような音声認識システムに保存されるユーザの関連情報としては、ユーザ認証に使用される暗号が含まれてよい。また、ユーザ登録時にユーザは、自分固有の暗号を発話した暗号音声を、音声認識システムに入力することができる。かような音声認識システムは、暗号音声の暗号音声信号を保存し、暗号音声信号の音声認識結果、すなわち、暗号文字列、または暗号音声信号から抽出された話者特徴ベクトルを保存することができる。かような音声認識システムに保存された暗号音声信号、暗号文字列、暗号音声信号から抽出された話者特徴ベクトルはそれぞれ、登録された暗号音声信号、登録された暗号文字列、登録された話者特徴ベクトルとも呼ばれる。
かような音声認識システムには、複数のユーザが登録される。本開示において、第1話者は、音声信号の音声を実際に発話した人を意味し、登録された第2話者は、音声認識システムに登録された複数のユーザのうち、音声認識システムが、音声信号の音声を発話したと認識したり決定したりしたユーザを意味する。登録された第2話者は、一般的に、第1話者と同一であるが、音声認識システムの話者誤認識や声盗用が発生する場合、登録された第2話者は、第1話者とは異なる。
本開示において、キーワードは、単語形態を有するか、あるいは句形態を有することができる。本開示において、ウェークアップキーワード後に発話される音声命令は、自然言語形態の文章形態、単語形態または句形態を有することができる。
以下、添付された図面を参照し、本開示について詳細に説明する。
図1は、一実施形態による音声認識システムの例示的なネットワーク構成図である。図1を参照すると、音声認識システムのネットワーク環境は、音声認識スピーカ装置100、音声認識サーバ200、携帯装置300及びネットワーク400を含むと例示的に図示されている。かような音声認識システムは、音声認識スピーカ装置100及び音声認識サーバ200を含む。
音声認識スピーカ装置100は、音声認識装置の一例であり、音声制御機能が搭載されて特定機能を実行するスピーカ装置である。音声認識スピーカ装置100は、スマートスピーカ装置または人工知能スピーカ装置とも呼ばれる。音声認識スピーカ装置100は、話者の音声を受信すると、音声と話者とを認識し、音声に含まれている命令を抽出し、命令による動作を実行し、その結果を音声として出力することができる。音声認識スピーカ装置100が実行することができる特定機能は、例えば、音声情報提供、音楽再生、インターネットショッピング、金融取り引き、電話かけ、メッセージ送信、アラーム設定、及び、ネットワークを介して音声認識スピーカ装置に接続される電子装置または機械装置の制御などを含んでよい。
例えば、音声認識スピーカ装置100が、ネットワークを介してスマートテレビに接続される場合、特定機能は、チャンネル視聴、チャンネル検索、動画再生及びプログラム検索などを含んでよい。例えば、音声認識スピーカ装置100が、スマート冷蔵庫のような家電機器に接続される場合、特定機能は、冷蔵状態及び冷凍状態の点検、並びに温度設定などを含んでよい。しかしながら、本開示において、かような特定機能は、前述の機能に限定されるものではない。
音声認識スピーカ装置100は、無線通信または有線通信を介して、ネットワーク400を介して、音声認識サーバ200と通信することができる。
ネットワーク400の通信方式は、限定されるものではなく、ネットワーク400に含まれる通信網(一例として、移動通信網、有線インターネット、無線インターネット、放送網)を活用した通信方式だけではなく、音声認識スピーカ装置100との近距離無線通信が含まれてもよい。例えば、ネットワーク400は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうち1以上の任意のネットワークを含んでよい。ネットワーク400は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター・バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジーのうち任意の1以上を含んでよいが、それらに限定されるものではない。
音声認識サーバ200は、ネットワーク400を介して、音声認識スピーカ装置100と通信し、少なくとも1つのコンピュータ装置によって具現化され得る。音声認識サーバ200は、クラウド形態に分散され、命令、コード、ファイル、コンテンツなどを提供することができる。
音声認識サーバ200は、音声認識スピーカ装置100から受信された音声信号を、文字列(または、テキスト)に変換し、音声認識結果を生成することができる。音声認識サーバ200は、音声認識スピーカ装置100が再生する音声を合成し、合成音信号を生成し、この合成音信号を、音声認識スピーカ装置100に送信することができる。
音声認識サーバ200は、音声認識スピーカ装置100が実行することができる特定機能を、実際に実行することができる。例えば、音声情報提供機能の場合、音声認識サーバ200は、音声認識スピーカ装置100から受信された音声信号に含まれている情報要求を認識し、この情報要求に応じた結果を生成し、合成音信号の形態で、音声認識スピーカ装置100に送信することができる。電話かけ機能の場合、音声認識サーバ200は、音声認識スピーカ装置100から受信された音声信号に含まれている電話かけ要求を認識し、要求に応じて電話かけを実行し、電話かけ時、送信信号と受信信号とを中継することができる。音声認識サーバ200は、ネットワーク400を介して、家電機器にも接続され、音声認識サーバ200は、音声認識スピーカ装置100から受信された音声信号に含まれている制御命令により、家電機器を制御することができる。
音声認識サーバ200は、ネットワーク400を介して、携帯装置300にも接続される。音声認識サーバ200と音声認識スピーカ装置100とを接続するネットワークと、音声認識サーバ200と携帯装置300とを接続するネットワークは、互いに異なる種類であり得る。例えば、音声認識サーバ200と音声認識スピーカ装置100とを接続するネットワークは、LANまたはインターネットであり、音声認識サーバ200と携帯装置300とを接続するネットワークは、移動通信網であり得る。一実施形態によれば、音声認識サーバ200は、携帯装置300に接続されない。
携帯装置300は、ユーザが携帯して持ち歩くことができる、無線通信をサポートする電子機器である。例えば、携帯装置300は、携帯電話機、スマートフォン、タブレットPC(personal computer)またはノート型PCなどであってよい。携帯装置300は、電話機能、メッセージ機能またはメッセンジャー機能を有することができる。携帯装置300は、ユーザの音声を音声信号に変換し、音声信号を音声認識サーバ200に提供することができる。また、携帯装置300は、音声認識サーバ200から受信された音声信号または映像信号を再生することができる。携帯装置300は、一般的に、一個人が使用する電子機器でもある。
図1には、音声認識スピーカ装置100が、ネットワーク400を介して、音声認識機能を実行する音声認識サーバ200に接続されるように図示されているが、それは、例示的なものであり、音声認識スピーカ装置100は、独立して、音声認識機能または音声合成機能を実行することもできる。
図2は、一実施形態による音声認識スピーカ装置100の内部構成について説明するためのブロック図である。図2を参照すると、音声認識スピーカ装置100は、プロセッサ110、マイクロフォン120、スピーカ130及び通信モジュール140を含んでよい。音声認識スピーカ装置100は、図2に図示されている構成要素より多くの構成要素を含んでもよい。例えば、音声認識スピーカ装置100は、メモリをさらに含んでもよい。音声認識スピーカ装置100は、通信モジュール140を介して、図1のネットワーク400に接続され、音声認識サーバ200と通信することができる。
マイクロフォン120は、周辺のオーディオを電気的な音響データに変換することにより、オーディオ信号を直接生成することができる。また、音声認識スピーカ装置100は、複数のマイクロフォン120を含んでもよく、複数のマイクロフォン120を利用し、オーディオ信号の入力方向を探し出すことができる。他の例によれば、音声認識スピーカ装置100は、通信モジュール140を介して、外部装置から送信されたオーディオ信号を受信することもできる。スピーカ130は、オーディオ信号を音声に変換して出力することができる。
プロセッサ110は、基本的な算術、ロジック及び入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成される。かような命令は、メモリからプロセッサ110に提供されるか、あるいは通信モジュール140を介して受信され、プロセッサ110に提供される。例えば、プロセッサ110は、メモリのような記録装置に保存されたプログラムコードによって命令を実行するように構成され得る。
プロセッサ110は、マイクロフォン120で生成されたオーディオ信号から、話者の音声に対応する音声信号を検出し、通信モジュール140を介して、検出された音声信号を音声認識サーバ200に送信することができる。プロセッサ110は、キーワードを利用し、オーディオ信号から音声信号を検出することができる。プロセッサ110は、オーディオ信号のうち、キーワードに対応するキーワード音声信号を抽出することにより、キーワード音声信号に後続して受信される音声信号を識別することができる。
プロセッサ110は、音声認識サーバ200から合成音信号を受信し、スピーカ130を介して、合成音信号に対応する合成音を再生することができる。
図3は、一実施形態による音声認識サーバ200の内部構成について説明するためのブロック図である。図3を参照すると、音声認識サーバ200は、プロセッサ210、メモリ220及び通信モジュール230を含む。音声認識サーバ200は、図3に図示されている構成要素より多くの構成要素を含んでもよい。例えば、音声認識サーバ200は、入出力装置をさらに含んでもよい。
通信モジュール230は、ネットワーク400を介して音声認識サーバ200が音声認識スピーカ装置100と通信するための機能を提供することができる。音声認識サーバ200は、通信モジュール230を介して、図1のネットワーク400に接続され、音声認識スピーカ装置100と通信することができる。一実施形態によれば、音声認識サーバ200は、通信モジュール230を介して、携帯装置300とも通信することができる。
メモリ220は、コンピュータ読み取り可能な記録媒体であり、RAM(random access memory)、ROM(read-only memory)及びディスクドライブのような永続的大容量記録装置を含んでよい。メモリ220には、オペレーティングシステムと、少なくとも1つのプログラムコード(例えば、音声認識サーバ200においてインストールされて実行される音声認識アプリケーション、音声合成アプリケーションなどのためのコード)と、が保存される。そのようなソフトウェアコンポーネントは、通信モジュール230を利用し、通信を介して、メモリ220にロードされ得る。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムが、ネットワーク400を介して提供するファイルによってインストールされるプログラムに基づき、メモリ220にロードされる。
プロセッサ210は、基本的な算術、ロジック及び入出力演算を実行するものであり、コンピュータプログラムの命令を処理するように構成され得る。プロセッサ210は、メモリ220に保存されたプログラムコードによって命令を実行するように構成され得る。
プロセッサ210は、音声認識スピーカ装置100から、第1話者の音声を含む音声信号を受信し、音声信号に対して音声認識を実行し、第1音声認識結果を生成するように構成され得る。例えば、プロセッサ210は、音声信号に対する音声認識を実行するために、音声信号の周波数特性を抽出し、音響モデル及び言語モデルを利用し、音声認識を実行することができる。かような周波数特性は、音響入力の周波数スペクトルを分析して抽出される音響入力の周波数成分の分布を意味する。音響モデル及び言語モデルは、メモリ220に保存される。ただし、音声認識方法は、これに限定されるものではなく、音声信号を文字列(または、テキスト)に変換する多様な技術が使用される。本開示において、第1音声認識結果は、第1話者の音声を含む音声信号に対して音声認識を実行した結果を意味する。
プロセッサ210は、音声信号を分析し、音声信号に含まれている音声を発話した話者がだれであるかを決定することができる。プロセッサ210は、音声信号から、第1話者特徴ベクトルを抽出し、第1話者特徴ベクトルを登録された話者特徴ベクトルと比較し、この比較の結果により、音声信号の話者が登録された第2話者であると決定するように構成され得る。例えば、プロセッサ210は、第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、計算された類似度を基準値と比較することにより、音声信号の話者を識別することができる。本明細書において、第1話者特徴ベクトルは、第1話者の音声を含む音声信号から抽出された話者特徴ベクトルを意味する。登録された第2話者は、音声認識システムに登録されたユーザのうちの一人であり、音声認識スピーカ装置100を正常に使用するように事前に登録された者を意味する。
登録された話者特徴ベクトルは、ユーザ登録時、第2話者の関連情報として、メモリ220に事前に保存される。音声認識サーバ200には、複数の話者が登録され、その場合、メモリ220には、複数の登録された話者特徴ベクトルが保存される。登録された話者特徴ベクトルは、登録された話者の関連情報であり、登録された話者にそれぞれ対応する。第2話者は、音声認識サーバ200に事前に登録されたユーザのうちの一人である。
プロセッサ210は、音声信号の話者を決定するために、音響モデルから抽出された事後情報(states posteriors)、一般的背景モデル及び全体変異性変換情報のうち少なくとも一つを利用し、音声信号の周波数特性から、話者特徴ベクトルを生成することができる。メモリ220には、事後情報、一般的背景モデル、全体変異性変換情報、及び登録された話者情報のうち少なくとも一つが保存される。
プロセッサ210は、第1話者特徴ベクトルとメモリ220に保存された登録された話者特徴ベクトルとに基づいて、音声信号の話者が登録された話者であるか否かを決定することができる。プロセッサ210は、第1話者特徴ベクトルを、登録された話者特徴ベクトルそれぞれと比較することができる。プロセッサ210は、第1話者特徴ベクトルと最も類似度が高い登録された話者特徴ベクトルを、登録された第2話者特徴ベクトルとして選択することができる。最も高い類似度が、第1基準値以上である場合、プロセッサ210は、登録された第2話者特徴ベクトルの登録された第2話者を、音声信号の話者であると決定することができる。最も高い類似度が第1基準値未満である場合、プロセッサ210は、音声信号の話者が登録されていない話者であると決定することができる。
プロセッサ210は、第1話者または第2話者に認証音声を要求し、第1話者または第2話者から、認証音声信号を受信するように構成され得る。プロセッサ210は、受信された認証音声信号を基に、第2話者が第1話者と同一であるか否かを追加で確認することにより、第1話者と第2話者との同一性を認証することができる。
プロセッサ210は、第1話者と第2話者との同一性が認証された場合、第1音声認識結果に対応する動作を実行するように構成され得る。プロセッサ210は、第1話者特徴ベクトルと登録された第2話者特徴ベクトルとの類似度が、第1基準値より高い第2基準値以上である場合、登録された第2話者を、音声信号の話者と見なし、話者認証過程を省略し、第1音声認識結果に対応する動作を即座に実行するように構成され得る。
プロセッサ210は、第1音声認識結果に対応する機能を決定し、この機能を実行することができる。プロセッサ210は、動作の実行結果を報告するための合成音信号を生成するように構成され得る。プロセッサ210は、合成音信号を音声認識スピーカ装置100に送信するように構成され得る。
音声認識サーバ200は、入出力装置であるマイクロフォンまたはスピーカをさらに含んでもよい。音声認識サーバ200は、音声信号を直接生成し、合成音を直接再生することもできる。
図4Aは、一実施形態による音声認識サーバのプロセッサの内部構成について説明するためのブロック図である。図4Aを参照すると、音声認識サーバ200のプロセッサ210は、音声信号受信部211、音声認識部212、話者認識部213、話者認証部214、機能部215、及び合成音信号生成部216を含む。話者認識部213は、話者特徴ベクトル抽出部213a、話者特徴ベクトル比較部213b及び登録話者決定部213cを含む。
音声信号受信部211は、音声認識スピーカ装置100から、第1話者の音声を含む音声信号を受信する。
音声認識部212は、音声信号受信部211によって受信された音声信号に対して音声認識を実行し、第1音声認識結果を生成する。音声認識部212は、音声信号に対して音声認識を実行し、話者の音声を文字列(または、テキスト)に変換することができる。音声認識部212は、変換された文字列(または、テキスト)を自然言語処理し、音声信号に含まれている話者の命令を抽出することができる。第1音声認識結果は、第1話者の命令を含み、音声認識結果に対応する動作は、第1話者の命令による動作を意味する。
話者認識部213は、音声信号受信部211によって受信された音声信号の話者が、第2話者であると決定する。例えば、話者特徴ベクトル抽出部213aは、音声信号受信部211によって受信された音声信号から話者特徴ベクトルを抽出する。話者特徴ベクトル抽出部213aは、時間領域ベースの音声信号を、周波数領域の信号に変換し、変換された信号の周波数エネルギーが互いに異なるように変形することにより、話者特徴ベクトルを抽出することができる。例えば、かような話者特徴ベクトルは、メル周波数ケプストラム係数またはフィルタバンクエネルギーを基に抽出されるが、それらに限定されるものではなく、多様な方式で、オーディオデータから話者特徴ベクトルを抽出することができる。第1話者の音声を含む音声信号から抽出された話者特徴ベクトルは、第1話者特徴ベクトルと呼ばれる。
話者特徴ベクトル比較部213bは、話者特徴ベクトル抽出部213aによって抽出された第1話者特徴ベクトルを、メモリ220に保存されている登録された話者特徴ベクトルと比較する。例えば、話者特徴ベクトル比較部213bは、第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算する。
メモリ220には、複数の登録された話者特徴ベクトルが存在し、話者特徴ベクトル比較部213bは、第1話者特徴ベクトルを、複数の登録された話者特徴ベクトルそれぞれと比較し、最も類似度が高い登録された話者特徴ベクトルを決定する。最も類似度が高い登録された話者特徴ベクトルは、第2話者特徴ベクトルと呼ばれる。
登録話者決定部213cは、話者特徴ベクトル比較部213bの比較の結果により、音声信号の話者が、登録された第2話者であると決定する。例えば、登録話者決定部213cは、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が、第1基準値以上であり、第2基準値未満である場合、音声信号の話者が、第2話者特徴ベクトルに対応する第2話者であると決定することができる。第2基準値は、第1基準値より高い。第2話者は、音声認識システムまたは音声認識サーバ200に登録されたユーザのうちの1ユーザである。そのような側面において、第2話者は、登録された第2話者とも呼ばれる。
登録話者決定部213cは、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が、第2基準値以上である場合、音声信号の話者が第2話者であると見なすことができる。その場合、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が非常に高いために、第2話者に対する認証が省略される。
第1話者特徴ベクトルと登録された話者特徴ベクトルそれぞれとの類似度が、いずれも事前に設定された基準値を超えない場合、すなわち、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が第1基準値未満である場合、登録話者決定部213cは、音声信号の話者が、登録されたユーザの中にいない、すなわち、音声信号の話者が、登録されていないユーザであると決定することができる。その場合、プロセッサ210は、音声認識結果に対応する動作を実行しないか、あるいは、音声認識結果に対応する動作が、だれもが実行することができる動作に設定されている場合に限り、かような動作を実行することができる。
話者認証部214は、第1話者または第2話者に認証音声を要求し、第1話者または第2話者から、認証音声信号を受信するように構成され得る。一例によれば、話者認証部214は、音声認識スピーカ装置100に認証音声要求を送信することができる。音声認識スピーカ装置100を使用している第1話者は、認証音声要求を受信することができる。第1話者は、音声認識スピーカ装置100に認証音声を発話し、音声認識スピーカ装置100は、認証音声に対応する認証音声信号をプロセッサ210に送信することができる。
他の例によれば、話者認証部214は、第2話者の携帯装置300に認証音声を要求し、第2話者は、認証音声要求に応じて、認証音声を発話することができる。第2話者は、認証音声を、音声認識スピーカ装置100に発話するか、あるいは第2話者の携帯装置300に発話することもできる。第2話者の携帯装置300の識別情報は、第2話者が音声認識システムにユーザとして登録するときに入力され、メモリ220に事前に保存されることが可能である。ここで、話者認証部214は、第2話者の携帯装置300に、認証音声の要求と共に、音声認識結果及び音声信号を送信することができる。第2話者の携帯装置300は、第2話者の登録された携帯装置300とも呼ばれる。
話者認証部214は、受信された認証音声信号を基に、第2話者が第1話者と同一であるか否かを追加で確認し、第1話者と第2話者との同一性を認証することができる。
機能部215は、話者認証部214において、第1話者と第2話者との同一性が認証された場合、音声認識部213によって生成された第1音声認識結果に対応する動作を実行する。機能部215は、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が、第2基準値以上である場合、話者認証手続きなしに、音声認識部213によって生成された第1音声認識結果に対応する動作を実行することができる。
機能部215は、登録話者決定部213cにおいて、音声信号の話者が登録されていない話者であると決定されるか、あるいは、話者認証部214において、第1話者と第2話者との同一性が認証されなかった場合、第1音声認識結果に対応する動作を実行しない。
合成音信号生成部216は、機能部215が動作を実行した場合、動作の実行結果を報告するための合成音信号を生成する。合成音信号生成部216は、音声信号の話者が、登録されていないユーザであると決定され、第1音声認識結果に対応する動作が実行されていない場合、または、話者認証部214において、同一性が認証されず、第1音声認識結果に対応する動作が実行されていない場合、動作が実行されていないということを報告するための合成音信号を生成することができる。
他の実施形態によれば、プロセッサ210は、話者ベクトル改善部をさらに含んでもよい。第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が、第2基準値以上であるか、あるいは、話者認証部214において、第1話者と第2話者との同一性が認証された場合、音声信号の話者が、第2話者であるか否かということが確認されたわけであるので、かような話者ベクトル改善部は、第1話者特徴ベクトルを利用し、メモリ220に保存された第2話者の第2話者特徴ベクトルを改善させることができる。かような話者特徴ベクトル改善部は、音声信号から抽出された第1話者特徴ベクトルを利用した適応訓練方式を介して、第2話者の第2話者特徴ベクトルを生成し、新たに生成された第2話者特徴ベクトルが、適応訓練以前の第2話者特徴ベクトルに比べ、適応訓練性能が上昇した場合、新たに生成された第2話者特徴ベクトルを、メモリ220に保存することにより、第2話者特徴ベクトルを改善させることができる。
図4Bは、他の実施形態による音声認識サーバのプロセッサの内部構成について説明するためのブロック図である。図4Bを参照すると、音声認識サーバ200のプロセッサ210aは、音声信号受信部211、音声認識部212、話者認識部213、認証いかん決定部217、話者認証部214、機能部215及び合成音信号生成部216を含む。
第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が、第1基準値以上であり、第2基準値未満であるため、登録話者決定部213cにおいて、音声信号の話者が、第2話者であると決定された場合、認証いかん決定部217は、第1音声認識結果に対応する動作、及び第2話者の設定のうち少なくとも一つを基に、話者認証部214の動作を実行するか否かを決定する。
一例によれば、第1音声認識結果による動作が、第2話者が事前に設定した事前承認動作リストに含まれる場合、認証いかん決定部217は、話者認証部214の動作を実行するように決定することができる。事前承認動作リストは、メモリ220に保存され、音声認識スピーカ装置100または音声認識サーバ200が実行することができる動作のうち一部の動作が、事前に設定した事前承認動作リストに含まれてよい。例えば、金融取り引きやインターネットショッピング、メッセージ送信のような動作が、事前に設定した事前承認動作リストに含まれてよい。かような事前承認動作リストに含まれる動作は、登録された話者ごとに異なるようにも設定される。
他の例によれば、第1音声認識結果による動作が、第2話者が事前に設定した事後通知動作リストに含まれる場合、認証いかん決定部217は、機能部215により第1音声認識結果に対応する動作がまず実行され、第2話者の携帯装置300に音声認識結果及び音声信号を送信するように決定することができる。かような事後通知動作リストは、メモリ220に保存され、音声認識スピーカ装置100が実行することができる動作のうち一部の動作が、事前に設定した事後通知動作リストに含まれてよい。例えば、電話かけ、設定変更のような動作が、事前に設定した事後通知動作リストに含まれてよい。かような事後通知動作リストに含まれる動作は、登録された話者ごとに異なるようにも設定される。
さらに他の例によれば、認証いかん決定部217は、第2話者の携帯装置300の位置及び現在時間のうち少なくとも一つが、事前承認条件に符合する場合、話者認証部214の動作を実行するように決定することができる。例えば、第2話者の携帯装置300が、音声認識スピーカ装置100の位置の近くに位置する場合、例えば、第2話者の携帯装置300と、音声認識スピーカ装置100とが同一無線Wi−Fi(登録商標)アクセスポイントに接続される場合や、第2話者の携帯装置300のGPS(global position system)位置または無線網接続位置が、音声認識スピーカ装置100の位置と実質的に一致する場合、第2話者が、音声信号受信部211によって受信された音声信号に含まれている音声を実際に発話した可能性が高いので、認証いかん決定部217は、話者認証部214の動作を省略することができる。登録された話者は、かような話者認証部214の動作の省略いかんをそれぞれ設定することができる。
認証いかん決定部217は、第2話者が設定した時間、例えば、平日昼時間には、話者認証部214の動作を実行するように決定することができる。例えば、会社員である第2話者は、平日昼時間には、家にいない可能性が高いので、家に位置する音声認識スピーカ装置100が、第2話者の音声を受信する可能性は低い。認証いかん決定部217は、そのような場合、話者認証部214の動作を実行するように決定することができる。登録された話者は、時間を基に、話者認証部214の動作を実行するか否かをそれぞれ設定することができる。
事前承認条件は、第2話者によって事前に設定され、メモリ220にも保存される。また、現在時間を基に、話者認証部214の動作を実行するように決定する場合、事前承認条件は、第2話者の行動パターンに基づいても決定される。第2話者の行動パターンは、第2話者の携帯装置300の位置や実行動作を基に生成される。例えば、認証いかん決定部217は、第2話者の携帯装置300の位置を、長時間の間収集することができる。認証いかん決定部217は、携帯装置300の位置を分析し、第2話者が音声認識スピーカ装置100の近くに位置しない時間帯を決定することができる。認証いかん決定部217は、現在時間が、この時間帯に該当する場合、話者認証部214の動作を実行するように自動的に決定することができる。
図5は、一実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。図5を参照すると、音声認識システムは、音声認識スピーカ装置100及び音声認識サーバ200を含む。
音声認識スピーカ装置100は、マイクロフォン120(図2A)を利用し、周辺の音を電気的に変換し、オーディオ信号を生成することができる(S101)。
音声認識スピーカ装置100は、オーディオ信号から音声信号を検出することができる(S102)。かような音声信号は、ユーザの音声を含み得る。ここで、ユーザを第1話者とする。かような音声は、第1話者の音声命令を含み得る。かような音声命令には、音声情報検索、電話かけ、メッセージ送信、金融取り引き、インターネットショッピング、食べ物配達、周辺家電機器制御、スマートホーム制御などが含まれてよい。本例においては、音声命令が金融取り引きに係わるものであり、第1話者の音声が、「Bに100万ウォン送金せよ」というものであると仮定する。第1話者の音声には、音声認識スピーカ装置100をウェークアップするためのトリガキーワードが含まれてもよい。音声認識スピーカ装置100は、トリガキーワードを認識することにより、オーディオ信号から音声信号を検出することができる。
音声認識スピーカ装置100は、音声信号を音声認識サーバ200に送信し、音声認識サーバ200は、音声認識スピーカ装置100から音声信号を受信する(S103)。
音声認識サーバ200は、音声信号に対して音声認識を実行し、第1音声認識結果を生成する(S104)。音声認識サーバ200は、音声信号の周波数特性を抽出し、音響モデル及び言語モデルを利用し、音声認識を実行することができる。音声認識サーバ200は、音声信号を文字列に変換し、文字列を自然言語処理することにより、音声認識結果を生成することができる。かような音声認識結果は、第1話者の音声命令を含み得る。
音声認識サーバ200は、音声信号から、第1話者特徴ベクトルを抽出する(S105)。音声認識サーバ200は、音響モデルから抽出された事後情報、一般的背景モデル、及び全体変異性変換情報のうち少なくとも一つを利用し、音声信号の周波数特性から、第1話者特徴ベクトルを生成することができる。
音声認識サーバ200は、第1話者特徴ベクトルと登録された話者特徴ベクトルとを比較する(S106)。登録された話者特徴ベクトルは、メモリ220(図3)に保存され、ユーザが音声認識システムに登録するときに入力されるユーザの音声を基に、事前に生成される。音声認識サーバ200は、第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算することができる。メモリ220には、音声認識スピーカ装置100の正当なユーザにそれぞれ対応する複数の話者特徴ベクトルが保存され、音声認識サーバ200は、第1話者特徴ベクトルと登録された話者特徴ベクトルそれぞれとの類似度を計算し、計算された類似度のうち最も高い類似度を決定することができる。ここで、登録された話者特徴ベクトルのうち第1話者特徴ベクトルと最も高い類似度を有する登録された話者特徴ベクトルは、第2話者特徴ベクトルと呼ばれ、最も高い類似度は、第1類似度と呼ばれる。
音声認識サーバ200は、第1類似度を第1基準値ref1と比較する(S107)。第1基準値ref1は、音声認識サーバ200の話者認識性能によっても決定される。第1類似度が、第1基準値ref1以上である場合、音声認識サーバ200は、音声信号の話者が、第2話者特徴ベクトルに対応する第2話者であると決定する(S108)。ここで、第2話者は、音声認識システムに登録された音声認識スピーカ装置100のユーザのうちの一人であり、登録された第2話者とも呼ばれる。
第1類似度が、第1基準値ref1未満である場合、音声認識サーバ200は、音声信号の話者が登録されていないユーザであると決定し、第1音声認識結果に対応する動作を実行しない(S115)。その場合、音声認識サーバ200は、例えば、「音声の話者が識別されず、動作を実行しませんでした。音声を再び入力してください」という合成音に対応する合成音信号を生成することができる(S116)。
音声信号の話者が第2話者であると決定された場合、音声認識サーバ200は、第1類似度を第2基準値ref2と比較する(S109)。第2基準値ref2は、第1基準値ref1より高く、音声認識サーバ200の話者認識性能によっても決定される。図5に図示されている段階(S107ないしS109)の順序は、例示的なものであり、それらの順序は可変的である。
第1類似度が、第2基準値ref2以上である場合、第1話者特徴ベクトルと第2話者特徴ベクトルとの類似度が非常に高いので、音声認識サーバ200は、音声信号の話者が第2話者であると見なすことができる。その場合、音声認識サーバ200は、さらなる認証手続きなしに、第1音声認識結果に対応する動作を実行することができる(S114)。
第1類似度が、第2基準値ref2未満である場合、音声認識サーバ200は、第1話者が第2話者と一致するか否かをさらに確認するために、認証手続きを実行することができる。第2話者は、一般的に第1話者と同一である。しかしながら、音声認識サーバ200の話者認識機能の誤謬により、第2話者は、第1話者と異なってしまう。
例えば、第1話者が音声命令を発話したが、音声認識サーバ200は、話者認識機能の誤謬により、音声命令を第1話者と異なる第2話者が発話したものであると認識してしまう。その場合、音声認識サーバ200は、第2話者が、「Bに100万ウォン送金せよ」と発話したと認識し、音声認識サーバ200は、第2話者の口座からBに100万ウォンを送金するという問題が発生する。
他の例として、第1話者が第2話者の声を真似て音声命令を発話し、音声認識サーバ200は、この音声命令を第2話者が発話したものであると認識してしまう。その場合は、声盗用による場合である。その場合にも、音声認識サーバ200は、第2話者が、「Bに100万ウォン送金せよ」と発話したと認識し、音声認識サーバ200は、第2話者の口座からBに100万ウォンを送金する問題が発生する。
そのような問題を防止するために、本実施形態によれば、音声認識サーバ200は、音声認識スピーカ装置100に、暗号発声を要求することができる。かような暗号音声要求は、音声認識サーバ200から音声認識スピーカ装置100に送信される(S110)。例えば、音声認識サーバ200は、例えば、「暗号を言ってください」という合成音に対応する合成音信号を生成し、音声認識スピーカ装置100に送信することができる。音声認識スピーカ装置100は、合成音信号を受信し、スピーカ130(図2)を利用し、合成音を再生することができる。
音声認識スピーカ装置100を使用している第1話者は、暗号音声要求に応じて、暗号を発話することができる。音声認識スピーカ装置100は、第1話者が発話した暗号音声を含む暗号音声信号を検出することができる(S111)。暗号音声信号は、音声認識スピーカ装置100から音声認識サーバ200にも送信される(S112)。暗号音声信号は、認証音声信号とも呼ばれる。
音声認識サーバ200は、受信された暗号音声信号を基に、第2話者と第1話者との同一性を認証することができる(S113)。音声認識サーバ200が、音声認識スピーカ装置100から、事前に設定された時間内に暗号音声信号を受信できなかった場合、音声信号の話者が、第2話者ではないと決定し、同一性を否定することができる。
段階(S113)の一例によれば、音声認識サーバ200は、受信された暗号音声信号に対して音声認識を実行し、第2音声認識結果を生成することができる。暗号音声信号に対する音声認識と、第1話者の音声信号に対する音声認識は、互いに同一方式によっても実行される。第2音声認識結果は、第1話者が発話した暗号音声を含み得る。音声認識サーバ200は、第2音声認識結果から、暗号に該当する部分を検出することができる。
音声認識サーバ200は、第2音声認識結果を、第2話者の登録された暗号と比較することができる。第2話者の登録された暗号は、第2話者が音声認識システムに音声認識スピーカ装置100のユーザとして登録するとき、第2話者によって事前に登録されたものであり、メモリ220に保存されている。
音声認識サーバ200は、第2音声認識結果と第2話者の暗号とが実質的に同一である場合、例えば、第2音声認識結果に、第2話者の暗号が含まれている場合、第1話者と第2話者とが互いに同一であると判定し、第1話者と第2話者との同一性が認証される。その場合、音声認識サーバ200は、第1音声認識結果による動作を実行することができる(S114)。その場合、音声認識サーバ200は、例えば、「第2話者の口座にBに100万ウォンを送金しました」という合成音に対応する合成音信号を生成することができる(S116)。
音声認識サーバ200は、第2音声認識結果と第2話者の暗号とが実質的に同一ではない場合、第1話者と第2話者とが互いに異なると判定し、第1話者と第2話者との同一性認証に失敗したと判定することができる。その場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行しない(S115)。その場合、音声認識サーバ200は、例えば、「暗号が一致せず、動作を実行しませんでした」という合成音に対応する合成音信号を生成することができる(S116)。
S113段階の他の例によれば、音声認識サーバ200は、受信された暗号音声信号から、第3話者特徴ベクトルを抽出することができる。音声認識サーバ200は、第3話者特徴ベクトルを、第2話者の登録された暗号音声信号から抽出された第4話者特徴ベクトルと比較することができる。第2話者の登録された暗号音声信号は、第2話者が音声認識システムに音声認識スピーカ装置100のユーザとして登録するとき、第2話者が発話した暗号音声を基に事前に生成され、メモリ220に保存されている。また、第4話者特徴ベクトルも、やはり第2話者の登録された暗号音声信号が生成されるときに登録された暗号音声信号から抽出され、メモリ220に保存されている。メモリ220には、第4話者特徴ベクトルだけが保存され、第2話者の登録された暗号音声信号は保存されない。
音声認識サーバ200は、第3話者特徴ベクトルと第4話者特徴ベクトルとの類似度が、事前に設定された基準値より高い場合、第1話者と第2話者とが互いに同一であると判定し、第1話者と第2話者との同一性が認証される。その場合、音声認識サーバ200は、第1音声認識結果による動作を実行することができる(S114)。第3話者特徴ベクトル及び第4話者特徴ベクトルは、同一暗号を発話した音声を含む音声信号から抽出されたものであるので、類似度結果の信頼度が高い。
音声認識サーバ200は、第3話者特徴ベクトルと第4話者特徴ベクトルとの類似度が、事前に設定された基準値より低い場合、第1話者と第2話者とが互いに異なると判定し、第1話者と第2話者との同一性認証に失敗したと判定し、第1音声認識結果に対応する動作を実行しない(S115)。
S113段階のさらに他の例によれば、音声認識サーバ200は、受信された暗号音声信号から、第3話者特徴ベクトルを抽出することができる。音声認識サーバ200は、第3話者特徴ベクトルを、第2話者の登録された暗号音声信号から抽出された第4話者特徴ベクトルと比較することができる。
音声認識サーバ200は、受信された暗号音声信号に対して音声認識を実行し、第2音声認識結果を生成することができる。第2音声認識結果は、第1話者が発話した暗号音声を含み得、音声認識サーバ200は、第2音声認識結果から、暗号に該当する部分を検出することができる。音声認識サーバ200は、第2音声認識結果を、第2話者の登録された暗号音声信号の第3音声認識結果と比較することができる。第3音声認識結果は、第2話者の登録された暗号音声信号が生成されるとき、第2話者の登録された暗号音声信号に対して音声認識が実行された結果であり、メモリ220に事前に保存されている。第3音声認識結果も、やはり第2話者が発話した暗号音声を含み得、音声認識サーバ200は、第3音声認識結果から、暗号に該当する部分を検出することができる。
音声認識サーバ200は、第3話者特徴ベクトルと第4話者特徴ベクトルとの類似度が、事前に設定された基準値より高く、第2音声認識結果と第3音声認識結果とが実質的に同一である場合、第1話者と第2話者との同一性が認証される。その場合、音声認識サーバ200は、第1音声認識結果による動作を実行することができる(S114)。
音声認識サーバ200は、第3話者特徴ベクトルと第4話者特徴ベクトルとの類似度が、事前に設定された基準値より低いか、あるいは、第2音声認識結果と第3音声認識結果とが実質的に同一ではない場合、第1話者と第2話者とが互いに異なると判定し、第1話者と第2話者との同一性認証に失敗したと判定し、第1音声認識結果に対応する動作を実行しないこともある(S115)。
S113段階において、第1話者と第2話者との同一性が認証されるか、あるいは、S109段階において、第1類似度が、第2基準値ref2以上である場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行することができる(S114)。音声認識サーバ200は、第1音声認識結果に対応する動作を実行した結果を報告するための合成音信号を生成することができる(S116)。
S113段階において、第1話者と第2話者との同一性が認証されないか、あるいは、S107段階において、第1類似度が、第1基準値ref1未満である場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行しない(S115)。音声認識サーバ200は、第1音声認識結果に対応する動作を実行しなかったことを報告するための合成音信号を生成することができる(S116)。
音声認識サーバ200は、生成された合成音信号を音声認識スピーカ装置100に送信することができる(S117)。音声認識スピーカ装置100は、合成音信号に対応する合成音を再生することができる(S118)。従って、音声信号の音声を発話した第1話者は、自分の音声命令の実行結果を直接確認することができる。
他の実施形態により、S114段階において、第1話者と第2話者との同一性が確認されたので、音声認識サーバ200は、第1音声認識結果に対応する動作を実行しつつ、第1話者特徴ベクトルを利用し、第2話者の登録された第2話者特徴ベクトルを改善させることができる。
図6は、他の実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。図6を参照すると、音声認識システムは、音声認識スピーカ装置100及び音声認識サーバ200を含む。第2話者の携帯装置300は、ネットワークを介して音声認識サーバ200に接続される。
図6に図示されている段階(S201−S209)及び段階(S216−S220)は、図5を参照して説明した段階(S101−S109)及び段階(S114−S118)とそれぞれ実質的に同一であるので、それらについては、反復して説明しない。以下では、図5の実施形態と違いがある段階(S210ないしS215)を中心に説明する。
S207段階ないしS209段階において、第1類似度が、第1基準値ref1以上であり、第2基準値ref2未満である場合、音声認識サーバ200は、音声信号の話者が第2話者であると決定しつつ、第1話者が第2話者と一致するか否かをさらに確認するために、認証手続きを実行することができる。
音声認識サーバ200は、認証手続きのために、ワンタイムパスワード(OTP)を生成し(S210)、生成されたワンタイムパスワードを、第2話者の携帯装置300に送信することができる(S211)。前述のように、携帯装置300の識別番号は、第2話者が音声認識システムにユーザとして登録するときに共に入力され、メモリ220に保存されている。ワンタイムパスワードは、文字メッセージ、チャットアプリケーションのテキストメッセージ、ワンタイムパスワードを含むイメージなどの方式で、音声認識サーバ200から携帯装置300に送信される。例えば、かようなワンタイムパスワードは、一桁または複数桁の数字であり得る。他の例によれば、かようなワンタイムパスワードは、テキスト単語、テキスト文章または事物イメージであり得る。
携帯装置300は、ワンタイムパスワードを受信し、それをディスプレイウィンドウに表示することができる(S212)。携帯装置300の所有者である第2話者は、ディスプレイウィンドウに表示されたワンタイムパスワードを確認することができる(S212a)。例えば、携帯装置300のディスプレイウィンドウには、「認証番号は、XXXです。認証ボタンを押した後、音声認識スピーカ装置の前で認証番号を言ってください」というメッセージを含む通知ウィンドウがアクティブ化される。通知ウィンドウには、認証ボタンと共に、残り時間が表示される。
第2話者は、通知ウィンドウのメッセージを確認し、認証ボタンを押した後、音声認識スピーカ装置の前で、ワンタイムパスワードに指定された認証番号を発話することができる(S212a)。音声認識スピーカ装置100は、第2話者が発話した認証番号の音声を含む認証音声信号を検出することができる(S213)。認証音声信号は、音声認識スピーカ装置100から音声認識サーバ200に送信されもする(S214)。
音声認識サーバ200は、受信された認証音声信号を基に、第2話者と第1話者との同一性を認証することができる(S215)。音声認識サーバ200が、音声認識スピーカ装置100から、事前に設定された時間内に認証音声信号を受信できなかった場合、音声信号の話者が、第2話者ではないと決定し、同一性を否定することができる。
S215段階の一例によれば、音声認識サーバ200は、受信された認証音声信号に対して音声認識を実行し、第2音声認識結果を生成することができる。第2音声認識結果は、第1話者が発話したワンタイムパスワードまたは認証番号の音声を含み得る。音声認識サーバ200は、第2音声認識結果から、ワンタイムパスワードまたは認証番号に該当する部分を検出することができる。認証音声信号に対する音声認識と、第1話者の音声信号に対する音声認識は、互いに同一方式によっても実行される。他の例によれば、ワンタイムパスワードは、一桁または複数桁の数字であり得る。その場合、認証音声信号は、数字を発話した音声を含み、認証音声信号に対して音声認識を実行するとき、数字に特化された言語モデルが使用される。これとは対照的に、第1話者の音声信号に対する音声認識は、文字に特化された言語モデルを使用しても実行される。
音声認識サーバ200は、第2音声認識結果を、S210段階で音声認識サーバ200が生成したワンタイムパスワードまたは指定番号と比較することができる。
音声認識サーバ200は、第2音声認識結果が、ワンタイムパスワードまたは指定番号と実質的に同一である場合、例えば、第2音声認識結果に、ワンタイムパスワードまたは指定番号が含まれている場合、第1話者と第2話者とが互いに同一であると判定し、第1話者と第2話者との同一性が認証される。その場合、音声認識サーバ200は、第1音声認識結果による動作を実行することができる(S216)。その場合、音声認識サーバ200は、動作の実行を報告するための合成音信号を生成することができる(S218)。
音声認識サーバ200は、第2音声認識結果とワンタイムパスワードとが実質的に同一ではない場合、例えば、第2音声認識結果に、ワンタイムパスワードまたは指定番号が含まれていない場合、第1話者と第2話者とが互いに異なると判定し、第1話者と第2話者との同一性認証に失敗したと判定することができる。その場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行しない(S217)。その場合、音声認識サーバ200は、動作の不実行を報告するための合成音信号を生成することができる(S218)。
S215段階の他の例によれば、音声認識サーバ200は、受信された認証音声信号に対して音声認識を実行し、第2音声認識結果を生成することができる。音声認識サーバ200は、第2音声認識結果を、ワンタイムパスワードと比較することができる。
音声認識サーバ200は、受信された認証音声信号から、第3話者特徴ベクトルを抽出することができる。音声認識サーバ200は、第3話者特徴ベクトルを、第2話者の登録された話者特徴ベクトル、すなわち、第2話者特徴ベクトルと比較することができる。一例により、ワンタイムパスワードが数字からなる場合、音声認識サーバ200は、数字に特化された特徴ベクトルを基に、第2話者特徴ベクトルと第3話者特徴ベクトルとを互いに比較することができる。また、第2話者がユーザ登録するとき、第2話者特徴ベクトルを生成するために、第2話者は、音声認識システムが提示する特定文章を発話するが、かような特定文章は、数字が良好に認識される文章としても選択される。
音声認識サーバ200は、第2音声認識結果とワンタイムパスワードとが実質的に同一であり、第3話者特徴ベクトルと第2話者特徴ベクトルとの類似度が、事前に設定された基準値より高い場合、第1話者と第2話者とが互いに同一であると判定し、第1話者と第2話者との同一性が認証される。その場合、音声認識サーバ200は、第1音声認識結果による動作を実行することができる(S216)。
音声認識サーバ200は、第2音声認識結果とワンタイムパスワードとが実質的に同一ではないか、あるいは、第3話者特徴ベクトルと第2話者特徴ベクトルとの類似度が、事前に設定された基準値より低い場合、第1話者と第2話者とが互いに異なると判定し、第1話者と第2話者との同一性認証に失敗したと判定し、第1音声認識結果に対応する動作を実行しない(S217)。
S215段階において、第1話者と第2話者との同一性が認証されるか、あるいは、S209段階において、第1類似度が、第2基準値ref2以上である場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行することができる(S216)。S215段階において、第1話者と第2話者との同一性が認証されないか、あるいは、S207段階において、第1類似度が、第1基準値ref1未満である場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行しない(S217)。
図7は、他の実施形態による音声認識システムの話者認証方法について説明するための例示的なフローチャートである。図7を参照すると、音声認識システムは、音声認識スピーカ装置100及び音声認識サーバ200を含む。第2話者の携帯装置300は、ネットワークを介して音声認識サーバ200に接続される。
図7に図示されている段階(S301−S309)及び段階(S314−S318)は、図5を参照して説明した段階(S101−S109)及び段階(S114−S118)とそれぞれ実質的に同一であるので、それらについては、反復して説明しない。以下では、図5の実施形態と違いがある段階(S310ないしS313)を中心に説明する。
段階(S307ないしS309)において、第1類似度が、第1基準値ref1以上であり、第2基準値ref2未満である場合、音声認識サーバ200は、音声信号の話者が第2話者であると決定しつつ、第1話者が第2話者と一致するか否かをさらに確認するために、認証手続きを実行することができる。
音声認識サーバ200は、認証手続きのために、第2話者の携帯装置300、すなわち、第2話者に、第1話者の音声と同一内容を発話するように要求することができる(S310)。ここで、第1話者の音声は、S302段階において音声認識スピーカ装置が検出した音声信号に含まれている音声を意味する。第2話者と第1話者とが同一である場合、第2話者は、S302段階で受信された音声信号の内容を知ることができ、それは、第1話者、すなわち、第2話者だけが知っているので、秘密性がある。
携帯装置300は、同一内容発話要求を受信し、それを外部に、例えば、ディスプレイウィンドウに表示することができる。例えば、携帯装置300のディスプレイウィンドウには、「音声認識スピーカ装置から、第2話者の氏名で命令が実行されました。この命令を、今一度話してください」というメッセージを含む通知ウィンドウがアクティブ化されている。携帯装置300の所有者である第2話者は、同一内容発話要求に応じて、同一内容の音声を発話することができる。携帯装置300は、同一内容の音声を含む認証音声信号を検出することができる(S311)。認証音声信号は、携帯装置300から音声認識サーバ200に送信される(S312)。
音声認識サーバ200は、受信された認証音声信号を基に、第2話者と第1話者との同一性を認証することができる(S313)。音声認識サーバ200が、携帯装置300から、事前に設定された時間内に認証音声信号を受信できなかった場合、音声信号の話者が、第2話者ではないと決定し、同一性を否定することができる。
S313段階の一例によれば、音声認識サーバ200は、受信された認証音声信号と、S303段階で受信された第1話者の音声信号と、を比較することができる。認証音声信号及び第1話者の音声信号は、同じような時点で生成され、実質的に同一内容の音声を含むので、類似の波形を有することができる。認証音声信号と第1話者の音声信号との比較は、波形、周波数スペクトルなどについて実行される。認証音声信号と音声信号との比較方式は、限定されるものではない。認証音声信号と音声信号との比較の結果、認証音声信号と音声信号との類似度が計算される。
音声認識サーバ200は、比較の結果として計算された類似度が、事前に設定された基準値を超える場合、第1話者と第2話者とが互いに同一であると判定し、第1話者と第2話者との同一性が認証される。その場合、音声認識サーバ200は、第1音声認識結果による動作を実行することができる(S314)。音声認識サーバ200は、類似度が、事前に設定された基準値より低い場合、第1話者と第2話者とが互いに異なると判定し、第1話者と第2話者との同一性認証に失敗したと判定することができる。その場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行しない(S315)。
S313段階の他の例によれば、音声認識サーバ200は、受信された認証音声信号に対して音声認識を実行し、第2音声認識結果を生成することができる。かような認証音声信号に対する音声認識と、第1話者の音声信号に対する音声認識は、互いに同一方式によって実行される。音声認識サーバ200は、第2音声認識結果を、第1話者の音声信号に対する第1音声認識結果と比較することができる。
音声認識サーバ200は、第2音声認識結果と第1音声認識結果とが実質的に同一である場合、例えば、第2音声認識結果と第1音声認識結果とが意味論的に同一である場合、第1話者と第2話者とが互いに同一であると判定し、第1話者と第2話者との同一性が認証される。その場合、音声認識サーバ200は、第1音声認識結果による動作を実行することができる(S314)。
音声認識サーバ200は、第2音声認識結果と第1音声認識結果とが実質的に同一ではない場合、第1話者と第2話者とが互いに異なると判定し、第1話者と第2話者との同一性認証に失敗したと判定することができる。その場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行しない(S315)。
S313段階のさらに他の例によれば、音声認識サーバ200は、受信された認証音声信号に対して音声認識を実行し、第2音声認識結果を生成することができる。音声認識サーバ200は、第2音声認識結果を、第1話者の音声信号に対する第1音声認識結果と比較することができる。
音声認識サーバ200は、受信された認証音声信号から、第3話者特徴ベクトルを抽出することができる。音声認識サーバ200は、第3話者特徴ベクトルを、第1話者特徴ベクトルと比較することができる。第2話者の認証音声信号及び第1話者の音声信号は、同一内容を含み、類似した時点で生成されたので、第2話者と第1話者とが同一である場合、第3話者特徴ベクトルと第1話者特徴ベクトルとは、互いに容易に比較され、高類似度が計算されるのである。
音声認識サーバ200は、第2音声認識結果と第1音声認識結果とが実質的に同一であり、第3話者特徴ベクトルと第1話者特徴ベクトルとの類似度が、事前に設定された基準値より高い場合、第1話者と第2話者とが互いに同一であると判定し、第1話者と第2話者との同一性が認証される。その場合、音声認識サーバ200は、第1音声認識結果による動作を実行することができる(S314)。
音声認識サーバ200は、第2音声認識結果と第1音声認識結果とが実質的に同一ではないか、あるいは、第3話者特徴ベクトルと第1話者特徴ベクトルとの類似度が、事前に設定された基準値より低い場合、第1話者と第2話者とが互いに異なると判定し、第1話者と第2話者との同一性認証に失敗したと判定し、第1音声認識結果に対応する動作を実行しない(S315)。
S313段階で、第1話者と第2話者との同一性が認証されるか、あるいは、S309段階で、第1類似度が、第2基準値ref2以上である場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行することができる(S314)。S313段階で、第1話者と第2話者との同一性が認証されないか、あるいは、S307段階で、第1類似度が第1基準値ref1未満である場合、音声認識サーバ200は、第1音声認識結果に対応する動作を実行しない(S315)。
上記で説明した本発明による実施形態は、コンピュータ上で多様な構成要素を介して実行されるコンピュータプログラムの形態によって具現化され、そのようなコンピュータプログラムは、コンピュータ読み取り可能な媒体に記録され得る。ここで、かような媒体は、コンピュータ実行可能なプログラムを続けて保存するものであってもよいし、実行またはダウンロードのために、一時的に保存するものであってもよい。また、かような媒体は、単一または複数個のハードウェアが結合された形態の多様な記録手段または保存手段であってよいが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散されて存在するものであってもよい。かような媒体の例は、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体;CD−ROM(compact disc read only memory)及びDVD(digital versatile disc)のような光記録媒体;フロプティカルディスク(floptical disk)のような光磁気媒体;及びROM、RAM、フラッシュメモリなどを含み、プログラム命令が保存されるように構成されたものがある。また、他の媒体の例として、アプリケーションを配布するアプリケーションストアや、その他多様なソフトウェアを供給したり配布したりするサイト、サーバなどで管理する記録媒体も挙げられる。
本明細書において、「部」、「モジュール」などは、プロセッサまたは回路のようなハードウェアコンポーネント、及び/またはプロセッサのようなハードウェアコンポーネントによって実行されるソフトウェアコンポーネントであり得る。例えば、「部」、「モジュール」などは、ソフトウェアコンポーネント、オブジェクト指向ソフトウェアコンポーネント、クラスコンポーネント及びタスクコンポーネントのようなコンポーネント;並びにプロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウエア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数によって具現化され得る。
前述の本発明の説明は、例示のためのものであり、本発明が属する技術分野の当業者であれば、本発明の技術的思想や、必須な特徴を変更せずとも、他の具体的な形態で容易に変形が可能であるということを理解することができるであろう。従って、上記で説明した実施形態は、全ての面で例示的なものであり、限定的ではないと理解しなければならない。例えば、単一型と説明されている各構成要素は、分散されて実施されることもあるし、同様に、分散されていると説明されている構成要素は、結合された形態で実施されることもある。
本発明の範囲は、前述の詳細な説明ではなく、特許請求の範囲によって示され、特許請求の範囲の意味、範囲及びその均等概念から導き出される全ての変更または変形された形態が本発明の範囲に含まれると解釈されなければならない。
本発明の実施形態に係る話者認証方法及び音声認識システムは、例えば、セキュリティ関連の技術分野に効果的に適用可能である。
100 音声認識スピーカ装置
110 プロセッサ
120 マイクロフォン
130 スピーカ
140 通信モジュール
200 音声認識サーバ
210,210a プロセッサ
211 音声信号受信部
212 音声認識部
213 話者認識部
213a 話者特徴ベクトル抽出部
213b 話者特徴ベクトル比較部
213c 登録話者決定部
214 話者認証部
215 機能部
216 合成音信号生成部
217 認証いかん決定部
220 メモリ
230 通信モジュール
300 携帯装置
400 ネットワーク

Claims (18)

  1. 音声認識装置及び音声認識サーバを含む音声認識システムにおける話者認証方法であって、
    前記音声認識サーバが、前記音声認識装置から、第1話者の音声を含む音声信号を受信する段階と、
    前記音声認識サーバが、前記音声信号に対して音声認識を実行し、第1音声認識結果を生成する段階と、
    前記音声認識サーバが、前記音声信号から、第1話者特徴ベクトルを抽出し、前記第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算する段階と、
    前記類似度が、第1基準値以上である場合、前記音声認識サーバが、前記音声信号の話者が登録された第2話者であると決定する段階と、
    前記音声認識サーバが、前記第1話者または前記第2話者に認証音声を要求する段階と、
    前記音声認識サーバが、前記第1話者または前記第2話者から、認証音声信号を受信する段階と、
    前記音声認識サーバが、前記認証音声信号を基に、前記第2話者と前記第1話者との同一性を認証する段階と、
    前記同一性が認証された場合、前記音声認識サーバが、前記第1音声認識結果に対応する動作を実行する段階と、
    を含む話者認証方法。
  2. 前記認証音声を要求する段階は、前記音声認識サーバが、前記音声認識装置に暗号発声を要求する段階を含み、
    前記認証音声信号を受信する段階は、前記音声認識サーバが、前記音声認識装置から暗号音声を含む前記認証音声信号を受信する段階を含む、請求項1に記載の話者認証方法。
  3. 前記同一性を認証する段階は、
    前記音声認識サーバが、前記認証音声信号から第2話者特徴ベクトルを抽出する段階と、
    前記音声認識サーバが、前記第2話者特徴ベクトルを、前記第2話者の登録された暗号音声信号から抽出された話者特徴ベクトルと比較する段階と、
    前記音声認識サーバが、少なくとも前記比較の結果に基づいて、前記第1話者と前記第2話者との同一性を判定する段階と、
    を含む、請求項2に記載の話者認証方法。
  4. 前記認証音声を要求する段階は、
    前記音声認識サーバが、ワンタイムパスワードを生成する段階と、
    前記音声認識サーバが、前記第2話者の携帯装置に前記ワンタイムパスワードを送信する段階と、
    を含み、
    前記認証音声信号を受信する段階は、前記音声認識サーバが、前記音声認識装置から、前記ワンタイムパスワードの音声を含む前記認証音声信号を受信する段階を含む、請求項1ないし3のうちいずれか1項に記載の話者認証方法。
  5. 前記同一性を認証する段階は、
    前記音声認識サーバが、前記認証音声信号に対して音声認識を実行し、第2音声認識結果を生成する段階と、
    前記音声認識サーバが、前記第2音声認識結果を、前記ワンタイムパスワードと比較する段階と、
    前記音声認識サーバが、少なくとも前記比較の結果に基づいて、前記第1話者と前記第2話者との同一性を判定する段階と、
    を含む、請求項4に記載の話者認証方法。
  6. 前記同一性を認証する段階は、
    前記音声認識サーバが、前記認証音声信号に対して音声認識を実行し、第2音声認識結果を生成する段階と、
    前記音声認識サーバが、前記認証音声信号から第2話者特徴ベクトルを抽出する段階と、
    前記音声認識サーバが、前記第2音声認識結果と前記ワンタイムパスワードとの同一性、及び、前記第2話者特徴ベクトルと前記第2話者の登録された話者特徴ベクトルとの類似度に基づいて、前記第1話者と前記第2話者との同一性を判定する段階と、
    を含む、請求項4に記載の話者認証方法。
  7. 前記認証音声を要求する段階は、前記音声認識サーバが、前記第2話者の携帯装置に対して、前記第2話者に前記第1話者の音声と同一内容を発話するように要求する段階を含み、
    前記認証音声信号を受信する段階は、前記音声認識サーバが、前記携帯装置から、前記第2話者の音声を含む前記認証音声信号を受信する段階を含む、請求項1ないし6のうちいずれか1項に記載の話者認証方法。
  8. 前記同一性を認証する段階は、
    前記音声認識サーバが、前記音声信号を前記認証音声信号と比較する段階と、
    前記音声認識サーバが、少なくとも前記比較の結果に基づいて、前記第1話者と前記第2話者との同一性を判定する段階と、
    を含む、請求項7に記載の話者認証方法。
  9. 前記同一性を認証する段階は、
    前記音声認識サーバが、前記認証音声信号に対して音声認識を実行し、第2音声認識結果を生成する段階と、
    前記音声認識サーバが、前記第2音声認識結果を前記第1音声認識結果と比較する段階と、
    前記音声認識サーバが、少なくとも前記比較の結果に基づいて、前記第1話者と前記第2話者との同一性を判定する段階と、
    を含む、請求項7に記載の話者認証方法。
  10. 前記類似度が、前記第1基準値より高い第2基準値以上である場合、前記音声認識サーバが、前記音声信号の話者が前記登録された第2話者であると決定した後、前記認証音声を要求する段階、前記認証音声信号を受信する段階、及び前記同一性を認証する段階を実行せず、前記第1音声認識結果に対応する動作を実行する段階を含む、請求項1ないし9のうちいずれか1項に記載の話者認証方法。
  11. 前記類似度が、前記第1基準値未満である場合、前記音声認識サーバが、前記音声信号の話者が登録されていないユーザであると決定し、前記認証音声を要求する段階、前記認証音声信号を受信する段階、及び前記同一性を認証する段階を実行せず、前記第1音声認識結果に対応する動作を実行しない段階を含む、請求項1ないし10のうちいずれか1項に記載の話者認証方法。
  12. 前記登録された第2話者は、前記音声認識システムに登録された複数のユーザのうちの一人である、請求項1ないし11のうちいずれか1項に記載の話者認証方法。
  13. 音声認識システムの音声認識サーバのプロセッサに、請求項1ないし12のうちいずれか1項に記載の話者認証方法を実行させるプログラム。
  14. 音声認識装置と通信する通信モジュールと、
    前記通信モジュールを利用し、前記音声認識装置から、第1話者の音声を含む音声信号を受信し、前記音声信号に対して音声認識を実行し、第1音声認識結果を生成し、前記音声信号から、第1話者特徴ベクトルを抽出し、前記第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、前記類似度が、第1基準値以上である場合、前記音声信号の話者が登録された第2話者であると決定し、前記第1話者または前記第2話者に認証音声を要求し、前記第1話者または前記第2話者から、認証音声信号を受信し、前記認証音声信号を基に、前記第2話者と前記第1話者との同一性を認証し、前記同一性が認証された場合、前記第1音声認識結果に対応する動作を実行するように構成されるプロセッサと、
    を含む音声認識サーバ。
  15. 前記通信モジュールは、前記第2話者の携帯装置と通信し、
    前記プロセッサは、
    前記携帯装置に対して、前記第2話者に前記第1話者の音声と同一内容を発話するように要求し、
    前記携帯装置から前記第2話者の音声を含む認証音声信号を受信し、
    該認証音声信号に対して音声認識を実行し、第2音声認識結果を生成し、
    前記第2音声認識結果を前記第1音声認識結果と比較し、
    少なくとも前記比較の結果に基づいて、前記第1話者と前記第2話者との同一性を判定するように構成される、請求項14に記載の音声認識サーバ。
  16. 請求項14または15に記載の音声認識サーバと通信する通信モジュールと、
    オーディオ信号を生成するマイクロフォンと、
    前記オーディオ信号から第1話者の音声を含む音声信号を検出し、前記音声信号を前記音声認識サーバに送信し、前記音声認識サーバから合成音信号を受信するように構成されるプロセッサと、
    前記合成音信号に対応する合成音を再生するスピーカと、
    を含む音声認識装置。
  17. 音声認識サーバ及び音声認識装置を含む音声認識システムであって、
    前記音声認識装置は、前記音声認識サーバと通信する第1通信モジュールと、オーディオ信号を生成するマイクロフォンと、前記オーディオ信号から第1話者の音声を含む音声信号を検出し、前記音声信号を前記音声認識サーバに送信し、前記音声認識サーバから合成音信号を受信するように構成される第1プロセッサと、前記合成音信号に対応する合成音を再生するスピーカと、を含み、
    前記音声認識サーバは、第2プロセッサと、前記音声認識装置と通信する第2通信モジュールと、を含み、
    前記第2プロセッサは、
    前記音声認識装置から前記音声信号を受信し、
    前記音声信号に対して音声認識を実行し、第1音声認識結果を生成し、
    前記音声信号から、第1話者特徴ベクトルを抽出し、前記第1話者特徴ベクトルと登録された話者特徴ベクトルとの類似度を計算し、
    前記類似度が、第1基準値以上である場合、前記音声信号の話者が登録された第2話者であると決定し、
    前記第1話者または前記第2話者に認証音声を要求し、
    前記第1話者または前記第2話者から、認証音声信号を受信し、
    前記認証音声信号を基に、前記第2話者と前記第1話者との同一性を認証し、
    前記同一性が認証された場合、前記第1音声認識結果に対応する動作を実行するように構成される、音声認識システム。
  18. 前記第2通信モジュールは、前記第2話者の携帯装置と通信し、
    前記第2プロセッサは、
    前記携帯装置に対して、前記第2話者に前記第1話者の音声と同一内容を発話するように要求し、
    前記携帯装置から前記第2話者の音声を含む認証音声信号を受信し、
    該認証音声信号に対して音声認識を実行し、第2音声認識結果を生成し、
    前記第2音声認識結果を前記第1音声認識結果と比較し、
    少なくとも前記比較の結果に基づいて、前記第1話者と前記第2話者との同一性を判定するように構成される、請求項17に記載の音声認識システム。
JP2018140621A 2017-07-26 2018-07-26 話者認証方法及び音声認識システム Active JP6738867B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170094969A KR102002903B1 (ko) 2017-07-26 2017-07-26 화자 인증 방법 및 음성인식 시스템
KR10-2017-0094969 2017-07-26

Publications (2)

Publication Number Publication Date
JP2019028464A true JP2019028464A (ja) 2019-02-21
JP6738867B2 JP6738867B2 (ja) 2020-08-12

Family

ID=65365263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018140621A Active JP6738867B2 (ja) 2017-07-26 2018-07-26 話者認証方法及び音声認識システム

Country Status (2)

Country Link
JP (1) JP6738867B2 (ja)
KR (1) KR102002903B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187423A (ja) * 2019-05-10 2020-11-19 コニカミノルタ株式会社 画像形成システム、画像形成装置、および制御方法
WO2021131102A1 (ja) * 2020-01-20 2021-07-01 株式会社白紙とロック 認証方法、認証システム、スマートスピーカ及びプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102135182B1 (ko) * 2019-04-05 2020-07-17 주식회사 솔루게이트 성문인식을 통한 인공지능 스피커 맞춤형 개인화 서비스 시스템
KR102203161B1 (ko) * 2019-06-13 2021-01-14 대한민국 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법
US11929058B2 (en) * 2019-08-21 2024-03-12 Dolby Laboratories Licensing Corporation Systems and methods for adapting human speaker embeddings in speech synthesis
KR102444003B1 (ko) * 2020-11-30 2022-09-15 경희대학교 산학협력단 음성 이미지 기반 사용자 인증 장치 및 그 방법
KR102283167B1 (ko) * 2021-05-25 2021-07-29 (주)한컴인텔리전스 통화 연결 시 음성 기반의 발신자 인증을 수행하는 모바일 단말 장치 및 그 동작 방법
KR102655367B1 (ko) * 2021-12-31 2024-04-04 서울대학교산학협력단 화자 유사도 판단 방법 및 장치

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001505688A (ja) * 1996-11-22 2001-04-24 ティ―ネティックス,インコーポレイテッド 情報システムアクセスおよび取引処理のための音声認識
JP2001249689A (ja) * 2000-03-02 2001-09-14 Animo:Kk 電子認証システム、電子認証方法及び記録媒体
JP2003186837A (ja) * 2001-12-19 2003-07-04 Ntt Advanced Technology Corp ワンタイムパスワード認証装置及び方法、ならびにその認証プログラム
WO2006027844A1 (ja) * 2004-09-10 2006-03-16 Mitsubishi Denki Kabushiki Kaisha 話者照合装置
US20150331666A1 (en) * 2014-05-15 2015-11-19 Tyco Safety Products Canada Ltd. System and Method for Processing Control Commands in a Voice Interactive System
JP2016538658A (ja) * 2013-09-16 2016-12-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated アプリケーションへのアクセスを制御するための方法および装置
DE202016008226U1 (de) * 2016-06-10 2017-05-04 Google Inc. Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140092556A (ko) * 2013-01-16 2014-07-24 (주)링커 성문과 환경 정보 기반의 인증 또는 승인 시스템
US9674700B2 (en) * 2014-11-04 2017-06-06 Qualcomm Incorporated Distributing biometric authentication between devices in an ad hoc network
KR101741917B1 (ko) * 2015-10-28 2017-06-01 브이피 주식회사 음성인식을 활용한 인증 장치 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001505688A (ja) * 1996-11-22 2001-04-24 ティ―ネティックス,インコーポレイテッド 情報システムアクセスおよび取引処理のための音声認識
JP2001249689A (ja) * 2000-03-02 2001-09-14 Animo:Kk 電子認証システム、電子認証方法及び記録媒体
JP2003186837A (ja) * 2001-12-19 2003-07-04 Ntt Advanced Technology Corp ワンタイムパスワード認証装置及び方法、ならびにその認証プログラム
WO2006027844A1 (ja) * 2004-09-10 2006-03-16 Mitsubishi Denki Kabushiki Kaisha 話者照合装置
JP2016538658A (ja) * 2013-09-16 2016-12-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated アプリケーションへのアクセスを制御するための方法および装置
US20150331666A1 (en) * 2014-05-15 2015-11-19 Tyco Safety Products Canada Ltd. System and Method for Processing Control Commands in a Voice Interactive System
DE202016008226U1 (de) * 2016-06-10 2017-05-04 Google Inc. Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187423A (ja) * 2019-05-10 2020-11-19 コニカミノルタ株式会社 画像形成システム、画像形成装置、および制御方法
WO2021131102A1 (ja) * 2020-01-20 2021-07-01 株式会社白紙とロック 認証方法、認証システム、スマートスピーカ及びプログラム
JP2021113902A (ja) * 2020-01-20 2021-08-05 株式会社白紙とロック 認証方法、認証システム、スマートスピーカ及びプログラム

Also Published As

Publication number Publication date
JP6738867B2 (ja) 2020-08-12
KR102002903B1 (ko) 2019-07-23
KR20190012066A (ko) 2019-02-08

Similar Documents

Publication Publication Date Title
JP6738867B2 (ja) 話者認証方法及び音声認識システム
CN111699528B (zh) 电子装置及执行电子装置的功能的方法
US11386905B2 (en) Information processing method and device, multimedia device and storage medium
US10665244B1 (en) Leveraging multiple audio channels for authentication
US11564090B1 (en) Audio verification
Cheng et al. Personal voice assistant security and privacy—a survey
US10623403B1 (en) Leveraging multiple audio channels for authentication
JP2018536889A (ja) 音声データを使用して操作を開始するための方法および装置
US20190378499A1 (en) Temporary account association with voice-enabled devices
JP6662962B2 (ja) 話者検証方法及び音声認識システム
Yan et al. A survey on voice assistant security: Attacks and countermeasures
US10916249B2 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
KR20200073718A (ko) 전자 장치 및 이의 제어 방법
US20200296098A1 (en) Voiceprint security with messaging services
US20230401338A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
KR20230118643A (ko) 화자 의존적인 후속 액션들 및 웜 워드들
KR101424962B1 (ko) 음성 기반 인증시스템 및 방법
Zhang et al. Volere: Leakage resilient user authentication based on personal voice challenges
KR101181060B1 (ko) 음성 인식 시스템 및 이를 이용한 화자 인증 방법
Alattar et al. Privacy‐preserving hands‐free voice authentication leveraging edge technology
US11114090B1 (en) User profile linking
KR102098237B1 (ko) 화자 검증 방법 및 음성인식 시스템
Wu et al. HVAC: Evading Classifier-based Defenses in Hidden Voice Attacks
JP2024510798A (ja) ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証
CN112513845A (zh) 与语音使能设备的暂时账户关联

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190920

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200507

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200623

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200720

R150 Certificate of patent or registration of utility model

Ref document number: 6738867

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350