JP6394709B2 - 話者識別装置および話者識別用の登録音声の特徴量登録方法 - Google Patents

話者識別装置および話者識別用の登録音声の特徴量登録方法 Download PDF

Info

Publication number
JP6394709B2
JP6394709B2 JP2016563500A JP2016563500A JP6394709B2 JP 6394709 B2 JP6394709 B2 JP 6394709B2 JP 2016563500 A JP2016563500 A JP 2016563500A JP 2016563500 A JP2016563500 A JP 2016563500A JP 6394709 B2 JP6394709 B2 JP 6394709B2
Authority
JP
Japan
Prior art keywords
registered
text data
speaker
speaker identification
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016563500A
Other languages
English (en)
Other versions
JPWO2016092807A1 (ja
Inventor
川戸 正裕
正裕 川戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2016092807A1 publication Critical patent/JPWO2016092807A1/ja
Application granted granted Critical
Publication of JP6394709B2 publication Critical patent/JP6394709B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、話者識別装置等に関し、例えば、入力される音声が予め登録された登録話者の誰によるものかを識別するものに関する。
話者識別(または話者認識)は、人間の声から個人を認識(識別や認証)するコンピュータによる処理をいう。具体的には、話者識別では、音声から特徴を抽出し、モデル化し、モデル化されたデータを用いて個人の声を識別する。
話者識別サービスは、話者識別を提供するサービスであって、入力した音声データの話者を識別するサービスである。
この話者識別サービスでは、識別対象の話者の音声などのデータを事前に登録し、その後識別対象のデータを登録済みのデータと照合するという手順が広く用いられている。話者登録は、エンロール (enroll)、訓練、またはトレーニング(training)とも呼ばれる。
図9Aおよび図9Bは、一般的な話者識別サービスを説明するための図である。図9Aおよび図9Bに示されるように、一般的な話者識別サービスは、2段階で動作し、登録フェーズと識別フェーズの2つのフェーズを有する。図9Aは、登録フェーズの内容を模式的に示す図である。図9Bは、識別フェーズの内容を模式的に示す図である。
図9Aに示されるように、登録フェーズでは、まず、利用者は、話者識別サービスに対して、登録音声(実際には、話者名と登録音声)を入力する。次に、話者識別サービスは、登録音声から特徴量を抽出する。そして、話者識別サービスは、辞書登録として、話者名と特徴量の組を話者識別辞書に格納する。
図9Bに示されるように、識別フェーズでは、まず、利用者は、話者認識サービスに対して、音声(具体的には、識別対象音声)を入力する。次に、話者識別サービスは、識別対象音声から特徴量を抽出する。そして、話者識別サービスは、抽出した特徴量と、話者識別辞書に登録されている特徴量とを照合することにより、識別対象音声と同一の特徴量を持つ登録音声を特定する。最後に、話者識別サービスは、特定された登録音声に付加されている話者名を、識別結果として、利用者に返却する。
図9Aおよび図9Bに記載の話者識別サービスでは、話者識別の精度が登録音声の品質に依存していた。すわなち、たとえば、登録音声が母音しか含まない場合や、登録対象の話者以外の声が混在している場合や、雑音レベルが高い場合などの条件下では、理想的な条件で登録された場合よりも精度が低下する。このため、識別辞書に格納されたデータの内容によって、実用的な識別精度を得ることができない場合があった。
なお、図9Aおよび図9Bに示される特徴量には、たとえば、メル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficient, MFCC)、ガウス混合モデル (Gaussian Mixture Model, GMM)が、知られている。
登録フェーズにおいて、識別辞書に格納するデータは、これらの特徴量そのものであるとは限らない。たとえば、特徴量データの集合を用いてサポートベクトルマシン(Support Vector Machine)などの分類器を生成し、その分類器のパラメータを識別辞書に登録するという手法も知られている(たとえば、特許文献1)。
また、特許文献1では、以前にデータベースに登録されたデータと、新規にデータベースに登録するデータとの類似度を算出し、類似度が基準値未満である場合に限り登録を許可している。特許文献1に記載の技術では、類似したデータが複数登録された場合に、入力音声 (識別対象の音声)との類似度をより厳密に算出するための二次識別を行う。
ただし、特許文献1に記載の技術では、新規にデータベースに登録するデータが十分な情報を含んでいない場合に、新規に登録するデータと登録済みデータとの間の類似度が低い傾向がある。このため、類似した特徴をもつデータが予めデータベースに登録されているにもかかわらず、新規に登録しようとするデータがデータベースへの登録に成功してしまうことがあった。この結果、照合時に誤って音声識別されることがあった。
一方、特許文献2には、データベースに予め登録された生体情報との類似度を用いた評価手段が、開示されている。特許文献2に記載の技術では、新規に登録しようとする生体情報と、データベースに登録済みの生体情報のそれぞれとの間で尤度(類似度)を算出し、すべての登録済み生体情報との間で尤度が基準値未満である場合に限って、登録を許可する。
この手法により、例えばAとBの2人の話者がデータベースに登録されている場合に、AがBと誤認識される可能性を減らすことができ、逆にBがAと誤認識される可能性も減らすことができる。
また、例えば、特許文献3〜5にも、本発明の関連する技術が、開示されている。
国際公開第2014/112375号 特許第4588069号公報 特開2003−177779号公報(特に、段落[0009]、[0010]、[0011]) 特開2003−058185号公報 特開平11−344992号公報
しかしながら、特許文献2に記載の評価技術では、登録済みの生体情報との類似度を判断基準としているために、評価対象の音声が、登録済みの生体情報とは差異が大きいが、十分な情報を含んでいない場合に、誤って別人が同一人物と判定されたり、本人を識別できなかったりするという問題があった。
本発明は、このような事情を鑑みてなされたものであり、本発明の目的は、登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる話者識別装置等を提供することにある。
本発明の話者識別装置は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出する音声認識手段と、前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出する登録音声評価手段と、前記登録音声評価手段の評価結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する辞書登録手段とを備えている。
本発明の話者識別用の登録音声の特徴量登録方法は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する。
本発明の記憶媒体は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する処理をコンピュータに実行させるプログラムを記憶する。
本発明にかかる話者識別装置等によれば、登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる。
本発明の第1の実施の形態における話者識別サーバを含む話者識別システムの構成を示す図である。 本発明の第1の実施の形態における話者識別処理の原理を説明するための図である。 本発明の第1の実施の形態における話者識別サーバの登録フェーズの動作フローを示す図である。 登録音声評価部によるスコア算出処理を説明するための図である。 登録音声評価部によるスコア算出処理を説明するための図である。 音声一時記録部に格納された情報を示す図である。 本発明の第1の実施の形態における話者識別サーバの識別フェーズの動作フローを示す図である。 本発明の第3の実施の形態における話者識別サーバの構成を示す図である。 一般的な話者識別サービスを説明するための図である。 一般的な話者識別サービスを説明するための図である。
<第1の実施の形態>
本発明の第1の実施の形態における話者識別サーバ100を含む話者識別システム1000の構成について説明する。
話者識別システム1000の構成を説明する前に、話者識別処理の原理を図2に基づいて説明する。図2は、本発明の第1の実施の形態における話者識別処理の原理を説明するための図である。話者識別装置500は、本発明の話者識別装置に対応する。
図2に示されるように、話者識別装置500は、登録対象テキストデータ501を利用者600に提示する。この際、話者識別装置500は、利用者600に対して、登録対象テキストデータ501の読み上げを依頼する(処理1)。なお、話者識別装置500は、本発明の話者識別装置に対応し、図1の話者識別サーバ100の機能を模式的に示すブロックに相当する。
次に、端末(図2にて不図示)に設けられたマイク(図2にて不図示)は、利用者600により読み上げられた声を集音する。そして、利用者600により読み上げられた声は、登録音声502として、話者識別装置500に入力される(処理2)。
次に、話者識別装置500は、音声認識により、登録音声502から抽出テキストデータ503を抽出する(処理3)。
次に、話者識別装置500は、処理3で抽出された抽出テキストデータ503(テキスト抽出結果)と、登録対象テキストデータ501とを比較し、両者が一致している部分の割合(類似度)を基にスコアを算出する(処理4)。
最後に、話者識別装置500は、処理4で得られるスコアが基準値以上である場合、登録音声502から抽出した特徴量と話者名の組を話者識別辞書504に登録する(処理5)。一方、話者識別装置500は、処理4で得られるスコアが基準値以上でない場合、処理2以降の処理を再試行する。
なお、登録対象テキスト全体を複数の部分テキスト(例えば文単位)に分割し、それぞれの部分テキストについて処理1〜4の手順を繰り返し実行し、すべての部分テキストについてスコアが基準値を超えた時点で、該当ユーザについて処理5の登録処理を行うようにしても良い。
このように、登録フェーズにおいて音声認識を用いて登録音声の品質を評価し、十分な品質を持つ特徴量のみ登録することで、安定した識別精度を得ることができる。
以上、話者識別処理の原理を図2に基づいて説明した。
次に、話者識別システム1000の構成を説明する。図1は、話者識別サーバ100を含む話者識別システム1000の構成を示す図である。話者識別サーバ100は、本発明の話者識別装置に対応する。
図1に示されるように、話者識別システム1000は、話者識別サーバ100と、端末200とから構成される。話者識別サーバ100および端末200は、ネットワーク300を介して、互いに通信できるように接続されている。
図1に示されるように、話者識別サーバ100は、ネットワーク300に接続されている。話者識別サーバ100は、ネットワーク300を介して、1以上の端末200に通信接続する。より具体的には、話者識別サーバ100は、ネットワーク300経由で、端末200により入力された音声データに対して、話者識別を行うサーバ装置である。1台の話者識別サーバに対して、1台以上の任意の台数の端末200を接続することができる。
図1に示されるように、話者識別サーバ100は、テキスト提示部101と、音声認識部102と、登録音声評価部103と、辞書登録部104と、話者識別部105と、登録対象テキスト記録部106と、音声一時記録部107と、話者識別辞書108とを備えている。
図1に示されるように、テキスト提示部101は、音声認識部102、登録音声評価部103、辞書登録部104および登録対象テキスト記録部106に接続されている。テキスト提示部101は、予め設定されたテキストデータである登録対象テキストデータ(文字または記号を含むデータ)を登録話者に提供する。より具体的には、テキスト提示部101は、ネットワーク300を介して、端末200を利用する登録話者に、登録対象テキストデータを提供し、登録話者に登録対象テキストデータの読み上げを促す。なお、登録話者は、端末200の利用者であって、自身の音声を話者識別サーバ100に登録する者である。登録対象テキストデータは、予め設定されたテキストデータであって、基準となるテキストデータである。登録対象テキストデータは、事前に任意に設定することができる。
図1に示されるように、音声認識部102は、テキスト提示部101、登録音声評価部103および辞書登録部104に接続されている。音声認識部102は、登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。すなわち、登録話者が端末200を用いて基準テキストデータを読み上げると、端末200は、登録話者により読み上げられることにより入力される音声を、登録音声として、ネットワーク300を介して、話者識別サーバ100へ送信する。そして音声認識部102は、音声認識(speech-to-text)により、登録対象テキストデータの読み上げ結果である登録音声からテキストデータを、抽出テキストデータとして抽出する。
図1に示されるように、登録音声評価部103は、テキスト提示部101、音声認識部102、辞書登録部104、登録対象テキスト記録部106および音声一時記録部107に接続されている。登録音声評価部103は、音声認識部102により抽出された抽出テキストデータと、登録対象テキストデータとの間の類似度を示す登録音声スコアを、登録話者毎に算出する。すなわち、登録音声評価部103は、登録音声からのテキスト抽出結果(抽出テキストデータ)と、登録対象テキストデータとを比較することにより、登録音声の品質を示す指標として、登録音声スコアを算出する。
図1に示されるように、辞書登録部104は、テキスト提示部101、音声認識部102、登録音声評価部103、話者識別部105および話者識別辞書108に接続されている。辞書登録部104は、登録音声評価部103の評価結果に応じて、話者識別辞書108に、登録音声の特徴量を登録する。より具体的には、登録音声評価部103により算出された登録音声スコアが所定の基準値より大きい場合、辞書登録部104は話者識別辞書108に登録音声の特徴量を登録する。すなわち、辞書登録部104は、登録音声評価部103により算出された登録音声スコアが基準値以上である登録音声から特徴量を抽出し、この抽出情報を話者識別辞書108に登録する。
図1に示されるように、話者識別部105は、辞書登録部104および話者識別辞書108に接続されている。話者識別部105は、端末200により入力される識別対象音声に基づいて、話者識別辞書108を参照して、識別対象音声の主がどの登録話者なのかを識別する。
図1に示されるように、登録対象テキスト記録部106は、テキスト提示部101および登録音声評価部103に接続されている。登録対象テキスト記録部106は、ストレージ装置(または、ストレージ装置内の一部の領域)であって、登録対象テキストデータを記憶する。登録対象テキストデータは、テキスト提示部101により参照される。
図1に示されるように、音声一時記録部107は、登録音声評価部103に接続されている。音声一時記録部107は、ストレージ装置(または、ストレージ装置内の一部の領域)であって、端末200により入力される登録音声を一時的に記録する。
図1に示されるように、話者識別辞書108は、辞書登録部104および話者識別部105に接続されている。話者識別辞書108は、登録話者毎に登録音声の特徴量を登録するための辞書である。
図1に示されるように、端末200は、ネットワーク300に接続されている。端末200は、ネットワーク300を介して、話者識別サーバ100に通信接続する。端末200は、マイク等の入力装置(図1にて不図示)と、液晶ディズプレイ等の出力装置(図1にて不図示)を備えている。また、端末200は、ネットワーク300を介して話者識別サーバ100と情報の送受を行う送受信機能を有する。端末200は、たとえば、PC(Personal Computer)、電話機、携帯電話機、スマートフォンなどである。
以上、話者識別システム1000の構成について説明した。
次に、話者識別サーバ100の動作について説明する。話者識別サーバ100の動作は、登録フェーズと識別フェーズの2種類の動作を含んでいる。
まず、話者識別サーバ100の登録フェーズの動作について説明する。登録フェーズは、登録話者により端末200に対して行われる話者登録操作を起点に、開始される。以下の説明では、登録対象テキストは、複数個のテキストにより構成されるものとする。
図3は、話者識別サーバ100の登録フェーズの動作フローを示す図である。
図3に示されるように、まず、話者識別サーバ100は、端末200により送信される話者登録要求に応答して、登録対象テキストデータを端末200に送信する(ステップ(STEP:以下、単にSと称する。)11)。このとき、テキスト提示部101は、登録対象テキスト記録部106に予め格納された登録対象テキストデータを取得し、この登録対象テキストデータを、端末200の利用者である登録話者に提供する。このS11の処理は、図2のテキスト提示処理(処理1)に対応する。
次に、端末200は、テキスト提示部101により提供された登録対象テキストデータを受信し、端末200の利用者である登録話者に対して、登録対象テキストデータの読み上げを依頼する。登録話者が登録対象テキストデータを読み上げると、端末200は、登録話者が読み上げた結果の音声データを、登録音声として、話者識別サーバ100へ送信する。この処理は、図2の音声入力処理(処理2)に対応する。
なお、S11において、話者サーバ100から端末200に登録対象テキストデータを電文として送信するか、あるいは事前に登録対象テキストデータを紙に印刷した形(以下、登録対象テキスト紙)で利用者に配付しても良い。後者の場合、登録対象テキスト紙には、個々の登録対象テキストに番号を付加した形で印刷しておき、本ステップでは話者識別サーバから端末に対して読み上げ対象の番号を送信する。
次に、話者識別サーバ100は、端末200により送信された登録音声を受信する(S12)。ここでは、端末200から話者識別サーバ100に入力される登録音声の信号は、PCM(Pulse Code Modulation)やG.729などの符号化方式で表現されたデジタル信号、またはアナログ音声信号のいずれでも良い。また、ここで入力される音声信号をS13以降の処理に先立って変換しても良い。例えば、話者識別サーバ100は、G.729符号化方式による音声信号を受理し、S12とS13の間で音声信号をリニアPCMに変換した後で、これを音声認識処理(S13)および辞書登録処理(S18)に適合するように構成しても良い。
音声認識部102は、音声認識により、登録音声から抽出テキストデータを抽出する(S13)。このS13の処理では、既知の音声認識技術を用いる。音声認識技術には、利用者の事前登録(エンロール、enroll) を必要とするものとしないものがあるが、本発明では事前登録を必要としない技術を用いる。このS13の処理は、図2のテキスト抽出処理(処理3)に対応する。
次に、登録音声評価部103は、音声認識部102により抽出された抽出テキストデータと、登録対象テキストデータとを比較して、両者間の類似度を示す登録音声スコアを登録話者毎に算出する(S14)。このS14処理は、図2の比較→スコア算出処理(処理4)に対応する。
ここで、S14のスコア算出処理について、図4および図5に基づいて、具体的に説明する。
図4および図5は、登録音声評価部103によるスコア算出処理を説明するための図である。
図4は、登録対象テキストデータが日本語の場合を示している。図4の上段には、正解テキストとして、[A]登録対象テキストデータを示す。図4の下段には、[B]登録音声からのテキスト抽出結果(抽出テキストデータ)を示す。
既知の音声認識技術では、音声認識結果[B]は、辞書を用いて、単語単位で、かな漢字交じりの文章として、表現される。
正解テキストとして用いる登録対象テキスト[A]は、これに合わせて事前に、単語単位に分割した状態で、登録対象テキスト記録部106に記録しておく。S14では、登録音声評価部103は、単語ごとに、登録対象テキストデータ[A]と抽出テキストデータ[B]を比較する。そして、登録音声評価部103は、登録対象テキストデータ[A]と抽出テキストデータ[B]の比較結果に基づいて、登録対象テキストデータ[A]中の全単語数のうち、抽出テキストデータ[B]と一致した単語数の割合を登録音声スコアとして算出する。図4の例では、4単語中3単語が一致しているので、スコアは3/4=0.75となる。
図5は、登録対象テキストが英語の場合を示している。図5の上段には、正解テキストとして、[A]登録対象テキストデータを示す。図5の下段には、[B]登録音声からのテキスト抽出結果(抽出テキストデータ)を示す。
図4の例と同様に、登録音声評価部103は、単語ごとに、登録対象テキストデータ[A]と抽出テキストデータ[B]を比較する。そして、登録音声評価部103は、登録対象テキストデータ[A]と抽出テキストデータ[B]の比較結果に基づいて、登録対象テキストデータ[A]中の全単語数のうち、抽出テキストデータ[B]と一致した単語数の割合を登録音声スコアとして算出する。図5の例では、4単語中3単語が一致しているので、スコアは3/4=0.75となる。
図3に戻って、辞書登録部104は、登録音声評価部103により算出された登録音声スコアが所定の閾値(基準値)より大きいか否かを判断する(S15)。
登録音声評価部103により算出された登録音声スコアが所定の閾値(基準値)より大きい場合(S15、YES)、辞書登録部104は話者識別辞書108に登録音声を音声一時記録部107に登録する(S16)。
登録音声評価部103により算出された登録音声スコアが所定の閾値(基準値)より大きくない場合(S15、NO)、話者識別サーバ100は、S11の処理以降の処理を繰り返す。
話者識別サーバ100は、登録対象の利用者(登録話者)について、すべての登録対象テキストデータに対応する登録音声が、音声一時記録部107に格納されたか否かを判断する(S17)。
登録対象の利用者(登録話者)について、すべての登録対象テキストデータに対応する登録音声が音声一時記録部107に格納された場合(S17、YES)、辞書登録部104は話者識別辞書108に登録音声を登録する(S18)。このS18は、図2の辞書登録処理(処理5)に対応する。
登録対象の利用者(登録話者)について、すべての登録対象テキストデータに対応する登録音声が音声一時記録部107に格納されていない場合(S17、NO)、話者識別サーバ100は、S11の処理に戻り、他の登録対象テキストデータに対する処理を行う。
このS17における繰り返しの制御について、図6を用いて、具体例を説明する。図6は、音声一時記録部107に格納された情報を示す図である。
図6では、ユーザ(登録話者)のID「000145」と、登録対象テキストデータID1〜5の組のそれぞれについて、対応する登録音声が音声一時記録部107に格納済みか否か(true/false)を示している。この例では、登録対象テキストデータ1および2については格納済みで、登録対象テキストデータ3〜5については未格納であるため、話者識別サーバ100は、登録対象テキストデータ3〜5のいずれかを対象としてS11以降の処理を繰り返し行う。
図3に戻って、最後に、登録対象の利用者(登録話者)について、音声一時記録部107に格納された登録音声全てを削除する(S19)。
以上、話者識別サーバ100の登録フェーズの動作について説明した。
次に、話者識別サーバ100の識別フェーズの動作について説明する。図7は、話者識別サーバ100の登録フェーズの動作フローを示す図である。なお、話者識別サーバ100の識別フェーズは、図8の登録フェーズの処理と同様である。
図7に示されるように、まず、話者識別サーバ100は、端末200から送信される話者識別要求を受信する(S21)。話者識別要求には、パラメータとして、端末200により録音された音声データ(識別対象音声)が含まれている。
次に、話者識別サーバ100の話者識別部105は、話者識別辞書108を参照して登録話者を識別する(S22)。すなわち、話者識別部105は、S21で得られた識別対象音声の特徴量と、話者識別辞書108に登録された登録音声の特徴量とを照合する。これにより、話者識別部105は、識別対象音声が話者識別辞書108内のいずれかのユーザID(Identifier)の登録音声とマッチするか否かを判定する。
最後に、話者識別サーバ100は、話者識別部105の識別結果を、端末200へ送信する(S23)。
以上、話者識別サーバ100の識別フェーズの動作について説明した。
以上の通り、本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)は、音声認識部102と、登録音声評価部103と、辞書登録部104とを備えている。音声認識部102は、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を、登録話者毎に算出する。辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書108に、登録音声の特徴量を登録する。
このように、話者識別サーバ100(話者識別装置)では、登録対象テキストデータが登録話者により読み上げられて得られる登録音声からテキスト抽出を行う。そして、テキスト抽出結果である抽出テキストデータと登録対象テキストデータの類似度を示すスコアの算出結果に基づいて、登録音声の特徴量を話者識別辞書108に登録する。テキスト抽出結果である抽出テキストデータが、登録対象テキストデータと高い割合で一致する場合、この抽出テキストデータに対応する登録音声は明瞭に発音され、かつ、雑音レベルも十分に低いと推定できる。また、登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を算出し、辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に話者識別辞書108に、登録音声の特徴量を登録する。これにより、登録音声評価部103の評価結果が好ましい場合の登録音声は、話者識別辞書108に登録されるが、登録音声評価部103の評価結果が好ましくない場合の登録音声は、話者識別辞書108に登録されない。したがって、話者識別辞書108には、十分な品質の登録音声のみを登録することができる。これにより、不十分な品質の登録音声に起因する識別誤りを抑制することができる。
このように、本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)によれば、不十分な品質の登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる。よって、特許文献2に記載の評価技術のように、誤って別人が同一人物と判定されたり、本人を識別できなかったりすることは低減された。
また、本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)において、辞書登録部104は、スコア(登録音声スコア)が所定の基準値より大きい場合、話者識別辞書108に、登録音声の特徴量を登録する。
このように、話者識別辞書108に登録音声の特徴量を登録する判断基準であるスコア(登録音声スコア)を定量的に判断することにより、話者識別辞書108に登録される登録音声の品質をより定量的に高めることができる。したがって、不十分な品質の登録音声に起因する識別誤りをより効果的に抑制し、より安定して正確に話者を識別することができる。
本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)は、テキスト提示部101を備えている。テキスト提示部101は、登録対象テキストデータを登録話者に提供する。これにより、登録対象テキストデータをより円滑に登録話者に提供することができる。
本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)において、登録音声評価部103は、単語毎に、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を、登録話者毎に算出する。このように、単語毎にスコアを算出するので、抽出テキストデータと登録対象テキストデータとをより精度高く比較することができる。
本発明の第1の実施の形態における話者識別サーバ100(話者識別装置)において、辞書登録部104は、単語毎のスコアの全てが所定の基準値より大きい場合、話者識別辞書108に、登録音声の特徴量を登録する。これにより、話者識別辞書108に登録される登録音声の品質をより高めることができる。
本発明の第1の実施の形態における話者識別用の登録音声の特徴量登録方法は、音声認識ステップと、登録音声評価ステップと、辞書登録ステップとを含む。音声認識ステップでは、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。登録音声評価ステップでは、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を、登録話者毎に算出する。辞書登録ステップでは、登録音声評価ステップの評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書に、登録音声の特徴量を登録する。この方法によっても、前述した話者識別サーバ100(話者識別装置)の効果と同様の効果を奏することができる。
本発明の第1の実施の形態における話者識別用の登録音声の特徴量登録プログラムは、前述の音声認識ステップと、前述の登録音声評価ステップと、前述の辞書登録ステップとを含む処理をコンピュータに実行させる。このプログラムによっても、前述した話者識別サーバ100(話者識別装置)の効果と同様の効果を奏することができる。
本発明の第1の実施の形態における記憶媒体は、前述の音声認識ステップと、前述の登録音声評価ステップと、前述の辞書登録ステップとを含む処理をコンピュータに実行させるプログラムを記憶する。この記憶媒体によっても、前述した話者識別サーバ100(話者識別装置)の効果と同様の効果を奏することができる。
<第2の実施の形態>
次に、本発明の第2の実施の形態における話者識別サーバの構成について、説明する。
第1の実施の形態では、登録音声の評価基準として、登録音声から音声認識により抽出したテキストデータと、正解テキストとして登録対象テキストデータとの比較を用いていた。ここで、正解テキストとしての登録対象テキストデータは、図3のS11における登録対象テキストデータを指す。
この第2の実施の形態では、登録音声の評価基準として、登録音声に含まれる音素 (例: a, i, u, e, o, k, s, …) の種類を用いる。具体的には、登録音声を音声認識した結果抽出される各音素の出現回数をカウントし、すべての種類の音素について出現回数が基準回数 (例えば5回)に達していれば、十分な情報を含むと判定する。この条件を満たさない場合に、利用者に対して追加の登録音声の入力を依頼し、前回までの登録音声に含まれる音素数と合算して基準回数(基準音素数)に達しているか否かを判定しても良い。
本発明の第2の実施の形態における話者識別サーバ(話者識別装置)において、登録音声評価部は、抽出テキストデータに含まれる音素の数を、予め設定された基準音素数と比較する。
これにより、スコアの算出に正解テキスト(すなわち登録対象テキスト)を無くすことができる。このため、登録話者は、話者登録時に任意の文章を読み上げることができる。
<第3の実施の形態>
本発明の第3の実施の形態における話者識別サーバ100Aの構成について説明する。図8は、本発明の第3の実施の形態における話者識別サーバ100Aの構成を示す図である。なお、図8では、図1〜図7で示した各構成要素と同等の構成要素には、図1〜図7に示した符号と同等の符号を付している。
図8に示されるように、話者識別サーバ100Aは、音声認識部102と、登録音声評価部103と、辞書登録部104とを備えている。図1のように図示しないが、音声認識部102と登録音声評価部103と辞書登録部104は、互いに接続されている。音声認識部102、登録音声評価部103および辞書登録部104は、第1の実施の形態における話者識別サーバ100に含まれる構成要素と同一である。すなわち、話者識別サーバ100Aは、話者識別サーバ100の一部の構成要素のみで構成されている。
音声認識部102は、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。
登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコアを、登録話者毎に算出する。
辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書に、登録音声の特徴量を登録する。
以上の通り、本発明の第3の実施の形態における話者識別サーバ100(話者識別装置)は、音声認識部102と、登録音声評価部103と、辞書登録部104とを備えている。音声認識部102は、登録音声に対応するテキストデータを、抽出テキストデータとして抽出する。登録音声は、事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である。登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を、登録話者毎に算出する。辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に登録音声の特徴量を登録するための話者識別辞書に、登録音声の特徴量を登録する。
このように、話者識別サーバ100A(話者識別装置)では、登録対象テキストデータが登録話者により読み上げられて得られる登録音声からテキスト抽出を行う。そして、テキスト抽出結果である抽出テキストデータと登録対象テキストデータの類似度を示すスコアの算出結果に基づいて、登録音声の特徴量を話者識別辞書に登録する。テキスト抽出結果である抽出テキストデータが、登録対象テキストデータと高い割合で一致する場合、この抽出テキストデータに対応する登録音声は明瞭に発音され、かつ、雑音レベルも十分に低いと推定できる。また、登録音声評価部103は、抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を算出し、辞書登録部104は、登録音声評価部103の評価結果に応じて、登録話者毎に話者識別辞書に、登録音声の特徴量を登録する。これにより、登録音声評価部103の評価結果が好ましい場合の登録音声は、話者識別辞書に登録されるが、登録音声評価部103の評価結果が好ましくない場合の登録音声は、話者識別辞書に登録されない。したがって、話者識別辞書には、十分な品質の登録音声のみを登録することができる。これにより、不十分な品質の登録音声に起因する識別誤りを抑制することができる。
このように、本発明の第3の実施の形態における話者識別サーバ100A(話者識別装置)によれば、不十分な品質の登録音声に起因する識別誤りを抑制し、安定して正確に話者を識別することができる。よって、特許文献2に記載の評価技術のように、誤って別人が同一人物と判定されたり、本人を識別できなかったりすることは低減された。
本発明の実施の形態1〜3における話者識別技術は、話者識別の応用分野全般への利用が可能である。具体例として、次のものを含む。(1)電話などの音声通話において、通話音声から通話相手を識別するサービス、(2)声の特徴を利用して建物や部屋への入退場を管理する装置、(3)電話会議・テレビ会議・映像作品において、発言者名と発言内容の組をテキストとして抽出するサービス。
なお、特許文献3〜5と本発明の対比は、以下の通りである。
特許文献3には、音声認識結果(音声認識の結果得られるテキスト)と正解テキスト(比較の基準となるテキスト)との比較や、認識信頼度に基づいて、スコアを算出する技術が、開示されている(特に、段落[0009]、[0011]、[0013])。しかし、特許文献3に記載の技術は、音声認識の結果を評価するための一般的な方法であり、本発明と直接的には関係ない。また、特許文献3には、スコア算出結果が閾値未満である場合、話者登録学習を適用し、登録対象の話者に対して、特定の単語について発声を促し、その結果を用いて発音辞書を更新するという処理が、開示されている。
しかし、少なくとも、登録音声評価部103が単語毎に抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を登録話者毎に算出する技術は、特許文献3には開示されていない。
すなわち、既知の話者識別技術では、同一話者について、単語単位などの短い音声を逐次的に識別辞書に登録するのではなく、ある程度の長さ (典型的には数分程度) を持つ音声を一度に登録する必要がある。
特許文献4には、ユーザが発声した音声と、それに対応するテキストを入力させ、前者について話者性を取り除いた後の音声特徴量と、後者のテキストの対応関係を認識辞書に記憶するという動作が、開示されている(特に段落[0024])。また、音声認識の対象となる音声信号について、話者認識の結果である話者ラベルを用いて、適用すべき正規化パラメータを特定する処理が開示されている(特に[0040])。しかしながら、少なくとも、登録音声評価部103が単語毎に抽出テキストデータと登録対象テキストデータとの間の類似度を示すスコア(登録音声スコア)を登録話者毎に算出する技術は、特許文献4には開示されていない。
特許文献5には、新規登録ユーザにランダムなテキストを提示して、それに対応する音声入力を促し、その結果を用いて個人用辞書を作成する動作が、開示されている(段落[0016])。また、不特定話者音声辞書と音声データとの照合結果である照合スコアを算出し、個人用辞書の一部として登録する動作が、開示されている(特に段落[0022])。
しかしながら、特許文献5には、同一話者について複数の部分テキストを提示する技術は開示されていない。
さらに、特許文献5には、正規化スコアと閾値との大小関係により、本人か否かを判定する動作が開示されている(特に段落[0024])。これは話者照合における一般的な動作(本件の図8に記載した技術の「識別フェーズ」に相当)である。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2014年12月11日に出願された日本出願特願2014−250835を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100、100A 話者識別サーバ
101 テキスト提示部
102 音声認識部
103 登録音声評価部
104 辞書登録部
105 話者識別部
106 登録対象テキスト記録部
107 音声一時記録部
108 話者識別辞書
200 端末
300 ネットワーク

Claims (8)

  1. 事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出する音声認識手段と、
    前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出する登録音声評価手段と、
    前記登録音声評価手段の評価結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する辞書登録手段とを備えた話者識別装置。
  2. 前記辞書登録手段は、前記スコアが所定の基準値より大きい場合、前記話者識別辞書に、前記登録音声の特徴量を登録する請求項1に記載の話者識別装置。
  3. 前記登録対象テキストデータを前記登録話者に提供するテキスト提供手段を備えた請求項1または2に記載の話者識別装置。
  4. 前記登録音声評価手段は、単語毎に、前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出する請求項1〜3のいずれか1項に記載の話者識別装置。
  5. 前記辞書登録手段は、前記単語毎の前記スコアの全てが所定の基準値より大きい場合、前記話者識別辞書に、前記登録音声の特徴量を登録する請求項4に記載の話者識別装置。
  6. 前記登録音声評価手段は、前記抽出テキストデータに含まれる音素の数と、予め設定された基準音素数と比較する請求項1に記載の話者識別装置。
  7. 事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、
    前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、
    前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する話者識別用の登録音声の特徴量登録方法。
  8. 事前に設定されたテキストデータである登録対象テキストデータが登録話者により読み上げられることにより入力される音声である登録音声に対応するテキストデータを、抽出テキストデータとして抽出し、
    前記抽出テキストデータと前記登録対象テキストデータとの間の類似度を示すスコアを、前記登録話者毎に算出し、
    前記スコアの算出結果に応じて、前記登録話者毎に前記登録音声の特徴量を登録するための話者識別辞書に、前記登録音声の特徴量を登録する処理をコンピュータに実行させるプログラム。
JP2016563500A 2014-12-11 2015-12-07 話者識別装置および話者識別用の登録音声の特徴量登録方法 Active JP6394709B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014250835 2014-12-11
JP2014250835 2014-12-11
PCT/JP2015/006068 WO2016092807A1 (ja) 2014-12-11 2015-12-07 話者識別装置および話者識別用の登録音声の特徴量登録方法

Publications (2)

Publication Number Publication Date
JPWO2016092807A1 JPWO2016092807A1 (ja) 2017-08-31
JP6394709B2 true JP6394709B2 (ja) 2018-09-26

Family

ID=56107027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016563500A Active JP6394709B2 (ja) 2014-12-11 2015-12-07 話者識別装置および話者識別用の登録音声の特徴量登録方法

Country Status (3)

Country Link
US (1) US20170323644A1 (ja)
JP (1) JP6394709B2 (ja)
WO (1) WO2016092807A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295299A (zh) * 2016-08-15 2017-01-04 歌尔股份有限公司 一种智能机器人的用户注册方法和装置
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
WO2019002831A1 (en) 2017-06-27 2019-01-03 Cirrus Logic International Semiconductor Limited REPRODUCTIVE ATTACK DETECTION
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201803570D0 (en) 2017-10-13 2018-04-18 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801874D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Improving robustness of speech processing system against ultrasound and dolphin attacks
GB201801661D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801663D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US10733996B2 (en) * 2018-03-30 2020-08-04 Qualcomm Incorporated User authentication
US10720166B2 (en) * 2018-04-09 2020-07-21 Synaptics Incorporated Voice biometrics systems and methods
US10818296B2 (en) * 2018-06-21 2020-10-27 Intel Corporation Method and system of robust speaker recognition activation
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
US20220005482A1 (en) 2018-10-25 2022-01-06 Nec Corporation Audio processing apparatus, audio processing method, and computer-readable recording medium
KR20200129346A (ko) * 2019-05-08 2020-11-18 삼성전자주식회사 디스플레이 장치 및 이의 제어 방법
US11355136B1 (en) * 2021-01-11 2022-06-07 Ford Global Technologies, Llc Speech filtering in a vehicle
JP7109113B1 (ja) * 2021-05-20 2022-07-29 力 森 識別システム装置
JP2023174185A (ja) * 2022-05-27 2023-12-07 パナソニックIpマネジメント株式会社 認証システムおよび認証方法
WO2024009465A1 (ja) * 2022-07-07 2024-01-11 パイオニア株式会社 音声認識装置、プログラム、音声認識方法、及び音声認識システム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4363102A (en) * 1981-03-27 1982-12-07 Bell Telephone Laboratories, Incorporated Speaker identification system using word recognition templates
JP2991144B2 (ja) * 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
US6064957A (en) * 1997-08-15 2000-05-16 General Electric Company Improving speech recognition through text-based linguistic post-processing
JPH11344992A (ja) * 1998-06-01 1999-12-14 Ntt Data Corp 音声辞書作成方法、個人認証装置および記録媒体
JP2003044445A (ja) * 2001-08-02 2003-02-14 Matsushita Graphic Communication Systems Inc 認証システム、サービス提供サーバ装置および音声認証装置並びに認証方法
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
JP2007052496A (ja) * 2005-08-15 2007-03-01 Advanced Media Inc ユーザ認証システム及びユーザ認証方法
JP4594885B2 (ja) * 2006-03-15 2010-12-08 日本電信電話株式会社 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JPWO2007111197A1 (ja) * 2006-03-24 2009-08-13 パイオニア株式会社 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JP4869268B2 (ja) * 2008-03-04 2012-02-08 日本放送協会 音響モデル学習装置およびプログラム
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model

Also Published As

Publication number Publication date
WO2016092807A1 (ja) 2016-06-16
JPWO2016092807A1 (ja) 2017-08-31
US20170323644A1 (en) 2017-11-09

Similar Documents

Publication Publication Date Title
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
JP4672003B2 (ja) 音声認証システム
US20160372116A1 (en) Voice authentication and speech recognition system and method
US6161090A (en) Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US20160329046A1 (en) Speech Recognizer Adapted to Reject Machine Articulations
CN109410664B (zh) 一种发音纠正方法及电子设备
AU2013203139A1 (en) Voice authentication and speech recognition system and method
CN104143326A (zh) 一种语音命令识别方法和装置
EP2879130A1 (en) Methods and systems for splitting a digital signal
CN104462912B (zh) 改进的生物密码安全
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
Beigi Challenges of LargeScale Speaker Recognition
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
JP5646675B2 (ja) 情報処理装置及び方法
KR101598950B1 (ko) 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
CN113053409B (zh) 音频测评方法及装置
CN110853674A (zh) 文本核对方法、设备以及计算机可读存储介质
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
CN113409774A (zh) 语音识别方法、装置及电子设备
JP2000099090A (ja) 記号列を用いた話者認識方法
CN111785280A (zh) 身份认证方法和装置、存储介质和电子设备
WO2006027844A1 (ja) 話者照合装置
US20180012603A1 (en) System and methods for pronunciation analysis-based non-native speaker verification

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170524

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180813

R150 Certificate of patent or registration of utility model

Ref document number: 6394709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150