JP2020184032A - 音声認証システム - Google Patents

音声認証システム Download PDF

Info

Publication number
JP2020184032A
JP2020184032A JP2019088771A JP2019088771A JP2020184032A JP 2020184032 A JP2020184032 A JP 2020184032A JP 2019088771 A JP2019088771 A JP 2019088771A JP 2019088771 A JP2019088771 A JP 2019088771A JP 2020184032 A JP2020184032 A JP 2020184032A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
people
recognition circuit
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019088771A
Other languages
English (en)
Other versions
JP6833216B2 (ja
Inventor
眞吾 黒岩
Shingo Kuroiwa
眞吾 黒岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chiba University NUC
Original Assignee
Chiba University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chiba University NUC filed Critical Chiba University NUC
Priority to JP2019088771A priority Critical patent/JP6833216B2/ja
Priority to PCT/JP2020/015735 priority patent/WO2020226019A1/ja
Publication of JP2020184032A publication Critical patent/JP2020184032A/ja
Application granted granted Critical
Publication of JP6833216B2 publication Critical patent/JP6833216B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Lock And Its Accessories (AREA)

Abstract

【課題】本発明によれば、登録した特定の2名以上が声を揃えて発声した時のみ反応する音声認証システムを提供する。【解決手段】音声の登録および照合を行う音声認識回路と、音声を集音するマイクと、ロック機構と、マイクによって集音された音声を音声認識回路で音声照合して得られる照合結果に基づいてロック機構を制御する制御回路とを有する音声認証システムにおいて、音声認識回路に登録する音声が2名以上の複合音声を含むことを特徴とする。また、複合音声が、少なくとも話者2名以上による実質的に同時の発声を録音したものであることを特徴とする。【選択図】図2

Description

本発明は、音声認証システムに関し、より詳細には、登録した特定の2名以上が声を揃えて発声した時のみ反応する認証システムに関する。
従来の認証技術として、特定の人以外には操作できないようにロック機構を設けた装置が種々存在している。これらのロック機構は、鍵やカードを使用したり、暗証番号を入力するものが一般的である。
しかしながら、従来のロック機構を設けた装置は、使用者がロック機構を操作したいときに、その都度、鍵やカードを差し込んだり、暗証番号を入力しなければならず、手間のかかるものであった。また、使用者以外の者に鍵やカードを入手されたり暗証番号を知られた場合、容易にロック機構を操作されてしまうという問題点を有していた。
このような問題点を根本から解決する方法として生体認証技術が注目されており、一部実用化もされている。生体認証技術には生体情報が使用される。生体情報には、人間の身体特徴に基づく身体的特徴と、個人の癖などに基づく行動的特徴がある。話者認識(音声信号からその発話者を推定する技術)では、発声器官の構造に依存する身体的特徴と発声の癖などに依存する行動的特徴の両方を使用することができるため、他人が盗用することが困難とされている。
この話者認識を用いた装置として、例えば、下記特許文献1に音声認識装置が記載されている。装置に向かって言葉を発すれば、使用者があらかじめ登録しておいた音声に対して音質および言葉が一致しているかどうかを音声認識回路が照合し、一致していれば制御回路によってソレノイドが作動してロックが解除される。一致しない場合にはロックは解除されない。
また他の認証技術として、複数人(2名以上)を同時に認証するニーズが増加している。例えば、スマートフォン用のアルバムアプリにおいて、2人の秘密の写真や映像を、2人が物理的に同時にいるときだけ見ることができ、1人では見ることができない機能が望まれている。また、特定の音声で起動する装置の例として、「天空の城ラピュタ」に登場する「飛行石」が玩具として販売されているが、現在販売されているものは「バルス」と言えば誰にでも反応するものである。これに対して、登録した特定の2人が声を揃えて発声した時のみ反応する構成にできれば、より「天空の城ラピュタ」の世界観に近いものとなる。
実開平7−30735号公報
従来の音声認証システムでは、特定の1名の発声によるものであり、無断で音声を録音されたりしてロックが解除されたり、近年の音声合成技術の進歩により、人工的に音声を作り出す技術が向上したため、より信頼性の高いセキュリティシステムが望まれていた。
また、2名以上が同時に存在し、かつ2名以上が協力的であることを前提とする認証システムはないという問題点を有していた。
本発明は、上記課題に鑑みてなされたものであり、登録した特定の2名以上が声を揃えて発声した時のみ反応する音声認証システムを提供することを目的とする。
本発明者らは、上記課題を解決するべく鋭意検討を行った結果、Deep Neural Network(DNN)を使用して抽出した、d-vectorと呼ばれる話者空間を直接的に表現できる特徴量を使用する手法が提案されており、話者照合性能の向上が報告されているが、このd-vectorが二者同時発話の特徴をMFCCより上手く捉えることができると考え、d-vectorを特徴量としたHMMによる二者同時発話を対象とした話者識別実験を行うことにより認識性能の向上を試み、本発明を完成するに至った。
本発明の一観点に係る音声認証システムは、音声の登録および照合を行う音声認識回路と、音声を集音するマイクと、ロック機構と、マイクによって集音された音声を音声認識回路で音声照合して得られる照合結果に基づいてロック機構を制御する制御回路とを有する音声認証システムにおいて、音声認識回路に登録する音声が2名以上の複合音声を含むことを特徴とするものである。
さらに、複合音声が、少なくとも話者2名以上による実質的に同時の発声を録音したものであることを特徴とするものである。
さらに、音声認識回路が、少なくとも2名の実質的に同時の発声音声か否かを判断する話者数判別モデルと、ターゲット話者2名の実質的に同時の発声音声か否かを判断する2名話者発声モデルとを有することを特徴とするものである。
さらに、音声認識回路が、合成音声が含まれていないかを判断する合成音声判別モデルを有することを特徴とするものである。
さらに、音声認識回路が、2名の音声がともに緊張していないかを判断する緊張音声判別モデルを有することを特徴とするものである。
本発明によれば、登録した特定の2名以上が声を揃えて発声した時のみ反応する音声認証システムを提供できる利点がある。
実施形態に係るシステム構成を示すブロック図である。 実施形態に係る音声認識回路の解錠制御処理手順の一例を示すフローチャートである。
以下、本発明の実施形態について説明する。本発明の範囲はこれらの説明に拘束されることはなく、以下の例示以外についても、本発明の趣旨を損なわない範囲で適宜変更し実施することができる。
図1は、発明者が提案する音声認証システム構成を示すブロック図の一例である。2は音声認識回路で、マイク1が接続されている。この音声認識回路2は音声認識LSI等によって構成され、マイク1から入力された音声について登録および照合を行うことができ、音声登録時には確実に登録されたか否か、音声照合時には入力された音声が登録されている音声と一致しているか否かについて信号を出力するものである。3は制御回路で、音声認識回路2の音声登録および照合の処理を制御するとともに、音声認識回路2からの出力信号に応じてロック機構4を作動させるものである。この制御回路3には登録ボタン(図示せず。)および照合ボタン(図示せず。)が接続されており、これらを使用者が操作することで音声の登録処理もしくは照合処理が開始される。尚、5は上記各回路の電源となる電池である。
本実施形態において音声認識回路2に登録する音声は、2名以上の複合音声を含むものであって、2名が同時に声を揃えて同じフレーズを発声した音声データ(複数あることが望ましい)や、敵対音声データとして、2名のうちの1名の発声、2名のうち1名が異なる発声、全く異なる1名の発声、計算機上で様々に重ね合わせた2話者音声モデルなども予め登録しておくことが望ましい。
図2は、発明者らが提案する音声認識回路2の解錠制御処理手順の一例を示すフローチャートである。図2で示すように、本方法は、(1)合成音声が含まれていないかを判断する手順(S1)と、(2)2名の同時発声音声かを判断する手順(S2)と、(3)ターゲット話者2名の同時発声音声かを判断するとともに特定又は任意のフレーズの同時発声音声かを判断する手順(S3)と、(4)2名の音声ともに緊張していないかを判断する手順(S4)とを含んでいる。
本方法は、具体的には、情報処理装置のハードディスク等の記録媒体に本方法を実現するプログラムを記録し、このプログラムを実行することで実現できる。
すなわち、本方法は、音声認識回路2に、(1)合成音声が含まれていないかを判断する手順(S1)、(2)2名の同時発声音声かを判断する手順(S2)、(3)ターゲット話者2名の同時発声音声かを判断するとともに特定又は任意のフレーズの同時発声音声かを判断する手順(S3)、(4)2名の音声ともに緊張していないかを判断する手順(S4)、を実行させるためのプログラムを情報処理装置の記録媒体に記録し、このプログラムを実行することで実現可能である。
以下、本実施形態では、情報処理装置の記録媒体に上記プログラムを記録し、これを実行することによって本方法を実現する例として説明する。
(合成音声判別モデル)
まず、本方法では(1)合成音声が含まれていないかを判断する手順(S1)を有する。この手順は、無断で録音された音声、人工的な音声合成による音声を排除するのに有用なものである。この手順を実行すると、合成音声が含まれている場合、録音音声が含まれている場合、すなわち、人の発声音声以外が含まれている場合、リジェクトされてロック機構4は解錠しない。
(話者数判別モデル)
また、本方法では(2)2名の同時発声音声かを判断する手順(S2)を有する。この手順は、複数人(例えば、2名)を同時に認証するセキュリティシステムとして、又、より信頼性の高いセキュリティシステムとして、2名が同時に存在することを確認するために有用なものである。この手順を実行すると、1名の発声音声の場合、3名以上の発声音声の場合、リジェクトされてロック機構4は解錠しない。
(2名話者発声モデル)
また、本方法では(3)ターゲット話者2名の同時発声音声かを判断するとともに特定又は任意のフレーズの同時発声音声かを判断する手順(S3)を有する。この手順も、複数人(例えば、2名)を同時に認証するセキュリティシステムとして、又、より信頼性の高いセキュリティシステムとして、登録した2名の同時発声音声かを確認するために有用なものである。この手順を実行すると、2名の発声音声の場合で、1名だけ登録した人と違う場合、2名とも登録した人と違う場合、登録した2名が同時に発声していない場合、リジェクトされてロック機構4は解錠しない。また、フレーズが正しいか否かを判定し、フレーズが正しくない場合、リジェクトされてロック機構4は解錠しない。
手順(S2、S3)において、話者数は「2名」に限定されるわけではない。すなわち、情報・資産を共有する人数が「3名」ならば3名の同時発声音声かを判断すればよいし、「4名」ならば4名の同時発声音声かを判断すればよい。また、話者数が増えれば増えるほど、より信頼性の高いセキュリティシステムを構築できる。
(緊張音声判別モデル)
また、本方法では(4)2名の音声ともに緊張していないかを判断する手順(S4)を有する。この手順は、1名でも緊張状態の時には解錠しないようにすることで、脅迫状態での解錠を不可能としている。この手順を実行すると、緊張音声が含まれる場合、リジェクトされてロック機構4は解錠しない。
以上のような構成により、利用時は、2名が実質的に同時に特定のフレーズを発声したときのみ認証(解錠)され、2名のうち1名で発声、2名のうち1名が他人と声を揃えて発声、他人1名・他人2名の特定のフレーズの発声はリジェクトする。フレーズが異なる場合もリジェクトする。さらに、2名が同時に特定のフレーズを発声していても、1名でも話者の緊張度が高いと判断した場合はリジェクトする。
以上の実施形態において、手順(S1)、手順(S2)、手順(S3)および手順(S4)を有する構成を示したが、登録した特定の2名が声を揃えて発声した時のみを識別するだけならば、手順(S2)および手順(S3)だけでもよいし、さらに話者数を識別する必要がなければ手順(S3)のみの構成でもよい。そして、手順(S1)、手順(S4)は、より信頼性の高いセキュリティシステムとして、音声認証システムの用途等に応じて、適宜設置するとよい。
以上の音声認証システムの使い方は次の通りである。(I)使用者はまず、登録ボタン(図示せず。)を操作して、マイク1に向かって2名以上が同時に同じ特定又は任意のフレーズを発声することにより、音声を音声認識回路2に登録する。(II)ロック機構を解錠する時は、照合ボタン(図示せず。)を操作して、マイク1に向かって(I)項で登録した言葉を登録した2名以上が同時に発すれば、ロック機構が解錠される。(III)登録した音声を変更したいときは、(I)項を繰り返す。
以上のような構成の本実施形態においては、音声の登録および照合を行う音声認識回路と、音声を集音するマイクと、ロック機構と、マイクによって集音された音声を音声認識回路で音声照合して得られる照合結果に基づいてロック機構を制御する制御回路とを有する音声認証システムにおいて、音声認識回路に登録する音声が2名以上の複合音声を含むことを特徴とする構成で、登録した特定の2名以上が声を揃えて発声した時のみ反応する音声認証システムを提供することができる。そのため、より信頼性の高いセキュリティシステムを構成できる効果がある。また、共有する情報・資産の取り扱いに関するセキュリティシステムとして、2名以上が同時に存在し、かつ2名以上が協力的であることを前提とする認証システムを構成できる。
以下、実施例により本発明をさらに詳細に説明するが、本発明はこれらによって限定されるものではない。
従来、MFCCを特徴量としたGMM-HMMで二者同時発話を対象とするテキスト依存型の話者識別を行っていた。しかし認識精度は不十分であった。これは、MFCCが二者同時発話の特徴を十分に捉えていないことが原因であると考えられる。
そこで、提案手法では、二者同時発話を対象とする話者識別を行うDNNの中間層の最終層からd-vectorを抽出し、特徴量として使用した。また、本実施例ではテキスト依存型の話者識別を行うため、発話内容に頑健な話者モデルであるHMMを使用した。
本実施例では、d-vectorを抽出するために二者同時発話を対象とする話者識別DNNを構築し、このDNNをd-vector抽出に使用した。ここでは、この二者同時発話を対象とする話者識別DNNの構築について述べる。
DNNの学習データに、科学警察研究所により作成された「大規模話者骨導音声データベース」に収録されている、気導マイクで録音した音声を使用した。実験では、各話者に対して話者番号M001〜M336を割り振り、各発話内容に対して発話番号A01〜A50を割り振った。この音声データセットの内容を<表1>に示しておく。
また、このデータセット内の異なる話者2名の同じ発話内容の音声を計算機上で重畳させた音声データを作成した。本実施例では、このように計算機上で重畳させて作成した音声を重畳音声と呼ぶ。本実験では、M001とM002、M003とM004、…、M335とM336のように重畳を行った。話者番号としてMIX001〜MIX118を割り振った。発話番号については前述のデータセットと同様である。このデータベースで使用した重畳音声データの内容を<表2>に示しておく。
以上二種類のデータセットを使用して、二者同時発話を対象とする話者識別DNNの学習と評価を行った。各話者の5文でDNNの学習を行い、残り45文で評価を行った。DNNは3種類構築した。構築したDNNと、その学習と評価に使用したデータセットの内容を<表3>に示しておく。
1発話からフレーム毎に対数MFB40ビンを抽出し、前後3フレームを結合した計280次元の対数MFBをDNNの入力とした。対数MFB抽出条件を<表4>に示しておく。
DNNの中間層は3層で700-400-100とした。最終層は識別クラスである。活性化関数については、中間層ではReLU、最終層ではソフトマックス関数を使用した。学習の際のミニバッチ数は100、エポック数は100とした。
以上の条件で二者同時発話を対象とする話者識別DNNを構築した。各DNNのエラー率は、DNN1が0.78%、DNN2が0.29%、DNN3が1.50%となった。以上のDNNの中間層の第三層から、それぞれd-vectorを抽出する。以降、DNN1〜DNN3より抽出したd-vectorをそれぞれd-vector1、d-vector2およびd-vector3と呼ぶ。
次に、提案手法での二者同時発話を対象とする話者識別性能の評価実験について述べる。従来法であるMFCCを用いたGMM-HMMとi-vectorをベースラインとして比較を行った。
本実施例で使用したデータベースでは、先行研究で使用されている音声データに加えて、新たに録音した音声データを使用した。話者1名で録音したものを単独発話、話者2名による同時発声を録音したものを同時発話と呼ぶ。使用した音声データの内容を<表5>に示しておく。
また、異なる2話者の同一の発話内容の単独発話で重畳音声を作成した。本実施例では、これを重畳発話と呼び、疑似的な同時発話と考える。これにより、大規模なデータ数で二者同時発話の話者識別実験を行うことができる。作成した重畳発話の内容を<表6>に示しておく。
以上の音声データセットを使用して、単独発話と同時発話で構成した「単独+同時DB」と、単独と重畳発話で構成した「単独+重畳DB」の2種類のデータベースを作成した。このデータベースの内容を<表7>に示しておく。
提案手法では、<表3>で構築したDNNを用いてd-vectorを抽出して特徴量とした。各話者の特徴量でGMM-HMMを学習させ話者モデルとした。HMMの学習の際に、分散が0.5以上になるようにフロアリング処理を行った。従来法では、特徴量にMFCC39次元を使用した。話者モデルはHMMを使用し、条件は提案手法と同様である。MFCCでは分散のフロアリングは行わない。GMM-HMMの構築条件を<表8>に示しておく。
i-vectorでの話者識別実験では、DNNの学習に使用した「大規模骨導音声データベース」を用いてi-vectorを抽出するためのUBMの学習を行った。使用したデータセットの内容を<表9>に示しておく。
スコア計算にはコサイン類似度を使用し、最高スコアである話者を識別結果とした。なお,本実験ではデータベースを五分割し、4つを学習、1つを評価に用いる五分割交差検証で評価を行った。
単独+同時DBと単独+重畳DBにおける各手法での誤認識率[%]を<表10>と<表11>に示しておく。
両データベースにおいて、従来手法であるi-vectorおよびMFCCと比較して全てのd-vectorの誤認識率が下回っていることが確認できる。d-vector内で比較すると、単独+同時DBではd-vector2が最も性能が良くなっている。一方,単独+重畳DBでは,発話内容「バルス」においてはd-vector2が、発話内容「ひらけごま」においてはd-vector3が最も性能が良くなっている。
各d-vectorについて、エラー分析を行った。入力音声およびその識別結果の発話者数に注目してエラーの分類を行い、同じ発話者数のものに誤認したか、異なる発話者数のものに誤認したかで分類を行った。エラー分類の内容を<表12>に示しておく。
また、d-vector1、d-vector2、d-vector3を以上の内容でエラー分類した結果を<表13>〜<表15>に示しておく。
単独+同時DBでは、エラー数が少なくほとんど差が見られないことがわかる。単独+重畳DBにおける同じ発話者数内への誤認識は、どのd-vectorでも2to2での誤認識となっている。2to2のエラー数は全体での誤認識率に比例していることから、2to2のエラー数を減らすことが全体の誤認識率の改善に繋がると推測される。
また、単独+重畳DBにおける異なる発話者数への誤認識はd-vector3が6回と最も少なくなっていることがわかる。d-vector3は、単独音声と重畳音声の両方を用いたデータセットで学習したDNNから抽出されたd-vectorである。これより、DNNの学習データに単独発話と重畳発話の両方を用いることで、そのDNNから抽出されるd-vectorは発話者数についての分類に適した特徴となることが示唆された。
学習データセットを変えて抽出した様々なd-vectorを用いて、二者同時発話を対象とする話者識別実験を行った。その結果、MFCCを用いている従来手法と比較して話者識別性能が向上することを確認した。
以上、本実施例により、特に<表10>に示すように、単独+同時DBにおける誤認識率は、極めて低く、登録した特定の2名以上が声を揃えて発声した時のみ反応する音声認証システムを実現できることを確認した。
本発明は、登録した特定の2名以上が声を揃えて発声した時のみ反応する音声認証システムとして、産業上利用可能である。
1 マイク
2 音声認識回路
3 制御回路
4 ロック機構
5 電源部

Claims (5)

  1. 音声の登録および照合を行う音声認識回路と、前記音声を集音するマイクと、ロック機構と、前記マイクによって集音された音声を前記音声認識回路で音声照合して得られる照合結果に基づいて前記ロック機構を制御する制御回路とを有する音声認証システムにおいて、
    前記音声認識回路に登録する音声が2名以上の複合音声を含むことを特徴とする音声認証システム。
  2. 前記複合音声が、少なくとも話者2名以上による実質的に同時の発声を録音したものであることを特徴とする請求項1に記載の音声認証システム。
  3. 前記音声認識回路が、少なくとも2名の実質的に同時の発声音声か否かを判断する話者数判別モデルと、ターゲット話者2名の実質的に同時の発声音声か否かを判断する2名話者発声モデルとを有することを特徴とする請求項1又は2に記載の音声認証システム。
  4. 前記音声認識回路が、合成音声が含まれていないかを判断する合成音声判別モデルを有することを特徴とする請求項3に記載の音声認証システム。
  5. 前記音声認識回路が、2名の音声ともに緊張していないかを判断する緊張音声判別モデルを有することを特徴とする請求項3又は4に記載の音声認証システム。
JP2019088771A 2019-05-09 2019-05-09 音声認証システム Active JP6833216B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019088771A JP6833216B2 (ja) 2019-05-09 2019-05-09 音声認証システム
PCT/JP2020/015735 WO2020226019A1 (ja) 2019-05-09 2020-04-07 音声認証システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019088771A JP6833216B2 (ja) 2019-05-09 2019-05-09 音声認証システム

Publications (2)

Publication Number Publication Date
JP2020184032A true JP2020184032A (ja) 2020-11-12
JP6833216B2 JP6833216B2 (ja) 2021-02-24

Family

ID=73044670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019088771A Active JP6833216B2 (ja) 2019-05-09 2019-05-09 音声認証システム

Country Status (2)

Country Link
JP (1) JP6833216B2 (ja)
WO (1) WO2020226019A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023037429A1 (ja) * 2021-09-08 2023-03-16 日本電気株式会社 認証装置、認証方法、及び、記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073830A (ja) * 2000-08-25 2002-03-12 Fujitsu Ltd コマース情報流通システム
JP2010237364A (ja) * 2009-03-31 2010-10-21 Oki Electric Ind Co Ltd 合成音声判別装置、方法及びプログラム
JP2017151759A (ja) * 2016-02-25 2017-08-31 Necフィールディング株式会社 認証装置、認証方法及びプログラム
CN109360315A (zh) * 2018-10-25 2019-02-19 赵琦伟 一种安全防护系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073830A (ja) * 2000-08-25 2002-03-12 Fujitsu Ltd コマース情報流通システム
JP2010237364A (ja) * 2009-03-31 2010-10-21 Oki Electric Ind Co Ltd 合成音声判別装置、方法及びプログラム
JP2017151759A (ja) * 2016-02-25 2017-08-31 Necフィールディング株式会社 認証装置、認証方法及びプログラム
CN109360315A (zh) * 2018-10-25 2019-02-19 赵琦伟 一种安全防护系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG, JILIANG ET AL.: ""T2FA: Transparent Two-Factor Authentication"", IEEE ACCESS (VOLUME: 6), JPN6020021290, 15 June 2018 (2018-06-15), pages 32677 - 32686, XP055760248, ISSN: 0004371669, DOI: 10.1109/ACCESS.2018.2844548 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023037429A1 (ja) * 2021-09-08 2023-03-16 日本電気株式会社 認証装置、認証方法、及び、記録媒体

Also Published As

Publication number Publication date
WO2020226019A1 (ja) 2020-11-12
JP6833216B2 (ja) 2021-02-24

Similar Documents

Publication Publication Date Title
ES2883326T3 (es) Reconocimiento de hablante de extremo a extremo mediante el uso de una red neuronal profunda
Liu et al. Deep feature for text-dependent speaker verification
US8209174B2 (en) Speaker verification system
US9489950B2 (en) Method and system for dual scoring for text-dependent speaker verification
Das et al. Development of multi-level speech based person authentication system
Naika An overview of automatic speaker verification system
Tan et al. A survey on presentation attack detection for automatic speaker verification systems: State-of-the-art, taxonomy, issues and future direction
Lucey et al. Integration strategies for audio-visual speech processing: applied to text-dependent speaker recognition
Ding et al. A method to integrate GMM, SVM and DTW for speaker recognition
CN107481736A (zh) 一种声纹身份认证装置及其认证优化方法和系统
Chakroun et al. Robust text-independent speaker recognition with short utterances using Gaussian mixture models
Chakroun et al. Improving text-independent speaker recognition with GMM
WO2020226019A1 (ja) 音声認証システム
Folorunso et al. A review of voice-base person identification: state-of-the-art
Revathi et al. Person authentication using speech as a biometric against play back attacks
Larcher et al. Imposture classification for text-dependent speaker verification
Martsyshyn et al. Technology of speaker recognition of multimodal interfaces automated systems under stress
Wang et al. Capture interspeaker information with a neural network for speaker identification
Ly-Van et al. Signature with text-dependent and text-independent speech for robust identity verification
Akingbade et al. Voice-based door access control system using the mel frequency cepstrum coefficients and gaussian mixture model
JP4440414B2 (ja) 話者照合装置及び方法
Gupta et al. Text dependent voice based biometric authentication system using spectrum analysis and image acquisition
Chen et al. Forensic identification for electronic disguised voice based on supervector and statistical analysis
Ertaş Fundamentals of speaker recognition
Tsang et al. Speaker verification using type-2 fuzzy gaussian mixture models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

R155 Notification before disposition of declining of application

Free format text: JAPANESE INTERMEDIATE CODE: R155

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210120

R150 Certificate of patent or registration of utility model

Ref document number: 6833216

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250