JP2020184032A

JP2020184032A - 音声認証システム

Info

Publication number: JP2020184032A
Application number: JP2019088771A
Authority: JP
Inventors: 眞吾黒岩; Shingo Kuroiwa
Original assignee: Chiba University NUC
Current assignee: Chiba University NUC
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2020-11-12
Anticipated expiration: 2039-05-09
Also published as: WO2020226019A1; JP6833216B2

Abstract

【課題】本発明によれば、登録した特定の２名以上が声を揃えて発声した時のみ反応する音声認証システムを提供する。【解決手段】音声の登録および照合を行う音声認識回路と、音声を集音するマイクと、ロック機構と、マイクによって集音された音声を音声認識回路で音声照合して得られる照合結果に基づいてロック機構を制御する制御回路とを有する音声認証システムにおいて、音声認識回路に登録する音声が２名以上の複合音声を含むことを特徴とする。また、複合音声が、少なくとも話者２名以上による実質的に同時の発声を録音したものであることを特徴とする。【選択図】図２

Description

本発明は、音声認証システムに関し、より詳細には、登録した特定の２名以上が声を揃えて発声した時のみ反応する認証システムに関する。

従来の認証技術として、特定の人以外には操作できないようにロック機構を設けた装置が種々存在している。これらのロック機構は、鍵やカードを使用したり、暗証番号を入力するものが一般的である。

しかしながら、従来のロック機構を設けた装置は、使用者がロック機構を操作したいときに、その都度、鍵やカードを差し込んだり、暗証番号を入力しなければならず、手間のかかるものであった。また、使用者以外の者に鍵やカードを入手されたり暗証番号を知られた場合、容易にロック機構を操作されてしまうという問題点を有していた。

このような問題点を根本から解決する方法として生体認証技術が注目されており、一部実用化もされている。生体認証技術には生体情報が使用される。生体情報には、人間の身体特徴に基づく身体的特徴と、個人の癖などに基づく行動的特徴がある。話者認識（音声信号からその発話者を推定する技術）では、発声器官の構造に依存する身体的特徴と発声の癖などに依存する行動的特徴の両方を使用することができるため、他人が盗用することが困難とされている。

この話者認識を用いた装置として、例えば、下記特許文献１に音声認識装置が記載されている。装置に向かって言葉を発すれば、使用者があらかじめ登録しておいた音声に対して音質および言葉が一致しているかどうかを音声認識回路が照合し、一致していれば制御回路によってソレノイドが作動してロックが解除される。一致しない場合にはロックは解除されない。

また他の認証技術として、複数人（２名以上）を同時に認証するニーズが増加している。例えば、スマートフォン用のアルバムアプリにおいて、２人の秘密の写真や映像を、２人が物理的に同時にいるときだけ見ることができ、１人では見ることができない機能が望まれている。また、特定の音声で起動する装置の例として、「天空の城ラピュタ」に登場する「飛行石」が玩具として販売されているが、現在販売されているものは「バルス」と言えば誰にでも反応するものである。これに対して、登録した特定の２人が声を揃えて発声した時のみ反応する構成にできれば、より「天空の城ラピュタ」の世界観に近いものとなる。

実開平７−３０７３５号公報

従来の音声認証システムでは、特定の１名の発声によるものであり、無断で音声を録音されたりしてロックが解除されたり、近年の音声合成技術の進歩により、人工的に音声を作り出す技術が向上したため、より信頼性の高いセキュリティシステムが望まれていた。

また、２名以上が同時に存在し、かつ２名以上が協力的であることを前提とする認証システムはないという問題点を有していた。

本発明は、上記課題に鑑みてなされたものであり、登録した特定の２名以上が声を揃えて発声した時のみ反応する音声認証システムを提供することを目的とする。

本発明者らは、上記課題を解決するべく鋭意検討を行った結果、Deep Neural Network(DNN)を使用して抽出した、d-vectorと呼ばれる話者空間を直接的に表現できる特徴量を使用する手法が提案されており、話者照合性能の向上が報告されているが、このd-vectorが二者同時発話の特徴をMFCCより上手く捉えることができると考え、d-vectorを特徴量としたHMMによる二者同時発話を対象とした話者識別実験を行うことにより認識性能の向上を試み、本発明を完成するに至った。

本発明の一観点に係る音声認証システムは、音声の登録および照合を行う音声認識回路と、音声を集音するマイクと、ロック機構と、マイクによって集音された音声を音声認識回路で音声照合して得られる照合結果に基づいてロック機構を制御する制御回路とを有する音声認証システムにおいて、音声認識回路に登録する音声が２名以上の複合音声を含むことを特徴とするものである。

さらに、複合音声が、少なくとも話者２名以上による実質的に同時の発声を録音したものであることを特徴とするものである。

さらに、音声認識回路が、少なくとも２名の実質的に同時の発声音声か否かを判断する話者数判別モデルと、ターゲット話者２名の実質的に同時の発声音声か否かを判断する２名話者発声モデルとを有することを特徴とするものである。

さらに、音声認識回路が、合成音声が含まれていないかを判断する合成音声判別モデルを有することを特徴とするものである。

さらに、音声認識回路が、２名の音声がともに緊張していないかを判断する緊張音声判別モデルを有することを特徴とするものである。

本発明によれば、登録した特定の２名以上が声を揃えて発声した時のみ反応する音声認証システムを提供できる利点がある。

実施形態に係るシステム構成を示すブロック図である。実施形態に係る音声認識回路の解錠制御処理手順の一例を示すフローチャートである。

以下、本発明の実施形態について説明する。本発明の範囲はこれらの説明に拘束されることはなく、以下の例示以外についても、本発明の趣旨を損なわない範囲で適宜変更し実施することができる。

図１は、発明者が提案する音声認証システム構成を示すブロック図の一例である。２は音声認識回路で、マイク１が接続されている。この音声認識回路２は音声認識ＬＳＩ等によって構成され、マイク１から入力された音声について登録および照合を行うことができ、音声登録時には確実に登録されたか否か、音声照合時には入力された音声が登録されている音声と一致しているか否かについて信号を出力するものである。３は制御回路で、音声認識回路２の音声登録および照合の処理を制御するとともに、音声認識回路２からの出力信号に応じてロック機構４を作動させるものである。この制御回路３には登録ボタン（図示せず。）および照合ボタン（図示せず。）が接続されており、これらを使用者が操作することで音声の登録処理もしくは照合処理が開始される。尚、５は上記各回路の電源となる電池である。

本実施形態において音声認識回路２に登録する音声は、２名以上の複合音声を含むものであって、２名が同時に声を揃えて同じフレーズを発声した音声データ（複数あることが望ましい）や、敵対音声データとして、２名のうちの１名の発声、２名のうち１名が異なる発声、全く異なる１名の発声、計算機上で様々に重ね合わせた２話者音声モデルなども予め登録しておくことが望ましい。

図２は、発明者らが提案する音声認識回路２の解錠制御処理手順の一例を示すフローチャートである。図２で示すように、本方法は、（１）合成音声が含まれていないかを判断する手順（Ｓ１）と、（２）２名の同時発声音声かを判断する手順（Ｓ２）と、（３）ターゲット話者２名の同時発声音声かを判断するとともに特定又は任意のフレーズの同時発声音声かを判断する手順（Ｓ３）と、（４）２名の音声ともに緊張していないかを判断する手順（Ｓ４）とを含んでいる。

本方法は、具体的には、情報処理装置のハードディスク等の記録媒体に本方法を実現するプログラムを記録し、このプログラムを実行することで実現できる。

すなわち、本方法は、音声認識回路２に、（１）合成音声が含まれていないかを判断する手順（Ｓ１）、（２）２名の同時発声音声かを判断する手順（Ｓ２）、（３）ターゲット話者２名の同時発声音声かを判断するとともに特定又は任意のフレーズの同時発声音声かを判断する手順（Ｓ３）、（４）２名の音声ともに緊張していないかを判断する手順（Ｓ４）、を実行させるためのプログラムを情報処理装置の記録媒体に記録し、このプログラムを実行することで実現可能である。

以下、本実施形態では、情報処理装置の記録媒体に上記プログラムを記録し、これを実行することによって本方法を実現する例として説明する。

（合成音声判別モデル）
まず、本方法では（１）合成音声が含まれていないかを判断する手順（Ｓ１）を有する。この手順は、無断で録音された音声、人工的な音声合成による音声を排除するのに有用なものである。この手順を実行すると、合成音声が含まれている場合、録音音声が含まれている場合、すなわち、人の発声音声以外が含まれている場合、リジェクトされてロック機構４は解錠しない。

（話者数判別モデル）
また、本方法では（２）２名の同時発声音声かを判断する手順（Ｓ２）を有する。この手順は、複数人（例えば、２名）を同時に認証するセキュリティシステムとして、又、より信頼性の高いセキュリティシステムとして、２名が同時に存在することを確認するために有用なものである。この手順を実行すると、１名の発声音声の場合、３名以上の発声音声の場合、リジェクトされてロック機構４は解錠しない。

（２名話者発声モデル）
また、本方法では（３）ターゲット話者２名の同時発声音声かを判断するとともに特定又は任意のフレーズの同時発声音声かを判断する手順（Ｓ３）を有する。この手順も、複数人（例えば、２名）を同時に認証するセキュリティシステムとして、又、より信頼性の高いセキュリティシステムとして、登録した２名の同時発声音声かを確認するために有用なものである。この手順を実行すると、２名の発声音声の場合で、１名だけ登録した人と違う場合、２名とも登録した人と違う場合、登録した２名が同時に発声していない場合、リジェクトされてロック機構４は解錠しない。また、フレーズが正しいか否かを判定し、フレーズが正しくない場合、リジェクトされてロック機構４は解錠しない。

手順（Ｓ２、Ｓ３）において、話者数は「２名」に限定されるわけではない。すなわち、情報・資産を共有する人数が「３名」ならば３名の同時発声音声かを判断すればよいし、「４名」ならば４名の同時発声音声かを判断すればよい。また、話者数が増えれば増えるほど、より信頼性の高いセキュリティシステムを構築できる。

（緊張音声判別モデル）
また、本方法では（４）２名の音声ともに緊張していないかを判断する手順（Ｓ４）を有する。この手順は、１名でも緊張状態の時には解錠しないようにすることで、脅迫状態での解錠を不可能としている。この手順を実行すると、緊張音声が含まれる場合、リジェクトされてロック機構４は解錠しない。

以上のような構成により、利用時は、２名が実質的に同時に特定のフレーズを発声したときのみ認証（解錠）され、２名のうち１名で発声、２名のうち１名が他人と声を揃えて発声、他人１名・他人２名の特定のフレーズの発声はリジェクトする。フレーズが異なる場合もリジェクトする。さらに、２名が同時に特定のフレーズを発声していても、１名でも話者の緊張度が高いと判断した場合はリジェクトする。

以上の実施形態において、手順（Ｓ１）、手順（Ｓ２）、手順（Ｓ３）および手順（Ｓ４）を有する構成を示したが、登録した特定の２名が声を揃えて発声した時のみを識別するだけならば、手順（Ｓ２）および手順（Ｓ３）だけでもよいし、さらに話者数を識別する必要がなければ手順（Ｓ３）のみの構成でもよい。そして、手順（Ｓ１）、手順（Ｓ４）は、より信頼性の高いセキュリティシステムとして、音声認証システムの用途等に応じて、適宜設置するとよい。

以上の音声認証システムの使い方は次の通りである。（Ｉ）使用者はまず、登録ボタン（図示せず。）を操作して、マイク１に向かって２名以上が同時に同じ特定又は任意のフレーズを発声することにより、音声を音声認識回路２に登録する。（ＩＩ）ロック機構を解錠する時は、照合ボタン（図示せず。）を操作して、マイク１に向かって（Ｉ）項で登録した言葉を登録した２名以上が同時に発すれば、ロック機構が解錠される。（ＩＩＩ）登録した音声を変更したいときは、（Ｉ）項を繰り返す。

以上のような構成の本実施形態においては、音声の登録および照合を行う音声認識回路と、音声を集音するマイクと、ロック機構と、マイクによって集音された音声を音声認識回路で音声照合して得られる照合結果に基づいてロック機構を制御する制御回路とを有する音声認証システムにおいて、音声認識回路に登録する音声が２名以上の複合音声を含むことを特徴とする構成で、登録した特定の２名以上が声を揃えて発声した時のみ反応する音声認証システムを提供することができる。そのため、より信頼性の高いセキュリティシステムを構成できる効果がある。また、共有する情報・資産の取り扱いに関するセキュリティシステムとして、２名以上が同時に存在し、かつ２名以上が協力的であることを前提とする認証システムを構成できる。

以下、実施例により本発明をさらに詳細に説明するが、本発明はこれらによって限定されるものではない。

従来、MFCCを特徴量としたGMM-HMMで二者同時発話を対象とするテキスト依存型の話者識別を行っていた。しかし認識精度は不十分であった。これは、MFCCが二者同時発話の特徴を十分に捉えていないことが原因であると考えられる。

そこで、提案手法では、二者同時発話を対象とする話者識別を行うDNNの中間層の最終層からd-vectorを抽出し、特徴量として使用した。また、本実施例ではテキスト依存型の話者識別を行うため、発話内容に頑健な話者モデルであるHMMを使用した。

本実施例では、d-vectorを抽出するために二者同時発話を対象とする話者識別DNNを構築し、このDNNをd-vector抽出に使用した。ここでは、この二者同時発話を対象とする話者識別DNNの構築について述べる。

DNNの学習データに、科学警察研究所により作成された「大規模話者骨導音声データベース」に収録されている、気導マイクで録音した音声を使用した。実験では、各話者に対して話者番号M001〜M336を割り振り、各発話内容に対して発話番号A01〜A50を割り振った。この音声データセットの内容を＜表１＞に示しておく。

また、このデータセット内の異なる話者２名の同じ発話内容の音声を計算機上で重畳させた音声データを作成した。本実施例では、このように計算機上で重畳させて作成した音声を重畳音声と呼ぶ。本実験では、M001とM002、M003とM004、…、M335とM336のように重畳を行った。話者番号としてMIX001〜MIX118を割り振った。発話番号については前述のデータセットと同様である。このデータベースで使用した重畳音声データの内容を＜表２＞に示しておく。

以上二種類のデータセットを使用して、二者同時発話を対象とする話者識別DNNの学習と評価を行った。各話者の５文でDNNの学習を行い、残り４５文で評価を行った。DNNは３種類構築した。構築したDNNと、その学習と評価に使用したデータセットの内容を＜表３＞に示しておく。

１発話からフレーム毎に対数MFB40ビンを抽出し、前後３フレームを結合した計280次元の対数MFBをDNNの入力とした。対数MFB抽出条件を＜表４＞に示しておく。

DNNの中間層は３層で700-400-100とした。最終層は識別クラスである。活性化関数については、中間層ではReLU、最終層ではソフトマックス関数を使用した。学習の際のミニバッチ数は100、エポック数は100とした。

以上の条件で二者同時発話を対象とする話者識別DNNを構築した。各DNNのエラー率は、DNN１が0.78%、DNN２が0.29%、DNN３が1.50%となった。以上のDNNの中間層の第三層から、それぞれd-vectorを抽出する。以降、DNN１〜DNN３より抽出したd-vectorをそれぞれd-vector１、d-vector２およびd-vector３と呼ぶ。

次に、提案手法での二者同時発話を対象とする話者識別性能の評価実験について述べる。従来法であるMFCCを用いたGMM-HMMとi-vectorをベースラインとして比較を行った。

本実施例で使用したデータベースでは、先行研究で使用されている音声データに加えて、新たに録音した音声データを使用した。話者１名で録音したものを単独発話、話者２名による同時発声を録音したものを同時発話と呼ぶ。使用した音声データの内容を＜表５＞に示しておく。

また、異なる２話者の同一の発話内容の単独発話で重畳音声を作成した。本実施例では、これを重畳発話と呼び、疑似的な同時発話と考える。これにより、大規模なデータ数で二者同時発話の話者識別実験を行うことができる。作成した重畳発話の内容を＜表６＞に示しておく。

以上の音声データセットを使用して、単独発話と同時発話で構成した「単独＋同時DB」と、単独と重畳発話で構成した「単独＋重畳DB」の２種類のデータベースを作成した。このデータベースの内容を＜表７＞に示しておく。

提案手法では、＜表３＞で構築したDNNを用いてd-vectorを抽出して特徴量とした。各話者の特徴量でGMM-HMMを学習させ話者モデルとした。HMMの学習の際に、分散が0.5以上になるようにフロアリング処理を行った。従来法では、特徴量にMFCC39次元を使用した。話者モデルはHMMを使用し、条件は提案手法と同様である。MFCCでは分散のフロアリングは行わない。GMM-HMMの構築条件を＜表８＞に示しておく。

i-vectorでの話者識別実験では、DNNの学習に使用した「大規模骨導音声データベース」を用いてi-vectorを抽出するためのUBMの学習を行った。使用したデータセットの内容を＜表９＞に示しておく。

スコア計算にはコサイン類似度を使用し、最高スコアである話者を識別結果とした。なお，本実験ではデータベースを五分割し、４つを学習、１つを評価に用いる五分割交差検証で評価を行った。

単独＋同時DBと単独＋重畳DBにおける各手法での誤認識率[%]を＜表１０＞と＜表１１＞に示しておく。

両データベースにおいて、従来手法であるi-vectorおよびMFCCと比較して全てのd-vectorの誤認識率が下回っていることが確認できる。d-vector内で比較すると、単独＋同時DBではd-vector２が最も性能が良くなっている。一方，単独＋重畳DBでは，発話内容「バルス」においてはd-vector２が、発話内容「ひらけごま」においてはd-vector３が最も性能が良くなっている。

各d-vectorについて、エラー分析を行った。入力音声およびその識別結果の発話者数に注目してエラーの分類を行い、同じ発話者数のものに誤認したか、異なる発話者数のものに誤認したかで分類を行った。エラー分類の内容を＜表１２＞に示しておく。

また、d-vector１、d-vector２、d-vector３を以上の内容でエラー分類した結果を＜表１３＞〜＜表１５＞に示しておく。

単独＋同時DBでは、エラー数が少なくほとんど差が見られないことがわかる。単独＋重畳DBにおける同じ発話者数内への誤認識は、どのd-vectorでも2to2での誤認識となっている。2to2のエラー数は全体での誤認識率に比例していることから、2to2のエラー数を減らすことが全体の誤認識率の改善に繋がると推測される。

また、単独＋重畳DBにおける異なる発話者数への誤認識はd-vector３が6回と最も少なくなっていることがわかる。d-vector３は、単独音声と重畳音声の両方を用いたデータセットで学習したDNNから抽出されたd-vectorである。これより、DNNの学習データに単独発話と重畳発話の両方を用いることで、そのDNNから抽出されるd-vectorは発話者数についての分類に適した特徴となることが示唆された。

学習データセットを変えて抽出した様々なd-vectorを用いて、二者同時発話を対象とする話者識別実験を行った。その結果、MFCCを用いている従来手法と比較して話者識別性能が向上することを確認した。

以上、本実施例により、特に＜表１０＞に示すように、単独＋同時ＤＢにおける誤認識率は、極めて低く、登録した特定の２名以上が声を揃えて発声した時のみ反応する音声認証システムを実現できることを確認した。

本発明は、登録した特定の２名以上が声を揃えて発声した時のみ反応する音声認証システムとして、産業上利用可能である。

１マイク
２音声認識回路
３制御回路
４ロック機構
５電源部

Claims

音声の登録および照合を行う音声認識回路と、前記音声を集音するマイクと、ロック機構と、前記マイクによって集音された音声を前記音声認識回路で音声照合して得られる照合結果に基づいて前記ロック機構を制御する制御回路とを有する音声認証システムにおいて、
前記音声認識回路に登録する音声が２名以上の複合音声を含むことを特徴とする音声認証システム。
前記複合音声が、少なくとも話者２名以上による実質的に同時の発声を録音したものであることを特徴とする請求項１に記載の音声認証システム。
前記音声認識回路が、少なくとも２名の実質的に同時の発声音声か否かを判断する話者数判別モデルと、ターゲット話者２名の実質的に同時の発声音声か否かを判断する２名話者発声モデルとを有することを特徴とする請求項１又は２に記載の音声認証システム。
前記音声認識回路が、合成音声が含まれていないかを判断する合成音声判別モデルを有することを特徴とする請求項３に記載の音声認証システム。
前記音声認識回路が、２名の音声ともに緊張していないかを判断する緊張音声判別モデルを有することを特徴とする請求項３又は４に記載の音声認証システム。