JP2019219574A - 話者モデル作成システム、認識システム、プログラムおよび制御装置 - Google Patents

話者モデル作成システム、認識システム、プログラムおよび制御装置 Download PDF

Info

Publication number
JP2019219574A
JP2019219574A JP2018118090A JP2018118090A JP2019219574A JP 2019219574 A JP2019219574 A JP 2019219574A JP 2018118090 A JP2018118090 A JP 2018118090A JP 2018118090 A JP2018118090 A JP 2018118090A JP 2019219574 A JP2019219574 A JP 2019219574A
Authority
JP
Japan
Prior art keywords
speaker
voice
unit
speaker model
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018118090A
Other languages
English (en)
Other versions
JP6980603B2 (ja
Inventor
浩司 藤村
Koji Fujimura
浩司 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2018118090A priority Critical patent/JP6980603B2/ja
Priority to CN201910110478.2A priority patent/CN110706714B/zh
Priority to US16/296,410 priority patent/US11495235B2/en
Publication of JP2019219574A publication Critical patent/JP2019219574A/ja
Application granted granted Critical
Publication of JP6980603B2 publication Critical patent/JP6980603B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • G10L15/075Adaptation to the speaker supervised, i.e. under machine guidance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

【課題】より少ないデータで話者登録をより効率的に実行可能とする。【解決手段】話者モデル作成システムは、拡張部と作成部とを備える。拡張部は、入力層から所定の中間層までのネットワークパラメータの一部を複数のパターンに基づいて変更し、複数のパターンに対応する変更後のニューラルネットワークそれぞれに対して1つの音声を入力することにより中間層から複数の出力を得る。作成部は、複数の出力に基づいて、音声から検出された単語に対する話者モデルを作成する。【選択図】図2

Description

本発明の実施形態は、話者モデル作成システム、認識システム、プログラムおよび制御装置に関する。
ユーザの音声からキーワードを検出し、検出されたキーワードに対して登録した話者のうち、どの話者が発声したキーワードかを特定する話者認識機能を有する様々な機器が提案されている。ユーザは、ユーザによる音声でキーワードを登録し、キーワードを発声するだけで、機器に対してユーザを認識させ、そのユーザに合わせた所望の動作を行わせることができる。また、ニューラルネットワークを用いた話者認識が高精度に動作することが報告されている。
特表2016−509254号公報 特開2016−177474号公報
Ehsan Variani, Xin Lei, Erik McDermott, Ignacio Lopez Moreno, Javier Gonzalez−Dominguez、"DEEP NEURALWORKS FOR SMALL FOOTPRINT TEXT−DEPENDENT SPEAKER VERIFICATION," in Proc. ICASSP, 2014. David Snyder, Daniel Garcia−Romero, Gregory Sell, Daniel Povey, Sanjeev Khudanpur, "X−VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION," in Proc. ICSASP, 2018.
しかしながら、従来のニューラルネットワークを用いた話者認識では、話者の音声キーワードの登録処理(エンロールメント)に多くの入力音声(発声)を準備する必要があった。
実施形態の話者モデル作成システムは、拡張部と作成部とを備える。拡張部は、入力層から所定の中間層までのネットワークパラメータの一部を複数のパターンに基づいて変更し、複数のパターンに対応する変更後のニューラルネットワークそれぞれに対して1つの音声を入力することにより中間層から複数の出力を得る。作成部は、複数の出力に基づいて、音声から検出された単語に対する話者モデルを作成する。
第1の実施形態にかかる認識システムのブロック図。 第1の実施形態にかかる認識装置のブロック図。 第1の実施形態におけるモデル作成処理のフローチャート。 モデル作成処理の具体例を示す図。 第1の実施形態における認識処理のフローチャート。 第2の実施形態にかかる認識システムのブロック図。 第2の実施形態にかかるクライアントのハードウェア構成図。 変形例で用いる指定画面の一例を示す図。
以下に添付図面を参照して、この発明にかかる話者モデル作成システム、認識システムおよびプログラムの好適な実施形態を詳細に説明する。
(第1の実施形態)
従来の話者認識技術の具体例について説明する。例えば特許文献1では、ある機器で話者のキーワード音声(検出対象となるキーワードを発声した音声)から話者モデルを作成する際に、登録する複数の話者のキーワード音声を用いて話者ごとに新たなニューラルネットワークの出力ノードを生成して学習し、認識時には話者ごとのネットワークパラメータを用いて話者の尤度を算出し、認識する方法が提案されている。この方法によれば、ニューラルネットワークを用いて、キーワード検出などに必要な音韻の尤度の算出と話者の認識とを同時に行うことができる。しかし、この方法では、話者を登録するごとにニューラルネットワークのパラメータが増加するため、計算量が増える。また、同時に複数の話者のキーワード音声を用いる必要がある。
非特許文献2の技術では、キーワード音声に、予め定められた音楽などのノイズ音を重畳、または、残響を畳み込むことによってシミュレーション音声を作成し、ニューラルネットワークを用いた話者認識特徴量を作成することによって話者登録のロバスト性を向上させている。しかし、この方法では、予め決められたノイズおよび残響による変化を与えるため、元々ノイズや残響が入った入力音声に対して不自然な音声が作成される可能性がある。また、重畳するノイズを定めたノイズファイルなどを記憶しておく必要がある。また、音声データを作成し直す必要があるため、話者登録の効率が低下する。
また、ニューラルネットワークを用いたキーワードに基づく話者認識では、音韻の認識(キーワードの検出)と話者認識とを同時に行うために複数のニューラルネットワークを用いるため、計算量が多くなるという問題があった。また、話者登録の効率性に問題があった。
そこで第1の実施形態にかかる認識システムは、キーワード検出に特化したニューラルネットワークの所定の中間層の出力を話者認識のための特徴量(話者認識特徴量)として用いる。さらに、このニューラルネットワークの入力層から該当中間層までのネットワークパラメータの一部を複数パターンで変更することにより、1つの入力音声に対する特徴量を複数に拡張し、拡張した特徴量を用いて話者認識のためのモデル(話者モデル)を作成する。認識時には、認識対象となる入力音声をニューラルネットワークに入力してキーワード検出を行うとともに、該当中間層の出力を話者認識の特徴量とし、特徴量と話者モデルとを用いて話者認識を行う。
これにより、より少ないデータで話者登録をより効率的に実行可能となる。また、キーワード検出用の1つのニューラルネットワークのみを用いることができるため、より少ない演算量で、様々なキーワードの検出とそのキーワードに対する話者認識が実行可能となる。
なお、認識機能を備えず、話者モデルの作成機能までを備えた話者モデル作成システムとしてシステムを実現してもよい。話者には、人だけでなく、動物および音声を発する機器(ロボットなど)などの音源を含んでもよい。
第1の実施形態では、例えば携帯電話、携帯端末、および、パーソナルコンピュータなどのように物理的に1つの装置として認識システムを実現した例を示す。
図1は、第1の実施形態の認識システムとしての認識装置100のシステム構成の一例を示すブロック図である。認識装置100は、CPU(Central Processing Unit)101、システムコントローラ102、主メモリ103、LCD(Liquid Crystal Display)104、BIOS−ROM(Basic Input Output System−Read Only Memory)105、不揮発性メモリ106、マイクロホン107、通信デバイス108、キーボード109、ポインティングデバイス110、および、エンベデッドコントローラ(EC)111等を備える。
CPU101は、認識装置100内の様々なコンポーネントの動作を制御するプロセッサである。CPU101は、ストレージデバイスである不揮発性メモリ106から主メモリ103にロードされる様々なプログラムを実行する。これらプログラムには、オペレーティングシステム(OS)201、および、様々なアプリケーションプログラムが含まれている。アプリケーションプログラムには、認識プログラム202が含まれている。この認識プログラム202は、音声データから話者を認識するための命令群を含んでいる。
また、CPU101は、BIOS−ROM105に格納された基本入出力システム(BIOS)も実行する。BIOSは、ハードウェア制御のためのプログラムである。
システムコントローラ102は、CPU101のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ102には、主メモリ103をアクセス制御するメモリコントローラが内蔵されている。また、システムコントローラ102には、認識装置100のディスプレイモニタとして使用されるLCD104を制御する表示コントローラも内蔵されている。この表示コントローラによって生成される表示信号はLCD104に送られる。LCD104は、表示信号に基づいて画面イメージを表示する。
また、システムコントローラ102はオーディオコーデックを内蔵する。オーディオコーデックは、マイクロホン107を制御するように構成されている。オーディオコーデックは、マイクロホン107によって集音された音声に基づく音声信号(デジタル処理された音声波形を表すデータ列。以下、音声波形と称する。)を生成する。
通信デバイス108は、有線通信および無線通信の少なくとも一方を実行するように構成されたデバイスである。通信デバイス108は、信号を送信する送信部と、信号を受信する受信部とを含む。
キーボード109およびポインティングデバイス110は、ユーザによる入力のためのデバイスである。ポインティングデバイス110は、マウス、タッチパッド、および、タッチパネルのような、LCD104の画面上の点および点の動きを検出するためのデバイスである。
EC111は、電力管理のためのエンベデッドコントローラを含むワンチップマイクロコンピュータである。EC111は、ユーザによるパワーボタンの操作に応じて認識装置100を電源オンまたは電源オフする機能を有している。
上記構成による認識装置100は、音声波形から検出対象となるキーワードの音声部分を検索し、検索された音声部分を用いて、検出対象となるキーワードを発声した話者を認識する。この認識装置100を搭載する機器は、認識された話者に応じて動作を行うアプリケーションを搭載している。このように、話者の音声を受け付けて動作する機器に搭載される認識装置100には、常時音声を受け付け、キーワードを検出し、検出したキーワードに対して正確な話者認識が要求され、低電力および低計算量で動作するものが望まれる。また、ユーザがストレスを感じることなく快適に機器を動作させるためには、話者のキーワードに対する話者登録の回数を減らす必要がある。
次に、認識装置100の機能構成例について説明する。図2は、第1の実施形態にかかる認識装置100の機能構成の一例を示すブロック図である。図2に示すように、認識装置100は、記憶部121、122と、音声取得部131と、算出部132と、検出部133と、拡張部134と、作成部135と、認識部136と、を備えている。
記憶部121、122は、それぞれニューラルネットワークおよび話者モデルを記憶する記憶装置である。記憶部121、122は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。記憶部121、122は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶部121、122のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。なお、ニューラルネットワークとは数学的なモデルの1つで、学習によってパラメータ(重みやバイアス等)を調整し、例えば音声の認識に用いる。
音声取得部131は、処理対象とする音声データ(入力音声)を取得する。例えば音声取得部131は、音声を受け付け、受け付けた音声を特徴量に変換して出力する。
算出部132は、特徴量をニューラルネットワークに入力し、特徴量が予め定められた単語に対応する確からしさを表すスコアを算出する。なお単語は、音声から抽出される音素および音節などの単位であり、以下ではキーワードという場合がある。例えば、認識する話者の発話中に含まれる母音だけを抽出し、抽出結果をキーワードとして認識させてもよい。
検出部133は、算出されたスコアを用いて、入力音声から予め定められたキーワードを検出する。例えば検出部133は、算出されたスコアと、キーワードごとに定められた閾値とを比較し、閾値を超えた場合に、その閾値に対応するキーワードを検出する。
拡張部134は、話者モデルの作成に用いるデータを拡張するための処理を行う。例えば拡張部134は、ニューラルネットワークの入力層から所定の中間層までのネットワークパラメータの一部を複数のパターンに基づいて変更し、複数のパターンに対応する変更後のニューラルネットワークそれぞれに対して1つの入力音声を入力することにより当該中間層から複数の出力を得る処理を行う。これにより、1つの入力音声に対して、話者モデルの作成に用いる複数のデータ(中間層の出力)を得ることができる。
拡張部134によるネットワークパラメータの変更方法はどのような方法であってもよい。例えば拡張部134は、入力層から中間層までの各層のネットワークパラメータのうち一部の重みを変更してもよい。また拡張部134は、入力層から中間層までの各層のネットワークパラメータのうち一部のバイアスにランダム値を加算することにより、ネットワークパラメータを変更してもよい。またニューラルネットワークに使用されるシグモイド関数などの活性化関数にバイアス項を加えそこにランダム値を加算してもよいし、各層への入力値にバイアス項を加えそこにランダム値を加算してもよい。
所定の中間層は、ニューラルネットワークの中間層のうち、どの中間層であってもよい。入力層に近い中間層にノイズが残っている場合には、これらの中間層より後の中間層を所定の中間層としてもよい。出力層に近い中間層では話者の特徴が表れていないような場合には、これらの中間層より前の中間層を所定の中間層としてもよい。
拡張部134が拡張するニューラルネットワークは、算出部132がスコアの算出に用いるニューラルネットワークと同じであってもよいし、異なるニューラルネットワークであってもよい。
作成部135は、拡張されたデータを用いて話者モデルを作成する。例えば作成部135は、ネットワークパラメータを変更した複数のニューラルネットワークの中間層からそれぞれ出力される複数の出力に基づいて、検出されたキーワードに対する話者モデルを作成する。話者モデルはどのような形式であってもよい。作成部135は、例えば、複数の出力の平均および分散で表されるガウス分布を話者モデルとして作成してもよい。また作成部135は、1以上の話者の入力音声および当該入力音声に対応する複数の出力を用いる学習により話者モデルを作成してもよい。作成部135は、キーワードに含まれる部分区間ごとに話者モデルを作成してもよい。部分区間は、例えば、キーワードを構成する音韻および音素などである。
認識部136は、話者モデルを用いて話者を認識する。例えば認識部136は、認識のために入力される入力音声に対する中間層の出力を、作成した話者モデルに入力することにより話者を認識する。
上記各部(音声取得部131、算出部132、検出部133、拡張部134、作成部135、および、認識部136)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
次に、このように構成された第1の実施形態にかかる認識装置100によるモデル作成処理について説明する。図3は、第1の実施形態におけるモデル作成処理の一例を示すフローチャートである。モデル作成処理は、話者の音声から検出したキーワードを用いて話者を登録する話者登録に相当する処理である。
音声取得部131は、音声データの入力を受け付け、受け付けた音声の特徴量を生成して出力する(ステップS101)。例えば音声取得部131は、音声データの256点サンプルから、12次元のMFCC(Mel Frequency Cepstrum Coefficient、メル周波数ケプストラム係数)特徴量を算出する。音声取得部131は、このMFCC特徴量を3フレーム分だけバッファリングし、3フレーム分のMFCC特徴量を連結した36次元の特徴量を、これら3フレームのうちの中央フレームの時刻の特徴量として出力する。
なお、抽出される特徴量はMFCCに限定されるものではなく、例えば、メルフィルタバンク特徴量、PLP(Perceptual Linear Prediction)、RASTA−PLP特徴量、および、ピッチ特徴量、並びに、これらの特徴量のΔ成分、および、ΔΔ成分を用いてもよい。または、これら特徴量の組み合わせを用いてもよい。また、連結フレーム数は3に限定されるものではなく、1フレーム以上であれば、何フレーム連結させてもよい。切り出しサンプルサイズおよびフレーム周期は上記の値に限定されるものではない。
次に算出部132は、音声取得部131によって生成された特徴量を受け取り、この特徴量とニューラルネットワークとを用いて、フレームスコアおよびキーワードスコアを算出する(ステップS102)。フレームスコアは、フレームごとの音素の出現確率(音響スコア)である。キーワードスコアは、特徴量が予め定められた検出対象となるキーワードに対応する確からしさを表すスコアである。
以下では、検出対象のキーワードが“コミュニケーション(communication)”である場合の具体的な例について説明する。このキーワードに対して、キーワードモデルを用いて、フレームごとに切り出された特徴量を示すベクトル列に対して累積スコアを算出する方法は多く存在する。以下では、left-to-right型の隠れマルコフモデル(Hidden Markov Model:HMM)、および、特許文献2の方法を適用する例で説明する。
まず、検出対象のキーワードをキーワードwとする。キーワードは、left-to-right型の音素HMMで表される。音素HMMは、キーワードwをそれぞれ表す音素文字(列)“k a my u n i k e i sy o n”に含まれる各音素それぞれを1状態とする。また、音素HMMのパラメータとして、音素間の遷移確率はどの遷移間の確率も同確率とする。出力される確率は、フレームごとの音素の出現確率(音響スコア)で表される。
フレームごとの音響スコア(フレームスコア)を算出するモデルは、複数のキーワードに対して共通のフィードフォワード型のニューラルネットワークとする。フレームスコアは特許文献2の方法を用いて算出する。
音響スコアを算出するためのニューラルネットワークの出力層は、キーワードwを表す音素“k a my u n i k e i sy o n”に無音区間に対する音素“sil”を加え、10個の出力ユニットから構成される。入力層は、算出した特徴量に相当する36個の入力ユニットから構成される。中間層は、256ユニットを持つ層を3つ重ねたものとする。ニューラルネットワークは、無音声区間を含むキーワードwの読み上げ音声を使って、バックプロパゲーションを用いて学習する。
このように、算出部132は、キーワードwに対する音素HMMを用意し、キーワードモデルに対する音素HMMが音声取り込み開始からのフレーム数teにおいて終端に達するパスのスコアを、特許文献2の方法により算出する。このときキーワードモデルに対するフレーム数te時点の平均局所スコアSを持つパスの音素HMMの始端フレームをtsとする。
算出部132は、フレーム数teを時間方向にインクリメントしながらスコア計算を行う。このとき数フレームずつ、スコア計算をスキップし計算量を削減することもできる。算出部132は、平均局所スコアSを、当該キーワードのスコア(キーワードスコア)として用いる。
なお、キーワードモデルは、音素単位でのモデル化に限定されるものではなく、音韻、モーラ、発音表記、または、表記文字の単位でモデル化することもできる。また、平均局所スコアの算出方法は、特許文献2の方法に限定されるものではない。また、フレーム単位の音響スコア計算は、フィードフォワード型のニューラルネットワークを用いた方法に限定されることはなく、リカレント構造のニューラルネットワーク、例えばLSTMなども適用できる。
検出部133は、キーワードスコアと、予め定められた閾値とを比較することによって、閾値を超えたキーワードスコアを有するキーワードがあるか否かを判定する(ステップS103)。すなわち、検出部133は、キーワードモデルに対して予め用意された平均局所スコアSとこの平均局所スコアSに対する閾値thとを、以下の(1)式のように比較する。
th<S ・・・(1)
(1)式が満たされる場合、検出部133は、キーワードwを検出する。そのキーワードの始端時間をtmsとすると、始終端区間(tms,te)のキーワードwが検出されることとなる。閾値thは、キーワードが含まれる開発用の音声データセットを使って、適合率および再現率の調和平均であるF値が最大となる値を全キーワードに対して1つ設定する。この場合、閾値thの値を高くすれば、キーワードは検出されにくくなり、閾値thの値を低くすれば、キーワードは検出されやすくなる。スコアにマイナス1をかけ、正負を反転させることもでき、その場合は閾値より低い場合にキーワードが検出される。
閾値thを超えたキーワードがない場合(ステップS103:No)、ステップS101の手順に戻り、後続する音声データからキーワードを検出するための処理が続行される。
一方、閾値thを超えたキーワードがあった場合(ステップS103:Yes)、すなわち、キーワードwが検出された場合、検出されたキーワード区間に対して、拡張部134は、特徴量を拡張する(ステップS104)。
例えば拡張部134は、検出に用いたニューラルネットワークの2層目の中間層による256次元の出力を話者の特徴を示す特徴量(話者特徴量)として用いる。例えば拡張部134は、入力層および中間層のニューラルネットワーク出力のバイアスパラメータとして、一定の範囲を超えないいくつかのランダムパターンを生成し、それらを加算することによって、ニューラルネットワークのパラメータを変更する。拡張部134は、各ランダムパターンに対応する複数のニューラルネットワークの当該中間層からの複数の出力を、拡張した話者特徴量として取得する。
例えばランダムパターンを3セット発生させた場合、1つの入力に対して3つの異なる中間層出力(話者特徴量)を得ることができる。また、一部のニューラルネットワークの重みを0にするなどのパターンを用意して複数の中間層の出力を取得してもよい。拡張部134は、このような処理を検出されたキーワード区間に対して適応し、話者特徴量を拡張する。
図4は、モデル作成処理の具体例を示す図である。図4の左端は、キーワードの検出用に用いられるニューラルネットワークの例を示す。拡張部134は、このニューラルネットワークの2層目の中間層までのネットワークパラメータの一部を変更する。図4では、3つのパターンそれぞれで、相互に異なる箇所の重みを0とする例が示されている。例えば、図4の中央左上のパターンでは、接続線401〜404に対応する重みが0に変更される。図4の中央右上のパターンでは、接続線411、412に対応する重みが0に変更される。図4の中央下のパターンでは、接続線421、422に対応する重みが0に変更される。
図3に戻り、作成部135は、キーワード区間に対して拡張された複数の話者特徴量を用いて話者モデルを作成する(ステップS105)。例えば作成部135は、256次元のベクトルの各次元に対して単一のガウス分布をもつ256次元ガウス分布モデルを話者モデルとして作成する。作成部135は、拡張された複数の話者特徴量の平均および分散を算出し、ガウス分布モデルを構築する。作成部135は、構築したガウス分布モデルを話者モデルとして、記憶部122に記憶する。図4の右端は、作成部135が3つの話者特徴量の平均および分散により話者モデルを作成する様子を示している。
話者モデルの作成方法はこれに限られるものではない。例えば作成部135は、複数の話者のニューラルネットワークへの入力ベクトル、または、拡張した話者特徴量ベクトルが得られている場合、それらを用いて話者を識別するニューラルネットワークを学習することにより話者モデル(学習したニューラルネットワーク)を作成してもよい。また、この場合、SVM(Support Vector Machine)およびAdaBoostなどの識別モデルを話者モデルとして適用することが可能である。その他に、話者特徴量を示すベクトルを非特許文献1のようにニューラルネットワークを用いて話者を識別し易いよう変換してから、平均および分散など算出し、ガウス分布モデルを構築することも可能である。また、作成部135は、話者特徴量を示すベクトルの平均ベクトルを話者モデルとして作成してもよい。
次に、このように構成された第1の実施形態にかかる認識装置100による認識処理について説明する。図5は、第1の実施形態における認識処理の一例を示すフローチャートである。認識処理は、作成した話者モデルを用いて、入力音声の話者を認識する処理である。認識処理では、検出対象となるキーワードが検出されるとともに、検出されたキーワードの話者が認識される。
ステップS201からステップS203は、モデル作成処理を示す図3のステップS101からステップS103までと同様の処理であるため説明を省略する。
閾値thを超えたキーワードがあった場合(ステップS203:Yes)、すなわち、キーワードwが検出された場合、認識部136は、作成された話者モデルと、キーワード検出時に算出される中間層の出力とを用いて、話者らしさを判定する(ステップS204)。例えば認識部136は、キーワード検出区間の全フレームについての中間層の出力をガウス分布に入力し、出力される尤度の合計を話者らしさとする。このとき、認識部136は、フレームごとにガウス分布に入力して尤度を得てもよいし、一旦全フレームのベクトルの平均を取ったあとにガウス分布に入力して尤度を得てもよい。認識部136は、例えば、話者らしさが最大となる話者を、認識結果として出力する。このとき、尤度に閾値を設けて、複数の話者モデル、または、単一の話者モデルに対しての尤度が閾値以下だった場合は、登録されたどの話者でもないという認識結果を返してもよい。
話者モデルが、ニューラルネットワーク、SVM、および、AdaBoostなどの識別モデルの場合、認識部136は、フレームごとの識別結果を投票し、数が多かった話者を認識結果として出力することも可能であるし、フレームごとの話者クラス確率または尤度を足し合わせてもよい。また認識部136は、平均ベクトルとのコサイン距離を用いて話者認識結果を算出してもよい。
このように、第1の実施形態にかかる認識装置では、入力音声を複数の話者特徴量に拡張し、これらの話者特徴量を用いて話者モデルを作成できる。従って、より少ないデータで話者登録をより効率的に実行可能となる。また話者モデルとしてガウス分布などを用いる場合は、従来のように2つのニューラルネットワークを用いる必要がなく、1つのキーワード検出用のニューラルネットワークを用いるため、演算量を低減することが可能となる。
(第2の実施形態)
第2の実施形態では、認識システムを複数の装置により実現する例を示す。図6は、第2の実施形態にかかる認識システムの構成の例を示すブロック図である。
図6に示すように、第2の実施形態の認識システムは、クライアント200−2と、認識サーバ100−2とが、ネットワーク300−2を介して接続された構成となっている。なお図6では各装置を1台のみ記載しているが、各装置の個数は何台であってもよい。
ネットワーク300−2は、無線ネットワークおよび有線ネットワークのいずれでもよいし、どのような規格に準拠したネットワークであってもよい。ネットワーク300−2は、例えばインターネットである。
クライアント200−2は、受付部241と、通信制御部242と、を備えている。受付部241は、例えばマイクロホンなどにより生成された音声データの入力を受け付ける。通信制御部242は、認識サーバ100−2などの外部装置との間の通信を制御する。例えば通信制御部242は、受け付けられた音声データを認識サーバ100−2に送信する。また通信制御部242は、送信した音声データに対する話者認識結果を認識サーバ100−2から受信する。
認識サーバ100−2は、記憶部121、122と、音声取得部131と、算出部132と、検出部133と、拡張部134と、作成部135と、認識部136と、通信制御部141と、を備えている。認識サーバ100−2は、通信制御部141が追加されている点が、第1の実施形態の認識装置100と異なっている。
通信制御部141は、クライアント200−2などの外部装置との間の通信を制御する。例えば通信制御部141は、クライアント200−2から送信された音声データを受信する。また通信制御部141は、音声データに対する話者認識結果をクライアント200−2に送信する。
例えば音声取得部131は、通信制御部141から渡される入力音声を受け付け、受け付けた入力音声を特徴量に変換して出力する。この後のモデル作成処理および認識処理は第1の実施形態と同様である。
次に、第2の実施形態にかかるクライアント200−2のハードウェア構成について図7を用いて説明する。図7は、第2の実施形態にかかるクライアント200−2のハードウェア構成例を示す説明図である。
第2の実施形態にかかるクライアント200−2は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
認識サーバ100−2は、例えば、サーバコンピュータとして実現されうる。認識サーバ100−2は、クラウド上で処理を実行するクラウドサーバとして実現されてもよい。クライアント200−2は、パーソナルコンピュータ、各種電子機器に内蔵される組み込みシステム、並びに、タブレットコンピュータ、スマートフォン、携帯電話機、および、PDAといった携帯情報端末として実現されうる。クライアント200−2と認識サーバ100−2とは、ネットワーク300−2を介してデータをやり取りすることができる。
第2の実施形態の認識システムは、クライアント200−2に設けられるマイクロホン等を用いて生成された音声データ(音声信号)から話者を認識することができる。例えばクライアント200−2は、当該クライアント200−2に設けられたマイクロホン等を用いて生成された音声データを、ネットワーク300−2を介して認識サーバ100−2に送信する。認識サーバ100−2は、話者認識機能を用いて、クライアント200−2から受信した音声データから話者を認識し、ネットワーク300−2を介してその認識結果をクライアント200−2に送信する。これによりクライアント200−2は、例えば、認識された話者に応じた特定の動作を開始することができる。
このように、本実施形態では、クライアント200−2で取得された音声が認識サーバ100−2に送信され、認識サーバ100−2で話者認識が実行される。各装置(クライアント200−2、認識サーバ100−2)が話者認識の機能を分散して実行する方法は図6に示す例に限られず、どのような方法で分散してもよい。
例えばクライアント200−2は、音声データではなく、音声データを用いて生成された特徴量(例えば、音声特徴ベクトル列)を認識サーバ100−2に送信してもよい。この場合、認識サーバ100−2は、受信した特徴量からキーワードを検出し、そのキーワードをクライアント200−2に送信することもできる。
このように、第2の実施形態では、クライアント・サーバシステムなどのように複数の装置を含むシステムの形態で、第1の実施形態と同様の話者認識機能を実現することができる。
(変形例)
認識システムは、例えば検出したキーワードおよび認識した話者(ユーザ)に応じて所望の動作を実行するアプリケーションに適用することができる。このようなアプリケーションは、通常、話者を登録した後に利用を開始可能となる。従って、より早期に利用開始可能とするためには、話者登録をより効率的に実行することが望ましい。
そこで変形例では、話者登録を簡易的に実行し、より早期に話者登録を完了できるようにする。例えば変形例では、変更するネットワークパラメータの個数、および、変更時に適用するパターンの個数などのうち少なくとも1つを指定可能とする。拡張部134は、指定に従ってネットワークパラメータを変更する。
図8は、変形例で用いる指定画面の一例を示す図である。図8に示すように、指定画面800は、通常モード、および、簡易モードのいずれかを選択可能となっている。簡易モードは、通常モードよりも処理負荷が低くなるようにネットワークパラメータを変更するモードである。例えば簡易モードでは、変更するネットワークパラメータの個数、および、適用するパターンの個数の少なくとも一方が、通常モードより少なくされる。モードが指定された後で入力開始ボタン811が押下されると、指定されたモードに従い音声入力および話者登録が開始される。
例えば、本実施形態にかかるシステムを複数のユーザの発話を、それぞれ異なる制御に利用する制御装置に適用する場合を想定する。例えば、ある店舗において、お客様と店舗のスタッフが同じキーワードを発話した場合でも、スタッフと認識した場合のみ装置の制御等ができる、などといったことに利用する場合である。装置の制御とは、店舗の照明、空調等の制御を出力することを指す。例えば制御装置が備える出力部は、「(電気を)つけて/消して」、「(温度を)上げて/下げて」などといった言葉は、スタッフと認識した場合に制御命令として出力できるようにする。出力部は、ユーザの音声および当該音声の学習によって得られる話者モデルを用いて予め決められたユーザか否かを決定することができる。
一方で、例えばお客様が新しい機能を試す場合など、一時的に簡易の登録をしたいなどといった状況では簡易モードを使ってもよい。例えば、電子機器の「(タイマーを)つけて/消して」などの機能が作動するかを試したい場合などに簡易モードを使ってもよい。話者登録が通常より短い時間で行われるようにする場合、予めユーザが簡易モードを選択することによって、話者登録の時間が短縮されるようになる。
なお、スタッフが1人だった場合でも話者登録行えばスタッフの発話か否かの区別が可能である。また、モードの選択は2つに限らず、認識精度や話者登録の時間のより3つ以上のモードを用意してもよい。
第1および第2の実施形態にかかる各装置(認識装置、認識サーバ、クライアント)で実行されるプログラムは、不揮発性メモリまたはROM等に予め組み込まれて提供される。
第1および第2の実施形態にかかる各装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1および第2の実施形態にかかる各装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1および第2の実施形態にかかる各装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1および第2の実施形態にかかる各装置で実行されるプログラムは、コンピュータを上述した認識装置の各部として機能させうる。このコンピュータは、CPUがコンピュータ読取可能な記憶媒体からプログラムを主記憶装置(主メモリ)上に読み出して実行することができる。
以上説明したとおり、第1から第2の実施形態によれば、より少ないデータで話者登録をより効率的に実行可能となる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 認識装置
100−2 認識サーバ
101 CPU
102 システムコントローラ
103 主メモリ
104 LCD
105 BIOS−ROM
106 不揮発性メモリ
107 マイクロホン
108 通信デバイス
109 キーボード
110 ポインティングデバイス
111 EC
121、122 記憶部
131 音声取得部
132 算出部
133 検出部
134 拡張部
135 作成部
136 認識部
141 通信制御部
200−2 クライアント
241 受付部
242 通信制御部
300−2 ネットワーク

Claims (16)

  1. 入力層から所定の中間層までのネットワークパラメータの一部を複数のパターンに基づいて変更し、複数の前記パターンに対応する変更後のニューラルネットワークそれぞれに対して1つの音声を入力することにより前記中間層から複数の出力を得る拡張部と、
    複数の前記出力に基づいて、前記音声から検出された単語に対する話者モデルを作成する作成部と、
    を備える話者モデル作成システム。
  2. 前記作成部は、複数の前記出力の平均および分散で表されるガウス分布を前記話者モデルとして作成する、
    請求項1に記載の話者モデル作成システム。
  3. 前記作成部は、話者の音声および複数の前記出力を用いる学習により前記話者モデルを作成する、
    請求項1に記載の話者モデル作成システム。
  4. 前記作成部は、前記単語に含まれる部分区間ごとに前記話者モデルを作成する、
    請求項1に記載の話者モデル作成システム。
  5. 前記拡張部は、前記入力層から前記中間層までのネットワークパラメータのうち一部の重みを変更する、
    請求項1に記載の話者モデル作成システム。
  6. 前記拡張部は、前記入力層から前記中間層までのネットワークパラメータのうち一部のバイアスにランダム値を加算する、
    請求項1に記載の話者モデル作成システム。
  7. 前記ネットワークパラメータは、前記入力層から前記中間層までの各層への入力値に対してバイアス項パラメータを含み、
    前記拡張部は、一部のバイアス項パラメータにランダム値を加算する、
    請求項1に記載の話者モデル作成システム。
  8. 音声を受け付け、特徴量に変換する音声取得部と、
    前記特徴量をニューラルネットワークに入力し、前記特徴量が予め定められた単語に対応する確からしさを表すスコアを算出する算出部と、
    前記スコアを用いて前記音声から前記単語を検出する検出部と、をさらに備える、
    請求項1に記載の話者モデル作成システム。
  9. 前記スコアの算出に用いられるニューラルネットワークは、前記拡張部がネットワークパラメータを変更するニューラルネットワークと同じである、
    請求項8に記載の話者モデル作成システム。
  10. 前記スコアの算出に用いられるニューラルネットワークは、前記拡張部がネットワークパラメータを変更するニューラルネットワークとは異なる、
    請求項8に記載の話者モデル作成システム。
  11. 音声を受け付け、特徴量に変換する音声取得部と、
    前記特徴量をニューラルネットワークに入力し、前記特徴量が予め定められた単語に対応する確からしさを表すスコアを算出する算出部と、
    前記スコアを用いて前記音声から前記単語を検出する検出部と、
    入力層から所定の中間層までのネットワークパラメータの一部を複数のパターンに基づいて変更し、複数の前記パターンに対応する変更後のニューラルネットワークそれぞれに対して1つの前記音声を入力することにより前記中間層から複数の出力を得る拡張部と、
    複数の前記出力に基づいて、検出された前記単語に対する話者モデルを作成する作成部と、
    前記話者モデルを用いて話者を認識する認識部と、
    を備える認識システム。
  12. 前記認識部は、認識のために入力される音声に対する前記中間層の出力を前記話者モデルに入力することにより話者を認識する、
    請求項11に記載の認識システム。
  13. コンピュータを、
    入力層から所定の中間層までのネットワークパラメータの一部を複数のパターンに基づいて変更し、複数の前記パターンに対応する変更後のニューラルネットワークそれぞれに対して1つの音声を入力することにより前記中間層から複数の出力を得る拡張部と、
    複数の前記出力に基づいて、前記音声から検出された単語に対する話者モデルを作成する作成部と、
    として機能させるためのプログラム。
  14. ユーザの発話を取得して、所定の単語を検出する検出部と、
    前記ユーザが予め決められたユーザである場合に、前記単語に設定された制御命令を出力する出力部と、
    を備える制御装置。
  15. 前記出力部は、前記ユーザの音声および当該音声の学習によって得られる話者モデルを用いて予め決められたユーザか否かを決定する、
    請求項14に記載の制御装置。
  16. 前記話者モデルは、前記ユーザの音声および拡張したモデルから得られる複数の出力を用いる学習により作成する、
    請求項15に記載の制御装置。
JP2018118090A 2018-06-21 2018-06-21 話者モデル作成システム、認識システム、プログラムおよび制御装置 Active JP6980603B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018118090A JP6980603B2 (ja) 2018-06-21 2018-06-21 話者モデル作成システム、認識システム、プログラムおよび制御装置
CN201910110478.2A CN110706714B (zh) 2018-06-21 2019-02-12 说话者模型制作系统
US16/296,410 US11495235B2 (en) 2018-06-21 2019-03-08 System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018118090A JP6980603B2 (ja) 2018-06-21 2018-06-21 話者モデル作成システム、認識システム、プログラムおよび制御装置

Publications (2)

Publication Number Publication Date
JP2019219574A true JP2019219574A (ja) 2019-12-26
JP6980603B2 JP6980603B2 (ja) 2021-12-15

Family

ID=68980742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018118090A Active JP6980603B2 (ja) 2018-06-21 2018-06-21 話者モデル作成システム、認識システム、プログラムおよび制御装置

Country Status (3)

Country Link
US (1) US11495235B2 (ja)
JP (1) JP6980603B2 (ja)
CN (1) CN110706714B (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135313A (ja) * 2020-02-21 2021-09-13 日本電信電話株式会社 照合装置、照合方法、および、照合プログラム
WO2021187146A1 (ja) * 2020-03-16 2021-09-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報送信装置、情報受信装置、情報送信方法、プログラム、及び、システム
JP2021192114A (ja) * 2020-12-01 2021-12-16 北京百度網訊科技有限公司 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム
WO2022044338A1 (ja) * 2020-08-31 2022-03-03 日本電気株式会社 音声処理装置、音声処理方法、記録媒体、および音声認証システム
WO2023135788A1 (ja) * 2022-01-17 2023-07-20 日本電信電話株式会社 音声処理学習方法、音声処理学習装置、およびプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
US11315575B1 (en) * 2020-10-13 2022-04-26 Google Llc Automatic generation and/or use of text-dependent speaker verification features
US11770268B2 (en) * 2022-02-14 2023-09-26 Intel Corporation Enhanced notifications for online collaboration applications

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
JP2016538658A (ja) * 2013-09-16 2016-12-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated アプリケーションへのアクセスを制御するための方法および装置
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06161495A (ja) * 1992-01-24 1994-06-07 Ricoh Co Ltd 音声認識装置
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
US20050149462A1 (en) * 1999-10-14 2005-07-07 The Salk Institute For Biological Studies System and method of separating signals
US9230550B2 (en) 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US20160293167A1 (en) * 2013-10-10 2016-10-06 Google Inc. Speaker recognition using neural networks
US9324320B1 (en) * 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
JP6461660B2 (ja) 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
WO2018029777A1 (ja) * 2016-08-09 2018-02-15 三菱電機株式会社 話者適応化装置、音声認識装置および音声認識方法
US9824692B1 (en) * 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016538658A (ja) * 2013-09-16 2016-12-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated アプリケーションへのアクセスを制御するための方法および装置
JP2016188944A (ja) * 2015-03-30 2016-11-04 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
塩田さやか, 外2名: "Moment-matching networkによるi-vector生成を用いた話者照合", 日本音響学会講演論文集, JPN6021022240, March 2018 (2018-03-01), pages 35 - 36, ISSN: 0004528305 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135313A (ja) * 2020-02-21 2021-09-13 日本電信電話株式会社 照合装置、照合方法、および、照合プログラム
JP7388239B2 (ja) 2020-02-21 2023-11-29 日本電信電話株式会社 照合装置、照合方法、および、照合プログラム
WO2021187146A1 (ja) * 2020-03-16 2021-09-23 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報送信装置、情報受信装置、情報送信方法、プログラム、及び、システム
WO2022044338A1 (ja) * 2020-08-31 2022-03-03 日本電気株式会社 音声処理装置、音声処理方法、記録媒体、および音声認証システム
JP2021192114A (ja) * 2020-12-01 2021-12-16 北京百度網訊科技有限公司 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム
JP7264957B2 (ja) 2020-12-01 2023-04-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム
WO2023135788A1 (ja) * 2022-01-17 2023-07-20 日本電信電話株式会社 音声処理学習方法、音声処理学習装置、およびプログラム

Also Published As

Publication number Publication date
CN110706714B (zh) 2023-12-01
US11495235B2 (en) 2022-11-08
US20190392839A1 (en) 2019-12-26
JP6980603B2 (ja) 2021-12-15
CN110706714A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
JP6980603B2 (ja) 話者モデル作成システム、認識システム、プログラムおよび制御装置
US11455995B2 (en) User recognition for speech processing systems
US11594215B2 (en) Contextual voice user interface
US10027662B1 (en) Dynamic user authentication
US10522134B1 (en) Speech based user recognition
CN106233374B (zh) 用于检测用户定义的关键字的关键字模型生成
US9640175B2 (en) Pronunciation learning from user correction
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
EP3504709B1 (en) Determining phonetic relationships
JP6495850B2 (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
US20030069729A1 (en) Method of assessing degree of acoustic confusability, and system therefor
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
KR102394912B1 (ko) 음성 인식을 이용한 주소록 관리 장치, 차량, 주소록 관리 시스템 및 음성 인식을 이용한 주소록 관리 방법
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2011170087A (ja) 音声認識装置
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
JP2005283646A (ja) 音声認識率推定装置
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP2017090660A (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP5626558B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211117

R151 Written notification of patent or utility model registration

Ref document number: 6980603

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151