JP4854732B2 - 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム - Google Patents

話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム Download PDF

Info

Publication number
JP4854732B2
JP4854732B2 JP2008507435A JP2008507435A JP4854732B2 JP 4854732 B2 JP4854732 B2 JP 4854732B2 JP 2008507435 A JP2008507435 A JP 2008507435A JP 2008507435 A JP2008507435 A JP 2008507435A JP 4854732 B2 JP4854732 B2 JP 4854732B2
Authority
JP
Japan
Prior art keywords
speaker
registration
speaker model
utterances
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008507435A
Other languages
English (en)
Other versions
JPWO2007111169A1 (ja
Inventor
聡一 外山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Priority to JP2008507435A priority Critical patent/JP4854732B2/ja
Publication of JPWO2007111169A1 publication Critical patent/JPWO2007111169A1/ja
Application granted granted Critical
Publication of JP4854732B2 publication Critical patent/JP4854732B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、例えばカーナビ装置、ネットバンキング装置、オートロック装置、コンピュータの認識装置等の各種コンピュータ機器や各種電子電気機器に設けられ、そのユーザである話者の発話に基いて、話者認識を行う話者認識システムの技術分野に関し、特に該システムにおける話者モデル登録装置及び方法、並びにコンピュータをそのような話者モデル登録装置として機能させるコンピュータプログラムの技術分野に関する。
この種の話者認識システムには、認識に用いられる発話されたテキストが予め登録されているテキスト固定型或いはテキスト依存型と、このような登録が不要であり任意のテキストについて認識を行うテキスト独立型或いは非テキスト依存型と、認識の際或いは都度に認識にテキストが指定されるテキスト指定型の三種類がある。これらのうちテキスト依存型については実用化の域に達しており、各種の提案がなされている(特許文献1参照)。
特開2004−294755号公報
しかしながら、例えば前述の特許文献1に開示されている技術によれば、登録の際に、登録用の発話に係るテキストをキーボード等により入力しなければならず、使い勝手が良いとはいえない。更に、登録の都度に、新たに登録しようとする発話情報と、何らかの照合情報とを照合して、それら両者間の類似性の高低に応じて、再度発話させるか、その発話を登録するかを選択的に実行することを要する。このため、その処理は複雑化し、ユーザによる操作も煩雑化してしまうという技術的問題点がある。
加えて、いずれの従来技術においても、登録の段階で、発話に外部の雑音が混入したり、話者が意図に反して再現性なく発話(例えば声が裏返ったり震えたり)してしまった際に、登録された発話モデルが信頼性のないものとなり、最終的な話者認識の精度も無視し得ない程に落ちてしまう。或いは、これを回避するために登録動作において多数回のやり直しが求められたることで、登録自体が実践的に困難となるという問題点もある。
本発明は、例えば上述した問題点に鑑みてなされたものであり、話者認識に係るテキストを登録する際における、コンピュータ上の処理及びユーザによる操作が比較的簡単である話者認識システムにおける話者モデル登録装置及び方法、このような話者モデル登録装置を備えた話者認識システム、並びにコンピュータをこのような話者モデル登録装置として機能させるコンピュータプログラムを提供することを課題とする。
(話者認識システムにおける話者モデル登録装置)
本発明に係る、話者認識システムにおける話者モデル登録装置は上記課題を解決するために、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段と、該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段とを備え、前記登録手段は、前記所定基準として、前記α回のうちにβ(但し、βは1以上α以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録し、前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行う
本発明に係る、話者認識システムにおける話者モデル登録装置によれば、話者認識システムにおける話者モデルの登録段階で、次のように登録がなされる。
即ちその動作時には、先ず、例えばマイクロホン、プロセッサ、メモリ等を有してなる取得手段によって、例えばマイクロホンからの音声信号のうち話者に係る音声部分を抽出する音声抽出や更にその中からの特徴量の算出など、発話の取得が行われる。ここで特に、典型的には話者に同一テキストを繰り返し発話させるなどによって、このような発話の取得がn+α回行われる。ここに「発話」とは、話者認識の全過程を通じていずれかの段階で用いられる、ユーザたる話者により発話されたテキストに係る音声或いは音声情報を意味する。
すると、例えばプロセッサ、メモリ等を有してなる算出手段によって、該取得されたn回の発話が登録用発話として選ばれた上で、話者モデルの算出が行われる。ここに「登録用発話」とは、発話のうち登録に用いられるものを意味する。登録用発話は、少なくとも登録用に用いられていれば足り、結果的に有効な登録が行われた際に用いられたものには限られない。
続いて、例えばプロセッサ、メモリ等を有してなる照合手段によって、取得手段により取得されたα回の発話が照合用発話として選ばれた上で、このように算出が行われた話者モデルの照合が行われる。ここに「照合用発話」とは、発話のうち照合に基準として、即ち比較対象或いは比較基準として、用いられるものを意味する。照合用発話は、少なくとも照合用に用いられていれば足り、結果的に有効な照合が行われた際に用いられたものには限られない。特に本発明では、従来、実際の話者認識の際に用いられるのではなく、ここでの照合用発話は登録の段階で用いられている。
尚、算出手段は、取得されたn回の発話を、登録用発話として、受動的又は能動的に選び、照合手段は、取得されたα回の発話を、照合用発話として、受動的又は能動的に選ぶ。ここに「受動的」とは、予め決められた規則に従って、例えば最初からn回目までの(例えば、最初の3回の)発話を登録用発話として選択し、例えばn回目以降最後までをα回として、その(例えば、4回目のみの)発話を照合用発話として選択するといった、特に、算出手段や照合手段がどれを選ぶかについて何ら能動的に作用しない場合を意味する。逆に「能動的」とは、例えば結果として相対的に良い照合の結果が得られる際のn回やα回などの発話を登録用発話や照合用発話として選択するといった、算出手段や照合手段がどれを選ぶかについて能動的に作用する場合、言い換えれば、系統立った或いは試行錯誤的な動作を含む何らかの選択動作を伴って選択を行う場合を意味する。
その後、例えばプロセッサ、メモリ、データベース等を有してなる登録手段によって、照合手段による照合の結果が所定基準を満たす話者モデルが、話者認識用の話者モデルとして登録される。言い換えれば、該照合の結果が所定基準を満たさない話者モデルについては、話者認識用の話者モデルとして登録されることはない。
以上の結果、本発明によれば、実践的にはよくあるように、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。従って、装置側における比較的簡単な処理を通じて且つユーザたる話者による発話に基づいた比較的簡単な操作によって、最終的には、当該話者認識システムにおいて極めて信頼性の高い話者認識が可能となる。本発明では特に、α回のうちにβ回以上、話者本人として受け入れることが可能な場合に、登録手段によって、話者認識用の話者モデルとして登録される。逆に、α回のうちにβ回以上、話者本人として受け入れることが不可能な場合に、登録手段によって、話者認識用の話者モデルとして登録されることはない。ここでの照合の結果が所定基準を満たすか否かの判断は、登録手段が行ってもよいし、照合手段が行ってもよい。従って、登録手段によって、信頼性の高い話者モデルの登録を確実に行える。
また、本発明では、照合の結果が所定基準を満たさない場合に、算出手段によって、n+α回取得された、即ちn+α個存在する発話の中から、登録用発話として選ばれるものの組み合わせが変えられた上で、再度話者モデルの算出が行われる。すると、仮に、何回目かの発話に雑音等が混入していても、登録用発話の選び方を変えて話者モデルの算出からやり直すことで、該雑音等による話者モデルの算出や照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高い話者モデルの登録を行える。
発明に係る、話者認識システムにおける話者モデル登録装置の態様では、記算出手段は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方変えて、前記話者モデルを複数通り算出し、前記登録手段は、前記複数通り算出された者モデルのうち、対応する複数通りの前記照合の結果が最もよいものを登録する。
この態様によれば、登録の成否や照合の結果の如何を問わずに、算出手段によって、n+α回取得された、即ちn+α個存在する発話の中から、登録用発話として選ばれるものの組み合わせが変えられた上で、複数通りの話者モデルの算出が行われる。すると、仮に、何回目かの発話に雑音等が混入していても、登録用発話の選び方を変えて話者モデルの算出が問題なく実行された場合を採用することで、該雑音等による話者モデルの算出や照合の結果に対する悪影響を低下或いは除外することが可能となる。このように、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、登録手段によって、信頼性の高い話者モデルの登録を行える。
(話者認識システム)
本発明に係る、一の話者認識システムは上記課題を解決するために、上述した話者モデル登録装置(但し、その各種態様を含む)と、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段とを備える。
本発明に係る、一の話者認識システムによれば、上述した本発明に係る話者モデル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。
本発明に係る、他の話者認識システムは上記課題を解決するために、上述した話者モデル登録装置(但し、その各種態様を含む)を備え、前記照合手段は、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段としても機能する。
本発明に係る、他の話者認識システムによれば、上述した本発明に係る話者モデル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。しかも、登録の際に用いられる照合手段は、認識の際に用いられる認識手段を兼ねるので、システム構成の単純化を図ることができ極めて有利である。
本発明に係る、一の話者認識システムの一態様では、前記認識手段は、前記任意の話者による発話についての前記登録された話者モデルを基準とする類似度に基いて、前記認識を行う。
この態様によれば、類似度に基いての各種認識技術を利用しての認識を行うことによって、信頼性の高い話者認識が可能となる。
(話者認識システムにおける話者モデル登録方法)
本発明に係る、話者認識システムにおける話者モデル登録方法は上記課題を解決するために、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録方法であって、発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得工程と、該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出工程と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合工程と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録工程とを備え、前記登録工程は、前記所定基準として、前記α回のうちにβ(但し、βは1以上α以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録し、前記照合の結果が前記所定基準を満たさない場合に、前記算出工程は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行う
本発明に係る、話者認識システムにおける話者モデル登録方法によれば、上述した本発明に係る話者モデル登録装置の場合と同様に、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。
尚、本発明の話者モデル登録方法においても、上述した本発明の話者モデル登録装置における各種態様と同様の各種態様を採ることが可能である。
(コンピュータプログラム)
上記課題を解決するために、本発明のコンピュータプログラムは、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段と、該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段とを備え、前記登録手段は、前記所定基準として、前記α回のうちにβ(但し、βは1以上α以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録し、前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行う話者認識システムにおける話者モデル登録装置に備えられたコンピュータを、前記取得手段、前記算出手段、前記照合手段及び前記登録手段として機能させる。
本発明のコンピュータプログラムによれば、当該コンピュータプログラムを格納するCD−ROM、DVD−ROM等の記録媒体から、当該コンピュータプログラムを、話者モデル登録装置に備えられたコンピュータに読み込んで実行させれば、或いは、当該コンピュータプログラムを通信手段を介してダウンロードさせた後に実行させれば、上述した本発明の話者モデル登録装置を比較的簡単に構築できる。これにより、上述した本発明の話者モデル登録装置の場合と同様に、話者による発話に混入した雑音や、話者による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。
尚、本発明のコンピュータプログラムにおいても、上述した本発明の話者モデル登録装置における各種態様と同様の各種態様を採ることが可能である。
上記課題を解決するために、コンピュータ読取可能な媒体内のコンピュータプログラム製品は、話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置に備えられたコンピュータにより実行可能なプログラム命令を明白に具現化し、該コンピュータを、発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段と、該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段とを備え、前記登録手段は、前記所定基準として、前記α回のうちにβ(但し、βは1以上α以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録し、前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行う話者認識システムにおける、前記取得手段、前記算出手段、前記照合手段及び前記登録手段として機能させる。
本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を格納するROM、CD−ROM、DVD−ROM、ハードディスク等の記録媒体から、当該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウンロードすれば、上述した本発明の話者モデル登録装置を比較的容易に実施可能となる。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の話者モデル登録装置として機能させるコンピュータ読取可能なコード(或いはコンピュータ読取可能な命令)から構成されてよい。
以上詳細に説明したように、本発明の話者モデル登録装置によれば、算出手段、照合手段及び登録手段を備え、本発明の話者モデル登録方法によれば、算出工程、照合工程及び登録工程を備えるので、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。本発明の話者認識システムによれば、本発明の話者モデル登録装置を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。更に、本発明のコンピュータプログラムによれば、コンピュータを算出手段、照合手段及び登録手段として機能させるので、上述した本発明の話者モデル登録装置を、比較的容易に構築できる。
本発明の作用及び他の利得は次に説明する実施例から明らかにされよう。
本発明の第1実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。 第2実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。 第2実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。 第3実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。 第4実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。 第5実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。 第6実施例に係る、話者認識システムにおける話者認識の際の動作処理を示すフローチャートである。
符号の説明
1 話者認識システム
10 話者モデル登録装置
13 取得部
20 算出部
30 照合部
40 登録部
50 催促部
132 マイクロホン
142 音声部分抽出部
201 特徴量算出部
202 話者モデル算出部
30 照合部
41 検証・登録部
45 話者モデルデータベース
52 表示画面
以下、本発明を実施するための最良の形態について実施例毎に順に図面に基づいて説明する。
(1)第1実施例
第1実施例に係る話者認識システムにおける話者モデル登録装置の構成及び基本的な動作を、図1を参照して説明する。ここに、図1は、本発明の第1実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。
図1において、本実施例に係る話者認識システム1における話者モデル登録装置10は、本発明に係る「取得手段」の一例としての取得部13と、本発明に係る「算出手段」の一例としての算出部20と、本発明に係る「照合手段」及び「認識手段」の一例としての照合部30と、本発明に係る「登録手段」の一例としての登録部40と、本発明に係る「催促手段」の一例としての催促部50とを備える。
取得部13は、例えばマイクロホンのような音声入力機器を含んで成り、話者の登録を行う際、話者であるユーザ12(例えば鈴木さん)が任意に定めたキーワード(例えば「ひらけごま」)の発話(実際には、発話の波形データ14)をn+α回取得してメモリ等に保存する。ここにnは、登録用発話の数、即ち話者モデル25を算出して登録するにあたり必要とされる発話回数であり、αは、照合用発話の数、即ち算出された話者モデル25が適切か否かを照合するために必要とされる発話の回数である。例えば図1においてはn=3、即ち3回の発話に基いて話者モデル25(例えば、鈴木モデル)が算出され、α=1、即ち1回の照合用発話に基いて話者モデル25が照合される。
算出部20は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、取得部13によって取得された発話のうちn回の発話に基いて、ユーザ12(鈴木さん)がキーワードを発話したときの特徴をとらえた話者モデル25を算出する。
照合部30は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、ユーザ12(鈴木さん)が余分に発話したα回の発話を照合用発話とし、該照合用発話と算出された話者モデル25との照合を行う。例えば、ユーザ12(鈴木さん)本人の1回の照合用発話と算出された話者モデル25との照合を行う。加えて、当該照合部30は、認識手段として機能してもよい。
登録部40は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、算出部20によって算出された話者モデル25のうち、照合部30による照合の結果、所定基準を満たすものを、話者認識用の話者モデル25として、例えばコンピュータが備えるハードディスク装置、光ディスク装置等の大規模記憶装置内に構築された話者モデルデータベース45に正式に登録する。例えば、予めユーザ12(鈴木さん)本人の発話と分かっている1回の照合用発話と、算出された話者モデル25との照合を行い、鈴木さん本人であることが正しく認識されれば、この話者モデル25は適切である或いは正常に機能するという検証がなされ、話者モデルデータベース45に登録される。この照合の際、ネガティブコントロールとして、本人以外の人間、例えば鈴木さんに代えて佐藤さんの発話を照合用発話とし、本人でないことも認識されれば、一層適切な話者モデル25を登録できる。
催促部50は、算出部20によって算出された話者モデル25のうち、照合部30による照合の結果、所定基準を満たすものがない場合、算出部20によって算出された話者モデル25或いは該話者モデル25の元となる発話に問題がある或いは不適切であるとして、ユーザ12に再度登録用の発話を催促する。例えば、ディスプレイに「再度発話をして下さい」等の催促用メッセージを表示したり、音声出力したりする。そして、この催促部50により催促されることがなくなるまで、換言すれば、話者認識用の話者モデル25が登録されるまで、上記構成に基づく処理が行われる。
加えて、上記話者モデル登録装置10を備える話者認識システム1が話者認識を行う際は、以下の認識部30を更に備えるとよい。
認識部30は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、話者認識時には、認識を求める任意の話者(ここでの話者つまりユーザ12は、話者モデル25を登録した本人に限られない。例えば、鈴木さんに成りすまそうとする第三者が含まれる)の発話と、登録された話者モデル25とを照合することで、認識を求める任意の話者が、登録された話者モデル25の話者本人であるか否かを認識する。具体的には、照合の結果、類似度等が所定基準を満たす場合には、認識を求める任意の話者は登録された話者モデル25の話者であると認識し、満たさない場合には、話者でないと認識する。
以上、図1に示すように構成された話者認識システム1における話者モデル登録装置10によると、話者認識用の話者モデル25が好適に登録されることとなる。この際特に、実践的にはよくあるように、ユーザ12による発話に混入した雑音や、ユーザ12による発話自体の失敗などに起因して、繰り返し行われる発話の取得が全回を通じて上手くいかなかったとしても、登録動作を繰り返して行う事態を極めて効率的に回避でき、或いは、信頼性の低い話者モデルを登録することを極めて確実に回避できる。従って、装置側における比較的簡単な処理を通じて且つユーザ12による発話に基づいた比較的簡単な操作によって、最終的には、当該話者認識システムにおいて極めて信頼性の高い話者認識が可能となる。
(2)第2実施例
続いて、第2実施例に係る話者認識システム1における話者モデル登録装置10の構成及び基本的な動作を、図2及び図3を参照して説明する。ここに、図2は、第2実施例に係る、話者認識システムにおける話者モデル登録装置の基本構成を概念的に示すブロック図である。尚、図2及び図3において、上記図1に示した第1実施例に係る構成と同一の構成には同一の符号を付し、その説明は適宜省略する。
図2において、マイクロホン132は、ユーザ2がキーワードの発話をn回行う際、該発話を夫々電気信号に変換して話者認識システム1に入力する機器である。
音声部分抽出部142は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、背景雑音と音声発話区間とのパワー差を利用する一般的な音声区間検出方法等により、変換された発話の電気信号からキーワードが発話されている発話音声部分を切り出す演算装置である。
特徴量算出部201は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、入力された発話音声部分を特徴量に変換する。かかる特徴量は、MFCC(Mel Frequency Cepstrum Coefficient:MFCC)、LPC(Linear Predictive Coding:LPC)ケプストラム等によって変換される演算装置である。そして、特徴量が複数ある場合には、その一部(例えば、n回分)を話者モデル算出部202へ、他の一部(例えば、α回分)を検証・登録部41へ送信する。
話者モデル算出部202は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、特徴量算出部201で算出された特徴量のうちn回分を用いて、照合に用いる話者モデルを算出し学習する演算装置である。ここに、話者モデルは、話者HMM(Hidden Markov Model:HMM)やDP(Dynamic Programming:DP)マッチング等の各種音声認識アルゴリズムにおける話者テンプレートとして表される。
照合部30は、第1実施例の場合と同様に、話者モデル算出部202で算出された話者モデルと照合用の特徴量との照合を行い類似度を算出する演算装置である。尚、類似度としては、尤度又は距離尺度の逆数が用いられる。類似度として距離尺度の逆数が用いられる場合、逆数であるが故に制御方法を適宜変更する必要がある。具体的には、検証・登録部41で所定閾値と比較する際の不等号の向きを逆にする。
検証・登録部41は、例えばプロセッサ、メモリ等を備えたコンピュータ内にプログラムに従って論理的に構築されるものであり、照合部30で算出された類似度と所定の閾値と比較することで、算出された話者モデルを用いてα回分の各照合用の特徴量が本人と認識されるか否か、言い換えれば算出された話者モデルを話者モデルデータベース45に登録してもよいか否かを検証する演算装置及び記録装置である。そして、登録してもよいと検証された話者モデルを検証・登録部41は、話者モデルデータベース45に登録する。
表示画面52は、例えば液晶ディスプレイ等であり、検証結果或いは催促通知のメッセージを表示する表示機器である。
以上、図2のように構成される話者モデル登録装置10により、話者認識用の話者モデルを登録する際の処理を図3を用いて説明する。ここに、図3は、第2実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。
図3において先ず、例えばユーザが開始ボタンを押す等して登録が開始されると、このユーザに対し、マイクロホン132に向かってキーワードをn+α回発話することを促す旨の通知が、表示画面102上等で行われる。これに応じて、n+α回の発話が、マイクロホン132を介して話者モデル登録装置10に入力される(ステップS101)。尚、登録開始に先立ち、“えーと”などのキーワード以外の発話は、画面への文字表示やガイダンス音声等によって教示することで回避するとよい。
入力されたn+α回の発話の発話音声部分が音声部分抽出部142によって夫々抽出される(ステップS102)。
このn+α回の発話に係る発話音声部分を用いて、ユーザの話者モデルが算出され、学習される(ステップS103)。具体的には、送信されたn+α回の発話に係る発話音声部分が特徴量算出部201によって各々の特徴量に変換され、このn+α回の発話に係る特徴量のうち、n回の発話(登録用発話)に係る特徴量が話者モデル算出部202へ送信されてユーザの発話モデルが算出される。残りのα回の発話(照合用発話)に係る特徴量は照合部30へ照合用として送信される。
そして、算出されたユーザの話者モデルが、照合部30によって、α回の照合用発話に係る特徴量と夫々照合される(ステップS104)。例えば、算出されたユーザの話者モデルとα回の照合用発話に係る特徴量との類似度が夫々算出される。
このようにして算出されたユーザの話者モデルと各照合用発話との類似度の照合結果が、検証・登録部41によって集計され(ステップS105)、この集計結果が登録判断基準を満たすか否か、換言すれば算出されたユーザの話者モデルを登録してもよいか否かが判断される(ステップS106)。例えばα回の照合用発話のうち、算出されたユーザの話者モデルによって本人として受理されたものの回数がβ回以上(βは1以上α以下)であるか否かが判断される。具体的には、α回の照合用発話のうち、算出されたユーザの話者モデルとの類似度が所定類似度閾値を超えるものの回数がβ回以上であるか否かが判断される。ここで「所定類似度閾値」は、夫々登録判断基準に相当する類似度であり、その値にはマージンを持たせてもよい。但し、マージンの幅が大きすぎるとユーザ以外の人間もユーザ本人であると認識してしまうことになり、逆にマージンの幅が小さすぎるとユーザ本人であっても体調如何によっては認識されない事態を生じ得る。従って、「所定類似度閾値」は、上記事項に留意し、実践上ユーザの発話とユーザ以外の発話とを実践上十分に区別可能な類似度として、実験或いはシミュレーションによって求めるとよい。
ここで、上記集計結果が登録判断基を満たすと判断される場合(ステップS106:Yes)、検証・登録部41は、算出されたユーザの話者モデルを話者モデルデータベース45に登録し(ステップS1071)、その旨が表示画面52を介してユーザに通知され(ステップS1081)、登録が終了する。
他方、上記集計結果が登録判断基を満たすと判断されない場合(ステップS106:No)、催促部50が算出されたユーザの話者モデルを破棄し(ステップS1072)、表示画面52を介してユーザに再登録を促す通知を行う(ステップS1082)。そして、話者モデルが登録されるまで以上の処理が繰り返される。
以上、図3に示したように話者認識システム1における話者モデル登録装置10が動作するので、話者モデルが適切に登録されることになる。特に、登録用発話・照合用発話が最初に取得され、登録用発話でモデルを学習した後に照合用発話で学習した話者モデルの話者認識性能が検証されるので、音声を発話する以外にキーワードテキストを入力するといった余計な操作をユーザに強いることもなく、加えて一発話目に雑音が混在したとしても、ユーザや管理者が確認する等の人的な作業を介さずに検出可能であるため、実践上大変便利である。
(3)第3実施例
続いて、第3実施例に係る話者認識システム1における話者モデル登録装置10の基本的な動作を、図2及び図3に加えて図4を参照して説明する。ここに、図4は、第3実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図4において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。
図4のフローチャートが図3のフローチャートと異なるのは主に、話者モデルが破棄されて(ステップS1072)からの処理である。
具体的には、話者モデルが破棄されると(ステップS1072)、すぐ再発話を催促せず、n発話・α発話の選び方は尽きたか否かを確認する(ステップS3073)。例えば、予め選び方を複数通り決めておき、総当りで全ての選び方について既に試行したか否かをチェックしておくとよい。
ここで、選び方が尽きた場合(ステップS3073:Yes)、表示画面52を介してユーザに再登録を促す通知を行う(ステップS1082)。但し、全ての選び方を試さずとも、ある段階で登録判断の基準をクリアするものが全くなければ、そもそもの入力された発話が適当でないとして、発話を催促してもよい。
他方で、選び方が尽きていない場合(ステップS3073:No)、n回の登録用発話の選び方を変えて、或いはα回の照合用発話の選び方を変えて、再度話者モデルを学習する(ステップS3074)。
以上、図2及び図3に加えて図4を用いて説明したように、本実施例に係る、話者認識システム1における話者モデル登録装置10によると、話者モデルが適切に登録されることは勿論、既に入力された発話を再利用するので、ユーザの負担が軽減され、実践上大変有利である。
(4)第4実施例
続いて、第4実施例に係る話者認識システム1における話者モデル登録装置10の基本的な動作を、図2及び図3に加えて図5を参照して説明する。ここに、図5は、第4実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図5において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。
図5のフローチャートが図3のフローチャートと異なるのは主に、入力された発話の発話音声部分が抽出されて(ステップS102)から登録判断基準をクリアしているか判断される(ステップS106)までの処理である。
具体的には、先ずこのn+α回の発話に係る発話音声部分を用いて、ユーザの話者モデルが複数通り算出され、学習される(ステップS403)。
そして、算出されたユーザの複数通りの話者モデルが、照合部30によって、α回の照合用発話に係る特徴量と夫々照合される(ステップS404)。
このようにして算出されたユーザの複数通りの話者モデルと各照合用発話との類似度の照合結果が、検証・登録部41によって夫々集計され(ステップS405)、複数通りの話者モデルのうち照合結果が最も良いものが選択される(ステップS406)。例えば、本人であると認識できた照合用発話の各々との類似度の平均値が最も大きかった話者モデルを照合結果が最も良いものとして選択する。この際、平均値に代えて、最大値、最小値或いは中央値のような別の尺度を予め決めておき、採用してもよい。
そして、照合結果が最も良い話者モデルに係る集計結果が登録判断基準を満たすか否かが判断される(ステップS106)。
以上、図2及び図3に加えて図5を用いて説明したように、本実施例に係る、話者認識システムにおける話者モデル登録装置によると、複数通りの話者モデルの中から最良のものを選択するので、例えば、雑音が混入した回における話者による発話や、発話自体が失敗した回における発話を除外して、発話の取得に係る処理や操作の繰り返しを効率的に避けつつ、検証・登録部41によって、信頼性の高い話者モデルの選択及び登録を行える。
(5)第5実施例
続いて、第5実施例に係る話者認識システム1における話者モデル登録装置10の基本的な動作を、図2及び図3に加えて図6を参照して説明する。ここに、図6は、第5実施例に係る、話者認識システムにおける話者モデル登録装置の動作処理を示すフローチャートである。尚、図6において、上記図面に係る構成或いは処理と同一の構成或いは処理には同一の符号を付し、その説明は適宜省略する。
図6のフローチャートが図3のフローチャートと異なるのは主に、話者モデルの検証を行い、該話者モデルが登録判断基準を満たしたとき、話者モデルに基づき本人として認識されたγ回の発話に代えて、n+γ回の登録用発話に基いて再度話者モデルを学習してから登録する点である。
具体的には、n回の登録用発話に基づき話者モデルが算出された後、該話者モデルをα回の照合用発話と照合し、そのうちγ回の発話が本人のものであると認識されるとする(ステップS504)。
更に、算出されたユーザの話者モデルと各照合用発話との類似度の照合結果が、検証・登録部41によって集計され(ステップS105)、この集計結果が登録判断基準を満たすと判断されるとする(ステップS106:Yes)。
この際、本人のものであると認識されたγ回の発話をn回の登録用発話に更に加えて、話者モデルが話者モデル算出部202で再度算出され(ステップS5071)、最終的にこのn+γ回の発話に基づく話者モデルが登録されることとなる。
尚、n+γ回の発話に基づき話者モデル算出部202を再度算出することに代えてγ回の発話で適応処理を行ってもよい。
以上、図2及び図3に加えて図6を用いて説明したように、本実施例に係る、話者認識システム1における話者モデル登録装置10によると、照合用発話でも本人のものであると認識されるものについては登録用話者モデルとされるので、話者モデル算出部202は信頼性の高い話者モデルの算出或いは適応処理を行える。
(6)第6実施例
続いて、第6実施例に係る話者認識システム1における話者認識の際の基本的な動作を、図2に加えて図7を参照して説明する。ここに、図7は、第6実施例に係る、話者認識システムにおける話者認識の際の動作処理を示すフローチャートである。図7において、先ず話者認識の際、ユーザ即ち話者が、キーワードをマイクロホン132に向かって少なくとも1回発すると、この際の発話音声がマイクロホン132で収録され(ステップS601)、音声部分抽出部142で音声発話区間が抽出される(ステップS602)。抽出された音声発話区間が特徴量算出部201によって特徴量に変換され照合部に送られる(ステップS603)。
照合部30では、送られてきた特徴量と、上述した実施例に係る話者モデル登録装置10によって登録されている各話者モデルとの照合が行われ、各話者モデルに対応して類似度が算出される(ステップS604)。その中でも最も高い類似度(以下、最高類似度とも言う)となった話者モデルに対応する話者が認識結果候補者として選択される(ステップS605)。
そして、その最高類似度と他人の発話を十分な精度で棄却できるよう予め設定された閾値とが比較され(ステップS606)、この最高類似度が閾値よりも高ければ(ステップS606:Yes)対応する話者本人であると判断され(ステップS6071)、その結果が表示画面52に出力される(ステップS6081)。
他方、最高類似度が閾値よりも低ければ(ステップS606:No)、認識結果候補者が話者であると認識されず、この話者を棄却し(ステップS6072)、認識失敗画面が表示される(ステップS6082)。
尚、上述のように認識結果候補者を選択せずとも、予め自分が誰であるかを発話により、或いはキーボード入力により宣言して、照合する話者モデルを1つに絞った上で照合して類似度を求め、閾値と比較して話者を認識するか棄却するかを判別するようにしてもよい。
以上、図2に加えて図7を用いて説明したように、本実施例に係る、話者認識システム1によると、上述した実施例に係る話者モデル登録装置10を備えるので、比較的簡単な登録動作或いは登録操作を経て、極めて信頼性の高い話者認識が可能となる。
上記実施例に示す動作処理は、取得工程、算出工程、照合工程、及び登録工程を備える話者認識システム1における話者モデル登録方法に基いて話者認識システムを動作させることによって実現してもよい。或いは、取得手段、算出手段、照合手段、及び登録手段を備えた話者認識システム1に設けられるコンピュータにコンピュータプログラムを読み込ませることで実現してもよい。
尚、本発明は、上述した実施例に限られるものではなく、請求の範囲及び明細書全体から読み取れる発明の要旨、或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラムもまた、本発明の技術的範囲に含まれるものである。
本発明に係る話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラムは、例えばカーナビ装置、ネットバンキング装置、オートロック装置、コンピュータの認識装置等の各種コンピュータ機器や各種電子電気機器に設けられ、そのユーザである話者の発話に基いて、話者認識を行う話者認識システムにおける話者モデル登録装置に利用可能である。

Claims (7)

  1. 話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、
    発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段と、
    該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段と、
    該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、
    該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段と
    を備え、
    前記登録手段は、前記所定基準として、前記α回のうちにβ(但し、βは1以上α以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録し、
    前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行う
    ことを特徴とする話者認識システムにおける話者モデル登録装置。
  2. 前記算出手段は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記話者モデルを複数通り算出し、
    前記登録手段は、前記複数通り算出された話者モデルのうち、対応する複数通りの前記照合の結果が最もよいものを登録する
    ことを特徴とする請求項1に記載の話者認識システムにおける話者モデル登録装置。
  3. 請求項1に記載の話者モデル登録装置と、
    前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段と
    を備えたことを特徴とする話者認識システム。
  4. 請求項1に記載の話者モデル登録装置を備え、
    前記照合手段は、前記登録された話者モデルに基いて、任意の話者による発話についての認識を行う認識手段としても機能する
    ことを特徴とする話者認識システム。
  5. 前記認識手段は、前記任意の話者による発話についての前記登録された話者モデルを基準とする類似度に基いて、前記認識を行うことを特徴とする請求項に記載の話者認識システム。
  6. 話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録方法であって、
    発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得工程と、
    該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出工程と、
    該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合工程と、
    該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録工程と
    を備え、
    前記登録工程は、前記所定基準として、前記α回のうちにβ(但し、βは1以上α以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録し、
    前記照合の結果が前記所定基準を満たさない場合に、前記算出工程は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行う
    ことを特徴とする話者認識システムにおける話者モデル登録方法。
  7. 話者認識システムにおいて話者認識用の話者モデルを登録する話者モデル登録装置であって、発話をn+α(但し、nは2以上の整数、αは1以上の整数)回取得する取得手段と、該取得されたn回の発話を登録用発話として、話者モデルの算出を行う算出手段と、該算出が行われた話者モデルの照合を、前記取得されたα回の発話を照合用発話として行う照合手段と、該照合が行われた話者モデルのうち、該照合の結果が所定基準を満たすものを、前記話者認識用の話者モデルとして登録する登録手段とを備え、前記登録手段は、前記所定基準として、前記α回のうちにβ(但し、βは1以上α以下の整数)回以上、話者本人として受け入れることが可能な場合に、前記話者認識用の話者モデルとして登録し、前記照合の結果が前記所定基準を満たさない場合に、前記算出手段は、前記n+α回取得された発話の中から前記登録用発話を選ぶ際の選び方を変えて、前記算出を再度行う話者認識システムにおける話者モデル登録装置に備えられたコンピュータを、前記取得手段、前記算出手段、前記照合手段及び前記登録手段として機能させることを特徴とするコンピュータプログラム。
JP2008507435A 2006-03-24 2007-03-16 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム Expired - Fee Related JP4854732B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008507435A JP4854732B2 (ja) 2006-03-24 2007-03-16 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006084275 2006-03-24
JP2006084275 2006-03-24
PCT/JP2007/055433 WO2007111169A1 (ja) 2006-03-24 2007-03-16 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JP2008507435A JP4854732B2 (ja) 2006-03-24 2007-03-16 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Publications (2)

Publication Number Publication Date
JPWO2007111169A1 JPWO2007111169A1 (ja) 2009-08-13
JP4854732B2 true JP4854732B2 (ja) 2012-01-18

Family

ID=38541089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008507435A Expired - Fee Related JP4854732B2 (ja) 2006-03-24 2007-03-16 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム

Country Status (3)

Country Link
US (1) US20090106025A1 (ja)
JP (1) JP4854732B2 (ja)
WO (1) WO2007111169A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832685B2 (en) 2015-09-15 2020-11-10 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
US10438593B2 (en) 2015-07-22 2019-10-08 Google Llc Individualized hotword detection models
GB201802309D0 (en) * 2017-11-14 2018-03-28 Cirrus Logic Int Semiconductor Ltd Enrolment in speaker recognition system
US20230215422A1 (en) * 2022-01-05 2023-07-06 Google Llc Multimodal intent understanding for automated assistant

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5681781A (en) * 1979-12-05 1981-07-04 Nippon Electric Co Sound lock system
JPS584198A (ja) * 1981-06-30 1983-01-11 株式会社日立製作所 音声認識装置における標準パタ−ン登録方式
JPH02210500A (ja) * 1989-02-10 1990-08-21 Ricoh Co Ltd 標準パターン登録方式
JPH02298996A (ja) * 1989-05-12 1990-12-11 Toshiba Corp 単語音声認識装置
JPH09218696A (ja) * 1996-02-14 1997-08-19 Ricoh Co Ltd 音声認識装置
JPH1020882A (ja) * 1996-07-01 1998-01-23 Ricoh Co Ltd 音声認識装置および標準パターン登録方法
JPH10133680A (ja) * 1996-09-06 1998-05-22 Amtex Kk 音声データ記憶者判定装置
JP2000155595A (ja) * 1998-11-19 2000-06-06 Canon Inc 撮像装置
JP2004279770A (ja) * 2003-03-17 2004-10-07 Kddi Corp 話者認証装置及び判別関数設定方法
JP2004309779A (ja) * 2003-04-07 2004-11-04 Casio Comput Co Ltd 音声認証装置
JP2005241215A (ja) * 2004-02-27 2005-09-08 Mitsubishi Electric Corp 電気機器、冷蔵庫、冷蔵庫の操作方法
JP2007010995A (ja) * 2005-06-30 2007-01-18 Yamaha Corp 話者認識方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62245295A (ja) * 1986-04-18 1987-10-26 株式会社リコー 特定話者音声認識装置
US6182037B1 (en) * 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
DE60213595T2 (de) * 2001-05-10 2007-08-09 Koninklijke Philips Electronics N.V. Hintergrundlernen von sprecherstimmen
US6996526B2 (en) * 2002-01-02 2006-02-07 International Business Machines Corporation Method and apparatus for transcribing speech when a plurality of speakers are participating

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5681781A (en) * 1979-12-05 1981-07-04 Nippon Electric Co Sound lock system
JPS584198A (ja) * 1981-06-30 1983-01-11 株式会社日立製作所 音声認識装置における標準パタ−ン登録方式
JPH02210500A (ja) * 1989-02-10 1990-08-21 Ricoh Co Ltd 標準パターン登録方式
JPH02298996A (ja) * 1989-05-12 1990-12-11 Toshiba Corp 単語音声認識装置
JPH09218696A (ja) * 1996-02-14 1997-08-19 Ricoh Co Ltd 音声認識装置
JPH1020882A (ja) * 1996-07-01 1998-01-23 Ricoh Co Ltd 音声認識装置および標準パターン登録方法
JPH10133680A (ja) * 1996-09-06 1998-05-22 Amtex Kk 音声データ記憶者判定装置
JP2000155595A (ja) * 1998-11-19 2000-06-06 Canon Inc 撮像装置
JP2004279770A (ja) * 2003-03-17 2004-10-07 Kddi Corp 話者認証装置及び判別関数設定方法
JP2004309779A (ja) * 2003-04-07 2004-11-04 Casio Comput Co Ltd 音声認証装置
JP2005241215A (ja) * 2004-02-27 2005-09-08 Mitsubishi Electric Corp 電気機器、冷蔵庫、冷蔵庫の操作方法
JP2007010995A (ja) * 2005-06-30 2007-01-18 Yamaha Corp 話者認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832685B2 (en) 2015-09-15 2020-11-10 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product

Also Published As

Publication number Publication date
US20090106025A1 (en) 2009-04-23
WO2007111169A1 (ja) 2007-10-04
JPWO2007111169A1 (ja) 2009-08-13

Similar Documents

Publication Publication Date Title
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
JP4680714B2 (ja) 音声認識装置および音声認識方法
JP5066483B2 (ja) 言語理解装置
US20190080687A1 (en) Learning-type interactive device
US8977547B2 (en) Voice recognition system for registration of stable utterances
JP6464650B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US8886532B2 (en) Leveraging interaction context to improve recognition confidence scores
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
JP4897040B2 (ja) 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
JP4854732B2 (ja) 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JP4634156B2 (ja) 音声対話方法および音声対話装置
US20170270923A1 (en) Voice processing device and voice processing method
EP1887562A1 (en) Speech recognition by statistical language model using square-root smoothing
JP2008233305A (ja) 音声対話装置、音声対話方法及びプログラム
JPWO2018088534A1 (ja) 電子機器、電子機器の制御方法及び電子機器の制御プログラム
JP2005512246A (ja) 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
WO2007111197A1 (ja) 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP4236502B2 (ja) 音声認識装置
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム
JP6920730B2 (ja) 対話装置および対話プログラム
CN109559759B (zh) 具备增量注册单元的电子设备及其方法
JP6988680B2 (ja) 音声対話装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111025

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees