JP2017058483A - 音声処理装置、音声処理方法及び音声処理プログラム - Google Patents

音声処理装置、音声処理方法及び音声処理プログラム Download PDF

Info

Publication number
JP2017058483A
JP2017058483A JP2015182325A JP2015182325A JP2017058483A JP 2017058483 A JP2017058483 A JP 2017058483A JP 2015182325 A JP2015182325 A JP 2015182325A JP 2015182325 A JP2015182325 A JP 2015182325A JP 2017058483 A JP2017058483 A JP 2017058483A
Authority
JP
Japan
Prior art keywords
speaker
similarity
unit
speech
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015182325A
Other languages
English (en)
Other versions
JP6556575B2 (ja
Inventor
寧 丁
Ning Ding
寧 丁
誠 広畑
Makoto Hirohata
誠 広畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015182325A priority Critical patent/JP6556575B2/ja
Priority to US15/253,982 priority patent/US10832685B2/en
Publication of JP2017058483A publication Critical patent/JP2017058483A/ja
Application granted granted Critical
Publication of JP6556575B2 publication Critical patent/JP6556575B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の話者の複数の発話データから、同一の話者の発話を特定する音声処理装置、音声処理方法及び音声処理プログラムを提供する。
【解決手段】音声処理装置100は、抽出部102と、分類部101と、類似度算出部104と、特定部106とを有する。抽出部102は、発話データから、音声特徴を抽出する。分類部101は、抽出された音声特徴をもとに、発話データを、話者毎の発話の集合に分類する。類似度算出部104は、集合に含まれる発話データの音声特徴と、複数の話者モデルそれぞれとの類似度を算出する。特定部106は、算出された類似度に基づいて、集合ごとに話者を特定する。
【選択図】図2

Description

本発明の実施形態は、音声処理装置、音声処理方法及び音声処理プログラムに関する。
従来、話者の発話データを用いて、該話者の話者モデルを学習し、学習した話者モデルを用いて、対応する話者の発話を特定する技術がある。
特許第4854732号公報
従来技術は、同一の話者の発話を準備しなければならず、また、複数の話者の発話データに対して、何名の話者が存在するのか、どの発話データが同一の話者のものなのかを判別することが困難である。
本発明が解決しようとする課題は、複数の話者の複数の発話データから、同一の話者の発話を特定することができる音声処理装置、音声処理方法及び音声処理プログラムを提供することである。
実施形態の音声処理装置は、抽出部と、分類部と、類似度算出部と、特定部とを有する。抽出部は、発話データから、音声特徴を抽出する。分類部は、抽出された音声特徴をもとに、発話データを、話者毎の発話の集合に分類する。類似度算出部は、集合に含まれる発話データの音声特徴と、複数の話者モデルそれぞれとの類似度を算出する。特定部は、算出された類似度に基づいて、集合ごとに話者を特定する。
実施形態1に係る音声処理装置のハードウェア構成を示す図。 実施形態1に係る音声処理装置の機能構成を示すブロック図。 実施形態1に係る発話データの分類手法を説明する図。 実施形態1に係る類似度算出を説明する図。 実施形態1に係るクラスタの話者の特定を説明する図。 実施形態1に係る話者モデルの学習を説明する図。 実施形態1に係る音声処理装置による処理の流れを示すフローチャート。 実施形態2に係る音声処理装置の機能構成を示すブロック図。 実施形態2に係る発話データの分類を説明する図。 実施形態2に係る類似度算出を説明する図。 実施形態2に係るクラスタの話者の特定を説明する図。 実施形態2に係るクラスタの統合を説明する図。 実施形態2に係る音声処理装置による処理の流れを示すフローチャート。
(実施形態1)
図1は、実施形態1に係る音声処理装置100のハードウェア構成例を示す図である。図1に示すように、音声処理装置100は、CPU(Central Processing Unit)12と、RAM(Random Access Memory)13と、ROM(Read Only Memory)14と、表示装置15と、音声入力装置16と、通信I/F17と、操作部18とを有する。各ハードウェアは、システムバス11により互いに接続される。例えば、音声処理装置100は、PC(Personal Computer)やタブレット端末、サーバ装置等の情報処理装置である。
CPU12は、音声処理装置100全体の動作を制御する。CPU12は、RAM13等を作業領域として、ROM14等に記憶されたプログラムを実行することで、音声処理装置100全体の動作を制御する。RAM13は、各種処理に関する情報等を一時的に記憶するとともに、ROM14等に格納されたプログラムの実行時の作業領域として使用される。ROM14は、音声処理装置100による処理を実現するためのプログラムを記憶する。表示装置15は、音声処理装置100による処理結果や状態等を表示する。例えば、表示装置15は、液晶ディスプレイやタッチパネルである。音声入力装置16は、音声等を入力するためのマイクロフォン等である。通信I/F17は、外部機器との通信を制御するインタフェースである。操作部18は、音声処理装置100を操作するためのインタフェースである。例えば、操作部18は、キーボードやマウス等である。音声処理装置100がタッチパネルを備える場合、表示装置15と操作部18とは、操作表示部として統合されても良い。なお、音声処理装置100は、本実施形態を実現するために、少なくともCPU12、RAM13、ROM14、表示装置15を備えていれば良い。
図2は、実施形態1に係る音声処理装置100の機能構成例を示すブロック図である。図2に示すように、音声処理装置100は、分割部101と、抽出部102と、分類部103と、類似度算出部104と、記憶部105と、特定部106と、生成部107と、出力制御部108とを有する。記憶部105以外の上記各部は、これらの一部又は全てがソフトウェア(プログラム)で実現されても良いし、ハードウェアで実現されても良い。かかる音声処理装置100は、音声入力装置16を用いた音声データや、予め生成された音声ファイル等のデータの入力をもとに、データに混在する複数の話者の発話を分類・特定するとともに話者モデルを学習し、処理結果を出力する。
分割部101は、音声データを分割する。より具体的には、分割部101は、入力された音声データが所定時間より長ければ、該音声データを分割する。発話の時間の長さが分割後の音声データよりも短い方が好ましく、一つの様態として、音声データは、一定時間ごとに分割されれば良い。すなわち、分割部101による処理は、ある程度長い時間の音声データを分割する際に実行される。換言すると、音声処理装置100に入力される音声データが、複数の音声データに予め分割されている場合は、分割部101による処理は省略される。
抽出部102は、発話データから音声特徴を抽出する。より具体的には、抽出部102は、分割部101によって分割された、話者による発話を含む音声データから、MFCC(Mel‐Frequency Cepstrum Coefficient)やLPC(Linear Predictive Coding)ケプストラム等を使用して、発話の特徴量を抽出する。
分類部103は、抽出された音声特徴をもとに、発話データを、話者毎の発話の集合に分類する。本実施形態では、話者毎の発話の集合を「クラスタ」と呼ぶ。分類の手法としては、階層的分類等を使用すれば良い。より具体的には、分類部103は、複数の発話データの中から、抽出部102によって抽出された音声特徴の距離がより近くなるデータの対を1のクラスタとして統合する。そして、分類部103は、生成したクラスタと残りの発話データとから、音声特徴の距離がより近いデータの対を探索していくことで、複数の話者ごとの発話データのクラスタそれぞれに分類する。クラスタは、データ間の音声特徴の距離が所定距離内である場合に1のクラスタとして統合される。
図3は、実施形態1に係る発話データの分類手法の例を説明する図である。例えば、図3に示すように、発話データとして、u、u、u、u、u、u、u、uの8つのデータを分類する場合を例に挙げる。分類部103は、発話データuと、他の発話データとの音声特徴の距離から、発話データuと発話データuとを1のクラスタ1(c)に分類する。そして、分類部103は、クラスタ1(c)と、残りの発話データとの音声特徴の距離を確認し、統合する発話データがあればクラスタ1(c)に統合する。図3の例では、クラスタ1(c)は、発話データuと発話データuとを統合したものとなる。続いて、分類部103は、発話データuと、残りの発話データとの音声特徴の距離から、発話データuと発話データuとを1のクラスタ2(c)に分類する。その後、分類部103は、クラスタ2(c)と、残りの発話データとの音声特徴の距離を確認し、統合する発話データがあればクラスタ2(c)に統合する。図3の例では、クラスタ2(c)は、発話データuと発話データuとを統合したものとなる。これらの処理を繰り返し実行することで、図3に示すように、発話データを複数のクラスタに分類する。
図2の説明に戻り、類似度算出部104は、集合に含まれる発話データの音声特徴と、複数の話者モデルそれぞれとの類似度を算出する。より具体的には、類似度算出部104は、分類部103によって分類されたクラスタに含まれる複数の発話データの音声特徴と、記憶部105に記憶された話者モデルとの類似度を算出する。記憶部105には、複数の話者モデルが記憶されている。類似度算出部104は、各クラスタに含まれる複数の発話データの音声特徴と、各話者モデルとの類似度を算出していく。但し、記憶部105は、全ての話者に対する話者モデルを記憶しているわけではない。後述するように、本実施形態では、既に記憶されている話者モデルを学習によりその精度を向上させるとともに、未知の話者の発話も新たな話者の話者モデルとして追加される。例えば、話者モデルは、ガウス混合モデル(GMM:Gaussian Mixture Model)によって表現されても良いし、i−vectorによって表現されても良い。本実施形態では、話者モデルに対する音声特徴の尤度を、音声特徴と話者モデルとの類似度として利用する。GMMは、例えば、「Douglas A,Reynolds et al,“Speaker Verification Using Adapted Gaussian Mixture Models”,Digital Signal Processing,Vol.10,2000,p.19‐41.」を参照のこと。また、i−vectorは、例えば、「Najim Dehak et al,“Front‐End Factor Analysis for Speaker Verification”,IEEE Trans on audio,speech,and language processing,vol.19,NO.4,2011,pp.788‐798.」を参照のこと。
図4は、実施形態1に係る類似度算出の例を説明する図である。図4に示す分類結果は、図3で説明した分類による結果である。また、現状では、記憶部105には、話者モデルmと、話者モデルmとの2つが記憶されているものとする。例えば、図4に示すように、類似度算出部104は、クラスタ1(c)の発話データuと、話者モデルmとの類似度「D(u,m)=0.8」を算出する。また、類似度算出部104は、クラスタ1(c)の発話データuと、話者モデルmとの類似度「D(u,m)=0.1」を算出する。また、類似度算出部104は、クラスタ1(c)の発話データuと、話者モデルmとの類似度「D(u,m)=0.7」を算出する。また、類似度算出部104は、クラスタ1(c)の発話データuと、話者モデルmとの類似度「D(u,m)=0.2」を算出する。このようにして、類似度算出部104は、クラスタ2(c)に含まれる各発話データと各話者モデルとの類似度、クラスタ3(c)に含まれる各発話データと各話者モデルとの類似度、クラスタ4(c)に含まれる各発話データと各話者モデルとの類似度についても算出する。
図2の説明に戻り、特定部106は、算出された類似度に基づいて、集合ごとに話者を特定する。より具体的には、特定部106は、同一のクラスタに分類された全ての発話データと、話者モデルとの類似度について重みを付け、これらの和を求める。例えば、重み付けは、より短い時間での発話に対し、重みをより小さくする。すなわち、短い時間での発話は、時間が短いことによる揺らぎから特徴の変動が大きく、類似度の信頼性が低くなることが多いため、重みをより小さくする。また、例えば、重み付けは、分類の精度がより低い発話に対し、その重みをより小さくする。すなわち、分類部103による分類で誤りが発生し、同一のクラスタに異なる話者の発話が混在している可能性があるため、類似度がより低い発話については、その重みをより小さくする。そして、特定部106は、類似度の重み付き和が所定の閾値以上であるクラスタの話者を話者モデルに対応する話者として特定する。類似度の重み付き和が所定の閾値以上であるクラスタが複数存在する場合は、類似度が最も大きいクラスタを、話者モデルに対応する話者として特定すれば良い。
図5は、実施形態1に係るクラスタの話者を特定する例を説明する図である。例えば、図5に示すように、特定部106は、クラスタ1(c)について、話者モデルmとの類似度の重み付き和「D(c,m)=0.77」を求める。図5に示す例では、発話データuと話者モデルmとの類似度の重みαが「1」、発話データuと話者モデルmとの類似度の重みαが「0.5」となっている。そして、特定部106は、求めた重み付き和「D(c,m)=0.77」が、所定の閾値(例えば、0.5)以上であれば、クラスタ1(c)の話者を話者モデルmの話者Aとして特定する。特定部106は、クラスタ2〜クラスタ4についても同様の処理を実行する。これらにより、クラスタ2(c)は話者Bとして特定され、クラスタ3(c)は未知の話者として特定され、クラスタ4(c)は未知の話者として特定される。ここで、クラスタ3(c)の話者と、クラスタ4(c)の話者とは、何れも未知の話者であるが、異なるクラスタに分類されているため、それぞれは異なる未知の話者(未知1、未知2)として特定されている。
図2の説明に戻り、生成部107は、類似度の重み付き和が所定の閾値未満である集合の話者を新たな話者として話者モデルを生成する。より具体的には、生成部107は、特定部106による話者の特定において、類似度の重み付き和が所定の閾値未満となった未知の話者のクラスタそれぞれを、記憶部105に記憶された話者モデルには存在しないものとして、クラスタ内の複数の発話の音声特徴を用いて、新たな話者モデルとして生成する。そして、生成部107は、生成した新たな話者モデルを記憶部105に格納する。話者モデルの学習方法については、GMMによる学習方法でも良いし、i−vectorによる学習方法でも良い。
図6は、実施形態1に係る話者モデルを学習する例を説明する図である。例えば、図6に示すように、生成部107は、クラスタ3(c)に対し、類似度の重み付き和が所定の閾値未満であることから、記憶部105に既に記憶された話者モデル(話者モデルm、話者モデルm)の何れにも該当しない場合に、未知の話者の一つとして話者モデルmを生成する。そして、生成部107は、生成した話者モデルmを新たな話者モデルとして記憶部105に格納する。生成部107は、未知2となったクラスタ4(c)に対しても、同様に、話者モデルmを新たな話者モデルとして記憶部105に格納する。このようにして、生成部107は、話者モデルを学習する。
ここで、特定部106や生成部107によって使用される閾値については、上述した使用例に限られるものではない。上記では、特定部106が、類似度の重み付き和が所定の閾値以上であるクラスタの話者を話者モデルに対応する話者として特定し、生成部107が、類似度の重み付き和が所定の閾値未満であるクラスタの話者を新たな話者として話者モデルを生成する場合を説明した。このほか、特定部106が、類似度の重み付き和が第1の閾値以上であるクラスタの話者を話者モデルに対応する話者として特定し、生成部107が、類似度の重み付き和が第1の閾値よりも小さい第2の閾値未満であるクラスタの話者を新たな話者として話者モデルを生成するようにしても良い。なお、例えば、第1の閾値は所定の閾値よりも大きく、第2の閾値は所定の閾値よりも小さいものとする。これらにより、前者の場合は、全てのクラスタについて話者(未知の話者を含む)を特定することができる。後者の場合は、ある程度高い閾値(第1の閾値)を話者モデルの特定に使用し、ある程度低い閾値(第2の閾値)を新たな話者モデルの生成条件に使用するので、より高精度に話者の特定を実現することができる。
図2の説明に戻り、出力制御部108は、話者の特定結果の出力を制御する。例えば、出力制御部108は、特定部106によって特定された話者の名称等と、対応する音声データの格納場所等とを表示装置15に出力するための制御を行なう。また、例えば、出力制御部108は、音声データの再生のための操作に応じて、指定された話者の音声データの再生のための制御を行なう。
図7は、実施形態1に係る音声処理装置100による処理の流れの例を示すフローチャートである。図7に示すように、音声処理装置100は、入力された音声データを一定時間ごと等に分割する(ステップS101)。そして、音声処理装置100は、分割された音声データそれぞれに含まれる発話の音声特徴を抽出する(ステップS102)。続いて、音声処理装置100は、抽出された音声特徴をもとに、分割された音声データに含まれる発話をクラスタに分類する(ステップS103)。その後、音声処理装置100は、クラスタに含まれる複数の発話の音声特徴と、記憶部105に記憶された話者モデルとの類似度を算出する(ステップS104)。
そして、音声処理装置100は、同一のクラスタに分類された全ての発話と、話者モデルとの類似度について重みを付けてこれらの和を求め、類似度の重み付き和が所定の閾値以上であるクラスタの話者を話者モデルに対応する話者として特定する(ステップS105)。続いて、音声処理装置100は、類似度の重み付き和が所定の閾値未満となった未知のクラスタそれぞれを、記憶部105に記憶された話者モデルには存在しないものとして、クラスタ内の複数の発話の音声特徴を用いて新たな話者モデルを生成し、生成した新たな話者モデルを記憶部105に格納することにより、話者モデルの学習を行なう(ステップS106)。その後、音声処理装置100は、話者の特定結果を表示装置15等に表示出力する(ステップS107)。
実施形態によれば、発話データの音声特徴を抽出し、抽出された音声特徴をもとに、複数の発話データを、異なる話者の発話のクラスタに分類し、クラスタに含まれる発話の音声特徴と、複数の話者モデルそれぞれとの類似度を算出して、算出された類似度の重み付き和から、クラスタごとに話者を特定するので、複数の話者の複数の発話データから、同一の話者の発話を特定することができる。
また、実施形態によれば、話者モデルに対応する話者としてクラスタを特定できない場合に、該クラスタを、話者モデルには存在しない新たな話者のクラスタとして特定するので、複数の新たな話者モデルを学習することができる。
(実施形態2)
図8は、実施形態2に係る音声処理装置200の機能構成例を示すブロック図である。実施形態2では、実施形態1に係る音声処理装置100の機能構成と同様の構成については同一の符号を付し、その詳細な説明を省略する場合がある。具体的には、以下に説明する統合部209以外の各部の機能は、実施形態1に係る各部の機能と同様である。なお、実施形態2に係る音声処理装置200のハードウェア構成は、実施形態1に係る音声処理装置100のハードウェア構成と同様である。
図8に示すように、音声処理装置200は、分割部101と、抽出部102と、分類部103と、類似度算出部104と、記憶部105と、特定部106と、生成部107と、出力制御部108と、統合部209とを有する。記憶部105以外の上記各部は、これらの一部又は全てがソフトウェア(プログラム)で実現されても良いし、ハードウェアで実現されても良い。
統合部209は、特定された話者が同一である集合を統合する。より具体的には、統合部209は、特定部106によって各クラスタに対応する話者が特定されたときに、同一の話者として特定されたクラスタそれぞれを、1のクラスタに統合する。これにより、生成部107は、統合部209によって統合されたクラスタをもとに、話者モデルを生成することになる。
以下、図9〜図12を用いて、実施形態2に係る音声処理装置200による処理を説明する。なお、同一の話者として特定されたクラスタそれぞれを1のクラスタに統合する処理以外は、実施形態1に係る音声処理装置100による処理と同様であるため、詳細な処理については説明を省略する。
図9は、実施形態2に係る発話データの分類の例を説明する図である。例えば、図9に示すように、分類部103によって、実際には同一の話者の異なる発話である発話データuと、発話データuとが、クラスタ2(c)と、クラスタ5(c)とに分類されたこととする。なお、発話データuと、発話データuとは、話者モデルmに対応する話者Bによる発話のデータであるものとする。
図10は、実施形態2に係る類似度算出の例を説明する図である。例えば、図10に示すように、クラスタ2(c)の発話データuと、話者モデルmとの類似度「D(u,m)=0.9」が類似度算出部104によって算出される。また、クラスタ5(c)の発話データuと、話者モデルmとの類似度「D(u,m)=0.8」が類似度算出部104によって算出される。
図11は、実施形態2に係るクラスタの話者を特定する例を説明する図である。例えば、図11に示すように、クラスタ2(c)について、話者モデルmとの類似度の重み付き和「D(c,m)=0.9」が特定部106によって求められる。なお、図11に示す例では、発話データuと話者モデルmとの類似度の重みαが「1」となっている。そして、求められた重み付き和が所定の閾値以上であることから、クラスタ2(c)の話者が話者モデルmの話者Bとして特定部106によって特定される。同様に、クラスタ5(c)について、話者モデルmとの類似度の重み付き和「D(c,m)=0.8」が特定部106によって求められる。なお、図11に示す例では、発話データuと話者モデルmとの類似度の重みαが「1」となっている。そして、求められた重み付き和が所定の閾値以上であることから、クラスタ5(c)の話者が話者モデルmの話者Bとして特定部106によって特定される。すなわち、クラスタ2とクラスタ5とは、特定された話者が同一である。
図12は、実施形態2に係るクラスタの統合の例を説明する図である。例えば、図12上段に示すように、クラスタ2とクラスタ5とが、特定部106によって同一の話者(話者B)に特定されているものとする。このとき、図12下段に示すように、統合部209は、特定部106によって同一の話者に特定されたクラスタ2とクラスタ5とを1のクラスタに統合する。図12では、クラスタ2とクラスタ5とを、1のクラスタ2に統合する場合を例に挙げている。
図13は、実施形態2に係る音声処理装置200による処理の流れの例を示すフローチャートである。なお、図13に示すステップS201〜ステップS205は、図7に示したステップS101〜ステップS105の処理と同様であるため、その説明を省略する。また、図13に示すステップS207及びステップS208は、図7に示したステップS106及びステップS107の処理と同様であるため、その説明を省略する。
図13に示すように、音声処理装置200は、特定された話者が同一のクラスタが存在する場合にこれらのクラスタを統合し、クラスタの分類結果を修正する(ステップS206)。この後、音声処理装置200は、クラスタの分類結果を修正した統合後のクラスタをもとに、話者モデルを学習し、処理結果を出力する。
実施形態によれば、同一の話者であると特定された異なるクラスタを統合するので、より高精度に話者の発話を特定することができるとともに、より高精度に複数の新たな話者モデルを学習することができる。
上記文書中や図面中等で示した処理手順、制御手順、具体的名称、各種のデータやパラメータ等を含む情報は、特記する場合を除いて任意に変更することができる。また、図示した装置の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、装置の分散又は統合の具体的形態は、図示のものに限られず、その全部又は一部を各種の負担や使用状況等に応じて、任意の単位で機能的又は物理的に、分散又は統合することができる。
また、上記実施形態に係る音声処理装置100や音声処理装置200は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることで実現することが可能である。実行されるプログラムは、上述してきた各機能を含むモジュール構成となっている。また、実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、CD−R、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供しても、ROM等に予め組み込んで提供しても良い。
また、上述した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。また、各実施形態は、内容を矛盾させない範囲で適宜組み合わせることが可能である。また、各実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 音声処理装置
101 分割部
102 抽出部
103 分類部
104 類似度算出部
105 記憶部
106 特定部
107 生成部
108 出力制御部

Claims (12)

  1. 発話データから、音声特徴を抽出する抽出部と、
    抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類する分類部と、
    前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出する類似度算出部と、
    算出された前記類似度に基づいて、前記集合ごとに話者を特定する特定部と
    を有する音声処理装置。
  2. 前記分類部は、音声特徴の距離がより近い発話データの対を1の集合とし、前記集合の発話データの音声特徴との距離がより近い残りの発話データを該集合に分類する処理を繰り返し実行する請求項1に記載の音声処理装置。
  3. 前記特定部は、前記類似度の重み付き和が第1の閾値以上である前記集合の話者を前記話者モデルに対応する話者として特定する請求項1又は2に記載の音声処理装置。
  4. 前記類似度の重み付き和が前記第1の閾値よりも小さい第2の閾値未満である前記集合の話者を新たな話者として話者モデルを生成する生成部をさらに有する請求項3に記載の音声処理装置。
  5. 前記特定部は、前記類似度の重み付き和が所定の閾値以上である前記集合の話者を前記話者モデルに対応する話者として特定する請求項1又は2に記載の音声処理装置。
  6. 前記類似度の重み付き和が前記所定の閾値未満である前記集合の話者を新たな話者として話者モデルを生成する生成部をさらに有する請求項5に記載の音声処理装置。
  7. 前記特定部は、より短い時間での発話に対し、前記類似度の重みをより小さくする請求項3〜6の何れか一つに記載の音声処理装置。
  8. 前記特定部は、分類の精度がより低い発話に対し、前記類似度の重みをより小さくする請求項3〜7の何れか一つに記載の音声処理装置。
  9. 特定された話者が同一である前記集合を統合する統合部をさらに有する請求項1〜8の何れか一つに記載の音声処理装置。
  10. 話者の特定結果の出力を制御する出力制御部をさらに有する請求項1〜9の何れか一つに記載の音声処理装置。
  11. 発話データから、音声特徴を抽出するステップと、
    抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類するステップと、
    前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出するステップと、
    算出された前記類似度に基づいて、前記集合ごとに話者を特定するステップと
    を含む音声処理方法。
  12. 音声処理装置に、
    発話データから、音声特徴を抽出するステップと、
    抽出された前記音声特徴をもとに、前記発話データを、話者毎の発話の集合に分類するステップと、
    前記集合に含まれる前記発話データの前記音声特徴と、複数の話者モデルそれぞれとの類似度を算出するステップと、
    算出された前記類似度に基づいて、前記集合ごとに話者を特定するステップと
    を実行させるための音声処理プログラム。
JP2015182325A 2015-09-15 2015-09-15 音声処理装置、音声処理方法及び音声処理プログラム Active JP6556575B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015182325A JP6556575B2 (ja) 2015-09-15 2015-09-15 音声処理装置、音声処理方法及び音声処理プログラム
US15/253,982 US10832685B2 (en) 2015-09-15 2016-09-01 Speech processing device, speech processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015182325A JP6556575B2 (ja) 2015-09-15 2015-09-15 音声処理装置、音声処理方法及び音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2017058483A true JP2017058483A (ja) 2017-03-23
JP6556575B2 JP6556575B2 (ja) 2019-08-07

Family

ID=58237026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015182325A Active JP6556575B2 (ja) 2015-09-15 2015-09-15 音声処理装置、音声処理方法及び音声処理プログラム

Country Status (2)

Country Link
US (1) US10832685B2 (ja)
JP (1) JP6556575B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022113218A1 (ja) * 2020-11-25 2022-06-02 日本電信電話株式会社 話者認識方法、話者認識装置および話者認識プログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311855B2 (en) * 2016-03-29 2019-06-04 Speech Morphing Systems, Inc. Method and apparatus for designating a soundalike voice to a target voice from a database of voices
US10347245B2 (en) * 2016-12-23 2019-07-09 Soundhound, Inc. Natural language grammar enablement by speech characterization
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치
EP3682443B1 (en) 2017-09-11 2024-05-15 Telefonaktiebolaget LM Ericsson (PUBL) Voice-controlled management of user profiles
WO2019048063A1 (en) 2017-09-11 2019-03-14 Telefonaktiebolaget Lm Ericsson (Publ) VOICE COMMAND MANAGEMENT OF USER PROFILES
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
US10847153B2 (en) * 2018-06-06 2020-11-24 Amazon Technologies, Inc. Temporary account association with voice-enabled devices
US11222641B2 (en) * 2018-10-05 2022-01-11 Panasonic Intellectual Property Corporation Of America Speaker recognition device, speaker recognition method, and recording medium
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
EP3982360A4 (en) * 2019-06-07 2022-06-08 NEC Corporation DEVICE AND METHOD FOR VOICE PROCESSING, AND NON-TRANSITORY COMPUTER READABLE MEDIA ON WHICH A PROGRAM IS STORED
KR20190118539A (ko) * 2019-09-30 2019-10-18 엘지전자 주식회사 발화 스타일을 고려하여 음성을 인식하는 인공 지능 장치 및 그 방법
KR20210053722A (ko) * 2019-11-04 2021-05-12 삼성전자주식회사 전자장치 및 그 제어방법
US11664044B2 (en) 2019-11-25 2023-05-30 Qualcomm Incorporated Sound event detection learning
AU2021254787A1 (en) * 2020-04-15 2022-10-27 Pindrop Security, Inc. Passive and continuous multi-speaker voice biometrics
US11410677B2 (en) 2020-11-24 2022-08-09 Qualcomm Incorporated Adaptive sound event classification

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181489A (ja) * 1998-12-10 2000-06-30 Oki Electric Ind Co Ltd 話者認識方法
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
JP2009237353A (ja) * 2008-03-27 2009-10-15 Fujitsu Ltd 関連付け装置、関連付け方法及びコンピュータプログラム
JP2010032792A (ja) * 2008-07-29 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP2012118251A (ja) * 2010-11-30 2012-06-21 Canon Inc 情報処理装置およびその動作方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7620547B2 (en) 2002-07-25 2009-11-17 Sony Deutschland Gmbh Spoken man-machine interface with speaker identification
EP1387350A1 (en) 2002-07-25 2004-02-04 Sony International (Europe) GmbH Spoken man-machine interface with speaker identification
EP1639579A1 (fr) 2003-07-01 2006-03-29 France Telecom Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs
US20090106025A1 (en) 2006-03-24 2009-04-23 Pioneer Corporation Speaker model registering apparatus and method, and computer program
JP4964204B2 (ja) 2008-08-27 2012-06-27 日本電信電話株式会社 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
JP5326892B2 (ja) * 2008-12-26 2013-10-30 富士通株式会社 情報処理装置、プログラム、および音響モデルを生成する方法
JP5229124B2 (ja) 2009-06-12 2013-07-03 日本電気株式会社 話者照合装置、話者照合方法およびプログラム
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181489A (ja) * 1998-12-10 2000-06-30 Oki Electric Ind Co Ltd 話者認識方法
JP2009025411A (ja) * 2007-07-17 2009-02-05 Yamaha Corp 音声認識装置およびプログラム
JP2009237353A (ja) * 2008-03-27 2009-10-15 Fujitsu Ltd 関連付け装置、関連付け方法及びコンピュータプログラム
JP2010032792A (ja) * 2008-07-29 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP2012118251A (ja) * 2010-11-30 2012-06-21 Canon Inc 情報処理装置およびその動作方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022113218A1 (ja) * 2020-11-25 2022-06-02 日本電信電話株式会社 話者認識方法、話者認識装置および話者認識プログラム

Also Published As

Publication number Publication date
JP6556575B2 (ja) 2019-08-07
US20170076727A1 (en) 2017-03-16
US10832685B2 (en) 2020-11-10

Similar Documents

Publication Publication Date Title
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US9558741B2 (en) Systems and methods for speech recognition
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
US20200082808A1 (en) Speech recognition error correction method and apparatus
US20140025382A1 (en) Speech processing system
US20120271631A1 (en) Speech recognition using multiple language models
US9886947B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
JP2015206906A (ja) 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US11170763B2 (en) Voice interaction system, its processing method, and program therefor
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP2013167666A (ja) 音声認識装置、音声認識方法、及びプログラム
JP6556381B2 (ja) モデル学習装置及びモデル学習方法
US20220392439A1 (en) Rescoring Automatic Speech Recognition Hypotheses Using Audio-Visual Matching
JP6632764B2 (ja) 意図推定装置及び意図推定方法
US8751236B1 (en) Devices and methods for speech unit reduction in text-to-speech synthesis systems
JPWO2010050414A1 (ja) モデル適応装置、その方法及びそのプログラム
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP2015060210A (ja) データ収集装置、音声対話装置、方法およびプログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
JP5980101B2 (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
JP6674876B2 (ja) 補正装置、補正方法及び補正プログラム
JP2015200913A (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190710

R151 Written notification of patent or utility model registration

Ref document number: 6556575

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151