JP2005321530A - 発話識別装置および発話識別方法 - Google Patents

発話識別装置および発話識別方法 Download PDF

Info

Publication number
JP2005321530A
JP2005321530A JP2004138619A JP2004138619A JP2005321530A JP 2005321530 A JP2005321530 A JP 2005321530A JP 2004138619 A JP2004138619 A JP 2004138619A JP 2004138619 A JP2004138619 A JP 2004138619A JP 2005321530 A JP2005321530 A JP 2005321530A
Authority
JP
Japan
Prior art keywords
data
voice data
audio data
feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004138619A
Other languages
English (en)
Inventor
Hideharu Fujiyama
英春 藤山
Masafumi Nagai
雅文 永易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004138619A priority Critical patent/JP2005321530A/ja
Publication of JP2005321530A publication Critical patent/JP2005321530A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 事前に声紋などの特徴データを作成すること無しに、簡易な方法で、話者ごとに音声データを分離して・ファイル化することなどを可能とする発話識別装置および発話識別方法を提供する。
【解決手段】 音声データ群の特徴を抽出して特徴抽出音声データ(VP1 〜VPn )を生成し、特徴抽出音声データと音声データ(WA1 〜WAn )とを比較し、一致またはほぼ一致しているとき第1照合度を更新し、第1照合度が所定の値以上のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データ(+VP1 〜+VPn )を生成する。強化された特徴抽出音声データ(+VP1 〜+VPn )にラベルに対して音声データをクラスタリングして同じ特性を示す音声データごとに分類する。
【選択図】 図4

Description

本発明は、発話者を特定するため、発話を識別する装置と方法に関する。
たとえば、会議の議事録を作成する場合など、発話者ごとの音声データを分類・整理して記録することが要望されている。そのような用途には、連続的な音声データから発話者を特定し、特定した話者の音声データごと分類する技術が必要となる。
人間の発話を分析して話者を特定するには、通常、話者認証技術、たとえば、事前に話者の特徴データ(声紋データなど)を作成し、作成した特徴データを記憶装置内にデータベース化しておいている。
会議の議事録を作成するとか、発話者の発話内容を確認したというセキュリティの高さを必要とされない場合など比較的簡易な装置に話者を特定して各話者ごと音声データを分類するような場合、換言すれば、セキュリティ用途以外に話者認証技術を応用しようとすると特徴データなどを事前に準備する必要があり、手間と時間がかかり、発話識別装置の価格が高くなるという問題に遭遇している。
したがって、話者認証技術など複雑な手段を用いずに、手軽に利用可能な発話識別装置音声データ発話識別方法が要望されている。
本発明の目的は、あらかじめ音声ファイルとして保存されている音声データを処理するものであるが、事前に声紋などの特徴データを作成すること無しに、簡易な方法で、話者ごとに音声データを分離して・ファイル化することなどを可能とする発話識別装置および発話識別方法を提供することにある。
本発明の第1の観点によれば、複数の話者の連続的な音声データを、所定期間の音声データ群または所定量の音声データ群に分割する音声データ分割手段と、上記分割した各音声データ群の特徴を抽出して特徴抽出音声データを生成する特徴抽出手段と、上記生成された特徴抽出音声データと音声データとを比較し、または、上記生成された特徴抽出音声データと他の特徴抽出音声データとを比較し、一致またはほぼ一致しているとき第1照合度を更新し、該第1照合度が所定の値以上のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データを生成する、特徴抽出音声データ強化手段と、上記生成された強化された特徴抽出音声データにラベルに対して音声データリストを生成し、音声データまたは特徴抽出音声データに対する比較データリストを生成し、上記音声データリスト内の強化された特徴抽出音声データと上記比較データリスト内のデータとを比較し、一致またはほぼ一致しているとき第2照合度を更新し、該第2照合度が一定値以上のとき、上記音声データを上記音声データリスト内に移動させる音声データ分析手段とを具備する、発話識別装置が提供される。
本発明の第2の観点によれば、複数の話者の連続的な音声データを、所定期間の音声データ群または所定量の音声データ群に分割する音声データ分割ステップと、上記分割した各音声データ群の特徴を抽出して特徴抽出音声データを生成する特徴抽出ステップと、上記生成された特徴抽出音声データと音声データとを比較し、または、上記生成された特徴抽出音声データと他の特徴抽出音声データとを比較して第1照合度を求め、所定の値以上の照合度のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データを生成する、特徴抽出音声データ強化ステップと、上記生成された強化された特徴抽出音声データにラベルに対して音声データリストを生成し、音声データまたは特徴抽出音声データに対する比較データリストを生成し、上記音声データリスト内の強化された特徴抽出音声データと上記比較データリスト内のデータとを比較照合し、一致またはほぼ一致しているとき第2照合度を更新し、第2照合度か一定以上のとき、上記音声データを上記音声データリスト内に移動させる音声データ分析ステップとを具備する、発話識別方法が提供される。
本発明の発話識別装置および発話識別方法によれば、発話者ごとにその発話者の音声データを分類できる。
特に、本発明の発話識別装置および音声データ発話識別方法によれば、所定期間の生の音声データの特徴を抽出して発話者を識別するのではなく、特徴抽出音声データ列に対して信頼性を高めるための強化処理を行っているので、信頼性高く発話識別が可能になる。
本発明の発話識別装置および発話識別方法においては無効データを排除した有効な音声データ列について識別処理を行うので、ノイズによる誤識別を回避でき、または、無声音の処理を行わずにすむ。
本発明の発話識別装置および発話識別方法における特徴抽出処理は、所定期間、たとえば、発話者の平均的な1話に相当する数秒程度の音声データについて行う。したがって、特徴抽出処理が短時間で行うことができるし、特徴抽出手段内のメモリ容量が少なくて済むなど、特徴抽出手段の構成が簡単になる。
本発明の発話識別装置および発話識別方法においては、声紋を登録するなど、音声識別のために事前に特別なデータを求め、それを用いるという複雑な処理を行わない。よって、簡単かつ容易に実用化できる。
本発明の発話識別装置および発話識別方法の実施の形態を述べる。
図1は本発明の発話識別装置10の概要を示す図である。
発話識別装置10には、複数(n)の発話者のディジタル音声データが時系列的に入力され、発話識別装置10は、所定の周期で入力された発話者のディジタル音声データを音声分析処理して、発話者の音声を識別し(分類し)、識別した発話者ごと区別して、たとえば、図2に例示したように、3人(A〜C)の話者の発話を区別して、音声データを出力する。
図2は、発話識別装置10によって、Aさん、Bさん、Cさんの音声が識別されて、Aさん、Bさん、Cさんごとに音声データが分類され、分類された音声データの波形が出力装置、たとえば、図3を参照して後述する表示装置16に二次元状かつ時系列的に表示した例を示している。
横軸に時間を示している。よって、たとえば、会議の議事録として記録されている入力音声データを発話識別装置10において識別した結果について表示装置16に表示させ、表示装置16においてスライダSによって時間を指定すると、スライダSで指定された時間から音声データが再生されて、会議の議事の整理、あるいは、発話者の発話内容の確認をすることが容易になる。
発話識別装置10において識別するのは、連続的に入力された音声データの話者の相違から話者を識別し、識別した話者に対応した音声データを分類していくのであって、たとえば、事前に識別対象の話者の声紋を登録しておいて、声紋が一致する登録されている話者が誰であるかという話者の特定はしない。要するに、発話識別装置10は同じ音声データを発話した話者ごと、音声データを分類していくだけである。
すなわち、発話識別装置10は、第1の話者または話者A、第2の話者または話者B、第3の話者または話者Cのように、話者を「識別」するだけであり、たとえば、声紋を照合として、話者Aは「織田信長」、話者Bは「豊臣秀吉」、話者Cは「徳川家康」などという個人名まで「特定」しない。本発明においては話者ごとの音声データを識別できればよいからである。
換言すれば、発話識別装置10は話者の識別までに止め、声紋などを用いて話者名まで特定しないので、複数の話者の音声データの分類に対して、簡便に、かつ、広く活用できる(汎用性を示す)。
以下、図1および図2を参照して述べた処理の詳細を述べる。
図3は図1の発話識別装置10の構成を示す図である。
図1および図2を参照して処理の概要を述べた発話識別装置10は、演算処理装置11と、半導体メモリ12と、大規模容量記憶装置13と、音声データ入力装置14と、音声データ出力装置15とバス19とを有している。
発話識別装置10に、表示装置16および音声出力装置17を付加することができる。
演算処理装置11、半導体メモリ12、大規模容量記憶装置13、音声データ入力装置14、処理音声データ出力装置15、表示装置16および音声出力装置17はバス19を介して接続されている。
発話識別装置10は、たとえば、コンピュータを用いて構成される。
演算処理装置11は、たとえば、コンピュータの中央演算処理ユニット(CPU)であり、大規模容量記憶装置13に格納されている分析処理プログラムなど各種の発話識別プログラムに従って、音声データ入力装置14から入力された複数の発話者のディジタル音声データを、一旦、ファイル形式で大規模容量記憶装置13に格納した音声ファイルを参照して後述する識別処理を行い、識別した結果を、発話者ごとに分離して、処理音声データ出力装置15に出力する。
大規模容量記憶装置13は、たとえば、ハードディスク装置であり、演算処理装置11において発話識別処理のために動作する分析処理プログラムなどの各種プログラム、発話識別処理に使用する音声データを音声ファイルとして格納する。
半導体メモリ12は高速動作のメモリ、たとえば、高速度ランダムアクセスメモリ(RAM)である。半導体メモリ12には、演算処理装置11で動作するプログラムが大規模容量記憶装置13から転送されたり、音声データ入力装置14から入力された識別対象の音声データが一時的に保存されたり、大規模容量記憶装置13に格納されている音声ファイルのうち該当する音声ファイルが転送されたり、演算処理装置11で処理した結果が一時的に保存されたり、演算処理装置11の処理結果を処理音声データ出力装置14に出力するときに一時的に転送される。
処理音声データ出力装置15は、ランダムアクセス可能な記録媒体、たとえば、ハードディスク装置、あるいは、会議議事録記録装置であり、演算処理装置11から識別されて出力された音声データを、発話者ごとに区別(分離)して記録する。
表示装置16は、たとえば、液晶表示器であり、図2に例示した発話識別装置10の処理結果、および、発話識別装置10の動作状態を表示する、たとえば、後述するエラー情報の表示などに使用される。
音声出力装置17は、識別した音声データを音声として再生するための装置であり、たとえば、コーデックとスピーカとを有する。
図4は発話識別装置10の処理流れを示すフローチャートである。
図4の各ステップの処理内容の説明の前に、前提条件を記す。
前提条件
(1)大規模容量記憶装置13に格納されており、演算処理装置11で動作する、分析処理プログラムは、一つもしくは複数の音声データから特徴データを生成できる処理内容(処理機能)を持つ。
(2)上記分析処理プログラムは演算処理装置11がステップ3において生成する「特徴音声データ」と「生の音声データ」、もしくは、「特徴音声データ」と「他の特徴抽出音声データ」とを比較して、分析処理プログラム内部で定義されている「測度」を用いて「照合度」を算出できる。
ここで、照合度とは比較した特徴抽出音声データと生の音声データ(または有効な音声データ)、もしくは、特徴抽出音声データと他の特徴抽出音声データの発話者が同一と認められるかを決定するための値で、本発明の実施の形態では照合度の値が高いほど同一の発話者である可能性が高いとする。
また「生の音声データ」とは、音声データ入力装置14から読み込んで大規模容量記憶装置13に格納されていて、まだ下記の信号処理されていない音声データをいう。有効な音声データとは、生の音声データからノイズ、無声音など、本発明に識別に使用しないデータを削除したものをいう。
特徴抽出音声データとはステップ3において生の音声データまたは有効な音声データについて特徴抽出を行った音声データをいう。
(3)特徴抽出音声データの生成に用いた生の音声データ(または有効な音声データ)のデータ量が多い程、算出される照合度の信頼性が高い。
以下、図4の各ステップの処理内容について述べる。
ステップ1:音声データの事前格納
発話識別装置10において、演算処理装置11は大規模容量記憶装置13に格納された音声データ入力処理プログラムに従って、音声データ入力装置14からディジタル音声データを連続的に入力し、大規模容量記憶装置13に音声データファイルとして事前に格納しておく。
すなわち、本実施の形態においては、予め音声データ入力装置14からディジタル音声データを大規模容量記憶装置13に音声データファイルとして保存しておく。なお、実時間で連続的に入力される音声データを大規模容量記憶装置13に一旦格納することなく、音声データ入力装置14から連続的に入力される音声データについて下記の処理を行うこともできるが、以下、事前に大規模容量記憶装置13に格納されたディジタル音声データについて識別処理を行う場合について例示する。
ステップ2:音声データの有効性チェック
演算処理装置11は、大規模容量記憶装置13に格納されている分析処理プログラムに従って、大規模容量記憶装置13に格納されている音声データファイルのうち、処理の対象となるファイルを半導体メモリ12に転送し、下記の処理を行う。
音声データファイルが存在すれば、演算処理装置11は分析処理プログラムに従って、下記に述べるステップ3〜6の処理、すなわち、ステップ3の前処理、ステップ4の特徴抽出音声データの強化処理、ステップ5の強化した特徴抽出音声データによる音声データ分析処理、ステップ6の分析による識別音声データの保存処理を行う。
音声データファイルが存在しなければ、演算処理装置11は分析処理プログラムに従って、ステップ8におけるエラー情報の出力処理を、たとえば、表示装置16に行う。
ステップ3:前処理
図5および図6を参照して、ステップ3の前処理について述べる。
図5はステップ3の前処理詳細を示すフローチャートである。
図6は、例示的な生の音声データRA1 〜RAm の波形図であり、期間t1〜t2の後半のt21までは周波数f1〜f2の音声データが存在し、期間t21〜t31までは周波数f3〜f4の音声データが存在し、期間t31〜t5までは周波数f5〜f6の音声データが存在することを例示している。各黒線が音声データの振幅を示し、黒線の間隔が周波数を示している。
ステップ31、音声データファイルの転送
演算処理装置11は分析処理プログラムに従って、大規模容量記憶装置13に格納されている音声データファイルのうち、処理の対象となる音声データファイルを半導体メモリ12に転送する。
ステップ32:音声データの分割
演算処理装置11は分析処理プログラムに従って、半導体メモリ12に転送された音声データファイルを、図6に図解したように、所定期間τごと、または、一定量の音声データごとに分割する。
所定期間τとしては、たとえば、3秒とする。所定期間τは、話者の平均的な1話の時間を想定している。
τ=3秒の場合話者の音声データの平均周波数を200〜500Hzと仮定すると、3秒間に600〜1500個の音声データが存在する。
所定時間τは、通常、話者が連続して話す期間と、後述するステップ34における特徴抽出処理の負担軽減を考慮して規定している。
所定期間τが短かすぎると、音声データの不足で特徴抽出処理結果の精度が低くなるほか、一人の話者の識別が複数の期間に跨がることになる。他方、所定期間τが長すぎると、音声データは十分に存在するから特徴抽出処理結果の精度は高くなるが、処理時間が長くなり、所定期間τ内に複数の話者の音声データが混在することになり、話者の識別の困難さと識別した結果の音声データの分類が複雑になる。このように、所定期間τの決定は上述したことを勘案して決定する。
一定量の音声データについても、所定期間τの上記例示したデータ量になるような数、たとえば、600〜1500個程度のデータ量とする。
ステップ33:有効音声データの選出
好ましくは、演算処理装置11は分析処理プログラムに従って、図6に例示した生の音声データRA1 〜RAm から有効な音声データ列WA1 〜WAn を選出する(選択する)。
その選択方法としては、たとえば、0レベルの音声データの上下に判断基準L1、−L2を規定し、判断基準L1、−L2内の範囲の振幅が生の音声データRAが所定期間継続しているとき無効音声データとして排除し、排除した残りの音声データを1 〜RAm を選択する。あるいは、図6に破線で図解したように、生の音声データRA1 〜RAm の包絡線検波をとり、包絡線検波信号のレベルが所定期間、たとえば、所定期間τの1/5〜1/20程度継続した場合、無効音声データとして排除し、排除した残りの音声データを1 〜RAm を選択する。
無効音声データとしては、ノイズ、話者の音声データが存在しない場合などがある。図6の例示においては、期間t21〜t31の周波数f3〜f4のデータがノイズであり、無効音声データとして排除される。排除したデータについては以下、処理を行わない。
無効データを排除する意味は、もし,無効データがノイズの場合、ノイズ信号の不規則性によりステップ34における特徴抽出処理結果に基づく話者を識別する処理において誤識別を招く可能性があるからである。他方、無効データが無音性を示しているときは、そのような無音性データについて、後の処理を行うことは無駄になるからである。
本実施の形態はこのように、無効データを排除して、発話識別の信頼性と、無駄な処理の回避による処理効率を高めている。
図6の例示においては、期間t21〜t3の間のデータが無効データであり、期間t2〜t3の有効な音声データ列は、期間t21〜t3の間の無効データを排除したものになる。同様に、期間t3〜t31の間のデータが無効データであり、期間t3〜t4の有効な音声データ列は、期間t3〜t31の間の無効データを排除したものになる。
以下の記述においては好適実施の形態として、有効な音声データ列WA1 〜WAn を用いた場合について述べる。ただし、有効な音声データ列WA1 〜WAn
に代えて生の音声データRA1 〜RAm を用いることもできる。
ステップ34、有効な音声データ列の特徴抽出
演算処理装置11は分析処理プログラムに従って、各期間τ内の有効な音声データ列WA1 〜WAn について、特徴抽出処理を行う。
特徴抽出処理としては、たとえば、有効な音声データ列WA1 〜WAn について高速フーリエ変換(FFT)処理を施してパワースペクトルを演算する。あるいは、有効な音声データ列WA1 〜WAn について相互相関処理を行う。
所定期間τ、たとえば、3秒の有効な音声データ列WA1 〜WAn についてのFFT処理、相互相関処理は、コンピュータを用いた演算処理装置11にとっては比較的容易な処理である。
このような特徴抽出処理によって、特徴抽出音声データ列VP1 〜VPn が生成されて、半導体メモリ12に保持される他、大規模容量記憶装置13に格納される。
ステップ4:特徴抽出音声データの強化処理
演算処理装置11は分析処理プログラムに従って、生成された特徴抽出音声データ列VP1 〜VPn の強化処理を行う。
音声処理においては、通常、このように生成された特徴抽出音声データ列VP1 〜VPn に基づいて識別処理を行う場合もある。しかしながら、本実施の形態においては特徴抽出音声データ列VP1 〜VPn のみで話者の識別は行わず、下記の強化処理を行う。
強化処理を行う理由は、たとえば、所定期間τ=3秒の生の音声データRA1
〜RAm から無効データを排除した有効な音声データ列WA1 〜WAn について求めた特徴抽出音声データ列VP1 〜VPn のみを用いて話者識別を行うにはデータ量として十分でない場合があり、話者識別の信頼度を高めるために、下記の強化処理を行う。
図7は特徴抽出音声データ列VP1 〜VPn の強化処理を示すフローチャートである。
特徴抽出音声データ列VP1 〜VPn の強化処理の概要を述べる。
(1)ある特徴抽出音声データ列VPi に対応する同一音声データの集合Si
を生成し(ステップ42)、
(2)特徴抽出音声データVPi と有効な音声データWAi との比較、または、ある特徴抽出音声データVPi と他の特徴抽出音声データVPj とを比較して、一致またほぼ一致しているとき、第1照合度として1を加算して第1照合度を更新し(ステップ44)、
(3)第1照合度が一定値以上の場合、同一音声データの集合Si に有効な音声データWAj 、若しくは、特徴抽出音声データVPi に対応する有効な音声データWAj を追加して、同一音声データの集合Si を生成し、
(4)以上の処理を特徴抽出音声データ列VP1 〜VPn について行う(ステップ48)。
このように、特徴抽出音声データ列VP1 〜VPn について照合度を求めて、照合度が所定以上の場合、同一話者の音声データとして識別する。
以下、図7の詳細処理を述べる。
ステップ41、第1インデックスiの初期値設定
演算処理装置11は分析処理プログラムに従って、ステップ42〜49との間をループ処理を行うための第1インデックスiを1に設定する。
ステップ42、特徴抽出音声データ列に対応する同一音声データの集合の生成 演算処理装置11は分析処理プログラムに従って、上記今回生成されたある期間の有効な音声データ列WA1 〜WAn についての特徴抽出音声データ列VP1
〜VPn のある特徴抽出音声データVPi に対し、以前に求めた特徴抽出音声データと同一の音声データの集合Si を生成する。
ステップ43、第2インデックスjの初期値設定
演算処理装置11は分析処理プログラムに従って、ステップ44〜47との間をループ処理を行うための第2インデックスjを1に設定する。
ステップ44、比較照合
演算処理装置11は分析処理プログラムに従って、特徴抽出音声データVPi
と有効な音声データWAj 、もしくは、特徴抽出音声データVPi と対応する特徴抽出音声データVPj とを比較照合する。
これらの比較照合の結果、両者が一致またはほぼ一致しているとき、その特徴抽出音声データVPi の第1照合度に1を加えて第1照合度の値を更新する。このように、上記比較照合の結果、一致またはほぼ一致しているときは、その特徴抽出音声データVPi の第1照合度の値が大きくなっていく。
ステップ45、照合度のチェック
演算処理装置11は分析処理プログラムに従い、ステップ44における比較の結果得られた第1照合度が一定の値以上であれば、比較したデータは同一の人間の発話と推定して、ステップ46の処理に移行する。
ステップ46、音声データの追加
演算処理装置11は分析処理プログラムに従って、同一の人間の発話と推定された音声データ、すなわち、有効な音声データWAi (特徴抽出音声データの場合は対応する有効な音声データ) を特徴抽出音声データに対応する同一音声集合Si に追加する。
この処理の結果得られた同一音声集合Si 内の音声データ全てを利用して、同一音声集合Si に対応する特徴抽出音声データを強化した特徴抽出データを生成する。このようにして、特徴抽出音声データ列VP1 〜VPn に対して強化された特徴抽出音声データ+VP1 〜+VPn が生成される。
ステップ47、47A、反復処理
演算処理装置11は分析処理プログラムに従って、インデックスjがnまで到達したか否かをチェックし、到達していない場合はインデックスjに1を加算してステップ44からの処理を反復する。インデックスjがnまで到達した場合は、ステップ48の処理に移行する。
ステップ48、演算処理装置11は同一の音声データの集合Si の全ての音声データ(有効な音声データ列WA1 〜WAn )を用いて強化された特徴抽出音声データ+VPi を生成する。
ステップ49、49A、反復処理
演算処理装置11は分析処理プログラムに従って、インデックスjがnまで到達したか否かをチェックし、到達していない場合はインデックスiに1を加算してステップ42からの処理を反復する。インデックスiがnまで到達した場合は、ステップ4の処理を終了する。
以上により強化された特徴抽出音声データ+VP1 〜+VPn が得られる。
ステップ5、強化した特徴抽出音声データによる音声データ分析処理
図8はステップ5の詳細処理を示すフローチャートである。
ステップ5の処理内容の概要を述べる。ステップ5の処理は基本的にクラスタリング処理である。
(1)強化された特徴抽出音声データ+VP1 〜+VPn を対応する同一の音声データの集合S1 〜Sn の要素数で降順(小さいほうから大きくなるほうへの順序)で分類し(ステップ51)、
(2)強化された特徴抽出音声データ+VP1 〜+VPn についてラベルLVPi を付与し(ステップ52)、
(3)有効な音声データ列WA1 〜WAn または特徴抽出音声データ列VP1
〜VPn で比較データリストを生成し(ステップ53)、
(4)ラベルLVPi に対して音声データリストLi を生成し(ステップ55)、
(5)ラベルLVPi に対応する強化された特徴抽出音声データ+VP1 〜+VPn と比較データリスト内の各有効な音声データ列WA1 〜WAn と特徴抽出音声データ列VP1 〜VPn の各データとを比較して、一致またはほぼ一致しているときは第2照合度を更新し(ステップ56)、
(6)第2照合度が一定値以上の比較データリスト内の有効な音声データ列WA1 〜WAn または特徴抽出音声データ列VP1 〜VPn に対応する有効な音声データ列WA1 〜WAn を音声データリストLi に移動して分離する(ステップ57)。
このようにして、音声データリストLi ごとに、有効な音声データ列WA1 〜WAn が分類される。
以下、図8の処理の詳細を述べる。
ステップ51、分類
演算処理装置11は分析処理プログラムに従って、ステップ4の処理の結果生成された強化された特徴抽出音声データ+VP1 〜+VPn を対応する同一音声集合の要素数の降順で分類(ソート)する。
ステップ52、ラベル付与
演算処理装置11は分析処理プログラムに従って、ステップ51において分類された強化された特徴抽出音声データ+VP1 〜+VPn に対し、分類順(ソート順)にラベルLVP1 〜LVPn を付与する。
ステップ53、データリスト付与
演算処理装置11は分析処理プログラムに従って、有効な音声データ列WA1
〜WAn もしくは対応する特徴抽出音声データ列VP1 〜VPn で比較データリストを生成する。
ステップ54〜59、59A、反復処理
演算処理装置11は分析処理プログラムに従ってインデックスiについて1〜nまで下記の反復処理を行う。
(1)ラベルLVP1 〜LVPn のインデックス順に音声データリストLi を生成し(ステップ55)、
(2)音声データリストLi 内の有効な音声データ列WA1 〜WAn または特徴抽出音声データ列VP1 〜VPn と、比較データリスト内の有効な音声データ列WA1 〜WAn または特徴抽出音声データ列VP1 〜VPn と比較する(ステップ56)。両者の音声データとの比較の結果、一致またはほぼ一致したときは照合度を1つ加算する。
(3)得られた照合度が一定の値以上であれば、その音声データ(特徴抽出音声データの場合は対応する音声データ) を、比較データリストからそのラベルLVPi のインデックスに対応する音声データリストLi に移動して分離する(ステップ57)。
分析処理プログラムは、上述した処理を比較データリスト内のデータが空になるまで行う。
なお一般に、特徴抽出データとその特徴抽出データを生成した音声データ(有効な音声データ列WA1 〜WAn )を分析処理プログラムを用いて比較すると第2照合度は同一の人間の発話とみなすに十分な値となるので、比較データリストが空にならないことはない。
ステップ6、分析による識別音声データの保存処理
演算処理装置11は分析処理プログラムに従って、ステップ5の処理の結果得られた話者ごとの音声データリストLi に対して、たとえば、ハードディスク装置として構成される、音声データ出力装置15の出力領域内に保存領域を確保して、音声データリストLi 内の音声データ(有効な音声データ列WA1 〜WAn
)を保存していく。
このように、本実施の形態によれば、音声データ入力装置14から入力される複数の話者の音声データが、各音声データリストLi 内に話者ごと分類された形態で、処理音声データ出力装置15に出力される。
なお、以上の説明においては音声データの識別処理を中心に述べたが、各音声データリストLi 内の有効な音声データ列WA1 〜WAn には時間データが付随している。よって、各音声データリストLi 内の有効な音声データ列WA1 〜WAn を時系列に並べることができる。
好ましくは、演算処理装置11はまた、図2に例示的に図解したように、音声データ出力装置15への出力結果を、表示装置16に横軸を時間軸として、音声データを話者ごとに分類してグラフィカルに表示することができる。
ユーザが、表示装置16のスライダSによって時間を指定すると、演算処理装置11は指定された位置の時間から音声データ(有効な音声データ列WA1 〜WAn )を音声として出力することもできる。その場合は、もちろん、図3に破線で図解したコーデックとスピーカなどからなる音声出力装置17を付加する。
本実施の形態によれば、たとえば、会議における議事録を想定すると、単に話者ごとの音声ファイルを生成するだけでなく、誰が、いつ、どれくらい発話したのかを分析することが可能となるため、たとえば、図2に図解したGUIを持ったアプリケーションを作成することで、会議全体の様子をグラフィカルに把握することができ、聞きたいところに速やかにアクセスできる。
本発明の実施の形態の発話識別装置10は上述した例示に限らず、種々の変形態様をとることができる。
たとえば、上述した実施の形態は、音声データ入力装置14から一旦大規模容量記憶装置13に生の音声データRA1 〜RAm を格納したのち、オフライン的の処理を行う場合について述べたが、音声データ入力装置14から生の音声データRA1 〜RAm を入力しながら実時間で上述した処理を行うこともできる。
ステップ34の特徴抽出音声データ列VP1 〜VPn の生成法としては、上述した例示に限らず、信号の特徴を抽出する他の方法を適用することができる。
所定期間τ=3秒としたのは例示に過ぎず、状態に応じて、他の時間に設定することができる。
上述した実施の形態においては、生の音声データRA1 〜RAm からノイズまたは無声音を排除した有効な音声データ列WA1 〜WAn について処理を行う場合について述べたが、生の音声データRA1 〜RAm について上述した処理を行うこともできる。
たとえば、ノイズは種々の周波数成分の集合は仮定できるから、ノイズについて特徴抽出を行うと、特定の成分は抽出されない。このような場合は、識別不可として、その後の信号処理から排除することができる。
無声音については、基本的に音が存在しないので、処理を行わない。
発話識別装置10によれば、下記の効果を奏する。
(1)発話者ごとにその発話者の音声データを分類できる。
特に、発話識別装置10によれば、所定期間の生の音声データの特徴を抽出して発話者を識別するのではなく、特徴抽出音声データ列に対して信頼性を高めるための強化処理を行っているので、信頼性高く発話識別が可能になる。
(2)発話識別装置10は無効データを排除した有効な音声データ列について識別処理を行うので、ノイズによる誤識別を回避でき、または、無声音の処理を行わずにすむ。
(3)発話識別装置10は、所定期間、たとえば、発話者の平均的な1話に相当する数秒程度の音声データについて行う。したがって、特徴抽出処理が短時間で行うことができるし、特徴抽出手段内のメモリ容量が少なくて済むなど、特徴抽出手段の構成が簡単になる。
(4)発話識別装置10は声紋を登録するなど、音声識別のために事前に特別なデータを求め、それを用いるという複雑な処理を行う必要がない。よって、発話識別装置10は簡単かつ容易に実用化できる。
図1は本発明の発話識別装置の概念図である。 図2は図1に図解した発話識別装置による処理結果の例を図解した図であり、Aさん、Bさん、Cさんの音声が識別されて、さらに、Aさん、Bさん、Cさんごとに音声データが分類され、分類された音声データの波形が出力装置に表示した例を示している。 図3は図1に図解した発話識別装置の構成図である。 図4は図3に図解した発話識別装置の処理の概要を図解したフローチャートである。 図5は図4に図解したステップ3の前処理詳細を示すフローチャートである。 図6は、例示的な音声データの波形図であり、期間t1〜t2の後半のt21までは周波数f1〜f2の音声データが存在し、期間t21〜t31までは周波数f3〜f4の音声データが存在し、期間t31〜t5までは周波数f5〜f6の音声データが存在することを例示しており、各黒線が音声データの振幅を示し、黒線の間隔が周波数を示している。 図7は図4に図解したステップ4における特徴抽出音声データ列の強化処理を示すフローチャートである。 図8は図4に図解したステップ5における強化した特徴抽出音声データによる音声データ分析処理を示すフローチャートである。
符号の説明
10…発話識別装置
11…演算処理装置
12…半導体メモリ
13…大規模容量記憶装置
14…音声データ入力装置
15…処理音声データ出力装置
16…表示装置
17…音声出力装置
19…バス
RA1 〜RAm …生の音声データ
WA1 〜WAn …有効な音声データ列
VP1 〜VPn …特徴抽出音声データ列
+VP1 〜+VPn …強化された特徴抽出音声データ
i …音声データリスト

Claims (12)

  1. 複数の話者の連続的な音声データを、所定期間の音声データ群または所定量の音声データ群に分割する音声データ分割手段と、
    上記分割した各音声データ群の特徴を抽出して特徴抽出音声データを生成する特徴抽出手段と、
    上記生成された特徴抽出音声データと音声データとを比較し、または、上記生成された特徴抽出音声データと他の特徴抽出音声データとを比較し、一致またはほぼ一致しているとき第1照合度を更新し、該第1照合度が所定の値以上のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データを生成する、特徴抽出音声データ強化手段と、
    上記生成された強化された特徴抽出音声データにラベルに対して音声データリストを生成し、音声データまたは特徴抽出音声データに対する比較データリストを生成し、上記音声データリスト内の強化された特徴抽出音声データと上記比較データリスト内のデータとを比較し、一致またはほぼ一致しているとき第2照合度を更新し、該第2照合度が一定値以上のとき、上記音声データを上記音声データリスト内に移動させる音声データ分析手段と
    を具備する、発話識別装置。
  2. 上記音声データ分割手段で分割した音声データについて、所定レベル以下の音声データが連続する場合、無効な音声データとして上記分割音声データ群から排除した有効な音声データのみを上記特徴音声データ抽出手段に入力する、無効音声データ排除手段をさらに具備し、
    前記音声データリスト内には上記有効な音声データが分類されている、
    請求項1に記載の発話識別装置。
  3. 上記音声データリスト内に分類された音声データを上記音声データリストごと出力する識別結果出力手段をさらに具備する、
    請求項1または2に記載の発話識別装置。
  4. 上記音声データリスト内に分類された音声データを二次元上にグラフィカルに表示する識別結果表示手段をさらに具備する、
    請求項1〜3のいずれかに記載の発話識別装置。
  5. 上記特徴抽出手段は、上記分割音声データ群内の音声データのパワースペクトルを算出して特徴音声データとする、
    請求項1または2に記載の発話識別装置。
  6. 上記特徴抽出手段は、上記分割音声データ群内の音声データ相互の相関を求めて特徴音声データとする、
    請求項1または2に記載の発話識別装置。
  7. 上記特徴音声データ強化手段は、
    上記各特徴抽出音声データに対応する同一音声データの集合を生成し、
    上記各特徴抽出音声データと上記有効な音声データとの比較、または、上記各特徴抽出音声データと他の特徴抽出音声データとを比較して、照合度を求め、 一定値以上の照合度の場合、同一音声データの集合に上記有効な音声データ若しくは上記特徴抽出音声データに対応する上記有効な音声データを追加して、同一音声データの集合を生成する、
    請求項2〜6のいずれかに記載の発話識別装置。
  8. 上記特徴抽出音声データ強化手段は、
    上記強化された特徴抽出音声データを対応する同一の音声データの集合の要素数で降順で分類し、
    上記強化された特徴抽出音声データについてラベルを付与し、
    上記有効な音声データまたは上記特徴抽出音声データで比較データリストを生成し、
    上記生成したラベルに対して音声データリストを生成し、
    上記ラベルに対応する上記強化された特徴抽出音声データと上記比較データリスト内の上記各有効な音声データと上記特徴抽出音声データとを比較して第2照合度を算出し、
    上記第2照合度が一定値以上の上記比較データリスト内の上記有効な音声データまたは上記特徴抽出音声データに対応する上記有効な音声データを上記音声データリストに移動させて分類する、
    請求項2〜7のいずれかに記載の発話識別装置。
  9. 複数の話者の連続的な音声データを、所定期間の音声データ群または所定量の音声データ群に分割する音声データ分割ステップと、
    上記分割した各音声データ群の特徴を抽出して特徴抽出音声データを生成する特徴抽出ステップと、
    上記生成された特徴抽出音声データと音声データとを比較し、または、上記生成された特徴抽出音声データと他の特徴抽出音声データとを比較して第1照合度を求め、所定の値以上の照合度のとき同一音声データの集合に分類し、各集合に分類された強化された特徴抽出音声データを生成する、特徴抽出音声データ強化ステップと、
    上記生成された強化された特徴抽出音声データにラベルに対して音声データリストを生成し、音声データまたは特徴抽出音声データに対する比較データリストを生成し、上記音声データリスト内の強化された特徴抽出音声データと上記比較データリスト内のデータとを比較照合し、一致またはほぼ一致しているとき第2照合度を更新し、第2照合度か一定以上のとき、上記音声データを上記音声データリスト内に移動させる音声データ分析ステップと
    を具備する、発話識別方法。
  10. 上記音声データ分割ステップにおいてで分割した音声データについて、所定レベル以下の音声データが連続する場合、無効な音声データとして上記分割音声データ群から排除した有効な音声データのみを上記特徴音声データ抽出手段に入力する、無効音声データ排除ステップをさらに具備し、
    前記音声データリスト内には上記有効な音声データが分類されている、
    請求項9に記載の発話識別方法。
  11. 上記音声データリスト内に分類された音声データを上記音声データリストごと出力する識別結果出力ステップをさらに具備する、
    請求項9または10に記載の発話識別方法。
  12. 上記音声データリスト内に分類された音声データを二次元上にグラフィカルに表示する識別結果表示ステップをさらに具備する、
    請求項9〜11のいずれかに記載の発話識別方法。
JP2004138619A 2004-05-07 2004-05-07 発話識別装置および発話識別方法 Pending JP2005321530A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004138619A JP2005321530A (ja) 2004-05-07 2004-05-07 発話識別装置および発話識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004138619A JP2005321530A (ja) 2004-05-07 2004-05-07 発話識別装置および発話識別方法

Publications (1)

Publication Number Publication Date
JP2005321530A true JP2005321530A (ja) 2005-11-17

Family

ID=35468882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004138619A Pending JP2005321530A (ja) 2004-05-07 2004-05-07 発話識別装置および発話識別方法

Country Status (1)

Country Link
JP (1) JP2005321530A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020458A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
JP2009237353A (ja) * 2008-03-27 2009-10-15 Fujitsu Ltd 関連付け装置、関連付け方法及びコンピュータプログラム
JP2014502374A (ja) * 2010-12-10 2014-01-30 パナソニック株式会社 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム
JP5959771B2 (ja) * 2014-06-27 2016-08-02 株式会社東芝 電子機器、方法およびプログラム
JP2016166927A (ja) * 2015-03-09 2016-09-15 日本電信電話株式会社 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
US9536525B2 (en) 2014-09-09 2017-01-03 Fujitsu Limited Speaker indexing device and speaker indexing method
CN110322872A (zh) * 2019-06-05 2019-10-11 平安科技(深圳)有限公司 会议语音数据处理方法、装置、计算机设备和存储介质
US10621990B2 (en) 2018-04-30 2020-04-14 International Business Machines Corporation Cognitive print speaker modeler
CN111341324A (zh) * 2020-05-18 2020-06-26 浙江百应科技有限公司 一种基于fasttest模型的识别纠错及训练方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020458A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
JP2009237353A (ja) * 2008-03-27 2009-10-15 Fujitsu Ltd 関連付け装置、関連付け方法及びコンピュータプログラム
JP2014502374A (ja) * 2010-12-10 2014-01-30 パナソニック株式会社 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム
JP5959771B2 (ja) * 2014-06-27 2016-08-02 株式会社東芝 電子機器、方法およびプログラム
US10592198B2 (en) 2014-06-27 2020-03-17 Toshiba Client Solutions CO., LTD. Audio recording/playback device
US9536525B2 (en) 2014-09-09 2017-01-03 Fujitsu Limited Speaker indexing device and speaker indexing method
JP2016166927A (ja) * 2015-03-09 2016-09-15 日本電信電話株式会社 パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
US10621990B2 (en) 2018-04-30 2020-04-14 International Business Machines Corporation Cognitive print speaker modeler
CN110322872A (zh) * 2019-06-05 2019-10-11 平安科技(深圳)有限公司 会议语音数据处理方法、装置、计算机设备和存储介质
CN111341324A (zh) * 2020-05-18 2020-06-26 浙江百应科技有限公司 一种基于fasttest模型的识别纠错及训练方法

Similar Documents

Publication Publication Date Title
WO2020024690A1 (zh) 语音标注方法、装置及设备
US20180197548A1 (en) System and method for diarization of speech, automated generation of transcripts, and automatic information extraction
CN110503961B (zh) 音频识别方法、装置、存储介质及电子设备
JP2009511954A (ja) モノラルオーディオ信号からオーディオソースを分離するためのニューラル・ネットワーク識別器
JP2016509254A (ja) 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定
Sharma et al. On the Importance of Audio-Source Separation for Singer Identification in Polyphonic Music.
Koerich et al. Cross-representation transferability of adversarial attacks: From spectrograms to audio waveforms
CN110797032A (zh) 一种声纹数据库建立方法及声纹识别方法
JP2005321530A (ja) 発話識別装置および発話識別方法
Umar et al. Identification of speaker recognition for audio forensic using k-nearest neighbor
Patil et al. Combining evidences from mel cepstral features and cepstral mean subtracted features for singer identification
Rosenzweig et al. Detecting Stable Regions in Frequency Trajectories for Tonal Analysis of Traditional Georgian Vocal Music.
Hu et al. Singer identification based on computational auditory scene analysis and missing feature methods
Xu et al. Source separation improves music emotion recognition
Hockman et al. Computational strategies for breakbeat classification and resequencing in hardcore, jungle and drum and bass
Chowdhury et al. Deeptalk: Vocal style encoding for speaker recognition and speech synthesis
Zhang et al. A novel singer identification method using GMM-UBM
Viloria et al. Segmentation process and spectral characteristics in the determination of musical genres
WO2019053544A1 (en) IDENTIFICATION OF AUDIOS COMPONENTS IN AN AUDIO MIX
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム
Shirali-Shahreza et al. Fast and scalable system for automatic artist identification
Susan et al. Measuring the randomness of speech cues for emotion recognition
KR20200118587A (ko) 음악의 내재적 정보를 이용한 음악 추천 시스템
WO2014155652A1 (ja) 話者検索システム、プログラム
Khemiri et al. A generic audio identification system for radio broadcast monitoring based on data-driven segmentation