JP2011053569A - 音響処理装置およびプログラム - Google Patents
音響処理装置およびプログラム Download PDFInfo
- Publication number
- JP2011053569A JP2011053569A JP2009204144A JP2009204144A JP2011053569A JP 2011053569 A JP2011053569 A JP 2011053569A JP 2009204144 A JP2009204144 A JP 2009204144A JP 2009204144 A JP2009204144 A JP 2009204144A JP 2011053569 A JP2011053569 A JP 2011053569A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- phoneme
- section
- class
- acoustic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】音響処理装置において、音素認識部が入力される音響特徴量データに基づき音素認識を行なう。音素クラス分類部が音素情報に基づいて音素クラス別音響特徴量を生成する。そして、話者交替点検出部は、音素クラスに関連付けられた音響特徴量データを読み出し、時間区間を区切って得られる第1区間と第2区間のそれぞれに属する音響特徴量データについて、音素クラス毎の統計量を算出し、第1区間および第2区間に対応する複数の音素クラスの統計量をクラスタ分析処理することによって、第1区間と第2区間が別クラスタであると判定される場合に話者交替点を検出する。話者クラスタリング部は、蓄積された複数の音素クラスの統計量と、予め話者モデルとして記憶された複数の音素クラスの統計量とに基づくクラスタ分析処理で、話者を識別する。
【選択図】図1
Description
また、クラスタ分析処理としては、例えばベイズ情報量基準に基づくクラスタ分析を行う。具体的には、第1区間と第2区間を同一クラスタと見なす場合の統計量と別クラスタと見なす場合の統計量との差分に基づき、いずれであるかを判定する。
また、上記候補点を、音素境界の点の集合に限定するようにしても良い。
なお、話者の識別結果に基づき、判定対象区間で得られた統計量を用いて、話者モデル記憶部に記憶されている統計量を更新するようにしても良い。
また、クラスタ分析処理の結果、判定対象区間の統計量が、話者モデルに既に記憶されている各話者に対応するクラスタのいずれにも該当しないと判定された場合には、当該判定対象区間の話者を新規話者として判定結果を出力するようにしても良い。
また更に、判定対象区間の話者が新規話者であると判定された場合には、判定対象区間で得られた統計量を用いて、話者モデル記憶部に当該新規話者の統計量を新規登録するようにしても良い。
図1は、本実施形態による話者識別装置の機能構成を示すブロック図である。この図において、符号1は話者識別装置(音響処理装置)である。図示するように、話者識別装置1は、音素クラス分類部5と、音素情報記憶部6と、音素認識部7と、クラス別音響特徴量記憶部8と、話者交替点検出部9と、統計量データ蓄積部10と、話者交替点データ記憶部11と、話者クラスタリング部12と、話者モデル記憶部13とを含んで構成される。そして、この話者識別装置1は、発話音声データ2を元に外部の音響特徴量抽出部3が抽出した音響特徴量データ4を取り込むように構成されている。また、この話者識別装置1は、話者識別結果データ14を出力する。
この構成において、音素情報記憶部6や、クラス別音響特徴量記憶部8や、統計量データ蓄積部11や、話者交替点データ記憶部11や、話者モデル記憶部13は、半導体記憶装置や磁気ハードディスク装置などを用いて実現される。
音素情報記憶部6は、音素認識部7によって得られた音素情報を、該当する音響特徴量データに関連付けて記憶する。
音素クラス分類部5は、音素認識部7で得られた音素情報に基づいて音響特徴量データを音素クラス毎に分類するとともに、その結果得られる音素クラス情報を音響特徴量データに関連付けてクラス別音響特徴量記憶部8に書き込む。
クラス別音響特徴量記憶部8は、音響特徴量データを音素クラスに関連付けて記憶する。
話者交替点データ記憶部11は、話者交替点検出部9によって検出された話者交替点の情報(具体的には、時刻情報や、フレームのインデックス番号など)を記憶する。
なお、話者クラスタリング部12は、手法1を用いる場合には話者交替点検出部9によって検出された話者交替点で区切られる区間を判定対象区間とし、手法2を用いる場合には前記話者交替点に加えて検出された発話区間の発話末においても区切られる区間を判定対象区間とし、手法3を用いる場合には最新の時刻(例えば現在時刻)より予め定められた所定の時間窓の長さ(w)以前の区間を判定対象区間として逐次話者を判定する。これらの手法1〜3については、後で詳しく説明する。
話者モデル記憶部13は、話者毎の音素クラス別の音響特徴量の統計量を記憶する。
音響特徴量抽出部3は、発話音声データ2から音響特徴量データ4を抽出する。
話者識別結果データ14は、話者を識別する情報であり、番号や記号や文字(氏名)など、適宜、適切な形態のデータを用いる。
また、51は音素情報であり、この音素情報51は音素認識部7が音響特徴量データ4に基づいて音素を認識した結果として得られる。音素情報51は、音素情報記憶部6に記憶されている。図2において、音素情報51は、前記時間軸に沿って、発話音声50に対応する形で示されている。
52はクラス別音響特徴量である。このクラス別音響特徴量52は、音素クラス分類部5が、音素情報51を用いて、音響特徴量データ4を音素のクラスごとに分類することによって得られるものである。クラス別音響特徴量52は、クラス別音響特徴量記憶部8に記憶される。
53は話者交替の候補点である。図2において、三角形の印で示すものが前記時間軸における話者交替の候補点である。なお、話者交替の候補点を決定する方法については後述する。
なお、図示している例以外にも様々な音素の分類のしかたが考えられ、例えば音素クラスの総数を3とし、それぞれのクラスを「母音」、「有声子音」、「無声子音」としても良い。
音響特徴量データは様々な形態のものを使用し得る。本実施形態では、1フレームの時間の長さを10ミリ秒(msec)として、1フレーム毎に、12次元のMFCC(Mel-Frequency Cepstrum Coefficient,メル周波数ケプストラム係数)および対数パワーと、その1次微分(1階差分)および2次微分(2階差分)との、計39次元のベクトルを音響特徴量データとしている。
次にステップS102において、音素認識部7が、上で読み込んだ音響特徴量データ4を元に音素認識処理を行う。その結果、音素認識部7は、音響特徴量データの1フレーム毎に音素ラベルとして付加する形で、音素情報を音素情報記憶部6に書き込む。ここで、音素情報記憶部6は、音響特徴量データ4そのものと音素ラベルの両方を関連付けて保持する形態でも良く、また、音響特徴量データ4の各フレームへのインデックスと音素ラベルとを関連付けて保持する形でも良い。
なおここで、音素認識部7が行う音素認識処理自体は、既存技術を用いる。一例としては、文献(Toru IMAI他,“Online Speech Detection and Dual-Gender Speech Recognition for Captioning Broadcast News”,2007年,IEICE Transactions on Information and Systems 2007,E90-D(8),pp. 1286-1291)にはその手法が記載されている。また、音素認識部7が行う音素認識は、完全に正確なものでなくても良い。
フレームインデックスは、フレームの時間順の連番である。フレーム開始時刻は、そのフレームの開始時刻を表わす。この時刻は、「時:分:秒.ミリ秒」(HH:MM:SS.mmm)の形式で表わされている。この時刻は絶対的な時刻でも良く、また、何らかの基準時に基づく相対的な時刻でも良い。なお、以下における時刻の扱いにおいても同様である。音響特徴量データは、そのフレームにおける音響特徴量を表わし、前述した通り、本実施形態では39次元のベクトルで表わされている。音素情報は、そのフレームについて音素認識部7が認識した結果の音素情報である。音素クラスは、そのフレームについて音素クラス分類部5が分類した結果の音素クラスである。音素情報と音素クラスとの関係は、前述の音素クラス分類テーブルにも規定されている通りである。
なお、ここではベイズ情報量基準を用いているが、話者交替点の検出および話者クラスタリングには、例えば、GLR(Generalized Likelihood Ratio)の基準を用いるようにしても良い。また、話者クラスタリングに関しては、例えば、混合ガウス分布で表現した話者モデルの尤度比を用いるようにしても良い。
つまり、話者xの音素クラス毎の統計量の総和(音素クラスの出現フレーム数で重み付け)と話者yの音素クラス毎の統計量の総和(音素クラスの出現フレーム数で重み付け)との和から、話者xとyが同一であると仮定した場合の音素クラス毎の統計量の総和(音素クラスの出現フレーム数で重み付け)を減じ、さらにペナルティ項を減じた結果(便宜上、ベイズ情報量基準差分と呼ぶ。以下同様。)が正のとき、xとyは別話者による発話であると判定される。言い換えれば、式(2)を用いることによって、音素クラス毎の特徴を反映しながら、話者xとyという2つのクラスタ候補が、別々のクラスタであると見なせるか単一のクラスタであると見なせるかを、判定することができる。
まずステップS201において、話者交替点検出部9は、話者交替点検出の処理を開始し、変数tlastを0(最初のフレームに対応する)に初期設定する。この変数tlastは、直近で最後に検出された話者交替点を記憶するためのものであり、具体的には、その時刻を格納する。但し、時刻の代わりに、対応するフレームへのインデックス値を格納するようにしても良い。
次にステップS202において、話者交替点検出部9は、クラス別音響特徴量記憶部8から1フレーム分の音響特徴量データを読み出し、その1フレーム分の音響特徴量を統計量データ蓄積部10に蓄積する。このとき、話者交替点検出部9は、読み込んだ各フレームのクラス別音響特徴量をそのまま統計量データ蓄積部10に書き込んでも良く、また、話者交替点の候補点と隣り合う候補点との間の区間のそれぞれについて、音素クラスm毎のフレーム数および共分散行列を統計量として統計量データ蓄積部10に書き込むようにしても良い。
次にステップS204において、話者交替点検出部9は、話者交替点の探索を行う。この処理は、次の式(3)および式(4)の両方を満たすthを探索することにより行う。
なお、十分な統計量に基づいて話者交替点を検出するため、話者交替点検出部9は、th−tlast≧τ/2[sec]、且つ、tcurr−th≧τ/2[sec]を満たすようなthのみを話者交替点として探索する。
そして、ステップS207では、話者交替点検出部9は、検出された話者交替点thまでの統計量データを統計量データ蓄積部204から消去するとともに、変数tlastがtlast=thとなるように更新し、次の話者交替点の検出を開始するためにステップS202に戻る。
図示する例では、話者識別情報は、数値で表わしているが、記号や文字(氏名など)で表わしても良い。また、共分散行列は、図においては便宜上、記号で示しているが、実際には行列の各要素の数値を保持している。
まずステップS301において、話者クラスタリング部12は、話者クラスタリング処理を開始し、変数tdの値をtlastに初期設定する。
次にステップS302にいて、話者クラスタリング部12は、話者判定を行うか否かを判断する。ここでの判断の手法は複数考えられ、それらについては後述する。このタイミングで話者判定を行うと判断した場合(ステップS302:YES)は次のステップS303に進み、このタイミングでは話者判定を行わないと判断した場合(ステップS302:NO)には話者判定の処理をスキップしてステップS307に進む。
言い換えれば、話者クラスタリング部12は、判定対象としている区間の発話と、話者モデル記憶部13に既に登録されているいかなる話者の話者モデルとの間のベイズ情報量基準差分も、正となる場合に、当該対象区間の発話は新規話者によるものであると判定する。
そして、判定対象区間の話者が新規話者である場合(即ち、式(5)を満たす場合、ステップS303:YES)には、ステップS306に進む。また、 判定対象区間の話者が新規話者ではない場合(即ち、式(5)を満たさない場合、ステップS303:NO)には、ステップS304に進む。
言い換えれば、話者クラスタリング部12は、判定対象としている区間の発話と間のベイズ情報量基準差分の値が負であるような話者モデルを有する話者のうち、当該差分値が最も小さい(つまり、当該差分値の絶対値が最も大きい)ような話者を、話者jとして識別する。なお、このフローチャートに示す処理手順において、ステップS303からS304に制御が移る場合には、上記のベイズ情報量基準差分が負となる話者が必ず存在する。
そして、次にステップS305では、話者クラスタリング部12は、話者jの識別データを話者識別結果データ14として出力する。また、話者クラスタリング部12は、話者モデル記憶部13から読み出した話者jの話者モデル(統計量データ)と、発話x[tlast:td]の統計量データとから、話者jの新たな統計量データ(音素クラス毎のフレーム数および共分散行列)を算出し、話者モデル記憶部13に記憶されていた話者jの話者モデルを更新する。
そして、ステップS305の処理終了後は、ステップS307に進む。
そして、ステップS306の処理終了後は、ステップS307に進む。
<手法1> 第1の手法は、話者交替点thが検出される都度、x[tlast:th]の話者を判定する方法である。つまり、話者交替点検出部9と話者クラスタリング部12とが並列に動作しており、話者交替点検出部9が、図6のステップS206の処理で話者交替点thを出力した後であって、且つステップS207の処理でtlastをthの値で更新する前に、話者交替点thの直前までの区間を対象として、話者クラスタリング部12がステップS303およびそれに続く処理を行う。
そしてこの手法をとる場合、話者クラスタリング部12は、発話x[tlast:td]を対象として判定を行う代わりに、発話x[tlast:te]のクラス別音響特徴量の統計量データに基づき、発話x[tpre:te]の話者を判定する。但し、tpreは、話者の判定が終了している区間の最終時刻である。
手法2を用いた場合、話者クラスタリング部12は、手法1よりもやや高い頻度で話者判定を行うこととなる。
つまり、話者クラスタリング部12は、最新の時刻より時間窓の長さ以前の区間を判定対象区間として、逐次話者を判定する。
判定手法2は、判定手法1のタイミングに加えて、1発話毎(発話末を検出したタイミング)でも判定する場合であり、1発話分の音声から、音声認識用の音響モデルを学習するような場合に有効である。
判定手法3は、リアルタイムに逐次音響モデルを適応化する場合や、話者の情報を逐次取得する必要がある場合に有効である。
放送番組や会議等の現実の発話を取り込んで話者識別をする場合、発話音声データ2に基づく音響特徴量データ4を話者識別装置が小さい遅延時間で取り込むことは容易である。
そして、上述した判定手法1〜3のいずれの手法をとる場合も、オンラインでの話者交替点の検出および話者判定を行うことが可能である。ここで、オンラインでの検出とは、入力される音声データに対する、話者交替点の検出処理や話者識別のための判定処理による遅延が、蓄積されないことである。つまり、話者交替点の検出処理や話者識別のための判定処理のスループットが、現実の発話による音響特徴量データの発生のペースよりも充分に高い場合には、これらの処理による遅延は蓄積されない。
上記実施形態による話者識別装置1は、図1に示した構成を有し、話者識別結果データを出力するが、更に、音声認識処理部を付加するようにしても良い。このとき音声認識処理部は、予め話者毎の音響モデルを記憶しておき、話者クラスタリング部12によって得られた話者識別結果データに応じて話者毎の音響モデルを選択し、当該話者が発話する区間についてはこの選択された音響モデルを用いた音声認識処理を行い、認識結果として発話に対応するテキストを出力する。なおここで、音響モデルを用いた音声認識処理自体は、既存の技術を利用して行う。
この構成により、話者交替点の検出と、話者の識別と、話者に応じた音響モデルを用いた音声認識とを一貫して自動的に行うことができ、精度の高い音声認識処理を行うことが可能となる。
例えば、上記実施形態では39次元のベクトルを特徴量として用いたが、他の特徴量を用いて同様に話者交替点検出や話者判定を行うようにしても良い。
また例えば、上記実施形態では、話者識別装置1が音響特徴量抽出部3を構成として含まず、音響特徴量抽出部3が外部に存在しているが、話者識別装置1が音響特徴量抽出部3を構成として含むようにして、外部から直接、発話音声データ2を取り込んで処理するようにしても良い。
話者判定のタイミングとしては、前記の手法1〜3をそれぞれ実施し、その評価を行った。
識別の評価指標には、NIST(National Institute of Standards and Technology)が提案するDER(Diarization Error Rate,話者逐次識別誤り率)を用いた。このDERは、次の式で定義される。
DER=(FS+MS+SE)/総発話時間
ここで、FS(False Alarm Speech)は発話者なしの区間で発話と誤判定した時間であり、MS(Missed Speech)は発話者ありの区間で発話なしと誤判定した時間であり、SE(Speaker Error)は話者を誤った時間である。
音素認識部7による音素認識率は59.1%であり、音素クラス分類部5による音素クラス認識率は71.7%であった。また、上記のMSおよびFSは、それぞれ、総発話時間の1.0%および1.5%であった。
手法1を用いた場合には、従来法のDERが4.0%であるのに対して、本発明による方法のDERは3.6%に改善された。手法2を用いた場合には、従来法のDERが5.2%であるのに対して、本発明による方法のDERは4.5%に改善された。
つまり、本発明の有効性が実証された。
5 音素クラス分類部
6 音素情報記憶部
7 音素認識部
8 クラス別音響特徴量記憶部
9 話者交替点検出部
10 統計量データ蓄積部
11 話者交替点データ記憶部
12 話者クラスタリング部
13 話者モデル記憶部
Claims (7)
- 音響特徴量データを音素クラスに関連付けて記憶するクラス別音響特徴量記憶部と、
入力される音響特徴量データに基づき音素認識処理を行いその結果得られる音素情報を出力する音素認識部と、
前記音素認識部で得られた前記音素情報に基づいて前記音響特徴量データを前記音素クラスに分類するとともにその結果得られる音素クラス情報を関連付けた前記音響特徴量データを前記クラス別音響特徴量記憶部に書き込む音素クラス分類部と、
前記クラス別音響特徴量記憶部から前記音素クラスに関連付けられた前記音響特徴量データを読み出し、所定の時間区間を候補点で区切って得られる第1区間と第2区間のそれぞれに属する前記音響特徴量データについて、前記音素クラス毎の統計量を算出し、前記第1区間に対応する複数の前記音素クラスの前記統計量と前記第2区間に対応する複数の前記音素クラスの前記統計量とをクラスタ分析処理することによって、前記第1区間と前記第2区間が別クラスタであると判定される場合に当該候補点を話者交替点として検出する話者交替点検出部と、
を具備することを特徴とする音響処理装置。 - 話者毎の音素クラス別の音響特徴量の統計量を記憶する話者モデル記憶部と、
判定対象区間に属する前記音響特徴量データについての複数の前記音素クラスの統計量と前記話者モデル記憶部から読み出した話者毎の複数の前記音素クラスの前記統計量とをクラスタ分析処理することによって、前記判定対象区間の話者を判定する話者クラスタリング部と、
を更に具備することを特徴とする請求項1に記載の音響処理装置。 - 前記話者クラスタリング部は、前記話者交替点検出部によって検出された前記話者交替点で区切られる区間を前記判定対象区間とする、
ことを特徴とする請求項2に記載の音響処理装置。 - 前記話者クラスタリング部は、前記話者交替点に加えて、検出された発話区間の発話末においても区切られる区間を前記判定対象区間とする、
ことを特徴とする請求項2に記載の音響処理装置。 - 前記話者クラスタリング部は、最新の時刻より予め定められた所定の時間窓の長さ以前の区間を前記判定対象区間として、逐次話者を判定する、
ことを特徴とする請求項2に記載の音響処理装置。 - 予め記憶された話者毎の音響モデルから、前記話者クラスタリング部によって判定された話者の音響モデルを選択し、当該選択された音響モデルを用いて前記判定対象区間の音声認識処理を行う音声認識処理部、
を更に具備することを特徴とする請求項2から5までのいずれか一項に記載の音響処理装置。 - コンピュータを、
音響特徴量データを音素クラスに関連付けて記憶するクラス別音響特徴量記憶部と、
入力される音響特徴量データに基づき音素認識処理を行いその結果得られる音素情報を出力する音素認識部と、
前記音素認識部で得られた前記音素情報に基づいて前記音響特徴量データを前記音素クラスに分類するとともにその結果得られる音素クラス情報を関連付けた前記音響特徴量データを前記クラス別音響特徴量記憶部に書き込む音素クラス分類部と、
前記クラス別音響特徴量記憶部から前記音素クラスに関連付けられた前記音響特徴量データを読み出し、所定の時間区間を候補点で区切って得られる第1区間と第2区間のそれぞれに属する前記音響特徴量データについて、前記音素クラス毎の統計量を算出し、前記第1区間に対応する複数の前記音素クラスの前記統計量と前記第2区間に対応する複数の前記音素クラスの前記統計量とをクラスタ分析処理することによって、前記第1区間と前記第2区間が別クラスタであると判定される場合に当該候補点を話者交替点として検出する話者交替点検出部と、
を具備する音響処理装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009204144A JP2011053569A (ja) | 2009-09-03 | 2009-09-03 | 音響処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009204144A JP2011053569A (ja) | 2009-09-03 | 2009-09-03 | 音響処理装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011053569A true JP2011053569A (ja) | 2011-03-17 |
Family
ID=43942605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009204144A Pending JP2011053569A (ja) | 2009-09-03 | 2009-09-03 | 音響処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011053569A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014219557A (ja) * | 2013-05-08 | 2014-11-20 | カシオ計算機株式会社 | 音声処理装置、音声処理方法及びプログラム |
JP2016080916A (ja) * | 2014-10-17 | 2016-05-16 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
WO2020036193A1 (ja) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法およびプログラム |
CN110880327A (zh) * | 2019-10-29 | 2020-03-13 | 平安科技(深圳)有限公司 | 一种音频信号处理方法及装置 |
JP2020140169A (ja) * | 2019-03-01 | 2020-09-03 | コニカミノルタ株式会社 | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム |
WO2023100999A1 (ja) * | 2021-12-03 | 2023-06-08 | パナソニックIpマネジメント株式会社 | 音声登録装置および音声登録方法 |
CN118447853A (zh) * | 2023-09-11 | 2024-08-06 | 上海荣耀智慧科技开发有限公司 | 音频处理方法及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003167599A (ja) * | 2001-12-03 | 2003-06-13 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
WO2007141923A1 (ja) * | 2006-06-02 | 2007-12-13 | Nec Corporation | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
JP2008175955A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | インデキシング装置、方法及びプログラム |
-
2009
- 2009-09-03 JP JP2009204144A patent/JP2011053569A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003167599A (ja) * | 2001-12-03 | 2003-06-13 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
WO2007141923A1 (ja) * | 2006-06-02 | 2007-12-13 | Nec Corporation | ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム |
JP2008175955A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | インデキシング装置、方法及びプログラム |
Non-Patent Citations (4)
Title |
---|
CSNG199800757001; 松井 知子 Tomoko MATSUI: 'テキスト指定型話者認識 Text-Prompted Speaker Recognition' 電子情報通信学会論文誌 (79-D-II) 第5号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS , 19960525, p.647-656, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO * |
CSNG200800127034; 赤津 達也 Tatsuya AKATSU: '音素クラスHMMを使用した話者ベクトルに基づく話者識別法の検討 An investigation on the speaker vect' 情報処理学会研究報告 Vol.2007 No.129 IPSJ SIG Technical Reports , 20071220, p.229-234, 社団法人情報処理学会 Information Processing Socie * |
JPN6012063557; 赤津 達也 Tatsuya AKATSU: '音素クラスHMMを使用した話者ベクトルに基づく話者識別法の検討 An investigation on the speaker vect' 情報処理学会研究報告 Vol.2007 No.129 IPSJ SIG Technical Reports , 20071220, p.229-234, 社団法人情報処理学会 Information Processing Socie * |
JPN6012063558; 松井 知子 Tomoko MATSUI: 'テキスト指定型話者認識 Text-Prompted Speaker Recognition' 電子情報通信学会論文誌 (79-D-II) 第5号 THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS , 19960525, p.647-656, 社団法人電子情報通信学会 THE INSTITUTE OF ELECTRO * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014219557A (ja) * | 2013-05-08 | 2014-11-20 | カシオ計算機株式会社 | 音声処理装置、音声処理方法及びプログラム |
JP2016080916A (ja) * | 2014-10-17 | 2016-05-16 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
WO2020036193A1 (ja) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法およびプログラム |
JPWO2020036193A1 (ja) * | 2018-08-15 | 2021-06-10 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法およびプログラム |
JP2020140169A (ja) * | 2019-03-01 | 2020-09-03 | コニカミノルタ株式会社 | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム |
JP7287006B2 (ja) | 2019-03-01 | 2023-06-06 | コニカミノルタ株式会社 | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム |
CN110880327A (zh) * | 2019-10-29 | 2020-03-13 | 平安科技(深圳)有限公司 | 一种音频信号处理方法及装置 |
WO2023100999A1 (ja) * | 2021-12-03 | 2023-06-08 | パナソニックIpマネジメント株式会社 | 音声登録装置および音声登録方法 |
CN118447853A (zh) * | 2023-09-11 | 2024-08-06 | 上海荣耀智慧科技开发有限公司 | 音频处理方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200035245A1 (en) | Diarization using linguistic labeling | |
US9466289B2 (en) | Keyword detection with international phonetic alphabet by foreground model and background model | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
EP1800293B1 (en) | Spoken language identification system and methods for training and operating same | |
US20220343895A1 (en) | User-defined keyword spotting | |
US20140207457A1 (en) | False alarm reduction in speech recognition systems using contextual information | |
EP1936606A1 (en) | Multi-stage speech recognition | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
JP2011053569A (ja) | 音響処理装置およびプログラム | |
Rahmawati et al. | Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector | |
Rose et al. | Integration of utterance verification with statistical language modeling and spoken language understanding | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
US20210225366A1 (en) | Speech recognition system with fine-grained decoding | |
WO2014155652A1 (ja) | 話者検索システム、プログラム | |
Sawakare et al. | Speech recognition techniques: a review | |
Chakroun et al. | An improved approach for text-independent speaker recognition | |
CN114067793A (zh) | 音频处理方法和装置、电子设备及可读存储介质 | |
JP2010145784A (ja) | 音声認識装置、音響モデル学習装置、音声認識方法、および、プログラム | |
Likitsupin et al. | Acoustic-phonetic approaches for improving segment-based speech recognition for large vocabulary continuous speech | |
Pandey et al. | Fusion of spectral and prosodic information using combined error optimization for keyword spotting | |
EP2948943B1 (en) | False alarm reduction in speech recognition systems using contextual information | |
KR20180057315A (ko) | 자연어 발화 음성 판별 시스템 및 방법 | |
Abad et al. | Transcription of multi-variety portuguese media contents | |
JP4336282B2 (ja) | 音声認識性能推定方法、認識障害単語抽出方法、音声認識性能推定装置、認識障害単語抽出装置、音声認識性能推定プログラム、認識障害単語抽出プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140114 |