JP5644772B2 - 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム - Google Patents
音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム Download PDFInfo
- Publication number
- JP5644772B2 JP5644772B2 JP2011543085A JP2011543085A JP5644772B2 JP 5644772 B2 JP5644772 B2 JP 5644772B2 JP 2011543085 A JP2011543085 A JP 2011543085A JP 2011543085 A JP2011543085 A JP 2011543085A JP 5644772 B2 JP5644772 B2 JP 5644772B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- model
- occurrence
- cluster
- session
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims description 50
- 238000000034 method Methods 0.000 title claims description 44
- 238000012545 processing Methods 0.000 claims description 24
- 230000008034 disappearance Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000013500 data storage Methods 0.000 description 39
- 238000010586 diagram Methods 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 19
- 230000008859 change Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 10
- 230000007704 transition Effects 0.000 description 8
- 238000012546 transfer Methods 0.000 description 7
- 238000009795 derivation Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011840 criminal investigation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Description
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の音声データ解析装置の構成例を示すブロック図である。図1に示すように、本実施形態の音声データ解析装置は、学習手段11と、認識手段12とを備える。
パラメータuj,vj,wjiに適当な値をセットする。
セッションΞ(n)がクラスタyに属する確立を、以下の式(5)に従って計算する。ここに、K(n)は、セッションΞ(n)に含まれる発話数である。
パラメータuj,vj,wjiを以下の式(6)に従って更新する。ここに、Nはセッション総数、δijはクロネッカのデルタである。
以降、上述の式(3)の確率p(Ξ|θ)の値の上昇度合いなどから収束判定を行い、収束するまでステップS1とステップS2を交互に反復する。
次に、本発明の第2の実施形態について説明する。図8は、本発明の第2の実施形態の音声データ解析装置の構成例を示すブロック図である。図8に示すように、本実施形態の音声データ解析装置は、学習手段31と、認識手段32とを備える。
話者共起学習手段304は、話者共起モデルのパラメータuj,vj,wji(i=1,・・・,S、j=1,・・・,T)に適当な値をセットする。話者分類手段303は、未知の話者ラベルについて、乱数などにより適当なラベル(値)を付与する。
話者モデル学習手段302は、セッション音声データ記憶手段300に記録された音声データ、セッション話者ラベル記憶手段301に記録された既知の話者ラベル及び話者分類手段303が推定した話者ラベルを用いて話者モデルを学習し、パラメータai,λi(i=1,・・・,S)を更新する。例えば話者モデルが、平均μiと分散Σiで規定されるガウス分布モデル、すなわちλi=(ai,μi,Σi)であれば、以下の式(10)によってパラメータを更新する。
話者分類手段303は、セッション音声データ記憶手段300に記録された音声データ、並びに話者モデル、話者共起モデルを用いて、話者ラベルが未知の発話について、以下の式(11)に従って話者ラベルを確率的に推定する。
話者共起学習手段304は、セッション音声データ記憶手段300、セッション話者ラベル記憶手段301にそれぞれに記録された音声データ、既知の話者ラベル、並びに話者モデル学習手段302が算出した話者モデル、話者分類手段303が算出した未知の話者ラベルの推定結果を用いて、セッションΞ(n)がクラスタyに属する確率を、上述の式(5)に従って計算する。
話者共起学習手段304はさらに、ステップS33の算出結果を用いて、話者共起モデルを学習する。すなわち、パラメータuj,vj,wji(i=1,・・・,S、j=1,・・・,T)を以下の式(12)に従って更新する。
以降、収束するまでステップS31〜S34を反復する。収束に至った時点で、話者モデル学習手段302は話者モデルを話者モデル記憶手段305に、話者共起学習手段304は話者共起モデルを話者共起モデル記憶手段306に、それぞれ記録する。
次に、本発明の第3の実施形態について説明する。図10は、本発明の第3の実施形態の音声データ解析装置の構成例を示すブロック図である。本実施形態は、話者モデルおよび話者共起モデルが、時間(例えば、月日)とともに変化する場合を想定した実施形態である。すなわち、逐次入力される音声データを解析し、その解析結果に応じて、話者の増減、話者の集合であるクラスタの増減等を検知し、話者モデルおよび話者共起モデルの構造を順応させる。話者および話者間の関係は、一般に時間とともに変化する。本実施形態では、そのような時間的な変化(経時変化)を考慮した実施形態である。
話者共起学習手段404は、話者共起モデルのパラメータuj,vj,wji(i=1,・・・,S、j=1,・・・,T)に適当な値をセットする。話者分類手段403は、未知の話者ラベルについて、その時点で得られている話者モデルおよび話者共起モデルのパラメータの値を用いて、上述の式(11)に従って話者ラベルを推定する。
話者モデル学習手段402は、セッション音声データ記憶手段400に記録された既知の話者ラベル、およびステップS40または後述するステップS42で推定された話者ラベルを用いて話者モデルを学習し、パラメータai,λi(i=1,・・・,S)を更新する。例えば話者モデルが、平均μiと分散Σiで規定されるガウス分布モデル、すなわちλi=(ai,μi,Σi)であれば、上述の式(10)によってパラメータを更新する。
発話分類手段403は、セッション音声データ記憶手段400に記録された音声データ並びに話者モデル、共起モデルを用いて、話者ラベルが未知の発話について、上述の式(11)に従って話者ラベルを確率的に推定する。
話者共起学習手段404は、セッション音声データ記憶手段400、セッション話者ラベル記憶手段401にそれぞれに記録された音声データ、既知の話者ラベル、話者モデル学習手段402が算出した話者モデル、発話分類手段403が算出した未知の話者ラベルの推定結果を用いて、セッションΞ(n)がクラスタyに属する確率を、上述の式(5)に従って計算する。
話者共起学習手段404はさらに、ステップS43の算出結果を用いて、話者共起モデルを学習する。すなわち、パラメータuj,vj,wji(i=1,・・・,S、j=1,・・・,T)を上述の式(12)に従って更新する。
以降、収束するまでステップS41〜S44を反復する。収束に至った時点で、話者モデル学習手段402は、更新された話者モデルを話者モデル記憶手段405に、話者共起学習手段404は、更新された話者共起モデルを話者共起モデル記憶手段406に、それぞれ記録する。
1)話者の発生:過去に観測されたことのない新たな話者が出現すること。
2)話者の消滅:既知の話者が出現しなくなること。
3)クラスタの発生:過去に観測されたことのない新たなクラスタ(話者の集合)が出現すること。
4)クラスタの消滅:既存のクラスタが出現しなくなること。
5)クラスタの分裂:既存のクラスタが複数のクラスタに分かれること。
6)クラスタの合併:既存の複数のクラスタが1つのクラスタにまとまること。
次に、本発明の第4の実施形態について説明する。図11は、本発明の第4の実施形態の音声データ解析装置の構成例を示すブロック図である。図11に示すように、本実施形態の音声データ解析装置は、学習手段51と、認識手段52とを備える。
次に、本発明の第5の実施形態について説明する。図12は、本発明の第5の実施形態の音声データ解析装置(モデル生成装置)の構成例を示すブロック図である。図12に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム21−1と、データ処理装置22と、記憶装置23とを備える。また、記憶装置23には、セッション音声データ記憶領域231と、セッション話者ラベル記憶領域232と、話者モデル記憶領域233と、話者共起モデル記憶領域234とが含まれる。なお、本実施形態は、第1の実施形態における学習手段11を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。
次に、本発明の第6の実施形態について説明する。図13は、本発明の第6の実施形態の音声データ解析装置(話者認識装置)の構成例を示すブロック図である。図13に示すように、本実施形態の音声データ解析装置は、音声データ解析用プログラム21−2と、データ処理装置22と、記憶装置23とを備える。また、記憶装置23には、話者モデル記憶領域233と、話者共起モデル記憶領域234とが含まれる。なお、本実施形態は、第1の実施形態における認識手段を、プログラムにより動作されるコンピュータにより実現した場合の構成例である。
100,300,400,500 セッション音声データ記憶手段
101,301,401,501 セッション話者ラベル記憶手段
102,302,402,502 話者モデル学習手段
104,304,404,504 話者共起学習手段
105,305,405,505 話者モデル記憶手段
106,306,406,506 話者共起モデル記憶手段
303 話者分類手段
408 データ入力手段
409 モデル構造更新手段
12,32,42,52 認識手段
107,307,407,507 セッションマッチング手段
21,21−1,21−2 音声データ解析用プログラム
22 データ処理装置
23 記憶装置
231 セッション音声データ記憶領域
232 セッション話者ラベル記憶領域
233 話者モデル記憶領域
234 話者共起モデル記憶領域
601 話者モデル導出手段
602 話者共起モデル導出手段
603 モデル構造更新手段手段
604 話者推定手段
605 話者モデル記憶手段
606 話者共起モデル記憶手段
607 話者集合認識手段
608 話者認識手段
Claims (10)
- 複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する話者モデル導出手段と、
前記話者モデル導出手段が導出した話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する話者共起モデル導出手段と、
新たに追加された音声データのセッションを参照して、前記話者モデルまたは前記話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、前記事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新するモデル構造更新手段とを備えた
ことを特徴とする音声データ解析装置。 - 話者またはその集合であるクラスタが変化する事象として、話者の発生、話者の消滅、クラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併のいずれかが定められている
請求項1に記載の音声データ解析装置。 - 話者またはその集合であるクラスタが変化する事象として、少なくとも話者の発生または話者の消滅が定められ、
モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、話者の発生が定められている場合に、新たに追加された音声データのセッション内の各発話について、前記発話に付与された話者を識別する情報である話者ラベルの推定結果のエントロピーが所定のしきい値よりも大きいときに、話者の発生を検知し、話者モデルに新規話者を規定するパラメータを追加し、
前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、話者の消滅が定められている場合に、話者共起モデル内の話者の出現確率に対応するすべてのパラメータの値が所定のしきい値よりも小さいときに、話者の消滅を検知し、話者モデルの当該話者を規定するパラメータを削除する
請求項1または請求項2に記載の音声データ解析装置。 - 話者またはその集合であるクラスタが変化する事象として、少なくともクラスタの発生、クラスタの消滅、クラスタの分裂、クラスタの合併のいずれかが定められ、
モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの発生が定められている場合に、新たに追加された音声データのセッションに関して、各クラスタに属する確率のエントロピーが所定のしきい値よりも大きいときに、クラスタの発生を検知し、話者共起モデルに新規クラスタを規定するパラメータを追加し、
前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの消滅が定められている場合に、話者共起モデル内のクラスタの出現確率に対応するパラメータの値が所定のしきい値よりも小さいときに、前記クラスタの消滅を検知し、話者共起モデルの当該クラスタを規定するパラメータを削除し、
前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの分裂が定められている場合に、直近に追加された所定個の音声データのセッションそれぞれについて、各クラスタに属する確率および話者の出現確率を計算し、さらに、それぞれのセッション対について、同一のクラスタに属する確率と、前記話者の出現確率の相違度を計算し、前記同一のクラスタに属する確率と前記相違度から定まる評価関数が所定のしきい値よりも大きいときに、前記クラスタの分裂を検知し、話者共起モデルの当該クラスタを規定するパラメータを分割し、
前記モデル構造更新手段は、話者またはその集合であるクラスタが変化する事象として、クラスタの合併が定められている場合に、話者共起モデルの話者の出現確率をクラスタ間で比較し、前記話者の出現確率の類似度が所定のしきい値よりも高いクラスタ対が存在するときに、前記クラスタの合併を検知し、話者共起モデルの当該クラスタ対を規定するパラメータを統合する
請求項1または請求項2に記載の音声データ解析装置。 - 音声データに含まれる各発話の話者が未知の場合に、話者モデルと話者共起モデルとを参照して、各発話の話者を推定する話者推定手段を備えた
請求項1から請求項4のうちのいずれか1項に記載の音声データ解析装置。 - 複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルを記憶する話者モデル記憶手段と、
前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係を集約したモデルであって、前記話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルを記憶する話者共起モデル記憶手段と、
前記話者モデルと前記話者共起モデルとを用いて、前記クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する話者集合認識手段を備えた
ことを特徴とする音声データ解析装置。 - 複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出し、
導出された話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出し、
新たに追加された音声データのセッションを参照して、前記話者モデルまたは前記話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、前記事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する
ことを特徴とする音声データ解析方法。 - 複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係を集約したモデルであって、前記話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、前記クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する
ことを特徴とする音声データ解析方法。 - コンピュータに、
複数の発話からなる音声データから、話者ごとの音声の性質を規定するモデルである話者モデルを導出する処理、
導出される前記話者モデルを用いて、前記音声データを一連の会話の単位で分割したセッションデータから、前記話者間の共起関係の強さを表すモデルである話者共起モデルを導出する処理、および
新たに追加された音声データのセッションを参照して、前記話者モデルまたは前記話者共起モデルにおいて話者またはその集合であるクラスタが変化する事象として予め定めておいた事象を検知し、前記事象が検知された場合に、話者モデルまたは話者共起モデルのうち少なくとも一方の構造を更新する処理
を実行させるための音声データ解析用プログラム。 - コンピュータに、
複数の発話からなる音声データから導出される、話者ごとの音声の性質を規定するモデルである話者モデルと、前記音声データを一連の会話の単位で分割したセッションデータから導出される、前記話者間の共起関係を集約したモデルであって、前記話者間の共起関係をネットワークとした場合に特に共起関係の強いサブネットワークを形成する話者の集合であるクラスタの特徴を規定する確率モデルである話者共起モデルとを用いて、前記クラスタごとに指定された音声データが属する確率を求めることにより、指定された音声データがいずれのクラスタに該当するかを認識する処理
を実行させるための音声データ解析用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011543085A JP5644772B2 (ja) | 2009-11-25 | 2010-10-21 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009267770 | 2009-11-25 | ||
JP2009267770 | 2009-11-25 | ||
JP2011543085A JP5644772B2 (ja) | 2009-11-25 | 2010-10-21 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
PCT/JP2010/006239 WO2011064938A1 (ja) | 2009-11-25 | 2010-10-21 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011064938A1 JPWO2011064938A1 (ja) | 2013-04-11 |
JP5644772B2 true JP5644772B2 (ja) | 2014-12-24 |
Family
ID=44066054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011543085A Active JP5644772B2 (ja) | 2009-11-25 | 2010-10-21 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120239400A1 (ja) |
JP (1) | JP5644772B2 (ja) |
WO (1) | WO2011064938A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7460308B2 (ja) | 2021-09-16 | 2024-04-02 | 敏也 川北 | バドミントン練習用手首関節固定具 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5250576B2 (ja) * | 2010-02-25 | 2013-07-31 | 日本電信電話株式会社 | ユーザ判定装置、方法、プログラム及びコンテンツ配信システム |
US9837078B2 (en) * | 2012-11-09 | 2017-12-05 | Mattersight Corporation | Methods and apparatus for identifying fraudulent callers |
JP6596924B2 (ja) * | 2014-05-29 | 2019-10-30 | 日本電気株式会社 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
JP6303971B2 (ja) * | 2014-10-17 | 2018-04-04 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
US9817817B2 (en) | 2016-03-17 | 2017-11-14 | International Business Machines Corporation | Detection and labeling of conversational actions |
US10789534B2 (en) | 2016-07-29 | 2020-09-29 | International Business Machines Corporation | Measuring mutual understanding in human-computer conversation |
KR20180082033A (ko) * | 2017-01-09 | 2018-07-18 | 삼성전자주식회사 | 음성을 인식하는 전자 장치 |
US10403287B2 (en) * | 2017-01-19 | 2019-09-03 | International Business Machines Corporation | Managing users within a group that share a single teleconferencing device |
BR112020009783A2 (pt) * | 2017-11-17 | 2020-11-03 | Nissan Motor Co., Ltd. | dispositivo de assistência à operação do veículo |
KR102598057B1 (ko) * | 2018-09-10 | 2023-11-06 | 삼성전자주식회사 | 음소기반 화자모델 적응 방법 및 장치 |
JP7376985B2 (ja) * | 2018-10-24 | 2023-11-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置、及び、プログラム |
SG10201809737UA (en) * | 2018-11-01 | 2020-06-29 | Rakuten Inc | Information processing device, information processing method, and program |
CN110197665B (zh) * | 2019-06-25 | 2021-07-09 | 广东工业大学 | 一种用于公安刑侦监听的语音分离与跟踪方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002051300A (ja) * | 2000-05-25 | 2002-02-15 | Fujitsu Ltd | 放送受信機,放送制御方法,コンピュータ読み取り可能な記録媒体,及びコンピュータプログラム |
JP2003529136A (ja) * | 1999-12-01 | 2003-09-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オブジェクト追跡によるプログラム分類方法 |
WO2006028116A1 (ja) * | 2004-09-09 | 2006-03-16 | Pioneer Corporation | 登場物推定装置及び方法、並びにコンピュータプログラム |
JP2007233149A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5655058A (en) * | 1994-04-12 | 1997-08-05 | Xerox Corporation | Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications |
US6556969B1 (en) * | 1999-09-30 | 2003-04-29 | Conexant Systems, Inc. | Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding |
CN101661754B (zh) * | 2003-10-03 | 2012-07-11 | 旭化成株式会社 | 数据处理单元和数据处理单元控制方法 |
WO2006069381A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking confidence |
US7490043B2 (en) * | 2005-02-07 | 2009-02-10 | Hitachi, Ltd. | System and method for speaker verification using short utterance enrollments |
US8972549B2 (en) * | 2005-06-10 | 2015-03-03 | Adaptive Spectrum And Signal Alignment, Inc. | User-preference-based DSL system |
US7822605B2 (en) * | 2006-10-19 | 2010-10-26 | Nice Systems Ltd. | Method and apparatus for large population speaker identification in telephone interactions |
JP4812029B2 (ja) * | 2007-03-16 | 2011-11-09 | 富士通株式会社 | 音声認識システム、および、音声認識プログラム |
WO2008117626A1 (ja) * | 2007-03-27 | 2008-10-02 | Nec Corporation | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム |
JP2009237285A (ja) * | 2008-03-27 | 2009-10-15 | Toshiba Corp | 人物名付与装置および方法 |
US8965765B2 (en) * | 2008-09-19 | 2015-02-24 | Microsoft Corporation | Structured models of repetition for speech recognition |
US8301443B2 (en) * | 2008-11-21 | 2012-10-30 | International Business Machines Corporation | Identifying and generating audio cohorts based on audio data input |
US20100131502A1 (en) * | 2008-11-25 | 2010-05-27 | Fordham Bradley S | Cohort group generation and automatic updating |
-
2010
- 2010-10-21 WO PCT/JP2010/006239 patent/WO2011064938A1/ja active Application Filing
- 2010-10-21 JP JP2011543085A patent/JP5644772B2/ja active Active
- 2010-10-21 US US13/511,889 patent/US20120239400A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003529136A (ja) * | 1999-12-01 | 2003-09-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オブジェクト追跡によるプログラム分類方法 |
JP2002051300A (ja) * | 2000-05-25 | 2002-02-15 | Fujitsu Ltd | 放送受信機,放送制御方法,コンピュータ読み取り可能な記録媒体,及びコンピュータプログラム |
WO2006028116A1 (ja) * | 2004-09-09 | 2006-03-16 | Pioneer Corporation | 登場物推定装置及び方法、並びにコンピュータプログラム |
JP2007233149A (ja) * | 2006-03-02 | 2007-09-13 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
Non-Patent Citations (2)
Title |
---|
JPN6011000005; 村井則之 他: '"話者性と発話交代を考慮した複数話者対話音声の認識"' 電子情報通信学会論文誌D-II Vol.J83-D-II,No.11, 20001125, p.2465-2472 * |
JPN6011000008; Daben Liu et al.: '"Online Speaker Clustering"' Proc. of IEEE ICASSP'04 Vol.1, 20040517, p.I-333-I-336 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7460308B2 (ja) | 2021-09-16 | 2024-04-02 | 敏也 川北 | バドミントン練習用手首関節固定具 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2011064938A1 (ja) | 2013-04-11 |
US20120239400A1 (en) | 2012-09-20 |
WO2011064938A1 (ja) | 2011-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5644772B2 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
US20210183395A1 (en) | Method and system for automatically diarising a sound recording | |
CN111261146B (zh) | 语音识别及模型训练方法、装置和计算机可读存储介质 | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
Heittola et al. | Supervised model training for overlapping sound events based on unsupervised source separation | |
US20110224978A1 (en) | Information processing device, information processing method and program | |
Wyatt et al. | Conversation detection and speaker segmentation in privacy-sensitive situated speech data. | |
JP5704071B2 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
US10699224B2 (en) | Conversation member optimization apparatus, conversation member optimization method, and program | |
Khan et al. | Infrastructure-less occupancy detection and semantic localization in smart environments | |
JP6784255B2 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
Richiardi et al. | Confidence and reliability measures in speaker verification | |
JP2000259198A (ja) | パターン認識装置および方法、並びに提供媒体 | |
JP7377736B2 (ja) | オンライン話者逐次区別方法、オンライン話者逐次区別装置及びオンライン話者逐次区別システム | |
Pan et al. | Fusing audio and visual features of speech | |
Madhusudhana Rao et al. | Machine hearing system for teleconference authentication with effective speech analysis | |
Fabien et al. | Graph2Speak: Improving Speaker Identification using Network Knowledge in Criminal Conversational Data | |
Naga Sai Manish et al. | Spoken Keyword Detection in Speech Processing using Error Rate Estimations. | |
CN117457005A (zh) | 一种基于动量对比学习的声纹识别方法和设备 | |
JPH10149190A (ja) | 音声認識方法及び音声認識装置 | |
Kumar et al. | On the Soft Fusion of Probability Mass Functions for Multimodal Speech Processing | |
Kumar et al. | Research Article On the Soft Fusion of Probability Mass Functions for Multimodal Speech Processing | |
Sharma et al. | Crypto Fuzzy Logic Based Audio Surveillance System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140610 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141020 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5644772 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |