JP6596924B2 - 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム - Google Patents
音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム Download PDFInfo
- Publication number
- JP6596924B2 JP6596924B2 JP2015105939A JP2015105939A JP6596924B2 JP 6596924 B2 JP6596924 B2 JP 6596924B2 JP 2015105939 A JP2015105939 A JP 2015105939A JP 2015105939 A JP2015105939 A JP 2015105939A JP 6596924 B2 JP6596924 B2 JP 6596924B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- segment
- model
- similarity
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 110
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000605 extraction Methods 0.000 claims description 75
- 238000004364 calculation method Methods 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 41
- 239000000284 extract Substances 0.000 claims description 16
- 230000010365 information processing Effects 0.000 claims description 10
- 238000013179 statistical model Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 description 20
- 239000013598 vector Substances 0.000 description 18
- 238000013500 data storage Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000408659 Darpa Species 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 208000035755 Psychosomatic disease Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は第1の実施形態の音声データ処理装置1の構成を概念的に示すブロック図である。
・セグメント抽出部10が比較対象音声データ130をセグメントに分割する。
・セグメントモデル生成部11が係るセグメントをクラスタリングすることによって1以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部12が係るセグメント音声モデルを使用して比較対象音声データ130と入力音声データ140との間の類似度を算出する。
図3は第2の実施形態の音声データ処理装置2の構成を概念的に示すブロック図である。
・セグメント抽出部20が比較対象音声データ230及び入力音声データ240をセグメントに分割する。
・セグメントモデル生成部21が係るセグメントを、比較対象音声データ230に関するクラスタと入力音声データ240に関するクラスタとにクラスタリングすることによって1以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部22が係るセグメント音声モデルを使用して比較対象音声データ230と入力音声データ240との間の類似度を算出する。
図4は第3の実施形態の音声データ処理装置3の構成を概念的に示すブロック図である。本実施形態に係る音声データ処理装置3は、ユーザから発せられた音声が、複数の比較対象音声データのいずれと類似しているかを判定する装置である。
・セグメント抽出部30−1乃至30−nが比較対象音声データ330−1乃至330−nをセグメントに分割する。
・セグメントモデル生成部31−1乃至31−nが係るセグメントをクラスタリングすることによって1以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部32−1乃至32−nが係るセグメント音声モデルを使用して比較対象音声データ330−1乃至330−nと入力音声データ340との間の類似度を算出する。
図5は第4の実施形態の音声データ処理装置4の構成を概念的に示すブロック図である。
・セグメント抽出部40が第1の音声情報をセグメントに分割する。
・セグメントモデル生成部41が係るセグメントをクラスタリングすることによって1以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部42が係るセグメント音声モデルを使用して第1の音声情報と第2の音声情報との間の類似度を算出する。
上述した実施形態において図1、及び、図3乃至5に示した各部は、専用のHW(HardWare)(電子回路)によって実現することができる。また、少なくとも、セグメント抽出部10、20、30−1乃至30−n、及び、40、セグメントモデル生成部11、21、31−1乃至31−n、及び、41、及び、類似度計算部12、22、32−1乃至32−n、及び、42は、ソフトウェアプログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図6を参照して説明する。
(付記1)
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出手段と、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成手段と、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算手段と、
を備えたことを特徴とする音声データ処理装置。
(付記2)
前記セグメント抽出手段は、前記セグメントモデル生成手段が生成した前記セグメントのモデルを用いてセグメントを再抽出し、
前記セグメントモデル生成手段は、前記セグメント抽出手段が再抽出した前記セグメントを用いて前記セグメントのモデルを再生成することを特徴とする、付記1に記載の音声データ処理装置。
(付記3)
前記類似度計算手段は、前記第二の音声データに対する前記セグメントのモデルの最適アラインメントを求めることにより、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、付記1または2に記載の音声データ処理装置。
(付記4)
前記セグメント抽出手段は、前記第一の音声データに加えて前記第二の音声データからもセグメントを抽出し、前記セグメントモデル生成手段は、前記第一の音声データおよび前記第二の音声データから抽出されたセグメントを用いてセグメントのモデルを生成し、
前記類似度計算手段は、前記セグメントのモデル、前記第一の音声データ、および、前記第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、付記1ないし3のいずれかに記載の音声データ処理装置。
(付記5)
前記セグメント抽出手段は、前記第一及び第二の音声データ、または、前記第一の音声データに対する前記セグメントのモデルの最適アラインメント、または、所定の基準モデルの最適アラインメントを求めることによりセグメントを抽出することを特徴とする、付記1ないし4のいずれかに記載の音声データ処理装置。
(付記6)
前記セグメントモデル生成手段は、前記セグメントの近さに基づいてクラスタリングを行い、さらにその結果として生ずるクラスタごとに、時系列データの統計モデルを規定するパラメータを推定することを特徴とする、付記1ないし5のいずれかに記載の音声データ処理装置。
(付記7)
比較手段をさらに備え、
前記セグメント抽出手段は、異なる複数の前記第一の音声データから、それぞれ、前記セグメントを抽出し、
前記セグメントモデル生成手段は、前記第一の音声データ別に、前記セグメントのモデルを生成し、
前記類似度計算手段は、複数の前記第一の音声データの各々と前記第二の音声データとの間の類似度を計算し、
前記比較手段は、前記類似度を比較し、所定の類似度を有する前記第一の音声データを選択することを特徴とする付記1ないし6のいずれかに記載の音声データ処理装置。
(付記8)
情報処理装置によって、
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出し、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成し、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する、
音声データ処理方法。
(付記9)
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出処理と、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成処理と、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算処理と、
をコンピュータに実行させる音声データ処理プログラム。
(付記10)
第一の音声情報を、前記第一の音声情報の構造に応じた所定の基準に基づいて、複数のセグメントに分割して、前記セグメントを抽出するセグメント抽出手段と、
特性が類似する前記セグメントを同一のクラスタに分類し、前記クラスタ別に部分的な音声モデルであるセグメント音声モデルを生成するセグメントモデル生成手段と、
前記セグメント音声モデルと第二の音声情報とを使用して、前記所定の基準に基づいて、前記第一の音声情報と前記第二の音声情報との間の類似度を算出する類似度計算手段と、
を備える音声データ処理装置。
(付記11)
前記セグメント抽出手段は、前記セグメントモデル生成手段が生成した前記セグメント音声モデルを基準として、前記第一の音声情報を、複数の前記セグメントに再分割し、
前記セグメントモデル生成手段は、前記セグメント抽出手段が再分割した前記セグメントを用いて、前記セグメント音声モデルを再生成する、
付記10に記載の音声データ処理装置。
(付記12)
前記セグメント抽出手段は、前記第二の音声情報を、前記第二の音声情報の構造に応じた前記所定の基準に基づいて、複数の前記セグメントに分割し、
前記セグメントモデル生成手段は、前記第二の音声情報に関して、前記セグメント音声モデルを生成し、
前記類似度計算手段は、前記セグメント音声モデルと、前記第一及び第二の音声情報とを使用して、前記類似度が示す値を算出する、
付記10または11に記載の音声データ処理装置。
(付記13)
前記セグメント抽出手段は、前記第二の音声情報、あるいは、前記第一及び第二の音声情報に対する前記セグメント音声モデルに関する最適アラインメントを求めることによって、前記セグメントに分割し、
前記類似度計算手段は、前記最適アラインメントに基づき、前記類似度が示す値を算出する、
付記10乃至12のいずれかに記載の音声データ処理装置。
(付記14)
前記セグメント抽出手段は、前記第一の音声情報、あるいは、前記第一及び第二の音声情報を、所定の時系列統計モデルを基準として、前記セグメントに分割し、
前記セグメントモデル生成手段は、前記クラスタ別に、前記統計モデルを規定するパラメータ値を設定する、
付記10乃至13のいずれかに記載の音声データ処理装置。
(付記15)
前記セグメント抽出手段は、前記第一の音声情報、あるいは、前記第一及び第二の音声情報が有する1つの音素あるいは音節が、開始してから終了するまでに要する時間ごとに、前記セグメントに分割する、
付記10乃至14のいずれかに記載の音声データ処理装置。
(付記16)
前記セグメント抽出手段は、特徴ベクトルの時系列により示される、前記第一の音声情報、あるいは、前記第一及び第二の音声情報について、前記特徴ベクトルが示す値に関する単位時間当たりの変化量が示す値が閾値以上となる時刻ごとに、前記セグメントに分割する、
付記10乃至15のいずれかに記載の音声データ処理装置。
(付記17)
前記セグメント抽出手段は、複数の前記第一の音声情報を、それぞれ、複数の前記セグメントに分割し、
前記セグメントモデル生成手段は、前記第一の音声情報別に、前記セグメント音声モデルを生成し、
前記類似度計算手段は、前記第一の音声情報別に、前記第二の音声情報との間の前記類似度を算出し、
複数の前記第一の音声情報に関する前記類似度が示す値を比較して、その値が最も大きい前記第一の音声情報を識別可能な識別子を求める比較手段をさらに備える、
付記10乃至16のいずれかに記載の音声データ処理装置。
(付記18)
情報処理装置によって、
第一の音声情報を、前記第一の音声情報の構造に応じた所定の基準に基づいて、複数のセグメントに分割して、前記セグメントを抽出し、
特性が類似する前記セグメントを同一のクラスタに分類し、前記クラスタ別に部分的な音声モデルであるセグメント音声モデルを生成し、
前記セグメント音声モデルと第二の音声情報とを使用して、前記所定の基準に基づいて、前記第一の音声情報と前記第二の音声情報との間の類似度を算出する、
音声データ処理方法。
(付記19)
第一の音声情報を、前記第一の音声情報の構造に応じた所定の基準に基づいて、複数のセグメントに分割して、前記セグメントを抽出するセグメント抽出処理と、
特性が類似する前記セグメントを同一のクラスタに分類し、前記クラスタ別に部分的な音声モデルであるセグメント音声モデルを生成するセグメント生成処理と、
前記セグメント音声モデルと第二の音声情報とを使用して、前記所定の基準に基づいて、前記第一の音声情報と前記第二の音声情報との間の類似度を算出する類似度計算処理と、
をコンピュータに実行させる音声データ処理プログラム。
10 セグメント抽出部
11 セグメントモデル生成部
12 類似度計算部
13 音声データ記憶部
130 比較対象音声データ
14 音声データ入力部
140 入力音声データ
141 入力音声
2 音声データ処理装置
20 セグメント抽出部
21 セグメントモデル生成部
22 類似度計算部
23 音声データ記憶部
230 比較対象音声データ
24 音声データ入力部
240 入力音声データ
241 入力音声
3 音声データ処理装置
30−1乃至30−n セグメント抽出部
31−1乃至31−n セグメントモデル生成部
32−1乃至32−n 類似度計算部
33−1乃至33−n 音声データ記憶部
330−1乃至330−n 比較対象音声データ
34 音声データ入力部
340 入力音声データ
341 入力音声
35−1乃至35−n マッチング部
36 比較部
4 音声データ処理装置
40 セグメント抽出部
41 セグメントモデル生成部
42 類似度計算部
5 音声データ処理装置
51 音声データ入力部
510 入力音声データ
511 入力音声
52 セグメント整合部
53 音声モデル記憶部
54 類似度計算部
55 音声データ記憶部
550 比較対象音声データ
56 フレームモデル生成部
57 フレームモデル記憶部
58 音声データ変換部
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 ハードディスク
905 通信インタフェース
906 バス
907 記憶媒体
908 リーダライタ
909 入出力インタフェース
Claims (8)
- 第一及び第二の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出手段と、
前記第一及び第二の音声データから抽出された前記セグメントをクラスタリングによってクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成手段と、
前記セグメントのモデルと前記第一及び第二の音声データとを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算手段と、
を備えたことを特徴とする音声データ処理装置。 - 前記セグメント抽出手段は、前記セグメントモデル生成手段が生成した前記セグメントのモデルを用いてセグメントを再抽出し、
前記セグメントモデル生成手段は、前記セグメント抽出手段が再抽出した前記セグメントを用いて前記セグメントのモデルを再生成することを特徴とする、請求項1に記載の音声データ処理装置。 - 前記類似度計算手段は、前記第一及び第二の音声データに対する前記セグメントのモデルの最適アラインメントを求めることにより、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、請求項1または2に記載の音声データ処理装置。
- 前記セグメント抽出手段は、前記第一及び第二の音声データ、または、前記第一及び第二の音声データに対する前記セグメントのモデルの最適アラインメント、または、所定の基準モデルの最適アラインメントを求めることによりセグメントを抽出することを特徴とする、請求項1ないし3のいずれかに記載の音声データ処理装置。
- 前記セグメントモデル生成手段は、前記セグメントの近さに基づいてクラスタリングを行い、さらにその結果として生ずるクラスタごとに、時系列データの統計モデルを規定するパラメータを推定することを特徴とする、請求項1ないし4のいずれかに記載の音声データ処理装置。
- 比較手段をさらに備え、
前記セグメント抽出手段は、異なる複数の前記第一の音声データから、それぞれ、前記セグメントを抽出し、
前記セグメントモデル生成手段は、前記第一の音声データ別に、前記セグメントのモデルを生成し、
前記類似度計算手段は、複数の前記第一の音声データの各々と前記第二の音声データとの間の類似度を計算し、
前記比較手段は、前記類似度を比較し、所定の類似度を有する前記第一の音声データを選択することを特徴とする請求項1ないし5のいずれかに記載の音声データ処理装置。 - 情報処理装置によって、
第一及び第二の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出し、
前記第一及び第二の音声データから抽出された前記セグメントをクラスタリングによってクラスタに分類し、前記クラスタごとにセグメントのモデルを生成し、
前記セグメントのモデルと前記第一及び第二の音声データとを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する、
音声データ処理方法。 - 第一及び第二の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出処理と、
前記第一及び第二の音声データから抽出された前記セグメントをクラスタリングによってクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成処理と、
前記セグメントのモデルと前記第一及び第二の音声データとを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算処理と、
をコンピュータに実行させる音声データ処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015105939A JP6596924B2 (ja) | 2014-05-29 | 2015-05-26 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
US14/722,455 US20150348571A1 (en) | 2014-05-29 | 2015-05-27 | Speech data processing device, speech data processing method, and speech data processing program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014111108 | 2014-05-29 | ||
JP2014111108 | 2014-05-29 | ||
JP2015105939A JP6596924B2 (ja) | 2014-05-29 | 2015-05-26 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016006504A JP2016006504A (ja) | 2016-01-14 |
JP6596924B2 true JP6596924B2 (ja) | 2019-10-30 |
Family
ID=54702539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015105939A Active JP6596924B2 (ja) | 2014-05-29 | 2015-05-26 | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20150348571A1 (ja) |
JP (1) | JP6596924B2 (ja) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989849B (zh) * | 2015-06-03 | 2019-12-03 | 乐融致新电子科技(天津)有限公司 | 一种语音增强方法、语音识别方法、聚类方法及装置 |
JP6556575B2 (ja) * | 2015-09-15 | 2019-08-07 | 株式会社東芝 | 音声処理装置、音声処理方法及び音声処理プログラム |
US10397711B2 (en) * | 2015-09-24 | 2019-08-27 | Gn Hearing A/S | Method of determining objective perceptual quantities of noisy speech signals |
US10141009B2 (en) * | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
CA3179080A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
US10325601B2 (en) | 2016-09-19 | 2019-06-18 | Pindrop Security, Inc. | Speaker recognition in the call center |
CN106531190B (zh) * | 2016-10-12 | 2020-05-05 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
CN107785031B (zh) * | 2017-10-18 | 2021-01-22 | 京信通信系统(中国)有限公司 | 一种测试无线通信中有线网络侧语音损伤的方法及基站 |
WO2020159917A1 (en) | 2019-01-28 | 2020-08-06 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
JP7041639B2 (ja) * | 2019-02-04 | 2022-03-24 | ヤフー株式会社 | 選択装置、選択方法および選択プログラム |
US11019201B2 (en) | 2019-02-06 | 2021-05-25 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
US11646018B2 (en) | 2019-03-25 | 2023-05-09 | Pindrop Security, Inc. | Detection of calls from voice assistants |
US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
KR102190986B1 (ko) * | 2019-07-03 | 2020-12-15 | 주식회사 마인즈랩 | 개별 화자 별 음성 생성 방법 |
CN110688414B (zh) * | 2019-09-29 | 2022-07-22 | 京东方科技集团股份有限公司 | 时序数据的处理方法、装置和计算机可读存储介质 |
CN111723105B (zh) * | 2020-06-15 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 计算数据相似性的方法和装置 |
KR102190989B1 (ko) * | 2020-11-09 | 2020-12-15 | 주식회사 마인즈랩 | 동시 발화 구간에서의 음성 생성 방법 |
KR102190988B1 (ko) * | 2020-11-09 | 2020-12-15 | 주식회사 마인즈랩 | 개별 화자 별 음성 제공 방법 및 컴퓨터 프로그램 |
KR102190987B1 (ko) * | 2020-11-09 | 2020-12-15 | 주식회사 마인즈랩 | 동시 발화 구간에서 개별 화자의 음성을 생성하는 인공 신경망의 학습 방법 |
CN114187895B (zh) * | 2021-12-17 | 2024-09-24 | 海尔优家智能科技(北京)有限公司 | 语音识别方法、装置、设备和存储介质 |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
US4914703A (en) * | 1986-12-05 | 1990-04-03 | Dragon Systems, Inc. | Method for deriving acoustic models for use in speech recognition |
US4803729A (en) * | 1987-04-03 | 1989-02-07 | Dragon Systems, Inc. | Speech recognition method |
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
US5121428A (en) * | 1988-01-20 | 1992-06-09 | Ricoh Company, Ltd. | Speaker verification system |
US5202952A (en) * | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5655058A (en) * | 1994-04-12 | 1997-08-05 | Xerox Corporation | Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications |
US5638487A (en) * | 1994-12-30 | 1997-06-10 | Purespeech, Inc. | Automatic speech recognition |
US5687287A (en) * | 1995-05-22 | 1997-11-11 | Lucent Technologies Inc. | Speaker verification method and apparatus using mixture decomposition discrimination |
JP2923243B2 (ja) * | 1996-03-25 | 1999-07-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識のための単語モデル生成装置及び音声認識装置 |
US6088669A (en) * | 1997-01-28 | 2000-07-11 | International Business Machines, Corporation | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling |
US6253173B1 (en) * | 1997-10-20 | 2001-06-26 | Nortel Networks Corporation | Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors |
US6009392A (en) * | 1998-01-15 | 1999-12-28 | International Business Machines Corporation | Training speech recognition by matching audio segment frequency of occurrence with frequency of words and letter combinations in a corpus |
JP2000075889A (ja) * | 1998-09-01 | 2000-03-14 | Oki Electric Ind Co Ltd | 音声認識システム及び音声認識方法 |
US6684186B2 (en) * | 1999-01-26 | 2004-01-27 | International Business Machines Corporation | Speaker recognition using a hierarchical speaker model tree |
US6421645B1 (en) * | 1999-04-09 | 2002-07-16 | International Business Machines Corporation | Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification |
US6424946B1 (en) * | 1999-04-09 | 2002-07-23 | International Business Machines Corporation | Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering |
US6748356B1 (en) * | 2000-06-07 | 2004-06-08 | International Business Machines Corporation | Methods and apparatus for identifying unknown speakers using a hierarchical tree structure |
US7295970B1 (en) * | 2002-08-29 | 2007-11-13 | At&T Corp | Unsupervised speaker segmentation of multi-speaker speech data |
US7181393B2 (en) * | 2002-11-29 | 2007-02-20 | Microsoft Corporation | Method of real-time speaker change point detection, speaker tracking and speaker model construction |
EP1576580B1 (en) * | 2002-12-23 | 2012-02-08 | LOQUENDO SpA | Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames |
JP2007504495A (ja) * | 2003-08-26 | 2007-03-01 | クリアプレイ,インク. | 音響信号の演奏を制御する方法と装置 |
US7389233B1 (en) * | 2003-09-02 | 2008-06-17 | Verizon Corporate Services Group Inc. | Self-organizing speech recognition for information extraction |
US7231019B2 (en) * | 2004-02-12 | 2007-06-12 | Microsoft Corporation | Automatic identification of telephone callers based on voice characteristics |
JP4328698B2 (ja) * | 2004-09-15 | 2009-09-09 | キヤノン株式会社 | 素片セット作成方法および装置 |
US8078463B2 (en) * | 2004-11-23 | 2011-12-13 | Nice Systems, Ltd. | Method and apparatus for speaker spotting |
JP5055781B2 (ja) * | 2006-02-14 | 2012-10-24 | 株式会社日立製作所 | 会話音声分析方法、及び、会話音声分析装置 |
JP4728972B2 (ja) * | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
TW200926140A (en) * | 2007-12-11 | 2009-06-16 | Inst Information Industry | Method and system of generating and detecting confusion phones of pronunciation |
US8527623B2 (en) * | 2007-12-21 | 2013-09-03 | Yahoo! Inc. | User vacillation detection and response |
US8140330B2 (en) * | 2008-06-13 | 2012-03-20 | Robert Bosch Gmbh | System and method for detecting repeated patterns in dialog systems |
US8195460B2 (en) * | 2008-06-17 | 2012-06-05 | Voicesense Ltd. | Speaker characterization through speech analysis |
WO2010001393A1 (en) * | 2008-06-30 | 2010-01-07 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
EP2216775B1 (en) * | 2009-02-05 | 2012-11-21 | Nuance Communications, Inc. | Speaker recognition |
JP5460709B2 (ja) * | 2009-06-04 | 2014-04-02 | パナソニック株式会社 | 音響信号処理装置および方法 |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
WO2011037562A1 (en) * | 2009-09-23 | 2011-03-31 | Nuance Communications, Inc. | Probabilistic representation of acoustic segments |
ES2371619B1 (es) * | 2009-10-08 | 2012-08-08 | Telefónica, S.A. | Procedimiento de detección de segmentos de voz. |
US20120215528A1 (en) * | 2009-10-28 | 2012-08-23 | Nec Corporation | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
WO2011064938A1 (ja) * | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
US8812321B2 (en) * | 2010-09-30 | 2014-08-19 | At&T Intellectual Property I, L.P. | System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning |
US8972260B2 (en) * | 2011-04-20 | 2015-03-03 | Robert Bosch Gmbh | Speech recognition using multiple language models |
BR112013026333B1 (pt) * | 2011-04-28 | 2021-05-18 | Telefonaktiebolaget L M Ericsson (Publ) | método de classificação de sinal de áudio baseada em quadro, classificador de áudio, dispositivo de comunicação de áudio, e, disposição de codec de áudio |
WO2012175094A1 (en) * | 2011-06-20 | 2012-12-27 | Agnitio, S.L. | Identification of a local speaker |
JP5779032B2 (ja) * | 2011-07-28 | 2015-09-16 | 株式会社東芝 | 話者分類装置、話者分類方法および話者分類プログラム |
US9042867B2 (en) * | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
WO2014029099A1 (en) * | 2012-08-24 | 2014-02-27 | Microsoft Corporation | I-vector based clustering training data in speech recognition |
US20140142925A1 (en) * | 2012-11-16 | 2014-05-22 | Raytheon Bbn Technologies | Self-organizing unit recognition for speech and other data series |
US9355636B1 (en) * | 2013-09-16 | 2016-05-31 | Amazon Technologies, Inc. | Selective speech recognition scoring using articulatory features |
-
2015
- 2015-05-26 JP JP2015105939A patent/JP6596924B2/ja active Active
- 2015-05-27 US US14/722,455 patent/US20150348571A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20150348571A1 (en) | 2015-12-03 |
JP2016006504A (ja) | 2016-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6596924B2 (ja) | 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム | |
Verma et al. | i-Vectors in speech processing applications: a survey | |
Sato et al. | Emotion recognition using mel-frequency cepstral coefficients | |
Singer et al. | The MITLL NIST LRE 2011 language recognition system | |
JP5240457B2 (ja) | 拡張認識辞書学習装置と音声認識システム | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
Ben-Harush et al. | Initialization of iterative-based speaker diarization systems for telephone conversations | |
Firooz et al. | Improvement of automatic speech recognition systems via nonlinear dynamical features evaluated from the recurrence plot of speech signals | |
Schuller et al. | Discrimination of speech and non-linguistic vocalizations by non-negative matrix factorization | |
Shekofteh et al. | Feature extraction based on speech attractors in the reconstructed phase space for automatic speech recognition systems | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
Yılmaz et al. | Noise robust exemplar matching using sparse representations of speech | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
Wang et al. | Disentangling the impacts of language and channel variability on speech separation networks | |
Manjunath et al. | Development of consonant-vowel recognition systems for Indian languages: Bengali and Odia | |
Dong et al. | Mapping frames with DNN-HMM recognizer for non-parallel voice conversion | |
Vakhshiteh et al. | Exploration of properly combined audiovisual representation with the entropy measure in audiovisual speech recognition | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
Yulita et al. | Feature extraction analysis for hidden Markov models in Sundanese speech recognition | |
CN110706689A (zh) | 感情推测系统以及计算机可读介质 | |
Patil et al. | Linear collaborative discriminant regression and Cepstra features for Hindi speech recognition | |
Hegde et al. | Statistical analysis of features and classification of alphasyllabary sounds in Kannada language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180413 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190903 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190916 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6596924 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |