JP2021152682A - 音声処理装置、音声処理方法、およびプログラム - Google Patents
音声処理装置、音声処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2021152682A JP2021152682A JP2021109850A JP2021109850A JP2021152682A JP 2021152682 A JP2021152682 A JP 2021152682A JP 2021109850 A JP2021109850 A JP 2021109850A JP 2021109850 A JP2021109850 A JP 2021109850A JP 2021152682 A JP2021152682 A JP 2021152682A
- Authority
- JP
- Japan
- Prior art keywords
- acoustic
- speaker
- information
- feature
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 72
- 238000003672 processing method Methods 0.000 title claims description 5
- 239000013598 vector Substances 0.000 claims abstract description 99
- 238000004364 calculation method Methods 0.000 claims abstract description 79
- 238000000605 extraction Methods 0.000 claims abstract description 64
- 230000005236 sound signal Effects 0.000 claims description 66
- 230000010354 integration Effects 0.000 claims description 25
- 238000000034 method Methods 0.000 description 40
- 238000009826 distribution Methods 0.000 description 25
- 238000001514 detection method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000556 factor analysis Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/12—Score normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、第1の実施形態に係る音声処理装置100のブロック図である。音声処理装置100は、音響統計量算出部11、音響モデル記憶部12、部分特徴抽出部13および部分特徴統合部14を備える。
(音響モデル記憶部12)
音響モデル記憶部12は、1つ以上の音響モデルを記憶する。音響モデルとは、音声信号の周波数特性と音の種類との対応関係を表すものである。音響モデルは、瞬時的な音声信号が表す音の種類を識別するように構成される。音響モデルの表現としては、例えば、ガウス混合モデル(GMM:Gaussian Mixture Model)やニューラルネットワーク(Neural Network)、隠れマルコフモデル(HMM:Hidden Markov Model)がある。
(音響統計量算出部11)
音響統計量算出部11は、音声信号を受け取り、受け取った音声信号から音響特徴を算出し、算出した音響特徴と1つ以上の音響モデルとを用いて、音響多様度を算出し、算出した音響多様度および音響特徴を出力する。
周波数分析処理として、例えば、音響統計量算出部11は、高速フーリエ変換処理(FFT:fast Fourier transform)およびフィルタバンク処理を行うことにより、音響特徴である周波数フィルタバンク特徴を算出する。あるいは、周波数分析処理として、音響統計量算出部11は、FFTおよびフィルタバンク処理に加えて離散コサイン変換処理を行うことにより、音響特徴であるメル周波数ケプストラム係数(MFCC:Mel−Frequency Cepstrum Coefficients)を算出する。
このようにして算出した複数の音の種類それぞれの出現度を用いて、音響統計量算出部11は、さらに音響多様度を算出する。
(部分特徴抽出部13)
部分特徴抽出部13は、音響統計量算出部11が出力した統計情報(音響多様度や音響特徴等)を受け取る。部分特徴抽出部13は、受け取った統計情報を用いて、認識特徴量を算出する処理を行い、算出した認識特徴量を出力する。ここで、認識特徴量とは、音声信号から特定の属性情報を認識するための情報である。属性情報とは、音声信号を発した話者の個人性や発話された音声信号の言語等を示す情報である。認識特徴量は、例えば、1つ以上の値からなるベクトルである。ベクトルである認識特徴量としては、例えば、i−vectorがある。
(部分特徴統合部14)
部分特徴統合部14は、部分特徴抽出部13が出力した認識特徴量を受け取る。部分特徴統合部14は、受け取った認識特徴量を用いて、特徴ベクトルを算出する処理を行い、その処理結果を出力する。ここで、特徴ベクトルとは、音声信号から特定の属性情報を認識するためのベクトル情報である。
(第1の実施形態の動作)
次に、第1の実施形態における音声処理装置100の動作について説明する。
(第1の実施形態の効果)
以上、説明したように、本実施形態にかかる音声処理装置100は、部分特徴抽出部13が音の種類を考慮した部分特徴ベクトルを算出し、部分特徴統合部14が算出された部分特徴ベクトル統合することで、その要素と音声信号の構成要素との対応づけが可能な特徴ベクトルを出力する。すなわち、音声処理装置100は、音声信号に対して部分特徴ベクトルを統合した特徴ベクトルを出力する。このような計算方式により、音声処理装置100は、音の種類ごとの認識特徴量(特徴ベクトル)を算出することができる。つまり、話者認識結果の解釈性を高めることが可能となる。
<第2の実施形態>
次に、第2の実施形態について説明する。本実施形態では、音声処理装置の適用例として、上述した第1の実施形態にかかる音声処理装置100を含む話者認識装置について説明する。なお、第1の実施形態と同じ機能を有する構成については、同じ符号を付し、その説明を省略する場合がある。
(第2の実施形態の動作)
次に、話者認識装置200の動作について、図5のフローチャートを用いて説明する。
図5は、第2の実施形態に係る話者認識装置200の動作の一例を示すフローチャートである。
(第2の実施形態の効果)
以上、説明したように、話者認識装置200は、認識特徴抽出部22が音の種類を考慮した部分特徴ベクトルを算出し、算出された部分特徴ベクトル統合することで、その要素と音声信号との対応づけが可能な特徴ベクトルとして出力する。さらに、話者認識計算部23が特徴ベクトルから話者認識のスコアを算出して出力する。このような計算方式により、話者認識のスコアから音声信号に含まれる属性情報が特定できる。そして、音の種類ごとの話者認識のスコアを算出することができる。つまり、話者認識結果の解釈性を高めることが可能となる。
(付記1)
1つ以上の音響モデルを記憶する音響モデル記憶部と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出部と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性又は言語を認識するための認識特徴量を算出する部分特徴抽出部と、
算出された前記認識特徴量を用いて特徴ベクトルを算出する部分特徴統合部と、
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部を備える、
音声処理装置。
(付記2)
前記部分特徴抽出部は、前記音響多様度から複数の重みつきの音響多様度を算出し、前記重みつきの音響多様度それぞれと前記音響特徴とから、複数の認識特徴量を算出する、付記1に記載した音声処理装置。
(付記3)
前記部分特徴抽出部は、認識特徴量としてベクトル形式で表現される部分特徴ベクトルを算出する、付記1または付記2に記載した音声処理装置。
(付記4)
前記音響統計量算出部は、
前記音響モデルを用いて、受け取った前記音声信号に含まれる音の種類の比率に基づき、前記音響多様度を算出する、付記1から付記3のいずれか1つに記載した音声処理装置。
(付記5)
前記音響統計量算出部は、前記音響モデルとしてガウス混合モデルを用いて、要素分布の事後確率として算出した値に基づき、前記音響多様度を算出する、付記1から付記4のいずれか1つに記載した音声処理装置。
(付記6)
前記音響統計量算出手段は、前記音響モデルとしてニューラルネットワークを用いて、音の種類の出現度として算出した値に基づき、前記音響多様度を算出する、付記1から付記4のいずれか1つに記載した音声処理装置。
(付記7)
前記部分特徴抽出手段は、
前記音声信号の前記音響多様度と選別係数と、前記音響特徴を用いて、前記認識特徴量としてi−vectorを算出する、付記1から付記3のいずれか1つに記載した音声処理装置。
(付記8)
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部をさらに備える、
付記1から付記7のいずれか1つに記載した音声処理装置。
(付記9)
受け取った音声信号を区分化して区分化音声信号とする音声区間検出部と、
1つ以上の音響モデルを記憶する音響モデル記憶部と、
前記区分化音声信号から音響特徴を算出し、算出した音響特徴と前記音響モデル記憶部に記憶された音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する音響統計量算出部と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性又は言語を認識するための認識特徴量を算出する部分特徴抽出部と、
算出された前記認識特徴量を用いて特徴ベクトルを算出する部分特徴統合部と、
算出された前記特徴ベクトルから、前記音声信号が特定の話者に適合する度合いである話者認識のスコアを算出する話者認識計算部を備える、
音声処理装置。
(付記10)
前記話者認識計算部は、
前記特徴ベクトルから、それぞれ別の音の種類に対応する複数のベクトルを作成し、前記複数のベクトルそれぞれについてスコアを算出し、算出した複数の前記スコアを統合することで話者認識のスコアを算出する、付記9に記載した音声処理装置。
(付記11)
前記話者認識計算部は、算出した前記スコアを、音の種類を示す情報とあわせて出力する付記10に記載した音声処理装置。
(付記12)
前記特徴ベクトルは、音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格、の少なくともいずれか一つを認識するための情報である、付記1から付記11のいずれか1つに記載した音声処理装置。
(付記13)
1つ以上の音響モデルを記憶し、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出し、 算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、
算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性や言語等を示す情報を認識するための情報である認識特徴量を算出し、
算出された前記認識特徴量を用いて特徴ベクトルを算出する、
音声処理方法。
(付記14)
コンピュータを、
1つ以上の音響モデルを記憶する手段と、
受け取った音声信号から音響特徴を算出し、算出した音響特徴と記憶された前記音響モデルとを用いて、音の種類のばらつきの程度を表すベクトルである音響多様度を算出する手段と、
算出された前記音響多様度と選別係数を用いて、重みつきの音響多様度を算出し、算出された前記重みつきの音響多様度および前記音響特徴を用いて、話者の個人性や言語等を示す情報を認識するための情報である認識特徴量を算出する手段、
として機能させるためのプログラム。
12 音響モデル記憶部
13 部分特徴抽出部
130n 選別部
131n 特徴抽出部
14 部分特徴統合部
21 音声区間検出部
22 認識特徴抽出部
23 話者認識計算部
231 分割部
232m 認識部
233 統合部
24 話者モデル記憶部
100 音声処理装置
200 話者認識装置
V(x) 音声信号xの音響多様度
Vt(x) 短時間フレームごとに算出された音響多様度
Vnt(x) 重みつきの音響多様度
Pi(x) GMMのi番目の要素分布の事後確率
N() ガウス分布の確率密度関数
θi GMMのi番目の要素分布のパラメタ(平均と分散)
wi GMMのi番目の要素分布の混合係数
Ci(x) GMMのi番目の要素分布が選ばれた回数
Wn 選別係数
F(x) 認識特徴量
Fn(x) 部分特徴ベクトル
S0(x) 音声信号xの0次統計量
S1(x) 音声信号xの1次統計量
At(x) 音響特徴
c 統計量S0(x)およびS1(x)の要素数
D At(x)の要素数(次元数)
mc 音響特徴空間におけるc番目の領域の平均ベクトル
S1(x) 音声信号xの1次統計量
Claims (10)
- 音声信号から音響特徴を算出し、算出した前記音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出する算出手段と、
前記音響多様情報および前記音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出する抽出手段と、
前記認識特徴情報を用いて、前記音声信号を発した前記話者に関する情報を出力する出力手段と、を備える、
音声処理装置。 - 前記算出手段は、
前記音響モデルから、前記複数の音の種類に対応するパラメタを取り出し、
前記音響特徴と、前記複数の音の種類に対応する前記パラメタに基づき、前記音声信号に含まれる前記複数の音の種類のそれぞれについて、前記出現度を算出する
ことを特徴とする請求項1に記載の音声処理装置。 - 前記音響多様情報は、前記音声信号に含まれる音の種類のばらつきの程度を表すベクトルであり、
前記抽出手段は、
前記音響多様情報に対して、音の種類を選ぶために予め定義するベクトルである選別係数をかけて、重みつきの音響多様情報を算出する選別手段を含む
ことを特徴とする請求項1または2に記載の音声処理装置。 - 前記抽出手段は、
前記重みつきの音響多様情報および前記音響特徴を用いて、前記選別係数によって選択された前記音の種類と対応する前記音声信号のi−vectorである部分特徴ベクトルを算出する特徴抽出手段をさらに含む
ことを特徴とする請求項3に記載の音声処理装置。 - 前記特徴抽出手段は、
前記複数の音の種類と対応する複数の前記選別係数を用いて、前記複数の音の種類と対応する複数の前記部分特徴ベクトルを算出する
ことを特徴とする請求項4に記載の音声処理装置。 - 前記抽出手段は、
複数の前記部分特徴ベクトルを統合することによって、それぞれの要素が音声信号を構成するどの要素に対応するかを解釈可能な特徴ベクトルを算出する部分特徴統合手段をさらに含む
ことを特徴とする請求項5に記載の音声処理装置。 - 前記出力手段は、
話者の識別子と対応付けられた話者モデルを用いて、前記認識特徴情報が前記話者に適合する度合いである話者認識のスコアを算出し、
前記スコアに基づいて、前記音声信号を発した前記話者を認識する
ことを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。 - 前記出力手段は、前記スコアを、音の種類を示す情報とあわせて出力する
ことを特徴とする請求項7に記載の音声処理装置。 - 音声信号から音響特徴を算出し、算出した前記音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出し、
前記音響多様情報および前記音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出し、
前記認識特徴情報を用いて、前記音声信号を発した前記話者に関する情報を出力する、
音声処理方法。 - 音声信号から音響特徴を算出し、算出した前記音響特徴と記憶された音響モデルとを用いて、複数の音の種類の出現度に関する音響多様情報を算出することと、
前記音響多様情報および前記音響特徴を用いて、話者を示す情報を認識するための情報である認識特徴情報を抽出することと、
前記認識特徴情報を用いて、前記音声信号を発した前記話者に関する情報を出力することと、
をコンピュータに実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016179123 | 2016-09-14 | ||
JP2016179123 | 2016-09-14 | ||
JP2018539704A JP6908045B2 (ja) | 2016-09-14 | 2017-09-11 | 音声処理装置、音声処理方法、およびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018539704A Division JP6908045B2 (ja) | 2016-09-14 | 2017-09-11 | 音声処理装置、音声処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021152682A true JP2021152682A (ja) | 2021-09-30 |
JP7342915B2 JP7342915B2 (ja) | 2023-09-12 |
Family
ID=61619988
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018539704A Active JP6908045B2 (ja) | 2016-09-14 | 2017-09-11 | 音声処理装置、音声処理方法、およびプログラム |
JP2021109850A Active JP7342915B2 (ja) | 2016-09-14 | 2021-07-01 | 音声処理装置、音声処理方法、およびプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018539704A Active JP6908045B2 (ja) | 2016-09-14 | 2017-09-11 | 音声処理装置、音声処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190279644A1 (ja) |
JP (2) | JP6908045B2 (ja) |
WO (1) | WO2018051945A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945806B (zh) * | 2017-11-10 | 2022-03-08 | 北京小米移动软件有限公司 | 基于声音特征的用户识别方法及装置 |
US10950244B2 (en) * | 2017-11-29 | 2021-03-16 | ILLUMA Labs LLC. | System and method for speaker authentication and identification |
JP7159655B2 (ja) * | 2018-07-09 | 2022-10-25 | 富士フイルムビジネスイノベーション株式会社 | 感情推定システムおよびプログラム |
WO2020049687A1 (ja) * | 2018-09-06 | 2020-03-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム記録媒体 |
JP6988756B2 (ja) * | 2018-09-26 | 2022-01-05 | 日本電信電話株式会社 | タグ推定装置、タグ推定方法、プログラム |
JP2020154076A (ja) * | 2019-03-19 | 2020-09-24 | 国立研究開発法人情報通信研究機構 | 推論器、学習方法および学習プログラム |
BR112021025892A2 (pt) | 2019-06-28 | 2022-02-08 | Nec Corp | Aparelho de detecção de falsificação, método de detecção de falsificação e meio de armazenamento legível por computador |
US11158329B2 (en) * | 2019-09-11 | 2021-10-26 | Artificial Intelligence Foundation, Inc. | Identification of fake audio content |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014155652A1 (ja) * | 2013-03-29 | 2014-10-02 | 株式会社日立製作所 | 話者検索システム、プログラム |
JP2016075740A (ja) * | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6500375B2 (ja) * | 2014-09-16 | 2019-04-17 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
JP6596376B2 (ja) * | 2015-04-22 | 2019-10-23 | パナソニック株式会社 | 話者識別方法及び話者識別装置 |
-
2017
- 2017-09-11 US US16/333,008 patent/US20190279644A1/en not_active Abandoned
- 2017-09-11 WO PCT/JP2017/032666 patent/WO2018051945A1/ja active Application Filing
- 2017-09-11 JP JP2018539704A patent/JP6908045B2/ja active Active
-
2021
- 2021-07-01 JP JP2021109850A patent/JP7342915B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014155652A1 (ja) * | 2013-03-29 | 2014-10-02 | 株式会社日立製作所 | 話者検索システム、プログラム |
JP2016075740A (ja) * | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Non-Patent Citations (2)
Title |
---|
DEHAK, NAJIM, ET AL.: ""Front-End Factior Analysis for Speaker Verification"", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 19, JPN6022029963, 4 May 2011 (2011-05-04), pages 788 - 798, ISSN: 0004983576 * |
小川 哲司 TETSUJI OGAWA: "i−vectorを用いた話者認識 Speaker recognition using i-vector.", 日本音響学会誌 第70巻 第6号 THE JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, vol. 第70巻, JPN6022029964, 2014, JP, pages 332 - 339, ISSN: 0004983575 * |
Also Published As
Publication number | Publication date |
---|---|
JP6908045B2 (ja) | 2021-07-21 |
WO2018051945A1 (ja) | 2018-03-22 |
US20190279644A1 (en) | 2019-09-12 |
JP7342915B2 (ja) | 2023-09-12 |
JPWO2018051945A1 (ja) | 2019-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Venkataramanan et al. | Emotion recognition from speech | |
Kabir et al. | A survey of speaker recognition: Fundamental theories, recognition methods and opportunities | |
JP6464650B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
WO2017218465A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
US11315550B2 (en) | Speaker recognition device, speaker recognition method, and recording medium | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
Nidhyananthan et al. | Language and text-independent speaker identification system using GMM | |
Přibil et al. | GMM-based speaker gender and age classification after voice conversion | |
CN114303186A (zh) | 用于在语音合成中适配人类说话者嵌入的系统和方法 | |
Hämäläinen et al. | Improving speech recognition through automatic selection of age group–specific acoustic models | |
Grewal et al. | Isolated word recognition system for English language | |
JP5083951B2 (ja) | 音声処理装置およびプログラム | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
JP7353839B2 (ja) | 話者識別装置、話者識別方法、及び、プログラム | |
Nidhyananthan et al. | A framework for multilingual text-independent speaker identification system | |
Yogapriya et al. | Speech Based Access for Agricultural Commodity Prices in Tamil | |
Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210701 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20211112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230814 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7342915 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |