JP2020524308A - 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 - Google Patents
声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP2020524308A JP2020524308A JP2019570559A JP2019570559A JP2020524308A JP 2020524308 A JP2020524308 A JP 2020524308A JP 2019570559 A JP2019570559 A JP 2019570559A JP 2019570559 A JP2019570559 A JP 2019570559A JP 2020524308 A JP2020524308 A JP 2020524308A
- Authority
- JP
- Japan
- Prior art keywords
- model
- voiceprint
- target user
- voice
- voiceprint model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 230000004913 activation Effects 0.000 claims abstract description 19
- 238000006243 chemical reaction Methods 0.000 claims abstract description 12
- 230000005236 sound signal Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 38
- 238000013136 deep learning model Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 18
- 238000012790 confirmation Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 210000000056 organ Anatomy 0.000 description 8
- 230000001755 vocal effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 210000002105 tongue Anatomy 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 239000003550 marker Substances 0.000 description 4
- 210000003928 nasal cavity Anatomy 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 210000003800 pharynx Anatomy 0.000 description 4
- 210000000515 tooth Anatomy 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 230000008140 language development Effects 0.000 description 2
- 210000000867 larynx Anatomy 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 210000001331 nose Anatomy 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
したがって、短い音声テキストの認識エラー率を低減できる声紋モデルをどのように構築するかは早急に解決すべき問題である。
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するステップと、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるステップと、
前記クラスタ構造の平均値と標準偏差を計算するステップと、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するステップと、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するステップであって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、ステップとを含む。
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するために用いられる抽出手段と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるために用いられるクラスタ構造手段と、
前記クラスタ構造の平均値と標準偏差を算出するために用いられる算出手段と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するために用いられる特徴ベクトル手段と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するために用いられるモデル手段であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル手段とを含む。
S1:入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出する;
S2:複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめる;
S3:前記クラスタ構造の平均値と標準偏差を計算する;
S4:前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得する;
S5:前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得し、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる。
S21:複数の前記音声音響特徴を深層学習モデルに入力する;
S22:複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのtn時間毎の音声音響特徴でn番目のモデル層を構築し、nは正の整数である;
S23:前記多層のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層に生成された少なくとも1つのクラスタ構造を取得する;
上記ステップS21で説明したように、複数の音声音響特徴は、いずれも連続する音声信号から抽出されるため、複数の音声音響特徴も連続している。複数の前記音声音響特徴を深層学習モデルに入力する時、時間順で入力する。
S221:複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのt1時間毎の音声音響特徴で第1のモデル層を構築する;
S222:第1のモデル層において、当該時間ノードtからのt2時間毎の音声音響特徴で第2のモデル層を構築する;
S223:第2のモデル層において、当該時間ノードtからのt3時間毎の音声音響特徴で第3のモデル層を構築する;
S224:第3のモデル層において、当該時間ノードtからのt4時間毎の音声音響特徴で第4のモデル層を構築する;
S225:第4のモデル層において、当該時間ノードtからのt5時間毎の音声音響特徴で第5のモデル層を構築し、ここで、t1<t2<t3<t4<t5。
S51:前記声紋モデルの特徴ベクトルパラメータを次元削減する;
S52:前記次元削減後の特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、声紋モデルを取得する。
S11:フレーム化後の音声信号を高速フーリエ変換計算し、パワースペクトルを取得する;
S12:前記パワースペクトルをメル尺度の三角フィルタ群に入力し、共振ピーク特徴を出力する;
S13:前記共鳴ピーク特徴を離散コサイン変換して、音声音響特徴を取得する。
S6:検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した認証結果を取得する。
上記ステップS6で説明したように、声紋モデルが構築された後、当該声紋モデルは、音声信号を受信するポートを1つ有する。この声紋モデルは、音声信号を受信すると、該音声信号を計算し、対象ユーザの音声信号であれば、標的正確の信号を出力する;対象ユーザの音声信号でなければ、標的エラーの信号を出力する。
S111:フレーム化後の音声信号をプリエンファシス処理する;
S112:プリエンファシス処理された音声信号をウィンドウイングする;
S113:音声端点の検出により、発話音声が含まれる有効部分の音声信号を抽出する;
S114:前記有効部分の音声信号に高速フーリエ変換計算を行う。
S7:ユーザが前記声紋モデルにマークした属性情報を受信し、前記属性情報は前記対象ユーザの性別、年齢、民族を含む。
S14:入力されたフレーム化後の音声信号の音声内容を認識する;
S15:前記音声内容の発音部位を判定する;
S16:前記発音部位に基づいて前記音声信号を分割する;
S17:それぞれ分割された音声信号に対して音声音響特徴を抽出する。
前記ステップS15では、前記音声内容の発音部位を判断し、前記S14で認識した音声内容に基づいて、その音声内容のピンイン又は音声記号を読み出し、ピンイン又は音声記号の内容から発音部位を判定する。一般的に用いられる主な発音部位には、喉頭、舌、鼻、歯等がある。例えば、中国語の共通語では、対応する発音部位を異なる声母から特定できる。具体的な声母と発音部位の対応テーブルは以下のとおりである。
上記ステップS17では、これら3つの音声内容のそれぞれについて音響特徴を抽出し、そして、それぞれその後の深層学習モデルに入力して算出する。
入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するために用いられる抽出部1と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるクラスタ構造部2と、
前記クラスタ構造の平均値と標準偏差を算出するために用いられる算出部3と、
前記平均値と標準偏差を座標変換及び活性化関数算出し、特徴ベクトルパラメータを取得するために用いられる特徴ベクトル部4と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力し、前記対象ユーザに対応する声紋モデルを取得するために用いられるモデル部5であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル部5とを含む。
複数の前記音声音響特徴を深層学習モデルに入力するために用いられる入力ユニット21と、
複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのtn時間毎の音声音響特徴でn番目のモデル層を構築するために用いられる構築ユニットであって、nが正整数である、構築ユニット22と、
前記複数のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層に生成された少なくとも1つのクラスタ構造を取得するために用いられる選択ユニット23とを含む。
複数の音声音響特徴は、いずれも連続する音声信号で、組み合わせても連続する音声信号であり、構築ユニット22は、複数の音声音響特徴の中からいずれかの時間ノードtを選択し、t時刻からのtn期間内の音声音響特徴をまとめ、その1つのモデル層にクラスタ構造を形成する。深層学習モデルが複数のモデル層を有しているため、各モデル層に選択された時間ノードtとt時刻からの時間帯tnと異なり、各モデル層から生成するクラスタ構造の数は全く同じではない。例えば、該複数の音声音響特徴が合計10秒、すなわち10000msで、選択された時間ノードが2000ms目で、構築ユニット22は第1モデル層を構築し、t1(1ms)おきの時間内に第1モデル層を構築すると、計10000フレームを有する。そして、構築ユニット22は第2のモデル層を構築し、2を2msとし、2msおきの時間内に第2のモデル層を構築すると、第2のモデル層で計500フレームを有する。
前記声紋モデルの特徴ベクトルパラメータを次元削減するために用いられる次元削減ユニット51と、
前記次元削減後の特徴ベクトルパラメータを予め設定されたベーシックモデルに入力して、声紋モデルを取得するために用いられるモデルユニット52とを含む。
フレーム化後の音声信号を高速フーリエ変換計算し、パワースペクトルを取得するために用いられる算出ユニット11と、
前記パワースペクトルをメル尺度の三角フィルタ群に入力し、共振ピーク特徴を出力するために用いられるメル入力ユニット12と、
前記共振ピーク特徴を離散コサイン変換して、音声音響特徴を取得するために用いられる変換ユニット13とを含む。
検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した身元認証結果を取得するために用いられる検証部6を含む。
本実施形態では、声紋モデルを構築した後、該声紋モデルは、音声信号を受信するポートを1つ有している。検証部6は、音声信号を受信すると、その音声信号を計算し、対象ユーザの音声信号であれば、検証部6は標的正確の信号を出力する;対象ユーザの音声信号でなければ、検証部6は標的エラーの信号を出力する。
ユーザが前記声紋モデルにマークした属性情報を受信するために用いられる属性手段であって、前記属性情報は前記対象ユーザの性別、年齢、民族を含む、属性部7を含む。
入力されたフレーム化後の音声信号の音声内容を認識するために用いられる認識ユニット14と、
前記音声内容の発音部位を判定するために用いられる判断ユニット15と、
前記発音部位に基づいて前記音声信号を分割するために用いられる分割ユニット16と、
それぞれ分割された音声信号に対して音声音響特徴を抽出するために用いられる抽出ユニット17とを含む。
判断ユニット15は、前記音声内容の発音部位を判断し、上記認識ユニット14で認識した音声内容に基づいて、その音声内容のピンイン又は音声記号を読み出し、ピンイン又は音声記号の内容から発音部位を判定する。一般的に用いられる主な発音部位には、喉頭、舌、鼻、歯等がある。例えば、中国語の共通語では、対応する発音部位を異なる声母から特定できる。具体的な声母と発音部位の対応テーブルは以下のとおりである。
11 算出ユニット
12 メル入力ユニット
13 変換ユニット
14 認識ユニット
15 判断ユニット
16 分割ユニット
17 抽出ユニット
2 クラスタ構造部
21 入力ユニット
22 構築ユニット
23 選択ユニット
3 算出部
4 特徴ベクトル部
5 モデル部
51 次元削減ユニット
52 モデルユニット
6 検証部
7 属性部
Claims (15)
- 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するステップと、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるステップと、
前記クラスタ構造の平均値と標準偏差を計算するステップと、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するステップと、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するステップであって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、ステップとを含む、ことを特徴とする声紋モデルを構築する方法。 - 前記深層学習モデルは、複数のモデル層を含み、複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめる前記ステップは、
複数の前記音声音響特徴を深層学習モデルに入力するステップと、
複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのtn時間毎の音声音響特徴でn番目のモデル層を構築するステップであって、nが正の整数である、ステップと、
前記複数のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層上に生成された少なくとも1つのクラスタ構造を取得するステップとを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。 - 前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得する前記ステップは、
前記声紋モデルの特徴ベクトルパラメータを次元削減するステップと、
前記次元削減後の特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、声紋モデルを取得するステップとを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。 - フレーム化後の音声信号の音声音響特徴を抽出する前記ステップは、
フレーム化後の音声信号を高速フーリエ変換計算して、パワースペクトルを取得するステップと、
前記パワースペクトルをメル尺度の三角フィルタ群に入力して、共振ピーク特徴を出力するステップと、
前記共振ピーク特徴を離散コサイン変換して、音声音響特徴を取得するステップとを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。 - 声紋モデルを取得する前記ステップの後に、検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した身元確認結果を取得するステップを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。
- 声紋モデルを取得する前記ステップの後に、ユーザが前記声紋モデルにマークした属性情報を受信するステップであって、前記属性情報は前記対象ユーザの性別、年齢、民族を含む、ステップを含む、ことを特徴とする請求項1に記載の声紋モデルを構築する方法。
- 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するために用いられる抽出手段と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるために用いられるクラスタ構造手段と、
前記クラスタ構造の平均値と標準偏差を算出するために用いられる算出手段と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するために用いられる特徴ベクトル手段と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するために用いられるモデル手段であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル手段とを含む、ことを特徴とする声紋モデルを構築する装置。 - 前記深層学習モデルは、複数のモデル層を含み、前記クラスタ構造手段は、
複数の前記音声音響特徴を深層学習モデルに入力するために用いられる入力ユニットと、
複数の前記音声音響特徴のうちのいずれかの時間ノードtを選択し、該時間ノードtからのtn時間毎の音声音響特徴でn番目のモデル層を構築するために用いられる構築ユニットであって、nが正の整数である、構築ユニットと、
前記複数のモデル層におけるターゲットモデル層を選択し、前記ターゲットモデル層に生成された少なくとも1つのクラスタ構造を取得するために用いられる選択ユニットとを含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。 - 前記モデル手段は、
前記声紋モデルの特徴ベクトルパラメータを次元削減するために用いられる次元削減ユニットと、
前記次元削減後の特徴ベクトルパラメータを予め設定されたベーシックモデルに入力して、声紋モデルを取得するために用いられるモデルユニットとを含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。 - 前記抽出手段は、
フレーム化後の音声信号を高速フーリエ変換計算し、パワースペクトルを取得するために用いられる算出ユニットと、
前記パワースペクトルをメル尺度の三角フィルタ群に入力し、共振ピーク特徴を出力するために用いられる入力ユニットと、
前記共振ピーク特徴を離散コサイン変換して、音声音響特徴を取得するために用いられる変換ユニットとを含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。 - 声紋モデルを構築する前記装置は、検証対象の音声信号を前記声紋モデルに入力し、前記声紋モデルが出力した身元認証結果を取得するために用いられる検証手段をさらに含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。
- 声紋モデルを構築する前記装置は、ユーザが前記声紋モデルにマークした属性情報を受信するために用いられる属性手段であって、前記属性情報は前記対象ユーザの性別、年齢、民族を含む、属性手段をさらに含む、ことを特徴とする請求項7に記載の声紋モデルを構築する装置。
- 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出するための抽出手段と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめるためのクラスタ構造手段と、
前記クラスタ構造の平均値と標準偏差を計算するための算出手段と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得するための特徴ベクトル手段と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得するためのモデル手段であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、モデル手段とを含む、ことを特徴とするコンピュータデバイス。 - 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出する機能と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめる機能と、
前記クラスタ構造の平均値と標準偏差を計算する機能と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得する機能と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得する機能であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、機能と、をコンピュータによって実行させるプログラム。 - 入力された対象ユーザの音声信号をフレーム化し、それぞれフレーム化後の音声信号の音声音響特徴を抽出する機能と、
複数の前記音声音響特徴をニューラルネットワークのトレーニングに基づいた深層学習モデルに入力し、少なくとも1つのクラスタ構造としてまとめる機能と、
前記クラスタ構造の平均値と標準偏差を計算する機能と、
前記平均値と標準偏差に座標変換及び活性化関数算出を行って、特徴ベクトルパラメータを取得する機能と、
前記特徴ベクトルパラメータ及び前記対象ユーザの身元確認結果を予め設定されたベーシックモデルに入力して、前記対象ユーザに対応する声紋モデルを取得する機能であって、前記声紋モデルは入力された音声信号が前記対象ユーザであるか否かを検証するために用いられる、機能と、をコンピュータによって実行させるプログラムを格納する読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810433792.X | 2018-05-08 | ||
CN201810433792.XA CN108806696B (zh) | 2018-05-08 | 2018-05-08 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
PCT/CN2018/094888 WO2019214047A1 (zh) | 2018-05-08 | 2018-07-06 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020524308A true JP2020524308A (ja) | 2020-08-13 |
JP6906067B2 JP6906067B2 (ja) | 2021-07-21 |
Family
ID=64092054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019570559A Active JP6906067B2 (ja) | 2018-05-08 | 2018-07-06 | 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11322155B2 (ja) |
JP (1) | JP6906067B2 (ja) |
CN (1) | CN108806696B (ja) |
SG (1) | SG11202002083WA (ja) |
WO (1) | WO2019214047A1 (ja) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246503A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 黑名单声纹库构建方法、装置、计算机设备和存储介质 |
CN110265040B (zh) * | 2019-06-20 | 2022-05-17 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110211569A (zh) * | 2019-07-09 | 2019-09-06 | 浙江百应科技有限公司 | 基于语音图谱和深度学习的实时性别识别方法 |
CN110491393B (zh) * | 2019-08-30 | 2022-04-22 | 科大讯飞股份有限公司 | 声纹表征模型的训练方法及相关装置 |
CN110428853A (zh) * | 2019-08-30 | 2019-11-08 | 北京太极华保科技股份有限公司 | 语音活性检测方法、语音活性检测装置以及电子设备 |
CN110600040B (zh) * | 2019-09-19 | 2021-05-25 | 北京三快在线科技有限公司 | 声纹特征注册方法、装置、计算机设备及存储介质 |
CN110780741B (zh) * | 2019-10-28 | 2022-03-01 | Oppo广东移动通信有限公司 | 模型训练方法、应用运行方法、装置、介质及电子设备 |
CN111292510A (zh) * | 2020-01-16 | 2020-06-16 | 广州华铭电力科技有限公司 | 一种城市电缆被外力破坏的识别预警方法 |
CN113409793B (zh) * | 2020-02-28 | 2024-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及智能家居系统、会议设备、计算设备 |
CN111414511B (zh) * | 2020-03-25 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 自动声纹建模入库方法、装置以及设备 |
IL274741B1 (en) * | 2020-05-18 | 2024-07-01 | Cognyte Tech Israel Ltd | A system and method for obtaining voiceprints for large populations |
CN113948089B (zh) * | 2020-06-30 | 2024-06-14 | 北京猎户星空科技有限公司 | 声纹模型训练和声纹识别方法、装置、设备及介质 |
TWI807203B (zh) * | 2020-07-28 | 2023-07-01 | 華碩電腦股份有限公司 | 聲音辨識方法及使用其之電子裝置 |
CN112466311B (zh) * | 2020-12-22 | 2022-08-19 | 深圳壹账通智能科技有限公司 | 声纹识别方法、装置、存储介质及计算机设备 |
CN112637428A (zh) * | 2020-12-29 | 2021-04-09 | 平安科技(深圳)有限公司 | 无效通话判断方法、装置、计算机设备及存储介质 |
CN113011302B (zh) * | 2021-03-11 | 2022-04-01 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种基于卷积神经网络的雷声信号识别系统及方法 |
CN113179442B (zh) * | 2021-04-20 | 2022-04-29 | 浙江工业大学 | 一种基于语音识别的视频中音频流替换方法 |
CN113077536B (zh) * | 2021-04-20 | 2024-05-28 | 深圳追一科技有限公司 | 一种基于bert模型的嘴部动作驱动模型训练方法及组件 |
CN113421575B (zh) * | 2021-06-30 | 2024-02-06 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、设备及存储介质 |
CN114113837B (zh) * | 2021-11-15 | 2024-04-30 | 国网辽宁省电力有限公司朝阳供电公司 | 一种基于声学特征的变压器带电检测方法及系统 |
CN114495948B (zh) * | 2022-04-18 | 2022-09-09 | 北京快联科技有限公司 | 一种声纹识别方法及装置 |
CN115831152B (zh) * | 2022-11-28 | 2023-07-04 | 国网山东省电力公司应急管理中心 | 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法 |
CN118155463B (zh) * | 2024-05-10 | 2024-07-19 | 兰州大学 | 嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170160813A1 (en) * | 2015-12-07 | 2017-06-08 | Sri International | Vpa with integrated object recognition and facial expression recognition |
US20170358306A1 (en) * | 2016-06-13 | 2017-12-14 | Alibaba Group Holding Limited | Neural network-based voiceprint information extraction method and apparatus |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) * | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
KR100679051B1 (ko) * | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
CN104485102A (zh) * | 2014-12-23 | 2015-04-01 | 智慧眼(湖南)科技发展有限公司 | 声纹识别方法和装置 |
CN106157959B (zh) * | 2015-03-31 | 2019-10-18 | 讯飞智元信息科技有限公司 | 声纹模型更新方法及系统 |
CN105513597B (zh) * | 2015-12-30 | 2018-07-10 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN105845140A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 应用于短语音条件下的说话人确认方法和装置 |
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
CN106847292B (zh) * | 2017-02-16 | 2018-06-19 | 平安科技(深圳)有限公司 | 声纹识别方法及装置 |
CN110337807A (zh) * | 2017-04-07 | 2019-10-15 | 英特尔公司 | 针对深度通道和卷积神经网络图像和格式使用相机设备的方法和系统 |
EP3607495A4 (en) * | 2017-04-07 | 2020-11-25 | Intel Corporation | METHODS AND SYSTEMS USING IMPROVED TRAINING AND LEARNING FOR DEEP NEURAL NETWORKS |
US10896669B2 (en) * | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US20180358003A1 (en) * | 2017-06-09 | 2018-12-13 | Qualcomm Incorporated | Methods and apparatus for improving speech communication and speech interface quality using neural networks |
CN107357875B (zh) * | 2017-07-04 | 2021-09-10 | 北京奇艺世纪科技有限公司 | 一种语音搜索方法、装置及电子设备 |
CN107680582B (zh) * | 2017-07-28 | 2021-03-26 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
US11055604B2 (en) * | 2017-09-12 | 2021-07-06 | Intel Corporation | Per kernel Kmeans compression for neural networks |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
US11264037B2 (en) * | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US10437936B2 (en) * | 2018-02-01 | 2019-10-08 | Jungle Disk, L.L.C. | Generative text using a personality model |
WO2020035085A2 (en) * | 2019-10-31 | 2020-02-20 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for determining voice characteristics |
-
2018
- 2018-05-08 CN CN201810433792.XA patent/CN108806696B/zh active Active
- 2018-07-06 SG SG11202002083WA patent/SG11202002083WA/en unknown
- 2018-07-06 JP JP2019570559A patent/JP6906067B2/ja active Active
- 2018-07-06 WO PCT/CN2018/094888 patent/WO2019214047A1/zh active Application Filing
- 2018-07-06 US US16/759,384 patent/US11322155B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170160813A1 (en) * | 2015-12-07 | 2017-06-08 | Sri International | Vpa with integrated object recognition and facial expression recognition |
US20170358306A1 (en) * | 2016-06-13 | 2017-12-14 | Alibaba Group Holding Limited | Neural network-based voiceprint information extraction method and apparatus |
Non-Patent Citations (2)
Title |
---|
DAVID SNYDER ET AL.: "Deep Neural Network Embeddings for Text-Independent Speaker Verification", INTERSPEECH 2017, JPN6020050168, August 2017 (2017-08-01), pages 999 - 1003, XP055636895, ISSN: 0004415790, DOI: 10.21437/Interspeech.2017-620 * |
DAVID SNYDER ET AL.: "X-Vectors: Robust DNN Embeddings for Speaker Recognition", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, JPN6020050169, April 2018 (2018-04-01), pages 5329 - 5333, XP033403941, ISSN: 0004415791, DOI: 10.1109/ICASSP.2018.8461375 * |
Also Published As
Publication number | Publication date |
---|---|
US20200294509A1 (en) | 2020-09-17 |
CN108806696A (zh) | 2018-11-13 |
US11322155B2 (en) | 2022-05-03 |
WO2019214047A1 (zh) | 2019-11-14 |
SG11202002083WA (en) | 2020-04-29 |
CN108806696B (zh) | 2020-06-05 |
JP6906067B2 (ja) | 2021-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6906067B2 (ja) | 声紋モデルを構築する方法、装置、コンピュータデバイス、プログラム及び記憶媒体 | |
Gonzalez et al. | Direct speech reconstruction from articulatory sensor data by machine learning | |
CN112562691B (zh) | 一种声纹识别的方法、装置、计算机设备及存储介质 | |
Pahwa et al. | Speech feature extraction for gender recognition | |
Kinnunen | Spectral features for automatic text-independent speaker recognition | |
Patel et al. | Speech recognition and verification using MFCC & VQ | |
JP6973304B2 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
CN113436612B (zh) | 基于语音数据的意图识别方法、装置、设备及存储介质 | |
Sefara | The effects of normalisation methods on speech emotion recognition | |
Pawar et al. | Review of various stages in speaker recognition system, performance measures and recognition toolkits | |
CN100543840C (zh) | 基于情感迁移规则及语音修正的说话人识别方法 | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
KR20240135018A (ko) | 감정 자극을 이용한 음성-기반 정신 건강 평가를 위한 멀티-모달 시스템 및 방법 | |
Kaur et al. | Genetic algorithm for combined speaker and speech recognition using deep neural networks | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
Siriwardena et al. | The secret source: Incorporating source features to improve acoustic-to-articulatory speech inversion | |
WO2003098597A1 (fr) | Dispositif d'extraction de noyau syllabique et progiciel associe | |
Paul et al. | Automated speech recognition of isolated words using neural networks | |
CN113782032A (zh) | 一种声纹识别方法及相关装置 | |
CN110838294B (zh) | 一种语音验证方法、装置、计算机设备及存储介质 | |
Johar | Paralinguistic profiling using speech recognition | |
KR20230029757A (ko) | 환자 특정 음성 모델 합성 | |
Sahoo et al. | Detection of speech-based physical load using transfer learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191224 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210104 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20210326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210326 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210622 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210628 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6906067 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |