JP2020154061A - Speaker identification apparatus, speaker identification method and program - Google Patents
Speaker identification apparatus, speaker identification method and program Download PDFInfo
- Publication number
- JP2020154061A JP2020154061A JP2019050705A JP2019050705A JP2020154061A JP 2020154061 A JP2020154061 A JP 2020154061A JP 2019050705 A JP2019050705 A JP 2019050705A JP 2019050705 A JP2019050705 A JP 2019050705A JP 2020154061 A JP2020154061 A JP 2020154061A
- Authority
- JP
- Japan
- Prior art keywords
- data
- registered
- speaker
- voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 14
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、話者の音声データと登録されている音声データとを照合して話者を識別する、話者識別装置、話者識別方法およびプログラムに関する。 The present invention relates to a speaker identification device, a speaker identification method, and a program for identifying a speaker by collating the voice data of the speaker with the registered voice data.
個人を認証する方法として、話者から発声された音声と登録されている音声とを照合して、話者を認証する音声認証技術が実用化されている。たとえば、特許文献1および特許文献2には音声による個人認証システムが記載されている。
As a method of authenticating an individual, a voice authentication technique for authenticating a speaker by collating a voice uttered by a speaker with a registered voice has been put into practical use. For example,
特許文献1の個人認証システムは、コンピュータを用いて入力された音声によって個人を特定する個人認証システムにおいて、(1)認証の対象となる言葉を音声で入力し、当該入力音声を音声分析して認証用符号化音声データを作成する手段、(2)前記認証用符号化音声データを、音響モデル、言語モデルおよび単語辞書を用いて音声認識分析によって言葉を抽出して、言葉で分類された前記声紋データベースの中から該言葉に対応するデータのみを抜き出して、認識用符号化音声データと声紋照合する手段、を備える。
The personal authentication system of
特許文献2の個人認証システムは、被認証者に音声入力させ個人を特定する個人認証システムにおいて、(1)予めボイスプリントデータベースに登録されている認証の対象となる複数の単語と認証の対象とならない単語を含む複数の単語を被認証者に提示し、(2)被認証者が音声入力した音声データを取り込み、前記認証対象の単語に対して認証処理を行うと共に、前記認証の対象とならない単語を前記ボイスプリントデータベースに登録する手段、を備える。
The personal authentication system of
特許文献3には、話者の判定精度を向上する技術が記載されている。特許文献3の話者判定装置は、音声信号の音声区間を所定時間長に分割してなる各分割音声区間の話者特徴量と、窓口担当者毎に予め生成された話者特徴量との類似度を算出する類似度算出部と、類似度から、各分割音声区間の話者IDを表す一次判定情報を生成する話者一次判定部と、任意の分割音声区間の前または後の所定数の分割音声区間において最も当てはまる話者である近傍話者の話者特徴量と、任意の分割音声区間の話者特徴量との類似度が所定の条件を充たす場合に、近傍話者の話者IDを任意の分割音声区間の二次判定情報とすることにより、二次判定情報を生成する話者二次判定部と、顧客であることを示す二次判定情報と対応する分割音声区間の話者特徴量、すなわち顧客話者特徴量の集合をクラスタリングして顧客の話者IDを生成し、三次判定情報を生成する話者クラスタリング部を含む。 Patent Document 3 describes a technique for improving the determination accuracy of the speaker. The speaker determination device of Patent Document 3 has a speaker feature amount of each divided voice section divided into a predetermined time length of the voice section of the voice signal, and a speaker feature amount generated in advance for each person in charge of the counter. A similarity calculation unit that calculates the similarity, a speaker primary determination unit that generates primary determination information representing the speaker ID of each divided audio section from the similarity, and a predetermined number before or after an arbitrary divided audio section. When the degree of similarity between the speaker characteristic amount of the neighboring speaker, which is the most applicable speaker in the divided voice section of, and the speaker characteristic amount of the arbitrary divided voice section satisfies a predetermined condition, the speaker of the neighboring speaker A speaker secondary determination unit that generates secondary determination information by using an ID as secondary determination information for an arbitrary divided audio section, and a story of a divided audio section corresponding to the secondary determination information indicating that the customer is a customer. It includes a speaker clustering unit that clusters a person feature quantity, that is, a set of customer speaker feature quantities to generate a customer speaker ID, and generates tertiary determination information.
音声による個人の認証では、特許文献3の話者判定装置のように、基本的に全ての登録音声と照合音声を比較して個人を特定していた。登録されている話者の対象が多くなるにつれ、類似度を判定する登録数に比例して結果を得るまでの時間がかかる。特許文献1の個人認証システムでは、発声された言葉に対応するデータのみと比較するが、同じ言葉の登録データが多くなれば、同じ問題が生じる。
In the personal authentication by voice, the individual is basically identified by comparing all the registered voices with the collated voices, as in the speaker determination device of Patent Document 3. As the number of registered speakers increases, it takes time to obtain a result in proportion to the number of registrations for determining the similarity. In the personal authentication system of
特許文献2の個人認証システムでは、被認証者のIDがクレジットカードなどで特定されていて、パスワードに代えて音声認証を用いることが前提であり、類似度を判定する登録データはIDで限定されている。被認証者のIDを含めて音声で話者識別する場合には、すべての登録データと比較する必要がある。
In the personal authentication system of
本発明は上述の事情に鑑みてなされたもので、話者識別において登録される識別対象が多い場合でも、識別にかかる所要時間を短くすることを目的とする。 The present invention has been made in view of the above circumstances, and an object of the present invention is to shorten the time required for identification even when there are many identification objects registered in speaker identification.
本発明の第1の観点に係る話者識別装置は、すべての被登録者それぞれの音声特徴データである登録データを、登録データどうしの類似度でクラスタリングされたグループに分類して、前記被登録者それぞれに付与された識別符号と対応づけて記憶する記憶部と、入力された音声データから音声特徴データである照合データを抽出する特徴抽出部と、前記照合データがいずれの前記グループに分類されるべきかを判定する分類判定部と、前記照合データが分類されるべき前記グループに分類されている前記登録データのうち、前記照合データとの類似度が最も高く、かつ、前記照合データとの類似度が閾値を超えている前記登録データに対応づけられた前記識別符号が付与された前記被登録者を、前記照合データの発声者と判定する話者識別部と、を備える。 The speaker identification device according to the first aspect of the present invention classifies the registration data, which is the voice feature data of each registered person, into a group clustered according to the similarity between the registered data, and the registered data. A storage unit that stores the identification code assigned to each person in association with the identification code, a feature extraction unit that extracts collation data that is audio feature data from the input audio data, and the collation data are classified into any of the above groups. Among the registered data classified into the group to which the collation data should be classified, the classification determination unit for determining whether or not the collation data should have the highest degree of similarity to the collation data and the collation data. It is provided with a speaker identification unit that determines that the registered person to whom the identification code associated with the registration data whose similarity exceeds the threshold is assigned as the speaker of the matching data.
本発明によれば、登録データを予めクラスタリングしたグループのいずれに、照合データが分類されるべきかを判定し、その分類されるべきグループに類似度判定対象の登録データを限定するので、登録データすべてと比較する場合よりも、識別にかかる所要時間を短くすることができる。 According to the present invention, it is determined to which of the groups in which the registered data is clustered in advance the collation data should be classified, and the registered data to be determined for similarity is limited to the group to be classified. It is possible to shorten the time required for identification as compared with the case of comparing all.
好ましくは、前記記憶部は、前記登録データそれぞれの発声内容を示す、音素列、音節列もしくは文字列を、前記登録データに対応づけて記憶し、前記話者識別装置は、入力された音声データから、発声内容を示す音素列、音節列もしくは文字列を抽出する音声認識部をさらに備え、前記話者識別部は、前記照合データが分類されるべき前記グループに分類され、かつ、発声内容が前記照合データの発声内容と同じ前記登録データのうち、前記照合データとの類似度が最も高く、かつ、前記照合データとの類似度が閾値を超えている前記登録データに対応づけられた前記識別符号が付与された前記被登録者を、前記照合データの発声者と判定する。 Preferably, the storage unit stores a phonetic element string, a syllable string, or a character string indicating the vocal content of each of the registered data in association with the registered data, and the speaker identification device stores the input voice data. Further, a voice recognition unit for extracting a phonetic element string, a syllable string, or a character string indicating the voice content is further provided, and the speaker identification unit is classified into the group to which the collation data should be classified, and the voice content is Among the registered data having the same voice content as the collated data, the identification associated with the registered data having the highest similarity with the collated data and having a similarity with the collated data exceeding the threshold value. The registered person to which the code is given is determined to be the speaker of the collation data.
その場合、照合データが分類されるべきグループの中で、照合データと発声内容が同じである登録データに比較対象が限定されるので、さらに識別にかかる所要時間を短くすることができる。その上、発声内容が同じである登録データに限って比較するので、誤認識する可能性をより小さくできる。 In that case, in the group to which the collation data should be classified, the comparison target is limited to the registered data having the same utterance content as the collation data, so that the time required for identification can be further shortened. Moreover, since only the registered data having the same utterance content is compared, the possibility of erroneous recognition can be reduced.
好ましくは、前記分類判定部は、前記クラスタリングで前記グループに分類された前記被登録者の音声特徴データを学習データとして機械学習させた、ニューラルネットワークの学習済みモデルを含む。 Preferably, the classification determination unit includes a trained model of a neural network in which the voice feature data of the registered person classified into the group by the clustering is machine-learned as training data.
ニューラルネットワークの学習済みモデルで分類を判定する場合、登録データが分類されるグループの数が増加しても、識別にかかる所要時間が増加するのを抑制することができる。 When the classification is determined by the trained model of the neural network, it is possible to suppress the increase in the time required for identification even if the number of groups in which the registered data is classified increases.
本発明の第2の観点に係る話者識別方法は、入力された音声データから音声特徴データである照合データを抽出する特徴抽出ステップと、前記照合データが、すべての被登録者それぞれの音声特徴データである登録データを登録データどうしの類似度でクラスタリングしたグループの、いずれのグループに分類されるべきかを判定する分類判定ステップと、前記登録データを前記クラスタリングされたグループに分類して、前記被登録者それぞれに付与された識別符号と対応づけて記憶されている前記登録データの中の、前記照合データが分類されるべき前記グループに分類されている前記登録データのうち、前記照合データとの類似度が最も高く、かつ、前記照合データとの類似度が閾値を超えている前記登録データに対応づけられた前記識別符号が付与された前記被登録者を、前記照合データの発声者と判定する話者識別ステップと、を備える。 The speaker identification method according to the second aspect of the present invention includes a feature extraction step of extracting matching data which is voice feature data from input voice data, and the matching data is the voice feature of each registered person. A classification determination step for determining which group the registered data, which is data, should be classified into a group in which the registered data is clustered according to the similarity between the registered data, and the registered data are classified into the clustered group. Among the registration data stored in association with the identification code given to each registered person, among the registration data classified into the group to which the collation data should be classified, the collation data The registered person to whom the identification code associated with the registered data having the highest degree of similarity and the degree of similarity with the collated data exceeds the threshold is referred to as the speaker of the collated data. It includes a speaker identification step for determining.
本発明の第3の観点に係るプログラムは、コンピュータを、すべての被登録者それぞれの音声特徴データである登録データを、登録データどうしの類似度でクラスタリングされたグループに分類して、前記被登録者それぞれに付与された識別符号と対応づけて記憶する記憶部、入力された音声データから識別すべき音声特徴データである照合データを抽出する特徴抽出部、前記照合データがいずれの前記グループに分類されるべきかを判定する分類判定部、および、前記照合データが分類されるべき前記グループに分類されている前記登録データのうち、前記照合データとの類似度が最も高く、かつ、前記照合データとの類似度が閾値を超えている前記登録データの前記識別符号に対応する前記被登録者を、前記照合データの発声者と判定する話者識別部、として機能させる。 In the program according to the third aspect of the present invention, the computer classifies the registration data, which is the voice feature data of all the registered persons, into a group clustered according to the similarity between the registered data, and the registered data. A storage unit that stores the identification code assigned to each person in association with the identification code, a feature extraction unit that extracts matching data that is voice feature data to be identified from the input voice data, and the matching data is classified into any of the above groups. Among the classification determination unit that determines whether the data should be collated and the registered data that are classified into the group to which the collation data should be classified, the collation data has the highest degree of similarity to the collation data. The registered person corresponding to the identification code of the registered data whose similarity with the data exceeds the threshold value is made to function as a speaker identification unit for determining the speaker of the collation data.
本発明によれば、話者識別において登録される識別対象が多い場合でも、識別にかかる所要時間を短くできる。 According to the present invention, even when there are many identification targets registered in speaker identification, the time required for identification can be shortened.
以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. The same or corresponding parts in the figure are designated by the same reference numerals.
実施の形態.
図1は、本発明の実施の形態に係る話者識別装置の構成を示すブロック図である。話者識別装置1は、マイク21から入力された音声から抽出した音声特徴データである照合データと、記憶部15に記憶されている音声特徴データである登録データとを比較して、発声者が被登録者のいずれであるかを識別する。話者識別装置1は、音声入力部10、特徴抽出部11、音声認識部12、分類判定部13、データ抽出部14、記憶部15、および、話者識別部16を備える。登録データは、登録データどうしの類似度でクラスタリングされたグループに分類され、被登録者それぞれに付与された識別符号と対応づけられた声特徴データベースとして、記憶部15に記憶されている。登録データには、それぞれの発声内容を示す、音素列、音節列もしくは文字列が対応づけられている。
Embodiment.
FIG. 1 is a block diagram showing a configuration of a speaker identification device according to an embodiment of the present invention. The
(音声登録)
話者識別装置1の記憶部15には、話者識別に先立って、事前に音声登録装置により被登録者の音声特徴データである登録データが記憶されている。図2は、実施の形態に係る音声登録装置の構成を示すブロック図である。音声登録装置2は、音声入力部10、特徴抽出部11、音声認識部12、クラスタリング部17、入力部18、データ登録部19、および記憶部15を備える。音声登録装置2には、話者識別装置1と同じ装置を共通して用いてもよい。音声入力部10、特徴抽出部11、音声認識部12および記憶部15は、話者識別装置1と音声登録装置2とで同じものであり、話者識別装置1と音声登録装置2が同じ装置の場合、それらは共通である。
(Voice registration)
Prior to speaker identification, the
音声入力部10は、被登録者によってマイク21から入力された音声信号を、所定の周波数でサンプリングし、A−D変換して音声データを生成する。音声入力部10は、音声データを特徴抽出部11と音声認識部12に送る。
The
特徴抽出部11は、音声データから、音声特徴データである登録データを抽出する。音声特徴データは、例えば、GMMスーパベクトル(Gaussian Mixture Model Supervector)、i−vector、またはテンソル分解に基づく話者情報表現である。
The
GMMスーパベクトル(GMM Supervector:GMM−SV)は、音声を混合ガウス分布(Gaussian Mixture Model:GMM)によってモデル化し、GMMを構成する各ガウス分布の平均ベクトルを一列に連結した特徴量である。GMMは、複数のガウス分布の重み付き線形和で表される確率分布である(W. M. Campbell, D. E. Sturim, and D. A. Reynoldes, "Support Vector Machines using GMM Supervectors for Speaker Verification," IEEE Signal Processing Letters, vol. 13, pp. 308-311, 2006.)。 The GMM Supervector (GMM-SV) is a feature quantity in which voice is modeled by a Gaussian Mixture Model (GMM) and the average vector of each Gaussian distribution constituting the GMM is connected in a row. GMM is a probability distribution represented by a weighted linear sum of multiple Gaussian distributions (WM Campbell, DE Sturim, and DA Reynoldes, "Support Vector Machines using GMM Supervectors for Speaker Verification," IEEE Signal Processing Letters, vol. 13, pp. 308-311, 2006.).
i−vectorは、GMMスーパベクトル(GMM Supervector:GMM−SV)を因子分析に基づき次元圧縮することによって得られる特徴量である。一発話から抽出されたGMM−SVであるMは、話者と言語に依存しないユニバーサルバックグラウンドモデル(Universal Background Model:UBM)のGMM−SVであるmと、発話内容、話者・収録環境の変化による音声のばらつきをモデル化した低次元空間への射影行列Tを用いて、M=m+Twと分解される。このwがi−vectorである(N. Dehak, P. J. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, "Front-End Factor Analysis for Speaker Verification," IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 4, pp. 788-798, 2011.)。 The i-vector is a feature quantity obtained by dimensionally compressing a GMM super vector (GMM-SV) based on factor analysis. M, which is a GMM-SV extracted from one utterance, is m, which is a GMM-SV of a universal background model (UBM) that does not depend on the speaker and language, and the utterance content, speaker, and recording environment. Using the projection matrix T to the low-dimensional space that models the variation of speech due to changes, it is decomposed as M = m + Tw. This w is an i-vector (N. Dehak, PJ Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, "Front-End Factor Analysis for Speaker Verification," IEEE Transactions on Audio, Speech, and Language Processing. , vol. 19, no. 4, pp. 788-798, 2011.).
テンソル分解に基づく話者情報表現は、i−vectorのアプローチを拡張したテンソル分解に基づく話者情報表現である。行および列がそれぞれGMMの各分布と平均ベクトルに対応するような行列によって一発話を表現し、多数話者分の行列をテンソルとして扱い、テンソル解析を導入することで話者情報を表現する(チン・トゥアン・トゥー、斎藤大輔、峯松信明、広瀬啓吉、“テンソル分解に基づく話者情報表現を用いた話者識別の検討、” 日本音響学会春季講演論文集、pp. 217-220, 2005.)。 The speaker information representation based on the tensor decomposition is a speaker information representation based on the tensor decomposition, which is an extension of the i-vector approach. One-speech is expressed by a matrix in which rows and columns correspond to each distribution and mean vector of GMM, respectively, a matrix for many speakers is treated as a tensor, and speaker information is expressed by introducing tensor analysis ( Chin Tuan Tou, Daisuke Saito, Nobuaki Minematsu, Keikichi Hirose, "Examination of Speaker Identification Using Speaker Information Expression Based on Tensor Decomposition," Proceedings of the Spring Lectures of the Acoustical Society of Japan, pp. 217-220, 2005. ).
ここでは、音声特徴データとしてi−vectorを用いる場合を例に説明する。特徴抽出部11は、抽出したi−vectorである登録データを、クラスタリング部17およびデータ登録部19に送る。
Here, a case where i-vector is used as the voice feature data will be described as an example. The
音声認識部12は、音声データから音声特徴を抽出し、その音声特徴に最も近くなるような発話内容を探索し、発声内容を示す音素列、音節列もしくは文字列を抽出する。音声認識部12は、得られた音素列、音節列もしくは文字列をデータ登録部19に送る。
The
入力部18は、マイク21から音声を入力した被登録者を識別するための、識別符号の入力を受け付け、入力された識別符号をデータ登録部19に送る。入力部18は、例えば、キーボード、マウスもしくはタッチパネルなどのポインティングデバイスとディスプレイ、ICカードリーダ、バーコードリーダ、または二次元コードリーダを備える。識別符号は、キーボード操作、ポインティングデバイスによる選択、あるいは、ICカード、バーコードもしくは二次元コードで入力されるコードである。入力部18は、指紋、光彩、指もしくは手の静脈などの生体情報を読み取って、事前に登録されている生体情報と照合して、参照した被登録者の識別符号をデータ登録部19に送ってもよい。
The
データ登録部19は、特徴抽出部11から送られた音声特徴データである登録データと、入力部18から送られた被登録者の識別符号と、音声認識部12から送られた音素列、音節列もしくは文字列とを対応付けて、記憶部15に記憶させる。
The
すべての被登録者の音声特徴データを記憶部15に記憶させたのち、クラスタリング部17は、すべての被登録者それぞれの音声特徴データである登録データを、登録データどうしの類似度でクラスタリングしてグループに分類する。類似度は、例えば、コサイン類似度または対数尤度比である。クラスタリングには、例えば、k−means++法、k−means法、またはウォード法を用いることができる。
After storing the voice feature data of all the registered persons in the
クラスタリング部17は、登録データそれぞれが分類されるグループの番号を、データ登録部19に送る。データ登録部19は、登録データそれぞれに、割り当てられたグループ番号を対応づけて記憶部15に記憶させる。すなわち、登録データは、登録データどうしの類似度でクラスタリングされたグループに分類されて、被登録者それぞれに付与された識別符号および登録データの発声内容と対応づけて記憶される。
The
図3は、実施の形態に係る声特徴データベースの例を示す図である。声特徴データベースは、記憶部15に記憶されている。声特徴データベースのレコードは、登録者ID、グループID、発声内容および音声特徴データから構成される。登録者IDは、被登録者の識別符号である。グループIDは、登録データそれぞれが分類されるグループの番号である。発声内容は、登録データの発声内容である音素列、音節列もしくは文字列である。音声特徴データの欄は、音声特徴データそのものであってもよいし、音声特徴データが記憶されているファイルなどへのポインタであってもよい。
FIG. 3 is a diagram showing an example of a voice feature database according to the embodiment. The voice feature database is stored in the
声特徴データベースには、異なる登録者IDで発声内容が同じ登録データがあってもよい。また、登録者IDが共通する同じ被登録者で、発声内容が異なる複数の登録データがあってもよい。登録者IDが共通する登録データは、通常、グループIDも共通する。 The voice feature database may contain registration data with different registrant IDs and the same utterance content. In addition, there may be a plurality of registered data having the same registrant ID but different utterance contents. The registration data having the same registrant ID usually has the same group ID.
話者識別装置1と音声登録装置2が異なる装置の場合、音声登録装置2は、すべての被登録者の登録データがグループに分類されて、被登録者それぞれの識別符号および発声内容と対応づけて記憶部15に記憶された声特徴データベースを、話者識別装置1に転送する。話者識別装置1と音声登録装置2が共通の装置の場合は、音声登録装置2の記憶部15がそのまま、話者識別装置1の記憶部15として使用される。音声登録装置2と話者識別装置1とで共通の記憶部15にアクセスできるようにしてもよい。以上で、音声登録を完了する。
When the
(話者識別)
図1に示す話者識別装置1は、マイク21から入力された音声から抽出した音声特徴データである照合データと、音声登録装置2で作成された記憶部15に記憶されている音声特徴データである登録データとを比較して、発声者が被登録者のいずれであるかを識別する。話者識別装置1の音声入力部10、特徴抽出部11、音声認識部12および記憶部15に記憶されている声特徴データベースは、音声登録装置2のものと同じである。
(Speaker identification)
The
音声入力部10は、被識別対象者である話者によってマイク21から入力された音声信号を、所定の周波数でサンプリングし、A−D変換して音声データを生成する。音声入力部10は、音声データを特徴抽出部11と音声認識部12に送る。
The
特徴抽出部11は、音声データから、被識別対象者の音声特徴データである照合データを抽出する。音声特徴データは、例えば、GMM(Gaussian Mixture Model)スーパベクトル、i−vector、またはテンソル分解に基づく話者情報表現である。照合データの音声特徴データの種類は、登録データの音声特徴データの種類と同じである。すなわち、登録データが例えばi−vectorの場合、照合データはi−vectorである。
The
ここでは、音声特徴データとしてi−vectorを用いる場合を例に説明する。特徴抽出部11は、抽出したi−vectorである照合データを、分類判定部13に送る。
Here, a case where i-vector is used as the voice feature data will be described as an example. The
分類判定部13では、照合データが、記憶部15に記憶されている音声特徴データである登録データを登録データどうしの類似度でクラスタリングしたグループの、いずれのグループに分類されるべきかを判定する。登録データは、音声登録装置2によってあらかじめ登録データどうしの類似度でクラスタリングしたグループに分類されている。類似度は、例えば、コサイン類似度または対数尤度比である。
The
分類判定には、例えば、グループに分類された登録データを学習データとして、機械学習させた人工ニューラルネットワーク(以下、単にニューラルネットワークという)を用いることができる。分類判定部13は、各グループのセントロイドのベクトルと照合データを比較して、最も類似度が大きいセントロイドのグループを、照合データが分類されるべきグループと判定してもよい。分類判定部13は、照合データが分類されるべき、すなわち照合データが属する最も確からしい、グループの番号をデータ抽出部14に送る。
For the classification determination, for example, a machine-learned artificial neural network (hereinafter, simply referred to as a neural network) can be used using the registered data classified into groups as training data. The
図4は、実施の形態に係る分類判定部のニューラルネットワークの例を示す図である。ニューラルネットワークは、それぞれ人工ニューロン(以下、単にニューロンという)から構成されるノードを含む入力層、中間層および出力層、ならびに、互いに隣接する層の間でノードを相互に接続するエッジから構成される。中間層は、1層以上のn層を含む。入力層の各ノードi(i=1...k)には、音声特徴データのそれぞれの要素xiが入力される。中間層では、それぞれ前の層の出力が結合され活性化関数で演算された結果が後の層に伝達されて、最終的に出力層に出力される。出力層は、登録データがクラスタリングされたグループの数のノードを有し、ノードj(j=1...M)はそれぞれ、照合データがそのグループjに分類される確率yjを出力する。 FIG. 4 is a diagram showing an example of a neural network of the classification determination unit according to the embodiment. A neural network consists of an input layer, an intermediate layer and an output layer, each containing a node composed of artificial neurons (hereinafter, simply referred to as a neuron), and an edge that connects the nodes to each other between adjacent layers. .. The intermediate layer includes one or more n layers. Each element xi of the voice feature data is input to each node i (i = 1 ... k) of the input layer. In the intermediate layer, the outputs of the previous layers are combined, the result calculated by the activation function is transmitted to the subsequent layers, and finally output to the output layer. The output layer has as many nodes as the number of groups in which the registered data is clustered, and each node j (j = 1 ... M) outputs the probability yj that the collation data is classified into the group j.
ニューラルネットワークには、グループに分類された登録データを入力し、登録データが分類されているグループと、ニューラルネットワークの出力との差をバックプロパゲーションして各パラメータを調整することで、機械学習させておく。 Machine learning is performed by inputting the registered data classified into groups into the neural network, backpropagating the difference between the group in which the registered data is classified and the output of the neural network, and adjusting each parameter. Keep it.
分類判定部13は、ニューラルネットワークの学習済みモデルに照合データを入力し、出力層の出力が最も大きいノードの番号、すなわち最も確からしいグループの番号を、照合データが分類されるべきグループの番号とする。分類判定部13は、照合データが分類されるべきグループの番号をデータ抽出部14に送る。
The
ニューラルネットワークで照合データの分類を判定する場合、判定の演算量は入力層のノード数と中間層の層数でほぼ決まり、出力層のノード数には比例しない。そのため、各グループのセントロイドとの類似度でグループの分類を判定する方法に比べて、グループの数が増えた場合の演算量は少ない。その結果、グループの数が増加しても、識別にかかる所要時間が増加するのを抑制することができる。 When determining the classification of collation data by a neural network, the amount of calculation for the determination is almost determined by the number of nodes in the input layer and the number of layers in the intermediate layer, and is not proportional to the number of nodes in the output layer. Therefore, the amount of calculation is small when the number of groups increases, as compared with the method of determining the classification of groups based on the degree of similarity with the centroid of each group. As a result, even if the number of groups increases, it is possible to suppress an increase in the time required for identification.
音声認識部12は、音声データから音声特徴を抽出し、その音声特徴に最も近くなるような発話内容を探索し、発声内容を示す音素列、音節列もしくは文字列を抽出する。音声認識部12は、得られた音素列、音節列もしくは文字列をデータ抽出部14に送る。
The
データ抽出部14は、分類判定部13から送られた番号のグループに属する登録データのうち、音声認識部12から送られた発声内容と同じ発声内容の登録データを、記憶部15から読み出して、話者識別部16に送る。
The
話者識別部16は、データ抽出部14から送られた登録データのそれぞれと、照合データとを比較し、最も高い類似度が定めた閾値を超えている場合に、その最も高い類似度の登録データの被登録者を、話者である被識別対象者と判定する。すなわち、照合データが分類されるべきグループに分類され、かつ、発声内容が照合データの発声内容と同じ登録データのうち、照合データとの類似度が最も高く、かつ、照合データとの類似度が閾値を超えている登録データに対応づけられた識別符号が付与された被登録者を、照合データの発声者と判定する。
The
登録データと照合データとを比較する類似度の種類は、登録データをクラスタリングしたときの類似度の種類と同じである。例えば、登録データをコサイン類似度でクラスタリングした場合は、コサイン類似度で登録データと照合データとの類似度を算出する。 The type of similarity between the registered data and the collation data is the same as the type of similarity when the registered data is clustered. For example, when the registered data is clustered by the cosine similarity, the similarity between the registered data and the collation data is calculated by the cosine similarity.
被識別対象者が被登録者のいずれかであると判定された結果をもって、話者識別装置1に接続されている装置に、その被登録者に許可された動作を行わせることができる。例えば、ドアの解錠、被登録者に固有の情報へのアクセスの許可、または、被登録者に適したAIスピーカの応答などを行わせることができる。話者識別装置1は、例えば、建物のセキュリティシステム、顧客情報管理装置、または、AIスピーカなどに組み込まれていてもよい。
Based on the result of determining that the person to be identified is one of the registered persons, the device connected to the
図5は、実施の形態に係る話者識別の動作の例を示すフローチャートである。話者識別装置1は、被識別対象者である話者から音声が入力されると音声信号から音声データを生成する(ステップS10)。特徴抽出部11は、音声データから照合データを抽出して分類判定部13に送る(ステップS11)。音声認識部12は、音声データから発声内容を認識して、データ抽出部14に送る(ステップS12)。分類判定部13は、照合データが分類されるべきグループを判定しデータ抽出部14に送る(ステップS13)。
FIG. 5 is a flowchart showing an example of the speaker identification operation according to the embodiment. The
データ抽出部14が、照合データが分類されるべきグループに属する登録データのうち、照合データの発声内容と同じ発声内容の登録データを、記憶部15から読み出して話者識別部16に送ると、話者識別部16は、読み出された登録データの1つを選択する(ステップ14)。そして、照合データと選択した登録データとの類似度を算出する(ステップS15)。まだ選択していない登録データがあれば(ステップS16;Y)、再び未選択の登録データの1つを選択して(ステップS14)、類似度を算出する(ステップS15)。
When the
話者識別部16は、データ抽出部14から送られた登録データのすべてについて照合データとの類似度を算出すると(ステップS16;N)、算出した類似度の最大値を選択する(ステップS17)。算出した類似度の最大値が閾値より大きければ(ステップS18;Y)、その類似度に対応する登録データに対応づけられた識別符号が付与された被登録者を、照合データの発声者(話者)であると判定する(ステップS19)。最大値が閾値以下なら(ステップS18;N)、照合データの話者は被登録者のいずれでもないと判定する(ステップS20)。
When the
照合データの話者が被登録者のいずれかに特定された場合、話者識別装置1は、接続されている装置に、その被登録者に許可された動作を行わせることができる。照合データの話者が被登録者のいずれでもないと判定された場合は、被識別対象者に、再度、発声を促すことができる。記憶部15に記憶されている、照合データが分類されるべきグループに属する登録データに、音声認識部12で認識した発声内容に該当する登録データがない場合も、被識別対象者に、再度、発声を促すことができる。
When the speaker of the collation data is identified as one of the registered persons, the
話者識別部16は、類似度の最大値を閾値と比較せず、単に、最大値の類似度に対応する登録データに対応づけられた識別符号が付与された被登録者を、照合データの発声者(話者)であると判定してもよい。その場合、閾値は類似度の取り得る最小値であるとみなすことができる。
The
以上説明したように、実施の形態に係る話者識別装置1は、登録データを予めクラスタリングしたグループのいずれに、照合データが分類されるべきかを判定し、その分類されるべきグループに類似度判定対象の登録データを限定するので、登録データすべてと比較する場合よりも、識別にかかる所要時間を短くすることができる。また、照合データが分類されるべきグループの中で、照合データと発声内容が同じである登録データに比較対象を限定するので、さらに識別にかかる所要時間を短くすることができる。その上、話者の特徴とは無関係である発話内容を用いて、発声内容が同じである登録データに限って比較するので、比較対象となる登録データどうしが相互に類似する可能性が減少し、話者を誤認識する可能性が減少する。
As described above, the
なお、分類判定部13で照合データがどのグループに分類されるべきかを判定する際に、ニューラルネットワークの出力層の最も大きい出力、すなわち、グループに分類される確率の最大値、が基準の値より小さい場合に、照合データはいずれのグループにも分類されないと判断して、照合データの話者は被登録者のいずれでもないと判定してもよい。この場合の基準の値は、登録データの数およびグループの数に応じて定めてもよい。グループに分類される確率の最大値が基準の値より小さい場合、そのグループのいずれの登録データの類似度も、閾値より小さいことが推定される。この場合、登録データとの類似度を算出することなく、話者が被登録者でないと判断されるので、話者識別にかかる所用時間をさらに短くすることができる。
When the
変形例.
図6は、実施の形態の変形例に係る話者識別装置のブロック図である。変形例では音声認識部12を備えず、音声認識を行わない。その他の構成は、実施の形態と同様である。
Modification example.
FIG. 6 is a block diagram of a speaker identification device according to a modified example of the embodiment. In the modified example, the
変形例では、データ抽出部14は、分類判定部13から送られた番号のグループに属する登録データを、記憶部15から読み出して、話者識別部16に送る。話者識別部16に送られる登録データには、発声内容が異なる音声特徴データが含まれる。
In the modified example, the
変形例において、記憶部15に記憶されている声特徴データベースは、実施の形態と同様に、登録データに発声内容が対応づけられていてもよいし、発生内容を含まなくてもよい。発声内容を含まない場合でも、登録者IDが共通する同じ被登録者で、発声内容が異なる複数の登録データがあってもよい。
In the modified example, the voice feature database stored in the
話者識別部16は、データ抽出部14から送られた登録データのそれぞれと、照合データとを比較し、最も高い類似度が定めた閾値を超えている場合に、その最も高い類似度の登録データの被登録者を、話者である被識別対象者と判定する。変形例では、照合データが分類されるべきグループに分類されている登録データのうち、照合データとの類似度が最も高く、かつ、照合データとの類似度が閾値を超えている登録データに対応づけられた識別符号が付与された被登録者を、照合データの発声者と判定する。
The
図7は、変形例に係る話者識別の動作の例を示すフローチャートである。変形例では、図5の実施の形態の動作のうち、音声認識のステップS12が省略されている。また、データ抽出部14は、照合データが分類されるべきグループに属する登録データを、記憶部15から読み出して話者識別部16に送るので、話者識別部16は、照合データが分類されるべきグループに属する登録データの1つを選択する(ステップS14’)。その他の動作は、図5のフローチャートと同様である。
FIG. 7 is a flowchart showing an example of the speaker identification operation according to the modified example. In the modified example, in the operation of the embodiment of FIG. 5, the voice recognition step S12 is omitted. Further, since the
変形例では、音声認識しないので、異なる発生内容の登録データとも照合データと比較するが、照合データが分類されるべきグループに限定されているので、登録データすべてと比較するよりも識別にかかる所要時間を短くできる。また、音声認識を行わないので、その分処理時間は短い。 In the modified example, since voice recognition is not performed, the registered data with different generated contents are also compared with the collated data, but since the collated data is limited to the group to be classified, it requires more identification than comparing with all the registered data. You can shorten the time. Moreover, since voice recognition is not performed, the processing time is short accordingly.
図8は、実施の形態に係る話者識別装置のハードウェア構成の一例を示すブロック図である。話者識別装置1は、図8に示すように、制御部41、主記憶部42、外部記憶部43、操作部44、表示部45、入出力部46および送受信部47を備える。主記憶部42、外部記憶部43、操作部44、表示部45、入出力部46および送受信部47はいずれも内部バス40を介して制御部41に接続されている。
FIG. 8 is a block diagram showing an example of the hardware configuration of the speaker identification device according to the embodiment. As shown in FIG. 8, the
制御部41はCPU(Central Processing Unit)等から構成され、外部記憶部43に記憶されている制御プログラム50に従って、話者識別装置1の音声入力部10、特徴抽出部11、音声認識部12、分類判定部13、データ抽出部14、記憶部15、および、話者識別部16の各処理を実行する。
The
主記憶部42はRAM(Random-Access Memory)等から構成され、外部記憶部43に記憶されている制御プログラム50をロードし、制御部41の作業領域として用いられる。
The
外部記憶部43は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、話者識別装置1の処理を制御部41に行わせるためのプログラムを予め記憶し、また、制御部41の指示に従って、このプログラムが記憶するデータを制御部41に供給し、制御部41から供給されたデータを記憶する。
The
操作部44はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス40に接続するインタフェース装置から構成されている。操作部44を介して、音声認識結果の選択指示などが入力され、制御部41に供給される。
The
表示部45は、LCD(Liquid Crystal Display)または有機ELディスプレイなどから構成され、話者識別の結果や音声認識した音声内容の文字列などを表示する。
The
入出力部46は、シリアルインタフェースまたはパラレルインタフェースから構成されている。入出力部46は、マイク21を接続して音声信号を入力する。また、スピーカ(図示せず)を接続して、例えば、被識別対象者に音声の入力を促すメッセージを再生する。
The input /
送受信部47は、ネットワークに接続する網終端装置または無線通信装置、およびそれらと接続するシリアルインタフェースまたはLAN(Local Area Network)インタフェースから構成されている。送受信部47は、ネットワークを介して、例えば、話者認識結果を使用する装置とのデータのやりとりを行う。
The transmission /
図1に示す話者識別装置1の音声入力部10、特徴抽出部11、音声認識部12、分類判定部13、データ抽出部14、記憶部15、および、話者識別部16の処理は、制御プログラム50が、制御部41、主記憶部42、外部記憶部43、操作部44、表示部45、入出力部46および送受信部47などを資源として用いて処理することによって実行する。
The processing of the
なお、各実施の形態で説明した話者識別装置1の構成は一例であり、任意に変更および修正が可能である。話者識別装置1の構成は、実施の形態で示したものがすべてではなく、これらに限定されるものではない。例えば、実施の形態で説明したように、話者識別装置1と音声登録装置2とで同じ装置を共通して用いてもよい。また、ネットワーク上に記憶部15を設置して、話者識別装置1および音声登録装置2から、ネットワークを介して、記憶部15にアクセスしてもよい。
The configuration of the
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更および修正が可能である。 In addition, the above hardware configuration and flowchart are examples, and can be arbitrarily changed and modified.
音声入力部10、特徴抽出部11、音声認識部12、分類判定部13、データ抽出部14、記憶部15、および、話者識別部16等から構成される話者識別装置1の話者識別処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読みとり可能な記録媒体(USBメモリ、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する話者識別装置1を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで話者識別装置1を構成してもよい。
Speaker identification of
また、話者識別装置1を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
Further, when the
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。 It is also possible to superimpose a computer program on a carrier wave and distribute it via a communication network. For example, the computer program may be posted on a bulletin board system (BBS, Bulletin Board System) on a communication network, and the computer program may be distributed via the network. Then, by starting this computer program and executing it in the same manner as other application programs under the control of the OS, the above processing may be executed.
1 話者識別装置
2 音声登録装置
10 音声入力部
11 特徴抽出部
12 音声認識部
13 分類判定部
14 データ抽出部
15 記憶部
16 話者識別部
17 クラスタリング部
18 入力部
19 データ登録部
21 マイク
40 内部バス
41 制御部
42 主記憶部
43 外部記憶部
44 操作部
45 表示部
46 入出力部
47 送受信部
50 制御プログラム
1
Claims (5)
入力された音声データから音声特徴データである照合データを抽出する特徴抽出部と、
前記照合データがいずれの前記グループに分類されるべきかを判定する分類判定部と、
前記照合データが分類されるべき前記グループに分類されている前記登録データのうち、前記照合データとの類似度が最も高く、かつ、前記照合データとの類似度が閾値を超えている前記登録データに対応づけられた前記識別符号が付与された前記被登録者を、前記照合データの発声者と判定する話者識別部と、
を備える話者識別装置。 A memory that classifies the registration data, which is the voice feature data of all the registered persons, into a group clustered according to the similarity between the registered data, and stores the registered data in association with the identification code assigned to each of the registered persons. Department and
A feature extraction unit that extracts matching data, which is voice feature data, from the input voice data,
A classification determination unit that determines which group the collation data should be classified into,
Among the registered data classified into the group to which the collated data should be classified, the registered data having the highest similarity with the collated data and having a similarity with the collated data exceeding a threshold value. A speaker identification unit that determines that the registered person to which the identification code associated with the data is assigned is the speaker of the collation data.
A speaker identification device.
前記話者識別装置は、入力された音声データから、発声内容を示す音素列、音節列もしくは文字列を抽出する音声認識部をさらに備え、
前記話者識別部は、前記照合データが分類されるべき前記グループに分類され、かつ、発声内容が前記照合データの発声内容と同じ前記登録データのうち、前記照合データとの類似度が最も高く、かつ、前記照合データとの類似度が閾値を超えている前記登録データに対応づけられた前記識別符号が付与された前記被登録者を、前記照合データの発声者と判定する、
請求項1に記載の話者識別装置。 The storage unit stores a phoneme string, a syllable string, or a character string indicating the utterance content of each of the registered data in association with the registered data.
The speaker identification device further includes a voice recognition unit that extracts a phoneme string, a syllable string, or a character string indicating the utterance content from the input voice data.
The speaker identification unit is classified into the group to which the collation data should be classified, and has the highest degree of similarity to the collation data among the registered data whose utterance contents are the same as the utterance contents of the collation data. The registered person to whom the identification code associated with the registered data whose similarity with the collated data exceeds the threshold is determined to be the speaker of the collated data.
The speaker identification device according to claim 1.
前記照合データが、すべての被登録者それぞれの音声特徴データである登録データを登録データどうしの類似度でクラスタリングしたグループの、いずれのグループに分類されるべきかを判定する分類判定ステップと、
前記登録データを前記クラスタリングされたグループに分類して、前記被登録者それぞれに付与された識別符号と対応づけて記憶されている前記登録データの中の、前記照合データが分類されるべき前記グループに分類されている前記登録データのうち、前記照合データとの類似度が最も高く、かつ、前記照合データとの類似度が閾値を超えている前記登録データに対応づけられた前記識別符号が付与された前記被登録者を、前記照合データの発声者と判定する話者識別ステップと、
を備える話者識別方法。 A feature extraction step that extracts matching data, which is voice feature data, from the input voice data,
A classification determination step for determining which group the collation data should be classified into, which is a group in which the registration data, which is the voice feature data of all the registered persons, is clustered according to the similarity between the registration data.
The group to which the collation data should be classified in the registered data stored in association with the identification code given to each of the registered persons by classifying the registered data into the clustered group. Among the registered data classified in the above, the identification code associated with the registered data having the highest degree of similarity with the collated data and having a degree of similarity with the collated data exceeding the threshold is given. A speaker identification step for determining the registered person as the speaker of the collation data, and
Speaker identification method.
すべての被登録者それぞれの音声特徴データである登録データを、登録データどうしの類似度でクラスタリングされたグループに分類して、前記被登録者それぞれに付与された識別符号と対応づけて記憶する記憶部、
入力された音声データから識別すべき音声特徴データである照合データを抽出する特徴抽出部、
前記照合データがいずれの前記グループに分類されるべきかを判定する分類判定部、および
前記照合データが分類されるべき前記グループに分類されている前記登録データのうち、前記照合データとの類似度が最も高く、かつ、前記照合データとの類似度が閾値を超えている前記登録データの前記識別符号に対応する前記被登録者を、前記照合データの発声者と判定する話者識別部、
として機能させるプログラム。 Computer,
A memory that classifies the registration data, which is the voice feature data of all the registered persons, into a group clustered according to the similarity between the registered data, and stores the registered data in association with the identification code assigned to each registered person. Department,
Feature extraction unit that extracts matching data that is voice feature data to be identified from the input voice data,
The degree of similarity with the collation data among the classification determination unit for determining which group the collation data should be classified into and the registered data classified into the group to which the collation data should be classified. The speaker identification unit, which determines that the registered person corresponding to the identification code of the registered data whose similarity with the collated data exceeds the threshold value is the speaker of the collated data.
A program that functions as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019050705A JP2020154061A (en) | 2019-03-19 | 2019-03-19 | Speaker identification apparatus, speaker identification method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019050705A JP2020154061A (en) | 2019-03-19 | 2019-03-19 | Speaker identification apparatus, speaker identification method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020154061A true JP2020154061A (en) | 2020-09-24 |
Family
ID=72558816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019050705A Pending JP2020154061A (en) | 2019-03-19 | 2019-03-19 | Speaker identification apparatus, speaker identification method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020154061A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023189173A1 (en) * | 2022-03-29 | 2023-10-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Speaker identification method, speaker identification device, and speaker identification program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131696A (en) * | 2001-10-25 | 2003-05-09 | Canon Inc | Voice registration authentication system |
JP2004094158A (en) * | 2002-09-04 | 2004-03-25 | Ntt Comware Corp | Voiceprint authentication system utilizing vowel retrieval |
JP2010113167A (en) * | 2008-11-06 | 2010-05-20 | Neikusu:Kk | Harmful customer detection system, its method and harmful customer detection program |
US20180061397A1 (en) * | 2016-08-26 | 2018-03-01 | Alibaba Group Holding Limited | Speech recognition method and apparatus |
-
2019
- 2019-03-19 JP JP2019050705A patent/JP2020154061A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003131696A (en) * | 2001-10-25 | 2003-05-09 | Canon Inc | Voice registration authentication system |
JP2004094158A (en) * | 2002-09-04 | 2004-03-25 | Ntt Comware Corp | Voiceprint authentication system utilizing vowel retrieval |
JP2010113167A (en) * | 2008-11-06 | 2010-05-20 | Neikusu:Kk | Harmful customer detection system, its method and harmful customer detection program |
US20180061397A1 (en) * | 2016-08-26 | 2018-03-01 | Alibaba Group Holding Limited | Speech recognition method and apparatus |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023189173A1 (en) * | 2022-03-29 | 2023-10-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Speaker identification method, speaker identification device, and speaker identification program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2784710B1 (en) | Method and system for validating personalized account identifiers using biometric authentication and self-learning algorithms | |
US7356168B2 (en) | Biometric verification system and method utilizing a data classifier and fusion model | |
Gomez-Alanis et al. | On joint optimization of automatic speaker verification and anti-spoofing in the embedding space | |
TWI423249B (en) | Computer-implemented process, computer-readable storage medium, and system for text-dependent speaker verification | |
Revett | Behavioral biometrics: a remote access approach | |
Giot et al. | Fast computation of the performance evaluation of biometric systems: Application to multibiometrics | |
Das et al. | Development of multi-level speech based person authentication system | |
US20070219801A1 (en) | System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user | |
US6496800B1 (en) | Speaker verification system and method using spoken continuous, random length digit string | |
JP2006285205A (en) | Speech biometrics system, method, and computer program for determining whether to accept or reject subject for enrollment | |
Aizat et al. | Identification and authentication of user voice using DNN features and i-vector | |
Lataifeh et al. | Arabic audio clips: Identification and discrimination of authentic cantillations from imitations | |
Fong | Using hierarchical time series clustering algorithm and wavelet classifier for biometric voice classification | |
Folorunso et al. | A review of voice-base person identification: state-of-the-art | |
Le Lan et al. | Securing smartphone handwritten pin codes with recurrent neural networks | |
JP4143541B2 (en) | Method and system for non-intrusive verification of speakers using behavior models | |
JP2020154061A (en) | Speaker identification apparatus, speaker identification method and program | |
US11593466B1 (en) | Narrative authentication | |
CN111694936A (en) | Method and device for identifying AI intelligent interview, computer equipment and storage medium | |
Li et al. | A multi-tasking model of speaker-keyword classification for keeping human in the loop of drone-assisted inspection | |
Vivaracho-Pascual et al. | Client threshold prediction in biometric signature recognition by means of Multiple Linear Regression and its use for score normalization | |
Dovydaitis et al. | Speaker authentication system based on voice biometrics and speech recognition | |
Vivaracho-Pascual et al. | Using the score ratio with distance-based classifiers: A theoretical and practical study in biometric signature recognition | |
JP2021174471A (en) | Discriminator learning device and discriminator learning method | |
JP2021157081A (en) | Speaker recognition device, speaker recognition method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230104 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230627 |