JP2005091758A - System and method for speaker recognition - Google Patents

System and method for speaker recognition Download PDF

Info

Publication number
JP2005091758A
JP2005091758A JP2003325119A JP2003325119A JP2005091758A JP 2005091758 A JP2005091758 A JP 2005091758A JP 2003325119 A JP2003325119 A JP 2003325119A JP 2003325119 A JP2003325119 A JP 2003325119A JP 2005091758 A JP2005091758 A JP 2005091758A
Authority
JP
Japan
Prior art keywords
data
model data
model
collation
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003325119A
Other languages
Japanese (ja)
Other versions
JP4391179B2 (en
Inventor
Seiichi Nakagawa
聖一 中川
Akihiro Kimura
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Animo Ltd
Original Assignee
Animo Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Animo Ltd filed Critical Animo Ltd
Priority to JP2003325119A priority Critical patent/JP4391179B2/en
Publication of JP2005091758A publication Critical patent/JP2005091758A/en
Application granted granted Critical
Publication of JP4391179B2 publication Critical patent/JP4391179B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To correct an inaccurate matching result due to insufficiency of speech data in registered model generation. <P>SOLUTION: The matching processing result of a 1st matching part 7 becomes better when the constitution of consonants vowels that a person to be matched utters when 1st registered model data are generated is similar to the constitution of consonants and vowels that the person to be matched utters in matching, but tends to become worse when the constitution of the consonants and vowels is different. The matching processing result of a 2nd matching part 13, at the same time, is generally not good since 2nd registered model data generated on the basis of speech data of many unspecified persons are used, but stable irrelevantly to differences between the constitution of consonants and vowels that the person to be matched utters when 2nd registered model data are generated and the constitution of consonants and vowels in matching. Consequently, the matching processing results of the 1st and 2nd matching parts are put together to perform final decision processing and then they complement each other to improve the decision precision. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、話者認識技術に関する。   The present invention relates to speaker recognition technology.

話者認識技術とは、予め特定の話者の音声を登録しておき、後に入力された音声がその登録された話者の音声であるかどうかを判定する話者認証技術、予め複数人の音声を登録しておき、後に入力された音声が複数の音声のいずれに最も類似しているかを識別する話者識別技術のいずれかを示している。いずれにしても、先に登録された音声と後に入力された音声の類似度を計算することが基本処理となっている。   The speaker recognition technology is a speaker authentication technology for registering the voice of a specific speaker in advance and determining whether or not the voice input later is the voice of the registered speaker. One of speaker identification techniques for registering voice and identifying which of the plurality of voices is most similar to the voice input later is shown. In any case, the basic processing is to calculate the similarity between the voice registered earlier and the voice inputted later.

図1に従来技術の一例を示す。話者の音声は、マイクロフォン等である音声入力部1100により入力される。音声入力部1100では、空気の振動である音声波を電気信号に変換する。音声分析部1102は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓(フレームとも言う)で、5msから30ms程度の分析周期(フレーム周期とも言う)毎に分析処理を実施し、例えばLPC(Linear Predictive Coding)ケプストラム係数(ベクトル)の系列を生成する。音声波からLPCケプストラム係数を出力する分析処理については周知であり、例えば社団法人電子情報通信学会出版中山聖一著「確率モデルによる音声認識」の7乃至12頁に記載されている。   FIG. 1 shows an example of the prior art. The voice of the speaker is input by a voice input unit 1100 such as a microphone. The voice input unit 1100 converts voice waves that are air vibrations into electrical signals. The voice analysis unit 1102 digitizes a voice electrical signal, performs an analysis process for each analysis period (also referred to as a frame period) of about 5 ms to 30 ms in an analysis window (also referred to as a frame) of about 15 ms to 30 ms. A sequence of LPC (Linear Predictive Coding) cepstrum coefficients (vectors) is generated. Analysis processing for outputting LPC cepstrum coefficients from speech waves is well known, and is described, for example, on pages 7 to 12 of Seiichi Nakayama, “Speech Recognition by Probability Model” published by the Institute of Electronics, Information and Communication Engineers.

切替部1104は、現在の処理が話者照合である場合には音声分析部1102の分析結果を照合部1108に出力し、一方現在の処理が話者登録である場合には音声分析部1102の分析結果をモデル生成部1106に出力する。モデル生成部1106は、音声分析部1102の分析結果であるLPCケプストラム係数(ベクトル)の系列のモデル化を実施する。モデルの一例は多次元正規分布モデルであって、モデル生成部1106はLPCケプストラム係数(ベクトル)の平均ベクトルμと共分散行列Σとを計算し、登録モデル格納部1110に格納する。そして、照合部1108では、平均ベクトルμ及び共分散行列Σで特定される正規分布において、照合対象に係る音声のLPCケプストラム係数(ベクトル)の系列が出現する尤度λの系列を算出する。照合結果判定部1112は、話者識別であれば例えば全体の尤度λallが最も大きい登録モデルの属性値(例えば話者ID)を、話者認証であれば閾値と比較して全体の尤度λallが当該閾値以上であるか判断して認証の成否を出力する。 When the current process is speaker verification, the switching unit 1104 outputs the analysis result of the voice analysis unit 1102 to the verification unit 1108. On the other hand, when the current process is speaker registration, the switching unit 1104 The analysis result is output to the model generation unit 1106. The model generation unit 1106 models a series of LPC cepstrum coefficients (vectors), which is an analysis result of the voice analysis unit 1102. An example of the model is a multidimensional normal distribution model, and the model generation unit 1106 calculates an average vector μ and a covariance matrix Σ of LPC cepstrum coefficients (vectors) and stores them in the registered model storage unit 1110. Then, the matching unit 1108 calculates a sequence of likelihood λ in which a sequence of LPC cepstrum coefficients (vectors) of speech related to the matching target appears in the normal distribution specified by the average vector μ and the covariance matrix Σ. For speaker identification, the matching result determination unit 1112 compares the attribute value (for example, speaker ID) of the registered model having the largest overall likelihood λ all with a threshold value for speaker authentication. It is determined whether the degree λ all is equal to or greater than the threshold value, and the success or failure of the authentication is output.

また、特開2002−268674号公報(特許文献1)には図2のような従来技術も開示されている。すなわち、音声入力部1100では、空気の振動である音声波を電気信号に変換する。音声分析部1102は、音声の電気信号をディジタル化し、15msから30ms程度のフレームで、5msから30ms程度のフレーム周期毎に分析処理を実施し、例えばLPCケプストラム係数(ベクトル)の系列を生成する。切替部1104は、現在の処理が話者照合である場合には音声分析部1102の分析結果を照合部1108に出力し、一方現在の処理が話者登録である場合には音声分析部1102の分析結果をモデル生成部1106に出力する。モデル生成部1106は、音声分析部1102の分析結果であるLPCケプストラム係数(ベクトル)の系列のモデル化を実施し、登録モデル格納部1110に格納する。   Japanese Patent Laid-Open No. 2002-268673 (Patent Document 1) also discloses a conventional technique as shown in FIG. That is, the audio input unit 1100 converts an audio wave that is air vibration into an electrical signal. The voice analysis unit 1102 digitizes a voice electrical signal, performs analysis processing for each frame period of about 5 ms to 30 ms in a frame of about 15 ms to 30 ms, and generates a series of LPC cepstrum coefficients (vectors), for example. When the current process is speaker verification, the switching unit 1104 outputs the analysis result of the voice analysis unit 1102 to the verification unit 1108. On the other hand, when the current process is speaker registration, the switching unit 1104 The analysis result is output to the model generation unit 1106. The model generation unit 1106 models a series of LPC cepstrum coefficients (vectors), which is the analysis result of the voice analysis unit 1102, and stores it in the registered model storage unit 1110.

そして照合部1108は、平均ベクトルμ及び共分散行列Σで特定される正規分布において、照合対象に係る音声のLPCケプストラム係数(ベクトル)の系列が出現する尤度λの系列を算出する。但し、当該照合処理結果である尤度が所定時間以内(約1音節分の時間)において所定の閾値未満である場合には、当該照合処理結果の影響を低減させる(例えば除去する)処理を実施する照合結果補正部1209が設けられている。照合結果判定部1211は、話者識別であれば例えば照合結果補正部1209により補正された後の全体の尤度λallが最も大きい登録モデルの属性値(例えば話者ID)を、話者認証であれば閾値と比較して照合結果補正部1209により補正された後の全体の尤度λallが当該閾値以上であるか判断して認証の成否を出力する。
特開2002−268674号公報
Then, collation section 1108 calculates a sequence of likelihood λ in which a sequence of LPC cepstrum coefficients (vectors) of speech related to the collation target appears in the normal distribution specified by mean vector μ and covariance matrix Σ. However, when the likelihood that is the result of the matching process is less than a predetermined threshold within a predetermined time (a time corresponding to about one syllable), a process of reducing (for example, removing) the influence of the matching process result is performed. A matching result correction unit 1209 is provided. For speaker identification, for example, the verification result determination unit 1211 uses the attribute value (for example, speaker ID) of the registered model having the largest overall likelihood λ all after being corrected by the verification result correction unit 1209 as the speaker authentication. If so, it is determined whether or not the overall likelihood λ all after being corrected by the matching result correction unit 1209 compared to the threshold is equal to or greater than the threshold, and the success or failure of the authentication is output.
JP 2002-268673 A

このような話者認識技術を採用する場合、話者が多くの音素を発声してモデル生成部1106により登録モデルが作成されればよいが、必ずしも十分な種類の音素に基づき登録モデルが作成されるわけではない。ある音素が発声されずに登録モデルが作成され、照合処理時に話者により登録モデル作成時には発声されなかった音素が発音されると、その音素についての照合結果は著しく悪くなる。   When such speaker recognition technology is adopted, a speaker may utter many phonemes and a registration model may be created by the model generation unit 1106. However, a registration model is not necessarily created based on a sufficient number of phonemes. I don't mean. If a registered model is created without a phoneme being uttered, and a phoneme that was not uttered at the time of creating the registered model is pronounced by the speaker during the matching process, the matching result for that phoneme will be significantly worsened.

特許文献1は上記のような問題に対処すべく提案されているが、尤度λが所定時間以内において所定の閾値未満である場合には登録モデルに不足する音素が発声されたものと仮定して処理しているため、必ずしも照合結果補正部1209による補正が正しい補正と言えない場合もある。   Patent Document 1 has been proposed to deal with the above problem, but it is assumed that if the likelihood λ is less than a predetermined threshold within a predetermined time, a phoneme that is insufficient in the registered model has been uttered. Therefore, the correction by the collation result correction unit 1209 may not always be a correct correction.

よって、本発明の目的は、登録モデル作成時における音声データの不足により生ずる不正確な照合結果を是正するための新規な技術を提供することである。   Therefore, an object of the present invention is to provide a novel technique for correcting an inaccurate collation result caused by lack of voice data when creating a registration model.

本発明に係る話者認識システムは、照合対象者の音声データから生成された第1登録モデル・データを格納する第1登録モデル・データ格納部と、多数の不特定話者の音声データから生成された不特定話者モデル・データを照合対象者に適応化することにより生成される第2登録モデル・データを格納する第2登録モデル・データ格納部と、照合対象者の音声データを分析して音声分析データを生成する分析手段と、音声分析データと第1登録モデル・データ格納部に格納された第1登録モデル・データとを用いた照合処理を実施する第1照合処理手段と、音声分析データと第2登録モデル・データ格納部に格納された第2登録モデル・データとを用いた照合処理を実施する第2照合処理手段と、第1照合処理手段及び第2照合処理手段の照合処理結果に基づき、照合対象者に対する最終判定処理を実施する判定手段とを有する。   The speaker recognition system according to the present invention includes a first registration model data storage unit that stores first registration model data generated from voice data of a person to be collated, and voice data of a large number of unspecified speakers. A second registered model data storage unit for storing second registered model data generated by adapting the determined unspecified speaker model data to the verification target person, and analyzing the voice data of the verification target person Analyzing means for generating voice analysis data, first matching processing means for performing matching processing using the voice analysis data and the first registered model data stored in the first registered model / data storage unit, and voice Second collation processing means for performing collation processing using the analysis data and the second registration model data stored in the second registration model / data storage unit, and the first collation processing means and the second collation processing means. Based on the processing results, and a judging means for performing final determination processing for the collation object person.

第1照合処理手段による照合処理結果は、第1登録モデル・データを生成する際に照合対象者が発声した子音母音の構成と照合時に照合対象者が発声した子音母音の構成が類似している場合には良くなるが、子音母音の構成が大きく異なっていると悪くなりがちである。一方、第2照合処理手段による照合処理結果は、おおむねあまりよくないが、第2登録モデル・データを生成する際に照合対象者が発声した子音母音の構成と照合時の子音母音の構成の違いに関係なく安定したものとなる。従って、これら第1及び第2照合処理手段による照合処理結果を総合して最終判定処理を行えば、互いに補う形となり判定精度が向上する。なお、最終判定処理は、話者認証の場合には成功又は失敗という判定であり、話者識別の場合には照合対象者が誰であるかという判定である。   The collation processing result by the first collation processing means is similar in the configuration of the consonant vowel uttered by the person to be collated when generating the first registered model data and the structure of the consonant vowel uttered by the person to be collated during the collation. This is better in some cases, but tends to be worse if the consonant vowel composition is significantly different. On the other hand, the result of the collation processing by the second collation processing means is generally not very good, but the difference between the consonant vowel configuration uttered by the person to be collated when generating the second registered model data and the consonant vowel configuration at the time of collation It will be stable regardless of. Accordingly, if the final determination process is performed by combining the results of the verification processing by the first and second verification processing means, the results are complemented with each other and the determination accuracy is improved. Note that the final determination processing is determination of success or failure in the case of speaker authentication, and determination of who is the person to be verified in the case of speaker identification.

なお、上で述べた判定手段が、第1照合処理手段の照合処理結果である第1の尤度と(1−α)(αは0以上1以下の所定の実数)の積と、第2照合処理手段の照合処理結果である第2の尤度とαの積とを加算した値に基づき、照合対象者に対する最終判定処理を実施するようにしてもよい。このように第1及び第2照合処理手段による照合処理結果をブレンドすることにより判定精度を向上させることができる。   Note that the determination means described above is a product of the first likelihood that is the result of the collation processing of the first collation processing means and (1-α) (α is a predetermined real number between 0 and 1), and the second Based on the value obtained by adding the product of the second likelihood and α, which is the result of the collation processing by the collation processing means, the final determination process for the person to be collated may be performed. In this way, the accuracy of determination can be improved by blending the verification processing results by the first and second verification processing means.

また、上で述べた第1登録モデル・データ及び第2登録モデル・データを混合正規分布モデル(例えばGMM(Gaussian Mixture Model))のデータとし、第1照合処理手段による照合処理及び第2照合処理手段による照合処理を、混合正規分布モデルに対応した照合処理とする場合もある。このようにすれば照合対象者が発声する内容(テキストとも呼ぶ)を指定しない状態においても照合を行うことができる。   Further, the first registered model data and the second registered model data described above are data of a mixed normal distribution model (for example, GMM (Gaussian Mixture Model)), and collation processing and second collation processing by the first collation processing means. In some cases, the matching process by the means is a matching process corresponding to the mixed normal distribution model. In this way, collation can be performed even in a state where the content (also referred to as text) uttered by the person to be collated is not specified.

また、第1登録モデル・データを混合正規分布モデルのデータとし、第2登録モデル・データをサブワード単位(例えば音節)のモデル・データ(例えばHMM(Hidden Marcov Model))とし、第1照合処理手段による照合処理を混合正規分布モデルに対応した照合処理とし、さらに第2照合処理手段が、第2登録モデル・データ格納部に格納されたサブワード単位のモデル・データを接続して照合用モデル・データを生成する照合用モデル・データ生成手段と、照合用モデル・データと音声分析データとを用いて照合処理を実施する手段とを含むようにしてもよい。   Further, the first registered model data is mixed normal distribution model data, the second registered model data is subword unit (for example, syllable) model data (for example, HMM (Hidden Marcov Model)), and the first matching processing means The collation process according to the above is a collation process corresponding to the mixed normal distribution model, and the second collation processing means connects the model data in units of subwords stored in the second registered model data storage unit, and the collation model data May be included, and a means for performing collation processing using the collation model data and the voice analysis data may be included.

必ずしも第1照合処理手段と第2照合処理手段とは同じ種類の処理を実施せずともよい。このように第2登録モデル・データをサブワード単位のモデル・データとする場合には上で述べたように第2照合処理手段においてサブワード単位のモデル・データを接続して照合用モデル・データを生成し、照合処理を実施する。   The first collation processing unit and the second collation processing unit do not necessarily have to perform the same type of processing. When the second registered model data is used as model data in subword units as described above, model data for verification is generated by connecting the model data in subword units in the second verification processing unit as described above. Then, the verification process is performed.

なお、本発明が、照合対象者に発声を求める語句(テキストとも呼ぶ)を決定する手段をさらに有し、上で述べた照合用モデル・データ生成手段が、上記語句に従って第2登録モデル・データ格納部に格納されたサブワード単位のモデル・データを接続して照合用モデル・データを生成するようにしてもよい。照合対象者に発声を求める語句を照合時に指定する方式であれば、真正な話者の音声を録音しておき本人を詐称する者に対抗することができる。本願では特定された語句に従ってサブワード単位のモデル・データを接続して照合用モデル・データを生成することができるため、上記のような詐称者にも対処できる。   Note that the present invention further includes means for determining a phrase (also referred to as text) for requesting utterance from the person to be collated, and the collation model data generating means described above is configured to register the second registered model data according to the phrase. Model data for collation may be generated by connecting model data in units of subwords stored in the storage unit. If it is a method of designating a phrase to be uttered by a person to be collated at the time of collation, it is possible to counter the person who records the voice of a genuine speaker and impersonates the person. In the present application, model data for sub-word units can be connected according to the specified phrase to generate collation model data, so that it is possible to deal with the above-mentioned impersonators.

また、本発明は、モデル・データ登録時において分析手段により生成された照合対象者の音声分析データから第1登録モデル・データを生成する手段と、モデル・データ登録時において分析手段により生成された照合対象者の音声分析データを用いて不特定話者モデル・データ格納部に格納された不特定話者モデル・データを適応化し、第2登録モデル・データを生成する第2登録モデル・データ生成手段とをさらに有するようにしてもよい。 なお、上で述べた第2登録モデル・データ生成手段が、モデル・データ登録時において照合対象者により発声されたサブワードのモデル・データを所定の方式に従って適応化する処理を実施し、適応化されたサブワード単位のモデル・データを接続して第2登録モデル・データを生成するようにしてもよい。照合時にサブワード単位のモデル・データを接続する場合もあれば、登録時に接続する場合もある。   Further, the present invention provides means for generating first registered model data from voice analysis data of a person to be collated generated by the analysis means at the time of model data registration, and means generated by the analysis means at the time of model data registration. Second registered model data generation for generating second registered model data by adapting unspecified speaker model data stored in the unspecified speaker model data storage unit using the voice analysis data of the person to be verified And a means. The second registered model data generation means described above performs a process of adapting the model data of the subword uttered by the person to be collated at the time of model data registration according to a predetermined method, and is adapted. Alternatively, the second registered model data may be generated by connecting the model data in units of subwords. In some cases, model data in units of subwords is connected at the time of collation, and in other cases, connection is made at the time of registration.

なお、本発明に係る話者認識システムはプログラムとコンピュータの組み合せにて実現することができ、この場合、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、当該プログラムはネットワークを介してディジタル信号として配信されることもある。なお、処理途中のデータについては、コンピュータのメモリに一時保管される。   The speaker recognition system according to the present invention can be realized by a combination of a program and a computer. In this case, the program is, for example, a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, a hard disk, or the like. It is stored in a storage medium or a storage device. The program may be distributed as a digital signal via a network. Note that data being processed is temporarily stored in the memory of the computer.

本発明によれば、登録モデル作成時における音声データの不足により生ずる不正確な照合結果を適切に是正することができる。   According to the present invention, it is possible to appropriately correct an inaccurate collation result caused by lack of voice data when creating a registration model.

図3に本発明の実施の形態に係る話者認識システムの機能ブロック図を示す。本実施の形態に係る話者認識システムは、音声入力部1と、音声分析部3と、切替部5と、第1照合部7と、モデル生成部9と、第1登録モデル格納部11と、第2照合部13と、モデル修正部15と、第2登録モデル格納部17と、照合結果判定部19と、事前モデル格納部21と、発声テキスト決定部25とを含む。なお、事前モデル格納部21に格納するデータを生成するために、事前音声データ格納部231と第2音声分析部233と事前モデル生成部235とを含む事前処理部23が必要となるが、照合処理やモデル登録時には必要ない。すなわち、事前処理部23は、話者認識システムに含まれない場合もある。   FIG. 3 shows a functional block diagram of the speaker recognition system according to the embodiment of the present invention. The speaker recognition system according to the present embodiment includes a voice input unit 1, a voice analysis unit 3, a switching unit 5, a first verification unit 7, a model generation unit 9, and a first registered model storage unit 11. The second collation unit 13, the model correction unit 15, the second registered model storage unit 17, the collation result determination unit 19, the prior model storage unit 21, and the utterance text determination unit 25 are included. In order to generate data to be stored in the prior model storage unit 21, a preprocessing unit 23 including a prior speech data storage unit 231, a second speech analysis unit 233, and a prior model generation unit 235 is required. Not required for processing or model registration. That is, the pre-processing unit 23 may not be included in the speaker recognition system.

音声入力部1の出力は音声分析部3に入力される。音声分析部3の出力は、切替部5に入力される。切替部5の出力は、話者照合処理時には第1照合部7及び第2照合部13に入力され、モデル登録処理時にはモデル生成部9及びモデル修正部15に入力される。モデル生成部9により生成された第1登録モデル・データは第1登録モデル格納部11に格納される。第1照合部7は、第1登録モデル格納部7を参照できるようになっており、その出力は、照合結果判定部19に入力される。一方、モデル修正部15は事前モデル格納部21に格納された事前モデルに対して音声分析部3からの出力に基づき適応化処理を施し、第2登録モデル・データとして第2登録モデル格納部17に格納する。第2照合部13は、第2登録モデル格納部17を参照できるようになっており、その出力は、照合結果判定部19に入力される。照合結果判定部19は、第1照合部7と第2照合部13からの出力に基づき最終的な照合結果を出力する。なお、本実施の形態では話者識別、話者認証のいずれをも同様な処理にて行うことができ、話者識別の最終的な照合結果であれば話者が誰であるかを示す情報(話者IDなど)を出力し、話者認証の最終的な照合結果であれば認証が成功したか失敗したかを示す情報を出力する。   The output of the voice input unit 1 is input to the voice analysis unit 3. The output of the voice analysis unit 3 is input to the switching unit 5. The output of the switching unit 5 is input to the first verification unit 7 and the second verification unit 13 during the speaker verification process, and is input to the model generation unit 9 and the model correction unit 15 during the model registration process. The first registered model data generated by the model generating unit 9 is stored in the first registered model storage unit 11. The first verification unit 7 can refer to the first registered model storage unit 7, and its output is input to the verification result determination unit 19. On the other hand, the model correction unit 15 performs an adaptation process on the advance model stored in the advance model storage unit 21 based on the output from the speech analysis unit 3, and the second registration model storage unit 17 as the second registration model data. To store. The second verification unit 13 can refer to the second registered model storage unit 17, and its output is input to the verification result determination unit 19. The verification result determination unit 19 outputs a final verification result based on the outputs from the first verification unit 7 and the second verification unit 13. In this embodiment, both speaker identification and speaker authentication can be performed by the same process, and information indicating who is the speaker is the final verification result of speaker identification. (Speaker ID, etc.) is output, and if it is the final verification result of speaker authentication, information indicating whether the authentication has succeeded or failed is output.

なお、発声テキスト決定部25は、話者が発声すべき語句を決定する必要がある場合に当該語句を決定し、決定された語句のデータを第2照合部13と図示しない出力装置(例えば表示装置又は音声変換処理部及びスピーカ)に出力する。なお、モデル修正部15に出力する場合もある。   The utterance text determination unit 25 determines the word / phrase when the speaker needs to determine the word / phrase to be uttered, and the data of the determined word / phrase and the second collation unit 13 and an output device (not shown, for example) Output to a device or a voice conversion processing unit and a speaker). Note that the data may be output to the model correction unit 15.

事前処理部23における事前音声データ格納部231にはディジタル化された多数の不特定話者の音声データが格納されている。そして、第2音声分析部233は事前音声データ格納部231に格納された音声データを処理して、処理結果を事前モデル生成部235に出力する。事前モデル生成部235の出力は事前モデル格納部21に格納される。この事前モデル格納部21は話者認識システムに含まれる。   The pre-voice data storage unit 231 in the pre-processing unit 23 stores a large number of digitized voice data of unspecified speakers. Then, the second speech analysis unit 233 processes the speech data stored in the prior speech data storage unit 231 and outputs the processing result to the prior model generation unit 235. The output of the advance model generation unit 235 is stored in the advance model storage unit 21. This prior model storage unit 21 is included in the speaker recognition system.

以下、3つの実施の形態について図3に示した話者認識システム及び事前処理部23の処理内容について説明する。   Hereinafter, the processing contents of the speaker recognition system and the preprocessing unit 23 shown in FIG.

1.実施の形態1
本実施の形態では、第1登録モデル格納部11及び第2登録モデル格納部17に混合正規分布モデル(GMM)のデータが格納されており、第1照合部7及び第2照合部13において混合正規分布モデル(GMM)に基づく照合処理を実施する。
1. Embodiment 1
In the present embodiment, mixed normal distribution model (GMM) data is stored in the first registered model storage unit 11 and the second registered model storage unit 17, and mixed in the first matching unit 7 and the second matching unit 13. A matching process based on a normal distribution model (GMM) is performed.

最初に事前処理部23においてどのような処理を行うかについて図4を用いて説明する。事前処理部23の事前音声データ格納部231には、多数の不特定話者による音声データ(例えばディジタル・データ)が格納されている。なお、多数の不特定話者による音声データについては、各々すべての子音母音の音声のデータが含まれるものとする。そこで、第2音声分析部233は、事前音声データ格納部231に格納された事前音声データを読み出して、フレーム毎に音声分析を実施し、音声分析データを生成する(ステップS1)。より具体的には、15msから30ms程度の分析窓(フレーム)で、5msから30ms程度の分析周期(フレーム周期)毎に分析処理を実施し、例えばLPCケプストラム係数(ベクトル)の系列を生成する。図5に示すように、音声波に対して分析窓を分析周期ずつずらして設定し、分析窓毎に所定の分析処理を施し、その分析窓に対応するケプストラム係数Cijを出力する。例えば、1回の分析処理により、10から20(次元)程度のLPCケプストラム係数が計算される。ここでiはフレーム番号であり、i=1〜Nで、Nはフレーム総数である。jはLPCケプストラム係数の次元番号であり、j=1〜nで、nは次元数である。i番目の分析処理により得られたLPCケプストラム係数は以下のように表わせば、特徴ベクトルXiとなる。
i=(Ci1,Ci2,...CinT (1)
このような処理を事前音声データ格納部231に格納されている音声データすべてについて実施する。処理結果については記憶装置に格納する。
First, what kind of processing is performed in the pre-processing unit 23 will be described with reference to FIG. The voice data storage unit 231 of the pre-processing unit 23 stores voice data (for example, digital data) by many unspecified speakers. Note that the speech data of many unspecified speakers includes the speech data of all consonant vowels. Therefore, the second speech analysis unit 233 reads the pre-speech data stored in the pre-speech data storage unit 231 and performs speech analysis for each frame to generate speech analysis data (step S1). More specifically, analysis processing is performed for each analysis period (frame period) of about 5 ms to 30 ms with an analysis window (frame) of about 15 ms to 30 ms, and for example, a series of LPC cepstrum coefficients (vectors) is generated. As shown in FIG. 5, the analysis window is set to be shifted for the analysis period for the sound wave, a predetermined analysis process is performed for each analysis window, and a cepstrum coefficient C ij corresponding to the analysis window is output. For example, an LPC cepstrum coefficient of about 10 to 20 (dimensions) is calculated by one analysis process. Here, i is a frame number, i = 1 to N, and N is the total number of frames. j is a dimension number of the LPC cepstrum coefficient, j = 1 to n, and n is the number of dimensions. The LPC cepstrum coefficient obtained by the i-th analysis process becomes a feature vector X i when expressed as follows.
X i = (C i1 , C i2 ,... C in ) T (1)
Such a process is performed for all audio data stored in the pre-audio data storage unit 231. The processing result is stored in the storage device.

次に、事前モデル生成部235は、事前音声データ格納部231に格納されている多数の不特定話者による音声データに対する混合正規分布モデル(GMM)を生成するための処理を実施し、処理結果を事前モデル・データとして事前モデル格納部21に格納する(ステップS3)。話者λsモデルの混合正規分布は、以下の式で表される。但し、ここでは話者λsは多数の不特定話者全員である。

Figure 2005091758
ここでxtは(1)式と同様に表される照合時のn次元特徴ベクトルである。
(2)式のように、GMMはn次元M混合のガウス分布N(xtsmsm)を重みwsmで線形結合した確率モデルとなる。このN(xtsmsm)は、以下のように表される。
Figure 2005091758
Next, the prior model generation unit 235 performs processing for generating a mixed normal distribution model (GMM) for speech data by a large number of unspecified speakers stored in the prior speech data storage unit 231, and the processing result Are stored in the prior model storage unit 21 as prior model data (step S3). The mixed normal distribution of the speaker λ s model is expressed by the following equation. However, here, the speaker λ s is all of many unspecified speakers.
Figure 2005091758
Here, x t is an n-dimensional feature vector at the time of collation expressed in the same manner as the equation (1).
As shown in the equation (2), the GMM is a probability model in which an n-dimensional M-mixed Gaussian distribution N (x t | μ sm , Σ sm ) is linearly combined with a weight w sm . This N (x t | μ sm , Σ sm ) is expressed as follows.
Figure 2005091758

ここでμsmは話者モデルλsの登録時の特徴ベクトルXtから算出されるM個の平均ベクトルである。平均ベクトルμsmについては、特徴ベクトルXtからベクトル量子化や最尤推定により生成される。また、各特徴ベクトルXtがいずれの平均ベクトルμsmに関連するのかについては、各特徴ベクトルXtについて最も近い平均ベクトルμsmを見つけることにより決定することができる。 Here, μ sm is M average vectors calculated from the feature vector X t when the speaker model λ s is registered. The average vector μ sm is generated from the feature vector X t by vector quantization or maximum likelihood estimation. As for whether the feature vector X t is associated with any of the mean vector mu sm, it can be determined by finding the closest mean vector mu sm for each feature vector X t.

またΣsmは話者モデルλsの共分散行列を示している。すなわち、以下のとおりである。なお、平均ベクトルμsmに関連する特徴ベクトルXtによりM個の共分散行列Σsmを求める。

Figure 2005091758
平均ベクトルμsmと共分散行列Σsmとについては、以下同様に算出される。 Σ sm represents the covariance matrix of the speaker model λ s . That is, it is as follows. Note that M covariance matrices Σ sm are obtained from the feature vector X t related to the average vector μ sm .
Figure 2005091758
The average vector μ sm and the covariance matrix Σ sm are calculated in the same manner.

さらに混合分布の重みwsmは、以下のような関係がある。

Figure 2005091758
Furthermore, the weight w sm of the mixture distribution has the following relationship.
Figure 2005091758

但し、各wsmは解析的には決定できないので、例えば以下の式が最大となるように周知のEMアルゴリズムなどによりwsmを決定する。

Figure 2005091758
However, since each w sm cannot be determined analytically, for example, w sm is determined by a known EM algorithm or the like so that the following expression becomes maximum.
Figure 2005091758

このように、(2)式及び(3)式を計算するためには、M個のμsmとM個のΣsmとM個((7)式から厳密にはM−1個)の重みwsmとが必要となり、これらのデータが事前モデル・データとなる。 Thus, in order to calculate the expressions (2) and (3), M μ sm , M Σ sm and M weights (strictly M−1 from the expression (7)) are used. w sm is required, and these data become the pre-model data.

次に、本実施の形態における話者認識システムの処理フローを図6を用いて説明する。ここでは話者認証の場合の処理フローを説明する。最初に、話者から、照合と登録のいずれを実施するか指定する処理選択入力及び話者識別情報(例えば話者ID)の入力を受け付ける(ステップS11)。   Next, the processing flow of the speaker recognition system in the present embodiment will be described with reference to FIG. Here, a processing flow in the case of speaker authentication will be described. First, a process selection input for designating whether collation or registration is performed and input of speaker identification information (for example, speaker ID) are received from the speaker (step S11).

次に、話者の音声は、マイクロフォン等である音声入力部1を介して入力される(ステップS13)。音声入力部1では、空気の振動である音声波を電気信号に変換する。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS15)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。 Next, the voice of the speaker is input via the voice input unit 1 such as a microphone (step S13). The voice input unit 1 converts a voice wave that is air vibration into an electric signal. Next, the voice analysis unit 3 digitizes the voice electrical signal, performs voice analysis for each frame of about 5 ms to 30 ms, and analyzes voice analysis data (for example, a sequence of LPC cepstrum coefficients) in an analysis window of about 15 ms to 30 ms. C ij ) is generated (step S15). That is, feature vectors x i are generated for the number of frames. The generated data is stored in a storage device (not shown).

そして切替部5は、ステップS11で受け付けた処理選択入力が照合であるか判断する(ステップS17)。処理選択入力が照合ではなく登録である場合(ステップS17:Noルート)には、モデル生成部9は、話者の入力音声に対する第1登録モデル・データを生成し、話者IDに対応して第1登録モデル格納部11に登録する(ステップS19)。モデル生成部9の処理は、事前モデル生成部235の処理とほぼ同じである。すなわち、音声分析データである特徴ベクトルxiのM個の平均ベクトルμsmを算出し、さらにM個の共分散行列Σsmを(6)式に従って算出する。さらに例えば(8)式を最大にするように重みwsmを算出する。このように算出されたデータを第1登録モデル格納部11に登録する。 Then, the switching unit 5 determines whether or not the process selection input received in step S11 is collation (step S17). When the process selection input is registration rather than verification (step S17: No route), the model generation unit 9 generates first registration model data for the input voice of the speaker, and corresponds to the speaker ID. It registers in the 1st registration model storage part 11 (step S19). The process of the model generation unit 9 is almost the same as the process of the prior model generation unit 235. That is, M average vectors μ sm of feature vectors x i that are speech analysis data are calculated, and M covariance matrices Σ sm are calculated according to the equation (6). Further, for example, the weight w sm is calculated so as to maximize the expression (8). The data calculated in this way is registered in the first registration model storage unit 11.

また、モデル修正部15は、話者の入力音声の音声分析データに基づき事前モデルを修正して第2登録モデル・データを生成し、第2登録モデル格納部17に格納する(ステップS21)。具体的には、事前モデル格納部21に格納されている、特徴ベクトルの平均ベクトルをμ0(M個の平均ベクトルμの各々)とし、音声分析データである特徴ベクトルxi(1≦i≦N)と定数βとを用いて以下の式にて第2登録モデルにおける特徴ベクトルの平均ベクトルμaを算出する。

Figure 2005091758
Further, the model correction unit 15 corrects the prior model based on the voice analysis data of the speaker's input voice, generates second registration model data, and stores it in the second registration model storage unit 17 (step S21). Specifically, an average vector of feature vectors stored in the prior model storage unit 21 is μ 0 (each of M average vectors μ), and feature vectors x i (1 ≦ i ≦ 1) that are speech analysis data. N) and the constant β are used to calculate the average vector μ a of the feature vectors in the second registered model using the following equation.
Figure 2005091758

(9)式では事前モデルにおける平均ベクトルμ0の重みを定数βで決定している。この定数βについては環境に依存するため実験的に適切な値を決定する。事前モデルに含まれる共分散行列Σや重みwについても、入力音声の音声分析データを用いて話者に適応化させてもよいが、本実施の形態では平均ベクトルμ0のみを話者に適応化させる。従って、第2登録モデルとして(9)式で計算されるM個の平均ベクトルμaと、事前モデルに含まれるM個の共分散行列Σ及びM個(又はM−1個)の重みwとを、話者IDに対応して第2登録モデル格納部17に登録する。そして処理を終了する。 In equation (9), the weight of the average vector μ 0 in the prior model is determined by a constant β. Since this constant β depends on the environment, an appropriate value is determined experimentally. The covariance matrix Σ and the weight w included in the prior model may be adapted to the speaker using the speech analysis data of the input speech, but in this embodiment, only the average vector μ 0 is adapted to the speaker. Make it. Therefore, M average vectors μ a calculated by the equation (9) as the second registration model, M covariance matrices Σ and M (or M−1) weights w included in the prior model, Is registered in the second registration model storage unit 17 in correspondence with the speaker ID. Then, the process ends.

一方話者の処理選択入力が照合である場合(ステップS17:Yesルート)、第1照合部7は、第1登録モデル格納部11から話者IDに対応する第1登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)をさらに用いて照合処理を実施する(ステップS23)。すなわち、各特徴ベクトルにつき(2)及び(3)式でP(xts)、そして対数尤度logP(xts)を算出する。さらに、(8)式に従って対数尤度の総和L1を計算する。なお、計算結果は記憶装置に格納される。 On the other hand, when the process selection input of the speaker is collation (step S17: Yes route), the first collation unit 7 reads the first registration model data corresponding to the speaker ID from the first registration model storage unit 11, A matching process is further performed using the feature vector x i (1 ≦ i ≦ N), which is speech analysis data (step S23). That is, for each feature vector, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated according to equations (2) and (3). Furthermore, the log likelihood total L1 is calculated according to the equation (8). The calculation result is stored in the storage device.

また、第2照合部13は、第2登録モデル格納部17から話者IDに対応する第2登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)をさらに用いて照合処理を実施する(ステップS25)。ステップS23と同様に、各特徴ベクトルにつき(2)式及び(3)式でP(xts)、そして対数尤度logP(xts)を算出する。さらに、(8)式に従って対数尤度の総和L2を計算する。なお、第2登録モデル・データは第1登録モデル・データとは異なるのでステップS23とステップS25の計算結果は異なる。なお、計算結果は記憶装置に格納される。 Further, the second collation unit 13 reads out the second registration model data corresponding to the speaker ID from the second registration model storage unit 17, and further extracts the feature vector x i (1 ≦ i ≦ N) that is the voice analysis data. The collation process is performed using them (step S25). Similar to step S23, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated for each feature vector using equations (2) and (3). Furthermore, the log likelihood total L2 is calculated according to the equation (8). Since the second registration model data is different from the first registration model data, the calculation results in step S23 and step S25 are different. The calculation result is stored in the storage device.

そして照合結果判定部19は、ステップS23とステップS25の2つの照合処理結果を用いて判定処理を実施し、判定処理結果を出力する(ステップS27)。ここでは、以下のような式に従って2つの照合処理結果である尤度を加算して、総合尤度Lを算出する。
L=L1×(1−α)+L2×α (10)
但し、0≦α≦1となる。また、αの最適値については判定精度が向上するように実験的に求める。他の実験の条件にもよるが、0.9から0.95において良い結果を示すことがわかっている。
And the collation result determination part 19 implements a determination process using the two collation process results of step S23 and step S25, and outputs a determination process result (step S27). Here, the total likelihood L is calculated by adding the likelihoods that are two collation processing results according to the following equation.
L = L1 × (1−α) + L2 × α (10)
However, 0 ≦ α ≦ 1. Further, the optimum value of α is experimentally obtained so that the determination accuracy is improved. It has been found that 0.9 to 0.95 gives good results, depending on other experimental conditions.

そして、この総合尤度Lが所定の閾値を超えているかを判断することにより、今回の話者の認証が成功したか失敗したかが判定される。この場合判定処理結果としては、認証の成功又は失敗を表す情報が出力される。   Then, by determining whether or not the total likelihood L exceeds a predetermined threshold value, it is determined whether the current speaker authentication has succeeded or failed. In this case, information indicating the success or failure of the authentication is output as the determination processing result.

第1登録モデル・データを生成する際に話者により多くの子音母音を発声してもらえればよいが、実際は話者に負担がかかるため多くの子音母音を発声してもらえないことが多い。従って、第1照合部7により算出された尤度は、第1登録モデル・データを生成する際に話者が発声した子音母音の構成と照合時に話者が発声した子音母音の構成が類似している場合には良くなるが、子音母音の構成が大きく異なっていると悪くなりがちである。一方、第2照合部13により算出された尤度は、おおむねあまりよくないが、第2登録モデル・データを生成する際に話者が発声した子音母音の構成と照合時の子音母音の構成の違いに関係なく安定したものとなる。従って、上で述べたように2つの照合処理結果を総合して最終判定処理を行えば、互いに補う形となり判定精度が向上する。   When the first registered model data is generated, it is sufficient that the speaker utters many consonant vowels. However, since the speaker is actually burdened, many consonant vowels are often not uttered. Accordingly, the likelihood calculated by the first matching unit 7 is similar to the configuration of the consonant vowels uttered by the speaker at the time of matching with the configuration of the consonant vowels uttered by the speaker when generating the first registered model data. It tends to get worse if the composition of consonant vowels is significantly different. On the other hand, the likelihood calculated by the second collation unit 13 is generally not very good, but the configuration of the consonant vowels spoken by the speaker when generating the second registered model data and the configuration of the consonant vowels at the time of collation It will be stable regardless of the difference. Therefore, as described above, if the final determination process is performed by combining the two collation processing results, the results are complemented to improve the determination accuracy.

なお、本実施の形態では、第1照合部7も第2照合部13も、登録時又は照合時に発声される音声の内容が限定されないテキスト独立方式についての照合処理を行う例を示している。   In the present embodiment, an example is shown in which both the first matching unit 7 and the second matching unit 13 perform a matching process for a text independent method in which the content of speech uttered at the time of registration or matching is not limited.

念のため話者識別の際の簡略化した処理フローについて図7を用いて説明しておく。まず、話者の音声は、マイクロフォン等である音声入力部1を介して入力される(ステップS31)。音声入力部1では、空気の振動である音声波を電気信号に変換する。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS33)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。ここでは登録の場合の説明は省略するので、切替部5はフレーム数分の特徴ベクトルxiを第1照合部7と第2照合部13に出力する。 As a precaution, a simplified processing flow for speaker identification will be described with reference to FIG. First, the voice of the speaker is input via the voice input unit 1 such as a microphone (step S31). The voice input unit 1 converts a voice wave that is air vibration into an electric signal. Next, the voice analysis unit 3 digitizes the voice electrical signal, performs voice analysis for each frame of about 5 ms to 30 ms, and analyzes voice analysis data (for example, a sequence of LPC cepstrum coefficients) in an analysis window of about 15 ms to 30 ms. C ij ) is generated (step S33). That is, feature vectors x i are generated for the number of frames. The generated data is stored in a storage device (not shown). Since the description in the case of registration is omitted here, the switching unit 5 outputs the feature vectors x i for the number of frames to the first matching unit 7 and the second matching unit 13.

第1照合部7は、第1登録モデル格納部11から順次各話者IDの第1登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)に対して照合処理を実施する(ステップS35)。すなわち、話者ID毎に、各特徴ベクトルにつき(2)及び(3)式でP(xts)、そして対数尤度logP(xts)を算出する。さらに、(8)式に従って対数尤度の総和L1を話者ID毎に計算する。なお、計算結果は記憶装置に格納される。 The first collation unit 7 sequentially reads the first registration model data of each speaker ID from the first registration model storage unit 11 and collates it with the feature vector x i (1 ≦ i ≦ N) which is voice analysis data. Processing is performed (step S35). That is, for each speaker ID, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated for each feature vector using equations (2) and (3). Further, the sum of log likelihoods L1 is calculated for each speaker ID according to the equation (8). The calculation result is stored in the storage device.

また、第2照合部13は、第2登録モデル格納部17から順次各話者IDの第2登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)に対して照合処理を実施する(ステップS37)。ステップS35と同様に、話者ID毎に、各特徴ベクトルにつき(2)式及び(3)式でP(xts)、そして対数尤度logP(xts)を算出する。さらに、(8)式に従って対数尤度の総和L2を話者ID毎に計算する。なお、計算結果は記憶装置に格納される。 Further, the second collation unit 13 sequentially reads out the second registration model data of each speaker ID from the second registration model storage unit 17, and for the feature vector x i (1 ≦ i ≦ N) that is the voice analysis data. The collation process is performed (step S37). Similarly to step S35, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated for each feature vector using the equations (2) and (3) for each speaker ID. . Further, the sum L2 of logarithmic likelihoods is calculated for each speaker ID according to the equation (8). The calculation result is stored in the storage device.

そして照合結果判定部19は、ステップS35とステップS37の2つの照合処理結果を用いて総合尤度を話者ID毎に算出し、記憶装置に格納する(ステップS39)。ここでは、(10)式に従って2つの照合処理結果である尤度L1及びL2を加算して、総合尤度Lを各話者IDにつき算出する。   And the collation result determination part 19 calculates total likelihood for every speaker ID using the two collation process results of step S35 and step S37, and stores it in a memory | storage device (step S39). Here, the likelihoods L1 and L2 which are two collation processing results are added according to the equation (10), and the total likelihood L is calculated for each speaker ID.

そして、照合結果判定部19は、この総合尤度Lが最も高い話者IDなどを、最終判定結果として出力する(ステップS41)。数式で示せば、以下のようになる。

Figure 2005091758
話者IDがsとして出力される。なお、ここでは総合尤度Lが1/Nされているが、しなくともよい。 And the collation result determination part 19 outputs speaker ID etc. with this highest total likelihood L as a final determination result (step S41). This can be expressed as follows:
Figure 2005091758
The speaker ID is output as s. Here, the overall likelihood L is 1 / N, but it is not necessary.

このようにすれば、話者識別処理を実施することができる。最終ステップであるステップS39以外は、照合処理の回数が話者IDの数だけ実施されるだけであり、話者認証処理の場合と本質的な差異はない。従って、(8)式のように総合尤度を計算して判定を行うため、判定精度が向上する。   In this way, speaker identification processing can be performed. Except for step S39, which is the final step, the number of verification processes is only the number of speaker IDs, and there is no essential difference from the case of speaker authentication processing. Therefore, the determination accuracy is improved because the total likelihood is calculated and determined as in equation (8).

2.実施の形態2
次に、第2登録モデル・データにGMMではなくサブワード(例えば音節あるいは音素)単位のモデル・データを採用し、第2照合部13において当該サブワード単位のモデルを接続して照合用モデルを生成すると共にテキスト独立方式の照合処理を実施する場合の処理について説明する。
2. Embodiment 2
Next, model data in units of subwords (for example, syllables or phonemes) instead of GMM is adopted as the second registered model data, and a model for verification is generated by connecting the models in units of subwords in the second verification unit 13. In addition, a description will be given of processing in the case where text independent verification processing is performed.

最初に、図4、図8及び図9を用いて本実施の形態における事前処理部23の処理内容について説明する。事前処理部23の事前音声データ格納部231には、多数の不特定話者による音声データ(例えばディジタル・データ)が格納されている。なお、多数の不特定話者による音声データについては、各々すべての子音母音の音声のデータが含まれるものとする。そこで、第2音声分析部233は、事前音声データ格納部231に格納された事前音声データを読み出して、フレーム毎に音声分析を実施し、音声分析データを生成する(ステップS1)。より具体的には、15msから30ms程度の分析窓(フレーム)で、5msから30ms程度の分析周期(フレーム周期)毎に分析処理を実施し、例えばLPCケプストラム係数(特徴ベクトル)の系列を生成する。ここでは音節毎に特徴ベクトルXiを管理する。このような処理を事前音声データ格納部231に格納されている音声データすべてについて実施する。処理結果については記憶装置に格納する。 First, processing contents of the preprocessing unit 23 in the present embodiment will be described with reference to FIGS. 4, 8, and 9. The voice data storage unit 231 of the pre-processing unit 23 stores voice data (for example, digital data) by many unspecified speakers. Note that the speech data of many unspecified speakers includes the speech data of all consonant vowels. Therefore, the second speech analysis unit 233 reads the pre-speech data stored in the pre-speech data storage unit 231 and performs speech analysis for each frame to generate speech analysis data (step S1). More specifically, an analysis process is performed for each analysis period (frame period) of about 5 ms to 30 ms with an analysis window (frame) of about 15 ms to 30 ms, and for example, a sequence of LPC cepstrum coefficients (feature vectors) is generated. . Here, the feature vector X i is managed for each syllable. Such a process is performed for all audio data stored in the pre-audio data storage unit 231. The processing result is stored in the storage device.

次に、事前モデル生成部235は、事前音声データ格納部231に格納されている多数の不特定話者による音声データに対する隠れマルコフモデル(HMM:Hidden Marcov Model)を音節毎に生成するための処理を実施し、処理結果を事前モデル・データとして事前モデル格納部21に格納する(ステップS3)。   Next, the prior model generation unit 235 generates a hidden Markov model (HMM: Hidden Marcov Model) for speech data by many unspecified speakers stored in the prior speech data storage unit 231 for each syllable. And the processing result is stored in the advance model storage unit 21 as advance model data (step S3).

HMMの構造の一例を図8に示す。HMMは、複数の状態801乃至805(ここではJ個の状態S0乃至SJ-1)とその状態の間の遷移(状態間を結ぶ矢印)とで構成される。そして、入力音声の特徴ベクトルXiが1つ出力されるたびに状態を1回遷移するものとする。ここで状態SkからSlに遷移する確率aklは以下のように表される。
kl=P(sl=Sl|sl-1=Sk) (11)
An example of the structure of the HMM is shown in FIG. The HMM is composed of a plurality of states 801 to 805 (here, J states S 0 to S J-1 ) and transitions between the states (arrows connecting the states). It is assumed that the state transitions once every time one feature vector X i of the input speech is output. Here, the probability a kl of transition from the state S k to S l is expressed as follows.
a kl = P (s l = S l | s l-1 = S k ) (11)

また、状態SkからSlに遷移するときに特徴ベクトルxが出力される確率bklは以下のように表される。
kl=P(x|sl=Sl,sl-1=Sk) (12)
なお、bklは、(2)式で表される。
Further, the probability b kl that the feature vector x is output when transitioning from the state S k to S l is expressed as follows.
b kl = P (x | s l = S l , s l-1 = S k ) (12)
Note that b kl is expressed by equation (2).

このようなモデルWから入力音声の特徴ベクトルの系列X={X0,X1,...Xi,...XT-1}が出力される確率は、以下の式で表される。

Figure 2005091758
すなわち、S0乃至SJ-1までの状態遷移パターンS毎に、その状態遷移パターンに従って(11)式及び(12)式の積を全部掛けて得られる値のうち最も大きい値をP(X|W)とするものである。状態S0からSJ-1まで遷移する間に特徴ベクトルX0乃至XT-1が生成されるため、状態遷移パターンSは、図9に示すように、左下のポイント901と右上のポイント902とを水平方向と斜め方向の線分のみを用いて接続することのできる1又は複数のパターンである。図9では点線で表されたパターン903と実線で表されたパターン904の2つのパターンのみ示されているが、実際には多くのパターンが存在している。 From such a model W, a series of feature vectors X = {X 0 , X 1 ,. . . X i,. . . The probability that XT-1 } is output is expressed by the following equation.
Figure 2005091758
That is, for each state transition pattern S from S 0 to S J−1 , the largest value among the values obtained by multiplying all products of Equations (11) and (12) according to the state transition pattern is P (X | W). Since the feature vectors X 0 to X T-1 are generated during the transition from the state S 0 to S J−1 , the state transition pattern S includes the lower left point 901 and the upper right point 902 as shown in FIG. Can be connected using only horizontal and diagonal line segments. In FIG. 9, only two patterns, a pattern 903 represented by a dotted line and a pattern 904 represented by a solid line, are shown, but there are actually many patterns.

ステップS3では、音節毎に、(13)式の値を最大にするように、(11)式のaklと、(2)式((12)式から(2)式が参照される。)における重みwsmというパラメータを、例えば周知のEMアルゴリズム等により決定する。また、音節毎に、特徴ベクトルXiのM個の平均ベクトルμsmとM個の共分散行列Σsmも算出する。このようにして求められた子音母音毎のakl、M個(又はM−1個)の重みwsm、特徴ベクトルのM個の平均ベクトルμsm及び共分散行列Σsmが事前モデル・データとして事前モデル格納部21に格納される。 In step S3, for each syllable, the value of equation (13) is maximized so that akl in equation (11) and equation (2) (refer to equations (2) to (2)). The parameter of weight w sm in is determined by, for example, a well-known EM algorithm. In addition, for each syllable, M average vectors μ sm and M covariance matrices Σ sm of the feature vector X i are also calculated. The a kl , M (or M−1) weights w sm , M average vectors μ sm of feature vectors, and covariance matrix Σ sm for each consonant vowel obtained in this way are used as prior model data. It is stored in the prior model storage unit 21.

このように音節といったサブワード単位でモデル・データを用意することにより、モデル修正部15において適切に話者に対する適応化を行うことができるようになる。   By preparing the model data in units of subwords such as syllables in this way, the model correction unit 15 can appropriately adapt to the speaker.

次に、本実施の形態における話者認識システムの処理フローを図10を用いて説明する。ここでは話者認証の場合の処理フローを説明する。最初に、話者から、照合と登録のいずれを実施するか指定する処理選択入力及び話者識別情報(例えば話者ID)の入力を受け付ける(ステップS51)。   Next, the processing flow of the speaker recognition system in the present embodiment will be described with reference to FIG. Here, a processing flow in the case of speaker authentication will be described. First, a process selection input for designating whether collation or registration is performed and input of speaker identification information (for example, speaker ID) are received from the speaker (step S51).

次に、話者の音声は、マイクロフォン等である音声入力部1を介して入力される(ステップS53)。音声入力部1では、空気の振動である音声波を電気信号に変換する。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS55)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。 Next, the voice of the speaker is input via the voice input unit 1 such as a microphone (step S53). The voice input unit 1 converts a voice wave that is air vibration into an electric signal. Next, the voice analysis unit 3 digitizes the voice electrical signal, performs voice analysis for each frame of about 5 ms to 30 ms, and analyzes voice analysis data (for example, a sequence of LPC cepstrum coefficients) in an analysis window of about 15 ms to 30 ms. C ij ) is generated (step S55). That is, feature vectors x i are generated for the number of frames. The generated data is stored in a storage device (not shown).

そして切替部5は、ステップS51で受け付けた処理選択入力が照合であるか判断する(ステップS57)。処理選択入力が照合ではなく登録である場合(ステップS57:Noルート)には、モデル生成部9は、話者の入力音声に対する第1登録モデル・データを生成し、話者IDに対応して第1登録モデル格納部11に登録する(ステップS59)。モデル生成部9の処理は、第1の実施の形態における事前モデル生成部235の処理とほぼ同じである。すなわち、音声分析データである特徴ベクトルxiのM個の平均ベクトルμsmを算出し、さらにM個の共分散行列Σsmを(6)式に従って算出する。さらに例えば(8)式を最大にするように重みwsmを算出する。このように算出されたデータを第1登録モデル格納部11に登録する。 Then, the switching unit 5 determines whether or not the process selection input received in step S51 is collation (step S57). If the process selection input is registration rather than collation (step S57: No route), the model generation unit 9 generates first registration model data for the input voice of the speaker, and corresponds to the speaker ID. Register in the first registration model storage unit 11 (step S59). The process of the model generation unit 9 is almost the same as the process of the prior model generation unit 235 in the first embodiment. That is, M average vectors μ sm of feature vectors x i that are speech analysis data are calculated, and M covariance matrices Σ sm are calculated according to the equation (6). Further, for example, the weight w sm is calculated so as to maximize the expression (8). The data calculated in this way is registered in the first registration model storage unit 11.

また、モデル修正部15は、話者の入力音声の音声分析データに基づき事前モデルを修正して第2登録モデル・データを生成し、第2登録モデル格納部17に格納する(ステップS61)。具体的には、今回入力された音声の音節単位で、事前モデル格納部21に格納されている音節単位の事前モデル・データ全てに対して(13)式を計算し、最も確率の高い音節を特定する。そして、特定された音節の事前モデル・データに含まれる特徴ベクトルの平均ベクトルをμ0(M個の平均ベクトルμの各々)とし、入力音声の音声分析データである特徴ベクトルxi(1≦i≦N)と定数βとを用いて(9)式にて第2登録モデルにおける特徴ベクトルのM個の平均ベクトルμaを算出する。 Further, the model correction unit 15 corrects the prior model based on the voice analysis data of the speaker's input voice, generates second registration model data, and stores it in the second registration model storage unit 17 (step S61). Specifically, in the syllable unit of the speech input this time, the equation (13) is calculated for all the pre-model data of the syllable unit stored in the pre-model storage unit 21, and the syllable with the highest probability is calculated. Identify. Then, the average vector of the feature vectors included in the prior model data of the identified syllable is μ 0 (each of the M average vectors μ), and the feature vector x i (1 ≦ i) that is the speech analysis data of the input speech ≦ N) and the constant β are used to calculate M average vectors μ a of the feature vectors in the second registered model according to equation (9).

(9)式では事前モデルにおける平均ベクトルμ0の重みを定数βで決定している。この定数βについては実験的に適切な値を決定する。事前モデルに含まれる共分散行列Σや重みwについても、入力音声の音声分析データを用いて話者に適応化させてもよいが、本実施の形態では平均ベクトルμ0のみを話者に適応化させる。 In equation (9), the weight of the average vector μ 0 in the prior model is determined by a constant β. An appropriate value for this constant β is determined experimentally. The covariance matrix Σ and the weight w included in the prior model may be adapted to the speaker using the speech analysis data of the input speech, but in this embodiment, only the average vector μ 0 is adapted to the speaker. Make it.

このように入力音声の各音節につき、第2登録モデルとして(9)式で計算されるM個の平均ベクトルμaと、事前モデルに含まれるM個の共分散行列Σ及びM個(又はM−1個)の重みwとを、話者IDに対応して第2登録モデル格納部17に登録する。さらに、入力音声に含まれなかった子音母音については、事前モデル・データをそのまま第2登録モデル・データとして話者IDに対応して第2登録モデル格納部17に登録する。 As described above, for each syllable of the input speech, M average vectors μ a calculated by the equation (9) as the second registration model, and M covariance matrices Σ and M (or M) included in the prior model. -1) weight w is registered in the second registration model storage unit 17 in correspondence with the speaker ID. Further, for the consonant vowels that are not included in the input speech, the prior model data is directly registered in the second registration model storage unit 17 as the second registration model data corresponding to the speaker ID.

一方話者の処理選択入力が照合である場合(ステップS57:Yesルート)、第1照合部7は、第1登録モデル格納部11から話者IDに対応する第1登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)をさらに用いて照合処理を実施する(ステップS63)。すなわち、各特徴ベクトルにつき(2)及び(3)式でP(xts)、そして対数尤度logP(xts)を算出する。さらに、(8)式に従って対数尤度の総和L1を計算する。なお、計算結果は記憶装置に格納される。 On the other hand, when the process selection input of the speaker is collation (step S57: Yes route), the first collation unit 7 reads the first registration model data corresponding to the speaker ID from the first registration model storage unit 11, A matching process is further performed using the feature vector x i (1 ≦ i ≦ N), which is speech analysis data (step S63). That is, for each feature vector, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated according to equations (2) and (3). Furthermore, the log likelihood total L1 is calculated according to the equation (8). The calculation result is stored in the storage device.

また、第2照合部13は、第2登録モデル格納部17から話者IDに対応する第2登録モデル・データを読み出し、照合用モデルを構成する(ステップS65)。本実施の形態では第2照合部13でもテキスト独立方式を採用するため、例えば図11に示すように音節のモデルを接続する。すなわち、スタートから遷移した後の状態211を全ての音節のモデルで共有し、全ての音節のモデル212乃至215を並列に接続する。そして、エンドに遷移する前の状態216も全ての音節のモデルで共有する。さらに、状態216から状態211に戻るための状態遷移217を設定する。すなわち、入力音声の音節毎に、全ての音節のモデルと照合を行い、最も確率の高い音節モデルからの出力を採用する。これを入力音声の最後の音節まで繰り返すものである。   Further, the second collation unit 13 reads out the second registration model data corresponding to the speaker ID from the second registration model storage unit 17 and configures a collation model (step S65). In the present embodiment, the second collating unit 13 also adopts the text independent method, and therefore, for example, a syllable model is connected as shown in FIG. That is, the state 211 after transition from the start is shared by all syllable models, and all the syllable models 212 to 215 are connected in parallel. The state 216 before transitioning to the end is also shared by all syllable models. Further, a state transition 217 for returning from the state 216 to the state 211 is set. In other words, for each syllable of the input speech, all syllable models are collated, and the output from the syllable model with the highest probability is adopted. This is repeated until the last syllable of the input speech.

そして、第2照合部13は、図11に示すような照合モデルを用いて照合処理を実施する(ステップS67)。より具体的には、入力音声の最初の音節に係る音声分析データである特徴ベクトルと第2登録モデル・データに含まれる全音節に係るモデル・データとを用いて、第2登録モデル・データに含まれる全音節について(13)式に従って確率を算出する。そして、最大の確率が算出された音節についての確率を例えば記憶装置に保持する。そして、入力音声の次の音節に係るモデル・データについても同様に(13)式に従って確率を算出し、最大の確率が算出された音節についての確率を例えば記憶装置に保持する。このように入力音声の最後の音節まで上で述べたような処理を繰り返し、最終的に記憶装置に保持されている確率を全て掛け合わせ、算出された値を尤度L2とする。但し、記憶装置に保持されている確率のそれぞれの対数を算出し、それらの総和を尤度L2とする場合もある。なお、計算結果は記憶装置に格納される。   And the 2nd collation part 13 implements collation processing using a collation model as shown in FIG. 11 (step S67). More specifically, the second registered model data is obtained by using the feature vector that is the voice analysis data related to the first syllable of the input speech and the model data related to all syllables included in the second registered model data. Probabilities are calculated for all included syllables according to equation (13). And the probability about the syllable from which the maximum probability was calculated is hold | maintained in a memory | storage device, for example. The model data related to the syllable next to the input speech is similarly calculated according to the equation (13), and the probability for the syllable for which the maximum probability is calculated is held in a storage device, for example. In this way, the processing as described above is repeated until the last syllable of the input speech, and all the probabilities held in the storage device are finally multiplied, and the calculated value is set as the likelihood L2. However, there are cases where the logarithms of the probabilities held in the storage device are calculated and the sum of these is used as the likelihood L2. The calculation result is stored in the storage device.

そして照合結果判定部19は、ステップS63とステップS67の2つの照合処理結果を用いて判定処理を実施し、判定処理結果を出力する(ステップS69)。ここでは、(10)式に従って2つの照合処理結果である尤度を加算して、総合尤度Lを算出する。   And the collation result determination part 19 implements a determination process using the two collation process results of step S63 and step S67, and outputs a determination process result (step S69). Here, the total likelihood L is calculated by adding the likelihoods that are two collation processing results according to the equation (10).

そして、この総合尤度Lが所定の閾値を超えているかを判断することにより、今回の話者の認証が成功したか失敗したかが判定される。この場合判定処理結果としては、認証の成功又は失敗を表す情報が出力される。   Then, by determining whether or not the total likelihood L exceeds a predetermined threshold value, it is determined whether the current speaker authentication has succeeded or failed. In this case, information indicating the success or failure of the authentication is output as the determination processing result.

本実施の形態は、実施の形態1とは第2登録モデル・データの内容及び第2照合部13の処理内容が異なるが、実施の形態1と同様に2つの照合処理結果を総合して最終判定処理を行うので、互いに補うことになり判定精度が向上する。   The present embodiment differs from the first embodiment in the contents of the second registered model data and the processing contents of the second collation unit 13, but the final result is obtained by combining the two collation processing results as in the first embodiment. Since the determination process is performed, the determination accuracy is improved because they are mutually supplemented.

なお、話者識別の処理については、図7のステップS37を、全第2登録モデル・データに対する図10のステップS65及びS67に置き換えることにより、実施可能となる。従って、話者識別処理の話者識別精度も向上する。   The speaker identification process can be implemented by replacing step S37 in FIG. 7 with steps S65 and S67 in FIG. 10 for all second registered model data. Therefore, the speaker identification accuracy of the speaker identification process is also improved.

3.実施の形態3
次に、第2登録モデル・データにGMMではなくサブワード(例えば音節)単位のモデル・データを採用し、第2照合部13において当該サブワード単位のモデルを指定テキストに従って接続して照合用モデルを生成すると共にテキスト依存方式の照合処理を実施する場合の処理について説明する。なお、テキスト依存とは、照合又は登録時に話者に発声させるテキストを限定する方式である。
3. Embodiment 3
Next, instead of GMM, model data in units of subwords (eg, syllables) is adopted as the second registered model data, and a model for verification is generated by connecting the models in units of subwords according to the designated text in the second verification unit 13 In addition, a description will be given of processing in the case of performing text-dependent collation processing. Note that the text dependence is a method of limiting the text to be uttered by the speaker at the time of collation or registration.

事前処理部23の処理については、実施の形態2で述べたものと同一なのでここでは説明を省略する。   Since the processing of the pre-processing unit 23 is the same as that described in the second embodiment, the description thereof is omitted here.

次に、本実施の形態における話者認識システムの処理フローを図12を用いて説明する。ここでは話者認証の場合の処理フローを説明する。最初に、話者から、照合と登録のいずれを実施するか指定する処理選択入力及び話者識別情報(例えば話者ID)の入力を受け付ける(ステップS71)。そして、話者により照合ではなく登録が選択された場合には(ステップS73:Noルート)、話者の音声が、マイクロフォン等である音声入力部1を介して入力される(ステップS75)。音声入力部1では、空気の振動である音声波を電気信号に変換する。なお、切換部5はこの段階でモデル生成部9及びモデル修正部15の方に音声分析データの出力先を切り替える。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS77)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。 Next, the processing flow of the speaker recognition system in the present embodiment will be described with reference to FIG. Here, a processing flow in the case of speaker authentication will be described. First, a process selection input for designating whether collation or registration is performed and input of speaker identification information (for example, speaker ID) are received from the speaker (step S71). If registration is selected instead of collation by the speaker (step S73: No route), the voice of the speaker is input via the voice input unit 1 such as a microphone (step S75). The voice input unit 1 converts a voice wave that is air vibration into an electric signal. Note that the switching unit 5 switches the output destination of the voice analysis data to the model generation unit 9 and the model correction unit 15 at this stage. Next, the voice analysis unit 3 digitizes the voice electrical signal, performs voice analysis for each frame of about 5 ms to 30 ms, and analyzes voice analysis data (for example, a sequence of LPC cepstrum coefficients) in an analysis window of about 15 ms to 30 ms. C ij ) is generated (step S77). That is, feature vectors x i are generated for the number of frames. The generated data is stored in a storage device (not shown).

そして、モデル生成部9は、話者の入力音声に対する第1登録モデル・データを生成し、話者IDに対応して第1登録モデル格納部11に登録する(ステップS79)。モデル生成部9の処理は、第1の実施の形態における事前モデル生成部235の処理とほぼ同じである。すなわち、音声分析データである特徴ベクトルxiのM個の平均ベクトルμsmを算出し、さらにM個の共分散行列Σsmを(6)式に従って算出する。さらに例えば(8)式を最大にするようにM個(又はM−1個)の重みwsmを算出する。このように算出されたデータを第1登録モデル格納部11に登録する。 And the model production | generation part 9 produces | generates the 1st registration model data with respect to a speaker's input audio | voice, and registers it in the 1st registration model storage part 11 corresponding to a speaker ID (step S79). The process of the model generation unit 9 is almost the same as the process of the prior model generation unit 235 in the first embodiment. That is, M average vectors μ sm of feature vectors x i that are speech analysis data are calculated, and M covariance matrices Σ sm are calculated according to the equation (6). Further, for example, M (or M−1) weights w sm are calculated so as to maximize the expression (8). The data calculated in this way is registered in the first registration model storage unit 11.

また、モデル修正部15は、話者の入力音声の音声分析データに基づき事前モデルを修正して第2登録モデル・データを生成し、第2登録モデル格納部17に格納する(ステップS81)。具体的には、今回入力された音声の音節単位で、事前モデル格納部21に格納されている音節単位の事前モデル・データ全てに対して(13)式を計算し、最も確率の高い音節を特定する。そして、特定された音節の事前モデル・データに含まれる特徴ベクトルの平均ベクトルをμ0(M個の平均ベクトルの各々)とし、入力音声の音声分析データである特徴ベクトルxi(1≦i≦N)と定数βとを用いて(9)式にて第2登録モデルにおける特徴ベクトルのM個の平均ベクトルμaを算出する。事前モデルに含まれる共分散行列Σや重みwについても、入力音声の音声分析データを用いて話者に適応化させてもよいが、本実施の形態では平均ベクトルμ0のみを話者に適応化させる。 Further, the model correction unit 15 corrects the prior model based on the voice analysis data of the speaker's input voice, generates second registration model data, and stores it in the second registration model storage unit 17 (step S81). Specifically, in the syllable unit of the speech input this time, the equation (13) is calculated for all the pre-model data of the syllable unit stored in the pre-model storage unit 21, and the syllable with the highest probability is calculated. Identify. Then, an average vector of feature vectors included in the pre-model data of the identified syllable is μ 0 (each of M average vectors), and a feature vector x i (1 ≦ i ≦ 1) that is speech analysis data of the input speech. N) and the constant β are used to calculate M average vectors μ a of the feature vectors in the second registered model according to equation (9). The covariance matrix Σ and the weight w included in the prior model may be adapted to the speaker using the speech analysis data of the input speech, but in this embodiment, only the average vector μ 0 is adapted to the speaker. Make it.

このように入力音声の音節につき、第2登録モデルとして(9)式で計算されるM個の平均ベクトルμaと、事前モデルに含まれるM個の共分散行列Σ及びM個(M−1個)の重みwとを、話者IDに対応して第2登録モデル格納部17に登録する。さらに、入力音声に含まれなかった子音母音については、事前モデル・データをそのまま第2登録モデル・データとして話者IDに対応して第2登録モデル格納部17に登録する。 In this way, for the syllable of the input speech, M average vectors μ a calculated by the equation (9) as the second registration model, and M covariance matrices Σ and M (M−1) included in the prior model. Weight) w is registered in the second registration model storage unit 17 in correspondence with the speaker ID. Further, for the consonant vowels that are not included in the input speech, the prior model data is directly registered in the second registration model storage unit 17 as the second registration model data corresponding to the speaker ID.

一方話者の処理選択入力が照合である場合(ステップS73:Yesルート)、発声テキスト決定部25は、話者に発声を依頼する発声用テキスト(語句)を決定し、図示しない表示装置や音声変換装置及びスピーカなどを介して出力する(ステップS83)。そして、指定された発声用テキストについての話者の音声が、マイクロフォン等である音声入力部1を介して入力される(ステップS85)。音声入力部1では、空気の振動である音声波を電気信号に変換する。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS87)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。 On the other hand, when the process selection input of the speaker is collation (step S73: Yes route), the utterance text determination unit 25 determines the utterance text (phrase) for requesting the speaker to utter, and displays a display device or voice (not shown). The data is output via a conversion device and a speaker (step S83). Then, the voice of the speaker for the designated utterance text is input via the voice input unit 1 such as a microphone (step S85). The voice input unit 1 converts a voice wave that is air vibration into an electric signal. Next, the voice analysis unit 3 digitizes the voice electrical signal, performs voice analysis for each frame of about 5 ms to 30 ms, and analyzes voice analysis data (for example, a sequence of LPC cepstrum coefficients) in an analysis window of about 15 ms to 30 ms. C ij ) is generated (step S87). That is, feature vectors x i are generated for the number of frames. The generated data is stored in a storage device (not shown).

そして、第1照合部7は、第1登録モデル格納部11から話者IDに対応する第1登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)をさらに用いて照合処理を実施する(ステップS89)。すなわち、各特徴ベクトルにつき(2)及び(3)式でP(xts)、そして対数尤度logP(xts)を算出する。さらに、(8)式に従って対数尤度の総和L1を計算する。なお、計算結果は記憶装置に格納される。 Then, the first collation unit 7 reads the first registration model data corresponding to the speaker ID from the first registration model storage unit 11, and further extracts the feature vector x i (1 ≦ i ≦ N) that is the voice analysis data. The collation process is performed using them (step S89). That is, for each feature vector, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated according to equations (2) and (3). Furthermore, the log likelihood total L1 is calculated according to the equation (8). The calculation result is stored in the storage device.

また、第2照合部13は、第2登録モデル格納部17から話者IDに対応する第2登録モデル・データを読み出し、発声用テキストに応じた照合用モデルを構成する(ステップS91)。本実施の形態では第2照合部13においてテキスト依存方式を採用するため、例えば図13(a)及び(b)に示すように音節のモデルを接続する。ここでは発声用テキストが「アサヒ」であるので、図13(a)に示すように「ア」「サ」「ヒ」というモデル・データを第2登録モデル・データから読み出し、図13(b)に示すように最後の音節のモデルを除き、各音節の最後の状態を次の音節の最初の状態に置き換えることによりモデルの接続を行うことができる。すなわち、話者がアサヒと発声した場合のみ有意な確率(尤度)が算出されるように、モデルを連結する。   Further, the second collation unit 13 reads out the second registration model data corresponding to the speaker ID from the second registration model storage unit 17, and configures a collation model corresponding to the utterance text (step S91). In the present embodiment, the second collating unit 13 employs a text-dependent system, and therefore, for example, syllable models are connected as shown in FIGS. 13 (a) and 13 (b). Here, since the text for utterance is “Asahi”, model data “a”, “sa”, and “hi” are read from the second registered model data as shown in FIG. The model can be connected by replacing the last state of each syllable with the first state of the next syllable except for the model of the last syllable as shown in FIG. That is, the models are connected so that a significant probability (likelihood) is calculated only when the speaker utters Asahi.

そして、第2照合部13は、図13に示すような照合モデルを用いて照合処理を実施する(ステップS93)。より具体的には、入力音声に係る音声分析データである特徴ベクトルと発声用テキストに含まれる音節のモデル・データとから(13)式に従って確率を算出する。算出された値を尤度L2とする。なお、計算結果は記憶装置に格納される。   And the 2nd collation part 13 implements collation processing using a collation model as shown in FIG. 13 (step S93). More specifically, the probability is calculated according to the equation (13) from the feature vector that is the voice analysis data related to the input voice and the syllable model data included in the utterance text. Let the calculated value be the likelihood L2. The calculation result is stored in the storage device.

そして照合結果判定部19は、ステップS89とステップS93の2つの照合処理結果を用いて判定処理を実施し、判定処理結果を出力する(ステップS95)。ここでは、(10)式に従って2つの照合処理結果である尤度を加算して、総合尤度Lを算出する。   And the collation result determination part 19 implements a determination process using the two collation process results of step S89 and step S93, and outputs a determination process result (step S95). Here, the total likelihood L is calculated by adding the likelihoods that are two collation processing results according to the equation (10).

そして、この総合尤度Lが所定の閾値を超えているかを判断することにより、今回の話者の認証が成功したか失敗したかが判定される。この場合判定処理結果としては、認証の成功又は失敗を表す情報が出力される。   Then, by determining whether or not the total likelihood L exceeds a predetermined threshold value, it is determined whether the current speaker authentication has succeeded or failed. In this case, information indicating the success or failure of the authentication is output as the determination processing result.

本実施の形態は、実施の形態1とは第2登録モデル・データの内容及び第2照合部13の処理内容が異なるが、実施の形態1と同様に2つの照合処理結果を総合して最終判定処理を行うので、互いに補うことになり判定精度が向上する。また、テキスト依存方式を第2照合部13に関連して採用しているので、例えば真正な話者の音声の録音を用いる詐称者に対抗することも可能となる。   The present embodiment differs from the first embodiment in the contents of the second registered model data and the processing contents of the second collation unit 13, but the final result is obtained by combining the two collation processing results as in the first embodiment. Since the determination process is performed, the determination accuracy is improved because they are mutually supplemented. In addition, since the text-dependent method is employed in connection with the second collating unit 13, it is possible to counter an impersonator who uses a voice recording of a genuine speaker, for example.

なお、話者識別の処理については、図7のステップS37を、発声用テキストについての第2登録モデル・データに対する図12のステップS91及びS93に置き換えることにより、実施可能となる。従って、話者識別処理の話者識別精度も向上する。   The speaker identification process can be implemented by replacing step S37 in FIG. 7 with steps S91 and S93 in FIG. 12 for the second registered model data for the text for utterance. Therefore, the speaker identification accuracy of the speaker identification process is also improved.

4.その他の実施の形態
(1)モデル修正部15
上では、重みβで事前モデルの平均ベクトルμを話者に適応化する例(最大事後確率推定法MAP)を示しているが、最尤線形回帰法(MLLR)を用いる場合もある。
4). Other Embodiments (1) Model Correction Unit 15
The above shows an example (maximum posterior probability estimation method MAP) in which the average vector μ of the prior model is adapted to the speaker with the weight β, but the maximum likelihood linear regression method (MLLR) may be used.

(2)テキスト依存方式
実施の形態3では、話者登録の際には話者が自由に発声し、話者照合の際には発声用テキストが指定される例を示したが、話者登録の際に発声用テキストが指定され、話者照合の際にも同じ発声用テキストが指定されるような構成であってもよい。この場合、モデル修正部15が、実施の形態3において第2照合部13が行う照合用モデルの構成の処理までを実施して、第2登録モデル格納部17に格納する。
(2) Text Dependent Method In the third embodiment, an example is shown in which a speaker speaks freely during speaker registration and a text for utterance is specified during speaker verification. The utterance text may be specified at the time of the speaker verification, and the same utterance text may be specified at the time of speaker verification. In this case, the model correction unit 15 performs the processing up to the configuration of the verification model performed by the second verification unit 13 in the third embodiment, and stores it in the second registered model storage unit 17.

以上本発明の実施の形態を説明したが、本発明はこれらに限定されるものではない。例えば、図3に示した機能ブロック図であるが、これに対応してプログラムモジュールが構成されるとは限らない。   Although the embodiments of the present invention have been described above, the present invention is not limited to these. For example, although it is the functional block diagram shown in FIG. 3, a program module is not necessarily comprised corresponding to this.

第1の従来技術の機能ブロック図を示す。The functional block diagram of the 1st prior art is shown. 第2の従来技術の機能ブロック図を示す。The functional block diagram of the 2nd prior art is shown. 本発明の実施の形態に係る機能ブロック図を示す。The functional block diagram which concerns on embodiment of this invention is shown. 事前処理部の処理フローを示す図である。It is a figure which shows the processing flow of a pre-processing part. LPCケプストラム係数と音声波との関係を示す模式図である。It is a schematic diagram which shows the relationship between a LPC cepstrum coefficient and a sound wave. 実施の形態1の照合及び登録処理の処理フローを示す図である。FIG. 6 is a diagram illustrating a processing flow of collation and registration processing according to the first embodiment. 話者識別の処理フローを示す図である。It is a figure which shows the processing flow of speaker identification. HMMの一例を示す模式図である。It is a schematic diagram which shows an example of HMM. HMMにおける状態遷移パターンを説明するための模式図である。It is a schematic diagram for demonstrating the state transition pattern in HMM. 実施の形態2の照合及び登録処理の処理フローを示す図である。FIG. 10 is a diagram illustrating a processing flow of collation and registration processing according to the second embodiment. 第2登録モデルから構成される照合用モデル(実施の形態2用)を示す図である。It is a figure which shows the model for collation (for Embodiment 2) comprised from a 2nd registration model. 実施の形態3の照合及び登録処理の処理フローを示す図である。FIG. 10 is a diagram illustrating a processing flow of collation and registration processing according to the third embodiment. 第2登録モデルから構成される照合用モデル(実施の形態3用)を示す図である。It is a figure which shows the model for collation (for Embodiment 3) comprised from a 2nd registration model.

符号の説明Explanation of symbols

1 音声入力部 3 音声分析部 5 切替部 7 第1照合部
9 モデル生成部 11 第1登録モデル格納部 13 第2照合部
15 モデル修正部 17 第2登録モデル格納部 19 照合結果判定部
21 事前モデル格納部 23 事前処理部 25 発声テキスト決定部
231 事前音声データ格納部 233 第2音声分析部
235 事前モデル生成部
DESCRIPTION OF SYMBOLS 1 Voice input part 3 Voice analysis part 5 Switching part 7 1st collation part 9 Model production | generation part 11 1st registration model storage part 13 2nd collation part 15 Model correction part 17 2nd registration model storage part 19 Collation result determination part 21 Advance Model storage unit 23 Pre-processing unit 25 Speech text determination unit 231 Pre-speech data storage unit 233 Second speech analysis unit 235 Pre-model generation unit

Claims (9)

照合対象者の音声データから生成された第1登録モデル・データを格納する第1登録モデル・データ格納部と、
複数の不特定話者の音声データから生成された不特定話者モデル・データを前記照合対象者に適応化することにより生成される第2登録モデル・データを格納する第2登録モデル・データ格納部と、
前記照合対象者の音声データを分析して音声分析データを生成する分析手段と、
前記音声分析データと前記第1登録モデル・データ格納部に格納された前記第1登録モデル・データとを用いた照合処理を実施する第1照合処理手段と、
前記音声分析データと前記第2登録モデル・データ格納部に格納された前記第2登録モデル・データとを用いた照合処理を実施する第2照合処理手段と、
前記第1照合処理手段及び前記第2照合処理手段の照合処理結果に基づき、前記照合対象者に対する最終判定処理を実施する判定手段と、
を有する話者認識システム。
A first registered model data storage unit for storing first registered model data generated from voice data of a person to be verified;
Second registered model data storage for storing second registered model data generated by adapting unspecified speaker model data generated from voice data of a plurality of unspecified speakers to the verification target person And
Analyzing means for analyzing voice data of the person to be collated and generating voice analysis data;
First verification processing means for performing verification processing using the voice analysis data and the first registered model data stored in the first registered model / data storage unit;
A second matching processing means for performing a matching process using the voice analysis data and the second registered model data stored in the second registered model / data storage unit;
A determination unit that performs a final determination process on the verification target person based on the verification processing results of the first verification processing unit and the second verification processing unit;
A speaker recognition system.
前記判定手段が、
前記第1照合処理手段の照合処理結果である第1の尤度と(1−α)(αは0以上1以下の所定の実数)の積と、前記第2照合処理手段の照合処理結果である第2の尤度と前記αの積とを加算した値に基づき、前記照合対象者に対する最終判定処理を実施する
ことを特徴とする請求項1記載の話者認識システム。
The determination means is
The product of the first likelihood and (1-α) (α is a predetermined real number greater than or equal to 0 and less than or equal to 1), which is the result of the first collation processing means, and the result of the collation processing of the second collation processing means. The speaker recognition system according to claim 1, wherein a final determination process is performed on the person to be collated based on a value obtained by adding a certain second likelihood and the product of α.
前記第1登録モデル・データ及び前記第2登録モデル・データが混合正規分布モデルのデータであり、
前記第1照合処理手段による照合処理及び前記第2照合処理手段による照合処理が、前記混合正規分布モデルに対応した照合処理である
ことを特徴とする請求項1又は2記載の話者認識システム。
The first registration model data and the second registration model data are mixed normal distribution model data,
The speaker recognition system according to claim 1 or 2, wherein the matching process by the first matching processing unit and the matching process by the second matching processing unit are matching processes corresponding to the mixed normal distribution model.
前記第1登録モデル・データが混合正規分布モデルのデータであり、
前記第2登録モデル・データがサブワード単位のモデル・データであり、
前記第1照合処理手段による照合処理が前記混合正規分布モデルに対応した照合処理であり、
前記第2照合処理手段が、
前記第2登録モデル・データ格納部に格納された前記サブワード単位のモデル・データを接続して照合用モデル・データを生成する照合用モデル・データ生成手段と、
前記照合用モデル・データと前記音声分析データとを用いて照合処理を実施する手段と、
を含む請求項1又は2記載の話者認識システム。
The first registered model data is data of a mixed normal distribution model;
The second registration model data is model data in subword units,
The matching process by the first matching processing means is a matching process corresponding to the mixed normal distribution model,
The second matching processing means
Collation model data generation means for connecting the subword unit model data stored in the second registered model data storage unit to generate collation model data;
Means for performing a matching process using the matching model data and the voice analysis data;
The speaker recognition system according to claim 1 or 2, comprising:
前記照合対象者に発声を求める語句を決定する手段
をさらに有し、
前記照合用モデル・データ生成手段が、
前記語句に従って前記第2登録モデル・データ格納部に格納された前記サブワード単位のモデル・データを接続して照合用モデル・データを生成する
ことを特徴とする請求項4記載の話者認識システム。
Means for determining a phrase to be uttered by the person to be collated;
The collation model data generating means is
5. The speaker recognition system according to claim 4, wherein model data for collation is generated by connecting the model data in units of subwords stored in the second registered model data storage unit according to the phrase.
モデル・データ登録時において前記分析手段により生成された前記照合対象者の音声分析データから前記第1登録モデル・データを生成する手段と、
モデル・データ登録時において前記分析手段により生成された前記照合対象者の音声分析データを用いて不特定話者モデル・データ格納部に格納された前記不特定話者モデル・データを適応化し、前記第2登録モデル・データを生成する第2登録モデル・データ生成手段と、
をさらに有する請求項1乃至5のいずれか1つ記載の話者認識システム。
Means for generating the first registration model data from the voice analysis data of the person to be collated generated by the analysis means at the time of model data registration;
Adapting the unspecified speaker model data stored in the unspecified speaker model data storage unit using the voice analysis data of the verification target person generated by the analysis means at the time of model data registration, Second registered model data generating means for generating second registered model data;
The speaker recognition system according to claim 1, further comprising:
前記第2登録モデル・データ生成手段が、
モデル・データ登録時において前記照合対象者により発声されたサブワードのモデル・データを所定の方式に従って適応化する処理を実施し、
適応化されたサブワード単位のモデル・データを接続して前記第2登録モデル・データを生成する
ことを特徴とする請求項6記載の話者認識システム。
The second registration model data generation means includes
A process of adapting the model data of the subword uttered by the person to be collated at the time of model data registration according to a predetermined method,
The speaker registration system according to claim 6, wherein the second registration model data is generated by connecting model data in units of subwords adapted to each other.
照合対象者の音声データを分析して音声分析データを生成するステップと、
照合対象者の音声データから生成され且つ第1登録モデル・データ格納装置に格納された第1登録モデル・データと前記音声分析データとの照合処理を実施する第1照合処理ステップと、
複数の不特定話者の音声データから生成された不特定話者モデル・データを前記照合対象者に適応化することにより生成され且つ第2登録モデル・データ格納装置に格納された第2登録モデル・データと前記音声分析データとの照合処理を実施する第2照合処理ステップと、
前記第1照合処理ステップと前記第2照合処理ステップとの照合処理結果に基づき、前記照合対象者に対する最終判定処理を実施するステップと、
をコンピュータに実行させるための話者認識プログラム。
Analyzing voice data of the person to be matched to generate voice analysis data;
A first collation processing step for performing collation processing between the voice analysis data and the first registered model data generated from the voice data of the person to be collated and stored in the first registered model / data storage device;
Second registered model generated by adapting unspecified speaker model data generated from voice data of a plurality of unspecified speakers to the verification target person and stored in the second registered model data storage device A second collation processing step for performing collation processing between the data and the voice analysis data;
A step of performing a final determination process on the person to be collated based on a collation process result of the first collation process step and the second collation process step;
Speaker recognition program to make the computer execute.
照合対象者の音声データを分析して音声分析データを生成するステップと、
照合対象者の音声データから生成され且つ第1登録モデル・データ格納部に格納された第1登録モデル・データと前記音声分析データとを用いた照合処理を実施する第1照合処理ステップと、
複数の不特定話者の音声データから生成された不特定話者モデル・データを前記照合対象者に適応化することにより生成され且つ第2登録モデル・データ格納部に格納された第2登録モデル・データと前記音声分析データとを用いた照合処理を実施する第2照合処理ステップと、
前記第1照合処理ステップと前記第2照合処理ステップとの照合処理結果に基づき、前記照合対象者に対する最終判定処理を実施するステップと、
を含み、コンピュータにより実行される話者認識方法。
Analyzing voice data of the person to be matched to generate voice analysis data;
A first matching processing step for performing a matching process using the first registered model data generated from the voice data of the person to be matched and stored in the first registered model data storage unit and the voice analysis data;
Second registered model generated by adapting unspecified speaker model data generated from voice data of a plurality of unspecified speakers to the verification target person and stored in the second registered model data storage unit A second collation processing step for performing collation processing using data and the voice analysis data;
A step of performing a final determination process on the person to be collated based on a collation process result of the first collation process step and the second collation process step;
A speaker recognition method executed by a computer.
JP2003325119A 2003-09-17 2003-09-17 Speaker recognition system and method Expired - Lifetime JP4391179B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003325119A JP4391179B2 (en) 2003-09-17 2003-09-17 Speaker recognition system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003325119A JP4391179B2 (en) 2003-09-17 2003-09-17 Speaker recognition system and method

Publications (2)

Publication Number Publication Date
JP2005091758A true JP2005091758A (en) 2005-04-07
JP4391179B2 JP4391179B2 (en) 2009-12-24

Family

ID=34455659

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003325119A Expired - Lifetime JP4391179B2 (en) 2003-09-17 2003-09-17 Speaker recognition system and method

Country Status (1)

Country Link
JP (1) JP4391179B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008224911A (en) * 2007-03-10 2008-09-25 Toyohashi Univ Of Technology Speaker recognition system
JP2008233759A (en) * 2007-03-23 2008-10-02 Yamaha Corp Mixed model generating device, sound processor, and program
JP2010175807A (en) * 2009-01-29 2010-08-12 Kddi Corp Speech recognition method and device
JP2018509649A (en) * 2015-02-05 2018-04-05 北京得意音通技▲術▼有限▲責▼任公司Beijing D−Ear Technologies Co., Ltd. Identification system and method with self-learning function based on dynamic password speech
JP2018170672A (en) * 2017-03-30 2018-11-01 西日本電信電話株式会社 Voiceprint authentication device, voiceprint authentication method, and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008224911A (en) * 2007-03-10 2008-09-25 Toyohashi Univ Of Technology Speaker recognition system
JP2008233759A (en) * 2007-03-23 2008-10-02 Yamaha Corp Mixed model generating device, sound processor, and program
JP2010175807A (en) * 2009-01-29 2010-08-12 Kddi Corp Speech recognition method and device
JP2018509649A (en) * 2015-02-05 2018-04-05 北京得意音通技▲術▼有限▲責▼任公司Beijing D−Ear Technologies Co., Ltd. Identification system and method with self-learning function based on dynamic password speech
JP2018170672A (en) * 2017-03-30 2018-11-01 西日本電信電話株式会社 Voiceprint authentication device, voiceprint authentication method, and program

Also Published As

Publication number Publication date
JP4391179B2 (en) 2009-12-24

Similar Documents

Publication Publication Date Title
Sukkar et al. Vocabulary independent discriminative utterance verification for nonkeyword rejection in subword based speech recognition
CA2609247C (en) Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US5913192A (en) Speaker identification with user-selected password phrases
JP4301102B2 (en) Audio processing apparatus, audio processing method, program, and recording medium
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
JP5240457B2 (en) Extended recognition dictionary learning device and speech recognition system
EP2192575A1 (en) Speech recognition based on a multilingual acoustic model
Masuko et al. Imposture using synthetic speech against speaker verification based on spectrum and pitch
EP1647970A1 (en) Hidden conditional random field models for phonetic classification and speech recognition
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
JP2009086581A (en) Apparatus and program for creating speaker model of speech recognition
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
JP4391179B2 (en) Speaker recognition system and method
JP2007078943A (en) Acoustic score calculating program
US9355636B1 (en) Selective speech recognition scoring using articulatory features
JP2000352993A (en) Voice recognition system and learning method of hidden markov model
JP3171107B2 (en) Voice recognition device
Dey et al. Content normalization for text-dependent speaker verification
JP2001312293A (en) Method and device for voice recognition, and computer- readable storage medium
JP3090119B2 (en) Speaker verification device, method and storage medium
JP3036509B2 (en) Method and apparatus for determining threshold in speaker verification
JP5104732B2 (en) Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof
US20090254335A1 (en) Multilingual weighted codebooks
JP4236502B2 (en) Voice recognition device
JP3868798B2 (en) Voice recognition device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060908

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20070828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091007

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121016

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4391179

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131016

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term