JP2005091758A - System and method for speaker recognition - Google Patents
System and method for speaker recognition Download PDFInfo
- Publication number
- JP2005091758A JP2005091758A JP2003325119A JP2003325119A JP2005091758A JP 2005091758 A JP2005091758 A JP 2005091758A JP 2003325119 A JP2003325119 A JP 2003325119A JP 2003325119 A JP2003325119 A JP 2003325119A JP 2005091758 A JP2005091758 A JP 2005091758A
- Authority
- JP
- Japan
- Prior art keywords
- data
- model data
- model
- collation
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 102
- 238000012545 processing Methods 0.000 claims abstract description 109
- 238000004458 analytical method Methods 0.000 claims description 107
- 238000012795 verification Methods 0.000 claims description 51
- 238000013500 data storage Methods 0.000 claims description 29
- 238000009826 distribution Methods 0.000 claims description 17
- 230000000295 complement effect Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 88
- 238000003860 storage Methods 0.000 description 70
- 238000012937 correction Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 11
- 230000007704 transition Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Abstract
Description
本発明は、話者認識技術に関する。 The present invention relates to speaker recognition technology.
話者認識技術とは、予め特定の話者の音声を登録しておき、後に入力された音声がその登録された話者の音声であるかどうかを判定する話者認証技術、予め複数人の音声を登録しておき、後に入力された音声が複数の音声のいずれに最も類似しているかを識別する話者識別技術のいずれかを示している。いずれにしても、先に登録された音声と後に入力された音声の類似度を計算することが基本処理となっている。 The speaker recognition technology is a speaker authentication technology for registering the voice of a specific speaker in advance and determining whether or not the voice input later is the voice of the registered speaker. One of speaker identification techniques for registering voice and identifying which of the plurality of voices is most similar to the voice input later is shown. In any case, the basic processing is to calculate the similarity between the voice registered earlier and the voice inputted later.
図1に従来技術の一例を示す。話者の音声は、マイクロフォン等である音声入力部1100により入力される。音声入力部1100では、空気の振動である音声波を電気信号に変換する。音声分析部1102は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓(フレームとも言う)で、5msから30ms程度の分析周期(フレーム周期とも言う)毎に分析処理を実施し、例えばLPC(Linear Predictive Coding)ケプストラム係数(ベクトル)の系列を生成する。音声波からLPCケプストラム係数を出力する分析処理については周知であり、例えば社団法人電子情報通信学会出版中山聖一著「確率モデルによる音声認識」の7乃至12頁に記載されている。
FIG. 1 shows an example of the prior art. The voice of the speaker is input by a
切替部1104は、現在の処理が話者照合である場合には音声分析部1102の分析結果を照合部1108に出力し、一方現在の処理が話者登録である場合には音声分析部1102の分析結果をモデル生成部1106に出力する。モデル生成部1106は、音声分析部1102の分析結果であるLPCケプストラム係数(ベクトル)の系列のモデル化を実施する。モデルの一例は多次元正規分布モデルであって、モデル生成部1106はLPCケプストラム係数(ベクトル)の平均ベクトルμと共分散行列Σとを計算し、登録モデル格納部1110に格納する。そして、照合部1108では、平均ベクトルμ及び共分散行列Σで特定される正規分布において、照合対象に係る音声のLPCケプストラム係数(ベクトル)の系列が出現する尤度λの系列を算出する。照合結果判定部1112は、話者識別であれば例えば全体の尤度λallが最も大きい登録モデルの属性値(例えば話者ID)を、話者認証であれば閾値と比較して全体の尤度λallが当該閾値以上であるか判断して認証の成否を出力する。
When the current process is speaker verification, the
また、特開2002−268674号公報(特許文献1)には図2のような従来技術も開示されている。すなわち、音声入力部1100では、空気の振動である音声波を電気信号に変換する。音声分析部1102は、音声の電気信号をディジタル化し、15msから30ms程度のフレームで、5msから30ms程度のフレーム周期毎に分析処理を実施し、例えばLPCケプストラム係数(ベクトル)の系列を生成する。切替部1104は、現在の処理が話者照合である場合には音声分析部1102の分析結果を照合部1108に出力し、一方現在の処理が話者登録である場合には音声分析部1102の分析結果をモデル生成部1106に出力する。モデル生成部1106は、音声分析部1102の分析結果であるLPCケプストラム係数(ベクトル)の系列のモデル化を実施し、登録モデル格納部1110に格納する。
Japanese Patent Laid-Open No. 2002-268673 (Patent Document 1) also discloses a conventional technique as shown in FIG. That is, the
そして照合部1108は、平均ベクトルμ及び共分散行列Σで特定される正規分布において、照合対象に係る音声のLPCケプストラム係数(ベクトル)の系列が出現する尤度λの系列を算出する。但し、当該照合処理結果である尤度が所定時間以内(約1音節分の時間)において所定の閾値未満である場合には、当該照合処理結果の影響を低減させる(例えば除去する)処理を実施する照合結果補正部1209が設けられている。照合結果判定部1211は、話者識別であれば例えば照合結果補正部1209により補正された後の全体の尤度λallが最も大きい登録モデルの属性値(例えば話者ID)を、話者認証であれば閾値と比較して照合結果補正部1209により補正された後の全体の尤度λallが当該閾値以上であるか判断して認証の成否を出力する。
このような話者認識技術を採用する場合、話者が多くの音素を発声してモデル生成部1106により登録モデルが作成されればよいが、必ずしも十分な種類の音素に基づき登録モデルが作成されるわけではない。ある音素が発声されずに登録モデルが作成され、照合処理時に話者により登録モデル作成時には発声されなかった音素が発音されると、その音素についての照合結果は著しく悪くなる。
When such speaker recognition technology is adopted, a speaker may utter many phonemes and a registration model may be created by the
特許文献1は上記のような問題に対処すべく提案されているが、尤度λが所定時間以内において所定の閾値未満である場合には登録モデルに不足する音素が発声されたものと仮定して処理しているため、必ずしも照合結果補正部1209による補正が正しい補正と言えない場合もある。
よって、本発明の目的は、登録モデル作成時における音声データの不足により生ずる不正確な照合結果を是正するための新規な技術を提供することである。 Therefore, an object of the present invention is to provide a novel technique for correcting an inaccurate collation result caused by lack of voice data when creating a registration model.
本発明に係る話者認識システムは、照合対象者の音声データから生成された第1登録モデル・データを格納する第1登録モデル・データ格納部と、多数の不特定話者の音声データから生成された不特定話者モデル・データを照合対象者に適応化することにより生成される第2登録モデル・データを格納する第2登録モデル・データ格納部と、照合対象者の音声データを分析して音声分析データを生成する分析手段と、音声分析データと第1登録モデル・データ格納部に格納された第1登録モデル・データとを用いた照合処理を実施する第1照合処理手段と、音声分析データと第2登録モデル・データ格納部に格納された第2登録モデル・データとを用いた照合処理を実施する第2照合処理手段と、第1照合処理手段及び第2照合処理手段の照合処理結果に基づき、照合対象者に対する最終判定処理を実施する判定手段とを有する。 The speaker recognition system according to the present invention includes a first registration model data storage unit that stores first registration model data generated from voice data of a person to be collated, and voice data of a large number of unspecified speakers. A second registered model data storage unit for storing second registered model data generated by adapting the determined unspecified speaker model data to the verification target person, and analyzing the voice data of the verification target person Analyzing means for generating voice analysis data, first matching processing means for performing matching processing using the voice analysis data and the first registered model data stored in the first registered model / data storage unit, and voice Second collation processing means for performing collation processing using the analysis data and the second registration model data stored in the second registration model / data storage unit, and the first collation processing means and the second collation processing means. Based on the processing results, and a judging means for performing final determination processing for the collation object person.
第1照合処理手段による照合処理結果は、第1登録モデル・データを生成する際に照合対象者が発声した子音母音の構成と照合時に照合対象者が発声した子音母音の構成が類似している場合には良くなるが、子音母音の構成が大きく異なっていると悪くなりがちである。一方、第2照合処理手段による照合処理結果は、おおむねあまりよくないが、第2登録モデル・データを生成する際に照合対象者が発声した子音母音の構成と照合時の子音母音の構成の違いに関係なく安定したものとなる。従って、これら第1及び第2照合処理手段による照合処理結果を総合して最終判定処理を行えば、互いに補う形となり判定精度が向上する。なお、最終判定処理は、話者認証の場合には成功又は失敗という判定であり、話者識別の場合には照合対象者が誰であるかという判定である。 The collation processing result by the first collation processing means is similar in the configuration of the consonant vowel uttered by the person to be collated when generating the first registered model data and the structure of the consonant vowel uttered by the person to be collated during the collation. This is better in some cases, but tends to be worse if the consonant vowel composition is significantly different. On the other hand, the result of the collation processing by the second collation processing means is generally not very good, but the difference between the consonant vowel configuration uttered by the person to be collated when generating the second registered model data and the consonant vowel configuration at the time of collation It will be stable regardless of. Accordingly, if the final determination process is performed by combining the results of the verification processing by the first and second verification processing means, the results are complemented with each other and the determination accuracy is improved. Note that the final determination processing is determination of success or failure in the case of speaker authentication, and determination of who is the person to be verified in the case of speaker identification.
なお、上で述べた判定手段が、第1照合処理手段の照合処理結果である第1の尤度と(1−α)(αは0以上1以下の所定の実数)の積と、第2照合処理手段の照合処理結果である第2の尤度とαの積とを加算した値に基づき、照合対象者に対する最終判定処理を実施するようにしてもよい。このように第1及び第2照合処理手段による照合処理結果をブレンドすることにより判定精度を向上させることができる。 Note that the determination means described above is a product of the first likelihood that is the result of the collation processing of the first collation processing means and (1-α) (α is a predetermined real number between 0 and 1), and the second Based on the value obtained by adding the product of the second likelihood and α, which is the result of the collation processing by the collation processing means, the final determination process for the person to be collated may be performed. In this way, the accuracy of determination can be improved by blending the verification processing results by the first and second verification processing means.
また、上で述べた第1登録モデル・データ及び第2登録モデル・データを混合正規分布モデル(例えばGMM(Gaussian Mixture Model))のデータとし、第1照合処理手段による照合処理及び第2照合処理手段による照合処理を、混合正規分布モデルに対応した照合処理とする場合もある。このようにすれば照合対象者が発声する内容(テキストとも呼ぶ)を指定しない状態においても照合を行うことができる。 Further, the first registered model data and the second registered model data described above are data of a mixed normal distribution model (for example, GMM (Gaussian Mixture Model)), and collation processing and second collation processing by the first collation processing means. In some cases, the matching process by the means is a matching process corresponding to the mixed normal distribution model. In this way, collation can be performed even in a state where the content (also referred to as text) uttered by the person to be collated is not specified.
また、第1登録モデル・データを混合正規分布モデルのデータとし、第2登録モデル・データをサブワード単位(例えば音節)のモデル・データ(例えばHMM(Hidden Marcov Model))とし、第1照合処理手段による照合処理を混合正規分布モデルに対応した照合処理とし、さらに第2照合処理手段が、第2登録モデル・データ格納部に格納されたサブワード単位のモデル・データを接続して照合用モデル・データを生成する照合用モデル・データ生成手段と、照合用モデル・データと音声分析データとを用いて照合処理を実施する手段とを含むようにしてもよい。 Further, the first registered model data is mixed normal distribution model data, the second registered model data is subword unit (for example, syllable) model data (for example, HMM (Hidden Marcov Model)), and the first matching processing means The collation process according to the above is a collation process corresponding to the mixed normal distribution model, and the second collation processing means connects the model data in units of subwords stored in the second registered model data storage unit, and the collation model data May be included, and a means for performing collation processing using the collation model data and the voice analysis data may be included.
必ずしも第1照合処理手段と第2照合処理手段とは同じ種類の処理を実施せずともよい。このように第2登録モデル・データをサブワード単位のモデル・データとする場合には上で述べたように第2照合処理手段においてサブワード単位のモデル・データを接続して照合用モデル・データを生成し、照合処理を実施する。 The first collation processing unit and the second collation processing unit do not necessarily have to perform the same type of processing. When the second registered model data is used as model data in subword units as described above, model data for verification is generated by connecting the model data in subword units in the second verification processing unit as described above. Then, the verification process is performed.
なお、本発明が、照合対象者に発声を求める語句(テキストとも呼ぶ)を決定する手段をさらに有し、上で述べた照合用モデル・データ生成手段が、上記語句に従って第2登録モデル・データ格納部に格納されたサブワード単位のモデル・データを接続して照合用モデル・データを生成するようにしてもよい。照合対象者に発声を求める語句を照合時に指定する方式であれば、真正な話者の音声を録音しておき本人を詐称する者に対抗することができる。本願では特定された語句に従ってサブワード単位のモデル・データを接続して照合用モデル・データを生成することができるため、上記のような詐称者にも対処できる。 Note that the present invention further includes means for determining a phrase (also referred to as text) for requesting utterance from the person to be collated, and the collation model data generating means described above is configured to register the second registered model data according to the phrase. Model data for collation may be generated by connecting model data in units of subwords stored in the storage unit. If it is a method of designating a phrase to be uttered by a person to be collated at the time of collation, it is possible to counter the person who records the voice of a genuine speaker and impersonates the person. In the present application, model data for sub-word units can be connected according to the specified phrase to generate collation model data, so that it is possible to deal with the above-mentioned impersonators.
また、本発明は、モデル・データ登録時において分析手段により生成された照合対象者の音声分析データから第1登録モデル・データを生成する手段と、モデル・データ登録時において分析手段により生成された照合対象者の音声分析データを用いて不特定話者モデル・データ格納部に格納された不特定話者モデル・データを適応化し、第2登録モデル・データを生成する第2登録モデル・データ生成手段とをさらに有するようにしてもよい。 なお、上で述べた第2登録モデル・データ生成手段が、モデル・データ登録時において照合対象者により発声されたサブワードのモデル・データを所定の方式に従って適応化する処理を実施し、適応化されたサブワード単位のモデル・データを接続して第2登録モデル・データを生成するようにしてもよい。照合時にサブワード単位のモデル・データを接続する場合もあれば、登録時に接続する場合もある。 Further, the present invention provides means for generating first registered model data from voice analysis data of a person to be collated generated by the analysis means at the time of model data registration, and means generated by the analysis means at the time of model data registration. Second registered model data generation for generating second registered model data by adapting unspecified speaker model data stored in the unspecified speaker model data storage unit using the voice analysis data of the person to be verified And a means. The second registered model data generation means described above performs a process of adapting the model data of the subword uttered by the person to be collated at the time of model data registration according to a predetermined method, and is adapted. Alternatively, the second registered model data may be generated by connecting the model data in units of subwords. In some cases, model data in units of subwords is connected at the time of collation, and in other cases, connection is made at the time of registration.
なお、本発明に係る話者認識システムはプログラムとコンピュータの組み合せにて実現することができ、この場合、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、当該プログラムはネットワークを介してディジタル信号として配信されることもある。なお、処理途中のデータについては、コンピュータのメモリに一時保管される。 The speaker recognition system according to the present invention can be realized by a combination of a program and a computer. In this case, the program is, for example, a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, a hard disk, or the like. It is stored in a storage medium or a storage device. The program may be distributed as a digital signal via a network. Note that data being processed is temporarily stored in the memory of the computer.
本発明によれば、登録モデル作成時における音声データの不足により生ずる不正確な照合結果を適切に是正することができる。 According to the present invention, it is possible to appropriately correct an inaccurate collation result caused by lack of voice data when creating a registration model.
図3に本発明の実施の形態に係る話者認識システムの機能ブロック図を示す。本実施の形態に係る話者認識システムは、音声入力部1と、音声分析部3と、切替部5と、第1照合部7と、モデル生成部9と、第1登録モデル格納部11と、第2照合部13と、モデル修正部15と、第2登録モデル格納部17と、照合結果判定部19と、事前モデル格納部21と、発声テキスト決定部25とを含む。なお、事前モデル格納部21に格納するデータを生成するために、事前音声データ格納部231と第2音声分析部233と事前モデル生成部235とを含む事前処理部23が必要となるが、照合処理やモデル登録時には必要ない。すなわち、事前処理部23は、話者認識システムに含まれない場合もある。
FIG. 3 shows a functional block diagram of the speaker recognition system according to the embodiment of the present invention. The speaker recognition system according to the present embodiment includes a
音声入力部1の出力は音声分析部3に入力される。音声分析部3の出力は、切替部5に入力される。切替部5の出力は、話者照合処理時には第1照合部7及び第2照合部13に入力され、モデル登録処理時にはモデル生成部9及びモデル修正部15に入力される。モデル生成部9により生成された第1登録モデル・データは第1登録モデル格納部11に格納される。第1照合部7は、第1登録モデル格納部7を参照できるようになっており、その出力は、照合結果判定部19に入力される。一方、モデル修正部15は事前モデル格納部21に格納された事前モデルに対して音声分析部3からの出力に基づき適応化処理を施し、第2登録モデル・データとして第2登録モデル格納部17に格納する。第2照合部13は、第2登録モデル格納部17を参照できるようになっており、その出力は、照合結果判定部19に入力される。照合結果判定部19は、第1照合部7と第2照合部13からの出力に基づき最終的な照合結果を出力する。なお、本実施の形態では話者識別、話者認証のいずれをも同様な処理にて行うことができ、話者識別の最終的な照合結果であれば話者が誰であるかを示す情報(話者IDなど)を出力し、話者認証の最終的な照合結果であれば認証が成功したか失敗したかを示す情報を出力する。
The output of the
なお、発声テキスト決定部25は、話者が発声すべき語句を決定する必要がある場合に当該語句を決定し、決定された語句のデータを第2照合部13と図示しない出力装置(例えば表示装置又は音声変換処理部及びスピーカ)に出力する。なお、モデル修正部15に出力する場合もある。
The utterance
事前処理部23における事前音声データ格納部231にはディジタル化された多数の不特定話者の音声データが格納されている。そして、第2音声分析部233は事前音声データ格納部231に格納された音声データを処理して、処理結果を事前モデル生成部235に出力する。事前モデル生成部235の出力は事前モデル格納部21に格納される。この事前モデル格納部21は話者認識システムに含まれる。
The pre-voice
以下、3つの実施の形態について図3に示した話者認識システム及び事前処理部23の処理内容について説明する。
Hereinafter, the processing contents of the speaker recognition system and the
1.実施の形態1
本実施の形態では、第1登録モデル格納部11及び第2登録モデル格納部17に混合正規分布モデル(GMM)のデータが格納されており、第1照合部7及び第2照合部13において混合正規分布モデル(GMM)に基づく照合処理を実施する。
1.
In the present embodiment, mixed normal distribution model (GMM) data is stored in the first registered model storage unit 11 and the second registered
最初に事前処理部23においてどのような処理を行うかについて図4を用いて説明する。事前処理部23の事前音声データ格納部231には、多数の不特定話者による音声データ(例えばディジタル・データ)が格納されている。なお、多数の不特定話者による音声データについては、各々すべての子音母音の音声のデータが含まれるものとする。そこで、第2音声分析部233は、事前音声データ格納部231に格納された事前音声データを読み出して、フレーム毎に音声分析を実施し、音声分析データを生成する(ステップS1)。より具体的には、15msから30ms程度の分析窓(フレーム)で、5msから30ms程度の分析周期(フレーム周期)毎に分析処理を実施し、例えばLPCケプストラム係数(ベクトル)の系列を生成する。図5に示すように、音声波に対して分析窓を分析周期ずつずらして設定し、分析窓毎に所定の分析処理を施し、その分析窓に対応するケプストラム係数Cijを出力する。例えば、1回の分析処理により、10から20(次元)程度のLPCケプストラム係数が計算される。ここでiはフレーム番号であり、i=1〜Nで、Nはフレーム総数である。jはLPCケプストラム係数の次元番号であり、j=1〜nで、nは次元数である。i番目の分析処理により得られたLPCケプストラム係数は以下のように表わせば、特徴ベクトルXiとなる。
Xi=(Ci1,Ci2,...Cin)T (1)
このような処理を事前音声データ格納部231に格納されている音声データすべてについて実施する。処理結果については記憶装置に格納する。
First, what kind of processing is performed in the
X i = (C i1 , C i2 ,... C in ) T (1)
Such a process is performed for all audio data stored in the pre-audio
次に、事前モデル生成部235は、事前音声データ格納部231に格納されている多数の不特定話者による音声データに対する混合正規分布モデル(GMM)を生成するための処理を実施し、処理結果を事前モデル・データとして事前モデル格納部21に格納する(ステップS3)。話者λsモデルの混合正規分布は、以下の式で表される。但し、ここでは話者λsは多数の不特定話者全員である。
(2)式のように、GMMはn次元M混合のガウス分布N(xt|μsm,Σsm)を重みwsmで線形結合した確率モデルとなる。このN(xt|μsm,Σsm)は、以下のように表される。
As shown in the equation (2), the GMM is a probability model in which an n-dimensional M-mixed Gaussian distribution N (x t | μ sm , Σ sm ) is linearly combined with a weight w sm . This N (x t | μ sm , Σ sm ) is expressed as follows.
ここでμsmは話者モデルλsの登録時の特徴ベクトルXtから算出されるM個の平均ベクトルである。平均ベクトルμsmについては、特徴ベクトルXtからベクトル量子化や最尤推定により生成される。また、各特徴ベクトルXtがいずれの平均ベクトルμsmに関連するのかについては、各特徴ベクトルXtについて最も近い平均ベクトルμsmを見つけることにより決定することができる。 Here, μ sm is M average vectors calculated from the feature vector X t when the speaker model λ s is registered. The average vector μ sm is generated from the feature vector X t by vector quantization or maximum likelihood estimation. As for whether the feature vector X t is associated with any of the mean vector mu sm, it can be determined by finding the closest mean vector mu sm for each feature vector X t.
またΣsmは話者モデルλsの共分散行列を示している。すなわち、以下のとおりである。なお、平均ベクトルμsmに関連する特徴ベクトルXtによりM個の共分散行列Σsmを求める。
さらに混合分布の重みwsmは、以下のような関係がある。
但し、各wsmは解析的には決定できないので、例えば以下の式が最大となるように周知のEMアルゴリズムなどによりwsmを決定する。
このように、(2)式及び(3)式を計算するためには、M個のμsmとM個のΣsmとM個((7)式から厳密にはM−1個)の重みwsmとが必要となり、これらのデータが事前モデル・データとなる。 Thus, in order to calculate the expressions (2) and (3), M μ sm , M Σ sm and M weights (strictly M−1 from the expression (7)) are used. w sm is required, and these data become the pre-model data.
次に、本実施の形態における話者認識システムの処理フローを図6を用いて説明する。ここでは話者認証の場合の処理フローを説明する。最初に、話者から、照合と登録のいずれを実施するか指定する処理選択入力及び話者識別情報(例えば話者ID)の入力を受け付ける(ステップS11)。 Next, the processing flow of the speaker recognition system in the present embodiment will be described with reference to FIG. Here, a processing flow in the case of speaker authentication will be described. First, a process selection input for designating whether collation or registration is performed and input of speaker identification information (for example, speaker ID) are received from the speaker (step S11).
次に、話者の音声は、マイクロフォン等である音声入力部1を介して入力される(ステップS13)。音声入力部1では、空気の振動である音声波を電気信号に変換する。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS15)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。
Next, the voice of the speaker is input via the
そして切替部5は、ステップS11で受け付けた処理選択入力が照合であるか判断する(ステップS17)。処理選択入力が照合ではなく登録である場合(ステップS17:Noルート)には、モデル生成部9は、話者の入力音声に対する第1登録モデル・データを生成し、話者IDに対応して第1登録モデル格納部11に登録する(ステップS19)。モデル生成部9の処理は、事前モデル生成部235の処理とほぼ同じである。すなわち、音声分析データである特徴ベクトルxiのM個の平均ベクトルμsmを算出し、さらにM個の共分散行列Σsmを(6)式に従って算出する。さらに例えば(8)式を最大にするように重みwsmを算出する。このように算出されたデータを第1登録モデル格納部11に登録する。
Then, the switching unit 5 determines whether or not the process selection input received in step S11 is collation (step S17). When the process selection input is registration rather than verification (step S17: No route), the model generation unit 9 generates first registration model data for the input voice of the speaker, and corresponds to the speaker ID. It registers in the 1st registration model storage part 11 (step S19). The process of the model generation unit 9 is almost the same as the process of the prior
また、モデル修正部15は、話者の入力音声の音声分析データに基づき事前モデルを修正して第2登録モデル・データを生成し、第2登録モデル格納部17に格納する(ステップS21)。具体的には、事前モデル格納部21に格納されている、特徴ベクトルの平均ベクトルをμ0(M個の平均ベクトルμの各々)とし、音声分析データである特徴ベクトルxi(1≦i≦N)と定数βとを用いて以下の式にて第2登録モデルにおける特徴ベクトルの平均ベクトルμaを算出する。
(9)式では事前モデルにおける平均ベクトルμ0の重みを定数βで決定している。この定数βについては環境に依存するため実験的に適切な値を決定する。事前モデルに含まれる共分散行列Σや重みwについても、入力音声の音声分析データを用いて話者に適応化させてもよいが、本実施の形態では平均ベクトルμ0のみを話者に適応化させる。従って、第2登録モデルとして(9)式で計算されるM個の平均ベクトルμaと、事前モデルに含まれるM個の共分散行列Σ及びM個(又はM−1個)の重みwとを、話者IDに対応して第2登録モデル格納部17に登録する。そして処理を終了する。
In equation (9), the weight of the average vector μ 0 in the prior model is determined by a constant β. Since this constant β depends on the environment, an appropriate value is determined experimentally. The covariance matrix Σ and the weight w included in the prior model may be adapted to the speaker using the speech analysis data of the input speech, but in this embodiment, only the average vector μ 0 is adapted to the speaker. Make it. Therefore, M average vectors μ a calculated by the equation (9) as the second registration model, M covariance matrices Σ and M (or M−1) weights w included in the prior model, Is registered in the second registration
一方話者の処理選択入力が照合である場合(ステップS17:Yesルート)、第1照合部7は、第1登録モデル格納部11から話者IDに対応する第1登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)をさらに用いて照合処理を実施する(ステップS23)。すなわち、各特徴ベクトルにつき(2)及び(3)式でP(xt|λs)、そして対数尤度logP(xt|λs)を算出する。さらに、(8)式に従って対数尤度の総和L1を計算する。なお、計算結果は記憶装置に格納される。 On the other hand, when the process selection input of the speaker is collation (step S17: Yes route), the first collation unit 7 reads the first registration model data corresponding to the speaker ID from the first registration model storage unit 11, A matching process is further performed using the feature vector x i (1 ≦ i ≦ N), which is speech analysis data (step S23). That is, for each feature vector, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated according to equations (2) and (3). Furthermore, the log likelihood total L1 is calculated according to the equation (8). The calculation result is stored in the storage device.
また、第2照合部13は、第2登録モデル格納部17から話者IDに対応する第2登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)をさらに用いて照合処理を実施する(ステップS25)。ステップS23と同様に、各特徴ベクトルにつき(2)式及び(3)式でP(xt|λs)、そして対数尤度logP(xt|λs)を算出する。さらに、(8)式に従って対数尤度の総和L2を計算する。なお、第2登録モデル・データは第1登録モデル・データとは異なるのでステップS23とステップS25の計算結果は異なる。なお、計算結果は記憶装置に格納される。
Further, the
そして照合結果判定部19は、ステップS23とステップS25の2つの照合処理結果を用いて判定処理を実施し、判定処理結果を出力する(ステップS27)。ここでは、以下のような式に従って2つの照合処理結果である尤度を加算して、総合尤度Lを算出する。
L=L1×(1−α)+L2×α (10)
但し、0≦α≦1となる。また、αの最適値については判定精度が向上するように実験的に求める。他の実験の条件にもよるが、0.9から0.95において良い結果を示すことがわかっている。
And the collation result determination part 19 implements a determination process using the two collation process results of step S23 and step S25, and outputs a determination process result (step S27). Here, the total likelihood L is calculated by adding the likelihoods that are two collation processing results according to the following equation.
L = L1 × (1−α) + L2 × α (10)
However, 0 ≦ α ≦ 1. Further, the optimum value of α is experimentally obtained so that the determination accuracy is improved. It has been found that 0.9 to 0.95 gives good results, depending on other experimental conditions.
そして、この総合尤度Lが所定の閾値を超えているかを判断することにより、今回の話者の認証が成功したか失敗したかが判定される。この場合判定処理結果としては、認証の成功又は失敗を表す情報が出力される。 Then, by determining whether or not the total likelihood L exceeds a predetermined threshold value, it is determined whether the current speaker authentication has succeeded or failed. In this case, information indicating the success or failure of the authentication is output as the determination processing result.
第1登録モデル・データを生成する際に話者により多くの子音母音を発声してもらえればよいが、実際は話者に負担がかかるため多くの子音母音を発声してもらえないことが多い。従って、第1照合部7により算出された尤度は、第1登録モデル・データを生成する際に話者が発声した子音母音の構成と照合時に話者が発声した子音母音の構成が類似している場合には良くなるが、子音母音の構成が大きく異なっていると悪くなりがちである。一方、第2照合部13により算出された尤度は、おおむねあまりよくないが、第2登録モデル・データを生成する際に話者が発声した子音母音の構成と照合時の子音母音の構成の違いに関係なく安定したものとなる。従って、上で述べたように2つの照合処理結果を総合して最終判定処理を行えば、互いに補う形となり判定精度が向上する。
When the first registered model data is generated, it is sufficient that the speaker utters many consonant vowels. However, since the speaker is actually burdened, many consonant vowels are often not uttered. Accordingly, the likelihood calculated by the first matching unit 7 is similar to the configuration of the consonant vowels uttered by the speaker at the time of matching with the configuration of the consonant vowels uttered by the speaker when generating the first registered model data. It tends to get worse if the composition of consonant vowels is significantly different. On the other hand, the likelihood calculated by the
なお、本実施の形態では、第1照合部7も第2照合部13も、登録時又は照合時に発声される音声の内容が限定されないテキスト独立方式についての照合処理を行う例を示している。
In the present embodiment, an example is shown in which both the first matching unit 7 and the
念のため話者識別の際の簡略化した処理フローについて図7を用いて説明しておく。まず、話者の音声は、マイクロフォン等である音声入力部1を介して入力される(ステップS31)。音声入力部1では、空気の振動である音声波を電気信号に変換する。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS33)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。ここでは登録の場合の説明は省略するので、切替部5はフレーム数分の特徴ベクトルxiを第1照合部7と第2照合部13に出力する。
As a precaution, a simplified processing flow for speaker identification will be described with reference to FIG. First, the voice of the speaker is input via the
第1照合部7は、第1登録モデル格納部11から順次各話者IDの第1登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)に対して照合処理を実施する(ステップS35)。すなわち、話者ID毎に、各特徴ベクトルにつき(2)及び(3)式でP(xt|λs)、そして対数尤度logP(xt|λs)を算出する。さらに、(8)式に従って対数尤度の総和L1を話者ID毎に計算する。なお、計算結果は記憶装置に格納される。 The first collation unit 7 sequentially reads the first registration model data of each speaker ID from the first registration model storage unit 11 and collates it with the feature vector x i (1 ≦ i ≦ N) which is voice analysis data. Processing is performed (step S35). That is, for each speaker ID, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated for each feature vector using equations (2) and (3). Further, the sum of log likelihoods L1 is calculated for each speaker ID according to the equation (8). The calculation result is stored in the storage device.
また、第2照合部13は、第2登録モデル格納部17から順次各話者IDの第2登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)に対して照合処理を実施する(ステップS37)。ステップS35と同様に、話者ID毎に、各特徴ベクトルにつき(2)式及び(3)式でP(xt|λs)、そして対数尤度logP(xt|λs)を算出する。さらに、(8)式に従って対数尤度の総和L2を話者ID毎に計算する。なお、計算結果は記憶装置に格納される。
Further, the
そして照合結果判定部19は、ステップS35とステップS37の2つの照合処理結果を用いて総合尤度を話者ID毎に算出し、記憶装置に格納する(ステップS39)。ここでは、(10)式に従って2つの照合処理結果である尤度L1及びL2を加算して、総合尤度Lを各話者IDにつき算出する。 And the collation result determination part 19 calculates total likelihood for every speaker ID using the two collation process results of step S35 and step S37, and stores it in a memory | storage device (step S39). Here, the likelihoods L1 and L2 which are two collation processing results are added according to the equation (10), and the total likelihood L is calculated for each speaker ID.
そして、照合結果判定部19は、この総合尤度Lが最も高い話者IDなどを、最終判定結果として出力する(ステップS41)。数式で示せば、以下のようになる。
このようにすれば、話者識別処理を実施することができる。最終ステップであるステップS39以外は、照合処理の回数が話者IDの数だけ実施されるだけであり、話者認証処理の場合と本質的な差異はない。従って、(8)式のように総合尤度を計算して判定を行うため、判定精度が向上する。 In this way, speaker identification processing can be performed. Except for step S39, which is the final step, the number of verification processes is only the number of speaker IDs, and there is no essential difference from the case of speaker authentication processing. Therefore, the determination accuracy is improved because the total likelihood is calculated and determined as in equation (8).
2.実施の形態2
次に、第2登録モデル・データにGMMではなくサブワード(例えば音節あるいは音素)単位のモデル・データを採用し、第2照合部13において当該サブワード単位のモデルを接続して照合用モデルを生成すると共にテキスト独立方式の照合処理を実施する場合の処理について説明する。
2. Embodiment 2
Next, model data in units of subwords (for example, syllables or phonemes) instead of GMM is adopted as the second registered model data, and a model for verification is generated by connecting the models in units of subwords in the
最初に、図4、図8及び図9を用いて本実施の形態における事前処理部23の処理内容について説明する。事前処理部23の事前音声データ格納部231には、多数の不特定話者による音声データ(例えばディジタル・データ)が格納されている。なお、多数の不特定話者による音声データについては、各々すべての子音母音の音声のデータが含まれるものとする。そこで、第2音声分析部233は、事前音声データ格納部231に格納された事前音声データを読み出して、フレーム毎に音声分析を実施し、音声分析データを生成する(ステップS1)。より具体的には、15msから30ms程度の分析窓(フレーム)で、5msから30ms程度の分析周期(フレーム周期)毎に分析処理を実施し、例えばLPCケプストラム係数(特徴ベクトル)の系列を生成する。ここでは音節毎に特徴ベクトルXiを管理する。このような処理を事前音声データ格納部231に格納されている音声データすべてについて実施する。処理結果については記憶装置に格納する。
First, processing contents of the
次に、事前モデル生成部235は、事前音声データ格納部231に格納されている多数の不特定話者による音声データに対する隠れマルコフモデル(HMM:Hidden Marcov Model)を音節毎に生成するための処理を実施し、処理結果を事前モデル・データとして事前モデル格納部21に格納する(ステップS3)。
Next, the prior
HMMの構造の一例を図8に示す。HMMは、複数の状態801乃至805(ここではJ個の状態S0乃至SJ-1)とその状態の間の遷移(状態間を結ぶ矢印)とで構成される。そして、入力音声の特徴ベクトルXiが1つ出力されるたびに状態を1回遷移するものとする。ここで状態SkからSlに遷移する確率aklは以下のように表される。
akl=P(sl=Sl|sl-1=Sk) (11)
An example of the structure of the HMM is shown in FIG. The HMM is composed of a plurality of
a kl = P (s l = S l | s l-1 = S k ) (11)
また、状態SkからSlに遷移するときに特徴ベクトルxが出力される確率bklは以下のように表される。
bkl=P(x|sl=Sl,sl-1=Sk) (12)
なお、bklは、(2)式で表される。
Further, the probability b kl that the feature vector x is output when transitioning from the state S k to S l is expressed as follows.
b kl = P (x | s l = S l , s l-1 = S k ) (12)
Note that b kl is expressed by equation (2).
このようなモデルWから入力音声の特徴ベクトルの系列X={X0,X1,...Xi,...XT-1}が出力される確率は、以下の式で表される。
ステップS3では、音節毎に、(13)式の値を最大にするように、(11)式のaklと、(2)式((12)式から(2)式が参照される。)における重みwsmというパラメータを、例えば周知のEMアルゴリズム等により決定する。また、音節毎に、特徴ベクトルXiのM個の平均ベクトルμsmとM個の共分散行列Σsmも算出する。このようにして求められた子音母音毎のakl、M個(又はM−1個)の重みwsm、特徴ベクトルのM個の平均ベクトルμsm及び共分散行列Σsmが事前モデル・データとして事前モデル格納部21に格納される。
In step S3, for each syllable, the value of equation (13) is maximized so that akl in equation (11) and equation (2) (refer to equations (2) to (2)). The parameter of weight w sm in is determined by, for example, a well-known EM algorithm. In addition, for each syllable, M average vectors μ sm and M covariance matrices Σ sm of the feature vector X i are also calculated. The a kl , M (or M−1) weights w sm , M average vectors μ sm of feature vectors, and covariance matrix Σ sm for each consonant vowel obtained in this way are used as prior model data. It is stored in the prior
このように音節といったサブワード単位でモデル・データを用意することにより、モデル修正部15において適切に話者に対する適応化を行うことができるようになる。
By preparing the model data in units of subwords such as syllables in this way, the
次に、本実施の形態における話者認識システムの処理フローを図10を用いて説明する。ここでは話者認証の場合の処理フローを説明する。最初に、話者から、照合と登録のいずれを実施するか指定する処理選択入力及び話者識別情報(例えば話者ID)の入力を受け付ける(ステップS51)。 Next, the processing flow of the speaker recognition system in the present embodiment will be described with reference to FIG. Here, a processing flow in the case of speaker authentication will be described. First, a process selection input for designating whether collation or registration is performed and input of speaker identification information (for example, speaker ID) are received from the speaker (step S51).
次に、話者の音声は、マイクロフォン等である音声入力部1を介して入力される(ステップS53)。音声入力部1では、空気の振動である音声波を電気信号に変換する。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS55)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。
Next, the voice of the speaker is input via the
そして切替部5は、ステップS51で受け付けた処理選択入力が照合であるか判断する(ステップS57)。処理選択入力が照合ではなく登録である場合(ステップS57:Noルート)には、モデル生成部9は、話者の入力音声に対する第1登録モデル・データを生成し、話者IDに対応して第1登録モデル格納部11に登録する(ステップS59)。モデル生成部9の処理は、第1の実施の形態における事前モデル生成部235の処理とほぼ同じである。すなわち、音声分析データである特徴ベクトルxiのM個の平均ベクトルμsmを算出し、さらにM個の共分散行列Σsmを(6)式に従って算出する。さらに例えば(8)式を最大にするように重みwsmを算出する。このように算出されたデータを第1登録モデル格納部11に登録する。
Then, the switching unit 5 determines whether or not the process selection input received in step S51 is collation (step S57). If the process selection input is registration rather than collation (step S57: No route), the model generation unit 9 generates first registration model data for the input voice of the speaker, and corresponds to the speaker ID. Register in the first registration model storage unit 11 (step S59). The process of the model generation unit 9 is almost the same as the process of the prior
また、モデル修正部15は、話者の入力音声の音声分析データに基づき事前モデルを修正して第2登録モデル・データを生成し、第2登録モデル格納部17に格納する(ステップS61)。具体的には、今回入力された音声の音節単位で、事前モデル格納部21に格納されている音節単位の事前モデル・データ全てに対して(13)式を計算し、最も確率の高い音節を特定する。そして、特定された音節の事前モデル・データに含まれる特徴ベクトルの平均ベクトルをμ0(M個の平均ベクトルμの各々)とし、入力音声の音声分析データである特徴ベクトルxi(1≦i≦N)と定数βとを用いて(9)式にて第2登録モデルにおける特徴ベクトルのM個の平均ベクトルμaを算出する。
Further, the
(9)式では事前モデルにおける平均ベクトルμ0の重みを定数βで決定している。この定数βについては実験的に適切な値を決定する。事前モデルに含まれる共分散行列Σや重みwについても、入力音声の音声分析データを用いて話者に適応化させてもよいが、本実施の形態では平均ベクトルμ0のみを話者に適応化させる。 In equation (9), the weight of the average vector μ 0 in the prior model is determined by a constant β. An appropriate value for this constant β is determined experimentally. The covariance matrix Σ and the weight w included in the prior model may be adapted to the speaker using the speech analysis data of the input speech, but in this embodiment, only the average vector μ 0 is adapted to the speaker. Make it.
このように入力音声の各音節につき、第2登録モデルとして(9)式で計算されるM個の平均ベクトルμaと、事前モデルに含まれるM個の共分散行列Σ及びM個(又はM−1個)の重みwとを、話者IDに対応して第2登録モデル格納部17に登録する。さらに、入力音声に含まれなかった子音母音については、事前モデル・データをそのまま第2登録モデル・データとして話者IDに対応して第2登録モデル格納部17に登録する。
As described above, for each syllable of the input speech, M average vectors μ a calculated by the equation (9) as the second registration model, and M covariance matrices Σ and M (or M) included in the prior model. -1) weight w is registered in the second registration
一方話者の処理選択入力が照合である場合(ステップS57:Yesルート)、第1照合部7は、第1登録モデル格納部11から話者IDに対応する第1登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)をさらに用いて照合処理を実施する(ステップS63)。すなわち、各特徴ベクトルにつき(2)及び(3)式でP(xt|λs)、そして対数尤度logP(xt|λs)を算出する。さらに、(8)式に従って対数尤度の総和L1を計算する。なお、計算結果は記憶装置に格納される。 On the other hand, when the process selection input of the speaker is collation (step S57: Yes route), the first collation unit 7 reads the first registration model data corresponding to the speaker ID from the first registration model storage unit 11, A matching process is further performed using the feature vector x i (1 ≦ i ≦ N), which is speech analysis data (step S63). That is, for each feature vector, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated according to equations (2) and (3). Furthermore, the log likelihood total L1 is calculated according to the equation (8). The calculation result is stored in the storage device.
また、第2照合部13は、第2登録モデル格納部17から話者IDに対応する第2登録モデル・データを読み出し、照合用モデルを構成する(ステップS65)。本実施の形態では第2照合部13でもテキスト独立方式を採用するため、例えば図11に示すように音節のモデルを接続する。すなわち、スタートから遷移した後の状態211を全ての音節のモデルで共有し、全ての音節のモデル212乃至215を並列に接続する。そして、エンドに遷移する前の状態216も全ての音節のモデルで共有する。さらに、状態216から状態211に戻るための状態遷移217を設定する。すなわち、入力音声の音節毎に、全ての音節のモデルと照合を行い、最も確率の高い音節モデルからの出力を採用する。これを入力音声の最後の音節まで繰り返すものである。
Further, the
そして、第2照合部13は、図11に示すような照合モデルを用いて照合処理を実施する(ステップS67)。より具体的には、入力音声の最初の音節に係る音声分析データである特徴ベクトルと第2登録モデル・データに含まれる全音節に係るモデル・データとを用いて、第2登録モデル・データに含まれる全音節について(13)式に従って確率を算出する。そして、最大の確率が算出された音節についての確率を例えば記憶装置に保持する。そして、入力音声の次の音節に係るモデル・データについても同様に(13)式に従って確率を算出し、最大の確率が算出された音節についての確率を例えば記憶装置に保持する。このように入力音声の最後の音節まで上で述べたような処理を繰り返し、最終的に記憶装置に保持されている確率を全て掛け合わせ、算出された値を尤度L2とする。但し、記憶装置に保持されている確率のそれぞれの対数を算出し、それらの総和を尤度L2とする場合もある。なお、計算結果は記憶装置に格納される。
And the
そして照合結果判定部19は、ステップS63とステップS67の2つの照合処理結果を用いて判定処理を実施し、判定処理結果を出力する(ステップS69)。ここでは、(10)式に従って2つの照合処理結果である尤度を加算して、総合尤度Lを算出する。 And the collation result determination part 19 implements a determination process using the two collation process results of step S63 and step S67, and outputs a determination process result (step S69). Here, the total likelihood L is calculated by adding the likelihoods that are two collation processing results according to the equation (10).
そして、この総合尤度Lが所定の閾値を超えているかを判断することにより、今回の話者の認証が成功したか失敗したかが判定される。この場合判定処理結果としては、認証の成功又は失敗を表す情報が出力される。 Then, by determining whether or not the total likelihood L exceeds a predetermined threshold value, it is determined whether the current speaker authentication has succeeded or failed. In this case, information indicating the success or failure of the authentication is output as the determination processing result.
本実施の形態は、実施の形態1とは第2登録モデル・データの内容及び第2照合部13の処理内容が異なるが、実施の形態1と同様に2つの照合処理結果を総合して最終判定処理を行うので、互いに補うことになり判定精度が向上する。
The present embodiment differs from the first embodiment in the contents of the second registered model data and the processing contents of the
なお、話者識別の処理については、図7のステップS37を、全第2登録モデル・データに対する図10のステップS65及びS67に置き換えることにより、実施可能となる。従って、話者識別処理の話者識別精度も向上する。 The speaker identification process can be implemented by replacing step S37 in FIG. 7 with steps S65 and S67 in FIG. 10 for all second registered model data. Therefore, the speaker identification accuracy of the speaker identification process is also improved.
3.実施の形態3
次に、第2登録モデル・データにGMMではなくサブワード(例えば音節)単位のモデル・データを採用し、第2照合部13において当該サブワード単位のモデルを指定テキストに従って接続して照合用モデルを生成すると共にテキスト依存方式の照合処理を実施する場合の処理について説明する。なお、テキスト依存とは、照合又は登録時に話者に発声させるテキストを限定する方式である。
3. Embodiment 3
Next, instead of GMM, model data in units of subwords (eg, syllables) is adopted as the second registered model data, and a model for verification is generated by connecting the models in units of subwords according to the designated text in the
事前処理部23の処理については、実施の形態2で述べたものと同一なのでここでは説明を省略する。
Since the processing of the
次に、本実施の形態における話者認識システムの処理フローを図12を用いて説明する。ここでは話者認証の場合の処理フローを説明する。最初に、話者から、照合と登録のいずれを実施するか指定する処理選択入力及び話者識別情報(例えば話者ID)の入力を受け付ける(ステップS71)。そして、話者により照合ではなく登録が選択された場合には(ステップS73:Noルート)、話者の音声が、マイクロフォン等である音声入力部1を介して入力される(ステップS75)。音声入力部1では、空気の振動である音声波を電気信号に変換する。なお、切換部5はこの段階でモデル生成部9及びモデル修正部15の方に音声分析データの出力先を切り替える。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS77)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。
Next, the processing flow of the speaker recognition system in the present embodiment will be described with reference to FIG. Here, a processing flow in the case of speaker authentication will be described. First, a process selection input for designating whether collation or registration is performed and input of speaker identification information (for example, speaker ID) are received from the speaker (step S71). If registration is selected instead of collation by the speaker (step S73: No route), the voice of the speaker is input via the
そして、モデル生成部9は、話者の入力音声に対する第1登録モデル・データを生成し、話者IDに対応して第1登録モデル格納部11に登録する(ステップS79)。モデル生成部9の処理は、第1の実施の形態における事前モデル生成部235の処理とほぼ同じである。すなわち、音声分析データである特徴ベクトルxiのM個の平均ベクトルμsmを算出し、さらにM個の共分散行列Σsmを(6)式に従って算出する。さらに例えば(8)式を最大にするようにM個(又はM−1個)の重みwsmを算出する。このように算出されたデータを第1登録モデル格納部11に登録する。
And the model production | generation part 9 produces | generates the 1st registration model data with respect to a speaker's input audio | voice, and registers it in the 1st registration model storage part 11 corresponding to a speaker ID (step S79). The process of the model generation unit 9 is almost the same as the process of the prior
また、モデル修正部15は、話者の入力音声の音声分析データに基づき事前モデルを修正して第2登録モデル・データを生成し、第2登録モデル格納部17に格納する(ステップS81)。具体的には、今回入力された音声の音節単位で、事前モデル格納部21に格納されている音節単位の事前モデル・データ全てに対して(13)式を計算し、最も確率の高い音節を特定する。そして、特定された音節の事前モデル・データに含まれる特徴ベクトルの平均ベクトルをμ0(M個の平均ベクトルの各々)とし、入力音声の音声分析データである特徴ベクトルxi(1≦i≦N)と定数βとを用いて(9)式にて第2登録モデルにおける特徴ベクトルのM個の平均ベクトルμaを算出する。事前モデルに含まれる共分散行列Σや重みwについても、入力音声の音声分析データを用いて話者に適応化させてもよいが、本実施の形態では平均ベクトルμ0のみを話者に適応化させる。
Further, the
このように入力音声の音節につき、第2登録モデルとして(9)式で計算されるM個の平均ベクトルμaと、事前モデルに含まれるM個の共分散行列Σ及びM個(M−1個)の重みwとを、話者IDに対応して第2登録モデル格納部17に登録する。さらに、入力音声に含まれなかった子音母音については、事前モデル・データをそのまま第2登録モデル・データとして話者IDに対応して第2登録モデル格納部17に登録する。
In this way, for the syllable of the input speech, M average vectors μ a calculated by the equation (9) as the second registration model, and M covariance matrices Σ and M (M−1) included in the prior model. Weight) w is registered in the second registration
一方話者の処理選択入力が照合である場合(ステップS73:Yesルート)、発声テキスト決定部25は、話者に発声を依頼する発声用テキスト(語句)を決定し、図示しない表示装置や音声変換装置及びスピーカなどを介して出力する(ステップS83)。そして、指定された発声用テキストについての話者の音声が、マイクロフォン等である音声入力部1を介して入力される(ステップS85)。音声入力部1では、空気の振動である音声波を電気信号に変換する。次に、音声分析部3は、音声の電気信号をディジタル化し、15msから30ms程度の分析窓で、5msから30ms程度のフレーム毎に音声分析を実施し、音声分析データ(例えばLPCケプストラム係数の系列Cij)を生成する(ステップS87)。すなわち、特徴ベクトルxiをフレーム数分生成する。生成されたデータは図示しない記憶装置に格納する。
On the other hand, when the process selection input of the speaker is collation (step S73: Yes route), the utterance
そして、第1照合部7は、第1登録モデル格納部11から話者IDに対応する第1登録モデル・データを読み出し、音声分析データである特徴ベクトルxi(1≦i≦N)をさらに用いて照合処理を実施する(ステップS89)。すなわち、各特徴ベクトルにつき(2)及び(3)式でP(xt|λs)、そして対数尤度logP(xt|λs)を算出する。さらに、(8)式に従って対数尤度の総和L1を計算する。なお、計算結果は記憶装置に格納される。 Then, the first collation unit 7 reads the first registration model data corresponding to the speaker ID from the first registration model storage unit 11, and further extracts the feature vector x i (1 ≦ i ≦ N) that is the voice analysis data. The collation process is performed using them (step S89). That is, for each feature vector, P (x t | λ s ) and log likelihood logP (x t | λ s ) are calculated according to equations (2) and (3). Furthermore, the log likelihood total L1 is calculated according to the equation (8). The calculation result is stored in the storage device.
また、第2照合部13は、第2登録モデル格納部17から話者IDに対応する第2登録モデル・データを読み出し、発声用テキストに応じた照合用モデルを構成する(ステップS91)。本実施の形態では第2照合部13においてテキスト依存方式を採用するため、例えば図13(a)及び(b)に示すように音節のモデルを接続する。ここでは発声用テキストが「アサヒ」であるので、図13(a)に示すように「ア」「サ」「ヒ」というモデル・データを第2登録モデル・データから読み出し、図13(b)に示すように最後の音節のモデルを除き、各音節の最後の状態を次の音節の最初の状態に置き換えることによりモデルの接続を行うことができる。すなわち、話者がアサヒと発声した場合のみ有意な確率(尤度)が算出されるように、モデルを連結する。
Further, the
そして、第2照合部13は、図13に示すような照合モデルを用いて照合処理を実施する(ステップS93)。より具体的には、入力音声に係る音声分析データである特徴ベクトルと発声用テキストに含まれる音節のモデル・データとから(13)式に従って確率を算出する。算出された値を尤度L2とする。なお、計算結果は記憶装置に格納される。
And the
そして照合結果判定部19は、ステップS89とステップS93の2つの照合処理結果を用いて判定処理を実施し、判定処理結果を出力する(ステップS95)。ここでは、(10)式に従って2つの照合処理結果である尤度を加算して、総合尤度Lを算出する。 And the collation result determination part 19 implements a determination process using the two collation process results of step S89 and step S93, and outputs a determination process result (step S95). Here, the total likelihood L is calculated by adding the likelihoods that are two collation processing results according to the equation (10).
そして、この総合尤度Lが所定の閾値を超えているかを判断することにより、今回の話者の認証が成功したか失敗したかが判定される。この場合判定処理結果としては、認証の成功又は失敗を表す情報が出力される。 Then, by determining whether or not the total likelihood L exceeds a predetermined threshold value, it is determined whether the current speaker authentication has succeeded or failed. In this case, information indicating the success or failure of the authentication is output as the determination processing result.
本実施の形態は、実施の形態1とは第2登録モデル・データの内容及び第2照合部13の処理内容が異なるが、実施の形態1と同様に2つの照合処理結果を総合して最終判定処理を行うので、互いに補うことになり判定精度が向上する。また、テキスト依存方式を第2照合部13に関連して採用しているので、例えば真正な話者の音声の録音を用いる詐称者に対抗することも可能となる。
The present embodiment differs from the first embodiment in the contents of the second registered model data and the processing contents of the
なお、話者識別の処理については、図7のステップS37を、発声用テキストについての第2登録モデル・データに対する図12のステップS91及びS93に置き換えることにより、実施可能となる。従って、話者識別処理の話者識別精度も向上する。 The speaker identification process can be implemented by replacing step S37 in FIG. 7 with steps S91 and S93 in FIG. 12 for the second registered model data for the text for utterance. Therefore, the speaker identification accuracy of the speaker identification process is also improved.
4.その他の実施の形態
(1)モデル修正部15
上では、重みβで事前モデルの平均ベクトルμを話者に適応化する例(最大事後確率推定法MAP)を示しているが、最尤線形回帰法(MLLR)を用いる場合もある。
4). Other Embodiments (1)
The above shows an example (maximum posterior probability estimation method MAP) in which the average vector μ of the prior model is adapted to the speaker with the weight β, but the maximum likelihood linear regression method (MLLR) may be used.
(2)テキスト依存方式
実施の形態3では、話者登録の際には話者が自由に発声し、話者照合の際には発声用テキストが指定される例を示したが、話者登録の際に発声用テキストが指定され、話者照合の際にも同じ発声用テキストが指定されるような構成であってもよい。この場合、モデル修正部15が、実施の形態3において第2照合部13が行う照合用モデルの構成の処理までを実施して、第2登録モデル格納部17に格納する。
(2) Text Dependent Method In the third embodiment, an example is shown in which a speaker speaks freely during speaker registration and a text for utterance is specified during speaker verification. The utterance text may be specified at the time of the speaker verification, and the same utterance text may be specified at the time of speaker verification. In this case, the
以上本発明の実施の形態を説明したが、本発明はこれらに限定されるものではない。例えば、図3に示した機能ブロック図であるが、これに対応してプログラムモジュールが構成されるとは限らない。 Although the embodiments of the present invention have been described above, the present invention is not limited to these. For example, although it is the functional block diagram shown in FIG. 3, a program module is not necessarily comprised corresponding to this.
1 音声入力部 3 音声分析部 5 切替部 7 第1照合部
9 モデル生成部 11 第1登録モデル格納部 13 第2照合部
15 モデル修正部 17 第2登録モデル格納部 19 照合結果判定部
21 事前モデル格納部 23 事前処理部 25 発声テキスト決定部
231 事前音声データ格納部 233 第2音声分析部
235 事前モデル生成部
DESCRIPTION OF
Claims (9)
複数の不特定話者の音声データから生成された不特定話者モデル・データを前記照合対象者に適応化することにより生成される第2登録モデル・データを格納する第2登録モデル・データ格納部と、
前記照合対象者の音声データを分析して音声分析データを生成する分析手段と、
前記音声分析データと前記第1登録モデル・データ格納部に格納された前記第1登録モデル・データとを用いた照合処理を実施する第1照合処理手段と、
前記音声分析データと前記第2登録モデル・データ格納部に格納された前記第2登録モデル・データとを用いた照合処理を実施する第2照合処理手段と、
前記第1照合処理手段及び前記第2照合処理手段の照合処理結果に基づき、前記照合対象者に対する最終判定処理を実施する判定手段と、
を有する話者認識システム。 A first registered model data storage unit for storing first registered model data generated from voice data of a person to be verified;
Second registered model data storage for storing second registered model data generated by adapting unspecified speaker model data generated from voice data of a plurality of unspecified speakers to the verification target person And
Analyzing means for analyzing voice data of the person to be collated and generating voice analysis data;
First verification processing means for performing verification processing using the voice analysis data and the first registered model data stored in the first registered model / data storage unit;
A second matching processing means for performing a matching process using the voice analysis data and the second registered model data stored in the second registered model / data storage unit;
A determination unit that performs a final determination process on the verification target person based on the verification processing results of the first verification processing unit and the second verification processing unit;
A speaker recognition system.
前記第1照合処理手段の照合処理結果である第1の尤度と(1−α)(αは0以上1以下の所定の実数)の積と、前記第2照合処理手段の照合処理結果である第2の尤度と前記αの積とを加算した値に基づき、前記照合対象者に対する最終判定処理を実施する
ことを特徴とする請求項1記載の話者認識システム。 The determination means is
The product of the first likelihood and (1-α) (α is a predetermined real number greater than or equal to 0 and less than or equal to 1), which is the result of the first collation processing means, and the result of the collation processing of the second collation processing means. The speaker recognition system according to claim 1, wherein a final determination process is performed on the person to be collated based on a value obtained by adding a certain second likelihood and the product of α.
前記第1照合処理手段による照合処理及び前記第2照合処理手段による照合処理が、前記混合正規分布モデルに対応した照合処理である
ことを特徴とする請求項1又は2記載の話者認識システム。 The first registration model data and the second registration model data are mixed normal distribution model data,
The speaker recognition system according to claim 1 or 2, wherein the matching process by the first matching processing unit and the matching process by the second matching processing unit are matching processes corresponding to the mixed normal distribution model.
前記第2登録モデル・データがサブワード単位のモデル・データであり、
前記第1照合処理手段による照合処理が前記混合正規分布モデルに対応した照合処理であり、
前記第2照合処理手段が、
前記第2登録モデル・データ格納部に格納された前記サブワード単位のモデル・データを接続して照合用モデル・データを生成する照合用モデル・データ生成手段と、
前記照合用モデル・データと前記音声分析データとを用いて照合処理を実施する手段と、
を含む請求項1又は2記載の話者認識システム。 The first registered model data is data of a mixed normal distribution model;
The second registration model data is model data in subword units,
The matching process by the first matching processing means is a matching process corresponding to the mixed normal distribution model,
The second matching processing means
Collation model data generation means for connecting the subword unit model data stored in the second registered model data storage unit to generate collation model data;
Means for performing a matching process using the matching model data and the voice analysis data;
The speaker recognition system according to claim 1 or 2, comprising:
をさらに有し、
前記照合用モデル・データ生成手段が、
前記語句に従って前記第2登録モデル・データ格納部に格納された前記サブワード単位のモデル・データを接続して照合用モデル・データを生成する
ことを特徴とする請求項4記載の話者認識システム。 Means for determining a phrase to be uttered by the person to be collated;
The collation model data generating means is
5. The speaker recognition system according to claim 4, wherein model data for collation is generated by connecting the model data in units of subwords stored in the second registered model data storage unit according to the phrase.
モデル・データ登録時において前記分析手段により生成された前記照合対象者の音声分析データを用いて不特定話者モデル・データ格納部に格納された前記不特定話者モデル・データを適応化し、前記第2登録モデル・データを生成する第2登録モデル・データ生成手段と、
をさらに有する請求項1乃至5のいずれか1つ記載の話者認識システム。 Means for generating the first registration model data from the voice analysis data of the person to be collated generated by the analysis means at the time of model data registration;
Adapting the unspecified speaker model data stored in the unspecified speaker model data storage unit using the voice analysis data of the verification target person generated by the analysis means at the time of model data registration, Second registered model data generating means for generating second registered model data;
The speaker recognition system according to claim 1, further comprising:
モデル・データ登録時において前記照合対象者により発声されたサブワードのモデル・データを所定の方式に従って適応化する処理を実施し、
適応化されたサブワード単位のモデル・データを接続して前記第2登録モデル・データを生成する
ことを特徴とする請求項6記載の話者認識システム。 The second registration model data generation means includes
A process of adapting the model data of the subword uttered by the person to be collated at the time of model data registration according to a predetermined method,
The speaker registration system according to claim 6, wherein the second registration model data is generated by connecting model data in units of subwords adapted to each other.
照合対象者の音声データから生成され且つ第1登録モデル・データ格納装置に格納された第1登録モデル・データと前記音声分析データとの照合処理を実施する第1照合処理ステップと、
複数の不特定話者の音声データから生成された不特定話者モデル・データを前記照合対象者に適応化することにより生成され且つ第2登録モデル・データ格納装置に格納された第2登録モデル・データと前記音声分析データとの照合処理を実施する第2照合処理ステップと、
前記第1照合処理ステップと前記第2照合処理ステップとの照合処理結果に基づき、前記照合対象者に対する最終判定処理を実施するステップと、
をコンピュータに実行させるための話者認識プログラム。 Analyzing voice data of the person to be matched to generate voice analysis data;
A first collation processing step for performing collation processing between the voice analysis data and the first registered model data generated from the voice data of the person to be collated and stored in the first registered model / data storage device;
Second registered model generated by adapting unspecified speaker model data generated from voice data of a plurality of unspecified speakers to the verification target person and stored in the second registered model data storage device A second collation processing step for performing collation processing between the data and the voice analysis data;
A step of performing a final determination process on the person to be collated based on a collation process result of the first collation process step and the second collation process step;
Speaker recognition program to make the computer execute.
照合対象者の音声データから生成され且つ第1登録モデル・データ格納部に格納された第1登録モデル・データと前記音声分析データとを用いた照合処理を実施する第1照合処理ステップと、
複数の不特定話者の音声データから生成された不特定話者モデル・データを前記照合対象者に適応化することにより生成され且つ第2登録モデル・データ格納部に格納された第2登録モデル・データと前記音声分析データとを用いた照合処理を実施する第2照合処理ステップと、
前記第1照合処理ステップと前記第2照合処理ステップとの照合処理結果に基づき、前記照合対象者に対する最終判定処理を実施するステップと、
を含み、コンピュータにより実行される話者認識方法。 Analyzing voice data of the person to be matched to generate voice analysis data;
A first matching processing step for performing a matching process using the first registered model data generated from the voice data of the person to be matched and stored in the first registered model data storage unit and the voice analysis data;
Second registered model generated by adapting unspecified speaker model data generated from voice data of a plurality of unspecified speakers to the verification target person and stored in the second registered model data storage unit A second collation processing step for performing collation processing using data and the voice analysis data;
A step of performing a final determination process on the person to be collated based on a collation process result of the first collation process step and the second collation process step;
A speaker recognition method executed by a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003325119A JP4391179B2 (en) | 2003-09-17 | 2003-09-17 | Speaker recognition system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003325119A JP4391179B2 (en) | 2003-09-17 | 2003-09-17 | Speaker recognition system and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005091758A true JP2005091758A (en) | 2005-04-07 |
JP4391179B2 JP4391179B2 (en) | 2009-12-24 |
Family
ID=34455659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003325119A Expired - Lifetime JP4391179B2 (en) | 2003-09-17 | 2003-09-17 | Speaker recognition system and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4391179B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008224911A (en) * | 2007-03-10 | 2008-09-25 | Toyohashi Univ Of Technology | Speaker recognition system |
JP2008233759A (en) * | 2007-03-23 | 2008-10-02 | Yamaha Corp | Mixed model generating device, sound processor, and program |
JP2010175807A (en) * | 2009-01-29 | 2010-08-12 | Kddi Corp | Speech recognition method and device |
JP2018509649A (en) * | 2015-02-05 | 2018-04-05 | 北京得意音通技▲術▼有限▲責▼任公司Beijing D−Ear Technologies Co., Ltd. | Identification system and method with self-learning function based on dynamic password speech |
JP2018170672A (en) * | 2017-03-30 | 2018-11-01 | 西日本電信電話株式会社 | Voiceprint authentication device, voiceprint authentication method, and program |
-
2003
- 2003-09-17 JP JP2003325119A patent/JP4391179B2/en not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008224911A (en) * | 2007-03-10 | 2008-09-25 | Toyohashi Univ Of Technology | Speaker recognition system |
JP2008233759A (en) * | 2007-03-23 | 2008-10-02 | Yamaha Corp | Mixed model generating device, sound processor, and program |
JP2010175807A (en) * | 2009-01-29 | 2010-08-12 | Kddi Corp | Speech recognition method and device |
JP2018509649A (en) * | 2015-02-05 | 2018-04-05 | 北京得意音通技▲術▼有限▲責▼任公司Beijing D−Ear Technologies Co., Ltd. | Identification system and method with self-learning function based on dynamic password speech |
JP2018170672A (en) * | 2017-03-30 | 2018-11-01 | 西日本電信電話株式会社 | Voiceprint authentication device, voiceprint authentication method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4391179B2 (en) | 2009-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sukkar et al. | Vocabulary independent discriminative utterance verification for nonkeyword rejection in subword based speech recognition | |
CA2609247C (en) | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition | |
US5913192A (en) | Speaker identification with user-selected password phrases | |
JP4301102B2 (en) | Audio processing apparatus, audio processing method, program, and recording medium | |
Lee et al. | Improved acoustic modeling for large vocabulary continuous speech recognition | |
JP5240457B2 (en) | Extended recognition dictionary learning device and speech recognition system | |
EP2192575A1 (en) | Speech recognition based on a multilingual acoustic model | |
Masuko et al. | Imposture using synthetic speech against speaker verification based on spectrum and pitch | |
EP1647970A1 (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
WO2001022400A1 (en) | Iterative speech recognition from multiple feature vectors | |
JP2009086581A (en) | Apparatus and program for creating speaker model of speech recognition | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
JP4391179B2 (en) | Speaker recognition system and method | |
JP2007078943A (en) | Acoustic score calculating program | |
US9355636B1 (en) | Selective speech recognition scoring using articulatory features | |
JP2000352993A (en) | Voice recognition system and learning method of hidden markov model | |
JP3171107B2 (en) | Voice recognition device | |
Dey et al. | Content normalization for text-dependent speaker verification | |
JP2001312293A (en) | Method and device for voice recognition, and computer- readable storage medium | |
JP3090119B2 (en) | Speaker verification device, method and storage medium | |
JP3036509B2 (en) | Method and apparatus for determining threshold in speaker verification | |
JP5104732B2 (en) | Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof | |
US20090254335A1 (en) | Multilingual weighted codebooks | |
JP4236502B2 (en) | Voice recognition device | |
JP3868798B2 (en) | Voice recognition device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060908 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20070828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091006 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091007 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121016 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4391179 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131016 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |