JP2007010995A - Speaker recognition method - Google Patents
Speaker recognition method Download PDFInfo
- Publication number
- JP2007010995A JP2007010995A JP2005191892A JP2005191892A JP2007010995A JP 2007010995 A JP2007010995 A JP 2007010995A JP 2005191892 A JP2005191892 A JP 2005191892A JP 2005191892 A JP2005191892 A JP 2005191892A JP 2007010995 A JP2007010995 A JP 2007010995A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- voice
- input
- value
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声によって個人を認識する技術に関する。 The present invention relates to a technique for recognizing an individual by voice.
個人の特徴を利用して個人の認識を行う技術の中には、音声により個人を認識する技術がある(例えば、特許文献1、非特許文献1参照)。音声を用いて個人認識を行う場合、まず、個人の音声からケプストラム等の特徴量を抽出して登録する。そして、認識を行う場合には、登録されている音声の特徴量と、話者が発した音声の特徴量との類似度を求め、この類似度がある閾値よりも高いか低いかを見ることにより、音声を発した話者が登録されている人物であるか否かを判定する。
ところで、人間が音声を発する際には、同じ言葉を複数回発しても違いが生じることがあるため、話者の音声から特徴量を抽出して登録する際には、話者の平均的な特徴量とは異なる特徴量が登録されてしまう虞がある。このように話者の平均的な特徴量とは異なる特徴量が登録されてしまうと、登録されている個人が音声を発しても登録されている人物であると認識されなくなる可能性が高くなり、正確に個人を認識することができなくなってしまう。 By the way, when a person utters a voice, even if the same word is uttered several times, a difference may occur. Therefore, when extracting and registering a feature amount from a speaker's voice, the average of the speaker There is a possibility that a feature amount different from the feature amount is registered. If a feature amount that is different from the average feature amount of the speaker is registered in this way, there is a high possibility that the registered individual will not be recognized as a registered person even if he / she speaks. It becomes impossible to recognize an individual accurately.
本発明は、上述した背景の下になされたものであり、登録者の音声の本来の特徴を登録し、認識誤りが発生する虞を低減させる技術を提供することを目的とする。 The present invention has been made under the above-described background, and an object of the present invention is to provide a technique for registering the original characteristics of a registrant's voice and reducing the possibility of recognition errors.
上述した課題を解決するために本発明は、音声の特徴量を記憶した記憶部に記憶されている特徴量であって入力された識別子に対応付けて前記記憶部に記憶されている特徴量と、入力された音声の特徴量との距離が予め定められた閾値以下である場合に、入力された音声の発音者が登録者であると認識する話者認識方法であって、発音者を一意に識別する識別子が入力される識別子入力ステップと、発音者の音声が複数回入力される音声入力ステップと、前記音声入力ステップにて複数回入力された音声毎に該音声の特徴量を求め、求めた複数の特徴量を前記記憶部に記憶させる複数特徴量記憶ステップと、前記複数特徴量記憶ステップによって前記記憶部に記憶された各特徴量のうち、前記複数特徴量記憶ステップによって共に記憶された他の特徴量との距離が所定値以上に大きな特徴量を前記記憶部から消去する消去ステップと、前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量の平均値を求める平均特徴量算出ステップと、前記平均特徴量算出ステップによって求められた平均値を、前記識別子入力ステップにて入力された識別子と対応付けて前記発音者の音声の特徴量として前記記憶部に記憶させる特徴量記憶ステップとを有する話者認識方法を提供する。 In order to solve the above-described problem, the present invention provides a feature quantity stored in a storage unit that stores a feature quantity of speech, and a feature quantity stored in the storage unit in association with an input identifier. A speaker recognition method for recognizing that a speaker of an input speech is a registrant when the distance from the feature amount of the input speech is equal to or less than a predetermined threshold, An identifier input step in which an identifier to be identified is input; a voice input step in which a voice of a sound generator is input a plurality of times; and a feature amount of the sound is determined for each voice input a plurality of times in the voice input step; A plurality of feature quantity storage step for storing the obtained plurality of feature quantities in the storage unit, and among the feature quantities stored in the storage unit by the plurality of feature quantity storage steps, the feature quantity is stored together by the plurality of feature quantity storage step. The An erasing step of erasing a feature quantity whose distance from the feature quantity is greater than or equal to a predetermined value from the storage unit, and a step after the erasing step, which is stored in the storage unit by the multiple feature quantity storage step An average feature amount calculating step for obtaining an average value of feature amounts, and an average value obtained by the average feature amount calculating step in association with the identifier input in the identifier input step, As a speaker recognition method, a feature amount storing step stored in the storage unit is provided.
本発明においては、前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量毎に、前記複数特徴量記憶ステップによって共に記憶された他の複数特徴量の平均値との距離を求め、求めた距離の最大値を閾値とする閾値算出ステップを設け、前記特徴量記憶ステップは、前記識別子入力ステップにて入力された識別子と、前記平均特徴量算出ステップによって求められた平均値と、前記閾値算出ステップにより求められた閾値とを対応付けて前記記憶部に記憶させるようにしてもよい。 In the present invention, after the erasing step, for each feature quantity stored in the storage unit by the multiple feature quantity storage step, other multiple features stored together by the multiple feature quantity storage step A threshold value calculating step using the maximum value of the calculated distance as a threshold value is provided, and the feature value storing step includes the identifier input in the identifier input step and the average feature value calculation. The average value obtained by the step and the threshold value obtained by the threshold value calculating step may be associated with each other and stored in the storage unit.
本発明によれば、登録者の音声の本来の特徴が記憶され、この記憶された特徴量で話者の認識を行うので認識誤りが発生する虞が低減する。 According to the present invention, the original features of the registrant's voice are stored, and the speaker is recognized using the stored feature amounts, so that the possibility of recognition errors being reduced.
以下、図面を参照して本発明の実施形態について説明する。
[実施形態の構成]
図1は、本実施形態に係る音声照合装置の要部のハードウェア構成を示したブロック図である。図1に示したように、音声照合装置の各部は、バス101に接続されており、このバス101を介して各部間でデータの授受を行う。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[Configuration of the embodiment]
FIG. 1 is a block diagram showing a hardware configuration of a main part of the speech collating apparatus according to the present embodiment. As shown in FIG. 1, each unit of the speech collating apparatus is connected to a
音声入力部106は、マイクロホン(図示略)を備えており、マイクロホンに入力された音声を表す音声データを生成する。表示部108は、例えば、液晶ディスプレイ装置等の表示装置を具備しており、CPU102の制御の下、文字やグラフィック等の各種表示を行う。情報入力部107は、キーボードやマウス等(いずれも図示略)の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU102へ出力する。
The
記憶部105は、データを永続的に記憶する装置として、例えばハードディスク装置(図示略)を具備しており、このハードディスク装置においては、各種データを記憶する領域として、バッファ領域A1と、登録領域A2とが設けられている。バッファ領域A1は、CPU102が各種処理を行う際に使用するデータの一時的な記憶領域として使用される。また、登録領域A2は、CPU102が話者を認識する処理を行う際に使用するデータを記憶する領域として使用される。図2は、登録領域A2に記憶される登録テーブルTB1のフォーマットを例示した図である。この登録テーブルTB1は、「識別子」というフィールドと、「閾値」というフィールドと、「特徴量」というフィールドとを有している。これらのフィールドにおいて、「特徴量」フィールドには音声の特徴量を表すデータが格納され、また、「識別子」フィールドには、個人を一意に識別する識別子が格納される。また、「閾値」フィールドには、話者が予め登録されている個人であるか否かを判断する際に用いる閾値が格納される。
The
ROM103は制御プログラムを記憶している。そしてCPU102はROM103に記憶されている制御プログラムに従って各部を制御する。図3は、CPU102が行う処理について、その機能構成を示した機能ブロック図である。CPU102が制御プログラムを実行することにより、図3に示した各部が実現する。
The
ここで、図3に示した各機能ブロックについて説明する。情報入力部107には、話者を一意に識別する識別子が入力される。この入力された識別子は、話者が登録されている個人であるか否かを判断する時(以下、照合時と称する)には情報取得部50へ送られ、話者の音声の特徴量を登録する時(以下、登録時の称する)には、情報作成部40へ送られる。
Here, each functional block shown in FIG. 3 will be described. An identifier for uniquely identifying a speaker is input to the
音声入力部106に入力された音声は、音声データに変換されて発話区間抽出部10へ送られる。発話区間抽出部10は、音声データを受取ると話者の音声部分のみを発話区間として抽出し、無音の部分や音声以外の音の部分を除去し音声データを生成して特徴量抽出部20へ送る。なお、後述するように、登録時にはユーザは同じ単語を複数回発音するが、一回の発音毎に単語の発話区間が抽出され、音声データが特徴量抽出部20へ送られる。
The voice input to the
特徴量抽出部20は、送られた音声データが示す音声から音声の特徴量を抽出し、抽出した特徴量を示す特徴量データVを生成する。なお、特徴量の種類については、ケプストラムが良く知られているが、ケプストラムに限定されるものではなく、ケプストラム以外の他の特徴量であってもよい。なお、特徴量抽出部20で生成された特徴量データVは、登録時には発音毎に記憶部105のバッファ領域A1に記憶され、照合時には特徴量比較部60へ送られる。
The feature
発話選択部30は、話者の平均的な特徴量を得られるようにするために、バッファ領域A1に記憶された特徴量データVの中で他の特徴量データとの距離が大きい特徴量データを消去する。
情報作成部40は、バッファ領域A1に記憶された特徴量データVを平均化した平均特徴量データVAを求めると共に、照合時に用いられる閾値tを求める。そして、情報入力部107から送られた識別子と、平均特徴量データVAと、求めた閾値tとを対応付けて登録テーブルTB1に格納する。
The
The
情報取得部50は、情報入力部107から識別子が送られると、送られた識別子に対応付けられて登録テーブルTB1に格納されている閾値tと平均特徴量データVAとを読み出し、読み出した閾値tと平均特徴量データVAとを特徴量比較部60へ送る。
特徴量比較部60は、特徴量抽出部20から送られる特徴量データVが示す特徴量と、情報取得部50から送られた平均特徴量データVAが示す特徴量との距離を求め、この距離が情報取得部50から送られた閾値tよりも大きいか小さいかを見ることにより、話者が登録されている個人であるか否かを判定する。そして、特徴量比較部60は、比較結果を示す結果データを表示部108へ送る。表示部108では、送られた結果データが示す結果に基づいて、話者が登録されている個人であるか否かを表示する。
When the identifier is sent from the
The feature
[実施形態の動作]
次に本実施形態の動作について説明する。なお以下の説明においては、まず登録時の動作について説明し、次に照合時の動作について説明する。
[Operation of the embodiment]
Next, the operation of this embodiment will be described. In the following description, the operation during registration will be described first, and then the operation during verification will be described.
[登録時の動作]
まず、音声の特徴量を登録しようとする者(以下、登録者と称する)は、情報入力部107を操作し、表示部108に表示されたメニュー画面(図8参照)の「登録ボタン」をクリックする操作を行う。登録ボタンをクリックする操作が行われると、表示部108には識別子の入力を促す画面(図9参照)が表示される(図4:ステップS10)。この後、登録者を一意に識別する識別子が入力され、画面に表示された決定ボタンをクリックする操作が行われると(ステップS11;YES)、登録者が所定の言葉を発音した回数を示すカウンタnが初期化(n=0)される(ステップS12)。そして、所定の言葉(例えば、登録者の氏名等)を発音するように要求する画面(図10参照)が表示され(ステップS13)、入力された識別子がRAM104に記憶される。
[Operation during registration]
First, a person who intends to register a voice feature amount (hereinafter referred to as a registrant) operates the
図10に例示した画面が表示された後、登録者は所定の言葉を発音する。登録者が発した音声が音声入力部106に入力されると、入力された音声の音声データが音声入力部106から出力される。CPU102は、音声データが出力されると(ステップS14;YES)、音声部分のみを発話区間として抽出し、無音の部分や音声以外の音の部分を除去した音声データを生成する(ステップS15)。そしてCPU102は、ステップS15で生成された音声データが表す音声の特徴量を抽出し、抽出した特徴量を示す特徴量データVを生成する(ステップS16)。次にCPU102は、カウンタnの値に1を加え(ステップS17)、生成した特徴量データVを記憶部105のバッファ領域A1に記憶する(ステップS18)。なお、バッファ領域A1に特徴量データVを記憶する際には、図11に例示したように、配列V[n](nはカウンタnの値)に記憶する。
After the screen illustrated in FIG. 10 is displayed, the registrant pronounces a predetermined word. When voice uttered by the registrant is input to the
CPU102は、特徴量データVをバッファ領域A1に記憶させると、登録者が所定の言葉を所定回数(所定値N回)発音したか否かを判断する(ステップS19)。CPU102は、カウンタnの値が所定値Nであるか否かを判断し、カウンタnの値が所定値N未満である場合には(ステップS19;NO)、図10の画面における「登録完了までに行う発音の回数」の部分の数値を所定値N−カウンタnの値に変更して表示し、所定の言葉の発音を要求する。一方、カウンタnの値が所定値Nとなった場合には(ステップS19;YES)、次の処理を行う。
When
次にCPU102は、記憶された特徴量データVが示す特徴量毎に他の各特徴量データが示す特徴量との距離を求め、求めた距離の平均値を求める処理を行う。まずCPU102は、カウンタiの値を初期化(i=1)し(図5:ステップS20)、距離D[i]の値を初期化(D[i]=0)する(ステップS21)。次にCPU102は、カウンタjの値を初期化し(j=1)(ステップS22)、特徴量データV[i]が示す特徴量(iはカウンタiの値)と特徴量データV[j]が示す特徴量(jはカウンタjの値)との距離を求め、求めた距離を距離D[i]に格納されている値に加算する(ステップS23)。
CPU102はステップS23の処理が終了すると、カウンタjの値を1増加させ(ステップS24)、カウンタjの値が所定値Nとなったか否かを判断する(ステップS25)。CPU102は、カウンタjの値が所定値Nとなっていない場合には(ステップS25;NO)、カウンタjの値が所定値NとなるまでステップS23,ステップS24の処理を繰り返す。一方、カウンタjの値が所定値Nとなった場合には(ステップS25;YES)、距離D[i]の値をバッファ領域A1に記憶された特徴量データの数である前記所定値Nで除算し、特徴量データV[i]が示す特徴量と他の特徴量データが示す特徴量との距離の平均値を求め、求めた値を距離D[i]に格納する(ステップS26)。
Next, the
When the process of step S23 ends, the
CPU102は、ステップS26の処理が終了すると、カウンタiの値を1増加させ(ステップS27)、カウンタiの値が所定値Nとなったか否かを判断する(ステップS28)。CPU102は、カウンタiの値が所定値Nとなっていない場合には(ステップS28;NO)、カウンタiの値が所定値NとなるまでステップS21〜ステップS27の処理を繰り返す。
When the process of step S26 ends, the
一方、カウンタiの値が所定値となった場合には(ステップS28;YES)、まずCPU102は、カウンタiの値を初期化(i=1)する(図6:ステップS29)。そして、CPU102はステップS21〜ステップS28の処理で求めた距離の平均値D[i]と、距離の限界閾値Tとを比較する(ステップS30)。ここで、限界閾値Tは予め定められた固定値である。
CPU102は、距離の平均値D[i]が限界閾値T未満である場合には(ステップS30:NO)、ステップS33へ処理を進める。一方、CPU102は、距離の平均値D[i]が限界閾値T以上の場合には(ステップS30;YES)、バッファ領域A1から特徴量データV[i]を消去する(ステップS31)。
On the other hand, when the value of the counter i becomes a predetermined value (step S28; YES), the
When the average distance value D [i] is less than the limit threshold T (step S30: NO), the
次にCPU102は、ステップS13〜ステップS19の処理によって値がNとなったカウンタnから1を減算し、減算結果をカウンタnの値とする(ステップS32)。そしてCPU102は、カウンタiの値を1増加させ(ステップS33)、カウンタiの値が所定値Nとなったか否かを判断する(ステップS34)。CPU102は、カウンタiの値が所定値Nとなっていない場合には(ステップS34;NO)、カウンタiの値が所定値NとなるまでステップS30〜ステップS33の処理を繰り返す。
Next, the
一方、カウンタiの値が所定値Nとなった場合には(ステップS34;YES)、カウンタnの値が所定値Nと同じであるか判断する(ステップS35)。ここで、CPU102は、カウンタnの値が所定値Nと同じでない場合には(ステップS30〜ステップS34の処理において、バッファ領域A1に記憶された特徴量データVを消去した場合)、図12に例示したように、バッファ領域A1に記憶された特徴量データの並べ替えを行った後(ステップS36)、ステップS13へ処理の流れを戻す。
On the other hand, when the value of the counter i becomes the predetermined value N (step S34; YES), it is determined whether the value of the counter n is the same as the predetermined value N (step S35). Here, when the value of the counter n is not the same as the predetermined value N (when the feature value data V stored in the buffer area A1 is deleted in the processing of step S30 to step S34), the
一方、CPU102は、カウンタnの値が所定値Nと同じである場合には(ステップS35;YES)、閾値tの値を初期化(t=0)し(図7:ステップS37)、カウンタiの値を初期化(i=1)する(ステップS38)。次にCPU102は、特徴量データV[i]以外の特徴量データを平均化したデータVaを求める(ステップS39)。そして、特徴量データV[i]が示す特徴量と、データVaが示す特徴量の距離D[i]を求め(ステップS40)、求めた距離D[i]が閾値tより大きいか判断する(ステップS41)。
ここで、CPU102は、閾値tの値が距離D[i]の値未満である場合には(ステップS41;YES)、閾値t=距離D[i]とする(ステップS42)。一方、CPU102は、閾値tの値が距離D[i]の値以上である場合には(ステップS41;NO)、ステップS43へ処理を進める。
On the other hand, when the value of the counter n is the same as the predetermined value N (step S35; YES), the
Here, when the value of the threshold value t is less than the value of the distance D [i] (step S41; YES), the
次にCPU102は、カウンタiの値を1増加させ(ステップS43)、カウンタiの値が所定値Nとなったか否かを判断する(ステップS44)。CPU102は、カウンタiの値が所定値Nとなっていない場合には(ステップS44;NO)、カウンタiの値が所定値となるまでステップS39〜ステップS43の処理を繰り返す。一方、カウンタiの値が所定値Nである場合には(ステップS44;YES)、CPU102は、バッファ領域A1に記憶されている特徴量データVの平均値である平均特徴量データVAを求める(ステップS45)。そして、情報入力部107から入力された識別子と、ステップS45で求めた平均特徴量データVAと、ステップS38〜ステップS44の処理で求めた閾値tとを対応付けて登録テーブルTB1に格納する(ステップS46)。なお、CPU102は、閾値tと平均特徴量データVAとを格納する際、情報入力部107から入力された識別子が既に登録テーブルTB1にある場合には、既に格納されている識別子に対応付けて格納されている閾値tと平均特徴量データVAとを新たに求めた閾値tと平均特徴量データVAとに更新し、情報入力部107から入力された識別子が登録テーブルTB1に格納されていない場合には、入力された識別子と閾値tおよび平均特徴量データVAとを新たに登録テーブルTB1に格納する。
Next, the
以上説明したように本実施形態によれば、登録者の音声の平均的な特徴量が登録者の音声の特徴量として記憶される。また、話者が予め登録されている個人であるか否かを判断する際に用いる閾値は、登録者の音声の特徴量を基にして登録者毎に求められる。 As described above, according to the present embodiment, the average feature amount of the registrant's voice is stored as the feature amount of the registrant's voice. In addition, a threshold used when determining whether or not a speaker is an individual registered in advance is obtained for each registrant based on the feature amount of the registrant's voice.
[照合時の動作]
次に照合時の動作について説明する。まず、話者は情報入力部107を操作し、表示部108に表示されたメニュー画面(図8参照)の「話者判定ボタン」をクリックする操作を行う。話者判定ボタンをクリックする操作が行われると、表示部108には識別子の入力を促す画面(図9参照)が表示される(図13:ステップS50)。この後、話者により識別子が入力され、画面に表示された決定ボタンをクリックする操作が行われると(ステップS51)、入力された識別子がRAM104に記憶される。
[Operation during verification]
Next, the operation at the time of collation will be described. First, the speaker operates the
この後、CPU102は、RAM104に記憶された識別子を登録テーブルTB1において検索する(ステップS52)。ここで、RAM104に記憶された識別子と同じ識別子が見つからなかった場合には(ステップS53;NO)、CPU102は、識別子が登録されていない旨のメッセージを表示部108に表示させて(ステップS54)処理を終了する。一方、CPU102は、RAM104に記憶された識別子と同じ識別子を見つけた場合には(ステップS53;YES)、検索した識別子に対応付けて登録テーブルTB1に格納されている閾値tと平均特徴量データVAとを読み出す(ステップS55)。そして、所定の言葉(例えば、登録者の氏名等)の発音を要求する画面を表示し(ステップS56)、音声が入力されるのを待つ(ステップS57)。
Thereafter, the
この後、話者が所定の言葉を発音し、話者が発した音声が音声入力部106に入力されると(ステップS57;YES)、入力された音声の音声データが音声入力部106から出力される。CPU102は、この音声データのうち、音声部分のみを発話区間として抽出し、無音の部分や音声以外の音の部分を除去した音声データを生成する(ステップS58)。そしてCPU102は、ステップS58で生成された音声データが表す音声の特徴量を抽出し、抽出した特徴量を示す特徴量データVを生成する(ステップS59)。
Thereafter, when the speaker pronounces a predetermined word and the voice uttered by the speaker is input to the voice input unit 106 (step S57; YES), the voice data of the input voice is output from the
次にCPU102は、特徴量データVが表す特徴量と平均特徴量データVAが表す特徴量との距離を求める(ステップS60)。そして、求めた距離が登録テーブルTB1から読み出した閾値t以下である場合(特徴量データVと平均特徴量データVAの距離が近い場合)には(ステップS61;YES)、CPU102は話者が登録者であると判断し、判断結果を表示部108に表示させる(ステップS62)。一方、求めた距離が登録テーブルTB1から読み出した閾値tより大きい場合(特徴量データVと平均特徴量データVAの距離が遠い場合)には(ステップS61;NO)、CPU102は話者が登録者ではないと判断し、判断結果を表示部108に表示させる(ステップS63)。
Next, the
以上説明したように本実施形態によれば、記憶されている登録者の音声の平均的な特徴量を基にし、登録者固有の閾値を用いて話者の認識が行われるので、登録されている個人が発音した際に、登録されている人物ではないと判断される可能性が低くなる。 As described above, according to the present embodiment, the speaker is recognized using the threshold value unique to the registrant based on the stored average feature amount of the registrant's voice. When a certain person pronounces, the possibility that the person is not registered is reduced.
[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
[Modification]
As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above, It can implement with another various form. For example, the present invention may be implemented by modifying the above-described embodiment as follows.
パーソナルコンピュータ装置にマイクロホンを接続し、上述したプログラムをパーソナルコンピュータ装置において実行することにより、パーソナルコンピュータ装置で話者の認識を行うようにしてもよい。また、パーソナルコンピュータ装置だけではなく、マイクロホンを備えたPDA(Personal Digital Assistance)や携帯電話機等において上述したプログラムを実行させ、話者の認識を行うようにしてもよい。 A microphone may be connected to the personal computer device, and the above-described program may be executed on the personal computer device to recognize the speaker on the personal computer device. In addition to the personal computer device, the above-described program may be executed by a PDA (Personal Digital Assistance) equipped with a microphone, a mobile phone, or the like to recognize a speaker.
上述した実施形態においては、閾値tは音声の特徴量のみから算出しているが、音声照合装置の使用環境やマイクロホンの性能に合わせて閾値tに所定の定数を加算するようにしてもよい。
また、上述した実施形態において音声照合装置は、閾値tを算出せず平均特徴量データVAのみを算出するようにしてもよい。この場合には、閾値tは情報入力部107から入力するようにしてもよい。
また、上述した実施形態においては、ステップS35の処理を行わず、ステップS34の後、ステップS37の処理を実行するようにしてもよい。
In the above-described embodiment, the threshold value t is calculated from only the voice feature amount, but a predetermined constant may be added to the threshold value t in accordance with the use environment of the voice matching device and the performance of the microphone.
In the above-described embodiment, the speech collation apparatus may calculate only the average feature amount data VA without calculating the threshold value t. In this case, the threshold value t may be input from the
In the embodiment described above, the process of step S35 may be performed after step S34 without performing the process of step S35.
10・・・発話区間抽出部、20・・・特徴量抽出部、30・・・発話選択部、40・・・情報作成部、50・・・情報取得部、60・・・特徴量比較部、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・音声入力部、107・・・情報入力部、108・・・表示部。
DESCRIPTION OF
Claims (2)
発音者を一意に識別する識別子が入力される識別子入力ステップと、
発音者の音声が複数回入力される音声入力ステップと、
前記音声入力ステップにて複数回入力された音声毎に該音声の特徴量を求め、求めた複数の特徴量を前記記憶部に記憶させる複数特徴量記憶ステップと、
前記複数特徴量記憶ステップによって前記記憶部に記憶された各特徴量のうち、前記複数特徴量記憶ステップによって共に記憶された他の特徴量との距離が所定値以上に大きな特徴量を前記記憶部から消去する消去ステップと、
前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量の平均値を求める平均特徴量算出ステップと、
前記平均特徴量算出ステップによって求められた平均値を、前記識別子入力ステップにて入力された識別子と対応付けて前記発音者の音声の特徴量として前記記憶部に記憶させる特徴量記憶ステップと
を有する話者認識方法。 The distance between the feature quantity stored in the storage unit storing the voice feature quantity and the feature quantity stored in the storage unit in association with the input identifier is as follows: A speaker recognition method for recognizing that an input voice pronunciation person is a registrant when a predetermined threshold value or less,
An identifier input step in which an identifier for uniquely identifying a pronunciation is input;
A voice input step in which the voice of the pronunciation is input multiple times;
A feature amount storage step of obtaining a feature amount of the sound for each sound input a plurality of times in the sound input step, and storing the determined feature amounts in the storage unit;
Among the feature quantities stored in the storage unit by the multiple feature quantity storage step, a feature quantity whose distance from the other feature quantities stored together by the multiple feature quantity storage step is larger than a predetermined value is stored in the storage unit An erasure step to erase from,
An average feature amount calculating step for obtaining an average value of the feature amounts stored in the storage unit by the plurality of feature amount storing steps after the erasing step;
A feature amount storage step of storing the average value obtained in the average feature amount calculation step in the storage unit in association with the identifier input in the identifier input step as the feature amount of the voice of the sound generator. Speaker recognition method.
前記特徴量記憶ステップは、前記識別子入力ステップにて入力された識別子と、前記平均特徴量算出ステップによって求められた平均値と、前記閾値算出ステップにより求められた閾値とを対応付けて前記記憶部に記憶させること
を特徴とする請求項1に記載の話者認識方法。 After the erasing step, for each feature quantity stored in the storage unit by the multiple feature quantity storage step, an average value of other multiple feature quantities stored together by the multiple feature quantity storage step and A threshold calculation step using the maximum value of the calculated distance as a threshold,
The feature amount storage step associates the identifier input in the identifier input step with the average value obtained in the average feature amount calculation step and the threshold value obtained in the threshold value calculation step. The speaker recognition method according to claim 1, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005191892A JP4254753B2 (en) | 2005-06-30 | 2005-06-30 | Speaker recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005191892A JP4254753B2 (en) | 2005-06-30 | 2005-06-30 | Speaker recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007010995A true JP2007010995A (en) | 2007-01-18 |
JP4254753B2 JP4254753B2 (en) | 2009-04-15 |
Family
ID=37749594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005191892A Expired - Fee Related JP4254753B2 (en) | 2005-06-30 | 2005-06-30 | Speaker recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4254753B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4854732B2 (en) * | 2006-03-24 | 2012-01-18 | パイオニア株式会社 | Speaker model registration apparatus and method in speaker recognition system, and computer program |
JP2014048534A (en) * | 2012-08-31 | 2014-03-17 | Sogo Keibi Hosho Co Ltd | Speaker recognition device, speaker recognition method, and speaker recognition program |
JP2019507992A (en) * | 2016-03-10 | 2019-03-22 | シバントス ピーティーイー リミテッド | Method of operating listening device, and listening device |
-
2005
- 2005-06-30 JP JP2005191892A patent/JP4254753B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4854732B2 (en) * | 2006-03-24 | 2012-01-18 | パイオニア株式会社 | Speaker model registration apparatus and method in speaker recognition system, and computer program |
JP2014048534A (en) * | 2012-08-31 | 2014-03-17 | Sogo Keibi Hosho Co Ltd | Speaker recognition device, speaker recognition method, and speaker recognition program |
JP2019507992A (en) * | 2016-03-10 | 2019-03-22 | シバントス ピーティーイー リミテッド | Method of operating listening device, and listening device |
Also Published As
Publication number | Publication date |
---|---|
JP4254753B2 (en) | 2009-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6596376B2 (en) | Speaker identification method and speaker identification apparatus | |
JP6394709B2 (en) | SPEAKER IDENTIFYING DEVICE AND FEATURE REGISTRATION METHOD FOR REGISTERED SPEECH | |
US7680658B2 (en) | Method and apparatus for speech recognition | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
JPWO2006109515A1 (en) | Operator recognition device, operator recognition method, and operator recognition program | |
JP5743976B2 (en) | Information processing apparatus, program, and information processing method | |
JP2010152751A (en) | Statistic model learning device, statistic model learning method and program | |
JP2021105736A (en) | Information processing device, method and program | |
CN110706714A (en) | Speaker model creation system | |
JP2004101901A (en) | Speech interaction system and speech interaction program | |
JPWO2018047421A1 (en) | Voice processing apparatus, information processing apparatus, voice processing method, and information processing method | |
JP4254753B2 (en) | Speaker recognition method | |
JP6233867B2 (en) | Dictionary registration system for speech recognition, speech recognition system, speech recognition service system, method and program | |
US20030055642A1 (en) | Voice recognition apparatus and method | |
CN113539234B (en) | Speech synthesis method, device, system and storage medium | |
JP2006251042A (en) | Information processor, information processing method and program | |
JP5238395B2 (en) | Language model creation apparatus and language model creation method | |
JP2005140988A (en) | Speech recognition device and method | |
JP2017198790A (en) | Speech evaluation device, speech evaluation method, method for producing teacher change information, and program | |
JP2010139843A (en) | Voice information collection device, and method and program for the same | |
WO2006027844A1 (en) | Speaker collator | |
JP4877112B2 (en) | Voice processing apparatus and program | |
JP6571587B2 (en) | Voice input device, method thereof, and program | |
CN110580905A (en) | Identification device and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081014 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090119 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4254753 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140206 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |