JP4254753B2 - Speaker recognition method - Google Patents

Speaker recognition method Download PDF

Info

Publication number
JP4254753B2
JP4254753B2 JP2005191892A JP2005191892A JP4254753B2 JP 4254753 B2 JP4254753 B2 JP 4254753B2 JP 2005191892 A JP2005191892 A JP 2005191892A JP 2005191892 A JP2005191892 A JP 2005191892A JP 4254753 B2 JP4254753 B2 JP 4254753B2
Authority
JP
Japan
Prior art keywords
feature
value
input
voice
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005191892A
Other languages
Japanese (ja)
Other versions
JP2007010995A (en
Inventor
毅彦 川▲原▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005191892A priority Critical patent/JP4254753B2/en
Publication of JP2007010995A publication Critical patent/JP2007010995A/en
Application granted granted Critical
Publication of JP4254753B2 publication Critical patent/JP4254753B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声によって個人を認識する技術に関する。   The present invention relates to a technique for recognizing an individual by voice.

個人の特徴を利用して個人の認識を行う技術の中には、音声により個人を認識する技術がある(例えば、特許文献1、非特許文献1参照)。音声を用いて個人認識を行う場合、まず、個人の音声からケプストラム等の特徴量を抽出して登録する。そして、認識を行う場合には、登録されている音声の特徴量と、話者が発した音声の特徴量との類似度を求め、この類似度がある閾値よりも高いか低いかを見ることにより、音声を発した話者が登録されている人物であるか否かを判定する。
特開平9−127973号公報 松井知子、「HMMによる話者認識」、信学技法、社団法人電子情報通信学会、平成8年1月、p17−24
Among the techniques for recognizing an individual using individual characteristics, there is a technique for recognizing an individual by voice (see, for example, Patent Document 1 and Non-Patent Document 1). When performing personal recognition using voice, first, feature quantities such as cepstrum are extracted from personal voice and registered. When recognizing, the degree of similarity between the registered feature amount of speech and the feature amount of speech uttered by the speaker is obtained, and whether the similarity is higher or lower than a certain threshold value. Thus, it is determined whether or not the speaker who uttered the voice is a registered person.
JP-A-9-127973 Tomoko Matsui, “Speaker Recognition by HMM”, Science Technology, The Institute of Electronics, Information and Communication Engineers, January 1996, p17-24

ところで、人間が音声を発する際には、同じ言葉を複数回発しても違いが生じることがあるため、話者の音声から特徴量を抽出して登録する際には、話者の平均的な特徴量とは異なる特徴量が登録されてしまう虞がある。このように話者の平均的な特徴量とは異なる特徴量が登録されてしまうと、登録されている個人が音声を発しても登録されている人物であると認識されなくなる可能性が高くなり、正確に個人を認識することができなくなってしまう。   By the way, when a person utters a voice, even if the same word is uttered several times, a difference may occur. Therefore, when extracting and registering a feature amount from a speaker's voice, the average of the speaker There is a possibility that a feature amount different from the feature amount is registered. If a feature amount that is different from the average feature amount of the speaker is registered in this way, there is a high possibility that the registered individual will not be recognized as a registered person even if he / she speaks. It becomes impossible to recognize an individual accurately.

本発明は、上述した背景の下になされたものであり、登録者の音声の本来の特徴を登録し、認識誤りが発生する虞を低減させる技術を提供することを目的とする。   The present invention has been made under the above-described background, and an object of the present invention is to provide a technique for registering the original characteristics of a registrant's voice and reducing the possibility of recognition errors.

上述した課題を解決するために本発明は、音声の特徴量を記憶した記憶部に記憶されている特徴量であって入力された識別子に対応付けて前記記憶部に記憶されている特徴量と、入力された音声の特徴量との距離が予め定められた閾値以下である場合に、入力された音声の発音者が登録者であると認識する話者認識方法であって、発音者を一意に識別する識別子が入力される識別子入力ステップと、発音者の音声が複数回入力される音声入力ステップと、前記音声入力ステップにて複数回入力された音声毎に該音声の特徴量を求め、求めた複数の特徴量を前記記憶部に記憶させる複数特徴量記憶ステップと、前記複数特徴量記憶ステップによって前記記憶部に記憶された各特徴量のうち、前記複数特徴量記憶ステップによって共に記憶された他の特徴量との距離が所定値以上に大きな特徴量を前記記憶部から消去する消去ステップと、前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量の平均値を求める平均特徴量算出ステップと、前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量毎に、前記複数特徴量記憶ステップによって共に記憶された他の複数特徴量の平均値との距離を求め、求めた距離の最大値を閾値とする閾値算出ステップと、前記識別子入力ステップにて入力された識別子と、前記平均特徴量算出ステップによって求められた平均値と、前記閾値算出ステップにより求められた閾値とを対応付けて、前記発音者の音声の特徴量として前記記憶部に記憶させる特徴量記憶ステップとを有する話者認識方法を提供する。 In order to solve the above-described problem, the present invention provides a feature quantity stored in a storage unit that stores a feature quantity of speech, and a feature quantity stored in the storage unit in association with an input identifier. A speaker recognition method for recognizing that a speaker of an input speech is a registrant when the distance from the feature amount of the input speech is equal to or less than a predetermined threshold, An identifier input step in which an identifier to be identified is input; a voice input step in which a voice of a sound generator is input a plurality of times; and a feature amount of the sound is determined for each voice input a plurality of times in the voice input step; A plurality of feature quantity storage step for storing the obtained plurality of feature quantities in the storage unit, and among the feature quantities stored in the storage unit by the plurality of feature quantity storage steps, the feature quantity is stored together by the plurality of feature quantity storage step. The An erasing step of erasing a feature quantity whose distance from the feature quantity is greater than or equal to a predetermined value from the storage unit, and a step after the erasing step, which is stored in the storage unit by the multiple feature quantity storage step An average feature amount calculating step for obtaining an average value of feature amounts, and a step after the erasing step, for each feature amount stored in the storage unit by the multiple feature amount storing step, the plural feature amount storing step The threshold value calculating step using the maximum value of the calculated distance as a threshold value, the identifier input in the identifier input step, and the average feature value the average value calculated by the calculating step, the associates the determined threshold value by the threshold calculating step, in the storage unit as a feature quantity of the sound's voice Providing speaker recognition method having a feature amount storing step of 憶.

本発明によれば、登録者の音声の本来の特徴が記憶され、この記憶された特徴量で話者の認識を行うので認識誤りが発生する虞が低減する。   According to the present invention, the original features of the registrant's voice are stored, and the speaker is recognized using the stored feature amounts, so that the possibility of recognition errors being reduced.

以下、図面を参照して本発明の実施形態について説明する。
[実施形態の構成]
図1は、本実施形態に係る音声照合装置の要部のハードウェア構成を示したブロック図である。図1に示したように、音声照合装置の各部は、バス101に接続されており、このバス101を介して各部間でデータの授受を行う。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[Configuration of the embodiment]
FIG. 1 is a block diagram showing a hardware configuration of a main part of the speech collating apparatus according to the present embodiment. As shown in FIG. 1, each unit of the speech collating apparatus is connected to a bus 101, and exchanges data between each unit via this bus 101.

音声入力部106は、マイクロホン(図示略)を備えており、マイクロホンに入力された音声を表す音声データを生成する。表示部108は、例えば、液晶ディスプレイ装置等の表示装置を具備しており、CPU102の制御の下、文字やグラフィック等の各種表示を行う。情報入力部107は、キーボードやマウス等(いずれも図示略)の入力装置を具備しており、キーの押下やマウスの操作等に応じて操作内容に対応した信号をCPU102へ出力する。   The voice input unit 106 includes a microphone (not shown), and generates voice data representing the voice input to the microphone. The display unit 108 includes a display device such as a liquid crystal display device, and performs various displays such as characters and graphics under the control of the CPU 102. The information input unit 107 includes an input device such as a keyboard and a mouse (both not shown), and outputs a signal corresponding to the operation content to the CPU 102 in response to a key press or a mouse operation.

記憶部105は、データを永続的に記憶する装置として、例えばハードディスク装置(図示略)を具備しており、このハードディスク装置においては、各種データを記憶する領域として、バッファ領域A1と、登録領域A2とが設けられている。バッファ領域A1は、CPU102が各種処理を行う際に使用するデータの一時的な記憶領域として使用される。また、登録領域A2は、CPU102が話者を認識する処理を行う際に使用するデータを記憶する領域として使用される。図2は、登録領域A2に記憶される登録テーブルTB1のフォーマットを例示した図である。この登録テーブルTB1は、「識別子」というフィールドと、「閾値」というフィールドと、「特徴量」というフィールドとを有している。これらのフィールドにおいて、「特徴量」フィールドには音声の特徴量を表すデータが格納され、また、「識別子」フィールドには、個人を一意に識別する識別子が格納される。また、「閾値」フィールドには、話者が予め登録されている個人であるか否かを判断する際に用いる閾値が格納される。   The storage unit 105 includes, for example, a hard disk device (not shown) as a device for permanently storing data. In this hard disk device, a buffer area A1 and a registration area A2 are used as areas for storing various data. And are provided. The buffer area A1 is used as a temporary storage area for data used when the CPU 102 performs various processes. The registration area A2 is used as an area for storing data used when the CPU 102 performs processing for recognizing a speaker. FIG. 2 is a diagram illustrating a format of the registration table TB1 stored in the registration area A2. This registration table TB1 has a field called “identifier”, a field called “threshold”, and a field called “feature”. In these fields, data representing the voice feature amount is stored in the “feature amount” field, and an identifier for uniquely identifying the individual is stored in the “identifier” field. The “threshold” field stores a threshold used when determining whether or not the speaker is a registered individual.

ROM103は制御プログラムを記憶している。そしてCPU102はROM103に記憶されている制御プログラムに従って各部を制御する。図3は、CPU102が行う処理について、その機能構成を示した機能ブロック図である。CPU102が制御プログラムを実行することにより、図3に示した各部が実現する。   The ROM 103 stores a control program. The CPU 102 controls each unit according to a control program stored in the ROM 103. FIG. 3 is a functional block diagram showing a functional configuration of processing performed by the CPU 102. The units shown in FIG. 3 are realized by the CPU 102 executing the control program.

ここで、図3に示した各機能ブロックについて説明する。情報入力部107には、話者を一意に識別する識別子が入力される。この入力された識別子は、話者が登録されている個人であるか否かを判断する時(以下、照合時と称する)には情報取得部50へ送られ、話者の音声の特徴量を登録する時(以下、登録時の称する)には、情報作成部40へ送られる。   Here, each functional block shown in FIG. 3 will be described. An identifier for uniquely identifying a speaker is input to the information input unit 107. This input identifier is sent to the information acquisition unit 50 when it is determined whether or not the speaker is a registered individual (hereinafter referred to as collation time), and the feature amount of the speaker's voice is determined. At the time of registration (hereinafter referred to as registration), it is sent to the information creation unit 40.

音声入力部106に入力された音声は、音声データに変換されて発話区間抽出部10へ送られる。発話区間抽出部10は、音声データを受取ると話者の音声部分のみを発話区間として抽出し、無音の部分や音声以外の音の部分を除去し音声データを生成して特徴量抽出部20へ送る。なお、後述するように、登録時にはユーザは同じ単語を複数回発音するが、一回の発音毎に単語の発話区間が抽出され、音声データが特徴量抽出部20へ送られる。   The voice input to the voice input unit 106 is converted into voice data and sent to the utterance section extraction unit 10. Upon receiving the voice data, the utterance section extraction unit 10 extracts only the voice part of the speaker as the utterance section, removes the silent part and the sound part other than the voice, generates voice data, and outputs the voice data to the feature amount extraction unit 20. send. As will be described later, at the time of registration, the user pronounces the same word a plurality of times, but the utterance section of the word is extracted for each pronunciation and the voice data is sent to the feature amount extraction unit 20.

特徴量抽出部20は、送られた音声データが示す音声から音声の特徴量を抽出し、抽出した特徴量を示す特徴量データVを生成する。なお、特徴量の種類については、ケプストラムが良く知られているが、ケプストラムに限定されるものではなく、ケプストラム以外の他の特徴量であってもよい。なお、特徴量抽出部20で生成された特徴量データVは、登録時には発音毎に記憶部105のバッファ領域A1に記憶され、照合時には特徴量比較部60へ送られる。   The feature amount extraction unit 20 extracts a feature amount of the voice from the voice indicated by the transmitted voice data, and generates feature amount data V indicating the extracted feature amount. Note that the cepstrum is well known as the type of feature quantity, but it is not limited to the cepstrum and may be a feature quantity other than the cepstrum. The feature amount data V generated by the feature amount extraction unit 20 is stored in the buffer area A1 of the storage unit 105 for each pronunciation at the time of registration, and is sent to the feature amount comparison unit 60 at the time of matching.

発話選択部30は、話者の平均的な特徴量を得られるようにするために、バッファ領域A1に記憶された特徴量データVの中で他の特徴量データとの距離が大きい特徴量データを消去する。
情報作成部40は、バッファ領域A1に記憶された特徴量データVを平均化した平均特徴量データVAを求めると共に、照合時に用いられる閾値tを求める。そして、情報入力部107から送られた識別子と、平均特徴量データVAと、求めた閾値tとを対応付けて登録テーブルTB1に格納する。
The utterance selection unit 30 has feature data having a large distance from other feature data in the feature data V stored in the buffer area A1 so that the average feature data of the speaker can be obtained. Erase.
The information creating unit 40 obtains the average feature value data VA obtained by averaging the feature value data V stored in the buffer area A1, and obtains a threshold value t used for matching. Then, the identifier sent from the information input unit 107, the average feature amount data VA, and the obtained threshold value t are associated with each other and stored in the registration table TB1.

情報取得部50は、情報入力部107から識別子が送られると、送られた識別子に対応付けられて登録テーブルTB1に格納されている閾値tと平均特徴量データVAとを読み出し、読み出した閾値tと平均特徴量データVAとを特徴量比較部60へ送る。
特徴量比較部60は、特徴量抽出部20から送られる特徴量データVが示す特徴量と、情報取得部50から送られた平均特徴量データVAが示す特徴量との距離を求め、この距離が情報取得部50から送られた閾値tよりも大きいか小さいかを見ることにより、話者が登録されている個人であるか否かを判定する。そして、特徴量比較部60は、比較結果を示す結果データを表示部108へ送る。表示部108では、送られた結果データが示す結果に基づいて、話者が登録されている個人であるか否かを表示する。
When the identifier is sent from the information input unit 107, the information acquisition unit 50 reads the threshold value t and the average feature value data VA stored in the registration table TB1 in association with the sent identifier, and reads the read threshold value t And the average feature amount data VA are sent to the feature amount comparison unit 60.
The feature amount comparison unit 60 obtains a distance between the feature amount indicated by the feature amount data V sent from the feature amount extraction unit 20 and the feature amount indicated by the average feature amount data VA sent from the information acquisition unit 50, and this distance Is larger or smaller than the threshold value t sent from the information acquisition unit 50, it is determined whether or not the speaker is a registered individual. Then, the feature amount comparison unit 60 sends result data indicating the comparison result to the display unit 108. The display unit 108 displays whether or not the speaker is a registered individual based on the result indicated by the transmitted result data.

[実施形態の動作]
次に本実施形態の動作について説明する。なお以下の説明においては、まず登録時の動作について説明し、次に照合時の動作について説明する。
[Operation of the embodiment]
Next, the operation of this embodiment will be described. In the following description, the operation during registration will be described first, and then the operation during verification will be described.

[登録時の動作]
まず、音声の特徴量を登録しようとする者(以下、登録者と称する)は、情報入力部107を操作し、表示部108に表示されたメニュー画面(図8参照)の「登録ボタン」をクリックする操作を行う。登録ボタンをクリックする操作が行われると、表示部108には識別子の入力を促す画面(図9参照)が表示される(図4:ステップS10)。この後、登録者を一意に識別する識別子が入力され、画面に表示された決定ボタンをクリックする操作が行われると(ステップS11;YES)、登録者が所定の言葉を発音した回数を示すカウンタnが初期化(n=0)される(ステップS12)。そして、所定の言葉(例えば、登録者の氏名等)を発音するように要求する画面(図10参照)が表示され(ステップS13)、入力された識別子がRAM104に記憶される。
[Operation during registration]
First, a person who intends to register a voice feature amount (hereinafter referred to as a registrant) operates the information input unit 107 and clicks the “registration button” on the menu screen (see FIG. 8) displayed on the display unit 108. Perform a click operation. When an operation of clicking the registration button is performed, a screen (see FIG. 9) prompting the input of an identifier is displayed on the display unit 108 (FIG. 4: step S10). Thereafter, when an identifier for uniquely identifying the registrant is input and an operation of clicking the enter button displayed on the screen is performed (step S11; YES), a counter indicating the number of times the registrant has pronounced a predetermined word. n is initialized (n = 0) (step S12). Then, a screen (see FIG. 10) requesting to pronounce a predetermined word (for example, the name of the registrant) is displayed (step S13), and the input identifier is stored in the RAM 104.

図10に例示した画面が表示された後、登録者は所定の言葉を発音する。登録者が発した音声が音声入力部106に入力されると、入力された音声の音声データが音声入力部106から出力される。CPU102は、音声データが出力されると(ステップS14;YES)、音声部分のみを発話区間として抽出し、無音の部分や音声以外の音の部分を除去した音声データを生成する(ステップS15)。そしてCPU102は、ステップS15で生成された音声データが表す音声の特徴量を抽出し、抽出した特徴量を示す特徴量データVを生成する(ステップS16)。次にCPU102は、カウンタnの値に1を加え(ステップS17)、生成した特徴量データVを記憶部105のバッファ領域A1に記憶する(ステップS18)。なお、バッファ領域A1に特徴量データVを記憶する際には、図11に例示したように、配列V[n](nはカウンタnの値)に記憶する。   After the screen illustrated in FIG. 10 is displayed, the registrant pronounces a predetermined word. When voice uttered by the registrant is input to the voice input unit 106, voice data of the input voice is output from the voice input unit 106. When the voice data is output (step S14; YES), the CPU 102 extracts only the voice part as an utterance section, and generates voice data from which a silent part or a sound part other than the voice is removed (step S15). Then, the CPU 102 extracts the feature amount of the voice represented by the voice data generated in step S15, and generates feature amount data V indicating the extracted feature amount (step S16). Next, the CPU 102 adds 1 to the value of the counter n (step S17), and stores the generated feature amount data V in the buffer area A1 of the storage unit 105 (step S18). Note that when the feature amount data V is stored in the buffer area A1, it is stored in the array V [n] (n is the value of the counter n) as illustrated in FIG.

CPU102は、特徴量データVをバッファ領域A1に記憶させると、登録者が所定の言葉を所定回数(所定値N回)発音したか否かを判断する(ステップS19)。CPU102は、カウンタnの値が所定値Nであるか否かを判断し、カウンタnの値が所定値N未満である場合には(ステップS19;NO)、図10の画面における「登録完了までに行う発音の回数」の部分の数値を所定値N−カウンタnの値に変更して表示し、所定の言葉の発音を要求する。一方、カウンタnの値が所定値Nとなった場合には(ステップS19;YES)、次の処理を行う。   When CPU 102 stores feature amount data V in buffer area A1, CPU 102 determines whether or not a registrant has pronounced a predetermined word a predetermined number of times (predetermined value N times) (step S19). The CPU 102 determines whether or not the value of the counter n is a predetermined value N. If the value of the counter n is less than the predetermined value N (step S19; NO), the “until registration is completed” on the screen of FIG. The numerical value of the “number of pronunciations to be performed” is changed to a predetermined value N−the value of the counter n and displayed, and the pronunciation of a predetermined word is requested. On the other hand, when the value of the counter n reaches the predetermined value N (step S19; YES), the following processing is performed.

次にCPU102は、記憶された特徴量データVが示す特徴量毎に他の各特徴量データが示す特徴量との距離を求め、求めた距離の平均値を求める処理を行う。まずCPU102は、カウンタiの値を初期化(i=1)し(図5:ステップS20)、距離D[i]の値を初期化(D[i]=0)する(ステップS21)。次にCPU102は、カウンタjの値を初期化し(j=1)(ステップS22)、特徴量データV[i]が示す特徴量(iはカウンタiの値)と特徴量データV[j]が示す特徴量(jはカウンタjの値)との距離を求め、求めた距離を距離D[i]に格納されている値に加算する(ステップS23)。
CPU102はステップS23の処理が終了すると、カウンタjの値を1増加させ(ステップS24)、カウンタjの値が所定値Nとなったか否かを判断する(ステップS25)。CPU102は、カウンタjの値が所定値Nとなっていない場合には(ステップS25;NO)、カウンタjの値が所定値NとなるまでステップS23,ステップS24の処理を繰り返す。一方、カウンタjの値が所定値Nとなった場合には(ステップS25;YES)、距離D[i]の値をバッファ領域A1に記憶された特徴量データの数である前記所定値Nで除算し、特徴量データV[i]が示す特徴量と他の特徴量データが示す特徴量との距離の平均値を求め、求めた値を距離D[i]に格納する(ステップS26)。
Next, the CPU 102 obtains a distance from the feature quantity indicated by the other feature quantity data for each feature quantity indicated by the stored feature quantity data V, and performs processing for obtaining an average value of the obtained distances. First, the CPU 102 initializes the value of the counter i (i = 1) (FIG. 5: Step S20), and initializes the value of the distance D [i] (D [i] = 0) (Step S21). Next, the CPU 102 initializes the value of the counter j (j = 1) (step S22), and the feature quantity (i is the value of the counter i) indicated by the feature quantity data V [i] and the feature quantity data V [j] are obtained. The distance from the indicated feature quantity (j is the value of counter j) is obtained, and the obtained distance is added to the value stored in the distance D [i] (step S23).
When the process of step S23 ends, the CPU 102 increments the value of the counter j by 1 (step S24), and determines whether or not the value of the counter j has reached a predetermined value N (step S25). If the value of the counter j is not the predetermined value N (step S25; NO), the CPU 102 repeats the processes of steps S23 and S24 until the value of the counter j reaches the predetermined value N. On the other hand, when the value of the counter j becomes the predetermined value N (step S25; YES), the value of the distance D [i] is the predetermined value N that is the number of feature amount data stored in the buffer area A1. By dividing, an average value of the distance between the feature quantity indicated by the feature quantity data V [i] and the feature quantity indicated by the other feature quantity data is obtained, and the obtained value is stored in the distance D [i] (step S26).

CPU102は、ステップS26の処理が終了すると、カウンタiの値を1増加させ(ステップS27)、カウンタiの値が所定値Nとなったか否かを判断する(ステップS28)。CPU102は、カウンタiの値が所定値Nとなっていない場合には(ステップS28;NO)、カウンタiの値が所定値NとなるまでステップS21〜ステップS27の処理を繰り返す。   When the process of step S26 ends, the CPU 102 increments the value of the counter i by 1 (step S27), and determines whether or not the value of the counter i has reached a predetermined value N (step S28). When the value of the counter i is not the predetermined value N (step S28; NO), the CPU 102 repeats the processing from step S21 to step S27 until the value of the counter i reaches the predetermined value N.

一方、カウンタiの値が所定値となった場合には(ステップS28;YES)、まずCPU102は、カウンタiの値を初期化(i=1)する(図6:ステップS29)。そして、CPU102はステップS21〜ステップS28の処理で求めた距離の平均値D[i]と、距離の限界閾値Tとを比較する(ステップS30)。ここで、限界閾値Tは予め定められた固定値である。
CPU102は、距離の平均値D[i]が限界閾値T未満である場合には(ステップS30:NO)、ステップS33へ処理を進める。一方、CPU102は、距離の平均値D[i]が限界閾値T以上の場合には(ステップS30;YES)、バッファ領域A1から特徴量データV[i]を消去する(ステップS31)。
On the other hand, when the value of the counter i becomes a predetermined value (step S28; YES), the CPU 102 first initializes the value of the counter i (i = 1) (FIG. 6: step S29). Then, the CPU 102 compares the distance average value D [i] obtained in the processes of steps S21 to S28 with the distance limit threshold T (step S30). Here, the limit threshold T is a predetermined fixed value.
When the average distance value D [i] is less than the limit threshold T (step S30: NO), the CPU 102 advances the process to step S33. On the other hand, when the average distance value D [i] is greater than or equal to the limit threshold T (step S30; YES), the CPU 102 deletes the feature amount data V [i] from the buffer area A1 (step S31).

次にCPU102は、ステップS13〜ステップS19の処理によって値がNとなったカウンタnから1を減算し、減算結果をカウンタnの値とする(ステップS32)。そしてCPU102は、カウンタiの値を1増加させ(ステップS33)、カウンタiの値が所定値Nとなったか否かを判断する(ステップS34)。CPU102は、カウンタiの値が所定値Nとなっていない場合には(ステップS34;NO)、カウンタiの値が所定値NとなるまでステップS30〜ステップS33の処理を繰り返す。   Next, the CPU 102 subtracts 1 from the counter n whose value has become N by the processing of steps S13 to S19, and sets the subtraction result as the value of the counter n (step S32). Then, the CPU 102 increments the value of the counter i by 1 (step S33), and determines whether or not the value of the counter i has reached a predetermined value N (step S34). When the value of the counter i is not the predetermined value N (step S34; NO), the CPU 102 repeats the processing from step S30 to step S33 until the value of the counter i reaches the predetermined value N.

一方、カウンタiの値が所定値Nとなった場合には(ステップS34;YES)、カウンタnの値が所定値Nと同じであるか判断する(ステップS35)。ここで、CPU102は、カウンタnの値が所定値Nと同じでない場合には(ステップS30〜ステップS34の処理において、バッファ領域A1に記憶された特徴量データVを消去した場合)、図12に例示したように、バッファ領域A1に記憶された特徴量データの並べ替えを行った後(ステップS36)、ステップS13へ処理の流れを戻す。   On the other hand, when the value of the counter i becomes the predetermined value N (step S34; YES), it is determined whether the value of the counter n is the same as the predetermined value N (step S35). Here, when the value of the counter n is not the same as the predetermined value N (when the feature value data V stored in the buffer area A1 is deleted in the processing of step S30 to step S34), the CPU 102 returns to FIG. As illustrated, after the feature amount data stored in the buffer area A1 is rearranged (step S36), the process flow is returned to step S13.

一方、CPU102は、カウンタnの値が所定値Nと同じである場合には(ステップS35;YES)、閾値tの値を初期化(t=0)し(図7:ステップS37)、カウンタiの値を初期化(i=1)する(ステップS38)。次にCPU102は、特徴量データV[i]以外の特徴量データを平均化したデータVaを求める(ステップS39)。そして、特徴量データV[i]が示す特徴量と、データVaが示す特徴量の距離D[i]を求め(ステップS40)、求めた距離D[i]が閾値tより大きいか判断する(ステップS41)。
ここで、CPU102は、閾値tの値が距離D[i]の値未満である場合には(ステップS41;YES)、閾値t=距離D[i]とする(ステップS42)。一方、CPU102は、閾値tの値が距離D[i]の値以上である場合には(ステップS41;NO)、ステップS43へ処理を進める。
On the other hand, when the value of the counter n is the same as the predetermined value N (step S35; YES), the CPU 102 initializes the value of the threshold t (t = 0) (FIG. 7: step S37), and the counter i Is initialized (i = 1) (step S38). Next, the CPU 102 obtains data Va obtained by averaging feature amount data other than the feature amount data V [i] (step S39). Then, a distance D [i] between the feature amount indicated by the feature amount data V [i] and the feature amount indicated by the data Va is obtained (step S40), and it is determined whether the obtained distance D [i] is larger than the threshold value t (step S40). Step S41).
Here, when the value of the threshold value t is less than the value of the distance D [i] (step S41; YES), the CPU 102 sets the threshold value t = distance D [i] (step S42). On the other hand, when the value of the threshold value t is greater than or equal to the value of the distance D [i] (step S41; NO), the CPU 102 advances the process to step S43.

次にCPU102は、カウンタiの値を1増加させ(ステップS43)、カウンタiの値が所定値Nとなったか否かを判断する(ステップS44)。CPU102は、カウンタiの値が所定値Nとなっていない場合には(ステップS44;NO)、カウンタiの値が所定値となるまでステップS39〜ステップS43の処理を繰り返す。一方、カウンタiの値が所定値Nである場合には(ステップS44;YES)、CPU102は、バッファ領域A1に記憶されている特徴量データVの平均値である平均特徴量データVAを求める(ステップS45)。そして、情報入力部107から入力された識別子と、ステップS45で求めた平均特徴量データVAと、ステップS38〜ステップS44の処理で求めた閾値tとを対応付けて登録テーブルTB1に格納する(ステップS46)。なお、CPU102は、閾値tと平均特徴量データVAとを格納する際、情報入力部107から入力された識別子が既に登録テーブルTB1にある場合には、既に格納されている識別子に対応付けて格納されている閾値tと平均特徴量データVAとを新たに求めた閾値tと平均特徴量データVAとに更新し、情報入力部107から入力された識別子が登録テーブルTB1に格納されていない場合には、入力された識別子と閾値tおよび平均特徴量データVAとを新たに登録テーブルTB1に格納する。   Next, the CPU 102 increments the value of the counter i by 1 (step S43), and determines whether or not the value of the counter i has reached a predetermined value N (step S44). When the value of the counter i is not the predetermined value N (step S44; NO), the CPU 102 repeats the processing from step S39 to step S43 until the value of the counter i becomes the predetermined value. On the other hand, when the value of the counter i is the predetermined value N (step S44; YES), the CPU 102 obtains average feature value data VA that is an average value of the feature value data V stored in the buffer area A1 ( Step S45). Then, the identifier input from the information input unit 107, the average feature value data VA obtained in step S45, and the threshold value t obtained in the processing in steps S38 to S44 are stored in association in the registration table TB1 (step S46). When the CPU 102 stores the threshold value t and the average feature value data VA, if the identifier input from the information input unit 107 is already in the registration table TB1, the CPU 102 stores it in association with the already stored identifier. When the threshold value t and the average feature value data VA are updated to the newly obtained threshold value t and the average feature value data VA, and the identifier input from the information input unit 107 is not stored in the registration table TB1 Stores the input identifier, the threshold value t, and the average feature amount data VA in the registration table TB1.

以上説明したように本実施形態によれば、登録者の音声の平均的な特徴量が登録者の音声の特徴量として記憶される。また、話者が予め登録されている個人であるか否かを判断する際に用いる閾値は、登録者の音声の特徴量を基にして登録者毎に求められる。   As described above, according to the present embodiment, the average feature amount of the registrant's voice is stored as the feature amount of the registrant's voice. In addition, a threshold used when determining whether or not a speaker is an individual registered in advance is obtained for each registrant based on the feature amount of the registrant's voice.

[照合時の動作]
次に照合時の動作について説明する。まず、話者は情報入力部107を操作し、表示部108に表示されたメニュー画面(図8参照)の「話者判定ボタン」をクリックする操作を行う。話者判定ボタンをクリックする操作が行われると、表示部108には識別子の入力を促す画面(図9参照)が表示される(図13:ステップS50)。この後、話者により識別子が入力され、画面に表示された決定ボタンをクリックする操作が行われると(ステップS51)、入力された識別子がRAM104に記憶される。
[Operation during verification]
Next, the operation at the time of collation will be described. First, the speaker operates the information input unit 107 and performs an operation of clicking the “speaker determination button” on the menu screen (see FIG. 8) displayed on the display unit 108. When an operation for clicking the speaker determination button is performed, a screen (see FIG. 9) prompting the input of an identifier is displayed on the display unit 108 (FIG. 13: step S50). Thereafter, when an identifier is input by the speaker and an operation of clicking the enter button displayed on the screen is performed (step S51), the input identifier is stored in the RAM 104.

この後、CPU102は、RAM104に記憶された識別子を登録テーブルTB1において検索する(ステップS52)。ここで、RAM104に記憶された識別子と同じ識別子が見つからなかった場合には(ステップS53;NO)、CPU102は、識別子が登録されていない旨のメッセージを表示部108に表示させて(ステップS54)処理を終了する。一方、CPU102は、RAM104に記憶された識別子と同じ識別子を見つけた場合には(ステップS53;YES)、検索した識別子に対応付けて登録テーブルTB1に格納されている閾値tと平均特徴量データVAとを読み出す(ステップS55)。そして、所定の言葉(例えば、登録者の氏名等)の発音を要求する画面を表示し(ステップS56)、音声が入力されるのを待つ(ステップS57)。   Thereafter, the CPU 102 searches the registration table TB1 for the identifier stored in the RAM 104 (step S52). Here, when the same identifier as the identifier stored in the RAM 104 is not found (step S53; NO), the CPU 102 causes the display unit 108 to display a message indicating that the identifier is not registered (step S54). The process ends. On the other hand, when the CPU 102 finds the same identifier as the identifier stored in the RAM 104 (step S53; YES), the threshold t and the average feature amount data VA stored in the registration table TB1 in association with the retrieved identifier. Are read (step S55). Then, a screen requesting pronunciation of a predetermined word (for example, the name of the registrant) is displayed (step S56), and the input of voice is waited (step S57).

この後、話者が所定の言葉を発音し、話者が発した音声が音声入力部106に入力されると(ステップS57;YES)、入力された音声の音声データが音声入力部106から出力される。CPU102は、この音声データのうち、音声部分のみを発話区間として抽出し、無音の部分や音声以外の音の部分を除去した音声データを生成する(ステップS58)。そしてCPU102は、ステップS58で生成された音声データが表す音声の特徴量を抽出し、抽出した特徴量を示す特徴量データVを生成する(ステップS59)。   Thereafter, when the speaker pronounces a predetermined word and the voice uttered by the speaker is input to the voice input unit 106 (step S57; YES), the voice data of the input voice is output from the voice input unit 106. Is done. The CPU 102 extracts only the voice part from the voice data as an utterance section, and generates voice data from which a silent part and a sound part other than the voice are removed (step S58). Then, the CPU 102 extracts the feature amount of the voice represented by the voice data generated in step S58, and generates feature amount data V indicating the extracted feature amount (step S59).

次にCPU102は、特徴量データVが表す特徴量と平均特徴量データVAが表す特徴量との距離を求める(ステップS60)。そして、求めた距離が登録テーブルTB1から読み出した閾値t以下である場合(特徴量データVと平均特徴量データVAの距離が近い場合)には(ステップS61;YES)、CPU102は話者が登録者であると判断し、判断結果を表示部108に表示させる(ステップS62)。一方、求めた距離が登録テーブルTB1から読み出した閾値tより大きい場合(特徴量データVと平均特徴量データVAの距離が遠い場合)には(ステップS61;NO)、CPU102は話者が登録者ではないと判断し、判断結果を表示部108に表示させる(ステップS63)。   Next, the CPU 102 obtains a distance between the feature amount represented by the feature amount data V and the feature amount represented by the average feature amount data VA (step S60). When the obtained distance is equal to or less than the threshold value t read from the registration table TB1 (when the distance between the feature data V and the average feature data VA is close) (step S61; YES), the CPU 102 registers the speaker. The determination result is displayed on the display unit 108 (step S62). On the other hand, when the obtained distance is larger than the threshold value t read from the registration table TB1 (when the distance between the feature data V and the average feature data VA is far) (step S61; NO), the CPU 102 indicates that the speaker is a registered person. The determination result is displayed on the display unit 108 (step S63).

以上説明したように本実施形態によれば、記憶されている登録者の音声の平均的な特徴量を基にし、登録者固有の閾値を用いて話者の認識が行われるので、登録されている個人が発音した際に、登録されている人物ではないと判断される可能性が低くなる。   As described above, according to the present embodiment, the speaker is recognized using the threshold value unique to the registrant based on the stored average feature amount of the registrant's voice. When a certain person pronounces, the possibility that the person is not registered is reduced.

[変形例]
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。例えば、上述の実施形態を以下のように変形して本発明を実施してもよい。
[Modification]
As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above, It can implement with another various form. For example, the present invention may be implemented by modifying the above-described embodiment as follows.

パーソナルコンピュータ装置にマイクロホンを接続し、上述したプログラムをパーソナルコンピュータ装置において実行することにより、パーソナルコンピュータ装置で話者の認識を行うようにしてもよい。また、パーソナルコンピュータ装置だけではなく、マイクロホンを備えたPDA(Personal Digital Assistance)や携帯電話機等において上述したプログラムを実行させ、話者の認識を行うようにしてもよい。   A microphone may be connected to the personal computer device, and the above-described program may be executed on the personal computer device to recognize the speaker on the personal computer device. In addition to the personal computer device, the above-described program may be executed by a PDA (Personal Digital Assistance) equipped with a microphone, a mobile phone, or the like to recognize a speaker.

上述した実施形態においては、閾値tは音声の特徴量のみから算出しているが、音声照合装置の使用環境やマイクロホンの性能に合わせて閾値tに所定の定数を加算するようにしてもよい。
また、上述した実施形態において音声照合装置は、閾値tを算出せず平均特徴量データVAのみを算出するようにしてもよい。この場合には、閾値tは情報入力部107から入力するようにしてもよい。
また、上述した実施形態においては、ステップS35の処理を行わず、ステップS34の後、ステップS37の処理を実行するようにしてもよい。
In the above-described embodiment, the threshold value t is calculated from only the voice feature amount, but a predetermined constant may be added to the threshold value t in accordance with the use environment of the voice matching device and the performance of the microphone.
In the above-described embodiment, the speech collation apparatus may calculate only the average feature amount data VA without calculating the threshold value t. In this case, the threshold value t may be input from the information input unit 107.
In the embodiment described above, the process of step S35 may be performed after step S34 without performing the process of step S35.

本発明の実施形態に係る音声照合装置のハードウェア構成を示したブロック図である。It is the block diagram which showed the hardware constitutions of the speech collation apparatus which concerns on embodiment of this invention. 登録テーブルTB1のフォーマットを例示した図である。It is the figure which illustrated the format of registration table TB1. CPU102が行う処理についての機能構成を示した機能ブロック図である。It is the functional block diagram which showed the function structure about the process which CPU102 performs. 登録時にCPU102が行う処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the process which CPU102 performs at the time of registration. 登録時にCPU102が行う処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the process which CPU102 performs at the time of registration. 登録時にCPU102が行う処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the process which CPU102 performs at the time of registration. 登録時にCPU102が行う処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the process which CPU102 performs at the time of registration. 表示部108に表示される画面を例示した図である。6 is a diagram illustrating a screen displayed on the display unit 108. FIG. 表示部108に表示される画面を例示した図である。6 is a diagram illustrating a screen displayed on the display unit 108. FIG. 表示部108に表示される画面を例示した図である。6 is a diagram illustrating a screen displayed on the display unit 108. FIG. バッファ領域に記憶されるデータのイメージを例示した図である。It is the figure which illustrated the image of the data memorize | stored in a buffer area. バッファ領域に記憶されたデータの並べ替えを説明するための図である。It is a figure for demonstrating rearrangement of the data memorize | stored in the buffer area | region. 照合時にCPU102が行う処理の流れを示すフローチャートである。It is a flowchart which shows the flow of the process which CPU102 performs at the time of collation.

符号の説明Explanation of symbols

10・・・発話区間抽出部、20・・・特徴量抽出部、30・・・発話選択部、40・・・情報作成部、50・・・情報取得部、60・・・特徴量比較部、101・・・バス、102・・・CPU、103・・・ROM、104・・・RAM、105・・・記憶部、106・・・音声入力部、107・・・情報入力部、108・・・表示部。 DESCRIPTION OF SYMBOLS 10 ... Utterance section extraction part, 20 ... Feature-value extraction part, 30 ... Speech selection part, 40 ... Information preparation part, 50 ... Information acquisition part, 60 ... Feature-value comparison part 101 ... Bus, 102 ... CPU, 103 ... ROM, 104 ... RAM, 105 ... Storage unit, 106 ... Voice input unit, 107 ... Information input unit, 108. ..Display section.

Claims (1)

音声の特徴量を記憶した記憶部に記憶されている特徴量であって入力された識別子に対応付けて前記記憶部に記憶されている特徴量と、入力された音声の特徴量との距離が予め定められた閾値以下である場合に、入力された音声の発音者が登録者であると認識する話者認識方法であって、
発音者を一意に識別する識別子が入力される識別子入力ステップと、
発音者の音声が複数回入力される音声入力ステップと、
前記音声入力ステップにて複数回入力された音声毎に該音声の特徴量を求め、求めた複数の特徴量を前記記憶部に記憶させる複数特徴量記憶ステップと、
前記複数特徴量記憶ステップによって前記記憶部に記憶された各特徴量のうち、前記複数特徴量記憶ステップによって共に記憶された他の特徴量との距離が所定値以上に大きな特徴量を前記記憶部から消去する消去ステップと、
前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量の平均値を求める平均特徴量算出ステップと、
前記消去ステップの後のステップであって、前記複数特徴量記憶ステップにより前記記憶部に記憶された特徴量毎に、前記複数特徴量記憶ステップによって共に記憶された他の複数特徴量の平均値との距離を求め、求めた距離の最大値を閾値とする閾値算出ステップと、
前記識別子入力ステップにて入力された識別子と、前記平均特徴量算出ステップによって求められた平均値と、前記閾値算出ステップにより求められた閾値とを対応付けて、前記発音者の音声の特徴量として前記記憶部に記憶させる特徴量記憶ステップと
を有する話者認識方法。
The distance between the feature quantity stored in the storage unit in association with the input identifier and the feature quantity stored in the storage unit storing the voice feature quantity and the input voice feature quantity is A speaker recognition method for recognizing that an input voice pronunciation person is a registrant when a predetermined threshold value or less,
An identifier input step in which an identifier for uniquely identifying a pronunciation is input;
A voice input step in which the voice of the pronunciation is input multiple times;
A feature amount storage step of obtaining a feature amount of the sound for each sound input a plurality of times in the sound input step, and storing the determined feature amounts in the storage unit;
Among the feature quantities stored in the storage unit by the multiple feature quantity storage step, a feature quantity whose distance from the other feature quantities stored together by the multiple feature quantity storage step is larger than a predetermined value is stored in the storage unit An erasure step to erase from,
An average feature amount calculating step for obtaining an average value of the feature amounts stored in the storage unit by the plurality of feature amount storing steps after the erasing step;
After the erasing step, for each feature quantity stored in the storage unit by the multiple feature quantity storage step, an average value of other multiple feature quantities stored together by the multiple feature quantity storage step and A threshold calculation step using the maximum value of the calculated distance as a threshold,
The identifier input in the identifier input step, the average value obtained in the average feature amount calculating step, and the threshold value obtained in the threshold value calculating step are associated with each other as the sound feature amount of the sound generator. A speaker recognition method comprising: a feature amount storage step stored in the storage unit.
JP2005191892A 2005-06-30 2005-06-30 Speaker recognition method Expired - Fee Related JP4254753B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005191892A JP4254753B2 (en) 2005-06-30 2005-06-30 Speaker recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005191892A JP4254753B2 (en) 2005-06-30 2005-06-30 Speaker recognition method

Publications (2)

Publication Number Publication Date
JP2007010995A JP2007010995A (en) 2007-01-18
JP4254753B2 true JP4254753B2 (en) 2009-04-15

Family

ID=37749594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005191892A Expired - Fee Related JP4254753B2 (en) 2005-06-30 2005-06-30 Speaker recognition method

Country Status (1)

Country Link
JP (1) JP4254753B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106025A1 (en) * 2006-03-24 2009-04-23 Pioneer Corporation Speaker model registering apparatus and method, and computer program
JP6087542B2 (en) * 2012-08-31 2017-03-01 綜合警備保障株式会社 Speaker recognition device, speaker recognition method, and speaker recognition program
DE102016203987A1 (en) * 2016-03-10 2017-09-14 Sivantos Pte. Ltd. Method for operating a hearing device and hearing aid

Also Published As

Publication number Publication date
JP2007010995A (en) 2007-01-18

Similar Documents

Publication Publication Date Title
JP6596376B2 (en) Speaker identification method and speaker identification apparatus
JP6394709B2 (en) SPEAKER IDENTIFYING DEVICE AND FEATURE REGISTRATION METHOD FOR REGISTERED SPEECH
US7680658B2 (en) Method and apparatus for speech recognition
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP5706384B2 (en) Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program
WO2008069139A1 (en) Speech recognition system and speech recognition system program
JP2010152751A (en) Statistic model learning device, statistic model learning method and program
JP5743976B2 (en) Information processing apparatus, program, and information processing method
JP2004101901A (en) Speech interaction system and speech interaction program
CN110706714A (en) Speaker model creation system
JPWO2018047421A1 (en) Voice processing apparatus, information processing apparatus, voice processing method, and information processing method
JP4967519B2 (en) Voice recognition device
JP4254753B2 (en) Speaker recognition method
JP6233867B2 (en) Dictionary registration system for speech recognition, speech recognition system, speech recognition service system, method and program
US20030055642A1 (en) Voice recognition apparatus and method
JP5238395B2 (en) Language model creation apparatus and language model creation method
CN113539234B (en) Speech synthesis method, device, system and storage medium
JP2005140988A (en) Speech recognition device and method
JP2004053620A (en) Speech recognition device
JP4779365B2 (en) Pronunciation correction support device
JP4244524B2 (en) Voice authentication apparatus, voice authentication method, and program
JP2002215184A (en) Speech recognition device and program for the same
WO2006027844A1 (en) Speaker collator
JP4877112B2 (en) Voice processing apparatus and program
CN110580905A (en) Identification device and method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4254753

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees