JP6087542B2 - Speaker recognition device, speaker recognition method, and speaker recognition program - Google Patents
Speaker recognition device, speaker recognition method, and speaker recognition program Download PDFInfo
- Publication number
- JP6087542B2 JP6087542B2 JP2012192394A JP2012192394A JP6087542B2 JP 6087542 B2 JP6087542 B2 JP 6087542B2 JP 2012192394 A JP2012192394 A JP 2012192394A JP 2012192394 A JP2012192394 A JP 2012192394A JP 6087542 B2 JP6087542 B2 JP 6087542B2
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- registration
- speaker
- input
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Alarm Systems (AREA)
- Image Analysis (AREA)
Description
この発明は、音声データに基づいて該音声データの話者を認識する話者認識装置、話者認識方法及び話者認識プログラムに関する。 The present invention relates to a speaker recognition device, a speaker recognition method, and a speaker recognition program for recognizing a speaker of voice data based on voice data.
従来、音声データに基づいて該音声データの話者を認識する技術が知られている。例えば、特許文献1は、照合対象者の音声データから予め登録モデルデータを生成して格納し、入力音声データを分析した音声分析データと登録モデルデータとを照合処理することで、入力音声データの話者が照合対象者であるか否かを判定する話者認識システムを開示している。 Conventionally, a technique for recognizing a speaker of voice data based on the voice data is known. For example, Patent Document 1 generates and stores registered model data in advance from voice data of a person to be collated, and collates voice analysis data obtained by analyzing the input voice data with the registered model data. A speaker recognition system for determining whether or not a speaker is a verification target is disclosed.
しかしながら、上述した従来の技術では、登録モデルデータを構築するために、長時間発声された音声を学習する必要があり、また、モデルの構築並びにモデルを用いた話者認識時に複雑な演算を必要とするため、安価に高速な処理を行なうことが困難であるという問題点があった。 However, in the above-described conventional technology, it is necessary to learn long-spoken speech in order to construct registered model data, and complicated calculations are required during model construction and speaker recognition using the model. Therefore, there is a problem that it is difficult to perform high-speed processing at low cost.
また、上述した従来の技術では、照合対象者1人ずつのモデルを個別に構築しているが、照合対象者1人ずつのモデルを個別に構築するためには、各照合対象者の音声を別々に採取する必要があるため、照合対象者の登録が煩雑になるという問題点があった。 In addition, in the conventional technology described above, a model for each person to be collated is individually constructed. However, in order to individually construct a model for each person to be collated, the voices of each person to be collated are used. Since it is necessary to collect them separately, there is a problem that registration of a person to be verified becomes complicated.
また、上述した従来の技術では、一連の発話をN個のフレームに分割し、それぞれ算出した特徴パラメータを平均した値を指標としているため、一連の発話が完了した後で話者認識を行なうこととなり、認識までに時間を要するという問題点があった。 In the above-described conventional technique, since a series of utterances is divided into N frames and the average value of the calculated feature parameters is used as an index, speaker recognition is performed after the series of utterances is completed. Thus, there is a problem that it takes time to recognize.
このため、安価で高速な処理の実現、登録処理の簡易化、認識までの時間短縮等を実現し、話者認識の利便性を向上することが重要な課題となっていた。例えば、ホームセキュリティシステムの警備動作を利用者の音声により操作する場合を考えると、システム導入に要する費用を抑制するため、安価で高速な処理が求められる。また、操作権限の確認には、音声が複数の居住者のいずれかであることが判別できれば足り、複数の居住者の音声を一括して簡易に登録できることが求められる。さらに、話者をより早いタイミングで判別し、警備動作を速やかに制御することも求められる。 For this reason, it has been important to improve the convenience of speaker recognition by realizing inexpensive and high-speed processing, simplifying registration processing, shortening the time until recognition, and the like. For example, considering the case where the security operation of the home security system is operated by the user's voice, inexpensive and high-speed processing is required to suppress the cost required for system introduction. Moreover, it is sufficient for the confirmation of the operation authority that it is sufficient to determine that the voice is one of a plurality of residents, and it is required that the voices of the plurality of residents can be registered easily in a lump. Furthermore, it is also required to determine the speaker at an earlier timing and to quickly control the guard operation.
本発明は、上述した従来技術の課題を解決するためになされたものであって、登録及び認識に係る利便性を向上した話者認識装置、話者認識方法及び話者認識プログラムを提供することを目的とする。 The present invention has been made to solve the above-described problems of the prior art, and provides a speaker recognition device, a speaker recognition method, and a speaker recognition program that improve the convenience of registration and recognition. With the goal.
上述した課題を解決し、目的を達成するため、請求項1に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識装置であって、登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段とを備え、前記登録音声データは、複数の登録対象者の音声を含み、前記部分登録音声データは、各登録対象者の音声を含むよう複数切り出され、前記類似度算出手段は、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出し、前記認識手段は、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力することを特徴とする。
In order to solve the above-described problems and achieve the object, the invention described in claim 1 is a speaker recognition device for recognizing a speaker of the voice data based on the voice data. Similarity calculating means for calculating the similarity between the spectral envelope of the partially registered speech data cut out from the included registered speech data and the spectral envelope of the partially input speech data cut out from the input speech data to be recognized; Recognition means for recognizing a speaker of the input voice data based on the degree of similarity calculated by the degree calculation means, and the registered voice data includes voices of a plurality of registration subjects, and the partial registration voice data Are cut out so as to include the voices of each registration target person, and the similarity calculation means performs the partial input voice for each spectrum envelope of the plurality of partial registration voice data. Calculating a similarity between the spectral envelope of over data respectively, said recognition means, speaker of the input voice data matches one of said plurality of registered person, or the input speech data speaker plurality characterized that you outputs the recognition result of the does not match any of the registered person.
また、請求項2に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識装置であって、登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段とを備え、前記登録音声データは、複数の登録対象者の音声を含み、前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、前記認識手段は、前記登録音声データに対する前記部分入力音声データの距離を前記類似度として用いて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力することを特徴とする。
According to a second aspect of the present invention, there is provided a speaker recognition device for recognizing a speaker of voice data based on the voice data, and the partially registered voice cut out from the registered voice data including the voice of the registration target person. Similarity calculation means for calculating the similarity between the spectral envelope of the data and the spectral envelope of the partial input voice data cut out from the input voice data to be recognized, and based on the similarity calculated by the similarity calculation means Recognizing means for recognizing a speaker of the input voice data, wherein the registered voice data includes voices of a plurality of registration subjects, and the similarity calculation means is cut out from the same registered voice data. For a plurality of partial registration voice data, a feature parameter indicating a spectral envelope of each partial registration voice data and a characteristic indicating a spectral envelope of the partial input voice data The distance from the parameter is calculated as the degree of similarity of the partial input voice data with respect to each partial registration voice data, and the minimum distance of the partial input voice data with respect to each partial registration voice data is calculated as the minimum value. The distance of the partial input voice data with respect to the registered voice data is used, and the recognition means uses the distance of the partial input voice data with respect to the registered voice data as the similarity, so that a speaker of the input voice data can register the plurality of registration voice data. It matches any of the subjects, or the speaker of the input speech data and outputting a recognition result of not match any of the plurality of registered persons.
また、請求項3に記載の発明は、請求項1又は2に記載の発明において、前記類似度算出手段は、複数の前記登録音声データについて前記入力音声データに対する類似度をそれぞれ算出し、前記認識手段は、前記入力音声データの話者が、複数の前記登録音声データのうち前記入力音声データに対する類似度が最も高い前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると推定することを特徴とする。
The invention according to claim 3 is the invention according to claim 1 or 2, wherein the similarity calculation means calculates a similarity with respect to the input voice data for each of the plurality of registered voice data, and performs the recognition. The means estimates that the speaker of the input voice data matches one of a plurality of registration target persons included in the registered voice data having the highest similarity to the input voice data among the plurality of registered voice data. It is characterized by.
また、請求項4に記載の発明は、請求項1〜3のいずれか一つに記載の発明において、前記認識手段は、前記入力音声データに対する前記登録音声データの類似度が類似度閾値以上である場合に、前記入力音声データの話者が前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると判定することを特徴とする。
According to a fourth aspect of the present invention, in the invention according to any one of the first to third aspects, the recognition means has a similarity of the registered voice data to the input voice data equal to or greater than a similarity threshold. In some cases, it is determined that a speaker of the input voice data matches one of a plurality of registration target persons included in the registered voice data.
また、請求項5に記載の発明は、請求項1〜4のいずれか一つに記載の発明において、前記複数の登録対象者の音声を含む登録音声データから得られた複数の部分登録音声データのスペクトル包絡を、該スペクトル包絡を示す特徴パラメータの類似性に基づいて分類し、各分類について前記特徴パラメータの代表値を算出する分類手段をさらに備え、前記類似度算出手段は、前記部分入力音声データのスペクトル包絡を示す特徴パラメータと前記各分類の代表値との距離を算出し、前記代表値との距離が最小となる前記分類に属する各部分登録音声データを前記類似度の算出に使用することを特徴とする。
The invention according to claim 5 is the invention according to any one of claims 1 to 4, wherein the plurality of partial registration voice data obtained from the registration voice data including the voices of the plurality of registration subjects. And classifying means for calculating a representative value of the feature parameter for each classification, and the similarity calculation means includes the partial input speech. A distance between a characteristic parameter indicating a spectral envelope of data and a representative value of each classification is calculated, and each partially registered speech data belonging to the classification having a minimum distance from the representative value is used for calculating the similarity. It is characterized by that.
また、請求項6に記載の発明は、請求項1〜5のいずれか一つに記載の発明において、監視対象に対する監視動作を行なう監視手段と、前記入力音声データに含まれる単語を判別する単語判別手段と、前記認識手段による認識結果が所定の条件を満たした場合に、前記単語判別手段により判別された単語に基づいて前記監視手段の監視動作を制御する制御手段とをさらに備えたことを特徴とする。 The invention according to claim 6 is the invention according to any one of claims 1 to 5 , wherein the monitoring means for performing the monitoring operation on the monitoring target, and the word for determining the word included in the input voice data A discriminating unit; and a control unit that controls a monitoring operation of the monitoring unit based on a word discriminated by the word discriminating unit when a recognition result by the recognizing unit satisfies a predetermined condition. Features.
また、請求項7に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識方法であって、複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップとを含んだことを特徴とする。
また、請求項8に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識方法であって、複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出ステップと、前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップとを含んだことを特徴とする。
The invention according to claim 7 is a speaker recognition method for recognizing a speaker of the voice data based on the voice data, and each registration target person from the registered voice data including a plurality of registration target person voices. A part of the registered voice data that is extracted to include the voice of the registered voice data processing step for obtaining the spectral envelope of the extracted partial registered voice data, and the part of the input voice data that has been cut out from the input voice data to be recognized An input speech data processing step for obtaining a spectral envelope of the input speech data; and a similarity calculation step for calculating a similarity between the spectral envelopes of the partial input speech data for each of the plurality of partial registered speech data; Based on the similarity calculated in the similarity calculation step, a speaker of the input voice data Matches one of a plurality of registered person, or the speaker of the input voice data, characterized in that the containing and recognition step of outputting a recognition result of not match any of the plurality of registered persons.
The invention according to claim 8 is a speaker recognition method for recognizing a speaker of the voice data based on the voice data, and the partial registration voice data from the registered voice data including the voices of a plurality of registration subjects. A registered voice data processing step for obtaining a spectral envelope of the cut partial registered voice data, and an input for cutting the partial input voice data from the input voice data to be recognized and obtaining the spectral envelope of the cut partial input voice data A plurality of partially registered speech data extracted from the same registered speech data, a feature parameter indicating a spectral envelope of each partially registered speech data, and a feature parameter indicating a spectrum envelope of the partially input speech data The partial input voice data for each partial registered voice data Respectively, the minimum value of the distance of the partial input voice data with respect to each of the partial registered voice data is set as the distance of the partial input voice data with respect to the registered voice data, and the distance is set as the similarity. Based on the similarity calculation step to be output and the similarity calculated by the similarity calculation step, a speaker of the input voice data matches one of the plurality of registration target persons , or a story of the input voice data And a recognition step of outputting a recognition result that the person does not match any of the plurality of registration subjects .
また、請求項9に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出手順と、前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順とをコンピュータに実行させることを特徴とする。
また、請求項10に記載の発明は、音声データに基づいて該音声データの話者を認識する話者認識プログラムであって、複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出手順と、前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順とをコンピュータに実行させることを特徴とする。
The invention according to claim 9 is a speaker recognition program for recognizing a speaker of the voice data based on the voice data, and each registration target person from the registered voice data including voices of a plurality of registration target persons. A part of the registered speech data processing procedure for obtaining the spectral envelope of the segmented speech data that has been cut out so as to include the voice, and the portion that has been cut out from the input speech data to be recognized An input speech data processing procedure for obtaining a spectrum envelope of input speech data, and a similarity calculation procedure for calculating a similarity between each of the plurality of partial registered speech data and a spectrum envelope of the partial input speech data, on the basis of the similarity calculated by the similarity calculation procedure, Noboru speaker of the input voice data of the plurality It matches any of the subjects, or the speaker of the input voice data, characterized in that to perform the certified識手order and you outputs the recognition result of not match any of the plurality of registered person on the computer .
According to a tenth aspect of the present invention, there is provided a speaker recognition program for recognizing a speaker of the voice data based on the voice data, and the partial registration voice data from the registered voice data including voices of a plurality of registration subjects. A registered voice data processing procedure for obtaining a spectral envelope of the extracted partial registered voice data, and an input for extracting the partial input voice data from the input voice data to be recognized and obtaining the spectral envelope of the extracted partial input voice data For a plurality of partially registered speech data extracted from the same registered speech data, a feature parameter indicating a spectrum envelope of each partially registered speech data and a feature parameter indicating a spectrum envelope of the partially input speech data The partial input voice data for each partial registered voice data A similarity calculation procedure for calculating a minimum value of a distance to each of the partial registered voice data as a distance of the partial input voice data with respect to the registered voice data, and outputting the distance as a similarity And, based on the similarity calculated by the similarity calculation procedure, a speaker of the input speech data matches any of the plurality of registration subjects , or a speaker of the input speech data is registered in the plurality of registrations. It is characterized by causing a computer to execute a recognition procedure for outputting a recognition result indicating that it does not match any of the target persons .
本発明によれば、登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出し、該類似度に基づいて、入力音声データの話者を認識するので、登録及び認識に係る利便性を向上することができる。 According to the present invention, the similarity between the spectral envelope of the partially registered speech data extracted from the registered speech data including the speech of the person to be registered and the spectral envelope of the partially input speech data extracted from the input speech data to be recognized. Since the degree is calculated and the speaker of the input voice data is recognized based on the degree of similarity, the convenience of registration and recognition can be improved.
以下に、添付図面を参照して、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムの好適な実施例を詳細に説明する。以下に示す実施例1及び2では、本発明に係る話者認識装置、話者認識方法及び話者認識プログラムを住宅用のホームセキュリティシステムに適用した場合について説明する。 Exemplary embodiments of a speaker recognition device, a speaker recognition method, and a speaker recognition program according to the present invention will be described below in detail with reference to the accompanying drawings. In the following first and second embodiments, a case where the speaker recognition device, the speaker recognition method, and the speaker recognition program according to the present invention are applied to a home security system for a house will be described.
図1は、実施例1に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。図1に示すホームセキュリティシステムは、監視装置60にドア監視装置11、窓監視装置12、火災検知装置13及び話者認識装置30を接続し、話者認識装置30にマイクロホン20を接続した構成を有する。
FIG. 1 is a system configuration diagram illustrating a system configuration of the home security system according to the first embodiment. The home security system shown in FIG. 1 has a configuration in which the door monitoring device 11, the window monitoring device 12, the
ドア監視装置11は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置11は、ピッキングなどの侵入の試みを検知した場合には、監視装置60に対して報知を行なう。 The door monitoring device 11 is a device that monitors attempts to illegally enter a house door. When the door monitoring device 11 detects an intrusion attempt such as picking, the door monitoring device 11 notifies the monitoring device 60.
窓監視装置12は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置12は、窓に対する衝撃等を検知した場合には、監視装置60に対して報知を行なう。 The window monitoring device 12 is a device that monitors unauthorized attempts to enter a residential window. The window monitoring device 12 notifies the monitoring device 60 when it detects an impact or the like on the window.
火災検知装置13は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置13は、火災の発生を検知した場合には、監視装置60に対して報知を行なう。
The
マイクロホン20は、玄関等の出入口に設置され、音響信号を取得して話者認識装置30に出力する装置である。マイクロホン20は、常に動作し、音響信号の取得及び出力を行なう。なお、人感センサ等を用いて音響信号の取得のオンオフ切替をおこなってもよい。話者認識装置30は、任意の場所に設置可能である。また、マイクロホン20を話者認識装置30の筐体内に設けてもよい。
The microphone 20 is a device that is installed at an entrance such as an entrance, acquires an acoustic signal, and outputs it to the
話者認識装置30は、マイクロホン20が取得した音響信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置60に出力する。話者認識装置30は、話者認識部31及びテキスト判別部32を有し、監視装置60は、監視制御部33及び監視部34を有する。話者認識部31は、マイクロホン20が取得した音響信号から音声を切り出し、該音声が居住者の音声であるか否かを認識し、認識結果を監視装置60の監視制御部33に出力する。また、テキスト判別部32は、マイクロホン20が取得した音響信号から音声を切り出し、該音声内の単語をテキスト情報として監視装置60の監視制御部33に出力する。
The
監視制御部33は、話者認識部31により話者が居住者であると認識された場合に、テキスト判別部32から出力されたテキスト情報に基づいて、監視部34の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部34による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部34による監視動作を終了させる。
The
監視部34は、ドア監視装置11、窓監視装置12及び火災検知装置13の出力を用いて、住居の監視を行なう処理部である。具体的には、監視部34は、監視制御部33から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置11、窓監視装置12又は火災検知装置13から異常発生の報知を受けた場合には、警報動作を行なうとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部33から終了指示を受けた場合に終了する。
The monitoring unit 34 is a processing unit that monitors the dwelling using the outputs of the door monitoring device 11, the window monitoring device 12, and the
このように、本実施例1に係るホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行なうことが可能である。 As described above, in the home security system according to the first embodiment, the on / off control of the monitoring operation can be performed by the voice operation by recognizing the voice of the resident.
次に、図1に示した話者認識部31の内部構成について説明する。図2は、図1に示した話者認識部31の内部構成を示す内部構成図である。図2に示すように、話者認識部31は、AD変換部41、音声区間抽出部42、特徴パラメータ算出部43、切替部44、記憶部45、最小距離探索部46及び認識処理部47を有する。
Next, the internal configuration of the
AD変換部41は、マイクロホン20が取得した音響信号をアナログ信号からデジタル信号に変換し、音声区間抽出部42に出力する処理を行なう処理部である。
The
音声区間抽出部42は、AD変換部41によりデジタル信号に変換された音響信号から音声区間を抽出する処理部である。音声区間の抽出は、音響信号の信号パワーやゼロクロス数等に基づいて行なうことができる。
The voice
特徴パラメータ算出部43は、音声区間抽出部42から出力された音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する処理部である。特徴パラメータの算出手法としては、LPC(Linear Predictive Coding)ケプストラム係数や、MFCC(Mel-Frequency Cepstrum Coefficient)等の任意の手法を用いることができる。
The feature
切替部44は、話者認識部31の動作モードを切り替える処理部である。話者認識部31の動作モードには、登録モードと認識モードとがある。切替部44により登録モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、記憶部45に登録データとして格納される。一方、切替部44により認識モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、入力データとして最小距離探索部46に出力される。
The switching unit 44 is a processing unit that switches the operation mode of the
記憶部45は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、登録データを記憶する。登録データは、登録処理の度に生成され、別データとして記憶される。図2では、記憶部45は、登録データR1及び登録データR2を記憶している。登録データに含まれる特徴パラメータは、単一の話者のもののみを含むものであってもよいし、複数の話者のものを含んでもよい。
The
最小距離探索部46は、入力データと各登録データとの距離の小ささを類似度の高さとして算出する処理部である。具体的には、登録データの特徴パラメータであるRは、
また、入力データの特徴パラメータは、
入力データと登録データRとの距離dは、
入力データに対して最も距離が小さい登録データIとその距離dは、
図2に示した認識処理部47は、話者識別部47aと、話者照合部47bとを有する。話者識別部47aは、入力データに対して最も距離が小さい登録データの話者が、入力音声データの話者と同一であると推定する。
The recognition processing unit 47 illustrated in FIG. 2 includes a speaker identification unit 47a and a
話者照合部47bは、入力データに対して最も距離が小さい登録データについて、その距離を照合閾値と比較し、距離が照合閾値以下である場合に、その登録データの話者と入力データの話者とが一致すると判定する。距離の小ささは、類似度の高さに対応するため、距離が照合閾値以下であることは、類似度が所定の類似度閾値以上であることを意味する。
The
次に、話者照合部47bが用いる照合閾値について説明する。図4は、話者照合部47bが用いる照合閾値について説明するための説明図である。照合閾値を求める際には、予め登録データ間で距離を算出し、図4(a)に示すように、同一の話者である場合の距離の分布である話者内距離分布と、異なる話者である場合の距離の分布である話者間距離分布とを求める。
Next, the verification threshold used by the
この話者内距離分布及び話者間距離分布から、図4(b)に示すように、話者を照合する際の誤り率が求められる。照合閾値を小さく、すなわち判定を厳しくすると、他人を誤って受け入れる他人受入率が低下するが、本人を誤って棄却する本人拒否率が増加する。そこで、他人受入率と本人拒否率が一致する値を照合閾値とすることが好適である。なお、必要に応じて、他人受入率を減らすなどの調整を照合閾値に対して行なってもよい。 From this intra-speaker distance distribution and inter-speaker distance distribution, as shown in FIG. 4 (b), an error rate when collating the speakers is obtained. If the collation threshold value is reduced, that is, the judgment is made stricter, the acceptance rate of others who mistakenly accept others decreases, but the rejection rate of falsely rejecting the principals increases. In view of this, it is preferable to set a value at which the acceptance rate of others and the rejection rate of the person coincide with each other as a collation threshold. If necessary, adjustments such as reducing the acceptance rate of others may be performed on the verification threshold.
次に、話者認識部31の処理手順について説明する。図5は、登録モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により登録モードに設定された状態で実行される。
Next, the processing procedure of the
まず、マイクロホン20が音響信号を取得する(ステップS101)。音声区間抽出部42は、マイクロホン20が取得した音響信号から音声区間を抽出する(ステップS102)。
First, the microphone 20 acquires an acoustic signal (step S101). The voice
特徴パラメータ算出部43は、音声区間の音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS103)。そして、算出した特徴パラメータを記憶部45に登録データとして蓄積し(ステップS104)、登録処理を終了する。
The feature
図6は、認識モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により認識モードに設定された状態で実行される。
FIG. 6 is a flowchart showing a processing procedure of the
まず、マイクロホン20が音響信号を取得する(ステップS201)。音声区間抽出部42は、マイクロホン20が取得した音響信号から音声区間を抽出する(ステップS202)。
First, the microphone 20 acquires an acoustic signal (step S201). The voice
特徴パラメータ算出部43は、音声区間の音声信号から複数の部分音声信号を切り出し、該音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS203)。
The feature
最小距離探索部46は、入力データと各登録データとの距離を算出し、入力データに対して最も距離が小さい登録データと、その距離を探索する(ステップS204)。認識処理部47は、入力データに対して最も距離が小さい登録データの話者が、入力音声データの話者と同一であると推定し、その距離が照合閾値以下である場合に登録データの話者と入力データの話者とが一致すると判定して(ステップS205)、推定及び判定の結果を監視制御部33に出力し(ステップS206)、認識処理を終了する。 The minimum distance search unit 46 calculates the distance between the input data and each registration data, and searches for the registration data having the smallest distance with respect to the input data and the distance (step S204). The recognition processing unit 47 estimates that the speaker of the registered data with the shortest distance from the input data is the same as the speaker of the input voice data, and if the distance is equal to or smaller than the matching threshold, It is determined that the speaker and the speaker of the input data match (step S205), the estimation and determination results are output to the monitoring control unit 33 (step S206), and the recognition process is terminated.
次に、本実施例に係る話者認識の実験結果について説明する。図7は、実施例1に係る話者認識の実験結果を説明するための説明図である。図7に示すように、登録データ(登録音声)の長さを5秒から20秒まで5秒刻みで4種類使用し、入力データ(入力音声)の長さを0.1秒から1.5秒まで0.1秒刻みで15種類使用して、話者識別及び話者照合実験を行った。音声の特徴パラメータ算出にはLPCケプストラム係数(分析フレーム長32ミリ秒、分析フレームシフト16ミリ秒、次数32)を使用し、話者照合における照合閾値は、本人拒否率と他人受入率とが同じになる距離とした。
Next, an experiment result of speaker recognition according to the present embodiment will be described. FIG. 7 is an explanatory diagram for explaining an experiment result of speaker recognition according to the first embodiment. As shown in FIG. 7, four types of registration data (registration voice) are used in increments of 5 seconds from 5 seconds to 20 seconds, and the length of input data (input voice) is 0.1 to 1.5 seconds. Speaker identification and speaker verification experiments were performed using 15 types in increments of 0.1 seconds to seconds. LPC cepstrum coefficients (
図7(a)は、話者識別の実験結果である。図7(a)に示すように、入力音声の発声時間長が0.1秒であれば、登録音声の発声時間長が5秒である場合に平均話者識別率が82%、登録音声の発声時間長が10秒である場合に平均話者識別率が86%、登録音声の発声時間長が15秒である場合に平均話者識別率が89%、登録音声の発声時間長が20秒である場合に平均話者識別率が91%となる。 FIG. 7A shows the experimental results of speaker identification. As shown in FIG. 7A, if the utterance time length of the input voice is 0.1 second, the average speaker identification rate is 82% when the utterance time length of the registered voice is 5 seconds, The average speaker identification rate is 86% when the utterance time length is 10 seconds, the average speaker identification rate is 89% when the utterance time length of the registered speech is 15 seconds, and the utterance time length of the registered speech is 20 seconds. In this case, the average speaker identification rate is 91%.
これらの平均話者識別率は、入力音声の発声時間長を長くすることで向上し、入力音声の発声時間長が0.7秒以上であれば、登録音声の発声時間長がいずれの値であっても平均話者識別率は99%以上となる。 These average speaker identification rates can be improved by increasing the utterance time length of the input speech. If the utterance time length of the input speech is 0.7 seconds or more, the utterance time length of the registered speech can be any value. Even if it exists, an average speaker identification rate will be 99% or more.
図7(b)は、話者照合の実験結果である。図7(b)に示すように、入力音声の発声時間長が0.1秒であれば、登録音声の発声時間長が5秒である場合に平均話者照合率が93.5%、登録音声の発声時間長が10秒である場合に平均話者照合率が94%、登録音声の発声時間長が15秒である場合に平均話者照合率が95%、登録音声の発声時間長が20秒である場合に平均話者照合率が95%となる。 FIG. 7B shows an experimental result of speaker verification. As shown in FIG. 7B, if the utterance time length of the input speech is 0.1 second, the average speaker verification rate is 93.5% when the utterance time length of the registered speech is 5 seconds, When the speech duration is 10 seconds, the average speaker verification rate is 94%, and when the registered speech duration is 15 seconds, the average speaker verification rate is 95% and the registration speech duration is In the case of 20 seconds, the average speaker verification rate is 95%.
これらの平均話者照合率は、入力音声の発声時間長を長くすることで向上し、入力音声の発声時間長が0.7秒以上であれば、登録音声の発声時間長がいずれの値であっても平均話者照合率は98%以上となる。 These average speaker verification rates are improved by increasing the utterance time length of the input speech. If the utterance time length of the input speech is 0.7 seconds or more, the utterance time length of the registered speech is any value. Even if it exists, an average speaker collation rate will be 98% or more.
このように、入力音声の発声時間長が0.7秒以上であれば、話者識別と話者照合の双方において、高い精度の認識が可能である。また入力音声の発声時間長が0.1秒から0.7秒の短時間の発話であったとしても、十分な認識精度が得られる。 As described above, when the utterance time length of the input voice is 0.7 seconds or more, high accuracy recognition is possible in both speaker identification and speaker verification. Further, even if the utterance time length of the input voice is a short utterance of 0.1 to 0.7 seconds, sufficient recognition accuracy can be obtained.
上述してきたように、本実施例1では、話者認識部31は、登録音声からフレーム単位で算出した特徴パラメータを保存しておき、入力音声の特徴パラメータとの最小距離の小ささを類似度の高さとして用いることから、予め統計モデル等を構築する必要がない。これにより、簡易な演算で話者認識をすることが可能となる。
As described above, in the first embodiment, the
また、登録音声のデータに複数の登録話者の音声が含まれている場合であっても、登録音声から切り出した複数のフレームのうち、入力音声に最も近いフレームとの距離を登録音声との距離として採用するので、該フレーム間では単一の登録話者との距離を求めたこととなる。そのため、入力音声の話者が登録音声に含まれる複数人のいずれかであるという認識をすることが可能である。 In addition, even if the registered voice data includes the voices of a plurality of registered speakers, the distance from the frame closest to the input voice among the plurality of frames cut out from the registered voice Since the distance is adopted, the distance to the single registered speaker is obtained between the frames. Therefore, it is possible to recognize that the speaker of the input voice is one of a plurality of persons included in the registered voice.
また、本実施例1では、入力音声の1フレームと、登録音声の全フレームとの最小距離を求め、入力音声のフレームが増えるごとに平均していくことから、入力音声のフレーム数が少ない、すなわち入力音声が短時間である場合にも、話者認識が可能である。そして、入力音声のフレーム数が増えれば、より高精度に話者認識が可能となる。 In the first embodiment, since the minimum distance between one frame of the input sound and all the frames of the registered sound is obtained and averaged every time the input sound frame increases, the number of frames of the input sound is small. That is, speaker recognition is possible even when the input speech is short. If the number of frames of input speech increases, speaker recognition can be performed with higher accuracy.
上記実施例1では、登録データの分析フレームを全て使用する場合について説明を行なったが、登録データの分析フレーム数が十分であるならば、その一部のみを使用することで処理を高速化することができる。そこで、本実施例2では、使用する分析フレームを選択することで効率的な処理を行なう話者認識について説明する。 In the first embodiment, the case where all the analysis frames of registration data are used has been described. However, if the number of analysis frames of registration data is sufficient, the processing speed is increased by using only a part of the analysis frames. be able to. Therefore, in the second embodiment, speaker recognition that performs efficient processing by selecting an analysis frame to be used will be described.
図8は、実施例2に係る話者認識部131の内部構成を示す内部構成図である。図8に示す記憶部45は、複数の話者の音声の特徴パラメータが含まれる可能性のある登録データをグループ登録データ群として格納し、単一の話者の音声のみが含まれる登録データを個人登録データ群として格納する。
FIG. 8 is an internal configuration diagram illustrating an internal configuration of the
また、話者認識部131は、登録処理部52及びクラスタ設定部53をさらに備えるとともに、最小距離探索部51の動作が実施例1に示した最小距離探索部46と異なる。その他の構成及び動作は、実施例1と同様であるので、同一の構成要素には同一の符号を付して説明を省略する。
The
登録処理部52は、認識処理部47の話者照合部47bにより入力データの話者が登録データの話者と一致すると判定された場合に、該入力データを個人登録データ群に属する登録データとして登録する処理部である。
When the
登録処理部52は、入力データの話者が、グループ登録データ群に属する登録データの話者と一致した場合には、該入力データを新規の登録データとして登録する。新規の登録データとするのは、グループ登録データ群に属する登録データは、複数の話者の音声を含む可能性があり、その中のいずれの話者の音声と一致したが判別できないためである。一方、認識処理に使用した入力データは、話者が単独であると推定できるので、かかる入力データは、個人登録データ群に属する登録データとして登録する。 When the speaker of the input data matches the speaker of the registration data belonging to the group registration data group, the registration processing unit 52 registers the input data as new registration data. The reason for the new registration data is that the registration data belonging to the group registration data group may include the voices of a plurality of speakers and cannot be discriminated although it matches the voices of any of the speakers. . On the other hand, since the input data used for the recognition process can be estimated as a single speaker, the input data is registered as registration data belonging to the personal registration data group.
登録処理部52は、入力データの話者が、個人登録データ群に属する登録データの話者と一致した場合には、該入力データを一致した登録データに追加して登録する。個人登録データ群に属する登録データは、単一の話者の音声により構成されるためである。このように、個人登録データ群に属する登録データの数、並びに個人登録データ群に属する登録データの分析フレーム数は、認識処理により増加し、より高精度な認識が可能となる。 When the speaker of the input data matches the speaker of the registration data belonging to the personal registration data group, the registration processing unit 52 adds the input data to the matching registration data and registers it. This is because the registration data belonging to the personal registration data group is composed of the voice of a single speaker. Thus, the number of registration data belonging to the personal registration data group and the number of analysis frames of registration data belonging to the personal registration data group are increased by the recognition process, thereby enabling more accurate recognition.
クラスタ設定部53は、登録データについて、クラスタリングを行なう処理部である。具体的には、十分な数の分析フレームが蓄積された登録データについて、分析フレームをその特徴パラメータの類似性から複数のクラスタに分類する。クラスタの数は、登録データのデータ量などから任意に設定可能である。また、各クラスタについて、該クラスタに属する分析フレームの特徴パラメータの代表値を算出する。代表値としては、平均値等、任意の値を用いることができる。
The
クラスタ設定部53は、登録データの各分析フレームについて、該分析フレームが属するクラスタを関連付けるとともに、登録データに対して各クラスタの代表値を関連付ける。
The
クラスタ設定部53による処理は、任意のタイミングで行なうことができる。例えば、登録データに対して変更が行なわれた場合に、変更が行なわれた登録データに対して処理を行なうことが好ましい。
The processing by the
最小距離探索部51は、入力データと各登録データとの距離を類似度として算出する。使用する登録データは、グループ登録データ群と個人登録データ群のいずれに属するかを問わず、全ての登録データである。 The minimum distance search unit 51 calculates the distance between the input data and each registered data as the similarity. The registration data to be used is all the registration data regardless of whether it belongs to the group registration data group or the personal registration data group.
最小距離探索部51は、登録データと入力データとの距離を算出する際には、まず、入力データのフレームと各クラスタの代表値との距離を算出する。そして、距離が最も小さいクラスタに属する各分析フレームとの距離を総当たりで算出し、最も小さい距離を登録データに対する最小距離とする。 When calculating the distance between the registration data and the input data, the minimum distance search unit 51 first calculates the distance between the frame of the input data and the representative value of each cluster. Then, the distance to each analysis frame belonging to the cluster having the smallest distance is calculated as a brute force, and the smallest distance is set as the minimum distance for the registered data.
このように、登録データとの距離を算出する場合に、クラスタを限定して処理を行なうことにより、最小距離の探索を高速化することが可能である。なお、クラスタの限定は、距離の最も小さいクラスタのみを用いる他、距離が最大となるクラスタを除外するなど、任意に選択可能である。 In this way, when calculating the distance to the registered data, it is possible to speed up the search for the minimum distance by performing processing while limiting the clusters. The limitation of the cluster can be arbitrarily selected by using only the cluster having the smallest distance or excluding the cluster having the maximum distance.
図9は、クラスタを用いた最小距離探索の説明図である。分析フレームの特徴パラメータの次数は、実際には32次元等を用いるが、図9では説明を簡明にするため、2次元とする。 FIG. 9 is an explanatory diagram of the minimum distance search using clusters. The order of the characteristic parameters of the analysis frame is actually 32 dimensions, but in FIG. 9, it is assumed to be two dimensions for the sake of simplicity.
図9では、登録データの分析フレームに対する特徴パラメータ(X,Y)の値をXY平面上にプロットしている。そして、XY平面は、クラスタA1〜A3の3つのクラスタに分類される。さらに、クラスタA1〜A3について、該クラスタに属する分析フレームの代表値を求めている。 In FIG. 9, the values of the characteristic parameters (X, Y) for the analysis frame of the registered data are plotted on the XY plane. The XY plane is classified into three clusters A1 to A3. Further, the representative values of the analysis frames belonging to the clusters A1 to A3 are obtained.
入力データとの距離を求める場合には、入力データの分析フレームに対する特徴パラメータと、クラスタA1〜A3の代表値との距離を求める。図9では、クラスタA3との距離が最小となる。このため、クラスタA3に属する各分析フレームに対する特徴パラメータとの距離を総当たりで算出し、最も小さい距離が登録データに対する最小距離となる。 When obtaining the distance to the input data, the distance between the characteristic parameter for the analysis frame of the input data and the representative values of the clusters A1 to A3 is obtained. In FIG. 9, the distance from the cluster A3 is minimized. For this reason, the distance to the feature parameter for each analysis frame belonging to the cluster A3 is calculated as a brute force, and the smallest distance is the minimum distance for the registered data.
上述してきたように、本実施例2では、登録データをクラスタに分類し、該クラスタを用いて話者認識に使用する分析フレームを制限することで効率的な処理を行なうことができる。また、認識処理の結果を用いて話者が単一の登録データを生成するので、話者の最新の音声の特徴を保持し、話者認識の精度を向上することができる。 As described above, in the second embodiment, it is possible to perform efficient processing by classifying registration data into clusters and limiting the analysis frames used for speaker recognition using the clusters. In addition, since the speaker generates single registration data using the result of the recognition process, the latest voice features of the speaker can be retained and the accuracy of speaker recognition can be improved.
なお、上記実施例では、登録時に音声データから特徴パラメータを算出し、特徴パラメータを記憶部45に格納する構成について説明したが、記憶部45に音声データ自体を格納し、認識時に適宜特徴パラメータを算出するよう構成してもよい。
In the above embodiment, the feature parameter is calculated from the voice data at the time of registration and the feature parameter is stored in the
また、上記実施例では、ホームセキュリティの動作モードを音声操作により切り替える場合について説明したが、本発明に係る話者認識は、動作モードの切替に限定されるものではなく、テキスト判別により多様な操作に適用可能である。 In the above embodiment, the case where the home security operation mode is switched by voice operation has been described. However, the speaker recognition according to the present invention is not limited to the operation mode switching, and various operations can be performed by text discrimination. It is applicable to.
また、上記実施例では、話者の照合が成功したことを条件にセキュリティの動作モード切り替える構成を示したが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するよう構成してもよい。 In the above embodiment, the configuration in which the security operation mode is switched on the condition that the speaker verification is successful has been described. However, the voice of a specific speaker is registered as a blacklist, and the speaker registered in the blacklist It may be configured to reject the operation.
また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。特に、演算能力が限られた端末で話者認識を行なう場合には、小さい処理負荷で高い認識精度を得られる本発明は有用である。 The present invention is not limited to home security, and can be applied to speaker recognition of an arbitrary device such as speaker recognition using a mobile phone terminal. In particular, when speaker recognition is performed on a terminal having limited calculation capability, the present invention that can obtain high recognition accuracy with a small processing load is useful.
また、図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置の分散・統合の形態は図示のものに限られず、その全部または一部を各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、話者認識部31,131の機能部をソフトウェアにより実現し、コンピュータに実行させれば、コンピュータを話者認識装置として動作させる話者認識プログラムを得ることができる。
Each illustrated configuration is schematic in function, and does not necessarily need to be physically configured as illustrated. In other words, the form of distribution / integration of each device is not limited to the one shown in the figure, and all or a part thereof may be functionally / physically distributed / integrated in arbitrary units according to various loads and usage conditions. Can be configured. Further, if the function units of the
以上のように、話者認識装置、話者認識方法及び話者認識プログラムは、話者認識の利便性向上に適している。 As described above, the speaker recognition device, the speaker recognition method, and the speaker recognition program are suitable for improving the convenience of speaker recognition.
11 ドア監視装置
12 窓監視装置
13 火災検知装置
20 マイクロホン
30 話者認識装置
31、131 話者認識部
32 テキスト判別部
33 監視制御部
34 監視部
41 AD変換部
42 音声区間抽出部
43 特徴パラメータ算出部
44 切替部
45 記憶部
46、51 最小距離探索部
47 認識処理部
47a 話者識別部
47b 話者照合部
52 登録処理部
53 クラスタ設定部
60 監視装置
DESCRIPTION OF SYMBOLS 11 Door monitoring apparatus 12
Claims (10)
登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段と
を備え、
前記登録音声データは、複数の登録対象者の音声を含み、
前記部分登録音声データは、各登録対象者の音声を含むよう複数切り出され、
前記類似度算出手段は、複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出し、
前記認識手段は、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する
ことを特徴とする話者認識装置。 A speaker recognition device for recognizing a speaker of voice data based on voice data,
Similarity that calculates the degree of similarity between the spectral envelope of the partially registered speech data extracted from the registered speech data including the speech of the person to be registered and the spectral envelope of the partially input speech data extracted from the input speech data to be recognized A calculation means;
Recognizing means for recognizing a speaker of the input voice data based on the similarity calculated by the similarity calculating means;
The registered voice data includes voices of a plurality of registration subjects ,
The partial registration voice data is cut out in a plurality so as to include the voice of each registration target person,
The similarity calculation means calculates a similarity with the spectrum envelope of the partial input speech data for each spectrum envelope of the plurality of partial registration speech data,
The recognition means obtains a recognition result that a speaker of the input voice data matches any of the plurality of registration target persons , or a speaker of the input voice data does not match any of the plurality of registration target persons. A speaker recognition device characterized by outputting.
登録対象者の音声を含む登録音声データから切り出された部分登録音声データのスペクトル包絡と、認識対象となる入力音声データから切り出された部分入力音声データのスペクトル包絡との類似度を算出する類似度算出手段と、
前記類似度算出手段により算出された類似度に基づいて、前記入力音声データの話者を認識する認識手段と
を備え、
前記登録音声データは、複数の登録対象者の音声を含み、
前記類似度算出手段は、同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、
前記認識手段は、前記登録音声データに対する前記部分入力音声データの距離を前記類似度として用いて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する
ことを特徴とする話者認識装置。 A speaker recognition device for recognizing a speaker of voice data based on voice data,
Similarity that calculates the degree of similarity between the spectral envelope of the partially registered speech data extracted from the registered speech data including the speech of the person to be registered and the spectral envelope of the partially input speech data extracted from the input speech data to be recognized A calculation means;
Recognizing means for recognizing a speaker of the input voice data based on the similarity calculated by the similarity calculating means;
The registered voice data includes voices of a plurality of registration subjects ,
The similarity calculation means includes a feature parameter indicating a spectral envelope of each partial registered voice data and a spectral envelope of the partial input voice data for a plurality of partial registered voice data cut out from the same registered voice data. A small distance from the parameter is calculated as a height of similarity of the partial input voice data with respect to each partial registration voice data, and a minimum value of the distance of the partial input voice data with respect to each partial registration voice data is calculated. The distance between the partial input voice data and the registered voice data
The recognizing means uses a distance of the partial input voice data to the registered voice data as the similarity, and a speaker of the input voice data matches any of the plurality of registration subjects , or the input voice data A speaker recognition apparatus, wherein a recognition result indicating that the speaker does not match any of the plurality of registration subjects is output.
前記認識手段は、前記入力音声データの話者が、複数の前記登録音声データのうち前記入力音声データに対する類似度が最も高い前記登録音声データに含まれる複数の登録対象者のいずれかと一致すると推定することを特徴とする請求項1又は2に記載の話者認識装置。 The similarity calculation means calculates a similarity to the input voice data for each of the plurality of registered voice data,
The recognition means presumes that the speaker of the input voice data matches one of a plurality of registration target persons included in the registered voice data having the highest similarity to the input voice data among the plurality of registered voice data The speaker recognition device according to claim 1, wherein the speaker recognition device is a speaker recognition device.
前記類似度算出手段は、前記部分入力音声データのスペクトル包絡を示す特徴パラメータと前記各分類の代表値との距離を算出し、前記代表値との距離が最小となる前記分類に属する各部分登録音声データを前記類似度の算出に使用する
ことを特徴とする請求項1〜4のいずれか一つに記載の話者認識装置。 The spectral envelopes of a plurality of partially registered voice data obtained from the registered voice data including the voices of the plurality of registration subjects are classified based on similarity of feature parameters indicating the spectrum envelope, and the feature parameters for each classification A classification means for calculating a representative value of
The similarity calculation means calculates a distance between a characteristic parameter indicating a spectrum envelope of the partial input speech data and a representative value of each classification, and registers each partial belonging to the classification with a minimum distance to the representative value The speaker recognition apparatus according to claim 1, wherein voice data is used for calculating the similarity.
前記入力音声データに含まれる単語を判別する単語判別手段と、
前記認識手段による認識結果が所定の条件を満たした場合に、前記単語判別手段により判別された単語に基づいて前記監視手段の監視動作を制御する制御手段と
をさらに備えたことを特徴とする請求項1〜5のいずれか一つに記載の話者認識装置。 Monitoring means for performing a monitoring operation on the monitoring target;
Word discrimination means for discriminating words included in the input voice data;
And a control unit configured to control a monitoring operation of the monitoring unit based on a word determined by the word determination unit when a recognition result by the recognition unit satisfies a predetermined condition. Item 6. The speaker recognition device according to any one of Items 1 to 5.
複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、
複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップと
を含んだことを特徴とする話者認識方法。 A speaker recognition method for recognizing a speaker of voice data based on voice data,
A registration voice data processing step for cutting out the partial registration voice data so as to include the voice of each registration target person from the registration voice data including the voices of a plurality of registration target persons , and obtaining a spectrum envelope of the cut out partial registration voice data;
An input voice data processing step of cutting out the partial input voice data from the input voice data to be recognized and obtaining a spectrum envelope of the cut out partial input voice data;
A degree of similarity calculation step for calculating a degree of similarity with the spectrum envelope of the partial input voice data for each of the spectrum envelopes of the plurality of partial registration voice data,
Based on the similarity calculated in the similarity calculation step, a speaker of the input voice data matches any of the plurality of registration target persons , or a speaker of the input voice data is the plurality of registration target persons. A speaker recognition method, comprising: a recognition step of outputting a recognition result that does not match any of the above.
複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理ステップと、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理ステップと、
同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する前記部分入力音声データの距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出ステップと、
前記類似度算出ステップにより算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識ステップと
を含んだことを特徴とする話者認識方法。 A speaker recognition method for recognizing a speaker of voice data based on voice data,
A registration voice data processing step for cutting out the partial registration voice data from the registration voice data including the voices of a plurality of registration subjects and obtaining a spectrum envelope of the cut out partial registration voice data;
An input voice data processing step of cutting out the partial input voice data from the input voice data to be recognized and obtaining a spectrum envelope of the cut out partial input voice data;
For a plurality of partially registered speech data cut out from the same registered speech data, the distance between the feature parameter indicating the spectrum envelope of each partially registered speech data and the feature parameter indicating the spectrum envelope of the partially input speech data is small Is calculated as the degree of similarity of the partial input voice data with respect to each partial registered voice data, and the minimum distance of the partial input voice data with respect to each partial registered voice data is calculated as the partial input with respect to the registered voice data A similarity calculation step for outputting the distance as the distance of the audio data and outputting the distance as a similarity;
Based on the similarity calculated in the similarity calculation step, a speaker of the input voice data matches any of the plurality of registration target persons , or a speaker of the input voice data is the plurality of registration target persons. A speaker recognition method, comprising: a recognition step of outputting a recognition result that does not match any of the above.
複数の登録対象者の音声を含む登録音声データから各登録対象者の音声を含むよう部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、
複数の部分登録音声データのそれぞれのスペクトル包絡について、前記部分入力音声データのスペクトル包絡との類似度をそれぞれ算出する類似度算出手順と、
前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順と
をコンピュータに実行させることを特徴とする話者認識プログラム。 A speaker recognition program for recognizing a speaker of voice data based on voice data,
A registration voice data processing procedure for cutting out partial registration voice data so as to include each registration target person's voice from registration voice data containing a plurality of registration target person 's voices, and obtaining a spectrum envelope of the cut out partial registration voice data;
Input audio data processing procedure for extracting partial input audio data from input audio data to be recognized and obtaining a spectral envelope of the extracted partial input audio data;
For each spectrum envelope of a plurality of partial registration voice data, a similarity calculation procedure for calculating a similarity with the spectrum envelope of the partial input voice data,
Based on the similarity calculated by the similarity calculation procedure, a speaker of the input speech data matches any of the plurality of registration subjects , or a speaker of the input speech data is the plurality of registration subjects. speaker recognition program for sure識手order you outputs the recognition result of the does not match one of the characterized by causing a computer to execute the.
複数の登録対象者の音声を含む登録音声データから部分登録音声データを切り出し、切り出された部分登録音声データのスペクトル包絡を求める登録音声データ処理手順と、
認識対象となる入力音声データから部分入力音声データを切り出し、切り出された部分入力音声データのスペクトル包絡を求める入力音声データ処理手順と、
同一の前記登録音声データから切り出された複数の部分登録音声データについて、各部分登録音声データのスペクトル包絡を示す特徴パラメータと、前記部分入力音声データのスペクトル包絡を示す特徴パラメータとの距離の小ささを前記各部分登録音声データに対する前記部分入力音声データの類似度の高さとしてそれぞれ算出し、前記各部分登録音声データに対する距離の最小値を前記登録音声データに対する前記部分入力音声データの距離とし、該距離を類似度として出力する類似度算出手順と、
前記類似度算出手順により算出された類似度に基づいて、前記入力音声データの話者が前記複数の登録対象者のいずれかと一致する、若しくは前記入力音声データの話者が前記複数の登録対象者のいずれとも一致しないとの認識結果を出力する認識手順と
をコンピュータに実行させることを特徴とする話者認識プログラム。 A speaker recognition program for recognizing a speaker of voice data based on voice data,
A registration voice data processing procedure for extracting partial registration voice data from registration voice data including voices of a plurality of registration target persons and obtaining a spectrum envelope of the cut out partial registration voice data;
Input audio data processing procedure for extracting partial input audio data from input audio data to be recognized and obtaining a spectral envelope of the extracted partial input audio data;
For a plurality of partially registered speech data cut out from the same registered speech data, the distance between the feature parameter indicating the spectrum envelope of each partially registered speech data and the feature parameter indicating the spectrum envelope of the partially input speech data is small Is calculated as the degree of similarity of the partial input voice data with respect to each partial registration voice data, the minimum value of the distance to each partial registration voice data as the distance of the partial input voice data with respect to the registration voice data, A similarity calculation procedure for outputting the distance as a similarity;
Based on the similarity calculated by the similarity calculation procedure, a speaker of the input speech data matches any of the plurality of registration subjects , or a speaker of the input speech data is the plurality of registration subjects. A speaker recognition program for causing a computer to execute a recognition procedure for outputting a recognition result that does not match any of the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012192394A JP6087542B2 (en) | 2012-08-31 | 2012-08-31 | Speaker recognition device, speaker recognition method, and speaker recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012192394A JP6087542B2 (en) | 2012-08-31 | 2012-08-31 | Speaker recognition device, speaker recognition method, and speaker recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014048534A JP2014048534A (en) | 2014-03-17 |
JP6087542B2 true JP6087542B2 (en) | 2017-03-01 |
Family
ID=50608255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012192394A Active JP6087542B2 (en) | 2012-08-31 | 2012-08-31 | Speaker recognition device, speaker recognition method, and speaker recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6087542B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3702929A4 (en) | 2017-10-24 | 2021-01-13 | Panasonic Intellectual Property Management Co., Ltd. | Content management device, content management system, and control method |
CN107808659A (en) * | 2017-12-02 | 2018-03-16 | 宫文峰 | Intelligent sound signal type recognition system device |
CN109101801B (en) | 2018-07-12 | 2021-04-27 | 北京百度网讯科技有限公司 | Method, apparatus, device and computer readable storage medium for identity authentication |
CN109785846B (en) * | 2019-01-07 | 2024-05-28 | 平安科技(深圳)有限公司 | Role recognition method and device for mono voice data |
WO2021192719A1 (en) * | 2020-03-27 | 2021-09-30 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Speaker identification method, speaker identification device, speaker identification program, sex identification model generation method, and speaker identification model generation method |
US20240013791A1 (en) * | 2020-11-25 | 2024-01-11 | Nippon Telegraph And Telephone Corporation | Speaker recognition method, speaker recognition device, and speaker recognition program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6086696A (en) * | 1983-10-19 | 1985-05-16 | 日本電気株式会社 | Residense security system |
JP3859884B2 (en) * | 1998-10-19 | 2006-12-20 | 株式会社東芝 | Speaker recognition method and speaker recognition apparatus |
JP2003283659A (en) * | 2002-03-22 | 2003-10-03 | Ntt Docomo Tokai Inc | Method for registering authentication voice data |
JP3980988B2 (en) * | 2002-10-28 | 2007-09-26 | 日本電信電話株式会社 | Voice generation section search method, voice generation section search apparatus, program thereof, and recording medium for the program |
JP2005301022A (en) * | 2004-04-14 | 2005-10-27 | Toshiba Tec Corp | Voice feature extracting device, speaker recognizing device, program, and voice feature extracting method |
JP4157077B2 (en) * | 2004-05-28 | 2008-09-24 | 東芝テック株式会社 | Telephone |
JP4254753B2 (en) * | 2005-06-30 | 2009-04-15 | ヤマハ株式会社 | Speaker recognition method |
-
2012
- 2012-08-31 JP JP2012192394A patent/JP6087542B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014048534A (en) | 2014-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6087542B2 (en) | Speaker recognition device, speaker recognition method, and speaker recognition program | |
CN106251874B (en) | A kind of voice gate inhibition and quiet environment monitoring method and system | |
US7620547B2 (en) | Spoken man-machine interface with speaker identification | |
US20190295540A1 (en) | Voice trigger validator | |
KR102371697B1 (en) | Operating Method for Voice function and electronic device supporting the same | |
US9633652B2 (en) | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon | |
US20160266910A1 (en) | Methods And Apparatus For Unsupervised Wakeup With Time-Correlated Acoustic Events | |
JP2019533193A (en) | Voice control system, wakeup method thereof, wakeup device, home appliance, coprocessor | |
CN107958669B (en) | Voiceprint recognition method and device | |
US9530417B2 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
CN112102850B (en) | Emotion recognition processing method and device, medium and electronic equipment | |
JPH10319988A (en) | Speaker identifying method and speaker recognizing device | |
US9335966B2 (en) | Methods and apparatus for unsupervised wakeup | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
CN111656440A (en) | Speaker identification | |
US11200903B2 (en) | Systems and methods for speaker verification using summarized extracted features | |
KR101496876B1 (en) | An apparatus of sound recognition in a portable terminal and a method thereof | |
KR101697651B1 (en) | A method for detecting an audio signal and apparatus for the same | |
JP5549506B2 (en) | Speech recognition apparatus and speech recognition method | |
US12039970B1 (en) | System and method for source authentication in voice-controlled automation | |
JP6239826B2 (en) | Speaker recognition device, speaker recognition method, and speaker recognition program | |
JP2015055835A (en) | Speaker recognition device, speaker recognition method, and speaker recognition program | |
JP2008146054A (en) | Speaker information acquisition system using speech feature information on speaker, and method thereof | |
JP6616182B2 (en) | Speaker recognition device, discriminant value generation method, and program | |
EP3195314B1 (en) | Methods and apparatus for unsupervised wakeup |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150518 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160407 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6087542 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |