JP2010152866A - Sex-age identification method and device based on sound and image - Google Patents
Sex-age identification method and device based on sound and image Download PDFInfo
- Publication number
- JP2010152866A JP2010152866A JP2009182589A JP2009182589A JP2010152866A JP 2010152866 A JP2010152866 A JP 2010152866A JP 2009182589 A JP2009182589 A JP 2009182589A JP 2009182589 A JP2009182589 A JP 2009182589A JP 2010152866 A JP2010152866 A JP 2010152866A
- Authority
- JP
- Japan
- Prior art keywords
- age
- gender
- feature
- information
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
- Image Processing (AREA)
Abstract
Description
本発明は、入力された映像情報及び音声情報から特定人の性別及び年齢を識別することができる方法及びその装置に関し、さらに詳しくは、性別情報と年齢情報の相互関連性を考慮して音声認識及び顔認識を組み合わせて行うことによって正確に性別及び年齢を演算することができる識別装置及び方法に関する。 The present invention relates to a method and apparatus for identifying gender and age of a specific person from input video information and audio information, and more particularly, speech recognition in consideration of the reciprocal relationship between gender information and age information. In addition, the present invention relates to an identification apparatus and method that can accurately calculate gender and age by combining face recognition.
従来技術によるユーザの性別及び年齢識別技術として、電子住民証のような個人識別手段を用いる方法、顔認識を用いる方法、音声認識を用いる方法などが存在する。 As a conventional technique for gender and age identification of a user, there are a method using personal identification means such as an electronic resident card, a method using face recognition, a method using voice recognition, and the like.
個人識別手段を用いる方法のうちの一つである電子住民証を用いた年齢認識方法(韓国公開特許第1999−0008679号)は、各個人が電子住民証のような個人識別手段をいつも携帯しなければならないという不便がある。また電子住民証のような個人識別手段は紛失、破損、偽造などが発生し易い問題点がある。 One of the methods using personal identification means is an age recognition method using an electronic resident ID (Korea Published Patent No. 1999-0008679), in which each individual always carries an individual identification means such as an electronic resident ID. There is an inconvenience of having to. In addition, personal identification means such as electronic resident cards are prone to loss, damage, forgery and the like.
従来の性別−年齢識別技術として使用される顔認識方法の場合には、顔映像情報のみで性別及び年齢を判断しているため、各個人ごとの特徴を反映し難く認識正確度が低い。また、音声認識を用いた認識方法の場合には、音声情報のみで性別及び年齢を判断するため、女性と子供のように音声的特徴が類似する場合などにおいてその認識正確度が劣る問題点がある。 In the case of a face recognition method used as a conventional gender-age identification technique, the gender and age are determined based only on the face image information, so that it is difficult to reflect the characteristics of each individual and the recognition accuracy is low. In addition, in the case of a recognition method using voice recognition, since gender and age are determined only by voice information, there is a problem that the recognition accuracy is inferior when voice characteristics are similar, such as a woman and a child. is there.
また、従来の顔認識または音声認識に基づく識別方式は、性別によって特徴の分布が異なる特異性、または年齢によって性別の特徴分布が異なる特異性などを反映して年齢及び性別を識別することができないため、演算の正確度が低く演算量も多いという短所がある。 In addition, conventional identification methods based on face recognition or voice recognition cannot identify age and gender, reflecting the specificity that the distribution of features differs by gender, or the specificity that the distribution of gender features varies by age. Therefore, the calculation accuracy is low and the calculation amount is large.
本発明は、上述の問題点に鑑みてなされたもので、その目的は、性別情報と年齢情報の相互関連性を利用し、また音声認識及び顔認識を組み合わせることによって認識の正確度を向上させることのできる性別−年齢識別方法及びその装置を提供することにある。 The present invention has been made in view of the above-mentioned problems, and its purpose is to improve the accuracy of recognition by utilizing the correlation between gender information and age information and combining voice recognition and face recognition. An object is to provide a gender-age identification method and apparatus capable of performing the same.
上記目的を達成すべく、本発明の一態様による性別−年齢識別方法は、映像情報及び音声情報を収集するステップと、前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせて演算を行って性別及び年齢を最終決定するステップと、を含む。 In order to achieve the above object, a gender-age identification method according to an aspect of the present invention includes a step of collecting video information and audio information, and extracting one or more feature values from the collected audio information, Gender and age identification step using audio information for identifying gender and age using the extracted feature value, and one or more feature values are extracted for the collected video information, and the extracted Gender and age identification step using face information for identifying gender and age using feature values; gender and age identified using voice information; and gender and age identified using face information. Performing a combinational operation to finally determine gender and age.
本発明の他の態様による性別−年齢識別装置は、映像情報及び音声情報を収集する入力部と、前記収集された音声情報に対して特徴値を抽出し、抽出された特徴値を用いて前記音声情報から性別及び年齢を識別する音声処理部と、前記収集された映像情報に対して特徴値を抽出し、抽出された特徴値を用いて前記映像情報から性別及び年齢を識別する映像処理部と、前記映像処理部で識別された性別及び年齢と前記音声処理部で識別された性別及び年齢とを組み合わせて演算を行って前記特定人の性別及び年齢を最終決定する最終識別部と、を含む。 According to another aspect of the present invention, there is provided a gender-age identification apparatus, an input unit that collects video information and audio information, and a feature value extracted from the collected audio information, and the extracted feature value is used to extract the feature value. An audio processing unit for identifying gender and age from audio information, and a video processing unit for extracting feature values from the collected video information and identifying gender and age from the video information using the extracted feature values And a final identification unit that finally determines the sex and age of the specific person by performing a calculation by combining the gender and age identified by the video processing unit and the gender and age identified by the audio processing unit. Including.
本発明によれば、音声認識及び顔認識を組み合わせて行うので、従来の音声認識のみを用いた方法または顔認識のみを用いた方法に比べて認識正確度が向上する効果がある。 According to the present invention, since voice recognition and face recognition are performed in combination, the recognition accuracy is improved as compared with the conventional method using only voice recognition or the method using only face recognition.
また本発明は、性別情報と年齢情報の相互関連性、例えば、年齢識別は性別によって特徴の分布が異なる特異性、または年齢によって性別の特徴分布が異なる特異性などを反映して年齢及び性別を認識するので、従来の認識方法に比べて高い正確度を保障することができる効果がある。 In addition, the present invention reflects the interrelationship between sex information and age information, for example, age identification reflects the specificity of the distribution of characteristics depending on the sex, or the specificity of the distribution of characteristics of the sex depending on the age. Since the recognition is performed, there is an effect that a higher accuracy can be ensured as compared with the conventional recognition method.
さらに本発明は、特徴抽出において入力された情報に対して各入力情報別に容易に区別できる特徴を基準として一次的に音声情報をグループ化し、前記基準によって区別された各グループに対して各グループ別特徴を反映して特徴値を抽出する方法を用いることによって、識別の正確性を確保することができ、また演算の重複性を排除して迅速な識別を行うことができる効果がある。 Furthermore, the present invention provides a method for grouping speech information primarily on the basis of features that can be easily distinguished for each input information with respect to information input in feature extraction, and for each group distinguished by the criteria. By using the method of extracting feature values reflecting the features, it is possible to ensure the accuracy of the identification, and it is possible to eliminate the duplication of operations and perform the quick identification.
以下、本発明の好ましい実施の形態を、添付図面に基づき詳細に説明する。 Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
図1は、本発明による性別−年齢識別装置の一実施形態を示す構成図である。 FIG. 1 is a block diagram showing an embodiment of a gender-age identification apparatus according to the present invention.
図1に示すように、本発明による性別−年齢識別装置は、入力部10、年齢−性別演算部20及び出力部30を含んで構成される。
As shown in FIG. 1, the gender-age identification apparatus according to the present invention includes an
入力部10は、特定人の映像情報及び音声情報を収集する。
The
このような入力部10は、映像情報を取得できるカメラのような映像情報取得手段及び音響情報を取得できるスピーカー(マイク)のような音響情報取得手段を含んで構成することができる。
Such an
また入力部10は、映像情報取得手段によって取得された映像情報から特定人の顔情報のみを別途抽出する顔抽出手段及び音響情報取得手段によって取得された音響情報から特定人の音声情報のみを別途抽出できる音声抽出手段を含んで構成することができる。この場合、年齢−性別演算部20の各特徴抽出手段が毎度顔情報及び音声情報を映像情報及び音響情報から別途抽出する必要がないので迅速な演算が可能になる。
Further, the
かかる顔抽出手段及び音声抽出手段は、従来の顔検出技術を用いて具現されることができる。例えば、顔抽出のために知識ベース手法(Knowledge-baSed MethodS)、特徴ベース手法(Feature-baSed MethodS)、テンプレートマッチング手法(Template-matching MethodS)、見え方に基づいた手法(Appearance-baSed MethodS)、熱赤外線(Infra Red)方法、3次元顔認識方法、マルチモーダル方法などを用いて顔抽出手段を具現することができる。 Such face extraction means and voice extraction means can be implemented using conventional face detection technology. For example, for face extraction, a knowledge-based method (Knowledge-baSed MethodS), a feature-based method (Feature-baSed MethodS), a template matching method (Template-matching MethodS), a method based on appearance (Appearance-baSedM) The face extraction means can be implemented using a thermal infrared (Infra Red) method, a three-dimensional face recognition method, a multimodal method, or the like.
年齢−性別演算部20は、音声情報を基に年齢及び性別を識別する音声処理部100と、映像情報を基に年齢及び性別を識別する映像処理部200と、音声処理部100と映像処理部200の演算結果を総合して年齢及び性別を決定する最終識別部300と、を含んで構成される。
The age-
出力部30は、年齢−性別演算部20から伝達された年齢及び性別を出力する。
The
以下図2及び図3を参照して、年齢−性別演算部20について詳しく説明する。
Hereinafter, the age-
図2は、図1による音声処理部100の詳細構成図である。
FIG. 2 is a detailed configuration diagram of the
図2に示すように、音声処理部100は音声情報から特徴値を抽出する音声特徴抽出部110及びその抽出された特徴値から性別及び年齢を識別する音声演算部120を含んで構成される。
As shown in FIG. 2, the
さらに詳しく説明すると、音声特徴抽出部110は、音声情報に対して一つ以上の特徴値または特徴ベクトル(以下、「特徴値」と通称する)を抽出する。このような音声特徴抽出部110は、線形予測係数(Linear Predictive Coefficient)方法、ケプストラム(CepStrum)方法、メルフリークエンシーケプストラム(Mel Frequency CepStral Coefficient)方法、フィルタバンクエネルギ(Filter Bank Energy)方法などを用いたり、これらを組み合わせて特徴値を抽出することができる。
More specifically, the speech
音声特徴抽出部110は、前述の特徴値識別方法を複数適用して同一の音声情報から複数個の特徴値を抽出するか、単一の特徴値識別方法を使用し複数のサンプルを用いて複数個の特徴値を識別することができる。N個の特徴識別方法でM個の音声サンプルを対象に特徴値を得ると(N*M)の行列形態に特徴値を現すことができる。
The voice
本発明の実施形態では、音声に対する特徴抽出を正確且つ迅速に行うために、性別特徴抽出部111、年齢別特徴抽出部−M112、年齢別特徴抽出部−FC113、年齢別特徴抽出部−F114及び性別特徴抽出部−C115を含んで音声特徴抽出部110を構成する。
In the embodiment of the present invention, in order to accurately and quickly extract features from speech, a gender
性別特徴抽出部111は、入力された音声情報に対する男性と女性の相違点、即ち、性別特徴を反映して特徴値を抽出し、抽出された特徴値を基準に音声情報を男性グループ(M)または女性及び子供グループ(FC)に区分する。
The gender
年齢別特徴抽出部−M112は、性別特徴抽出部111によって男性グループ(M)に区分された音声情報に対して特徴値を抽出する。この場合に入力される音声情報は男性の音声情報であると判断された音声情報であるため、それに対して男性の年齢別特徴を反映して特徴値を抽出することができる。
The age-specific feature extraction unit-M112 extracts feature values for the speech information classified into the male group (M) by the gender
年齢別特徴抽出部−FC113は、性別特徴抽出部111によって女性及び子供グループ(FC)に区分された音声情報に対して、女性及び子供の年齢別特徴を反映して特徴値を抽出することができる。その後、入力音声情報を改めて女性グループ(F)と子供グループ(C)に区分する。ここで、子供グループ(C)は男女の特徴を区分し難い変声期以前の人を対象とするグループである。
The age-specific feature extraction unit-
年齢別特徴抽出部−F114は、年齢別特徴抽出部−FC113によって女性グループ(F)に区分された音声情報に対して、女性の年齢別特徴を反映して特徴値を抽出することができる。 The age-specific feature extraction unit-F114 can extract the feature value by reflecting the age-specific feature of the woman in the voice information classified into the female group (F) by the age-specific feature extraction unit-FC113.
性別特徴抽出部−C115は、年齢別特徴抽出部−FC113によって子供グループ(C)に区分された前記音声情報に対して、子供の性別特徴を反映して特徴値を抽出する。 The gender feature extraction unit-C115 extracts a feature value reflecting the gender feature of the child from the audio information classified into the child group (C) by the age-specific feature extraction unit-FC113.
音声演算部120は、前述のように音声特徴抽出部110によって抽出された特徴値の入力を受けて入力音声の性別及び年齢を識別することができる。
The
このために音声演算部120は、音声特徴抽出部110から抽出された特徴値に対して加重値を反映して代表特徴値を決定する組合演算部と、決定された代表特徴値に基づき、性別及び年齢別基準特徴値または音声及び映像基準サンプルを保存している基準DBを参照して性別及び年齢を識別する識別部とを含む。
For this purpose, the
また音声演算部120は、図2に示すように、音声特徴抽出部110でグループ化した男性グループ(M)、女性グループ(F)及び子供グループ(C)に対して各々最適化された組合演算部及び識別部を各々備えるように構成することが好ましい。
Further, as shown in FIG. 2, the
以下では、このように各々組合演算部及び識別部が備えられた図2に示す実施の形態を基準に説明する。 Below, it demonstrates on the basis of embodiment shown in FIG. 2 with which the combination calculating part and the identification part were each provided in this way.
音声演算部120は、音声特徴抽出部110で男性グループ(M)に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−M121と、女性グループ(F)に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−F122と、子供グループ(C)に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−C123と、から構成することができる。
The
さらに詳しく説明すると、音声演算部−M121は組合演算部−M121Aと識別部−M121Bとを含む。組合演算部−M121Aは、男性グループ(M)に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する。識別部−M121Bは、その代表特徴値を基に基準DBを参照して性別及び年齢を識別することができる。また組合演算部−M121Aは、男性グループに区分された音声情報の入力を受けて組合演算を行うので、前述のように性別特徴抽出部111及び年齢別特徴抽出部−M112から抽出された特徴値の入力を受けることができる。
More specifically, the voice calculation unit-M121 includes a combination calculation unit-M121A and an identification unit-M121B. The combination calculation unit-M121A determines a representative feature value by assigning a weight value to one or more feature values extracted from the speech information classified into the male group (M). The identification unit-M121B can identify gender and age with reference to the standard DB based on the representative feature value. Further, since the union calculation unit-M121A receives the input of the voice information divided into male groups and performs the union calculation, the feature values extracted from the gender
同様に音声演算部-F122は、女性グループ(F)に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する組合演算部−F122Aと、その代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部−F122Bと、を含む。前述のように、組合演算部−F122Aは、性別特徴抽出部111、年齢別特徴抽出部−FC113及び年齢別特徴抽出部−F114から抽出された特徴値の入力を受けることができる。
Similarly, the voice calculation unit-F122 is a combination calculation unit-F122A that determines a representative feature value by assigning a weight to one or more feature values extracted from the voice information divided into the female group (F). , And an identification unit -F122B that identifies gender and age with reference to the standard DB based on the representative feature value. As described above, the combination calculation unit-F122A can receive the feature values extracted from the gender
また音声演算部−C123は、子供グループ(C)に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する組合演算部−C123Aと、その代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部−C123Bと、を含む。また前述のように、組合演算部−C123Aは、性別特徴抽出部111、年齢別特徴抽出部−FC113及び年齢別特徴抽出部−C115から抽出された特徴値の入力を受けることができる。
The voice calculation unit -C123 includes a combination calculation unit -C123A that determines a representative feature value by assigning a weight value to one or more feature values extracted from the voice information divided into child groups (C); An identification unit -C123B that identifies gender and age with reference to the standard DB based on the representative feature value. Further, as described above, the combination calculation unit-C123A can receive the feature values extracted from the gender
このような年齢及び性別を識別するために、GMM(GauSSian Mixture Model)、NN(Neural Network)、SVM(Support Vector Machine)などのアルゴリズムを用いて年齢及び性別を識別することができる。しかし、前述したアルゴリズムは例示的なものに過ぎず、前述したアルゴリズム以外にも様々なアルゴリズムを用いて特徴値から年齢及び性別を識別できることは言うまでもない。 In order to identify such age and sex, the age and sex can be identified using algorithms such as GMM (GauSSian Mixture Model), NN (Neural Network), SVM (Support Vector Machine) and the like. However, the algorithm described above is merely an example, and it goes without saying that the age and sex can be identified from the feature values using various algorithms other than the algorithm described above.
例えば、GMMのアルゴリズムを用いる場合、各組合演算部121A、122A、123Aは、特徴識別方法の数Nまたは複数個のサンプルの数N個に対応してN個の尤度値(likelihood)を計算し、かかるN個の尤度値で代表値を決定することができる。代表値を決定するために、組合演算部121A、122A、123AはN個尤度値の平均値を求めるか、最大値を求めるか、最小値を求めるか、全体値を合算して代表値を決定することができる。
For example, when the GMM algorithm is used, each
また組合演算部121A、122A、123Aは、代表特徴値の識別において加重値を付与して代表特徴値を識別することができる。このような加重値は、場合によって設定されるかまたは経験的に蓄積された情報を用いて設定することができる。例えば、騷音の発生が頻繁な環境においては、騷音帯域に該当する特徴値部分は加重値を低く設定し、一般的な音声帯域のうち中間程度の帯域に該当する特徴値部分は高い加重値を付与することができる。また各組合演算部121A、122A、123Aは、前述した各グループ(男性、女性、子供)に対して音声的特徴を反映して各々異なる加重値を付与して代表特徴値を決定することができる。
In addition, the
以上では音声情報を男性グループ、女性グループ及び子供グループに分けて説明したが、音声情報から抽出した特徴値を特定グループに区分することが難しい場合には、抽出した音声情報を各グループに重複適用することが好ましい。即ち、グループに区分することが難しい音声情報の場合には、該当する各グループに対して演算を各々適用した後、各識別部の結果同士の類似度や正常識別確率、信頼度などを考慮して最終的に最終識別部300によって年齢及び性別を決定する。
In the above, audio information was divided into male groups, female groups, and child groups. However, if it is difficult to classify feature values extracted from audio information into specific groups, the extracted audio information is applied to each group in duplicate. It is preferable to do. In other words, in the case of speech information that is difficult to classify into groups, after applying the calculation to each corresponding group, the similarity between the results of each identification unit, the normal identification probability, the reliability, etc. are considered. Finally, the
図3は、図1による映像処理部の詳細構成図である。 FIG. 3 is a detailed block diagram of the video processing unit shown in FIG.
図3に示すように、映像処理部200は、映像情報から特徴値を抽出する映像特徴抽出部210及びその抽出された特徴値から性別及び年齢を演算する映像演算部220を含んで構成される。
As shown in FIG. 3, the
映像特徴抽出部210は映像情報の入力を受けて特徴値を抽出することができる。このような映像特徴抽出部210は、さらに年齢別特徴抽出部211、年齢別特徴抽出部−C212、性別特徴抽出部−C213、性別特徴抽出部−A214、年齢別特徴抽出部−M215及び年齢別特徴抽出部−F216を含むことができる。
The video
年齢別特徴抽出部211は、入力された顔情報に対し年齢別特徴を反映して特徴値を抽出し、抽出された特徴値を基準に入力された顔情報を大人グループ(A)または子供グループ(C)に区分する。例えば、顔情報の場合、顔の大きさと目の大きさとの比例、目元のシワの有無などを基に大人と子供を区分することが容易である。また年齢別特徴抽出部211は、前記のような年齢別特徴を反映して入力された顔情報に対して特徴値を抽出することができる。
The age-specific
年齢別特徴抽出部211によって子供グループ(C)に区分された顔情報に対して、年齢別特徴抽出部−C212は子供の年齢別特徴を反映して特徴値を抽出し、性別特徴抽出部−C213は子供の性別特徴を反映して特徴値を抽出する。
For face information classified into child groups (C) by the age-specific
性別特徴抽出部−A214は、年齢別特徴抽出部211によって大人グループ(A)に区分された顔情報に対して、大人の性別特徴を反映して特徴値を抽出することができる。その抽出された特徴値を基準に、入力された顔情報を男性グループ(M)と女性グループ(F)とに区分する。
The gender feature extraction unit-A 214 can extract a feature value by reflecting the gender feature of the adult in the face information classified into the adult group (A) by the age-specific
年齢別特徴抽出部−M215は、性別特徴抽出部−A214によって男性グループ(M)に区分された顔情報に対して、男性の年齢別特徴を反映して特徴値を抽出する。また年齢別特徴抽出部−F216は、性別特徴抽出部−A214によって女性グループ(F)に区分された顔情報に対して、女性の年齢別特徴を反映して特徴値を抽出する。 The age-specific feature extraction unit-M215 extracts a feature value by reflecting the male age-specific feature in the face information classified into the male group (M) by the gender feature extraction unit-A214. The age-specific feature extraction unit-F216 extracts feature values reflecting the female age-specific features in the face information divided into the female group (F) by the gender feature extraction unit-A214.
映像演算部220は、前記のように映像特徴抽出部210によって抽出された特徴値を用いて映像情報から性別及び年齢を識別する。
The
即ち、映像演算部220は、映像特徴抽出部210から抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する組合演算部及び代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部から構成される。
That is, the
また映像演算部220は、図3に示すように、前述のように映像特徴抽出部210によってグループ化された男性グループ(M)、女性グループ(F)及び子供グループ(C)に対して各々最適化された組合演算部及び識別部を有するように構成される。即ち、映像演算部220は、男性グループに区分された映像情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−M221と、女性グループに区分された音声情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−F222と、子供グループに区分された音声情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−C223と、から構成される。
Further, as shown in FIG. 3, the
映像演算部−M221は、男性グループ(M)に区分された顔情報から抽出された一つ以上の特徴値の入力を受けて代表特徴値を決定する組合演算部−M221Aと、その代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部−M221Bと、を含むことができる。組合演算部−M221Aは男性グループ(M)に区分された顔情報から抽出された特徴値の入力を受けるので、年齢別特徴抽出部211、性別特徴抽出部−A214及び年齢別特徴抽出部−M215から抽出された特徴値の入力を受けて代表特徴値を識別することができる。
The image calculation unit-M221 receives a combination of one or more feature values extracted from the face information divided into the male group (M) and determines a representative feature value, and the representative feature value. An identification unit -M221B that identifies gender and age with reference to the standard DB based on the standard DB. Since the combination calculation unit-M221A receives input of feature values extracted from face information divided into male groups (M), the age-specific
映像演算部−F222は、女性グループ(F)に区分された顔情報から抽出された特徴値の入力を受けて代表特徴値を決定する組合演算部−F222Aと、その代表特徴値と基準DBを用いて性別及び年齢を識別する識別部−F222Bと、を含むことができる。 The video calculation unit-F222 receives the input of feature values extracted from the face information divided into the female group (F) and determines the representative feature value, the combination calculation unit-F222A, the representative feature value, and the reference DB And an identification unit-F222B for identifying gender and age.
この場合、組合演算部−F222Aは、女性グループ(F)に区分された顔情報を対象とするので、年齢別特徴抽出部211、性別特徴抽出部−A214及び年齢別特徴抽出部−F216から抽出された特徴値の入力を受けて代表特徴値を識別することができる。
In this case, since the combination calculation unit-F222A targets the face information divided into the female group (F), it is extracted from the age-specific
映像演算部−C223は、子供グループ(C)に区分された顔情報から抽出された特徴値の入力を受けて代表特徴値を決定する組合演算部−C223Aと、その代表特徴値と基準DBを用いて性別及び年齢を識別する識別部−C223Bと、を含むことができる。この場合、組合演算部−C223Aは、子供グループ(C)に区分された顔情報から抽出された特徴値の入力を受けるので、年齢別特徴抽出部211、年齢別特徴抽出部−C212及び性別特徴抽出部−C213から抽出された特徴値の入力を受けて代表特徴値を識別することができる。
The video calculation unit-C223 receives the input of feature values extracted from the face information divided into the child group (C) and determines the representative feature value, and the combination calculation unit-C223A, the representative feature value and the reference DB And an identification unit -C223B for identifying gender and age. In this case, the combination calculation unit -C223A receives the input of the feature value extracted from the face information divided into the child group (C), so the age-specific
各識別部221B、222B、223Bは、前述した各組合演算部221A、222A、223Aから代表特徴値の入力を受けて基準DBを参照して性別及び年齢を演算することができる。これに対する具体的な説明は音声演算部120を参照して前述したものと類似するため、更なる詳細な説明は省略する。
Each of the
また、このような映像処理部200を用いて年齢及び性別を演算する場合にも、前述のように、顔情報が男性グループ(M)、女性グループ(F)及び子供グループ(C)のうち何れか一つのグループに区分することが難しい場合には、その顔情報を各グループに重複適用することができる。
In addition, when calculating age and gender using such a
以下に、最終識別部300について詳しく説明する。
Hereinafter, the
最終識別部300では、識別部121B、122B、123B、221B、222B、223Bのうち一部または全部から出力された性別及び年齢の入力を受け、その入力を受けた性別及び年齢を組み合わせ演算を行って最終的な性別及び年齢を識別することができる。
The
即ち、入力を受けた複数個の性別及び年齢に対して各々相互類似度を計算し、相互類似度が最も高い性別及び年齢を最終性別及び年齢に決定することができる。または、入力を受けた複数個の性別及び年齢に対する正常識別確率や、信頼度指数を識別する毎に把握して保存しておき、これを用いて最終性別及び年齢を決定することができる。 That is, it is possible to calculate the mutual similarity for each of the plurality of sexes and ages received, and determine the sex and age having the highest mutual similarity as the final sex and age. Alternatively, it is possible to grasp and store normal identification probabilities for a plurality of genders and ages that have been input and the reliability index every time they are identified, and use them to determine the final gender and age.
このような最終識別部300は、音声処理部100から出力された性別及び年齢に対して相互類似度を用いて性別及び年齢を識別し、また映像処理部200から出力された性別及び年齢に対して相互類似度を用いて性別及び年齢を識別した後、二つの識別された性別及び年齢を用いて最終的な性別及び年齢を識別し出力するように実施することができる。
The
または、最終識別部300は、音声処理部100及び映像処理部200から出力された性別及び年齢の識別結果全体に対して相互類似度を用いて最終的な性別及び年齢を識別し出力するように実施することもできる。
Alternatively, the
以下では基準DBについて詳しく説明する。 Hereinafter, the reference DB will be described in detail.
基準DBは、性別及び年齢別基準特徴値または音声及び映像基準サンプルを保存しており、顔情報または音声情報から抽出された特徴値と、前記特徴値に対する性別及び年齢の関係モデルと、から構成される。 The reference DB stores gender and age-specific reference feature values or audio and video reference samples, and includes a feature value extracted from face information or audio information, and a relationship model of sex and age with respect to the feature value. Is done.
このような基準DBに保存された特徴値−性別及び年齢対応関係を用いて、音声演算部120または映像演算部220は、前述した代表特徴値を基に基準DBを参照して性別及び年齢を獲得することができる。例えば、識別部は、代表特徴値と基準DBの関係モデルとの間の距離値を用いて性別及び年齢を識別することができる。
Using the feature value-gender and age correspondence stored in the reference DB, the
また基準DBは、特徴値を円滑に抽出し難い場合などにおいて、映像または音声情報を直接用いて性別及び年齢を識別できるように、映像データ及び音声データとそれに対応する性別と年齢を含んで構成される。 In addition, the reference DB includes video data and audio data, and corresponding gender and age so that the gender and age can be identified directly using video or audio information when it is difficult to extract feature values smoothly. Is done.
基準DBに含まれた映像データは、例えば、カメラと人を各々0.5m、1m、3mの距離だけ離隔させて獲得することができる。この時、隔離距離が3mである場合は、人の全身が全て含まれるように撮る。このような映像データは10秒間100frameになるように撮影することができる。前記のように撮影された映像に対して顔検出器、身長検出器、目検出器などを用いて各々の被写体である人の顔、髪型、髭、眉毛の形などを取得して詳細DBを構成することができる。このように構成された詳細DBを用いて特徴値を識別するように本発明を実施することができる。 The video data included in the reference DB can be acquired, for example, by separating a camera and a person by a distance of 0.5 m, 1 m, and 3 m, respectively. At this time, if the separation distance is 3 m, the image is taken so that the whole body of the person is included. Such video data can be photographed to be 100 frames for 10 seconds. Use the face detector, height detector, eye detector, etc. for the images shot as described above to acquire the face, hairstyle, eyelid, eyebrow shape, etc. of each human subject, and use the detailed DB. Can be configured. The present invention can be implemented so as to identify feature values using the detailed DB configured as described above.
基準DBに含まれた音声データの場合には、例えば予め用意した50個の文章を3回繰り返し発声して得ることができる。このような音声データは16kHz、16bit、monoタイプなどの様々な形態を有することができる。 In the case of speech data included in the reference DB, for example, 50 sentences prepared in advance can be obtained by uttering three times repeatedly. Such audio data can have various forms such as 16 kHz, 16 bit, and mono type.
かかる基準DBは標本性を備えるために、例えば120名を対象にデータを構成することができる。この時、全体男性女性比は1:1になるようにし、各年齢帯に対する比率も1:1になるように構成することができる。 Since such a reference DB has a sample property, for example, data can be configured for 120 persons. At this time, the overall male / female ratio can be 1: 1, and the ratio to each age zone can also be 1: 1.
基準DBは学習能力を保有しており、本発明の実施の形態によって性別−年齢に対する演算が行われると、演算の結果値(演算の代表特徴値と最終的な性別及び年齢)を現在構成しているデータに反映してDBを再構成(更新)して信頼度を持続的に向上できるようにすることが好ましい。もちろんDB更新に活用される結果値は信頼性が確認された結果値でなければならないのは言うまでもない。 The reference DB has learning ability, and when the calculation for gender-age is performed according to the embodiment of the present invention, the result value of the calculation (the representative characteristic value of the calculation and the final gender and age) is currently configured. It is preferable to reconstruct (update) the DB by reflecting it in the data so that the reliability can be continuously improved. Of course, it goes without saying that the result value used for DB update must be a result value for which reliability has been confirmed.
図4は、本発明による性別−年齢識別方法のフローチャートである。 FIG. 4 is a flowchart of the gender-age identification method according to the present invention.
入力部10は、性別及び年齢を識別しようとする特定人の顔情報及び音声情報を収集する(S100)。
The
収集された音声情報から音声処理部100が年齢別特徴及び性別特徴を反映して特徴値を抽出し、抽出された一つ以上の特徴値に対して代表特徴値を識別する。そしてその代表特徴値を基準DBに問合せて性別及び年齢を識別する(S200)。
The
それと共に、映像処理部200が顔情報に対して年齢別特徴及び性別特徴を反映して特徴値を抽出し、抽出された一つ以上の特徴値に対して代表特徴値を識別する。そして前記代表特徴値を基準DBに問合せて性別及び年齢を識別する(S300)。
At the same time, the
最終識別部300は、ステップS200及びステップS300によって識別された少なくとも一つの性別及び年齢に対して相互類似度または確率を考慮して最終的に性別及び年齢を識別する(S400)。
The
以下では、図5を参照して図4の音声から性別と年齢を識別するステップ(S200)について詳しく説明する。 Hereinafter, with reference to FIG. 5, the step of identifying gender and age from the voice of FIG. 4 (S200) will be described in detail.
一般に女性の音声情報と子供の音声情報は類似しているので区別し難いが、女性及び子供の音声情報と男性の音声情報とは区別が容易である点に着目して、音声信号に対し性別特徴を優先的に反映して特徴値を抽出し男性と女性及び子供グループとを分類する(S210)。 In general, it is difficult to distinguish female and child's voice information because they are similar to each other. However, it is easy to distinguish between female and child's voice information and male's voice information. The feature value is preferentially reflected and the feature value is extracted to classify the male, female and child groups (S210).
このように、音声情報に対して性別特徴を優先的に反映することは、音声情報では性別特徴による差が大きいことを利用したものであり、これにより演算を迅速且つ效率良く行うことができるようになる。 As described above, the preferential reflection of the gender feature on the voice information is based on the fact that the voice information has a large difference depending on the gender feature, so that the calculation can be performed quickly and efficiently. become.
分類結果によって、入力された音声情報を男性グループまたは女性及び子供グループに区別し、男性グループに分類された音声情報に対して男性の年齢別特徴を反映した一つ以上の年齢別特徴値を抽出する(S220)。 Based on the classification results, the input voice information is classified into male groups or female and child groups, and one or more age-specific feature values reflecting male age characteristics are extracted from the voice information classified into male groups. (S220).
また、女性及び子供グループに分類された音声情報に対しては、音声情報が女性グループであるかまたは子供グループであるかを区別できるように、女性及び子供の年齢別特徴を反映した年齢別特徴値を抽出し、女性と子供とを区別する(S230)。 In addition, for voice information classified into female and child groups, age-specific features that reflect the age-specific features of women and children so that the voice information can be distinguished from female or child groups. A value is extracted and a woman and a child are distinguished (S230).
その後、女性グループに区別された音声情報に対して女性の年齢別特徴を反映した年齢別特徴抽出を行う(S240)。 After that, age-specific feature extraction that reflects the age-specific features of women is performed on the voice information that is classified into the female groups (S240).
また、子供グループに区別された音声情報に対しては子供の性別及び年齢別特徴抽出を行う(S250)。 In addition, the child's sex and age-specific features are extracted from the voice information distinguished by the child group (S250).
このように抽出された特徴値のうち音声情報に対する代表特徴値を決定し、対象者の性別及び年齢を識別する。 Among the extracted feature values, a representative feature value for the voice information is determined, and the sex and age of the target person are identified.
例えば、音声演算部120が音声特徴抽出部110によって抽出された一つ以上の特徴値に対して代表特徴値を決定し、決定された代表特徴値を基に基準DBを用いて性別及び年齢を識別できる。代表特徴値の決定または性別及び年齢の識別は、前述のように男性グループ、女性グループ及び子供グループ別に各々行われることが好ましい。
For example, the
即ち、男性グループに区分された音声情報の特徴値に対して音声演算−Mを行うか(S225)、女性グループに区分された音声情報の特徴値に対して音声演算−Fを行うか(S245)、子供グループに区分された音声情報の特徴値に対して音声演算−Cを行って(S255)性別及び年齢を識別することができる。 That is, whether voice calculation-M is performed on feature values of voice information classified into male groups (S225) or whether voice calculation-F is performed on feature values of voice information classified into female groups (S245). ), Voice calculation-C is performed on the feature values of the voice information divided into child groups (S255), and the sex and age can be identified.
前述のように区別が容易な特徴(例えば、音声情報は性別による特徴)を基準に一次的に音声情報をグループ化し、前記基準によって区別された各グループに対し各グループ別特徴を反映して特徴値を抽出する方法を用いることは本発明の大きな特徴の一つである。前記のような段階的な抽出方法を用いることによって、本発明は識別の正確性を確保することができ、また演算の重複性を排除して対象者の年齢及び性別を迅速に識別することができる。 As described above, voice information is primarily grouped on the basis of features that can be easily distinguished (for example, voice information is a feature by gender), and features that reflect the characteristics of each group for each group distinguished by the criteria. The use of a method for extracting values is one of the major features of the present invention. By using the stepwise extraction method as described above, the present invention can ensure the accuracy of identification, and can quickly identify the age and gender of the subject by eliminating the duplication of computation. it can.
以下では、図6を参照して図4の映像によって性別と年齢を識別するステップ(S300)について詳しく説明する。 Hereinafter, with reference to FIG. 6, the step of identifying the gender and age from the video of FIG. 4 (S300) will be described in detail.
映像情報の場合には、一般的に大人と子供を区別することが容易である。例えば、身長のような生体情報を用いるか、顔の大きさと耳、目、口、鼻の大きさとの相対的な比率などを用いて大人と子供を容易に区別することができる。 In the case of video information, it is generally easy to distinguish adults from children. For example, an adult and a child can be easily distinguished by using biological information such as height or using a relative ratio between the size of the face and the size of the ears, eyes, mouth, and nose.
このような点を用いて、本発明の映像類似度識別ステップでは、一次的に入力を受けた映像情報(顔情報または顔情報を含む映像情報。以下、「顔情報」と称する)に対して前記の年齢別特徴を考慮した特徴値抽出を行う(S310)。前記のようなステップによって入力された顔情報は、子供グループと大人グループに容易に区分されることができる。 By using such points, in the video similarity identification step of the present invention, for the video information (video information including face information or face information; hereinafter referred to as “face information”) that is primarily input. Feature value extraction is performed in consideration of the age-specific features (S310). The face information input through the above steps can be easily divided into a child group and an adult group.
その後、子供グループに区分された顔情報に対して子供の年齢別特徴を考慮した年齢別特徴を抽出し(S320)、子供の性別特徴を考慮した性別特徴抽出を行う(S330)。 Then, age-specific features are extracted from the face information divided into child groups in consideration of the age-specific features of the children (S320), and gender feature extraction is performed in consideration of the child's gender features (S330).
大人グループに区分された顔情報に対し、大人の性別特徴を考慮した性別特徴抽出を行って大人グループの顔情報を男性グループまたは女性グループに区別する(S340)。 The face information classified into the adult groups is subjected to sex feature extraction considering the sex characteristics of the adults to distinguish the face information of the adult groups into male groups or female groups (S340).
その後、男性グループに区分された顔情報に対し男性の年齢別特徴を考慮した特徴抽出方法を用いて一つ以上の特徴値を抽出する(S350)。女性グループに区分された顔情報に対しては、女性の年齢別特徴を考慮して一つ以上の特徴値を抽出する(S360)。 Thereafter, one or more feature values are extracted from the face information classified into male groups using a feature extraction method that takes into account the male age-specific features (S350). For face information classified into female groups, one or more feature values are extracted in consideration of the age-specific features of women (S360).
映像演算部220は、前述のように映像特徴抽出部210によって抽出された特徴値に対し加重値を反映して代表特徴値を決定し、その決定された代表特徴値及び基準DBを用いて性別及び年齢を識別する。このような映像情報による性別及び年齢識別は、図6に示すように、子供グループ、男性グループ及び女性グループ別に各々行われることが好ましい(S325、S355、S365)。
The
以上、本発明について添付図面を参照して詳しく説明したが、これは例示したものに過ぎず、本発明の技術的な思想の範囲内で様々な変形と変更が可能であることは自明である。従って、本発明の保護範囲は、前述した実施の形態に限定されてはならず、添付した特許請求範囲の記載による範囲及びそれと均等な範囲を含んで決定されなければならない。 The present invention has been described in detail with reference to the accompanying drawings. However, this is merely an example, and it is obvious that various modifications and changes can be made within the scope of the technical idea of the present invention. . Therefore, the protection scope of the present invention should not be limited to the above-described embodiments, but should be determined including the scope described in the appended claims and a scope equivalent thereto.
10 入力部
20 年齢−性別演算部
30 出力部
100 音声処理部
200 映像処理部
300 最終識別部
DESCRIPTION OF
Claims (19)
前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、
前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、
前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせ演算を行って性別及び年齢を最終決定するステップと、
を含むことを特徴とする性別−年齢識別方法。 Collecting video information and audio information;
Extracting one or more feature values from the collected voice information, and using the extracted feature values to identify gender and age;
Extracting one or more feature values for the collected video information, and using the extracted feature values to identify gender and age;
Finally determining the gender and age by performing a combination operation of the gender and age identified using the voice information and the gender and age identified using the face information;
A gender-age identification method comprising:
前記入力された音声情報に対し音声の性別特徴を反映して特徴値を抽出する第1性別特徴抽出ステップと、
前記第1性別特徴抽出ステップによって男性グループに区分された前記音声情報に対し、男性の年齢別特徴を反映して特徴値を抽出する第1年齢別特徴抽出ステップと、
前記第1性別特徴抽出ステップによって女性及び子供グループに区分された前記音声情報に対し、女性及び子供の年齢別特徴を反映して特徴値を抽出する第2年齢別特徴抽出ステップと、
をさらに含むことを特徴とする請求項1に記載の性別−年齢識別方法。 The gender and age identification step using the audio information includes:
A first gender feature extraction step of extracting a feature value reflecting the gender feature of the voice with respect to the input voice information;
A first age-specific feature extraction step for extracting feature values reflecting the male age-specific features for the voice information divided into male groups by the first gender feature extraction step;
A second age-specific feature extracting step of extracting feature values reflecting the age-specific features of women and children with respect to the voice information divided into the female and child groups by the first sex-feature extracting step;
The gender-age identification method according to claim 1, further comprising:
前記第2年齢別特徴抽出ステップによって女性グループに区分された前記音声情報に対し、女性の年齢別特徴を反映して特徴値を抽出する第3年齢別特徴抽出ステップと、
前記第2年齢別特徴抽出ステップによって子供グループに区分された前記音声情報に対し、子供の性別特徴を反映して特徴値を抽出する第2性別特徴抽出ステップと、
をさらに含むことを特徴とする請求項2に記載の性別−年齢識別方法。 The gender and age identification step using the audio information includes:
A third age-specific feature extraction step for extracting a feature value reflecting the female age-specific feature for the voice information classified into the female group by the second age-specific feature extracting step;
A second sex feature extraction step for extracting a feature value reflecting the sex feature of the child with respect to the voice information divided into child groups by the second age feature extraction step;
The gender-age identification method according to claim 2, further comprising:
前記抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する代表特徴値決定ステップと、
前記代表特徴値を基準に基準DBを参照して前記性別及び年齢を識別する識別ステップと、
を含むことを特徴とする請求項1に記載の性別−年齢識別方法。 The gender and age identification step using the audio information includes:
A representative feature value determining step of determining a representative feature value by reflecting a weight value with respect to the one or more extracted feature values;
An identification step of identifying the gender and age with reference to a standard DB based on the representative feature value;
The gender-age identification method according to claim 1, further comprising:
前記収集された映像情報に対し年齢別特徴を反映して特徴値を抽出する第1特徴抽出ステップと、
前記第1特徴抽出ステップの結果によって大人と子供を区別した後、男性、女性及び子供グループ別に分類して各グループ別に一つ以上の特徴値を抽出する第2特徴抽出ステップと、
を含むことを特徴とする請求項1に記載の性別−年齢識別方法。 Gender and age identification step using the video information,
A first feature extracting step of extracting a feature value reflecting the age-specific feature with respect to the collected video information;
A second feature extracting step of distinguishing between an adult and a child according to a result of the first feature extracting step, and then classifying the group into a group of men, women and children and extracting one or more feature values for each group;
The gender-age identification method according to claim 1, further comprising:
前記抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する代表特徴値決定ステップと、
前記代表特徴値を基準に基準DBを用いて前記性別及び年齢を識別する識別ステップと、をさらに含み、
前記代表特徴値決定ステップ及び前記演算ステップは、男性グループ、女性グループ及び子供グループ別に各々行われることを含む
ことを特徴とする請求項8に記載の性別−年齢識別方法。 Gender and age identification step using the video information,
A representative feature value determining step of determining a representative feature value by reflecting a weight value with respect to the one or more extracted feature values;
An identification step of identifying the gender and age using a reference DB based on the representative feature value,
The gender-age identification method according to claim 8, wherein the representative feature value determination step and the calculation step include being performed for each of a male group, a female group, and a child group.
少なくとも一つの前記音声情報を用いて識別された性別及び年齢と、少なくとも一つの前記映像情報を用いて識別された性別及び年齢各々に対して相互類似度を演算するステップと、
前記相互類似度が最も高い性別及び年齢を最終性別及び年齢に決定するステップと、
を含むことを特徴とする請求項1に記載の性別−年齢識別方法。 The final step of gender and age is
Calculating a gender and age identified using at least one of the audio information and a gender and age identified using at least one of the video information;
Determining the gender and age with the highest mutual similarity as the final gender and age;
The gender-age identification method according to claim 1, further comprising:
前記収集された音声情報に対して特徴値を抽出し、抽出された特徴値を用いて前記音声情報から性別及び年齢を識別する音声処理部と、
前記収集された映像情報に対して特徴値を抽出し、抽出された特徴値を用いて前記映像情報から性別及び年齢を識別する映像処理部と、
前記映像処理部で識別された性別及び年齢と前記音声処理部で識別された性別及び年齢とを組み合わせ演算を行って前記特定人の性別及び年齢を最終決定する最終識別部と、
を含むことを特徴とする性別−年齢識別装置。 An input unit for collecting video information and audio information;
A voice processing unit that extracts a feature value for the collected voice information, and uses the extracted feature value to identify gender and age from the voice information;
Extracting a feature value for the collected video information, and using the extracted feature value, a video processing unit for identifying gender and age from the video information;
A final identification unit that finally determines the gender and age of the specific person by performing a combination operation of the sex and age identified by the video processing unit and the gender and age identified by the audio processing unit;
A gender-age identification device comprising:
前記収集された音声情報に対し音声の性別特徴または年齢別特徴を反映して特徴値を抽出する音声特徴抽出部と、
前記音声特徴抽出部から抽出された特徴値に対して代表特徴値を抽出し、前記代表特徴値を用いて前記性別及び年齢を識別する音声演算部と、
を含むことを特徴とする請求項12に記載の性別−年齢識別装置。 The voice processing unit
A voice feature extraction unit that extracts a feature value by reflecting a gender feature or an age feature of the voice with respect to the collected voice information;
A representative feature value extracted from the feature value extracted from the voice feature extraction unit, and a voice calculation unit that identifies the gender and age using the representative feature value;
The gender-age identification apparatus according to claim 12, comprising:
前記収集された映像情報に対し映像の性別特徴または年齢別特徴を反映して特徴値を抽出する映像特徴抽出部と、
前記映像特徴抽出部から抽出された特徴値に対して代表特徴値を抽出し、前記代表特徴値を用いて前記性別及び年齢を識別する映像演算部と、
を含むことを特徴とする請求項12に記載の性別−年齢識別装置。 The video processing unit
A video feature extraction unit that extracts a feature value by reflecting a gender feature or an age feature of the video with respect to the collected video information;
A video feature that extracts representative feature values from the feature values extracted from the video feature extractor, and identifies the sex and age using the representative feature values;
The gender-age identification apparatus according to claim 12, comprising:
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080132626A KR101189765B1 (en) | 2008-12-23 | 2008-12-23 | Method and apparatus for classification sex-gender based on voice and video |
KR10-2008-0132626 | 2008-12-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010152866A true JP2010152866A (en) | 2010-07-08 |
JP4881980B2 JP4881980B2 (en) | 2012-02-22 |
Family
ID=42571839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009182589A Expired - Fee Related JP4881980B2 (en) | 2008-12-23 | 2009-08-05 | Gender-age identification method and apparatus based on audio and video |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4881980B2 (en) |
KR (1) | KR101189765B1 (en) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015031671A1 (en) * | 2013-08-30 | 2015-03-05 | Biscotti Inc. | Physical presence and advertising |
CN104700843A (en) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | Method and device for identifying ages |
US9253520B2 (en) | 2012-12-14 | 2016-02-02 | Biscotti Inc. | Video capture, processing and distribution system |
US9300910B2 (en) | 2012-12-14 | 2016-03-29 | Biscotti Inc. | Video mail capture, processing and distribution |
CN105872792A (en) * | 2016-03-25 | 2016-08-17 | 乐视控股(北京)有限公司 | Voice-based service recommending method and device |
US9485459B2 (en) | 2012-12-14 | 2016-11-01 | Biscotti Inc. | Virtual window |
US9654563B2 (en) | 2012-12-14 | 2017-05-16 | Biscotti Inc. | Virtual remote functionality |
JP2018169494A (en) * | 2017-03-30 | 2018-11-01 | トヨタ自動車株式会社 | Utterance intention estimation device and utterance intention estimation method |
CN110321863A (en) * | 2019-07-09 | 2019-10-11 | 北京字节跳动网络技术有限公司 | Age recognition methods and device, storage medium |
CN110619889A (en) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | Sign data identification method and device, electronic equipment and storage medium |
WO2020174682A1 (en) | 2019-02-28 | 2020-09-03 | 日本電気株式会社 | Attribute estimation device, attribute estimation method, and computer-readable recording medium |
CN113506578A (en) * | 2021-06-30 | 2021-10-15 | 中汽创智科技有限公司 | Voice and image matching method and device, storage medium and equipment |
WO2022249241A1 (en) * | 2021-05-24 | 2022-12-01 | 日本電信電話株式会社 | Training device, training method, and training program |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016189158A (en) | 2015-03-30 | 2016-11-04 | 富士フイルム株式会社 | Image processing apparatus, image processing method, program, and recording medium |
CN107492381A (en) * | 2017-08-29 | 2017-12-19 | 郑杰 | The tone color configuration device and its method of a kind of chat robots |
CN113033263A (en) * | 2019-12-24 | 2021-06-25 | 深圳云天励飞技术有限公司 | Face image age feature recognition method |
KR102518690B1 (en) * | 2021-08-26 | 2023-04-05 | 한국로봇융합연구원 | Apparatus for purifying data for early screening of developmental disabilities based on learning model and method therefor |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005005899A (en) * | 2003-06-10 | 2005-01-06 | Sharp Corp | Telephone device equipped with automatic answering function |
JP2006121611A (en) * | 2004-10-25 | 2006-05-11 | Nippon Telegraph & Telephone West Corp | Telephone system, telephone system management apparatus, advertisement content distribution method, advertisement content distribution program and recording medium |
JP2007280291A (en) * | 2006-04-11 | 2007-10-25 | Nikon Corp | Electronic camera |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005487A (en) * | 1999-06-18 | 2001-01-12 | Mitsubishi Electric Corp | Voice recognition device |
JP2005122128A (en) | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | Speech recognition system and program |
KR20080090034A (en) | 2007-04-03 | 2008-10-08 | 삼성전자주식회사 | Voice speaker recognition method and apparatus |
-
2008
- 2008-12-23 KR KR1020080132626A patent/KR101189765B1/en not_active IP Right Cessation
-
2009
- 2009-08-05 JP JP2009182589A patent/JP4881980B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005005899A (en) * | 2003-06-10 | 2005-01-06 | Sharp Corp | Telephone device equipped with automatic answering function |
JP2006121611A (en) * | 2004-10-25 | 2006-05-11 | Nippon Telegraph & Telephone West Corp | Telephone system, telephone system management apparatus, advertisement content distribution method, advertisement content distribution program and recording medium |
JP2007280291A (en) * | 2006-04-11 | 2007-10-25 | Nikon Corp | Electronic camera |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9485459B2 (en) | 2012-12-14 | 2016-11-01 | Biscotti Inc. | Virtual window |
US9654563B2 (en) | 2012-12-14 | 2017-05-16 | Biscotti Inc. | Virtual remote functionality |
US9253520B2 (en) | 2012-12-14 | 2016-02-02 | Biscotti Inc. | Video capture, processing and distribution system |
US9300910B2 (en) | 2012-12-14 | 2016-03-29 | Biscotti Inc. | Video mail capture, processing and distribution |
US9310977B2 (en) | 2012-12-14 | 2016-04-12 | Biscotti Inc. | Mobile presence detection |
WO2015031671A1 (en) * | 2013-08-30 | 2015-03-05 | Biscotti Inc. | Physical presence and advertising |
CN104700843A (en) * | 2015-02-05 | 2015-06-10 | 海信集团有限公司 | Method and device for identifying ages |
CN105872792A (en) * | 2016-03-25 | 2016-08-17 | 乐视控股(北京)有限公司 | Voice-based service recommending method and device |
JP2018169494A (en) * | 2017-03-30 | 2018-11-01 | トヨタ自動車株式会社 | Utterance intention estimation device and utterance intention estimation method |
WO2020174682A1 (en) | 2019-02-28 | 2020-09-03 | 日本電気株式会社 | Attribute estimation device, attribute estimation method, and computer-readable recording medium |
CN110321863A (en) * | 2019-07-09 | 2019-10-11 | 北京字节跳动网络技术有限公司 | Age recognition methods and device, storage medium |
CN110619889A (en) * | 2019-09-19 | 2019-12-27 | Oppo广东移动通信有限公司 | Sign data identification method and device, electronic equipment and storage medium |
WO2022249241A1 (en) * | 2021-05-24 | 2022-12-01 | 日本電信電話株式会社 | Training device, training method, and training program |
CN113506578A (en) * | 2021-06-30 | 2021-10-15 | 中汽创智科技有限公司 | Voice and image matching method and device, storage medium and equipment |
Also Published As
Publication number | Publication date |
---|---|
KR101189765B1 (en) | 2012-10-15 |
JP4881980B2 (en) | 2012-02-22 |
KR20100073845A (en) | 2010-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4881980B2 (en) | Gender-age identification method and apparatus based on audio and video | |
WO2020248376A1 (en) | Emotion detection method and apparatus, electronic device, and storage medium | |
Aleksic et al. | Audio-visual biometrics | |
Mallol-Ragolta et al. | A hierarchical attention network-based approach for depression detection from transcribed clinical interviews | |
US20030110038A1 (en) | Multi-modal gender classification using support vector machines (SVMs) | |
Soltane et al. | Face and speech based multi-modal biometric authentication | |
Gosztolya | Using Fisher Vector and Bag-of-Audio-Words representations to identify Styrian dialects, sleepiness, baby & orca sounds | |
TWI395201B (en) | Method and system for identifying emotional voices | |
WO2012020591A1 (en) | System for identifying individuals, feature value specification device, feature specification method, and recording medium | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
JP2016502140A (en) | Combination of auditory attention cue and phoneme posterior probability score for sound / vowel / syllable boundary detection | |
TW201201115A (en) | Facial expression recognition systems and methods and computer program products thereof | |
Alshamsi et al. | Automated facial expression and speech emotion recognition app development on smart phones using cloud computing | |
CN112101096A (en) | Suicide emotion perception method based on multi-mode fusion of voice and micro-expression | |
Campbell et al. | Alzheimer's Dementia Detection from Audio and Text Modalities | |
Xu et al. | Multi-type features separating fusion learning for Speech Emotion Recognition | |
Mondal et al. | Secure and hassle-free EVM through deep learning based face recognition | |
JP3998628B2 (en) | Pattern recognition apparatus and method | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
WO2020000523A1 (en) | Signal processing method and apparatus | |
Chetty et al. | Robust face-voice based speaker identity verification using multilevel fusion | |
Altun et al. | Genetic algorithm based feature selection level fusion using fingerprint and iris biometrics | |
Dumpala et al. | A Cycle-GAN approach to model natural perturbations in speech for ASR applications | |
CN110738985A (en) | Cross-modal biometric feature recognition method and system based on voice signals | |
Egas-López et al. | Predicting a cold from speech using fisher vectors; svm and xgboost as classifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110415 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111205 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |