JP2010152866A - Sex-age identification method and device based on sound and image - Google Patents

Sex-age identification method and device based on sound and image Download PDF

Info

Publication number
JP2010152866A
JP2010152866A JP2009182589A JP2009182589A JP2010152866A JP 2010152866 A JP2010152866 A JP 2010152866A JP 2009182589 A JP2009182589 A JP 2009182589A JP 2009182589 A JP2009182589 A JP 2009182589A JP 2010152866 A JP2010152866 A JP 2010152866A
Authority
JP
Japan
Prior art keywords
age
gender
feature
information
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009182589A
Other languages
Japanese (ja)
Other versions
JP4881980B2 (en
Inventor
Hejin Kim
ヘジン キム
Ho Seop Yoon
ホソプ ユン
Dae Hwan Hwang
デファン ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2010152866A publication Critical patent/JP2010152866A/en
Application granted granted Critical
Publication of JP4881980B2 publication Critical patent/JP4881980B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sex-age identification method and device based on sound and image. <P>SOLUTION: The present invention relates to an identification device and method capable of accurately computing sex and age by performing sound recognition and face recognition in combination, considering a mutual relevancy between sex information and age information. The sex-age identification method includes: a step of collecting image information and sound information; a sound information-used sex and age identification step of extracting at least one characteristic value for the collected sound information and identifying sex and age by use of the extracted characteristic value; a face information-used sex and age identification step of extracting at least one characteristic value for the collected image information and identifying sex and age using the extracted characteristic value; and a step of finally determining sex and age by performing combination operation of the sex and age identified using the sound information and the sex and age identified using the face information. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、入力された映像情報及び音声情報から特定人の性別及び年齢を識別することができる方法及びその装置に関し、さらに詳しくは、性別情報と年齢情報の相互関連性を考慮して音声認識及び顔認識を組み合わせて行うことによって正確に性別及び年齢を演算することができる識別装置及び方法に関する。   The present invention relates to a method and apparatus for identifying gender and age of a specific person from input video information and audio information, and more particularly, speech recognition in consideration of the reciprocal relationship between gender information and age information. In addition, the present invention relates to an identification apparatus and method that can accurately calculate gender and age by combining face recognition.

従来技術によるユーザの性別及び年齢識別技術として、電子住民証のような個人識別手段を用いる方法、顔認識を用いる方法、音声認識を用いる方法などが存在する。   As a conventional technique for gender and age identification of a user, there are a method using personal identification means such as an electronic resident card, a method using face recognition, a method using voice recognition, and the like.

個人識別手段を用いる方法のうちの一つである電子住民証を用いた年齢認識方法(韓国公開特許第1999−0008679号)は、各個人が電子住民証のような個人識別手段をいつも携帯しなければならないという不便がある。また電子住民証のような個人識別手段は紛失、破損、偽造などが発生し易い問題点がある。   One of the methods using personal identification means is an age recognition method using an electronic resident ID (Korea Published Patent No. 1999-0008679), in which each individual always carries an individual identification means such as an electronic resident ID. There is an inconvenience of having to. In addition, personal identification means such as electronic resident cards are prone to loss, damage, forgery and the like.

従来の性別−年齢識別技術として使用される顔認識方法の場合には、顔映像情報のみで性別及び年齢を判断しているため、各個人ごとの特徴を反映し難く認識正確度が低い。また、音声認識を用いた認識方法の場合には、音声情報のみで性別及び年齢を判断するため、女性と子供のように音声的特徴が類似する場合などにおいてその認識正確度が劣る問題点がある。   In the case of a face recognition method used as a conventional gender-age identification technique, the gender and age are determined based only on the face image information, so that it is difficult to reflect the characteristics of each individual and the recognition accuracy is low. In addition, in the case of a recognition method using voice recognition, since gender and age are determined only by voice information, there is a problem that the recognition accuracy is inferior when voice characteristics are similar, such as a woman and a child. is there.

また、従来の顔認識または音声認識に基づく識別方式は、性別によって特徴の分布が異なる特異性、または年齢によって性別の特徴分布が異なる特異性などを反映して年齢及び性別を識別することができないため、演算の正確度が低く演算量も多いという短所がある。   In addition, conventional identification methods based on face recognition or voice recognition cannot identify age and gender, reflecting the specificity that the distribution of features differs by gender, or the specificity that the distribution of gender features varies by age. Therefore, the calculation accuracy is low and the calculation amount is large.

韓国公開特許第1999−0008679号公報Korean Published Patent No. 1999-0008679

本発明は、上述の問題点に鑑みてなされたもので、その目的は、性別情報と年齢情報の相互関連性を利用し、また音声認識及び顔認識を組み合わせることによって認識の正確度を向上させることのできる性別−年齢識別方法及びその装置を提供することにある。   The present invention has been made in view of the above-mentioned problems, and its purpose is to improve the accuracy of recognition by utilizing the correlation between gender information and age information and combining voice recognition and face recognition. An object is to provide a gender-age identification method and apparatus capable of performing the same.

上記目的を達成すべく、本発明の一態様による性別−年齢識別方法は、映像情報及び音声情報を収集するステップと、前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせて演算を行って性別及び年齢を最終決定するステップと、を含む。   In order to achieve the above object, a gender-age identification method according to an aspect of the present invention includes a step of collecting video information and audio information, and extracting one or more feature values from the collected audio information, Gender and age identification step using audio information for identifying gender and age using the extracted feature value, and one or more feature values are extracted for the collected video information, and the extracted Gender and age identification step using face information for identifying gender and age using feature values; gender and age identified using voice information; and gender and age identified using face information. Performing a combinational operation to finally determine gender and age.

本発明の他の態様による性別−年齢識別装置は、映像情報及び音声情報を収集する入力部と、前記収集された音声情報に対して特徴値を抽出し、抽出された特徴値を用いて前記音声情報から性別及び年齢を識別する音声処理部と、前記収集された映像情報に対して特徴値を抽出し、抽出された特徴値を用いて前記映像情報から性別及び年齢を識別する映像処理部と、前記映像処理部で識別された性別及び年齢と前記音声処理部で識別された性別及び年齢とを組み合わせて演算を行って前記特定人の性別及び年齢を最終決定する最終識別部と、を含む。   According to another aspect of the present invention, there is provided a gender-age identification apparatus, an input unit that collects video information and audio information, and a feature value extracted from the collected audio information, and the extracted feature value is used to extract the feature value. An audio processing unit for identifying gender and age from audio information, and a video processing unit for extracting feature values from the collected video information and identifying gender and age from the video information using the extracted feature values And a final identification unit that finally determines the sex and age of the specific person by performing a calculation by combining the gender and age identified by the video processing unit and the gender and age identified by the audio processing unit. Including.

本発明によれば、音声認識及び顔認識を組み合わせて行うので、従来の音声認識のみを用いた方法または顔認識のみを用いた方法に比べて認識正確度が向上する効果がある。   According to the present invention, since voice recognition and face recognition are performed in combination, the recognition accuracy is improved as compared with the conventional method using only voice recognition or the method using only face recognition.

また本発明は、性別情報と年齢情報の相互関連性、例えば、年齢識別は性別によって特徴の分布が異なる特異性、または年齢によって性別の特徴分布が異なる特異性などを反映して年齢及び性別を認識するので、従来の認識方法に比べて高い正確度を保障することができる効果がある。   In addition, the present invention reflects the interrelationship between sex information and age information, for example, age identification reflects the specificity of the distribution of characteristics depending on the sex, or the specificity of the distribution of characteristics of the sex depending on the age. Since the recognition is performed, there is an effect that a higher accuracy can be ensured as compared with the conventional recognition method.

さらに本発明は、特徴抽出において入力された情報に対して各入力情報別に容易に区別できる特徴を基準として一次的に音声情報をグループ化し、前記基準によって区別された各グループに対して各グループ別特徴を反映して特徴値を抽出する方法を用いることによって、識別の正確性を確保することができ、また演算の重複性を排除して迅速な識別を行うことができる効果がある。   Furthermore, the present invention provides a method for grouping speech information primarily on the basis of features that can be easily distinguished for each input information with respect to information input in feature extraction, and for each group distinguished by the criteria. By using the method of extracting feature values reflecting the features, it is possible to ensure the accuracy of the identification, and it is possible to eliminate the duplication of operations and perform the quick identification.

本発明に係る性別−年齢識別装置の一実施形態を示す構成図である。It is a block diagram which shows one Embodiment of the sex-age identification apparatus which concerns on this invention. 図1に係る音声処理部の詳細構成図である。It is a detailed block diagram of the audio | voice processing part which concerns on FIG. 図1に係る映像処理部の詳細構成図である。FIG. 2 is a detailed configuration diagram of a video processing unit according to FIG. 1. 本発明に係る性別−年齢識別方法のフローチャートである。3 is a flowchart of a gender-age identification method according to the present invention. 図4の音声類似度識別ステップの詳細なフローチャートである。It is a detailed flowchart of the audio | voice similarity identification step of FIG. 図4の映像類似度識別ステップの詳細なフローチャートである。5 is a detailed flowchart of a video similarity identification step in FIG. 4.

以下、本発明の好ましい実施の形態を、添付図面に基づき詳細に説明する。   Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

図1は、本発明による性別−年齢識別装置の一実施形態を示す構成図である。   FIG. 1 is a block diagram showing an embodiment of a gender-age identification apparatus according to the present invention.

図1に示すように、本発明による性別−年齢識別装置は、入力部10、年齢−性別演算部20及び出力部30を含んで構成される。   As shown in FIG. 1, the gender-age identification apparatus according to the present invention includes an input unit 10, an age-gender calculation unit 20, and an output unit 30.

入力部10は、特定人の映像情報及び音声情報を収集する。   The input unit 10 collects video information and audio information of a specific person.

このような入力部10は、映像情報を取得できるカメラのような映像情報取得手段及び音響情報を取得できるスピーカー(マイク)のような音響情報取得手段を含んで構成することができる。   Such an input unit 10 can be configured to include video information acquisition means such as a camera that can acquire video information and acoustic information acquisition means such as a speaker (microphone) that can acquire acoustic information.

また入力部10は、映像情報取得手段によって取得された映像情報から特定人の顔情報のみを別途抽出する顔抽出手段及び音響情報取得手段によって取得された音響情報から特定人の音声情報のみを別途抽出できる音声抽出手段を含んで構成することができる。この場合、年齢−性別演算部20の各特徴抽出手段が毎度顔情報及び音声情報を映像情報及び音響情報から別途抽出する必要がないので迅速な演算が可能になる。   Further, the input unit 10 separately extracts only the voice information of the specific person from the acoustic information acquired by the face extraction means and the acoustic information acquisition means that separately extracts only the face information of the specific person from the video information acquired by the video information acquisition means. A voice extraction means that can be extracted can be included. In this case, each feature extraction unit of the age-gender calculation unit 20 does not need to separately extract face information and audio information from the video information and the sound information every time, so that quick calculation is possible.

かかる顔抽出手段及び音声抽出手段は、従来の顔検出技術を用いて具現されることができる。例えば、顔抽出のために知識ベース手法(Knowledge-baSed MethodS)、特徴ベース手法(Feature-baSed MethodS)、テンプレートマッチング手法(Template-matching MethodS)、見え方に基づいた手法(Appearance-baSed MethodS)、熱赤外線(Infra Red)方法、3次元顔認識方法、マルチモーダル方法などを用いて顔抽出手段を具現することができる。   Such face extraction means and voice extraction means can be implemented using conventional face detection technology. For example, for face extraction, a knowledge-based method (Knowledge-baSed MethodS), a feature-based method (Feature-baSed MethodS), a template matching method (Template-matching MethodS), a method based on appearance (Appearance-baSedM) The face extraction means can be implemented using a thermal infrared (Infra Red) method, a three-dimensional face recognition method, a multimodal method, or the like.

年齢−性別演算部20は、音声情報を基に年齢及び性別を識別する音声処理部100と、映像情報を基に年齢及び性別を識別する映像処理部200と、音声処理部100と映像処理部200の演算結果を総合して年齢及び性別を決定する最終識別部300と、を含んで構成される。   The age-gender computing unit 20 includes an audio processing unit 100 that identifies age and gender based on audio information, a video processing unit 200 that identifies age and gender based on video information, an audio processing unit 100, and a video processing unit. And a final discriminating unit 300 that determines the age and sex by combining the 200 calculation results.

出力部30は、年齢−性別演算部20から伝達された年齢及び性別を出力する。   The output unit 30 outputs the age and sex transmitted from the age-sex calculating unit 20.

以下図2及び図3を参照して、年齢−性別演算部20について詳しく説明する。   Hereinafter, the age-sex calculator 20 will be described in detail with reference to FIGS. 2 and 3.

図2は、図1による音声処理部100の詳細構成図である。   FIG. 2 is a detailed configuration diagram of the audio processing unit 100 according to FIG.

図2に示すように、音声処理部100は音声情報から特徴値を抽出する音声特徴抽出部110及びその抽出された特徴値から性別及び年齢を識別する音声演算部120を含んで構成される。   As shown in FIG. 2, the speech processing unit 100 includes a speech feature extraction unit 110 that extracts feature values from speech information and a speech calculation unit 120 that identifies gender and age from the extracted feature values.

さらに詳しく説明すると、音声特徴抽出部110は、音声情報に対して一つ以上の特徴値または特徴ベクトル(以下、「特徴値」と通称する)を抽出する。このような音声特徴抽出部110は、線形予測係数(Linear Predictive Coefficient)方法、ケプストラム(CepStrum)方法、メルフリークエンシーケプストラム(Mel Frequency CepStral Coefficient)方法、フィルタバンクエネルギ(Filter Bank Energy)方法などを用いたり、これらを組み合わせて特徴値を抽出することができる。   More specifically, the speech feature extraction unit 110 extracts one or more feature values or feature vectors (hereinafter referred to as “feature values”) from the speech information. The speech feature extraction unit 110 uses a linear predictive coefficient method, a cepstrum method, a mel frequency cepstrum coefficient method, a filter bank energy method such as a filter bank energy method. These can be combined to extract feature values.

音声特徴抽出部110は、前述の特徴値識別方法を複数適用して同一の音声情報から複数個の特徴値を抽出するか、単一の特徴値識別方法を使用し複数のサンプルを用いて複数個の特徴値を識別することができる。N個の特徴識別方法でM個の音声サンプルを対象に特徴値を得ると(N*M)の行列形態に特徴値を現すことができる。   The voice feature extraction unit 110 extracts a plurality of feature values from the same voice information by applying a plurality of the above-described feature value identification methods, or uses a plurality of samples using a single feature value identification method. Individual feature values can be identified. When feature values are obtained for M speech samples by N feature identification methods, the feature values can be expressed in a matrix form of (N * M).

本発明の実施形態では、音声に対する特徴抽出を正確且つ迅速に行うために、性別特徴抽出部111、年齢別特徴抽出部−M112、年齢別特徴抽出部−FC113、年齢別特徴抽出部−F114及び性別特徴抽出部−C115を含んで音声特徴抽出部110を構成する。   In the embodiment of the present invention, in order to accurately and quickly extract features from speech, a gender feature extraction unit 111, an age-specific feature extraction unit-M112, an age-specific feature extraction unit-FC113, an age-specific feature extraction unit-F114, and A speech feature extraction unit 110 is configured including a gender feature extraction unit-C115.

性別特徴抽出部111は、入力された音声情報に対する男性と女性の相違点、即ち、性別特徴を反映して特徴値を抽出し、抽出された特徴値を基準に音声情報を男性グループ(M)または女性及び子供グループ(FC)に区分する。   The gender feature extraction unit 111 extracts a difference between male and female with respect to the input voice information, that is, extracts a feature value reflecting the gender feature, and sets the voice information as a male group (M) based on the extracted feature value. Or categorize into women and children groups (FC).

年齢別特徴抽出部−M112は、性別特徴抽出部111によって男性グループ(M)に区分された音声情報に対して特徴値を抽出する。この場合に入力される音声情報は男性の音声情報であると判断された音声情報であるため、それに対して男性の年齢別特徴を反映して特徴値を抽出することができる。   The age-specific feature extraction unit-M112 extracts feature values for the speech information classified into the male group (M) by the gender feature extraction unit 111. Since the voice information input in this case is voice information determined to be male voice information, a feature value can be extracted by reflecting male age characteristics.

年齢別特徴抽出部−FC113は、性別特徴抽出部111によって女性及び子供グループ(FC)に区分された音声情報に対して、女性及び子供の年齢別特徴を反映して特徴値を抽出することができる。その後、入力音声情報を改めて女性グループ(F)と子供グループ(C)に区分する。ここで、子供グループ(C)は男女の特徴を区分し難い変声期以前の人を対象とするグループである。   The age-specific feature extraction unit-FC 113 may extract feature values reflecting the age-specific features of women and children from the voice information classified into the women and children group (FC) by the gender feature extraction unit 111. it can. Thereafter, the input voice information is again divided into a female group (F) and a child group (C). Here, the child group (C) is a group for people before the voice change period, in which it is difficult to distinguish the characteristics of men and women.

年齢別特徴抽出部−F114は、年齢別特徴抽出部−FC113によって女性グループ(F)に区分された音声情報に対して、女性の年齢別特徴を反映して特徴値を抽出することができる。   The age-specific feature extraction unit-F114 can extract the feature value by reflecting the age-specific feature of the woman in the voice information classified into the female group (F) by the age-specific feature extraction unit-FC113.

性別特徴抽出部−C115は、年齢別特徴抽出部−FC113によって子供グループ(C)に区分された前記音声情報に対して、子供の性別特徴を反映して特徴値を抽出する。   The gender feature extraction unit-C115 extracts a feature value reflecting the gender feature of the child from the audio information classified into the child group (C) by the age-specific feature extraction unit-FC113.

音声演算部120は、前述のように音声特徴抽出部110によって抽出された特徴値の入力を受けて入力音声の性別及び年齢を識別することができる。   The voice calculation unit 120 can identify the gender and age of the input voice in response to the input of the feature value extracted by the voice feature extraction unit 110 as described above.

このために音声演算部120は、音声特徴抽出部110から抽出された特徴値に対して加重値を反映して代表特徴値を決定する組合演算部と、決定された代表特徴値に基づき、性別及び年齢別基準特徴値または音声及び映像基準サンプルを保存している基準DBを参照して性別及び年齢を識別する識別部とを含む。   For this purpose, the speech computation unit 120 includes a combination computation unit that determines a representative feature value by reflecting a weighted value for the feature value extracted from the speech feature extraction unit 110, and a gender based on the determined representative feature value. And an identification unit that identifies gender and age with reference to a standard DB storing age standard feature values or audio and video standard samples.

また音声演算部120は、図2に示すように、音声特徴抽出部110でグループ化した男性グループ(M)、女性グループ(F)及び子供グループ(C)に対して各々最適化された組合演算部及び識別部を各々備えるように構成することが好ましい。   Further, as shown in FIG. 2, the voice calculation unit 120 is a combination calculation optimized for each of the male group (M), the female group (F), and the child group (C) grouped by the voice feature extraction unit 110. It is preferable to comprise so that a part and an identification part may be provided respectively.

以下では、このように各々組合演算部及び識別部が備えられた図2に示す実施の形態を基準に説明する。   Below, it demonstrates on the basis of embodiment shown in FIG. 2 with which the combination calculating part and the identification part were each provided in this way.

音声演算部120は、音声特徴抽出部110で男性グループ(M)に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−M121と、女性グループ(F)に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−F122と、子供グループ(C)に区分された音声情報から抽出された特徴値の入力を受けて性別及び年齢を演算する音声演算部−C123と、から構成することができる。   The voice calculation unit 120 receives a feature value extracted from the voice information classified into the male group (M) by the voice feature extraction unit 110, calculates a gender and age, and a female group (M121). F) a voice calculation unit F122 that calculates the gender and age in response to the input of the feature value extracted from the voice information classified into F), and the feature value extracted from the voice information classified into the child group (C) The voice calculation unit -C123 that receives the input and calculates gender and age can be used.

さらに詳しく説明すると、音声演算部−M121は組合演算部−M121Aと識別部−M121Bとを含む。組合演算部−M121Aは、男性グループ(M)に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する。識別部−M121Bは、その代表特徴値を基に基準DBを参照して性別及び年齢を識別することができる。また組合演算部−M121Aは、男性グループに区分された音声情報の入力を受けて組合演算を行うので、前述のように性別特徴抽出部111及び年齢別特徴抽出部−M112から抽出された特徴値の入力を受けることができる。   More specifically, the voice calculation unit-M121 includes a combination calculation unit-M121A and an identification unit-M121B. The combination calculation unit-M121A determines a representative feature value by assigning a weight value to one or more feature values extracted from the speech information classified into the male group (M). The identification unit-M121B can identify gender and age with reference to the standard DB based on the representative feature value. Further, since the union calculation unit-M121A receives the input of the voice information divided into male groups and performs the union calculation, the feature values extracted from the gender feature extraction unit 111 and the age-specific feature extraction unit-M112 as described above Can be input.

同様に音声演算部-F122は、女性グループ(F)に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する組合演算部−F122Aと、その代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部−F122Bと、を含む。前述のように、組合演算部−F122Aは、性別特徴抽出部111、年齢別特徴抽出部−FC113及び年齢別特徴抽出部−F114から抽出された特徴値の入力を受けることができる。   Similarly, the voice calculation unit-F122 is a combination calculation unit-F122A that determines a representative feature value by assigning a weight to one or more feature values extracted from the voice information divided into the female group (F). , And an identification unit -F122B that identifies gender and age with reference to the standard DB based on the representative feature value. As described above, the combination calculation unit-F122A can receive the feature values extracted from the gender feature extraction unit 111, the age feature extraction unit-FC113, and the age feature extraction unit-F114.

また音声演算部−C123は、子供グループ(C)に区分された音声情報から抽出された一つ以上の特徴値に対し加重値を付与して代表特徴値を決定する組合演算部−C123Aと、その代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部−C123Bと、を含む。また前述のように、組合演算部−C123Aは、性別特徴抽出部111、年齢別特徴抽出部−FC113及び年齢別特徴抽出部−C115から抽出された特徴値の入力を受けることができる。   The voice calculation unit -C123 includes a combination calculation unit -C123A that determines a representative feature value by assigning a weight value to one or more feature values extracted from the voice information divided into child groups (C); An identification unit -C123B that identifies gender and age with reference to the standard DB based on the representative feature value. Further, as described above, the combination calculation unit-C123A can receive the feature values extracted from the gender feature extraction unit 111, the age feature extraction unit-FC113, and the age feature extraction unit-C115.

このような年齢及び性別を識別するために、GMM(GauSSian Mixture Model)、NN(Neural Network)、SVM(Support Vector Machine)などのアルゴリズムを用いて年齢及び性別を識別することができる。しかし、前述したアルゴリズムは例示的なものに過ぎず、前述したアルゴリズム以外にも様々なアルゴリズムを用いて特徴値から年齢及び性別を識別できることは言うまでもない。   In order to identify such age and sex, the age and sex can be identified using algorithms such as GMM (GauSSian Mixture Model), NN (Neural Network), SVM (Support Vector Machine) and the like. However, the algorithm described above is merely an example, and it goes without saying that the age and sex can be identified from the feature values using various algorithms other than the algorithm described above.

例えば、GMMのアルゴリズムを用いる場合、各組合演算部121A、122A、123Aは、特徴識別方法の数Nまたは複数個のサンプルの数N個に対応してN個の尤度値(likelihood)を計算し、かかるN個の尤度値で代表値を決定することができる。代表値を決定するために、組合演算部121A、122A、123AはN個尤度値の平均値を求めるか、最大値を求めるか、最小値を求めるか、全体値を合算して代表値を決定することができる。   For example, when the GMM algorithm is used, each combination calculation unit 121A, 122A, 123A calculates N likelihood values (likelihood) corresponding to the number N of feature identification methods or the number N of a plurality of samples. Then, the representative value can be determined by such N likelihood values. In order to determine the representative value, the combination calculation units 121A, 122A, and 123A determine the average value of the N likelihood values, the maximum value, the minimum value, or the total value to obtain the representative value. Can be determined.

また組合演算部121A、122A、123Aは、代表特徴値の識別において加重値を付与して代表特徴値を識別することができる。このような加重値は、場合によって設定されるかまたは経験的に蓄積された情報を用いて設定することができる。例えば、騷音の発生が頻繁な環境においては、騷音帯域に該当する特徴値部分は加重値を低く設定し、一般的な音声帯域のうち中間程度の帯域に該当する特徴値部分は高い加重値を付与することができる。また各組合演算部121A、122A、123Aは、前述した各グループ(男性、女性、子供)に対して音声的特徴を反映して各々異なる加重値を付与して代表特徴値を決定することができる。   In addition, the combination calculation units 121A, 122A, and 123A can identify the representative feature value by assigning a weight value in identifying the representative feature value. Such weights can be set by case or using information accumulated empirically. For example, in an environment where stuttering frequently occurs, the feature value portion corresponding to the stuttering band is set to a low weight value, and the feature value portion corresponding to the middle band of the general voice band is highly weighted. A value can be assigned. Each union operation unit 121A, 122A, 123A can determine representative feature values by assigning different weights to the above-described groups (male, female, child) and reflecting voice features. .

以上では音声情報を男性グループ、女性グループ及び子供グループに分けて説明したが、音声情報から抽出した特徴値を特定グループに区分することが難しい場合には、抽出した音声情報を各グループに重複適用することが好ましい。即ち、グループに区分することが難しい音声情報の場合には、該当する各グループに対して演算を各々適用した後、各識別部の結果同士の類似度や正常識別確率、信頼度などを考慮して最終的に最終識別部300によって年齢及び性別を決定する。   In the above, audio information was divided into male groups, female groups, and child groups. However, if it is difficult to classify feature values extracted from audio information into specific groups, the extracted audio information is applied to each group in duplicate. It is preferable to do. In other words, in the case of speech information that is difficult to classify into groups, after applying the calculation to each corresponding group, the similarity between the results of each identification unit, the normal identification probability, the reliability, etc. are considered. Finally, the final identification unit 300 determines the age and sex.

図3は、図1による映像処理部の詳細構成図である。   FIG. 3 is a detailed block diagram of the video processing unit shown in FIG.

図3に示すように、映像処理部200は、映像情報から特徴値を抽出する映像特徴抽出部210及びその抽出された特徴値から性別及び年齢を演算する映像演算部220を含んで構成される。   As shown in FIG. 3, the video processing unit 200 includes a video feature extraction unit 210 that extracts feature values from video information, and a video calculation unit 220 that calculates gender and age from the extracted feature values. .

映像特徴抽出部210は映像情報の入力を受けて特徴値を抽出することができる。このような映像特徴抽出部210は、さらに年齢別特徴抽出部211、年齢別特徴抽出部−C212、性別特徴抽出部−C213、性別特徴抽出部−A214、年齢別特徴抽出部−M215及び年齢別特徴抽出部−F216を含むことができる。   The video feature extraction unit 210 can extract feature values in response to input of video information. The video feature extraction unit 210 further includes an age-specific feature extraction unit 211, an age-specific feature extraction unit-C212, a sex-specific feature extraction unit-C213, a sex-specific feature extraction unit-A214, an age-specific feature extraction unit-M215, and an age-specific feature. A feature extraction unit-F216 may be included.

年齢別特徴抽出部211は、入力された顔情報に対し年齢別特徴を反映して特徴値を抽出し、抽出された特徴値を基準に入力された顔情報を大人グループ(A)または子供グループ(C)に区分する。例えば、顔情報の場合、顔の大きさと目の大きさとの比例、目元のシワの有無などを基に大人と子供を区分することが容易である。また年齢別特徴抽出部211は、前記のような年齢別特徴を反映して入力された顔情報に対して特徴値を抽出することができる。   The age-specific feature extraction unit 211 extracts feature values by reflecting the age-specific features with respect to the input face information, and the input face information based on the extracted feature values is converted into an adult group (A) or a child group. Classify into (C). For example, in the case of face information, it is easy to distinguish adults and children based on the proportionality between the size of the face and the size of the eyes, the presence or absence of wrinkles at the eyes, and the like. The age-specific feature extraction unit 211 can extract a feature value for face information input reflecting the above-mentioned age-specific features.

年齢別特徴抽出部211によって子供グループ(C)に区分された顔情報に対して、年齢別特徴抽出部−C212は子供の年齢別特徴を反映して特徴値を抽出し、性別特徴抽出部−C213は子供の性別特徴を反映して特徴値を抽出する。   For face information classified into child groups (C) by the age-specific feature extraction unit 211, an age-specific feature extraction unit -C212 extracts feature values reflecting the child's age-specific features, and a gender feature extraction unit- C213 extracts a feature value reflecting the sex characteristics of the child.

性別特徴抽出部−A214は、年齢別特徴抽出部211によって大人グループ(A)に区分された顔情報に対して、大人の性別特徴を反映して特徴値を抽出することができる。その抽出された特徴値を基準に、入力された顔情報を男性グループ(M)と女性グループ(F)とに区分する。   The gender feature extraction unit-A 214 can extract a feature value by reflecting the gender feature of the adult in the face information classified into the adult group (A) by the age-specific feature extraction unit 211. Based on the extracted feature value, the input face information is divided into a male group (M) and a female group (F).

年齢別特徴抽出部−M215は、性別特徴抽出部−A214によって男性グループ(M)に区分された顔情報に対して、男性の年齢別特徴を反映して特徴値を抽出する。また年齢別特徴抽出部−F216は、性別特徴抽出部−A214によって女性グループ(F)に区分された顔情報に対して、女性の年齢別特徴を反映して特徴値を抽出する。   The age-specific feature extraction unit-M215 extracts a feature value by reflecting the male age-specific feature in the face information classified into the male group (M) by the gender feature extraction unit-A214. The age-specific feature extraction unit-F216 extracts feature values reflecting the female age-specific features in the face information divided into the female group (F) by the gender feature extraction unit-A214.

映像演算部220は、前記のように映像特徴抽出部210によって抽出された特徴値を用いて映像情報から性別及び年齢を識別する。   The video calculation unit 220 identifies gender and age from the video information using the feature values extracted by the video feature extraction unit 210 as described above.

即ち、映像演算部220は、映像特徴抽出部210から抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する組合演算部及び代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部から構成される。   That is, the video calculation unit 220 reflects the weight value on one or more feature values extracted from the video feature extraction unit 210 to determine a representative feature value and a reference DB based on the representative feature value. It consists of an identification unit that identifies gender and age with reference.

また映像演算部220は、図3に示すように、前述のように映像特徴抽出部210によってグループ化された男性グループ(M)、女性グループ(F)及び子供グループ(C)に対して各々最適化された組合演算部及び識別部を有するように構成される。即ち、映像演算部220は、男性グループに区分された映像情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−M221と、女性グループに区分された音声情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−F222と、子供グループに区分された音声情報から抽出された特徴値の入力を受けて年齢及び性別を演算する映像演算部−C223と、から構成される。   Further, as shown in FIG. 3, the video calculation unit 220 is optimal for each of the male group (M), the female group (F), and the child group (C) grouped by the video feature extraction unit 210 as described above. The combination operation unit and the identification unit are configured. That is, the video calculation unit 220 receives the input of the feature value extracted from the video information classified into the male group, and extracts the video calculation unit-M221 that calculates the age and sex, and the audio information classified into the female group. -F222 for calculating the age and sex by receiving the input of the feature value, and the video calculation unit for calculating the age and sex by receiving the input of the feature value extracted from the audio information divided into the child groups -C223.

映像演算部−M221は、男性グループ(M)に区分された顔情報から抽出された一つ以上の特徴値の入力を受けて代表特徴値を決定する組合演算部−M221Aと、その代表特徴値を基に基準DBを参照して性別及び年齢を識別する識別部−M221Bと、を含むことができる。組合演算部−M221Aは男性グループ(M)に区分された顔情報から抽出された特徴値の入力を受けるので、年齢別特徴抽出部211、性別特徴抽出部−A214及び年齢別特徴抽出部−M215から抽出された特徴値の入力を受けて代表特徴値を識別することができる。   The image calculation unit-M221 receives a combination of one or more feature values extracted from the face information divided into the male group (M) and determines a representative feature value, and the representative feature value. An identification unit -M221B that identifies gender and age with reference to the standard DB based on the standard DB. Since the combination calculation unit-M221A receives input of feature values extracted from face information divided into male groups (M), the age-specific feature extraction unit 211, the gender feature extraction unit-A214, and the age-specific feature extraction unit-M215 The representative feature value can be identified by receiving the input of the feature value extracted from.

映像演算部−F222は、女性グループ(F)に区分された顔情報から抽出された特徴値の入力を受けて代表特徴値を決定する組合演算部−F222Aと、その代表特徴値と基準DBを用いて性別及び年齢を識別する識別部−F222Bと、を含むことができる。   The video calculation unit-F222 receives the input of feature values extracted from the face information divided into the female group (F) and determines the representative feature value, the combination calculation unit-F222A, the representative feature value, and the reference DB And an identification unit-F222B for identifying gender and age.

この場合、組合演算部−F222Aは、女性グループ(F)に区分された顔情報を対象とするので、年齢別特徴抽出部211、性別特徴抽出部−A214及び年齢別特徴抽出部−F216から抽出された特徴値の入力を受けて代表特徴値を識別することができる。   In this case, since the combination calculation unit-F222A targets the face information divided into the female group (F), it is extracted from the age-specific feature extraction unit 211, the gender feature extraction unit-A214, and the age-specific feature extraction unit-F216. The representative feature value can be identified by receiving the inputted feature value.

映像演算部−C223は、子供グループ(C)に区分された顔情報から抽出された特徴値の入力を受けて代表特徴値を決定する組合演算部−C223Aと、その代表特徴値と基準DBを用いて性別及び年齢を識別する識別部−C223Bと、を含むことができる。この場合、組合演算部−C223Aは、子供グループ(C)に区分された顔情報から抽出された特徴値の入力を受けるので、年齢別特徴抽出部211、年齢別特徴抽出部−C212及び性別特徴抽出部−C213から抽出された特徴値の入力を受けて代表特徴値を識別することができる。   The video calculation unit-C223 receives the input of feature values extracted from the face information divided into the child group (C) and determines the representative feature value, and the combination calculation unit-C223A, the representative feature value and the reference DB And an identification unit -C223B for identifying gender and age. In this case, the combination calculation unit -C223A receives the input of the feature value extracted from the face information divided into the child group (C), so the age-specific feature extraction unit 211, the age-specific feature extraction unit -C212, and the gender feature The representative feature value can be identified by receiving the input of the feature value extracted from the extraction unit-C213.

各識別部221B、222B、223Bは、前述した各組合演算部221A、222A、223Aから代表特徴値の入力を受けて基準DBを参照して性別及び年齢を演算することができる。これに対する具体的な説明は音声演算部120を参照して前述したものと類似するため、更なる詳細な説明は省略する。   Each of the identification units 221B, 222B, and 223B can calculate gender and age with reference to the reference DB by receiving the representative feature values from the combination calculation units 221A, 222A, and 223A described above. Since the specific description thereof is similar to that described above with reference to the voice calculation unit 120, further detailed description thereof is omitted.

また、このような映像処理部200を用いて年齢及び性別を演算する場合にも、前述のように、顔情報が男性グループ(M)、女性グループ(F)及び子供グループ(C)のうち何れか一つのグループに区分することが難しい場合には、その顔情報を各グループに重複適用することができる。   In addition, when calculating age and gender using such a video processing unit 200, as described above, the face information is any of the male group (M), the female group (F), and the child group (C). When it is difficult to divide into one group, the face information can be applied to each group.

以下に、最終識別部300について詳しく説明する。   Hereinafter, the final identification unit 300 will be described in detail.

最終識別部300では、識別部121B、122B、123B、221B、222B、223Bのうち一部または全部から出力された性別及び年齢の入力を受け、その入力を受けた性別及び年齢を組み合わせ演算を行って最終的な性別及び年齢を識別することができる。   The final identification unit 300 receives gender and age input from some or all of the identification units 121B, 122B, 123B, 221B, 222B, and 223B, and performs a combination operation on the received gender and age. To identify the final gender and age.

即ち、入力を受けた複数個の性別及び年齢に対して各々相互類似度を計算し、相互類似度が最も高い性別及び年齢を最終性別及び年齢に決定することができる。または、入力を受けた複数個の性別及び年齢に対する正常識別確率や、信頼度指数を識別する毎に把握して保存しておき、これを用いて最終性別及び年齢を決定することができる。   That is, it is possible to calculate the mutual similarity for each of the plurality of sexes and ages received, and determine the sex and age having the highest mutual similarity as the final sex and age. Alternatively, it is possible to grasp and store normal identification probabilities for a plurality of genders and ages that have been input and the reliability index every time they are identified, and use them to determine the final gender and age.

このような最終識別部300は、音声処理部100から出力された性別及び年齢に対して相互類似度を用いて性別及び年齢を識別し、また映像処理部200から出力された性別及び年齢に対して相互類似度を用いて性別及び年齢を識別した後、二つの識別された性別及び年齢を用いて最終的な性別及び年齢を識別し出力するように実施することができる。   The final identification unit 300 identifies the gender and the age using the mutual similarity with respect to the gender and the age output from the audio processing unit 100, and the gender and the age output from the video processing unit 200. After identifying the gender and age using the mutual similarity, the final gender and age can be identified and output using the two identified genders and ages.

または、最終識別部300は、音声処理部100及び映像処理部200から出力された性別及び年齢の識別結果全体に対して相互類似度を用いて最終的な性別及び年齢を識別し出力するように実施することもできる。   Alternatively, the final identification unit 300 may identify and output the final gender and age using the mutual similarity with respect to the entire sex and age identification results output from the audio processing unit 100 and the video processing unit 200. It can also be implemented.

以下では基準DBについて詳しく説明する。   Hereinafter, the reference DB will be described in detail.

基準DBは、性別及び年齢別基準特徴値または音声及び映像基準サンプルを保存しており、顔情報または音声情報から抽出された特徴値と、前記特徴値に対する性別及び年齢の関係モデルと、から構成される。   The reference DB stores gender and age-specific reference feature values or audio and video reference samples, and includes a feature value extracted from face information or audio information, and a relationship model of sex and age with respect to the feature value. Is done.

このような基準DBに保存された特徴値−性別及び年齢対応関係を用いて、音声演算部120または映像演算部220は、前述した代表特徴値を基に基準DBを参照して性別及び年齢を獲得することができる。例えば、識別部は、代表特徴値と基準DBの関係モデルとの間の距離値を用いて性別及び年齢を識別することができる。   Using the feature value-gender and age correspondence stored in the reference DB, the voice calculation unit 120 or the video calculation unit 220 refers to the reference DB based on the representative feature value described above to determine the gender and age. Can be earned. For example, the identification unit can identify gender and age using the distance value between the representative feature value and the relationship model of the reference DB.

また基準DBは、特徴値を円滑に抽出し難い場合などにおいて、映像または音声情報を直接用いて性別及び年齢を識別できるように、映像データ及び音声データとそれに対応する性別と年齢を含んで構成される。   In addition, the reference DB includes video data and audio data, and corresponding gender and age so that the gender and age can be identified directly using video or audio information when it is difficult to extract feature values smoothly. Is done.

基準DBに含まれた映像データは、例えば、カメラと人を各々0.5m、1m、3mの距離だけ離隔させて獲得することができる。この時、隔離距離が3mである場合は、人の全身が全て含まれるように撮る。このような映像データは10秒間100frameになるように撮影することができる。前記のように撮影された映像に対して顔検出器、身長検出器、目検出器などを用いて各々の被写体である人の顔、髪型、髭、眉毛の形などを取得して詳細DBを構成することができる。このように構成された詳細DBを用いて特徴値を識別するように本発明を実施することができる。   The video data included in the reference DB can be acquired, for example, by separating a camera and a person by a distance of 0.5 m, 1 m, and 3 m, respectively. At this time, if the separation distance is 3 m, the image is taken so that the whole body of the person is included. Such video data can be photographed to be 100 frames for 10 seconds. Use the face detector, height detector, eye detector, etc. for the images shot as described above to acquire the face, hairstyle, eyelid, eyebrow shape, etc. of each human subject, and use the detailed DB. Can be configured. The present invention can be implemented so as to identify feature values using the detailed DB configured as described above.

基準DBに含まれた音声データの場合には、例えば予め用意した50個の文章を3回繰り返し発声して得ることができる。このような音声データは16kHz、16bit、monoタイプなどの様々な形態を有することができる。   In the case of speech data included in the reference DB, for example, 50 sentences prepared in advance can be obtained by uttering three times repeatedly. Such audio data can have various forms such as 16 kHz, 16 bit, and mono type.

かかる基準DBは標本性を備えるために、例えば120名を対象にデータを構成することができる。この時、全体男性女性比は1:1になるようにし、各年齢帯に対する比率も1:1になるように構成することができる。   Since such a reference DB has a sample property, for example, data can be configured for 120 persons. At this time, the overall male / female ratio can be 1: 1, and the ratio to each age zone can also be 1: 1.

基準DBは学習能力を保有しており、本発明の実施の形態によって性別−年齢に対する演算が行われると、演算の結果値(演算の代表特徴値と最終的な性別及び年齢)を現在構成しているデータに反映してDBを再構成(更新)して信頼度を持続的に向上できるようにすることが好ましい。もちろんDB更新に活用される結果値は信頼性が確認された結果値でなければならないのは言うまでもない。   The reference DB has learning ability, and when the calculation for gender-age is performed according to the embodiment of the present invention, the result value of the calculation (the representative characteristic value of the calculation and the final gender and age) is currently configured. It is preferable to reconstruct (update) the DB by reflecting it in the data so that the reliability can be continuously improved. Of course, it goes without saying that the result value used for DB update must be a result value for which reliability has been confirmed.

図4は、本発明による性別−年齢識別方法のフローチャートである。   FIG. 4 is a flowchart of the gender-age identification method according to the present invention.

入力部10は、性別及び年齢を識別しようとする特定人の顔情報及び音声情報を収集する(S100)。   The input unit 10 collects face information and voice information of a specific person who wants to identify gender and age (S100).

収集された音声情報から音声処理部100が年齢別特徴及び性別特徴を反映して特徴値を抽出し、抽出された一つ以上の特徴値に対して代表特徴値を識別する。そしてその代表特徴値を基準DBに問合せて性別及び年齢を識別する(S200)。   The speech processing unit 100 extracts feature values from the collected speech information by reflecting the age-specific features and the gender features, and identifies representative feature values for the extracted one or more feature values. Then, the representative feature value is inquired of the reference DB to identify the sex and age (S200).

それと共に、映像処理部200が顔情報に対して年齢別特徴及び性別特徴を反映して特徴値を抽出し、抽出された一つ以上の特徴値に対して代表特徴値を識別する。そして前記代表特徴値を基準DBに問合せて性別及び年齢を識別する(S300)。   At the same time, the video processing unit 200 extracts the feature value by reflecting the age-specific feature and the gender feature from the face information, and identifies the representative feature value for the extracted one or more feature values. Then, the representative feature value is inquired of the reference DB to identify gender and age (S300).

最終識別部300は、ステップS200及びステップS300によって識別された少なくとも一つの性別及び年齢に対して相互類似度または確率を考慮して最終的に性別及び年齢を識別する(S400)。   The final identification unit 300 finally identifies gender and age in consideration of the mutual similarity or probability with respect to at least one gender and age identified in steps S200 and S300 (S400).

以下では、図5を参照して図4の音声から性別と年齢を識別するステップ(S200)について詳しく説明する。   Hereinafter, with reference to FIG. 5, the step of identifying gender and age from the voice of FIG. 4 (S200) will be described in detail.

一般に女性の音声情報と子供の音声情報は類似しているので区別し難いが、女性及び子供の音声情報と男性の音声情報とは区別が容易である点に着目して、音声信号に対し性別特徴を優先的に反映して特徴値を抽出し男性と女性及び子供グループとを分類する(S210)。   In general, it is difficult to distinguish female and child's voice information because they are similar to each other. However, it is easy to distinguish between female and child's voice information and male's voice information. The feature value is preferentially reflected and the feature value is extracted to classify the male, female and child groups (S210).

このように、音声情報に対して性別特徴を優先的に反映することは、音声情報では性別特徴による差が大きいことを利用したものであり、これにより演算を迅速且つ效率良く行うことができるようになる。   As described above, the preferential reflection of the gender feature on the voice information is based on the fact that the voice information has a large difference depending on the gender feature, so that the calculation can be performed quickly and efficiently. become.

分類結果によって、入力された音声情報を男性グループまたは女性及び子供グループに区別し、男性グループに分類された音声情報に対して男性の年齢別特徴を反映した一つ以上の年齢別特徴値を抽出する(S220)。   Based on the classification results, the input voice information is classified into male groups or female and child groups, and one or more age-specific feature values reflecting male age characteristics are extracted from the voice information classified into male groups. (S220).

また、女性及び子供グループに分類された音声情報に対しては、音声情報が女性グループであるかまたは子供グループであるかを区別できるように、女性及び子供の年齢別特徴を反映した年齢別特徴値を抽出し、女性と子供とを区別する(S230)。   In addition, for voice information classified into female and child groups, age-specific features that reflect the age-specific features of women and children so that the voice information can be distinguished from female or child groups. A value is extracted and a woman and a child are distinguished (S230).

その後、女性グループに区別された音声情報に対して女性の年齢別特徴を反映した年齢別特徴抽出を行う(S240)。   After that, age-specific feature extraction that reflects the age-specific features of women is performed on the voice information that is classified into the female groups (S240).

また、子供グループに区別された音声情報に対しては子供の性別及び年齢別特徴抽出を行う(S250)。   In addition, the child's sex and age-specific features are extracted from the voice information distinguished by the child group (S250).

このように抽出された特徴値のうち音声情報に対する代表特徴値を決定し、対象者の性別及び年齢を識別する。   Among the extracted feature values, a representative feature value for the voice information is determined, and the sex and age of the target person are identified.

例えば、音声演算部120が音声特徴抽出部110によって抽出された一つ以上の特徴値に対して代表特徴値を決定し、決定された代表特徴値を基に基準DBを用いて性別及び年齢を識別できる。代表特徴値の決定または性別及び年齢の識別は、前述のように男性グループ、女性グループ及び子供グループ別に各々行われることが好ましい。   For example, the voice calculation unit 120 determines a representative feature value for one or more feature values extracted by the voice feature extraction unit 110, and uses the reference DB to determine the gender and age based on the determined representative feature value. Can be identified. The determination of the representative feature value or the identification of the sex and the age is preferably performed for each of the male group, the female group, and the child group as described above.

即ち、男性グループに区分された音声情報の特徴値に対して音声演算−Mを行うか(S225)、女性グループに区分された音声情報の特徴値に対して音声演算−Fを行うか(S245)、子供グループに区分された音声情報の特徴値に対して音声演算−Cを行って(S255)性別及び年齢を識別することができる。   That is, whether voice calculation-M is performed on feature values of voice information classified into male groups (S225) or whether voice calculation-F is performed on feature values of voice information classified into female groups (S245). ), Voice calculation-C is performed on the feature values of the voice information divided into child groups (S255), and the sex and age can be identified.

前述のように区別が容易な特徴(例えば、音声情報は性別による特徴)を基準に一次的に音声情報をグループ化し、前記基準によって区別された各グループに対し各グループ別特徴を反映して特徴値を抽出する方法を用いることは本発明の大きな特徴の一つである。前記のような段階的な抽出方法を用いることによって、本発明は識別の正確性を確保することができ、また演算の重複性を排除して対象者の年齢及び性別を迅速に識別することができる。   As described above, voice information is primarily grouped on the basis of features that can be easily distinguished (for example, voice information is a feature by gender), and features that reflect the characteristics of each group for each group distinguished by the criteria. The use of a method for extracting values is one of the major features of the present invention. By using the stepwise extraction method as described above, the present invention can ensure the accuracy of identification, and can quickly identify the age and gender of the subject by eliminating the duplication of computation. it can.

以下では、図6を参照して図4の映像によって性別と年齢を識別するステップ(S300)について詳しく説明する。   Hereinafter, with reference to FIG. 6, the step of identifying the gender and age from the video of FIG. 4 (S300) will be described in detail.

映像情報の場合には、一般的に大人と子供を区別することが容易である。例えば、身長のような生体情報を用いるか、顔の大きさと耳、目、口、鼻の大きさとの相対的な比率などを用いて大人と子供を容易に区別することができる。   In the case of video information, it is generally easy to distinguish adults from children. For example, an adult and a child can be easily distinguished by using biological information such as height or using a relative ratio between the size of the face and the size of the ears, eyes, mouth, and nose.

このような点を用いて、本発明の映像類似度識別ステップでは、一次的に入力を受けた映像情報(顔情報または顔情報を含む映像情報。以下、「顔情報」と称する)に対して前記の年齢別特徴を考慮した特徴値抽出を行う(S310)。前記のようなステップによって入力された顔情報は、子供グループと大人グループに容易に区分されることができる。   By using such points, in the video similarity identification step of the present invention, for the video information (video information including face information or face information; hereinafter referred to as “face information”) that is primarily input. Feature value extraction is performed in consideration of the age-specific features (S310). The face information input through the above steps can be easily divided into a child group and an adult group.

その後、子供グループに区分された顔情報に対して子供の年齢別特徴を考慮した年齢別特徴を抽出し(S320)、子供の性別特徴を考慮した性別特徴抽出を行う(S330)。   Then, age-specific features are extracted from the face information divided into child groups in consideration of the age-specific features of the children (S320), and gender feature extraction is performed in consideration of the child's gender features (S330).

大人グループに区分された顔情報に対し、大人の性別特徴を考慮した性別特徴抽出を行って大人グループの顔情報を男性グループまたは女性グループに区別する(S340)。   The face information classified into the adult groups is subjected to sex feature extraction considering the sex characteristics of the adults to distinguish the face information of the adult groups into male groups or female groups (S340).

その後、男性グループに区分された顔情報に対し男性の年齢別特徴を考慮した特徴抽出方法を用いて一つ以上の特徴値を抽出する(S350)。女性グループに区分された顔情報に対しては、女性の年齢別特徴を考慮して一つ以上の特徴値を抽出する(S360)。   Thereafter, one or more feature values are extracted from the face information classified into male groups using a feature extraction method that takes into account the male age-specific features (S350). For face information classified into female groups, one or more feature values are extracted in consideration of the age-specific features of women (S360).

映像演算部220は、前述のように映像特徴抽出部210によって抽出された特徴値に対し加重値を反映して代表特徴値を決定し、その決定された代表特徴値及び基準DBを用いて性別及び年齢を識別する。このような映像情報による性別及び年齢識別は、図6に示すように、子供グループ、男性グループ及び女性グループ別に各々行われることが好ましい(S325、S355、S365)。   The video calculation unit 220 determines a representative feature value by reflecting the weight value with respect to the feature value extracted by the video feature extraction unit 210 as described above, and uses the determined representative feature value and the reference DB to determine the gender. And identify the age. Such sex and age identification based on video information is preferably performed for each of a child group, a male group, and a female group, as shown in FIG. 6 (S325, S355, S365).

以上、本発明について添付図面を参照して詳しく説明したが、これは例示したものに過ぎず、本発明の技術的な思想の範囲内で様々な変形と変更が可能であることは自明である。従って、本発明の保護範囲は、前述した実施の形態に限定されてはならず、添付した特許請求範囲の記載による範囲及びそれと均等な範囲を含んで決定されなければならない。   The present invention has been described in detail with reference to the accompanying drawings. However, this is merely an example, and it is obvious that various modifications and changes can be made within the scope of the technical idea of the present invention. . Therefore, the protection scope of the present invention should not be limited to the above-described embodiments, but should be determined including the scope described in the appended claims and a scope equivalent thereto.

10 入力部
20 年齢−性別演算部
30 出力部
100 音声処理部
200 映像処理部
300 最終識別部
DESCRIPTION OF SYMBOLS 10 Input part 20 Age-sex calculating part 30 Output part 100 Audio | voice processing part 200 Image | video processing part 300 Final identification part

Claims (19)

映像情報及び音声情報を収集するステップと、
前記収集された音声情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する音声情報を用いた性別及び年齢識別ステップと、
前記収集された映像情報に対して一つ以上の特徴値を抽出し、前記抽出された特徴値を用いて性別及び年齢を識別する顔情報を用いた性別及び年齢識別ステップと、
前記音声情報を用いて識別された性別及び年齢と前記顔情報を用いて識別された性別及び年齢とを組み合わせ演算を行って性別及び年齢を最終決定するステップと、
を含むことを特徴とする性別−年齢識別方法。
Collecting video information and audio information;
Extracting one or more feature values from the collected voice information, and using the extracted feature values to identify gender and age;
Extracting one or more feature values for the collected video information, and using the extracted feature values to identify gender and age;
Finally determining the gender and age by performing a combination operation of the gender and age identified using the voice information and the gender and age identified using the face information;
A gender-age identification method comprising:
前記音声情報を用いた性別及び年齢識別ステップは、
前記入力された音声情報に対し音声の性別特徴を反映して特徴値を抽出する第1性別特徴抽出ステップと、
前記第1性別特徴抽出ステップによって男性グループに区分された前記音声情報に対し、男性の年齢別特徴を反映して特徴値を抽出する第1年齢別特徴抽出ステップと、
前記第1性別特徴抽出ステップによって女性及び子供グループに区分された前記音声情報に対し、女性及び子供の年齢別特徴を反映して特徴値を抽出する第2年齢別特徴抽出ステップと、
をさらに含むことを特徴とする請求項1に記載の性別−年齢識別方法。
The gender and age identification step using the audio information includes:
A first gender feature extraction step of extracting a feature value reflecting the gender feature of the voice with respect to the input voice information;
A first age-specific feature extraction step for extracting feature values reflecting the male age-specific features for the voice information divided into male groups by the first gender feature extraction step;
A second age-specific feature extracting step of extracting feature values reflecting the age-specific features of women and children with respect to the voice information divided into the female and child groups by the first sex-feature extracting step;
The gender-age identification method according to claim 1, further comprising:
前記音声情報を用いた性別及び年齢識別ステップは、
前記第2年齢別特徴抽出ステップによって女性グループに区分された前記音声情報に対し、女性の年齢別特徴を反映して特徴値を抽出する第3年齢別特徴抽出ステップと、
前記第2年齢別特徴抽出ステップによって子供グループに区分された前記音声情報に対し、子供の性別特徴を反映して特徴値を抽出する第2性別特徴抽出ステップと、
をさらに含むことを特徴とする請求項2に記載の性別−年齢識別方法。
The gender and age identification step using the audio information includes:
A third age-specific feature extraction step for extracting a feature value reflecting the female age-specific feature for the voice information classified into the female group by the second age-specific feature extracting step;
A second sex feature extraction step for extracting a feature value reflecting the sex feature of the child with respect to the voice information divided into child groups by the second age feature extraction step;
The gender-age identification method according to claim 2, further comprising:
前記特徴値は、相違するN個の特徴値識別方法を適用してM個の標本を対象に抽出されることを特徴とする請求項2または請求項3に記載の性別−年齢識別方法。   The gender-age identification method according to claim 2 or 3, wherein the feature values are extracted from M samples by applying different N feature value identification methods. 前記音声情報を用いた性別及び年齢識別ステップは、
前記抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する代表特徴値決定ステップと、
前記代表特徴値を基準に基準DBを参照して前記性別及び年齢を識別する識別ステップと、
を含むことを特徴とする請求項1に記載の性別−年齢識別方法。
The gender and age identification step using the audio information includes:
A representative feature value determining step of determining a representative feature value by reflecting a weight value with respect to the one or more extracted feature values;
An identification step of identifying the gender and age with reference to a standard DB based on the representative feature value;
The gender-age identification method according to claim 1, further comprising:
前記代表特徴値決定ステップ及び前記識別ステップは、男性グループ、女性グループ及び子供グループ別に各々行われることを特徴とする請求項5に記載の性別−年齢識別方法。   The gender-age identification method according to claim 5, wherein the representative feature value determination step and the identification step are performed for each of a male group, a female group, and a child group. 前記代表特徴値決定ステップは、一つ以上の前記加重値が反映された特徴値の平均値、最大値、最小値及び合算値のうち何れか一つの値を前記代表特徴値に決定するステップを含むことを特徴とする請求項5に記載の性別−年齢識別方法。   The representative feature value determining step includes a step of determining any one of an average value, a maximum value, a minimum value, and a sum value of feature values reflecting one or more of the weight values as the representative feature value. The gender-age identification method according to claim 5, further comprising: 前記映像情報を用いた性別及び年齢識別ステップは、
前記収集された映像情報に対し年齢別特徴を反映して特徴値を抽出する第1特徴抽出ステップと、
前記第1特徴抽出ステップの結果によって大人と子供を区別した後、男性、女性及び子供グループ別に分類して各グループ別に一つ以上の特徴値を抽出する第2特徴抽出ステップと、
を含むことを特徴とする請求項1に記載の性別−年齢識別方法。
Gender and age identification step using the video information,
A first feature extracting step of extracting a feature value reflecting the age-specific feature with respect to the collected video information;
A second feature extracting step of distinguishing between an adult and a child according to a result of the first feature extracting step, and then classifying the group into a group of men, women and children and extracting one or more feature values for each group;
The gender-age identification method according to claim 1, further comprising:
前記映像情報を用いた性別及び年齢識別ステップは、
前記抽出された一つ以上の特徴値に対し加重値を反映して代表特徴値を決定する代表特徴値決定ステップと、
前記代表特徴値を基準に基準DBを用いて前記性別及び年齢を識別する識別ステップと、をさらに含み、
前記代表特徴値決定ステップ及び前記演算ステップは、男性グループ、女性グループ及び子供グループ別に各々行われることを含む
ことを特徴とする請求項8に記載の性別−年齢識別方法。
Gender and age identification step using the video information,
A representative feature value determining step of determining a representative feature value by reflecting a weight value with respect to the one or more extracted feature values;
An identification step of identifying the gender and age using a reference DB based on the representative feature value,
The gender-age identification method according to claim 8, wherein the representative feature value determination step and the calculation step include being performed for each of a male group, a female group, and a child group.
性別及び年齢を最終決定するステップは、
少なくとも一つの前記音声情報を用いて識別された性別及び年齢と、少なくとも一つの前記映像情報を用いて識別された性別及び年齢各々に対して相互類似度を演算するステップと、
前記相互類似度が最も高い性別及び年齢を最終性別及び年齢に決定するステップと、
を含むことを特徴とする請求項1に記載の性別−年齢識別方法。
The final step of gender and age is
Calculating a gender and age identified using at least one of the audio information and a gender and age identified using at least one of the video information;
Determining the gender and age with the highest mutual similarity as the final gender and age;
The gender-age identification method according to claim 1, further comprising:
前記基準DBは、性別及び年齢別特徴値を含み、性別及び年齢別に信頼性が確認された特徴値を反映して持続的に再構成されることを特徴とする請求項5または請求項9に記載の性別−年齢識別方法。   10. The reference DB according to claim 5, wherein the reference DB includes gender and age characteristic values, and is continuously reconstructed to reflect characteristic values whose reliability is confirmed according to gender and age. Described gender-age identification method. 映像情報及び音声情報を収集する入力部と、
前記収集された音声情報に対して特徴値を抽出し、抽出された特徴値を用いて前記音声情報から性別及び年齢を識別する音声処理部と、
前記収集された映像情報に対して特徴値を抽出し、抽出された特徴値を用いて前記映像情報から性別及び年齢を識別する映像処理部と、
前記映像処理部で識別された性別及び年齢と前記音声処理部で識別された性別及び年齢とを組み合わせ演算を行って前記特定人の性別及び年齢を最終決定する最終識別部と、
を含むことを特徴とする性別−年齢識別装置。
An input unit for collecting video information and audio information;
A voice processing unit that extracts a feature value for the collected voice information, and uses the extracted feature value to identify gender and age from the voice information;
Extracting a feature value for the collected video information, and using the extracted feature value, a video processing unit for identifying gender and age from the video information;
A final identification unit that finally determines the gender and age of the specific person by performing a combination operation of the sex and age identified by the video processing unit and the gender and age identified by the audio processing unit;
A gender-age identification device comprising:
前記音声処理部は、
前記収集された音声情報に対し音声の性別特徴または年齢別特徴を反映して特徴値を抽出する音声特徴抽出部と、
前記音声特徴抽出部から抽出された特徴値に対して代表特徴値を抽出し、前記代表特徴値を用いて前記性別及び年齢を識別する音声演算部と、
を含むことを特徴とする請求項12に記載の性別−年齢識別装置。
The voice processing unit
A voice feature extraction unit that extracts a feature value by reflecting a gender feature or an age feature of the voice with respect to the collected voice information;
A representative feature value extracted from the feature value extracted from the voice feature extraction unit, and a voice calculation unit that identifies the gender and age using the representative feature value;
The gender-age identification apparatus according to claim 12, comprising:
前記音声特徴抽出部は、前記収集された音声が男性の音声であるか否かを先に判断した後、男性、女性及び子供グループ別に一つ以上の特徴値を抽出することを特徴とする請求項13に記載の性別−年齢識別装置。   The speech feature extraction unit may determine whether or not the collected speech is a male speech before extracting one or more feature values for each group of men, women, and children. Item 14. The gender-age identification device according to Item 13. 前記音声演算部は、前記男性、女性及び子供グループ別に代表特徴値を決定し、これを用いて性別及び年齢を識別することを特徴とする請求項14に記載の性別−年齢識別装置。   The gender-age identification apparatus according to claim 14, wherein the voice calculation unit determines a representative characteristic value for each of the male, female, and child groups, and identifies the gender and the age using the representative characteristic value. 前記映像処理部は、
前記収集された映像情報に対し映像の性別特徴または年齢別特徴を反映して特徴値を抽出する映像特徴抽出部と、
前記映像特徴抽出部から抽出された特徴値に対して代表特徴値を抽出し、前記代表特徴値を用いて前記性別及び年齢を識別する映像演算部と、
を含むことを特徴とする請求項12に記載の性別−年齢識別装置。
The video processing unit
A video feature extraction unit that extracts a feature value by reflecting a gender feature or an age feature of the video with respect to the collected video information;
A video feature that extracts representative feature values from the feature values extracted from the video feature extractor, and identifies the sex and age using the representative feature values;
The gender-age identification apparatus according to claim 12, comprising:
前記映像特徴抽出部は、前記収集された音声が大人であるか子供であるかを先に判断した後、男性、女性及び子供グループ別に一つ以上の特徴値を抽出することを特徴とする請求項16に記載の性別−年齢識別装置。   The video feature extraction unit may determine whether the collected audio is an adult or a child, and then extract one or more feature values for each group of men, women, and children. Item 17. The gender-age identification device according to Item 16. 前記映像演算部は、前記男性、女性及び子供グループ別に代表特徴値を決定し、これを用いて性別及び年齢を識別することを特徴とする請求項17に記載の性別−年齢識別装置。   The gender-age identification apparatus according to claim 17, wherein the video calculation unit determines representative characteristic values for each of the male, female, and child groups, and identifies gender and age using the representative characteristic values. 前記最終識別部は、前記音声処理部または前記映像処理部で識別された少なくとも一つの年齢及び性別に対して各々の相互類似度を演算し、前記相互類似度が最も高い性別及び年齢を最終決定することを特徴とする請求項12に記載の性別−年齢識別装置。   The final identification unit calculates each mutual similarity for at least one age and sex identified by the audio processing unit or the video processing unit, and finally determines the gender and age having the highest mutual similarity. The gender-age identification apparatus according to claim 12.
JP2009182589A 2008-12-23 2009-08-05 Gender-age identification method and apparatus based on audio and video Expired - Fee Related JP4881980B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080132626A KR101189765B1 (en) 2008-12-23 2008-12-23 Method and apparatus for classification sex-gender based on voice and video
KR10-2008-0132626 2008-12-23

Publications (2)

Publication Number Publication Date
JP2010152866A true JP2010152866A (en) 2010-07-08
JP4881980B2 JP4881980B2 (en) 2012-02-22

Family

ID=42571839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009182589A Expired - Fee Related JP4881980B2 (en) 2008-12-23 2009-08-05 Gender-age identification method and apparatus based on audio and video

Country Status (2)

Country Link
JP (1) JP4881980B2 (en)
KR (1) KR101189765B1 (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015031671A1 (en) * 2013-08-30 2015-03-05 Biscotti Inc. Physical presence and advertising
CN104700843A (en) * 2015-02-05 2015-06-10 海信集团有限公司 Method and device for identifying ages
US9253520B2 (en) 2012-12-14 2016-02-02 Biscotti Inc. Video capture, processing and distribution system
US9300910B2 (en) 2012-12-14 2016-03-29 Biscotti Inc. Video mail capture, processing and distribution
CN105872792A (en) * 2016-03-25 2016-08-17 乐视控股(北京)有限公司 Voice-based service recommending method and device
US9485459B2 (en) 2012-12-14 2016-11-01 Biscotti Inc. Virtual window
US9654563B2 (en) 2012-12-14 2017-05-16 Biscotti Inc. Virtual remote functionality
JP2018169494A (en) * 2017-03-30 2018-11-01 トヨタ自動車株式会社 Utterance intention estimation device and utterance intention estimation method
CN110321863A (en) * 2019-07-09 2019-10-11 北京字节跳动网络技术有限公司 Age recognition methods and device, storage medium
CN110619889A (en) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 Sign data identification method and device, electronic equipment and storage medium
WO2020174682A1 (en) 2019-02-28 2020-09-03 日本電気株式会社 Attribute estimation device, attribute estimation method, and computer-readable recording medium
CN113506578A (en) * 2021-06-30 2021-10-15 中汽创智科技有限公司 Voice and image matching method and device, storage medium and equipment
WO2022249241A1 (en) * 2021-05-24 2022-12-01 日本電信電話株式会社 Training device, training method, and training program

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016189158A (en) 2015-03-30 2016-11-04 富士フイルム株式会社 Image processing apparatus, image processing method, program, and recording medium
CN107492381A (en) * 2017-08-29 2017-12-19 郑杰 The tone color configuration device and its method of a kind of chat robots
CN113033263A (en) * 2019-12-24 2021-06-25 深圳云天励飞技术有限公司 Face image age feature recognition method
KR102518690B1 (en) * 2021-08-26 2023-04-05 한국로봇융합연구원 Apparatus for purifying data for early screening of developmental disabilities based on learning model and method therefor

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005005899A (en) * 2003-06-10 2005-01-06 Sharp Corp Telephone device equipped with automatic answering function
JP2006121611A (en) * 2004-10-25 2006-05-11 Nippon Telegraph & Telephone West Corp Telephone system, telephone system management apparatus, advertisement content distribution method, advertisement content distribution program and recording medium
JP2007280291A (en) * 2006-04-11 2007-10-25 Nikon Corp Electronic camera

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005487A (en) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp Voice recognition device
JP2005122128A (en) 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd Speech recognition system and program
KR20080090034A (en) 2007-04-03 2008-10-08 삼성전자주식회사 Voice speaker recognition method and apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005005899A (en) * 2003-06-10 2005-01-06 Sharp Corp Telephone device equipped with automatic answering function
JP2006121611A (en) * 2004-10-25 2006-05-11 Nippon Telegraph & Telephone West Corp Telephone system, telephone system management apparatus, advertisement content distribution method, advertisement content distribution program and recording medium
JP2007280291A (en) * 2006-04-11 2007-10-25 Nikon Corp Electronic camera

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9485459B2 (en) 2012-12-14 2016-11-01 Biscotti Inc. Virtual window
US9654563B2 (en) 2012-12-14 2017-05-16 Biscotti Inc. Virtual remote functionality
US9253520B2 (en) 2012-12-14 2016-02-02 Biscotti Inc. Video capture, processing and distribution system
US9300910B2 (en) 2012-12-14 2016-03-29 Biscotti Inc. Video mail capture, processing and distribution
US9310977B2 (en) 2012-12-14 2016-04-12 Biscotti Inc. Mobile presence detection
WO2015031671A1 (en) * 2013-08-30 2015-03-05 Biscotti Inc. Physical presence and advertising
CN104700843A (en) * 2015-02-05 2015-06-10 海信集团有限公司 Method and device for identifying ages
CN105872792A (en) * 2016-03-25 2016-08-17 乐视控股(北京)有限公司 Voice-based service recommending method and device
JP2018169494A (en) * 2017-03-30 2018-11-01 トヨタ自動車株式会社 Utterance intention estimation device and utterance intention estimation method
WO2020174682A1 (en) 2019-02-28 2020-09-03 日本電気株式会社 Attribute estimation device, attribute estimation method, and computer-readable recording medium
CN110321863A (en) * 2019-07-09 2019-10-11 北京字节跳动网络技术有限公司 Age recognition methods and device, storage medium
CN110619889A (en) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 Sign data identification method and device, electronic equipment and storage medium
WO2022249241A1 (en) * 2021-05-24 2022-12-01 日本電信電話株式会社 Training device, training method, and training program
CN113506578A (en) * 2021-06-30 2021-10-15 中汽创智科技有限公司 Voice and image matching method and device, storage medium and equipment

Also Published As

Publication number Publication date
KR101189765B1 (en) 2012-10-15
JP4881980B2 (en) 2012-02-22
KR20100073845A (en) 2010-07-01

Similar Documents

Publication Publication Date Title
JP4881980B2 (en) Gender-age identification method and apparatus based on audio and video
WO2020248376A1 (en) Emotion detection method and apparatus, electronic device, and storage medium
Aleksic et al. Audio-visual biometrics
Mallol-Ragolta et al. A hierarchical attention network-based approach for depression detection from transcribed clinical interviews
US20030110038A1 (en) Multi-modal gender classification using support vector machines (SVMs)
Soltane et al. Face and speech based multi-modal biometric authentication
Gosztolya Using Fisher Vector and Bag-of-Audio-Words representations to identify Styrian dialects, sleepiness, baby & orca sounds
TWI395201B (en) Method and system for identifying emotional voices
WO2012020591A1 (en) System for identifying individuals, feature value specification device, feature specification method, and recording medium
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
JP2016502140A (en) Combination of auditory attention cue and phoneme posterior probability score for sound / vowel / syllable boundary detection
TW201201115A (en) Facial expression recognition systems and methods and computer program products thereof
Alshamsi et al. Automated facial expression and speech emotion recognition app development on smart phones using cloud computing
CN112101096A (en) Suicide emotion perception method based on multi-mode fusion of voice and micro-expression
Campbell et al. Alzheimer's Dementia Detection from Audio and Text Modalities
Xu et al. Multi-type features separating fusion learning for Speech Emotion Recognition
Mondal et al. Secure and hassle-free EVM through deep learning based face recognition
JP3998628B2 (en) Pattern recognition apparatus and method
Wu et al. The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge.
WO2020000523A1 (en) Signal processing method and apparatus
Chetty et al. Robust face-voice based speaker identity verification using multilevel fusion
Altun et al. Genetic algorithm based feature selection level fusion using fingerprint and iris biometrics
Dumpala et al. A Cycle-GAN approach to model natural perturbations in speech for ASR applications
CN110738985A (en) Cross-modal biometric feature recognition method and system based on voice signals
Egas-López et al. Predicting a cold from speech using fisher vectors; svm and xgboost as classifiers

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111205

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees