JP6723591B1 - データベースに顔情報を入力する方法及び装置 - Google Patents

データベースに顔情報を入力する方法及び装置 Download PDF

Info

Publication number
JP6723591B1
JP6723591B1 JP2019184911A JP2019184911A JP6723591B1 JP 6723591 B1 JP6723591 B1 JP 6723591B1 JP 2019184911 A JP2019184911 A JP 2019184911A JP 2019184911 A JP2019184911 A JP 2019184911A JP 6723591 B1 JP6723591 B1 JP 6723591B1
Authority
JP
Japan
Prior art keywords
information
database
face
photographed
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019184911A
Other languages
English (en)
Other versions
JP2021022351A (ja
Inventor
ツァイ ハイジャオ
ツァイ ハイジャオ
フォン シンポン
フォン シンポン
ジョウ ジィ
ジョウ ジィ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NextVPU Shanghai Co Ltd
Original Assignee
NextVPU Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NextVPU Shanghai Co Ltd filed Critical NextVPU Shanghai Co Ltd
Application granted granted Critical
Publication of JP6723591B1 publication Critical patent/JP6723591B1/ja
Publication of JP2021022351A publication Critical patent/JP2021022351A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/50Maintenance of biometric data or enrolment thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】本開示は、データベースに顔情報を入力する方法、プロセッサチップ、電子機器及び記憶媒体を提供する。【解決手段】データベースに顔情報を入力する方法は、1つ又は複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から被撮影者の顔情報を抽出するステップと、少なくとも1つの被撮影者の撮影中の音声を記録するステップと、記録された音声に対して意味解析を行い、該音声から対応する情報を抽出するステップと、抽出された情報と該情報を話した被撮影者の顔情報とを関連付けてデータベースに入力するステップと、を含む。【選択図】図1

Description

本開示は、顔認識に関し、特にデータベースに顔情報を入力する方法及び装置に関する。
顔認識は、人間の顔特徴情報に基づいて認識を行う生体認証技術の1つである。顔認識技術は、ビデオカメラ又はカメラを用いて顔を含む画像又はビデオストリームを取り込み、画像における顔を自動的に検出し、検出された顔に対して顔認識を行う。顔情報データベースの構築は、顔認識の前提条件である。データベースに顔情報を入力する際に、通常、画像及びビデオの取り込み装置のユーザにより、取り込まれた顔情報に対応する情報を入力する。
本開示の1つの目的は、データベースに顔情報を入力する方法、プロセッサチップ、電子機器及び記憶媒体を提供することである。
本開示の1つの態様では、データベースに顔情報を入力する方法であって、1つ又は複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から前記1つ又は複数の被撮影者の顔情報を抽出するステップと、前記1つ又は複数の被撮影者のうち少なくとも1つの被撮影者の撮影中の音声を記録するステップと、記録された音声に対して意味解析を行い、該音声から対応する情報を抽出するステップと、抽出された情報と該情報を話した被撮影者の顔情報とを関連付けて前記データベースに入力するステップと、を含む、方法を提供する。
本開示のもう1つの態様では、データベースに顔情報を入力するプロセッサチップ回路であって、上記の方法のステップを実行する回路部、を含む、プロセッサチップ回路を提供する。
本開示のもう1つの態様では、1つ又は複数の被撮影者に対してビデオ撮影を行うビデオ・センサと、前記1つ又は複数の被撮影者のうち少なくとも1つの被撮影者の撮影中の音声を記録するオーディオ・センサと、対応する被撮影者の情報と顔情報とを関連付けてデータベースに入力する上記のプロセッサチップ回路と、を含む、電子機器を提供する。
本開示のもう1つの態様では、命令を含むプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記命令が電子機器のプロセッサにより実行される際に、前記電子機器に上記の方法を実行させる、記憶媒体を提供する。
図面は実施例を例示し、明細書の一部を構成するものであり、図面及び明細書の文言の説明を参照しながら実施例の例示的な態様を説明する。示される実施例は単なる例示のためのものであり、特許請求の範囲を制限するものではない。全ての図面では、同一の符号は類似の要素を示しているが、必ずしも同一の要素ではない。
第1実施形態に係る音声から抽出された情報と顔情報とを関連付けることを示すフローチャートである。 複数の被撮影者について顔情報を入力するシーンを例示的に示す図である。 マイクロホンアレイとカメラの第1種の配列方式を示す図である。 マイクロホンアレイとカメラの第2種の配列方式を示す図である。 共通の時間軸に基づいてビデオ画像とオーディオ波形とを関連付けて表示することを例示的に示す図である。 第2実施形態に係る音声から抽出された情報と顔情報とを関連付けることを示すフローチャートである。 第3実施形態に係る音声から抽出された情報と顔情報とを関連付けることを示すフローチャートである。 例示的な実施形態に適用可能なコンピュータ装置の構成の一例を示すブロック図である。
本開示では、他の説明がない限り、様々な要素を説明するための「第1」、「第2」などの用語は、これらの要素の位置関係、時間的関係又は重要性の関係を限定するものではなく、単に1つの素子と他の素子とを区別するために用いられる。幾つかの例では、第1要素及び第2要素は、該要素の同一の例を表してもよいし、場合によって、文脈上の説明に基づいて、異なる例を表してもよい。
図1は本開示の第1実施形態に係る音声から抽出された情報と顔情報とを関連付けることを示すフローチャートである。
以下は、まず、図1におけるステップに従って、1人の被撮影者のみのシーンを説明する。該シーンは、例えば、政府関係部門又は銀行のスタッフが1人の被撮影者の顔及び身分を入力する必要があるシーン、又は視覚障害者が補助的なウェアラブルデバイスを使用して目の前の話者の顔及び身分を含む関連情報を受動的に入力するシーンである。
ステップS101において、1人の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から被撮影者の顔情報を抽出する。
ビデオ撮影は、ビデオカメラ、カメラ、又は画像センサを有する他のビデオ取り込みユニットにより行われてもよい。被撮影者がビデオ取り込みユニットの撮影範囲内にいる場合、ビデオ取り込みユニットは、顔認識技術を利用して顔を自動的に検索し、顔認識のために被撮影者の顔情報を抽出してもよい。
顔情報は、被撮影者を認識するために使用できる顔特徴情報を含む。顔認識システムで使用できる特徴は、視覚特徴、画素統計特徴、顔画像変換係数特徴、顔画像代数特徴などを含む。例えば、顔の目、鼻、口、顎などの局所間の構造的関係の幾何学的記述、及び虹彩は、顔を認識するための重要な特徴として用いられてもよい。
顔認識を行う際に、上記の抽出された顔情報とデータベースに記憶された顔情報テンプレートに対して検索とマッチングを行い、類似度に基づいて顔の身分情報を判断する。例えば、深層学習によりニューラルネットワークを訓練し、上記の類似度の判断を行ってもよい。
ステップS103において、被撮影者の撮影中の音声を記録する。
音声は話者自身の身分情報を含んでもよい。代替的なもの又は補充的なものとして、音声は、話者自身の所在するシーンに関する情報をさらに含んでもよい。例えば、視覚障害者が受診するシーンでは、医師の会話内容は、該医師の姓名、所属科、地位などの身分情報だけではなく、治療方法、投薬方法などの有効な音声情報を含んでもよい。
音声の取り込みは、マイクロホンなどのオーディオ取り込みユニットにより実現されてもよい。被撮影者は、例えば自分の身分情報である「私は王軍です」などの情報を自発的に話す。身分情報は、少なくとも姓名を含み、データベースの用途に応じて、年齢、出身地、上記の勤務先、役職などのその他の情報をさらに含んでもよい。
ステップS105において、記録された音声に対して意味解析を行い、該音声から対応する情報を抽出する。
音声から情報を抽出することは音声認識技術により実現されてもよく、抽出された情報はテキストの形で記憶されてもよい。音声認識技術のプロバイダにより提供される中国語(様々な方言を含む)、英語などの各種の言語の音声データベースに基づいて、複数の種類の言語で伝えられた情報を認識することができる。上述したように、抽出された情報は、話者自身の身分情報であってもよい。代替的なもの又は補充的なものとして、抽出された情報は、話者自身の所在するシーンに関する情報をさらに含んでもよい。なお、意味解析により抽出された身分情報は、話者の声紋情報と異なる。
被撮影者の協力の程度は、音声認識の結果に影響を与える可能性がある。被撮影者が適切な速度で対応する情報をはっきり話すと、音声認識の結果がより正確になる。
ステップS107において、抽出された情報と該情報を話した被撮影者の顔情報とを関連付けてデータベースに記憶する。
被撮影者が1人だけのシーンでは、抽出された顔情報と情報とが該同一の被撮影者に属すると判断し、抽出された顔情報と情報とを関連付けてデータベースに記憶してもよい。ここで、情報はテキスト情報の形でデータベースに記憶される。
上記の顔情報の入力方法は、被撮影者により伝えられた情報及びその顔情報を自動的に認識して関連付けることで、ビデオ取り込みユニットのユーザが被撮影者の情報(特に身分情報)を誤って入力するリスクを低減させ、顔情報の入力の効率を向上させた。また、本開示の方法によれば、シーンに関連する他の情報を同時に入力することができるため、様々なシーンにおけるユーザの使用需要を満たすことができる。
図1のフローチャートにおけるステップは、複数の被撮影者を含むシーンに適用されてもよい。該シーンは、例えば視覚障害者が複数参加者の会議に参加し、或いは社交の場にいるシーンである。
なお、以上の単一の被撮影者について説明された顔認識及び音声認識は、複数の被撮影者を含むシーンにおける各被撮影者にそれぞれ適用されてもよいため、関連内容の説明を省略する。
ステップS101において、複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から各被撮影者の顔情報を抽出する。
図2に示すように、ビデオ取り込みユニット204の撮影範囲内(図2における2つの破線により定められた扇形領域)に同時に3人の被撮影者201、202及び203が存在する。顔認識技術を利用して複数の被撮影者の顔を自動的に検索し、撮影された全ての顔に対して対応する顔情報を抽出する。
ステップS103において、複数の被撮影者のうち少なくとも1人の被撮影者の撮影中の音声を記録する。
複数の被撮影者は自分の情報を順番に伝えてもよく、記憶された音声はメモリに記憶されてもよい。
ステップS105において、記録された各音声に対して意味解析を行い、該音声から対応する情報を抽出する。上述したように、音声は、身分情報に加え、話者の所在するシーンに関する情報をさらに含んでもよく、このような情報は、同様に音声を解析することで抽出され、顔情報に関連付けられてデータベースに記憶されてもよい。説明の便宜上、以下は、音声における身分情報を一例にして本発明を説明する。
ステップS107において、抽出された情報と該情報を話した被撮影者の顔情報とを関連付けてデータベースに入力する。
複数の被撮影者を含むシーンでは、1人だけが話すシーンと、複数の人が同時に話すシーンとをさらに区別してもよい。複数の人が話すことにより互いに干渉を引き起こして区別できなくなる場合、現在のシーンで記憶された音声を放棄し、音声を再入力してもよい。1人だけが話し、或いは複数の人が話しても1つの音声と他の音声とを区別できる場合、記録された音声における該重要な(又は唯一の)音声を解析して該音声から対応する情報を抽出する。
抽出された対応する情報と顔情報との関連付けは、以下2つの方法により実現されてもよい。
一、音源定位
図2の上面図に示すシーンでは、3人の被撮影者201、202及び203はビデオ取り込みユニット204の撮影範囲内に位置する。また、顔情報入力のための装置200は、オーディオ取り込みユニット205をさらに含む。なお、図2に示すオーディオ取り込みユニット205及びビデオ取り込みユニット204の相対位置に限定されない。
オーディオ取り込みユニット205は、3つのマイクロホンを含むアレイであってもよく、マイクロホンは、例えば音圧感度が高く、指向性を有しないマイクロホン素子である。
図3では、3つのマイクロホン305−1、305−2及び305−3は、カメラ304の上方に直線状に配列されている。図4では、3つのマイクロホン405−1、405−2及び405−3は、カメラ404を中心として等辺三角形を形成している。
マイクロホンのアレイの態様は、図3及び図4におけるパターンに限定されず、3つのマイクロホンが顔情報入力装置200、300、400における既知、且つ異なる位置にそれぞれ取り付けられることは重要である。
被撮影者201、202及び203のうち1人が自分の身分情報を伝える際に、話者の音波はオーディオ取り込みユニットの3つのマイクロホン305−1、305−2及び305−3に伝播される。位置が異なるため、3つのマイクロホンにより取り込まれたオーディオ信号同士の間には位相差が存在し、3つの位相差に基づいて音源の顔情報入力装置に対する方向を判断することができる。例えば、図3に示すように、3つのマイクロホン305−1、305−2、305−3のうちの1つのマイクロホン305−2を顔情報入力装置300の垂直方向の中心軸上に配置し、残りの2つのマイクロホン305−1及び305−3をマイクロホン305−2に対して左右対称となるように配置し、マイクロホン305−2を通過し、且つ所在平面に垂直する法線は基準線とされ、音源の具体的な方向は角度で表されてもよい。
図2に示す例では、被撮影者1は自分の身分情報を伝えるように音声を発している。オーディオ取り込みユニット205により、被撮影者1の音声取り込みユニット205に対する方向を正確に特定することができる。なお、音源定位の精度はオーディオ取り込みユニットにより使用されるマイクロホンの感度に関連する。撮影範囲内に位置する被撮影者間の間隔距離が大きくなると、音源定位の精度への要求が低くなり、一方、撮影範囲内に位置する被撮影者間の間隔距離が小さくなると、音源定位の精度への要求が高くなる。この規則に従って、本開示を実施する際に、当業者は具体的な応用シーンに応じて(例えば撮影範囲内に同時に存在する人の数に基づいて)オーディオ取り込みユニットの性能を決定してもよい。
ビデオ取り込みユニット304、404は、方位について撮影者の所在する現実シーンとビデオシーンとのマッピングを行うために用いられてもよい。このようなマッピングは、現実シーンにおける予め設けられた基準標示物206、207により実現されてもよいし(この場合は、ビデオ取り込みユニットと基準標示物との距離は既知である)、カメラの距離測定機能を利用することで実現されてもよい。
ここで、カメラを用いる距離測定は、以下の方法により実現されてもよい。
1)多視点画像の撮影:ビデオ取り込みユニット304、404のカメラのパラメータが既知である場合、装置内のセンサ(例えばジャイロスコープ)を用いてカメラの視点の変化及びビデオ取り込みユニットの変位を推定し、画像における画素の変位に対応する実際の空間的距離を推測してもよい。
2)defocus(depth from focus)の方法を用いて、焦点深度が異なる複数枚の画像を撮影し、複数枚の画像を用いて深度推定を行う。
現実シーンとビデオシーンとの方位のマッピングにより、現実シーンにおける方位の撮影されたビデオ画面に現れる対応位置を判断してもよい。具体的には、図2のシーンでは、3つの被撮影者201、202及び203の現実シーンにおけるビデオ取り込みユニット204に対する位置、話者201のオーディオ取り込みユニット205に対する方向、オーディオ取り込みユニット205とビデオ取り込みユニット204との相対的距離が既知である場合、話者(被撮影者1)のビデオ画面における位置を推定し、抽出された身分情報と抽出された顔情報との関連付けを行うことができる。
二、唇の動作のキャプチャ
上記の音源定位はオーディオとビデオとの空間的方位の関連付けに関するが、唇の動作のキャプチャの実施形態はビデオとオーディオとの時間的な関連付けに関する。
好ましくは、ビデオ取り込みユニット及びオーディオ取り込みユニットを同時に起動し、ビデオ及びオーディオをそれぞれ記憶する。
図5は共通の時間軸に基づいてビデオ画像とオーディオ波形とを関連付けて表示することを例示的に示す図である。
t1からt2までの期間内にオーディオ信号が記録されたとオーディオ取り込みユニットにより検出された場合、該オーディオ信号から有効な(ノイズが除去された)身分情報を抽出し、顔情報入力装置200、300、400は記録されたビデオ画面を取得し、t1時点のフレーム502とその前の時点(例えば100ms前の時点)のフレーム501とを比較する。比較により、フレーム502に左側に位置する被撮影者の唇の明らかな開き動作があると判断することができる。同様に、t2時点のフレーム503とその後の時点(例えば100ms後の時点)のフレーム504とを比較する。比較により、フレーム504に左側に位置する被撮影者の唇の開き状態が終了すると判断することができる。
時間がぴったり一致することにより、オーディオ取り込みユニットによりt1からt2までの期間内に取り込まれた身分情報が左側に位置する被撮影者に関連すると判断することができる。
上記の唇の動作をキャプチャすることで身分情報と顔情報とを関連付ける方法は、音源定位の実施形態を強化するために用いられてもよいし、音源定位の代替として単独で用いられてもよい。
身分情報と顔情報とを関連付けることで、同一のビデオ撮影期間内に複数の被撮影者について情報を入力することができ、顔情報の入力にかかる時間をさらに節約することができる。また、視覚障害者が人の多い会議又は社交の場で参加者の身分情報を迅速に把握し、知らない人の身分情報と対応する顔情報とを関連付けてデータベースに記憶するように補助することができる。データベースが構築されると、次の会話の際に、上述した定位技術により、話者のビデオ画面における位置を決定し、該話者に対して顔認識を行い、例えばスピーカを通じて視覚障害者に現在の話者の身分情報を提供することができるため、視覚障害者が正常の社交活動を行うように大きな便利を提供することができる。
さらに、多くの人が話しているシーンでは、撮影されたビデオの唇の動作により対応する意味を正確に解析し、オーディオ取り込みユニットにより異なる音源を分割し、ビデオの唇の動作の解析により取得された意味とオーディオ取り込みユニットにより分割された単一チャネルの音源情報とを比較して関連付けを行ってもよい。
図6は本開示の第2実施形態に係る音声から抽出された情報と顔情報とを関連付けてデータベースに入力することを示すフローチャートである。
図1に示す実施形態と異なって、第2実施形態は、音声から対応する情報を抽出する前に、抽出された顔情報がデータベースに記憶されているか否かを判断する。
ステップS601において、1つ又は複数の被撮影者に対してビデオ撮影を行い、ビデオ画面から被撮影者の顔情報を抽出し、被撮影者の音声を記録する。
ステップS602において、抽出された顔情報とデータベースに記憶された顔情報テンプレートとを比較する。
該顔情報がデータベースに記憶されていると判断された場合、ステップS605に進み、顔情報入力モードを終了する。
該顔情報がデータベースに記憶されていないと判断された場合、ステップS603に進み、ステップS601において記録された音声に対して意味解析を行い、音声から対応する情報を抽出する。
好ましくは、入力される姓名がデータベースに記憶されている(対応する顔情報が異なる)場合、入力される姓名を異ならせた後にデータベースに入力する。例えば、データベースに「王軍」が既に存在する場合、データベースに入力された「王軍」と区別するように「王軍2号」として入力する。これによって、後でユーザに伝える際に、異なる音声情報の番号により、異なる顔情報に対応することをユーザに知らせることができる。
ステップS604において、抽出された情報と顔情報とを関連付けてデータベースに入力する。上記の図1乃至図5を参照しながら説明された音声と顔との関連付けの方法は第2実施形態に適用されてもよい。
第2実施形態によれば、抽出された対応情報及び顔情報の入力の効率をさらに向上させることができる。
なお、本開示に係る抽出された身分を含む対応情報はオーディオ・フォーマットの音声情報から認識されたテキスト情報であるため、上記の情報は、音声情報ではなく、テキスト情報としてデータベースに記憶される。
図7は本開示の第3実施形態に係る顔情報と身分情報とを関連付けてデータベースに入力することを示すフローチャートである。
ステップS701において、1つ又は複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から被撮影者の顔情報を抽出する。
ステップS703において、被撮影者の撮影中の音声に対して意味解析を行い、音声は話者自身の身分情報を含んでもよい。
ステップS705において、抽出された顔情報がデータベースに存在するか否かを判断する。
関連する顔情報がデータベースに記憶されていないと判断された場合、ステップS707に進み、抽出された情報と顔情報とを関連付けてデータベースに記憶する。なお、上記の図1乃至図5を参照しながら説明された音声と顔との関連付け方法は第3実施形態に適用されてもよい。
関連する顔情報がデータベースに記憶されていると判断された場合、ステップS710に進み、抽出された情報がデータベースにおける既存の情報を補充できるか否かをさらに判断する。例えば、データベースに被撮影者の姓名が既に存在するが、抽出された情報には、年齢、出身地などその他の情報、又は話者の所在するシーンに関する新たな情報が含まれる。
データベースに補充可能な他の情報が存在しない場合、ステップS711に進み、顔情報入力モードを終了する。
データベースに補充可能な他の情報が存在する場合、ステップS712に進み、補充可能な情報をデータベースに補充的に記憶する。
第3実施形態によれば、より全面的な身分情報データベースをより効率に取得することができる。
図8を参照しながら本開示の方法又はプロセスを実現するためのコンピュータ装置2000を説明し、コンピュータ装置2000は本開示の各態様のハードウェア装置に適用可能な例である。コンピュータ装置2000は、処理及び/又は計算を実行する任意の機器であってもよい。特に、参加者の多い会議又は社交の場では、コンピュータ装置2000は、ウェアラブルデバイスであってもよく、好ましくは、スマート眼鏡であってもよい。また、コンピュータ装置2000は、タブレットコンピュータ、スマートフォン又はその任意の組み合わせであってもよい。本開示に係る顔情報を入力するための装置の全て又は少なくとも一部は、コンピュータ装置2000、又は類似の装置若しくはシステムにより実現されてもよい。
コンピュータ装置2000は、(場合によっては1つ又は複数のインタフェースを介して)バス2002に接続され、或いはバス2002と通信する素子を含んでもよい。例えば、コンピュータ装置2000は、バス2002、1つ又は複数のプロセッサ2004、1つ又は複数の入力装置2006、及び1つ又は複数の出力装置2008を含んでもよい。1つ又は複数のプロセッサ2004は、任意のタイプのプロセッサであってもよく、1つ又は複数の汎用プロセッサ及び/又は1つ又は複数の専用プロセッサ(例えば特定処理チップ)を含んでもよい。入力装置2006は、コンピュータ装置2000に情報を入力することができる任意のタイプの装置であってもよく、カメラを含んでもよいが、これに限定されない。出力装置2008は、情報を提示することができる任意のタイプの装置であってもよく、スピーカ、オーディオ出力端末、バイブレータ、及び/又はディスプレイを含んでもよいが、これに限定されない。コンピュータ装置2000は、非一時的な記憶装置2010を含み、或いは非一時的な記憶装置2010に接続されてもよい。該非一時的な記憶装置2010は、データを記憶可能な非一時的な任意の記憶装置であってもよく、ディスクドライブ、光記憶装置、固体メモリ、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ若しくは他の任意の磁気媒体、光ディスク若しくは他の任意の光学媒体、ROM(読み出し専用メモリ)、RAM(ランダムアクセスメモリ)、キャッシュメモリ及び/又は他の任意のメモリチップ若しくはカートリッジ、及び/又はコンピュータがデータ、命令及び/又はコードを読み取ることができる他の任意の媒体であってもよいが、これらに限定されない。非一時的な記憶装置2010はインタフェースから取り外すことができる。非一時的な記憶装置2010は、上記の方法及びステップを実現するためのデータ/プログラム(命令を含む)/コードを有してもよい。コンピュータ装置2000は、通信装置2012をさらに含んでもよい。通信装置2012は、外部装置及び/又はネットワークと通信を行うことが可能な任意のタイプの装置又はシステムであってもよく、無線通信装置、及び/又はチップセット、例えばブルートゥース(登録商標)装置、1302.11デバイス、WiFiデバイス、WiMaxデバイス、セルラ通信デバイス及び/又は類似のデバイスであってもよいが、これらに限定されない。
コンピュータ装置2000は、動作用メモリ2014をさらに含んでもよく、該動作用メモリ2014は、プロセッサ2004の動作のためのプログラム(命令を含む)及び/又はデータを記憶可能な任意の動作用メモリであってもよく、ランダムアクセスメモリ及び/又は読み出し専用メモリを含んでもよいが、これらに限定されない。
動作用メモリ2014にソフトウェア要素(プログラム)があってもよく、該ソフトウェア要素は、オペレーティングシステム2016、1つ又は複数のアプリケーション2018、ドライバプログラム及び/又は他のデータ及びコードを含んでもよいが、これらに限定されない。上記の方法及びステップを実行するための命令は、1つ又は複数のアプリケーション2018に含まれてもよい。
図8に示すコンピュータ装置2000が本開示の実施形態に適用される時に、メモリ2014は、図1、図6及び図7に示すフローチャートのステップを実行するためのプログラムコード、撮影されたビデオ及び/又はオーディオのファイルを記憶してもよい。ここで、アプリケーション2018は、第三者により提供される顔認識アプリケーション、音声認識アプリケーション、カメラ距離測位アプリケーションなどを含んでもよい。入力装置2006は、例えばカメラ及びマイクロホンなどのビデオ及びオーディオを取得するためのセンサであってもよい。記憶装置2010は、例えば関連付けられた身分情報と顔情報をデータベースに書き込むことができるようにデータベースを記憶する。プロセッサ2004は、動作用メモリ2014におけるプログラムコードにより本開示の各態様の方法のステップを実行する。
なお、コンピュータ装置2000の構成要素はネットワークに分散されてもよい。例えば、プロセッサを用いて処理を実行し、該プロセッサから離れた他のプロセッサを用いて他の処理を実行してもよい。コンピュータシステム2000の他の構成要素も同様に分散さてもよい。従って、コンピュータ装置2000は、複数の場所で処理を実行する分散コンピュータシステムとして解釈されてもよい。
図面を参照しながら本開示の実施形態又は実施例を説明したが、上述した方法、システム及び装置は例示的な実施形態又は実施例に過ぎず、本発明の範囲はこれらの実施形態又は実施例に制限されず、添付の特許請求の範囲及びその均等物によってのみ限定される。実施形態又は実施例における各要素は、省略されてもよく、それらと同等の要素によって置き換えられてもよい。また、本開示に記載されているものとは異なる順序でステップを実行してもよい。さらに、実施形態又は実施例の各要素を様々な方法で組み合わせてもよい。なお、技術の進化に伴い、本明細書で説明されている要素は本開示の後に現れる同等の要素によって置き換えられてもよい。

Claims (14)

  1. データベースに顔情報を入力する方法であって、
    1つ又は複数の被撮影者に対してビデオ撮影を行い、撮影中にビデオ画面から前記1つ又は複数の被撮影者の顔情報を抽出するステップと、
    前記1つ又は複数の被撮影者のうち少なくとも1つの被撮影者の撮影中の音声を記録するステップと、
    記録された音声に対して意味解析を行い、該音声から対応する情報を抽出するステップと、
    抽出された情報と該情報を話した被撮影者の顔情報とを関連付けて前記データベースに入力するステップと、を含
    前記抽出された情報と該情報を話した被撮影者の顔情報とを関連付けるステップは、
    音源定位により前記情報を話した被撮影者の現実シーンにおける方位を決定するステップと、
    方位について前記現実シーンとビデオシーンとのマッピングを行うステップと、
    前記情報を話した被撮影者の現実シーンにおける方位により、該被撮影者のビデオシーンにおける位置を決定するステップと、を含む、方法。
  2. 前記顔情報は、前記1つ又は複数の被撮影者を認識するために使用できる顔特徴情報を含む、請求項1に記載の方法。
  3. 前記少なくとも1つの被撮影者の音声は、話者自身の身分情報を含み、
    前記抽出された対応する情報は、前記話者自身の身分情報を含む、請求項1又は2に記載の方法。
  4. 前記身分情報は姓名を含む、請求項3に記載の方法。
  5. 前記少なくとも1つの被撮影者の音声は、話者自身の所在するシーンに関する情報を含み、
    前記抽出された対応する情報は、前記話者自身の所在するシーンに関する情報を含む、請求項1又は2に記載の方法。
  6. 抽出された情報と該情報を話した被撮影者の顔情報とを関連付けるステップは、
    撮影中にビデオ画面に基づいて前記1つ又は複数の被撮影者の唇の動きを解析するステップ、を含む、請求項1に記載の方法。
  7. 前記唇の動きの開始時間と、前記音声が記録される開始時間とを比較する、請求項に記載の方法。
  8. データベースに前記少なくとも1つの被撮影者の顔情報が記憶されているか否かを検出し、データベースに前記少なくとも1つの被撮影者の顔情報が存在しない場合、前記記録された音声に対して解析を行う、請求項1に記載の方法。
  9. データベースに前記少なくとも1つの被撮影者の顔情報が記憶されているか否かを検出し、データベースに前記少なくとも1つの被撮影者の顔情報が記憶されている場合、前記抽出された情報を用いて、データベースに記憶された前記少なくとも1つの被撮影者の顔情報に関連付けられた情報を補充する、請求項1に記載の方法。
  10. 前記情報はテキスト情報としてデータベースに記憶される、請求項1に記載の方法。
  11. データベースに顔情報を入力するプロセッサチップ回路であって、
    請求項1乃至10の何れかに記載の方法のステップを実行する回路部、を含む、プロセッサチップ回路。
  12. 1つ又は複数の被撮影者に対してビデオ撮影を行うビデオ・センサと、
    前記1つ又は複数の被撮影者のうち少なくとも1つの被撮影者の撮影中の音声を記録するオーディオ・センサと、
    対応する被撮影者の情報と顔情報とを関連付けてデータベースに入力する請求項11に記載のプロセッサチップ回路と、を含む、電子機器。
  13. 前記電子機器はウェアラブルデバイスとして実現され、
    前記ウェアラブルデバイスは、認識された顔に対応する情報がデータベースに存在する場合、情報の内容を音声で再生するスピーカ、を含む、請求項12に記載の電子機器。
  14. 命令を含むプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記命令が電子機器のプロセッサにより実行される際に、前記電子機器に請求項1乃至10の何れかに記載の方法を実行させる、記憶媒体。
JP2019184911A 2019-07-29 2019-10-08 データベースに顔情報を入力する方法及び装置 Active JP6723591B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910686122.3A CN110196914B (zh) 2019-07-29 2019-07-29 一种将人脸信息录入数据库的方法和装置
CN201910686122.3 2019-07-29

Publications (2)

Publication Number Publication Date
JP6723591B1 true JP6723591B1 (ja) 2020-07-15
JP2021022351A JP2021022351A (ja) 2021-02-18

Family

ID=67756178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019184911A Active JP6723591B1 (ja) 2019-07-29 2019-10-08 データベースに顔情報を入力する方法及び装置

Country Status (6)

Country Link
US (1) US10922570B1 (ja)
EP (1) EP3772016B1 (ja)
JP (1) JP6723591B1 (ja)
KR (1) KR20220041891A (ja)
CN (1) CN110196914B (ja)
WO (1) WO2021017096A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544270A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 结合语音识别且实时预测人脸追踪轨迹方法及装置
CN110767226B (zh) * 2019-10-30 2022-08-16 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN113593572B (zh) * 2021-08-03 2024-06-28 深圳地平线机器人科技有限公司 在空间区域内进行音区定位方法和装置、设备和介质
CN114420131B (zh) * 2022-03-16 2022-05-31 云天智能信息(深圳)有限公司 低弱视力智能语音辅助识别系统
CN114863364B (zh) * 2022-05-20 2023-03-07 碧桂园生活服务集团股份有限公司 一种基于智能视频监控的安防检测方法及系统

Family Cites Families (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6111517A (en) 1996-12-30 2000-08-29 Visionics Corporation Continuous video monitoring using face recognition for access control
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6975750B2 (en) * 2000-12-01 2005-12-13 Microsoft Corp. System and method for face recognition using synthesized training images
US20030154084A1 (en) 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US20040220705A1 (en) * 2003-03-13 2004-11-04 Otman Basir Visual classification and posture estimation of multiple vehicle occupants
EP1743323B1 (en) * 2004-04-28 2013-07-10 Koninklijke Philips Electronics N.V. Adaptive beamformer, sidelobe canceller, handsfree speech communication device
CN100410963C (zh) * 2006-12-27 2008-08-13 中山大学 一种基于块内相关性的二维线性鉴别分析人脸识别方法
JP5134876B2 (ja) * 2007-07-11 2013-01-30 株式会社日立製作所 音声通信装置及び音声通信方法並びにプログラム
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
US8219387B2 (en) * 2007-12-10 2012-07-10 Microsoft Corporation Identifying far-end sound
US8624962B2 (en) * 2009-02-02 2014-01-07 Ydreams—Informatica, S.A. Ydreams Systems and methods for simulating three-dimensional virtual interactions from two-dimensional camera images
JP2011186351A (ja) * 2010-03-11 2011-09-22 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
WO2011149558A2 (en) * 2010-05-28 2011-12-01 Abelow Daniel H Reality alternate
US9396385B2 (en) * 2010-08-26 2016-07-19 Blast Motion Inc. Integrated sensor and video motion analysis method
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US10289288B2 (en) * 2011-04-22 2019-05-14 Emerging Automotive, Llc Vehicle systems for providing access to vehicle controls, functions, environment and applications to guests/passengers via mobile devices
US10572123B2 (en) * 2011-04-22 2020-02-25 Emerging Automotive, Llc Vehicle passenger controls via mobile devices
US20130030811A1 (en) * 2011-07-29 2013-01-31 Panasonic Corporation Natural query interface for connected car
US8913103B1 (en) * 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US9153084B2 (en) * 2012-03-14 2015-10-06 Flextronics Ap, Llc Destination and travel information application
US9922646B1 (en) * 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
US9008641B2 (en) * 2012-12-27 2015-04-14 Intel Corporation Detecting a user-to-wireless device association in a vehicle
CN103973441B (zh) * 2013-01-29 2016-03-09 腾讯科技(深圳)有限公司 基于音视频的用户认证方法和装置
WO2014139117A1 (en) * 2013-03-14 2014-09-18 Intel Corporation Voice and/or facial recognition based service provision
US9747898B2 (en) * 2013-03-15 2017-08-29 Honda Motor Co., Ltd. Interpretation of ambiguous vehicle instructions
US9317736B1 (en) * 2013-05-08 2016-04-19 Amazon Technologies, Inc. Individual record verification based on features
US9680934B2 (en) * 2013-07-17 2017-06-13 Ford Global Technologies, Llc Vehicle communication channel management
US9892745B2 (en) * 2013-08-23 2018-02-13 At&T Intellectual Property I, L.P. Augmented multi-tier classifier for multi-modal voice activity detection
JP6148163B2 (ja) * 2013-11-29 2017-06-14 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US9390726B1 (en) * 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US9582246B2 (en) * 2014-03-04 2017-02-28 Microsoft Technology Licensing, Llc Voice-command suggestions based on computer context
KR102216048B1 (ko) * 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9373200B2 (en) * 2014-06-06 2016-06-21 Vivint, Inc. Monitoring vehicle usage
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
US20160100092A1 (en) * 2014-10-01 2016-04-07 Fortemedia, Inc. Object tracking device and tracking method thereof
US9881610B2 (en) * 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US10318575B2 (en) * 2014-11-14 2019-06-11 Zorroa Corporation Systems and methods of building and using an image catalog
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US9734410B2 (en) * 2015-01-23 2017-08-15 Shindig, Inc. Systems and methods for analyzing facial expressions within an online classroom to gauge participant attentiveness
DE102015201369A1 (de) * 2015-01-27 2016-07-28 Robert Bosch Gmbh Verfahren und Vorrichtung zum Betreiben eines zumindest teilautomatisch fahrenden oder fahrbaren Kraftfahrzeugs
US9300801B1 (en) * 2015-01-30 2016-03-29 Mattersight Corporation Personality analysis of mono-recording system and methods
US20160267911A1 (en) * 2015-03-13 2016-09-15 Magna Mirrors Of America, Inc. Vehicle voice acquisition system with microphone and optical sensor
US10305895B2 (en) * 2015-04-14 2019-05-28 Blubox Security, Inc. Multi-factor and multi-mode biometric physical access control device
DE102015210430A1 (de) * 2015-06-08 2016-12-08 Robert Bosch Gmbh Verfahren zum Erkennen eines Sprachkontexts für eine Sprachsteuerung, Verfahren zum Ermitteln eines Sprachsteuersignals für eine Sprachsteuerung und Vorrichtung zum Ausführen der Verfahren
US9641585B2 (en) * 2015-06-08 2017-05-02 Cisco Technology, Inc. Automated video editing based on activity in video conference
US10178301B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
US20170068863A1 (en) * 2015-09-04 2017-03-09 Qualcomm Incorporated Occupancy detection using computer vision
US9764694B2 (en) * 2015-10-27 2017-09-19 Thunder Power Hong Kong Ltd. Intelligent rear-view mirror system
US9832583B2 (en) * 2015-11-10 2017-11-28 Avaya Inc. Enhancement of audio captured by multiple microphones at unspecified positions
CN105512348B (zh) * 2016-01-28 2019-03-26 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
US11783524B2 (en) * 2016-02-10 2023-10-10 Nitin Vats Producing realistic talking face with expression using images text and voice
WO2017138934A1 (en) * 2016-02-10 2017-08-17 Nuance Communications, Inc. Techniques for spatially selective wake-up word recognition and related systems and methods
US10476888B2 (en) * 2016-03-23 2019-11-12 Georgia Tech Research Corporation Systems and methods for using video for user and message authentication
EP3239981B1 (en) * 2016-04-26 2018-12-12 Nokia Technologies Oy Methods, apparatuses and computer programs relating to modification of a characteristic associated with a separated audio signal
US9984314B2 (en) * 2016-05-06 2018-05-29 Microsoft Technology Licensing, Llc Dynamic classifier selection based on class skew
US10089071B2 (en) * 2016-06-02 2018-10-02 Microsoft Technology Licensing, Llc Automatic audio attenuation on immersive display devices
WO2018003196A1 (ja) * 2016-06-27 2018-01-04 ソニー株式会社 情報処理システム、記憶媒体、および情報処理方法
US10152969B2 (en) * 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
JP6631445B2 (ja) * 2016-09-09 2020-01-15 トヨタ自動車株式会社 車両用情報提示装置
US10198626B2 (en) * 2016-10-19 2019-02-05 Snap Inc. Neural networks for facial modeling
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
CN106782545B (zh) * 2016-12-16 2019-07-16 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
US10403279B2 (en) * 2016-12-21 2019-09-03 Avnera Corporation Low-power, always-listening, voice command detection and capture
US20180190282A1 (en) * 2016-12-30 2018-07-05 Qualcomm Incorporated In-vehicle voice command control
US20180187969A1 (en) * 2017-01-03 2018-07-05 Samsung Electronics Co., Ltd. Refrigerator
US10861450B2 (en) * 2017-02-10 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for managing voice-based interaction in internet of things network system
US10467510B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
WO2018150758A1 (ja) * 2017-02-15 2018-08-23 ソニー株式会社 情報処理装置、情報処理方法及び記憶媒体
JP7337699B2 (ja) * 2017-03-23 2023-09-04 ジョイソン セイフティ システムズ アクイジション エルエルシー 口の画像を入力コマンドと相互に関連付けるシステム及び方法
DK179867B1 (en) * 2017-05-16 2019-08-06 Apple Inc. RECORDING AND SENDING EMOJI
US20180357040A1 (en) * 2017-06-09 2018-12-13 Mitsubishi Electric Automotive America, Inc. In-vehicle infotainment with multi-modal interface
US10416671B2 (en) * 2017-07-11 2019-09-17 Waymo Llc Methods and systems for vehicle occupancy confirmation
US20190037363A1 (en) * 2017-07-31 2019-01-31 GM Global Technology Operations LLC Vehicle based acoustic zoning system for smartphones
CN107632704B (zh) * 2017-09-01 2020-05-15 广州励丰文化科技股份有限公司 一种基于光学定位的混合现实音频控制方法及服务设备
JP2019049829A (ja) * 2017-09-08 2019-03-28 株式会社豊田中央研究所 目的区間判別装置、モデル学習装置、及びプログラム
JP7123540B2 (ja) * 2017-09-25 2022-08-23 キヤノン株式会社 音声情報による入力を受け付ける情報処理端末、方法、その情報処理端末を含むシステム
US11465631B2 (en) * 2017-12-08 2022-10-11 Tesla, Inc. Personalization system and method for a vehicle based on spatial locations of occupants' body portions
US10374816B1 (en) * 2017-12-13 2019-08-06 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10834365B2 (en) * 2018-02-08 2020-11-10 Nortek Security & Control Llc Audio-visual monitoring using a virtual assistant
US11335079B2 (en) * 2018-03-05 2022-05-17 Intel Corporation Method and system of reflection suppression for image processing
US10699572B2 (en) * 2018-04-20 2020-06-30 Carrier Corporation Passenger counting for a transportation system
US11196669B2 (en) * 2018-05-17 2021-12-07 At&T Intellectual Property I, L.P. Network routing of media streams based upon semantic contents
US20190355352A1 (en) * 2018-05-18 2019-11-21 Honda Motor Co., Ltd. Voice and conversation recognition system
DK201870683A1 (en) * 2018-07-05 2020-05-25 Aptiv Technologies Limited IDENTIFYING AND AUTHENTICATING AUTONOMOUS VEHICLES AND PASSENGERS

Also Published As

Publication number Publication date
JP2021022351A (ja) 2021-02-18
US10922570B1 (en) 2021-02-16
US20210034898A1 (en) 2021-02-04
EP3772016A1 (en) 2021-02-03
WO2021017096A1 (zh) 2021-02-04
CN110196914B (zh) 2019-12-27
KR20220041891A (ko) 2022-04-01
EP3772016B1 (en) 2022-05-18
CN110196914A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
JP6723591B1 (ja) データベースに顔情報を入力する方法及び装置
CN112037791B (zh) 会议纪要转录方法、设备和存储介质
EP2509070A1 (en) Apparatus and method for determining relevance of input speech
US10806393B2 (en) System and method for detection of cognitive and speech impairment based on temporal visual facial feature
CN107924392A (zh) 基于姿势的注释
EP3685288B1 (en) Apparatus, method and computer program product for biometric recognition
JP2019217558A (ja) 対話システム及び対話システムの制御方法
KR20150135688A (ko) 시청 데이터를 이용한 기억 보조 방법
CN109345427B (zh) 一种结合人脸识别和行人识别技术的教室视频点到方法
Kumar et al. Smart glasses for visually impaired people with facial recognition
KR20210066774A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
US20230136553A1 (en) Context-aided identification
WO2020125252A1 (zh) 机器人会话切换方法、装置及计算设备
US20220335752A1 (en) Emotion recognition and notification system
JP2021131699A (ja) 情報処理装置および行動モード設定方法
JP2021086274A (ja) 読唇装置及び読唇方法
KR20200094570A (ko) 수화용 장갑과 언어 변환용 안경으로 이루어진 수화 통역 시스템
Shah et al. Eyeris: a virtual eye to aid the visually impaired
JP2019152737A (ja) 話者推定方法および話者推定装置
JP2021179689A (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
JP2019175421A (ja) マルチアングル顔認証システム及びその学習方法と認証方法
CN117809354B (zh) 基于头部可穿戴设备感知的情感识别方法、介质及设备
Jain et al. Survey on Various Techniques based on Voice Assistance for Blind
US20210350118A1 (en) System & Method for Body Language Interpretation
JP7127864B2 (ja) 情報処理方法、情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191008

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191008

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200618

R150 Certificate of patent or registration of utility model

Ref document number: 6723591

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250