CN110196914A - 一种将人脸信息录入数据库的方法和装置 - Google Patents

一种将人脸信息录入数据库的方法和装置 Download PDF

Info

Publication number
CN110196914A
CN110196914A CN201910686122.3A CN201910686122A CN110196914A CN 110196914 A CN110196914 A CN 110196914A CN 201910686122 A CN201910686122 A CN 201910686122A CN 110196914 A CN110196914 A CN 110196914A
Authority
CN
China
Prior art keywords
information
taken
person
face
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910686122.3A
Other languages
English (en)
Other versions
CN110196914B (zh
Inventor
蔡海蛟
冯歆鹏
周骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhao Ming Electronic Technology Co Ltd
Original Assignee
Shanghai Zhao Ming Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhao Ming Electronic Technology Co Ltd filed Critical Shanghai Zhao Ming Electronic Technology Co Ltd
Priority to CN201910686122.3A priority Critical patent/CN110196914B/zh
Priority to PCT/CN2019/104108 priority patent/WO2021017096A1/zh
Priority to KR1020227006755A priority patent/KR20220041891A/ko
Publication of CN110196914A publication Critical patent/CN110196914A/zh
Priority to JP2019184911A priority patent/JP6723591B1/ja
Priority to US16/678,838 priority patent/US10922570B1/en
Priority to EP19211509.5A priority patent/EP3772016B1/en
Application granted granted Critical
Publication of CN110196914B publication Critical patent/CN110196914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/50Maintenance of biometric data or enrolment thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Abstract

本公开提供一种用于将人脸信息录入数据库中的方法、处理器芯片、电子设备、存储介质。用于将人脸信息录入数据库中的方法包括:对一个或多个被拍摄者进行视频拍摄,在拍摄期间从视频画面中提取被拍摄者的人脸信息;记录被拍摄者中的至少一个在被拍摄期间的语音;对被记录的语音进行语义分析,从中提取相应的信息;并且将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并录入数据库中。

Description

一种将人脸信息录入数据库的方法和装置
技术领域
本公开涉及人脸识别,特别涉及将人脸信息录入数据库的方法和装置。
背景技术
人脸识别是基于人的脸部特征信息进行识别的一种生物识别技术。人脸识别技术用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测人脸,进而对检测到的人脸进行脸部识别。建立人脸信息数据库是进行人脸识别的先决条件。在将人脸信息录入数据库的过程中,通常是由图像和视频采集设备的使用者来录入与所采集的人脸信息相对应的信息。
发明内容
本公开的一个目的是提供一种于将人脸信息录入数据库中的方法、处理器芯片、电子设备、存储介质。
根据本公开的一个方面,提供了一种用于将人脸信息录入数据库中的方法,包括:对一个或多个被拍摄者进行视频拍摄,在拍摄期间从视频画面中提取所述一个或多个被拍摄者的人脸信息;记录所述一个或多个被拍摄者中的至少一个在被拍摄期间的语音;对被记录的语音进行语义分析,从中提取相应的信息;并且将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并录入所述数据库中。
根据本公开的又一方面,提供一种处理器芯片电路,用于将人脸信息录入数据库中,包括被配置为执行上述方法的步骤的电路单元。
根据本公开的又一方面,提供一种电子设备,包括:视频传感器,用于对一个或多个被拍摄者进行视频拍摄;音频传感器,用于记录所述一个或多个被拍摄者中的至少一个在被拍摄期间的语音;以及上述的处理器芯片电路,以对相应被拍摄者的信息和人脸信息进行关联并录入数据库中。
根据本公开的又一个方面,提供了一种计算机可读存储介质,其中,存储介质上存储有包括指令的程序,该指令在由电子设备的处理器执行时致使电子设备执行上述方法的步骤。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据第一实施方式将人脸信息与从语音中提取的信息进行关联的流程图;
图2示例性示出了对多个被拍摄者录入人脸信息的场景;
图3示出了麦克风阵列与摄像头的第一种排列方式;
图4示出了麦克风阵列与摄像头的第二种排列方式;
图5示例性地基于共同的时间轴对视频图像与音频波形进行关联显示;
图6示出了根据第二实施方式将人脸信息与从语音中提取的信息进行关联的流程图;
图7示出了根据第三实施方式将人脸信息与从语音中提取的信息进行关联的流程图;
图8示出了能够应用于示例性实施方式的示例性计算设备的结构框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个要素与另一要素区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
图1示出了根据本公开的第一实施方式将人脸信息与从语音中提取的信息进行关联的流程图。
下文中,首先按照图1中的步骤描述只有一个被拍摄者的场景。该场景例如是政府相关部门或银行的工作人员需要录入一个被拍摄者的人脸和身份的场景;或者是弱视人员使用一个辅助的可穿戴设备被动录入与其对面讲话的人的人脸和包括身份在内的相关信息的场景。
在步骤S101中,对一个被拍摄者进行视频拍摄,在拍摄期间从视频画面中提取被拍摄者的人脸信息。
视频拍摄可以借助摄像机、摄像头或其它具有图像传感器的视频采集单元完成。当被拍摄者在视频采集单元的拍摄范围内时,视频采集单元可以利用人脸识别技术自动搜索到人脸,进而提取被拍摄者的人脸信息用于人脸识别。
人脸信息包括能够用于辨识被拍摄者的人脸特征信息。人脸识别系统可使用的特征包括视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。例如,对人脸的眼睛、鼻子、嘴、下巴等局部之间结构关系的几何描述,以及虹膜都可以作为识别人脸的重要特征。
在进行人脸识别时,将上述提取的人脸信息与数据库中存储的人脸信息模板进行搜索匹配,根据相似程度对人脸的身份信息进行判断。例如,可以通过深度学习,训练出神经网络来进行上述的相似程度判断。
在步骤S103中,记录被拍摄者中在被拍摄期间的语音。
语音中可以包含说话者自己的身份信息;作为替代和补充,语音中也可以包括与说话者自己所处场景有关的信息。例如,在弱视人员的就医场景中,医生的谈话内容中不仅可以包括该医生的姓名、所属科室、职位等身份信息,同样可以包括关于治疗方式、服药方式等有效语音信息。
语音的采集可以通过麦克风等音频采集单元实现。被拍摄者主动说出信息,例如自己的身份信息 “我是王军”等。身份信息至少包括姓名,然而根据数据库的不同用途,还可以包括年龄、籍贯、以及上述的工作单位、职务等其他信息。
在步骤S105中,对被记录的语音进行语义分析,从中提取相应的信息。
从语音中提取信息可以通过语音识别技术实现,提取出的信息可以以文本的形式进行存储。基于语音识别技术提供商提供的汉语(包括不同方言)、英语等各类语言的语音数据库,可以识别出用多种语言报出的信息。如上所述,所提取的信息中可以是说话者自己的身份信息;作为替代和补充,所提取的信息也可以包括与说话者自己所处场景有关的信息。需要指出,通过语义分析所提取的身份信息不同于说话者的声纹信息。
被拍摄者的配合程度可能对语音识别的结果造成影响。可以理解的是,如果被拍摄者以适当的语速清晰地说出相应的信息,语音识别的结果会更准确。
在步骤S107中,将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并存入数据库。
在只有一个被拍摄者的场景中,可以判定所提取的人脸信息与信息属于该同一个被拍摄者,进而将提取到的人脸信息和信息以关联的形式存储到数据库中。其中,信息以文字信息的形式存储在数据库中。
上述的人脸信息录入办法,通过自动识别并关联被拍摄者播报的信息与其人脸信息,降低了由视频采集单元使用者错误录入被拍摄人信息(尤其是身份信息)的风险,提高了人脸信息录入的效率。此外,根据本公开的方法使得同时录入与场景有关的其他信息成为可能,因此可以满足用户在不同场景的使用需求。
图1流程图中的步骤也可以应用于有多个被拍摄者的场景。该场景例如是弱视人员参加多人会议或处于社交场合。
应当理解,上文中围绕单个被拍摄者描述的人脸识别和语音识别可以分别应用于包括多个被拍摄者的场景中的每个个人,因此,相关内容不再赘述。
在步骤S101中,对多个被拍摄者进行视频拍摄,在拍摄期间从视频画面中提取每个被拍摄者的人脸信息。
如图2所示,视频采集单元204的拍摄范围内(图2中两条虚线界定的扇形区域)同时有三个被拍摄者201、202和203。利用人脸识别技术自动搜索到多个被拍摄者的人脸,进而针对拍摄到的所有人脸提取相应的人脸信息。
在步骤S103中,记录多个拍摄者中的至少一个在被拍摄期间的语音。
多个被拍摄者可以依次播报自己的信息,记录下来的语音可以存储在存储器中。
在步骤S105中,分别对被记录的各个语音进行语义分析,从中提取相应的信息。需要说明的是,如上所述,除身份信息之外,语音中也可以包括与说话者所在场景有关的信息,这类信息也同样可以通过分析语音而被提取出来,并与人脸信息关联存储到数据库种。为说明的简便起见,下文会以语音中的身份信息为例对本发明进行阐述。
在步骤S107中,将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并录入数据库中。
在包括多个被拍摄者的场景中,可以进一步区分仅一人说话和多人同时说话的场景。在多人说话造成相互严重干扰以至无法区分的情况下,可以选择放弃在当前场景中记录的语音,并再做语音录入;在仅有一人说话,或者虽有多人说话但仍有一个声音可以与其他声音区分开时,对所记录的语音中的该主要(或唯一)的声音进行分析从而提取相应的信息。
所提取出的相应的信息和人脸信息的关联可以通过以下两种方式实现:
一、声源定位
在图2以俯视图的方式示出的场景中,三个被拍摄者201、202和203位于视频采集单元204的拍摄范围内。此外,用于人脸信息录入的设备200还包括音频采集单元205。需要指出,图2并不意图限定音频采集单元205和视频采集单元204的相对位置。
音频采集单元205可以是包括三个麦克风的阵列,其中的麦克风例如是对声压灵敏度高的无指向性的麦克风元件。
图3中,三个麦克风305-1、305-2、305-3在摄像头304上方呈直线排列。图4中,三个麦克风405-1、405-2、405-3以摄像头404为中心构成一个等边三角形。
麦克风的阵列的形式不限于图3和图4中的模式,重要的是三个麦克风分别安装于人脸信息录入设备200、300、400上已知的且不同的位置。
当被拍摄者201、202和203中的一个播报自己的身份信息时,说话的声波传播到音频采集单元的三个麦克风305-1、305-2、305-3。由于位置不同,三个麦克风采集的音频信号相互之间存在相位差,根据三个相位差信息可以判断出声源相对于人脸信息录入设备的方向。例如,如图3所示,可以将三个麦克风305-1、305-2、305-3中的一个305-2设置在人脸信息录入设备300竖直方向的中轴线上,其余两个麦克风305-1、 305-3相对麦克风305-2左右对称设置,并且以经过麦克风305-2且垂直于其所在平面的法线作为基准线,用角度来标定声源的具体方向。
在图2所示的情况中,被拍摄者1正在发出语音播报自己的身份信息。通过音频采集单元205,能够准确定位被拍摄者1相对于音频采集单元205的方向。应当理解的是,声源定位的精准度与音频采集单元使用的麦克风的灵敏度有关。如果处于拍摄范围内的被拍摄者相互之间的间隔距离很大,则对声源定位精准度的要求相对较低;相反,如果处于拍摄范围内的被拍摄者相互之间的间隔很小,则对声源定位精准度的要求相对较高。基于以上教导,
在实施本公开时,本领域技术人员可以根据具体的应用场景(例如根据同时处于拍摄范围内的人数)决定音频采集单元的性能。
视频采集单元304、404可以用于将拍摄者所处的现实场景和视频场景关于方位进行映射。这种映射可以通过在现实场景中预设参考标志物206、207实现(在这种情况下,视频采集单元到参考标志物的距离已知),也可以利用摄像头的测距功能实现。
其中,利用摄像头测距可以通过以下方式实现:
1)拍摄多视角图像:在视频采集单元304、404的摄像头参数已知的情况下,可以利用设备内部的传感器(比如陀螺仪)估计摄像头视角变化的情况以及视频采集单元的位移情况,从而推断图像中像素位移对应的实际空间距离;
2)利用defocus (depth from focus)的方法,拍摄多张不同聚焦深度的图片,然后利用多张图片进行深度估计。
基于现实场景与视频场景之间的方位映射,可以判断出现实场景中的某个方位在拍摄的视频画面中的相应位置。具体到图2的场景中,在三个被拍摄者201、202、203在现实场景中相对于视频采集单元204的位置、说话者201相对于音频采集单元205的方向、音频采集设备205和视频采集设备204相对距离已知的情况下,可以推算出说话者(被拍摄者1)在视频画面中的位置,进而完成提取的身份信息和提取的人脸信息的关联。
二、捕捉唇部动作
上述的声源定位涉及音频和视频在空间方位上的关联,捕捉唇部动作的实施方式则涉及视频和音频在时间上的关联。
有益的是,同时启动视频采集单元和音频采集单元,并分别进行视频和音频的录制。
图5利用共同的时间轴将所拍摄的视频和记录的音频波形关联显示。
当音频采集单元检测到在t1到t2的时间间隔内有音频信号录入,并且可以从中有效(排除噪声)提取出身份信息时,人脸信息录入设备200、300、400调取录制的视频画面,对t1时刻的帧502及其之前时刻(例如100ms之前)的帧501进行比较。通过比较,可以判断出位于左侧的被拍摄者在帧502中嘴唇有明显的张开动作;同样,t2时刻的帧503及其之后时刻(例如100ms之后)的帧504进行比较;通过比较,可以判断出位于左侧的被拍摄者在帧504中结束了嘴唇张开的状态。
基于时间的高度吻合性,可以判断音频采集单元在t1到t2的时间间隔内采集到身份信息应当与位于左侧的被拍摄者关联。
上述通过捕捉唇部动作关联身份信息和人脸信息的方法,既可以用来补强声源定位的实施方式,也可以作为声源定位的替代单独使用。
通过将身份信息和人脸信息进行关联,可以在同一个视频拍摄期间对多个被拍摄者进行信息录入,进一步节省人脸信息录入所需花费的时间,此外,还可以辅助弱视人员在人数较多的会议或社交场合中迅速掌握在场人员的身份信息,并将陌生人的身份信息与对应的人脸信息关联地存储在数据库中。一旦建立了数据库之后,在接下来的谈话过程中,可以通过上文阐释的定位技术,确认说话者在视频画面中的位置,对其进行人脸识别进而例如通过扬声器向弱视人员提供当前说话者的身份信息,从而为弱视人员能够进行正常的社交活动提供了极大的便利。
此外,在有多人说话的场景中,也可以通过拍摄的唇部视频动作准确分析出对应的语义,通过音频采集设备将不同的声源进行拆分,将视频唇部动作分析的语义与音频采集设备拆分的单路声源信息进行比对,以进行关联。
图6示出了根据本公开的第二实施方式将人脸信息与所提取的相应信息关联录入数据库的流程图。
与图1示出的实施方式不同的是,本第二实施方式在从语音中提取相应信息之前判断提取的人脸信息是否已经存储于数据库中。
在步骤S601中,对一个或多个被拍摄者进行视频拍摄,从视频画面中提取被拍摄者的人脸信息,并记录被拍摄者的语音。
在步骤S602中,将提取的人脸信息与数据库中已经存储的人脸信息模板进行比较。
如果判断该人脸信息已经存储于数据库中,则前进到步骤S605,退出人脸信息录入模式。
如果判断该人脸信息尚未存储于数据库中,则前进到S603,开始语义分析步骤601中记录的被拍摄者的语音,并从语音中提取相应的信息。
优选的,当将要录入的名字已经存储于数据库中(对应的人脸信息不同),可以对将要录入的名字进行区别后录入数据库。例如,当数据库中已有“王军”时,录入为“王军2号”以区别库中已录入的“王军”,从而在后续播报给用户时,通过不同的语音信息代号,让用户与不同的人脸信息对应。
在步骤S604中,将提取的信息与人脸信息进行关联并录入数据库中。上述结合图1至5阐述的将声音和人脸进行关联的方式也可以应用于本第二实施方式。
根据第二实施方式,可以进一步提高所提取的相应信息与人脸信息的录入效率。
应当说明,根据本公开提取的包括身份在内的相应的信息是从音频格式的语音信息中识别出的文字信息,因此,上述信息作为文字信息而非语音信息被存储在数据库中。
图7示出了根据本公开的第三实施方式将人脸信息与身份信息关联录入数据库的流程图。
在步骤S701中,对一个或多个被拍摄者进行视频拍摄,在拍摄期间从视频画面中提取被拍摄者的人脸信息。
在步骤S703中,对被拍摄者中在被拍摄期间的语音进行语义分析,语音中可以包含说话者自己的身份信息。
在步骤S705中,判断提取的人脸信息是否已经在数据库中。
如果经判断发现相关的人脸信息尚未存储在数据库中,则前进到步骤S707,将提取的信息与人脸信息以关联的形式存储到数据库中。这里,上述结合图1至5阐述的将声音和人脸进行关联的方式也可以应用于本第三实施方式。
如果经判断发现相关的人脸信息已经存储在数据库中,则前进到S710,进一步判断提取的信息中是否可以补充数据库中已有的信息。例如,数据库中已经存在被拍摄者的姓名,而提取的信息中还包括了年龄、籍贯等其他信息,或者与说话者所在场景有关的新的信息。
如果不存在可以补充到数据库中的其他信息,前进到S711,退出人脸信息录入模式。
如果存在可以补充到数据库中的其他信息,前进到S712,将可以补充的信息补充存储到数据库中。
根据第三实施方式,可以以更高的效率获取更为全面的身份信息数据库。
图8是用于实现本公开的方法或者过程的计算设备2000,其是可以应用于本公开的各方面的硬件设备的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器。尤其是在上述有多人在场的会议或社交场景中,计算设备2000可以实现为一种可穿戴设备,优选实现为一种智能眼镜。此外,计算设备2000还可以实现为平板计算机、智能电话或其任何组合。根据本公开的用于人脸信息录入的装置可以全部或至少部分地由计算设备2000或类似设备或系统实现。
计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如,计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器,并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备,并且可以包括但不限于摄像头。输出设备2008可以是能呈现信息的任何类型的设备,并且可以包括但不限于扬声器、音频输出终端、振动器或者显示器。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接,非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备,并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质,光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统,并且可以包括但不限于无线通信设备和/或芯片组,例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算设备2000还可以包括工作存储器2014,其可以是存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器,并且可以包括但不限于随机存取存储器和/或只读存储器设备。
软件要素(程序)可以位于工作存储器2014中,包括但不限于操作系统2016、一个或多个应用2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用2018中。
在将图8所示的计算设备2000应用于本公开的实施方式时,存储器2014可以存储用于执行图1、图6和图7所示的流程图的程序代码、拍摄的视频和/或音频文件,其中应用2018中可以包括由第三方提供的人脸识别应用、语音识别应用、摄像头测距应用等等。输入设备2006可以是用于获取视频和音频的传感器,例如摄像头和麦克风。存储设备2010例如用于存储数据库,使得经关联的身份信息和人脸信息可以写入数据库中。处理器2004用于根据工作存储器2014中的程序代码来执行根据本公开的各方面的方法步骤。
还应该理解,计算设备2000的组件可以分布在网络上。例如,可以使用一个处理器执行一些处理,而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算设备2000的其他组件也可以类似地分布。这样,计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (16)

1.一种用于将人脸信息录入数据库中的方法,包括:
对一个或多个被拍摄者进行视频拍摄,在拍摄期间从视频画面中提取所述一个或多个被拍摄者的人脸信息;
记录所述一个或多个被拍摄者中的至少一个在被拍摄期间的语音;
对被记录的语音进行语义分析,从中提取相应的信息;并且
将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联并录入所述数据库中。
2.根据权利要求1的方法,其中,所述人脸信息包括能够用于辨识所述一个或多个被拍摄者的人脸特征信息。
3.根据权利要求1或2的方法,其中,所述至少一个被拍摄者的语音中包括说话者自己的身份信息,并且所述提取的相应的信息包括所述说话者自己的身份信息。
4.根据权利要求3的方法,其中,所述身份信息包括姓名。
5.根据权利要求1或2的方法,所述至少一个被拍摄者的语音中包括与说话者自己所处场景有关的信息,并且所述提取的相应的信息包括所述与说话者自己所处场景有关的信息。
6.根据权利要求1的方法,其中,将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联包括:
通过声源定位来确定所述说出该信息的被拍摄者在现实场景中的方位。
7.根据权利要求6的方法,其中,将所提取的信息与说出该信息的被拍摄者的人脸信息进行关联还包括:
对所述现实场景与视频场景关于方位进行映射;
通过所述说出该信息的被拍摄者在现实场景中的方位来确定其在视频场景中的位置。
8.根据权利要求1的方法,对所提取的信息与说出该信息的被拍摄者的人脸信息进行关联包括:
在拍摄期间根据视频画面分析所述一个或多个被拍摄者的嘴唇的运动。
9.根据权利要求8的方法,其中,
比较所述嘴唇的运动的开始时间与所述语音被记录的开始时间。
10.根据权利要求1的方法,其中,检测所述至少一个被拍摄者的人脸信息是否已经存储在数据库中,如果所述至少一个被拍摄者的人脸信息不在数据库中,对所述被记录的语音进行分析。
11.根据权利要求1的方法,其中,检测所述至少一个被拍摄者的人脸信息是否已经存储在数据库中,如果所述至少一个被拍摄者的人脸信息已经存储在数据库中,则利用所述所提取的信息补充数据库中已存的与所述至少一个被拍摄者的人脸信息相关联的信息。
12.根据权利要求1的方法,其中,所述信息作为文字信息存储在数据库中。
13.一种处理器芯片电路,用于将人脸信息录入数据库中,包括:
被配置为执行根据权利要求1至12中任一项所述的方法的步骤的电路单元。
14.一种电子设备,包括:
视频传感器,用于对一个或多个被拍摄者进行视频拍摄;
音频传感器,用于记录所述一个或多个被拍摄者中的至少一个在被拍摄期间的语音;以及
如权利要求13所述的处理器芯片电路,以对相应被拍摄者的信息和人脸信息进行关联并录入数据库中。
15.根据权利要求14的电子设备,其中所述电子设备实现为可穿戴设备,所述可穿戴设备进一步包括扬声器,用于当数据库中存在与所识别的人脸对应的信息时语音播放出信息内容。
16.一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1至12中任一项所述的方法。
CN201910686122.3A 2019-07-29 2019-07-29 一种将人脸信息录入数据库的方法和装置 Active CN110196914B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201910686122.3A CN110196914B (zh) 2019-07-29 2019-07-29 一种将人脸信息录入数据库的方法和装置
PCT/CN2019/104108 WO2021017096A1 (zh) 2019-07-29 2019-09-03 一种将人脸信息录入数据库的方法和装置
KR1020227006755A KR20220041891A (ko) 2019-07-29 2019-09-03 얼굴 정보를 데이터베이스에 입력하는 방법 및 설치
JP2019184911A JP6723591B1 (ja) 2019-07-29 2019-10-08 データベースに顔情報を入力する方法及び装置
US16/678,838 US10922570B1 (en) 2019-07-29 2019-11-08 Entering of human face information into database
EP19211509.5A EP3772016B1 (en) 2019-07-29 2019-11-26 Method and apparatus for entering human face information into database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910686122.3A CN110196914B (zh) 2019-07-29 2019-07-29 一种将人脸信息录入数据库的方法和装置

Publications (2)

Publication Number Publication Date
CN110196914A true CN110196914A (zh) 2019-09-03
CN110196914B CN110196914B (zh) 2019-12-27

Family

ID=67756178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910686122.3A Active CN110196914B (zh) 2019-07-29 2019-07-29 一种将人脸信息录入数据库的方法和装置

Country Status (6)

Country Link
US (1) US10922570B1 (zh)
EP (1) EP3772016B1 (zh)
JP (1) JP6723591B1 (zh)
KR (1) KR20220041891A (zh)
CN (1) CN110196914B (zh)
WO (1) WO2021017096A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544270A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 结合语音识别且实时预测人脸追踪轨迹方法及装置
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN113593572A (zh) * 2021-08-03 2021-11-02 深圳地平线机器人科技有限公司 在空间区域内进行音区定位方法和装置、设备和介质
CN114420131A (zh) * 2022-03-16 2022-04-29 云天智能信息(深圳)有限公司 低弱视力智能语音辅助识别系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863364B (zh) * 2022-05-20 2023-03-07 碧桂园生活服务集团股份有限公司 一种基于智能视频监控的安防检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN107632704A (zh) * 2017-09-01 2018-01-26 广州励丰文化科技股份有限公司 一种基于光学定位的混合现实音频控制方法及服务设备

Family Cites Families (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6111517A (en) 1996-12-30 2000-08-29 Visionics Corporation Continuous video monitoring using face recognition for access control
US6243683B1 (en) * 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6975750B2 (en) * 2000-12-01 2005-12-13 Microsoft Corp. System and method for face recognition using synthesized training images
US20030154084A1 (en) 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US20040220705A1 (en) * 2003-03-13 2004-11-04 Otman Basir Visual classification and posture estimation of multiple vehicle occupants
EP1743323B1 (en) * 2004-04-28 2013-07-10 Koninklijke Philips Electronics N.V. Adaptive beamformer, sidelobe canceller, handsfree speech communication device
CN100410963C (zh) * 2006-12-27 2008-08-13 中山大学 一种基于块内相关性的二维线性鉴别分析人脸识别方法
JP5134876B2 (ja) * 2007-07-11 2013-01-30 株式会社日立製作所 音声通信装置及び音声通信方法並びにプログラム
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
US8219387B2 (en) * 2007-12-10 2012-07-10 Microsoft Corporation Identifying far-end sound
US8624962B2 (en) * 2009-02-02 2014-01-07 Ydreams—Informatica, S.A. Ydreams Systems and methods for simulating three-dimensional virtual interactions from two-dimensional camera images
JP2011186351A (ja) * 2010-03-11 2011-09-22 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US9183560B2 (en) * 2010-05-28 2015-11-10 Daniel H. Abelow Reality alternate
US9396385B2 (en) * 2010-08-26 2016-07-19 Blast Motion Inc. Integrated sensor and video motion analysis method
US8700392B1 (en) * 2010-09-10 2014-04-15 Amazon Technologies, Inc. Speech-inclusive device interfaces
US10572123B2 (en) * 2011-04-22 2020-02-25 Emerging Automotive, Llc Vehicle passenger controls via mobile devices
US10289288B2 (en) * 2011-04-22 2019-05-14 Emerging Automotive, Llc Vehicle systems for providing access to vehicle controls, functions, environment and applications to guests/passengers via mobile devices
US20130030811A1 (en) * 2011-07-29 2013-01-31 Panasonic Corporation Natural query interface for connected car
US8913103B1 (en) * 2012-02-01 2014-12-16 Google Inc. Method and apparatus for focus-of-attention control
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US9349234B2 (en) * 2012-03-14 2016-05-24 Autoconnect Holdings Llc Vehicle to vehicle social and business communications
US9922646B1 (en) * 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
US9008641B2 (en) * 2012-12-27 2015-04-14 Intel Corporation Detecting a user-to-wireless device association in a vehicle
CN103973441B (zh) * 2013-01-29 2016-03-09 腾讯科技(深圳)有限公司 基于音视频的用户认证方法和装置
KR101731404B1 (ko) * 2013-03-14 2017-04-28 인텔 코포레이션 음성 및/또는 안면 인식 기반 서비스 제공
US9747898B2 (en) * 2013-03-15 2017-08-29 Honda Motor Co., Ltd. Interpretation of ambiguous vehicle instructions
US9317736B1 (en) * 2013-05-08 2016-04-19 Amazon Technologies, Inc. Individual record verification based on features
US9680934B2 (en) * 2013-07-17 2017-06-13 Ford Global Technologies, Llc Vehicle communication channel management
US9892745B2 (en) * 2013-08-23 2018-02-13 At&T Intellectual Property I, L.P. Augmented multi-tier classifier for multi-modal voice activity detection
JP6148163B2 (ja) * 2013-11-29 2017-06-14 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US9390726B1 (en) * 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US9582246B2 (en) * 2014-03-04 2017-02-28 Microsoft Technology Licensing, Llc Voice-command suggestions based on computer context
KR102216048B1 (ko) * 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9373200B2 (en) * 2014-06-06 2016-06-21 Vivint, Inc. Monitoring vehicle usage
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
US20160100092A1 (en) * 2014-10-01 2016-04-07 Fortemedia, Inc. Object tracking device and tracking method thereof
US9881610B2 (en) * 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US10318575B2 (en) * 2014-11-14 2019-06-11 Zorroa Corporation Systems and methods of building and using an image catalog
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US9734410B2 (en) * 2015-01-23 2017-08-15 Shindig, Inc. Systems and methods for analyzing facial expressions within an online classroom to gauge participant attentiveness
DE102015201369A1 (de) * 2015-01-27 2016-07-28 Robert Bosch Gmbh Verfahren und Vorrichtung zum Betreiben eines zumindest teilautomatisch fahrenden oder fahrbaren Kraftfahrzeugs
US9300801B1 (en) * 2015-01-30 2016-03-29 Mattersight Corporation Personality analysis of mono-recording system and methods
US20160267911A1 (en) * 2015-03-13 2016-09-15 Magna Mirrors Of America, Inc. Vehicle voice acquisition system with microphone and optical sensor
US10305895B2 (en) * 2015-04-14 2019-05-28 Blubox Security, Inc. Multi-factor and multi-mode biometric physical access control device
US9641585B2 (en) * 2015-06-08 2017-05-02 Cisco Technology, Inc. Automated video editing based on activity in video conference
DE102015210430A1 (de) * 2015-06-08 2016-12-08 Robert Bosch Gmbh Verfahren zum Erkennen eines Sprachkontexts für eine Sprachsteuerung, Verfahren zum Ermitteln eines Sprachsteuersignals für eine Sprachsteuerung und Vorrichtung zum Ausführen der Verfahren
US10178301B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
US20170068863A1 (en) * 2015-09-04 2017-03-09 Qualcomm Incorporated Occupancy detection using computer vision
US9764694B2 (en) * 2015-10-27 2017-09-19 Thunder Power Hong Kong Ltd. Intelligent rear-view mirror system
US9832583B2 (en) * 2015-11-10 2017-11-28 Avaya Inc. Enhancement of audio captured by multiple microphones at unspecified positions
WO2017137947A1 (en) * 2016-02-10 2017-08-17 Vats Nitin Producing realistic talking face with expression using images text and voice
EP3414759B1 (en) * 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US10476888B2 (en) * 2016-03-23 2019-11-12 Georgia Tech Research Corporation Systems and methods for using video for user and message authentication
ES2713685T3 (es) * 2016-04-26 2019-05-23 Nokia Technologies Oy Métodos, aparatos y programas informáticos relativos a la modificación de una característica asociada a una señal de audio separada
US9984314B2 (en) * 2016-05-06 2018-05-29 Microsoft Technology Licensing, Llc Dynamic classifier selection based on class skew
US10089071B2 (en) * 2016-06-02 2018-10-02 Microsoft Technology Licensing, Llc Automatic audio attenuation on immersive display devices
CN109313935B (zh) 2016-06-27 2023-10-20 索尼公司 信息处理系统、存储介质和信息处理方法
US10152969B2 (en) * 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
JP6631445B2 (ja) * 2016-09-09 2020-01-15 トヨタ自動車株式会社 車両用情報提示装置
US10198626B2 (en) * 2016-10-19 2019-02-05 Snap Inc. Neural networks for facial modeling
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
US10403279B2 (en) * 2016-12-21 2019-09-03 Avnera Corporation Low-power, always-listening, voice command detection and capture
US20180190282A1 (en) * 2016-12-30 2018-07-05 Qualcomm Incorporated In-vehicle voice command control
US20180187969A1 (en) * 2017-01-03 2018-07-05 Samsung Electronics Co., Ltd. Refrigerator
US10861450B2 (en) * 2017-02-10 2020-12-08 Samsung Electronics Co., Ltd. Method and apparatus for managing voice-based interaction in internet of things network system
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
WO2018150758A1 (ja) 2017-02-15 2018-08-23 ソニー株式会社 情報処理装置、情報処理方法及び記憶媒体
CN111033611A (zh) * 2017-03-23 2020-04-17 乔伊森安全系统收购有限责任公司 使嘴部图像与输入指令关联的系统和方法
DK179867B1 (en) * 2017-05-16 2019-08-06 Apple Inc. RECORDING AND SENDING EMOJI
US20180357040A1 (en) * 2017-06-09 2018-12-13 Mitsubishi Electric Automotive America, Inc. In-vehicle infotainment with multi-modal interface
US10416671B2 (en) * 2017-07-11 2019-09-17 Waymo Llc Methods and systems for vehicle occupancy confirmation
US20190037363A1 (en) * 2017-07-31 2019-01-31 GM Global Technology Operations LLC Vehicle based acoustic zoning system for smartphones
JP2019049829A (ja) 2017-09-08 2019-03-28 株式会社豊田中央研究所 目的区間判別装置、モデル学習装置、及びプログラム
JP7123540B2 (ja) * 2017-09-25 2022-08-23 キヤノン株式会社 音声情報による入力を受け付ける情報処理端末、方法、その情報処理端末を含むシステム
US11465631B2 (en) * 2017-12-08 2022-10-11 Tesla, Inc. Personalization system and method for a vehicle based on spatial locations of occupants' body portions
US10374816B1 (en) * 2017-12-13 2019-08-06 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10834365B2 (en) * 2018-02-08 2020-11-10 Nortek Security & Control Llc Audio-visual monitoring using a virtual assistant
US11335079B2 (en) * 2018-03-05 2022-05-17 Intel Corporation Method and system of reflection suppression for image processing
US10699572B2 (en) * 2018-04-20 2020-06-30 Carrier Corporation Passenger counting for a transportation system
US11196669B2 (en) * 2018-05-17 2021-12-07 At&T Intellectual Property I, L.P. Network routing of media streams based upon semantic contents
US20190355352A1 (en) * 2018-05-18 2019-11-21 Honda Motor Co., Ltd. Voice and conversation recognition system
DK201870683A1 (en) * 2018-07-05 2020-05-25 Aptiv Technologies Limited IDENTIFYING AND AUTHENTICATING AUTONOMOUS VEHICLES AND PASSENGERS

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN107632704A (zh) * 2017-09-01 2018-01-26 广州励丰文化科技股份有限公司 一种基于光学定位的混合现实音频控制方法及服务设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544270A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 结合语音识别且实时预测人脸追踪轨迹方法及装置
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN110767226B (zh) * 2019-10-30 2022-08-16 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN113593572A (zh) * 2021-08-03 2021-11-02 深圳地平线机器人科技有限公司 在空间区域内进行音区定位方法和装置、设备和介质
CN114420131A (zh) * 2022-03-16 2022-04-29 云天智能信息(深圳)有限公司 低弱视力智能语音辅助识别系统
CN114420131B (zh) * 2022-03-16 2022-05-31 云天智能信息(深圳)有限公司 低弱视力智能语音辅助识别系统

Also Published As

Publication number Publication date
CN110196914B (zh) 2019-12-27
JP6723591B1 (ja) 2020-07-15
US20210034898A1 (en) 2021-02-04
EP3772016A1 (en) 2021-02-03
US10922570B1 (en) 2021-02-16
WO2021017096A1 (zh) 2021-02-04
EP3772016B1 (en) 2022-05-18
KR20220041891A (ko) 2022-04-01
JP2021022351A (ja) 2021-02-18

Similar Documents

Publication Publication Date Title
CN110196914A (zh) 一种将人脸信息录入数据库的方法和装置
KR102387495B1 (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
US9064160B2 (en) Meeting room participant recogniser
CN112088402A (zh) 用于说话者识别的联合神经网络
US9530067B2 (en) Method and apparatus for storing and retrieving personal contact information
EP2012304B1 (en) Methods for electronically analysing a dialogue and corresponding systems
CN107924392A (zh) 基于姿势的注释
CN112037791A (zh) 会议纪要转录方法、设备和存储介质
CN109560941A (zh) 会议记录方法、装置、智能终端及存储介质
KR101584685B1 (ko) 시청 데이터를 이용한 기억 보조 방법
WO2021120190A1 (zh) 数据处理方法、装置、电子设备和存储介质
JP2022523921A (ja) 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法
EP2503545A1 (en) Arrangement and method relating to audio recognition
JP2007067972A (ja) 会議システム及び会議システムの制御方法
CN115131405A (zh) 一种基于多模态信息的发言人跟踪方法及系统
WO2021166811A1 (ja) 情報処理装置および行動モード設定方法
CN113947376A (zh) 基于多重生物特征的c/s打卡方法和装置
WO2018173948A1 (ja) サービス提供システム
US20230136553A1 (en) Context-aided identification
US20210174823A1 (en) System for and Method of Converting Spoken Words and Audio Cues into Spatially Accurate Caption Text for Augmented Reality Glasses
TWI359603B (en) A personal reminding apparatus and method thereof
Terissi et al. A French-Spanish Multimodal Speech Communication Corpus Incorporating Acoustic Data, Facial, Hands and Arms Gestures Information
JP7000547B1 (ja) プログラム、方法、情報処理装置、システム
JP7127864B2 (ja) 情報処理方法、情報処理装置及びプログラム
Antar et al. Avas: Speech database for multimodal recognition applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant