CN111222117A - 身份信息的识别方法及装置 - Google Patents

身份信息的识别方法及装置 Download PDF

Info

Publication number
CN111222117A
CN111222117A CN201911398642.0A CN201911398642A CN111222117A CN 111222117 A CN111222117 A CN 111222117A CN 201911398642 A CN201911398642 A CN 201911398642A CN 111222117 A CN111222117 A CN 111222117A
Authority
CN
China
Prior art keywords
sound source
identity information
face image
judging
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911398642.0A
Other languages
English (en)
Inventor
李旭滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911398642.0A priority Critical patent/CN111222117A/zh
Publication of CN111222117A publication Critical patent/CN111222117A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明是关于身份信息的识别方法及装置。该方法包括:在接收到声源时,确定所述声源的声源方向;根据所述声源方向,拍摄人脸图像;根据所述人脸图像,判断声源的身份信息。通过本发明的技术方案,可准确确定会议场景下发出该声源的发言人身份信息,避免通过麦克风与用户座位之间的匹配关系确定用户身份信息,而这种通过人脸图像确定身份信息的方式也比较灵活,且不再受限于基于会议座位以及该会议座位与麦克风之间的匹配关系来确定用户身份。

Description

身份信息的识别方法及装置
技术领域
本发明涉及终端技术领域,尤其涉及身份信息的识别方法及装置。
背景技术
目前,智能会议室会预先分配麦克风和用户座位之间的匹配关系,然后在麦克风发音时,通过发音的麦克风以及上述匹配关系,确定会议室发言人的身份,而这种确定发言者身份的方式不够灵活,麦克风只能随着开会人员和座位配置,同时会议参加人员的不确定性很可能会导致发言人身份确定不准确。
发明内容
本发明实施例提供了身份信息的识别方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种身份信息的识别方法,包括:
在接收到声源时,确定所述声源的声源方向;
根据所述声源方向,拍摄人脸图像;
根据所述人脸图像,判断声源的身份信息。
在一个实施例中,所述方法还包括:
在拍摄所述人脸图像之后,启动唇动识别,以判断所述声源是否来自真实发言者;
所述根据所述人脸图像,判断声源的身份信息,包括:
当所述声源来自所述真实发言者时,根据所述真实发言者的人脸图像,判断所述真实发言者的身份信息。
在一个实施例中,所述根据所述人脸图像,判断声源的身份信息,包括:
确定所述声源的声纹信息;
根据所述人脸图像和所述声纹信息,判定所述身份信息。
在一个实施例中,所述声源来自目标区域,所述目标区域四周布置有环形麦克风阵列;
所述方法还包括:
通过所述环形麦克风阵列接收所述声源;
在接收到声源时,确定所述声源的声源方向,包括:
在接收到所述声源时,通过所述环形麦克风阵列确定所述声源方向。
根据本发明实施例的第二方面,提供一种身份信息的识别装置,包括:
确定模块,用于在接收到声源时,确定所述声源的声源方向;
拍摄模块,用于根据所述声源方向,拍摄人脸图像;
判断模块,用于根据所述人脸图像,判断声源的身份信息。
在一个实施例中,所述装置还包括:
启动模块,用于在拍摄所述人脸图像之后,启动唇动识别,以判断所述声源是否来自真实发言者;
所述判断模块包括:
判断子模块,用于当所述声源来自所述真实发言者时,根据所述真实发言者的人脸图像,判断所述真实发言者的身份信息。
在一个实施例中,所述判断模块包括:
第一确定子模块,用于确定所述声源的声纹信息;
判定子模块,用于根据所述人脸图像和所述声纹信息,判定所述身份信息。
在一个实施例中,所述声源来自目标区域,所述目标区域四周布置有环形麦克风阵列;
所述装置还包括:
接收模块,用于通过所述环形麦克风阵列接收所述声源;
所述确定模块包括:
第二确定子模块,用于在接收到所述声源时,通过所述环形麦克风阵列确定所述声源方向。
本发明的实施例提供的技术方案可以包括以下有益效果:
在接收到声源时,可确定声源的声源方向,进而拍摄该声源方向的人脸图像,以便根据人脸图像自动判断声源的具体身份信息,进而便于根据人脸图像准确确定会议场景下发出该声源的发言人身份信息,避免通过麦克风与用户座位之间的匹配关系确定用户身份信息,而这种通过人脸图像确定身份信息的方式也比较灵活,且不再受限于基于会议座位以及该会议座位与麦克风之间的匹配关系来确定用户身份。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种身份信息的识别方法的流程图。
图2是根据一示例性实施例示出的另一种身份信息的识别方法的流程图。
图3是根据一示例性实施例示出的一种身份信息的识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和装置的例子。
为了解决上述技术问题,本发明实施例提供了一种身份信息的识别方法,该方法可用于身份信息的识别程序、系统或装置中,且该装置对应的执行主体可以是终端或服务器,如图1所示,该装置包括步骤S101至步骤S103:
在步骤S101中,在会议场景下接收到声源时,确定所述声源的声源方向;
在步骤S102中,根据所述声源方向,拍摄人脸图像;
在步骤S103中,根据所述人脸图像,判断声源的身份信息。
在接收到声源时,可确定声源的声源方向,进而拍摄该声源方向的人脸图像,以便根据人脸图像自动判断声源的具体身份信息,进而便于根据人脸图像准确确定会议场景下发出该声源的发言人身份信息,避免通过麦克风与用户座位之间的匹配关系确定用户身份信息,而这种通过人脸图像确定身份信息的方式也比较灵活,且不再受限于基于会议座位以及该会议座位与麦克风之间的匹配关系来确定用户身份。在判断出身份信息之后,同声传译显示时可同时记录发言人身份信息,也可以结合智能电话机器人通知未到会人员及时参加会议等。
在一个实施例中,所述方法还包括:
在拍摄所述人脸图像之后,启动唇动识别,以判断所述声源是否来自真实发言者;
所述根据所述人脸图像,判断声源的身份信息,包括:
当所述声源来自所述真实发言者时,根据所述真实发言者的人脸图像,判断所述真实发言者的身份信息。
在拍摄出人脸图像之后,可启动唇动识别,从而判断声源是否来自真实发言者,而非来自播放的录像或音频,若来自真实发言者,则结合真实发言者的人脸图像,自动判断真实发言者的身份信息,以提高真实发言者的判断准确率。
在一个实施例中,所述根据所述人脸图像,判断声源的身份信息,包括:
确定所述声源的声纹信息;
根据所述人脸图像和所述声纹信息,判定所述身份信息。
在确定声源的声纹信息之后,可根据人脸图像和声纹信息,自动判断身份信息,这相比于仅仅根据人脸图像确定身份信息而言,显然可提高真实发言者的判断准确率。
在一个实施例中,所述声源来自目标区域,所述目标区域四周(如目标区域的四个角落)布置有环形麦克风阵列;
所述方法还包括:
通过所述环形麦克风阵列接收所述声源;
在接收到声源时,确定所述声源的声源方向,包括:
在接收到所述声源时,通过所述环形麦克风阵列确定所述声源方向。
在通过环形麦克风阵列接收到声源时,可通过该环形麦克风阵列自动确定具体的声源方向,即环形麦克风阵列可实现声源定位,声纹用于辨认辅助四维全方位立体判定发言人身份。
下面将结合图2进一步详细说明本发明的技术方案:
会议室场景下,用户开始发言;
根据会议室提前布置的四角落环形麦克风阵列,来实现分布式拾音和声源定位;
会议室抓拍机根据声源定位方向实现人脸追踪并实时把抓拍到的人脸上传仲裁服务比对结果;
根据抓拍机上传人脸,启用唇动识别,判定声音是否用户真人说的话,并不是播放的录像或音频;
确认真实用户发言后,声纹引擎实时辨认用户身份并上传至仲裁服务;
最终,仲裁服务根据人脸,声纹辨认辅助,输出最终发言人身份。
而本发明通过抓拍机实现人脸定位追踪,唇动识别,环形麦克风阵列实现声源定位,声纹辨认辅助四维全方位立体判定发言人身份。即可以实现ASR同声传译显示的同时记录发言人身份信息,也可以结合智能电话机器人通知未到会人员及时参加会议等。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述身份信息的识别方法,本发明实施例还提供一种身份信息的识别装置,如图3所示,该装置包括:
确定模块301,用于在接收到声源时,确定所述声源的声源方向;
拍摄模块302,用于根据所述声源方向,拍摄人脸图像;
判断模块303,用于根据所述人脸图像,判断声源的身份信息。
在一个实施例中,所述装置还包括:
启动模块,用于在拍摄所述人脸图像之后,启动唇动识别,以判断所述声源是否来自真实发言者;
所述判断模块包括:
判断子模块,用于当所述声源来自所述真实发言者时,根据所述真实发言者的人脸图像,判断所述真实发言者的身份信息。
在一个实施例中,所述判断模块包括:
第一确定子模块,用于确定所述声源的声纹信息;
判定子模块,用于根据所述人脸图像和所述声纹信息,判定所述身份信息。
在一个实施例中,所述声源来自目标区域,所述目标区域四周布置有环形麦克风阵列;
所述装置还包括:
接收模块,用于通过所述环形麦克风阵列接收所述声源;
所述确定模块包括:
第二确定子模块,用于在接收到所述声源时,通过所述环形麦克风阵列确定所述声源方向。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (8)

1.一种身份信息的识别方法,其特征在于,包括:
在接收到声源时,确定所述声源的声源方向;
根据所述声源方向,拍摄人脸图像;
根据所述人脸图像,判断声源的身份信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在拍摄所述人脸图像之后,启动唇动识别,以判断所述声源是否来自真实发言者;
所述根据所述人脸图像,判断声源的身份信息,包括:
当所述声源来自所述真实发言者时,根据所述真实发言者的人脸图像,判断所述真实发言者的身份信息。
3.根据权利要求1所述的方法,其特征在于,
所述根据所述人脸图像,判断声源的身份信息,包括:
确定所述声源的声纹信息;
根据所述人脸图像和所述声纹信息,判定所述身份信息。
4.根据权利要求1至3中任一项所述的方法,其特征在于,
所述声源来自目标区域,所述目标区域四周布置有环形麦克风阵列;
所述方法还包括:
通过所述环形麦克风阵列接收所述声源;
在接收到声源时,确定所述声源的声源方向,包括:
在接收到所述声源时,通过所述环形麦克风阵列确定所述声源方向。
5.一种身份信息的识别装置,其特征在于,包括:
确定模块,用于在接收到声源时,确定所述声源的声源方向;
拍摄模块,用于根据所述声源方向,拍摄人脸图像;
判断模块,用于根据所述人脸图像,判断声源的身份信息。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
启动模块,用于在拍摄所述人脸图像之后,启动唇动识别,以判断所述声源是否来自真实发言者;
所述判断模块包括:
判断子模块,用于当所述声源来自所述真实发言者时,根据所述真实发言者的人脸图像,判断所述真实发言者的身份信息。
7.根据权利要求5所述的装置,其特征在于,
所述判断模块包括:
第一确定子模块,用于确定所述声源的声纹信息;
判定子模块,用于根据所述人脸图像和所述声纹信息,判定所述身份信息。
8.根据权利要求5至7中任一项所述的装置,其特征在于,
所述声源来自目标区域,所述目标区域四周布置有环形麦克风阵列;
所述装置还包括:
接收模块,用于通过所述环形麦克风阵列接收所述声源;
所述确定模块包括:
第二确定子模块,用于在接收到所述声源时,通过所述环形麦克风阵列确定所述声源方向。
CN201911398642.0A 2019-12-30 2019-12-30 身份信息的识别方法及装置 Pending CN111222117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911398642.0A CN111222117A (zh) 2019-12-30 2019-12-30 身份信息的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911398642.0A CN111222117A (zh) 2019-12-30 2019-12-30 身份信息的识别方法及装置

Publications (1)

Publication Number Publication Date
CN111222117A true CN111222117A (zh) 2020-06-02

Family

ID=70827900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911398642.0A Pending CN111222117A (zh) 2019-12-30 2019-12-30 身份信息的识别方法及装置

Country Status (1)

Country Link
CN (1) CN111222117A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598577A (zh) * 2020-07-24 2020-08-28 深圳市声扬科技有限公司 资源转移方法、装置、计算机设备和存储介质
CN113257251A (zh) * 2021-05-11 2021-08-13 深圳优地科技有限公司 机器人使用者的识别方法、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101715102A (zh) * 2008-10-02 2010-05-26 宝利通公司 在点对点和多点音频/视频会议期间显示动态呼叫者身份
CN103581608A (zh) * 2012-07-20 2014-02-12 Polycom通讯技术(北京)有限公司 发言人检测系统、发言人检测方法和音频/视频会议系统
CN103841357A (zh) * 2012-11-21 2014-06-04 中兴通讯股份有限公司 基于视频跟踪的麦克风阵列声源定位方法、装置及系统
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN105681920A (zh) * 2015-12-30 2016-06-15 深圳市鹰硕音频科技有限公司 一种具有语音识别功能的网络教学方法及系统
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110324723A (zh) * 2018-03-29 2019-10-11 华为技术有限公司 字幕生成方法及终端
US20190341054A1 (en) * 2018-05-07 2019-11-07 Microsoft Technology Licensing, Llc Multi-modal speech localization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101715102A (zh) * 2008-10-02 2010-05-26 宝利通公司 在点对点和多点音频/视频会议期间显示动态呼叫者身份
CN103581608A (zh) * 2012-07-20 2014-02-12 Polycom通讯技术(北京)有限公司 发言人检测系统、发言人检测方法和音频/视频会议系统
CN103841357A (zh) * 2012-11-21 2014-06-04 中兴通讯股份有限公司 基于视频跟踪的麦克风阵列声源定位方法、装置及系统
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN105681920A (zh) * 2015-12-30 2016-06-15 深圳市鹰硕音频科技有限公司 一种具有语音识别功能的网络教学方法及系统
CN110324723A (zh) * 2018-03-29 2019-10-11 华为技术有限公司 字幕生成方法及终端
US20190341054A1 (en) * 2018-05-07 2019-11-07 Microsoft Technology Licensing, Llc Multi-modal speech localization
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郝新红 等编: "《声探测原理》", 30 June 2019 *
陈勇 主编: "《汽车测试技术》", 31 January 2008 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598577A (zh) * 2020-07-24 2020-08-28 深圳市声扬科技有限公司 资源转移方法、装置、计算机设备和存储介质
CN111598577B (zh) * 2020-07-24 2020-11-13 深圳市声扬科技有限公司 资源转移方法、装置、计算机设备和存储介质
CN113257251A (zh) * 2021-05-11 2021-08-13 深圳优地科技有限公司 机器人使用者的识别方法、设备及存储介质
CN113257251B (zh) * 2021-05-11 2024-05-24 深圳优地科技有限公司 机器人使用者的识别方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN102256098B (zh) 具有多个语音跟踪摄像机的视频会议端点
JP7536789B2 (ja) 分散システムにおいてユーザの好みに最適化するためのカスタマイズされた出力
RU2743732C2 (ru) Способ и устройство для обработки видео- и аудиосигналов и программа
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
US10178490B1 (en) Intelligent audio rendering for video recording
US12051422B2 (en) Processing overlapping speech from distributed devices
US6005610A (en) Audio-visual object localization and tracking system and method therefor
JP4474013B2 (ja) 情報処理装置
WO2020119032A1 (zh) 基于生物特征的声源追踪方法、装置、设备及存储介质
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
CN110196914B (zh) 一种将人脸信息录入数据库的方法和装置
CN104349040A (zh) 用于视频会议系统中的摄像机底座及其方法
CN111222117A (zh) 身份信息的识别方法及装置
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2019220848A (ja) データ処理装置、データ処理方法及びプログラム
WO2021120190A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN114762039A (zh) 一种会议数据处理方法及相关设备
EP2503545A1 (en) Arrangement and method relating to audio recognition
CN114513622A (zh) 说话人检测方法、设备、存储介质及程序产品
JP7334536B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20230269284A1 (en) System and method for controlling multi-party communication
CN112543302B (zh) 一种多人远程会议中智能降噪的方法和设备
JP2017108240A (ja) 情報処理装置、及び情報処理方法
Hung et al. Towards audio-visual on-line diarization of participants in group meetings
US9706169B2 (en) Remote conference system and method of performing remote conference

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200602

RJ01 Rejection of invention patent application after publication