CN108305615A - 一种对象识别方法及其设备、存储介质、终端 - Google Patents

一种对象识别方法及其设备、存储介质、终端 Download PDF

Info

Publication number
CN108305615A
CN108305615A CN201710992605.7A CN201710992605A CN108305615A CN 108305615 A CN108305615 A CN 108305615A CN 201710992605 A CN201710992605 A CN 201710992605A CN 108305615 A CN108305615 A CN 108305615A
Authority
CN
China
Prior art keywords
information
vocal print
voice
target object
print feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710992605.7A
Other languages
English (en)
Other versions
CN108305615B (zh
Inventor
张明远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710992605.7A priority Critical patent/CN108305615B/zh
Publication of CN108305615A publication Critical patent/CN108305615A/zh
Priority to KR1020197038790A priority patent/KR102339594B1/ko
Priority to EP18870826.7A priority patent/EP3614377B1/en
Priority to PCT/CN2018/103255 priority patent/WO2019080639A1/zh
Priority to JP2020522805A priority patent/JP6938784B2/ja
Priority to US16/663,086 priority patent/US11289072B2/en
Application granted granted Critical
Publication of CN108305615B publication Critical patent/CN108305615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开一种对象识别方法及其设备、存储介质、终端,其中方法包括如下步骤:获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;获取所述声纹特征信息对应的声音置信度;基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。采用本发明,通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,可以增加获取到的对象识别结果的准确性。

Description

一种对象识别方法及其设备、存储介质、终端
技术领域
本发明涉及计算机技术领域,尤其涉及一种对象识别方法及其设备、存储介质、终端。
背景技术
随着科技的不断发展,声纹识别作为一种生物识别技术已经发展的越来越成熟,通过声纹识别可以从多个话说人中辨别出某一说话人也可以通过识别某一语音的声纹特征确定该语音对应的说话人身份,例如,语音识别系统中的笔录系统可以通过声纹区分出在某一场景中的所有说话人(例如,通过笔录系统中的声纹识别技术区分出庭审这一场景中的法官和犯人)。现有技术中,主要是通过匹配声学模型的声纹特征(例如,语调、方言、节奏以及鼻音等)进行声纹识别,然而,当存在相似度较高的声纹特征时,容易出现声纹匹配结果差别较小,难以根据声纹匹配结果区分出说话人的情况,从而影响声纹识别结果的准确性。
发明内容
本发明实施例提供一种对象识别方法及其设备、存储介质、终端,通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,可以增加获取到的对象识别结果的准确性。
本发明实施例第一方面提供了一种对象识别方法,可包括:
获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
获取所述声纹特征信息对应的声音置信度;
基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
在一种可能的设计中,所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息,包括:
基于麦克风阵列获取当前语音环境中语音信息集合,并对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息;
获取所述麦克风阵列在采集所述语音信息集合时的相位信息,基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。
在一种可能的设计中,所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息之前,还包括:
获取声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。
在一种可能的设计中,所述获取所述声纹特征信息对应的声音置信度,包括:
将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值;
根据所述匹配度值确定所述声纹特征信息对应的声音置信度。
在一种可能的设计中,所述基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果,包括:
基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
在一种可能的设计中,所述基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果,包括:
当所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
当所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
在一种可能的设计中,所述当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果,包括:
当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息;
根据所述声纹特征信息获取所述目标对象的候选识别结果;
采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果。
本发明实施例第二方面提供了一种对象识别设备,可包括:
对象信息获取模块,用于获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
特征信息获取模块,用于基于训练后的声纹特征提取模型对所述语音信息进行声纹特征提取,获取经所述声纹匹配后所述语音信息对应的声纹特征信息;
置信度获取模块,用于获取所述声纹特征信息对应的声音置信度;
结果获取模块,用于基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
在一种可能的设计中,所述对象信息获取模块包括:
信息获取单元,用于基于麦克风阵列获取当前语音环境中语音信息集合,并对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息;
信息确定单元,用于获取所述麦克风阵列在采集所述语音信息集合时的相位信息,基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。
在一种可能的设计中,还包括:
模型生成模块,用于获取声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。
在一种可能的设计中,所述置信度获取模块包括:
匹配度值获取单元,用于将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值;
置信度确定单元,用于根据所述匹配度值确定所述声纹特征信息对应的声音置信度。
在一种可能的设计中,所述结果获取模块具体用于,
基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
在一种可能的设计中,所述结果获取模块包括:
第一结果获取单元,用于当所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
第二结果获取单元,用于当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
第三结果获取单元,用于当所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
在一种可能的设计中,所述第二结果获取单元包括:
信息确定子单元,用于当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息;
候选结果获取子单元,用于根据所述声纹特征信息获取所述目标对象的候选识别结果;
结果获取子单元,用于采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果。
本发明实施例第三方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行以下步骤:
获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
获取所述声纹特征信息对应的声音置信度;
基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
本发明实施例第四方面提供了一种终端,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
获取所述声纹特征信息对应的声音置信度;
基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
在本发明实施例中,通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息,然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取,获取经声纹特征提取后语音信息对应的声纹特征信息,最后获取声纹特征信息对应的声音置信度,基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,增加了获取到的对象识别结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种对象识别设备的硬件架构示意图;
图2是本发明实施例提供的一种对象识别设备的系统框图;
图3是本发明实施例提供的一种对象识别方法的流程示意图;
图4是本发明实施例提供的另一种对象识别方法的流程示意图;
图5是本发明实施例提供的基于波束形成方式的语音分离显示示意图;
图6是本发明实施例提供的另一种对象识别方法的流程示意图;
图7是本发明实施例提供的另一种对象识别方法的流程示意图;
图8是本发明实施例提供的另一种对象识别方法的流程示意图;
图9是本发明实施例提供的一种对象识别设备的结构示意图;
图10是本发明实施例提供的另一种对象识别设备的结构示意图;
图11是本发明实施例提供的对象信息获取模块的结构示意图;
图12是本发明实施例提供的置信度获取模块的结构示意图;
图13是本发明实施例提供的结果获取模块的结构示意图;
图14是本发明实施例提供的第二结果获取单元的结构示意图;
图15是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的对象识别方法可以应用于在多声源环境中对声源对象进行声纹识别,辨别出目标对象的场景中,例如:对象识别设备通过获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息,然后基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;最后获取所述声纹特征信息对应的声音置信度,基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,增加了获取到的对象识别结果的准确性。
本发明实施例涉及的对象识别设备可以是平板电脑、智能手机、掌上电脑以及移动互联网设备(MID)等其他可以集成麦克风阵列或可以接收麦克风阵列发送的声源方位信息且具备声纹识别功能的终端设备。所述对象识别设备的硬件架构可以如图1所示,其中,音频处理器用于降噪以及定位方向,系统处理器用于连接云端并进行声纹特征分析,存储系统用于存储对象识别的应用程序。所述对象识别设备的系统框图可以如图2所示,其中,麦克风阵列可以识别不同方位的声源对应的语音信息,并对不同的声源进行角度定位。
下面将结合附图3-附图8,对本发明实施例提供的对象识别方法进行详细介绍。
请参见图3,为本发明实施例提供了一种对象识别方法的流程示意图。如图3所示,本发明实施例的所述方法可以包括以下步骤S101-步骤S103。
S101,获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
具体的,对象识别设备可以基于麦克风阵列获取当前语音环境中目标对象的语音信息,并基于所述麦克风阵列获取所述目标对象的方位信息。可以理解的是,所述目标对象可以是当前语音环境中的有效声源对象(例如,庭审案件时的法官、律师、被告以及原告),需要说明的是,所述对象识别设备在当前语音环境中所获取的语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如,庭审案件时庭下听众的语音信息或者其他物体发出的噪音等),所述对象识别设备获取到当前语音环境中的语音信息集合后,可以对所述语音信息结合进行筛选处理,获取目标对象的语音信息。
在本发明实施例中,所述麦克风阵列可以通过多个麦克风获取从不同方位采集的同一个目标对象的语音信息,由于多个麦克风处于所述麦克风阵列中的不同位置,因此每个麦克风可以依据声音的大小获取该目标对象的相位信息,根据所获得的相位信息通过波束形成的方式计算出该目标对象的方位信息(即确定该目标对象在当前语音环境中的位置信息)。
S102,基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
具体的,对象识别设备可以基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,可以理解的是,所述声纹匹配模型可以是对预先采集的声纹训练语音集合中的各声纹训练语音和所述声纹训练语音对应的样本特征信息采用某种训练算法(例如,神经网络方法、隐马尔可夫方法或者VQ聚类方法等)进行训练后建立的模型,可以理解的是,所述声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象,所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。
进一步的,所述对象识别设备可以获取经所述声纹特征提取后所述语音信息对应的声纹特征信息,可以理解的是,所述声纹特征信息可以是所述目标对象的语音信息中的区别特征信息,例如,可以是频谱、倒频谱、共振峰、基音、反射系数等信息。
S103,获取所述声纹特征信息对应的声音置信度;
具体的,所述对象识别设备可以获取所述声纹特征信息对应的声音置信度,可以理解的是,所述声音置信度可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度,例如,当所述声音置信度为90%时,可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90%。
在可选实施例中,所述对象识别设备可以将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值,然后根据所述匹配度值确定所述声纹特征信息对应的声音置信度。例如,所述声纹特征信息与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后,检测到声纹训练语音A的样本特征信息与所述声纹特征信息的匹配度最高,且最高值为90%,则所述对象识别设备可以确定所述声纹特征信息对应的声音置信度为90%。
S104,基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果;
可以理解的是,所述对象识别设备可以采用所述声纹特征信息生成对所述目标对象的对象识别结果,所述对象识别结果可以指示所述目标对象的语音信息所属的所述目标对象,例如,当前语音环境中存在至少两个目标对象,所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息将所述至少两个目标对象的语音信息进行归类(例如,将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告等)。
在本发明实施例中,当所述声纹特征信息中存在两个相似的声纹特征时,所述对象识别设备不能准确地通过对上述两个相似的声纹特征得出所述目标对象的对象识别结果。
对于上述情况,所述对象识别设备可以基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果,具体的,所述对象识别设备可以基于所述声音置信度和预设声音置信度阈值的关系,确定用于识别所述目标对象的对象识别结果的对象识别信息,再根据所述对象识别信息获取所述对象识别结果,可以理解的是,所述对象识别信息可以是所述方位信息也可以是所述声纹特征信息。
在本发明的具体实现方式中,所述对象识别设备可以在所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果(即采用所述声纹特征信息辨别所述目标对象,而所述方位信息不参与识别仅用作声源定位);在所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果(即采用是声纹特征信息进行声纹辨别所述目标对象,同时采用所述方位信息定位的声源方向进一步识别所述目标对象);在所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果(即仅采用所述方位信息声源定位后的定位方向辨别所述目标对象)。
在本发明实施例中,通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息,然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取,获取经声纹特征提取后语音信息对应的声纹特征信息,最后获取声纹特征信息对应的声音置信度,基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,增加了获取到的对象识别结果的准确性。
需要说明的是,由于声纹识别可以是对多个说话人进行辨别也可以是对某一说话人进行身份确认,对于涉及说话人辨别的执行过程请参见下述图4所示实施例,对于涉及说话人身份确认的执行过程请参见下述图8所示实施例。
请参见图4,为本发明实施例提供了另一种对象识别方法的流程示意图。如图4所示,本发明实施例的所述方法可以包括以下步骤S201-步骤S207。
S201,获取声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型;
可以理解的是,在进行声纹识别之前对象识别设备可以获取声纹训练语音集合,并基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型,可以理解的是,所述对象识别设备可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练,所述声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象,所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。
S202,基于麦克风阵列获取当前语音环境中语音信息集合,并对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息;
具体的,所述对象识别设备可以基于麦克风阵列获取当前语音环境中语音信息集合,可以理解的是,所述语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如,庭审案件时庭下听众的语音信息或者其他物体发出的噪音等),其中所述目标对象可以是当前语音环境中的有效声源对象(例如,庭审案件时的法官、律师、被告以及原告)。
可以理解的是,由于所述语音信息集合中的语音信息并不全是所述目标对象的语音信息,所述对象识别设备可以对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息,所述筛选处理可以是通过降噪处理滤除噪音、去除回音或者根据待处理的目标对象的语音信息的特征(声音响度、音色或其他特征信息)滤除非目标对象的语音也可以是其他的语音过滤处理。
S203,获取所述麦克风阵列在采集所述语音信息集合时的相位信息,基于所述相位信息所指示的语音方位确定所述目标对象的方位信息;
可以理解的是,所述麦克风阵列在采集所述语音信息集合的同时可以获取到所述语音信息集合中各语音信息对应的相位信息。具体的,所述对象识别设备可以获取所述相位信息,并可以基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。可以理解的是,所述相位信息中的相位可以指示所述语音信息的语音波形在某一时刻的标度,可以描述语音信号波形变化的度量,通常以度(角度)作为单位,也称作相角。
在可选实施例中,所述麦克风阵列可以通过多个麦克风获取从不同方位采集的同一个目标对象的语音信息,由于多个麦克风处于所述麦克风阵列中的不同位置,因此每个麦克风可以依据声音的大小获取该目标对象的相位信息,根据所获得的相位信息通过波束形成的方式计算出该目标对象的方位信息(即确定该目标对象在当前语音环境中的位置信息),其中,所述波束形成的方式如图5所示,可以是通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离。
S204,基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
具体的,所述对象识别设备可以基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息,可以理解的是,所述声纹特征信息可以是所述目标对象的语音信息中的区别特征信息,例如,可以是频谱、倒频谱、共振峰、基音、反射系数等信息。
S205,将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值;
具体的,所述对象识别设备可以将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值,可以理解的是,不同人的声纹特征是不一样的,即使是同一个人的声纹特征也会随说话人自身的身体状况或所处的环境而不同,因此,在将所述声纹特征信息的声纹特征与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配时,所得到的匹配度值也会有大有小,但可以通过比较所有匹配度值从中获取特征匹配度最高时的匹配度值。
S206,根据所述匹配度值确定所述声纹特征信息对应的声音置信度;
具体的,所述对象识别设备可以根据所述匹配度值确定所述声纹特征信息对应的声音置信度,可以理解的是,所述声音置信度可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度,例如,当所述声音置信度为90%时,可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90%。
在可选实施例中,所述对象识别设备可以直接将所述匹配度值确定所述声纹特征信息对应的声音置信度,例如,所述声纹特征信息与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后,检测到声纹训练语音A的样本特征信息与所述声纹特征信息的匹配度最高,且最高值为90%,则所述对象识别设备可以确定所述声纹特征信息对应的声音置信度为90%。
S207,基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
可以理解的是,所述对象识别设备可以采用所述声纹特征信息生成对所述目标对象的对象识别结果,所述对象识别结果可以指示所述目标对象的语音信息是属于所述目标对象的,例如,当前语音环境中存在至少两个目标对象,所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息将所述至少两个目标对象的语音信息进行归类(例如,将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告等)。
在本发明实施例中,当所述声纹特征信息中存在两个相似的声纹特征时,所述对象识别设备不能准确地通过对上述两个相似的声纹特征得出所述目标对象的对象识别结果。
对于上述情况,所述对象识别设备可以基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。可以理解的是,所述预设声音置信度值可以是根据多次识别过程中的经验所得,可以包括至少两个预设的声音置信度阈值。所述对象识别信息可以用于识别所述目标对象,可以包括所述方位信息或所述声纹特征信息。
在本发明实施例一种具体实现方式中,所述基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果可以包括以下几个步骤,如图6所示:
S301,当所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体的,当所述声音置信度大于或等于第一置信度阈值时,可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度较大,所述对象识别设备可以将所述声纹特征信息确定为所采用的对象识别信息,然后采用所述声纹特征信息辨别所述目标对象,此时的所述方位信息不参与识别仅用作声源定位。
在本发明实施例的具体实现方式中,可以将所述第一置信度阈值设为90%、95%或者其他根据实际情况所确定的值。
S302,当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体的,当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度处于平均水平,为更准确的识别所述目标对象,所述对象识别设备可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,然后采用声纹特征信息进行声纹识别初步识别所述目标对象,同时采用所述方位信息定位的声源方向进一步识别所述目标对象。
在本发明实施例的具体实现方式中,可以将所述第一置信度阈值设为90%、95%或者其他根据实际情况所确定的值,可以将所述第二置信度阈值设置为50%、55%或者60%等其他根据实际情况所确定的可以代表平均值的数据。
S303,当所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体的,当所述声音置信度小于第二置信度阈值时,可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度较低,采用所述声纹特征信息所识别的所述目标对象的准确率较低,所述对象识别设备可以将所述述方位信息确定为所采用的对象识别信息,然后采用所述方位信息声源定位后的定位方向辨别所述目标对象,实现同一语音环境下的人声分离,可以理解的是,采用所述方位信息作为所述对象识别信息时,在识别的过程中可以存在允许范围内的误差。
在本发明实施例中,通过声音置信度确定用于对象识别的对象识别信息,避免了在对象识别的过程中对非必要信息的识别过程,提高了对象识别的效率。
在本发明实施例一种具体实现方式中,所述当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果可以包括以下几个步骤,如图7所示:
S401,当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息;
可以理解的是,当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度处于平均水平,即根据所述声纹特征信息识别所述目标对象的对象识别结果时,所确定的所述对象识别结果的可信程度一般,此时,所述对象识别设备可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息。
S402,根据所述声纹特征信息获取所述目标对象的候选识别结果;
具体的,所述对象识别设备将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息后,可以根据所述声纹特征信息获取所述目标对象的候选识别结果。可以理解的是,当所述目标对象的声纹特征信息具有明显区别时,所述候选识别结果可以是最终的所述目标对象的对象识别结果,即所述对象识别设备可以将多个语音信息进行准确归类;当所述目标对象中存在至少两个声纹特征信息区别不明显的目标对象时,所述候选识别结果对应的目标对象的语言信息的归类是不准确的,例如,法官A和犯人B的声纹特征信息相似度很大,所述对象识别设备在对二者进行语音信息归类时,可能将法官A的语音信息归类至犯人B的语音信息,或者将犯人B的语音信息归类至法官A的语音信息。
S403,采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果;
具体的,在所述对象识别设备根据所述声纹特征信息初步识别所述目标对象的候选识别结果的同时,所述对象识别设备可以采用所述方位信息定位的声源方向从所述候选识别结果中进一步定位所述目标对象的对象识别结果,即所述对象识别设备可以对所述候选识别结果进行调整并最终确定所述目标对象的对象识别结果。例如,法官A和犯人B的声纹特征信息相似度较大,所述对象识别设备可以根据法官A和犯人B所在的位置,从候选识别结果即归类不准确的语音信息中进一步将二者的语音信息进行准确归类。
在本发明实施例中,通过方位信息和声纹特征信息同时识别目标对象的对象识别结果,进一步增加了所获得的对象识别结果的准确性。
在本发明实施例中,通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息,然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取,获取经声纹特征提取后语音信息对应的声纹特征信息,最后获取声纹特征信息对应的声音置信度,基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,增加了获取到的对象识别结果的准确性;通过声音置信度确定用于对象识别的对象识别信息,避免了在对象识别的过程中对非必要信息的识别过程,提高了对象识别的效率;通过方位信息和声纹特征信息同时识别目标对象的对象识别结果,进一步增加了所获得的对象识别结果的准确性。
请参见图8,为本发明实施例提供了另一种对象识别方法的流程示意图。如图8所示,本发明实施例的所述方法可以包括以下步骤S501-步骤S507。
S501,获取包含目标对象的训练语音的声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型;
可以理解的是,通过声纹识别可以确认一个语言信息对应的说话人的身份信息,与通过声纹识别从多个语言信息中辨别目标说话人的不同之处在于声纹匹配模型的建立过程。
具体的,对象识别设备可以获取包含目标对象的训练语音的声纹训练语音集合,并基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型,可以理解的是,所述对象识别设备可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练,所述声纹训练语音集合中的语音对应的语音采集者与步骤S201中的不同,此时所述声纹训练语音集合中的语音对应的语音采集者必须包含所述目标对象,所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。
S502,基于麦克风阵列获取当前语音环境中语音信息集合,并对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息;
S503,获取所述麦克风阵列在采集所述语音信息集合时的相位信息,基于所述相位信息所指示的语音方位确定所述目标对象的方位信息;
S504,基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
S505,将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值;
S506,根据所述匹配度值确定所述声纹特征信息对应的声音置信度。
S507,基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
可以理解的是,所述对象识别设备可以采用所述声纹特征信息生成对所述目标对象的对象识别结果,所述对象识别结果可以指示所述目标对象的语音信息对应的所述目标对象的身份信息,例如,当前语音环境中存在至少两个目标对象,所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息确定所述至少两个目标对象的语音信息对应的目标对象,并确定所述目标对象的身份信息(例如,将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告后可以确定声音A是属于法官的、声音B属于被告、声音C属于原告等。)
在本发明实施例中,当所述声纹特征信息中存在两个相似的声纹特征时,所述对象识别设备不能准确地通过对上述两个相似的声纹特征得出所述目标对象的对象识别结果。
对于上述情况,所述对象识别设备可以基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
在本发明实施例一种具体实现方式中,所述基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果可以包括以下几个步骤,具体可以参见图6所示的过程:
S301,当所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体的,当所述声音置信度大于或等于第一置信度阈值时,可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度较大,所述对象识别设备可以将所述声纹特征信息确定为所采用的对象识别信息,然后采用所述声纹特征信息识别所述目标对象的身份信息,此时的所述方位信息不参与身份确认仅用作声源定位。
在本发明实施例的具体实现方式中,可以将所述第一置信度阈值设为90%、95%或者其他根据实际情况所确定的值。
S302,当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体的,当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度处于平均水平,为更准确的识别所述目标对象的身份,所述对象识别设备可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,然后采用是声纹特征信息进行声纹识别,初步确定所述目标对象的身份,同时采用所述方位信息定位的声源方向进一步识别所述目标对象的身份。
在本发明实施例的具体实现方式中,可以将所述第一置信度阈值设为90%、95%或者其他根据实际情况所确定的值,可以将所述第二置信度阈值设置为50%、55%或者60%等其他根据实际情况所确定的可以代表平均值的数据。
S303,当所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体的,当所述声音置信度小于第二置信度阈值时,可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度较低,采用所述声纹特征信息所识别的所述目标对象身份的准确率较低,所述对象识别设备可以将所述述方位信息确定为所采用的对象识别信息,然后采用所述方位信息声源定位后的定位方向确定所述目标对象的身份,实现同一语音环境下的人声分离,可以理解的是,进采用所述方位信息作为所述对象识别信息时,在识别的过程中可以存在允许范围内的误差。需要说明的是,在此种情况下所述当前语音环境需要是特定的语音环境,例如,目标对象的位置都是确定的环境(例如,庭审中,法官和犯人的位置是确定的)
在本发明实施例中,通过声音置信度确定用于对象识别的对象识别信息,避免了在对象识别的过程中对非必要信息的识别过程,提高了对象识别的效率。
在本发明实施例一种具体实现方式中,所述当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果可以包括以下几个步骤,具体可以参见图7所示的过程:
S401,当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息;
S402,根据所述声纹特征信息获取所述目标对象的候选识别结果;
具体的,所述对象识别设备将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息后,可以根据所述声纹特征信息获取所述目标对象的候选识别结果。可以理解的是,当所述目标对象的声纹特征信息具有明显区别时,所述候选识别结果可以是最终的所述目标对象的对象识别结果,即所述对象识别设备可以从多个语音信息中明确识别出目标对象的语音信息;当所述目标对象中存在至少两个声纹特征信息区别不明显的目标对象时,所述候选识别结果所指示的目标对象与语音信息之间的对应关系可能是不准确的,例如,法官A和犯人B的声纹特征信息相似度很大,所述对象识别设备在在庭审的多个语音信息中识别法官A的语音信息时,可能将犯人B的语音信息错认为是法官A的,也可能将将法官A的语音信息错认为是犯人B的。
S403,采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果;
具体的,在所述对象识别设备根据所述声纹特征信息初步识别所述目标对象的候选识别结果的同时,所述对象识别设备可以采用所述方位信息定位的声源方向从所述候选识别结果中进一步定位所述目标对象的对象识别结果,即所述对象识别设备可以对所述候选识别结果进行调整并最终确定所述目标对象的对象识别结果。例如,法官A和犯人B的声纹特征信息相似度较大,候选识别结果指示法官A的语音信息对应犯人B,结合法官A的位置信息所述对象识别设备可以将法官A的语音信息对应法官A。
在本发明实施例中,通过方位信息和声纹特征信息同时识别目标对象的对象识别结果,进一步增加了所获得的对象识别结果的准确性。
在本发明实施例中,通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息,然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取,获取经声纹特征提取后语音信息对应的声纹特征信息,最后获取声纹特征信息对应的声音置信度,基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,增加了获取到的对象识别结果的准确性;通过声音置信度确定用于对象识别的对象识别信息,避免了在对象识别的过程中对非必要信息的识别过程,提高了对象识别的效率;通过方位信息和声纹特征信息同时识别目标对象的对象识别结果,进一步增加了所获得的对象识别结果的准确性。
下面将结合附图9-附图14,对本发明实施例提供的对象识别设备进行详细介绍。需要说明的是,附图9-附图14所示的设备,用于执行本发明图3-图8所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图3-图8所示的实施例。
请参见图9,为本发明实施例提供了一种对象识别设备的结构示意图。如图9所示,本发明实施例的所述对象识别设备1可以包括:对象信息获取模块11、特征信息获取模块12、置信度获取模块13和结果获取模块14。
对象信息获取模块11,用于获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
具体实现中,对象信息获取模块11可以基于麦克风阵列获取当前语音环境中目标对象的语音信息,并基于所述麦克风阵列获取所述目标对象的方位信息。可以理解的是,所述目标对象可以是当前语音环境中的有效声源对象(例如,庭审案件时的法官、律师、被告以及原告),需要说明的是,所述对象信息获取模块11在当前语音环境中所获取的语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如,庭审案件时庭下听众的语音信息或者其他物体发出的噪音等),所述对象信息获取模块11获取到当前语音环境中的语音信息集合后,可以对所述语音信息结合进行筛选处理,获取目标对象的语音信息。
在本发明实施例中,所述麦克风阵列可以通过多个麦克风获取从不同方位采集的同一个目标对象的语音信息,由于多个麦克风处于所述麦克风阵列中的不同位置,因此每个麦克风可以依据声音的大小获取该目标对象的相位信息,根据所获得的相位信息通过波束形成的方式计算出该目标对象的方位信息(即确定该目标对象在当前语音环境中的位置信息)。
特征信息获取模块12,用于基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
具体实现中,特征信息获取模块12可以基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,可以理解的是,所述声纹匹配模型可以是对预先采集的声纹训练语音集合中的各声纹训练语音和所述声纹训练语音对应的样本特征信息采用某种训练算法(例如,神经网络方法、隐马尔可夫方法或者VQ聚类方法等)进行训练后建立的模型,可以理解的是,所述声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象,所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。
进一步的,所述特征信息获取模块12可以获取经所述声纹特征提取后所述语音信息对应的声纹特征信息,可以理解的是,所述声纹特征信息可以是所述目标对象的语音信息中的区别特征信息,例如,可以是频谱、倒频谱、共振峰、基音、反射系数等信息。
置信度获取模块13,用于获取所述声纹特征信息对应的声音置信度;
具体实现中,置信度获取模块13可以获取所述声纹特征信息对应的声音置信度,可以理解的是,所述声音置信度可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度,例如,当所述声音置信度为90%时,可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90%。
在可选实施例中,所述置信度获取模块13可以将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值,然后根据所述匹配度值确定所述声纹特征信息对应的声音置信度。例如,所述声纹特征信息与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后,检测到声纹训练语音A的样本特征信息与所述声纹特征信息的匹配度最高,且最高值为90%,则所述对象识别设备可以确定所述声纹特征信息对应的声音置信度为90%。
结果获取模块14,用于采用所述方位信息、所述声纹特征信息以及所述声音置信度获取所述目标对象的对象识别结果;
可以理解的是,所述对象识别设备1可以采用所述声纹特征信息生成对所述目标对象的对象识别结果,所述对象识别结果可以指示所述目标对象的语音信息所属的所述目标对象,例如,当前语音环境中存在至少两个目标对象,所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息将所述至少两个目标对象的语音信息进行归类(例如,将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告等)。
在本发明实施例中,当所述声纹特征信息中存在两个相似的声纹特征时,所述对象识别设备1不能准确地通过对上述两个相似的声纹特征得出所述目标对象的对象识别结果。
对于上述情况,结果获取模块14可以基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果,具体实现中,所述结果获取模块14可以基于所述声音置信度和预设声音置信度阈值的关系,确定用于识别所述目标对象的对象识别结果的对象识别信息,再根据所述对象识别信息获取所述对象识别结果,可以理解的是,所述对象识别信息可以是所述方位信息也可以是所述声纹特征信息。
在本发明的具体实现方式中,所述结果获取模块14可以在所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果(即采用所述声纹特征信息辨别所述目标对象,而所述方位信息不参与识别仅用作声源定位);在所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果(即采用是声纹特征信息进行声纹辨别所述目标对象,同时采用所述方位信息定位的声源方向进一步识别所述目标对象);在所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果(即仅采用所述方位信息声源定位后的定位方向辨别所述目标对象)。
在本发明实施例中,通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息,然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取,获取经声纹特征提取后语音信息对应的声纹特征信息,最后获取声纹特征信息对应的声音置信度,基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,增加了获取到的对象识别结果的准确性。
需要说明的是,由于声纹识别可以是对多个说话人进行辨别也可以是对某一说话人进行身份确认,对于涉及说话人辨别的执行过程请参见下述图10所示实施例的第一种实现方式,对于涉及说话人身份确认的执行过程请参见下述图10所示实施例的第二种实现方式。
请参见图10,为本发明实施例提供了另一种对象识别设备的结构示意图。如图10所示,本发明实施例的所述对象识别设备1可以包括:对象信息获取模块11、特征信息获取模块12、置信度获取模块13、结果获取模块14和模型生成模块15,在图10所示实施例的第一种实现方式中:
模型生成模块15,用于获取声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型;
可以理解的是,在进行声纹识别之前模型生成模块15可以获取声纹训练语音集合,并基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型,可以理解的是,所述模型生成模块15可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练,所述声纹训练语音集合中的语音对应的语音采集者可以是随机的实验对象并不限定特定的目标对象,所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。
对象信息获取模块11,用于获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
具体实现中,对象信息获取模块11可以获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息。
请一并参考图11,为本发明实施例提供了对象信息获取模块的结构示意图。如图11所示,所述对象信息获取模块11可以包括:
信息获取单元111,用于基于麦克风阵列获取当前语音环境中语音信息集合,并对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息;
具体实现中,信息获取单元111可以基于麦克风阵列获取当前语音环境中语音信息集合,可以理解的是,所述语音信息集合中的语音信息可以是目标对象的语音信息也可以是其他非必要的语音信息(例如,庭审案件时庭下听众的语音信息或者其他物体发出的噪音等),其中所述目标对象可以是当前语音环境中的有效声源对象(例如,庭审案件时的法官、律师、被告以及原告)。
可以理解的是,由于所述语音信息集合中的语音信息并不全是所述目标对象的语音信息,所述信息获取单元111可以对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息,所述筛选处理可以是通过降噪处理滤除噪音、去除回音或者根据待处理的目标对象的语音信息的特征(声音响度、音色或其他特征信息)滤除非目标对象的语音也可以是其他的语音过滤处理。
信息确定单元112,用于获取所述麦克风阵列在采集所述语音信息集合时的相位信息,基于所述相位信息所指示的语音方位确定所述目标对象的方位信息
可以理解的是,所述麦克风阵列在采集所述语音信息集合的同时可以获取到所述语音信息集合中各语音信息对应的相位信息。具体实现中,信息确定单元112可以获取所述相位信息,并可以基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。可以理解的是,所述相位信息中的相位可以指示所述语音信息的语音波形在某一时刻的标度,可以描述语音信号波形变化的度量,通常以度(角度)作为单位,也称作相角。
在可选实施例中,所述麦克风阵列可以通过多个麦克风获取从不同方位采集的同一个目标对象的语音信息,由于多个麦克风处于所述麦克风阵列中的不同位置,因此每个麦克风可以依据声音的大小获取该目标对象的相位信息,根据所获得的相位信息通过波束形成的方式计算出该目标对象的方位信息(即确定该目标对象在当前语音环境中的位置信息),其中,所述波束形成的方式如图5所示,可以是通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离。
特征信息获取模块12,用于基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
具体实现中,特征信息获取模块12可以基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹匹特征提取所述语音信息对应的声纹特征信息,可以理解的是,所述声纹特征信息可以是所述目标对象的语音信息中的区别特征信息,例如,可以是频谱、倒频谱、共振峰、基音、反射系数等信息。
置信度获取模块13,用于获取所述声纹特征信息对应的声音置信度;
具体实现中,置信度获取模块13可以获取所述声纹特征信息对应的声音置信度。
请一并参考图12,为本发明实施例提供了置信度获取模块的结构示意图。如图12所示,所述置信度获取模块13可以包括:
匹配度值获取单元131,用于将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值;
具体实现中,匹配度值获取单元131可以将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值,可以理解的是,不同人的声纹特征是不一样的,即使是同一个人的声纹特征也会随说话人自身的身体状况或所处的环境而不同,因此,在将所述声纹特征信息的声纹特征与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配时,所得到的匹配度值也会有大有小,但可以通过比较所有匹配度值从中获取特征匹配度最高时的匹配度值。
置信度确定单元132,用于根据所述匹配度值确定所述声纹特征信息对应的声音置信度;
具体实现中,置信度确定单元132可以根据所述匹配度值确定所述声纹特征信息对应的声音置信度,可以理解的是,所述声音置信度可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度,例如,当所述声音置信度为90%时,可以代表根据该声音置信度对应的声纹特征信息识别出的目标对象的可信程度为90%。
在可选实施例中,所述置信度确定单元132可以直接将所述匹配度值确定所述声纹特征信息对应的声音置信度,例如,所述声纹特征信息与所述声纹训练语音集合中的各声纹训练语音对应的样本特征信息进行匹配后,检测到声纹训练语音A的样本特征信息与所述声纹特征信息的匹配度最高,且最高值为90%,则所述对象识别设备可以确定所述声纹特征信息对应的声音置信度为90%。
结果获取模块14,具体用于基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
可以理解的是,所述对象识别设备1可以采用所述声纹特征信息生成对所述目标对象的对象识别结果,所述对象识别结果可以指示所述目标对象的语音信息是属于所述目标对象的,例如,当前语音环境中存在至少两个目标对象,所述对象识别设备可以通过所述至少两个目标对象的声纹特征信息将所述至少两个目标对象的语音信息进行归类(例如,将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告等)。
在本发明实施例中,当所述声纹特征信息中存在两个相似的声纹特征时,所述对象识别设备不能准确地通过对上述两个相似的声纹特征得出所述目标对象的对象识别结果。
对于上述情况,结果获取模块14可以基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。可以理解的是,所述预设声音置信度值可以是根据多次识别过程中的经验所得,可以包括至少两个预设的声音置信度阈值。所述对象识别信息可以用于识别所述目标对象,可以包括所述方位信息或所述声纹特征信息。
在本发明实施例一种具体实现方式中,所述结果获取模块14可以包括一下几个单元,如图13所示:
第一结果获取单元141,用于当所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体实现中,当所述声音置信度大于或等于第一置信度阈值时,可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度较大,第一结果获取单元141可以将所述声纹特征信息确定为所采用的对象识别信息,然后采用所述声纹特征信息辨别所述目标对象,此时的所述方位信息不参与识别仅用作声源定位。
在本发明实施例的具体实现方式中,可以将所述第一置信度阈值设为90%、95%或者其他根据实际情况所确定的值。
第二结果获取单元142,用于当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息中确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体实现中,当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度处于平均水平,为更准确的识别所述目标对象,第二结果获取单元142可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,然后采用声纹特征信息进行声纹识别初步识别所述目标对象,同时采用所述方位信息定位的声源方向进一步识别所述目标对象。
在本发明实施例的具体实现方式中,可以将所述第一置信度阈值设为90%、95%或者其他根据实际情况所确定的值,可以将所述第二置信度阈值设置为50%、55%或者60%等其他根据实际情况所确定的可以代表平均值的数据。
第三结果获取单元143,用于当所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体实现中,当所述声音置信度小于第二置信度阈值时,可以代表所述声纹特征信息与所述目标对象间的对应关系的可信程度较低,采用所述声纹特征信息所识别的所述目标对象的准确率较低,第三结果获取单元143可以将所述述方位信息确定为所采用的对象识别信息,然后采用所述方位信息声源定位后的定位方向辨别所述目标对象,实现同一语音环境下的人声分离,可以理解的是,进采用所述方位信息作为所述对象识别信息时,在识别的过程中可以存在允许范围内的误差。
在本发明实施例中,通过声音置信度确定用于对象识别的对象识别信息,避免了在对象识别的过程中对非必要信息的识别过程,提高了对象识别的效率。
在本发明实施例一种具体实现方式中,所述第二结果获取单元142可以包括一下几个子单元,如图14所示:
信息确定子单元1421,用于当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息;
可以理解的是,当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,可以指示所述声纹特征信息与所述目标对象间的对应关系的可信程度处于平均水平,即根据所述声纹特征信息识别所述目标对象的对象识别结果时,所确定的所述对象识别结果的可信程度一般,此时,信息确定子单元1421可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息。
候选结果获取子单元1422,用于根据所述声纹特征信息获取所述目标对象的候选识别结果;
具体实现中,所述信息确定子单元1421将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息后,候选结果获取子单元1422可以根据所述声纹特征信息获取所述目标对象的候选识别结果。可以理解的是,当所述目标对象的声纹特征信息具有明显区别时,所述候选识别结果可以是最终的所述目标对象的对象识别结果,即所述对象识别设备可以将多个语音信息进行准确归类;当所述目标对象中存在至少两个声纹特征信息区别不明显的目标对象时,所述候选识别结果对应的目标对象的语言信息的归类是不准确的,例如,法官A和犯人B的声纹特征信息相似度很大,所述对象识别设备在对二者进行语音信息归类时,可能将法官A的语音信息归类至犯人B的语音信息,或者将犯人B的语音信息归类至法官A的语音信息。
结果获取子单元1423,用于采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果;
具体实现中,在所述候选结果获取子单元1422根据所述声纹特征信息初步识别所述目标对象的候选识别结果的同时,结果获取子单元1423可以采用所述方位信息定位的声源方向从所述候选识别结果中进一步定位所述目标对象的对象识别结果,即所述结果获取子单元1423可以对所述候选识别结果进行调整并最终确定所述目标对象的对象识别结果。例如,法官A和犯人B的声纹特征信息相似度较大,所述对象识别设备可以根据法官A和犯人B所在的位置,从候选识别结果即归类不准确的语音信息中进一步将二者的语音信息进行准确归类。
在本发明实施例中,通过方位信息和声纹特征信息同时识别目标对象的对象识别结果,进一步增加了所获得的对象识别结果的准确性。
在本发明实施例中,通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息,然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取,获取经声纹特征提取后语音信息对应的声纹特征信息,最后获取声纹特征信息对应的声音置信度,基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,增加了获取到的对象识别结果的准确性;通过声音置信度确定用于对象识别的对象识别信息,避免了在对象识别的过程中对非必要信息的识别过程,提高了对象识别的效率;通过方位信息和声纹特征信息同时识别目标对象的对象识别结果,进一步增加了所获得的对象识别结果的准确性。
在图10所示实施例的第二种实现方式中:
模型生成模块15,具体用于获取包含目标对象的训练语音的声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型;
可以理解的是,通过声纹识别可以确认一个语言信息对应的说话人的身份信息,与通过声纹识别从多个语言信息中辨别目标说话人的不同之处在于声纹匹配模型的建立过程。
具体实现中,模型生成模块15可以获取包含目标对象的训练语音的声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型,可以理解的是,所述模型生成模块15可以采用神经网络、隐马尔可夫或者VQ聚类等算法对声纹匹配模型进行训练,所述声纹训练语音集合中的语音对应的语音采集者与图8所示实施例的第一种实现方式中模型生成模块15中的不同,此时所述声纹训练语音集合中的语音对应的语音采集者必须包含所述目标对象,所述声纹训练语音对应的样本特征信息可以是所述声纹训练语音的声纹特征信息。
对象信息获取模块11,用于获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
具体实现中,对象信息获取模块11可以获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息。
请一并参考图11,为本发明实施例提供了对象信息获取模块的结构示意图。如图11所示,所述对象信息获取模块11可以包括:
信息获取单元111,用于基于麦克风阵列获取当前语音环境中语音信息集合,并对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息;
具体实现中,信息获取单元111获取所述目标对象的语音信息的详细过程可以参考上述方法实施例中的描述,此处不再赘述。
信息确定单元112,用于获取所述麦克风阵列在采集所述语音信息集合时的相位信息,基于所述相位信息所指示的语音方位确定所述目标对象的方位信息;
具体实现中,信息确定单元112获取所述目标对象的方位信息的详细过程可以参考上述方法实施例中的描述,此处不再赘述。
特征信息获取模块12,用于基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
具体实现中,特征信息获取模块12获取所述声纹特征信息的详细过程可以参考上述方法实施例中的描述,此处不再赘述。
置信度获取模块13,用于获取所述声纹特征信息对应的声音置信度;
具体实现中,置信度获取模块13可以获取所述声纹特征信息对应的声音置信度。
请一并参考图12,为本发明实施例提供了置信度获取模块的结构示意图。如图12所示,所述置信度获取模块13可以包括:
匹配度值获取单元131,用于将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值;
具体实现中,匹配度值获取单元131获取所述匹配度值的详细过程可以参考上述方法实施例中的描述,此处不再赘述。
置信度确定单元132,用于根据所述匹配度值确定所述声纹特征信息对应的声音置信度;
具体实现中,置信度确定单元132确定所述声音置信度的详细过程可以参考上述方法实施例中的描述,此处不再赘述。
结果获取模块14,具体用于基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
可以理解的是,所述对象识别设备1可以采用所述声纹特征信息生成对所述目标对象的对象识别结果,所述对象识别结果可以指示所述目标对象的语音信息对应的所述目标对象的身份信息,例如,当前语音环境中存在至少两个目标对象,所述对象识别设备1可以通过所述至少两个目标对象的声纹特征信息确定所述至少两个目标对象的语音信息对应的目标对象,并确定所述目标对象的身份信息(例如,将庭审时将录音系统中所有目标对象的语音分类为法官、被告和原告后可以确定声音A是属于法官的、声音B属于被告、声音C属于原告等。)
在本发明实施例中,当所述声纹特征信息中存在两个相似的声纹特征时,所述对象识别设备1不能准确地通过对上述两个相似的声纹特征得出所述目标对象的对象识别结果。
对于上述情况,结果获取模块14可以基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
在本发明实施例一种具体实现方式中,所述结果获取模块14可以包括一下单元如图13所示:
第一结果获取单元141,用于当所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体实现中,当所述声音置信度大于或等于第一置信度阈值时,可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度较大,第一结果获取单元141可以将所述声纹特征信息确定为所采用的对象识别信息,然后采用所述声纹特征信息识别所述目标对象的身份信息,此时的所述方位信息不参与身份确认仅用作声源定位。
在本发明实施例的具体实现方式中,可以将所述第一置信度阈值设为90%、95%或者其他根据实际情况所确定的值。
第二结果获取单元142,用于当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息中确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体实现中,当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度处于平均水平,为更准确的识别所述目标对象的身份,第二结果获取单元142可以将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,然后采用是声纹特征信息进行声纹识别,初步确定所述目标对象的身份,同时采用所述方位信息定位的声源方向进一步识别所述目标对象的身份。
在本发明实施例的具体实现方式中,可以将所述第一置信度阈值设为90%、95%或者其他根据实际情况所确定的值,可以将所述第二置信度阈值设置为50%、55%或者60%等其他根据实际情况所确定的可以代表平均值的数据。
第三结果获取单元143,用于当所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
具体实现中,当所述声音置信度小于第二置信度阈值时,可以代表根据所述声纹特征信息确认所述目标对象的身份信息的可信程度较低,采用所述声纹特征信息所识别的所述目标对象身份的准确率较低,第三结果获取子单元1323可以将所述述方位信息确定为所采用的对象识别信息,然后采用所述方位信息声源定位后的定位方向确定所述目标对象的身份,实现同一语音环境下的人声分离,可以理解的是,进采用所述方位信息作为所述对象识别信息时,在识别的过程中可以存在允许范围内的误差。需要说明的是,在此种情况下所述当前语音环境需要是特定的语音环境,例如,目标对象的位置都是确定的环境(例如,庭审中,法官和犯人的位置是确定的)
在本发明实施例中,通过声音置信度确定用于对象识别的对象识别信息,避免了在对象识别的过程中对非必要信息的识别过程,提高了对象识别的效率。
在本发明实施例一种具体实现方式中,所述结果获取模块14可以包括一下子单元如图14所示:
信息确定子单元1421,用于当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息;
具体实现中,信息确定子单元1421确定所述对象识别信息的详细过程可以参考上述方法实施例中的描述,此处不再赘述。
候选结果获取子单元1422,用于根据所述声纹特征信息获取所述目标对象的候选识别结果;
具体实现中,所述信息确定子单元1421将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息后,候选结果获取子单元1422可以根据所述声纹特征信息获取所述目标对象的候选识别结果。可以理解的是,当所述目标对象的声纹特征信息具有明显区别时,所述候选识别结果可以是最终的所述目标对象的对象识别结果,即所述对象识别设备可以从多个语音信息中明确识别出目标对象的语音信息;当所述目标对象中存在至少两个声纹特征信息区别不明显的目标对象时,所述候选识别结果所指示的目标对象与语音信息之间的对应关系可能是不准确的,例如,法官A和犯人B的声纹特征信息相似度很大,所述对象识别设备在在庭审的多个语音信息中识别法官A的语音信息时,可能将犯人B的语音信息错认为是法官A的,也可能将将法官A的语音信息错认为是犯人B的。
结果获取子单元1423,用于采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果;
具体实现中,在所述候选结果获取子单元1422根据所述声纹特征信息初步识别所述目标对象的候选识别结果的同时,结果获取子单元1423可以采用所述方位信息定位的声源方向从所述候选识别结果中进一步定位所述目标对象的对象识别结果,即所述结果获取子单元1423可以对所述候选识别结果进行调整并最终确定所述目标对象的对象识别结果。例如,法官A和犯人B的声纹特征信息相似度较大,候选识别结果指示法官A的语音信息对应犯人B,结合法官A的位置信息所述对象识别设备可以将法官A的语音信息对应法官A。
在本发明实施例中,通过方位信息和声纹特征信息同时识别目标对象的对象识别结果,进一步增加了所获得的对象识别结果的准确性。
在本发明实施例中,通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息,然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取,获取经声纹特征提取后语音信息对应的声纹特征信息,最后获取声纹特征信息对应的声音置信度,基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,增加了获取到的对象识别结果的准确性;通过声音置信度确定用于对象识别的对象识别信息,避免了在对象识别的过程中对非必要信息的识别过程,提高了对象识别的效率;通过方位信息和声纹特征信息同时识别目标对象的对象识别结果,进一步增加了所获得的对象识别结果的准确性。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图3-图8所示实施例的方法步骤,具体执行过程可以参见图3-图8所示实施例的具体说明,在此不进行赘述。
请参见图15,为本发明实施例提供了一种终端的结构示意图。如图15所示,所述终端1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及对象识别应用程序。
在图15所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;网络接口1004用于与用户终端进行数据通信;而处理器1001可以用于调用存储器1005中存储的对象识别应用程序,并具体执行以下操作:
获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
获取所述声纹特征信息对应的声音置信度;
基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
在一个实施例中,所述处理器1001在执行获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息时,具体执行以下操作:
基于麦克风阵列获取当前语音环境中语音信息集合,并对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息;
获取所述麦克风阵列在采集所述语音信息集合时的相位信息,基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。
在一个实施例中,所述处理器1001在执行获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息之前,还用于执行以下操作:
获取声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。
在一个实施例中,所述处理器1001在执行获取所述声纹特征信息对应的声音置信度时,具体执行以下操作:
将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值;
根据所述匹配度值确定所述声纹特征信息对应的声音置信度。
在一个实施例中,所述处理器1001在执行基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果时,具体执行以下操作:
基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
在一个实施例中,所述处理器1001在执行基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果时,具体执行以下操作:
当所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
当所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
在一个实施例中,所述处理器1001在执行当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果时,具体执行以下操作:
当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息;
根据所述声纹特征信息获取所述目标对象的候选识别结果;
采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果。
在本发明实施例中,通过获取当前语音环境中目标对象的语音信息和目标对象的方位信息,然后基于训练后的声纹匹配模型对语音信息进行声纹特征提取,获取经声纹特征提取后语音信息对应的声纹特征信息,最后获取声纹特征信息对应的声音置信度,基于声音置信度并采用方位信息和声纹特征信息获取目标对象的对象识别结果。通过分析声音置信度在获取对象识别结果中的调节作用,实现根据方位信息或声纹特征信息获取对象识别结果,增加了获取到的对象识别结果的准确性;通过声音置信度确定用于对象识别的对象识别信息,避免了在对象识别的过程中对非必要信息的识别过程,提高了对象识别的效率;通过方位信息和声纹特征信息同时识别目标对象的对象识别结果,进一步增加了所获得的对象识别结果的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (15)

1.一种对象识别方法,其特征在于,包括:
获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
获取所述声纹特征信息对应的声音置信度;
基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
2.如权利要求1所述的方法,其特征在于,所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息,包括:
基于麦克风阵列获取当前语音环境中语音信息集合,并对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息;
获取所述麦克风阵列在采集所述语音信息集合时的相位信息,基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。
3.如权利要求1所述的方法,其特征在于,所述获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息之前,还包括:
获取声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。
4.如权利要求3所述的方法,其特征在于,所述获取所述声纹特征信息对应的声音置信度,包括:
将所述声纹特征信息与所述声纹训练语音对应的样本特征信息进行匹配,获取特征匹配度最高时的匹配度值;
根据所述匹配度值确定所述声纹特征信息对应的声音置信度。
5.如权利要求1所述的方法,其特征在于,所述基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果,包括:
基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
6.如权利要求5所述的方法,其特征在于,所述基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果,包括:
当所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
当所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
7.如权利要求6所述的方法,其特征在于,所述当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果,包括:
当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息;
根据所述声纹特征信息获取所述目标对象的候选识别结果;
采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果。
8.一种对象识别设备,其特征在于,包括:
对象信息获取模块,用于获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
特征信息获取模块,用于基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
置信度获取模块,用于获取所述声纹特征信息对应的声音置信度;
结果获取模块,用于采用所述方位信息、所述声纹特征信息以及所述声音置信度获取所述目标对象的对象识别结果。
9.如权利要求8所述的设备,其特征在于,所述对象信息获取模块包括:
信息获取单元,用于基于麦克风阵列获取当前语音环境中语音信息集合,并对所述语音信息集合进行筛选处理,获取经所述筛选处理后的所述目标对象的语音信息;
信息确定单元,用于获取所述麦克风阵列在采集所述语音信息集合时的相位信息,基于所述相位信息所指示的语音方位确定所述目标对象的方位信息。
10.如权利要求8所述的设备,其特征在于,还包括:
模型生成模块,用于获取声纹训练语音集合,基于所述声纹训练语音集合中各声纹训练语音和所述声纹训练语音对应的样本特征信息,对建立的声纹匹配模型进行训练生成训练后的声纹匹配模型。
11.如权利要求10所述的设备,其特征在于,所述置信度获取模块包括:
匹配度值获取单元,用于将所述声纹特征信息的声纹特征与所述声纹训练语音集合中的各声纹训练语音对应的声纹特征进行匹配,获取声纹特征匹配度最高时的匹配度值;
置信度确定单元,用于根据所述匹配度值确定所述声纹特征信息对应的声音置信度。
12.如权利要求8所述的设备,其特征在于,所述结果获取模块具体用于,基于所述声音置信度和预设声音置信度阈值的关系,在所述方位信息和所述声纹特征信息中确定所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
13.如权利要求12所述的设备,其特征在于,所述结果获取模块包括:
第一结果获取单元,用于当所述声音置信度大于或等于第一置信度阈值时,将所述声纹特征信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
第二结果获取单元,用于当所述声音置信度大于或等于第二置信度阈值且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果;
第三结果获取单元,用于当所述声音置信度小于第二置信度阈值时,将所述述方位信息确定为所采用的对象识别信息,并根据所述对象识别信息获取所述目标对象的对象识别结果。
14.如权利要求13所述的设备,其特征在于,所述第二结果获取单元包括:
信息确定子单元,用于当所述声音置信度大于或等于第二置信度阈值、且小于所述第一置信度阈值时,将所述方位信息和所述声纹特征信息共同确定为所采用的对象识别信息;
候选结果获取子单元,用于根据所述声纹特征信息获取所述目标对象的候选识别结果;
结果获取子单元,用于采用所述方位信息从所述候选识别结果中定位所述目标对象的对象识别结果。
15.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
获取当前语音环境中目标对象的语音信息和所述目标对象的方位信息;
基于训练后的声纹匹配模型对所述语音信息进行声纹特征提取,获取经所述声纹特征提取后所述语音信息对应的声纹特征信息;
获取所述声纹特征信息对应的声音置信度;
基于所述声音置信度并采用所述方位信息和所述声纹特征信息获取所述目标对象的对象识别结果。
CN201710992605.7A 2017-10-23 2017-10-23 一种对象识别方法及其设备、存储介质、终端 Active CN108305615B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201710992605.7A CN108305615B (zh) 2017-10-23 2017-10-23 一种对象识别方法及其设备、存储介质、终端
KR1020197038790A KR102339594B1 (ko) 2017-10-23 2018-08-30 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
EP18870826.7A EP3614377B1 (en) 2017-10-23 2018-08-30 Object recognition method, computer device and computer readable storage medium
PCT/CN2018/103255 WO2019080639A1 (zh) 2017-10-23 2018-08-30 一种对象识别方法、计算机设备及计算机可读存储介质
JP2020522805A JP6938784B2 (ja) 2017-10-23 2018-08-30 オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体
US16/663,086 US11289072B2 (en) 2017-10-23 2019-10-24 Object recognition method, computer device, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710992605.7A CN108305615B (zh) 2017-10-23 2017-10-23 一种对象识别方法及其设备、存储介质、终端

Publications (2)

Publication Number Publication Date
CN108305615A true CN108305615A (zh) 2018-07-20
CN108305615B CN108305615B (zh) 2020-06-16

Family

ID=62869914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710992605.7A Active CN108305615B (zh) 2017-10-23 2017-10-23 一种对象识别方法及其设备、存储介质、终端

Country Status (6)

Country Link
US (1) US11289072B2 (zh)
EP (1) EP3614377B1 (zh)
JP (1) JP6938784B2 (zh)
KR (1) KR102339594B1 (zh)
CN (1) CN108305615B (zh)
WO (1) WO2019080639A1 (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197449A (zh) * 2017-12-27 2018-06-22 廖晓曦 一种基于移动终端的询问笔录装置、系统及其笔录方法
CN109256147A (zh) * 2018-10-30 2019-01-22 腾讯音乐娱乐科技(深圳)有限公司 音频节拍检测方法、装置及存储介质
CN109346083A (zh) * 2018-11-28 2019-02-15 北京猎户星空科技有限公司 一种智能语音交互方法及装置、相关设备及存储介质
CN109410956A (zh) * 2018-12-24 2019-03-01 科大讯飞股份有限公司 一种音频数据的对象识别方法、装置、设备及存储介质
WO2019080639A1 (zh) * 2017-10-23 2019-05-02 腾讯科技(深圳)有限公司 一种对象识别方法、计算机设备及计算机可读存储介质
CN109903522A (zh) * 2019-01-24 2019-06-18 珠海格力电器股份有限公司 一种监控方法、装置、存储介质及家用电器
CN110058892A (zh) * 2019-04-29 2019-07-26 Oppo广东移动通信有限公司 电子设备交互方法、装置、电子设备及存储介质
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110491411A (zh) * 2019-09-25 2019-11-22 上海依图信息技术有限公司 结合麦克风声源角度和语音特征相似度分离说话人的方法
CN110505504A (zh) * 2019-07-18 2019-11-26 平安科技(深圳)有限公司 视频节目处理方法、装置、计算机设备及存储介质
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN110782622A (zh) * 2018-07-25 2020-02-11 杭州海康威视数字技术股份有限公司 一种安全监控系统、安全检测方法、装置及电子设备
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN111292733A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 一种语音交互方法和装置
CN111904424A (zh) * 2020-08-06 2020-11-10 苏州国科医工科技发展(集团)有限公司 基于相阵麦克风的睡眠监测及调控系统
CN111916101A (zh) * 2020-08-06 2020-11-10 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN113113044A (zh) * 2021-03-23 2021-07-13 北京小米移动软件有限公司 音频处理方法及装置、终端及存储介质
CN113707173A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 基于音频切分的语音分离方法、装置、设备及存储介质
WO2023185007A1 (zh) * 2022-03-29 2023-10-05 青岛海尔空调器有限总公司 一种睡眠场景设置方法及装置
WO2023185006A1 (zh) * 2022-03-29 2023-10-05 青岛海尔空调器有限总公司 一种工作模式设置方法及装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945815B (zh) * 2017-11-27 2021-09-07 歌尔科技有限公司 语音信号降噪方法及设备
CN111951809A (zh) * 2019-05-14 2020-11-17 深圳子丸科技有限公司 多人声纹辨别方法及系统
US11664033B2 (en) 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN111988426B (zh) * 2020-08-31 2023-07-18 深圳康佳电子科技有限公司 基于声纹识别的通信方法、装置、智能终端及存储介质
CN112233694B (zh) * 2020-10-10 2024-03-05 中国电子科技集团公司第三研究所 一种目标识别方法、装置、存储介质及电子设备
CN112507294B (zh) * 2020-10-23 2022-04-22 重庆交通大学 一种基于人机交互的英语教学系统及教学方法
CN112530452A (zh) * 2020-11-23 2021-03-19 北京蓦然认知科技有限公司 一种后置滤波补偿方法、装置和系统
CN112820300B (zh) * 2021-02-25 2023-12-19 北京小米松果电子有限公司 音频处理方法及装置、终端、存储介质
CN115331673B (zh) * 2022-10-14 2023-01-03 北京师范大学 一种复杂声音场景下的声纹识别家电控制方法和装置
CN116299179B (zh) * 2023-05-22 2023-09-12 北京边锋信息技术有限公司 一种声源定位方法、声源定位装置和可读存储介质

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2991144B2 (ja) * 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
FR2761848B1 (fr) * 1997-04-04 2004-09-17 Parrot Sa Dispositif de commande vocale pour radiotelephone, notamment pour utilisation dans un vehicule automobile
US6751590B1 (en) * 2000-06-13 2004-06-15 International Business Machines Corporation Method and apparatus for performing pattern-specific maximum likelihood transformations for speaker recognition
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム
JP4595364B2 (ja) * 2004-03-23 2010-12-08 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
JP4982807B2 (ja) * 2008-03-06 2012-07-25 独立行政法人産業技術総合研究所 操作方法およびそのための操作装置、プログラム
JP4730404B2 (ja) * 2008-07-08 2011-07-20 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
JP2010165305A (ja) * 2009-01-19 2010-07-29 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
CN102270451B (zh) * 2011-08-18 2013-05-29 安徽科大讯飞信息科技股份有限公司 说话人识别方法及系统
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints
US9401058B2 (en) * 2012-01-30 2016-07-26 International Business Machines Corporation Zone based presence determination via voiceprint location awareness
US9800731B2 (en) * 2012-06-01 2017-10-24 Avaya Inc. Method and apparatus for identifying a speaker
CN102930868A (zh) * 2012-10-24 2013-02-13 北京车音网科技有限公司 身份识别方法和装置
DK2797078T3 (en) * 2013-04-26 2017-01-23 Agnitio S L Assessment of reliability in speech recognition
US9711148B1 (en) * 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US9922667B2 (en) * 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
US20150302856A1 (en) * 2014-04-17 2015-10-22 Qualcomm Incorporated Method and apparatus for performing function by speech input
CN105321520A (zh) * 2014-06-16 2016-02-10 丰唐物联技术(深圳)有限公司 一种语音控制方法及装置
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
CN104219050B (zh) * 2014-08-08 2015-11-11 腾讯科技(深圳)有限公司 声纹验证方法、服务器、客户端及系统
US10262655B2 (en) * 2014-11-03 2019-04-16 Microsoft Technology Licensing, Llc Augmentation of key phrase user recognition
US10397220B2 (en) * 2015-04-30 2019-08-27 Google Llc Facial profile password to modify user account data for hands-free transactions
CN104935819B (zh) * 2015-06-11 2018-03-02 广东欧珀移动通信有限公司 一种控制摄像头拍摄方法及终端
US10178301B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
CN105280183B (zh) * 2015-09-10 2017-06-20 百度在线网络技术(北京)有限公司 语音交互方法和系统
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
CN106503513A (zh) * 2016-09-23 2017-03-15 北京小米移动软件有限公司 声纹识别方法及装置
US20190182176A1 (en) * 2016-12-21 2019-06-13 Facebook, Inc. User Authentication with Voiceprints on Online Social Networks
CN106898355B (zh) * 2017-01-17 2020-04-14 北京华控智加科技有限公司 一种基于二次建模的说话人识别方法
CN106961418A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 身份认证方法和身份认证系统
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN107123421A (zh) * 2017-04-11 2017-09-01 广东美的制冷设备有限公司 语音控制方法、装置及家电设备
US11250844B2 (en) * 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
CN107221331A (zh) * 2017-06-05 2017-09-29 深圳市讯联智付网络有限公司 一种基于声纹的身份识别方法和设备
CN108305615B (zh) * 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN107862060B (zh) * 2017-11-15 2021-03-23 吉林大学 一种追踪目标人的语义识别装置及识别方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11289072B2 (en) 2017-10-23 2022-03-29 Tencent Technology (Shenzhen) Company Limited Object recognition method, computer device, and computer-readable storage medium
WO2019080639A1 (zh) * 2017-10-23 2019-05-02 腾讯科技(深圳)有限公司 一种对象识别方法、计算机设备及计算机可读存储介质
CN108197449A (zh) * 2017-12-27 2018-06-22 廖晓曦 一种基于移动终端的询问笔录装置、系统及其笔录方法
CN110782622A (zh) * 2018-07-25 2020-02-11 杭州海康威视数字技术股份有限公司 一种安全监控系统、安全检测方法、装置及电子设备
CN109256147A (zh) * 2018-10-30 2019-01-22 腾讯音乐娱乐科技(深圳)有限公司 音频节拍检测方法、装置及存储介质
CN109256147B (zh) * 2018-10-30 2022-06-10 腾讯音乐娱乐科技(深圳)有限公司 音频节拍检测方法、装置及存储介质
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN109346083A (zh) * 2018-11-28 2019-02-15 北京猎户星空科技有限公司 一种智能语音交互方法及装置、相关设备及存储介质
CN111292733A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 一种语音交互方法和装置
CN109410956A (zh) * 2018-12-24 2019-03-01 科大讯飞股份有限公司 一种音频数据的对象识别方法、装置、设备及存储介质
CN109410956B (zh) * 2018-12-24 2021-10-08 科大讯飞股份有限公司 一种音频数据的对象识别方法、装置、设备及存储介质
CN109903522A (zh) * 2019-01-24 2019-06-18 珠海格力电器股份有限公司 一种监控方法、装置、存储介质及家用电器
CN110058892A (zh) * 2019-04-29 2019-07-26 Oppo广东移动通信有限公司 电子设备交互方法、装置、电子设备及存储介质
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110082723B (zh) * 2019-05-16 2022-03-15 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质
CN110505504A (zh) * 2019-07-18 2019-11-26 平安科技(深圳)有限公司 视频节目处理方法、装置、计算机设备及存储介质
CN110491411A (zh) * 2019-09-25 2019-11-22 上海依图信息技术有限公司 结合麦克风声源角度和语音特征相似度分离说话人的方法
CN110491411B (zh) * 2019-09-25 2022-05-17 上海依图信息技术有限公司 结合麦克风声源角度和语音特征相似度分离说话人的方法
CN110767226A (zh) * 2019-10-30 2020-02-07 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN110767226B (zh) * 2019-10-30 2022-08-16 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN111904424B (zh) * 2020-08-06 2021-08-24 苏州国科医工科技发展(集团)有限公司 基于相阵麦克风的睡眠监测及调控系统
CN111916101A (zh) * 2020-08-06 2020-11-10 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN111904424A (zh) * 2020-08-06 2020-11-10 苏州国科医工科技发展(集团)有限公司 基于相阵麦克风的睡眠监测及调控系统
CN113113044A (zh) * 2021-03-23 2021-07-13 北京小米移动软件有限公司 音频处理方法及装置、终端及存储介质
CN113707173A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 基于音频切分的语音分离方法、装置、设备及存储介质
CN113707173B (zh) * 2021-08-30 2023-12-29 平安科技(深圳)有限公司 基于音频切分的语音分离方法、装置、设备及存储介质
WO2023185007A1 (zh) * 2022-03-29 2023-10-05 青岛海尔空调器有限总公司 一种睡眠场景设置方法及装置
WO2023185006A1 (zh) * 2022-03-29 2023-10-05 青岛海尔空调器有限总公司 一种工作模式设置方法及装置

Also Published As

Publication number Publication date
KR20200012963A (ko) 2020-02-05
EP3614377B1 (en) 2022-02-09
US11289072B2 (en) 2022-03-29
CN108305615B (zh) 2020-06-16
KR102339594B1 (ko) 2021-12-14
EP3614377A1 (en) 2020-02-26
US20200058293A1 (en) 2020-02-20
EP3614377A4 (en) 2020-12-30
WO2019080639A1 (zh) 2019-05-02
JP2021500616A (ja) 2021-01-07
JP6938784B2 (ja) 2021-09-22

Similar Documents

Publication Publication Date Title
CN108305615A (zh) 一种对象识别方法及其设备、存储介质、终端
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN105512348B (zh) 用于处理视频和相关音频的方法和装置及检索方法和装置
CN103503060B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
JP2021527840A (ja) 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
WO2019210796A1 (zh) 语音识别方法、装置、存储介质及电子设备
CN104900235B (zh) 基于基音周期混合特征参数的声纹识别方法
US10242677B2 (en) Speaker dependent voiced sound pattern detection thresholds
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN109410956A (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN108922543A (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN107945793A (zh) 一种语音激活检测方法及装置
Zhang et al. Multimodal Deception Detection Using Automatically Extracted Acoustic, Visual, and Lexical Features.
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Poorjam et al. Quality control of voice recordings in remote Parkinson’s disease monitoring using the infinite hidden Markov model
CN108665901A (zh) 一种音素/音节提取方法及装置
CN110415707B (zh) 一种基于语音特征融合和gmm的说话人识别方法
CN114822557A (zh) 课堂中不同声音的区分方法、装置、设备以及存储介质
CN106887229A (zh) 一种提升声纹识别准确度的方法和系统
CN112712820A (zh) 一种音色分类方法、装置、设备和介质
CN106599764A (zh) 基于唇形特征的活体判断方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant