CN110136727B - 基于说话内容的说话者身份识别方法、装置及存储介质 - Google Patents
基于说话内容的说话者身份识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110136727B CN110136727B CN201910305438.3A CN201910305438A CN110136727B CN 110136727 B CN110136727 B CN 110136727B CN 201910305438 A CN201910305438 A CN 201910305438A CN 110136727 B CN110136727 B CN 110136727B
- Authority
- CN
- China
- Prior art keywords
- voice
- text information
- speaker
- target
- confirmed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 239000012634 fragment Substances 0.000 claims abstract description 37
- 238000005516 engineering process Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 45
- 238000013145 classification model Methods 0.000 claims description 30
- 238000013135 deep learning Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 17
- 239000000203 mixture Substances 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 abstract description 23
- 239000000463 material Substances 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000006854 communication Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006403 short-term memory Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- IJCNJEJGRGVNMF-UHFFFAOYSA-N 2-[2-(dimethylamino)-2-oxoethoxy]-n-[2-(dimethylamino)-2-oxoethyl]benzamide Chemical compound CN(C)C(=O)CNC(=O)C1=CC=CC=C1OCC(=O)N(C)C IJCNJEJGRGVNMF-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语音处理领域,提出一种基于说话内容的说话者身份识别的方法、装置及存储介质,其中的方法包括采集初始语音信号,其中,初始语音信号包含多个待确认目标的说话内容;通过语音识别技术将初始语音信号转换为与说话内容对应的文本信息;根据文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,说话者为多个待确认目标其中之一;根据文本信息片段获取与待确认目标对应的语音信号段并进行拼接,获取目标语音信号;根据目标语音信号对待确认目标的身份进行确认。本发明基于说话内容进行说话人身份的识别及验证,能够提高身份验证过程中的准确率,实现其在电话客户服务中的应用,节省人力物力。
Description
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于说话内容的说话者身份识别方法、装置及计算机可读存储介质。
背景技术
根据研究表明,声纹虽然不如指纹、人脸这样,个体差异明显,但是由于每个人的声道、口腔和鼻腔(发音要用到的器官)也具有个体差异性。因为反映到声音上,也是具有差异性的。就比如说,当我们在接电话的时候,通过一声"喂",我们就能准确的分辨出接电话的是谁,我们人耳作为身体的接收器生来就具有分辨声音的能力,那么我们也可以通过技术的手段,使声纹也可以向人脸、指纹那样作为“个人身份认证”的重要信息。
声纹识别(Voiceprint Recognition,VPR),也称为说话人识别(SpeakerRecognition),包括两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。说话人识别是给定说话者语音信息,以接受或拒绝说话者身份的过程,被广泛应用在银行系统,金融商业和语音安全控制中。
为此,说话人识别技术逐渐发展并得到普及,尤其在安全验证、电话银行中得到广泛应用。该技术要求在单信道-单一说话者情景下应用,即输入单一客户的语音信息,能够获得较好的验证效果。但是,在客户导向的企业中,说话人识别能够帮助客户解决紧急需要,并获得个性化服务,也可以帮助实现精准营销。但是,现有业内产品多为基于说话者声纹的识别,但这种方法在对话双方性别不同时效果较好,性别相同时,效果相对差。
例如,在电话客户服务平台上,在电话录音的单一信道上记录的是客户与客服的对话音频,因此,不能够直接通过说话人验证技术对电话录音信息进行客户身份验证,导致电话客户服务效率低,浪费大量的人力物力。
发明内容
本发明提供一种基于说话内容的说话者身份识别方法、装置及计算机可读存储介质,其主要目的在于通过将录制的对话音频用自动语音识别技术转换为文字信息,然后使用深度学习分类方法进行客户或客服的身份识别,最后,对客户音频片段进行拼接及对拼接后的音频片段进行身份验证,能够根据电话销售中客户与客服说话内容存在差异的应用场景,基于说话内容进行说话人识别及验证,提高身份验证过程中的准确率,实现其在电话客户服务中的应用,节省人力物力。
为实现上述目的,本发明提供一种基于说话内容的说话者身份识别方法,应用于电子装置,所述方法包括:
采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容;
通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息;
根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一;
根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接,获取目标语音信号;
根据所述目标语音信号对所述待确认目标的身份进行确认。
此外,优选地,所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息包括:
通过子空间高斯混合模型和语音活动检测技术,将所述初始语音信号分割为多个语音片段;
通过语音识别技术对各语音片段分别进行文本信息转换。
此外,优选地,所述通过语音识别技术对各语音片段分别进行文本信息转换的步骤包括:
构件语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM;
将所述各语音片段输入所述语音识别模型进行处理,所述语音识别模型将所述各语音片段表示为多维特征输出;
将所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理,得到所述各语音片段对应的文本信息。
此外,优选地,所述根据所述文本信息对说话者身份进行识别的步骤包括:
获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;
将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。
此外,优选地,所述根据所述目标语音信号对所述待确认目标的身份进行确认的步骤包括:
采用基于深度神经网络模型的i-向量系统实现对所述待确认目标的身份的确认;或者,
采用基于高斯混合模型的i-向量系统实现对所述待确认目标的身份的确认。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器及摄像装置,所述存储器中包括基于说话内容的说话者身份识别程序,所述基于说话内容的说话者身份识别程序被所述处理器执行时实现如下步骤:
采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容;
通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息;
根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一;
根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接,获取目标语音信号;
根据所述目标语音信号对待确认目标的身份进行确认。
此外,优选地,所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息的步骤包括:
通过子空间高斯混合模型和语音活动检测,将所述初始语音信号分割为多个语音片段;
通过语音识别技术对各语音片段分别进行文本信息转换。
此外,优选地,所述通过语音识别技术对各语音片段分别进行文本信息转换的步骤包括:
构件语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM;
将所述各语音片段输入所述语音识别模型进行处理,所述语音识别模型将所述各语音片段表示为多维特征输出;
所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理,得到所述各语音片段对应的文本信息。
此外,优选地,所述根据所述文本信息对说话者身份进行识别的步骤包括:
获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;
将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于说话内容的说话者身份识别程序,所述基于说话内容的说话者身份识别程序被处理器执行时,实现如上所述的基于说话内容的说话者身份识别方法的步骤。
本发明提出的基于说话内容的说话者身份识别方法、装置及计算机可读存储介质,将录制的对话音频用自动语音识别技术转换为文字信息,然后使用深度学习分类方法进行目标或非目标的身份识别,最后,对目标音频片段进行拼接及对拼接后的音频片段进行身份验证,能够根据电话销售中客户与客服说话内容存在差异的应用场景,基于说话内容进行说话人识别及验证,提高身份验证过程中的准确率。
附图说明
图1为本发明基于说话内容的说话者身份识别方法具体实施例的应用环境示意图;
图2为图1中基于说话内容的说话者身份识别程序具体实施例的模块示意图;
图3为本发明根据转换后的文本信息对目标进行身份识别的原理图;
图4为3中根据转换后的文本信息对目标进行身份识别的流程图;
图5为基于DNN的说话人身份确认原理图;
图6为基于GMM的说话人身份确认原理图;
图7为基于说话内容的说话者身份识别方法具体实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于说话内容的说话者身份识别方法,应用于一种电子装置1。参照图1所示,为本发明基于说话内容的说话者身份识别方法具体实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括:处理器12、存储器11、网络接口14及通信总线15。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于说话内容的说话者身份识别程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如基于说话内容的说话者身份识别程序10等。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线15用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-15的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,计算机存储介质的存储器11中可以包括操作系统、以及基于说话内容的说话者身份识别程序10;处理器12执行存储器11中存储的基于说话内容的说话者身份识别程序10时实现如下步骤:
首先,采集初始语音信号,其中,初始语音信号包含多个待确认目标的说话内容。
其中,针对电话沟通过程中,只有两个人进行语音通话的情况,待确认目标为两个,当多人通话时,初始语音信号就会包含多个待确认目标的说话内容,具体实施方案是相似的,此处不再赘述。
另外,针对应用场景的不同,对语音信号数据的采集触发点也存在不同,例如,当基于说话内容的说话者身份识别程序安装在移动终端上时,触发语音信号数据采集的可以为设定在移动终端上的按键,或者启动按钮等。而初始语音信号就是采集到的语音信号数据,该语音信号数据即可作为后续身份识别中所需要的初始语音信号。
其次,通过语音识别技术(Automatic Speech Recognition,ASR)将所述初始语音信号转换为与说话内容对应的文本信息,所述说话者为多个待确认目标其中之一。
作为示例,当说话者分别为客户和客服时,通过语音识别技术ASR将所述初始语音信号转换为对应的文本信息的步骤包括:先通过子空间高斯混合模型(Subspace GaussianMixture Model,SGMM)和语音活动检测(Voice Activity Detection,VAD),将初始语音信号分割为多个短小的语音片段,短小的语音片段能够便于ASR对其进行文本信息转换,此处的分割参数可以根据ASR进行设定;然后,通过ASR对各语音片段分别进行文本信息转换。
具体地,SGMM-VAD算法可由两个高斯混合模型(Gaussian Mixed Model,GMM)组成,分别用来描述语音/非语音对数正态分布,从混有高比例噪声信号的语音中检测语音片段。
而语音活动检测又称语音端点检测或语音边界检测。目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。
通过ASR对各语音片段进行转换处理的步骤包括:
第一:构建ASR模型,ASR模型包含共83维特征,其中80维为log FBANK的前端特征,帧长25ms,另外3维为音高特征(包含POV主元特征的概率)。同时,创建延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型(Latency-controlledBidirectional Highway Long Short-Term Memory,LC-BHLSTM),该LC-BHLSTM模型共有5层,1024个存储单元,每层输出有512个节点的投影。
第二,将上述分割后的各语音片段输入ASR模型中,通过ASR模型将各语音片段表示为多维特征输出,具体可以为83维特征输出。然后,将ASR模型的输出信号输入LC-BHLSTM模型中,LC-BHLSTM模型的输出目标值是10k维上下文相关的三音素状态(又名:句音),最终完成语音片段至对话文本信息的转换。
其中,长短期记忆网络(Long Short-Term Memory,LSTM)是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的事件。
再次,根据所述文本信息对待确认目标或者说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一。
其中,根据文本信息对说话者身份进行识别的步骤包括:
第一:获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;
第二:将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。
进一步地,根据文本信息对说话者身份进行识别的步骤包括:
1.基于语料库组建训练集;其中,在训练阶段可以手动标记“目标”、“非目标”标签来组建训练集。
2.基于训练集训练形成深度学习分类模型;
3.将文本信息输入训练好的深度学习分类模型中,对文本信息分配“目标”或“非目标”的标签。
具体地,基于语料库组建训练集,在训练阶段手动标记“客户”/“客服”(即“目标”/“非目标”)标签来组建训练集,进而训练形成深度学习分类模型,将对话文本信息输入所述深度学习分类模型,对文本片段分配“客户”和“客服”的标签。最后,将各段被识别的客户文字数据找到对应的客户语音信息,并拼接成客户语音。
在对说话者身份进行识别的过程中,客户语音的质量十分重要。因此需要在客户-客服对话语音中完整地抽取出客户语音,以输入到后续深度学习分类模型中进行说话人验证。
当前,电话客户服务平台数据具有如下特征:其一,录制语音仅有客服与客户两个说话者,而等待验证身份的为客户语音。因此,本发明采用二分类方法来识别分类客服/客户。其二,两位说话者声音可能相似,但是说话内容有所不同。电话客服服务,大多为既定内容,介绍相关领域的产品,因此会包含较多专业术语,而客户接听或来电主要是咨询相关问题,语言相对平实生活化,包含较少专业术语。因此这些专业术语关键词可作为分类模型的特征,以训练二分类模型,该方法被称为“关键词匹配”。最后,将各片段被识别的客户文字数据拼接成客户语音,以用于后期说话人验证。
该步骤的主要工作原理如框图3及流程图4所示,主要包括:
S210:系统从训练集中构建搜索引擎,通过搜索引擎提取文本信息的中文分词,并在这些文本上构建保留索引。
S220:将所述对话文本信息放入深度学习分类模型中训练,获取与所述对话文本信息最相关的K条文本。
S230:根据K-NN算法投票表决对话文本信息的类别。
其中,邻近算法(k-NearestNeighbor,K-NN)或者说K最近邻分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表。
而K-NN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。K-NN算法在类别决策时,只与极少量的相邻样本有关。由于K-NN算法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,K-NN算法较其他方法更为适合。
再次,根据文本信息片段获取与待确认目标对应的语音信号段并进行拼接,获取目标语音信号。此处的语音信号段也可以理解为语音片段,在与待确认目标对应的各段文本信息未获取之前,初始语音信号分割为多个语音片段,待获取各段文本信息之后,即可根据该文本信息确认对应的语音信号段,该语音信号段就为我们需要进行身份确认的说话者的语音信号。
最后,根据所述目标语音信号对待确认目标的身份进行确认。
根据目标语音信号对目标身份进行确认的步骤包括两种方式:
方式一是采用基于深度神经网络模型DNN的i-向量系统实现对目标说话人身份或者待确认目标的身份的确认。方式二是采用基于高斯混合模型GMM的i-向量系统实现对目标说话人身份或者待确认目标的身份的确认。
具体地,图5示出了基于DNN的i-向量系统对目标说话进行人身份确认的原理,其中,DNN为深度神经网络算法,UBM为通用背景模型(Universal Background Model),DFNN为动态模糊神经网络(Dynamic Fuzzy Neural Network)),LSTM为长短期记忆网络(LongShort-Term Memory),TDNN为时延神经网络(Time delay neural network),该过程主要包括以下步骤:
步骤一:特征提取,收集足够多的统计信息,抽取i-向量和一个评分标准。该过程是用来将语音波形转换为特征向量(常用参数有:MFCC(Mel-frequency cepstralcoefficients,梅尔频率倒谱系数),LPCC(Linear Prediction Cepstrum Coefficient,线性预测倒谱参数)和PLP(Perceptual Linear Prediction,感知线性预测)),从给定的语音信号中过滤噪声,保留有用的说话人信息。
步骤二:基于VAD技术收集足够多的统计信息是从一系列特征向量中计算0阶,1阶,2阶Baum-Welch(鲍姆-韦尔奇)统计信息。这些统计信息是从大规模DNN中生成的高维信息,也称作UBM。
步骤三:i-向量的提取是将上述高维统计信息转换为单一低维特征向量,该低维向量仅包含与其他说话者不同的有辨别力的特征信息
步骤四:在i-向量被提取后,采用评分标准(常用标准:余弦cosine距离相似度,LDA(Linear Discriminant Analysis,线性判别分析)和PLDA(Probabilistic LinearDiscriminant Analysis,概率线性判别分析))来决定是否接受或拒绝该客户身份信息。
图6示出了基于GMM的i-向量系统对目标说话进行人身份确认的原理,其中,GMM为高斯混合模型,MFCC和PLP的意思可参照图5中的解释。
该方式二与方式一的特征提取过程相类似,此处不再一一赘述。
上述实施例提出的电子装置1,相较之前的声纹识别算法,能够减少声学模型建模的需要,用二分类算法提高模型在说话者性别不同的场景下的识别效果。此外,提出整个身份验证识别框架,能够解决单通道-多或者双说话者场景下的客户验证问题,说话人识别精度高、速度快。
在其他实施例中,基于说话内容的说话者身份识别程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中基于说话内容的说话者身份识别程序10具体实施例的程序模块图。
具体地,基于说话内容的说话者身份识别程序10可以被分割为:
语音数据采集单元210,用于采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容。
文本转换单元220,用于通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息,该单元进一步包括分割模块、模型创建模块、转换处理模块。
身份识别单元230,用于根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一,该单元进一步包括训练集组件模块、模型训练模块、识别模块。
身份验证单元240,用于根据目标语音信号对待确认目标的身份进行确认。
此外,本发明还提供一种基于说话内容的说话者身份识别方法。参照图7所示,为本发明基于说话内容的说话者身份识别具体实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于说话内容的说话者身份识别方法包括:
步骤S110,采集初始语音信号其中,所述初始语音信号包含多个待确认目标的说话内容。
其中,该初始语音信号为至少两个说话者的对话语音信号。此处提到的采集初始语音信号,主要是针对电话沟通过程中,说话人的语音信号,只有两个人进行语音通话的情况,待确认目标为两个,当能实现多人通话时,本发明提供的基于说话内容的说话者身份识别程序也可以适用于多人通话的情形,此时初始语音信号就会包含多个待确认目标的说话内容,具体实施方案是相似的,此处不再赘述。
另外,针对应用场景的不同,对语音信号数据的采集触发点也存在不同,例如,当基于说话内容的说话者身份识别程序安装在移动终端上时,触发语音信号数据采集的可以为设定在移动终端上的按键,或者启动按钮等。而初始语音信号就是采集到的语音信号数据,该语音信号数据即可作为后续身份识别中所需要的初始语音信号。
步骤S120,通过ASR将所述初始语音信号转换为与说话内容对应的文本信息。
作为示例,当说话者分别为客户和客服时,通过ASR将所述初始语音信号转换为对应的文本信息的步骤包括:先通过子空间高斯混合模型SGMM和语音活动检测VAD,将初始语音信号分割为多个短小的语音片段,短小的语音片段能够便于ASR对其进行文本信息转换,此处的分割参数可以根据ASR进行设定;然后,通过ASR对各语音片段分别进行文本信息转换。
具体地,SGMM-VAD算法可由两个GMM组成,分别用来描述语音/非语音对数正态分布,从混有高比例噪声信号的语音中检测语音片段。
而语音活动检测(Voice Activity Detection,VAD)又称语音端点检测或语音边界检测。目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。
通过ASR对各语音片段进行转换处理的步骤包括:
第一:构建ASR模型,ASR模型包含共83维特征,其中80维为log FBANK的前端特征,帧长25ms,另外3维为音高特征(包含POV主元特征的概率)。同时,创建LC-BHLSTM(Latency-controlled Bidirectional Highway Long Short-Term Memory,延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络)模型,该LC-BHLSTM模型共有5层,1024个存储单元,每层输出有512个节点的投影。
第二,将上述分割后的各语音片段输入ASR模型中,通过ASR模型将各语音片段表示为多维特征输出,具体可以为83维特征输出。然后,将ASR模型的输出信号输入LC-BHLSTM模型中,LC-BHLSTM模型的输出目标值是10k维上下文相关的三音素状态(又名:句音),最终完成语音片段至对话文本信息的转换。
其中,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的事件。
S130:根据所述文本信息对待确认目标或者说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一。
其中,根据文本信息对说话者身份进行识别的步骤包括:
第一:获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;
第二:将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。
进一步地,根据文本信息对说话者身份进行识别的步骤包括:
1.基于语料库组建训练集;其中,在训练阶段手动标记“目标”、“非目标”标签来组建训练集。
2.基于训练集训练形成深度学习分类模型;
3.将文本信息输入训练好的深度学习分类模型中,对文本信息分配“目标”或“非目标”的标签。
具体地,基于语料库组建训练集,在训练阶段手动标记“客户”/“客服”(即“目标”/“非目标”)标签来组建训练集,进而训练形成深度学习分类模型,将对话文本信息输入所述深度学习分类模型,对文本片段分配“客户”和“客服”的标签。最后,将各段被识别的客户文字数据找到对应的客户语音信息,并拼接成客户语音。
在对说话者身份进行识别的过程中,客户语音的质量十分重要。因此需要在客户-客服对话语音中完整地抽取出客户语音,以输入到后续深度学习分类模型中进行说话人验证。
当前,电话客户服务平台数据具有如下特征:其一,录制语音仅有客服与客户两个说话者,而等待验证身份的为客户语音。因此,本发明采用二分类方法来识别分类客服/客户。其二,两位说话者声音可能相似,但是说话内容有所不同。电话客服服务,大多为既定内容,介绍相关领域的产品,因此会包含较多专业术语,而客户接听或来电主要是咨询相关问题,语言相对平实生活化,包含较少专业术语。因此这些专业术语关键词可作为分类模型的特征,以训练二分类模型,该方法被称为“关键词匹配”。最后,将各片段被识别的客户文字数据拼接成客户语音,以用于后期说话人验证。
上述处理过程主要包括以下步骤:
步骤一:系统从训练集中构建搜索引擎,通过搜索引擎提取文本信息的中文分词,并在这些文本上构建保留索引。
步骤二:将所述对话文本信息放入深度学习分类模型中训练,获取与所述对话文本信息最相关的K条文本。
步骤三:根据K-NN算法投票表决对话文本信息的类别。
其中,邻近算法或者说K最近邻(K-NN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
而K-NN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。K-NN算法在类别决策时,只与极少量的相邻样本有关。由于K-NN算法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,K-NN算法较其他方法更为适合。
步骤S140:根据文本信息片段获取与待确认目标对应的语音信号段并进行拼接,获取目标语音信号。
此处的语音信号段也可以理解为语音片段,在与待确认目标对应的各段文本信息未获取之前,初始语音信号分割为多个语音片段,待获取各段文本信息之后,即可根据该文本信息确认对应的语音信号段,该语音信号段就为我们需要进行身份确认的说话者的语音信号。
步骤S150:根据所述目标语音信号对待确认目标的身份进行确认。
其中,根据目标语音信号对目标身份进行确认的步骤包括两种方式:
方式一是采用基于深度神经网络模型DNN的i-向量系统实现对目标说话人身份或者待确认目标的身份的确认。方式二是采用基于高斯混合模型GMM的i-向量系统实现对目标说话人身份或者待确认目标的身份的确认。
具体地,基于DNN的i-向量系统对目标说话进行人身份确认的程主要包括以下步骤:
步骤一:特征提取,收集足够多的统计信息,抽取i-向量和一个评分标准。该过程是用来将语音波形转换为特征向量(常用参数有:MFCC(Mel-frequency cepstralcoefficients,梅尔频率倒谱系数),LPCC(Linear Prediction Cepstrum Coefficient,线性预测倒谱参数)和PLP(Perceptual Linear Prediction,感知线性预测)),从给定的语音信号中过滤噪声,保留有用的说话人信息。
步骤二:基于VAD技术收集足够多的统计信息是从一系列特征向量中计算0阶,1阶,2阶Baum-Welch(鲍姆-韦尔奇)统计信息。这些统计信息是从大规模DNN中生成的高维信息,也称作UBM。
步骤三:i-向量的提取是将上述高维统计信息转换为单一低维特征向量,该低维向量仅包含与其他说话者不同的有辨别力的特征信息
步骤四:在i-向量被提取后,采用评分标准(常用标准:余弦cosine距离相似度,LDA(Linear Discriminant Analysis,线性判别分析)和PLDA(Probabilistic LinearDiscriminant Analysis,概率线性判别分析))来决定是否接受或拒绝该客户身份信息。
而基于GMM的i-向量系统对目标说话进行人身份确认的原理与方式一的特征提取过程相类似,此处不再一一赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于说话内容的说话者身份识别程序,所述基于说话内容的说话者身份识别程序被处理器执行时实现如下操作:
采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容;
通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息;
根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一;
根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接,获取目标语音信号;
根据所述目标语音信号对所述待确认目标的身份进行确认。
此外,优选地,所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息包括:
通过子空间高斯混合模型和语音活动检测技术,将所述初始语音信号分割为多个语音片段;
通过语音识别技术对各语音片段分别进行文本信息转换。
此外,优选地,所述通过语音识别技术对各语音片段分别进行文本信息转换的步骤包括:
构件语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM;
将所述各语音片段输入所述语音识别模型进行处理,所述语音识别模型将所述各语音片段表示为多维特征输出;
将所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理,得到所述各语音片段对应的文本信息。
此外,优选地,所述根据所述文本信息对说话者身份进行识别的步骤包括:
获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;
将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。
此外,优选地,所述根据所述目标语音信号对所述待确认目标的身份进行确认的步骤包括:
采用基于深度神经网络模型的i-向量系统实现对所述待确认目标的身份的确认;或者,
采用基于高斯混合模型的i-向量系统实现对所述待确认目标的身份的确认。本发明之计算机可读存储介质的具体实施方式与上述基于说话内容的说话者身份识别方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基于说话内容的说话者身份识别方法,应用于电子装置,其特征在于,所述方法包括:
采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容;
通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息;
根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一;
根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接,获取目标语音信号;
根据所述目标语音信号对所述待确认目标的身份进行确认;
所述文本信息的转换过程包括:构建语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM;
将所述初始语音信号的各语音片段输入所述语音识别模型进行处理,所述语音识别模型将所述各语音片段表示为多维特征输出;
将所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理,得到所述各语音片段对应的文本信息。
2.根据权利要求1所述的基于说话内容的说话者身份识别方法,其特征在于,所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息包括:
通过子空间高斯混合模型和语音活动检测技术,将所述初始语音信号分割为多个语音片段;
通过语音识别技术对各语音片段分别进行文本信息转换。
3.根据权利要求1所述的基于说话内容的说话者身份识别方法,其特征在于,所述根据所述文本信息对说话者身份进行识别的步骤包括:
获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;
将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。
4.根据权利要求1所述的基于说话内容的说话者身份识别方法,其特征在于,所述根据所述目标语音信号对所述待确认目标的身份进行确认的步骤包括:
采用基于深度神经网络模型的i-向量系统实现对所述待确认目标的身份的确认;或者,
采用基于高斯混合模型的i-向量系统实现对所述待确认目标的身份的确认。
5.一种电子装置,其特征在于,该电子装置包括:存储器、处理器及摄像装置,所述存储器中包括基于说话内容的说话者身份识别程序,所述基于说话内容的说话者身份识别程序被所述处理器执行时实现如下步骤:
采集初始语音信号,其中,所述初始语音信号包含多个待确认目标的说话内容;
通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息;
根据所述文本信息对说话者身份进行识别,获取与各个待确认目标对应的文本信息片段,所述说话者为所述多个待确认目标其中之一;
根据文本信息片段获取与所述待确认目标对应的语音信号段并进行拼接,获取目标语音信号;
根据所述目标语音信号对待确认目标的身份进行确认;
所述文本信息的转换过程包括:构建语音识别模型和延迟控制的双向高速长短期记忆网络延迟控制的双向高速长短期记忆网络模型LC-BHLSTM;
将所述初始语音信号的各语音片段输入所述语音识别模型进行处理,所述语音识别模型将所述各语音片段表示为多维特征输出;
将所述语音识别模型的输出信号输入所述LC-BHLSTM模型进行处理,得到所述各语音片段对应的文本信息。
6.根据权利要求5所述的电子装置,其特征在于,所述通过语音识别技术将所述初始语音信号转换为与所述说话内容对应的文本信息的步骤包括:
通过子空间高斯混合模型和语音活动检测,将所述初始语音信号分割为多个语音片段;
通过语音识别技术对各语音片段分别进行文本信息转换。
7.根据权利要求6所述的电子装置,其特征在于,所述根据所述文本信息对说话者身份进行识别的步骤包括:
获取基于训练集训练形成好的深度学习分类模型,其中,所述训练集基于语料库组建而成;
将所述文本信息输入所述深度学习分类模型中,对所述文本信息分配对应的标签。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于说话内容的说话者身份识别程序,所述基于说话内容的说话者身份识别程序被处理器执行时,实现如权利要求1至4中任一项所述的基于说话内容的说话者身份识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910305438.3A CN110136727B (zh) | 2019-04-16 | 2019-04-16 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
PCT/CN2019/117903 WO2020211354A1 (zh) | 2019-04-16 | 2019-11-13 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910305438.3A CN110136727B (zh) | 2019-04-16 | 2019-04-16 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110136727A CN110136727A (zh) | 2019-08-16 |
CN110136727B true CN110136727B (zh) | 2024-04-16 |
Family
ID=67570149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910305438.3A Active CN110136727B (zh) | 2019-04-16 | 2019-04-16 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110136727B (zh) |
WO (1) | WO2020211354A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136727B (zh) * | 2019-04-16 | 2024-04-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
CN110517667A (zh) * | 2019-09-03 | 2019-11-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种语音处理方法、装置、电子设备和存储介质 |
CN112837672B (zh) * | 2019-11-01 | 2023-05-09 | 北京字节跳动网络技术有限公司 | 对话归属的确定方法、装置、电子设备及存储介质 |
CN110931023B (zh) * | 2019-11-29 | 2022-08-19 | 厦门快商通科技股份有限公司 | 性别识别方法、系统、移动终端及存储介质 |
CN111144091B (zh) * | 2019-12-02 | 2024-04-05 | 支付宝(杭州)信息技术有限公司 | 客服成员的确定方法、装置以及群成员身份的确定方法 |
CN111089245A (zh) * | 2019-12-23 | 2020-05-01 | 宁波飞拓电器有限公司 | 一种多用途节能消防应急灯 |
CN111128223B (zh) * | 2019-12-30 | 2022-08-05 | 科大讯飞股份有限公司 | 一种基于文本信息的辅助说话人分离方法及相关装置 |
CN111243595B (zh) * | 2019-12-31 | 2022-12-27 | 京东科技控股股份有限公司 | 信息处理方法和装置 |
CN111405122B (zh) * | 2020-03-18 | 2021-09-24 | 苏州科达科技股份有限公司 | 音频通话测试方法、装置及存储介质 |
CN111508505B (zh) * | 2020-04-28 | 2023-11-03 | 讯飞智元信息科技有限公司 | 一种说话人识别方法、装置、设备及存储介质 |
CN111539221B (zh) * | 2020-05-13 | 2023-09-12 | 北京焦点新干线信息技术有限公司 | 一种数据处理方法及系统 |
CN112182197A (zh) * | 2020-11-09 | 2021-01-05 | 北京明略软件系统有限公司 | 话术推荐方法、装置、设备及计算机可读介质 |
CN112397057A (zh) * | 2020-12-01 | 2021-02-23 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
CN113051426A (zh) * | 2021-03-18 | 2021-06-29 | 深圳市声扬科技有限公司 | 音频信息分类方法、装置、电子设备及存储介质 |
CN113051902A (zh) * | 2021-03-30 | 2021-06-29 | 上海思必驰信息科技有限公司 | 语音数据脱敏方法、电子设备及计算机可读存储介质 |
CN113792140A (zh) * | 2021-08-12 | 2021-12-14 | 南京星云数字技术有限公司 | 文本处理方法、装置及计算机可读存储介质 |
CN114299957A (zh) * | 2021-11-29 | 2022-04-08 | 北京百度网讯科技有限公司 | 声纹分离方法、装置、电子设备以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN108831485A (zh) * | 2018-06-11 | 2018-11-16 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
CN109273012A (zh) * | 2018-09-06 | 2019-01-25 | 河海大学 | 一种基于说话人识别和数字语音识别的身份认证方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100833096B1 (ko) * | 2007-01-18 | 2008-05-29 | 한국과학기술연구원 | 사용자 인식 장치 및 그에 의한 사용자 인식 방법 |
CN102456345A (zh) * | 2010-10-19 | 2012-05-16 | 盛乐信息技术(上海)有限公司 | 拼接语音检测系统及方法 |
CN110136727B (zh) * | 2019-04-16 | 2024-04-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
-
2019
- 2019-04-16 CN CN201910305438.3A patent/CN110136727B/zh active Active
- 2019-11-13 WO PCT/CN2019/117903 patent/WO2020211354A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
CN107657947A (zh) * | 2017-09-20 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及其装置 |
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及系统 |
CN108831485A (zh) * | 2018-06-11 | 2018-11-16 | 东北师范大学 | 基于语谱图统计特征的说话人识别方法 |
CN108877809A (zh) * | 2018-06-29 | 2018-11-23 | 北京中科智加科技有限公司 | 一种说话人语音识别方法及装置 |
CN109273012A (zh) * | 2018-09-06 | 2019-01-25 | 河海大学 | 一种基于说话人识别和数字语音识别的身份认证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110136727A (zh) | 2019-08-16 |
WO2020211354A1 (zh) | 2020-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136727B (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN108074576B (zh) | 审讯场景下的说话人角色分离方法及系统 | |
US20180218738A1 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
Singh et al. | Applications of speaker recognition | |
CN112289323B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
EP0549265A2 (en) | Neural network-based speech token recognition system and method | |
CN111210829A (zh) | 语音识别方法、装置、系统、设备和计算机可读存储介质 | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN108735200A (zh) | 一种说话人自动标注方法 | |
CN113744742B (zh) | 对话场景下的角色识别方法、装置和系统 | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
Pao et al. | A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition | |
CN115424606A (zh) | 语音交互的方法、语音交互的装置和计算机可读存储介质 | |
CN111429919B (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
CN110853674A (zh) | 文本核对方法、设备以及计算机可读存储介质 | |
Sawakare et al. | Speech recognition techniques: a review | |
CN112992155B (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
JPWO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
Chootrakool et al. | LOTUS-SOC: A social media speech corpus for Thai LVCSR in noisy environments | |
US7454337B1 (en) | Method of modeling single data class from multi-class data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |