CN113255362A - 人声过滤与识别方法、装置、电子设别及存储介质 - Google Patents
人声过滤与识别方法、装置、电子设别及存储介质 Download PDFInfo
- Publication number
- CN113255362A CN113255362A CN202110544803.3A CN202110544803A CN113255362A CN 113255362 A CN113255362 A CN 113255362A CN 202110544803 A CN202110544803 A CN 202110544803A CN 113255362 A CN113255362 A CN 113255362A
- Authority
- CN
- China
- Prior art keywords
- speaker
- voice
- text recognition
- recognition result
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001914 filtration Methods 0.000 title claims abstract description 42
- 238000003058 natural language processing Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 22
- 230000003993 interaction Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000010485 coping Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种人工智能技术领域,揭露一种人声过滤与识别方法,包括:获取待检测音频流的说话人类别标签以及与所述说话人类别标签对应的文本识别结果;将所述文本识别结果及对应的语音助手的历史输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果;基于所述语义联系结果确定与所述文本识别结果对应的所述说话人类别标签中的主说话人信息;基于所述主说话人信息,过滤不属于主说话人所对应的文本识别结果,以获取所述主说话人的文本识别结果。本发明可以提高主说话人和背景人的识别精度,以及智能语音系统的抗噪性能。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种人声过滤与识别方法、装置、电子设备及计算机可读存储介质。
背景技术
在目前的智能语音自动对话系统中,语音助手面临着复杂的声学环境,导致采集到的客户端的语音经常夹杂各种各样的噪声,现有对人声噪音的处理,主要包括检测和消除两个方向。
在噪声检测识别方向,现有技术更多的停留在音频处理层面,通过分析音频中人声特征的差异区分不同的说话人,辅以信号能量,声音大小,不同说话人的说话时长等信息推断不同说话人的身份(目标客户或背景人)。但是,由于噪声场景的丰富多样性,用这样的辅助手段难以准确的预测和识别背景人声,一旦预测错误,则会导致对话系统走向错误的应对流程,严重的情况下下游任务将无法准确识别客户意图,导致对话任务准确度下降甚至失败,影响用户体验。
发明内容
本发明提供一种人声过滤与识别方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高说话人身份的识别精度,提高智能语音的抗噪性能。
为实现上述目的,本发明提供的一种人声过滤与识别方法,包括:
获取待检测音频流的说话人类别标签以及与所述说话人类别标签对应的文本识别结果;其中,所述待检测音频流基于语音助手及说话人的交互形成;
将所述文本识别结果及对应的所述语音助手的历史输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果;
基于所述语义联系结果确定与所述文本识别结果对应的所述说话人类别标签中的主说话人信息;
基于所述主说话人信息,过滤不属于主说话人的文本识别结果,以获取所述主说话人的文本识别结果。
可选地,所述获取待检测音频流的说话人类别标签的过程,包括:
从所述待检测音频流中提取帧级的说话人声纹特征向量,并在预设长度的窗口内对所述特征向量进行无监督聚类,获取聚类结果;
基于所述聚类结果及预训练的PLDA后端打分模型,对所述聚类结果分别进行打分;
基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签。
可选地,所述基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签,包括:
将所述打分的结果与预设评分阈值进行比较,当打分的结果大于所述预设评分阈值时,选择打分的结果大于所述预设评分阈值的至少两个聚类结果的标准类别合并为单一语音类别;所述单一语音类别作为第一人声;
当所述打分的结果不大于所述预设评分阈值时,根据打分的结果不大于所述预设评分阈值的至少两个聚类结果的标准类别并合并为另一单一语音类别;所述另一单一语音类别作为第二人声;其中,上述说话人类别标签包括所述第一人声和所述第二人声。
可选地,所述预设评分阈值设置有至少一组;所述说话人类别标签包括至少两种单一语音类别。
可选地,所述将所述文本识别结果及对应的语音助手的上一句输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果的过程,包括:
根据具有不同说话人标签的音频流所对应的所述文本识别结果,获取所述语音助手输出的与所述文本识别结果分别对应的历史输出文本内容;
将所述文本识别结果及对应的输出文本内容同时输入bert自然语言处理模型中,获取与所述文本识别结果分别对应的各上下文语义联系结果。
可选地,所述自然语言处理模型的预训练过程包括:
获取训练语料,基于所述训练语料,训练bert基础模型参数,直至所述bert基础模型的参数符合预设要求,形成所述bert自然语言处理模型;其中,
所述bert基础模型参数包括所述bert基础模型的层数L、隐藏尺寸H以及自注意力头数A。
为了解决上述问题,本发明还提供一种人声过滤与识别装置,所述装置包括:
文本识别结果获取单元,用于获取待检测音频流的说话人类别标签以及与所述说话人类别标签对应的文本识别结果;其中,所述待检测音频流基于语音助手及说话人的交互形成;
语义联系结果获取单元,用于将所述文本识别结果及对应的语音助手的历史输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果;
主说话人信息确定单元,用于基于所述语义联系结果确定与所述文本识别结果对应的所述说话人类别标签中的主说话人信息;
主说话人文本识别结果获取单元,用于基于所述主说话人信息,过滤不属于主说话人的文本识别结果,以获取所述主说话人的文本识别结果。
可选地,所述获取待检测音频流的说话人类别标签的过程,包括:
从所述待检测音频流中提取帧级的说话人声纹特征向量,并在预设长度的窗口内对所述特征向量进行无监督聚类,获取聚类结果;
基于所述聚类结果及预训练的PLDA后端打分模型,对所述聚类结果分别进行打分;
基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的人声过滤与识别方法中的步骤。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的人声过滤与识别方法。
本发明实施例通过获取待检测音频流的说话人类别标签以及与说话人类别标签对应的文本识别结果;将文本识别结果及对应的语音助手的历史输出文本内容,输入预训练的自然语言处理模型,获取文本识别结果与输出文本内容的语义联系结果;基于语义联系结果确定与文本识别结果对应的说话人类别标签中的主说话人信息;基于主说话人信息,过滤不属于主说话人所对应的文本识别结果,以获取主说话人的文本识别结果,能够在采用声纹特征区别不同说话人的基础上,结合预训练的自然语言处理模型,准确的确认主说话人与背景人。并且,对话系统通过准确的判断,可以从ASR的输出文本中过滤掉属于背景人声的部分,提高了智能语音系统与ASR的抗噪性能,在嘈杂的声音环境中,系统能够准确识别目标客户的意图,提高对话成功率。
附图说明
图1为本发明一实施例提供的人声过滤与识别方法的流程示意图;
图2为本发明一实施例提供的人声过滤与识别装置的模块示意图;
图3为本发明一实施例提供的实现人声过滤与识别方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种人声过滤与识别方法。参照图1所示,为本发明一实施例提供的人声过滤与识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,人声过滤与识别方法包括:获取待检测音频流的说话人类别标签以及与说话人类别标签对应的文本识别结果;其中,所述待检测音频流基于语音助手及说话人的交互形成;将文本识别结果及对应的语音助手的历史输出文本内容,输入预训练的自然语言处理模型,获取文本识别结果与输出文本内容的语义联系结果;基于语义联系结果确定与文本识别结果对应的说话人类别标签中的主说话人信息;基于主说话人信息,过滤不属于主说话人的文本识别结果,以获取主说话人的文本识别结果,仅为完成对主说话人以及非主说话人(背景人)的识别,在噪声环境复杂的情况下,识别效果也比较显著。
具体地,以下结合具体的实施例对上述各步骤进行详细阐述。
S100:获取待检测音频流的说话人类别标签以及与说话人类别标签对应的文本识别结果;其中,待检测音频流基于语音助手及说话人的交互形成。
在该步骤中,可采用ASR(Automatic Speech Recognition,自动语音识别技术)识别待检测音频流的文本识别结果。
此外,获取待检测音频流的说话人类别标签的过程包括:
S110:从所述待检测音频流中提取帧级的说话人声纹特征向量,并在预设长度的窗口内对所述特征向量进行无监督聚类,获取聚类结果;
S120:基于所述聚类结果及预训练的PLDA后端打分模型,对所述聚类结果分别进行打分;
S130:基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签。
进一步地,上述步骤S130基于打分的结果,确定与聚类结果分别对应的说话人类别标签,包括:
1、将所述打分的结果与预设评分阈值进行比较,当打分的结果大于所述预设评分阈值时,选择打分的结果大于所述预设评分阈值的至少两个聚类结果的标准类别合并为单一语音类别;所述单一语音类别作为第一人声;
2、当所述打分的结果不大于所述预设评分阈值时,根据打分的结果不大于所述预设评分阈值的至少两个聚类结果的标准类别并合并为另一单一语音类别;所述另一单一语音类别作为第二人声;;其中,上述说话人类别标签包括第一人声和第二人声。
具体地,在确定第一人声和第二人声之后,再对其他特征向量进行判断时,即对其他的聚类结果进行说话人类别标签识别时,可将其归类至第一人声和第二人声即可。该过程中,可计算其他的聚类结果与第一人声和第二人声的类别中心之间余弦距离,根据所述余弦距离,将其他的聚类结果归类至第一人声或第二人声即可。
此外,可根据具体的应用场景,将预设评分阈值设置有至少一组,对应的所述说话人类别标签包括至少两种单一语音类别,当说话人存在多人时,可据此设置多个评分阈值,并据此形成多个单一语音类别,单一语音类别的个数与说话人类别标签的个数相对应。
其中,基于打分的结果,确定与所述聚类结果对应的中心向量的过程包括:如果两类聚类结果的打分值较高,表明两类聚类结果属于同一人,则将对应的两类聚类结果进行合并,合并获取一个中心向量;否则,如果两类聚类结果的打分值较低,表明两类聚类结果属于不同人,则分别形成一个中心,对应的中心向量也具有两个。
上述LDA(Latent Dirichlet allocation,隐含狄利克雷分布),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出,从而通过分析一些文档抽取出它们的主题,然后根据主题给文本分类,它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k(这个K就是PLDA参数topic)即可。
S200:将文本识别结果及对应的语音助手的历史输出文本内容,输入预训练的自然语言处理模型,获取文本识别结果与输出文本内容的语义联系结果。
其中,该步骤进一步包括:
首先,根据具有不同说话人标签的音频流所对应的文本识别结果,获取语音助手输出的与文本识别结果分别对应的历史输出文本内容;
然后,将文本识别结果及对应的输出文本内容同时输入bert自然语言处理模型中,获取与文本识别结果分别对应的各上下文语义联系结果。
具体地,本文识别结果中可能包括多个不同说话人标签的对应内容,将多个说话人标签对应的文本识别结果和语音助手(或客服)的历史输出文本内容中的,最接近文本识别结果的一句,即上一句的输出文本内容,此处的历史输出文本也可理解为,语音助手最后一次输出的历史输出文本内容,同时输入自然语言处理模型中,能够通过该模型判断不同说话人标签对应的文本识别结果是否能够与语音助手的最后一次历史输出文本内容构成上下文语义联系,如果能就可确定该说话人为主说话人,其他的为背景人。
此外,上述自然语言处理模型的预训练过程包括:
获取训练语料,基于训练语料,训练bert基础模型参数,直至bert基础模型的参数符合预设要求,形成bert自然语言处理模型;其中,bert基础模型参数包括bert基础模型的层数L、隐藏尺寸H以及自注意力头数A。
具体地,bert基础模型的训练过程中,可以将任意一篇文章中,10%-20%的词汇进行遮盖,并通过bert基础模型根据上下文内容,全向地预测被遮盖的词。通过全向预测被遮盖住的词汇,来初步训练bert基础模型的参数。然后,进一步地对模型的参数进行训练,例如从1万篇文章中,挑选10万对语句,总共20万条语句,20万条语句中一半为连续的两条上下文语句,另一半为非连续语句,通过bert基础模型对各语句进行识别,确定其为连续或非连续语句,进而保证训练完成的自然语言处理模型能够正确地理解语句的意义,提高识别精度。
S300:基于语义联系结果确定与文本识别结果对应的说话人类别标签中的主说话人信息。
其中,根据自然语言处理模型的语义联系结果,能够显示文本相关的强弱程度,根据该强弱程度即可判断对应的文本内容是主说话人或者背景人(即需要过滤的噪声)。例如,如果文本识别结果与输出文本内容之间的语义联系较强,则表明当前文本识别结果对应的音频内容为主说话人,否则,文本识别结果与输出文本内容之间的语义联系较若,则表明当前文本识别结果对应的音频内容为背景人。
上述强弱关系之间可以通过对比获知,语义联系最强的即可确定为主说话人,也可设置一定的阈值进行判断,在应用过程中可灵活进行设置。
S400:基于主说话人信息,过滤不属于主说话人的文本识别结果,以获取主说话人的文本识别结果。
在基于上述各步骤确定主说话人信息后,可通在文本识别结果中,筛选出属于主说话人和不属于主说话人的文本识别结果,进而使得语音助手可根据和说话人对应的文本识别结果的内容,识别主说话人当前的意图,并给出对应的答复内容,提高对话的成功率及用户的体验效果。
根据上述本发明提供的人声过滤与识别方法,能够在采用声纹特征区别不同说话人的基础上,结合预训练的自然语言处理模型,准确的确认主说话人与背景人。并且,对话系统通过准确的判断,可以从ASR的输出文本中过滤掉属于背景人声的部分,提高了智能语音系统与ASR的抗噪性能,在嘈杂的声音环境中,系统能够准确识别目标客户的意图,提高对话成功率。
在本发明的另一实施例中,如图2所示,是本发明人声过滤与识别装置的功能模块图。
本发明所述人声过滤与识别装置300可以安装于电子设备中。根据实现的功能,所述人声过滤与识别装置可以包括:文本识别结果获取单元310、语义联系结果获取单元320、主说话人信息确定单元330、主说话人文本识别结果获取单元340。本发所述单元也可以称之为模块,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
文本识别结果获取单元310,用于获取待检测音频流的说话人类别标签以及与所述说话人类别标签对应的文本识别结果。
在该单元中,可采用ASR(Automatic Speech Recognition,自动语音识别技术)识别待检测音频流的文本识别结果。
此外,获取待检测音频流的说话人类别标签的过程包括:
首先,从所述待检测音频流中提取帧级的说话人声纹特征向量,并在预设长度的窗口内对所述特征向量进行无监督聚类,获取聚类结果;
其次,基于所述聚类结果及预训练的PLDA后端打分模型,对所述聚类结果分别进行打分;
最后,基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签。
进一步地,上述步骤基于打分的结果,确定与聚类结果分别对应的说话人类别标签,包括:
1、将所述打分的结果与预设评分阈值进行比较,当打分的结果大于所述预设评分阈值时,选择打分的结果大于所述预设评分阈值的至少两个聚类结果的标准类别合并为单一语音类别;所述单一语音类别作为第一人声;
2、当所述打分的结果不大于所述预设评分阈值时,根据打分的结果不大于所述预设评分阈值的至少两个聚类结果的标准类别并合并为另一单一语音类别;所述另一单一语音类别作为第二人声;其中,上述说话人类别标签包括第一人声和第二人声。
具体地,在确定第一人声和第二人声之后,再对其他特征向量进行判断时,即对其他的聚类结果进行说话人类别标签识别时,可将其归类至第一人声和第二人声即可。该过程中,可计算其他的聚类结果与第一人声和第二人声的类别中心之间余弦距离,根据所述余弦距离,将其他的聚类结果归类至第一人声或第二人声即可。
此外,可根据具体的应用场景,将预设评分阈值设置有至少一组,对应的所述说话人类别标签包括至少两种单一语音类别,当说话人存在多人时,可据此设置多个评分阈值,并据此形成多个单一语音类别,单一语音类别的个数与说话人类别标签的个数相对应。
其中,基于打分的结果,确定与所述聚类结果对应的中心向量的过程包括:如果两类聚类结果的打分值较高,表明两类聚类结果属于同一人,则将对应的两类聚类结果进行合并,合并获取一个中心向量;否则,如果两类聚类结果的打分值较低,表明两类聚类结果属于不同人,则分别形成一个中心,对应的中心向量也具有两个。
上述LDA(Latent Dirichlet allocation,隐含狄利克雷分布),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出,从而通过分析一些文档抽取出它们的主题,然后根据主题给文本分类,它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k(这个K就是PLDA参数topic)即可。
语义联系结果获取单元320,用于将所述文本识别结果及对应的语音助手的上一句输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果。
其中,该单元320进一步包括:
首先,根据具有不同说话人标签的音频流所对应的文本识别结果,获取语音助手输出的与文本识别结果分别对应的历史输出文本内容;
然后,将文本识别结果及对应的输出文本内容同时输入bert自然语言处理模型中,获取与文本识别结果分别对应的各上下文语义联系结果。
具体地,本文识别结果中可能包括多个不同说话人标签的对应内容,将多个说话人标签对应的文本识别结果和语音助手(或客服)的历史输出文本内容中的,最接近文本识别结果的一句,即上一句的输出文本内容,同时输入自然语言处理模型中,能够通过该模型判断不同说话人标签对应的文本识别结果是否能够与语音助手的最后一次历史输出文本内容构成上下文语义联系,如果能就可确定该说话人为主说话人,其他的为背景人。
此外,上述自然语言处理模型的预训练过程包括:
获取训练语料,基于训练语料,训练bert基础模型参数,直至bert基础模型的参数符合预设要求,形成bert自然语言处理模型;其中,bert基础模型参数包括bert基础模型的层数L、隐藏尺寸H以及自注意力头数A。
具体地,bert基础模型的训练过程中,可以将任意一篇文章中,10%-20%的词汇进行遮盖,并通过bert基础模型根据上下文内容,全向地预测被遮盖的词。通过全向预测被遮盖住的词汇,来初步训练bert基础模型的参数。然后,进一步地对模型的参数进行训练,例如从1万篇文章中,挑选10万对语句,总共20万条语句,20万条语句中一半为连续的两条上下文语句,另一半为非连续语句,通过bert基础模型对各语句进行识别,确定其为连续或非连续语句,进而保证训练完成的自然语言处理模型能够正确地理解语句的意义,提高识别精度。
主说话人信息确定单元330,用于基于所述语义联系结果确定与所述文本识别结果对应的所述说话人类别标签中的主说话人信息。
其中,根据自然语言处理模型的语义联系结果,能够显示文本相关的强弱程度,根据该强弱程度即可判断对应的文本内容是主说话人或者背景人(即需要过滤的噪声)。例如,如果文本识别结果与输出文本内容之间的语义联系较强,则表明当前文本识别结果对应的音频内容为主说话人,否则,文本识别结果与输出文本内容之间的语义联系较若,则表明当前文本识别结果对应的音频内容为背景人。
上述强弱关系之间可以通过对比获知,语义联系最强的即可确定为主说话人,也可设置一定的阈值进行判断,在应用过程中可灵活进行设置。
主说话人文本识别结果获取单元340,用于基于主说话人信息,过滤不属于主说话人所对应的文本识别结果,以获取所述主说话人的文本识别结果。
在基于上述各步骤确定主说话人信息后,可通在文本识别结果中,筛选出属于主说话人和不属于主说话人的对应的文本识别结果,进而使得语音助手可根据和说话人对应的文本识别结果的内容,识别主说话人当前的意图,并给出对应的答复内容,提高对话的成功率及用户的体验效果。
在本发明的另一实施例中,如图3所示,是本发明实现人声过滤与识别方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如人声过滤与识别程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如人声过滤与识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如人声过滤与识别程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的人声过滤与识别程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取待检测音频流的说话人类别标签以及与所述说话人类别标签对应的文本识别结果;其中,所述待检测音频流基于语音助手及说话人的交互形成;
将所述文本识别结果及对应的语音助手的历史输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果;
基于所述语义联系结果确定与所述文本识别结果对应的所述说话人类别标签中的主说话人信息;
基于所述主说话人信息,过滤不属于主说话人的文本识别结果,以获取所述主说话人的文本识别结果。
可选地,所述获取待检测音频流的说话人类别标签的过程,包括:
从所述待检测音频流中提取帧级的说话人声纹特征向量,并在预设长度的窗口内对所述特征向量进行无监督聚类,获取聚类结果;
基于所述聚类结果及预训练的PLDA后端打分模型,对所述聚类结果分别进行打分;
基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签。
可选地,所述基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签,包括:
将所述打分的结果与预设评分阈值进行比较,当打分的结果大于所述预设评分阈值时,选择打分的结果大于所述预设评分阈值的至少两个聚类结果的标准类别合并为单一语音类别;所述单一语音类别作为第一人声;
当所述打分的结果不大于所述预设评分阈值时,根据打分的结果不大于所述预设评分阈值的至少两个聚类结果的标准类别并合并为另一单一语音类别;所述另一单一语音类别作为第二人声;其中,上述说话人类别标签包括所述第一人声和所述第二人声。
可选地,所述预设评分阈值设置有至少一组;所述说话人类别标签包括至少两种单一语音类别。
可选地,所述将所述文本识别结果及对应的语音助手的上一句输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果的过程,包括:
根据具有不同说话人标签的音频流所对应的所述文本识别结果,获取所述语音助手输出的与所述文本识别结果分别对应的历史输出文本内容;
将所述文本识别结果及对应的输出文本内容同时输入bert自然语言处理模型中,获取与所述文本识别结果分别对应的各上下文语义联系结果。
可选地,所述自然语言处理模型的预训练过程包括:
获取训练语料,基于所述训练语料,训练bert基础模型参数,直至所述bert基础模型的参数符合预设要求,形成所述bert自然语言处理模型;其中,
所述bert基础模型参数包括所述bert基础模型的层数L、隐藏尺寸H以及自注意力头数A。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读存储介质为非易失性计算机可读存储介质,可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种人声过滤与识别方法,其特征在于,所述方法包括:
获取待检测音频流的说话人类别标签以及与所述说话人类别标签对应的文本识别结果;其中,所述待检测音频流基于语音助手及说话人的交互形成;
将所述文本识别结果及对应的所述语音助手的历史输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果;
基于所述语义联系结果确定与所述文本识别结果对应的所述说话人类别标签中的主说话人信息;
基于所述主说话人信息,过滤不属于主说话人的文本识别结果,以获取所述主说话人的文本识别结果。
2.如权利要求1所述的人声过滤与识别方法,其特征在于,所述获取待检测音频流的说话人类别标签的过程,包括:
从所述待检测音频流中提取帧级的说话人声纹特征向量,并在预设长度的窗口内对所述特征向量进行无监督聚类,获取聚类结果;
基于所述聚类结果及预训练的PLDA后端打分模型,对所述聚类结果分别进行打分;
基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签。
3.如权利要求2所述的人声过滤与识别方法,其特征在于,所述基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签,包括:
将所述打分的结果与预设评分阈值进行比较,当打分的结果大于所述预设评分阈值时,选择打分的结果大于所述预设评分阈值的至少两个聚类结果的标准类别合并为单一语音类别;所述单一语音类别作为第一人声;
当所述打分的结果不大于所述预设评分阈值时,根据打分的结果不大于所述预设评分阈值的至少两个聚类结果的标准类别并合并为另一单一语音类别;所述另一单一语音类别作为第二人声;其中,上述说话人类别标签包括所述第一人声和所述第二人声。
4.如权利要求3所述的人声过滤与识别方法,其特征在于,
所述预设评分阈值设置有至少一组;
所述说话人类别标签包括至少两种单一语音类别。
5.如权利要求1所述的人声过滤与识别方法,其特征在于,所述将所述文本识别结果及对应的语音助手的上一句输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果的过程,包括:
根据具有不同说话人标签的音频流所对应的所述文本识别结果,获取所述语音助手输出的与所述文本识别结果分别对应的历史输出文本内容;
将所述文本识别结果及对应的输出文本内容同时输入bert自然语言处理模型中,获取与所述文本识别结果分别对应的各上下文语义联系结果。
6.如权利要求1所述的人声过滤与识别方法,其特征在于,所述自然语言处理模型的预训练过程包括:
获取训练语料,基于所述训练语料,训练bert基础模型参数,直至所述bert基础模型的参数符合预设要求,形成所述bert自然语言处理模型;其中,
所述bert基础模型参数包括所述bert基础模型的层数L、隐藏尺寸H以及自注意力头数A。
7.一种人声过滤与识别装置,其特征在于,所述装置包括:
文本识别结果获取单元,用于获取待检测音频流的说话人类别标签以及与所述说话人类别标签对应的文本识别结果;其中,所述待检测音频流基于语音助手及说话人的交互形成;
语义联系结果获取单元,用于将所述文本识别结果及对应的所述语音助手的历史输出文本内容,输入预训练的自然语言处理模型,获取所述文本识别结果与所述输出文本内容的语义联系结果;
主说话人信息确定单元,用于基于所述语义联系结果确定与所述文本识别结果对应的所述说话人类别标签中的主说话人信息;
主说话人文本识别结果获取单元,用于基于所述主说话人信息,过滤不属于主说话人的文本识别结果,以获取所述主说话人的文本识别结果。
8.如权利要求7所述的人声过滤与识别装置,其特征在于,所述获取待检测音频流的说话人类别标签的过程,包括:
从所述待检测音频流中提取帧级的说话人声纹特征向量,并在预设长度的窗口内对所述特征向量进行无监督聚类,获取聚类结果;
基于所述聚类结果及预训练的PLDA后端打分模型,对所述聚类结果分别进行打分;
基于所述打分的结果,确定与所述聚类结果分别对应的说话人类别标签。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的人声过滤与识别方法中的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的人声过滤与识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110544803.3A CN113255362B (zh) | 2021-05-19 | 2021-05-19 | 人声过滤与识别方法、装置、电子设别及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110544803.3A CN113255362B (zh) | 2021-05-19 | 2021-05-19 | 人声过滤与识别方法、装置、电子设别及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255362A true CN113255362A (zh) | 2021-08-13 |
CN113255362B CN113255362B (zh) | 2024-02-02 |
Family
ID=77182849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110544803.3A Active CN113255362B (zh) | 2021-05-19 | 2021-05-19 | 人声过滤与识别方法、装置、电子设别及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255362B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114070935A (zh) * | 2022-01-12 | 2022-02-18 | 百融至信(北京)征信有限公司 | 一种智能外呼打断方法及系统 |
CN114171029A (zh) * | 2021-12-07 | 2022-03-11 | 广州虎牙科技有限公司 | 音频识别方法、装置、电子设备和可读存储介质 |
CN114400006A (zh) * | 2022-01-24 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音识别方法和装置 |
CN118447853A (zh) * | 2023-09-11 | 2024-08-06 | 上海荣耀智慧科技开发有限公司 | 音频处理方法及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1547191A (zh) * | 2003-12-12 | 2004-11-17 | 北京大学 | 结合语义和声纹信息的说话人身份确认系统 |
CN107358947A (zh) * | 2017-06-23 | 2017-11-17 | 武汉大学 | 说话人重识别方法及系统 |
CN111341318A (zh) * | 2020-01-22 | 2020-06-26 | 北京世纪好未来教育科技有限公司 | 说话者角色确定方法、装置、设备及存储介质 |
CN111754982A (zh) * | 2020-06-19 | 2020-10-09 | 平安科技(深圳)有限公司 | 语音通话的噪声消除方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-19 CN CN202110544803.3A patent/CN113255362B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1547191A (zh) * | 2003-12-12 | 2004-11-17 | 北京大学 | 结合语义和声纹信息的说话人身份确认系统 |
CN107358947A (zh) * | 2017-06-23 | 2017-11-17 | 武汉大学 | 说话人重识别方法及系统 |
CN111341318A (zh) * | 2020-01-22 | 2020-06-26 | 北京世纪好未来教育科技有限公司 | 说话者角色确定方法、装置、设备及存储介质 |
CN111754982A (zh) * | 2020-06-19 | 2020-10-09 | 平安科技(深圳)有限公司 | 语音通话的噪声消除方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
李满;李春华;: "基于近似熵的VDR人声识别技术研究", 传感器与微系统, no. 06 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114171029A (zh) * | 2021-12-07 | 2022-03-11 | 广州虎牙科技有限公司 | 音频识别方法、装置、电子设备和可读存储介质 |
CN114070935A (zh) * | 2022-01-12 | 2022-02-18 | 百融至信(北京)征信有限公司 | 一种智能外呼打断方法及系统 |
CN114400006A (zh) * | 2022-01-24 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音识别方法和装置 |
CN114400006B (zh) * | 2022-01-24 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 语音识别方法和装置 |
CN118447853A (zh) * | 2023-09-11 | 2024-08-06 | 上海荣耀智慧科技开发有限公司 | 音频处理方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113255362B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113255362B (zh) | 人声过滤与识别方法、装置、电子设别及存储介质 | |
CN105096941B (zh) | 语音识别方法以及装置 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
CN110047467B (zh) | 语音识别方法、装置、存储介质及控制终端 | |
CN111681681A (zh) | 语音情绪识别方法、装置、电子设备及存储介质 | |
CN112185348A (zh) | 多语种语音识别方法、装置及电子设备 | |
CN114007131A (zh) | 视频监控方法、装置及相关设备 | |
CN112417128B (zh) | 话术推荐方法、装置、计算机设备及存储介质 | |
CN111209363B (zh) | 语料数据处理方法、装置、服务器和存储介质 | |
CN112820324B (zh) | 多标签语音活动检测方法、装置及存储介质 | |
CN111538809A (zh) | 一种语音服务质量检测方法、模型训练方法及装置 | |
CN113064994A (zh) | 会议质量评估方法、装置、设备及存储介质 | |
CN113807103A (zh) | 基于人工智能的招聘方法、装置、设备及存储介质 | |
CN115186094A (zh) | 多意图分类的模型训练方法、装置、电子设备及存储介质 | |
CN113591489A (zh) | 语音交互方法、装置及相关设备 | |
CN111901627A (zh) | 视频处理方法、装置、存储介质及电子设备 | |
CN114662484A (zh) | 语义识别方法、装置、电子设备及可读存储介质 | |
CN110503943A (zh) | 一种语音交互方法以及语音交互系统 | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
CN117809655A (zh) | 音频处理方法、装置、设备及存储介质 | |
CN115063155B (zh) | 一种数据标注方法、装置、计算机设备及存储介质 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN114401346A (zh) | 基于人工智能的应答方法、装置、设备及介质 | |
CN112241467A (zh) | 一种音频查重的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |