CN108847245A - 语音检测方法和装置 - Google Patents

语音检测方法和装置 Download PDF

Info

Publication number
CN108847245A
CN108847245A CN201810883930.4A CN201810883930A CN108847245A CN 108847245 A CN108847245 A CN 108847245A CN 201810883930 A CN201810883930 A CN 201810883930A CN 108847245 A CN108847245 A CN 108847245A
Authority
CN
China
Prior art keywords
tested speech
speech
probability
speaker
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810883930.4A
Other languages
English (en)
Other versions
CN108847245B (zh
Inventor
邵志明
曹琼
宋琼
郝玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haitian Rui Sheng Polytron Technologies Inc
Original Assignee
Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haitian Rui Sheng Polytron Technologies Inc filed Critical Beijing Haitian Rui Sheng Polytron Technologies Inc
Priority to CN201810883930.4A priority Critical patent/CN108847245B/zh
Publication of CN108847245A publication Critical patent/CN108847245A/zh
Application granted granted Critical
Publication of CN108847245B publication Critical patent/CN108847245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明实施例提供一种语音检测方法和装置,该方法包括:采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,第一说话模型用于检测测试语音为第一说话人所说的语音的概率,第一说话人为第一测试语音对应的说话人,再根据语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与第一测试语音为同一个说话人所说的第二测试语音,第二测试语音为第一概率最高的测试语音。本实施例提供的方法检出了语音数据库中同一人的所有语音,提高了效率和准确度。

Description

语音检测方法和装置
技术领域
本发明实施例涉及语音检测领域,尤其涉及一种语音检测方法和装置。
背景技术
随着语音识别技术的发展,语音数据库也逐渐建立起来,为了尽量覆盖到某一语言所有说话人的声学特性,需要录制大量的说话人的数据,通常一个数据库可能包含上千个说话的人,导致语音数据库中包括某些人重复语音的问题。
目前对于相同人的语音检测,采用人工抽检的方式,比如,1000个人的数据库,随机抽取100个人的数据,由人工逐个听辨,检查者100个人的数据中是否存在重复说话人。
然而,抽检只能在样本上得到重复说话人的比例,无法排除所有的重复说话人,并且抽取一定比例的数据进行人工听辨,耗时耗力、准确度不高。
发明内容
本发明实施例提供一种语音检测方法,以解决在抽检样本上进行人工听音,造成耗时耗力、准确度不高的问题。
第一方面,本发明实施例提供一种语音检测方法,包括:
采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,所述第一说话模型用于检测测试语音为第一说话人所说的语音的概率,所述第一说话人为所述第一测试语音对应的说话人;
根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,所述第二测试语音为第一概率最高的测试语音。
可选的,所述采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的任一测试语音的打分之前,所述方法还包括:
根据第一说话人所述的多个语音,建立所述第一说话模型。
可选的,所述确定所述第一说话人和第二测试语音对应的第二说话人为同一个人之前,所述方法还包括:
将所述第一测试语音输入预先获取的第二说话模型,获取所述第一测试语音的第二概率,所述第二说话模型用于检测测试语音为第二说话人所说的语音的概率,所述第二说话人为所述第二测试语音对应的说话人。
可选的,所述根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,包括:
根据所述第一说话人模型检测所述第二测试语音的第一概率和所述第二说话模型检测所述第一测试语音的第二概率,获取所述第一说话人和所述第二说话人为同一说话人的第三概率;
若所述第三概率大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
可选的,所述第三概率为所述第一概率和所述第二概率的平均值。
可选的,所述语音数据库中包括所述第一说话人对应的多个测试语音和所述第二说话人对应的多个测试语音;则所述根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,所述第二测试语音为第一概率最高的测试语音,包括:
获取所述第二说话人对应的多个测试语音中,被检测出说话人与所述第一测试语音为同一人的测试语音的第四概率;
获取所述第一说话人对应的多个测试语音中,被检测出说话人与所述第二测试语音为同一人的测试语音的第五概率;
根据所述第四概率和所述第五概率,获取所述第一说话人和所述第二说话人为同一说话人的第六概率;
若所述第六概率大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
可选的,所述第六概率为所述第四概率和所述第五概率的平均值。
第二方面,本发明实施例提供一种语音检测装置,包括:
获取模块,用于采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,所述第一说话模型用于检测测试语音为第一说话人所说的语音的概率,所述第一说话人为所述第一测试语音对应的说话人;
处理模块,用于根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,所述第二测试语音为第一概率最高的测试语音。
可选的,所述处理模块还用于根据第一说话人所述的多个语音,建立所述第一说话模型。
可选的,所述获取模块还用于将所述第一测试语音输入预先获取的第二说话模型,获取所述第一测试语音的第二概率,所述第二说话模型用于检测测试语音为第二说话人所说的语音的概率,所述第二说话人为所述第二测试语音对应的说话人。
可选的,所述获取模块具体用于根据所述第一说话人模型检测所述第二测试语音的第一概率和所述第二说话模型检测所述第一测试语音的第二概率,获取所述第一说话人和所述第二说话人为同一说话人的第三概率;
所述处理模块具体用于若所述第三概率大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
可选的,所述处理模块具体用于若所述第一概率和第二概率的平均值大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
可选的,所述获取模块具体用于获取所述第二说话人对应的多个测试语音中,被检测出说话人与所述第一测试语音为同一人的测试语音的第四概率;
获取所述第一说话人对应的多个测试语音中,被检测出说话人与所述第二测试语音为同一人的测试语音的第五概率;
根据所述第四概率和所述第五概率,获取所述第一说话人和所述第二说话人为同一说话人的第六概率;
所述处理模块具体用于若所述第六概率大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
可选的,所述处理模块具体用于若所述第四概率和第五概率的平均值大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
第三方面,本发明实施例提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的语音检测方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的语音检测方法。
本实施例提供的语音检测方法和装置,该方法通过采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,第一说话模型用于检测测试语音为第一说话人所说的语音的概率,第一说话人为第一测试语音对应的说话人;再根据语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与第一测试语音为同一个说话人所说的第二测试语音,第二测试语音为第一概率最高的测试语音,检出了语音数据库中同一人的所有语音,提高了效率和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音检测方法的流程示意图一;
图2为本发明实施例提供的语音检测方法的流程示意图二;
图3为本发明实施例提供的语音检测方法的流程示意图三;
图4为本发明实施例提供的语音检测装置的结构示意图一;
图5为本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于语音数据库中为了尽量覆盖到某一语言所有说话人的声学特性,经常需要录制大量的说话人数据,通常一个数据库可能包含上千个说话的人,导致语音数据库中包括某些人重复语音的问题。如果数据库中包含重复说话人,说话人总数达不到标准,最终训练模型不能充分覆盖该语音的声学特性,并且由于某些人数据量过大,导致最终模型效果不佳,因此,在数据库提交之前,需要对数据库进行相同说话人语音检查。
目前采用人工抽检的方式,比如,1000个人的数据库,随机抽取100个人的数据,由人工逐个听辨,检查者100个人的数据中是否存在重复说话人。然而,抽检只能在样本上得到重复说话人的比例,无法排除所有的重复说话人,并且抽取一定比例的数据进行人工听辨,耗时耗力、准确度不高。本实施例提供一种语音检测方法,检出了语音数据库中同一人的所有语音,提高了效率和准确度。。下面采用详细的实施例进行详细说明。
图1为本发明实施例提供的语音检测方法的流程示意图一,本实施例的执行主体可以为个人电脑、平板、手机等终端,本实施例此处不做特别限制。如图1所示,该方法包括:
S101、采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率。
可选的,在本步骤之前,该方法还包括根据第一说话人所述的多个语音,建立第一说话模型。其中,第一说话模型的建立可以参考现有技术的实现过程,假设一个语音数据库包含N个说话人,每个说话人包含2*M句语音,可以随机选取每个说话人一半数量的语音数据作为训练数据,即训练模型的数据,得到每个人的说话模型,该模型的输入可以为第一说话人所述的多个语音中的每个语音,输出为概率,其中,这里的概率表示该语音为该模型对应的说话人的相似度,越高可以表示越相似,理论上,当输入为第一说话人所述的语音时,输出的概率应该为1。
需要说明的是,本方案中的语音数据库中已知样本中同一人的多句语音,这些语音可以是由人工检查出来的,但由于只是选取一定的比例进行人工抽检,因此只能在样本上得到同一人的语音,本方案的目的在于在整个语音数据库上选取同一人的所有语音。
在本步骤中,第一说话模型用于检测测试语音为第一说话人所说的语音的概率,第一说话人为第一测试语音对应的说话人。将语音数据库中除第一测试语音的每一个测试语音作为第一说话模型的输入,得到对除第一测试语音的每一个测试语音的第一概率,该第一概率表示测试语音为第一说话人所说的语音的相似度,越接近于1可以表示该测试语音越有可能为第一说话人所说的语音。
S102、根据语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与第一测试语音为同一个说话人所说的第二测试语音。
在本步骤中,将语音数据库中除第一测试语音的每一个测试语音输入到第一说话模型后,得到对除第一测试语音的每一个测试语音的第一概率,根据第一概率最高的语音,从而确定与第一测试语音为同一个说话人所说的第二测试语音,其中,第二测试语音为第一概率最高的测试语音。
本实施例提供的语音检测方法,通过采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,第一说话模型用于检测测试语音为第一说话人所说的语音的概率,第一说话人为第一测试语音对应的说话人;再根据语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与第一测试语音为同一个说话人所说的第二测试语音,第二测试语音为第一概率最高的测试语音,检出了语音数据库中同一人的所有语音,提高了效率和准确度。
图2为本发明实施例提供的语音检测方法的流程示意图二,在该方案的另一种实现方式中,具体包括以下几个步骤:
S201、采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率。
步骤S201和图1实施例中的S101的实现过程类似,在此不再赘述。
S202、将第一测试语音输入预先获取的第二说话模型,获取第一测试语音的第二概率。
其中,第二说话模型可以参考第一说话模型的具体实现过程,在此不再赘述。
可选的,根据上述步骤S201中对语音数据库中除第一测试语音的每一个测试语音的第一概率,获取第一概率最高的第二测试语音,然后将第一测试语音作为第二说话模型的输入,获取第一测试语音的第二概率,其中,第二说话模型用于检测测试语音为第二说话人所说的语音的概率,第二说话人为第二测试语音对应的说话人。
S203、根据语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与第一测试语音为同一个说话人所说的第二测试语音。
在一种实现方式中,根据第一说话模型检测第二测试语音的第一概率和第二说话模型检测第一测试语音的第二概率,获取第一说话人和第二说话人为同一说话人的第三概率,以便进一步提高确认第一测试语音和第二测试语音为同一人所说,可选的,第三概率可以为第一概率和第二概率的平均值,若第三概率大于预设概率门限,则确定第一测试语音和第二测试语音为同一说话人所说,即确定了与第一测试语音为同一个说话人所说的第二测试语音,若第三概率不大于预设概率门限,则判断第一测试语音和第二测试语音并非同一说话人所说。
本实施例提供的语音检测方法,通过采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,再将第一测试语音输入预先获取的第二说话模型,获取第一测试语音的第二概率,根据语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与第一测试语音为同一个说话人所说的第二测试语音,检出了语音数据库中同一人的所有语音,提高了效率和准确度。
图3为本发明实施例提供的语音检测方法的流程示意图三,如图3所示,图1实施例中的S102具体包括以下几个步骤:
S301、获取第二说话人对应的多个测试语音中,被检测出说话人与第一测试语音为同一人的测试语音的第四概率。
其中,语音数据库中包括多个人对应的多个测试语音,第一测试语音对应的说话人为第一说话人。
首先,将第二说话人的一个测试语音输入到除了第二说话模型外的每个说话模型中,输出为多个概率值,可以获取最高的概率对应的第一说话模型,即该语音识别为第一说话模型,也就是该语音为第一说话人所说。
同理,将第二说话人剩余的多个测试语音分别输入除了第二说话模型外的每个说话模型中,判断该多个测试语音是否在输入到第一说话模型时对应的概率最高,具体地,例如第二说话人对应M个测试语音,将第一个测试语音S1输入到除了第二说话模型外的每个说话模型中,获取最高的概率对应的第一说话模型,再将M-1个测试语音分别输入到除了第二说话模型外的每个说话模型中,若M-1个测试语音都在输入到第一说话模型对应的概率最高,则说明第二说话人和第一说话人为同一人,即第四概率为1。
若第二说话人的测试语音中有k个语音被识别为第一说话模型,则第二说话人对应的多个测试语音中,被检测出说话人与第一测试语音为同一人的测试语音的第四概率为k/M。
S302、获取第一说话人对应的多个测试语音中,被检测出说话人与第二测试语音为同一人的测试语音的第五概率。
步骤S302和步骤S301的实现过程类似,在此不再赘述。
S303、根据第四概率和第五概率,获取第一说话人和第二说话人为同一说话人的第六概率。
可选的,第六概率可以为第四概率和第五概率的平均值。
S304、若第六概率大于预设概率门限,则确定第一测试语音和第二测试语音为同一说话人所说。
在本步骤中,若第六概率大于预设概率门限,则确定第一测试语音和第二测试语音为同一说话人所说,即确定了与第一测试语音为同一个说话人所说的第二测试语音,若第六概率不大于预设概率门限,则判断第一测试语音和第二测试语音并非同一说话人所说。
本实施例提供的语音检测方法,通过获取第二说话人对应的多个测试语音中,被检测出说话人与第一测试语音为同一人的测试语音的第四概率,获取第一说话人对应的多个测试语音中,被检测出说话人与第二测试语音为同一人的测试语音的第五概率,根据第四概率和第五概率,获取第一说话人和第二说话人为同一说话人的第六概率,若第六概率大于预设概率门限,则确定第一测试语音和第二测试语音为同一说话人所说,检出了语音数据库中同一人的所有语音,提高了效率和准确度。
图4为本发明实施例提供的语音检测装置的结构示意图一,如图4所示,该语音检测装置40包括:获取模块401、处理模块402。
获取模块401,用于采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,所述第一说话模型用于检测测试语音为第一说话人所说的语音的概率,所述第一说话人为所述第一测试语音对应的说话人;
处理模块402,用于根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,所述第二测试语音为第一概率最高的测试语音。
可选的,所述处理模块402还用于根据第一说话人所述的多个语音,建立所述第一说话模型。
可选的,所述获取模块401还用于将所述第一测试语音输入预先获取的第二说话模型,获取所述第一测试语音的第二概率,所述第二说话模型用于检测测试语音为第二说话人所说的语音的概率,所述第二说话人为所述第二测试语音对应的说话人。
可选的,所述获取模块401具体用于根据所述第一说话人模型检测所述第二测试语音的第一概率和所述第二说话模型检测所述第一测试语音的第二概率,获取所述第一说话人和所述第二说话人为同一说话人的第三概率;
所述处理模块402具体用于若所述第三概率大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
可选的,所述处理模块402具体用于若所述第一概率和第二概率的平均值大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
可选的,所述获取模块401具体用于获取所述第二说话人对应的多个测试语音中,被检测出说话人与所述第一测试语音为同一人的测试语音的第四概率;
获取所述第一说话人对应的多个测试语音中,被检测出说话人与所述第二测试语音为同一人的测试语音的第五概率;
根据所述第四概率和所述第五概率,获取所述第一说话人和所述第二说话人为同一说话人的第六概率;
所述处理模块402具体用于若所述第六概率大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
可选的,所述处理模块402具体用于若所述第四概率和第五概率的平均值大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
本实施例提供的设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
图5为本发明实施例提供的电子设备的硬件结构示意图,如图5所示,本实施例的电子设备50包括:处理器501以及存储器502;其中
存储器502,用于存储计算机执行指令;
处理器501,用于执行存储器存储的计算机执行指令,以实现上述实施例中接收设备所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。
当存储器502独立设置时,该语音交互设备还包括总线503,用于连接所述存储器502和处理器501。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的语音检测方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种语音检测方法,其特征在于,包括:
采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,所述第一说话模型用于检测测试语音为第一说话人所说的语音的概率,所述第一说话人为所述第一测试语音对应的说话人;
根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,所述第二测试语音为第一概率最高的测试语音。
2.根据权利要求1所述的方法,其特征在于,所述采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率之前,所述方法还包括:
根据第一说话人所述的多个语音,建立所述第一说话模型。
3.根据权利要求1所述的方法,其特征在于,所述根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音之前,所述方法还包括:
将所述第一测试语音输入预先获取的第二说话模型,获取所述第一测试语音的第二概率,所述第二说话模型用于检测测试语音为第二说话人所说的语音的概率,所述第二说话人为所述第二测试语音对应的说话人。
4.根据权利要求3所述的方法,其特征在于,所述根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,包括:
根据所述第一说话模型检测所述第二测试语音的第一概率和所述第二说话模型检测所述第一测试语音的第二概率,获取所述第一说话人和所述第二说话人为同一说话人的第三概率;
若所述第三概率大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
5.根据权利要求4所述的方法,其特征在于,所述第三概率为所述第一概率和所述第二概率的平均值。
6.根据权利要求1所述的方法,其特征在于,所述语音数据库中包括多个人对应的多个测试语音;则所述根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,所述第二测试语音为第一概率最高的测试语音,包括:
获取所述第二说话人对应的多个测试语音中,被检测出说话人与所述第一测试语音为同一人的测试语音的第四概率;
获取所述第一说话人对应的多个测试语音中,被检测出说话人与所述第二测试语音为同一人的测试语音的第五概率;
根据所述第四概率和所述第五概率,获取所述第一说话人和所述第二说话人为同一说话人的第六概率;
若所述第六概率大于预设概率门限,则确定所述第一测试语音和所述第二测试语音为同一说话人所说。
7.根据权利要求6所述的方法,其特征在于,所述第六概率为所述第四概率和所述第五概率的平均值。
8.一种语音检测装置,其特征在于,包括:
获取模块,用于采用预先获取的第一说话模型,获取对语音数据库中除第一测试语音的每一个测试语音的第一概率,所述第一说话模型用于检测测试语音为第一说话人所说的语音的概率,所述第一说话人为所述第一测试语音对应的说话人;
处理模块,用于根据所述语音数据库中除第一测试语音的每一个测试语音的第一概率,确定与所述第一测试语音为同一个说话人所说的第二测试语音,所述第二测试语音为第一概率最高的测试语音。
9.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至8任一项所述的语音检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至8任一项所述的语音检测方法。
CN201810883930.4A 2018-08-06 2018-08-06 语音检测方法和装置 Active CN108847245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810883930.4A CN108847245B (zh) 2018-08-06 2018-08-06 语音检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810883930.4A CN108847245B (zh) 2018-08-06 2018-08-06 语音检测方法和装置

Publications (2)

Publication Number Publication Date
CN108847245A true CN108847245A (zh) 2018-11-20
CN108847245B CN108847245B (zh) 2020-06-23

Family

ID=64192523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810883930.4A Active CN108847245B (zh) 2018-08-06 2018-08-06 语音检测方法和装置

Country Status (1)

Country Link
CN (1) CN108847245B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810311A (zh) * 2011-06-01 2012-12-05 株式会社理光 说话人估计方法和说话人估计设备
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
CN104538036A (zh) * 2015-01-20 2015-04-22 浙江大学 一种基于语义细胞混合模型的说话人识别方法
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN106898354A (zh) * 2017-03-03 2017-06-27 清华大学 基于dnn模型和支持向量机模型的说话人个数估计方法
CN107393527A (zh) * 2017-07-17 2017-11-24 广东讯飞启明科技发展有限公司 说话人数目的判断方法
CN107545898A (zh) * 2017-08-07 2018-01-05 清华大学 一种区分说话人语音的处理方法及装置
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
WO2018036610A1 (en) * 2016-08-22 2018-03-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems, apparatuses, and methods for speaker verification using artificial neural networks
CN108269573A (zh) * 2017-01-03 2018-07-10 蓝盾信息安全技术有限公司 基于矢量量化和高斯混合模型的说话人识别系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102810311A (zh) * 2011-06-01 2012-12-05 株式会社理光 说话人估计方法和说话人估计设备
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
CN104538036A (zh) * 2015-01-20 2015-04-22 浙江大学 一种基于语义细胞混合模型的说话人识别方法
WO2018036610A1 (en) * 2016-08-22 2018-03-01 Telefonaktiebolaget Lm Ericsson (Publ) Systems, apparatuses, and methods for speaker verification using artificial neural networks
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN108269573A (zh) * 2017-01-03 2018-07-10 蓝盾信息安全技术有限公司 基于矢量量化和高斯混合模型的说话人识别系统
CN106898354A (zh) * 2017-03-03 2017-06-27 清华大学 基于dnn模型和支持向量机模型的说话人个数估计方法
CN106683680A (zh) * 2017-03-10 2017-05-17 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN107393527A (zh) * 2017-07-17 2017-11-24 广东讯飞启明科技发展有限公司 说话人数目的判断方法
CN107545898A (zh) * 2017-08-07 2018-01-05 清华大学 一种区分说话人语音的处理方法及装置

Also Published As

Publication number Publication date
CN108847245B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN108962282B (zh) 语音检测分析方法、装置、计算机设备及存储介质
CN108428447B (zh) 一种语音意图识别方法及装置
CN107910014B (zh) 回声消除的测试方法、装置及测试设备
KR101702829B1 (ko) 인공 신경망 기반 서브-음성 유닛 구별을 이용한 화자 검증 및 식별
US9711167B2 (en) System and method for real-time speaker segmentation of audio interactions
CN110189748B (zh) 模型构建方法和装置
EP2922051A1 (en) Method, device, and system for classifying audio conference minutes
US8682678B2 (en) Automatic realtime speech impairment correction
CN111868823B (zh) 一种声源分离方法、装置及设备
CN111916109B (zh) 一种基于特征的音频分类方法、装置及计算设备
US20200020340A1 (en) Method and system for muting classified information from an audio
CN114842849B (zh) 语音对话检测方法及装置
CN112992147A (zh) 语音处理方法、装置、计算机设备和存储介质
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
CN110556098B (zh) 语音识别结果测试方法、装置、计算机设备和介质
CN113256262A (zh) 会议纪要的自动生成方法、系统、存储介质及电子设备
WO2023000444A1 (zh) 扬声器的杂音检测方法、装置、电子设备和存储介质
CN109817223A (zh) 基于音频指纹的音素标记方法及装置
CN112069832A (zh) 语音通话的质检方法、质检装置和计算机可读存储介质
CN104167206A (zh) 声学模型合并方法和设备以及语音识别方法和系统
CN110335628B (zh) 智能设备的语音测试方法、装置及电子设备
KR20220040813A (ko) 인공지능 음성의 컴퓨팅 탐지 장치
CN108847245A (zh) 语音检测方法和装置
CN116886225A (zh) 应急广播终端工作状态的判定方法、装置、设备和介质
CN105574038B (zh) 基于反识别渲染的文本内容识别率测试方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant