CN109065026A - 一种录音控制方法及装置 - Google Patents

一种录音控制方法及装置 Download PDF

Info

Publication number
CN109065026A
CN109065026A CN201811076604.9A CN201811076604A CN109065026A CN 109065026 A CN109065026 A CN 109065026A CN 201811076604 A CN201811076604 A CN 201811076604A CN 109065026 A CN109065026 A CN 109065026A
Authority
CN
China
Prior art keywords
target speaker
speaker model
voice data
characteristic value
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811076604.9A
Other languages
English (en)
Other versions
CN109065026B (zh
Inventor
任晓楠
崔保磊
陈中帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201811076604.9A priority Critical patent/CN109065026B/zh
Publication of CN109065026A publication Critical patent/CN109065026A/zh
Application granted granted Critical
Publication of CN109065026B publication Critical patent/CN109065026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请提供一种录音控制方法及装置,该方法包括:当检测到目标说话人的特定语音数据时,控制拾音设备开始录音;按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据;对采样数据进行特征提取,得到特征值;将特征值输入已训练的目标说话人模型,得到目标说话人模型的输出结果;若根据输出结果确定采样数据与目标说话人不匹配,则控制拾音设备停止录音。应用该方法,可以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。

Description

一种录音控制方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种录音控制方法及装置。
背景技术
VAD(Voice Activity Detection,语音活动检测)检测算法是一种语音端点检测技术,应用该技术可从带有噪声的语音中准确地定位出语音的起始点和结束点。基于此,在涉及到录音的应用场景中,可应用该技术实现自动控制拾音设备,例如麦克风、可穿戴设备、智能电视、智能音箱等在目标说话人讲话时进行录音。
然而,在实际应用中,不可避免地会出现目标说话人已停止讲话,但周围突然有其他人开始讲话的情形,在此类情形下,应用语音端点检测技术将无法检测到语音的结束点,这也就导致拾音设备在目标说话人已停止讲话后仍在继续录音,从而导致拾音设备录入了非期望的语音,进一步影响后续基于录制的语音进行语音识别结果的准确性,影响用户体验。
发明内容
有鉴于此,本申请提供一种录音控制方法及装置,以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。
具体地,本申请是通过如下技术方案实现的:
根据本说明书实施例的第一方面,提供一种录音控制方法,所述方法包括:
基于目标说话人的特定语音数据控制拾音设备开始录音;
按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;
对所述采样数据进行特征提取,得到所述采样数据的特征值;
将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;
若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。
可选的,所述方法还包括:
获取至少一条历史语音数据;
对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一所述类中包括至少一条历史语音数据;
针对任一所述类执行以下步骤:分别对所述类中的每一条历史语音数据进行特征提取,获得所述类对应的训练样本,其中,所述训练样本以提取到的特征值为输入值;
利用所述训练样本进行训练,得到所述类对应的说话人模型,其中,所述说话人模型以语音数据的特征值为输入值,以所述语音数据与所述类对应的说话人的匹配程度为输出值。
可选的,所述将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,包括:
确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型;
若存在,则将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果。
可选的,所述确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型,包括:
对所述特定语音数据进行特征提取,得到所述特定语音数据的特征值;
针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对所述说话人模型与所述特定语音数据的特征值进行运算;
若存在运算结果大于预设的匹配阈值的说话人模型,则在所述运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;
若不存在运算结果大于预设的匹配阈值的说话人模型,则确定不存在所述目标说话人对应的目标说话人模型。
可选的,所述方法还包括:
若已训练的至少一个说话人模型中,不存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到所述采样数据与所述前一个采样数据的相关性系数;
若所述相关性系数小于预设的相关性阈值,则控制所述拾音设备停止录音。
可选的,所述方法还包括:
若根据所述输出结果确定所述采样数据与所述目标说话人匹配,则返回执行所述按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据的步骤。
根据本说明书实施例的第二方面,提供一种录音控制装置,所述装置包括:
第一控制模块,用于基于目标说话人的特定语音数据控制拾音设备开始录音;
采样模块,用于按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;
第一提取模块,用于对所述采样数据进行特征提取,得到所述采样数据的特征值;
模型输入模块,用于将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;
第二控制模块,用于若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。
可选的,所述装置还包括:
样本获取模块,用于获取至少一条历史语音数据;
聚类模块,用于对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一所述类中包括至少一条历史语音数据;
第二提取模块,用于针对任一所述类执行以下步骤:分别对所述类中的每一条历史语音数据进行特征提取,获得所述类对应的训练样本,其中,所述训练样本以提取到的特征值为输入值;
训练模块,用于利用所述训练样本进行训练,得到所述类对应的说话人模型,其中,所述说话人模型以语音数据的特征值为输入值,以所述语音数据与所述类对应的说话人的匹配程度为输出值。
可选的,所述模型输入模块包括:
第一确定子模块,用于确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型;
输入子模块,用于若存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果。
可选的,所述第一确定子模块包括:
特征提取子模块,用于对所述特定语音数据进行特征提取,得到所述特定语音数据的特征值;
运算子模块,用于针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对所述说话人模型与所述特定语音数据的特征值进行运算;
第二确定子模块,用于若存在运算结果大于预设的匹配阈值的说话人模型,则在所述运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;
第三确定子模块,用于若不存在运算结果大于预设的匹配阈值的说话人模型,则确定不存在所述目标说话人对应的目标说话人模型。
可选的,所述装置还包括:
相关性计算模块,用于若已训练的至少一个说话人模型中,不存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到所述采样数据与所述前一个采样数据的相关性系数;
第三控制模块,用于若所述相关性系数小于预设的相关性阈值,则控制所述拾音设备停止录音。
可选的,所述装置还包括:
第四控制模块,用于若根据所述输出结果确定所述采样数据与所述目标说话人匹配,则返回执行所述按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据的步骤。
由上述实施例可见,基于标说话人的特定语音数据控制拾音设备开始录音;按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据;对采样数据进行特征提取,得到采样数据的特征值;将采样数据的特征值输入已训练的目标说话人模型,得到目标说话人模型的输出结果;若根据输出结果确定采样数据与目标说话人不匹配,则控制拾音设备停止录音,可以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。
附图说明
图1为本说明书一示例性实施例提供的一种用于实现录音控制方法的应用场景示意图;
图2为本说明书一示例性实施例提供的一种录音控制方法的实施例流程图;
图3为本说明书一示例性实施例提供的另一种录音控制方法的实施例流程图;
图4为本说明书一示例性实施例提供的再一种录音控制方法的实施例流程图;
图5为本说明书一示例性实施例提供的又一种录音控制方法的实施例流程图;
图6为本申请录音控制装置所在拾音设备的一种硬件结构图;
图7为本说明书一示例性实施例提供的一种录音控制装置的实施例框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
请参见图1,为本说明书一示例性实施例提供的一种用于实现录音控制方法的应用场景示意图,该图1中包括说话人110、说话人120、说话人130,以及拾音设备140,其中,本领域技术人员可以理解的是,拾音设备140仅以麦克风为例,在实际应用中,拾音设备140还可以为可穿戴设备、智能电视、智能音箱等可以录音的设备,本说明书实施例对此并不作限制。
在图1所示例的应用场景中,假设说话人110为目标说话人,也即意图利用拾音设备140录制说话人110的讲话语音。现有技术中的录制过程如下:目标说话人110使用激活词,例如“开始录音”、“准备好了”等词句唤醒拾音设备140,例如,唤醒拾音设备140内置的“语音助手”应用程序(图1中并未示出),拾音设备140被唤醒之后,则可以开始录音,并利用VAD检测算法确定语音起始点,之后,在整个录音过程中,拾音设备140可利用VAD检测算法持续检测语音结束点,当检测到语音结束点时,也就意味着目标说话人110已停止讲话,那么此时,则可以控制拾音设备140停止录音。
然而,在实际应用中,不可避免地会出现目标说话人110已停止讲话,但其周围有其他人,例如说话人120与说话人130开始讲话的情形,在此类情形下,拾音设备140利用VAD检测算法将无法检测到语音结束点,从而也就无法实现当目标说话人110已停止讲话后,及时控制拾音设备140停止录音。由此可见,在此类情形下,将导致拾音设备140录入了非期望的语音,即除目标说话人110讲话语音以外的其他语音,后续,也就将影响基于拾音设备140录制的语音进行语音识别的准确性,从而影响用户体验。
为了解决上述问题,本申请提供一种录音控制方法,在图1所示例的应用场景中,应用该方法,可以尽可能地实现拾音设备140所录制的语音仅包括目标说话人110的讲话语音,从而有效保障后续基于拾音设备140录制的语音进行语音识别的准确性,提升用户体验。如下,示出下述实施例对本申请提供的录音控制方法进行详细说明:
实施例一:
请参见图2,为本说明书一示例性实施例提供的一种录音控制方法的实施例流程图,该方法可应用于图1所示例的应用场景,包括以下步骤:
步骤201:基于目标说话人的特定语音数据控制拾音设备开始录音。
结合上述针对图1所示应用场景的相关描述,在本说明书实施例中,为了描述方便,将上述激活词称为特定语音数据。
步骤202:按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据。
在本说明书实施例中,拾音设备140开始录音后,首先利用VAD检测算法确定语音起始点,待确定语音起始点之后,可以按照预设的采样规则,对拾音设备140录制的语音数据进行采样,得到采样数据。
在一实施例中,上述预设的采样规则可以为:按照预设的采样周期,获取预设帧数的语音数据作为采样数据,例如,每隔16帧,即获取4帧语音数据作为采样数据,也即采样数据是周期性获取的。
步骤203:对采样数据进行特征提取,得到采样数据的特征值。
步骤204:将采样数据的特征值输入已训练的目标说话人模型,得到目标说话人模型的输出结果,其中,已训练的目标说话人模型以语音数据的特征值为输入值,以语音数据与目标说话人的匹配程度为输出值。
如下,对步骤203与步骤204进行说明:
首先说明,由步骤202中的描述可知,本说明书实施例中是可以周期性获取采样数据的,而步骤203与步骤204中所说的采样数据可以指当前获取到的最新的采样数据(后续简称当前采样数据),基于此,在本说明书实施例中,则可以每获取到一次采样数据后,均针对当前采样数据执行一次步骤203与步骤204。
在步骤203中,对当前采样数据进行特征提取,得到当前采样数据的特征值,这里所说的特征值可以是多维的,即可以包括多个特征参数,例如包括当前采样数据的LPCC(Linear Prediction Cepsrtum Coefficient,线性预测倒谱系数)、MFCC(Mel FrequencyCepstral Coefficients,梅尔频率倒谱系数)、Delta特征等特征参数;后续,进一步利用PCA(Principal Components Analysis,主成分分析)算法对该多维的特征值进行降维,将降维后的特征值作为最终得到的当前采样数据的特征值。
通过该种处理,既可以保证后续基于当前采样数据的特征值进行说话人识别的识别准确率,又可以降低识别过程的复杂度。
在步骤204中,可以将步骤203中提取到的当前采样数据的特征值输入已训练的目标说话人模型,得到目标说话人模型的输出结果,其中,该目标说话人模型以语音数据的特征值为输入值,以语音数据与目标说话人的匹配程度为输出值,那么,该输出结果即可表示当前采样数据与目标说话人的匹配程度。
在一实施例中,匹配程度可以以数值形式表示,例如,匹配程度为介于0~10之间的自然数,数值越大,表示匹配程度越高,反之,数值越小,表示匹配程度越低。
本领域技术人员可以理解的是,该目标说话人模型可以是预先训练得出的,至于具体是如何训练出目标说话人模型的,可以参见下述实施例二中的详细描述,在此先不作详述。
步骤205:若根据输出结果确定采样数据与目标说话人不匹配,则控制拾音设备停止录音。
在本说明书实施例中,可以将步骤204中得到的输出结果与预设的得分阈值进行比较,若比较得出输出结果大于该得分阈值,则可认为当前采样数据与目标说话人110匹配,也即当前采样数据仍为针对目标说话人110的讲话语音录制的语音数据;反之,若比较得出输出结果不大于该得分阈值,则可认为当前采样数据与目标说话人110不匹配,也即当前采样数据不是针对目标说话人110的讲话语音录制的语音数据。
基于此,在本说明书实施例中,当根据输出结果确定当前采样数据与目标说话人不匹配时,则可以控制拾音设备140停止录音。
此外,在本说明书实施例中,考虑到在整个录音过程中,目标说话人110的讲话语音可能会存在不稳定的情况,为了避免在该情况下,错误地控制拾音设备140停止录音,可以综合多个连续周期,例如3个连续周期内的匹配结果共同决策是否控制拾音设备140停止录音。
举例来说,假设在某一周期内,通过执行步骤205,确定采样数据与目标说话人110并不匹配,此时,并不立即控制拾音设备140停止录音,而是继续在下一周期内,执行步骤202至步骤205,如此反复,直至经过连续3个周期,均确定采样数据与目标说话人110不匹配时,再控制拾音设备140停止录音。
此外,基于上述描述,在本说明书实施例中,当根据输出结果确定采样数据与目标说话人匹配时,则可以认为目标说话人110仍在继续讲话,此时,则可以返回执行步骤202,以实现继续对拾音设备140录制的语音数据进行检测,直至拾音设备140停止录音。
由上述实施例可见,通过基于目标说话人的特定语音数据控制拾音设备开始录音;按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据;对采样数据进行特征提取,得到采样数据的特征值;将采样数据的特征值输入已训练的目标说话人模型,得到目标说话人模型的输出结果;若根据输出结果确定采样数据与目标说话人不匹配,则控制拾音设备停止录音,可以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。
至此,完成实施例一的相关描述。
实施例二:
请参见图3,为本说明书一示例性实施例提供的另一种录音控制方法的实施例流程图,该图3所示例的方法在上述图1所示应用场景,以及图2所示方法的基础上,着重描述训练得到说话人模型的过程,该方法可以包括以下步骤:
步骤301:获取至少一条历史语音数据。
在本说明书实施例中,在收音设备140的日常使用过程中,可以收集所有说话人的讲话语音,对所收集的讲话语音进行预处理,例如预加重、分帧、加窗等处理之后,得到语音数据并保存,为了描述方便,将该语音数据称为历史语音数据。
在一实施例中,可以设置一个收集时长,例如,设置从首次使用收音设备140开始的一个月内作为收集时长,那么,上述历史语音数据则为该一个月内所收集的历史语音数据。
步骤302:对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一类中包括至少一条历史语音数据。
由上述步骤301中描述的历史语音数据的获取过程可知,在本说明书实施例中,并未针对收集的每一条历史语音数据确定其对应的说话人,也即,预先并不知晓历史语音数据与说话人的对应关系,基于此,在本说明书实施例中,为了区分不同说话人的历史语音数据,可以利用聚类算法,例如K-Means算法、EM(Expectation Maximization,最大期望)算法等对步骤301中获取到的历史语音数据进行聚类,得到至少一个类,其中,每一类中包括至少一条历史语音数据,每一类对应一个说话人,不同类对应不同的说话人。
步骤303:针对任一类,分别对类中的每一条历史语音数据进行特征提取,获得该类对应的训练样本,其中,训练样本以提取到的特征值为输入值。
步骤304:针对任一类,利用该类的训练样本进行训练,得到该类对应的说话人模型,其中,说话人模型以语音数据的特征值为输入值,以语音数据与类对应的说话人的匹配程度为输出值。
如下,对上述步骤303与步骤304进行描述:
在本说明书实施例中,可以针对每一个类,分别对类中的每一条历史语音数据进行特征提取,得到特征值,将提取到的多条特征值作为该类对应的训练样本,后续,则可以利用UBM–GMM算法对该训练样本进行训练,得到一个说话人模型。
由此可见,在本说明书实施例中,针对每一个类对应的说话人,训练出一个说话人模型,该说话人模型以语音数据的特征值为输入值,以语音数据与类对应的说话人的匹配程度为输出值。
由上述实施例可见,通过获取至少一条历史语音数据;对获取到的历史语音数据进行聚类,得到至少一个类;针对任一类,分别对类中的每一条历史语音数据进行特征提取,获得该类对应的训练样本;利用该训练样本进行训练,得到该类对应的说话人模型,其中,说话人模型以语音数据的特征值为输入值,以语音数据与类对应的说话人的匹配程度为输出值,可以实现训练出用于确定语音数据与说话人匹配程度的说话人模型。
至此,完成实施例二的相关描述。
由上述实施例二中的描述可知,在本说明书实施例中,可以训练得到至少一个说话人模型,但无法知晓说话人模型所对应的具体的说话人,从而,在上述实施例一的步骤204中,还将涉及到在训练得到的至少一个说话人模型中确定是否存在与目标说话人110对应的目标说话人模型,如下,示出实施例三对“在训练得到的至少一个说话人模型中确定是否存在与目标说话人110对应的目标说话人模型”这一过程进行详细描述。
实施例三:
请参见图4,为本说明书一示例性实施例提供的再一种录音控制方法的实施例流程图,该图4所示例的方法在上述图1所示应用场景,以及图2所示方法的基础上,着重描述在训练得到的至少一个说话人模型中确定是否存在与目标说话人110对应的目标说话人模型的过程,该方法可以包括以下步骤:
步骤401:对目标说话人的特定语音数据进行特征提取,得到特定语音数据的特征值。
步骤402:针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对说话人模型与特定语音数据的特征值进行运算。
步骤403:判断是否存在运算结果大于预设的匹配阈值的说话人模型,若存在,则执行步骤404;若不存在,则执行步骤405。
步骤404:在运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;结束流程。
步骤405:确定不存在目标说话人对应的目标说话人模型。
如下,对步骤401至步骤405进行详细描述:
首先说明,在本说明书实施例中,针对的是一个目标说话人的应用场景,也即从唤醒收音设备140开始,至录音结束,这一整个录音过程中,仅针对一个目标说话人,例如说话人110进行语音录制。
在该应用场景下,则可以对目标说话人110的特定语音数据进行特征提取,得到特定语音数据的特征值,至于特征提取的具体过程,可以参见上述实施例一中的相关描述,在此不再详述。
后续,分别将提取到的特征值与实施例二中训练得到的每一说话人模型,按照预设的运算规则,例如MAP(Maximum A Posterior,最大后验概率)准则进行运算,得到针对每一说话人模型的运算结果。该运算结果可用于表示目标说话人110与说话人模型的匹配程度,也即说话人模型是基于目标说话人110的历史语音数据训练而来的概率,从而,运算结果越大,则表示匹配程度越大;反之,运算结果越小,则表示匹配程度越小。
后续,确定是否存在运算结果大于预设的匹配阈值的说话人模型,若存在,则认为实施例二训练得到的说话人模型中,存在目标说话人110对应的目标说话人模型,具体的,可以将运算结果最高的说话人模型确定为目标说话人模型;反之,若不存在运算结果大于预设匹配阈值的说话人模型,则可以确定不存在目标说话人模型。
由上述实施例可见,通过对目标说话人的特定语音数据进行特征提取,得到特定语音数据的特征值;针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对说话人模型与特定语音数据的特征值进行运算;判断是否存在运算结果大于预设的匹配阈值的说话人模型,若存在,在运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;若不存在,则确定不存在目标说话人对应的目标说话人模型,可以实现在训练得到的至少一个说话人模型中确定是否存在与目标说话人对应的目标说话人模型。
由上述描述可知,在一类情况下,有可能在已训练出的说话人模型中并不存在目标说话人对应的目标说话人模型,那么,此时,则无法利用上述实施例一所示例的方法实现录音控制,基于此,本说明书实施例示出下述实施例四。
实施例四:
请参见图5,为本说明书一示例性实施例提供的又一种录音控制方法的实施例流程图,该图5所示例的方法在上述图1所示应用场景,以及图2、图4所示方法的基础上,着重描述在训练得到的至少一个说话人模型中并不存在与目标说话人110对应的目标说话人模型的情况下,实现录音控制的过程,该方法可以包括以下步骤:
步骤501:基于目标说话人的特定语音数据控制拾音设备开始录音。
步骤502:按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据。
步骤503:对采样数据进行特征提取,得到采样数据的特征值。
步骤501至步骤503的详细描述可以参见上述实施例一种步骤201至步骤203的描述,在此不再详述。
步骤504:将当前采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到当前采样数据与前一个采样数据的相关性系数。
由上述实施例一中的相关描述可知,在本说明书实施例中,可以周期性获取采样数据,那么,在本步骤中,则可以将当前采样数据与其前一个采样数据进行比较,以确定该两个采样数据是否对应同一说话人,以此确定目标说话人是否已讲话结束。
在一实施例中,可以将当前采样数据的特征值与前一个采样数据的特征值采用协方差进行相关性计算,得到当前采样数据和前一个采样数据的相关性系数。
步骤506:若相关性系数小于预设的相关性阈值,则控制拾音设备停止录音。
根据相关性系数的数学概念可知,相关性系数的取值范围为-1到1,值越接近1,则表示当前采样数据和前一个采样数据正相关性越强,反之,值越接近-1,则表示当前采样数据和前一个采样数据负相关性越强,当值为0时,表示当前采样数据和前一个采样数据之间不具有相关性。基于此,在本步骤中,则可以预先设置一个相关性阈值,若步骤505中计算出的相关性系数小于该相关性阈值,则可以认为当前采样数据与前一个采样数据对应不同的说话人,此时,则可以控制拾音设备140停止录音。
由上述实施例可见,通过基于目标说话人的特定语音数据控制拾音设备开始录音;按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据;对采样数据进行特征提取,得到采样数据的特征值;将当前采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到当前采样数据与前一个采样数据的相关性系数;若相关性系数小于预设的相关性阈值,则控制拾音设备停止录音,可以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。
至此,完成实施例四的相关描述。
与前述录音控制方法的实施例相对应,本申请还提供了录音控制装置的实施例。
本申请录音控制装置的实施例可以应用在拾音设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在拾音设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本申请录音控制装置所在拾音设备的一种硬件结构图,除了图6所示的处理器61、内存62、网络接口63、非易失性存储器64,以及内部总线65之外,实施例中装置所在的拾音设备通常根据该拾音设备的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图7,为本说明书一示例性实施例提供的一种录音控制装置的实施例框图,该装置可以包括:第一控制模块71、采样模块72、第一提取模块73,模型输入模块74,以及第二控制模块75。
其中,第一控制模块71,用于基于目标说话人的特定语音数据控制拾音设备开始录音;
采样模块72,用于按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;
第一提取模块73,用于对所述采样数据进行特征提取,得到所述采样数据的特征值;
模型输入模块74,用于将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;
第二控制模块75,用于若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。
在一实施例中,所述装置还可以包括(图7中未示出):
样本模块模块,用于获取至少一条历史语音数据;
聚类模块,用于对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一所述类中包括至少一条历史语音数据;
第二提取模块,用于针对任一所述类执行以下步骤:分别对所述类中的每一条历史语音数据进行特征提取,获得所述类对应的训练样本,其中,所述训练样本以提取到的特征值为输入值;
训练模块,用于利用所述训练样本进行训练,得到所述类对应的说话人模型,其中,所述说话人模型以语音数据的特征值为输入值,以所述语音数据与所述类对应的说话人的匹配程度为输出值。
在一实施例中,所述模型输入模块可以包括(图7中未示出):
第一确定子模块,用于确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型;
输入子模块,用于若存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果。
在一实施例中,所述第一确定子模块可以包括(图7中未示出):
特征提取子模块,用于对所述特定语音数据进行特征提取,得到所述特定语音数据的特征值;
运算子模块,用于针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对所述说话人模型与所述特定语音数据的特征值进行运算;
第二确定子模块,用于若存在运算结果大于预设的匹配阈值的说话人模型,则在所述运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;
第三确定子模块,用于若不存在运算结果大于预设的匹配阈值的说话人模型,则确定不存在所述目标说话人对应的目标说话人模型。
在一实施例中,所述装置还可以包括(图7中未示出):
相关性计算模块,用于若已训练的至少一个说话人模型中,不存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到所述采样数据与所述前一个采样数据的相关性系数;
第三控制模块,用于若所述相关性系数小于预设的相关性阈值,则控制所述拾音设备停止录音。
在一实施例中,所述装置还可以包括(图7中未示出):
第四控制模块,用于若根据所述输出结果确定所述采样数据与所述目标说话人匹配,则返回执行所述按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据的步骤。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (12)

1.一种录音控制方法,其特征在于,所述方法包括:
基于目标说话人的特定语音数据控制拾音设备开始录音;
按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;
对所述采样数据进行特征提取,得到所述采样数据的特征值;
将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;
若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取至少一条历史语音数据;
对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一所述类中包括至少一条历史语音数据;
针对任一所述类执行以下步骤:分别对所述类中的每一条历史语音数据进行特征提取,获得所述类对应的训练样本,其中,所述训练样本以提取到的特征值为输入值;
利用所述训练样本进行训练,得到所述类对应的说话人模型,其中,所述说话人模型以语音数据的特征值为输入值,以所述语音数据与所述类对应的说话人的匹配程度为输出值。
3.根据权利要求2所述的方法,其特征在于,所述将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,包括:
确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型;
若存在,则将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果。
4.根据权利要求3所述的方法,其特征在于,所述确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型,包括:
对所述特定语音数据进行特征提取,得到所述特定语音数据的特征值;
针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对所述说话人模型与所述特定语音数据的特征值进行运算;
若存在运算结果大于预设的匹配阈值的说话人模型,则在所述运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;
若不存在运算结果大于预设的匹配阈值的说话人模型,则确定不存在所述目标说话人对应的目标说话人模型。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若已训练的至少一个说话人模型中,不存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到所述采样数据与所述前一个采样数据的相关性系数;
若所述相关性系数小于预设的相关性阈值,则控制所述拾音设备停止录音。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若根据所述输出结果确定所述采样数据与所述目标说话人匹配,则返回执行所述按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据的步骤。
7.一种录音控制装置,其特征在于,所述装置包括:
第一控制模块,用于基于目标说话人的特定语音数据控制拾音设备开始录音;
采样模块,用于按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;
第一提取模块,用于对所述采样数据进行特征提取,得到所述采样数据的特征值;
模型输入模块,用于将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;
第二控制模块,用于若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
样本获取模块,用于获取至少一条历史语音数据;
聚类模块,用于对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一所述类中包括至少一条历史语音数据;
第二提取模块,用于针对任一所述类执行以下步骤:分别对所述类中的每一条历史语音数据进行特征提取,获得所述类对应的训练样本,其中,所述训练样本以提取到的特征值为输入值;
训练模块,用于利用所述训练样本进行训练,得到所述类对应的说话人模型,其中,所述说话人模型以语音数据的特征值为输入值,以所述语音数据与所述类对应的说话人的匹配程度为输出值。
9.根据权利要求8所述的装置,其特征在于,所述模型输入模块包括:
第一确定子模块,用于确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型;
输入子模块,用于若存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果。
10.根据权利要求9所述的装置,其特征在于,所述第一确定子模块包括:
特征提取子模块,用于对所述特定语音数据进行特征提取,得到所述特定语音数据的特征值;
运算子模块,用于针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对所述说话人模型与所述特定语音数据的特征值进行运算;
第二确定子模块,用于若存在运算结果大于预设的匹配阈值的说话人模型,则在所述运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;
第三确定子模块,用于若不存在运算结果大于预设的匹配阈值的说话人模型,则确定不存在所述目标说话人对应的目标说话人模型。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
相关性计算模块,用于若已训练的至少一个说话人模型中,不存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到所述采样数据与所述前一个采样数据的相关性系数;
第三控制模块,用于若所述相关性系数小于预设的相关性阈值,则控制所述拾音设备停止录音。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第四控制模块,用于若根据所述输出结果确定所述采样数据与所述目标说话人匹配,则返回执行所述按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据的步骤。
CN201811076604.9A 2018-09-14 2018-09-14 一种录音控制方法及装置 Active CN109065026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811076604.9A CN109065026B (zh) 2018-09-14 2018-09-14 一种录音控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811076604.9A CN109065026B (zh) 2018-09-14 2018-09-14 一种录音控制方法及装置

Publications (2)

Publication Number Publication Date
CN109065026A true CN109065026A (zh) 2018-12-21
CN109065026B CN109065026B (zh) 2021-08-31

Family

ID=64761769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811076604.9A Active CN109065026B (zh) 2018-09-14 2018-09-14 一种录音控制方法及装置

Country Status (1)

Country Link
CN (1) CN109065026B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887508A (zh) * 2019-01-25 2019-06-14 广州富港万嘉智能科技有限公司 一种基于声纹的会议自动记录方法、电子设备及存储介质
CN109979467A (zh) * 2019-01-25 2019-07-05 出门问问信息科技有限公司 人声过滤方法、装置、设备及存储介质
CN110838296A (zh) * 2019-11-18 2020-02-25 锐迪科微电子科技(上海)有限公司 录音过程的控制方法、系统、电子设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071537A1 (en) * 1999-10-04 2008-03-20 Beepcard Ltd. Sonic/ultrasonic authentication device
CN101546594A (zh) * 2008-03-28 2009-09-30 北京爱国者存储科技有限责任公司 一种实现电子录音设备进行身份识别的系统
CN102496366A (zh) * 2011-12-20 2012-06-13 上海理工大学 一种与文本无关的说话人识别方法
CN102522081A (zh) * 2011-12-29 2012-06-27 北京百度网讯科技有限公司 一种检测语音端点的方法及系统
CN102781075A (zh) * 2011-05-12 2012-11-14 中兴通讯股份有限公司 一种降低移动终端通话功耗的方法及移动终端
CN105979376A (zh) * 2015-12-02 2016-09-28 乐视致新电子科技(天津)有限公司 一种推荐方法和装置
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
CN106887231A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种识别模型更新方法及系统以及智能终端
CN106971734A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
CN108320761A (zh) * 2018-01-31 2018-07-24 上海思愚智能科技有限公司 音频录制方法、智能录音设备及计算机可读存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071537A1 (en) * 1999-10-04 2008-03-20 Beepcard Ltd. Sonic/ultrasonic authentication device
CN101546594A (zh) * 2008-03-28 2009-09-30 北京爱国者存储科技有限责任公司 一种实现电子录音设备进行身份识别的系统
CN102781075A (zh) * 2011-05-12 2012-11-14 中兴通讯股份有限公司 一种降低移动终端通话功耗的方法及移动终端
CN102496366A (zh) * 2011-12-20 2012-06-13 上海理工大学 一种与文本无关的说话人识别方法
CN102522081A (zh) * 2011-12-29 2012-06-27 北京百度网讯科技有限公司 一种检测语音端点的方法及系统
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
CN105979376A (zh) * 2015-12-02 2016-09-28 乐视致新电子科技(天津)有限公司 一种推荐方法和装置
CN106887231A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种识别模型更新方法及系统以及智能终端
CN106971734A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
CN108320761A (zh) * 2018-01-31 2018-07-24 上海思愚智能科技有限公司 音频录制方法、智能录音设备及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887508A (zh) * 2019-01-25 2019-06-14 广州富港万嘉智能科技有限公司 一种基于声纹的会议自动记录方法、电子设备及存储介质
CN109979467A (zh) * 2019-01-25 2019-07-05 出门问问信息科技有限公司 人声过滤方法、装置、设备及存储介质
CN110838296A (zh) * 2019-11-18 2020-02-25 锐迪科微电子科技(上海)有限公司 录音过程的控制方法、系统、电子设备和存储介质
CN110838296B (zh) * 2019-11-18 2022-04-29 锐迪科微电子科技(上海)有限公司 录音过程的控制方法、系统、电子设备和存储介质

Also Published As

Publication number Publication date
CN109065026B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
US8930196B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
WO2019154107A1 (zh) 基于记忆性瓶颈特征的声纹识别的方法及装置
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
US20180277103A1 (en) Constructing speech decoding network for numeric speech recognition
Ashar et al. Speaker identification using a hybrid cnn-mfcc approach
US8543402B1 (en) Speaker segmentation in noisy conversational speech
US7373301B2 (en) Method for detecting emotions from speech using speaker identification
Friedland et al. The ICSI RT-09 speaker diarization system
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
EP0549265A2 (en) Neural network-based speech token recognition system and method
US11100932B2 (en) Robust start-end point detection algorithm using neural network
Vyas A Gaussian mixture model based speech recognition system using Matlab
WO2018095167A1 (zh) 声纹识别方法和声纹识别系统
CN109065026A (zh) 一种录音控制方法及装置
CN109215634A (zh) 一种多词语音控制通断装置的方法及其系统
CN110689887B (zh) 音频校验方法、装置、存储介质及电子设备
CN110853669A (zh) 音频识别方法、装置及设备
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
Lecouteux et al. Distant speech recognition for home automation: Preliminary experimental results in a smart home
Toruk et al. Short utterance speaker recognition using time-delay neural network
Georgescu et al. Rodigits-a romanian connected-digits speech corpus for automatic speech and speaker recognition
CN111402893A (zh) 语音识别模型确定方法、语音识别方法及装置、电子设备
Chen et al. End-to-end speaker-dependent voice activity detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant