CN110992989B - 语音采集方法、装置及计算机可读存储介质 - Google Patents

语音采集方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN110992989B
CN110992989B CN201911254330.2A CN201911254330A CN110992989B CN 110992989 B CN110992989 B CN 110992989B CN 201911254330 A CN201911254330 A CN 201911254330A CN 110992989 B CN110992989 B CN 110992989B
Authority
CN
China
Prior art keywords
voice
blank
processing rule
marking
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911254330.2A
Other languages
English (en)
Other versions
CN110992989A (zh
Inventor
黄族良
龙洪锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Speakin Intelligent Technology Co ltd
Original Assignee
Guangzhou Speakin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Speakin Intelligent Technology Co ltd filed Critical Guangzhou Speakin Intelligent Technology Co ltd
Priority to CN201911254330.2A priority Critical patent/CN110992989B/zh
Publication of CN110992989A publication Critical patent/CN110992989A/zh
Application granted granted Critical
Publication of CN110992989B publication Critical patent/CN110992989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

本发明公开了一种语音采集方法。该语音采集方法包括:在接收到语音采集指令时,启动语音录制功能,对用户语音进行采集;获取语音处理规则,基于所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果;在语音采集完成得到初始语音文件时,根据所述标记结果对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。本发明还公开了一种语音采集装置及计算机可读存储介质。本发明能够解决现有技术无法在语音采集过程中,对语音数据中的空白片段进行识别及删除处理的问题。

Description

语音采集方法、装置及计算机可读存储介质
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音采集方法、装置及计算机可读存储介质。
背景技术
目前,语音信号的采集、传输、处理和分析在很多领域都有着非常广泛的应用,例如,在公安领域,在录口供时,会通过录音装置进行录音,以便于案件的后续处理;在处理案件时,可以采用声纹识别技术查找嫌疑人或缩小侦查范围。由于在音频录制的过程中,录音装置会对周围环境中的所有声音进行采集,包括语音信息片段和不包含语音信息的空白片段。其中,空白片段为包括周围环境噪声的片段或无声片段。对应的,录制得到的语音文件可能包括很多空白片段,这些空白片段并无实际意义,会占用存储空间的浪费,同时,用户在听取该语音文件时,也会造成时间的浪费。因此,如何在语音采集过程中,对语音数据中的空白片段进行识别及删除处理是当前亟需解决的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音采集方法、装置及计算机可读存储介质,旨在解决现有技术无法在语音采集过程中,对语音数据中的空白片段进行识别及删除处理的问题。
为实现上述目的,本发明提供一种语音采集方法,所述语音采集方法包括:
在接收到语音采集指令时,启动语音录制功能,对用户语音进行采集;
获取语音处理规则,根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果;
在语音采集完成得到初始语音文件时,根据所述标记结果对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
可选地,若所述语音处理规则为基于连续性检测结果的处理规则,所述根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果的步骤包括:
根据所述基于连续性检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;
获取各语音帧的语音强度,并检测所述各语音帧的语音强度是否均在预设范围内,得到语音强度检测结果;
根据所述语音强度检测结果确定所述实时采集到的语音数据中的空白片段,并进行标记,得到空白标记结果,其中,所述空白标记结果包括各空白标记与语音时间的关联信息。
可选地,所述在语音采集完成得到初始语音文件时,根据所述标记结果对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件的步骤包括:
在语音采集完成得到初始语音文件时,根据所述空白标记结果检测是否存在连续的空白标记的数量超过预设阈值,得到连续性检测结果;
根据所述连续性检测结果确定空白片段的起始时间点和终止时间点;
基于所述起始时间点和所述终止时间点对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
可选地,若所述语音处理规则为基于语音活体检测结果的处理规则,所述根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果的步骤包括:
根据所述基于语音活体检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;
对各语音帧的声纹特征进行提取,得到各语音帧的声纹特征;
将所述各语音帧的声纹特征分别输入至预先训练好的语音活体检测模型中,得到语音活体检测结果;
根据所述语音活体检测结果确定所述实时采集到的语音数据中的非人声片段,并进行标记,得到非人声标记结果,其中,所述非人声标记结果包括各非人声标记与语音时间的关联信息。
可选地,所述对各语音帧的声纹特征进行提取,得到各语音帧的声纹特征的步骤包括:
对各语音帧进行时域分析以及频域分析,得到各语音帧的时域特征参数和频域特征参数;
根据所述时域特征参数和所述频域特征参数,得到各语音帧的语音特征向量;
将所述各语音帧的语音特征向量分别输入至预先训练好的声纹特征提取模型中,得到各语音帧的声纹特征。
可选地,所述在语音采集完成得到初始语音文件时,根据所述标记结果对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件的步骤包括:
在语音采集完成得到初始语音文件时,根据所述非人声标记结果获取非人声语音时间段;
根据所述非人声语音时间段对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
可选地,所述获取语音处理规则的步骤包括:
获取语音处理模式的类型;
根据所述语音处理模式的类型和预设映射关系确定语音处理规则。
可选地,所述获取语音处理模式的类型的步骤之前,所述语音采集方法还包括:
检测语音处理模式是否已被启动;
若语音处理模式已被启动,则执行步骤:获取语音处理模式的类型;
若语音处理模式未被启动,则生成对应的提示信息,以提示用户是否启动语音处理模式;
在接收到用户基于所述提示信息返回的确定信息时,生成对应的模式类型选择信息,以供用户选择语音处理模式的类型;
在接收到用于基于所述模式类型选择信息返回的选择指令时,根据所述选择指令获取语音处理模式的类型,并执行步骤:根据所述语音处理模式的类型和预设映射关系确定语音处理规则。
此外,为实现上述目的,本发明还提供一种语音采集装置,所述语音采集装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音采集程序,所述语音采集程序被所述处理器执行时实现如上所述的语音采集方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音采集程序,所述语音采集程序被处理器执行时实现如上所述的语音采集方法的步骤。
本发明提供一种语音采集方法、装置及计算机可读存储介质,在接收到语音采集指令时,启动语音录制功能,对用户语音进行采集;获取语音处理规则,根据语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果;在语音采集完成得到初始语音文件时,根据标记结果对初始语音文件中的空白片段进行删除处理,得到目标语音文件。通过上述方式,可在实时采集用户语音数据的过程中,同时对实时采集到的语音数据中的空白片段进行检测标记,进而在录制完成时对空白片段进行删除,使得录制得到的语音文件中不含无实际意义的空白片段,即可解决现有技术无法在语音采集过程中、对语音数据中的空白片段进行识别及删除处理的问题,本发明通过删除语音文件中的空白片段,可节省存储空间,同时,可避免用户听取语音文件时浪费不必要的时间。此外,本发明在语音采集的同时进行检测标记,进而在录音完成时即可直接进行对应的删除处理,可提高语音处理效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明语音采集方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC(Personal Computer,个人计算机),也可以是智能手机、平板电脑、便携计算机、服务器、语音采集设备等具有语音录制功能的终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU(Central Processing Unit,中央处理器),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真Wireless-Fidelity,Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、Wi-Fi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音采集程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的语音采集程序,并执行以下操作:
在接收到语音采集指令时,启动语音录制功能,对用户语音进行采集;
获取语音处理规则,根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果;
在语音采集完成得到初始语音文件时,根据所述标记结果对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
进一步地,若所述语音处理规则为基于连续性检测结果的处理规则,处理器1001可以调用存储器1005中存储的语音采集程序,还执行以下操作:
根据所述基于连续性检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;
获取各语音帧的语音强度,并检测所述各语音帧的语音强度是否均在预设范围内,得到语音强度检测结果;
根据所述语音强度检测结果确定所述实时采集到的语音数据中的空白片段,并进行标记,得到空白标记结果,其中,所述空白标记结果包括各空白标记与语音时间的关联信息。
进一步地,处理器1001可以调用存储器1005中存储的语音采集程序,还执行以下操作:
在语音采集完成得到初始语音文件时,根据所述空白标记结果检测是否存在连续的空白标记的数量超过预设阈值,得到连续性检测结果;
根据所述连续性检测结果确定空白片段的起始时间点和终止时间点;
基于所述起始时间点和所述终止时间点对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
进一步地,若所述语音处理规则为基于语音活体检测结果的处理规则,处理器1001可以调用存储器1005中存储的语音采集程序,还执行以下操作:
根据所述基于语音活体检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;
对各语音帧的声纹特征进行提取,得到各语音帧的声纹特征;
将所述各语音帧的声纹特征分别输入至预先训练好的语音活体检测模型中,得到语音活体检测结果;
根据所述语音活体检测结果确定所述实时采集到的语音数据中的非人声片段,并进行标记,得到非人声标记结果,其中,所述非人声标记结果包括各非人声标记与语音时间的关联信息。
进一步地,处理器1001可以调用存储器1005中存储的语音采集程序,还执行以下操作:
对各语音帧进行时域分析以及频域分析,得到各语音帧的时域特征参数和频域特征参数;
根据所述时域特征参数和所述频域特征参数,得到各语音帧的语音特征向量;
将所述各语音帧的语音特征向量分别输入至预先训练好的声纹特征提取模型中,得到各语音帧的声纹特征。
进一步地,处理器1001可以调用存储器1005中存储的语音采集程序,还执行以下操作:
在语音采集完成得到初始语音文件时,根据所述非人声标记结果获取非人声语音时间段;
根据所述非人声语音时间段对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
进一步地,处理器1001可以调用存储器1005中存储的语音采集程序,还执行以下操作:
获取语音处理模式的类型;
根据所述语音处理模式的类型和预设映射关系确定语音处理规则。
进一步地,处理器1001可以调用存储器1005中存储的语音采集程序,还执行以下操作:
检测语音处理模式是否已被启动;
若语音处理模式已被启动,则获取语音处理模式的类型;
若语音处理模式未被启动,则生成对应的提示信息,以提示用户是否启动语音处理模式;
在接收到用户基于所述提示信息返回的确定信息时,生成对应的模式类型选择信息,以供用户选择语音处理模式的类型;
在接收到用于基于所述模式类型选择信息返回的选择指令时,根据所述选择指令获取语音处理模式的类型,并根据所述语音处理模式的类型和预设映射关系确定语音处理规则。
基于上述硬件结构,提出本发明语音采集方法各个实施例。
本发明提供一种语音采集方法。
参照图2,图2为本发明语音采集方法第一实施例的流程示意图。
在本实施例中,该语音采集方法包括:
步骤S10,在接收到语音采集指令时,启动语音录制功能,对用户语音进行采集;
在本实施例中,该语音采集方法可用于在实时采集用户语音数据过程中,同时对实时采集到的语音数据中的空白片段进行检测标记,进而在录制完成时对空白片段进行删除,使得录制得到的语音文件中不含无意义的空白片段,从而可节省存储空间,同时避免用户听取语音文件时浪费不必要的时间,本发明实施例的终端可以是PC、智能手机、语音采集设备等具有语音采集功能的终端设备。
在本实施例中,用户需要进行语音采集时,可在语音采集设备中的语音采集软件中点击录音选项或按下语音采集设备的录音按钮,即可触发语音采集指令,此时,语音采集设备在接收到该语音采集指令时,启动语音录制功能,对用户语音进行采集。
步骤S20,获取语音处理规则,根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果;
然后,获取语音处理规则,具体的,可以先获取语音处理模式的类型,然后根据语音处理模式的类型和预设映射关系确定语音处理规则,其中,预设映射关系包括语音处理模式的类型与语音处理规则之间的映射关系。在获取到语音处理规则之后,根据语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果,其中,实时采集到的语音数据即为语音实时采集的过程中,每隔预设时间获取到的前一预设时间段内的语音数据(如每隔10s获取距当前时间10s内采集到的语音数据)。具体的,若语音处理规则为基于连续性检测结果的处理规则,则先根据基于连续性检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;然后,获取各语音帧的语音强度,并检测各语音帧的语音强度是否均在预设范围内,得到语音强度检测结果;进而根据语音强度检测结果确定实时采集到的语音数据中的空白片段,并进行标记,得到空白标记结果,其中,空白标记结果包括各空白标记与语音时间的关联信息。若语音处理规则为基于语音活体检测结果的处理规则,则先根据基于语音活体检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;然后,对各语音帧的声纹特征进行提取,得到各语音帧的声纹特征;再将各语音帧的声纹特征分别输入至预先训练好的语音活体检测模型中,得到语音活体检测结果;进而根据语音活体检测结果确定实时采集到的语音数据中的非人声片段,并进行标记,得到非人声标记结果,其中,非人声标记结果包括各非人声标记与语音时间的关联信息。具体的执行过程可参照下述第二和第三实施例,此处不作赘述。
基于上述方法,在语音采集的过程中,同时对实时采集到的语音数据进行检测标记,直至语音采集完成。
步骤S30,在语音采集完成得到初始语音文件时,根据所述标记结果对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
在语音采集完成得到初始语音文件时,根据标记结果对初始语音文件中的空白片段进行删除处理,得到目标语音文件。具体的,若语音处理规则为基于连续性检测结果的处理规则,具体的删除处理过称为:根据空白标记结果检测是否存在连续的空白标记的数量超过预设阈值,得到连续性检测结果;根据连续性检测结果确定空白片段的起始时间点和终止时间点;基于起始时间点和终止时间点对初始语音文件中的空白片段进行删除处理,得到目标语音文件。若语音处理规则为基于语音活体检测结果的处理规则,具体的删除处理过称为:在语音采集完成得到初始语音文件时,根据非人声标记结果获取非人声语音时间段;根据非人声语音时间段对初始语音文件中的空白片段进行删除处理,得到目标语音文件。具体的执行过程可参照下述第二和第三实施例,此处不作赘述。
本发明实施例提供一种语音采集方法,在接收到语音采集指令时,启动语音录制功能,对用户语音进行采集;获取语音处理规则,根据语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果;在语音采集完成得到初始语音文件时,根据标记结果对初始语音文件中的空白片段进行删除处理,得到目标语音文件。通过上述方式,可在实时采集用户语音数据的过程中,同时对实时采集到的语音数据中的空白片段进行检测标记,进而在录制完成时对空白片段进行删除,使得录制得到的语音文件中不含无实际意义的空白片段,即可解决现有技术无法在语音采集过程中、对语音数据中的空白片段进行识别及删除处理的问题,本发明实施例通过删除语音文件中的空白片段,可节省存储空间,同时,可避免用户听取语音文件时浪费不必要的时间。此外,本发明实施例在语音采集的同时进行检测标记,进而在录音完成时即可直接进行对应的删除处理,可提高语音处理效率。
进一步地,基于图2所示的第一实施例,提出本发明语音采集方法的第二实施例。
在本实施例中,若所述语音处理规则为基于连续性检测结果的处理规则,步骤“根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果”包括:
步骤a11,根据所述基于连续性检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;
在本实施例中,可以对语音数据进行连续性检测,以检测标记出空白片段。具体的,若语音处理规则为基于连续性检测结果的处理规则,在获取到语音处理规则之后,先根据基于连续性检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧,其中,分帧一般采用交叠分段的方法,是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0-1/2。具体的分帧处理可用可移动的有限长度窗口进行加权的方法来实现的。
步骤a12,获取各语音帧的语音强度,并检测所述各语音帧的语音强度是否均在预设范围内,得到语音强度检测结果;
在分帧得到多个语音帧后,获取各语音帧的语音强度,并检测各语音帧的语音强度是否均在预设范围内,得到语音强度检测结果,其中,语音强度的具体获取方法可参照现有技术,预设范围是预先设定的,可以设为低于某一语音强度阈值,该语音强度阈值小于人正常说话时的语音强度,当然也可以根据实际需要具体设定。若语音强度在该预设范围内,则可认定为用户此时未说话;若语音强度不在该预设范围内,则可认定为用户此时正在说话。
步骤a13,根据所述语音强度检测结果确定所述实时采集到的语音数据中的空白片段,并进行标记,得到空白标记结果,其中,所述空白标记结果包括各空白标记与语音时间的关联信息。
然后,根据语音强度检测结果确定实时采集到的语音数据中的空白片段,并进行标记,得到空白标记结果,其中,空白标记结果包括各空白标记与语音时间的关联信息。例如,若检测到某几个语音帧的语音强度在预设范围内,则说明这几个语音帧对应的时间内,用户可能未说话,此时,则对这几个语音帧进行空白标记,并记录空白标记与语音时间的关联信息,以便于后续进行删除处理。
当然,可以理解,在具体实施例中,除可通过语音强度的指标进行连续性检测外,还可以通过语音的音高等参数进行检测标记。
此时,步骤S30包括:
步骤b11,在语音采集完成得到初始语音文件时,根据所述空白标记结果检测是否存在连续的空白标记的数量超过预设阈值,得到连续性检测结果;
在语音采集完成得到初始语音文件时,根据空白标记结果检测是否存在连续的空白标记的数量超过预设阈值,得到连续性检测结果。可以理解,在用户说话的过程中,可能会有短暂的停顿,此种情况不属于空白片段。因此,在根据空白标记结果进行连续性检测时,当连续的空白标记的数量超过预设阈值时,方可认为由空白标记对应的语音帧组成的语音片段为空白片段。
步骤b12,根据所述连续性检测结果确定空白片段的起始时间点和终止时间点;
步骤b13,基于所述起始时间点和所述终止时间点对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
然后,根据连续性检测结果确定空白片段的起始时间点和终止时间点;进而基于起始时间点和终止时间点对初始语音文件中的空白片段进行删除处理,得到目标语音文件。其中,起始时间点和终止时间点可以包括多个,相对应的起始时间点和终止时间点可构成对应的空白片段时间段,进而删除初始语音文件中空白片段时间段对应的空白片段,得到目标语音文件。
在本实施例中,通过连续性检测的方式对语音数据的空白片段进行检测标记,进而删除语音文件中的空白片段,可节省存储空间,同时,可避免用户听取语音文件时浪费不必要的时间。此外,本发明实施例在语音采集的同时进行检测标记,进而在录音完成时即可直接进行对应的删除处理,可提高语音处理效率。
进一步地,基于图2所示的第一实施例,提出本发明语音采集方法的第三实施例。
在本实施例中,若所述语音处理规则为基于语音活体检测结果的处理规则,步骤“根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果”包括:
步骤a21,根据所述基于语音活体检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;
在本实施例中,可以对语音数据进行语音活体检测,以检测标记出非人声的部分,即空白片段。具体的,若语音处理规则为基于语音活体检测结果的处理规则,在获取到语音处理规则之后,先根据基于语音活体检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧,其中,分帧一般采用交叠分段的方法,是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0-1/2。具体的分帧处理可用可移动的有限长度窗口进行加权的方法来实现的。
步骤a22,对各语音帧的声纹特征进行提取,得到各语音帧的声纹特征;
然后,对各语音帧的声纹特征进行提取,得到各语音帧的声纹特征。具体的,步骤a22包括:
步骤a221,对各语音帧进行时域分析以及频域分析,得到各语音帧的时域特征参数和频域特征参数;
步骤a222,根据所述时域特征参数和所述频域特征参数,得到各语音帧的语音特征向量;
步骤a223,将所述各语音帧的语音特征向量分别输入至预先训练好的声纹特征提取模型中,得到各语音帧的声纹特征。
具体的声音特征提取过称为:先对各语音帧进行时域分析以及频域分析,得到各语音帧的时域特征参数和频域特征参数,具体的分析方法可参照现有技术。然后,根据时域特征参数和频域特征参数,得到各语音帧的语音特征向量,具体的,将时域特征参数和频域特征参数按预设顺序进行拼接,得到语音特征向量。进而将各语音帧的语音特征向量分别输入至预先训练好的声纹特征提取模型中,得到各语音帧的声纹特征。其中,声纹特征提取模型可以是基于预先配置的训练语料和预先构建的卷积神经网络模型训练得到的。
步骤a23,将所述各语音帧的声纹特征分别输入至预先训练好的语音活体检测模型中,得到语音活体检测结果;
然后,将各语音帧的声纹特征分别输入至预先训练好的语音活体检测模型中,得到语音活体检测结果。其中,语音活体检测模型可以是基于预先配置的训练样本和预设分类模型训练得到的,其中预设分类模型的类型可以包括但不限于Logistic逻辑回归模型,SVM(Support Vector Machine,支持向量机)模型、贝叶斯模型和卷积神经网络模型。语音活体检测结果包括各语音帧的声纹是否属于人声的声纹。
步骤a24,根据所述语音活体检测结果确定所述实时采集到的语音数据中的非人声片段,并进行标记,得到非人声标记结果,其中,所述非人声标记结果包括各非人声标记与语音时间的关联信息。
在得到语音活体检测结果之后,根据语音活体检测结果确定实时采集到的语音数据中的非人声片段,并进行标记,得到非人声标记结果,其中,非人声标记结果包括各非人声标记与语音时间的关联信息,以便于后续进行删除处理。
此时,步骤S30包括:
步骤b21,在语音采集完成得到初始语音文件时,根据所述非人声标记结果获取非人声语音时间段;
步骤b22,根据所述非人声语音时间段对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
在语音采集完成得到初始语音文件时,根据非人声标记结果获取非人声语音时间段,即,根据各非人声标记与语音时间的关联信息统计得到非人声时间段,然后,根据非人声语音时间段对初始语音文件中的空白片段进行删除处理,得到目标语音文件。当然,在统计非人声时间段时,也可以删除小于预设时长的非人声时间段,以提高语音处理的精确性。
在本实施例中,通过语音活体检测的方式对语音数据的非人声片段进行检测标记,进而删除语音文件中的空白片段(即非人声的片段),可节省存储空间,同时,可避免用户听取语音文件时浪费不必要的时间。此外,本发明实施例在语音采集的同时进行检测标记,进而在录音完成时即可直接进行对应的删除处理,可提高语音处理效率。
进一步地,基于图2所示的第一实施例,提出本发明语音采集方法的第四实施例。
在本实施例中,步骤“获取语音处理模式的类型”包括:
步骤c1,获取语音处理模式的类型;
步骤c2,根据所述语音处理模式的类型和预设映射关系确定语音处理规则。
在本实施例中,可以先获取语音处理模式的类型,然后根据语音处理模式的类型和预设映射关系确定语音处理规则,其中,预设映射关系是预先构建的,包括语音处理模式的类型与语音处理规则之间的映射关系。
进一步地,在上述步骤c1之前,该语音采集方法还可以包括:
步骤c3,检测语音处理模式是否已被启动;
若语音处理模式已被启动,则执行步骤c1:获取语音处理模式的类型;
若语音处理模式未被启动,则执行步骤c4,生成对应的提示信息,以提示用户是否启动语音处理模式;
步骤c5,在接收到用户基于所述提示信息返回的确定信息时,生成对应的模式类型选择信息,以供用户选择语音处理模式的类型;
步骤c6,在接收到用于基于所述模式类型选择信息返回的选择指令时,根据所述选择指令获取语音处理模式的类型,并执行步骤c2:根据所述语音处理模式的类型和预设映射关系确定语音处理规则。
进一步地,在获取语音处理模式之前,需先检测语音处理模式是否已被启动,若语音处理模式已被启动,说明用户已经预先开启了语音处理模式,同时选择了语音处理模式的类型,此时,则可以直接获取语音处理模式的类型;若语音处理模式未被启动,则生成对应的提示信息,以提示用户是否启动语音处理模式,其中,提示信息可以以语音、弹窗的形式进行显示,然后在接收到用户基于该提示信息返回的确定信息时,生成对应的模式类型选择信息,以供用户选择语音处理模式的类型;进而在接收到用于基于模式类型选择信息返回的选择指令时,根据选择指令获取语音处理模式的类型,并根据语音处理模式的类型和预设映射关系确定语音处理规则。
通过上述方式,可在检测到语音处理模式未被启动时,及时提醒用户进行确认和类型的选择,进而便于后续确定具体的语音处理规则对语音数据进行处理。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有语音采集程序,所述语音采集程序被处理器执行时实现如以上任一项实施例所述的语音采集方法的步骤。
本发明计算机可读存储介质的具体实施例与上述语音采集方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种语音采集方法,其特征在于,所述语音采集方法包括以下步骤:
在接收到语音采集指令时,启动语音录制功能,对用户语音进行采集;
获取语音处理规则,根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果;
在语音采集完成得到初始语音文件时,根据所述标记结果对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件;
其中,所述获取语音处理规则的步骤包括:
获取语音处理模式的类型;
根据所述语音处理模式的类型和预设映射关系确定语音处理规则;其中,所述语音处理规则包括基于连续性检测结果的处理规则和基于语音活体检测结果的处理规则。
2.如权利要求1所述的语音采集方法,其特征在于,若所述语音处理规则为基于连续性检测结果的处理规则,所述根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果的步骤包括:
根据所述基于连续性检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;
获取各语音帧的语音强度,并检测所述各语音帧的语音强度是否均在预设范围内,得到语音强度检测结果;
根据所述语音强度检测结果确定所述实时采集到的语音数据中的空白片段,并进行标记,得到空白标记结果,其中,所述空白标记结果包括各空白标记与语音时间的关联信息。
3.如权利要求2所述的语音采集方法,其特征在于,所述在语音采集完成得到初始语音文件时,根据所述标记结果对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件的步骤包括:
在语音采集完成得到初始语音文件时,根据所述空白标记结果检测是否存在连续的空白标记的数量超过预设阈值,得到连续性检测结果;
根据所述连续性检测结果确定空白片段的起始时间点和终止时间点;
基于所述起始时间点和所述终止时间点对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
4.如权利要求1所述的语音采集方法,其特征在于,若所述语音处理规则为基于语音活体检测结果的处理规则,所述根据所述语音处理规则对实时采集到的语音数据中的空白片段进行检测并标记,得到标记结果的步骤包括:
根据所述基于语音活体检测结果的处理规则对实时采集到的语音数据进行分帧处理,得到多个语音帧;
对各语音帧的声纹特征进行提取,得到各语音帧的声纹特征;
将所述各语音帧的声纹特征分别输入至预先训练好的语音活体检测模型中,得到语音活体检测结果;
根据所述语音活体检测结果确定所述实时采集到的语音数据中的非人声片段,并进行标记,得到非人声标记结果,其中,所述非人声标记结果包括各非人声标记与语音时间的关联信息。
5.如权利要求4所述的语音采集方法,其特征在于,所述对各语音帧的声纹特征进行提取,得到各语音帧的声纹特征的步骤包括:
对各语音帧进行时域分析以及频域分析,得到各语音帧的时域特征参数和频域特征参数;
根据所述时域特征参数和所述频域特征参数,得到各语音帧的语音特征向量;
将所述各语音帧的语音特征向量分别输入至预先训练好的声纹特征提取模型中,得到各语音帧的声纹特征。
6.如权利要求4所述的语音采集方法,其特征在于,所述在语音采集完成得到初始语音文件时,根据所述标记结果对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件的步骤包括:
在语音采集完成得到初始语音文件时,根据所述非人声标记结果获取非人声语音时间段;
根据所述非人声语音时间段对所述初始语音文件中的空白片段进行删除处理,得到目标语音文件。
7.如权利要求1所述的语音采集方法,其特征在于,所述获取语音处理模式的类型的步骤之前,所述语音采集方法还包括:
检测语音处理模式是否已被启动;
若语音处理模式已被启动,则执行步骤:获取语音处理模式的类型;
若语音处理模式未被启动,则生成对应的提示信息,以提示用户是否启动语音处理模式;
在接收到用户基于所述提示信息返回的确定信息时,生成对应的模式类型选择信息,以供用户选择语音处理模式的类型;
在接收到用于基于所述模式类型选择信息返回的选择指令时,根据所述选择指令获取语音处理模式的类型,并执行步骤:根据所述语音处理模式的类型和预设映射关系确定语音处理规则。
8.一种语音采集装置,其特征在于,所述语音采集装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音采集程序,所述语音采集程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音采集方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音采集程序,所述语音采集程序被处理器执行时实现如权利要求1至7中任一项所述的语音采集方法的步骤。
CN201911254330.2A 2019-12-06 2019-12-06 语音采集方法、装置及计算机可读存储介质 Active CN110992989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911254330.2A CN110992989B (zh) 2019-12-06 2019-12-06 语音采集方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911254330.2A CN110992989B (zh) 2019-12-06 2019-12-06 语音采集方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110992989A CN110992989A (zh) 2020-04-10
CN110992989B true CN110992989B (zh) 2022-05-27

Family

ID=70091535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911254330.2A Active CN110992989B (zh) 2019-12-06 2019-12-06 语音采集方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110992989B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508531B (zh) * 2020-04-23 2023-07-07 维沃移动通信有限公司 音频处理方法及装置
CN111627453B (zh) * 2020-05-13 2024-02-09 广州国音智能科技有限公司 公安语音信息管理方法、装置、设备及计算机存储介质
CN113380261B (zh) * 2021-05-26 2021-12-31 特斯联科技集团有限公司 一种人工智能语音采集处理器及方法
CN113593570A (zh) * 2021-07-28 2021-11-02 深圳创维-Rgb电子有限公司 语音异常诊断方法、装置、设备及存储介质
CN113613068A (zh) * 2021-08-03 2021-11-05 北京字跳网络技术有限公司 视频的处理方法、装置、电子设备和存储介质
CN115550075B (zh) * 2022-12-01 2023-05-09 中网道科技集团股份有限公司 一种社区矫正对象公益活动数据的防伪处理方法和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197135A (zh) * 2006-12-05 2008-06-11 华为技术有限公司 声音信号分类方法和装置
CN103035238A (zh) * 2012-11-27 2013-04-10 中国科学院自动化研究所 音频数据的编码方法及解码方法
CN104157301A (zh) * 2014-07-25 2014-11-19 广州三星通信技术研究有限公司 删除语音信息空白片段的方法、装置和终端
CN108847217A (zh) * 2018-05-31 2018-11-20 平安科技(深圳)有限公司 一种语音切分方法、装置、计算机设备及存储介质
CN109087632A (zh) * 2018-08-17 2018-12-25 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN109994126A (zh) * 2019-03-11 2019-07-09 北京三快在线科技有限公司 音频消息分段方法、装置、存储介质和电子设备
CN110148402A (zh) * 2019-05-07 2019-08-20 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN110491392A (zh) * 2019-08-29 2019-11-22 广州国音智能科技有限公司 一种基于说话人身份的音频数据清洗方法、装置和设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI220511B (en) * 2003-09-12 2004-08-21 Ind Tech Res Inst An automatic speech segmentation and verification system and its method
US9373320B1 (en) * 2013-08-21 2016-06-21 Google Inc. Systems and methods facilitating selective removal of content from a mixed audio recording
US20170294185A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmentation using prior distributions
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
US10546575B2 (en) * 2016-12-14 2020-01-28 International Business Machines Corporation Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier
US20190043479A1 (en) * 2018-05-07 2019-02-07 Intel Corporation Wake on voice key phrase segmentation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101197135A (zh) * 2006-12-05 2008-06-11 华为技术有限公司 声音信号分类方法和装置
CN103035238A (zh) * 2012-11-27 2013-04-10 中国科学院自动化研究所 音频数据的编码方法及解码方法
CN104157301A (zh) * 2014-07-25 2014-11-19 广州三星通信技术研究有限公司 删除语音信息空白片段的方法、装置和终端
CN108847217A (zh) * 2018-05-31 2018-11-20 平安科技(深圳)有限公司 一种语音切分方法、装置、计算机设备及存储介质
CN109087632A (zh) * 2018-08-17 2018-12-25 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN109994126A (zh) * 2019-03-11 2019-07-09 北京三快在线科技有限公司 音频消息分段方法、装置、存储介质和电子设备
CN110148402A (zh) * 2019-05-07 2019-08-20 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN110491392A (zh) * 2019-08-29 2019-11-22 广州国音智能科技有限公司 一种基于说话人身份的音频数据清洗方法、装置和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Audio-cut detection and audio-segment classification using fuzzy c-means clustering;N. Nitanda;《2004 IEEE International Conference on Acoustics, Speech, and Signal Processing》;20040830;1-5 *
广播电视监播系统中音频及语音数据处理技术研究;王海涛;《中国优秀硕士学位论文全文数据库信息科技辑》;20070630;I136-660 *
广播音频的自动分段分类技术;胡艳芳;《中国优秀硕士学位论文全文数据库信息科技辑》;20111231;I136-1290 *

Also Published As

Publication number Publication date
CN110992989A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110992989B (zh) 语音采集方法、装置及计算机可读存储介质
CN109558512B (zh) 一种基于音频的个性化推荐方法、装置和移动终端
US11138422B2 (en) Posture detection method, apparatus and device, and storage medium
CN105845124B (zh) 音频处理方法及装置
EP3855360A1 (en) Method and device for training image recognition model, and storage medium
CN110890083B (zh) 音频数据的处理方法、装置、电子设备及存储介质
CN107871001B (zh) 音频播放方法、装置、存储介质及电子设备
CN107948729B (zh) 富媒体处理方法、装置、存储介质和电子设备
CN106203235B (zh) 活体鉴别方法和装置
JP2021114277A (ja) 情報処理方法、装置及び記憶媒体
CN106469297A (zh) 情绪识别方法、装置和终端设备
CN108665889B (zh) 语音信号端点检测方法、装置、设备及存储介质
US11335348B2 (en) Input method, device, apparatus, and storage medium
CN111984180B (zh) 终端读屏方法、装置、设备及计算机可读存储介质
CN111583919A (zh) 信息处理方法、装置及存储介质
CN110875036A (zh) 语音分类方法、装置、设备及计算机可读存储介质
CN110827849B (zh) 数据建库的人声分离方法、装置、终端及可读存储介质
EP2960816A1 (en) Method and apparatus for managing data
CN111640421B (zh) 语音对比方法、装置、设备及计算机可读存储介质
CN110491384B (zh) 一种语音数据处理方法及装置
CN108989551B (zh) 位置提示方法、装置、存储介质及电子设备
CN114943976B (zh) 模型生成的方法、装置、电子设备和存储介质
CN107154996B (zh) 来电拦截方法、装置、存储介质及终端
CN112862073B (zh) 一种压缩数据分析方法、装置、存储介质及终端
CN109065145B (zh) 心电数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant