CN113257242A - 自助语音服务中的语音播报中止方法、装置、设备及介质 - Google Patents

自助语音服务中的语音播报中止方法、装置、设备及介质 Download PDF

Info

Publication number
CN113257242A
CN113257242A CN202110366818.5A CN202110366818A CN113257242A CN 113257242 A CN113257242 A CN 113257242A CN 202110366818 A CN202110366818 A CN 202110366818A CN 113257242 A CN113257242 A CN 113257242A
Authority
CN
China
Prior art keywords
voice
service
sample
speech
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110366818.5A
Other languages
English (en)
Inventor
嵇望
黄河
曹禹
张广昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan New Technology Co ltd
Original Assignee
Hangzhou Yuanchuan New Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuanchuan New Technology Co ltd filed Critical Hangzhou Yuanchuan New Technology Co ltd
Priority to CN202110366818.5A priority Critical patent/CN113257242A/zh
Publication of CN113257242A publication Critical patent/CN113257242A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/75Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种自助语音服务中的语音播报中止方法、装置、电子设备及计算机存储介质,涉及语音识别技术领域,旨在提高语音打断速度。该方法包含以下步骤:提取用户方语音作为源语音样本,对源语音样本进行分帧和声音特征提取,形成源语音特征数据;将源语音样本输入语音识别系统进行语音识别,得到语音转译数据;根据语音转译数据,标识源语音特征数据的特征,形成语音特征样本;通过机器学习算法对语音特征样本进行学习,形成人声语音特征;通过人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放。

Description

自助语音服务中的语音播报中止方法、装置、设备及介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种自助语音服务中的语音播报中止方法、装置、设备及介质。
背景技术
目前,电话呼叫中心普遍采用语音机器人自动问答呼叫的方式为用户提供自助语音服务。在进行语音机器人自动呼叫时,呼叫中心通过呼入或呼出的方式,与用户建立通话连接,并通过事先制定好的或者由人工智能系统形成的交互流程与用户进行交互。在语音机器人自动问答呼叫过程中,用户可以通过说话来表述自己的意愿,与自助服务系统进行交互,选择自己期望的服务。
为达到更好的交互体验,在某些场景下,系统为用户播放语音时,用户可以通过说话来打断或中止语音的播放,而无需等待语音播放完成。
传统的语音打断方案,是从呼叫线路中提取来自用户方的语音,将提取到的语音送入语音识别系统进行语音识别,根据语音识别结果来决定是否打断当前播放的语音。因语音识别系统是通过算法将语音数据转化为文本数据的系统,其识别过程会将语音数据与样本库进行匹配,因此会存在一定的延迟。且呼叫中心与语音识别系统一般采用HTTP方式进行交互,交互过程也存在一定的延迟。两种延迟的累积会造成响应速度慢,导致打断不及时,从而影响用户体验。
针对语音打断速度慢的问题,目前尚未提出有效的解决方法。
发明内容
本发明实施例提供了一种自助语音服务中的语音播报中止方法、装置、设备及介质,以至少解决语音打断速度慢的问题。
第一方面,本发明实施例提供了一种自助语音服务中的语音播报中止方法,包括以下步骤:
提取用户方语音作为源语音样本,对所述源语音样本进行分帧和声音特征提取,形成源语音特征数据;
将所述源语音样本输入语音识别系统进行语音识别,得到语音转译数据;
根据所述语音转译数据,标识所述源语音特征数据的特征,形成语音特征样本;
通过机器学习算法对所述语音特征样本进行学习,形成人声语音特征;
通过所述人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放。
在其中一些实施例中,所述提取用户方语音,包括:
通过语音板卡或ISDN或H.323或SIP语音的网关或IP交换机从呼叫线路中提取音频数据,并对提取到的所述音频数据进行线性化处理,得到用户方语音。
在其中一些实施例中,所述源语音样本进行分帧和声音特征提取,形成源语音特征数据,包括:
将所述源语音样本中的用户方语音分割成若干帧片,确定每个帧片的大小以及帧片的数量;
通过以下公式,计算所述每个帧片的能量:
E=b12+b22+b32+b42+…+bn2其中,b1、b2、b3、b4、…、bn表示帧片中的字节;
记录所述每个帧片的大小、每个帧片的能量以及所述帧片的数量形成源语音特征数据。
在其中一些实施例中,所述将所述源语音样本输入语音识别系统进行语音识别,得到语音转译数据,包括:
通过所述语音识别系统对所述源语音样本进行语音识别,得到语音识别执行状态以及所述源语音样本对应语音的语义文本,形成语音转译数据。
在其中一些实施例中,所述机器学习算法为概率模型、统计模型、聚类模型、分类模型、回归模型中任意一种。
在其中一些实施例中,所述人声语音特征包括判断声音是否有效的能量阈值、静音和有效声音之间的转换频率以及语音特征的最大帧数。
在其中一些实施例中,所述通过所述人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放,包括:
在呼叫过程中,提取来自目标用户方的语音,对所述目标用户方的语音进行分帧和声音特征提取,形成目标语音特征数据;
将所述目标语音特征数据与所述人声语音特征进行匹配,以判断是否为人声;
若匹配成功,则判定为人声,执行中止自助语音播放的操作;
否则,不作出处理。
第二方面,本发明实施例提供了一种自助语音服务中的语音播报中止装置,包括:
语音样本提取模块,用于提取用户方语音作为源语音样本;
源语音特征数据生成模块,用于对所述源语音样本进行分帧和声音特征提取,形成源语音特征数据;
语音转译数据生成模块,用于将所述源语音样本输入语音识别系统进行语音识别,得到语音转译数据;
语音特征样本生成模块,用于根据所述语音转译数据,标识所述源语音特征数据的特征,形成语音特征样本;
人声特征学习模块,用于通过机器学习算法对所述语音特征样本进行学习,形成人声语音特征;
中止操作决策模块,用于通过所述人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的自助语音服务中的语音播报中止方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的自助语音服务中的语音播报中止方法。
相比于现有技术,本发明实施例提供一种自助语音服务中的语音播报中止方法、装置、设备及介质,通过机器学习算法学习人声特征,基于学习的人声特征快速判断语音是否为人声,缩短语音打断决策过程的延迟,提高语音打断速度,给用户提供更好的交互体验。
本发明的一个或多个实施例的细节在以下附图和描述中提出,以使本发明的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明自助语音服务中的语音播报中止方法的流程图;
图2是本发明实施例中的形成源语音数据的流程图;
图3是本发明实施例中的形成人声语音特征的流程图;
图4是本发明实施例中执行语音播放中止决策的流程图;
图5是本发明实施例的自助语音服务中的语音播报中止装置的结构框图;
图6是本发明实施例中的源语音特征数据生成模块的结构框图;
图7是本发明实施例中的语音转译数据生成模块的结构框图;
图8是本发明实施例中的语音特征样本生成模块的结构框图;
图9是本发明实施例中的人声特征学习模块的结构框图;
图10是本发明实施例中的中止操作决策模块的结构框图;
图11为本发明实施例的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案更加清楚明白,以下结合附图及实施例,对本发明进行描述和说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。基于本发明提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
在执行语音打断决策时,不需要确切识别出用户说话的内容,只需要判断用户方语音是人声还是背景声即可。因此基于大量的语音样本,通过机器学习算法总结出能够判断人声的人声特征,且通过机器学习能快速寻求到人声特征的参考值,通过这些特征,可以快速判断用户方语音是人声还是背景声,通过调整这些特征的取值(参考值),可进一步提高人声判断的准确性。
实施例1
基于以上原理,本实施例提供一种对自助语音服务中的语音播报中止方法,图1是本发明自助语音服务中的语音播报中止方法的流程图。
如图1所示,自助语音服务中的语音播报中止方法,包括以下步骤:
S101、提取用户方语音作为源语音样本,对源语音样本进行分帧和声音特征提取,形成源语音特征数据。
从呼叫中心提取大量的用户方法语音,作为源语音样本,对这些源语音样本进行分帧和特征提取,在分帧后对进行语音分析,提取源语音样本的声音特征。
在一些实施例中,在提取源语音样本的声音特征之前,一般需要进行短时分析技术,如语音的数据化和预处理,语音的数据化一般包括放大及增益控制、反混叠滤波、采样、A/D变化及编码,预处理一般包括预加重、加窗和分帧等。预加重处理可以有效提高信噪比,进行预加重处理后,对语音样本进行分帧,在本实施例中,分帧可采用交叠分段的方式,保证帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0-1/2。具体地,源语音样本的分帧操作采用可移动的有限长度窗口进行加权的方法来实现,具体分帧处理过程为本领域的常规技术手段,在此不作详细说明。
对分帧的源语音样本进行分析,以提取源语音样本中的声音特征,形成源语音特征数据。其中特征提取方法可采用常规的语音信号分析技术。
S102、将源语音样本输入语音识别系统进行语音识别,得到语音转译数据。
将与S101中相同的源语音样本送入任意的语音识别系统进行语音识别,得到语音识别结果,即得到源语音样本对应的语义文本,形成语音转译数据。
S103、根据语音转译数据,标识源语音特征数据的特征,形成语音特征样本。
使用语音转译数据对上述源语音样本产生的语音特征数据进行标识,该标识过程相当于为语音特征数据打上标签,形成语音特征样本后进行机器学习。
S104、通过机器学习算法对语音特征样本进行学习,形成人声语音特征。
通过机器学习的方法对大量的语音特征样本进行学习,以生成人声语音特征。
S105、通过人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放。
具体地,在进行语音播放中止决策时,从呼叫线路中提取目标用户方的语音,对目标用户方的语音进行处理,生成目标用户方的语音特征,将目标用户方的语音特征与上述人声语音特征进行对比,若目标用户方的语音特征满足人声语音特征,则判断目标用户方的语音为人声,执行打断操作,即中止语音机器人自动问答中的语音播放;反之,不作处理,继续播放语音机器人的语音。其中,上述目标用户方的语音为实际应用场景中与语音机器人进行交互的用户方语音。
应用本实施例的自助语音服务中的语音播报中止方法时,提取来自用户方的源语音特征数据,使用语音识别技术生成的语音转义数据,标识源语音特征数据的特征,从而生成语音特征样本,使用机器学习技术,对语音特征样本进行学习,生成人声语音特征。最终,使用人声语音特征对呼叫过程中用户方的语音数据特征做判断,快速做出是否中止语音播放打断的决策,缩短决策延迟,提高语音打断的速度,提高用户体验。
优选地,图2是本发明实施例中的形成源语音数据的流程图,上述S101形成源语音数据,如图2所示,包括如下步骤:
S101-1、提取用户方语音:从呼叫线路中提取用户方的音频数据进行线性化处理。
目前存在大量的设备可以用于提取音频数据和信令,形成音频数据流,如语音板卡或ISDN或H.323或SIP语音的网关或IP交换机等,通过这些设备可以直接从呼叫线路中提取音频数据,数据编码格式常用G.711-A-Law。对提取到的音频数据进行线性化处理,得到用户方语音作为源语音样本。
S101-2、对线性化处理后的源语音样本(音频数据)进行分帧和声音特征提取,形成源语音特征数据,包括:
对源语音样本进行分帧处理,将源语音样本中的用户方语音分割成若干帧片,确定每个帧片的大小以及帧片的数量;
通过以下公式,计算每个帧片的能量:
E=b12+b22+b32+b42+…+bn2其中,b1、b2、b3、b4、…、bn表示帧片中的字节;
记录每个帧片的大小、每个帧片的能量以及帧片数量形成源语音特征数据。
优选地,将源语音样本输入语音识别系统进行语音识别,得到语音转译数据,包括:
通过语音识别系统对源语音样本进行语音识别,得到语音识别执行状态以及源语音样本对应语音的语义文本,形成语音转译数据。
优选地,图3是本发明实施例中的形成人声语音特征的流程图,上述S104:通过机器学习算法对所述语音特征样本进行学习,形成人声语音特征,如图3所示,包括如下步骤:
S104-1、通过机器学习技术,对语音特征样本进行学习,生成学习结果的样本参数;
S104-2、通过学习结果的样本参数,对语音特征样本进行回归验证;
S104-3、根据回归验证的结果,判断是否采用新的参数进行下一轮学习;
S104-4、重复上述步骤,形成人声语音特征。
优选地,在S104-1之前,可以预先设定初始的样本参数。
优选地,上述机器学习算法包括但不限于概率模型、统计模型、聚类模型、分类模型、回归模型。需要说明的是,本实施例所提及的各种机器学习模型均为常规的算法,在此不对其原理和训练过程进行赘述。
有选地,上述通过机器学习算法形成的人声语音特征包括判断声音是否有效的能量阈值、静音和有效声音之间的转换频率以及语音特征的最大帧数。
优选地,图4是本发明实施例中执行语音播放中止决策的流程图,S105、通过人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放,如图4所示,包括如下步骤:
S105-1、在呼叫过程中,从呼叫线路中提取来自目标用户方的语音进行线性处理;
S105-2、对目标用户方的语音进行分帧和声音特征提取,并计算语音帧的能量值,形成目标语音特征数据;
S105-3、将目标语音特征数据与人声语音特征进行匹配,以判断是否为人声;
S105-4、若匹配成功,则判定为人声,执行中止自助语音播放的操作,否则,不作出处理。
实施例2
本实施例提供一种自助语音服务中的语音播报中止装置,该装置用于实现上述实施例及优选实施例方式,已经进行过说明的不再赘述,如下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能实现并被构想的。
图5是本发明实施例的自助语音服务中的语音播报中止装置的结构框图,如图5所示,该装置包括:
语音样本提取模块51,用于提取用户方语音作为源语音样本;
源语音特征数据生成模块52,用于对源语音样本进行分帧和声音特征提取,形成源语音特征数据;
语音转译数据生成模块53,用于将源语音样本输入语音识别系统进行语音识别,得到语音转译数据;
语音特征样本生成模块54,用于根据语音转译数据,标识源语音特征数据的特征,形成语音特征样本;
人声特征学习模块55,用于通过机器学习算法对语音特征样本进行学习,形成人声语音特征;
中止操作决策模块56,用于通过人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放。
优选地,图6是本发明实施例中的语音样本提取模块的结构框图;如图6所示,语音样本提取模块51包括:
音频数据提取单元511,用于从呼叫线路中提取用户方的音频数据;
线性化处理单元512,用于对上述用户方的音频数据进行线性化处理;
输出单元513,用于输出线性化处理后的音频数据,得到源语音样本。
优选地,图6是本发明实施例中的源语音特征数据生成模块的结构框图,如图6所示,源语音特征数据生成模块52包括:
源语音样本获取单元521,用于获取源语音样本;
分帧和特征提取单元522,用于对源语音样本进行分帧,计算语音帧能量,对源语音样本进行特征提取;
生成语音特征数据单元523,用于生成语音特征数据。
优选地,图7是本发明实施例中的语音转译数据生成模块的结构框图,如图7所示,语音转译数据生成模块53包括:
源语音样本获取单元531,用于获取源语音样本;
语音识别单元532,用于调用语音识别系统对源语音进行识别;
语音转译数据生成单元533,用于根据识别结果,生成语音转译数据。
优选地,图8是本发明实施例中的语音特征样本生成模块的结构框图,如图8所示,语音特征样本生成模块54,包括:
源语音特征数据获取单元541,用于获取源语音特征数据;
语音转译数据获取单元542,用于获取语音转译数据;
特征识别单元543,用于根据语音转译数据识别源语音特征数据中的语音特征;
生成语音特征样本单元544,用于生成语音特征样本。
优选地,图9是本发明实施例中的人声特征学习模块的结构框图,如图9所示,人声特征学习模块55,包括:
机器学习单元551,用于通过机器学习算法对语音特征样本进行处理;
参数获取单元552,用于获取机器学习产生的样本参数;
结果验证单元553,用于根据样本参数,验证学习结果,并进行回归调整;
生成人声语音特征单元554,用于根据机器学习结果,生成人声语音特征。
优选地,图10是本发明实施例中的中止操作决策模块的结构框图,如图10所示,中止操作决策模块56,包括:
目标语音样本提取单元561,用于提取目标用户方的语音样本,
目标语音特征数据生成单元562,用于对目标用户方的语音样本进行分帧和特征提取,生成目标语音特征数据;
数据匹配单元563,用于将目标语音特征数据与人声语音特征进行匹配,以判断是否为人声;
决策单元564,用于根据匹配结果,判定是否执行中止(打断)自助语音播放操作。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
实施例3
图11为本发明实施例的一种电子设备的结构示意图,如图11所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图11所示。该电子设备包括处理器、存储器、输入装置和输出装置;其中该电子设备中处理器的数量可以是一个或多个,图11中以一个处理器为例;电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接,图11中以通过总线连接为例。
存储器作为一种计算机可读存储介质,可以包括高速随机存取存储器、非易失性存储器等,可用于存储操作系统、软件程序、计算机可执行程序和数据库,如本发明实施例1的自助语音服务中的语音播报中止方法对应的程序指令/模块,还可以包括内存,可用于为操作系统和计算机程序提供运行环境。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。
处理器用于提供计算和控制能力,可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。处理器通过运行存储在存储器中的计算机可执行程序、软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现实施例1的自助语音服务中的语音播报中止方法。
该电子设备的输出装置可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
该电子设备还可包括网络接口/通信接口,该电子设备的网络接口用于与外部的终端通过网络连接通信。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所述更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现实施例1的自助语音服务中的语音播报中止方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
实施例4
本发明实施例提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现自助语音服务中的语音播报中止方法,该方法包括:
提取用户方语音作为源语音样本,对源语音样本进行分帧和声音特征提取,形成源语音特征数据;
将源语音样本输入语音识别系统进行语音识别,得到语音转译数据;
根据语音转译数据,标识源语音特征数据的特征,形成语音特征样本;
通过机器学习算法对语音特征样本进行学习,形成人声语音特征;
通过人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述实施例的自助语音服务中的语音播报中止方法操作,还可以执行本发明任意实施例所提供的自助语音服务中的语音播报中止方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的自助语音服务中的语音播报中止方法。
值得注意的是,上述自助语音服务中的语音播报中止方法的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.一种自助语音服务中的语音播报中止方法,其特征在于,包括以下步骤:
提取用户方语音作为源语音样本,对所述源语音样本进行分帧和声音特征提取,形成源语音特征数据;
将所述源语音样本输入语音识别系统进行语音识别,得到语音转译数据;
根据所述语音转译数据,标识所述源语音特征数据的特征,形成语音特征样本;
通过机器学习算法对所述语音特征样本进行学习,形成人声语音特征;
通过所述人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放。
2.如权利要求1所述的自助语音服务中的语音播报中止方法,其特征在于,所述提取用户方语音,包括:
通过语音板卡或ISDN或H.323或SIP语音的网关或IP交换机从呼叫线路中提取音频数据,并对提取到的所述音频数据进行线性化处理,得到用户方语音。
3.如权利要求1所述的自助语音服务中的语音播报中止方法,其特征在于,所述源语音样本进行分帧和声音特征提取,形成源语音特征数据,包括:
将所述源语音样本中的用户方语音分割成若干帧片,确定每个帧片的大小以及帧片的数量;
通过以下公式,计算所述每个帧片的能量:
E=b12+b22+b32+b42+…+bn2,其中,b1、b2、b3、b4、…、bn表示帧片中的字节;
记录所述每个帧片的大小、每个帧片的能量以及所述帧片的数量形成源语音特征数据。
4.如权利要求1所述的自助语音服务中的语音播报中止方法,其特征在于,所述将所述源语音样本输入语音识别系统进行语音识别,得到语音转译数据,包括:
通过所述语音识别系统对所述源语音样本进行语音识别,得到语音识别执行状态以及所述源语音样本对应语音的语义文本,形成语音转译数据。
5.如权利要求1所述的自助语音服务中的语音播报中止方法,其特征在于,所述机器学习算法为概率模型、统计模型、聚类模型、分类模型、回归模型中任意一种。
6.如权利要求1所述的自助语音服务中的语音播报中止方法,其特征在于,所述人声语音特征包括判断声音是否有效的能量阈值、静音和有效声音之间的转换频率以及语音特征的最大帧数。
7.如权利要求1所述的自助语音服务中的语音播报中止方法,其特征在于,所述通过所述人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放,包括:
在呼叫过程中,提取来自目标用户方的语音,对所述目标用户方的语音进行分帧和声音特征提取,形成目标语音特征数据;
将所述目标语音特征数据与所述人声语音特征进行匹配,以判断是否为人声;
若匹配成功,则判定为人声,执行中止自助语音播放的操作;
否则,不作出处理。
8.一种自助语音服务中的语音播报中止装置,其特征在于,包括:
语音样本提取模块,用于提取用户方语音作为源语音样本;
源语音特征数据生成模块,用于对所述源语音样本进行分帧和声音特征提取,形成源语音特征数据;
语音转译数据生成模块,用于将所述源语音样本输入语音识别系统进行语音识别,得到语音转译数据;
语音特征样本生成模块,用于根据所述语音转译数据,标识所述源语音特征数据的特征,形成语音特征样本;
人声特征学习模块,用于通过机器学习算法对所述语音特征样本进行学习,形成人声语音特征;
中止操作决策模块,用于通过所述人声语音特征,在呼叫过程中判断目标用户方的语音是否为人声,并根据判断结果,确定是否中止自助语音播放。
9.一种电子设备,包括存储器、处理器以及存储所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的自助语音服务中的语音播报中止方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的自助语音服务中的语音播报中止方法。
CN202110366818.5A 2021-04-06 2021-04-06 自助语音服务中的语音播报中止方法、装置、设备及介质 Pending CN113257242A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110366818.5A CN113257242A (zh) 2021-04-06 2021-04-06 自助语音服务中的语音播报中止方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110366818.5A CN113257242A (zh) 2021-04-06 2021-04-06 自助语音服务中的语音播报中止方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113257242A true CN113257242A (zh) 2021-08-13

Family

ID=77220312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110366818.5A Pending CN113257242A (zh) 2021-04-06 2021-04-06 自助语音服务中的语音播报中止方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113257242A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975242A (zh) * 2023-09-22 2023-10-31 北京百悟科技有限公司 语音播报打断处理方法、装置、设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489445A (zh) * 2013-09-18 2014-01-01 百度在线网络技术(北京)有限公司 一种识别音频中人声的方法及装置
WO2016127550A1 (zh) * 2015-02-13 2016-08-18 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
CN110085251A (zh) * 2019-04-26 2019-08-02 腾讯音乐娱乐科技(深圳)有限公司 人声提取方法、人声提取装置及相关产品
CN110517697A (zh) * 2019-08-20 2019-11-29 中信银行股份有限公司 用于交互式语音应答的提示音智能打断装置
CN110661927A (zh) * 2019-09-18 2020-01-07 平安科技(深圳)有限公司 语音交互方法、装置、计算机设备及存储介质
CN111193834A (zh) * 2019-12-16 2020-05-22 北京淇瑀信息科技有限公司 基于用户声音特征分析的人机交互方法、装置和电子设备
CN111508474A (zh) * 2019-08-08 2020-08-07 马上消费金融股份有限公司 一种语音打断方法、电子设备及存储装置
CN112053686A (zh) * 2020-07-28 2020-12-08 出门问问信息科技有限公司 一种音频中断方法、装置以及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103489445A (zh) * 2013-09-18 2014-01-01 百度在线网络技术(北京)有限公司 一种识别音频中人声的方法及装置
WO2016127550A1 (zh) * 2015-02-13 2016-08-18 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
CN110085251A (zh) * 2019-04-26 2019-08-02 腾讯音乐娱乐科技(深圳)有限公司 人声提取方法、人声提取装置及相关产品
CN111508474A (zh) * 2019-08-08 2020-08-07 马上消费金融股份有限公司 一种语音打断方法、电子设备及存储装置
CN110517697A (zh) * 2019-08-20 2019-11-29 中信银行股份有限公司 用于交互式语音应答的提示音智能打断装置
CN110661927A (zh) * 2019-09-18 2020-01-07 平安科技(深圳)有限公司 语音交互方法、装置、计算机设备及存储介质
CN111193834A (zh) * 2019-12-16 2020-05-22 北京淇瑀信息科技有限公司 基于用户声音特征分析的人机交互方法、装置和电子设备
CN112053686A (zh) * 2020-07-28 2020-12-08 出门问问信息科技有限公司 一种音频中断方法、装置以及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975242A (zh) * 2023-09-22 2023-10-31 北京百悟科技有限公司 语音播报打断处理方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US11210461B2 (en) Real-time privacy filter
CN110661927B (zh) 语音交互方法、装置、计算机设备及存储介质
CN107910014B (zh) 回声消除的测试方法、装置及测试设备
JP4838351B2 (ja) キーワード抽出装置
JP2023511104A (ja) ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム
CN108682420B (zh) 一种音视频通话方言识别方法及终端设备
JP5042194B2 (ja) 話者テンプレートを更新する装置及び方法
CN110782907B (zh) 语音信号的发送方法、装置、设备及可读存储介质
CN110766442A (zh) 客户信息验证方法、装置、计算机设备及存储介质
CN110517697A (zh) 用于交互式语音应答的提示音智能打断装置
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
CN113257242A (zh) 自助语音服务中的语音播报中止方法、装置、设备及介质
CN111199751A (zh) 一种麦克风的屏蔽方法、装置和电子设备
CN113284500A (zh) 音频处理方法、装置、电子设备及存储介质
CN112397072A (zh) 语音检测方法、装置、电子设备及存储介质
CN110197663A (zh) 一种控制方法、装置及电子设备
US11606461B2 (en) Method for training a spoofing detection model using biometric clustering
CN111986657B (zh) 音频识别方法和装置、录音终端及服务器、存储介质
CN115019822A (zh) 攻击音频的检测方法、装置、电子设备以及存储介质
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
CN111782860A (zh) 一种音频检测方法及装置、存储介质
CN113205800B (zh) 音频识别方法、装置、计算机设备和存储介质
CN115424619A (zh) 号码状态识别方法及装置、计算机可读存储介质、终端
JP6248677B2 (ja) 会話補助プログラム、会話補助方法、及び会話システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination