CN110517697A - 用于交互式语音应答的提示音智能打断装置 - Google Patents

用于交互式语音应答的提示音智能打断装置 Download PDF

Info

Publication number
CN110517697A
CN110517697A CN201910770867.8A CN201910770867A CN110517697A CN 110517697 A CN110517697 A CN 110517697A CN 201910770867 A CN201910770867 A CN 201910770867A CN 110517697 A CN110517697 A CN 110517697A
Authority
CN
China
Prior art keywords
voiceprint
prompt tone
user
voice response
interactive voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910770867.8A
Other languages
English (en)
Inventor
卢恒娜
赖勇铨
张靖友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Citic Bank Corp Ltd
Original Assignee
China Citic Bank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Citic Bank Corp Ltd filed Critical China Citic Bank Corp Ltd
Priority to CN201910770867.8A priority Critical patent/CN110517697A/zh
Publication of CN110517697A publication Critical patent/CN110517697A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/60Context-dependent security
    • H04W12/69Identity-dependent

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种用于交互式语音应答的提示音智能打断装置,包括:声纹信息储存模块,其用来预先存储用户的声纹信息;声纹特征模型,其用来接收用户的语音流并实时提取出声纹特征;以及声纹特征匹配模块,其用来计算声纹特征模型提取出声纹特征与声纹信息储存模块中预先存储的用户的声纹信息的相似度,当该相似度小于阈值时提示音打断,否则提示音继续。该装置可以实现提示音精准快速打断。

Description

用于交互式语音应答的提示音智能打断装置
技术领域
本发明涉及计算机信息处理技术领域,特别是涉及一种用于交互式语音应答的提示音智能打断装置。
背景技术
交互式语音应答(IVR)系统通常涉及人机交互式对话。常用的一个场景是电话系统通过文本转语音(Text to speech,TTS)技术向用户发出提问,用户听到提问后用语音进行回答,从而实现语音的交互式问答。交互式问答常遇到的一个问题是,系统提示音未播报结束时,用户即开始回答问题,此时会产生提示音和用户声音混合的情况,严重影响用户体验。
如图1所示,现有技术中有一种解决方案是,IVR系统在提出问题时实时检测到用户说话的声音,当检测到用户开始说话时,中断提示音。这个过程称之为提示音打断。检测用户说话声音常采用(Voice activity detection,VAD)算法,对人声和非人声噪声进行建模,找到合适的分类模型实现人声和非人声的分类。
但是,上述采用VAD进行打断的缺点是,只要检测到人声系统就会进行打断。因此,如果背景声有其他人说话会打断,造成系统提示信息的丢失,影响用户体验。
发明内容
本发明的目的在于提供一种用于交互式语音应答的提示音智能打断装置,可以实现提示音精准快速打断。
为实现上述目的,本发明提供了一种用于交互式语音应答的提示音智能打断装置,包括:声纹信息储存模块,其用来预先存储用户的声纹信息;声纹特征模型,其用来接收用户的语音流并实时提取出声纹特征;以及声纹特征匹配模块,其用来计算声纹特征模型提取出声纹特征与声纹信息储存模块中预先存储的用户的声纹信息的相似度,当该相似度小于阈值时提示音打断,否则提示音继续。
可选的或优选的,声纹信息储存模块中预先存储的用户的声纹信息与该用户的身份ID关联。
可选的或优选的,身份ID为手机号码。
可选的或优选的,身份ID为身份证号码。
可选的或优选的,声纹信息储存模块预先存储的用户声纹信息通过该用户的历史通话中截通话声纹来获取。
可选的或优选的,声纹信息储存模块预先存储的用户声纹信息通过交互式语音应答开始时的通话记录获得。
可选的或优选的,声纹特征模型通过用户的若干声音样本训练深度网络得到。
可选的或优选的,声纹特征模型训练时,离线收集至少10万的不同的说话人的声音作为声纹数据集;通过度量学习的方式,对收集到的声音进行离线训练,得到一个用于计算声音相似度的深度网络;其中,离线训练时,在声纹数据集中以随机的方式加入预先收集的背景声音用于增强所述声纹特征模型的鲁棒性;在加入背景声音时直接在原始波形上进行加权求和,或者直接在声谱图上进行加权求和。
可选的或优选的,声纹特征模型包括特征提取算法块,声纹特征模型实时提取声纹特征时,特征提取算法块将实时传入的语音流进行分段并提取声谱图,声谱图输入到深度网络后输出声纹特征向量。
本发明提供的技术方案带来的有益效果是:通过声纹匹配手段,能有效避免用户电话端的背景声音打断IVR提示,同时在用户说话时能正确及时进行打断,为IVR系统提供了更好的用户体验。而且除了能解决IVR提示智能中断的问题,还能在用户来电时验证其身份,通过比对该手机号预存的声纹和来电时说话声纹的方式实现。
附图说明
图1是现有的一种人声打断流程图;
图2是本发明实施例提供的用于交互式语音应答的提示音智能打断装置利用声纹的智能打断流程图;
图3是本发明实施例提供的用于交互式语音应答的提示音智能打断装置中预提取声纹特征向量的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。显然,所描述的实施例实际上仅仅是说明性的或者示例性的,决不作为对本发明及其应用或使用的任何限制。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是,对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的全部细节均已了解的情况下实施。下面对实施例的描述仅仅是为了通过展示本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
如图2和图3所示,本实施例提供一种用于交互式语音应答的提示音智能打断装置,通过声纹匹配实现IVR提示音精准快速打断的功能。
本实施例的方案要求用户的声纹信息已经提前获得。通常有两种方式得到用户的声纹信息,一是在用户历史通话中截通话声纹并与其手机号或身份证号关联,二是在IVR通话开始时记录用户声音用于该通话后续的声纹再匹配。
如图2所示,当用户与IVR系统交互时,若能找到呼入手机对应的声纹信息,则启用声纹打断功能。当系统发出提示音时,实时监听用户的声音并提取其声纹特征进行比对,如果比对通过则打断系统提示音并持续监听用户说话内容直至说话结束;如果比对不通过则继续播放提示音。
本实施例提供的一种用于交互式语音应答的提示音智能打断装置,包括声纹信息储存模块、声纹特征模型以及声纹特征匹配模块,声纹信息储存模块用来预先存储用户的声纹信息,声纹特征模型用来接收用户的语音流并实时提取出声纹特征,声纹特征匹配模块用来计算所述声纹特征模型提取出声纹特征与所述声纹信息储存模块中预先存储的用户的声纹信息的相似度,当该相似度小于阈值时提示音打断,否则提示音继续。具体地:
针对声纹特征模型,本发明对所用的声纹特征模型不进行限定,一些常用的CNN模型如Resnet,VGG等均可以作为本发明的模型。本发明也不限定输入到CNN的数据预处理方式,一些常用的声谱图提取方式如计算spectrumgraph,或者MFCC均可以用于对原始波形数据进行处理。
特别需要说明的是,在声纹识别模型训练过程中,为了应用IVR场景中的背景声,需要加入背景杂音作为负样本,以便在识别过程中更好区分背景杂音中的人声。
训练的过程可以采用类似人脸识别或者其它基于metric learning的方式。
具体地,声纹特征模型训练方法如下:
1、离线收集大量(例如10万)的不同的说话人的声音作为声纹数据集;
2、通过度量学习(metric learning)的方式,对收集到的声音进行离线训练,得到一个用于计算声音相似度的深度网络,即所述声纹特征模型;
3、所述的离线训练包含数据增广的方式,即在声纹数据集中以随机的方式加入预先收集的背景声音(例如马路、商场等)用于增强所述声纹特征模型的鲁棒性;
4、所述加入背景声音的方式包括直接在原始波形上进行加权求和,或者直接在声谱图(spectrumgraph)上进行加权求和。
如下图3所示,关于提取实时声纹特征,训练完成后的模型用于提取用户语音。用户语音流实时传入到特征提取算法块,算法对语音流进行分段,提取声谱图并输入到深度网络中。
如图2所示,图2示出智能打断的流程。接收用户端发出的声音并提取声纹特征向量,若计算的距离小于设定的阈值则说明声音来自该用户,因此打断系统提示,否则不打断并持续监听用户说话内容。具体地,当系统发出提示音的同时,用户可能也同时在说话。系统实时监听用户端传来的声音信号流,并分段进行预处理后输入到训练好的声纹模型,提取用户端的语音的声纹特征向量。最后,该向量与该用户在数据库中预存的声纹特征向量进行相似度比较,计算出相似度。当相似度小于一定阈值时打断系统提示音,并持续监听其说话的内容,否则不进行打断并持续监听和播放提示音。
关于相似度计算
本发明提取的声纹特征为一个高维的向量。比较两个声纹是否匹配是通过计算这两个向量之间的距离实现。假设向量分别为X和Y,则距离可以采用欧式距离:
如果向量X和Y已经经过了则归一化,则还可以采用cosine距离,即:
当距离值D(X,Y)≤阈值t时,表示声纹X和Y匹配,否则不匹配。
需要说明的是,本实施例提供的装置的应用场景包括但不限于如下场景:
1、应用于IVR系统中,主要是一些需要与用户电话交互的场景,比如银行电话客服系统。
2、应用于手机app的智能语音交互中。
综上,本实施例提供的用于交互式语音应答的提示音智能打断装置,通过声纹匹配手段,能有效避免用户电话端的背景声音打断IVR提示,同时在用户说话时能正确及时进行打断,为IVR系统提供了更好的用户体验。而且除了能解决IVR提示智能中断的问题,还能在用户来电时验证其身份,通过比对该手机号预存的声纹和来电时说话声纹的方式实现。
除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利发明说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
以上所述仅为本发明的示例实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种用于交互式语音应答的提示音智能打断装置,其特征在于,包括:
声纹信息储存模块,其用来预先存储用户的声纹信息;
声纹特征模型,其用来接收用户的语音流并实时提取出声纹特征;以及
声纹特征匹配模块,其用来计算所述声纹特征模型提取出声纹特征与所述声纹信息储存模块中预先存储的用户的声纹信息的相似度,当该相似度小于阈值时提示音打断,否则提示音继续。
2.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置,其特征在于,所述声纹信息储存模块中预先存储的用户的声纹信息与该用户的身份ID关联。
3.根据权利要求2所述的用于交互式语音应答的提示音智能打断装置,其特征在于,所述身份ID为手机号码。
4.根据权利要求2所述的用于交互式语音应答的提示音智能打断装置,其特征在于,所述身份ID为身份证号码。
5.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置,其特征在于,所述声纹信息储存模块预先存储的用户声纹信息通过该用户的历史通话中截通话声纹来获取。
6.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置,其特征在于,所述声纹信息储存模块预先存储的用户声纹信息通过交互式语音应答开始时的通话记录获得。
7.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置,其特征在于,所述声纹特征模型通过用户的若干声音样本训练深度网络得到。
8.根据权利要求7所述的用于交互式语音应答的提示音智能打断装置,其特征在于,所述声纹特征模型训练时,离线收集至少10万的不同的说话人的声音作为声纹数据集;通过度量学习的方式,对收集到的声音进行离线训练,得到一个用于计算声音相似度的深度网络;其中,离线训练时,在声纹数据集中以随机的方式加入预先收集的背景声音用于增强所述声纹特征模型的鲁棒性;在加入背景声音时直接在原始波形上进行加权求和,或者直接在声谱图上进行加权求和。
9.根据权利要求1所述的用于交互式语音应答的提示音智能打断装置,其特征在于,所述声纹特征模型包括特征提取算法块,所述声纹特征模型实时提取声纹特征时,所述特征提取算法块将实时传入的所述语音流进行分段并提取声谱图,所述声谱图输入到深度网络后输出声纹特征向量。
CN201910770867.8A 2019-08-20 2019-08-20 用于交互式语音应答的提示音智能打断装置 Pending CN110517697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910770867.8A CN110517697A (zh) 2019-08-20 2019-08-20 用于交互式语音应答的提示音智能打断装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910770867.8A CN110517697A (zh) 2019-08-20 2019-08-20 用于交互式语音应答的提示音智能打断装置

Publications (1)

Publication Number Publication Date
CN110517697A true CN110517697A (zh) 2019-11-29

Family

ID=68625905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910770867.8A Pending CN110517697A (zh) 2019-08-20 2019-08-20 用于交互式语音应答的提示音智能打断装置

Country Status (1)

Country Link
CN (1) CN110517697A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185392A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于供电智能客户的语音识别处理系统
CN112185393A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于供电智能客户的语音识别处理方法
CN112233679A (zh) * 2020-10-10 2021-01-15 安徽讯呼信息科技有限公司 一种人工智能语音识别系统
CN113257242A (zh) * 2021-04-06 2021-08-13 杭州远传新业科技有限公司 自助语音服务中的语音播报中止方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069221B2 (en) * 2001-10-26 2006-06-27 Speechworks International, Inc. Non-target barge-in detection
CN1856821A (zh) * 2003-07-31 2006-11-01 艾利森电话股份有限公司 允许声音打断的系统与方法
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
CN106356059A (zh) * 2015-07-17 2017-01-25 中兴通讯股份有限公司 语音控制方法、装置及投影仪设备
CN108122554A (zh) * 2017-12-25 2018-06-05 广东小天才科技有限公司 一种在充电状态下麦克风设备的控制方法及麦克风设备
US10157618B2 (en) * 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
CN109215646A (zh) * 2018-08-15 2019-01-15 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质
CN109509471A (zh) * 2018-12-28 2019-03-22 浙江百应科技有限公司 一种基于vad算法打断智能语音机器人对话的方法
CN109903758A (zh) * 2017-12-08 2019-06-18 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069221B2 (en) * 2001-10-26 2006-06-27 Speechworks International, Inc. Non-target barge-in detection
CN1856821A (zh) * 2003-07-31 2006-11-01 艾利森电话股份有限公司 允许声音打断的系统与方法
US10157618B2 (en) * 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
CN106356059A (zh) * 2015-07-17 2017-01-25 中兴通讯股份有限公司 语音控制方法、装置及投影仪设备
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
CN109903758A (zh) * 2017-12-08 2019-06-18 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
CN108122554A (zh) * 2017-12-25 2018-06-05 广东小天才科技有限公司 一种在充电状态下麦克风设备的控制方法及麦克风设备
CN109215646A (zh) * 2018-08-15 2019-01-15 北京百度网讯科技有限公司 语音交互处理方法、装置、计算机设备及存储介质
CN109509471A (zh) * 2018-12-28 2019-03-22 浙江百应科技有限公司 一种基于vad算法打断智能语音机器人对话的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185392A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于供电智能客户的语音识别处理系统
CN112185393A (zh) * 2020-09-30 2021-01-05 深圳供电局有限公司 一种用于供电智能客户的语音识别处理方法
CN112233679A (zh) * 2020-10-10 2021-01-15 安徽讯呼信息科技有限公司 一种人工智能语音识别系统
CN112233679B (zh) * 2020-10-10 2024-02-13 安徽讯呼信息科技有限公司 一种人工智能语音识别系统
CN113257242A (zh) * 2021-04-06 2021-08-13 杭州远传新业科技有限公司 自助语音服务中的语音播报中止方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11670304B2 (en) Speaker recognition in the call center
CN110517697A (zh) 用于交互式语音应答的提示音智能打断装置
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
JP2023511104A (ja) ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム
CA2420679C (en) Speech recognition method and system to determine the status of an outbound telephone call
US8694316B2 (en) Methods, apparatus and computer programs for automatic speech recognition
EP3327720A1 (en) User voiceprint model construction method, apparatus, and system
CN110149441A (zh) 骚扰电话拦截方法、装置、设备及存储介质
CN110070875B (zh) 一种基于语音关键词检测和声纹的反电信诈骗方法
KR20060022156A (ko) 분산 음성 인식 시스템 및 그 방법
CN110349586B (zh) 电信诈骗检测方法及装置
CN113744742B (zh) 对话场景下的角色识别方法、装置和系统
WO2021051504A1 (zh) 异常通话对象的判断方法、装置、计算机设备和存储介质
CN109273012B (zh) 一种基于说话人识别和数字语音识别的身份认证方法
US20010056345A1 (en) Method and system for speech recognition of the alphabet
CN110556114B (zh) 基于注意力机制的通话人识别方法及装置
CN108040185B (zh) 一种识别骚扰电话的方法及设备
AU670379B2 (en) System and method for passive voice verification in a telephone network
EP1096474A2 (en) Speaker verification system and method
CN112151070B (zh) 一种语音检测的方法、装置及电子设备
Das et al. Application of automatic speech recognition in call classification
CN112565242B (zh) 基于声纹识别的远程授权方法、系统、设备及存储介质
JP2002252705A (ja) 話者id検出方法及び装置
JP2000148187A (ja) 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体
KR20040082756A (ko) 비음성 제거에 의한 음성 추출 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129