CN109005303A - 交互语音应答方法及装置 - Google Patents
交互语音应答方法及装置 Download PDFInfo
- Publication number
- CN109005303A CN109005303A CN201811087470.0A CN201811087470A CN109005303A CN 109005303 A CN109005303 A CN 109005303A CN 201811087470 A CN201811087470 A CN 201811087470A CN 109005303 A CN109005303 A CN 109005303A
- Authority
- CN
- China
- Prior art keywords
- voice
- information
- vocal print
- menu
- verbal instructions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 230000003993 interaction Effects 0.000 title claims abstract description 71
- 230000004044 response Effects 0.000 title claims abstract description 68
- 230000001755 vocal effect Effects 0.000 claims abstract description 382
- 238000012545 processing Methods 0.000 claims description 45
- 238000012790 confirmation Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005266 casting Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 39
- 238000013500 data storage Methods 0.000 description 18
- 210000000352 storage cell Anatomy 0.000 description 15
- 230000006870 function Effects 0.000 description 13
- 230000002452 interceptive effect Effects 0.000 description 5
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 229910052709 silver Inorganic materials 0.000 description 4
- 239000004332 silver Substances 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种交互语音应答方法及装置,该方法包括:接收语音口令信息;根据所述语音口令信息进行语音声纹识别,得到声纹特征值;根据所述声纹特征值匹配查询预先存储的声纹特征;在匹配查询到声纹特征的情况下,根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到所述声纹特征值对应的语音菜单信息;所述语音菜单信息用于获取相应的语音菜单文件,以报读相应的语音菜单。上述方案能够通过用户自定义方式简化自助语音菜单操作。
Description
技术领域
本发明涉及自助语音技术领域,尤其涉及一种交互语音应答方法及装置。
背景技术
电话自助语音系统即交互语音应答系统(Interactive Voice Response System,IVR)的基本功能是通过电话实现人机之间的语音交互。交互语音应答系统的呼叫中心能为用户提供自助服务。目前,银行广泛使用的电话自助语音系统需要客户通过数字键盘键入卡号、密码完成系统登录,需要用户听完语音菜单再选择所需功能。用户需要面对复杂、冗长、繁琐的IVR菜单,即使熟练用户执行一个操作也要连续按键几次才可能得到相应的服务。大部分用户由于对IVR流程不熟悉,需要逐层听取菜单提示,根据引导一步步进行按键操作,这很可能会使用户迷失在层层嵌套的菜单中,导致用户体验较差。
现阶段有银行电话体系引入了语音识别技术,通过将用户语音信号转变为文本信号,对文本信息中文本语义进行识别后与菜单文本做匹配,以此能够起到简化、加快语音菜单引导的作用。尽管如此,在实际业务场景中,用户每次使用电话银行一般都有一定目的性,而目前尚无法实现根据用户目的快速引导用户进入对应的功能服务分支。
发明内容
有鉴于此,本发明提供了一种交互语音应答方法及装置,以通过用户自定义方式简化自助语音菜单操作。
为了实现上述目的,本发明采用如下方案:
在本发明一实施例中,交互语音应答方法,包括:接收语音口令信息;根据所述语音口令信息进行语音声纹识别,得到声纹特征值;根据所述声纹特征值匹配查询预先存储的声纹特征;在匹配查询到声纹特征的情况下,根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到所述声纹特征值对应的语音菜单信息;所述语音菜单信息用于获取相应的语音菜单文件,以报读相应的语音菜单。
在本发明一实施例中,交互语音应答方法,包括:接收来电请求,并根据所述来电请求输出播报语音,以提示用户选择进入语音口令入口;接收从所述语音口令入口输入的语音口令信息,并发送所述语音口令信息,以获取所述语音口令信息对应的语音菜单文件;所述语音菜单文件是根据语音菜单信息获取,所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据所述语音口令信息进行语音声纹识别得到;根据所述语音菜单文件输出菜单报读语音。
在本发明一实施例中,交互语音应答方法,包括:接收语音菜单信息,并根据所述语音菜单信息获取语音菜单文件;所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据用户录入的语音口令进行语音声纹识别得到;发送所述语音菜单文件,以输出相应的菜单报读语音;接收根据所述菜单报读语音返回的进行相应业务处理的确认信息,并根据所述进行相应业务处理的确认信息进行业务处理。
在本发明一实施例中,交互语音应答装置,包括:口令信息接收模块,用于:接收语音口令信息;声纹特征提取模块,用于:根据所述语音口令信息进行语音声纹识别,得到声纹特征值;声纹特征匹配模块,用于:根据所述声纹特征值匹配查询预先存储的声纹特征;菜单信息获取模块,用于:在匹配查询到声纹特征的情况下,根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到所述声纹特征值对应的语音菜单信息;所述语音菜单信息用于获取相应的语音菜单文件,以报读相应的语音菜单。
在本发明一实施例中,交互语音应答装置,包括:入口提示模块,用于:接收来电请求,并根据所述来电请求输出播报语音,以提示用户选择进入语音口令入口;语音接收模块,用于:接收从所述语音口令入口输入的语音口令信息,并发送所述语音口令信息,以获取所述语音口令信息对应的语音菜单文件;所述语音菜单文件是根据语音菜单信息获取,所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据所述语音口令信息进行语音声纹识别得到;菜单报读模块,用于:根据所述语音菜单文件输出菜单报读语音。
在本发明一实施例中,交互语音应答装置,包括:文件获取模块,用于:接收语音菜单信息,并根据所述语音菜单信息获取语音菜单文件;所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据用户录入的语音口令进行语音声纹识别得到;文件发送模块,用于:发送所述语音菜单文件,以输出相应的菜单报读语音;业务处理模块,用于:接收根据所述菜单报读语音返回的进行相应业务处理的确认信息,并根据所述进行相应业务处理的确认信息进行业务处理。
在本发明一实施例中,电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例所述方法的步骤。
在本发明一实施例中,计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所述方法的步骤。
本发明的交互语音应答方法、交互语音应答装置、电子设备及计算机可读存储介质,通过根据语音口令信息进行语音声纹识别得到声纹特征值;根据该声纹特征值匹配查询预先存储的声纹特征,并根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到该声纹特征值对应的语音菜单信息,能够使用户根据自定义语音口令快速达到相应语音菜单,从而简化用户登录自助语音系统和菜单选择的过程。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的交互语音应答方法的应用场景示意图;
图2是本发明一实施例的交互语音应答方法的流程示意图;
图3是本发明另一实施例的交互语音应答方法的流程示意图;
图4是本发明一实施例中根据语音口令信息进行语音声纹识别得到声纹特征值的方法流程示意图;
图5是本发明另一实施例的交互语音应答方法的流程示意图;
图6是本发明一实施例中的根据语音菜单文件输出菜单报读语音的方法流程示意图;
图7是本发明另一实施例的交互语音应答方法的流程示意图;
图8是本发明另一实施例的交互语音应答方法的流程示意图;
图9是本发明另一实施例的交互语音应答方法的流程示意图;
图10是本发明一实施例的交互语音应答装置的结构示意图;
图11是本发明一实施例的交互语音应答装置的结构示意图;
图12是本发明一实施例的交互语音应答装置的结构示意图;
图13是本发明一实施例的系统结构示意图;
图14是本发明一实施例中电话银行IVR服务器的内部结构示意图;
图15是本发明一实施例中的语音口令服务器的内部结构示意图;
图16是本发明一实施例中存储数据库的表结构示意图;
图17是本发明一实施例的方法中进行注册处理的交互示意图;
图18是本发明一实施例的方法中的自助语音交易的交互示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
为克服了自助语音菜单(例如,电话银行客户菜单)操作繁琐的缺陷,本发明实施例基于声纹识别提供了一种交互语音应答方法。声纹识别采用的是人体语音特征,识别的声纹特征能够表示用户身份的唯一性,所以,基于说话者声音的声纹验证技术可以用于基于语音的电话远程验证。本发明通过很好地结合基于用户声纹的菜单自定义功能和菜单选择功能,来为用户提供更好的自助语音服务。
图1是本发明一实施例的交互语音应答方法的应用场景示意图。参见图1,在一个应用场景中,可以涉及客户端1、自助语音服务器2、语音口令服务器3及后台服务器4等装置中的一个或多个。其中,自助语音服务器2可分别与客户端1、语音口令服务器3及后台服务器4连接,语音口令服务器3可分别与客户端1、自助语音服务器2及后台服务器4连接。在另一些应用场景中,可以仅包含自助语音服务器2、语音口令服务器3及后台服务器4其中之一或其中两个,每一服务器的功能可由其他服务器代替实现。
该客户端1可以是手机银行客户端,例如,可以通过自定义语音口令录入和电话银行菜单选择完成系统注册操作,可以通过自定义的语音口令呼入电话银行系统的菜单功能。该自助语音服务器2可以是电话银行交互语音应答(IVR)服务器,例如,可以对用户来电进行处理,引导用户进入自定义语音口令入口,并对电话银行交易进行报读。该语音口令服务器3可以对用户自定义的语音口令信息做处理,例如,可以对用户自定义语音口令的注册和识别。后台服务器4可以包含主机核心系统,例如,可以协助自定义语音口令注册过程中对用户身份的验证,同时存储用户基本信息以及电话银行自助语音菜单,且可以访问主机核心系统发送交易报文,待主机核心系统协助完成交易。
下面将分别从自助语音服务器2、语音口令服务器3及后台服务器4的角度说明本发明的原理和构思。该些角度仅是为便于理解本发明而所举例子,并不限定本发明的保护范围。
图2是本发明一实施例的交互语音应答方法的流程示意图。参见图2,从语音口令服务器3的角度来看,一些实施例的交互语音应答方法,可包括:
步骤S110:接收语音口令信息;
步骤S120:根据所述语音口令信息进行语音声纹识别,得到声纹特征值;
步骤S130:根据所述声纹特征值匹配查询预先存储的声纹特征;
步骤S140:在匹配查询到声纹特征的情况下,根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到所述声纹特征值对应的语音菜单信息;所述语音菜单信息用于获取相应的语音菜单文件,以报读相应的语音菜单。
上述步骤S110~步骤S140可以由语音口令服务器3执行,或者由其他电子设备执行。可以用于提供各种自助语音服务的系统,例如电话银行服务的系统。
在上述步骤S110中,该语音口令信息可以是用户从自助语音服务器2提供的语音口令入口输入的语音信息,例如,通过手机或固定电话拨打电话银行服务号码呼入语音口令。用户呼入语音口令信息时,还可以通过按键输入的其他信息,例如身份证号、电话号码等。在接收语音口令信息的同时,还可以接收其他信息,例如用户身份信息、控制报文等,通过解析控制报文,可以判断是否需要对该语音口令信息进行识别。
在上述步骤S120中,可以使用各种方法进行声纹识别,例如,基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和Gaussian Mixed Model(高斯混合模型,GMM)的建模方法。
在上述步骤S130中,预先存储的声纹特征可以存储在声音信息表中,除了声纹特征,该声音信息表还可以包含客户编号和声纹编号等信息。客户编号、声纹编号及声纹特征等信息可以具有设定的对应关系。一个客户编号可能对应多个声纹特征,一个声纹特征一般对应一个声纹编号。可以根据所述声纹特征值遍历查询预先存储的声纹特征,并进行匹配比较,来确定是否预先存储了所述声纹特征值。在其他实施例中,可以首先根据用户按键输入的用户身份信息从声音信息表中筛选出的该用户的客户编号或用户信息对应的所有声纹特征,再根据所述声纹特征值匹配查询该些声纹特征,以此能够提高匹配查询的效率。
在上述步骤S140中,若匹配查询到声纹特征,可以认为该用户已注册,预先提供了该语音口令信息。声纹特征与语音菜单信息的对应关系和所述声纹特征值可以通过引导用户注册来获取。声纹特征与语音菜单信息的对应关系可以通过一个或多个数据表来实现。语音菜单信息可以是自助语音服务器2中的语音菜单编号。例如,通过一个数据表实现时,该数据表中可以包含客户编号、声纹编号、声纹特征及语音菜单编号的对应关系,一个声纹编号可以对应一个语音菜单编号。通过两个数据表实现时,其中一个数据表可以包括客户编号、声纹编号及声纹特征的对应关系,另一个数据表可以包括客户编号、声纹编号及语音菜单编号,此时,可以先根据声纹特征查询其中一个数据表得到声纹编号,再根据声纹编号查询另一个数据表得到语音菜单编号。根据语音菜单信息可以从后台服务器4获取相应的语音菜单文件,语音菜单文件可以提供给自助语音服务器2进行语音菜单报读。
本实施例中,通过根据语音口令信息进行语音声纹识别得到声纹特征值;根据该声纹特征值匹配查询预先存储的声纹特征,并根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到该声纹特征值对应的语音菜单信息,能够使用户根据自定义语音口令快速达到相应语音菜单,从而简化用户登录自助语音系统和菜单选择的过程。
图3是本发明另一实施例的交互语音应答方法的流程示意图。参见图3,一些实施例,图2所示的交互语音应答方法,还可包括:
步骤S150:在未匹配查询到声纹特征的情况下,发送匹配查询失败的结果,以生成语音口令注册提示信息;
步骤S160:接收根据所述语音口令注册提示信息返回的语音口令注册请求;所述语音口令注册请求包括语音口令;
步骤S170:对所述语音口令进行声纹特征提取,在提取声纹特征成功后,存储所述语音口令的声纹特征,并发送语音处理状态信息以获取语音菜单信息;
步骤S180:接收根据所述语音处理状态信息返回的语音菜单信息,并将返回的语音菜单信息与所述语音口令的声纹特征关联存储。
对于未进行语音口令注册的用户,不能匹配查询到声纹特征。上述步骤S150~步骤S180可以由语音口令服务器3执行。通过上述步骤S150~步骤S180可以用于实现用户注册。
在上述步骤S150中,若未匹配查询到声纹特征,可以认为用户未注册。此时,可以通过语音告知用户未注册,并可以提示播报语音,引导用户选择进入语音口令自定义的自助语音提示入口,还可以提示用户进行语音口令的注册和自助语音系统的菜单选择,并例如可以提示客户“确认注册请按1,取消请按2”。
在上述步骤S160中,若用户确认进行注册,用户可以通过电话按键交互,确认注册交易。接下来,可以提示用户录入语音口令,此时,可以由自助语音服务器2生成语音口令注册请求,发送给语音口令服务器3。另一实施例中,在提示用户录入语音口令之前,可以进行用户身份验证。
在上述步骤S170中,可以使用各种方法进行声纹识别,例如,基于MFCC和GMM的建模方法进行声纹识别。该语音处理状态信息可以是声纹识别成功。进而,可以提示用户选择与该语音口令信息对应的语音菜单,可以通过根据提示在自助语音服务器2播报的菜单中进行按键选择实现。
在上述步骤S180中,该语音菜单信息可以是自助语音系统中的语音菜单编号。通过将语音菜单信息与所述语音口令的声纹特征关联存储,可以建立语音菜单信息与唯一声纹特征的映射关系。
图4是本发明一实施例中根据语音口令信息进行语音声纹识别得到声纹特征值的方法流程示意图。如图4所示,上述步骤S120,即,根据所述语音口令信息进行语音声纹识别,得到声纹特征值,可包括:
步骤S121:根据所述语音口令信息计算得到Mel倒谱系数;
步骤S122:通过GMM方法根据所述Mel倒谱系数进行建模,得到声纹特征值。
本实施例中,使用基于MFCC和GMM的建模方法,首先计算得到Mel倒谱系数,再通过GMM进行建模,得到能代表正确表征声纹信息的特征值。
图5是本发明另一实施例的交互语音应答方法的流程示意图。参见图5,从自助语音服务器2的角度来看,一些实施例的交互语音应答方法,可包括:
步骤S210:接收来电请求,并根据所述来电请求输出播报语音,以提示用户选择进入语音口令入口;
步骤S220:接收从所述语音口令入口输入的语音口令信息,并发送所述语音口令信息,以获取所述语音口令信息对应的语音菜单文件;所述语音菜单文件是根据语音菜单信息获取,所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据所述语音口令信息进行语音声纹识别得到;
步骤S230:根据所述语音菜单文件输出菜单报读语音。
上述步骤S210~步骤S230可以由自助语音服务器2执行。该自助语音服务器2可以是各种自助语音系统,例如电话银行自助语音系统。
在上述步骤S210中,用户可以通过手机或固定电话拨打自助语音服务器2。自助语音服务器2接收到来电请求后,用户可以根据播报语音,进入新增的语音口令入口,说出口令信息。
在上述步骤S220中,可以从后台服务器4获取语音口令信息对应的语音菜单文件。自助语音服务器2中的每一菜单分支均可设置语音菜单编号,该语音菜单信息就可以是自助语音服务器2中的语音菜单编号。可以利用现有各种方法进行语音声纹识别,例如基于MFCC和GMM的建模方法,得到所述声纹特征值。声纹特征与语音菜单信息的对应关系可以通过注册,由用户录入语音口令并选择相应的语音菜单,并做进一步处理得到。
本实施例中,利用根据语音口令信息进行语音声纹识别得到的声纹特征值和根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到的语音菜单信息,能够使用户根据自定义语音口令快速达到相应语音菜单,从而简化用户登录自助语音系统和菜单选择的过程。
图6是本发明一实施例中的根据语音菜单文件输出菜单报读语音的方法流程示意图。参见图6,上述步骤S230,即,根据所述语音菜单文件输出菜单报读语音,可包括:
步骤S231:根据所述语音口令信息对应的用户信息判断所述用户信息对应的语速档位,并根据判断结果生成语速控制标志;所述用户信息是根据所述语音口令信息的所述声纹特征值查询预先建立的声纹特征与用户信息的对应关系得到;
步骤S232:根据所述语速控制标志扫描所述语音菜单文件,并输出相应的菜单报读语音。
在上述步骤S231中,该用户信息可以是用户基本信息,例如出生日期等。该用户信息可以由语音口令服务器3在匹配出声纹特征后,查询预先存储的对应该声纹特征的用户信息,并发给语音自助服务器2。可以针对用户年龄预先设置不同的语速档位,可以预先设定例如年龄和语速档位的对应关系,根据语音口令信息对应的年龄查找该对应关系可以得到相应的语速档位。例如,可以在标准语速控制在约150个词/分钟基础上,分别采用60%、80%、100%、120%,140%五个等级对语音播报语速进行控制。在上述步骤S232中,该语速控制标志可以是语速对应的控制标签。
本实施例中,根据语音口令信息对应的用户信息判断该用户信息对应的语速档位,并根据判断结果生成语速控制标志,并根据所述语速控制标志扫描所述语音菜单文件,并输出相应的菜单报读语音,能够实现根据用户情况以不同语速报读菜单,提升了用户体验。
图7是本发明另一实施例的交互语音应答方法的流程示意图。参见图7,图5所示交互语音应答方法,还可包括:
步骤S240:在未获取到所述语音口令信息对应的语音菜单文件的情况下,输出进行语音口令注册的提示语音,以获取确认注册的信息;
步骤S250:获取根据所述确认注册的信息返回的用户身份验证结果;在用户身份验证成功的情况下,输出进行语音口令录入的提示语音;
步骤S260:接收根据所述进行语音口令录入的提示语音录入的语音口令,并根据录入的语音口令发送语音口令注册请求;
步骤S270:接收根据所述语音口令注册请求返回的语音处理状态信息,并根据所述语音处理状态信息输出选择语音菜单的提示信息,以获取选择的语音菜单的信息,用于生成录入的语音口令与选择的语音菜单的信息的对应关系。
在上述步骤S240中,在前述步骤S220中,若未匹配查询到语音菜单信息,则可认为用户未注册,所以无法得到所述语音口令信息对应的语音菜单文件,此时可以开始提示用户进行注册。
在上述步骤S250中,可以提示用户进行语音口令的注册和菜单选择,例如可以提示客户“确认注册请按1,取消请按2”。在此之前,可以通过电子和介质双重认证用户身份,以此可以提高私密性和交易安全性。如果验证失败,可以语音提示用户,用户接收认证失败信息,该分支流结束。
在上述步骤S260中,根据该语音口令注册请求,可以对语音口令进行处理,例如提取声纹特征,并存储提取的声纹特征。
在上述步骤S270中,该语音处理状态信息为处理完毕或成功提取声纹特征的情况下,可以进一步提示用户选择语音菜单。
本实施例中,通过上述步骤S240~步骤S270可以实现语音引导用户进行注册,建立语音口令与选择的语音菜单的映射关系。
图8是本发明另一实施例的交互语音应答方法的流程示意图。参见图8,从后台服务器4的角度来看,一些实施例的交互语音应答方法,可包括:
步骤S310:接收语音菜单信息,并根据所述语音菜单信息获取语音菜单文件;所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据用户录入的语音口令进行语音声纹识别得到;
步骤S320:发送所述语音菜单文件,以输出相应的菜单报读语音;
步骤S330:接收根据所述菜单报读语音返回的进行相应业务处理的确认信息,并根据所述进行相应业务处理的确认信息进行业务处理。
上述步骤S310~步骤S330可以由后台服务器4执行。
在上述步骤S310中,该语音菜单信息可以是自助语音系统的语音菜单编号,后台服务器4中可以存储有各种语音菜单文件,通过语音菜单编号可以查询到相应的语音菜单文件。可以利用现有各种方法进行语音声纹识别,例如基于MFCC和GMM的建模方法,得到所述声纹特征值。声纹特征与语音菜单信息的对应关系可以通过注册,由用户录入语音口令并选择相应的语音菜单,并做进一步处理得到。在上述步骤S320中,可以由自助语音服务器2进行菜单报读语音。在上述步骤S330中,进入相应的菜单后,用户可以根据语音提示进行交易,发送进行相应业务处理的确认信息至后台服务器4。该确认信息可包括交易所需信息。
本实施例中,利用根据语音口令信息进行语音声纹识别得到的声纹特征值和根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到的语音菜单信息,能够协助使用户根据自定义语音口令快速达到相应语音菜单,从而简化用户登录自助语音系统和菜单选择的过程。
图9是本发明另一实施例的交互语音应答方法的流程示意图。参见图9,图8所示的交互语音应答方法,在步骤S310之前,即,接收语音菜单信息之前,还可包括:
步骤S340:接收确认注册的信息,根据所述确认注册的信息生成并发送验证码;所述确认注册的信息包括用户通信地址;
步骤S350:接收用户输入的验证码,并根据发送的验证码和用户输入的验证码进行判断,生成并发送用户身份验证结果;
步骤S360:根据所述用户身份验证结果查询得到预先存储的用户信息,并发送所述用户信息,以将所述用户信息与所述声纹特征值进行关联存储。
上述步骤S340~步骤S360可以由后台服务器4执行。
在上述步骤S340中,该确认注册的信息可以包含用户通信地址,该用户通信地址例如可以是手机号码。该用户通信地址可以由用户输入,或者可以由自助语音服务器2根据识别来电号码得到并发送给后台服务器4。
在上述步骤S350中,该验证码可以是手机验证码。如果判断一致,则用户身份验证成功,否则验证失败,若验证失败,可发送提示信息至自助语音服务器2,进行语音报读。
在上述步骤S360中,在用户身份验证结果为成功的情况下,可以查询得到预先存储的用户信息,该用户信息可以是用户基本信息,可以包括出生日期、姓名、客户编号等。
本实施例中,通过上述步骤S340~步骤S360,可以在用户注册录入之前,实现对用户身份的认证,以进一步提高私密性和交易安全性。
基于与图2、图5、图8所示的交互语音应答方法相同的发明构思,本申请实施例还提供了一种交互语音应答装置,如下面实施例所述。由于该交互语音应答装置解决问题的原理与交互语音应答方法相似,因此该交互语音应答装置的实施可以参见交互语音应答方法的实施,重复之处不再赘述。
图10是本发明一实施例的交互语音应答装置的结构示意图。如图10所示,一些实施例的交互语音应答装置,可包括:口令信息接收模块410、声纹特征提取模块420、声纹特征匹配模块430及菜单信息获取模块440,上述各模块顺序连接。
口令信息接收模块410,用于:接收语音口令信息;
声纹特征提取模块420,用于:根据所述语音口令信息进行语音声纹识别,得到声纹特征值;
声纹特征匹配模块430,用于:根据所述声纹特征值匹配查询预先存储的声纹特征;
菜单信息获取模块440,用于:在匹配查询到声纹特征的情况下,根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到所述声纹特征值对应的语音菜单信息;所述语音菜单信息用于获取相应的语音菜单文件,以报读相应的语音菜单。
本实施例的交互语音应答装置可以是上述语音口令服务器3或者其他电子装置。
图11是本发明一实施例的交互语音应答装置的结构示意图。如图11所示,一些实施例的种交互语音应答装置,可包括:入口提示模块510、语音接收模块520及菜单报读模块530,上述各模块顺序连接。
入口提示模块510,用于:接收来电请求,并根据所述来电请求输出播报语音,以提示用户选择进入语音口令入口;
语音接收模块520,用于:接收从所述语音口令入口输入的语音口令信息,并发送所述语音口令信息,以获取所述语音口令信息对应的语音菜单文件;所述语音菜单文件是根据语音菜单信息获取,所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据所述语音口令信息进行语音声纹识别得到;
菜单报读模块530,用于:根据所述语音菜单文件输出菜单报读语音。
本实施例的交互语音应答装置可以是上述自助语音服务器2或者其他电子装置。
图12是本发明一实施例的交互语音应答装置的结构示意图。如图12所示,一些实施例的交互语音应答装置,可包括:文件获取模块610、文件发送模块620及业务处理模块630,上述各模块顺序连接。
文件获取模块610,用于:接收语音菜单信息,并根据所述语音菜单信息获取语音菜单文件;所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据用户录入的语音口令进行语音声纹识别得到;
文件发送模块620,用于:发送所述语音菜单文件,以输出相应的菜单报读语音;
业务处理模块630,用于:接收根据所述菜单报读语音返回的进行相应业务处理的确认信息,并根据所述进行相应业务处理的确认信息进行业务处理。
本实施例的交互语音应答装置可以是上述后台服务器4或者其他电子装置。该后台服务器4例如可以包括银行主机核心系统。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各实施例所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各实施例所述方法的步骤。
为使本发明的技术方案更加易懂,下面将以一具体实施例说明本发明的具体实施方式。
图13是本发明一实施例的系统结构示意图。如图13所示,该系统分别由客户端1的客户、电话银行的自助语音服务器(IVR服务器)2、语音口令服务器3、后台服务器4组成,客户端1的客户与电话银行IVR服务器2相连,电话银行IVR服务器2分别与语音口令服务器3和后台服务器4相连,语音口令服务器3分别与电话银行IVR服务器2和后台服务器4相连,其中:
客户端1的客户:该系统中客户可以通过自定义语音口令录入和电话银行菜单选择完成系统注册操作,注册渠道可以是电话银行系统、柜面、和手机银行客户端;注册完成后,客户通过自定义的语音口令呼入电话银行系统的菜单功能。
电话银行IVR服务器2:对客户来电进行处理,引导客户进入自定义语音口令入口,并对电话银行交易进行报读。
语音口令服务器3:对客户自定义语音口令信息做处理,包括对客户自定义语音口令的注册和识别。客户对电话银行语音菜单设置自定义的语音口令,语音口令服务器3对语音口令进行建模和特征提取,并存储客户口令特征信息与语音菜单的映射关系。
后台服务器4:协助自定义语音口令注册过程中对客户身份的验证,同时存储客户基本信息以及电话银行自助语音菜单,且可以访问主机核心系统发送交易报文,待主机核心系统协助完成交易。
图14是本发明一实施例中电话银行IVR服务器的内部结构示意图。如图14所示,该电话银行IVR服务器2可包括自助语音菜单模块21、语速控制模块22等。其中:
自助语音菜单模块21:包括客户语音口令自定义入口自助语音提示入口,当客户选择该入口时,电话银行IVR服务器接收客户语音口令信息,并发送语音接收请求至语音口令服务器3。若语音口令服务器3无返回结果则引导客户进行口令录入和语音菜单选择;若语音口令服务器3返回结果则对结果信息解析,对口令所对应的菜单功能进行报读。
语速控制模块22:根据对客户身份的辨识,语音报读速率采用适合当前客户最佳播报语速,由于对不同年龄层客户对语速(文字个数/分钟)接受程度数据不同,本发明在标准语速控制在约150个词/分钟基础上,分别采用60%、80%、100%、120%,140%五个等级对语音播报语速进行控制,默认年龄36岁以下客户按照120%速率收听语音,年龄36-48岁之间客户按照100%速率收听语音,即标准语速播报,年龄48-60岁之间客户按照80%速率收听语音,年龄60岁以上客户采用默认60%速率级别收听语音。语速控制模块22根据语音口令服务器3返回的客户年龄信息进行判断,发送自助语音菜单模块21,控制其在语音报读时对菜单文件扫描速度,即每分钟服务器读取菜单文件的字数。
图15是本发明一实施例中的语音口令服务器的内部结构示意图。如图15所示,该语音口令服务器3可包括语音处理单元31、语音注册单元32、语音声纹识别单元33、数据存储单元34等,其中:
语音处理单元31:是语音口令服务器3内部核心装置:
1、语音注册阶段,接收电话银行、柜面和手机客户端等渠道的自定义语音口令注册请求,并发送语音注册处理指令到语音注册单元32,同时接收语音注册单元32的存储请求,调用数据存储装置进行数据存储。
2、语音识别阶段,接收电话银行IVR服务器2语音口令识别请求,调用语音声纹识别单元33进行声纹口令信息的识别,并访问数据存储单元35判断识别口令信息是否匹配。在识别阶段根据IVR端客户输入身份证信息得到系统客户编号,进而客户呼入自定义的语音口令信息时,系统则快速得到匹配的菜单信息。
语音注册单元32:对客户进行声纹建模,用户首次进入系统后,保存录入的用户声纹信息,建立自定义语音口令和电话银行自助语音菜单的对应关系,并调用数据存储单元34存储客户声纹口令信息。
值得指出的是,在对语音进行注册的阶段,采用算法是基于MFCC和GMM的建模方法。首先计算得到Mel倒谱系数,再通过GMM进行建模,得到能代表正确表征声纹信息的特征值。
语音声纹识别单元33:语音声纹识别装置是对需要进行认证的客户自定义语音口令做识别处理,对客户语音口令经过特征提取和建模,其算法与注册阶段类似,采取基于MFCC和GMM的处理方式,其差别在于计算出用户的识别特征值后需与数据存储单元34中声音信息表(VOICEINFER)中的用户声纹特征值一致,则判断通过身份认证。
数据存储单元34,是语音口令服务器中的内部存储数据库装置,主要表结构有用户信息表(USERINFER)、声音信息表(VOICEINFER)、语音菜单信息表(MENUINFER),结构如图16所示。其中用户信息表主要存储用户的基本信息,核心字段为客户编号、用户出生日期、服务器日期等;声音信息表主要存储用户的声纹模型信息,核心字段有客户编号、声纹编号、声纹特征等;语音菜单信息表主要存储用户的语音口令中的声纹特征和语音菜单之间的对应关系,核心主要字段有客户编号、声纹编号、语音菜单编号。其中用户信息表中的用户出生日期和服务器日期会经过语音处理装置的计算得出用户的年龄信息,当存在语音报读场景时,根据用户年龄采用默认语速报读。系统的识别过程是通过在声音信息表(VOICEINFER)查找与输入口令特征匹配的声纹编号,进而在语音菜单信息表(MENUINFER)找到与声纹编号对应的电话银行语音菜单编号,得到语音菜单编号系统就可以通过后台服务器4获取语音菜单并发送电话银行IVR服务器2对客户报读语音信息。值得指出的是声纹编号具有唯一性,每个口令信息对应唯一的声纹编号,当客户多个口令同时对应一个语音菜单时,语音菜单信息表(MENUINFER)中则会存在同一个客户编号和菜单编号对应多个的语音编号。
基于上述实施例的系统,进一步提供一种基于声纹识别的自助语音方法的具体实施例,主要包括客户自定义语音口令注册和客户通过语音口令进入电话银行交易两个核心步骤,下面给出本系统的一个应用实例,来具体说明各模块单元之间的调用关系。
图17是本发明一实施例的方法中进行注册处理的交互示意图。如图17所示,语音口令注册处理方法流程可包括:
步骤2.1:对于未进行语音口令注册的客户,首次通过手机或固定电话拨打电话银行服务号码呼入。
步骤2.2:电话银行IVR服务器2接收客户来电请求,客户根据自助语音菜单模块21的提示播报语音,客户选择进入新增的语音口令自定义的自助语音提示入口。
步骤2.3:客户根据语音提示呼入口令信息(未注册)语音口令服务器3中语音处理单元31通过电话银行IVR服务器2接收口令信息和控制报文,并解析报文信息。
步骤2.4:经过语音处理单元31对报文信息的解析,判断需要进行语音口令识别,则调用语音声纹识别单元33进行计算口令的声纹特征值,使用基于MFCC和GMM的建模方法,首先计算得到Mel倒谱系数,再通过GMM进行建模,得到能代表正确表征声纹信息的特征值。
步骤2.5:语音声纹识别单元33上送特征建模成功标志到语音处理单元31,语音处理单元31则返回数据查询指令,语音声纹识别单元33则调用数据存储单元34中VOICEINFER表对声音特征数据进行查询。
步骤2.6:由于客户是未注册客户,对数据存储单元34中VOICEINFER表中feature字段进行查询则无匹配信息,数据存储单元34发送查询结果至音处理单元31,经过语音处理单元31分析,没有查询到指定客户信息,则返回查询信息至电话银行IVR服务器2。
步骤2.7:此时自助语音菜单模块21提示客户可以进行语音口令的注册和电话银行菜单选择,并提示客户“确认注册请按1,取消请按2”。
步骤2.8:客户接收上述电话银行信息。
步骤2.9:客户通过电话按键交互,确认注册交易。
步骤2.10:自助语音菜单模块21接收客户按键信息并进行解析,分析客户确认进行注册,则调用后台服务器4进行身份认证。
步骤2.11:本系统中后台服务器4采用双重身份确认,即验证码和电子介质结合的传统身份验证方式。
步骤2.12:后台服务器4进行客户身份验证识别和判断,验证成功后后台服务器4向电话银行IVR服务器2发送验证结果。
步骤2.13:如果验证不通过,则后台服务器4返回电话银行IVR服务器2验证失败报文,电话银行IVR服务器2分析报文结果信息为验证失败后,自助语音菜单模块21向客户提示认证失败的语音提示信息。
步骤2.14:客户接收认证失败信息,该分支流结束。
步骤2.15:步骤2.12中,如果验证通过,则后台服务器查询通过内部后台数据库获取客户基本信息,包含客户编号cis,写入返回报文中。
步骤2.16:后台服务器4返回电话银行IVR服务器2报文信息,电话银行IVR服务器2分析报文结果信息为验证成功后,自助语音菜单模块21向客户提示进行口令录入。
步骤2.17:客户呼入自定义语音口令信息。
步骤2.18:电话银行IVR服务器2接收客户语音口令信息,并调用语音口令服务器3进行口令注册。
步骤2.19:语音口令服务器3中的语音处理单元31接收渠道端的语音口令注册请求,并发送语音注册处理指令到语音注册单元32,使用步骤2.4中方法,进行声音建模和声纹特征提取,同时调用数据存储单元34进行语音口令数据存放,写入表VOICEINFER中cis、commondcis、feature字段。语音声纹特征提示成功后语音处理单元31返回电话银行IVR服务器2语音处理状态信息报文。
步骤2.20:电话银行IVR服务器2经过对返回报文信息状态进行分析,发起自助语音菜单模块21提示客户进行电话银行自助语音菜单选择。
步骤2.21:客户进行根据语音提示信息通过电话拨号键对电话银行自助语音菜单选择。
步骤2.22:自助语音菜单模块21解析客户按键选择信息,发送查询请求至调用后台服务器4,查询后台服务器中语音菜单编号信息。
步骤2.23:后台服务器4接收查询请求,查询到语音菜单编号信息,调用语音口令服务器3中数据存储单元34
步骤2.24:数据存储单元34接收写表请求,分别写入表MENUINFER中cis、commondcis、menuid字段,和USERINFER中cis、birthdate字段,服务器时间字段workdate查询后台服务器返回结果写入。
步骤2.25:数据存储单元34写入数据后,发送语音处理单元31数据保存成功状态信息,返回电话银行IVR服务器,自助语音菜单模块21提示客户语音口令注册成功。
步骤2.26:客户接收语音口令注册成功语音,注册分支结束。
客户成功注册语音口令后,即可通过语音口令进入客户自定义的电话银行自助语音交易。图18是本发明一实施例的方法中的自助语音交易的交互示意图。如图18所示,电话银行自助语音交易流程具体可包括:
步骤3.1:对于已经成功注册语音口令的客户,通过手机或固定电话拨打电话银行服务号码呼入,并输入身份证号码。
步骤3.2:电话银行IVR服务器2接收客户来电请求,客户根据自助语音菜单模块21的提示播报语音,进入新增的语音口令入口,说出口令信息。
步骤3.3:语音口令服务器3中语音处理单元31通过电话银行IVR服务器2接收口令信息、客户身份报文和控制报文,并解析报文信息。
步骤3.4:语音处理单元31经过对报文信息进行解析,判断需要进行语音口令识别,则调用语音声纹识别单元33计算口令的声纹特征值,使用基于MFCC和GMM的建模方法,首先计算得到Mel倒谱系数,再通过GMM进行建模,得到能代表正确表征声纹信息的特征值。
步骤3.5:语音声纹识别单元33上送特征建模成功标志到语音处理单元31,语音处理单元31则返回数据查询指令,语音声纹识别单元33中根据客户身份信息与VOICEINFER表中cis字段进行筛选,得到该用户的所有声纹存储结果,进而使用识别计算出的实时声纹特征数据与数据存储单元34中VOICEINFER表中的feature字段进行遍历查询。
步骤3.6:由于客户为注册客户,对数据存储单元34中VOICEINFER表中feature字段进行查询存在匹配结果,获取feature字段对应的commondcis,并进行关联表查询获取MENUINFER表中对应的menuid字段,menuid字段对应电话银行自助语音系统中指定菜单,此时数据存储单元34向后台服务器4中获取menuid字段对应语音菜单文件。
步骤3.7:后台服务器4返回数据存储单元34与menuid对应的菜单文件。
步骤3.8:数据存储单元34发送查询成功标志、客户信息表USERINFER表中cis、birthdate、和workdate字段以及口令信息所对应的语音菜单文件放置返回报文中,发送会语音处理单元31,经过语音处理单元31对返回标志进行分析,发送打包查询信息至电话银行IVR服务器2。
步骤3.9:电话银行IVR服务器2接收报文信息后,解析出口令信息正确匹配后,调用语速控制模块22,获取报文中birthdate(客户出生日期)、和workdate信息(服务器日期),由于本发明中针对客户年龄设置了不同的语速档位,语速控制模块22计算出语速控制标志发送至自助语音菜单模块21。
步骤3.10:自助语音菜单模块21根据语音处理单元31返回的菜单文件和语速控制模块22发送的语速控制标志进行报读,采用控制单位时间内对文件的读取速度进行的方式进行文字报读。
步骤3.11:客户接收到口令信息对应的电话银行自助菜单报读信息,并被系统采用与年龄相关的语速进行报读,客户根据语音提示进行交易发送至电话银行IVR服务器2。
步骤3.12:电话银行IVR服务器2调用后台服务器4中主机核心完成交易。
步骤3.13:后台服务器4中主机核心返回电话银行IVR服务器2交易结果信息。
步骤3.14:电话银行IVR服务器2中的自助语音菜单模块21根据后台服务器4的返回报文,向客户报读交易结果信息。
步骤3.15:客户接收交易结果信息,交易结束。
本实施例的基于声纹的自助语音登录、菜单选择系统和方法,通过语音识别技术和声纹鉴别技术,客户可以通过固定的语音内容完成系统的登录认证,并通过自定义声音口令,通过客户语音引导到电话银行菜单功能入口,完成声音和菜单的映射,从而简化了客户登录自助语音系统和菜单选择的过程。换言之,本发明具有以下优点:客户通过语音口令直接进入自定义电话银行功能菜单,便于用户使用,并且自定义口令存在一定的私密性,增加交易安全性。本系统易于推广,适用面广,可以联动柜面、客户端进行客户口令录入以及电话银行自助语音菜单自定义,通过渠道拓展便于在其他渠道和场景使用推广。采用不同客户不同语速播报,提高语音交互系统的用户体验,满足不同年龄用户对自助语音报读速度的需要。
综上所述,本发明实施例的交互语音应答方法、交互语音应答装置、电子设备及计算机可读存储介质,通过根据语音口令信息进行语音声纹识别得到声纹特征值;根据该声纹特征值匹配查询预先存储的声纹特征,并根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到该声纹特征值对应的语音菜单信息,能够使用户根据自定义语音口令快速达到相应语音菜单,从而简化用户登录自助语音系统和菜单选择的过程。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种交互语音应答方法,其特征在于,包括:
接收语音口令信息;
根据所述语音口令信息进行语音声纹识别,得到声纹特征值;
根据所述声纹特征值匹配查询预先存储的声纹特征;
在匹配查询到声纹特征的情况下,根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到所述声纹特征值对应的语音菜单信息;所述语音菜单信息用于获取相应的语音菜单文件,以报读相应的语音菜单。
2.如权利要求1所述的交互语音应答方法,其特征在于,还包括:
在未匹配查询到声纹特征的情况下,发送匹配查询失败的结果,以生成语音口令注册提示信息;
接收根据所述语音口令注册提示信息返回的语音口令注册请求;所述语音口令注册请求包括语音口令;
对所述语音口令进行声纹特征提取,在提取声纹特征成功后,存储所述语音口令的声纹特征,并发送语音处理状态信息以获取语音菜单信息;
接收根据所述语音处理状态信息返回的语音菜单信息,并将返回的语音菜单信息与所述语音口令的声纹特征关联存储。
3.如权利要求1所述的交互语音应答方法,其特征在于,根据所述语音口令信息进行语音声纹识别,得到声纹特征值,包括:
根据所述语音口令信息计算得到Mel倒谱系数;
通过GMM方法根据所述Mel倒谱系数进行建模,得到声纹特征值。
4.一种交互语音应答方法,其特征在于,包括:
接收来电请求,并根据所述来电请求输出播报语音,以提示用户选择进入语音口令入口;
接收从所述语音口令入口输入的语音口令信息,并发送所述语音口令信息,以获取所述语音口令信息对应的语音菜单文件;所述语音菜单文件是根据语音菜单信息获取,所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据所述语音口令信息进行语音声纹识别得到;
根据所述语音菜单文件输出菜单报读语音。
5.如权利要求4所述的交互语音应答方法,其特征在于,根据所述语音菜单文件输出菜单报读语音,包括:
根据所述语音口令信息对应的用户信息判断所述用户信息对应的语速档位,并根据判断结果生成语速控制标志;所述用户信息是根据所述语音口令信息的所述声纹特征值查询预先建立的声纹特征与用户信息的对应关系得到;
根据所述语速控制标志扫描所述语音菜单文件,并输出相应的菜单报读语音。
6.如权利要求4所述的交互语音应答方法,其特征在于,还包括:
在未获取到所述语音口令信息对应的语音菜单文件的情况下,输出进行语音口令注册的提示语音,以获取确认注册的信息;
获取根据所述确认注册的信息返回的用户身份验证结果;在用户身份验证成功的情况下,输出进行语音口令录入的提示语音;
接收根据所述进行语音口令录入的提示语音录入的语音口令,并根据录入的语音口令发送语音口令注册请求;
接收根据所述语音口令注册请求返回的语音处理状态信息,并根据所述语音处理状态信息输出选择语音菜单的提示信息,以获取选择的语音菜单的信息,用于生成录入的语音口令与选择的语音菜单的信息的对应关系。
7.一种交互语音应答方法,其特征在于,包括:
接收语音菜单信息,并根据所述语音菜单信息获取语音菜单文件;所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据用户录入的语音口令进行语音声纹识别得到;
发送所述语音菜单文件,以输出相应的菜单报读语音;
接收根据所述菜单报读语音返回的进行相应业务处理的确认信息,并根据所述进行相应业务处理的确认信息进行业务处理。
8.如权利要求7所述的交互语音应答方法,其特征在于,接收语音菜单信息之前,还包括:
接收确认注册的信息,根据所述确认注册的信息生成并发送验证码;所述确认注册的信息包括用户通信地址;
接收用户输入的验证码,并根据发送的验证码和用户输入的验证码进行判断,生成并发送用户身份验证结果;
根据所述用户身份验证结果查询得到预先存储的用户信息,并发送所述用户信息,以将所述用户信息与所述声纹特征值进行关联存储。
9.一种交互语音应答装置,其特征在于,包括:
口令信息接收模块,用于:接收语音口令信息;
声纹特征提取模块,用于:根据所述语音口令信息进行语音声纹识别,得到声纹特征值;
声纹特征匹配模块,用于:根据所述声纹特征值匹配查询预先存储的声纹特征;
菜单信息获取模块,用于:在匹配查询到声纹特征的情况下,根据匹配查询到的声纹特征查询预先建立的声纹特征与语音菜单信息的对应关系,得到所述声纹特征值对应的语音菜单信息;所述语音菜单信息用于获取相应的语音菜单文件,以报读相应的语音菜单。
10.一种交互语音应答装置,其特征在于,包括:
入口提示模块,用于:接收来电请求,并根据所述来电请求输出播报语音,以提示用户选择进入语音口令入口;
语音接收模块,用于:接收从所述语音口令入口输入的语音口令信息,并发送所述语音口令信息,以获取所述语音口令信息对应的语音菜单文件;所述语音菜单文件是根据语音菜单信息获取,所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据所述语音口令信息进行语音声纹识别得到;
菜单报读模块,用于:根据所述语音菜单文件输出菜单报读语音。
11.一种交互语音应答装置,其特征在于,包括:
文件获取模块,用于:接收语音菜单信息,并根据所述语音菜单信息获取语音菜单文件;所述语音菜单信息是根据声纹特征值匹配查询预先建立的声纹特征与语音菜单信息的对应关系得到,所述声纹特征值是根据用户录入的语音口令进行语音声纹识别得到;
文件发送模块,用于:发送所述语音菜单文件,以输出相应的菜单报读语音;
业务处理模块,用于:接收根据所述菜单报读语音返回的进行相应业务处理的确认信息,并根据所述进行相应业务处理的确认信息进行业务处理。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811087470.0A CN109005303B (zh) | 2018-09-18 | 2018-09-18 | 交互语音应答方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811087470.0A CN109005303B (zh) | 2018-09-18 | 2018-09-18 | 交互语音应答方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109005303A true CN109005303A (zh) | 2018-12-14 |
CN109005303B CN109005303B (zh) | 2020-08-18 |
Family
ID=64592177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811087470.0A Active CN109005303B (zh) | 2018-09-18 | 2018-09-18 | 交互语音应答方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109005303B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961787A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 确定采集结束时间的方法及装置 |
CN110474926A (zh) * | 2019-09-19 | 2019-11-19 | 中国银行股份有限公司 | 手机银行、电话银行的通信方法及装置 |
CN110830667A (zh) * | 2019-11-18 | 2020-02-21 | 中国银行股份有限公司 | 一种智能交互式语音应答方法及装置 |
CN111048072A (zh) * | 2019-11-21 | 2020-04-21 | 中国南方电网有限责任公司 | 一种应用于电力企业的声纹识别方法 |
CN111092950A (zh) * | 2019-12-20 | 2020-05-01 | 中国银行股份有限公司 | 一种数据请求的语音确认方法及装置 |
CN111105802A (zh) * | 2019-12-20 | 2020-05-05 | 中国银行股份有限公司 | 一种数据请求的语音确认方法及装置 |
CN111402896A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种语音验证的方法及网络设备 |
CN111464363A (zh) * | 2020-04-14 | 2020-07-28 | 中国银行股份有限公司 | 自助语音服务系统的性能测试方法、装置及系统 |
CN113379975A (zh) * | 2021-06-09 | 2021-09-10 | 中国银行股份有限公司 | 一种自动取款机交互方法及相关设备 |
CN113506577A (zh) * | 2021-06-25 | 2021-10-15 | 贵州电网有限责任公司 | 一种基于增量采集电话录音完善声纹库的方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
CN1845501A (zh) * | 2006-04-26 | 2006-10-11 | 朱志祥 | 利用电话终端远程控制多点音/视频通信设备的方法 |
CN102474544A (zh) * | 2009-07-30 | 2012-05-23 | 高通股份有限公司 | 用于定制用户界面菜单的方法和设备 |
CN103002156A (zh) * | 2011-12-16 | 2013-03-27 | 微软公司 | 用于动态语音菜单的技术 |
CN103139404A (zh) * | 2013-01-25 | 2013-06-05 | 西安电子科技大学 | 基于语音识别生成交互式语音响应显示菜单的系统和方法 |
CN103701994A (zh) * | 2013-12-30 | 2014-04-02 | 华为技术有限公司 | 一种自动应答的方法及装置 |
CN104253910A (zh) * | 2014-09-24 | 2014-12-31 | 百度在线网络技术(北京)有限公司 | 语音服务电话的交互方法及系统 |
CN105827877A (zh) * | 2015-01-06 | 2016-08-03 | 中国移动通信集团上海有限公司 | 一种基于ivr平台的业务处理方法及ivr平台 |
CN106559589A (zh) * | 2016-12-06 | 2017-04-05 | 中卓信(北京)科技有限公司 | 通话中信息显示方法及装置 |
CN107895272A (zh) * | 2017-05-05 | 2018-04-10 | 平安科技(深圳)有限公司 | 动态语音交互系统及其菜单生成方法 |
US20180176378A1 (en) * | 2016-09-29 | 2018-06-21 | Genesys Telecommunications Laboratories, Inc. | Pinning in an interactive media/voice response system |
-
2018
- 2018-09-18 CN CN201811087470.0A patent/CN109005303B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
CN1845501A (zh) * | 2006-04-26 | 2006-10-11 | 朱志祥 | 利用电话终端远程控制多点音/视频通信设备的方法 |
CN102474544A (zh) * | 2009-07-30 | 2012-05-23 | 高通股份有限公司 | 用于定制用户界面菜单的方法和设备 |
CN103002156A (zh) * | 2011-12-16 | 2013-03-27 | 微软公司 | 用于动态语音菜单的技术 |
CN103139404A (zh) * | 2013-01-25 | 2013-06-05 | 西安电子科技大学 | 基于语音识别生成交互式语音响应显示菜单的系统和方法 |
CN103701994A (zh) * | 2013-12-30 | 2014-04-02 | 华为技术有限公司 | 一种自动应答的方法及装置 |
CN104253910A (zh) * | 2014-09-24 | 2014-12-31 | 百度在线网络技术(北京)有限公司 | 语音服务电话的交互方法及系统 |
CN105827877A (zh) * | 2015-01-06 | 2016-08-03 | 中国移动通信集团上海有限公司 | 一种基于ivr平台的业务处理方法及ivr平台 |
US20180176378A1 (en) * | 2016-09-29 | 2018-06-21 | Genesys Telecommunications Laboratories, Inc. | Pinning in an interactive media/voice response system |
CN106559589A (zh) * | 2016-12-06 | 2017-04-05 | 中卓信(北京)科技有限公司 | 通话中信息显示方法及装置 |
CN107895272A (zh) * | 2017-05-05 | 2018-04-10 | 平安科技(深圳)有限公司 | 动态语音交互系统及其菜单生成方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402896A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种语音验证的方法及网络设备 |
CN111402896B (zh) * | 2019-01-02 | 2023-09-19 | 中国移动通信有限公司研究院 | 一种语音验证的方法及网络设备 |
CN109961787A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 确定采集结束时间的方法及装置 |
CN110474926A (zh) * | 2019-09-19 | 2019-11-19 | 中国银行股份有限公司 | 手机银行、电话银行的通信方法及装置 |
CN110830667A (zh) * | 2019-11-18 | 2020-02-21 | 中国银行股份有限公司 | 一种智能交互式语音应答方法及装置 |
CN111048072A (zh) * | 2019-11-21 | 2020-04-21 | 中国南方电网有限责任公司 | 一种应用于电力企业的声纹识别方法 |
CN111105802A (zh) * | 2019-12-20 | 2020-05-05 | 中国银行股份有限公司 | 一种数据请求的语音确认方法及装置 |
CN111105802B (zh) * | 2019-12-20 | 2022-09-20 | 中国银行股份有限公司 | 一种数据请求的语音确认方法及装置 |
CN111092950A (zh) * | 2019-12-20 | 2020-05-01 | 中国银行股份有限公司 | 一种数据请求的语音确认方法及装置 |
CN111464363A (zh) * | 2020-04-14 | 2020-07-28 | 中国银行股份有限公司 | 自助语音服务系统的性能测试方法、装置及系统 |
CN111464363B (zh) * | 2020-04-14 | 2023-07-04 | 中国银行股份有限公司 | 自助语音服务系统的性能测试方法、装置及系统 |
CN113379975A (zh) * | 2021-06-09 | 2021-09-10 | 中国银行股份有限公司 | 一种自动取款机交互方法及相关设备 |
CN113506577A (zh) * | 2021-06-25 | 2021-10-15 | 贵州电网有限责任公司 | 一种基于增量采集电话录音完善声纹库的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109005303B (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109005303A (zh) | 交互语音应答方法及装置 | |
EP3485492B1 (en) | Multi-user authentication on a device | |
JP3479304B2 (ja) | 音声コマンド制御及び検証システム | |
CN106373575B (zh) | 一种用户声纹模型构建方法、装置及系统 | |
CN104185868B (zh) | 话音认证和语音识别系统及方法 | |
EP1354311B1 (en) | Voice-enabled user interface for voicemail systems | |
EP0585004B1 (en) | Voice directed communications system employing shared subscriber identifiers | |
CN107895578A (zh) | 语音交互方法和装置 | |
US8254542B2 (en) | Phone key authentication | |
JP2001503156A (ja) | 話者確認法 | |
US20130006626A1 (en) | Voice-based telecommunication login | |
US20050131684A1 (en) | Computer generated prompting | |
CN109510806B (zh) | 鉴权方法及装置 | |
US6246987B1 (en) | System for permitting access to a common resource in response to speaker identification and verification | |
CN108899036A (zh) | 一种语音数据的处理方法及装置 | |
JPH05284203A (ja) | 電気通信に準拠した通話のためのユーザー・インタフェースの方法とシステム | |
WO2014140970A2 (en) | Voice print tagging of interactive voice response sessions | |
CN112348667A (zh) | 一种基于虚拟客服的智能开户方法及装置 | |
CN108364638A (zh) | 一种语音数据处理方法、装置、电子设备和存储介质 | |
CN112417412A (zh) | 一种银行账户余额查询方法、装置及系统 | |
US8594640B2 (en) | Method and system of providing an audio phone card | |
US11436309B2 (en) | Dynamic knowledge-based voice authentication | |
CN109616116A (zh) | 通话系统及其通话方法 | |
JP2001024781A (ja) | 発呼者により生成された音声メッセージを分類する方法 | |
US20050240410A1 (en) | Method and system for recognising a spoken identification sequence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20201231 Address after: 100140, 55, Fuxing Avenue, Xicheng District, Beijing Patentee after: INDUSTRIAL AND COMMERCIAL BANK OF CHINA Patentee after: ICBC Technology Co.,Ltd. Address before: 100140, 55, Fuxing Avenue, Xicheng District, Beijing Patentee before: INDUSTRIAL AND COMMERCIAL BANK OF CHINA |
|
TR01 | Transfer of patent right |