CN101068275A

CN101068275A - 一种交互式语音回复系统及其检测音质的方法

Info

Publication number: CN101068275A
Application number: CN 200710018026
Authority: CN
Inventors: 林华真; 陈淮琰
Original assignee: Inventec Besta Xian Co Ltd
Current assignee: Inventec Besta Xian Co Ltd
Priority date: 2007-06-08
Filing date: 2007-06-08
Publication date: 2007-11-07
Anticipated expiration: 2027-06-08
Also published as: CN101068275B

Abstract

本发明公开了一种交互式语音回复(Interactive Voice Response，IVR)系统及其利用该系统检测音质的方法，由使用者拨号到交互式语音回复系统，接着交互式语音回复系统会播放声音数据，使用者重复所听到的声音数据，交互式语音回复系统在接收到由使用者发出的语音数据后，会储存语音数据并判断接收到的语音数据是否与使用者听到的声音数据相同，并响应使用者判断后的判断结果。

Description

一种交互式语音回复系统及其检测音质的方法

技术领域

本发明涉及一种检测音质的系统及其方法，特别是指一种交互式语音回复系统及其利用该系统检测音质的方法。

背景技术

随着电子科技的发展，语音处理系统已在通讯装置上提供各式各样的语音服务，所谓的语音服务指的是以电话号码搭配交互式语音回复(Interactive Voice Response，IVR)系统来为拨入的使用者进行各项服务的处理及查询，例如航空公司的飞航信息或订位、股票喊价系统、购物、账目查询等。

已知的语音服务系统请参见图1，当使用者110以行动通讯装置121拨打有提供交互式语音回复系统140的电话号码时，行动通讯装置121会通过电磁波与电话服务中心130建立电信链接，并将使用者110的通讯引导到交互式语音回复系统140，随之，使用者再按压行动通讯装置110上一个按键或多个按键与交互式语音回复系统140进行语音应答、识别、接续、转移等活动，以达成使用者110所需求的服务。所以，交互式语音回复系统能够达到实时服务及节省使用者的各种开销。由于行动通讯装置非常普及，以上述行动通讯装置为例，当然，使用者110同样可以使用一般的固定电话122来与电话服务中心130建立电信链接，进而得到所需求的服务。

另外，随着电子产品提供的娱乐功能越来越多，使得人们在生活中享受越来越多样化的娱乐活动，例如唱歌，不过，虽然人们喜欢唱歌，但是，大多数的人对歌曲高低音掌握不准，总是会有该高音的时候唱不上高音，该低音的时候唱不上低音，甚至整首歌没有几个音是正确的，无法唱出正确的音高，也就是音质不准，因此要如何改善自己唱歌的质量，使自己唱出正确的高音和低音，已表现出歌唱的实力是上述人们的经常困扰的问题。所以，如何能在非常普及的通讯装置上提供一种能够增加使用者音质的准确度的功能，成为业内人士一件具有挑战性的工作。

发明内容

鉴于现有技术存在的上述问题，本发明的目的在于，提供一种交互式语音回复系统及其利用该系统检测音质的方法，通过交互式语音回复系统播放声音数据，让使用者重复声音数据，进而判断使用者重复声音数据而发出的音高与声音数据的音高是否相同，并响应使用者判断结果，让使用者得知自己的音质是否准确，以解决现有技术所存在的问题，达到让使用者可以正确的唱出音高的功能。

为了实现上述任务，本发明采取如下的技术解决方案：

一种交互式语音回复系统，其特征在于，该系统包括：

一通讯模块，用于建立与使用者之间的通讯，使得使用者发出的声音与交互式语音回复系统所产生的语音传至对方；

一播放模块，用于在通讯模块建立与使用者之间的通讯后由储存模块读出一组声音数据，并且通过通讯模块将声音数据播放给使用者收听；

一接收模块，用于接收在使用者听到播放模块所播放的声音数据后重复听到的声音数据所发出的语音数据，并将接收到的语音数据存入储存模块；

一储存模块，用于储存播放模块播放的声音数据与接收模块所接收到的语音数据；

一判断模块，用于由储存模块读取播放模块播放的声音数据，及读取由接收模块接收的语音数据，并判断播放模块播放的声音数据与接收模块接收的语音数据是否有相同的音高，在判断结束之后产生判断结果给响应模块；

一检测模块，用于检测与使用者建立通讯时，背景所产生的噪声的强度，当使用者与交互式语音回复系统建立通讯之后，过滤使用者所发出的语音数据中的噪声；

一响应模块，用于接收判断模块产生的判断结果，并把判断结果通过通讯模块传递给使用者；

一提示模块，用于提示使用者进行输入的行为；

通讯模块分别与播放模块、接收模块、提示模块和响应模块连通，接收模块分别与储存模块和检测模块相连，储存模块分别与判断模块、播放模块相连，判断模块与响应模块相连。

上述利用交互式语音回复系统检测音质的方法，其特征在于，包括下列步骤：

使用者拨号至交互式语音回复系统，交互式语音回复系统播放声音数据，接收由使用者重复声音数据所发出的语音数据并储存，判断语音数据与声音数据是否相同，并产生判断结果、交互式语音回复系统响应使用者判断结果。

附图说明

图1是已知的语音服务系统示意图。

图2是本发明的交互式语音回复系统架构图。

图3是本发明的利用交互式语音回复系统检测音质的方法流程图。图中的标号分别表示：110、使用者，121、行动通讯装置，122、电话，130、电话服务中心，140、交互式语音回复系统，210、通讯模块，220、播放模块，230、接收模块，240、储存模块，250、判断模块，260、响应模块，270、提示模块，280、检测模块。

以下结合附图和实施例对本发明作进一步的详细说明，以下给出的内容足以使熟悉本领域的技术人员理解本发明的优点并实施。

具体实施方式

参见图2，该图给出的是本发明的交互式语音回复系统架构图，如图所示，该系统包括通讯模块210、播放模块220、接收模块230、储存模块240、判断模块250、响应模块260、提示模块270，其中通讯模块210负责建立与使用者之间的通讯，使得使用者发出的声音与交互式语音回复系统所产生的语音可传至对方；播放模块220负责在通讯模块210建立与使用者之间的通讯后由储存模块240读出一组声音数据，并且通过通讯模块210将声音数据播放给使用者收听；接收模块230负责接收在使用者听到播放模块220所播放的声音数据后重复听到的声音数据所发出的语音数据，并将接收到的语音数据存入储存模块240；储存模块240负责储存播放模块220播放的声音数据与接收模块230所接收到的语音数据；判断模块250负责由储存模块240读取播放模块220播放的声音数据，及读取由接收模块230接收的语音数据，并判断播放模块220播放的声音数据与接收模块230接收的语音数据是否有相同的音高，在判断结束之后产生判断结果给响应模块260；响应模块260负责接收判断模块产生的判断结果，并把判断结果通过通讯模块210传递给使用者；提示模块270负责提示使用者进行输入的行为。

接着以一个实施例与来解释利用本发明的交互式语音回复系统检测音质的方法，请参照图3，该图是本发明利用交互式语音回复检测音质系统的方法流程图。当使用者欲使用本发明的系统检测自己的音质时，首先要拨电话至交互式语音回复系统，与系统的通讯模块210建立通讯(步骤310)，接着提示模块270会播放：要出题喽！在听到声音后，紧接着会发出一【嘟】声，并提示“请在嘟声之后发出你的声音”的语音，提示使用者发出声音至交互式语音回复系统，接着播放模块220会选出一个声音数据，例如以随机方式选出(C3)，但选出声音数据方式并不以随机方式为限，选出的声音数据也不以(C3)为限，于是播放模块220便会由储存模块240读出(C3)的声音数据，并经通讯模块210至使用者的话筒中发出(C3)的声音(步骤340)，使用者在听到【嘟】声后，可以发出自认为与(C3)相同音高的语音数据，将语音数据输入到交互式语音回复系统，于是使用者发出的语音数据会被传送至接收模块230，接收模块230会把接收到的语音数据录制为数字数据的格式，并储存到储存模块240中(步骤350)，接着判断模块250会读出播放模块220先前播放的声音数据，即(C3)与使用者发出的语音数据，并判断使用者发出的语音数据与(C3)的音高是否相同(步骤360)，如使用者发出的语音数据为(A2)，判断模块250会判断出与语音数据与声音数据的(C3)不同，因此响应模块260播放错误音效给使用者，使得使用者得知先前所发出的音高不正确，即自己的音质需要加强；若使用者所发出的语音数据也是(C3)，则响应模块260会播放正确音效给使用者，使用者即可得知自己先前所发出的音高是正确的。这样，利用本发明的系统可以让使用者得知自己的音质是否准确，解决无法唱出正确音高的问题。

而系统的响应模块260播放的音高给使用者为响应使用者所发出的音高是否正确，只是本发明的实现方式的其中之一，并不以播放音高为限。

在上述的检测过程中，在使用者与交互式语音回复系统建立通讯(步骤310)之后，交互式语音回复系统会先播放欢迎语音，并由提示模块270播放让使用者选择音域类别的提示语，如“请输入你的声音，男声请按1，女声或童声请按2，回主选单请按9，结束请按0”，提示使用者输入音域类别，使得播放模块220在播放声音数据(步骤340)时，会配合使用者的音域类别选出比较适合使用者哼唱的声音数据。

此外，在步骤340中，播放的声音数据并不只限于单音，播放模块220也可以播放连音，例如(D3 E2 F2 A3 C3)的五连音、(C3 F2 D3)的三连音等，连音中的每个音高都可以是随机产生的，如此在判断使用者的语音数据与播放的声音数据的步骤360时，就会比较连续的音高是否完全正确。

而为了增加检测音质的准确度，本发明的系统还有负责检测与使用者建立通讯时，背景所产生的噪声的强度的检测模块280，在使用者与交互式语音回复系统建立通讯(步骤310)之后，检测模块280就会检测通讯中的噪声的强度，并提供判断模块250在步骤360中可以过滤使用者所发出的语音数据中的噪声，使判断模块250不会因为噪声的干扰而误判。

另外，本发明也可以提供没有提示模块270的语音互动回复系统，也就在使用者建立通讯(步骤310)之后，直接播放(C3)的声音资料，如此可以减少熟悉本发明的使用者在与本发明的系统互动时，听取的提示语的时间。

本发明为了增加与使用者互动的效果，也可以设计成闯关的游戏方式，例如，每进行一次游戏需要听取声音数据五次，并哼唱与声音数据相同的音高的语音数据五次，也就是重复步骤340到步骤370五次，每次游戏结束之后，例如当使用者五次全部都正确时，响应模块260可以响应使用者(如“音质准确度100％！音质这么好，可以考虑当歌手”)的响应，激励使用者再次进行游戏，而提示模块270还可以播放“闯下一关请按1，闯同一关请按2，回主选单请按9，结束请按0”的提示语让使用者可以不断的进行游戏。

本发明的系统可实现于硬件、软件或硬件与软件之组合中，亦可在计算机系统中以集中方式实现或以不同组件散布于若干互连的计算机系统的分散方式实现。

虽然本发明以上述较佳的实施例对本发明做出了详细的描述，并非用上述实施例限定本发明。本领域的技术人员应当意识到在不脱离本发明技术方案所给出的技术特征和范围的情况下，对技术特征所作的增加、或以本领域一些同样内容的替换，均应属本发明的保护范围。

Claims

1.一种交互式语音回复系统，其特征在于，该系统包括：

一提示模块，用于提示使用者进行输入的行为；

2.权利要求1所述的交互式语音回复系统检测音质的方法，其特征在于，使用者拨号至交互式语音回复系统，交互式语音回复系统播放声音数据，接收由使用者重复声音数据所发出的语音数据并储存，交互式语音回复系统判断语音数据与声音数据是否相同，并产生判断结果，响应使用者判断结果。