CN111629110A - 一种语音交互方法和语音交互系统 - Google Patents
一种语音交互方法和语音交互系统 Download PDFInfo
- Publication number
- CN111629110A CN111629110A CN202010529114.0A CN202010529114A CN111629110A CN 111629110 A CN111629110 A CN 111629110A CN 202010529114 A CN202010529114 A CN 202010529114A CN 111629110 A CN111629110 A CN 111629110A
- Authority
- CN
- China
- Prior art keywords
- module
- user
- ivr
- voice
- voice stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 33
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 33
- 230000002452 interceptive effect Effects 0.000 claims abstract description 13
- 230000004044 response Effects 0.000 claims abstract description 9
- 238000003058 natural language processing Methods 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 230000007246 mechanism Effects 0.000 description 10
- 210000004556 brain Anatomy 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/527—Centralised call answering arrangements not requiring operator intervention
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音交互方法和语音交互系统。所述方法包括:互动式语音应答IVR模块获取用户的用户语音流,并将所述用户语音流发送至分析模块;所述分析模块获取所述用户语音流,并基于所述用户语音流确定是否生成打断消息;若生成所述打断消息,则所述分析模块将所述打断消息传输至所述IVR模块;所述IVR模块基于所述打断消息触发语音合成TTS模块停止语音合成。利用该方法,缩短了用户的通话时长,提升了用户的满意度。
Description
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种语音交互方法和语音交互系统。
背景技术
智能语音导航系统,基于业内领先的语音识别技术、自然语言处理技术、以及语音合成技术开发,与企业原有互动式语音应答(Interactive Voice Response,IVR)系统对接后,实现用户电话呼入时通过语音方式表述业务诉求,系统将用户的语音转化为文本并准确理解用户的业务诉求,直接导航至用户所需IVR服务功能节点,化繁为简,缩短用户等待时间,提高用户体验。
现有的智能语音导航系统虽然构建了一个体系完成的语音导航功能,但是在与用户交互时均是将待转换的文字合成一个个语音文件,并采用文件传输的方式将语音合成结果取回播放给用户听,并在语音合成结果播放结束后获取用户输入的指令,从而延长了用户的通话时长,降低了用户的满意度。
发明内容
本发明实施例提供了一种语音交互方法和语音交互系统,缩短了用户的通话时长,提升了用户的满意度。
第一方面,本发明实施例提供了一种语音交互方法,包括:
互动式语音应答IVR模块获取用户的用户语音流,并将所述用户语音流发送至分析模块;
所述分析模块获取所述用户语音流,并基于所述用户语音流确定是否生成打断消息;
若生成所述打断消息,则所述分析模块将所述打断消息传输至所述IVR模块;
所述IVR模块基于所述打断消息触发语音合成TTS模块停止语音合成。
进一步地,所述分析模块包括语音识别ASR模块;或所述分析模块包括ASR模块和自然语言处理NLP模块。
进一步地,所述分析模块基于所述用户语音流确定是否生成打断消息,包括:
ASR模块确定所述用户语音流对应的幅值是否大于预设阈值;
若是,则生成打断消息。
进一步地,所述分析模块基于所述用户语音流确定是否生成打断消息,包括:
ASR模块将所述用户语音流转换为对应的用户文本信息,并将所述用户文本信息通过所述IVR模块传输至NLP模块;
所述NLP模块确定所述用户文本信息对应的用户意图信息,并确定是否存在与所述用户意图信息匹配的预设意图;
若存在,所述NLP模块将所述用户意图信息作为打断消息。
进一步地,该方法,还包括:
所述IVR模块基于所述用户意图信息触发对应的功能事件。
进一步地,所述TTS模块生成对应所述功能事件的自助语音流,并将所述自助语音流传输至所述IVR模块,所述IVR模块播放所述自助语音流。
进一步地,该方法,还包括:
所述IVR模块确定所述用户语音流是否获取超时,若是,则所述IVR模块统计超时次数;若所述超时次数低于次数阈值,则所述IVR模块播放提示音。
进一步地,该方法,还包括:
所述IVR模块确定所述用户语音流是否转换失败,若是,则所述IVR模块统计超时次数;若所述超时次数低于次数阈值,则所述IVR模块播放提示音。
进一步地,该方法,还包括:
所述IVR模块确定所述用户语音流的意图分析是否失败,若是,则所述IVR模块统计超时次数;若所述超时次数低于次数阈值,则所述IVR模块播放提示音。
第二方面,本发明实施例还提供了一种语音交互系统,所述语音交互系统执行本发明实施例所述的语音交互方法,所述语音交互系统包括:IVR模块、与所述IVR模块连接的分析模块和与所述IVR模块连接的TTS模块。
本发明实施例提供了一种语音交互方法和语音交互系统,所述语音交互方法通过互动式语音应答IVR模块获取用户的用户语音流,并将所述用户语音流发送至分析模块;通过所述分析模块获取所述用户语音流,并基于所述用户语音流确定是否生成打断消息;若生成所述打断消息,则通过所述分析模块将所述打断消息传输至所述IVR模块;通过所述IVR模块基于所述打断消息触发语音合成TTS模块停止语音合成。利用上述技术方案,能够在有用户语音流输入时,有效的基于分析模块确定是否生成打断消息,以打断TTS模块输出自助语音流,进而缩短用户的通话时长,提升用户使用语音交互系统的满意度。
附图说明
图1为本发明实施例一提供的一种语音交互方法的流程示意图;
图2为本发明实施例一提供的一种语音交互系统的架构示意图;
图3为本发明实施例一提供的又一种语音交互方法的流程示意图;
图4为本发明实施例一提供的一种普通打断机制的语音交互的流程示意图;
图5为本发明实施例一提供的一种语义打断机制的语音交互的流程示意图;
图6为本发明实施例一提供的一种打断消息传输示意图;
图7为本发明实施例一提供的一种语音识别容错流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。
实施例一
图1为本发明实施例一提供的一种语音交互方法的流程示意图,该方法可适用于缩短用户通话时长的情况,该方法可以由语音交互系统来执行。该语音交互系统可以包括IVR模块、与所述IVR模块连接的分析模块和与所述IVR模块连接的TTS模块。
其中,IVR模块能够实现IVR功能,IVR是一种功能强大的电话自动服务系统,在一体化呼叫中心平台中,IVR首先是一个子系统或模块,它与其他子系统协同来实现一个呼叫中心平台的标准功能。
TTS模块具有语音合成(Text To Speech,TTS)功能,TTS是让机器模仿人类说话。即输入一段文字,最终输出一段语音。目前主要应用在读书软件、导航软件和对话问答系统等中。
分析模块可以包括语音识别(Automatic Speech Recognition,ASR)模块,ASR是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语音。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。
分析模块还可以包括自然语言处理(Natural Language Processing,NLP)模块,NLP是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。
如图1所示,本发明实施例一提供的一种语音交互方法,包括如下步骤:
S110、互动式语音应答IVR模块获取用户的用户语音流,并将所述用户语音流发送至分析模块。
在本实施例中,IVR模块可以理解为对分析模块和TTS模块的执行逻辑进行控制的模块。IVR模块可以实时获取用户的用户语音流。IVR模块获取用户语音流的时机可以为TTS模块通过IVR模块向用户播放自助语音流的情况下。IVR模块通过监听到的用户语音流确定是否打算自助语音流的播放。
其中,用户语音流可以认为是用户发送至语音交互系统的语音信号。自助语音流可以认为是语音交互系统输出至用户的语音信号。用户可以认为是语音交互系统的使用者。用户通过语音交互系统可以实现语音导航。
IVR模块获取到用户语音流后,可以将用户语音流发送至分析模块,以通过分析模块对用户语音流进行分析,以确定是否打断TTS模块语音合成的操作,从而停止向用户播放对应的自助语音流。
其中,分析模块可以为语音交互系统中进行分析处理的模块。如分析模块可以对用户语音流进行识别分析,以确定是否需要打断TTS模块语音合成的操作。
本实施例中不对分析模块的具体内容进行限定,只要能够进行语音识别即可。如分析模块可以包括能够进行文本转换和意图分析的模块。
S120、所述分析模块获取所述用户语音流,并基于所述用户语音流确定是否生成打断消息。
分析模块获取到用户语音流后,可以对用户语音流进行识别,以确定是否生成打断消息。示例性的,识别用户语音流的手段包括但不限于:确定该用户语音流是否为有效的语音流,如用户语音流的幅值是否大于预设阈值。若为有效的语音流,则可以生成打断消息。预设阈值可以统计确定,此处不作限定;确定该用户语音流对应的用户意图信息是否与预设意图匹配,从而确定语音交互系统是否能够完成该用户语音流对应意图的功能,进而确定是否生成打断消息。
其中,打断消息可以理解为触发TTS模块停止进行语音合成的信息。
S130、若生成所述打断消息,则所述分析模块将所述打断消息传输至所述IVR模块。
若分析模块生成了打断消息,可以将打断消息传输至IVR模块,以供IVR模块控制TTS模块的工作状态。
S140、所述IVR模块基于所述打断消息触发语音合成TTS模块停止语音合成。
打断消息发送至IVR模块后,IVR模块可以基于打断消息触发TTS模块停止语音合成。此处不对触发的手段进行限定。示例性的,IVR模块可以直接将打断消息发送至TTS模块,以停止TTS模块进行语音合成。IVR模块也可以在获取打断消息后生成停止消息,并将停止消息发送至TTS模块,以触发TTS模块停止语音合成。其中,停止消息的具体内容不作限定,只要TTS模块能够识别并停止语音合成即可。
本发明实施例一提供的一种语音交互方法,该方法通过互动式语音应答IVR模块获取用户的用户语音流,并将所述用户语音流发送至分析模块;通过所述分析模块获取所述用户语音流,并基于所述用户语音流确定是否生成打断消息;若生成所述打断消息,则通过所述分析模块将所述打断消息传输至所述IVR模块;通过所述IVR模块基于所述打断消息触发语音合成TTS模块停止语音合成。利用上述方法,能够在有用户语音流输入时,有效的基于分析模块确定是否生成打断消息,以打断TTS模块输出自助语音流,进而缩短用户的通话时长,提升用户使用语音交互系统的满意度。
在上述实施例的基础上,提出了上述实施例的变型实施例,在此需要说明的是,为了使描述简要,在变型实施例中仅描述与上述实施例的不同之处。
在一个实施例中,所述分析模块包括语音识别ASR模块;或所述分析模块包括ASR模块和自然语言处理NLP模块。
ASR模块可以对用户语音流进行识别,如确定该用户语音流是否为有效的语音信号;也可以对用户语音流进行转换,以获得用户文本信息,从而对用户语音流进行意图分析。用户文本信息可以理解为用户语音流对应的文本信息。
NLP模块可以理解为进行意图分析的模块。NLP模块可以对用户文本信息进行分析,以得到对应的用户意图信息。用户意图信息可以认为是对应用户语音流的意图信息。基于用户意图信息可以确定用户所要触发语音交互系统中的哪一功能。
在一个实施例中,所述分析模块基于所述用户语音流确定是否生成打断消息,包括:
ASR模块确定所述用户语音流对应的幅值是否大于预设阈值;
若是,则生成打断消息。
本实施例中,分析模块可以仅包括ASR模块,通过ASR模块确定用户语音流是否为有效的语音信号。当用户语音流对应的幅值大于预设阈值时,可以认为是有效的语音信号,此时可以认为用户想到打断当前自助语音流的播放。故,ASR模块可以生成打断消息,以打断TTS模块进行语音合成,从而停止向用户输出自助语音流。
在一个实施例中,所述分析模块基于所述用户语音流确定是否生成打断消息,包括:
ASR模块将所述用户语音流转换为对应的用户文本信息,并将所述用户文本信息通过所述IVR模块传输至NLP模块;
所述NLP模块确定所述用户文本信息对应的用户意图信息,并确定是否存在与所述用户意图信息匹配的预设意图;
若存在,所述NLP模块将所述用户意图信息作为打断消息。
在本实施例中,分析模块可以包括ASR模块和NLP模块。本实施例中的分析模块可以对用户语音流进行意图分析。首先通过ASR模块将用户语音流转换为对应的用户文本信息,然后将用户文本信息通过IVR模块传输至NLP模块。
NLP模块获取到用户文本信息后,确定用户文本信息对应的用户意图信息,然后将确定的用户意图信息与预设意图进行匹配,确定该用户意图信息是否是预设意图。预设意图的确定可以基于语音交互系统所能实现的功能确定,此处不作限定。预设意图的个数可以为至少一个。
如果存在与用户意图信息匹配的预设意图,则可以认为用户想要触发的功能存在,故NLP模块可以将该用户意图信息作为打断消息传输至IVR模块,以触发TTS模块停止语音合成。
在一个实施例中,该方法,还包括:
所述IVR模块基于所述用户意图信息触发对应的功能事件。
在IVR模块获取到用户意图信息时,可以认为用户想用触发对应用户意图信息的功能,IVR模块则直接基于用户意图信息触发对应的功能事件。触发功能事件的手段不作限定。
在一个实施例中,所述TTS模块生成对应所述功能事件的自助语音流,并将所述自助语音流传输至所述IVR模块,所述IVR模块播放所述自助语音流。
在触发用户意图对应的功能事件后,TTS模块可以生成该功能事件对应的自助语音流,并将该自助语音流传输至IVR模块,从而向用户播放,进而通过打断正在播放的自助语音流,实现了匹配用户意图信息的自助语音流的播放。
在一个实施例中,该方法还包括:
所述IVR模块确定所述用户语音流是否获取超时,若是,则所述IVR模块统计超时次数;若所述超时次数低于次数阈值,则所述IVR模块播放提示音。
在一个实施例中,该方法还包括:
所述IVR模块确定所述用户语音流是否转换失败,若是,则所述IVR模块统计超时次数;若所述超时次数低于次数阈值,则所述IVR模块播放提示音。
在一个实施例中,该方法还包括:
所述IVR模块确定所述用户语音流的意图分析是否失败,若是,则所述IVR模块统计超时次数;若所述超时次数低于次数阈值,则所述IVR模块播放提示音。
本发明为了提升语音交互的效率,在语音识别阶段和语音播放阶段进行了容错处理。通过确定用户语音流获取是否超时、用户语音流是否转换失败和用户语音流意图分析是否失败,确定是否向用户播放提示音,以提示用户重新输入。此处不对具体确定手段进行限定。如获取用户语音流的时长大于设定时长,则可以认为用户语音流获取超时。设定时长可以根据实际情况设定,此处不作限定。如,预设时长没有收到对应用户语音流的用户文本信息,则可以认为用户语音流转换失败。预设时长可以根据实际情况设定,此处不作限定。意图分析是否失败也可以通过设定对应的时长判断,此处不作赘述。
在用户语音流获取是否超时、用户语音流是否转换失败和/或用户语音流意图分析是否失败时,可以统计超时次数,如将超时次数加1。然后确定超时次数是否低于次数阈值,若是,则可以向用户播放提示音;若否,则可以执行相应处理,以完成语音交互。次数阈值此处不作限定可以根据实际情况确定。
以下对本发明进行示例性的描述,本发明提供的语音交互方法可以认为是一种智能打断的语音交互导航方法。语音交互是用户通过语音,在IVR这个基础平台上,和智能大脑进行语音交流的过程,这个交互中涉及媒体资源控制协议(Media Resource ControlProtocol,MRCP)协议、会话初始协议(Session Initiation Protocol,SIP)协议等,达到用户通过说话系统即可自动响应和导航的功能。
图2为本发明实施例一提供的一种语音交互系统的架构示意图,参见图2,该语音交互系统包括智能语音导航子系统(即智能语音导航系统),该智能语音导航系统中包括IVR模块(即IVR)、与所述IVR模块连接的分析模块和与所述IVR模块连接的TTS模块(即TTS)。分析模块包括ASR模块(即ASR)和NLP模块(即NLP)。
智能语音导航系统属于云客服项目中呼入部分的内容之一,通过语音识别、智能语音合成、自然语言处理等技术,嵌入传统的按键式自助服务中,用户可以与系统进行实时语音交互,显著提高电话渠道办理业务的效率,减轻人工服务压力,提升用户满意度,降低运营成本。呼入是呼叫中心为用户服务的门户,其重要作用不言而喻。而语音交互是其中一项关键的技术,如何降低语音合成的延时,如何智能地识别用户到底是想打断还是语气词表示礼貌性应答,带给用户更好的交互体验,更显著地提升用户满意度,是非常值得探讨和研究的。
现有的一些语音导航系统虽然构建了一个体系完成语音导航功能,但是在与用户交互时均是将待转换的文字合成一个个语音文件,并采用文件传输的方式将语音合成结果取回播放给用户听。这样一来会有两个缺点:一是IVR系统的菜单或是功能选项列表一般都很长,用户即使已经听到了自己需要的信息,却仍然必须听完上一句智能机器人回答的话术,才能进行下一轮对话交流,用户被迫等待会浪费用户的通话时间,造成用户话费的额外损失;二是由于要等一段文字完全转换成语音文件之后,才能传回播放,如果合成的文字信息过多,合成的音频文件会比较庞大而造成传输延时,在这段语音合成期间,用户既没有听到语音,又不能进行任何操作,从而会降低用户使用的满意度。
为了解决上述技术问题,本发明提出了一种智能打断的语音交互系统,能够及时打断TTS的播放,可以减少不必要的TTS资源开销,带给用户更流畅、交互更友好的使用体验。此外,本发明还针对语音识别阶段,对易发的三种异常进行了处理,提升了整个智能语音交互流程的鲁棒性。
图3为本发明实施例一提供的又一种语音交互方法的流程示意图,参见图3,在进行语音交互时,包括如下步骤:
1、首先用户呼叫云客服相应租户的号码进线。
2、系统播放欢迎语和语音导航菜单内容提示,例如“欢迎拨打XXX,您可以说出您想办理的事项,如查询缴费信息、查询贷款基本信息、查询本中心办公时间及地点或者转人工服务等”。
3、用户在听到这段提示音的时候,随时可以说出自己想要办理的事项,如“(打断)我要查询缴费信息”。此时开始识别用户说的内容。
4、将用户说内容转换为文字信息,通过接口发送到智能大脑组件。
5、智能大脑,即NLP组件对收到的文字内容进行分析和匹配意图,并将匹配结果返回至主流程。
6、IVR主流程根据匹配结果,映射到相应的功能节点号,再进行相应的跳转操作。
7、用户根据接下来具体的提示来进行查询等业务操作。
在上述语音交互的过程中,本发明提供了一种智能打断机制,在传统的语音交互过程中,经过转换后返回给用户播放的往往是一个语音文件,用户必须要等这个语音文件播放结束之后才能进行回应,在播放这段时间内,用户说的话将不会被系统识别,因此我们采用语音流的形式来承载TTS返回的内容并设计了两种打断机制可以使得用户在说出自己需求的时候随时打断语音播放并实现语音识别。
图4为本发明实施例一提供的一种普通打断机制的语音交互的流程示意图。参见图4,在会话的开始,媒体服务器就通过SIP协议分别跟TTS引擎(即TTS模块)和ASR引擎(即ASR模块)建立两个传输信道,TTS引擎将需要播报的文字转换成语音流(本质上是将语音转换为二进制的用户数据报协议(User Datagram Protocol,UDP)报文,通过MRCP协议协商)返回媒体服务器,媒体服务器播放给用户听。播放过程中若ASR引擎检测到语音流,将会生成一个START-OF-INPUT消息(即打断消息)发送给媒体服务器,媒体服务器接收之后再发stop消息(即停止消息)给TTS引擎让其停止转换,关闭该用户刚才建立的TTS信道。其中,打断消息可以以MRCP协议格式发送。
图5为本发明实施例一提供的一种语义打断机制的语音交互的流程示意图,参见图5,以一次交互举例,语义打断机制如下:当TTS引擎返回语音流之后,媒体服务器收到语音流(即自助语音流)并播放给用户听,此时用户开始说话,ASR引擎接收语音流并且将用户的语音流(即用户语音流)经过转换得到文字内容(即用户文本信息)通过媒体服务器给智能大脑做判断。
经过深度学习的智能大脑会将接受到的识别结果(即用户文本信息)进行分析,分析结果分为两种,一种是无意义的用户插话,比如“嗯”、“是的”或“好的”,这一类插话内容经过智能大脑基于规则的匹配,得到的是结果是不用打断播放,将不对TTS引擎返回的语音流做任何处理,直到语音播放结束或者用户再一次打断。而另一种情况是用户想要打断语音播放并提出另一问题,比如“既然这样,那你可以帮我查询我的缴存状态吗”,智能大脑会识别出用户的意图,并将意图(用户意图信息)返回给IVR模块,IVR模块触发相应事件,之后再根据返回的意图映射到相应功能节点。IVR模块收到意图后触发停止消息,强制停止TTS引擎进行语音流的转换。
图6为本发明实施例一提供的一种打断消息传输示意图,参见图6,智能大脑,即NLP模块将用户意图,即用户意图信息传输至IVR系统,即IVR模块,IVR模块将该用户意图作为打断事件传输至内部的媒体服务器,媒体服务器向TTS引擎发送停止信息,以触发TTS模块停止语音合成,即实现IVR模块基于打断消息触发TTS模块停止语音合成。
在对用户输入的语音流进行收音、转换和意图识别时,可能会有一些异常情况需要处理,包括以下三种:获取用户语音流超时、语音识别内容为空和意图匹配失败。这三种情况在实际应用时常有发生,因此对于上述异常情况的处理是十分关键且必要的。故,在实现语音交互时,本发明还提供了容错处理手段,图7为本发明实施例一提供的一种语音识别容错流程示意图,参见图7,用户进线后开始进入语音识别流程,由于不说话,或者音频输入设备障碍等原因造成接受语音流失败,后台会累计时间,如果超过设定的时间限制,则失败次数加一,即实现统计超时次数;如果采集用户语音流时,虽然语音交互系统检测到有语音流,但属于杂音,并无有效的语言内容,则属于另一种失败情况,即语音识别转换失败;假设用户说出的内容为:我想要取回我之前存的现金,但其实整个语音交互系统的业务流程只支持查询、转人工类操作而不支持该类操作,NLP组件经过语义分析,和现在的业务内容进行匹配,无法得到有效匹配结果,该机制将把这一次识别视为第三种类型的失败,即意图匹配失败。这三种错误类型还能处理一些别的状况,比如用户使用了方言来进行语音交互,即使想要表达的意图属于呼入业务范围之内,但由于语音识别不支持地方语言表达方式,转换成文字之后与想要表达的意图有区别等。因此该容错机制能够涵盖并处理日常使用中大多数情况下的错误。
本发明提供的语音交互方法是一种可打断的语音交互机制,并可以应用于智能语音导航系统中。在语音播放阶段,ASR引擎识别到用户说话,立即跟媒体资源服务器(即媒体服务器)协调,媒体资源服务器向TTS引擎发送停止消息,从而使用户可以进行下一轮会话交互;在语音播放阶段,ASR引擎识别到用户说话之后,立即将转换的文字发送到智能大脑组件,经过语义分析判断是否需要打断当前的TTS播放,如果需要打断播放,则发送相应信令给TTS引擎,使语音播放停止;如果不需要打断,则保持现状,直至语音播放完成或者用户再一次说话打断;在语音识别阶段,针对语音流抓取超时、ASR转换失败和意图匹配失败三种情况设计了容错处理手段。
本发明针对现有的语音导航系统中的语音交互方式做出改造,使用流媒体方式传输合成的语音,能够减小用户与语音导航系统(即语音交互系统)交互时的响应延时,同时设计了两种打断播放的系统流程,一种是只要用户说话立即打断播放,第二种打断方式增加了语义的判断,更加人性化,总体来说这样的设计可以节约用户的时间,降低用户通话成本。此外,基于语音识别各阶段可能产生的异常情况进行了纠正处理,达到提升系统整体用户体验的效果。
实施例二
本发明还提供了一种语音交互系统,该系统执行本发明所述的语音交互方法,该语音交互系统包括:IVR模块、与所述IVR模块连接的分析模块和与所述IVR模块连接的TTS模块。
IVR模块用于获取用户的用户语音流,并将所述用户语音流发送至分析模块;所述分析模块,用于获取所述用户语音流,并基于所述用户语音流确定是否生成打断消息;所述分析模块还用于在生成打断消息后,将所述打断消息通过IVR模块传输至语音合成TTS模块,以停止所述TTS模块进行语音合成。
所述分析模块包括语音识别ASR模块;或所述分析模块包括ASR模块和自然语言处理NLP模块。本实施例尚未详尽之处,参见上述实施例此处不作赘述。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种语音交互方法,其特征在于,包括:
互动式语音应答IVR模块获取用户的用户语音流,并将所述用户语音流发送至分析模块;
所述分析模块获取所述用户语音流,并基于所述用户语音流确定是否生成打断消息;
若生成所述打断消息,则所述分析模块将所述打断消息传输至所述IVR模块;
所述IVR模块基于所述打断消息触发语音合成TTS模块停止语音合成。
2.根据权利要求1所述的方法,其特征在于,所述分析模块包括语音识别ASR模块;或所述分析模块包括ASR模块和自然语言处理NLP模块。
3.根据权利要求1所述的方法,其特征在于,所述分析模块基于所述用户语音流确定是否生成打断消息,包括:
ASR模块确定所述用户语音流对应的幅值是否大于预设阈值;
若是,则生成打断消息。
4.根据权利要求1所述的方法,其特征在于,所述分析模块基于所述用户语音流确定是否生成打断消息,包括:
ASR模块将所述用户语音流转换为对应的用户文本信息,并将所述用户文本信息通过所述IVR模块传输至NLP模块;
所述NLP模块确定所述用户文本信息对应的用户意图信息,并确定是否存在与所述用户意图信息匹配的预设意图;
若存在,所述NLP模块将所述用户意图信息作为打断消息。
5.根据权利要求4所述的方法,其特征在于,还包括:
所述IVR模块基于所述用户意图信息触发对应的功能事件。
6.根据权利要求5所述的方法,其特征在于,所述TTS模块生成对应所述功能事件的自助语音流,并将所述自助语音流传输至所述IVR模块,所述IVR模块播放所述自助语音流。
7.根据权利要求1所述的方法,其特征在于,还包括:
所述IVR模块确定所述用户语音流是否获取超时,若是,则所述IVR模块统计超时次数;若所述超时次数低于次数阈值,则所述IVR模块播放提示音。
8.根据权利要求1所述的方法,其特征在于,还包括:
所述IVR模块确定所述用户语音流是否转换失败,若是,则所述IVR模块统计超时次数;若所述超时次数低于次数阈值,则所述IVR模块播放提示音。
9.根据权利要求1所述的方法,其特征在于,还包括:
所述IVR模块确定所述用户语音流的意图分析是否失败,若是,则所述IVR模块统计超时次数;若所述超时次数低于次数阈值,则所述IVR模块播放提示音。
10.一种语音交互系统,其特征在于,执行如权利要求1-9任一所述的语音交互方法,所述语音交互系统包括:IVR模块、与所述IVR模块连接的分析模块和与所述IVR模块连接的TTS模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010529114.0A CN111629110A (zh) | 2020-06-11 | 2020-06-11 | 一种语音交互方法和语音交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010529114.0A CN111629110A (zh) | 2020-06-11 | 2020-06-11 | 一种语音交互方法和语音交互系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111629110A true CN111629110A (zh) | 2020-09-04 |
Family
ID=72259351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010529114.0A Pending CN111629110A (zh) | 2020-06-11 | 2020-06-11 | 一种语音交互方法和语音交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111629110A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112637431A (zh) * | 2020-12-10 | 2021-04-09 | 出门问问(苏州)信息科技有限公司 | 一种语音交互方法、装置以及计算机可读存储介质 |
CN113345437A (zh) * | 2021-08-06 | 2021-09-03 | 百融云创科技股份有限公司 | 语音打断方法及装置 |
CN113763944A (zh) * | 2020-09-29 | 2021-12-07 | 浙江思考者科技有限公司 | 基于拟真人逻辑知识库的ai视频云交互系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6882973B1 (en) * | 1999-11-27 | 2005-04-19 | International Business Machines Corporation | Speech recognition system with barge-in capability |
US20080147407A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges |
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
CN109858391A (zh) * | 2019-01-11 | 2019-06-07 | 北京光年无限科技有限公司 | 一种用于绘本机器人的人机交互方法及装置 |
CN110557451A (zh) * | 2019-08-30 | 2019-12-10 | 北京百度网讯科技有限公司 | 对话交互处理方法、装置、电子设备和存储介质 |
CN110661927A (zh) * | 2019-09-18 | 2020-01-07 | 平安科技(深圳)有限公司 | 语音交互方法、装置、计算机设备及存储介质 |
CN110853638A (zh) * | 2019-10-23 | 2020-02-28 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
CN110867197A (zh) * | 2019-10-23 | 2020-03-06 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
-
2020
- 2020-06-11 CN CN202010529114.0A patent/CN111629110A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6882973B1 (en) * | 1999-11-27 | 2005-04-19 | International Business Machines Corporation | Speech recognition system with barge-in capability |
US20080147407A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges |
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
CN109858391A (zh) * | 2019-01-11 | 2019-06-07 | 北京光年无限科技有限公司 | 一种用于绘本机器人的人机交互方法及装置 |
CN110557451A (zh) * | 2019-08-30 | 2019-12-10 | 北京百度网讯科技有限公司 | 对话交互处理方法、装置、电子设备和存储介质 |
CN110661927A (zh) * | 2019-09-18 | 2020-01-07 | 平安科技(深圳)有限公司 | 语音交互方法、装置、计算机设备及存储介质 |
CN110853638A (zh) * | 2019-10-23 | 2020-02-28 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
CN110867197A (zh) * | 2019-10-23 | 2020-03-06 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763944A (zh) * | 2020-09-29 | 2021-12-07 | 浙江思考者科技有限公司 | 基于拟真人逻辑知识库的ai视频云交互系统 |
CN113763944B (zh) * | 2020-09-29 | 2024-06-04 | 浙江思考者科技有限公司 | 基于拟真人逻辑知识库的ai视频云交互系统 |
CN112637431A (zh) * | 2020-12-10 | 2021-04-09 | 出门问问(苏州)信息科技有限公司 | 一种语音交互方法、装置以及计算机可读存储介质 |
CN113345437A (zh) * | 2021-08-06 | 2021-09-03 | 百融云创科技股份有限公司 | 语音打断方法及装置 |
CN113345437B (zh) * | 2021-08-06 | 2021-10-29 | 百融云创科技股份有限公司 | 语音打断方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110557451B (zh) | 对话交互处理方法、装置、电子设备和存储介质 | |
CN111629110A (zh) | 一种语音交互方法和语音交互系统 | |
CN109739971B (zh) | 一种基于微信小程序实现全双工智能语音对话的方法 | |
CN1220176C (zh) | 用于一种语音识别设备的训练或适配方法 | |
US8000969B2 (en) | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges | |
US9292488B2 (en) | Method for embedding voice mail in a spoken utterance using a natural language processing computer system | |
US10055190B2 (en) | Attribute-based audio channel arbitration | |
US20200382634A1 (en) | Call processing method and apparatus, server, storage medium, and system | |
US20060195323A1 (en) | Distributed speech recognition system | |
KR20140105673A (ko) | 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기 | |
CN105206272A (zh) | 语音传输控制方法及系统 | |
CN109005190B (zh) | 一种在网页上实现全双工语音对话和页面控制的方法 | |
CN110995938B (zh) | 数据处理方法和装置 | |
TW201440482A (zh) | 語音接聽方法與行動終端裝置 | |
CN112866086B (zh) | 智能外呼的信息推送方法、装置、设备及存储介质 | |
CN111094924A (zh) | 用于执行基于语音的人机交互的数据处理装置和方法 | |
US20040092293A1 (en) | Third-party call control type simultaneous interpretation system and method thereof | |
CN111554280A (zh) | 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务系统 | |
CN111292749B (zh) | 智能语音平台的会话控制方法及装置 | |
US7451086B2 (en) | Method and apparatus for voice recognition | |
EP1643725A1 (en) | Method to manage media resources providing services to be used by an application requesting a particular set of services | |
CN110534084B (zh) | 一种基于FreeSWITCH的智能语音控制方法及系统 | |
MX2011002548A (es) | Sistema de dialogo de voz con proceso para evitar rechazo. | |
CN114420130A (zh) | 电话语音交互方法、装置、设备及存储介质 | |
CN105118507A (zh) | 声控系统及其控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200904 |
|
RJ01 | Rejection of invention patent application after publication |