CN106486120A - 交互式语音应答方法及应答系统 - Google Patents

交互式语音应答方法及应答系统 Download PDF

Info

Publication number
CN106486120A
CN106486120A CN201610920316.1A CN201610920316A CN106486120A CN 106486120 A CN106486120 A CN 106486120A CN 201610920316 A CN201610920316 A CN 201610920316A CN 106486120 A CN106486120 A CN 106486120A
Authority
CN
China
Prior art keywords
target service
user
confidence level
described target
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610920316.1A
Other languages
English (en)
Other versions
CN106486120B (zh
Inventor
曾永梅
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201610920316.1A priority Critical patent/CN106486120B/zh
Publication of CN106486120A publication Critical patent/CN106486120A/zh
Application granted granted Critical
Publication of CN106486120B publication Critical patent/CN106486120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种交互式语音应答方法,包括:对用户的语音输入执行语音识别;从语音识别结果确定目标业务;比较该语音识别结果的置信度和执行该目标业务所需要的置信度范围;以及基于置信度比较结果控制该目标业务的执行。

Description

交互式语音应答方法及应答系统
技术领域
本发明涉及人机交互技术,尤其涉及一种交互式语音应答方法及应答系统。
背景技术
IVR(Interactive Voice Response)即互动式语音应答,用户只须用电话即可进入服务中心,可以根据操作提示收听手机娱乐产品,也可以根据用户输入的内容播放有关的信息,或者可以基于用户的问题提供咨询或业务办理。
随着语音识别技术的不断发展,目前不少企业已经将语音识别技术应用于传统的IVR系统中,但是这些应用大部分还停留在智能语音导航的层面。首先,将用户的意图导航到传统的IVR节点,交互不够精准或者不能直接导航到叶子节点。其次,传统的IVR系统一般也就几十个业务,如果客户并不仅仅想要查询或办理业务,而是咨询业务,一般都直接转人工了,这增加了人工客户的工作量。
因此,本领域需要一种改善的智能交互式语音应答方案。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明提供了一种交互式语音应答方法及系统,以提高不同业务的交互精准性。
根据本发明的一方面,提供了一种交互式语音应答方法,包括:
对用户的语音输入执行语音识别;
从语音识别结果确定目标业务;
比较该语音识别结果的置信度和执行该目标业务所需要的置信度范围;以及
基于置信度比较结果控制该目标业务的执行。
在一实例中,该基于置信度比较结果控制该目标业务的执行包括:至少响应于该语音识别结果的置信度高于该目标业务所需置信度的上限执行该目标业务。
在一实例中,该至少响应于该语音识别结果的置信度高于该目标业务所需置信度的上限执行该目标业务包括:响应于该语音识别结果的置信度高于该目标业务所需置信度的上限,判断该目标业务是否属于强制确认类型;响应于该目标业务属于强制确认类型,向用户执行业务确认,若用户确认该目标业务,则执行该目标业务。
在一实例中,该基于置信度比较结果控制该目标业务的执行包括:响应于该语音识别结果的置信度介于该目标业务所需置信度的上限与下限之间,向用户执行业务确认,若用户确认该目标业务,则执行该目标业务。
在一实例中,若用户未确认该目标业务,则向用户输出要求用户重新输入语音指示的话术语音。
在一实例中,该执行业务确认包括:向用户输出要求用户确认该目标业务的话术语音;对用户的再次语音输入执行语音识别;以及从该再次的语音识别结果确定用户是否确认该目标业务。
在一实例中,该对用户的再次语音输入执行语音识别包括:采用针对确认需要定制的语言模型对用户的语音输入执行语音识别。
在一实例中,该基于置信度比较结果控制该目标业务的执行包括:响应于该语音识别结果的置信度低于该目标业务所需置信度的下限,采用全量语言模型对该语音输入进行识别。
在一实例中,该方法还包括:基于全量语言模型的语音识别结果执行相应应答。
在一实例中,该对用户的语音输入执行语音识别包括:采用针对业务需要定制的语言模型对用户的语音输入执行语音识别。
根据本发明的另一方面,提供了一种交互式语音应答系统,包括:
语音识别模块,用于对用户的语音输入执行语音识别;
语义识别模块,用于从语音识别结果确定目标业务;以及
控制模块,用于比较该语音识别结果的置信度和执行该目标业务所需要的置信度范围,并基于置信度比较结果控制该目标业务的执行。
在一实例中,该控制模块至少响应于该语音识别结果的置信度高于该目标业务所需置信度的上限控制业务操作模块执行该目标业务。
在一实例中,该控制模块响应于该语音识别结果的置信度高于该目标业务所需置信度的上限,判断该目标业务是否属于强制确认类型,并且响应于该目标业务属于强制确认类型控制输出模块向用户执行业务确认,若用户确认该目标业务,则执行该目标业务。
在一实例中,该控制模块响应于该语音识别结果的置信度介于该目标业务所需置信度的上限与下限之间,控制输出模块向用户执行业务确认,若用户确认该目标业务,则执行该目标业务。
在一实例中,若用户未确认该目标业务,则该控制模块控制该输出模块向用户输出要求用户重新输入语音指示的话术语音。
在一实例中,该输出模块向用户输出要求用户确认该目标业务的话术语音,该语音识别模块对用户的再次语音输入执行语音识别,该语义识别模块从该再次的语音识别结果确定用户是否确认该目标业务。
在一实例中,该语音识别模块采用针对确认需要定制的语言模型对用户的该再次语音输入执行语音识别。
在一实例中,该控制模块响应于该语音识别结果的置信度低于该目标业务所需置信度的下限控制该语音识别模块采用全量语言模型对该语音输入进行识别。
在一实例中,该系统还包括:应答模块,用于基于全量语言模型的语音识别结果执行相应应答。
在一实例中,该语音识别模块采用针对业务需要定制的语言模型对用户的语音输入执行语音识别。
与现有技术相比,本发明的有益技术效果是:
利用了语音识别结果的置信度,对业务接下来的交互给出不同话术,对业务进行了区分,提高不同业务的交互精准性,一些非常重要的业务规定必须要让用户进行确认,而无论先前的语音识别结果的置信度有多高,以确保安全性。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1是示出了根据本发明的一方面的交互式语音应答方法的流程图;
图2是示出了根据本发明的一方面的执行业务确认的流程图;
图3是示出了根据本发明的一方面的交互式语音应答系统的一实施例的框图;以及
图4是示出了根据本发明的一方面的交互式语音应答系统的第二实施例的框图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图1是示出了根据本发明的一方面的交互式语音应答方法100的流程图。
如图1所示,该交互式语音应答方法100可包括如下步骤:
步骤110:对用户的语音输入执行语音识别。
语音识别步骤的作用在将用户通过语音形式输入的问题识别为文本。语音识别技术主要包括两个部分:语言模型训练阶段和使用语言模型的识别阶段。
语言模型训练阶段是通过大量语料的训练进行语言模型的建模。在建立语言模型后,利用该语言模型对用户输入的语音进行识别。语音识别过程中,语言模型准确与否对于识别结果至关重要。
语言模型训练阶段,使用越大量的语料,得到的语言模型越准确。然而,随着语料数量的增加,训练以及识别的计算成本也随之增加。因此,实践中,往往会针对特定的应用场合,训练不同的语言模型。例如,针对体育类的应用场合,可以使用与体育相关的大量术语作为语料进行训练,针对金融类的应用场合,可以使用与金融相关的大量术语作为语料进行训练。以此方式,在一定的成本下获得更准确的语言模型。
在步骤110中,采用针对业务需要定制的语言模型对用户的语音输入执行语音识别。这里的“业务”是指系统能够为用户提供的业务。用户接入系统后所提到的初始输入一般与希望办理的业务有关,因此,针对业务需要定制的语言模型能够获得最准确的语音识别结果。
步骤120:从语音识别结果确定目标业务。
该步骤是语义识别的过程。语音识别结果为文本形式的用户输入,步骤120的作用在于理解该文本形式的用户输入,以判断用户需要办理何种业务。
为了实现语义识别,常用办法是设置一套知识库。知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对。在本发明中,“标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。例如,“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。例如,对于用于控制系统的语义识别而言,用户的一个指令,例如“打开收音机”也应可以被理解为是一个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用。
因此,语义识别的过程即为基于语音识别结果从知识库中寻找标准问的过程,找到与其匹配的标准问,即可认为是“理解”了该语音识别结果的语义,从而可以将该匹配的标准问对应的“答”提供给用户。
实践中,可以通过语音识别结果与知识库中所有标准问的语义相似度计算来确定匹配的标准问。例如,具有最高语义相似度的标准问可以被确定为是所匹配的标准问,进而可以从该匹配的标准问确定用户希望办理的目标业务。
例如,若所匹配的标准问为“彩铃的资费”,则可以了解用户希望办理彩铃相关业务。
步骤130:比较该语音识别结果的置信度和执行该目标业务所需要的置信度范围。
上述对用户的语音输入执行语音识别时,获得的语音识别结果具有相关联的置信度。该置信度表示该语音识别结果的可靠性。置信度越高,表示该语音识别结果的可靠性越高。
根据本发明的方案,对每一个业务设置一所需要的置信度范围,该置信度范围与业务的类型相关。对于相对重要的业务,为其设置的所需要的置信度范围总体较高,例如,对于涉及费用的业务。
步骤140:基于置信度比较结果控制该目标业务的执行。
在第一实施例中,当该语音识别结果的置信度高于该目标业务所需置信度的上限时,则直接执行该目标业务。
在第二实施例中,当该语音识别结果的置信度高于该目标业务所需置信度的上限时,尚需判断该目标业务是否属于强制确认类型的业务。在本发明中,对业务进行了区分,一些非常重要的业务规定必须要让用户进行确认,而无论先前的语音识别结果的置信度有多高,以确保安全性。
在此情形下,若目标业务不属于强制确认类型的业务,则可以直接执行该目标业务。反之,若目标业务属于强制确认类型的业务,则向用户执行业务确认,若用户确认该目标业务,则执行该目标业务,否则可向用户输出要求用户重新输入语音指示的话术语音。
在一实例中,执行任务确认可包括如图2所示的流程。如图2所示,执行任务确认包括以下步骤:
步骤210:向用户输出要求用户确认该目标业务的话术语音。
在此步骤中,向用户询问其意图是否确实为该目标业务。
步骤220:对用户的再次语音输入执行语音识别。
用户在听到系统输出的让其确认是否为该目标业务的话术后,再次输入语音以确认或否认该目标业务。
例如,若用户确实希望办理该目标业务,则可以回答“是”,否则可以回答“不是”。
步骤230:从该再次的语音识别结果确定用户是否确认该目标业务。
此步骤也是为语音识别的步骤,在本发明中,特别为此语音识别步骤采用针对确认需要定制的语言模型对用户的语音输入执行语音识别。换言之,这里所使用的语言模型是专门针对与“确认”相关的语料训练而成,这样大大地提高了语音识别的准确性。
上文描述了该语音识别结果的置信度高于该目标业务所需置信度的上限的情况,若语音识别结果的置信度介于该目标业务所需置信度的上限与下限之间,必须向用户执行业务确认,若用户确认该目标业务,则执行该目标业务,否则可向用户输出要求用户重新输入语音指示的话术语音。
最后,若该语音识别结果的置信度低于该目标业务所需置信度的下限,则采用全量语言模型对该语音输入进行识别。
若语音识别结果的置信度低于该目标业务所需置信度的下限,说明此语音识别结果的置信度对于该目标业务而言是不可接受的,因此,需要重新对其进行语音识别。
首次采用针对业务需要定制的语言模型的语言识别过程未能得到满意的结果,表明用户的语音输入可能并非与业务相关,有可能涉及其他方面的问题。因此,采用全量语言模型对用户语音进行识别。这里的术语“全量语言模型”可以是针对通用场景训练的语言模型,该语言模型的训练涉及使用通用场景下的语料,应用涵盖面广,当然对于特定场景的语音识别效果相比于针对该特定场景训练而成的语言模型的效果会稍差。然而,在先前使用针对业务需要定制的语言模型进行语言识别失效的情况下,采用全量语言模型识别会取得更好的效果。
在获得全量语言模型的语音识别结果后,基于该语音识别结果进行相应的应答。例如,将识别结果送到语义识别系统进行语义识别,给出对应的答案。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
图3是示出了根据本发明的一方面的交互式语音应答系统300的框图。
如图3所示,该交互式语音应答系统300可包括语音识别模块310、语义识别模块320、以及控制模块330。
语音识别模块310可对用户的语音输入执行语音识别。在一实例中,语音识别模块310可首先采用针对业务需要定制的语言模型对用户的语音输入执行语音识别,以提高识别的准确率。
获得语音识别结果后,语义识别模块320从该语音识别结果确定目标业务。语义识别的过程即为基于语音识别结果从知识库中寻找标准问的过程,找到与其匹配的标准问,即可认为是“理解”了该语音识别结果的语义,从而可以将该匹配的标准问对应的“答”提供给用户。因此,语义识别模块320可以通过语音识别结果与知识库中所有标准问的语义相似度计算来确定匹配的标准问,从而确定目标业务。
控制模块330可比较该语音识别结果的置信度和执行该目标业务所需要的置信度范围,并基于置信度比较结果控制该目标业务的执行。该置信度表示该语音识别结果的可靠性。置信度越高,表示该语音识别结果的可靠性越高。
根据本发明的方案,对每一个业务设置一所需要的置信度范围,该置信度范围与业务的类型相关。对于相对重要的业务,为其设置的所需要的置信度范围总体较高,例如,对于涉及费用的业务。
在第一实施例中,控制模块330可响应于该语音识别结果的置信度高于该目标业务所需置信度的上限,则控制业务操作模块执行该目标业务。
如图4所示,在第二实施例中,控制模块330可响应于该语音识别结果的置信度高于所述目标业务所需置信度的上限,继续判断该目标业务是否属于强制确认类型,并且若该目标业务属于强制确认类型,则控制输出模块340向用户执行业务确认,若用户确认该目标业务,则执行所述目标业务。若未确认,控制模块330则控制输出模块340向用户输出要求用户重新输入语音指示的话术语音。
若语音识别结果的置信度介于该目标业务所需置信度的上限与下限之间,则控制模块330控制输出模块340向用户执行业务确认,若用户确认该目标业务,则执行所述目标业务。若未确认,控制模块330则控制输出模块340向用户输出要求用户重新输入语音指示的话术语音。
在执行业务确认时,输出模块340首先向用户输出要求用户确认该目标业务的话术语音,然后,语音识别模块310对用户的再次语音输入执行语音识别,此时,语音识别模块310可采用针对确认需要定制的语言模型对用户的该再次语音输入执行语音识别。语义识别模块330则从该再次的语音识别结果确定用户是否确认该目标业务。
若语音识别结果的置信度低于该目标业务所需置信度的下限,控制模块330则控制语音识别模块310采用全量语言模型对该语音输入进行识别。交互式语音应答系统300的应答模块350可基于全量语言模型的语音识别结果执行相应应答。例如应答模块350可以是由语义识别模块320和输出模块340的组合,语义识别模块320确定其语义及其答案,并由输出模块340输出给用户。
本发明实施例中交互式语音应答系统的具体实现和有益效果可参见交互式语音应答方法,在此不再赘述。
根据本发明的方案,利用了语音识别结果的置信度,对业务接下来的交互给出不同话术,比如一些需要扣款的业务办理,无论识别的置信度值有多高,都应该和用户进行再次确认;诸如一些查询类业务,如果置信度高就直接给出查询结果,如果置信度介于上限和下限之间,则可和用户进行二次确认的交互,如果低于下限,则用户很可能不是想要查询业务,可能是一些其他业务咨询或者聊天,此时可以使用另一个全量通用的领域语言模型进行识别,进一步识别用户意图,增加用户交互体验。根据本发明的方案,还结合了语义理解引擎,进一步理解用户真正的意图。
本领域技术人员将可理解,信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如,以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (20)

1.一种交互式语音应答方法,包括:
对用户的语音输入执行语音识别;
从语音识别结果确定目标业务;
比较所述语音识别结果的置信度和执行所述目标业务所需要的置信度范围;以及
基于置信度比较结果控制所述目标业务的执行。
2.如权利要求1所述的交互式语音应答方法,其特征在于,所述基于置信度比较结果控制所述目标业务的执行包括:
至少响应于所述语音识别结果的置信度高于所述目标业务所需置信度的上限执行所述目标业务。
3.如权利要求2所述的交互式语音应答方法,其特征在于,所述至少响应于所述语音识别结果的置信度高于所述目标业务所需置信度的上限执行所述目标业务包括:
响应于所述语音识别结果的置信度高于所述目标业务所需置信度的上限,判断所述目标业务是否属于强制确认类型;
响应于所述目标业务属于强制确认类型,向用户执行业务确认,若用户确认所述目标业务,则执行所述目标业务。
4.如权利要求1所述的交互式语音应答方法,其特征在于,所述基于置信度比较结果控制所述目标业务的执行包括:
响应于所述语音识别结果的置信度介于所述目标业务所需置信度的上限与下限之间,向用户执行业务确认,若用户确认所述目标业务,则执行所述目标业务。
5.如权利要求3或4所述的交互式语音应答方法,其特征在于,若用户未确认所述目标业务,则向用户输出要求用户重新输入语音指示的话术语音。
6.如权利要求3或4所述的交互式语音应答方法,其特征在于,所述执行业务确认包括:
向用户输出要求用户确认所述目标业务的话术语音;
对用户的再次语音输入执行语音识别;以及
从所述再次的语音识别结果确定用户是否确认所述目标业务。
7.如权利要求6所述的交互式语音应答方法,其特征在于,所述对用户的再次语音输入执行语音识别包括:
采用针对确认需要定制的语言模型对用户的语音输入执行语音识别。
8.如权利要求1所述的交互式语音应答方法,其特征在于,所述基于置信度比较结果控制所述目标业务的执行包括:
响应于所述语音识别结果的置信度低于所述目标业务所需置信度的下限,采用全量语言模型对所述语音输入进行识别。
9.如权利要求8所述的交互式语音应答方法,其特征在于,还包括:
基于全量语言模型的语音识别结果执行相应应答。
10.如权利要求1所述的交互式语音应答方法,其特征在于,所述对用户的语音输入执行语音识别包括:
采用针对业务需要定制的语言模型对用户的语音输入执行语音识别。
11.一种交互式语音应答系统,包括:
语音识别模块,用于对用户的语音输入执行语音识别;
语义识别模块,用于从语音识别结果确定目标业务;以及
控制模块,用于比较所述语音识别结果的置信度和执行所述目标业务所需要的置信度范围,并基于置信度比较结果控制所述目标业务的执行。
12.如权利要求11所述的交互式语音应答系统,其特征在于,所述控制模块至少响应于所述语音识别结果的置信度高于所述目标业务所需置信度的上限控制业务操作模块执行所述目标业务。
13.如权利要求12所述的交互式语音应答系统,其特征在于,所述控制模块响应于所述语音识别结果的置信度高于所述目标业务所需置信度的上限,判断所述目标业务是否属于强制确认类型,并且响应于所述目标业务属于强制确认类型控制输出模块向用户执行业务确认,若用户确认所述目标业务,则执行所述目标业务。
14.如权利要求11所述的交互式语音应答系统,其特征在于,所述控制模块响应于所述语音识别结果的置信度介于所述目标业务所需置信度的上限与下限之间,控制输出模块向用户执行业务确认,若用户确认所述目标业务,则执行所述目标业务。
15.如权利要求13或14所述的交互式语音应答系统,其特征在于,若用户未确认所述目标业务,则所述控制模块控制所述输出模块向用户输出要求用户重新输入语音指示的话术语音。
16.如权利要求13或14所述的交互式语音应答系统,其特征在于,所述输出模块向用户输出要求用户确认所述目标业务的话术语音,所述语音识别模块对用户的再次语音输入执行语音识别,所述语义识别模块从所述再次的语音识别结果确定用户是否确认所述目标业务。
17.如权利要求16所述的交互式语音应答系统,其特征在于,所述语音识别模块采用针对确认需要定制的语言模型对用户的所述再次语音输入执行语音识别。
18.如权利要求11所述的交互式语音应答系统,其特征在于,所述控制模块响应于所述语音识别结果的置信度低于所述目标业务所需置信度的下限控制所述语音识别模块采用全量语言模型对所述语音输入进行识别。
19.如权利要求18所述的交互式语音应答系统,其特征在于,还包括:
应答模块,用于基于全量语言模型的语音识别结果执行相应应答。
20.如权利要求11所述的交互式语音应答系统,其特征在于,所述语音识别模块采用针对业务需要定制的语言模型对用户的语音输入执行语音识别。
CN201610920316.1A 2016-10-21 2016-10-21 交互式语音应答方法及应答系统 Active CN106486120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610920316.1A CN106486120B (zh) 2016-10-21 2016-10-21 交互式语音应答方法及应答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610920316.1A CN106486120B (zh) 2016-10-21 2016-10-21 交互式语音应答方法及应答系统

Publications (2)

Publication Number Publication Date
CN106486120A true CN106486120A (zh) 2017-03-08
CN106486120B CN106486120B (zh) 2019-11-12

Family

ID=58270945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610920316.1A Active CN106486120B (zh) 2016-10-21 2016-10-21 交互式语音应答方法及应答系统

Country Status (1)

Country Link
CN (1) CN106486120B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN107437416A (zh) * 2017-05-23 2017-12-05 阿里巴巴集团控股有限公司 一种基于语音识别的咨询业务处理方法及装置
CN107507087A (zh) * 2017-07-25 2017-12-22 厦门快商通科技股份有限公司 一种面向客户的业务信息收集方法及系统
CN107688614A (zh) * 2017-08-04 2018-02-13 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质
CN109190114A (zh) * 2018-08-13 2019-01-11 北京百度网讯科技有限公司 用于生成回复信息的方法和装置
CN110136701A (zh) * 2018-02-09 2019-08-16 阿里巴巴集团控股有限公司 语音交互服务处理方法、装置和设备
CN111724788A (zh) * 2019-03-19 2020-09-29 华为技术有限公司 业务处理方法、装置及设备
CN112017642A (zh) * 2019-05-31 2020-12-01 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1848174A (zh) * 2006-05-16 2006-10-18 周星 通过ivr系统请求户主确认方式办理银行业务的系统与方法
CN101609673A (zh) * 2009-07-09 2009-12-23 交通银行股份有限公司 一种基于电话银行的用户语音处理方法及服务器
CN102340603A (zh) * 2010-07-27 2012-02-01 中国电信股份有限公司 通过ivr系统自助下载信息的系统和方法
CN103533186A (zh) * 2013-09-23 2014-01-22 安徽科大讯飞信息科技股份有限公司 一种基于语音呼叫的业务流程实现方法及系统
CN203761458U (zh) * 2014-02-24 2014-08-06 汉诚信息技术(上海)有限公司 一种交互式自动语音应答系统
CN104375847A (zh) * 2013-08-14 2015-02-25 华为技术有限公司 识别业务类型的方法及装置
CN105120373A (zh) * 2015-09-06 2015-12-02 上海智臻智能网络科技股份有限公司 语音传输控制方法及系统
CN105591882A (zh) * 2015-12-10 2016-05-18 北京中科汇联科技股份有限公司 一种智能机器人与人混合客服的方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1848174A (zh) * 2006-05-16 2006-10-18 周星 通过ivr系统请求户主确认方式办理银行业务的系统与方法
CN101609673A (zh) * 2009-07-09 2009-12-23 交通银行股份有限公司 一种基于电话银行的用户语音处理方法及服务器
CN102340603A (zh) * 2010-07-27 2012-02-01 中国电信股份有限公司 通过ivr系统自助下载信息的系统和方法
CN104375847A (zh) * 2013-08-14 2015-02-25 华为技术有限公司 识别业务类型的方法及装置
CN103533186A (zh) * 2013-09-23 2014-01-22 安徽科大讯飞信息科技股份有限公司 一种基于语音呼叫的业务流程实现方法及系统
CN203761458U (zh) * 2014-02-24 2014-08-06 汉诚信息技术(上海)有限公司 一种交互式自动语音应答系统
CN105120373A (zh) * 2015-09-06 2015-12-02 上海智臻智能网络科技股份有限公司 语音传输控制方法及系统
CN105591882A (zh) * 2015-12-10 2016-05-18 北京中科汇联科技股份有限公司 一种智能机器人与人混合客服的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
雷晓燕等: "四川管局针对市场热点展开综合检查", 《通信与信息技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437416A (zh) * 2017-05-23 2017-12-05 阿里巴巴集团控股有限公司 一种基于语音识别的咨询业务处理方法及装置
CN107437416B (zh) * 2017-05-23 2020-11-17 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN107507087A (zh) * 2017-07-25 2017-12-22 厦门快商通科技股份有限公司 一种面向客户的业务信息收集方法及系统
CN107688614A (zh) * 2017-08-04 2018-02-13 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质
CN107688614B (zh) * 2017-08-04 2018-08-10 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质
CN110136701A (zh) * 2018-02-09 2019-08-16 阿里巴巴集团控股有限公司 语音交互服务处理方法、装置和设备
CN110136701B (zh) * 2018-02-09 2023-03-31 阿里巴巴集团控股有限公司 语音交互服务处理方法、装置和设备
CN109190114A (zh) * 2018-08-13 2019-01-11 北京百度网讯科技有限公司 用于生成回复信息的方法和装置
CN109190114B (zh) * 2018-08-13 2022-06-07 北京百度网讯科技有限公司 用于生成回复信息的方法和装置
CN111724788A (zh) * 2019-03-19 2020-09-29 华为技术有限公司 业务处理方法、装置及设备
CN111724788B (zh) * 2019-03-19 2022-08-19 华为技术有限公司 业务处理方法、装置及设备
CN112017642A (zh) * 2019-05-31 2020-12-01 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
WO2020238341A1 (zh) * 2019-05-31 2020-12-03 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
CN112017642B (zh) * 2019-05-31 2024-04-26 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN106486120B (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN106486120A (zh) 交互式语音应答方法及应答系统
CN107329967B (zh) 基于深度学习的问答系统以及方法
US10446150B2 (en) In-vehicle voice command recognition method and apparatus, and storage medium
CN110399609B (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN101010934B (zh) 用于机器学习的方法
US20220076674A1 (en) Cross-device voiceprint recognition
WO2018000278A1 (zh) 一种基于状态机上下文敏感多轮对话管理系统及方法
CN109101545A (zh) 基于人机交互的自然语言处理方法、装置、设备和介质
JP2019159309A (ja) 音声対話の満足度の確定方法及び装置
CN107886949A (zh) 一种内容推荐方法及装置
CN108364650B (zh) 语音识别结果的调整装置及方法
CN111223485A (zh) 智能交互方法、装置、电子设备及存储介质
CN105677783A (zh) 智能问答系统的信息处理方法及装置
CN107146612A (zh) 语音引导方法、装置、智能设备及服务器
CN110222827A (zh) 基于文本的抑郁判定网络模型的训练方法
CN110491383A (zh) 一种语音交互方法、装置、系统、存储介质及处理器
CN109360550A (zh) 语音交互系统的测试方法、装置、设备和存储介质
US10154144B2 (en) Adjustable interactive voice response system and methods of using same
US10854189B2 (en) Techniques for model training for voice features
CN110083110A (zh) 基于自然智能的端到端控制方法和控制系统
US20220366127A1 (en) Legal Document Generation
CN109739969A (zh) 答案生成方法和智能会话系统
CN108920543A (zh) 查询和交互的方法及装置、计算机装置、存储介质
CN109065045A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN112579757A (zh) 智能问答方法、装置、计算机可读存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant