CN110335595A

CN110335595A - 基于语音识别的插问对话方法、装置及存储介质

Info

Publication number: CN110335595A
Application number: CN201910490860.0A
Authority: CN
Inventors: 张鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-10-15

Abstract

本发明涉及人工智能技术领域，本发明提出一种基于语音识别的插问对话方法、装置及计算机可读存储介质，其中的方法包括：通过自动语音识别技术和语言理解技术识别用户是否重听；当用户不重听时，获取用户与客服之间的插问对话环节中用户的语音，采用自动语音识别技术将获取的用户的语音转化为文本；通过语言理解技术对所转化的文本进行分析，获取文本中表示用户的意图的文字信息；根据文字信息，在预设的知识库中匹配与文字信息对应的问题答案；将匹配的问题答案回复用户。本发明通过自动语音识别技术和语言理解技术识别用户插问的问题，同时在配置与问题相匹配的答案回答用户的问题，能够及时回复用户答案，从而降低人工服务的成本。

Description

基于语音识别的插问对话方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于语音识别的插问对话方法、装置及计算机可读存储介质。

背景技术

随着AI智能语音识别技术的发展和应用，针对信用卡电话语音进线渠道，诸多场景可深度挖掘用户意图。目前，在常规的信用卡客服语音交互中，由于传统的客服系统中没有采用AI智能语音识别技术，用户在与电子客户语音交互中，客服系统还不能识别用户随意的插问，用户的插问不能及时得到回复，传统的客服语音交互不能满足用户的更好的体验。

鉴于目前传统的客服语音交互模式不能满足用户的更多的需求，因此亟需一种能实现用户与客服之间的插问对话的基于语音识别的插问对话方法。

发明内容

本发明提供一种基于语音识别的插问对话方法、装置及计算机可读存储介质，其主要目的在于通过自动语音识别技术和语言理解技术获取用户的意图，并通过在知识库中配置与用户意图相匹配的问题答，并及时将答案反馈给用户，从而能够降低人工服务的成本。

为实现上述目的，本发明提供一种电子装置，该电子装置包括：存储器、处理器，所述存储器中包括基于语音识别的插问对话程序，所述基于语音识别的插问对话程序被所述处理器执行时实现如下步骤：

通过自动语音识别技术和语言理解技术识别用户是否重听；

当用户不重听时，获取所述用户与客服之间的插问对话环节中用户的语音，采用自动语音识别技术将获取的用户的语音转化为文本；

通过语言理解技术对所转化的文本进行分析，获取所述文本中表示所述用户的意图的文字信息；

根据所述文字信息，在预设的知识库中匹配与所述文字信息对应的问题答案；

将匹配的所述问题答案回复所述用户。

优选地，所述通过自动语音识别技术和语言理解技术识别用户是否重听的步骤包括：

通过自动语音识别技术对获取的用户是否重听的语音进行识别，将所述用户是否重听的语音转化为文本；

通过自然语言处理技术对转化的文本进行模型训练，识别用户是否重听。

优选地，所述采用自动语音识别技术将用户的语音转化为文本的步骤包括：

对用户的语音做预处理；

对预处理后的语言进行特征提取；

将提取的特征与语音模型库中的语音信号进行模式匹配，实现用户的语音对文本的转化。

优选地，所述通过语言理解技术对所转化的文本进行分析，获取所述文本中表示所述用户的意图的文字信息的图步骤包括：

利用构建的深度学习模型对接收到的文本的多个词组结合语境进行上下文理解、语义消歧，获取多个词组的语义结果；

将所述多个词组的语义结果分别与知识图谱的词组进行比对，获取每个词组的相似度值；

将相似度值最高的词组作为每个词组的语义结果，获取多个词组的语义结果；将所述多个词组的语义结果进行组合，生成文字信息的语义理解结果，获取用户的意图的文字信息。

此外，为实现上述目的，本发明还提供一种基于语音识别的插问对话方法，用于实现用户与客服之间的插问对话，所述方法应用于电子装置，所述方法包括：

通过自动语音识别技术和语言理解技术识别用户是否重听；

当用户不重听时，获取所述用户与客服之间的插问对话环节中用户的语音，，采用自动语音识别技术将获取的用户的语音转化为文本；

将匹配的所述问题答案回复所述用户。

对用户的语音做预处理；

对预处理后的语言进行特征提取；

优选地，所述通过语言理解技术对接收到的文本进行分析，获取用户的意图步骤包括：

利用构建的深度学习模型对经过处理的文字信息的多个词组结合语境进行上下文理解、语义消歧，获取多个词组的语义结果；

将相似度值最高的词组作为每个词组的语义结果，进一步获取多个词组的语义结果；

将所述多个词组的语义结果进行组合，生成文字信息的语义理解结果，获取用户的意图的文字信息。

优选地，采用合成语音或者真实语音将所述问题答案及时回复给用户。

此外，为实现上述目的，本发明还提供一种语音导航系统，包括：

重听识别模块，用于通过自动语音识别技术和语言理解技术识别用户是否重听；

文本转化模块，用于当用户不重听时，获取所述用户与客服之间的插问对话环节中用户的语音，采用自动语音识别技术将获取的用户的语音转化为文本；

文本发送模块，用于将转化的文本发送至知识库系统。

此外，为实现上述目的，本发明还提供一种知识库系统，包括：

用户意图获取模块，用于接收所述语音导航系统发送的文本，通过语言理解技术对所述文本进行分析，获取所述文本中表示所述用户的意图的文字信息；

匹配模块，用于根据所述文字信息，在预设的知识库系统中匹配与所述文字信息对应的问题答案；

问题答案发送模块，用于将匹配到的问题答案发送至语音导航系统。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于语音识别的插问对话程序，所述基于语音识别的插问对话程序被处理器执行时，实现如上所述的基于语音识别的插问对话方法中的任意步骤。

本发明提出的基于语音识别的插问对话方法、装置及计算机可读存储介质，通过自动语音识别技术和语言理解技术获取用户的意图，并通过在知识库中配置与用户意图相匹配的问题答案，并及时将答案反馈给用户，从而能够降低人工服务的成本。

附图说明

图1为本发明基于语音识别的插问对话方法较佳实施例的应用环境示意图；

图2为图1中基于语音识别的插问对话程序较佳实施例的模块示意图；

图3为本发明基于语音识别的插问对话方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于语音识别的插问对话方法，应用于一种电子装置1。参照图1所示，为本发明基于语音识别的插问对话方法较佳实施例的应用环境示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子装置1包括：处理器12、存储器11、网络接口14及通信总线15。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于语音识别的插问对话程序10、深度学习模型等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于语音识别的插问对话程序10等。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线15用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-15的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

可选地，该电子装置1还可以包括射频(Radio Frequency，RF)电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作系统、以及基于语音识别的插问对话程序10；处理器12执行存储器11中存储的基于语音识别的插问对话程序10时实现如下步骤：

通过自动语音识别技术和语言理解技术识别用户是否重听；

将匹配的所述问题答案回复所述用户。

首先，通过自动语音识别技术对获取的用户是否重听的语音进行识别，将用户是否重听的语音转化为文本；

然后通过自然语言处理技术对转化的文本进行模型训练，识别用户是否重听。

对用户的语音做预处理；

对预处理后的语言进行特征提取；

优选地，所述通过语言理解技术对所转化的文本进行分析，获取所述文本中表示所述用户的意图的文字信息的步骤包括：

此外，在本发明中提供一种语音导航系统和一种知识库系统，通过语音导航系统和知识库系统完成用户与客服之间的插问对话。

其中，语音导航系统，包括：重听识别模块、文本转化模块和文本发送模块；重听识别模块，用于通过自动语音识别技术和语言理解技术识别用户是否重听；文本转化模块，用于当用户不重听时，获取所述用户与客服之间的插问对话环节中用户的语音，，采用自动语音识别技术将用户的语音转化为文本；文本发送模块，用于将转化的文本发送至知识库系统。

其中，知识库系统，包括：用户意图获取模块、匹配模块和问题答案发送模块；用户意图获取模块，用于接收所述语音导航系统发送的文本，通过语言理解技术对所述文本进行分析，获取所述文本中表示所述用户的意图的文字信息；匹配模块，用于根据所述文字信息，在预设的知识库系统中匹配与所述文字信息对应的问题答案；问题答案发送模块，用于将匹配到的问题答案发送至语音导航系统。

在上述过程中，通过基于语音识别完成信用卡客服可以用户语音交互中用户插问对话的环节。其中，在语音导航系统中，完成的任务包括：第一：识别用户是否需要重听，第二：进入用户插问环节后，通过自动语音识别技术(ASR，Automatic Speech Recognition)将用户说的语音转化为文本。在知识库系统端，需要完成的任务包括：第一：通过语言理解技术(NLP，NaturalLanguage Processing)获取用户的真正的意图，第二：设置的“问题-答案”匹配规则，回复用户的问题。

其中，在语音导航系统端，通过自动语音识别技术和语言理解技术识别用户是否重听，其中的步骤过程包括：首先通过自动语音识别技术对获取的用户的语音进行识别，将用户的语音转化为文本；然后通过自然语言处理技术对转化的文本进行模型训练，识别用户是否重听。

也就是说，在语音导航系统端，从客服与用户之间的对话中提取重要的信息，从用户与客服的问答中提取信息，涉及到自动语音识别(ASR)和语言理解技术。ASR是将用户的语音输入后，首先对语音信号做预处理，特征提取后从语音模型库中对语音信号进行模式匹配，最终得到语音识别的结果，将用户的语音转化为文本。然后通过语言理解技术(NLP)别用户的是否重听。

当用户不重听时，对客服进行问话，此时进入插问环节，采用自动语音识别技术将用户的语音转化为文本。其中，所述采用自动语音识别技术将用户的语音转化为文本的步骤包括：对用户的语音信号做预处理；对预处理后的语言信号进行特征提取；将提取的特征与语音模型库中的语音信号进行模式匹配，实现用户的语音对文本的转化。

也就是说，自动语音识别技术(ASR，Automatic Speech Recognition)是将用户的语音输入后，首先对语音信号做预处理，特征提取后从语音模型库中对语音信号进行模式匹配，最终得到语音识别的结果，将用户的语音转化为文本。

当将客户的语音转化为文本后，将转化的文本从语音导航系统端传输到知识库系统端。

在知识库系统端，知识库系统通过语言理解技术对转化的文本进行分析，获取用户的意图，获取用户的意图的具体过程包括：利用构建的深度学习模型对接收到的文本的多个词组结合语境进行上下文理解、语义消歧，获取多个词组的语义结果；将多个词组的语义结果分别与知识图谱的词组进行比对，获取每个词组的相似度值，将相似度值最高的词组作为每个词组的语义结果，获取多个词组的语义结果；将多个词组的语义结果进行组合，生成文字信息的语义理解结果，获取用户的意图。

上述语义消歧主要针对具有多个含义的词组(包括标准语言词组)进行的，以确定该具有多个含义的词组在文字信息中的具体含义。这里的知识图谱是各个领域的专业词汇及其含义的词向量图谱，以医学领域为例，知识图谱可以是医学专业词汇及其含义的词向量图谱，也可以是疾病词汇与其含义、影响因素、治疗要素的相关的诊疗图谱。

在本发明中，还可以通过另一方式获取用户的意图，其具体过程包括：利用构建的深度学习模型对经过处理的文字信息的多个词组结合语境进行上下文理解、语义消歧，获取多个词组的语义结果；将多个词组的语义结果结合知识图谱，分析多个词组的内在关系和/或逻辑关系(这里的内在关系包括多个词组之间的相应联系，逻辑关系包括因果关系)，生成文字信息的语义理解结果，获取用户的意图。

上述两种方式均可以将用户的语音文本进行分析处理，获取文本的语义，以便获取用户的意图。

其中，需要说明的是，语义分析，即为语言理解技术，机器无法理解人类的语言，但是通过运用自然语言处理技术可实现语义的理解。自然语言处理技术(NLP)包括两方面的内容，其一为语言学，其二为计算模型。NLP可以实现文本摘要、信息抽取、情感分类等。

具体到用户与客服的问答的应用场景，对用户问答的语言做数据收集，并对数据进行语义标注和训练(如应用LSTM网络模型)，这样在实际应用中，可通过对ASR捕捉到的语言内容进行解码，匹配训练模型，抽提出关键的信息的意图的判断。

在知识库配置一个WEB页面，将与客户提到的问题相匹配的答案配置到在WEB页面上，例如：下面两种不同话术问法：“我申请的卡为什么拒绝了”，“为什么不给我发卡？”归结于同一问题：卡片拒绝。对应的回复，可能是“综合评分不足，需要您提高个人信用记录”等。这个答案可以是通过真人语音，也可以是合成的TTS语音及时播报给用户，是哪种语音进行播报都在配置中指定。

其中，配置的是“问题-答案”对应关系。比如：用户的标准问是“卡片首次审核未通过可否再次申请？”，其有很多相似的问法，如：“申请被拒绝了可否重新申请？”，相似提问有很多种，通过自动语音识别(ASR)和语言理解技术识别用户的意思后，这些提问但都对应一个答案。

其中，用户提问有多种表述方式，询问信用卡申请片拒绝的原因，通过自然语言处理技术(NLP)分析得出：卡片拒绝，根据得出的语音分析结果，知识库系统中的WEB页面的：问题-答案配置规则，回答用户的问题；知识库系统将回答用户问题的答复传输给语音导航系统，使得用户快速得到答案。

此外，用户的疑问被解决，想跳出插问环节，只需说肯定语音，如：知道了、了解等，或者不说话，系统将自动返回进入插问环节点。

在本发明中，如果用户不说话，语音导航系统捕获不到用户的语音，这种情况是超时；只是在跳出插问环节，超时是默认处理为肯定答复，即用户想要跳出追问。而在业务环节时，超时代表用户不说话，需继续播报提示音，如“你是否要重听一遍？”。也就是说，NLP(语义理解技术)会将识别的语义返回给信用卡业务系统，如果返回值是肯定(某个字段值)，就代表识别成肯定语义，后续的业务流程按肯定语义处理。

根据上述用户插问方式，距离说明插问场景：

1)拨打95511电话热线，说“信用卡申请进度查询”，经过首层语音导航识别到出口【申请进度查询】节点，将话路转到下层信用卡系统，并进入到申请进度查询节点。

2)用户输入身份证号，查询申请卡片信息，如果申请状态为拒绝，会播报拒绝提示音给用户，同时播报语音“是否需要重听一遍？”，此时的语音交互，语音导航系统会识别用户说“是”或“否”的意图，最终识别为重听或不重听。

3)有部分用户并不想重听语音，而是想知道申请卡片被拒绝的原因。因此，信用卡下层系统新对接了知识库系统，当重听拒绝时，语音导航系统会将文本传给知识库系统，知识库系统通过NLP识别文本的语义，然后通过配置“问题-答案”来回答用户的插问问题。

4)如果用户的疑问被解决，想跳出插问环节，只需说肯定语音，如知道了、了解等，或者不说话，系统将自动返回进入插问场景，即播报语音“是否需要重听一遍？”。

上述实施例提出的电子装置1，通过自动语音识别技术和语言理解技术识别用户插问的问题，同时根据配置的问题-答案规则回答用户的问题，从而及时反馈用户答复；当用户的疑问被解决时，跳出插问环节，这种方式不但能够及时反馈用户的问题还能够降低人工服务的成本。

在其他实施例中，基于语音识别的插问对话程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中基于语音识别的插问对话程序10较佳实施例的程序模块图。所述基于语音识别的插问对话程序10可以被分割为：重听识别模块110、文本转化模块120、文本发送模块130、意图获取模块140、匹配模块150及问题答案发送模块160。所述模块110-160所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

重听识别模块110，用于通过自动语音识别技术和语言理解技术识别用户是否重听；

文本转化模块120，用于当用户不重听时，获取所述用户与客服之间的插问对话环节中用户的语音，，采用自动语音识别技术将获取的用户的语音转化为文本；

文本发送模块130，用于将转化的文本发送到知识库；

意图获取模块140，用于通过语言理解技术对所转化的文本进行分析，获取所述文本中表示所述用户的意图的文字信息；

匹配模块150，用于根据所述文字信息，在预设的知识库中匹配与所述文字信息对应的问题答案；

问题答案发送模块160，用于将匹配到的问题答案发送至语音导航系统。

优选地，所述重听识别模块110包括：语音识别单元、语音训练单元。

语音识别单元，用于首先通过自动语音识别技术对获取的用户是否重听的语音进行识别，将所述用户是否重听的语音转化为文本；

语音训练单元，用于通过自然语言处理技术对转化的文本进行模型训练，识别用户是否重听。

优选地，文本转化模块120包括：语音预处理单元、特征提取单元和文本转化单元。

其中，语音欲处理单元，用于对用户的语音做预处理；

特征提取单元，用于对预处理后的语言进行特征提取；

文本转换单元，用于将提取的特征与语音模型库中的语音信号进行模式匹配，实现用户的语音对文本的转化。

优选地，意图获取模块140包括：语义结果获取单元，用于利用构建的深度学习模型对接收到的文本的多个词组结合语境进行上下文理解、语义消歧，获取多个词组的语义结果；

相似度值获取单元，用于将所述多个词组的语义结果分别与知识图谱的词组进行比对，获取每个词组的相似度值；

第二次多个语义结果获取单元，用于将相似度值最高的词组作为每个词组的语义结果，第二次获取多个词组的语义结果；

文字信息获取单元，用于将所述多个词组的语义结果进行组合，生成文字信息的语义理解结果，获取用户的意图的文字信息。

此外，本发明还提供一种基于语音识别的插问对话方法。参照图3所示，为本发明基于语音识别的插问对话方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于语音识别的插问对话方法，通过语音导航系统和知识库系统完成客服与用户之间的插问对话，所述方法包括：步骤S10-步骤S60。

S10：通过自动语音识别技术和语言理解技术识别用户是否重听；

S20：当用户不重听时，获取所述用户与客服之间的插问对话环节中用户的语音，，采用自动语音识别技术将获取的用户的语音转化为文本；

S30：通过语言理解技术对转化的文本进行分析，获取用户的意图；

S40：根据获取的用户的意图，在预设的知识库中匹配与所述文字信息对应的问题答案；

S50：将匹配的所述问题答案回复所述用户。

在上述过程中，通过语音识别和语言理解完成信用卡客服可以用户语音交互中用户插问对话的环节。其中，完成的任务包括：第一：识别用户是否需要重听，第二：进入用户插问环节后，通过自动语音识别技术(ASR，Automatic Speech Recognition)将用户说的语音转化为文本，第三：通过语言理解技术(NLP，Natural Language Processing)获取用户的真正的意图，第四：设置的“问题-答案”匹配规则，回复用户的问题。

在步骤S10中，通过自动语音识别技术和语言理解技术识别用户是否重听，其中的步骤过程包括：首先通过自动语音识别技术对获取的用户的语音进行识别，将用户的语音转化为文本；然后通过自然语言处理技术对转为的文本进行模型训练，识别用户是否重听。

也就是说，从客服与用户之间的对话中提取重要的信息，从用户与客服的问答中提取信息，涉及到自动语音识别(ASR)和语言理解技术。ASR是将用户的语音输入后，首先对语音信号做预处理，特征提取后从语音模型库中对语音信号进行模式匹配，最终得到语音识别的结果，将用户的语音转化为文本。然后通过语言理解技术(NLP)别用户的是否重听。

在步骤S20中，当用户不重听时，对客服进行问话，此时进入插问环节，采用自动语音识别技术将用户的语音转化为文本。其中，所述采用自动语音识别技术将用户的语音转化为文本的步骤包括：对用户的语音信号做预处理；对预处理后的语言信号进行特征提取；将提取的特征与语音模型库中的语音信号进行模式匹配，实现用户的语音对文本的转化。

当将用户的语音转化为文本后，将转化的文本传输到知识库。

在步骤S30中，通过语言理解技术对接收到的文本进行分析，获取用户的意图，获取用户的意图的具体过程包括：利用构建的深度学习模型对接收到的文本的多个词组结合语境进行上下文理解、语义消歧，获取多个词组的语义结果；将多个词组的语义结果分别与知识图谱的词组进行比对，获取每个词组的相似度值，将相似度值最高的词组作为每个词组的语义结果，获取多个词组的语义结果；将多个词组的语义结果进行组合，生成文字信息的语义理解结果，获取用户的意图。

在步骤40中，根据步骤30获取的用户的意图，通过知识库设置的问题-答案匹配，回复用户的问题。

其中，将“问题-答复”匹配规则配置到在WEB页面上，例如：下面两种不同话术问法：“我申请的卡为什么拒绝了”，“为什么不给我发卡？”归结于同一问题：卡片拒绝。对应的回复，可能是“综合评分不足，需要您提高个人信用记录”等。这个答案可以是通过真人语音，也可以是合成的TTS语音及时播报给用户，是哪种语音进行播报都在规则配置中指定。

其中，规则就是“问题-答案”对应关系。比如：用户的标准问是“卡片首次审核未通过可否再次申请？”，其有很多相似的问法，如：“申请被拒绝了可否重新申请？”，相似提问有很多种，通过自动语音识别(ASR)和语言理解技术识别用户的意思后，这些提问但都对应一个答案。

其中，用户提问有多种表述方式，询问信用卡申请片拒绝的原因，通过自然语言处理技术(NLP)分析得出：卡片拒绝，根据得出的语音分析结果，知识库系统中的WEB页面的：问题-答案配置规则，回答用户的问题，使得用户快速得到答案。

根据上述用户插问方式，距离说明插问场景：

上述实施例提出的基于语音识别的插问对话，通过自动语音识别技术和语言理解技术获取用户的意图，并通过在知识库中配置与用户意图相匹配的问题答案，并及时将答案反馈给用户，从而能够降低人工服务的成本。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括基于语音识别的插问对话程序，所述基于语音识别的插问对话程序被处理器执行时实现如下操作：

通过自动语音识别技术和语言理解技术识别用户是否重听；

将匹配的所述问题答案回复所述用户。

通过自动语音识别技术对获取的用户是否重听的语音进行识别，将用户的语音转化为文本；

对用户的语音做预处理；

对预处理后的语言进行特征提取；

优选地，采用合成或者真实语音将所述问题-答案规则中的答案及时回复给用户。

本发明之计算机可读存储介质的具体实施方式与上述基于语音识别的插问对话方法、电子装置的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于语音识别的插问对话方法，用于实现用户与客服之间的插问对话，所述方法应用于电子装置，其特征在于，所述方法包括：

通过自动语音识别技术和语言理解技术识别用户是否重听；

将匹配的所述问题答案回复所述用户。

2.根据权利要求1所述的基于语音识别的插问对话方法，其特征在于，

所述通过自动语音识别技术和语言理解技术识别用户是否重听的步骤包括：

3.根据权利要求1所述的基于语音识别的插问对话方法，其特征在于，

所述采用自动语音识别技术将用户的语音转化为文本的步骤包括：

对用户的语音做预处理；

对预处理后的语言进行特征提取；

4.根据权利要求1所述的基于语音识别的插问对话方法，其特征在于，

所述通过语言理解技术对所转化的文本进行分析，获取所述文本中表示所述用户的意图的文字信息的步骤包括：

将相似度值最高的词组作为每个词组的语义结果，进一步获取多个词组的语义结果；将所述多个词组的语义结果进行组合，生成文字信息的语义理解结果，获取用户的意图的文字信息。

5.根据权利要求1-4任一项所述的基于语音识别的插问对话方法，其特征在于，所述将匹配的所述问题答案回复所述用户的步骤包括：

采用合成语音或者真实语音将所述问题答案及时回复给用户。

6.一种语音导航系统，其特征在于，包括：

文本发送模块，用于将转化的文本发送至知识库系统。

7.一种知识库系统，其特征在于，包括：

8.一种电子装置，其特征在于，该电子装置包括：存储器、处理器，所述存储器中包括基于语音识别的插问对话程序，所述基于语音识别的插问对话程序被所述处理器执行时实现如下步骤：

通过自动语音识别技术和语言理解技术识别用户是否重听；

将匹配的所述问题答案回复所述用户。

9.根据权利要求8所述的电子装置，其特征在于，所述采用自动语音识别技术将用户的语音转化为文本的步骤包括：

对客户的语音做预处理；

对预处理后的语言进行特征提取；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括基于语音识别的插问对话程序，所述基于语音识别的插问对话程序被处理器执行时，实现如权利要求1至5中任一项所述的基于语音识别的插问对话方法的步骤。