CN107798032A

CN107798032A - 自助语音会话中的应答消息处理方法和装置

Info

Publication number: CN107798032A
Application number: CN201710087381.5A
Authority: CN
Inventors: 周俊琨; 官民; 严江浩; 石卢靖
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-02-17
Filing date: 2017-02-17
Publication date: 2018-03-13
Anticipated expiration: 2037-02-17
Also published as: CN107798032B

Abstract

本发明涉及一种自助语音会话中的应答消息处理方法和装置，所述方法包括获取自助语音会话中的用户语音数据；将所述用户语音数据识别为会话文本；对所述会话文本进行分词处理得到特征词集合；获得与所述特征词集合中各特征词对应的预设关键词，并确定所述预设关键词所属的语义类别；根据所述预设关键词及所述预设关键词所属的语义类别，查找语义解析模板；输出与查找到的所述语义解析模板对应的预设应答消息。本申请提供的自助语音会话中的应答消息处理方法极大地提高了自助语音会话过程中应答成功率。

Description

自助语音会话中的应答消息处理方法和装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种自助语音会话中的应答消息处理方法和装置。

背景技术

随着计算机处理能力的不断发展与社会的不断进步，用户各项业务的办理从以人工对话为主的会话方式开始转向自助语音会话方式。比如目前常见的智能客服系统，可根据用户会话内容，自动获取到相应的应答消息并进行应答。

但是传统的自助语音会话方式依赖于预先设定的问题与应答消息的对答模型，对于存在对答模型的问题可实现比较理想的应答，但对于未知问题则通常无法处理，从而导致自助语音会话过程中应答的成功率低。

发明内容

基于此，有必要针对传统自助语音会话方式应答成功率低的问题，提供一种自助语音会话中的应答消息处理方法和装置。

一种自助语音会话中的应答消息处理方法，所述方法包括：

获取自助语音会话中的用户语音数据；

将所述用户语音数据识别为会话文本；

对所述会话文本进行分词处理得到特征词集合；

获得与所述特征词集合中各特征词对应的预设关键词，并确定所述预设关键词所属的语义类别；

根据所述预设关键词及所述预设关键词所属的语义类别，查找语义解析模板；

输出与查找到的所述语义解析模板对应的预设应答消息。

在一个实施例中，所述获得与所述特征词集合中各特征词对应的预设关键词的步骤包括：

获取预设的候选关键词集合，所述候选关键词集合中的每个候选关键词均存在相对应的一个预设词，其中，与相似的候选关键词相对应的预设词相同；

在所述候选关键词集合中查找与所述特征词集合中的各特征词相同的候选关键词；

获得与查找到的所述候选关键词相对应的预设词，并确定所述预设词为所述特征词集合中特征词对应的预设关键词。

在一个实施例中，当确定的所述语义类别不包括业务类型类别时，所述根据所述预设关键词及所述预设关键词所属的语义类别，查找语义解析模板的步骤包括：

确定发起所述自助语音会话的用户标识；

获取与所述用户标识对应的历史业务类型，并根据所述历史业务类型获取对应的预设业务关键词；

根据所述预设关键词、所述预设关键词所属的语义类别和所述预设业务关键词，查找语义解析模板。

在一个实施例中，所述根据所述预设关键词及所述预设关键词所属的语义类别，查找语义解析模板的步骤包括：

统计每个确定的所述语义类别所包括的预设关键词的数量；

获取所述语义类别中预设关键词数量超过一个的语义类别，及获取的所述语义类别所包括的预设关键词；

查询与获取的所述语义类别所包括的预设关键词对应的特征词，及各所述特征词的字符数；

根据各所述特征词的字符数，选取获取的所述语义类别所包括的预设关键词中，与字符数最多的特征词相对应的预设关键词，以及剩余的语义类别所包括的预设关键词；

根据选取的各所述预设关键词，查找包括选取的各所述预设关键词的语义解析模板。

在一个实施例中，所述根据预设的候选关键词集合，获得与所述特征词集合中各特征词对应的预设关键词，并确定获得的所述预设关键词所属的语义类别之前，所述方法还包括：

获取历史会话记录；

对所述历史会话记录进行分词处理得到待选关键词集合；

统计所述待选关键词集合中各待选关键词出现的频率；

从统计的频率中筛选出高于预设频率阈值的频率；

获取与筛选出的频率对应的待选关键词；

选取所述对应的待选关键词作为预设关键词。

一种自助语音会话中的应答消息处理装置，所述装置包括：

语音识别模块，用于获取自助语音会话中的用户语音数据；将所述用户语音数据识别为会话文本；

分词模块，用于对所述会话文本进行分词处理得到特征词集合；

语义识别模块，用于获得与所述特征词集合中各特征词对应的预设关键词，并确定所述预设关键词所属的语义类别；根据所述预设关键词及所述预设关键词所属的语义类别，查找语义解析模板；

输出模块，用于输出与查找到的所述语义解析模板对应的预设应答消息。

在一个实施例中，所述语义识别模块还用于获取预设的候选关键词集合，所述候选关键词集合中的每个候选关键词均存在相对应的一个预设词，其中，与相似的候选关键词相对应的预设词相同；在所述候选关键词集合中查找与所述特征词集合中的各特征词相同的候选关键词；获得与查找到的所述候选关键词相对应的预设词，并确定所述预设词为所述特征词集合中特征词对应的预设关键词。

在一个实施例中，所述语义识别模块还用于当确定的所述语义类别不包括业务类型类别时，确定发起所述自助语音会话的用户标识；获取与所述用户标识对应的历史业务类型，并根据所述历史业务类型获取对应的预设业务关键词；根据所述预设关键词、所述预设关键词所属的语义类别和所述预设业务关键词，查找语义解析模板。

在一个实施例中，所述语义识别模块还用于统计每个确定的所述语义类别所包括的预设关键词的数量；获取所述语义类别中预设关键词数量超过一个的语义类别，及获取的所述语义类别所包括的预设关键词；查询与获取的所述语义类别所包括的预设关键词对应的特征词，及各所述特征词的字符数；根据各所述特征词的字符数，选取获取的所述语义类别所包括的预设关键词中，与字符数最多的特征词相对应的预设关键词，以及剩余的语义类别所包括的预设关键词；根据选取的各所述预设关键词，查找包括选取的各所述预设关键词的语义解析模板。

在一个实施例中，所述装置还包括：

预设关键词选取模块，用于获取历史会话记录；对所述历史会话记录进行分词处理得到待选关键词集合；统计所述待选关键词集合中各待选关键词出现的频率；从统计的频率中筛选出高于预设频率阈值的频率；获取与筛选出的频率对应的待选关键词；选取所述对应的待选关键词作为预设关键词。

上述自助语音会话中的应答消息处理方法和装置，以预设关键词作为识别依据对用户语音数据进行语义识别，避免了由于提问方式或者词语的多种表达形式导致的无法识别用户语音数据语义的问题，提高了语义识别的成功率。而且，对预设关键词区分了语义类别，查找的语义解析模板包括属于确定的语义类别的预设关键词，使得语义识别更加准确。并且在查找到对应的语义解析模板完成语义识别后，即可根据事先的建立语义解析模板与预设应答消息的对应关系，自动输出与查找到的语义解析模板对应的预设应答消息，从而极大地提高了自助语音会话过程中应答成功率。

附图说明

图1为一个实施例中自助语音会话中的应答消息处理系统的应用环境图；

图2为一个实施例中用于实现自助语音会话中的应答消息处理方法的服务器的结构示意图；

图3为一个实施例中自助语音会话中的应答消息处理方法的流程示意图；

图4为一个实施例中获得与特征词集合中各特征词对应的预设关键词的步骤的流程示意图；

图5为另一个实施例中自助语音会话中的应答消息处理方法的流程示意图；

图6为一个实施例中查找语义解析模板，查找的语义解析模板包括属于确定的语义类别的预设关键词的步骤的流程示意图；

图7为又一个实施例中自助语音会话中的应答消息处理方法的流程示意图；

图8为一个实施例中自助语音会话中的应答消息处理装置的结构框图；

图9为另一个实施例中自助语音会话中的应答消息处理装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，在一个实施例中，提供了一种自助语音会话中的应答消息处理系统的应用环境图，该自助语音会话中的应答消息处理系统包括终端110和服务器120。终端110具有接入网络的功能，网络如互联网或者电话网络，终端110可以是手机、平板电脑或者固定电话等。服务器120用于实现自助语音会话中的应答消息处理方法。具体地，服务器120可用于获取自助语音会话中的用户语音数据，将用户语音数据识别为会话文本，并对会话文本进行分词处理得到特征词集合，再根据预设的候选关键词集合，获得与特征词集合中各特征词对应的预设关键词，并确定获得的预设关键词所属的语义类别。然后服务器120可用于查找语义解析模板，查找的语义解析模板包括属于确定的语义类别的预设关键词，再输出与查找到的语义解析模板对应的预设应答消息。

图2为一个实施例中服务器120的内部结构示意图。如图2所示，该服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该服务器的非易失性存储介质存储有操作系统和数据库，数据库中可存储预设关键词、语义解析模板和与语义解析模板对应的预设应答消息。该服务器的处理器用于提供计算和控制能力，支撑整个服务器的运行。该服务器的内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种自助语音会话中的应答消息处理方法。该服务器的网络接口用于据以接入网络与外部的终端通过网络连接通信，比如接收终端发送的用户语音数据等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提供了一种自助语音会话中的应答消息处理方法。本实施例以该方法应用于上述图1中的服务器120来举例说明。该方法具体包括如下步骤：

S302，获取自助语音会话中的用户语音数据。

其中，自助语音会话是指机器与用户之间自动进行语音对答的会话。用户语音数据是指在自助语音会话过程中产生的用户的语音数据。

具体地，终端可通过拨打自助服务号码的方式，与服务器通过电话网络建立自助语音会话，采集用户在自助语音会话中产生的语音数据，将采集的用户语音数据通过电话网络发送至服务器。终端也可以通过发起自助语音会话的网络请求，与服务器建立互联网连接，从而建立基于互联网的自助语音会话，采集用户在自助语音会话中产生的语音数据，将采集的用户语音数据通过互联网发送至服务器。

S304，将用户语音数据识别为会话文本。

具体地，服务器可对用户语音数据进行特征提取，获得待识别的用户语音特征数据，然后基于声学模型对待识别的用户语音特征数据进行语音分帧处理得到多个音素，根据候选字库中候选字与音素的对应关系，将处理得到的多个音素转化为字符序列，再利用语言模型调整转化得到的字符序列，从而得到符合自然语言模式的会话文本。

其中，会话文本是自助语音会话中用户语音的字符表示形式。声学模型如GMM(Gaussian Mixture Model高斯混合模型)或DNN(Deep Neural Network深度神经网络)等。候选字库包括候选字和与候选字对应的音素。语言模型用于按照自然语言模式调整声学模型所识别出的字符序列，比如N-Gram模型(CLM,Chinese Language Model汉语语言模型)等。

S306，对会话文本进行分词处理得到特征词集合。

其中，分词是指将一个连续的字符序列切分成多个单独的字符或者字符序列。特征词是指具有语义表达功能的字符或者字符序列。具体地，服务器可采用预设的分词方式对会话文本进行分词处理，得到多个字符或者字符序列，从得到的字符序列中筛选出具有实际语义的字符或者字符序列作为特征词，形成特征词集合。特征词集合可以包括一个或多个特征词。其中，预设的分词方式可以是基于字符匹配、基于语义理解或者基于统计的分词方式。

在一个实施例中，服务器可采用基于字符匹配的分词方式进行分词处理，将会话文本按照从前到后或者从后到前的顺序逐一切分出单个字符，再将该单个字符与标准词库进行匹配。如果匹配成功，则获取该字符作为一个候选特征词；若匹配失败，则通过增加一个字符继续进行匹配，直至会话文本中包括的字符全部匹配完成。

在一个实施例中，服务器也可同时对会话文本进行正向匹配分词和逆向匹配分词。在两种分词方式的分词结果相同时，将分词得到的多个单独的字符或者字符序列作为候选特征词。在两种分词方式的分词结果不相同时，分别计算两种分词方式得到的单独的字符或者字符序列的数量，选取计算的数量少的分词方式得到的单独的字符或者字符序列为作为候选特征词。

进一步地，服务器从得到的字符或字符序列中筛选出具有实际语义的字符或者字符序列作为特征词时，具体可从得到的字符或字符序列中过滤掉停用词。其中，停用词是指自然语言中包括的一种功能字符或者字符序列，这类功能字符或者字符序列并无实际语义，包括代表语气的语气字符或字符序列和表示某种逻辑关系连接字符或字符序列等。具体地，语气字符比如“吗”或者“呢”等，连接字符比如“的”或“在”等，语气字符序列比如“而已”或者“就是了”等，连接字符序列比如“至于”或“然后”等。

S308，获得与特征词集合中各特征词对应的预设关键词，并确定预设关键词所属的语义类别。

其中，预设关键词是指预先设置的用来进行语义识别的关键词。语义类别用于区别代表不同类型语义的预设关键词。语义类别可以包括业务类型类别、业务参数类别、业务产品类别和业务行为类别。具体地，属于业务类型类别的预设关键词比如信用卡或者保险等，属于业务参数类别的预设关键词比如渠道等，属于业务产品类别的预设关键词比如账单或者保单等，属于业务行为类别的预设关键词比如查询或者办理等。

在一个实施例中，服务器可事先建立包括多个候选关键词集合的候选关键词库，每个候选关键词集合被映射至一个预设关键词，每个候选关键词集合中包括被映射至的预设关键词和与该预设关键词相似的相似词。服务器在完成分词处理得到特征词集合后，对候选关键词集合进行逐个查找，当候选关键词集合中存在与特征词集合中特征词一致的词时，获得该候选关键词集合映射至的预设关键词。其中，相似词是指与预设关键词的相似度高于预设相似度阈值的词。

进一步地，服务器可预先设置预设关键词与语义类别的对应关系。服务器在获得与特征词集合中各特征词对应的预设关键词后，根据存储的对应关系查询获得的预设关键词所属的语义类别。

S310，根据预设关键词及预设关键词所属的语义类别，查找语义解析模板。

其中，语义解析模板是指用于进行语义解析的模板。语义解析模板包括业务类型类别、业务参数类别、业务产品类别和业务行为类别中至少一种类别的预设关键词。语义解析模板可存储在文件、数据库或者缓存中，在需要时从文件、数据库或者缓存中获取。

在一个实施例中，服务器执行步骤S308后，可先从确定的语义类别中选取一个语义类别以及属于该语义类别的预设关键词，从存储的语义解析模板中筛选出包括选取的该语义类别以及选取的该预设关键词的语义解析模板，再从确定的语义类别中选取一个语义类别以及属于该语义类别的预设关键词，从筛选出的语义解析模板中筛选出包括选取的该语义类别以及选取的该预设关键词的语义解析模板，循环执行上述选取语义类别与预设关键词，并在筛选出的语义解析模板中筛选语义解析模板的步骤，直至确定的语义类别全部选取完成。

服务器还可以事先将语义解析模板按照语义解析模板所包括的预设关键词所属的语义类别的数量进行分类。服务器在获得与特征词集合中各特征词对应的预设关键词，并确定获得的预设关键词所属的语义类别后，可先获取确定的语义类别的数量，然后获取包括的预设关键词所属的语义类别的数量与获取的数量相同的语义解析模板，再在获取的语义解析模板中查找包括属于确定的语义类别的预设关键词的语义解析模板。

S312，输出与查找到的语义解析模板对应的预设应答消息。

其中，预设应答消息是指预先设置的用于在语义识别完成后进行应答的消息，与语义解析模板对应。预设应答消息可以是语音应答消息，也可以是需要跳转的页面，还可以是转接人工服务的服务转接消息。

具体地，服务器上存储有预先设置的语义解析模板和预设应答消息以及语义解析模板与预设应答消息的对应关系。服务器在查找到语义解析模板后，查询与该语义解析模板存在对应关系的预设应答消息。服务器在查询到与查找到的语义解析模板对应的预设应答消息后，可根据预设应答消息的具体内容执行相应的操作，可以是输出语音应答消息、跳转到需要跳转的页面或者根据服务转接消息执行服务转接操作等。

上述自助语音会话中的应答消息处理方法，以预设关键词作为识别依据对用户语音数据进行语义识别，避免了由于提问方式或者词语的多种表达形式导致的无法识别用户语音数据语义的问题，提高了语义识别的成功率。而且，对预设关键词区分了语义类别，查找的语义解析模板包括属于确定的语义类别的预设关键词，使得语义识别更加准确。并且在查找到对应的语义解析模板完成语义识别后，即可根据事先的建立语义解析模板与预设应答消息的对应关系，自动输出与查找到的语义解析模板对应的预设应答消息，从而极大地提高了自助语音会话过程中应答成功率。

举例说明，假设根据用户语音数据识别得到的会话文本为“查信用卡账单的途径”，那么对该会话文本进行分词得到的特征词为“查”、“信用卡”、“账单”和“途径”，与各特征词对应的预设关键词以及预设关键词所属的语义类别为：“查询”：业务行为类别、“信用卡”：业务类型类别、“账单”：业务产品类别和“渠道”：业务参数类别。查找的语义解析模板包括“查询”、“信用卡”、“账单”和“渠道”，对应的预设应答消息为介绍查询信用卡账单的渠道，预设应答消息输出方式可以是音频形式，也可以是文本形式。

如图4所示，在一个实施例中，步骤S308中获得与特征词集合中各特征词对应的预设关键词的步骤具体包括如下步骤：

S402，获取预设的候选关键词集合，该候选关键词集合中的每个候选关键词均存在相对应的一个预设词，其中，与相似的候选关键词相对应的预设词相同。

具体地，候选关键词集合包括若干候选关键词，候选关键词包括预设关键词和与预设关键词相似的相似词。候选关键词集合可存储在文件、数据库或者缓存中，在需要时从文件、数据库或者缓存中获取。

在一个实施例中，服务器可事先确定预设词，并获取历史会话记录，再对获取的历史会话记录进行分词处理得到候选词集合，生成与候选词集合中各候选词对应的候选词向量以及与预设词对应的预设词向量。服务器可计算各候选词向量与预设词向量的相似度，再从计算的相似度中筛选出高于预设相似度阈值的相似度，并获取与筛选出的相似度对应的候选词向量，然后将对应的候选词向量对应的候选词作为相似词与预设词建立相似关系。服务器再将得到的相似词作为候选关键词，这样使得每个候选关键词均存在相对应的一个预设词。其中，各候选词向量与预设关键词向量的相似度可以用各候选词向量与预设关键词向量的欧式距离或者夹角距离表征，预设的相似度阈值可为距离阈值。

进一步地，在一个实施例中，预设关键词相似的相似词还可以包括一级相似词和二级相似词。其中，一级相似词是指与预设词相似度高于预设相似度阈值的候选词，二级相似词是指与一级相似词相似度高于预设相似度阈值的候选词。服务器可将通过相似度筛选的到的一次相似词、二次相似词以及预先确定的预设关键词作为候选关键词，并将具有相似关系的候选关键词映射至相同的预设词。

S404，在候选关键词集合中查找与特征词集合中的各特征词相同的候选关键词。

具体地，服务器在获取到候选关键词集合后，遍历该集合中的候选关键词，在遍历时，将遍历的候选关键词与特征词集合中的各特征词进行对比。若遍历的候选关键词与特征词集合中的特征词一致，则确定该遍历的候选关键词为与该特征词对应的候选关键词。

S406，获得与查找到的候选关键词相对应的预设词，并确定该预设词为特征词集合中特征词对应的预设关键词。

具体地，服务器可将预设词作为预设关键词，服务器确定的候选关键词可以是预设词或者是与预设词相似的相似词。

在本实施例中，服务器事先建立了候选关键词集合，其中每个候选关键词均存在相对应的一个预设词。服务器在完成分词处理后将得到的特征词与候选关键词进行比对，通过以关键词为依据的识别方式进行语义识别，避免了由于提问方式或者词语的多种表达形式导致的无法识别用户语音数据语义的问题，极大地提高了语义识别的成功率。

如图5所示，在一个实施例中，步骤S310具体包括如下步骤：

S502，当确定的语义类别包括业务类型类别时，根据预设关键词及预设关键词所属的语义类别，查找语义解析模板。

具体地，服务器在确定获得的预设关键词所属的语义类别后，检测确定的类别中是否包括业务类型类别，若不包括业务类型类别，则查找的语义解析模板包括属于确定的语义类别的预设关键词。

S504，当确定的语义类别不包括业务类型类别时，则确定发起自助语音会话的用户标识。

具体地，用户标识用来唯一标识一个用户。用户可以使用终端通过用户标识发起自助语音会话请求，服务器在获取该自助语音会话请求后，获取该自助语音会话请求中携带的用户标识，并根据自助语音会话请求与用户所在终端建立通话链接。

S506，获取与用户标识对应的历史业务类型，并根据历史业务类型获取对应的预设业务关键词。

其中，历史业务类型是指已经办理的业务的类型。用户的历史业务数据可与对应的用户标识对应存储在文件、数据库或者缓存中，在需要时从文件、数据库或者缓存中获取。预设业务关键词是指表征业务类型的关键词。

具体地，服务器在检测到确定的获得的预设关键词所属的语义类别中不包括业务类型类别时，获取与用户标识存在对应关系的历史业务类型，在候选关键词集合中查找与该历史业务类型一致的预设业务关键词。

S508，根据预设关键词、预设关键词所属的语义类别和预设业务关键词，查找语义解析模板。

具体地，服务器可以先查找包括属于确定的语义类别的预设关键词的语义解析模板，然后从查找到的语义解析模板中筛选出包括属于业务类型类别的预设关键词的语义解析模板，再从筛选出的语义解析模板中选取包括的属于业务类型类别的预设关键词与获取的与用户标识对应的历史业务类型所对应的预设业务关键词一致的语义解析模板。

服务器还可以先从存储的语义解析模板中筛选出包括获取的与用户标识对应的历史业务类型所对应的预设业务关键词的语义解析模板，再从筛选出的语义解析模板中查找包括属于确定的语义类别的预设关键词的语义解析模板。

在本实施例中，对于以关键词为依据的语义识别方式识别的得到的结果由于缺乏业务类型类别的语义类别使得语义不完整的情况，通过与用户标识对应的历史业务类型进行补充来完善语义识别，减少了自助语音会话中的对话次数，从而提高了自助语音会话过程中有效应答效率。

如图6所示，在另一个实施例中，步骤S310具体包括如下步骤：

S602，统计每个确定的语义类别所包括的预设关键词的数量。

具体地，服务器在获得与特征词集合中各特征词对应的预设关键词，并确定获得的预设关键词所属的语义类别后，统计每个确定的语义类别所包括的预设关键词的数量。

S604，获取语义类别中预设关键词数量超过一个的语义类别，及获取的语义类别所包括的预设关键词。

具体地，服务器可获取确定的所有语义类别中预设关键词数量超过一个的语义类别，并获取该语义类别所包括的预设关键字。

S606，查询与获取的语义类别所包括的预设关键词对应的特征词，及各特征词的字符数。

具体地，当语义类别中所包括的预设关键词的数量超过一个时，表示用户语音数据表达了多于一个方面的语义。服务器可事先设定在进行语义解析时，判定语义类别中的预设关键词的数量超过一个时，选取预设关键词对应的特征词占会话文本的权重最高的预设关键词为用户意图表达的语义对应的预设关键词。其中，可以采用特征词包括的字符数来衡量特征词的占会话文本的权重，判定特征词包括的字符数越多，该特征词占会话文本的权重越高。

S608，根据各特征词的字符数，选取获取的语义类别所包括的预设关键词中，与字符数最多的特征词相对应的预设关键词，以及剩余的语义类别所包括的预设关键词。

具体地，服务器在执行步骤S602后，可得到语义类别所包括的预设关键词的数量为一个和多于一个的两种情形。对于语义类别所包括的预设关键词的数量为一个的情形不作处理，直接选取该语义类别所包括的预设关键词；对于语义类别所包括的预设关键词的数量超过一个的情形，筛选出对应的特征词字符数最多的预设关键词，作为该语义类别的语义代表。

S610，根据选取的各预设关键词，查找包括选取的各预设关键词的语义解析模板。

具体地，服务器在完成预设关键词的处理后对每个语义类别均保留了一个预设关键词，再根据保留的预设关键词查找包括每个确定的语义类别中的一个预设关键词的语义解析模板。

在本实施例中，提供了在语义解析过程中得到表达多个方面语义的语义解析结果时，以用户语音数据中内容权重分布为依据，选取表达的语义对应的预设关键词所对应的特征词占权重最高，即包括的字符数最多的语义作为用户意图表达的语义，提高了语义识别的成功率。

如图7所示，在另一个实施例中，自助语音会话中的应答消息处理方法包括如下步骤：

S702，获取自助语音会话中的用户语音数据。

S704，将用户语音数据识别为会话文本。

S706，对会话文本进行分词处理得到特征词集合。

S708，获取历史会话记录。

具体地，历史会话记录是指自助语音历史会话内容。服务器可在每次进行自助语音会话时，记录会话的内容，将会话内容作为待选语料。待选语料是指用于选取预设关键词的语言实例。历史会话记录可存储在文件、数据库或者缓存中，在需要时从文件、数据库或者缓存中获取。

S710，对历史会话记录进行分词处理得到待选关键词集合。

具体地，服务器可采用字符匹配的方式对历史会话记录进行分词处理，得到待选关键词集合。

S712，统计待选关键词集合中各待选关键词出现的频率。

S714，从统计的频率中筛选出高于预设频率阈值的频率。

S716，获取与筛选出的频率对应的待选关键词。

S718，选取对应的待选关键词作为预设关键词。

具体地，服务器可遍历获取的所有频率，将遍历的频率与预设频率阈值进行比较，若遍历的频率高于预设频率阈值则获取相应的待选关键词作为预设关键词，直至遍历完毕。

S720，获取预设的候选关键词集合，该候选关键词集合中的每个候选关键词均存在相对应的一个预设词，其中，与相似的候选关键词相对应的预设词相同。

S722，在候选关键词集合中查找与特征词集合中的各特征词相同的候选关键词。

S724，获得与查找到的候选关键词相对应的预设词，并确定该预设词为特征词集合中特征词对应的预设关键词，并确定预设关键词所属的语义类别。

S726，检测确定的语义类别是否包括业务类型类别，若是，则跳转到步骤S728，若否，则跳转到步骤S730。

S728，检测获得的预设关键词中属于每个确定的语义类别的预设关键词的数量是否多于一个，若是，则跳转到步骤S732，若否，则跳转至步骤S734。

S730，获取与用户标识对应的历史业务类型，并根据历史业务类型获取对应的预设业务关键词，并跳转到步骤S736。

S732，获取语义类别中预设关键词数量超过一个的语义类别，及获取的语义类别所包括的预设关键词；查询与获取的语义类别所包括的预设关键词对应的特征词，及各特征词的字符数；根据各特征词的字符数，选取获取的语义类别所包括的预设关键词中，与字符数最多的特征词相对应的预设关键词，以及剩余的语义类别所包括的预设关键词；根据选取的各预设关键词，查找包括选取的各预设关键词的语义解析模板，并跳转到步骤S738。

S734，根据预设关键词及预设关键词所属的语义类别，查找语义解析模板，并跳转到步骤S738。

S736，根据预设关键词、预设关键词所属的语义类别和预设业务关键词，查找语义解析模板，并跳转到步骤S738。

S738，输出与查找到的语义解析模板对应的预设应答消息

在本实施例中，将历史会话记录作为候选语料选取预设关键词，从实际场景与实例出发选取预设关键词，提高了关键词设置的实用性，从而提高了语义识别的成功率。

如图8所示，在一个实施例中，提供了一种自助语音会话中的应答消息处理装置800，包括：语音识别模块801、分词模块802、语义识别模块803和输出模块804。

语音识别模块801，用于获取自助语音会话中的用户语音数据；将用户语音数据识别为会话文本。

分词模块802，用于对会话文本进行分词处理得到特征词集合。

语义识别模块803，用于获得与特征词集合中各特征词对应的预设关键词，并确定预设关键词所属的语义类别；根据预设关键词及预设关键词所属的语义类别，查找语义解析模板。

输出模块804，用于输出与查找到的语义解析模板对应的预设应答消息。

上述自助语音会话中的应答消息处理装置，以预设关键词作为识别依据对用户语音数据进行语义识别，避免了由于提问方式或者词语的多种表达形式导致的无法识别用户语音数据语义的问题，提高了语义识别的成功率。而且，对预设关键词区分了语义类别，查找的语义解析模板包括属于确定的语义类别的预设关键词，使得语义识别更加准确。并且在查找到对应的语义解析模板完成语义识别后，即可根据事先的建立语义解析模板与预设应答消息的对应关系，自动输出与查找到的语义解析模板对应的预设应答消息，从而极大地提高了自助语音会话过程中应答成功率。

在一个实施例中，语义识别模块803还用于获取预设的候选关键词集合，候选关键词集合中的每个候选关键词均存在相对应的一个预设词，其中，与相似的候选关键词相对应的预设词相同；在候选关键词集合中查找与特征词集合中的各特征词相同的候选关键词；获得与查找到的候选关键词相对应的预设词，并将预设词作为预设关键词。

在一个实施例中，语义识别模块803还用于当确定的语义类别不包括业务类型类别时，确定发起自助语音会话的用户标识；获取与用户标识对应的历史业务类型，并根据历史业务类型获取对应的预设业务关键词；根据预设关键词、预设关键词所属的语义类别和预设业务关键词，查找语义解析模板。

在本实施例中，对于以关键词为依据的语义识别方式识别的得到的结果由于缺乏业务类型类别的预设关键词使得语义不完整的情况，通过与用户标识对应的历史业务类型进行补充来完善语义识别，减少了自助语音会话中的对话次数，从而提高了自助语音会话过程中有效应答效率。

在一个实施例中，语义识别模块803还用于统计每个确定的语义类别所包括的预设关键词的数量；获取语义类别中预设关键词数量超过一个的语义类别，及获取的语义类别所包括的预设关键词；查询与获取的语义类别所包括的预设关键词对应的特征词，及各特征词的字符数；根据各特征词的字符数，选取获取的语义类别所包括的预设关键词中，与字符数最多的特征词相对应的预设关键词，以及剩余的语义类别所包括的预设关键词；根据选取的各预设关键词，查找包括选取的各预设关键词的语义解析模板。

如图9所示，在另一个实施例中，提供了一种自助语音会话中的应答消息处理装置900，包括：语音识别模块901、分词模块902、预设关键词选取模块903、语义识别模块904和输出模块905。

语音识别模块901，用于获取自助语音会话中的用户语音数据；将用户语音数据识别为会话文本。

分词模块902，用于对会话文本进行分词处理得到特征词集合。

预设关键词选取模块903，用于获取历史会话记录；对历史会话记录进行分词处理得到待选关键词集合；统计待选关键词集合中各待选关键词出现的频率；从统计的频率中筛选出高于预设频率阈值的频率；获取与筛选出的频率对应的待选关键词；选取对应的待选关键词作为预设关键词。

语义识别模块904，用于获得与特征词集合中各特征词对应的预设关键词，并确定预设关键词所属的语义类别；根据预设关键词及预设关键词所属的语义类别，查找语义解析模板。

输出模块905，用于输出与查找到的语义解析模板对应的预设应答消息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种自助语音会话中的应答消息处理方法，所述方法包括：

获取自助语音会话中的用户语音数据；

将所述用户语音数据识别为会话文本；

对所述会话文本进行分词处理得到特征词集合；

输出与查找到的所述语义解析模板对应的预设应答消息。

2.根据权利要求1所述的方法，其特征在于，所述获得与所述特征词集合中各特征词对应的预设关键词的步骤包括：

3.根据权利要求1或2所述的方法，其特征在于，当确定的所述语义类别不包括业务类型类别时，所述根据所述预设关键词及所述预设关键词所属的语义类别，查找语义解析模板的步骤包括：

确定发起所述自助语音会话的用户标识；

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述预设关键词及所述预设关键词所属的语义类别，查找语义解析模板的步骤包括：

统计每个确定的所述语义类别所包括的预设关键词的数量；

5.根据权利要求1或2所述的方法，其特征在于，所述根据预设的候选关键词集合，获得与所述特征词集合中各特征词对应的预设关键词，并确定获得的所述预设关键词所属的语义类别之前，所述方法还包括：

获取历史会话记录；

对所述历史会话记录进行分词处理得到待选关键词集合；

统计所述待选关键词集合中各待选关键词出现的频率；

从统计的频率中筛选出高于预设频率阈值的频率；

获取与筛选出的频率对应的待选关键词；

选取所述对应的待选关键词作为预设关键词。

6.一种自助语音会话中的应答消息处理装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述语义识别模块还用于获取预设的候选关键词集合，所述候选关键词集合中的每个候选关键词均存在相对应的一个预设词，其中，与相似的候选关键词相对应的预设词相同；在所述候选关键词集合中查找与所述特征词集合中的各特征词相同的候选关键词；获得与查找到的所述候选关键词相对应的预设词，并确定所述预设词为所述特征词集合中特征词对应的预设关键词。

8.根据权利要求6或7所述的装置，其特征在于，所述语义识别模块还用于当确定的所述语义类别不包括业务类型类别时，确定发起所述自助语音会话的用户标识；获取与所述用户标识对应的历史业务类型，并根据所述历史业务类型获取对应的预设业务关键词；根据所述预设关键词、所述预设关键词所属的语义类别和所述预设业务关键词，查找语义解析模板。

9.根据权利要求6或7所述的装置，其特征在于，所述语义识别模块还用于统计每个确定的所述语义类别所包括的预设关键词的数量；获取所述语义类别中预设关键词数量超过一个的语义类别，及获取的所述语义类别所包括的预设关键词；查询与获取的所述语义类别所包括的预设关键词对应的特征词，及各所述特征词的字符数；根据各所述特征词的字符数，选取获取的所述语义类别所包括的预设关键词中，与字符数最多的特征词相对应的预设关键词，以及剩余的语义类别所包括的预设关键词；根据选取的各所述预设关键词，查找包括选取的各所述预设关键词的语义解析模板。

10.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：