CN106951491A

CN106951491A - 一种应用于机器人的智能对话控制方法及装置

Info

Publication number: CN106951491A
Application number: CN201710149993.2A
Authority: CN
Inventors: 刘治; 张其; 章云
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2017-07-14

Abstract

本发明公开了一种应用于机器人的智能对话控制方法及装置，该方法包括获取输入语音，通过语音识别将输入语音转换为输入语音文本；判断本地数据库中是否存在与输入语音文本相对应的目标输出语音文本；如果存在，则将目标输出语音文本进行语音合成得到输出语音并输出；否则按照预处理规则筛选出输入语音文本中的特征词，并通过搜索引擎搜索特征词对应的目标输出语音文本。由此可见，本方法一方面能够通过本地知识库实现快速响应用户的语音输入，另一方面，能够通过搜索引擎搜索得到目标输出语音，很大程度上缓解了对话过程中的停断，不仅提高了对话的流畅性，而且增加了用户的体验。另外，应用于机器人的智能对话控制装置，亦具有上述有益效果。

Description

一种应用于机器人的智能对话控制方法及装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种应用于机器人的智能对话控制方法及装置。

背景技术

近年来，随着社会的发展以及科技的进步，越来越多的智能机器人进入人们的视野和生活，给人类生活带来极大的便利。制造能听懂人类语言并进行交流的机器人一直是人类的梦想。随着语音技术以及相应的语言处理技术发展日趋成熟，研制这样的机器人也逐渐成为可能。特别是讯飞语音开放平台和百度语音开放平台的出现，更是掀起了一股研发聊天机器人的热潮。

现有的聊天机器人，基本都是基于人工预先匹配好的语音对话数据库，语音对话数据库中，存储有输入语音的语音文本和与输入语音对应的输出语音的语音文本，机器人根据获取到的输入语音，通过语音识别得到语音文本，在语音对话数据库中，找到与其匹配的语音文本作为输出语音进行输出，从而实现对话。

这种对话模式，不具有推理性，对于输入语音有较高的局限性，如果输入语音与对话数据库中稍微不同，则无法匹配到相对应的输出语音，造成对话失败，影响对话的流畅性，用户体验感差。因此，如何提高机器人的智能性和用户的体验感是本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种应用于机器人的智能对话控制方法及装置，用于提高机器人的智能性和用户的体验感。

为解决上述技术问题，本发明提供一种应用于机器人的智能对话控制方法，包括：

获取输入语音，通过语音识别将所述输入语音转换为输入语音文本；

判断本地数据库中是否存在与所述输入语音文本相对应的目标输出语音文本；

如果存在，则将所述目标输出语音文本进行语音合成得到输出语音并输出；

如果不存在，则按照预处理规则筛选出所述输入语音文本中的特征词，并通过搜索引擎搜索所述特征词对应的目标输出语音文本，并将所述目标输出语音文本进行语音合成得到输出语音并输出。

优选地，如果不存在，则还包括：

将通过所述搜索引擎得到的所述目标输出语音文本和所述输入语音文本按照所述本地数据库的建立方式反馈至所述本地数据库。

优选地，所述判断本地数据库中是否存在与所述输入语音文本相对应的目标输出语音文本具体包括：

按照所述预处理规则筛选出所述输入语音文本中的特征词；

判断所述特征词是否与所述本地数据库中的特征词相匹配；

如果匹配，则确定所述本地数据库中存在与所述输入语音文本相对应的目标输出语音文本，否则，确定所述本地数据库中不存在与所述输入语音文本相对应的目标输出语音文本；

其中，所述本地数据库按照特征词和输出语音文本对应的格式存储。

优选地，所述预处理规则包括分词处理和停用词处理；

其中，所述特征词为剔除停用词得到的词。

优选地，如果匹配，则还包括：

判断所述特征词在所述本地数据库中对应的输出语音文本是否为一条；

如果是一条，则计算对应的输出语音文本与所述输入语音文本的匹配度以与阈值比较；

如果不是一条，则计算对应的各输出语音文本与所述输入语音文本的匹配度，并筛选出各匹配度中的最大值以与所述阈值比较；

判断所述匹配度是否大于所述阈值；

如果大于所述阈值，则确定所述本地数据库中存在与所述输入语音文本相对应的目标输出语音文本；否则，确定所述本地数据库中不存在与所述输入语音文本相对应的目标输出语音文本；

其中，大于所述阈值的匹配度所对应的输出语音文本作为所述目标输出语音文本。

优选地，所述通过搜索引擎搜索所述特征词对应的目标输出语音文本具体包括：

获取通过所述搜索引擎得到的前m条候选输出语音文本；

计算各所述候选输出语音文本与所述输入语音文本的匹配度；

将匹配度最高的候选输出语音文本作为所述目标输出语音文本。

优选地，所述匹配度具体通过编辑距离法或最大公共子串法计算。

为解决上述技术问题，本发明还提供一种应用于机器人的智能对话控制装置，包括：

获取单元，用于获取输入语音，通过语音识别将所述输入语音转换为输入语音文本；

判断单元，用于判断本地数据库中是否存在与所述输入语音文本相对应的目标输出语音文本，如果存在，则触发第一输出单元，否则，触发第二输出单元；

所述第一输出单元，用于将所述目标输出语音文本进行语音合成得到输出语音并输出；

所述第二输出单元，用于按照预处理规则筛选出所述输入语音文本中的特征词，并通过搜索引擎搜索所述特征词对应的目标输出语音文本，并将所述目标输出语音文本进行语音合成得到输出语音并输出。

本发明所提供的应用于机器人的智能对话控制方法及装置，首先通过语音识别技术将输入语音转换为输入语音文本使得机器人可以识别，然后在本地知识数据库中查找是否存在与输入语音文本相对应的目标输出语音文本，如果存在，则直接将目标输出语音文本进行语音合成输出，如果不存在的话，则通过预处理规则得到输入语音文本对应的特征词，通过在搜索引擎上搜索特征词对应的结果，将得到的结果作为目标输出语音文本进行语音输出。由此可见，本方法一方面能够通过本地知识库实现快速响应用户的语音输入，另一方面，能够在本地知识数据库中没有存在与输入语音文本相对应的目标输出语音文本时，通过搜索引擎搜索得到目标输出语音，很大程度上缓解了对话过程中的停断，不仅提高了对话的流畅性，而且增加了用户的体验。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用于机器人的智能对话控制方法的流程图；

图2为本发明实施例提供的另一种应用于机器人的智能对话控制方法的流程图；

图3为本发明实施例提供的另一种应用于机器人的智能对话控制方法的流程图；

图4为本发明实施例提供的一种应用于机器人的智能对话控制装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种应用于机器人的智能对话控制方法及装置，用于提高机器人的智能性和用户的体验感。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

需要说明的是，本发明中的机器人是指泛义的机器人，包括一切模拟其他生物的机械设备，也包括一些计算机程序，例如，工业机器人，服务机器人，聊天机器人等。

图1为本发明实施例提供的一种应用于机器人的智能对话控制方法的流程图。如图1所示，应用于机器人的智能对话控制方法包括：

S10：获取输入语音，通过语音识别将输入语音转换为输入语音文本。

S11：判断本地数据库中是否存在与输入语音文本相对应的目标输出语音文本，如果存在，则进入步骤S12，否则进入步骤S13。

S12：将目标输出语音文本进行语音合成得到输出语音并输出。

S13：按照预处理规则筛选出输入语音文本中的特征词，并通过搜索引擎搜索特征词对应的目标输出语音文本，并将目标输出语音文本进行语音合成得到输出语音并输出。

在用户跟机器人聊天的时候，通过语音识别技术将用户所说的话，即输入语音，转化为文本形式的输入语句，即输入语音文本。对于机器人来说，它并不懂用户的输入语音，它需要将语音转换为文本才可以“”认识“”。当得到输入语音文本后，在本地知识库中，判断是否存在与该输入语音文本相匹配的输出语音文本。需要说明的是，本地知识库中预先存储有关于输入语音文本和输出语音文本的映射关系，而输入语音文本可以是一个完整的语音文本，也可以是特征词，本实施例不作限定。作为一种优选的实施方式，本地知识库采用AIML(人工智能标记语言)构建，AIML是一种为了匹配模式和确定响应而进行规则定义的XML格式，它能够对输入语句进行快速匹配和响应。另外，本地知识数据库中包含有多条输出语音文本，本实施例中的目标输出语音文本指的是与输入语音文本相对的输出语音文本，换句话说，任意一条输出语音文本都有可能成为目标输出语音文本，这里只是为了区分。

如果本地知识库中，具有与输入语音文本相匹配的输出语音文本，即存在目标输出语音文本，则直接将目标输出语音文本进行语音合成得到输出语音输出即可，从而完成本次的对话。例如，如果本地知识库中存在：“你好”和“嗨，您好”这样的输入语音文本和输出语音文本的映射关系，则当用户的输入语音为“你好”的时候，则通过与本地知识库判断，得到本地知识库存在目标输出语音文本，即“嗨，您好”的语音文本，则机器人就可以快速回复“嗨，您好”的语音输出。这里只是举一个比较简单的例子进行说明。

上面一种情况是，本地知识库中，存在与输入语音文本相对应的目标输出语音文本，而有些情况下，本地知识数据库中，并不存在目标输出语音文本，则需要通过搜索引擎进行处理，具体如下。

如果本地知识数据库中不存在目标输出语音文本，则需要根据预处理规则筛选出输入语音文本中的特征词。通过特征词在搜索引擎上搜索得到目标输出语音文本。由此可见，即使在本地知识数据库中，无法找到目标输出语音文本，通过本方法，可以利用搜索引擎进行搜索，从而丰富了语音交互的功能。

本实施例提供的应用于机器人的智能对话控制方法，首先通过语音识别技术将输入语音转换为输入语音文本使得机器人可以识别，然后在本地知识数据库中查找是否存在与输入语音文本相对应的目标输出语音文本，如果存在，则直接将目标输出语音文本进行语音合成输出，如果不存在的话，则通过预处理规则得到输入语音文本对应的特征词，通过在搜索引擎上搜索特征词对应的结果，将得到的结果作为目标输出语音文本进行语音输出。由此可见，本方法一方面能够通过本地知识库实现快速响应用户的语音输入，另一方面，能够在本地知识数据库中没有存在与输入语音文本相对应的目标输出语音文本时，通过搜索引擎搜索得到目标输出语音，很大程度上缓解了对话过程中的停断，不仅提高了对话的流畅性，而且增加了用户的体验。

在具体实施中，对于输出语音的输出来说，可以设置不同的输出方式，例如不同的方言，或者男士发声，或女士发声等，本发明不再赘述。搜索引擎是现有热门的搜索引擎，包括但不限于baidu(百度)，google(谷歌)和Bing(必应)等搜索引擎。

图2为本发明实施例提供的另一种应用于机器人的智能对话控制方法的流程图。在上述实施例的基础上，作为一种优选的实时方式，在步骤S13之后还包括：

S20:将通过搜索引擎得到的目标输出语音文本和输入语音文本按照本地数据库的建立方式反馈至本地数据库。

对于图2中的步骤S10-S13，与上述实施例相同，本实施例不再赘述。通过搜索引擎能够找到与输入语音对应的目标输出语音文本，由于该目标输出语音文本不在本地知识库中，因此，为了能够丰富本地知识数据库，本实施例中，将通过搜索引擎搜索到的目标输出语音文本反馈至本地数据库。经过长时间的积累，能够使得本地知识数据库更加完善和智能化，也能够很大程度上降低人力成本。

图3为本发明实施例提供的另一种应用于机器人的智能对话控制方法的流程图。如图3所示，作为优选的实施方式，步骤S11具体包括：

S30：按照预处理规则筛选出输入语音文本中的特征词；

S31：判断特征词是否与本地数据库中的特征词相匹配，如果是进入步骤S12，否则，进入步骤S13。

其中，本地数据库按照特征词和输出语音文本对应的格式存储。

可以理解的是，步骤S31中，如果存在，则特征词对应的输出语音文本就是目标输出语音文本。在上文中提到，本地知识数据库中，可以完整存储一条输入语音文本，但是这样的方式，局限性非常大，只要与输入语音文本有差别，则就无法通过本地知识数据库查找到目标输出语音文本。为了克服这一缺点，本实施例中，对于得到的输入语音文本进行预处理，得到对应的特征词。优选地，预处理规则包括分词处理和停用词处理；其中，特征词为剔除停用词得到的词。

预处理规则的具体实施方式如下：分词就是将语音中进行分割，可以是一个字，也可以两个字，或多个字，例如“我是一个学生”，通过分词处理后就得到“我”/“是”/“一个”/“学生”。然后剔除里面的停用词，停用词包括了语气助词、副词、介词、连词等，通常自身并无明确意义，只有将其放入一个完整的句子中才有一定作用的词语。如停用词可以包含，但不限于以下几种：“的”、“在”、“和”、“接着”之类。剔除停用词后，就得到了“一个”/“学生”。这两个词语就是特征词。由此可见，特征词并非是一个词语，或一个字，可以是两个词语的组合，本实施例不再赘述。另外，在进行分词处理中，可以采用结巴分词。需要说明的是，在搜索引擎搜索之前，也需要按照预处理规则得到特征词，这样能够为节省存储空间和搜索效率对用户输入语句进行分词和停用词处理能够很大程度上提高引擎检索的精度，使得获取的结果与输入语音的相关性更大匹配度更高。

在上述实施例的基础上，如果匹配，则步骤S31和步骤S12之间还包括：

S40：判断特征词在本地数据库中对应的输出语音文本是否为一条，如果是，进入步骤S41，如果否，则进入步骤S42。

S41：计算对应的输出语音文本与输入语音文本的匹配度以与阈值比较，进入步骤S43。

S42：计算对应的各输出语音文本与输入语音文本的匹配度，并筛选出各匹配度中的最大值以与阈值比较，进入步骤S43。

S43：判断匹配度是否大于阈值，如果是，则进入步骤S12，否则，进入步骤S13。

其中，大于阈值的匹配度所对应的输出语音文本作为目标输出语音文本。

本实施例中，之所以要对本地数据库中得到目标输出语音文本进行再次判断是因为，本地知识数据库中，采用特征词作为搜索对象，虽然能够节约存储空间，但是一定程度上会降低输出语音的精度。因为一个特征词可以对应不同的输入语音文本，则就会有不同的输出语音文本，即会出现一个特征词对应有多个输出语音文本，这时候将哪条输出语音文本作为目标输出语音文本就非常重要。在具体实施过程中，会面临两种问题，一个是特征词至对应一条输出语音文本，但是有可能该输出语音文本与输入语音文本的匹配度较低；另外一种情况是，一个特征词对应对条输出语音文本。本实施例中，通过上述方式，无论特征词对应几条输出语音文本，只有输出语音文本与输入语音文本匹配度大于阈值时，才可以作为目标输出语音文本，否则仍然需要通过搜索引擎搜索。本实施例中的匹配度具体通过编辑距离法或最大公共子串法计算。其中，距离编辑法是指与输入语音文本匹配度最大的输出语音文本在转换为输入语音文本时所需的插入、删除和替换的总次数最少；最大公共子串法是指与输入语音文本匹配度最大的输出语音文本与输入语音文本具有的最大公共子串最长。

在上述实施例的基础上，通过搜索引擎搜索特征词对应的目标输出语音文本具体包括：

获取通过搜索引擎得到的前m条候选输出语音文本；

计算各候选输出语音文本与输入语音文本的匹配度；

将匹配度最高的候选输出语音文本作为目标输出语音文本。

在具体实施中，m为正整数，可以选m＝5。在本实施例中，采用编辑距离法对候选输出语音文本进行筛选。例如，将输入语音文本“我是一个学生”作为搜索引擎的输入语句进行搜索，获取前5条候选输出语音文本如下：

1)我也是一个学生；

2)我是一个学生的英文怎么写；

3)我在上小学；

4)我是一个三好学生；

5)我是学生党。

分别计算上述5条候选输出语音文本与输入语音文本的编辑距离，结果如下：

我也是一个学生(编辑距离为1)；

我是一个学生的英文怎么写(编辑距离为6)；

我在上小学(编辑距离为4)；

我是一个三好学生(编辑距离为2)；

我是学生党(编辑距离为3)。

将上述5条候选输出语音文本与输入语音文本编辑距离最小的候选输出语音文本作为目标输出语音文本，即“我是一个学生”的目标输出语音文本为“我也是一个学生”。

本发明还公开一种与上述方法对应的应用于机器人的智能对话控制装置。由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。图4为本发明实施例提供的一种应用于机器人的智能对话控制装置的结构图。如图2所示，应用于机器人的智能对话控制装置包括：

获取单元10，用于获取输入语音，通过语音识别将输入语音转换为输入语音文本；

判断单元11，用于判断本地数据库中是否存在与输入语音文本相对应的目标输出语音文本，如果存在，则触发第一输出单元12，否则，触发第二输出单元13；

第一输出单元12，用于将目标输出语音文本进行语音合成得到输出语音并输出；

第二输出单元13，用于按照预处理规则筛选出输入语音文本中的特征词，并通过搜索引擎搜索特征词对应的目标输出语音文本，并将目标输出语音文本进行语音合成得到输出语音并输出。

本实施例提供的应用于机器人的智能对话控制装置，首先通过语音识别技术将输入语音转换为输入语音文本使得机器人可以识别，然后在本地知识数据库中查找是否存在与输入语音文本相对应的目标输出语音文本，如果存在，则直接将目标输出语音文本进行语音合成输出，如果不存在的话，则通过预处理规则得到输入语音文本对应的特征词，通过在搜索引擎上搜索特征词对应的结果，将得到的结果作为目标输出语音文本进行语音输出。由此可见，本装置一方面能够通过本地知识库实现快速响应用户的语音输入，另一方面，能够在本地知识数据库中没有存在与输入语音文本相对应的目标输出语音文本时，通过搜索引擎搜索得到目标输出语音，很大程度上缓解了对话过程中的停断，不仅提高了对话的流畅性，而且增加了用户的体验。

以上对本发明所提供的应用于机器人的智能对话控制方法及装置进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种应用于机器人的智能对话控制方法，其特征在于，包括：

2.根据权利要求1所述的应用于机器人的智能对话控制方法，其特征在于，如果不存在，则还包括：

3.根据权利要求1所述的应用于机器人的智能对话控制方法，其特征在于，所述判断本地数据库中是否存在与所述输入语音文本相对应的目标输出语音文本具体包括：

按照所述预处理规则筛选出所述输入语音文本中的特征词；

判断所述特征词是否与所述本地数据库中的特征词相匹配；

4.根据权利要求1-3任意一项所述的应用于机器人的智能对话控制方法，其特征在于，所述预处理规则包括分词处理和停用词处理；

其中，所述特征词为剔除停用词得到的词。

5.根据权利要求3所述的应用于机器人的智能对话控制方法，其特征在于，如果匹配，则还包括：

判断所述匹配度是否大于所述阈值；

6.根据权利要求1所述的应用于机器人的智能对话控制方法，其特征在于，所述通过搜索引擎搜索所述特征词对应的目标输出语音文本具体包括：

获取通过所述搜索引擎得到的前m条候选输出语音文本；

7.根据权利要求5或6所述的应用于机器人的智能对话控制方法，其特征在于，所述匹配度具体通过编辑距离法或最大公共子串法计算。

8.一种应用于机器人的智能对话控制装置，其特征在于，包括：