CN106503275A

CN106503275A - 聊天机器人的音色配置方法及装置

Info

Publication number: CN106503275A
Application number: CN201611270912.6A
Authority: CN
Inventors: 周建设; 刘宏哲; 袁家政; 张启坤; 史金生; 刘杰
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-03-15

Abstract

本申请提供了聊天机器人的音色配置方法及装置，涉及智能机器人技术领域，其中，该聊天机器人的音色配置方法包括：首先，获取聊天对象所在的图像，之后，计算图像中包括的聊天对象的个数，并且，判定各个聊天对象的年龄，然后根据各个年龄计算聊天对象的发音年龄，同时，判定各个聊天对象的性别，根据性别的个数确定聊天对象的发音性别，最后，按照发音年龄和发音性别配置音色特征，使聊天机器人按照配置好的音色特征进行发音，这样根据聊天对象的年龄和性别来灵活变换音色，使聊天机器人在交流中声音更加多样，实现了人机通话的流畅性。

Description

聊天机器人的音色配置方法及装置

技术领域

本发明涉及智能机器人领域，尤其涉及聊天机器人的音色配置方法及装置。

背景技术

随着科技的发展，人们的生活方式也发生了很大的改变，近年来越来越多的人开始关注机器人，尤其是智能机器人的研究，例如，智能机器人扫地机、机器人监控设备和聊天机器人等。由于，现代生活节奏的加快和生活压力的增加，人们可以利用智能机器人扫地机来清扫家里的地面，而无须在家庭琐事上浪费更多的时间；人们可以利用机器人监控设备来对重要场所进行监视，从而免去了人工坚守；人们可以利用聊天机器人来进行交流，来改善现有的生活方式。

为了社交的需求，聊天机器人越来越多的受到大众的关注，聊天机器人，英文名为chatterbot，实质上是一个用来模拟人类对话或聊天的程序。聊天机器人的意图在于：至少暂时性地让一个真正的人类认为他们正在和另一个人聊天。通常，聊天机器人的数据库中存放有很多使用者可能感兴趣的回答，当一个问题被抛给聊天机器人时，它通过算法，从数据库中找到比较贴切的答案，并用自己的声音回复给它的聊天对象。

聊天机器人的数据库的丰富程度、回复速度及声音的亲切度都是衡量一个聊天机器人能不能得到大众喜欢的重要因素。现有的聊天机器人在与人交流过程中，发出的声音过于死板、单调，不能引发人的交流欲望。

发明内容

有鉴于此，本发明实施例的目的在于提供了聊天机器人的音色配置方法及装置，根据聊天对象的年龄和性别来进行音色特征的配置，从而使聊天机器人的声音更加人性化。

第一方面，本发明实施例提供了聊天机器人的音色配置方法，包括：

获取聊天对象所在的图像；

计算图像中包括的聊天对象的个数；

判定各个聊天对象的年龄，根据各个年龄计算聊天对象的发音年龄；

判定各个聊天对象的性别，根据性别的个数确定聊天对象的发音性别；

按照发音年龄和发音性别配置音色特征。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，计算图像中包括的聊天对象的个数包括：

检测图像中包括的所有人脸；

统计检测出的人脸的数目；

将数目作为聊天对象的个数。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，判定各个聊天对象的年龄，根据各个年龄计算聊天对象的发音年龄包括：

对各个人脸进行年龄特征提取；

将提取出来的年龄特征与预先存储的标准年龄特征进行比对，并得到年龄比对结果；

根据年龄比对结果确定各个聊天对象的年龄；

对各个聊天对象的年龄取平均值；

将平均值作为聊天对象的发音年龄。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，判定各个聊天对象的性别，根据性别的个数确定聊天对象的发音性别包括：

对各个人脸进行性别特征提取；

将提取出来的性别特征与预先存储的标准性别特征进行比对，并得到性别比对结果；

根据性别比对结果确定各个聊天对象的性别；

分别统计聊天对象中男性和女性的个数；

将个数多的性别作为聊天对象的发音性别。

结合第一方面的第二种可能的实施方式或者第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，按照发音年龄和发音性别配置音色特征包括：

建立音色库，其中，音色库中包括多个等级的年龄特征和两个性别特征；

选择与发音年龄相匹配的年龄特征；

选择与发音性别相异的性别特征；

将选出的年龄特征和性别特征配置为音色特征。

第二方面，本发明实施例提供了聊天机器人的音色配置装置，包括：

图像获取模块，用于获取聊天对象所在的图像；

个数计算模块，用于计算图像中包括的聊天对象的个数；

年龄判定模块，用于判定各个聊天对象的年龄，根据各个年龄计算聊天对象的发音年龄；

性别判定模块，用于判定各个聊天对象的性别，根据性别的个数确定聊天对象的发音性别；

音色配置模块，用于按照发音年龄和发音性别配置音色特征。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，个数计算模块包括：

人脸检测单元，用于检测图像中包括的所有人脸；

数目统计单元，用于统计检测出的人脸的数目；

个数确定单元，用于将数目作为聊天对象的个数。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，其中，年龄判定模块包括：

年龄特征提取单元，用于对各个人脸进行年龄特征提取；

年龄比对单元，用于将提取出来的年龄特征与预先存储的标准年龄特征进行比对，并得到年龄比对结果；

年龄确定单元，用于根据年龄比对结果确定各个聊天对象的年龄；

平均年龄计算单元，用于对各个聊天对象的年龄取平均值；

发音年龄确定单元，用于将平均值作为聊天对象的发音年龄。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第三种可能的实施方式，其中，性别判定模块包括：

性别特征提取单元，用于对各个人脸进行性别特征提取；

性别比对单元，用于将提取出来的性别特征与预先存储的标准性别特征进行比对，并得到性别比对结果；

性别确定单元，用于根据性别比对结果确定各个聊天对象的性别；

性别统计单元，用于分别统计聊天对象中男性和女性的个数；

性别设定单元，用于将个数多的性别作为聊天对象的发音性别。

结合第二方面的第二种可能的实施方式或者第二方面的第三种可能的实施方式，本发明实施例提供了第二方面的第四种可能的实施方式，其中，音色配置模块包括：

音色建立单元，用于建立音色库，其中，音色库中包括多个等级的年龄特征和两个性别特征；

年龄匹配单元，用于选择与发音年龄相匹配的年龄特征；

性别匹配单元，用于选择与发音性别相异的性别特征；

音色配置单元，用于将选出的年龄特征和性别特征配置为音色特征。

本发明实施例提供的聊天机器人的音色配置方法及装置，其中，该聊天机器人的音色配置方法包括：首先，获取聊天对象所在的图像，然后，计算图像中包括的聊天对象的个数，之后，判定各个聊天对象的年龄，根据各个年龄计算聊天对象的发音年龄，并且，判定各个聊天对象的性别，根据性别的个数确定聊天对象的发音性别，最后，按照发音年龄和发音性别配置音色特征，通过上述方法，聊天机器人能够根据聊天对象的情况灵活配置音色特征，并按音色特征进行发音，使聊天机器人的声音与聊天对象更加匹配，从而增强了聊天对象进行交流的兴趣。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的聊天机器人的音色配置方法的流程图；

图2示出了本发明实施例所提供的聊天机器人的音色配置装置的结构连接图；

图3示出了本发明实施例所提供的聊天机器人的音色配置装置的年龄判定模块的结构示意图；

图4示出了本发明实施例所提供的聊天机器人的音色配置装置的性别判定模块的结构示意图。

图标：1-图像获取模块；2-个数计算模块；3-年龄判定模块；4-性别判定模块；5-音色配置模块；31-年龄特征提取单元；32-年龄比对单元；33-年龄确定单元；34-平均年龄计算单元；35-发音年龄确定单元；41-性别特征提取单元；42-性别比对单元；43-性别确定单元；44-性别统计单元；45-性别设定单元。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，聊天机器人越来越多的应用在人们的生活中，成为人们的交流对象。在聊天机器人的数据库中会预先存放很多答案，当人把一个问题抛给聊天机器人时，它能从数据库中找到比较符合的回答，并按照音色特征将声音回复给它的聊天对象。但是，现有的聊天机器人在与人交流的过程中，发出的声音往往过于死板、单调，甚至会引起聊天对象的反感。

基于此，本发明实施例提供了聊天机器人的音色配置方法及装置，下面通过实施例进行描述。

实施例1

参见图1，本实施例提出的聊天机器人的音色配置方法包括以下具体步骤：

步骤S101：获取聊天对象所在的图像。

在聊天机器人上都安装有摄像机，作为聊天机器人的“眼睛”，聊天机器人上常见的摄像机为高清摄像机，即拍摄到与之交流的聊天对象的视频通过网线传输给聊天机器人的“大脑”，这样能获取清晰度较高的图像。本实施例中，通过摄像机获取聊天对象所在的视频，截取视频帧，进而捕捉到聊天对象所在的图像。通过这种方法能实时获取到聊天对象的图像，方便快捷。

步骤S102：计算图像中包括的聊天对象的个数。

当得到聊天对象所在的图像后，检测图像中包括的所有人脸，即对图像进行检测，统计检测出的人脸的数目，利用Adaboost算法检测出正面、清晰、无遮挡的人脸图像，Adaboost是一种迭代算法，是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)，通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。在本实施例中，Adaboost算法先检测出图像中的所有人脸，之后，在此基础上再检测无遮挡和正面的人脸，并通过相应的阈值判定出清晰的图像，并且，判断图像中有多少人，即图像中的正面、清晰、无遮挡的人脸的数目。将该数目作为聊天对象的个数。

步骤S103：判定各个聊天对象的年龄，根据各个年龄计算聊天对象的发音年龄。

当获取到聊天对象的个数后，对所有的人脸分别进行年龄特征提取，可通过卷积神经网络CNN来计算人脸的面部特征(例如，皮肤纹理特征、毛孔特征、面色特征等)，由面部特征提取年龄特征，之后，将提取出来的年龄特征与预先存储的标准年龄特征进行比对，并得到年龄比对结果，通常，会预先在聊天机器人的系统中存储多个年龄段，例如，0－5岁，6－10岁，11－15岁，…，70岁以上等。这样，将年龄特征分别与标准年龄特征进行比对，根据年龄比对结果确定各个聊天对象的年龄，确定了各个聊天对象的年龄后，对各个聊天对象的年龄取平均值，将平均值作为聊天对象的发音年龄，具体操作时，可以查看落到哪个年龄段内的年龄特征最多，这样便于快速的确定聊天对象的发音年龄。

步骤S104：判定各个聊天对象的性别，根据性别的个数确定聊天对象的发音性别。

具体过程为由卷积神经网络CNN对各个人脸进行性别特征提取(例如，毛发特征、胡须特征等)，将提取出来的性别特征与预先存储的标准性别特征(例如，男性毛发特征为浓密、女性胡须特征为无)进行比对，并得到性别比对结果，根据性别比对结果确定各个聊天对象的性别，即分别确定获取的人脸是男性聊天对象还是女性聊天对象，之后，分别统计聊天对象中男性和女性的个数，将个数较多的性别作为聊天对象的发音性别，特殊的，当男性聊天对象和女性聊天对象的个数判定为相等时，将聊天对象的发音性别定为男性。

步骤S105：按照发音年龄和发音性别配置音色特征。

在聊天机器人发音之前，预先建立音色库，其中，音色库中包括多个等级的年龄特征和两个性别特征，年龄特征是与年龄相匹配的发音特征，例如，对应儿童的年龄特征为音调高、幼稚的声音；对应老人的声音为音调低、沉稳的声音。对应男性的性别特征就是发音类似男性的发音特征，例如，男性的发音特征为低沉，女性的发音特征为尖锐。

假设，确定了聊天对象的年龄特征为2岁，性别为男，选择与发音年龄相匹配的年龄特征，即选择0－5岁年龄段的声音特征，选择与发音性别相异的性别特征，即选定发音的性别为女，原因在于，研究表明，与异性交流能够使聊天对象更加愉悦，有利于聊天过程的进行。将选出的年龄特征(0－5岁)和性别特征(女)配置为音色特征，之后，聊天机器人按照上述音色特征进行发音。

综上所述，本实施例提供的聊天机器人的音色配置方法具体包括：先获取聊天对象所在的图像，之后，计算图像中包括的聊天对象的个数，判定各个聊天对象的年龄和性别，然后，根据各个年龄计算聊天对象的发音年龄，根据性别的个数确定聊天对象的发音性别，最后，按照发音年龄和发音性别配置聊天机器人的音色特征，这样，聊天机器人能根据聊天对象的个数、年龄和性别等特征来进行发音，使得聊天对象更乐于接受，聊天过程更加人性化。

实施例2

参见图2、图3和图4，本实施例提供了聊天机器人的音色配置装置包括：依次连接的图像获取模块1、个数计算模块2、年龄判定模块3、性别判定模块4和音色配置模块5，其中，通过图像获取模块1(例如，聊天机器人内置的摄像机)获取聊天对象所在的图像，通过个数计算模块2计算图像中包括的聊天对象的个数(即通过人脸的个数来确定聊天对象的个数)，通过人脸检测单元检测图像中包括的所有人脸，由数目统计单元统计检测出的人脸的数目，个数确定单元用来将数目作为聊天对象的个数，在这里，以正面、清晰、无遮挡的人脸的数目作为聊天对象的个数。

年龄判定模块3用来判定各个聊天对象的年龄，根据各个年龄计算聊天对象的发音年龄，年龄判定模块3具体包括以下单元：

年龄特征提取单元31用于对各个人脸进行年龄特征提取，通过年龄比对单元32将提取出来的年龄特征与预先存储的标准年龄特征进行比对，并得到年龄比对结果，年龄确定单元33用来根据年龄比对结果确定各个聊天对象的年龄，通过平均年龄计算单元34对各个聊天对象的年龄取平均值，通常是将标准年龄划分为几个小组，看提取出来的年龄特征落在哪个年龄组内，发音年龄确定单元35用来将平均值作为聊天对象的发音年龄，以人数居多的年龄组作为发音年龄。

性别判定模块4用来判定各个聊天对象的性别，根据性别的个数确定聊天对象的发音性别，具体包括以下几个单元：

通过性别特征提取单元41对各个人脸进行性别特征提取，性别比对单元42用来将提取出来的性别特征与预先存储的标准性别特征进行比对(例如，有胡须否、毛发浓密否)，并得到性别比对结果，性别确定单元43用于根据性别比对结果确定各个聊天对象的性别即判定各个人脸究竟是男性还是女性聊天对象，通过性别统计单元44分别统计聊天对象中男性和女性的个数，之后由性别设定单元45将个数多的性别作为聊天对象的发音性别，特殊的，当男性聊天对象和女性聊天对象的个数判定为相等时，将聊天对象的发音性别定为男性。

音色配置模块5用来按照发音年龄和发音性别为聊天机器人配置音色特征，音色配置模块5具体包括：

音色建立单元用来建立音色库，其中，音色库中包括多个等级的年龄特征和两个性别特征，通过年龄匹配单元选择与发音年龄相匹配的年龄特征，通过性别匹配单元选择与发音性别相异的性别特征，音色配置单元用于将选出的年龄特征和性别特征配置为音色特征。假设，确定了聊天对象的年龄特征为2岁，性别为男，选择与发音年龄相匹配的年龄特征，即选择0－5岁年龄段的声音特征，选择与发音性别相异的性别特征，即选定发音的性别为女，之后，聊天机器人按照0－5岁的女性声音与聊天对象进行沟通。

综上所述，本实施例提供的聊天机器人的音色配置装置包括：依次连接的图像获取模块1、个数计算模块2、年龄判定模块3、性别判定模块4和音色配置模块5，其中，先由图像获取模块1来获取聊天对象所在的图像，通过个数计算模块2来计算图像中包括的聊天对象的个数，之后，年龄判定模块3用于判定各个聊天对象的年龄，根据各个年龄计算聊天对象的发音年龄，性别判定模块4用于判定各个聊天对象的性别，根据性别的个数确定聊天对象的发音性别，最后，音色配置模块5用于按照发音年龄和发音性别为聊天机器人配置音色特征，使聊天机器人按照设定的音色特征发出声音，这样，聊天机器人能根据聊天对象灵活的选定音色特征，从而使聊天过程更加人性化。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.聊天机器人的音色配置方法，其特征在于，包括：

获取聊天对象所在的图像；

计算所述图像中包括的所述聊天对象的个数；

判定各个所述聊天对象的年龄，根据各个所述年龄计算所述聊天对象的发音年龄；

判定各个所述聊天对象的性别，根据所述性别的个数确定所述聊天对象的发音性别；

按照所述发音年龄和发音性别配置音色特征。

2.根据权利要求1所述的聊天机器人的音色配置方法，其特征在于，所述计算所述图像中包括的所述聊天对象的个数包括：

检测所述图像中包括的所有人脸；

统计检测出的所述人脸的数目；

将所述数目作为所述聊天对象的个数。

3.根据权利要求2所述的聊天机器人的音色配置方法，其特征在于，所述判定各个所述聊天对象的年龄，根据各个所述年龄计算所述聊天对象的发音年龄包括：

对各个所述人脸进行年龄特征提取；

将提取出来的所述年龄特征与预先存储的标准年龄特征进行比对，并得到年龄比对结果；

根据年龄比对结果确定各个所述聊天对象的年龄；

对各个所述聊天对象的年龄取平均值；

将所述平均值作为所述聊天对象的发音年龄。

4.根据权利要求2所述的聊天机器人的音色配置方法，其特征在于，所述判定各个所述聊天对象的性别，根据所述性别的个数确定所述聊天对象的发音性别包括：

对各个所述人脸进行性别特征提取；

将提取出来的所述性别特征与预先存储的标准性别特征进行比对，并得到性别比对结果；

根据性别比对结果确定各个所述聊天对象的性别；

分别统计所述聊天对象中男性和女性的个数；

将个数多的性别作为所述聊天对象的发音性别。

5.根据权利要求3或4所述的聊天机器人的音色配置方法，其特征在于，所述按照所述发音年龄和发音性别配置音色特征包括：

建立音色库，其中，所述音色库中包括多个等级的年龄特征和两个性别特征；

选择与所述发音年龄相匹配的年龄特征；

选择与所述发音性别相异的性别特征；

将选出的所述年龄特征和所述性别特征配置为音色特征。

6.聊天机器人的音色配置装置，其特征在于，包括：

图像获取模块，用于获取聊天对象所在的图像；

个数计算模块，用于计算所述图像中包括的所述聊天对象的个数；

年龄判定模块，用于判定各个所述聊天对象的年龄，根据各个所述年龄计算所述聊天对象的发音年龄；

性别判定模块，用于判定各个所述聊天对象的性别，根据所述性别的个数确定所述聊天对象的发音性别；

音色配置模块，用于按照所述发音年龄和发音性别配置音色特征。

7.根据权利要求6所述的聊天机器人的音色配置装置，其特征在于，所述个数计算模块包括：

人脸检测单元，用于检测所述图像中包括的所有人脸；

数目统计单元，用于统计检测出的所述人脸的数目；

个数确定单元，用于将所述数目作为所述聊天对象的个数。

8.根据权利要求7所述的聊天机器人的音色配置装置，其特征在于，所述年龄判定模块包括：

年龄特征提取单元，用于对各个所述人脸进行年龄特征提取；

年龄比对单元，用于将提取出来的所述年龄特征与预先存储的标准年龄特征进行比对，并得到年龄比对结果；

年龄确定单元，用于根据年龄比对结果确定各个所述聊天对象的年龄；

平均年龄计算单元，用于对各个所述聊天对象的年龄取平均值；

发音年龄确定单元，用于将所述平均值作为所述聊天对象的发音年龄。

9.根据权利要求7所述的聊天机器人的音色配置装置，其特征在于，所述性别判定模块包括：

性别特征提取单元，用于对各个所述人脸进行性别特征提取；

性别比对单元，用于将提取出来的所述性别特征与预先存储的标准性别特征进行比对，并得到性别比对结果；

性别确定单元，用于根据性别比对结果确定各个所述聊天对象的性别；

性别统计单元，用于分别统计所述聊天对象中男性和女性的个数；

性别设定单元，用于将个数多的性别作为所述聊天对象的发音性别。

10.根据权利要求8或9所述的聊天机器人的音色配置装置，其特征在于，所述音色配置模块包括：

音色建立单元，用于建立音色库，其中，所述音色库中包括多个等级的年龄特征和两个性别特征；

年龄匹配单元，用于选择与所述发音年龄相匹配的年龄特征；

性别匹配单元，用于选择与所述发音性别相异的性别特征；

音色配置单元，用于将选出的所述年龄特征和所述性别特征配置为音色特征。