CN117690416B

CN117690416B - 一种人工智能交互方法及人工智能交互系统

Info

Publication number: CN117690416B
Application number: CN202410148487.1A
Authority: CN
Inventors: 石司马; 顾旭
Original assignee: Jiangxi University of Technology
Current assignee: Jiangxi University of Technology
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-04-12
Anticipated expiration: 2044-02-02
Also published as: CN117690416A

Abstract

本发明适用于语音交互技术领域，提供了一种人工智能交互方法及人工智能交互系统，所述方法包括以下步骤：接收目标用户语音输入信息，采集目标用户人脸图像；对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；对目标用户人脸图像进行分析，得到目标性别和目标年龄；根据目标性别和目标年龄确定虚拟人像；根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。本发明中，虚拟人像的外形和声音特点更能符合用户的倾听喜好；另外，交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配，使得用户感到亲切，体验感更好。

Description

一种人工智能交互方法及人工智能交互系统

技术领域

本发明涉及语音交互技术领域，具体是涉及一种人工智能交互方法及人工智能交互系统。

背景技术

智能问答机器人已经深入了各行各业，例如很多机场、银行、医院以及酒店都安装有智能问答机器，既能够帮助用户尽快的解决各类问题，又能够减少人力成本，现有的智能问答机器人虽然能够较好的去回答用户的问题，但是对于不同用户提出的问题，都是使用同一种音色、音调以及语速进行回答，不能够根据用户的性别和年龄做出适应性改变，体验感较为单一。因此，需要提供一种人工智能交互方法及人工智能交互系统，旨在解决上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种人工智能交互方法及人工智能交互系统，以解决上述背景技术中存在的问题。

本发明是这样实现的，一种人工智能交互方法，所述方法包括以下步骤：

接收目标用户语音输入信息，采集目标用户人脸图像；

对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；

对目标用户人脸图像进行分析，得到目标性别和目标年龄；

根据目标性别和目标年龄确定虚拟人像；

根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。

作为本发明进一步的方案：所述对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息的步骤，具体包括：

对目标用户语音输入信息进行文字转化得到文字信息；

对目标用户语音输入信息进行方言匹配得到方言信息，所述方言信息为方言类别，当方言匹配失败时，确定方言类别为普通话；

提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息。

作为本发明进一步的方案：所述对目标用户语音输入信息进行方言匹配得到方言信息的步骤，具体包括：

采集多种方言数据，基于Hadoop平台建立初始方言数据库；

提取所述初始方言数据库中的语音特征，使用VAD技术对采集的方言数据按频率进行分段处理，对进行所述分段处理后的语音数据采用聚类方法进行降噪处理，建立卷积神经网络模型；

对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测，确定方言类别。

作为本发明进一步的方案：所述根据目标性别和目标年龄确定虚拟人像的步骤，具体包括：

将目标性别和目标年龄输入至舒适对象库中，所述舒适对象库包括所有的年龄段，每个年龄段对应有两个性别，每个性别对应有舒适虚拟对象，每个舒适虚拟对象有自己的音色和音调；

输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像。

作为本发明进一步的方案：所述根据文字信息、方言信息和语速信息确定交互语音信息的步骤，具体包括：

根据文字信息确定交互语音内容；

根据方言信息确定虚拟人像的发音方言；

根据语速信息确定虚拟人像的发音速度，使得虚拟人像的发音速度与目标用户的发音速度一致。

本发明的另一目的在于提供一种人工智能交互系统，所述系统包括：

用户信息采集模块，用于接收目标用户语音输入信息，采集目标用户人脸图像；

语音信息分析模块，用于对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；

人脸图像分析模块，用于对目标用户人脸图像进行分析，得到目标性别和目标年龄；

虚拟人像确定模块，用于根据目标性别和目标年龄确定虚拟人像；

交互语音确定模块，用于根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。

作为本发明进一步的方案：所述语音信息分析模块包括：

文字信息确定单元，用于对目标用户语音输入信息进行文字转化得到文字信息；

方言信息确定单元，用于对目标用户语音输入信息进行方言匹配得到方言信息，所述方言信息为方言类别，当方言匹配失败时，确定方言类别为普通话；

语速信息确定单元，用于提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息。

作为本发明进一步的方案：所述方言信息确定单元包括：

方言数据库子单元，用于采集多种方言数据，基于Hadoop平台建立初始方言数据库；

网络模型建立子单元，用于提取所述初始方言数据库中的语音特征，使用VAD技术对采集的方言数据按频率进行分段处理，对进行所述分段处理后的语音数据采用聚类方法进行降噪处理，建立卷积神经网络模型；

匹配检测子单元，用于对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测，确定方言类别。

作为本发明进一步的方案：所述虚拟人像确定模块包括：

性别年龄输入单元，用于将目标性别和目标年龄输入至舒适对象库中，所述舒适对象库包括所有的年龄段，每个年龄段对应有两个性别，每个性别对应有舒适虚拟对象，每个舒适虚拟对象有自己的音色和音调；

虚拟对象输出单元，用于输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像。

作为本发明进一步的方案：所述交互语音确定模块包括：

交互内容确定单元，用于根据文字信息确定交互文字内容；

发音方言确定单元，用于根据方言信息确定虚拟人像的发音方言；

发音速度确定单元，用于根据语速信息确定虚拟人像的语速值，使得虚拟人像的语速值与目标用户的语速值一致；

虚拟语音生成单元，用于根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值，生成虚拟人像的交互语音信息。

与现有技术相比，本发明的有益效果是：

本发明通过对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；对目标用户人脸图像进行分析，得到目标性别和目标年龄；根据目标性别和目标年龄确定虚拟人像；根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。其中，虚拟人像的外形和声音特点更能符合用户的倾听喜好；另外，交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配，使得用户感到亲切，体验感更好。

附图说明

图1为一种人工智能交互方法的流程图。

图2为一种人工智能交互方法中对目标用户语音输入信息进行分析的流程图。

图3为一种人工智能交互方法中对目标用户语音输入信息进行方言匹配得到方言信息的流程图。

图4为一种人工智能交互方法中根据目标性别和目标年龄确定虚拟人像的流程图。

图5为一种人工智能交互方法中根据文字信息、方言信息和语速信息确定交互语音信息的流程图。

图6为一种人工智能交互系统的结构示意图。

图7为一种人工智能交互系统中语音信息分析模块的结构示意图。

图8为一种人工智能交互系统中方言信息确定单元的结构示意图。

图9为一种人工智能交互系统中虚拟人像确定模块的结构示意图。

图10为一种人工智能交互系统中交互语音确定模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种人工智能交互方法，所述方法包括以下步骤：

S100，接收目标用户语音输入信息，采集目标用户人脸图像；

S200，对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；

S300，对目标用户人脸图像进行分析，得到目标性别和目标年龄；

S400，根据目标性别和目标年龄确定虚拟人像；

S500，根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。

需要说明的是，智能问答机器人已经深入了各行各业，例如很多机场、银行、医院以及酒店都安装有智能问答机器，既能够帮助用户尽快的解决各类问题，又能够减少人力成本，现有的智能问答机器人虽然能够较好的去回答用户的问题，但是对于不同用户提出的问题，都是使用同一种音色、音调以及语速进行回答，不能够根据用户的性别和年龄做出适应性改变，体验感较为单一，本发明实施例旨在解决上述问题。

本发明实施例中，首先会采集目标用户语音输入信息以及目标用户人脸图像，并自动对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息，所述文字信息就是用户发出的语音内容，即用户提出的问题内容，所述方言信息是指用户发音的方言类别，例如用户发出的是粤语、四川话、上海话等等，所述语速信息是指用户的发音速度，一般而言，发音速度快的人更愿意去听说话快的人讲话，发音速度慢的人更愿意去听说话慢的人讲话；本发明实施例同时会对目标用户人脸图像进行分析，得到目标性别和目标年龄，现有的很多照相软件和人像识别软件都有此功能，该部分不再赘述，但是需要说明的是，一般而言，用户更愿意倾听异性的声音，孩子更愿意倾听童声，本发明实施例会根据目标性别和目标年龄确定虚拟人像，虚拟人像会出现在显示屏中与用户进行交流，虚拟人像的外形和声音特点更能符合用户的倾听喜好；最后会根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息，交互语音信息的方言和说话速度能够与用户的方言和说话速度匹配，使得用户感到亲切，体验感更好。

如图2所示，作为本发明一个优选的实施例，所述对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息的步骤，具体包括：

S201，对目标用户语音输入信息进行文字转化得到文字信息；

S202，对目标用户语音输入信息进行方言匹配得到方言信息，所述方言信息为方言类别，当方言匹配失败时，确定方言类别为普通话；

S203，提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息。

本发明实施例中，采集得到目标用户语音输入信息后，需要进行方言匹配检测得到方言信息，即确定了用户说话的方言类别。当然，方言的种类太多，难以对所有的方言进行识别匹配，当方言匹配失败时，确定方言类别为普通话；并对语音信息进行文字转化得到文字信息，还需要提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息，语速等于文字信息中文字数量除以时长。

为了对目标用户语音输入信息进行情感色彩分析，使得智能问答机器人能够更好地掌握目标用户的当前情感色彩，从而进行准确的情绪判断，进而更好地从情感层面提升交互体验效果。

在本发明中，对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息的步骤之后，所述方法还包括如下步骤：

S211，获取所述文字信息中的多个词汇，基于情感词典法查找确定每个词汇对应的词汇情感色彩值；

S212，确认每个词汇在文字信息中的重复出现次数，根据重复出现次数在预设重复次数权重因子映射表中查找对应的词汇权重因子；

可以理解的，重复出现次数越高，则对应的词汇权重因子的值越大。

S213，根据多个词汇情感色彩值以及对应的词汇权重因子计算得到文字信息的情感色彩值；

在本发明中，文字信息的情感色彩值的计算公式表示为：

其中，表示文字信息的情感色彩值，/>表示第/>个词汇对应的词汇情感色彩值，/>表示第/>个词汇对应的词汇权重因子，/>表示文字信息中词汇的最大数量。

S214，根据所述语速信息确定当前语速值，根据所述当前语速值在预设语速情感色彩映射表中查到得到对应的语速情感色彩值，其中，所述预设语速情感色彩映射表为当前语速值与情感色彩值之间的映射关系；

S215，根据所述方言信息确定方言类别，并根据所述方言类别在预设方言类别情感校正因子映射表中查找确定对应的情感校正因子，其中所述预设方言类别情感校正因子映射表为各方言类别与情感校正因子之间的映射关系；

可以理解的，由于不同地域的人群有不同的方言类别，且不同地域的人群的大致性格存在共同的性格标签，因此在本发明中，根据不同的方言类别，确定对应的地域，进而在提前设置的方言类别情感校正因子映射表中可查找确认得到对应的情感校正因子。由于将地域因素也考虑到整体的目标用户语音输入信息的情感色彩值的计算中，因此更加全面准确。

S216，根据文字信息的情感色彩值、语速情感色彩值以及方言类别对应的情感校正因子，计算得到目标用户语音输入信息的情感色彩值；

在本发明中，目标用户语音输入信息的情感色彩值的计算公式表示为：

其中，表示目标用户语音输入信息的情感色彩值，/>表示目标用户语音输入信息的情感色彩值的基准值，/>表示方言类别对应的情感校正因子，/>表示文字信息项的情感色彩值的权重因子，/>表示语速的情感色彩值的权重因子，/>表示当前语速值对应的语速情感色彩值。

可以理解的，在计算得到了目标用户语音输入信息的情感色彩值之后，智能问答机器人能够更好地掌握目标用户的当前情感色彩，从而进行准确的情绪判断。

如图3所示，作为本发明一个优选的实施例，所述对目标用户语音输入信息进行方言匹配得到方言信息的步骤，具体包括：

S2021，采集多种方言数据，基于Hadoop平台建立初始方言数据库；

S2022，提取所述初始方言数据库中的语音特征，使用VAD技术对采集的方言数据按频率进行分段处理，对进行所述分段处理后的语音数据采用聚类方法进行降噪处理，建立卷积神经网络模型；

S2023，对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测，确定方言类别。

本发明实施例中，为了对目标用户语音输入信息进行方言匹配识别，需要基于多种方言数据建立初始方言数据库，所述方言数据包括语音数据和文本数据，所述语音数据和所述文本数据存储于所述初始方言数据库的分布式文件系统中，然后需要提取所述初始方言数据库中的语音特征。具体的，使用VAD技术对采集的方言数据按频率进行分段处理，对进行所述分段处理后的语音数据采用聚类方法进行降噪处理，建立卷积神经网络模型，对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测。具体的，基于所述卷积神经网络模型对目标用户语音输入信息进行语音特征提取，获取用户语音特征，当所述用户语音特征存在于所述初始方言数据库中时，进行语音征匹配，当语音特征匹配成功时，则输出所述用户语音特征的匹配文本；否则视为方言匹配失败。

如图4所示，作为本发明一个优选的实施例，所述根据目标性别和目标年龄确定虚拟人像的步骤，具体包括：

S401，将目标性别和目标年龄输入至舒适对象库中，所述舒适对象库包括所有的年龄段，每个年龄段对应有两个性别，每个性别对应有舒适虚拟对象，每个舒适虚拟对象有自己的音色和音调；

S402，输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像。

对于所输出的舒适虚拟对象，为了使得虚拟人像与目标用户的特征更为吻合，在步骤S402中，具体包括如下子步骤：

S4021，根据目标用户语音输入信息的情感色彩值，在预设人像着装色彩库中查找对应的人像着装色彩RGB基准值；

S4022，根据目标用户语音输入信息的情感色彩值，在预设人像着装服饰类型库中查找对应的人像着装服饰类型；

可以理解的，根据目标用户语音输入信息的情感色彩值来确定人像着装色彩RGB基准值以及人像着装服饰类型，可使得生成的虚拟人像与目标用户的真实属性更加贴切，提高了目标用户的体验感与定制感。

S4023，根据人像着装色彩RGB基准值、人像着装服饰类型、目标性别与目标年龄，生成舒适虚拟对象。

本发明实施例中，事先建立有舒适对象库，所述舒适对象库包括所有的年龄段，每个年龄段对应有两个性别，每个性别对应有舒适虚拟对象，每个舒适虚拟对象有自己的音色、音调以及外形，舒适对象库根据经验和调查问卷可以得到，将目标性别和目标年龄输入至舒适对象库中进行匹配，就会自动输出对应的舒适虚拟对象了。如此，不同的用户对应有不同的虚拟人像，更加人性化。

如图5所示，作为本发明一个优选的实施例，所述根据文字信息、方言信息和语速信息确定交互语音信息的步骤，具体包括：

S501，根据文字信息确定交互文字内容；

在本发明中，交互文字内容并不是一次性便能成功生成，具体的，若目标用户的当前情感色彩值低于预设情感色彩值，此时需要通过语音交互的方式对目标用户进行情绪引导，故而生成的交互文字内容对应的情感色彩值也应该符合对应的要求。

具体的，步骤S501包括如下子步骤：

S5011，根据文字信息确定生成初始交互文字内容；

S5012，判断目标用户语音输入信息的情感色彩值是否大于预设情感色彩值；

S5013，当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值，则根据目标用户语音输入信息的情感色彩值查找确认对应的引导内容的最低情感色彩值；

在此需要说明的是，引导内容实质上指的是交互文字内容，在本发明中，对于一些情感色彩值较低（情绪低落）人员，智能问答机器人生成的交互文字内容要能起到情绪引导的效果，因此在此成为引导内容。

S5014，基于所述初始交互文字内容计算得到初始交互文字内容的情感色彩值，并判断所述初始交互文字内容的情感色彩值是否大于引导内容的最低情感色彩值；

S5015，若否，则对所述初始交互文字内容进行修正，直到最终生成目标交互文字内容，其中，目标交互文字内容的情感色彩值大于引导内容的最低情感色彩值。

S502，根据方言信息确定虚拟人像的发音方言；

S503，根据语速信息确定虚拟人像的语速值，使得虚拟人像的语速值与目标用户的语速值一致。

S504，根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值，生成虚拟人像的交互语音信息。

在本发明中，虚拟人像的发音速度原则上应与目标用户的发音速度一致。当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值之后，则本发明还包括如下步骤：

S511，根据目标用户语音输入信息的情感色彩值，计算得到虚拟人像的语速值；

在本发明中，虚拟人像的语速值的计算公式表示为：

其中，表示虚拟人像的语速值，/>表示目标用户的语速值，/>表示情感色彩项的语速值换算系数。

作为补充说明的，该公式是针对于目标用户语音输入信息的情感色彩值小于预设情感色彩值的情况下设置的。对于目标用户语音输入信息的情感色彩值大于预设情感色彩值的情况，也即目标用户无需进行情感引导，此时虚拟人像的语速值按照与目标用户的语速值一致即可。

S512，根据目标用户语音输入信息的情感色彩值，在预设情感引导语调类型映射表中查找确认对应类型的引导语调；

可以理解的，对于交互语音而言，其属性不仅包括语速值，还有语调类型。对于语调类型而言，可以包括“沉闷型语调”、“舒缓型语调”、“俏皮型语调”以及“欢快型语调”等。若目标用户的情感色彩值偏低，则此时需要通过选择一些偏欢快型的语调来实现情感引导的作用。此外，预设情感引导语调类型映射表为目标用户语音输入信息的情感色彩值与各语调类型之间的映射关系表。

S513，根据虚拟人像的语速值、对应类型的引导语调、虚拟人像的发音方言以及交互文字内容生成情感引导交互语音信息。

可以理解的，情感引导交互语音信息，是通过选择一些偏欢快型的语调来实现情感引导的作用。

本发明实施例中，会根据文字信息确定交互语音内容，这是所有的智能问答机器人必备功能，常用的有数据库匹配式，然后根据方言信息确定虚拟人像的发音方言，使得两者的方言尽可能相同，最后根据语速信息确定虚拟人像的发音速度，使得虚拟人像的发音速度与目标用户的发音速度一致，交流会更加顺畅。

如图6所示，本发明实施例还提供了一种人工智能交互系统，所述系统包括：

用户信息采集模块100，用于接收目标用户语音输入信息，采集目标用户人脸图像；

语音信息分析模块200，用于对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息；

人脸图像分析模块300，用于对目标用户人脸图像进行分析，得到目标性别和目标年龄；

虚拟人像确定模块400，用于根据目标性别和目标年龄确定虚拟人像；

交互语音确定模块500，用于根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息。

如图7所示，作为本发明一个优选的实施例，所述语音信息分析模块200包括：

文字信息确定单元201，用于对目标用户语音输入信息进行文字转化得到文字信息；

方言信息确定单元202，用于对目标用户语音输入信息进行方言匹配得到方言信息，所述方言信息为方言类别，当方言匹配失败时，确定方言类别为普通话；

语速信息确定单元203，用于提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息。

如图8所示，作为本发明一个优选的实施例，所述方言信息确定单元202包括：

方言数据库子单元2021，用于采集多种方言数据，基于Hadoop平台建立初始方言数据库；

网络模型建立子单元2022，用于提取所述初始方言数据库中的语音特征，使用VAD技术对采集的方言数据按频率进行分段处理，对进行所述分段处理后的语音数据采用聚类方法进行降噪处理，建立卷积神经网络模型；

匹配检测子单元2023，用于对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测，确定方言类别。

如图9所示，作为本发明一个优选的实施例，所述虚拟人像确定模块400包括：

性别年龄输入单元401，用于将目标性别和目标年龄输入至舒适对象库中，所述舒适对象库包括所有的年龄段，每个年龄段对应有两个性别，每个性别对应有舒适虚拟对象，每个舒适虚拟对象有自己的音色和音调；

虚拟对象输出单元402，用于输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像。

如图10所示，作为本发明一个优选的实施例，所述交互语音确定模块500包括：

交互内容确定单元501，用于根据文字信息确定交互文字内容；

发音方言确定单元502，用于根据方言信息确定虚拟人像的发音方言；

发音速度确定单元503，用于根据语速信息确定虚拟人像的语速值，使得虚拟人像的语速值与目标用户的语速值一致；

虚拟语音生成单元504，用于根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值，生成虚拟人像的交互语音信息。

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种人工智能交互方法，其特征在于，所述方法包括以下步骤：

接收目标用户语音输入信息，采集目标用户人脸图像；

对目标用户人脸图像进行分析，得到目标性别和目标年龄；

根据目标性别和目标年龄确定虚拟人像；

根据文字信息、方言信息和语速信息确定交互语音信息，使得虚拟人像发出所述交互语音信息；

所述对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息的步骤，具体包括：

对目标用户语音输入信息进行文字转化得到文字信息；

提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息；

其中，所述根据目标性别和目标年龄确定虚拟人像的步骤，具体包括：

输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像；

其中，输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像的方法包括如下步骤：

根据目标用户语音输入信息的情感色彩值，在预设人像着装色彩库中查找对应的人像着装色彩RGB基准值；

根据目标用户语音输入信息的情感色彩值，在预设人像着装服饰类型库中查找对应的人像着装服饰类型；

根据人像着装色彩RGB基准值、人像着装服饰类型、目标性别与目标年龄，生成舒适虚拟对象；

对目标用户语音输入信息进行分析，得到文字信息、方言信息和语速信息的步骤之后，所述方法还包括如下步骤：

获取所述文字信息中的多个词汇，基于情感词典法查找确定每个词汇对应的词汇情感色彩值；

确认每个词汇在文字信息中的重复出现次数，根据重复出现次数在预设重复次数权重因子映射表中查找对应的词汇权重因子；

根据多个词汇情感色彩值以及对应的词汇权重因子计算得到文字信息的情感色彩值；

根据所述语速信息确定当前语速值，根据所述当前语速值在预设语速情感色彩映射表中查到得到对应的语速情感色彩值，其中，所述预设语速情感色彩映射表为当前语速值与情感色彩值之间的映射关系；

根据所述方言信息确定方言类别，并根据所述方言类别在预设方言类别情感校正因子映射表中查找确定对应的情感校正因子，其中所述预设方言类别情感校正因子映射表为各方言类别与情感校正因子之间的映射关系；

根据文字信息的情感色彩值、语速情感色彩值以及方言类别对应的情感校正因子，计算得到目标用户语音输入信息的情感色彩值；

文字信息的情感色彩值的计算公式表示为：

；

其中，表示文字信息的情感色彩值，/>表示第/>个词汇对应的词汇情感色彩值，/>表示第/>个词汇对应的词汇权重因子，/>表示文字信息中词汇的最大数量；

目标用户语音输入信息的情感色彩值的计算公式表示为：

；

2.根据权利要求1所述的一种人工智能交互方法，其特征在于，所述对目标用户语音输入信息进行方言匹配得到方言信息的步骤，具体包括：

采集多种方言数据，基于Hadoop平台建立初始方言数据库；

3.根据权利要求1所述的一种人工智能交互方法，其特征在于，所述根据文字信息、方言信息和语速信息确定交互语音信息的步骤，具体包括：

根据文字信息确定交互文字内容；

根据方言信息确定虚拟人像的发音方言；

根据语速信息确定虚拟人像的语速值，使得虚拟人像的语速值与目标用户的语速值一致；

根据交互文字内容、虚拟人像的发音方言以及虚拟人像的语速值，生成虚拟人像的交互语音信息。

4.根据权利要求3所述的一种人工智能交互方法，其特征在于，根据文字信息确定交互文字内容的方法包括如下步骤：

根据文字信息确定生成初始交互文字内容；

判断目标用户语音输入信息的情感色彩值是否大于预设情感色彩值；

当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值，则根据目标用户语音输入信息的情感色彩值查找确认对应的引导内容的最低情感色彩值；

基于所述初始交互文字内容计算得到初始交互文字内容的情感色彩值，并判断所述初始交互文字内容的情感色彩值是否大于引导内容的最低情感色彩值；

若否，则对所述初始交互文字内容进行修正，直到最终生成目标交互文字内容，其中，目标交互文字内容的情感色彩值大于引导内容的最低情感色彩值。

5.根据权利要求4所述的一种人工智能交互方法，其特征在于，当判断到目标用户语音输入信息的情感色彩值小于预设情感色彩值之后，所述方法还包括如下步骤：

根据目标用户语音输入信息的情感色彩值，计算得到虚拟人像的语速值；

虚拟人像的语速值的计算公式表示为：

；

其中，表示虚拟人像的语速值，/>表示目标用户的语速值，/>表示情感色彩项的语速值换算系数；

根据目标用户语音输入信息的情感色彩值，在预设情感引导语调类型映射表中查找确认对应类型的引导语调；

根据虚拟人像的语速值、对应类型的引导语调、虚拟人像的发音方言以及交互文字内容生成交互语音信息。

6.一种人工智能交互系统，其特征在于，执行权利要求1至5任一项所述的人工智能交互方法，所述系统包括：

7.根据权利要求6所述的一种人工智能交互系统，其特征在于，所述语音信息分析模块包括：

语速信息确定单元，用于提取目标用户语音输入信息的时长，根据时长和文字信息中文字数量确定语速信息；

所述方言信息确定单元包括：

匹配检测子单元，用于对所述卷积神经网络模型进行训练，将训练后的卷积神经网络模型与目标用户语音输入信息进行匹配检测，确定方言类别；

所述虚拟人像确定模块包括：

虚拟对象输出单元，用于输出对应的舒适虚拟对象，所述舒适虚拟对象为虚拟人像；

所述交互语音确定模块包括：

交互内容确定单元，用于根据文字信息确定交互文字内容；