CN116383363A

CN116383363A - 一种虚拟宠物聊天系统

Info

Publication number: CN116383363A
Application number: CN202310453847.4A
Authority: CN
Inventors: 裴子龙
Original assignee: Hangzhou Chongpangpang Technology Co ltd
Current assignee: Hangzhou Chongpangpang Technology Co ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-04

Abstract

本发明实施例公开了一种虚拟宠物聊天系统，包括服务端和具有图像采集功能、语音采集功能的客户端；所述客户端用于获取当前用户的图像数据和语音数据；所述图像数据包括当前用户的面部表情；所述服务端用于对所述图像数据和语音数据进行处理，得到回答结果，并将所述回答结果推送至所述客户端，通过虚拟宠物回复当前用户。实施本发明实施例的虚拟宠物聊天系统，回答结果是根据面部表情识别和输入语音识别两者相结合所得到的，与传统的虚拟宠物聊天相比，考虑了用户面部表情变化对智能回答的影响，可以使得回答结果更符合用户需求，增加了虚拟宠物聊天的趣味性，也提升了用户的体验效果。

Description

一种虚拟宠物聊天系统

技术领域

本发明涉及计算机软件及人工智能技术领域，具体涉及一种虚拟宠物聊天系统。

背景技术

随着计算机和计算机网络技术的快速发展，互联网已经深入到人们的工作、生活和学习的各个领域。为了满足用户不断变化的需求，虚拟宠物应运而生。

虚拟宠物实质上是一种娱乐性质的软件系统，可独立运行于用户的桌面，也可以web页面中的组件等形式存在。虚拟宠物可以运行于互联网环境，也可独立运行于一台不联网的计算机中。

虚拟宠物从诞生以来，一直都是受到用户喜爱的娱乐休闲游戏。虚拟宠物往往设计为可爱的形象，通过软件支持实现如同真实宠物一样的成长过程。随着技术的发展虚拟宠物已经具备许多高级功能，用户可以通过宠物的养成系统、虚拟宠物社区等方式获得丰富的体验。

目前，虚拟宠物“喂养”过程中，大都是用户发出一些交互指令，后台根据该交互指令使得虚拟宠物做出一些回应，例如回答用户提出的一些简单问题，或者做出一些动作回应用户。上述交互指令可以是用户给出的语音指令，这样就可以实现与虚拟宠物之间的聊天过程。显然，随着用户需求的快速增长，以及人工智能等技术的高速发展，这样的虚拟宠物聊天方式，趣味性太低，用户体验效果也较差。

发明内容

针对现有技术中存在的上述缺陷，本发明实施例的目的在于提供一种虚拟宠物聊天系统。

为实现上述目的，第一方面，本发明实施例提供了一种虚拟宠物聊天系统，包括服务端和具有图像采集功能、语音采集功能的客户端；该客户端包括但不仅限于移动终端、电脑或IPAD等。

其中，所述客户端用于获取当前用户的图像数据和语音数据；所述图像数据包括当前用户的面部表情；

所述服务端用于对所述图像数据和语音数据进行处理，得到回答结果，并将所述回答结果推送至所述客户端，通过虚拟宠物回复当前用户。

作为本申请的一种具体实现方式，所述服务端包括交互单元，用于：

接收所述客户端发送的图像数据和语音数据；

将所述回答结果推送至所述客户端，通过虚拟宠物回复当前用户。

作为本申请的一种具体实现方式，所述服务端还包括图像处理单元，用于对所述图像数据进行处理，得到当前用户的面部表情变化结果，具体为：

对当前用户的面部表情进行预处理，得到第一图像；所述预处理包括黑白转换处理、降噪处理及膨胀腐蚀处理；

对所述第一图像进行识别，得到第二图像；

将所述第二图像与数据库中存储的标准图像进行比对，得到当前用户的面部表情变化结果。

其中，采用降噪算法对所述第一图像进行处理，以消除噪声；所述降噪算法包括BEEPS算法、中值滤波算法、均值滤波算法、双边滤波算法、联合双边滤波算法及向导滤波算法。

作为本申请的一种具体实现方式，所述语音数据指的是用户输入的自然语言；所述服务端还包括语音识别单元，用于对所述语音数据进行处理，得到语音识别结果，具体为：

采用停用词和TF-IDF算法对所述语音数据进行抽象处理，得到文本数据；所述停用词包括标点符号和语气词；

对所述文本数据进行识别，得到语音识别结果；

其中，TF-IDF算法具体为：假设特征词x_t在整个文本集平均分布，求得特征词x_t在文本集中的平均分布值p_t，求特征词x_t在类C_j中的分布值p_tj，计算p_tj和p_t之间的比值，得到类C_j中特征词x_t在类中的分布情况。

作为本申请的一种优选实现方式，所述服务端还包括回答单元，用于根据所述面部表情变化结果和语音识别结果，得到回答结果，具体为：

采用贝叶斯算法对所述文本数据进行分类，得到分类结果；

将所述分类结果与数据库中存储的答案进行匹配，得到回答结果。

其中，采用贝叶斯算法对所述文本数据进行分类，得到分类结果，具体为：

采集样本数据；所述样本数据为多个用户与虚拟宠物聊天的历史数据；

基于所述样本数据对贝叶斯算法中的文本分类器进行训练；

采用训练后的文本分类器对所述文本数据进行分类，得到分类结果。

作为本申请的一种具体实现方式，当所述样本数据为语料数据时，先采用停用词和TF-IDF算法对所述语音数据进行抽象处理，得到文本类数据，再采用文本类数据进行文本分类器训练。

作为本申请的一种优选实现方式，所述图像数据还包括当前用户的动作数据，所述服务端还包括动作处理单元，用于对所述动作数据进行识别，得到动作识别结果；

所述回答单元用于根据所述面部表情识别结果、语音识别结果和动作识别结果，得到回答结果。

实施本发明实施例的虚拟宠物聊天系统，回答结果是根据面部表情识别和输入语音识别两者相结合所得到的，与传统的虚拟宠物聊天相比，考虑了用户面部表情变化对智能回答的影响，可以使得回答结果更符合用户需求，增加了虚拟宠物聊天的趣味性，也提升了用户的体验效果。

此外，本发明的另一优选实施例，回答结果在前述基础上，还考虑了用户的动作变化，更加增强了虚拟宠物所做出回应的趣味性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的虚拟宠物聊天系统的结构图；

图2是图1所示虚拟宠物聊天系统对应的方法流程图；

图3是图1所示服务端的另一种结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

本领域技术人员可以理解，这里所使用的“客户端”可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务端”、“客户端”等名称所指向的硬件，本质上是具备个人计算机等效能力的计算机设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务端”这一概念，服务端是为客户端服务的，服务的内容诸如向客户端提供资源，保存客户端数据。其中由服务器为服务端提供运行的环境和基础，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

请参考图1，本发明实施例提供的虚拟宠物聊天系统包括服务端100和具有图像采集功能、语音采集功能的客户端200。该客户端200主要用于获取当前用户的图像数据和语音数据；该服务端100主要用于对图像数据和语音数据进行处理，得到回答结果，并将该回答结果推送至客户端，通过虚拟宠物回复当前用户。

具体地，服务端100包括交互单元10、图像处理单元11、语音识别单元12、动作处理单元13及问答单元14。

其中，交互单元10用于：

接收所述客户端200发送的图像数据和语音数据；

将所述回答结果推送至所述客户端200，通过虚拟宠物回复当前用户。

上述图像数据可以包括当前用户的面部表情，图像处理单元11用于对所述图像数据进行处理，得到当前用户的面部表情变化结果，具体为：

对所述第一图像进行识别，得到第二图像；

上述语音数据指的是用户输入的自然语言，语音识别单元12用于对所述语音数据进行处理，得到语音识别结果，具体为：

对所述文本数据进行识别，得到语音识别结果；

作为一种优选实现方式，所述图像数据还包括当前用户的动作数据，动作处理单元13，用于对所述动作数据进行识别，得到动作识别结果。

上述回答单元14用于根据所述面部表情变化结果和语音识别结果，得到回答结果，具体为：

采用贝叶斯算法对所述文本数据进行分类，得到分类结果；

可选地，上述回答单元14用于根据所述面部表情识别结果、语音识别结果和动作识别结果，得到回答结果。

为更好地理解本发明实施例，请参考图2，上述虚拟宠物聊天系统的流程步骤可以包括：

S1，客户端获取当前用户的图像数据和语音数据。

其中，图像数据包括当前用户的面部表情和动作数据，语音数据指的是用户提出的一些问题等。

S2，服务端的交互单元接收上述图像数据和语音数据。

S3，图像处理单元对图像数据进行处理，得到当前用户的面部表情识别结果。

步骤S3具体包括：

对所述第一图像进行识别，得到第二图像；

其中，关于降噪处理部分的描述如下：

采集到的第一图像中，存在一些噪声，为了保证后续识别结果。自此，需要采用降噪算法对第一图像进行降噪处理，以消除图像中所包含的噪声。

降噪算法可以为双指数边缘保护的平滑处理器(BEEPS，Bi-Exponential Edge-Preserving Smoother)算法、中值滤波(Median Filter)算法、均值滤波算法、双边滤波(Bilateral Filtering)算法、联合双边滤波、向导滤波等降噪算法。上述的降噪算法存在细微的差异，例如双指数边缘保护的平滑处理器算法和中值滤波算法处理速度快，而联合双边滤波和向导滤波等降噪算法处理效果好。至于选择何种降噪算法，在具体实施应用时，用户可自行选择。

在上述降噪算法中，中值滤波算法和均值滤波算法最为常见。

中值滤波算法的公式为：

g(x，y)＝med{f(x-q，y-r)|_q，r∈u}

该公式中，g(x，y)为输出图像，f(x，y)为输入图像，u为滤波器模板。

需要说明的是，中值滤波算法的原理是：利用统计学排序原理，将图像中一点处邻域内各点用其邻域内像素中值替换，使周围像素更接近真实值进而实现降噪功能。

均值滤波算法的公式为：

g(x，y)＝mean{f(x-q，y-r)|_q，r∈u}

需要说明的是，均值滤波算法的原理是：通过求取滤波器模板所包围像素点的灰度平均值，将该灰度平均值代替原图中的像素值，实现噪声的消除。

其中，关于膨胀腐蚀处理部分的描述如下：

对第一图像进行膨胀腐蚀处理，指的就是形态学操作。其中，形态学的膨胀、腐蚀原理如下：

形态学变换膨胀采用向量加法(或Minkowski集合加法，如(a，b)+(c，d)＝(a+c，b+d))对两个集合进行合并。膨胀

是所有向量加之和的集合，向量加法的两个操作数分别来自于X和B，并且取到任意可能的组合。

腐蚀对集合元素采用向量减法，将两个集合合并。腐蚀算法是膨胀算法的对偶运算，公式表达如下：

腐蚀与膨胀的关系可以描述为：

其中，

是B关于参考点的对称集合，也称为转置，可以根据此式，利用膨胀运算来实现腐蚀运算。

S4，语音识别单元对语音数据进行处理，得到语音识别结果。

为了减少语音识别的数据处理计算量，本实施例中，采用标点符号和语气词等停用词对用户输入的语音数据进行过滤处理。之后，采用TF-IDF算法对语音数据进行抽象处理，得到文本数据。最后对文本数据进行识别，得到语音识别结果。

TF-IDF是很广泛的一种特征权重计算方法。TF是指词频(Term Frequency)，表示词在文档中出现的频率，IDF(Inverse Document Frequency)是指逆文档频率，表示词在整个文档集中的重要性，包含词的文档数越多，表示词对文本来说越不重要。TF的公式表示为：

N(x_t，d)表示特征词条x_t在文档d中出现的频次，S表示文档d的总词条数。

IDF的公式表示为：

N(x_t)表示含有词条x_t的文档数，N表示总的文档数。

N(x_t，C_j)表示特征词条x_t在类别C_j中的文本数量，/>

表示非C_j类别中包含特征词条x_t的文本个数。

在本实施例中，TF-IDF算法具体为：假设特征词x_t在整个文本集平均分布，求得特征词x_t在文本集中的平均分布值p_t，求特征词x_t在类C_j中的分布值p_tj，计算p_tj和p_t之间的比值，得到类C_j中特征词x_t在类中的分布情况。

S5，回答单元根据面部表情变化结果和语音识别结果，得到回答结果。

具体地，步骤S5包括：

基于所述样本数据对贝叶斯算法中的文本分类器进行训练；

采用训练后的文本分类器对所述文本数据进行分类，得到分类结果；

其中，当样本数据为语料数据时，先采用停用词和TF-IDF算法对所述语音数据进行抽象处理，得到文本类数据，再采用文本类数据进行文本分类器训练。

可选地，服务端的动作处理单元可对采集的动作数据进行识别，得到动作识别结果，回答单元根据面部表情识别结果、语音识别结果和动作识别结果，得到回答结果。

S6，交互单元将回答结果推送给客户端，通过虚拟宠物回复当前用户。

从以上描述可以看出，本发明实施例所提供的虚拟宠物聊天系统，回答结果是根据面部表情识别和输入语音识别两者相结合所得到的，与传统的虚拟宠物聊天相比，考虑了用户面部表情变化对智能回答的影响，可以使得回答结果更符合用户需求，增加了虚拟宠物聊天的趣味性，也提升了用户的体验效果。

需要说明的是，上述服务端除了图1所示的结构图，还可以是另一种结构。如图3所示，服务端可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行如图2所述的方法。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的虚拟宠物聊天方法的实施例中所描述的实现方式，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种虚拟宠物聊天系统，其特征在于，包括服务端和具有图像采集功能、语音采集功能的客户端；

所述客户端用于获取当前用户的图像数据和语音数据；所述图像数据包括当前用户的面部表情；

2.如权利要求1所述的虚拟宠物聊天系统，其特征在于，所述服务端包括交互单元，用于：

接收所述客户端发送的图像数据和语音数据；

3.如权利要求2所述的虚拟宠物聊天系统，其特征在于，所述服务端还包括图像处理单元，用于对所述图像数据进行处理，得到当前用户的面部表情变化结果，具体为：

对所述第一图像进行识别，得到第二图像；

4.如权利要求3所述的虚拟宠物聊天系统，其特征在于，采用降噪算法对所述第一图像进行处理，以消除噪声；所述降噪算法包括BEEPS算法、中值滤波算法、均值滤波算法、双边滤波算法、联合双边滤波算法及向导滤波算法。

5.如权利要求3所述的虚拟宠物聊天系统，其特征在于，所述语音数据指的是用户输入的自然语言；所述服务端还包括语音识别单元，用于对所述语音数据进行处理，得到语音识别结果，具体为：

对所述文本数据进行识别，得到语音识别结果；

6.如权利要求5所述的虚拟宠物聊天系统，其特征在于，所述服务端还包括回答单元，用于根据所述面部表情变化结果和语音识别结果，得到回答结果，具体为：

采用贝叶斯算法对所述文本数据进行分类，得到分类结果；

7.如权利要求6所述的虚拟宠物聊天系统，其特征在于，采用贝叶斯算法对所述文本数据进行分类，得到分类结果，具体为：

基于所述样本数据对贝叶斯算法中的文本分类器进行训练；

8.如权利要求7所述的虚拟宠物聊天系统，其特征在于，当所述样本数据为语料数据时，先采用停用词和TF-IDF算法对所述语音数据进行抽象处理，得到文本类数据，再采用文本类数据进行文本分类器训练。

9.如权利要求6所述的虚拟宠物聊天系统，其特征在于，所述图像数据还包括当前用户的动作数据，所述服务端还包括动作处理单元，用于对所述动作数据进行识别，得到动作识别结果；

10.如权利要求1所述的虚拟宠物聊天系统，其特征在于，所述客户端包括移动终端、电脑或IPAD。