CN107291960A

CN107291960A - 基于大数据与小数据相关分析实现幽默的方法和系统

Info

Publication number: CN107291960A
Application number: CN201710666634.4A
Authority: CN
Inventors: 朱定局
Original assignee: Great Power Innovative Intelligent Technology (dongguan) Co Ltd
Current assignee: Great Power Innovative Intelligent Technology (dongguan) Co Ltd
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2017-10-24
Anticipated expiration: 2037-08-07
Also published as: CN107291960B

Abstract

本发明公开了一种基于大数据与小数据相关分析实现幽默的方法及系统，所述犯法包括：获取用户的数据；从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据；获取大数据；从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集；从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合；从第二相关数据集中挖掘负相关语句，并将负相关语句及其负相关度存入负相关语句集合；根据正相关语句集合和负相关语句集合，获取幽默语句集合。本发明通过机器人从大数据中获取能产生幽默感的语句，来提高机器人的幽默程度和幽默水平。

Description

基于大数据与小数据相关分析实现幽默的方法和系统

技术领域

本发明涉及一种机器人幽默感产生方法和系统，尤其是一种基于大数据与小数据相关分析实现幽默的方法和系统，属于人工智能技术领域。

背景技术

随着机器人技术的快速发展，用户对机器人功能的要求也越来越高，幽默感是智慧机器人的最重要内容之一。

现有机器人在与用户对话时，都是通过查询幽默知识库来获取幽默语句或幽默成分，由于幽默知识库中幽默语句或幽默成分数量有限，从而导致幽默程度和幽默水平低。

发明内容

本发明的目的是为了解决上述现有技术的缺陷，提供了一种基于大数据与小数据相关分析实现幽默的方法，该方法通过机器人从大数据中获取能产生幽默感的语句，来提高机器人的幽默程度和幽默水平。

本发明的另一目的在于提供一种基于大数据正负统一相关的幽默语句获取系统。

本发明的目的可以通过采取如下技术方案达到：

基于大数据与小数据相关分析实现幽默的方法，所述方法应用于机器人中，包括：

获取用户的数据；

从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据；

获取大数据；

从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集；

从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合；

从第二相关数据集中挖掘负相关语句，并将负相关语句及其负相关度存入负相关语句集合；

根据正相关语句集合和负相关语句集合，获取幽默语句集合。

进一步的，所述从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集，具体包括：

获取大数据中所有语句与第一小数据的匹配度，以及与第二小数据的匹配度；其中，语句指的是有一个句号结束的语句，大数据的某语句与小数据的匹配度指的是小数据在该语句中出现的字的个数除以小数据中字的个数；

判断大数据中所有语句与第一小数据的匹配度是否大于预设匹配度阈值，以及与第二小数据的匹配度是否大于预设匹配度阈值；

获取与第一小数据的匹配度大于预设匹配度阈值的语句，以及与第二小数据的匹配度大于预设匹配度阈值的语句；

当与第一小数据匹配度大于预设匹配度阈值的语句、与第二小数据的匹配度大于预设匹配度阈值的语句中的某语句及其上句或下句都未被标记时，将该语句删除；或当与第一小数据匹配度大于预设匹配度阈值的语句、与第二小数据的匹配度大于预设匹配度阈值的语句中的某语句未被标记时，将该语句删除；

当与第一小数据匹配度大于预设匹配度阈值的语句中某语句及其上句或下句都未被标记时，将该语句删除；或当与第一小数据匹配度大于预设匹配度阈值的语句中某语句未被标记时，将该语句删除；

将与第一小数据匹配度大于预设匹配度阈值的语句中未被删除的语句作为第一相关数据集，以及与第二小数据匹配度大于预设匹配度阈值的语句中未被删除的语句作为第二相关数据集。

进一步的，所述从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合，具体包括：

获取第一相关数据集中所有语句与第一小数据的正相关度；

判断第一相关数据集中所有语句与第一小数据的正相关度是否大于预设正相关度阈值；

将与第一小数据的正相关度大于预设正相关度阈值的语句判定为正相关语句，并将正相关语句及其正相关度存入正相关语句集合；

所述从第二相关数据集中挖掘负相关语句，并将负相关语句及其负相关度存入负相关语句集合，具体包括：

获取第二相关数据集中所有语句与第二小数据的负相关度；

判断第二相关数据集中所有语句与第二小数据的负相关度是否大于预设负相关度阈值；

将与第二小数据的负相关度大于预设负相关度阈值的语句判定为负相关语句，并将负相关语句及其负相关度存入负相关语句集合。

进一步的，所述获取第一相关数据集中所有语句与第一小数据的正相关度，具体包括：

获取第一小数据在大数据中相似语句的数量，作为第一数量；

统计第一相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第二数量；

统计该个数据与第一小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第三数量；

根据第一数量、该个数据的第二数量和第三数量，计算该个数据的正相关度；其中，所述该个数据的正相关度，具体计算公式为：该个数据的第三数量/((第一数量×该个数据的第二数量)^1/2)；

所述获取第二相关数据集中所有语句与第二小数据的负相关度，具体包括：

获取第一小数据在大数据中相似语句的数量，作为第四数量；

统计第二相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第五数量；

统计该个数据与第二小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第六数量；

根据第四数量、该个数据的第五数量和第六数量，计算该个数据的负相关度；其中，所述该个数据的负相关度，具体计算公式为：1-该个数据的第六数量/((第四数量×该个数据的第五数量)^1/2)。

进一步的，所述根据正相关语句集合和负相关语句集合，获取幽默语句集合，具体包括：

从正相关语句集合中获取一个正相关语句及其正相关度；

从负相关语句集合中获取一个负相关语句及其负相关度；

将获取的正相关语句和负相关语句组合形成的语句作为一个幽默语句；

将该幽默语句与第一小数据、第二小数据组合形成的语句作为统一语句；

统计该统一语句在大数据中相似数据的数量，作为该统一语句的第七数量；

根据该幽默语句对应的正相关语句的第三数量、对应的负相关语句的第六数量以及对应的统一语句的第七数量，计算该幽默语句的正负统一相关度；其中，所述该幽默语句的正负统一相关度，具体计算公式为：该幽默语句对应的统一语句的第七数量/((该幽默语句对应的正相关语句的第三数量×该幽默语句对应的负相关语句的第六数量)^1/2)；

根据正相关度、负相关度和正负统一相关度，计算该幽默语句的幽默度；其中，该幽默语句的幽默度，具体计算公式为：((正相关度×负相关度)^1/2))×正负统一相关度；

将幽默度大于预设幽默阈值的幽默语句及其幽默度存入幽默语句集合。

本发明的另一目的可以通过采取如下技术方案达到：

基于大数据与小数据相关分析实现幽默的系统，所述系统应用于机器人中，包括：

用户数据获取模块，用于获取用户的数据；

小数据提取模块，用于从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据；

大数据获取模块，用于获取大数据；

相关数据集获取模块，用于从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集；

正相关语句挖掘模块，用于从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合；

负相关语句挖掘模块，用于从第二相关数据集中挖掘负相关语句，并将负相关语句及其正相关度存入负相关语句集合；

幽默语句集合获取模块，用于根据正相关语句集合和负相关语句集合，获取幽默语句集合。

进一步的，所述相关数据集获取模块，具体包括：

匹配度获取单元，用于获取大数据中所有语句与第一小数据的匹配度，以及与第二小数据的匹配度；其中，语句指的是有一个句号结束的语句，大数据的某语句与小数据的匹配度指的是小数据在该语句中出现的字的个数除以小数据中字的个数；

第一判断单元，用于判断大数据中所有语句与第一小数据的匹配度是否大于预设匹配度阈值，以及与第二小数据的匹配度是否大于预设匹配度阈值；

语句获取单元，用于获取与第一小数据的匹配度大于预设匹配度阈值的语句，以及与第二小数据的匹配度大于预设匹配度阈值的语句；

语句标记单元，用于将与第一小数据匹配度大于预设匹配度阈值的语句中出现第一小数据中关键词的语句进行标记，以及将与第二小数据匹配度大于预设匹配度阈值的语句中出现第二小数据中关键词的语句进行标记；

语句删除单元，用于当与第一小数据匹配度大于预设匹配度阈值的语句、与第二小数据的匹配度大于预设匹配度阈值的语句中的某语句及其上句或下句都未被标记时，将该语句删除；或当与第一小数据匹配度大于预设匹配度阈值的语句、与第二小数据的匹配度大于预设匹配度阈值的语句中的某语句未被标记时，将该语句删除；

相关数据集获取单元，用于将与第一小数据匹配度大于预设匹配度阈值的语句中未被删除的语句作为第一相关数据集，以及与第二小数据匹配度大于预设匹配度阈值的语句中未被删除的语句作为第二相关数据集。

进一步的，所述正相关语句挖掘模块，具体包括：

正相关度获取单元，用于获取第一相关数据集中所有语句与第一小数据的正相关度；

第二判断单元，用于判断第一相关数据集中所有语句与第一小数据的正相关度是否大于预设正相关度阈值；

正相关语句集合获取单元，用于将与第一小数据的正相关度大于预设正相关度阈值的语句判定为正相关语句，并将正相关语句及其正相关度存入正相关语句集合；

所述负相关语句挖掘模块，具体包括：

负相关度获取单元，用于获取第二相关数据集中所有语句与第二小数据的负相关度；

第三判断单元，用于判断第二相关数据集中所有语句与第二小数据的负相关度是否大于预设负相关度阈值；

负相关语句集合获取单元，用于将与第二小数据的负相关度大于预设负相关度阈值的语句判定为负相关语句，并将负相关语句及其负相关度存入负相关语句集合。

进一步的，所述正相关度获取单元，具体包括：

第一数量获取子单元，获取第一小数据在大数据中相似语句的数量，作为第一数量；

第二数量统计子单元，统计第一相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第二数量；

第三数量统计子单元，用于统计该个数据与第一小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第三数量；

正相关度计算子单元，用于根据第一数量、该个数据的第二数量和第三数量，计算该个数据的正相关度；其中，所述该个数据的正相关度，具体计算公式为：该个数据的第三数量/((第一数量×该个数据的第二数量)^1/2)；

所述负相关度获取单元，具体包括：

第四数量获取子单元，用于获取第一小数据在大数据中相似语句的数量，作为第四数量；

第五数量统计子单元，用于统计第二相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第五数量；

第六数量统计子单元，用于统计该个数据与第二小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第六数量；

负相关度计算子单元，用于根据第四数量、该个数据的第五数量和第六数量，计算该个数据的负相关度；其中，所述该个数据的负相关度，具体计算公式为：1-该个数据的第六数量/((第四数量×该个数据的第五数量)^1/2)。

进一步的，所述幽默语句集合获取模块，具体包括：

正相关语句及其正相关度获取单元，用于从正相关语句集合中获取一个正相关语句及其正相关度；

负相关语句及其负相关度获取单元，用于从负相关语句集合中获取一个负相关语句及其负相关度；

幽默语句获取单元，用于将获取的正相关语句和负相关语句组合形成的语句作为一个幽默语句；

统一语句获取单元，用于将该幽默语句与第一小数据、第二小数据组合形成的语句作为统一语句；

第七数量统计单元，用于统计该统一语句在大数据中相似数据的数量，作为该统一语句的第七数量；

正负统一相关度计算单元，用于根据该幽默语句对应的正相关语句的第三数量、对应的负相关语句的第六数量以及对应的统一语句的第七数量，计算该幽默语句的正负统一相关度；其中，所述该幽默语句的正负统一相关度，具体计算公式为：该幽默语句对应的统一语句的第七数量/((该幽默语句对应的正相关语句的第三数量×该幽默语句对应的负相关语句的第六数量)^1/2)；

幽默度计算单元，用于根据正相关度、负相关度和正负统一相关度，计算该幽默语句的幽默度；其中，该幽默语句的幽默度，具体计算公式为：((正相关度×负相关度)^1/2))×正负统一相关度；

幽默语句集合获取单元，用于将幽默度大于预设幽默阈值的幽默语句及其幽默度存入幽默语句集合。

本发明相对于现有技术具有如下的有益效果：

1、本发明通过从获取的用户数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据，将大数据与第一小数据进行正相关分析，从大数据中挖掘得到正相关语句集合，然后将大数据与第二小数据进行负相关性分析，从大数据中挖掘得到负相关语句集合，根据正相关语句集合和负相关语句集合，得到幽默语句集合，以实现对立统一的幽默，不仅可以提高机器人的幽默程度和幽默水平，而且用户也可以产生共鸣。

2、本发明从大数据中搜索出与第一小数据相关的语句，以及搜索出与第二小数据相关的语句，使得大数据中的每个数据不需要都与小数据进行相关分析，减小后面的大数据相关挖掘的计算量，提高相关挖掘的可行性。

3、本发明将从正相关语句集合中获取的正相关语句以及负相关语句集合中获取的负相关语句组合形成的语句作为幽默语句，进而获得对应的统一语句，以计算正负统一相关度，根据正相关度、负相关度和正负统一相关度，计算幽默语句的幽默度，再取幽默度足够大的幽默语句，存入幽默语句集合，这样幽默语句集合中幽默语句就具有较高的幽默度，以满足用户的需求。

4、本发明在得到了幽默语句集合后，可以从幽默语句集合中选择幽默度最大的幽默语句，并通过文本和/或语音的方式输出给用户，进一步提高机器人的幽默程度和幽默水平。

附图说明

图1为本发明实施例1的基于大数据与小数据相关分析实现幽默的方法流程图。

图2为本发明实施例1的相关数据集获取流程图。

图3为本发明实施例1的正相关语句挖掘流程图。

图4为本发明实施例1的第一相关数据集中所有语句与第一小数据的正相关度获取流程图。

图5为本发明实施例1的负相关语句挖掘流程图。

图6为本发明实施例1的第二相关数据集中所有语句与第二小数据的负相关度获取流程图。

图7为本发明实施例1的幽默语句集合获取流程图。

图8为本发明实施例1的幽默语句集合获取的简易示意图。

图9为本发明实施例1的基于大数据与小数据相关分析实现幽默的方法的简易示意图。

图10为本发明实施例2的基于大数据与小数据相关分析实现幽默的方法流程图。

图11为本发明实施例3的相关数据集获取流程图。

图12为本发明实施例4的基于大数据与小数据相关分析实现幽默的系统结构框图。

图13为本发明实施例4的相关数据集获取模块结构框图。

图14为本发明实施例4的正相关语句挖掘模块结构框图。

图15为本发明实施例4的正相关度获取单元结构框图。

图16为本发明实施例4的负相关语句挖掘模块结构框图。

图17为本发明实施例4的负相关度获取单元结构框图。

图18为本发明实施例4的幽默语句集合获取模块结构框图。

图19为本发明实施例5的基于大数据与小数据相关分析实现幽默的系统结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1：

如图1所示，本实施例提供了一种基于大数据与小数据相关分析实现幽默的方法，该方法可以应用于机器人中，包括以下步骤：

S101、获取用户的数据。

在本实施例中，机器人是指智能机器人，可以模拟人类行为或思想的机械，其包括一些计算机程序，如聊天程序等；机器人在与用户对话过程中，机器人的感官能够获得多个小数据，如机器人的眼部安装有摄像头，能够获得用户的视频图像数据，机器人的耳部安装有拾音器，能够获得用户的音频数据，其它各种传感器获得传感数据(如用户的体温、心率等)，各种终端获得用户输入的文本数据(如用户属性、话语等)；将获得的多个小数据(石头)“扔进”大数据(池塘)中，从而识别或生成幽默(一石激起千层浪)，识别或生成幽默的过程是将小数据与大数据之间进行关联数据挖掘，从而产生只由小数据或只由大数据无法识别或生成的幽默，这种幽默就是基于大数据与小数据的机器人幽默识别和生成的结果。

S102、从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据。

小数据是与用户对话过程中特有的个性化数据，在一次对话过程中，通过不同途径能获得多个小数据，例如用户话语、用户属性、对话场景、对话时间、对话地点、机器人属性等等。

这些小数据中用户话语是核心的小数据，如果机器人的答复完全否定用户的话语(就是与用户话语完全负相关的答复，即“牛头不对马嘴”)，不但不会产生幽默的效果，反而会让用户觉得机器人在胡言乱语、答非所问，因此需要肯定全部或部分用户话语(就是与用户话语全部或部分正相关的答复)，才能使得用户产生共鸣，成为幽默的基础。

因此，本实施例在步骤S101获取用户的数据中提取全部或部分用户话语作为第一小数据，再提取全部或部分用户话语作为第二小数据，虽然这些小数据是幽默的基础，但又不能对所有已感知的小数据都肯定(就是与所有已感知的小数据都完全正相关的答复)，因为如果都肯定，那么就是一句普通的答复话语，谈不上幽默，所以需要对其中部分小数据进行否定，而这种否定部分又需要与前面的肯定部分进行统一和融合，从而实现对立统一的幽默。

S103、获取大数据。

大数据是由大量用户长期积累下来的数据，例如互联网大数据就是由无数互联网用户长期积累下来的数据，因此大数据对机器人及对话过程而言，属于外部数据，本实施例的机器人可以通过服务器获取大数据。

S104、从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集。

从大数据中分别获取与第一小数据、第二小数据有关的数据：从大数据中搜索出与第一小数据匹配度大于预设匹配度阈值的语句，以及搜索出与第二小数据匹配度大于预设匹配度阈值的语句；其中，大数据的某语句与小数据的匹配度指的是小数据在该语句中出现的字的个数除以小数据中字的个数。

对数据进行清洗：数据可能是一段话，由多个语句组成，将其中出现小数据中关键词的语句标记出来，如果某语句及其上句或下句都未被标记，则将该语句删去；或将其中出现小数据中关键词的语句标记出来，如果某语句未被标记，则将该语句删去；其中，语句指的是有一个句号结束的语句。

因此，步骤S104如图2所示，具体包括以下步骤：

S1041、获取大数据中所有语句与第一小数据的匹配度，以及与第二小数据的匹配度；

S1042、判断大数据中所有语句与第一小数据的匹配度是否大于预设匹配度阈值，以及与第二小数据的匹配度是否大于预设匹配度阈值；

S1043、获取与第一小数据的匹配度大于预设匹配度阈值的语句，以及与第二小数据的匹配度大于预设匹配度阈值的语句；

S1044、当与第一小数据匹配度大于预设匹配度阈值的语句、与第二小数据的匹配度大于预设匹配度阈值的语句中的某语句及其上句或下句都未被标记时，将该语句删除，否则，即某语句及其上句或下句的其中一个被标记，或其中两个被标记，或全部被标记，将该语句保留；

S1045、将与第一小数据匹配度大于预设匹配度阈值的语句中保留(即未被删除)的语句作为第一相关数据集，以及与第二小数据匹配度大于预设匹配度阈值的语句中保留(即未被删除)的语句作为第二相关数据集。

上述步骤S104的目的是为了减小后面的大数据相关挖掘的计算量，否则，大数据中每个数据都与小数据进行相关分析，计算量太大，是不可行的，而本实施例从中先获取相关数据集再进行相关挖掘，就变得可行了。

S105A、从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合。

正相关语句的挖掘，可以采用现有的对大数据进行相关性分析的技术来实现，也可以通过图3的方式实现，具体包括以下步骤：

S105A1、获取第一相关数据集中所有语句与第一小数据的正相关度，如图4所示，具体包括：

S105A11、获取第一小数据在大数据中相似语句的数量，作为第一数量，记为m；

S105A12、统计第一相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第二数量，记为n；

S105A13、统计该个数据与第一小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第三数量，记为o；

S105A14、根据第一数量m、该个数据的第二数量n和第三数量o，计算该个数据的正相关度，记为pc；

具体地，该个数据的正相关度pc，计算公式如下：

pc＝o/((m×n)^1/2) (1)

S105A2、判断第一相关数据集中所有语句与第一小数据的正相关度是否大于预设正相关度阈值；

S105A3、将与第一小数据的正相关度大于预设正相关度阈值的语句判定为正相关语句，并将正相关语句及其正相关度存入正相关语句集合，记为Z1；

正相关度足够大(即大于预设正相关度阈值)，说明正相关语句与第一小数据的组合属于大部分人的共识，从而使得幽默语句具有合理性。

S105B、从第二相关数据集中挖掘负相关语句，并将负相关语句及其负相关度存入负相关语句集合。

负相关语句的挖掘，可以采用现有的对大数据进行相关性分析的技术来实现，也可以通过图5的方式实现，具体包括以下步骤：

S105B1、获取第二相关数据集中所有语句与第二小数据的负相关度，如图6所示，具体包括：

获取第一小数据在大数据中相似语句的数量，作为第四数量，记为p；

统计第二相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第五数量，记为q；

统计该个数据与第二小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第六数量，记为r；

根据第四数量p、该个数据的第五数量q和第六数量r，计算该个数据的负相关度，记为nc；

具体地，该个数据的负相关度nc，计算公式如下：

nc＝1-r/((p×q)^1/2) (2)

S105B2、判断第二相关数据集中所有语句与第二小数据的负相关度是否大于预设负相关度阈值；

S105B3、将与第二小数据的负相关度大于预设负相关度阈值的语句判定为负相关语句，并将负相关语句及其负相关度存入负相关语句集合，记为Z2。

负相关度足够大(即大于预设负相关度阈值)，说明负相关语句与第二小数据的组合属于大部分人的非共识，从而使得幽默语句具有可笑性。

S106、根据正相关语句集合和负相关语句集合，获取幽默语句集合。

步骤S106如图7所示，具体包括以下步骤：

S1061A、从正相关语句集合Z1中获取一个正相关语句及其正相关度pc，本实施例采用正相关度为80％的正相关语句；

S1061B、从负相关语句集合Z2中获取一个负相关语句及其负相关度nc，本实施例采用负相关度为90％的负相关语句；

S1062、将获取的正相关语句和负相关语句组合形成的语句作为一个幽默语句；

S1063、将该幽默语句与第一小数据、第二小数据组合形成的语句作为统一语句；

S1064、统计该统一语句在大数据中相似数据的数量，作为该统一语句的第七数量，记为s；

S1065、根据该幽默语句对应的正相关语句的第三数量o、对应的负相关语句的第六数量r以及对应的统一语句的第七数量s，计算该幽默语句的正负统一相关度，记为uc；

具体地，该幽默语句的正负统一相关度uc，计算公式如下：

uc＝s/((o×r)^1/2) (3)

正负统一相关度，说明正负相关语句与第一小数据、第二小数据是相关的，从而使得幽默语句整体看起来不是拼凑的，而是有机组成的。

S1066、根据正相关度、负相关度和正负统一相关度，计算该幽默语句的幽默度h；

具体地，该幽默语句的幽默度h，计算公式如下：

((pc×nc)^1/2)×uc (4)

S1067、将幽默度大于预设幽默阈值的幽默语句及其幽默度存入幽默语句集合，记为Z。

步骤S105A、S105B和S106中的数量统计可以采用已有的mapreduce模型，利用hadoop或spark进行面向大数据的快速统计。

图7示出了幽默语句集合获取的简易示意图，从大数据X中挖掘出与第一小数据y1一致性(正相关)的语句集合Z1，采用的大数据分析过程记为Z1＝f(X,y1)，这对应着正相关阶段；从大数据X中挖掘出与第二小数据y2不一致性(负相关)的语句集合Z2，采用的大数据分析过程记为Z2＝g(X,y2)，这对应着对立统一幽默的负相关阶段；从大数据X中挖掘出与y1一致(正相关)但与y2不一致性(负相关)的语句集合Z，采用的大数据分析过程记为Z＝h(Z1,Z2)，这对应着对立统一幽默的对立统一阶段，即螺旋式上升为幽默识别和生成的阶段，这三个阶段的过程不是割裂的，而是相互影响、有机构成的。

图8示出了上述步骤S101～S106的简易示意图，将大数据X与第一小数据y1进行正相关分析，从大数据中挖掘得到Z1，然后将大数据X与第二小数据y2进行负相关性分析，从大数据中挖掘得到Z2，最后综合前2次相关性分析得到Z。

实施例2：

如图10所示，本实施例的基于大数据与小数据相关分析实现幽默的方法在实施例1的基础上，还包括：

S107、从幽默语句集合中选择幽默度最大的幽默语句，并进行输出，具体为：机器人从幽默语句集合中选择幽默度最大的幽默语句，通过文本和/或语音的方式输出给用户，这样用户就可以获得幽默程度和幽默水平都很高的幽默语句。

实施例3：

如图11所示，本实施例与实施例1或2的区别之处在于：步骤S1044、当与第一小数据匹配度大于预设匹配度阈值的语句、与第二小数据的匹配度大于预设匹配度阈值的语句中的某语句未被标记时，将该语句删除，否则，保留该语句。

实施例4：

如图12所示，本实施例提供了一种基于大数据与小数据相关分析实现幽默的系统，该系统应用于机器人中，包括用户数据获取模块101、小数据提取模块102、大数据获取模块103、相关数据集获取模块104、正相关语句挖掘模块105、负相关语句挖掘模块106和幽默语句集合获取模块107，各个模块的具体功能如下：

所述用户数据获取模块101，用于获取用户的数据；

所述小数据提取模块102，用于从用户的数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据；

所述大数据获取模块103，用于获取大数据；

所述相关数据集获取模块104，用于从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集；该模块的结构如图13所示，具体包括：

匹配度获取单元1041，用于获取大数据中所有语句与第一小数据的匹配度，以及与第二小数据的匹配度；其中，语句指的是有一个句号结束的语句，大数据的某语句与小数据的匹配度指的是小数据在该语句中出现的字的个数除以小数据中字的个数；

第一判断单元1042，用于判断大数据中所有语句与第一小数据的匹配度是否大于预设匹配度阈值，以及与第二小数据的匹配度是否大于预设匹配度阈值；

语句获取单元1043，用于获取与第一小数据的匹配度大于预设匹配度阈值的语句，以及与第二小数据的匹配度大于预设匹配度阈值的语句；

语句标记单元1044，用于将与第一小数据匹配度大于预设匹配度阈值的语句中出现第一小数据中关键词的语句进行标记，以及将与第二小数据匹配度大于预设匹配度阈值的语句中出现第二小数据中关键词的语句进行标记；

语句删除单元1045，用于当与第一小数据匹配度大于预设匹配度阈值的语句中某语句及其上句或下句都未被标记时，将该语句删除；或当与第一小数据匹配度大于预设匹配度阈值的语句中某语句未被标记时，将该语句删除；

相关数据集获取单元1046，用于将与第一小数据匹配度大于预设匹配度阈值的语句中未被删除的语句作为第一相关数据集，以及与第二小数据匹配度大于预设匹配度阈值的语句中未被删除的语句作为第二相关数据集。

所述正相关语句挖掘模块105，用于从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合；该模块的结构如图14所示，具体包括：

正相关度获取单元1051，用于获取第一相关数据集中所有语句与第一小数据的正相关度；该单元的结构如图15所示，具体包括：

第一数量获取子单元10511，获取第一小数据在大数据中相似语句的数量，作为第一数量；

第二数量统计子单元10512，统计第一相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第二数量；

第三数量统计子单元10513，用于统计该个数据与第一小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第三数量；

正相关度计算子单元10514，用于根据第一数量、该个数据的第二数量和第三数量，计算该个数据的正相关度；其中，所述该个数据的正相关度，具体计算公式为：该个数据的第三数量/((第一数量×该个数据的第二数量)^1/2)。

第二判断单元1052，用于判断第一相关数据集中所有语句与第一小数据的正相关度是否大于预设正相关度阈值；

正相关语句集合获取单元1053，用于将与第一小数据的正相关度大于预设正相关度阈值的语句判定为正相关语句，并将正相关语句及其正相关度存入正相关语句集合。

所述负相关语句挖掘模块106，用于从第二相关数据集中挖掘负相关语句，并将负相关语句及其正相关度存入负相关语句集合；该模块的结构如图16所示，具体包括：

负相关度获取单元1061，用于获取第二相关数据集中所有语句与第二小数据的负相关度；该单元的结构如图17所示，具体包括：

第四数量获取子单元10611，用于获取第一小数据在大数据中相似语句的数量，作为第四数量；

第五数量统计子单元10612，用于统计第二相关数据集中每个数据在大数据中相似数据的数量，作为该个数据的第五数量；

第六数量统计子单元10613，用于统计该个数据与第二小数据进行合并后得到的数据在大数据中相似数据的数量，作为该个数据的第六数量；

负相关度计算子单元10614，用于根据第四数量、该个数据的第五数量和第六数量，计算该个数据的负相关度；其中，所述该个数据的负相关度，具体计算公式为：1-该个数据的第六数量/((第四数量×该个数据的第五数量)^1/2)。

第三判断单元1062，用于判断第二相关数据集中所有语句与第二小数据的负相关度是否大于预设负相关度阈值；

负相关语句集合获取单元1063，用于将与第二小数据的负相关度大于预设负相关度阈值的语句判定为负相关语句，并将负相关语句及其负相关度存入负相关语句集合。

所述幽默语句集合获取模块107，用于根据正相关语句集合和负相关语句集合，获取幽默语句集合；该模块的结构如图18所示，具体包括：

正相关语句及其正相关度获取单元1071，用于从正相关语句集合中获取一个正相关语句及其正相关度；

负相关语句及其负相关度获取单元1072，用于从负相关语句集合中获取一个负相关语句及其负相关度；

幽默语句获取单元1073，用于将获取的正相关语句和负相关语句组合形成的语句作为一个幽默语句；

统一语句获取单元1074，用于将该幽默语句与第一小数据、第二小数据组合形成的语句作为统一语句；

第七数量统计单元1075，用于统计该统一语句在大数据中相似数据的数量，作为该统一语句的第七数量；

正负统一相关度计算单元1076，用于根据该幽默语句对应的正相关语句的第三数量、对应的负相关语句的第六数量以及对应的统一语句的第七数量，计算该幽默语句的正负统一相关度；其中，所述该幽默语句的正负统一相关度，具体计算公式为：该幽默语句对应的统一语句的第七数量/((该幽默语句对应的正相关语句的第三数量×该幽默语句对应的负相关语句的第六数量)^1/2)；

幽默度计算单元1077，用于根据正相关度、负相关度和正负统一相关度，计算该幽默语句的幽默度；其中，该幽默语句的幽默度，具体计算公式为：(正相关度×负相关度)^1/2))×正负统一相关度；

幽默语句集合获取单元1078，用于将幽默度大于预设幽默阈值的幽默语句及其幽默度存入幽默语句集合。

实施例5：

如图19所示，本实施例的基于大数据与小数据相关分析实现幽默的系统在实施例3的基础上，还包括：

幽默语句输出模块108，用于从幽默语句集合中选择幽默度最大的幽默语句，并进行输出，具体为：机器人从幽默语句集合中选择幽默度最大的幽默语句，通过文本和/或语音的方式输出给用户，这样用户就可以获得幽默程度和幽默水平都很高的幽默语句。

本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

综上所述，本发明通过从获取的用户数据中提取部分数据作为第一小数据，再提取部分数据作为第二小数据，将大数据与第一小数据进行正相关分析，从大数据中挖掘得到正相关语句集合，然后将大数据与第二小数据进行负相关性分析，从大数据中挖掘得到负相关语句集合，根据正相关语句集合和负相关语句集合，得到幽默语句集合，以实现对立统一的幽默，不仅可以提高机器人的幽默程度和幽默水平，而且用户也可以产生共鸣。

以上所述，仅为本发明专利优选的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述方法应用于机器人中，包括：

获取用户的数据；

获取大数据；

2.根据权利要求1所述的基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述从大数据中分别获取与第一小数据、第二小数据有关的数据，进行清洗后，分别作为第一相关数据集和第二相关数据集，具体包括：

将与第一小数据匹配度大于预设匹配度阈值的语句中出现第一小数据中关键词的语句进行标记，以及将与第二小数据匹配度大于预设匹配度阈值的语句中出现第二小数据中关键词的语句进行标记；

3.根据权利要求1所述的基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述从第一相关数据集中挖掘正相关语句，并将正相关语句及其正相关度存入正相关语句集合，具体包括：

获取第一相关数据集中所有语句与第一小数据的正相关度；

获取第二相关数据集中所有语句与第二小数据的负相关度；

4.根据权利要求3所述的基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述获取第一相关数据集中所有语句与第一小数据的正相关度，具体包括：

5.根据权利要求4所述的基于大数据与小数据相关分析实现幽默的方法，其特征在于：所述根据正相关语句集合和负相关语句集合，获取幽默语句集合，具体包括：

从正相关语句集合中获取一个正相关语句及其正相关度；

从负相关语句集合中获取一个负相关语句及其负相关度；

6.基于大数据与小数据相关分析实现幽默的系统，其特征在于：所述系统应用于机器人中，包括：

用户数据获取模块，用于获取用户的数据；

大数据获取模块，用于获取大数据；

7.根据权利要求6所述的基于大数据与小数据相关分析实现幽默的系统，其特征在于：所述相关数据集获取模块，具体包括：

8.根据权利要求6所述的基于大数据与小数据相关分析实现幽默的系统，其特征在于：所述正相关语句挖掘模块，具体包括：

所述负相关语句挖掘模块，具体包括：

9.根据权利要求8所述的基于大数据与小数据相关分析实现幽默的系统，其特征在于：所述正相关度获取单元，具体包括：

所述负相关度获取单元，具体包括：

10.根据权利要求9所述的基于大数据与小数据相关分析实现幽默的系统，其特征在于：所述幽默语句集合获取模块，具体包括：