CN110909254A

CN110909254A - 基于深度学习模型针对问答社区进行问题热度预测的方法和系统

Info

Publication number: CN110909254A
Application number: CN201911054515.9A
Authority: CN
Inventors: 温志伟; 梁上松; 蒙在桥
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-03-24
Anticipated expiration: 2039-10-31
Also published as: CN110909254B

Abstract

本发明涉及一种基于深度学习模型针对问答社区进行问题热度预测的方法和系统。包括：S1.获取问答社区中的历史信息，对数据进行预处理，利用数据训练问题热度预测神经网络模型，问题热度预测模型利用了深度神经网络技术和点过程数学模型，包括一层后验注意力机制来建模问答社区的特点；待训练稳定后，可得到有最优参数的预测模型；S2.获取待预测问题的已有信息，包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息，这些信息将进行一定的预处理后输入到模型中，得出热度预测结果。本发明充分利用问答社区的历史数据，满足了需求方对预测结果更细致更准确的需求，使需求方可以根据预测出的问题热度提早采取相应的应对策略。

Description

基于深度学习模型针对问答社区进行问题热度预测的方法和系统

技术领域

本发明属于计算机技术领域，更具体地，涉及一种基于深度学习模型针对问答社区进行问题热度预测的方法和系统。

背景技术

在线问答社区，比如说知乎、Quora、Stack Overflow等，提供了一个方便的平台让用户可以随时随地地提出他们的问题以及分享他们的回答。近几年，问答社区呈现出爆发式增长，并成为了用户交换和查找信息的重要在线平台。如何有效地利用问答社区中现有的数据来学习和预测一个问题的热度成为一个具有挑战性的研究课题。

发明人在实现本发明过程中发现，问题的热度预测对社区问答的经营和发展非常重要，这可以帮助问答社区的经营者更好地对内容进行排序、更好地发现问题热点趋势、更好地投放广告等。目前对问答社区中问题热度预测的技术方案非常少，现有的方法也只是对问题的热度进行简单的二分类预测，即判断给定问题是否热门，这种定性的分析非常简单粗糙，且该方法并没有使用深度学习模型，而是人工提取数据特征，过程繁琐，效率低下，效果不佳，难以实际投入使用。

现有技术只是简单地对问答社区中问题的热度进行二分类预测，即问题的预测结果要么是火爆，要么是不火爆，预测结果非常粗糙。这主要是由于问题的传播方式非常复杂，问题的热度受影响的因素非常多，而现有技术使用的人工特征提取技术既繁琐又效率低下，难以此进行有效地建模，从而只能对此类问题进行简单的定性分析。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种基于深度学习模型针对问答社区进行问题热度预测的方法和系统，充分利用问答社区的历史数据，做出更准确的定量预测。

为解决上述技术问题，本发明采用的技术方案是：一种基于深度学习模型针对问答社区进行问题热度预测的方法，包括以下步骤：

S1.获取问答社区中的历史信息，对这些数据进行预处理后，利用这些数据训练问题热度预测神经网络模型，所述问题热度预测模型利用了深度神经网络技术和点过程数学模型，并包括一层后验注意力机制来建模问答社区的特点；待训练稳定后，即可得到有最优参数的预测模型；

S2.获取待预测问题的已有信息，包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息，这些信息将进行一定的预处理后输入到模型中，得出热度预测结果。

进一步的，所述的步骤S1中，训练模型时具体包括以下步骤：

S11.数据预处理：获取问答社区中的历史信息，即现有的问题和回答信息，这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数；将这些信息进行一定的预处理后，得到模型的输入：

式中，Sⁱ表示第i个问题以及它的回答所形成的事件流，

表示该问题下第k个回答的发表时间，

表示该问题下第k个回答的文本信息以及关注回答发布者的人数信息；每个问题以及它的回答形成一个时间序列，作为后续输入；

S12.数据编码：将每个问答序列按顺序输入到一个编码神经网络中，该编码神经网络使用Doc2Vec技术对文本信息进行初步编码，再结合一个循环网络对所有信息进行编码，对每个问答流中的问题和回答都得到对应的固定长度的向量表示：

h＝{h_k,k＝1,...,N}

式中，h表示对第某个问答流中的数据进行编码的结果的集合，h_k对应着该问答流中第k个回答的编码结果；

S13.解码阶段：该阶段维护着一个解码状态s_k，用于记录前面的解码信息，k代表以前面k个回答进行热度预测；在进行第k步解码时计算出k个条件强度函数：

式中，f_λ和f_α分别代表两个不同的神经网络；计算结果表示第i个回答在当前解码状态s_k下会产生一个强度为λ⁽ⁱ⁾(t)的点过程(一种常用于对事件流进行建模的随机过程)；

S14.注意力机制：这一步用于增强神经网络的学习效果，在每次预测时，如在第k次预测时，都会有一个先验注意力分布Prior_k(i),i＝1,...,k和后验注意力分布Postr_k(i),i＝1,...,k，它们都是多项分布，并且项数和当前输入数量相同，注意力分布可以看作是每个输入在进行问题热度预测时的权重，用先验注意力分布可以得到最终的条件强度函数：

当观察到新的输入时，可以利用贝叶斯进行后验注意力的计算，并更新解码状态：

式中，RNN表示一个循环神经网络；

S15.预测问题热度：一个强度为λ(t)的点过程，其下一个事件发生的时间的期望为：

即为下一个回答出现时间的预测；

同样可以计算未来一段时间t内，事件发生数量的期望为：

式中，

即为未来t时间内新回答出现数量的预测；

S16.寻求最优参数：训练数据中包含真实的t_k+1和N_t，可以计算模型的损失函数，即可通过后向传播算法来迭代更新参数；待模型稳定后，即可训练得到最优参数模型。

在本发明中，所述的S2步骤，在进行实际应用时，与步骤S11～S15相似。

进一步的，所述的S2步骤中问题热度预测具体包括：

S21.获取待预测问题以及该问题现有的回答，与步骤S11一样进行预处理，得到输入数据；

S22.将输入数据输入到模型中，得到条件强度函数λ(t)的预测；

S23.利用步骤S15中的公式得到下一个回答出现时间的预测，以及新回答数量的预测，其中回答数量的预测可按需要自定义预测时间的区间。

本发明还提供一种基于深度学习模型针对问答社区进行问题热度预测的系统，包括：

预处理模块：用于获取搜集到的历史数据，对其进行一定的预处理，包括对文本数据进行清洗，去掉冗余和非法字符，对时间戳信息和发布者被关注人数进行一定的量化操作，以适应后续操作；

编码模块：用于以预处理后的数据作为输入，利用深度神经网络进行编码，以获得固定长度的输入信息的特征向量表达；

解码模块：用于以编码模块的输出作为输入，利用深度神经网络进行解码，获得相应条件强度的预测；

注意力模块：用于以一种特殊的注意力机制对编码模块的输出进行再加工，得到最终的条件强度的预测；当观察到新数据时，对解码模块进行及时更新；

预测模块：用于对注意力模块给出的事件强度预测再进行两种不同的计算，得出下一个回答出现时间的预测以及未来一段时间回答数量的预测。

与现有技术相比，有益效果是：

1.本发明首次将深度学习模型用于对问答社区中问题热度的预测；

2.本发明利用深度学习自动提出数据中的特征，避免了以往方法中冗余繁琐低效的特征提取工作；

3.本发明利用对问答社区中的历史数据进行训练，理论上全部的历史数据都能用于训练模型，使得问题热度预测模型建立在大量的历史数据上，使得预测结果更加可信和准确；

4.本发明能对预测结果进行定量分析，既能预测新回答出现的时间，又能预测新回答的数量；

综上所述，本发明提供的技术方案能充分利用问答社区的历史数据，做出更准确的定量预测，满足了需求方对预测结果更细致更准确的需求，使需求方可以根据预测出的问题热度提早采取相应的应对策略。

附图说明

图1是本发明方法流程示意图。

图2是本发明系统结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

实施例1：

如图1所示，一种基于深度学习模型针对问答社区进行问题热度预测的方法，包括以下步骤：

具体的，所述的步骤S1中，训练模型时具体包括以下步骤：

式中，Sⁱ表示第i个问题以及它的回答所形成的事件流，

表示该问题下第k个回答的发表时间，

h＝{h_k,k＝1,...,N}

式中，RNN表示一个循环神经网络；

即为下一个回答出现时间的预测；

同样可以计算未来一段时间t内，事件发生数量的期望为：

式中，

即为未来t时间内新回答出现数量的预测；

另外，所述的S2步骤中问题热度预测具体包括：

实施例2

如图2所示，一种基于深度学习模型针对问答社区进行问题热度预测的系统，系统包括：预处理模块、编码模块、解码模块、注意力模块、热度预测模块。下面结合图2中的各模块对本发明的预测方法作进一步说明.

步骤A：训练模型，获取问答社区中的历史信息，对这些数据进行预处理后，利用这些数据训练问题热度预测神经网络模型，所述问题热度预测模型利用了深度神经网络技术和点过程数学模型，并包括一层后验注意力机制来建模问答社区的特点。待训练稳定后，即可得到有最优参数的预测模型。

训练模型时具体包括以下步骤：

步骤A1：预处理模块进行数据预处理。获取问答社区中的历史信息，即现有的问题和回答信息，这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数，将这些信息进行一定的预处理后，得到模型的输入：

式中，Sⁱ表示第i个问题以及它的回答所形成的事件流，

表示该问题下第k个回答的发表时间，按照时间先后排序，

表示该问题下第k个回答的文本信息以及关注回答发布者的人数信息，每个问题以及它的回答形成一个时间序列，作为后续输入。

步骤A2：编码模块进行数据编码，将每个问答序列按顺序输入到一个编码神经网络中，该编码神经网络使用Doc2Vec技术对文本信息进行初步编码，再结合一个循环网络对所有信息进行编码，对每个问答流中的问题和回答都得到对应的固定长度的向量表示：

h＝{h_k,k＝1,...,N}

式中，h表示对第某个问答流中的数据进行编码的结果的集合，h_k对应着该问答流中第k个回答的编码结果，即：

其中Encoder表示该编码模块。

步骤A3：解码模块进行解码阶段，该阶段维护着一个解码状态s_k，用于记录前面的解码信息。在进行第k步解码时计算出k个条件强度函数：

式中，f_λ和f_α分别代表两个不同的神经网络,并且输出结果大于0。计算结果表示第i个回答在当前解码状态s_k下会产生一个强度为λ⁽ⁱ⁾(t)的点过程(一种常用于对事件流进行建模的随机过程)。

步骤A4:注意力模块执行注意力机制。这一步用于增强神经网络的学习效果。在每次预测时，如在第k次预测时，都会有一个先验注意力分布Prior_k(i),i＝1,...,k,和后验注意力分布Postr_k(i),i＝1,...,k，它们都是多项分布，并且项数和当前输入数量相同。注意力分布可以看作是每个输入在进行问题热度预测时的权重。用先验注意力分布可以得到最终的条件强度函数：

当观察到新的输入时，可以利用贝叶斯规则进行后验注意力的计算，并更新解码状态：

其中，RNN表示一个循环神经网络。

第k+1步的先验注意力分布Prior_k+1(i)由前一步的后验注意力分布Postr_k(i)计算得到。

步骤A5：热度预测模块进行预测问题热度，一个强度为λ(t)的点过程，其下一个事件发生的时间的期望为：

式中，

即为下一个回答出现时间的预测。

同样可以计算未来一段时间t内，事件发生数量的期望为：

式中，

即为未来t时间内新回答出现数量的预测。

步骤A6：寻求最优参数。训练数据中包含真实的t_k+1和N_t，可以计算模型的损失函数，然后通过后向传播算法来迭代更新参数。待模型稳定后，即可训练得到最优参数模型。步骤A结束。

步骤B：获取待预测问题的已有信息。包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息，这些信息将进行一定的预处理后输入到模型中，得出热度预测结果。

问题热度预测包括以下步骤：

步骤B1：获取待预测问题以及该问题现有的回答，与步骤A1一样进行预处理，得到输入数据。

步骤B2：将输入数据输入到模型中，得到条件强度函数λ(t)的预测。

步骤B3：利用步骤A5中的公式得到下一个回答出现时间的预测，以及新回答数量的预测，其中回答数量的预测可按需要自定义预测时间的区间。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习模型针对问答社区进行问题热度预测的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习模型针对问答社区进行问题热度预测的方法，其特征在于，所述的步骤S1中，训练模型时具体包括以下步骤：

S11.数据预处理：获取问答社区中的历史信息，即现有的问题和回答信息，这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数；

将这些信息进行一定的预处理后，得到模型的输入：

式中，Sⁱ表示第i个问题以及它的回答所形成的事件流，

表示该问题下第k个回答的发表时间，

h＝{h_k,k＝1,...,N}

式中，f_λ和f_α分别代表两个不同的神经网络；计算结果表示第i个回答在当前解码状态s_k下会产生一个强度为λ⁽ⁱ⁾(t)的点过程；

S14.注意力机制：在每次预测时，如在第k次预测时，都会有一个先验注意力分布Prior_k(i),i＝1,...,k和后验注意力分布Postr_k(i),i＝1,...,k，它们都是多项分布，并且项数和当前输入数量相同，注意力分布可以看作是每个输入在进行问题热度预测时的权重，用先验注意力分布可以得到最终的条件强度函数：

当观察到新的输入时，可以利用贝叶斯法则进行后验注意力的计算，并更新解码状态：

式中，RNN表示一个循环神经网络；

即为下一个回答出现时间的预测；

同样可以计算未来一段时间t内，事件发生数量的期望为：

式中，

即为未来t时间内新回答出现数量的预测；

3.根据权利要求2所述的基于深度学习模型针对问答社区进行问题热度预测的方法，其特征在于，所述的S2步骤中问题热度预测具体包括：

4.一种基于深度学习模型针对问答社区进行问题热度预测的系统，其特征在于，包括：

5.根据权利要求4所述的基于深度学习模型针对问答社区进行问题热度预测的系统，其特征在于：所述的预处理模块在进行预处理时具体包括：

获取问答社区中的历史信息，即现有的问题和回答信息，这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数，将这些信息进行一定的预处理后，得到模型的输入：

式中，Sⁱ表示第i个问题以及它的回答所形成的事件流，

表示该问题下第k个回答的发表时间，按照时间先后排序，

6.根据权利要求5所述的基于深度学习模型针对问答社区进行问题热度预测的系统，其特征在于：所述的编码模块进行数据编码时具体包括：

将每个问答序列按顺序输入到一个编码神经网络中，该编码神经网络使用Doc2Vec技术对文本信息进行初步编码，再结合一个循环网络对所有信息进行编码，对每个问答流中的问题和回答都得到对应的固定长度的向量表示：

h＝{h_k,k＝1,...,N}

其中Encoder表示该编码模块。

7.根据权利要求6所述的基于深度学习模型针对问答社区进行问题热度预测的系统，其特征在于：所述的解码模块进行解码阶段时具体包括：

该阶段维护着一个解码状态s_k，用于记录前面的解码信息；在进行第k步解码时计算出k个条件强度函数：

式中，f_λ和f_α分别代表两个不同的神经网络,并且输出结果大于0；计算结果表示第i个回答在当前解码状态s_k下会产生一个强度为λ⁽ⁱ⁾(t)的点过程。

8.根据权利要求7所述的基于深度学习模型针对问答社区进行问题热度预测的系统，其特征在于：所述的注意力模块执行注意力机制时具体包括：

在每次预测时，如在第k次预测时，都会有一个先验注意力分布Prior_k(i),i＝1,...,k,和后验注意力分布Postr_k(i),i＝1,...,k，它们都是多项分布，并且项数和当前输入数量相同；注意力分布可以看作是每个输入在进行问题热度预测时的权重；用先验注意力分布可以得到最终的条件强度函数：

其中，RNN表示一个循环神经网络；

9.根据权利要求8所述的基于深度学习模型针对问答社区进行问题热度预测的系统，其特征在于：所述的热度预测模块进行预测问题热度时具体包括：

一个强度为λ(t)的点过程，其下一个事件发生的时间的期望为：

式中，

即为下一个回答出现时间的预测。

同样可以计算未来一段时间t内，事件发生数量的期望为：

式中，

即为未来t时间内新回答出现数量的预测。