CN110909254A - 基于深度学习模型针对问答社区进行问题热度预测的方法和系统 - Google Patents

基于深度学习模型针对问答社区进行问题热度预测的方法和系统 Download PDF

Info

Publication number
CN110909254A
CN110909254A CN201911054515.9A CN201911054515A CN110909254A CN 110909254 A CN110909254 A CN 110909254A CN 201911054515 A CN201911054515 A CN 201911054515A CN 110909254 A CN110909254 A CN 110909254A
Authority
CN
China
Prior art keywords
question
answer
prediction
information
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911054515.9A
Other languages
English (en)
Other versions
CN110909254B (zh
Inventor
温志伟
梁上松
蒙在桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911054515.9A priority Critical patent/CN110909254B/zh
Publication of CN110909254A publication Critical patent/CN110909254A/zh
Application granted granted Critical
Publication of CN110909254B publication Critical patent/CN110909254B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深度学习模型针对问答社区进行问题热度预测的方法和系统。包括:S1.获取问答社区中的历史信息,对数据进行预处理,利用数据训练问题热度预测神经网络模型,问题热度预测模型利用了深度神经网络技术和点过程数学模型,包括一层后验注意力机制来建模问答社区的特点;待训练稳定后,可得到有最优参数的预测模型;S2.获取待预测问题的已有信息,包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息,这些信息将进行一定的预处理后输入到模型中,得出热度预测结果。本发明充分利用问答社区的历史数据,满足了需求方对预测结果更细致更准确的需求,使需求方可以根据预测出的问题热度提早采取相应的应对策略。

Description

基于深度学习模型针对问答社区进行问题热度预测的方法和 系统
技术领域
本发明属于计算机技术领域,更具体地,涉及一种基于深度学习模型针对问答社区进行问题热度预测的方法和系统。
背景技术
在线问答社区,比如说知乎、Quora、Stack Overflow等,提供了一个方便的平台让用户可以随时随地地提出他们的问题以及分享他们的回答。近几年,问答社区呈现出爆发式增长,并成为了用户交换和查找信息的重要在线平台。如何有效地利用问答社区中现有的数据来学习和预测一个问题的热度成为一个具有挑战性的研究课题。
发明人在实现本发明过程中发现,问题的热度预测对社区问答的经营和发展非常重要,这可以帮助问答社区的经营者更好地对内容进行排序、更好地发现问题热点趋势、更好地投放广告等。目前对问答社区中问题热度预测的技术方案非常少,现有的方法也只是对问题的热度进行简单的二分类预测,即判断给定问题是否热门,这种定性的分析非常简单粗糙,且该方法并没有使用深度学习模型,而是人工提取数据特征,过程繁琐,效率低下,效果不佳,难以实际投入使用。
现有技术只是简单地对问答社区中问题的热度进行二分类预测,即问题的预测结果要么是火爆,要么是不火爆,预测结果非常粗糙。这主要是由于问题的传播方式非常复杂,问题的热度受影响的因素非常多,而现有技术使用的人工特征提取技术既繁琐又效率低下,难以此进行有效地建模,从而只能对此类问题进行简单的定性分析。
发明内容
本发明为克服上述现有技术中的缺陷,提供一种基于深度学习模型针对问答社区进行问题热度预测的方法和系统,充分利用问答社区的历史数据,做出更准确的定量预测。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度学习模型针对问答社区进行问题热度预测的方法,包括以下步骤:
S1.获取问答社区中的历史信息,对这些数据进行预处理后,利用这些数据训练问题热度预测神经网络模型,所述问题热度预测模型利用了深度神经网络技术和点过程数学模型,并包括一层后验注意力机制来建模问答社区的特点;待训练稳定后,即可得到有最优参数的预测模型;
S2.获取待预测问题的已有信息,包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息,这些信息将进行一定的预处理后输入到模型中,得出热度预测结果。
进一步的,所述的步骤S1中,训练模型时具体包括以下步骤:
S11.数据预处理:获取问答社区中的历史信息,即现有的问题和回答信息,这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数;将这些信息进行一定的预处理后,得到模型的输入:
Figure BDA0002256204100000021
式中,Si表示第i个问题以及它的回答所形成的事件流,
Figure BDA0002256204100000022
表示该问题下第k个回答的发表时间,
Figure BDA0002256204100000023
表示该问题下第k个回答的文本信息以及关注回答发布者的人数信息;每个问题以及它的回答形成一个时间序列,作为后续输入;
S12.数据编码:将每个问答序列按顺序输入到一个编码神经网络中,该编码神经网络使用Doc2Vec技术对文本信息进行初步编码,再结合一个循环网络对所有信息进行编码,对每个问答流中的问题和回答都得到对应的固定长度的向量表示:
h={hk,k=1,...,N}
式中,h表示对第某个问答流中的数据进行编码的结果的集合,hk对应着该问答流中第k个回答的编码结果;
S13.解码阶段:该阶段维护着一个解码状态sk,用于记录前面的解码信息,k代表以前面k个回答进行热度预测;在进行第k步解码时计算出k个条件强度函数:
Figure BDA0002256204100000024
Figure BDA0002256204100000025
Figure BDA0002256204100000026
式中,fλ和fα分别代表两个不同的神经网络;计算结果表示第i个回答在当前解码状态sk下会产生一个强度为λ(i)(t)的点过程(一种常用于对事件流进行建模的随机过程);
S14.注意力机制:这一步用于增强神经网络的学习效果,在每次预测时,如在第k次预测时,都会有一个先验注意力分布Priork(i),i=1,...,k和后验注意力分布Postrk(i),i=1,...,k,它们都是多项分布,并且项数和当前输入数量相同,注意力分布可以看作是每个输入在进行问题热度预测时的权重,用先验注意力分布可以得到最终的条件强度函数:
Figure BDA0002256204100000031
当观察到新的输入时,可以利用贝叶斯进行后验注意力的计算,并更新解码状态:
Figure BDA0002256204100000032
式中,RNN表示一个循环神经网络;
S15.预测问题热度:一个强度为λ(t)的点过程,其下一个事件发生的时间的期望为:
Figure BDA0002256204100000033
Figure BDA0002256204100000034
即为下一个回答出现时间的预测;
同样可以计算未来一段时间t内,事件发生数量的期望为:
Figure BDA0002256204100000035
式中,
Figure BDA0002256204100000036
即为未来t时间内新回答出现数量的预测;
S16.寻求最优参数:训练数据中包含真实的tk+1和Nt,可以计算模型的损失函数,即可通过后向传播算法来迭代更新参数;待模型稳定后,即可训练得到最优参数模型。
在本发明中,所述的S2步骤,在进行实际应用时,与步骤S11~S15相似。
进一步的,所述的S2步骤中问题热度预测具体包括:
S21.获取待预测问题以及该问题现有的回答,与步骤S11一样进行预处理,得到输入数据;
S22.将输入数据输入到模型中,得到条件强度函数λ(t)的预测;
S23.利用步骤S15中的公式得到下一个回答出现时间的预测,以及新回答数量的预测,其中回答数量的预测可按需要自定义预测时间的区间。
本发明还提供一种基于深度学习模型针对问答社区进行问题热度预测的系统,包括:
预处理模块:用于获取搜集到的历史数据,对其进行一定的预处理,包括对文本数据进行清洗,去掉冗余和非法字符,对时间戳信息和发布者被关注人数进行一定的量化操作,以适应后续操作;
编码模块:用于以预处理后的数据作为输入,利用深度神经网络进行编码,以获得固定长度的输入信息的特征向量表达;
解码模块:用于以编码模块的输出作为输入,利用深度神经网络进行解码,获得相应条件强度的预测;
注意力模块:用于以一种特殊的注意力机制对编码模块的输出进行再加工,得到最终的条件强度的预测;当观察到新数据时,对解码模块进行及时更新;
预测模块:用于对注意力模块给出的事件强度预测再进行两种不同的计算,得出下一个回答出现时间的预测以及未来一段时间回答数量的预测。
与现有技术相比,有益效果是:
1.本发明首次将深度学习模型用于对问答社区中问题热度的预测;
2.本发明利用深度学习自动提出数据中的特征,避免了以往方法中冗余繁琐低效的特征提取工作;
3.本发明利用对问答社区中的历史数据进行训练,理论上全部的历史数据都能用于训练模型,使得问题热度预测模型建立在大量的历史数据上,使得预测结果更加可信和准确;
4.本发明能对预测结果进行定量分析,既能预测新回答出现的时间,又能预测新回答的数量;
综上所述,本发明提供的技术方案能充分利用问答社区的历史数据,做出更准确的定量预测,满足了需求方对预测结果更细致更准确的需求,使需求方可以根据预测出的问题热度提早采取相应的应对策略。
附图说明
图1是本发明方法流程示意图。
图2是本发明系统结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
实施例1:
如图1所示,一种基于深度学习模型针对问答社区进行问题热度预测的方法,包括以下步骤:
S1.获取问答社区中的历史信息,对这些数据进行预处理后,利用这些数据训练问题热度预测神经网络模型,所述问题热度预测模型利用了深度神经网络技术和点过程数学模型,并包括一层后验注意力机制来建模问答社区的特点;待训练稳定后,即可得到有最优参数的预测模型;
S2.获取待预测问题的已有信息,包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息,这些信息将进行一定的预处理后输入到模型中,得出热度预测结果。
具体的,所述的步骤S1中,训练模型时具体包括以下步骤:
S11.数据预处理:获取问答社区中的历史信息,即现有的问题和回答信息,这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数;将这些信息进行一定的预处理后,得到模型的输入:
Figure BDA0002256204100000051
式中,Si表示第i个问题以及它的回答所形成的事件流,
Figure BDA0002256204100000052
表示该问题下第k个回答的发表时间,
Figure BDA0002256204100000053
表示该问题下第k个回答的文本信息以及关注回答发布者的人数信息;每个问题以及它的回答形成一个时间序列,作为后续输入;
S12.数据编码:将每个问答序列按顺序输入到一个编码神经网络中,该编码神经网络使用Doc2Vec技术对文本信息进行初步编码,再结合一个循环网络对所有信息进行编码,对每个问答流中的问题和回答都得到对应的固定长度的向量表示:
h={hk,k=1,...,N}
式中,h表示对第某个问答流中的数据进行编码的结果的集合,hk对应着该问答流中第k个回答的编码结果;
S13.解码阶段:该阶段维护着一个解码状态sk,用于记录前面的解码信息,k代表以前面k个回答进行热度预测;在进行第k步解码时计算出k个条件强度函数:
Figure BDA0002256204100000061
Figure BDA0002256204100000062
Figure BDA0002256204100000063
式中,fλ和fα分别代表两个不同的神经网络;计算结果表示第i个回答在当前解码状态sk下会产生一个强度为λ(i)(t)的点过程(一种常用于对事件流进行建模的随机过程);
S14.注意力机制:这一步用于增强神经网络的学习效果,在每次预测时,如在第k次预测时,都会有一个先验注意力分布Priork(i),i=1,...,k和后验注意力分布Postrk(i),i=1,...,k,它们都是多项分布,并且项数和当前输入数量相同,注意力分布可以看作是每个输入在进行问题热度预测时的权重,用先验注意力分布可以得到最终的条件强度函数:
Figure BDA0002256204100000064
当观察到新的输入时,可以利用贝叶斯进行后验注意力的计算,并更新解码状态:
Figure BDA0002256204100000065
式中,RNN表示一个循环神经网络;
S15.预测问题热度:一个强度为λ(t)的点过程,其下一个事件发生的时间的期望为:
Figure BDA0002256204100000066
Figure BDA0002256204100000067
即为下一个回答出现时间的预测;
同样可以计算未来一段时间t内,事件发生数量的期望为:
Figure BDA0002256204100000068
式中,
Figure BDA0002256204100000071
即为未来t时间内新回答出现数量的预测;
S16.寻求最优参数:训练数据中包含真实的tk+1和Nt,可以计算模型的损失函数,即可通过后向传播算法来迭代更新参数;待模型稳定后,即可训练得到最优参数模型。
在本发明中,所述的S2步骤,在进行实际应用时,与步骤S11~S15相似。
另外,所述的S2步骤中问题热度预测具体包括:
S21.获取待预测问题以及该问题现有的回答,与步骤S11一样进行预处理,得到输入数据;
S22.将输入数据输入到模型中,得到条件强度函数λ(t)的预测;
S23.利用步骤S15中的公式得到下一个回答出现时间的预测,以及新回答数量的预测,其中回答数量的预测可按需要自定义预测时间的区间。
实施例2
如图2所示,一种基于深度学习模型针对问答社区进行问题热度预测的系统,系统包括:预处理模块、编码模块、解码模块、注意力模块、热度预测模块。下面结合图2中的各模块对本发明的预测方法作进一步说明.
步骤A:训练模型,获取问答社区中的历史信息,对这些数据进行预处理后,利用这些数据训练问题热度预测神经网络模型,所述问题热度预测模型利用了深度神经网络技术和点过程数学模型,并包括一层后验注意力机制来建模问答社区的特点。待训练稳定后,即可得到有最优参数的预测模型。
训练模型时具体包括以下步骤:
步骤A1:预处理模块进行数据预处理。获取问答社区中的历史信息,即现有的问题和回答信息,这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数,将这些信息进行一定的预处理后,得到模型的输入:
Figure BDA0002256204100000072
式中,Si表示第i个问题以及它的回答所形成的事件流,
Figure BDA0002256204100000073
表示该问题下第k个回答的发表时间,按照时间先后排序,
Figure BDA0002256204100000074
表示该问题下第k个回答的文本信息以及关注回答发布者的人数信息,每个问题以及它的回答形成一个时间序列,作为后续输入。
步骤A2:编码模块进行数据编码,将每个问答序列按顺序输入到一个编码神经网络中,该编码神经网络使用Doc2Vec技术对文本信息进行初步编码,再结合一个循环网络对所有信息进行编码,对每个问答流中的问题和回答都得到对应的固定长度的向量表示:
h={hk,k=1,...,N}
式中,h表示对第某个问答流中的数据进行编码的结果的集合,hk对应着该问答流中第k个回答的编码结果,即:
Figure BDA0002256204100000081
其中Encoder表示该编码模块。
步骤A3:解码模块进行解码阶段,该阶段维护着一个解码状态sk,用于记录前面的解码信息。在进行第k步解码时计算出k个条件强度函数:
Figure BDA0002256204100000082
Figure BDA0002256204100000083
Figure BDA0002256204100000084
式中,fλ和fα分别代表两个不同的神经网络,并且输出结果大于0。计算结果表示第i个回答在当前解码状态sk下会产生一个强度为λ(i)(t)的点过程(一种常用于对事件流进行建模的随机过程)。
步骤A4:注意力模块执行注意力机制。这一步用于增强神经网络的学习效果。在每次预测时,如在第k次预测时,都会有一个先验注意力分布Priork(i),i=1,...,k,和后验注意力分布Postrk(i),i=1,...,k,它们都是多项分布,并且项数和当前输入数量相同。注意力分布可以看作是每个输入在进行问题热度预测时的权重。用先验注意力分布可以得到最终的条件强度函数:
Figure BDA0002256204100000085
当观察到新的输入时,可以利用贝叶斯规则进行后验注意力的计算,并更新解码状态:
Figure BDA0002256204100000086
其中,RNN表示一个循环神经网络。
第k+1步的先验注意力分布Priork+1(i)由前一步的后验注意力分布Postrk(i)计算得到。
步骤A5:热度预测模块进行预测问题热度,一个强度为λ(t)的点过程,其下一个事件发生的时间的期望为:
Figure BDA0002256204100000091
式中,
Figure BDA0002256204100000092
即为下一个回答出现时间的预测。
同样可以计算未来一段时间t内,事件发生数量的期望为:
Figure BDA0002256204100000093
式中,
Figure BDA0002256204100000094
即为未来t时间内新回答出现数量的预测。
步骤A6:寻求最优参数。训练数据中包含真实的tk+1和Nt,可以计算模型的损失函数,然后通过后向传播算法来迭代更新参数。待模型稳定后,即可训练得到最优参数模型。步骤A结束。
步骤B:获取待预测问题的已有信息。包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息,这些信息将进行一定的预处理后输入到模型中,得出热度预测结果。
问题热度预测包括以下步骤:
步骤B1:获取待预测问题以及该问题现有的回答,与步骤A1一样进行预处理,得到输入数据。
步骤B2:将输入数据输入到模型中,得到条件强度函数λ(t)的预测。
步骤B3:利用步骤A5中的公式得到下一个回答出现时间的预测,以及新回答数量的预测,其中回答数量的预测可按需要自定义预测时间的区间。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于深度学习模型针对问答社区进行问题热度预测的方法,其特征在于,包括以下步骤:
S1.获取问答社区中的历史信息,对这些数据进行预处理后,利用这些数据训练问题热度预测神经网络模型,所述问题热度预测模型利用了深度神经网络技术和点过程数学模型,并包括一层后验注意力机制来建模问答社区的特点;待训练稳定后,即可得到有最优参数的预测模型;
S2.获取待预测问题的已有信息,包括该问题和已观察到的回答的文本信息、时间信息、回答撰写者的被关注人数信息,这些信息将进行一定的预处理后输入到模型中,得出热度预测结果。
2.根据权利要求1所述的基于深度学习模型针对问答社区进行问题热度预测的方法,其特征在于,所述的步骤S1中,训练模型时具体包括以下步骤:
S11.数据预处理:获取问答社区中的历史信息,即现有的问题和回答信息,这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数;
将这些信息进行一定的预处理后,得到模型的输入:
Figure FDA0002256204090000011
式中,Si表示第i个问题以及它的回答所形成的事件流,
Figure FDA0002256204090000012
表示该问题下第k个回答的发表时间,
Figure FDA0002256204090000013
表示该问题下第k个回答的文本信息以及关注回答发布者的人数信息;每个问题以及它的回答形成一个时间序列,作为后续输入;
S12.数据编码:将每个问答序列按顺序输入到一个编码神经网络中,该编码神经网络使用Doc2Vec技术对文本信息进行初步编码,再结合一个循环网络对所有信息进行编码,对每个问答流中的问题和回答都得到对应的固定长度的向量表示:
h={hk,k=1,...,N}
式中,h表示对第某个问答流中的数据进行编码的结果的集合,hk对应着该问答流中第k个回答的编码结果;
S13.解码阶段:该阶段维护着一个解码状态sk,用于记录前面的解码信息,k代表以前面k个回答进行热度预测;在进行第k步解码时计算出k个条件强度函数:
Figure FDA0002256204090000021
Figure FDA0002256204090000022
Figure FDA0002256204090000023
式中,fλ和fα分别代表两个不同的神经网络;计算结果表示第i个回答在当前解码状态sk下会产生一个强度为λ(i)(t)的点过程;
S14.注意力机制:在每次预测时,如在第k次预测时,都会有一个先验注意力分布Priork(i),i=1,...,k和后验注意力分布Postrk(i),i=1,...,k,它们都是多项分布,并且项数和当前输入数量相同,注意力分布可以看作是每个输入在进行问题热度预测时的权重,用先验注意力分布可以得到最终的条件强度函数:
Figure FDA0002256204090000024
当观察到新的输入时,可以利用贝叶斯法则进行后验注意力的计算,并更新解码状态:
Figure FDA0002256204090000025
式中,RNN表示一个循环神经网络;
S15.预测问题热度:一个强度为λ(t)的点过程,其下一个事件发生的时间的期望为:
Figure FDA0002256204090000026
Figure FDA0002256204090000027
即为下一个回答出现时间的预测;
同样可以计算未来一段时间t内,事件发生数量的期望为:
Figure FDA0002256204090000028
式中,
Figure FDA0002256204090000029
即为未来t时间内新回答出现数量的预测;
S16.寻求最优参数:训练数据中包含真实的tk+1和Nt,可以计算模型的损失函数,即可通过后向传播算法来迭代更新参数;待模型稳定后,即可训练得到最优参数模型。
3.根据权利要求2所述的基于深度学习模型针对问答社区进行问题热度预测的方法,其特征在于,所述的S2步骤中问题热度预测具体包括:
S21.获取待预测问题以及该问题现有的回答,与步骤S11一样进行预处理,得到输入数据;
S22.将输入数据输入到模型中,得到条件强度函数λ(t)的预测;
S23.利用步骤S15中的公式得到下一个回答出现时间的预测,以及新回答数量的预测,其中回答数量的预测可按需要自定义预测时间的区间。
4.一种基于深度学习模型针对问答社区进行问题热度预测的系统,其特征在于,包括:
预处理模块:用于获取搜集到的历史数据,对其进行一定的预处理,包括对文本数据进行清洗,去掉冗余和非法字符,对时间戳信息和发布者被关注人数进行一定的量化操作,以适应后续操作;
编码模块:用于以预处理后的数据作为输入,利用深度神经网络进行编码,以获得固定长度的输入信息的特征向量表达;
解码模块:用于以编码模块的输出作为输入,利用深度神经网络进行解码,获得相应条件强度的预测;
注意力模块:用于以一种特殊的注意力机制对编码模块的输出进行再加工,得到最终的条件强度的预测;当观察到新数据时,对解码模块进行及时更新;
预测模块:用于对注意力模块给出的事件强度预测再进行两种不同的计算,得出下一个回答出现时间的预测以及未来一段时间回答数量的预测。
5.根据权利要求4所述的基于深度学习模型针对问答社区进行问题热度预测的系统,其特征在于:所述的预处理模块在进行预处理时具体包括:
获取问答社区中的历史信息,即现有的问题和回答信息,这些信息包括问题和回答对应的文本信息、时间信息、发布者被关注的人数,将这些信息进行一定的预处理后,得到模型的输入:
Figure FDA0002256204090000031
式中,Si表示第i个问题以及它的回答所形成的事件流,
Figure FDA0002256204090000032
表示该问题下第k个回答的发表时间,按照时间先后排序,
Figure FDA0002256204090000033
表示该问题下第k个回答的文本信息以及关注回答发布者的人数信息,每个问题以及它的回答形成一个时间序列,作为后续输入。
6.根据权利要求5所述的基于深度学习模型针对问答社区进行问题热度预测的系统,其特征在于:所述的编码模块进行数据编码时具体包括:
将每个问答序列按顺序输入到一个编码神经网络中,该编码神经网络使用Doc2Vec技术对文本信息进行初步编码,再结合一个循环网络对所有信息进行编码,对每个问答流中的问题和回答都得到对应的固定长度的向量表示:
h={hk,k=1,...,N}
式中,h表示对第某个问答流中的数据进行编码的结果的集合,hk对应着该问答流中第k个回答的编码结果,即:
Figure FDA0002256204090000041
其中Encoder表示该编码模块。
7.根据权利要求6所述的基于深度学习模型针对问答社区进行问题热度预测的系统,其特征在于:所述的解码模块进行解码阶段时具体包括:
该阶段维护着一个解码状态sk,用于记录前面的解码信息;在进行第k步解码时计算出k个条件强度函数:
Figure FDA0002256204090000042
Figure FDA0002256204090000043
Figure FDA0002256204090000044
式中,fλ和fα分别代表两个不同的神经网络,并且输出结果大于0;计算结果表示第i个回答在当前解码状态sk下会产生一个强度为λ(i)(t)的点过程。
8.根据权利要求7所述的基于深度学习模型针对问答社区进行问题热度预测的系统,其特征在于:所述的注意力模块执行注意力机制时具体包括:
在每次预测时,如在第k次预测时,都会有一个先验注意力分布Priork(i),i=1,...,k,和后验注意力分布Postrk(i),i=1,...,k,它们都是多项分布,并且项数和当前输入数量相同;注意力分布可以看作是每个输入在进行问题热度预测时的权重;用先验注意力分布可以得到最终的条件强度函数:
Figure FDA0002256204090000045
当观察到新的输入时,可以利用贝叶斯规则进行后验注意力的计算,并更新解码状态:
Figure FDA0002256204090000046
其中,RNN表示一个循环神经网络;
第k+1步的先验注意力分布Priork+1(i)由前一步的后验注意力分布Postrk(i)计算得到。
9.根据权利要求8所述的基于深度学习模型针对问答社区进行问题热度预测的系统,其特征在于:所述的热度预测模块进行预测问题热度时具体包括:
一个强度为λ(t)的点过程,其下一个事件发生的时间的期望为:
Figure FDA0002256204090000051
式中,
Figure FDA0002256204090000052
即为下一个回答出现时间的预测。
同样可以计算未来一段时间t内,事件发生数量的期望为:
Figure FDA0002256204090000053
式中,
Figure FDA0002256204090000054
即为未来t时间内新回答出现数量的预测。
CN201911054515.9A 2019-10-31 2019-10-31 基于深度学习模型针对问答社区进行问题热度预测的方法和系统 Expired - Fee Related CN110909254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911054515.9A CN110909254B (zh) 2019-10-31 2019-10-31 基于深度学习模型针对问答社区进行问题热度预测的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911054515.9A CN110909254B (zh) 2019-10-31 2019-10-31 基于深度学习模型针对问答社区进行问题热度预测的方法和系统

Publications (2)

Publication Number Publication Date
CN110909254A true CN110909254A (zh) 2020-03-24
CN110909254B CN110909254B (zh) 2022-05-03

Family

ID=69816227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911054515.9A Expired - Fee Related CN110909254B (zh) 2019-10-31 2019-10-31 基于深度学习模型针对问答社区进行问题热度预测的方法和系统

Country Status (1)

Country Link
CN (1) CN110909254B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581382A (zh) * 2020-04-29 2020-08-25 北京航空航天大学 问答社区中的热门问题的预测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235343A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Predicting Interestingness of Questions in Community Question Answering
CN105635762A (zh) * 2016-01-15 2016-06-01 深圳大学 一种基于深度信念网络的视频热度预测方法及其系统
CN106651030A (zh) * 2016-12-21 2017-05-10 重庆邮电大学 一种改进的rbf神经网络热点话题用户参与行为预测方法
CN106899809A (zh) * 2017-02-28 2017-06-27 广州市诚毅科技软件开发有限公司 一种基于深度学习的视频剪辑方法和装置
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法
CN109871439A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种基于深度学习的问答社区问题路由方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235343A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Predicting Interestingness of Questions in Community Question Answering
CN105635762A (zh) * 2016-01-15 2016-06-01 深圳大学 一种基于深度信念网络的视频热度预测方法及其系统
CN106651030A (zh) * 2016-12-21 2017-05-10 重庆邮电大学 一种改进的rbf神经网络热点话题用户参与行为预测方法
CN106899809A (zh) * 2017-02-28 2017-06-27 广州市诚毅科技软件开发有限公司 一种基于深度学习的视频剪辑方法和装置
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法
CN109871439A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种基于深度学习的问答社区问题路由方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王一蕾等: ""基于深度神经网络的图像碎片化信息问答算法"", 《计算机研究与发展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581382A (zh) * 2020-04-29 2020-08-25 北京航空航天大学 问答社区中的热门问题的预测方法及系统
CN111581382B (zh) * 2020-04-29 2023-06-30 北京航空航天大学 问答社区中的热门问题的预测方法及系统

Also Published As

Publication number Publication date
CN110909254B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
Perez-Martin et al. Improving video captioning with temporal composition of a visual-syntactic embedding
CN110751318B (zh) 一种基于ipso-lstm的超短期电力负荷预测方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN111476285B (zh) 一种图像分类模型的训练方法及图像分类方法、存储介质
CN113011570A (zh) 一种卷积神经网络模型的自适应高精度压缩方法及系统
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN114528490B (zh) 一种基于用户长短期兴趣的自监督序列推荐方法
CN115424177A (zh) 一种基于增量学习的孪生网络目标跟踪的方法
CN115659966A (zh) 基于动态异构图和多级注意力的谣言检测方法及系统
CN114595635B (zh) 火电机组主汽温度数据的特征选择方法、系统及设备
CN113762591B (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN110909254B (zh) 基于深度学习模型针对问答社区进行问题热度预测的方法和系统
Reddy et al. Stock Market Prediction Using Recurrent Neural Network
CN118396151A (zh) 一种区分场景和模型的充电量预测方法与终端
CN116757369A (zh) 一种基于注意力机制的碳排放分析方法及系统
CN111723127A (zh) 基于文本摘要情感挖掘的股票趋势预测方法和系统
CN116433800A (zh) 基于社交场景用户偏好与文本联合指导的图像生成方法
CN112529637B (zh) 基于情景感知的服务需求动态预测方法及系统
Zhang et al. An attention-based deep network for CTR prediction
CN115391556A (zh) 基于跨粒度交叉注意力融合的实体关系抽取方法、系统
CN114565791A (zh) 一种人物档案识别方法、装置、设备及介质
CN114003270A (zh) 基于深度学习的软件安全漏洞修复者推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220503