发明内容
本公开为了解决上述问题,提供了一种基于新闻事件的科研方向推荐方法及系统,所述方案基于新闻事件生成与科研人员科研方向间关联的逻辑依赖链,使科研工作人员实时快速地跟踪与自己研究领域相关的社会热点事件,同时,使科研工作人员更加容易的了解热点事件与自身关注技术的逻辑关系,更加容易总结热点事件在技术领域的应用需求。
根据本公开实施例的第一个方面,提供了一种基于新闻事件的科研方向推荐方法,包括:
获取新闻事件中的热点主题词,并获取热点主题词对应的主题文章;
基于所述主题文章计算热点主题词的热量值;对于热量值超过预设阈值的每个热点主题词,基于热量传导原理生成与其相关的其他主题词;
获取其他主题词集合与待推荐人员所订阅主题词集合的共有主题词;对于每个共有主题词,根据时序及主题词关联度形成所述热点主题词与所述共有主题词间的逻辑依赖链;
基于获得的逻辑依赖链实现科研方向的推荐。
进一步的,所述获取当前热点主题词对应的主题文章,具体为基于获取的每个热点主题词,通过数据爬虫爬取包含有当前热点主题词的文章;基于LDA 方法确定当前热点主题词在文章中的权重;当所述权重满足第一预设阈值要求时,则该文章为当前热点主题词的主题文章。
进一步的,所述根据时序及主题词关联度形成所述热点主题词与所述共有主题词间的逻辑依赖链,具体为:计算当前热点主题词及其相关的其他关键词热量最高时刻;以每个共有主题词作为逻辑依赖链最后一个主题词,基于直接依赖词查找方法依次生成所述共有主题词的直接依赖词及间接依赖词,直至间接依赖词为当前热点主题词,获得最终的逻辑依赖链。
根据本公开实施例的第二个方面,提供了一种基于新闻事件的科研方向推荐系统,包括:
热点事件获取模块,其用于获取新闻事件中的热点主题词,并获取热点主题词对应的主题文章;
主题矩阵模块,其用于基于所述主题文章计算热点主题词的热量值;对于热量值超过预设阈值的每个热点主题词,基于热量传导原理生成与其相关的其他主题词;
逻辑依赖链生成模块,其用于获取其他主题词集合与待推荐人员所订阅主题词集合的共有主题词;对于每个共有主题词,根据时序及主题词关联度形成所述热点主题词与所述共有主题词间的逻辑依赖链;
科研方向推荐模块,其用于基于获得的逻辑依赖链实现科研方向的推荐。
根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于新闻事件的科研方向推荐方法。
根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于新闻事件的科研方向推荐方法。
与现有技术相比,本公开的有益效果是:
(1)本公开所述方案提供了一种基于新闻事件的科研方向推荐方法及系统,所述方案基于新闻事件中的热点主题词,利用热量传导原理生成与其相关的其他主题词,并根据时序及主题词关联度生成所述热点主题词与科研工作人员订阅主题词间的逻辑依赖链;基于获得的逻辑依赖链实现科研方向的推荐;可以使科研工作人员实时快速地跟踪与自己研究领域相关的社会热点事件。
(2)所述方案通过逻辑依赖链可以使科研工作人员更加容易的了解热点事件与自身关注技术的逻辑关系,更加容易总结热点事件在技术领域的应用需求。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
具体实施方式
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一:
本实施例的目的是提供一种基于新闻事件的科研方向推荐方法。
如图1所示,一种基于新闻事件的科研方向推荐方法,包括:
获取新闻事件中的热点主题词,并获取热点主题词对应的主题文章;
基于所述主题文章计算热点主题词的热量值;对于热量值超过预设阈值的每个热点主题词,基于热量传导原理生成与其相关的其他主题词;
获取其他主题词集合与待推荐人员所订阅主题词集合的共有主题词;对于每个共有主题词,根据时序及主题词关联度形成所述热点主题词与所述共有主题词间的逻辑依赖链;
基于获得的逻辑依赖链实现科研方向的推荐。
具体的,为了便于理解,以下结合具体实例对本公开所述方案进行详细说明:
步骤1:获取新闻事件中的热点主题词,并获取热点主题词对应的主题文章;其主要获得当前社会热点事件的热点主题词,以及该以热点主题词为主要主题的文章。例如,获得当前一个周期的一个热点搜索词,将该热点搜索词推送给主题矩阵模块。并收集以该热点搜索词为主要主题词的新闻文章。
具体的,所述步骤1包括:
(1)在搜索引擎网站,获取一个周期的关键词搜索排名。对排名前n的每个关键词做以下步骤:
(2)设其中一个关键词为ki,利用爬虫工具搜索下载该周期内含有ki的新闻文章。
(3)设h为一篇含有ki的新闻文章。基于LDA技术对h进行分析,若h中ki的权重最高,则认为h是ki的主题文章。
(4)若h是ki的主题文章,将h标识为并加入主题文章库。设ki的主题文章的集合为/>
(5)设主题词ki的热量为ei,则其中,wh为ki在文章h中的 LDA权重,ch为文章h的浏览量。
(6)设γ为主题词最小热量阈值(即第一预设阈值,可根据实际需求自行设定)。若ei>γ,则认为ki是一个关注度较高事件的主题词,对ki的逻辑依赖链进行挖掘,将ki传递依次给主题矩阵模块;否则舍弃ki。
步骤2:基于所述主题文章计算热点主题词的热量值;对于热量值超过预设阈值的每个热点主题词,基于热量传导原理生成与其相关的其他主题词;其主要负责生成与当前热点主题词相关的其他主题词,并将其他主题词对应的主题文章加入主题文章库。
具体的,所述步骤2具体包括:
(1)用W表示待为传导主题词库,待传导主题词库W是临时词库,用以存储初始的热点主题关键词与间接传导的主题关键词。W初始为空。将接收的一个热点主题关键词kx加入待传导主题词库W。将kx加入事件主题词库Kx。
(2)若W为空,结束。
(3)若W不为空,从W取出一个主题词,设为ki。将ki的热量传导到其他主题词。设kj为任意一个主题词,kj∈K-ki,其中K为全部主题词库。所述全部主题词库是指自然语言中所有的词语,可以通过国家语委现代汉语语料库获取,也可以通过第三方的自然语言科研机构获得。其中,kj被ki传导的热量设为ej,则其中wi、wj为ki在文章h中ki、kj的LDA权重。
(4)若(其中,/>即第二预设阈值),则认为kj是ki的一个传递主题词,将其加入主题词库Kx;同时,通过爬虫系统搜索下载该周期内含有kj的新闻文章,形成kj的主题文章的集合为/>其中g为主题传导的代次数,例如kj是通过搜索引擎排序获得主题词直接传递得到的,则g=1;若kj是通过搜索引擎排序获得主题词两次传递(间接)得到的,则g=2。若/>则舍弃kj。
(5)将kj加入W,返回2)继续执行。
步骤结束后得到的Kx即为kx相关的其他主题词,将Kx发送给逻辑依赖链生成模块生成kx的逻辑依赖链。
步骤3:获取其他主题词集合与待推荐人员所订阅主题词集合的共有主题词;对于每个共有主题词,根据时序及主题词关联度形成所述热点主题词与所述共有主题词间的逻辑依赖链;其主要负责生成从热点词到科技工作者关注领域的逻辑依赖链。形成“热点词》X1》X2》…》Xn》技术领域词”形成的逻辑依赖链供科技工作者参考。
具体的,所述步骤3具体包括:
(1)设科技工作者的订阅的主题词集合为S。
(2)若则说明kx代表的新闻事件与科技工作者所涉及的领域相关。应挖掘Kx∩S中主题词与kx的逻辑依赖链。
(3)若则说明kx代表的新闻事件与科技工作者所涉及的领域不相关。不再挖掘kx与科技工作者所涉及的领域的依赖关系。转到主题矩阵模块挖掘继续挖掘其他的kx。
(4)对于所有的ks∈Kx∩S(即所述共有主题词)执行5)至8)步骤。
(5)设kx为此次挖掘的热点事件的主题词,设H为kx以及kx相关主题词的主题文章集合,即
(6)计算所有Kx中主题词热量最高时刻,设kj|kj∈Kx热量最高的时刻为tj。把周期分为若干个时间段,在ty时间段内,kj的热量为 是指在 ty时间段内含主题kj的文章。热量最高时刻即为tj=ty|max(ey)。
(7)设Ls为ks的依赖链,ks为Ls最后一个主题词,也即科技工作者订阅的主题词。基于直接依赖词查找方法(在第8步说明)依次生成ks直接依赖词、第一间接依赖、第二间接依赖……,直到依赖词为kx,则Ls结束完成。Ls生成完毕后,其形式为Ls=kx>>…ki>>…>>ks。其中,ki是ki+1的直接依赖主题词。
其中,所述ki的直接依赖词查找方法如下:
a)Kx=Kx-ki。
b)对于所有kj∈Kx且tj<ti,计算kj与时间ki关联度mi,j,其中,Hi,j为H中在(tj-α,ti+α)时段同时含有ki与kj主题文章的集合,α是时间松弛系数。hi,j为Hi,j一篇文章,wi与wj为hi,j中ki与kjLDA 权重。其中,Ti,j=tj-ti+2α。其中,/>为hi,j的点击量。
c)ki的直接依赖词为kd=kj|max(mi,j),kj∈Kx。
步骤4:基于获得的逻辑依赖链实现科研方向的推荐,其主要负责根据逻辑依赖链推荐科研方向,即将逻辑依赖链推送给科技工作者,并附上该主题的热门文章。
实施例二:
本实施例的目的是提供一种基于新闻事件的科研方向推荐系统。
一种基于新闻事件的科研方向推荐系统,包括:
热点事件获取模块,其用于获取新闻事件中的热点主题词,并获取热点主题词对应的主题文章;
主题矩阵模块,其用于基于所述主题文章计算热点主题词的热量值;对于热量值超过预设阈值的每个热点主题词,基于热量传导原理生成与其相关的其他主题词;
逻辑依赖链生成模块,其用于获取其他主题词集合与待推荐人员所订阅主题词集合的共有主题词;对于每个共有主题词,根据时序及主题词关联度形成所述热点主题词与所述共有主题词间的逻辑依赖链;
科研方向推荐模块,其用于基于获得的逻辑依赖链实现科研方向的推荐。
具体的,为了便于理解,以下结合附图对本公开所述方案进行详细说明:
如图2所示,本公开所述系统实现主要依赖热点事件获取模块、主题矩阵模块、逻辑依赖生成模块、科研方向推荐模块。
热点事件获取模块负责获得当前社会热点事件的热点主题词,以及该以热点主题词为主要主题的文章。所述热点事件获取模块用主题词代表热点事件,搜索下载以主题词ki为主要主题的文章,然后计算ki的热量,对于热量较大的ki才进行后续的挖掘;热量小的关键词说明其代表热点事件并不是一个具有广泛社会效应的事件,从而舍弃。
主题矩阵模块负责生成与热点主题词相关的其他主题词,并将与热点事件的相关的新闻加入主题文章库。所述主题矩阵模块接收热点事件获取模块的热点主题关键词,并模拟热量传导原理寻找与该热点主题关键词相关的其他主题词。
逻辑依赖链生成模块负责生成从热点词到科技工作者关注领域的逻辑依赖链。形成“热点词》X1》X2》…》Xn》技术领域词”形成的逻辑依赖链供科技工作者参考。所述逻辑依赖链生成模块首先计算各主题词热量最高的时刻,再根据时序及主题相关度形成kx与科技工作者关注主题的逻辑依赖链。
科研方向推荐负责管理科技工作者的关注领域,并根据逻辑依赖链推荐科研方向文章。所述科研方向推荐模块向科技工作者推送基于前面介绍的三个模块生成的逻辑依赖链。具体的,若ks为科技工作者订阅主题词,且Ls成功生成,则推送。在推送的时候,Ls上每个主题词可以附上点击量较大且与前后主题密切相关的文章超链接。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASI C,现成可编程门阵列 FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述实施例提供的一种基于新闻事件的科研方向推荐方法及系统可以实现,具有广阔的应用前景。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。