CN111723578B

CN111723578B - 基于随机游走模型的热点预测方法、装置和计算机设备

Info

Publication number: CN111723578B
Application number: CN202010518745.2A
Authority: CN
Inventors: 曹立宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2023-11-17
Anticipated expiration: 2040-06-09
Also published as: CN111723578A; WO2021139102A1

Abstract

本申请涉及人工智能，揭示了一种基于随机游走模型的热点预测方法、装置和计算机设备，其中方法包括：获取记载有指定知识的文献数据；提取所述文献数据中预设的实体名称，以及确定各所述实体名称在文献数据中的关联关系；将所述关联关系输入到预设的随机游走模型中，计算各所述实体名称之间的连接概率；根据所述连接概率确定所述热点。本申请首次将随机模型应用到热点的预测领域，热点预测准确率高，还对Page Rank算法进行修改，使随机游走模型具有很好的解释性，能够从图模型中查看出热点之所以是热点的原因，比如各实体名称之间的连接概率等可以反映出热点产生的原因。

Description

基于随机游走模型的热点预测方法、装置和计算机设备

技术领域

本申请涉及到人工智能领域，特别是涉及到一种基于随机游走模型的热点预测方法、装置和计算机设备。

背景技术

对未来医学研究热点的预测是研究人员探索研究主题的宝贵资源。然而医学领域的文献发表数量增长速度快，研究人员难以与其相关的医学研究的热点内容时刻保持同步，进而难以跟进和挖掘新颖的研究内容。研究热点预测方法基于大量医学文献数据，使用文本挖掘构建知识图谱和模型，提供已有的研究关系，并且可以推断出可能在未来出现的生物医学概念之间的关系。

现有的预测方法包括基于知识图谱的方法和基于SVD的算法，但是基于知识图谱的方法只利用了图谱的局部信息，因此预测结果不够精准，而基于SVD的算法，可解释性差，在实际应用中有所局限。

发明内容

本申请的主要目的为提供一种基于随机游走模型的热点预测方法、装置和计算机设备，旨在解决现有技术中医学研究热点的预测准确度低，或解释性差的技术问题。

为了实现上述发明目的，本申请提出一种基于随机游走模型的热点预测方法，包括：

获取记载有指定知识的文献数据；

提取所述文献数据中预设的实体名称，以及确定各所述实体名称在文献数据中的关联关系；

将所述关联关系输入到预设的随机游走模型中，计算各所述实体名称之间的连接概率；所述随机游走模型的算法公式为：

其中，PR(i)表示节点i的访问概率，out(i)表示节点i的出度，d是决定继续游走的概率，in(i)是与点i相连的点的集合，j是其他节点，u为每个实体名称的节点，r为引入的变量；

根据所述连接概率确定所述热点。

进一步地，所述获取记载有指定知识的文献数据的步骤，包括：

到预设的论文网站上下载论文的标题和摘要，将所述标题和摘要作为所述文献数据。

进一步地，所述文献数据为论文，所述提取所述文献数据中预设的实体名称，以及确定各所述实体名称在文献数据中的关联关系的步骤，包括：

在所述论文的摘要中查找预设的缩写格式，并提取缩写格式中的缩写名称，以及缩写格式之前对应缩写名称的完整实体名称；

将所述论文中的所述缩写名称替换成所述完整实体名称；

在完成缩写名称替换的摘要中提取所述实体名称，以及确定各所述实体名称在文献数据中的关联关系。

进一步地，所述提取所述文献数据中预设的实体名称，以及确定各所述实体名称在文献数据中的关联关系的步骤，包括：

将所述文献数据以句为单位进行划分；

提取每一句中的所述实体名称；

若同一句中出现两种或两种以上的所述实体名称，则判定该句子中相邻的两个所述实体名称具有关联关系。

进一步地，所述提取每一句中的所述实体名称的步骤，包括：

利用预训练模型BERT对每一句中的文字进行进行语意编码；

在所述语义编码中查找与各预设的实体名称的语义编码的相似度大于预设相似度阈值，且相似度最大的第一语义编码；

将所述第一语义编码对应的名称转换成与其对应的所述实体名称。

进一步地，，所述获取记载有指定知识的文献数据的步骤之前，包括：

到预设的论文网站上按照预设的时间间隔长度，下载多个不同历史时间段的历史文献数据；

提取各所述历史文献数据中的所述实体名称，以及各所述实体名称在所述历史文献数据中的历史关联关系；

将所述历史关联关系输入到所述随机游走模型中，计算各所述实体名称之间的历史连接概率；

依据所述历史连接概率确定每一个历史文献数据对应的历史时间段的历史热点；

接收用户输入的各所述历史热点是否为真实的热点的判断结果；

若多个历史热点的正确概率大于预设概率值，则判定所述随机游走模型可用。

本申请还提供一种基于随机游走模型的热点预测装置，包括：

获取单元，用于获取记载有指定知识的文献数据；

提取单元，用于提取所述文献数据中预设的实体名称，以及确定各实体名称在文献数据中的关联关系；

根据所述连接概率确定所述热点。

进一步地，所述获取单元，包括：

获取模块，用于到预设的论文网站上下载论文的标题和摘要，将所述标题和摘要作为所述文献数据。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于随机游走模型的热点预测方法、装置和计算机设备，首次将随机模型应用到热点的预测领域，热点预测准确率高，还对Page Rank算法进行修改，使随机游走模型具有很好的解释性，能够从图模型中查看出热点之所以是热点的原因，比如各实体名称之间的连接概率等可以反映出热点产生的原因。比如，将本申请的方法应用到医学领域的医学热点的预测领域，利用疾病(实体名称)之间的协同过滤信息对疾病的潜在研究热点进行推荐，取得了优于现有算法的结果。

附图说明

图1为本申请一实施例的基于随机游走模型的热点预测方法的流程示意图；

图2为本申请一实施例的基于随机游走模型的热点预测方法中步骤S2的流程示意图；

图3为本申请另一实施例的基于随机游走模型的热点预测方法中步骤S2的流程示意图；

图4为本申请一实施例的基于随机游走模型的热点预测装置的结构示意框图；

图5为本申请一实施例的计算机设备的结构示意框图；

图6为本申请一实施例的寻找和某一疾病实体最有可能产生边的点的随机游走示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种1、一种医学研究热点的预测方法，包括步骤：

S1、获取记载有指定知识的文献数据；

S2、提取所述文献数据中预设的实体名称，以及确定各所述实体名称在文献数据中的关联关系；

S3、将所述关联关系输入到预设的随机游走模型中，计算各所述实体名称之间的连接概率；所述随机游走模型的算法公式为：

S4、根据所述连接概率确定所述热点。

本申请实施例为人工智能领域，其执行主体可以是用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

如上述步骤S1所述，上述指定知识是指某一领域的知识，如医学领域、数学领域、物理领域等，以医学知识为例，医学知识的文献数据主要是医学论文，其可以到指定的医学论文网站下载，也可以是医生开出的患者治疗方案数据，患者治疗方案数据可以到各医院的数据库中进行下载，其中，到医院的数据库中下载数据需要医院的授权。

如上述步骤S2所述，上述实体名称是指某个领域中的某个事物的名称，以医学知识为例，上述实体名称可以包括疾病、药品、手术、检查检验、基因、微生物和免疫因子等多种类别。获取实体名称主要是通过关键字检索的方式进行提取，在提提取的过程中，如果相邻的两个实体名称达到预设要求，则判定相邻的两个医学实体名称具有关联关系，上述预设要求可以是在同一段话中出现的两个实体名称，或者同一句话中的两个实体名称等。

如上述步骤S3和S4所述，上述随机游走模型是图模型的一种，将疾病等实体名称建模形成成图模型中的点，如果两个实体名称之间有关系产生，则在两个点之间连上一条线，如下图6所示，寻找和某一疾病实体最有可能产生边的点：

左侧的A,B,C为疾病实体名称，右侧的a,b,c,d即为其余的实体名称。每次都是从目标疾病实体名称节点出发，进行随机游走，并且每一步有一定的概率停止游走并返回起点开始下一次游走。在一定的迭代次数下，从每一个疾病实体名称出发停留在其他实体名称的点上的概率会收敛，最后根据这个概率进行排序，得到与该疾病实体名称潜在可能产生关系的实体名称，通常选择概率最高的作为上述热点，或者选择概率排在预设名次之前的作为热点(热点可以为多个)等。

在本实施例中，上述随机游走模型的算法公式为：

其中，PR(i)表示节点i的访问概率，out(i)表示节点i的出度，d是决定继续游走的概率，in(i)是与点i相连的点的集合，j是其他节点，u为每个实体名称的节点，r为引入的变量，r没有实际意义；该算法公式是对Page Rank算法的修改，适用于本申请的热点推荐的场景，具有更好的预测效果和可解释性。上述节点i代表各实体名称，如上图左侧的A,B,C为疾病实体名称，右侧的a,b,c,d其余的实体名称，而上述的关联关系则是如左侧疾病实体名称与右侧的a,b,c,d的连线关系，比如，A与ac具有关联关系，B与abcd均具有关联关系等。而如何确定两个实体名称之间具有关联关系，可以通过各实体名称在文献数据的相对位置等确定。

在一个实施例中，上述获取记载有指定知识的文献数据的步骤S1，包括：

S11、到预设的论文网站上下载论文的标题和摘要，将所述标题和摘要作为所述文献数据。

在本实施例中，以医学领域为例，上述预设的论文网站为医学论文网站，在医学论文网站上发布的论文基本是具有研究成果的、比较前沿的医学知识，但是鉴于论文的重点主要是在摘要中，以及论文全文的文字数量较大，为了提高后续提取医学实体名称的速度，减少数据计算量，仅下载医学论文的标题和摘要部分作为记载有医学知识的文献数据。

参照图2，在一个实施例中，上述文献数据为论文，上述提取所述文献数据中预设的实体名称，以及确定各所述实体名称在文献数据中的关联关系的步骤S2，包括：

S211、在所述论文的摘要中查找预设的缩写格式，并提取缩写格式中的缩写名称，以及缩写格式之前对应缩写名称的完整实体名称；

S212、将所述论文中的所述缩写名称替换成所述完整实体名称；

S213、在完成缩写名称替换的摘要中提取所述实体名称，以及确定各所述实体名称在文献数据中的关联关系。

在本实施例中，主要针对论文的摘要，标准的论文中如果出现缩写等情况都会按照指定的格式进行处理，即完整实体名称在第一次出现时，如果该完整实体名称后面跟有一个括号，括号中即为对应完整实体名称的缩写。以医学为例，为了防止缩写被漏提取的情况发生，先查找括号，然后确认括号前面的词是不是预设的医学实体名称，如果是，则将缩写与其关联，然后进行全文替换，最后在进行医学实体名称的提取等，提高提取的准确性和全面性。进一步地，实体名称仅在摘要中提取，节约实体名称提取的计算量，而各实体名称之间的关联关系则到整个文献数据中进行关联计算，提高关联关系的计算准确性。

参照图3，在一个实施例中，上述提取所述文献数据中预设的实体名称，以及确定各所述实体名称在文献数据中的关联关系的步骤S2，包括：

S221、将所述文献数据以句为单位进行划分；

S222、提取每一句中的所述实体名称；

S223、若同一句中出现两种或两种以上的所述实体名称，则判定该句子中相邻的两个所述实体名称具有关联关系。

在本实施例中，无论是中文还是外文，都是以一句话为标准，只有同一句中出现的实体名称之间才会建立关联关系，而句子的划分，可以通过识别文献数据中的标点符号来实现，比如，检测出文献数据中的句号、感叹号等代表一句话说完的标点符号，然后以此来划分。当句子划分完成之后，如果一个句子中只有一个实体名称，则忽略该实体名称，如果一个句子中出现多个实体名称，则将相邻的实体名称建立关联关系，体现在上述随机游走模型上，即为将具有关联关系的两个实体名称的点连线。在一个具体实施例中，一句话中有三个医学实体名称a、b、c，那么a与b具有关联关系，b与c具有关联关系。

在一个实施例中，上述提取每一句中的实体名称的步骤S222，包括：

利用预训练模型BERT对每一句中的文字进行进行语意编码；

在所述语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值，且相似度最大的第一语义编码；

将所述第一语义编码对应的名称转换成与其对应的所述医学实体名称。

在本实施例中，上述预训练模型BERT全称是Pre-training of DeepBidirectional Transformers for Language Understanding。Pre-training表示BERT是一个预训练模型，通过前期的大量语料的无监督训练，为下游任务学习大量的先验的语言、句法、词义等信息。Bidirectional说明BERT采用的是双向语言模型的方式，能够更好的融合前后文的知识。简而言之，BERT是一个用Transformers作为特征抽取器的深度双向预训练语言理解模型。BERT在预训练过程中，学习到了丰富的语言学方面的信息。上述语意编码的过程即为将每一句文字向量化的过程。各预设的医学实体名称也都有对应的语义编码，然后在每一句话的语义编码中查找与各预设的医学实体名称的语义编码的相似度大于预设相似度阈值且相似度最大的第一语义编码，然后将所述第一语义编码对应的名称转换成与其对应的所述实体名称(该对应的实体名称即为与第一语意编码的相似度大于预设相似度阈值且相似度最大的语义编码对应的实体名称)。本申请中，可以将不规范的实体名称也提取出来，且提取的时候将不规范的实体名称修改成规范的实体名称，提高后续各实体名称之间的连接概率的计算准确性。

在一个实施例中，上述获取记载有指定知识的文献数据的步骤S1之前，包括：

提取各所述历史文献数据中的实体名称，以及各所述实体名称在所述历史文献数据中的历史关联关系；

在本实施中，以医学为了，即为通过多段历史时间产生的文献数据，预测各历史时间段的历史医学研究热点，然后通过用户进行判断预测结果是否正确(因为是历史数据，所以各时间段医学研究热点，用户已经知晓)，当全部历史医学研究热点的正确率大于预设概率值，则说明本申请的医学研究热点的预测方法是可以使用的，所以可以放心的执行上述步骤S1-S4。

本申请的基于随机游走模型的热点预测方法，主要应用与医学研究热点预测，首次将随机模型应用到医学领域的医学热点的预测领域，利用了疾病之间的协同过滤信息对疾病的潜在研究热点进行推荐，取得了优于现有算法的结果。本申请还对Page Rank算法进行修改，使随机游走模型具有很好的解释性，能够从图模型中查看出热点之所以是热点的原因，比如各实体名称之间的连接概率等可以反映出热点产生的原因。

参照图4，本申请还提供一种基于随机游走模型的热点预测装置，包括：

获取单元10，用于获取记载有指定知识的文献数据；

提取单元20，用于提取所述文献数据中预设的实体名称，以及确定各实体名称在文献数据中的关联关系；

计算单元30，用于将所述关联关系输入到预设的随机游走模型中，计算各所述实体名称之间的连接概率；所述随机游走模型的算法公式为：

确定单元，用于根据所述连接概率确定所述热点。

在一个实施例中，上述获取单元10，包括：

在一个实施例中，上述文献数据为论文，上述提取单元20，包括：

查找模块，用于在所述论文的摘要中查找预设的缩写格式，并提取缩写格式中的缩写名称，以及缩写格式之前对应缩写名称的完整实体名称；

替换模块，用于将所述论文中的所述缩写名称替换成所述完整实体名称；

提取确定模块，用于在完成缩写名称替换的摘要中提取所述实体名称，以及确定各所述实体名称在文献数据中的关联关系。

在一个实施例中，上述提取单元20，包括：

划分模块，用于将所述文献数据以句为单位进行划分；

提取模块，用于提取每一句中的所述实体名称；

判定模块，用于若同一句中出现两种或两种以上的所述实体名称，则判定该句子中相邻的两个所述实体名称具有关联关系。

在一个实施例中，上述提取模块，包括：

编码子模块，用于利用预训练模型BERT对每一句中的文字进行进行语意编码；

相似度计算子模块，用于在所述语义编码中查找与各预设的实体名称的语义编码的相似度大于预设相似度阈值，且相似度最大的第一语义编码；

转换子模块，用于将所述第一语义编码对应的名称转换成与其对应的所述实体名称。

在一个实施例中，上述基于随机游走模型的热点预测装置，还包括：

下载历史数据单元，用于到预设的论文网站上按照预设的时间间隔长度，下载多个不同历史时间段的历史文献数据；

提取历史实体单元，用于提取各所述历史文献数据中的实体名称，以及各所述实体名称在所述历史文献数据中的历史关联关系；

输入计算单元，用于将所述历史关联关系输入到所述随机游走模型中，计算各所述实体名称之间的历史连接概率；

确定历史热点单元，用于依据所述历史连接概率确定每一个历史文献数据对应的历史时间段的历史热点；

接收单元，用于接收用户输入的各所述历史热点是否为真实的热点的判断结果；

判定单元，用于若多个历史热点的正确概率大于预设概率值，则判定所述随机游走模型可用。

上述各实施例中的单元、模块、子模块等是执行上述基于随机游走模型的热点预测方法的装置，在此不再一一赘述。

参照图5，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文献数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例的基于随机游走模型的热点预测方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例的基于随机游走模型的热点预测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(RambuS)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于随机游走模型的热点预测方法，其特征在于，包括：

获取记载有指定知识的文献数据；

+d/>

其中， PR(i)表示节点i的访问概率，out(i)表示节点i的出度，d是决定继续游走的概率，in（i）是与点i相连的点的集合，j是其他节点，u为每个实体名称的节点，r为引入的变量；

根据所述连接概率确定所述热点；

所述文献数据为论文，所述提取所述文献数据中预设的实体名称，以及确定各所述实体名称在文献数据中的关联关系的步骤，包括：

将所述论文中的所述缩写名称替换成所述完整实体名称；

在完成缩写名称替换的摘要中提取所述实体名称，以及确定各所述实体名称在文献数据中的关联关系；

将所述文献数据以句为单位进行划分；

提取每一句中的所述实体名称；

若同一句中出现两种或两种以上的所述实体名称，则判定该句中相邻的两个所述实体名称具有关联关系；

所述获取记载有指定知识的文献数据的步骤之前，包括：

2.根据权利要求1所述的基于随机游走模型的热点预测方法，其特征在于，所述获取记载有指定知识的文献数据的步骤，包括：

3.根据权利要求1所述的基于随机游走模型的热点预测方法，其特征在于，所述提取每一句中的实体名称的步骤，包括：

利用预训练模型BERT对每一句中的文字进行语义编码；

4.一种基于随机游走模型的热点预测装置，用于实现如权利要求1-3中任意一项所述的基于随机游走模型的热点预测方法，其特征在于，所述装置包括：

获取单元，用于获取记载有指定知识的文献数据；

计算单元，用于将所述关联关系输入到预设的随机游走模型中，计算各所述实体名称之间的连接概率；所述随机游走模型的算法公式为：

+d/>

确定单元，用于根据所述连接概率确定所述热点。

5.根据权利要求4所述的基于随机游走模型的热点预测装置，其特征在于，所述获取单元，包括：

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。