CN111898034A

CN111898034A - 新闻内容推送方法、装置、存储介质及计算机设备

Info

Publication number: CN111898034A
Application number: CN202011047397.1A
Authority: CN
Inventors: 甘宇; 夏志超; 王君; 张雷; 袁海光; 李振刚; 刘斯凡
Original assignee: Shenzhen Jingfa Technology Holding Co ltd; Jiangxi Hanchen Information Technology Co ltd
Current assignee: Shenzhen Jingfa Technology Holding Co ltd; Jiangxi Hanchen Information Technology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-11-06

Abstract

本发明提供一种新闻内容推送方法、装置、存储介质及计算机设备，该方法包括：获取链接，解析得到文本内容；对文本内容进行分词；采用多种关键词提取算法提取关键词，得到每种方法对应提取的关键词，根据每种方法提取的关键词累计查重，并确定重复数最多的目标关键词；将目标关键词与文本内容匹配，筛选出只含有目标关键词的文本并作为文本特征；计算文本特征的相似性对预测模型进行训练，利用训练后的预测模型与待查询文本进行预测，得到相似度值；对各个所述文本内容的相似度值排序，获取若干篇相似度值最高的所述文本内容对应的新闻。本发明提供的新闻内容推送方法，通过采用多种关键词提取算法和预测模型预测提升对于新闻信息获取的精准性。

Description

新闻内容推送方法、装置、存储介质及计算机设备

技术领域

本发明涉及互联网信息处理技术领域，特别涉及一种新闻内容推送方法、装置、存储介质及计算机设备。

背景技术

随着互联网信息技术的普及，人们可以通过互联网快速获取各种信息及资源。

采集的新闻数据大多以url链接存储，为了挖掘出新闻的价值，须解析url提取新闻正文内容；在新闻提取过程中，需要进行正文内容提取以获取url链接内与新闻内容关联的正文内容，正文内容中关键词的提取往往决定着对应采集的新闻数据定位分类的精准性。

目前大多正文内容的关键词提取方式比较单一，以使得对于采集的新闻数据的关键词提取不精确，以使进行同类相似性新闻查询推送时，不能获得较为有效的新闻信息。

发明内容

基于此，本发明的目的是提供一种新闻内容推送方法，以提升对于新闻信息获取的精准性。

本发明提供一种新闻内容推送方法，其中，所述方法包括：

获取多个新闻url链接，并解析得到对应的多个文本内容；

对每个所述文本内容进行分词并提取名词性词语；

采用多种关键词提取算法对当前文本内容的名词性词语进行关键词提取，得到每种方法对应提取的多个关键词，根据每种方法提取的所述关键词累计查重，并确定重复数最多的若干目标关键词；

将所述目标关键词与所述文本内容匹配，并在所述文本内容中筛选出只含有所述目标关键词的关键词文本并作为文本特征；

通过计算不同的所述文本内容的文本特征之间的相似性对预测模型进行训练，得到各个文本内容之间的相似度值，利用训练后的预测模型对待查询文本进行预测，得到与各个所述文本内容对应的相似度值；

对各个所述文本内容的相似度值排序，获取并推送若干篇相似度值最高的所述文本内容对应的新闻。

本发明提供的新闻内容推送方法，通过采用多种关键词提取方法对名词性词语进行关键词提取，使得每种关键词提取方法对应提取多个关键词，将多种关键词提取方法获得的多个关键词进行查重，以获得重复次数较多同时最具有代表性的多个目标关键词，在文本内容中筛选出只含有目标关键词的关键词文本并作为文本特征，并通过计算不同的所述文本内容的文本特征之间的相似性对预测模型进行训练，利用训练后的预测模型与待查询文本进行预测，得到与各个所述文本内容之间的相似度值；对各个文本内容的相似度值排序，获取若干篇相似度值最高的所述文本内容对应的新闻。本发明提供的新闻内容推送方法从关键词提取步骤对新闻内容的关键词把控有效的进行筛选，以获取与正文内容最为相关的目标关键词作为文本特征，以此文本特征作为该新闻的标签，再通过预测模型与待查询文本进行预测，得到与待查询文本的相似度值，确保了新闻信息获取的精准性。

进一步的，获取所述文本内容的步骤包括；

获取网页的根节点；

若所述根节点下存在子节点，则获取所述根节点下所有子节点，

统计子节点下句号的总数，并取句号最多的子节点作为下级筛选节点；

获取所述下级筛选节点中句号的总数与子节点的句号总数比值；

若比值大于预设值，则将所述下级筛选节点作为新的根节点，并返回执行获取所述根节点下所有子节点的步骤若比值大于预设值，则将所述下级筛选节点作为新的根节点，并返回执行获取所述根节点下所有子节点的步骤。

进一步的，所述获取网页的根节点的步骤之后还包括；

若所述根节点下不存在子节点，则获取当前子节点上一级节点的所述文本内容。

进一步的，所述比值小于或等于预设值时，还包括以下步骤；

获取所述当前下级筛选节点的上一级节点的所述文本内容。

进一步的，所述关键词提取的算法为TF-IDF、Textrank、LDA中的任意一种。

进一步的，所述利用训练后的预测模型与待查询文本进行预测的步骤之前还包括：

获取待查信息，将所述待查信息进行分词并提取名词性词语，采用所述关键词提取算法对所述待查信息的名词性词语提取，得到多个待查关键词；

根据每种方法提取的所述待查关键词累计查重，并确定重复数最多的若干待查目标关键词；

将所述待查目标关键词与所述待查信息匹配，并在所述待查信息中筛选出只含有所述待查目标关键词的待查关键词文本并作为文本特征。

本发明的另一个目的在于提出一种新闻内容推送装置，以提升对于新闻信息获取的精准性。

本发明提供一种新闻内容推送装置，包括：

第一获取模块，用于获取文本内容；

分词模块，用于获取所述文本内容分词提取的名词性词语；

第二获取模块，用于获取多种关键词提取算法对当前文本内容的名词性词语进行关键词提取，得到每种方法对应提取的多个关键词，根据每种方法提取的所述关键词累计查重，并确定重复数最多的若干目标关键词；

匹配模块，用于将所述目标关键词与所述文本内容匹配，并在所述文本内容中筛选出只含有所述目标关键词的关键词文本并作为文本特征；

训练模块，用于将计算不同的所述文本内容的文本特征之间的相似性对预测模型进行训练，得到各个文本内容之间的相似度值，利用训练后的预测模型对待查询文本进行预测，得到与各个所述文本内容对应的相似度值；

筛选模块，用于对各个所述文本内容的相似度值排序，获取并推送若干篇相似度值最高的所述文本内容对应的新闻。

进一步的，所述第一获取模块具体用于：

获取网页的根节点；

若比值大于预设值，则将所述下级筛选节点作为新的根节点，并返回执行获取所述根节点下所有子节点的步骤。

本发明还提出一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明还提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明第一实施例提出的新闻内容推送方法流程图；

图2为本发明第一实施中获取文本内容的流程图；

图3为本发明第一实施中获取待查询信息的流程图；

图4是本发明第二实施例的新闻内容推送装置结构示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干个实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1至图3，为本发明第一实施例提供的新闻内容推送方法，对于本发明第一实施例中新闻内容推送方法，所述方法包括如下步骤：

步骤S10，获取多个新闻url（Uniform Resource Locator-“统一资源定位符）链接，并解析得到对应的多个文本内容。

本发明实施例中，对于数据信息的获取是基于互联网平台，通过获取新闻的url链接，解析获取链接中的新闻的正文信息，并从正文内容中获取文本内容，得到的文本内容仅为正文内容中的文字内容。

步骤S20，对每个文本内容进行分词并提取名词性词语。

进一步的，对每个对应的正文内容进行分词处理，得到分词后的词组，例如“我爱中华”分词得到“我、爱、中华”这个三个词组，然后保留名词性词语，最终分词获取的词语为“中华”。

步骤S30，采用多种关键词提取算法对当前文本内容的名词性词语进行关键词提取，得到每种方法对应提取的多个关键词，根据每种方法提取的关键词累计查重，并确定重复数最多的若干目标关键词。

具体的，采用多种关键词提取方法根据上述分词得到的名词性词语进行关键词提取，每种方法对应提取到一组关键词组，每组关键词组均包含多个关键词，由于关键词提取方法不同，各个关键词组之间存在一定的差异性，将得到的关键词组进行累计查重，而后确定各个关键词组中存在重复出现的关键词，重复频率越高，权重占比越大，保留权重占比最高的若干目标关键词。

步骤S40，将目标关键词与文本内容匹配，并在文本内容中筛选出只含有目标关键词的关键词文本并作为文本特征；

在本发明实施例中，确定权重占比最高的若干关键词后，将目标关键词和文本内容建立匹配关系，具体的，目标关键词作为文本内容的文本特征，当查询到与该目标关键词的关联信息时，可调取与该目标关键词匹配的文本内容。

步骤S50，计算不同的文本内容的文本特征之间的相似性对预测模型进行训练，得到各个文本内容之间的相似度值，利用训练后的预测模型对待查询文本进行预测，得到与各个文本内容对应的相似度值；

其中，预测模型是用于预测不同的文本特征之间的所属领域类别，相识度值通过相似度计算方法得到多个文本特征相互之间的相似度值。

在本发明实施例中，将上述的文本特征一一进行模型训练，并计算相互的相似度值，以形成一数据库，该数据库可调取查询当前文本特征所属领域类别、对应的文本内容以及与其他新闻信息的相似度值。

步骤S60，对各个文本内容的相似度值排序，获取并推送若干篇相似度值最高的文本内容对应的新闻。

通过确定待查询文本与其他本文内容之间的相识度值，得到相识度值排序表，在表中筛选出前若干篇与待查询文本相似度最高的文本内容，对应调取上述文本内容对应的新闻，完成信息推送。

本发明通过采用多种关键词提取方法对名词性词语进行关键词提取，使得每种关键词提取方法对应提取多个关键词，将多种关键词提取方法获得的多个关键词进行查重，以获得重复次数较多同时最具有代表性的若干个目标关键词，在文本内容中筛选出只含有目标关键词的关键词文本并作为文本特征，并通过计算不同的文本内容的文本特征之间的相似性对预测模型进行训练，利用训练后的预测模型与待查询文本进行预测，得到与各个文本内容之间的相似度值；对各个文本内容的相似度值排序，获取若干篇相似度值最高的文本内容对应的新闻。从关键词提取步骤对新闻内容的关键词把控有效的进行筛选，以获取与正文内容最为相关的关键词作为文本特征，以此文本特征作为该新闻的标签，再通过预测模型与待查询文本进行预测，得到与待查询文本的相似度值，确保了新闻信息获取的精准性。

图2为本发明获取文本内容的流程图，获取文本内容包括如下步骤：

步骤S101，获取网页的根节点。

其中，获取网页根节点的方法采用Xpath语法，以获得当前url链接下的树状结构并寻找该树状结构下的节点，使得网页内的内容以树状结构逐级体现。

步骤S102，若根节点下存在子节点，则获取当前节点下的所有子节点。

获取当前根节点下所以子节点的内容信息（当前内容信息可能包含有广告信息、弹窗提示信息等无用信息）。

步骤S103，统计每个子节点下句号的总数，并取句号最多的子节点作为下级筛选节点。

计算当前每个子节点内容信息中句号的总数并与确定句号最多的子节点作为下级筛选节点（通常在广告弹窗等信息中出现句号的比例远小于新闻信息的正文内容中句号数量）。

步骤S104，获取下级筛选节点中句号的总数与子节点的句号总数比值。

在下级筛选节点中，还可能包含有如标题、商品链接信息、相似新闻推送等无效信息，本发明实施例中，通过获取每个下级筛选节点中句号总数与子节点句号总数的占比量来确定最终需要获取的正文内容。

步骤S105，若比值大于预设值，则将下级筛选节点作为新的根节点，并返回执行步骤S102。

在本发明实施例中，预设值设置为0.4（通常一个子节点下几乎不可能出现两个下级筛选节点的句号总数在子节点中占比超过0.4）。

获取网页的根节点的步骤之后还包括：

步骤S106，若根节点下不存在子节点，则获取当前子节点上一级节点的文本内容。

在本发明实施例中，当前节点下没有子节点时，则获取该子节点上一级节点的文本内容。

步骤S107，若比值小于等于预设值，则获取当前下级筛选节点上一级节点中的文本内容。

其中，当下级筛选节点中句号的总数小于或等于子节点（上一级节点）的句号总数预设值（本发明实施例中预设值为0.4）时，则获取当前子节点的文本内容。

本发明提供的推送方法在获取文本内容时，通过每个节点的句号数量与其父节点（即上一级节点）的句号数量比较，当占比达到预设值以上时，进一步的判断下一级节点（即下级筛选节点）与当前节点的句号占比量，直到没有下一级节点或者下一级节点中句号的占比量均小于预设值为止。通过以句号占比的方法对网页节点进行过滤筛选，有效的提取了网页中关于新闻内容的正文内容提取，避免了无效信息（广告、商品链接信息等）的干扰。

本发明实施例中，关键词的提取方法采用TF-IDF（term frequency–inversedocument frequency-词频-逆文本频率指数）、Textrank（文本排序）、LDA（LatentDirichlet Allocation-文档主题生成模型）三个方法，以使得对文本内容中关键词提取达到更优化选取的目的，使得提取后的关键词对新闻更具有代表性，在新闻信息推送时，目的性更加明确。推送内容更具与匹配性。

请参阅图3，为本发明提供的新闻内容推送方法中获取待查询信息的流程图，利用训练后的预测模型与待查询文本进行预测的步骤之前还包括：

步骤S41，获取待查信息，将待查信息进行分词并提取名词性词语。

步骤S42，采用多种关键词提取算法对待查信息的名词性词语提取，得到多个待查关键词。

步骤S43，根据每种方法提取的待查关键词累计查重，并确定重复数最多的若干待查目标关键词。

步骤S44，将待查目标关键词与待查信息匹配，并在待查信息中筛选出只含有待查目标关键词的待查关键词文本并作为文本特征。

步骤S45，利用训练后的预测模型与待查关键词文本进行预测，得到各个文本与待查文本的相似度值。

本发明提供的新闻内容推送方法，可对待查询文本进行关键词提取，并将提取后的关键词作为待查询文本的文本特征，再通过预测模型进行预测，得到与关联性（相似度）最高的若干篇新闻。相比于传统信息检索推送方式，该方法输入的待查询信息不仅仅局限与某个词汇、某一句话，待查询信息还可以是一段文字。并且通过训练模型预测进行快速精准的预测，得到与其相似的新闻信息。

本发明提供的新闻内容推送方法，通过新闻内容推送方法中对于关键词提取的方法进行优化，提升了关键词对于文本内容概况的精准性，使得以上述方法得到的关键词作为文本特征更具有代表性；再通过模型训练和相识度计算使得每个技术特征对应的文本内容进行所述领域归类并且文本内容对应的新闻信息两两之间得到一个相似度值，再调取某一篇新闻或者输入待查询文本信息时，可推送与其相似度最高的若干篇新闻信息。使得关于新闻信息的相似性推送更加精准、更加迅速。

请参阅图4，基于同一发明构思，本发明第二实施例提出的新闻内容推送装置，装置包括：

第一获取模块，用于获取文本内容；

分词模块，用于获取文本内容分词提取的名词性词语；

第二获取模块，用于获取多种关键词提取算法对当前文本内容的名词性词语进行关键词提取，得到每种方法对应提取的多个关键词，根据每种方法提取的关键词累计查重，并确定重复数最多的若干目标关键词；

匹配模块，用于将目标关键词与文本内容匹配，并在文本内容中筛选出只含有目标关键词的关键词文本并作为文本特征；

训练模块，用于将计算不同的文本内容的文本特征之间的相似性对预测模型进行训练，得到各个文本内容之间的相似度值，利用训练后的预测模型对待查询文本进行预测，得到与各个文本内容对应的相似度值；

筛选模块，用于对各个文本内容的相似度值排序，获取并推送若干篇相似度值最高的文本内容对应的新闻。

本实施例中，第一获取模块具体用于：

获取网页的根节点；

若根节点下存在子节点，则获取根节点下所有子节点，

统计每个子节点下句号的总数，并取句号最多的子节点作为下级筛选节点；

获取下级筛选节点中句号的总数与根节点的句号总数比值；

若比值大于预设值，则将下级筛选节点下作为新的根节点，并返回执行获取根节点下所有子节点的步骤。

此外，本发明的实施例还提出一种存储介质，具体是可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一实施例中所述方法的步骤。

此外，本发明的实施例还提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一实施例中所述方法的步骤。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种新闻内容推送方法，其特征在于，所述方法包括：

获取多个新闻url链接，并解析得到对应的多个文本内容；

对每个所述文本内容进行分词并提取名词性词语；

2.根据权利要求1所述的新闻内容推送方法，其特征在于，获取所述文本内容的步骤包括：

获取网页的根节点；

获取所述下级筛选节点中句号的总数与所述根节点的句号总数比值；

3.根据权利要求2所述的新闻内容推送方法，其特征在于，所述获取网页的根节点的步骤之后还包括；

4.根据权利要求2所述的新闻内容推送方法，其特征在于，所述比值小于或等于预设值时，还包括以下步骤；

获取所述当前下级筛选节点的上一级节点的所述文本内容。

5.根据权利要求1所述的新闻内容推送方法，其特征在于，所述关键词提取的算法为TF-IDF、Textrank、LDA中的任意一种。

6.根据权利要求1所述的新闻内容推送方法，其特征在于，所述利用训练后的预测模型与待查询文本进行预测的步骤之前还包括：

7.一种新闻内容推送装置，其特征在于，所述装置包括：

第一获取模块，用于获取文本内容；

分词模块，用于获取所述文本内容分词提取的名词性词语；

8.根据权利要求7所述的新闻内容推送装置，其特征在于，所述第一获取模块具体用于：

获取网页的根节点；

9.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任意一项所述的方法。

10.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的方法。