CN115329051B

CN115329051B - 一种多视角新闻信息快速检索方法、系统、存储介质及终端

Info

Publication number: CN115329051B
Application number: CN202211265167.1A
Authority: CN
Inventors: 张志强; 王伟钧
Original assignee: Chengdu University
Current assignee: Chengdu University
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2022-12-20
Anticipated expiration: 2042-10-17
Also published as: CN115329051A

Abstract

本发明公开了一种多视角新闻信息快速检索方法、系统、存储介质及终端，包括：依据用户检索的新闻视角描述信息，进行词汇分割，构建新闻视角词汇向量组B；其中，对新闻视角词汇向量组B中的不同新闻视角词汇向量

设置不同的权值；根据新闻视角词汇向量

的词汇在新闻信息库中对每篇新闻文章内容进行检索，并根据检索结果构建新闻视角词汇检索向量组B ^'，并标识出该词汇在新闻文章内容中的分布权值。本发明将用户需求的多类视角新闻描述信息转换为向量进行处理，同时，利用向量相似度计算模型进行新闻文章的筛选，提高新闻文章检索效率，通过调整向量组的构建、向量的权值和分布权值，使得本方法具有可适应性和设置灵活性。

Description

一种多视角新闻信息快速检索方法、系统、存储介质及终端

技术领域

本发明涉及信息检索领域，尤其涉及一种多视角新闻信息快速检索方法、系统、存储介质及终端。

背景技术

随着互联网+技术的发展，当前瞬息万变的信息时代会产生大量的新闻类文章，尤其针对当前新闻分析与情报检索部门需要利用信息检索技术依据用户需求对大量的新闻信息进行检索，从而筛选出用户需要的新闻文章。检索操作一般可采用常规人工检索方式在新闻信息中搜索指定信息进行新闻文章的筛选。当被检索的新闻文章篇数比较多，新闻信息量非常庞大时，则采用常规人工检索方式对每篇新闻文章信息进行搜索来确定该新闻文章内容是否符合用户的需求的操作显然效率比较低，检索速度慢。为了提高信息检索效率和速度，需要快速高效的信息检索技术来解决新闻信息检索问题。

信息检索技术一直是自然语言处理和数据挖掘研究的领域，其在知识挖掘、信息发现等方面都具有重要的研究意义，目前已有文献对信息检索技术进行了多方面的研究。虽然目前已有相关文献对信息检索技术进行研究，但针对新闻信息进行多类视角快速检索方法的研究还比较少。此外，用户的新闻检索需求在检索过程中会发生变化，现有的新闻检索方法中，不能根据用户的检索需求变化，动态调整检索策略，导致最终的检索结果不满足用户的需求，重新构建检索式进行检索，也会导致检索效率降低，增大工作量。

发明内容

本发明的目的在于克服现有技术中新闻检索存在的问题，提供了一种多视角新闻信息快速检索方法、系统、存储介质及终端，可以从不同类别新闻视角对新闻信息库进行新闻文章内容的快速检索，从而筛选出需要的新闻文章，同时具有可适应性和设置灵活性，从而提高新闻文章检索效率。

本发明的目的是通过以下技术方案来实现的：

在第一方案中，提供一种多视角新闻信息快速检索方法，所述方法包括以下步骤：

S1、构建新闻信息库，其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容；

S2、依据用户检索的新闻视角描述信息，进行词汇分割，构建新闻视角词汇向量组B；其中，对新闻视角词汇向量组B中的不同新闻视角词汇向量

设置不同的权值；

S3、从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量

，根据新闻视角词汇向量

的词汇在新闻信息库中对每篇新闻文章内容进行检索，并根据检索结果构建新闻视角词汇检索向量组B ^'；其中，根据新闻视角词汇向量

的词汇出现在新闻文章内容的不同位置，标识出该词汇在新闻文章内容中的分布权值；

S4、利用向量相似度计算模型依次计算新闻视角词汇向量A _j和新闻视角词汇检索向量组B ^'中每个向量的相似度；

S5、设定筛选阈值，从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号；

S6、根据S5中筛选出的新闻文章编号，从所述新闻信息库中提取出对应的新闻文章。

具体地，从用户需要检索的互联网环境下的新闻数据库中获取相应的新闻文章文件，从新闻文章文件（如LexisNexis数据库产生的新闻文章多以Word格式文件进行存储）中抽取新闻数据并构建新闻信息库，新闻信息库由每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息、新闻正文内容等部分组成。依据用户检索的新闻视角描述信息，进行词汇分割与分析，构建对应的新闻视角词汇向量

。如果检索的新闻视角描述信息类别有多个，则分别构建由多类新闻视角词汇向量组成的新闻视角词汇向量组B。

从向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量

，将向量

的词汇在新闻信息库中对每篇新闻文章内容进行检索，根据检索结果，构建对应的新闻视角词汇检索向量

。依据向量组B中的多类新闻视角，则构建新闻视角词汇检索向量组B ^'；从向量组B中依次提取每个类别构建的新闻视角词汇向量

，从向量组B ^'中依次提取每个类别构建的新闻视角词汇检索向量组

，利用向量相似度计算模型依次计算向量

和向量组

中的每个向量的相似度；依据向量相似度计算结果，从新闻信息库中筛选出满足大于筛选阈值的新闻文章编号index；依据新闻文章编号index，从新闻信息库中提取出对应的新闻文章内容信息。

其中，向量组的构建、向量的权值和分布权值可根据用户的需求进行实时调整，筛选阈值可以根据用户的检索需求进行动态设定，使得本方法具有可适应性和设置灵活性。

在一个示例中，一种多视角新闻信息快速检索方法，所述对新闻视角词汇向量组B中的不同新闻视角词汇向量

设置不同的权值，包括：

根据不同新闻视角词汇向量

在新闻信息检索过程中的重要程度，设定不同的权值，权值的等级设定规则依据用户的需求进行动态调整。

在一个示例中，一种多视角新闻信息快速检索方法，所述根据新闻视角词汇向量

的词汇出现在新闻文章内容的不同位置，标识出该词汇在新闻文章内容中的分布权值，包括：

标记出新闻视角词汇向量

的词汇在每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容的分布情况。

在一个示例中，一种多视角新闻信息快速检索方法，所述S4具体包括：

新闻视角词汇向量

和新闻视角词汇检索向量组B ^'中每个向量的相似度计算模型如下：

其中，

；

；

；

是检索新闻信息库的第index篇新闻文章内容后构建的新闻视角词汇检索向量，j表示新闻视角描述信息的类别，n表示新闻视角词汇向量

的个数也是基于用户检索需求的新闻视角类别个数，

表示新闻视角词汇向量

的权值，p为新闻信息库的新闻文章总篇数，

表示检索第index篇新闻文章后，该词汇在新闻文章内容中的分布权值，

为第j类新闻视角词汇向量

和新闻视角词汇检索向量

的夹角。

在一个示例中，一种多视角新闻信息快速检索方法，所述

越小，则新闻信息库中第index篇新闻文章内容与用户检索的新闻视角描述信息越吻合。

在一个示例中，一种多视角新闻信息快速检索方法，所述设定筛选阈值，从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号，包括：

从新闻信息库中筛选出满足条件

的的新闻文章编号index，其中

为第j类新闻视角描述信息检索结果的筛选阈值。

在一个示例中，一种多视角新闻信息快速检索方法，所述新闻信息库中的新闻文章多以Word格式文件进行存储。

在第二方案中，提供一种多视角新闻信息快速检索系统，所述系统包括：

新闻信息库构建模块，用于构建新闻信息库，其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容；

新闻视角词汇向量构建模块，用于依据用户检索的新闻视角描述信息，进行词汇分割，构建新闻视角词汇向量组B；其中，对新闻视角词汇向量组B中的不同新闻视角词汇向量

设置不同的权值；

新闻视角词汇检索向量构建模块，用于从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量

，根据新闻视角词汇向量

相似度计算模块，用于利用向量相似度计算模型依次计算新闻视角词汇向量

和新闻视角词汇检索向量组B ^'中每个向量的相似度；

筛选模块，用于设定筛选阈值，从相似度计算模块中筛选出大于筛选阈值的新闻文章编号；

新闻文章提取模块，用于根据筛选模块中筛选出的新闻文章编号，从所述新闻信息库中提取出对应的新闻文章。

在第三方案中，提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述多视角新闻信息快速检索方法。

在第四方案中，提供一种终端，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机指令，处理器运行计算机指令时执行所述多视角新闻信息快速检索方法。

需要进一步说明的是，上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。

与现有技术相比，本发明有益效果是：

（1）本发明将用户需求的多类视角新闻描述信息转换为向量进行处理，同时，利用向量相似度计算模型进行新闻文章的筛选，提高新闻文章检索效率，通过调整向量组的构建、向量的权值和分布权值，使得本方法具有可适应性

（2）本发明可以依据用户检索需求和检索新闻文章内容类别实现新闻视角词汇向量组的动态重构，从而调节算法检索的准确度和筛选的新闻文章篇数，使得算法检索具有设置灵活性，同时提高检索的准确度。

附图说明

图1为本发明实施例示出的一种多视角新闻信息快速检索方法；

图2为本发明实施例示出的向量间的夹角变化情况示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在一示例性实施中，提供一种多视角新闻信息快速检索方法，如图1所示，所述方法包括以下步骤：

设置不同的权值；

，根据新闻视角词汇向量

S4、利用向量相似度计算模型依次计算新闻视角词汇向量

和新闻视角词汇检索向量组B ^'中每个向量的相似度；

具体地，对新闻信息的检索，一般是依据设定的新闻视角描述信息对新闻信息库进行检索，从而按照用户需求的新闻视角从新闻信息库中筛选出与新闻视角吻合的新闻文章。为了对新闻内容信息进行检索，实现的关键是依据新闻视角描述信息构建新闻视角词汇向量，构建新闻视角词汇向量的操作步骤主要体现为从新闻视角描述信息中分割生成新闻视角词汇

（其中，1≤i≤新闻视角描述信息分割的总词汇数），新闻视角词汇的分割形式一般可以依据用户的需求进行分析确定。

设置不同的权值，包括：

根据不同新闻视角词汇向量

具体地，为了体现词汇在新闻信息检索过程中的重要程度，对不同的词汇

设定不同的权值

，词汇权值可以根据新闻视角词汇的重要程度进行设定，词汇越重要，其权值设置越大，如表1所示，给出一种权值设定规则示例。

表1 新闻视角词汇权值

的设定规则

值	含义
		1	新闻视角描述信息分割产生的词汇
2	用户指定直接检索的重要词汇

表1中，设定的权值最大值为2，具体地权值等级设定规则也可以依据用户的需求进行动态调整。

由此，按照用户的需求，将一类新闻视角描述信息进行分割，以(

，

)为数据项单位，构建一个带权词汇的新闻视角词汇向量A：

其中，(

，

)代表该新闻视角描述信息的第i个带权词汇分量，其中

表示为词汇

的权值；m表示为向量A的总分量数。由此可见，针对一类新闻视角描述信息可以构建一个带权词汇的新闻视角词汇向量。根据用户的需求，可以依据用户提出的多类新闻视角描述信息，对每类新闻视角描述信息进行分割和分析处理，构建多个带权词汇的新闻视角词汇向量组B：

其中，B为n个向量

组成的向量组；

表示依据第j类新闻视角描述信息构建的新闻视角词汇向量；

为

的总分量数；n为基于用户检索需求的新闻视角类别个数。

进一步地，在一个示例中，一种多视角新闻信息快速检索方法，所述根据新闻视角词汇向量

标记出新闻视角词汇向量

在新闻信息检索过程中，检索准确度对检索效率至关重要，为了提高检索的准确度，需要确定新闻视角词汇向量的每个词汇在新闻信息库中的分布情况，从而为后期向量相似度计算提供计算依据，为此，在方法中，提取B中新闻视角词汇向量

中的每个词汇分量

，在新闻信息库的每篇新闻文章中检索每个词汇

在新闻文章内容中的分布情况，依据词汇出现在新闻文章内容的不同位置，标识出该词汇在新闻文章内容中的分布权值。在词汇检索过程中，不同词汇在新闻文章中会出现在不同位置，如：有些词汇出现在新闻文章内容中的不同位置（新闻文章标题、新闻文章热点描述、新闻文章正文描述等），而有些词汇没有出现在新闻文章内容中。为了记录词汇检索的情况，标识词汇对新闻文章信息的重要程序，则根据词汇检索结果，设定每个词汇的分布权值k，利用k值表示词汇在该篇新闻文章内容中出现的重要程度，k值越大，表示词汇在该篇新闻文章内容中分布的位置越重要。这里k值的设定规则如表2所示。另外，该权值设定规则仍然可以依据新闻文章格式变化而进行动态调整。

表2词汇分布权值k的设定规则

<i>k</i>值	含义
		0	词汇没有出现在新闻文章中
1	词汇出现在新闻文章正文
		2	词汇出现在新闻文章热点描述
3	词汇出现在新闻文章标题

根据B中新闻视角词汇在新闻文章中的检索结果，构建新闻视角词汇检索向量组B ^'：

其中，

为利用第j类新闻视角词汇向量检索新闻信息库中的每篇新闻文章内容后构建的新闻视角词汇检索向量组；

为

中的词汇分量

检索新闻信息库的第index篇新闻文章内容后构建的新闻视角词汇检索向量；index为新闻信息库中被检索的新闻文章编号（新闻文章编号在构建新闻信息库时已确定）；

表示检索第index篇新闻文章后，词汇

在新闻文章中的分布权值；p为新闻信息库的新闻文章总篇数；n为基于用户检索需求的新闻视角类别个数。

构建新闻视角词汇检索向量目的是为方法后期进行新闻信息匹配的向量相似度计算提供计算依据，也为提高信息检索的准确度提供支持。

具体地，在新闻信息检索过程中，需要筛选出符合用户需求的新闻信息，由此，检索信息的效率主要依据检索准确度，而检索准确度又依赖于新闻视角描述信息和新闻文章内容的文本相似度。为此，在方法中构建向量相似度计算模型来判断新闻文章内容和新闻视角描述信息的吻合度。

在方法中，如果依据第j类新闻视角描述信息在新闻信息库中检索新闻文章内容，则先根据指定的第j类新闻视角描述信息构建新闻视角词汇向量

；然后将

的词汇分量在新闻信息库中对新闻文章进行检索，构建新闻视角词汇检索向量组

。每一篇新闻文章检索后会构建一个新闻视角词汇检索向量

（这里index为新闻信息库中被检索的新闻文章编号），那么

就由多个向量

构成。为了筛选出符合第j类新闻视角描述信息的新闻文章，构建向量

和

相似度计算模型，利用该计算模型判断信息检索的吻合度。

进一步地，新闻视角词汇向量

其中，

；

；

； n表示新闻视角词汇向量

的个数也是基于用户检索需求的新闻视角类别个数，

为第j类新闻视角词汇向量

和新闻视角词汇检索向量

的夹角。计算夹角

的余弦值，该值作为向量

和向量

的相似度，相似度值越大，则向量

和向量

的夹角

越小，表明

越靠近

，则说明了按照向量

在新闻信息库中第index篇新闻文章内容与用户检索的新闻视角描述信息越吻合。

进一步地，向量间的夹角变化如图2所示，在图2中，

，则表示第a篇新闻文章内容比第b篇新闻文章内容更吻合第j类新闻视角描述信息的检索需求。在求向量间夹角余弦值时，除以向量的模则表明已对向量长度进行了标准化处理。由此可见，利用式4，计算

和

中的每个向量

的相似度值，可以依据第j类新闻视角描述信息在新闻信息库中检索出符合用户需求的新闻文章。同理，如果用户需求的检索新闻视角信息有多类，则仍然可以利用相似度计算模型计算向量组B中每类新闻视角描述信息构建的新闻视角词汇向量和对应的

的相似度值，从而可以筛选出多类新闻视角描述信息在新闻信息库中的检索结果。

从新闻信息库中筛选出满足条件

的的新闻文章编号index，其中

为第j类新闻视角描述信息检索结果的筛选阈值。

在一个示例中，以三类新闻视角为例，提供一种多视角新闻信息快速检索方法，所述新闻信息库中的新闻文章多以Word格式文件进行存储。方法采用Java语言编程实现。首先从要搜索的新闻库中获取新闻文章Word文件。根据用户检索需求设置三类新闻视角或更多类新闻视角，具体可根据实际需求实时调节。然后对每一类新闻视角设定新闻视角描述信息，以三类新闻视角为例，对信息进行词汇分割和分析后，构建第一类、第二类、第三类新闻视角词汇向量A ₁、A ₂、A ₃，并对其中每一个词汇名进行权值设定。

在一示例中，权值设定为1表示该词汇为分割分析后对应的词汇；权值设定为2表示该词汇是用户指定需要直接检索的词汇，权值越高，表示该词汇在新闻信息检索过程中的重要程序越高。

进一步地，当构建了三类新闻视角描述信息的新闻视角词汇向量后，方法对新闻信息库中每篇新闻文章内容进行检索，从而构建新闻视角词汇检索向量，构建的第一类、第二类、第三类新闻视角词汇检索向量组。将每一类新闻视角词汇检索向量组中的词汇在不同新闻文章中进行检索，并根据检索结果来设置词汇分布权值。其中，词汇分布权值为3表示该词汇分布在对应编号的新闻文章标题；词汇分布权值为2表示该词汇分布在对应编号的新闻文章热点描述；词汇分布权值为1表示该词汇分布在对应编号的新闻文章正文；词汇分布权值为0表示该词汇没有分布在对应编号的新闻文章中。具体的词汇分布权值可根据用户需求进行调整。词汇在新闻文章内容中的分布权值之和越大，方法后期处理的相似度计算结果也会越大，该篇新闻文章内容越吻合需要检索的新闻视角描述信息，从而越容易被筛选出来。

最后依据向量相似度计算模型，对新闻信息库的新闻文章内容按照三类不同新闻视角同时进行快速检索，对每一类新闻视角，当相似度值越大，则方法将筛选出的新闻文章篇数越少，表示筛选出更符合用户检索需求的新闻文章。此外，方法的筛选阈值可以依据用户需求、新闻文章内容的类型、用户对筛选结果的后期处理需求等多种因素来综合设定。当然，依据用户检索需求的新闻视角描述信息而构建的新闻视角词汇向量组、被检索的新闻文章样本范围等因素都会影响方法的检索准确度，为此，可通过方法的动态调节功能，对新闻视角词汇向量组的构建进行动态调整，从而提高方法检索的准确度。

在第二方案中，本发明提供一种多视角新闻信息快速检索系统，所述系统包括：

新闻视角词汇向量构建模块，用于依据用户检索的新闻视角描述信息，进行词汇分割，构建新闻视角词汇向量组B；其中，对新闻视角词汇向量组B中的不同新闻视角词汇向量A _j设置不同的权值；

，根据新闻视角词汇向量

和新闻视角词汇检索向量组B ^'中每个向量的相似度；

在第三方案中，本发明提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述多视角新闻信息快速检索方法。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在第四方案中，本发明提供一种终端，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机指令，处理器运行计算机指令时执行所述多视角新闻信息快速检索方法。

处理器可以是单核或者多核中央处理单元或者特定的集成电路，或者配置成实施本发明的一个或者多个集成电路。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的处理器包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

以上具体实施方式是对本发明的详细说明，不能认定本发明的具体实施方式只局限于这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替代，都应当视为属于本发明的保护范围。