CN115329051B - 一种多视角新闻信息快速检索方法、系统、存储介质及终端 - Google Patents
一种多视角新闻信息快速检索方法、系统、存储介质及终端 Download PDFInfo
- Publication number
- CN115329051B CN115329051B CN202211265167.1A CN202211265167A CN115329051B CN 115329051 B CN115329051 B CN 115329051B CN 202211265167 A CN202211265167 A CN 202211265167A CN 115329051 B CN115329051 B CN 115329051B
- Authority
- CN
- China
- Prior art keywords
- news
- vocabulary
- vector
- view
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 214
- 238000012216 screening Methods 0.000 claims abstract description 37
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 230000000007 visual effect Effects 0.000 claims abstract description 28
- 238000010276 construction Methods 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及信息检索领域,尤其涉及一种多视角新闻信息快速检索方法、系统、存储介质及终端。
背景技术
随着互联网+技术的发展,当前瞬息万变的信息时代会产生大量的新闻类文章,尤其针对当前新闻分析与情报检索部门需要利用信息检索技术依据用户需求对大量的新闻信息进行检索,从而筛选出用户需要的新闻文章。检索操作一般可采用常规人工检索方式在新闻信息中搜索指定信息进行新闻文章的筛选。当被检索的新闻文章篇数比较多,新闻信息量非常庞大时,则采用常规人工检索方式对每篇新闻文章信息进行搜索来确定该新闻文章内容是否符合用户的需求的操作显然效率比较低,检索速度慢。为了提高信息检索效率和速度,需要快速高效的信息检索技术来解决新闻信息检索问题。
信息检索技术一直是自然语言处理和数据挖掘研究的领域,其在知识挖掘、信息发现等方面都具有重要的研究意义,目前已有文献对信息检索技术进行了多方面的研究。虽然目前已有相关文献对信息检索技术进行研究,但针对新闻信息进行多类视角快速检索方法的研究还比较少。此外,用户的新闻检索需求在检索过程中会发生变化,现有的新闻检索方法中,不能根据用户的检索需求变化,动态调整检索策略,导致最终的检索结果不满足用户的需求,重新构建检索式进行检索,也会导致检索效率降低,增大工作量。
发明内容
本发明的目的在于克服现有技术中新闻检索存在的问题,提供了一种多视角新闻信息快速检索方法、系统、存储介质及终端,可以从不同类别新闻视角对新闻信息库进行新闻文章内容的快速检索,从而筛选出需要的新闻文章,同时具有可适应性和设置灵活性,从而提高新闻文章检索效率。
本发明的目的是通过以下技术方案来实现的:
在第一方案中,提供一种多视角新闻信息快速检索方法,所述方法包括以下步骤:
S1、构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
S3、从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量,根据新闻视角词汇向量的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
S4、利用向量相似度计算模型依次计算新闻视角词汇向量A j 和新闻视角词汇检索向量组B '中每个向量的相似度;
S5、设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号;
S6、根据S5中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
具体地,从用户需要检索的互联网环境下的新闻数据库中获取相应的新闻文章文件,从新闻文章文件(如LexisNexis数据库产生的新闻文章多以Word格式文件进行存储)中抽取新闻数据并构建新闻信息库,新闻信息库由每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息、新闻正文内容等部分组成。依据用户检索的新闻视角描述信息,进行词汇分割与分析,构建对应的新闻视角词汇向量。如果检索的新闻视角描述信息类别有多个,则分别构建由多类新闻视角词汇向量组成的新闻视角词汇向量组B。
从向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量,将向量的词汇在新闻信息库中对每篇新闻文章内容进行检索,根据检索结果,构建对应的新闻视角词汇检索向量。依据向量组B中的多类新闻视角,则构建新闻视角词汇检索向量组B ';从向量组B中依次提取每个类别构建的新闻视角词汇向量,从向量组B '中依次提取每个类别构建的新闻视角词汇检索向量组,利用向量相似度计算模型依次计算向量和向量组中的每个向量的相似度;依据向量相似度计算结果,从新闻信息库中筛选出满足大于筛选阈值的新闻文章编号index;依据新闻文章编号index,从新闻信息库中提取出对应的新闻文章内容信息。
其中,向量组的构建、向量的权值和分布权值可根据用户的需求进行实时调整,筛选阈值可以根据用户的检索需求进行动态设定,使得本方法具有可适应性和设置灵活性。
在一个示例中,一种多视角新闻信息快速检索方法,所述S4具体包括:
其中,
;是检索新闻信息库的第index篇新闻文章内容后构建的新闻视角词汇检索向量,j表示新闻视角描述信息的类别,n表示新闻视角词汇向量的个数也是基于用户检索需求的新闻视角类别个数,表示新闻视角词汇向量的权值,p为新闻信息库的新闻文章总篇数,表示检索第index篇新闻文章后,该词汇在新闻文章内容中的分布权值,为第j类新闻视角词汇向量和新闻视角词汇检索向量的夹角。
在一个示例中,一种多视角新闻信息快速检索方法,所述设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号,包括:
在一个示例中,一种多视角新闻信息快速检索方法,所述新闻信息库中的新闻文章多以Word格式文件进行存储。
在第二方案中,提供一种多视角新闻信息快速检索系统,所述系统包括:
新闻信息库构建模块,用于构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
新闻视角词汇检索向量构建模块,用于从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量,根据新闻视角词汇向量的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
筛选模块,用于设定筛选阈值,从相似度计算模块中筛选出大于筛选阈值的新闻文章编号;
新闻文章提取模块,用于根据筛选模块中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
在第三方案中,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述多视角新闻信息快速检索方法。
在第四方案中,提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行所述多视角新闻信息快速检索方法。
需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
(1)本发明将用户需求的多类视角新闻描述信息转换为向量进行处理,同时,利用向量相似度计算模型进行新闻文章的筛选,提高新闻文章检索效率,通过调整向量组的构建、向量的权值和分布权值,使得本方法具有可适应性
(2)本发明可以依据用户检索需求和检索新闻文章内容类别实现新闻视角词汇向量组的动态重构,从而调节算法检索的准确度和筛选的新闻文章篇数,使得算法检索具有设置灵活性,同时提高检索的准确度。
附图说明
图1为本发明实施例示出的一种多视角新闻信息快速检索方法;
图2为本发明实施例示出的向量间的夹角变化情况示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在一示例性实施中,提供一种多视角新闻信息快速检索方法,如图1所示,所述方法包括以下步骤:
S1、构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
S3、从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量,根据新闻视角词汇向量的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
S5、设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号;
S6、根据S5中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
具体地,对新闻信息的检索,一般是依据设定的新闻视角描述信息对新闻信息库进行检索,从而按照用户需求的新闻视角从新闻信息库中筛选出与新闻视角吻合的新闻文章。为了对新闻内容信息进行检索,实现的关键是依据新闻视角描述信息构建新闻视角词汇向量,构建新闻视角词汇向量的操作步骤主要体现为从新闻视角描述信息中分割生成新闻视角词汇(其中,1≤i≤新闻视角描述信息分割的总词汇数),新闻视角词汇的分割形式一般可以依据用户的需求进行分析确定。
表1中,设定的权值最大值为2,具体地权值等级设定规则也可以依据用户的需求进行动态调整。
其中,(,)代表该新闻视角描述信息的第i个带权词汇分量,其中表示为词汇的权值;m表示为向量A的总分量数。由此可见,针对一类新闻视角描述信息可以构建一个带权词汇的新闻视角词汇向量。根据用户的需求,可以依据用户提出的多类新闻视角描述信息,对每类新闻视角描述信息进行分割和分析处理,构建多个带权词汇的新闻视角词汇向量组B:
在新闻信息检索过程中,检索准确度对检索效率至关重要,为了提高检索的准确度,需要确定新闻视角词汇向量的每个词汇在新闻信息库中的分布情况,从而为后期向量相似度计算提供计算依据,为此,在方法中,提取B中新闻视角词汇向量中的每个词汇分量,在新闻信息库的每篇新闻文章中检索每个词汇在新闻文章内容中的分布情况,依据词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值。在词汇检索过程中,不同词汇在新闻文章中会出现在不同位置,如:有些词汇出现在新闻文章内容中的不同位置(新闻文章标题、新闻文章热点描述、新闻文章正文描述等),而有些词汇没有出现在新闻文章内容中。为了记录词汇检索的情况,标识词汇对新闻文章信息的重要程序,则根据词汇检索结果,设定每个词汇的分布权值k,利用k值表示词汇在该篇新闻文章内容中出现的重要程度,k值越大,表示词汇在该篇新闻文章内容中分布的位置越重要。这里k值的设定规则如表2所示。另外,该权值设定规则仍然可以依据新闻文章格式变化而进行动态调整。
表2词汇分布权值k的设定规则
<i>k</i>值 | 含义 |
0 | 词汇没有出现在新闻文章中 |
1 | 词汇出现在新闻文章正文 |
2 | 词汇出现在新闻文章热点描述 |
3 | 词汇出现在新闻文章标题 |
根据B中新闻视角词汇在新闻文章中的检索结果,构建新闻视角词汇检索向量组B ':
其中,为利用第j类新闻视角词汇向量检索新闻信息库中的每篇新闻文章内容后构建的新闻视角词汇检索向量组;为中的词汇分量检索新闻信息库的第index篇新闻文章内容后构建的新闻视角词汇检索向量;index为新闻信息库中被检索的新闻文章编号(新闻文章编号在构建新闻信息库时已确定);表示检索第index篇新闻文章后,词汇在新闻文章中的分布权值;p为新闻信息库的新闻文章总篇数;n为基于用户检索需求的新闻视角类别个数。
构建新闻视角词汇检索向量目的是为方法后期进行新闻信息匹配的向量相似度计算提供计算依据,也为提高信息检索的准确度提供支持。
具体地,在新闻信息检索过程中,需要筛选出符合用户需求的新闻信息,由此,检索信息的效率主要依据检索准确度,而检索准确度又依赖于新闻视角描述信息和新闻文章内容的文本相似度。为此,在方法中构建向量相似度计算模型来判断新闻文章内容和新闻视角描述信息的吻合度。
在方法中,如果依据第j类新闻视角描述信息在新闻信息库中检索新闻文章内容,则先根据指定的第j类新闻视角描述信息构建新闻视角词汇向量;然后将的词汇分量在新闻信息库中对新闻文章进行检索,构建新闻视角词汇检索向量组。每一篇新闻文章检索后会构建一个新闻视角词汇检索向量(这里index为新闻信息库中被检索的新闻文章编号),那么就由多个向量构成。为了筛选出符合第j类新闻视角描述信息的新闻文章,构建向量和相似度计算模型,利用该计算模型判断信息检索的吻合度。
其中,
; n表示新闻视角词汇向量的个数也是基于用户检索需求的新闻视角类别个数,为第j类新闻视角词汇向量和新闻视角词汇检索向量的夹角。计算夹角的余弦值,该值作为向量和向量的相似度,相似度值越大,则向量和向量的夹角越小,表明越靠近,则说明了按照向量在新闻信息库中第index篇新闻文章内容与用户检索的新闻视角描述信息越吻合。
进一步地,向量间的夹角变化如图2所示,在图2中, ,则表示第a篇新闻文章内容比第b篇新闻文章内容更吻合第j类新闻视角描述信息的检索需求。在求向量间夹角余弦值时,除以向量的模则表明已对向量长度进行了标准化处理。由此可见,利用式4,计算和中的每个向量的相似度值,可以依据第j类新闻视角描述信息在新闻信息库中检索出符合用户需求的新闻文章。同理,如果用户需求的检索新闻视角信息有多类,则仍然可以利用相似度计算模型计算向量组B中每类新闻视角描述信息构建的新闻视角词汇向量和对应的的相似度值,从而可以筛选出多类新闻视角描述信息在新闻信息库中的检索结果。
在一个示例中,一种多视角新闻信息快速检索方法,所述设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号,包括:
在一个示例中,以三类新闻视角为例,提供一种多视角新闻信息快速检索方法,所述新闻信息库中的新闻文章多以Word格式文件进行存储。方法采用Java语言编程实现。首先从要搜索的新闻库中获取新闻文章Word文件。根据用户检索需求设置三类新闻视角或更多类新闻视角,具体可根据实际需求实时调节。然后对每一类新闻视角设定新闻视角描述信息,以三类新闻视角为例,对信息进行词汇分割和分析后,构建第一类、第二类、第三类新闻视角词汇向量A 1、A 2、A 3,并对其中每一个词汇名进行权值设定。
在一示例中,权值设定为1表示该词汇为分割分析后对应的词汇;权值设定为2表示该词汇是用户指定需要直接检索的词汇,权值越高,表示该词汇在新闻信息检索过程中的重要程序越高。
进一步地,当构建了三类新闻视角描述信息的新闻视角词汇向量后,方法对新闻信息库中每篇新闻文章内容进行检索,从而构建新闻视角词汇检索向量,构建的第一类、第二类、第三类新闻视角词汇检索向量组。将每一类新闻视角词汇检索向量组中的词汇在不同新闻文章中进行检索,并根据检索结果来设置词汇分布权值。其中,词汇分布权值为3表示该词汇分布在对应编号的新闻文章标题;词汇分布权值为2表示该词汇分布在对应编号的新闻文章热点描述;词汇分布权值为1表示该词汇分布在对应编号的新闻文章正文;词汇分布权值为0表示该词汇没有分布在对应编号的新闻文章中。具体的词汇分布权值可根据用户需求进行调整。词汇在新闻文章内容中的分布权值之和越大,方法后期处理的相似度计算结果也会越大,该篇新闻文章内容越吻合需要检索的新闻视角描述信息,从而越容易被筛选出来。
最后依据向量相似度计算模型,对新闻信息库的新闻文章内容按照三类不同新闻视角同时进行快速检索,对每一类新闻视角,当相似度值越大,则方法将筛选出的新闻文章篇数越少,表示筛选出更符合用户检索需求的新闻文章。此外,方法的筛选阈值可以依据用户需求、新闻文章内容的类型、用户对筛选结果的后期处理需求等多种因素来综合设定。当然,依据用户检索需求的新闻视角描述信息而构建的新闻视角词汇向量组、被检索的新闻文章样本范围等因素都会影响方法的检索准确度,为此,可通过方法的动态调节功能,对新闻视角词汇向量组的构建进行动态调整,从而提高方法检索的准确度。
在第二方案中,本发明提供一种多视角新闻信息快速检索系统,所述系统包括:
新闻信息库构建模块,用于构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
新闻视角词汇向量构建模块,用于依据用户检索的新闻视角描述信息,进行词汇分割,构建新闻视角词汇向量组B;其中,对新闻视角词汇向量组B中的不同新闻视角词汇向量A j 设置不同的权值;
新闻视角词汇检索向量构建模块,用于从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量,根据新闻视角词汇向量的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
筛选模块,用于设定筛选阈值,从相似度计算模块中筛选出大于筛选阈值的新闻文章编号;
新闻文章提取模块,用于根据筛选模块中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
在第三方案中,本发明提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述多视角新闻信息快速检索方法。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在第四方案中,本发明提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行所述多视角新闻信息快速检索方法。
处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的处理器包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
Claims (8)
1.一种多视角新闻信息快速检索方法,其特征在于,所述方法包括以下步骤:
S1、构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
S3、从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量,根据新闻视角词汇向量的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
其中,
; n表示基于用户检索需求的新闻视角类别个数,为第j类新闻视角词汇向量和新闻视角词汇检索向量的夹角;i表示依据用户设定的第j类新闻视角描述信息构建的新闻视角词汇向量A j 中的词汇分量下标值;w i,j 表示向量A j 中的第i个新闻视角词汇的权值,m j 表示向量A j 中的新闻视角词汇分量总数;
S5、设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号;
S6、根据S5中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
5.根据权利要求1所述的一种多视角新闻信息快速检索方法,其特征在于,所述新闻信息库中的新闻文章多以Word格式文件进行存储。
6.一种多视角新闻信息快速检索系统,其特征在于,所述系统包括:
新闻信息库构建模块,用于构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
新闻视角词汇检索向量构建模块,用于从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量,根据新闻视角词汇向量的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
其中,
; n表示新闻视角词汇向量的个数也是基于用户检索需求的新闻视角类别个数,为第j类新闻视角词汇向量和新闻视角词汇检索向量的夹角;i表示依据用户设定的第j类新闻视角描述信息构建的新闻视角词汇向量A j 中的词汇分量下标值;w i,j 表示向量A j 中的第i个新闻视角词汇的权值,m j 表示向量A j 中的新闻视角词汇分量总数;
筛选模块,用于设定筛选阈值,从相似度计算模块中筛选出大于筛选阈值的新闻文章编号;
新闻文章提取模块,用于根据筛选模块中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
7.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-5中任意一项所述多视角新闻信息快速检索方法。
8.一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,其特征在于,处理器运行计算机指令时执行权利要求1-5中任意一项所述多视角新闻信息快速检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211265167.1A CN115329051B (zh) | 2022-10-17 | 2022-10-17 | 一种多视角新闻信息快速检索方法、系统、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211265167.1A CN115329051B (zh) | 2022-10-17 | 2022-10-17 | 一种多视角新闻信息快速检索方法、系统、存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115329051A CN115329051A (zh) | 2022-11-11 |
CN115329051B true CN115329051B (zh) | 2022-12-20 |
Family
ID=83915446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211265167.1A Active CN115329051B (zh) | 2022-10-17 | 2022-10-17 | 一种多视角新闻信息快速检索方法、系统、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329051B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2083364A1 (en) * | 2008-01-25 | 2009-07-29 | DEVONtechnologies, LLC | Method for retrieving a document, a computer-readable medium, a computer program product, and a system that facilitates retrieving a document |
CN101714145A (zh) * | 2008-10-07 | 2010-05-26 | 英业达股份有限公司 | 一种网站新闻分析系统及其方法 |
CN105447026A (zh) * | 2014-08-27 | 2016-03-30 | 南京理工大学常熟研究院有限公司 | 基于多视角图中最小权重连通决定集的Web信息提取方法 |
CN109800413A (zh) * | 2018-12-11 | 2019-05-24 | 北京百度网讯科技有限公司 | 新闻事件的识别方法、装置、设备及可读存储介质 |
CN109948121A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文章相似度挖掘方法、系统、设备及存储介质 |
CN111159361A (zh) * | 2019-12-30 | 2020-05-15 | 北京阿尔山区块链联盟科技有限公司 | 获取文章的方法和装置及电子设备 |
CN112136126A (zh) * | 2018-03-23 | 2020-12-25 | 株式会社半导体能源研究所 | 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质 |
CN113220865A (zh) * | 2021-04-15 | 2021-08-06 | 山东师范大学 | 一种文本相似词汇检索方法、系统、介质及电子设备 |
CN114780491A (zh) * | 2022-05-16 | 2022-07-22 | 中国银行股份有限公司 | 文件检索方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170177717A1 (en) * | 2015-12-21 | 2017-06-22 | The Knife, LLC | Rating a level of journalistic distortion in news media content |
CN108170773A (zh) * | 2017-12-26 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 新闻事件挖掘方法、装置、计算机设备和存储介质 |
CN111625647B (zh) * | 2020-05-25 | 2023-05-02 | 王旭 | 一种无监督的新闻自动分类方法 |
-
2022
- 2022-10-17 CN CN202211265167.1A patent/CN115329051B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2083364A1 (en) * | 2008-01-25 | 2009-07-29 | DEVONtechnologies, LLC | Method for retrieving a document, a computer-readable medium, a computer program product, and a system that facilitates retrieving a document |
CN101714145A (zh) * | 2008-10-07 | 2010-05-26 | 英业达股份有限公司 | 一种网站新闻分析系统及其方法 |
CN105447026A (zh) * | 2014-08-27 | 2016-03-30 | 南京理工大学常熟研究院有限公司 | 基于多视角图中最小权重连通决定集的Web信息提取方法 |
CN109948121A (zh) * | 2017-12-20 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 文章相似度挖掘方法、系统、设备及存储介质 |
CN112136126A (zh) * | 2018-03-23 | 2020-12-25 | 株式会社半导体能源研究所 | 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质 |
CN109800413A (zh) * | 2018-12-11 | 2019-05-24 | 北京百度网讯科技有限公司 | 新闻事件的识别方法、装置、设备及可读存储介质 |
CN111159361A (zh) * | 2019-12-30 | 2020-05-15 | 北京阿尔山区块链联盟科技有限公司 | 获取文章的方法和装置及电子设备 |
CN113220865A (zh) * | 2021-04-15 | 2021-08-06 | 山东师范大学 | 一种文本相似词汇检索方法、系统、介质及电子设备 |
CN114780491A (zh) * | 2022-05-16 | 2022-07-22 | 中国银行股份有限公司 | 文件检索方法及装置 |
Non-Patent Citations (4)
Title |
---|
Thematic Learning-based Full-text Retrieval Research on British and American Journalistic Reading;Jiang-xia YU 等;《2019 14th International Conference on Computer Science & Education (ICCSE)》;20190923;611-615 * |
一种新闻类WORD格式文件数据抽取算法研究;张志强 等;《成都大学学报(自然科学版)》;20220630;第41卷(第2期);151-156 * |
基于N-Level VSM在Web信息检索中的研究;付克志 等;《计算机工程与应用》;20060701(第19期);162-164+183 * |
基于语义分组向量空间模型的Web新闻检索算法;王强 等;《电子科技》;20110415(第04期);28-30 * |
Also Published As
Publication number | Publication date |
---|---|
CN115329051A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189991B (zh) | 重复视频识别方法、装置、终端及计算机可读存储介质 | |
US10452691B2 (en) | Method and apparatus for generating search results using inverted index | |
CN108319627B (zh) | 关键词提取方法以及关键词提取装置 | |
US20070106405A1 (en) | Method and system to provide reference data for identification of digital content | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
CN112035598A (zh) | 一种智能语义检索方法、系统和电子设备 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109299383B (zh) | 生成推荐词的方法、装置、电子设备及存储介质 | |
US20130339373A1 (en) | Method and system of filtering and recommending documents | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
JP7451747B2 (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
Kiktova-Vozarikova et al. | Feature selection for acoustic events detection | |
CN101727447A (zh) | 基于url的正则表达式的生成方法和装置 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN110532352B (zh) | 文本查重方法及装置、计算机可读存储介质、电子设备 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
KR20180129001A (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
CN108345694B (zh) | 一种基于主题数据库的文献检索方法及系统 | |
CN115658851A (zh) | 基于主题的医学文献检索方法、系统、存储介质及终端 | |
CN115329048A (zh) | 一种语句检索的方法及装置、电子设备、存储介质 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
Prasanth et al. | Effective big data retrieval using deep learning modified neural networks | |
CN105550308B (zh) | 一种信息处理方法,检索方法及电子设备 | |
CN112287217B (zh) | 医学文献检索方法、装置、电子设备及存储介质 | |
CN107908649B (zh) | 一种文本分类的控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |