CN115329051B - 一种多视角新闻信息快速检索方法、系统、存储介质及终端 - Google Patents

一种多视角新闻信息快速检索方法、系统、存储介质及终端 Download PDF

Info

Publication number
CN115329051B
CN115329051B CN202211265167.1A CN202211265167A CN115329051B CN 115329051 B CN115329051 B CN 115329051B CN 202211265167 A CN202211265167 A CN 202211265167A CN 115329051 B CN115329051 B CN 115329051B
Authority
CN
China
Prior art keywords
news
vocabulary
vector
view
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211265167.1A
Other languages
English (en)
Other versions
CN115329051A (zh
Inventor
张志强
王伟钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University
Original Assignee
Chengdu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University filed Critical Chengdu University
Priority to CN202211265167.1A priority Critical patent/CN115329051B/zh
Publication of CN115329051A publication Critical patent/CN115329051A/zh
Application granted granted Critical
Publication of CN115329051B publication Critical patent/CN115329051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多视角新闻信息快速检索方法、系统、存储介质及终端,包括:依据用户检索的新闻视角描述信息,进行词汇分割,构建新闻视角词汇向量组B;其中,对新闻视角词汇向量组B中的不同新闻视角词汇向量
Figure 871062DEST_PATH_IMAGE001
设置不同的权值;根据新闻视角词汇向量
Figure 513396DEST_PATH_IMAGE001
的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ',并标识出该词汇在新闻文章内容中的分布权值。本发明将用户需求的多类视角新闻描述信息转换为向量进行处理,同时,利用向量相似度计算模型进行新闻文章的筛选,提高新闻文章检索效率,通过调整向量组的构建、向量的权值和分布权值,使得本方法具有可适应性和设置灵活性。

Description

一种多视角新闻信息快速检索方法、系统、存储介质及终端
技术领域
本发明涉及信息检索领域,尤其涉及一种多视角新闻信息快速检索方法、系统、存储介质及终端。
背景技术
随着互联网+技术的发展,当前瞬息万变的信息时代会产生大量的新闻类文章,尤其针对当前新闻分析与情报检索部门需要利用信息检索技术依据用户需求对大量的新闻信息进行检索,从而筛选出用户需要的新闻文章。检索操作一般可采用常规人工检索方式在新闻信息中搜索指定信息进行新闻文章的筛选。当被检索的新闻文章篇数比较多,新闻信息量非常庞大时,则采用常规人工检索方式对每篇新闻文章信息进行搜索来确定该新闻文章内容是否符合用户的需求的操作显然效率比较低,检索速度慢。为了提高信息检索效率和速度,需要快速高效的信息检索技术来解决新闻信息检索问题。
信息检索技术一直是自然语言处理和数据挖掘研究的领域,其在知识挖掘、信息发现等方面都具有重要的研究意义,目前已有文献对信息检索技术进行了多方面的研究。虽然目前已有相关文献对信息检索技术进行研究,但针对新闻信息进行多类视角快速检索方法的研究还比较少。此外,用户的新闻检索需求在检索过程中会发生变化,现有的新闻检索方法中,不能根据用户的检索需求变化,动态调整检索策略,导致最终的检索结果不满足用户的需求,重新构建检索式进行检索,也会导致检索效率降低,增大工作量。
发明内容
本发明的目的在于克服现有技术中新闻检索存在的问题,提供了一种多视角新闻信息快速检索方法、系统、存储介质及终端,可以从不同类别新闻视角对新闻信息库进行新闻文章内容的快速检索,从而筛选出需要的新闻文章,同时具有可适应性和设置灵活性,从而提高新闻文章检索效率。
本发明的目的是通过以下技术方案来实现的:
在第一方案中,提供一种多视角新闻信息快速检索方法,所述方法包括以下步骤:
S1、构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
S2、依据用户检索的新闻视角描述信息,进行词汇分割,构建新闻视角词汇向量组B;其中,对新闻视角词汇向量组B中的不同新闻视角词汇向量
Figure 128592DEST_PATH_IMAGE001
设置不同的权值;
S3、从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量
Figure 485756DEST_PATH_IMAGE001
,根据新闻视角词汇向量
Figure 899419DEST_PATH_IMAGE001
的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量
Figure 907695DEST_PATH_IMAGE001
的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
S4、利用向量相似度计算模型依次计算新闻视角词汇向量A j 和新闻视角词汇检索向量组B '中每个向量的相似度;
S5、设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号;
S6、根据S5中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
具体地,从用户需要检索的互联网环境下的新闻数据库中获取相应的新闻文章文件,从新闻文章文件(如LexisNexis数据库产生的新闻文章多以Word格式文件进行存储)中抽取新闻数据并构建新闻信息库,新闻信息库由每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息、新闻正文内容等部分组成。依据用户检索的新闻视角描述信息,进行词汇分割与分析,构建对应的新闻视角词汇向量
Figure 584664DEST_PATH_IMAGE001
。如果检索的新闻视角描述信息类别有多个,则分别构建由多类新闻视角词汇向量组成的新闻视角词汇向量组B
从向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量
Figure 553757DEST_PATH_IMAGE001
,将向量
Figure 380899DEST_PATH_IMAGE001
的词汇在新闻信息库中对每篇新闻文章内容进行检索,根据检索结果,构建对应的新闻视角词汇检索向量
Figure 384627DEST_PATH_IMAGE002
。依据向量组B中的多类新闻视角,则构建新闻视角词汇检索向量组B ';从向量组B中依次提取每个类别构建的新闻视角词汇向量
Figure 153869DEST_PATH_IMAGE001
,从向量组B '中依次提取每个类别构建的新闻视角词汇检索向量组
Figure 875837DEST_PATH_IMAGE002
,利用向量相似度计算模型依次计算向量
Figure 506670DEST_PATH_IMAGE001
和向量组
Figure 302588DEST_PATH_IMAGE002
中的每个向量的相似度;依据向量相似度计算结果,从新闻信息库中筛选出满足大于筛选阈值的新闻文章编号index;依据新闻文章编号index,从新闻信息库中提取出对应的新闻文章内容信息。
其中,向量组的构建、向量的权值和分布权值可根据用户的需求进行实时调整,筛选阈值可以根据用户的检索需求进行动态设定,使得本方法具有可适应性和设置灵活性。
在一个示例中,一种多视角新闻信息快速检索方法,所述对新闻视角词汇向量组B中的不同新闻视角词汇向量
Figure 118097DEST_PATH_IMAGE001
设置不同的权值,包括:
根据不同新闻视角词汇向量
Figure 180557DEST_PATH_IMAGE001
在新闻信息检索过程中的重要程度,设定不同的权值,权值的等级设定规则依据用户的需求进行动态调整。
在一个示例中,一种多视角新闻信息快速检索方法,所述根据新闻视角词汇向量
Figure 739714DEST_PATH_IMAGE001
的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值,包括:
标记出新闻视角词汇向量
Figure 327821DEST_PATH_IMAGE001
的词汇在每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容的分布情况。
在一个示例中,一种多视角新闻信息快速检索方法,所述S4具体包括:
新闻视角词汇向量
Figure 314232DEST_PATH_IMAGE001
和新闻视角词汇检索向量组B '中每个向量的相似度计算模型如下:
Figure 604268DEST_PATH_IMAGE004
其中,
Figure 701537DEST_PATH_IMAGE006
Figure 409730DEST_PATH_IMAGE008
Figure 301462DEST_PATH_IMAGE010
Figure 344374DEST_PATH_IMAGE012
是检索新闻信息库的第index篇新闻文章内容后构建的新闻视角词汇检索向量,j表示新闻视角描述信息的类别,n表示新闻视角词汇向量
Figure 917437DEST_PATH_IMAGE001
的个数也是基于用户检索需求的新闻视角类别个数,
Figure 339191DEST_PATH_IMAGE013
表示新闻视角词汇向量
Figure 792038DEST_PATH_IMAGE001
的权值,p为新闻信息库的新闻文章总篇数,
Figure 932033DEST_PATH_IMAGE015
表示检索第index篇新闻文章后,该词汇在新闻文章内容中的分布权值,
Figure 512050DEST_PATH_IMAGE017
为第j类新闻视角词汇向量
Figure 53889DEST_PATH_IMAGE001
和新闻视角词汇检索向量
Figure 677638DEST_PATH_IMAGE018
的夹角。
在一个示例中,一种多视角新闻信息快速检索方法,所述
Figure 304928DEST_PATH_IMAGE019
越小,则新闻信息库中第index篇新闻文章内容与用户检索的新闻视角描述信息越吻合。
在一个示例中,一种多视角新闻信息快速检索方法,所述设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号,包括:
从新闻信息库中筛选出满足条件
Figure 423057DEST_PATH_IMAGE021
的的新闻文章编号index,其中
Figure 819403DEST_PATH_IMAGE023
为第j类新闻视角描述信息检索结果的筛选阈值。
在一个示例中,一种多视角新闻信息快速检索方法,所述新闻信息库中的新闻文章多以Word格式文件进行存储。
在第二方案中,提供一种多视角新闻信息快速检索系统,所述系统包括:
新闻信息库构建模块,用于构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
新闻视角词汇向量构建模块,用于依据用户检索的新闻视角描述信息,进行词汇分割,构建新闻视角词汇向量组B;其中,对新闻视角词汇向量组B中的不同新闻视角词汇向量
Figure 614053DEST_PATH_IMAGE001
设置不同的权值;
新闻视角词汇检索向量构建模块,用于从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量
Figure 728639DEST_PATH_IMAGE001
,根据新闻视角词汇向量
Figure 384880DEST_PATH_IMAGE001
的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量
Figure 635732DEST_PATH_IMAGE001
的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
相似度计算模块,用于利用向量相似度计算模型依次计算新闻视角词汇向量
Figure 601283DEST_PATH_IMAGE001
和新闻视角词汇检索向量组B '中每个向量的相似度;
筛选模块,用于设定筛选阈值,从相似度计算模块中筛选出大于筛选阈值的新闻文章编号;
新闻文章提取模块,用于根据筛选模块中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
在第三方案中,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述多视角新闻信息快速检索方法。
在第四方案中,提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行所述多视角新闻信息快速检索方法。
需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
(1)本发明将用户需求的多类视角新闻描述信息转换为向量进行处理,同时,利用向量相似度计算模型进行新闻文章的筛选,提高新闻文章检索效率,通过调整向量组的构建、向量的权值和分布权值,使得本方法具有可适应性
(2)本发明可以依据用户检索需求和检索新闻文章内容类别实现新闻视角词汇向量组的动态重构,从而调节算法检索的准确度和筛选的新闻文章篇数,使得算法检索具有设置灵活性,同时提高检索的准确度。
附图说明
图1为本发明实施例示出的一种多视角新闻信息快速检索方法;
图2为本发明实施例示出的向量间的夹角变化情况示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在一示例性实施中,提供一种多视角新闻信息快速检索方法,如图1所示,所述方法包括以下步骤:
S1、构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
S2、依据用户检索的新闻视角描述信息,进行词汇分割,构建新闻视角词汇向量组B;其中,对新闻视角词汇向量组B中的不同新闻视角词汇向量
Figure 203166DEST_PATH_IMAGE001
设置不同的权值;
S3、从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量
Figure 663097DEST_PATH_IMAGE001
,根据新闻视角词汇向量
Figure 34036DEST_PATH_IMAGE001
的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量
Figure 170488DEST_PATH_IMAGE001
的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
S4、利用向量相似度计算模型依次计算新闻视角词汇向量
Figure 994087DEST_PATH_IMAGE001
和新闻视角词汇检索向量组B '中每个向量的相似度;
S5、设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号;
S6、根据S5中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
具体地,对新闻信息的检索,一般是依据设定的新闻视角描述信息对新闻信息库进行检索,从而按照用户需求的新闻视角从新闻信息库中筛选出与新闻视角吻合的新闻文章。为了对新闻内容信息进行检索,实现的关键是依据新闻视角描述信息构建新闻视角词汇向量,构建新闻视角词汇向量的操作步骤主要体现为从新闻视角描述信息中分割生成新闻视角词汇
Figure 257710DEST_PATH_IMAGE025
(其中,1≤i≤新闻视角描述信息分割的总词汇数),新闻视角词汇的分割形式一般可以依据用户的需求进行分析确定。
在一个示例中,一种多视角新闻信息快速检索方法,所述对新闻视角词汇向量组B中的不同新闻视角词汇向量
Figure 483154DEST_PATH_IMAGE001
设置不同的权值,包括:
根据不同新闻视角词汇向量
Figure 796367DEST_PATH_IMAGE001
在新闻信息检索过程中的重要程度,设定不同的权值,权值的等级设定规则依据用户的需求进行动态调整。
具体地,为了体现词汇在新闻信息检索过程中的重要程度,对不同的词汇
Figure 44946DEST_PATH_IMAGE026
设定不同的权值
Figure 174576DEST_PATH_IMAGE013
,词汇权值可以根据新闻视角词汇的重要程度进行设定,词汇越重要,其权值设置越大,如表1所示,给出一种权值设定规则示例。
表1 新闻视角词汇权值
Figure 254528DEST_PATH_IMAGE013
的设定规则
Figure 998361DEST_PATH_IMAGE013
含义
1 新闻视角描述信息分割产生的词汇
2 用户指定直接检索的重要词汇
表1中,设定的权值最大值为2,具体地权值等级设定规则也可以依据用户的需求进行动态调整。
由此,按照用户的需求,将一类新闻视角描述信息进行分割,以(
Figure 468657DEST_PATH_IMAGE027
Figure 198716DEST_PATH_IMAGE013
)为数据项单位,构建一个带权词汇的新闻视角词汇向量A
Figure 257807DEST_PATH_IMAGE029
其中,(
Figure DEST_PATH_IMAGE030
Figure 454434DEST_PATH_IMAGE013
)代表该新闻视角描述信息的第i个带权词汇分量,其中
Figure 739921DEST_PATH_IMAGE013
表示为词汇
Figure 211354DEST_PATH_IMAGE031
的权值;m表示为向量A的总分量数。由此可见,针对一类新闻视角描述信息可以构建一个带权词汇的新闻视角词汇向量。根据用户的需求,可以依据用户提出的多类新闻视角描述信息,对每类新闻视角描述信息进行分割和分析处理,构建多个带权词汇的新闻视角词汇向量组B
Figure 187269DEST_PATH_IMAGE033
其中,B为n个向量
Figure 351534DEST_PATH_IMAGE001
组成的向量组;
Figure 734105DEST_PATH_IMAGE001
表示依据第j类新闻视角描述信息构建的新闻视角词汇向量;
Figure 805966DEST_PATH_IMAGE034
Figure 901967DEST_PATH_IMAGE001
的总分量数;n为基于用户检索需求的新闻视角类别个数。
进一步地,在一个示例中,一种多视角新闻信息快速检索方法,所述根据新闻视角词汇向量
Figure 643658DEST_PATH_IMAGE001
的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值,包括:
标记出新闻视角词汇向量
Figure 903738DEST_PATH_IMAGE001
的词汇在每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容的分布情况。
在新闻信息检索过程中,检索准确度对检索效率至关重要,为了提高检索的准确度,需要确定新闻视角词汇向量的每个词汇在新闻信息库中的分布情况,从而为后期向量相似度计算提供计算依据,为此,在方法中,提取B中新闻视角词汇向量
Figure 372766DEST_PATH_IMAGE001
中的每个词汇分量
Figure 401902DEST_PATH_IMAGE036
,在新闻信息库的每篇新闻文章中检索每个词汇
Figure DEST_PATH_IMAGE037
在新闻文章内容中的分布情况,依据词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值。在词汇检索过程中,不同词汇在新闻文章中会出现在不同位置,如:有些词汇出现在新闻文章内容中的不同位置(新闻文章标题、新闻文章热点描述、新闻文章正文描述等),而有些词汇没有出现在新闻文章内容中。为了记录词汇检索的情况,标识词汇对新闻文章信息的重要程序,则根据词汇检索结果,设定每个词汇的分布权值k,利用k值表示词汇在该篇新闻文章内容中出现的重要程度,k值越大,表示词汇在该篇新闻文章内容中分布的位置越重要。这里k值的设定规则如表2所示。另外,该权值设定规则仍然可以依据新闻文章格式变化而进行动态调整。
表2词汇分布权值k的设定规则
<i>k</i>值 含义
0 词汇没有出现在新闻文章中
1 词汇出现在新闻文章正文
2 词汇出现在新闻文章热点描述
3 词汇出现在新闻文章标题
根据B中新闻视角词汇在新闻文章中的检索结果,构建新闻视角词汇检索向量组B '
Figure DEST_PATH_IMAGE039
其中,
Figure 767024DEST_PATH_IMAGE002
为利用第j类新闻视角词汇向量检索新闻信息库中的每篇新闻文章内容后构建的新闻视角词汇检索向量组;
Figure 514400DEST_PATH_IMAGE011
Figure 537851DEST_PATH_IMAGE001
中的词汇分量
Figure 421493DEST_PATH_IMAGE040
检索新闻信息库的第index篇新闻文章内容后构建的新闻视角词汇检索向量;index为新闻信息库中被检索的新闻文章编号(新闻文章编号在构建新闻信息库时已确定);
Figure DEST_PATH_IMAGE041
表示检索第index篇新闻文章后,词汇
Figure 816571DEST_PATH_IMAGE042
在新闻文章中的分布权值;p为新闻信息库的新闻文章总篇数;n为基于用户检索需求的新闻视角类别个数。
构建新闻视角词汇检索向量目的是为方法后期进行新闻信息匹配的向量相似度计算提供计算依据,也为提高信息检索的准确度提供支持。
具体地,在新闻信息检索过程中,需要筛选出符合用户需求的新闻信息,由此,检索信息的效率主要依据检索准确度,而检索准确度又依赖于新闻视角描述信息和新闻文章内容的文本相似度。为此,在方法中构建向量相似度计算模型来判断新闻文章内容和新闻视角描述信息的吻合度。
在方法中,如果依据第j类新闻视角描述信息在新闻信息库中检索新闻文章内容,则先根据指定的第j类新闻视角描述信息构建新闻视角词汇向量
Figure 661031DEST_PATH_IMAGE001
;然后将
Figure 612806DEST_PATH_IMAGE001
的词汇分量在新闻信息库中对新闻文章进行检索,构建新闻视角词汇检索向量组
Figure 758746DEST_PATH_IMAGE002
。每一篇新闻文章检索后会构建一个新闻视角词汇检索向量
Figure 137775DEST_PATH_IMAGE011
(这里index为新闻信息库中被检索的新闻文章编号),那么
Figure 469530DEST_PATH_IMAGE002
就由多个向量
Figure DEST_PATH_IMAGE044
构成。为了筛选出符合第j类新闻视角描述信息的新闻文章,构建向量
Figure 880789DEST_PATH_IMAGE001
Figure 942286DEST_PATH_IMAGE011
相似度计算模型,利用该计算模型判断信息检索的吻合度。
进一步地,新闻视角词汇向量
Figure 757795DEST_PATH_IMAGE001
和新闻视角词汇检索向量组B '中每个向量的相似度计算模型如下:
Figure DEST_PATH_IMAGE045
其中,
Figure DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
; n表示新闻视角词汇向量
Figure 701480DEST_PATH_IMAGE001
的个数也是基于用户检索需求的新闻视角类别个数,
Figure 995058DEST_PATH_IMAGE016
为第j类新闻视角词汇向量
Figure 832433DEST_PATH_IMAGE001
和新闻视角词汇检索向量
Figure 818844DEST_PATH_IMAGE011
的夹角。计算夹角
Figure 125191DEST_PATH_IMAGE016
的余弦值,该值作为向量
Figure 222460DEST_PATH_IMAGE001
和向量
Figure 914342DEST_PATH_IMAGE011
的相似度,相似度值越大,则向量
Figure 71653DEST_PATH_IMAGE011
和向量
Figure 865297DEST_PATH_IMAGE001
的夹角
Figure 500678DEST_PATH_IMAGE016
越小,表明
Figure 312645DEST_PATH_IMAGE011
越靠近
Figure 640858DEST_PATH_IMAGE001
,则说明了按照向量
Figure 656219DEST_PATH_IMAGE001
在新闻信息库中第index篇新闻文章内容与用户检索的新闻视角描述信息越吻合。
进一步地,向量间的夹角变化如图2所示,在图2中,
Figure DEST_PATH_IMAGE049
,则表示第a篇新闻文章内容比第b篇新闻文章内容更吻合第j类新闻视角描述信息的检索需求。在求向量间夹角余弦值时,除以向量的模则表明已对向量长度进行了标准化处理。由此可见,利用式4,计算
Figure 16662DEST_PATH_IMAGE001
Figure 558501DEST_PATH_IMAGE002
中的每个向量
Figure 198561DEST_PATH_IMAGE011
的相似度值,可以依据第j类新闻视角描述信息在新闻信息库中检索出符合用户需求的新闻文章。同理,如果用户需求的检索新闻视角信息有多类,则仍然可以利用相似度计算模型计算向量组B中每类新闻视角描述信息构建的新闻视角词汇向量和对应的
Figure 825852DEST_PATH_IMAGE011
的相似度值,从而可以筛选出多类新闻视角描述信息在新闻信息库中的检索结果。
在一个示例中,一种多视角新闻信息快速检索方法,所述设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号,包括:
从新闻信息库中筛选出满足条件
Figure DEST_PATH_IMAGE050
的的新闻文章编号index,其中
Figure DEST_PATH_IMAGE051
为第j类新闻视角描述信息检索结果的筛选阈值。
在一个示例中,以三类新闻视角为例,提供一种多视角新闻信息快速检索方法,所述新闻信息库中的新闻文章多以Word格式文件进行存储。方法采用Java语言编程实现。首先从要搜索的新闻库中获取新闻文章Word文件。根据用户检索需求设置三类新闻视角或更多类新闻视角,具体可根据实际需求实时调节。然后对每一类新闻视角设定新闻视角描述信息,以三类新闻视角为例,对信息进行词汇分割和分析后,构建第一类、第二类、第三类新闻视角词汇向量A 1A 2A 3,并对其中每一个词汇名进行权值设定。
在一示例中,权值设定为1表示该词汇为分割分析后对应的词汇;权值设定为2表示该词汇是用户指定需要直接检索的词汇,权值越高,表示该词汇在新闻信息检索过程中的重要程序越高。
进一步地,当构建了三类新闻视角描述信息的新闻视角词汇向量后,方法对新闻信息库中每篇新闻文章内容进行检索,从而构建新闻视角词汇检索向量,构建的第一类、第二类、第三类新闻视角词汇检索向量组。将每一类新闻视角词汇检索向量组中的词汇在不同新闻文章中进行检索,并根据检索结果来设置词汇分布权值。其中,词汇分布权值为3表示该词汇分布在对应编号的新闻文章标题;词汇分布权值为2表示该词汇分布在对应编号的新闻文章热点描述;词汇分布权值为1表示该词汇分布在对应编号的新闻文章正文;词汇分布权值为0表示该词汇没有分布在对应编号的新闻文章中。具体的词汇分布权值可根据用户需求进行调整。词汇在新闻文章内容中的分布权值之和越大,方法后期处理的相似度计算结果也会越大,该篇新闻文章内容越吻合需要检索的新闻视角描述信息,从而越容易被筛选出来。
最后依据向量相似度计算模型,对新闻信息库的新闻文章内容按照三类不同新闻视角同时进行快速检索,对每一类新闻视角,当相似度值越大,则方法将筛选出的新闻文章篇数越少,表示筛选出更符合用户检索需求的新闻文章。此外,方法的筛选阈值可以依据用户需求、新闻文章内容的类型、用户对筛选结果的后期处理需求等多种因素来综合设定。当然,依据用户检索需求的新闻视角描述信息而构建的新闻视角词汇向量组、被检索的新闻文章样本范围等因素都会影响方法的检索准确度,为此,可通过方法的动态调节功能,对新闻视角词汇向量组的构建进行动态调整,从而提高方法检索的准确度。
在第二方案中,本发明提供一种多视角新闻信息快速检索系统,所述系统包括:
新闻信息库构建模块,用于构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
新闻视角词汇向量构建模块,用于依据用户检索的新闻视角描述信息,进行词汇分割,构建新闻视角词汇向量组B;其中,对新闻视角词汇向量组B中的不同新闻视角词汇向量A j 设置不同的权值;
新闻视角词汇检索向量构建模块,用于从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量
Figure 865352DEST_PATH_IMAGE001
,根据新闻视角词汇向量
Figure 527277DEST_PATH_IMAGE001
的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量
Figure 62207DEST_PATH_IMAGE001
的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
相似度计算模块,用于利用向量相似度计算模型依次计算新闻视角词汇向量
Figure 442373DEST_PATH_IMAGE001
和新闻视角词汇检索向量组B '中每个向量的相似度;
筛选模块,用于设定筛选阈值,从相似度计算模块中筛选出大于筛选阈值的新闻文章编号;
新闻文章提取模块,用于根据筛选模块中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
在第三方案中,本发明提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述多视角新闻信息快速检索方法。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在第四方案中,本发明提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行所述多视角新闻信息快速检索方法。
处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的处理器包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

Claims (8)

1.一种多视角新闻信息快速检索方法,其特征在于,所述方法包括以下步骤:
S1、构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
S2、依据用户检索的新闻视角描述信息,进行词汇分割,构建新闻视角词汇向量组B;其中,对新闻视角词汇向量组B中的不同新闻视角词汇向量
Figure 667006DEST_PATH_IMAGE001
设置不同的权值;
S3、从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量
Figure 915497DEST_PATH_IMAGE001
,根据新闻视角词汇向量
Figure 76351DEST_PATH_IMAGE002
的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量
Figure 30007DEST_PATH_IMAGE001
的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
S4、利用向量相似度计算模型依次计算新闻视角词汇向量
Figure 22234DEST_PATH_IMAGE001
和新闻视角词汇检索向量组B '中每个向量的相似度;所述新闻视角词汇向量
Figure 389761DEST_PATH_IMAGE003
和新闻视角词汇检索向量组B '中每个向量的相似度计算模型如下:
Figure 349496DEST_PATH_IMAGE004
其中,
Figure 359040DEST_PATH_IMAGE005
Figure 205774DEST_PATH_IMAGE006
Figure 275361DEST_PATH_IMAGE007
; n表示基于用户检索需求的新闻视角类别个数,
Figure 473124DEST_PATH_IMAGE008
为第j类新闻视角词汇向量
Figure 37091DEST_PATH_IMAGE003
和新闻视角词汇检索向量
Figure 269490DEST_PATH_IMAGE009
的夹角;i表示依据用户设定的第j类新闻视角描述信息构建的新闻视角词汇向量A j 中的词汇分量下标值;w i,j 表示向量A j 中的第i个新闻视角词汇的权值,m j 表示向量A j 中的新闻视角词汇分量总数;
计算夹角
Figure 244399DEST_PATH_IMAGE008
的余弦值,该值作为向量
Figure 929458DEST_PATH_IMAGE003
和向量
Figure 546384DEST_PATH_IMAGE009
的相似度,相似度值越大,则向量
Figure 616977DEST_PATH_IMAGE009
和向量
Figure 28367DEST_PATH_IMAGE003
的夹角
Figure 935143DEST_PATH_IMAGE008
越小,表明
Figure 90181DEST_PATH_IMAGE009
越靠近
Figure 31592DEST_PATH_IMAGE003
,则说明了按照向量
Figure 379264DEST_PATH_IMAGE003
在新闻信息库中第index篇新闻文章内容与用户检索的新闻视角描述信息越吻合;
S5、设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号;
S6、根据S5中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
2.根据权利要求1所述的一种多视角新闻信息快速检索方法,其特征在于,所述对新闻视角词汇向量组B中的不同新闻视角词汇向量
Figure 773336DEST_PATH_IMAGE001
设置不同的权值,包括:
根据不同新闻视角词汇向量
Figure 732065DEST_PATH_IMAGE001
在新闻信息检索过程中的重要程度,设定不同的权值,权值的等级设定规则依据用户的需求进行动态调整。
3.根据权利要求1所述的一种多视角新闻信息快速检索方法,其特征在于,所述根据新闻视角词汇向量
Figure 527983DEST_PATH_IMAGE010
的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值,包括:
标记出新闻视角词汇向量
Figure 530443DEST_PATH_IMAGE001
的词汇在每篇新闻文章的新闻题目、新闻热点描述信息以及新闻正文内容的分布情况。
4.根据权利要求1所述的一种多视角新闻信息快速检索方法,其特征在于,所述设定筛选阈值,从S4中计算的相似度中筛选出大于筛选阈值的新闻文章编号,包括:
从新闻信息库中筛选出满足条件
Figure 411811DEST_PATH_IMAGE011
的新闻文章编号index,其中
Figure 908652DEST_PATH_IMAGE012
为第j类新闻视角描述信息检索结果的筛选阈值。
5.根据权利要求1所述的一种多视角新闻信息快速检索方法,其特征在于,所述新闻信息库中的新闻文章多以Word格式文件进行存储。
6.一种多视角新闻信息快速检索系统,其特征在于,所述系统包括:
新闻信息库构建模块,用于构建新闻信息库,其中包括每篇新闻文章的新闻编号、新闻题目、新闻时间、新闻内容长度、新闻热点描述信息以及新闻正文内容;
新闻视角词汇向量构建模块,用于依据用户检索的新闻视角描述信息,进行词汇分割,构建新闻视角词汇向量组B;其中,对新闻视角词汇向量组B中的不同新闻视角词汇向量
Figure 559076DEST_PATH_IMAGE001
设置不同的权值;
新闻视角词汇检索向量构建模块,用于从新闻视角词汇向量组B中依次提取每个新闻视角类别构建的新闻视角词汇向量
Figure 748749DEST_PATH_IMAGE013
,根据新闻视角词汇向量
Figure 868146DEST_PATH_IMAGE001
的词汇在新闻信息库中对每篇新闻文章内容进行检索,并根据检索结果构建新闻视角词汇检索向量组B ';其中,根据新闻视角词汇向量
Figure 168677DEST_PATH_IMAGE001
的词汇出现在新闻文章内容的不同位置,标识出该词汇在新闻文章内容中的分布权值;
相似度计算模块,用于利用向量相似度计算模型依次计算新闻视角词汇向量
Figure 673608DEST_PATH_IMAGE001
和新闻视角词汇检索向量组B '中每个向量的相似度;新闻视角词汇向量
Figure 34182DEST_PATH_IMAGE003
和新闻视角词汇检索向量组B '中每个向量的相似度计算模型如下:
Figure 624563DEST_PATH_IMAGE004
其中,
Figure 712474DEST_PATH_IMAGE005
Figure 603069DEST_PATH_IMAGE014
Figure 868966DEST_PATH_IMAGE015
; n表示新闻视角词汇向量
Figure 212222DEST_PATH_IMAGE003
的个数也是基于用户检索需求的新闻视角类别个数,
Figure 588977DEST_PATH_IMAGE008
为第j类新闻视角词汇向量
Figure 816302DEST_PATH_IMAGE003
和新闻视角词汇检索向量
Figure 518679DEST_PATH_IMAGE009
的夹角;i表示依据用户设定的第j类新闻视角描述信息构建的新闻视角词汇向量A j 中的词汇分量下标值;w i,j 表示向量A j 中的第i个新闻视角词汇的权值,m j 表示向量A j 中的新闻视角词汇分量总数;
计算夹角
Figure 83653DEST_PATH_IMAGE008
的余弦值,该值作为向量
Figure 529678DEST_PATH_IMAGE003
和向量
Figure 129286DEST_PATH_IMAGE009
的相似度,相似度值越大,则向量
Figure 986253DEST_PATH_IMAGE009
和向量
Figure 38522DEST_PATH_IMAGE003
的夹角
Figure 22659DEST_PATH_IMAGE008
越小,表明
Figure 742353DEST_PATH_IMAGE009
越靠近
Figure 520953DEST_PATH_IMAGE003
,则说明了按照向量
Figure 545672DEST_PATH_IMAGE003
在新闻信息库中第index篇新闻文章内容与用户检索的新闻视角描述信息越吻合;
筛选模块,用于设定筛选阈值,从相似度计算模块中筛选出大于筛选阈值的新闻文章编号;
新闻文章提取模块,用于根据筛选模块中筛选出的新闻文章编号,从所述新闻信息库中提取出对应的新闻文章。
7.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-5中任意一项所述多视角新闻信息快速检索方法。
8.一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,其特征在于,处理器运行计算机指令时执行权利要求1-5中任意一项所述多视角新闻信息快速检索方法。
CN202211265167.1A 2022-10-17 2022-10-17 一种多视角新闻信息快速检索方法、系统、存储介质及终端 Active CN115329051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211265167.1A CN115329051B (zh) 2022-10-17 2022-10-17 一种多视角新闻信息快速检索方法、系统、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211265167.1A CN115329051B (zh) 2022-10-17 2022-10-17 一种多视角新闻信息快速检索方法、系统、存储介质及终端

Publications (2)

Publication Number Publication Date
CN115329051A CN115329051A (zh) 2022-11-11
CN115329051B true CN115329051B (zh) 2022-12-20

Family

ID=83915446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211265167.1A Active CN115329051B (zh) 2022-10-17 2022-10-17 一种多视角新闻信息快速检索方法、系统、存储介质及终端

Country Status (1)

Country Link
CN (1) CN115329051B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2083364A1 (en) * 2008-01-25 2009-07-29 DEVONtechnologies, LLC Method for retrieving a document, a computer-readable medium, a computer program product, and a system that facilitates retrieving a document
CN101714145A (zh) * 2008-10-07 2010-05-26 英业达股份有限公司 一种网站新闻分析系统及其方法
CN105447026A (zh) * 2014-08-27 2016-03-30 南京理工大学常熟研究院有限公司 基于多视角图中最小权重连通决定集的Web信息提取方法
CN109800413A (zh) * 2018-12-11 2019-05-24 北京百度网讯科技有限公司 新闻事件的识别方法、装置、设备及可读存储介质
CN109948121A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 文章相似度挖掘方法、系统、设备及存储介质
CN111159361A (zh) * 2019-12-30 2020-05-15 北京阿尔山区块链联盟科技有限公司 获取文章的方法和装置及电子设备
CN112136126A (zh) * 2018-03-23 2020-12-25 株式会社半导体能源研究所 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质
CN113220865A (zh) * 2021-04-15 2021-08-06 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备
CN114780491A (zh) * 2022-05-16 2022-07-22 中国银行股份有限公司 文件检索方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170177717A1 (en) * 2015-12-21 2017-06-22 The Knife, LLC Rating a level of journalistic distortion in news media content
CN108170773A (zh) * 2017-12-26 2018-06-15 百度在线网络技术(北京)有限公司 新闻事件挖掘方法、装置、计算机设备和存储介质
CN111625647B (zh) * 2020-05-25 2023-05-02 王旭 一种无监督的新闻自动分类方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2083364A1 (en) * 2008-01-25 2009-07-29 DEVONtechnologies, LLC Method for retrieving a document, a computer-readable medium, a computer program product, and a system that facilitates retrieving a document
CN101714145A (zh) * 2008-10-07 2010-05-26 英业达股份有限公司 一种网站新闻分析系统及其方法
CN105447026A (zh) * 2014-08-27 2016-03-30 南京理工大学常熟研究院有限公司 基于多视角图中最小权重连通决定集的Web信息提取方法
CN109948121A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 文章相似度挖掘方法、系统、设备及存储介质
CN112136126A (zh) * 2018-03-23 2020-12-25 株式会社半导体能源研究所 文件检索系统、文件检索方法、程序以及非暂时性计算机可读存储介质
CN109800413A (zh) * 2018-12-11 2019-05-24 北京百度网讯科技有限公司 新闻事件的识别方法、装置、设备及可读存储介质
CN111159361A (zh) * 2019-12-30 2020-05-15 北京阿尔山区块链联盟科技有限公司 获取文章的方法和装置及电子设备
CN113220865A (zh) * 2021-04-15 2021-08-06 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备
CN114780491A (zh) * 2022-05-16 2022-07-22 中国银行股份有限公司 文件检索方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Thematic Learning-based Full-text Retrieval Research on British and American Journalistic Reading;Jiang-xia YU 等;《2019 14th International Conference on Computer Science & Education (ICCSE)》;20190923;611-615 *
一种新闻类WORD格式文件数据抽取算法研究;张志强 等;《成都大学学报(自然科学版)》;20220630;第41卷(第2期);151-156 *
基于N-Level VSM在Web信息检索中的研究;付克志 等;《计算机工程与应用》;20060701(第19期);162-164+183 *
基于语义分组向量空间模型的Web新闻检索算法;王强 等;《电子科技》;20110415(第04期);28-30 *

Also Published As

Publication number Publication date
CN115329051A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
US10452691B2 (en) Method and apparatus for generating search results using inverted index
CN108319627B (zh) 关键词提取方法以及关键词提取装置
US20070106405A1 (en) Method and system to provide reference data for identification of digital content
CN106033416A (zh) 一种字符串处理方法及装置
CN112035598A (zh) 一种智能语义检索方法、系统和电子设备
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN109299383B (zh) 生成推荐词的方法、装置、电子设备及存储介质
US20130339373A1 (en) Method and system of filtering and recommending documents
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
JP7451747B2 (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
CN101727447A (zh) 基于url的正则表达式的生成方法和装置
CN104199965A (zh) 一种语义信息检索方法
CN110532352B (zh) 文本查重方法及装置、计算机可读存储介质、电子设备
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
KR20180129001A (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN115658851A (zh) 基于主题的医学文献检索方法、系统、存储介质及终端
CN115329048A (zh) 一种语句检索的方法及装置、电子设备、存储介质
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
Prasanth et al. Effective big data retrieval using deep learning modified neural networks
CN105550308B (zh) 一种信息处理方法,检索方法及电子设备
CN112287217B (zh) 医学文献检索方法、装置、电子设备及存储介质
CN107908649B (zh) 一种文本分类的控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant