CN110287338A - 行业热点确定方法、装置、设备和介质 - Google Patents

行业热点确定方法、装置、设备和介质 Download PDF

Info

Publication number
CN110287338A
CN110287338A CN201910543225.4A CN201910543225A CN110287338A CN 110287338 A CN110287338 A CN 110287338A CN 201910543225 A CN201910543225 A CN 201910543225A CN 110287338 A CN110287338 A CN 110287338A
Authority
CN
China
Prior art keywords
news
candidate
word
event
target industry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910543225.4A
Other languages
English (en)
Other versions
CN110287338B (zh
Inventor
盛广智
郑烨翰
蔡远俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910543225.4A priority Critical patent/CN110287338B/zh
Publication of CN110287338A publication Critical patent/CN110287338A/zh
Application granted granted Critical
Publication of CN110287338B publication Critical patent/CN110287338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种行业热点确定方法、装置、设备和介质。其中,所述方法包括:查询属于目标行业的候选事件知识图谱和候选新闻;对所述候选事件知识图谱进行筛选,得到目标行业的目标事件;对所述候选新闻进行筛选,得到目标行业的目标新闻;对所述目标行业的目标事件和所述目标行业的目标新闻进行去重,得到目标行业的热点事件和/或热点新闻。本实施例的技术方案,提高了行业热点确定的准确度,进而可以为目标行业内的内容创作者提供针对性的创作题材。

Description

行业热点确定方法、装置、设备和介质
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种行业热点确定方法、装置、设备和介质。
背景技术
随着互联网的发展,内容生态变得越来越重要。通常内容创作中的难点之一是主题的选择,如果选择了从当前热点事件进行切入,那么创作就能获得更高的热度和阅读量,目前各大内容平台上的创作者基本都是专注于特定的领域进行创作,因此,如何确定不同行业的热点事件是十分重要的。
在现有技术中,通常基于新闻的倒排索引,来选出热度高的新闻进行展示。
然而,上述热点新闻通常是基于单一的平台发掘,获取的热点新闻不够全面和准确,此外,基于热度发掘出的热点新闻范围较广,对特定的需求没有针对性。
发明内容
本发明提供一种行业热点确定方法、装置、设备和介质,以获取不同行业的热点事件和热点新闻,提高行业热点获取的准确性和全面性。
第一方面,本发明实施例提供了一种行业热点确定方法,该方法包括:
查询属于目标行业的候选事件知识图谱和候选新闻;
对所述候选事件知识图谱进行筛选,得到目标行业的目标事件;
对所述候选新闻进行筛选,得到目标行业的目标新闻;
对所述目标行业的目标事件和所述目标行业的目标新闻进行去重,得到目标行业的热点事件和/或热点新闻。
第二方面,本发明实施例还提供了一种行业热点确定装置,该装置包括:
查询模块,用于查询属于目标行业的候选事件知识图谱和候选新闻;
知识图谱筛选模块,用于对所述候选事件知识图谱进行筛选,得到目标行业的目标事件;
候选新闻筛选模块,用于对所述候选新闻进行筛选,得到目标行业的目标新闻;
去重模块,用于对所述目标行业的目标事件和所述目标行业的目标新闻进行去重,得到目标行业的热点事件和/或热点新闻。
第三方面,本发明实施例还提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的行业热点确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的行业热点确定方法。
本发明通过查询属于目标行业的候选事件知识图谱和候选新闻,分别对候选事件知识图谱以及候选新闻进行筛选和去重,进而得到目标行业的热点事件和/或热点新闻。基于事件知识图谱和新闻的行业热点确定方法,提高了行业热点确定的准确度,可以辅助目标行业内的内容创作者选创作题材。
附图说明
图1是本发明实施例一提供的一种行业热点确定方法的流程图;
图2是本发明实施例二提供的一种行业热点确定方法的流程图;
图3是本发明实施例三提供的一种行业热点确定方法的流程图;
图4是本发明实施例四提供的一种行业热点确定装置的结构示意图;
图5为本发明实施例五提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种行业热点确定方法的流程图,本实施例可适用于对行业热点进行确定的情况,该方法可以由行业热点确定装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可以集成在设备中,该设备可以是用户端和/或服务器。如图1所示,该方法具体可以包括如下:
S101、查询属于目标行业的候选事件知识图谱和候选新闻。
本实施例中,目标行业可以根据用户信息确定,例如根据目标用户的创作领域或关注领域确定。示例性的,若目标用户的创作领域为与科技相关的内容,那么目标用户所对应的目标行业为科技相关行业。
其中,事件知识图谱中包括事件的实体名(Subject,简称S)和事件的属性名(Property,简称P)和属性值(Object,简称O)。事件的属性名可以包括事件的地点、时间、行业领域等,并且行业属性的属性值可以包括如下至少一种:科技、经济、体育和娱乐等。通过事件知识图谱,能够发现客观世界存在的形形色色事件,挖掘事件之间的联系,从而构建出一张刻画真实世界实体活动的网络。
候选事件知识图谱是指行业属性的属性值是目标行业的事件知识图谱。具体的,可以由目标行业确定事件对应的行业属性值,进而筛选出与目标行业相关的事件,构成目标行业的候选事件知识图谱。
其中,候选新闻是指行业属性为目标行业的新闻,可以从互联网上实时抓取的新闻中筛选得到。
以目标行业是科技行业为例,科技行业对应的事件的行业属性值为科技,通过将行业属性值为科技的事件筛选出来,构成行业属性的属性值为科技的候选事件知识图谱。
相应的,通过将行业属性为科技的新闻筛选出来,构成候选新闻。
S102、对候选事件知识图谱进行筛选,得到目标行业的目标事件。
具体的,通过筛选操作,从候选事件知识图谱中选择部分事件知识图谱,作为目标事件知识图谱,从而从目标事件知识图谱中得到目标行业的目标事件。进一步的,可以按照事件热度、事件地点、事件时间等属性信息执行筛选操作。
可选的,对候选事件知识图谱进行筛选包括:
将候选事件知识图谱中候选事件的相关新闻数量,作为候选事件热度;
根据候选事件热度,对候选事件知识图谱进行排序;
根据排序结果,对候选事件知识图谱进行筛选。
其中,同一候选事件会关联多条新闻,相关的新闻数量越多表明该候选事件的热度越高。本实施例中,将与候选事件的相关新闻数量作为候选事件热度,按照相关新闻数量对候选知识图谱中的候选事件按照热度高低进行排序,对排序后的候选事件进行过滤,去除候选事件名中存在语义以及语法等错误的候选事件。进一步的,对候选事件所包含的信息进行筛选,保留事件名称、时间、热度以及相关新闻等关键信息,丢弃剩余的冗余信息。可以根据实际需求选取部分热度高的候选事件作为目标事件知识图谱,从而从目标事件知识图谱中得到目标行业的目标事件。
S103、对候选新闻进行筛选,得到目标行业的目标新闻。
具体的,通过筛选操作,从候选新闻中选取部分的新闻,作为目标行业的目标新闻。进一步的,可以按照新闻的热度、时间、地点等属性信息进行筛选操作。
可选的,对候选新闻进行筛选包括:将候选新闻的相似新闻数量,作为候选新闻热度;根据候选新闻热度,对候选新闻进行排序;根据候选新闻名称的语义特征和/或语法特征,对候选新闻进行过滤;根据候选新闻的排序结果和过滤结果,对候选新闻筛选。
其中,同一候选新闻会存在多条的相似新闻。相似新闻的数量越多,表明该新闻的热度越高,可以将候选新闻的相似新闻数量作为候选新闻热度,对候选新闻的按照热度高低进行排序,对候选新闻的信息进行进一步筛选,保留新闻标题、事件、热度以及相似新闻等关键信息,丢弃剩余的冗余信息。进一步的,针对排序后的候选新闻,剔除掉新闻名称中存在语义错误或者语法错误的候选新闻,从而对候选新闻进行进一步的过滤,以提高候选新闻筛选的准确性。可以根据实际需求选取部分热度较高的候选新闻作为目标行业的目标新闻。
S104、对目标行业的目标事件和目标行业的目标新闻进行去重,得到目标行业的热点事件和/或热点新闻。
本实施例中,不同目标事件之间、不同目标新闻之间,以及目标事件和目标新闻之间都可能存在重复的情况。具体的,可以通过判断目标事件之间、目标新闻之间以及目标事件和目标新闻之间的名称是否重复,进而去掉重复的目标事件或目标新闻,进而得到目标行业的热点事件和/或热点新闻。该方法能够进一步提高热点确定的准确性。
本实施例的技术方案,通过查询属于目标行业的候选事件知识图谱和候选新闻,分别对候选事件知识图谱以及候选新闻进行筛选和去重,进而得到目标行业的热点事件和/或热点新闻。基于事件知识图谱和新闻的行业热点确定方法,提高了行业热点确定的准确度,可以辅助目标行业内的内容创作者选创作题材。
实施例二
本实施例是在上述实施例的基础上,对S101进行进一步细化,图2是本发明实施例二提供的一种行业热点确定方法的流程图。如图2所示,该方法具体可以包括以下:
S201、将目标行业与事件库中事件知识图谱的行业属性进行匹配,得到属于目标行业的候选事件知识图谱。
其中,事件库是基于知识图谱构建的事件库,包含着大量的事件,并且事件都对应打上了标识属性信息的标签,基于事件的标签信息可以得到事件的行业属性信息。
具体的,在确定所要计算热点的目标行业之后,将目标行业与事件库中事件图谱的行业属性进行匹配,来检索目标行业的相关事件,将属于目标行业的事件检索出来,得到属于目标行业的候选事件知识图谱。由于事件库中的事件都预先打上了标识属性信息的标签,所以利用目标行业与事件库中的事件图谱的行业属性进行匹配,能够准确的获取与目标行业相关的候选事件知识图谱。
示例性的,若想要得到目标行业24小时的热点事件,则将目标行业与事件库中的事件图谱的行业属性进行24小时的匹配,将匹配得到的事件作为当天的候选事件知识图谱。
S202、将目标行业与新闻库的行业属性进行匹配,得到属于目标行业的候选新闻。
其中,新闻库可以为从互联网上实时抓取的滚动新闻。
具体的,在确定所要计算热点的目标行业之后,将目标行业与新闻库中的行业属性进行匹配,得到属于目标行业的候选新闻。
示例性的,若想要得到目标行业24小时的热点新闻,则将目标行业与新闻库的行业属性进行24小时的匹配,将匹配得到的新闻作为当天的候选新闻。
S203、对候选事件知识图谱进行筛选,得到目标行业的目标事件。
S204、对候选新闻进行筛选,得到目标行业的目标新闻。
S205、对目标行业的目标事件和目标行业的目标新闻进行去重,得到目标行业的热点事件和/或热点新闻。
本发明实施例的技术方案,通过分别将目标行业与事件库知识图谱以及新闻库的行业属性进行匹配,以获取候选事件知识图谱和候选新闻,能够提高目标行业候选信息确定的准确性,基于事件知识图谱和新闻的行业热点确定方法,提高了行业热点确定的准确度。
实施例三
本实施例是在上述实施例的基础上,对S205进行进一步的细化,图3是本发明实施例三提供的一种行业热点确定方法的流程图。如图3所示,该方法具体可以包括以下:
S301、将目标行业与事件库中事件知识图谱的行业属性进行匹配,得到属于目标行业的候选事件知识图谱。
S302、将目标行业与新闻库的行业属性进行匹配,得到属于目标行业的候选新闻。
S303、对候选事件知识图谱进行筛选,得到目标行业的目标事件。
S304、对候选新闻进行筛选,得到目标行业的目标新闻。
S305、确定目标事件名称中的关键事件词语,以及关键事件词语的权重。
本实施例中,每个目标事件名称都至少包括一个关键事件词语,根据每个关键事件词语的出现次数确定关键事件词语的权重大小。
具体的,可以利用wordrank来对目标事件标题进行处理,确定目标事件名称中关键事件词语,以及关键事件词语对应的权重。
进一步的,对于存在多个关键事件词语的目标事件名称,可以根据权重大小对关键事件词语进行排序,选取特定数量的权重较大的关键事件词语作为目标事件标题的关键事件词语。
S306、确定目标新闻标题中的关键新闻词语,以及关键新闻词语的权重。
本实施例中,每个目标新闻标题中都至少包括一个关键新闻词语,根据每个关键新闻词语的出现次数确定关键新闻词语的权重大小。
具体的,可以利用wordrank来对目标新闻标题进行处理,确定目标新闻标题中关键新闻词语,以及关键新闻词语对应的权重。
进一步的,对于存在多个关键新闻词语的目标新闻标题,可以根据权重大小对关键新闻词语进行排序,选取特定数量的权重较大的关键新闻词语作为目标新闻标题的关键新闻词语。
S307、根据关键事件词语,关键事件词语的权重,关键新闻词语以及关键新闻词语的权重,对目标行业的目标事件和目标新闻进行去重。
本实施例中,目标行业的不同目标事件之间,不同目标新闻之间,以及目标事件和目标新闻之间都可能存在重复的情况,需要去除重复的目标事件以及目标新闻。
具体的,根据关键事件词语,关键事件词语的权重,关键新闻词语以及关键新闻词语的权重,对目标行业的目标事件和目标新闻进行去重,包括:
若任一目标事件中权重最高的关键事件词语与任一目标新闻中权重最高的关键新闻词语相同,且该目标事件中另一关键事件词语与该目标新闻中另一关键新闻词语相同,则确定该目标事件与该目标新闻重复,并根据重复信息进行去重。
示例性的,若任一目标事件中包含三个关键事件词语A、B和C,其中关键事件词语A的权重最高,任一目标新闻中包含三个关键事件词语A、B和D,其中关键词新闻词语A的权重也最高,此时,目标事件中的另一关键事件词语B和目标新闻中的关键新闻词语也相同,那么,则确定该目标事件与该目标新闻重复。
由于新闻具有随意性,而事件则是从多个新闻中抽取处理的,覆盖的面以及可行度比新闻高,因此,当目标事件和目标新闻重复时,相应的去除目标新闻中的重复新闻,通过这种方式可以有效降低重复的事件或新闻,从而减少行业热点中的冗余信息。
进一步的,可以将去重之后的行业热点事件和/或热点新闻,插入当前时间戳信息后写入数据库,作为接口提供给业务方使用。调用方给出特定领域作为参数,即可获取到该行业当日的热点事件和新闻,能够为不同行业的目标用户提供了丰富且有针对性的行业热点数据。
本实施例的技术方案,通过利用目标事件名称中的关键事件词语,以及关键事件词语的权重,和目标新闻标题中的关键新闻词语,以及关键新闻词语的权重,对目标事件以及目标新闻去重,有效地降低了重复的事件或新闻,从而减少行业热点中的冗余信息。
实施例四
图4为本发明实施例四提供的一种行业热点确定装置的结构示意图,该装置可以执行本发明任意实施例所提供的行业热点确定方法,具备执行方法相应的功能模块和有益效果。如图4所示,该装置包括:查询模块401、知识图谱筛选模块402、候选新闻筛选模块403以及去重模块404。
其中,查询模块401,用于查询属于目标行业的候选事件知识图谱和候选新闻;
知识图谱筛选模块402,用于对候选事件知识图谱进行筛选,得到目标行业的目标事件;
候选新闻筛选模块403,用于对候选新闻进行筛选,得到目标行业的目标新闻;
去重模块404,用于对目标行业的目标事件和目标行业的目标新闻进行去重,得到目标行业的热点事件和/或热点新闻。
本实施例的技术方案,通过查询属于目标行业的候选事件知识图谱和候选新闻,分别对候选事件知识图谱以及候选新闻进行筛选和去重,进而得到目标行业的热点事件和/或热点新闻。基于事件知识图谱和新闻的行业热点确定方法,提高了行业热点确定的准确度,可以辅助目标行业内的内容创作者选创作题材。
进一步的,查询模块401具体用于:将目标行业与事件库中事件知识图谱的行业属性进行匹配,得到属于目标行业的候选事件知识图谱;将目标行业与新闻库的行业属性进行匹配,得到属于目标行业的候选新闻。
进一步的,知识图谱筛选模块402具体用于:将候选事件知识图谱中候选事件的相关新闻数量,作为候选事件热度;根据候选事件热度,对候选事件知识图谱进行排序;根据排序结果,对候选事件知识图谱进行筛选。
进一步的,选新闻筛选模块403具体用于:将候选新闻的相似新闻数量,作为候选新闻热度;根据候选新闻热度,对候选新闻进行排序;根据候选新闻名称的语义特征和/或语法特征,对候选新闻进行过滤;根据候选新闻的排序结果和过滤结果,对候选新闻筛选。
进一步的,去重模块404具体用于:确定目标事件名称中的关键事件词语,以及关键事件词语的权重;确定目标新闻标题中的关键新闻词语,以及关键新闻词语的权重;根据关键事件词语,关键事件词语的权重,关键新闻词语以及关键新闻词语的权重,对目标行业的目标事件和目标新闻进行去重。
进一步的,去重模块404还具体用于:若任一目标事件中权重最高的关键事件词语与任一目标新闻中权重最高的关键新闻词语相同,且该目标事件中另一关键事件词语与该目标新闻中另一关键新闻词语相同,则确定该目标事件与该目标新闻重复,并根据重复信息进行去重。
进一步的,查询模块401还具体用于:根据目标用户的创作领域信息,确定目标行业。
本实施例提供的行业热点确定装置可以执行本发明任意实施例所提供的行业热点确定方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备512的框图。图5显示的设备512仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备512以通用计算设备的形式表现。设备512的组件可以包括但不限于:一个或者多个处理器或者处理单元516,系统存储器528,连接不同系统组件(包括系统存储器528和处理单元516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备512访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器528可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)530和/或高速缓存存储器532。设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如存储器528中,这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。
设备512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信,还可与一个或者多个使得用户能与该设备512交互的设备通信,和/或与使得该设备512能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且,设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器520通过总线518与设备512的其它模块通信。应当明白,尽管图中未示出,可以结合设备512使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元516通过运行存储在系统存储器528中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的行业热点确定方法。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所提供的行业热点确定方法,包括:
查询属于目标行业的候选事件知识图谱和候选新闻;
对候选事件知识图谱进行筛选,得到目标行业的目标事件;
对候选新闻进行筛选,得到目标行业的目标新闻;
对目标行业的目标事件和目标行业的目标新闻进行去重,得到目标行业的热点事件和/或热点新闻。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种行业热点确定方法,其特征在于,包括:
查询属于目标行业的候选事件知识图谱和候选新闻;
对所述候选事件知识图谱进行筛选,得到目标行业的目标事件;
对所述候选新闻进行筛选,得到目标行业的目标新闻;
对所述目标行业的目标事件和所述目标行业的目标新闻进行去重,得到目标行业的热点事件和/或热点新闻。
2.根据权利要求1所述的方法,其特征在于,所述查询属于目标行业的候选事件知识图谱和候选新闻,包括:
将所述目标行业与事件库中事件知识图谱的行业属性进行匹配,得到属于目标行业的候选事件知识图谱;
将所述目标行业与新闻库的行业属性进行匹配,得到属于目标行业的候选新闻。
3.根据权利要求1所述的方法,其特征在于,所述对所述候选事件知识图谱进行筛选,包括:
将所述候选事件知识图谱中候选事件的相关新闻数量,作为候选事件热度;
根据所述候选事件热度,对所述候选事件知识图谱进行排序;
根据排序结果,对所述候选事件知识图谱进行筛选。
4.根据权利要求1所述的方法,其特征在于,所述对所述候选新闻进行筛选,包括:
将所述候选新闻的相似新闻数量,作为候选新闻热度;
根据所述候选新闻热度,对所述候选新闻进行排序;
根据候选新闻名称的语义特征和/或语法特征,对候选新闻进行过滤;
根据候选新闻的排序结果和过滤结果,对所述候选新闻筛选。
5.根据权利要求1所述的方法,其特征在于,所述对所述目标行业的目标事件和所述目标行业的目标新闻进行去重,包括:
确定目标事件名称中的关键事件词语,以及关键事件词语的权重;
确定目标新闻标题中的关键新闻词语,以及关键新闻词语的权重;
根据关键事件词语,关键事件词语的权重,关键新闻词语以及关键新闻词语的权重,对所述目标行业的目标事件和所述目标新闻进行去重。
6.根据权利要求5所述的方法,其特征在于,所述根据关键事件词语,关键事件词语的权重,关键新闻词语以及关键新闻词语的权重,对所述目标行业的目标事件和所述目标新闻进行去重,包括:
若任一目标事件中权重最高的关键事件词语与任一目标新闻中权重最高的关键新闻词语相同,且该目标事件中另一关键事件词语与该目标新闻中另一关键新闻词语相同,则确定该目标事件与该目标新闻重复,并根据重复信息进行去重。
7.根据权利要求1所述的方法,其特征在于,所述查询属于目标行业的候选事件知识图谱和候选新闻,包括:
根据目标用户的创作领域信息,确定所述目标行业。
8.一种行业热点确定装置,其特征在于,包括:
查询模块,用于查询属于目标行业的候选事件知识图谱和候选新闻;
知识图谱筛选模块,用于对所述候选事件知识图谱进行筛选,得到目标行业的目标事件;
候选新闻筛选模块,用于对所述候选新闻进行筛选,得到目标行业的目标新闻;
去重模块,用于对所述目标行业的目标事件和所述目标行业的目标新闻进行去重,得到目标行业的热点事件和/或热点新闻。
9.根据权利要求8所述的装置,其特征在于,所述候选新闻筛选模块具体用于:
将所述候选新闻的相似新闻数量,作为候选新闻热度;
根据所述候选新闻热度,对所述候选新闻进行排序;
根据候选新闻名称的语义特征和/或语法特征,对候选新闻进行过滤;
根据候选新闻的排序结果和过滤结果,对所述候选新闻筛选。
10.根据权利要求8的装置,其特征在于,所述去重模块具体用于:
确定目标事件名称中的关键事件词语,以及关键事件词语的权重;
确定目标新闻标题中的关键新闻词语,以及关键新闻词语的权重;
根据关键事件词语,关键事件词语的权重,关键新闻词语以及关键新闻词语的权重,对所述目标行业的目标事件和所述目标新闻进行去重。
11.根据权利要求10所述的装置,其特征在于,所述去重模块还具体用于:
若任一目标事件中权重最高的关键事件词语与任一目标新闻中权重最高的关键新闻词语相同,且该目标事件中另一关键事件词语与该目标新闻中另一关键新闻词语相同,则确定该目标事件与该目标新闻重复,并根据重复信息进行去重。
12.根据权利要求8所述的装置,其特征在于,所述查询模块还具体用于:
根据目标用户的创作领域信息,确定所述目标行业。
13.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的行业热点确定方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的行业热点确定方法。
CN201910543225.4A 2019-06-21 2019-06-21 行业热点确定方法、装置、设备和介质 Active CN110287338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910543225.4A CN110287338B (zh) 2019-06-21 2019-06-21 行业热点确定方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910543225.4A CN110287338B (zh) 2019-06-21 2019-06-21 行业热点确定方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN110287338A true CN110287338A (zh) 2019-09-27
CN110287338B CN110287338B (zh) 2022-04-29

Family

ID=68005328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910543225.4A Active CN110287338B (zh) 2019-06-21 2019-06-21 行业热点确定方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN110287338B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239177A (zh) * 2021-06-23 2021-08-10 中国银行股份有限公司 知识点查询方法、装置、服务器、介质及产品
CN113722593A (zh) * 2021-08-31 2021-11-30 北京百度网讯科技有限公司 事件数据处理方法、装置、电子设备和介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787049A (zh) * 2016-02-26 2016-07-20 浙江大学 一种基于多源信息融合分析的网络视频热点事件发现方法
US20170019492A1 (en) * 2013-06-26 2017-01-19 International Business Machines Corporation Monitoring interesting subjects
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN107122420A (zh) * 2017-04-01 2017-09-01 上海诺悦智能科技有限公司 一种旅游热点事件检测方法及系统
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN108920649A (zh) * 2018-06-29 2018-11-30 北京百度网讯科技有限公司 一种信息推荐方法、装置、设备和介质
CN109241438A (zh) * 2018-09-27 2019-01-18 国家计算机网络与信息安全管理中心 基于要素的跨通道热点事件发现方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170019492A1 (en) * 2013-06-26 2017-01-19 International Business Machines Corporation Monitoring interesting subjects
CN105787049A (zh) * 2016-02-26 2016-07-20 浙江大学 一种基于多源信息融合分析的网络视频热点事件发现方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN107122420A (zh) * 2017-04-01 2017-09-01 上海诺悦智能科技有限公司 一种旅游热点事件检测方法及系统
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN108920649A (zh) * 2018-06-29 2018-11-30 北京百度网讯科技有限公司 一种信息推荐方法、装置、设备和介质
CN109241438A (zh) * 2018-09-27 2019-01-18 国家计算机网络与信息安全管理中心 基于要素的跨通道热点事件发现方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李德毅等: "《中国科协新一代信息技术系列丛书 人工智能导论》", 30 September 2018 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239177A (zh) * 2021-06-23 2021-08-10 中国银行股份有限公司 知识点查询方法、装置、服务器、介质及产品
CN113239177B (zh) * 2021-06-23 2024-02-20 中国银行股份有限公司 知识点查询方法、装置、服务器、介质及产品
CN113722593A (zh) * 2021-08-31 2021-11-30 北京百度网讯科技有限公司 事件数据处理方法、装置、电子设备和介质
CN113722593B (zh) * 2021-08-31 2024-01-16 北京百度网讯科技有限公司 事件数据处理方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN110287338B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN107330034A (zh) 一种日志分析方法和装置、计算机设备、存储介质
CN102902763B (zh) 关联、检索信息处理数据和处理信息任务的方法及装置
CN111813804B (zh) 一种数据查询方法、装置、电子设备及存储介质
US20210232561A1 (en) Data processing method and apparatus, and computer-readable storage medium
CN107133263A (zh) Poi推荐方法、装置、设备及计算机可读存储介质
CN110232106A (zh) 一种基于MongoDB和Solr的海量数据存储及快速检索方法
CN109376173A (zh) 一种数据查询方法、装置、电子设备及存储介质
CN110287338A (zh) 行业热点确定方法、装置、设备和介质
CN113688193A (zh) 轨迹数据的存储与索引方法、装置、电子设备及可读介质
KR101768914B1 (ko) 지오 태깅 방법, 지오 태깅 장치 및 이를 수행하는 프로그램을 기록하는 기록매체
CN110928893A (zh) 一种标签查询方法、装置、设备和存储介质
CN107169005A (zh) Poi推荐方法、装置、设备及计算机可读存储介质
EP4109300A2 (en) Method and apparatus for querying writing material, electronic device and storage medium
US9286349B2 (en) Dynamic search system
CN109697234A (zh) 实体的多属性信息存储、查询方法、装置、服务器和介质
CN107908724A (zh) 一种数据模型匹配方法、装置、设备及存储介质
CN113918796A (zh) 信息搜索方法、装置、服务器及存储介质
CN110515807A (zh) 一种数据库表监控方法、装置、设备及存储介质
CN110619086B (zh) 用于处理信息的方法和装置
CN107180073A (zh) Poi推荐方法、装置、设备及计算机可读存储介质
CN113127676B (zh) 信息匹配方法、系统、装置、存储介质及电子设备
WO2023037766A1 (ja) サービス需要ポテンシャル予測装置
KR101259911B1 (ko) 관계형 데이터베이스를 온톨로지로 변환하는 규칙기반 온톨로지 변환 장치 및 방법
CN110648208B (zh) 群组识别方法、装置和电子设备
CN107169015A (zh) Poi推荐方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant