CN113779266B - 基于知识图谱的信息处理方法及其装置 - Google Patents
基于知识图谱的信息处理方法及其装置 Download PDFInfo
- Publication number
- CN113779266B CN113779266B CN202111062524.XA CN202111062524A CN113779266B CN 113779266 B CN113779266 B CN 113779266B CN 202111062524 A CN202111062524 A CN 202111062524A CN 113779266 B CN113779266 B CN 113779266B
- Authority
- CN
- China
- Prior art keywords
- information
- entities
- event
- module
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于知识图谱的信息处理方法及其装置。其中,方法包括:获取与事件相关的多个资讯信息,分别从每个资讯信息中提取出对应的多个实体。从知识图谱中获取多个实体对应的属性信息,根据资讯信息和多个实体对应的属性信息,确定资讯信息对应的资讯主体。根据多个资讯主体,生成事件的事件主体。由此,实现了充分利用知识图谱中记载的属性信息,结合资讯信息,确定资讯信息对应的资讯主体,进而生成事件的事件主体,提高了生成事件主体的准确度。解决了现有技术中生成事件主体的准确度较差的技术问题。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于知识图谱的信息处理方法及其装置。
背景技术
互联网时代海量的资讯信息让用户无法高效地获得与目标事件相关的资讯信息,因此需要对海量的资讯信息进行整理,将与目标事件相关的资讯信息以事件主体的形式提供给用户。其中,事件主体是指与目标事件相关的命名名称列表,命名名称包括人名、地名、组织机构名等,且该命名名称列表中的命名名称按照相对目标事件的重要程度降序排列。
为了实现通过事件主体获得相关资讯信息,可以首先确定目标事件的事件主体,再根据将相关的资讯信息与事件主体中的命名名称相连,从而实现通过事件主体反向索引相关的资讯信息。
相关技术中,从资讯信息中提取命名名称作为实体,根据频率等统计特征确定实体在资讯信息中的重要性。根据提取出的实体和重要性,生成事件的事件主体。但是,没有考虑实体之间的相关度,导致生成事件主体的准确度较差,进而影响对相关的资讯信息的反向索引的准确度。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于知识图谱的信息处理方法,以实现充分利用知识图谱中记载的属性信息,结合资讯信息,确定资讯信息对应的资讯实体,进而生成事件的事件主体,提高生成事件主体的准确度。
本发明的第二个目的在于提出一种基于知识图谱的信息处理方法装置。
本发明的第三个目的在于提出一种计算机程序产品。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种基于知识图谱的信息处理方法,包括:获取事件的多个资讯信息;分别从每个所述资讯信息中提取出对应的多个实体;从知识图谱中获取所述多个实体对应的属性信息;根据所述资讯信息和所述多个实体对应的属性信息,确定所述资讯信息对应的资讯主体;以及根据多个所述资讯主体,生成所述事件的事件主体。
和现有技术相比,本发明实施例充分利用知识图谱中记载的属性信息,结合资讯信息,确定资讯信息对应的资讯主体,进而生成事件的事件主体,提高了生成事件主体的准确度。
另外,本发明实施例的基于知识图谱的信息处理方法,还具有如下附加的技术特征:
可选地,所述属性信息包括结点信息和边信息,所述从知识图谱中获取所述多个实体对应的属性信息,包括:获取所述多个实体在所述知识图谱中分别对应的多个结点,并分别获取所述多个结点对应的多个结点信息;获取所述多个结点之间的边,并分别获取所述多个结点之间的边对应的边信息。
可选地,所述根据所述资讯信息和所述多个实体对应的属性信息,确定所述资讯信息对应的资讯主体,包括:提取所述结点信息中的背景信息;根据所述背景信息确定所述实体和所述资讯信息的第一相关度;根据所述边信息,确定所述多个实体之间的关系强度,并根据所述关系强度确定所述多个实体之间的第二相关度;根据所述第一相关度和所述第二相关度,确定所述资讯信息对应的资讯主体。
可选地,所述根据所述第一相关度和所述第二相关度,确定所述资讯信息对应的资讯主体,包括:根据所述第一相关度和所述第二相关度,分别计算所述多个实体的权重得分;根据所述多个实体的权重得分对所述多个实体进行排序,以确定所述资讯信息对应的资讯主体。
可选地,所述根据多个所述资讯主体,生成所述事件的事件主体,包括:分别获取所述多个资讯信息的热度和来源;根据所述多个资讯信息的热度和来源,分别计算所述多个资讯信息对应的权重值;根据所述资讯信息对应的权重值和所述多个实体的权重得分,计算所述多个实体对应的合并权重得分;分别获取多个所述资讯主体中的多个实体,并根据所述合并权重得分对所述多个资讯主体中的多个实体进行排序,以生成所述事件主体。
可选地,在所述根据所述资讯信息和所述多个实体对应的属性信息,确定所述资讯信息对应的资讯主体之前,还包括:对所述资讯信息进行指代求解和别名求解,以将所述资讯信息中的代词和别名替换为所述实体。
本发明第二方面实施例提出了一种基于知识图谱的信息处理装置,包括:第一获取模块,用于获取事件的多个资讯信息;提取模块,用于分别从每个所述资讯信息中提取出对应的多个实体;第二获取模块,用于从知识图谱中获取所述多个实体对应的属性信息;确定模块,用于根据所述资讯信息和所述多个实体对应的属性信息,确定所述资讯信息对应的资讯主体;以及生成模块,用于根据多个所述资讯主体,生成所述事件的事件主体。
可选地,所述属性信息包括结点信息和边信息,所述第二获取模块,包括:第一获取子模块,用于获取所述多个实体在所述知识图谱中分别对应的多个结点;第二获取子模块,用于分别获取所述多个结点对应的多个结点信息;第三获取子模块,用于获取所述多个结点之间的边;第四获取子模块,用于分别获取所述多个结点之间的边对应的边信息。
可选地,所述确定模块,包括:提取子模块,用于提取所述结点信息中的背景信息;第一确定子模块,用于根据所述背景信息确定所述实体和所述资讯信息的第一相关度;第二确定子模块,用于根据所述边信息,确定所述多个实体之间的关系强度;第三确定子模块,用于根据所述关系强度确定所述多个实体之间的第二相关度;第四确定子模块,用于根据所述第一相关度和所述第二相关度,确定所述资讯信息对应的资讯主体。
可选地,所述第四确定子模块,包括:计算单元,用于根据所述第一相关度和所述第二相关度,分别计算所述多个实体的权重得分;排序单元,用于根据所述多个实体的权重得分对所述多个实体进行排序,以确定所述资讯信息对应的资讯主体。
可选地,所述生成模块,包括:第五获取子模块,用于分别获取所述多个资讯信息的热度和来源;第一计算子模块,用于根据所述多个资讯信息的热度和来源,分别计算所述多个资讯信息对应的权重值;第二计算子模块,用于根据所述资讯信息对应的权重值和所述多个实体的权重得分,计算所述多个实体对应的合并权重得分;第六获取子模块,用于分别获取多个所述资讯主体中的多个实体;排序子模块,用于根据所述合并权重得分对所述多个资讯主体中的多个实体进行排序,以生成所述事件主体。
可选地,所述装置还包括:求解模块,用于对所述资讯信息进行指代求解和别名求解,以将所述资讯信息中的代词和别名替换为所述实体。
本发明第三方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的基于知识图谱的信息处理方法。
本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的基于知识图谱的信息处理方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明实施例所提供的一种基于知识图谱的信息处理方法的流程示意图;
图2为本发明实施例所提供的一种可能的中文命名实体识别的方式的效果示意图;
图3为本发明实施例所提供的将实体和结点信息相关联的一个示例的效果示意图;
图4为本发明实施例所提供的另一种基于知识图谱的信息处理方法的流程示意图;
图5为本发明实施例所提供的根据资讯信息生成资讯主体的一个示例的效果示意图;
图6为本发明实施例所提供的又一种基于知识图谱的信息处理方法的流程示意图;
图7为本发明实施例所提供的基于知识图谱的信息处理方法的一个示例的流程图;
图8为本发明实施例所提供的一种基于知识图谱的信息处理装置的结构示意图;
图9为本发明实施例所提供的另一种基于知识图谱的信息处理装置的结构示意图;以及
图10为本发明实施例所提供的又一种基于知识图谱的信息处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于知识图谱的信息处理方法及其装置。
基于上述现有技术的描述可以知道,相关技术中,从资讯信息中提取命名名称作为实体,根据频率等统计特征确定实体在资讯信息中的重要性。根据提取出的实体和重要性,生成事件的事件主体。但是,没有考虑实体之间的相关度,导致生成事件主体的准确度较差,进而影响对相关的资讯信息的反向索引的准确度。
针对这一问题,本发明实施例提供了一种基于知识图谱的信息处理方法。利用知识图谱中记载的属性信息,结合资讯信息,确定资讯信息对应的资讯主体,进而生成事件的事件主体,提高了生成事件主体的准确度。
图1为本发明实施例所提供的一种基于知识图谱的信息处理方法的流程示意图。如图1所示,该方法包括以下步骤:
S101,获取事件的多个资讯信息。
其中,事件的多个资讯信息是通过信息挖掘的方式,从多种信息渠道中获取的与事件相关的资讯信息。比如通过爬虫从各大门户网站抓取与事件相关的资讯信息。
一种优选的实现方式是,对抓取的资讯信息按照发布时间进行筛选,只选取特定时间段内的资讯信息,比如筛选出事件发生24小时内发布的资讯信息,根据筛选出的资讯信息建立该事件的资讯信息库。
相应地,本发明实施例生成的事件主体可以作为该资讯信息库的索引。
S102,分别从每个资讯信息中提取出对应的多个实体。
其中,实体是资讯信息中的命名名称,包括人名、地名、组织结构名。
具体地,可以分别对每个资讯信息进行中文命名实体识别,从每个资讯信息中提取出多个命名名称,作为该资讯信息对应的多个实体。
需要说明的是,本发明实施例提供的一种可能的中文命名实体识别的方式是,使用基于字的序列标注方法,采用BIO标注集,对资讯信息进行标注。具体地,将人名首字和人名非首字分别用B-PER和I-PER标注,将地名首字和地名非首字分别用B-LOC和I-LOC标注,将组织机构名首字和组织结构名非首字分别用B-ORG和I-ORG标注,将不属于命名名称的字用O标注。举例来说,如图2所示,在资讯信息“武磊帮助上海上港贡献两颗进球”中,“武磊”是人名,“上海上港”是组织机构名,由此可以从资讯信息中提取出实体“武磊”、“上海上港”。
S103,从知识图谱中获取多个实体对应的属性信息。
应当理解,知识图谱由结点和边组成,每一个结点对应着结点信息,结点之间通过边相连,每一条边对应着边信息。因此,知识图谱中的属性信息包括点信息和边信息。
需要说明的是,S102中提取出的多个实体,对应着知识图谱中的多个结点。相应地,S102中多个实体之间的关系,对应着知识图谱中多个结点之间的边。
因此,要从知识图谱中获取多个实体对应的属性信息,一种可能的实现方式是,获取多个实体在知识图谱中分别对应的多个结点,并分别获取多个结点对应的多个结点信息。获取多个结点之间的边,并分别获取多个结点之间的边对应的边信息。
从而,将获取的结点信息与实体相关联,将获取的边信息与实体之间的关系相关联。
为了更加清楚地说明本发明实施例所提供的基于知识图谱的信息处理方法是如何将结点信息与实体相关联的,下面以维基百科(为了便于说明,用维基百科页面代替结点信息)为例进行说明。
如图3所示,在维基百科中的百度公司介绍信息中,设置了Robin Li这一实体与Robin Li的维基百科页面相关联,点击百度公司介绍信息中的Robin Li,即可跳转到RobinLi的维基百科页面。本发明实施例中采用了相同的技术将实体与结点信息相关联,类似的,将边信息与实体之间的关系相关联。
S104,根据资讯信息和多个实体对应的属性信息,确定资讯信息对应的资讯主体。
需要说明的是,资讯信息作为一种自由文本,包含很多代词和别名,为了便于后续处理,一种可能的实现方式是,在根据资讯信息和多个实体对应的属性信息,确定资讯信息对应的资讯主体之前,对资讯信息进行指代求解和别名求解,以将资讯信息中的代词和别名替换为实体。
应当理解的是,在获取多个实体对应的属性信息之后,可以根据属性信息判断实体与资讯信息的相关度,进而确定资讯信息对应的资讯主体。
S105,根据多个资讯主体,生成事件的事件主体。
应当理解,每个资讯对应着各自的资讯主体,而事件包括多个资讯,因此需要将多个资讯主体进行合并,才能得到事件的事件主体。
综上所述,本发明实施例所提供的基于知识图谱的信息处理方法,获取与事件相关的多个资讯信息,分别从每个资讯信息中提取出对应的多个实体。从知识图谱中获取多个实体对应的属性信息,根据资讯信息和多个实体对应的属性信息,确定资讯信息对应的资讯主体。根据多个资讯主体,生成事件的事件主体。由此,实现了充分利用知识图谱中记载的属性信息,结合资讯信息,确定资讯信息对应的资讯主体,进而生成事件的事件主体,提高了生成事件主体的准确度。
为了更加清楚地说明本发明实施例所提供的基于知识图谱的信息处理方法是如何确定资讯信息对应的资讯主体的,本发明实施例还提出了另一种基于知识图谱的信息处理方法。图4为本发明实施例所提供的另一种基于知识图谱的信息处理方法的流程示意图,如图4所示,基于图1所示的方法流程,S104根据资讯信息和多个实体对应的属性信息,确定资讯信息对应的资讯主体,包括:
S201,提取结点信息中的背景信息。
应当理解,结点信息中包含各种信息,其中背景信息可以用来判断该实体与资讯信息的相关度大小。
S202,根据背景信息确定实体和资讯信息的第一相关度。
具体地,通过自然语言处理技术对背景信息和资讯信息进行语义识别,确定背景信息和资讯信息的内容吻合度,并将其作为实体和资讯信息的第一相关度。
S203,根据边信息,确定多个实体之间的关系强度,并根据关系强度确定多个实体之间的第二相关度。
应当理解,同一个资讯信息包含多个实体,除了要考虑实体和资讯信息的关联度,还需要考虑多个实体之间的关联度。
在本发明实施例所提供的基于知识图谱的信息处理方法中,首先将知识图谱中的边信息与实体之间的关系相关联,再根据边信息,确定多个实体之间的关系强度。可以理解,实体之间的边信息越密集,实体之间的关系强度越强,进而可以根据关系强度确定多个实体之间的第二相关度。
S204,根据第一相关度和第二相关度,确定资讯信息对应的资讯主体。
其中,第一相关度代表该实体与资讯信息之间的关联度,第二相关度代表该实体与其他实体之间的关联度。
需要说明的是,资讯主体是指与资讯信息中的实体列表,且实体列表中的实体按照相对资讯信息的重要程度降序排列。
可以理解,要评价该实体对该资讯信息的重要程度,需要综合考虑第一相关度和第二相关度,进而根据该实体的重要程度,确定资讯信息对应的资讯主体。
一种可能的实现方式是,根据第一相关度和第二相关度,分别计算多个实体的权重得分,根据多个实体的权重得分对多个实体进行排序,以确定资讯信息对应的资讯主体。其中,权重得分可以通过对第一相关度和第二相关度加权求和获得。
从而,实现了根据结点信息和边信息,确定资讯信息对应的资讯主体。
为了更加清楚地说明本发明实施例所提供的基于知识图谱的信息处理方法是如何通过资讯信息生成资讯主体的,下面进行举例说明。
如图5所示,输入资讯信息之后,对资讯信息进行实体识别,然后将识别出的实体与知识图谱中的结点相关联,进而确定关联的实体在资讯信息中的重要程度,根据重要程度对识别出的实体进行排序,生成资讯主体。
为了更加清楚地说明本发明实施例所提供的基于知识图谱的信息处理方法是如何生成事件的事件主体的,本发明实施例还提出了又一种基于知识图谱的信息处理方法。图6为本发明实施例所提供的又一种基于知识图谱的信息处理方法的流程示意图。如图6所示,基于图1所示的方法流程,S105根据多个资讯主体,生成事件的事件主体,包括:
S301,分别获取多个资讯信息的热度和来源。
其中,资讯信息的热度包括资讯信息的点击数、评论数、回复数,资讯信息的来源包括不同的网站。
可以理解,不同资讯信息的热度和来源不同,而资讯信息的来源可以反映该资讯信息的可靠度,资讯信息的热度可以反映该资讯信息的影响度。
S302,根据多个资讯信息的热度和来源,分别计算多个资讯信息对应的权重值。
S303,根据资讯信息对应的权重值和多个实体的权重得分,计算多个实体对应的合并权重得分。
可以理解,资讯主体的可靠度越高、影响度越大,该资讯信息对应的资讯主体对事件的重要程度越高,因此在将多个资讯主体合并为事件主体时,需要根据资讯信息的重要程度,对资讯主体中的实体的权重得分进行加权计算,以得到多个实体对应的合并权重得分。
S304,分别获取多个资讯主体中的多个实体,并根据合并权重得分对多个资讯主体中的多个实体进行排序,以生成事件主体。
具体地,将多个资讯主体中的多个实体合并为一个实体列表,并按照实体对应的合并权重得分对实体进行排序,从而生成事件主体。
从而,实现了根据多个资讯主体,生成事件的事件主体。
为了更加清楚地说明本发明实施例所提供的基于知识图谱的信息处理方法,下面进行举例说明。
如图7所示,首先通过事件发现获得事件的多个资讯信息,对资讯信息进行实体识别,生成实体列表,对实体列表中的实体进行排序生成资讯主体。
具体地,从知识图谱中获取实体的属性信息,对资讯信息进行别名求解、指代求解,然后确定实体的重要程度,根据实体的重要程度对实体进行排序,生成资讯信息对应的资讯主体。
将不同资讯主体中的实体进行合并,得到事件主体对应的实体列表。计算实体对应的合并权重得分,并根据合并权重得分对事件主体对应的实体列表中的实体进行排序,生成事件的事件主体。
为了实现上述实施例,本发明实施例还提出一种基于知识图谱的信息处理装置,图8为本发明实施例所提供的一种基于知识图谱的信息处理装置的结构示意图,如图8所示,该装置包括:第一获取模块410,提取模块420,第二获取模块430,确定模块440,生成模块450。
第一获取模块410,用于获取事件的多个资讯信息。
提取模块420,用于分别从每个资讯信息中提取出对应的多个实体。
第二获取模块430,用于从知识图谱中获取多个实体对应的属性信息。
确定模块440,用于根据资讯信息和多个实体对应的属性信息,确定资讯信息对应的资讯主体。
生成模块450,用于根据多个资讯主体,生成事件的事件主体。
进一步地,为了从知识图谱中获取多个实体对应的属性信息,一种可能的实现方式是,属性信息包括结点信息和边信息,第二获取模块430,包括:第一获取子模块431,用于获取多个实体在知识图谱中分别对应的多个结点。第二获取子模块432,用于分别获取多个结点对应的多个结点信息。第三获取子模块433,用于获取多个结点之间的边。第四获取子模块434,用于分别获取多个结点之间的边对应的边信息。
进一步地,为了便于对资讯信息进行后续处理,一种可能的实现方式是,该装置还包括:求解模块460,用于对资讯信息进行指代求解和别名求解,以将资讯信息中的代词和别名替换为实体。
需要说明的是,前述对基于知识图谱的信息处理方法实施例的解释说明也适用于该实施例的基于知识图谱的信息处理装置,此处不再赘述。
综上所述,本发明实施例所提供的基于知识图谱的信息处理装置,获取与事件相关的多个资讯信息,分别从每个资讯信息中提取出对应的多个实体。从知识图谱中获取多个实体对应的属性信息,根据资讯信息和多个实体对应的属性信息,确定资讯信息对应的资讯主体。根据多个资讯主体,生成事件的事件主体。由此,实现了充分利用知识图谱中记载的属性信息,结合资讯信息,确定资讯信息对应的资讯主体,进而生成事件的事件主体,提高了生成事件主体的准确度。
为了实现上述实施例,本发明实施例还提出另一种事件主体的装置,图9为本发明实施例所提供的另一种基于知识图谱的信息处理装置的结构示意图,如图9所示,基于图8所示的装置结构,确定模块440,包括:提取子模块441,第一确定子模块442,第二确定子模块443,第三确定子模块444,第四确定子模块445。
提取子模块441,用于提取结点信息中的背景信息。
第一确定子模块442,用于根据背景信息确定实体和资讯信息的第一相关度。
第二确定子模块443,用于根据边信息,确定多个实体之间的关系强度。
第三确定子模块444,用于根据关系强度确定多个实体之间的第二相关度。
第四确定子模块445,用于根据第一相关度和第二相关度,确定资讯信息对应的资讯主体。
进一步地,为了确定资讯信息对应的资讯主体,一种可能的实现方式是,第四确定子模块445,包括:计算单元4451,用于根据第一相关度和第二相关度,分别计算多个实体的权重得分。排序单元4452,用于根据多个实体的权重得分对多个实体进行排序,以确定资讯信息对应的资讯主体。
需要说明的是,前述对基于知识图谱的信息处理方法实施例的解释说明也适用于该实施例的基于知识图谱的信息处理装置,此处不再赘述。
从而,实现了根据结点信息和边信息,确定资讯信息对应的资讯主体。
为了实现上述实施例,本发明实施例还提出又一种基于知识图谱的信息处理装置,图10为本发明实施例所提供的又一种基于知识图谱的信息处理装置的结构示意图,如图10所示,基于图8所示的装置结构,生成模块450,包括:第五获取子模块451,第一计算子模块452,第二计算子模块453,第六获取子模块454,排序子模块455。
第五获取子模块451,用于分别获取多个资讯信息的热度和来源。
第一计算子模块452,用于根据多个资讯信息的热度和来源,分别计算多个资讯信息对应的权重值。
第二计算子模块453,用于根据资讯信息对应的权重值和多个实体的权重得分,计算多个实体对应的合并权重得分。
第六获取子模块454,用于分别获取多个资讯主体中的多个实体。
排序子模块455,用于根据合并权重得分对多个资讯主体中的多个实体进行排序,以生成事件主体。
需要说明的是,前述对基于知识图谱的信息处理方法实施例的解释说明也适用于该实施例的基于知识图谱的信息处理装置,此处不再赘述。
从而,实现了根据多个资讯主体,生成事件的事件主体。
为了实现上述实施例,本发明实施例还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的基于知识图谱的信息处理方法。
为了实现上述实施例,实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的基于知识图谱的信息处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于知识图谱的信息处理方法,其特征在于,包括:
获取事件的多个资讯信息;
分别从每个所述资讯信息中提取出对应的多个实体;
从知识图谱中获取所述多个实体对应的属性信息;
根据所述资讯信息和所述多个实体对应的属性信息,确定所述资讯信息对应的资讯主体;以及
根据多个所述资讯主体,生成所述事件的事件主体;
其中,所述获取事件的多个资讯信息,包括:通过信息挖掘的方式抓取事件的资讯信息,并按照发布时间对所抓取的事件的咨询信息进行筛选,以选取特定时间内的事件的多个资讯信息;
所述属性信息包括结点信息和边信息,所述从知识图谱中获取所述多个实体对应的属性信息,包括:
获取所述多个实体在所述知识图谱中分别对应的多个结点,并分别获取所述多个结点对应的多个结点信息;
获取所述多个结点之间的边,并分别获取所述多个结点之间的边对应的边信息;
所述根据所述资讯信息和所述多个实体对应的属性信息,确定所述资讯信息对应的资讯主体,包括:
提取所述结点信息中的背景信息;
根据所述背景信息确定所述实体和所述资讯信息的第一相关度;
根据所述边信息,确定所述多个实体之间的关系强度,并根据所述关系强度确定所述多个实体之间的第二相关度;
根据所述第一相关度和所述第二相关度,确定所述资讯信息对应的资讯主体。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一相关度和所述第二相关度,确定所述资讯信息对应的资讯主体,包括:
根据所述第一相关度和所述第二相关度,分别计算所述多个实体的权重得分;
根据所述多个实体的权重得分对所述多个实体进行排序,以确定所述资讯信息对应的资讯主体。
3.如权利要求1所述的方法,其特征在于,所述根据多个所述资讯主体,生成所述事件的事件主体,包括:
分别获取所述多个资讯信息的热度和来源;
根据所述多个资讯信息的热度和来源,分别计算所述多个资讯信息对应的权重值;
根据所述资讯信息对应的权重值和所述多个实体的权重得分,计算所述多个实体对应的合并权重得分;
分别获取多个所述资讯主体中的多个实体,并根据所述合并权重得分对所述多个资讯主体中的多个实体进行排序,以生成所述事件主体。
4.如权利要求1-3中任一项所述的方法,在所述根据所述资讯信息和所述多个实体对应的属性信息,确定所述资讯信息对应的资讯主体之前,还包括:
对所述资讯信息进行指代求解和别名求解,以将所述资讯信息中的代词和别名替换为所述实体。
5.一种基于知识图谱的信息处理装置,其特征在于,包括:
第一获取模块,用于获取事件的多个资讯信息;
提取模块,用于分别从每个所述资讯信息中提取出对应的多个实体;
第二获取模块,用于从知识图谱中获取所述多个实体对应的属性信息;
确定模块,用于根据所述资讯信息和所述多个实体对应的属性信息,确定所述资讯信息对应的资讯主体;以及
生成模块,用于根据多个所述资讯主体,生成所述事件的事件主体;
其中,所述第一获取模块,还用于:通过信息挖掘的方式抓取事件的资讯信息,并按照发布时间对所抓取的事件的咨询信息进行筛选,以选取特定时间内的事件的多个资讯信息;
所述属性信息包括结点信息和边信息,所述第二获取模块,包括:
第一获取子模块,用于获取所述多个实体在所述知识图谱中分别对应的多个结点;
第二获取子模块,用于分别获取所述多个结点对应的多个结点信息;
第三获取子模块,用于获取所述多个结点之间的边;
第四获取子模块,用于分别获取所述多个结点之间的边对应的边信息;
所述确定模块,包括:
提取子模块,用于提取所述结点信息中的背景信息;
第一确定子模块,用于根据所述背景信息确定所述实体和所述资讯信息的第一相关度;
第二确定子模块,用于根据所述边信息,确定所述多个实体之间的关系强度;
第三确定子模块,用于根据所述关系强度确定所述多个实体之间的第二相关度;
第四确定子模块,用于根据所述第一相关度和所述第二相关度,确定所述资讯信息对应的资讯主体。
6.如权利要求5所述的装置,其特征在于,所述第四确定子模块,包括:
计算单元,用于根据所述第一相关度和所述第二相关度,分别计算所述多个实体的权重得分;
排序单元,用于根据所述多个实体的权重得分对所述多个实体进行排序,以确定所述资讯信息对应的资讯主体。
7.如权利要求5所述的装置,其特征在于,所述生成模块,包括:
第五获取子模块,用于分别获取所述多个资讯信息的热度和来源;
第一计算子模块,用于根据所述多个资讯信息的热度和来源,分别计算所述多个资讯信息对应的权重值;
第二计算子模块,用于根据所述资讯信息对应的权重值和所述多个实体的权重得分,计算所述多个实体对应的合并权重得分;
第六获取子模块,用于分别获取多个所述资讯主体中的多个实体;
排序子模块,用于根据所述合并权重得分对所述多个资讯主体中的多个实体进行排序,以生成所述事件主体。
8.如权利要求5-7中任一项所述的装置,其特征在于,所述装置还包括:
求解模块,用于对所述资讯信息进行指代求解和别名求解,以将所述资讯信息中的代词和别名替换为所述实体。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的基于知识图谱的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111062524.XA CN113779266B (zh) | 2018-12-17 | 2018-12-17 | 基于知识图谱的信息处理方法及其装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811544216.9A CN109710773B (zh) | 2018-12-17 | 2018-12-17 | 事件主体的生成方法及其装置 |
CN202111062524.XA CN113779266B (zh) | 2018-12-17 | 2018-12-17 | 基于知识图谱的信息处理方法及其装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811544216.9A Division CN109710773B (zh) | 2018-12-17 | 2018-12-17 | 事件主体的生成方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779266A CN113779266A (zh) | 2021-12-10 |
CN113779266B true CN113779266B (zh) | 2023-10-13 |
Family
ID=66256807
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111062524.XA Active CN113779266B (zh) | 2018-12-17 | 2018-12-17 | 基于知识图谱的信息处理方法及其装置 |
CN201811544216.9A Active CN109710773B (zh) | 2018-12-17 | 2018-12-17 | 事件主体的生成方法及其装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811544216.9A Active CN109710773B (zh) | 2018-12-17 | 2018-12-17 | 事件主体的生成方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113779266B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263254A (zh) * | 2019-06-20 | 2019-09-20 | 北京百度网讯科技有限公司 | 事件分级方法、装置、设备和介质 |
CN111447507B (zh) * | 2020-03-20 | 2022-03-22 | 北京百度网讯科技有限公司 | 视频制作方法和装置、电子设备和存储介质 |
CN112287172A (zh) * | 2020-10-29 | 2021-01-29 | 药渡经纬信息科技(北京)有限公司 | 视频专辑生成方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503035A (zh) * | 2016-09-14 | 2017-03-15 | 海信集团有限公司 | 一种知识图谱的数据处理方法和装置 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
CN107038262A (zh) * | 2017-05-30 | 2017-08-11 | 海南大学 | 一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法 |
CN107895056A (zh) * | 2017-12-29 | 2018-04-10 | 百度在线网络技术(北京)有限公司 | 一种信息推荐方法、装置、电子设备和存储介质 |
CN108292310A (zh) * | 2015-11-05 | 2018-07-17 | 微软技术许可有限责任公司 | 用于数字实体相关的技术 |
WO2018209254A1 (en) * | 2017-05-11 | 2018-11-15 | Hubspot, Inc. | Methods and systems for automated generation of personalized messages |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11003729B2 (en) * | 2012-12-12 | 2021-05-11 | Google Llc | Providing search results based on a compositional query |
US20150095319A1 (en) * | 2013-06-10 | 2015-04-02 | Microsoft Corporation | Query Expansion, Filtering and Ranking for Improved Semantic Search Results Utilizing Knowledge Graphs |
CN105468605B (zh) * | 2014-08-25 | 2019-04-12 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
US10586156B2 (en) * | 2015-06-25 | 2020-03-10 | International Business Machines Corporation | Knowledge canvassing using a knowledge graph and a question and answer system |
US10740365B2 (en) * | 2017-06-14 | 2020-08-11 | International Business Machines Corporation | Gap identification in corpora |
CN108829661B (zh) * | 2018-05-09 | 2020-03-27 | 成都信息工程大学 | 一种基于模糊匹配的新闻主体名称提取方法 |
-
2018
- 2018-12-17 CN CN202111062524.XA patent/CN113779266B/zh active Active
- 2018-12-17 CN CN201811544216.9A patent/CN109710773B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108292310A (zh) * | 2015-11-05 | 2018-07-17 | 微软技术许可有限责任公司 | 用于数字实体相关的技术 |
CN106503035A (zh) * | 2016-09-14 | 2017-03-15 | 海信集团有限公司 | 一种知识图谱的数据处理方法和装置 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
WO2018209254A1 (en) * | 2017-05-11 | 2018-11-15 | Hubspot, Inc. | Methods and systems for automated generation of personalized messages |
CN107038262A (zh) * | 2017-05-30 | 2017-08-11 | 海南大学 | 一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法 |
CN107895056A (zh) * | 2017-12-29 | 2018-04-10 | 百度在线网络技术(北京)有限公司 | 一种信息推荐方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
知识图谱与网络表示学习;先兴平;吴涛;;产业与科技论坛(第17期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113779266A (zh) | 2021-12-10 |
CN109710773A (zh) | 2019-05-03 |
CN109710773B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033229B (zh) | 问答处理方法和装置 | |
US10255546B2 (en) | Question-answering system | |
O’Mara-Eves et al. | Using text mining for study identification in systematic reviews: a systematic review of current approaches | |
CN113779266B (zh) | 基于知识图谱的信息处理方法及其装置 | |
Zubiaga et al. | Towards real-time summarization of scheduled events from twitter streams | |
CN109657213B (zh) | 文本相似度检测方法、装置和电子设备 | |
US10909320B2 (en) | Ontology-based document analysis and annotation generation | |
CN112115299A (zh) | 视频搜索方法、装置、推荐方法、电子设备及存储介质 | |
CN109325146B (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
US20200125673A1 (en) | Learning thematic similarity metric from article text units | |
CN104462084A (zh) | 基于多个查询提供搜索细化建议 | |
US20100191758A1 (en) | System and method for improved search relevance using proximity boosting | |
CN109508391B (zh) | 基于知识图谱的输入预测方法、装置和电子设备 | |
US20120221656A1 (en) | Tracking message topics in an interactive messaging environment | |
Parra et al. | Automatic tag recommendation for software development video tutorials | |
CN108520078B (zh) | 视频识别方法和装置 | |
US9697466B2 (en) | Automated opinion prediction based on indirect information | |
Wu et al. | Efficient near-duplicate detection for q&a forum | |
Stiller et al. | Automatic enrichments with controlled vocabularies in Europeana: Challenges and consequences | |
CN110866836A (zh) | 计算机执行的医疗保险立案审核方法和装置 | |
Jahagirdar et al. | Watching the news: Towards videoqa models that can read | |
EP2887239A2 (en) | Method and system of audio retrieval and source separation | |
US9442918B2 (en) | Perspective data management for common features of multiple items | |
CN107748801B (zh) | 新闻推荐方法、装置、终端设备及计算机可读存储介质 | |
CN110930106A (zh) | 线上面试系统的信息处理方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |