CN110162640A - 新实体挖掘方法、装置、计算机设备及存储介质 - Google Patents

新实体挖掘方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110162640A
CN110162640A CN201910348868.3A CN201910348868A CN110162640A CN 110162640 A CN110162640 A CN 110162640A CN 201910348868 A CN201910348868 A CN 201910348868A CN 110162640 A CN110162640 A CN 110162640A
Authority
CN
China
Prior art keywords
principal
entity
target text
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910348868.3A
Other languages
English (en)
Inventor
张强
张扬
冯知凡
任可欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910348868.3A priority Critical patent/CN110162640A/zh
Publication of CN110162640A publication Critical patent/CN110162640A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了新实体挖掘方法、装置、计算机设备及存储介质,其中方法可包括:获取目标文本,对目标文本进行实体描述信息识别;若根据识别结果确定出目标文本中包含对于实体的描述信息,则对目标文本进行实体识别;将识别出的实体中的新实体收录到知识图谱中。应用本发明所述方案,可提升知识图谱的实体收录覆盖率等。

Description

新实体挖掘方法、装置、计算机设备及存储介质
【技术领域】
本发明涉及知识图谱技术,特别涉及新实体挖掘方法、装置、计算机设备及存储介质。
【背景技术】
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图。知识图谱支撑了很多行业中的具体应用,如信息检索、自然语言理解、问答系统、推荐系统、电子商务、金融风控等。
传统的知识图谱收录主要借助于百科类网站及垂类网站的结构化数据源,相应地,对于新实体的发现和收录主要依赖于百科类网站及垂站网站的数据源的网页的更新。
但互联网上经常会出现一些新的人物、歌曲、小说等实体,这些实体在互联网上快速蹿红,而上述数据源网页的更新往往需要数天甚至数周时间,从而造成新实体不能被及时收录到知识图谱中,进而降低了知识图谱的实体收录覆盖率等。
【发明内容】
有鉴于此,本发明提供了新实体挖掘方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种新实体挖掘方法,包括:
获取目标文本,对所述目标文本进行实体描述信息识别;
若根据识别结果确定所述目标文本中包含对于实体的描述信息,则对所述目标文本进行实体识别;
将识别出的实体中的新实体收录到知识图谱中。
根据本发明一优选实施例,所述获取目标文本包括:
从目标网站上抓取非结构化数据网页;
将抓取到的网页中的内容作为所述目标文本。
根据本发明一优选实施例,所述对所述目标文本进行实体描述信息识别包括:
利用预定规则对所述目标文本进行实体描述信息识别,确定出所述目标文本中是否包含对于实体的描述信息;
或者,利用预先训练得到的信息识别模型识别出所述目标文本中是否包含对于实体的描述信息。
根据本发明一优选实施例,所述对所述目标文本进行实体识别包括:利用预先训练得到的实体识别模型识别出所述目标文本中的实体。
根据本发明一优选实施例,所述将识别出的实体中的新实体收录到知识图谱中包括:
从识别出的实体中确定出至少一个主实体;
针对每个主实体,分别确定所述主实体是否为新实体,若是,则将所述主实体收录到知识图谱中。
根据本发明一优选实施例,所述从识别出的实体中确定出至少一个主实体包括:
针对识别出的每个实体,分别利用预先训练得到的主实体识别模型确定出所述实体是否为主实体;
或者,针对识别出的每个实体,分别利用预定规则确定出所述实体是否为主实体。
根据本发明一优选实施例,所述分别确定所述主实体是否为新实体包括:
获取所述主实体的属性信息;
根据所述主实体的属性信息对所述主实体进行消歧与关联,确定出所述主实体是否为新实体。
根据本发明一优选实施例,所述获取所述主实体的属性信息包括:从所述目标文本中记载的所述主实体的描述信息中抽取出所述主实体的属性信息。
根据本发明一优选实施例,所述获取所述主实体的属性信息进一步包括:搜索得到所述主实体的属性信息。
根据本发明一优选实施例,该方法进一步包括:对于任一主实体,若确定所述主实体不为新实体,但确定所述主实体的属性信息发生了更新,则按照获取到的所述主实体的属性信息对知识图谱中收录的所述主实体进行更新。
一种新实体挖掘装置,包括:获取单元、第一识别单元、第二识别单元以及收录单元;
所述获取单元,用于获取目标文本;
所述第一识别单元,用于对所述目标文本进行实体描述信息识别;
所述第二识别单元,用于当根据识别结果确定所述目标文本中包含对于实体的描述信息时,对所述目标文本进行实体识别;
所述收录单元,用于将识别出的实体中的新实体收录到知识图谱中。
根据本发明一优选实施例,所述获取单元从目标网站上抓取非结构化数据网页,将抓取到的网页中的内容作为所述目标文本。
根据本发明一优选实施例,所述第一识别单元利用预定规则对所述目标文本进行实体描述信息识别,确定出所述目标文本中是否包含对于实体的描述信息;
或者,所述第一识别单元利用预先训练得到的信息识别模型识别出所述目标文本中是否包含对于实体的描述信息。
根据本发明一优选实施例,所述第二识别单元利用预先训练得到的实体识别模型识别出所述目标文本中的实体。
根据本发明一优选实施例,所述收录单元从识别出的实体中确定出至少一个主实体,针对每个主实体,分别确定所述主实体是否为新实体,若是,则将所述主实体收录到知识图谱中。
根据本发明一优选实施例,针对识别出的每个实体,所述收录单元分别利用预先训练得到的主实体识别模型确定出所述实体是否为主实体,或者,分别利用预定规则确定出所述实体是否为主实体。
根据本发明一优选实施例,对于每个主实体,所述收录单元获取所述主实体的属性信息,根据所述主实体的属性信息对所述主实体进行消歧与关联,确定出所述主实体是否为新实体。
根据本发明一优选实施例,所述收录单元从所述目标文本中记载的所述主实体的描述信息中抽取出所述主实体的属性信息。
根据本发明一优选实施例,所述收录单元进一步用于,搜索得到所述主实体的属性信息。
根据本发明一优选实施例,所述收录单元进一步用于,对于任一主实体,若确定所述主实体不为新实体,但确定所述主实体的属性信息发生了更新,则按照获取到的所述主实体的属性信息对知识图谱中收录的所述主实体进行更新。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,可自动地从获取到的目标文本中挖掘出新实体,收录到知识图谱中,并可根据实际需要灵活设置挖掘周期,从而使得新实体能够被及时收录到知识图谱中,进而提升了知识图谱的实体收录覆盖率等。
【附图说明】
图1为本发明所述新实体挖掘方法实施例的流程图。
图2为本发明所述新实体挖掘装置实施例的组成结构示意图。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明所述新实体挖掘方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,获取目标文本,对目标文本进行实体描述信息识别。
在102中,若根据识别结果确定目标文本中包含对于实体的描述信息,则对目标文本进行实体识别。
在103中,将识别出的实体中的新实体收录到知识图谱中。
优选地,可从目标网站上抓取非结构化数据网页,并将抓取到的网页中的内容作为目标文本。
比如,可抓取百度知道、微博、百度新闻、百家号等非结构化数据网页,将抓取到的每个网页中的内容分别作为一个目标文本。另外,优选地,可周期性地进行抓取,所述周期的具体取值可根据实际需要而定,每次抓取时,为节省抓取及后续处理的工作量,可仅抓取最近一个周期内新增的网页内容。
针对每个目标文本,可分别对其进行实体描述信息识别,以识别出目标文本中是否包含对于实体的描述信息。
在实际应用中,并不是所有的目标文本都是在描述某一个或多个实体,比如,某一目标文本为百度知道的问答文本,其中的问题为“iphone6怎么设置性能最佳”,其中虽然包含实体“iphone6”,但整个文本并不是针对实体属性等进行的描述,这样的文本并适合进行实体收录,因此为节省后续处理的工作量等,可先对目标文本进行过滤,过滤掉不符合要求的目标文本,即可对目标文本进行实体描述信息识别,识别出目标文本中是否包含对于实体的描述信息,若是,则可继续后续处理,若否,可结束处理。
其中,对目标文本进行实体描述信息识别的方式可包括但不限于以下两种:
1)利用预定规则对目标文本进行实体描述信息识别,确定出目标文本中是否包含对于实体的描述信息。
所述预定规则具体为何种规则可根据实际需要而定,可人工编辑生成,为提升识别结果的准确性,通常采用多条规则相结合的方式来进行实体描述信息识别。
2)利用预先训练得到的信息识别模型识别出目标文本中是否包含对于实体的描述信息。
信息识别模型可为深度学习模型,优选地,信息识别模型可为卷积神经网络(CNN,Convolutional Neural Network)文本分类模型。
可将目标文本输入给信息识别模型,由信息识别模型给出目标文本中是否包含对于实体的描述信息的识别结果,如0或1,0可表示目标文本中不包含对于实体的描述信息,1可表示目标文本中包含对于实体的描述信息。
信息识别模型可通过预先构建的训练样本训练得到,每条训练样本中可包括:文本以及文本中是否包含对于实体的描述信息的判别结果。
无论采用何种方式,在确定出目标文本中包含对于实体的描述信息之后,可进一步对目标文本进行实体识别。
如何对目标文本进行实体识别不作限制。优选地,可利用预先训练得到的实体识别模型识别出目标文本中的实体。
实体识别模型可为深度学习模型,可将目标文本输入给实体识别模型,从而得到输出的识别出的目标文本中的实体,可能为一个,也可能为多个。实体识别模型可通过预先构建的训练样本训练得到。
从目标文本中识别出的实体中可能存在一些干扰实体,如目标文本中记载了如下内容:今天上午,A(公司)在B(地点)举办了关于C(一款手机)的发布会,介绍了新推出的C,该手机的屏幕分辨率达到了**级别等,可从中识别出A、B、C等多个实体,其中C为目标文本介绍的主要实体,其它实体如B相对于C来说可称为干扰实体,为节省后续处理的工作量等,可过滤掉干扰实体,仅保留主实体,即可从识别出的实体中确定出至少一个主实体。之后可针对每个主实体,分别确定出该主实体是否为新实体,若是,则可将该主实体收录到知识图谱中。主实体通常不会超过两个,多数情况下一个目标文本中只有一个主实体。
如何确定出主实体不作限制。优选地,针对识别出的每个实体,可分别利用预先训练得到的主实体识别模型确定出该实体是否为主实体。如可将该实体及目标文本输入给主实体识别模型,由主实体识别模型给出该实体是否为主实体的识别结果,如0或1,0可表示该实体不为主实体,1可表示该实体为主实体。主实体识别模型可为深度学习模型,可通过预先构建的训练样本训练得到。
或者,针对识别出的每个实体,可分别利用预定规则确定出该实体是否为主实体。所述规则可为人工编辑生成,为提升识别结果的准确性,通常采用多条规则相结合的方式,即针对识别出的每个实体,分别综合多条预定规则确定出该实体是否为主实体。
多条预定规则可包括:实体是否出现在标题中、实体是否出现在段落首个句子中、实体是否出现在目标文本的前1/3处、实体在目标文本中的出现次数以及实体对应的mention在目标文本中的出现次数等。
实体对应的mention指组成实体的字符串,如对于“百度公司”这一实体,mention即指由“百”、“度”、“公”和“司”四个字符组成的字符串。多数情况下,“实体在目标文本中的出现次数”和“实体对应的mention在目标文本中的出现次数”是相同的,但个别情况下也可能不同,比如,对于“苹果”这一实体,在目标文本中多次出现时,有时可能是指苹果公司,有时可能是指苹果这一水果。通常来说,相比于非主实体(即上述干扰实体),主实体出现在标题中、段落首个句子中及目标文本的前1/3等处的可能性更大,在目标文本中的出现次数也会更多,因此,可基于上述规则来确定出识别出的任一实体是否为主实体。
对于每个主实体,可进一步确定出该主实体是否为新实体,若是,则可将该主实体收录到知识图谱中。
优选地,在确定一主实体是否为新实体时,可首先获取该主实体的属性信息,之后可根据该主实体的属性信息对该主实体进行消歧与关联,从而确定出该主实体是否为新实体。
具体地,可从目标文本中记载的该主实体的描述信息中抽取出该主实体的属性信息。比如,一主实体为“**手机”、目标文本中记载了关于“**手机”这一主实体的如下描述信息:**手机是**公司于2019年3月推出了一款高性能手机,电池容量高达**mAh,搭载了**英寸显示屏等,那么可从中抽取出该主实体的属性信息,如所属公司为**公司、电池容量为**mAh,屏幕尺寸为**英寸等。
或者,也可通过填槽(slot filling)方式抽取,即在确定出主实体类型后,指定SP,抽取O,SPO为Subject-Predication-Object的缩写,即主谓宾三元组。比如,主实体类型为手机,那么可通过查询知识图谱schema来确定P,从而去目标文本中抽取相应的O。对于无法从目标文本中抽取到的O,可通过搜索得到,即可从互联网上搜索得到所需的主实体的属性信息,从而进一步完善主实体的属性信息。
对于任一主实体,在获取到该主实体的属性信息后,可按照现有方式,根据该主实体的属性信息对该主实体进行消歧与关联等,从而确定出该主实体是否为新实体,如果是新实体,可将其收录到知识图谱中,根据属性信息构建边关系等。
对于任一主实体,若确定该主实体不为新实体,但确定该主实体的属性信息发生了更新,如一个演员从未婚状态变成了已婚状态,那么可按照获取到的该主实体的属性信息对知识图谱中收录的该主实体进行相应更新,从而实现了对于知识图谱中已收录的实体信息的及时更新,确保了信息的准确性等。
需要说明的是,对于前述的各方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
总之,采用本发明方法实施例所述方案,可自动地从获取到的目标文本中挖掘出新实体,收录到知识图谱中,并可根据实际需要灵活设置挖掘周期,从而使得新实体能够被及时收录到知识图谱中,进而提升了知识图谱的实体收录覆盖率,并可实现对于知识图谱中已收录的实体信息的及时更新,确保了信息的准确性等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图2为本发明所述新实体挖掘装置实施例的组成结构示意图。如图2所示,包括:获取单元201、第一识别单元202、第二识别单元203以及收录单元204。
获取单元201,用于获取目标文本。
第一识别单元202,用于对目标文本进行实体描述信息识别。
第二识别单元203,用于当根据识别结果确定目标文本中包含对于实体的描述信息时,对目标文本进行实体识别。
收录单元204,用于将识别出的实体中的新实体收录到知识图谱中。
其中,获取单元201可从目标网站上抓取非结构化数据网页,将抓取到的网页中的内容作为目标文本。
比如,可抓取百度知道、微博、百度新闻、百家号等非结构化数据网页,将抓取到的每个网页中的内容分别作为一个目标文本。可周期性地进行抓取,所述周期的具体取值可根据实际需要而定,每次抓取时,为节省抓取及后续处理的工作量,可仅抓取最近一个周期内新增的网页内容。
在实际应用中,并不是所有的目标文本都是在描述某一个或多个实体,这样的文本并适合进行实体收录,因此为节省后续处理的工作量等,可先对目标文本进行过滤,过滤掉不符合要求的目标文本,相应地,第一识别单元202可对目标文本进行实体描述信息识别,识别出目标文本中是否包含对于实体的描述信息,若是,则可继续后续处理,若否,可结束处理。
优选地,第一识别单元202可利用预定规则对目标文本进行实体描述信息识别,确定出目标文本中是否包含对于实体的描述信息,或者,可利用预先训练得到的信息识别模型识别出目标文本中是否包含对于实体的描述信息。信息识别模型可为深度学习模型,可将目标文本输入给信息识别模型,由信息识别模型给出目标文本中是否包含对于实体的描述信息的识别结果,如0或1,0可表示目标文本中不包含对于实体的描述信息,1可表示目标文本中包含对于实体的描述信息。
若确定目标文本中包含对于实体的描述信息,那么第二识别单元203可进一步对目标文本进行实体识别。优选地,可利用预先训练得到的实体识别模型识别出目标文本中的实体。实体识别模型可为深度学习模型,可将目标文本输入给实体识别模型,从而得到输出的识别出的目标文本中的实体,可能为一个,也可能为多个。
从目标文本中识别出的实体中可能存在一些干扰实体,为节省后续处理的工作量等,可过滤掉干扰实体,仅保留主实体。相应地,收录单元204可从识别出的实体中确定出至少一个主实体,之后可针对每个主实体,分别确定出该主实体是否为新实体,若是,则可将该主实体收录到知识图谱中。主实体通常不会超过两个,多数情况下一个目标文本中只有一个主实体。
优选地,针对识别出的每个实体,收录单元204可分别利用预先训练得到的主实体识别模型确定出该实体是否为主实体,或者,分别利用预定规则确定出该实体是否为主实体。
主实体识别模型可为深度学习模型,针对识别出的每个实体,可分别将该实体及目标文本输入给主实体识别模型,由主实体识别模型给出该实体是否为主实体的识别结果,如0或1,0可表示该实体不为主实体,1可表示该实体为主实体。所述预定规则可包括:实体是否出现在标题中、实体是否出现在段落首个句子中、实体是否出现在目标文本的前1/3处、实体在目标文本中的出现次数以及实体对应的mention在目标文本中的出现次数等。
对于每个主实体,收录单元204可进一步确定出该主实体是否为新实体。优选地,可获取该主实体的属性信息,根据该主实体的属性信息对该主实体进行消歧与关联,确定出该主实体是否为新实体。
其中,收录单元204可从目标文本中记载的该主实体的描述信息中抽取出该主实体的属性信息,进一步地,还可搜索得到该主实体的属性信息。
另外,对于任一主实体,若确定该主实体不为新实体,但确定该主实体的属性信息发生了更新,收录单元204可按照获取到的该主实体的属性信息对知识图谱中收录的该主实体进行更新。
图2所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本发明装置实施例所述方案,可自动地从获取到的目标文本中挖掘出新实体,收录到知识图谱中,并可根据实际需要灵活设置挖掘周期,从而使得新实体能够被及时收录到知识图谱中,进而提升了知识图谱的实体收录覆盖率,并可实现对于知识图谱中已收录的实体信息的及时更新,确保了信息的准确性等。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图3显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (22)

1.一种新实体挖掘方法,其特征在于,包括:
获取目标文本,对所述目标文本进行实体描述信息识别;
若根据识别结果确定所述目标文本中包含对于实体的描述信息,则对所述目标文本进行实体识别;
将识别出的实体中的新实体收录到知识图谱中。
2.根据权利要求1所述的方法,其特征在于,
所述获取目标文本包括:
从目标网站上抓取非结构化数据网页;
将抓取到的网页中的内容作为所述目标文本。
3.根据权利要求1所述的方法,其特征在于,
所述对所述目标文本进行实体描述信息识别包括:
利用预定规则对所述目标文本进行实体描述信息识别,确定出所述目标文本中是否包含对于实体的描述信息;
或者,利用预先训练得到的信息识别模型识别出所述目标文本中是否包含对于实体的描述信息。
4.根据权利要求1所述的方法,其特征在于,
所述对所述目标文本进行实体识别包括:利用预先训练得到的实体识别模型识别出所述目标文本中的实体。
5.根据权利要求1所述的方法,其特征在于,
所述将识别出的实体中的新实体收录到知识图谱中包括:
从识别出的实体中确定出至少一个主实体;
针对每个主实体,分别确定所述主实体是否为新实体,若是,则将所述主实体收录到知识图谱中。
6.根据权利要求5所述的方法,其特征在于,
所述从识别出的实体中确定出至少一个主实体包括:
针对识别出的每个实体,分别利用预先训练得到的主实体识别模型确定出所述实体是否为主实体;
或者,针对识别出的每个实体,分别利用预定规则确定出所述实体是否为主实体。
7.根据权利要求5所述的方法,其特征在于,
所述确定所述主实体是否为新实体包括:
获取所述主实体的属性信息;
根据所述主实体的属性信息对所述主实体进行消歧与关联,确定出所述主实体是否为新实体。
8.根据权利要求7所述的方法,其特征在于,
所述获取所述主实体的属性信息包括:从所述目标文本中记载的所述主实体的描述信息中抽取出所述主实体的属性信息。
9.根据权利要求8所述的方法,其特征在于,
所述获取所述主实体的属性信息进一步包括:搜索得到所述主实体的属性信息。
10.根据权利要求7所述的方法,其特征在于,
该方法进一步包括:对于任一主实体,若确定所述主实体不为新实体,但确定所述主实体的属性信息发生了更新,则按照获取到的所述主实体的属性信息对知识图谱中收录的所述主实体进行更新。
11.一种新实体挖掘装置,其特征在于,包括:获取单元、第一识别单元、第二识别单元以及收录单元;
所述获取单元,用于获取目标文本;
所述第一识别单元,用于对所述目标文本进行实体描述信息识别;
所述第二识别单元,用于当根据识别结果确定所述目标文本中包含对于实体的描述信息时,对所述目标文本进行实体识别;
所述收录单元,用于将识别出的实体中的新实体收录到知识图谱中。
12.根据权利要求11所述的装置,其特征在于,
所述获取单元从目标网站上抓取非结构化数据网页,将抓取到的网页中的内容作为所述目标文本。
13.根据权利要求11所述的装置,其特征在于,
所述第一识别单元利用预定规则对所述目标文本进行实体描述信息识别,确定出所述目标文本中是否包含对于实体的描述信息;
或者,所述第一识别单元利用预先训练得到的信息识别模型识别出所述目标文本中是否包含对于实体的描述信息。
14.根据权利要求11所述的装置,其特征在于,
所述第二识别单元利用预先训练得到的实体识别模型识别出所述目标文本中的实体。
15.根据权利要求11所述的装置,其特征在于,
所述收录单元从识别出的实体中确定出至少一个主实体,针对每个主实体,分别确定所述主实体是否为新实体,若是,则将所述主实体收录到知识图谱中。
16.根据权利要求15所述的装置,其特征在于,
针对识别出的每个实体,所述收录单元分别利用预先训练得到的主实体识别模型确定出所述实体是否为主实体,或者,分别利用预定规则确定出所述实体是否为主实体。
17.根据权利要求15所述的装置,其特征在于,
对于每个主实体,所述收录单元获取所述主实体的属性信息,根据所述主实体的属性信息对所述主实体进行消歧与关联,确定出所述主实体是否为新实体。
18.根据权利要求17所述的装置,其特征在于,
所述收录单元从所述目标文本中记载的所述主实体的描述信息中抽取出所述主实体的属性信息。
19.根据权利要求18所述的装置,其特征在于,
所述收录单元进一步用于,搜索得到所述主实体的属性信息。
20.根据权利要求17所述的装置,其特征在于,
所述收录单元进一步用于,对于任一主实体,若确定所述主实体不为新实体,但确定所述主实体的属性信息发生了更新,则按照获取到的所述主实体的属性信息对知识图谱中收录的所述主实体进行更新。
21.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~10中任一项所述的方法。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~10中任一项所述的方法。
CN201910348868.3A 2019-04-28 2019-04-28 新实体挖掘方法、装置、计算机设备及存储介质 Pending CN110162640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910348868.3A CN110162640A (zh) 2019-04-28 2019-04-28 新实体挖掘方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910348868.3A CN110162640A (zh) 2019-04-28 2019-04-28 新实体挖掘方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110162640A true CN110162640A (zh) 2019-08-23

Family

ID=67640136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910348868.3A Pending CN110162640A (zh) 2019-04-28 2019-04-28 新实体挖掘方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110162640A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990835A (zh) * 2021-05-12 2021-06-18 明品云(北京)数据科技有限公司 一种线下入库检索方法、系统、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN108920588A (zh) * 2018-06-26 2018-11-30 北京光年无限科技有限公司 一种用于人机交互的知识图谱更新方法及系统
CN109033160A (zh) * 2018-06-15 2018-12-18 东南大学 一种知识图谱动态更新方法
CN109299221A (zh) * 2018-09-04 2019-02-01 广州神马移动信息科技有限公司 实体抽取和排序方法与装置
CN109472023A (zh) * 2018-10-19 2019-03-15 中国人民解放军国防科技大学 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
CN109033160A (zh) * 2018-06-15 2018-12-18 东南大学 一种知识图谱动态更新方法
CN108920588A (zh) * 2018-06-26 2018-11-30 北京光年无限科技有限公司 一种用于人机交互的知识图谱更新方法及系统
CN109299221A (zh) * 2018-09-04 2019-02-01 广州神马移动信息科技有限公司 实体抽取和排序方法与装置
CN109472023A (zh) * 2018-10-19 2019-03-15 中国人民解放军国防科技大学 一种基于实体及文本联合嵌入的实体关联度衡量方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡芳槐: "基于多种数据源的中文知识图谱构建方法研究", 《中国博士学位论文全文数据库(信息科技辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990835A (zh) * 2021-05-12 2021-06-18 明品云(北京)数据科技有限公司 一种线下入库检索方法、系统、设备和介质
CN112990835B (zh) * 2021-05-12 2021-09-21 明品云(北京)数据科技有限公司 一种线下入库检索方法、系统、设备和介质

Similar Documents

Publication Publication Date Title
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN105786793B (zh) 解析口语文本信息的语义的方法和装置
US10102191B2 (en) Propagation of changes in master content to variant content
US9110985B2 (en) Generating a conceptual association graph from large-scale loosely-grouped content
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
CN108170773A (zh) 新闻事件挖掘方法、装置、计算机设备和存储介质
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
US11977567B2 (en) Method of retrieving query, electronic device and medium
US10649970B1 (en) Methods and apparatus for detection of functionality
US20170053023A1 (en) System to organize search and display unstructured data
US20240143684A1 (en) Information presentation method and apparatus, and device and medium
CN113660541A (zh) 新闻视频的摘要生成方法及装置
CN110347841A (zh) 一种文档内容分类的方法、装置、存储介质及电子设备
CN110377748A (zh) 实体关注点挖掘方法、装置、计算机设备及存储介质
CN110020429A (zh) 语义识别方法及设备
CN110162640A (zh) 新实体挖掘方法、装置、计算机设备及存储介质
US11976931B2 (en) Method and apparatus for guiding voice-packet recording function, device and computer storage medium
CN112560490A (zh) 知识图谱关系抽取方法、装置、电子设备及存储介质
CN107704538A (zh) 一种垃圾文本处理方法、装置、设备及存储介质
WO2010132062A1 (en) System and methods for sentiment analysis
CN104750692B (zh) 一种信息处理方法、信息检索方法及其对应的装置
CN111460224A (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN110457683A (zh) 模型优化方法、装置、计算机设备及存储介质
CN109918661A (zh) 同义词获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination