CN109299221A - 实体抽取和排序方法与装置 - Google Patents

实体抽取和排序方法与装置 Download PDF

Info

Publication number
CN109299221A
CN109299221A CN201811026297.3A CN201811026297A CN109299221A CN 109299221 A CN109299221 A CN 109299221A CN 201811026297 A CN201811026297 A CN 201811026297A CN 109299221 A CN109299221 A CN 109299221A
Authority
CN
China
Prior art keywords
entity
word
entity word
training
order models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811026297.3A
Other languages
English (en)
Inventor
祝航程
杨锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201811026297.3A priority Critical patent/CN109299221A/zh
Publication of CN109299221A publication Critical patent/CN109299221A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

公开了一种实体抽取和排序方法和装置。所述方法包括:对网页中的实体词进行抽取;查询实体词典以获取抽取的实体词的相关特征;排序模型基于所述相关特征对抽取的实体词进行所述实体词与网页相关性的排序,其中,所述排序模型基于二次检索数据训练得到。进一步地,本发明可以基于知识图谱构建实体词典,利用实体词典和网页分析获取实体词相关特征,并将实体词及其特征送入基于二次检索数据训练的排序模型,并且可以优选进行实体的对齐和消歧操作。由此,本发明能够将识别结果细化到实体粒度,并且实现远高于传统网页实体识别算法的实体识别准确率和召回率。

Description

实体抽取和排序方法与装置
技术领域
本发明涉及互联网技术,尤其涉及一种实体抽取和排序方法与装置。
背景技术
随着近几年互联网技术的迅速发展,人们的阅读习惯开始发生改变,越来越多的人开始选择通过互联网阅读电子文本的形式来获取信息。面对互联网上海量的电子文本以及人们丰富的个性化阅读需求,更加高效和智能化的文本分析与抽取技术变得越发重要。在这其中,如何从海量的信息中找出人们最感兴趣的内容并加以提供,成为各内容提供方亟需解决的问题。
命名实体抽取与打分是信息抽取的一种形式,它的主要任务识别出文本中提及的实体词并根据重要性和相关性来进行打分排序。在此,命名实体可以指代人名、机构名、地名以及其他所有以名称为标识的实体,其通常是人们所感兴趣内容的主体。因此,命名实体抽取与打分技术在搜索引擎,问答系统以及推荐系统中都有相当重要的作用,也是更加复杂的信息抽取任务的基础。
传统的命名实体抽取算法主要有:1)基于规则及概率统计的命名实体抽取算法,例如基于条件随机场(CRF)的实体识别算法;2)基于知识库的命名实体抽取算法,例如以维基百科和百度百科作为实体库。而对于抽取出的实体进行打分的方法主要有:1)通过监督学习算法将实体简单判定为与文章相关和不相关;2)通过非监督学习的算法对实体词进行相关性和重要性的打分,例如textrank算法。
以上这些传统的命名实体识别算法有以下不足:1)通过规则的识别方法在规则构造上极为繁琐且效率低下;2)基于概率统计的算法如CRF等识别准确率较低;3)基于知识库的命名实体抽取算法依赖知识库本身建设的完整性丰富度以及准确性。至于实体打分算法则普遍准确率和召回率较低,识别准确率普遍低于70%。
由此,需要一种更为准确和高效的实体抽取和排序方案。
发明内容
为了解决如上至少一个问题,本发明提出了一种全新的网页命名实体抽取与打分方案。该方案基于实体词典对网页中的实体进行词粒度的抽取与打分,随后进行实体的对齐与去重,最后通过规则对抽取结果进行筛选和调整。优选地,可以基于现有的知识图谱提供的实体库,对实体词表进行特征计算而得到实体词典。本发明的上述方案与传统方法相比,在可扩展性、准确率、召回率以及计算效率上都具有明显优势。
根据本发明的一个方面,提出了一种实体抽取和排序方法,包括:对网页中的实体词进行抽取;查询实体词典以获取抽取的实体词的相关特征;排序模型基于所述相关特征对抽取的实体词进行所述实体词与网页相关性的排序,其中,所述排序模型基于二次检索数据训练得到。由此,能够基于二次检索中的相关性来实现对实体词的准确排序。
优选地,本发明的实体抽取和排序方法还可以包括:基于已有的知识图谱、搜索日志和网页文本分析中的至少一项构建所述实体词典。由此,实现对实体词典的可靠且全面的构建。所述实体词典可以包括实体词及其相关的词粒度特征和实体特征。由此,在实体词典阶段实现对实体粒度的获取。
优选地,对网页中的实体词进行抽取可以包括:利用n元语法获取网页中的相邻词语组合;利用别名匹配和/或combo算法扩大实体词的召回;利用布隆过滤器对实体词进行过滤;以及针对经过滤的实体词查询所述实体词典。尤其通过布隆过滤器的使用,能够提升查询效率解决算法在实际使用中词典查询的性能。
优选地,本发明的实体抽取和排序方法还可以包括:分析所述实体词所在的网页以获取抽取的实体词的上下文特征和主题相关特征;和/或根据词典特征和网页特征获取交叉特征。由此进一步丰富实体词排序能够基于的相关信息。
优选地,本发明的实体抽取和排序方法还可以包括:基于二次检索数据训练所述排序模型,所述二次检索数据包括搜索会话日志和搜索点击日志。基于二次检索数据训练所述排序模型可以包括:基于所述搜索会话日志和搜索点击日志获取网页文章中某个实体被用户点击的条件概率;基于所述条件概率获取网页文章中各实体间的重要性偏序关系;以及使用所述偏序关系训练Gbrank排序模型。
优选地,使用所述偏序关系训练Gbrank排序模型可以包括:使用所述偏序关系作为Gbrank排序模型的标注训练集;对所述标注训练集的各维度特征进行有效性评价;以及使用去除了无效特征的标注训练集训练所述Gbrank排序模型。使用所述偏序关系训练Gbrank排序模型还可以包括:随机选择用户不感兴趣的文章实体作为训练集负例进行所述Gbrank排序模型的训练。
优选地,本发明的实体抽取和排序方法还可以包括:将单义实体词直接与实体对齐;以及将多义实体词与对应的不同实体对齐。由此实现实体粒度,而非词粒度的对齐。
优选地,将多义实体词与对应的不同实体对齐包括如下至少一项:根据实体词所属网页的意图进行实体对齐;将实体词与热度更高的实体对齐;以及将实体词与涉及相关实体的实体对齐。
优选地,本发明的实体抽取和排序方法还可以包括:针对特殊类目的实体词进行基于规则的筛选和/或调整。
根据本发明的另一个方面,提出了一种实体抽取和排序装置,包括:实体词抽取单元,用于对网页中的实体词进行抽取;相关特征获取单元,用于查询实体词典以获取抽取的实体词的相关特征;排序单元,用于基于所述相关特征使用排序模型对抽取的实体词进行所述实体词与网页相关性的排序,其中,所述排序模型基于二次检索数据训练得到。
优选地,本发明的实体抽取和排序装置还可以包括:实体词典构建单元,用于基于已有的知识图谱、搜索日志和网页文本分析中的至少一项构建所述实体词典,其中,所述实体词典包括实体词及其相关的词粒度特征和实体特征。
优选地,所述实体词抽取单元可以进一步用于:利用n元语法获取网页中的相邻词语组合;利用别名匹配和/或combo算法扩大实体词的召回;利用布隆过滤器对实体词进行过滤;以及针对经过滤的实体词查询所述实体词典。
优选地,所述相关特征获取单元可以进一步用于:分析所述实体词所在的网页以获取实体词的上下文特征和主题相关特征;和/或根据词典特征和网页特征获取交叉特征。
优选地,本发明的实体抽取和排序装置还可以包括:排序模型训练单元,用于基于二次检索数据训练所述排序模型,所述二次检索数据包括搜索会话日志和搜索点击日志。
所述排序模型训练单元可以进一步用于:基于所述搜索会话日志和搜索点击日志获取网页文章中某个实体被用户点击的条件概率;基于所述条件概率获取网页文章中各实体间的重要性偏序关系;以及使用所述偏序关系训练Gbrank排序模型。
优选地,本发明的实体抽取和排序装置还可以包括:实体对齐单元,用于将单义实体词直接与实体对齐,以及将多义实体词与对应的不同实体对齐。
优选地,本发明的实体抽取和排序装置还可以包括:规则调整单元,用于针对特殊类目的实体词进行基于规则的筛选和/或调整。
根据本发明的又一个方面,提出了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上任一项所述的实体抽取和排序方法。
根据本发明的一个方面,提出了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上任一项所述的实体抽取和排序方法。
本发明基于知识图谱构建实体词典,利用实体词典和网页分析获取实体词相关特征,并将实体词及其特征送入基于二次检索数据训练的排序模型,并且可以优选进行实体的对齐和消歧操作。由此,本发明能够将识别结果细化到实体粒度,实现远高于传统网页实体识别算法的实体识别准确率和召回率,并且能够根据实体与网页的相关性对实体进行排序。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明一个实施例的实体抽取和排序方法的流程示意图。
图2示出了知识图谱中一个节点的例子。
图3示出了根据本发明一个优选实施例的实体抽取和排序整体流程的示意图。
图4示出了根据本发明一个实施例的实体抽取和排序装置的组成示意图。
图5示出了根据本发明一个实施例可用于实现上述实体抽取和排序方法的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
鉴于当前对于命名实体识别与打分技术的强烈需求以及现有方法的不足,本发明提出了一种全新的网页命名实体抽取与打分方案。该方案基于实体词典对网页中的实体进行词粒度的抽取与打分,随后进行实体的对齐与去重,最后通过规则对抽取结果进行筛选和调整。优选地,可以基于神马现有的知识图谱提供的实体库,对实体词表进行特征计算而得到实体词典。本发明的上述方案与传统方法相比,在可扩展性、准确率、召回率以及计算效率上都具有明显优势。
图1示出了根据本发明一个实施例的实体抽取和排序方法的流程示意图。
在步骤S110,对网页中的实体词进行抽取。在步骤S120,查询实体词典以获取抽取的实体词的相关特征。随后,在步骤S130,排序模型基于所述相关特征对抽取的实体词进行所述实体词与网页相关性的排序。排序模型可以基于用户的二次检索数据训练得到。
在此,实体词典可以是包括各类命名实体(如下简称为实体)及其相关特征的可查询列表。排序模型则可是被训练用于针对相关特征对实体词与网页文章的相关性进行排序的模型。
在本发明中,上述模型的训练需要用到二次检索数据。在此,“二次检索”指代在当前这次检索结果的文献范围内,再次输入检索条件进行查询的功能。二次检索也称“渐进检索”,它可以逐渐缩小文献范围,达到查询目标。二次检索并非仅限进行两次,三次、四次乃至多次进行都无妨。二次检索须在前一次的检索的结果即二次检索界面进行,并且可以反复进行,通常有三种检索策略可供选择:重新检索、同一检索命令在其他库中检索、在前次检索结果中检索。在此,我们可以假设用户二次检索所输入的查询词中包含了用户前次搜索点击文章中的重要相关实体。由此,我们可以利用用户二次检索中点击和搜索操作所包含的实体与网页文章的重要相关性来训练排序模型,使得排序模型本身能够习得此种相关,并且能够将此种相关性传递给用其进行排序的实体词。
在步骤S110中,在基于实体词典进行实体词查询之前,需要首先对网页进行分析,以从中抽取需要进行词典查询的实体词本身。由此,步骤S110可以包括对文本进行切词和抽取。在一个实施例中,步骤S110优选可以包括利用n元语法获取网页中的相邻词语组合;利用别名匹配和/或combo算法扩大实体词的召回;利用布隆过滤器(Bloom Filter)算法对实体词进行过滤;以及针对经过滤的实体词查询所述实体词典。
在一个实施例中,本发明的实体抽取和排序方法还可以包括对实体词典的构造。例如,可以基于已有的知识图谱、搜索日志和网页文本分析中的至少一项构建实体词典。构建的实体词典可以包括实体词及其相关的词粒度特征和实体特征。排序模型可以在步骤S130使用上述词粒度特征和实体特征进行实体词排序。
在一个实施例中,还可以通过网页分析获取有关实体词的其他特征。由此,本发明的实体抽取和排序方法还可以包括基于所述实体词所在的网页获取所述实体词的上下文特征和主题相关特征;和/或根据词典特征和网页特征获取交叉特征。在此,词典特征指代基于词典查询获取的相关特征,例如,词粒度特征和实体特征。网页特征指代基于网页分析获取的相关特征,例如上下文特征和主题相关特征。交叉特征则可指代实体特征和词特征与网页特征相关联后产生的特征。例如,交叉特征可以是词的意图向量与网页全文、词所在段落和/或词所在句子的意图向量之间的相似度。同样地,排序模型可以在步骤S130使用上述上下文特征和主题相关特征进行实体词排序。
在一个实施例中,本发明的实体抽取和排序方法还可以包括对排序模型的训练。上述训练例如可以与词典构造一样,在针对实体词抽取和排序流程之前进行。换句话说,在进行实体词抽取和排序之前,所需的词典和模型就已经是准备好的。如上所述,可以基于二次检索数据训练所述排序模型。所述二次检索数据包括搜索会话日志和搜索点击日志。在此应该理解的是,无论是此处的排序模型训练还是在前的实体字典构造,其所需的都是海量的数据。换句话说,为了训练完成一个排序模型,需要获取大量的用户搜索会话日志和搜索点击日志,并从中找出涉及大量文章与实体词的点击与搜索相关性。同样地,为了构建实体词典,并获取其相关特征,同样需要对大量的已有数据(例如,知识图谱和网页)进行分析。
在一个实施例中,基于二次检索数据训练所述排序模型可以包括:基于所述搜索会话日志和搜索点击日志获取网页文章中某个实体被用户点击的条件概率;基于所述条件概率获取网页文章中各实体间的重要性偏序关系;以及使用所述偏序关系训练Gbrank排序模型。具体地,使用所述偏序关系训练Gbrank排序模型可以包括:使用所述偏序关系作为Gbrank排序模型的标注训练集;对所述标注训练集的各维度特征进行有效性评价;以及使用去除了无效特征的标注训练集训练所述Gbrank排序模型。相应地,使用所述偏序关系训练Gbrank排序模型还可以包括:随机选择用户不感兴趣的文章实体作为训练集负例进行所述Gbrank排序模型的训练。
优选地,对于经排序的实体词还可以进行对齐和微调,以获取更为准确的实体排序。在此,“实体词”指代表征实体的具体词语,但该词语并不一定指向一个确切的实体。例如,实体词“李娜”可以用于表征一个人,但并不一定表示同一个人。例如,“李娜”可以是网球冠军李娜,也可以是歌手李娜,还可以其他不是名人的李娜。为了将“实体词”指向一个确切的实体,需要将实体词对齐到具体的某个实体上。对于单义实体词,可以将其直接与其所表征的实体对齐;而对于多义实体词,则可以与对应的不同实体对齐。具体地,将多义实体词与对应的不同实体对齐可以包括根据实体词所属网页的意图进行实体对齐;将实体词与热度更高的实体对齐;和/或将实体词与涉及相关实体的实体对齐。另外,针对特殊类目的实体词,还可以基于额外制定的规则进行筛选和/或调整。
为此,在一个优选实施例中,本发明的实体抽取和排序方法可以具体包括如下四个部分:1)实体词典的构建;2)实体词的抽取;3)基于排序模型的实体词排序;以及4)基于规则的实体词对齐与消歧。
具体地,实体词典的构建可以主要基于现有的知识图谱。在此,“知识图谱”可以指代一张由知识点相互连接而成的语义网络,而“实体”则可指代知识图谱中具有特定意义的节点,例如,人物、地点和机构等。图2示出了知识图谱中一个节点的例子。通过知识图谱可以获得一个实体的实体粒度的特征。例如,从图2所示的国籍、身高和体重等属性可以得知该“罗纳尔多”是巴西的“大罗”,而不是葡萄牙的“C罗”或巴西的“小罗”。此外,还可以借助日志及大量网页文本的分析统计获得一个实体词的词粒度的特征。可以将各个实体词的特征以实体名称为key(键值或项目名)并存入数据库作为实体词典使用。
实体词的抽取则可包括首先对文本进行切词,然后对切词获取的项目进行组合构建成n-gram的短语(n元语法操作),利用别名匹配和combo算法扩大实体词的召回,通过布隆过滤器对文本进行过滤后查询实体词典。通过布隆过滤器的使用,能够提升查询效率解决算法在实际使用中词典查询的性能。
通过实体词典查询到词的词典特征后,还可以结合网页特征计算出实体词与网页相关的特征,将这些特征合并后利用排序模型(例如,Gbrank模型)对实体词进行排序。训练Gbrank模型所用的标注训练集可以基于二次检索数据获取。
在通过排序模型(例如,Gbrank模型)对实体词进行排序后,还需要将实体词对齐到具体的某个实体上,存在多个实体的时候要对实体进行消歧,例如文章中的“李娜”一词到底指的是哪个“李娜”。此外,还可以通过一些规则对排序结果进行微调来提高准确率和召回率。
图3示出了根据本发明一个优选实施例的实体抽取和排序整体流程的示意图。如下将结合图3对本发明的优选实施例进行详细描述。
[实体词典的构建]
实体词典的构建主要基于现有的知识图谱。通过知识图谱可以获得一个实体的类型、热度等实体粒度的特征,此外还可以借助搜索日志,以及大量网页文本的分析统计获得关于实体词的逆文档频率(IDF)、词性、意图向量等词粒度的特征。因为同一个词有可能对应多个不同实体,例如:“李娜”这个词对应于多个叫“李娜”的人。所以在构建实体词典时,所有同名的实体共享词粒度的特征,例如:IDF、词性、词意图向量等,同名的实体拥有各自的实体特征,例如:实体类型(例如,“运动员”还是“歌手”)、实体热度等。将各个实体词的特征以实体名称为key(键值或项目名),存入数据库作为实体词典使用。
[实体词的抽取]
对实体词进行抽取前,先对文本进行切词,然后对切取的项目进行组合以构建n-gram短语。与传统实体抽取方法不同的是,此种n-gram短语的构建优选只是纯粹的连续文本内相邻词语的组合,并不考虑词性和一些概率模型,从而不会因此损失对某些实体词的召回。在进行实体词挖掘时,优选可以利用别名匹配和combo算法扩大实体词的召回。别名匹配能够对别名进行识别,例如,别名“大罗”和“肥罗”可被共同识别为巴西球星罗纳尔多。Combo算法则能够对一些书写方式多变的外国人名进行匹配识别,例如:希拉里克林顿,希拉里·克林顿,希拉里-克林顿,三个名字都能被识别成同一个人名实体。通过n-gram组合获得的待查词数量较多。例如,在n为8时,一篇中等长度的互联网新闻待查词的个数可以达到4000以上,为了减小查询词典的压力,可以例如通过布隆过滤器算法对待查词语进行过滤,由此在大幅缩减待查词个数后再进行实体词查询。对于一篇文章所有能从实体词典查询到的实体词,都将其作为实体词抽取和打分的候选集。
[基于排序模型的实体词排序]
在获得实体词候选集合之后,需要通过排序模型对实体词进行排序打分,选出与文章最相关最重要的实体词。具体处理如下将分为三个部分进行详细的阐述。
1.特征抽取
从实体词典查询得到的实体词特征可以主要包含两部分:1)实体词作为词本身的词粒度特征,例如,“李娜”这个词的作为检索词的检索热度、IDF值和词性等;2)每个词对应的各个实体的实体粒度特征,例如,网球运动运李娜的实体热度、实体类型(运动员,名人等)、实体检索热度等。除了如上这些来自于词典的特征外,还可以抽取一些与实体词同网页关联的上下文特征,例如,实体词在网页中的词频,首次出现位置等。更进一步地,还可以计算主题相关特征,例如根据实体词的意图向量预测出网页的意图向量,计算词向量与网页向量之间的相似度。这种主题相似度的计算除了网页粒度外,还可以进一步细化到段落粒度和句子粒度。由此,最终获得网页中每个实体词的特征可以分为四大类:1)词粒度特征;2)实体粒度特征;3)主题相关特征;以及4)上下文特征。进一步地,实体词特征还可以包括如上所述基于词典和网页特征获取的交叉特征,例如词的意图与网页全文、词所在段落和/或词所在句子的意图向量之间的意图相似度特征。
2.标注训练集的获取
通过排序模型对实体词进行排序的最大难点是如何获得可靠的实体词的偏序关系作为模型的训练集。为此,可以假设用户二次搜索的搜索词中包含了用户前次搜索所点击文章中的重要相关实体。用户的搜索会话数据可以通过搜索引擎的搜索会话日志获得,用户在前次搜索中所点击的文章数据可以通过搜索点击日志获得。基于上述假设和以上两份日志数据最终可获得p(entity|doc),即,一篇文章中某个实体被用户感兴趣而点击的条件概率。该条件概率可被用来衡量某篇文章中某个实体的重要程度。
3.模型训练
在获取的标注训练集中,可以针对每篇文章内被用户点击的实体都计算条件概率p(entity|doc)。使用这一概率,便可获得一篇文章中实体间重要性偏序关系。基于此偏序关系,可以使用排序模型(优选为Gbrank模型)进行训练。在使用Gbrank训练模型前,可以先使用Gbrank对训练样本各个维度的特征进行有效性评价,通过去除无效特征来降低特征维度,以防止过拟合。另外,可以随机选择部分用户不感兴趣的文章实体作为负例加入训练集,以打压无关实体。Gbrank模型是点对型(pair-wise),训练时可以以文章为组(group)构造文章中实体词之间的偏序关系。如上获取标注训练集的方法可以保证训练集中实体重要性的标注分数在不同文章间是可比较,因此最终模型产出的实体重要性分数在不同文章之间也是可比的。
[基于规则的实体词对齐与消歧]
1.实体词对齐与消歧
在经过Gbrank模型的实体词排序之后,得到的是词的排序。因此,优选地还需要进一步将词对齐到唯一的实体上,即,存在多个同名实体的情况下需要进行实体消歧。实体词对齐与消歧主要考虑以下几方面的因素:
1)不存在一词多义的实体直接对齐
2)实体的主要意图要和文章意图吻合,例如在一篇体育意图的文章里面,可以将实体词“李娜”对齐到体育界的实体“李娜”上。
3)考虑实体的热度,可以优选将词对齐到热度较高的实体上。
4)通过相关实体进行筛选,针对每个实体可以计算出它最为高相关的一些实体,如果文中出现了这些相关实体,我们偏向于将词对齐到相应的主实体上。例如,文章中出现了网球,则我们会偏向于将文章中的“李娜”对齐为网球运动员李娜。
2.基于规则的实体词筛选与调整
对于一些特殊类目下的实体词,需要进行基于规则的筛选和调整。例如对于电影、音乐类文章下目识别出的实体,需要经过更为严格的筛选(例如,书名号内的实体才能成为实体)。对于一些临时出现的词典无法覆盖的热门实体,也可以通过规则进行召回。
如上已经结合图1-3描述了根据本发明的实体抽选和排序方法及其优选实施例。本发明的实体抽选和排序方案创造性地挖掘出了二次检索数据(例如,基于用户搜索会话日志和搜索点击日志)用来获取训练集,由此训练出的排序模型能够更好的反映用户对网页中实体的感兴趣程度,抽取的实体也能良好应用于各种实体推荐业务场景。优选地,本发明使用基于知识图谱构建的实体词典,并且能够将识别结果细化到实体粒度,以与知识图谱的实体一一对应,不再只是词粒度的实体识别。由此,使得本方案的实体识别准确率和召回率远远高于传统的网页实体识别算法,并且可以广泛适用于各种应用场景,例如,全网实体热度计算、问答实体推荐、转码页实体高亮等具体的线上业务,且收效显著。
在一个实施例中,本发明还可以实现为一种实体抽取和排序装置。图4示出了根据本发明一个实施例的实体抽取和排序装置的组成示意图。如图所示,装置400可以包括实体词抽取单元410、相关特征获取单元420以及排序单元430。实体词抽取单元410可以用于对网页中的实体词进行抽取。相关特征获取单元420可以用于查询实体词典以获取抽取的实体词的相关特征。排序单元430可以用于基于所述相关特征使用排序模型对抽取的实体词进行所述实体词与网页相关性的排序,其中,所述排序模型基于二次检索数据训练得到。
优选地,装置400还可以包括实体词典构建单元,用于基于已有的知识图谱、搜索日志和网页文本分析中的至少一项构建所述实体词典,其中,所述实体词典包括实体词及其相关的词粒度特征和实体特征。由此,相关特征获取单元420可以通过查询词典获取相关的词粒度特征和实体特征。
优选地,实体词抽取单元410可以进一步用于:利用n元语法获取网页中的相邻词语组合;利用别名匹配和/或combo算法扩大实体词的召回;利用布隆过滤器对实体词进行过滤;以及针对经过滤的实体词查询所述实体词典。
优选地,相关特征获取单元420可以进一步用于:分析所述实体词所在的网页以获取实体词的上下文特征和主题相关特征;和/或根据词典特征和网页特征获取交叉特征。
在一个实施例中,装置400还可以包括:排序模型训练单元,用于基于二次检索数据训练所述排序模型,所述二次检索数据包括搜索会话日志和搜索点击日志。具体地,述排序模型训练单元可以进一步用于:基于所述搜索会话日志和搜索点击日志获取网页文章中某个实体被用户点击的条件概率;基于所述条件概率获取网页文章中各实体间的重要性偏序关系;以及使用所述偏序关系训练Gbrank排序模型。
在一个实施例中,装置400还可以包括:实体对齐单元,用于将单义实体词直接与实体对齐,以及将多义实体词与对应的不同实体对齐。
作为替换或者补充,装置400还可以包括:规则调整单元,用于针对特殊类目的实体词进行基于规则的筛选和/或调整。
图5示出了根据本发明一个实施例可用于实现上述实体抽取和排序方法的计算设备的结构示意图。
参见图5,计算设备500包括存储器510和处理器520。
处理器520可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器520可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器520可以使用定制的电路实现,例如特定用途集成电路(ASIC)或者现场可编程逻辑门阵列(FPGA)。
存储器510可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器510可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器510可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器510上存储有可执行代码,当可执行代码被处理器520处理时,可以使处理器520执行上文述及的实体抽取和排序方法。
上文中已经参考附图详细描述了根据本发明的实体抽取和排序方法与装置。本发明基于知识图谱构建实体词典,利用实体词典和网页分析获取实体词相关特征,并将实体词及其特征送入基于二次检索数据训练的排序模型,并且可以优选进行实体的对齐和消歧操作。由此,本发明能够将识别结果细化到实体粒度,实现远高于传统网页实体识别算法的实体识别准确率和召回率,并且能够根据实体与网页的相关性对实体进行排序。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (22)

1.一种实体抽取和排序方法,包括:
对网页中的实体词进行抽取;
查询实体词典以获取抽取的实体词的相关特征;
排序模型基于所述相关特征对抽取的实体词进行所述实体词与网页相关性的排序,其中,所述排序模型基于二次检索数据训练得到。
2.如权利要求1所述的方法,还包括:
基于已有的知识图谱、搜索日志和网页文本分析中的至少一项构建所述实体词典。
3.如权利要求2所述的方法,其中,所述实体词典包括实体词及其相关的词粒度特征和实体特征。
4.如权利要求1所述的方法,其中,对网页中的实体词进行抽取包括:
利用n元语法获取网页中的相邻词语组合;
利用别名匹配和/或combo算法扩大实体词的召回;
利用布隆过滤器对实体词进行过滤;以及
针对经过滤的实体词查询所述实体词典。
5.如权利要求1所述的方法,还包括:
分析所述实体词所在的网页以获取抽取的实体词的上下文特征和主题相关特征;和/或
根据词典特征和网页特征获取交叉特征。
6.如权利要求1所述的方法,还包括:
基于二次检索数据训练所述排序模型,所述二次检索数据包括搜索会话日志和搜索点击日志。
7.如权利要求6所述的方法,其中,基于二次检索数据训练所述排序模型包括:
基于所述搜索会话日志和搜索点击日志获取网页文章中某个实体被用户点击的条件概率;
基于所述条件概率获取网页文章中各实体间的重要性偏序关系;以及
使用所述偏序关系训练Gbrank排序模型。
8.如权利要求7所述的方法,其中,使用所述偏序关系训练Gbrank排序模型包括:
使用所述偏序关系作为Gbrank排序模型的标注训练集;
对所述标注训练集的各维度特征进行有效性评价;以及
使用去除了无效特征的标注训练集训练所述Gbrank排序模型。
9.如权利要求8所述的方法,其中,使用所述偏序关系训练Gbrank排序模型还包括:
随机选择用户不感兴趣的文章实体作为训练集负例进行所述Gbrank排序模型的训练。
10.如权利要求1所述的方法,还包括:
将单义实体词直接与实体对齐;以及
将多义实体词与对应的不同实体对齐。
11.如权利要求10所述的方法,其中,将多义实体词与对应的不同实体对齐包括如下至少一项:
根据实体词所属网页的意图进行实体对齐;
将实体词与热度更高的实体对齐;以及
将实体词与涉及相关实体的实体对齐。
12.如权利要求1所述的方法,还包括:
针对特殊类目的实体词进行基于规则的筛选和/或调整。
13.一种实体抽取和排序装置,包括:
实体词抽取单元,用于对网页中的实体词进行抽取;
相关特征获取单元,用于查询实体词典以获取抽取的实体词的相关特征;
排序单元,用于基于所述相关特征使用排序模型对抽取的实体词进行所述实体词与网页相关性的排序,其中,所述排序模型基于二次检索数据训练得到。
14.如权利要求13所述的装置,还包括:
实体词典构建单元,用于基于已有的知识图谱、搜索日志和网页文本分析中的至少一项构建所述实体词典,其中,所述实体词典包括实体词及其相关的词粒度特征和实体特征。
15.如权利要求13所述的装置,其中,所述实体词抽取单元进一步用于:
利用n元语法获取网页中的相邻词语组合;
利用别名匹配和/或combo算法扩大实体词的召回;
利用布隆过滤器对实体词进行过滤;以及
针对经过滤的实体词查询所述实体词典。
16.如权利要求13所述的装置,其中,所述相关特征获取单元进一步用于:
分析所述实体词所在的网页以获取实体词的上下文特征和主题相关特征;和/或
根据词典特征和网页特征获取交叉特征。
17.如权利要求13所述的装置,还包括:
排序模型训练单元,用于基于二次检索数据训练所述排序模型,所述二次检索数据包括搜索会话日志和搜索点击日志。
18.如权利要求17所述的装置,其中,所述排序模型训练单元进一步用于:
基于所述搜索会话日志和搜索点击日志获取网页文章中某个实体被用户点击的条件概率;
基于所述条件概率获取网页文章中各实体间的重要性偏序关系;以及
使用所述偏序关系训练Gbrank排序模型。
19.如权利要求13所述的方法,还包括:
实体对齐单元,用于将单义实体词直接与实体对齐,以及将多义实体词与对应的不同实体对齐。
20.如权利要求13所述的装置,还包括:
规则调整单元,用于针对特殊类目的实体词进行基于规则的筛选和/或调整。
21.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-12中任一项所述的方法。
22.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-12中任一项所述的方法。
CN201811026297.3A 2018-09-04 2018-09-04 实体抽取和排序方法与装置 Pending CN109299221A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811026297.3A CN109299221A (zh) 2018-09-04 2018-09-04 实体抽取和排序方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811026297.3A CN109299221A (zh) 2018-09-04 2018-09-04 实体抽取和排序方法与装置

Publications (1)

Publication Number Publication Date
CN109299221A true CN109299221A (zh) 2019-02-01

Family

ID=65166289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811026297.3A Pending CN109299221A (zh) 2018-09-04 2018-09-04 实体抽取和排序方法与装置

Country Status (1)

Country Link
CN (1) CN109299221A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
CN110162640A (zh) * 2019-04-28 2019-08-23 北京百度网讯科技有限公司 新实体挖掘方法、装置、计算机设备及存储介质
CN110489520A (zh) * 2019-07-08 2019-11-22 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN112035682A (zh) * 2020-09-28 2020-12-04 上海松鼠课堂人工智能科技有限公司 基于知识图谱的性格模型分析处理方法及系统
CN112257416A (zh) * 2020-10-28 2021-01-22 国家电网有限公司客户服务中心 一种稽查新词发现方法及系统
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112685452A (zh) * 2020-12-31 2021-04-20 特赞(上海)信息科技有限公司 企业案例检索方法、装置、设备和存储介质
CN114003735A (zh) * 2021-12-24 2022-02-01 北京道达天际科技有限公司 基于情报文档面向知识图谱问答的实体消歧方法
CN115599903A (zh) * 2021-07-07 2023-01-13 腾讯科技(深圳)有限公司(Cn) 对象标签获取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011025162A2 (ko) * 2009-08-25 2011-03-03 Han Soung-Joo 특정 클래스에 속하는 엔터티의 리스트 검색 방법
CN102968419A (zh) * 2011-08-31 2013-03-13 微软公司 交互式互联网实体名称的消歧方法
CN103324631A (zh) * 2012-03-22 2013-09-25 腾讯科技(深圳)有限公司 提供数据搜索的方法及装置
CN104408148A (zh) * 2014-12-03 2015-03-11 复旦大学 一种基于通用百科网站的领域百科构建系统
CN105488024A (zh) * 2015-11-20 2016-04-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011025162A2 (ko) * 2009-08-25 2011-03-03 Han Soung-Joo 특정 클래스에 속하는 엔터티의 리스트 검색 방법
CN102968419A (zh) * 2011-08-31 2013-03-13 微软公司 交互式互联网实体名称的消歧方法
CN103324631A (zh) * 2012-03-22 2013-09-25 腾讯科技(深圳)有限公司 提供数据搜索的方法及装置
CN104408148A (zh) * 2014-12-03 2015-03-11 复旦大学 一种基于通用百科网站的领域百科构建系统
CN105488024A (zh) * 2015-11-20 2016-04-13 广州神马移动信息科技有限公司 网页主题句的抽取方法及装置
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857873A (zh) * 2019-02-21 2019-06-07 北京百度网讯科技有限公司 推荐实体的方法和装置、电子设备、计算机可读介质
CN110162640A (zh) * 2019-04-28 2019-08-23 北京百度网讯科技有限公司 新实体挖掘方法、装置、计算机设备及存储介质
CN110489520B (zh) * 2019-07-08 2023-05-16 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN110489520A (zh) * 2019-07-08 2019-11-22 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
WO2021004333A1 (zh) * 2019-07-08 2021-01-14 平安科技(深圳)有限公司 基于知识图谱的事件处理方法、装置、设备和存储介质
CN112035682A (zh) * 2020-09-28 2020-12-04 上海松鼠课堂人工智能科技有限公司 基于知识图谱的性格模型分析处理方法及系统
CN112035682B (zh) * 2020-09-28 2021-04-20 上海松鼠课堂人工智能科技有限公司 基于知识图谱的性格模型分析处理方法及系统
CN112257416A (zh) * 2020-10-28 2021-01-22 国家电网有限公司客户服务中心 一种稽查新词发现方法及系统
CN112434535A (zh) * 2020-11-24 2021-03-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112434535B (zh) * 2020-11-24 2023-05-02 上海浦东发展银行股份有限公司 基于多模型的要素抽取方法、装置、设备及存储介质
CN112685452B (zh) * 2020-12-31 2021-08-10 特赞(上海)信息科技有限公司 企业案例检索方法、装置、设备和存储介质
CN112685452A (zh) * 2020-12-31 2021-04-20 特赞(上海)信息科技有限公司 企业案例检索方法、装置、设备和存储介质
CN115599903A (zh) * 2021-07-07 2023-01-13 腾讯科技(深圳)有限公司(Cn) 对象标签获取方法、装置、电子设备及存储介质
CN114003735A (zh) * 2021-12-24 2022-02-01 北京道达天际科技有限公司 基于情报文档面向知识图谱问答的实体消歧方法
CN114003735B (zh) * 2021-12-24 2022-03-18 北京道达天际科技有限公司 基于情报文档面向知识图谱问答的实体消歧方法

Similar Documents

Publication Publication Date Title
CN109299221A (zh) 实体抽取和排序方法与装置
CN111143479B (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN111177591B (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN106997382A (zh) 基于大数据的创新创意标签自动标注方法及系统
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
KR102046692B1 (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
WO2021112984A1 (en) Feature and context based search result generation
Kurniawan et al. Indonesian twitter sentiment analysis using Word2Vec
JP2006227823A (ja) 情報処理装置及びその制御方法
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
Chang et al. Efficient graph-based word sense induction by distributional inclusion vector embeddings
Rasheed et al. Query expansion in information retrieval for Urdu language
Park et al. Extracting search intentions from web search logs
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JPWO2015125209A1 (ja) 情報構造化システム及び情報構造化方法
JP2006286026A (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
Coelho et al. Semantic search of mobile applications using word embeddings
KR102458989B1 (ko) 센텐스 티커를 기반으로 뉴스에 대한 뉴스 티커를 결정하는 방법 및 이러한 방법을 수행하는 장치
US20240070396A1 (en) Method for Determining Candidate Company Related to News and Apparatus for Performing the Method
US20240070387A1 (en) Method for Determining News Ticker Related to News Based on Sentence Ticker and Apparatus for Performing the Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200812

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Applicant before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201