CN104462126B - 一种实体链接方法及装置 - Google Patents
一种实体链接方法及装置 Download PDFInfo
- Publication number
- CN104462126B CN104462126B CN201310432213.7A CN201310432213A CN104462126B CN 104462126 B CN104462126 B CN 104462126B CN 201310432213 A CN201310432213 A CN 201310432213A CN 104462126 B CN104462126 B CN 104462126B
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- referred
- refers
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种实体链接方法及装置,该方法包括:获取实体提及的潜在链接实体;扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;以及将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。本发明中,对实体提及所在的原始文本进行扩展,利用扩展后的文本筛选潜在链接实体,从而能够提高链接实体的准确性。
Description
技术领域
本发明涉及数据库领域,尤其涉及一种实体链接方法及装置。
背景技术
随着互联网语义知识库和短文本信息平台例如微博、短信等的飞速发展,如何将短文本中的“实体提及(mention)”与互联网语义知识库中的实体(entity)相关联,从而将短文本内容语义化成为语言信息处理领域亟待解决的问题之一。
发明内容
本发明的实施方式提供了一种实体链接方法及装置,能够将短文本内容中的实体提及链接到匹配的实体。
本发明的一个实施方式提供一种实体链接方法,包括:获取实体提及的潜在链接实体;扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;以及将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。
本发明的另一实施方式提供一种实体链接装置,包括:获取单元,配置用于获取实体提及的潜在链接实体;扩展处理单元,配置用于扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;匹配处理单元,配置用于根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;以及链接单元,配置用于将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。
本发明中,对实体提及所在的原始文本进行扩展,利用扩展后的文本筛选潜在链接实体,从而能够提高链接实体的准确性。
附图说明
参照下面结合附图对本发明实施方式的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图以示例而非限制性的方式来说明本发明。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出本发明提供的实体链接方法的流程示意图;
图2示出本发明提供的实体链接方法中一种潜在链接实体的获取方式的示意图;
图3出本发明提供的实体链接方法中另一种潜在链接实体的获取方式的示意图;
图4示出本发明提供的实体链接装置的结构示意图;以及
图5示出用以实施本发明提供的装置和方法的计算设备的结构示意图。
具体实施方式
现在参考附图来更加详细地描述本发明的实施方式。示例实施方式的提供是为了使本发明更加详尽,并且向本领域技术人员充分地传达保护范围。阐述了众多的特定细节如特定部件、装置的例子,以提供对本发明的实施方式的详尽理解。对于本领域技术人员而言将会明显的是,示例实施方式可以用许多不同的形式来实施而不一定使用这些特定的细节,因此它们都不应当被解释为限制本发明的范围。另外,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。在某些示例实施方式中,为了清楚的目的,没有在附图和说明中详细地描述众所周知的过程、结构和技术。
本发明提供了实体链接方法及装置。下面首先参考附图结合具体实施方式介绍本发明提供的实体链接方法。
图1示出了本发明提供的实体链接方法的流程示意图。
如图1所示,在步骤S101中,获取实体提及的潜在链接实体。
其中,实体提及的潜在链接实体的获取方式可以有多种,下面进行详细描述。
当短文本中的实体提及确定后,可以根据该实体提及直接在知识库中搜索与该实体提及对应的实体作为潜在链接实体。该知识库包括但不限于与该方法所应用的场景对应的特定知识库,例如互联网语义知识库Wikipedia(维基百科)、DBPedia、BaiduBaike(百度百科)等。例如当实体提及为“apple”时,从互联网语义知识库中可能搜索到“苹果”、“美国苹果公司”等多个潜在链接实体。
其中,从已有的知识库中查找潜在链接实体包括但不限于下述方式:将知识库中的重定向链接作为潜在链接实体;将知识库中查找到的内容中第一段中的黑体字作为潜在链接实体;根据知识库中查找到的消岐页面得到潜在链接实体;还可以根据锚文本与实体的链接关系等信息获取实体提及的潜在链接实体。例如,如图2所示,对于实体提及“IBM”,在知识库中搜索得到的内容中,包括重定向链接“国际商业机器股份有限公司”,以及第一段中的黑体字“国际商业机器股份有限公司”、“International Business MachinesCorporation”以及“万国商业机器公司”,这些内容都可以作为实体提及“IBM”的潜在链接实体。如图3所示,对于实体提及“苹果”,在知识库中搜索得到消歧义页面,其中,“苹果公司”、“苹果日报”、“苹果(电影)”等都可以作为实体提及“苹果”的潜在链接实体。
当短文本中的实体提及确定后,还可以基于该短文本获取实体提及的潜在链接实体,例如可以将短文本中包含所述实体提及且存在于知识库中的实体作为潜在链接实体。例如,对于短文本“北京时间3月12日,2013亚冠联赛小组赛第二轮,广州恒大足球俱乐部客场挑战全北现代,广州恒大首发已经公布”,其中实体提及为“广州恒大”,则此时短文本中包括“广州恒大足球俱乐部”,且“广州恒大足球俱乐部”也是知识库中的实体,则将“广州恒大足球俱乐部”作为“广州恒大”的潜在链接实体,如果“广州恒大足球俱乐部”不是知识库中的实体,这种方法不能提供候选。
当短文本中的实体提及确定后,在进行上述潜在链接实体的搜索前,还可以对该实体提及进行扩展得到长度更大的伪实体提及,然后根据伪实体提及进行上述任一种方式的潜在链接实体的搜索。由于伪实体提及包含更多信息,更能够准确得到实体提及所应当链接到的实体。
在介绍伪实体提及的获取方式前,首先介绍获取伪实体提及时可以用到的对实体提及的类型的确定。
实体提及类型的确定需要用到实体类型本体。实体类型本体定义了现实世界中实体的类型以及类型之间的关系,比如实体最顶层的类型为对象(OBJECT),OBJECT又包括人(PERSON)实体、位置(LOCATION)实体、组织(ORGANIZATION)实体、机关实体(GEO-POLITICALENTITY)等等,人实体又可以根据职业分类不同的类别。因此实体类型本体可以被理解为一个将实体从一般到具体的分类体系。实体类型本体有两种获得方法,第一种方法是使用已有的实体类型本体,例如网址http://www.dmoz.org/等等公开的实体类型;第二种方法是用户根据自己的需要定制自己的实体类型本体,本文对此不做限制。
在得到实体类型本体后,可以利用机器学习技术训练能够自动判断给定实体的类型的机器识别模型。其中机器学习技术包括有监督学习和无监督学习两种方法。有监督学习需要标注一些训练语料,比如需要识别PERSON实体,那么可以标注一些包含PERSON实体的训练语料,然后利用有监督学习模型如CRF、SVM和训练语料训练一个机器识别模型。利用这个机器识别模型就可以识别文本中的PERSON实体。对于其他实体类型可以根据与此相似的方式训练得到机器识别模型,最终得到能够自动判断给定实体的类型的机器识别模型。无监督学习方法可以利用专业词典识别实体的类型,比如可以利用地名词典通过字符串匹配的方法识别地名,或者根据一些模式来识别实体的类型,比如出现“<xxx总统>”则将xxx的类型识别为PERSON,通过一系列的无监督学习得到能够自动判断给定实体的类型的机器识别模型。
除了利用机器自动识别实体提及的类型外,用户也可以人工指定mention的类型,这里实体提及mention的类型要与实体类型本体中的类别相对应。也就是说,可以不通过机器判断而是由用户直接判断实体提及的类型。这样做的好处是,用户可以指定链接某些他感兴趣类型的实体,比如只链接短文本中PERSON或ORGANIZATION类型的实体。
需要说明的是,实体提及类型的判断也可以不依赖实体类型本体,即不需要预先确定实体与类型之间的对应关系,例如用户可以在确定实体提及的类型时随机指定实体提及的类型。
在得到实体提及的类型后,可以根据下述方式确定伪实体提及:如果所述实体提及的类型为人,使用共指消解技术在所述原始文本中找到所述实体提及的扩展的其他表示形式作为所述伪实体提及。比如给定文本“LeBron Raymone James,nicknamed"KingJames",is an American professional basketball player for the Miami Heat ofthe National Basketball Association(NBA).Lebron has played the small forwardand power forward positions”,其中mention为“Lebron”时,在原始文本中找到Lebron的共指“LeBron Raymone James”时,那么则用“LeBron Raymone James”代替原来的mention“Lebron”,即使用“LeBron Raymone James”作为“Lebron”的伪实体提及。
如果所述实体提及的类型为行政机关,从所述原始文本中查找地名并结合所述实体提及与查找到的地名作为所述伪实体提及。例如,使用命名实体识别工具从mention的上下文中找到mention的所属实体,利用这些实体与mention结合作为伪实体提及。例如,给定文本“最高人民法院成立于1949年10月22日,中华人民共和国最高审判机关,监督地方各级人民法院和专门人民法院的审判工作”,mention为“最高人民法院”,则从原始文本中查找到地名,即mention的所属词“中华人民共和国”,将“中华人民共和国”与“最高人民法院”结合得到伪实体提及“中华人民共和国最高人民法院”。
如果所述实体提及的类型为组织,则根据模式匹配技术在所述原始文本中找到与所述实体提及对应的文本作为所述伪实体提及。例如,给定文本“Agricultural Bank ofChina(ABC),also known as AgBank or农行,is one of the"Big Four"banks in thePeople's Republic of China”,mention为“ABC”时,可以使用模式匹配的方法在原始文本中找到“Agricultural Bank of China”,那么直接用“Agricultural Bank of China”代替“ABC”,即使用“Agricultural Bank of China”作为“ABC”的伪实体提及。
还可以根据下述方式确定伪实体提及:当所述实体提及为缩写时,根据模式匹配技术在所述原始文本中找到与所述实体提及对应的文本作为所述伪实体提及。例如给定文本“Michael Jordan(MJ)has been the best basketball player,but MJ is now tooold”,实体提及为“MJ”,此时可以使用模式匹配技术在原始文本中找到“Michael Jordan”,并使用“Michael Jordan”作为“MJ”的伪实体提及。
当实体提及不是缩写时,可以参考上一伪实体提及的确定方式根据实体提及的类型来确定伪实体提及,例如,根据实体类型本体识别实体提及的类型,并且如果实体提及的类型为人,使用共指消解技术在原始文本中找到实体提及的扩展的其他表示形式作为伪实体提及;如果实体提及的类型为行政机关,从原始文本中查找地名并结合实体提及与查找到的地名作为伪实体提及,其示例可以参考上一伪实体提及的确定方式,此处不再赘述。
在上述步骤S101中获取到潜在链接实体之后,执行步骤S102。
在步骤S102中,根据实体类型筛选得到的潜在链接实体,去除实体类型不满足预设条件的潜在链接实体。该预设条件可以是与实体提及的类型相同,或者是与用户预先设置的实体类型相同。例如,用户可以预先设置实体提及“MJ”的链接实体的类型为公司,则查找到的例如潜在链接实体“Michael Jordan”被排除。其中,实体类型的确定方式将在后续对步骤S101的详述中介绍。
在步骤S103中,对实体提及所在的原始文本进行扩展,得到实体提及对应的第一文本,计算第一文本与潜在链接实体对应的第二文本的文本相似度。例如,对于实体提及“恒大”的原始文本“恒大赢了”可能扩展得到第一文本“广州恒大足球俱乐部赢得了中国足球超级联赛的第二名”。
其中,对原始文本的扩展方式包括但不限于:选择实体提及周围预设长度L内的文本,对该文本进行分词;然后计算各个词与实体提及的关联度,选择关联度最高的n个词作为关键词;并利用n个关键词和实体提及搜索语料库得到含有实体提及和n个关键词的文本片段;进而将该文本片段与实体提及所在的原始文本组合得到第一文本。
其中,关联度的计算可以包括但不限于通过下述公式得到:
其中,x表示实体提及,y表示分词,NGD(x,y)表示x与y的关联度,M表示查找得到的潜在链接实体的总数,f(x)表示x在潜在链接实体中出现的次数,f(y)表示y在潜在链接实体中出现的次数,f(x,y)表示x和y在潜在链接实体中同时出现的次数。
关联度的计算还可以通过其他方式实现,例如直接根据各分词与实体提及在潜在链接实体中同时出现的频率确定各分词与实体提及的关联度。
需要注意,利用n个关键词和实体提及搜索语料库得到的含有实体提及和n个关键词的文本片段可能并不唯一,此时可选的,根据产生时间筛选多个文本片段。例如,假定得到的文本片段有m个,那么选择和原始文本时间相差为t的k个检索结果。假设原始文本的产生时间为T,设定的时间窗口为t,则选择产生时间为[T-t,T+t]的检索结果。例如实体提及为“詹姆斯”,得到的关键词为“NBA”和“总决赛”,原始文本产生的时间为T=“2013年6月18日”,假设t=10天,那么可以选择产生时间为“2013年6月8日”到“2013年6月28日”的检索到的文本片段。
如果根据时间筛选得到的文本片段仍然为多个,可以进一步筛选,例如对每一个文本片段以及原始文本分别构建向量,并计算各文本片段的向量与所述原始文本的向量的余弦距离,筛选得到余弦距离满足阈值条件的文本片段。假定进行时间筛选后得到的文本片段个数为k,对于该k个检索结果,可以为每一个检索结果构建一个向量,vi(i=1,2…k),同时我们对原始文本构建向量vo,计算vi与vo的余弦距离,选择余弦距离最小的前w个检索结果。优选的,w可以设置为1。
另外,对原始文本的扩展方式还可以包括:选择实体提及周围一定长度内的文本作为第一文本,该一定长度例如可以是经验值。
第一文本与第二文本的文本相似度可以利用现有技术中的各种相似度计算方式,本文对此不做限制。
在上述步骤S103中计算得到第一文本与第二文本的文本相似度之后,基于该相似度执行步骤S104。
在步骤S104中,基于第一文本与第二文本的文本相似度确定潜在链接实体的匹配度。
其中,基于第一文本与第二文本的文本相似度确定潜在链接实体的匹配度可以包括直接将文本相似度作为匹配度或根据预先设置的文本相似度与匹配度的关系例如比例系数确定匹配度。
匹配度的确定还可以在上述文本相似度的基础上结合其他因素确定,这些其他因素包括但不限于:实体提及的字符串与潜在链接实体的实体名称的字符串的相似度、实体提及与潜在链接实体的链接流行度、以及潜在链接实体与实体提及的互指概率。并且,这些其他因素可以单独或相互结合使用。
其中,实体提及的字符串与潜在链接实体的实体名称的字符串的相似度可以采用现有技术中的各种相似度计算方式,本文对此不做限制。
实体提及与潜在链接实体的链接流行度通过计算各潜在链接实体在实体提及搜索到的所有潜在链接实体中出现的频率确定。例如,对于实体提及“OA”,在网络知识库中可能搜索得到100个页面,其中包括潜在链接实体“Office Action”与“office automation”,且后者在90个页面中出现,前者在10个页面中出现,则此时潜在链接实体“Office Action”与“office automation”的链接流行度分别为例如0.1和0.9。需要说明,本示例仅是出于说明的目的,而不用于限定链接流行度的具体确定方式。
潜在链接实体与实体提及的互指概率可以根据潜在链接实体的来源确定。例如,当所述来源为重定向链接时,确定所述潜在链接实体对应的互指概率为第一预设值,例如1;当所述来源为黑体字时,确定所述潜在链接实体对应的互指概率为第二预设值,例如0.8;当所述来源为消歧页面时,确定所述潜在链接实体对应的互指概率为1/k,其中,k为歧义的实体总数。
优选的,潜在链接实体与实体提及的互指概率可以在获取潜在链接实体的处理中直接设置,后续可以直接使用预先设置的该互指概率。
如上所述,匹配度的确定可以同时依据多个因素。例如,假定上述文本相似度表示为ContextSimilarity(mention,entity)、实体提及的字符串与潜在链接实体的实体名称的字符串的相似度表示为LexicalSimilarity(mention,entity)、实体提及与潜在链接实体的链接流行度表示为PopularProbability(mention,entity)以及潜在链接实体与实体提及的互指概率表示为p(m,e),并且实体提及与潜在链接实体的最终的匹配度表示为FinalScore(m,e),则通过下式计算FinalScore(m,e),其中m表示实体提及(mension),e表示实体(entity):
FinalScore(m,e)=p(m,e)*(α*LexicalSimilarity(mention,entity)+
β*PopularProbability(mention,entity)+
γ*ContextSimilarity(mention,entity))
其中α、β和γ分别作为权重系数,其值可以通过训练样本估计得到。优选的,由于不同类型的实体提及的特点不同,所以针对不同的实体提及类型分别单独地估计α、β和γ,即对不同的实体提及类型(例如上述人、组织和机关)构建不同的训练样本,训练得到不同的权重值α、β和γ。
在步骤S105中,确定是否存在匹配度满足预设条件的潜在链接实体;如果存在,执行步骤S106;否则,执行步骤S107。预设条件例如为阈值,即匹配度在阈值以上的潜在链接实体为满足预设条件的潜在链接实体。优选的,不同类型的实体提及可以具有不同的预设条件,例如不同的匹配度阈值。
在步骤S106中,将实体提及链接到匹配度满足预设条件的潜在链接实体。
在步骤S107中,将实体提及对应的所有潜在链接实体存入知识库中。如果发现不存在满足预设条件的潜在链接实体,则认为当前知识库中不存在实体提及对应的实体,可以将该实体提及对应的所有潜在链接实体存入知识库中。该知识库例如可以为上述步骤S101中提到的各种知识库。当然,发现不存在满足预设条件的潜在链接实体,也可以采取其他处理操作,例如反馈不存在潜在链接实体的提示信息,该提示信息可以为文字或语音形式。
本公开中,对实体提及所在的原始文本进行扩展,利用扩展后的文本筛选潜在链接实体,从而能够提高链接实体的准确性。
基于与上述方法技术方案相同的技术构思,本发明还提供了一种实体链接装置,如图4所示,包括:获取单元41,配置用于获取实体提及的潜在链接实体;扩展处理单元42,配置用于扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;匹配处理单元43,配置用于根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;以及链接单元44,配置用于将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。
该装置还可以包括:筛选单元45,配置用于在扩展处理单元42执行操作之前首先根据实体类型筛选得到潜在链接实体,去除实体类型不满足预设条件的潜在链接实体。
该装置还可以包括:判断单元46,配置用于确定是否存在匹配度满足预设条件的潜在链接实体;以及存储单元47,配置用于当不存在具有满足预设条件的匹配度的潜在链接实体时,将所述实体提及与其所有潜在链接实体存储到知识库中。
与上述方法技术方案中对应,获取单元41用于执行上述步骤S101中的相关操作,其具体操作可以参照上述步骤S101,此处不再赘述。类似地,筛选单元45配置用于执行上述步骤S102的相关操作;扩展处理单元42用于执行上述步骤S103的相关操作;匹配处理单元43用于执行上述步骤S104的相关操作;判断单元46用于执行上述步骤S105的相关操作;链接单元44执行上述步骤S106的相关操作;存储单元47用于执行上述步骤S107的相关操作。
下文中,参考图5描述实现本发明的数据处理设备的计算机的示例性结构。图5是示出实现本发明的计算机设备的示例性结构的框图。
上述计算机中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5示的通用计算机1100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图5中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM1103中,也根据需要存储当CPU1101执行各种处理等等时所需的数据。CPU1101、ROM1102和RAM1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明任一实施方式的方法或方法中的部分处理。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
应当注意,本文中所使用的术语仅用于描述具体的实施方式的目的,而非意在限制本发明。本文中所使用的单数形式的“一个”和“该(the)”意在还包括复数形式,除非上下文清楚地指出不同含义。还应当理解,术语“包括”在本说明书中使用时指所说明的特征、整体、操作、步骤、元件和/或部件的存在,但是不排除一个或更多个其他特征、整体、操作、步骤、元件、部件和/或其组合的存在或添加。
权利要求中的相应结构、材料、动作和以“装置或者步骤加功能”定义的要素的所有等同形式意在包括用于结合其他要求保护的要素来执行功能的任意结构、材料或动作。对本发明的描述是用于说明和描述的目的,而非意在以所公开的形式来穷举或限制本发明。本领域技术人员可以在不偏离本发明的范围和精神的情况下想到对本发明的很多修改和变化。所选择和描述的实施方式是为了最佳地解释本发明的原理和实际应用,并使得本领域的其他技术人员能够针对具有适于所想到的具体用途的各种修改的各种实施方式来理解本发明。
通过上述的描述,本发明的实施方式提供了以下的技术方案。
附记1.一种实体链接方法,包括:
获取实体提及的潜在链接实体;
扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;
根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;
将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。
附记2.如附记1所述的实体链接方法,计算所述潜在链接实体与所述实体提及的匹配度之前还包括:
排除与所述实体提及的类型或者预先设定类型不一致的潜在链接实体。
附记3.如附记2所述的实体链接方法,还包括:根据实体类型本体识别所述实体提及的类型。
附记4.如附记1所述的实体链接方法,所述获取实体提及的潜在链接实体包括:
在知识库中搜索与所述实体提及对应的实体作为潜在链接实体;和/或
获取所述实体提及所在文本中的包含所述实体提及且存在于所述知识库中的实体,作为潜在链接实体。
附记5.如附记1所述的实体链接方法,所述根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度包括:
结合所述实体提及的字符串与所述潜在链接实体的实体名称的字符串的相似度、所述实体提及与所述潜在链接实体的链接流行度和所述潜在链接实体与所述实体提及的互指概率中的一种或多种以及所述文本相似度,计算所述潜在链接实体与所述实体提及的匹配度。
附记6.如附记5所述的实体链接方法,所述扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本包括:
选择所述实体提及周围预设长度内的文本,对所述文本进行分词;
计算各个词与所述实体提及的关联度,选择关联度最高的n个词作为关键词;
利用所述n个关键词和所述实体提及在语料库中搜索得到含有所述实体提及和所述n个关键词的文本片段;
将所述文本片段与所述实体提及所在的原始文本组合得到所述第一文本。
附记7.如附记6所述的实体链接方法,当得到多个所述文本片段时,筛选得到产生时间满足预设条件的文本片段。
附记8.如附记7所述的实体链接方法,当筛选得到两个以上文本片段时,对每一个文本片段以及所述原始文本分别构建向量,并计算各文本片段的向量与所述原始文本的向量的余弦距离,筛选得到余弦距离满足阈值条件的文本片段。
附记9.如附记5所述的实体链接方法,计算所述潜在链接实体与所述实体提及的互指概率包括:
获取所述潜在链接实体在知识库中的来源,根据所述来源确定所述潜在链接实体对应的互指概率。
附记10.如附记9所述的实体链接方法,根据所述来源确定所述潜在链接实体对应的互指概率包括:
当所述来源为重定向链接时,确定所述潜在链接实体对应的互指概率为第一预设值;
当所述来源为黑体字时,确定所述潜在链接实体对应的互指概率为第二预设值;
当所述来源为消歧页面时,确定所述潜在链接实体对应的互指概率为1/k,其中,k为歧义的实体总数。
附记11.如附记1所述的方法,所述获取实体提及的潜在链接实体包括:
对所述实体提及进行扩展得到伪实体提及,根据所述伪实体提及获取所述潜在链接实体。
附记12.如附记11所述的方法,对所述实体提及进行扩展得到伪实体提及包括:
当所述实体提及为缩写时,根据模式匹配技术在所述原始文本中找到与所述实体提及对应的文本作为所述伪实体提及。
附记13.如附记11所述的方法,对所述实体提及进行扩展得到伪实体提及包括:
根据所述实体提及的类型对所述实体提及进行扩展得到所述伪实体提及。
附记14.如附记13所述的方法,根据所述实体提及的类型对所述实体提及进行扩展得到所述伪实体提及包括:
如果所述实体提及的类型为人,使用共指消解技术在所述原始文本中找到所述实体提及的扩展的其他表示形式作为所述伪实体提及;
如果所述实体提及的类型为行政机关,从所述原始文本中查找地名并结合所述实体提及与查找到的地名作为所述伪实体提及;以及
如果所述实体提及的类型为组织,则根据模式匹配技术在所述原始文本中找到与所述实体提及对应的文本作为所述伪实体提及。
附记15.如附记14所述的方法,其中,根据实体类型本体识别所述实体提及的类型。
附记16.如附记1所述的方法,还包括:
若不存在满足预设条件的匹配度的潜在链接实体,则将所述实体提及的所有潜在链接实体存储到对应数据库中。
附记17.一种实体链接装置,包括:
获取单元,配置用于获取实体提及的潜在链接实体;
扩展处理单元,配置用于扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;
匹配处理单元,配置用于根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;
链接单元,配置用于将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。
附记18.如附记17所述的实体链接装置,所述扩展处理单元用于:
选择所述实体提及周围预设长度内的文本,对所述文本进行分词;
计算各个词与所述实体提及的关联度,选择关联度最高的n个词作为关键词;
利用所述n个关键词和所述实体提及在语料库中搜索得到含有所述实体提及和所述n个关键词的文本片段;
将所述文本片段与所述实体提及所在的原始文本组合得到所述第一文本。
附记19.如附记17所述的实体链接装置,所述获取单元用于:对所述实体提及进行扩展得到伪实体提及,根据所述伪实体提及获取所述潜在链接实体。
附记20.如附记19所述的实体链接装置,所述获取单元用于:根据所述实体提及的类型对所述实体提及进行扩展得到所述伪实体提及。
Claims (9)
1.一种实体链接方法,包括:
获取实体提及的潜在链接实体;
扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;
根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;
将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体;
其中,所述扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本包括:
选择所述实体提及周围预设长度内的文本,对所述文本进行分词;
计算各个词与所述实体提及的关联度,选择关联度最高的n个词作为关键词;
利用所述n个关键词和所述实体提及在语料库中搜索得到含有所述实体提及和所述n个关键词的文本片段;
将所述文本片段与所述实体提及所在的原始文本组合得到所述第一文本。
2.如权利要求1所述的实体链接方法,所述根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度包括:
结合所述实体提及的字符串与所述潜在链接实体的实体名称的字符串的相似度、所述实体提及与所述潜在链接实体的链接流行度和所述潜在链接实体与所述实体提及的互指概率中的一种或多种以及所述文本相似度,计算所述潜在链接实体与所述实体提及的匹配度。
3.如权利要求1所述的实体链接方法,当得到多个所述文本片段时,筛选得到产生时间满足预设条件的文本片段。
4.如权利要求3所述的实体链接方法,当筛选得到两个以上文本片段时,对每一个文本片段以及所述原始文本分别构建向量,并计算各文本片段的向量与所述原始文本的向量的余弦距离,筛选得到余弦距离满足阈值条件的文本片段。
5.如权利要求1所述的实体链接方法,所述获取实体提及的潜在链接实体包括:
对所述实体提及进行扩展得到伪实体提及,根据所述伪实体提及获取所述潜在链接实体。
6.如权利要求5所述的实体链接方法,对所述实体提及进行扩展得到伪实体提及包括:
当所述实体提及为缩写时,根据模式匹配技术在所述原始文本中找到与所述实体提及对应的文本作为所述伪实体提及。
7.如权利要求5所述的实体链接方法,对所述实体提及进行扩展得到伪实体提及包括:
根据所述实体提及的类型对所述实体提及进行扩展得到所述伪实体提及。
8.如权利要求7所述的实体链接方法,根据所述实体提及的类型对所述实体提及进行扩展得到所述伪实体提及包括:
如果所述实体提及的类型为人,使用共指消解技术在所述原始文本中找到所述实体提及的扩展的其他表示形式作为所述伪实体提及;
如果所述实体提及的类型为行政机关,从所述原始文本中查找地名并结合所述实体提及与查找到的地名作为所述伪实体提及;以及
如果所述实体提及的类型为组织,则根据模式匹配技术在所述原始文本中找到与所述实体提及对应的文本作为所述伪实体提及。
9.一种实体链接装置,包括:
获取单元,配置用于获取实体提及的潜在链接实体;
扩展处理单元,配置用于扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;
匹配处理单元,配置用于根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;
链接单元,配置用于将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体;
其中,所述扩展处理单元被进一步配置用于:
选择所述实体提及周围预设长度内的文本,对所述文本进行分词;
计算各个词与所述实体提及的关联度,选择关联度最高的n个词作为关键词;
利用所述n个关键词和所述实体提及在语料库中搜索得到含有所述实体提及和所述n个关键词的文本片段;
将所述文本片段与所述实体提及所在的原始文本组合得到所述第一文本。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310432213.7A CN104462126B (zh) | 2013-09-22 | 2013-09-22 | 一种实体链接方法及装置 |
JP2014188486A JP6398510B2 (ja) | 2013-09-22 | 2014-09-17 | 実体のリンク付け方法及び実体のリンク付け装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310432213.7A CN104462126B (zh) | 2013-09-22 | 2013-09-22 | 一种实体链接方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462126A CN104462126A (zh) | 2015-03-25 |
CN104462126B true CN104462126B (zh) | 2018-04-27 |
Family
ID=52821433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310432213.7A Active CN104462126B (zh) | 2013-09-22 | 2013-09-22 | 一种实体链接方法及装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6398510B2 (zh) |
CN (1) | CN104462126B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294313A (zh) * | 2015-06-26 | 2017-01-04 | 微软技术许可有限责任公司 | 学习用于实体消歧的实体及单词嵌入 |
CN105045826A (zh) * | 2015-06-29 | 2015-11-11 | 华东师范大学 | 一种基于图模型的实体链接算法 |
CN106326300A (zh) * | 2015-07-02 | 2017-01-11 | 富士通株式会社 | 信息处理方法以及信息处理设备 |
CN106940702A (zh) * | 2016-01-05 | 2017-07-11 | 富士通株式会社 | 连接短文本中实体提及与语义知识库中实体的方法和设备 |
CN107133237A (zh) * | 2016-02-29 | 2017-09-05 | 富士通株式会社 | 图像链接方法和图像链接设备 |
CN107402933A (zh) * | 2016-05-20 | 2017-11-28 | 富士通株式会社 | 实体多音字消歧方法和实体多音字消歧设备 |
CN106202382B (zh) * | 2016-07-08 | 2019-06-14 | 南京柯基数据科技有限公司 | 链接实体方法和系统 |
CN106469188A (zh) * | 2016-08-30 | 2017-03-01 | 北京奇艺世纪科技有限公司 | 一种实体消歧方法及装置 |
CN106570132B (zh) * | 2016-10-27 | 2020-01-14 | 浙江大学 | 一种融合提及实体信息的文档向量学习方法 |
CN108170662A (zh) * | 2016-12-07 | 2018-06-15 | 富士通株式会社 | 缩简词的消歧方法和消歧设备 |
CN106909655B (zh) * | 2017-02-27 | 2019-03-26 | 中国科学院电子学研究所 | 基于产生式别名挖掘的知识图谱实体发现和链接方法 |
CN108363688B (zh) * | 2018-02-01 | 2020-04-28 | 浙江大学 | 一种融合先验信息的命名实体链接方法 |
CN108491375B (zh) * | 2018-03-02 | 2022-04-12 | 复旦大学 | 基于CN-DBpedia的实体识别与链接系统和方法 |
CN110569496B (zh) * | 2018-06-06 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置及存储介质 |
CN108959258B (zh) * | 2018-07-02 | 2021-06-18 | 昆明理工大学 | 一种基于表示学习的特定领域集成实体链接方法 |
CN109165297B (zh) * | 2018-08-10 | 2021-12-24 | 新华智云科技有限公司 | 一种通用实体链接装置及方法 |
CN110941724A (zh) * | 2019-11-28 | 2020-03-31 | 北京奇艺世纪科技有限公司 | 实体链接方法、装置、电子设备及计算机可读存储介质 |
CN111428507B (zh) | 2020-06-09 | 2020-09-11 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN112214572B (zh) * | 2020-10-20 | 2022-11-01 | 山东浪潮科学研究院有限公司 | 一种简历解析中二次提取实体的方法 |
CN113282703B (zh) * | 2021-04-01 | 2022-05-06 | 中科雨辰科技有限公司 | 新闻数据的事件关联图谱构建方法及装置 |
CN113535883B (zh) * | 2021-07-16 | 2023-10-31 | 携程旅游信息技术(上海)有限公司 | 商业场所实体链接方法、系统、电子设备及存储介质 |
CN113743104B (zh) * | 2021-08-31 | 2024-04-16 | 合肥智能语音创新发展有限公司 | 实体链接方法及相关装置、电子设备、存储介质 |
US11467716B1 (en) | 2022-01-28 | 2022-10-11 | Microsoft Technology Licensing, Llc | Flexibly identifying and playing media content from any webpage |
CN116562303B (zh) * | 2023-07-04 | 2023-11-21 | 之江实验室 | 一种参考外部知识的指代消解方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101454750A (zh) * | 2006-03-31 | 2009-06-10 | 谷歌公司 | 命名实体的消歧 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8594996B2 (en) * | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
JP5277090B2 (ja) * | 2009-07-02 | 2013-08-28 | Kddi株式会社 | リンク作成支援装置、リンク作成支援方法およびプログラム |
US8396882B2 (en) * | 2010-08-26 | 2013-03-12 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for generating issue libraries within a document corpus |
JP5870776B2 (ja) * | 2012-03-09 | 2016-03-01 | 大日本印刷株式会社 | リンク付与装置、リンク付与方法、およびプログラム |
-
2013
- 2013-09-22 CN CN201310432213.7A patent/CN104462126B/zh active Active
-
2014
- 2014-09-17 JP JP2014188486A patent/JP6398510B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101454750A (zh) * | 2006-03-31 | 2009-06-10 | 谷歌公司 | 命名实体的消歧 |
Non-Patent Citations (3)
Title |
---|
"A Generative Entity-Mention Model for Linking Entities with Knowledge";Han Xianpei等;《Proceedings of the 49th Annual Meeting of the Association for Computation Linguistics:Human Language Technologies》;20110624;第1卷;第945-954页 * |
"命名实体识别、排歧和跨语言关联";赵军;《中文信息学报》;20090331;第23卷(第2期);第4页左栏第1段,第8页右栏第1-2段 * |
"基于维基百科的命名实体消歧研究";唐博蓉;《中国优秀硕士论文全文数据库信息科技辑》;20120715(第7期);第27页第4-9段,第36页第2-5段 * |
Also Published As
Publication number | Publication date |
---|---|
JP2015062117A (ja) | 2015-04-02 |
CN104462126A (zh) | 2015-03-25 |
JP6398510B2 (ja) | 2018-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462126B (zh) | 一种实体链接方法及装置 | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN110097125B (zh) | 一种基于嵌入表示的跨网络账户关联方法 | |
JP2020042779A (ja) | インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 | |
CN108920622A (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN107391485A (zh) | 基于最大熵和神经网络模型的韩语命名实体识别方法 | |
CN106940702A (zh) | 连接短文本中实体提及与语义知识库中实体的方法和设备 | |
CN109166564A (zh) | 为歌词文本生成乐曲的方法、装置及计算机可读存储介质 | |
CN106960001B (zh) | 一种检索词的实体链接方法及系统 | |
CN108268441A (zh) | 句子相似度计算方法和装置及系统 | |
CN106897559A (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
CN102314440B (zh) | 利用网络维护语言模型库的方法和系统 | |
US20170161370A1 (en) | Control method, processing apparatus, and recording medium | |
CN108959474B (zh) | 实体关系提取方法 | |
CN110175851A (zh) | 一种作弊行为检测方法及装置 | |
CN110163376A (zh) | 样本检测方法、媒体对象的识别方法、装置、终端及介质 | |
CN105929979B (zh) | 长句输入方法和装置 | |
CN107767850A (zh) | 一种演唱评分方法及系统 | |
CN113178232A (zh) | 一种circRNA和疾病关联关系的高效预测方法 | |
CN110020005A (zh) | 一种病历中主诉和现病史中症状匹配方法 | |
WO2023168810A1 (zh) | 药物分子的性质预测方法、装置、存储介质及计算机设备 | |
CN107111607A (zh) | 用于语言检测的系统和方法 | |
CN110532570A (zh) | 一种命名实体识别的方法和装置及模型训练的方法和装置 | |
CN114138969A (zh) | 文本处理方法及装置 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |