CN102844755A - 提取命名实体的方法 - Google Patents

提取命名实体的方法 Download PDF

Info

Publication number
CN102844755A
CN102844755A CN2010800664731A CN201080066473A CN102844755A CN 102844755 A CN102844755 A CN 102844755A CN 2010800664731 A CN2010800664731 A CN 2010800664731A CN 201080066473 A CN201080066473 A CN 201080066473A CN 102844755 A CN102844755 A CN 102844755A
Authority
CN
China
Prior art keywords
named entity
entity
named
probability
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800664731A
Other languages
English (en)
Inventor
姚从磊
熊宇红
郑李炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN102844755A publication Critical patent/CN102844755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

提出了一种从大规模文档文集中提取命名实体的方法。该方法包括识别文集中的命名实体,并利用一些现有资源人工或自动形成种子实体集合,构造命名实体图以发现任何给定命名实体对之间的相同类型概率,扩展所述种子实体集合,以及在所述命名实体图上执行种子实体的置信度传播。

Description

提取命名实体的方法
背景技术
互联网的出现导致了像以前从来没有过的信息爆炸。每天有数千文档上载,网络已成为搜索信息的最喜欢的地方。命名实体(NE named entity)搜索是搜索正确信息的机制之一。命名实体通常是指词或词组,例如公司、人的名称、位置、时间、日期、数值等。命名实体搜索可以使查找相关信息的任务变得相对容易。不过,如果在互联网上进行搜索,假设搜索文档的文集(corpus)可能潜在地是数百万文档,搜索具有多个简单命名实体的复杂命名实体(例如词组)不是小任务。
已经报告过用于命名实体提取的若干种方法。这些方法中的一些利用机器学习技术来训练模型,以从高质量的新闻专线文本提取公共命名实体。它们集中于针对特定的典型NE类型使用统计模型,例如隐马尔可夫模型、规则学习和最大熵马尔可夫模型。这些研究从手工加标签的训练文集中学习模型或规则,因此模型和规则仅对类似的文集有效,而对于具有不同统计特性或不同流派或风格的其他文集表现不佳。由于针对每种特定NE类型的训练模型成本高昂,所以这些方法不能满足一般命名实体提取的需求。
附图说明
为了更好地理解本发明,现在将参考附图完全以举例的方式描述实施例,在附图中:
图1示出了根据实施例的命名实体提取的计算机实施的方法的流程图。
图2示出了根据实施例的图1的方法的子例程的流程图。
图3示出了根据实施例的命名实体图的示范性图解表示。
图4示出了可以在其上实施实施例的计算机系统400的方框图。
具体实施方式
在包括附图的整个文档中可互换地使用以下术语。
(a) “节点”和“命名实体”
(b) “文档”和“电子文档”
本发明的实施例提供了用于从文档或文档文集提取命名实体(NE)的方法、计算机可执行代码和计算机存储介质。
本发明的实施例旨在在低质量文集上执行命名实体的有效提取,并以最低成本提取任何类型的实体。所提出的方法适应文档的多样性(例如在有组织的网页中),并且在大规模文集上提取大量命名实体是高效的。实施例从大规模文档文集有效地提取命名实体,在这种文档文集中,内容的冗余性不如网络规模的文集显著。
图1示出了根据实施例的提取命名实体的方法100的流程图。可以在计算机系统(或计算机可读介质)上执行方法100。
该方法在步骤110中开始。在步骤110中,访问文档或文档文集,并且识别文档或文档文集中出现的命名实体(NE),利用一些现有资源可以从其人工或自动形成种子实体集合。
文档文集可以是电子文档的集合,例如但不限于网页的集合。可以从诸如电子数据库之类的储存库(repository)获得文档。电子数据库可以是内部数据库,例如公司的内部网或外部数据库例如Wikipedia。而且,电子数据库可以存储在独立的个人计算机上或遍布在多个计算机器上,利用有线或无线技术联网在一起。例如,电子数据库可以被托管(host)在通过广域网(WAN)或互联网而连接的多个服务器上。
在实施例中,识别文集(例如内部网中的网页)中出现的所有可能的命名实体而不考虑其类型。该步骤识别简单和复杂的命名实体这二者。作为例示,可以识别简单实体,例如人名(“Jack Sparrow”)和位置(“曼谷”)。也可以识别复杂命名实体,例如产品名称(“Compaq Presario 3434 with HP Printer 4565”)和项目名称(“Entity Extraction Project in ABC Department”),而不论其类型如何。
在实施例中,可以使用一种基于排列(collocation)的方法(例如,D. Downey等人在Proc. of IJCAI,2007中的“Locating complex named entities in web text”所述的方法)来识别命名实体。不过,本实施例使用不同的方法判断命名实体的边界。它使用具有数字的项目(term)作为命名实体边界的标识符,并使用预定义的阈值来选择对称条件概率(SCP)高于阈值的候选者作为命名实体。
在步骤120中,构造命名实体图以发现以上步骤110中识别的任何给定命名实体对之间的相同类型概率。在构造命名实体图以发现任何给定命名实体对之间的相同类型概率中涉及的方法步骤包括若干子步骤,如图2中所示。在实施例中,使用基于语言模型的图构造方法和基于simhash的方法来计算两个命名实体之间的条件概率并构造命名实体图,其对文档文集(例如,组织的网页)中命名实体之间的相同类型信息进行编码。下文描述这两种模型。
基于语言模型的图构造
如所周知,图一般是点的集合,其中一些点由链路(link)连接。点被称为顶点(或节点),并且连接一些顶点对的链路被称为边。边可以是有方向或无方向的。图构造时的主要问题之一是计算每条边的权重,其对端节点与起始节点是相同类型的条件概率进行编码。在实施例中,提出了一种三阶段方法以计算边的权重并构造命名实体图:(a)为每个命名实体(节点)创建语言模型,(b)基于KL-距离(KL-Divergence)计算条件概率,(c)利用所有命名实体来构造图。
在第一阶段中,为每个命名实体创建语言模型(122)。这是通过针对每个命名实体检索包含该命名实体的文档来实现的。然后将检索到的文档与排名前列的文档中的围绕命名实体的片断组合成虚拟文档。为了例示,取命名实体“Jack Sparrow”。还假设文档文集中对“Jack Sparrow”的实体搜索获得几百个文档。在本实施例中,所提出的方法将排名前列的文档中的围绕命名实体(“Jack Sparrow”)的片断组合成虚拟文档。排名前列的文档可能标题为例如“Pirate”、“Pirates of The Caribbean”、“Johnny Depp”等。而且,该片断可以是“胶片”、“电影”、“演员”、“好莱坞”等。
所创建的虚拟文档反映了其中命名实体出现在的片段的多样性,并且捕获了片段中的命名实体的语境的主要特征。因此,虚拟页集合充当用于为每个命名实体构造语言模型的良好集合。在实施例中,利用Dirichlet平滑法构造语言模型。
在第二阶段中,计算(124)每个给定命名实体对之间的条件概率。在实施例中,给定一对实体vi和vj,假设vi和vj的语言模型分别是Li和Lj,基于其KL-距离D(Lj︳Li),条件概率可以被计算为:
Figure 380825DEST_PATH_IMAGE001
其中type(Vi)是实体vi的类型。
Kullback-Leibler(KL)距离是量化两个概率分布的接近性的信息论基本方程。KL-距离始终是非负的,并且较大KL-距离表示较小条件概率。在两个语言模型相等时,条件概率具有最大值1,但KL-距离具有最小值0。因此,以上方程是将KL-距离转换成条件概率的良好选择。
在第三阶段中,建立命名实体(节点)与其他命名实体(节点)的边(126)。针对每个命名实体这样做。在实施例中,使用强力方法建立从节点到所有其他节点的边,并分配对应的条件概率作为其权重。命名实体图中的每个节点都是命名实体,并且每条边反映了端节点(命名实体)与起始节点(命名实体)是相同类型的条件概率。
由于使用这样的方法可能获得复杂的图,这可能阻止高效的计算,所以使用高于凭经验选择的阈值的阈值,并且仅保留权重高于这个阈值的边。
用于加快图构造的基于Simhash的模型
仅选择阈值超过特定阈值的那些边实现大量的优化。不过,计算命名实体(节点)和其余命名实体之间的KL-距离值是一个耗时的过程。为了加快这个过程,在实施例中,该方法使用simhash来计算虚拟文档的相似性并过滤掉相似性较低的命名实体(节点)。该方法基于如下观察:对于具有虚拟文档pi、pj和pm的三个节点(命名实体)vi、vj和vm,令这些虚拟页的simhash代码分别为shi、shj和shm。如果pm和pi的相似性小于pm和pj的相似性,即shm和shi之间的汉明距离远大于shm和shj之间的汉明距离,从vm到vj的KL-距离趋向于大于从vm到vj的KL-距离,并且从vm到vi的条件概率趋向于小于从vm到vj的条件概率。使用simhash来估计条件概率以便过滤掉实体图中的低权重边,并仅计算相似节点之间的边的权重。
在实施例中,针对每个实体(节点)基于其虚拟文档产生64位simhash码。接下来,对于每个节点,计算其simhash码和所有其他节点的simhash码之间的汉明距离,并且过滤掉汉明距离超过预定义阈值的节点。最后,使用基于语言模型的方法来计算节点和其余节点之间边的权重。
在步骤130中,扩展种子实体集合以包括一些相关的非种子实体。
在步骤140中,执行命名实体图上种子实体的置信度传播以预测非种子实体的置信度值是否是目标类型。所提出的方法提出一种新颖的执行置信度传播的算法。
给定扩展的种子集合S={(s1,c1),...,(si,ci),...,(sn,cn)}和所构造的具有转换矩阵T的命名实体图G=〈V,E>,其中si和ci分别是V中的第i个种子的索引和置信度,其中
可以使用以下算法执行置信度传播。
Figure 77703DEST_PATH_IMAGE003
在置信度传播之后获得
Figure 535229DEST_PATH_IMAGE004
的置信度值Confi。它是目标类型c*的概率是利用下式度量的:
Figure 349601DEST_PATH_IMAGE005
根据每个命名实体的概率,可以使用预定义的阈值来确定其是否为目标类型。
图3示出了根据实施例的命名实体图的示范性图解表示。
命名实体图300由八个实体构成。八个实体被分成三种类型,标记以不同的颜色阴影。还示出了给定命名实体(节点)对之间的条件概率。在这幅图上,给定扩展种子集合S={(1,1.0),(4,0.85)}并且设置αB=0.85且MB=60,可以调用上述置信度传播以计算命名实体置信度矢量
t*=(0.217,0.4346,0.1223,0.1801,0.0024,0.0011,0.0009,0.0001)
和概率矢量
p=(0.499,1,0.281,0.414,0.006,0.003,0.002,0.0002) 
使用0.006和0.281之间的任何阈值,所提出的方法将能够识别前四个节点是目标类型的。
图4示出了可以在其上实施实施例的计算机系统400的方框图。计算机系统400包括处理器410、存储介质420、系统存储器430、监视器440、键盘450、鼠标460、网络接口420和视频适配器480。这些部件通过系统总线490耦合在一起。
存储介质420(例如硬盘)存储多个程序,包括操作系统、应用程序和其他程序模块。用户可以通过输入设备向计算机系统400中输入命令和信息,输入设备例如是键盘450、触摸板(未示出)和鼠标460。使用监视器440来显示文本和图形信息。
操作系统运行于处理器410上并且用于协调和提供图4中的个人计算机系统400内的各种部件的控制。此外,可以在计算机系统400上使用计算机程序以实施上述各种实施例。
要认识到,图4中所示的硬件部件仅仅出于例示的目的,而实际部件可能根据为实施本发明而部署的计算设备而变化。
此外,计算机系统400例如可以是台式计算机、服务器计算机、膝上型计算机或无线设备,例如移动电话、个人数字助理(PDA)、手持式计算机等。
所述实施例提供了一种在给定文档文集的情况下提取命名实体的有效方法。实施例解决了从一般组织的网页以最低成本提取任何类型实体的问题。所提出的加权命名实体图能够对每个命名实体和其他实体的类型之间的复杂关系进行编码,因此在图上传播种子置信度能够弥补网络规模冗余性的缺乏,并能够支持有效的组织规模提取。此外,可以将命名实体图上的置信度传播变换成高效的矩阵计算,其能够支持大规模文集上的高效提取。
要认识到,可以将本发明范围内的实施例实现为计算机程序产品的形式,计算机程序产品包括计算机可执行指令,例如程序代码,其可以运行于结合适当操作系统的任何适当计算环境上,操作系统例如是Microsoft Windows、Linux或UNIX操作系统。本发明范围内的实施例还可以包括程序产品,程序产品包括计算机可读介质用于承载或存储计算机可执行指令或数据结构于其上。这样的计算机可读介质可以是任何能够通过通用或专用计算机访问的可用介质。例如,这样的计算机可读介质可以包括RAM、ROM、EPROM、EEPROM、CD-ROM、磁盘存储器或其他存储装置,或能够用于以计算机可执行指令形式承载或存储期望的程序代码并可以由通用或专用计算机访问的任何其他介质。
应当指出,上述本发明的实施例仅仅是出于例示的目的。尽管已经结合其具体实施例描述了本发明,本领域的技术人员将认识到,很多修改都是可能的而在实质上不脱离这里所描述主题的教导和优点。可以做出其他替代、修改和变化而不脱离本发明的精神。

Claims (15)

1.一种提取命名实体的计算机实施的方法,包括:
识别文档文集中的命名实体,并利用一些现有资源人工或自动形成种子实体集合;
构造命名实体图,以发现任何给定命名实体对之间的相同类型概率;
扩展所述种子实体集合;以及
在所述命名实体图上执行种子实体的置信度传播。
2.根据权利要求1所述的方法,其中命名实体图中的每个节点都是命名实体,并且每条边反映了端节点(命名实体)与起始节点(命名实体)是相同类型的条件概率。
3.根据权利要求1所述的方法,其中构造命名实体图包括:
为每个命名实体创建语言模型;
确定每个给定命名实体对之间的条件概率,其中每个命名实体都具有其自己的语言模型;以及
利用具有其对应条件概率的所有命名实体构造所述命名实体图。
4.根据权利要求3所述的方法,其中确定每个给定命名实体对之间的条件概率基于其KL-距离。
5.根据权利要求3所述的方法,在图构造之前还包括如下步骤:
针对每个命名实体,确定所述命名实体和其余命名实体之间的边;以及
针对所述命名实体和其余命名实体之间的每个边确定条件概率。
6.根据权利要求5所述的方法,其中仅使用条件概率高于预定阈值的边来构造所述图。
7.根据权利要求5所述的方法,还包括使用simhash过滤掉条件概率低于预定阈值的边。
8.根据权利要求1所述的方法,其中所述置信度传播导致获得针对目标实体的置信度值和概率值。
9.根据权利要求8所述的方法,其中使用预定阈值概率值来确定所述目标实体是否是命名实体。
10.根据权利要求1所述的方法,其中所述命名实体是通过基于排列的识别方法识别的。
11.根据权利要求1所述的方法,其中所述文档文集是从储存库获得的。
12.根据权利要求1所述的方法,其中所述储存库是有组织的数据库。
13.一种系统,包括:
处理器;以及
耦合到所述处理器的存储器,其中所述存储器包括指令,用于:
识别文档文集中的命名实体以形成种子实体集合;
构造命名实体图,以发现任何给定命名实体对之间的相同类型概率;
扩展所述种子实体集合;以及
在所述命名实体图上执行种子实体的置信度传播。
14.一种计算机程序,包括计算机程序装置,当所述程序运行于计算机上时,所述计算机程序装置适于执行权利要求1的所有步骤。
15.根据权利要求14所述的计算机程序,实现于计算机可读介质上。
CN2010800664731A 2010-04-27 2010-04-27 提取命名实体的方法 Pending CN102844755A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/072235 WO2011134141A1 (en) 2010-04-27 2010-04-27 Method of extracting named entity

Publications (1)

Publication Number Publication Date
CN102844755A true CN102844755A (zh) 2012-12-26

Family

ID=44860754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800664731A Pending CN102844755A (zh) 2010-04-27 2010-04-27 提取命名实体的方法

Country Status (3)

Country Link
US (1) US20130204835A1 (zh)
CN (1) CN102844755A (zh)
WO (1) WO2011134141A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824115A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN105205075A (zh) * 2014-06-26 2015-12-30 中国科学院软件研究所 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
CN106951526A (zh) * 2017-03-21 2017-07-14 北京邮电大学 一种实体集扩展方法及装置
CN111488467A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理知识图谱的构建方法、装置、存储介质及计算机设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012061983A1 (en) * 2010-11-10 2012-05-18 Hewlett-Packard Development Company, L.P. Seed set expansion
US10965775B2 (en) * 2012-11-20 2021-03-30 Airbnb, Inc. Discovering signature of electronic social networks
US9501466B1 (en) * 2015-06-03 2016-11-22 Workday, Inc. Address parsing system
US11669692B2 (en) 2019-07-12 2023-06-06 International Business Machines Corporation Extraction of named entities from document data to support automation applications
CN110399452A (zh) * 2019-07-23 2019-11-01 福建奇点时空数字科技有限公司 一种基于实例特征建模的命名实体列表生成方法
CN111079435B (zh) * 2019-12-09 2021-04-06 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1910573A (zh) * 2003-12-31 2007-02-07 新加坡科技研究局 用来识别并分类命名实体的系统
US20070124291A1 (en) * 2005-11-29 2007-05-31 Hassan Hany M Method and system for extracting and visualizing graph-structured relations from unstructured text
US20080059442A1 (en) * 2006-08-31 2008-03-06 International Business Machines Corporation System and method for automatically expanding referenced data
US20100185644A1 (en) * 2009-01-21 2010-07-22 Microsoft Corporatoin Automatic search suggestions from client-side, browser, history cache

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678415B1 (en) * 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
US7289956B2 (en) * 2003-05-27 2007-10-30 Microsoft Corporation System and method for user modeling to enhance named entity recognition
US20060009966A1 (en) * 2004-07-12 2006-01-12 International Business Machines Corporation Method and system for extracting information from unstructured text using symbolic machine learning
US20080256065A1 (en) * 2005-10-14 2008-10-16 Jonathan Baxter Information Extraction System
US20070150802A1 (en) * 2005-12-12 2007-06-28 Canon Information Systems Research Australia Pty. Ltd. Document annotation and interface
US7698294B2 (en) * 2006-01-11 2010-04-13 Microsoft Corporation Content object indexing using domain knowledge
US7519613B2 (en) * 2006-02-28 2009-04-14 International Business Machines Corporation Method and system for generating threads of documents
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US7680858B2 (en) * 2006-07-05 2010-03-16 Yahoo! Inc. Techniques for clustering structurally similar web pages
US8495042B2 (en) * 2007-10-10 2013-07-23 Iti Scotland Limited Information extraction apparatus and methods
WO2009061399A1 (en) * 2007-11-05 2009-05-14 Nagaraju Bandaru Method for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US8019708B2 (en) * 2007-12-05 2011-09-13 Yahoo! Inc. Methods and apparatus for computing graph similarity via signature similarity
WO2009094672A2 (en) * 2008-01-25 2009-07-30 Trustees Of Columbia University In The City Of New York Belief propagation for generalized matching
US8645123B2 (en) * 2008-10-27 2014-02-04 Microsoft Corporation Image-based semantic distance
US8560485B2 (en) * 2009-02-26 2013-10-15 Fujitsu Limited Generating a domain corpus and a dictionary for an automated ontology
CN101625695B (zh) * 2009-08-20 2012-07-04 中国科学院计算技术研究所 Web视频页面的复杂命名实体的抽取方法及其系统
US20110072025A1 (en) * 2009-09-18 2011-03-24 Yahoo!, Inc., a Delaware corporation Ranking entity relations using external corpus
US9092424B2 (en) * 2009-09-30 2015-07-28 Microsoft Technology Licensing, Llc Webpage entity extraction through joint understanding of page structures and sentences
US8515975B1 (en) * 2009-12-07 2013-08-20 Google Inc. Search entity transition matrix and applications of the transition matrix
US8504490B2 (en) * 2010-04-09 2013-08-06 Microsoft Corporation Web-scale entity relationship extraction that extracts pattern(s) based on an extracted tuple

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1910573A (zh) * 2003-12-31 2007-02-07 新加坡科技研究局 用来识别并分类命名实体的系统
US20070124291A1 (en) * 2005-11-29 2007-05-31 Hassan Hany M Method and system for extracting and visualizing graph-structured relations from unstructured text
CN101305366A (zh) * 2005-11-29 2008-11-12 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
US20080059442A1 (en) * 2006-08-31 2008-03-06 International Business Machines Corporation System and method for automatically expanding referenced data
US20100185644A1 (en) * 2009-01-21 2010-07-22 Microsoft Corporatoin Automatic search suggestions from client-side, browser, history cache

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824115A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN103824115B (zh) * 2014-02-28 2017-07-21 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN105205075A (zh) * 2014-06-26 2015-12-30 中国科学院软件研究所 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
CN105205075B (zh) * 2014-06-26 2018-12-07 中国科学院软件研究所 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
CN106951526A (zh) * 2017-03-21 2017-07-14 北京邮电大学 一种实体集扩展方法及装置
CN106951526B (zh) * 2017-03-21 2020-08-07 北京邮电大学 一种实体集扩展方法及装置
CN111488467A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理知识图谱的构建方法、装置、存储介质及计算机设备
CN111488467B (zh) * 2020-04-30 2022-04-05 北京建筑大学 地理知识图谱的构建方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
WO2011134141A1 (en) 2011-11-03
US20130204835A1 (en) 2013-08-08

Similar Documents

Publication Publication Date Title
CN102844755A (zh) 提取命名实体的方法
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
Kolda et al. Higher-order web link analysis using multilinear algebra
US7853596B2 (en) Mining geographic knowledge using a location aware topic model
Li et al. Cross-domain co-extraction of sentiment and topic lexicons
CN109508414B (zh) 一种同义词挖掘方法及装置
JP5340751B2 (ja) 文書処理装置および文書処理方法
US8918348B2 (en) Web-scale entity relationship extraction
US11709999B2 (en) Method and apparatus for acquiring POI state information, device and computer storage medium
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
US9697475B1 (en) Additive context model for entity resolution
JP6176017B2 (ja) 検索装置、検索方法、およびプログラム
JP6216467B2 (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
CN106227714A (zh) 一种基于人工智能的获取生成诗词的关键词的方法和装置
CN102314440B (zh) 利用网络维护语言模型库的方法和系统
Alguliev et al. Formulation of document summarization as a 0–1 nonlinear programming problem
CN106095912A (zh) 用于生成扩展查询词的方法和装置
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
KR20160112248A (ko) 잠재 키워드 생성 방법 및 장치
GB2569858A (en) Constructing content based on multi-sentence compression of source content
Li et al. Neural Chinese address parsing
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
JP7388256B2 (ja) 情報処理装置及び情報処理方法
KR20120079630A (ko) 멀티 모달리티 데이터 색인 및 검색 방법, 그 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20170503

AD01 Patent right deemed abandoned