CN102054029A - 一种基于社会网络和人名上下文的人物信息消歧处理方法 - Google Patents

一种基于社会网络和人名上下文的人物信息消歧处理方法 Download PDF

Info

Publication number
CN102054029A
CN102054029A CN 201010593747 CN201010593747A CN102054029A CN 102054029 A CN102054029 A CN 102054029A CN 201010593747 CN201010593747 CN 201010593747 CN 201010593747 A CN201010593747 A CN 201010593747A CN 102054029 A CN102054029 A CN 102054029A
Authority
CN
China
Prior art keywords
information
name
personage
document
community network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010593747
Other languages
English (en)
Inventor
刘远超
刘铭
王晓龙
刘秉权
林磊
单丽莉
孙承杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN 201010593747 priority Critical patent/CN102054029A/zh
Publication of CN102054029A publication Critical patent/CN102054029A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于社会网络和人名上下文的人物信息消歧处理方法,本发明涉及一种互联网人物信息的消歧处理方法。它解决了现有技术的搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合的问题。用于网络人物信息检索。它包括下述步骤:一、用户输入一个要检索的人名,利用搜索引擎完成检索,利用下载软件把检索到的网页下载到本地计算机;二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理,形成文档;三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。

Description

一种基于社会网络和人名上下文的人物信息消歧处理方法
技术领域
本发明涉及一种互联网人物信息的消歧处理方法。
背景技术
由于通用搜索引擎对垂直领域相关知识的检索结果远未达到人们的预期,垂直搜索引擎技术应运而生。命名实体的研究作为垂直搜索引擎技术的核心,其研究也逐渐热门起来。命名实体是文本中承载信息的重要语言单位。实体概念在文本中的引用(entity mention,也可称为指称项)可以有三种形式:命名性指称、名词性指称和代词性指称。围绕命名实体有一系列的研究任务,例如:命名实体的识别、排歧、属性抽取、关系抽取等。其中,命名实体识别任务是识别出文本中实体概念的命名性指称项,并标明其类别(例如人名、地名、机构名、产品名等);命名实体排歧解决的是一个命名性指称项指称多个实体概念的问题以及多个命名性指称项指称同一个实体概念的问题。
利用搜索引擎检索人物信息是互联网用户的主要活动之一,然而现实世界中,多个人物共用一个人名是很普遍的现象,根据国家语委1989年对第三次全国人口普查资料进行的抽样调查,单名重名率为67.7%,双名重名率为32.4%,这导致搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合。例如,Google检索“王刚”返回的前10个结果中就有“国家著名演员”、“中央政治局委员”、“西北工业大学副教授”、“山东黄金篮球队队员”、“建筑师”、“中国作家协会会员”等六位不同实体人物。虽然现在有些系统能对检索结果进行聚类处理,例如Bbmao、人立方等,但它们都把人名当成普通词汇进行处理,聚类结果的标签也是这个人名相关的一些词汇,没有对人名的重名结果进行区分。如在人立方六度空间中搜索“马二磊”和“刘德华”的关系时,系统会给出通过“崔青”,“杨臣刚”建立联系。因此有必要按照文档中出现的某个指定的人名所指向的人进行聚类。最后,在每个类中,所有指定的人名都必须是指向现实生活中的同一个人,最终形成的结果简单、精炼、美观,使用户更快、更方便的得到所需搜索的人物信息。但现有技术达不到上述要求。
发明内容
本发明的目的是提供一种基于社会网络和人名上下文的人物信息消歧处理方法,以解决现有技术的搜索引擎对某一特定人名的检索结果往往是共享这一人名的不同人物相关网页的混合的问题。它包括下述步骤:一、用户输入一个要检索的人名,利用搜索引擎完成检索,利用下载软件把检索到的网页下载到本地计算机;二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理,形成文档;三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。
由于本发明把检索到的网页进行了正文提取、分词和词性标注以及分类、聚类等处理,最终确定了实体人物与人物领域信息的对应关系并且显示出每个实体人物存在的社会网络,从而每个实体人物所对应的相关网页都能够被区分开,因而实现了人物信息的排歧处理。
附图说明
图1是本发明的整体原理示意图,图2是已基于人物领域信息的预分类示意图,图3是基于社会网络和上下文信息的文档处理示意图。
具体实施方式
具体实施方式一:本实施方式包括下述步骤:一、用户输入一个要检索的人名,利用搜索引擎,如Google API,(即谷歌公司提供的应用编程接口)完成检索,把检索到的网页下载到本地计算机;二、对上述网页分别进行正文提取、分词和词性标注处理,形成文档;所述分词即将每句话切分为具有独立意义的词条,词性标注是指同时标记每个词的如名词、动词等词性,分词和词性标注可分别采用广泛使用的正向最大匹配方法及N元文法等。三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。
具体实施方式二:本实施方式与实施方式一的不同点是在第三步骤中利用人物领域信息进行分类是这样进行的:基于人物领域信息进行预分类,将人物信息分为文娱、行政、军事、科教、体育、医疗、经济等七大类,对每个类,手工标注若干篇代表性文档,而后提取每个领域类别的特征信息,形成一个领域特征库,那么利用SVM进行文档分类处理,简单地把现实中的人物进行分类。这样,一个类型中的人物就和其他类型中的人物分开了,他们之间就没有可比性了,后续只要处理同一个领域类别中的人物信息就可以了,对同一个类别中的人物进行聚类处理,从而最终实现人物信息的排歧处理。
具体实施方式三:本实施方式与实施方式一的不同点是在第三步骤中利用社会网络和上下文信息对人物领域信息进行聚类处理是这样进行的:文档中出现的其他人物信息的上下文信息能很好的显示了人物的一些用于区别他人的特有属性。文档中共现的人名组成其社会网络,上下文信息构成其社会属性特征。检索人名A,如果文档D1中出现人名A和B,文档D2中也出现人名A和B,那么文档D1和D2就是说的同一个现实中的人物实体,那么他们对应于同一个类别,否则D2中出现人名A和C,则认为他们为不同的人物类别。并且在处理过程中,其社会网络是在不断的扩大的,即如果文档D1中出现人名A、B和C,文档D2中出现人名A、B和D,那么文档D1和文档D2的社会网络都将是A、B、C、D。但是在利用社会网络处理过程中会出现一篇文档中只出现一个名字,那么社会网络处理方法就会失效,这时利用上下文信息,主要是对其社会属性如职称等信息进行匹配进行处理,如果文档D4中没有出现其他共现人名的话,如果文档D3和文档D4中人名上下文信息匹配度高的话,就认为D3和D4是同一个类别,并且这样可能把D3的社会网络传递给了D4。
具体实施方式四:据中华人民共和国国家统计局对于社会各个行业的划分标准,本实施方式将“人物”划分为七个类别,分别是文娱、行政、军事、科教、体育、医疗、经济。本实施方式根据文档词频(DF)、信息增益(IG)、互信息(MI)、X2统计(CHI)、交叉熵法和优势率等统计量获得文档特征,然后采用基于属性论的文本相似度方法来进行人物信息的预分类处理。
每个领域人物信息的特征库是已知的一个文本信息向量,利用目标文本向量与之计算相似度,每个领域都计算一次,哪个相似度大就将其归为哪一个类别。
知道已知文本信息向量为d=(t1w1,t2w2...tiwi...tnwn)其中t为特征词,w为其对应的权重,在上面进行特征库构建的过程中,其中n值为2000,选取词的权重为词频,而根据属性论的方法,其权重为0-1之间的一个值,所以在这里对权重进行处理;
w i ′ = w i / Σ j = 1 n w j - - - ( 1 )
则形成新的向量空间d=(t1w′1,t2w′2...tiw′i...tnw′n)。并且根据权重信息形成一个2000维的向量,T1=(w′1,w′2...w′i...w′2000)。
对目标文本信息,先分词,而后进行停用词过滤,每个词的权重先为其词频,进而利用上述公式转化其权重,最终形成一个向量d′=(t′1w1,t′2w2...t′iwi...t′mwm),其中m为其维数。对于这个向量进行扩展,形成一个2000维的向量,遍历向量空间d,如果在位置i处,在向量d′中查到词ti,则置新向量T2的i位置的值为wi,如果没有找到则在i处其值为0。
利用重心剖析模型,从而计算两个向量之间的距离。经过这七个特征领域库中的七个向量空间之间的计算,比较哪个相似度大,就把这个文本归于那一个类别中。
接下来结合图1、图2和图3举一个具体的例子说明本发明的人名消歧,本例子中消歧的结果为将人物界定为记者和非记者两个类别。
社会网络库的构建:在检索一个名字的过程中,针对检索的人名信息把爬取的文档分为记者信息文档和非记者信息文档,对于记者信息文档,就不进行社会网络的预处理。在非记者信息文档中,经过分词,词性标注,利用命名实体识别,把出现的记者名字剔除出去,识别出其他的名字,提取出来,形成一个向量空间。对于文档di,形成向量空间,在这个向量空间中每个元素不重复。
Ri={name1,name2,name3...namen-1,namen}            (2)
为了判断一个文档中出现的名字是否是name的社会网络,本实施方式设定当这个名字与name共现为两次的时候,认定他们之间具有关系,即认定这个名字是name的社会网络中的一员。下面是对非记者信息文档形成的向量空间进行过滤,对于Ri中出现的一个名字namej,如果他在其他向量空间中出现,则证明名字namej与name共现在两次以上,就认为名字namej是name的社会网络,如果没有出现,则认为不是name的社会网络,则向量Ri中把名字namej剔除掉。最终形成每篇文档对应一个向量空间,则每个向量空间是其name的一个社会网络特征库。
人物社会属性库的构建:通常情况下,上下文的选取是基于核心词左右一定范围进行的,这个固定的范围被称为“窗口”,表示为[a,b],即核心词语左a个位置和右b个位置。在非记者信息文档中,抽取其上下文信息作为其社会属性,并且在名字前后对称抽取。在信息分析过程中发现,其社会属性,如职称等信息一般都为名词性短语,所以在特征库建立过程中都是抽取的名词性短语。对于每篇非记者信息文档,抽取出一系列词语构成一个向量空间Q,又因为利用上下文信息对人物信息排歧是在社会网络信息处理之后,所以已有简单的类别信息,对于同一个类别文档,对其形成的向量Q进行合并处理,最终形成一个类别对应一个向量,即类别i形成Qi=Q1∪Q2∪Q3∪......Qn其中Q1Q2Q3......Qn为这个类型中每个文档对应的向量,Qi即为其社会属性特征库。
基于社会网络的人物信息排歧:假定每个文档di,其对应的社会网络向量空间为Ri,共有n个。最终形成一个个类别,这时候每个类别也对应一个社会网络,组成一个社会网络向量空间。现实生活中的文档分类的最终结果集合保存到Q中。
其算法思想如下:
初始化C={d1,d2,.....dn},Q=φ
1.While C≠φ
2.从C中取出一个文档dk,thenC=C-{dk},Q={C1,C2,......Cm}(m≤n)
3.if 
Figure BDA0000038982790000051
使得|Rk∩Ri|>=λ
4.then Ri=Rk∪Ri,Ci=Ci∪{d}
5.else Q={C1,C2,......Cm,Cm+1}(m+1≤n)其中Cm+1={dk}
6.end if
7.end while
其中λ为设定的共现人名的一个阈值,可以设定为2或者3都可以,即当设定阈值为2时,即如果两篇文档中,如果除要检索的人名外还有一个相同的人名的时候就认定这两个文档指的是一个共同的人物实体,此时把文档归为同一个类中,并且把其社会网络加入其类别中,这样也体现了社会网络的传递性。
基于社会属性特征库的信息排歧:因为属性库提取的信息是提取的地域信息,有时一个文档中在检索的人名前出现的只有一个地域名称,所以在这里直接进行判断,文档A和文档B对应的社会属性库分别为Q1和Q2,如果Q1∩Q2≠φ,则认定文档A和B指定是同一个人物实体,但是在这里,其社会属性库没有进行合并,从而把文档进行归类,只是因为在这里一篇文档中可能出现其他记者信息报道的地域信息,会产生级联错误,故此这里对其社会属性库不进行扩展。其算法思想如下:记者信息文档C={d1d2......dn},每个文档di抽取出来的社会属性即地域信息为Ri,最终归类之后的集合为Q
初始化:C={d1d2......dn},Q=φ
1.While C≠φ
2.从C中取出一个文档dk,then C=C-{dk},Q={C1,C2,......Cm}(m≤n)
3.if 
Figure BDA0000038982790000052
使得Rk∩Rj≠φ
4.then Ci=Ci∪{d}
5.else Q={C1,C2,......Cm,Cm+1}(m+1≤n)其中Cm+1={dk}
6.end if
7.end while
对非记者信息文档的处理是在利用社会网络处理结果之上进行的,所以在这里处理过程中,已经有简单的类别归类。并且在利用上下文信息进行属性库构建的过程中,其窗口的大小选择的不同,对其方法设定的阈值也有不同的变化。本实施方式将a和b都取2,即人物名字前后各取两个名词性短语作为其社会属性,在判断的时候利用其社会属性库的交集,如果其值大于等于2则判断两个文档指向的是同一个人物实体,把他们进行归类处理,这时候不进行属性库的扩展,以免在属性抽取时产生的错误产生级联,影响其准确率问题。

Claims (4)

1.一种基于社会网络和人名上下文的人物信息消歧处理方法,其特征在于它包括下述步骤:一、用户输入一个要检索的人名,利用搜索引擎完成检索,利用下载软件把检索到的网页下载到本地计算机;二、对上述网页分别进行正文提取处理、分词处理和词性标注的处理,形成文档;三、利用人物领域信息先对文档进行分类,再利用社会网络和上下文信息对人物领域信息进行聚类处理,最终显示出每个人物领域信息与实体人物之间的对应关系,并且显示出每个实体人物存在的社会网络。
2.根据权利要求1所述的一种基于社会网络和人名上下文的人物信息消歧处理方法,其特征在于在第三步骤中利用人物领域信息进行分类是这样进行的:基于人物领域信息进行预分类,将人物信息分为文娱、行政、军事、科教、体育、医疗、经济七大类,根据手工标注的语料,提取每个领域类别的特征信息,形成一个领域特征库,利用SVM进行文档分类处理。
3.根据权利要求2所述的一种基于社会网络和人名上下文的人物信息消歧处理方法,其特征在于第三步骤中利用人物领域信息进行分类是这样进行的:根据文档词频、信息增益、互信息、X2统计、交叉熵法和优势率这些统计量获得文档特征,然后采用基于属性论的文本相似度方法来进行人物信息的预分类处理;每个领域人物信息的特征库是已知的一个文本信息向量,利用目标文本向量与之计算相似度,每个领域都计算一次,哪个相似度大就将其归为哪一个类别。
4.根据权利要求1所述的一种基于社会网络和人名上下文的人物信息消歧处理方法,其特征在于在第三步骤中利用社会网络和上下文信息对人物领域信息进行聚类处理是这样进行的:文档中出现的其他人物信息及人名附件的上下文信息能很好的显示了人物的一些用于区别他人的特有属性。文档中共现的人名组成其社会网络,上下文信息构成其社会属性特征。
CN 201010593747 2010-12-17 2010-12-17 一种基于社会网络和人名上下文的人物信息消歧处理方法 Pending CN102054029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010593747 CN102054029A (zh) 2010-12-17 2010-12-17 一种基于社会网络和人名上下文的人物信息消歧处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010593747 CN102054029A (zh) 2010-12-17 2010-12-17 一种基于社会网络和人名上下文的人物信息消歧处理方法

Publications (1)

Publication Number Publication Date
CN102054029A true CN102054029A (zh) 2011-05-11

Family

ID=43958351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010593747 Pending CN102054029A (zh) 2010-12-17 2010-12-17 一种基于社会网络和人名上下文的人物信息消歧处理方法

Country Status (1)

Country Link
CN (1) CN102054029A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN102880623A (zh) * 2011-07-13 2013-01-16 富士通株式会社 同名人物搜索方法及系统
CN102999538A (zh) * 2011-09-08 2013-03-27 富士通株式会社 人物搜索方法和设备
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法
CN103577462A (zh) * 2012-08-02 2014-02-12 北京百度网讯科技有限公司 一种文档分类方法及装置
WO2014036975A1 (zh) * 2012-09-10 2014-03-13 腾讯科技(深圳)有限公司 社交网络搜索结果展示方法、装置及存储介质
CN104199828A (zh) * 2014-07-26 2014-12-10 复旦大学 一种基于事务日志数据的社会网络构建方法
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN105868347A (zh) * 2016-03-28 2016-08-17 南京邮电大学 一种基于多步聚类的重名消歧方法
CN106708922A (zh) * 2016-10-21 2017-05-24 天津海量信息技术股份有限公司 一种基于海量数据的人物关系图谱分析方法
CN107908749A (zh) * 2017-11-17 2018-04-13 哈尔滨工业大学(威海) 一种基于搜索引擎的人物检索系统及方法
CN108255846A (zh) * 2016-12-29 2018-07-06 北京赛时科技有限公司 一种辨别同名作者的方法和装置
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN111241283A (zh) * 2020-01-15 2020-06-05 电子科技大学 一种科研学者画像的快速表征方法
CN113434658A (zh) * 2021-08-25 2021-09-24 西安热工研究院有限公司 火电机组运行问答生成方法、系统、设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446943A (zh) * 2008-12-10 2009-06-03 苏州大学 一种中文处理中基于语义角色信息的指代消解方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446943A (zh) * 2008-12-10 2009-06-03 苏州大学 一种中文处理中基于语义角色信息的指代消解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《计算机与数字工程》 20100831 杨欣欣等 一种基于改进的K_means算法的人名消歧系统的设计与实现 第10-12、17页 1-4 第38卷, 第8期 2 *
《计算机学报》 20090731 郎君等 基于社会网络的人名检索结果重名消解 第1365-1374页 1-4 第32卷, 第7期 2 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880623B (zh) * 2011-07-13 2015-09-09 富士通株式会社 同名人物搜索方法及系统
CN102880623A (zh) * 2011-07-13 2013-01-16 富士通株式会社 同名人物搜索方法及系统
CN102999538A (zh) * 2011-09-08 2013-03-27 富士通株式会社 人物搜索方法和设备
CN102999538B (zh) * 2011-09-08 2015-09-30 富士通株式会社 人物搜索方法和设备
CN103577462B (zh) * 2012-08-02 2018-10-16 北京百度网讯科技有限公司 一种文档分类方法及装置
CN103577462A (zh) * 2012-08-02 2014-02-12 北京百度网讯科技有限公司 一种文档分类方法及装置
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
WO2014036975A1 (zh) * 2012-09-10 2014-03-13 腾讯科技(深圳)有限公司 社交网络搜索结果展示方法、装置及存储介质
CN103235772B (zh) * 2013-03-08 2016-06-08 北京理工大学 一种文本集人物关系自动提取方法
CN103235772A (zh) * 2013-03-08 2013-08-07 北京理工大学 一种文本集人物关系自动提取方法
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN104199828A (zh) * 2014-07-26 2014-12-10 复旦大学 一种基于事务日志数据的社会网络构建方法
CN104199828B (zh) * 2014-07-26 2017-07-07 复旦大学 一种基于事务日志数据的社会网络构建方法
CN105868347A (zh) * 2016-03-28 2016-08-17 南京邮电大学 一种基于多步聚类的重名消歧方法
CN106708922A (zh) * 2016-10-21 2017-05-24 天津海量信息技术股份有限公司 一种基于海量数据的人物关系图谱分析方法
CN108255846A (zh) * 2016-12-29 2018-07-06 北京赛时科技有限公司 一种辨别同名作者的方法和装置
CN107908749A (zh) * 2017-11-17 2018-04-13 哈尔滨工业大学(威海) 一种基于搜索引擎的人物检索系统及方法
CN110083817A (zh) * 2018-01-25 2019-08-02 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN110083817B (zh) * 2018-01-25 2023-09-12 华为技术有限公司 一种命名排歧方法、装置、计算机可读存储介质
CN111241283A (zh) * 2020-01-15 2020-06-05 电子科技大学 一种科研学者画像的快速表征方法
CN111241283B (zh) * 2020-01-15 2023-04-07 电子科技大学 一种科研学者画像的快速表征方法
CN113434658A (zh) * 2021-08-25 2021-09-24 西安热工研究院有限公司 火电机组运行问答生成方法、系统、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN102054029A (zh) 一种基于社会网络和人名上下文的人物信息消歧处理方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN108197163B (zh) 一种基于裁判文书的结构化处理方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN105824959B (zh) 舆情监控方法及系统
CN105653706B (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN104199972B (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN106598944B (zh) 一种民航安保舆情情感分析方法
Yuan et al. Enhancing naive bayes with various smoothing methods for short text classification
CN111143479A (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN103455487B (zh) 一种搜索词的提取方法及装置
Lin et al. An integrated approach to extracting ontological structures from folksonomies
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
CN103823893A (zh) 一种基于用户评论的产品检索方法及产品检索系统
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN106663117A (zh) 构造支持提供探索性建议的图
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN102750316A (zh) 基于语义共现模型的概念关系标签抽取方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN103593474A (zh) 基于深度学习的图像检索排序方法
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110511