CN109359249B - 基于学者科研成果挖掘的学者精准定位方法及装置 - Google Patents
基于学者科研成果挖掘的学者精准定位方法及装置 Download PDFInfo
- Publication number
- CN109359249B CN109359249B CN201811149733.6A CN201811149733A CN109359249B CN 109359249 B CN109359249 B CN 109359249B CN 201811149733 A CN201811149733 A CN 201811149733A CN 109359249 B CN109359249 B CN 109359249B
- Authority
- CN
- China
- Prior art keywords
- information
- student
- result
- scientific research
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Abstract
本发明公开了一种基于学者科研成果挖掘的学者精准定位方法及装置,其中,该方法包括:对学者科研成果p中文本信息进行抽取以获取关键信息,并构建结构化信息;根据关键信息和结构化信息对学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造学者科研成果p相关结构化的隐含信息O;对结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据隐含信息O和不同类型地图API特点,获取最终结果R;根据最终结果R和矩阵U获取A→R映射,并获取学者科研成果中集合A的每个学者的地理位置信息,输出学者科研成果p中所有作者的定位信息。该方法可以通过深度挖掘学者科研成果的文本信息,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
Description
技术领域
本发明涉及定位技术领域,特别涉及一种基于学者科研成果挖掘的学者精准定位方法及装置。
背景技术
学者科研成果的特定性质决定了其高可靠性,而学者的科研成果蕴含了学者的时空相关信息,根据学者的科研成果实现对学者的定位提供了可能性,根据复杂文本(如学者隶属关系的信息)实现精准的定位一直以来是一个难题,已有的多种方法在实现精准定位上出现多方面的不一致。
学者的科研成果具有真实性、准确性、非匿名性、严谨等一系列的特点,因此,其信息具有相当高的可靠性,学者的科研成果蕴含了学者在特定时间、特定地点、从事特定方向的科研活动信息。就一般的论文、专利等科研成果来讲,会包含学者的姓名、所在单位、时间和研究的内容等基本信息。其中,对学者科研论文信息进行抽取等可以完成学者时间空间的关系的关联,在此基础上使用地图API完成学者所属单位和地理位置信息的映射即可实现学者的定位。但是,由于学者科研成果文本信息的非结构化、写法多样等原因,导致抽取单一、语义明确的单位信息存在相当大的困难。使得所获取的学者隶属信息往往具有信息量相对较大、无用信息多、重点信息不突出、干扰信息多、信息缺失、歧义性大、多语言等一系列问题,都使得从学者的科研成果中实现对学者的精准定位变得困难。
传统的地图在实现字符串到地理位置信息的映射中做了很多工作,如谷歌实现了将来自用户的、用于地图搜索的输入条目解析成用于指示输入搜索条目中的位置信息的位置部分相关的工作。百度将用户的输入语句进行切词,并在切词结果中提取与该用户需求相关的特定信息,然后再提取相应信息。奇虎根据用户输入的语句确定查询对应的查询样式,然后根据查询样式,确定查询的地图相关度分数,再根据地图相关分数,判断是否显示与查询相关的电子地图。腾讯通过统计兴趣点数据库内部地图数据出现频率及通过搜索引擎的查询结果数进行排序,提高了地图数据重要度的覆盖率和准确率。微软在多语言的查询上进行了转化和处理,提高了多语言环境下的处理准确率。
上述方法在一定程度上提高了用户输入查询得到的结果的准确性,但是,针对学者科研成果中学者隶属关系信息的特殊性没有进行考虑,导致相当部分的数据无法获得地理位置信息结果,获得的部分结果出现了较大的偏差。使用国内著名的科技大数据挖掘服务平台AMiner的论文数据进行测试,其中,结果显示,直接使用地图API对学者隶属关系信息进行地理位置信息映射的查全率为50%,正确率低于80%。
由于不同的地图在地址信息库的建设的差异性存在,使得地址收录的情况不一致、搜索关键字的权重不一样、搜索结果的顺序不一样等情况的出现。这使得在查询同一字符串时出现的结果出现差异,例如,以查询“西北大学”为例,分别调用百度地图和谷歌地图API,百度地图定位结果为:{"lng":108.9342237431768,"lat":34.25373435757479},谷歌地图定位结果为:{"lat":42.0564594,"lng":-87.67526699999999},其中,两者一个在中国境内,一个在美国境内,如果可以从论文中抽取出学者所在国别信息即可实现信息的正确化处理。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于学者科研成果挖掘的学者精准定位方法,该方法可以有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
本发明的另一个目的在于提出一种基于学者科研成果挖掘的学者精准定位装置。
为达到上述目的,本发明一方面实施例提出了一种基于学者科研成果挖掘的学者精准定位方法,包括以下步骤:对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,所述结构化信息包括所述学者科研成果中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U;根据所述关键信息和所述结构化信息对所述学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造所述学者科研成果p相关结构化的隐含信息O;对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果R;根据所述最终结果R和所述矩阵U获取A→R映射,并获取所述学者科研成果中集合A的每个学者的地理位置信息,输出所述学者科研成果p中所有作者的定位信息。
本发明实施例的基于学者科研成果挖掘的学者精准定位方法,通过深度挖掘学者科研成果的文本信息,构建具有地理指向性的隐含信息,然后通过自适应权重计算方法消除不同类型地图API返回的差异性结果,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
另外,根据本发明上述实施例的基于学者科研成果挖掘的学者精准定位方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,还包括:判断学者科研成果p是否为结构化的文本;如果是,则识别所述学者科研成果p的每个部分的类别,否则对所述学者科研成果p中文本信息进行抽取,并构建所述结构化信息。
进一步地,在本发明的一个实施例中,所述具有地理指向性的隐含信息包括所使用到的语言lang、邮政编码信息code、与所述集合B中重复或者有关联的信息。
进一步地,在本发明的一个实施例中,所述对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果进一步包括:对集合B做输入预处理,按照信息的重要程度做清洗、筛选和结构化整理;根据构造的字符串,使用多个不同类型的fm做结构化轮换查询,当查询结果为空的时,逐渐抛弃权重较低的字符串,直到通过地图API查询到结果;获取所述结果的差异性,并判断是否超过差异阈值;如果超过所述差异阈值,则进入基于具有地理指向性的隐含信息O的可靠性判断阶段,否则进入基于地图API特性选择阶段,以获取最终地址信息。
进一步地,在本发明的一个实施例中,其中,如果是具有地理指向性的隐含信息O在缩小范围去重之后的结果,则直接选中最后判断得到的结果;如果是基于地图API特性选择,则按照结果所在区域返回该地区地图可靠性最高的结果返回。
为达到上述目的,本发明另一方面实施例提出了一种基于学者科研成果挖掘的学者精准定位装置,包括:抽取模块,用于对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,所述结构化信息包括所述学者科研成果中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U;构造模块,用于根据所述关键信息和所述结构化信息对所述学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造所述学者科研成果p相关结构化的隐含信息O;获取模块,用于对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果R;定位模块,用于根据所述最终结果R和所述矩阵U获取A→R映射,并获取所述学者科研成果中集合A的每个学者的地理位置信息,输出所述学者科研成果p中所有作者的定位信息。
本发明实施例的基于学者科研成果挖掘的学者精准定位装置,通过深度挖掘学者科研成果的文本信息,构建具有地理指向性的隐含信息,然后通过自适应权重计算方法消除不同类型地图API返回的差异性结果,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
另外,根据本发明上述实施例的基于学者科研成果挖掘的学者精准定位装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,还包括:判断学者科研成果p是否为结构化的文本;如果是,则识别所述学者科研成果p的每个部分的类别,否则对所述学者科研成果p中文本信息进行抽取,并构建所述结构化信息。
进一步地,在本发明的一个实施例中,所述具有地理指向性的隐含信息包括所使用到的语言lang、邮政编码信息code、与所述集合B中重复或者有关联的信息。
进一步地,在本发明的一个实施例中,所述获取模块进一步用于对集合B做输入预处理,按照信息的重要程度做清洗、筛选和结构化整理,根据构造的字符串,使用多个不同类型的fm做结构化轮换查询,当查询结果为空的时,逐渐抛弃权重较低的字符串,直到通过地图API查询到结果,并获取所述结果的差异性,并判断是否超过差异阈值,其中,如果超过所述差异阈值,则进入基于具有地理指向性的隐含信息O的可靠性判断阶段,否则进入基于地图API特性选择阶段,以获取最终地址信息。
进一步地,在本发明的一个实施例中,其中,如果是具有地理指向性的隐含信息O在缩小范围去重之后的结果,则直接选中最后判断得到的结果;如果是基于地图API特性选择,则按照结果所在区域返回该地区地图可靠性最高的结果返回。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于学者科研成果挖掘的学者精准定位方法流程图;
图2是根据本发明具体实施例的基于学者科研成果挖掘的学者精准定位方法流程图;
图3是根据本发明一个实施例的基于学者科研成果挖掘的学者精准定位方法流程框图;
图4是根据本发明具体实施例的多地图API轮换查询图;
图5为根据本发明一个实施例的基于学者科研成果挖掘的学者精准定位装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于学者科研成果挖掘的学者精准定位方法及装置,首先将参照附图描述根据本发明实施例提出的基于学者科研成果挖掘的学者精准定位方法。
图1是本发明一个实施例的基于学者科研成果挖掘的学者精准定位方法流程图。
如图1所示,该基于学者科研成果挖掘的学者精准定位方法包括以下步骤:
在步骤S101中,对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,结构化信息包括学者科研成果中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U。
在步骤S102中,根据关键信息和结构化信息对学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造学者科研成果p相关结构化的隐含信息O。
在步骤S103中,对结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据隐含信息O和不同类型地图API特点,获取最终结果R。
进一步地,在本发明的一个实施例中,对集合B做输入预处理,按照信息的重要程度做清洗、筛选和结构化整理;根据构造的字符串,使用多个不同类型的fm做结构化轮换查询,当查询结果为空的时,逐渐抛弃权重较低的字符串,直到通过地图API查询到结果;获取结果的差异性,并判断是否超过差异阈值;如果超过差异阈值,则进入基于具有地理指向性的隐含信息O的可靠性判断阶段,否则进入基于地图API特性选择阶段,以获取最终地址信息。
其中,如果是具有地理指向性的隐含信息O在缩小范围去重之后的结果,则直接选中最后判断得到的结果;如果是基于地图API特性选择,则按照结果所在区域返回该地区地图可靠性最高的结果返回。
在步骤S104中,根据最终结果R和矩阵U获取A→R映射,并获取学者科研成果中集合A的每个学者的地理位置信息,输出学者科研成果p中所有作者的定位信息。
进一步地,在本发明的一个实施例中,判断学者科研成果p是否为结构化的文本;如果是,则识别学者科研成果p的每个部分的类别,否则对学者科研成果p中文本信息进行抽取,并构建结构化信息。
进一步地,在本发明的一个实施例中,具有地理指向性的隐含信息包括所使用到的语言lang、邮政编码信息code、与集合B中重复或者有关联的信息。
如图2所示,本发明实施例以学者科研论文为例,描述怎样通过学者的科研成果实现学者的定位,以及怎样通过基于学者科研成果挖掘的学者精准定位算法来实现学者科研成果到地理位置信息的精确映射。本发明实施例以一篇论文p为学者的科研成果,通过本算法中的技术实现对p的深度挖掘和对不同类型地图的充分利用,构建出p中作者集合A和地理位置信息集合R的映射,并输出。
具体地,输入一个学者科研成果的文本信息,如一篇论文p,步骤为:
步骤1:p的信息抽取与结构化。
对p中文本信息进行抽取,抽取出有用的关键信息,构建p中作者集合A、学者隶属关系信息集合B以及表示A→B的矩阵U等结构化信息。
步骤2:p中具有地理指向性的隐含信息挖掘。
在步骤1的基础上对p中具有地理指向性的隐含信息进行挖掘,构造出p的相关结构化的隐含信息O。
步骤3:基于多地图学者精准定位算法计算。
对步骤1中的B按照会对定位信息产生影响的重要程度做结构化整理,然后结合O、不同类型地图API特点等,根据算法做查询、结果可靠程度计算、输出结果计算等操作,输出最终结果R。
步骤4:结果R与A的映射。
根据R和U,完成A→R,获取p中A的每一个ai的地理位置信息,输出为该学者科研成果p中所有作者A的定位信息。
下面以具体实施例对本发明的基于学者科研成果挖掘的学者精准定位方法进行详细描述。
具体地,以一篇学者论文输入为例说明本发明实施例如何通过学者科研成果信息实现对学者的精准定位。其中,该论文为可读的文本信息,表示为p。并同时做如下的定义:该论文的作者的有序集合为A,其中作者按照顺序依次为a1,...,ai,..。p中作者的affiliation的有序集合为B,affiliation按照顺序依次为b1,...,bi,...,其中,A和B有着一定的对应关系,用一个0-1矩阵U表示,其行的序数与A中的元素一一对应,其列的序数与B中的元素一一对应。U的第i行第j列元素表示为uij,uij=1在表示第i个作者属于第j个机构,uij=0则表示第i个作者不属于第j个机构。
其中,在不使用本发明实施例的方法的情况下,直接调用不同的地图API的映射,使用某地图m(这里的m表示地图的名称)的API表示为fm,例如使用百度地图API表示为fbaidu、使用谷歌地图API表示为fgoogle、使用必应地图API表示为fbing等。将单一字符串(如b1)映射为地理位置信息的结果对应为rm,若输入为字符串数组(如B),则对应结果为Rm。本发明实施例表示为f0,该映射方法用到了前述fbaidu、fgoogle、fbing等的结果,f0对应的结果为r或R。则通过对f0的设计,完成通过对p中B→R的映射,从而实现对A的定位。
进一步地,为得到R,实现对p中A的定位,本发明的实施例设计了一种基于学者科研成果实现学者定位的方法,为达到R0在召回率和准确率上的提升,本发明实施例还设计了一种基于学者科研成果挖掘的学者精准定位算法。其中,基本思想如下:
基于学者科研成果实现学者定位的方法:通过对p中信息的抽取、结构化构建与隐含信息挖掘,建立A→B的映射关系,将B作为基于多地图的学者精准定位算法的输入,获得字符串到地理位置信息映射的结果,最后,在此基础上通过A与B的关系矩阵U完成p中A的定位。
基于学者科研成果挖掘的学者精准定位算法:在已有映射方法fm的基础上,对输入的B按照信息的重要程度做清洗、筛选和结构化整理(输入预处理),然后使用fm做结构化轮换查询,并充分利用这些地图API映射方法的特性和O,计算Rm的可靠程度,最后根据这些结果的可靠程度值的大小使用自适应权重计算方法计算出最后的地理位置映射结果R。其中,具体步骤为:
步骤1:p的信息抽取与结构化。
若p是结构化的文本,则只需要对该结构化文本的各个部分进行类型的识别即可,若p是非结构化的文本,则需要使用常规的常用技术和方法对p进行信息的抽取和结构化,如正则表达式(如“(?UNIVERSITY OF[\s\w]+)”表示提取“UNIVERSITY OF XXX”的单位的正则表达式)方法,最终,在此基础上构建A、B以及表示A→B的矩阵U等结构化信息。
步骤2:p中具有地理指向性的隐含信息进行挖掘。
其中,具有地理指向性是指论文中出现的可能会帮助我们判断作者所属地区的一些信息,例如,论文所使用到的语言lang、邮政编码信息code、与B中重复或者有关联的其他信息等生成集合O,表示为O={code,lang,...}。
步骤3:基于学者科研成果挖掘的学者精准定位算法,详情如图3所示。
输入预处理:对B做输入预处理,按照信息的重要程度做清洗、筛选和结构化整理,如一个affiliation为“Present address:Department of Health,Physical Educationand Recreation,Northern Michigan University,1401Presque Isle Avenue,Marquette,MI 49855,USA.dkane@nmu.edu”,根据正则表达式将无关信息“dkane@nmu.edu”、“Present address:”清除,根据多级关键词库构造按重要程度排序的字符串“Northern Michigan University,Department of Health,Physical Education andRecreation,1401 Presque Isle Avenue,Marquette,MI 49855,USA”。
多地图API轮换查询:如图4所示,根据前面构造的字符串,使用多个不同类型的fm做结构化轮换查询,当查询结果为空的时候,则逐渐抛弃权重较低的字符串,直到通过地图API查询到结果。例如,上述字符串查询顺序依次为“Northern Michigan University,Department of Health,Physical Education and Recreation,1401 Presque IsleAvenue,Marquette,MI 49855,USA”、...、“Northern Michigan University,Departmentof Health,Physical Education and Recreation”、“Northern Michigan University”。
结果差异性计算:由于不同的地图采用不同的编码方式,比如:谷歌地图和必应地图采用GCJ-02坐标,但百度地图采用BD-09坐标,则需要将BD-09坐标转换为GCJ-02坐标,然后再分别计算各个rm两两经度差的绝对值和维度差的绝对值之和。
差异阈值判断:设差异阈值为λ,一般情况下设置为0.001。当s>λ时,则认为不同地图API获取的结果存在重大的差异,进入基于具有地理指向性的隐含信息O的可靠性判断阶段,当s≤λ时,则认为使用不同地图API获取的结果不存在重大的差异,进入基于地图API特性选择阶段。
基于具有地理指向性的隐含信息O的可靠性判断:对根据隐含信息O的论文所使用到的语言lang、邮编信息code、与B中重复或者有关联的其他信息等对结果的可靠性权重进行判断,定义使用地图m的API的初始化权重为μm,初始化为0。当O中包含明确性地理指向性信息时其权重增加0.1,直到匹配完O中所有的信息,一般情况下会采用三个及以上的地图API,如百度地图、谷歌地图与必应地图,三个对应的权重为μbaidu、μgoogle和μbing,分别计算其其权重值,最终返回其权重值最终结果最高的结果。
基于地图API特性选择:不同的结果地图在地址信息库的构建和查询上各有优势,不同地图返回的不同区域的结果,因此可靠性也不一样。例如,若返回的地址信息在中国的范围内则rbaidu的可靠性更高,则将其作为首选结果。
最终地址信息:如果是具有地理指向性的隐含信息O在缩小范围去重之后的结果,则直接选中最后判断得到的结果,如果是基于地图API特性选择,则按照结果所在区域返回该地区地图可靠性最高的结果返回。
步骤4:结果R与A的映射。
根据得到的结果R和A→B的映射关系矩阵U,做简单的矩阵运算L=RU,实现A→R的映射,获得p中每个学者ai的地理位置信息。
具体地,在本发明实施例中,对国内著名的科技大数据挖掘服务平台AMiner上应用本方法对2.3亿篇论文的1.3亿学者进行定位,成功完成了大部分学者的定位,说明了本发明实施例的可行性。并且通过对数据集中的部分学者隶属关系信息实现精准定位实验来证明本方法的有效性和准确性。其中,情况如下:
第一组采用结合现有地图(如:百度地图、谷歌地图、必应地图和高德地图)的基于字符串的学者定位API轮番查询,以p中A所对应的B为输入,得到Rbaidu、Rgoogle、Rbing和Rgaode结果。
第二组对本发明实施例所提出的基于学者科研成果挖掘的学者精准定位方法来进行实验,充分利用论文中的隐含信息O、fbaidu、fgoogle、fbing、fgaode在地址信息库建设上的差异性、查询结果Rbaidu、Rgoogle、Rbing和Rgaode的重要程度等重要信息,最终计算得到结果R。
通过上述结果表明,在上述数据集上,第二组结果的召回率达到91.72%,准确率达到98.34%,比第一组召回率提高了40%以上,准确率提高了20%以上,充分说明了本发明实施例基于学者科研成果挖掘的学者精准定位方法在基于学者科研信息实现学者精准定位上的优越性。
本发明实施例的基于学者科研成果挖掘的学者精准定位方法,通过深度挖掘学者科研成果的文本信息,构建具有地理指向性的隐含信息,然后通过自适应权重计算方法消除不同类型地图API返回的差异性结果,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
其次参照附图描述根据本发明实施例提出的基于学者科研成果挖掘的学者精准定位装置。
图5是本发明一个实施例的基于学者科研成果挖掘的学者精准定位装置结构示意图。
如图5所示,该基于学者科研成果挖掘的学者精准定位装置10包括:抽取模块100、构造模块200、获取模块300和定位模块400。
其中,抽取模块100用于对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,结构化信息包括学者科研成果中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U。构造模块200用于根据关键信息和结构化信息对学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造学者科研成果p相关结构化的隐含信息O。获取模块300用于对结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据隐含信息O和不同类型地图API特点,获取最终结果R。定位模块400用于根据最终结果R和矩阵U获取A→R映射,并获取学者科研成果中集合A的每个学者的地理位置信息,输出学者科研成果p中所有作者的定位信息。本发明实施例的学者精准定位装置10可以深度挖掘学者科研成果的文本信息,构建具有地理指向性的隐含信息,然后通过自适应权重计算方法消除不同类型地图API返回的差异性结果,并计算得到最终有效、精确的定位结果。
进一步地,在本发明的一个实施例中,还包括:判断学者科研成果p是否为结构化的文本;如果是,则识别学者科研成果p的每个部分的类别,否则对学者科研成果p中文本信息进行抽取,并构建结构化信息。
进一步地,在本发明的一个实施例中,具有地理指向性的隐含信息包括所使用到的语言lang、邮政编码信息code、与集合B中重复或者有关联的信息。
进一步地,在本发明的一个实施例中,获取模块300进一步用于对集合B做输入预处理,按照信息的重要程度做清洗、筛选和结构化整理,根据构造的字符串,使用多个不同类型的fm做结构化轮换查询,当查询结果为空的时,逐渐抛弃权重较低的字符串,直到通过地图API查询到结果,并获取结果的差异性,并判断是否超过差异阈值,其中,如果超过差异阈值,则进入基于具有地理指向性的隐含信息O的可靠性判断阶段,否则进入基于地图API特性选择阶段,以获取最终地址信息。
其中,如果是具有地理指向性的隐含信息O在缩小范围去重之后的结果,则直接选中最后判断得到的结果;如果是基于地图API特性选择,则按照结果所在区域返回该地区地图可靠性最高的结果返回。
需要说明的是,前述对基于学者科研成果挖掘的学者精准定位方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于学者科研成果挖掘的学者精准定位装置,通过深度挖掘学者科研成果的文本信息,构建具有地理指向性的隐含信息,然后通过自适应权重计算方法消除不同类型地图API返回的差异性结果,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种基于学者科研成果挖掘的学者精准定位方法,其特征在于,包括以下步骤:
步骤1:对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,所述结构化信息包括所述学者科研成果p中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U;
步骤2:根据所述关键信息和所述结构化信息对所述学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造所述学者科研成果p相关结构化的隐含信息O;
步骤3:对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果R;
所述步骤3进一步包括:
对集合B做输入预处理,按照信息的重要程度做清洗、筛选和结构化整理;
根据构造的字符串,使用多个不同类型的fm做结构化轮换查询,当查询结果为空的时,逐渐抛弃权重较低的字符串,直到通过地图API查询到结果,其中,地图m的API表示为fm,m为地图的名称;
获取所述结果的差异性,并判断是否超过差异阈值;
如果超过所述差异阈值,则进入基于具有地理指向性的隐含信息O的可靠性判断阶段,否则进入基于地图API特性选择阶段,以获取最终地址信息;
步骤4:根据所述最终结果R和所述矩阵U获取A→R映射,并获取所述学者科研成果p中集合A的每个学者的地理位置信息,输出所述学者科研成果p中所有学者的定位信息。
2.根据权利要求1所述的基于学者科研成果挖掘的学者精准定位方法,其特征在于,还包括:
判断学者科研成果p是否为结构化的文本;
如果是,则识别所述学者科研成果p的每个部分的类别,否则对所述学者科研成果p中文本信息进行抽取,并构建所述结构化信息。
3.根据权利要求1所述的基于学者科研成果挖掘的学者精准定位方法,其特征在于,所述具有地理指向性的隐含信息包括所使用到的语言lang、邮政编码信息code、与所述集合B中重复的信息。
4.根据权利要求1所述的基于学者科研成果挖掘的学者精准定位方法,其特征在于,其中,
如果是具有地理指向性的隐含信息O在缩小范围去重之后的结果,则直接选中最后判断得到的结果;
如果是基于地图API特性选择,则按照结果所在地区返回该地区地图可靠性最高的结果返回。
5.一种基于学者科研成果挖掘的学者精准定位装置,其特征在于,包括:
抽取模块,用于对学者科研成果p中文本信息进行抽取,以得到关键信息,并构建结构化信息,所述结构化信息包括所述学者科研成果p中作者集合A、学者隶属关系信息集合B和表示A→B的矩阵U;
构造模块,用于根据所述关键信息和所述结构化信息对所述学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造所述学者科研成果p相关结构化的隐含信息O;
获取模块,用于对所述结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据所述隐含信息O和不同类型地图API特点,获取最终结果R;
所述获取模块进一步用于对集合B做输入预处理,按照信息的重要程度做清洗、筛选和结构化整理,根据构造的字符串,使用多个不同类型的fm做结构化轮换查询,当查询结果为空的时,逐渐抛弃权重较低的字符串,直到通过地图API查询到结果,并获取所述结果的差异性,并判断是否超过差异阈值,其中,如果超过所述差异阈值,则进入基于具有地理指向性的隐含信息O的可靠性判断阶段,否则进入基于地图API特性选择阶段,以获取最终地址信息,其中,地图m的API表示为fm,m为地图的名称;
定位模块,用于根据所述最终结果R和所述矩阵U获取A→R映射,并获取所述学者科研成果p中集合A的每个学者的地理位置信息,输出所述学者科研成果p中所有学者的定位信息。
6.根据权利要求5所述的基于学者科研成果挖掘的学者精准定位装置,其特征在于,还包括:
判断学者科研成果p是否为结构化的文本;
如果是,则识别所述学者科研成果p的每个部分的类别,否则对所述学者科研成果p中文本信息进行抽取,并构建所述结构化信息。
7.根据权利要求5所述的基于学者科研成果挖掘的学者精准定位装置,其特征在于,所述具有地理指向性的隐含信息包括所使用到的语言lang、邮政编码信息code、与所述集合B中重复的信息。
8.根据权利要求5所述的基于学者科研成果挖掘的学者精准定位装置,其特征在于,其中,
如果是具有地理指向性的隐含信息O在缩小范围去重之后的结果,则直接选中最后判断得到的结果;
如果是基于地图API特性选择,则按照结果所在地区返回该地区地图可靠性最高的结果返回。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811149733.6A CN109359249B (zh) | 2018-09-29 | 2018-09-29 | 基于学者科研成果挖掘的学者精准定位方法及装置 |
US16/432,903 US11132372B2 (en) | 2018-09-29 | 2019-06-05 | Method and apparatus for precise positioning of scholar based on mining of scholar's scientific research achievement |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811149733.6A CN109359249B (zh) | 2018-09-29 | 2018-09-29 | 基于学者科研成果挖掘的学者精准定位方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359249A CN109359249A (zh) | 2019-02-19 |
CN109359249B true CN109359249B (zh) | 2020-07-10 |
Family
ID=65348035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811149733.6A Active CN109359249B (zh) | 2018-09-29 | 2018-09-29 | 基于学者科研成果挖掘的学者精准定位方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11132372B2 (zh) |
CN (1) | CN109359249B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941662A (zh) * | 2019-06-24 | 2020-03-31 | 上海市研发公共服务平台管理中心 | 科研合作关系的图示化方法、系统、存储介质、及终端 |
CN110851669A (zh) * | 2019-10-17 | 2020-02-28 | 清华大学 | 基于地理位置信息的机构命名排歧方法及装置 |
CN110990524A (zh) * | 2019-10-24 | 2020-04-10 | 清华大学 | 基于可靠信息库的学术成果机构命名排歧方法及装置 |
CN111259166B (zh) * | 2020-01-22 | 2023-02-03 | 清华大学 | 基于知识图谱的科研实体链接方法及装置 |
CN111538917B (zh) * | 2020-04-20 | 2022-08-26 | 清华大学 | 学者迁徙路线构建方法及装置 |
CN112115971B (zh) * | 2020-08-13 | 2024-01-09 | 中国科学院计算技术研究所 | 一种基于异质学术网络进行学者画像的方法及系统 |
CN116881870B (zh) * | 2023-09-05 | 2024-02-27 | 齐鲁工业大学(山东省科学院) | 一种基于科研成果分析的数据溯源方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN102609546B (zh) * | 2011-12-08 | 2014-11-05 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
EP2854006A1 (en) * | 2013-09-27 | 2015-04-01 | Korea Institute of Science and Technology | System for authoring and providing augmented reality contents |
CN105159940A (zh) * | 2015-08-03 | 2015-12-16 | 北京奇虎科技有限公司 | 挖掘地理信息的方法、装置以及服务器 |
CN107908627A (zh) * | 2017-04-26 | 2018-04-13 | 国家计算机网络与信息安全管理中心 | 一种多语言的地图poi 搜索系统 |
CN108197188A (zh) * | 2017-12-26 | 2018-06-22 | 北京小度信息科技有限公司 | 地址信息处理方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8201085B2 (en) * | 2007-06-21 | 2012-06-12 | Thomson Reuters Global Resources | Method and system for validating references |
WO2011159843A2 (en) * | 2010-06-15 | 2011-12-22 | Thomson Reuters (Scientific) Inc. | System and method for citation processing, presentation and transport for validating references |
US9218344B2 (en) * | 2012-06-29 | 2015-12-22 | Thomson Reuters Global Resources | Systems, methods, and software for processing, presenting, and recommending citations |
ES2805343T3 (es) * | 2012-12-18 | 2021-02-11 | Thomson Reuters Entpr Centre Gmbh | Sistemas y procesos habilitados para dispositivos móviles para plataforma de investigación inteligente |
-
2018
- 2018-09-29 CN CN201811149733.6A patent/CN109359249B/zh active Active
-
2019
- 2019-06-05 US US16/432,903 patent/US11132372B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609546B (zh) * | 2011-12-08 | 2014-11-05 | 清华大学 | 一种学术期刊论文作者信息挖掘方法及系统 |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
EP2854006A1 (en) * | 2013-09-27 | 2015-04-01 | Korea Institute of Science and Technology | System for authoring and providing augmented reality contents |
CN105159940A (zh) * | 2015-08-03 | 2015-12-16 | 北京奇虎科技有限公司 | 挖掘地理信息的方法、装置以及服务器 |
CN107908627A (zh) * | 2017-04-26 | 2018-04-13 | 国家计算机网络与信息安全管理中心 | 一种多语言的地图poi 搜索系统 |
CN108197188A (zh) * | 2017-12-26 | 2018-06-22 | 北京小度信息科技有限公司 | 地址信息处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于已有映射结果的本体映射;仲茜;《清华大学学报(自然科学版》;20080731;1178-1181 * |
Also Published As
Publication number | Publication date |
---|---|
US11132372B2 (en) | 2021-09-28 |
CN109359249A (zh) | 2019-02-19 |
US20200104298A1 (en) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359249B (zh) | 基于学者科研成果挖掘的学者精准定位方法及装置 | |
Smith et al. | Disambiguating geographic names in a historical digital library | |
CN102193939B (zh) | 信息导航的实现方法、信息导航服务器和信息处理系统 | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
CN101364239B (zh) | 一种分类目录自动构建方法及相关系统 | |
US10445346B2 (en) | Custom local search | |
Cormack et al. | Statistical precision of information retrieval evaluation | |
US20050289448A1 (en) | System and method for gathering, indexing, and supplying publicly available data charts | |
US20110145247A1 (en) | Interpreting local search queries | |
Larson et al. | Spatial ranking methods for geographic information retrieval (GIR) in digital libraries | |
WO2008019344A2 (en) | Systems and methods for obtaining and using information from map images | |
Koper et al. | A guide to developing resource selection functions from telemetry data using generalized estimating equations and generalized linear mixed models | |
CN103838785A (zh) | 一种专利领域的垂直搜索引擎 | |
WO2019227581A1 (zh) | 兴趣点识别方法、装置、终端设备及存储介质 | |
CN113515600B (zh) | 一种基于元数据的空间分析自动计算方法 | |
CN113486667A (zh) | 一种基于实体类型信息的医疗实体关系联合抽取方法 | |
CN106649605B (zh) | 一种推广关键词的触发方法及装置 | |
CN111950280A (zh) | 地址匹配方法及装置 | |
CN116561388A (zh) | 一种获取标签的数据处理系统 | |
Alex et al. | Homing in on Twitter users: Evaluating an enhanced geoparser for user profile locations | |
Newby | Metric multidimensional information space | |
CN106126681B (zh) | 一种增量式流式数据聚类方法及系统 | |
Campelo et al. | A model for geographic knowledge extraction on web documents | |
Radke et al. | Geotagging Text Data on the Web—A Geometrical Approach | |
Yang et al. | Research on improvement of text processing and clustering algorithms in public opinion early warning system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |