CN109189948B - 一种用于内容标引的数据处理方法及装置 - Google Patents

一种用于内容标引的数据处理方法及装置 Download PDF

Info

Publication number
CN109189948B
CN109189948B CN201810886411.3A CN201810886411A CN109189948B CN 109189948 B CN109189948 B CN 109189948B CN 201810886411 A CN201810886411 A CN 201810886411A CN 109189948 B CN109189948 B CN 109189948B
Authority
CN
China
Prior art keywords
same
article
metadata
data
doi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810886411.3A
Other languages
English (en)
Other versions
CN109189948A (zh
Inventor
曹祺
杨志伟
丁小罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grey wizard Co.,Ltd.
Original Assignee
Greysh Group Co ltd
Quicktext Infotech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Greysh Group Co ltd, Quicktext Infotech Co ltd filed Critical Greysh Group Co ltd
Priority to CN201810886411.3A priority Critical patent/CN109189948B/zh
Publication of CN109189948A publication Critical patent/CN109189948A/zh
Application granted granted Critical
Publication of CN109189948B publication Critical patent/CN109189948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于内容标引的数据处理方法及装置。该用于内容标引的数据处理方法括判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及根据所述预设消除歧义处理结果生成内容标引。本申请解决了文献检索特别是论文检索中存在的歧义问题。

Description

一种用于内容标引的数据处理方法及装置
技术领域
本申请涉及文献处理领域,具体而言,涉及一种用于内容标引的数据处理方法及装置。
背景技术
科研工作者在科研过程中需要阅读大量前人已经发表的论文,为了对论文进行定位、访问以及对论文的元数据进行管理,国际标准化组织在2012年5月10日通过了国际DOI基金会的《信息文档数字标识符系统标准》,即ISO26324标准。
尽管DOI标准是广泛使用的国际标准,通过DOI编码可以搜索到唯一的论文,但是存在搜索结果的歧义问题,例如,西南民族大学民族研究院杨正文教授在中国农业大学学报(社会科学版)发表《从村寨空间到村寨博物馆——贵州村寨博物馆的文化保护实践》的一文,在知网(CNKI)搜索得到的DOI编码为10.13240/j.cnki.caujsse.2008.03.017,而在万方数据搜索得到的DOI编码是10.3969/j.issn.1009-508X.2008.03.001。这两个DOI编码在国际DOI基金会查询均可以得到下载地址,但是属于同一篇文章。
发明人发现目前造成文献检索中歧义问题的原因有三:1)期刊社不注册不使用DOI服务,由第三方机构自行进行DOI编码,第三方机构在编码时没有录入期刊的元数据,而元数据是促进DOI服务多样化的必须要素,是有效管理数字权益的基础;2)期刊社虽然使用DOI服务,但是同时委托多家第三方机构而不是一家第三方机构独家进行DOI编码;3)第三方机构的DOI编码中的REG代码不同,必然会造成数据重复,产生歧义。
针对相关技术中文献检索特别是论文检索中存在的歧义问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种用于内容标引的数据处理方法及装置,以解决文献检索特别是论文检索中存在的歧义问题。
为了实现上述目的,根据本申请的一个方面,提供了一种用于内容标引的数据处理方法。
根据本申请的用于内容标引的数据处理方法包括:判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及根据所述预设消除歧义处理结果生成内容标引。
进一步地,判断从不同数据源获得的内容数据是否相同包括:判断所述期刊元数据是否相同;如果所述期刊元数据相同,则判断所述文章元数据是否相同;如果所述文章元数据相同,则判断所述从不同数据源获得的内容数据的DOI编码是否相同;其中,所述期刊元数据至少包括:期刊的打印版国际刊号;所述文章元数据至少包括:文章标题数据、文章作者数据、文章发表的年卷期数据、文章摘要数据。
进一步地,在所述判断从不同数据源获得的内容数据是否相同之前还包括:判断从相同数据源获得的内容数据的期刊元数据是否相同;如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同。
进一步地,如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理包括如下任一一种方式:如果所述从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理;如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理。
进一步地,根据所述预设消除歧义处理结果生成内容标引包括:检测文章元数据是否包含DOI编码;如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码;如果检测文章元数据不包含DOI编码,则生成文章Handle编码。
为了实现上述目的,根据本申请的另一方面,提供了一种用于内容标引的数据处理装置。
根据本申请的用于内容标引的数据处理装置包括:判断模块,用于判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;消除歧义处理模块,用于如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及生成模块,用于根据所述预设消除歧义处理结果生成内容标引。
进一步的,所述判断模块包括:第一判断单元,用于判断所述期刊元数据是否相同;第二判断单元,用于如果所述期刊元数据相同,则判断所述文章元数据是否相同;第三判断单元,用于如果所述文章元数据相同,则判断所述从不同数据源获得的内容数据的DOI编码是否相同;其中,所述期刊元数据至少包括:期刊的打印版国际刊号;所述文章元数据至少包括:文章标题数据、文章作者数据、文章发表的年卷期数据、文章摘要数据。
进一步的,所述数据处理装置还包括:期刊元数据判断模块,用于判断从相同数据源获得的内容数据的期刊元数据是否相同;文章元数据判断模块,用于如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同。
进一步的,所述消除歧义处理模块包括如下任一单元:第一消除歧义处理单元,用于如果所述从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理;第二消除歧义处理单元,用于如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理。
进一步的,所述生成模块包括:检测单元,用于检测文章元数据是否包含DOI编码;列表Handle编码单元,用于如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码;文章Handle编码单元,用于如果检测文章元数据不包含DOI编码,则生成文章Handle编码。
在本申请实施例中,采用判断从不同数据源获得的内容数据是否相同的方式,如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理并根据所述预设消除歧义处理结果生成内容标引,达到了对不同数据源的具有歧义问题的文章进行消除歧义处理的目的,从而实现了对论文文章或其他科研数据的歧义消除的技术效果,进而解决了由于一篇文章对应多个DOI编码或文章无DOI编码时存在的文章检索歧义的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的用于内容标引的数据处理方法示意图;
图2是根据本申请第二实施例的用于内容标引的数据处理方法示意图;
图3是根据本申请第三实施例的用于内容标引的数据处理方法示意图;
图4是根据本申请第四实施例的用于内容标引的数据处理方法示意图;
图5是根据本申请第五实施例的用于内容标引的数据处理方法示意图;
图6是根据本申请第一实施例的用于内容标引的数据处理装置示意图;
图7是根据本申请第二实施例的用于内容标引的数据处理装置示意图;
图8是根据本申请第三实施例的用于内容标引的数据处理装置示意图;
图9是根据本申请第四实施例的用于内容标引的数据处理装置示意图;
图10是根据本申请第五实施例的用于内容标引的数据处理装置示意图;
图11是根据本申请第六实施例的用于内容标引的数据处理方法示意图;
图12是根据本申请第七实施例的用于内容标引的数据处理方法示意图;
图13是根据本申请实施例的文章Handle编码示意图;以及
图14是根据本申请实施例的列表Handle编码示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S106:
步骤S102,判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;
在本实施例中,步骤S102主要用于获取内容提供商如期刊社的期刊元数据和文章元数据,期刊元数据字段为期刊的打印版国际刊号(PrintISSN)、文章元数据字段为已经发表的文章的目录数据,即文章发表的年、卷、期。同时还需要获取文章的标题数据、作者数据和摘要数据。如果该文章有DOI编号,则获取DOI编号,如果没有则不获取。如果文章没有摘要,则将文档正文第一自然段视作摘要。同时还需要得到获得数据源的网址。
步骤S104,如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及
在本实施例中,如图12所示,判断期刊是否相同,根据期刊元数据的打印版国际刊号ISSN判断。判断文章是否相同,根据两篇论文的标题、作者、文章发表的年卷期、文章摘要这四个字段是否同时相同来判断。因此根据图6决策树,仅有结果2和结果4存在歧义问题,其他结果(结果1、结果3、结果5、结果6)不存在歧义问题。对于结果2,DOI本身用于标记文章,即一个DOI编码查询得到一个文章,但是根据一个标题可能查出多个不同DOI,但是属于同一个文章的结果,此时的歧义问题从作者创建参考文献是歧义问题,但是从读者根据DOI下载文章是是备份。另一方面,如果采用标题搜索文章会得到两个不同DOI编码的但属于同一篇论文的结果。对于结果4,来自同一数据源的文章完全相同,也就是说属于同一期刊的重复文章,也存在歧义问题。
步骤S106,根据所述预设消除歧义处理结果生成内容标引。
在本实施例中,把结果2的所有数据存储为一个列表数据,列表中的每一项代表一个文章DOI编码,为这个列表生成一个列表Handle编码,同时,如果文章本身没有DOI号码,则采用DOIAI模型生成文章的Handle编码。DOIAI模型生成的Handle编码分为文章Handle编码和列表Handle编码,具体的编码格式定义如下:
1)文章Handle编码格式:文章Handle编码格式的定义为:<HANDLE_PREFIX>/<TYPE>.<ISSN>.<年>.<期>.<文章序号>/<来源序号>。其中<HANDLE_PREFIX>为CNRI注册提供,例如本文测试的前缀为20.500.12288,<TYPE类型>对于期刊文章为字母A,代表article。<来源网址>是数字,代表不同网址,例如可以是CNKI.NET,也可以是WANFANGDATA.COM.CN,以下为示例文章Handle:20.500.12288/A.1009-508X.2018.03.001/1,1是来自cnki;20.500.12288/A.1009-508X.2018.03.001/2,2是来自万方。
如果被Handle编码的文章本身有DOI编码,则文章Handle编码指向DOI编码,如果没有则指向获取该文章的数据源网站的文章下载地址。
例如,对于西南民族大学民族研究院杨正文教授在中国农业大学学报(社会科学版)发表《从村寨空间到村寨博物馆——贵州村寨博物馆的文化保护实践》一文,根据文章Handle编码格式生成的编码如图13所示。
2)列表Handle编码格式定义:列表Handle编码格式的定义为:对于列表Handle,<HANDLE_PREFIX>/<TYPE>.<ISSN>.<年>.<期>.<文章序号>,TYPE是常量J,代表journal。列表Handle编码请求返回的数据是一组文章Handle编码的集合,但是约束条件是集合中的文章Handle编码不能完全一样。例如,对于西南民族大学民族研究院杨正文教授在中国农业大学学报(社会科学版)发表《从村寨空间到村寨博物馆——贵州村寨博物馆的文化保护实践》一文,根据列表Handle编码格式生成的编码为20.500.12288/j.1009-508X.2008.03.001。当利用Handle编码系统或者DOI编码系统请求数据,返回的数据包如图14所示。
如图14所示,当采用DOIAI模型生成列表Handle编码后,访问列表Handle编码20.500.12288/j.1009-508X.2008.03.001后可以得到知网和万方的文章列表,同时由于采用DOIAI模型进行编码,会在DOI编码上增加了一层列表,如果通过知网的DOI无法获得文章是可以根据列表Handle编码中的其他文章Handle编码得到网址元数据。如果用户进行搜索时返回的不是文章的DOI编码而是该文章根据DOIAI模型生成的列表Handle编码,可以确保搜索一个文章标题、作者或者摘要后得到唯一列表Handle编码,这样也就消除了歧义,同时DOIAI模型生成编码过程不需要登记机构和内容提供商协助,可以自动化生成。
从以上的描述中,可以看出,本发明实现了如下技术效果:本申请针对数字对象唯一标识符DOI歧义问题,在“持久标识符互操作参考模型”的基础上提出了本申请的用于内容标引的数据处理方法,主要的改进是在文章DOI标识的基础上增加了DOIAI模型的列表Handle编码,用于处理不同数据源的歧义消除问题,同时对于无DOI编码的期刊采用DOIAI模型文章Handle编码,在不需要内容提供商和登记机构协助的情况下进行自动化编码。本申请提供的用于内容标引的数据处理装置的歧义对比以两篇论文的标题、作者、文章发表的年卷期、文章摘要这四个字段是否同时相同来判断是否是同一篇文章。采用本申请进行编码可以解决歧义消除问题,同时本申请的编码本身基于Handle编码,可以兼容DOI编码系统。
根据本发明实施例,提供了一种用于内容标引的数据处理方法,如图2所示,判断从不同数据源获得的内容数据是否相同包括:
步骤S202,判断所述期刊元数据是否相同;
在本实施例中,期刊元数据字段为期刊的打印版国际刊号。
优选地,判断所述期刊元数据是否相同可以是判断期刊是否相同,根据期刊元数据的打印版国际刊号ISSN判断。
步骤S204,如果所述期刊元数据相同,则判断所述文章元数据是否相同;
在本实施例中,文章元数据包括已经发表的文章的目录数据,即文章发表的年、卷、期。同时还需要获取文章的标题数据、作者数据和摘要数据。
优选地,如果所述期刊元数据相同,则判断所述文章元数据是否相同可以是根据两篇论文的标题、作者、文章发表的年卷期、文章摘要这四个字段是否同时相同来判断。
步骤S206,如果所述文章元数据相同,则判断所述从不同数据源获得的内容数据的DOI编码是否相同;
在本实施例中,如果该文章有DOI编号,则获取DOI编号,并比较两篇文章的DOI编号是否一致,如果不一致,则存在歧义问题,如果一致,则不存在歧义问题。
根据本发明实施例,提供了一种用于内容标引的数据处理方法,如图3所示,在所述判断从不同数据源获得的内容数据是否相同之前还包括:
步骤S302,判断从相同数据源获得的内容数据的期刊元数据是否相同;
在本实施例中,判断从相同数据源获得的内容数据的期刊元数据是否相同可以是判断两篇从同一数据源获取的文章对应的期刊的打印版国际刊号ISSN是否一致。
步骤S304,如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同。
在本实施例中,如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同可以是根据两篇论文的标题、作者、文章发表的年卷期、文章摘要这四个字段是否同时相同来判断。
根据本发明实施例,提供了一种用于内容标引的数据处理方法,如图4所示,如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理包括如下任一一种方式:
步骤S402,如果所述从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理;
在本实施例中,如果所述从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理即为图12中的结果2对应的情况,把结果2的所有数据存储为一个列表数据,列表中的每一项代表一个文章DOI编码,为这个列表生成一个列表Handle编码,同时,如果文章本身没有DOI号码,则采用DOIAI模型生成文章的Handle编码。DOIAI模型生成的Handle编码分为文章Handle编码和列表Handle编码。
步骤S404,如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理。
在本实施例中,如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理即为图12中的结果4对应的情况,生成的文章Handle编码完全一样,此时代表数据源网站自身的数据备份,列表Handle编码只保留最后一篇文章的Handle编码,这样就解决歧义消除问题。
根据本发明实施例,提供了一种用于内容标引的数据处理方法,如图5所示,根据所述预设消除歧义处理结果生成内容标引包括:
步骤S502,检测文章元数据是否包含DOI编码;
在本实施例中,例如期刊社未购买DOI编码服务或者一些特殊类型的文章,例如佛学类文章,会存在不具备DOI编码的情况,因此需要检测文章元数据是否包含DOI编码。
优选地,可以采用DOI编码检测装置进行检测。
步骤S504,如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码;
在本实施例中,如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码可以是所有数据(DOI编码数据)存储为一个列表数据,列表中的每一项代表一个文章DOI编码,为这个列表生成一个列表Handle编码。
步骤S506,如果检测文章元数据不包含DOI编码,则生成文章Handle编码。
在本实施例中,如果检测文章元数据不包含DOI编码,则生成文章Handle编码可以是则采用DOIAI模型生成文章的Handle编码。
如图11所示,提供了一种用于内容标引的数据处理方法,还包括生成标引后的维护,通过自动标引模块建立完成索引后即可通过Handle编码系统或者DOI编码系统查询通过本申请提供的方法生成的编码,但是如果期刊社需要修改或者更正数据源的数据,提供期刊社的实名维护认证,当期刊社实名认证之后,期刊社可以修改自动标引模块生成的编码,而此时需要依赖于人工操作。本申请之所以需要提供内容提供商人工修改的入口,是因为期刊的各类数据在不断变化,例如南京大学每年都在更新CSSCI期刊目录,而数据库厂家,比如知网、万方等的网站更新不一定及时,此时对于期刊元数据的获取可能本身存在错误,需要人工校验,在笔者进行数据查阅时,发现知网收录的CSSCI期刊有899本,而最新的南京大学CSSCI期刊只有753本(含CSSCI扩展板),通过对比发现知网并未将已经不在最新版CSSCI期刊移除。因此对于标识维护模块即需要提供程序自动化维护也需要人工校验数据,确保真实、有效、准确。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述用于内容标引的数据处理方法的数据处理装置,如图数据处理装置所示,该装置包括:
判断模块10,用于判断从不同数据源获得的内容数据是否相同,其中,所述内容述数据中至少包括:期刊元数据或文章元数据;
根据本实施例的判断模块10主要用于获取内容提供商如期刊社的期刊元数据和文章元数据,期刊元数据字段为期刊的打印版国际刊号(PrintISSN)、文章元数据字段为已经发表的文章的目录数据,即文章发表的年、卷、期。同时还需要获取文章的标题数据、作者数据和摘要数据。如果该文章有DOI编号,则获取DOI编号,如果没有则不获取。如果文章没有摘要,则将文档正文第一自然段视作摘要。同时还需要得到获得数据源的网址。
消除歧义处理模块20,用于如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及
根据本实施例的消除歧义处理模块20,如图12所示,判断期刊是否相同,根据期刊元数据的打印版国际刊号ISSN判断。判断文章是否相同,根据两篇论文的标题、作者、文章发表的年卷期、文章摘要这四个字段是否同时相同来判断。因此根据图6决策树,仅有结果2和结果4存在歧义问题,其他结果(结果1、结果3、结果5、结果6)不存在歧义问题。对于结果2,DOI本身用于标记文章,即一个DOI编码查询得到一个文章,但是根据一个标题可能查出多个不同DOI,但是属于同一个文章的结果,此时的歧义问题从作者创建参考文献是歧义问题,但是从读者根据DOI下载文章是是备份。另一方面,如果采用标题搜索文章会得到两个不同DOI编码的但属于同一篇论文的结果。对于结果4,来自同一数据源的文章完全相同,也就是说属于同一期刊的重复文章,也存在歧义问题。
生成模块30,用于根据所述预设消除歧义处理结果生成内容标引。
根据本实施例的生成模块30,把结果2的所有数据存储为一个列表数据,列表中的每一项代表一个文章DOI编码,为这个列表生成一个列表Handle编码,同时,如果文章本身没有DOI号码,则采用DOIAI模型生成文章的Handle编码。DOIAI模型生成的Handle编码分为文章Handle编码和列表Handle编码,具体的编码格式定义如下:
1)文章Handle编码格式:文章Handle编码格式的定义为:<HANDLE_PREFIX>/<TYPE>.<ISSN>.<年>.<期>.<文章序号>/<来源序号>。其中<HANDLE_PREFIX>为CNRI注册提供,例如本文测试的前缀为20.500.12288,<TYPE类型>对于期刊文章为字母A,代表article。<来源网址>是数字,代表不同网址,例如可以是CNKI.NET,也可以是WANFANGDATA.COM.CN,以下为示例文章Handle:20.500.12288/A.1009-508X.2018.03.001/1,1是来自cnki;20.500.12288/A.1009-508X.2018.03.001/2,2是来自万方。
如果被Handle编码的文章本身有DOI编码,则文章Handle编码指向DOI编码,如果没有则指向获取该文章的数据源网站的文章下载地址。
例如,对于西南民族大学民族研究院杨正文教授在中国农业大学学报(社会科学版)发表《从村寨空间到村寨博物馆——贵州村寨博物馆的文化保护实践》一文,根据文章Handle编码格式生成的编码如图13所示。
2)列表Handle编码格式:列表Handle编码格式的定义为:对于列表Handle,<HANDLE_PREFIX>/<TYPE>.<ISSN>.<年>.<期>.<文章序号>,TYPE是常量J,代表journal。列表Handle编码请求返回的数据是一组文章Handle编码的集合,但是约束条件是集合中的文章Handle编码不能完全一样。例如,对于西南民族大学民族研究院杨正文教授在中国农业大学学报(社会科学版)发表《从村寨空间到村寨博物馆——贵州村寨博物馆的文化保护实践》一文,根据列表Handle编码格式生成的编码为20.500.12288/j.1009-508X.2008.03.001。当利用Handle编码系统或者DOI编码系统请求数据,返回的数据包如图14所示。
如图14所示,当采用DOIAI模型生成列表Handle编码后,访问列表Handle编码20.500.12288/j.1009-508X.2008.03.001后可以得到知网和万方的文章列表,同时由于采用DOIAI模型进行编码,会在DOI编码上增加了一层列表,如果通过知网的DOI无法获得文章是可以根据列表Handle编码中的其他文章Handle编码得到网址元数据。如果用户进行搜索时返回的不是文章的DOI编码而是该文章根据DOIAI模型生成的列表Handle编码,可以确保搜索一个文章标题、作者或者摘要后得到唯一列表Handle编码,这样也就消除了歧义,同时DOIAI模型生成编码过程不需要登记机构和内容提供商协助,可以自动化生成。
根据本发明实施例,提供了一种用于内容标引的数据处理装置,如图7所示,所述判断模块10包括:
第一判断单元101,用于判断所述期刊元数据是否相同;
根据本实施例的第一判断单元101,期刊元数据字段为期刊的打印版国际刊号。
优选地,判断所述期刊元数据是否相同可以是判断期刊是否相同,根据期刊元数据的打印版国际刊号ISSN判断。
第二判断单元102,用于如果所述期刊元数据相同,则判断所述文章元数据是否相同;
根据本实施例的第二判断单元102,文章元数据包括已经发表的文章的目录数据,即文章发表的年、卷、期。同时还需要获取文章的标题数据、作者数据和摘要数据。
优选地,如果所述期刊元数据相同,则判断所述文章元数据是否相同可以是根据两篇论文的标题、作者、文章发表的年卷期、文章摘要这四个字段是否同时相同来判断。
第三判断单元103,用于如果所述文章元数据相同,则判断所述从不同数据源获得的内容数据的DOI编码是否相同;
其中,所述期刊元数据至少包括:期刊的打印版国际刊号;所述文章元数据至少包括:文章标题数据、文章作者数据、文章发表的年卷期数据、文章摘要数据。
根据本实施例的第三判断单元103,如果该文章有DOI编号,则获取DOI编号,并比较两篇文章的DOI编号是否一致,如果不一致,则存在歧义问题,如果一致,则不存在歧义问题。
根据本发明实施例,提供了一种用于内容标引的数据处理装置,如图8所示,所述数据处理装置还包括:
期刊元数据判断模块40,用于判断从相同数据源获得的内容数据的期刊元数据是否相同;
根据本实施例的期刊元数据判断模块40,判断从相同数据源获得的内容数据的期刊元数据是否相同可以是判断两篇从同一数据源获取的文章对应的期刊的打印版国际刊号ISSN是否一致。
文章元数据判断模块50,用于如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同。
根据本实施例的文章元数据判断模块50,如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数是否相同可以是根据两篇论文的标题、作者、文章发表的年卷期、文章摘要这四个字段是否同时相同来判断。
根据本发明实施例,提供了一种用于内容标引的数据处理装置,如图9所示,所述消除歧义处理模块20包括如下任一单元:
第一消除歧义处理单元201,用于如果所述从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理;
根据本实施例的第一消除歧义处理单元201,如果所述从不同数据源获得的内容数据的DOI编码不同,对所述内容数据执行预设消除歧义处理即为图12中的结果2对应的情况,把结果2的所有数据存储为一个列表数据,列表中的每一项代表一个文章DOI编码,为这个列表生成一个列表Handle编码,同时,如果文章本身没有DOI号码,则采用DOIAI模型生成文章的Handle编码。DOIAI模型生成的Handle编码分为文章Handle编码和列表Handle编码。
第二消除歧义处理单元202,用于如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理。
根据本实施例的第二消除歧义处理单元202,如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理即为图12中的结果4对应的情况,生成的文章Handle编码完全一样,此时代表数据源网站自身的数据备份,列表Handle编码只保留最后一篇文章的Handle编码,这样就解决歧义消除问题。
根据本发明实施例,提供了一种用于内容标引的数据处理装置,如图10所示,所述生成模块30包括:
检测单元301,用于检测文章元数据是否包含DOI编码;
根据本实施例的检测单元301,例如期刊社未购买DOI编码服务或者一些特殊类型的文章,例如佛学类文章,会存在不具备DOI编码的情况,因此需要检测文章元数据是否包含DOI编码。
优选地,可以采用DOI编码检测装置进行检测。
列表Handle编码单元302,用于如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码;
根据本实施例的列表Handle编码单元302,如果检测文章元数据包含DOI编码,则生成DOI列表并根据所述DOI列表生成列表Handle编码可以是所有数据(DOI编码数据)存储为一个列表数据,列表中的每一项代表一个文章DOI编码,为这个列表生成一个列表Handle编码。
文章Handle编码单元303,用于如果检测文章元数据不包含DOI编码,则生成文章Handle编码。
根据本实施例的文章Handle编码单元303,如果检测文章元数据不包含DOI编码,则生成文章Handle编码可以是则采用DOIAI模型生成文章的Handle编码。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1. 一种用于内容标引的数据处理方法,其特征在于,包括:
判断从不同数据源获得的内容数据是否相同,其中,所述内容数据中至少
包括期刊元数据或文章元数据;包括:判断所述期刊元数据是否相同;如果所
述期刊元数据相同,则判断所述文章元数据是否相同;如果所述文章元数据相
同,则判断从所述不同数据源获得的内容数据的DOI 编码是否相同;如果从
所述不同数据源获得的内容数据的DOI 编码不同,则判断从所述不同数据源
获得的内容数据相同;
如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行
预设消除歧义处理;以及
根据预设消除歧义处理结果生成内容标引,包括:生成DOI 列表并根据
所述DOI 列表生成列表Handle 编码;所述列表Handle 编码是一组文章Handle
编码的集合,所述文章Handle 编码中具有相同的文章标识符。
2. 根据权利要求1 所述的数据处理方法,其特征在于,所述期刊元数据
至少包括:期刊的打印版国际刊号;所述文章元数据至少包括:文章标题数据、
文章作者数据、文章发表的年卷期数据、文章摘要数据。
3.根据权利要求1 所述的数据处理方法,其特征在于,在所述判断从不
同数据源获得的内容数据是否相同之前还包括:
判断从相同数据源获得的内容数据的期刊元数据是否相同;
如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同
数据源获得的内容数据的文章元数据是否相同。
4.根据权利要求3 所述的数据处理方法,其特征在于,在所述判断所述
从相同数据源获得的内容数据的文章元数据是否相同之后还包括:
如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据
执行预设消除歧义处理,包括:检测从所述相同数据源获得的内容数据的文章
元数据是否包含DOI 编码;如果包含DOI 编码,则生成相应的DOI 列表并根
据生成的DOI 列表生成相应的列表Handle 编码;如果不包含DOI 编码,则生成文章Handle 编码。
5.一种用于内容标引的数据处理装置,其特征在于,包括:
判断模块,用于判断从不同数据源获得的内容数据是否相同,其中,所述
内容数据中至少包括:期刊元数据或文章元数据;
所述判断模块包括:
第一判断单元,用于判断所述期刊元数据是否相同;
第二判断单元,用于如果所述期刊元数据相同,则判断所述文章元数据是
否相同;
第三判断单元,用于如果所述文章元数据相同,则判断从所述不同数据源
获得的内容数据的DOI 编码是否相同;如果从所述不同数据源获得的内容数
据的DOI 编码不同,则判断从所述不同数据源获得的内容数据相同;
消除歧义处理模块,用于如果判断从所述不同数据源获得的内容数据相同,则对所述内容数据执行预设消除歧义处理;以及生成模块,用于根据预设消除歧义处理结果生成内容标引;
所述生成模块包括:
列表Handle 编码单元,用于生成DOI 列表并根据所述DOI 列表生成列表Handle 编码;所述列表Handle 编码是一组文章Handle 编码的集合,所述文章Handle 编码中具有相同的文章标识符。
6.根据权利要求5 所述的数据处理装置,其特征在于,所述第一判断单元判断的期刊元数据至少包括:期刊的打印版国际刊号;所述第二判断单元判断的文章元数据至少包括:文章标题数据、文章作者数据、文章发表的年卷期数据、文章摘要数据。
7.根据权利要求5 所述的数据处理装置,其特征在于,所述数据处理装置还包括:期刊元数据判断模块,用于判断从相同数据源获得的内容数据的期刊元数据是否相同;文章元数据判断模块,用于如果从相同数据源获得的内容数据的期刊元数据相同,则判断所述从相同数据源获得的内容数据的文章元数据是否相同。
8.根据权利要求7 所述的数据处理装置,其特征在于,所述消除歧义处理模块包括:消除歧义处理单元,用于如果从相同数据源获得的内容数据的文章元数据相同,则对所述内容数据执行预设消除歧义处理,包括:检测从所述相同数据源获得的内容数据的文章元数据是否包含DOI 编码;如果包含DOI 编码,则生成相应的DOI 列表并根据生成的DOI 列表生成相应的列表Handle 编码;如果不包含DOI 编码,则生成文章Handle 编码。
CN201810886411.3A 2018-08-06 2018-08-06 一种用于内容标引的数据处理方法及装置 Active CN109189948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810886411.3A CN109189948B (zh) 2018-08-06 2018-08-06 一种用于内容标引的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810886411.3A CN109189948B (zh) 2018-08-06 2018-08-06 一种用于内容标引的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN109189948A CN109189948A (zh) 2019-01-11
CN109189948B true CN109189948B (zh) 2021-08-20

Family

ID=64920365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810886411.3A Active CN109189948B (zh) 2018-08-06 2018-08-06 一种用于内容标引的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN109189948B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881477A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 数据内容的标引方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020045843A (ko) * 2000-12-11 2002-06-20 함경수 디지털 컨텐츠 링킹 서비스 제공방법 및 시스템
CN107066474A (zh) * 2016-12-09 2017-08-18 百度在线网络技术(北京)有限公司 文献搜索方法和装置
CN107656981A (zh) * 2017-09-08 2018-02-02 中国科学院计算机网络信息中心 一种基于标识技术的数据共享和管理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020045843A (ko) * 2000-12-11 2002-06-20 함경수 디지털 컨텐츠 링킹 서비스 제공방법 및 시스템
CN107066474A (zh) * 2016-12-09 2017-08-18 百度在线网络技术(北京)有限公司 文献搜索方法和装置
CN107656981A (zh) * 2017-09-08 2018-02-02 中国科学院计算机网络信息中心 一种基于标识技术的数据共享和管理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数字资源唯一标识符体系系统分析;王宇鸽等;《图书馆学研究》;20140215;第3节 *

Also Published As

Publication number Publication date
CN109189948A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
De Rassenfosse et al. Geocoding of worldwide patent data
US10387438B2 (en) Method and apparatus for integration of community-provided place data
US9448999B2 (en) Method and device to detect similar documents
US20130055071A1 (en) Systems and methods for creating a customized website
CN110472219B (zh) 电子文件生成方法、装置、计算机设备和存储介质
CN101021890A (zh) 一种对页面数据进行校验的方法、系统和服务器
CN112765601B (zh) 基于云端的网站首页结构监测方法
CN104516920A (zh) 数据查询方法和数据查询系统
CN109598131A (zh) 一种文件上传、下载方法、装置、电子设备及存储介质
CN109189948B (zh) 一种用于内容标引的数据处理方法及装置
US7711648B2 (en) Method and apparatus for obtaining content license rights via a document link resolver
CN110543457A (zh) 轨迹类文档处理方法和装置、存储介质及电子装置
Liu Digital object identifier (DOI) under the context of research data librarianship
JP2012155681A (ja) フォントサーバ
JP2007299093A (ja) 文書管理システム
CN111814643A (zh) 黑灰url识别方法、装置、电子设备及介质
CN106911758A (zh) 文件获取系统
Duda et al. Ecology in the information age: patterns of use and attrition rates of internet‐based citations in ESA journals, 1997–2005
RU2326433C1 (ru) Способ упрощения доступа к интернет-ресурсам, размещенным в сети интернет, ссылки на которые публикуются в печатных и электронных изданиях
US8510286B1 (en) Method, architecture and platform for content takedown on the internet
US20220114275A1 (en) Data record search with field level user access control
Rocker et al. based dichotomous key to computer based application for biological indentification
CN106933898B (zh) 网页信息的处理方法和装置
CN108304401A (zh) 电子图书搜索方法及系统
JP2010515174A5 (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210824

Address after: 519031 room 105-26897, No. 6, Baohua Road, Hengqin new area, Zhuhai City, Guangdong Province (centralized office area)

Patentee after: Grey wizard Co.,Ltd.

Patentee after: Huiqi Information Science Research Institute Hengqin New District Zhuhai City

Address before: 210042 Xuanwu Road, Xuanwu District, Nanjing, Jiangsu 699-1

Patentee before: QUICKTEXT INFOTECH Co.,Ltd.

Patentee before: GREYSH GROUP Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220208

Address after: 519031 room 1817, building 3, No. 739, qinzheng Road, Hengqin new area, Zhuhai City, Guangdong Province

Patentee after: Grey wizard Co.,Ltd.

Address before: 519031 room 105-26897, No. 6, Baohua Road, Hengqin new area, Zhuhai City, Guangdong Province (centralized office area)

Patentee before: Grey wizard Co.,Ltd.

Patentee before: Zhuhai Hengqin New Area grey wizard Information Science Research Institute