CN110287235A - 一种将中国专家英文文献的英文署名转换为中文名的方法 - Google Patents

一种将中国专家英文文献的英文署名转换为中文名的方法 Download PDF

Info

Publication number
CN110287235A
CN110287235A CN201910542766.5A CN201910542766A CN110287235A CN 110287235 A CN110287235 A CN 110287235A CN 201910542766 A CN201910542766 A CN 201910542766A CN 110287235 A CN110287235 A CN 110287235A
Authority
CN
China
Prior art keywords
english
chinese
china
expert
literature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910542766.5A
Other languages
English (en)
Inventor
刘慧伟
胡俊松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wing Wing Network Technology Co Ltd
Original Assignee
Shanghai Wing Wing Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wing Wing Network Technology Co Ltd filed Critical Shanghai Wing Wing Network Technology Co Ltd
Priority to CN201910542766.5A priority Critical patent/CN110287235A/zh
Publication of CN110287235A publication Critical patent/CN110287235A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种将中国专家英文文献的英文署名转换为中文名的方法,包括以下步骤:S1、从选定的英文文献库中挑选出h指数达到预设值的中国顶尖专家发表的论文,构建中国顶尖专家论文库;S2、以人工方式将中国顶尖专家的英文名翻译为中文名;S3、从选定的英文文献库中构建中国顶尖专家的英文文献合作网络库;S4、从选定的中文文献库中构建中国顶尖专家的中文文献合作网络库;S5、将所述英文文献合作网络库的其他英文署名与所述中文文献合作网络库的其他中文署名进行比对,得出其他英文署名对应的中文名。本发明在人工翻译的基础上,实现自动查找和核实合作者的中英文名信息,减少了查询相关科研人员科研信息所需耗费的时间。

Description

一种将中国专家英文文献的英文署名转换为中文名的方法
技术领域
本发明涉及数据挖掘,尤其涉及一种将中国专家英文文献的英文署名转换为中文名的方法。
背景技术
科研人员一般都会在国内以及国际上发表研究成果,即包括中文文献和英文文献在内。如果是中国顶尖专家,则一般都比较容易找得到其所发表的中文文献和英文文献。但是如果不是中国顶尖专家的科研人员,则要找全其所发表的中文文献和英文文献,则存在困难,因为其公开的信息相对较少,不容易核实确认,且存在的重名的可能性。如果通过人工来查找和核实的话,会存在很大的障碍,增加了很多不必要的工作负担。
发明内容
为了解决查询中国非顶尖专家的科研人员发表科研成果信息困难的技术问题,本发明提出了一种将中国专家英文文献的英文署名转换为中文名的方法。
一种将中国专家英文文献的英文署名转换为中文名的方法,包括以下步骤:
S1、从选定的英文文献库中挑选出h指数达到预设值的中国顶尖专家发表的论文,构建中国顶尖专家论文库;
S2、以人工方式将中国顶尖专家的英文名翻译为中文名;
S3、从选定的英文文献库中构建中国顶尖专家的英文文献合作网络库;
S4、从选定的中文文献库中构建中国顶尖专家的中文文献合作网络库;
S5、将所述英文文献合作网络库的其他英文署名与所述中文文献合作网络库的其他中文署名进行比对,得出其他英文署名对应的中文名。
较佳的,S1包括以下步骤:按照h指数为第一排序维度,发文量为第二排序维度,对中国顶尖专家进行排序,h指数越高,发文量越大,则排名越靠前。
较佳的,S2包括以下步骤:按照排名的顺序人工翻译中国顶尖专家的英文名。
较佳的,S3包括以下步骤:
S31、按照排名的顺序选择中国顶尖专家;
S32、通过选定的英文文献库提供的接口,抓取该中国顶尖专家发表的文章放入该中国顶尖专家的英文文献库中;
S33、从该中国顶尖专家的英文文献库中提取合作者姓名,合作者每与该中国顶尖专家合作一篇文章,则合作次数加1;
S34、按照与该中国顶尖专家的英文文献合作次数从多到少依次排序合作者。
较佳的,S4包括以下步骤:
S41、按照排名的顺序选择中国顶尖专家;
S42、通过选定的中文文献库提供的接口,抓取该中国顶尖专家发表的文章放入该中国顶尖专家的中文文献库中;
S43、从该中国顶尖专家的中文文献库中提取合作者姓名,合作者每与该中国顶尖专家合作一篇文章,则合作次数加1。
较佳的,S5包括以下步骤:将中国顶尖专家的中文文献合作网络库的合作者的中文名翻译为英文名,按照与该中国顶尖专家的英文文献合作次数从多到少的顺序,将英文文献的合作者英文名与翻译好的中文文献的合作者的英文名进行对比,若相同,则实现中国专家英文名转换为中文名。
与现有技术相比,本发明的有益效果是:
本发明从中国顶尖专家作为突破口,构建英文文献合作网络库以及中文文献合作网络库,获得合作者中英文名信息,通过中英文署名的对比,得出合作者的确切的中英文名信息;
本发明只需要对中国顶尖专家进行人工翻译,而利用文献计量学、图论、统计学以及计算机技术实现自动查找和核实中国顶尖专家的合作者的中英文名信息,大大减少了查找科研人员相关信息所需要耗费的时间。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
图1为本发明的一种将中国专家英文文献的英文署名转换为中文名的方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。
如图1所示,一种将中国专家英文文献的英文署名转换为中文名的方法,包括以下步骤:
S1、从选定的英文文献库中挑选出h指数达到预设值的中国顶尖专家发表的论文,构建中国顶尖专家论文库。
以Elsevier的Scopus数据库为基础,以百家姓为规则,挑选中国顶尖专家和其论文,构建中国专家库。按照h指数为第一排序维度,发文量为第二排序维度,对中国专家进行排序。每500名专家分为一段,从高到低给每一段编号,依次为1号段、2号段、3号段……数字越小,其中的专家水平越顶尖。姓名翻译的顺序是按序号从高到底做。
S2、以人工方式将中国顶尖专家的英文名翻译为中文名。
按照排名的顺序人工翻译中国顶尖专家的英文名。这里以Zhao Dongyuan为例,其姓名为三个字,重名的概率低,同时其发文量为682篇,H指数为133。像这种三个字的顶尖专家重名的可能性微乎其微,可以忽略不计。中国顶尖专家的中文名翻译采用人工方式,因为中国顶尖专家的相关信息在互联网上是非常丰富的,比较容易找到。Zhao Dongyuan对应着复旦大学的赵东元院士。
S3、从选定的英文文献库中构建中国顶尖专家的英文文献合作网络库。
通过论文的合作关系构建中国顶尖专家的合作网络。以步骤S1的中国顶尖专家名单为基础,通过Elsevier提供的接口,抓取这些专家发表的文章放入中国顶尖专家的文章库中。从文章中提取合作者姓名,每合作一篇文章,则合作次数加1,存入到数据库中,从而形成了中国顶尖专家的英文文献合作网络库。其中,硬件采用普通PC服务器,开发语言为java,文件系统采用Hadoop分布式文件系统,数据库为HBase,算法是map-reduce。
作为一种实施例,S3包括以下步骤:
S31、按照排名的顺序选择中国顶尖专家;
S32、通过选定的英文文献库提供的接口,抓取该中国顶尖专家发表的文章放入该中国顶尖专家的英文文献库中;
S33、从该中国顶尖专家的英文文献库中提取合作者姓名,合作者每与该中国顶尖专家合作一篇文章,则合作次数加1;
S34、按照与该中国顶尖专家的英文文献合作次数从多到少依次排序合作者。
以赵东元的一篇论文《Synthesis of highly ordered mesoporous crystallineWS and MoS via a high-temperature reductive sulfuration route》为例,署名作者为Shi Yifeng,Wan Ying,Liu Ruili,Tu Bo,Zhao Dongyuan,作者数量为5,仅考虑合作者与中国顶尖专家之间的合作,这篇文章的合作网络数据的数量为n-1,n为一篇文章的作者数量。将其所有论文形成的合作数据进行合并,形成其合作网络库,形式如表1所示,其中第一列为中国顶尖专家Zhao Dongyuan,第二列为合作者英文名,最后一类为中国顶尖专家与合作者之间的英文文献合作次数,合作次数按从大到小的顺序排列。
表1
S4、从选定的中文文献库中构建中国顶尖专家的中文文献合作网络库。
作为一种实施例,步骤S4包括以下步骤:
S41、按照排名的顺序选择中国顶尖专家;
S42、通过选定的中文文献库提供的接口,抓取该中国顶尖专家发表的文章放入该中国顶尖专家的中文文献库中;
S43、从该中国顶尖专家的中文文献库中提取合作者姓名,合作者每与该中国顶尖专家合作一篇文章,则合作次数加1。
以专利号为CN1821182A的专利为例,专利名称为《一种介孔碳材料的制备方法》,发明人为:赵东元;刘瑞丽;孟岩;施益峰;张福强;顾栋;万颖;屠波。作者数量为8,仅考虑合作者与中国顶尖专家之间的合作,这篇文章的合作网络数据的数量为n-1,其中n为一篇中文文章或中文专利的作者数量。将所有中文论文或中文专利形成的合作数据进行合并,形成其合作网络库,形式如表2所示,其中第一列是中国顶尖专家中文名赵东元,第二列是合作者的中文名,第三列是中国顶尖专家与合作者的合作次数,合作次数随机排列。
表2
S5、将所述英文文献合作网络库的其他英文署名与所述中文文献合作网络库的其他中文署名进行比对,得出其他英文署名对应的中文名。
将中国顶尖专家的中文文献合作网络库的合作者的中文名翻译为英文名,按照与该中国顶尖专家的英文文献合作次数从多到少的顺序,将英文文献的合作者英文名与翻译好的中文文献的合作者的英文名进行对比,若相同,则实现中国专家英文名转换为中文名。
继续以赵东元的一篇论文《Synthesis of highly ordered mesoporouscrystalline WS and MoS via a high-temperature reductive sulfuration route》为例,署名作者为Shi Yifeng,Wan Ying,Liu Ruili,Tu Bo,Zhao Dongyuan,比对结果后的作者中文名为:施益峰,万颖,刘瑞丽,屠波,赵东元。将比对数据写回中国专家库,从而获得英文文献中国专家的英文署名对应的中文名。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种将中国专家英文文献的英文署名转换为中文名的方法,其特征在于,包括以下步骤:
S1、从选定的英文文献库中挑选出h指数达到预设值的中国顶尖专家发表的论文,构建中国顶尖专家论文库;
S2、以人工方式将中国顶尖专家的英文名翻译为中文名;
S3、从选定的英文文献库中构建中国顶尖专家的英文文献合作网络库;
S4、从选定的中文文献库中构建中国顶尖专家的中文文献合作网络库;
S5、将所述英文文献合作网络库的其他英文署名与所述中文文献合作网络库的其他中文署名进行比对,得出其他英文署名对应的中文名。
2.根据权利要求1所述的一种将中国专家英文文献的英文署名转换为中文名的方法,其特征在于,S1包括以下步骤:按照h指数为第一排序维度,发文量为第二排序维度,对中国顶尖专家进行排序,h指数越高,发文量越大,则排名越靠前。
3.根据权利要求2所述的一种将中国专家英文文献的英文署名转换为中文名的方法,其特征在于,S2包括以下步骤:按照排名的顺序人工翻译中国顶尖专家的英文名。
4.根据权利要求3所述的一种将中国专家英文文献的英文署名转换为中文名的方法,其特征在于,S3包括以下步骤:
S31、按照排名的顺序选择中国顶尖专家;
S32、通过选定的英文文献库提供的接口,抓取该中国顶尖专家发表的文章放入该中国顶尖专家的英文文献库中;
S33、从该中国顶尖专家的英文文献库中提取合作者姓名,合作者每与该中国顶尖专家合作一篇文章,则合作次数加1;
S34、按照与该中国顶尖专家的英文文献合作次数从多到少依次排序合作者。
5.根据权利要求4所述的一种将中国专家英文文献的英文署名转换为中文名的方法,其特征在于,S4包括以下步骤:
S41、按照排名的顺序选择中国顶尖专家;
S42、通过选定的中文文献库提供的接口,抓取该中国顶尖专家发表的文章放入该中国顶尖专家的中文文献库中;
S43、从该中国顶尖专家的中文文献库中提取合作者姓名,合作者每与该中国顶尖专家合作一篇文章,则合作次数加1。
6.根据权利要求5所述的一种将中国专家英文文献的英文署名转换为中文名的方法,其特征在于,S5包括以下步骤:将中国顶尖专家的中文文献合作网络库的合作者的中文名翻译为英文名,按照与该中国顶尖专家的英文文献合作次数从多到少的顺序,将英文文献的合作者英文名与翻译好的中文文献的合作者的英文名进行对比,若相同,则实现中国专家英文名转换为中文名。
CN201910542766.5A 2019-06-21 2019-06-21 一种将中国专家英文文献的英文署名转换为中文名的方法 Pending CN110287235A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910542766.5A CN110287235A (zh) 2019-06-21 2019-06-21 一种将中国专家英文文献的英文署名转换为中文名的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910542766.5A CN110287235A (zh) 2019-06-21 2019-06-21 一种将中国专家英文文献的英文署名转换为中文名的方法

Publications (1)

Publication Number Publication Date
CN110287235A true CN110287235A (zh) 2019-09-27

Family

ID=68004485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910542766.5A Pending CN110287235A (zh) 2019-06-21 2019-06-21 一种将中国专家英文文献的英文署名转换为中文名的方法

Country Status (1)

Country Link
CN (1) CN110287235A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1848866A (zh) * 2005-04-04 2006-10-18 英华达(南京)科技有限公司 通讯装置电话簿快速搜寻方法
CN104881398A (zh) * 2014-08-29 2015-09-02 北京大学 中国作者所发英文文献的作者机构信息抽取方法
CN106953959A (zh) * 2017-04-18 2017-07-14 深圳和家园网络科技有限公司 一种基于拼音匹配的电话拨号方法
CN107861953A (zh) * 2017-10-19 2018-03-30 聊城大学 一种名称自动翻译系统及方法
CN109726280A (zh) * 2018-12-29 2019-05-07 北京邮电大学 一种针对同名学者的排歧方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1848866A (zh) * 2005-04-04 2006-10-18 英华达(南京)科技有限公司 通讯装置电话簿快速搜寻方法
CN104881398A (zh) * 2014-08-29 2015-09-02 北京大学 中国作者所发英文文献的作者机构信息抽取方法
CN106953959A (zh) * 2017-04-18 2017-07-14 深圳和家园网络科技有限公司 一种基于拼音匹配的电话拨号方法
CN107861953A (zh) * 2017-10-19 2018-03-30 聊城大学 一种名称自动翻译系统及方法
CN109726280A (zh) * 2018-12-29 2019-05-07 北京邮电大学 一种针对同名学者的排歧方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋文强: "科技文献作者重名消歧与实体链接", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Similar Documents

Publication Publication Date Title
Rejkuba et al. Bright globular clusters in NGC 5128: the missing link between young massive clusters and evolved massive objects
US9448992B2 (en) Natural language search results for intent queries
CN102368262B (zh) 一种提供与查询序列相对应的搜索建议的方法与设备
CN101194256B (zh) 具有表意文字和音标字符的语言的自动输入完成的方法和系统
US10719559B2 (en) System for identifying, associating, searching and presenting documents based on time sequentialization
Van Zwol et al. Faceted exploration of image search results
US20110113047A1 (en) System and method for publishing aggregated content on mobile devices
JP2001513242A (ja) テキスト処理及び検索システム及び方法
JP2007102786A (ja) 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム
Hienert et al. A novel combined term suggestion service for domain-specific digital libraries
WO2014034383A1 (ja) 情報処理装置、レコード位置情報特定方法および情報処理プログラム
CN103377188A (zh) 翻译库的构建方法及系统
Dumani et al. Quality-aware ranking of arguments
CN106649879A (zh) 一种图书馆专业书籍智能推荐方法
CN110287235A (zh) 一种将中国专家英文文献的英文署名转换为中文名的方法
Xue et al. Review of research on knowledge domains in university governance: Mapping literature in English and Chinese
JP2009259039A (ja) 複数のデータベースの検索方法及びメタ検索サーバ
Poomagal et al. K-means for search results clustering using url and tag contents
Apanovich et al. Experiments on using LOD cloud datasets to enrich the content of a scientific knowledge base
Chin et al. On‐demand recent personal tweets summarization on mobile devices
CN110795943B (zh) 一种针对事件的话题表示生成方法及系统
Yang et al. Document re-ranking based on global and local terms
Cha et al. CBDIR: Fast and effective content based document Information Retrieval system
Leong The convergence of metadata and bibliographic control? Trends and patterns in addressing the current issues and challenges of providing subject access
Wang et al. Compact indexes based on core content in personal dataspace management system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190927

RJ01 Rejection of invention patent application after publication