CN102231756A - 一种网络文学科研数据汇交系统 - Google Patents

一种网络文学科研数据汇交系统 Download PDF

Info

Publication number
CN102231756A
CN102231756A CN2011101762507A CN201110176250A CN102231756A CN 102231756 A CN102231756 A CN 102231756A CN 2011101762507 A CN2011101762507 A CN 2011101762507A CN 201110176250 A CN201110176250 A CN 201110176250A CN 102231756 A CN102231756 A CN 102231756A
Authority
CN
China
Prior art keywords
data
module
scientific research
summarization
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101762507A
Other languages
English (en)
Inventor
孟念珩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoxing University Yuanpei College
Original Assignee
Shaoxing University Yuanpei College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoxing University Yuanpei College filed Critical Shaoxing University Yuanpei College
Priority to CN2011101762507A priority Critical patent/CN102231756A/zh
Publication of CN102231756A publication Critical patent/CN102231756A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络文学科研数据汇交系统,该系统包括:收集模块,用于合理的组建成数据的元数据内容,根据这些属性的特点,设计元数据标准格式;链接模块,用于建立与网络系统的链接;获取模块,用于获取用户提交的待搜索数据、查询条件以及网站信息;输入模块,用于将获取的数据提交到用户指定网站,对返回结果进行编码;拆分、汇总模块,根据标签,截取所述返回结果中的数据内容,按设定的模式对所述内容进行拆分,并将拆分后的内容放入对应的字符串数据集中汇总;输出模块,用于保存汇总后的结果到网络文学科研数据汇交平台,并输出。本发明最大限度的为全球网络文学工作者所利用,极大地推动网络文学科学的发展。

Description

一种网络文学科研数据汇交系统
技术领域
本发明涉及一种网络文学科研数据汇交系统。
背景技术
网络文学研究数据汇交平台的建立是在基于共享平台机制的基础上的,通过这些数据平台,网络文学数据最大限度的为全球网络文学工作者所利用,极大地推动了网络文学科学的发展。
互联网是新兴媒体,在人气与快捷程度上一路赶超书、刊、报、广播乃至电视,与主流媒体相抗衡甚至时刻都有“取而代也”之势,当仁不让地成为新世纪传媒的新宠与一大霸主。在追捧的背后,是网络文学的大面积流行。例如,起点网目前拥有注册用户3600多万,每日网页浏览量在4亿左右。相对于传统的实体书,网络文学正成为人们阅读的首选。中国文学以及文化的主战场,逐渐转移到网上了,这是一个更虚拟也更博大的舞台。同时,网络文学的研究也蓬勃兴起,大量的研究资料令人目不暇接。       
目前,我国网络文学研究数据积累已经达到一定规模,这些资料来之不易,是网络文学研究的宝贵资源。近年来,基于网络文学开展多学科研究的数据数量在不断的增加,且随着网络文学科研的持续深化与拓展,以及新兴高技术手段和交叉学科的不断涌现,每年都要有大量新的网络文学研究资料数据产生。如何有效的收集并管理好这些宝贵的资料,利用现代科技手段,用先进的信息和网络技术实现数据共享,为不同学科背景、不同学术思想的组织、团队和研究人员提供真实、可靠、完整的研究资料,充分发挥科学数据的价值和作用,这是一项具有重要意义的基础性工作。因此,利用现代IT技术建立一种网络文学科研数据汇交系统,为研究者提供方便有重要意义。
针对目前数据共享中存在的问题,很多学者和科研人员做了大量的卓有成效的研究和开发工作。特别是对多学科、多类型、多格式的繁杂数据的组织管理上,一种在技术层面上被普遍认同的数据共享模式——基于元数据(metadat)的数据共享模式得到了广泛的应用与推广。
元数据(metadata) ,也称中介数据、描述数据,是 “关于数据的数据” (data about data) ,简单地讲,元数据是描述数据特征的数据,或者是关于数据结构的数据,在数据仓库中,元数据被定义为:描述数据特征及其环境的数据。通俗的比喻是元数据在数据仓库中的作用好比是一本书中的目录。它主要有以下几方面的作用:
(1)数据生产者可以利用元数据对他们生产的数据进行特征描述,说明数据的数据量大小、分布空间、采集时间、采集手段、数据格式等基本特征描述;
(2)数据使用者可以利用元数据了解数据的基本特征,从而决定是否使用该数据,以及怎样有效地使用;
(3)数据管理者利用元数据可以更好地组织管理数据,建立各信息对象之间的关系,为用户提供多层次、多途径的检索体系,可以使用户对数据发现、检索和使用变得容易;
(4) ) 知识产权保护。由于元数据只是实体数据描述性数据,数据提供方可以利用元数据维护其利益。
根据元数据的上述特征,这在技术层面上解决了数据格式设计困难,数据繁杂难以管理的问题。基于元数据的数据汇体系已成为目前很多数据共享中的主要模式。
在众多基于元数据的数据共享体系中,数据管理模式可分为两类:集中式管理和分布式管理。集中式管理要求数据生产者和数据提供单位把元数据和实体数据全部都提交到数据中心进行保管,数据对外发布与共享服务均有数据中心负责。这种管理模式有利于提高网络运行速度,方便数据需求方下载数据。但缺点是实体数据和元数据各个方面的操作和管理都是由数据管理中心人员负责,这无疑给数据共享服务中心带来很大的工作压力和工作量,这对于数据本身的管理、数据质量控制和数据更新很不利。而分布式管理要求数据生产者和数据提供单位只把元数据提交到数据中心,而实体数据本身的管理和处理工作交给了数据的生产和提供方,这样更有利于数据本身的维护和质量控制,同时数据提供方可以充分的使用数据优先使用权,数据需求方如需要下载数据,需要通过数据中心网站的导航到分布在其它地方的数据网站进行链接,这可以很好保护数据生产者的知识产权。但是这种管理模式也容易因计算机技术水平低下和网络稳定性等因素影响全网的运行。另外由于数据不在数据中心存档,很可能因数据生产单位项目组解体而导致数据无法溯源查询,甚至丢失。鉴于网络文学科研数据的特点,网络文学科研数据汇交系统的建立采用分布式管理。
发明内容
本发明的目的在于提供一种网络文学科研数据汇交系统,利用本发明的网络文学科研数据的元数据组织管理数据,建立各信息对象之间的关系,为用户提供多层次、多途径的检索体系,可以使用户对数据发现、检索和使用变得容易。通过这些数据平台,网络文学数据最大限度的为全球网络文学工作者所利用,极大地推动网络文学科学的发展。
一种网络文学科研数据汇交系统,该系统包括:
收集模块,用于合理的组建成数据的元数据内容,根据这些属性的特点,设计元数据标准格式;
链接模块,用于建立与网络系统的链接;
获取模块,用于获取用户提交的待搜索数据、查询条件以及网站信息;
输入模块,用于将获取的数据提交到用户指定网站,对返回结果进行编码;
拆分、汇总模块,根据标签,截取所述返回结果中的数据内容,按设定的模式对所述内容进行拆分,并将拆分后的内容放入对应的字符串数据集中汇总;
输出模块,用于保存汇总后的结果到网络文学科研数据汇交平台,并输出。
所述的元数据内容包括各类体裁作品、作家、研究者及相关资料数据。
本发明的有益效果是:针对网络文学科学数据具有学多学科、多类型、多格式等特点,本发明以各个学科不同类型数据的共有的属性着手,如所有网络文学研究资料的基本特征包括:资料数据学科属性、资料数据采集时间、资料数据采集地点、资料数据类型、资料数据采集单位、保管存放地点等信息,把这些信息合理的组建成数据的元数据内容,根据这些属性的特点,设计元数据标准格式。分布式管理要求数据生产者和数据提供单位只把元数据提交到数据中心,而实体数据本身的管理和处理工作交给了数据的生产和提供方,这样更有利于数据本身的维护和质量控制,同时数据提供方可以充分的使用数据优先使用权,数据需求方如需要下载数据,需要通过数据中心网站的导航到分布在其它地方的数据网站进行链接,这可以很好保护数据生产者的知识产权。鉴于网络文学科研数据的特点,网络文学科研数据汇交系统的建立采用分布式管理。网络文学科研数据收集方式:通常情况下,元数据较实体数据在数据量上小的多,因此元数据可以通过网上提交或用Email信箱提交。而对于一些容量较大的实体数据需要用光盘或磁盘等载体进行存放,这种情况下数据共享服务中心可以派人前往拷贝或来人提交均可。利用网络文学科研数据的元数据组织管理数据,建立各信息对象之间的关系,为用户提供多层次、多途径的检索体系,可以使用户对数据发现、检索和使用变得容易。通过这些数据平台,网络文学数据最大限度的为全球网络文学工作者所利用,极大地推动网络文学科学的发展。
附图说明
图1是本发明的结构示意图。
具体实施方式
 
本实施例的一种网络文学研究数据汇交系统,如图1所示,该系统包括:
收集模块1,用于合理的组建成数据的元数据内容,根据这些属性的特点,设计元数据标准格式;
链接模块2,用于建立与网络系统的链接;
获取模块3,用于获取用户提交的待搜索数据、查询条件以及网站信息;
输入模块4,用于将获取的数据提交到用户指定网站,对返回结果进行编码;
拆分、汇总模块5,根据标签,截取所述返回结果中的数据内容,按设定的模式对所述内容进行拆分,并将拆分后的内容放入对应的字符串数据集中汇总;
输出模块6,用于保存汇总后的结果到网络文学科研数据汇交平台,并输出。
利用本发明的模块完成整个系统的运行过程,如图1所示。本实施方式的信息数据可元数据可以通过网上提交或用Email信箱提交。而对于一些容量较大的实体数据需要用光盘或磁盘等载体进行存放,这种情况下数据共享服务中心可以派人前往拷贝或来人提交均可。资料数据采集十分方便。该方法包括步骤:
1)收集模块1, 先以各个学科不同类型数据的共有的属性着手,把这些信息合理的组建成数据的元数据内容,根据这些属性的特点,设计元数据标准格式;
2)将采集到的资料数据建立网络文学科研数据汇交系统;
3)利用链接模块2,建立与网络系统的链接;
4)利用网络文学科研数据的元数据组织管理数据,建立各信息对象之间的关系,为用户提供多层次、多途径的检索体系,可以使用户对数据发现、检索和使用变得容易;
5)利用获取模块3,获取用户提交的待检索数据、查询条件以及网站信息;
6)利用输入模块4,将以上查询结果信息提交到用户指定的网站,等待返回结果,对所述返回结果进行编码;
7)拆分、汇总模块5,根据HTML标签,截取所述返回结果中的数据内容,按设定的模式对所述数据内容进行拆分,并将拆分后的内容放入对应字符串数据集中汇总;
8)输出模块6,保存本次搜索的所有结果到数据集,并输出。
本实施例利用网络文学科研数据的元数据组织管理数据,建立各信息对象之间的关系,为用户提供多层次、多途径的检索体系,可以使用户对数据发现、检索和使用变得容易。通过这些数据平台,网络文学数据最大限度的为全球网络文学工作者所利用,极大地推动网络文学科学的发展。

Claims (2)

1.一种网络文学科研数据汇交系统,其特征在于该系统包括:
收集模块(1),用于合理的组建成数据的元数据内容,根据这些属性的特点,设计元数据标准格式;
链接模块(2),用于建立与网络系统的链接;
获取模块(3),用于获取用户提交的待搜索数据、查询条件以及网站信息;
输入模块(4),用于将获取的数据提交到用户指定网站,对返回结果进行编码;
拆分、汇总模块(5),根据标签,截取所述返回结果中的数据内容,按设定的模式对所述内容进行拆分,并将拆分后的内容放入对应的字符串数据集中汇总;
输出模块(6),用于保存汇总后的结果到网络文学科研数据汇交平台,并输出。
2.如权利要求1所述的一种网络文学科研数据汇交系统,其特征在于:所述的元数据内容包括各类体裁作品、作家、研究者及相关资料数据。
CN2011101762507A 2011-06-28 2011-06-28 一种网络文学科研数据汇交系统 Pending CN102231756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101762507A CN102231756A (zh) 2011-06-28 2011-06-28 一种网络文学科研数据汇交系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101762507A CN102231756A (zh) 2011-06-28 2011-06-28 一种网络文学科研数据汇交系统

Publications (1)

Publication Number Publication Date
CN102231756A true CN102231756A (zh) 2011-11-02

Family

ID=44844288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101762507A Pending CN102231756A (zh) 2011-06-28 2011-06-28 一种网络文学科研数据汇交系统

Country Status (1)

Country Link
CN (1) CN102231756A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446301A (zh) * 2018-01-26 2018-08-24 阿里巴巴集团控股有限公司 业务文件拆分汇总方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050125419A1 (en) * 2002-09-03 2005-06-09 Fujitsu Limited Search processing system, its search server, client, search processing method, program, and recording medium
CN101187938A (zh) * 2007-11-09 2008-05-28 中国传媒大学 一种多媒体元数据统一描述及检索方法
CN101625690A (zh) * 2009-07-07 2010-01-13 中国科学院地理科学与资源研究所 一种分布式、异构地学数据资源共享访问的方法及装置
CN101625691A (zh) * 2009-07-07 2010-01-13 中国科学院地理科学与资源研究所 一种分布式地学元数据同步实现方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050125419A1 (en) * 2002-09-03 2005-06-09 Fujitsu Limited Search processing system, its search server, client, search processing method, program, and recording medium
CN101187938A (zh) * 2007-11-09 2008-05-28 中国传媒大学 一种多媒体元数据统一描述及检索方法
CN101625690A (zh) * 2009-07-07 2010-01-13 中国科学院地理科学与资源研究所 一种分布式、异构地学数据资源共享访问的方法及装置
CN101625691A (zh) * 2009-07-07 2010-01-13 中国科学院地理科学与资源研究所 一种分布式地学元数据同步实现方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹彦荣等: "《基于元数据的科学数据汇交研究》", 《测绘科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446301A (zh) * 2018-01-26 2018-08-24 阿里巴巴集团控股有限公司 业务文件拆分汇总方法、装置及设备
CN108446301B (zh) * 2018-01-26 2021-10-29 创新先进技术有限公司 业务文件拆分汇总方法、装置及设备

Similar Documents

Publication Publication Date Title
Liu et al. Vide: A vision-based approach for deep web data extraction
Ozcan et al. A five-level static cache architecture for web search engines
CN102890713B (zh) 一种基于用户当前地理位置和物理环境的音乐推荐方法
Choi et al. HadoopXML: a suite for parallel processing of massive XML data with multiple twig pattern queries
WO2013173099A2 (en) Knowledge panel
CN104182482B (zh) 一种新闻列表页判断方法及筛选新闻列表页的方法
CN100477593C (zh) 网络社区中相关讨论区的选取方法及选取装置
Castro-Medina et al. Application of dynamic fragmentation methods in multimedia databases: a review
Khodaei et al. Temporal-textual retrieval: Time and keyword search in web documents
Liu et al. Using provenance to efficiently improve metadata searching performance in storage systems
Rajaraman Kosmix: high-performance topic exploration using the deep web
CN102231756A (zh) 一种网络文学科研数据汇交系统
CN101763441B (zh) 一种以动态目录方式组织检索结果的技术
Kadam Search Engine Optimization Techniques and Tools
Sun Research on interest reading recommendation method of intelligent library based on big data technology
Madaan et al. A novel architecture for a blog crawler
Badesh et al. VDMs for finding and re-finding web search results
Jiang et al. A personalized search engine model based on RSS User's interest
Qin et al. How to make LETOR more useful and reliable
Shi et al. Ecotourism Potential: A Bibliometric Review
Weikum Harvesting, searching, and ranking knowledge on the web: invited talk
Ma et al. ScholatAna: Big Data-Based Academic Social Network User Behavior Preference System
Aleksandrovich RESEARCH OF THE METHODS OF CREATING CONTENT AGGREGATION SYSTEMS
Chen et al. Marcopolo: a community system for sharing and integrating travel information on maps
Rohr et al. Aggregated cross-media news visualization and personalization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20111102