CN1343947A - 超大量文本信息数据处理方法 - Google Patents

超大量文本信息数据处理方法 Download PDF

Info

Publication number
CN1343947A
CN1343947A CN 00124537 CN00124537A CN1343947A CN 1343947 A CN1343947 A CN 1343947A CN 00124537 CN00124537 CN 00124537 CN 00124537 A CN00124537 A CN 00124537A CN 1343947 A CN1343947 A CN 1343947A
Authority
CN
China
Prior art keywords
text
title
decollator
database
manuscript
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 00124537
Other languages
English (en)
Inventor
胡天木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XINHUA GUOXIN SCIENCE AND TECHNOLOGY CO LTD BEIJING
Original Assignee
XINHUA GUOXIN SCIENCE AND TECHNOLOGY CO LTD BEIJING
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XINHUA GUOXIN SCIENCE AND TECHNOLOGY CO LTD BEIJING filed Critical XINHUA GUOXIN SCIENCE AND TECHNOLOGY CO LTD BEIJING
Priority to CN 00124537 priority Critical patent/CN1343947A/zh
Publication of CN1343947A publication Critical patent/CN1343947A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种超大量文本信息数据处理方法,首先对不同来源的文稿文件进行人工分割,在每篇文稿的标题与正文之间、正文与下一文稿标题之间均插入一分割符,然后将上述格式的文稿导入数据库中,最终用数据库文件形式发布。本发明的优点在于:可对多种不同来源的文稿进行快速编辑,处理的信息量大,对信息的深度处理更容易,检索准确快速。

Description

超大量文本信息数据处理方法
本发明涉及一种数据处理方法,特别是指处理文字稿件的方法。
现在因特网信息服务商处理信息的步骤和流程主要是是这样:
1、确定信息内容结构:在规划设计网站内容之初,必须将整个网站的分类做详细的规划,比如要定义出“国内新闻”、“国际新闻”、“科技新闻”等栏目。栏目一经确定之后,一般很难再做改动,因为一旦改动,必然牵涉到整个体系的改变。
2、收集信息的渠道和处理方式:①信息员提供的文字稿件;②从报纸、杂志上摘录信息;③从网上查找信息;以上的数据来了以后,由公司重新录入、排版成统一格式,并最终形成页面文件(一般都是HTML格式);④或者将报刊杂志的内容扫描,存成页面文件。
3、发布上网,在完成上述信息编辑制作后存入服务器中,将每条信息的标题放在相应的栏目下,并链接到该信息的页面。
上述信息处理方法的缺陷是:①必须对每条信息逐条进行加工编辑,影响了编辑的速度;②分类不细,使用中一般只能通过全文检索的方式进行检索、查询,检索、查询过程麻烦,效率不高;③通常的编辑器如Ms-Office中的Word、Frontpage及纯文本编辑器等,一般都有容量限制,若同时对大量的信息进行编辑则难以胜任。
本发明的目的在于提供一种超大量文本信息数据处理方法,可以有效地提高信息编辑速度,同时提高信息处理能力。
本发明所提供的超大量文本信息数据处理方法分为以下步骤:
①  对不同来源的文稿文件进行人工分割,在每篇文稿的标题与正文之间、正文与下一文稿标题之间均插入一分割符,形成如下格式:<分割符>标题1<分割符>正文1<分割符>标题2<分割符>正文2<分割符>标题3<分割符>正文3…的格式,其中分割符可采用文稿中不会出现的特殊字符,如“※※※”等。
②入库,将上述格式的文稿导入数据库中,导入后,数据库的格式为:
  标题   正文
  标题1   正文1
  标题2   正文2
  标题3   正文3
   …    …
③最终用数据库文件形式发布。
导入过程需要数据库支持微软的SQL结构化数据库语言规范,所以在选择数据库方面首先要考虑这一条件,其次还要考虑数据库是否便于管理,应用支持是否广泛,表功能是否强大,是否便于修改、删除、添加数据,是否拥有良好直观的用户界面,以便于非技术人员进行各项操作管理,是否可以在多种格式之间相互转换,是否支持多种数据格式以便于向多种数据库导入数据。
与已有技术相比,本发明的优点在于:可对多种不同来源的文稿进行快速编辑,处理的信息量大,对信息的深度处理更容易,检索准确快速。
下面结合实施例对本发明提供的超大量文本信息数据处理方法作进一步说明。
本实施例为一用于粮油信息网的信息数据处理方法,本例中采用Microsoft access数据库进行数据处理,Microsoft access数据库是一个管理简便、功能齐备、应用支持广泛的数据库,它的开发功能和表功能强大,使它在修改、删除、添加数据方面都很方便。它可以方便地在各种格式之间转换,编辑出的内容可随意被任何数据库和应用程序所使用,例如:Sq1大型数据库、各种文本编辑器、Excell、Dbase、FoxBase等。它的用户界面非常良好直观,最适合非技术人员的使用,使普通人员稍加培训就可上岗工作,这样有利于降低使用成本,使数据库应用趋于平民化。其处理过程为:
①从各地方网站汇总来不同版本格式的电子文稿;
②由人工进行分割,在标题与正文之间、正文与下一篇标题之间插入分割符,本例中分割符为“***”;
③入库过程为:导入之前系统首先要应用Sq1(结构化数据库)语言在空数据库内建立一个Table(表),品种、属性、时间等字段名是在建库之前就已预先定义的,除了定义Table的名称和字段名外还要定义字段的属性,如:“品种”字段的属性是:
数据类型:字符形数据
字段长度:最长200个字节
是否允许空字符:允许空字符
导入时系统先自动生成序号、时间,然后与标题、正文一起形成一个RECORD(记录),添加到数据库中,其它的字段暂时为空;等所有数据导入之后由人工使用应用程序根据标题、正文的内容将适当的代码添加到预留的字段中使记录完整,至此完成所有的入库过程。入库后成为如下格式:
序号   标题   正文   品种   属性   时间   区域
    1     标题1   正文1   a1 b1 c1   A1 B1 C1     T1
    2     标题2   正文2   a2 b2 c2   A2 B2 C2     T2
    3     标题3   正文3   a3 b3 c3   A3 B3 C3     T3
    4     标题4   正文4   a4 b4 c4   A4 B4 C4     T4
 …      …    …     …      …     …    …
④用数据库文件形式INTERNET网上发布。

Claims (1)

  1. 一种超大量文本信息数据处理的方法,其特征在于分为以下步骤:
    ①对不同来源的文稿文件进行人工分割,在每篇文稿的标题与正文之间、正文与下一文稿标题之间均插入一分割符,形成如下格式:<分割符>标题1<分割符>正文1<分割符>标题2<分割符>正文2<分割符>标题3<分割符>正文3…的格式,其中分割符可采用文稿中不会出现的特殊字符;
    ②入库,将上述格式的文稿导入数据库中,导入后,数据库的格式为:   标题   正文   标题1   正文1   标题2   正文2   标题3   正文3   …    …
    ③最终用数据库文件形式发布。
CN 00124537 2000-09-19 2000-09-19 超大量文本信息数据处理方法 Pending CN1343947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 00124537 CN1343947A (zh) 2000-09-19 2000-09-19 超大量文本信息数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 00124537 CN1343947A (zh) 2000-09-19 2000-09-19 超大量文本信息数据处理方法

Publications (1)

Publication Number Publication Date
CN1343947A true CN1343947A (zh) 2002-04-10

Family

ID=4590486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 00124537 Pending CN1343947A (zh) 2000-09-19 2000-09-19 超大量文本信息数据处理方法

Country Status (1)

Country Link
CN (1) CN1343947A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100445997C (zh) * 2005-12-30 2008-12-24 英业达股份有限公司 数据同步方法与系统
CN101976236A (zh) * 2010-09-26 2011-02-16 用友软件股份有限公司 通过工作表导入浮动行数据的方法和装置
CN104252444A (zh) * 2013-06-27 2014-12-31 腾讯科技(北京)有限公司 一种杂志应用的排版方法、模块和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100445997C (zh) * 2005-12-30 2008-12-24 英业达股份有限公司 数据同步方法与系统
CN101976236A (zh) * 2010-09-26 2011-02-16 用友软件股份有限公司 通过工作表导入浮动行数据的方法和装置
CN104252444A (zh) * 2013-06-27 2014-12-31 腾讯科技(北京)有限公司 一种杂志应用的排版方法、模块和系统

Similar Documents

Publication Publication Date Title
US6539370B1 (en) Dynamically generated HTML formatted reports
US5530852A (en) Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics
US6092074A (en) Dynamic insertion and updating of hypertext links for internet servers
US6748385B1 (en) Dynamic insertion and updating of hypertext links for internet servers
US5926812A (en) Document extraction and comparison method with applications to automatic personalized database searching
CN100507915C (zh) 网络搜索方法、网络搜索设备和用户终端
US8386513B2 (en) System and method for analyzing, integrating and updating media contact and content data
US20090138472A1 (en) Method of Supplying Information Articles at a Website and a System for Supplying Such Articles
US8296324B2 (en) Systems and methods for analyzing, integrating and updating media contact and content data
US20070282869A1 (en) Automatically generating web forms from database schema
US20040205044A1 (en) Method for storing inverted index, method for on-line updating the same and inverted index mechanism
US20100217777A1 (en) System for Automatic Arrangement of Portlets on Portal Pages According to Semantical and Functional Relationship
KR20010112686A (ko) 웹문서 레이아웃 이미지 및 웹사이트 구조를 제공하여인터넷 검색을 용이하게 할 수 있는 시스템 및 방법
CN105320745A (zh) 基于共同元素的用于过滤和组织条目的系统
WO2004066062A2 (en) A system and method for providing content warehouse
US20020143737A1 (en) Information retrieval device and service
CN102081649B (zh) 一种搜索电脑文件的方法及其系统
US20020049686A1 (en) System, method and article of manufacuture for personal catalog and knowledge management
CN107644050A (zh) 一种基于solr的Hbase的查询方法及装置
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和系统
US20040162891A1 (en) Accessing, viewing and manipulation of archived information
US20050060353A1 (en) Method and system for personalized information management
CN1343947A (zh) 超大量文本信息数据处理方法
JP2004326712A (ja) インターネット上における求人情報の自動収集方法および供給方法
CN102004727A (zh) 一种知识数据处理系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication