CN1343947A

CN1343947A - 超大量文本信息数据处理方法

Info

Publication number: CN1343947A
Application number: CN 00124537
Authority: CN
Inventors: 胡天木
Original assignee: XINHUA GUOXIN SCIENCE AND TECHNOLOGY CO LTD BEIJING
Current assignee: XINHUA GUOXIN SCIENCE AND TECHNOLOGY CO LTD BEIJING
Priority date: 2000-09-19
Filing date: 2000-09-19
Publication date: 2002-04-10

Abstract

一种超大量文本信息数据处理方法,首先对不同来源的文稿文件进行人工分割,在每篇文稿的标题与正文之间、正文与下一文稿标题之间均插入一分割符,然后将上述格式的文稿导入数据库中,最终用数据库文件形式发布。本发明的优点在于:可对多种不同来源的文稿进行快速编辑,处理的信息量大,对信息的深度处理更容易,检索准确快速。

Description

超大量文本信息数据处理方法

本发明涉及一种数据处理方法，特别是指处理文字稿件的方法。

现在因特网信息服务商处理信息的步骤和流程主要是是这样：

1、确定信息内容结构：在规划设计网站内容之初，必须将整个网站的分类做详细的规划，比如要定义出“国内新闻”、“国际新闻”、“科技新闻”等栏目。栏目一经确定之后，一般很难再做改动，因为一旦改动，必然牵涉到整个体系的改变。

2、收集信息的渠道和处理方式：①信息员提供的文字稿件；②从报纸、杂志上摘录信息；③从网上查找信息；以上的数据来了以后，由公司重新录入、排版成统一格式，并最终形成页面文件(一般都是HTML格式)；④或者将报刊杂志的内容扫描，存成页面文件。

3、发布上网，在完成上述信息编辑制作后存入服务器中，将每条信息的标题放在相应的栏目下，并链接到该信息的页面。

上述信息处理方法的缺陷是：①必须对每条信息逐条进行加工编辑，影响了编辑的速度；②分类不细，使用中一般只能通过全文检索的方式进行检索、查询，检索、查询过程麻烦，效率不高；③通常的编辑器如Ms-Office中的Word、Frontpage及纯文本编辑器等，一般都有容量限制，若同时对大量的信息进行编辑则难以胜任。

本发明的目的在于提供一种超大量文本信息数据处理方法，可以有效地提高信息编辑速度，同时提高信息处理能力。

本发明所提供的超大量文本信息数据处理方法分为以下步骤：

① 对不同来源的文稿文件进行人工分割，在每篇文稿的标题与正文之间、正文与下一文稿标题之间均插入一分割符，形成如下格式：<分割符>标题1<分割符>正文1<分割符>标题2<分割符>正文2<分割符>标题3<分割符>正文3…的格式，其中分割符可采用文稿中不会出现的特殊字符，如“※※※”等。

②入库，将上述格式的文稿导入数据库中，导入后，数据库的格式为：

标题	正文
标题	正文	标题1	正文1
标题2	正文2	标题1	正文1
标题2	正文2	标题3	正文3
…	…	标题3	正文3

③最终用数据库文件形式发布。

导入过程需要数据库支持微软的SQL结构化数据库语言规范，所以在选择数据库方面首先要考虑这一条件，其次还要考虑数据库是否便于管理，应用支持是否广泛，表功能是否强大，是否便于修改、删除、添加数据，是否拥有良好直观的用户界面，以便于非技术人员进行各项操作管理，是否可以在多种格式之间相互转换，是否支持多种数据格式以便于向多种数据库导入数据。

与已有技术相比，本发明的优点在于：可对多种不同来源的文稿进行快速编辑，处理的信息量大，对信息的深度处理更容易，检索准确快速。

下面结合实施例对本发明提供的超大量文本信息数据处理方法作进一步说明。

本实施例为一用于粮油信息网的信息数据处理方法，本例中采用Microsoft access数据库进行数据处理，Microsoft access数据库是一个管理简便、功能齐备、应用支持广泛的数据库，它的开发功能和表功能强大，使它在修改、删除、添加数据方面都很方便。它可以方便地在各种格式之间转换，编辑出的内容可随意被任何数据库和应用程序所使用，例如：Sq1大型数据库、各种文本编辑器、Excell、Dbase、FoxBase等。它的用户界面非常良好直观，最适合非技术人员的使用，使普通人员稍加培训就可上岗工作，这样有利于降低使用成本，使数据库应用趋于平民化。其处理过程为：

①从各地方网站汇总来不同版本格式的电子文稿；

②由人工进行分割，在标题与正文之间、正文与下一篇标题之间插入分割符，本例中分割符为“***”；

③入库过程为：导入之前系统首先要应用Sq1(结构化数据库)语言在空数据库内建立一个Table(表)，品种、属性、时间等字段名是在建库之前就已预先定义的，除了定义Table的名称和字段名外还要定义字段的属性，如：“品种”字段的属性是：

数据类型：字符形数据

字段长度：最长200个字节

是否允许空字符：允许空字符

导入时系统先自动生成序号、时间，然后与标题、正文一起形成一个RECORD(记录)，添加到数据库中，其它的字段暂时为空；等所有数据导入之后由人工使用应用程序根据标题、正文的内容将适当的代码添加到预留的字段中使记录完整，至此完成所有的入库过程。入库后成为如下格式：

序号	标题	正文	品种	属性	时间	区域
序号	标题	正文	品种	属性	时间	区域	1	标题1	正文1	a1 b1 c1	A1 B1 C1	T1
2	标题2	正文2	a2 b2 c2	A2 B2 C2	T2		1	标题1	正文1	a1 b1 c1	A1 B1 C1	T1
2	标题2	正文2	a2 b2 c2	A2 B2 C2	T2		3	标题3	正文3	a3 b3 c3	A3 B3 C3	T3
4	标题4	正文4	a4 b4 c4	A4 B4 C4	T4		3	标题3	正文3	a3 b3 c3	A3 B3 C3	T3
4	标题4	正文4	a4 b4 c4	A4 B4 C4	T4		…	…	…	…	…	…	…

④用数据库文件形式INTERNET网上发布。

Claims

一种超大量文本信息数据处理的方法，其特征在于分为以下步骤：

①对不同来源的文稿文件进行人工分割，在每篇文稿的标题与正文之间、正文与下一文稿标题之间均插入一分割符，形成如下格式：<分割符>标题1<分割符>正文1<分割符>标题2<分割符>正文2<分割符>标题3<分割符>正文3…的格式，其中分割符可采用文稿中不会出现的特殊字符；

②入库，将上述格式的文稿导入数据库中，导入后，数据库的格式为：标题正文标题1 正文1 标题2 正文2 标题3 正文3 … …

③最终用数据库文件形式发布。