CN102103611A - 一种信息存储、或读取的方法及装置 - Google Patents

一种信息存储、或读取的方法及装置 Download PDF

Info

Publication number
CN102103611A
CN102103611A CN2009102430037A CN200910243003A CN102103611A CN 102103611 A CN102103611 A CN 102103611A CN 2009102430037 A CN2009102430037 A CN 2009102430037A CN 200910243003 A CN200910243003 A CN 200910243003A CN 102103611 A CN102103611 A CN 102103611A
Authority
CN
China
Prior art keywords
information
attribute
read
text message
reads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102430037A
Other languages
English (en)
Inventor
朱傲
闵旺华
赵东岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN2009102430037A priority Critical patent/CN102103611A/zh
Publication of CN102103611A publication Critical patent/CN102103611A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息存储,或读取的方法和装置,用以提高信息存取的效率。其中,信息存储的方法包括:信息平台读取待存储信息的属性标识,当读取的属性标识是正文标识时,在数据库中为所述待存储信息设置链接有效信息。

Description

一种信息存储、或读取的方法及装置
技术领域
本发明涉及数据库技术领域,特别涉及一种信息存储、或读取的方法及装置。
背景技术
随着网络媒体的发展,信息的数量急剧增加。每个信息平台为管理各自的信息内容都会建立对应的数据库。例如:数据库中包括:信息编号、信息标题、信息发布时间等等。针对各条信息内容的正文,也会在数据库中进行备份,一般建立一条大文本字段(clob)来表示。而信息内容的正文往往篇幅比较长,信息量也比较大,这时,表示信息正文的clob字段就会比较长。
在数据库中存储信息时,由于表示信息正文的clob字段比较长,进行存储时会耗费大量的时间,clob字段越长,存储时间的消耗就更加明显。
在数据库中查询信息时,可能只需查看信息的标题或者发布时间,而并不需要查看信息的正文,但是返回查询结果中仍然包括表示信息正文的clob字段,并且clob字段比较长,占用大量的资源。
可见,在数据库在存取一条表示信息正文的clob字段时,若字段内容较长,其存储时间较长,从而,造成了内存资源的不必要消耗,并使得信息存取的效率低下。
发明内容
本发明实施例提供一种信息存储,或读取的方法及装置,用以提高信息存取的效率。
本发明实施例提供一种信息存储的方法,包括:
信息平台读取待存储信息的属性标识;
当读取的属性标识是正文标识时,在数据库中为所述待存储信息设置链接有效信息。
本发明实施例提供一种信息读取的方法,包括:
读取待读取信息的每条属性信息;
当读取的属性信息是链接有效信息时,根据保存的身份标识与正文信息的对应关系,确定所述待读取信息的身份标识对应的正文信息;
呈现确定的所述正文信息。
本发明实施例提供一种信息存储的装置,包括:
读取单元,用于读取待存储信息的属性标识;
配置单元,用于当读取的属性标识是正文标识时,在数据库中为所述待存储信息设置链接有效信息。
本发明实施例提供一种信息读取的装置,包括:
读取单元,用于读取待读取信息的每条属性信息;
确定单元,用于当读取的属性信息是链接有效信息时,根据保存的身份标识与正文信息的对应关系,确定所述待读取信息的身份标识对应的正文信息;
呈现单元,用于呈现确定的所述正文信息。
本发明实施例中,信息平台保存了每条信息的身份标识与正文信息的对应关系,这样,存储信息时,当读取的待存储信息的属性标识为正文标识时,不需要存储该正文标识对应的正文信息,只需要在数据库中为所述待存储信息设置链接有效信息,这样,极大的减少了存储的信息量,提高信息存储的效率。
附图说明
图1为本发明实施例中信息存储的流程图;
图2为本发明实施例中信息读取的流程图;
图3为本发明实施例中信息存储的装置结构图;
图4为本发明实施例中信息存储的装置结构图。
具体实施方式
本发明实施例,信息平台保存了每一条信息,这样,每条信息的正文都有一条对应的存储路径,并且每条信息都有一个唯一的身份标识,即ID,这样,信息平台建立并保存了每条信息的身份标识与存储路径的第一对应关系,以及存储路径与正文信息的第二对应关系。
信息平台建立数据库管理每一条信息,将一条信息存入数据库包括:读取该条信息的每条属性标识,将读取的属性标识对应的属性信息存入数据库中对应的位置。这里,属性标识包括:身份标识、标题标识、作者标识、发布时间标识、评论标识、或正文标识。对应的属性信息分别为:身份信息、标题信息、作者信息、发布时间信息、评论信息、以及正文信息。
当读取的属性信息为正文标识时,其对应的正文信息可能包含的内容很多,如果将该正文信息存入到数据库中对应的位置时,表示正文信息的字段就会比较长,存储的时间也会比较长,因此,本发明实施例中,不在数据库中存储正文信息。
参见图1,本发明实施例信息平台中,信息存储的过程包括:
步骤101:信息平台读取待存储信息的属性标识。
这里,属性标识包括:ID、标题标识、作者标识、发布时间标识、评论标识、或正文标识。
信息平台中的待存储信息的格式有多种,包括:可扩展标记语言(XML,Extensible Markup Language)格式,HTML格式,TXT格式等等。
当待存储信息为XML格式文件时,直接读取XML格式文件中的类型标签。具体可以操作XML的相应技术,如Dom4j,SAXReader等读取XML格式文件,当读取到标题标签时,则获取到该待存储信息的标题标识,当读取到正文标签时,则获取到该待存储信息的正文标识。
例如:待存储信息为XML格式文件,DOC/CONTENT中存储了表DOC_PAPER_ARTICLES中ID为D11000bjcb_20090926的信息,具体为:
<DOCS>
<DOC_ID=″D11000bjcb_20090926″DOC_TYPE=″DOC_PAPER_ARTICLES″>
<CONTENT>
<![CDATA[晨报长春讯“我没想到能被传到网上被大家品头论足,有点意外。”说起自己的视频被传到网上并出现了超高点击率,被喻为长春男主播版的“刘翔”显得有点尴尬,其实“刘翔”真名叫刘畅。
]]>
</CONTENT>
</DOC>
</DOCS>
这样,该信息的属性标识分别包括:ID、DOC_TYPE、以及CONTENT。
当然,待存储的信息格式也包括其他的信息平台能识别的文件格式。当待存储信息为TXT格式文件,也可以通过在文本文件中设立特殊字符来标识属性信息,例如:设立一个特殊的字符“#”对应正文信息的开始和结束,那么,当读取该特性字符“#”时,即可确定读取的是正文标识。同样类似的其他文件格式也可以采取相应的措施进行读取。
步骤102:判断读取的属性标识是否为正文标识,如果是执行步骤103,否则,执行步骤104。
这里,对读取的每个属标识进行判断,当读取的属性标识为正文标识时,执行步骤103,否则,执行步骤104。
例如:上述XML格式文件中,如果读取的属性标识为“ID”,确定不是正文标识,执行步骤104。如果读取的属性标识为“CONTENT”,确定是正文标识,执行步骤103。。
步骤103:在数据库中为待存储信息设置链接有效信息。
这里,读取的属性标识为正文标识时,本发明实施例中,不需要在数据库中存储正文信息,只需要在数据库中为待存储信息设置链接有效信息。其中,链接有效信息用于表示该待存储信息的正文信息是有链接的。即通过与该正文对应的存储路径,即可链接查找到正文信息。
这里,可以在数据库中正文标识对应的属性信息中设置一个链接有效信息。例如:将正文标识“CONTEENT”对应的属性信息设置为“extfile”。即“extfile”为链接有效信息。
还可以在数据库中预先设置了链接标识,当数据库中不存储正文信息时,将该链接标识对应的属性信息设置为链接有效信息。例如:设置一个链接标识“LINK”,当在数据库中不存储正文信息时,该链接标识“LINK”对应的属性信息置为“YES”,则“YES”为链接有效信息。
步骤104:将读取的属性标识对应的属性信息存入数据库中。
这里,读取的属性标识不是正文标识,可见,其对应的属性信息的内容比较简单,因此,直接将该属性标识对应的属性信息存入数据库中对应的位置。例如:读取的属性标识为ID,则将″D11000bjcb_20090926″存入数据库中对应的位置。或者,读取的属性信息为DOC_TYPE,则将″DOC_PAPER_ARTICLES”存入数据库中对应的位置。
可见,本发明实施例中,在数据库中存储每条信息时,不需要存储正文信息,即存储大量的CLOB字段,只需要设置对应的链接有效信息。因此,大大地节省了存储资源,提高存储效率。
当然,对于含有大文本数据正文信息的文件的存储,采用本发明实施例所述方法非常有效,对于正文信息很少的文件的存储,既可以采用现有的技术直接进行存储,也可以采用本发明实施例所述方法。
根据上述方法在数据库中存储了每条信息,并且,在信息平台中保存了每条信息的身份标识与存储路径的对应关系。
这样,从数据库中读取信息时,当读取到待读取信息的属性信息为链接有效信息时,根据保存的身份标识与正文信息的对应关系,确定待读取信息的身份标识对应的正文信息,从而读取到正文信息。
信息平台可以根据输入的关键字,在数据库中查找待读取信息。关键字包括:标题,作者,或发布时间。可以通过数据库的检索功能,确定数据库中的待读取信息。查找到后,从数据库中读取该信息的过程参见图2,包括:
步骤201:读取待读取信息的每条属性信息。
数据库中按每个属性标识,分别存储了待读取信息的每个属性标识对应的属性信息,从而,可以逐一读取该待读取信息中属性标识对应的每条属性信息。
步骤202:判断读取到的属性信息是否为链接有效信息,如果是,执行步骤203,否则,执行步骤206。
例如:信息平台中,已默认链接有效信息为“extfile”。当读取到的正文标识对应的属性信息为“extfile”时,确认为链接有效信息,执行步骤203;否则,执行步骤206。
或者,信息平台中,已默认链接有效信息为“YES”,当读取到的链接标识对应的属性信息为“YES”时,确认为链接有效信息,执行步骤203;否则,执行步骤206。
步骤203:根据保存的身份标识与正文信息的对应关系,确定待读取信息的身份标识对应的正文信息。
信息平台在管理每条信息时,已经保存了身份标识与存储路径的第一对应关系,以及存储路径与正文信息的第二对应关系。因此,这里首先获取待读取信息的身份标识,然后根据第一对应关系,可以确定待读取信息的身份标识对应的存储路径,根据第二对应关系,查找确定的存储路径对应的正文信息。这里,可以直接根据该存储路径,链接到正文信息。例如:信息平台中待读取信息为XML格式文件,这样,当通过存储路径,链接到对应的XML格式文件后,解析该XML格式文件,获得XML格式文件中的正文信息。
步骤204:呈现查找到的正文信息。
这里,信息平台呈现查找到的正文信息。
步骤205:呈现读取的属性信息。
这里,读取的属性信息不是链接有效信息,直接将读取的属性信息呈现出来。例如,读取的属性信息为″D11000bjcb_20090926″,则直接呈现“D11000bjcb_20090926”。
当然,本发明实施例中,如果不需要获取待存储信息的正文信息,则可以不去查找对应的正文信息,直接读取其他的属性信息,然后,将读取的属性信息呈现出来。
下面结合说明书附图对本发明实施例作进一步详细描述。
实施例一,本实施例中管理信息的数据库表内容信息如表1所示,这里,链接有效信息用“extfile”表示。在信息平台的存储单元中存储了一条信息,其对应的存储路径为\d\xx\x,则保存了该信息的身份标识与该存储路径的对应关系。该信息为XML格式文件,具体为:
  字段名   所在数据库表名   数据类型
  ID   ARTICLE   VARchar2(255Byte)
  TITLE   ARTICLE   VARchar2(255Byte)
  AUTHOR   ARTICLE
  .....   ....   ....
  CONTENT   ARTICLE   extfile
表1
<DOCS>
<DOC ID=″12″作者=“XX”文件名=″DOC_PAPER_ARTICLES″>
<CONTENT>
<![CDATA[晨报长春讯“我没想到能被传到网上被大家品头论足,有点意外。”说起自己的视频被传到网上并出现了超高点击率,被喻为长春男主播版的“刘翔”显得有点尴尬,其实“刘翔”真名叫刘畅。
]]>
</CONTENT>
</DOC>
</DOCS>
则将该条信息存入数据库的过程包括:
读取上述的XML格式文件,当读取到ID时,不是正文标识,即可将对应的主键信息:“12”存入数据库中对应的位置。当读取到文件名标识时,不是正文标识,即可将对应的文件名信息:″DOC_PAPER_ARTICLES″,存入数据库中对应的位置。当读取到<CONTENT>时,即为正文标识,因此,不读取该正文信息,只需设置对应的链接有效信息。这样,存入该条消息的数据库ARTICLE表内容如表2所示:
ID   TITLE   AUTHOR   SOURCE   CONTENT ......
  12   长春版“刘翔”   XX   1346234   extfile
表2
在数据库中查询信息时,例如查询上述存储的信息,这样,信息平台可以根据输入的关键字“ID:12”,查询到上述表2中最后一条信息,因此,读取查询到信息的每个属性信息,当读取的属性信息为“AUTHOR”对应的属性信息,不是链接有效信息,因此直接呈现该属性信息。当读取到的属性信息为“extfile”时,确定为链接有效信息,此时,获取该条信息的ID为“12”,根据保存的身份标识与存储路径的第一对应关系,可以确定“ID:12”对应的路径为\d\xx\x,根据保存的存储路径与正文消息的第二对应关系,直接链接到该路径对应的XML格式文件,解析该文件,获得<CONTENT>与</CONTENT>之间的正文信息,呈现该获得正文信息。
当然,如果不需要获取正文信息,这里,当读取到的属性信息为“extfile”时,信息平台可以去读取下一个属性信息,而不用去查找正文信息。
根据上述信息存储的方法,可以构造一种信息存储的装置,参见图3,包括:读取单元310,以及配置单元320。
读取单元310,用于读取待存储信息的属性标识。
配置单元320,用于当读取的属性标识是正文标识时,在数据库中为所述待存储信息设置链接有效信息。
其中,读取单元310,还用于读取可扩展标记语言XML格式文件中的类型标签。
配置单元320,还用于将数据库中正文标识对应的属性信息设置为链接有效信息,或,将所述数据库中预设的链接标识对应的属性信息设置为链接有效信息。
本发明实施例中,该装置,还包括:存储单元,用于当读取的属性标识不是正文标识时,将所述属性标识对应的属性信息存入到所述数据库中。
根据上述信息读取的方法,可以构造一种信息读取的装置,参见图3,包括:读取单元410,确定单元420以及呈现单元430。
读取单元410,用于读取待读取信息的每条属性信息。
确定单元420,用于当读取的属性信息是链接有效信息时,根据保存的身份标识与正文信息的对应关系,确定所述待读取信息的身份标识对应的正文信息。
呈现单元430,用于呈现确定的所述正文信息。
其中,确定单元可以430包括:确定子单元和查找子单元。
确定子单元,用于根据保存的身份标识与存储路径的第一对应关系,确定所述待读取信息的身份标识对应的存储路径。
查找子单元,用于根据保存的存储路径与正文信息的第二对应关系,查找确定的所述存储路径对应的正文信息。
本发明实施例中,呈现单元,还用于当读取的属性信息不是有效链接标识时,呈现读取的属性信息。
综上所述,本发明实施例中,信息平台保存了每条信息的身份标识与存储路径的对应关系,这样,存储信息时,当读取的待存储信息的属性标识为正文标识时,不需要存储该正文标识对应的正文信息,只需要在数据库中为所述待存储信息设置链接有效信息,这样,极大的减少了存储的信息量,提高信息存储的效率。当读取信息时,当读取的属性信息是有效链接标识时,根据保存的身份标识与正文信息的对应关系,确定所述待读取信息的身份标识对应的正文信息,并呈现所述正文信息。而只需查看信息的标题或者发布时间,而并不需要查看信息的正文时,可以不用进行链接文件的查找,大大的节省了资源,提高信息读取的效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种信息存储的方法,其特征在于,包括:
信息平台读取待存储信息的属性标识;
当读取的属性标识是正文标识时,在数据库中为所述待存储信息设置链接有效信息。
2.如权利要求1所述的方法,其特征在于,所述读取待存储信息的属性标识包括:
读取可扩展标记语言XML格式文件中的类型标签。
3.如权利要求1所述的方法,其特征在于,所述在数据库中为所述待存储信息设置链接有效信息包括:
将所述数据库中所述正文标识对应的属性信息设置为链接有效信息;或,
将所述数据库中预设的链接标识对应的属性信息设置为链接有效信息。
4.一种信息读取的方法,其特征在于,包括:
读取待读取信息的每条属性信息;
当读取的属性信息是链接有效信息时,根据保存的身份标识与正文信息的对应关系,确定所述待读取信息的身份标识对应的正文信息;
呈现确定的所述正文信息。
5.如权利要求4所述的方法,其特征在于,所述确定所述待读取信息的身份标识对应的正文信息包括:
根据保存的身份标识与存储路径的第一对应关系,确定所述待读取信息的身份标识对应的存储路径;
根据保存的存储路径与正文信息的第二对应关系,查找确定的所述存储路径对应的正文信息。
6.一种信息存储的装置,其特征在于,包括:
读取单元,用于读取待存储信息的属性标识;
配置单元,用于当读取的属性标识是正文标识时,在数据库中为所述待存储信息设置链接有效信息。
7.如权利要求6所述的装置,其特征在于,
所述读取单元,还用于读取可扩展标记语言XML格式文件中的类型标签。
8.如权利要求6所述的装置,其特征在于,
所述配置单元,还用于将所述数据库中所述正文标识对应的属性信息设置为链接有效信息,或,将所述数据库中预设的链接标识对应的属性信息设置为链接有效信息。
9.一种信息读取的装置,其特征在于,包括:
读取单元,用于读取待读取信息的每条属性信息;
确定单元,用于当读取的属性信息是链接有效信息时,根据保存的身份标识与正文信息的对应关系,确定所述待读取信息的身份标识对应的正文信息;
呈现单元,用于呈现确定的所述正文信息。
10.如权利要求9所述的装置,其特征在于,所述确定单元包括:
确定子单元,用于根据保存的身份标识与存储路径的第一对应关系,确定所述待读取信息的身份标识对应的存储路径;
查找子单元,用于根据保存的存储路径与正文信息的第二对应关系,查找确定的所述存储路径对应的正文信息。
CN2009102430037A 2009-12-21 2009-12-21 一种信息存储、或读取的方法及装置 Pending CN102103611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102430037A CN102103611A (zh) 2009-12-21 2009-12-21 一种信息存储、或读取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102430037A CN102103611A (zh) 2009-12-21 2009-12-21 一种信息存储、或读取的方法及装置

Publications (1)

Publication Number Publication Date
CN102103611A true CN102103611A (zh) 2011-06-22

Family

ID=44156388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102430037A Pending CN102103611A (zh) 2009-12-21 2009-12-21 一种信息存储、或读取的方法及装置

Country Status (1)

Country Link
CN (1) CN102103611A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411475A (zh) * 2011-10-08 2012-04-11 宇龙计算机通信科技(深圳)有限公司 一种对数据进行操作的方法及移动终端
CN104951449A (zh) * 2014-03-26 2015-09-30 腾讯科技(深圳)有限公司 数据处理方法及装置
CN105138581A (zh) * 2015-07-31 2015-12-09 北京无线天利移动信息技术股份有限公司 一种移动信息写入和读取方法及系统
CN105528355A (zh) * 2014-09-29 2016-04-27 优视科技有限公司 一种下载处理方法及装置
CN110059226A (zh) * 2019-04-26 2019-07-26 深圳市元征科技股份有限公司 一种xml数据存储解析方法、装置、设备及计算机介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411475A (zh) * 2011-10-08 2012-04-11 宇龙计算机通信科技(深圳)有限公司 一种对数据进行操作的方法及移动终端
CN104951449A (zh) * 2014-03-26 2015-09-30 腾讯科技(深圳)有限公司 数据处理方法及装置
CN104951449B (zh) * 2014-03-26 2020-12-01 腾讯科技(深圳)有限公司 数据处理方法及装置
CN105528355A (zh) * 2014-09-29 2016-04-27 优视科技有限公司 一种下载处理方法及装置
CN105138581A (zh) * 2015-07-31 2015-12-09 北京无线天利移动信息技术股份有限公司 一种移动信息写入和读取方法及系统
CN105138581B (zh) * 2015-07-31 2018-08-21 北京无线天利移动信息技术股份有限公司 一种移动信息写入和读取方法及系统
CN110059226A (zh) * 2019-04-26 2019-07-26 深圳市元征科技股份有限公司 一种xml数据存储解析方法、装置、设备及计算机介质

Similar Documents

Publication Publication Date Title
US7765236B2 (en) Extracting data content items using template matching
CN101876983B (zh) 数据库分区方法与系统
CN102456053B (zh) 一种xml文档到数据库的映射方法
US7877366B2 (en) Streaming XML data retrieval using XPath
US7840590B2 (en) Querying and fragment extraction within resources in a hierarchical repository
US9361398B1 (en) Maintaining a relational database and its schema in response to a stream of XML messages based on one or more arbitrary and evolving XML schemas
CN100444591C (zh) 获取网页关键字的方法及其应用系统
WO2006132793A2 (en) Learning facts from semi-structured text
IL157575A (en) Encoding structural information in part for efficient search and browsing of information
CN102110123B (zh) 倒排索引建立方法
CN102103611A (zh) 一种信息存储、或读取的方法及装置
CN103123650A (zh) 一种基于整数映射的xml数据库全文索引方法
CN102622219A (zh) 对动态调用服务的执行结果进行渲染的方法、装置及系统
CN102821133A (zh) Xbrl数据解析的方法及服务器
US8266188B2 (en) Method and system for extracting structural information from a data file
CN102866986A (zh) 一种文档格式转换系统
CN107562936A (zh) 一种基于Jsoup的网页新闻列表的抓取及保存方法
WO2001033433A1 (en) Method and apparatus for establishing and using an xml database
CN104463665A (zh) 一种对普通发票数据进行存储解析的方法
CN105302814A (zh) 一种存储多个自定义字段的方法和系统
CN101384050A (zh) 一种移动终端及其资源管理的方法及系统
US20120078872A1 (en) Method, search server, and system for mobile search interface adaptation
CN105740250B (zh) 一种创建xml节点的属性索引的方法及装置
KR100290665B1 (ko) 구조화 문서를 관계형 데이터베이스에 저장/관리하는 방법
CN105608092B (zh) 一种创建动态索引的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110622