CN105531697B - 一种内容信息处理方法和系统 - Google Patents
一种内容信息处理方法和系统 Download PDFInfo
- Publication number
- CN105531697B CN105531697B CN201380079592.4A CN201380079592A CN105531697B CN 105531697 B CN105531697 B CN 105531697B CN 201380079592 A CN201380079592 A CN 201380079592A CN 105531697 B CN105531697 B CN 105531697B
- Authority
- CN
- China
- Prior art keywords
- content
- information
- metadata
- checked
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种内容信息处理方法及系统。其中,方法包括:捕获内容并在内容索引数据库中创建该内容的内容索引,该内容索引是内容的唯一标识;提取内容索引对应的第一信息,第一信息包括:内容的元数据,以及除内容的元数据之外的内容的其他相关信息;对内容的各个元数据分别与预设的数据量大小阈值进行比较,将内容索引以及不高于所述阈值的内容的元数据存储到内容索引数据库,将高于阈值的内容的元数据以及除内容的元数据之外的内容的其他相关信息以及内容索引存储到内容信息数据库中。这样就解决了海量内容的存储和管理的难题,有效地提升内容管理系统对含有大数据量内容信息的管理能力。
Description
技术领域
本发明涉及数据库技术领域,尤其涉及一种内容信息处理方法和系统。
背景技术
企业内容管理(ECM,Enterprise Content Management)技术是一种通过计算机系统对内容(Content)进行管理的技术,在企事业单位、政府机关中被广泛使用,有时被简称为内容管理(Content Management)。企业内容管理被用来对内容进行创建(Create)、存储(Store)、分发(Distribute)、发现(Discover)、归档(Archive)以及管理(Manage),并在用户需要时传递(Deliver)相关内容给用户。
内容所包含的数据种类一般可分为两种,一种是可以用相同的层次结构来表示的数据,即结构化数据,通常以数据表的形式存放在数据库之中;另外一种就是以各种形式的多媒体内容存在,如txt文本、word文本、pdf文本存在的文本类内容,电子表格、简报档案与电子邮件等二进制文件,声音、图形、图像、视频等多媒体格式数据等。
在数据库领域,元数据(Metadata)指的是描述数据及其环境的一类数据信息。相应的,在ECM系统中,内容元数据(Content Metadata)指的是对内容的属性及其环境进行描述的数据,包括但不限于:内容的名称、内容的大小、内容的存储格式、内容的标题、内容的摘要、内容中的关键词以及内容的作者等。
除内容元数据之外,还有其他的内容信息需要被管理,包括但不限于:用户对内容的评论信息,文档的正文信息、内容所属的专题分类信息,以及目录信息等。
传统的ECM系统一般通过关系数据库(RDB,Relational DataBase)作为内容元数据的存储系统,而这仅仅适用于ECM系统管理的内容数目较少的情况下。当ECM系统所管理的内容数目很多时(譬如:上亿条),因RDB受限于其存储容量,就难以存储如此海量的内容元数据,特别当单个内容元数据的信息很大时,对该内容元数据的增加(Add)、删除(Delete)、修改(Modify)、查询(Search)等操作就变得非常缓慢,效率低下。如果将用户评论、文档正文等类型的内容信息也存储在RDB中,使用关系数据库的ECM系统所能管理的内容的数目就更少。
发明内容
鉴于此,本发明的实施例提供一种内容信息的处理方法和系统,能够有效地提升内容管理系统对含有大数据量内容信息的管理能力。
一方面,提供了一种内容信息处理系统,包括:
内容索引创建模块,用于捕获内容并在内容索引数据库中创建针对上述内容的内容索引,该内容索引是所述内容在所述内容信息处理系统的唯一标识;
内容信息提取模块,用于提取上述内容索引对应的内容的第一信息,其中,该内容的第一信息包括:内容的元数据,以及除内容的元数据之外的内容的其他相关信息;
内容信息存储处理模块,用于对内容的第一信息中的内容的各个元数据分别与预设的数据量大小的阈值进行此较,将内容索引以及不高于阈值的内容的元数据存储到内容索引数据库中,将高于阈值的内容的元数据以及内容的第一信息中除内容的元数据之外的内容的其他相关信息以及内容索引存储到内容信息数据库中。
可选的,上述内容信息处理系统还包括:阈值设定模块,用于设定对内容的元数据进行此较的数据量大小的阈值。
可选的,上述内容信息处理系统还包括:内容合法验证模块,用于对除内容元数据之外的内容的其他相关信息进行合法性验证得到验证为合法的内容的第二信息,并将内容的第二信息发送给内容信息存储模块;内容信息存储处理模块,具体还用于将高于阈值的内容的元数据、内容的第二信息以及内容索引存储到所述内容信息数据库中。
可选的,上述内容信息处理系统还包括:可检索性判断模块,用于对除内容元数据之外的内容的其他相关信息或内容的第二信息进行可检索性判断,并将通过可检索性判断的信息标识为内容的第三信息。
可选的,上述内容信息处理系统还包括:全文检索库信息导入模块,用于将高于所述阈值的内容的元数据、内容的第三信息以及内容索引根据预设的配置模板导入至全文检索库中。
可选的,上述内容信息处理系统还包括:全文检索库信息处理模块,用于当接收到某内容被临时删除的通知时,删除全文检索库中该内容的数据;以及用于当接收到某内容被恢复的通知时,通知内容信息检索模块将高于所述阈值的所述内容的元数据、该内容的第三信息以及内容索引根据预设的配置模板重新导入至全文检索库中。
可选的,上述内容信息处理系统还包括:全文检索库信息处理模块,还用于当接收到某内容被临时删除的通知时,将全文检索库中该内容的“内容可用”字段设置为“不可用”;以及用于当接收到某内容被恢复的通知时,将全文检索库中该内容的“内容可用”字段重新设置为“可用”。
可选的,所述内容信息处理系统还包括:
查询内容获取模块,用于接收内容信息查询请求,对该查询请求进行解析,获取待查询内容;
内容信息查询模块,用于将待查询内容在内容索引数据库中进行检索,当检索到待查询内容的信息时,则将待查询内容的信息反馈给查询结果发送模块;当未检索到结果时,则将待查询内容在全文检索库中进行检索,若检索到待查询内容的信息时,则将待查询内容的信息反馈给查询结果发送模块,若检索到待查询内容的内容标识时,则利用待查询内容的内容标识在内容信息数据库中查询得到待查询内容的信息,并将待查询内容的信息反馈给查询结果发送模块;
查询结果发送模块,用于将待查询内容的信息发送给内容信息查询请求的发出者。
另一方面,本发明还提供了一种内容信息的处理方法,该方法包括:
捕获内容并在内容索引数据库中创建针对所述内容的内容索引,上述内容索引是该内容在内容信息处理系统的唯一标识;
提取内容索引对应的内容的第一信息,其中,内容的第一信息包括:内容的元数据,以及除内容元数据之外的内容的其他相关信息;
对所述内容的第一信息中的所述内容的各个元数据分别与预设的数据量大小阈值进行此较,将所述内容索引以及不高于所述阈值的所述内容的元数据存储到所述内容索引数据库中,将高于所述阈值的所述内容的元数据以及所述内容的第一信息中除所述内容元数据之外的所述内容的其他相关信息以及所述内容索引存储到内容信息数据库中。
可选的,该方法还包括:可接收对数据量大小阈值的设定。
可选的,在将高于所述阈值的所述内容的元数据以及所述内容的第一信息中除所述内容元数据之外的所述内容的其他相关信息以及所述内容索引存储到内容信息数据库中之前,所述方法还包括:对除所述内容元数据之外的所述内容的其他相关信息进行合法性验证得到验证为合法的所述内容的第二信息;所述将高于所述阈值的所述内容的元数据以及所述内容的第一信息中除所述内容元数据之外的所述内容的其他相关信息以及所述内容索引存储到内容信息数据库中,具体包括:将高于所述阈值的所述内容的元数据、所述内容的第二信息以及所述内容索引存储到所述内容信息数据库中。
可选的,对除所述内容元数据之外的所述内容的其他相关信息或所述内容的第二信息进行可检索性判断,并将通过可检索性判断的信息标识为所述内容的第三信息。
可选的,将高于所述阈值的所述内容的元数据、所述内容的第三信息以及所述内容索引根据预设的配置模板导入至全文检索库中。
可选的,当接收到某内容被临时删除的通知时,删除所述全文检索库中所述内容的数据;以及当接收到所述某内容被恢复的通知时,将高于所述阈值的所述内容的元数据、所述内容的第三信息以及所述内容索引根据预设的配置模板重新导入至所述全文检索库中。
可选的,当接收到某内容被临时删除的通知时,将所述全文检索库中所述内容的“内容可用”字段设置为“不可用”;以及当接收到所述某内容被恢复的通知时,将所述全文检索库中所述内容的“内容可用”字段重新设置为“可用”。
可选的,接收内容信息查询请求,对所述查询请求进行解析,获取待查询内容;
将所述待查询内容在所述内容索引数据库中的进行检索,当检索到所述待查询内容的信息时,则将所述待查询内容的信息发送给所述内容信息查询请求的发出者;当未检索到结果时,则将所述待查询内容在所述全文检索库中进行检索,若检索到所述待查询内容的信息时,则将所述待查询内容的信息发送给所述内容信息查询请求的发出者,若检索到所述待查询内容的内容标识时,则利用所述待查询内容的内容标识在所述内容信息数据库中查询得到所述待查询内容的信息,并将所述待查询内容的信息发送给所述内容信息查询请求的发出者。
基于上述技术方案,本发明实施例所提供的内容信息的处理方法和系统,通过将不高于设定阈值的内容的元数据、高于设定阈值的内容的元数据以及除内容元数据之外的其他信息分开进行管理,即将不高于设定阈值的所述内容元数据存储到所述内容索引数据库中,而将高于设定阈值的内容的元数据以及除所述内容元数据之外的所述内容的其他相关信息存储到内容信息数据库中,这样就减小了经常用来检索的内容索引数据库的存储压力,使得内容索引数据库能够存储更多内容,而内容信息数据库能够存储尽可能多的内容的其他相关信息,这样就解决了海量内容的存储和管理的难题,有效地提升内容管理系统对含有大数据量内容信息的管理能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例内容信息处理系统的实施例1的组网结构示意图。
图2是本发明实施例内容信息处理系统的实施例2的组网结构示意图。
图3是本发明实施例提供的内容信息处理系统的实施例3的组网结构示意图。
图4是本发明实施例提供的内容信息处理系统的实施例4的组网结构示意图。
图5是本发明实施例提供的内容信息处理系统的实施例5的组网结构示意图。
图6是本发明实施例提供的内容信息处理系统的实施例6的组网结构示意图。
图7是本发明实施例提供的内容信息处理方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
一般的,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构、以及其他类型的结构。此外,本领域的技术人员可以明白,各实施例可以用其他计算机系统配置来实施,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机以及类似计算设备。各实施例还能在任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实现。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备中。
各实施例可被实现为计算机实现的过程、计算系统、或者诸如计算机程序产品或计算机系统执行示例过程的指令的计算机程序的计算机存储介质。例如:计算机可读存储介质可经由易失性计算机存储器、非易失性存储器、硬盘驱动器、闪存驱动器、软盘或紧致盘和类似介质中的一个或多个来实现。
贯穿本说明书,术语“服务器”一般指通常在联网环境中执行一个或多个软件程序的计算设备。然而,服务器还可以被实现为在被视作网络上的服务器的一个或多个计算设备上执行的虚拟服务器(软件程序)。
图1示出了本发明所实现的一种内容信息处理系统的实施例,该系统包括:
内容索引创建模块110,用于捕获内容并在内容索引数据库中创建针对所述内容的内容索引,所述内容索引是所述内容在所述内容信息处理系统的唯一标识;
内容信息提取模块130,用于提取所述内容索引对应的内容的第一信息,其中,所述内容的第一信息包括:所述内容的元数据,以及除所述内容元数据之外的所述内容的其他相关信息;
内容信息存储处理模块150,用于对所述内容的第一信息中的所述内容的各个元数据分别与预设的数据量大小的阈值进行此较,将所述内容索引以及不高于所述阈值的所述内容的元数据存储到所述内容索引数据库中,将高于所述阈值的所述内容的元数据以及所述内容的第一信息中除所述内容元数据之外的所述内容的其他相关信息以及所述内容索引存储到内容信息数据库中。
上述内容信息的处理系统,考虑到内容的元数据中的数据量的大小,将数据量大小不高于某一阈值的内容的元数据存储到内容索引数据库中,以及将数据量大小高于某一阈值的内容的元数据以及除内容的元数据之外的其他相关信息存储到内容信息数据库中,通过上述的分开存储,就保证了内容索引数据库能够存储海量内容的内容索引,并且提升了该内容索引数据库的数据读取的能力;而内容信息数据库可以用来存储内容的大数据量信息,提升了内容信息的数据库访问能力。
从实现的角度,该处理系统可以部署在一台服务器或多台服务器所构成的服务器云中。
上述用来对内容的元数据进行数据量大小进行此较的阈值,可以内置在系统中,也可以通过用户通过UI(User Interface)接口进行提前设定,对此,本发明的各个实施例均不加限定。
基于上述的描述,可选的,本发明实施例所介绍的内容信息的处理系统,参看图2,还可以包括:阈值设定模块120,用于设定对内容的元数据进行此较的数据量大小的阈值。通过增设阈值设定模块120,能够提供用户可自定义的阈值,提高系统的灵活性。
参看图2,内容索引数据库170是用于存储上述内容索引以及内容的元数据中数据量较小的数据信息的数据库,具体实现中,可以为关系类数据库(Relational Database)以及其他基于集合代数等概念和方法来处理数据的数据库,包括但不限于:Oracle、SQL(Structured Query Language,结构化查询语言)、Access、Db2、SQLserver,Sybase等。
内容信息数据库190是用于存储数据量大小高于设定阈值的内容的元数据,以及除内容的元数据之外的内容的其他相关信息(包括但不限于:用户输入的标签、分类信息、对内容的评价等级、对内容的评论信息、打分等)。在具体的实现过程中,可以采用具有海量大数据的存储以及读取能力的非关系型数据库,作为举例,这类数据库包括但不限于:Apache Hbase数据库等。
为了确保内容信息数据库所包含的数据的合法性,譬如:确保数据符合内容信息数据库的要求,以及避免把包含不良信息的数据存储进入内容信息数据库,可选的,参看图2,该系统还可增设内容合法验证模块140,用于对除内容的元数据之外的内容的其他相关信息进行合法性验证得到验证为合法的内容的第二信息,并将上述内容的第二信息发送给内容信息存储模块150;
内容信息存储处理模块150,还用于将高于阈值的内容的元数据、内容的第二信息以及内容索引存储到内容信息数据库190中。
为了保证除内容的元数据之外的内容的其他相关信息的可检索性,参看图3和图4,可选的,该系统增设可检索性判断模块180,用于对除内容的元数据之外的内容的其他相关信息或内容的第二信息进行可检索性判断,并将通过可检索性判断的信息标识为内容的第三信息。
在该内容信息处理系统,参看图5,增设全文检索库160,用于提供全文检索的功能。
可选的,该系统还可增设全文检索库信息导入模块161,用于将高于阈值的内容的元数据、内容的第三信息以及内容索引根据预设的配置模板导入至全文检索库160中。
可选的,所述内容信息处理系统还包括:全文检索库信息处理模块162,用于当接收到某内容被临时删除的通知时,删除所述全文检索库160中所述内容的数据;以及用于当接收到所述某内容被恢复的通知时,通知所述内容信息检索模块将将高于所述阈值的所述内容的元数据、所述内容的第三信息以及所述内容索引根据预设的配置模板重新导入至所述全文检索库160中。全文检索库信息处理模块162,还用于当接收到某内容被临时删除的通知时,将所述全文检索库中所述内容的“内容可用”字段设置为“不可用”;以及用于当接收到所述某内容被恢复的通知时,将所述全文检索库160中所述内容的“内容可用”字段重新设置为“可用”。采用全文检索库信息处理模块162,能够使得当内容被临时删除时,通过全文检索库就无法检索到相应的内容,而当内容被恢复时,保证该内容的相关信息又能够在全文检索库查询到。较好地提升了全文数据库的数据增删功能。
为了满足用户的数据库查询请求,该内容信息处理系统还可增设如下模块:查询内容获取模块210,用于接收内容信息查询请求,对查询请求进行解析,获取待查询内容;
内容信息查询模块230,用于将所述待查询内容在所述内容索引数据库170中进行检索,当检索到所述待查询内容的信息时,则将所述待查询内容的信息反馈给查询结果发送模块250;当未检索到结果时,则将所述待查询内容在所述全文检索库160中进行检索,若检索到所述待查询内容的信息时,则将所述待查询内容的信息反馈给所述查询结果发送模块250,若检索到所述待查询内容的内容标识时,则利用所述待查询内容的内容标识在所述内容信息数据库190中查询得到所述待查询内容的信息,并将所述待查询内容的信息反馈给所述查询结果发送模块250;
查询结果发送模块250,用于将待查询内容的信息发送给内容信息查询请求的发出者。
通过上述增设的查询内容获取模块210、内容信息查询模块230、以及查询结果发送模块250,使得该系统支持用户的数据库查询操作,在查询的过程中,由于本发明的实施例中所增设的内容索引数据库170存储有不高于预设阈值的内容的元数据信息,内容信息数据库190存储有高于预设阈值的内容的元数据以及除内容的元数据之外的内容相关的其他信息,使得对查询信息的检索先在内容索引数据库中进行,当内容索引数据库170中检索不到时,才去内容信息数据库190中检索,这样一方面能够保证内容索引数据库能够存储更多的内容的索引,满足对大数据的存储要求,另一方面,又能够提高内容索引数据库的数据读取性能。
本发明实施例还提供一种内容信息的处理方法,参看图6,其中,该方法包括:
310:捕获内容并在内容索引数据库中创建针对所述内容的内容索引,所述内容索引是所述内容在所述内容信息处理系统的唯一标识;
330:提取所述内容索引对应的内容的第一信息,其中,所述内容的第一信息包括:所述内容的元数据,以及除所述内容元数据之外的所述内容的其他相关信息;
350:对所述内容的第一信息中的所述内容的各个元数据分别与预设的数据量大小阈值进行此较,将所述内容索引以及不高于所述阈值的所述内容的元数据存储到所述内容索引数据库中,将高于所述阈值的所述内容的元数据以及所述内容的第一信息中除所述内容元数据之外的所述内容的其他相关信息以及所述内容索引存储到内容信息数据库中。
可以理解,步骤310和步骤330没有先后的顺序关系,在具体的实现过程中,两者是可以更换执行顺序的。
上述内容信息的处理方法,考虑到内容的元数据中的数据量的大小,将数据量大小不高于某一阈值的内容的元数据存储到内容索引数据库中,以及将数据量大小高于某一阈值的内容的元数据以及除内容的元数据之外的其他相关信息存储到内容信息数据库中,通过上述的分开存储,就保证了内容索引数据库能够存储海量内容的内容索引,并且提升了该内容索引数据库的数据读取的能力;而内容信息数据库可以用来存储内容的大数据量信息,提升了内容信息的数据库访问能力。
为了提升系统的可用性,可选的,对于数据量大小阈值,可由用户预先设定。
考虑到除内容的元数据之外的内容的其他相关信息,可能为用户对内容的评价信息,分类信息,打分信息等,为了保证这些信息的合法性,可选的,上述方法可增加合法性验证过程,即:
在将高于上述阈值的内容的元数据以及内容的第一信息中除内容的元数据之外的内容的其他相关信息以及内容索引存储到内容信息数据库中之前,该方法还包括:
对除内容的元数据之外的内容的其他相关信息进行合法性验证得到验证为合法的内容的第二信息;
将高于上述阈值的内容的元数据以及内容的第一信息中除内容的元数据之外的内容的其他相关信息以及内容索引存储到内容信息数据库中,具体包括:将高于所述阈值的内容的元数据、内容的第二信息以及内容索引存储到所述内容信息数据库中。
考虑到需要将除内容的元数据之外的内容的其他相关信息导入到全文检索库,为了保证上述信息的可检索性,可选的,上述方法中增加可检索性判断环节,即:对除内容的元数据之外的内容的其他相关信息或内容的第二信息进行可检索性判断,并将通过可检索性判断的信息标识为内容的第三信息。
可选的,将高于阈值的所述内容的元数据、内容的第三信息以及内容索引根据预设的配置模板导入至全文检索库中。
在数据库使用的过程中,可能会涉及到数据的删除和恢复,可选的,上述方法还可以包括:
当接收到某内容被临时删除的通知时,删除所述全文检索库中所述内容的数据;以及用于当接收到所述某内容被恢复的通知时,通知所述内容信息检索模块将高于所述阈值的所述内容的元数据、所述内容的第三信息以及所述内容索引根据预设的配置模板重新导入至所述全文检索库中。
另一种实现数据删除和恢复的方法是,针对全文检索库中的内容,设置“内容可用”字段,当接收到某内容被临时删除的通知时,将全文检索库中该内容的“内容可用”字段设置为“不可用”;以及用于当接收到某内容被恢复的通知时,将全文检索库中该内容的“内容可用”字段重新设置为“可用”。
可选的,该方法还包括:接收内容信息查询请求,对所述查询请求进行解析,获取待查询内容;
将所述待查询内容在所述内容索引数据库中的进行检索,当检索到所述待查询内容的信息时,则将所述待查询内容的信息发送给所述内容信息查询请求的发出者;当未检索到结果时,则将所述待查询内容在所述全文检索库中进行检索,若检索到所述待查询内容的信息时,则将所述待查询内容的信息发送给所述内容信息查询请求的发出者,若检索到所述待查询内容的内容标识时,则利用所述待查询内容的内容标识在所述内容信息数据库中查询得到所述待查询内容的信息,并将所述待查询内容的信息发送给所述内容信息查询请求的发出者。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (16)
1.一种内容信息处理系统,其特征在于,所述系统包括:
内容索引创建模块,用于捕获内容并在内容索引数据库中创建针对所述内容的内容索引,所述内容索引是所述内容在所述内容信息处理系统的唯一标识;
内容信息提取模块,用于提取所述内容索引对应的内容的第一信息,其中,所述内容的第一信息包括:所述内容的元数据,以及除所述内容元数据之外的所述内容的其他相关信息;
内容信息存储处理模块,用于对所述内容的第一信息中的所述内容的各个元数据分别与预设的数据量大小的阈值进行比较,将所述内容索引以及不高于所述阈值的所述内容的元数据存储到所述内容索引数据库中,将高于所述阈值的所述内容的元数据以及所述内容的第一信息中除所述内容元数据之外的所述内容的其他相关信息以及所述内容索引存储到内容信息数据库中。
2.根据权利要求1所述的内容信息处理系统,其特征在于,所述系统还包括:
阈值设定模块,用于设定对所述内容的元数据进行比较的数据量大小的阈值。
3.根据权利要求1或2所述的内容信息处理系统,其特征在于,所述系统还包括:
内容合法验证模块,用于对除所述内容元数据之外的所述内容的其他相关信息进行合法性验证得到验证为合法的所述内容的第二信息,并将所述内容的第二信息发送给所述内容信息存储模块;
所述内容信息存储处理模块,具体还用于将高于所述阈值的所述内容的元数据、所述内容的第二信息以及所述内容索引存储到所述内容信息数据库中。
4.根据权利要求1所述的内容信息处理系统,其特征在于,所述系统还包括:
可检索性判断模块,用于对除所述内容的元数据之外的所述内容的其他相关信息或所述内容的第二信息进行可检索性判断,并将通过可检索性判断的信息标识为所述内容的第三信息。
5.根据权利要求4所述的内容信息处理系统,其特征在于,所述内容信息处理系统还包括:
全文检索库信息导入模块,用于将高于所述阈值的所述内容的元数据、所述内容的第三信息以及所述内容索引根据预设的配置模板导入至全文检索库中。
6.根据权利要求5所述的内容信息处理系统,其特征在于,所述内容信息处理系统还包括:
全文检索库信息处理模块,用于当接收到某内容被临时删除的通知时,删除所述全文检索库中所述内容的数据;以及用于当接收到所述某内容被恢复的通知时,通知所述内容信息检索模块将将高于所述阈值的所述内容的元数据、所述内容的第三信息以及所述内容索引根据预设的配置模板重新导入至所述全文检索库中。
7.根据权利要求5所述的内容信息处理系统,其特征在于,所述内容信息处理系统还包括:
全文检索库信息处理模块,还用于当接收到某内容被临时删除的通知时,将所述全文检索库中所述内容的“内容可用”字段设置为“不可用”;以及用于当接收到所述某内容被恢复的通知时,将所述全文检索库中所述内容的“内容可用”字段重新设置为“可用”。
8.根据权利要求5所述的内容信息处理系统,其特征在于,所述内容信息处理系统还包括:
查询内容获取模块,用于接收内容信息查询请求,对所述查询请求进行解析,获取待查询内容;
内容信息查询模块,用于将所述待查询内容在所述内容索引数据库中进行检索,当检索到所述待查询内容的信息时,则将所述待查询内容的信息反馈给查询结果发送模块;当未检索到结果时,则将所述待查询内容在所述全文检索库中进行检索,若检索到所述待查询内容的信息时,则将所述待查询内容的信息反馈给所述查询结果发送模块,若检索到所述待查询内容的内容标识时,则利用所述待查询内容的内容标识在所述内容信息数据库中查询得到所述待查询内容的信息,并将所述待查询内容的信息反馈给所述查询结果发送模块;
所述查询结果发送模块,用于将所述待查询内容的信息发送给所述内容信息查询请求的发出者。
9.一种内容信息的处理方法,其特征在于,包括:
捕获内容并在内容索引数据库中创建针对所述内容的内容索引,所述内容索引是所述内容在所述内容信息处理系统的唯一标识;
提取所述内容索引对应的内容的第一信息,其中,所述内容的第一信息包括:所述内容的元数据,以及除所述内容元数据之外的所述内容的其他相关信息;
对所述内容的第一信息中的所述内容的各个元数据分别与预设的数据量大小阈值进行比较,将所述内容索引以及不高于所述阈值的所述内容的元数据存储到所述内容索引数据库中,将高于所述阈值的所述内容的元数据以及所述内容的第一信息中除所述内容元数据之外的所述内容的其他相关信息以及所述内容索引存储到内容信息数据库中。
10.根据权利要求9所述的方法,其特征在于,接收对数据量大小阈值的设定。
11.根据权利要求9或10所述的方法,其特征在于,在将高于所述阈值的所述内容的元数据以及所述内容的第一信息中除所述内容元数据之外的所述内容的其他相关信息以及所述内容索引存储到内容信息数据库中之前,所述方法还包括:
对除所述内容元数据之外的所述内容的其他相关信息进行合法性验证得到验证为合法的所述内容的第二信息;
所述将高于所述阈值的所述内容的元数据以及所述内容的第一信息中除所述内容元数据之外的所述内容的其他相关信息以及所述内容索引存储到内容信息数据库中,具体包括:将高于所述阈值的所述内容的元数据、所述内容的第二信息以及所述内容索引存储到所述内容信息数据库中。
12.根据权利要求9所述的方法,其特征在于,所述方法还包括:
对除所述内容的元数据之外的所述内容的其他相关信息或所述内容的第二信息进行可检索性判断,并将通过可检索性判断的信息标识为所述内容的第三信息。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
将高于所述阈值的所述内容的元数据、所述内容的第三信息以及所述内容索引根据预设的配置模板导入至全文检索库中。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
当接收到某内容被临时删除的通知时,删除所述全文检索库中所述内容的数据;以及用于当接收到所述某内容被恢复的通知时,通知所述内容信息检索模块将高于所述阈值的所述内容的元数据、所述内容的第三信息以及所述内容索引根据预设的配置模板重新导入至所述全文检索库中。
15.根据权利要求13所述的方法,其特征在于,所述方法还包括:
当接收到某内容被临时删除的通知时,将所述全文检索库中所述内容的“内容可用”字段设置为“不可用”;以及用于当接收到所述某内容被恢复的通知时,将所述全文检索库中所述内容的“内容可用”字段重新设置为“可用”。
16.根据权利要求13所述的方法,其特征在于,所述方法还包括:
接收内容信息查询请求,对所述查询请求进行解析,获取待查询内容;
将所述待查询内容在所述内容索引数据库中的进行检索,当检索到所述待查询内容的信息时,则将所述待查询内容的信息发送给所述内容信息查询请求的发出者;当未检索到结果时,则将所述待查询内容在所述全文检索库中进行检索,若检索到所述待查询内容的信息时,则将所述待查询内容的信息发送给所述内容信息查询请求的发出者,若检索到所述待查询内容的内容标识时,则利用所述待查询内容的内容标识在所述内容信息数据库中查询得到所述待查询内容的信息,并将所述待查询内容的信息发送给所述内容信息查询请求的发出者。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2013/084854 WO2015051499A1 (zh) | 2013-10-08 | 2013-10-08 | 一种内容信息处理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105531697A CN105531697A (zh) | 2016-04-27 |
CN105531697B true CN105531697B (zh) | 2018-12-14 |
Family
ID=52812425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380079592.4A Active CN105531697B (zh) | 2013-10-08 | 2013-10-08 | 一种内容信息处理方法和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105531697B (zh) |
WO (1) | WO2015051499A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948440A (zh) * | 2021-03-09 | 2021-06-11 | 北京小米移动软件有限公司 | 页面数据的处理方法及装置、终端、存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101981570A (zh) * | 2008-04-01 | 2011-02-23 | 雅虎公司 | 用于与内容对象集成、关联和交互的开放式架构 |
CN102024057A (zh) * | 2010-12-24 | 2011-04-20 | 中兴通讯股份有限公司 | 海量数据记录的索引建立方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689602B1 (en) * | 2005-07-20 | 2010-03-30 | Bakbone Software, Inc. | Method of creating hierarchical indices for a distributed object system |
CN100578499C (zh) * | 2006-12-01 | 2010-01-06 | 金蝶软件(中国)有限公司 | 一种联机分析处理系统中多维数据读写的方法和装置 |
KR101340036B1 (ko) * | 2007-07-10 | 2013-12-10 | 삼성전자주식회사 | 전자 컨텐트 가이드 생성 방법 및 그 장치 |
KR20090025607A (ko) * | 2007-09-06 | 2009-03-11 | 삼성전자주식회사 | 컨텐트의 메타데이터 업데이트 방법 및 그 장치 |
CN102542019A (zh) * | 2011-12-19 | 2012-07-04 | 北京地拓科技发展有限公司 | 识别码存储方法及系统、识别码索引方法及系统 |
-
2013
- 2013-10-08 WO PCT/CN2013/084854 patent/WO2015051499A1/zh active Application Filing
- 2013-10-08 CN CN201380079592.4A patent/CN105531697B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101981570A (zh) * | 2008-04-01 | 2011-02-23 | 雅虎公司 | 用于与内容对象集成、关联和交互的开放式架构 |
CN102024057A (zh) * | 2010-12-24 | 2011-04-20 | 中兴通讯股份有限公司 | 海量数据记录的索引建立方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2015051499A1 (zh) | 2015-04-16 |
CN105531697A (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9892151B2 (en) | Database system and method | |
CN105678189B (zh) | 加密数据文件存储和检索系统及方法 | |
US8799291B2 (en) | Forensic index method and apparatus by distributed processing | |
US8103705B2 (en) | System and method for storing text annotations with associated type information in a structured data store | |
US9146994B2 (en) | Pivot facets for text mining and search | |
CN107770229B (zh) | 云端文件分享方法、系统和云服务器 | |
CN107085583B (zh) | 一种基于内容的电子文档管理方法及装置 | |
US8214411B2 (en) | Atomic deletion of database data categories | |
US8880463B2 (en) | Standardized framework for reporting archived legacy system data | |
US9459969B1 (en) | Method and system for enhanced backup database indexing | |
CN111274294B (zh) | 一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统 | |
CN111858760B (zh) | 一种异构数据库的数据处理方法及装置 | |
CN108173859A (zh) | 文件共享的方法和系统 | |
CN103366008A (zh) | 一种查找资源的方法和装置 | |
CN109947759A (zh) | 一种数据索引建立方法、索引检索方法及装置 | |
CN107085584B (zh) | 一种基于内容的云文档管理方法、系统及服务端 | |
CN108090186A (zh) | 一种大数据平台上的电力数据去重方法 | |
WO2012119339A1 (zh) | 搜索方法及装置 | |
CN108804502A (zh) | 大数据查询系统、方法、计算机设备及存储介质 | |
CN105531697B (zh) | 一种内容信息处理方法和系统 | |
CN110442614B (zh) | 元数据的搜索方法及装置、电子设备、存储介质 | |
KR20160050930A (ko) | 대용량 분산 파일 시스템에서 데이터의 수정을 포함하는 트랜잭션 처리 장치 및 컴퓨터로 읽을 수 있는 기록매체 | |
CN106503198A (zh) | 一种基于hadoop元数据的冷数据识别方法及系统 | |
CN113032436B (zh) | 基于文章内容和标题的搜索方法和装置 | |
KR101846347B1 (ko) | 대용량 문서의 관리 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220223 Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province Patentee after: Huawei Cloud Computing Technology Co.,Ltd. Address before: 518129 Bantian HUAWEI headquarters building, Longgang District, Shenzhen City, Guangdong Province, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
TR01 | Transfer of patent right |