CN103955526B - 数据存储方法和装置 - Google Patents

数据存储方法和装置 Download PDF

Info

Publication number
CN103955526B
CN103955526B CN201410196771.2A CN201410196771A CN103955526B CN 103955526 B CN103955526 B CN 103955526B CN 201410196771 A CN201410196771 A CN 201410196771A CN 103955526 B CN103955526 B CN 103955526B
Authority
CN
China
Prior art keywords
individuality
individual
identification information
data
data items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410196771.2A
Other languages
English (en)
Other versions
CN103955526A (zh
Inventor
郭强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201410196771.2A priority Critical patent/CN103955526B/zh
Publication of CN103955526A publication Critical patent/CN103955526A/zh
Application granted granted Critical
Publication of CN103955526B publication Critical patent/CN103955526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Abstract

本发明提供一种数据存储方法和装置,其中数据存储方法包括:从待存储的第一个体的个体数据中抽取所述第一个体的标识信息,并根据预设的抽取规则从所述第一个体的个体数据中抽取与所述第一个体相关联的、至少一个的第二个体的标识信息;根据所述第一个体的标识信息和所述第二个体的标识信息生成与所述第一个体对应的血缘编码信息;将所述第一个体的属性数据以及所述血缘编码信息共同存储在与所述第一个体的标识信息所对应的存储空间中,以供根据所述血缘编码信息获得所述第二个体的标识信息后获取所述第二个体的个体数据。本发明提供的数据存储方法和装置既能够提高对大量数据的检索速度。

Description

数据存储方法和装置
技术领域
本发明涉及数据处理技术,尤其涉及一种数据存储方法和装置。
背景技术
随着计算机和网络技术的发展,网络节点的数量不断增多,网络节点的数据量也不断增大。对于大量的网络节点的数据进行存储的方式成为一项关键的技术,决定了数据检索的速度和精确度。
目前常用的数据存储方法是结构化数据存储方式,该方式利用数据库对数据群进行存储,数据群中包括多个个体,每个个体具有自身的个体数据,包括自身的直接属性数据、间接属性数据以及与其它个体之间存在的关联关系数据。数据群可以为一个自然人家族的所有数据、一个公司的所有员工数据、一个网站所有用户的数据等,对应的,数据群中的个体可以为一个自然人、一个公司的员工、一个网站的用户等。直接属性数据可以为个体自身最直接的属性特征,对一个自然人而言,其姓名、性别、身高、体重等数据可以作为其直接属性数据,而其爱好、特长、行为习惯等可以作为其间接属性数据,该自然人的亲属关系和朋友关系等均可以作为与其它个体具有的关联关系数据。
现有的结构化数据存储方式是按照结构化的存储方式,将个体的直接属性数据、间接属性数据以及与其它个体之间的关联关系数据分别存储在直接属性表单、间接属性表单以及关联关系表单等多个数据库表单中,各表单之间通过键值实现相互关联和调用,结构化数据存储方式的优点是数据存储的条理性和逻辑性较强。因此,为了获取某个个体的所有数据,在数据库进行检索的过程中,需要首先访问直接属性表单和间接属性表单,获取该个体的直接属性数据和间接属性数据,然后访问关联关系属性表单,获取该个体与其它个体之间的关联关系数据,得到与其有关联关系的其它个体的键值之后,再返回直接属性表单和间接属性表单获取对应个体的直接属性数据和间接属性数据。
上述结构化的数据存储方式在数据群中的个体数量较小且各个体之间关系较简单的情况下能够进行快速检索,但当个体数量较多且每个个体之间的关联关系较复杂时,对某一个个体进行检索的过程需要反复多次访问多个表单,使得检索速度较慢,效率较低。
发明内容
本发明提供一种数据存储方法和装置,用于提高对大量数据的检索速度。
本发明实施例提供一种数据存储方法,包括:
从待存储的第一个体的个体数据中抽取所述第一个体的标识信息,并根据预设的抽取规则从所述第一个体的个体数据中抽取与所述第一个体相关联的、至少一个的第二个体的标识信息;
根据所述第一个体的标识信息和所述第二个体的标识信息生成与所述第一个体对应的血缘编码信息;
将所述第一个体的属性数据以及所述血缘编码信息共同存储在与所述第一个体的标识信息所对应的存储空间中,以供根据所述血缘编码信息获得所述第二个体的标识信息后获取所述第二个体的个体数据。
本发明另一实施例提供一种数据存储装置,包括:
信息抽取模块,用于从待存储的第一个体的个体数据中抽取所述第一个体的标识信息,并根据预设的抽取规则从所述第一个体的个体数据中抽取与所述第一个体相关联的、至少一个的第二个体的标识信息;
编码生成模块,用于根据所述第一个体的标识信息和所述第二个体的标识信息生成与所述第一个体对应的血缘编码信息;
存储模块,用于将所述第一个体的属性数据以及所述血缘编码信息共同存储在与所述第一个体的标识信息所对应的存储空间中,以供根据所述血缘编码信息获得所述第二个体的标识信息后获取所述第二个体的个体数据。
本发明实施例提供的技术方案通过从第一个体的个体数据中抽取第一个体的标识信息和第二个体的标识信息,并根据第一个体的标识信息和第二个体的标识信息生成与第一个体对应的血缘编码信息,将第一个体的属性数据和血缘编码信息存储在一起,实现了在存储第一个体的属性数据的同时也将第一个体与第二个体的关联关系也进行了存储,使得在检索的过程中,检索到第一个体的同时直接能获取到与第一个体相关联的第二个体,并根据第二个体的标识再进行一次检索可以得到第二个体的个体数据,对于第二个体的数量为一个而言,本实施例提供的技术方案只经过两次查找就可以得到第一个体的所有相关的数据。而现有的结构化存储方式而言,对第一个体进行检索的过程必须经过多次反复地对各表单进行查找才能得到第一个体的所有相关数据。当第二个体的数量较多时,本实施例提供的技术方案能够成比例减少查找次数。因此,相对于现有技术,本实施例提供的技术方案能够大幅度提高检索速度,尤其适用于对大量的数据进行存储和检索的情况。
另外,现有的结构化数据存储方式就是建立在数据库的基础上的,需将数据群分别存储在多个表单中,占用了较多的存储空间。本实施例提供的技术方案可以不依赖数据库,而以文件的形式进行存储,文件的存储方式相比与数据库而言,文件所占用的存储空间远小于数据库占用的存储空间。
附图说明
图1为本发明实施例一提供的数据存储方法的流程图;
图2为本发明实施例一提供的数据存储方法中第一个体存储信息的结构示意图;
图3为本发明实施例二提供的数据存储方法的流程图;
图4为本发明实施例三提供的数据存储方法的流程图;
图5为本发明实施例四提供的数据存储装置的结构示意图;
图6为本发明实施例五提供的数据存储装置的结构示意图;
图7为本发明实施例六提供的数据存储装置的结构示意图。
具体实施方式
实施例一
图1为本发明实施例一提供的数据存储方法的流程图。本实施例提供的数据存储方法可适用于对大量的数据进行处理,尤其是大数据,该方法可以由数据处理装置来执行,可以通过软件/硬件的方式来实现。如图1所示,数据存储方法可以包括:
步骤101、从待存储的第一个体的个体数据中抽取第一个体的标识信息,并根据预设的抽取规则从第一个体的个体数据中抽取与第一个体相关联的、至少一个的第二个体的标识信息。
首先,获取一个数据群的所有数据,以对每个个体的个体数据进行存储。获取数据群所有数据的方式可采用现有技术中常用的方式来实现。例如:若数据群为一个公司,则通过对所有员工数据的收集,整合成为该公司数据群的所有数据;若数据群为一个网站,则通过对该网站所有用户数据的收集,作为该网站数据群的所有数据。
本实施例以对第一个体的个体数据进行存储为例,来对技术方案进行详细的说明。在对第一个体的个体数据进行存储的过程中,首先从该个体数据中抽取第一个体的标识信息,该标识信息是预先设定好的,是第一个体的唯一标识,具体设定规则可以由技术人员来设定。例如第一个体是一个自然人,则其身份证号码就可以作为第一个体的标识,用于识别第一个体;若第一个体是一个论坛的用户,则该用户的用户名可以作为第一个体的标识,或者其用户名、等级或擅长领域关键词等的组合都可以作为第一个体的标识。
然后根据预设的抽取规则从第一个体的个体数据中抽取与第一个体相关联的、至少一个的第二个体的标识信息。预设的抽取规则可以由技术人员根据需要来设定,例如:可设定抽取规则为按照第一个体的网络论坛的社交信息进行抽取,则根据该抽取规则可以找到在该论坛中与第一个体有关联的用户,即第一个体在论坛中的好友、关注的对象以及被关注的对象等均可以作为第二个体,并抽取第二个体的标识信息,第二个体的用户名或者用户名与等级、擅长领域关键词等的组合可以作为第二个体的标识信息。第二个体的数量可以为一个,也可以为两个或两个以上。
步骤102、根据第一个体的标识信息和第二个体的标识信息生成与第一个体对应的血缘编码信息。
在抽取到第一个体的标识信息和至少一个第二个体的标识信息之后,可以根据第一个体的标识信息和至少一个第二个体的标识信息生成与第一个体对应的血缘编码信息。具体的,血缘编码信息可包括两部分,即包括第一个体编码和第二个体编码,其中第一个体编码可以为第一个体的标识信息,第二个体编码可以为至少一个第二个体的标识信息。
上述第一个体的标识信息和第二个体的标识信息的位数可以由本领域技术人员根据数据量或两个个体的具体行为来设定,本实施例以8位二进制数为例,即本实施例中将第一个体的标识信息用8位二进制数来表示,第二个体的标识信息也用8位二进制数来表示。
举一个简单例子,假设数据群为一个自然人家族,第一个体为自然人,按照联系频度作为抽取规则进行抽取,抽取到与第一个体相关联的至少一个第二个体可以为父亲、母亲、妻子、儿子、朋友、同事等,因此,第一个体的血缘编码信息即可以设置为【第一个体的标识】【(妻子的标识)(朋友的标识)(儿子的标识)(父亲的标识)(母亲的标识)(同事的标识)……】。其中,第二个体的数量可以为一个,也可以为两个或两个以上,本实施例设定第二个体的数量可以为20个,每一个第二个体的标识用8位二进制数来表示,则第二个体一共需要160位二进制数来表示。
步骤103、将第一个体的属性数据以及血缘编码信息共同存储在与第一个体的标识信息所对应的存储空间中,以供根据血缘编码信息获得第二个体的标识信息后获取第二个体的个体数据。
步骤103中,需要从第一个体的个体数据中提取其属性数据,也即直接属性数据和间接属性数据。在得到第一个体的血缘编码信息之后,将第一个体的属性数据以及血缘编码信息共同存储在一个存储空间中。
该存储空间是与第一个体的标识信息对应的存储空间,以使在对第一个体进行检索的过程中,在第一个体的标识信息对应的存储空间中当找到第一个体的属性数据时,就能直接找到与第一个体相关联的第二个体,而不需要如现有技术中分别对直接属性表单、间接属性表单和关联关系表单进行查找才能找到与第一个体相关的所有数据。而且本实施例提供的技术方案,在找到第二个体时,可以仅从第二个体标识对应的存储空间中进行一次查找,就可以找到第二个体的个体数据,而不需要现有技术中反复访问各表单才能得到第二个体的个体数据。当第二个体的数量较大时,本实施例技术方案的优点更加明显,能够极大地缩短了查找时间,加快查找速度,提高查找效率。
举例说明:图2为本发明实施例一提供的数据存储方法中第一个体存储信息的结构示意图。如图2所示,第一个体、第二个体A与第二个体B具有关联关系,其关联关系均发生在某论坛中,每个个体的年龄可以作为其直接属性数据,擅长领域作为其间接属性数据。其中,第一个体的血缘编码由24位二进制数组成,前8位为第一个体的标识信息,即:01101001,第9至第16位为第二个体A的标识信息,即:11100110,后8位为第二个体B的标识信息。第二个体A和第二个体B的血缘编码也是按照相同的构成方式生成的。
按照本实施例提供的数据存储方式将第一个体的直接属性数据、间接属性数据、第一个体的标识信息和与第一个体相关联的第二个体的标识信息均存储在一起,使得在对第一个体进行检索的过程中,在第一个体标识信息对应的存储空间中,既能够检索到第一个体的个体数据,又能够直接得到与其相关联的各第二个体的标识,提高了检索速度。
本实施例提供的技术方案通过从第一个体的个体数据中抽取第一个体的标识信息和第二个体的标识信息,并根据第一个体的标识信息和第二个体的标识信息生成与第一个体对应的血缘编码信息,将第一个体的属性数据和血缘编码信息存储在一起,实现了在存储第一个体的属性数据的同时也将第一个体与第二个体的关联关系也进行了存储,使得在检索的过程中,检索到第一个体的同时直接能获取到与第一个体相关联的第二个体,并根据第二个体的标识再进行一次检索可以得到第二个体的个体数据,对于第二个体的数量为一个而言,本实施例提供的技术方案只经过两次查找就可以得到第一个体的所有相关的数据。而现有的结构化存储方式而言,对第一个体进行检索的过程必须经过多次反复地对各表单进行查找才能得到第一个体的所有相关数据。当第二个体的数量较多时,本实施例提供的技术方案能够成比例减少查找次数。因此,相对于现有技术,本实施例提供的技术方案能够大幅度提高检索速度,尤其适用于对大量的数据进行存储和检索的情况。
另外,现有的结构化数据存储方式就是建立在数据库的基础上的,需将数据群分别存储在多个表单中,占用了较多的存储空间。而本实施例提供的技术方案可以不依赖数据库,而以文件的形式进行存储,文件的存储方式相比与数据库而言,文件所占用的存储空间远小于数据库占用的存储空间。
实施例二
图3为本发明实施例二提供的数据存储方法的流程图。本实施例是在上述实施例的基础上,对数据存储方法进行了进一步的优化,该方法可以由数据处理装置来执行,可以通过软件/硬件的方式实现。如图3所示,本实施例提供的数据存储方法可以包括:
步骤201、从待存储的第一个体的个体数据中抽取第一个体的标识信息。
第一个体的标识信息是预先设定好的,是第一个体的唯一标识,具体设定规则可以由技术人员来设定。例如第一个体是一个自然人,则其身份证号码就可以作为第一个体的标识,用于识别第一个体;若第一个体是一个论坛的用户,则该用户的用户名可以作为第一个体的标识,或者其用户名、等级或擅长领域关键词等的组合都可以作为第一个体的标识。
步骤202、根据第一抽取规则从第一个体的个体数据中抽取第一个体的个体行为数据。
由于个体数据的数量较大,若直接从个体数据中抽取与第一个体相关联的第二个体的标识信息,会增加很多不必要的抽取过程,使得抽取速度较慢。因此,在步骤101之后,可以先执行步骤102,根据第一抽取规则从个体数据中抽取第一个体的个体行为数据,然后再从个体行为数据中抽取第二个体的标识。具体的,假设数据群为某论坛网站所有的数据,则第一抽取规则可以设定为只抽取第一个体的行为数据,也可以称为动作数据,如在论坛上发表主题、发表评论以及接收其它个体的评论等数据,即可以按照第一抽取规则将第一个体在各网络论坛上所有的行为数据全部抽取出来,作为第一个体的个体行为数据。
经过步骤202之后,得到的个体行为数据的数据量小于个体数据,并且从抽取第二个体的标识信息方面而言更有针对性。
步骤203、根据第二抽取规则从第一个体的个体行为数据中抽取与第一个体相关联的、至少一个的第二个体的标识信息。
第二抽取规则例如可以设定为按照与第一个体之间的联系频度,或者按照第一个体主动发起的联系行为进行抽取,即可以按照第二抽取规则将第一个体在该论坛上有关联的第二个体的标识抽取出来。本实施例中,第二个体的标识可以为第二个体对应用户的用户名,或用户名、等级或擅长领域关键词等的组合。
在得到第一个体的标识和第二个体的标识之后,即可以执行步骤204。
步骤204、根据第一个体的标识信息和第二个体的标识信息生成与第一个体对应的血缘编码信息。
具体可参照上述实施例中的步骤102,此处不再赘述,在步骤204之后,可以执行步骤205。
步骤205、将第一个体的属性数据以及血缘编码信息共同存储在与第一个体的标识信息所对应的存储空间中,以供根据血缘编码信息获得第二个体的标识信息后获取第二个体的个体数据。
具体可参照上述实施例中的步骤103,此处不再赘述。
本实施例提供的技术方案在上述实施例的基础上,通过对第一个体的个体数据进行初步抽取,得到第一个体的个体行为数据,更有针对性地从个体行为数据中抽取与第一个体相关联的第二个体的标识,能够提高数据抽取速度。
实施例三
图4为本发明实施例三提供的数据存储方法的流程图。本实施例是在上述实施例的基础上,对数据存储方法进行了进一步的优化,该方法可以由数据处理装置来执行,可以通过软件/硬件的方式实现。如图4所示,本实施例提供的数据存储方法可以包括:
步骤301、从待存储的第一个体的个体数据中抽取第一个体的标识信息。
具体可参照上述实施例中的步骤201,此处不再赘述。
第一个体的个体数据包括了所有与第一个体相关联的数据,数据是杂乱无章的,毫无规律可言,若此时就按照抽取规则来抽取个体行为数据,则抽取的时间较长,且抽取到的数据也是杂乱无章的,没有规律。因此,在抽取个体行为数据之前,可以先执行步骤302。
步骤302、根据预设的排序规则对第一个体的个体数据进行排序。
预设的排序规则可由本领域技术人员来设定,例如按照个体数据的更新频度作为排序规则进行排序,或者按照个体数据的更新时间由近及远作为排序规则进行排序,再或者可以设定一个关键字,并按照与该关键字的相关度进行排序等。
以按照与关键字的相关度进行排序为例,在某一论坛中,与第一个体有关联的第二个体的数量很多,其关联关系也有很多种,若假设关联关系的侧重点是计算机方面,则设定关键字为“计算机”,则可先计算个体数据中的所有数据与“计算机”之间的相关系数,具体可按照现有技术中常用的相关度计算方式来实现。然后按照相关系数由高到低的顺序对个体数据进行排序。本领域技术人员可以理解的是,在对个体数据进行相关度排序之后,位于序列前面的数据与“计算机”的相关度较高,则对这部分数据进行抽取而得到的第二个体与第一个体之间的关联关系是以“计算机”为核心的,因此,对这部分数据进行抽取可获得信息量更为准确的数据。对于序列较靠后的个体数据,由于其与“计算机”相关度较低,可由技术人员设定不对其进行数据抽取,或只进行简单的数据抽取,而不进行全面的数据比对,以节约数据抽取时间,提高数据抽取效率。
在步骤302之后,还可以对排序后的个体数据进行语法的规范处理,即可以按照现有技术中常用的数据语法处理方式,将个体数据中的各种数据的格式都统一,以提高后续进行抽取的效率和精准度。
另外,除了可以采用步骤302的方式之外,还可以采用如下步骤303的实现方式。或者,可以既执行步骤302又执行步骤303,但步骤303与步骤302之间没有严格的时序关系,可以先执行步骤302,再执行步骤303,也可以先执行步骤303,再执行步骤302。图4示出的是先执行步骤302,再执行步骤303的方式,本领域技术人员可以根据本实施例提供的实现方式进行简单修改而得到其它的实现方式。
步骤303、根据预设的分类规则对第一个体的个体数据进行分类。
预设的分类规则可以由技术人员根据个体数据的内容来设定,以数据群为网络论坛的数据为例,例如可以将第一个体经常关注的主题类型作为分类规则,即按照电子类主题、软件类主题、通信类主题等进行分类。对个体数据进行分类之后,能够更有针对性地对各类个体数据进行抽取,能够提高抽取速度,节约抽取时间,提高数据处理效率。
在上述步骤302和/或步骤303执行过后,可以执行步骤304。
步骤304、根据第一抽取规则从第一个体的个体数据中抽取第一个体的个体行为数据。
步骤305、根据第二抽取规则从第一个体的个体行为数据中抽取与第一个体相关联的、至少一个的第二个体的标识信息。
步骤304和305的实现方式可参照上述实施例中的步骤202和203,此处不再赘述,在步骤305之后,可以执行步骤306。
步骤306、根据第一个体的标识信息和第二个体的标识信息生成与第一个体对应的血缘编码信息。
在抽取到第一个体的标识信息和至少一个第二个体的标识信息之后,可以根据第一个体的标识信息和至少一个第二个体的标识信息生成与第一个体对应的血缘编码信息。具体的,血缘编码信息可包括两部分,即包括第一个体编码和第二个体编码,其中第一个体编码可以为第一个体的标识信息,第二个体编码可以为至少一个第二个体的标识信息。
上述第一个体的标识信息和第二个体的标识信息的位数可以由本领域技术人员根据数据量或两个个体的具体行为来设定,本实施例以8位二进制数为例,即本实施例中将第一个体的标识信息用8位二进制数来表示,第二个体的标识信息也用8位二进制数来表示。
举一个简单例子,假设第一个体为自然人,将联系频度作为抽取规则进行抽取,抽取到与第一个体经常进行通讯联系的至少一个第二个体可以为父亲、母亲、妻子、儿子、朋友、同事等,因此,第一个体的血缘编码信息即可以设置为【第一个体的标识】【(妻子的标识)(朋友的标识)(儿子的标识)(父亲的标识)(母亲的标识)(同事的标识)……】。其中,第二个体的数量可以为一个,也可以为两个或两个以上,本实施例设定第二个体的数量可以为20个,每一个第二个体的标识用8位二进制数来表示,则第二个体一共需要160位二进制数来表示。
对于第二实体的数量为两个或两个以上的情况,可以进一步对各第二实体进行排序,具体可按照第二实体与第一实体之间的相关度来排序,将与第一实体关系最近的第二实体设置在第二个体编码的前面,将关系较远的设置在后面。其中,第二个体与第一个体的关系远近的设定方式可以根据相互之间的交流次数、相同数据的数量或其它数据来确定。具体的,可根据第一个体的标识和第二个体的标识计算二者之间的相关系数,按照相关系数由大到小的顺序进行排序,也即将相关系数最大的第二个体设置在首位,向后按照相关系数依次排序。
然后根据第一个体的标识信息和排序后的第二个体的标识信息生成与第一个体对应的血缘编码信息。
以上述例子继续来说明:若按照关联关系的远近,可以将至少一个第二个体的排序设定为父亲、母亲、儿子、妻子、朋友、同事。因此,与第一个体对应的血缘编码信息即可以设置为【第一个体的标识】【(父亲的标识)(母亲的标识)(儿子的标识)(妻子的标识)(朋友的标识)(同事的标识)……】。
对于上述至少一个第二个体的关系远近,可以随着第一个体的行为实时调整,也就是说至少一个第二个体中,各第二个体的顺序并不是固定不变的,是可以根据第一个体的个体行为数据实时调整的,调整的方式可按照上述对数据进行存储的步骤来实现。
步骤307、将第一个体的属性数据以及血缘编码信息共同存储在与第一个体的标识信息所对应的存储空间中,以供根据血缘编码信息获得第二个体的标识信息后获取第二个体的个体数据。
具体可参照实施例一中的步骤103,此处不再赘述。
本实施例提供的技术方案通过从第一个体的个体数据中抽取第一个体的标识信息和第二个体的标识信息,并根据第一个体的标识信息和第二个体的标识信息生成与第一个体对应的血缘编码信息,将第一个体的属性数据和血缘编码信息存储在一起,实现了在存储第一个体的属性数据的同时也将第一个体与第二个体的关联关系也进行了存储,使得在检索的过程中,检索到第一个体的同时直接能获取到与第一个体相关联的第二个体,并根据第二个体的标识再进行一次检索可以得到第二个体的个体数据,对于第二个体的数量为一个而言,本实施例提供的技术方案只经过两次查找就可以得到第一个体的所有相关的数据。而现有的结构化存储方式而言,对第一个体进行检索的过程必须经过多次反复地对各表单进行查找才能得到第一个体的所有相关数据。当第二个体的数量较多时,本实施例提供的技术方案能够成比例减少查找次数。因此,相对于现有技术,本实施例提供的技术方案能够大幅度提高检索速度,尤其适用于对大量的数据进行存储和检索的情况。
另外,现有的结构化数据存储方式就是建立在数据库的基础上的,需将数据群分别存储在多个表单中,占用了较多的存储空间。而本实施例提供的技术方案可以不依赖数据库,而以文件的形式进行存储,文件的存储方式相比与数据库而言,文件所占用的存储空间远小于数据库占用的存储空间。
本实施例是在上述实施例的基础上,对第一个体的个体数据先进行排序和/或分类,以抽取到数据相对较少且针对性更强的一部分数据,然后再对该部分数据进行第二个体标识信息的抽取,能够进一步提高数据抽取的速度,提高效率。
再者,现有的结构化数据存储方式中,数据库中各表单之间通过键值相互关联和调用,当数据量较大且表单数量较多时,键值之间的关联关系比较复杂,并且仅仅是物理性的关联。而本实施例提供的技术方案中,第一个体与第二个体之间的关联关系并不是单纯的物理性关联,而是根据二者在数据群中真实的关系进行抽取得到的,因此,在用本实施例提供的数据存储方法,在对第一个体的数据进行检索的过程中,不但能够直接得到与其相关联的第二个体,并且该第二个体与第一个体之间的关联关系更切合二者在数据群中真实的关系,因此,能够提高数据检索的精准度。
实施例四
图5为本发明实施例四提供的数据存储装置的结构示意图。如图5所示,本实施例提供的数据处理装置可以包括:信息抽取模块1、编码生成模块2和存储模块3。
其中,信息抽取模块1用于从待存储的第一个体的个体数据中抽取第一个体的标识信息,并根据预设的抽取规则从第一个体的个体数据中抽取与第一个体相关联的、至少一个的第二个体的标识信息。编码生成模块2用于根据第一个体的标识信息和第二个体的标识信息生成与第一个体对应的血缘编码信息。存储模块3用于将第一个体的属性数据以及血缘编码信息共同存储在与第一个体的标识信息所对应的存储空间中,以供根据血缘编码信息获得第二个体的标识信息后获取第二个体的个体数据。
本实施例提供的技术方案通过从第一个体的个体数据中抽取第一个体的标识信息和第二个体的标识信息,并根据第一个体的标识信息和第二个体的标识信息生成与第一个体对应的血缘编码信息,将第一个体的属性数据和血缘编码信息存储在一起,实现了在存储第一个体的属性数据的同时也将第一个体与第二个体的关联关系也进行了存储,使得在检索的过程中,检索到第一个体的同时直接能获取到与第一个体相关联的第二个体,并根据第二个体的标识再进行一次检索可以得到第二个体的个体数据,对于第二个体的数量为一个而言,本实施例提供的技术方案只经过两次查找就可以得到第一个体的所有相关的数据。而现有的结构化存储方式而言,对第一个体进行检索的过程必须经过多次反复地对各表单进行查找才能得到第一个体的所有相关数据。当第二个体的数量较多时,本实施例提供的技术方案能够成比例减少查找次数。因此,相对于现有技术,本实施例提供的技术方案能够大幅度提高检索速度,尤其适用于对大量的数据进行存储和检索的情况。
另外,现有的结构化数据存储方式就是建立在数据库的基础上的,需将数据群分别存储在多个表单中,占用了较多的存储空间。而本实施例提供的技术方案可以不依赖数据库,而以文件的形式进行存储,文件的存储方式相比与数据库而言,文件所占用的存储空间远小于数据库占用的存储空间。
实施例五
图6为本发明实施例五提供的数据存储装置的结构示意图。本实施例是在上述实施例的基础上,对数据处理装置进行了进一步的优化。如图6所示,
上述信息抽取模块1具体可以包括第一抽取单元11、第二抽取单元12和第三抽取单元13。
其中,第一抽取单元11用于从待存储的第一个体的个体数据中抽取第一个体的标识信息。第二抽取单元12用于根据第一抽取规则从第一个体的个体数据中抽取第一个体的个体行为数据。第三抽取单元13用于根据第二抽取规则从第一个体的个体行为数据中抽取与第一个体相关联的、至少一个的第二个体的标识信息。
本实施例提供的技术方案在上述实施例的基础上,通过对第一个体的个体数据进行初步抽取,得到第一个体的个体行为数据,更有针对性地从个体行为数据中抽取与第一个体相关联的第二个体的标识,能够提高数据抽取速度。
实施例六
图7为本发明实施例六提供的数据存储装置的结构示意图。本实施例是在上述实施例的基础上,对数据处理装置进行了进一步的优化。如图7所示,信息抽取模块1还可以包括:第一排序单元14,该第一排序单元14用于根据预设的排序规则对第一个体的个体数据进行排序。第一排序单元14可在第一抽取单元11之后执行,待第一排序单元14执行过后,再触发第二抽取单元12的操作。
另外,除了采用第一排序单元14之外,还可以采用分类单元15,该分类单元15用于根据预设的分类规则对第一个体的个体数据进行分类。对个体数据进行分类之后,能够有针对性地对各类个体数据进行抽取,能够提高抽取速度,节约抽取时间,提高数据处理效率。分类单元15可在第一抽取单元11之后执行,待分类单元15执行过后,再触发第二抽取单元12的操作。
上述第一排序模块单元14和分类单元15可以选其一个来执行,或者二者都执行,但二者之间没有严格的时序关系,可以先触发第一排序单元14的操作,再触发分类单元15的操作,或者可以先触发分类单元15的操作,再触发第一排序单元14的操作。图7所示为第一排序单元14和分类单元15都进行操作的方式,然后再触发第二抽取单元12的操作。本领域技术人员可以根据本实施例提供的实现方式进行简单修改而得到其它的实现方式。
进一步的,上述编码生成模块2具体可以包括:第二排序单元21和编码生成单元22。其中,第二排序单元21用于当第二个体的数量为至少两个时,按照第二个体与第一个体的相关度对第二个体的标识信息进行排序。编码生成单元22用于根据第一个体的标识信息和排序后的第二个体的标识信息生成与第一个体对应的血缘编码信息。
本实施例是在上述实施例的基础上,对第一个体的个体数据先进行排序和/或分类,以抽取到数据相对较少且针对性更强的一部分数据,然后再对该部分数据进行第二个体标识信息的抽取,能够进一步提高数据抽取的速度,提高效率。
上述数据处理装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种数据存储方法,其特征在于,包括:
从待存储的第一个体的个体数据中抽取所述第一个体的标识信息,并根据预设的抽取规则从所述第一个体的个体数据中抽取与所述第一个体相关联的、至少一个的第二个体的标识信息;
根据所述第一个体的标识信息和所述第二个体的标识信息生成与所述第一个体对应的血缘编码信息;
将所述第一个体的属性数据以及所述血缘编码信息共同存储在与所述第一个体的标识信息所对应的存储空间中,以供根据所述血缘编码信息获得所述第二个体的标识信息后获取所述第二个体的个体数据;
从待存储的第一个体的个体数据中抽取所述第一个体的标识信息,并根据预设的抽取规则从所述第一个体的个体数据中抽取与所述第一个体相关联的、至少一个的第二个体的标识信息,包括:
从待存储的第一个体的个体数据中抽取所述第一个体的标识信息;
根据第一抽取规则从所述第一个体的个体数据中抽取所述第一个体的个体行为数据;
根据第二抽取规则从所述第一个体的个体行为数据中抽取与所述第一个体相关联的、至少一个的第二个体的标识信息。
2.根据权利要求1所述的数据存储方法,其特征在于,在根据第一抽取规则从所述第一个体的个体数据中抽取所述第一个体的个体行为数据之前,还包括:
根据预设的排序规则对所述第一个体的个体数据进行排序。
3.根据权利要求1或2所述的数据存储方法,其特征在于,在根据预设的抽取规则从所述第一个体的个体数据中抽取所述第一个体的个体行为数据之前,还包括:
根据预设的分类规则对所述第一个体的个体数据进行分类。
4.根据权利要求3所述的数据存储方法,其特征在于,根据所述第一个体的标识信息和所述第二个体的标识信息生成与所述第一个体对应的血缘编码信息,包括:
当所述第二个体的数量为至少两个时,按照所述第二个体与第一个体的相关度对第二个体的标识信息进行排序;
根据所述第一个体的标识信息和排序后的第二个体的标识信息生成与所述第一个体对应的血缘编码信息。
5.一种数据存储装置,其特征在于,包括:
信息抽取模块,用于从待存储的第一个体的个体数据中抽取所述第一个体的标识信息,并根据预设的抽取规则从所述第一个体的个体数据中抽取与所述第一个体相关联的、至少一个的第二个体的标识信息;
编码生成模块,用于根据所述第一个体的标识信息和所述第二个体的标识信息生成与所述第一个体对应的血缘编码信息;
存储模块,用于将所述第一个体的属性数据以及所述血缘编码信息共同存储在与所述第一个体的标识信息所对应的存储空间中,以供根据所述血缘编码信息获得所述第二个体的标识信息后获取所述第二个体的个体数据;
所述信息抽取模块包括:
第一抽取单元,用于从待存储的第一个体的个体数据中抽取所述第一个体的标识信息;
第二抽取单元,用于根据第一抽取规则从所述第一个体的个体数据中抽取所述第一个体的个体行为数据;
第三抽取单元,用于根据第二抽取规则从所述第一个体的个体行为数据中抽取与所述第一个体相关联的、至少一个的第二个体的标识信息。
6.根据权利要求5所述的数据存储装置,其特征在于,所述信息抽取模块还包括:
第一排序单元,用于根据预设的排序规则对所述第一个体的个体数据进行排序。
7.根据权利要求5或6所述的数据存储装置,其特征在于,所述信息抽取模块还包括:
分类单元,用于根据预设的分类规则对所述第一个体的个体数据进行分类。
8.根据权利要求7所述的数据存储装置,其特征在于,所述编码生成模块包括:
第二排序单元,用于当所述第二个体的数量为至少两个时,按照所述第二个体与第一个体的相关度对第二个体的标识信息进行排序;
编码生成单元,用于根据所述第一个体的标识信息和排序后的第二个体的标识信息生成与所述第一个体对应的血缘编码信息。
CN201410196771.2A 2014-05-09 2014-05-09 数据存储方法和装置 Active CN103955526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410196771.2A CN103955526B (zh) 2014-05-09 2014-05-09 数据存储方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410196771.2A CN103955526B (zh) 2014-05-09 2014-05-09 数据存储方法和装置

Publications (2)

Publication Number Publication Date
CN103955526A CN103955526A (zh) 2014-07-30
CN103955526B true CN103955526B (zh) 2017-05-10

Family

ID=51332801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410196771.2A Active CN103955526B (zh) 2014-05-09 2014-05-09 数据存储方法和装置

Country Status (1)

Country Link
CN (1) CN103955526B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868521A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 数据信息处理方法及装置
CN108255877B (zh) * 2016-12-29 2020-11-24 北京国双科技有限公司 裁判文书的存储方法及装置
CN108846039B (zh) * 2018-05-29 2020-12-01 新华三大数据技术有限公司 数据流向确定方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004013770A2 (en) * 2002-07-26 2004-02-12 Ron Everett Data management architecture associating generic data items using reference
CN103020264A (zh) * 2012-12-25 2013-04-03 远光软件股份有限公司 多子集实体数据的存储显示方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004013770A2 (en) * 2002-07-26 2004-02-12 Ron Everett Data management architecture associating generic data items using reference
CN1856783A (zh) * 2002-07-26 2006-11-01 罗恩·埃弗里特 使用参考与一般数据项关联的数据管理结构
CN103020264A (zh) * 2012-12-25 2013-04-03 远光软件股份有限公司 多子集实体数据的存储显示方法及装置

Also Published As

Publication number Publication date
CN103955526A (zh) 2014-07-30

Similar Documents

Publication Publication Date Title
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
CN104750705B (zh) 信息回复方法及装置
CN111222305A (zh) 一种信息结构化方法和装置
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN107844533A (zh) 一种智能问答系统及分析方法
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN110209816A (zh) 基于对抗模仿学习的事件识别及分类方法、系统、装置
CN106919575A (zh) 应用程序搜索方法及装置
CN103365992A (zh) 一种基于一维线性空间实现Trie树的词典检索方法
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
CN103955526B (zh) 数据存储方法和装置
CN110858219A (zh) 物流对象信息处理方法、装置及计算机系统
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN115392237A (zh) 情感分析模型训练方法、装置、设备及存储介质
JP5098631B2 (ja) メール分類システム、メール検索システム
Wilson et al. Predicting human activities from user-generated content
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
CN113761192A (zh) 文本处理方法、文本处理装置及文本处理设备
CN105975508B (zh) 个性化元搜索引擎检索结果合成排序方法
CN107004002A (zh) 根据结构化数据项的集合生成非结构化搜索查询
CN106503064B (zh) 一种自适应微博话题摘要的生成方法
CN113707302A (zh) 基于关联信息的服务推荐方法、装置、设备及存储介质
CN110047569A (zh) 基于胸片报告生成问答数据集的方法、装置及介质
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant