CN112434125A - 索引结构、非结构化数据的检索方法、装置和设备 - Google Patents

索引结构、非结构化数据的检索方法、装置和设备 Download PDF

Info

Publication number
CN112434125A
CN112434125A CN202011379668.3A CN202011379668A CN112434125A CN 112434125 A CN112434125 A CN 112434125A CN 202011379668 A CN202011379668 A CN 202011379668A CN 112434125 A CN112434125 A CN 112434125A
Authority
CN
China
Prior art keywords
information
unstructured data
classification
index structure
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011379668.3A
Other languages
English (en)
Inventor
谭珂
郑巍
陈海平
程钟斌
姚志楠
贾梦瑶
杨介科
尹伊人
李超
宋朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Life Insurance Co Ltd China
Original Assignee
China Life Insurance Co Ltd China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Life Insurance Co Ltd China filed Critical China Life Insurance Co Ltd China
Priority to CN202011379668.3A priority Critical patent/CN112434125A/zh
Publication of CN112434125A publication Critical patent/CN112434125A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明示例性实施例提供一种索引结构、非结构化数据的检索方法、装置和设备,针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;基于所述索引结构对所述具体业务场景的非结构化数据进行分类;根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。本发明能够提升非结构化数据的检索性能。

Description

索引结构、非结构化数据的检索方法、装置和设备
技术领域
本发明示例性实施例涉及数据处理技术领域,尤其涉及一种索引结构、非结构化数据的检索方法、装置和设备。
背景技术
随着业务种类的逐渐繁多和业务的不断发展,对业务搜索筛选的粒度越来越细,统计维度也随之越来越多,在实际业务场景中,针对于各类不同业务上存在的各种排序需求、搜索时限需求等,现有的搜索方式受到较大的局限性。
针对现在种类繁多的业务,不同业务的索引类型又不尽相同,使用动态的索引增加的索引字段会杂然无章,且一线开发人员在一定程度上对非结构化数据的了解也不全面,指定的索引类型也不全面,更不容易进行管理,不适当的指定和管理反而会降低非结构化数据的性能,对于保存业务数据的系统而言,目前还没有能够解决上述问题的方法或装置出现。
发明内容
有鉴于此,本发明示例性实施例的目的在于提出一种索引结构、非结构化数据的检索方法、装置和设备,以解决目前的保险系统中多业务场景下的非结构化数据搜索性能较低的问题。
基于上述目的,第一方面,本发明示例性实施例提供了一种索引结构,应用于非结构化数据的高可用搜索,所述索引结构包括以下信息中的一种要素:
系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;
其中,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息。
结合上述说明,在本发明实施例另一种可能的实施方式中,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。
第二方面,本发明示例性实施例还提供了一种非结构化数据的检索方法,包括:
针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;
基于所述索引结构对所述具体业务场景的非结构化数据进行分类;
根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。
结合上述说明,在本发明实施例另一种可能的实施方式中,所述基于所述索引结构对所述具体业务场景的非结构化数据进行分类,包括:
对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;
每一所述母类和所述子类均为横向和纵向可扩展的。
结合上述说明,在本发明实施例另一种可能的实施方式中,所述方法还包括:
确定待检索的非结构化数据的横向分类和纵向分类;
在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置。
结合上述说明,在本发明实施例另一种可能的实施方式中,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。
第三方面,本发明示例性实施例还提供了一种非结构化数据的检索装置,其特征在于,包括:
构建模块,用于针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;
分类模块,用于基于所述索引结构对所述具体业务场景的非结构化数据进行分类;
检索模块,用于根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。
上述的装置,所述分类模块,还用于:
对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;其中,每一所述母类和所述子类均为横向和纵向可扩展的。
上述的装置,所述装置还包括:
第一确定模块,用于确定待检索的非结构化数据的横向分类和纵向分类;
第二确定模块,用于在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置;
所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。
第四方面,本发明示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的非结构化数据的检索方法。
从上面所述可以看出,本发明示例性实施例提供的索引结构、非结构化数据的检索方法、装置和设备,通过构建一种多具体业务场景下的索引结构,该索引结构包括横向与纵向的各种母类和子类,而且随着业务的不断增多,索引结构也可随之更加丰富,因此,在不需要进行全量检索的前提下,本发明多业务高可用搜用解决方案能够无限接近实时搜索,大幅提升了非结构化数据的搜索性能。
附图说明
为了更清楚地说明本发明示例性实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明示例性实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明示例性实施例索引结构示意图;
图2为本发明示例性实施例非结构化数据的检索方法流程基本示意图;
图3为本发明示例性实施例非结构化数据的检索装置基本结构示意图;
图4为本发明示例性实施例的设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本发明示例性实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明示例性实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
在保险系统的底层分布式存储系统或云存储系统(如内容云)中,一般地,在根权限下存在多个租户,每一租户对应于多个桶用于存储各类数据对象,所述租户可对应于保险系统中的某一类大部门,所述桶可对应于保险系统中的中级部门,所述桶中又可包括有多个类型的应用数据或者各种类型的子系统存储数据,每一个部门可认为是一个具体的业务场景。
本发明涉及一种索引结构、非结构化数据的检索方法、装置和设备,其主要运用于保险系统具体场景的非结构化数据的存储与检索场景中,其基本思想是:通过构建一种多具体业务场景下的索引结构,该索引结构包括横向与纵向的各种母类和子类,而且随着业务的不断增多,索引结构也可随之更加丰富,因此,在不需要进行全量检索的前提下,本发明多业务高可用搜用解决方案能够无限接近实时搜索,大幅提升了非结构化数据的搜索性能。
本实施例可适用于带有索引模块的智能型终端中以进行非结构化数据的搜索的情况中,该方法可以由索引检索的装置来执行,其中该装置可以由软件和/或硬件来实现,一般地可集成于移动终端中,或者终端中的中心控制模块来控制,如图1所示,为本发明示例性实施例的索引结构的示意图,其应用于非结构化数据的高可用搜索,所述索引结构包括以下信息中的一种要素:
系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;
其中,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息。
结合图1所示,所述内容云索引结构为在保险系统的云存储时建立的索引结构,非结构化数据一般为文本信息、图片信息、视频信息等,系统生成的索引信息及文件识别信息是由系统生成的,比如文件名、分片文件名、存储位置、文件类型、文件大小等;应用方自定义业务信息是根据应用系统情况进行定义的,比如证件号、业务流水号、借记卡号、医保卡号、疾病种类等;操作员轨迹信息对操作员进行轨迹跟踪,比如操作员工号、操作员操作动作等。
结合图1所示,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。
本发明示例性实施例的一种实施方式中,所述索引结构中的各要素的排序并非是一成不变的,而是可变化的,而在搜索时提供给用户的索引结构的要素排序可根据用户的偏好进行设定,进一步地,索引结构根据业务可以进行二次划分,针对具体的场景业务可以再次划分为基础使用类、投保类、理赔类、影像采集类、双录类、轨迹类、分公司类等,该涉及模型可以随着业务的不断扩大,动态进行横向和纵向扩展。
本发明示例性实施例还提供一种非结构化数据的检索方法,结合图2所示,为本发明的方法基本流程示意图,这一过程包括:
在步骤210中,针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;
结合图1所示,在保险系统中,非结构化数据一般为文本信息、图片信息、视频信息等,系统生成的索引信息及文件识别信息是由系统生成的,比如文件名、分片文件名、存储位置、文件类型、文件大小等;应用方自定义业务信息是根据应用系统情况进行定义的,比如证件号、业务流水号、借记卡号、医保卡号、疾病种类等;操作员轨迹信息对操作员进行轨迹跟踪,比如操作员工号、操作员操作动作等。
在步骤220中,基于所述索引结构对所述具体业务场景的非结构化数据进行分类;
在存储时,将非结构化数据的文件名按照索引结构中的要素进行命名,则可按照该要素对已有的以及将要存储的非结构化数据进行分类。
所述具体业务场景,包括抽保类、理赔类等在保险系统内的业务场景。
在步骤230中,根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。
本发明示例性实施例的一种实施方式中,以针对投保类的无纸化投保的具体业务场景为例,可以根据无纸化的索引信息指定系统字段或者自定义业务字段进行搜索,即在投保类的分类后的非结构化数据的相应存储位置进行搜索。
本发明示例性实施例的一种更具体的实施方式中,还包括:根据自定义的业务信息,各业务系统进行个性化的数据统计;如可以根据系统数据,指定单个字段或者多个字段进行按年、月、日进行统计;还可以根据创建时间、更新时间统计近期的业务量;可以根据文件大小统计占用存储的使用空间等。
根据操作员轨迹信息,可以跟踪操作员信息,责任到人。如可以根据操作员的操作记录操作员操作的哪个数据、如何操作的、操作的时间、操作是否成功等等,将责任到人。
本发明的方法,分类后的索引结构使得非结构化数据不需要全量检索,只需要根据划分进行近实时的搜索,达到最优性能,因此能够大幅提升非结构化数据的搜索性能。
本发明示例性实施例的一种实施方式中,所述基于所述索引结构对所述具体业务场景的非结构化数据进行分类,包括:
对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;
每一所述母类和所述子类均为横向和纵向可扩展的。
结合图1所示,本发明的第一母类可以为基础使用类、投保类、理赔类、影像采集类、双录类、轨迹类以及分公司类等,随着具体业务场景的扩展或增加,该行的母类可以随之扩展,所述纵向分类及子类包括,例如所述基础使用类的母类之下,包括cms为开头的若干子类,其中的每一子类在横向上是可以扩展的,且在纵向上也是可以扩展的,每一个子类也可作为母类具有若干个子类。
本发明的方法,可以实现索引信息的动态扩展,在提升检索性能的基础上,个性化定制索引,个性化进行数据统计分析,实现高可用的性能,亦可在此基础上对场景优化进行反哺。
本发明示例性实施例的一种实施方式中,所述方法还包括:确定待检索的非结构化数据的横向分类和纵向分类;在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置。
在进行非结构化的数据搜索时,可首先确定非结构化数据的横向分类和纵向分类,然后在此分类基础上,结合输入的关键字信息,例如关键字信息为“x-cms-sys-id”,则可以根据该关键字信息快速确定待检索的非结构数据的存储位置,以实现数据定位,快速进行查找。
本发明示例性实施例的实施方式中,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展,具体地,对于要求的排序和横向或纵向拓展,请参考图1所示。
可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
图3为本发明实施例提供的一种非结构化数据的检索装置的结构示意图,该装置可由软件和/或硬件实现,一般地集成于智能终端中,可通过非结构化数据的检索方法来实现。如图所示,本实施例可以以上述实施例为基础,提供了一种非结构化数据的检索装置,其主要包括了构建模块310、分类模块320以及检索模块330。
其中的构建模块310,用于针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;
其中的分类模块320,用于基于所述索引结构对所述具体业务场景的非结构化数据进行分类;
其中的检索模块330,用于根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。
上述的装置,所述分类模块320还用于:
对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;其中,每一所述母类和所述子类均为横向和纵向可扩展的。
上述的装置,所述装置还包括:
第一确定模块,用于确定待检索的非结构化数据的横向分类和纵向分类;
第二确定模块,用于在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置;
所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。
上述实施例中提供的非结构化数据的检索装置可执行本发明中任意实施例中所提供的非结构化数据的检索方法,具备执行该方法相应的功能模块和有益效果,未在上述实施例中详细描述的技术细节,可参见本发明任意实施例中所提供的非结构化数据的检索方法。
本说明书实施例中涉及的技术载体,例如可以包括近场通信(Near FieldCommunication,NFC)、WIFI、3G/4G/5G、POS机刷卡技术、二维码扫码技术、条形码扫码技术、蓝牙、红外、短消息(Short Message Service,SMS)、多媒体消息(Multimedia MessageService,MMS)等。
本说明书实施例中所述生物识别所涉及的生物特征,例如可以包括眼部特征、声纹、指纹、掌纹、心跳、脉搏、染色体、DNA、人牙咬痕等。其中眼纹可以包括虹膜、巩膜等生物特征。
需要说明的是,本发明示例性实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明示例性实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本发明示例性实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行本发明实施例的非结构化数据的检索方法。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序及程序本身的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息,以用于执行本发明实施例的上述技术方案。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明示例性实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明示例性实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明示例性实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明示例性实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明示例性实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明示例性实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明示例性实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种索引结构,应用于非结构化数据的高可用搜索,其特征在于,所述索引结构包括以下信息中的一种要素:
系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;
其中,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息。
2.根据权利要求1所述的索引结构,其特征在于,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。
3.一种非结构化数据的检索方法,其特征在于,包括:
针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;
基于所述索引结构对所述具体业务场景的非结构化数据进行分类;
根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。
4.根据权利要求3所述的方法,其特征在于,所述基于所述索引结构对所述具体业务场景的非结构化数据进行分类,包括:
对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;
每一所述母类和所述子类均为横向和纵向可扩展的。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
确定待检索的非结构化数据的横向分类和纵向分类;
在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置。
6.根据权利要求3所述的方法,其特征在于,所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。
7.一种非结构化数据的检索装置,其特征在于,包括:
构建模块,用于针对于具体业务场景的非结构化数据构建索引结构,所述索引结构包括以下信息中的一种要素:系统生成的索引信息、应用方自定义业务信息以及操作员轨迹信息;
分类模块,用于基于所述索引结构对所述具体业务场景的非结构化数据进行分类;
检索模块,用于根据输入的关键字信息,在分类后的所述具体业务场景的非结构化数据中进行检索。
8.根据权利要求7所述的装置,其特征在于,所述分类模块,还用于:
对所述索引结构进行横向分类和纵向分类,所述横向分类为包括所述要素的母类,所述纵向分类为不包括所述要素的子类;其中,每一所述母类和所述子类均为横向和纵向可扩展的。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一确定模块,用于确定待检索的非结构化数据的横向分类和纵向分类;
第二确定模块,用于在确定所述横向分类和所述纵向分类后,结合输入的关键字信息,确定待检索的非结构化数据的存储位置;
所述系统生成的索引信息至少包括系统索引信息和文件识别信息,所述应用方自定义业务信息根据具体的业务场景进行自定义得到,所述操作员轨迹信息为对非结构化数据进行操作的轨迹信息,所述索引结构中的任意一种要素与其它要素之间的排序是可变化的,其中任一种要素为另一种要素的横向或者纵向拓展。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求3至6任意一项所述的非结构化数据的检索方法。
CN202011379668.3A 2020-11-30 2020-11-30 索引结构、非结构化数据的检索方法、装置和设备 Pending CN112434125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011379668.3A CN112434125A (zh) 2020-11-30 2020-11-30 索引结构、非结构化数据的检索方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011379668.3A CN112434125A (zh) 2020-11-30 2020-11-30 索引结构、非结构化数据的检索方法、装置和设备

Publications (1)

Publication Number Publication Date
CN112434125A true CN112434125A (zh) 2021-03-02

Family

ID=74699151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011379668.3A Pending CN112434125A (zh) 2020-11-30 2020-11-30 索引结构、非结构化数据的检索方法、装置和设备

Country Status (1)

Country Link
CN (1) CN112434125A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
US20070208697A1 (en) * 2001-06-18 2007-09-06 Pavitra Subramaniam System and method to enable searching across multiple databases and files using a single search
CN102222099A (zh) * 2011-06-21 2011-10-19 中兴通讯股份有限公司 一种数据存储、查找方法及装置
CN103473324A (zh) * 2013-09-13 2013-12-25 国家电网公司 基于非结构化数据存储的多维业务属性检索装置及方法
CN110196853A (zh) * 2019-05-29 2019-09-03 深圳图为技术有限公司 一种浏览模型的方法、装置和场景工作平台
CN110347674A (zh) * 2019-06-03 2019-10-18 阿里巴巴集团控股有限公司 一种基于业务标识的索引创建方法、装置及设备
CN111563098A (zh) * 2020-04-30 2020-08-21 深圳壹账通智能科技有限公司 结构化与非结构化数据查询方法、设备、存储介质及装置
CN111752955A (zh) * 2020-06-29 2020-10-09 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN111782589A (zh) * 2020-06-10 2020-10-16 厦门市美亚柏科信息股份有限公司 一种用于操作历史重现的数据模型的构建方法及系统
CN111914264A (zh) * 2019-05-08 2020-11-10 华控清交信息科技(北京)有限公司 索引创建方法及装置、数据验证方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070208697A1 (en) * 2001-06-18 2007-09-06 Pavitra Subramaniam System and method to enable searching across multiple databases and files using a single search
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
CN102222099A (zh) * 2011-06-21 2011-10-19 中兴通讯股份有限公司 一种数据存储、查找方法及装置
CN103473324A (zh) * 2013-09-13 2013-12-25 国家电网公司 基于非结构化数据存储的多维业务属性检索装置及方法
CN111914264A (zh) * 2019-05-08 2020-11-10 华控清交信息科技(北京)有限公司 索引创建方法及装置、数据验证方法及装置
CN110196853A (zh) * 2019-05-29 2019-09-03 深圳图为技术有限公司 一种浏览模型的方法、装置和场景工作平台
CN110347674A (zh) * 2019-06-03 2019-10-18 阿里巴巴集团控股有限公司 一种基于业务标识的索引创建方法、装置及设备
CN111563098A (zh) * 2020-04-30 2020-08-21 深圳壹账通智能科技有限公司 结构化与非结构化数据查询方法、设备、存储介质及装置
CN111782589A (zh) * 2020-06-10 2020-10-16 厦门市美亚柏科信息股份有限公司 一种用于操作历史重现的数据模型的构建方法及系统
CN111752955A (zh) * 2020-06-29 2020-10-09 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107918600B (zh) 报表开发系统及方法、存储介质和电子设备
US10909085B2 (en) Blockchain-based data processing method and device
CN112036736B (zh) 一种工作流创建方法及装置
US9904694B2 (en) NoSQL relational database (RDB) data movement
US11768597B2 (en) Method and system for editing video on basis of context obtained using artificial intelligence
CN108171267A (zh) 用户群划分方法及装置、消息推送方法及装置
CN112085087B (zh) 业务规则生成的方法、装置、计算机设备及存储介质
US11307984B2 (en) Optimized sorting of variable-length records
EP3565243A1 (en) Method and apparatus for generating shot information
CN109614600B (zh) 报表展示方法、装置及计算机存储介质
CN113407254B (zh) 表单生成方法、装置、电子设备及存储介质
CN111143461B (zh) 映射关系处理系统、方法和电子设备
CN110348669B (zh) 智能规则生成方法、装置、计算机设备及存储介质
CN116821647A (zh) 基于样本偏离评估的数据标注的优化方法、装置及设备
CN112434125A (zh) 索引结构、非结构化数据的检索方法、装置和设备
CN110008398B (zh) 一种数据分类管理推荐方法及装置
CN111553749A (zh) 一种活动推送策略配置方法及装置
CN114925092B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN109558403A (zh) 数据聚合方法及装置、计算机装置及计算机可读存储介质
KR20200028561A (ko) 문서 자동분류 서비스 제공 시스템
CN111428652B (zh) 一种生物特征管理方法、系统、设备及介质
CN113271378A (zh) 图像处理方法、装置及电子设备
CN105045792A (zh) 用于数据的集成管理的设备和方法以及移动装置
CN116089474B (zh) 自定义编辑模式下的数据缓存方法、装置、设备及介质
CN110795468A (zh) 数据抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination