CN113779349A - 数据检索系统、装置、电子设备和可读存储介质 - Google Patents
数据检索系统、装置、电子设备和可读存储介质 Download PDFInfo
- Publication number
- CN113779349A CN113779349A CN202110918110.6A CN202110918110A CN113779349A CN 113779349 A CN113779349 A CN 113779349A CN 202110918110 A CN202110918110 A CN 202110918110A CN 113779349 A CN113779349 A CN 113779349A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- database
- data
- index
- questionnaire survey
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000012800 visualization Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 25
- 238000004458 analytical method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013499 data model Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000035558 fertility Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种数据检索系统、装置、电子设备和可读存储介质,涉及数据分析技术领域。该数据检索系统采用文档型数据库作为主数据库,存储预设时间段内的问卷调查结果,采用分布式索引数据库根据索引关键字创建至少一个索引文档,利用检索服务单元根据获取到的检索条件从分布式索引数据库中检索得到目标索引文档,如此,利用文档型数据库进行数据的存储,在进行查询时,无需通过跨表联结查询的方式调用主数据库,同时可通过分布式索引数据库查询得到目标索引文档,提高了存储和处理复杂关系型的能力,使得数据检索效率更高,提高了即时查询的响应速度。
Description
技术领域
本申请涉及数据分析技术领域,具体地,涉及一种数据检索系统、装置、电子设备和可读存储介质。
背景技术
目前主流的问卷调查结果即时查询和分析方案,主要是基于关系数据库(或数据立方体模型)及SQL语句(Structured Query Language,结构化查询语言)来实现的。随着大数据时代的到来,越来越多的系统需要支撑海量数据存储,高并发、高可用、高可扩展性等特性要求。
但是传统的关系数据库并不善于处理数据点之间的关系。它们的二维表格数据模型和严格的模式范式使它们很难添加及分析、处理新的或不同种类的关联信息。而这些都是问卷调查结果数据的存储和即时分析业务场景的固有特点。
同时,虽然SQL技术本身功能非常强大,且有各种各样的性能优化方案可选,但是利用SQL技术很难从根本上解决复杂的跨表联结查询(笛卡尔积)所带来的性能下降问题。
也就是说,针对海量问卷调查结果进行数据存储和查询的场景,现有技术中还存在存储和处理复杂关系型数据的能力较弱,对于即时查询的响应速度较低的问题。
发明内容
本申请实施例中提供了一种数据检索系统、装置、电子设备和可读存储介质,以改善上述问题。
根据本申请实施例的第一个方面,提供了一种数据检索系统,所述数据检索系统包括主数据库、分布式索引数据库及检索服务单元;
所述主数据库,用于存储预设时间段内的问卷调查结果,其中,所述主数据库为文档型数据库;
所述分布式索引数据库,用于将所述主数据库存储的问卷调查结果中的不同数据属性作为索引关键字,根据全部所述索引关键字创建至少一个索引文档;
所述检索服务单元,用于获取检索条件,根据所述检索条件从所述分布式索引数据库中检索得到目标索引文档,输出并显示所述目标索引文档。
在可选的实施方式中,所述检索服务单元包括检索信息构造器、检索任务线程池及检索结果聚合主线程;
所述检索信息构造器,用于获取检索条件,根据所述检索条件进行检索预处理,构造得到多个检索任务;
所述检索任务线程池,用于根据多个所述检索任务激活多个任务线程,利用各所述任务线程对各所述检索任务并行从所述分布式索引数据库中检索得到多个目标子索引文档;
所述检索结果聚合主线程,用于对全部所述目标子索引文档进行聚合处理,得到所述目标索引文档,输出并显示所述目标索引文档。
在可选的实施方式中,所述检索信息构造器包括检索条件构造器及检索任务构造器;
所述检索条件构造器,用于获取检索条件,对所述检索条件进行转换处理,得到预设格式的检索数据;
根据所述预设格式的检索数据,从所述主数据库中检索得到原始问卷调查结果,并对初始问卷调查结果进行过滤,得到初始问卷调查结果;
所述检索任务构造器,用于根据所述初始问卷调查结果构造得到多个检索任务。
在可选的实施方式中,所述主数据库,还用于获取所述预设时间段内的全部问卷调查内容;
从每个所述问卷调查内容中提取问卷调查结果,其中,所述问卷调查结果包括受访者属性值、问卷码号、是否规范信息、题目回答结果;
按照预设结构化方式,将全部所述问卷调查结果存储至同一个数据表中。
在可选的实施方式中,所述分布式索引数据库包括基于倒排索引技术的Elasticsearch数据库,所述主数据库包括MongoDB数据库。
在可选的实施方式中,所述分布式索引数据库及所述主数据库的存储方式均为JSON格式。
在可选的实施方式中,所述检索服务单元还用于对所述目标索引文档进行可视化处理,将所述目标索引文档以可视化图表的形式进行展示。
根据本申请实施例的第二个方面,提供了一种数据检索方法,所述方法应用于电子设备,所述电子设备配置有上述的数据检索系统,所述数据检索系统包括主数据库、分布式索引数据库及检索服务单元,所述方法包括:
获取预设时间段内的问卷调查结果,将所述问卷调查结果存储在所述主数据库中;
获取所述主数据库中存储的所述问卷调查结果中的不同数据数据,将不同所述数据属性作为索引关键字,根据全部所述索引关键字创建至少一个索引文档;
获取检索条件,根据所述检索条件从所述数据检索系统包括的分布式索引数据库中检索得到目标索引文档,输出并显示所述目标索引文档。
根据本申请实施例的第三个方面,提供了一种电子设备,所述电子设备包括处理器、存储器及总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器及所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述的数据检索方法的步骤。
根据本申请实施例的第四个方面,提高了一种可读存储介质,所述可读存储介质存储有计算机程序,计算机程序被执行时实现权利要求8所述的数据检索方法的步骤。
本申请实施例提供了一种数据检索系统、方法、电子设备和可读存储介质。该数据检索系统采用文档型数据库作为主数据库,存储预设时间段内的问卷调查结果,采用分布式索引数据库根据索引关键字创建至少一个索引文档,利用检索服务单元根据检索条件从分布式索引数据库中检索得到目标索引文档,如此,利用文档型数据库进行数据的存储,在进行查询时,无需通过跨表联结查询的方式调用主数据库,同时可通过分布式索引数据库查询得到目标索引文档,提高了存储和处理复杂关系型的能力,使得数据检索效率更高,提高了即时查询的响应速度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举一些举例,并配合所附附图,作详细说明。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种电子设备的结构框图。
图2为本申请实施例提供的数据检索系统的功能示意图之一。
图3为本申请实施例提供的一种关系型数据库存储数据的示意图。
图4为本申请实施例提供的一种文档型数据库存储数据的示意图。
图5为本申请实施例提供的一种倒排索引的示意图。
图6为本申请实施例提供的一种数据检索系统的功能示意图之二。
图7为本申请实施例提供的一种数据检索系统的功能示意图之三。
图8为本申请实施例提供的一种数据结构化存储示意图。
图9为本申请实施例提供的一种数据检索方法的步骤示意图。
图标:100-电子设备;110-存储器;120-处理器;130-数据检索系统。
具体实施方式
如背景技术所介绍,目前主流的问卷调查结果数据即时查询和分析方案,主要是基于关系数据库(或数据立方体模型)及SQL语句来实现的。随着大数据时代的到来,越来越多的系统需要支撑海量数据存储,高并发、高可用、高可扩展性等特性要求。
传统的关系型数据库在应付这些要求时已经显得力不从心,并暴露了许多难以克服的问题:
传统的关系数据库并不善于处理数据点之间的关系。它们的二维表格数据模型和严格的模式范式使它们很难添加及分析、处理新的或不同种类的关联信息。而这些都是问卷调查结果数据的存储和即时分析业务场景的固有特点。
虽然SQL技术本身功能非常强大,且有各种各样的性能优化方案可选,但是都很难从根本上解决复杂的跨表联结查询(笛卡尔积)所带来的性能下降问题。
也就是说,现有技术中还存在存储和处理复杂关系型数据的能力较弱,对于即时查询的响应速度较低的问题。
针对上述问题,本申请实施例中提供了一种数据检索系统、方法、电子设备和可读存储介质,该数据检索系统采用文档型数据库作为主数据库,存储预设时间段内的问卷调查结果,采用分布式索引数据库根据索引关键字创建至少一个索引文档,利用检索服务单元根据检索条件从分布式索引数据库中检索得到目标索引文档,如此,利用文档型数据库进行数据的存储,在进行查询时,无需通过跨表联结查询的方式调用主数据库,同时可通过分布式索引数据库查询得到目标索引文档,提高了存储和处理复杂关系型的能力,使得数据检索效率更高,提高了即时查询的响应速度。
本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java、C、C++和直译式脚本语言JavaScript等。
以上现有技术中的方案所存在的缺陷,均是申请人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请实施例针对上述问题所提出的解决方案,都应该是申请人在本申请过程中对本申请做出的贡献。
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
请结合参阅图1,图1为本申请实施例提供的一种电子设备的100的结构框图。设备可以包括处理器120、存储器110、数据检索系统130及通信单元140,存储器110存储有处理器120可执行的机器可读指令,当电子设备100运行时,处理器120及存储器110之间通过总线通信,处理器120执行机器可读指令,并执行数据检索系统。
存储器110、处理器120以及通信单元140各元件相互之间直接或间接地电性连接,以实现信号的传输或交互。
例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。数据检索系统130包括至少一个可以软件或固件(firmware)的形式存储于存储器110中的软件功能模块。处理器120用于执行存储器110中存储的可执行模块,例如数据检索系统130所包括的软件功能模块或计算机程序。
其中,存储器110可以是,但不限于,随机读取存储器(Random Access memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器120可以是一种集成电路芯片,具有信号处理能力。上述处理器120可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等。
还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例中,存储器110用于存储程序,处理器120用于在接收到执行指令后,执行程序。本申请实施例任一实施方式所揭示的流程定义的方法可以应用于处理器120中,或者由处理器120实现。
通信单元140用于通过网络建立电子设备100与其他电子设备之间的通信连接,并用于通过网络收发数据。
在一些实施例中,网络可以是任何类型的有线或者无线网络,或者是他们的结合。仅作为示例,网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless Local Area Networks,WLAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、公共电话交换网(Public Switched Telephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等,或其任意组合。
在本申请实施例中,电子设备100可以是但不限于智能手机、个人电脑、平板电脑等具有处理功能的设备。
可以理解,图1所示的结构仅为示意。电子设备100还可以具有比图1所示更多或者更少的组件,或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。
下面基于图1示出的电子设备100的结构图对本申请实施例提供的数据检索系统进行详细阐述。
请结合参阅图2,图2为本申请实施例提供的数据检索系统的功能示意图之一。
数据检索系统包括主数据库、分布式索引数据库及检索服务单元。
主数据库,用于存储预设时间段内的问卷调查结果,其中,主数据库为文档型数据库。
分布式索引数据库,用于将主数据库存储的问卷调查结果中的不同数据属性作为索引关键字,根据全部索引关键字创建至少一个索引文档。
检索服务单元,用于获取检索条件,根据检索条件从分布式索引数据库中检索得到目标索引文档,输出并显示目标索引文档。
其中,分布式索引数据库可采用基于倒排索引技术的Elasticsearch数据库,主数据库可采用包括MongoDB数据库。
文档数据库(也称为文档型数据库)是旨在将半结构化数据存储为文档的一种NoSQL数据库。文档数据库通常以JSON或XML格式存储数据。
MongoDB是一款为Web应用程序和互联网基础设施设计的文档数据库管理系统。MongoDB提出的是文档、集合的概念,使用BSON(类JSON)作为其数据模型结构,其结构是面向对象的而不是二维表。数据模型因为是面向对象的,所以可以表示丰富的、有层级的数据结构。使用这样的数据模型,使得MongoDB能在生产环境中提供高读写的能力,吞吐量较于MySQL等SQL数据库大大增强。
目前常用的关系类型的数据库需要将数据对象拆分成零部件,然后存在各个相应的表里,最后将各个表联结拼在一起。
例如,假设需要做一个CRM应用,那么就需要管理客户的基本信息,包括客户名字、地址、电话号码等信息。由于每个客户可能有多个电话号码,那么按照第三范式,可将电话号码用单独的一个表来存储,并在显示客户信息的时候通过关联将电话号码等信息取出来,其形式如图3所示。
而文档型数据库的存储单位则是一个文档,可以支持数组和嵌套文档,也就是说,基于一个这样的文档就可以涵盖这个客户相关的所有个人信息,同时可通过合理建模来避免表与表之间的关联,其存储形式如图4所示。
由于表联结(笛卡尔积)在运行时对于资源的消耗较大,而本申请实施例采用文档型数据库存储数据,可避免表与表之间的关联,在进行数据查询时也就不需要消耗大量的资源,提高了存储和处理复杂关系型数据的能力。
同时,Elasticsearch是一款功能强大的基于Lucene的分布式搜索引擎。它提供了一个分布式,多租户,能够支持全文搜索与HTTP接口协议和JSON数据格式。
Elasticsearch搜索引擎的核心技术原理称为“倒排索引”(inverted index),作为一种数据索引方法,其基本原理是建立单词到文档的索引。与之相对的是“正排索引”,其基本原理是建立文档到单词的索引。倒排索引适用于根据关键词来查询文档内容。请结合参阅图5,图5为本申请实施例提供的一种倒排索引的示意图。如图所示,对图5(a)中包括的每个标题(共三个)进行分词,得到“man”、“running”、“mountains”、“snow”及“marathon”等关键词。然后以每个词作为关键字,指出谁的标题中含有这个关键字,如图5(b)所示出的,关键词“man”所对应的标题有1和3,关键词“snow”所对应的标题则仅是标题2。也这就是典型的倒排索引方式。
基于倒排索引的方式进行数据查询,其查询效率高,对于海量数据可实现近实时的处理。同时,可扩展性强,基于集群环境可方便横向扩展,可承载PB级数据。同时,还具有高可用性,基于Elasticsearch的集群弹性,可发现新的或失败的节点,重组和重新平衡数据,确保数据是安全且可访问的。
分布式索引数据库的适用场景如下:适用于分布式的搜索引擎和数据分析引擎。适用于全文检索、结构化检索和数据分析。对海量数据进行近实时的处理,可以将海量数据分散到多台服务器上去存储和检索。
因此,基于分布式索引数据库在查询应用场景的优势,可针对全部关键字创造索引,且全部关键字的查询无需保证顺序,将其应用在针对问卷调查结果进行查询分析的场景中可提供性能极好的查询功能,无需限制查询条件、无需限制字段顺序,支持较高的并发,支持海量数据快速检索。
如此,本申请实施例采用文档型数据库作为问卷调查结果查询场景的主数据库,对海量问卷调查结果进行统一持久化存储和管理,替代了传统关系型数据库。同时,采用分布式索引数据库中存储的问卷调查结果的不同数据属性作为索引关键字,创建索引文档,在进行查询时,无需通过跨表联结查询的方式调用主数据库,而是通过分布式索引数据库查询得到目标索引文档,提高了存储和处理复杂关系型的能力,使得数据检索效率更高,提高了即时查询的响应速度。
进一步地,虽然文档型数据库可采用JSON格式或XML格式存储数据,但是为了提高主数据库与分布式索引数据库之间的数据交互效率,本申请实施例中分布式索引数据库及主数据库的存储方式均为JSON格式。
在针对问卷调查结果进行查询分析时,在某些特定的分析场景下,例如,针对某些包括了非常多选项的问卷,用户在交互界面上选择了非常多的查询过滤条件,同时又进行了全量的分组分析展示时,数据检索系统任然存在一定的新能瓶颈,导致查询结果返回时间过长。为了改善这种场景下的查询速率,本申请实施例还通过创建多个任务线程,对查询任务进行并行处理。下面对此进行详细阐述。
请结合参阅图6,图6为本申请实施例提供的一种数据检索系统的功能示意图之二。在可选的实施方式中,检索服务单元包括检索信息构造器、检索任务线程池及检索结果聚合主线程。
检索信息构造器,用于获取检索条件,根据检索条件进行检索预处理,构造得到多个检索任务。
检索任务线程池,用于根据多个检索任务激活多个任务线程,利用各任务线程对各检索任务并行从分布式索引数据库中检索得到多个目标子索引文档。
检索结果聚合主线程,用于对全部目标子索引文档进行聚合处理,得到目标索引文档,输出并显示目标索引文档。
例如,用户在交互界面根据实际需求选取至少一个查询关键字,以构成检索条件。例如,检索条件可以为:性别为男性,年龄在45岁以上,回答过调查问卷中的第5题。检索信息构造器在获取到检索条件后,根据检索条件进行检索预处理,例如,进行人类语言到机器语言的转换,对检索条件中的部分关键词进行码号的转换,以及初步分析等预处理,以构造得到多个检索任务。
检索任务线程池中可提前规划出固定数量的线程,例如10个,当需要进行检索时,则根据检索任务的数量激活相应数量个任务线程,利用各个任务线程对各个检索任务,以并行的方式从分布式索引数据库中检索得到多个目标子索引文档。例如,检索任务的数量为3,则激活任务线程1、任务线程2及任务线程3。利用任务线程1处理检索任务1,利用任务线程2处理检索任务2,利用任务线程3处理检索任务3。如此,通过多个线程并行处理检索任务,可以极大地提升并发查询效率,同时也可以最大化地利用分布式应用服务器的CPU计算性能。
请结合参阅图7,图7为本申请实施例提供的一种数据检索系统的功能示意图之三。检索信息构造器可进一步包括检索条件构造器及检索任务构造器。
检索条件构造器,用于获取检索条件,对检索条件进行转换处理,得到预设格式的检索数据。
根据预设格式的检索数据,从主数据库中检索得到原始问卷调查结果,并对初始问卷调查结果进行过滤,得到初始问卷调查结果。
检索任务构造器,用于根据初始问卷调查结果构造得到多个检索任务。
例如,用户在交互界面根据实际需求选取至少一个查询关键字,以构成检索条件。例如,检索条件可以为:性别为女性,年龄在18岁以下,回答过调查问卷中的第6题。检索信息构造器在获取到检索条件后,根据检索条件进行检索预处理,例如,进行人类语言到机器语言的转换,对检索条件中的部分关键词进行码号的转换,得到预设格式的检索数据。并根据预设格式的检索数据,从主数据库中检索得到原始问卷调查结果,该结果为符合上述检索条件的内容。
获取到原始问卷调查结果后,还可以进一步根据实际需求对原始问卷调查结果进行过滤分析等,例如,从原始问卷调查结果中进行一步过滤出A地区的问卷调查结果,作为初始问卷调查结果,又例如,从原始问卷调查结果中进一步找出回答过第6题,且选项为A的问卷调查结果、选项为B的问卷调查结果,选项为C的问卷调查结果。检索任务构造器则进一步根据初始问卷调查结果进行任务构造,得到多个检索任务。
如此,本申请实施例先对检索条件进行预处理,得到预处理后的检索数据,然后与主数据库进行交互,从主数据库中进行粗略筛选。根据粗略筛选得到的原始问卷调查结果,进行一步根据实际需求构造检索任务。便于后续利用多个任务线程与分布式索引数据库进行交互,提取核心数据。将整个检索过程分离为粗筛与细筛,减小了分布式索引数据库的资源占用,更有利于提高即时查询的响应速率。
结合问卷调查数据分析的核心场景,本申请实施例还提出了一种利用主数据库结构化存储问卷调查结果的方法,将预设时间段内的所有调查结果数据都通过结构化的方式存储到同一个数据表中,下面对此进行详细阐述。
请结合参阅图8,图8为本申请实施例提供的一种数据结构化存储示意图。在可选的实施方式中,主数据库,还用于获取预设时间段内的全部问卷调查内容。
从每个问卷调查内容中提取问卷调查结果,其中,问卷调查结果包括受访者属性值、问卷码号、是否规范信息、题目回答结果。
按照预设结构化方式,将全部问卷调查结果存储至同一个数据表中。
其中,预设时间段可以是3个月、4个月、…或1年等。通常调查问卷的问题主要包括单选题、多选题和打分题等。如图7所示,针对某一年,某一个受访者的答卷结果,其结构化存储后的数据包括该受访人对应的问卷调查结果的id,该受访者的属性值,具体可包括性别(sex)、年龄(age)、教育程度(educationDegree)、婚姻状况(marriage)、居住地(residence)、户籍登记地(registered Residence)、生育状况(child)、职业(occupation)、行业(industry)个人年收入(person Annuallncome)、家庭年收入(familyAnnuallncome)、住房(housing)等。
结构化存储后的数据还可以包括问卷码号、是否规范信息、题目回答结果等,其中题目回答结果还可以包括单选题回答结果、多选题回答结果、打分题回答结果。
单选题回答结果可通过题目id、选项id及题目类型进行记录。多选题回答结果可通过题目id、选项id集以及题目类型进行记录,其中选项id集还可以包括多个选项id。打分题回答结果则可以通过题目id、打分项集以及题目类型进行记录,其中,打分项集还可以进一步包括打分项,打分项可进一步包括打分项id和打分值。
如此,本申请实施例通过对预设时间段的所有问卷调查结果进行结构化的存储,并将所有数据存储在同一个数据表中,避免了跨表联结查询所带来的大量性能损耗,同时避免了数据存储混乱的问题。
在可选的实施方式中,检索服务单元还用于对目标索引文档进行可视化处理,将目标索引文档以可视化图表的形式进行展示。
该可视化处理的具体方式可参阅现有技术,对目标索引文档进行可视化处理后有利于工作人员更直观地获取信息。
请结合参阅图9,图9为本申请实施例提供的一种数据检索方法的步骤示意图。基于同样的原理,本申请实施例还提供了一种数据检索方法,方法应用于电子设备,电子设备配置有上述的数据检索系统,数据检索系统包括主数据库、分布式索引数据库及检索服务单元,方法包括:
步骤S1,获取预设时间段内的问卷调查结果,将问卷调查结果存储在主数据库中。
步骤S2,获取主数据库中存储的问卷调查结果中的不同数据数据,将不同数据属性作为索引关键字,根据全部索引关键字创建至少一个索引文档。
步骤S3,获取检索条件,根据检索条件从数据检索系统包括的分布式索引数据库中检索得到目标索引文档,输出并显示目标索引文档。
该方法的实现原理及相关有益效果可参阅上述针对数据检索系统的实现原理及有益效果进行的详细阐述,在此不做赘述。
根据本申请实施例的第四个方面,提高了一种可读存储介质,所述可读存储介质存储有计算机程序,计算机程序被执行时实现上述的数据检索方法的步骤。
综上所述,本申请实施例提供了一种数据检索系统、方法、电子设备和可读存储介质。该数据检索系统采用文档型数据库作为主数据库,存储预设时间段内的问卷调查结果,采用分布式索引数据库根据索引关键字创建至少一个索引文档,利用检索服务单元根据检索条件从分布式索引数据库中检索得到目标索引文档,如此,利用文档型数据库进行数据的存储,在进行查询时,无需通过跨表联结查询的方式调用主数据库,同时,可通过分布式索引数据库查询得到目标索引文档,提高了存储和处理复杂关系型的能力,使得数据检索效率更高,提高了即时查询的响应速度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种数据检索系统,其特征在于,所述数据检索系统包括主数据库、分布式索引数据库及检索服务单元;
所述主数据库,用于存储预设时间段内的问卷调查结果,其中,所述主数据库为文档型数据库;
所述分布式索引数据库,用于将所述主数据库存储的问卷调查结果中的不同数据属性作为索引关键字,根据全部所述索引关键字创建至少一个索引文档;
所述检索服务单元,用于获取检索条件,根据所述检索条件从所述分布式索引数据库中检索得到目标索引文档,输出并显示所述目标索引文档。
2.根据权利要求1所述的数据检索系统,其特征在于,所述检索服务单元包括检索信息构造器、检索任务线程池及检索结果聚合主线程;
所述检索信息构造器,用于获取检索条件,根据所述检索条件进行检索预处理,构造得到多个检索任务;
所述检索任务线程池,用于根据多个所述检索任务激活多个任务线程,利用各所述任务线程对各所述检索任务并行从所述分布式索引数据库中检索得到多个目标子索引文档;
所述检索结果聚合主线程,用于对全部所述目标子索引文档进行聚合处理,得到所述目标索引文档,输出并显示所述目标索引文档。
3.根据权利要求2所述的数据检索系统,其特征在于,所述检索信息构造器包括检索条件构造器及检索任务构造器;
所述检索条件构造器,用于获取检索条件,对所述检索条件进行转换处理,得到预设格式的检索数据;
根据所述预设格式的检索数据,从所述主数据库中检索得到原始问卷调查结果,并对初始问卷调查结果进行过滤,得到初始问卷调查结果;
所述检索任务构造器,用于根据所述初始问卷调查结果构造得到多个检索任务。
4.根据权利要求1所述的数据检索系统,其特征在于,所述主数据库,还用于获取所述预设时间段内的全部问卷调查内容;
从每个所述问卷调查内容中提取问卷调查结果,其中,所述问卷调查结果包括受访者属性值、问卷码号、是否规范信息、题目回答结果;
按照预设结构化方式,将全部所述问卷调查结果存储至同一个数据表中。
5.根据权利要求1所述的数据检索系统,其特征在于,所述分布式索引数据库包括基于倒排索引技术的Elasticsearch数据库,所述主数据库包括MongoDB数据库。
6.根据权利要求1所述的数据检索系统,其特征在于,所述分布式索引数据库及所述主数据库的存储方式均为JSON格式。
7.根据权利要求1所述的数据检索系统,其特征在于,所述检索服务单元还用于对所述目标索引文档进行可视化处理,将所述目标索引文档以可视化图表的形式进行展示。
8.一种数据检索方法,其特征在于,所述方法应用于电子设备,所述电子设备配置有权利要求1-7任意一项所述的数据检索系统,所述数据检索系统包括主数据库、分布式索引数据库及检索服务单元,所述方法包括:
获取预设时间段内的问卷调查结果,将所述问卷调查结果存储在所述主数据库中;
获取所述主数据库中存储的所述问卷调查结果中的不同数据数据,将不同所述数据属性作为索引关键字,根据全部所述索引关键字创建至少一个索引文档;
获取检索条件,根据所述检索条件从所述数据检索系统包括的分布式索引数据库中检索得到目标索引文档,输出并显示所述目标索引文档。
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器及总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器及所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行权利要求8任意一项所述的数据检索方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质存储有计算机程序,计算机程序被执行时实现权利要求8所述的数据检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110918110.6A CN113779349A (zh) | 2021-08-11 | 2021-08-11 | 数据检索系统、装置、电子设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110918110.6A CN113779349A (zh) | 2021-08-11 | 2021-08-11 | 数据检索系统、装置、电子设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113779349A true CN113779349A (zh) | 2021-12-10 |
Family
ID=78837430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110918110.6A Pending CN113779349A (zh) | 2021-08-11 | 2021-08-11 | 数据检索系统、装置、电子设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779349A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114077609A (zh) * | 2022-01-19 | 2022-02-22 | 北京四维纵横数据技术有限公司 | 数据存储及检索方法,装置,计算机可读存储介质及电子设备 |
CN114356851A (zh) * | 2022-01-12 | 2022-04-15 | 北京字节跳动网络技术有限公司 | 数据文件的存储方法、装置、电子设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853288A (zh) * | 2010-05-19 | 2010-10-06 | 马晓普 | 基于文档实时监控可配置的全文检索服务系统 |
CN102779185A (zh) * | 2012-06-29 | 2012-11-14 | 浙江大学 | 一种高可用分布式全文索引方法 |
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
CN104391930A (zh) * | 2014-11-21 | 2015-03-04 | 用友软件股份有限公司 | 分布式文件存储装置和方法 |
CN106776929A (zh) * | 2016-11-30 | 2017-05-31 | 北京锐安科技有限公司 | 一种信息检索的方法及装置 |
CN107229714A (zh) * | 2017-05-31 | 2017-10-03 | 杭州宇为科技有限公司 | 一种基于分布式数据库的全文搜索引擎 |
CN109871473A (zh) * | 2019-02-01 | 2019-06-11 | 上海核工程研究设计院有限公司 | 一种对工程文件和数据库建立全文检索文档的方法 |
CN111105854A (zh) * | 2019-12-12 | 2020-05-05 | 和宇健康科技股份有限公司 | 健康信息系统知识库的搜索引擎系统 |
CN111738224A (zh) * | 2020-07-28 | 2020-10-02 | 浙江明度智控科技有限公司 | 一种针对药品文档内容的智能分析方法、系统和存储介质 |
CN111897818A (zh) * | 2020-07-31 | 2020-11-06 | 平安普惠企业管理有限公司 | 数据存储方法、装置、电子设备及存储介质 |
CN111913949A (zh) * | 2019-05-07 | 2020-11-10 | 北京京东尚科信息技术有限公司 | 数据处理方法、系统、装置和计算机可读存储介质 |
CN112131295A (zh) * | 2020-09-27 | 2020-12-25 | 平安医疗健康管理股份有限公司 | 基于Elasticsearch的数据处理方法及设备 |
CN112463886A (zh) * | 2020-11-30 | 2021-03-09 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
-
2021
- 2021-08-11 CN CN202110918110.6A patent/CN113779349A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853288A (zh) * | 2010-05-19 | 2010-10-06 | 马晓普 | 基于文档实时监控可配置的全文检索服务系统 |
CN102779185A (zh) * | 2012-06-29 | 2012-11-14 | 浙江大学 | 一种高可用分布式全文索引方法 |
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
CN104391930A (zh) * | 2014-11-21 | 2015-03-04 | 用友软件股份有限公司 | 分布式文件存储装置和方法 |
CN106776929A (zh) * | 2016-11-30 | 2017-05-31 | 北京锐安科技有限公司 | 一种信息检索的方法及装置 |
CN107229714A (zh) * | 2017-05-31 | 2017-10-03 | 杭州宇为科技有限公司 | 一种基于分布式数据库的全文搜索引擎 |
CN109871473A (zh) * | 2019-02-01 | 2019-06-11 | 上海核工程研究设计院有限公司 | 一种对工程文件和数据库建立全文检索文档的方法 |
CN111913949A (zh) * | 2019-05-07 | 2020-11-10 | 北京京东尚科信息技术有限公司 | 数据处理方法、系统、装置和计算机可读存储介质 |
CN111105854A (zh) * | 2019-12-12 | 2020-05-05 | 和宇健康科技股份有限公司 | 健康信息系统知识库的搜索引擎系统 |
CN111738224A (zh) * | 2020-07-28 | 2020-10-02 | 浙江明度智控科技有限公司 | 一种针对药品文档内容的智能分析方法、系统和存储介质 |
CN111897818A (zh) * | 2020-07-31 | 2020-11-06 | 平安普惠企业管理有限公司 | 数据存储方法、装置、电子设备及存储介质 |
CN112131295A (zh) * | 2020-09-27 | 2020-12-25 | 平安医疗健康管理股份有限公司 | 基于Elasticsearch的数据处理方法及设备 |
CN112463886A (zh) * | 2020-11-30 | 2021-03-09 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
杨宇泽: "局域网用户网络行为监管研究与实现", 中国优秀硕士学位论文全文数据库信息科技辑, no. 3, pages 139 - 271 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114356851A (zh) * | 2022-01-12 | 2022-04-15 | 北京字节跳动网络技术有限公司 | 数据文件的存储方法、装置、电子设备及存储介质 |
CN114077609A (zh) * | 2022-01-19 | 2022-02-22 | 北京四维纵横数据技术有限公司 | 数据存储及检索方法,装置,计算机可读存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6617117B2 (ja) | 半構造データのためのスケーラブルな分析プラットフォーム | |
US10599732B2 (en) | Methods and systems for discovery of linkage points between data sources | |
US11899681B2 (en) | Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium | |
CN104850601B (zh) | 基于图数据库的警务实时分析应用平台及其构建方法 | |
JP6964384B2 (ja) | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム | |
US20150095303A1 (en) | Knowledge Graph Generator Enabled by Diagonal Search | |
US20130311454A1 (en) | Data source analytics | |
US11386088B2 (en) | Expression pushdown optimization for querying in federated database system | |
CN111506621B (zh) | 一种数据统计方法及装置 | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
US9824128B1 (en) | System for performing single query searches of heterogeneous and dispersed databases | |
CN110990447B (zh) | 一种数据探查方法、装置、设备及存储介质 | |
US20210042589A1 (en) | System and method for content-based data visualization using a universal knowledge graph | |
DE112011101200T5 (de) | Spaltenorientierte Speicher-Darstellungen von Datensätzen | |
CN113779349A (zh) | 数据检索系统、装置、电子设备和可读存储介质 | |
JP6159908B6 (ja) | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム | |
JPWO2017170459A6 (ja) | 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム | |
CN116108194A (zh) | 基于知识图谱的搜索引擎方法、系统、存储介质和电子设备 | |
Hasan et al. | Data transformation from sql to nosql mongodb based on r programming language | |
Pivert | NoSQL data models: trends and challenges | |
Hashem et al. | Pre-processing and modeling tools for bigdata | |
Zhang et al. | The research and design of SQL processing in a data-mining system based on MapReduce | |
Campi et al. | Designing service marts for engineering search computing applications | |
Mittal et al. | Big data technologies: A comprehensive survey | |
US20220092066A1 (en) | Method and system for query federation based on natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |