CN114610793B - 一种基于大数据统计分析的交互方法、系统和存储介质 - Google Patents

一种基于大数据统计分析的交互方法、系统和存储介质 Download PDF

Info

Publication number
CN114610793B
CN114610793B CN202210224879.2A CN202210224879A CN114610793B CN 114610793 B CN114610793 B CN 114610793B CN 202210224879 A CN202210224879 A CN 202210224879A CN 114610793 B CN114610793 B CN 114610793B
Authority
CN
China
Prior art keywords
data
statistical analysis
list
piece
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210224879.2A
Other languages
English (en)
Other versions
CN114610793A (zh
Inventor
吴习华
邓君
刘文锋
黄炳鑫
宋玉
叶浩宇
吴豪杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Node Hangzhou Technology Co ltd
Original Assignee
Dongguan Chuangwei New Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Chuangwei New Technology Co ltd filed Critical Dongguan Chuangwei New Technology Co ltd
Priority to CN202210224879.2A priority Critical patent/CN114610793B/zh
Publication of CN114610793A publication Critical patent/CN114610793A/zh
Application granted granted Critical
Publication of CN114610793B publication Critical patent/CN114610793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2428Query predicate definition using graphical user interfaces, including menus and forms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于大数据统计分析的交互方法、系统和存储介质,所述方法包括:通过前端设备的用户界面接收用户输入的检索关键词;基于检索关键词在大数据平台中进行检索,并输出第一数据列表;由大数据平台对第一数据列表中的多条数据基于预设筛选算法进行筛选,得到第二数据列表并推送给前端设备的用户界面进行展示;通过前端设备的用户界面接收用户对第二数据列表的统计分析指令;由大数据平台基于统计分析指令对第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面。本发明能够实现对大数据的精准检索,提升大数据统计分析结果的准确性;并能够降低网络延迟,提升用户交互的体验感。

Description

一种基于大数据统计分析的交互方法、系统和存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种基于大数据统计分析的交互方法、系统和存储介质。
背景技术
目前,在知识爆炸时代,各行各业的数据量呈现几何式增长,如何在大量数据汇集的数据库中快速精确查找到合适的数据成为当前热门的话题。以专利数据库为例,传统的检索方式,则是由用户输入关键字/词,由专利搜索引擎直接检索出包含上述关键字/词的专利数据。然而,这种检索方式,通常容易检索出过多不相关的专利数据,不相关的专利数据不仅增加了用户分析的任务量;而且也会给统计分析结果造成干扰,例如不相关的专利数据则会导致统计分析的结果不具有参考性。
与此同时,许多大数据搜索平台布置在云端上,如果用户检索出数据量较大,则云端的大数据搜索平台通过网络推送大量数据给前端的用户界面,可能会出现网络延迟现象,进而影响用户进行数据检索的体验感。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于大数据统计分析的交互方法、系统和存储介质,能够实现对大数据的精准检索,提升大数据统计分析结果的准确性;并能够降低网络延迟,提升了用户体验感。
本发明第一方面提出了一种基于大数据统计分析的交互方法,所述方法包括:
通过前端设备的用户界面接收用户输入的检索关键词;
基于所述检索关键词在大数据平台中进行检索,并输出第一数据列表;
由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,得到第二数据列表并推送给前端设备的用户界面进行展示;
通过前端设备的用户界面接收用户对第二数据列表的统计分析指令;
由大数据平台基于所述统计分析指令对所述第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面。
本方案中,由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,具体包括:
分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;
将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算;
判断主体数据的信息量与剩余的其它数据的信息量之间的近似度是否大于第一预设阈值;
如果大于,则对主体数据的标记数值加1;
待第一数据列表中的每条数据均完成与其它数据的信息量比对后,则统计每条数据的标记数值;
基于每条数据的标记数值对第一数据列表进行从高到低排序;
按照预设筛选比例,从第一数据列表中由高到底依次筛选出对应数量的数据,并加入第二数据列表。
本方案中,分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算,具体包括:
预设每条数据均具有相同的数据格式,且均包括多项标题内容,每项标题内容在数据中占比影响权重不同,且多项标题内容的占比影响权重之和等于1;
针对第一数据列表中每条数据的各个标题内容进行信息量计算,得到每条数据的各个标题内容的信息量分值;
选取第一数据列表中的一条数据作为主体数据A,将主体数据A的各项标题内容的信息量分值分别与第一数据列表中的其它数据B的对应标题内容的信息量分值进行近似度计算;
获取主体数据A与其它数据B基于各项标题内容的近似度分值;
将主体数据A与其它数据B基于各项标题内容的近似度分值分别乘以对应的占比影响权重,得到各项标题内容的近似度权重分值;
对各项标题内容的近似度权重分值进行累加,得到主体数据A的信息量与其它数据B的信息量之间的近似度。
本方案中,得到第二数据列表并推送给前端设备的用户界面进行展示,具体包括:
获取用户在历史时间段内的多次数据检索动作,每次数据检索动作至少包括用户输入的历史检索关键词,以及对应的历史检索数据;
统计每条历史检索数据在历史时间段内多次数据检索动作的呈现次数;
将呈现次数大于第二预设阈值的历史检索数据提取出,并预存入前端设备的本地数据库中;
建立本地数据库中的每条历史检索数据与对应的历史检索关键词之间的关联关系,并形成关联表;
基于所述检索关键词遍历本地数据库的关联表,并查找关联表中是否有匹配的历史检索关键词;
如果有,则根据关联表确定出对应的历史检索数据,并作为第一部分数据,并推送至前端设备的缓存库;
得到第二数据列表,从第二数据列表中过滤出第一部分数据,得到第二部分数据,并由大数据平台下载第二部分数据至前端设备的缓存库中;
由前端设备的用户界面将缓存库中的数据进行展示。
本方案中,由大数据平台基于所述统计分析指令对所述第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面,具体包括:
基于统计分析指令从统计分析模型库中选取适配的统计分析模型;
通过适配的统计分析模型对第二数据列表中的数据进行统计分析,输出初始统计分析结果;
获取前端设备的用户界面的尺寸比例;
基于前端设备的用户界面的尺寸比例,对初始统计分析结果进行调整,得到适应于前端设备的用户界面的统计分析结果;
将统计分析结果推送给前端设备的用户界面并进行展示。
本方案中,基于统计分析指令从统计分析模型库中选取适配的统计分析模型,具体包括:
采用统计分析模型库中每个统计分析模型对所述第二数据列表中的多条数据进行统计分析,并得到多个预选统计分析结果;
将多个预选统计分析结果进行打包,形成网络数据包并置入区块链网络中,其中区块链网络包括多个区块链网络节点;
由区块链网络节点P对网络数据包中的多个预选统计分析结果进行优选,并将优选结果加入网络数据包的选择链表中,然后采用自己的签名证书对选择链表进行签名,得到签名后的选择链表,并将签名后的选择列表随网络数据包一同返回至区块链网络中;
由区块链网络节点Q接收到多个网络数据包,并判断各个网络数据包中签名的选择链表长短,选取选择链表最长的网络数据包为待选网络数据包;
由区块链网络节点Q对待选网络数据包中的多个预选统计分析结果进行优选,并将优选结果加入待选网络数据包的选择链表中,然后采用自己的签名证书对待选网络数据包的选择链表进行签名,得到签名后的选择链表,并将签名后的选择链表随待选网络数据包一同返回至区块链网络中;
判断网络数据包置入区块链网络的时间是否达到预设时间段,如果是,从区块链网络中找出选择链表最长的网络数据包作为目标网络数据包;
统计目标网络数据包的选择链表中每种预选统计分析结果的优选次数,将优选次数最多的一个预选统计分析结果对应的统计分析模型选定为适配的统计分析模型。
本发明第二方面还提出一种基于大数据统计分析的交互系统,包括存储器和处理器,所述存储器中包括一种基于大数据统计分析的交互方法程序,所述基于大数据统计分析的交互方法程序被所述处理器执行时实现如下步骤:
通过前端设备的用户界面接收用户输入的检索关键词;
基于所述检索关键词在大数据平台中进行检索,并输出第一数据列表;
由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,得到第二数据列表并推送给前端设备的用户界面进行展示;
通过前端设备的用户界面接收用户对第二数据列表的统计分析指令;
由大数据平台基于所述统计分析指令对所述第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面。
本方案中,由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,具体包括:
分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;
将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算;
判断主体数据的信息量与剩余的其它数据的信息量之间的近似度是否大于第一预设阈值;
如果大于,则对主体数据的标记数值加1;
待第一数据列表中的每条数据均完成与其它数据的信息量比对后,则统计每条数据的标记数值;
基于每条数据的标记数值对第一数据列表进行从高到低排序;
按照预设筛选比例,从第一数据列表中由高到底依次筛选出对应数量的数据,并加入第二数据列表。
本方案中,分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算,具体包括:
预设每条数据均具有相同的数据格式,且均包括多项标题内容,每项标题内容在数据中占比影响权重不同,且多项标题内容的占比影响权重之和等于1;
针对第一数据列表中每条数据的各个标题内容进行信息量计算,得到每条数据的各个标题内容的信息量分值;
选取第一数据列表中的一条数据作为主体数据A,将主体数据A的各项标题内容的信息量分值分别与第一数据列表中的其它数据B的对应标题内容的信息量分值进行近似度计算;
获取主体数据A与其它数据B基于各项标题内容的近似度分值;
将主体数据A与其它数据B基于各项标题内容的近似度分值分别乘以对应的占比影响权重,得到各项标题内容的近似度权重分值;
对各项标题内容的近似度权重分值进行累加,得到主体数据A的信息量与其它数据B的信息量之间的近似度。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于大数据统计分析的交互方法程序,所述基于大数据统计分析的交互方法程序被处理器执行时,实现如上述的一种基于大数据统计分析的交互方法的步骤。
本发明提出的基于大数据统计分析的交互方法、系统和可读存储介质,能够实现对大数据的精准检索,提升大数据统计分析结果的准确性;并能够降低网络延迟,提升大数据统计分析的效率,进一步提升用户体验感。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了本发明一种基于大数据统计分析的交互方法的流程图;
图2示出了本发明一种基于大数据统计分析的交互系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于大数据统计分析的交互方法的流程图。
如图1所示,本发明第一方面提出一种基于大数据统计分析的交互方法,所述方法包括:
S102,通过前端设备的用户界面接收用户输入的检索关键词;
S104,基于所述检索关键词在大数据平台中进行检索,并输出第一数据列表;
S106,由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,得到第二数据列表并推送给前端设备的用户界面进行展示;
S108,通过前端设备的用户界面接收用户对第二数据列表的统计分析指令;
S110,由大数据平台基于所述统计分析指令对所述第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面。
需要说明的是,本发明首先基于检索关键词进行初步检索出第一数据列表,然后在此基础上,通过预设筛选算法进行筛选,从而过滤掉不相关的数据,并得到第二数据列表,其中第二数据列表中的各条数据与本次数据检索的初衷相符合,稍后基于第二数据列表中的多条数据进行统计分析,即可得到准确的统计分析结果。因此,本发明的方法能够实现对数据的精确查找,避免不相关数据对统计分析结果的干扰,进而提升了统计分析结果的准确性。
可以理解,在通过前端设备的用户界面接收用户输入的检索关键词之前,所述方法还包括:
用户通过前端设备注册获取大数据平台的用户账号和密码;稍后用户在前端设备输入正确的用户账号和密码以登录大数据平台。
可以理解,统计分析指令可以为:以时间维度进行数据量统计,以发布单位进行数据量统计,数据内容聚类统计。但不限于此。
根据本发明的实施例,由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,具体包括:
分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;
将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算;
判断主体数据的信息量与剩余的其它数据的信息量之间的近似度是否大于第一预设阈值;
如果大于,则对主体数据的标记数值加1;
待第一数据列表中的每条数据均完成与其它数据的信息量比对后,则统计每条数据的标记数值;
基于每条数据的标记数值对第一数据列表进行从高到低排序;
按照预设筛选比例,从第一数据列表中由高到底依次筛选出对应数量的数据,并加入第二数据列表。
可以理解,通过关键词检索得到的第一数据列表中可能会存在不相关的数据,本发明则基于第一数据列表的多数数据的方向对第一数据列表进行筛选,并剔除与大多数数据相关度不大的数据,进而实现减小数据的分析体量,避免不相关数据对最终数据统计分析结果的干扰,提升了数据统计分析的准确度。
可以理解,信息量也称信息熵,它的计算公式:H(x)=-∑P(xi)log P(xi),其中,xi表示第i个状态(总共有n种状态),P(xi)表示第i个状态出现的概率,H(x)表示用以消除这个事物的不确定性所需要的信息量。
需要说明的是,第一数据列表中的每条数据均作为一次主体数据,并逐一与剩余的数据进行信息量近似度比对,待与剩余的所有数据均完成信息量近似度比对后,则可以累计计算出该主体数据的标记数值。可以理解,如果主体数据的信息量与剩余的其它数据的信息量之间的近似度不大于第一预设阈值,则主体数据的标记数值不变。
根据本发明的实施例,分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算,具体包括:
预设每条数据均具有相同的数据格式,且均包括多项标题内容,每项标题内容在数据中占比影响权重不同,且多项标题内容的占比影响权重之和等于1;
针对第一数据列表中每条数据的各个标题内容进行信息量计算,得到每条数据的各个标题内容的信息量分值;
选取第一数据列表中的一条数据作为主体数据A,将主体数据A的各项标题内容的信息量分值分别与第一数据列表中的其它数据B的对应标题内容的信息量分值进行近似度计算;
获取主体数据A与其它数据B基于各项标题内容的近似度分值;
将主体数据A与其它数据B基于各项标题内容的近似度分值分别乘以对应的占比影响权重,得到各项标题内容的近似度权重分值;
对各项标题内容的近似度权重分值进行累加,得到主体数据A的信息量与其它数据B的信息量之间的近似度。
需要说明的是,本发明每条数据的信息量为各项标题内容的信息量分值组成,因此,首先计算各项标题内容的信息量分值;然后基于各项标题内容的占比影响权重进行综合计算出两条数据信息量之间的近似度。
可以理解,各个数据具有相同的数据格式,例如均包括背景部分、序言部分、正文部分等,由于背景部分在整条数据的占比影响权重不高,因此,在信息量近似度计算时,对两两数据的信息量近似度计算影响较小,正文部分在整条数据的占比影响权重较高,因此,在信息量近似度计算时,对两两数据的信息量近似度计算影响较大。通过结合不同标题内容的占比影响权重可以综合评判出两两数据的近似度,进而便于准确过滤出不相关的数据。
根据本发明的实施例,得到第二数据列表并推送给前端设备的用户界面进行展示,具体包括:
获取用户在历史时间段内的多次数据检索动作,每次数据检索动作至少包括用户输入的历史检索关键词,以及对应的历史检索数据;
统计每条历史检索数据在历史时间段内多次数据检索动作的呈现次数;
将呈现次数大于第二预设阈值的历史检索数据提取出,并预存入前端设备的本地数据库中;
建立本地数据库中的每条历史检索数据与对应的历史检索关键词之间的关联关系,并形成关联表;
基于所述检索关键词遍历本地数据库的关联表,并查找关联表中是否有匹配的历史检索关键词;
如果有,则根据关联表确定出对应的历史检索数据,并作为第一部分数据,并推送至前端设备的缓存库;
得到第二数据列表,从第二数据列表中过滤出第一部分数据,得到第二部分数据,并由大数据平台下载第二部分数据至前端设备的缓存库中;
由前端设备的用户界面将缓存库中的数据进行展示。
可以理解,大数据平台处于云端,在检索过程中,如果有大量数据需要推送至前端设备,则可能需要耗费较长时间,进而降低了用户体验感。本发明则基于用户临近历史时间段的历史检索数据进行统计分析,并将频繁被检出的历史数据置入本地数据库中,进行本地保存,以便于后续检索时,能够快速进行前端设备的界面展示,减少网络传输数据量,缩短检索时长,提升用户的检索体验感。
可以理解,针对一条历史检索数据可以采用不同的检索关键词检出,因此,在关联表中,一条历史检索数据可以关联对应多个历史检索关键词。基于所述检索关键词遍历本地数据库的关联表,并查找关联表中是否有匹配的历史检索关键词,具体包括:分别判断关联表中每条历史检索数据关联的多组历史检索关键词中是否有与所述检索关键词相同的历史检索关键词,如果有,则将对应的历史检索数据加入第一部分数据。
根据本发明的具体实施例,在由大数据平台下载第二部分数据至前端设备的缓存库中之后,所述方法还包括:
以当前时间更新历史时间段,并统计更新后历史时间段的多次数据检索动作;
统计每条历史检索数据在历史时间段内多次数据检索动作的呈现次数;
将呈现次数大于第二预设阈值的历史检索数据提取出,并预存入前端设备的本地数据库中;
建立本地数据库中的每条历史检索数据与对应的历史检索关键词之间的关联关系,并更新关联表。
根据本发明的具体实施例,由前端设备的用户界面将缓存库中的数据进行展示,具体包括:
统计每条数据的字总数量,以及每条数据中出现检索关键词的次数;
基于每条数据,将检索关键词的次数除以对应的字总数量得到检索关键词在对应数据的出现频率;
按照出现频率的高低对缓存库中的数据进行排序,并按照排序关系由前端设备的用户界面进行展示。
根据本发明的具体实施例,由前端设备的用户界面将缓存库中的数据进行展示,具体还包括:
预设每条数据均具有相同的数据格式,且均包括多项标题内容,每项标题内容在数据中占比影响权重不同,且多项标题内容的占比影响权重之和等于1;
统计每条数据的各项标题内容的字总数量,以及各项标题内容中出现检索关键词的次数;
基于每条数据的各项标题内容,将检索关键词的次数除以对应的字总数量得到各项标题内容出现检索关键词的频率;
基于每条数据,将各项标题内容出现检索关键词的频率分别乘以对应的占比影响权重,并对乘积进行累加,得到每条数据出现检索关键词的综合频率;
按照综合频率的高低对缓存库中的数据进行排序,并按照排序关系由前端设备的用户界面进行展示。
根据本发明的实施例,由大数据平台基于所述统计分析指令对所述第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面,具体包括:
基于统计分析指令从统计分析模型库中选取适配的统计分析模型;
通过适配的统计分析模型对第二数据列表中的数据进行统计分析,输出初始统计分析结果;
获取前端设备的用户界面的尺寸比例;
基于前端设备的用户界面的尺寸比例,对初始统计分析结果进行调整,得到适应于前端设备的用户界面的统计分析结果;
将统计分析结果推送给前端设备的用户界面并进行展示。
需要说明的是,由于前端设备各式各样,前端设备的用户界面尺寸也不尽相同,为了使不同前端设备的用户界面呈现出优良的统计分析图像,本发明首先获取前端设备的用户界面尺寸比例,然后基于用户界面尺寸比例对大数据平台形成统计分析结果进行调整,继而使得前端设备的用户界面能够展示最佳的分析效果,提升了用户体验感。
根据本发明的实施例,基于统计分析指令从统计分析模型库中选取适配的统计分析模型,具体包括:
采用统计分析模型库中每个统计分析模型对所述第二数据列表中的多条数据进行统计分析,并得到多个预选统计分析结果;
将多个预选统计分析结果进行打包,形成网络数据包并置入区块链网络中,其中区块链网络包括多个区块链网络节点;
由区块链网络节点P对网络数据包中的多个预选统计分析结果进行优选,并将优选结果加入网络数据包的选择链表中,然后采用自己的签名证书对选择链表进行签名,得到签名后的选择链表,并将签名后的选择列表随网络数据包一同返回至区块链网络中;
由区块链网络节点Q接收到多个网络数据包,并判断各个网络数据包中签名的选择链表长短,选取选择链表最长的网络数据包为待选网络数据包;
由区块链网络节点Q对待选网络数据包中的多个预选统计分析结果进行优选,并将优选结果加入待选网络数据包的选择链表中,然后采用自己的签名证书对待选网络数据包的选择链表进行签名,得到签名后的选择链表,并将签名后的选择链表随待选网络数据包一同返回至区块链网络中;
判断网络数据包置入区块链网络的时间是否达到预设时间段,如果是,从区块链网络中找出选择链表最长的网络数据包作为目标网络数据包;
统计目标网络数据包的选择链表中每种预选统计分析结果的优选次数,将优选次数最多的一个预选统计分析结果对应的统计分析模型选定为适配的统计分析模型。
需要说明的是,对于一组数据进行统计分析时,可以采用不同的模型进行分析,然而采用不同模型呈现的效果则不同,例如,柱状图模型、沙盘图模型、气泡图模型,为了使得一组数据选择最优的模型进行分析,本发明引用区块链网络,并通过区块链网络节点对各个模型的分析结果进行判定,基于大量区块链网路节点的优选判定结果,来考虑选择适配的模型,便于得到最优的统计分析结果。
图2示出了本发明一种基于大数据统计分析的交互系统的框图。
如图2所示,本发明第二方面还提出一种基于大数据统计分析的交互系统2,包括存储器21和处理器22,所述存储器中包括一种基于大数据统计分析的交互方法程序,所述基于大数据统计分析的交互方法程序被所述处理器执行时实现如下步骤:
通过前端设备的用户界面接收用户输入的检索关键词;
基于所述检索关键词在大数据平台中进行检索,并输出第一数据列表;
由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,得到第二数据列表并推送给前端设备的用户界面进行展示;
通过前端设备的用户界面接收用户对第二数据列表的统计分析指令;
由大数据平台基于所述统计分析指令对所述第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面。
根据本发明的实施例,由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,具体包括:
分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;
将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算;
判断主体数据的信息量与剩余的其它数据的信息量之间的近似度是否大于第一预设阈值;
如果大于,则对主体数据的标记数值加1;
待第一数据列表中的每条数据均完成与其它数据的信息量比对后,则统计每条数据的标记数值;
基于每条数据的标记数值对第一数据列表进行从高到低排序;
按照预设筛选比例,从第一数据列表中由高到底依次筛选出对应数量的数据,并加入第二数据列表。
根据本发明的实施例,分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算,具体包括:
预设每条数据均具有相同的数据格式,且均包括多项标题内容,每项标题内容在数据中占比影响权重不同,且多项标题内容的占比影响权重之和等于1;
针对第一数据列表中每条数据的各个标题内容进行信息量计算,得到每条数据的各个标题内容的信息量分值;
选取第一数据列表中的一条数据作为主体数据A,将主体数据A的各项标题内容的信息量分值分别与第一数据列表中的其它数据B的对应标题内容的信息量分值进行近似度计算;
获取主体数据A与其它数据B基于各项标题内容的近似度分值;
将主体数据A与其它数据B基于各项标题内容的近似度分值分别乘以对应的占比影响权重,得到各项标题内容的近似度权重分值;
对各项标题内容的近似度权重分值进行累加,得到主体数据A的信息量与其它数据B的信息量之间的近似度。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于大数据统计分析的交互方法程序,所述基于大数据统计分析的交互方法程序被处理器执行时,实现如上述的一种基于大数据统计分析的交互方法的步骤。
本发明提出的基于大数据统计分析的交互方法、系统和可读存储介质,能够实现对大数据的精准检索,提升大数据统计分析结果的准确性;并能够降低网络延迟,提升大数据统计分析的效率,进一步提升用户体验感。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种基于大数据统计分析的交互方法,其特征在于,所述方法包括:
通过前端设备的用户界面接收用户输入的检索关键词;
基于所述检索关键词在大数据平台中进行检索,并输出第一数据列表;
由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,得到第二数据列表并推送给前端设备的用户界面进行展示;
通过前端设备的用户界面接收用户对第二数据列表的统计分析指令;
由大数据平台基于所述统计分析指令对所述第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面;
由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,具体包括:
分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;
将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算;
判断主体数据的信息量与剩余的其它数据的信息量之间的近似度是否大于第一预设阈值;
如果大于,则对主体数据的标记数值加1;
待第一数据列表中的每条数据均完成与其它数据的信息量比对后,则统计每条数据的标记数值;
基于每条数据的标记数值对第一数据列表进行从高到低排序;
按照预设筛选比例,从第一数据列表中由高到低 依次筛选出对应数量的数据,并加入第二数据列表;
分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算,具体包括:
预设每条数据均具有相同的数据格式,且均包括多项标题内容,每项标题内容在数据中占比影响权重不同,且多项标题内容的占比影响权重之和等于1;
针对第一数据列表中每条数据的各个标题内容进行信息量计算,得到每条数据的各个标题内容的信息量分值;
选取第一数据列表中的一条数据作为主体数据A,将主体数据A的各项标题内容的信息量分值分别与第一数据列表中的其它数据B的对应标题内容的信息量分值进行近似度计算;
获取主体数据A与其它数据B基于各项标题内容的近似度分值;
将主体数据A与其它数据B基于各项标题内容的近似度分值分别乘以对应的占比影响权重,得到各项标题内容的近似度权重分值;
对各项标题内容的近似度权重分值进行累加,得到主体数据A的信息量与其它数据B的信息量之间的近似度。
2.根据权利要求1所述的一种基于大数据统计分析的交互方法,其特征在于,得到第二数据列表并推送给前端设备的用户界面进行展示,具体包括:
获取用户在历史时间段内的多次数据检索动作,每次数据检索动作至少包括用户输入的历史检索关键词,以及对应的历史检索数据;
统计每条历史检索数据在历史时间段内多次数据检索动作的呈现次数;
将呈现次数大于第二预设阈值的历史检索数据提取出,并预存入前端设备的本地数据库中;
建立本地数据库中的每条历史检索数据与对应的历史检索关键词之间的关联关系,并形成关联表;
基于所述检索关键词遍历本地数据库的关联表,并查找关联表中是否有匹配的历史检索关键词;
如果有,则根据关联表确定出对应的历史检索数据,并作为第一部分数据,并推送至前端设备的缓存库;
得到第二数据列表,从第二数据列表中过滤出第一部分数据,得到第二部分数据,并由大数据平台下载第二部分数据至前端设备的缓存库中;
由前端设备的用户界面将缓存库中的数据进行展示。
3.根据权利要求1所述的一种基于大数据统计分析的交互方法,其特征在于,由大数据平台基于所述统计分析指令对所述第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面,具体包括:
基于统计分析指令从统计分析模型库中选取适配的统计分析模型;
通过适配的统计分析模型对第二数据列表中的数据进行统计分析,输出初始统计分析结果;
获取前端设备的用户界面的尺寸比例;
基于前端设备的用户界面的尺寸比例,对初始统计分析结果进行调整,得到适应于前端设备的用户界面的统计分析结果;
将统计分析结果推送给前端设备的用户界面并进行展示。
4.根据权利要求3所述的一种基于大数据统计分析的交互方法,其特征在于,基于统计分析指令从统计分析模型库中选取适配的统计分析模型,具体包括:
采用统计分析模型库中每个统计分析模型对所述第二数据列表中的多条数据进行统计分析,并得到多个预选统计分析结果;
将多个预选统计分析结果进行打包,形成网络数据包并置入区块链网络中,其中区块链网络包括多个区块链网络节点;
由区块链网络节点P对网络数据包中的多个预选统计分析结果进行优选,并将优选结果加入网络数据包的选择链表中,然后采用自己的签名证书对选择链表进行签名,得到签名后的选择链表,并将签名后的选择列表随网络数据包一同返回至区块链网络中;
由区块链网络节点Q接收到多个网络数据包,并判断各个网络数据包中签名的选择链表长短,选取选择链表最长的网络数据包为待选网络数据包;
由区块链网络节点Q对待选网络数据包中的多个预选统计分析结果进行优选,并将优选结果加入待选网络数据包的选择链表中,然后采用自己的签名证书对待选网络数据包的选择链表进行签名,得到签名后的选择链表,并将签名后的选择链表随待选网络数据包一同返回至区块链网络中;
判断网络数据包置入区块链网络的时间是否达到预设时间段,如果是,从区块链网络中找出选择链表最长的网络数据包作为目标网络数据包;
统计目标网络数据包的选择链表中每种预选统计分析结果的优选次数,将优选次数最多的一个预选统计分析结果对应的统计分析模型选定为适配的统计分析模型。
5.一种基于大数据统计分析的交互系统,其特征在于,包括存储器和处理器,所述存储器中包括一种基于大数据统计分析的交互方法程序,所述基于大数据统计分析的交互方法程序被所述处理器执行时实现如下步骤:
通过前端设备的用户界面接收用户输入的检索关键词;
基于所述检索关键词在大数据平台中进行检索,并输出第一数据列表;
由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,得到第二数据列表并推送给前端设备的用户界面进行展示;
通过前端设备的用户界面接收用户对第二数据列表的统计分析指令;
由大数据平台基于所述统计分析指令对所述第二数据列表中的多条数据进行统计分析,并将统计分析结果展示在前端设备的用户界面;
由大数据平台对所述第一数据列表中的多条数据基于预设筛选算法进行筛选,具体包括:
分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;
将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算;
判断主体数据的信息量与剩余的其它数据的信息量之间的近似度是否大于第一预设阈值;
如果大于,则对主体数据的标记数值加1;
待第一数据列表中的每条数据均完成与其它数据的信息量比对后,则统计每条数据的标记数值;
基于每条数据的标记数值对第一数据列表进行从高到低排序;
按照预设筛选比例,从第一数据列表中由高到低 依次筛选出对应数量的数据,并加入第二数据列表;
分别对第一数据列表中每条数据进行信息量计算,得到每条数据的信息量;将第一数据列表中的每条数据依次作为主体数据,并将主体数据的信息量分别与剩余的其它数据的信息量进行近似度计算,具体包括:
预设每条数据均具有相同的数据格式,且均包括多项标题内容,每项标题内容在数据中占比影响权重不同,且多项标题内容的占比影响权重之和等于1;
针对第一数据列表中每条数据的各个标题内容进行信息量计算,得到每条数据的各个标题内容的信息量分值;
选取第一数据列表中的一条数据作为主体数据A,将主体数据A的各项标题内容的信息量分值分别与第一数据列表中的其它数据B的对应标题内容的信息量分值进行近似度计算;
获取主体数据A与其它数据B基于各项标题内容的近似度分值;
将主体数据A与其它数据B基于各项标题内容的近似度分值分别乘以对应的占比影响权重,得到各项标题内容的近似度权重分值;
对各项标题内容的近似度权重分值进行累加,得到主体数据A的信息量与其它数据B的信息量之间的近似度。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于大数据统计分析的交互方法程序,所述基于大数据统计分析的交互方法程序被处理器执行时,实现如权利要求1至4中任一项所述的一种基于大数据统计分析的交互方法的步骤。
CN202210224879.2A 2022-03-09 2022-03-09 一种基于大数据统计分析的交互方法、系统和存储介质 Active CN114610793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210224879.2A CN114610793B (zh) 2022-03-09 2022-03-09 一种基于大数据统计分析的交互方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210224879.2A CN114610793B (zh) 2022-03-09 2022-03-09 一种基于大数据统计分析的交互方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN114610793A CN114610793A (zh) 2022-06-10
CN114610793B true CN114610793B (zh) 2022-10-04

Family

ID=81861840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210224879.2A Active CN114610793B (zh) 2022-03-09 2022-03-09 一种基于大数据统计分析的交互方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN114610793B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651670A (zh) * 2020-05-26 2020-09-11 中国平安财产保险股份有限公司 基于用户行为图谱的内容检索方法、装置终端和存储介质
CN111797224A (zh) * 2020-06-15 2020-10-20 合肥龙图腾信息技术有限公司 一种专利数据检索结果展示方法、装置、设备和存储介质
CN112632136A (zh) * 2020-12-11 2021-04-09 北京国电通网络技术有限公司 一种数据统计分析方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150149237A1 (en) * 2013-11-22 2015-05-28 Richard Thomas Brock Systems and methods to improve sales effectiveness utilizing a moving, contextually relevant navigator to guide sales representatives in prospect communications based on prospect's digital and conversational behavior and organization's best sales practices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651670A (zh) * 2020-05-26 2020-09-11 中国平安财产保险股份有限公司 基于用户行为图谱的内容检索方法、装置终端和存储介质
CN111797224A (zh) * 2020-06-15 2020-10-20 合肥龙图腾信息技术有限公司 一种专利数据检索结果展示方法、装置、设备和存储介质
CN112632136A (zh) * 2020-12-11 2021-04-09 北京国电通网络技术有限公司 一种数据统计分析方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于主题分类与语义相似度的专利推荐算法;刘伟等;《无线互联科技》;20211130;第105-107页 *

Also Published As

Publication number Publication date
CN114610793A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN110532351B (zh) 推荐词展示方法、装置、设备及计算机可读存储介质
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN110427546B (zh) 一种信息展示方法和装置
CN108572971B (zh) 一种用于挖掘与检索词相关的关键词的方法和装置
CN110008396B (zh) 对象信息推送方法、装置、设备及计算机可读存储介质
CN104636407A (zh) 参数取值训练及搜索请求处理方法和装置
CN111428007A (zh) 基于跨平台的同步推送反馈方法
JP5302614B2 (ja) 施設関連情報の検索データベース形成方法および施設関連情報検索システム
CN103324641A (zh) 信息记录推荐方法和装置
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
JP2006323575A (ja) 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体
CN111597469B (zh) 展示位置的确定方法、确定装置、电子设备及存储介质
JP4891638B2 (ja) 目的データをカテゴリに分類する方法
CN114610793B (zh) 一种基于大数据统计分析的交互方法、系统和存储介质
JP2013174988A (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
CN106570003B (zh) 数据推送方法及装置
CN110059243B (zh) 数据引擎优化方法、装置、设备和计算机可读存储介质
CN110851685B (zh) 电子书排序方法、装置以及计算机可读存储介质
CN108170664B (zh) 基于重点关键词的关键词拓展方法和装置
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN106934007B (zh) 关联信息的推送方法及装置
CN112446812B (zh) 一种基于区块链的政务信息自动推送方法及终端
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质
CN114722313A (zh) 搜索结果排序方法、装置、设备及存储介质
CN110727850B (zh) 网络信息的过滤方法,计算机可读存储介质和移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230406

Address after: Room 517, Building 11, No.1 Xuefu Road, Songshan Lake Park, Dongguan City, Guangdong Province, 523429

Patentee after: Dongguan Jiaxin Electronic Information Technology Co.,Ltd.

Address before: 523799 b305, building 1, Zhongji Zhigu Industrial Park, No. 1, Nanshan Road, Songshanhu high tech Industrial Development Zone, Dongguan City, Guangdong Province (cluster registration)

Patentee before: Dongguan Chuangwei New Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240326

Address after: 310051 Gutang Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Wang Huan

Country or region after: China

Patentee after: Wang Hao

Address before: Room 517, Building 11, No.1 Xuefu Road, Songshan Lake Park, Dongguan City, Guangdong Province, 523429

Patentee before: Dongguan Jiaxin Electronic Information Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240619

Address after: Room 102-406, Building 4, No. 1217 Wenyi West Road, Cangqian Street, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Patentee after: Digital Node (Hangzhou) Technology Co.,Ltd.

Country or region after: China

Address before: 310051 Gutang Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Wang Huan

Country or region before: China

Patentee before: Wang Hao

TR01 Transfer of patent right