CN111274349B - 一种基于信息熵的公共安全数据分级索引方法及装置 - Google Patents

一种基于信息熵的公共安全数据分级索引方法及装置 Download PDF

Info

Publication number
CN111274349B
CN111274349B CN202010072369.9A CN202010072369A CN111274349B CN 111274349 B CN111274349 B CN 111274349B CN 202010072369 A CN202010072369 A CN 202010072369A CN 111274349 B CN111274349 B CN 111274349B
Authority
CN
China
Prior art keywords
keyword
data
root node
keywords
indexing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010072369.9A
Other languages
English (en)
Other versions
CN111274349A (zh
Inventor
徐继宁
丁辉
雷振伍
李超
刘硕
史运涛
刘大千
吴晗
武国亮
于运渌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN202010072369.9A priority Critical patent/CN111274349B/zh
Publication of CN111274349A publication Critical patent/CN111274349A/zh
Application granted granted Critical
Publication of CN111274349B publication Critical patent/CN111274349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于信息熵的公共安全数据分级索引方法及装置,所述方法包括:获取待查询公共安全数据的关键字;根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。所述装置执行上述方法。本发明实施例提供的基于信息熵的公共安全数据分级索引方法及装置,通过由信息熵表示的互信息量确定的分级索引结构对公共安全数据的关键字进行索引,能够提高在公共安全数据索引时的索引速度。

Description

一种基于信息熵的公共安全数据分级索引方法及装置
技术领域
本发明涉及数据索引技术领域,尤其涉及一种基于信息熵的公共安全数据分级索引方法及装置。
背景技术
互联网社交网络、公共网站中含有大量的公共安全数据,但是,采集到的这些数据都杂乱无章,处于无序状态,查询这些数据会耗费过多的人力和物力。现有的数据文件系统对大量多源异构数据的存储和检索都存在瓶颈,数据由数据中心进行统一的存储和索引管理,当存储大量数据时,数据处理效率不高。因此,提出一种适用于公共安全数据快速检索的分级索引方法具有重要意义。
发明内容
针对现有技术存在的问题,本发明实施例提供一种基于信息熵的公共安全数据分级索引方法及装置。
本发明实施例提供一种基于信息熵的公共安全数据分级索引方法,包括:
获取待查询公共安全数据的关键字;
根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
其中,所述根据预设索引结构对所述关键字进行索引,包括:
从所述预设索引结构的根节点开始逐级遍历所述关键字,并进行索引。
其中,预先构建所述预设索引结构,具体包括:
获取由各根节点关键字分别表示的词频表;所述词频表记录有属于同一根节点关键字的各数据关键字的词频数;
根据所述各根节点关键字对应的词频表数量、属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字分别对应的信息熵;
根据各数据关键字分别对应的信息熵,确定所述互信息量;
确定各根节点关键字为所述预设索引结构中的根节点,根据所述互信息量,确定与所述互信息量相对应的数据关键字为所述根节点下的分级节点,并根据所有分级节点构建所述预设索引结构。
其中,所述根据所述各根节点关键字对应的词频表数量、属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字分别对应的信息熵,包括:
根据所述各根节点关键字对应的词频表数量,确定属于同一根节点关键字的全部数据关键字对应的权重;
根据属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字在与其对应的根节点关键字所表示的词频表中出现的概率;
根据所述权重和所述概率,确定各数据关键字分别对应的信息熵。
其中,所述根据所述权重和所述概率,确定各数据关键字分别对应的信息熵,包括:
根据如下公式计算各数据关键字分别对应的信息熵:
Figure BDA0002377619620000021
其中,H(X)为与关键字x对应的信息熵、λ为所述权重、P(x)为所述概率、x为所述关键字、X为包含有所述词频表的关键字集合。
其中,所述根据各数据关键字分别对应的信息熵,确定所述互信息量,包括:
根据如下公式确定所述互信息量:
I(X;Y)=H(Y)-H(Y|X)
其中,I(X;Y)为所述互信息量、H(Y)为与关键字x关联的关键字y对应的信息熵、H(Y|X)根据如下公式进行计算:
Figure BDA0002377619620000022
其中,H(Y|X)为y对x的期望、p(x,y)为关键字x和关键字y在与其对应的根节点关键字所表示的词频表中同时出现的概率、p(y|x)为关键字x在与其对应的根节点关键字所表示的词频表中出现的条件下关键字y出现的概率。
其中,所述根据所述互信息量,确定与所述互信息量相对应的数据关键字为所述根节点下的分级节点,并根据所有分级节点构建所述预设索引结构,包括:
按照所述互信息量的互信息量数值大小顺序排列所述互信息量,并将前n个互信息量对应的关键字作为所述根节点的下一级分级节点;
将在前n个互信息量之后的m个互信息量对应的关键字作为所述下一级分级节点的下一级分级节点,并重复执行,直到遍历完成全部互信息量对应的关键字。
本发明实施例提供一种基于信息熵的公共安全数据分级索引装置,包括:
获取单元,用于获取待查询公共安全数据的关键字;
索引单元,用于根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
本发明实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如下方法步骤:
获取待查询公共安全数据的关键字;
根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
获取待查询公共安全数据的关键字;
根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
本发明实施例提供的基于信息熵的公共安全数据分级索引方法及装置,通过由信息熵表示的互信息量确定的分级索引结构对公共安全数据的关键字进行索引,能够提高在公共安全数据索引时的索引速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于信息熵的公共安全数据分级索引方法实施例流程图;
图2为本发明实施例预设索引结构示意图;
图3为本发明基于信息熵的公共安全数据分级索引装置实施例结构示意图;
图4为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明基于信息熵的公共安全数据分级索引方法实施例流程图,如图1所示,本发明实施例提供的一种基于信息熵的公共安全数据分级索引方法,包括以下步骤:
S101:获取待查询公共安全数据的关键字。
具体的,获取待查询公共安全数据的关键字。执行该方法步骤的可以是计算机设备,具体可以是服务器。公共安全数据包括,但不限于自然灾害数据,例如某地区的地震数据、台风数据等,参照上述举例,关键字可以包括地震和台风等,也可以具体为天然地震和人工地震等,进一步地,还可以具体为天然地震中的构造地震、火山地震和塌陷地震等。
S102:根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
具体的,根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。图2为本发明实施例预设索引结构示意图,如图2所示,N0为预设索引结构的根节点,具体包括k5和k30,参照上述举例,k5可以对应地震、k30可以对应台风,为第一分级。以地震为例,天然地震、人工地震和地震的关联程度更强,k14可以对应天然地震、k21可以对应人工地震,k5、k14和k21作为第二分级,构造地震、火山地震、塌陷地震和天然地震的关联程度更强,k16可以对应构造地震、k19可以对应火山地震、k15可以对应塌陷地震,k16、k19和k15等可以作为第三分级,对于k5和k21不再赘述。
即上述预设索引结构为三级索引结构,其中N0对应第一分级索引结构、N1和N2对应第二分级索引结构、N3至N8对应第三分级索引结构。
由于,信息熵解决了对信息的量化度量问题,因此,本发明实施例的预设索引结构包含了数据所携带的信息量,同时,预设索引结构还包含了通过互信息量表征的信息关联程度。
所述根据预设索引结构对所述关键字进行索引,可以具体包括:从所述预设索引结构的根节点开始逐级遍历所述关键字,并进行索引。即假设用户在查询关键字时,算法根据预设索引结构从根节点开始进行搜索,从N0开始,经过N1查询节点中关键字,若存在所需关键字,则返回该关键字的孩子节点下所有的数据,数据显示排序方式可以根据互信息量的数值大小来展示;若N1节点中不存在所需关键字,则搜索N3中关键字,如果存在所需关键字,则返回该关键字的孩子节点下所有的数据,以此类推,不再赘述。
本发明实施例提供的基于信息熵的公共安全数据分级索引方法,通过由信息熵表示的互信息量确定的分级索引结构对公共安全数据的关键字进行索引,能够提高在公共安全数据索引时的索引速度。
在上述实施例的基础上,所述根据预设索引结构对所述关键字进行索引,包括:
具体的,从所述预设索引结构的根节点开始逐级遍历所述关键字,并进行索引。可参照上述说明,不再赘述。
本发明实施例提供的基于信息熵的公共安全数据分级索引方法,进一步能够提高在公共安全数据索引时的索引速度。
在上述实施例的基础上,还包括:预先构建所述预设索引结构,具体包括:
具体的,获取由各根节点关键字分别表示的词频表;所述词频表记录有属于同一根节点关键字的各数据关键字的词频数。参照上述举例,地震和台风分别为两个不同根节点关键字,以地震为例,由地震表示的词频表中记录有天然地震和人工地震的词频数,还可以包括构造地震、火山地震和塌陷地震的词频数。同一个根节点关键字可以对应一个或多个词频表,同一个数据来源可以对应一个词频表,参照上述举例,如果地震的数据来源有两个,则对应两个词频表、如果台风的数据来源有三个,则对应三个词频表。
具体的,根据所述各根节点关键字对应的词频表数量、属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字分别对应的信息熵;具体可以包括:
根据所述各根节点关键字对应的词频表数量,确定属于同一根节点关键字的全部数据关键字对应的权重;参照上述举例,地震对应两个词频表、台风对应三个词频表,即文件系统中总共包括五个词频表,因此,属于同一根节点关键字“地震”的全部数据关键字对应的权重为2/5,同理,属于同一根节点关键字“台风”的全部数据关键字对应的权重为3/5。
根据属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字在与其对应的根节点关键字所表示的词频表中出现的概率;参照上述举例,地震对应的词频表分别记为表1和表2,对于表1,天然地震和人工地震的词频数分别为40次和60次,则数据关键字“天然地震”的概率为0.4、数据关键字“人工地震”的概率为0.6;对于表2,天然地震和人工地震的词频数分别为30次和70次,则数据关键字“天然地震”的概率为0.3、数据关键字“人工地震”的概率为0.7。
根据所述权重和所述概率,确定各数据关键字分别对应的信息熵,可以具体包括:
根据如下公式计算各数据关键字分别对应的信息熵:
Figure BDA0002377619620000071
其中,H(X)为与关键字x对应的信息熵、λ为所述权重、P(x)为所述概率、x为所述关键字、X为包含有所述词频表的关键字集合,参照上述举例,对于“地震”对应的“天然地震”,有:
H(X)=-0.4×(0.4log20.4+0.3log20.3)。
对于“地震”对应的“人工地震”,有:
H(Y)=-0.6×(0.6log20.6+0.7log20.7)。
需要说明的是:一般来说,若某条数据关键字的信息熵H(X)越小,表明该数据关键字提供的数据信息量越多,不确定性就越少,在数据集中的作用就越重要;相反,若某条数据关键字的信息熵H(X)越大,则表明该数据关键字提供的数据信息量越少,不确定性就越大,在数据集中的作用就越小。
具体的,根据各数据关键字分别对应的信息熵,确定所述互信息量;具体可以包括:
根据如下公式确定所述互信息量:
I(X;Y)=H(Y)-H(Y|X)
其中,I(X;Y)为所述互信息量、H(Y)为与关键字x关联的关键字y对应的信息熵、H(Y|X)根据如下公式进行计算:
Figure BDA0002377619620000072
其中,H(Y|X)为y对x的期望、p(x,y)为关键字x和关键字y在与其对应的根节点关键字所表示的词频表中同时出现的概率、p(y|x)为关键字x在与其对应的根节点关键字所表示的词频表中出现的条件下关键字y出现的概率。p(x,y)和p(y|x)的计算为本领域成熟技术,不再赘述。
其中,I(X;Y)=H(Y)-H(Y|X)可以根据如下公式变换得到:
Figure BDA0002377619620000081
其中,P(X,Y)表示关键字x,y同时出现的概率,P(X)、P(Y)分别表示关键字x和关键字y出现的概率,具体的变换方法为本领域成熟技术,不再赘述。
互信息量可以说明两个关键字之间的关联程度的强弱。I(X;Y)表示由于X的存在而使Y的不确定性减小的量。I越大,说明X出现后,Y出现的不确定度越小,即Y很可能也会出现,也就说明X,Y关系越密切。因此,在查看包含关键字X的数据时,很可能也需要查看包含关键字Y的数据。
具体的,确定各根节点关键字为所述预设索引结构中的根节点,根据所述互信息量,确定与所述互信息量相对应的数据关键字为所述根节点下的分级节点,并根据所有分级节点构建所述预设索引结构,具体可以包括:
按照所述互信息量的互信息量数值大小顺序排列所述互信息量,并将前n个互信息量对应的关键字作为所述根节点的下一级分级节点;即按照互信息量的互信息量数值由大到小的顺序,顺序排列所述互信息量,参照图2,n的取值为3。
将在前n个互信息量之后的m个互信息量对应的关键字作为所述下一级分级节点的下一级分级节点,并重复执行,直到遍历完成全部互信息量对应的关键字。参照图2,m的取值为6,参照图2,此时,遍历完成全部互信息量对应的关键字,因此,不再重复执行上述步骤,如果没有遍历完成全部互信息量对应的关键字,则继续执行将在前m个互信息量之后的r个互信息量对应的关键字作为再下一级分级节点的步骤,直到遍历完成全部互信息量对应的关键字。
多层分级索引的目的是避免全表扫描,是提高社会公共安全风险数据管理及查询效率的有效方式。在多层分级索引结构中,局部数据节点与全局索引之间并非一一映射,而是通过全局索引定位到具体的数据节点,再通过数据节点的局部索引来操作数据。
本发明实施例采用B+树作为数据索引结构。其中,B+树的叶子节点存储相关的公共安全文件信息,内部节点用于存储文件的关键字,并且内部节点关键字帮助完成索引过程。树中的每个节点存储一个信息熵H,节点N的结构为:
N={num,children[m],H}
其中,num是节点N的编号;children[m]是指向孩子节点的指针,m是B+树的阶数;H是存储节点信息熵的向量。需要说明的是:对于根节点,H存储信息熵、对于分级节点,H存储信息熵和互信息量。
基于B+树的索引是通过插入数据来完成的,每次插入数据的操作会将其插入到叶子节点中,数据存储的顺序则是按照上一步骤中计算的互信息量数值的大小进行一一存储。B+树中指向文件的指针都会存储在叶子节点中,上一层节点的键值是多个叶子节点中共有的关键字。
本发明实施例提供的基于信息熵的公共安全数据分级索引方法,通过构建预设索引结构,有助于提高在公共安全数据索引时的索引速度。
在上述实施例的基础上,所述根据所述各根节点关键字、属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字分别对应的信息熵,包括:
具体的,根据所述各根节点关键字对应的词频表数量,确定属于同一根节点关键字的全部数据关键字对应的权重;可参照上述说明,不再赘述。
具体的,根据属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字在与其对应的根节点关键字所表示的词频表中出现的概率;可参照上述说明,不再赘述。
具体的,根据所述权重和所述概率,确定各数据关键字分别对应的信息熵。可参照上述说明,不再赘述。
本发明实施例提供的基于信息熵的公共安全数据分级索引方法,进一步有助于提高在公共安全数据索引时的索引速度。
在上述实施例的基础上,所述根据所述权重和所述概率,确定各数据关键字分别对应的信息熵,包括:
具体的,根据如下公式计算各数据关键字分别对应的信息熵:
Figure BDA0002377619620000101
其中,H(X)为与关键字x对应的信息熵、λ为所述权重、P(x)为所述概率、x为所述关键字、X为包含有所述词频表的关键字集合。可参照上述说明,不再赘述。
本发明实施例提供的基于信息熵的公共安全数据分级索引方法,进一步有助于提高在公共安全数据索引时的索引速度。
在上述实施例的基础上,所述根据各数据关键字分别对应的信息熵,确定所述互信息量,包括:
具体的,根据如下公式确定所述互信息量:
I(X;Y)=H(Y)-H(Y|X)
其中,I(X;Y)为所述互信息量、H(Y)为与关键字x关联的关键字y对应的信息熵、H(Y|X)根据如下公式进行计算:
Figure BDA0002377619620000102
其中,H(Y|X)为y对x的期望、p(x,y)为关键字x和关键字y在与其对应的根节点关键字所表示的词频表中同时出现的概率、p(y|x)为关键字x在与其对应的根节点关键字所表示的词频表中出现的条件下关键字y出现的概率。可参照上述说明,不再赘述。
本发明实施例提供的基于信息熵的公共安全数据分级索引方法,进一步有助于提高在公共安全数据索引时的索引速度。
在上述实施例的基础上,所述根据所述互信息量,确定与所述互信息量相对应的数据关键字为所述根节点下的分级节点,并根据所有分级节点构建所述预设索引结构,包括:
具体的,按照所述互信息量的互信息量数值大小顺序排列所述互信息量,并将前n个互信息量对应的关键字作为所述根节点的下一级分级节点;可参照上述说明,不再赘述。
具体的,将在前n个互信息量之后的m个互信息量对应的关键字作为所述下一级分级节点的下一级分级节点,并重复执行,直到遍历完成全部互信息量对应的关键字。可参照上述说明,不再赘述。
本发明实施例提供的基于信息熵的公共安全数据分级索引方法,进一步有助于提高在公共安全数据索引时的索引速度。
利用本发明实施例提供的方法在对公共安全数据集进行存储时,具有以下优点:
1、考虑了根节点关键字在文件系统中权重,根据关键字信息熵对文件进行信息重要度排序,强调关键信息的重要性,减少对无用信息的处理;
2、计算关键字之间的互信息量,了解关键字之间的关联度大小,能够明确两条信息之间密切程度;
3、索引结构采用B+树,与传统的存储模式相比,B+树更充分的利用了节点的空间,让查询速度更加稳定;同时B+树遍历整棵树只需要遍历所有的叶子节点即可,有利于做全文件扫描。
图3为本发明基于信息熵的公共安全数据分级索引装置实施例结构示意图,如图3所示,本发明实施例提供了一种基于信息熵的公共安全数据分级索引装置,包括获取单元301和索引单元302,其中:
获取单元301用于获取待查询公共安全数据的关键字;索引单元302用于根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
具体的,获取单元301用于获取待查询公共安全数据的关键字;索引单元302用于根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
本发明实施例提供的基于信息熵的公共安全数据分级索引装置,通过由信息熵表示的互信息量确定的分级索引结构对公共安全数据的关键字进行索引,能够提高在公共安全数据索引时的索引速度。
本发明实施例提供的基于信息熵的公共安全数据分级索引装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图4为本发明实施例提供的电子设备实体结构示意图,如图4所示,所述电子设备包括:处理器(processor)401、存储器(memory)402和总线403;
其中,所述处理器401、存储器402通过总线403完成相互间的通信;
所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取待查询公共安全数据的关键字;根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待查询公共安全数据的关键字;根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待查询公共安全数据的关键字;根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于信息熵的公共安全数据分级索引方法,其特征在于,包括:
获取待查询公共安全数据的关键字;
根据预设索引结构对所述关键字进行索引;其中,所述预设索引结构是根据由信息熵表示的、表征各关键字之间关联程度的互信息量确定的分级索引结构;
还包括:
预先构建所述预设索引结构,具体包括:
获取由各根节点关键字分别表示的词频表;所述词频表记录有属于同一根节点关键字的各数据关键字的词频数;
根据所述各根节点关键字对应的词频表数量、属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字分别对应的信息熵;
根据各数据关键字分别对应的信息熵,确定所述互信息量;
确定各根节点关键字为所述预设索引结构中的根节点,根据所述互信息量,确定与所述互信息量相对应的数据关键字为所述根节点下的分级节点,并根据所有分级节点构建所述预设索引结构;
所述根据所述互信息量,确定与所述互信息量相对应的数据关键字为所述根节点下的分级节点,并根据所有分级节点构建所述预设索引结构,包括:
按照所述互信息量的互信息量数值大小顺序排列所述互信息量,并将前n个互信息量对应的关键字作为所述根节点的下一级分级节点;
将在前n个互信息量之后的m个互信息量对应的关键字作为所述下一级分级节点的下一级分级节点,并重复执行,直到遍历完成全部互信息量对应的关键字。
2.根据权利要求1所述的基于信息熵的公共安全数据分级索引方法,其特征在于,所述根据预设索引结构对所述关键字进行索引,包括:
从所述预设索引结构的根节点开始逐级遍历所述关键字,并进行索引。
3.根据权利要求2所述的基于信息熵的公共安全数据分级索引方法,其特征在于,所述根据所述各根节点关键字对应的词频表数量、属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字分别对应的信息熵,包括:
根据所述各根节点关键字对应的词频表数量,确定属于同一根节点关键字的全部数据关键字对应的权重;
根据属于同一根节点关键字的各数据关键字的词频数,确定各数据关键字在与其对应的根节点关键字所表示的词频表中出现的概率;
根据所述权重和所述概率,确定各数据关键字分别对应的信息熵。
4.根据权利要求3所述的基于信息熵的公共安全数据分级索引方法,其特征在于,所述根据所述权重和所述概率,确定各数据关键字分别对应的信息熵,包括:
根据如下公式计算各数据关键字分别对应的信息熵:
Figure FDA0002718475080000021
其中,H(X)为与关键字x对应的信息熵、λ为所述权重、P(x)为所述概率、x为所述关键字、X为包含有所述词频表的关键字集合。
5.根据权利要求2所述的基于信息熵的公共安全数据分级索引方法,其特征在于,所述根据各数据关键字分别对应的信息熵,确定所述互信息量,包括:
根据如下公式确定所述互信息量:
I(X;Y)=H(Y)-H(Y|X)
其中,I(X;Y)为所述互信息量、H(Y)为与关键字x关联的关键字y对应的信息熵、H(Y|X)根据如下公式进行计算:
Figure FDA0002718475080000031
其中,H(Y|X)为y对x的期望、p(x,y)为关键字x和关键字y在与其对应的根节点关键字所表示的词频表中同时出现的概率、p(y|x)为关键字x在与其对应的根节点关键字所表示的词频表中出现的条件下关键字y出现的概率。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机
程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
CN202010072369.9A 2020-01-21 2020-01-21 一种基于信息熵的公共安全数据分级索引方法及装置 Active CN111274349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010072369.9A CN111274349B (zh) 2020-01-21 2020-01-21 一种基于信息熵的公共安全数据分级索引方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010072369.9A CN111274349B (zh) 2020-01-21 2020-01-21 一种基于信息熵的公共安全数据分级索引方法及装置

Publications (2)

Publication Number Publication Date
CN111274349A CN111274349A (zh) 2020-06-12
CN111274349B true CN111274349B (zh) 2020-12-15

Family

ID=71002820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010072369.9A Active CN111274349B (zh) 2020-01-21 2020-01-21 一种基于信息熵的公共安全数据分级索引方法及装置

Country Status (1)

Country Link
CN (1) CN111274349B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236550A (zh) * 2007-02-01 2008-08-06 阿里巴巴公司 一种处理树型结构数据的方法及系统
CN103745008A (zh) * 2014-01-28 2014-04-23 河海大学 一种大数据索引的排序方法
CN106021524A (zh) * 2016-05-24 2016-10-12 成都希盟泰克科技发展有限公司 用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282455A1 (en) * 2005-06-13 2006-12-14 It Interactive Services Inc. System and method for ranking web content
US7444343B2 (en) * 2006-03-31 2008-10-28 Microsoft Corporation Hybrid location and keyword index
CN100512152C (zh) * 2006-10-11 2009-07-08 中兴通讯股份有限公司 一种管理告警查询的方法
CN101236615A (zh) * 2008-01-22 2008-08-06 安徽科大讯飞信息科技股份有限公司 一种智能发音学习语料生成方法
CN102402602A (zh) * 2011-11-18 2012-04-04 航天科工深圳(集团)有限公司 一种实时数据库的b+树索引方法及装置
CN107341165B (zh) * 2016-04-29 2022-09-06 上海京东到家元信信息技术有限公司 搜索框处进行提示显示的方法和装置
CN106649597B (zh) * 2016-11-22 2019-10-01 浙江大学 一种基于图书内容的图书书后索引自动构建方法
CN107170020B (zh) * 2017-06-06 2019-06-04 西北工业大学 基于最小量化误差准则的字典学习静态图像有损压缩方法
CN108733781B (zh) * 2018-05-08 2021-10-29 安徽工业大学 基于内存计算的集群时态数据索引方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236550A (zh) * 2007-02-01 2008-08-06 阿里巴巴公司 一种处理树型结构数据的方法及系统
CN103745008A (zh) * 2014-01-28 2014-04-23 河海大学 一种大数据索引的排序方法
CN106021524A (zh) * 2016-05-24 2016-10-12 成都希盟泰克科技发展有限公司 用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法

Also Published As

Publication number Publication date
CN111274349A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
Zhang et al. Processing spatial keyword query as a top-k aggregation query
Zhang et al. Scalable top-k spatial keyword search
US10657116B2 (en) Create table for exchange
Kolomičenko et al. Experimental comparison of graph databases
Hu et al. Top-k spatio-textual similarity join
CN106874425B (zh) 基于Storm的实时关键词近似搜索算法
US11327985B2 (en) System and method for subset searching and associated search operators
US9747345B2 (en) System and method for identifying relationships in a data graph
CN108509543A (zh) 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法
US8140546B2 (en) Computer system for performing aggregation of tree-structured data, and method and computer program product therefor
Georgiadis et al. Efficient rewriting algorithms for preference queries
Yadav et al. Wavelet tree based dual indexing technique for geographical search.
CN111274349B (zh) 一种基于信息熵的公共安全数据分级索引方法及装置
CN109254962B (zh) 一种基于t-树的索引优化方法、装置及存储介质
Li et al. Aggregate nearest keyword search in spatial databases
CN113220820A (zh) 基于图的高效sparql查询应答方法、装置和设备
CN108959584B (zh) 一种基于社区结构的处理图数据的方法及装置
Li et al. Answering why-not questions on top-k augmented spatial keyword queries
Lu et al. Optimal top-k generation of attribute combinations based on ranked lists
Slavov et al. Fast processing of SPARQL queries on RDF quadruples
CN115114293A (zh) 一种数据库索引的创建方法、相关装置、设备及存储介质
Huang et al. Pisa: An index for aggregating big time series data
Lin et al. Finding targets with the nearest favor neighbor and farthest disfavor neighbor by a skyline query
Zhong et al. A distributed index for efficient parallel top-k keyword search on massive graphs
Kolomičenko Analysis and experimental comparison of graph databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant