CN111737977A

CN111737977A - 数据字典生成方法、数据查询方法、装置、设备及介质

Info

Publication number: CN111737977A
Application number: CN202010589195.3A
Authority: CN
Inventors: 刘东煜; 陈乐清; 曾增烽; 李炫�
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-02
Anticipated expiration: 2040-06-24
Also published as: WO2021258848A1; CN111737977B

Abstract

本发明公开了一种数据字典生成方法、装置、计算机设备及存储介质，获取第一待存储数据，第一待存储数据包括第一拼音节点和第二拼音节点；基于第一拼音节点和第二拼音节点，在预设的第一数据字典中进行查询，确定第一索引序列和第二索引序列；采用CSR方法对第一索引序列和第二索引序列进行处理，得到候选索引组；在预设的第二数据字典中查询每一候选索引组的候选频率值，从候选索引组中筛选出候选频率值符合预设要求的目标索引组；将待存储数据和目标索引组进行映射存储，生成第三数据字典；通过结合第一数据字典和第二数据字典恢复得到第三数据字典，从而解决了数据存储时的信息冗余问题。

Description

数据字典生成方法、数据查询方法、装置、设备及介质

技术领域

本发明涉及云存储领域，尤其涉及一种数据字典生成方法、数据查询方法、装置、设备及介质。

背景技术

随着互联网的快速发展和社会各领域信息化水平的提高，数据量正以史无前例的速度井喷，人类正在进入大数据时代。在信息管理系统中，通常会使用数据字典来存储数据。目前基于分词的字典库一般需要1gram词频字典、1gram拼音-同音词映射字典、2gram词频以及2gram拼音-同音词映射字典这4类底层字典，且这四类底层字典需分别独立存储，在算法加载字典时不但要分别加载为四个HashMap，且需分别保存字典中的一一映射关系。因此，采用这种传统的数据字典的存储方式往往会造成较大的信息冗余和空间浪费。

发明内容

本发明实施例提供一种数据字典生成方法、装置、计算机设备及存储介质，以解决数据存储时的信息冗余问题。

本发明实施例提供一种数据查询方法、装置、计算机设备及存储介质，以解决数据查询的效率不高问题。

一种数据字典生成方法，包括：

获取第一待存储数据，所述第一待存储数据包括第一拼音节点和第二拼音节点；

基于所述第一拼音节点和所述第二拼音节点，在预设的第一数据字典中进行查询，确定第一索引序列和第二索引序列，其中，所述第一索引序列为所述第一拼音节点的索引序列，所述第二索引序列为所述第二拼音节点的索引序列；

采用CSR方法对所述第一索引序列和所述第二索引序列进行处理，得到候选索引组；

在预设的第二数据字典中查询每一所述候选索引组的候选频率值，从所述候选索引组中筛选出所述候选频率值符合预设要求的目标索引组；

将所述待存储数据和所述目标索引组进行映射存储，生成第三数据字典。

一种数据查询方法，包括：

获取第一待查询数据，将所述第一待查询数据在第三数据字典中查询，确定所述第一待查询数据的待查询索引组，其中，所述第三数据字典是采用权利要求1所述的数据字典生成方法得到的；

基于所述待查询索引组在第四数据字典的存储数组中查询，得到所述第一待查询数据的目标字符串，其中，所述第四数据字典是指用于存储第六索引值与对应的样本频率值的词频字典。

一种数据字典生成装置，包括：

第一获取模块，用于获取第一待存储数据，所述第一待存储数据包括第一拼音节点和第二拼音节点；

第一查询模块，用于基于所述第一拼音节点和所述第二拼音节点，在预设的第一数据字典中进行查询，确定第一索引序列和第二索引序列，其中，所述第一索引序列为所述第一拼音节点的索引序列，所述第二索引序列为所述第二拼音节点的索引序列；

第一处理模块，用于采用CSR方法对所述第一索引序列和所述第二索引序列进行处理，得到候选索引组；

第一筛选模块，用于在预设的第二数据字典中查询每一所述候选索引组的候选频率值，从所述候选索引组中筛选出所述候选频率值符合预设要求的目标索引组；

第一映射存储模块，用于将所述待存储数据和所述目标索引组进行映射存储，生成第三数据字典。

一种数据查询装置，包括：

第二查询模块，用于获取第一待查询数据，将所述第一待查询数据在第三数据字典中查询，确定所述第一待查询数据的待查询索引组，其中，所述第三数据字典是采用权利要求1所述的数据字典生成方法得到的；

第三查询模块，用于基于所述待查询索引组在第四数据字典的存储数组中查询，得到所述第一待查询数据的目标字符串，其中，所述第四数据字典是指用于存储第六索引值与对应的样本频率值的词频字典。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据字典生成方法，或者，所述处理器执行所述计算机程序时实现上述数据查询方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据字典生成方法，或者，所述计算机程序被处理器执行时实现上述数据查询方法。

上述数据字典生成方法、装置、计算机设备及存储介质，获取第一待存储数据，第一待存储数据包括第一拼音节点和第二拼音节点；基于第一拼音节点和第二拼音节点，在预设的第一数据字典中进行查询，确定第一索引序列和第二索引序列，其中，第一索引序列为第一拼音节点的索引序列，第二索引序列为第二拼音节点的索引序列；采用CSR方法对第一索引序列和第二索引序列进行处理，得到候选索引组；在预设的第二数据字典中查询每一候选索引组的候选频率值，从候选索引组中筛选出候选频率值符合预设要求的目标索引组；将待存储数据和目标索引组进行映射存储，生成第三数据字典；通过结合第一数据字典和第二数据字典恢复得到第三数据字典，从而节省了数据存储空间。另外地，在进行数据存储生成字典时，通过将第一待存储数据存储为双数组字典树形式，即将第一拼音节点和第二拼音节点转化成索引进行存储，从而降低了数据存储时的冗余信息和字符类型数据存储时所带来的不便。

上述数据查询方法、装置、计算机设备及存储介质，获取第一待查询数据，将第一待查询数据在第三数据字典中查询，确定第一待查询数据的待查询索引组，其中，第三数据字典是采用权利要求1的数据字典生成方法得到的；基于待查询索引组在第四数据字典的存储数组中查询，得到第一待查询数据的目标字符串，其中，第四数据字典是指用于存储第六索引值与对应的样本频率值的词频字典；从而保证了数据查询的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中数据字典生成方法和数据查询方法的一应用环境示意图；

图2是本发明一实施例中数据字典生成方法的一示例图；

图3是本发明一实施例中数据字典生成方法的另一示例图；

图4是本发明一实施例中数据字典生成方法的另一示例图；

图5是本发明一实施例中数据字典生成方法的另一示例图；

图6是本发明一实施例中数据字典生成装置的一原理框图；

图7是本发明一实施例中数据查询方法的一示例图；

图8是本发明一实施例中数据查询方法的另一示例图；

图9是本发明一实施例中数据查询装置的一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的数据字典生成方法，该数据字典生成方法可应用如图1所示的应用环境中。具体地，该数据字典生成方法应用在数据字典生成系统中，该数据字典生成系统包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决数据存储时的信息冗余问题。其中，客户端又称为用户端，是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种数据字典生成方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S11：获取第一待存储数据，第一待存储数据包括第一拼音节点和第二拼音节点。

其中，第一待存储数据是指待进行存储的2gram拼音数据。例如：第一待存储数据可以为GaoKong CaoZuo、YanJing She或者KaiKai XinXin。第一待存储数据包括两个节点的拼音数据，分别为第一拼音节点和第二拼音节点。第一拼音节点指第一待存储数据中第一个1gram的拼音数据。第二拼音节点指第一待存储数据中第二个1gram所对应的拼音。第一拼音节点和第二拼音节点可以相同或者不同。例如：若第一待存储数据为GaoKongCaoZuo，则第一拼音节点为GaoKong；第二拼音节点为CaoZuo。具体地，获取第一待存储数据可以通过实时采集2gram拼音数据作为第一待存储数据；或者直接从拼音字典库中获取2gram拼音数据作为第一待存储数据。

S12：基于第一拼音节点和第二拼音节点，在预设的第一数据字典中进行查询，确定第一索引序列和第二索引序列，其中，第一索引序列为第一拼音节点的索引序列，第二索引序列为第二拼音节点的索引序列。

其中，第一数据字典是指预先生成的用于存储1gram拼音-同音数据的1gram同音词词典。具体地，在第一数据字典中存储有若干1gram拼音节点和每一个1gram拼音节点所对应的索引序列。例如：第一数据字典中存储有key值为GaiXing,value值为[index1,index2,index3,index4...]的1gram拼音-同音数据。GaiXing为1gram拼音节点；[index1,index2,index3,index4...]为1gram拼音节点GaiXing所对应的字符串的索引。比如：拼音为GaiXing的字符串可以包括[改型,改性,改姓,该新...]，通过采用双数组字典树算法对[改型,改性,改姓,该新...]进行处理，即可得到GaiXing所对应的索引序列[index1,index2,index3,index4...]。需要说明的是，索引是以字符串为单元的，每一字符串所对应的索引值都是唯一确定的。

具体地，在确定了第一拼音节点和第二拼音节点之后，将第一拼音节点和第二拼音节点分别与第一数据字典中的所有1gram拼音节点(key值)进行一一匹配，将与第一拼音节点相匹配的1gram拼音节点所对应的索引序列，确定为第一索引序列，将与第二拼音节点相匹配的1gram拼音节点所对应的索引序列，确定为第二索引序列。可选地，可以将第一索引序列表示为preIndex，表示为第一拼音节点的索引序列，将第二索引序列表示为表示为sufIndex，表示为第二拼音节点的索引序列。

S13：采用CSR方法对第一索引序列和第二索引序列进行处理，得到候选索引组。

其中，CSR方法是一种稀疏矩阵存储方法。CSR格式在存储稀疏矩阵时非零元素平均使用的字节数(Bytes per Nonzero Entry)最为稳定。具体地，CSR主要包括行向量、列向量和值向量三类数据。其中，行向量(row offsets)代表行数；其元素值代表所在行第一个非0值的偏移量；列向量(column indices)代表元素的列值；值向量(values)代表对应元素的值。

其中，候选索引组指对第一索引序列中的任意一个索引值和第二索引序列中的任意一个索引值进行随机组合后得到的索引组。一个候选索引组由两个索引值组成。例如：候选索引组可以为Index1-index3、Index2-index3或Index3-index5等。具体地，在确定了第一索引序列和第二索引序列之后，将第一索引序列作为矩阵的行，将第二索引序列作为矩阵的列；然后通过CSR方法中的行向量与列向量，确定矩阵中第一索引序列所对应行的列索引数组，然后再将第一索引序列所对应行的列索引数组与第二索引序列做交集处理，即可得到候选索引组。

S14：在预设的第二数据字典中查询每一候选索引组的候选频率值，从候选索引组中筛选出候选频率值符合预设要求的目标索引组。

其中，第二数据字典是指预先生成的用于存储2gram字符串(词语)的索引值，以及每一2gram字符串(词语)对应的频率值的词频词典库。2gram字符串是指由两个1gram字符串组成的词组。例如：2gram字符串可以为高空操作/专利分析/开开心心。具体地，在第二数据字典中存储有若干2gram字符串(词语)所对应的索引组和每一个2gram字符串(词语)所对应的频率值。其中，频率值是指用于评估某一个给定的2gram字符串(词语)在文本中出现的次数，频率值是对候选词排序最重要的参考指标之一,频率值越大的词语表示其为正确词的概率越大。例如：第一数据字典中存储有key为“高空操作”的索引值Index1-index3，以及value为45的词频数据。其中，Index1为高空的索引值，index3为操作的索引值，45为高空操作的频率值。

其中，目标索引组指频率值满足预设要求的索引组。具体地，在确定了候选索引组之后，将每一候选索引组在预设的第二数据字典中查询，确定每一候选索引组的候选频率。在确定了每一候选索引组的候选频率之后，从候选索引组中筛选出候选频率值符合预设要求的索引组，作为目标索引组。在一具体实施例中，可以预先设定一频率阈值，然后将每一候选索引组的候选频率值与频率阈值进行比较，然后将大于频率阈值的候选频率值所对应的候选索引组确定为符合预设要求的目标索引组。优选地，为了保证存储的数据的多样性和普遍性，在本实施例中，频率阈值设为0，即只要候选频率值大于0的候选索引组都确定为目标索引组，候选频率值为0代表该候选索引组对应的2gram字符串(词语)不存在。在另一具体实施例中，在将每一候选索引组在预设的第二数据字典中查询时，若在第二数据字典中没有查询到对应的候选频率值，则直接判断该候选索引组的候选频率值不符合预设要求，剔除该候选索引组。

示例性的，若候选索引组包括Index1-index3(高空操作)、Index2-index4(高控槽座)、Index1-index4(高空槽座)和Index2-index3(高控操作)；在预设的第二数据字典中查询后，得到Index1-index3(高空操作)的频率值为40；Index2-index4(高控槽座)的频率值为20；Index1-index4(高空槽座)的频率值为0(不存在)；Index2-index3(高控操作)的频率值为0(不存在)；则将Index1-index3和Index2-index4确定为目标索引组。

S15：将待存储数据和目标索引组进行映射存储，生成第三数据字典。

其中，第三数据字典是指用于存储2gram拼音-同音数据的2gram同音词词典。具体地，在第三数据字典中包括若干2gram拼音节点和每一2gram拼音节点所对应的索引组序列。具体地，在确定了目标索引组之后，将待存储数据(2gram拼音节点)和对应的目标索引组进行映射存储，生成第三数据字典。例如：若待存储数据为GaoKong CaoZuo，其对应的目标索引组为Index1-index3和Index2-index4，则将GaoKong CaoZuo作为key值，将Index1-index3和Index2-index4作为value值进行映射存储，生成第三数据字典。

在本实施例中，获取第一待存储数据，第一待存储数据包括第一拼音节点和第二拼音节点；基于第一拼音节点和第二拼音节点，在预设的第一数据字典中进行查询，确定第一索引序列和第二索引序列，其中，第一索引序列为第一拼音节点的索引序列，第二索引序列为第二拼音节点的索引序列；采用CSR方法对第一索引序列和第二索引序列进行处理，得到候选索引组；在预设的第二数据字典中查询每一候选索引组的候选频率值，从候选索引组中筛选出候选频率值符合预设要求的目标索引组；将待存储数据和目标索引组进行映射存储，生成第三数据字典；通过结合第一数据字典和第二数据字典恢复得到第三数据字典，从而节省了数据存储空间。另外地，在进行数据存储生成字典时，通过将第一待存储数据存储为双数组字典树形式，即将第一拼音节点和第二拼音节点转化成索引进行存储，从而降低了数据存储时的冗余信息和字符类型数据存储时所带来的不便。

在一实施例中，如图3所示，在基于第一拼音节点和第二拼音节点，在预设的第一数据字典中进行查询之前，该数据字典生成方法，具体包括如下步骤：

S21：获取第二待存储数据，第二待存储数据包括N个第三拼音节点和每一第三拼音节点对应的M个字符串。

其中，第二待存储数据是指待进行存储的1gram拼音-同音词数据。例如：第二待存储数据可以为key值为GaiXing,value值为[改性,改姓,改型...]，或者key值为GaoKong,value值为[高空,高控,高孔...]的1gram拼音-同音词数据。第二待存储数据包括N个第三拼音节点和每一个第三拼音节点对应的M个字符串。第三拼音节点是指第二待存储数据中的key值。例如：第三拼音节点可以为GaiXing/GaoKong/CaoZuo。可以理解地，在第二待存储数据中每一个key值所对应的value值即为每一个第三拼音节点对应的字符串。每一个第三拼音节点至少对应包括一个字符串。例如：第三拼音节点GaiXing对应的字符串包括[改性,改姓,改型...]。具体地，获取第二待存储数据可以通过实时采集1gram拼音-同音词数据作为第二待存储数据；或者直接从拼音-同音字典库中获取1gram拼音-同音词数据作为第二待存储数据。

S22：采用双数组字典树算法对每一第三拼音节点的每一字符串进行处理，确定每一第三拼音节点对应的索引值集。

其中，双数组字典树是一种高效的索引方法，在树的结构中，每一个结点对应一个DFA状态，每一个从父结点指向子结点(有向)标记的边对应一个DFA转换。遍历从根结点开始，然后从head到tail，由关键词的每个字符来决定下一个状态，标记有相同字符的边被选中做移动；每次这种移动会从关键词中消耗一个字符并走向树的下一层，如果这个关键字符串空了，并且走到了叶子结点，那么表示达到了这个关键词的出口。如果被困在了一点结点，比如因为没有分枝被标记为当前有的字符，或是因为关键字符串在中间结点就空了，这表示关键字符串没有被trie认出来。

具体地，采用双数组字典树算法对每一个第三拼音节点所对应的每一个字符串进行处理，即将每一个第三拼音节点所对应的每一个字符串存储为双数组字典树形式，从而得到每一个第三拼音节点对应的索引值集；从而实现在数据获取时通过拼音节点即可得到该拼音节点的所有同音词的索引。需要说明的是，每一个第三拼音节点对应的索引值集中的每一索引值都是唯一确定的。每一个字符串对应一个唯一的索引值。

示例性地，若第三拼音节点GaiXing对应的字符串包括[改性,改姓,改型...]，则采用双数组字典树算法进行处理后，得到第三拼音节点GaiXing对应的索引值集为[index1,index2,index3...]。其中，index1为“改性”对应的索引值；index2为“改姓”对应的索引值；index3为“改型”对应的索引值。

S23：将每一第三拼音节点对应的索引值集写入预设的第一索引数组中，得到第一目标索引数组。

其中，第一索引数组是指预先建立的用于记录每一个第三拼音节点对应的索引值集的一维数组。具体地，将每一个第三拼音节点对应的索引值集写入预设的第一索引数组中，得到第一目标索引数组。示例性地，若第三拼音节点GaiXing对应的索引值集为[index1,index2,index3]；第三拼音节点GaoKong对应的索引值集为[index4,index5,index6]，则将个第三拼音节点GaiXing和GaiXing对应的索引值集都写入预设的第一索引数组中后，得到的第一目标索引数组为[index1,index2,index3,index4,index5,index6]。

S24：从第一目标索引数组中确定每一第三拼音节点的起始索引位置。

具体地，由于第一目标索引数组中的每一索引值都是唯一确定的，因此，将每一个第三拼音节点所对应的索引值集中的第一个索引值和最后一个索引值在第一目标索引数组中的数组序号确定为对应的第三拼音节点的起始索引位置。示例性地，若第一目标索引数组为[index1,index2,index3,index4,index5,index6]，index1和index3分别为第三拼音节点GaiXing的第一个索引值和最后一个索引值，index1在第一目标索引数组中的数组序号为0，index3在第一目标索引数组中的数组序号为2，因此，第三拼音节点GaiXing的起始索引位置为(0,2)；index4和index6分别为第三拼音节点GaoKong的第一个索引值和最后一个索引值，index4在第一目标索引数组中的数组序号为3，index6在第一目标索引数组中的数组序号为5，因此，第三拼音节点GaoKong的起始索引位置为(3,5)。

S25：采用双数组字典树算法每一第三拼音节点进行处理，得到每一第三拼音节点的节点标识。

具体地，采用双数组字典树算法每一个第三拼音节点进行处理，即将每一第三拼音节点存储为双数组字典树形式，从而得到每一个第三拼音节点对应的节点标识。可以理解地，每一第三拼音节点对应的节点标识都是唯一确定的。需要说明的是，本步骤中采用双数组字典树算法每一第三拼音节点进行处理的具体方法和过程，与步骤S22采用双数组字典树算法对每一第三拼音节点的每一字符串进行处理的的具体方法和过程相似，在此不做冗余赘述。

S26：将每一第三拼音节点的节点标识与对应的起始索引位置进行映射存储，生成偏移数组集。

其中，偏移数组集是指由若干偏移数组组成的集合。每一偏移数组包括一个节点标识和对应的起点索引位置。具体地，在确定了每一第三拼音节点的节点标识之后，将每一节点标识与对应的起始索引位置进行关联存储，生成偏移数组集。例如：若第三拼音节点GaiXing的节点标识为0，其所对应的起始索引位置为(0,2)；第三拼音节点GaoKong为节点标识为1，其所对应的起始索引位置为(3,5)；因此，将节点标识0与起始索引位置(0,2)进行映射存储，生成第一偏移数组，将节点标识1与起始索引位置(3,5)进行映射存储，生成第二偏移数组，第一偏移数组和第二偏移数组组成偏移数组集。

S27：将第一目标索引数组和偏移数组集进行组合，生成第一数据字典。

其中，第一数据字典为用于存储1gram同音词的词典。具体地，在确定了第一目标索引数组和偏移数组集之后，将第一目标索引数组和偏移数组集进行组合，生成第一数据字典。可以理解地，在第一数据字典中，每一个1gram拼音节点是以节点标识的形式进行存储的，每一个1gram拼音节点所对应的字符串是以索引的形式进行存储的；从而降低了数据存储时的冗余信息。

在本实施例中，获取第二待存储数据，第二待存储数据包括N个第三拼音节点和每一第三拼音节点对应的M个字符串；采用双数组字典树算法对每一第三拼音节点的每一字符串进行处理，确定每一第三拼音节点对应的索引值集；将每一第三拼音节点对应的索引值集写入预设的第一索引数组中，得到第一目标索引数组；从第一目标索引数组中确定每一第三拼音节点的起始索引位置；采用双数组字典树算法每一对第三拼音节点进行处理，得到每一第三拼音节点的节点标识；将每一第三拼音节点的节点标识与对应的起始索引位置进行映射存储，生成偏移数组集；将第一目标索引数组和偏移数组集进行组合，生成第一数据字典；通过将第二待存储数据存储为双数组字典树形式，即将第三拼音节点转化成节点标识的形式进行存储，和将每一第三拼音节点对应的字符串转化成索引的形式进行存储，从而降低了数据存储时的冗余信息。

在一实施例中，如图4所示，在预设的第二数据字典中查询每一候选索引组的候选频率值之前，该数据字典生成方法，还具体包括如下步骤：

S41：获取第三待存储数据，第三待存储数据包括第四拼音字节、第五拼音字节和目标频率值。

其中，第三待存储数据是指待进行存储的2gram词频数据。例如：第三待存储数据为key值为GaoKong CaoZuo，value值为30，或者，key值为YanJing Sheg，value值为25的2gram词频数据。第三待存储数据包括第四拼音字节、第五拼音字节和目标频率值。其中，第四拼音字节是指第三待存储数据中的第一个1gram拼音。第五拼音节点指第三待存储数据中的第二个1gram拼音。第四拼音节点和第五拼音节点可以相同或者不同。第四拼音节点和第五拼音节点组合作为第三待存储数据的key值。目标频率值是指由第四拼音节点和第五拼音节点的组合拼音节点所对应的频率值。目标频率值为第三待存储数据中的value值。例如：若第三待存储数据中key值为GaoKong CaoZuo和value值为25；则第四拼音节点为GaoKong；第二拼音节点为CaoZuo；目标频率值为25。其中，25为GaoKong CaoZuo的频率值。具体地，获取第三待存储数据可以通过实时采集2gram词频数据作为第三待存储数据；或者直接从拼音字典库中获取2gram词频数据作为第三待存储数据。

S42：采用双数组字典树算法对第四拼音字节和第五拼音字节进行处理，得到第四索引值和第五索引值，其中，第四索引值为第四拼音字节的的索引值，第五索引值为第五拼音字节的的索引值。

具体地，采用双数组字典树算法对第四拼音字节和第五拼音字节进行处理，得到第四索引值和第五索引值。其中，第四索引值为第四拼音字节的索引值，第五索引值为第五拼音字节的的索引值。需要说明的是，本步骤中采用双数组字典树算法对第四拼音字节和第五拼音字节进行处理的具体方法和过程，与步骤S22采用双数组字典树算法对每一第三拼音节点的每一字符串进行处理的的具体方法和过程相似，在此不做冗余赘述。

S43：采用CSR方法将第四索引值、第五索引值和目标频率值进行映射存储，生成所述第二数据字典。

其中，第二数据字典是指用于存储2gram字符串(词语)的索引值以及对应的频率值的词频词典库。由于2gram字符串是由两个1gram字符串两两组合成的，因此每一个2gram字符串(词语)都包括两个索引值，分别为第四索引值和第五索引值。具体地，可预设一个二维矩阵，将第四索引值作为该二维矩阵的行，将第五索引值作为该二维矩阵的列；目标频率值作为该二维矩阵中的元素值进行映射存储。进一步地，由于很多2gramm字符串组合在实际中不存在，所以该二维矩阵为稀疏矩阵，因此，再采用CSR方法对该二维矩阵进行处理，从而压缩空间，生成第二数据字典。

在本实施例中，获取第三待存储数据，第三待存储数据包括第四拼音字节、第五拼音字节和目标频率值；采用双数组字典树算法对第四拼音字节和第五拼音字节进行处理，得到第四索引值和第五索引值，其中，第四索引值为第四拼音字节的的索引值，第五索引值为第五拼音字节的的索引值；采用CSR方法将第四索引值、第五索引值和目标频率值进行映射存储，生成所述第二数据字典；通过将第三待存储数据存储为双数组字典树形式，即将第三待存储数据的第四拼音字节和第五拼音字节用索引表示，从而降低了数据存储时的冗余信息，节省了存储空间。

在一实施例中，如图5所示，该数据字典生成方法，还具体包括如下步骤：

S16：获取第四待存储数据，第四待存储数据包括L个样本字符串和每一样本字符串对应的样本频率值。

其中，第四待存储数据是指待进行存储的1gram词频数据。第四待存储数据包括L个样本字符串和每一样本字符串对应的频率值。其中，样本字符串为第四待存储数据中的key值，频率值为第四待存储数据中的value值。例如：若第四待存储数据中包括有key值为高空，value值为40，和，key值为操作，value值为45的1gram词频数据；则“高空”为样本字符串，“40”为高空对应的频率值；“操作”为样本字符串，“45”为操作对应的频率值。可以理解地，第四待存储数据包括有L个键值对key-value，每一个key对应一个频率值，即每一个样本字符串对应一个频率值。具体地，获取第四待存储数据可以通过实时采集1gram词频数据作为第四待存储数据；或者直接从拼音字典库中获取1gram词频数据作为第四待存储数据。

S17：采用双数组字典树算法对每一样本字符串进行处理，得到每一样本字符串的第六索引值。

具体地，采用双数组字典树算法对每一样本字符串进行处理，从而得到每一样本字符串的第六索引值。可以理解地，每一样本字符串对应一个唯一的第六索引值。需要说明的是，本步骤中采用双数组字典树算法对每一样本字符串进行处理的具体方法和过程，与步骤S22采用双数组字典树算法对每一第三拼音节点的每一字符串进行处理的的具体方法和过程相似，在此不做冗余赘述。

S18：将每一样本字符串和对应的第六索引值写入预设数组中，得到存储数组。

另外地，由于双数组字典树无法通过索引(第六索引值)反查1gram片段(样本字符串)，因此，在本实施例中，建立一个用于存储每一样本字符串的第六索引值的存储数组。具体地，第六索引值在存储数组的数组序号与第六索引值相对应。即按照第六索引值从小到大的顺序，将每一样本字符串的第六索引值写入存储数组中，从而便于后续通过索引值(第六索引值)反查对应的1gram片段(样本字符串)。

S19：将每一第六索引值与对应的样本频率值进行映射存储，生成第四数据字典。

具体地，在得到第六索引值之后，将每一第六索引值和对应的样本频率值进行映射存储，生成第四数据字典。其中，第四数据字典是指用于存储1gram词频数据的1gram词频字典。在第四数据字典中，包括若干1gram字符串的索引值和对应的频率值。例如：第四数据字典中包括key值为index1，value值为30，和，key值为index2，value值为40的数据。其中，index1为样本字符串“高空”的第六索引值，30为样本字符串“高空”的频率值；index2为样本字符串“操作”的第六索引值，40为样本字符串“操作”的频率值。

在本实施例中，获取第四待存储数据，第四待存储数据包括L个样本字符串和每一样本字符串对应的样本频率值；采用双数组字典树算法对每一样本字符串进行处理，得到每一样本字符串的第六索引值；将每一样本字符串和对应的第六索引值写入预设数组中，得到存储数组；将每一第六索引值与对应的样本频率值进行映射存储，生成第四数据字典；通过将第四待存储数据存储为双数组字典树形式，即将每一样本字符串转化成第六索引值，并与对应的样本频率值进行存储，从而降低了数据存储时的冗余信息和字符类型数据存储时所带来的不便。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种数据字典生成装置，该数据字典生成装置与上述实施例中数据字典生成方法一一对应。如图6所示，该数据字典生成装置包括第一获取模块11、第一查询模块12、处理模块13、第一筛选模块14和第一映射存储模块15。各功能模块详细说明如下：

第一获取模块11，用于获取第一待存储数据，第一待存储数据包括第一拼音节点和第二拼音节点；

第一查询模块12，用于基于第一拼音节点和第二拼音节点，在预设的第一数据字典中进行查询，确定第一索引序列和第二索引序列，其中，第一索引序列为第一拼音节点的索引序列，第二索引序列为第二拼音节点的索引序列；

第一处理模块13，用于采用CSR方法对第一索引序列和第二索引序列进行处理，得到候选索引组；

第一筛选模块14，用于在预设的第二数据字典中查询每一候选索引组的候选频率值，从候选索引组中筛选出候选频率值符合预设要求的目标索引组；

第一映射存储模块15，用于将待存储数据和目标索引组进行映射存储，生成第三数据字典。

优选地，该数据字典生成装置还包括：

第二获取模块，用于获取第二待存储数据，第二待存储数据包括N个第三拼音节点和每一第三拼音节点对应的M个字符串；

第二处理模块，用于采用双数组字典树算法对每一第三拼音节点的每一字符串进行处理，确定每一第三拼音节点对应的索引值集；

第一写入模块，用于将每一第三拼音节点对应的索引值集写入预设的第一索引数组中，得到第一目标索引数组；

第一确定模块，用于从第一目标索引数组中确定每一第三拼音节点的起始索引位置；

第三处理模块，用于采用双数组字典树算法每一第三拼音节点进行处理，得到每一第三拼音节点的节点标识；

第二映射存储模块，用于将每一第三拼音节点的节点标识与对应的起始索引位置进行映射存储，生成偏移数组集；

组合模块，用于将第一目标索引数组和偏移数组集进行组合，生成第一数据字典。

优选地，该数据字典生成装置还包括：

第三获取模块，用于获取第三待存储数据，第三待存储数据包括第四拼音字节、第五拼音字节和目标频率值；

第四处理模块，用于采用双数组字典树算法对第四拼音字节和第五拼音字节进行处理，得到第四索引值和第五索引值，其中，第四索引值为第四拼音字节的的索引值，第五索引值为第五拼音字节的的索引值；

第三映射存储模块，用于采用CSR方法将第四索引值、第五索引值和目标频率值进行映射存储，生成第二数据字典。

优选地，该数据字典生成装置还包括：

第四获取模块，用于获取第四待存储数据，第四待存储数据包括L个样本字符串和每一样本字符串对应的样本频率值；

第五处理模块，用于采用双数组字典树算法对每一样本字符串进行处理，得到每一样本字符串的第六索引值；

第二写入模块，用于将每一样本字符串和对应的第六索引值写入预设数组中，得到存储数组；

第四映射存储模块，用于将每一第六索引值与对应的样本频率值进行映射存储，生成第四数据字典。

关于数据字典生成装置的具体限定可以参见上文中对于数据字典生成方法的限定，在此不再赘述。上述数据字典生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，如图7所示，提供一种数据查询方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S100：获取第一待查询数据，将第一待查询数据在第三数据字典中查询，确定第一待查询数据的待查询索引组，其中，第三数据字典是采用权利要求1的数据字典生成方法得到的。

其中，第一待查询数据指待进行查询的2gram拼音节点数据。第一待查询数据由第一待查询拼音节点和第二待查询拼音节点组成。例如：第一待查询数据为GaoKong CaoZuo。GaoKong为第一待查询拼音节点，CaoZuo为第二待查询拼音节点。具体地，将第一待查询数据与第三数据字典中存储的所有2gram拼音节点进行匹配，将与第一待查询数据相匹配的2gram拼音节点的所对应的目标索引组，确定为该第一待查询数据的待查询索引组。其中，第三数据字典是采用上述数据字典生成方法得到的。

S101：基于待查询索引组在第四数据字典的存储数组中查询，得到第一待查询数据的目标字符串，其中，第四数据字典是指用于存储第六索引值与对应的样本频率值的词频字典。

具体地，为了通过索引值可反查到对应的字符串，在步骤S18中已将每一样本字符串和对应的第六索引值写入预设数组中得到存储数组，即第四数据字典的存储数组中包括有每一样本字符串和对应的第六索引值。因此，在本步骤中，将待查询索引组在第四数据字典的存储数组中查询，将与待查询索引组相匹配的第六索引值所对应的样本字符串，确定为第一待查询数据的目标字符串。其中，第四数据字典是采用上述数据字典生成方法得到的。

在本实施例中，获取第一待查询数据，将第一待查询数据在第三数据字典中查询，确定第一待查询数据的待查询索引组，其中，第三数据字典是采用权利要求1的数据字典生成方法得到的；基于待查询索引组在第四数据字典的存储数组中查询，得到第一待查询数据的目标字符串，第四数据字典是指用于存储第六索引值与对应的样本频率值的词频字典；从而保证了数据查询的准确性。

在一实施例中，如图8所示，该数据查询方法，还具体包括如下步骤：

S110：获取第二待查询数据，将第二查询数据在第一数据字典的偏移数组集中进行查询，确定第二待查询数据的目标偏移数组，其中，第一数据字典是采用权利要求2所述的数据字典生成方法得到的。

其中，第二待查询数据是指待进行查询的1gram拼音节点数据。例如：第二待查询数据可以为GaoKong、CaoZuo或GaiXing的1gram拼音节点数据。具体地，由于第一数据字典的偏移数组集中包括有若干第三拼音节点的偏移数组。因此，将第二查询数据与第一数据字典的偏移数组集中的每一偏移数据组的第三拼音节点进行匹配，将与第二查询数据相匹配的第三拼音节点所对应的偏移数组，确定为第二查询数据的目标偏移数组。其中，第一数据字典是采用上述数据字典生成方法得到的。

S111：获取目标偏移数组中的目标起始索引位置，基于目标起始索引位置，在第一数据字典的第一目标索引数组中进行查询，确定第二待查询数据的目标索引数据。

由步骤S26可知偏移数组集中记录有每一第三拼音节点的节点标识和对应的起始索引位置，因此，将目标偏移数组中的起始索引位置确定为目标起始索引位置。具体地，在确定了目标起始索引位置之后，在第一目标索引数组中进行查询，确定该待查询数据在第一目标索引数组中的起始索引位置，将目标起始索引位置中的起始位置至终止位置所对应的索引值，确定为待查询数据的目标索引数据。

S112：基于目标索引数据在存储数组中查询，得到第二待查询数据的目标字符串。

具体地，基于目标索引数据在存储数组中查询，得到第二待查询数据的目标字符串。需要说明的是，本步骤中基于目标索引数据在存储数组中查询，得到第二待查询数据的目标字符串的具体方法和过程，与步骤S101基于待查询索引组在存储数组中查询，得到第一待查询数据的目标字符串的具体方法和过程相似，此处不做冗余赘述。

在本实施例中，获取第二待查询数据，将第二查询数据在第一数据字典的偏移数组集中进行查询，确定第二待查询数据的目标偏移数组，其中，第一数据字典是采用权利要求2所述的数据字典生成方法得到的；获取目标偏移数组中的目标起始索引位置，基于目标起始索引位置，在第一数据字典的第一目标索引数组中进行查询，确定第二待查询数据的目标索引数据；基于目标索引数据在存储数组中查询，得到第二待查询数据的目标字符串；从而在保证查询效率的同时，还提高了数据查询的准确性。

在一实施例中，提供一种数据查询装置，该数据查询装置与上述实施例中数据查询方法一一对应。如图9所示，该数据查询装置包括第二查询模块100和第三查询模块101。各功能模块详细说明如下：

第二查询模块100，用于获取第一待查询数据，将第一待查询数据在第三数据字典中查询，确定第一待查询数据的待查询索引组，其中，第三数据字典是采用上述数据字典生成方法得到的；

第三查询模块101，用于基于待查询索引组在第四数据字典的存储数组中查询，得到第一待查询数据的目标字符串，其中，第四数据字典是指用于存储第六索引值与对应的样本频率值的词频字典。

优选地，该数据查询装置还包括：

第二确定模块，用于获取第二待查询数据，将第二查询数据在第一数据字典的偏移数组集中进行查询，确定第二待查询数据的目标偏移数组，其中，第一数据字典是采用上述数据字典生成方法得到的；

第四查询模块，用于获取目标偏移数组中的目标起始索引位置，基于目标起始索引位置，在第一数据字典的第一目标索引数组中进行查询，确定第二待查询数据的目标索引数据；

第五查询模块，用于基于目标索引数据在存储数组中查询，得到第二待查询数据的目标字符串。

关于数据查询装置的具体限定可以参见上文中对于数据查询方法的限定，在此不再赘述。上述数据查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中的数据字典生成方法和数据查询方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据字典生成方法，或者，该计算机程序被处理器执行时以实现一种数据查询方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的数据字典生成方法，或者，处理器执行计算机程序时实现上述实施例中的数据查询方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的数据字典生成方法，或者，计算机程序被处理器执行时实现上述实施例中的数据查询方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种数据字典生成方法，其特征在于，包括：

2.如权利要求1所述的数据字典生成方法，其特征在于，在基于所述第一拼音节点和所述第二拼音节点，在预设的第一数据字典中进行查询之前，所述数据字典生成方法还包括：

获取第二待存储数据，所述第二待存储数据包括N个第三拼音节点和每一所述第三拼音节点对应的M个字符串；

采用双数组字典树算法对每一所述第三拼音节点的每一所述字符串进行处理，确定每一所述第三拼音节点对应的索引值集；

将每一所述第三拼音节点对应的所述索引值集写入预设的第一索引数组中，得到第一目标索引数组；

从所述第一目标索引数组中确定每一所述第三拼音节点的起始索引位置；

采用双数组字典树算法每一所述第三拼音节点进行处理，得到每一所述第三拼音节点的节点标识；

将每一所述第三拼音节点的所述节点标识与对应的所述起始索引位置进行映射存储，生成偏移数组集；

将所述第一目标索引数组和所述偏移数组集进行组合，生成第一数据字典。

3.如权利要求1所述的数据字典生成方法，其特征在于，所述在预设的第二数据字典中查询每一所述候选索引组的候选频率值之前，所述数据字典生成方法还包括：

获取第三待存储数据，所述第三待存储数据包括第四拼音字节、第五拼音字节和目标频率值；

采用双数组字典树算法对所述第四拼音字节和所述第五拼音字节进行处理，得到第四索引值和第五索引值，其中，所述第四索引值为所述第四拼音字节的的索引值，所述第五索引值为所述第五拼音字节的的索引值；

采用CSR方法将所述第四索引值、所述第五索引值和所述目标频率值进行映射存储，生成所述第二数据字典。

4.如权利要求1所述的数据字典生成方法，其特征在于，所述数据字典生成方法还包括：

获取第四待存储数据，所述第四待存储数据包括L个样本字符串和每一所述样本字符串对应的样本频率值；

采用双数组字典树算法对每一所述样本字符串进行处理，得到每一所述样本字符串的第六索引值；

将每一所述样本字符串和对应的所述第六索引值写入预设数组中，得到存储数组；

将每一所述第六索引值与对应的所述样本频率值进行映射存储，生成第四数据字典。

5.一种数据查询方法，其特征在于，包括：

6.如权利要求5所述的数据查询方法，其特征在于，所述数据查询方法还包括：

获取第二待查询数据，将所述第二查询数据在第一数据字典的偏移数组集中进行查询，确定所述第二待查询数据的目标偏移数组，其中，所述第一数据字典是采用权利要求2所述的数据字典生成方法得到的；

获取所述目标偏移数组中的目标起始索引位置，基于所述目标起始索引位置，在所述第一数据字典的第一目标索引数组中进行查询，确定所述第二待查询数据的目标索引数据；

基于所述目标索引数据在所述存储数组中查询，得到所述第二待查询数据的目标字符串。

7.一种数据字典生成装置，其特征在于，包括：

8.一种数据查询装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述数据字典生成方法，或者，所述处理器执行所述计算机程序时实现如权利要求5至6任一项所述数据查询方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述数据字典生成方法，或者，所述计算机程序被处理器执行时实现如权利要求5至6任一项所述数据查询方法。