CN110727414B

CN110727414B - 基于哈夫曼编码的随机数生成方法

Info

Publication number: CN110727414B
Application number: CN201910938634.4A
Authority: CN
Inventors: 凌杰; 刘云; 尹凯; 王立霞; 陈传亮; 苗春华; 李大伟; 王建斌; 尹家卫; 王剑
Original assignee: Anhui Asky Quantum Technology Co Ltd
Current assignee: Anhui Asky Quantum Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2023-12-08
Anticipated expiration: 2039-09-30
Also published as: CN110727414A

Abstract

本发明公开了一种基于哈夫曼编码的高效随机数生成方法，包括以下步骤：整数权重比值表示、随机数扩展、随机数细分、哈夫曼树构造和随机数生成；随机数生成：使用二元无偏随机数发生器产生0/1二元随机数序列B＝B₍₁₎B₍₂₎B₍₃₎B₍₄₎…，B_(i)∈{0，1}，按照构造的哈夫曼码C进行解码，得到唯一的细分随机数序列X″＝S″₍₁₎S″₍₂₎S″₍₃₎S″₍₄₎…，S″_(i)∈S″；随后将子符号替换为细分前的符号，得到扩展随机数序列X′＝S′₍₁₎S′₍₂₎S′₍₃₎S′₍₄₎…，S′_(i)∈S′；再舍弃添加的无效符号z，得到最终的加权随机数序列X＝S₍₁₎S₍₂₎S₍₃₎S₍₄₎…，S_(i)∈S，即为满足要求的加权随机数序列；定义哈夫曼转化效率为R_T＝1/d(T)；平均每一位二元无偏随机数可以转化为R_T位细分随机数；整体由二元无偏随机数转化为加权随机数的效率为R＝R_T*R_W。本发明产生的加权随机数序列既完全符合权重要求，也提高了生成效率。

Description

基于哈夫曼编码的随机数生成方法

技术领域

本发明涉及一种随机生成方法，尤其涉及一种基于哈夫曼编码的随机数生成方法。

背景技术

随机数发生器在信息安全、电子商务、通讯、实验仿真、博彩业、游戏设计等众多领域具有广泛的应用。而且随着技术的发展，对随机数的类型、质量、效率等都提出了更高的要求。

目前随机数发生器绝大部分都是用来产生二元无偏随机数序列，而实际应用中往往需要产生任意给定权重或任意范围的随机数。通常的做法是基于整数区间的划分。将一个大的区间按照符号的权重或概率划分为小区间，然后由二元无偏随机数发生器产生2的方次范围的随机数，根据该随机数落在的小区间来转化为对应的随机数。其主要存在以下两个方面的问题，第一：生成每位加权随机数采用了固定长度的二元无偏随机数，从信息论的角度，不同权重的符号包含不同的信息量，采用固定长度的二元无偏随机数至少按照其中最大信息量来消耗，造成了生成效率上的浪费；第二：所有符号的权重之和w_S往往并不是2的方次，而二元无偏随机数发生器产生的随机数范围为2^d，要么舍弃超过w_S的部分而损失效率，要么对每个符号的权重进行缩放取整形成近似权重而影响随机数的质量。在部分应用场景下，这些问题会导致传统的随机数发生器无法满足要求。

发明内容

本专利所要解决的问题是针对上述现有技术的不足，提出一种基于哈夫曼编码的高效随机数生成方法，用于信息安全领域，本发明通过添加一个适当权重的无效符号，有效保证符号权重的准确性，同时结合哈夫曼解码转化，生成不同权重的符号消耗不同长度的二元无偏随机数。本方法产生的加权随机数序列既完全符合权重要求，也提高了生成效率，其效率由哈夫曼树的平均深度及有效权重占比决定，在各符号的权重均是2的方次时可以达到信息论的理论极限。本发明的随机数的类型、质量、效率等更高，可用于信息安全、电子商务、通讯、实验仿真、博彩业、游戏设计等众多领域。

为了实现上述技术目的，本发明采取的技术方案是：基于哈夫曼编码的高效随机数生成方法，其特征包括以下步骤：

1)整数权重比值表示:假设需要产生的随机数S有t个有效符号，S＝{S₁，S₂，...，S_t}，t为整数，t≥2，对应的概率分别为P＝{p₁，p₂，...，p_t}，将比值p₁：p₂：...：p_t表示为最简整数权重比值W，W＝{w₁：w₂：...：w_t}，其中w_i(i＝1，2，...，t)均为正整数，且最大公约数gcd(w₁，w₂，...，w_t)＝1；如果原始概率比值无法使用整数权重比值表示，则根据实际需要在适当的精度下取得近似整数比值或放弃本方法；

2)随机数扩展：对整数权重比值W求和w_S，w_S＝w₁+w₂+…+w_t，计算哈夫曼的深度d，d为满足2^d-1＜w_S≤2^d的正整数；如果w_S＜2^d，添加一个无效符号S_z，对应的整数权重比值为w_Z＝2^d-w_S；如果w_S＝2^d，无需添加无效符号，为统一表示也可认为添加一个无效符号Z，其权重比值w_Z为0；此时随机数扩展为t+1个符号S′＝{S₁，S₂，...，S_t，S_Z}，称为扩展符号，对应的概率为整数权重比值为W′＝{w₁：w₂：...：w_t：w_Z}，总权重为2^d，有效权重占比R_W＝w_S/2^d；

3)随机数细分：在哈夫曼树中，深度为l的节点对应的概率为2^-l，而往往不具有这样的形式，往往不具有这样的形式，但是，可以将该符号以及对应的概率进行细分，每个细分后的符号的概率具有这样的形式，具体方法是，将每个w_i(i＝1，2，...，t，Z)按照二进制展开为n_i个不同的2的方次的和，即/>其中/>对应的将符号S_i(i＝1，2，...，t，Z)细分为n_i个不同细分符号/>对应的整数权重分别为/>概率为/>在哈夫曼树中的深度为/>细分符号总个数为n＝n₁+n₂+…+n_t+n_Z，所有细分符号的集合记为S″＝{S_ij：i＝1，2，...，t，Z；j＝1，2，...，n_i}，对应的概率为/>

4)哈夫曼树构造：将细分后的概率空间中的每个细分符号S_ij(i＝1，2，...，t，Z；j＝1，2，...，n_i)看作叶子节点，在二叉树中的深度为d-e_ij，构造出的完全二叉树即为哈夫曼树T；将连接每个父节点与其子节点的两条边标记为0与1，从根节点到叶子节点的路径的标记序列C_ij即为该叶子节点对应细分符号的码字，称为哈夫曼码；对所有的细分符号S″＝{S_ij：i＝1，2，...，t，Z；j＝1，2，...，n_i}，确定对应的哈夫曼码C＝{C_ij：i＝1，2，...，t，Z；j＝1，2，...，n_i}；定义哈夫曼树T的平均深度为其中c_l为哈夫曼树T中深度为l的叶子节点的个数；实际上,哈夫曼树T的平均深度为也等于细分后概率空间的香农熵H(S″)，其中H是香农信息熵函数；

5)随机数生成：使用二元无偏随机数发生器产生0/1二元随机数序列B＝B₍₁₎B₍₂₎B₍₃₎B₍₄₎...，B_(i)∈{0，1}，按照构造的哈夫曼码C进行解码；由于哈夫曼编码是一种前缀码，可以解码得到唯一的细分随机数序列X″＝S″₍₁₎S″₍₂₎S″₍₃₎S″₍₄₎...，S″_(i)∈S″，i＝1，2，...；随后将每个细分符号S″_(i)∈S″替换为细分前的扩展符号S′_(i)∈S′，得到扩展随机数序列X′＝S′₍₁₎S′₍₂₎S′₍₃₎S′₍₄₎…，S′_(i)∈S′，再舍弃添加的无效符号S_Z，得到最终的加权随机数序列X＝S₍₁₎S₍₂₎S₍₃₎S₍₄₎...，S_(i)∈S即为满足要求的加权随机数序列；定义哈夫曼转化效率为R_T＝1/d(T)，其意义是平均每一位二元无偏随机数可以转化为R_T位细分随机数，整体由二元无偏随机数转化为加权随机数的效率为R＝R_T*R_W。

有益效果：

(1)本发明通过建立合适的哈夫曼编码，将二元无偏随机数序列解码转化为加权随机数序列，满足了特定场合下对加权随机数的需求。

(2)本发明对所有有效符号的整数权重之和非2的方次的情况，添加适当权重的非有效字符，使得最终产生的随机数严格满足其权重比值。同传统近似比值的方法，本发明为工程应用保证了加权随机数的质量。

(3)本发明在保证其权重比值的基础上，使用了哈夫曼编码对无偏随机数序列进行解码转化。其转化效率取决于该哈夫曼树的平均深度，转化效率高，在各符号的权重均是2的方次时可以达到信息论的理论极限，为加权随机数的应用提供效率上的优势。

附图说明

图1为本发明的流程示意图。

图2本发明使用哈弗曼解码来转化随机数示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解这些实施方式仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

实施例1

如图1所示，本实施例1目标：生成符号集S＝{1，2，3，4，5，6}的等概率随机数序列；传统方法：由于6并非2的方次，最接近的一个方次为8。具体的生成方式是使用3比特的二元无偏随机数确定1-8之间的随机数，如果小于等于6则保留，否则丢弃。最终生成目标随机数效率即平均生成1位目标随机数需要消耗4位二元无偏随机数。

本基于哈夫曼编码的高效随机数生成方法，包括以下步骤：

步骤1：将概率比表示为最简整数权重比1:1:1:1:1:1；

步骤2：确定哈夫曼树的深度为3，添加无效符号Z，对应权重为2；

步骤3：由于每个符号的权重已经是2的方次，无需细分；

步骤4：构建的哈夫曼树与编码见图2中的(例1)部分；

步骤5：根据公式计算得最终生成目标随机数效率优于传统方法的1/4。例如：假设有一个二元无偏随机数发生器产生的序列B＝{1001110101011001000...}，根据哈夫曼解码可得扩展随机数序列X′＝{5，Z，6，3，Z，2，Z...}，再去除无效符号输出目标随机数序列X＝{5，6，3，2，1...}。此时生成5位目标随机数消耗了19位二元无偏随机数。

实施例2：

目标：生成符号集S＝{1，2}，概率为的随机数序列，传统方法：由于整数权重和7并非2的方次，最接近的一个方次为8。具体的生成方式是使用3比特的二元无偏随机数确定1-8之间的随机数，如果在1-6之间生成符号1，如果为7生成符号2，否则丢弃。最终生成目标随机数效率/>即平均生成1位目标随机数需要消耗24/7位二元无偏随机数。

本基于哈夫曼编码的高效随机数生成方法，包括以下步骤：

步骤1：将概率比表示为最简整数权重比6:1；

步骤2：确定哈夫曼树的深度为3，添加无效符号Z，对应权重为1；

步骤3：由于权重6不是2的方次，需细分。符号1细分为符号11、12，权重分别为4、2。其它符号无需细分；

步骤4：构建的哈夫曼树与编码见图2中的(例2)部分；

步骤5：根据公式计算得最终生成目标随机数效率优于传统方法的7/24。此时平均生成1位加权随机数需要消耗2位二元无偏随机数，而传统方法需要约3.5位。例如：假设有一个二元无偏随机数发生器产生的序列B＝{10011111100...}，根据哈夫曼解码可得细分随机数序列X″＝{12，11，Z1，21，11...},扩展随机数序列X′＝{1，1，Z，2，1...}，再去除无效符号输出目标随机数序列X＝{1，1，2，1...}。此时生成4位目标随机数消耗了10位二元无偏随机数。

发明的保护范围包括但不限于以上实施方式，本发明的保护范围以权利要求书为准，任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。

Claims

1.一种基于哈夫曼编码的高效随机数生成方法，用于信息安全领域，其特征包括以下步骤：

1)整数权重比值表示:假设需要产生的随机数S有t个有效符号，S＝{S₁，S₂，...，S_t}，t为整数，t≥2，对应的概率分别为P＝{p₁，p₂，...，p_t}，将比值p₁∶p₂∶...∶p_t表示为最简整数权重比值W，W＝{w₁：w₂：...：w_t}，其中w_i(i＝1，2，...，t)均为正整数，且最大公约数gcd(w₁，w₂，...，w_t)＝1；如果原始概率比值无法使用整数权重比值表示，则根据实际需要在适当的精度下取得近似整数比值或放弃本方法；

2)随机数扩展：对整数权重比值w求和w_s,w_s＝w₁+w₂+…+w_t，计算哈夫曼的深度d，d为满足2^d-1＜w_s≤2^d的正整数；如果w_s＜2^d，添加一个无效符号s_z，对应的整数权重比值为w_z＝2^d-w_s；如果w_s＝2^d，无需添加无效符号，为统一表示也可认为添加一个无效符号z，其权重比值w_z为0；此时随机数扩展为t+1个符号S′＝{S₁，S₂，...，S_t，S_Z}，称为扩展符号，对应的概率为整数权重比值为W′＝{w₁：w₂：...：w_t：w_z}，总权重为2^d，有效权重占比R_W＝w_S/2^d；

3)随机数细分：在哈夫曼树中，深度为l的节点对应的概率为2^-l，而往往不具有这样的形式，但是，可以将该符号以及对应的概率进行细分，每个细分后的符号的概率具有这样的形式，具体方法是，将每个w_i(i＝1，2，...，t，Z)按照二进制展开为n_i个不同的2的方次的和，即/>其中/>对应的将符号S_i(i＝1，2，...，t，Z)细分为n_i个不同细分符号/>对应的整数权重分别为/>概率为在哈夫曼树中的深度为/>细分符号总个数为n＝n₁+n₂+…+n_t+n_Z，所有细分符号的集合记为S″＝{S_ij：i＝1，2，...，t，Z；j＝1，2，...，n_i}，对应的概率为/>

4)哈夫曼树构造：将细分后的概率空间中的每个细分符号S_ij(i＝1，2，...，t，Z；j＝1，2，...，n_i)看作叶子节点，在二叉树中的深度为d-e_ij，构造出的完全二叉树即为哈夫曼树T；将连接每个父节点与其子节点的两条边标记为0与1，从根节点到叶子节点的路径的标记序列C_ij即为该叶子节点对应细分符号的码字，称为哈夫曼码；对所有的细分符号S″＝{S_ij：i＝1，2，...，t，Z；j＝1，2，...，n_i}，确定对应的哈夫曼码C＝{C_ij：i＝1，2，...，t，Z；j＝1，2，...，n_i}；定义哈夫曼树T的平均深度为其中c_l为哈夫曼树T中深度为l的叶子节点的个数；实际上,哈夫曼树T的平均深度为也等于细分后概率空间的香农熵H(S”)，其中H是香农信息熵函数；

5)随机数生成：使用二元无偏随机数发生器产生0/1二元随机数序列B＝B₍₁₎B₍₂₎B₍₃₎B₍₄₎...，B_(i)∈{0，1}，按照构造的哈夫曼码c进行解码；由于哈夫曼编码是一种前缀码，可以解码得到唯一的细分随机数序列X″＝S″₍₁₎S″₍₂₎S″₍₃₎S″₍₄₎...，S″_(i)∈S″，i＝1，2，...；随后将每个细分符号S″_(i)∈S″替换为细分前的扩展符号S′_(i)∈S′，得到扩展随机数序列X′＝S′₍₁₎S′₍₂₎S′₍₃₎S′(4)…，S′_(i)∈S′，再舍弃添加的无效符号S_z，得到最终的加权随机数序列X＝S₍₁₎S₍₂₎S₍₃₎S₍₄₎...，S_(i)∈S即为满足要求的加权随机数序列；定义哈夫曼转化效率为R_T＝1/d(T)，其意义是平均每一位二元无偏随机数可以转化为R_T位细分随机数，整体由二元无偏随机数转化为加权随机数的效率为R＝R_T*R_W。