CN110175468B - 一种保留分布特征的姓名脱敏方法 - Google Patents

一种保留分布特征的姓名脱敏方法 Download PDF

Info

Publication number
CN110175468B
CN110175468B CN201910366230.2A CN201910366230A CN110175468B CN 110175468 B CN110175468 B CN 110175468B CN 201910366230 A CN201910366230 A CN 201910366230A CN 110175468 B CN110175468 B CN 110175468B
Authority
CN
China
Prior art keywords
name
uniform random
desensitization
sampling
unicode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910366230.2A
Other languages
English (en)
Other versions
CN110175468A (zh
Inventor
张江鑫
张名民
李建元
蒋立靓
沈晓宇
钱裕佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinjiang Technology Co., Ltd
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Enjoyor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT, Enjoyor Co Ltd filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910366230.2A priority Critical patent/CN110175468B/zh
Publication of CN110175468A publication Critical patent/CN110175468A/zh
Application granted granted Critical
Publication of CN110175468B publication Critical patent/CN110175468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)

Abstract

一种保留分布特征的姓名脱敏方法,从一个或多个数据库中收集待脱敏姓名数据;检验待脱敏姓名数据的合规性;姓、名频率密度及权重空间表建立,用混合线性同余发生器产生均匀随机数,用拒绝采样原理进行采样,根据采样结果统计得出姓、名概率密度表,根据概率密度表生成权重表,根据权重表生成权重区间表;将待脱敏姓名转化为Unicode码,根据相关算法进行计算得出结果;以结果为索引,结合前面所生成的权重区间表得出相关脱敏结果。本发明可行性强,能很好的保留脱敏结果的分析价值、能保证脱敏过程结果的一致性、能保证脱敏过程的多样性。

Description

一种保留分布特征的姓名脱敏方法
技术领域
本发明涉及数据处理领域,尤其涉及一种保留分布特征的姓名脱敏方法。
背景技术
随着大数据时代的来临,数据呈爆炸式增长。无论是各种企业还是政府都越来越重视这份宝贵的财富。大数据是把双刃剑,用好了能很好的促进企业的发展、减少企业成本,亦能提高政府部门管理效率、提升人民生活的幸福感,但是如果这把利剑被不法分子掌握在了手里,也会对人民、企业甚至国家造成重大的伤害。尤其是各个企业、政府部门为了实现数据的利用最大化,各单位之间就必须要实现数据的共享交换,以打破数据壁垒,连通数据孤岛,在交换共享的过程中,数据泄露的风险也在不断的提升。不可避免的,在交换的数据之中,一定会存在各种各样的个人隐私数据,随着数据交换的不断进行,不可避免的,敏感数据泄露的风险也在与日俱增。数据脱敏又称数据变形、数据漂白。主要方法有算法转换、替代、混洗、数值变换、加密、模糊、截断等。相比于数据加密“粗暴的”将一串明文加密成没有任何意义的一串字符,一种好的脱敏方法能尽可能的保留数据价值,同时消除原始数据的一些隐私痕迹,从而达到既能有效的保护数据,又能提高数据利用率的目的,并且,相较于加密算法的“笨重”,数据脱敏要轻巧的多,所涉及的算法时间复杂度也相对较低,转换速度快,在个人隐私数据的共享交换之中,姓名信息是一个人重要的隐私信息,通常姓名信息是一个人给外界最直观的信息,虽然每个人的姓名可能会与他人重复,但是若是再结合其他相关信息,很容易让人定位到现实生活中的具体某一个人。所以,做好姓名信息的脱敏工作十分重要。
在一部分现有的姓名脱敏方法中,直接对姓名进行截断或者模糊处理,如原始姓名“凌破天”变为脱敏后的姓名“凌某某”或者“凌**”,脱敏之后数据完全丧失独立特征,大量重复,会对数据库之间的数据串联,个体数据分析等造成严重影响。还有的姓名脱敏方法中,通过对数据库中的汉语姓名分解成单个汉字,然后将汉字编码得到编码数据,之后采用若干初等变换方法将编码次序置乱,最后使用互补、映射得到脱敏码,组合得到汉语姓名的全部脱敏结果,这种脱敏方法中虽然用到了汉字编码,并对编码求补数,进行编码变换等,能够有效保障了数据唯一性和可标识别性,使得数据库在处理过程中无信息损失,但是脱敏后的数据是一串数字,丧失了姓名的相关特征,并且脱敏的转换方法过于简单,一旦泄露转换规则,就能逆推出未脱敏前的姓名,存在安全隐患。还有一些姓名脱敏方法中,针对所述待脱敏姓名中的每一个汉字,从预存的多级字库中,查找该汉字所属级别的字库;其中,不同级别字库中的汉字的属性存在不同,同一级别字库中的汉字的属性相同;按照预设的单字变换算法,确定该汉字在所属级别的字库中对应的脱敏后的汉字,基于所述待脱敏姓名中的每一个汉字对应的脱敏后的汉字,生成脱敏后的姓名。该方法虽然可以将待脱敏姓名中的每一个汉字脱敏成同级别字库中的汉字,从而使脱敏后的姓名仍然保持原有的属性,但是预存的字库并不一定能满足一些特有的应用场景,并且虽然对姓名的分布特征有一定的保留,但是还是有所欠缺,并没有很好的保留分布特征。
发明内容
为了克服现有的姓名脱敏方法的无法较好保留分布特征的不足,本发明提供一种能很好的保留分布特征的姓名脱敏方法。
本发明为了解决上述技术问题采用的技术方案如下:
一种保留分布特征的姓名脱敏方法,包括如下步骤:
(1)收集待脱敏姓名数据;
(2)判断姓名数据是否符合规范,将异常数据放入异常数据集单独处理;
(3)对合规的待脱敏数据进行抽样统计,对姓、名生成概率密度区间,分级设置权重生成概率密度权重区间;
(4)针对具体待脱敏姓名,分别判断姓和名所在概率密度区间的级别,然后将姓名中的字分别转化为Unicode码,计算姓、名脱敏后所在的区间系数:
fNamecoef=(2*Unicode1+Unicode2+Unicode3)mod L1
lName1coef=(Unicode1+2*Unicode2+Unicode3)mod L2
lName2coef=(Unicode1+Unicode2+2*Unicode3)mod L3其中L1、L2、L3为对应级别的概率密度权重区间的总长度;
(5)根据(4)所得出的系数结合各级别的概率密度权重区间表得出脱敏后的名字。
进一步,所述异常数据,是指长度小于或等于1位及长度大于5位的姓名数据。
进一步,所述步骤(3)的过程如下:
(3.1)将待脱敏姓名数据转化为长度为n的一维数组作为抽样的样本空间:
Name=[name1,name2,name3,...,namen]
(3.2)根据样本空间Name大小确定抽样数据集大小,建立均匀随机采样样本,对样本中的姓名进行分割,分割成姓和其余字,分别统计生成概率密度表,根据概率分级设置权重,并设置每个姓的概率密度权重区间为[前面所有姓的权重之和,当前姓权重加上前面所有姓的权重之和),每个字的概率密度权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和)。
进一步,所述建立均匀随机采样样本,具体为:
设置产生均匀随机数的混合线性同余发生器:
Xi+1=(aXi+c)modm,i≥0.公式1
设置参数a、c、m及初始值X0代入公式1进行计算,根据拒绝采样原理,生成均匀随机序列:
[Xo,X1,X2,...,Xk]
其中,k表示均匀随机序列的长度;
以产生的均匀随机数作为索引,在样本空间中查找对应的姓名,形成均匀随机采样样本。
进一步,所述设置参数a、c、m及初始值X0,具体为:
X0为种子数seed,大小在[0,m)皆可;
由于公式1存在mod运算,所以上述均匀随机序列存在周期T<=m,所以为了产生尽可能长的均匀随机序列,应该通过调整参数a、c、m使得周期T尽可能的等于m;在满足以下条件时,均匀随机序列达到满周期:
1.c与m互质;
2.对于m的任意质因子p,(a-1)都能够被p整除;
3.a<m-1;
这里选取与m互斥的参数c以满足条件1,选取m为2L,选取a为2β+1以满足条件2,选取a∈[3,m-1)以满足条件3,所得序列在[0,2L]上均匀随机分布,周期为2L
为了满足对样本空间Name均匀随机抽样,应使得2L>n,这样落在样本空间内的采样点就不会产生重复,并且均匀随机分布。
进一步,所述根据拒绝采样原理,生成均匀随机序列,具体为:
设置均匀随机采样样本的长度为K,根据公式1产生均匀随机数,若随机数小于等于n,则保留该随机数,并将其放入均匀随机序列;若随机数大于n,则舍弃;直到均匀随机序列的长度达到k为止。
本发明的有益效果为:可行性强,能很好的保留脱敏结果的分析价值、能保证脱敏过程结果的一致性、能保证脱敏过程的多样性。
附图说明
图1为拒绝采样原理示意图;
图2为实施例整体流程示意图;
图3为建立姓名概率密度权重区间表详细流程图;
图4为一种保留分布特征的姓名脱敏方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参照图1~图4,一种保留分布特征的姓名脱敏方法,包括如下步骤:
(1)获得待脱敏姓名数据集W1
(2)对待脱敏姓名集进行合规性检验,将不合规姓名数据放入异常数据集,得合规数据集W2并将其转化为一维数组;
(3)根据数据集W2的规模制定抽样数据集的大小,一般的当W2小于10000条时,采用全采集的方式直接将W2作为抽样数据集。当W2大于10000条小于1000万条时,抽取W2的10%作为抽样数据集,最少抽取10000条。当W2大于1000万条时,抽取100万条作为抽样数据集,本实施例中待脱敏数据集规模为1000万条,应当设置抽取数据集的大小为100万条;
根据混合同余发生器产生均匀随机的采样点:
Xi+1=(aXi+c)modm,i=0,1,2,…公式2
其中,模数m和乘子a是这个公式中最重要的参数,如何合理的选择这两个参数决定了其产生的线性同余序列<X>质量的优劣(<X>=X1,X2,X3,…,Xn…。)常数c可以为0,。通常,如果c为0那么(1)式也被称作乘法线性同余发生器,如果c非零(1)式则被称作为混合线性同余发生器。X0称作初始值,也就是所谓的种子seed。通过设置合理的a、c、m参数,可以生成均匀随机序列。
由公式1不难看出,由于存在mod运算,所以上述均匀随机序列存在周期T<=m,所以为了产生尽可能长的均匀随机序列,应该通过调整参数a、c、m使得周期T尽可能的等于m。经过推论和大量实验得出结论在满足以下条件时,均匀随机序列达到满周期:
1.c与m互质;
2.对于m的任意质因子p,(a-1)都能够被p整除;
3.a<m-1;
这里我们选取与m互斥的参数c以满足条件1,选取m为2L(这样m只具有一个质因数2)选取a为2β+1以满足条件2,选取a∈[3,m-1)以满足条件3。所得序列在[0,2L]上均匀随机分布,周期为2L
为了满足对样本空间Name均匀随机抽样,应使得2L>样本空间Name的长度n,这样落在样本空间内的采样点就不会产生重复,并且均匀随机分布。
设待脱敏数据集W2的长度为n,在本实施例中n=10000000,X0为种子数seed,脱敏人员作为入参直接输入,大小在[0,n)皆可,这里设置X0=8888;m为均匀随机序列的周期,根据W2的规模直接制定,大小为满足2L>n的最小值,算得当L=24时m大于n且距离n最近,即m=224=16777216,参数c需要与m互斥即可,这里选择c=1111,参数a只需要是小于m-1的奇数即可,这里选择a=1333,将各参数带入公式2得:
X0=8888<10000000,未超出数据集W2的长度,保留
X1=(1333*8888+1111)mod 16777216=11848815
X1>10000000,超出数据集W2长度,舍弃
X2=(1333*11848815+1111)mod 16777216=7110140
X2=8888<10000000,未超出数据集W2的长度,保留
X3=(1333*7110140+1111)mod 16777216=15466797
X3>10000000,超出数据集W2长度,舍弃
·
·
·
依此类推,直到落在[0,10000000)内的随机点达到1000000个为止。
本实施例的随机采样点为:
[8888,7110140,7149051,226296,3338606,4399559,···]
以均匀随机采样点作为索引,在脱敏数据集W2中查找对应的姓名,建立均匀随机采样样本,本实施例中样本如下:
[唐柯,李爱国,李文,孙从兵,倪华,···]
对均匀随机采样样本中的名字进行分割,分割成姓和其余字分别统计生成概率密度表。
S1统计各个姓氏出现的次数,并将次数除以1000000得出概率,生
成概率密度表,在本实施例中,概率密度表为表1:
0.121641 0.052134 0.072458 0.039321 0.064341
···
0.014151 0.005123 ··· 0.000003 0.000001
表1
S2统计姓名中名的总字数,统计各个字出现的次数并除以总字数得
出概率,生成概率密度表,在本实施例中,概率密度表为表2:
0.013412 0.012134 0.008458 0.009221 0.005134
···
0.002151 0.005123 ··· 0.000007 0.000001
表2
S3将姓概率密度表分为两级,概率大于0.001的作为第一级,将第一级中的概率乘以1000得到一级概率密度权重,设置权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和),将概率小于0.001的分为第二级,将第二级中的概率乘以1000000得到二级概率密度权重,设置权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和),在本实施例中姓概率密度权重区间表如表3和表4:
[0,122) [122,174) [174,247) [247,286) [286,350)
···
[350,364) [364,369) ··· [943,982) [982,1000)
表3
[0,141) [141,233) [233,311) [311,353) [353,372)
···
[372,421) [421,449) ··· [996,999) [999,1000)
表4
S4用S7相同的方法流程生成两级名概率密度权重区间表,在本实施例中名权重区间表如下,表5为名一级概率密度权重区间表,表6为名二级概率密度权重区间表:
[0,131) [131,187) [187,212) [212,283) [283,350)
···
[350,364) [364,369) ··· [987,991) [991,1000)
表5
[0,112) [112,231) [231,269) [269,331) [331,361)
···
[361,399) [399,411) ··· [996,999) [999,1000)
表6
(4)针对具体待脱敏姓名,分别判断姓和名所在概率密度区间的级别,然后将姓名中的字分别转化为Unicode码,计算姓、名脱敏后所在的区间系数。
本实施例以“陈华”为例,则:
fNamecoef=(2*Unicode1+Unicode2)mod1000
=(2*38472+21326)mod1000=270
lName1coef=(Unicode1+2*Unicode2)mod1000
=(38472+2*21326)mod1000=124
因为“陈”属于姓第一级密度区间,所以查询姓一级概率密度权重区间表得知,270对应的权重区间是[247,286),对应的姓氏是“孙”,因为“华”属于名第一级密度空间,所以查询姓一级概率密度权重区间表得知,124对应的权重区间是[25,247),对应的名是“文”,所以脱敏后的姓名是“孙文”。
由实施例可以看出,使用以上脱敏方法得到的脱敏结果,例如“王文”,很好的保留了姓名的属性,具有很高的仿真度,不会对数据共享过程中数据串联及横向分析造成影响。脱敏后的姓名脱敏集,很好的保留了原始姓名数据的分布特征,基本消除了数据脱敏过程中对于数据分析造成的不利影响,很好的保留了姓名数据的分析价值;只要保证以上所述参数不变,那么每一次的脱敏结果都相同,能够保证脱敏过程中的一致性;用户可以设置不同的脱敏参数以达到不同的脱敏效果,具有很好的脱敏多样性;脱敏执行过程中关于概率密度的统计,完全可以放在数据库中进行,程序只需存储最后的权重区间表,大小也就几十kb左右,无需占用大量程序内存。

Claims (6)

1.一种保留分布特征的姓名脱敏方法,其特征在于,所述方法包括如下步骤:
(1)收集待脱敏姓名数据;
(2)判断待脱敏姓名数据是否符合规范,将异常数据放入异常数据集单独处理;
(3)对合规的待脱敏数据进行抽样统计,对姓、名生成概率密度区间,分级设置权重生成概率密度权重区间;
(4)针对具体待脱敏姓名,分别判断姓和名所在概率密度区间的级别,然后将姓名中的字分别转化为Unicode码,计算姓、名脱敏后所在的区间系数:
fNamecoef=(2*Unicode1+Unicode2+Unicode3)mod L1
lName1coef=(Unicode1+2*Unicode2+Unicode3)mod L2
lName2coef=(Unicode1+Unicode2+2*Unicode3)mod L3
其中L1、L2、L3为对应级别的概率密度权重区间的总长度;
(5)根据(4)所得出的系数结合各级别的概率密度权重区间表得出脱敏后的名字。
2.如权利要求1所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述异常数据,是指长度小于或等于1位及长度大于5位的姓名数据。
3.如权利要求1所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述(3)的过程如下:
(3.1)将待脱敏姓名数据转化为长度为n的一维数组作为抽样的样本空间:
Name=[name1,name2,name3,...,namen]
(3.2)根据样本空间Name大小确定抽样数据集大小,建立均匀随机采样样本,对样本中的姓名进行分割,分割成姓和其余字,分别统计生成概率密度表,根据概率分级设置权重,并设置每个姓的概率密度权重区间为[前面所有姓的权重之和,当前姓权重加上前面所有姓的权重之和),每个字的概率密度权重区间为[前面所有字的权重之和,当前字权重加上前面所有字的权重之和)。
4.如权利要求3所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述建立均匀随机采样样本,具体为:
设置产生均匀随机数的混合线性同余发生器:
Xi+1=(aXi+c)mod m, i≥0. 公式1
设置参数a、c、m及初始值X0代入公式1进行计算,根据拒绝采样原理,生成均匀随机序列:
[X0,X1,X2,...,Xk]
其中,k表示均匀随机序列的长度;
以产生的均匀随机数作为索引,在样本空间中查找对应的姓名,形成均匀随机采样样本。
5.如权利要求4所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述设置参数a、c、m及初始值X0,具体为:
X0为种子数seed,大小在[0,m)皆可;
由于公式1存在mod运算,所以上述均匀随机序列存在周期T<=m,所以为了产生长的均匀随机序列,应该通过调整参数a、c、m使得周期T等于m;在满足以下条件时,均匀随机序列达到满周期:
1.c与m互质;
2.对于m的任意质因子p,(a-1)都能够被p整除;
3.a<m-1;
这里选取与m互斥的参数c以满足条件1,选取m为2L,选取a为2β+1以满足条件2,选取a∈[3,m-1)以满足条件3,所得序列在[0,2L]上均匀随机分布,周期为2L
为了满足对样本空间Name均匀随机抽样,应使得2L>n,这样落在样本空间内的采样点就不会产生重复,并且均匀随机分布。
6.如权利要求4所述的一种保留分布特征的姓名脱敏方法,其特征在于,所述根据拒绝采样原理,生成均匀随机序列,具体为:
设置均匀随机采样样本的长度为K,根据公式1产生均匀随机数,若随机数小于等于n,则保留该随机数,并将其放入均匀随机序列;若随机数大于n,则舍弃;直到均匀随机序列的长度达到k为止。
CN201910366230.2A 2019-05-05 2019-05-05 一种保留分布特征的姓名脱敏方法 Active CN110175468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910366230.2A CN110175468B (zh) 2019-05-05 2019-05-05 一种保留分布特征的姓名脱敏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910366230.2A CN110175468B (zh) 2019-05-05 2019-05-05 一种保留分布特征的姓名脱敏方法

Publications (2)

Publication Number Publication Date
CN110175468A CN110175468A (zh) 2019-08-27
CN110175468B true CN110175468B (zh) 2020-12-01

Family

ID=67690576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910366230.2A Active CN110175468B (zh) 2019-05-05 2019-05-05 一种保留分布特征的姓名脱敏方法

Country Status (1)

Country Link
CN (1) CN110175468B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909375B (zh) * 2019-10-12 2022-04-08 浙江工业大学 一种保留分布特征的地址脱敏方法
CN113704597A (zh) * 2020-05-21 2021-11-26 阿波罗智联(北京)科技有限公司 内容推荐方法、装置和设备
CN111752969A (zh) * 2020-06-23 2020-10-09 上海观安信息技术股份有限公司 一种保持统计特征的算法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201002559D0 (en) * 2010-02-15 2010-03-31 Circassia Ltd Birch peptides for vaccine
JP6355522B2 (ja) * 2014-10-22 2018-07-11 株式会社ポパイ 野球試合用メンバー表
CN106295969A (zh) * 2016-08-02 2017-01-04 贵州电网有限责任公司信息中心 电力客户价值分群的一种加权K‑means方法
CN107220295B (zh) * 2017-04-27 2020-02-07 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN107480549B (zh) * 2017-06-28 2019-08-02 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统

Also Published As

Publication number Publication date
CN110175468A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN110175468B (zh) 一种保留分布特征的姓名脱敏方法
Malevergne et al. Testing the Pareto against the lognormal distributions with the uniformly most powerful unbiased test applied to the distribution of cities
US8732660B2 (en) User input auto-completion
CN109726585B (zh) 一种面向身份证号码的集成数据脱敏系统及方法
Roberts A theoretical map for selecting among text analysis methods
Soufiani et al. Graphlet decomposition of a weighted network
Balinsky et al. On the Helmholtz principle for data mining
EP2224361A1 (en) Generating a domain corpus and a dictionary for an automated ontology
CN110516212B (zh) 一种云计算的海量文档相似检测方法
CN102945246B (zh) 网络信息数据的处理方法及装置
Ramesh et al. An automated approach to solve simple substitution ciphers
CN107967364A (zh) 网络文章传播力评估方法及装置
US20140039875A1 (en) Visual analysis of phrase extraction from a content stream
CN108268431A (zh) 段落向量化的方法和装置
WO2023093100A1 (zh) 一种api网关异常调用识别的方法、装置、设备及产品
CN108111310A (zh) 一种候选口令字典的生成方法与装置
Friedrich Complexity and entropy in legal language
CN106844466A (zh) 事件脉络生成方法和装置
CN104794129B (zh) 一种基于查询日志的数据处理方法和系统
Yuan et al. Understanding the Rational Speech Act model.
US20180067938A1 (en) Method and system for determining a measure of overlap between data entries
CN109831544B (zh) 一种应用于电子邮箱地址的编码存储方法及系统
US8554696B2 (en) Efficient computation of ontology affinity matrices
Takasugi et al. Recombination model and multimeson production
CN104239504A (zh) 一种用于医生胜任力模型构建的数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: The city Zhaohui six districts Chao Wang Road Hangzhou City, Zhejiang province 310014 18

Patentee after: ZHEJIANG University OF TECHNOLOGY

Patentee after: Yinjiang Technology Co., Ltd

Address before: The city Zhaohui six districts Chao Wang Road Hangzhou City, Zhejiang province 310014 18

Patentee before: ZHEJIANG University OF TECHNOLOGY

Patentee before: Yinjiang Co., Ltd