CN112883704A - 一种大数据相似文本去重预处理方法、装置及终端设备 - Google Patents

一种大数据相似文本去重预处理方法、装置及终端设备 Download PDF

Info

Publication number
CN112883704A
CN112883704A CN202110468449.0A CN202110468449A CN112883704A CN 112883704 A CN112883704 A CN 112883704A CN 202110468449 A CN202110468449 A CN 202110468449A CN 112883704 A CN112883704 A CN 112883704A
Authority
CN
China
Prior art keywords
node
text
keyword
keywords
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110468449.0A
Other languages
English (en)
Other versions
CN112883704B (zh
Inventor
窦锦鹏
周金明
孙良良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Inspector Intelligent Technology Co Ltd
Original Assignee
Nanjing Inspector Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Inspector Intelligent Technology Co Ltd filed Critical Nanjing Inspector Intelligent Technology Co Ltd
Priority to CN202110468449.0A priority Critical patent/CN112883704B/zh
Publication of CN112883704A publication Critical patent/CN112883704A/zh
Application granted granted Critical
Publication of CN112883704B publication Critical patent/CN112883704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种大数据相似文本去重预处理方法、装置及终端设备,该方法包括步骤1,对文本集合S中的每个文本T进行分词,并建立倒排索引,步骤2,筛选词语集合W中的词语出现的频数大于阈值的高频词语标记为关键词,步骤3,制定关键词属性v的生成规则并得到每个关键词的属性v,步骤4,根据文本集合S中文本的关键词属性v建立的B+树,对文本进行分类。通过对文本集合进行预处理,划分为子集后,减小计算范围的同时,可以并行计算相似度,减小相似度计算数据量,提高了相似文本去重计算的效率。

Description

一种大数据相似文本去重预处理方法、装置及终端设备
技术领域
本发明涉及大数据文本处理研究领域,具体涉及一种大数据相似文本去重预处理方法、装置及终端设备。
背景技术
随着互联网的普及和发展,网络中数据量与日俱增。因而,重复数据的产生也不可避免。为了减少数据冗余,提高检索效率和存储设备的利用率,对相似文本进行去重具有重大的意义。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有的文本去重的方案,大多是基于余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等,直接对大数据的海量文本进行比对,效率较低。
发明内容
为了克服现有技术的不足,本发明提供了一种大数据相似文本去重预处理方法、装置及终端设备,通过对文本集合进行预处理,划分为子集后,减小计算范围的同时,可以并行计算相似度,减小相似度计算数据量,提高了相似文本去重计算的效率。技术方案如下:
提供了一种大数据相似文本去重预处理方法,该方法包括如下步骤:
步骤1,文本总数为n,假设每个文本T长度类似,长度平均值为L,文本全集S={Ti|i∈[1,n]},对文本集合S中的每个文本T进行分词,把分词后的词语进行清洗得到词语集合W={Wi| i∈[1,m] ,n≪m },m是得到词语的总个数,根据分词建立倒排索引,若文本某一个关键词出现多次,词语集合W中只记录一次,建立倒排索引后,可以根据词语集合W中的词语快速找到包含这个词语的文本。
步骤2,统计词语集合W中的词语在文本全集S中出现的频数,设置频数阈值t,若词语集合W中的词语出现的频数在文本集合S中大于t,将这些高频词语标记为关键词,记为集合K={Ki| i∈[1,m’] ,K⊆W },m’为高频词语的个数,即关键词个数,集合K是集合W的某一子集,K是有序集合。
步骤3,根据关键词集合K中的元素,遍历倒排索引,为文本集合S中的每个文本生成关键词属性值v,即文本集合S中的任一文本都有唯一关键词属性值与之对应。
关键词属性v的生成规则:
定义一个函数, g(Ki )=2 (i-1),1≤i≤m’,
文本Ti中包含的关键词集合为:
Figure 234624DEST_PATH_IMAGE001
Ksub⊆K,A为文本Ti中的关键词个数;
所以Ti的关键词属性值:
Figure 941418DEST_PATH_IMAGE002
步骤4,根据文本集合S中文本的关键词属性v建立的B+树,对文本进行分类,使得关键词属性v相同的文本对应到B+树中的同一个叶子节点关键字。
在去重操作时,可以快速查找到特定关键词组合的所有文本,在这组文本上进行相似度计算,根据实际需要来保留和去除相似文本。
优选的,步骤1中,把分词后的词语进行清洗为:去掉标点符号、无实际意义的词、停用词处理。
优选的,步骤2中,K是有序集合指:K中关键词按字典顺序排序的有序集合。
优选的,步骤2中,阈值t为: t= μn,0<μ<1,μ为常量,表示文本中词语文字的总长占据文本总长的比例阈值。
优选的,步骤4中,B+树建立过程如下:
B+树中存在两种节点,一种是叶子节点,一种是索引节点,索引节点只存放关键字,叶子节点存放数据,根结点可以是叶子节点也可以是索引节点。
(1)遍历S中的文本,每个文本对应一个v值,将其作为关键字插入到B+树中。
(2)B+树节点插入过程如下:
假设B+树阶数为x,节点内关键字个数的范围[⌈x/2⌉,x]。
插入过程始终在叶子节点操作,并且不能破坏关键字自小到大的顺序。
1)若为空树,则生成一个叶子节点并插入关键字,当前叶子节点也是根节点,结束。
2)否则,对于叶子节点,若当前插入的叶子节点插入关键字后,关键字个数小于等于x,则结束,否则,当前叶子节点分裂成左右两个叶子节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字,将右节点第1个关键字上升到父节点,并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点。
3)对于索引节点,若当前节点指针关键字个数小于等于x,则结束,否则,分裂成左右两个索引节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字,将右节点第1个关键字上升到父节点,并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点;重复步骤3)。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过把文本全集S划分为若干子集,原先在全集上的相似度计算操作被转移到子集上,相似度计算一般是两个文本为一组进行比较,所以划分为子集后,减小范围的同时,可以并行计算相似度,提高了相似文本去重计算的效率。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。
第一方面,本公开实施例提供了一种大数据相似文本去重预处理方法,该方法包括如下步骤:
步骤1:文本总数为n,假设每个文本T长度类似,长度平均值为L,文本全集S={Ti|i∈[1,n]},对文本集合S中的每个文本T进行分词,把分词后的词语进行清洗(优选的,把分词后的词语进行清洗为:去掉标点符号、无实际意义的词、停用词处理),得到词语集合W={Wi| i∈[1,m] ,n≪m },m是得到词语的总个数,根据分词建立倒排索引,若文本某一个关键词出现多次,词语集合W中只记录一次,建立倒排索引后,可以根据词语集合W中的词语快速找到包含这个词语的文本。
步骤2:统计词语集合W中的词语在文本全集S中出现的频数,设置频数阈值t,若词语集合W中的词语出现的频数在文本集合S中大于t,将其标记为高频关键词,记为集合K={Ki| i∈[1,m’] ,K⊆W },m’为高频词语的个数,即关键词个数,集合K是集合W的某一子集,K是有序集合,优选的,K是有序集合指:K中关键词按字典顺序排序的有序集合。
优选的,阈值t为: t= μn,(0<μ<1) ,μ为常量,表示文本中词语文字的总长占据文本总长的比例阈值。
若t值太小,可能存在两个文本A、B,使得文本A、B的Jaccard相似度 J(A,B)=|A∩B|/|A∪B|过小,即文本A、B只包含少量公共文本,此时我们计算两个文本的相似度可能没有意义。
步骤3根据关键词集合K中的元素,遍历倒排索引,为文本集合S中的每个文本生成关键词属性值v,即文本集合S中的任一文本都有唯一关键词属性值与之对应。
关键词属性v的生成规则:
定义一个函数, g(Ki )=2 (i-1),1≤i≤m’,g(Ki)根据关键词Ki在原集合K中的顺序得到一个数值,转化成二进制数时表示从右往左第i位数为1,其余位为0。
文本Ti中包含的关键词集合为:
Figure 818107DEST_PATH_IMAGE001
Ksub⊆K,A为文本Ti中的关键词个数;
所以Ti的关键词属性值:
Figure 453619DEST_PATH_IMAGE002
f(Ti)根据Ti的所有关键词对应的g数值求和,转化成二进制数表示所有关键词的二进制数进行或运算得到的最终结果,使得具有相同关键词的文本具有相同的v值。
步骤4,根据文本集合S中文本的关键词属性v建立的B+树,对文本进行分类,使得关键词属性v相同的文本对应到B+树中的同一个叶子节点关键字。在去重操作时,可以快速查找到特定关键词组合(即v值相同)的所有文本,在这组文本上进行相似度计算(如:计算Jaccard相似度和cosine相似度),根据实际需要来保留和去除相似文本。
B+树中存在两种节点,一种是叶子节点,一种是索引节点,索引节点只存放关键字,叶子节点存放数据,根结点可以是叶子节点也可以是索引节点。
优选的,此B+树建立过程如下:
(1)遍历S中的文本,每个文本对应一个v值,将其作为关键字插入到B+树中。
(2)B+树节点插入过程如下:
假设B+树阶数为x,节点内关键字个数的范围[⌈x/2⌉,x],
插入过程始终在叶子节点操作,并且不能破坏关键字自小到大的顺序。
1)若为空树,则生成一个叶子节点并插入关键字,当前叶子节点也是根节点,结束。
2)否则,对于叶子节点,若当前插入的叶子节点插入关键字后,关键字个数小于等于x,则结束。否则,当前叶子节点分裂成左右两个叶子节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字。将右节点第1个关键字上升到父节点(即索引节点,若索引节点不存在,则创建一个索引节点),并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点。
3)对于索引节点,若当前节点指针关键字个数小于等于x,则结束。否则,分裂成左右两个索引节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字。将右节点第1个关键字上升到父节点(即索引节点,若索引节点不存在,则创建一个索引节点),并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点;重复步骤3)。
利用B+树中所有叶子节点相互连接的特点,可以快速查找和遍历叶子节点中的元素。B+树的叶子节点可以包含多个元素,每个元素对应一个或多个文本,即B+树的所有叶子节点中的每个元素对应一个文本集合,这些文本集合就是预处理操作得到的结果。
第二方面,本公开实施例提供了一种大数据相似文本去重预处理装置,基于相同的技术构思,该装置可以实现或执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法;该装置包括分词模块、筛选关键词模块、计算模块、分类模块。
所述分词模块,用于执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法的步骤1的步骤。
所述筛选关键词模块,用于执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法的步骤2的步骤。
所述计算模块,用于执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法的步骤3的步骤。
所述分类模块,用于执行所有可能的实现方式中任一项所述的一种大数据相似文本去重预处理方法的步骤4的步骤。
需要说明的是,上述实施例提供的一种大数据相似文本去重预处理装置在执行一种大数据相似文本去重预处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外上述实施例提供的一种大数据相似文本去重预处理装置与一种大数据相似文本去重预处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
第三方面,本公开实施例提供了一种终端设备,该终端设备包括所有可能的实现方式中任一项所述一种大数据相似文本去重预处理装置。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (7)

1.一种大数据相似文本去重预处理方法,其特征在于,该方法包括如下步骤:
步骤1,文本总数为n,假设每个文本T长度类似,长度平均值为L,文本全集S={Ti| i∈[1,n]},对文本集合S中的每个文本T进行分词,把分词后的词语进行清洗得到词语集合W={Wi| i∈[1,m] ,n≪m },m是得到词语的总个数,根据分词建立倒排索引,若文本某一个关键词出现多次,词语集合W中只记录一次,建立倒排索引后,可以根据词语集合W中的词语快速找到包含这个词语的文本;
步骤2,统计词语集合W中的词语在文本全集S中出现的频数,设置频数阈值t,若词语集合W中的词语出现的频数在文本集合S中大于t,将这些高频词语标记为关键词,记为集合K={Ki| i∈[1,m’] ,K⊆W },m’为高频词语的个数,即关键词个数,集合K是集合W的某一子集,K是有序集合;
步骤3,根据关键词集合K中的元素,遍历倒排索引,为文本集合S中的每个文本生成关键词属性值v,即文本集合S中的任一文本都有唯一关键词属性值与之对应;
关键词属性v的生成规则:
定义一个函数, g(Ki )=2 (i-1),1≤i≤m’,
文本Ti中包含的关键词集合为:
Figure 185085DEST_PATH_IMAGE001
Ksub⊆K,A为文本Ti中的关键词个数;
所以Ti的关键词属性值:
Figure 102226DEST_PATH_IMAGE002
步骤4,根据文本集合S中文本的关键词属性v建立的B+树,对文本进行分类,使得关键词属性v相同的文本对应到B+树中的同一个叶子节点关键字;
在去重操作时,可以快速查找到特定关键词组合的所有文本,在这组文本上进行相似度计算,根据实际需要来保留和去除相似文本。
2.根据权利要求1所述的一种大数据相似文本去重预处理方法,其特征在于,步骤1中,把分词后的词语进行清洗为:去掉标点符号、无实际意义的词、停用词处理。
3.根据权利要求1所述的一种大数据相似文本去重预处理方法,其特征在于,步骤2中,K是有序集合指:K中关键词按字典顺序排序的有序集合。
4.根据权利要求1所述的一种大数据相似文本去重预处理方法,其特征在于,步骤2中,阈值t为: t= μn,0<μ<1,μ为常量,表示文本中词语文字的总长占据文本总长的比例阈值。
5.根据权利要求1-4任一项所述的一种大数据相似文本去重预处理方法,其特征在于,步骤4中,B+树建立过程如下:
B+树中存在两种节点,一种是叶子节点,一种是索引节点,索引节点只存放关键字,叶子节点存放数据,根结点可以是叶子节点也可以是索引节点;
(1)遍历S中的文本,每个文本对应一个v值,将其作为关键字插入到B+树中;
(2)B+树节点插入过程如下:
假设B+树阶数为x,节点内关键字个数的范围[⌈x/2⌉,x],
插入过程始终在叶子节点操作,并且不能破坏关键字自小到大的顺序;
1)若为空树,则生成一个叶子节点并插入关键字,当前叶子节点也是根节点,结束;
2)否则,对于叶子节点,若当前插入的叶子节点插入关键字后,关键字个数小于等于x,则结束,否则,当前叶子节点分裂成左右两个叶子节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字,将右节点第1个关键字上升到父节点,并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点;
3)对于索引节点,若当前节点指针关键字个数小于等于x,则结束,否则,分裂成左右两个索引节点,左节点包含前x/2个关键字,右节点包含后x/2+1个关键字,将右节点第1个关键字上升到父节点,并将该关键字左孩子指针指向左节点,右孩子指针指向右节点,当前节点指针指向该关键字所在节点;重复步骤3)。
6.一种大数据相似文本去重预处理装置,其特征在于,该装置可以实现权利要求1-5任一项所述的一种大数据相似文本去重预处理方法。
7.一种终端设备,其特征在于,该终端设备包括权利要求6所述一种大数据相似文本去重预处理装置。
CN202110468449.0A 2021-04-29 2021-04-29 一种大数据相似文本去重预处理方法、装置及终端设备 Active CN112883704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110468449.0A CN112883704B (zh) 2021-04-29 2021-04-29 一种大数据相似文本去重预处理方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110468449.0A CN112883704B (zh) 2021-04-29 2021-04-29 一种大数据相似文本去重预处理方法、装置及终端设备

Publications (2)

Publication Number Publication Date
CN112883704A true CN112883704A (zh) 2021-06-01
CN112883704B CN112883704B (zh) 2021-07-16

Family

ID=76040159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110468449.0A Active CN112883704B (zh) 2021-04-29 2021-04-29 一种大数据相似文本去重预处理方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN112883704B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056456A (zh) * 2023-07-12 2023-11-14 国网江苏省电力有限公司淮安供电分公司 一种基于CsiBert模型的高效文本搜索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
US8280893B1 (en) * 2005-03-23 2012-10-02 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN110472244A (zh) * 2019-08-14 2019-11-19 山东大学 一种基于Tree-LSTM和情感信息的短文本情感分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280893B1 (en) * 2005-03-23 2012-10-02 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
CN103207905A (zh) * 2013-03-28 2013-07-17 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN110472244A (zh) * 2019-08-14 2019-11-19 山东大学 一种基于Tree-LSTM和情感信息的短文本情感分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056456A (zh) * 2023-07-12 2023-11-14 国网江苏省电力有限公司淮安供电分公司 一种基于CsiBert模型的高效文本搜索方法

Also Published As

Publication number Publication date
CN112883704B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
US8255397B2 (en) Method and apparatus for document clustering and document sketching
CN104199965B (zh) 一种语义信息检索方法
CN111325245B (zh) 重复图像识别方法、装置、电子设备及计算机可读存储介质
Jatana et al. Bayesian spam classification: Time efficient radix encoded fragmented database approach
CN110888981B (zh) 基于标题的文档聚类方法、装置、终端设备及介质
CN112328735A (zh) 热点话题确定方法、装置及终端设备
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN112883704B (zh) 一种大数据相似文本去重预处理方法、装置及终端设备
CN112527948A (zh) 基于句子级索引的数据实时去重方法及系统
CN110825919B (zh) Id数据处理方法和装置
CN114943285B (zh) 互联网新闻内容数据智能审核系统
CN112784040B (zh) 基于语料库的垂直行业文本分类方法
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质
CN111460088A (zh) 相似文本的检索方法、装置和系统
Packiam et al. A Novel Integrated Framework Based on Modular Optimization for Efficient Analytics on Twitter Big Data
CN104615605B (zh) 用于预测数据对象的类目的方法和装置
CN112883703A (zh) 一种识别关联文本的方法、装置、电子设备及存储介质
CN113268986A (zh) 一种基于模糊匹配算法的单位名称匹配、查找方法及装置
CN110765236A (zh) 一种非结构化海量数据的预处理方法及系统
CN111538839A (zh) 一种基于杰卡德距离的实时文本聚类方法
CN111400624A (zh) 一种多功能排序系统
Khozani et al. Specialization of keyword extraction approach to persian texts
CN116166799A (zh) 一种基于情节记忆的短文本流聚类方法
CN113641783A (zh) 基于关键语句的内容块检索方法、装置、设备和介质
Xue et al. Naive Bayesian Classifier Based Semi-supervised Learning for Matching Ontologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant