CN108829660A - 一种基于随机数分治递归的短文本签名生成方法 - Google Patents

一种基于随机数分治递归的短文本签名生成方法 Download PDF

Info

Publication number
CN108829660A
CN108829660A CN201810437383.7A CN201810437383A CN108829660A CN 108829660 A CN108829660 A CN 108829660A CN 201810437383 A CN201810437383 A CN 201810437383A CN 108829660 A CN108829660 A CN 108829660A
Authority
CN
China
Prior art keywords
group
signature
word
recurrence
random number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810437383.7A
Other languages
English (en)
Other versions
CN108829660B (zh
Inventor
佘堃
廖贞林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810437383.7A priority Critical patent/CN108829660B/zh
Publication of CN108829660A publication Critical patent/CN108829660A/zh
Application granted granted Critical
Publication of CN108829660B publication Critical patent/CN108829660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明的提供一种基于随机数分治递归的短文本签名生成方法,属于信息技术领域中的文章签名方法领域,包括如下步骤:提出所有的无效词语得到有效词语;打乱所有有效词语的顺序生成乱序的词语表,将此词语表作为递归组;生成一个随机数,随机数的范围为0到2B,再用二进制数表示随机数,如果二进制数的位数小于B,则二进制数高位统一用0填补;如果“1”组词语数量等于剩余签名数,则停止递归;根据剩余签名的数量,如果递归停止条件不满足,选择0组和1组中的其中一组作为递归组进行递归,直到递归条件满足;最后输出签名组里的所有词语作为就是输入文章的签名。本发明解决现有的文章签名生成方法速度慢、步骤复杂的问题。

Description

一种基于随机数分治递归的短文本签名生成方法
技术领域
本发明属于信息技术领域中的文章签名方法领域,具体为一种基于随机数分治递归的短文本签名生成方法。
背景技术
当今社会,信息技术的快速发展在给人们提供便利的同时也带来了诸多挑战。在生活中,处处存在着抄袭的现象,网络文章的抄袭更是防不胜防,对此我们需要更多的算法来解决现在网络上存在的文章抄袭问题。该方法旨在发明一种新型的文章签名方法用于文本抄袭检测中。现有的文章签名方法于minhash是每次提前一个排最前面的特征,一次只能产生一个签名,并且minhash每生成一个签名需要一个函数,况且函数不能重复,且函数要事先设计,因此,这大大降低了文章签名的生成方法。
发明内容
本发明的目的在于:为解决现有的文章签名生成方法速度慢、步骤复杂的问题,本发明提供一种基于随机数分治递归的短文本签名生成方法。
本发明的技术方案如下:
一种基于随机数分治递归的短文本签名生成方法,包括如下步骤:
步骤1:输入文章需要的签名大小;
步骤2:对文章进行分词处理,再提出所有的无效词语得到有效词语;
步骤3:打乱所有有效词语的顺序生成乱序的词语表,将此词语表作为递归组,词语表数量记为N,初始化位数为B=N;
步骤4:根据位数B,生成一个随机数,随机数的范围为0到2B,再用二进制数表示随机数,如果二进制数的位数小于B,则二进制数高位统一用0填补;
步骤5:将递归组的词语按顺序与二进制数对应,将对应的是二进制数1的词语放入“1”组,否则放入“0”组。
步骤6:如果“1”组词语数量不等于剩余签名数,其中,剩余签名数=签名大小-签名组内词语数,则选择“1”组或者“1”组中的其中一组作为递归组进行递归;然后进入步骤7;
如果“1”组词语数量等于剩余签名数,则停止递归,进入步骤8;
步骤7:重新设定位数B为步骤7得到的递归组的的词语数,然后重复步骤4-6,直到“1”组词语数量等于剩余签名数,则停止递归,进入步骤8;
步骤8:输出签名组里的所有词语作为就是输入文章的签名。
具体地,所述步骤5的具体步骤为:
步骤5.1:对递归组的词语进行从0-N进行编号,编号从0开始,依次加1;
步骤5.2:将编号与二进制数进行对应,如果编号对应的是二进制数中的1,则将该编号所代表的词语放进“1”组;如果编号对应的是二进制数中的0,则将该编号所代表的词语放进“0”组。
具体地,所述步骤6中选择递归组的具体规则为:
如果“1”组词语数量小于剩余签名数,其中,剩余签名数=签名大小-签名组内词语数,则将所有“1”组数据放入签名组,并且将0组作为递归组;
如果“1”组词语数量大于剩余签名数,则将所有“1”组词语在放入递归组。
采用上述方案后,本发明有益效果如下:
(1)本发明的方法通过产生一个随机数将词语表分成两部分,直接把随机数变成二进制数表示1表示签名,0表示非签名,进行分治处理,又通过递归准则,对相应的部分进行递归处理,然后不断重复直到取得要求数量的签名。随机数用二进制表现出来,出现0和1出现概率相差不大,一下子可以出现非常多签名然后可以按需要的签名数量通过分治递归的处理获得文章的签名组,以便输出文章的签名,就不需要像minhash一样一次只能产生一个签名,大大提高了提取的速度。
(2)本发明中随机数生成也比较简单,不需要像minhash方法一样每一个签名需要一个函数,更加无需事先设计不能重复的函数,提高了便捷性和实用性,将本发明用于快速比较文本的相似度方面效果更佳。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
图1为本发明的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明具体技术涉及有利用随机数生成函数生成一个随机数,分词的技术,二者均为现有技术,下面,将简要描述这两个技术的过程。
随机数的生成:
随机数的生成采用线性同余随机数生成方法。该方法代表了最好最朴素的伪随机数产生器算法,并且容易理解,容易实现,而且速度快。线性同余随机数生成算法数学上基于公式:
X(n+1)=(a*X(n)+c)%m
其中,各系数为:
模m,m>0
系数a,0<a<m
增量c,0<=c<m
原始值(种子)0<=X(0)<m
其中本方法中m=2^32,a=22695477,c=1;
当我们产生随机数之后,将随机数规范到指定范围,并且将随机数表示成二进制方式。
分词方法:
分词的方法采用了中科院的分词系统,当我们将一篇短文本进行分词之后,我们可以得到词语和词语对应的识别信息。根据识别信息,我们会去除一些无效的语义词,比如“的”,“你”等。
本发明的一种基于随机数分治递归的短文本签名生成方法,包括如下步骤:
步骤1:输入文章需要的签名大小;
步骤2:对文章进行分词处理,再提出所有的无效词语得到有效词语;
步骤3:打乱所有有效词语的顺序生成乱序的词语表,将此词语表作为递归组,词语表数量记为N,初始化位数为B=N;
步骤4:根据位数B,生成一个随机数,随机数的范围为0到2B,此处的范围包含了边缘值;再用二进制数表示随机数,如果二进制数的位数小于B,则二进制数高位统一用0填补;
步骤5:将递归组的词语按顺序与二进制数对应,由于位数相同,所以对应的具体方式按照从高到低或者从低到高均可,将对应的是二进制数1的词语放入“1”组,否则放入“0”组;所述步骤5的具体步骤为:
步骤5.1:对递归组的词语进行从0-N进行编号,编号从0开始,依次加1;
步骤5.2:将编号与二进制数进行对应,如果编号对应的是二进制数中的1,则将该编号所代表的词语放进“1”组;如果编号对应的是二进制数中的0,则将该编号所代表的词语放进“0”组。
步骤6:如果“1”组词语数量不等于剩余签名数,其中,剩余签名数=签名大小-签名组内词语数,则选择“1”组或者“1”组中的其中一组作为递归组进行递归;如果“1”组词语数量小于剩余签名数,其中,剩余签名数=签名大小-签名组内词语数,则将所有“1”组数据放入签名组,并且将0组作为递归组;然后进入步骤7;
如果“1”组词语数量大于剩余签名数,则将所有“1”组词语在放入递归组;然后进入步骤7;
如果“1”组词语数量等于剩余签名数,则停止递归,进入步骤8;
步骤7:重新设定位数B为步骤7得到的递归组的的词语数,然后重复步骤4-6,直到“1”组词语数量等于剩余签名数,则停止递归,进入步骤8;
步骤8:输出签名组里的所有词语作为就是输入文章的签名。
本发明中所称的短文本为500个字左右的文本,由于对象是短文本,即使是文章有一些随机的因素,也不会对精确度有太大的影响,在对比两篇文章的相似度方面,本发明具有重大意义。

Claims (3)

1.一种基于随机数分治递归的短文本签名生成方法,其特征在于,包括如下步骤:
步骤1:输入文章需要的签名大小;
步骤2:对文章进行分词处理,再提出所有的无效词语得到有效词语;
步骤3:打乱所有有效词语的顺序生成乱序的词语表,将此词语表作为递归组,词语表数量记为N,初始化位数为B=N;
步骤4:根据位数B,生成一个随机数,随机数的范围为0到2B,再用二进制数表示随机数,如果二进制数的位数小于B,则二进制数高位统一用0填补;
步骤5:将递归组的词语按顺序与二进制数对应,将对应的是二进制数1的词语放入“1”组,否则放入“0”组;
步骤6:如果“1”组词语数量不等于剩余签名数,其中,剩余签名数=签名大小-签名组内词语数,则选择“1”组或者“1”组中的其中一组作为递归组进行递归;然后进入步骤7;
如果“1”组词语数量等于剩余签名数,则停止递归,进入步骤8;
步骤7:重新设定位数B为步骤7得到的递归组的的词语数,然后重复步骤4-6,直到“1”组词语数量等于剩余签名数,则停止递归,进入步骤8;
步骤8:输出签名组里的所有词语作为就是输入文章的签名。
2.根据权利要求1所述的一种基于随机数分治递归的短文本签名生成方法,其特征在于,所述步骤5的具体步骤为:
步骤5.1:对递归组的词语进行从0-N进行编号,编号从0开始,依次加1;
步骤5.2:将编号与二进制数进行对应,如果编号对应的是二进制数中的1,则将该编号所代表的词语放进“1”组;如果编号对应的是二进制数中的0,则将该编号所代表的词语放进“0”组。
3.根据权利要求1所述的一种基于随机数分治递归的短文本签名生成方法,其特征在于,所述步骤6中选择递归组的具体规则为:
如果“1”组词语数量小于剩余签名数,其中,剩余签名数=签名大小-签名组内词语数,则将所有“1”组数据放入签名组,并且将“0”组作为递归组;
如果“1”组词语数量大于剩余签名数,则将所有“1”组词语在放入递归组。
CN201810437383.7A 2018-05-09 2018-05-09 一种基于随机数分治递归的短文本签名生成方法 Active CN108829660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810437383.7A CN108829660B (zh) 2018-05-09 2018-05-09 一种基于随机数分治递归的短文本签名生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810437383.7A CN108829660B (zh) 2018-05-09 2018-05-09 一种基于随机数分治递归的短文本签名生成方法

Publications (2)

Publication Number Publication Date
CN108829660A true CN108829660A (zh) 2018-11-16
CN108829660B CN108829660B (zh) 2021-08-31

Family

ID=64148628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810437383.7A Active CN108829660B (zh) 2018-05-09 2018-05-09 一种基于随机数分治递归的短文本签名生成方法

Country Status (1)

Country Link
CN (1) CN108829660B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751165A (zh) * 2019-08-06 2020-02-04 汕头大学 一种乱序文字的自动组词方法
CN113160373A (zh) * 2021-05-11 2021-07-23 电子科技大学 一种基于VRay引擎的云渲染方法及其系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997018525A1 (en) * 1995-11-15 1997-05-22 Cognitronics Imaging Systems, Inc. Enhanced batched character image processing
CN101453331A (zh) * 2002-04-15 2009-06-10 株式会社Ntt都科摩 利用双线性映射的签名方案
US8028039B1 (en) * 2005-12-23 2011-09-27 Reflexis Systems, Inc. System and method for communicating data between wireless mobile hand-held computer and a back-end computer system
CN102682104A (zh) * 2012-05-04 2012-09-19 中南大学 一种查找相似文本的方法及连接位相似性度量算法
CN103441924A (zh) * 2013-09-03 2013-12-11 盈世信息科技(北京)有限公司 一种基于短文本的垃圾邮件过滤方法及装置
CN103780391A (zh) * 2013-12-10 2014-05-07 北京数字认证股份有限公司 一种基于签名内容的手写电子签名数据保护方法
CN104636325A (zh) * 2015-02-06 2015-05-20 中南大学 一种基于极大似然估计确定文档相似度的方法
CN104715168A (zh) * 2015-02-13 2015-06-17 陈佳阳 一种基于数字指纹的文件安全管控和溯源的方法及系统
CN105162760A (zh) * 2015-07-28 2015-12-16 郝孟一 随机抽取方法、装置以及系统
CN105376050A (zh) * 2015-12-24 2016-03-02 鲁东大学 数字证书签名方法及其签名方案
CN105653984A (zh) * 2015-12-25 2016-06-08 北京奇虎科技有限公司 文件指纹校验方法及装置
CN106407750A (zh) * 2015-08-03 2017-02-15 天脉聚源(北京)科技有限公司 一种随机生成课程编号的方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997018525A1 (en) * 1995-11-15 1997-05-22 Cognitronics Imaging Systems, Inc. Enhanced batched character image processing
CN101453331A (zh) * 2002-04-15 2009-06-10 株式会社Ntt都科摩 利用双线性映射的签名方案
US8028039B1 (en) * 2005-12-23 2011-09-27 Reflexis Systems, Inc. System and method for communicating data between wireless mobile hand-held computer and a back-end computer system
CN102682104A (zh) * 2012-05-04 2012-09-19 中南大学 一种查找相似文本的方法及连接位相似性度量算法
CN103441924A (zh) * 2013-09-03 2013-12-11 盈世信息科技(北京)有限公司 一种基于短文本的垃圾邮件过滤方法及装置
CN103780391A (zh) * 2013-12-10 2014-05-07 北京数字认证股份有限公司 一种基于签名内容的手写电子签名数据保护方法
CN104636325A (zh) * 2015-02-06 2015-05-20 中南大学 一种基于极大似然估计确定文档相似度的方法
CN104715168A (zh) * 2015-02-13 2015-06-17 陈佳阳 一种基于数字指纹的文件安全管控和溯源的方法及系统
CN105162760A (zh) * 2015-07-28 2015-12-16 郝孟一 随机抽取方法、装置以及系统
CN106407750A (zh) * 2015-08-03 2017-02-15 天脉聚源(北京)科技有限公司 一种随机生成课程编号的方法和系统
CN105376050A (zh) * 2015-12-24 2016-03-02 鲁东大学 数字证书签名方法及其签名方案
CN105653984A (zh) * 2015-12-25 2016-06-08 北京奇虎科技有限公司 文件指纹校验方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘兆丽等: "数字签名研究的现状与发展", 《电脑知识与技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751165A (zh) * 2019-08-06 2020-02-04 汕头大学 一种乱序文字的自动组词方法
CN110751165B (zh) * 2019-08-06 2023-01-24 汕头大学 一种乱序文字的自动组词方法
CN113160373A (zh) * 2021-05-11 2021-07-23 电子科技大学 一种基于VRay引擎的云渲染方法及其系统

Also Published As

Publication number Publication date
CN108829660B (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN104866478B (zh) 恶意文本的检测识别方法及装置
CN105912514B (zh) 基于指纹特征的文本复制检测系统及方法
CN104978354B (zh) 文本分类方法和装置
CN106815208A (zh) 法律裁判文书的解析方法及装置
CN108829660A (zh) 一种基于随机数分治递归的短文本签名生成方法
KR102345498B1 (ko) 라인 분할 방법
CN106951415A (zh) 一种商户名称搜索方法和装置
CN112052331A (zh) 一种处理文本信息的方法及终端
CN106469144A (zh) 文本相似度计算方法及装置
WO2012169128A1 (ja) 表記ゆれ検出装置及び表記ゆれ検出プログラム
CN103886077A (zh) 短文本的聚类方法和系统
CN111651986A (zh) 事件关键词提取方法、装置、设备及介质
CN107861949A (zh) 文本关键词的提取方法、装置及电子设备
US20210224323A1 (en) Learning system, learning method, and program
CN104881503A (zh) 一种数据处理方法和装置
CN110020430B (zh) 一种恶意信息识别方法、装置、设备及存储介质
CN104346411B (zh) 对多个稿件进行聚类的方法和设备
CN112948895A (zh) 数据的水印嵌入方法、水印溯源方法及装置
CN108932434B (zh) 一种基于机器学习技术的数据加密方法及装置
CN110990539B (zh) 稿件内部查重方法、装置及电子设备
Soori et al. Text similarity based on data compression in Arabic
CN111723206B (zh) 文本分类方法、装置、计算机设备和存储介质
CN106257449A (zh) 一种信息确定方法和装置
CN109710896B (zh) 文字属性差异标记方法,装置,存储介质及电子设备
JP6011856B2 (ja) 文書間関係推定モデル学習装置、文書間関係推定装置、方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant