CN110598190B - 一种基于区块链的链上文本数据确权方法 - Google Patents
一种基于区块链的链上文本数据确权方法 Download PDFInfo
- Publication number
- CN110598190B CN110598190B CN201910843869.5A CN201910843869A CN110598190B CN 110598190 B CN110598190 B CN 110598190B CN 201910843869 A CN201910843869 A CN 201910843869A CN 110598190 B CN110598190 B CN 110598190B
- Authority
- CN
- China
- Prior art keywords
- node
- data structure
- text
- sequence
- ordered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 239000012634 fragment Substances 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 238000003860 storage Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000004519 manufacturing process Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 8
- 238000012856 packing Methods 0.000 claims description 6
- 238000012552 review Methods 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims 1
- 238000012986 modification Methods 0.000 abstract description 3
- 230000004048 modification Effects 0.000 abstract description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于区块链的链上文本数据确权方法,包括建立字符型变量树型索引数据结构,即char TREE数据结构,文本片段抽样和文本片段查询;本发明在传统区块链上增加一种新颖的字符型变量树型索引数据结构,即char TREE数据结构,以尽可能小的存储空间为链上的文本内容建立索引,在索引基础上,实现文本片段的模糊匹配,进一步地对上链的文本内容进行确权,确保能够快速检测出微小修改的抄袭文本。
Description
技术领域
本发明涉及文本数据确权方法领域,为一种区块链的链上文本数据确权方法。
背景技术
目前基于区块链的内容分发平台尽管在一定程度上能够提高平台内容的质量,保障内容的不可篡改性和永不消除性。但是,如果保障链上数据的版权唯一性目前没有一个较好的解决方案。现有技术的缺点包括:1、文本指纹匹配方法仅能够检测“完全拷贝文本”,对相似性为100%的文本版权检测性能较好,但是,哪怕修改文本中的一个字符,文本指纹将会不一样,使得此类方法对文本确权效果欠佳。2、文本相似性计算方法能够比对文本之间的相似性,但是,对每篇新发布文档,需要跟历史库中的所有文档相似比对,文本版权检测效率低下。3、索引检索方法仅能够支持“词-文档”的检索,且索引库为中心化存储,不适应于区块链去中心化的应用理念。
发明内容
有鉴于此,本发明提供一种解决或部分解决上述问题的一种基于区块链的链上文本数据确权方法,其特征在于,包括如下步骤:
步骤1:计算机调用内容生产区块链应用时,先下载字符型变量树型索引数据结构的索引块数据;
字符型变量树型索引数据结构的建立,包括如下动作流程如下::
动作1-1、首先需要对汉语字符建立索引规则,压缩索引结构的存储空间;
动作1-2、将文本内容分片化:对于一篇长文本内容,利用段落结束标点符号作为其字符型变量树型索引数据结构的建立,包括如下步骤:
动作1-3、利用字符串s表示长文本的内容,利用标点符号作为分割点,将长文本的内容分片化为i个子字符串s1,s2,……,si,i为正整数;
动作1-4、建立一个自然字典序(a1,a2,……,ak),a1,a2,……,ak为存储字节,即为不同的词语,k为正整数;
自然字典序中的词语保持有序性的特点,即存在顺序a1<a2<……<ak,使得在顺序下,一个词语一定出现在另外一个词语前面;
动作1-5、文本内容的序列化:根据自然字典序将已分好词且去掉标点符号的长文本的内容进行序列化操作,将非结构化的长文本的内容转换为有序的数据结构;
对于任何一个子字符串sj,j∈(0,i)分词后可以形成子字符串序列(b1,b2,…,bj), b1,b2,……,bj为子字符串,随后利用自然字典序的有效性特点,将子字符串序列 (b1,b2,…,bj)调整为一个有序的子字符串序列(c1,c2,…,cj),c1,c2,……,cj为子字符串,使得存在如下有序特性:c1<c2<……<cj,j为正整数;
动作1-6、将长文本的内容中的已经分片化和序列化的文本、分割成多个序列化句子,形成文本内容的字符型变量树型索引数据结构:对于每个序列化句子,在自然字典序中插入序列化句子的首个词语,随后将序列化句子插入到自然字典序中,形成一个树状索引结构;对于每个长文本中的多个序列化句子,再维护一个倒排索引结构,指向自然字典序中每个序列化句子的首个词语;
动作1-7、当有序子字符串(c1,c2,…,cj)到达后,先查看根节点的子节点是否包含c1节点,如果包括c1节点,则再查看c1节点的子节点是否包含c2节点,以此类推;
动作1-8、如果最终发现了cj节点,则返回一条相似路径<c1,c2,……,cj>;
动作1-9、否则,若当前节点没有发现有序子字符串(c1,c2,……,cj)中的元素,则需要将节点及后续的节点连成一个路径插入到节点下方,大量的有序子字符串插入到索引结构中,构造一个字符型变量树型索引数据结构;
步骤2、计算机使用者通过内容生产区块链应用内容生产者端,利用字符型变量树型索引数据结构来验证自己撰写博文文本内容的版权相似性;版权相似性验证动作流程如下:
动作2-1、对于计算机使用者撰写的一篇新文档,将新文档分片操作,形成多个子片段文档,从子片段文档中随机抽样m个子片段,将m个子片段的内容进行序列化操作形成有序的子字符串序列;
动作2-2、对于m个有序的子字符串序列中的每个序列,在字符型变量树型索引数据结构中查询是否存在这个每个序列:对于新来的一个序列化句子,将从字符型变量树型索引数据结构中的根节点开始查找序列化句子的第一个词语,如果查找到第一个词语,再从当前节点的子节点中查找第二个词语,以此类推,如果在字符型变量树型索引数据结构中找到一条完整的路径,则说明在历史文档片段中,存在一个与新来序列化句子相似文档;
动作2-3、对于一篇有序子字符串(q1,q2,…,qj),q1,q2,…,qj为子字符串,根据顺序从根节点的子节点开始从顶向下查询;
动作2-4、如存在一篇有序子字符串(q,e,h),其中q,e,h为子字符串,在根节点的子节点中迅速查找到q节点;
动作2-5、在q节点的子节点中迅速查找到e节点,随后在e节点的子节点中迅速查找到h节点,则说明查找了一条路径q,e,h完全匹配有序子字符串(q,e,h),进一步说明历史文档中已存在与有序子字符串(q,e,h)完全相同的文档,子字符串的文本确权相似性为100%;
动作2-6、有序子字符串序列的顺序为字母自然序,排在前面的字符在字母自然序中也必定位于更上方的位置;
动作2-7、通过动作2-2的m次子序列查询,计算相似的序列个数,记为n个,设文本确权相似阈值为O,若n/m大于或等于O,则推断文本确权失败,不允许发布到区块链中;否则,若n/m小于0,则转到动作2-8;
动作2-8、将(m-n)个不相似的有序子字符串序列插入到字符型变量树型索引数据结构的索引块中;
动作2-9、区块链网络中第一个有打包权限的计算机节点将交易打包,更新字符型变量树型索引数据结构的索引块,形成新的区块和字符型变量树型索引数据结构的索引块的索引块;
动作2-10、有打包权限的计算机节点将新的区块和字符型变量树型索引数据结构广播到区块链网络中,其他内容生产区块链应用内容生产者端更新区块和字符型变量树型索引数据结构;
动作2-11、版权相似性验证通过后,将区块链应用内容生产者端生成新撰写的博文的文本内容进行分片序列化后,再最后插入到字符型变量树型索引数据结构中。
附图说明
图1为树状索引字符型变量树数据结构示例图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例:S1、内容生产者在使用内容生产区块链应用时,新颖的字符型变量树型索引数据结构,即charTREE数据结构,先下索引块的数据;
charTREE数据结构的建立,包括如下步骤:
S11、首先需要对汉语字符建立索引规则,压缩索引结构的存储空间;
S12、文本内容分片化:对于一篇长文本内容,利用段落结束标点符号作为其分割点,将其分片化,使文本内容的微小修改仍能够被快速检测出来;
利用字符串s表示长文本内容,利用标点符号作为分割点,将长文本内容分片化为i个子字符串s1,s2,……,si,i为正整数;
S13、建立一个自然字典序(a1,a2,……,ak),k为正整数;
字典序中的词语保持有序性的特点,即存在顺序a1<a2<……<ak,使得某个词语一定出现在另外一个词语前面;
S14、文本内容的序列化:根据词语字典序将已分好词且去掉标点符号的文本进行序列化操作,将非结构化的文本内容转换为有序的数据结构;
对于任何一个子字符串sj,分词后可以形成子字符串序列(b1,b2,……,bj),随后利用字典序列的有效性特点,将子字符串序列(b1,b2,……,bj)调整为一个有序的子字符串序列(c1,c2,……,cj),使得存在如下有序特性:c1<c2<……<cj,j为正整数;
S15、将已经分片化和序列化的文本、分割成多个序列化的句子,形成文本内容的树状索引charTREE数据结构:对于每个序列化的句子,在自然字典序中插入序列化句子的首个词语,随后将序列化句子插入到自然字典序中,形成一个树状索引结构;对于每个长文本的多个序列化句子,再维护一个倒排索引结构,指向自然字典序中每个序列化句子的首个词语;
将根节点命名为root节点,当有序子字符串(c1,c2,……,cj)到达后,先查看 root节点的子节点是否包含c1节点,如果包括c1节点,则再查看c1节点的子节点是否包含c2节点,以此类推;
如果最终发现了cj节点,则返回一条相似路径<c1,c2,……,cj>;
否则,若没有发现有序子字符串(c1,c2,……,cj)中的元素,则需要将节点及后续的节点连成一个路径插入到节点下方,大量的有序子字符串插入到索引结构中,将构造一个树状索引charTREE数据结构;
实施例公开一个树状索引charTREE数据结构示例;在这个示例中,存在如下有序子字符串序列:
(a,f,g)、(a,b)、(b,d,g)、(c,f)、(c,e,f)、(c,e,h)、(d,e)以及(e,f,g);
上述的有序子字符串序列的顺序为字母自然序,排在前面的字符在字母自然序中也必定位于更前方的位置;
S2、内容生产者通过内容生产区块链应用内容生产者端,利用charTREE索引块数据来验证自己撰写博文文本内容的版权相似性;
版权相似性验证动作流程如下,其动作关系为:
S21、对于内容生产者撰写的一篇新文档,将文档分片操作,形成多个子片段文档,从子片段文档中随机抽样m个子片段,将m个子片段进行序列化操作形成有序的子字符串序列;
S22、对于m个有序的子字符串序列中的每个序列,在charTREE索引结构中查询是否存在序列:对于新来的一个序列化句子,将从树状索引charTREE数据结构中的root节点开始查找序列化句子的第一个词语,如果查找到第一个词语,再从节点的子节点中查找第二个词语,以此类推,如果在树状索引charTREE数据结构中找到一条完整的路径,则说明在历史文档片段中,存在一个与新来序列化句子相似文档;
1)对于一篇有序子字符串(c1,c2,……,cj),根据顺序从root节点的子节点开始从顶向下查询;
2)如存在一篇有序子字符串(c,e,h),在root节点的子节点中迅速查找到c 节点;
3)在c节点的子节点中迅速查找到e节点,随后在e节点的子节点中迅速查找到h节点,则说明查找了一条路径c,e,h完全匹配有序子字符串(c,e,h),进一步说明历史文档中已存在与有序子字符串(c,e,h)完全相同的文档,子字符串的文本确权相似性为100%;
上述的有序子字符串序列的顺序为字母自然序,排在前面的字符在字母自然序中也必定位于更上方的位置;
S23、通过S22的m次子序列查询,计算相似的序列个数,记为n个,设文本确权相似阈值为O,若n/m大于或等于O,则推断文本确权失败,不允许发布到区块链中;否则,若n/m小于0,则转到第S24步;
S24、将(m-n)个不相似的有序子字符串序列插入到charTREE索引结构中;
S25、区块链网络中第一个挖矿成功的矿工将交易打包,更新charTREE索引块,形成新的区块和charTREE索引块;
S26、矿工将新的区块和charTREE索引块广播到区块链网络中,其他内容生产区块链应用内容生产者端更新区块和charTREE索引块;
S3、版权相似性验证通过,将内容生产者撰写的新博文文本内容分片序列化后插入到charTREE索引块中。
实施例提出的一种基于区块链的链上文本数据确权方法原理如下:
1、文本内容分片化:利用字符串s表示一篇长文本内容,利用标点符号作为分割点,将长文本内容分片化为i个子字符串s1,s2,……,si;
2、文本内容分片化:利用字符串s表示一篇长文本内容,利用标点符号作为分割点,将长文本内容分片化为i个子字符串s1,s2,……,si;
3、文本内容序列化:对于任何一个子字符串sj,分词后可以形成子字符串序列(b1,b2,……,bj),随后利用字典序列的有效性特点,将子字符串序列(b1,b2,……,bj) 调整为一个有序的子字符串序列(c1,c2,……,cj),使得存在如下有序特性: c1<c2<……<cj;
4、文本内容树状索引charTREE数据结构:根节点命名为root节点,当一篇有序子字符串(c1,c2,……,cj)到达后,先查看root节点的儿子节点是否包含c1节点,如果包括c1节点,则再查看c1节点的儿子节点是否包含c2节点,以此类推,如果最终发现了cj节点,则返回一条相似路径<c1,c2,……,cj>,否则,在某一阶段若没有发现有序子字符串(c1,c2,……,cj)中的一个元素,比如在root节点的儿子节点中没有查找到c1节点,则需要将c1及后续的节点c2,……,cj连成一个路径c1,c2,……,cj插入到root节点下面;比如在c1节点的儿子节点中没有查找到c2节点,则需要将 c2及后续的节点c3,……,cj连成一个路径c2,c3,……,cj插入到c1节点下面,大量的有序子字符串插入到索引结构中,将构造一个树状索引charTREE数据结构。
S1、内容生产者在使用内容生产区块链应用时,首先需要下载charTREE索引块数据;
charTREE数据结构的建立,包括如下步骤:
S11、首先需要对汉语字符建立索引规则,压缩索引结构的存储空间;
S12、文本内容分片化:对于一篇长文本内容,利用段落结束标点符号作为其分割点,将其分片化,使文本内容的微小修改仍能够被快速检测出来;
利用字符串s表示长文本内容,利用标点符号作为分割点,将长文本内容分片化为i个子字符串s1,s2,……,si,i为正整数;
S13、建立一个自然字典序(a1,a2,……,ak),k为正整数;
字典序中的词语保持有序性的特点,即存在顺序a1<a2<……<ak,使得某个词语一定出现在另外一个词语前面;
S14、文本内容的序列化:根据词语字典序将已分好词且去掉标点符号的文本进行序列化操作,将非结构化的文本内容转换为有序的数据结构;
对于任何一个子字符串sj,分词后可以形成子字符串序列(b1,b2,……,bj),随后利用字典序列的有效性特点,将子字符串序列(b1,b2,……,bj)调整为一个有序的子字符串序列(c1,c2,……,cj),使得存在如下有序特性:c1<c2<……<cj,j为正整数;
S15、将已经分片化和序列化的文本、分割成多个序列化的句子,形成文本内容的树状索引charTREE数据结构:对于每个序列化的句子,在自然字典序中插入序列化句子的首个词语,随后将序列化句子插入到自然字典序中,形成一个树状索引结构;对于每个长文本的多个序列化句子,再维护一个倒排索引结构,指向自然字典序中每个序列化句子的首个词语;
将根节点命名为root节点,当有序子字符串(c1,c2,……,cj)到达后,先查看 root节点的子节点是否包含c1节点,如果包括c1节点,则再查看c1节点的子节点是否包含c2节点,以此类推;
如果最终发现了cj节点,则返回一条相似路径<c1,c2,……,cj>;
否则,若没有发现有序子字符串(c1,c2,……,cj)中的元素,则需要将节点及后续的节点连成一个路径插入到节点下方,大量的有序子字符串插入到索引结构中,将构造一个树状索引charTREE数据结构;
S2、内容生产者通过内容生产区块链应用内容生产者端,利用charTREE索引块数据来验证自己撰写博文文本内容的版权相似性;
版权相似性验证动作流程如下:
S21、对于内容生产者撰写的一篇新文档,将文档分片操作,形成多个子片段文档,从子片段文档中随机抽样m个子片段,将m个子片段进行序列化操作形成有序的子字符串序列;
S22、对于m个有序的子字符串序列中的每个序列,在charTREE索引结构中查询是否存在序列:对于新来的一个序列化句子,将从树状索引charTREE数据结构中的root节点开始查找序列化句子的第一个词语,如果查找到第一个词语,再从节点的子节点中查找第二个词语,以此类推,如果在树状索引charTREE数据结构中找到一条完整的路径,则说明在历史文档片段中,存在一个与新来序列化句子相似文档;
1)对于一篇有序子字符串(c1,c2,……,cj),根据顺序从root节点的子节点开始从顶向下查询;
2)如存在一篇有序子字符串(c,e,h),在root节点的子节点中迅速查找到c 节点;
3)在c节点的子节点中迅速查找到e节点,随后在e节点的子节点中迅速查找到h节点,则说明查找了一条路径c,e,h完全匹配有序子字符串(c,e,h),进一步说明历史文档中已存在与有序子字符串(c,e,h)完全相同的文档,子字符串的文本确权相似性为100%;
上述的有序子字符串序列的顺序为字母自然序,排在前面的字符在字母自然序中也必定位于更上方的位置;
S23、通过S22的m次子序列查询,计算相似的序列个数,记为n个,设文本确权相似阈值为O,若n/m大于或等于O,则推断文本确权失败,不允许发布到区块链中;否则,若n/m小于0,则转到第S24步;
S24、将(m-n)个不相似的有序子字符串序列插入到charTREE索引结构中;
S25、区块链网络中第一个挖矿成功的矿工将交易打包,更新charTREE索引块,形成新的区块和charTREE索引块;
S26、矿工将新的区块和charTREE索引块广播到区块链网络中,其他内容生产区块链应用内容生产者端更新区块和charTREE索引块;
S3、版权相似性验证通过,将内容生产者撰写的新博文文本内容分片序列化后插入到charTREE索引块中;
S4、所述内容生产区块链应用的所述内容生产者拿出少量token作为押金打入到自己的地址中,形成一笔交易,将所述charTREE索引块连同交易一起广播到区块链网络中。
本发明的有益效果为:建立了去中心化的句子级别的charTREE数据结构;建立了文本片段抽样规则,提高文本版权比对效果;建立了charTREE数据结构快速查询方法,实现文本版权去中心化地快速检测。
Claims (1)
1.一种基于区块链的链上文本数据确权方法,其特征在于,包括如下步骤:
步骤1:计算机调用内容生产区块链应用时,先下载字符型变量树型索引数据结构的索引块的数据;
所述字符型变量树型索引数据结构的建立,包括如下动作流程如下:
动作1-1、首先需要对汉语字符建立索引规则,压缩索引结构的存储空间;
动作1-2、将文本内容分片化:对于一篇长文本内容,利用段落结束标点符号作为其所述字符型变量树型索引数据结构的建立,包括如下步骤:
动作1-3、利用字符串s表示所述长文本的内容,利用标点符号作为分割点,将所述长文本的内容分片化为i个子字符串s1,s2,……,si,i为正整数;
动作1-4、建立一个自然字典序(a1,a2,……,ak),a1,a2,……,ak为存储字节,即为不同的词语,k为正整数;
所述自然字典序中的词语保持有序性的特点,即存在顺序a1<a2<……<ak,使得在顺序下,一个词语一定出现在另外一个词语前面;
动作1-5、文本内容的序列化:根据所述自然字典序将已分好词且去掉标点符号的所述长文本的内容进行序列化操作,将非结构化的所述长文本的内容转换为有序的数据结构;
对于任何一个子字符串sj,j∈(0,i)分词后可以形成子字符串序列(b1,b2,…,bj),b1,b2,……,bj为子字符串,随后利用所述自然字典序的有效性特点,将所述子字符串序列(b1,b2,…,bj)调整为一个有序的子字符串序列(c1,c2,…,cj),c1,c2,……,cj为子字符串,使得存在如下有序特性:c1<c2<……<cj,j为正整数;
动作1-6、将所述长文本的内容中的已经分片化和序列化的文本、分割成多个序列化句子,形成文本内容的字符型变量树型索引数据结构:对于每个所述序列化句子,在所述自然字典序中插入序列化句子的首个词语,随后将所述序列化句子插入到所述自然字典序中,形成一个树状索引结构;对于每个所述长文本中的多个所述序列化句子,再维护一个倒排索引结构,指向所述自然字典序中每个所述序列化句子的首个词语;
动作1-7、当所述有序子字符串(c1,c2,…,cj)到达后,先查看根节点的子节点是否包含所述c1节点,如果包括所述c1节点,则再查看所述c1节点的子节点是否包含所述c2节点,以此类推;
动作1-8、如果最终发现了所述cj节点,则返回一条相似路径<c1,c2,……,cj>;
动作1-9、否则,若当前节点没有发现所述有序子字符串(c1,c2,……,cj)中的元素,则需要将节点及后续的节点连成一个路径插入到节点下方,大量的有序子字符串插入到索引结构中,构造一个字符型变量树型索引数据结构;
步骤2、计算机使用者通过内容生产区块链应用内容生产者端,利用字符型变量树型索引数据结构来验证自己撰写博文文本内容的版权相似性;所述版权相似性验证动作流程如下:
动作2-1、对于计算机使用者撰写的一篇新文档,将新文档进行分片操作,形成多个子片段文档,从子片段文档中随机抽样给x个子片段,将所述x个子片段的内容进行序列化操作形成有序的子字符串序列,x为正整数;
动作2-2、对于所述x个有序的子字符串序列中的每个序列,在字符型变量树型索引数据结构中查询是否存在这个每个序列:对于新来的一个序列化句子,将从字符型变量树型索引数据结构中的所述根节点开始查找序列化句子的第一个词语,如果查找到第一个词语,再从当前节点的子节点中查找第二个词语,以此类推,如果在字符型变量树型索引数据结构中找到一条完整的路径,则说明在历史文档片段中,存在一个与新来序列化句子相似文档;
动作2-3、对于一篇所述有序子字符串(q1,q2,…,qj),q1,q2,…,qj为子字符串,根据顺序从所述根节点的子节点开始从顶向下查询;
动作2-4、如存在一篇有序子字符串(q,e,h),其中q,e,h为子字符串,在所述根节点的子节点中迅速查找到q节点;
动作2-5、在所述q节点的子节点中迅速查找到e节点,随后在所述e节点的子节点中迅速查找到所述h节点,则说明查找了一条路径q,e,h完全匹配有序子字符串(q,e,h),进一步说明历史文档中已存在与有序子字符串(q,e,h)完全相同的文档,则子字符串的文本确权相似性为100%;
动作2-6、有序子字符串序列的顺序为字母自然序,排在前面的字符在所述字母自然序中也必定位于更上方的位置;
动作2-7、通过动作2-2的m次子序列查询,计算相似的序列个数,记为n个,设文本确权相似阈值为O,若n/m大于或等于O,则推断所述文本确权失败,不允许发布到区块链中;否则,若n/m小于0,则转到动作2-8;
动作2-8、将(m-n)个不相似的有序子字符串序列插入到字符型变量树型索引数据结构的索引块中,其中m、n为正整数;
动作2-9、区块链网络中第一个有打包权限的计算机节点将交易打包,更新字符型变量树型索引数据结构的索引块,形成新的区块和字符型变量树型索引数据结构的索引块的索引块;
动作2-10、有打包权限的计算机节点将所述新的区块和字符型变量树型索引数据结构广播到区块链网络中,区块链应用内容生产者端更新区块和字符型变量树型索引数据结构;
动作2-11、版权相似性验证通过后,将区块链应用内容生产者端生成新撰写的博文的文本内容进行分片序列化后,再最后插入到字符型变量树型索引数据结构中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843869.5A CN110598190B (zh) | 2019-09-06 | 2019-09-06 | 一种基于区块链的链上文本数据确权方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910843869.5A CN110598190B (zh) | 2019-09-06 | 2019-09-06 | 一种基于区块链的链上文本数据确权方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598190A CN110598190A (zh) | 2019-12-20 |
CN110598190B true CN110598190B (zh) | 2024-03-08 |
Family
ID=68858141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910843869.5A Active CN110598190B (zh) | 2019-09-06 | 2019-09-06 | 一种基于区块链的链上文本数据确权方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598190B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5111398A (en) * | 1988-11-21 | 1992-05-05 | Xerox Corporation | Processing natural language text using autonomous punctuational structure |
CN104462582A (zh) * | 2014-12-30 | 2015-03-25 | 武汉大学 | 一种基于结构和内容二级过滤的Web数据相似性检测方法 |
CN107657438A (zh) * | 2017-09-18 | 2018-02-02 | 联动优势科技有限公司 | 一种区块链生成方法、数据验证方法、节点及系统 |
CN108595709A (zh) * | 2018-05-10 | 2018-09-28 | 阿里巴巴集团控股有限公司 | 基于区块链的音乐原创性分析方法和装置 |
CN108881244A (zh) * | 2018-06-27 | 2018-11-23 | 中国人民解放军国防科技大学 | 一种基于区块链的网络短文知识产权保护方法 |
CN109002693A (zh) * | 2018-07-17 | 2018-12-14 | 大连理工大学 | 一种基于区块链的稿件保护方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170075877A1 (en) * | 2015-09-16 | 2017-03-16 | Marie-Therese LEPELTIER | Methods and systems of handling patent claims |
US20190132629A1 (en) * | 2017-10-26 | 2019-05-02 | Jonathan Kendrick | Application for detecting a currency and presenting associated content on an entertainment device |
-
2019
- 2019-09-06 CN CN201910843869.5A patent/CN110598190B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5111398A (en) * | 1988-11-21 | 1992-05-05 | Xerox Corporation | Processing natural language text using autonomous punctuational structure |
CN104462582A (zh) * | 2014-12-30 | 2015-03-25 | 武汉大学 | 一种基于结构和内容二级过滤的Web数据相似性检测方法 |
CN107657438A (zh) * | 2017-09-18 | 2018-02-02 | 联动优势科技有限公司 | 一种区块链生成方法、数据验证方法、节点及系统 |
CN108595709A (zh) * | 2018-05-10 | 2018-09-28 | 阿里巴巴集团控股有限公司 | 基于区块链的音乐原创性分析方法和装置 |
CN108881244A (zh) * | 2018-06-27 | 2018-11-23 | 中国人民解放军国防科技大学 | 一种基于区块链的网络短文知识产权保护方法 |
CN109002693A (zh) * | 2018-07-17 | 2018-12-14 | 大连理工大学 | 一种基于区块链的稿件保护方法 |
Non-Patent Citations (4)
Title |
---|
Application of Blockchain in Carbon Trading;Yuting Pan 等;《Energy Procedia》;20190228;第158卷;4286-4291 * |
一种基于区块链技术的版权登记交易方案设计;沈阳 等;《广播电视信息》;20190315(第03期);70-74 * |
基于区块链的数字版权保护与交易系统;李超 等;《现代计算机(专业版)》;20181015(第29期);80-84 * |
姜晖.区块链在建筑领域数字产权保护中的应用研究.《建筑经济》.2019,第40卷(第03期),117-120. * |
Also Published As
Publication number | Publication date |
---|---|
CN110598190A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109445834B (zh) | 基于抽象语法树的程序代码相似性快速比较方法 | |
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
CN101978348B (zh) | 管理关于近似串匹配的档案 | |
US7805289B2 (en) | Aligning hierarchal and sequential document trees to identify parallel data | |
KR102157202B1 (ko) | 정보 마이닝 방법, 시스템, 전자장치 및 판독 가능한 저장매체 | |
CN107153647B (zh) | 进行数据压缩的方法、装置、系统和计算机程序产品 | |
WO2016165538A1 (zh) | 一种地址数据的管理方法和装置 | |
US8316041B1 (en) | Generation and processing of numerical identifiers | |
Jindal et al. | A generalized tree matching algorithm considering nested lists for web data extraction | |
CN113901474B (zh) | 一种基于函数级代码相似性的漏洞检测方法 | |
CN102693244A (zh) | 用于识别非结构化文本中的信息的方法和装置 | |
CN110275940B (zh) | 一种中文地址识别方法及设备 | |
CN101799802A (zh) | 利用结构信息进行实体关系提取的方法和系统 | |
CN105589894B (zh) | 文档索引建立方法和装置、文档检索方法和装置 | |
CN107748778B (zh) | 一种提取地址的方法及装置 | |
CN102867049A (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN111190873B (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
Chang et al. | Applying pattern mining to Web information extraction | |
JP4831787B2 (ja) | 引用検出装置、そのプログラム及び記録媒体 | |
US20160196303A1 (en) | String search device, string search method, and string search program | |
CN114491597A (zh) | 一种基于汉字部件组合的文本无载体信息隐藏方法 | |
CN110598190B (zh) | 一种基于区块链的链上文本数据确权方法 | |
JP2020077236A (ja) | 探索プログラム、探索方法及び探索装置 | |
Kranig | Evaluation of language identification methods | |
JP2004046438A (ja) | テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |