CN110598190B

CN110598190B - 一种基于区块链的链上文本数据确权方法

Info

Publication number: CN110598190B
Application number: CN201910843869.5A
Authority: CN
Inventors: 谭林; 尹海波; 姜载乐; 杨征; 陈孝经; 舒旭东; 刘齐平
Original assignee: Hunan Tianhe Guoyun Technology Co Ltd
Current assignee: Hunan Tianhe Guoyun Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2024-03-08
Anticipated expiration: 2039-09-06
Also published as: CN110598190A

Abstract

本发明提供一种基于区块链的链上文本数据确权方法，包括建立字符型变量树型索引数据结构，即char TREE数据结构，文本片段抽样和文本片段查询；本发明在传统区块链上增加一种新颖的字符型变量树型索引数据结构，即char TREE数据结构，以尽可能小的存储空间为链上的文本内容建立索引，在索引基础上，实现文本片段的模糊匹配，进一步地对上链的文本内容进行确权，确保能够快速检测出微小修改的抄袭文本。

Description

一种基于区块链的链上文本数据确权方法

技术领域

本发明涉及文本数据确权方法领域，为一种区块链的链上文本数据确权方法。

背景技术

目前基于区块链的内容分发平台尽管在一定程度上能够提高平台内容的质量，保障内容的不可篡改性和永不消除性。但是，如果保障链上数据的版权唯一性目前没有一个较好的解决方案。现有技术的缺点包括：1、文本指纹匹配方法仅能够检测“完全拷贝文本”，对相似性为100％的文本版权检测性能较好，但是，哪怕修改文本中的一个字符，文本指纹将会不一样，使得此类方法对文本确权效果欠佳。2、文本相似性计算方法能够比对文本之间的相似性，但是，对每篇新发布文档，需要跟历史库中的所有文档相似比对，文本版权检测效率低下。3、索引检索方法仅能够支持“词-文档”的检索，且索引库为中心化存储，不适应于区块链去中心化的应用理念。

发明内容

有鉴于此，本发明提供一种解决或部分解决上述问题的一种基于区块链的链上文本数据确权方法，其特征在于，包括如下步骤：

步骤1：计算机调用内容生产区块链应用时，先下载字符型变量树型索引数据结构的索引块数据；

字符型变量树型索引数据结构的建立，包括如下动作流程如下：：

动作1-1、首先需要对汉语字符建立索引规则,压缩索引结构的存储空间；

动作1-2、将文本内容分片化：对于一篇长文本内容，利用段落结束标点符号作为其字符型变量树型索引数据结构的建立，包括如下步骤：

动作1-3、利用字符串s表示长文本的内容，利用标点符号作为分割点，将长文本的内容分片化为i个子字符串s₁，s₂，……，s_i,i为正整数；

动作1-4、建立一个自然字典序(a₁,a₂,……,a_k),a₁,a₂,……,a_k为存储字节，即为不同的词语，k为正整数；

自然字典序中的词语保持有序性的特点，即存在顺序a₁<a₂<……<a_k，使得在顺序下，一个词语一定出现在另外一个词语前面；

动作1-5、文本内容的序列化：根据自然字典序将已分好词且去掉标点符号的长文本的内容进行序列化操作，将非结构化的长文本的内容转换为有序的数据结构；

对于任何一个子字符串s_j，j∈(0,i)分词后可以形成子字符串序列(b₁,b₂,…,b_j)， b₁,b₂,……,b_j为子字符串，随后利用自然字典序的有效性特点，将子字符串序列 (b₁,b₂,…,b_j)调整为一个有序的子字符串序列(c₁,c₂,…,c_j)，c₁,c₂,……,c_j为子字符串，使得存在如下有序特性：c₁<c₂<……<c_j，j为正整数；

动作1-6、将长文本的内容中的已经分片化和序列化的文本、分割成多个序列化句子，形成文本内容的字符型变量树型索引数据结构：对于每个序列化句子，在自然字典序中插入序列化句子的首个词语，随后将序列化句子插入到自然字典序中，形成一个树状索引结构；对于每个长文本中的多个序列化句子，再维护一个倒排索引结构，指向自然字典序中每个序列化句子的首个词语；

动作1-7、当有序子字符串(c₁,c₂,…,c_j)到达后，先查看根节点的子节点是否包含c₁节点，如果包括c₁节点，则再查看c₁节点的子节点是否包含c₂节点，以此类推；

动作1-8、如果最终发现了c_j节点，则返回一条相似路径<c₁,c₂,……,c_j>；

动作1-9、否则，若当前节点没有发现有序子字符串(c₁,c₂,……,c_j)中的元素，则需要将节点及后续的节点连成一个路径插入到节点下方，大量的有序子字符串插入到索引结构中，构造一个字符型变量树型索引数据结构；

步骤2、计算机使用者通过内容生产区块链应用内容生产者端，利用字符型变量树型索引数据结构来验证自己撰写博文文本内容的版权相似性；版权相似性验证动作流程如下：

动作2-1、对于计算机使用者撰写的一篇新文档，将新文档分片操作，形成多个子片段文档，从子片段文档中随机抽样m个子片段，将m个子片段的内容进行序列化操作形成有序的子字符串序列；

动作2-2、对于m个有序的子字符串序列中的每个序列，在字符型变量树型索引数据结构中查询是否存在这个每个序列：对于新来的一个序列化句子，将从字符型变量树型索引数据结构中的根节点开始查找序列化句子的第一个词语，如果查找到第一个词语，再从当前节点的子节点中查找第二个词语，以此类推，如果在字符型变量树型索引数据结构中找到一条完整的路径，则说明在历史文档片段中，存在一个与新来序列化句子相似文档；

动作2-3、对于一篇有序子字符串(q₁,q₂,…,q_j)，q₁,q₂,…,q_j为子字符串，根据顺序从根节点的子节点开始从顶向下查询；

动作2-4、如存在一篇有序子字符串(q,e,h)，其中q,e,h为子字符串,在根节点的子节点中迅速查找到q节点；

动作2-5、在q节点的子节点中迅速查找到e节点，随后在e节点的子节点中迅速查找到h节点，则说明查找了一条路径q,e,h完全匹配有序子字符串(q,e,h)，进一步说明历史文档中已存在与有序子字符串(q,e,h)完全相同的文档，子字符串的文本确权相似性为100％；

动作2-6、有序子字符串序列的顺序为字母自然序，排在前面的字符在字母自然序中也必定位于更上方的位置；

动作2-7、通过动作2-2的m次子序列查询，计算相似的序列个数，记为n个，设文本确权相似阈值为O，若n/m大于或等于O，则推断文本确权失败，不允许发布到区块链中；否则，若n/m小于0，则转到动作2-8；

动作2-8、将(m-n)个不相似的有序子字符串序列插入到字符型变量树型索引数据结构的索引块中；

动作2-9、区块链网络中第一个有打包权限的计算机节点将交易打包，更新字符型变量树型索引数据结构的索引块，形成新的区块和字符型变量树型索引数据结构的索引块的索引块；

动作2-10、有打包权限的计算机节点将新的区块和字符型变量树型索引数据结构广播到区块链网络中，其他内容生产区块链应用内容生产者端更新区块和字符型变量树型索引数据结构；

动作2-11、版权相似性验证通过后，将区块链应用内容生产者端生成新撰写的博文的文本内容进行分片序列化后，再最后插入到字符型变量树型索引数据结构中。

附图说明

图1为树状索引字符型变量树数据结构示例图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于同替换和改进，均包含在本发明的保护范围之内。具体方法如下：

实施例：S1、内容生产者在使用内容生产区块链应用时，新颖的字符型变量树型索引数据结构，即charTREE数据结构，先下索引块的数据；

charTREE数据结构的建立，包括如下步骤：

S11、首先需要对汉语字符建立索引规则,压缩索引结构的存储空间；

S12、文本内容分片化：对于一篇长文本内容，利用段落结束标点符号作为其分割点，将其分片化，使文本内容的微小修改仍能够被快速检测出来；

利用字符串s表示长文本内容，利用标点符号作为分割点，将长文本内容分片化为i个子字符串s₁，s₂，……，s_i,i为正整数；

S13、建立一个自然字典序(a₁,a₂,……,a_k),k为正整数；

字典序中的词语保持有序性的特点，即存在顺序a₁<a₂<……<a_k，使得某个词语一定出现在另外一个词语前面；

S14、文本内容的序列化：根据词语字典序将已分好词且去掉标点符号的文本进行序列化操作，将非结构化的文本内容转换为有序的数据结构；

对于任何一个子字符串s_j，分词后可以形成子字符串序列(b₁,b₂,……,b_j)，随后利用字典序列的有效性特点，将子字符串序列(b₁,b₂,……,b_j)调整为一个有序的子字符串序列(c₁,c₂,……,c_j)，使得存在如下有序特性：c₁<c₂<……<c_j，j为正整数；

S15、将已经分片化和序列化的文本、分割成多个序列化的句子，形成文本内容的树状索引charTREE数据结构：对于每个序列化的句子，在自然字典序中插入序列化句子的首个词语，随后将序列化句子插入到自然字典序中，形成一个树状索引结构；对于每个长文本的多个序列化句子，再维护一个倒排索引结构，指向自然字典序中每个序列化句子的首个词语；

将根节点命名为root节点，当有序子字符串(c₁,c₂,……,c_j)到达后，先查看 root节点的子节点是否包含c₁节点，如果包括c₁节点，则再查看c₁节点的子节点是否包含c₂节点，以此类推；

如果最终发现了c_j节点，则返回一条相似路径<c₁,c₂,……,c_j>；

否则，若没有发现有序子字符串(c₁,c₂,……,c_j)中的元素，则需要将节点及后续的节点连成一个路径插入到节点下方，大量的有序子字符串插入到索引结构中，将构造一个树状索引charTREE数据结构；

实施例公开一个树状索引charTREE数据结构示例；在这个示例中，存在如下有序子字符串序列：

(a,f,g)、(a,b)、(b,d,g)、(c,f)、(c,e,f)、(c,e,h)、(d,e)以及(e,f,g)；

上述的有序子字符串序列的顺序为字母自然序，排在前面的字符在字母自然序中也必定位于更前方的位置；

S2、内容生产者通过内容生产区块链应用内容生产者端，利用charTREE索引块数据来验证自己撰写博文文本内容的版权相似性；

版权相似性验证动作流程如下，其动作关系为：

S21、对于内容生产者撰写的一篇新文档，将文档分片操作，形成多个子片段文档，从子片段文档中随机抽样m个子片段，将m个子片段进行序列化操作形成有序的子字符串序列；

S22、对于m个有序的子字符串序列中的每个序列，在charTREE索引结构中查询是否存在序列：对于新来的一个序列化句子，将从树状索引charTREE数据结构中的root节点开始查找序列化句子的第一个词语，如果查找到第一个词语，再从节点的子节点中查找第二个词语，以此类推，如果在树状索引charTREE数据结构中找到一条完整的路径，则说明在历史文档片段中，存在一个与新来序列化句子相似文档；

1)对于一篇有序子字符串(c₁,c₂,……,c_j)，根据顺序从root节点的子节点开始从顶向下查询；

2)如存在一篇有序子字符串(c,e,h)，在root节点的子节点中迅速查找到c 节点；

3)在c节点的子节点中迅速查找到e节点，随后在e节点的子节点中迅速查找到h节点，则说明查找了一条路径c,e,h完全匹配有序子字符串(c,e,h)，进一步说明历史文档中已存在与有序子字符串(c,e,h)完全相同的文档，子字符串的文本确权相似性为100％；

上述的有序子字符串序列的顺序为字母自然序，排在前面的字符在字母自然序中也必定位于更上方的位置；

S23、通过S22的m次子序列查询，计算相似的序列个数，记为n个，设文本确权相似阈值为O，若n/m大于或等于O，则推断文本确权失败，不允许发布到区块链中；否则，若n/m小于0，则转到第S24步；

S24、将(m-n)个不相似的有序子字符串序列插入到charTREE索引结构中；

S25、区块链网络中第一个挖矿成功的矿工将交易打包，更新charTREE索引块，形成新的区块和charTREE索引块；

S26、矿工将新的区块和charTREE索引块广播到区块链网络中，其他内容生产区块链应用内容生产者端更新区块和charTREE索引块；

S3、版权相似性验证通过，将内容生产者撰写的新博文文本内容分片序列化后插入到charTREE索引块中。

实施例提出的一种基于区块链的链上文本数据确权方法原理如下：

1、文本内容分片化：利用字符串s表示一篇长文本内容，利用标点符号作为分割点，将长文本内容分片化为i个子字符串s₁，s₂，……，s_i；

2、文本内容分片化：利用字符串s表示一篇长文本内容，利用标点符号作为分割点，将长文本内容分片化为i个子字符串s₁，s₂，……，s_i；

3、文本内容序列化：对于任何一个子字符串s_j，分词后可以形成子字符串序列(b₁,b₂,……,b_j)，随后利用字典序列的有效性特点，将子字符串序列(b₁,b₂,……,b_j) 调整为一个有序的子字符串序列(c₁,c₂,……,c_j)，使得存在如下有序特性： c₁<c₂<……<c_j；

4、文本内容树状索引charTREE数据结构：根节点命名为root节点，当一篇有序子字符串(c₁,c₂,……,c_j)到达后，先查看root节点的儿子节点是否包含c₁节点，如果包括c₁节点，则再查看c₁节点的儿子节点是否包含c₂节点，以此类推，如果最终发现了c_j节点，则返回一条相似路径<c₁,c₂,……,c_j>，否则，在某一阶段若没有发现有序子字符串(c₁,c₂,……,c_j)中的一个元素，比如在root节点的儿子节点中没有查找到c₁节点，则需要将c₁及后续的节点c₂,……,c_j连成一个路径c₁,c₂,……,c_j插入到root节点下面；比如在c₁节点的儿子节点中没有查找到c₂节点，则需要将 c₂及后续的节点c₃,……,c_j连成一个路径c₂,c₃,……,c_j插入到c₁节点下面，大量的有序子字符串插入到索引结构中，将构造一个树状索引charTREE数据结构。

S1、内容生产者在使用内容生产区块链应用时，首先需要下载charTREE索引块数据；

charTREE数据结构的建立，包括如下步骤：

S13、建立一个自然字典序(a₁,a₂,……,a_k),k为正整数；

版权相似性验证动作流程如下：

S3、版权相似性验证通过，将内容生产者撰写的新博文文本内容分片序列化后插入到charTREE索引块中；

S4、所述内容生产区块链应用的所述内容生产者拿出少量token作为押金打入到自己的地址中，形成一笔交易，将所述charTREE索引块连同交易一起广播到区块链网络中。

本发明的有益效果为：建立了去中心化的句子级别的charTREE数据结构；建立了文本片段抽样规则，提高文本版权比对效果；建立了charTREE数据结构快速查询方法，实现文本版权去中心化地快速检测。

Claims

1.一种基于区块链的链上文本数据确权方法，其特征在于，包括如下步骤：

步骤1：计算机调用内容生产区块链应用时，先下载字符型变量树型索引数据结构的索引块的数据；

所述字符型变量树型索引数据结构的建立，包括如下动作流程如下：

动作1-2、将文本内容分片化：对于一篇长文本内容，利用段落结束标点符号作为其所述字符型变量树型索引数据结构的建立，包括如下步骤：

动作1-3、利用字符串s表示所述长文本的内容，利用标点符号作为分割点，将所述长文本的内容分片化为i个子字符串s₁，s₂，……，s_i,i为正整数；

所述自然字典序中的词语保持有序性的特点，即存在顺序a₁<a₂<……<a_k，使得在顺序下，一个词语一定出现在另外一个词语前面；

动作1-5、文本内容的序列化：根据所述自然字典序将已分好词且去掉标点符号的所述长文本的内容进行序列化操作，将非结构化的所述长文本的内容转换为有序的数据结构；

对于任何一个子字符串s_j，j∈(0,i)分词后可以形成子字符串序列(b₁,b₂,…,b_j)，b₁,b₂,……,b_j为子字符串，随后利用所述自然字典序的有效性特点，将所述子字符串序列(b₁,b₂,…,b_j)调整为一个有序的子字符串序列(c₁,c₂,…,c_j)，c₁,c₂,……,c_j为子字符串，使得存在如下有序特性：c₁<c₂<……<c_j，j为正整数；

动作1-6、将所述长文本的内容中的已经分片化和序列化的文本、分割成多个序列化句子，形成文本内容的字符型变量树型索引数据结构：对于每个所述序列化句子，在所述自然字典序中插入序列化句子的首个词语，随后将所述序列化句子插入到所述自然字典序中，形成一个树状索引结构；对于每个所述长文本中的多个所述序列化句子，再维护一个倒排索引结构，指向所述自然字典序中每个所述序列化句子的首个词语；

动作1-7、当所述有序子字符串(c₁,c₂,…,c_j)到达后，先查看根节点的子节点是否包含所述c₁节点，如果包括所述c₁节点，则再查看所述c₁节点的子节点是否包含所述c₂节点，以此类推；

动作1-8、如果最终发现了所述c_j节点，则返回一条相似路径<c₁,c₂,……,c_j>；

动作1-9、否则，若当前节点没有发现所述有序子字符串(c₁,c₂,……,c_j)中的元素，则需要将节点及后续的节点连成一个路径插入到节点下方，大量的有序子字符串插入到索引结构中，构造一个字符型变量树型索引数据结构；

步骤2、计算机使用者通过内容生产区块链应用内容生产者端，利用字符型变量树型索引数据结构来验证自己撰写博文文本内容的版权相似性；所述版权相似性验证动作流程如下：

动作2-1、对于计算机使用者撰写的一篇新文档，将新文档进行分片操作，形成多个子片段文档，从子片段文档中随机抽样给x个子片段，将所述x个子片段的内容进行序列化操作形成有序的子字符串序列，x为正整数；

动作2-2、对于所述x个有序的子字符串序列中的每个序列，在字符型变量树型索引数据结构中查询是否存在这个每个序列：对于新来的一个序列化句子，将从字符型变量树型索引数据结构中的所述根节点开始查找序列化句子的第一个词语，如果查找到第一个词语，再从当前节点的子节点中查找第二个词语，以此类推，如果在字符型变量树型索引数据结构中找到一条完整的路径，则说明在历史文档片段中，存在一个与新来序列化句子相似文档；

动作2-3、对于一篇所述有序子字符串(q₁,q₂,…,q_j)，q₁,q₂,…,q_j为子字符串，根据顺序从所述根节点的子节点开始从顶向下查询；

动作2-4、如存在一篇有序子字符串(q,e,h)，其中q,e,h为子字符串,在所述根节点的子节点中迅速查找到q节点；

动作2-5、在所述q节点的子节点中迅速查找到e节点，随后在所述e节点的子节点中迅速查找到所述h节点，则说明查找了一条路径q,e,h完全匹配有序子字符串(q,e,h)，进一步说明历史文档中已存在与有序子字符串(q,e,h)完全相同的文档，则子字符串的文本确权相似性为100％；

动作2-6、有序子字符串序列的顺序为字母自然序，排在前面的字符在所述字母自然序中也必定位于更上方的位置；

动作2-7、通过动作2-2的m次子序列查询，计算相似的序列个数，记为n个，设文本确权相似阈值为O，若n/m大于或等于O，则推断所述文本确权失败，不允许发布到区块链中；否则，若n/m小于0，则转到动作2-8；

动作2-8、将(m-n)个不相似的有序子字符串序列插入到字符型变量树型索引数据结构的索引块中，其中m、n为正整数；

动作2-10、有打包权限的计算机节点将所述新的区块和字符型变量树型索引数据结构广播到区块链网络中，区块链应用内容生产者端更新区块和字符型变量树型索引数据结构；