CN110069903B

CN110069903B - 一种确定查阅文本数据的用户的方法及装置

Info

Publication number: CN110069903B
Application number: CN201910348492.6A
Authority: CN
Inventors: 万昌洵; 周学良
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2023-03-21
Anticipated expiration: 2039-04-28
Also published as: CN110069903A

Abstract

本发明实施例公开了一种确定查阅文本数据的用户的方法，包括：获取被转载的第一目标文本数据，并根据所述第一目标文本数据查找第一初始文本数据，所查找到的第一初始文本数据与第一目标文本数据的相似度大于第一阈值；对比所述第一目标文本数据与所述第一初始文本数据，得到第一区别信息；查找所述第一区别信息对应的目标用户信息，所述目标用户信息为首次查阅所述第一目标文本数据的目标用户的信息。本发明还相应的提出了一种确定查阅文本数据的用户的装置。采用本发明，相当于可以确定转载目标文本数据的转载源头，如有需要可以实现对该目标文本数据进行维权，提高了文本数据的版权保护力度，也可以有效减少随意转载的现象。

Description

一种确定查阅文本数据的用户的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种确定查阅文本数据的用户的方法及装置。

背景技术

随着互联网的发展，越来越多的人基于计算机传播或者获取数据，使得电子数据的使用越来越普遍，如实验报告、论文、电子小说、游戏攻略等。由于电子数据的抄袭十分方便，几乎零成本，且难以获取抄袭痕迹，使得计算机网络中的抄袭现象盛行，因此，加大对电子数据抄袭的监管力度，并减少电子数据的抄袭现象成为一个亟待解决的问题。

但是，现在通过计算机网络对电子文档进行监控，也只是通过将网络上传播的大量数据与版权方数据库进行对比，从而获取被盗用的版权内容及该被盗用的版权内容的转载者，无法追溯到该版权内容的首位转载者，从而无法对该版权内容实现维权，影响了对电子文档的版权保护力度。

发明内容

基于此，本申请提供了一种确定查阅文本数据的用户的方法及装置，以期提高对文本数据的版权保护力度。

本发明实施例第一方面提供了一种确定查阅文本数据的用户的方法，其特征在于，包括：

获取被转载的第一目标文本数据，并根据所述第一目标文本数据查找第一初始文本数据，所查找到的所述第一初始文本数据与所述第一目标文本数据的相似度大于第一阈值；

对比所述第一目标文本数据与所述第一初始文本数据，得到第一区别信息，所述第一区别信息包含至少一个第一区别元素，所述第一区别元素为所述第一初始文本数据中不同于所述第一目标文本数据的元素；

查找所述第一区别信息对应的目标用户信息，所述目标用户信息为首次查阅所述第一目标文本数据的目标用户的信息。

其中，所述获取被转载的第一目标文本数据之前，包括：

接收对所述第一初始文本数据的查阅请求，所述查阅请求包括用户信息；

替换所述第一初始文本数据中的区别信息，以生成目标文本数据，所述区别信息包括多个区别元素；

生成所述区别信息和所述用户信息的对应关系，并展示所述目标文本数据。

其中，所述替换所述第一初始文本数据中的区别信息，以生成目标文本数据，包括：

扫描所述第一初始文本数据，提取所述第一初始文本数据中的多个区别元素；

从替换数据库中查找所述多个区别元素中每个区别元素对应的替换数据；

将所述每个区别元素替换为与所述每个区别元素对应的替换数据，得到所述目标文本数据。

其中，所述替换所述第一初始文本数据中的区别信息之前，还包括：

扫描所述第一初始文本数据，提取所述第一初始文本数据中属于替换数据库中的全部的第一区别元素；

若所述全部的第一区别元素的数量小于第二阈值，则获取第二初始文本数据；

将所述第一初始文本数据和所述第二初始文本数据拼接，得到更新后的所述第一初始文本数据。

其中，所述多个区别元素包括：词类元素、短语类元素、符号类元素和专业名词中的至少一类元素，所述符号类元素包括标点符号、分段符和分词符中的至少一种。

其中，所述将所述每个区别元素替换为与所述每个区别元素对应的替换数据，包括：

若所述区别元素为所述词类元素或所述短语类元素，则从所述替换数据库中查找所述区别元素对应的替换文字，将所述区别元素替换为所述替换文字；

若所述区别元素为所述符号类元素中的第一标点符号，则将所述标点符号替换为第二标点符号，所述第一标点符号与所述第二标点符号不同；

若所述区别元素为所述符号类元素中的分段符，则删除所述分段符；

若所述区别元素为所述符号类元素中的分词符，则在所述分词符所在的位置插入所述分段符；

若所述区别元素为专业名词，则获取所述专业名词对应的描述性数据，向所述初始文本数据中插入所述专业名词所对应的描述性数据。

其中，所述查找所述第一区别信息对应的目标用户信息，包括：

若查找到所述第一区别信息与多个第一用户信息相对应，则获取第一应用中转载所述第一目标文本数据的第一账户的信息，其中，所述第一初始文本数据来自第二应用；

在所述第一应用中获取所述第一账户转载的第二目标文本数据；

根据所述第二目标文本数据在所述第二应用中查找第二初始文本数据，所查找到的所述第二初始文本数据与所述第二目标文本数据的相似度大于所述第一阈值；

对比所述第二目标文本数据和所述第二初始文本数据，得到第二区别信息，所述第二区别信息包含至少一个第二区别元素，所述第二区别元素为所述第二初始文本数据中不同于所述第二目标文本数据的元素；

查找所述第二区别信息对应的至少一个第二用户信息；

将所述多个第一用户信息和所述至少一个第二用户信息中相同的用户信息确定为目标用户信息。

此外，为解决上述提到的无法追溯电子文本数据的剽窃源头的技术问题，本发明还提供了一种确定查阅文本数据的用户的装置。

本发明实施例第二方面提供了一种确定查阅文本数据的用户的装置，包括：

获取模块，用于获取被转载的第一目标文本数据；

查找模块，用于根据所述第一目标文本数据查找第一初始文本数据，所查找到的所述第一初始文本数据与所述第一目标文本数据的相似度大于第一阈值；

对比模块，用于对比所述第一目标文本数据与所述第一初始文本数据，得到第一区别信息，所述第一区别信息包含至少一个第一区别元素，所述第一区别元素为所述第一初始文本数据中不同于所述第一目标文本数据的元素；

所述查找模块，还用于查找所述第一区别信息对应的目标用户信息，所述目标用户信息为首次查阅所述第一目标文本数据的目标用户的信息。

其中，所述装置还包括：

接收模块，用于接收用户对所述第一初始文本数据的查阅请求，所述查阅请求包括所述用户的用户信息；

替换模块，用于替换所述第一初始文本数据中的区别信息，以生成目标文本数据，所述区别信息包括多个区别元素；

生成模块，用于生成所述区别信息和所述用户信息的对应关系；

显示模块，用于向所述用户展示所述目标文本数据。

其中，所述替换模块包括：

提取单元，用于扫描所述第一初始文本数据，提取所述第一初始文本数据中的多个区别元素；

第一查找单元，用于从替换数据库中查找所述多个区别元素中各个区别元素对应的替换数据；

替换单元，用于将每个区别元素更改为所述区别元素对应的所述替换数据，得到所述目标文本数据。

其中，所述替换模块还包括：

所述提取单元，还用于扫描所述第一初始文本数据，提取所述第一初始文本数据中属于替换数据库中的全部的第一区别元素；

第一获取单元，用于若所述全部的第一区别元素的数量小于第二阈值，则获取第二初始文本数据；

生成单元，用于将所述第一初始文本数据和所述第二初始文本数据拼接，得到更新后的所述第一初始文本数据。

其中，所述替换单元包括：

判断子单元，用于判断所述区别元素的类别；

执行子单元，根据所述判断子单元得到的所述区别元素的类别，执行将所述区别元素替换为所述区别元素对应的替换数据。

其中，若所述判断子单元得到所述区别元素为词类元素或短语类元素，则所述执行子单元从所述替换数据库中查找所述区别元素对应的替换文字，将所述区别元素替换为所述替换文字；

若所述判断子单元得到所述区别元素为符号类元素中的第一标点符号，则所述执行子单元将所述标点符号替换为第二标点符号，所述第一标点符号与所述第二标点符号不同；

若所述判断子单元得到所述区别元素为所述符号类元素中的分段符，则所述执行子单元删除所述分段符；

若所述判断子单元得到所述区别元素为所述符号类元素中的分词符，则所述执行子单元在所述分词符所在的位置插入所述分段符；

若所述判断子单元得到所述区别元素为专业名词，则所述执行子单元获取所述专业名词对应的描述性数据，向所述初始文本数据中插入所述专业名词所对应的描述性数据。

其中，在查找所述第一区别信息对应的目标用户信息方面所述查找模块包括：

第二获取单元，用于若查找到所述第一区别信息与多个第一用户信息相对应，则获取第一应用中转载所述第一目标文本数据的第一账户的信息，其中，所述第一初始文本数据来自第二应用；

所述第二获取单元，还用于在所述第一应用中获取所述第一账户转载的第二目标文本数据；

第二查找单元，用于根据所述第二目标文本数据在所述第二应用中查找第二初始文本数据，所查找到的所述第二初始文本数据与所述第二目标文本数据的相似度大于所述第一阈值；

对比单元，用于对比所述第二目标文本数据和所述第二初始文本数据，得到第二区别信息，所述第二区别信息包含至少一个第二区别元素，所述第二区别元素为所述第二初始文本数据中不同于所述第二目标文本数据的元素；

所述第二查找单元，还用于查找所述第二区别信息对应的至少一个第二用户信息；

确定单元，用于将所述多个第一用户信息和所述至少一个第二用户信息中相同的用户信息确定为目标用户信息。

本发明实施例第三方面提供了一种电子设备，其特征在于，包括处理器、存储器、输入输出接口；

所述处理器分别与所述存储器和所述输入输出接口相连，其中，所述输入输出接口用于页面交互，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中第一方面所述的确定查阅文本数据的用户的方法。

本发明实施例第四方面提供了计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中第一方面所述的确定查阅文本数据的用户的方法。

实施本发明实施例，将具有如下有益效果：

本发明实施例在用户请求查阅初始文本数据时会给用户展示与初始文本数据存在区别元素的另一个展示文本数据，并建立用户信息与包含区别元素的区别信息之间的对应关系，在这一场景下，如果获取到被转载的目标文本数据后，可以先根据目标文本数据查找与之相似的第一初始文本数据，再对比目标文本数据和初始文本数据后得到区别信息，最后根据区别信息和用户信息对应关系，可以得到首次查阅该目标文本数据的目标用户，相当于确定了转载该目标文本数据的转载源头，如有需要可以实现对该目标文本数据进行维权，提高了文本数据的版权保护力度，也可以有效减少随意转载的现象。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本发明实施例提供的一种确定查阅文本数据的用户的示意图；

图2是本发明实施例提供的一种确定查阅文本数据的用户的方法流程示意图；

图3是本发明实施例提供的一种基于数据标签集的第一目标文本数据和第一初始文本数据获取示意图；

图4是本发明实施例提供的一种第一区别信息生成示意图；

图5是本发明实施例提供的另一种确定查阅文本数据的用户的方法流程示意图；

图6是本发明实施例提供的一种目标文本数据的生成流程示意图；

图7是本发明实施例提供的一种可能的查阅场景示意图；

图8是本发明实施例提供的另一种目标文本数据的生成流程示意图；

图9是本发明实施例提供的一种功能逻辑模块的示意图；

图10是本发明实施例提供的一种账户标识生成流程示意图；

图11是本发明实施例提供的一种文章剽窃源头的用户信息确定方法流程图；

图12是本发明实施例提供的一种确定查阅文本数据的用户的装置；

图13是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，是本发明实施例提供的一种确定查阅文本数据的用户的示意图。如图1所示，当服务器102从网络电子数据101到被转载的第一目标文本数据，根据该第一目标文本数据从版权文库103中查找第一初始文本数据，该第一初始文本数据与第一目标文本数据的相似度大于第一阈值，对第一目标文本数据和第一初始文本数据进行对比，得到第一区别信息，该第一区别信息包含至少一个第一区别元素，该第一区别元素为第一初始文本数据中不同与第一目标文本数据的元素，根据该第一区别信息从用户信息对应关系库104中获取该第一区别信息对应的目标用户信息，该目标用户信息为首次查阅第一目标文本数据的目标用户的信息。该用户信息对应关系库用来存储文本数据、区别信息及用户信息见的对应关系数据。

其中，确定查阅文本数据的用户的具体流程可以参见以下图2至图11所对应的实施例。

进一步地，请参见图2，本发明实施例提供的一种确定查阅文本数据的用户的方法流程示意图。如图2所示，上述方法包括如下步骤：

步骤S201，获取被转载的第一目标文本数据，根据第一目标文本数据查找第一初始文本数据。

具体的，服务器对互联网中传播的大量电子数据进行监测，并从中获取被转载的第一目标文本数据。其中，可以通过获取每个电子数据的数据标签集，若监测到任一电子数据中的数据标签集包括或属于预设数据标签库中的其中一个预设数据标签集，则认为该任一电子数据为第一目标文本数据，根据该数据标签集从版权文库中查找对应的版权数据，若该版权数据与第一目标文本数据的相似度大于第一阈值，则认为该版权数据为第一初始文本数据，其中，预设数据标签集包括预设文本标签集和/或预设关键字集，预设文本标签集包括至少一个预设文本标签，预设关键字集包括至少一个预设关键字，其中，预设文本标签包括电子数据的文本类型、电子数据的内容属性和/或电子数据的内容概要等；可选的，若数据标签集属于预设数据标签库中的其中一个预设数据标签集时，可以在该数据标签集中所包含的数据标签的数量在该预设数据标签集中的占比大于第二阈值时，认为该数据标签集对应的电子数据为第一目标文本数据。或者，将每个电子数据与版权文库中的各个版权数据进行对比，若某一电子数据与版权文库中的其中一个版权数据的相似度大于第一阈值，则可以认为该某一电子数据为被转载的第一目标文本数据，该相似度大于第一阈值的版权数据为第一初始文本数据。或者，服务器获取管理人员提交的第一目标文本数据，其中，管理人员在网上或出版物上看到/爬取到疑似剽窃文章，则将该剽窃文章上传给服务器，该剽窃文章为第一目标文本数据。

具体的，参见图3，图3是本发明实施例提供的一种基于数据标签集的第一目标文本数据和第一初始文本数据获取示意图。如图3所示，服务器302对互联网中传播的网络电子数据301中各个电子数据进行监测，并获取每个电子数据的数据标签集，通过每个电子数据的数据标签集在预设数据标签库303中进行查找，若找到电子数据3的数据标签包括该预设数据标签库303中的其中一个预设标签集，则认为该电子数据3为第一目标文本数据，并通过该预设数据标签集从版权文库304中获取该预设数据标签集对应的版权数据，该版权数据即为第一初始文本数据。

具体的，在一种可能的实现方式中，假定预设数据标签集包括预设文本标签集和预设关键字集，根据该预设数据标签集获取被转载的第一目标文本数据。此处以游戏攻略内容为例，假定XX游戏攻略网站专用于向用户展示各个游戏的玩法攻略，其中包括大量的从相关机构进行购买得到的原版游戏攻略内容，这些大量的原版游戏攻略内容构成了该XX游戏攻略网站的版权文库，每个原版游戏攻略内容可以认为是该版权文库中的一个版权数据。其中，该XX游戏攻略网站存在如下表1所示预设数据标签库，该预设数据标签库用于存储预设文本标签集和/或预设关键字集：

表1

文本标签	关键字
		游戏、攻略、A游	A游、攻略、副本、A怪
游戏、攻略、A游	A游、攻略、boss、剧情
		游戏、剧情、B游	B游、剧情、主角A、主角B
…	…

服务器通过对互联网中传播的大量电子数据进行监测，获取每个电子数据的文本标签集和关键字集，若监测到一个电子数据的第一文本标签集包括[“游戏”、“攻略”、“A游”、“A怪”]，该第一文本标签集包括预设数据标签库中的第一预设文本标签集[“游戏”、“攻略”、“A游”]，该第一预设文本标签集为预设标签库中的其中一个，则获取该电子数据中的关键字集，若获取到第一关键字集[“A游”、“攻略”、“A怪”、“副本”]，与预设数据标签库中上述预设第一文本标签对应的至少一个预设关键字集进行对比，查找到相同的第一预设关键字集，则认为该电子数据为第一目标文本数据，通过获取到的第一预设文本标签集与第一预设关键字集在版权文库中进行查找，查找到的版权数据即为第一初始文本数据。其中，也可以先获取电子数据中的第一关键字集进行对比，若在预设数据标签库中查找到包括或者属于的第一预设数据标签集，则获取电子数据的第一文本标签集进行对比；也可以是同时获取电子数据的第一文本标签集和第一关键字集，与该预设数据标签库中进行对比，查找该电子数据的第一数据标签集包括或者属于的第一预设数据标签集。其中，上述版权文库可以是将每个版权文章进行标题提取，创建并将提取的标题存储到版权文章数据库中；也可以是直接对该网站中的各个文本数据进行版权标记，存在版权标记的所有原版游戏攻略内容构成了该版权文库。

根据预设数据标签集获取对应的版权数据时一种可选的实现方式，上述预设数据标签库中每一行为数据库的一个元组，每个元组包括一个预设数据标签集，可以为每个预设数据标签集添加标号，该标号为预设数据标签集对应的版权文库中的版权数据的标号。在一种可能的实现方式中，该网站上传一个版权数据，则为该版权数据生成一个标号，并提取该版权数据的预设文件标签集和预设关键字集，将该版权数据的标号、预设文件标签集和预设关键字集加入上述预设数据标签库中。在通过第一预设文件标签集和第一预设关键字集查找对应的版权数据时，可以通过该第一数据标签集的标号进行查找，该第一数据标签集包括第一预设文件标签集和第一预设关键字集。

步骤S202，对比第一目标文本数据和第一初始文本数据，得到第一区别信息。

具体的，在获取到第一目标文本数据和第一初始文本数据后，对第一目标文本数据和第一初始文本数据进行重合对比，获取第一初始文本数据中不同于第一目标文本数据的各个元素，这些元素组成第一区别信息，每个元素都可以认为是一个第一区别元素。

具体如图4所示，是本发明实施例提供的一种第一区别信息生成示意图。具体的，当服务器403获取到第一目标文本数据401和第一初始文本数据402后，对第一目标文本数据401和第一初始文本数据402进行重合对比，将第一初始文本数据402中所有无法进行重合的内容组成了第一区别信息404，每个无法进行重合的内容都是一个第一区别元素。

具体的，在上述步骤S201中图3所示实施例中，获取第一目标文本数据与第一初始文本数据的内容，将第一目标文本数据与第一初始文本数据的内容进行重合对比，假定该第一目标文本数据为“在寒冬中，为了解决帮派成员的生存问题。德奇、亚瑟和弥迦冒着风雪外出寻找给养。”，第一初始文本数据为“在严寒中，为了解决帮派人员的生存问题。德奇、亚瑟和弥迦冒着风雪外出寻找补给。”，对第一目标文本数据和第一初始文本数据进行重合对比，可以从第一初始文本数据中得到两者的不同的内容“严寒”、“人员”、“补给”，其中，“严寒”、“人员”、“补给”均为第一区别元素，它们共同组成第一区别信息。

步骤S203，查找第一区别信息对应的目标用户信息。

具体的，从用户信息对应关系库中，获取该第一区别信息对应的目标用户信息，该用户信息对应关系库用于存储区别信息和用户信息的对应关系。可选的，该过程可以通过获取目标账户标识，再根据该目标账户标识获取目标账户标识对应的用户信息。目标账户标识根据第一初始文本数据和用户信息生成，该目标账户标识的生成过程如图10所示。

可选的，在一种可能的实现方式中，该第一区别信息中的多个第一区别元素可以根据在第一初始文本数据中出现的位置，依次进行关联，在用户信息对应关系库中查找包括该第一区别信息中的多个第一区别元素且顺序一致的区别信息，并根据获取到的区别信息获取对应的目标用户信息，如若第一区别信息为“词1、词3、词8”，则在用户信息关系库中查找包括“词1、词3、词8”三个区别元素且这三个区别元素的相对位置相同的区别信息。或者，在另一种可能的实现方式中，可以在用户信息对应关系库中获取包括第一区别信息中的每个第一区别元素的区别信息，根据获取到的区别信息获取对应的目标用户信息，如若第一区别信息为“词1、词3、词1”，则在用户信息关系库中查找包括两个“词1”和一个“词3”的区别信息，而不关注两个“词1”和一个“词3”的相对位置。

可选的，若该第一区别信息对应多个第一用户信息，则获取第二目标文本数据，该第一目标文本数据和第二目标文本数据属于同一应用中的同一账户，根据该第二目标文本数据执行上述步骤S201和步骤S202，得到第二目标文本数据的第二区别信息，根据第二区别信息查找该第二区别信息对应的至少一个第二用户信息，将多个第一用户信息和至少一个第二用户信息中相同的用户信息确定为目标用户信息。

本发明实施例通过获取到被转载的第一目标文本数据后，根据该第一目标文本数据查找与之相似的第一初始文本数据，对比第一目标文本数据和第一初始文本数据后得到第一区别信息，根据区别信息和用户信息的对应关系，查找第一区别信息对应的目标用户信息该目标用户信息为首次查阅该第一目标文本数据的目标用户的信息，相当于确定了转载该第一目标文本数据的转载源头，如有需要可以对该第一目标文本数据进行维权，提高了对文本数据的版权保护力度，也可以有效减少文本数据被随意转载的现象。

进一步的，请参见图5，图5是本发明实施例提供的另一种确定查阅文本数据的用户的方法流程示意图。如图5所示，该方法包括如下步骤：

步骤S501，获取被转载的第一目标文本数据，根据第一目标文本数据查找第一初始文本数据。

具体的，该步骤与上述图2中所示步骤S201相同，具体的实现过程参见图2中步骤S201所示具体描述，根据第一目标文本数据从版权文库中查找到第一初始文本数据，在此不做赘述。

步骤S502,对比第一目标文本数据和第一初始文本数据，得到第一区别信息。

具体的，该步骤与上述图2中所示步骤S202相同，具体的实现过程参见图2中步骤S202所示具体描述，在此不做赘述。

步骤S503，查找到第一区别信息对应多个第一用户信息，获取第一应用中第一目标文本数据的第一账户信息。

具体的，参见图2所示步骤S203中的具体描述，从用户信息对应关系库中，获取第一区别信息对应的第一用户信息，若查找到第一区别信息对应多个第一用户信息，则获取第一应用中转载该第一目标文本数据的第一账户的信息，该第一初始文本数据来自第二应用。

具体的，在图2所示各个步骤中关于“游戏攻略内容”的实施例，假定从用户信息对应关系库中，根据第一区别信息[“严寒”、“人员”、“补给”]查找该第一区别信息对应的第一用户信息，查找到用户A信息及用户B信息，则获取第一应用中转载第一目标文本数据的第一账户的信息，该第一应用为监测到第一目标文本数据的应用，该第一账户为在第一应用中发布第一目标文本数据的账户，其中，此时的第二应用指“应用游戏攻略网站”。

步骤S504，在第一应用中获取第二目标文本数据，根据第二目标文本数据得到至少一个第二用户信息。

具体的，参见图2中步骤S201所示的获取第一目标文本数据和第一初始文本数据的实现过程描述，在第一应用中获取第二目标文本数据，根据第二目标文本数据在第二应用中查找第二初始文本数据，所查找的第二初始文本数据和第二目标文本数据的相似度大于第一阈值；参见图2中步骤S202所示的得到第一区别信息的实现过程描述，对比第二目标文本数据和第二初始文本数据，得到第二区别信息，第二区别信息包含至少一个第二区别元素，该第二区别元素为第二初始文本数据中不同与第二目标文本数据的元素；参见图2的步骤S203中的具体描述，从用户信息对应关系库中，获取第二区别信息对应的至少一个第二用户信息。

具体的，这里假定根据第二区别信息获取到至少一个第二用户信息，该第二用户信息包括用户A信息及用户C信息。

步骤S505，根据多个第一用户信息和至少一个第二用户信息确定目标用户信息。

具体的，将多个第一用户信息和至少一个第二用户信息中相同的用户信息确定为目标用户信息。

具体的，在上述多个第一用户信息包括用户A信息和用户B信息，至少一个第二用户信息包括用户A信息和用户C信息时，可以得到多个第一用户信息和至少一个第二用户信息中相同的用户信息确定为目标用户信息。

其中，若多个第一用户信息和至少一个第二用户信息仍包括多个相同的用户信息，或者多个第一用户信息和至少一个第二用户信息中不包括相同的用户信息时，则可以参见步骤S504所示，在第一应用中获取第三目标文本数据，得到至少一个第三用户信息，将多个第一用户信息、至少一个第二用户信息和至少一个第三用户信息中或多个第一用户信息和至少一个第三用户信息中相同的用户信息确定为目标用户信息。

本发明实施例在根据第一初始文本数据中的第一区别信息查找到多个第一用户信息时，可以通过在第一应用中的第一目标文本数据的第一账户下，获取第二目标文本数据，根据第二目标文本数据获取至少一个第二用户信息，将第一用户信息和第二用户信息中相同的用户信息确定为目标用户信息，该第一账户为第一应用中发布第一目标文本数据和第二目标文本数据的账户，对于同一转载账户下转载的目标文本数据而言，一般属于同一用户的查阅文章，从而在根据第一区别信息获取到多个用户信息时，可以根据多个目标文本数据进行联合获取，得到首次查阅该第一目标文本数据的目标用户，相当于确定了转载该第一目标文本数据的转载源头，如有需要可以实现对该第一目标文本数据进行维权，提高了文本数据的版权保护力度，也可以有效减少随意转载的现象。

请参见图6，图6是本发明实施例提供的一种目标文本数据的生成流程示意图。如图6所示，上述方法包括如下步骤：

步骤S601，接收对第一初始文本数据的查阅请求。

具体的，接收到对第一初始文本数据的查阅请求，该查阅请求包括用户信息。具体的，若检测到第一初始文本数据被点击，则获取该第一初始文本数据被点击时的登陆用户信息，根据该被点击操作时的登陆用户信息生成对第一初始文本数据的查阅请求。

其中，当接收到该第一初始文本数据的查阅请求后，通过该查阅请求中包含的用户信息，在用户信息对应关系库中查找该第一初始文本数据是否存在该用户信息和区别信息的对应关系，若存在，则表示已为该用户信息生成该第一初始文本数据的目标文本数据，则结束本次目标文本数据的生成过程；若不存在，则表示本次为该用户信息的用户首次查阅该第一初始文本数据，执行步骤S602。即对于任一初始文本数据，同一用户对其进行多次查阅时，所查看到的目标文本数据相同，只有首次对该任一初始文本数据进行查阅会生成该用户的目标文本数据。

具体如图7所示，图7是本发明实施例提供的一种可能的查阅场景示意图。如图7所示，该查阅场景示意图是在查阅界面70中进行，该查阅界面70包括用户显示界面701和文本数据显示界面702。用户显示界面701用于显示该查阅界面70的登陆用户为用户A，当检测到文本数据显示界面702发生点击操作时，获取该点击操作对应的查阅请求，其中，该点击操作对应的点击对象为第一初始文本数据，该查阅请求包括的用户信息为用户显示界面701中获取的用户A的信息。具体的，如图7中所示，当服务器检测到文本数据显示界面702中的“A游戏...剧情boss攻略”被点击，则将该“A游戏...剧情boss攻略”记为第一初始文本数据，根据用户显示界面701获取的用户信息获取到对该第一初始文本数据的查阅请求。

步骤S602，替换该第一初始文本数据中的区别信息，生成目标文本数据。

具体的，扫描第一初始文本数据，提取第一初始文本数据中的区别信息，该区别信息包括多个区别元素，从替换数据库查找多个区别元素中每个区别元素对应的替换数据，将每个区别元素替换为与每个区别元素对应的替换数据，从而得到目标文本数据。

其中，多个区别元素包括：词类元素、短语类元素、符号类元素和专业名词中的至少一类元素，符号类元素包括标点符号、分段符和分词符中的至少一种。具体的，若区别元素为词类元素或短语类元素，则从替换数据库中查找该区别元素对应的替换文字，将该区别元素替换为该替换文字；若区别元素为符号类元素中的第一标点符号，则将该第一标点符号替换为第二标点符号，第一标点符号与第二标点符号不同，如将“，”替换为“。”或“；”或其他除第一标点符号的标点符号；若区别元素为符号类元素中的分段符，则删除该分段符，即将至少两段文字合并成一段；若区别元素为符号类元素中的分词符，则在该分词符所在的位置插入分段符，即若该区别元素指向的数据为空，无实际内容，则从该区别元素指向的部分将一段文字分成两段；若区别元素为专业名词，则获取该专业名词对应的描述性数据，向初始文本数据中插入上述专业名词所对应的描述性数据。其中，替换数据库用于存储区别元素和该区别元素对应的替换数据，每个区别元素都对应至少一个替换数据，如下表2所示：

表2

区别元素	替换数据
		严寒	寒冬、酷寒
人员	成员
		补给	给养、物资
…	…

具体的，在实现过程中，在提取第一初始数据的区别信息时，获取该区别信息与该第一初始文本数据对应的已有区别信息的相似值，若该区别信息与第一初始文本数据对应的已有区别信息中任一已有区别信息的相似值大于第三阈值，则对该区别信息中的至少一个区别元素进行更改。

具体的，假定获取到第一初始文本数据“A游戏...剧情boss攻略”的内容“…在严寒中，为了解决帮派人员的生存问题。德奇、亚瑟和弥迦冒着风雪外出寻找补给。…”，根据用户A信息从该第一初始文本数据中提取多个区别元素“严寒”、“人员”、“补给”，每个区别元素都属于替换数据库，并从如表2所示的替换数据库中查找每个区别元素对应的替换数据，假定获取到区别元素“严寒”对应的替换数据为“寒冬”，区别元素“人员”对应的替换数据为“成员”，区别元素“补给”对应的替换数据为“给养”，则将每个区别元素替换为与每个区别元素对应的替换数据，得到目标文本数据“…在寒冬中，为了解决帮派成员的生存问题。德奇、亚瑟和弥迦冒着风雪外出寻找给养。…”。

假定接收到用户A对该第一初始文本数据的查阅请求后，检测到该第一初始文本数据被用户B查阅过，则根据用户A在第一初始文本数据中提取区别信息时，对于第一初始文本数据，用户A的区别信息与用户B的区别信息的相似值不大于第三阈值。

步骤S603，生成区别信息和用户信息的对应关系，并展示目标文本数据。

具体的，生成区别信息和用户信息的对应关系，并进行存储，向该用户信息对应的用户展示目标文本数据，其中，可以将该区别信息和用户信息的对应关系存储进用户信息对应关系库中。其中，该区别信息和用户信息的对应关系可以在同一张表中进行存储，也可以通过初始文本数据拆分成多个表进行存储。

可选的，还可以根据该用户信息和第一初始文本数据生成账户标识，该账户标识是通过对用户信息和第一初始文本数据进行加密生成的唯一标识，可以认为每个用户信息对应多个账户标识，每个账户标识指示一个用户信息和文本数据的对应关系，该账户标识的生成过程如图10所示。其中，生成区别信息和用户信息的对应关系，及根据初始文本数据、用户信息生成账户标识，并生成区别信息和账户标识的对应关系是本方案中两种可行的实现方式。

举例来说：假定对不同的初始文本数据，区别信息和用户信息的对应关系存储在不同的表中，则将用户A信息与区别信息的对应关系写入第一初始文本上护甲的用户信息对应关系表中，该第一初始文本数据的用户信息对应关系表可以如下表3所示：

表3

区别信息	用户信息
		…、工具、严寒、人员、补给、…	用户B
…、严寒、人员、补给、运输、…	用户A
		…	…

进一步地，参见图8，图8是本发明实施例提供的另一种目标文本数据的生成流程示意图。如图8所示，该方法包括如下过程：

步骤S801，接收对第一初始文本数据的查阅请求。

具体的，本步骤的具体实现过程参见图6中步骤S601所示的具体描述，在此不做赘述。

步骤S802，判断第一初始文本数据中的第一区别元素的数量是否小于第二阈值。

具体的，扫描第一初始文本数据，提取该第一初始文本数据中属于替换数据库中的全部的第一区别元素(该获取全部第一区别元素的过程参见图6中步骤S602的具体描述)，获取该全部的第一区别元素的数量，判断第一初始文本数据中所包含的第一区别元素的数量是否小于第二阈值，若小于第二阈值，则执行步骤S803，若不小于第二阈值，则执行步骤S804。

步骤S803，生成更新后的第一初始文本数据。

具体的，在第一初始文本数据中所包含的第一区别元素的数量小于第二阈值时，获取第二初始文本数据，将第一初始文本数据和第二初始文本数据进行拼接，或将第二初始文本数据插入第一初始文本数据中，得到更新后的第一初始文本数据。其中，该第二初始文本数据可以是与第一初始文本数据的文本标签集相似度大于第四阈值的文本标签集对应的文本数据，也可以是上述查阅请求中的用户信息查阅过的其他文本数据。

步骤S804，替换该第一初始文本数据中的区别信息，生成目标文本数据。

具体的，本步骤的具体实现过程参见图6中步骤S602所示的具体描述，在此不做赘述。

步骤S805，生成区别信息和用户信息的对应关系，并展示目标文本数据。

具体的，本步骤的具体实现过程参见图6中步骤S603所示的具体描述，在此不做赘述。

本发明实施例中通过接收用户对第一初始文本数据的查阅请求，提取第一初始文本数据的第一区别信息，将第一初始文本数据中第一区别信息中的每个第一区别元素替换为对应的替换数据，并记录第一区别信息和用户信息的对应关系，同时保障对于同一个初始文本数据，不同的用户信息对应的区别信息两两间的相似值不大于第三阈值，降低了同一区别信息对应相同的用户信息的概率。由于服务器不会向用户显示初始文本数据，而是进行替换后的文本数据，因此每个用户对于同一个初始文本数据查看到的内容不同，因此可以认为获取到被转载的文本数据后，根据该被转载的文本数据查找到的用户信息为该被转载的文本数据的首位查看者，相当于确定了转载该目标文本数据的转载源头，如有需要可以实现对被转载的文本数据的维权，进而有效减少随意转载的现象，提高了文本数据的版权保护力度。

具体的，图2或图5所示各个步骤中所使用的用户信息对应关系库是通过图6或图7所示各个步骤生成。具体的，服务器接收到对第一初始文本数据的查阅请求，就根据该查阅请求中的用户信息提取第一初始文本数据的区别信息，替换该区别信息，生成目标文本数据，生成该区别信息和用户信息的对应关系，并向该用户信息的用户展示目标文本数据(如图6或图7中所示各个步骤的具体描述)。当互联网获取到被转载的第一目标文本数据，根据第一目标文本数据查找第一初始文本数据，对比第一目标文本数据和第一初始文本数据得到第一区别信息，根据图6或图7中所示各个步骤生成的区别信息和用户信息的对应关系，查找第一区别信息对应的目标用户信息(如图2或图5所示各个步骤的具体描述)。

可选的，上述提到的区别元素可以是第一初始文本数据中不同于第一目标文本数据的元素；也可以是第一目标文本数据中不同于第一目标文本数据的元素；或者也可以是第一目标文本数据和第一目标文本数据中不同的元素的替换关系，例如第一目标文本数据中元素“寒冬”和第一初始文本数据中元素“严寒”不同，则区别元素为“严寒-寒冬”。

进一步，请一并参见图9，图9从功能逻辑的角度更完整地展示了图2及图6所示方法可能涉及到的其他方面，以方便读者进一步理解本申请记载的技术方案，图9为本发明实施例提供的一种功能逻辑模块的示意图。如图9所示，所述功能逻辑模块中可以包括身份识别模块、指纹生成模块、剽窃追溯模块。这些模块可以分别对获取到的文本数据或用户信息等执行该模块所具备的功能。

该图9所示的各个模块是通过生成账户标识，并生成账户标识和区别信息的对应关系实现确定查阅文本数据的用户。具体的，这些模块分别对应如下过程：901、身份识别；902、指纹生成；903、剽窃追溯。具体说明如下：

901、身份识别。

具体的，服务器在接收到该用户对初始文本数据的查阅请求，该查阅请求可以包括初始文本数据的内容ID，获取该用户的用户登录信息，对该用户进行实名校验，当该实名校验通过，则传递该用户的用户标识uid，根据初始文本数据的内容ID和用户标识uid通过加密算法生成该用户的阅读者序列id，通过该阅读者序列id从近义词库中选取唯一近义词表，并将该唯一近义词表和阅读者序列id的对应关系存储到阅读者序列关联表中，并将该唯一近义词表发送到902中进行处理。其中，该阅读者序列id为上述图2中步骤S203及图6中步骤S603所示的账户标识的一种；该近义词库为上述图6中步骤S602所示的替换数据库的一种可能的实现形式；该阅读者序列关联表为上述图6中步骤S603所示用户信息对应关系库的一种可能表现形式。

具体的，假定张三申请调阅XX游戏攻略网站的“荒野大镖客2原版攻略全集”，当服务器接收到张三对“荒野大镖客2原版攻略全集”的查阅请求，接收张三的登录信息，包括手机号码等，并对该张三的登录信息进行实名校验。其中，一种可能的实现方式中，接收张三的手机号码，对该手机号码进行短信验证，根据手机号与身份证的绑定关系对张三的真实身份进行追溯。若识别到张三为“荒野大镖客2原版攻略全集”的第五个调阅者，则为其生成阅读者序列id“DBK00003”，该阅读者序列id为张三在“荒野大镖客2原版攻略全集”的唯一识别码，针对识别码“DBK00003”对“荒野大镖客2原版攻略全集”中提取多个区别元素，该区别元素的数量大于第二阈值，以保证冗余，防止篡改丢失区别信息。其中，假定多个区别元素为至少30处文字，区别信息可以称为指纹。

902、指纹生成。

具体的，该过程参见图6中步骤S602～步骤S603或图8中步骤S804～步骤S805所示具体描述。具体的，当获取到唯一近义词表后，生成追溯替换词，并替换内容原文中的区别信息，为用户展示添加指纹后的内容。其中，该追溯替换词为上述图2～图8中各个步骤中的区别信息，此处的指纹为上述追溯替换词。

具体的，在针对识别码“DBK00003”对“荒野大镖客2原版攻略全集”中提取多个区别元素，通过近义词库对“荒野大镖客2原版攻略全集”中的多个区别元素进行近义替换，得到添加指纹后内容，为用户展示添加指纹后内容。如在“荒野大镖客2原版攻略全集”中的“在严寒中，为了解决帮派人员的生存问题。德奇、亚瑟和弥迦冒着风雪外出寻找补给。”，这句话中，获取到的唯一近义词表为“严寒”、“人员”、“补给”，通过近义词库，将“严寒”替换为“寒冬”，“人员”替换为“成员”，“补给”替换为“给养”等，从而得到添加指纹后内容“在寒冬中，为了解决帮派成员的生存问题。德奇、亚瑟和弥迦冒着风雪外出寻找给养。”，将该添加指纹后内容展示给张三，该指纹为“严寒、人员、补给”。

其中，可替换的词都存储于“近义词库”中，并保证每个词都有至少一种替换词，所有替换点必须保证包括多个替换点与其他唯一识别码的替换点不同，该多个替换点的数量大于第三阈值，以保证唯一性，如假定第三阈值为10，若李四也调阅过该“荒野大镖客2原版攻略全集”的内容，则保证至少10个词所选的近义词与张三不同。

903，剽窃追溯。

具体的，当获取到目标文本数据，该目标文本数据为被剽窃内容，根据该被剽窃内容抓取内容原文，对比被剽窃内容和内容原文，得到替换词还原序列id，该替换词还原序列id为区别信息，根据901中生成的阅读者序列关联表，获取该替换词还原序列id对应的阅读者序列id，并将该阅读者序列id还原成用户uid，根据uid还原实名资料，启动报案、诉讼程序。

具体的，在接收管理人员提交的目标文本数据的情况下，在一种可能的实现方式中，XX游戏攻略网站的管理人员在网上或其他出版物看到/爬取到疑似剽窃“荒野大镖客2原版攻略全集”的内容，则将该内容录入到溯源系统，服务器获取到疑似剽窃“荒野大镖客2原版攻略全集”的内容，通过溯源系统与原文进行对比，获取区别信息，该区别信息为剽窃内容中的替换词和原文中的被替换词。例如获取到“严寒”替换为“寒冬”，“人员”替换为“成员”，“补给”替换为“给养”，根据阅读者序列关联表中记录单额阅读者序列id和唯一近义词表的对应关系，获得该区别信息对应的阅读者序列id“DBK00003”，通过该阅读者序列id“DBK00003”还原到张三的用户标识uid，查找张三的手机号，并通过该手机号向公安机关报案，从而实现对“荒野大镖客2原版攻略全集”文本数据的维权，提高文本数据的版权保护力度，进而有效减少随意转载的现象。

需要说明的是，图9所示的身份识别模块、指纹生成模块和剽窃追溯模块是逻辑上的功能性说明。可行的方案中，上述身份识别模块、指纹生成模块可以与剽窃追溯模块部署在同一个物理机上，也可以部署在其他物理机上，本发明实施例对此不做限定。

请参见图10，图10是本发明实施例提供的一种账户标识生成流程示意图。如图10所示，该账户标识生成过程包括个人身份信息收录和身份信息简化两部分，其中，个人身份信息收录部分包括步骤S1001～步骤S1004，身份信息简化部分包括步骤S1005，具体如下：

步骤S1001，判断用户是否登录。

具体的，当接收到用户对原文内容的查阅请求，获取该用户的登录状态以判断该用户是否登录。若存在该用户的登录信息，则执行步骤S1003；若不存在该用户的登录信息，表示该用户未登录，则执行步骤S1002。

步骤S1002，获取用户登陆信息，生成用户标识uid，为该用户标识uid绑定用户登录的IP/设备信息。

具体的，在不存在用户的登录信息时，获取用户登录信息，根据该登录信息生成用户标识uid，并获取该用户的IP/设备信息，将获取到的IP/设备信息绑定到该用户标识uid。

步骤S1003，判断该用户登录信息是否绑定手机。

具体的，判断该用户登录信息中是否包括手机号码，若该用户登录信息中包括手机号码，则表示该用户登录信息中绑定了手机，执行步骤S1005；若该用户登录信息中不包括手机号码，则表示该用户登录信息中未绑定手机，则执行步骤S1004。

步骤S1004，绑定手机。

具体的，若该用户登录信息中未绑定手机，则向该用户显示手机绑定界面，通过该手机绑定界面获取用户提交的手机号码，并将该手机号码绑定到用户标识uid中。

步骤S1005，获取用户查阅的文章的文章标识aid，根据查阅顺序生成账户标识auid。

具体的，当用户登录后，服务器再次接收一次该用户对原文内容的查阅请求，获取原文内容的文本标识aid及该用户对原文内容的查阅顺序，根据文本标识aid及用户对原文内容的查阅顺序生成账户标识auid。

举例来说：若获取到用户标识uid为“wx6174455”，手机号码Tel为“139xxxx4222”及该用户的IP为“xxxxxxxxxxxx”，并获取到查阅的文章标识aid为“kxadd7xxxfd32”，通过加密算法对uid、Tel、IP及aid进行加密计算，得到该原文内容对用户的账户标识auid为“123”。其中，该加密算法是通用的加密算法，可以根据需求由管理人员设置。其中，在生成账户标识时，对该账户标识进行去重处理，若已经存在相同的账户标识，则重新生成新的账户标识，若不存在相同的账户标识，则该账户标识为该用户和所查阅的原文内容的唯一标识，从而对于同一原文内容来说，保障账户标识的唯一性，即账户标识和用户信息的唯一对应关系。

参见图11，图11是本发明实施例提供的一种文章剽窃源头的用户信息确定方法流程图。如图11所示，该文章剽窃源头的用户信息确定方法包括如下步骤：

步骤S1101，获得嫌疑剽窃文章。

具体的，获得嫌疑剽窃文章，并根据该剽窃文章获取原文内容，该过程的具体实现方式参见图2中步骤S201所示，获取被转载的第一目标文本数据，根据第一目标文本数据查找第一初始文本数据过程的具体描述。

步骤S1102，比对剽窃文章和原文内容，提取文章指纹。

具体的，该过程的具体实现方式参见图2中步骤S202所示，对比第一目标文本数据和第一初始文本数据，得到第一区别信息的过程的具体描述。其中，剽窃文章为第一目标文本数据，原文内容为第一初始文本数据，文章指纹为第一区别信息。若成功提取文章指纹，则执行步骤S1103，若未成功提取文章指纹，则结束本次文章剽窃源头的用户信息确定过程。

步骤S1103，查找绑定auid。

具体的，该过程的具体实现方式参见图2中步骤S203所示，查找第一区别信息对应的目标用户信息的过程的具体描述。此处的绑定auid为目标用户信息或者步骤S203具体描述中的目标账户标识。若查找到多个绑定auid，则执行步骤S1104；若查找到单个绑定auid，则执行步骤S1105。

步骤S1104，联合其他文章过滤去重获得绑定auid。

具体的，该过程的具体实现方式参见图5中步骤S504～步骤S505所示的具体描述，从多个绑定auid中获得唯一的绑定auid。其中，其他文章为第二目标文本数据或更多目标文本数据。

步骤S1105，获得用户设备信息及电话号码信息。

具体的，通过绑定auid获取用户的信息，该用户的信息包括用户设备信息及手机号码信息，通过该手机号码信息对用户进行维权操作。

可选的，参见图12，图12是本发明实施例提供的一种确定查阅文本数据的用户的装置。如图12所示，该确定查阅文本数据的用户的装置可以用于上述图2或图5或图6或图8所对应实施例中的电子设备，具体的该确定查阅文本数据的用户的装置1a包括获取模块10a、查找模块20a和对比模块30a。

获取模块10a，用于获取被转载的第一目标文本数据；

查找模块20a，用于根据所述第一目标文本数据查找第一初始文本数据，所查找到的所述第一初始文本数据与所述第一目标文本数据的相似度大于第一阈值；

对比模块30a，用于对比所述第一目标文本数据与所述第一初始文本数据，得到第一区别信息，所述第一区别信息包含至少一个第一区别元素，所述第一区别元素为所述第一初始文本数据中不同于所述第一目标文本数据的元素；

所述查找模块20a，还用于查找所述第一区别信息对应的目标用户信息，所述目标用户信息为首次查阅所述第一目标文本数据的目标用户的信息。

其中，上述确定查阅文本数据的用户的装置1a还包括：

接收模块40a，用于接收用户对所述第一初始文本数据的查阅请求，所述查阅请求包括所述用户的用户信息；

替换模块50a，用于替换所述第一初始文本数据中的区别信息，以生成目标文本数据，所述区别信息包括多个区别元素；

生成模块60a，用于生成所述区别信息和所述用户信息的对应关系；

显示模块70a，用于向所述用户展示所述目标文本数据。

其中，上述替换模块50a包括：

提取单元501a，用于扫描所述第一初始文本数据，提取所述第一初始文本数据中的多个区别元素；

第一查找单元502a，用于从替换数据库中查找所述多个区别元素中各个区别元素对应的替换数据；

替换单元503a，用于将每个区别元素更改为所述区别元素对应的所述替换数据，得到所述目标文本数据。

其中，上述替换模块50a还包括：

所述提取单元501a，还用于扫描所述第一初始文本数据，提取所述第一初始文本数据中属于替换数据库中的全部的第一区别元素；

第一获取单元504a，用于若所述全部的第一区别元素的数量小于第二阈值，则获取第二初始文本数据；

生成单元505a，用于将所述第一初始文本数据和所述第二初始文本数据拼接，得到更新后的所述第一初始文本数据。

其中，上述替换单元503a包括：

判断子单元5031a，用于判断所述区别元素的类别；

执行子单元5032a，根据所述判断子单元5031a得到的所述区别元素的类别，执行将所述区别元素替换为所述区别元素对应的替换数据。

其中，若所述判断子单元5031a得到所述区别元素为词类元素或短语类元素，则所述执行子单元5032a从所述替换数据库中查找所述区别元素对应的替换文字，将所述区别元素替换为所述替换文字；

若所述判断子单元5031a得到所述区别元素为符号类元素中的第一标点符号，则所述执行子单元5032a将所述标点符号替换为第二标点符号，所述第一标点符号与所述第二标点符号不同；

若所述判断子单元5031a得到所述区别元素为所述符号类元素中的分段符，则所述执行子单元5032a删除所述分段符；

若所述判断子单元5031a得到所述区别元素为所述符号类元素中的分词符，则所述执行子单元5032a在所述分词符所在的位置插入所述分段符；

若所述判断子单元5031a得到所述区别元素为专业名词，则所述执行子单元5032a获取所述专业名词对应的描述性数据，向所述初始文本数据中插入所述专业名词所对应的描述性数据。

其中，在查找所述第一区别信息对应的目标用户信息方面上述查找模块20a包括：

第二获取单元201a，用于若查找到所述第一区别信息与多个第一用户信息相对应，则获取第一应用中转载所述第一目标文本数据的第一账户的信息，其中，所述第一初始文本数据来自第二应用；

所述第二获取单元201a，还用于在所述第一应用中获取所述第一账户转载的第二目标文本数据；

第二查找单元202a，用于根据所述第二目标文本数据在所述第二应用中查找第二初始文本数据，所查找到的所述第二初始文本数据与所述第二目标文本数据的相似度大于所述第一阈值；

对比单元203a，用于对比所述第二目标文本数据和所述第二初始文本数据，得到第二区别信息，所述第二区别信息包含至少一个第二区别元素，所述第二区别元素为所述第二初始文本数据中不同于所述第二目标文本数据的元素；

所述第二查找单元202a，还用于查找所述第二区别信息对应的至少一个第二用户信息；

确定单元204a，用于将所述多个第一用户信息和所述至少一个第二用户信息中相同的用户信息确定为目标用户信息。

具体实现中，上述装置可通过上述各个模块执行上述图2或图5或图6或图8所提供的实现方式中各个步骤所提供的实现方式，实现上述各实施例中所实现的功能，具体可参见上述图2或图5或图6或图8所示的方法实施例中各个步骤提供的相应描述，在此不再赘述。

本发明实施例提供了一种确定查阅文本数据的用户的装置，上述装置在用户请求查阅初始文本数据时会给用户展示与初始文本数据存在区别元素的另一个展示文本数据，并建立用户信息与包含区别元素的区别信息之间的对应关系，在这一场景下，如果获取到被转载的目标文本数据后，可以先根据目标文本数据查找与之相似的第一初始文本数据，再对比目标文本数据和初始文本数据后得到区别信息，最后根据区别信息和用户信息对应关系，可以得到首次查阅该目标文本数据的目标用户，相当于确定了转载该目标文本数据的转载源头，如有需要可以实现对该目标文本数据进行维权，提高了文本数据的版权保护力度，也可以有效减少随意转载的现象。

参见图13，图13是本申请实施例提供的电子设备的结构示意图。如图13所示，本实施例中的终端设备可以包括：一个或多个处理器1301、存储器1302和收发器1303。上述处理器1301、存储器1302和收发器1303通过总线1304连接。存储器1302用于存储计算机程序，该计算机程序包括程序指令，收发器1303用于连接终端设备，与上述电子设备进行数据交互；处理器1301用于执行存储器1302存储的程序指令，执行如下操作：

在一些可行的实施方式中，上述处理器1301可以是中央处理单元(centralprocessing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器1302可以包括只读存储器和随机存取存储器，并向处理器1301和收发器1303提供指令和数据。存储器1302的一部分还可以包括非易失性随机存取存储器。例如，存储器1302还可以存储设备类型的信息。

具体实现中，上述电子设备可通过其内置的各个功能模块执行如上述图2或图5或图6或图8各个步骤所提供的实现方式，具体可参见上述图图2或图5或图6或图8中各个步骤所提供的实现方式，在此不再赘述。

本发明实施例通过提供一种电子设备，包括：处理器、收发器、存储器，通过处理器获取存储器中的计算机指令，执行上述图2或图5或图6或图8中所示方法的各个步骤，进行根据获取目标文本数据，并根据目标文本数据获取初始文本数据，对比目标文本数据和初始文本数据，得到两者的区别信息，根据区别信息获取用户信息，及根据用户信息提取初始文本数据的区别信息，将区别信息中的每个区别元素替换为替换数据，进而生成目标文本数据及区别信息和用户信息对应关系的操作，从而根据区别信息和用户信息对应关系，可以得到首次查阅该目标文本数据的目标用户，相当于确定了转载该目标文本数据的转载源头，如有需要可以根据用户信息向该用户信息对应的用户进行维权操作，提高了对文本数据的版权保护力度，也可以有效减少随意转载现象。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图2或图5或图6或图8中各个步骤所提供的确定查阅文本数据的用户的方法，具体可参见上述图2或图5或图6或图8各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的确定查阅文本数据的用户的装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flashcard)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。另，术语“至少”是用于列举部分情况，以反映实施过程，而非只包括给出的方法实施要求。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

实施本发明实施例，将具有如下有益效果：

本发明实施例提供了一种确定查阅文本数据的用户的方法及装置，在用户请求查阅初始文本数据时会给用户展示与初始文本数据存在区别元素的另一个展示文本数据，并建立用户信息与包含区别元素的区别信息之间的对应关系，在这一场景下，如果获取到被转载的目标文本数据后，可以先根据目标文本数据查找与之相似的第一初始文本数据，再对比目标文本数据和初始文本数据后得到区别信息，最后根据区别信息和用户信息对应关系，可以得到首次查阅该目标文本数据的目标用户，相当于确定了转载该目标文本数据的转载源头，如有需要可以实现对该目标文本数据进行维权，提高了文本数据的版权保护力度，也可以有效减少随意转载的现象。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种确定查阅文本数据的用户的方法，其特征在于，包括:

查找所述第一区别信息对应的目标用户信息，所述目标用户信息为首次查阅所述第一目标文本数据的目标用户的信息，其中，所述目标用户信息与所述第一区别信息之间的对应关系，为在首次接收到对所述第一初始文本数据的查阅请求，替换所述第一初始文本数据中的第一区别信息以生成所述第一目标文本数据后，根据所述第一区别信息和所述查阅请求包括的所述目标用户信息生成的对应关系。

2.如权利要求1所述的方法，其特征在于，所述获取被转载的第一目标文本数据之前，包括：

3.如权利要求2所述的方法，其特征在于，所述替换所述第一初始文本数据中的区别信息，以生成目标文本数据，包括：

4.如权利要求2所述的方法，其特征在于，所述替换所述第一初始文本数据中的区别信息之前，还包括：

5.如权利要求3所述的方法，其特征在于，所述多个区别元素包括：词类元素、短语类元素、符号类元素和专业名词中的至少一类元素，所述符号类元素包括标点符号、分段符和分词符中的至少一种。

6.如权利要求5所述的方法，其特征在于，所述将所述每个区别元素替换为与所述每个区别元素对应的替换数据，包括：

若所述区别元素为所述符号类元素中的第一标点符号，则将所述第一标点符号替换为第二标点符号，所述第一标点符号与所述第二标点符号不同；

若所述区别元素为所述专业名词，则获取所述专业名词对应的描述性数据，向所述初始文本数据中插入所述专业名词所对应的描述性数据。

7.如权利要求1所述的方法，其特征在于，所述查找所述第一区别信息对应的目标用户信息，包括：

查找所述第二区别信息对应的至少一个第二用户信息；

8.一种确定查阅文本数据的用户的装置，其特征在于，所述装置包括：

获取模块，用于获取被转载的第一目标文本数据；

所述查找模块，还用于查找所述第一区别信息对应的目标用户信息，所述目标用户信息为首次查阅所述第一目标文本数据的目标用户的信息，其中，所述目标用户信息与所述第一区别信息之间的对应关系，为在首次接收到对所述第一初始文本数据的查阅请求，替换所述第一初始文本数据中的第一区别信息以生成所述第一目标文本数据后，根据所述第一区别信息和所述查阅请求包括的所述目标用户信息生成的对应关系。

9.一种电子设备，其特征在于，包括处理器、存储器、输入输出接口；

所述处理器分别与所述存储器和所述输入输出接口相连，其中，所述输入输出接口用于页面交互，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-7任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-7任一项所述的方法。