CN117521630A

CN117521630A - 文本处理方法、装置及电子设备

Info

Publication number: CN117521630A
Application number: CN202311386719.9A
Authority: CN
Inventors: 徐松鹤; 黄海澄
Original assignee: Yidianlingxi Information Technology Guangzhou Co ltd
Current assignee: Yidianlingxi Information Technology Guangzhou Co ltd
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2024-02-06

Abstract

本公开涉及一种文本处理方法、装置及电子设备，该方法包括：对目标文本进行切分，获得包含文本内容的多个待评估文本数据段；针对所述待评估文本数据段访问搜索引擎，获得所述待评估文本数据段的搜索结果列表，其中，所述搜索结果列表包括针对所述待评估文本数据段的各个搜索结果的摘要内容和摘要内容中的标记内容中的至少一项，所述标记内容是搜索引擎在摘要内容中针对所述待评估文本数据段进行标记的内容；基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定目标文本在搜索引擎侧的重复度或原创度。

Description

文本处理方法、装置及电子设备

技术领域

本公开涉及文本信息处理技术领域，更具体地，涉及文本处理方法、文本处理装置及电子设备。

背景技术

在现有技术中，无法通过搜索引擎有效地监控所投放的文本内容，例如广告、推广文章等。更进一步地，无法较客观地确定所购买的文本内容是否具有价值。此外，也很难通过搜索引擎得到关于所投放的文本内容的实时结果转换效果。

发明内容

本公开实施例的一个目的是提供一种关于文本处理的新技术方案。

根据本公开的第一方面，提供了一种文本处理方法，该方法包括：

对目标文本进行切分，获得包含文本内容的多个待评估文本数据段；

针对所述待评估文本数据段访问搜索引擎，获得所述待评估文本数据段的搜索结果列表，其中，所述搜索结果列表包括针对所述待评估文本数据段的各个搜索结果的摘要内容和摘要内容中的标记内容中的至少一项，所述标记内容是搜索引擎在摘要内容中针对所述待评估文本数据段进行标记的内容；

基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定目标文本在搜索引擎侧的重复度或原创度。

可选地，所述对目标文本进行切分，获得包含文本内容的多个待评估文本数据段包括：

去除目标文本中的标签、同质化内容、与行业相关的类型词和特殊字符中的至少一项，得到处理后的目标文本；其中，所述标签是预先规定的用于描述文本属性的文本内容，所述同质化内容是多个文本共用或相似的文本内容；

对所述处理后的目标文本进行切分，获得包含文本内容的多个待评估文本数据段。

以固定字符数或者基于标点符号的位置，对目标文本进行切分，获取文本数据段的备选组；

从备选组中选取多个待评估文本数据段。

可选地，所述针对所述待评估文本数据段访问搜索引擎，获得所述待评估文本数据段的搜索结果列表包括：

针对所述待评估文本数据段，利用爬虫服务，分别访问多个搜索引擎，获得所述待评估文本数据段基于多个搜索引擎中每一搜索引擎的搜索结果列表。

可选地，所述搜索结果列表中的搜索结果为针对所述待评估文本数据段访问搜索引擎的访问首页面中的搜索结果。

可选地，所述基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定目标文本在搜索引擎侧的重复度或原创度包括：

对于每条摘要内容，删除标记内容中的重复内容，并将删除重复内容后的标记内容拼合在一起，形成第一拼合内容；

获取对应待评估文本数据段与所述第一拼合内容间的匹配字符数量；

获取所述匹配字符数量与对应待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第一匹配度；

基于第一匹配度，确定目标文本在搜索引擎侧的重复度或原创度。

可选地，所述基于第一匹配度，确定目标文本在搜索引擎侧的重复度或原创度包括：

对于每个待评估文本数据段，获取第一匹配度大于第一阈值的摘要内容的数量，作为第一数量；

基于第一数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复；

计算被确定为重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述重复度；或者，计算被确定为不重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述原创度。

可选地，所述基于第一数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复包括：

在第一数量大于第二阈值的情况下，确定对应的待评估文本数据段与搜索引擎所搜索的结果重复。

可选地，所述基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定所述目标文本在搜索引擎侧的重复度或原创度包括：

对于每条摘要内容，获取匹配标记内容，其中，匹配标记内容是被包含在待评估文本数据段中的标记内容；

对于每条摘要内容，计算所有匹配标记内容的字符数量之和，作为匹配字符和值；

获取匹配字符和值与对应的待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第二匹配度；以及

基于第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度。

可选地，所述基于第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度包括：

对于每个待评估文本数据段，获取第二匹配度大于第三阈值的摘要内容的数量，作为第二数量；

基于第二数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复；以及

可选地，所述基于第二数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复包括：

在第二数量大于第四阈值的情况下，确定对应的待评估文本数据段与搜索引擎所搜索的结果重复。

获取匹配字符数量与对应的待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第一匹配度，其中，匹配字符数量是第一拼合内容与对应的待评估文本数据段中匹配的字符的数量；

基于第一匹配度和第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度。

根据本公开的第二方面，还提供了一种文本处理方法，该方法包括：

对待投放或者已投放的目标文本进行切分，获得包含文本内容的多个待评估文本数据段；

基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定目标文本在搜索引擎侧的排查结果；其中，所述排查结果为关于文本重复度或者原创度的结果。

根据本公开的第三方面，还提供了一种文本处理装置，该装置包括：

切分模块，用于对目标文本进行切分，获得包含文本内容的多个待评估文本数据段；

访问模块，用于针对待评估文本数据段访问搜索引擎，获得所述待评估文本数据段的搜索结果列表，其中，所述搜索结果列表包括针对待评估文本数据段的各个搜索结果的摘要内容和摘要内容中的标记内容中的至少一项，所述标记内容是搜索引擎在摘要内容中针对待评估文本数据段进行标记的内容；以及

确定模块，用于基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定目标文本在搜索引擎侧的重复度或原创度。

根据本公开的第四方面，还提供了一种电子设备，其包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于在所述计算机程序的控制下，执行根据本公开的第一方面和第二方面所述的文本处理方法。

本公开实施例的一个有益效果在于，可以利用搜索引擎，有效地监控文本内容。在一个实施例中，针对从文本内容中切分出来的待评估文本数据段访问搜索引擎，获得所述待评估文本数据段的搜索结果列表，从而得到文本内容在搜索引擎侧的重复度或原创度。也就是说，可以利用搜索引擎的搜索结果，获取文本内容的重复度或原创度，从而确定文本内容的价值。此外，利用搜索引擎可以得到关于所投放的文本内容的实时结果转换效果，从而能过及时反映所投放的文本内容的价值。

通过以下参照附图对本说明书的示例性实施例的详细描述，本说明书的实施例的特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例，并且连同其说明一起用于解释本说明书实施例的原理。

图1示出了可用于实施根据本公开实施例的文本处理方法的一种电子设备的硬件结构示意图；

图2示出了根据一些实施例的文本处理方法的流程示意图；

图3示出了根据一些实施例的对目标文本进行切分的例子；

图4示出了根据一些实施例的文本处理方法中的确定目标文本在搜索引擎侧的重复度或原创度的流程示意图；

图5示出了根据一些实施例的文本处理方法中的对目标文本进行切分的流程示意图；

图6示出了根据一些实施例的对目标文本进行切分的例子；

图7示出了根据另一些实施例的文本处理方法中的对目标文本进行切分的流程示意图；

图8示出了根据另一些实施例的对目标文本进行切分的例子；

图9示出了根据一些实施例的搜索结果列表页面的示意图；

图10示出了根据另一些实施例的文本处理方法中的确定目标文本在搜索引擎侧的重复度或原创度的流程示意图；

图11示出了根据另一些实施例的文本处理方法中的确定目标文本在搜索引擎侧的重复度或原创度的流程示意图；

图12示出了根据另一些实施例的搜索结果列表页面的示意图；

图13示出了根据另一些实施例的文本处理方法中的确定目标文本在搜索引擎侧的重复度或原创度的流程示意图；

图14示出了根据另一些实施例的文本处理方法中的确定目标文本在搜索引擎侧的重复度或原创度的流程示意图；

图15示出了根据又一些实施例的文本处理方法中的确定目标文本在搜索引擎侧的重复度或原创度的流程示意图；

图16示出了将一些实施例用于广告投放前和投放后的处理的例子；

图17示出了根据一些实施例的文本处理装置的组成结构示意图；

图18示出了根据另一些实施例的电子设备的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本说明书的各种示例性实施例。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本说明书实施例及其应用或使用的任何限制。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需要说明的是，本公开实施例中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应设备所有者给予授权的情况下进行的。

本公开实施例提供了一种新的文本处理方案。首先对目标文本进行切分，得到待评估文本数据段；接着，针对待评估数据段访问搜索引擎；最后，利用搜索引擎的搜索结果列表，获取目标文本在搜索引擎的重复度或原创度。这样可以确定目标的文本的价值。通过这种方式，可以通过搜索引擎有效地监控目标文本。此外，可以利用搜索引擎实时监控目标文本，及时反映目标文本的投放效果。

图1示出了可用于实施根据本公开实施例的文本处理方法的一种电子设备的硬件结构示意图。

该电子设备1000为能够运行文本处理方法的设备，该文本可以要投放到网络上的广告、推广文章等，或者可以是已经是投放到网络上的广告、推广文章等，在此不做限定。该电子设备1000可以是手机、平板电脑、PC机等等，在此不做限定。

如图1所示，该电子设备1000可以包括处理器1101、存储器1102、接口装置1103、通信装置1104、输出装置1105、输入装置1106等等。图1所示的硬件配置仅是解释性的，并且决不是为了要限制本公开、其应用或用途。

处理器1101用于执行计算机程序，该计算机程序可以采用比如x86、Arm、RISC、MIPS、SSE等架构的指令集编写。存储器1102例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1103例如包括USB接口、网线接口、耳机接口等。通信装置1104例如能够进行有线或无线通信，通信装置1104可以包括至少一种短距离通信模块，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意模块，通信装置1104也可以包括远程通信模块，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意模块。输出装置1105例如可以包括液晶显示屏或者触摸显示屏、扬声器等。输入装置1106例如可以包括触摸屏、键盘、麦克风、各种传感器等。

本实施例中，电子设备1000的存储器1102用于存储计算机程序，该计算机程序用于控制处理器1101进行操作，以执行根据本公开任意实施例的游戏信息处理方法。

接下来，以如图1的电子设备1000作为实施主体为例，说明文本处理方法的各种实施例。

<第一实施例>

图2示出了根据一些实施例的文本处理方法的流程示意图。如图2所示，该方法可以包括步骤S210、S220和S230。

步骤S210，对目标文本进行切分，获得包含文本内容的多个待评估文本数据段。

目标文本是要评估的内容。它可以是所要投放或已经投放的广告、推广文章等。

可以通过多种方式对目标文本进行切分。例如，可以按照目标文本对自然句子，对目标文本进行切分。如图3所示，对于图3上部分中对目标文本，按照目标文本中的句号，将目标文本切分成多个待评估文本数据段E1-E7。

在一些实施例中，所得到的待评估文本数据段可以是目标文本中间部分的文本数据段。通常来说，在文本内容的开头或结尾部分的内容可能会具有较大的同质性，文本内容中新颖的内容位于中间部分。因此，选用中间部分的文本数据段可以更大程度地体现文本内容的原创性，这也使得利用这里的实施例的方案能够更大程度的考虑目标文本的原创性。

在本实施例中，电子设备1000可以基于用户的指示输入，启动对目标文本的处理，执行对目标文本的切分，获得多个待评估文本数据段。

步骤S220，针对所述待评估文本数据段访问搜索引擎，获得所述待评估文本数据段的搜索结果列表，其中，所述搜索结果列表包括针对所述待评估文本数据段的各个搜索结果的摘要内容和摘要内容中的标记内容中的至少一项，所述标记内容是搜索引擎在摘要内容中针对所述待评估文本数据段进行标记的内容。

在一些实施例中，将待评估文本段输入搜索引擎的搜索栏，得到搜索结果列表。如图4所示，在搜索结果页面中显示搜索结果列表。在图4中示出了3条摘要内容。在每个摘要内容中，以黑斜体显示标记内容。标记内容是搜索引擎通过内部处理认定为与待评估文本段密切相关段内容。在一些实施例中，搜索引擎可以通过红色字体来显示标记内容。

可以分别针对多个待评估文本数据段中的每个访问搜索引擎，也可以仅针对多个待评估文本数据段中的一个或多个待评估文本数据段访问搜索引擎。

可以针对所述待评估文本数据段，利用爬虫服务，分别访问多个搜索引擎，获得所述待评估文本数据段基于多个搜索引擎中每一搜索引擎的搜索结果列表。这可以提高自动化程度，减小人工操作的工作量。此外，通过多个不同的搜索引擎所获得搜索结果列表可以覆盖更多对搜索情形，避免遗漏检索结果的情况。此外，还可以模拟个人计算机系统、安卓系统、苹果系统环境，访问搜索引擎。可以利用一个电子设备来模拟这些系统环境，也可以通过不同的电子设备来设置这些系统环境。

所述搜索结果列表中的搜索结果为针对所述待评估文本数据段访问搜索引擎的访问首页面中的搜索结果。通常来说，首页中的搜索结果能够覆盖期望搜索结果的绝大部分情形。因此，采用首页的搜索结果既可以满足对目标文本进行评估对需求，又可以在一定程度上减小数据处理量。

步骤S230，基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定目标文本在搜索引擎侧的重复度或原创度。

在这里，可以通过将待评估文本数据段与摘要内容和标记内容中的至少一个，确定待评估文本数据段在搜索引擎侧的重复度或原创度。通过针对至少一个待评估文本数据段的重复度或原创度进行评估，确定目标文本在搜索引擎侧的重复度或原创度。

在这个实施例中，利用搜索引擎确定目标文本的重复度或原创度，从而可以相对实时地确定目标文本的价值，从而有效地对目标文件进行监控。可以将这个实施例应用于目标文本的投放前准备，也可以应用于投放后核查。例如，在投放前，确定目标文本的价值，从为是否购买目标文本或是否投放文本提供判断依据。在投放后，可以利用本实施例中的方案监控网络上是否有文章抄袭目标文本，以及在监测到抄袭的情况下，用户可以及时采取措施维护自身的权益。

<第二实施例>

在本实施例中，对上面实施例中的步骤S210进行了改进，其余的步骤S220和S230可以仍然采用上面实施例1或其他实施例中描述的方式，在这里不再进行赘述。步骤S210可以包括步骤S211和S212。

参见图5，在步骤S211，去除目标文本中的标签、同质化内容、与行业相关的类型词和特殊字符中的至少一项，得到处理后的目标文本。所述标签是预先规定的用于描述文本属性的文本内容，例如，“<标题>”、“<正文>”等。所述同质化内容是多个文本共用或相似的文本内容，例如，“今天小编给你推荐……”。

在步骤S212，对所述处理后的目标文本进行切分，获得包含文本内容的多个待评估文本数据段。

在这个实施例中，在对目标文本进行切分之前，去除目标文本中的标签、同质化内容、与行业相关的类型词或特殊字符。这些文本内容通常是在多个文本中通用的，因此，它们可能会使得最终的判断结果认为目标文本的重复成分较大，从而导致错误的判断。预先去除这些内容，可以减小这些内容的影响，从而能够更加准确地评价目的文本。

在图6的上部示出了示例性的目标文本。如图6的中部所示，从目标文本中去除了标签“<正文>”、同质化内容“今天小编给你推荐”和“总而言之”、与游戏行业相关的类型词“XXX游戏”以及特殊字符“#$￥”和“^_^”。图6的下部示出了示例性的切分后的待评价文本数据段F1-F7。

<第三实施例>

在本实施例中，对上面实施例中的步骤S210进行了改进，其余的步骤S220和S230可以仍然采用上面第一实施例或其他实施例中描述的方式，在这里不再进行赘述。步骤S210可以包括步骤S213和S214。步骤S213和S214可以与上面描述的步骤S211结合使用，以替代步骤S212，也可以独立于第二实施例使用。

如图7所示，在步骤S213，以固定字符数或者基于标点符号的位置，对目标文本进行切分，获取文本数据段的备选组。

在步骤S214，从备选组中选取多个待评估文本数据段。

在现有的搜索引擎中，在获取搜索语句进行搜索时，搜索引擎的处理机制会自动对搜索语句进行处理，从而优化搜索结果。在这个实施例中，以固定字符数来对目标文本进行切分，一方面，可以利用搜索引擎自身的处理优势，另一方面，可以通过较简单的机制来实现切分处理。事实上，这种简单的切分方式在实践中通常能够达到较好的搜索结果。

图8示出了以固定字符数切分目标文本的示意图。在图8的上部示出了目标文本的示例。如图8的中部所示，从目标文本中去除了同质化内容“今天小编给你推荐”和“总而言之”、与游戏行业相关的类型词“XXX游戏”以及特殊字符“#$￥”和“^_^”。接着，如图8的下部所示，以固定字符数，例如10个字符，对经过去除处理的目标文本进行切分，得到多个备选组G1-G14。在图8中，固定字符数不包括标点符号的数量。这是由于如果固定字符数不包括标点符号的数量，那么格个文本数据段中具有实际含义的字符数量会减少并且发生波动，这可能会影响最终的搜索结果。

此外，在图8中，以目标文本的自然段落为基准对目标文本进行切分。换句话说，对于每个自然段落，按照固定字符数进行切分，一个自然段落中最后的文本数据段的字符数可能没有达到固定字符数，例如，G3、G8、G12、G14。这种处理的原因在于，不同段落之间的意思可能是不连续的，因此，在将不同段落拼接在一起进行切分的情况，可能会使得某些文本数据段的意思不连续。这种不连续的文本数据段会影响搜索引擎的搜索结果的准确性。

在一些实施例中，目标文本的开始段落和结尾段落可能包含较多同质化的内容，不能重复体现目标文本的原创性。因此，尽管备选组包括这些段落中的文本数据段，但是，最终选择的待评估的文本数据段是从除了开始段落和结尾段落之外的段落中选择的文本数据段，例如，G5-G12。此外，还可以从备选组中去除字符数不满足固定字符数的文本数据段，例如，G8、G12。

<第四实施例>

在本实施例中，对上面实施例中的步骤S230进行了改进，其余的步骤S210和S220可以仍然采用上面实施例或其他实施例中描述的方式，在这里不再进行赘述。

如图9所示，在步骤S231，对于每条摘要内容，删除标记内容中的重复内容，并将删除重复内容后的标记内容拼合在一起，形成第一拼合内容。

在步骤S232，获取对应待评估文本数据段与所述第一拼合内容间的匹配字符数量。

在步骤S233，获取所述匹配字符数量与对应待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第一匹配度。

在步骤S234，基于第一匹配度，确定目标文本在搜索引擎侧的重复度或原创度。

例如，在本实施例中，在搜索页面中，通常以红色突出显示摘要内容中的标记内容，因此，标记内容也可以称为红字内容。例如，红字内容对应于在图4中以黑斜体显示的标记内容。

将搜索结果页面内的一条摘要内容中的红字内容集合设为：

summary_red_word[]＝{red_word1,...,red_wordN}。

例如在图4所示的示例中包括三条摘要内容。对于第一条摘要内容，summary_red_word[1]＝{AAAr,ARR,aaaa，mAAAA}。

搜索结果页面内的所有摘要内容的红字内容集合为：

summary_red_word_collection[][]＝{summary_red_word1,summary_red_word2,.....,summary_red_wordN}。例如，这里的N可以等于3。

对应的待评估文本数据段为search_word，即，图4中搜索引擎进行搜索所使用的搜索文段“AAAAAA，aaaa”。

例如，对每条摘要内容内的红字内容进行合并和去重处理后，所得到的文本数据段为：

summary_red_word_join＝去重(拼接合并(summary_red_word[]))。

对所有摘要内容内的红字内容进行合并和去重处理后，所得到的文本数据段的集合为：

summary_red_word_join_collection＝{summary_red_word_join1,summa ry_red_word_join2....summary_red_word_joinN}。

将search_word与summary_red_word_join_collection中的每一个文本数据段进行字符匹配，确定匹配字符数量。用匹配字符数量除以search_word的长度，作为第一匹配度。第一匹配度的集合为：

search_word_match_lenght_ratio_1[]＝{r1,r2....rN}。

图10示出了基于第一匹配度确定目标文本在搜索引擎侧的重复度或原创度的适意性流程图。如图10所示，在步骤S2341，对于每个待评估文本数据段，获取第一匹配度大于第一阈值的摘要内容的数量，作为第一数量。

第一阈值是用于判断重复程度的阈值，它可以是人工设置的经验值，也可以是通过机器学习获得的数据值。

在步骤S2342，基于第一数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复。

例如，在第一数量大于第二阈值的情况下，确定对应的待评估文本数据段与搜索引擎所搜索的结果重复。在最严格的情况下，可以将第二阈值设为0。在这种情况下，只要将一个待评估文本数据段判断为重复的，就会将整个目标文本判断为重复的。在其他实施例中，可以将第二阈值设置为其他值，这样，不会因为某个待评估文本数据段被判断为重复的，而直接将整个目标文本判断为重复的。这提供了一定的冗余度。

在步骤S2343，计算被确定为重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述重复度；或者，计算被确定为不重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述原创度。

在本实施例中，在确定重复度或原创度时可以综合考虑搜索结果页面中的多个摘要内容，而不必对各个摘要内容进行逐个对比。这种方式可以兼顾重复度或原创度监控的效率和有效性。此外，在本实施例中，由于去除了重复的标记内容，因此，在确定重复度或原创度时去除或减小了重复的标记内容对于评估结果的影响。

<第五实施例>

如图11所示，在步骤S235，对于每条摘要内容，获取匹配标记内容，其中，匹配标记内容是被包含在待评估文本数据段中的标记内容。

在步骤S236，对于每条摘要内容，计算所有匹配标记内容的字符数量之和，作为匹配字符和值。

在步骤S237，获取匹配字符和值与对应的待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第二匹配度。

在步骤S238，基于第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度。

图12示出了另一个搜索结果页面的示意性视图。图4中的示意性搜索结果页面是在诸如手机等的移动设备上显示的搜索结果页面，而图12所示的搜索结果页面可以是在个人计算机上显示的搜索结果页面。

例如，在这个实施例中，搜索结果页面内的所有摘要内容的标记内容或红字内容集合是summary_red_word_collection[][]。

所有摘要内容的红字内容集合summary_red_word_collection[][]包括各条摘要内容的红字内容集合summary_red_word[]。例如，如图12所示，当前搜索结果页面包括三条摘要内容。第一条摘要内容的红字内容集合summary_red_word[1]＝{AAAr,ARR,aaaa，mAAAA}。

当待评估文本数据段search_word包括某个红字内容summary_red_word[i]时，该红字内容summary_red_word[i]被标记为匹配红字内容或匹配标记内容，例如，图12中第一条摘要内容中的{ARR,aaaa}。

对于每条摘要内容，计算所有匹配红字内容或匹配标记内容的字符数之和search_word_match_lenght。计算每条摘要内容的匹配度pi＝search_word_match_lenght_ratio_2[i]＝search_word_match_lenght/lenght(search_word)，作为第二匹配度，其中，lenght(search_word)是待评估文本数据段的字符数。第二匹配度的集合为：

search_word_match_lenght_ratio_2[]＝{p1,p2...pN}。

图13示出了基于第二匹配度确定目标文本在搜索引擎侧的重复度或原创度的适意性流程图。如图13所示，在步骤S2381，对于每个待评估文本数据段，获取第二匹配度大于第三阈值的摘要内容的数量，作为第二数量。

第三阈值也是用于判断重复程度的阈值，它可以是人工设置的经验值，也可以是通过机器学习获得的数据值。

在步骤S2382，基于第二数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复。

在一些实施例中，在第二数量大于第四阈值的情况下，确定对应的待评估文本数据段与搜索引擎所搜索的结果重复。在最严格的情况下，可以将第二阈值设为0。在这种情况下，只要将一个待评估文本数据段判断为重复的，就会将整个目标文本判断为重复的。在其他实施例中，可以将第二阈值设置为其他值，这样，不会因为某个待评估文本数据段被判断为重复的，而直接将整个目标文本判断为重复的。这提供了一定的冗余度。

在步骤S2383，计算被确定为重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述重复度；或者，计算被确定为不重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述原创度。

一方面，与第五实施例类似，在本实施例中，在确定重复度或原创度时可以综合考虑搜索结果页面中的多个摘要内容，而不必对各个摘要内容进行逐个对比。这种方式可以兼顾重复度或原创度监控的效率和有效性。此外，与第五实施例不同，在本实施例中，在确定重复度或原创度时所考虑的标记内容包括可能重复的标记内容，故加大了重复的标记内容对于评估结果的影响，可以用最大可能性去判断目标文本的重复度或原创度。

<第六实施例>

在本实施例中，对上面实施例中的步骤S230进行了改进，其余的步骤S210和S220可以仍然采用上面实施例或其他实施例中描述的方式，在这里不再进行赘述。本实施例将第五实施例和第六实施例结合起来，其中与第五实施例和第六实施例中的步骤相同的步骤采用相同的步骤标号表示，并且，不再对它们进行重复描述。

如图14所示，在步骤S231，对于每条摘要内容，删除标记内容中的重复内容，并将删除重复内容后的标记内容拼合在一起，形成第一拼合内容。

在步骤S233，获取匹配字符数量与对应的待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第一匹配度，其中，匹配字符数量是第一拼合内容与对应的待评估文本数据段中匹配的字符的数量。

在步骤S235，对于每条摘要内容，获取匹配标记内容，其中，匹配标记内容是被包含在待评估文本数据段中的标记内容。

在步骤S239，基于第一匹配度和第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度。

可以有多种方式基于第一匹配度和第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度。在一些实施例中，可以对于每个待评估文本数据段，获取第一匹配度大于第一阈值的摘要内容的数量，作为第一数量。对于每个待评估文本数据段，获取第二匹配度大于第三阈值的摘要内容的数量，作为第二数量。基于第一数量和第二数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复。计算被确定为重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述重复度，或者计算被确定为不重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述原创度。

在一些实施例中，可以在第一数量和第二数量中的任何一个大于零的情况下，确定对应的待评估文本数据段与搜索引擎所搜索的结果重复。可选地，可以在第一数量和第二数量的和值大于第五阈值的情况下，确定对应的待评估文本数据段与搜索引擎所搜索的结果重复。可选地，在第一数量和第二数量的加权和值大于第六阈值的情况下，确定对应的待评估文本数据段与搜索引擎所搜索的结果重复。上面这些方式可以单独使用或者可以结合起来一起使用。

在本实施例中，可以结合第四实施例和第五实施例的优点，在兼顾重复度或原创度监控的效率和有效性的情况下，考虑不同的应用情形。

<第七实施例>

上面实施例中的技术方案可以用于投放前的文本以及投放后的广告文本，例如是关于游戏的广告文本。因此，在本实施例中提供了图15所示的文本处理方法。

如图15所示，在步骤S410，对待投放或者已投放的广告文本进行切分，获得包含文本内容的多个待评估文本数据段。

在步骤S420，针对所述待评估文本数据段访问搜索引擎，获得所述待评估文本数据段的搜索结果列表，其中，所述搜索结果列表包括针对所述待评估文本数据段的各个搜索结果的摘要内容和摘要内容中的标记内容中的至少一项，所述标记内容是搜索引擎在摘要内容中针对所述待评估文本数据段进行标记的内容。

在步骤S430，基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定广告文本在搜索引擎侧的排查结果；其中，所述排查结果为关于文本重复度或者原创度的结果。

本实施例可以应用前面任何实施例中描述的方案并达到相应的技术效果。在这里，不再对重复内容进行赘述。

图16示出了将上面实施例中的技术方案用于投放前的广告文本的具体例子。如图16所示，在文本产生端产生用于投放的广告文本。接着，按照上面示例所示的方式，对文本执行文本预处理，包括用于去除同质化内容的同质化内容处理、用于去除特殊符合的特殊符号处理以及用于去除相关行业类型词的行业词汇处理。

经处理的文本被划分成多个文段。在文段选取部分，可以通过多种方式选取所划分的文段，例如，以随机方式选取文段的随机选取、将文段全部选取的全量选取或依权重选取文段的权重选取。接着，将所选取的文段发送给网络爬虫。

网络爬虫可以通过模拟个人计算机、移动设备或不同的操作系统，从搜索引擎爬取数据。如图16所示，网络爬虫可以从多个不同的搜索引擎，即，搜索引擎1、搜索引擎2……爬取数据。接着，可以获取在搜索引擎内的页面，参与者也可以访问这些页面。将所获取的页面中的用户代理UA和cookie进行清洗，经由UA池，将页面返回给网络爬虫。接着，对所返回的页面中的摘要内容和标记内容(例如红字内容)执行除重处理或非除重处理，从而得到各个文段的评估值。接着，对多个文段进行聚合，得到整个文本对文本原创度/重复度。

如果文本产生端产生用于投放的广告文本的原创度大于阈值，则判定该广告文段的原创度较高。接着，将该广告文本投入到搜索引擎。这样，所有引擎也可以检索到该广告文本。

<装置实施例>

图17示出了根据本公开实施例的文本处理装置的结构示意图。如图17所示，该文本处理装置500包括切分模块510、访问模块520和确定模块530。

切分模块510用于对目标文本进行切分，获得包含文本内容的多个待评估文本数据段。

访问模块520用于针对待评估文本数据段访问搜索引擎，获得所述待评估文本数据段的搜索结果列表，其中，所述搜索结果列表包括针对待评估文本数据段的各个搜索结果的摘要内容和摘要内容中的标记内容中的至少一项，所述标记内容是搜索引擎在摘要内容中针对待评估文本数据段进行标记的内容。

确定模块530用于基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定目标文本在搜索引擎侧的重复度或原创度。

在一些实施例中，切分模块510还用于去除目标文本中的标签、同质化内容、与行业相关的类型词和特殊字符中的至少一项，得到处理后的目标文本；其中，所述标签是预先规定的用于描述文本属性的文本内容，所述同质化内容是多个文本共用或相似的文本内容，以及对所述处理后的目标文本进行切分，获得包含文本内容的多个待评估文本数据段。

在一些实施例中，切分模块510还用于以固定字符数或者基于标点符号的位置，对目标文本进行切分，获取文本数据段的备选组，以及从备选组中选取多个待评估文本数据段。

在一些实施例中，访问模块520还用于针对所述待评估文本数据段，利用爬虫服务，分别访问多个搜索引擎，获得所述待评估文本数据段基于多个搜索引擎中每一搜索引擎的搜索结果列表。例如，所述搜索结果列表中的搜索结果为针对所述待评估文本数据段访问搜索引擎的访问首页面中的搜索结果。

在一些实施例中，确定模块530还用于对于每条摘要内容，删除标记内容中的重复内容，并将删除重复内容后的标记内容拼合在一起，形成第一拼合内容；获取对应待评估文本数据段与所述第一拼合内容间的匹配字符数量；获取所述匹配字符数量与对应待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第一匹配度；基于第一匹配度，确定目标文本在搜索引擎侧的重复度或原创度。在基于第一匹配度，确定目标文本在搜索引擎侧的重复度或原创度时，可以对于每个待评估文本数据段，获取第一匹配度大于第一阈值的摘要内容的数量，作为第一数量；基于第一数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复；计算被确定为重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述重复度；或者，计算被确定为不重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述原创度。例如，在第一数量大于第二阈值的情况下，确定对应的待评估文本数据段与搜索引擎所搜索的结果重复。

在一些实施例中，确定模块530还用于对于每条摘要内容，获取匹配标记内容，其中，匹配标记内容是被包含在待评估文本数据段中的标记内容；对于每条摘要内容，计算所有匹配标记内容的字符数量之和，作为匹配字符和值；获取匹配字符和值与对应的待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第二匹配度；以及基于第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度。在基于第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度时，可以对于每个待评估文本数据段，获取第二匹配度大于第三阈值的摘要内容的数量，作为第二数量；基于第二数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复；以及计算被确定为重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述重复度；或者，计算被确定为不重复的待评估文本数据段的数量与待评估文本数据段的总数量的比值，作为所述原创度。例如，在第二数量大于第四阈值的情况下，确定对应的待评估文本数据段与搜索引擎所搜索的结果重复。

在一些实施例中，确定模块530还用于对于每条摘要内容，删除标记内容中的重复内容，并将删除重复内容后的标记内容拼合在一起，形成第一拼合内容；获取对应待评估文本数据段与所述第一拼合内容间的匹配字符数量；获取匹配字符数量与对应的待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第一匹配度，其中，匹配字符数量是第一拼合内容与对应的待评估文本数据段中匹配的字符的数量；对于每条摘要内容，获取匹配标记内容，其中，匹配标记内容是被包含在待评估文本数据段中的标记内容；对于每条摘要内容，计算所有匹配标记内容的字符数量之和，作为匹配字符和值；获取匹配字符和值与对应的待评估文本数据段的总字符数量的比值，作为待评估文本数据段与相应摘要内容的第二匹配度；以及基于第一匹配度和第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度。

<设备实施例>

图18示出了根据另一些实施例的电子设备的硬件结构示意图。如图17所示，该电子设备600包括处理器610和存储器620，该存储器620用于存储计算机程序，该计算机程序用于控制处理器610进行操作，以控制电子设备600执行根据本公开任意实施例的文本处理方法。

本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储计算机程序，该计算机程序在被处理器执行时实现根据本公开任意实施例的文本处理方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书的实施例可以是设备、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本说明书实施例的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本说明书的实施例操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本说明书实施例的各个方面。

这里参照根据本说明书实施例的方法、装置(设备)和计算机程序产品的流程图和/或框图描述了本说明书实施例的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本说明书的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本说明书的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种文本处理方法，包括：

2.根据权利要求1所述的方法，其中，所述对目标文本进行切分，获得包含文本内容的多个待评估文本数据段包括：

3.根据权利要求1所述的方法，其中，所述对目标文本进行切分，获得包含文本内容的多个待评估文本数据段包括：

从备选组中选取多个待评估文本数据段。

4.根据权利要求1所述的方法，其中，所述针对所述待评估文本数据段访问搜索引擎，获得所述待评估文本数据段的搜索结果列表包括：

5.根据权利要求1所述的方法，其中，所述搜索结果列表中的搜索结果为针对所述待评估文本数据段访问搜索引擎的访问首页面中的搜索结果。

6.根据权利要求1所述的方法，其中，所述基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定目标文本在搜索引擎侧的重复度或原创度包括：

7.根据权利要求6所述的方法，其中，所述基于第一匹配度，确定目标文本在搜索引擎侧的重复度或原创度包括：

8.根据权利要求7所述的方法，其中，所述基于第一数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复包括：

9.根据权利要求1所述的方法，其中，所述基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定所述目标文本在搜索引擎侧的重复度或原创度包括：

10.根据权利要求9所述的方法，其中，所述基于第二匹配度，确定目标文本在搜索引擎侧的重复度或原创度包括：

11.根据权利要求10所述的方法，其中，所述基于第二数量，确定每个待评估文本数据段与搜索引擎所搜索的结果是否重复包括：

12.根据权利要求1所述的方法，其中，所述基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定目标文本在搜索引擎侧的重复度或原创度包括：

13.一种文本处理方法，包括：

对待投放或者已投放的广告文本进行切分，获得包含文本内容的多个待评估文本数据段；

基于所述摘要内容和标记内容中的至少一项以及对应的待评估文本数据段，确定所述广告文本在搜索引擎侧的排查结果；其中，所述排查结果为关于文本重复度或者原创度的结果。

14.一种文本处理装置，包括：

15.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于在所述计算机程序的控制下，执行根据权利要求1至13中任一项所述的文本处理方法。