CN112784569A

CN112784569A - 一种相似文本聚合的实现方法、系统、设备及存储介质

Info

Publication number: CN112784569A
Application number: CN202110153417.1A
Authority: CN
Inventors: 陈泽昊
Original assignee: Beijing Second Hand Artificial Intelligence Technology Co ltd
Current assignee: Beijing Second Hand Artificial Intelligence Technology Co ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-05-11
Anticipated expiration: 2041-02-04
Also published as: CN112784569B

Abstract

本发明提供的一种相似文本聚合的实现方法、系统、设备及存储介质，方法包括：基于Postgresql建立文本基本信息表和相似文本聚合表；基于所述相似文本聚合表，查询未聚合过的文本，所述文本包括长文本和短文本；基于所述文本基本信息表，采用simhash算法计算所述长文本的第一相似度，并采用jaro算法计算所述短文本的第二相似度；根据第一预设阈值和所述第一相似度，确定相似的所述长文本，根据第二预设阈值和所述第二相似度，确定相似的所述短文本，聚合并存储相似的所述长文本和/或所述短文本。该方法实现了对海量的文本数据的聚合，提高了聚合效率，且只依赖于Postgresql进行文本聚合，便于部署和安装，方便使用，减少了内存的占用。

Description

一种相似文本聚合的实现方法、系统、设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种相似文本聚合的实现方法、系统、设备及存储介质。

背景技术

随着移动互联网的发展，尤其社交媒体的发展与成熟，每天会产生很多的关于话题、公共事件及某个产品等讨论和评论的信息。一些企业需要对负面的舆情信息进行跟踪和统计，但是面对海量的数据的跟踪也不切实际，所以需要对海量的文本数据信息进行相似的聚合分类，挑选聚合度比较高，相似的内容比较多的典型信息进行跟踪和分析即可，这样有效的提高了公关舆情分析的效率，能够帮助企业更好的进行营销或者决策。

目前，现有技术中聚合相似文本，一种方案是会将文本数据导出到excel的表格工具软件中，通过excel自身的功能，对文本进行排序，通过人工的方式去识别聚合的文本数据；另一种方案是将待聚合的文本信息通过程序的方式一次性的统一查询出来，然后继续通过程序的方式进行文本的聚合统计。

但就现有技术而言，第一种方案往往需要人工的介入，工作效率低下，而且对于海量的相似文本数据通常没有有效办法，只能进行低效的匹配，而不能进行分词匹配，且聚合好的文本数据，一般不容易使用，也不方便存入到数据库进行持久化；第二种方案虽然比较高效，但是对于海量的文本数据，往往显得无能为力，大批量的文本数据在内存中操作会导致程序占用过多的内存，从而导致程序不稳定，引起内存泄露等问题，并对服务器造成较大的压力。

发明内容

为解决现有技术中聚合相似文本的效率低、占用过多内存的技术问题，本发明提供了一种相似文本聚合的实现方法，实现了对海量的文本数据的聚合，提高了聚合效率，且只依赖于Postgresql进行文本聚合，便于部署和安装，方便使用，减少了内存的占用。

本发明提供了一种相似文本聚合的实现方法，包括如下步骤：

表格建立步骤，基于Postgresql建立文本基本信息表和相似文本聚合表；

文本查询步骤，基于所述相似文本聚合表，查询未聚合过的文本，所述文本包括长文本和短文本；

文本相似度计算步骤，基于所述文本基本信息表，采用simhash算法计算所述长文本的第一相似度，并采用jaro算法计算所述短文本的第二相似度；

文本聚合步骤，根据第一预设阈值和所述第一相似度，确定相似的所述长文本，根据第二预设阈值和所述第二相似度，确定相似的所述短文本，聚合并存储相似的所述长文本和/或所述短文本。

上述的相似文本聚合的实现方法，其中，所述文本聚合步骤中所述第一预设阈值的设置方法包括：基于所述Postgresql中的smlar插件设置所述第一预设阈值；

所述第二预设阈值的设置方法包括：基于所述Postgresql中的pg_similarity插件设置所述第二预设阈值。

上述的相似文本聚合的实现方法，其中，所述文本查询步骤，具体包括：

基于所述相似文本聚合表，采用多线程方式，查询未聚合过的文本。

上述的相似文本聚合的实现方法，其中，所述文本聚合步骤中聚合相似的所述长文本和/或所述短文本，具体包括：

聚合同一线程中相似所述长文本和/或所述短文本。

基于所述文本基本信息表，计算同一线程中相似的所述长文本和/或所述短文本的关注程度，根据所述关注程度，确定目标所述长文本或所述短文本，基于目标所述长文本或所述短文本，聚合同一线程中相似的所述长文本和/或所述短文本。

上述的相似文本聚合的实现方法，其中，还包括：

表格更新步骤，根据聚合后的相似的所述长文本和/或所述短文本，更新所述相似文本聚合表。

本发明还提供一种相似文本聚合的实现系统，包括：

表格建立单元，用于基于Postgresql建立文本基本信息表和相似文本聚合表；

文本查询单元，用于基于所述相似文本聚合表，查询未聚合过的文本，所述文本包括长文本和短文本；

文本相似度计算单元，用于基于所述文本基本信息表，采用simhash算法计算未聚合过的长文本的第一相似度，并采用jaro算法计算未聚合过的短文本的第二相似度；

文本聚合单元，用于根据第一预设阈值和所述第一相似度，确定相似的所述长文本，根据第二预设阈值和所述第二相似度，确定相似的所述短文本，聚合并存储相似的所述长文本和/或所述短文本。

上述的相似文本聚合的实现系统，其中，还包括：

表格更新单元，用于根据聚合后的相似的所述长文本和/或所述短文本，更新所述相似文本聚合表。

本发明还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的相似文本聚合的实现方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的相似文本聚合的实现方法。

本发明的技术效果或优点：

本发明提供的一种相似文本聚合的实现方法，基于Postgresql建立文本基本信息表和相似文本聚合表，基于相似文本聚合表，查询未聚合过的文本，基于文本基本信息表，采用simhash算法计算未聚合过的长文本的第一相似度，并采用jaro算法计算未聚合过的短文本的第二相似度，根据第一预设阈值和第一相似度，确定相似的长文本，根据第二预设阈值和第二相似度，确定相似的短文本，聚合并存储相似的长文本和/或短文本。通过上述方式，该方法实现了对海量的文本数据的聚合，提高了聚合效率，且只依赖于Postgresql进行文本聚合，便于部署和安装，方便使用，减少了内存的占用。

附图说明

图1为本发明实施例提供的一个相似文本聚合的实现方法的流程图；

图2为本发明实施例提供的一个相似文本聚合的实现系统的结构示意图；

图3为本发明实施例提供的一个电子设备的框架图；

以上图中：

1、表格建立单元；2、文本查询单元；3、文本相似度计算单元；4、文本聚合单元；5、表格更新单元；

10、总线；11、处理器；12、存储器；13、通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。

本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

下面结合具体实施例及说明书附图，对本发明的技术方案作详细说明。

本实施例提供一种相似文本聚合的实现方法，包括如下步骤：

文本相似度计算步骤，基于所述文本基本信息表，采用simhash算法计算未聚合过的长文本的第一相似度，并采用jaro算法计算未聚合过的短文本的第二相似度；

本实施例提供的一种相似文本聚合的实现方法，该方法实现了对海量的文本数据的聚合，提高了聚合效率，且只依赖于Postgresql进行文本聚合，便于部署和安装，方便使用，减少了内存的占用。

具体地说，参考图1，图1为本发明实施例提供的一个相似文本聚合的实现方法的流程图。本发明实施例提供了一种相似文本聚合的实现方法，包括如下步骤：

表格建立步骤S1，基于Postgresql建立文本基本信息表和相似文本聚合表。

在本实施例中，文本基本信息表中包括但不限于存储有文本来源、文本发帖人、文本发帖时间、文本标题、文本内容、文本的点赞量及文本的阅读量；相似文本聚合表包括但不限于目标文本与相似文本的关系、文本聚合标志位、文本编号。

文本查询步骤S2，基于所述相似文本聚合表，查询未聚合过的文本，所述文本包括长文本和短文本。

在本实施例中，所述文本查询步骤S2，具体包括：

在具体应用中，由于数据处理量较大，占用程序内存，通过多线程并发查询未聚合过的文本，可减少内存占用并提高聚合效率。具体地说，在查询未聚合过的文本，根据预设线程数量(本实施例中预设线程数量不作限制，在本实施例中预设线程数量可为30)，每个线程从相似文本聚合表中查询文本聚合标志位为未聚合过的文本，聚合未聚合过的文本，当聚合完成后，将相应文本聚合标志位更新为已经聚合过，循环往复，直至所有文本聚合标志位为已经聚合过。

文本相似度计算步骤S3，基于所述文本基本信息表，采用simhash算法计算未聚合过的长文本的第一相似度，并采用jaro算法计算未聚合过的短文本的第二相似度。

在本实施例中，采用simhash算法计算未聚合过的长文本的第一相似度，具体包括：

基于文本基本信息表，分别对未聚合过的两个长文本进行分词，得到多个词汇，并对每一个所述词汇赋予权重；

计算每个长文本中每一个词汇的hash值；

根据权重和hash值，加权得到每个长文本中每一个词汇的序列值；

合并每一个词汇的序列值，得到每个未聚合过的长文本的序列串；

对每个未聚合过的长文本的序列串进行降维，得到每个未聚合过的长文本的simhash值；

基于simhash值，计算两个未聚合过的长文本的距离，从而得到未聚合过的两个长文本的第一相似度。

在具体应用中，两个未聚合过的长文本的距离的计算方法可采用汉明距离计算，也可采用海明距离计算，具体的距离计算方法本实施例不做限定。

在本实施例中，采用jaro算法计算未聚合过的短文本的第二相似度，具体包括：

基于文本基本信息表，分别计算出未聚合过的两个长文本字符串的长度、计算两个长文本字符串的匹配字符数及计算两个长文本字符串匹配上的字符中的换位次数，基于jaro公式，根据字符串长度、匹配字符数及换位次数计算得到未聚合过的两个长文本的第二相似度。其中，jaro计算公式如下：

上式中：|s₁|表示一未聚合过文本字符串的长度；|s₂|表示另一未聚合过文本字符串的长度；m表示未聚合过的两个长文本字符串的匹配字符数；t表示未聚合过的两个长文本字符串匹配上的字符中的换位次数的一半。

文本聚合步骤S4，根据第一预设阈值和所述第一相似度，确定相似的所述长文本，根据第二预设阈值和所述第二相似度，确定相似的所述短文本，聚合并存储相似的所述长文本和/或所述短文本。

在本实施例中，所述文本聚合步骤S4中所述第一预设阈值的设置方法包括：基于所述Postgresql中的smlar插件设置所述第一预设阈值；

本实施中，通过Postgresql中的smlar插件和Postgresql中的pg_similarity插件可以灵活设置第一预设阈值和第二预设阈值，方便使用。

在一个实施例中，所述文本聚合步骤S4中聚合相似的所述长文本和/或所述短文本，具体包括：

聚合同一线程中相似所述长文本和/或所述短文本。

在另一个实施例中，所述文本聚合步骤S4中聚合相似的所述长文本和/或所述短文本，具体包括：

本实施例中，具体地说，可根据文本来源、文本的阅读量及文本的点赞量等对同一线程中相似的长文本和/或短文本进行N个维度计算，分别得到同一线程中相似的长文本和/或短文本的关注程度，选择关注程度高的文本作为目标长文本或目标短文本，以目标长文本或目标短文本作为主贴，其余相似的长文本和或短文本作为原贴，聚合同一线程中相似的长文本和短文本。

表格更新步骤S5，根据聚合后的相似的所述长文本和/或所述短文本，更新所述相似文本聚合表。

在本实施例中，根据聚合后的相似的长文本和短文本，更新相似文本聚合表中聚合标志位，及各个文本之间的关系等。

作为一个示例，下面具体介绍一下相似文本聚合工作过程，具体如下：

基于Postgresql建立文本基本信息表和相似文本聚合表，相似文本聚合时，采用多线程并发查询相似文本聚合表中文本的聚合标志位，从中查询聚合标志位为未聚合过的文本，对未聚合过的文本进行分类，得到未聚合过的长文本和未聚合过的短文本，采用simhash算法计算未聚合过的长文本的第一相似度，及采用jaro算法计算未聚合过的短文本的第二相似度，根据第一预设阈值和第一相似度，确定相似的长文本，根据第二预设阈值和第二相似度，确定相似的短文本，聚合同一线程中相似的长文本和/或短文本，并将聚合过的文本的聚合标志位更新为已经聚合过，循环往复，直至所有文本的聚合标志位都更新为已经聚合过，结束相似文本聚合。

本发明实施例还提供一种相似文本聚合的实现系统，参考图2，包括：表格建立单元1、文本查询单元2、文本相似度计算单元3、文本聚合单元4及表格更新单元5，其中，表格建立单元1与文本查询单元2、文本相似度计算单元3及表格更新单元5连接，文本查询单元2与文本相似度计算单元3连接，文本相似度计算单元3与文本聚合单元4连接，文本聚合单元4与表格更新单元5连接。相似文本聚合的实现系统中各个单元的作用如下：

表格建立单元1，用于基于Postgresql建立文本基本信息表和相似文本聚合表；其中，表格建立单元1将文本基本信息表发送至文本相似度计算单元3，将相似文本聚合表发送至文本查询单元2和表格更新单元5。

文本查询单元2，用于基于所述相似文本聚合表，查询未聚合过的文本，所述文本包括长文本和短文本；其中，文本查询单元2将未聚合过的文本发送至文本相似度计算单元3。

文本相似度计算单元3，用于基于所述文本基本信息表，采用simhash算法计算未聚合过的长文本的第一相似度，并采用jaro算法计算未聚合过的短文本的第二相似度；其中，文本相似度计算单元3将第一相似度和第二相似度发送至文本聚合单元4。

文本聚合单元4，用于根据第一预设阈值和所述第一相似度，确定相似的所述长文本，根据第二预设阈值和所述第二相似度，确定相似的所述短文本，聚合并存储相似的所述长文本和/或所述短文本；其中，文本聚合单元4将聚合后的相似长文本和/或短文本发送至表格更新单元5。

表格更新单元5，用于根据聚合后的相似的所述长文本和/或所述短文本，更新所述相似文本聚合表。具体地说，表格更新单元5根据文本聚合单元4的聚合的相似长文本和/或短文本，更新相似文本聚合表。

本实施例提供的一种相似文本聚合的实现系统，该系统实现了对海量的文本数据的聚合，提高了聚合效率，且只依赖于Postgresql进行文本聚合，便于部署和安装，方便使用，减少了内存的占用。

参考图3，本实施例还提供一种计算机设备，包括存储器12、处理器11以及存储在所述存储器12上并可在所述处理器11上运行的计算机程序，所述处理器11执行所述计算机程序时实现如上所述的相似文本聚合的实现方法。

设备可以包括处理器11以及存储有计算机程序指令的存储器12。具体地，上述处理器11可以包括中央处理器(CPU)，或者特定集成电路(Application SpecificIntegrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器12可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器12可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器12可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器12可在数据处理装置的内部或外部。在特定实施例中，存储器12是非易失性(Non-Volatile)存储器。在特定实施例中，存储器12包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器12可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器11所执行的可能的计算机程序指令。

处理器11通过读取并执行存储器12中存储的计算机程序指令，以实现上述实施例中的任意一种相似文本聚合的实现方法。

在其中一些实施例中，计算机设备还可包括通信接口13和总线10。其中，参考图3，处理器11、存储器12、通信接口13通过总线10连接并完成相互间的通信。通信接口13用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口13还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线10包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线10包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线10可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线10可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的相似文本聚合的实现方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种相似文本聚合的实现方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种相似文本聚合的实现方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的相似文本聚合的实现方法，其特征在于，所述文本聚合步骤中所述第一预设阈值的设置方法包括：基于所述Postgresql中的smlar插件设置所述第一预设阈值；

3.根据权利要求1所述的相似文本聚合的实现方法，其特征在于，所述文本查询步骤，具体包括：

4.根据权利要求3所述的相似文本聚合的实现方法，其特征在于，所述文本聚合步骤中聚合相似的所述长文本和/或所述短文本，具体包括：

聚合同一线程中相似的所述长文本和/或所述短文本。

5.根据权利要求4所述的相似文本聚合的实现方法，其特征在于，所述文本聚合步骤中聚合相似的所述长文本和/或所述短文本，具体包括：

6.根据权利要求1所述的相似文本聚合的实现方法，其特征在于，还包括：

7.一种相似文本聚合的实现系统，其特征在于，包括：

8.根据权利要求7所述的相似文本聚合的实现系统，其特征在于，还包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的相似文本聚合的实现方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的相似文本聚合的实现方法。