CN114707485A

CN114707485A - 基于互联网社区的文本相似度确定方法及装置

Info

Publication number: CN114707485A
Application number: CN202210289408.XA
Authority: CN
Inventors: 刘堡萱; 文成明
Original assignee: Shenzhen Baichuan Shuan Technology Co ltd
Current assignee: Shenzhen Baichuan Shuan Technology Co ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-05

Abstract

本发明是关于一种基于互联网社区的文本相似度确定方法及装置，方法包括：对互联网社区的海量语料库进行分词处理，得到分词后的语料库；统计分词后的语料库中每个词语对应的逆文档频率；根据每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度；根据第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，并对标注集进行二次标注；对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的数据集；利用预设的Bert模型和数据集进行循环迭代训练，以得到目标文本相似度确定模型；利用目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。

Description

基于互联网社区的文本相似度确定方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于互联网社区的文本相似度确定方法及装置。

背景技术

互联网社区产品的核心在于贴评互动，大量同质化的内容无法引起用户的讨论，长久下去就会降低社区的活跃度，造成用户流失。如果能够提前识别相似的文本，对相似对文本数量进行一些控制，就能够达到让社区的观点百花齐放，活跃社区的效果。

常规的计算文本相似度的算法首先需要使用TF-IDF算法对两段文本进行向量转化，然后再计算两个向量间的余弦夹角，即为两段文本的余弦相似度，不过这种方法只能反映出两条文本包含词的相似程度，并不能反映两条文本语义上的相似度。

现有技术用TF-IDF算法实现对文本做向量转化，受限于TF-IDF自身的特性，TF-IDF只会对句子中包含的词做频率统计，而不会考虑其前后顺序。也就是说，对于两段分词后词完全相同，只是词顺序不同的文本，两段文本的向量是完全相同的。这就会导致这两条文本的相似度为1，即两条文本相似。常规句子中的词语互换可能并不影响句子表达的意思，然而如果一句话中的主语和宾语互换，比如“我吃苹果”和“苹果吃我”，就有完全不同的意思表达。

发明内容

为克服相关技术中存在的问题，本发明提供一种基于互联网社区的文本相似度确定方法及装置，同时解决相似文本数据集构建难，标出率低，常规计算文本相似度算法无法计算语义相似度、无法区分词语顺序等问题。

根据本发明实施例的第一方面，提供一种基于互联网社区的文本相似度确定方法，所述方法包括：

对互联网社区的海量语料库进行分词处理，得到分词后的语料库；

统计所述分词后的语料库中每个词语对应的逆文档频率；

根据所述每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度，其中，将所述同一帖子下的评论文本进行两两组合，得到多个所述评论文本对；

根据所述第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，并对所述标注集进行二次标注；

对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的数据集；

利用预设的Bert模型和所述数据集进行循环迭代训练，以得到目标文本相似度确定模型；

利用所述目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。

在一个实施例中，优选地，采用以下第一计算公式统计所述分词后的语料库中每个词语对应的逆文档频率：

在一个实施例中，优选地，根据所述每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度，包括：

对每个评论文本对进行分词处理，得到分词后的第一评论文本和第二评论文本；

分别计算所述第一评论文本和所述第二评论文本中每个词语的TF-IDF值，并将所有词语按照TF-IDF值从大到小的顺序进行排列；

分别从所述第一评论文本和所述第二评论文本中选取排列在前的n个词语，并对所述n个词语进行向量化，得到所述第一分词向量和所述第二分词向量；

计算所述第一分词向量和所述第二分词向量之间的余弦夹角，以得到所述第一相似度。

在一个实施例中，优选地，根据所述第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，包括：

当所述第一相似度大于第一阈值时，确定所述第一相似度对应的评论文本对为词汇高度相似的文本对；

当所述第一相似度小于或等于所述第一阈值且大于第二阈值时，确定所述第一相似度对应的评论文本对为词汇中度相似的文本对；

当所述第一相似度小于或等于所述第二阈值时，确定所述第一相似度对应的评论文本对为词汇少量相似的文本对；

将所述词汇高度相似的文本对，词汇中度相似的文本对和词汇少量相似的文本对，按照预设的比例进行采样，组成所述标注集。

在一个实施例中，优选地，利用预设的Bert模型和所述数据集进行循环迭代训练，以得到目标文本相似度确定模型，包括：

使用所述数据集对所述预设的Bert模型进行微调，得到初级文本相似度确定模型；

使用所述初级文本相似度确定模型确定同一帖子下的评论文本对的第二相似度；

根据所述第二相似度所属的目标相似度区间，按照预设比例采集评论文本对，补充至所述标注集，并对补充后的标注集进行二次标注；

对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的补充数据集；

利用预设的Bert模型和所述补充数据集进行循环迭代训练，直至得到精度满足要求的目标文本相似度确定模型。

根据本发明实施例的第二方面，提供一种基于互联网社区的文本相似度确定装置，所述装置包括：

分词模块，用于对互联网社区的海量语料库进行分词处理，得到分词后的语料库；

统计模块，用于统计所述分词后的语料库中每个词语对应的逆文档频率；

计算模块，用于根据所述每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度，其中，将所述同一帖子下的评论文本进行两两组合，得到多个所述评论文本对；

处理模块，用于根据所述第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，并对所述标注集进行二次标注；

数据增强模块，用于对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的数据集；

训练模块，用于利用预设的Bert模型和所述数据集进行循环迭代训练，以得到目标文本相似度确定模型；

确定模块，用于利用所述目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。

在一个实施例中，优选地，所述计算模块包括：

分词单元，用于对每个评论文本对进行分词处理，得到分词后的第一评论文本和第二评论文本；

第一计算单元，用于分别计算所述第一评论文本和所述第二评论文本中每个词语的TF-IDF值，并将所有词语按照TF-IDF值从大到小的顺序进行排列；

处理单元，用于分别从所述第一评论文本和所述第二评论文本中选取排列在前的n个词语，并对所述n个词语进行向量化，得到所述第一分词向量和所述第二分词向量；

第二计算单元，用于计算所述第一分词向量和所述第二分词向量之间的余弦夹角，以得到所述第一相似度。

在一个实施例中，优选地，所述处理模块包括：

第一确定单元，用于当所述第一相似度大于第一阈值时，确定所述第一相似度对应的评论文本对为词汇高度相似的文本对；

第二确定单元，用于当所述第一相似度小于或等于所述第一阈值且大于第二阈值时，确定所述第一相似度对应的评论文本对为词汇中度相似的文本对；

第三确定单元，用于当所述第一相似度小于或等于所述第二阈值时，确定所述第一相似度对应的评论文本对为词汇少量相似的文本对；

采样单元，用于将所述词汇高度相似的文本对，词汇中度相似的文本对和词汇少量相似的文本对，按照预设的比例进行采样，组成所述标注集。

在一个实施例中，优选地，所述训练模块包括：

第一训练单元，用于使用所述数据集对所述预设的Bert模型进行微调，得到初级文本相似度确定模型；

第四确定单元，用于使用所述初级文本相似度确定模型确定同一帖子下的评论文本对的第二相似度；

数据补充单元，用于根据所述第二相似度所属的目标相似度区间，按照预设比例采集评论文本对，补充至所述标注集，并对补充后的标注集进行二次标注；

数据增强单元，用于对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的补充数据集；

第二训练单元，用于利用预设的Bert模型和所述补充数据集进行循环迭代训练，直至得到精度满足要求的目标文本相似度确定模型。

根据本发明实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现如第二方面的实施例中任一项所述方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，基于社区同一帖子下话题一致的特点，能够构建出讨论主题相似的评论文本对，作为标注候选集。通过TF-IDF算法结合余弦相似度，能够计算出两条文本中包含词语的相似度。根据相似度的值，能够将评论文本对分为高、中、低三个程度的相似，对不同程度相似的文本对进行不同数量的采样，构成最终标注集，从而实现对标注候选集的进一步筛选。同时提出了一个完整的文本相似度模型的持续迭代的流程，将构建标注候选集，筛选标注候选集，数据增强，训练模型，持续迭代串联起来。这样，同时解决了相似文本数据集构建难，标出率低，常规计算文本相似度算法无法计算语义相似度、无法区分词语顺序等问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于互联网社区的文本相似度确定方法的流程图。

图2是根据一示例性实施例示出的一种基于互联网社区的文本相似度确定方法中步骤S113的流程图。

图3是根据一示例性实施例示出的一种基于互联网社区的文本相似度确定方法中步骤S114的流程图。

图4是根据一示例性实施例示出的一种基于互联网社区的文本相似度确定方法中步骤S116的流程图。

图5是根据一示例性实施例示出的一种基于互联网社区的文本相似度确定方法的具体流程图。

图6是根据一示例性实施例示出的一种基于互联网社区的文本相似度确定装置的框图。

图7是根据一示例性实施例示出的一种基于互联网社区的文本相似度确定装置中计算模块的框图。

图8是根据一示例性实施例示出的一种基于互联网社区的文本相似度确定装置中处理模块的框图。

图9是根据一示例性实施例示出的一种基于互联网社区的文本相似度确定装置中处理模块的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示，根据本发明实施例的第一方面，提供一种基于互联网社区的文本相似度确定方法，所述方法包括：

步骤S111，对互联网社区的海量语料库进行分词处理，得到分词后的语料库；对社区海量语料库进行分词，分词前需要载入词表。

步骤S112，统计所述分词后的语料库中每个词语对应的逆文档频率；

统计分词后的语料库中每个词的IDF值，即逆文档频率，其用来反映一个词在语料库中是否常见，该值越小代表越常见。

步骤S113，根据所述每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度，其中，将所述同一帖子下的评论文本进行两两组合，得到多个所述评论文本对；

步骤S114，根据所述第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，并对所述标注集进行二次标注；

步骤S115，对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的数据集；标注后的数据集仍然存在标出量过低的问题，基于社区文本相似的传递性，对标注数据为相似的样本做了数据增强，用来提高相似数据的占比，平衡训练数据集中各个类别的分布，便于模型后续的训练迭代。

步骤S116，利用预设的Bert模型和所述数据集进行循环迭代训练，以得到目标文本相似度确定模型；

步骤S117，利用所述目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。

如图2所示，在一个实施例中，优选地，上述步骤S103包括：

步骤S211，对每个评论文本对进行分词处理，得到分词后的第一评论文本和第二评论文本；

步骤S212，分别计算所述第一评论文本和所述第二评论文本中每个词语的TF-IDF值，并将所有词语按照TF-IDF值从大到小的顺序进行排列；

步骤S213，分别从所述第一评论文本和所述第二评论文本中选取排列在前的n个词语，并对所述n个词语进行向量化，得到所述第一分词向量和所述第二分词向量；

步骤S214，计算所述第一分词向量和所述第二分词向量之间的余弦夹角，以得到所述第一相似度。余弦夹角

来反映两条评论文本的相似度，记为A，A的取值范围为[0，1]。

如图3所示，在一个实施例中，优选地，上述步骤S104包括：

步骤S311，当所述第一相似度大于第一阈值时，确定所述第一相似度对应的评论文本对为词汇高度相似的文本对；

步骤S312，当所述第一相似度小于或等于所述第一阈值且大于第二阈值时，确定所述第一相似度对应的评论文本对为词汇中度相似的文本对；

步骤S313，当所述第一相似度小于或等于所述第二阈值时，确定所述第一相似度对应的评论文本对为词汇少量相似的文本对；

步骤S314，将所述词汇高度相似的文本对，词汇中度相似的文本对和词汇少量相似的文本对，按照预设的比例进行采样，组成所述标注集。

由于这样筛选出的标注候选集数量非常多，通过TF-IDF算法对文本进行向量转化，进而计算两个文本的余弦相似度的方式来将标注候选集分为高、中、低三类相似，对不同程度的相似标注候选集分别采样，从而达到平衡标注集在语义相似和词汇相似占比的效果，其中，语义相似的数据集可以解决常规文本相似度计算无法解决的语义相似问题，词汇相似的数据集可以解决常规文本相似度无法解决的词汇相似语义完全不同的问题。

如图4所示，在一个实施例中，优选地，上述步骤S106包括：

步骤S411，使用所述数据集对所述预设的Bert模型进行微调，得到初级文本相似度确定模型；

步骤S412，使用所述初级文本相似度确定模型确定同一帖子下的评论文本对的第二相似度；

步骤S413，根据所述第二相似度所属的目标相似度区间，按照预设比例采集评论文本对，补充至所述标注集，并对补充后的标注集进行二次标注；

步骤S414，对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的补充数据集；

步骤S415，利用预设的Bert模型和所述补充数据集进行循环迭代训练，直至得到精度满足要求的目标文本相似度确定模型。

在该实施例中，提供了一个持续迭代文本相似度模型的流程，将构建标注候选集，筛选标注候选集，数据增强，训练模型，模型持续迭代串联起来，提高迭代速度。

本发明的上述技术方案已经应用到真实的互联网社区场景—用户社区的氛围巡查中，基于已经被人审确认违规的评论，对同一帖子下的其他评论计算相似度，将模型判为相似的文本再次进审，来扩大人审的影响力。在实际的应用场景中，在人审确认违规量不变的前提下，能够将每日召回进审的评论数翻倍。

下面以一个具体实施例详细说明本发明的上述技术方案。

如图5所示，一种基于互联网社区的文本相似度确定方法，包括：

步骤100：社区海量的语料库。

步骤101：对社区海量语料库进行分词，分词前需要载入词表。统计分词后的语料库中每个词的IDF值，即逆文档频率，

用来反映一个词在语料库中是否常见，该值越小代表越常见。

步骤200：对同一帖子下的评论进行两两组合。基于社区产品的特点，同一帖子下的评论大多讨论的是主贴相关的内容，有很大可能性是语义相似的，因此使用这种方法更容易筛选出语义相似的文本对。

步骤201：根据社区语料库计算出的IDF值，计算分词后两条文本各自词的TF-IDF值，

取IDF最大的n个词作为基础词，每条文本都可以转化为一个n维向量。

步骤202：通过计算两条文本对应向量的余弦夹角，

来反映两条文本的相似度，记为A，A的取值范围为[0，1]。

步骤203：判断A是否大于0.9。

步骤204：当A大于0.9时，为词汇高度相似的文本对。

步骤205：当A小于等于0.9时，判断A是否大于0.3。

步骤206：当A小于等于0.9且大于0.3时，为词汇中等相似的文本对。

步骤207：当A小于等于0.3时，为词汇少量相似的文本对。

步骤208：将三个词汇不同程度相似的文本对，按照不同的比例进行采样，组成标注集。

步骤300：对标注集进行标注。

步骤301：对标注的候选集做数据增强。由于相似的文本对难以构建，即便使用了TF-IDF算法结合余弦相似度对标注候选集进行了筛选，标注数据的标出率，即标为相似的数据量占总标注数据集的比例，仍然很低。为了构建出更多相似的文本对，我们利用了相似的传递性来对数据做数据增强。即如果文本a与文本b相似，同时文本b与文本c相似，推理文本a与文本c也相似。

步骤302：基于Bert的预训练模型，使用增强后的数据集对模型进行微调。

步骤303：得到一版文本相似度模型。

步骤304：使用最近一版的文本相似度模型，对同一帖子下构建的文本对(200)进行筛选，将模型各分类得分差不多的数据集补充到标注集中进行人工标注(300)，循环迭代模型直至精度满足需求。

如图6所示，根据本发明实施例的第二方面，提供一种基于互联网社区的文本相似度确定装置，所述装置包括：

分词模块61，用于对互联网社区的海量语料库进行分词处理，得到分词后的语料库；

统计模块62，用于统计所述分词后的语料库中每个词语对应的逆文档频率；

计算模块63，用于根据所述每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度，其中，将所述同一帖子下的评论文本进行两两组合，得到多个所述评论文本对；

处理模块64，用于根据所述第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，并对所述标注集进行二次标注；

数据增强模块65，用于对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的数据集；

训练模块66，用于利用预设的Bert模型和所述数据集进行循环迭代训练，以得到目标文本相似度确定模型；

确定模块67，用于利用所述目标文本相似度确定模型确定目标帖子下的任意评论文本对之间的相似度。

如图7所示，在一个实施例中，优选地，所述计算模块63包括：

分词单元71，用于对每个评论文本对进行分词处理，得到分词后的第一评论文本和第二评论文本；

第一计算单元72，用于分别计算所述第一评论文本和所述第二评论文本中每个词语的TF-IDF值，并将所有词语按照TF-IDF值从大到小的顺序进行排列；

处理单元73，用于分别从所述第一评论文本和所述第二评论文本中选取排列在前的n个词语，并对所述n个词语进行向量化，得到所述第一分词向量和所述第二分词向量；

第二计算单元74，用于计算所述第一分词向量和所述第二分词向量之间的余弦夹角，以得到所述第一相似度。

如图8所示，在一个实施例中，优选地，所述处理模块64包括：

第一确定单元81，用于当所述第一相似度大于第一阈值时，确定所述第一相似度对应的评论文本对为词汇高度相似的文本对；

第二确定单元82，用于当所述第一相似度小于或等于所述第一阈值且大于第二阈值时，确定所述第一相似度对应的评论文本对为词汇中度相似的文本对；

第三确定单元83，用于当所述第一相似度小于或等于所述第二阈值时，确定所述第一相似度对应的评论文本对为词汇少量相似的文本对；

采样单元84，用于将所述词汇高度相似的文本对，词汇中度相似的文本对和词汇少量相似的文本对，按照预设的比例进行采样，组成所述标注集。

如图9所示，在一个实施例中，优选地，所述训练模块66包括：

第一训练单元91，用于使用所述数据集对所述预设的Bert模型进行微调，得到初级文本相似度确定模型；

第四确定单元92，用于使用所述初级文本相似度确定模型确定同一帖子下的评论文本对的第二相似度；

数据补充单元93，用于根据所述第二相似度所属的目标相似度区间，按照预设比例采集评论文本对，补充至所述标注集，并对补充后的标注集进行二次标注；

数据增强单元94，用于对二次标注后的相似评论文本对进行数据增强处理，得到数据增强后的补充数据集；

第二训练单元95，用于利用预设的Bert模型和所述补充数据集进行循环迭代训练，直至得到精度满足要求的目标文本相似度确定模型。

进一步可以理解的是，本发明中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于互联网社区的文本相似度确定方法，其特征在于，所述方法包括：

统计所述分词后的语料库中每个词语对应的逆文档频率；

2.根据权利要求1所述的方法，其特征在于，采用以下第一计算公式统计所述分词后的语料库中每个词语对应的逆文档频率：

3.根据权利要求1所述的方法，其特征在于，根据所述每个词语对应的逆文档频率，计算同一帖子下每个评论文本对的第一分词向量和第二分词向量之间的第一相似度，包括：

4.根据权利要求1所述的方法，其特征在于，根据所述第一相似度所属的目标相似度区间，按照预设比例采集评论文本对，组成标注集，包括：

5.根据权利要求1所述的方法，其特征在于，利用预设的Bert模型和所述数据集进行循环迭代训练，以得到目标文本相似度确定模型，包括：

6.一种基于互联网社区的文本相似度确定装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，采用以下第一计算公式统计所述分词后的语料库中每个词语对应的逆文档频率：

8.根据权利要求6所述的装置，其特征在于，所述计算模块包括：

9.根据权利要求6所述的装置，其特征在于，所述处理模块包括：

10.根据权利要求6所述的装置，其特征在于，所述训练模块包括：