CN109033087B

CN109033087B - 计算文本语义距离的方法、去重方法、聚类方法以及装置

Info

Publication number: CN109033087B
Application number: CN201810892067.9A
Authority: CN
Inventors: 孙雨轩; 吴成龙
Original assignee: Csi Digital Technology Shenzhen Co ltd
Current assignee: Csi Digital Technology Shenzhen Co ltd
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2024-01-26
Anticipated expiration: 2038-08-07
Also published as: CN109033087A

Abstract

本发明公开了一种计算文本语义距离的方法、去重方法、聚类方法及装置，计算文本语义距离的方法包括：获取第一及第二文本；判断第一及第二文本之间是否需要进行语义距离计算；若是，对第一及第二文本进行预处理以得到第一及二句子集合；将第一及第二句子集合中公开的主体替换为对应的唯一编码，获取第一及第二句子集合中的唯一编码以形成第一及第二编码集合，获取第一及第二句子集合中的关键词以形成第一及第二关键词集合及每一关键词的权重；转换第一及第二关键词集合中的每一关键词，以得到第一及第二文本特征向量；根据第一编码集合、第一文本特征向量、第一文本发布时间及第二编码集合、第二文本特征向量、第二文本发布时间计算两文本语义距离。

Description

计算文本语义距离的方法、去重方法、聚类方法以及装置

技术领域

本发明涉及一种计算文本语义距离的方法、去重方法、聚类方法以及装置。

背景技术

在新媒体爆炸的时代，媒体个数迅猛增加，非结构化舆情信息的原创、转载数量同步攀升，互联网每日都会产生数量庞大的舆情数据，其中有一定的重复量，特别是关于热门、爆炸性话题的舆情。为了针对某一企业主体能够及时、高效地获得最有价值的信息，就需要对非结构化舆情文本进行一定程度的去重或聚类，其核心思想是比较任意两篇文本的差异性。目前使用比较广泛的方法是基于Simhash比较两篇文本的字符距离，但是在遇到变形文本时却效果甚微，即基于字符去重，无法区分描述不同，表达内容相近的文本。且在对比两篇文本的时候，没有体现对某一企业主体地针对性。为了进一步筛选、保留高价值的舆情，提高阅读者的效率与体验，就需要针对某一企业主体基于语义理解对非结构化文本进行语义距离的计算，从而进行下一步的去重或聚类方法。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：提供一种文本语义距离的计算方法、能够去掉语义重复文本的基于文本语义距离的文本去重的方法、能够聚类文本的基于文本语义距离的聚类方法以及计算文本语义距离的装置。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种计算文本语义距离的方法，包括以下步骤：

获取第一文本及第二文本；

以第一文本及第二文本中是否公开了相同主体为依据，判断所述第一文本及第二文本之间是否需要进行语义距离计算；

若第一文本及第二文本之间需要进行语义距离计算，将所述相同主体视为目标主体，分别对第一文本及第二文本进行预处理，以得到第一文本中含有所述目标主体的第一句子集合、第二文本中含有所述目标主体的第二句子集合；

将所述第一句子集合及第二句子集合中公开的主体替换为对应的唯一编码，并分别获取所述第一句子集合及第二句子集合中的唯一编码以分别形成第一编码集合及第二编码集合，分别获取第一句子集合及第二句子集合中的关键词以分别形成第一关键词集合、第二关键词集合以及每一关键词集合中每一关键词的权重；

分别转换第一关键词集合及第二关键词集合中的每一关键词并加权叠加，以分别得到与第一文本特征向量及第二文本特征向量；

根据所述第一编码集合、第一文本特征向量、第一文本发布时间以及第二编码集合、第二文本特征向量、第二文本发布时间计算两文本之间的语义距离。

进一步的，在以第一文本及第二文本中是否公开了相同主体为依据，判断所述第一文本及第二文本之间是否需要进行语义距离计算的步骤中，具体包括：

以第一文本及第二文本中公开的相同主体为依据，根据第一文本及第二文本与所述相同主体之间的关联度判断所述第一文本及第二文本之间是否需要语义距离计算，当所述第一文本与所述相同主体的关联度及第二文本与所述相同主体的关联度均大于第一预设阈值时，则所述第一文本及第二文本之间需要进行语义距离计算；

若第一文本及第二文本之间需要进行语义距离计算，将所述相同主体视为目标主体，分别对第一文本及第二文本进行预处理，以得到第一文本中含有所述目标主体的第一句子集合、第二文本中含有所述目标主体的第二句子集合的步骤中，具体包括：

若第一文本及第二文本之间需要进行语义距离计算，将关联度均大于所述第一预设阈值的相同主体视为目标主体，分别对第一文本及第二文本进行预处理，以得到第一文本中含有所述目标主体的第一句子集合、第二文本中含有所述目标主体的第二句子集合。

进一步的，在以第一文本及第二文本中公开的相同主体为依据，根据第一文本及第二文本与所述相同主体之间的关联度判断所述第一文本及第二文本之间是否需要语义距离计算的步骤中，具体包括：

分别从第一文本及第二文本获取其公开的主体；

将第一文本与从该第一文本中获取到的主体相关联，将第二文本与从其第二文本中获取到的主体相关联，以分别得到第一文本与其主体的关联度以及第二文本与其主体的关联度；

判断第一文本及第二文本是否具有相同主体且关联度是否均大于第一预设阈值，若第一文本及第二文本具有相同的主体，且相同的主体与对应的文本之间的关联度均大于第一预设阈值，则所述第一文本及第二文本之间需要进行语义距离计算，所述相同主体则视为目标主体。

进一步的，在分别获取所述第一句子集合及第二句子集合中的唯一编码以分别形成第一编码集合及第二编码集合，分别获取第一句子集合及第二句子集合中的关键词以分别形成第一关键词集合及第二关键词集合以及每一关键词集合中每一关键词权重的步骤中，具体包括：

分别从第一句子集合及第二句子集合中抽取第一编码集合及第二编码集合：C_i＝{c₁,…,c_n}；

利用TextRank分别得到第一TopK关键词集合及相应的权重、第二TopK关键词集合及相应的权重，所述TopK为前K个关键词：

KeyWord_i＝{keyword_i1,…,keyword_ik}

W_i＝{w_i1,…,w_ik},w_ij∈[0,1]

其中，keyword_ij中，i为句子集合序号，j表示第i句子集合中第j个关键词，当i＝1时，keyword_ij则为第一句子集合中第j个关键词，当i＝2时，keyword_ij则为第二句子集合中第j个关键词。w_ij中，i为句子集合序号，j表示第i句子集合中第j个关键词的权重，当i＝1时，w_ij则为第一句子集合中第j个关键词权重，当i＝2时，w_ij则为第二句子集合中第j个关键词权重。

进一步的，在分别转换第一关键词集合及第二关键词集合中的每一关键词并加权叠加，以分别得到与第一文本特征向量及第二文本特征向量的步骤中，具体包括：

利用Word2vec模型转换所述第一关键词集合及第二关键词集合中的各关键词，并加权叠加，得到针对目标企业的文本特征向量：

v_ij＝f_w2v(keyword_ij)

其中，w_ij表示第i句子集合中的第j每一个关键词的权重，v_ij表示第i句子集合中的第j个关键词的词向量，即keyword_ij的词向量。f_w2v(·)为Word2vec的转换函数，将keyword_ij转换为v_ij进行后续计算。

进一步的，在根据所述第一编码集合、第一文本特征向量、第一文本发布时间以及第二编码集合、第二文本特征向量、第二文本发布时间计算两文本之间的语义距离步骤中，具体包括：

使用Jaccard距离计算第一编码集合及第二编码集合之间的差异性:

使用Cosine距离计算第一文本及第二文本之间的语义距离：

使用如下公式距离计算第一文本及第二文本之间的时间距离：

其中，β为调节系数；

加权求和以上三种距离，得到针对目标主体的第一文本与第二文本的最终语义距离：

D_ab＝w₀*Comp_Dist_ab+w₁*Content_Dist_ab+w₂*Time_Dist_ab

以上公式中，a表示第一文本，b表示第二文本，当所述D_ab越接近0，表示第一文本及第二文本之间的距离越小，针对目标主体的两篇文本越相似，反之，D_ab越接近1，表示第一文本及第二文本之间的语义距离越大，针对目标企业的两篇文本越独立。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种基于文本语义距离的文本去重方法，包括以下步骤：

按照上述的方法计算第一文本及第二文本之间的语义距离；

判断第一文本及第二文本之间的语义距离是否小于或等于第二预设阈值；

若小于或等于第二预设阈值，则去掉其中一篇文本；

若大于所述第二预设阈值，则保留两篇文本。

为解决上述技术问题，本发明采用的又一个技术方案是：提供一种基于文本语义距离的文本聚类方法，包括以下步骤：

按照所述的方法计算两文本之间的语义距离；

根据所述若干文本之间的语义距离，使用聚类方法进行聚类。

为解决上述技术问题，本发明采用的又一个技术方案是：一种计算文本语义距离的装置，包括：

文本获取模块，用于获取第一文本及第二文本；

语义距离计算判断模块，用于以第一文本及第二文本中是否公开了相同主体为依据，判断所述第一文本及第二文本之间是否需要进行语义距离计算；

文本预处理模块，用于当第一文本及第二文本之间需要进行语义距离计算，将所述相同主体视为目标主体，分别对第一文本及第二文本进行预处理，以得到第一文本中含有所述目标主体的第一句子集合、第二文本中含有所述目标主体的第二句子集合；

唯一编码替换模块，用于将所述第一句子集合及第二句子集合中公开的主体替换为对应的唯一编码；

编码集合获取模块，用于分别获取所述第一句子集合及第二句子集合中的唯一编码以分别形成第一编码集合及第二编码集合；

关键词及权重获取模块，用于分别获取第一句子集合及第二句子集合中关键词以分别形成第一关键词集合、第二关键词集合以及每一关键词集合中每一关键词权重；

文本特征向量转换模块，用于分别转换第一关键词集合及第二关键词集合中的每一关键词并加权叠加，以分别得到与第一文本特征向量及第二文本特征向量；

语义距离计算模块，用于根据所述第一编码集合、第一文本特征向量、第一文本发布时间以及第二编码集合、第二文本特征向量、第二文本发布时间计算两文本之间的语义距离。

进一步的，所述语义距离计算判断模块还用于以第一文本及第二文本中公开的相同主体为依据，根据第一文本及第二文本与所述相同主体之间的关联度判断所述第一文本及第二文本之间是否需要语义距离计算，当所述第一文本与所述相同主体的关联度及第二文本与所述相同主体的关联度均大于第一预设阈值时，则所述第一文本及第二文本之间需要进行语义距离计算，所述相同主体则视为目标主体；

所述文本预处理模块还用于当第一文本及第二文本之间需要进行语义距离计算，将关联度均大于所述第一预设阈值的相同主体视为目标主体，分别对第一文本及第二文本进行预处理，以得到第一文本中含有所述目标主体的第一句子集合、第二文本中含有所述目标主体的第二句子集合。

本发明的计算文本语义距离的方法、去重方法、聚类方法以及装置，具有以下有益效果：1、运用本方法及装置，针对企业主体对海量非结构化文本进行语义去重，与基于字符去重的方法相比，更大限度地减少阅读量。2、通过计算语义距离的聚类方法，可以针对企业主体制作报道专题或追踪报道，聚集不同数据源对于同一企业同一热点事件的报道。

附图说明

图1是本发明计算文本语义距离的方法第一实施例的流程图。

图2是本发明计算文本语义距离的方法第二实施例的流程图。

图3是聚类效果图。

图4是本发明基于文本语义距离的文本去重方法一实施例的流程图。

图5是本发明基于文本语义距离的文本聚类方法一实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明计算文本语义距离的方法第一实施例的流程图。本实施例的计算文本语义距离的方法中所述的主体均是指企业主体，所述方法包括以下步骤：

S101、获取第一文本及第二文本；

所述第一文本及第二文本均可以是舆情文本，例如网络公开的各种舆情信息的文本等等。

S102、以第一文本及第二文本中是否公开了相同主体为依据，判断所述第一文本及第二文本之间是否需要进行语义距离计算；

本步骤中，假设第一文本中公开了第一企业主体(例如A公司)，第二文本中也公开了第一企业主体(例如A公司)，那么则认为第一文本及第二文本公开了相同主体。当所述第一文本及第二文本中公开了相同主体，则视为第一文本及第二文本需要进行语义距离计算。若第一文本及第二文本中公开了多组相同主体，那么则第一文本及第二文本则需要根据每一相同主体进行一次语义距离计算。例如第一文本及第二文本除了均公开了第一企业主体(例如A公司)，还均公开了第二企业主体(例如B公司)，那么则需要两次语义距离计算，其中一次是以第一企业主体为依据进行语义距离计算，另一次是以第二企业主体为依据进行语义距离计算。

S103、若第一文本及第二文本之间需要进行语义距离计算，将所述相同主体视为目标主体，分别对第一文本及第二文本进行预处理，以得到第一文本中含有所述目标主体的第一句子集合、第二文本中含有所述目标主体的第二句子集合；

本实施例中，当第一文本及第二文本中均公开了一组相同主体，假设均公开了上述第一企业主体(例如A公司)，那么则将该第一企业主体视为目标主体。当第一文本及第二文本中均公开了多组相同主体，假设第一文本及第二文本均公开了第一企业主体(例如A公司)及第二企业主体(例如B公司)，那么则将第一企业主体视为一个目标主体，将第二企业主体视为另一个目标主体，分别执行S103～S106步骤。即以第一企业主体作为目标主体，分别对第一文本及第二文本进行文本预处理、形成第一关键词集合及第二关键词集合、分别得到第一文本特征向量及第二文本特征向量、计算两文本之间的语义距离；以第二企业主体为目标主体，分别对第一文本及第二文本进行本预处理、形成第一关键词集合及第二关键词集合、分别得到第一文本特征向量及第二文本特征向量、计算两文本之间的语义距离。

本步骤中，将相同企业主体视为目标企业主体后，根据所述目标企业主体下的名称集，即企业的全称与简称，只选取含有目标企业名称的句子集合，有针对性地对文本进行解析。因此，上述的第一文本中含有所述目标企业主体的第一句子集合中包含了每一句含有目标企业主体全称或简称的句子，第二文本中含有目标企业主体的第二句子集合中包含了每一句含有目标企业主体全称或简称的句子。举例而言：假设目标企业主体为第一企业主体，第一企业主体的全称为A公司，简称包括有A1、A2、A3，那么，第一文本中只要是含有A公司、A1、A2、A3的句子，都被归至第一句子集合中，第二文本中只要是含有A公司、A1、A2、A3的句子，都被归至第二句子集合中。

本步骤的预处理除了提取含有目标主体的句子外，还对第一句子集合及第二句子集合进行分词处理。

S104、将所述第一句子集合及第二句子集合中公开的主体替换为对应的唯一编码，并分别获取所述第一句子集合及第二句子集合中的唯一编码以分别形成第一编码集合及第二编码集合，分别获取第一句子集合及第二句子集合中的关键词以分别形成第一关键词集合、第二关键词集合以及每一关键词集合中每一关键词的权重，所述每一关键词的权重是指每一关键词的重要性权重，即根据共现关系，该关键词在该句子分词集合中的重要性的权重；

本步骤中，公开的主体即是指公开的企业主体名称(包括全称及简称)，需要预先建立企业主体与唯一编码(企业唯一编码)的映射关系。假设企业主体名称为：A公司、A1、A2、A3，对应的企业唯一编码为：C00001。企业主体名称为：B公司、B1、B2，对应的企业唯一编码为：C00004。

当将所述第一句子集合及第二名子集合中公开的主体替换为对应的唯一编码后，分别从第一句子集合及第二句子集合中抽取第一编码集合及第二编码集合：C_i＝{c₁,…,c_n}。

本实施例中，是利用TextRank分别得到第一TopK关键词集合及相应的权重、第二TopK关键词集合及相应的权重的。TextRank是一种基于PageRank算法衍生而来的文本特征抽取算法，TextRank通过图，利用局部词汇之间的共现关系，计算词的重要性，选取权重大的作为关键词。由于基于共现关系计算词的重要性，所以抽选的关键词有一定的逻辑性，也有部分对文本内容的理解。因此，上述的每一关键词的权重，是指每关键词的重要性权重。利用TextRank分别得到第一TopK关键词集合及相应的权重、第二TopK关键词集合及相应的权重，所述TopK为前K个关键词：

KeyWord_i＝{keyword_i1,…,keyword_ik}

W_i＝{w_i1,…,w_ik},w_ij∈[0,1]

其中，keyword_ij中，i为句子集合序号，j表示第i句子集合中第j个关键词，当i＝1时，keyword_ij则为第一句子集合中第j个关键词，当i＝2时，keyword_ij则为第二句子集合中第j个关键词。w_ij中，i为句子集合序号，j表示第i句子集合中第j个关键词的权重，当i＝1时，w_ij则为第一句子集合中第j个关键词权重，当i＝2时，w_ij则为第二句子集合中第j个关键词权重。当文本文章篇幅比较短的时候，抽取的关键词如果小于K，以实际抽取的个数计算。例如，当K为20时，而文本通过TextRank算法抽取只有10个分词，即取所有10个分词作为关键词。

S105、分别转换第一关键词集合及第二关键词集合中的每一关键词并加权叠加，以分别得到与第一文本特征向量及第二文本特征向量；

本实施例中，是利用Word2vec模型转换集合中的各关键词，并加权叠加，得到针对目标企业的文本特征向量。Word2Vec是以大量文本语料作为训练样本，用无监督方式学习语义知识的一种模型。它通过学习文本，用词向量表征词的语义信息。通过将单词从原来的空间映射到新的嵌入空间，使得语义相似的词语在新的空间中距离很相近。在得到训练好的嵌入矩阵后，可以将单词转换为特定维度的向量，再对词向量进行比较，由词向量距离可以判定词语的相近程度。选取领域新闻语料，使用领域词典进行分词，将分词集合中的企业名称按企业类型替换为统一符号，取频率最高的M词进行训练。使用模型训练得到N维嵌入矩阵，对以上TopK关键词分别进行转换，得到词向量。将转换得到的TopK关键词词向量进行加权叠加，得到针对目标企业的文本特征向量。

具体地，利用Word2vec模型转换所述第一关键词集合及第二关键词集合中的各关键词，并加权叠加，得到针对目标企业的文本特征向量：

v_ij＝f_w2v(keyword_ij)

S106、根据所述第一编码集合、第一文本特征向量、第一文本发布时间以及第二编码集合、第二文本特征向量、第二文本发布时间计算两文本之间的语义距离。

由Word2vec模型得到的嵌入矩阵中，数字词向量间的距离会十分接近，导致季报、年报等周期性、文本内容高度相似，数字不相同的一类文本的语义距离很相近。为了解决这个问题，在计算语义距离的模型中加入时间距离因子，进行区分。

由上述S104步骤得到每一文本的企业集合C_i，由上述S105步骤得到每一文本的文本特征向量V_i，每一文本自带发布时间属性T_i。

假设上述第一文本为a文本，第二文本为b文本，有以下维度：

	企业唯一编码集合	文本特征向量	文本发布时间
				第一文本a	C_a	V_a	T_a
第二文本b	C_b	V_b	T_b

表1

1)使用Jaccard距离计算第一编码集合及第二编码集合之间的差异性:

2)使用Cosine距离计算第一文本及第二文本之间的语义距离：

3)使用如下公式距离计算第一文本及第二文本之间的时间距离：

其中，β为调节系数，本实施例中，T_a-T_b以“天”为单位；

D_ab＝w₀*Comp_Dist_ab+w₁*Content_Dist_ab+w₂*Time_Dist_ab

以上公式中，a表示第一文本，b表示第二文本，当所述D_ab越接近0，表示第一文本及第二文本之间的距离越小，针对目标主体的两篇文本越相似，反之，D_ab越接近1，表示第一文本及第二文本之间的语义距离越大，针对目标企业的两篇文本越独立。设立阈值ε之后，即可进行语义去重或聚类。

聚类方法可以采用现有的任何一种方法进行聚类。例如使用DBSCAN方法：DBSCAN是一种基于密度的聚类方法，聚类类别个数不需要先验知识，聚类形状不定，可以识别噪声，符合舆情文本的特点。归类后，即可以对同一类的内容进行分析，制作专题或者追踪报道，减少用户阅读量。

可以理解的，在其他的实施例中，所述主体并不限于企业主体，例如主体可以是指人、某一类的事物、植物、动物等等。

本发明实施方式中，与现有的方式相比，可以精确的计算出每两文本之间的语义距离，从而可以得出两篇文本之间的相似度，为后续的去重或者聚类提供更好的分析基础。

请参见图2，图2是本发明计算文本语义距离的方法第二实施例的流程图。本实施例同样以企业主体为例进行详细阐述，本实施例的计算文本语义距离的方法包括以下步骤：

S201、获取第一文本及第二文本；

S202、以第一文本及第二文本中公开的相同主体为依据，根据第一文本及第二文本与所述相同主体之间的关联度判断所述第一文本及第二文本之间是否需要语义距离计算，当所述第一文本与所述相同主体的关联度及第二文本与所述相同主体的关联度均大于第一预设阈值时，则所述第一文本及第二文本之间需要进行语义距离计算；

本步骤包括以下子步骤：

S2021、分别从第一文本及第二文本获取其公开的主体；

S2022、将第一文本与从该第一文本中获取到的主体相关联，将第二文本与从其第二文本中获取到的主体相关联，以分别得到第一文本与其主体的关联度以及第二文本与其主体的关联度；

S2023、判断第一文本及第二文本是否具有相同主体且关联度是否均大于第一预设阈值，若第一文本及第二文本具有相同的主体，且相同的主体与对应的文本之间的关联度均大于第一预设阈值，则所述第一文本及第二文本之间需要进行语义距离计算，所述相同主体则视为目标主体。

在一些实施例中，所述相同主体可以只有一个，而在另一些实施例中，所述相同主体则可能有多个。当相同主体为多个时，对每一对相同主体均要进行关联度判断，只有大于第一预设阈值的一对或多对相同主体，才进行两文本之间的语义距离计算。举例而言：假设第一文本及第二文本均公开了相同的第一企业主体(A公司)以及相同的第二企业主体(B公司)，那么，则计算所述第一企业主体与第一文本和第一主体与第二文本的关联度，计算第二企业主体与第一文本和第二文本的关联度，假设第一企业主体与第一文本的关联度为0.95，第一企业主体与第二文本的关联度为0.9，设第一预设阈值为0.5，那么第一企业主体与第一文本的关联度和与第二文本的关联度均大于第一预设阈值，则需要计算相对于第一企业主体而言，第一文本及第二文本之间的语义距离，且将第一企业主体视为目标企业主体。假设第二企业主体与第一文本的关联度为0.45，与第二文本之间的关联度为0.05，那么第二企业主体与第一文本的关联度和与第二文本的关联度均小于第一预设阈值，则不需要计算针对第二企业主体的第一文本及第二文本之间的语义距离。

所述企业主体与对应文本之间的关联度计算可以采用现有的任何一种方式而得到，例如构建企业主体的关键词库，包括企业的工商名称、企业简称等，并以此为准，在文本信息库进行关键词匹配检索，将匹配到的文本作为该企业主体的相关信息，再根据匹配程度进行关联度赋值。

作为优选的或可选的，还可通过本司此前申请的申请号为：CN201810567101.5、发明名称为：《利用知识图谱计算文本和主体相关度的方法以及装置》的申请文件，来得到所述企业主体与对应文本之间的关联度。对于关联度的获取，此处便不再过多赘述。

S203、若第一文本及第二文本之间需要进行语义距离计算，将关联度均大于所述第一预设阈值的相同主体视为目标主体，分别对第一文本及第二文本进行预处理，以得到第一文本中含有所述目标主体的第一句子集合、第二文本中含有所述目标主体的第二句子集合；

假设上述第一企业主体及第二企业主体分别与第一文本及第二文本的关联度均大于第一预设阈值时，那么第一企业主体及第二企业主体均被视为目标主体，那么则有两个目标主体，则需要针对每一个目标主体计算一次第一文本及第二文本之间的语义距离。

本预处理的方式与第一实施例的方式相同或相似，只是目标主体必须是与第一文本及第二文本之间的关联度均大于第一预设阈值的相同主体。

S204、将所述第一句子集合及第二句子集合中公开的主体替换为对应的唯一编码，并分别获取所述第一句子集合及第二句子集合中的唯一编码以分别形成第一编码集合及第二编码集合，分别获取第一句子集合及第二句子集合中的关键词以分别形成第一关键词集合、第二关键词集合以及每一关键词集合中每一关键词的权重；

S205、分别转换第一关键词集合及第二关键词集合中的每一关键词并加权叠加，以分别得到与第一文本特征向量及第二文本特征向量；

S206、根据所述第一编码集合、第一文本特征向量、第一文本发布时间以及第二编码集合、第二文本特征向量、第二文本发布时间计算两文本之间的语义距离。

本第二实施例中的S203步骤至S206步骤与第一实施例的S103至S106步骤的处理方式相同或相似，只是本第二实施例中所涉及到的目标主体必须是与第一文本及第二文本之间的关联度均大于第一预设阈值的相同主体。

本第二实施例与第一实施例的区别在于：1)在判断第一文本和第二文本是否需要语义距离计算时，需要分别得到第一文本及第二文本与同一相同主体之间的关联度，且判断第一文本及第二文本与同一相同主体之间的关联度是否大于第一预设阈值，只有大于第一预设阈值时，才计算第一文本及第二文本之间的语义距离；2)S203～S206步骤中所涉及到的目标主体，均是指当第一文本及第二文本与同一相同主体之间的关联度大于第一预设阈值时，该同一相同主体则被视为S203～S206步骤中所涉及的目标主体，而不是第一实施例中，只要是同一相同主体均是目标主体。

本发明实施方式，与第一实施方式相比，其有益效果和好处是：

1、提高语义距离计算、去重和聚类的效果：当针对目标主体进行语义去重计算时，如果文本与目标主体的关联度并不高，往往句子集合过短，可提取的企业唯一编码和关键词有限，对去重和聚类的效果有所影响。加入关联度判断，可以排除噪声，提高去重和聚类效果。

2、提高语义距离计算、去重和聚类的效率：根据第一实施方式，只要是同一相同主体均被认为是目标主体，每两篇文本之间都会进行语义距离计算，计算效率很低。加入关联度判断，可以缩小计算范围，提高计算效率。

具体结合实例对本发明第二实施例进行详细阐述：

样本新闻a(即第一文本)–某公司拟投资设立物流地产投资基金发布时间：2017-10-12 07:41，内容为：

“某公司A11日晚间公告，某公司、某某产业园与某公司、某公司拟共同投资设立一支专业物流地产投资基金某合伙企业(简称“某基金”).10月10日，上述各方签署了基金合伙协议。某基金的认缴出资总额为人民币60亿元，某产业园拟认缴物流地产投资基金出资额15亿元。

公司表示，本次公司下属子公司参与设立拟投资于中国境内确定区域的拟建、在建及已建成的物流地产项目的物流地产投资基金，有助于公司借助外部合作方力量，加快公司在物流地产领域的投资运作。”

样本新闻b(即第二文本)-某企业：某产业园拟投资设立物流地产投资基金，发布时间：2017-10-11 20:14，内容为：

“某企业公告，基于公司物流地产业务的发展战略，综合考虑目前市场环境，公司下属企业某产业园作为有限合伙人，拟共同投资设立一支专业物流地产投资基金某合伙企业(有限合伙).

2017年10月10日，就上述事项，普通合伙人M、有限合伙人签署了基金合伙协议，某基金未来将投资中国境内确定区域的拟建、在建及已建成的物流地产项目。基金管理人为某有限公司。

基金认缴出资总额为人民币60亿元(单位下同)，经全体合伙人一致同意，可增资，但增加出资后的出资总额不得超过200亿元。其中，某产业园拟认缴出资额15亿元，占比25％。”

一、判断舆情文本是否需要进行语义距离计算

将两篇样例新闻关联到企业主体与关联度如下：

表2

假设设立关联度阈值为0.3，大于0.3的只有“A公司”与“A1产业园”，即对于A公司和A1产业园(目标企业)，两篇样本新闻会分别进行语义距离计算；I公司仅在样本2中存在，不针对其基于两篇样本进行语义距离计算；对于其他相同企业如C公司，由于关联度小于阈值，两篇样本新闻也不进行语义距离计算。作为示例，以下以“A公司”为例，对两篇文本进行语义距离计算的演示。

(1)文本预处理，提取与目标企业相关的文本部分

假设选定A公司为目标企业，根据企业的全称与简称，选取含有企业名称的句子集合，如下表：

表3

(2)提取企业唯一编码集合、利用TextRank算法提取关键词集合

在使用TextRank算法之前，依据企业唯一编码对照表，将文本中的企业名称分别赋予相应的企业唯一编码。

企业唯一编码	企业名称
		C00001	A、A1、A2、A3
C00002	C1、C2、C3
		C00003	A4、A5、A6
C00004	B1、B2、B3
		C00005	D1、D2、D3
C00006	E1、E2、E3
		C00007	F1、F2、F3

表4

表5

进一步清洗文本后，假设K＝20，使用TextRank算法分别抽取：

1)所有企业的唯一编码集合

C₁＝{C00001,C00002,C00003,C00004,C00005,C00006,C00007}

C₂＝{C00001,C00002,C00003,C00004,C00005,C00006,C00007}

2)TopK关键词集合及相应的权重

KeyWord₁

＝{物流，地产，投资基金，投资，设立，签署，基金，合伙协议，简称，公告，专业}

W₁

＝{1.0000,0.8823,0.8340,0.6012,0.5777,0.5402,0.5377,0.5350,0.3796,0.3534,0.3423}

(3)利用Word2vec模型转换集合中的各关键词，并加权叠加，得到针对目标企业的文本特征向量：

取N＝300，N表示向量的维度，向量过长，不在文中展示，用v_ij代表。

(4)依据企业唯一编码集合、文本特征向量、舆情文本发布时间计算两文本之间的语义距离

1)使用Jaccard距离计算两个企业唯一编码集合之间的差异性:

使用Cosine距离计算文本语义距离：

使用如下公式距离计算两个文本的时间距离，取β＝0.05：

T₁＝2017-10-12 07:41

T₂＝2017-10-11 20:14

T₁-T₂＝0.4(天)

最后加权求和以上三种距离，得到针对目标企业，文本1与文本2的最终语义距离，

取w₀＝0.25，w₁＝0.68，w₂＝0.07：

D₁₂＝0.25*0+0.68*0.0531+0.07*0.019＝0.0374

假设取阈值ε＝0.15，D₁₂≤ε，则样本1和样本2被判定为语义相似文章，可以进行语义去重，保留其中一篇，又或者可以使用一些聚类方法对新闻进行归类。

例如使用DBSCAN方法，请参见图3，是针对A公司一段时间内的新闻进行语义聚类的效果展示。其中GROUP_NUM一致的被判定为语义相似文章，为一类。调节时间因子的参数也可以做专题或追踪报道。

请参见图4，本发明还公开了一种基于文本语义距离的文本去重方法，包括以下步骤：

S301、按照上述第一实施例或第二实施例所述的方法计算第一文本及第二文本之间的语义距离；

S302、判断第一文本及第二文本之间的语义距离是否大于第二预设阈值；

S303、若小于或等于第二预设阈值，则去掉其中一篇文本；

S304、若大于所述第二预设阈值，则可保留两篇文本或者结束。

请参见图5，本发明公开了一种基于文本语义距离的文本聚类方法，包括以下步骤：

S401、按照上述第一实施例或第二实施例的方法计算两文本之间的语义距离,从而得到若干文本之间的语义距离；

S402、根据所述若干文本之间的语义距离，使用聚类方法进行聚类(如划分聚类、层次聚类、密度聚类等)；

其中：若使用划分聚类、如K-MEANS(其中计算、选取质心的方法、判断条件不唯一)的方式如下：

(1)随机选取K个文本样本作为质心，为K个类别，分别计算每个样本到各个质心样本的语义距离，依据判断条件(如距离最小)，将其类别标为质心样本所对应的类别

(2)重新计算每个类的质心(如采用平均值)，再重复(1)、(2)直到质心不再发生变化或误差平方和最小时，结束迭代。

若使用层级聚类、如AGNES(自下而上结合的聚类方法，其中合并方法不唯一)的方式如下：

(1)每个文本样本都为一类，计算每两个类之间的语义距离，依据合并方法(如距离最近)，将两个类合并为一类

(2)重新计算合并后的类与各个旧类之间的语义距离直至都归为一类

(3)选取合适的分类个数，将文本最终划分为不同的类

若使用密度聚类、如DBSCAN的方式如下:

(1)选取一个未处理的样本，计算其与其余所有样本的语义距离，如果距离小于等于预设邻域半径的样本个数大于第二预设阈值，则此样本为核心点；若落在核心点的领域内，且距离小于预设领域半径的样本个数小于第二预设阈值，则此样本为边界点；既不是边界点，也不是核心点的样本为噪声点；

(2)标记完所有样本后，将语义距离不超过预设邻域半径的核心点互相连接，与核心点领域半径内的边界点同构成一个类。

上述文本去重方法及文本聚类方法，通过上述第一实施例或第二实施例计算两文本之间的语义距离，能够更精确、更有效的计算出两文本之间的语义距离。在去重方法中，可以更进一步筛选、保留高价值的文本，提高阅读者的阅读效率及体验。在聚类方法中，能够更有效的将相似的文本聚类。

本发明还公开了一种计算文本语义距离的装置，包括：

文本获取模块，用于获取第一文本及第二文本；

进一步的，所述语义距离计算判断模块还用于以第一文本及第二文本中公开的相同主体为依据，根据第一文本及第二文本与所述相同主体之间的关联度判断所述第一文本及第二文本之间是否需要语义距离计算，当所述第一文本与所述相同主体的关联度及第二文本与所述相同主体的关联度均大于第一预设阈值时，则所述第一文本及第二文本之间需要进行语义距离计算，所述相同主体则视为目标主体；所述文本预处理模块还用于当第一文本及第二文本之间需要进行语义距离计算，将关联度均大于所述第一预设阈值的相同主体视为目标主体，分别对第一文本及第二文本进行预处理，以得到第一文本中含有所述目标主体的第一句子集合、第二文本中含有所述目标主体的第二句子集合。

上述各模块的功能可参见第一实施例或第二实施例对应方法步骤的描述，此处便不再对各模块的更具体的功能进行一一赘述。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种计算文本语义距离的方法，包括以下步骤：

获取第一文本及第二文本；

基于所述第一编码集合和第二编码集合的差异性、第一文本特征向量和第二文本特征向量的距离、第一文本发布时间和第二文本发布时间计算两文本之间的语义距离。

2.如权利要求1所述的计算文本语义距离的方法，其特征在于，在以第一文本及第二文本中是否公开了相同主体为依据，判断所述第一文本及第二文本之间是否需要进行语义距离计算的步骤中，具体包括：

3.如权利要求2所述的计算文本语义距离的方法，其特征在于，在以第一文本及第二文本中公开的相同主体为依据，根据第一文本及第二文本与所述相同主体之间的关联度判断所述第一文本及第二文本之间是否需要语义距离计算的步骤中，具体包括：

分别从第一文本及第二文本获取其公开的主体；

4.如权利要求1至3中任一项所述的计算文本语义距离的方法，其特征在于，在分别获取所述第一句子集合及第二句子集合中的唯一编码以分别形成第一编码集合及第二编码集合，分别获取第一句子集合及第二句子集合中的关键词以分别形成第一关键词集合及第二关键词集合以及每一关键词集合中每一关键词权重的步骤中，具体包括：

KeyWord_i＝{keyword_i1,…,keyword_ik}

W_i＝{w_i1,…,w_ik},w_ij∈[0,1]

其中，keyword_ij中，i为句子集合序号，j表示第i句子集合中第j个关键词，当i＝1时，keyword_ij则为第一句子集合中第j个关键词，当i＝2时，keyword_ij则为第二句子集合中第j个关键词；w_ij中，i为句子集合序号，j表示第i句子集合中第j个关键词的权重，当i＝1时，w_ij则为第一句子集合中第j个关键词权重，当i＝2时，w_ij则为第二句子集合中第j个关键词权重。

5.如权利要求4所述的计算文本语义距离的方法，其特征在于，在分别转换第一关键词集合及第二关键词集合中的每一关键词并加权叠加，以分别得到与第一文本特征向量及第二文本特征向量的步骤中，具体包括：

v_ij＝f_w2v(keyword_ij)

其中，w_ij表示第i句子集合中的第j每一个关键词的权重，v_ij表示第i句子集合中的第j个关键词的词向量，即keyword_ij的词向量；f_w2v(·)为Word2vec的转换函数，将keyword_ij转换为v_ij进行后续计算。

6.如权利要求5所述的计算文本语义距离的方法，其特征在于，在根据所述第一编码集合、第一文本特征向量、第一文本发布时间以及第二编码集合、第二文本特征向量、第二文本发布时间计算两文本之间的语义距离步骤中，具体包括：

使用Cosine距离计算第一文本及第二文本之间的语义距离：

其中，β为调节系数；

D_ab＝w₀*Comp_Dist_ab+w₁*Content_Dist_ab+w₂*Time_Dist_ab

7.一种基于文本语义距离的文本去重方法，包括以下步骤：

按照权利要求1至6中任一权利要求所述的方法计算第一文本及第二文本之间的语义距离；

若小于或等于第二预设阈值，则去掉其中一篇文本；

若大于所述第二预设阈值，则保留两篇文本。

8.一种基于文本语义距离的文本聚类方法，包括以下步骤：

按照权利要求1至6中任一项权利要求所述的方法计算两文本之间的语义距离；

根据若干文本之间的语义距离，使用聚类方法进行聚类。

9.一种计算文本语义距离的装置，包括：

文本获取模块，用于获取第一文本及第二文本；

语义距离计算模块，用于基于所述第一编码集合和第二编码集合的差异性、第一文本特征向量和第二文本特征向量的距离、第一文本发布时间和第二文本发布时间计算两文本之间的语义距离。

10.如权利要求9所述的计算文本语义距离的装置，其特征在于：所述语义距离计算判断模块还用于以第一文本及第二文本中公开的相同主体为依据，根据第一文本及第二文本与所述相同主体之间的关联度判断所述第一文本及第二文本之间是否需要语义距离计算，当所述第一文本与所述相同主体的关联度及第二文本与所述相同主体的关联度均大于第一预设阈值时，则所述第一文本及第二文本之间需要进行语义距离计算，所述相同主体则视为目标主体；