CN115374775A - 一种确定文本相似度的方法、装置、设备及存储介质 - Google Patents

一种确定文本相似度的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115374775A
CN115374775A CN202110548240.5A CN202110548240A CN115374775A CN 115374775 A CN115374775 A CN 115374775A CN 202110548240 A CN202110548240 A CN 202110548240A CN 115374775 A CN115374775 A CN 115374775A
Authority
CN
China
Prior art keywords
text
word vector
weight
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110548240.5A
Other languages
English (en)
Inventor
王冶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110548240.5A priority Critical patent/CN115374775A/zh
Publication of CN115374775A publication Critical patent/CN115374775A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种确定文本相似度的方法、装置、设备及存储介质,该方法包括:对文本进行关键词项提取和词向量转换,得到文本的词向量集合;对文本的词向量集合进行权重分层,得到至少两层权重系数;根据文本的至少两层权重系数对词向量集合进行加权平均,得到文本向量;根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。如此,将关键词项的词向量进行分层,按一定规则分配权重,使得重要的关键词项所在的层占据更大权重,反之权重越小,这样对词向量集合进行加权平均运算后得到的文本向量更准确,从而利用文本向量在计算文本相似度时能提高文本相似度的精确度。

Description

一种确定文本相似度的方法、装置、设备及存储介质
技术领域
本发明涉及分布式机器学习领域,尤其涉及一种确定文本相似度的方法、 装置、设备及存储介质。
背景技术
在自然语言处理(Natural Language Processing,NLP)中,经常会涉及到如 何度量两个文本的文本相似度问题。在诸如文本聚类、文本推荐、信息检索、 相似去重等问题中,如何度量文本之间的相似度尤为重要。
在文本相似度计算领域,常用的是以词向量为基础的文本相似度计算方法 以及它的一些变种算法。但是目前的算法普遍存在语义信息失衡的问题。在基 于词向量为基础的文本相似度计算方法中,例如Word2Vec,计算对所有关键词 项无层次的计算相似度,这样会降低核心词项在语义中的权重,使得文本相似 度精确度较低。
发明内容
为解决上述技术问题,本申请实施例期望提供一种确定文本相似度的方法、 装置、设备及存储介质,可以实现文本相似度的精确获取。
本申请的技术方案是这样实现的:
第一方面,提供了一种确定文本相似度的方法,方法包括:
获取文本数据集;其中,文本数据集中包括至少两个文本;
对文本数据集中的文本进行关键词项提取和词向量转换,得到文本的词向 量集合;
对所述文本的词向量集合进行权重分层处理,得到文本的至少两层权重系 数;
根据文本的至少两层权重系数对所述词向量集合进行加权平均运算,得到 文本的文本向量;
根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所 述第一文本和所述第二文本的相似度。
上述方案中,对所述文本的词向量集合进行权重分层处理,得到文本的至 少两层权重系数,包括:对所述文本数据集中每个文本的每个词向量的第一权 重值进行归一化处理,得到每个词向量的第二权重值;利用所述文本数据集中 每个文本的每个词向量的第二权重值,构建文本-词项权重矩阵;将每个文本的 词向量集合进行N等分,得到N层词向量子集合;其中,N取大于等于2的整 数;根据所述文本-词项权重矩阵和预设的权重分层策略,得到每层词向量子集 合的权重系数。
上述方案中,对文本数据集中每个文本的每个词向量的第一权重值进行归 一化处理,得到每个词向量的第二权重值,包括:基于所述每个词向量的第一 权重值、其所在文本中最小第一权重值和最大第一权重值,确定所述每个词向 量的第二权重值。
上述方案中,权重分层策略,包括:根据所述文本数据集中每个文本的第 k个词向量子集合中所有词向量对应的第二权重值得到第k个词向量子集合的 权重系数;其中,k取大于等于1且小于等于N的整数。
上述方案中,对所述文本数据集中的文本进行关键词项提取和词向量转换, 得到文本的词向量集合,包括:对所述文本数据集中的文本进行词项提取,得 到文本的词项集合;确定所述词项集合中每个词项的第一权重值;将所有词项 的按照第一权重值按从大到小的顺序排列,按照预设规则获取排序靠前的词项 组成文本的关键词项集合;将所述关键词项集合输入到词向量转换模型中,得 到文本的词向量集合。
上述方案中,预设规则为获取第一权重值排序位于前40%的词项。
上述方案中,确定词项集合中每个词项的第一权重值,包括:基于TF-IWF 算法,确定所述词项集合中每个词项的TF-IWF值;将每个词项的TF-IWF值 结合对应的信息增益,得到每一词项的TF-IWF-IG值作为所述第一权重值。
第二方面,提供了一种确定文本相似度的装置,其特征在于,所述装置包 括:
数据获取模块,用于获取文本数据集;其中,所述文本数据集中包括至少 两个文本;
处理模块,用于对所述文本数据集中的文本进行关键词项提取和词向量转 换,得到文本的词向量集合;
所述处理模块,还用于对所述文本的词向量集合进行权重分层处理,得到 文本的至少两层权重系数;根据文本的所述至少两层权重系数对所述词向量集 合进行加权平均运算,得到文本的文本向量;
计算模块,用于根据所述文本数据集中第一文本的文本向量和第二文本的 文本向量确定所述第一文本和所述第二文本的相似度。
第三方面,提供了一种电子设备,所述电子设备包括:处理器和配置为存 储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器配置为运行所述计算机程序时,执行前述任一项所述方 法的步骤。
第四方面,提供了一种计算机存储介质,其上存储有计算机程序,其中, 该计算机程序被处理器执行时实现前述方法的步骤。
本申请实施例公开了一种确定文本相似度的方法、装置、设备及存储介质, 该方法包括:获取文本数据集;其中,所述文本数据集中包括至少两个文本; 对所述文本数据集中的文本进行关键词项提取和词向量转换,得到文本的词向 量集合;对所述文本的词向量集合进行权重分层处理,得到文本的至少两层权 重系数;根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运 算,得到文本的文本向量;根据所述文本数据集中第一文本的文本向量和第二 文本的文本向量确定所述第一文本和所述第二文本的相似度。如此,将关键词 项的词向量进行分层,按一定规则分配权重,使得重要的关键词项所在的层占 据更大权重,反之权重越小,这样对词向量集合进行加权平均运算后得到的文 本向量更准确,从而利用文本向量在计算文本相似度时能提高文本相似度的精 确度。
附图说明
图1为本申请实施例中确定文本相似度方法的第一流程示意图;
图2为本申请实施例中的权重分层示意图;
图3为本申请实施例中确定文本相似度方法的第二流程示意图;
图4为本申请实施例中基于Spark平台的确定文本相似度方法的第三流程 示意图;
图5为本申请实施例中Word2Vec的CBOW模型的结构示意图;
图6为本申请实施例中结合Spark计算平台的整体计算过程示意图;
图7为本申请实施例中确定文本相似度的装置的组成结构示意图;
图8为本申请实施例中确定文本相似度的设备的组成结构示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图 对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来 限定本申请实施例。
图1为本申请实施例中确定文本相似度方法的第一流程示意图,如图1所 示,确定文本相似度的方法具体可以包括:
步骤101:获取文本数据集;其中,所述文本数据集中包括至少两个文本。
其中,获取的文本数据集中包括至少两个文本。这里,获取文本数据集的 作用是对为文本相似度的确定提供数据基础。
步骤102:对所述文本数据集中的文本进行关键词项提取和词向量转换, 得到文本的词向量集合。
这里,对所述文本数据集中的文本进行关键词项提取,目的是提取对文本 语义影响较大的词项,组成文本的关键词项集合。
示例性的,该方法具体包括:对文本进行降维处理。处理过程为先提取词 项;确定每个词项的权重值,根据权重值对词项进行降维处理,确定词项中对 文本语义影响较大的关键词词项,将关键词项进行保留组成关键词项集合,将 对文本影响较小的词项作为关键词项进行删除。这里,文本的关键词项集合为 保留的对文本影响较大的关键词项集合,其中,所述关键词项集合中关键词项 的排序为按照其对文本的影响程度从大到小排列。
通过将对文本影响较大的词项作为关键词项进行保留,将对文本影响较小 的词项作为关键词项进行删除,可以将在不影响文本含义的情况下删除大量的 词项,有效提升后续的处理速度。
在实际应用中,词向量转换可以是将所述关键词项集合输入到词向量转换 模型中,得到文本的词向量集合。
通过将文本的关键词项转化为词向量,为后续的基于词向量的文本相似度 的确定提供基础。
步骤103:对所述文本的词向量集合进行权重分层处理,得到文本的至少 两层权重系数。
这里,对文本的词向量集合进行权重分层处理为:将文本数据集中每个文 本的词向量集合进行分层,得到至少两层词向量子集合;获取所有文本的第k 层词向量子集合中的词向量,构成文本数据集的第k层词向量集合。其中,第 k层词向量集合对应一个权重系数,权重系数用于表征该层词向量集合中词向 量的重要程度。每个文本的第k层词向量子集合的权重系数均相等,其数值等 于第k层词向量集合的权重系数。
示例性的,图2展示了一种权重分层的示意图。如图2所示,对第一文本 和第二文本的词向量集合进行3等分,分成了三层。图2中vij表示第i文本, 第j个关键词项对应的词向量。v1m1,v1m2,v1m3分别表示第1文本第1层、第2 层,第3层中最后一个关键词项对应的词向量,v2n1,v2n2,v2n3分别表示第2文 本第1层、第2层,第3层中最后一个关键词项对应的词向量。m,n分别表示 第一文本和第二文本中词向量的个数。
图中变量满足的关系如下关系:
Figure BDA0003074422580000061
本申请的技术方案,通过将文本的词向量集合进行权重分层处理,并对每 一层词向量集合设置一个对应的权重系数,有利于提高后续文本向量的精确度。
步骤104:根据文本的所述至少两层权重系数对所述词向量集合进行加权 平均运算,得到文本的文本向量。
示例性的,对第一文本权重分层后得到的至少两层词向量子集合进行加权 平均运算,得到第一文本的文本向量,其中,加权平均运算中第k层词向量子 集合的对应权重为该层词向量子集合对应的权重系数。
本申请的技术方案,通过将文本的词向量进行权重分层处理,并对每一层 词向量设置一个对应的权重系数,并通过对文本中每一层词向量子集合进行加 权平均运算来获取每一文本的文本向量,使得重要的关键词项所在的层占据更 大的权重,从而提高文本向量的精确度,使得文本向量可以更准确的表示文本 语义。
步骤105:用于根据所述文本数据集中第一文本的文本向量和第二文本的 文本向量确定所述第一文本和所述第二文本的相似度。
实际应用中,用两个向量夹角的余弦值来表示这两个向量的相似度。其中, 向量
Figure RE-GDA0003179467520000062
和向量
Figure RE-GDA0003179467520000063
夹角的余弦值
Figure RE-GDA0003179467520000064
可通过下列公式计算得到,
Figure RE-GDA0003179467520000065
这里,步骤101至步骤105的执行主体可以为电子设备的处理器。
本申请实施例提供的技术方案,在确定文本向量时,通过对每篇文本关键 词项的词向量就行权重分层,对排在前列的对整篇文本的语义影响较大词项需 要配置更高的权重,使得重要的关键词项所在的层占据更大权重,反之权重越 小,这样对词向量集合进行加权平均运算后得到的文本向量更准确,从而利用 文本向量在计算文本相似度时能提高文本相似度的精确度。在一些实施例中, 还可以将该相似度确定方法与现有技术结合,用于解决文本聚类、文本推荐、 信息检索、相似去重等问题。
为了能更加体现本申请的目的,在本申请实施例一的基础上,进行进一步 的举例说明,图3为本申请实施例中确定文本相似度方法的第二流程示意图, 如图3所示,在第二实施例中,确定文本相似度的方法具体包括:
步骤201:获取文本数据集;其中,所述文本数据集中包括至少两个文本。
其中,获取的文本数据集中包括至少两个文本。这里,获取文本数据集的 作用是对为文本相似度的确定提供数据基础。
步骤202:对所述文本数据集中的文本进行关键词项提取和词向量转换, 得到文本的词向量集合。
在一些实施例中,对所述文本数据集中的文本进行关键词项提取,得到文 本的关键词项集合,包括:
对所述文本数据集中的文本进行词项提取,得到文本的词项集合;确定所 述词项集合中每个词项的第一权重值;将所有词项的按照第一权重值按从大到 小的顺序排列,按照预设规则获取排序靠前的词项组成文本的关键词项集合; 将所述关键词项集合输入到词向量转换模型中,得到文本的词向量集合。
示例性的,所述第一权重值的确定可以通过TF-IDF算法或者TF-IWF算法 实现。
在一些实施例中,确定所述词项集合中每个词项的第一权重值,包括:基 于TF-IWF算法,确定所述词项集合中每个词项的TF-IWF值;将每个词项的 TF-IWF值结合对应的信息增益,得到每一词项的TF-IWF-IG值作为所述第一 权重值。
具体的:可以通过以下公式进行TF-IWF值的计算:
Figure BDA0003074422580000081
式中,ns表示指定词项在当前文本出现的次数的和,∑ns表示当前文本s 中所有词项的总数,
Figure BDA0003074422580000082
表示数据集中所有文本的词项总数,nw表示数据集中 所有文本的个数。
可以通过以下公式进行信息增益值IG值的计算:
Figure BDA0003074422580000083
式中,C表示文本集的类别集合;p(Ci)表示类别Ci的概率,p(Ci/ti)表示词 项在类别Ci中出现的概率。
可以通过以下公式进行TF-IWF-IG值的计算:
Figure BDA0003074422580000084
在一些实施例中,所述预设规则可以为获取第一权重值排序位于前40%的 词项。
本申请的技术方案,将信息增益计算融合进权重计算中,可以更好的反应 词项在文本中的影响。提高关键词项权重计算精度,从而可以为关键词项的提 取提供更准确的依据。通过将对文本影响较大的词项作为关键词项进行保留, 将对文本影响较小的词项作为关键词项进行删除,可以将在不影响文本含义的 情况下删除大量的词项,有效提升后续的处理速度。
在实际应用中,词向量转换可以是将所述关键词项集合输入到词向量转换 模型中,得到文本的词向量集合。示例性的,所述词向量转换模型可以为 Word2Vec的CBOW模型或Skip-gram模型。
通过词向量转换模型将文本的关键词项转化为词向量,为后续的基于词向 量的文本相似度的确定提供基础。
步骤203:对所述文本数据集中每个文本的每个词向量的第一权重值进行 归一化处理,得到每个词向量的第二权重值。
在一些实施例中,对所述文本数据集中每个文本的每个词向量的第一权重 值进行归一化处理,得到每个词向量的第二权重值,包括:
基于所述每个词向量的第一权重值、其所在文本中最小第一权重值和最大 第一权重值,确定所述每个词向量的第二权重值。
具体地,可以通过以下归一化公式进行归一化处理:
Figure BDA0003074422580000091
式中,w'1i表示第一文本中第i个词向量的第二权重值,w1i表示第一文本第 i个词向量的第一权重值,w11表示第一文本第1个词向量的第二权重值,即第 一文本的最小第一权重值,w11表示第一文本第1个词向量的第二权重值,即第 一文本的最小第一权重值,w1n表示第一文本最后一个词向量的第二权重值,即 第一文本的最小第一权重值,n表示第一文本中词向量的个数。
通过对每个词向量的第一权重值进行归一化处理得到第二权重值,可以方 便后续的数据处理。
步骤204:利用所述文本数据集中每个文本的每个词向量的第二权重值, 构建文本-词项权重矩阵。
在一些实施例中,文本-词项权重矩阵W为:
Figure BDA0003074422580000092
式中,s为文本数据集中文本个数,w'ij为第i文本第j个词向量的第二权重 值,ni为第i文本中词向量个数。
实际应用中,不同文本的关键词项的个数不一定相同。当文本数据集中不 同文本的关键词项的个数不同时,文本-词项权重矩阵的列数为关键词项个数最 多的文本的关键词项个数。当W的列数大于第i文本的词向量个数ni时,第i 文本对应的第i行的第n(i+1)列至最后一列取值默认为0。
这里,构建的文本-词项权重矩阵为后续的确定每层词向量子集合的权重系 数提供基础。
步骤205:将每个文本的词向量集合进行N等分,得到N层词向量子集合, 其中,N取大于等于2的整数。
示例性的,N可以取3,将每个文本的词向量集合进行3等分,分别得到3 层词向量子集合。
在一些实施例中,得到N层词向量子集合后,所述方法还包括:获取所有 文本的第k层词向量子集中的词向量,构成第k层词向量集合。其中,取大于 大于等于2且小于等于N的整数。
其中,每个文本的第k层词向量子集合的权重系数均相等,其数值等于第 k层词向量集合的权重系数。
示例性的,文本数据集中包括第一文本和第二文本,第一文本中词向量个 数为60个,第二文本中词向量个数为90个。将每个文本的词向量集合进行3 等分,分别得到3层词向量子集合,将两个文本的第1、2、3层词向量子集合 中的词向量进行提取,构成文本数据集的第1、2、3层词向量集合。本申请实 施例中计算每个文本的第k层词向量子集合的权重系数,即为计算文本数据集 的第k层词向量集合的权重系数。
其中,第1层词向量集合中包括20个第一文本中排序第01~20的词向量和 30个第二文本中排序第01~30的词向量。第2层词向量集合中包括20个第一 文本中排序第21~40的词向量和30个第二文本中排序第31~60的词向量。第3 层词向量集合中包括20个第一文本中排序第41~60的词向量和30个第二文本 中排序第61~90的词向量。
步骤206:根据所述文本-词项权重矩阵和预设的权重分层策略,得到每层 词向量子集合的权重系数。
在一些实施例中,所述权重分层策略,包括:
根据所述文本数据集中每个文本的第k个词向量子集合中所有词向量对应 的第二权重值得到第k个词向量子集合的权重系数;其中,k取大于等于1且 小于等于N的整数。
示例性的,所述权重分层策略,包括:
Figure BDA0003074422580000111
式中,ak为第k层词向量子集合的权重系数(即文本数据集的第k层词向 量集合的权重系数),第pk为第k层词向量子集合中最后一个词向量的第二权 重值在所述文本-词项权重矩阵中的列号,p(k-1)为第k-1层词向量子集合中最后 一个词向量的第二权重值在所述文本-词项权重矩阵中的列号,s为所述文本数 据集中文本个数;w'ij为所述文本-词项权重矩阵中第i文本第j个词向量的第二 权重值。
这里,
Figure BDA0003074422580000112
即为第k层词向量集合中所有词向量对应的第二权重值的 和。
通过根据所述文本-词项权重矩阵和预设的权重分层策略,确定得到每一层 词向量子集合对应的权重系数,该权重系数可以用于表征每一层的词向量对文 本的影响程度,有利于提高后续文本向量的精确度。
步骤207:根据文本的所述至少两层权重系数对所述词向量集合进行加权 平均运算,得到文本的文本向量。
示例性的,当N取3时,将文本的词向量集合分为三层,对权重分层后的 词向量进行加权平均,得到的第一文本的文本向量DocVec1为:
Figure BDA0003074422580000113
式中,a1,a2,a3分别为第一、第二和第三层词向量子集合对应的权重系 数,
Figure BDA0003074422580000114
分别为第一文本中第一层,第二层,第三层 词向量的和,m为第一文本中词向量的个数。
本申请的技术方案,通过对文本中每一层词向量子集合进行加权平均运算 来获取每一文本的文本向量,使得重要的关键词项所在的层占据更大的权重, 从而提高文本向量的精确度,使得文本向量可以更准确的表示文本语义。
步骤208:用于根据所述文本数据集中第一文本的文本向量和第二文本的 文本向量确定所述第一文本和所述第二文本的相似度。
示例性的,第一文本和第二文本的文本向量分别为:DocVec1,DocVec2, 结合向量的余弦相似度计算公式,即可得到两篇文本的词向量相似度SimVec, 这里,用两篇文本的词向量相似度SimVec来表示第一文本和所述第二文本的相 似度,其中,
SimVec=CosSim(DocVec1,DocVec2)。
本申请实施例提供的技术方案,在确定文本向量时,通过对每篇文本关键 词项的词向量就行权重分层,对排在前列的对整篇文本的语义影响较大词项需 要配置更高的权重,使得重要的关键词项所在的层占据更大权重,反之权重越 小,这样对词向量集合进行加权平均运算后得到的文本向量更准确,从而利用 文本向量在计算文本相似度时能提高文本相似度的精确度。
这里,步骤201至步骤208的执行主体可以为电子设备的处理器。
为了能更加体现本申请的目的,在本申请上述实施例的基础上,进行进一 步的举例说明,图4为本申请实施例中基于Spark平台的确定文本相似度方法 的第三流程示意图,如图4所示,在第三实施例中,将确定文本相似度的方法 应用于文本聚类,提供了一种基于spark平台的文本聚类方法,该方法具体包 括:
步骤301:获取原始文本数据集。
步骤302:对原始文本数据集中的文本进行分词处理。
具体地,搭建Hadoop分布式文件系统(HDFS)和Spark平台;
将原始文本数据集上传到HDFS文件系统中,利用汉语词法分析系统ICTCLAS和Hadoop并行计算平台将原始文本数据集进行并行分词处理,并重 新上传至HDFS文件系统中;
Spark平台从HDFS文件系统中读取分词处理后的数据集,将读取的数据 集转化为弹性分布式数据集RDD,并将其缓存在内存中,Spark平台中的 DAGScheduler和TaskScheduler分配任务和代码,并行运行各个任务组中的任 务。
步骤303:将分词后的数据集中数据划分为训练数据和测试数据。
步骤304:利用TF-IWF-IG对每一篇文本进行降维处理,得到每一文本的 关键词项集合。
TF-IWF表示词频,其计算公式如下:
Figure BDA0003074422580000131
式中,ns表示指定词项在当前文本出现的次数的和,∑ns表示当前文本s 中所有词项的总数,
Figure BDA0003074422580000132
表示数据集中所有文本的词项总数,nw表示数据集中 所有文本的个数。
将信息增益融入TF-IWF算法,得到TF-IWF-IG值的计算方法。其中,信 息增益是一个统计量,用来描述一个属性区分数据样本的能力。信息增益越大, 那么决策树就会越简洁。这里信息增益的程度用信息熵的变化程度来衡量。在 信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越 多,该特征越重要。可以通过以下公式进行信息增益值IG值的计算:
Figure BDA0003074422580000133
式中,C表示文本集的类别集合;p(Ci)表示类别Ci的概率,p(Ci/ti)表示词 项在类别Ci中出现的概率。
因此,TF-IWF-IG值计算方式为:
Figure BDA0003074422580000141
计算出所有词项的TF-IWF-IG值之后。将所有词项的按照第一权重值按从 大到小的顺序排列,按照预设规则获取排序靠前的词项组成文本的关键词项集 合。这里,词项的TF-IWF-IG值即为第一权重值。
实际应用中,所述预设规则可以为获取第一权重值排序位于前40%的词项。
步骤305:构建Word2Vec的CBOW模型。
步骤306:构建训练数据集,并设置模型训练的迭代次数或精度。
示例性的,利用降维后的训练数据构建训练数据集。
步骤307:将测试数据集导入Word2Vec的CBOW模型,进行模型训练。
示例性的,Word2Vec的CBOW模型的结构如图5所示,设置模型的输入 量为当前词项前两个词项和后两个词项。图5中,W'N×V为隐藏层的权重矩阵, WV×N为输入层的权重矩阵,W(t-2),W(t-1),W(t+1),W(t+2)分别表示当前词项 的前两个词项和后两个词项,W(t)表示当前词项。
网络的权重的初始化采用随机选取,采用负采样方式训练模型,使用一元 模型分布来选择negative words。一个单词被选作negative sample的概率跟它出 现的频次有关,出现频次越高的单词越容易被选作negative words,经验公式 (negative words的概率计算公式)为:
Figure BDA0003074422580000142
式中,f(w)表示文本中词项w出现的频率,也被称作权重,分母代表所有 词项的权重的和。
步骤308:判断模型训练是否达到预设的迭代次数或精度,若否,则返回 步骤307,继续进行模型训练;若是,则执行步骤309。
步骤309:保存训练完成的Word2Vec的CBOW模型。
步骤310:构建测试数据集。
示例性的,利用降维后的测试数据构建测试数据集。
步骤311:将测试数据集传入到训练完成后的模型中,利用所述训练完成 后的模型计算出每篇文本的所有关键词项对应的词向量集合。
步骤312:对所述文本的词向量集合进行权重分层处理,得到文本的至少 两层权重系数。
示例性的,将词向量集合分成3层,确定每一层词向量集合的权重系数。 具体的:首先对每篇文本每个关键词项的权重归一化处理,得到每个关键词项 的第二权重值;通过归一化后构建文本-词项权重矩阵;根据文本-词项权重矩 阵,分别求解三层词向量集合的权重系数a1,a2,a3,即:
Figure BDA0003074422580000151
式中p1和p2分别为每篇文本第1层和第二层词向量子集合中最后一个词 向量的第二权重值在所述文本-词项权重矩阵中的列号,n代表每篇文本的关键 词项总数,其数值时一个集合变量,根据每一篇文本的数量不同而不同,s为 文本总数量,w'ij为所述文本-词项权重矩阵中第i文本第j个词向量的第二权重 值。
步骤313:根据文本的权重系数对所述词向量集合进行加权平均运算,得 到文本的文本向量。
具体的,对权重分层后的词向量进行加权平均,得到的第一文本的文本向 量DocVec1为:
Figure BDA0003074422580000152
式中,a1,a2,a3分别为第一、第二和第三层词向量子集合对应的权重系 数,
Figure BDA0003074422580000153
分别为第一文本中第一层,第二层,第三层 词向量的和,m为第一文本中词向量的个数。
通过对文本中每一层词向量子集合进行加权平均运算来获取每一文本的文 本向量,使得重要的关键词项所在的层占据更大的权重,从而提高文本向量的 精确度,使得文本向量可以更准确的表示文本语义。
步骤314:根据所述文本数据集中第一文本的文本向量和第二文本的文本 向量确定所述第一文本和所述第二文本的相似度。
具体的,第一文本和第二文本的文本向量分别为:DocVec1,DocVec2,结 合向量的余弦相似度计算公式,即可得到两篇文本的词向量相似度SimVec,这 里,用两篇文本的词向量相似度SimVec来表示第一文本和所述第二文本的相似 度,其中,
SimVec=CosSim(DocVec1,DocVec2)。
步骤315:利用k-means聚类方法对已经计算出相似度的文本进行聚类。
在一些实施例中,聚类中心的选取包括:选取文本数据集中距离最大的两 个文本k1和k2,作为初始聚类中心;在剩余的文本数据集中,选取一个距离 k1和k2相等的文本k3作为第三个初始聚类中心;对数据集中所有文本进行聚 类。其中,k3点大概率是虚点,有利于提高聚类效果。
这里,步骤301至步骤315的执行主体可以为电子设备的处理器。示例性 的,图6展示了一种结合Spark计算平台的整体计算过程。图6中,FilterRDD4 表示对原始文本数据集中的文本进行分词处理,得到多个词项(Partition1-n); WordRDD表示对降维后的数据集利用Word2Vec模型进行训练,得到每个词项 的对应的词向量(Word,Vector);WordSimRDD表示通过权重分层,计算得到 文本的文本向量(Text,Vector)。TextSimRDD表示通过余弦值计算得到文本 之间的文本相似度(Text1,Text2,sim)。
本申请实施例提供的技术方案,通过使用Spark分布式计算平台可以提高 计算速度。使用TF-IWF-IG代替传统的TF-IDF和TF-IWF实现文本词项降维, 通过融合信息增益,提高了关键词项权重计算精度,从而可以为降维提供更准 确的依据。根据关键词TF-IWF-IG的权重进行分层权重计算,共分为三层,计 算各层权重系数,再结合词向量,利用余弦相似度计算文本相似度,更加符合 文本的信息分布,可以有效提高文本聚类的精度。
为实现本申请实施例的方法,基于同一发明构思本申请实施例还提供了一 种确定文本相似度的装置,图7为本申请实施例中确定文本相似度的装置的组 成结构示意图,如图7所示,该装置包括:
数据获取模块401,用于获取文本数据集;其中,所述文本数据集中包括 至少两个文本;
处理模块402,用于对所述文本数据集中的文本进行关键词项提取和词向 量转换,得到文本的词向量集合;
处理模块402,还用于对所述文本的词向量集合进行权重分层处理,得到 文本的至少两层权重系数;根据文本的所述至少两层权重系数对所述词向量集 合进行加权平均运算,得到文本的文本向量;
计算模块403,用于根据所述文本数据集中第一文本的文本向量和第二文 本的文本向量确定所述第一文本和所述第二文本的相似度。
在一些实施例中,所述处理模块402,还用于对所述文本数据集中每个文 本的每个词向量的第一权重值进行归一化处理,得到每个词向量的第二权重值; 利用所述文本数据集中每个文本的每个词向量的第二权重值,构建文本-词项权 重矩阵;将每个文本的词向量集合进行N等分,得到N层词向量子集合;其中, N取大于等于2的整数;根据所述文本-词项权重矩阵和预设的权重分层策略, 得到每层词向量子集合的权重系数。
在一些实施例中,所述处理模块402,还用于基于所述每个词向量的第一 权重值、其所在文本中最小第一权重值和最大第一权重值,确定所述每个词向 量的第二权重值。
在一些实施例中,所述处理模块402,还用于确定权重分层策略,其中, 权重分层策略包括:根据所述文本数据集中每个文本的第k个词向量子集合中 所有词向量对应的第二权重值得到第k个词向量子集合的权重系数;其中,k 取大于等于1且小于等于N的整数。
在一些实施例中,所述处理模块402,还用于对所述文本数据集中的文本 进行词项提取,得到文本的词项集合;确定所述词项集合中每个词项的第一权 重值;将所有词项的按照第一权重值按从大到小的顺序排列,按照预设规则获 取排序靠前的词项组成文本的关键词项集合。
在一些实施例中,所述处理模块402,还用于基于TF-IWF算法,确定所述 词项集合中每个词项的TF-IWF值;将每个词项的TF-IWF值结合对应的信息 增益,得到每一词项的TF-IWF-IG值作为所述第一权重值。
基于上述文本相似度确定中各单元的硬件实现,本申请实施例还提供了另 一种电子设备,图8为本申请实施例中确定文本相似度的设备的组成结构示意 图,如图8所示,该电子设备包括:处理器501和配置为存储能够在处理器上 运行的计算机程序的存储器502;其中,处理器501配置为运行计算机程序时, 执行前述实施例中的方法步骤。
当然,实际应用时,如图8所示,该电子设备中的各个组件通过总线系统 503耦合在一起。可理解,总线系统503用于实现这些组件之间的连接通信。 总线系统503除包括数据总线之外,还包括电源总线、控制总线和状态信号总 线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统503。
在实际应用中,上述处理器可以为特定用途集成电路(ASIC,ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD,Digital Signal ProcessingDevice)、可编程逻辑装置(PLD,Programmable Logic Device)、现场可编程门 阵列(Field-Programmable Gate Array,FPGA)、控制器、微控制器、微处理 器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的 电子器件还可以为其它,本申请实施例不作具体限定。
上述存储器可以是易失性存储器(volatile memory),例如随机存取存储器(RAM,Random-Access Memory);或者非易失性存储器(non-volatile memory), 例如只读存储器(ROM,Read-Only Memory),快闪存储器(flash memory), 硬盘(HDD,Hard DiskDrive)或固态硬盘(SSD,Solid-State Drive);或者上 述种类的存储器的组合,并向处理器提供指令和数据。
在示例性实施例中,本申请实施例还提供了一种计算机可读存储介质,例 如包括计算机程序的存储器,计算机程序可由电子设备的处理器执行,以完成 前述方法的步骤。
应当理解,在本申请使用的术语是仅仅出于描述特定实施例的目的,而非 旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、 “所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还 应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项 目的任何或所有可能组合。本申请中表述“具有”、“可以具有”、“包括”和“包 含”、或者“可以包括”和“可以包含”在本文中可以用于指示存在对应的特征 (例如,诸如数值、功能、操作或组件等元素),但不排除附加特征的存在。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信 息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区 分开,不必用于描述特定的顺序或先后次序。例如,在不脱离本发明范围的情 况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一 信息。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设 备,可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的,例如, 单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式, 如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽 略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦 合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可 以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为 单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可 以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来 实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中, 也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一 个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软 件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到 变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种确定文本相似度的方法,其特征在于,所述方法包括:
获取文本数据集;其中,所述文本数据集中包括至少两个文本;
对所述文本数据集中的文本进行关键词项提取和词向量转换,得到文本的词向量集合;
对所述文本的词向量集合进行权重分层处理,得到文本的至少两层权重系数;
根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算,得到文本的文本向量;
根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本的词向量集合进行权重分层处理,得到文本的至少两层权重系数,包括:
对所述文本数据集中每个文本的每个词向量的第一权重值进行归一化处理,得到每个词向量的第二权重值;
利用所述文本数据集中每个文本的每个词向量的第二权重值,构建文本-词项权重矩阵;
将每个文本的词向量集合进行N等分,得到N层词向量子集合;其中,N取大于等于2的整数;
根据所述文本-词项权重矩阵和预设的权重分层策略,得到每层词向量子集合的权重系数。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本数据集中每个文本的每个词向量的第一权重值进行归一化处理,得到每个词向量的第二权重值,包括:
基于所述每个词向量的第一权重值、其所在文本中最小第一权重值和最大第一权重值,确定所述每个词向量的第二权重值。
4.根据权利要求2所述的方法,其特征在于,所述权重分层策略,包括:
根据所述文本数据集中每个文本的第k个词向量子集合中所有词向量对应的第二权重值得到第k个词向量子集合的权重系数;其中,k取大于等于1且小于等于N的整数。
5.根据权利要求1所述的方法,其特征在于,所述对所述文本数据集中的文本进行关键词项提取和词向量转换,得到文本的词向量集合,包括:
对所述文本数据集中的文本进行词项提取,得到文本的词项集合;
确定所述词项集合中每个词项的第一权重值;
将所有词项的按照第一权重值按从大到小的顺序排列,按照预设规则获取排序靠前的词项组成文本的关键词项集合;
将所述关键词项集合输入到词向量转换模型中,得到文本的词向量集合。
6.根据权利要求5所述的方法,其特征在于,所述预设规则为获取第一权重值排序位于前40%的词项。
7.根据权利要求5所述的方法,其特征在于,所述确定所述词项集合中每个词项的第一权重值,包括:
基于TF-IWF算法,确定所述词项集合中每个词项的TF-IWF值;
将每个词项的TF-IWF值结合对应的信息增益,得到每一词项的TF-IWF-IG值作为所述第一权重值。
8.一种确定文本相似度的装置,其特征在于,所述装置包括:
数据获取模块,用于获取文本数据集;其中,所述文本数据集中包括至少两个文本;
处理模块,用于对所述文本数据集中的文本进行关键词项提取和词向量转换,得到文本的词向量集合;
所述处理模块,还用于对所述文本的词向量集合进行权重分层处理,得到文本的至少两层权重系数;
所述处理模块,还用于根据文本的所述至少两层权重系数对所述词向量集合进行加权平均运算,得到文本的文本向量;
计算模块,用于根据所述文本数据集中第一文本的文本向量和第二文本的文本向量确定所述第一文本和所述第二文本的相似度。
9.一种电子设备,其特征在于,所述电子设备包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器配置为运行所述计算机程序时,执行权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7任一项所述的方法的步骤。
CN202110548240.5A 2021-05-19 2021-05-19 一种确定文本相似度的方法、装置、设备及存储介质 Pending CN115374775A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110548240.5A CN115374775A (zh) 2021-05-19 2021-05-19 一种确定文本相似度的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110548240.5A CN115374775A (zh) 2021-05-19 2021-05-19 一种确定文本相似度的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115374775A true CN115374775A (zh) 2022-11-22

Family

ID=84058633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110548240.5A Pending CN115374775A (zh) 2021-05-19 2021-05-19 一种确定文本相似度的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115374775A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252184A (zh) * 2023-10-16 2023-12-19 华扬联众数字技术股份有限公司 文本相似度的计算方法、装置、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252184A (zh) * 2023-10-16 2023-12-19 华扬联众数字技术股份有限公司 文本相似度的计算方法、装置、电子设备
CN117252184B (zh) * 2023-10-16 2024-05-28 华扬联众数字技术股份有限公司 文本相似度的计算方法、装置、电子设备

Similar Documents

Publication Publication Date Title
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN110674292B (zh) 一种人机交互方法、装置、设备及介质
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111581949A (zh) 学者人名的消歧方法、装置、存储介质及终端
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
JP7198408B2 (ja) 商標情報処理装置及び方法、並びにプログラム
CN112347246B (zh) 一种基于谱分解的自适应文档聚类方法及系统
CN110969172A (zh) 一种文本的分类方法以及相关设备
Solorio-Fernández et al. A systematic evaluation of filter Unsupervised Feature Selection methods
CN109033084B (zh) 一种语义层次树构建方法以及装置
CN115374775A (zh) 一种确定文本相似度的方法、装置、设备及存储介质
CN112835798A (zh) 聚类学习方法、测试步骤聚类方法及相关装置
Hazard et al. Natively interpretable machine learning and artificial intelligence: preliminary results and future directions
Adams et al. An empirical evaluation of techniques for feature selection with cost
Altinok et al. Learning to rank by using multivariate adaptive regression splines and conic multivariate adaptive regression splines
CN115422000A (zh) 异常日志处理方法及装置
CN114021699A (zh) 一种基于梯度的卷积神经网络剪枝方法及装置
CN110569331A (zh) 一种基于上下文的关联性预测方法、装置及存储设备
CN115688771B (zh) 一种文书内容比对性能提升方法及系统
Zhang et al. Efficient feature selection framework for digital marketing applications
CN115660045A (zh) 一种模型训练方法、装置及电子设备
Kubrusly et al. Comparison of document vectorization methods: a case study with textual data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination