CN109635299A

CN109635299A - 词汇相关性确定方法、装置、设备和计算机可读存储介质

Info

Publication number: CN109635299A
Application number: CN201811524311.2A
Authority: CN
Inventors: 万月亮; 李强; 火莽; 火一莽
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-16

Abstract

本发明公开了一种词汇相关性确定方法、装置、设备和计算机可读存储介质，一种词汇相关性确定方法包括：获取目标文本；以时间为横坐标，词汇出现频次为纵坐标，将目标文本中的不同词汇分别在直角坐标系中进行表示；将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线；对多个连续的词汇曲线分别进行傅里叶变换，得到多个词汇的特征向量；对多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。本发明公开的词汇相关性确定方法、装置设备和计算机可读存储介质，用于提高词汇相关性确定的效率。

Description

词汇相关性确定方法、装置、设备和计算机可读存储介质

技术领域

本发明实施例涉及计算机技术，尤其涉及一种词汇相关性确定方法、装置、设备和计算机可读存储介质。

背景技术

词汇的相关性研究是在自然语言处理的一个基本研究课题，相关性计算水平的提高对文本聚类、语义消歧、语义Web、信息检索等众多应用领域具有重要意义。

在传统的词语相关性研究中，大多关注一对词汇之间的相关性，并且大多都存在一个假设：即相关的词汇至少应该以“共同出现”为基础。而基于共同出现的词汇相关性研究，本质上都是通过研究词与词之间的关系相互映射，并通过大量统计得到的。而这些统计均是靠人为统计和计算进行的，从研发到产品上线大都需要耗费大量的人力和资源。

发明内容

本发明提供一种词汇相关性确定方法、装置、设备和计算机可读存储介质，以提高词汇相关性确定的效率。

第一方面，本发明实施例提供一种词汇相关性确定方法，包括：

获取目标文本；

以时间为横坐标，词汇出现频次为纵坐标，将目标文本中的不同词汇分别在直角坐标系中进行表示；

将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线；

对多个连续的词汇曲线分别进行傅里叶变换，得到多个词汇的特征向量；

对多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。

在第一方面一种可能的实现方式中，以时间为横坐标，词汇出现频次为纵坐标，将目标文本中的不同词汇分别在直角坐标系中进行表示之前，方法还包括：

从目标文本中去除停用词。

对目标文本进行分词处理，并统计目标文本中不同词汇在不同时间的出现频次。

在第一方面一种可能的实现方式中，将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线，包括：

分别将直角坐标系中的不同词汇对应的离散点进行平滑处理，得到多个连续的词汇曲线。

在第一方面一种可能的实现方式中，对多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇，包括：

根据多个词汇的特征向量的振幅，对多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。

第二方面，本发明实施例还提供了一种词汇相关性确定装置，包括：

文本获取模块，用于获取目标文本；

词汇转换模块，用于以时间为横坐标，词汇出现频次为纵坐标，将目标文本中的不同词汇分别在直角坐标系中进行表示；

词汇处理模块，用于将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线；

向量提取模块，用于对多个连续的词汇曲线分别进行傅里叶变换，得到多个词汇的特征向量；

词汇聚类模块，用于对多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。

在第二方面一种可能的实现方式中，词汇相关性确定装置还包括：词汇选取模块，用于从目标文本中去除停用词。

在第二方面一种可能的实现方式中，词汇处理模块，具体用于分别将直角坐标系中的不同词汇对应的离散点进行平滑处理，得到多个连续的词汇曲线。

第三方面，本发明实施例还提供了一种词汇相关性确定设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面任一种可能的实现方式所述的词汇相关性确定方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如第一方面任一种可能的实现方式所述的词汇相关性确定方法。

本发明实施例提供的词汇相关性确定方法、装置、设备和计算机可读存储介质，通过获取目标文本，然后以时间为横坐标，词汇出现频次为纵坐标，将目标文本中的不同词汇分别在直角坐标系中进行表示，接着将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线，在对多个连续的词汇曲线分别进行傅里叶变换，得到多个词汇的特征向量，从而在对多个词汇的特征向量进行聚类处理后，可以将聚类相同的词汇确定为相关词汇，实现了词汇相关性的自动处理，避免采用人力的方式进行词汇相关性的处理，适用于大数据平台中数据的处理。

附图说明

图1为本发明实施例提供的词汇相关性确定方法实施例一的流程图；

图2为本发明实施例提供的词汇相关性确定装置实施例一的结构示意图；

图3为本发明实施例提供的词汇相关性确定设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的词汇相关性确定方法实施例一的流程图，如图1所示，本实施例提供的词汇相关性确定方法包括：

步骤S101，获取目标文本。

为了解决现有技术中，对词汇相关性的统计仅能依靠人力实现所带来的问题，本实施例提供一种词汇相关性的确定方法，通过将文本中的词汇经过傅里叶变换后提取特征向量的方法，将文本中的不同词汇都采用特征向量来表示，并将特征向量进行聚类后，确定词汇之间的相关性，从而避免人工处理，而是可以由计算机实现自动的词汇相关性判断处理。本实施例提供的词汇相关性确定方法可以应用于任一种具有处理能力的计算机、服务器或其他硬件设备。特别的，由于在大数据平台中，具有大量文本处理需求，为了提高大数据平台的处理效率，本实施例提供的词汇相关性确定方法可以应用于大数据平台，由大数据平台中的一台或多台大数据服务器执行。

首先，对词汇相关性的确定需要基于一定的文本数据样本，这里的文本数据样本包括大量不同时间的文本数据。不同类型的文本数据中，词汇之间的相关性也是存在区别的，因此，根据实际需求，文本数据样本可以是固定类型的文本数据集合，也可以是不同类型的文本数据集合。根据不同的文本数据样本，所确定的词汇相关性结果也不同，但文本数据样本的数量越多，所确定的词汇相关性结果准确性页越高。将确定的文本数据样本称为目标文本，即待进行词汇相关性处理的文本。

步骤S102，以时间为横坐标，词汇出现频次为纵坐标，将目标文本中的不同词汇分别在直角坐标系中进行表示。

由于在相同时间的文本中出现的词汇之间才具有相关性，因此，为了确定词汇之间的相关性，需要考虑各词汇出现的时间。在确定了目标文本之后，首先需要将目标文本中的词汇按照不同时间分离出来，也就是得到不同时间所出现的词汇集合。这里的时间是一个固定的时间段，例如一天、一小时等。

在统计不同时间所出现的词汇集合时，还需要统计各时间内不同词汇分别出现的频次，也就是每个时间段内各词汇分别出现了多少次。然后以时间为横坐标、词汇出现频次为纵坐标，可以将目标文本中的不同词汇分别在直角坐标系中表示出来。也就是将不同时间所出现的词汇集合以及各词汇所出现的频次转化在二维的直角坐标系中。

需要说明的是，在确定了目标文本后，需要对目标文本进行分词处理，才能得到各目标文本所对应的词汇集合，然后需要在各目标文本所对应的词汇集合中进行统计不同词汇在不同时间的出现频次。对目标文本进行分词处理的具体方法可以采用现有的任一种文本处理方法，在本实施例中不再赘述。若在某个时间点上，一个词汇并未出现，则该词汇在该时间的出现频次为0。

另外，在得到目标文本后，从目标文本中获取词汇之前，还可以去除目标文本中的停用词。停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。停用词一般是文本中的功能性词汇，对停用词进行词汇相关性的处理没有意义，因此去除停用词后，可以提高对词汇相关性进行处理的效率。

步骤S103，将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线。

在将词汇集合和各词汇的出现频次转化在直角坐标系中后，每个词汇在不同的时间点上将会以坐标点的方式表现出来。接着将每个词汇在直角坐标系中的各个点连接为一条曲线，那么每条曲线体现的就是一个词汇的出现频次曲线这样可以得到各个词汇所对应的多个连续的词汇曲线。

进一步地，由于将不同词汇在不同时间点所出现的频次转化到直角坐标系中后，得到的实际为每个词汇所对应的多个离散的数据点，为了得到每个词汇岁对应的连续的词汇曲线，那么就需要分别将直角坐标系中的不同词汇对应的离散点进行平滑处理，从而得到多个连续的词汇曲线。

步骤S104，对多个连续的词汇曲线分别进行傅里叶变换，得到多个词汇的特征向量。

每个词汇所对应的连续的词汇曲线已经表示了该词汇的出现频次随时间变化的趋势，但为了量化地确定各词汇之间的相关性，还需要对各曲线进行处理，以实现对词汇之间相关性的计算。在本实施例中，采用傅里叶变换的方式对各连续的词汇曲线分别进行处理，从而可以得到每条曲线的振幅和相位，作为每个词汇所对应的特征向量。

步骤S105，对多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。

在得到每个词汇所对应的特征向量后，由于特征向量为可以量化的参数，就可以对其进行聚类处理。聚类处理所采用的聚类方式可以根据实际需求进行设置，若聚类条件较多，则得到的聚类结果中，各词汇的相关性就较强，反之若聚类条件较少，则得到的聚类结果中，各词汇的相关性就较弱。根据特征向量的聚类结果，就可以将聚类相同的词汇确定为相关词汇，从而实现了词汇相关性的自动处理。

采用傅里叶变换对词汇曲线进行处理后，得到的结果为N维的复数，形式为a+bi，其中N为时间点的数量。这N个复数为傅里叶变换的分量，其中a为该复数的实部，b为复数的虚部。可以通过复数的实部和虚部，求出该傅里叶变换分量的振幅和相位。

其中A为振幅，θ为相位。

在本实施例中，采用振幅A作为该分量的特征，那么该词汇的特征可以表示为A(A₁,A₂,A₃,...A_N)。然后，就可以根据多个词汇的特征向量的振幅，对多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。具体的聚类方法例如可以对不同词汇特征向量的振幅进行比对，将相似度大于预设阈值的词汇作为一类等。

本实施例提供的词汇相关性确定方法，通过获取目标文本，然后以时间为横坐标，词汇出现频次为纵坐标，将目标文本中的不同词汇分别在直角坐标系中进行表示，接着将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线，在对多个连续的词汇曲线分别进行傅里叶变换，得到多个词汇的特征向量，从而在对多个词汇的特征向量进行聚类处理后，可以将聚类相同的词汇确定为相关词汇，实现了词汇相关性的自动处理，避免采用人力的方式进行词汇相关性的处理，适用于大数据平台中数据的处理。

图2为本发明实施例提供的词汇相关性确定装置实施例一的结构示意图，如图2所示，本实施例提供的词汇相关性确定装置包括：

文本获取模块21，用于获取目标文本；

词汇转换模块22，用于以时间为横坐标，词汇出现频次为纵坐标，将目标文本中的不同词汇分别在直角坐标系中进行表示；

词汇处理模块23，用于将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线；

向量提取模块24，用于对多个连续的词汇曲线分别进行傅里叶变换，得到多个词汇的特征向量；

词汇聚类模块25，用于对多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。

本实施例提供的词汇相关性确定装置用于实现图1所示词汇相关性确定方法的技术方案，其实现原理和技术效果类似，此处不再赘述。

进一步地，在图2所示实施例的基础上，词汇相关性确定装置还包括：词汇选取模块，用于从目标文本中去除停用词。

进一步地，在图2所示实施例的基础上，词汇处理模块23，具体用于分别将直角坐标系中的不同词汇对应的离散点进行平滑处理，得到多个连续的词汇曲线。

图3为本发明实施例提供的词汇相关性确定设备的结构示意图，如图3所示，该词汇相关性确定设备包括处理器31和存储器32；词汇相关性确定设备中处理器31的数量可以是一个或多个，图3中以一个处理器31为例；词汇相关性确定设备中的处理器31和存储器32可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器32作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请图1实施例中的词汇相关性确定方法对应的程序指令/模块(例如，词汇相关性确定装置中的文本获取模块21、词汇转换模块22、词汇处理模块23、向量提取模块24、词汇聚类模块25)。处理器31通过运行存储在存储器32中的软件程序、指令以及模块，从而词汇相关性确定设备的各种功能应用以及数据处理，即实现上述的词汇相关性确定方法。

存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据词汇相关性确定设备的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

本申请实施例还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种数词汇相关性确定方法，该方法包括：

获取目标文本；

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述词汇相关性确定装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种词汇相关性确定方法，其特征在于，包括：

获取目标文本；

以时间为横坐标，词汇出现频次为纵坐标，将所述目标文本中的不同词汇分别在直角坐标系中进行表示；

将所述直角坐标系中的不同词汇分别处理为多个连续的词汇曲线；

对所述多个连续的词汇曲线分别进行傅里叶变换，得到多个词汇的特征向量；

对所述多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。

2.根据权利要求1所述的方法，其特征在于，所述以时间为横坐标，词汇出现频次为纵坐标，将所述目标文本中的不同词汇分别在直角坐标系中进行表示之前，所述方法还包括：

从所述目标文本中去除停用词。

3.根据权利要求1或2所述的方法，其特征在于，所述以时间为横坐标，词汇出现频次为纵坐标，将所述目标文本中的不同词汇分别在直角坐标系中进行表示之前，所述方法还包括：

对所述目标文本进行分词处理，并统计所述目标文本中不同词汇在不同时间的出现频次。

4.根据权利要求1或2所述的方法，其特征在于，所述将所述直角坐标系中的不同词汇分别处理为多个连续的词汇曲线，包括：

分别将所述直角坐标系中的不同词汇对应的离散点进行平滑处理，得到多个连续的词汇曲线。

5.根据权利要求1或2所述的方法，其特征在于，所述对所述多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇，包括：

根据所述多个词汇的特征向量的振幅，对所述多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。

6.一种词汇相关性确定装置，其特征在于，包括：

文本获取模块，用于获取目标文本；

词汇转换模块，用于以时间为横坐标，词汇出现频次为纵坐标，将所述目标文本中的不同词汇分别在直角坐标系中进行表示；

词汇处理模块，用于将所述直角坐标系中的不同词汇分别处理为多个连续的词汇曲线；

向量提取模块，用于对所述多个连续的词汇曲线分别进行傅里叶变换，得到多个词汇的特征向量；

词汇聚类模块，用于对所述多个词汇的特征向量进行聚类处理，将聚类相同的词汇确定为相关词汇。

7.根据权利要求6所述的装置，其特征在于，还包括：词汇选取模块，用于从所述目标文本中去除停用词。

8.根据权利要求6或7所述的装置，其特征在于，所述词汇处理模块，具体用于分别将所述直角坐标系中的不同词汇对应的离散点进行平滑处理，得到多个连续的词汇曲线。

9.一种词汇相关性确定设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～5中任一所述的词汇相关性确定方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～5中任一所述的词汇相关性确定方法。