CN106776531B

CN106776531B - 语料处理方法及装置

Info

Publication number: CN106776531B
Application number: CN201510827483.7A
Authority: CN
Inventors: 赵凯
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-11-24
Filing date: 2015-11-24
Publication date: 2020-02-11
Anticipated expiration: 2035-11-24
Also published as: CN106776531A

Abstract

本发明公开了一种语料处理方法及装置。其中，该方法包括：将语料划分为多个词语片段；确定多个词语片段中每个词语片段在向量空间的位置信息；根据确定的位置信息分别统计每个词语片段对应的聚类对象，其中，在向量空间中，每个词语片段与其对应的聚类对象间的距离小于等于距离阈值；根据聚类对象统计结果，将最大聚类对象统计值对应的词语片段的位置作为语料的中心。本发明解决了相关技术中由于短词分布不均匀造成的长词中心的计算结果不精确的技术问题。

Description

语料处理方法及装置

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种语料处理方法及装置。

背景技术

Kmeans算法是自然语言处理领域中经典的基于划分的聚类算法。在Kmeans算法中，对长词聚类时，需要先将长词分成几个有实际含义的短词，再用短词来计算长词的中心。在相关技术中，为了通过所有短词算出长词的中心，需要将所有短词对应维度向量的坐标加和取平均值，得到长词对应的维度向量的坐标，依次计算加和取平均值就可以得到长词所有维度向量的坐标。比如，长词：ABCDEFG，对该长词进行分词处理，得到各短词为：ABC，DE，FG，它们对应的维度向量分别为：V(ABC)，V(DE)，V(FG)，经汇总计算，得到长词的维度向量为：(V(ABC)+V(DE)+V(FG))/3。

但是，上述方案存在缺陷，例如，在所有短词在空间中不是均匀分布的，即分布区域的密度变化很大时，加和求平均值就不能精准的算出长词的中心。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语料处理方法及装置，以至少解决相关技术中由于短词分布不均匀造成的长词中心的计算结果不精确的技术问题。

根据本发明实施例的一个方面，提供了一种语料处理方法，包括：将语料划分为多个词语片段；确定上述多个词语片段中每个词语片段在向量空间的位置信息；根据确定的位置信息分别统计上述每个词语片段对应的聚类对象，其中，在向量空间中，上述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值；根据聚类对象统计结果，将最大聚类对象统计值对应的词语片段的位置作为上述语料的中心。

进一步地，将语料划分为多个词语片段包括：判断上述语料中是否包含多个具有实际语义的词语片段；在判断结果为上述语料中包含上述多个具有实际语义的词语片段的情况下，按语义将上述语料划分为上述多个词语片段。

进一步地，判断上述语料中是否包含多个具有实际语义的词语片段包括：将上述语料与预设词典中的词语进行匹配，其中，上述预设词典中的词语为在语义上不能划分的最小语料单位；在上述语料与上述预设词典中的词语匹配失败的情况下，确定上述语料中包含上述多个具有实际语义的词语片段。

进一步地，将上述语料划分为上述多个词语片段之前，上述方法还包括：对上述语料进行预处理，除去上述语料中没有实际语义的词或词语。

进一步地，确定上述多个词语片段中每个词语片段在向量空间的位置信息包括：将上述多个词语片段中每个词语片段与预设词典中的词语进行匹配，找出上述每个词语片段的坐标数据，其中，上述预设词典中的词语为在语义上不能划分的最小语料单位；将找出的坐标数据作为上述每个词语片段在向量空间的位置信息。

根据本发明实施例的另一方面，还提供了一种语料处理装置，包括：划分单元，用于将语料划分为多个词语片段；第一确定单元，用于确定上述多个词语片段中每个词语片段在向量空间的位置信息；统计单元，用于根据确定的位置信息分别统计上述每个词语片段对应的聚类对象，其中，在向量空间中，上述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值；第二确定单元，用于根据聚类对象统计结果，将最大聚类对象统计值对应的词语片段的位置作为上述语料的中心。

进一步地，上述划分单元包括：判断模块，用于判断上述语料中是否包含多个具有实际语义的词语片段；划分模块，用于在判断结果为上述语料中包含上述多个具有实际语义的词语片段的情况下，按语义将上述语料划分为上述多个词语片段。

进一步地，上述判断模块包括：匹配子模块，用于将上述语料与预设词典中的词语进行匹配，其中，上述预设词典中的词语为在语义上不能划分的最小语料单位；确定子模块，用于在上述语料与上述预设词典中的词语匹配失败的情况下，确定上述语料中包含上述多个具有实际语义的词语片段。

进一步地，上述装置还包括：预处理单元或预处理模块，用于将上述语料划分为上述多个词语片段之前，对上述语料进行预处理，除去上述语料中没有实际语义的词或词语。

进一步地，上述第一确定单元包括：匹配模块，用于将上述多个词语片段中每个词语片段与预设词典中的词语进行匹配，找出上述每个词语片段的坐标数据，其中，上述预设词典中的词语为在语义上不能划分的最小语料单位；确定模块，用于将找出的坐标数据作为上述每个词语片段在向量空间的位置信息。

在本发明实施例中，采用统计每个词语片段的聚类对象的方式，通过将语料划分为多个词语片段；确定多个词语片段中每个词语片段在向量空间的位置信息；根据确定的位置信息分别统计每个词语片段对应的聚类对象，其中，在向量空间中，每个词语片段与其对应的聚类对象间的距离小于等于距离阈值；根据聚类对象统计结果，将最大聚类对象统计值对应的词语片段的位置作为语料的中心，达到了减小词语片段的分布情况对语料中心影响的目的，从而实现了提高语料中心的计算结果精确度技术效果，进而解决了相关技术中由于短词分布不均匀造成的长词中心的计算结果不精确的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的语料处理方法的流程图；

图2是根据本发明实施例的一种可选的语料处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种语料处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的语料处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，将语料划分为多个词语片段；

步骤S104，确定多个词语片段中每个词语片段在向量空间的位置信息；

步骤S106，根据确定的位置信息分别统计每个词语片段对应的聚类对象，其中，在向量空间中，每个词语片段与其对应的聚类对象间的距离小于等于距离阈值；

步骤S108，根据聚类对象统计结果，将最大聚类对象统计值对应的词语片段的位置作为语料的中心。

需要说明的是，本发明中的语料可以是从互联网搜索关键词集合中获取的需要做分词处理的语料，上述将语料划分为多个词语片段的过程即为对语料进行中文分词的过程，分词得到的词语片段为具有实际语义的词或词组。从互联网搜索关键词集合获取的可以是某网站的站内搜索词或站外搜索词。另外，每个词语片段对应的聚类对象可以是该词语片段对应的聚类关键词。

实施时，可以预先设置一定的距离阈值条件，在将语料划分为多个词语片段以及确定出这些词语片段中的位置信息后，可以根据每个词语片段的位置信息，利用计数器统计出在上述距离阈值条件限定下，在向量空间中，聚类在该词语片段的周围关键词的数量，其中，聚类了最大数量的关键词的词语片段的位置作为上述语料的中心。具体地，可以对聚类对象统计结果进行排序，得到聚类对象统计值最大的词语片段，并将该词语片段的向量作为整个语料的向量。进一步地，根据语料的中心可以确定该语料所属的领域范畴等信息。

也即，使用本发明技术方案，可以将一个长词划分为两个甚至更多个短词，并通过计算每个短词在一定距离范围内的聚类对象的数量来确定该长词的中心，具体地，可以将聚类对象的数量最大的短词作为长词的中心。例如，长词ABCDEFG，其分词结果分别为：ABC，DE，FG，各短词对应的聚类对象的数量分别为：C(ABC)，C(DE)，C(FG)，经比较，C(ABC)>＝C(DE)>＝C(FG)，因此，_Center[ABCDEFG]＝_Center[ABC]，即长词的中心由短词ABC的位置信息决定。

通过上述步骤，可以实现在自然语言处理领域中，基于每个长句对单个词语的依赖性不同的原理以及单个词语对长句的重要性，改进Kmeans算法的中文分词法目的，使Kmeans算法的聚类效果更理想，使Kmeans算法对长词切分更合理、更准确，达到了减小词语片段的分布情况对语料中心影响的目的，从而实现了提高语料中心的计算结果精确度技术效果。

可选地，将语料划分为多个词语片段包括：

S2，判断语料中是否包含多个具有实际语义的词语片段；

S4，在判断结果为语料中包含多个具有实际语义的词语片段的情况下，按语义将语料划分为多个词语片段。

实施时，需要判断搜索关键词中是否包含有多个具有实际语义的词语片段，在是的情况下，对搜索关键词进行中文分词处理，并对分词结果进行基于语言模型的组合，生成需要的短词词组(即词语片段)，其中，中文分词的目的是把长句语料切分成若干条按序排列的短词词组，切分的最终结果是不能再切分的最小语料单位，如二字词，三字词，四字成语或习惯用语等。

例如，中文分词形式化具体表现如下：S(W)＝S(w1,w2,w3,wn)，其中，W是需要切分的长句语料，w1,w2,w3,wn表示该长句语料切分后的短词语料，且不可再分割，根据实际情况，n一般小于等于4,即切分后的词组长度一般不会大于4，这样，根据所有S(W)的切分结果Si(i<＝4)词组，对设定距离阈值以内的区域进行聚类对象(即聚类关键词)统计，可以得到Si词组的每一项统计值。事实上，切分结果具有不确定性，例如，S(d)＝S1(a,b,c,e)，或者S(d)＝S2(ab,ce)，或S(d)＝S3(ac,b,e)等。在这种情况下，需要重新对各种切分结果中的词语片段进行全部匹配，得到每种切分结果在词典中的匹配项。

通过本发明实施例，可以快速地确定当前的语料是否是长句语料，即是否需要进行分词处理，提供整个程序的处理效率。

可选地，判断语料中是否包含多个具有实际语义的词语片段包括：

S6，将语料与预设词典中的词语进行匹配，其中，预设词典中的词语为在语义上不能划分的最小语料单位；

S8，在语料与预设词典中的词语匹配失败的情况下，确定语料中包含多个具有实际语义的词语片段。

将语料与预设词典中的词语进行匹配也即在该词典中查找是否存在该语料。由于词典中几乎涵盖了所有的不能切分的最小语料单位，因此如果能够在该词典找到该语料，则表明该语料本身就是不能切分的最小语料单位，而如果不能在该词典找到该语料，则表明该语料本身不是不能切分的最小语料单位，需要进一步进行分词处理。

需要说明的是，该预设词典中的词语中的部分可以通过机器学习得到，在机器学习过程中，对长句语料的切分方法同上述实施例中的分词方法，在此不再赘述。

另外，本发明所涉及算法的应用背景可以是对搜索关键词进行聚类的Kmeans算法，改进该算法有两个前提条件：(1)使用爬虫技术在一段时间内爬取某网站的所有内容，并对爬取内容使用机器学习方式进行处理，得到该网站的聚类词表(即预设词典)，最终目的是把语言数学化，为后续的聚类处理奠定基础；(2)获取搜索关键词集合，得到本算法的数据源。

通过本发明实施例，可以简单、准确的判断出当前语料中是否包含多个具有实际语义的词语片段，是否需要进行中文分词处理。

可选地，将语料划分为多个词语片段之前，上述方法还包括：

S10，对语料进行预处理，除去语料中没有实际语义的词或词语。

实施时，可以在步骤S102之前，对语料进行预处理，除去语料中没有实际语义的词或词语，或者，可以在S4判断结果为语料中包含多个具有实际语义的词语片段的情况下，且在按语义将语料划分为多个词语片段之前，执行对语料进行预处理，除去语料中没有实际语义的词或词语。

通过本发明实施例，可以消除语料中没有实际语义的噪声词或词语对语料划分的影响，提高划分结果的准确性。

可选地，确定多个词语片段中每个词语片段的位置信息包括：

S12，将多个词语片段中每个词语片段与预设词典中的词语进行匹配，找出每个词语片段的坐标数据，其中，预设词典中的词语为在语义上不能划分的最小语料单位；

S14，将找出的坐标数据作为每个词语片段在向量空间的位置信息。

在机器学习过程中，得到的预设词典不仅包含有语义上不能划分的最小语料单位，而且还包含有每个最小语料单位在向量空间中的位置信息，该位置信息可以用坐标数据表示。因此，将每个词语片段与预设词典中的词语进行匹配，可以找出对应词语片段的坐标数据，进而确定其位置信息。

实施例2

根据本发明实施例，提供了一种语料处理装置的装置实施例。

图2是根据本发明实施例的一种可选的语料处理装置的示意图，如图2所示，该装置包括：划分单元202，用于将语料划分为多个词语片段；第一确定单元204，用于确定多个词语片段中每个词语片段在向量空间的位置信息；统计单元206，用于根据确定的位置信息分别统计每个词语片段对应的聚类对象，其中，在向量空间中，每个词语片段与其对应的聚类对象间的距离小于等于距离阈值；第二确定单元208，用于根据聚类对象统计结果，将最大聚类对象统计值对应的词语片段的位置作为语料的中心。

可选地，上述划分单元包括：判断模块，用于判断语料中是否包含多个具有实际语义的词语片段；划分模块，用于在判断结果为语料中包含多个具有实际语义的词语片段的情况下，按语义将语料划分为多个词语片段。

可选地，上述判断模块包括：匹配子模块，用于将语料与预设词典中的词语进行匹配，其中，预设词典中的词语为在语义上不能划分的最小语料单位；确定子模块，用于在语料与预设词典中的词语匹配失败的情况下，确定语料中包含多个具有实际语义的词语片段。

可选地，上述装置还包括：预处理单元或预处理模块，用于将语料划分为多个词语片段之前，对语料进行预处理，除去语料中没有实际语义的词或词语。

实施时，可以在执行划分单元的功能之前，对语料进行预处理，除去语料中没有实际语义的词或词语，或者，可以在执行划分模块的功能时判断结果为语料中包含多个具有实际语义的词语片段的情况下，且在按语义将语料划分为多个词语片段之前，执行对语料进行预处理，除去语料中没有实际语义的词或词语。

可选地，上述第一确定单元包括：匹配模块，用于将多个词语片段中每个词语片段与预设词典中的词语进行匹配，找出每个词语片段的坐标数据，其中，预设词典中的词语为在语义上不能划分的最小语料单位；确定模块，用于将找出的坐标数据作为每个词语片段在向量空间的位置信息。

上述语料处理装置包括处理器和存储器，上述划分单元、第一确定单元、统计单元和第二确定单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数解析文本内容。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：将语料划分为多个词语片段；确定多个词语片段中每个词语片段的位置信息；根据确定的位置信息分别统计每个词语片段对应的聚类对象，其中，在空间中，每个词语片段与其对应的聚类对象间的距离小于等于距离阈值；根据聚类对象统计结果，将最大聚类对象统计值对应的词语片段的位置作为语料的中心。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语料处理方法，其特征在于，包括：

将语料划分为多个词语片段；

确定所述多个词语片段中每个词语片段在向量空间的位置信息；

根据确定的位置信息分别统计所述每个词语片段对应的聚类对象，其中，在向量空间中，所述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值；

根据聚类对象统计结果，将最大聚类对象统计值对应的词语片段的位置作为所述语料的中心。

2.根据权利要求1所述的方法，其特征在于，将语料划分为多个词语片段包括：

判断所述语料中是否包含多个具有实际语义的词语片段；

在判断结果为所述语料中包含所述多个具有实际语义的词语片段的情况下，按语义将所述语料划分为所述多个词语片段。

3.根据权利要求2所述的方法，其特征在于，判断所述语料中是否包含多个具有实际语义的词语片段包括：

将所述语料与预设词典中的词语进行匹配，其中，所述预设词典中的词语为在语义上不能划分的最小语料单位；

在所述语料与所述预设词典中的词语匹配失败的情况下，确定所述语料中包含所述多个具有实际语义的词语片段。

4.根据权利要求1或2所述的方法，其特征在于，将所述语料划分为所述多个词语片段之前，所述方法还包括：

对所述语料进行预处理，除去所述语料中没有实际语义的词语。

5.根据权利要求1所述的方法，其特征在于，确定所述多个词语片段中每个词语片段在向量空间的位置信息包括：

将所述多个词语片段中每个词语片段与预设词典中的词语进行匹配，找出所述每个词语片段的坐标数据，其中，所述预设词典中的词语为在语义上不能划分的最小语料单位；

将找出的坐标数据作为所述每个词语片段在向量空间的位置信息。

6.一种语料处理装置，其特征在于，包括：

划分单元，用于将语料划分为多个词语片段；

第一确定单元，用于确定所述多个词语片段中每个词语片段在向量空间的位置信息；

统计单元，用于根据确定的位置信息分别统计所述每个词语片段对应的聚类对象，其中，在向量空间中，所述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值；

第二确定单元，用于根据聚类对象统计结果，将最大聚类对象统计值对应的词语片段的位置作为所述语料的中心。

7.根据权利要求6所述的装置，其特征在于，所述划分单元包括：

判断模块，用于判断所述语料中是否包含多个具有实际语义的词语片段；

划分模块，用于在判断结果为所述语料中包含所述多个具有实际语义的词语片段的情况下，按语义将所述语料划分为所述多个词语片段。

8.根据权利要求7所述的装置，其特征在于，所述判断模块包括：

匹配子模块，用于将所述语料与预设词典中的词语进行匹配，其中，所述预设词典中的词语为在语义上不能划分的最小语料单位；

确定子模块，用于在所述语料与所述预设词典中的词语匹配失败的情况下，确定所述语料中包含所述多个具有实际语义的词语片段。

9.根据权利要求6或7所述的装置，其特征在于，所述装置还包括：

预处理单元，用于将所述语料划分为所述多个词语片段之前，对所述语料进行预处理，除去所述语料中没有实际语义的词语。

10.根据权利要求6所述的装置，其特征在于，所述第一确定单元包括：

匹配模块，用于将所述多个词语片段中每个词语片段与预设词典中的词语进行匹配，找出所述每个词语片段的坐标数据，其中，所述预设词典中的词语为在语义上不能划分的最小语料单位；

确定模块，用于将找出的坐标数据作为所述每个词语片段在向量空间的位置信息。