CN105630771B

CN105630771B - 语句处理方法及装置

Info

Publication number: CN105630771B
Application number: CN201510996315.0A
Authority: CN
Inventors: 陈福
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2019-03-26
Anticipated expiration: 2035-12-25
Also published as: CN105630771A

Abstract

本公开是关于一种语句处理方法及装置，属于自然语言处理领域。方法包括：提取待处理语句的至少一个关键词，获取该至少一个关键词各自对应的语义向量；根据该至少一个关键词各自对应的语义向量计算该待处理语句的语义向量，对待处理语句的语义向量进行缩放，获得该待处理语句的语义缩放结果，并根据待处理语句的该语义缩放结果对待处理语句进行语句处理，即本公开提供了一种根据语义对短文本语句进行语句处理的方法，达到提高语句处理的准确度的效果。

Description

语句处理方法及装置

技术领域

本公开涉及自然语言处理领域，特别涉及一种语句处理方法及装置。

背景技术

随着社交网络的不断发展，基于社交网络的短文本语句(比如微博等)爆发出了巨大的社会冲击力，因此，对社交网络中的短文本语句进行语句处理，在网络话题发现、节点推荐以及广告投放等方面都具有重要意义。

目前的对社交网络中的短文本语句进行语句处理时，主要是根据节点之间的社会关系的紧密程度进行语句处理，比如，通过分析各个节点(比如一个用户账号)的网络社交行为(比如发帖、转发、跟帖以及评论等)分析各个节点之间的关系紧密程度，并根据各个节点之间的关系紧密程度对各个节点发布的短文本语句进行归类等处理。

在实现本发明的过程中，发明人发现现有技术存在如下问题：

由于基于社交网络的短文本语句具有语义内容多元离散的特点，同一节点即便是在短时间内发送的不同短文本语句，其语义之间也可能存在很大的差异，因此，现有的处理方法会导致语句处理的准确度较低。

发明内容

为了解决现有技术中根据各个节点之间的关系紧密程度对各个节点发布的短文本语句进行处理的方法会导致语句处理的准确度较低的问题，本公开实施例提供了一种语句处理方法及装置，技术方案如下：

根据本公开实施例的第一方面，提供了一种语句处理方法，包括：

提取待处理语句的至少一个关键词；

从预先设置的语义向量集合中获取所述至少一个关键词各自对应的语义向量；所述语义向量是由表示语义的实数组成的向量；

根据所述至少一个关键词各自对应的语义向量计算所述待处理语句的语义向量；

对所述待处理语句的语义向量进行缩放，获得所述待处理语句的语义缩放结果；

根据待处理语句的所述语义缩放结果对所述待处理语句进行语句处理。

可选的，所述根据所述至少一个关键词各自对应的语义向量计算所述待处理语句的语义向量，包括：

对于所述至少一个关键词各自对应的语义向量中的每一个维度，计算所述至少一个关键词各自对应的语义向量在所述维度上的平均值；

将所述至少一个关键词各自对应的语义向量在所述每一个维度上的平均值所组成的向量确定为所述待处理语句的语义向量。

可选的，所述对所述待处理语句的语义向量进行缩放，包括：

根据预先设置的n阶缩放矩阵K_n，按照下述公式对所述待处理语句的语义向量进行缩放：

Y＝K_n*X；

其中，X为所述待处理语句的语义向量，Y为所述语义缩放结果，K_n用于指示沿X的各个方向上的缩放比例。

确定到达所述待处理语句的语义向量的p-范数小于预设缩放距离R的各个向量，R为实数；

将确定的所述各个向量组成的向量空间获取为所述语义缩放结果。

可选的，所述根据所述待处理语句的缩放结果对所述待处理语句进行语句处理，包括：

计算所述待处理语句的语义缩放结果与其它各个语句的语义缩放结果之间的交集；

根据所述待处理语句的语义缩放结果与其它各个语句的语义缩放结果之间的交集对所述待处理语句进行归类。

根据本公开实施例的第二方面，提供了一种语句处理装置，所述装置包括：

关键词提取模块，用于提取待处理语句的至少一个关键词；

向量获取模块，用于从预先设置的语义向量集合中获取所述至少一个关键词各自对应的语义向量；所述语义向量是由表示语义的实数组成的向量；

向量计算模块，用于根据所述至少一个关键词各自对应的语义向量计算所述待处理语句的语义向量；

向量缩放模块，用于对所述待处理语句的语义向量进行缩放，获得所述待处理语句的语义缩放结果；

语句处理模块，用于根据待处理语句的所述语义缩放结果对所述待处理语句进行语句处理。

可选的，所述向量计算模块，包括：

平均值计算单元，用于对于所述至少一个关键词各自对应的语义向量中的每一个维度，计算所述至少一个关键词各自对应的语义向量在所述维度上的平均值；

第一确定单元，用于将所述至少一个关键词各自对应的语义向量在所述每一个维度上的平均值所组成的向量确定为所述待处理语句的语义向量。

可选的，所述向量缩放模块，包括：

缩放单元，用于根据预先设置的n阶缩放矩阵K_n，按照下述公式对所述待处理语句的语义向量进行缩放：

Y＝K_n*X；

可选的，所述向量缩放模块，包括：

第二确定单元，用于确定到达所述待处理语句的语义向量的p-范数小于预设缩放距离R的各个向量，R为实数；

结果获取单元，用于将确定的所述各个向量组成的向量空间获取为所述语义缩放结果。

可选的，所述语句处理模块，包括：

交集计算单元，用于计算所述待处理语句的语义缩放结果与其它各个语句的语义缩放结果之间的交集；

归类单元，用于根据所述待处理语句的语义缩放结果与其它各个语句的语义缩放结果之间的交集对所述待处理语句进行归类。

本公开实施例提供的技术方案可以包括以下有益效果：

通过提取待处理语句的至少一个关键词，获取该至少一个关键词各自对应的语义向量；根据该至少一个关键词各自对应的语义向量计算该待处理语句的语义向量，对待处理语句的语义向量进行缩放，获得该待处理语句的语义缩放结果，并根据待处理语句的该语义缩放结果对待处理语句进行语句处理，提供了一种根据语义对短文本语句进行语句处理的方法，达到提高语句处理的准确度的效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语句处理方法的流程图；

图2是根据另一示例性实施例示出的一种语句处理方法的流程图；

图3是根据一示例性实施例示出的一种语句处理装置的框图；

图4是根据另一示例性实施例示出的一种语句处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语句处理方法的流程图，该方法可以应用于根据待处理语句的语义对待处理语句进行语句处理，如图1所示，该语句处理方法可以包括如下几个步骤：

步骤101，提取待处理语句的至少一个关键词。

步骤102，从预先设置的语义向量集合中获取该至少一个关键词各自对应的语义向量；该语义向量是由表示语义的实数组成的向量。

步骤103，根据该至少一个关键词各自对应的语义向量计算该待处理语句的语义向量。

步骤104，对待处理语句的语义向量进行缩放，获得该待处理语句的语义缩放结果。

步骤105，根据待处理语句的该语义缩放结果对待处理语句进行语句处理。

综上所述，本公开实施例所示的方法，通过提取待处理语句的至少一个关键词，获取该至少一个关键词各自对应的语义向量；根据该至少一个关键词各自对应的语义向量计算该待处理语句的语义向量，对待处理语句的语义向量进行缩放，获得该待处理语句的语义缩放结果，并根据待处理语句的该语义缩放结果对待处理语句进行语句处理，提供了一种根据语义对短文本语句进行语句处理的方法，达到提高语句处理的准确度的效果。

图2是根据另一示例性实施例示出的一种语句处理方法的流程图，该方法可以应用于根据待处理语句的语义对待处理语句进行语句处理。如图2所示。该语句处理方法可以包括如下几个步骤：

步骤201，通过机器训练获得语义向量集合。

对于微博等短文本语句的关键词词语，用向量表示是进行语义分析的前提和基础。本公开实施例可以通过人工神经网络对样本语句进行训练，获得语义向量集合，该语义向量集合中包含各个关键词与该关键词的语义向量之间的对应关系，每一个关键词的语义向量都是由表示语义的实数组成的向量，从而实现将文本语句的内容转化为语义向量，以便于后续通过数学方法进行语义分析和运算，其中，两个语义向量在向量空间上的相似度可以用来表示两个语义向量对应文本在语义上的相似度，比如，可以用向量内积空间的夹角余弦值度量语义相似性。

比如，以对微博中的短文本语句进行处理为例，在通过机器训练获得语义向量集合时，可以收集若干实际的微博语句作为样本语句，通过人工神经网络对样本语句进行训练，以便获得的语义向量集合尽可能的接近微博的实际应用场景。

步骤202，提取待处理语句的至少一个关键词。

通过训练获得语义向量集合后，即可以根据该语义向量集合对微博中的各个语句进行分析，在对某一个待处理语句进行分析时，首先需要对该待处理语句进行关键词提取，每一个待处理语句中提取出的关键词的数量可以根据该待处理语句的语句结构(比如语句长度)来确定。

比如，对于一个待处理语句，可以提取其至少一个关键词组成该待处理语句的关键词集合，记为：Sentence_Set＝{k₁...k_m}，其中，m为关键词的数量。

步骤203，从语义向量集合中获取该至少一个关键词各自对应的语义向量。

其中，对于每一个关键词，可以从语义向量集合中获得该关键词对应的向量，其中，每一个关键词的语义向量可以标识为：Keyword_V＝{x₁...x_n}，n为该语义向量的维度，在本公开实施例中，n可以是预先确定的一个固定值，该固定值可以根据设备或系统的处理能力来确定。

步骤204，对于该至少一个关键词各自对应的语义向量中的每一个维度，计算该至少一个关键词各自对应的语义向量在该维度上的平均值。

步骤205，将该至少一个关键词各自对应的语义向量在该每一个维度上的平均值所组成的向量确定为该待处理语句的语义向量。

通过上述两步骤，可以通过每一个关键词对应的语义向量在每一个维度上的平均值组成待分析语义的语义向量，定义为：Sentence_V＝{y₁...y_n}，其中y_i为实数，表示待分析语义的语义向量中的第i维，并且，

步骤206，根据预先设置的n阶缩放矩阵K_n，按照公式Y＝K_n*X对该待处理语句的语义向量进行缩放，获得待处理语句的语义缩放结果。

其中，X为该待处理语句的语义向量，Y为该语义缩放结果，K_n用于指示沿X的各个方向上的缩放比例。

在本公开实施例中，恶意使用向量空间的线性投影进行语义放缩，即通过放缩矩阵实现向量空间映射，并藉此找到近邻词。通过上述步骤201至204，待处理语句已经表示成了向量，语义的放缩问题就转化为了向量放缩问题。

设缩放前，待处理语句的语义向量为X，缩放后后，语义向量变为Y，则Y＝K_n*X，其中K_n为n阶矩阵。

在本公开实施例中，一种比较简单的放大缩放是使得向量沿着各个方向进行拉伸，其矩阵K_n如下所示：

其中k_ii>0，k_i-1，_i-1>k_ii，当k_ii为常数时，表示沿各个方向等长放大k_ii倍。具体放大的倍数根据实际效果和需要而定。这种语义放大的逻辑含义是语义和逻辑结构的线性放大。矩阵K_n的对角线形成了径向放缩向量，可以根据缩放规模进行设置。

K_ij的值表示放缩量的大小，该值的大小是根据时间效果和应用对分类的精度要求所决定的。该值越大标识分类的精度越低。因此该值的确定需要根据实际需求和分类效果来确定。

步骤207，确定到达该待处理语句的语义向量的p-范数小于预设缩放距离R的各个向量，R为实数；将确定的该各个向量组成的向量空间获取为该语义缩放结果。

上述步骤206是所示的径向扩展是沿着各个维度对应的方向进行拉伸，而本步骤是在法向上进行扩展。法向扩展可以通过旋转或扩展辖域实现。由于高维空间的旋转变换较为复杂，因此，本文可以采用p-范数表示到向量间距离。

本公开实施例中，可以将所有到到达该待处理语句的语义向量Sentence_V的p-范数小于R的向量构成的向量空间确定为语义缩放结果，在逻辑上等同于沿向量Sentence_V的各个切面法向量的拉伸。其定义如下：

设缩放前语义向量为X，缩放后语义向量为Y，则与语义向量X距离为R的语义扩展向量是一个集合，设该集合为Scale_Semantic_Set。

Scale_Semantic_Set＝{Y_i|||Y_i-X||＜R}；

所有满足上述条件的向量Y_i构成的集合Scale_Semantic_Set，形成了一个类似于球体的高维封闭曲面。为计算简便，本公开实施例中可以采用2-范数进行计算。

其中，上述步骤206和步骤207分别所示的两种向量缩放方法，可以单独使用，也可以两者结合使用。

具体的，上述步骤201至步骤207的语义分析过程可以通过如下代码实现：

算法名称：短句向量化及其放缩算法

输入：样本语句M_CPS；

待处理语句M_S；

缩放距离R；

缩放向量ScalV；

输出：待处理语句的语义向量M_S_V；

径向缩放后的语义向量M_S_V_S；

法向缩放后的语义向量集合Scale_Semantic_Set；

步骤：

将样本语句M_CPS切分成关键字集合M_CPS_Set；

使用关键字集合M_CPS_Set训练神经网络模型，得到语言向量集合M_CPS_Vec_Set；

从待处理语句M_S中得到该待处理语句的关键字集合MSV_S；

步骤208，计算该待处理语句的语义缩放结果与其它各个语句的语义缩放结果之间的交集。

步骤209，根据该待处理语句的语义缩放结果与其它各个语句的语义缩放结果之间的交集对该待处理语句进行归类。

本公开一种可能的实现方式中，为了便于根据待处理语句的语义对该待处理语句进行处理，首先将待处理语句转化为向量，并按照步骤204和/或步骤205所示的缩放方法对该向量进行径向扩展或者法向扩展，以扩大该待处理语句的语义，在对若干个待处理语句的语义向量进行放大后，再计算各个待处理语句的语义向量的语义放大结果的交集，根据计算出的各个待处理语句的语义向量的语义放大结果之间的交集的情况，对各个待处理语句进行归类处理。在对各个待处理语句进行归类后，即可以根据归类结果进行后续的应用，比如突发话题确定、在线社交网络的社区发现、网络结构拓扑分析、节点推荐、广告精准投放、组织结构管理甚至恐怖组织识别等。

图3是根据一示例性实施例示出的一种语句处理装置的框图。该语句处理装置可以通过硬件电路或者软件与硬件的结合实现成为计算机设备或系统，并执行如图1或图2所示实施例中的全部或部分步骤。请参考图3，该装置可以包括：

关键词提取模块301，用于提取待处理语句的至少一个关键词；

向量获取模块302，用于从预先设置的语义向量集合中获取所述至少一个关键词各自对应的语义向量；所述语义向量是由表示语义的实数组成的向量；

向量计算模块303，用于根据所述至少一个关键词各自对应的语义向量计算所述待处理语句的语义向量；

向量缩放模块304，用于对所述待处理语句的语义向量进行缩放，获得所述待处理语句的语义缩放结果；

语句处理模块305，用于根据待处理语句的所述语义缩放结果对所述待处理语句进行语句处理。

综上所述，本公开实施例所示的装置，通过提取待处理语句的至少一个关键词，获取该至少一个关键词各自对应的语义向量；根据该至少一个关键词各自对应的语义向量计算该待处理语句的语义向量，对待处理语句的语义向量进行缩放，获得该待处理语句的语义缩放结果，并根据待处理语句的该语义缩放结果对待处理语句进行语句处理，提供了一种根据语义对短文本语句进行语句处理的方法，达到提高语句处理的准确度的效果。

图4是根据另一示例性实施例示出的一种语句处理装置的框图。该语句处理装置可以通过硬件电路或者软件与硬件的结合实现成为计算机设备或系统，并执行如图1或图2所示实施例中的全部或部分步骤。请参考图4，该装置可以包括：

可选的，所述向量计算模块303，包括：

平均值计算单元303a，用于对于所述至少一个关键词各自对应的语义向量中的每一个维度，计算所述至少一个关键词各自对应的语义向量在所述维度上的平均值；

第一确定单元303b，用于将所述至少一个关键词各自对应的语义向量在所述每一个维度上的平均值所组成的向量确定为所述待处理语句的语义向量。

可选的，所述向量缩放模块304，包括：

缩放单元304a，用于根据预先设置的n阶缩放矩阵K_n，按照下述公式对所述待处理语句的语义向量进行缩放：

Y＝K_n*X；

可选的，所述向量缩放模块304，包括：

第二确定单元304b，用于确定到达所述待处理语句的语义向量的p-范数小于预设缩放距离R的各个向量，R为实数；

结果获取单元304c，用于将确定的所述各个向量组成的向量空间获取为所述语义缩放结果。

可选的，所述语句处理模块305，包括：

交集计算单元305a，用于计算所述待处理语句的语义缩放结果与其它各个语句的语义缩放结果之间的交集；

归类单元305b，用于根据所述待处理语句的语义缩放结果与其它各个语句的语义缩放结果之间的交集对所述待处理语句进行归类。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语句处理方法，其特征在于，所述方法包括：

提取待处理语句的至少一个关键词；

根据待处理语句的所述语义缩放结果对所述待处理语句进行语句处理；

所述根据所述至少一个关键词各自对应的语义向量计算所述待处理语句的语义向量，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理语句的语义向量进行缩放，包括：

Y＝K_n*X；

3.根据权利要求1所述的方法，其特征在于，所述对所述待处理语句的语义向量进行缩放，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述待处理语句的缩放结果对所述待处理语句进行语句处理，包括：

5.一种语句处理装置，其特征在于，所述装置包括：

关键词提取模块，用于提取待处理语句的至少一个关键词；

语句处理模块，用于根据待处理语句的所述语义缩放结果对所述待处理语句进行语句处理；

所述向量计算模块，包括：

6.根据权利要求5所述的装置，其特征在于，所述向量缩放模块，包括：

Y＝K_n*X；

7.根据权利要求5所述的装置，其特征在于，所述向量缩放模块，包括：

8.根据权利要求5所述的装置，其特征在于，所述语句处理模块，包括：