CN110569498B

CN110569498B - 一种复合词识别方法及相关装置

Info

Publication number: CN110569498B
Application number: CN201811603067.9A
Authority: CN
Inventors: 赵耕弘; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2022-12-09
Anticipated expiration: 2038-12-26
Also published as: CN110569498A

Abstract

本申请提供了一种复合词识别方法及相关装置，所述方法包括：获得原始文本中至少两个相邻词；获得所述至少两个相邻词的词向量之和，作为第一向量；根据所述至少两个相邻词在原始文本中的位置，获得所述至少两个相邻词的合并词；获得所述合并词的词向量，作为第二向量；若所述第一向量和所述第二向量之间的关系与预设关系模型匹配，确定所述合并词属于复合词；其中，所述预设关系模型用于表示复合词的分词的词向量之和与复合词的词向量之间的关系。可见，本申请实施例通过将词向量之间的关系，与预设关系模型进行匹配，实现了一种对复合词进行识别的方式，进一步解决了在分词处理等情况中对复合词不合理拆分的问题。

Description

一种复合词识别方法及相关装置

技术领域

本申请涉及自然语言处理领域，尤其是涉及一种复合词识别方法及相关装置。

背景技术

随着信息技术的发展，越来越多的领域都出现了新的复合词。例如，“年华收益率”、“影子银行”、“离岸金融”等等。这些复合词都是由两个或更多的词语组合而成。

然而，有些情况下可能会对这些复合词进行不合理的拆分。例如，在对复合词进行分词处理时，往往会把这些复合词不合理地拆分成两个或更多的独立的词语，导致分词处理的准确性降低，进一步影响了后续基于分词结果的分类、筛选等文本处理。

发明内容

本申请解决的技术问题在于提供一种复合词识别方法及相关装置，以实现对复合词进行识别，解决在分词处理等情况中对复合词不合理拆分的问题。

为此，本申请解决技术问题的技术方案是：

本申请实施例提供了一种复合词识别方法，包括：

获得原始文本中至少两个相邻词；

获得所述至少两个相邻词的词向量之和，作为第一向量；

根据所述至少两个相邻词在原始文本中的位置，获得所述至少两个相邻词的合并词；

获得所述合并词的词向量，作为第二向量；

若所述第一向量和所述第二向量之间的关系与预设关系模型匹配，确定所述合并词属于复合词；其中，所述预设关系模型用于表示复合词的分词的词向量之和与复合词的词向量之间的关系。

可选的，还包括：

获得第一向量集合和第二向量集合；所述第一向量集合包括多个复合词的词向量，所述第二向量集合包括每个复合词的分词的词向量之和；

建立预设关系模型，其中所述预设关系模型包括参数值；

根据所述第一向量集合和所述第二向量集合，获得所述预设关系模型的参数值。

可选的，建立所述预设关系模型，包括：建立以下任一种或多种模型：线性回归模型、逻辑回归模型、以及多项式回归模型。

可选的，获得所述预设关系模型的参数值，包括：

利用最小二乘法或者拟牛顿法获得所述预设关系模型的参数值。

可选的，获得原始文本中至少两个相邻词，包括：

对所述原始文本进行分词处理，获得多个分词结果；

从所述多个分词结果中获得至少两个相邻的分词结果。

可选的，还包括：

若所述第一向量和所述第二向量之间的关系与所述预设关系模型不匹配，确定所述合并词不属于复合词。

本申请实施例提供了一种复合词识别装置，包括：

相邻词获得单元，用于获得原始文本中至少两个相邻词；

向量和获得单元，用于获得所述至少两个相邻词的词向量之和，作为第一向量；

合并词获得单元，用于根据所述至少两个相邻词在原始文本中的位置，获得所述至少两个相邻词的合并词；

词向量获得单元，用于获得所述合并词的词向量，作为第二向量；

确定单元，用于若所述第一向量和所述第二向量之间的关系与预设关系模型匹配，确定所述合并词属于复合词；其中，所述预设关系模型用于表示复合词的分词的词向量之和与复合词的词向量之间的关系。

可选的，还包括：

集合获得单元，用于获得第一向量集合和第二向量集合；所述第一向量集合包括多个复合词的词向量，所述第二向量集合包括每个复合词的分词的词向量之和；

建立单元，用于建立预设关系模型，其中所述预设关系模型包括参数值；

参数值获得单元，用于根据所述第一向量集合和所述第二向量集合，获得所述预设关系模型的参数值。

可选的，所述建立单元具体用于，建立以下任一种或多种模型：线性回归模型、逻辑回归模型、以及多项式回归模型。

可选的，所述参数值获得单元具体用于，根据所述第一向量集合和所述第二向量集合，并利用最小二乘法或者拟牛顿法获得所述预设关系模型的参数值。

可选的，所述相邻词获得单元具体用于，对所述原始文本进行分词处理，获得多个分词结果；从所述多个分词结果中获得至少两个相邻的分词结果。

可选的，所述确定单元还用于，若所述第一向量和所述第二向量之间的关系与所述预设关系模型不匹配，确定所述合并词不属于复合词。

本申请实施例提供了一种电子设备，包括有存储器和处理器，所述存储器中存储一个或者一个以上程序，所述处理器用于执行所述一个或者一个以上程序，其中，所述一个或者一个以上程序包含用于进行以下操作的指令：

获得原始文本中至少两个相邻词；

获得所述至少两个相邻词的词向量之和，作为第一向量；

获得所述合并词的词向量，作为第二向量；

本申请实施例提供了一种计算机存储介质，包括计算机程序代码，该计算机程序代码由计算机单元执行，使得该计算机单元：

获得原始文本中至少两个相邻词；

获得所述至少两个相邻词的词向量之和，作为第一向量；

获得所述合并词的词向量，作为第二向量；

通过上述技术方案可知，本申请实施例中，获得原始文本中至少两个相邻词；获得所述至少两个相邻词的词向量之和，作为第一向量；根据所述至少两个相邻词在原始文本中的位置，获得所述至少两个相邻词的合并词；获得所述合并词的词向量，作为第二向量；若所述第一向量和所述第二向量之间的关系与预设关系模型匹配，确定所述合并词属于复合词；其中，所述预设关系模型用于表示复合词的分词的词向量之和与复合词的词向量之间的关系。可见，本申请实施例通过将词向量之间的关系，与预设关系模型进行匹配，实现了一种对复合词进行识别的方式，进一步解决了在分词处理等情况中对复合词不合理拆分的问题。尤其是对于特殊领域的文本进行分词处理时，通过对复合词进行识别，能够提高分词结果的准确性，从而进一步提高了基于分词结果进行后续分类、筛选等文本处理的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的复合词识别方法的一种实施例的流程示意图；

图2为本申请实施例提供的获得预设关系模型的一种流程示意图；

图3为本申请实施例提供的复合词识别装置的一种实施例的结构示意图。

具体实施方式

在对文本信息进行分类、筛选等文本处理时，往往需要对文本信息进行分词处理，也就是将文本信息根据语义划分成一个或多个词语。然而，在对复合词进行分词处理时，往往会把这些复合词不合理地拆分成两个或更多的独立的词语，导致分词处理的准确性降低，进一步影响了后续基于分词结果的分类、筛选等文本处理。尤其是对医疗、金融等特殊领域的文本进行分词处理时，若采用通用的分词模型，很有可能会导致复合词被不合理拆分。例如，对金融类的复合词“年华收益率”进行分词处理，可能会错误地将复合词“年华收益率”拆分成两个独立的词语“年化”和“收益率”。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

请参阅图1，本申请实施例提供了复合词识别方法的一种方法实施例。本实施例的所述方法，包括：

S101：获得原始文本中至少两个相邻词。

在本申请实施例中，原始文本指的是待进行复合词识别的文本，例如可以是将用户输入的搜索语句作为原始文本，或者也可以获得待分析的一篇文章作为原始文本。其中，相邻词指的是在原始文本中的位置相邻的词语。

一种可选的实施例中，通过对原始文本进行分词处理，从而获得相邻词。例如，对原始文本进行分词处理，获得分词处理后的多个分词结果，从多个分词结果中获得至少两个相邻的分词结果，作为至少两个相邻词。为了方便理解，下面进行举例说明。对原始文本：“什么是年华收益率”进行分词处理，得到多个分词结果：“什么”、“是”、“年华”、“收益率”，获得其中两个相邻词：“年华”和“收益率”。其中，根据复合词的特点，本步骤中通常获得原始文本中相邻的两个或三个分词结果。

S102：获得所述至少两个相邻词的词向量之和，作为第一向量。

词向量(英文：word embedding)指的将自然语言中的字词所转换成的计算机可以理解的向量。通过将相邻词在相同的语义空间内进行映射，使得每个相邻词通过语义空间内的一个特定的坐标进行表示，也就是说每个分割词都被映射成一个特定的向量。其中，词向量具体可以通过word2vec模型或者GloVe模型等方式获得。

将上述获得的每个相邻词的词向量相加，得到第一向量。例如，将“年华”的词向量和“收益率”的词向量相加，得到第一向量。其中，可以将每个相邻词的词向量直接相加，也可以进行加权相加，权值可以根据词语的重要性、词义等方面进行设置。

S103：根据所述至少两个相邻词在原始文本中的位置，获得所述至少两个相邻词的合并词。

根据每个相邻词在原始文本中的位置，获得相邻词的合并词。例如，由于“年华”在原始文本中在“收益率”的前面，因此获得两者的合并词：“年华收益率”。其中，可以直接从原始文本中获得两者的合并词，也可以通过对相邻词进行合并处理后获得。

S104：获得所述合并词的词向量，作为第二向量。

例如，获得合并词“年华收益率”的词向量，作为第二向量。

S105：若所述第一向量和所述第二向量之间的关系与预设关系模型匹配，确定所述合并词属于复合词。

在本申请实施例中，预设关系模型可以是预先获得的模型，并且该模型用于表示复合词的分词的词向量之和与复合词的词向量之间的关系。因此，通过将第一向量和第二向量之间的关系，与预设关系模型进行匹配，能够确定出合并词是否属于复合词。具体地，若第一向量和第二向量之间的关系，与预设关系模型匹配，则确定出合并词属于复合词；反之，若第一向量和第二向量之间的关系，与预设关系模型不匹配，则确定出合并词不属于复合词。其中，第一向量指的是本申请实施例中获得的各个相邻词的词向量之和，而第二向量指的是本申请实施例中获得的各个相邻词构成的合并词的词向量。

例如，“年华”的词向量和“收益率”的词向量之和为向量V1，“年华收益率”的词向量为向量V2，预设关系模型为：Y＝wX+b，其中Y表示复合词的词向量，X表示复合词的分词的词向量之和，w和b分别为预设关系模型的参数值。通过将V1和V2之间的关系与Y＝wX+b进行匹配，能够确定出“年华收益率”是否是复合词。例如，若V1和V2之间的关系与Y＝wX+b匹配，也就是说V1和V2完全满足或者基本满足(差值小于预设阈值)：V2＝wV1+b，则说明“年华收益率”为复合词，反之则不是复合词。

在本申请实施例中，通过对原始文本中每两个或多个相邻词执行S101至S105的步骤，能够对原始文本中的至少一个复合词进行识别。

可见，本申请实施例通过将词向量之间的关系，与预设关系模型进行匹配，实现了一种对复合词进行识别的方式，进一步解决了在分词处理等情况中对复合词不合理拆分的问题。尤其是对于医疗、金融等特殊领域的文本进行分词处理时，即便采用通用的分词模型导致复合词被不合理拆分时，也能够通过对复合词进行识别，能够提高分词结果的准确性，从而进一步提高了基于分词结果进行后续分类、筛选等文本处理的准确性。

在本申请实施例中，预设关系模型用于表示复合词的分词的词向量之和与复合词的词向量之间的关系，因此通过预设模型能够对复合词进行识别。下面本申请实施例将通过图2示例性说明预设关系模型的建立方式。

S201：获得多个复合词和每个复合词的分词。

本申请实施例中在建立预设关系模型时，首先获得多个被标记的复合词和复合词的分词。

一种可选的实施例中，对一段或多段文本进行分词处理，利用分词处理的分词结果构成原始语料集Corpus_old，并且对分词结果进行合并得到复合词，复合词构成加工语料集Corpus_new。例如，获得一段文本：“北京饭店”，并对该文本进行分词处理，得到分词结果：“北京”和“饭店”，因此将“北京”和“饭店”加入原始语料集Corpus_old，通过人工处理的方式对分词结果进行合并，得到合并后的复合词：“北京饭店”，将合并后的复合词加入加工语料集Corpus_new。其中本申请实施例对分词结果进行合并的方式并不加以限定。例如也可以不通过人工处理的方式进行合并，而是将分词结果与预先搜集的复合词词库进行匹配，根据匹配结果获得分词结果构成的复合词。

S202：获得多个复合词的词向量并加入第一向量集合，获得每个复合词的分词的词向量之和并加入第二向量集合。

例如，对原始语料集Corpus_old中每个词分别进行词向量的计算，并且将原始语料集Corpus_old中对应复合词的分词的词向量进行相加，相加的结果加入到第二向量集合中。对加工语料集Corpus_new中的每个复合词分别进行词向量的计算，将计算出的词向量加入到第一向量集合中。仍以上述例子加以说明，计算得到原始语料集Corpus_old中“北京”的词向量

以及“饭店”的词向量

将两者相加得到词向量之和

将

加入第二向量集合。计算得到加工语料集

中“北京饭店”的词向量

将

加入第一向量集合。

S203：建立预设关系模型，所述预设关系模型包括未知的参数值。

其中，预设关系模型可以基于回归计算模型的假设。例如，可以假设预设关系模型为线性回归模型、逻辑回归模型以及多项式回归模型中的任一种或多种模型。

以将预设关系模型假设为线性回归模型为例加以说明。线性回归模型的计算公式通常为Y＝wX+b，其中，Y表示复合词的词向量，X表示复合词的分词的词向量之和，w和b分别为预设关系模型中的参数值，当刚建立线性回归模式时，该参数值w和b为未知数。

S204：根据所述第一向量集合和所述第二向量集合，获得所述预设关系模型的参数值。

本申请实施例中实际上是通过第一向量集合和第二向量集合，对预设关系模型中的参数值进行求解计算，计算出参数值之后，即获得线性回归模型。

例如，将原始语料集Corpus_old中“北京”的词向量

与“饭店”的词向量

之和

加工语料集Corpus_new中“北京饭店”的词向量

带入到上述线性回归模型的公式中，得到带参数等式

对多个复合词分别建立类似的带参数等式，并且利用最小二乘法或者拟牛顿法等求解计算方式，计算出参数值w和b，将计算出的参数值带入到线性回归模型Y＝wX+b中，从而获得线性回归模型。

因此，通过上述方式能够获得预设关系模型，从而利用预设关系模型识别复合词。例如，对“年华收益率”进行复合词识别时，将“年华”的词向量和“收益率”的词向量之和为向量V1，和“年华收益率”的词向量为向量V2带入到上述线性回归模型Y＝wX+b中，若V1和V2之间的关系与Y＝wX+b匹配，例如V1和V2完全满足或者基本满足(差值小于预设阈值)：V2＝wV1+b，则说明“年华收益率”是复合词。若V1和V2之间的关系与Y＝wX+b不匹配，则说明“年华收益率”不是复合词。

其中，本申请实施例可以针对不同的文本类型分别建立对应的预设关系模型，因此在对不同类型的文本进行复合词的识别时，获得该类型对应的预设关系模型并进行识别。

对应上述方法实施例，本申请提供了对应的装置实施例，下面具体说明。

请参阅图3，本申请实施例提供了复合词识别装置的一种装置实施例。

本实施例的所述装置包括：相邻词获得单元301、向量和获得单元302、合并词获得单元303、词向量获得单元304和确定单元305。

相邻词获得单元301，用于获得原始文本中至少两个相邻词。

向量和获得单元302，用于获得所述至少两个相邻词的词向量之和，作为第一向量。

合并词获得单元303，用于根据所述至少两个相邻词在原始文本中的位置，获得所述至少两个相邻词的合并词。

词向量获得单元304，用于获得所述合并词的词向量，作为第二向量。

确定单元305，用于若所述第一向量和所述第二向量之间的关系与预设关系模型匹配，确定所述合并词属于复合词；其中，所述预设关系模型用于表示复合词的分词的词向量之和与复合词的词向量之间的关系。

可选的，还包括：

可选的，所述相邻词获得单元301具体用于，对所述原始文本进行分词处理，获得多个分词结果；从所述多个分词结果中获得至少两个相邻的分词结果。

可选的，所述确定单元305还用于，若所述第一向量和所述第二向量之间的关系与所述预设关系模型不匹配，确定所述合并词不属于复合词。

在示例性实施例中，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储一个或者一个以上程序，所述处理器用于执行所述一个或者一个以上程序，其中，所述一个或者一个以上程序包含用于进行任一种上述方法实施例的指令。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种复合词识别方法，所述方法包括：

获得原始文本中至少两个相邻词；

获得所述至少两个相邻词的词向量之和，作为第一向量；

获得所述合并词的词向量，作为第二向量；

例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，物流管理服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种复合词识别方法，其特征在于，包括：

获得原始文本中至少两个相邻词；

获得所述至少两个相邻词的词向量之和，作为第一向量；

获得所述合并词的词向量，作为第二向量；

2.根据权利要求1所述的方法，其特征在于，还包括：

建立预设关系模型，其中所述预设关系模型包括参数值；

3.根据权利要求2所述的方法，其特征在于，建立所述预设关系模型，包括：建立以下任一种或多种模型：线性回归模型、逻辑回归模型、以及多项式回归模型。

4.根据权利要求2所述的方法，其特征在于，获得所述预设关系模型的参数值，包括：

5.根据权利要求1所述的方法，其特征在于，获得原始文本中至少两个相邻词，包括：

对所述原始文本进行分词处理，获得多个分词结果；

从所述多个分词结果中获得至少两个相邻的分词结果。

6.根据权利要求1所述的方法，其特征在于，还包括：

7.一种复合词识别装置，其特征在于，包括：

相邻词获得单元，用于获得原始文本中至少两个相邻词；

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种电子设备，其特征在于，包括有存储器和处理器，所述存储器中存储一个或者一个以上程序，所述处理器用于执行所述一个或者一个以上程序，其中，所述一个或者一个以上程序包含用于进行以下操作的指令：

获得原始文本中至少两个相邻词；

获得所述至少两个相邻词的词向量之和，作为第一向量；

获得所述合并词的词向量，作为第二向量；

10.一种计算机存储介质，其特征在于，包括计算机程序代码，该计算机程序代码由计算机单元执行，使得该计算机单元：

获得原始文本中至少两个相邻词；

获得所述至少两个相邻词的词向量之和，作为第一向量；

获得所述合并词的词向量，作为第二向量；