CN109086265B

CN109086265B - 一种语义训练方法、短文本中多语义词消歧方法

Info

Publication number: CN109086265B
Application number: CN201810696952.XA
Authority: CN
Inventors: 邹辉; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2022-10-25
Anticipated expiration: 2038-06-29
Also published as: CN109086265A

Abstract

本发明涉及自然语言处理技术领域，提供了一种语义训练方法，具体包含步骤：确定包含目标分词的训练语料；分别对所述训练语料进行分词处理，并基于第一预设算法确定各所述训练语料分词的第一词向量；基于第二预设算法确定各所述训练语料的句向量；基于所述第一词向量及各所述训练语料的所述句向量，计算获得各所述训练语料中所述目标分词对应的第二词向量；对所述目标分词对应的各所述第二词向量进行聚类，获得至少一个类别；基于所述至少一个类别确定所述目标分词对应的至少一个语义及语义向量。基于本发明所提供的语义训练方法可快速、准确对多语义词进行语义训练。

Description

一种语义训练方法、短文本中多语义词消歧方法

技术领域

本发明涉及自然语言处理技术，尤其是关于一种语义训练方法、短文本中多语义词消歧方法。

背景技术

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。传统的语料库主要应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。随着互联网大数据及人工智能技术的发展，语料库也被广泛的应用。

语料库有三点特征，语料库中存放的是在语言的实际使用中真实出现过的语言材料，例如直接从网页上获取的用户留言、客服对话等；语料库是承载语言知识的基础资源，但并不等于语言知识；真实语料需要经过加工(分析和处理)，才能成为有用的资源，对真实语料的加工可包含除脏数据、语义标注、词性标记等。

在实际的语言场景中，一个词在不同的语句中，所表达的语义可能会不同，例如“苹果”这一词语，在语句“我想吃苹果”中，指代的是一种水果，而在语句“我的苹果拿去修了”中，指代的是一种数码产品。这类词汇可称为多语义词，针对多语义词的语义获取是语料库训练技术中一直在研究的主题。

发明内容

本发明的实施例，提供了一种语义训练方法，具体包含步骤：确定包含目标分词的训练语料；分别对所述训练语料进行分词处理，并基于第一预设算法确定各所述训练语料分词的第一词向量；基于第二预设算法确定各所述训练语料的句向量；基于所述第一词向量及各所述训练语料的所述句向量，计算获得各所述训练语料中所述目标分词对应的第二词向量；对所述目标分词对应的各所述第二词向量进行聚类，获得至少一个类别；基于所述至少一个类别确定所述目标分词对应的至少一个语义及语义向量。

本发明所提供的实施例，基于训练语料的第一词向量及句向量来计算生成目标分词的第二词向量，如此一来，在不同训练语料中的目标分词将会获得一个对应的第二词向量，并通过对目标分词对应的所有第二词向量进行聚类，已获得相应的分类，并基于聚类的结果，对应获取目标分词的不同语义。换言之，本发明所提供的实施例基于目标分词所在训练语料的局部特征及全局特征，获取一个统一的表现形式，并基于该些统一的表现形式进行聚类，已获得不同的分类，从而得到目标分词的不同语义，而该些局部特征、全局特征及统一的表现形式，都是通过向量计算获得，不仅易于实现，而且更加准确。

在一实施例中，所述基于第一预设算法确定各所述训练语料分词的第一向量具体包含：基于word2vec中的skip-gram模型算法对所述训练语料进行训练得到各所述训练语料分词的第一词向量。

在一实施例中，所述基于第二预设算法确定各所述训练语料的句向量具体包含：基于textRank算法筛选出各所述训练语料的关键分词；分别将各所述训练语料的各关键分词对应的第一词向量进行加权求和再平均，分别得到各所述训练语料的句向量。

在一实施例中，所述基于所述第一词向量及各所述训练语料的所述句向量，计算获得各所述训练语料中所述目标分词对应的第二词向量具体包含：分别选取各所述训练语料中，位置前后邻近所述目标分词的5个邻近分词；分别对各所述训练语料中的所述邻近分词的词向量进行求和再平均，得到中间向量；分别将各所述中间向量与各所述训练语料的句向量进行拼接，得到所述目标分词分别在各所述训练语料中的所述第二词向量。

在一实施例中，所述对所述目标分词对应的各所述第二词向量进行聚类，获得至少一个类别具体包含：基于K-means算法对所述目标分词对应的各所述第二词向量进行聚类，获得K个类别。

在一实施例中，所述基于所述K个类别确定所述目标分词对应的K个语义具体包含：获取所述K个类别的聚类中心，分别将所述聚类中心对应的分词语义及词向量确定为所述目标分词的K个语义及语义向量。

基于上述语义训练方法，本发明实施例还提出一种短文本中多语义词消歧方法，具体包含步骤：对所述短文本进行分词处理；识别所述短文本中包含的多语义词；基于上述的语义训练方法获取所述多语义词的各个语义向量；基于第三预设算法确定所述短文本中各所述分词的词向量；基于第四预设算法确定所述短文本的句向量；基于各所述分词的词向量及所述句向量，计算获得所述多语义词的词向量；分别对比所述多语义词的词向量与各所述语义向量，选取最接近的所述语义向量对应的语义确定为所述多语义词在所述短文本所表达的语义。

在一实施例中，所述基于第四预设算法确定所述短文本的句向量具体包含：基于textRank算法筛选出所述短文本中的关键分词；分别将各所述关键分词对应的所述词向量进行加权求和再平均，得到所述短文本的句向量。

在一实施例中，所述基于各所述分词的词向量及所述句向量，计算获得所述多语义词的词向量具体包含：选取所述短文本中，位置前后邻近所述多语义词的5个邻近分词；对所述邻近分词的词向量进行求和再平均，得到中间向量；将所述中间向量与所述短文本的句向量进行拼接，得到所述多语义词的词向量。

此外，本发明还提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的语义训练方法。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1绘示本发明一较佳实施例所提供的语义训练方法流程图；

图2绘示图1所示实施例中计算第二词向量的方法流程图；

图3绘示本发明一实施例所提供的电子设备结构示意图；

图4绘示本发明另一较佳实施所提供的短文本中多语义词消歧方法流程图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

请参照图1，图1绘示本发明一较佳实施例所提供的语义训练方法流程图。

如图1所示，语义训练方法包含以下步骤：

步骤101，确定包含目标分词的训练语料。

一般来说，语料库的收集会基于特定的应用场景，例如社交网络应用、金融客服系统、旅游信息服务等。

例如，可从维基百科的中文离线数据库，提取目标页面信息，并保存在文本中；或者人工编写爬虫程序，从目标网站上获取文本信息，也可以是直接从系统服务器数据库获取，本发明并不作限制。

在收集到原始语料之后，较佳的，可对获得的语料进行预处理，可采用开源的工具包中科院汉语词法分析系统ICTCLAS完成，包括分词、词性标注、去停用词和命名实体识别过程。

更进一步的，考虑到爬取到初始语料中存在一些重复、无效的噪音，例如网页标签、无效字符等。还可以通过过滤、去噪音等操作进行去噪，以保证语料的质量。

在完成语料库的构建后，需对语料库进行训练，以获得语料库中多语义词的多个语义。

在本实施例中，为了减少计算次数，在明确待训练的目标分词后，可先确定语料库中包含有目标分词的训练语料，再针对这些训练语料进行训练即可，其中训练语料可以短文本为单位。

在本发明的其他实施例中，也可以对整个语料库的语料进行训练，来获得目标分词的语义。

步骤102，分别对训练语料进行分词处理，并基于第一预设算法确定各训练语料分词的第一词向量。

具体的，可基于word2vec中的skip-gram模型算法对训练语料进行训练，得到各训练语料分词的第一词向量。

word2vec是一类神经网络模型，基于该模型可为语料库中的单个分词产生一个能表达语义的向量，即词向量。通过词向量可计算两个单词的语义相似性，或对某些监督型NLP任务如文本分类，语义分析构造特征。skip-gram模型是Word2vec中的一个模型。

步骤103，基于第二预设算法确定各训练语料的句向量。

具体的，可先基于textRank算法筛选出各训练语料的关键分词；再分别将各训练语料的各关键分词对应的第一词向量进行加权求和再平均，分别得到各所述训练语料的句向量。值得注意的是，在选取关键分词时，可选取权值最高的1-5个关键词用于计算。

步骤104，基于第一词向量及各训练语料的句向量，计算获得各训练语料中目标分词对应的第二词向量。

其中，具体的计算方法，可参照图2，图2绘示图1所示实施例中计算第二词向量的方法流程。

如图2所示，所述计算方法具体包含步骤：

步骤201，分别选取各训练语料中，位置前后邻近目标分词的5个邻近分词。

具体的，在选取邻近分词时，可基于同一训练语料中与目标分词位置距离最近的5个分词，可以理解的是，若当前训练语料中分词个数少于6个，那么可直接将除了目标分词之外的所有分词确定为邻近分词。

步骤202，分别对各训练语料中的邻近分词的词向量进行求和再平均，得到中间向量。

步骤203，分别将各中间向量与各训练语料的句向量进行拼接，得到目标分词分别在各训练语料中的第二词向量。

具体的，其中中间向量基于目标分词的邻近分词向量计算获得，可体现为目标分词所在训练语料的局部特征，或目标分词在训练语料中的关联特征，训练语料的句向量，可体现为整体特征，即包含目标分词的训练语料的全局特征，通过结合局部特征及整体特征来标识目标分词的词向量，可使得对目标分词的语义识别更贴合具体语境。

拼接两个向量的方法，可直接采取中间向量后直接拼接句向量的方式来获得第二词向量，例如，中间向量为：[1,4,7]，句向量为：[5,3,2]，拼接后得到第二词向量：[1,4,7,5,3,2]。

请再次回到图1。

步骤105，对所述目标分词对应的各所述第二词向量进行聚类，获得至少一个类别。

具体的，可基于K-means算法对目标分词对应的各第二词向量进行聚类，获得K个类别。其中K为可自定义预设的数值，即可根据实际需求，来设定K值，可以理解的是，K值越大，得到的类别越多，那么分类粒度就越细，K值越小，得到的类别越少，分类粒度就越大。K值的设定可先根据经验进行预设，也可以采取固定值的方式，本发明并不作限制。

步骤106，基于至少一个类别确定目标分词对应的至少一个语义及语义向量。

具体的，基于上述K-means算法，可获取所述K个类别的聚类中心，分别将各聚类中心对应的分词语义及词向量确定为目标分词的K个语义及语义向量。从而获得目标分词的多个语义及每个语义对应的语义向量。

综上所述，本发明所提供的实施例，基于训练语料的第一词向量及句向量来计算生成目标分词的第二词向量，如此一来，在不同训练语料中的目标分词将会获得一个对应的第二词向量，并通过对目标分词对应的所有第二词向量进行聚类，已获得相应的分类，并基于聚类的结果，对应获取目标分词的不同语义。换言之，本发明所提供的实施例基于目标分词所在训练语料的局部特征及全局特征，获取一个统一的表现形式，并基于该些统一的表现形式进行聚类，已获得不同的分类，从而得到目标分词的不同语义，而该些局部特征、全局特征及统一的表现形式，都是通过向量计算获得，不仅易于实现，而且更加准确。

基于同样的发明构思，本发明还提供了一种电子设备，请参照图3，图3绘示本发明一实施例所提供的电子设备结构示意图。

如图3所示，包括至少一个处理器301；以及，与所述至少一个处理器301通信连接的存储器302；其中，所述存储器302存储有可被所述至少一个处理器301执行的指令，所述指令被所述至少一个处理器301执行上述方法实施方式中的语义训练方法。

其中，存储器302和处理器301采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。

本发明的实施方式相对于现有技术而言，电子设备训练获得目标分词语义的方法更加快速和准确。

此外，本发明还提供一种短文本中多语义词消歧方法。

请参照图4，图4绘示本发明另一较佳实施所提供的短文本中多语义词消歧方法流程。

如图4所示，所述方法包含步骤：

步骤401，对短文本进行分词处理。

步骤402，识别所述短文本中包含的多语义词。

识别短文本中所包含的多语义词的方法可包含基于已知的多语义词数据表进行匹配，而数据表中记录的多语义词是基于语料库训练获得，并同时记录多语义词对应的各语义标注及语义向量。也可以直接基于语料库匹配获得，当匹配到的分词包含多个语义标注时，则识别为多语义词。

步骤403，对所述多语义词进行语义训练，获取的各个语义向量。

其中，具体的语义训练方法可参照图1所示实施例中的描述，故不再赘述。

步骤404，基于第三预设算法确定所述短文本中各所述分词的词向量。

具体的，可基于word2vec中的skip-gram模型算法对训练语料进行训练，得到各分词的词向量。

步骤405，基于第四预设算法确定所述短文本的句向量。

具体的，可先基于textRank算法筛选出短文本的关键分词；再将各关键分词对应的词向量进行加权求和再平均，得到短文本的句向量。值得注意的是，在选取关键分词时，可选取权值最高的1-5个关键词用于计算。

步骤406，基于各所述分词的词向量及所述句向量，计算获得所述多语义词的词向量。

其中，计算多语义词的词向量具体包含：

选取所述短文本中，位置前后邻近所述多语义词的5个邻近分词。具体的，在选取邻近分词时，可基于与目标分词位置距离最近的5个分词，可以理解的是，若短文本中所包含的分词个数少于6个，那么可直接将除了目标分词之外的所有分词确定为邻近分词。

对所述邻近分词的词向量进行求和再平均，得到中间向量；

将所述中间向量与所述短文本的句向量进行拼接，得到所述多语义词的词向量。

具体的，其中中间向量基于目标分词的邻近分词向量计算获得，可体现为短文本的局部特征，或多语义词在短文本中的关联特征；短文本的句向量，可体现为整体特征，即短文本的全局特征，通过结合局部特征及整体特征来标识多语义词的词向量。

步骤407，分别对比所述多语义词的词向量与各所述语义向量，选取最接近的所述语义向量对应的语义确定为所述多语义词在所述短文本所表达的语义。

根据上文说明可知，多语义词的词向量的获取方法与各语义对应的语义向量计算方法相同，如此一来，可通过查找距离最接近的语义向量，确定该多语义词在短文本所表达的正确语义，从而完成多语义词的语义选择。

由此可见，基于上述方法可简单快速的识别出短文本中的多语义词，并进行语义选择，以获取更贴近用户所要表达的语义，从而消除歧义。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种语义训练方法，其特征在于，所述方法包含步骤：

确定包含目标分词的训练语料；

分别对所述训练语料进行分词处理，并基于第一预设算法确定各所述训练语料分词的第一词向量；

基于第二预设算法确定各所述训练语料的句向量；

基于所述第一词向量及各所述训练语料的所述句向量，计算获得各所述训练语料中所述目标分词对应的第二词向量；

对所述目标分词对应的各所述第二词向量进行聚类，获得至少一个类别；

基于所述至少一个类别确定所述目标分词对应的至少一个语义及语义向量；

所述基于所述第一词向量及各所述训练语料的所述句向量，计算获得各所述训练语料中所述目标分词对应的第二词向量具体包含：

分别选取各所述训练语料中，位置前后邻近所述目标分词的5个邻近分词；

分别对各所述训练语料中的所述邻近分词的词向量进行求和再平均，得到中间向量；

分别将各所述中间向量与各所述训练语料的句向量进行拼接，得到所述目标分词分别在各所述训练语料中的所述第二词向量。

2.根据权利要求1所述的语义训练方法，其特征在于，所述基于第一预设算法确定各所述训练语料分词的第一向量具体包含：

基于word2vec中的skip-gram模型算法对所述训练语料进行训练得到各所述训练语料分词的第一词向量。

3.根据权利要求1所述的语义训练方法，其特征在于，所述基于第二预设算法确定各所述训练语料的句向量具体包含：

基于textRank算法筛选出各所述训练语料的关键分词；

分别将各所述训练语料的各关键分词对应的第一词向量进行加权求和再平均，分别得到各所述训练语料的句向量。

4.根据权利要求1所述的语义训练方法，其特征在于，所述对所述目标分词对应的各所述第二词向量进行聚类，获得至少一个类别具体包含：

基于K-means算法对所述目标分词对应的各所述第二词向量进行聚类，获得K个类别。

5.根据权利要求4所述的语义训练方法，其特征在于，获得K个类别后，基于所述K个类别确定所述目标分词对应的K个语义具体包含：

获取所述K个类别的聚类中心，分别将所述聚类中心对应的分词语义及词向量确定为所述目标分词的K个语义及语义向量。

6.一种短文本中多语义词消歧方法，其特征在于，所述方法包含步骤：

对所述短文本进行分词处理；

识别所述短文本中包含的多语义词；

基于权利要求1至5中任一项所述的语义训练方法获取所述多语义词的各个语义向量；

基于第三预设算法确定所述短文本中各所述分词的词向量；

基于第四预设算法确定所述短文本的句向量；

基于各所述分词的词向量及所述句向量，计算获得所述多语义词的词向量；

分别对比所述多语义词的词向量与各所述语义向量，选取最接近的所述语义向量对应的语义确定为所述多语义词在所述短文本所表达的语义。

7.根据权利要求6所述的多语义词消歧方法，其特征在于，所述基于第四预设算法确定所述短文本的句向量具体包含：

基于textRank算法筛选出所述短文本中的关键分词；

分别将各所述关键分词对应的所述词向量进行加权求和再平均，得到所述短文本的句向量。

8.根据权利要求6所述的多语义词消歧方法，其特征在于，所述基于各所述分词的词向量及所述句向量，计算获得所述多语义词的词向量具体包含：

选取所述短文本中，位置前后邻近所述多语义词的5个邻近分词；

对所述邻近分词的词向量进行求和再平均，得到中间向量；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一所述的语义训练方法。