CN110956043A

CN110956043A - 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质

Info

Publication number: CN110956043A
Application number: CN201911303575.XA
Authority: CN
Inventors: 赵强利; 蒋艳凰; 李�根; 张少伟; 雷鹏; 余硕军; 万斌; 贺依依
Original assignee: Genetalks Bio Tech Changsha Co ltd
Current assignee: Genetalks Bio Tech Changsha Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-03

Abstract

本发明公开了一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质，本发明领域专业词汇词嵌入向量训练方法的实施步骤包括：获取领域专业词汇的正规名称及其别名，建立别名表；对训练文献进行别名标准化；使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量；将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本发明能够克服领域专业词汇的词嵌入向量不准确的问题，通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示，使得专业词汇在文献中出现的次数大大增加，从而大幅度提高了专业词汇的词嵌入向量的准确性，为专业领域的命名实体识别奠定了坚实的基础。

Description

基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质

技术领域

本发明涉及自然语言处理技术，具体涉及一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质。

背景技术

在自然语言处理中，命名实体识别(Named Entity Recognition，简称NER)能够从专业文献中自动获取特定领域的命名实体，是构建领域基础数据库的一种重要方法。以生物医学领域为例，PubMed文献库提供了近3000万篇的论文摘要和500万篇论文全文，是生物医学领域文本挖掘的重要数据来源。从这些文献中自动获取基因、变异、疾病、药物等实体及其相互间的关系，能够为生物医学领域构建完善的基础数据库。

目前基于深度学习的自然语言理解技术是命名实体识别的重要方法，这种方法需要以文献中单词的词嵌入向量作为深度学习算法的输入。在传统word2vec词嵌入向量的学习中，学习获得的词嵌入向量的准确度与该单词在训练文献中出现的频次密切相关，在训练文献中出现次数越多的单词，经过训练得到的该单词的词嵌入向量越能准确地表述这一单词的词性、语义等信息。实验测试表明，对于在训练文献中出现次数少于10次的单词，获得的词嵌入向量准确度很低，这些低质量的词嵌入向量会大大降低命名实体识别的准确度。

对于诸如生物医学等专业应用领域，通常都存在大量的专业词汇，由于每篇文献讨论的主题都互不相同，每个含义的专业词汇在训练文献中出现的次数都很少。而在获取领域专业知识时，这些词汇常常就是文本挖掘需要识别的命名实体。在实际应用中我们发现，在专业领域内，经常是多种不同的词汇表示同一含义，有的是口语化的词汇，有的是书面术语词汇，有的是不同地域使用不同词汇，这种别名现象进一步降低了专业词汇在文献中出现的次数，导致这些专业词汇的词向量表示不准确。专业词汇的词向量学习不准确，词嵌入向量就无法准确反映出单词的词义及其在句子中的词性、语义等信息，后续基于深度学习的命名实体识别也无法获得准确的识别结果。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质，本发明能够克服领域专业词汇的词嵌入向量不准确的问题，通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示，使得专业词汇在文献中出现的次数大大增加，从而大幅度提高了专业词汇的词嵌入向量的准确性，为专业领域的命名实体识别奠定了坚实的基础。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于别名标准化的领域专业词汇词嵌入向量训练方法，实施步骤包括：

1)获取领域专业词汇的正规名称及其别名，建立别名表；

2)对训练文献进行别名标准化；

3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量。

4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。

可选地，步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。

可选地，所述收集领域专业词汇的正规名称及其别名的步骤包括：通过领域专业数据库，对专业词汇的正规名和别名进行收集整理形成专业词汇表，所述专业词汇表中的每一项包括正规名称和与该正规名称具有相同含义的所有别名的列表。

可选地，步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档，查找训练文献中的所有领域专业词汇的别名，并将别名替换为对应的正规名称。

可选地，步骤3)中的词嵌入向量计算工具为word2vec。

此外，本发明还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统，包括：

映射输入程序单元，用于输入领域专业词汇的正规名称及其别名；

别名标准化程序单元，用于对训练文献进行别名标准化；

词嵌入向量学习程序单元，用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到所有单词的词嵌入向量。

此外，本发明还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统，包括计算机设备，该计算机设备被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。

此外，本发明还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统，包括计算机设备，该计算机设备至少包括微处理器和存储器，且该存储器上存储有被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。

和现有技术相比，本发明具有下述优点：领域专业词汇通常有多个别名，由于表示同一含义的专业词汇在文献中以各种不同的别名形式存在，使得该含义的正规名和别名在文献中出现次数都很低，从而导致获得的词嵌入向量准确度很低，这些低质量的词嵌入向量会大大降低命名实体识别的准确度。本发明构建对应的正规名和别名，然后将文献中出现的所有别名均替换成对应的正规名，最后再对标准化后的文献进行词嵌入的学习，通过上述的别名标准化操作，能够克服领域专业词汇的词嵌入向量不准确的问题，通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示，使得专业词汇在文献中出现的次数大大增加，大幅度提高了专业词汇的词嵌入向量的准确性，为专业领域的命名实体识别奠定了坚实的基础。

附图说明

图1为本发明实施例方法的基本流程示意图。

具体实施方式

如图1所示，本实施例基于别名标准化的领域专业词汇词嵌入向量训练方法的实施步骤包括：1)输入领域专业词汇的正规名称及其别名，建立别名表；2)对训练文献进行别名标准化；3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量；4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本实施例基于别名标准化的领域专业词汇词嵌入向量训练方法通过构建对应的正规名和别名，然后将文献中出现的所有别名均替换成对应的正规名，最后再对标准化后的文献进行词嵌入的学习，通过上述的别名标准化操作，能够克服领域专业词汇的词嵌入向量不准确的问题，通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示，使得专业词汇在文献中出现的次数大大增加，大幅度提高了专业词汇的词嵌入向量的准确性，为专业领域的命名实体识别奠定了坚实的基础。

本实施例中，步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。

本实施例中，所述收集领域专业词汇的正规名称及其别名的步骤包括：通过领域专业数据库，对专业词汇的正规名和别名进行收集整理形成专业词汇表，所述专业词汇表中的每一项包括正规名称和与该正规名称具有相同含义的所有别名的列表。

本实施例中，步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档，查找训练文献中的所有领域专业词汇的别名，并将别名替换为对应的正规名称。

本实施例中，步骤3)中的词嵌入向量计算工具为word2vec。

此外，本实施例还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统，包括：

映射输入程序单元，用于获取领域专业词汇的正规名称及其别名，建立别名表；

别名标准化程序单元，用于对训练文献进行别名标准化；

词嵌入向量学习程序单元，用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量；

别名词嵌入向量修改程序单元，用于将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。

此外，本实施例还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统，包括计算机设备，该计算机设备被编程或配置以执行前述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。

此外，本实施例还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统，包括计算机设备，该计算机设备至少包括微处理器和存储器，且该存储器上存储有被编程或配置以执行前述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于别名标准化的领域专业词汇词嵌入向量训练方法，其特征在于实施步骤包括：

1)获取领域专业词汇的正规名称及其别名，建立别名表；

2)对训练文献进行别名标准化；

3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量；

2.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法，其特征在于，步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。

3.根据权利要求2所述的基于别名标准化的领域专业词汇词嵌入向量训练方法，其特征在于，所述收集领域专业词汇的正规名称及其别名的步骤包括：通过领域专业数据库，对专业词汇的正规名和别名进行收集整理形成专业词汇表，所述专业词汇表中的每一项包括一个正规名称和与该正规名称具有相同含义的所有别名的列表。

4.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法，其特征在于，步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档，查找训练文献中的所有领域专业词汇的别名，并将别名替换为对应的正规名称。

5.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法，其特征在于，步骤3)中的词嵌入向量计算工具为word2vec。

6.一种基于别名标准化的领域专业词汇词嵌入向量训练系统，其特征在于包括：

别名标准化程序单元，用于对训练文献进行别名标准化；

7.一种基于别名标准化的领域专业词汇词嵌入向量训练系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。

8.一种基于别名标准化的领域专业词汇词嵌入向量训练系统，包括计算机设备，其特征在于，该计算机设备至少包括微处理器和存储器，且该存储器上存储有被编程或配置以执行权利要求1～5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。