CN110956043A - 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 - Google Patents
基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 Download PDFInfo
- Publication number
- CN110956043A CN110956043A CN201911303575.XA CN201911303575A CN110956043A CN 110956043 A CN110956043 A CN 110956043A CN 201911303575 A CN201911303575 A CN 201911303575A CN 110956043 A CN110956043 A CN 110956043A
- Authority
- CN
- China
- Prior art keywords
- alias
- word embedding
- vocabulary
- normalization
- embedding vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000010606 normalization Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 239000007787 solid Substances 0.000 abstract 1
- 238000011425 standardization method Methods 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质,本发明领域专业词汇词嵌入向量训练方法的实施步骤包括:获取领域专业词汇的正规名称及其别名,建立别名表;对训练文献进行别名标准化;使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本发明能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,从而大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。
Description
技术领域
本发明涉及自然语言处理技术,具体涉及一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质。
背景技术
在自然语言处理中,命名实体识别(Named Entity Recognition,简称NER)能够从专业文献中自动获取特定领域的命名实体,是构建领域基础数据库的一种重要方法。以生物医学领域为例,PubMed文献库提供了近3000万篇的论文摘要和500万篇论文全文,是生物医学领域文本挖掘的重要数据来源。从这些文献中自动获取基因、变异、疾病、药物等实体及其相互间的关系,能够为生物医学领域构建完善的基础数据库。
目前基于深度学习的自然语言理解技术是命名实体识别的重要方法,这种方法需要以文献中单词的词嵌入向量作为深度学习算法的输入。在传统word2vec词嵌入向量的学习中,学习获得的词嵌入向量的准确度与该单词在训练文献中出现的频次密切相关,在训练文献中出现次数越多的单词,经过训练得到的该单词的词嵌入向量越能准确地表述这一单词的词性、语义等信息。实验测试表明,对于在训练文献中出现次数少于10次的单词,获得的词嵌入向量准确度很低,这些低质量的词嵌入向量会大大降低命名实体识别的准确度。
对于诸如生物医学等专业应用领域,通常都存在大量的专业词汇,由于每篇文献讨论的主题都互不相同,每个含义的专业词汇在训练文献中出现的次数都很少。而在获取领域专业知识时,这些词汇常常就是文本挖掘需要识别的命名实体。在实际应用中我们发现,在专业领域内,经常是多种不同的词汇表示同一含义,有的是口语化的词汇,有的是书面术语词汇,有的是不同地域使用不同词汇,这种别名现象进一步降低了专业词汇在文献中出现的次数,导致这些专业词汇的词向量表示不准确。专业词汇的词向量学习不准确,词嵌入向量就无法准确反映出单词的词义及其在句子中的词性、语义等信息,后续基于深度学习的命名实体识别也无法获得准确的识别结果。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质,本发明能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,从而大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于别名标准化的领域专业词汇词嵌入向量训练方法,实施步骤包括:
1)获取领域专业词汇的正规名称及其别名,建立别名表;
2)对训练文献进行别名标准化;
3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量。
4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
可选地,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。
可选地,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括正规名称和与该正规名称具有相同含义的所有别名的列表。
可选地,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。
可选地,步骤3)中的词嵌入向量计算工具为word2vec。
此外,本发明还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括:
映射输入程序单元,用于输入领域专业词汇的正规名称及其别名;
别名标准化程序单元,用于对训练文献进行别名标准化;
词嵌入向量学习程序单元,用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到所有单词的词嵌入向量。
此外,本发明还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,该计算机设备被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。
此外,本发明还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,该计算机设备至少包括微处理器和存储器,且该存储器上存储有被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
和现有技术相比,本发明具有下述优点:领域专业词汇通常有多个别名,由于表示同一含义的专业词汇在文献中以各种不同的别名形式存在,使得该含义的正规名和别名在文献中出现次数都很低,从而导致获得的词嵌入向量准确度很低,这些低质量的词嵌入向量会大大降低命名实体识别的准确度。本发明构建对应的正规名和别名,然后将文献中出现的所有别名均替换成对应的正规名,最后再对标准化后的文献进行词嵌入的学习,通过上述的别名标准化操作,能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。
附图说明
图1为本发明实施例方法的基本流程示意图。
具体实施方式
如图1所示,本实施例基于别名标准化的领域专业词汇词嵌入向量训练方法的实施步骤包括:1)输入领域专业词汇的正规名称及其别名,建立别名表;2)对训练文献进行别名标准化;3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本实施例基于别名标准化的领域专业词汇词嵌入向量训练方法通过构建对应的正规名和别名,然后将文献中出现的所有别名均替换成对应的正规名,最后再对标准化后的文献进行词嵌入的学习,通过上述的别名标准化操作,能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。
本实施例中,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。
本实施例中,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括正规名称和与该正规名称具有相同含义的所有别名的列表。
本实施例中,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。
本实施例中,步骤3)中的词嵌入向量计算工具为word2vec。
此外,本实施例还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括:
映射输入程序单元,用于获取领域专业词汇的正规名称及其别名,建立别名表;
别名标准化程序单元,用于对训练文献进行别名标准化;
词嵌入向量学习程序单元,用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
别名词嵌入向量修改程序单元,用于将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
此外,本实施例还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,该计算机设备被编程或配置以执行前述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。
此外,本实施例还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,该计算机设备至少包括微处理器和存储器,且该存储器上存储有被编程或配置以执行前述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于实施步骤包括:
1)获取领域专业词汇的正规名称及其别名,建立别名表;
2)对训练文献进行别名标准化;
3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
2.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。
3.根据权利要求2所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括一个正规名称和与该正规名称具有相同含义的所有别名的列表。
4.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。
5.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤3)中的词嵌入向量计算工具为word2vec。
6.一种基于别名标准化的领域专业词汇词嵌入向量训练系统,其特征在于包括:
映射输入程序单元,用于获取领域专业词汇的正规名称及其别名,建立别名表;
别名标准化程序单元,用于对训练文献进行别名标准化;
词嵌入向量学习程序单元,用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
别名词嵌入向量修改程序单元,用于将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
7.一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。
8.一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,其特征在于,该计算机设备至少包括微处理器和存储器,且该存储器上存储有被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303575.XA CN110956043A (zh) | 2019-12-17 | 2019-12-17 | 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303575.XA CN110956043A (zh) | 2019-12-17 | 2019-12-17 | 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110956043A true CN110956043A (zh) | 2020-04-03 |
Family
ID=69982219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911303575.XA Pending CN110956043A (zh) | 2019-12-17 | 2019-12-17 | 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956043A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459918A (zh) * | 2020-04-26 | 2020-07-28 | 上海烜翊科技有限公司 | 一种基于元数据库的体系建模命名方法 |
CN111984776A (zh) * | 2020-08-20 | 2020-11-24 | 中国农业科学院农业信息研究所 | 一种基于词向量模型的机构名称规范方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021553A (zh) * | 2017-09-30 | 2018-05-11 | 北京颐圣智能科技有限公司 | 疾病术语的词处理方法、装置及计算机设备 |
CN108763205A (zh) * | 2018-05-21 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种品牌别名识别方法、装置及电子设备 |
CN108922633A (zh) * | 2018-06-22 | 2018-11-30 | 北京海德康健信息科技有限公司 | 一种疾病名称标准化规范方法及规范系统 |
CN109949938A (zh) * | 2017-12-20 | 2019-06-28 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN109961259A (zh) * | 2019-03-28 | 2019-07-02 | 上海中通吉网络技术有限公司 | 地址标准化处理方法和设备 |
CN110008300A (zh) * | 2019-04-11 | 2019-07-12 | 北京百度网讯科技有限公司 | Poi别名的确定方法、装置、计算机设备和存储介质 |
-
2019
- 2019-12-17 CN CN201911303575.XA patent/CN110956043A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021553A (zh) * | 2017-09-30 | 2018-05-11 | 北京颐圣智能科技有限公司 | 疾病术语的词处理方法、装置及计算机设备 |
CN109949938A (zh) * | 2017-12-20 | 2019-06-28 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN108763205A (zh) * | 2018-05-21 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 一种品牌别名识别方法、装置及电子设备 |
CN108922633A (zh) * | 2018-06-22 | 2018-11-30 | 北京海德康健信息科技有限公司 | 一种疾病名称标准化规范方法及规范系统 |
CN109961259A (zh) * | 2019-03-28 | 2019-07-02 | 上海中通吉网络技术有限公司 | 地址标准化处理方法和设备 |
CN110008300A (zh) * | 2019-04-11 | 2019-07-12 | 北京百度网讯科技有限公司 | Poi别名的确定方法、装置、计算机设备和存储介质 |
Non-Patent Citations (5)
Title |
---|
中国地名研究所编: "南极地名论文集", 北京:中国社会出版社, pages: 159 - 160 * |
冯国明;张晓冬;刘素辉;: "基于自主学习的专业领域文本DBLC分词模型", no. 05, pages 44 - 51 * |
张翔 等: "Character-level Convolution Networks for Text Classification", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS. MASSACHUSETTS: MIT PRESS, pages 649 - 657 * |
张翔 等: "基于文本分类的字符级卷积网络", pages 649 - 657 * |
陈铁明;金成强;吕明琪;朱添田;: "基于样本增强的网络恶意流量智能检测方法", 通信学报, vol. 41, no. 06, pages 132 - 142 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459918A (zh) * | 2020-04-26 | 2020-07-28 | 上海烜翊科技有限公司 | 一种基于元数据库的体系建模命名方法 |
CN111984776A (zh) * | 2020-08-20 | 2020-11-24 | 中国农业科学院农业信息研究所 | 一种基于词向量模型的机构名称规范方法 |
CN111984776B (zh) * | 2020-08-20 | 2023-08-11 | 中国农业科学院农业信息研究所 | 一种基于词向量模型的机构名称规范方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108121700B (zh) | 一种关键词提取方法、装置及电子设备 | |
WO2021042503A1 (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
US10755048B2 (en) | Artificial intelligence based method and apparatus for segmenting sentence | |
CN109408824B (zh) | 用于生成信息的方法和装置 | |
US9697819B2 (en) | Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis | |
TW202020691A (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN109446521B (zh) | 命名实体识别方法、装置、电子设备、机器可读存储介质 | |
CN112001188A (zh) | 基于向量化语义规则快速实现nl2sql的方法和装置 | |
CN111274797A (zh) | 用于终端的意图识别方法、装置、设备及存储介质 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
GB2555207A (en) | System and method for identifying passages in electronic documents | |
CN110750977A (zh) | 一种文本相似度计算方法及系统 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
US11327971B2 (en) | Assertion-based question answering | |
CN108170708B (zh) | 一种车辆实体识别方法、电子设备、存储介质、系统 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN110956043A (zh) | 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质 | |
CN109871544B (zh) | 基于中文病历的实体识别方法、装置、设备及存储介质 | |
CN115525757A (zh) | 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法 | |
CN114003725A (zh) | 信息标注模型的构建方法以及信息标注的生成方法 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112818096A (zh) | 对话生成方法及其装置 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |