CN109271635A - 一种嵌入外部词典信息的词向量改进方法 - Google Patents
一种嵌入外部词典信息的词向量改进方法 Download PDFInfo
- Publication number
- CN109271635A CN109271635A CN201811087244.2A CN201811087244A CN109271635A CN 109271635 A CN109271635 A CN 109271635A CN 201811087244 A CN201811087244 A CN 201811087244A CN 109271635 A CN109271635 A CN 109271635A
- Authority
- CN
- China
- Prior art keywords
- word
- term vector
- dictionary
- pair
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理的技术领域,更具体地,涉及一种嵌入外部词典信息的词向量改进方法。本发明在普通词向量的基础上融合了相似词词典和相关词词典的信息,相比于普通词向量,本发明可以较好的分离共现词的影响,同时缩小词义相近的词的词向量距离,使得最终的词向量更接近词的客观词义;另一方面,因为词向量是很多自然语言处理任务的底层技术,更接近客观词义的词向量有助于下游任务的提升。外部预训练的高质量词向量在一些任务中还能缓解标注数据不足的问题。
Description
技术领域
本发明涉及自然语言处理的技术领域,更具体地,涉及一种嵌入外部词典信息的词向量改进方法。
背景技术
当前自然语言处理底层技术中常常用到的词向量是词的向量化表示,向量的各维度往往带有一定的跟词义相关的物理含义。现阶段应用最广的词向量技术是word2vec,属于分布式词向量。它服从一个分布式假设,即词的词义由上下文包含的词共同决定。word2vec的实现方法有CBOW模型和skip-gram模型两种,其中CBOW模型的思想是根据中心词周围的若干个词来预测中心词,而skip-gram模型的思想是根据中心词来预测中心词周围的其他词。
word2vec等分布式词向量方法不需要标注语料就可以较好的得到接近客观词义的词向量。但由于分布式假设存在问题,即中心词的上下文包含的词只能决定中心词的语法,而不是决定中心词的语义,故这些方法得到的词向量距离客观词义还有差距。
上述技术的大前提是分布式假设。这个假设会导致两个主要问题及其原因:
(1)有一些词义完全不同,但是经常共同出现的词,由于具有相似的语境,最终会导致这些词的词向量在空间上距离很接近。如果把这些词向量等同于词义,在实际应用中会引入词义混淆。之所以有这样的缺点,是因为中心词周围包含的词只能决定中心词的用法,无法直接决定中心词的词义。
(2)由于语料是人工编写的,两个词义相近的词被用到的频率有时候是很不同的,这会导致频率低的词训练不充分,词义挖掘不足。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种嵌入外部词典信息的词向量改进方法,本发明要解决的问题是针对当前经典词向量方法的缺陷,考虑结合外部词典信息,以得到更接近客观词义的词向量。
本发明的技术方案是:一种嵌入外部词典信息的词向量改进方法,其中,包括以下步骤:
S1: 准备一个大型语料库和一个电子词典;
S2: 相似词词典:电子词典的每个词可能会附带有近义词和同义词,利用脚本将其抽取出来并记录;
S3: 相关词词典:在大型语料库中,使用统计方法寻找相关词对,按照两个相关词的联合概率远大于两个词的单独概率乘积的原则,将相关词对识别出来并记录;
S4: 针对语料库,统计出现的所有词及其词频,构建一个词汇表;
S5: 在语料库中设定一个滑动窗口,窗口大小为n,取窗口的中间词为中心词,将中心词和其他词构成正例pair;
S6: 在词汇表中依据词频确定被采样概率,采样出若干个词,和中心词一起构成负例pair;
S7: 如果S5的中心词出现在相似词词典中,则分别把中心词和相似词典记录的对应词构成pair,加入到正例pair中;
S8: 如果S5的中心词出现在相关词词典中,则分别把中心词和相关词典记录的对应词构成pair,加入到负例pair中;
S9: 搭建一个单层且无偏置参数的全连接神经网络,将正例pair和负例pair作为输入,利用sigmoid函数输出pair是正例或负例的概率;
S10: 利用均方差计算输出loss,使用梯度下降法使loss下降;
S11: 重复S5到S10,直到loss收敛;
S12: 全连接网络的权重矩阵即是所有词语的词向量构成的矩阵。
本发明创造希望得到更接近客观词义的词向量。本发明认为现有的词向量技术的缺陷是把共现的词误判为词义接近,同时某些词义接近的词没有被覆盖。通过分析导致现有技术缺点的原因,本发明考虑引入两个外部词典,一个是词义相关词词典,一个是词义相似词词典,在现有词向量技术的训练过程中融合这两个词典的信息,以得到更接近客观词义的词向量。
与现有技术相比,有益效果是:本发明在普通词向量的基础上融合了相似词词典和相关词词典的信息,相比于普通词向量,本发明可以较好的分离共现词的影响,同时缩小词义相近的词的词向量距离,使得最终的词向量更接近词的客观词义。
另一方面,因为词向量是很多自然语言处理任务的底层技术,更接近客观词义的词向量有助于下游任务的提升。外部预训练的高质量词向量在一些任务中还能缓解标注数据不足的问题。
附图说明
图1是本发明整体示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
如图1所示,一种嵌入外部词典信息的词向量改进方法,其中,包括以下步骤:
S1: 准备一个大型语料库和一个电子词典;
S2: 相似词词典:电子词典的每个词可能会附带有近义词和同义词,利用脚本将其抽取出来并记录;
S3: 相关词词典:在大型语料库中,使用统计方法寻找相关词对,按照两个相关词的联合概率远大于两个词的单独概率乘积的原则,将相关词对识别出来并记录;
S4: 针对语料库,统计出现的所有词及其词频,构建一个词汇表;
S5: 在语料库中设定一个滑动窗口,窗口大小为n,取窗口的中间词为中心词,将中心词和其他词构成正例pair;
S6: 在词汇表中依据词频确定被采样概率,采样出若干个词,和中心词一起构成负例pair;
S7: 如果S5的中心词出现在相似词词典中,则分别把中心词和相似词典记录的对应词构成pair,加入到正例pair中;
S8: 如果S5的中心词出现在相关词词典中,则分别把中心词和相关词典记录的对应词构成pair,加入到负例pair中;
S9: 搭建一个单层且无偏置参数的全连接神经网络,将正例pair和负例pair作为输入,利用sigmoid函数输出pair是正例或负例的概率;
S10: 利用均方差计算输出loss,使用梯度下降法使loss下降;
S11: 重复S5到S10,直到loss收敛;
S12: 全连接网络的权重矩阵即是所有词语的词向量构成的矩阵。
本发明创造希望得到更接近客观词义的词向量。本发明认为现有的词向量技术的缺陷是把共现的词误判为词义接近,同时某些词义接近的词没有被覆盖。通过分析导致现有技术缺点的原因,本发明考虑引入两个外部词典,一个是词义相关词词典,一个是词义相似词词典,在现有词向量技术的训练过程中融合这两个词典的信息,以得到更接近客观词义的词向量。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (1)
1.一种嵌入外部词典信息的词向量改进方法,其特征在于,包括以下步骤:
S1: 准备一个大型语料库和一个电子词典;
S2: 相似词词典:电子词典的每个词可能会附带有近义词和同义词,利用脚本将其抽取出来并记录;
S3: 相关词词典:在大型语料库中,使用统计方法寻找相关词对,按照两个相关词的联合概率远大于两个词的单独概率乘积的原则,将相关词对识别出来并记录;
S4: 针对语料库,统计出现的所有词及其词频,构建一个词汇表;
S5: 在语料库中设定一个滑动窗口,窗口大小为n,取窗口的中间词为中心词,将中心词和其他词构成正例pair;
S6: 在词汇表中依据词频确定被采样概率,采样出若干个词,和中心词一起构成负例pair;
S7: 如果S5的中心词出现在相似词词典中,则分别把中心词和相似词典记录的对应词构成pair,加入到正例pair中;
S8: 如果S5的中心词出现在相关词词典中,则分别把中心词和相关词典记录的对应词构成pair,加入到负例pair中;
S9: 搭建一个单层且无偏置参数的全连接神经网络,将正例pair和负例pair作为输入,利用sigmoid函数输出pair是正例或负例的概率;
S10: 利用均方差计算输出loss,使用梯度下降法使loss下降;
S11: 重复S5到S10,直到loss收敛;
S12: 全连接网络的权重矩阵即是所有词语的词向量构成的矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811087244.2A CN109271635B (zh) | 2018-09-18 | 2018-09-18 | 一种嵌入外部词典信息的词向量改进方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811087244.2A CN109271635B (zh) | 2018-09-18 | 2018-09-18 | 一种嵌入外部词典信息的词向量改进方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109271635A true CN109271635A (zh) | 2019-01-25 |
CN109271635B CN109271635B (zh) | 2023-02-07 |
Family
ID=65196958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811087244.2A Active CN109271635B (zh) | 2018-09-18 | 2018-09-18 | 一种嵌入外部词典信息的词向量改进方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109271635B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457466A (zh) * | 2019-06-28 | 2019-11-15 | 谭浩 | 生成访谈报告的方法、计算机可读存储介质和终端设备 |
CN110705274A (zh) * | 2019-09-06 | 2020-01-17 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350288A1 (en) * | 2015-05-29 | 2016-12-01 | Oracle International Corporation | Multilingual embeddings for natural language processing |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
CN107544960A (zh) * | 2017-08-29 | 2018-01-05 | 中国科学院自动化研究所 | 一种基于变量绑定和关系激活的推理方法 |
CN108228554A (zh) * | 2016-12-09 | 2018-06-29 | 富士通株式会社 | 基于语义表示模型来生成词向量的方法、装置和电子设备 |
-
2018
- 2018-09-18 CN CN201811087244.2A patent/CN109271635B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160350288A1 (en) * | 2015-05-29 | 2016-12-01 | Oracle International Corporation | Multilingual embeddings for natural language processing |
CN108228554A (zh) * | 2016-12-09 | 2018-06-29 | 富士通株式会社 | 基于语义表示模型来生成词向量的方法、装置和电子设备 |
CN107291693A (zh) * | 2017-06-15 | 2017-10-24 | 广州赫炎大数据科技有限公司 | 一种改进词向量模型的语义计算方法 |
CN107544960A (zh) * | 2017-08-29 | 2018-01-05 | 中国科学院自动化研究所 | 一种基于变量绑定和关系激活的推理方法 |
Non-Patent Citations (1)
Title |
---|
殷复莲 等: "基于词向量的电影评论情感分析方法", 《现代电影技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457466A (zh) * | 2019-06-28 | 2019-11-15 | 谭浩 | 生成访谈报告的方法、计算机可读存储介质和终端设备 |
CN110705274A (zh) * | 2019-09-06 | 2020-01-17 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
CN110705274B (zh) * | 2019-09-06 | 2023-03-24 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109271635B (zh) | 2023-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Locate and label: A two-stage identifier for nested named entity recognition | |
CN110032648B (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
Zhang et al. | Dependency sensitive convolutional neural networks for modeling sentences and documents | |
CN109460473B (zh) | 基于症状提取和特征表示的电子病历多标签分类方法 | |
CN111460820B (zh) | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN109543722A (zh) | 一种基于情感分析模型的情感趋势预测方法 | |
CN110427486B (zh) | 身体病况文本的分类方法、装置及设备 | |
CN108874790A (zh) | 一种基于语言模型和翻译模型的清洗平行语料方法及系统 | |
CN109086265A (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
Wan et al. | A self-attention based neural architecture for Chinese medical named entity recognition | |
Du et al. | Exploring human gender stereotypes with word association test | |
CN109582761A (zh) | 一种基于网络平台的词语相似度的中文智能问答系统方法 | |
CN112347771A (zh) | 一种实体关系的抽取方法和设备 | |
CN109271635A (zh) | 一种嵌入外部词典信息的词向量改进方法 | |
Deng et al. | Self-attention-based BiGRU and capsule network for named entity recognition | |
CN115188440A (zh) | 一种相似病历智能匹配方法 | |
CN108846033A (zh) | 特定领域词汇的发现及分类器训练方法和装置 | |
CN113160917B (zh) | 一种电子病历实体关系抽取方法 | |
CN111027322A (zh) | 基于情感词典的财经新闻中细粒度实体的情感分析方法 | |
US20220245518A1 (en) | Data transformation apparatus, pattern recognition system, data transformation method, and non-transitory computer readable medium | |
CN110807327A (zh) | 一种基于语境化胶囊网络的生物医学实体识别方法 | |
CN113656556B (zh) | 一种文本特征抽取方法及知识图谱构建方法 | |
Murali et al. | Automated NER, sentiment analysis and toxic comment classification for a goal-oriented chatbot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |