CN110427608B - 一种引入分层形声特征的中文词向量表示学习方法 - Google Patents

一种引入分层形声特征的中文词向量表示学习方法 Download PDF

Info

Publication number
CN110427608B
CN110427608B CN201910549589.3A CN201910549589A CN110427608B CN 110427608 B CN110427608 B CN 110427608B CN 201910549589 A CN201910549589 A CN 201910549589A CN 110427608 B CN110427608 B CN 110427608B
Authority
CN
China
Prior art keywords
word
chinese
words
chinese character
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910549589.3A
Other languages
English (en)
Other versions
CN110427608A (zh
Inventor
张寅�
毛晨炀
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910549589.3A priority Critical patent/CN110427608B/zh
Publication of CN110427608A publication Critical patent/CN110427608A/zh
Application granted granted Critical
Publication of CN110427608B publication Critical patent/CN110427608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于分层形声特征增强的中文词向量表示技术。采用分层形声特征增强的中文词向量表示方法,可以较大地提升中文词向量的效果。本发明包括如下步骤:1)首先运用爬虫工具抓取中文词语的相关形态和发音信息;2)通过对形态和发音信息的分层组合,构成形态特征和声音特征,构建词语的特征表示;3)通过注意力机制对输入部分的形声特征进行权重调节;4)采用解耦预测和混合预测联合的训练方式来训练词向量的表示。和现有技术相比,本发明结合了中文词语多层次的形态和发音信息,并采用解耦预测和混合预测联合的方式,系统地进行词向量的训练,形成独具一格的中文词向量表示技术,创造性地提升了中文词向量的效果。

Description

一种引入分层形声特征的中文词向量表示学习方法
技术领域
本发明涉及神经网络和深度学习方法在中文词向量上的应用,尤其涉及神经网络中选取中文词语特征信息、中文词向量训练的技术方法。
背景技术
词向量表示,又叫做词语的表示学习,是指将自然语言中的词语表示映射到向量空间中实数向量的过程,使得词语能够被计算机识别和使用。词向量表示是自然语言处理中非常重要的基础工作,词语作为文本数据中基础的语义单元,是短语、句子、段落和文档等更高级别文本表示的基石,因而许多自然语言处理的高层应用都依赖于词向量表示。词向量表示被应用在大量的自然语言处理任务中,并能够直接提升任务的最终效果,例如命名实体识别、语义检索、文本分类、机器翻译、标题生成、问答系统等。
发明内容
本发明的目的解决现有技术中存在的问题,并提供一种引入分层形声特征的中文词向量表示学习方法。
本发明具体采用的技术方案如下:
一种引入分层形声特征的中文词向量表示学习方法,其步骤如下:
1)获取中文词语形声特征的语料基础,所述的语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法、仓颉标识、Unicode、规范汉字编号;
2)对于给定的中文文本进行预处理,形成训练语料;然后针对训练语料构建模型输入,构建过程如下:
2.1)对训练语料从形态和发音两个维度,以及从词语、汉字和子字三个层级构建中文词语分层形声特征;在词级别上,用词语本身和词语拼音代表词语层级上的特征;在字级别上,用汉字的字形和汉字拼音代表汉字层级上的特征;在子字级别上,用汉字部件和汉字拼音的声母和韵母来代表子字层级上的特征;
2.2)抽取训练语料中的命名实体;若训练语料中的词语为命名实体,则将其分层形声特征中的汉字层级及子字层级上的特征去除,仅采用词语层级上的特征作为其分层形声特征;
2.3)通过注意力机制,计算词语与汉字、子词部分的相似度,从而改变单个汉字、子字特征对于整个词语的贡献;
2.4)模型的输入为中心词wt和上下文{wt-n,...wt-1,wt+1...,wt+n},对于中心词采用经过注意力机制后的词语层级、汉字层级和子字层级的特征作为输入,对于上下文仅采用经过注意力机制前的汉字层级和子字层级的特征作为输入;
3)采用解耦预测和混合预测结合的方式进行模型训练,得到中文词向量的表示。
基于上述技术方案,各步骤可采用如下具体方式实现。
优选的,所述的步骤1)中,所述中文词语形声特征的语料基础采用Scrapy的爬虫框架在汉语词典和新华字典上爬取获得。
优选的,所述的步骤2)中,所述的预处理包括剔除非中文信息、中文繁体转化为简体、分词以及去除停用词。
优选的,所述的步骤2.1)中,构建中文词语分层形声特征的具体方法为:
对于给定的中文文本,设滑动窗口大小为2n+1,n为调节参数,对句子sentence={w1,w2,...,wM}进行子采样,其中M为句子中的词语总数,得到单个训练样本为{wt-n,...wt,...wt+n},中心词为wt,上下文为{wt-n,...,wt-1,wt+1...,wt+n};
对于词语wi,其词语层级的特征为:
word_leveli=lookup(wi)+lookup(wpinyini)
式中:wpinyini表示词语wi的拼音;lookup(X)函数代表对在向量表中查询X特征对应的向量,查询得到的向量记作vX
词语wi的汉字序列长度为Ni,则其汉字层级的特征为:
Figure BDA0002105102990000021
式中:chari,j表示词语wi的汉字序列中第j个汉字,cpinyini,j表示词语wi的汉字序列中第j个汉字的汉字拼音;
词语wi的部件序列长度为Mci,则该词语子字层级的部件特征为:
Figure BDA0002105102990000031
式中:cmpi,j表示词语wi的部件序列中第j个部件;
词语wi的声母和韵母序列总长度为Mai,则该词语子字层级的声母和韵母特征为:
Figure BDA0002105102990000032
式中:alpi,j表示词语wi的部件序列中第j个声母或韵母。
优选的,所述的步骤2.2)中,所述命名实体包括人名、地名和机构名,命名实体通过HanLP抽取。
优选的,所述的步骤2.3)中,通过注意力机制,计算词语与汉字、子词部分的相似度,从而改变单个汉字、子字特征对于整个词语的贡献的具体方法为:
Figure BDA0002105102990000033
Figure BDA0002105102990000034
Figure BDA0002105102990000035
式中:a_char_leveli表示经过注意力机制后的汉字层级上的特征,a_subchar_cmpi表示经过注意力机制后的子字层级上的部件特征,a_subchar_alpi表示经过注意力机制后的子字层级上的声母和韵母特征;softmax(·)表示softmax函数;
优选的,所述的步骤3)的具体实现方式为:
3.1)在解耦预测部分中,将中心词和上下文的特征单独拆开,各部分特征单独预测上下文;
首先,对于中心词wt和上下文wj的第k个输入特征ht,j,k,预测的条件概率被定义为:
Figure BDA0002105102990000041
式中:V表示整个词语表;
然后,将所有输入特征的上下文的条件概率的对数似然求和,作为解耦预测部分的目标函数:
Ld(wj|wt)=∑klogp(wj|ht,j,k)
对于以wt为中心词的整个窗口样本的目标函数为:
Figure BDA0002105102990000042
3.2)在混合预测部分中,将汉字层级和子字层级的特征添加到词语上作为特征,来预测上下文词语;
对于所有输入特征ht,j,k求均值:
Figure BDA0002105102990000043
式中:N表示中心词wt和上下文wj的输入特征数量;
混合特征部分所预测的条件概率被定义为:
Figure BDA0002105102990000044
然后将该条件概率p(wj|at,j)的对数似然作为混合特征部分的目标函数:
Lm(wj|wt)=log p(wj|at,j)
对于以wt为中心词的整个窗口样本的目标函数为:
Figure BDA0002105102990000045
3.3)最终将解耦预测部分和混合预测部分的模型目标函数相加,作为模型的总目标函数:
Ltotal(wt)=Ld(wt)+Lm(wt)
3.4)基于该总目标函数对模型进行训练,得到中文词向量的表示。
作为优选,本发明通过步骤3)得到的词向量表示可以应用在不同的自然语言处理任务中,并能够直接提升任务的最终效果,可以应用的自然语言处理任务包括命名实体识别、语义检索、文本分类、机器翻译、标题生成、问答系统等。
和现有技术相比,本发明结合了中文词语多层次的形态和发音信息,并采用解耦预测和混合预测联合的方式,系统地进行词向量的训练,形成独具一格的中文词向量表示技术,创造性地提升了中文词向量的效果。
附图说明
图1为Skip-gram模型示意图。
图2是需要获取的中文词语的形声特征数据。
图3是发明构建的中文词语分层形声特征。
图4是中文文本语料预处理的方法。
图5是本发明整体的模型图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述和说明。
如图1所示,本发明主要基于Skip-gram模型,模型采用神经网络的方式,首先查询对应词语的词向量,并通过输入词语前向传播来预测一系列输出词语,反向传播调整词向量,使得输出词语在词表上的概率最大。模型训练完毕后,词表中的词向量即为训练形成的最终词向量。下面具体描述本发明的实现过程。
本发明中引入分层形声特征的中文词向量表示学习方法的步骤如下:
1)采用Scrapy的爬虫框架在汉语词典和新华字典上爬取中文词语形声特征的语料基础,其中语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法、仓颉标识、Unicode、规范汉字编号。
2)对于给定的中文文本进行预处理,形成训练语料。如图4所示,以中文维基百科语料为例,预处理包括剔除非中文信息、中文繁体转化为简体、分词以及去除停用词。
然后针对训练语料构建模型输入,构建过程如下:
2.1)对训练语料从形态和发音两个维度,以及从词语、汉字和子字三个层级构建中文词语分层形声特征,如图2所示。在词级别上,用词语本身和词语拼音代表词语层级上的特征;在字级别上,用汉字的字形和汉字拼音代表汉字层级上的特征;在子字级别上,用汉字部件和汉字拼音的声母和韵母来代表子字层级上的特征。本步骤中,如图3所示,构建中文词语分层形声特征的具体方法为:
对于给定的中文文本,设滑动窗口大小为2n+1,n为调节参数,对句子sentence={w1,w2,...,wM}进行子采样,其中M为句子中的词语总数,得到单个训练样本为{wt-n,...,wt,...,wt+n},中心词为wt,上下文为{wt-n,...,wt-1,wt+1...,wt+n};
对于词语wi,其词语层级的特征为:
word_leveli=lookup(wi)+lookup(wpinyini)
式中:wpinyini表示词语wi的拼音;lookup(X)函数代表对在向量表中查询X特征对应的向量,查询得到的向量记作vX
词语wi的汉字序列长度为Ni,则其汉字层级的特征为:
Figure BDA0002105102990000061
式中:chari,j表示词语wi的汉字序列中第j个汉字,cpinyini,j表示词语wi的汉字序列中第j个汉字的汉字拼音;
词语wi的部件序列长度为Mci,则该词语子字层级的部件特征为:
Figure BDA0002105102990000062
式中:cmpi,j表示词语wi的部件序列中第j个部件;
词语wi的声母和韵母序列总长度为Mai,则该词语子字层级的声母和韵母特征为:
Figure BDA0002105102990000063
式中:alpi,j表示词语wi的部件序列中第j个声母或韵母。
2.2)通过HanLP抽取训练语料中的命名实体,命名实体包括人名、地名和机构名。若训练语料中的词语为命名实体,则将该词语在2.1)步骤中得到的三级分层形声特征中的汉字层级及子字层级上的特征去除,仅采用词语层级上的特征作为其分层形声特征;若训练语料中的词语不是命名实体,则不作处理,仍然采用词语、汉字和子字三个层级的分层形声特征。
2.3)通过注意力机制,计算词语与汉字、子词部分的相似度,从而改变单个汉字、子字特征对于整个词语的贡献,具体计算方法为:
Figure BDA0002105102990000071
Figure BDA0002105102990000072
Figure BDA0002105102990000073
式中:a_char_leveli表示经过注意力机制后的汉字层级上的特征,a_subchar_cmpi表示经过注意力机制后的子字层级上的部件特征,a_subchar_alpi表示经过注意力机制后的子字层级上的声母和韵母特征;softmax(·)表示softmax函数。
2.4)模型的输入为中心词wt和上下文{wt-n,...,wt-1,wt+1...,wt+n},对于中心词采用经过注意力机制后的词语层级、汉字层级和子字层级的特征作为输入,对于上下文仅采用经过注意力机制前的汉字层级和子字层级的特征作为输入;
3)采用解耦预测和混合预测结合的方式进行模型训练,得到中文词向量的表示。本发明的整体模型如图5所示,其目标函数包括两个部分:分别通过解耦预测部分和混合预测部分两部分进行训练。解耦预测部分单独使用词语的分层形声特征去预测目标词语,混合预测部分将汉字层和子字层的形声特征补充到词语层上来预测目标词语。
本步骤的具体实现方式为:
3.1)在解耦预测部分中,将中心词和上下文的特征单独拆开,各部分特征单独预测上下文;
首先,对于中心词wt和上下文wj的第k个输入特征ht,j,k,预测的条件概率被定义为:
Figure BDA0002105102990000074
式中:V表示整个词语表;
然后,将所有输入特征的上下文的条件概率的对数似然求和,作为解耦预测部分的目标函数:
Ld(wj|wt)=Σklog p(wj|ht,j,k)
对于以wt为中心词的整个窗口样本的目标函数为:
Figure BDA0002105102990000081
3.2)在混合预测部分中,将汉字层级和子字层级的特征添加到词语上作为特征,来预测上下文词语;
对于所有输入特征ht,j,k求均值:
Figure BDA0002105102990000082
式中:N表示中心词wt和上下文wj的输入特征数量;
混合特征部分所预测的条件概率被定义为:
Figure BDA0002105102990000083
然后将该条件概率p(wj|at,j)的对数似然作为混合特征部分的目标函数:
Lm(wj|wt)=log p(wj|at,j)
对于以wt为中心词的整个窗口样本的目标函数为:
Figure BDA0002105102990000084
3.3)最终将解耦预测部分和混合预测部分的模型目标函数相加,作为模型的总目标函数:
Ltotal(wt)=Ld(wt)+Lm(wt)
3.4)基于该总目标函数对模型进行训练,得到中文词向量的表示。
本发明通过上述步骤得到的词向量表示可以应用在大量的自然语言处理任务中,并能够直接提升任务的最终效果,可以应用的自然语言处理任务包括命名实体识别、语义检索、文本分类、机器翻译、标题生成、问答系统等。
下面将上述方法应用至具体实施例中,具体的实施步骤如前所述,实施例中主要展示其效果。。
实施例
为了测试上述引入分层形声特征的中文词向量表示学习方法的实际效果,以下为实施例。本实施例中方法的具体步骤如前所述,不再赘述,下面主要展示上述方法的测试效果。
1)爬取中文词语的形声特征数据,以“财富”一词为例,如下:
词语 财富
词语拼音 cáifù
汉字 财,富
汉字拼音 cái,fù
声母和韵母 c,ái,f,d
部件 贝,才,宀,一,口,田
2)将中文维基百科作为词向量训练语料,在经过语料预处理后,得到的训练语料的样例如下:
数学 利用 符号语言 研究 数量 结构 变化 空间 概念 一门 学科 某种 角度看 形式 科学 一种 数学 透过 抽象化 逻辑推理 计数 基础 数学 知识 团体 生活 中不可或缺 一环 数学 基本概念 完善 早 古埃及 美索不达米亚 古印度 古代 数学 文本可观 古希腊 今日 数学 领域 中 包括 科学 工程 医学 经济学 金融学 数学 领域 称为 数学 激起 新 数学 发现 导致 全新 学科 发展 物理学 西方 语言 中 数学 词源自于 古希腊 语 其有 学习 学问 科学 狭义 技术性 数学 研究 语源 形容词 学习 用功 指 数学 英语 汉字 数学 一词 中国 宋元 时期 多指 象数 之学 含有 数学 意义秦九韶 数学 九章 永乐 大典 记 数书 九章 宋代 周密 所著语料形式为空格分隔的词语序列。
3)假定设置单边窗口大小调节参数n为l,则整个窗口大小为3,逐行采样,得到以3个词为一组的训练语料,例如“小明骑车上学”。
4)针对每一组训练语料,以“小明骑车上学”为例,则中心词为“骑车”,上下文为“小明上学”,得到2组训练样例(骑车,小明)、(骑车,上学)。
5)按照3)~4)步骤重复,得到整体训练语料,样例为(骑车,小明)。
6)对于训练样例(骑车,小明),按照分层形声特征构建中心词和上下文特征如下:
中心词:骑车
Figure BDA0002105102990000091
Figure BDA0002105102990000101
上下文:小明
汉字 小明
汉字拼音 xiǎo、míng
声母和韵母 x、iǎo、m、íng
部件 小、日、月
7)按照中心词和上下文特征作为模型的输入部分,预测目标上下文词“小明”,完成一次训练。
8)完成所有的训练语料即完成一次全样本训练。
9)完成训练后得到模型(MDWE+A)中的中文词向量。词向量在语义相似度任务结果如下表:
词向量模型在wordsim-240和wordsim-297上的斯皮尔曼相关系数(%)
Figure BDA0002105102990000102
词向量在类比推理任务结果如下表:
中文词向量模型在CA8数据集形态类比上类比推理任务的正确率(%)
Figure BDA0002105102990000111
中文词向量模型在CA8数据集语义类比上类比推理任务的正确率(%)
Figure BDA0002105102990000112
词向量在文本任务结果如下表:
中文词向量模型在THUCNews数据集1上文本分类任务的正确率(%)
Figure BDA0002105102990000113
中文词向量模型在THUCNews数据集2上文本分类任务的正确率(%)
Figure BDA0002105102990000121
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (4)

1.一种引入分层形声特征的中文词向量表示学习方法,其特征在于,步骤如下:
1)获取中文词语形声特征的语料基础,所述的语料基础包括汉字简体、汉字繁体、词语拼音、汉字拼音、部首、笔画、五笔输入法、仓颉标识、Unicode、规范汉字编号;
2)对于给定的中文文本进行预处理,形成训练语料;然后针对训练语料构建模型输入,构建过程如下:
2.1)对训练语料从形态和发音两个维度,以及从词语、汉字和子字三个层级构建中文词语分层形声特征;在词级别上,用词语本身和词语拼音代表词语层级上的特征;在字级别上,用汉字的字形和汉字拼音代表汉字层级上的特征;在子字级别上,用汉字部件和汉字拼音的声母和韵母来代表子字层级上的特征;
2.2)抽取训练语料中的命名实体;若训练语料中的词语为命名实体,则将其分层形声特征中的汉字层级及子字层级上的特征去除,仅采用词语层级上的特征作为其分层形声特征;
2.3)通过注意力机制,计算词语与汉字、子字部分的相似度,从而改变单个汉字、子字特征对于整个词语的贡献;
2.4)模型的输入为中心词wt和上下文{wt-n,...,wt-1,wt+1...,wt+n},对于中心词采用经过注意力机制后的词语层级、汉字层级和子字层级的特征作为输入,对于上下文仅采用经过注意力机制前的汉字层级和子字层级的特征作为输入;
3)采用解耦预测和混合预测结合的方式进行模型训练,得到中文词向量的表示;
所述的步骤2.1)中,构建中文词语分层形声特征的具体方法为:
对于给定的中文文本,设滑动窗口大小为2n+1,n为调节参数,对句子sentence={w1,w2,...,wM}进行子采样,其中M为句子中的词语总数,得到单个训练样本为{wt-n,...,wt,...,wt+n},中心词为wt,上下文为{wt-n,...,wt-1,wt+1...,wt+n};
对于词语wi,其词语层级的特征为:
word_leveli=lookup(wi)+lookup(wpinyini)
式中:wpinyini表示词语wi的拼音;lookup(X)函数代表对在向量表中查询X特征对应的向量,查询得到的向量记作vX
词语wi的汉字序列长度为Ni,则其汉字层级的特征为:
Figure FDA0002923284960000021
式中:chari,j表示词语wi的汉字序列中第j个汉字,cpinyini,j表示词语wi的汉字序列中第j个汉字的汉字拼音;
词语wi的部件序列长度为Mci,则该词语子字层级的部件特征为:
Figure FDA0002923284960000022
式中:cmpi,j表示词语wi的部件序列中第j个部件;
词语wi的声母和韵母序列总长度为Mai,则该词语子字层级的声母和韵母特征为:
Figure FDA0002923284960000023
式中:alpi,j表示词语wi的部件序列中第j个声母或韵母;
所述的步骤2.3)中,通过注意力机制,计算词语与汉字、子字部分的相似度,从而改变单个汉字、子字特征对于整个词语的贡献的具体方法为:
Figure FDA0002923284960000024
Figure FDA0002923284960000025
Figure FDA0002923284960000026
式中:a_char_leveli表示经过注意力机制后的汉字层级上的特征,a_subchar_cmpi表示经过注意力机制后的子字层级上的部件特征,a_subchar_alpi表示经过注意力机制后的子字层级上的声母和韵母特征;softmax(·)表示softmax函数;
所述的步骤3)的具体实现方式为:
3.1)在解耦预测部分中,将中心词和上下文的特征单独拆开,各部分特征单独预测上下文;
首先,对于中心词wt和上下文wj的第k个输入特征ht,j,k,预测的条件概率被定义为:
Figure FDA0002923284960000031
式中:V表示整个词语表;
然后,将所有输入特征的上下文的条件概率的对数似然求和,作为解耦预测部分的目标函数:
Ld(wj|wt)=∑klogp(wj|ht,j,k)
对于以wt为中心词的整个窗口样本的目标函数为:
Figure FDA0002923284960000032
3.2)在混合预测部分中,将汉字层级和子字层级的特征添加到词语上作为特征,来预测上下文词语;
对于所有输入特征ht,j,k求均值:
Figure FDA0002923284960000033
式中:N表示中心词wt和上下文wj的输入特征数量;
混合特征部分所预测的条件概率被定义为:
Figure FDA0002923284960000034
然后将该条件概率p(wj|at,j)的对数似然作为混合特征部分的目标函数:
Lm(wj|wt)=log p(wj|at,j)
对于以wt为中心词的整个窗口样本的目标函数为:
Figure FDA0002923284960000035
3.3)最终将解耦预测部分和混合预测部分的模型目标函数相加,作为模型的总目标函数:
Ltotal(wt)=Ld(wt)+Lm(wt)
3.4)基于该总目标函数对模型进行训练,得到中文词向量的表示。
2.如权利要求1所述的引入分层形声特征的中文词向量表示学习方法,其特征在于,所述的步骤1)中,所述中文词语形声特征的语料基础采用Scrapy的爬虫框架在汉语词典和新华字典上爬取获得。
3.如权利要求1所述的引入分层形声特征的中文词向量表示学习方法,其特征在于,所述的步骤2)中,所述的预处理包括剔除非中文信息、中文繁体转化为简体、分词以及去除停用词。
4.如权利要求1所述的引入分层形声特征的中文词向量表示学习方法,其特征在于,所述的步骤2.2)中,所述命名实体包括人名、地名和机构名,命名实体通过HanLP抽取。
CN201910549589.3A 2019-06-24 2019-06-24 一种引入分层形声特征的中文词向量表示学习方法 Active CN110427608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910549589.3A CN110427608B (zh) 2019-06-24 2019-06-24 一种引入分层形声特征的中文词向量表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910549589.3A CN110427608B (zh) 2019-06-24 2019-06-24 一种引入分层形声特征的中文词向量表示学习方法

Publications (2)

Publication Number Publication Date
CN110427608A CN110427608A (zh) 2019-11-08
CN110427608B true CN110427608B (zh) 2021-06-08

Family

ID=68409521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910549589.3A Active CN110427608B (zh) 2019-06-24 2019-06-24 一种引入分层形声特征的中文词向量表示学习方法

Country Status (1)

Country Link
CN (1) CN110427608B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160020B (zh) * 2019-11-26 2023-05-12 华东师范大学 一种具有多种子模块信息的中文词向量生成方法
CN111191463A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 情感分析方法、装置、电子设备及存储介质
CN111091001B (zh) * 2020-03-20 2020-06-23 支付宝(杭州)信息技术有限公司 一种词语的词向量的生成方法、装置及设备
CN111476036A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于中文单词特征子串的词嵌入学习方法
CN111669757B (zh) * 2020-06-15 2023-03-14 国家计算机网络与信息安全管理中心 一种基于通话文本词向量的终端诈骗电话识别方法
CN111859909B (zh) * 2020-07-10 2022-05-31 山西大学 一种语义场景一致性识别阅读机器人
CN113268974B (zh) * 2021-05-18 2022-11-29 平安科技(深圳)有限公司 多音字发音标注方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273355A (zh) * 2017-06-12 2017-10-20 大连理工大学 一种基于字词联合训练的中文词向量生成方法
CN108874765A (zh) * 2017-05-15 2018-11-23 阿里巴巴集团控股有限公司 词向量处理方法及装置
CN109446333A (zh) * 2019-01-16 2019-03-08 深兰人工智能芯片研究院(江苏)有限公司 一种实现中文文本分类的方法及相关设备
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
CN106227721B (zh) * 2016-08-08 2019-02-01 中国科学院自动化研究所 汉语韵律层级结构预测系统
WO2018151125A1 (ja) * 2017-02-15 2018-08-23 日本電信電話株式会社 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
CN107464559B (zh) * 2017-07-11 2020-12-15 中国科学院自动化研究所 基于汉语韵律结构和重音的联合预测模型构建方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874765A (zh) * 2017-05-15 2018-11-23 阿里巴巴集团控股有限公司 词向量处理方法及装置
CN107273355A (zh) * 2017-06-12 2017-10-20 大连理工大学 一种基于字词联合训练的中文词向量生成方法
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
CN109446333A (zh) * 2019-01-16 2019-03-08 深兰人工智能芯片研究院(江苏)有限公司 一种实现中文文本分类的方法及相关设备

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Chinese Language Processing Based on Stroke Representation and Multidimensional Representation;Hang Zhuang et al;《IEEE Access》;20180726;第6卷;41928-41941 *
Natural Language Processing (Almost) from Scratch;Ronan Collobert et al;《Journal of Machine Learning Research》;20111108;2493-2537 *
Syntactic Dependencies and Distributed Word Representations for Analogy Detection and Mining;Likun Qiu et al;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing》;20150930;2441–2450 *
Word-Context Character Embeddings for Chinese Word Segmentation;Hao Zhou et al;《Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing》;20170930;760–766 *
基于字词对齐的中文字词向量表示方法;徐健;《中国优秀硕士学位论文全文数据库信息科技辑》;20180115(第1期);I138-2133 *
基于汉字固有属性的中文字向量方法研究;胡浩 等;《中文信息学报》;20170531;第31卷(第3期);32-40 *
基于深度学习的中文词表示学习技术研究;庄航;《中国博士学位论文全文数据库信息科技辑》;20190115(第1期);正文第8、53、61-74页 *
基于深度学习的文本表示与分类方法研究;闫琰;《中国博士学位论文全文数据库信息科技辑》;20160915(第9期);I138-28 *

Also Published As

Publication number Publication date
CN110427608A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110427608B (zh) 一种引入分层形声特征的中文词向量表示学习方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN110134954B (zh) 一种基于Attention机制的命名实体识别方法
Nguyen et al. Vietnamese word segmentation with CRFs and SVMs: An investigation
Xing et al. A convolutional neural network for aspect-level sentiment classification
CN112541356A (zh) 一种生物医学命名实体识别的方法和系统
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
이동준 Morpheme-based efficient Korean word embedding
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Ali et al. SiNER: A large dataset for Sindhi named entity recognition
Chen et al. Recurrent neural network with attention mechanism for language model
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
Abujar et al. A Bengali text generation approach in context of abstractive text summarization using rnn
Hung Vietnamese diacritics restoration using deep learning approach
Yousif et al. Part of speech tagger for Arabic text based support vector machines: A review
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
Li et al. An improved Chinese named entity recognition method with TB-LSTM-CRF
Che et al. Fast and effective biomedical named entity recognition using temporal convolutional network with conditional random field
Dibitso et al. Part of speech tagging for Setswana African language
Wang et al. Predicting the Chinese poetry prosodic based on a developed BERT model
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
Ahnaf et al. An improved extrinsic monolingual plagiarism detection approach of the Bengali text.
Yeong et al. Hybrid machine translation with multi-source encoder-decoder long short-term memory in english-malay translation
Song et al. Biomedical named entity recognition based on recurrent neural networks with different extended methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant