CN108628834B - 一种基于句法依存关系的词语表示学习方法 - Google Patents

一种基于句法依存关系的词语表示学习方法 Download PDF

Info

Publication number
CN108628834B
CN108628834B CN201810453946.1A CN201810453946A CN108628834B CN 108628834 B CN108628834 B CN 108628834B CN 201810453946 A CN201810453946 A CN 201810453946A CN 108628834 B CN108628834 B CN 108628834B
Authority
CN
China
Prior art keywords
word
context
dependency
representing
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810453946.1A
Other languages
English (en)
Other versions
CN108628834A (zh
Inventor
王丽宏
贺敏
李晨
毛乾任
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201810453946.1A priority Critical patent/CN108628834B/zh
Publication of CN108628834A publication Critical patent/CN108628834A/zh
Application granted granted Critical
Publication of CN108628834B publication Critical patent/CN108628834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出的一种基于句法依存关系的词语表示学习方法,在对语料库进行训练时引入句法依存关系,能够去除语料中不同语言背景及语言现象等信息带来的对语境组成的影响,使得词语表示学习训练模型对输入语料库中存在的个人特征更加不敏感,有效提升了训练速度与效果。

Description

一种基于句法依存关系的词语表示学习方法
技术领域
本发明实施例涉及自然语言处理技术领域,具体涉及一种基于句法依存关系的词语表示学习方法。
背景技术
近年来,神经网络语言模型(NNLMs)因其相比传统的词汇表示更简洁的表示形式和综合性能,吸引了大量的关注,且神经网络语言模型开始被应用到诸如词的相似性/相关性的许多自然语言处理任务,比如词性标注和分块,命名实体识别等。
NNLMs的训练通常是基于给定语料库,将一组词向量嵌入到高维空间,然后应用到下游的任务。现有的语言学习方法训练所使用的语料库普遍来源于互联网上的海量文本数据,这些数据在训练前被处理为不带标点的连续文本。这样做虽然能够大幅降低语料的成本,但由于当今数据爆炸的互联网环境中,文本数据的来源广泛,作者更是文化、教育、生活背景差异巨大。将来源、作者等信息均存在差异的文本以统一的形式进行处理与分析必定会存在着较大的问题,文本规范性、书写习惯等问题使得训练时模型收敛较慢且训练所得产品使用效果稍差。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种基于句法依存关系的词语表示学习方法。
有鉴于此,第一方面,本发明实施例提供一种基于句法依存关系的词语表示学习方法,包括:
获取语料库;
将语料库输入到依存句法解析器,生成依存句法树;
根据依存句法树获取多阶依存语境;
将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练,得到语料库对应的包含依存关系的词向量。
根据依存句法树获取多阶依存语境,包括:
在依存句法树上进行搜索得到每个词对应的语境;
根据词的词频计算语境窗口长度;
对语境中的候选词进行打分;
根据语境窗口长度及语境中的候选词的分数确定语境的组成。
所述语境窗口长度的计算公式如下所示:
sizew=max(sizemax-log fw,sizemin)
其中,sizew表示语境窗口长度,sizemax及sizemin分别表示预设的最大窗口长度和最小窗口长度,fw为词w的词频。
根据如下所示公式对词进行打分:
Figure BDA0001659136020000021
其中,scorewi表示词w对应的语境中的词wi对应的分数,D(w)表示词w对应的语境候选词集合,n为D(w)中元素的个数,
Figure BDA0001659136020000022
表示词wj-1与词wj间的依存关系对应的权重,λj表示第j阶的惩罚权重,词wj-1与词wj表示词w与词wi之间的词。
根据语境窗口长度及词的分数确定语境的组成,包括:
根据词的分数对语境候选词集合中的词进行降序排序;
根据语境窗口长度选取语境候选词集合中的前sizew个词作为构成语境的元素,sizew为语境窗口长度。
将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练,包括:
将所述多阶依存语境输入预先构建的词语表示学习训练模型,确定梯度;
根据梯度进行参数更新,直至学习率小于阈值。
将所述多阶依存语境输入预先构建的词语表示学习训练模型,确定梯度,包括:
将所述多阶依存语境输入如下式所示的基于Hierarchical Softmax方法的连续词袋模型的损失函数,得到梯度:
Figure BDA0001659136020000031
式中,
Figure BDA0001659136020000032
表示基于Negative Sampling方法的Skip-Gram模型的损失值,p(w|contextDeps(w))表示在语境Deps(w)下词w出现的概率,
Figure BDA0001659136020000033
表示梯度,C表示词w所在语境,lw表示基于词构建的霍夫曼树中到达叶子节点词w的路径长度。
根据梯度进行参数更新,直至学习率小于阈值,包括:
按下式对霍夫曼树中非叶子结点的向量进行更新:
Figure BDA0001659136020000034
其中,
Figure BDA0001659136020000035
表示待更新的霍夫曼树中非叶子结点的向量,η表示第一学习率,
Figure BDA0001659136020000041
表示霍夫曼树中非叶子节点的值,xw表示词w的词向量,σ(·)表示激活函数;
按下式对词w对应的语境的词向量进行更新:
Figure BDA0001659136020000042
其中,
Figure BDA0001659136020000043
表示待更新的词w对应的语境的词向量,f(·)表示截断函数;
按下式对词之间的依存关系对应的权重进行更新:
Figure BDA0001659136020000044
其中,
Figure BDA0001659136020000045
表示词wk-1与词wk间的依存关系对应的权重,
Figure BDA0001659136020000046
表示词wi对应的分数,η′表示第二学习率;
按下式对词之间的依存关系对应的向量进行更新:
Figure BDA0001659136020000047
其中,
Figure BDA0001659136020000048
表示依存关系
Figure BDA0001659136020000049
对应的向量。
将所述多阶依存语境输入预先构建的词语表示学习训练模型,确定梯度,包括:
将所述多阶依存语境输入如下式所示的基于Negative Sampling方法的Skip-Gram模型的损失函数,得到梯度:
Figure BDA00016591360200000410
其中,
Figure BDA00016591360200000411
表示基于Negative Sampling方法的Skip-Gram模型的损失值,g(w)表示在负采样条件下取词w的联合概率,
Figure BDA0001659136020000051
表示词w对应负采样得到的负样本词集合,contextDeps(w)表示语境Deps(w),
Figure BDA0001659136020000052
表示梯度。
根据梯度进行参数更新,直至学习率小于阈值,包括:
按下式对判别神经元参数进行更新:
Figure BDA0001659136020000053
其中,θu表示待更新的判别神经元参数,η表示第一学习率,Lw(u)表示样本词u的来源,来源为目标词的语境或词库,
Figure BDA0001659136020000054
表示词w的词向量,σ(·)表示激活函数;
按下式对词w对应的语境的词向量进行更新:
Figure BDA0001659136020000055
其中,
Figure BDA0001659136020000056
表示待更新的词w对应的语境的词向量,f(·)表示截断函数,NEG(w)表示负采样得到的负样本词集合;
按下式对词之间的依存关系对应的权重进行更新:
Figure BDA0001659136020000057
其中,
Figure BDA0001659136020000058
表示词wk-1与词wk间的依存关系对应的权重,η′表示第二学习率,su表示依存变量,lw表示基于词构建的霍夫曼树中到达叶子节点词w的路径长度;
按下式对词之间的依存关系对应的向量进行更新:
Figure BDA0001659136020000059
其中,
Figure BDA0001659136020000061
表示依存关系
Figure BDA0001659136020000062
对应的向量。
第二发明,本发明实施例提供一种基于句法依存关系的词语表示学习系统,包括:
采集模块,用于获取语料库;
句法解析模块,用于将语料库输入到依存句法解析器,生成依存句法树;
语境生成模块,用于根据依存句法树获取多阶依存语境;
训练模块,用于将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练,得到语料库对应的包含依存关系的词向量。
第三方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面所述方法的步骤。
相比现有技术,本发明实施例提出的一种基于句法依存关系的词语表示学习方法,在对语料库进行训练时引入句法依存关系,能够去除语料中不同语言背景及语言现象等信息带来的对语境组成的影响,使得词语表示学习训练模型对输入语料库中存在的个人特征更加不敏感,有效提升了训练速度与效果。
本发明实施例提出的一种基于句法依存关系的词语表示学习方法,生成的包含依存关系的词向量可以应用在大量的下游句法分析任务中,且表现更好。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例提供的一种基于句法依存关系的词语表示学习方法的流程图;
图2为本发明一个实施例提供依存句法树结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中,不再使用传统的连续语境模型,而是采用句法依存关系作为语境取舍的判断条件,并将句法依存关系同样作为可学习且可被表示的对象。
特别的,本发明采用Word2vec工具作为实现的基础。在Word2vec工具中有两个递归神经网络模型,连续词袋模型(CBOW)和Skip-Gram(SG)模型。CBOW模型使用目标词的上下文中每个词来预测目标词,而SG模型使用每个目标词来预测其对应的上下文。这两种模型都需要进行词的表示和查询。为了加快索引和查询的过程,Word2vec工具采用了两种方法:Hierarchical Softmax(HS)和Negative Sampling(NS)。HS模型是首次由mnih和Hinton提出的,它通过构造分层树来索引所有在语料库的单词,每个单词作为树的一个叶子节点,而NS脱胎于NCE思想,基于噪声对比估计,随机采样不在语境中的词,以此区分观测数据和人工随机噪声。
经验表明,HS模型对出现次数较少的词效果较佳,而SG模型对出现频繁的词相关较佳。为了实现本发明提出的基于依存关系的词语表示学习方法,本发明分别使用CBOW模型与SG模型与HS方法与SG方法进行对应结合,提出两套完整的词语表示学习训练模型。
此外,现有相关NNLMs模型均没有对句法依存关系的使用做出明确的定义,只是直观地通过依存关系阶数来为关系所起作用进行量化判断,缺乏足够的解释性与实验证明。本发明创新地将句法依存关系的表示及权重引入到模型的设计中,并使用模型传递的误差/损失来不断更新句法依存关系的表示及权重。
本发明提出了两套能适应海量多源且结构复杂各异的文本的Word2vec训练模型。能够做到对语境组成方法对语义表达形式的不敏感。
参考图1,图1是本发明一个实施例的一种基于句法依存关系的词语表示学习方法流程图,包括:
获取语料库;
将语料库输入到依存句法解析器,生成依存句法树;
根据依存句法树获取多阶依存语境;
将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练,得到语料库对应的包含依存关系的词向量。
所述语料库的构建包括:
采取通用爬虫框架爬取了互联网上相同时期的文本数据,为了保证数据的文本质量,爬取的对象为知名度较高的新闻、百科类网站;
根据预设的条件多爬取到的文本数据进行清洗,去除了依存句法解析准确率较低的异常句子(过长/过短),保证了后续提供给训练模型的输入数据质量。
将语料库输入到依存句法解析器,将不同表达方式、不同语言现象的语句构造为相同的依存句法树结构,可以解决除语义漂移外的大部分语言差异现象,参考图2,图2为语句“The rest of its petroleum exports go to distant Europe and Latin Amer-icafor further processing”的依存句法树。
所述依存句法解析器为stanford nlp中的dependency parser,所述依存句法解析器摒弃了大量稀疏的难解释的特征,仅使用浅层的网络模型,集中参数学习并分析了相对少量的密集特征。
根据依存句法树获取多阶依存语境,包括:
在依存句法树上进行搜索得到每个词对应的语境;
根据词的词频计算语境窗口长度;
对语境中的候选词进行打分;
根据语境窗口长度及语境中的候选词的分数确定语境的组成。
所述语境窗口长度的计算公式如下所示:
sizew=max(sizemax-log fw,sizemin)
其中,sizew表示语境窗口长度,sizemax及sizemin分别表示预设的最大窗口长度和最小窗口长度,fw为词w的词频。
为了选取最有价值的信息以及为训练时不同的词提供其对应的权重,本发明根据不同的依存关系及词语与目标词之间的阶数作为打分的标准,通过词之间不同的依存关系权重及距离来共同决定每个词的分数,根据如下所示公式对词进行打分:
Figure BDA0001659136020000101
其中,scorewi表示词w对应的语境中的词wi对应的分数,D(w)表示词w对应的语境候选词集合,n为D(w)中元素的个数,
Figure BDA0001659136020000102
表示词wj-1与词wj间的依存关系对应的权重,λj表示第j阶的惩罚权重,词wj-1与词wj表示词w与词wi之间的词。
根据语境窗口长度及词的分数确定语境的组成,包括:
根据词的分数对候选词集合D(w)中的词进行降序排序;
根据语境窗口长度选取语境候选词集合D(w)中的前sizew个词作为构成语境的元素,sizew为语境窗口长度。
将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练,包括:
将所述多阶依存语境输入预先构建的词语表示学习训练模型,确定梯度;
根据梯度进行参数更新,直至学习率小于阈值。
将所述多阶依存语境输入预先构建的词语表示学习训练模型,确定梯度,包括:
传统基于Hierarchical Softmax方法的连续词袋模型(CBOW&HS)将目标词为中心的2n个词的和作为语境输入模型,并以最大化对数似然函数作为目标函数。其实现方法可视为将霍夫曼树中从根节点到目标词叶子节点的路径视为该词出现的概率,那么损失函数可改写成如下公式所示:
Figure BDA0001659136020000111
式中,
Figure BDA0001659136020000112
表示基于Hierarchical Softmax方法的连续词袋模型CBOW的损失值,p(w|contextDeps(w))表示在语境Deps(w)下词w出现的概率,
Figure BDA0001659136020000118
表示梯度,C表示词w所在语境,lw表示基于词构建的霍夫曼树中到达叶子节点词w的路径长度。
通过上述公式得到梯度,根据梯度进行参数更新,直至学习率小于阈值,包括:
按下式对霍夫曼树中非叶子结点的向量进行更新:
Figure BDA0001659136020000113
其中,
Figure BDA0001659136020000114
表示待更新的霍夫曼树中非叶子结点的向量,η表示第一学习率,
Figure BDA0001659136020000115
表示霍夫曼树中非叶子节点的值,xw表示词w的词向量,σ(·)表示激活函数;
按下式对词w对应的语境的词向量进行更新:
Figure BDA0001659136020000116
其中,
Figure BDA0001659136020000117
表示待更新的词w对应的语境的词向量,f(·)表示截断函数;
基于依存句法的CBOW&HS模型将依存关系拼接到每个单词的词尾一同输入到CBOW&HS模型,因此CBOW&HS模型同时更新了模型的如下参数:
按下式对词之间的依存关系对应的权重进行更新:
Figure BDA0001659136020000121
其中,
Figure BDA0001659136020000122
表示词wk-1与词wk间的依存关系对应的权重,
Figure BDA0001659136020000123
表示词wi对应的分数,η′表示第二学习率;
按下式对词之间的依存关系对应的向量进行更新:
Figure BDA0001659136020000124
其中,
Figure BDA0001659136020000125
表示依存关系
Figure BDA0001659136020000126
对应的向量。
将所述多阶依存语境输入预先构建的词语表示学习训练模型,确定梯度,包括:
基于Negative Sampling方法的Skip-Gram模型通过选取目标词的语境词为正例,使用简化的NCE算法随机提取若干词库中的词为负例来实现对词w的出现概率的一种简化估计。
将所述多阶依存语境输入如下式所示的基于Negative Sampling方法的Skip-Gram模型的损失函数,得到梯度:
Figure BDA0001659136020000127
其中,
Figure BDA0001659136020000128
表示基于Negative Sampling方法的Skip-Gram模型的损失值,g(w)表示在负采样条件下取词w的联合概率,
Figure BDA0001659136020000129
表示词w对应负采样得到的负样本词集合,contextDeps(w)表示语境Deps(w),
Figure BDA0001659136020000131
表示梯度。
根据梯度进行参数更新,直至学习率小于阈值,包括:
按下式对判别神经元参数进行更新:
Figure BDA0001659136020000132
其中,θu表示待更新的判别神经元参数,η表示第一学习率,Lw(u)表示样本词u的来源,来源为目标词的语境或词库,
Figure BDA0001659136020000133
表示词w的词向量,σ(·)表示激活函数;
按下式对词w对应的语境的词向量进行更新:
Figure BDA0001659136020000134
其中,
Figure BDA0001659136020000135
表示待更新的词w对应的语境的词向量,f(·)表示截断函数,NEG(w)表示负采样得到的负样本词集合;
按下式对词之间的依存关系对应的权重进行更新:
Figure BDA0001659136020000136
其中,
Figure BDA0001659136020000137
表示词wk-1与词wk间的依存关系对应的权重,η′表示第二学习率,su表示依存变量,lw表示基于词构建的霍夫曼树中到达叶子节点词w的路径长度;
按下式对词之间的依存关系对应的向量进行更新:
Figure BDA0001659136020000138
其中,
Figure BDA0001659136020000141
表示依存关系
Figure BDA0001659136020000142
对应的向量。
为了实现本发明提供的基于句法依存关系的词语表示学习方法,需要部署和配置C运行环境。
基于相同的发明构思,本发明实施例还提供一种基于句法依存关系的词语表示学习系统示意图,可以包括:
采集模块,用于获取语料库;
句法解析模块,用于将语料库输入到依存句法解析器,生成依存句法树;
语境生成模块,用于根据依存句法树获取多阶依存语境;
训练模块,用于将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练,得到语料库对应的包含依存关系的词向量。
本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行各方法实施例所提供的方法,例如包括:
获取语料库;
将语料库输入到依存句法解析器,生成依存句法树;
根据依存句法树获取多阶依存语境;
将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练,得到语料库对应的包含依存关系的词向量。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、数字信号处理器(DigitalSignalProcessing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(ProgrammableLogicDevice,PLD)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明各个实施例所述的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法或者实施例的某些部分所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的发明范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的发明保护范围内。

Claims (9)

1.一种基于句法依存关系的词语表示学习方法,其特征在于,包括:
获取语料库;
将语料库输入到依存句法解析器,生成依存句法树;
根据依存句法树获取多阶依存语境;
将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练,得到语料库对应的包含依存关系的词向量;
根据依存句法树获取多阶依存语境,包括:
在依存句法树上进行搜索得到每个词对应的语境;
根据词的词频计算语境窗口长度;
对语境中的候选词进行打分;
根据语境窗口长度及语境中的候选词的分数确定语境的组成。
2.根据权利要求1所述的词语表示学习方法,其特征在于,所述语境窗口长度的计算公式如下所示:
sizew=max(sizemax-logfw,sizemin)
其中,sizew表示语境窗口长度,sizemax及sizemin分别表示预设的最大窗口长度和最小窗口长度,fw为词w的词频。
3.根据权利要求1所述的词语表示学习方法,其特征在于,根据如下所示公式对词进行打分:
Figure FDA0003363762930000011
其中,scorewi表示词w对应的语境中的词wi对应的分数,D(w)表示词w对应的语境候选词集合,n为D(w)中元素的个数,
Figure FDA0003363762930000012
表示词wj-1与词wj间的依存关系对应的权重,λj表示第j阶的惩罚权重,词wj-1与词wj表示词w与词wi之间的词。
4.根据权利要求1所述的词语表示学习方法,其特征在于,根据语境窗口长度及词的分数确定语境的组成,包括:
根据词的分数对语境候选词集合中的词进行降序排序;
根据语境窗口长度选取语境候选词集合中的前sizew个词作为构成语境的元素,sizew为语境窗口长度。
5.根据权利要求1所述的词语表示学习方法,其特征在于,将所述多阶依存语境输入预先构建的词语表示学习训练模型进行学习训练,包括:
将所述多阶依存语境输入预先构建的词语表示学习训练模型,确定梯度;
根据梯度进行参数更新,直至学习率小于阈值。
6.根据权利要求5所述的词语表示学习方法,其特征在于,将所述多阶依存语境输入预先构建的词语表示学习训练模型,确定梯度,包括:
将所述多阶依存语境输入如下式所示的基于Hierarchical Softmax方法的连续词袋模型的损失函数,得到梯度:
Figure FDA0003363762930000021
式中,
Figure FDA0003363762930000022
表示基于Hierarchical Softmax方法的Skip-Gram模型的损失值,p(w|contextDeps(w))表示在语境Deps(w)下词w出现的概率,
Figure FDA0003363762930000023
表示梯度,C表示词w所在语境,lw表示基于词构建的霍夫曼树中到达叶子节点词w的路径长度。
7.根据权利要求6所述的词语表示学习方法,其特征在于,根据梯度进行参数更新,直至学习率小于阈值,包括:
按下式对霍夫曼树中非叶子结点的向量进行更新:
Figure FDA0003363762930000031
其中,
Figure FDA0003363762930000032
表示待更新的霍夫曼树中非叶子结点的向量,η表示第一学习率,
Figure FDA0003363762930000033
表示霍夫曼树中非叶子节点的值,xw表示词w的词向量,σ(·)表示激活函数;
按下式对词w对应的语境的词向量进行更新:
Figure FDA00033637629300000311
其中,
Figure FDA0003363762930000034
表示待更新的词w对应的语境的词向量,f(·)表示截断函数;
按下式对词之间的依存关系对应的权重进行更新:
Figure FDA0003363762930000035
其中,
Figure FDA0003363762930000036
表示词wk-1与词wk间的依存关系对应的权重,
Figure FDA0003363762930000037
表示词wi对应的分数,η′表示第二学习率;
按下式对词之间的依存关系对应的向量进行更新:
Figure FDA0003363762930000038
其中,
Figure FDA0003363762930000039
表示依存关系
Figure FDA00033637629300000310
对应的向量。
8.根据权利要求5所述的词语表示学习方法,其特征在于,将所述多阶依存语境输入预先构建的词语表示学习训练模型,确定梯度,包括:
将所述多阶依存语境输入如下式所示的基于Negative Sampling方法的Skip-Gram模型的损失函数,得到梯度:
Figure FDA0003363762930000041
其中,
Figure FDA0003363762930000042
表示基于Negative Sampling方法的Skip-Gram模型的损失值,g(w)表示在负采样条件下取词w的联合概率,
Figure FDA0003363762930000043
表示词w对应负采样得到的负样本词集合,contextDeps(w)表示语境Deps(w),
Figure FDA0003363762930000044
表示梯度。
9.根据权利要求8所述的词语表示学习方法,其特征在于,根据梯度进行参数更新,直至学习率小于阈值,包括:
按下式对判别神经元参数进行更新:
Figure FDA0003363762930000045
其中,θu表示待更新的判别神经元参数,η表示第一学习率,Lw(u)表示样本词u的来源,来源为目标词的语境或词库,
Figure FDA00033637629300000410
表示词w的词向量,σ(·)表示激活函数;
按下式对词w对应的语境的词向量进行更新:
Figure FDA0003363762930000046
其中,
Figure FDA0003363762930000047
表示待更新的词w对应的语境的词向量,f(·)表示截断函数,NEG(w)表示负采样得到的负样本词集合;
按下式对词之间的依存关系对应的权重进行更新:
Figure FDA0003363762930000048
其中,
Figure FDA0003363762930000049
表示词wk-1与词wk间的依存关系对应的权重,η′表示第二学习率,su表示依存变量,lw表示基于词构建的霍夫曼树中到达叶子节点词w的路径长度;
按下式对词之间的依存关系对应的向量进行更新:
Figure FDA0003363762930000051
其中,
Figure FDA0003363762930000052
表示依存关系
Figure FDA0003363762930000053
对应的向量。
CN201810453946.1A 2018-05-14 2018-05-14 一种基于句法依存关系的词语表示学习方法 Active CN108628834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810453946.1A CN108628834B (zh) 2018-05-14 2018-05-14 一种基于句法依存关系的词语表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810453946.1A CN108628834B (zh) 2018-05-14 2018-05-14 一种基于句法依存关系的词语表示学习方法

Publications (2)

Publication Number Publication Date
CN108628834A CN108628834A (zh) 2018-10-09
CN108628834B true CN108628834B (zh) 2022-04-15

Family

ID=63692954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810453946.1A Active CN108628834B (zh) 2018-05-14 2018-05-14 一种基于句法依存关系的词语表示学习方法

Country Status (1)

Country Link
CN (1) CN108628834B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639452A (zh) * 2018-10-31 2019-04-16 深圳大学 社交关系模型训练方法、装置、服务器及存储介质
CN111160003B (zh) * 2018-11-07 2023-12-08 北京猎户星空科技有限公司 一种断句方法及装置
CN110008332B (zh) * 2019-02-13 2020-11-10 创新先进技术有限公司 通过强化学习提取主干词的方法及装置
CN110245349B (zh) * 2019-05-21 2023-02-07 武汉数博科技有限责任公司 一种句法依存分析方法、装置及一种电子设备
CN110209818B (zh) * 2019-06-04 2021-08-10 南京邮电大学 一种面向语义敏感词句的分析方法
CN111274790B (zh) * 2020-02-13 2023-05-16 东南大学 基于句法依存图的篇章级事件嵌入方法及装置
CN111783461A (zh) * 2020-06-16 2020-10-16 北京工业大学 一种基于句法依存关系的命名实体识别方法
CN112417170B (zh) * 2020-11-23 2023-11-14 南京大学 面向不完备知识图谱的关系链接方法
CN114722802B (zh) * 2022-04-07 2024-01-30 平安科技(深圳)有限公司 词向量的生成方法、装置、计算机设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置
CN106339366A (zh) * 2016-08-08 2017-01-18 北京百度网讯科技有限公司 基于人工智能的需求识别的方法和装置
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
CN107153642A (zh) * 2017-05-16 2017-09-12 华北电力大学 一种基于神经网络识别文本评论情感倾向的分析方法
CN107180023A (zh) * 2016-03-11 2017-09-19 科大讯飞股份有限公司 一种文本分类方法及系统
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和系统
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107491444A (zh) * 2017-08-18 2017-12-19 南京大学 基于双语词嵌入技术的并行化词对齐方法
CN107515856A (zh) * 2017-08-30 2017-12-26 哈尔滨工业大学 一种基于局部信息表示的细粒度情感元素抽取方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN107818164A (zh) * 2017-11-02 2018-03-20 东北师范大学 一种智能问答方法及其系统
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法
CN108009149A (zh) * 2017-11-23 2018-05-08 东软集团股份有限公司 一种关键词提取方法、提取装置、介质和电子设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN107180023A (zh) * 2016-03-11 2017-09-19 科大讯飞股份有限公司 一种文本分类方法及系统
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置
CN106339366A (zh) * 2016-08-08 2017-01-18 北京百度网讯科技有限公司 基于人工智能的需求识别的方法和装置
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和系统
CN107153642A (zh) * 2017-05-16 2017-09-12 华北电力大学 一种基于神经网络识别文本评论情感倾向的分析方法
CN107239444A (zh) * 2017-05-26 2017-10-10 华中科技大学 一种融合词性与位置信息的词向量训练方法及系统
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107491444A (zh) * 2017-08-18 2017-12-19 南京大学 基于双语词嵌入技术的并行化词对齐方法
CN107515856A (zh) * 2017-08-30 2017-12-26 哈尔滨工业大学 一种基于局部信息表示的细粒度情感元素抽取方法
CN107578106A (zh) * 2017-09-18 2018-01-12 中国科学技术大学 一种融合单词语义知识的神经网络自然语言推理方法
CN107818164A (zh) * 2017-11-02 2018-03-20 东北师范大学 一种智能问答方法及其系统
CN108009149A (zh) * 2017-11-23 2018-05-08 东软集团股份有限公司 一种关键词提取方法、提取装置、介质和电子设备
CN108009285A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 基于自然语言处理的林业生态环境人机交互方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
A novel negative sampling based on TFIDF for learningword representation;Qin P 等;《Neuro computing》;20161231;第1-9页 *
Joint Event Extraction via Recurrent Neural Networks;Nguyen T H 等;《Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies》;20161231;第1-10页 *
Three Convolutional Neural Network-based models for learning Sentiment Word Vectors towards sentiment analysis;Man L 等;《2016 International Joint Conference on Neural Networks (IJCNN)》;20161231;第1-8页 *
Word2Vec概述与基于Hierarchical Softmax的CBOW和Skip-gram模型公式推导;六月麦茬;《CSDN》;20160921;第1-9页 *
基于有意义串聚类的微博热点话题发现方法;贺敏 等;《通信学报》;20130831;第34卷(第Z1期);第1-7页 *
基于深度学习框架的实体关系抽取研究进展;李枫林 等;《情报科学》;20180331;第36卷(第3期);第1-8页 *
基于用户行为特征的微博转发预测研究;刘玮 等;《计算机学报》;20161031;第39卷(第10期);第1-15页 *
探秘Word2Vec(五)-Skip-gram模型;文哥的学习笔记;《简书》;20170728;第1-7页 *

Also Published As

Publication number Publication date
CN108628834A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN108628834B (zh) 一种基于句法依存关系的词语表示学习方法
US11227121B2 (en) Utilizing machine learning models to identify insights in a document
US11657231B2 (en) Capturing rich response relationships with small-data neural networks
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
US10606946B2 (en) Learning word embedding using morphological knowledge
US10496749B2 (en) Unified semantics-focused language processing and zero base knowledge building system
US9361587B2 (en) Authoring system for bayesian networks automatically extracted from text
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111274358A (zh) 文本处理方法、装置、电子设备及存储介质
CN111539209B (zh) 用于实体分类的方法和装置
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN112395385A (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
EP3876137A1 (en) System for identifying named entities with dynamic parameters
Wint et al. Deep learning based sentiment classification in social network services datasets
Manalu et al. Deep learning performance in sentiment analysis
CN112287077A (zh) 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备
US10296585B2 (en) Assisted free form decision definition using rules vocabulary
CN110647914A (zh) 智能服务水平训练方法、装置及计算机可读存储介质
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant