CN109492214B - 属性词识别及其层次构建方法、装置、设备及存储介质 - Google Patents

属性词识别及其层次构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109492214B
CN109492214B CN201710813362.6A CN201710813362A CN109492214B CN 109492214 B CN109492214 B CN 109492214B CN 201710813362 A CN201710813362 A CN 201710813362A CN 109492214 B CN109492214 B CN 109492214B
Authority
CN
China
Prior art keywords
word
words
attribute
seed
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710813362.6A
Other languages
English (en)
Other versions
CN109492214A (zh
Inventor
李正华
陈志鹏
陈文亮
袁坤
刘婷婷
黄婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Suzhou University
Original Assignee
Tencent Technology Shenzhen Co Ltd
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Suzhou University filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710813362.6A priority Critical patent/CN109492214B/zh
Publication of CN109492214A publication Critical patent/CN109492214A/zh
Application granted granted Critical
Publication of CN109492214B publication Critical patent/CN109492214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种属性词识别方法及装置,包括:获取评论语料的名词词表;获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;根据各词的所述预测上位词向量确定种子词的属性词。该方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。本发明还提供一种与上述属性词识别方法及装置对应的属性词的层次构建方法及装置,以及一种计算机设备及计算机存储介质。

Description

属性词识别及其层次构建方法、装置、设备及存储介质
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种属性词识别及其层次构建方法、装置、设备及存储介质。
背景技术
属性词是指在评论文本中描述实体的词。属性词对于评论文本的概要显示具有十分重要的意义。目前,评论文本概要显示的主流做法为生成“属性词+情感词”的平行标签,根据属性词和情感词在评论中出现的次数,选取高频的进行显示,以帮助用户快速了解评论中的概要信息,用户无需逐一阅读文本,便能够快速地选择相关的属性词进行查看。
主流方法中,属性词识别依赖人工,利用大量的人力资源进行筛选,并进行维护,如果出现新的词或者新的领域,则需要继续依靠人工识别属性词,从而构造属性词表。现实中存在诸多领域,如旅游、电商等,领域中又分为诸多类别,如电商领域,又可分为“电器”、“服饰”等类别。每个类别的属性词表都不一样,需要分别构造属性词表,若都依赖人工,将消耗大量的人力资源。
发明内容
基于此,有必要针对人力资源消耗量大的问题,提供一种降低人力资源消耗量的属性词识别及其层次构建方法、装置、设备及存储介质。
一种属性词识别方法,包括:
获取评论语料的名词词表;
获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
根据各词的所述预测上位词向量确定种子词的属性词。
一种属性词识别装置,包括:
词表获取模块,用于获取评论语料的名词词表;
矩阵获取模块,用于获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
上位向量确定模块,用于根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
属性词确定模块,用于根据各词的所述预测上位词向量确定种子词的属性词。
上述属性词识别方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。
一种属性词的层次构建方法,包括:
获取评论语料的名词词表;
获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
对所述名词词表中的词构造上下位词对,形成二层属性词结构;
根据所述上下位关系矩阵及所述上下位词对中的各词,确定所述上下位词对中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
根据各所述预测上位词向量确定所述上下位词对对应的种子词,形成三层属性词结构。
一种属性词的层次构建装置,包括:
词表获取模块,用于获取评论语料的名词词表;
矩阵获取模块,用于获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
词对构造模块,用于对所述名词词表中的词构造上下位词对,形成二层属性词结构;
上位向量确定模块,用于根据所述上下位关系矩阵及所述上下位词对中的各词,确定所述上下位词对中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
层次结构形成模块,用于根据各所述预测上位词向量确定所述上下位词对对应的种子词,形成三层属性词结构。
由于上述属性词的层次构建方法及装置,仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以构建与种子词相关的属性词的层次结构,从而降低了人力资源消耗量。同时,由于层次结构中种子词对应的上下位词对中的上位词及下位词即为与该种子词相关的属性词,因此,该属性词的层次构建方法及装置,也可以降低属性词识别的人力资源消耗。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:上述的属性词识别方法的步骤,和/或上述的属性词的层次构建方法的步骤。
一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现:上述的属性词识别方法的步骤,和/或上述的属性词的层次构建方法的步骤。
附图说明
图1为一实施方式的属性词识别方法或属性词的层次构建方法的执行设备的结构图示意;
图2为一实施方式的属性词识别方法的流程图;
图3为一具体实施例的属性词识别方法的原理图;
图4为图2的属性词识别方法的一个步骤的具体流程图;
图5为一实施方式的属性词识别方法中获取上下位关系矩阵的原理图;
图6为图2的属性词识别方法的另一个步骤的具体流程图;
图7为一实施方式的属性词的层次构建方法的流程图;
图8为某电商网站评论文本概要显示标签的示例图;
图9为某旅游领域网站评论文本概要显示标签的示例图;
图10为一具体实施例的属性词的层次构建方法构建的三层属性词结构;
图11为另一实施方式的属性词的层次构建方法的流程图;
图12为训练混合模型时测试集正确率变化趋势图;
图13为一实施方式的属性词识别装置的结构图;
图14为另一实施方式的属性词识别装置的结构图;
图15为图13或图14的属性词识别装置的一个模块的单元结构图;
图16为图13或图14的属性词识别装置的另一个模块的单元结构图;
图17为一实施方式的属性词的层次构建装置的结构图;
图18为图17的属性词的层次构建装置的一个模块的单元结构图;
图19为另一实施方式的属性词的层次构建装置的结构图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1示出了一个实施例中属性词识别方法或属性词的层次构建方法的执行设备的内部结构图。执行设备可以为计算机设备、移动终端等。该执行设备包括该通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该执行设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现语音活动检测模型建立方法、语音活动检测方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行语音活动检测模型建立方法、语音活动检测方法。执行设备的显示屏可以是液晶显示屏或者电子墨水显示屏,执行设备的输入装置可以是显示屏上覆盖的触摸层,也可以是执行设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的执行设备的限定,具体的执行设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
请参阅图2,在一实施方式中,提供一种属性词识别方法,该方法可运行于如图1所示的执行设备上,包括以下步骤:
S110:获取评论语料的名词词表。
名词词表可以预先存储在预设存储位置,直接获取该名词词表即可。名词词表是对评论语料进行分词,并进行词性标注之后获取词性为名词的词构成的表。进一步地,还可以对词性为名词的词进行过滤,过滤掉低频词,从而构成名词词表。评论语料可以为应用于各领域的评论文本,如可以为旅游领域的评论文本。
S120:获取上下位关系矩阵,上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵。即,上下位关系矩阵为反映种子词与其下位词之间上下位关系的矩阵。
种子词需要人工设定,一般选择评论语料所在领域中具有概括性的词,例如,旅游领域挖掘风景方面的属性词时可以设定种子词为“风景”。
在本实施例中,属性词看作种子词的下位词,可利用上下位关系矩阵进行选取。在其它实施例中,属性词可以为种子词的上位词或/及下位词。因此,需要预先获取到上下位关系矩阵。该上下位关系矩阵可以预先存储在预设存储位置,直接获取该上下位关系矩阵即可。
S130:根据上下位关系矩阵及名词词表中的各词,确定名词词表中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积。
可以根据上下位关系矩阵及名词词表中各词的词向量,确定名词词表中各词的预测上位词向量,即上下位关系矩阵与词向量的乘积。词向量是指,将一个自然语言的词表示成机器能够识别的二进制向量。对于名词词表中的每个词,都计算得到其预测上位词向量。
S140:根据各词的预测上位词向量确定种子词的属性词。
可以根据预测上位词向量和种子词的词向量之间的关系筛选出种子词相关的属性词。筛选的条件可以包括:(1)与最近的种子词的距离不大于第一预设阈值的词;(2)与非最近的种子词的距离方差大于第二预设阈值的词;如,可以为与所有种子词的距离方差大于第二预设阈值的词。
上述属性词识别方法,获取评论语料的名词词表;获取上下位关系矩阵,上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据上下位关系矩阵及名词词表中的各词,确定名词词表中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积;根据各词的预测上位词向量确定种子词的属性词。该方法仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。
还需要说明的是,由于传统的不同领域的属性词识别,需要不同领域的人员来进行人工识别,从而确定该领域的属性词。本发明提出的属性词识别方法,由于无需依赖人工来识别各属性词,可适用于各个领域,因此,其领域适用性强。
可以通过属性词表的方式保存各种子词相关的属性词。在其中一个具体实施例中,属性词识别方法的原理图如图3所示。获取评论语料的名词词表,并将名词词表中的词用词向量方式表示;获取上下位关系矩阵;根据上下位关系矩阵及名词词表中的各词,确定名词词表中各词的预测上位词向量;根据各词的预测上位词向量与种子词的词向量筛选出种子词的属性词,形成属性词表。
在其中一实施方式中,根据各词的预测上位词向量确定种子词的属性词的步骤,即步骤S140,包括:
S141(图未示):获取与最近的种子词的距离不大于第一预设阈值、且与非最近的种子词的距离方差大于第二预设阈值的预测上位词向量;
S143(图未示):将获取的预测上位词向量对应的词作为最近的种子词的属性词。
该实施方式可对应于筛选条件包括(1)和(2)的方案。由于并非名词词表中的每个词都是某个种子词相关的属性词,可能存在一些词与任何一个种子词都不相关,需要将这些词过滤掉。为实现该目的,筛选条件(1)设置为与最近的种子词的距离不大于第一预设阈值的词。在满足筛选条件(1)的基础上,为避免一个属性词同时与多个种子词相关,应该满足筛选条件(2)。即选出来的词应该离其它的种子词较远,可以用距离的方差表示这一特征,即距离方差大于第二预设阈值。可以理解地,在其它实施方式中,筛选条件可以包括(1),即步骤S141,可以为获取与最近的种子词的距离不大于第一预设阈值的预测上位词向量。
进一步地,获取与最近的种子词的距离不大于第一预设阈值、且与非最近的种子词的距离方差大于第二预设阈值的预测上位词向量的步骤之后,即步骤S141之后,还包括:S142(图未示),过滤获取的各预测上位词向量对应的词中的、种子词的同义词。
在过滤同义词之后,执行步骤S143。步骤S143为将过滤后各预测上位词向量对应的词作为最近的种子词的属性词。如此,避免将种子词的同义词作为种子词的属性词,可以提高属性词识别的准确性。
该实施方式可对应于筛选条件包括(1)和(2)的方案。可以采用知识库过滤获取的各预测上位词向量对应的词中的、种子词的同义词。例如种子词为“风景”,那么应该过滤掉属性词中的“景色”,因为它和种子词意义相同,并不是种子词的下位词。
请参阅图4,在其中一实施方式中,获取上下位关系矩阵的步骤,即步骤S120,包括:S121,选取与种子词相似度高于预设值的待选词,或与种子词相似度最近的预设数量个待选词;S123,接收选择指令,选择指令包括种子词及与种子词对应的待选词;该对应的待选词为用户在选取的待选词中选择的与种子词具有上下位关系的待选词,实质为种子词的下位词。S125,将选择指令中的待选词作为对应的种子词的下位词,形成上下位词集合;S127,构建模型,并采用所述上下位词集合对所述模型进行训练,得到上下位关系矩阵。
可以根据词的词向量(待选词的词向量和种子词的词向量的相似度)选取与种子词相似度高于预设值的若干待选词,可以将这些待选词返回给人工筛选,从中选出种子词的下位词,通过接收选择指令的方式,获取到人工筛选的信息,即将选择指令中的待选词作为对应的种子词的下位词,构成上下位词集合。最后,构建模型,并采用所述上下位词集合对所述模型进行训练,得到上下位关系矩阵。如此,通过训练模型的方式获取到上下位关系矩阵。
在其中一个具体实施例中,获取上下位关系矩阵的原理图如图5所示,从领域相关的大规模语料库中获取名词属性的词,然后将获取到的词采用词向量的方式表示;获取种子词,根据词的词向量确定若干最相关的词,即选取与种子词相似度高于预设值的待选词,或与种子词相似度最近的预设数量个待选词。继而可以将待选词返回给人工筛选,从中选出种子词的下位词,通过接收选择指令的方式,获取到人工筛选的信息,即将选择指令中的待选词作为对应的种子词的下位词,构成上下位词集合。最后,构建模型,并采用所述上下位词集合对所述模型进行训练,得到上下位关系矩阵。
请参阅图6,在其中一实施方式中,根据各词的预测上位词向量确定种子词的属性词的步骤,即步骤S140,包括:
S144:根据各词的预测上位词向量确定种子词的第一属性词。
确定种子词的第一属性词的方式可以与上述任意一种实施方式中的确定种子词的属性词的方式相同,在此不作赘述。
S145:对名词词表中的词构造上下位词对。
可以通过知识库和/或词后缀对名词词表中的词构造上下位词对。
S146:根据上下位关系矩阵及上下位词对中的各词,确定上下位词对中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积。
对上下位词对中的各词,确定上下位关系矩阵与其词向量的乘积,得到的向量称为该词的预测上位词向量。可以通过上下位矩阵与词的词向量做乘积运算得到该词的预测上位词向量;也可以通过查表的方式,确定上下位关系矩阵与词的词向量的乘积,从而得到该词的预测上位词向量。
S147:根据各预测上位词向量确定上下位词对对应的种子词。
可以根据预测上位词向量与种子词的词向量的关系,确定上下位词对与种子词的对应关系,如,可以将上下位词对中的各词的预测上位词向量均满足该关系的种子词,作为与该上位词对具有对应关系的种子词。从而,可进一步确定上下位词对中的各词对应的种子词。该关系可以与上述实施方式中的筛选条件对应。如,该关系可以为:(1)预测上位词向量与最近的种子词的距离不大于第一预设阈值;(2)预测上位词向量与非最近的种子词的距离方差大于第二预设阈值。
S148:将种子词对应的上下位词对中的各词,作为种子词的第二属性词。
将与种子词有存在上下位关系的上位词,及该上位词在上下位词对中的下位词,确定为与该种子词相关的第二属性词。
S149:根据各种子词的第一属性词及第二属性词,确定各种子词的属性词,属性词为第一属性词及第二属性词的并集。
通过种子词的第一属性词及第二属性词,确定与该种子词相关的属性词。该属性词为该种子词的第一属性词及第二属性词的并集,如此,对第一属性词进行补充,使得识别到的属性词更为全面。
在其中一实施例中,对名词词表中的词构造上下位词对的步骤,即步骤S145,包括:
获取名词词表中与知识库重合的词,并获取重合的词在知识库中的标识;根据标识及知识库的标识规则,将标识对应的重合的词构造上下位词对。如此,通过知识库构造上下位词对。假设获取到的名词词表中与知识库重合的词包括:风景、山水。假设风景在知识库中的表示为Y1000,山水在知识库中的标识为Y1100。其中,标识规则为:以Y1开头的标识表示风景大类的词,以Y11开头的标识表示属于Y1大类之下山水类的词。可以根据这样的标识规则,来确定Y1000对应的“风景”是Y1100对应的“山水”的上位词,此时,可以将“风景→山水”构造为一个上下位词对。
在另一实施例中,对名词词表中的词构造上下位词对的步骤,即步骤S145,包括:
获取名词词表中的各词的后缀,将后缀相同的词形成后缀对应的词集合;对存在包含关系的词集合进行合并,并根据词集合及对应的后缀构造上下位词对。如此,通过词后缀构造上下位词对。可以将后缀作为上位词,而将该后缀对应的词集合中的词作为下位词,构造上下位词对。
可以理解地,在其它实施例中,还可以通过知识库与词后缀结合的方式构造上下位词对。通过知识库构造的上下位词对可以作为第一上下位词对,通过词后缀构造的上下位词对可以作为第二上下位词对,最终的上下位词对可以为第一上下位词对与第二上下位词对的并集。如,可以先通过知识库构造的上下位词对作为第一上下位词对,然后将名词词表中剩下的词,通过词后缀构造的上下位词对作为第二上下位词对。
请参阅图7,本发明还提供一种与上述属性词识别方法对应的属性词的层次构建方法,包括:
S210:获取评论语料的名词词表。
S220:获取上下位关系矩阵,上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵。
S230:对名词词表中的词构造上下位词对,形成二层属性词结构。
可以通过知识库和/或词后缀对名词词表中的词构造上下位词对。上下位词对包括上位词及下位词。该上位词可以作为一层属性词结构,该下位词可以作为另一层属性词结构,从而能够形成二层属性词结构。
S240:根据上下位关系矩阵及上下位词对中的各词,确定上下位词对中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积。
在本实施方式中,对于上下位词对中的各词,确定上下位关系矩阵与上下位词对中的词的词向量的乘积,得到的向量称为该词的预测上位词向量。
S250:根据各预测上位词向量确定上下位词对对应的种子词,形成三层属性词结构。
在形成二层属性词结构之后,需要寻找合适的种子词。可以通过上下位关系矩阵找出上下位词对中各个词对应的种子词,保留所有词的种子词都相同的情况,形成种子词与上下位词对的对应关系。例如,通过词林构造出上下位词对:
杯海杯子→茶杯樽白酒杯纸杯保温杯玻璃杯
其中,“→”左侧为上位词集合,右侧为下位词集合。通过上下位关系矩阵发现,“杯”和“杯子”对应的种子词是“餐饮”,但“海”对应的种子词却是“风景”。此时,这三个上位词对应的种子词不同,这种情况舍弃,只保留所有上位词对应种子词都相同的情况。
为了避免种子词与上下位词对的对应关系不够准确,可进一步,根据上下位词对中的各个词的预测上位词向量与种子词的平均距离和/或最近距离来进行筛选,保留平均距离低于预设平均阈值和/或最近距离低于预设最低阈值的上下位词对,与种子词一起构成层次关系,形成三层属性词结构。即,将与上下位词对的各预测上位词向量的平均距离低于预设平均阈值、和/或最近距离低于预设最低阈值的种子词,确定为上下位词对对应的种子词。由于上下位词对中可能有个别词比较不常用,它们虽然找到了正确的种子词,但是与种子词的距离比较大,因此,用最近距离的方式比用平均距离的方式具有更好的效果。可以理解地,用最近距离与平均距离结合的方式具有最佳的效果。
在确定上下位词对对应的种子词之后,可以将上下位词对对应的种子词作为又一层属性词结构,形成种子词-上位词-下位词的三层属性词结构。可以理解地,种子词对应的上下位词对中的上位词及下位词均为与该种子词相关的属性词。
上述属性词的层次构建方法,获取评论语料的名词词表;获取上下位关系矩阵,上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据上下位关系矩阵及名词词表中的各词,确定名词词表中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积;根据各词的预测上位词向量确定种子词的属性词。上述属性词的层次构建方法仅需通过少量人力资源确定种子词,无需大量的人力资源,便可以构建与种子词与相关属性词之间的层次结构,从而降低了人力资源消耗量。同时,由于层次结构中种子词对应的上下位词对中的上位词及下位词即为与该种子词相关的属性词,因此,该属性词的层次构建方法也可以降低属性词识别的人力资源消耗。
通常在识别属性词后,会将其用于评论文本概要显示,目前的主流做法为生成“属性词+情感词”的平行标签,根据属性词和情感词在评论中出现的次数,选取高频的显示,可以如图8和图9所示。
图8为某电商网站评论文本概要显示标签的示例图,图9为某旅游领域网站评论文本概要显示标签的示例图。标签中的属性词之间是平行的,这种方法可以帮助用户了解评论中的概要信息,用户不需要逐一阅读文本,就能够选择相关的属性词进行查看,但用户不能直接知晓各标签之间的上下位关系,若用户想要关注某一方面的评论情况,并不能快速地找到合适的标签,用户查看评论的成本高。为弥补平行标签的缺陷,本发明提供的属性词的层次构建方法,可以通过三层属性词结构为用户提供丰富的结构化信息,用户可以选择自己关心的子属性进行查看,能够减少用户查看评论的成本,为用户做出决策提供更好的帮助。
在其中一实施方式中,对名词词表中的词构造上下位词对,形成二层属性词结构的步骤,即步骤S230,包括:
S231(图未示):获取名词词表中与知识库重合的词,并获取重合的词在知识库中的标识;
S233(图未示):根据标识及知识库的标识规则,将标识对应的重合的词构造上下位词对,形成二层属性词结构。
如此,通过知识库构造上下位词对,从而形成二层属性词结构。
标识为词所表达的词义在知识库中的唯一标识,可以表现为标签。知识库可以采用《同义词词林》或其(扩展版)(下称词林)。《同义词词林扩展版》的内容示例如下表:
表1.《同义词词林扩展版》内容示例
表1中每一行是一个或多个词的集合,开头是词语的标签,反映了词语之间的关系,通过它及知识库的标识规则:
(1)可以判断两个词是否是同义词。如果标签结尾为“=”,说明该行为同义词,如“江河江河川水河流”。
(2)可以找到上下位关系词。表1中的词的标签前5位相同,说明属于同一类,第6、7位为“01”的行是下面所有词的上位词。利用这一性质可以确定词的上下位关系,构造上下位词对。
由于存在一词多义的情况,有的词会有多个标识,在本实施方式中保留所有的标识。然后根据标识及知识库的标识规则,将标识对应的重合的词构造上下位词对。结果中会存在上位词或下位词缺失的情况,保留上下位词都存在的结果,形成二层属性词结构。
在其中一实施方式中,对名词词表中的词构造上下位词对,形成二层属性词结构的步骤,即步骤S230,包括:
S234(图未示):获取名词词表中的各词的后缀,将后缀相同的词形成后缀对应的词集合;
S236(图未示):对存在包含关系的词集合进行合并,并根据词集合及对应的后缀构造上下位词对,形成二层属性词结构。
如此,通过后缀词构造上下位词对,从而形成二层属性词结构。
在汉语中,一个词的后缀可能是一个有独立意义的词,表示一类事物,以之为后缀的词则表示它的子事物。比如:“猪肉”,“牛肉”的后缀为“肉”。“肉”可以看成是“猪肉”和“牛肉”的上位词。因此利用该性质挖掘上下位关系,构造上下位词对。具体过程如下:
首先,对于名词词表中的词,找出每个词和以之为后缀的词集合。然后,对存在包含关系的词集合进行合并。由于某个上位词可能是其他词的下位词,因此需要合并两个上下位词对,保留范围更大的词对。例如,有如下两个上下位词对:
暴雨–>大暴雨狂风暴雨
雨->小雨大雨暴雨大暴雨狂风暴雨
其中,“暴雨”是第一个上下位词对的上位词,但同时也是“雨”的下位词,而且“雨”的下位词集合包括了“暴雨”的所有词。此时需要合并两个上下位词对,保留范围更大的词对。
进一步地,由于是这些词集合中的词并不一定与上位词(即词的后缀)有语义上的关系,比如“雨”和“余秋雨”,“坡”和“苏东坡”,因此,可以进行进一步地筛选。可以通过上位词与下位词的相似度,过滤掉相似度较低的下位词,保留相似度高的词。即,获取名词词表中的各词的后缀,将后缀相同的词形成后缀对应的词集合的步骤,即步骤S234,包括:获取名词词表中的各词的后缀;将后缀相同的词形成后缀对应的待过滤词集合;将待过滤词集合中的相似度低于预设值的词删除,得到后缀对应的词集合。
在其中一个实施例中,为了得到质量更高的上下位词对,可以根据下位词的数量进行了筛选,舍弃下位词数量较少的词对。即对存在包含关系的词集合进行合并,并根据词集合及对应的后缀构造上下位词对,形成二层属性词结构的步骤,包括:对存在包含关系的词集合进行合并;根据下位词数量不少于预设值的词集合及对应的后缀构造上下位词对,形成二层属性词结构。
在其中一实施方式中,可以通过知识库与后缀词结合的方式形成上下位词对。即步骤S230,包括:获取名词词表中与知识库重合的词,并获取重合的词在知识库中的标识;根据标识及知识库的标识规则,将标识对应的重合的词构造第一上下位词对;对于知识库处理剩下的名词,获取各词的后缀,将后缀相同的词形成后缀对应的词集合;对存在包含关系的词集合进行合并,并根据词集合及对应的后缀构造第二上下位词对;根据第一上下位词对与第二上下位词对,确定上下位词对,形成二层属性词结构。上下位词对为第一上下位词对与第二上下位词对的并集。如此,可以得到质量较高的二层属性词结构,然后根据上下位关系矩阵得到质量较高的三层属性词结构。
在其中一个具体实施例中,以旅游领域风景方面的属性词的层次构造为例,构造出的三层属性词结构可以为如图10所示。
“风景”为人工设定的种子词,作为第一层属性词;“山->山峰,山丘……”的上下位词对,是通过知识库构造的;“雨->大雨,暴雨……”的上下位词对,是通过词后缀构造的。其中,“山”和“雨”为上下位词对中的上位词,作为第二层属性词;“山峰”,“山丘”,“大雨”,“暴雨”……为上下位词对中的下位词,作为第三层属性词。
请参阅图11,由于通过上述属性词的层次构造方法,构造的三层属性词结构中的所包含的属性词不够全面。在其中一实施方式中,属性词的层次构造方法,还包括:S200,根据上述的属性词识别方法获取各种子词的属性词,形成属性词表。
此时,根据各预测上位词向量确定上下位词对对应的种子词,形成三层属性词结构的步骤,即步骤S250,包括:
S251:根据各预测上位词向量确定上下位词对对应的种子词;
S253:将种子词作为第一层属性词,将上下位词对中的上位词作为第二层属性词,将上位词对中的下位词作为第三层属性词,形成三层属性结构;
S255:将属性词表中未在层次结构中的词当作第三层属性词,附加到三层属性词结构中。
由于通过之前的实施方式构造的三层属性词结构中不一定涵盖了属性词表中所有的词。而是与属性词表部分重合,即属性词表中有一部分词已经构成了层次关系,而另外的词却没有。因此,需要将属性词表中未构成层次关系的词,即属性词表中未在层次结构中的词附加到三层属性词结构中。在本实施方式中,将属性词表中未在层次结构中的词当作第三层属性词,附加到三层属性词结构中,从而使得三层属性词结构更为完善。
在其中一实施方式中,将属性词表中未在层次结构中的词当作第三层属性词,附加到三层属性词结构中的步骤,即步骤S255可以通过均值法、关系矩阵法或均值法与关系矩阵法结合的方式实现。
对于属性词表中未在层次结构中的词,如何附加到三层属性词结构中,可以看成分类问题,将已有的第二、三层中的上下位词对中的词,看成一个个的类别,问题就转变成了将属性词表中未在层次结构中的词归到正确的类别中。综合考虑直接相似度和上下位关系两个方面,提出混合模型。
在其中一实施例中,可以采用一种单一模型方式,通过相似度进行归类,即通过均值法进行归类。也即步骤S255包括:将属性词表中未在层次结构中的词,加入三层属性词结构中相似度最近的第三层属性词集合中。
直接计算属性词表中未在层次结构中的每个词与第三层属性词的相似度,找到最相似的即相似度最近的第三层属性词集合,将其归入即可。
在其中一实施例中,可以采用另一种单一模型方式,通过上下位关系矩阵进行归类,即通过关系矩阵法进行归类。也即步骤S255包括:将属性词表中未在层次结构中的词,附加到三层属性词结构对应的第二层属性词的下一层。
可以利用已有的三层属性词结构及上下位词对,将第二层作为上位词,第三层作为下位词,训练模型得到新的上下关系矩阵。然后利用训练模型得到的上下位关系矩阵将属性词表中未在层次结构中的词,附加到对应的第二层属性词的下一层。
在其中一实施例中,可以通过相似度与关系矩阵结合的方式进行归类,即均值法与关系矩阵法结合的方式进行归类。也即步骤S255包括:
根据属性词表中未在层次结构中的词,与三层属性词结构的第三层属性词集合的相似度、相似度方差及对应的上位词的距离,构造特征向量;根据特征向量及混合模型确定属性词表中未在层次结构中的词所属的第三层属性词集合;混合模型为根据均值法及关系矩阵法构建的模型。
在该实施例中,通过平均法,将属性词表中未在层次结构中的词,与三层属性词结构的第三层属性词集合中的各词的平均相似度,作为与三层属性词结构的第三层属性词集合的相似度。获取与属性词表中未在层次结构中的词相似度最近的第三层属性词集合,与第三层属性词集合的相似度方差。通过关系矩阵法,根据关系矩阵与属性词表中未在层次结构中的词的确定预测上位向量,该预测上位向量为关系矩阵与属性词表中未在层次结构中的词的词向量的乘积,进而获取预测上位向量与上下位词对中的上位词的距离,从而得到属性词表中未在层次结构中的词,与三层属性词结构的第三层属性词集合的上位词的距离。需要说明的是,该关系矩阵为第二层属性词与第三层属性词的上下位关系的矩阵。在其中一个具体实施例中,由于利用知识库构成的上下位词对中上位词是一个集合,包含多个词,这里按照词林的编排规则,可以选择排在最前面的词作为代表上位词。即获取预测上位向量与代表上位词的距离,从而得到属性词表中未在层次结构中的词,与第三层属性词集合的上位词的距离。
在获取到属性词表中未在层次结构中的词,与第三层属性词集合的相似度、相似度方差及对应的上位词的距离之后,构造特征向量。然后可以将该特征向量代入到分类模型(混合模型)中,从而确定属性词表中未在层次结构中的词所属的归类,即确定属性词表中未在层次结构中的词所属的第三层属性词集合。
在其中一个具体实施例中,分类模型可以表示为:
Softmax(θx+b)=y
其中,θ和b为模型参数,可利用随机梯度下降法进行优化。x为特征向量,y为第三层属性集合的表示。第三层属性集合的表示可以为该第三层属性集合对应的上位词的标签,也即上下位词对的标签,上下位词对的标签,可以根据上下位词对中的上位词的标签确定,如可以等于该上位词的标签。
以下以一个具体实验示例来说明上述属性识别及其层次构建方法的有益效果。
获取评论语料的名词词表的过程中,实验所用的评论语料为是携程网上旅游领域相关的评论数据,共92万条游客的评论。实验使用的分词和词性标注工具为中科院NLPIR(自然语言处理与信息检索共享平台)分词工具包。在生成名词词表时,过滤掉了出现频次小于等于10次的名词,最后得到的名词词表包含14745个名词。
获取上下位关系矩阵的过程中,训练模型得到上下位关系矩阵使用Google开源的Word2Vec工具包。利用Word2Vec训练模型,得到上下位关系矩阵时,使用CBOW模型,窗口设为8,预测上位词向量的向量维度设为300维。
人工设定了4个种子词,分别为:“风景”、“餐饮”、“交通”和“住宿”。为了训练模型得到上下位关系矩阵,将种子词作为上位词,选取与种子词相似度最近的预设数量个待选词,预设数量为15,将15个待选词返回给用户标注。接收选择指令,将选择指令中的待选词作为对应的种子词的下位词,形成上下位词集合,平均每个种子词有13个下位词用于模型的训练。
根据上下位关系矩阵及名词词表中的各词,确定名词词表中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积的步骤之后,获取与最近的种子词的距离不大于第一预设阈值、且与非最近的种子词的距离方差大于第二预设阈值的预测上位词向量;过滤获取的各预测上位词向量对应的词中的、种子词的同义词;将过滤后各预测上位词向量对应的词作为最近的种子词的第一属性词。实验时,预测上位词向量与最近的种子词的距离阈值即第一预设阈值设为15,如果超过15就判断为不与该种子词对应。另外,与种子词的距离方差阈值设为0.01,即第二预设阈值设置为0.01。
对名词词表中的词构造上下位词对的过程中,通过知识库构造第一上下位词对,通过词后缀构造第二上下位词对。实验时,知识库使用哈工大编纂的《同义词词林》(扩展版)。
其中,通过知识库构造第一上下位词对的步骤,包括:获取名词词表中与知识库重合的词,并获取重合的词在知识库中的标识;根据标识及知识库的标识规则,将标识对应的重合的词构造上下位词对。
通过词后缀构造第二上下位词对的步骤,包括:获取名词词表中的各词的后缀,将后缀相同的词形成后缀对应的词集合;对存在包含关系的词集合进行合并,并根据词集合及对应的后缀构造上下位词对。其中,将后缀相同的词形成后缀对应的词集合的过程中,获取名词词表中的各词的后缀;将后缀相同的词形成后缀对应的待过滤词集合;使用词林将待过滤词集合中的相似度低于预设值的词删除,得到后缀对应的词集合。实验中,将预设值设置为0.2,删除了下位词数量少于3个的词对。
根据上下位关系矩阵及上下位词对中的各词,确定上下位词对中各词的预测上位词向量之后,可分为两种情况:(1)根据各预测上位词向量确定各第一上下位词对对应的种子词。该过程中,将与第一上下位词对的各预测上位词向量的最近距离低于预设最低阈值的种子词确定为第一上下位词对对应的种子词。实验时,将预设最低阈值设为14。(2)根据各预测上位词向量确定各第二上下位词对对应的种子词。该过程中,在通过词后缀的方式构造上下位词对之后,将与第二上下位词对的各预测上位词向量的平均距离低于预设平均阈值的种子词确定为上下位词对对应的种子词。实验时,将预设平均阈值设为18。
在属性词的识别过程中,将种子词对应的上下位词对中的各词,作为种子词的第二属性词;根据各种子词的第一属性词及第二属性词,确定各种子词的属性词,属性词为第一属性词及第二属性词的并集。
在属性词的层次构造过程中,根据各预测上位词向量确定上下位词对对应的种子词之后,将种子词作为第一层属性词,将上下位词对中的上位词作为第二层属性词,将上位词对中的下位词作为第三层属性词,形成三层属性结构;将属性词表中未在层次结构中的词当作第三层属性词,附加到三层属性词结构中。
本发明提出的属性词识别方法是通过种子词和关系矩阵的方式实现的。下面介绍与之对比的两种基于相似度的方法,分别是:
(1)直接法:即直接选取与种子词最相似即相似度最近的若干个名词。同时也要求它们与其他种子词距离较远,同样用相识度方差作为评价标准。最后也使用词林过滤掉种子词的同义词。
(2)迭代法:先选取离种子词相似度最近的若干个词,然后再选取与这些词中每个词相似度最近的若干个词,如此迭代两轮。和直接法一样,使用相似度方差和词林进行过滤。
三种方法识别到的属性词的数量对比,如下表2:
表2三种方法识别到的属性词的数量
表2中使用本发明的属性词识别方法识别到的属性词平均数量为100,各个种子词下属性词的数量分布符合旅游领域语料的特点,“风景”下的属性词数量最多。
直接法和迭代法都以扩展100个属性词为目标,根据条件筛选后数量如表2所示,迭代法最终找到的属性词数量偏少,这是因为迭代过程中存在重复的情况。例如词A找到了词B,下一轮迭代时,与词B最相似的即相似度最近的可能包括A,最后去重后导致数量并不多。
为了进一步比较三种方法,实验过程中对这些属性词的准确率进行对比,通过人工判断属性词是否准确,结果如下表3。
表3三种方法识别到的属性词的准确率
由表3可知,直接法识别到的属性词正确率较低,尤其是“交通”和“住宿”下面的属性词。相对来说,迭代法找出的属性词正确率较高,但是数量上要少很多。综合考虑数量和正确率两方面,本发明的效果最好,不仅数量上符合语料特点,而且各个种子词下属性词表的准确率都较高。
词林中共有79764个词,名词词表包含14745个词,二者重合的有11374个词,占词林总数的14%,但是却占到了名词词表的77%。这反映了词林的词语比较全面,基本上覆盖了名词词表的词。
知识库和词后缀构造的上下位词对具有较高的准确率,表4中是利用知识库和词后缀处理的第二属性词,以及通过种子词与关系矩阵的方式识别到的第一属性词的数量情况。
表4属性词的数量情况
表4中,利用知识库和词后缀处理的第二属性词,由于面向的是整个名词词表,而不仅仅是对上下位关系矩阵挖掘出来的第一属性词进行处理,因此,会引入新的属性词,从而对第一属性词进行很好的补充。当然,二者会有重合的部分,见表4中第三行,这些词可以通过知识库或者词后缀处理,形成较高质量的层次结构。表4中第四行是属性词表中需要另外处理的词,需利用混合模型进行处理,附加到第三层属性词中。
对于属性词表中未处理的词,本方案提出两个单一模型和一个混合模型进行处理,下面来比较下这三种模型的性能。
实验使用“风景”方面的词进行效果评估,为了能够较好的进行评估,实验从已有的上下位词对中随机抽取80%作为训练集,剩下的20%作为测试集。“风景”方面已有上下位词对共64对,格式为一个上位词对应多个下位词的格式,例如“叶红叶枫叶”,将其转化为一个上位词对应一个下位词的格式,即“叶红叶”和“叶枫叶”,共有727对。所以训练集有590对词对,测试集为137对。
实验使用随机梯度下降算法迭代参数,图12是随着迭代次数增加,测试集上正确率的变化情况。从图中可以看到:一开始,迭代次数在0到100万次之间的时候,测试集上正确率增加较快;当迭代次数达到350万次时,测试集的正确率达到峰值,峰值为49.64%;迭代次数超过350万次后,测试集上正确率上下波动的变化不大。实验选取迭代次数为350万次时的结果作为混合模型的结果。
将混合模型与两种单一模型的结果对比,如下表5所示:
表5三种方法测试集正确率对比
测试集正确率
均值法 24.09%
关系矩阵 42.33%
混合模型 49.64%
从表5中可以得出:混合模型的效果最好,这符合我们的预期,因为混合模型综合考虑了与已有词对下位词和上位词两者的关系,特征更加丰富,分类效果也更好。
本发明还提供一种与上述属性词识别方法对应的属性词识别装置。一种实施方式的属性词识别装置,如图13所示,包括:
词表获取模块310,用于获取评论语料的名词词表;
矩阵获取模块320,用于获取上下位关系矩阵,上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
上位向量确定模块330,用于根据上下位关系矩阵及名词词表中的各词,确定名词词表中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积;
属性词确定模块360,用于根据各词的预测上位词向量确定种子词的属性词。
上述属性词识别装置,获取评论语料的名词词表;获取上下位关系矩阵,上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据上下位关系矩阵及名词词表中的各词,确定名词词表中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积;根据各词的预测上位词向量确定种子词的属性词。该装置仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以确定与种子词相关的属性词,从而降低了人力资源消耗量。
请参阅图14,在其中一实施方式中,还包括上位向量筛选模块340;
上位向量筛选模块340,用于获取与最近的种子词的距离不大于第一预设阈值、且与非最近的种子词的距离方差大于第二预设阈值的预测上位词向量;
属性词确定模块360,用于将获取的预测上位词向量对应的词作为最近的种子词的属性词。
请继续参阅图14,在其中一实施方式中,还包括同义过滤模块350;
同义过滤模块350,用于过滤上位向量筛选模块获取的各预测上位词向量对应的词中的、种子词的同义词;
属性词确定模块360,用于在同义过滤模块过滤同义词之后,将过滤后各预测上位词向量对应的词作为最近的种子词的属性词。
请参阅图15,在其中一实施方式中,矩阵获取模块320,包括:
待选词选取单元321,用于选取与种子词相似度高于预设值的待选词,或与种子词相似度最近的预设数量个待选词;
指令接收单元323,用于接收选择指令,选择指令包括种子词及与种子词对应的待选词;
下位集合形成单元325,用于将选择指令中的待选词作为对应的种子词的下位词,形成上下位词集合;
矩阵训练单元327,用于构建模型,并采用所述上下位词集合对所述模型进行训练,得到上下位关系矩阵。
请参阅图16,在其中一实施方式中,属性词确定模块360,包括:
第一属性词确定单元361,用于根据各词的预测上位词向量确定种子词的第一属性词;
词对构造单元362,用于对名词词表中的词构造上下位词对;
上位向量确定单元363,用于根据上下位关系矩阵及上下位词对中的各词,确定上下位词对中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积;
种子词确定单元364,用于根据各预测上位词向量确定上下位词对对应的种子词;
第二属性词确定单元365,用于将种子词对应的上下位词对中的各词,作为种子词的第二属性词;
第三属性词确定单元366,用于根据各种子词的第一属性词及第二属性词,确定各种子词的属性词,属性词为第一属性词及第二属性词的并集。
在其中一实施方式中,词对构造单元362,用于获取名词词表中与知识库重合的词,并获取重合的词在知识库中的标识,根据标识及知识库的标识规则,将标识对应的重合的词构造上下位词对;
和/或,
词对构造单元362,用于获取名词词表中的各词的后缀,将后缀相同的词形成后缀对应的词集合,对存在包含关系的词集合进行合并,并根据词集合及对应的后缀构造上下位词对。
在其中一实施方式中,种子词确定单元364,用于将与上下位词对的各预测上位词向量的平均距离低于预设平均阈值、和/或最近距离低于预设最低阈值的种子词,确定为上下位词对对应的种子词。
请参阅图17,本发明还提供与上述属性词的层次构建方法对应的属性词的层次构建装置,包括:
词表获取模块410,用于获取评论语料的名词词表;
矩阵获取模块420,用于获取上下位关系矩阵,上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
词对构造模块430,用于对名词词表中的词构造上下位词对,形成二层属性词结构;
上位向量确定模块440,用于根据上下位关系矩阵及上下位词对中的各词,确定上下位词对中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积;
层次结构形成模块450,用于根据各预测上位词向量确定上下位词对对应的种子词,形成三层属性词结构。
上述属性词的层次构建装置,获取评论语料的名词词表;获取上下位关系矩阵,上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据上下位关系矩阵及名词词表中的各词,确定名词词表中各词的预测上位词向量,预测上位词向量为上下位关系矩阵与词的词向量的乘积;根据各词的预测上位词向量确定种子词的属性词。由于上述属性词的层次构建装置仅需通过少量人力资源确定种子词,而无需通过大量的人力资源,便可以构建与种子词相关的属性词的层次结构,从而降低了人力资源消耗量。同时,由于层次结构中种子词对应的上下位词对中的上位词及下位词即为与该种子词相关的属性词,因此,该属性词的层次构建装置,也可以降低属性词识别的人力资源消耗。
请参阅图18,在其中一实施方式中,词对构造模块430,包括:
重合标识获取单元431,用于获取名词词表中与知识库重合的词,并获取重合的词在知识库中的标识;第一词对构造单元433,用于根据标识及知识库的标识规则,将标识对应的重合的词构造上下位词对,形成二层属性词结构;
和/或,
后缀词集获取单元434,用于获取名词词表中的各词的后缀,将后缀相同的词形成后缀对应的词集合;第二词对构造单元436,用于对存在包含关系的词集合进行合并,并根据词集合及对应的后缀构造上下位词对,形成二层属性词结构。
请参阅图19,在其中一实施方式中,还包括属性表形成模块400;
属性表形成模块400,用于根据上述的属性词识别方法获取各种子词的属性词,形成属性词表;
层次结构形成模块450,包括:
种子词确定单元451,用于根据各预测上位词向量确定上下位词对对应的种子词;
第一结构形成单元453,用于将种子词作为第一层属性词,将上下位词对中的上位词作为第二层属性词,将上位词对中的下位词作为第三层属性词,形成三层属性结构;
第二结构形成单元455,用于将属性词表中未在层次结构中的词当作第三层属性词,附加到三层属性词结构中。
在其中一实施方式中,第二结构形成单元455,用于将属性词表中未在层次结构中的词,加入三层属性词结构中相似度最近的第三层属性词集合中;
或,
第二结构形成单元455,用于将属性词表中未在层次结构中的词,附加到三层属性词结构对应的第二层属性词的下一层;
或,
第二结构形成单元455,用于根据属性词表中未在层次结构中的词,与三层属性词结构的第三层属性词集合的相似度、相似度方差及对应的上位词的距离,构造特征向量,根据特征向量及混合模型确定属性词表中未在层次结构中的词所属的第三层属性词集合,混合模型为根据均值法及关系矩阵法构建的模型。
本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现:上述的属性词识别方法的步骤,和/或上述的属性词的层次构建方法的步骤。
一种计算机存储介质,计算机存储介质上存储有计算机程序,计算机程序被处理器执行时,实现:上述的属性词识别方法的步骤,和/或上述的属性词的层次构建方法的步骤。
由于上述装置与上述方法相互对应,对于装置中与上述方法对应的具体技术特征,在此不作赘述。上述计算机设备及计算机存储介质均与上述方法一一对应,对于计算机设备及存储介质中与上述方法对应的技术特征,在此也不作赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (19)

1.一种属性词识别方法,其特征在于,包括:
获取评论语料的名词词表;
获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
获取与最近的种子词的距离不大于第一预设阈值、且与非最近的种子词的距离方差大于第二预设阈值的预测上位词向量;
过滤获取的各预测上位词向量对应的词中的、所述种子词的同义词;
在过滤所述同义词之后,将过滤后各所述预测上位词向量对应的词作为所述最近的种子词的属性词。
2.根据权利要求1所述的属性词识别方法,其特征在于,所述获取上下位关系矩阵的步骤,包括:
选取与种子词相似度高于预设值的待选词,或与所述种子词相似度最近的预设数量个待选词;
接收选择指令,所述选择指令包括所述种子词及与所述种子词对应的待选词;
将所述选择指令中的待选词作为对应的所述种子词的下位词,形成上下位词集合;
构建模型,并采用所述上下位词集合对所述模型进行训练,得到上下位关系矩阵。
3.根据权利要求1所述的属性词识别方法,其特征在于,所述根据各词的所述预测上位词向量确定种子词的属性词的步骤,包括:
根据各词的所述预测上位词向量确定种子词的第一属性词;
对所述名词词表中的词构造上下位词对;
根据所述上下位关系矩阵及所述上下位词对中的各词,确定所述上下位词对中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
根据各所述预测上位词向量确定所述上下位词对对应的所述种子词;
将所述种子词对应的所述上下位词对中的各词,作为所述种子词的第二属性词;
根据各所述种子词的所述第一属性词及所述第二属性词,确定各所述种子词的属性词,所述属性词为所述第一属性词及所述第二属性词的并集。
4.根据权利要求3所述的属性词识别方法,其特征在于,所述对所述名词词表中的词构造上下位词对的步骤,包括:
获取所述名词词表中与知识库重合的词,并获取所述重合的词在所述知识库中的标识;根据所述标识及所述知识库的标识规则,将所述标识对应的重合的词构造上下位词对;
和/或,
获取所述名词词表中的各词的后缀,将后缀相同的词形成所述后缀对应的词集合;对存在包含关系的所述词集合进行合并,并根据所述词集合及对应的所述后缀构造上下位词对。
5.根据权利要求3所述的属性词识别方法,其特征在于,所述根据各所述预测上位词向量确定所述上下位词对对应的所述种子词的步骤,包括:
将与所述上下位词对的各所述预测上位词向量的平均距离低于预设平均阈值、和/或最近距离低于预设最低阈值的种子词,确定为所述上下位词对对应的种子词。
6.一种属性词的层次构建方法,其特征在于,包括:
获取评论语料的名词词表;
获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
对所述名词词表中的词构造上下位词对,形成二层属性词结构;
根据所述上下位关系矩阵及所述上下位词对中的各词,确定所述上下位词对中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
根据权利要求1或2所述的属性词识别方法获取各种子词的属性词,形成属性词表;
根据各所述预测上位词向量确定所述上下位词对对应的所述种子词;
将所述种子词作为第一层属性词,将所述上下位词对中的上位词作为第二层属性词,将所述上位词对中的下位词作为第三层属性词,形成三层属性结构;
将所述属性词表中未在所述层次结构中的词当作第三层属性词,附加到所述三层属性词结构中。
7.根据权利要求6所述的属性词的层次构建方法,其特征在于,对所述名词词表中的词构造上下位词对,形成二层属性词结构的步骤,包括:
获取所述名词词表中与知识库重合的词,并获取所述重合的词在所述知识库中的标识;根据所述标识及所述知识库的标识规则,将所述标识对应的重合的词构造上下位词对,形成二层属性词结构;
和/或,
获取所述名词词表中的各词的后缀,将后缀相同的词形成所述后缀对应的词集合;对存在包含关系的所述词集合进行合并,并根据所述词集合及对应的所述后缀构造上下位词对,形成二层属性词结构。
8.根据权利要求6所述的属性词的层次构建方法,其特征在于,所述将所述属性词表中未在所述层次结构中的词当作第三层属性词,附加到所述三层属性词结构中的步骤,包括:
将所述属性词表中未在所述层次结构中的词,加入所述三层属性词结构中相似度最近的第三层属性词集合中;
或,
将所述属性词表中未在所述层次结构中的词,附加到所述三层属性词结构对应的第二层属性词的下一层;
或,
根据所述属性词表中未在所述层次结构中的词,与所述三层属性词结构的第三层属性词集合的相似度、相似度方差及对应的上位词的距离,构造特征向量,根据所述特征向量及混合模型确定所述属性词表中未在所述层次结构中的词所属的第三层属性词集合,所述混合模型为根据均值法及关系矩阵法构建的模型。
9.根据权利要求8所述的属性词的层次构建方法,其特征在于,所述混合模型可表示为:Softmax(θx+b)=y;其中,θ和b为模型参数,x为特征向量,y表示第三层属性集合。
10.一种属性词识别装置,其特征在于,包括:
词表获取模块,用于获取评论语料的名词词表;
矩阵获取模块,用于获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
上位向量确定模块,用于根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
上位向量筛选模块,用于获取与最近的种子词的距离不大于第一预设阈值、且与非最近的种子词的距离方差大于第二预设阈值的预测上位词向量;
同义过滤模块,用于过滤获取的各预测上位词向量对应的词中的、所述种子词的同义词;
属性词确定模块,用于在过滤所述同义词之后,将过滤后各所述预测上位词向量对应的词作为所述最近的种子词的属性词。
11.根据权利要求10所述的属性词识别装置,其特征在于,所述矩阵获取模块,包括:
待选词选取单元,用于选取与种子词相似度高于预设值的待选词,或与所述种子词相似度最近的预设数量个待选词;
指令接收单元,用于接收选择指令,所述选择指令包括所述种子词及与所述种子词对应的待选词;
下位集合形成单元,用于将所述选择指令中的待选词作为对应的所述种子词的下位词,形成上下位词集合;
矩阵训练单元,用于构建模型,并采用所述上下位词集合对所述模型进行训练,得到上下位关系矩阵。
12.根据权利要求10所述的属性词识别装置,其特征在于,所述属性词确定模块,包括:
第一属性词确定单元,用于根据各词的所述预测上位词向量确定种子词的第一属性词;
词对构造单元,用于对所述名词词表中的词构造上下位词对;
上位向量确定单元,用于根据所述上下位关系矩阵及所述上下位词对中的各词,确定所述上下位词对中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
种子词确定单元,用于根据各所述预测上位词向量确定所述上下位词对对应的所述种子词;
第二属性词确定单元,用于将所述种子词对应的所述上下位词对中的各词,作为所述种子词的第二属性词;
第三属性词确定单元,用于根据各所述种子词的所述第一属性词及所述第二属性词,确定各所述种子词的属性词,所述属性词为所述第一属性词及所述第二属性词的并集。
13.根据权利要求12所述的属性词识别装置,其特征在于,所述词对构造单元,用于获取所述名词词表中与知识库重合的词,并获取所述重合的词在所述知识库中的标识;根据所述标识及所述知识库的标识规则,将所述标识对应的重合的词构造上下位词对;
和/或,
所述词对构造单元,用于获取所述名词词表中的各词的后缀,将后缀相同的词形成所述后缀对应的词集合;对存在包含关系的所述词集合进行合并,并根据所述词集合及对应的所述后缀构造上下位词对。
14.根据权利要求12所述的属性词识别装置,其特征在于,所述种子词确定单元,用于将与所述上下位词对的各所述预测上位词向量的平均距离低于预设平均阈值、和/或最近距离低于预设最低阈值的种子词,确定为所述上下位词对对应的种子词。
15.一种属性词的层次构建装置,其特征在于,包括:
词表获取模块,用于获取评论语料的名词词表;
矩阵获取模块,用于获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;
词对构造模块,用于对所述名词词表中的词构造上下位词对,形成二层属性词结构;
上位向量确定模块,用于根据所述上下位关系矩阵及所述上下位词对中的各词,确定所述上下位词对中各词的预测上位词向量,所述预测上位词向量为所述上下位关系矩阵与词的词向量的乘积;
属性表形成模块,用于根据权利要求1或2所述的属性词识别方法获取各种子词的属性词,形成属性词表;
层次结构形成模块,包括:
种子词确定单元,用于根据各所述预测上位词向量确定所述上下位词对对应的所述种子词;
第一结构形成单元,用于将所述种子词作为第一层属性词,将所述上下位词对中的上位词作为第二层属性词,将所述上位词对中的下位词作为第三层属性词,形成三层属性结构;
第二结构形成单元,用于将所述属性词表中未在所述层次结构中的词当作第三层属性词,附加到所述三层属性词结构中。
16.根据权利要求15所述的属性词的层次构建装置,其特征在于,所述词对构造模块,包括:
重合标识获取单元,用于获取所述名词词表中与知识库重合的词,并获取所述重合的词在所述知识库中的标识;根据所述标识及所述知识库的标识规则,将所述标识对应的重合的词构造上下位词对,形成二层属性词结构;
和/或,
后缀词集获取单元,用于获取所述名词词表中的各词的后缀,将后缀相同的词形成所述后缀对应的词集合;对存在包含关系的所述词集合进行合并,并根据所述词集合及对应的所述后缀构造上下位词对,形成二层属性词结构。
17.根据权利要求15所述的属性词的层次构建装置,其特征在于,所述第二结构形成单元,用于将所述属性词表中未在所述层次结构中的词,加入所述三层属性词结构中相似度最近的第三层属性词集合中;
或,
所述第二结构形成单元,用于将所述属性词表中未在所述层次结构中的词,附加到所述三层属性词结构对应的第二层属性词的下一层;
或,
所述第二结构形成单元,用于根据所述属性词表中未在所述层次结构中的词,与所述三层属性词结构的第三层属性词集合的相似度、相似度方差及对应的上位词的距离,构造特征向量,根据所述特征向量及混合模型确定所述属性词表中未在所述层次结构中的词所属的第三层属性词集合,所述混合模型为根据均值法及关系矩阵法构建的模型。
18.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现:权利要求1-5任意一项所述的属性词识别方法的步骤,和/或权利要求6-9任意一项所述的属性词的层次构建方法的步骤。
19.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:权利要求1-5任意一项所述的属性词识别方法的步骤,和/或权利要求6-9任意一项所述的属性词的层次构建方法的步骤。
CN201710813362.6A 2017-09-11 2017-09-11 属性词识别及其层次构建方法、装置、设备及存储介质 Active CN109492214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710813362.6A CN109492214B (zh) 2017-09-11 2017-09-11 属性词识别及其层次构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710813362.6A CN109492214B (zh) 2017-09-11 2017-09-11 属性词识别及其层次构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109492214A CN109492214A (zh) 2019-03-19
CN109492214B true CN109492214B (zh) 2023-09-19

Family

ID=65687701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710813362.6A Active CN109492214B (zh) 2017-09-11 2017-09-11 属性词识别及其层次构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109492214B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196982B (zh) * 2019-06-12 2022-12-27 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152324A (ja) * 2006-12-14 2008-07-03 National Institute Of Information & Communication Technology 語彙階層構造抽出方法,装置,およびプログラム
CN101609459A (zh) * 2009-07-21 2009-12-23 北京大学 一种情感特征词提取系统
CN103020311A (zh) * 2013-01-08 2013-04-03 深圳市宜搜科技发展有限公司 一种用户检索词的处理方法及系统
WO2015080559A2 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated word sense disambiguation
CN104715049A (zh) * 2015-03-26 2015-06-17 无锡中科泛在信息技术研发中心有限公司 基于本体词库的商品评论属性词抽取方法
CN105608130A (zh) * 2015-12-16 2016-05-25 小米科技有限责任公司 获得情感词知识库的方法、装置及终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152324A (ja) * 2006-12-14 2008-07-03 National Institute Of Information & Communication Technology 語彙階層構造抽出方法,装置,およびプログラム
CN101609459A (zh) * 2009-07-21 2009-12-23 北京大学 一种情感特征词提取系统
CN103020311A (zh) * 2013-01-08 2013-04-03 深圳市宜搜科技发展有限公司 一种用户检索词的处理方法及系统
WO2015080559A2 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated word sense disambiguation
CN104715049A (zh) * 2015-03-26 2015-06-17 无锡中科泛在信息技术研发中心有限公司 基于本体词库的商品评论属性词抽取方法
CN105608130A (zh) * 2015-12-16 2016-05-25 小米科技有限责任公司 获得情感词知识库的方法、装置及终端

Also Published As

Publication number Publication date
CN109492214A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN110968700B (zh) 融合多类事理与实体知识的领域事件图谱构建方法和装置
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN107798136B (zh) 基于深度学习的实体关系抽取方法、装置及服务器
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN107657048B (zh) 用户识别方法及装置
US10546005B2 (en) Perspective data analysis and management
US20170337260A1 (en) Method and device for storing data
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN110674312B (zh) 构建知识图谱方法、装置、介质及电子设备
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
Yan Research dynamics: Measuring the continuity and popularity of research topics
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN116628229B (zh) 一种利用知识图谱生成文本语料的方法及装置
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
US11520835B2 (en) Learning system, learning method, and program
CN111259160A (zh) 知识图谱构建方法、装置、设备及存储介质
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN112084342A (zh) 试题生成方法、装置、计算机设备及存储介质
CN112989010A (zh) 数据查询方法、数据查询装置和电子设备
CN114997288A (zh) 一种设计资源关联方法
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN113157871B (zh) 应用人工智能的新闻舆情文本处理方法、服务器及介质
Wei et al. Online education recommendation model based on user behavior data analysis
JP2022082523A (ja) 機械学習基盤類似アイテムに関する情報を提供する方法および装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant