CN107357776A - 一种相关词挖掘方法及装置 - Google Patents

一种相关词挖掘方法及装置 Download PDF

Info

Publication number
CN107357776A
CN107357776A CN201710455435.9A CN201710455435A CN107357776A CN 107357776 A CN107357776 A CN 107357776A CN 201710455435 A CN201710455435 A CN 201710455435A CN 107357776 A CN107357776 A CN 107357776A
Authority
CN
China
Prior art keywords
word
target
mrow
model
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710455435.9A
Other languages
English (en)
Other versions
CN107357776B (zh
Inventor
孙超博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710455435.9A priority Critical patent/CN107357776B/zh
Publication of CN107357776A publication Critical patent/CN107357776A/zh
Application granted granted Critical
Publication of CN107357776B publication Critical patent/CN107357776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种相关词挖掘方法及装置,所述方法包括:获得待处理的目标词;针对预设的M个词嵌入模型中的每一词嵌入模型,将目标词输入该词嵌入模型,得到目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定目标词关于该词嵌入模型的初始候选词集合;对M个初始候选词集合中的词进行去重处理,得到目标词对应的目标候选词集合;基于预设的线性排序模型,确定目标词分别与目标候选词集合中各个候选词的第二语义距离;基于所确定出的第二语义距离,从目标候选词集合所包括的候选词中确定目标词对应的相关词。本发明实施例所提供方案可以提高相关词挖掘的全面性。

Description

一种相关词挖掘方法及装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种相关词挖掘方法及装置。
背景技术
一个词的相关词是与其有关联的词汇,有关联的词汇之间存在多种模式的词汇关系,这些模式可以归纳为两类:语法关系(如存在固定搭配的动词及其宾语)和语义关系。其中,语义关系可以包括同义词、同位词、上下位词等多种模式,如,对于“北京”的相关词可以为“上海”(同位词)、“首都”(同义词)、“城市”(上位词)等。
目前挖掘相关词的方法主要是通过词嵌入模型构建一个连续的向量空间,利用在空间中的欧式距离来表达词之间的语义距离,根据语义距离进行相关词的挖掘。
然而,发明人在实现本发明的过程中发现,现有技术至少存在如下问题:对于单独的词嵌入模型来说,相关词的知识库小,在不同类型的词关系的相关词覆盖率低。因此,现有技术对于一个词的相关词挖掘存在不够全面问题。
发明内容
本发明实施例的目的在于提供一种相关词挖掘方法及装置,以扩大相关词挖掘的覆盖范围,从而提高相关词挖掘的全面性。具体技术方案如下:
为达到上述目的,本发明实施例提供了一种相关词挖掘方法,所述方法包括:
获得待处理的目标词;
针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;
对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;
基于预先训练的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;
基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。
在本发明实施例提供的一种实现方式中,所述预设的线性排序模型的表达公式为:
其中,distance(w1,w2)为词w1与词w2的第二语义距离,distancei(w1,w2)为利用第i个词嵌入模型计算得到的词w1与词w2的第一语义距离,θi是第i个词嵌入模型的权重。
在本发明实施例提供的一种实现方式中,基于预设的线性排序模型,确定目标词分别与所述目标候选词集合中各个候选词的第二语义距离的步骤,包括:
确定所述目标词与所述目标候选词集合中的各个候选词针对于每个词嵌入模型的第一语义距离;
利用预设的线性排序模型,计算目标词分别与所述目标候选词集合中各个候选词的第二语义距离。
在本发明实施例提供的一种实现方式中,所述线性排序模型的训过程,包括:
初始化线性排序模型,其中,初始化后的线性排序模型中所述M个词嵌入模型所对应的权重具有初始值;
确定多个样本词分别对应的目标候选词集合;
基于每个样本词对应的目标候选词集合,构建每个样本词所对应的多个相关词对,其中,任一样本词所对应多个相关词对中的每一相关词对为:该样本词和所对应目标候选词集合中的候选词;
确定每一相关词对的关系类型;
分别针对每一词嵌入模型,确定每个样本词所对应的多个相关词对关于该词嵌入模型的第一语义距离;
将每个样本词所对应的多个相关词对的多个第一语义距离输入至当前线性排序模型,得到每个样本词所对应的多个相关词对的第二语义距离;
基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值;
在所述损失值符合预定结束条件时,结束训练得到模型,在所述损失值不符合预定结束条件时,调整所述线性排序模型的权重值,并返回执行将每个样本所对应的多个相关词对的多个第一语义距离输入至当前排序模型,得到每个样本所对应的多个相关词对的第二语义距离的步骤。
在本发明实施例提供的一种实现方式中,所述确定多个样本词分别对应的目标候选词集合的步骤,包括:
利用预设的M个词嵌入模型,确定每个样本词对应的初始候选词集合;
针对每个样本词对应的多个初始候选词集合中的词进行去重处理,得到该样本词对应的目标候选词集合。
在本发明实施例提供的一种实现方式中,所述确定多个样本词分别对应的目标候选词集合的步骤,包括:
基于同义词林,得到每个样本词对应的目标候选词集合。
在本发明实施例提供的一种实现方式中,确定每一相关词对的关系类型的步骤,包括:
基于人工标注方式,确定相关词对的关系类型;
或者,
基于同义词词林中的词所在节点的位置关系,确定相关词对的关系类型。
在本发明实施例提供的一种实现方式中,基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值所利用的公式为:
其中,Luv=-P′uvlogPuv-(1-P′uv)log(1-Puv)
其中,Luv为包含相关词对的每个相关词对集的损失值,P′uv为相关词对的相关性的预测概率,Puv为相关词对的相关性的目标概率,Pu,Pv分别为相关词对,distance(pu)为pu的第二语义距离,distance(pv)为pv的第二语义距离。
本发明实施例还提供了一种相关词挖掘装置,包括:
第一获得模块,用于获得待处理的目标词;
第一确定模块,用于针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;
第二获得模块,用于对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;
第二确定模块,用于基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;
第三确定模块,用于基于所确定出的所述第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。
在本发明实施例提供的一种实现方式中,所述第二确定模块所利用的预设的线性排序模型的表达公式为:
其中,distance(w1,w2)为词w1与词w2的第二语义距离,distancei(w1,w2)为利用第i个词嵌入模型计算得到的词w1与词w2的第一语义距离,θi是第i个词嵌入模型的权重。
在本发明实施例提供的一种实现方式中,所述第二确定模块,包括:
第一确定子模块,用于确定所述目标词与所述目标候选词集合中的各个候选词针对于每个词嵌入模型的第一语义距离;
第一计算子模块,用于利用预设的线性排序模型,计算目标词分别与所述目标候选词集合中各个候选词的第二语义距离。
在本发明实施例提供的一种实现方式中,所述装置还包括:训练模块,用于训练所述线性排序模型;
所述训练模块包括:
初始化子模块,用于初始化线性排序模型,其中,初始化后的线性排序模型中所述M个词嵌入模型所对应的权重具有初始值;
第二确定子模块,用于确定多个样本词分别对应的目标候选词集合;
构建子模块,用于基于每个样本词对应的目标候选词集合,构建每个样本词所对应的多个相关词对,其中,任一样本词所对应多个相关词对中的每一相关词对为:该样本词和所对应目标候选词集合中的候选词;
第三确定子模块,用于确定每一相关词对的关系类型;
第四确定子模块,用于分别针对每一词嵌入模型,确定每个样本词所对应的多个相关词对关于该词嵌入模型的第一语义距离;
第一获得子模块,用于将每个样本词所对应的多个相关词对的多个第一语义距离输入至当前线性排序模型,得到每个样本词所对应的多个相关词对的第二语义距离;
第二计算子模块,用于基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值;
结束子模块,用于在所述损失值符合预定结束条件时,结束训练得到模型;
调整子模块,用于在所述损失值不符合预定结束条件时,调整所述线性排序模型的权重值,并触发所述第一获得子模块。
在本发明实施例提供的一种实现方式中,所述第二确定子模块,包括:
第一确定单元,用于利用预设的M个词嵌入模型,确定每个样本词对应的初始候选词集合;
第一获得单元,用于针对每个样本词对应的多个初始候选词集合中的词进行去重处理,得到该样本词对应的目标候选词集合。
在本发明实施例提供的一种实现方式中,所述第二确定子模块,包括:
第二获得单元,基于同义词林,得到每个样本词对应的目标候选词集合。
在本发明实施例提供的一种实现方式中,所述第三确定子模块,包括:
第二确定单元,用于基于人工标注方式,确定相关词对的关系类型;
或者,
第三确定单元,用于基于同义词词林中的词所在节点的位置关系,确定相关词对的关系类型。
在本发明实施例提供的一种实现方式中,所述第二计算子模块计算损失值所利用的公式为:
其中,Luv=-P′uvlogPuv-(1-P′uv)log(1-Puv)
其中,Luv为包含相关词对的每个相关词对集的损失值,P′uv为相关词对的相关性的预测概率,Puv为相关词对的相关性的目标概率,Pu,Pv分别为相关词对,distance(pu)为pu的第二语义距,distance(pv)为pv的第二语义距离。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的相关词挖掘方法。
在本发明实施的又一方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的相关词挖掘方法。
本发明实施例提供的一种相关词挖掘方法、装置、电子设备及存储介质,通过获得待处理的目标词;针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。本发明实施例能够融合多种词嵌入模型。因此,能够扩大相关词挖掘的覆盖范围,从而提高相关词挖掘的全面性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的相关词挖掘方法的流程图;
图2为本发明实施例提供的线性排序模型的训练过程的流程图;
图3为本发明实施例提供的相关词挖掘装置的结构示意图;
图4为本发明实施例提供的训练模块的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
下面首先对本发明实施例提供的一种相关词挖掘方法进行介绍。
需要说明的是,本发明实施例所提供的一种相关词挖掘方法的执行主体可以为一种相关词挖掘装置。其中,该相关词挖掘装置可以为运行于电子设备中的功能软件。可以理解的是,在具体应用中,该电子设备可以为终端设备,也可以为服务器。
如图1所示,本发明实施例所提供的一种相关词挖掘方法,可以包括如下步骤:
S101,获得待处理的目标词。
本发明所说的待处理的目标词,其具体内容可以是任意的,例如待处理的目标词可以是“北京”、“首都”、“城市”等词汇。
具体地,获得待处理的目标词的具体过程可以为:获得用户通过键盘输入的目标词,或者,获得用户通过语音输入的目标词等等。例如:用户通过键盘输入目标词“北京”,则相关词挖掘装置可以获得该目标词“北京”。
S102,针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合。
其中,该M可以为不小于2的正整数,M个词嵌入模型的模型类型,涵盖多种模式的词汇关系,例如:M个词嵌入模型的模型类型可以包括word2vec、GloVe和fasttext训练词嵌入模型中的至少两种。
需要说明的是,对于任一词嵌入模型而言,在该词嵌入模型中包含多个训练词的词向量,因此可以得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离;并且,当所获得的第一语义距离小于一定预设阈值时,将小于一定预设阈值的该第一语义距离对应的训练词认定为与待处理的目标词的相似度高,并将相似度高的训练词构成初始候选词集合。
可选地,所述针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离的步骤,包括:
通过所述每一个词嵌入模型计算所述目标词的向量与该词嵌入模型所对应各个训练词的向量的内积,得到目标词与该词嵌入模型所对应各个训练词的第一语义距离。
所述基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合的步骤,包括:
基于所得到的第一语义距离,将第一语义距离小于一定预设阈值的词的集合作为该词嵌入模型的初始候选词集合。
具体的,预设的M个词嵌入模型的训练方式包括步骤A-步骤B:
步骤A:在至少两组源数据上进行词的筛选得到多组训练集。
具体的,针对每组源数据,通过大小为第二阈值的窗口来筛选在源数据中出现次数大于第一阈值的词。
需要说明的是,第一阈值、第二阈值可以由用户根据源数据进行设定,在此不进行具体限定,例如,第一阈值可以设置为4或5等,第二阈值可以设置为10或11等,这都是合理的。
步骤B:针对多组训练集中的每组训练集,分别使用word2vec、GloVe和fasttext训练词嵌入模型,得到预设的M个词嵌入模型。
举例而言,当有微博数据和爱奇艺视频标题两组源数据时,对上述两组源数据进行词的筛选,可以为在每组源数据中通过大小均为11的窗口的方式筛选出现次数大于5的词组成该源数据所对应的训练集,针对每组训练集,使用word2vec、GloVe和fasttext分别训练微博数据训练集和爱奇艺视频标题数据训练集,就会得到6种词嵌入模型,分别为:使用word2vec训练微博数据训练集的词嵌入模型1、使用GloVe训练微博数据训练集的词嵌入模型2、使用fasttext训练微博数据训练集的词嵌入模型3、使用word2vec训练爱奇艺视频标题数据的词嵌入模型4、使用GloVe训练爱奇艺视频标题数据的词嵌入模型5、使用fasttext训练爱奇艺视频标题数据的词嵌入模型6;
当待处理的目标词为“x1”,通过第一语义距离得到词嵌入模型1所对应的初始候选词集合1中的词为“y1、y2、y4”,通过第一语义距离得到词嵌入模型2所对应的初始候选词集合2中的词为“y3、y4、y5”,通过第一语义距离得到词嵌入模型3所对应的初始候选词集合3中的词为“y5、y6,通过第一语义距离得到词嵌入模型4所对应的初始候选词集合4中的词为“y7、y8”,通过第一语义距离得到词嵌入模型5所对应的初始候选词集合5中的词为“y3、y9”,通过第一语义距离得到词嵌入模型6所对应的初始候选词集合6中的词为“y4、y6”。
S103、对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合。
由于存在M个词嵌入模型,相对于每个词嵌入模型而言,该目标词均对应有一个初始候选词集合,因此,该目标词总共对应M个初始候选词集合。并且,由于M个初始候选词集合中可能存在重复的词,因此,可以对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合,该目标候选词集合中的词各不相同。
延续上述的例子,将初始候选词集合1、初始候选词集合2、初始候选词集合3、初始候选词集合4、初始候选词集合5、初始候选词集合6中的词进行去重,得到目标候选词集合“y1、y2、y3、y4、y5、y6、y7、y8、y9”。
S104、基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型。
在获得所述目标词对应的目标候选词集合后,由于所需挖掘的目标词的相关词的数量有限,且需要语义关系需要覆盖较广的范围,因此,可以利用预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,进而基于所获得的第二语义距离,从目标候选词集合中筛选出该目标词的相关词。
为了方案清楚以及布局清晰,后续对预设的线性排序模型的构建方式进行介绍。
S105,基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。
需要说明的是,第二语义距离越小,说明相关性越强。因此,在确定出多个第二语义距离后,可以基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。
可选地,在一种具体实现方式中,可以对多个第二语义距离进行升序排序,选取靠前的至少两个第二语义距离,将所述目标候选词集合中,所选取的第二语义距离所对应的候选词作为所述目标词对应的相关词。
可选地,在另一种具体实现方式中,可以从多个第二语义距离中筛选得到小于预定阈值的至少两个第二语义距离,进而可以将所述目标候选词集合中,筛选得到第二距离对应的候选词作为所述目标词对应的相关词。
举例而言,仍延续上述的例子,对得到的第二语义距离l1、l2、l3、l4、l5、l6、l7、l8、l9进行从小到大的排序,获取排列在前的一定数量的词作为目标词对应的相关词。
本发明实施例提供的一种相关词挖掘方法,通过获得待处理的目标词;针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。本发明实施例能够融合多种词嵌入模型,因此,能够扩大相关词挖掘的覆盖范围,从而提高相关词挖掘的全面性。
可选地,在一种具体实现方式中,所述预设的线性排序模型的表达公式为:
其中,distancei(w1,w2)为利用第i个词嵌入模型计算得到的词w1与词w2第一语义距离,θi是第i个词嵌入模型的权重。
具体的,基于预设的线性排序模型,确定目标词分别与所述目标候选词集合中各个候选词的第二语义距离的具体实现方式存在多种。可选地,在一种实现方式中,所述基于预设的线性排序模型,确定目标词分别与所述目标候选词集合中各个候选词的第二语义距离的方式可以包括:确定所述目标词与所述目标候选词集合中的各个候选词针对于每个词嵌入模型的第一语义距离;
利用预设的线性排序模型,计算目标词分别与所述目标候选词集合中各个候选词的第二语义距离。
仍延续上述的例子,y1、y2、y3、y4、y5、y6、y7、y8、y9分别在不同的词嵌入模型中的第一语义距离见如下表格。
分别将上述表格中每一候选词的多个第一语义距离同时输入到预设的线性排序模型中,得到候选词y1、y2、y3、y4、y5、y6、y7、y8、y9分别对应的第二语义距离为l1、l2、l3、l4、l5、l6、l7、l8、l9。也就是,对于候选词y1的第二语义距离的获得方式为:将候选词y1的第一语义距离z11、z12、z13、z14、z15和z16同时输入到预设的线性排序模型中,通过该线性排序模型对各个第一语义距离进行加权求和,得到y1对应的第二语义距离。
为了方案清楚及布局清晰,下面对预设的线性排序模型的构建过程进行介绍。
需要说明的是,本实施例中,使用交叉熵作为损失函数,学习出线性排序模型,从而对待处理词的相关词进行挖掘,学习模型的过程使用梯度下降法来训练线性排序模型中的每个词嵌入模型的权重参数。
如图2所示,具体的,预设的线性排序模型的构建过程可以包括如下步骤:
步骤201:初始化线性排序模型;
所谓的初始化线性排序模型即初始化每个词嵌入模型对应的权重的初始值。也就是,初始化后的线性排序模型中所述M个词嵌入模型所对应的权重具有初始值。
步骤202:确定多个样本词分别对应的目标候选词集合;
需要说明的是,目标候选词集合中的词是与样本词相关的词,确定每个样本词的目标候选集用来训练线性排序模型,通过多个样本词来优化线性排序模型。
步骤203:基于每个样本词对应的目标候选词集合,构建每个样本词所对应的多个相关词对,其中,任一样本词所对应多个相关词对中每一相关词对为:该样本词和所对应目标候选词集合中的候选词;
具体的,相关词对的表示形式为:
pu=(wi,wj)
其中,wi,wj分别表示两个词。
在本实施例中,针对每个样本词所对应的相关词对,wi表示样本词,wj表示候选词,例如:相关词对为(北京,首都),则样本词为北京,候选词为首都。
步骤204:确定每一相关词对的关系类型;
需要说明的是,每一相关词有对应的关系类型,其中,关系类型可以包括同义、强相关、弱相关、动宾关系、上下位和不相关。
步骤205:分别针对每一词嵌入模型,确定每个样本词所对应的多个相关词对关于该词嵌入模型的第一语义距离。
具体的,针对每一个相关词对,通过所述每一个词嵌入模型计算所述样本词的向量与该相关词对中候选词的向量的内积得到相关词对的第一语义距离。
步骤206:将每个样本词所对应的多个相关词对的多个第一语义距离输入至当前线性排序模型,得到每个样本词所对应的多个相关词对的第二语义距离;
举例而言,每个样本词所对应的多个相关词对可以为(北京,首都),(北京,中国)则样本词为北京,候选词为首都。
将上述的每个相关词对通过不同的词嵌入模型第一语义距离,每个相关词对会得到对应的多个第一语义距离,将第一语义距离输入到当前的线性排序模型中,就会的到每个相关词对对应的唯一的第二语义距离。
步骤207:基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值;
需要说明的是,第二语义距离是关于各词嵌入模型权重θ的函数,损失值L也是关于权重θ的函数,我们为权重θ设定一个初始值,为了通过改变每个词嵌入模型的权重使整个数据集上所有基于相关词对的训练集的损失和最小,计算损失值L的梯度,往损失值L梯度下降的方向修改权重θ,直到收敛,也就得到了最优的权重θ。
步骤208:判断损失值是否符合预定结束条件,如果是,执行步骤209,如果否,执行步骤210;
步骤209:结束训练得到模型。
步骤210:调整当前线性排序模型的权重值,并返回执行将每个样本所对应的多个相关词对的多个第一语义距离输入至当前排序模型,得到每个样本所对应的多个相关词对的第二语义距离的步骤。
通过上述步骤对线性排序模型进行训练,能够融合多种词嵌入模型,利用所训练的线性排序模型进行相关词的挖掘,能够扩大相关词挖掘的覆盖范围,从而提高相关词挖掘的全面性。
具体的,确定多个样本词分别对应的目标候选词集合的具体实现方式存在多种。可选地,在一种实现方式中,所述确定多个样本词分别对应的目标候选词集合的方式可以包括:
利用预设的M个词嵌入模型,确定每个样本词对应的初始候选词集合,针对每个样本词对应的多个初始候选词集合中的词进行合并去重处理,得到该样本词对应的目标候选词集合。
通过利用多个词嵌入模型确定样本词对应的目标候选词能够扩大相关词知识库的覆盖范围,并且对初始候选词集合中的词进行去重,能够在线性排序模型的训练过程中提高效率,避免对重复词的不必要的处理。
在另一种实现方式中,所述确定多个样本词分别对应的目标候选词集合的方式可以包括:
基于同义词林,得到该样本词对应的目标候选词集合。
具体的,将同义词词林中每个样本词对应的第二层节点相同的子节点的数据和第四层节点相同的子节点的数据,作为该样本词对应的目标候选词集合。
具体的,确定每一相关词对的关系类型的具体实现方式存在多种。可选地在一种实现方式中,所述确定每一相关词对的关系类型的方式可以包括:
基于人工标注方式,获得相关词对的关系类型。
利用人工标注的方式,将相关词对标注为同义、强相关、弱相关、动宾关系、上下位和不相关的关系标签,而且将同义、动宾关系和上下位关系全部归纳入强关系中。
在另一种实现方式中,所述确定每一相关词对的关系类型的方式可以包括:
基于同义词词林中词的节点位置关系,确定相关词对的关系类型。
具体的,获取目标候选词集合中的同义词词林构造的数据上的第四层节点相同的子节点的数据,分别与样本词构成相关词对,标注强相关的关系标签;获取第二层节点相同的子节点的数据,分别与样本词的构成相关词对,标注弱相关的关系标签。
通过同义词词林确定每一相关词对的关系类型的方法可以将既有知识融入到词嵌入模型中,提高了效率。
具体的,基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值的具体实现方式存在多种,在一种实现方式中,基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值的方式可以包括:
具体的,基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值所利用的公式为:
其中,Luv=-P′uvlogPuv-(1-P′uv)log(1-Puv)
其中,Luv为包含相关词对的每个训练集的损失值,P′uv为相关词对的相关性的预测概率,Puv为相关词对的相关性的目标概率,Pu,Pv分别为相关词对,distance(pu)为pu的第二语义距,distance(pv)为pv的第二语义距离。
具体的,基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值的具体实现方式存在多种,在一种实现方式中,所述基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值的方式可以包括步骤A-步骤E::
步骤A:将构建的相关词对中的至少两个相关词对组成相关词对集,所有的相关词对集组成相关词对集的训练集。
具体的,相关词对集的形式为:
C={(pu,pv)}
其中,Pu,Pv分别为一个相关词对。
举例而言,Pu为(北京,首都),Pv为(北京,中国),则C为“((北京,首都),(北京,中国))”的形式。
步骤B:可以通过以下公式得到相关词对的相关性概率的预测值:
其中,Pu,Pv分别为相关词对,distance(pu)为pu的第二语义距,distance(pv)为pv的第二语义距离。
步骤C:根据每一相关词对的关系类型确定基于训练集的相关词对的相关性的目标概率。
具体的,通过如下的公式得到相关词对的相关性的目标概率:
其中,Pu,Pv分别为相关词对。
例如:当pu比pv更相关,P'uv的值为1。例如:pu为强相关的标签,pv为弱相关的标签,则pu比pv更相关,则概率值为1。对于“((北京,首都),(北京,中国))”对的训练集,P'uv=1。
步骤D:针对包含相关词对的每个相关词对集的损失值,可以通过以下交叉函数的公式求得:
Luv=-P′uvlogPuv-(1-P′uv)log(1-Puv)
其中,P′uv为相关词对的相关性的预测概率,Puv为相关词对的相关性的目标概率。
步骤E:通过如下的公式,计算整个数据集上所有包含相关词对集的训练集的损失和:
其中,Luv为包含相关词对的每个相关词对集的损失值。
通过上述计算损失值的方式来得到对应模型的权重,是模型的权重更接近于准确值,从而提高了相关词的挖掘的准确性。
与方法实施例相对应的,本发明实施例还提供了一种相关词挖掘装置,该装置可应用于电子设备。图3为本发明实施例提供的相关词挖掘装置的结构示意图,所述装置包括:
第一获得模块310,用于获得待处理的目标词;
第一确定模块320,用于针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;
第二获得模块330,用于对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;
第二确定模块340,用于基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;
第三确定模块350,用于基于所确定出的所述第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。
本发明实施例提供的相关词挖掘装置,通过获得待处理的目标词;针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。本发明实施例能够融合多种词嵌入模型。因此,能够扩大相关词挖掘的覆盖范围,从而提高相关词挖掘的全面性。
本发明实施例提供的又一实现方式中,所述第二确定模块所利用的预设的线性排序模型的表达公式为:
其中,distance(w1,w2)为词w1与词w2的第二语义距离,distancei(w1,w2)为利用第i个词嵌入模型计算得到的词w1与词w2的第一语义距离,θi是第i个词嵌入模型的权重。
本发明实施例提供的又一实现方式中,所述第二确定模块,包括:
第一确定子模块,用于确定所述目标词与所述目标候选词集合中的各个候选词针对于每个词嵌入模型的第一语义距离;
第一计算子模块,用于利用预设的线性排序模型,计算目标词分别与所述目标候选词集合中各个候选词的第二语义距离。
本发明实施例提供的又一实现方式中,所述装置还包括:训练模块,用于训练线性排序模型;
图4为本发明实施例提供的训练模块的结构示意图,所述训练模块包括:
初始化子模块410,用于初始化线性排序模型,其中,初始化后的线性排序模型中所述M个词嵌入模型所对应的权重具有初始值;
第二确定子模块420,用于确定多个样本词分别对应的目标候选词集合;
构建子模块430,用于基于每个样本词对应的目标候选词集合,构建每个样本词所对应的多个相关词对,其中,任一样本词所对应多个相关词对中的每一相关词对为:该样本词和所对应目标候选词集合中的候选词;
第三确定子模块440,用于确定每一相关词对的关系类型;
第四确定子模块450,用于分别针对每一词嵌入模型,确定每个样本词所对应的多个相关词对关于该词嵌入模型的第一语义距离;
第一获得子模块460,用于将每个样本词所对应的多个相关词对的多个第一语义距离输入至当前线性排序模型,得到每个样本词所对应的多个相关词对的第二语义距离;
第二计算子模块470,用于基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值;
判断子模块480,用于判断损失值是否符合预定结束条件;
结束子模块490,用于当所述判断子模块480的判断结果为所述损失值符合预定结束条件时,结束训练得到模型;
调整子模块500,用于当所述判断子模块480的判断结果为所述损失值不符合预定结束条件时,调整所述线性排序模型的权重值,并触发所述第一获得子模块460。
本发明实施例提供的又一实现方式中,所述第二确定子模块,包括:
第一确定单元,用于利用预设的M个词嵌入模型,确定每个样本词对应的初始候选词集合;
第一获得单元,用于针对每个样本词对应的多个初始候选词集合中的词进行去重处理,得到该样本词对应的目标候选词集合。
本发明实施例提供的又一实现方式中,所述第二确定子模块,包括:
第二获得单元,基于同义词林,得到每个样本词对应的目标候选词集合。
本发明实施例提供的又一实现方式中,所述第三确定子模块,包括:
第二确定单元,用于基于人工标注方式,确定相关词对的关系类型;
或者,
第三确定单元,用于基于同义词词林中的词所在节点的位置关系,确定相关词对的关系类型。
本发明实施例提供的又一实现方式中,所述第二计算子模块计算损失值所利用的公式为:
其中,Luv=-P′uvlogPuv-(1-P′uv)log(1-Puv)
其中,Luv为包含相关词对的每个相关词对集的损失值,P′uv为相关词对的相关性的预测概率,Puv为相关词对的相关性的目标概率,Pu、Pv分别为相关词对,distance(pu)为pu的第二语义距,distance(pv)为pv的第二语义距离。
与上述方法实施例相对应的,本发明实施例还提供了一种电子设备,如图5所示,图5为本发明实施例提供的电子设备的结构示意图,所述电子设备包括处理器510、通信接口520、存储器530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信,
存储器530,用于存放计算机程序;
处理器510,用于执行存储器530上所存放的程序时,实现本发明实施提供的相关词挖掘方法。
具体的,上述相关词挖掘方法,包括:
获得待处理的目标词;
针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;
对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;
基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;
基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。
本发明实施例提供的一种电子设备,通过获得待处理的目标词;针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。本发明实施例能够融合多种词嵌入模型。因此,能够扩大相关词挖掘的覆盖范围,从而提高相关词挖掘的全面性。
上述相关词挖掘方法的其他实现方式与前述方法实施例部分提供的相关词挖掘方式相同,这里不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral PomponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Ne twork Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Applica tion SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
与上述方法实施例相对应的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施提供的相关词挖掘方法。
具体的,上述相关词挖掘方法,包括:
获得待处理的目标词;
针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;
对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;
基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。
本发明实施例提供的存储介质中存储的应用程序在运行时,通过获得待处理的目标词;针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。本发明实施例能够融合多种词嵌入模型。因此,能够扩大相关词挖掘的覆盖范围,从而提高相关词挖掘的全面性。
上述相关词挖掘方法的其他实现方式与前述方法实施例部分提供的相关词挖掘方式相同,这里不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (17)

1.一种相关词挖掘方法,其特征在于,包括:
获得待处理的目标词;
针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;
对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;
基于预先训练的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;
基于所确定出的第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。
2.根据权利要求1所述的方法,其特征在于,所述预设的线性排序模型的表达公式为:
<mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>tan</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>&amp;theta;</mi> <mi>i</mi> </msub> <msub> <mi>distance</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow>
其中,distance(w1,w2)为词w1与词w2的第二语义距离,distancei(w1,w2)为利用第i个词嵌入模型计算得到的词w1与词w2的第一语义距离,θi是第i个词嵌入模型的权重。
3.根据权利要求1或2所述的方法,其特征在于,基于预设的线性排序模型,确定目标词分别与所述目标候选词集合中各个候选词的第二语义距离的步骤,包括:
确定所述目标词与所述目标候选词集合中的各个候选词针对于每个词嵌入模型的第一语义距离;
利用预设的线性排序模型,计算目标词分别与所述目标候选词集合中各个候选词的第二语义距离。
4.根据权利要求1或2所述的方法,其特征在于,所述线性排序模型的训练过程,包括:
初始化线性排序模型,其中,初始化后的线性排序模型中所述M个词嵌入模型所对应的权重具有初始值;
确定多个样本词分别对应的目标候选词集合;
基于每个样本词对应的目标候选词集合,构建每个样本词所对应的多个相关词对,其中,任一样本词所对应多个相关词对中的每一相关词对为:该样本词和所对应目标候选词集合中的候选词;
确定每一相关词对的关系类型;
分别针对每一词嵌入模型,确定每个样本词所对应的多个相关词对关于该词嵌入模型的第一语义距离;
将每个样本词所对应的多个相关词对的多个第一语义距离输入至当前线性排序模型,得到每个样本词所对应的多个相关词对的第二语义距离;
基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值;
在所述损失值符合预定结束条件时,结束训练得到模型,在所述损失值不符合预定结束条件时,调整所述线性排序模型的权重值,并返回执行将每个样本所对应的多个相关词对的多个第一语义距离输入至当前排序模型,得到每个样本所对应的多个相关词对的第二语义距离的步骤。
5.根据权利要求4所述的方法,其特征在于,所述确定多个样本词分别对应的目标候选词集合的步骤,包括:
利用预设的M个词嵌入模型,确定每个样本词对应的初始候选词集合;
针对每个样本词对应的多个初始候选词集合中的词进行去重处理,得到该样本词对应的目标候选词集合。
6.根据权利要求4所述的方法,其特征在于,所述确定多个样本词分别对应的目标候选词集合的步骤,包括:
基于同义词林,得到每个样本词对应的目标候选词集合。
7.根据权利要求4所述的方法,其特征在于,确定每一相关词对的关系类型的步骤,包括:
基于人工标注方式,确定相关词对的关系类型;
或者,
基于同义词词林中的词所在节点的位置关系,确定相关词对的关系类型。
8.根据权利要求4所述的方法,其特征在于,基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值所利用的公式为:
<mrow> <mi>L</mi> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>u</mi> <mo>,</mo> <mi>v</mi> </mrow> </munder> <msub> <mi>L</mi> <mrow> <mi>u</mi> <mi>v</mi> </mrow> </msub> </mrow>
其中,Luv=-P′uvlogPuv-(1-P′uv)log(1-Puv)
<mrow> <msub> <mi>P</mi> <mrow> <mi>u</mi> <mi>v</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>tan</mi> <mi>c</mi> <mi>e</mi> <mo>(</mo> <msub> <mi>p</mi> <mi>u</mi> </msub> <mo>)</mo> <mo>-</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>tan</mi> <mi>c</mi> <mi>e</mi> <mo>(</mo> <msub> <mi>p</mi> <mi>v</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> </mrow>
其中,Luv为包含相关词对的每个相关词对集的损失值,P′uv为相关词对的相关性的预测概率,Puv为相关词对的相关性的目标概率,Pu,Pv分别为相关词对,distance(pu)为pu的第二语义距离,distance(pv)为pv的第二语义距离。
9.一种相关词挖掘装置,其特征在于,包括:
第一获得模块,用于获得待处理的目标词;
第一确定模块,用于针对预设的M个词嵌入模型中的每一词嵌入模型,将所述目标词输入该词嵌入模型,得到所述目标词与该词嵌入模型所对应各个训练词的第一语义距离,并基于所得到的第一语义距离,确定所述目标词关于该词嵌入模型的初始候选词集合;
第二获得模块,用于对M个初始候选词集合中的词进行去重处理,得到所述目标词对应的目标候选词集合;
第二确定模块,用于基于预设的线性排序模型,确定所述目标词分别与所述目标候选词集合中各个候选词的第二语义距离,其中,所述线性排序模型为对所述M个词嵌入模型所对应的第一语义距离加权求和的模型;
第三确定模块,用于基于所确定出的所述第二语义距离,从所述目标候选词集合所包括的候选词中确定所述目标词对应的相关词。
10.根据权利要求9所述的装置,其特征在于,所述第二确定模块所利用的预设的线性排序模型的表达公式为:
<mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>tan</mi> <mi>c</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msub> <mi>&amp;theta;</mi> <mi>i</mi> </msub> <msub> <mi>distance</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> </mrow>
其中,distance(w1,w2)为词w1与词w2的第二语义距离,distancei(w1,w2)为利用第i个词嵌入模型计算得到的词w1与词w2的第一语义距离,θi是第i个词嵌入模型的权重。
11.根据权利要求9或10所述的装置,其特征在于,所述第二确定模块,包括:
第一确定子模块,用于确定所述目标词与所述目标候选词集合中的各个候选词针对于每个词嵌入模型的第一语义距离;
第一计算子模块,用于利用预设的线性排序模型,计算目标词分别与所述目标候选词集合中各个候选词的第二语义距离。
12.根据权利要求9或10所述的装置,其特征在于,所述装置还包括:训练模块,用于训练所述线性排序模型;
所述训练模块包括:
初始化子模块,用于初始化线性排序模型,其中,初始化后的线性排序模型中所述M个词嵌入模型所对应的权重具有初始值;
第二确定子模块,用于确定多个样本词分别对应的目标候选词集合;
构建子模块,用于基于每个样本词对应的目标候选词集合,构建每个样本词所对应的多个相关词对,其中,任一样本词所对应多个相关词对中的每一相关词对为:该样本词和所对应目标候选词集合中的候选词;
第三确定子模块,用于确定每一相关词对的关系类型;
第四确定子模块,用于分别针对每一词嵌入模型,确定每个样本词所对应的多个相关词对关于该词嵌入模型的第一语义距离;
第一获得子模块,用于将每个样本词所对应的多个相关词对的多个第一语义距离输入至当前线性排序模型,得到每个样本词所对应的多个相关词对的第二语义距离;
第二计算子模块,用于基于所得到的第二语义距离和每一相关词对的关系类型,计算损失值;
结束子模块,用于在所述损失值符合预定结束条件时,结束训练得到模型;
调整子模块,用于在所述损失值不符合预定结束条件时,调整所述线性排序模型的权重值,并触发所述第一获得子模块。
13.根据权利要求12所述的装置,其特征在于,所述第二确定子模块,包括:
第一确定单元,用于利用预设的M个词嵌入模型,确定每个样本词对应的初始候选词集合;
第一获得单元,用于针对每个样本词对应的多个初始候选词集合中的词进行去重处理,得到该样本词对应的目标候选词集合。
14.根据权利要求12所述的装置,其特征在于,所述第二确定子模块,包括:
第二获得单元,基于同义词林,得到每个样本词对应的目标候选词集合。
15.根据权利要求12所述的装置,其特征在于,所述第三确定子模块,包括:
第二确定单元,用于基于人工标注方式,确定相关词对的关系类型;
或者,
第三确定单元,用于基于同义词词林中的词所在节点的位置关系,确定相关词对的关系类型。
16.根据权利要求12所述的装置,其特征在于,所述第二计算子模块计算损失值所利用的公式为:
<mrow> <mi>L</mi> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>u</mi> <mo>,</mo> <mi>v</mi> </mrow> </munder> <msub> <mi>L</mi> <mrow> <mi>u</mi> <mi>v</mi> </mrow> </msub> </mrow>
其中,Luv=-P′uvlogPuv-(1-P′uv)log(1-Puv)
<mrow> <msub> <mi>P</mi> <mrow> <mi>u</mi> <mi>v</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>tan</mi> <mi>c</mi> <mi>e</mi> <mo>(</mo> <msub> <mi>p</mi> <mi>u</mi> </msub> <mo>)</mo> <mo>-</mo> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>tan</mi> <mi>c</mi> <mi>e</mi> <mo>(</mo> <msub> <mi>p</mi> <mi>v</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> </mrow>
其中,Luv为包含相关词对的每个相关词对集的损失值,P′uv为相关词对的相关性的预测概率,Puv为相关词对的相关性的目标概率,Pu,Pv分别为相关词对,distance(pu)为pu的第二语义距,distance(pv)为pv的第二语义距离。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
CN201710455435.9A 2017-06-16 2017-06-16 一种相关词挖掘方法及装置 Active CN107357776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710455435.9A CN107357776B (zh) 2017-06-16 2017-06-16 一种相关词挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710455435.9A CN107357776B (zh) 2017-06-16 2017-06-16 一种相关词挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN107357776A true CN107357776A (zh) 2017-11-17
CN107357776B CN107357776B (zh) 2020-09-25

Family

ID=60272362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710455435.9A Active CN107357776B (zh) 2017-06-16 2017-06-16 一种相关词挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN107357776B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271636A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109815501A (zh) * 2019-01-29 2019-05-28 四川无声信息技术有限公司 一种获取群聊文本分类词库的方法及装置
CN110704578A (zh) * 2019-10-09 2020-01-17 精硕科技(北京)股份有限公司 关联关系确定方法、装置、电子设备及可读存储介质
CN112559711A (zh) * 2020-12-23 2021-03-26 作业帮教育科技(北京)有限公司 一种同义文本提示方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2619015A1 (en) * 2008-02-26 2009-08-26 Gerard Voon Word recognition
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN104731851A (zh) * 2014-12-16 2015-06-24 芜湖乐锐思信息咨询有限公司 基于拓扑网络的大数据分析方法
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法
CN106055545A (zh) * 2015-04-10 2016-10-26 穆西格马交易方案私人有限公司 文本挖掘系统及工具
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2619015A1 (en) * 2008-02-26 2009-08-26 Gerard Voon Word recognition
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
CN102760134A (zh) * 2011-04-28 2012-10-31 北京百度网讯科技有限公司 一种同义词的挖掘方法和装置
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN104731851A (zh) * 2014-12-16 2015-06-24 芜湖乐锐思信息咨询有限公司 基于拓扑网络的大数据分析方法
CN106055545A (zh) * 2015-04-10 2016-10-26 穆西格马交易方案私人有限公司 文本挖掘系统及工具
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN105468713A (zh) * 2015-11-19 2016-04-06 西安交通大学 一种多模型融合的短文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐守忠: "文本挖掘关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271636A (zh) * 2018-09-17 2019-01-25 北京神州泰岳软件股份有限公司 词嵌入模型的训练方法及装置
CN109271636B (zh) * 2018-09-17 2023-08-11 鼎富智能科技有限公司 词嵌入模型的训练方法及装置
CN109815501A (zh) * 2019-01-29 2019-05-28 四川无声信息技术有限公司 一种获取群聊文本分类词库的方法及装置
CN110704578A (zh) * 2019-10-09 2020-01-17 精硕科技(北京)股份有限公司 关联关系确定方法、装置、电子设备及可读存储介质
CN110704578B (zh) * 2019-10-09 2022-08-09 北京秒针人工智能科技有限公司 关联关系确定方法、装置、电子设备及可读存储介质
CN112559711A (zh) * 2020-12-23 2021-03-26 作业帮教育科技(北京)有限公司 一种同义文本提示方法、装置及电子设备

Also Published As

Publication number Publication date
CN107357776B (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN107357776B (zh) 一种相关词挖掘方法及装置
CN106407311A (zh) 获取搜索结果的方法和装置
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN110349568A (zh) 语音检索方法、装置、计算机设备及存储介质
CN109902303B (zh) 一种实体识别方法及相关设备
CN109388743B (zh) 语言模型的确定方法和装置
CN104572631B (zh) 一种语言模型的训练方法及系统
CN110390106B (zh) 基于双向关联的语义消歧方法、装置、设备及存储介质
CN104750798A (zh) 一种应用程序的推荐方法和装置
CN109492217B (zh) 一种基于机器学习的分词方法及终端设备
CN109800427B (zh) 一种分词方法、装置、终端及计算机可读存储介质
CN105913125B (zh) 异质信息网络元路径确定、链路预测方法及装置
CN113139052B (zh) 基于图神经网络特征聚合的谣言检测方法及装置
CN108108347B (zh) 对话模式分析系统及方法
CN110532469B (zh) 一种信息推荐方法、装置、设备及存储介质
CN104462327A (zh) 语句相似度的计算、搜索处理方法及装置
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN104951478A (zh) 信息处理方法和信息处理装置
CN114239805A (zh) 跨模态检索神经网络及训练方法、装置、电子设备、介质
CN105335375A (zh) 主题挖掘方法和装置
CN108021544B (zh) 对实体词的语义关系进行分类的方法、装置和电子设备
CN108133240A (zh) 一种基于烟花算法的多标签分类方法及系统
CN105243053A (zh) 提取文档关键句的方法及装置
CN112100509B (zh) 信息推荐方法、装置、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant