CN109726386B - 一种词向量模型生成方法、装置和计算机可读存储介质 - Google Patents

一种词向量模型生成方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN109726386B
CN109726386B CN201711051980.8A CN201711051980A CN109726386B CN 109726386 B CN109726386 B CN 109726386B CN 201711051980 A CN201711051980 A CN 201711051980A CN 109726386 B CN109726386 B CN 109726386B
Authority
CN
China
Prior art keywords
word
sense
senses
determining
vector model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711051980.8A
Other languages
English (en)
Other versions
CN109726386A (zh
Inventor
李小涛
游树娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711051980.8A priority Critical patent/CN109726386B/zh
Publication of CN109726386A publication Critical patent/CN109726386A/zh
Application granted granted Critical
Publication of CN109726386B publication Critical patent/CN109726386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种词向量模型生成方法、装置和计算机可读存储介质,所述方法包括:确定初始词向量模型中每个词对应的词义数量;基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;基于词义标识后的语料库,对词向量重新进行训练。

Description

一种词向量模型生成方法、装置和计算机可读存储介质
技术领域
本发明涉及移动通信技术领域,尤其涉及一种词向量模型生成方法、装置和计算机可读存储介质。
背景技术
词向量(word embedding)是词的特征表示,通过语义词典或机器学习技术将每个词表示为固定长度的向量。基于词向量模型,可以进行许多后续的自然语言处理和机器学习方面的应用。目前,词向量模型在语义网、信息检索、数据挖掘、信息集成、知识管理、文本分类、语音识别、词义消歧等领域发挥着越来越重要的作用。
词向量的表示方法主要分为独热表示(One-hot representation)和分布式表示(Distributed representation)两种。其中,分布式的词向量基于神经网络的思想利用语料库中每个词的上下文信息来训词向量模型,从而得到整个语料库所有词的词向量。当语料库规模较大时,包含词汇量甚至超过语义词典。但是,词向量模型中每个词使用唯一的词向量表示,即使一个词能够表达多个词义也不例外。由于多义词不同词义的上下文语境不同,使得每个多义词的词向量实际上是多个词义的一个折中,这在一定程度上弱化了每个单独的词义,例如:一些词在不同文本中表达的词义各不相同,如果词向量不能区分每个多义词的词义,必然造成分类准确性的下降。
发明内容
有鉴于此,本发明实施例期望提供一种词向量模型生成方法、装置和计算机可读存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种词向量模型生成方法,该方法包括:
确定初始词向量模型中每个词对应的词义数量;
基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;
基于词义标识后的语料库,对词向量重新进行训练。
其中,所述确定初始词向量模型中每个词对应的词义数量,包括:
利用层次聚类算法确定初始词向量模型中每个词对应的词义数量。
其中,所述确定初始词向量模型中每个词对应的词义数量,包括:
确定所述初始词向量模型中每个词对应的词集合,所述词集合中的各个词之间的距离满足预设条件;
对所述词集合中的词进行层次聚类;
确定所述层次聚类收敛后的分类,所述分类的数量为所述每个词对应的词义数量。
可选的,所述确定初始词向量模型中每个词对应的词义数量时或之后,该方法还包括:
设置所述每个词对应的每个词义的词义标号。
其中,所述基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识,包括:
基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;
确定当前的词所表达的词义对应的所述词义标号;
利用所述词义标号对该当前的词进行标识。
其中,所述基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义,包括:
将每个文本中的每个词设置为有向图的一个阶段,词的每个词义作为阶段的一个节点;
获取相邻阶段节点之间权值的最大值;
所述权值的最大值对应的节点为所述文本中每个词的词义。
可选的,所述确定初始词向量模型中每个词对应的词义数量之前,该方法还包括:
利用神经网络从已选择的语料库中进行词向量训练,得到所述初始词向量模型。
本发明实施例还提供了一种词向量模型生成装置,该装置包括:
数量确定模块,用于确定初始词向量模型中每个词对应的词义数量;
词义标识模块,用于基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;
训练模块,用于基于词义标识后的语料库,对词向量重新进行训练。
本发明实施例还提供了一种词向量模型生成装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的词向量模型生成方法、装置和计算机可读存储介质,确定初始词向量模型中每个词对应的词义数量;基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;基于词义标识后的语料库,对词向量重新进行训练。本发明实施例经重新训练后生成的多义词词向量模型中,每个多义词的不同词义均对应唯一的词向量,相比现有对于词义的表达更为准确,提高词向量模型表达词义的准确性。
附图说明
图1为本发明实施例所述词向量模型生成方法流程示意图一;
图2为本发明实施例所述词向量模型生成装置结构示意图一;
图3为本发明实施例所述数量确定模块的结构示意图;
图4为本发明实施例所述词义标识模块的结构示意图;
图5为本发明实施例所述词向量模型生成装置结构示意图二;
图6为本发明实施例所述词向量模型生成方法流程示意图二;
图7为本发明实施例所述基于层次聚类的词义数量识别示意图;
图8为本发明实施例所述基于动态规划的词义认知方法示意图。
具体实施方式
下面结合附图和实施例对本发明进行描述。
本发明实施例提供了一种词向量模型生成方法,如图1所示,该方法包括:
步骤101:确定初始词向量模型中每个词对应的词义数量;
步骤102:基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;
步骤103:基于词义标识后的语料库,对词向量重新进行训练。
本发明实施例经重新训练后生成的多义词词向量模型中,每个多义词的不同词义均对应唯一的词向量,相比现有对于词义的表达更为准确,提高词向量模型表达词义的准确性。
本发明实施例中,所述确定初始词向量模型中每个词对应的词义数量,包括:
利用层次聚类算法确定初始词向量模型中每个词对应的词义数量。
本发明实施例中,所述确定初始词向量模型中每个词对应的词义数量,包括:
确定所述初始词向量模型中每个词对应的词集合,所述词集合中的各个词之间的距离满足预设条件(即:距离所述初始词向量模型中某个词最近的一组词);
对所述词集合中的词进行层次聚类;
确定所述层次聚类收敛后的分类,所述分类的数量为所述每个词对应的词义数量。
一个实施例中,所述确定初始词向量模型中每个词对应的词义数量时或之后,该方法还包括:
设置所述每个词对应的每个词义的词义标号。
本发明实施例中,所述基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识,包括:
基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;
确定当前的词所表达的词义对应的所述词义标号;
利用所述词义标号对该当前的词进行标识。
本发明实施例中,所述基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义,包括:
将每个文本中的每个词设置为有向图的一个阶段,词的每个词义作为阶段的一个节点;
获取相邻阶段节点之间权值的最大值;
所述权值的最大值对应的节点为所述文本中每个词的词义。
一个实施例中,所述确定初始词向量模型中每个词对应的词义数量之前,该方法还包括:
利用神经网络从已选择的语料库中进行词向量训练,得到所述初始词向量模型。
本发明实施例还提了一种词向量模型生成装置,如图2所示,该装置包括:
数量确定模块201,用于确定初始词向量模型中每个词对应的词义数量;
词义标识模块202,用于基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;
训练模块203,用于基于词义标识后的语料库,对词向量重新进行训练。
本发明实施例经重新训练后生成的多义词词向量模型中,每个多义词的不同词义均对应唯一的词向量,相比现有对于词义的表达更为准确,提高词向量模型表达词义的准确性。
本发明实施例中,所述数量确定模块201确定初始词向量模型中每个词对应的词义数量,包括:
利用层次聚类算法确定初始词向量模型中每个词对应的词义数量。
一个实施例中,如图3所示,所述数量确定模块201可包括:
第一确定单元2011,用于确定所述初始词向量模型中每个词对应的词集合,所述词集合中的各个词之间的距离满足预设条件;
处理单元2012,用于对所述词集合中的词进行层次聚类;
第二确定单元2013,用于确定所述层次聚类收敛后的分类,所述分类的数量为所述每个词对应的词义数量。
一个实施例中,所述数量确定模块201确定初始词向量模型中每个词对应的词义数量时或之后,还用于设置所述每个词对应的每个词义的词义标号。
本发明实施例中,如图4所示,所述词义标识模块202包括:
识别单元2021,用于基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;
标号确定单元2022,用于确定当前的词所表达的词义对应的所述词义标号;
标识单元2023,用于利用所述词义标号对该当前的词进行标识。
本发明实施例中,所述识别单元2021基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义,包括:
将每个文本中的每个词设置为有向图的一个阶段,词的每个词义作为阶段的一个节点;
获取相邻阶段节点之间权值的最大值;
所述权值的最大值对应的节点为所述文本中每个词的词义。
本发明实施例中,如图5所示,所述装置还包括:
初始训练模块200,用于数量确定模块201确定初始词向量模型中每个词对应的词义数量之前,利用神经网络从已选择的语料库中进行词向量训练,得到所述初始词向量模型。
本发明实施例还提供了一种词向量模型生成装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
确定初始词向量模型中每个词对应的词义数量;
基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;
基于词义标识后的语料库,对词向量重新进行训练。
所述确定初始词向量模型中每个词对应的词义数量时,所述处理器还用于运行所述计算机程序时,执行:
利用层次聚类算法确定初始词向量模型中每个词对应的词义数量。
所述确定初始词向量模型中每个词对应的词义数量时,所述处理器还用于运行所述计算机程序时,执行:
确定所述初始词向量模型中每个词对应的词集合,所述词集合中的各个词之间的距离满足预设条件;
对所述词集合中的词进行层次聚类;
确定所述层次聚类收敛后的分类,所述分类的数量为所述每个词对应的词义数量。
所述处理器还用于运行所述计算机程序时,执行:
在确定初始词向量模型中每个词对应的词义数量时或之后,设置所述每个词对应的每个词义的词义标号。
所述处理器还用于运行所述计算机程序时,执行:
基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;
确定当前的词所表达的词义对应的所述词义标号;
利用所述词义标号对该当前的词进行标识。
所述处理器还用于运行所述计算机程序时,执行:
将每个文本中的每个词设置为有向图的一个阶段,词的每个词义作为阶段的一个节点;
获取相邻阶段节点之间权值的最大值;
所述权值的最大值对应的节点为所述文本中每个词的词义。
所述处理器还用于运行所述计算机程序时,执行:
在确定初始词向量模型中每个词对应的词义数量之前,利用神经网络从已选择的语料库中进行词向量训练,得到所述初始词向量模型。
需要说明的是:上述实施例提供的装置在词向量模型生成时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将设备的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的装置与相应方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现,执行:
确定初始词向量模型中每个词对应的词义数量;
基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;
基于词义标识后的语料库,对词向量重新进行训练。
所述确定初始词向量模型中每个词对应的词义数量时,所述计算机程序被处理器运行时,还执行:
利用层次聚类算法确定初始词向量模型中每个词对应的词义数量。
所述确定初始词向量模型中每个词对应的词义数量时,所述计算机程序被处理器运行时,还执行:
确定所述初始词向量模型中每个词对应的词集合,所述词集合中的各个词之间的距离满足预设条件;
对所述词集合中的词进行层次聚类;
确定所述层次聚类收敛后的分类,所述分类的数量为所述每个词对应的词义数量。
所述计算机程序被处理器运行时,还执行:
在确定初始词向量模型中每个词对应的词义数量时或之后,设置所述每个词对应的每个词义的词义标号。
所述计算机程序被处理器运行时,还执行:
基于所述已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;
确定当前的词所表达的词义对应的所述词义标号;
利用所述词义标号对该当前的词进行标识。
所述计算机程序被处理器运行时,还执行:
将每个文本中的每个词设置为有向图的一个阶段,词的每个词义作为阶段的一个节点;
获取相邻阶段节点之间权值的最大值;
所述权值的最大值对应的节点为所述文本中每个词的词义。
所述计算机程序被处理器运行时,还执行:
在确定初始词向量模型中每个词对应的词义数量之前,利用神经网络从已选择的语料库中进行词向量训练,得到所述初始词向量模型。
下面结合场景实施例再对本发明进行描述。
本方案提出了一种基于智能语义分割的词向量模型生成方法,能够为多义词的每个词义分别训练词向量,使得一个多义词对应多个词向量。本方法共包含四个步骤,如图6所示,包括:
步骤601:利用神经网络从语料库中训练初始词向量模型;
首先选择语料库进行初始的词向量训练,本方法对词向量模型的训练方法不作特别要求,训练词模型可选择word2vec和Glove等经典的基于神经网络的分布式词向量模型,语料库根据词的语言和应用领域通常选择维基百科、Google新闻等开源的语料库文本集合。
步骤602:利用层次聚类算法确定词向量模型中每个词的词义数量;
利用步骤一中训练的词向量模型,利用余弦距离,可以得到距离所述初始词向量模型中某个词最近的一组词集合,可称之为最近邻集合,在本方案中最近邻集合中词的数量设置为100。通过对这100个词进行自底而上的层次聚类,词之间的距离通过对应的词向量之间的余弦距离计算,通过指定类别间的距离来控制算法的迭代次数。最终得到收敛后的分类,类别的数量即该词的词义个数。图7为当前词经过层次聚类之后,识别出具有三种词义。
步骤603:利用动态规划算法确定语料库每个文本中每个词的词义,并且用词义序号对词语进行标识;
这里,在确定词向量模型中每个词包含的词义数量之后,对语料库中的每个文本下的词进行词义认知,确定当前词表达的是它的第几个词义,然后利用词义标号对该词进行标识,这样语料库集合中每个多义词就被分解为不同词义标号标识的词。如book在不同的文本上下文中,当表示书本时为book_1,表示书写时为book_2。
在本方案中可将文本中每个词词义的认知转化为一个有向图中求解最长路径的动态规划问题,一个文本中的每个词作为有向图的一个阶段,词的每个词义作为阶段的一个节点,相邻阶段节点之间的权值为节点表示的词的最近邻集合中对应词义的聚类中心向量之间余弦距离,聚类中心向量,即:最长路径经过的节点,即文本中每个词表达的真正词义。如图8所示,所述w1至wn表示文本中的n个词,w1_1、w1_2、w1_3表示w1这个词有三个词义,以此类推。图8中的虚线表示所述最长路径,所述最长路径经过的节点w1_2、w2_2、w3_2、wn_1为文本中每个词表达的真正词义。
步骤604:利用神经网络从标识后的语料库中训练多义词向量;
利用步骤三经过词义认知并且标识后的语料库,重新训练词向量模型,此时一个多义词如book,分别具有book_1的词向量和book_2的词向量,其中book_1表示名词书本,在词向量空间下与paper等词的距离更近;book_2表示书写动作,与write等词的距离更近。
本发明实施例提出的语义分割算法不借助任何外部知识库及语义词典,具有非常好的可扩展性,直接利用初始训练的词向量模型,根据距离当前词最近的前100个词进行层次聚类,确定词的词义数量;再通过对语料库中每个文本求解最大词义路径,智能识别出文本中每个词表达的具体词义,并且对该词进行词义标识,进而再次训练词向量模型,实现多义词的多向量精确表达,提高词向量模型表达词义的准确性。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (7)

1.一种词向量模型生成方法,其特征在于,该方法包括:
确定初始词向量模型中每个词对应的词义数量;
基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;
基于词义标识后的语料库,对词向量重新进行训练;
其中,所述确定初始词向量模型中每个词对应的词义数量,包括:
利用层次聚类算法确定初始词向量模型中每个词对应的词义数量;
其中,所述基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识,包括:
基于已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;
确定当前的词所表达的词义对应的所述词义标号;
利用所述词义标号对该当前的词进行标识;
其中,所述基于已确定的词义数量识别所述语料库中的每个文本中的每个词的词义,包括:
将每个文本中的每个词设置为有向图的一个阶段,词的每个词义作为阶段的一个节点;
获取相邻阶段节点之间权值的最大值;
所述权值的最大值对应的节点为所述文本中每个词的词义。
2.根据权利要求1所述的方法,其特征在于,所述确定初始词向量模型中每个词对应的词义数量,包括:
确定所述初始词向量模型中每个词对应的词集合,所述词集合中的各个词之间的距离满足预设条件;
对所述词集合中的词进行层次聚类;
确定所述层次聚类收敛后的分类,所述分类的数量为所述每个词对应的词义数量。
3.根据权利要求1所述的方法,其特征在于,所述确定初始词向量模型中每个词对应的词义数量时或之后,该方法还包括:
设置所述每个词对应的每个词义的词义标号。
4.根据权利要求1所述的方法,其特征在于,所述确定初始词向量模型中每个词对应的词义数量之前,该方法还包括:
利用神经网络从已选择的语料库中进行词向量训练,得到所述初始词向量模型。
5.一种词向量模型生成装置,其特征在于,该装置包括:
数量确定模块,用于确定初始词向量模型中每个词对应的词义数量;
词义标识模块,用于基于所述词义数量确定语料库中的每个文本中每个词的词义,并对该词义进行标识;
训练模块,用于基于词义标识后的语料库,对词向量重新进行训练;
其中,所述确定初始词向量模型中每个词对应的词义数量,包括:
利用层次聚类算法确定初始词向量模型中每个词对应的词义数量;
其中,所述词义标识模块包括:
识别单元,用于基于已确定的词义数量识别所述语料库中的每个文本中的每个词的词义;
标号确定单元,用于确定当前的词所表达的词义对应的所述词义标号;
标识单元,用于利用所述词义标号对该当前的词进行标识;
其中,所述识别单元,具体用于:
将每个文本中的每个词设置为有向图的一个阶段,词的每个词义作为阶段的一个节点;
获取相邻阶段节点之间权值的最大值;
所述权值的最大值对应的节点为所述文本中每个词的词义。
6.一种词向量模型生成装置,其特征在于,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1-4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
CN201711051980.8A 2017-10-30 2017-10-30 一种词向量模型生成方法、装置和计算机可读存储介质 Active CN109726386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711051980.8A CN109726386B (zh) 2017-10-30 2017-10-30 一种词向量模型生成方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711051980.8A CN109726386B (zh) 2017-10-30 2017-10-30 一种词向量模型生成方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109726386A CN109726386A (zh) 2019-05-07
CN109726386B true CN109726386B (zh) 2023-05-09

Family

ID=66294295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711051980.8A Active CN109726386B (zh) 2017-10-30 2017-10-30 一种词向量模型生成方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109726386B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705274B (zh) * 2019-09-06 2023-03-24 电子科技大学 基于实时学习的融合型词义嵌入方法
CN111523312B (zh) * 2020-04-22 2023-06-16 南京贝湾信息科技有限公司 一种基于释义消歧的查词显示方法、装置和计算设备
CN114117054B (zh) * 2022-01-24 2022-05-17 华南师范大学 基于个性词的学生期末评价方法、系统、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN105786782A (zh) * 2016-03-25 2016-07-20 北京搜狗科技发展有限公司 一种词向量的训练方法和装置
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于词义类簇的文本聚类;唐国瑜等;《中文信息学报》;20130515(第03期);全文 *
基于语义关系图的词义消歧方法;罗俊丽;《电脑知识与技术》;20130305(第07期);1548-1550 *
微博主题发现方法综述;徐童童;《内蒙古科技与经济》;20151015(第19期);全文 *
融合距离度量和高斯混合模型的中文词义归纳模型;张宜浩等;《计算机科学》;20170815(第08期);全文 *

Also Published As

Publication number Publication date
CN109726386A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109918673B (zh) 语义仲裁方法、装置、电子设备和计算机可读存储介质
US11322153B2 (en) Conversation interaction method, apparatus and computer readable storage medium
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN106462399B (zh) 代码推荐
CN111160017A (zh) 关键词抽取方法、话术评分方法以及话术推荐方法
CN113569135B (zh) 基于用户画像的推荐方法、装置、计算机设备及存储介质
KR102293538B1 (ko) 음악 심볼들을 인식하기 위한 방법 및 장치
CN110619050B (zh) 意图识别方法及设备
CN110502610A (zh) 基于文本语义相似度的智能语音签名方法、装置及介质
CN109726386B (zh) 一种词向量模型生成方法、装置和计算机可读存储介质
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN112732882A (zh) 用户意图识别方法、装置、设备及计算机可读存储介质
CN114881035A (zh) 训练数据的增广方法、装置、设备和存储介质
CN113255328A (zh) 语言模型的训练方法及应用方法
CN110728147A (zh) 一种模型训练方法及命名实体识别方法
CN111563381B (zh) 文本处理方法和装置
Xu et al. Convolutional neural network using a threshold predictor for multi-label speech act classification
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
CN114282513A (zh) 文本语义相似度的匹配方法、系统、智能终端及存储介质
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
US20230096070A1 (en) Natural-language processing across multiple languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant