CN111274818A - 词向量的生成方法、装置 - Google Patents

词向量的生成方法、装置 Download PDF

Info

Publication number
CN111274818A
CN111274818A CN202010052395.5A CN202010052395A CN111274818A CN 111274818 A CN111274818 A CN 111274818A CN 202010052395 A CN202010052395 A CN 202010052395A CN 111274818 A CN111274818 A CN 111274818A
Authority
CN
China
Prior art keywords
entity
word
entity word
training
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010052395.5A
Other languages
English (en)
Other versions
CN111274818B (zh
Inventor
刘龙坡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010052395.5A priority Critical patent/CN111274818B/zh
Publication of CN111274818A publication Critical patent/CN111274818A/zh
Application granted granted Critical
Publication of CN111274818B publication Critical patent/CN111274818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请的实施例提供了一种词向量的生成方法、装置。该方法包括:获取实体词集合,所述实体词集合中的实体词具有初始词向量;根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵;基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。通过本申请实施例的技术方案生成的词向量更具准确性。

Description

词向量的生成方法、装置
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种词向量的生成方法、装置。
背景技术
在词向量的生成场景中,通常是通过收集语料库中的语料,然后进行分词,再通过word2vec方法进行训练,最后得到实体词的词向量。在现有方法中,通过word2vec方法训练得到的实体词词向量非常依赖于分词结果以及实体词再语料中的前后位置关系,在实际操作中,通过这种方法得到的词向量的准确性不高。因此,如何能够提高实体词词向量的准确性是亟待解决的技术问题。
发明内容
本申请的实施例提供了一种词向量的生成方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以提高词向量生成的准确性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种词向量的生成方法,包括:获取实体词集合,所述实体词集合中的实体词具有初始词向量;根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵;基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。
根据本申请实施例的一个方面,提供了一种词向量的生成装置,所述装置包括:获取单元,被用于获取实体词集合,所述实体词集合中的实体词具有初始词向量;构建单元,被用于根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;确定单元,被用于根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵;生成单元,被用于基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。
在本申请的一些实施例中,基于前述方案,所述装置还包括第一训练单元,被用于在语料库中确定所述实体词的ID词向量,所述ID词向量用于表示所述实体词在语料中的位置;通过Word2vec神经网络模型对所述实体词的ID词向量进行训练,得到所述实体词的初始词向量。
在本申请的一些实施例中,基于前述方案,所述构建单元配置为:确定实体词集合中各个实体词具有的用户标签的个数;确定实体词集合中任意两个实体词具有的相同用户标签的个数;基于实体词集合中各个实体词具有的用户标签的个数和任意两个实体词具有的相同用户标签的个数,计算实体词集合中任意两个实体词之间的连接边概率;根据所述连接边概率,确定所述实体词集合中任意两个实体词之间的连接边关系,以构建所述实体词集合的第一关系网络。
在本申请的一些实施例中,基于前述方案,所述构建单元配置为:通过以下公式计算所述实体词集合中任意两个实体词的连接边概率:
Figure BDA0002371650550000021
其中,P(a,b)表示实体词集合中实体词a与实体词b之间的连接边概率;Na表示实体词a具有的用户标签的个数;Nb表示实体词b具有的用户标签的个数;Na,b表示实体词集合中实体词a与实体词b具有的相同用户标签的个数。
在本申请的一些实施例中,基于前述方案,所述构建单元配置为:在所述实体词集合中任意两个实体词的连接边概率大于或等于预定阈值时,确定所述实体词集合中任意两个实体词之间存在连接关系;在所述实体词集合中任意两个实体词的连接边概率小于预定阈值时,确定所述实体词集合中任意两个实体词之间存在不连接关系。
在本申请的一些实施例中,基于前述方案,所述装置还包括第二训练单元,被用于获取训练实体词集合,所述训练实体词集合中包括多个训练实体词,其中,各个训练实体词具有初始词向量,任意两个训练实体词之间具有连接边关系;基于所述训练数据集合,对预设模型进行无监督训练,得到所述词向量更新模型。
在本申请的一些实施例中,基于前述方案,所述第二训练单元配置为:通过所述任意两个训练实体词之间具有的连接边关系,构建所述训练实体词集合的第二关系网络,其中,所述第二关系网络中的一个节点对应所述训练实体词集合中的一个训练实体词;基于所述第二关系网络中的节点关系,通过随机节点抽取的方式确定所述训练实体词集合中所述训练实体词的邻接矩阵;基于所述训练实体词的初始词向量以及所述训练实体词的邻接矩阵,对预设模型进行无监督训练。
在本申请的一些实施例中,基于前述方案,所述第二训练单元配置为:基于所述第二关系网络中的节点关系,随机提取当前节点的邻接节点;通过所述当前节点和邻接节点,生成所述当前节点的邻接矩阵;将所述当前节点的邻接矩阵作为所述训练实体词集合中与所述当前节点对应的训练实体词的邻接矩阵。
在本申请的一些实施例中,基于前述方案,所述预设模型包括具有三层全连接层的MLP模型。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的词向量的生成方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的词向量的生成方法。
在本申请的一些实施例所提供的技术方案中,首先通过实体词集合中任意两个实体词之间的连接边关系构建所述实体词集合的第一关系网络,并依据第一关系网络进一步确定所述实体词集合中所述实体词的邻接矩阵,使得词向量更新模型基于实体词集合中实体词的初始词向量和实体词的邻接矩阵生成所述实体词的更新词向量。由于在实体词集合的第一关系网络中包含有实体词之间的连接边关系(即实体实体词之间的连接边关系能够体现出实体词之间关联度或者相似度),且所述词向量更新模型在实体词已有初始词向量的基础上,基于实体词之间的连接边关系而生成的更新词向量具备有实体词之间关联度信息,从而使得更新词向量更具准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示出了根据本申请的一个实施例的词向量的生成方法的流程图;
图3示出了根据本申请的一个实施例的获得实体词的初始词向量的方法流程图;
图4示出了根据本申请的一个实施例的构建所述实体词集合的第一关系网络的细节流程图;
图5示出了根据本申请的一个实施例的确定所述实体词集合中任意两个实体词之间的连接边关系的细节流程图;
图6示出了根据本申请的一个实施例的第一关系网络的示例展示图;
图7示出了根据本申请的一个实施例的获得词向量更新模型的方法流程图;
图8示出了根据本申请的一个实施例的对预设模型进行无监督训练之前的方法流程图;
图9示出了根据本申请的一个实施例的确定所述训练实体词集合中所述训练实体词的邻接矩阵的细节流程图;
图10示出了根据本申请的一个实施例的词向量的生成装置的框图;
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本申请中,所提出的关于词向量生成的技术方案涉及人工智能的自然语言处理(Nature Language processing,NLP)等技术,可以是具体应用于检索系统或者搜索引擎等场景,例如,用于对关键词的检索。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例提供的方案,具体通过如下实施例进行说明:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
在本申请的一个实施例中,用户可以利用终端设备向服务器105请求实体词的词向量,服务器105在接收到这一请求之后,获取实体词集合,其中,所述实体词集合中的实体词具有初始词向量,然后根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络,在根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵,最后,基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过事先训练好的词向量更新模型生成所述实体词的更新词向量。
需要说明的是,本申请实施例所提供的词向量的生成方法一般由服务器105执行,相应地,词向量的生成装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的词向量的生成方案。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
根据本公开的第一方面,提供了一种词向量的生成方法。
参见图2,示出了根据本申请的一个实施例的词向量的生成方法的流程图,该词向量的生成方法可以由具有计算处理功能的设备来执行,比如可以由图1中所示的服务器105来执行,或者由所示终端设备来执行。如图2所示,该词向量的生成方法至少包括步骤210至步骤270:
步骤210,获取实体词集合,所述实体词集合中的实体词具有初始词向量。
步骤230,根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络。
步骤250,根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵。
步骤270,基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。
下面将对如上实施步骤进行详细说明:
在步骤210中,获取实体词集合,所述实体词集合中的实体词具有初始词向量。
在本申请中,所述实体词集合中包括多个实体词,所述多个实体词可以是来源于一个句子,也可以是来源于一段评论,还可以是来源于一篇文章等等。需要注意的,所述是指至少两个实体词。其中,在获取到的实体词集合中,每一个实体词都具有一个初始词向量。
在本申请的一个实施例中,所述实体词的初始词向量可以通过如图3所示的步骤获得。
参见图3,示出了根据本申请的一个实施例的获得实体词的初始词向量的方法流程图,具体可包括步骤211至212:
步骤211,在语料库中确定所述实体词的ID词向量,所述ID词向量用于表示所述实体词在语料中的位置。
具体而言,例如,在语料库中一共包括8个实体词。那么,第1个实体词至第8个实体词的ID词向量就可以分别是“[1 0 0 0 0 0 0 0]、[0 1 0 0 0 0 0 0]、[0 0 1 0 0 0 00]、[0 0 0 1 0 0 0 0]、[0 0 0 0 1 0 0 0]、[0 0 0 0 0 1 0 0]、[0 0 0 0 0 0 1 0]、[00 0 0 0 0 0 1]”。
步骤212,通过Word2vec神经网络模型对所述实体词的ID词向量进行训练,得到所述实体词的初始词向量。
具体而言,所述Word2vec神经网络模型可以用来将每个实体词映射到一个向量,具体可以是把实体词one-hot形式的稀疏的ID词向量映射称为一个n维(n一般为几百)的稠密向量(初始词向量)的过程。因此实体词的初始词向量可用来表示词与词之间的关系,特别是词与词之间的位置关系。
继续参照图2,在步骤230中,根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络。
在本申请的一个实施例中,根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络可以通过图4所示的步骤实现。
参见图4,示出了根据本申请的一个实施例的构建所述实体词集合的第一关系网络的细节流程图,具体可包括步骤231至234:
步骤231,确定实体词集合中各个实体词具有的用户标签的个数。
在本申请中,实体词的用户标签可以是指表示实体词被用户浏览或者阅读过的一个标记,例如,在一篇讲述关于手机的微信公众号文章中,包括有“苹果”、“手机”以及“华为”3个实体词,如果这篇公众号文章被A用户阅读过,那么“苹果”、“手机”以及“华为”这3个实体词就均具有“A”用户标签。
步骤232,确定实体词集合中任意两个实体词具有的相同用户标签的个数。
具体的,例如,实体词集合中的两个实体词分别为“苹果”和“华为”,若“苹果”具有的用户标签分别为“A”、“B”、“C”、“D”,“华为”具有的用户标签分别为“A”、“C”、“D”、“F”。那么实体词“苹果”和“华为”具有的相同用户标签的个数为3个,即包括“A”、“C”、“D”。
步骤233,基于实体词集合中各个实体词具有的用户标签的个数和任意两个实体词具有的相同用户标签的个数,计算实体词集合中任意两个实体词之间的连接边概率。
在一个实施例的具体实现中,可以通过以下公式计算所述实体词集合中任意两个实体词的连接边概率:
Figure BDA0002371650550000081
其中,P(a,b)表示实体词集合中实体词a与实体词b之间的连接边概率;Na表示实体词a具有的用户标签的个数;Nb表示实体词b具有的用户标签的个数;Na,b表示实体词集合中实体词a与实体词b具有的相同用户标签的个数。
在一个实施例的具体实现中,也可以通过以下公式计算所述实体词集合中任意两个实体词的连接边概率:
Figure BDA0002371650550000082
其中,P(a,b)表示实体词集合中实体词a与实体词b之间的连接边概率;Na表示实体词a具有的用户标签的个数;Nb表示实体词b具有的用户标签的个数;Na,b表示实体词集合中实体词a与实体词b具有的相同用户标签的个数。
上述两个具体实现的好处在于,通过P(a,b)表示实体词a,b之间的连接边的概率,可以很好地体现两个实体词在用户行为上的共现关系,进而体现出两个实体词在用户行为上的相关度或者相似度。
步骤234,根据所述连接边概率,确定所述实体词集合中任意两个实体词之间的连接边关系,以构建所述实体词集合的第一关系网络。
在一个实施例的具体实现中,根据所述连接边概率,确定所述实体词集合中任意两个实体词之间的连接边关系可以通过图5所示的步骤实现。
参见图5,示出了根据本申请的一个实施例的确定所述实体词集合中任意两个实体词之间的连接边关系的细节流程图,具体可包括步骤2341至2342:
步骤2341,在所述实体词集合中任意两个实体词的连接边概率大于或等于预定阈值时,确定所述实体词集合中任意两个实体词之间存在连接关系。
步骤2342,在所述实体词集合中任意两个实体词的连接边概率小于预定阈值时,确定所述实体词集合中任意两个实体词之间存在不连接关系。
在本申请中,所述预定阈值可以根据实际情况预先设定,例如将预定阈值设为0.5,如果实体词“苹果”和“华为”之间的连接边概率为P(苹果,华为)=0.6>0.5,那么,实体词“苹果”和“华为”之间存在连接关系。
在本申请中,所述实体词集合的第一关系网络可以是根据所述实体词集合中任意两个实体词之间的连接边关系而构建。
为了使本领域技术人员更加直观的理解所述第一关系网络,下面将参照图6以一个具体的示例加以解释。
参见图6,示出了根据本申请的一个实施例的第一关系网络的示例展示图,
从图6可以看出,与实体词“苹果”具有连接关系的实体词包括:“水果”、“橙子”、“手机”、“华为”、“维C”,而实体词“游戏”、“智能”、“深圳”、“药品”。
继续参照图2,在步骤250中,根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵。
在本申请的一个实施例中,为了使本领域技术人员更加直观的理解根据所述实体词集合的第一关系网络确定所述实体词的邻接矩阵,下面将参照图6和表1加以解释:
在本申请中,若两个实体词之间存在连接关系,则两个实体词在矩阵中的对应关系为“1”;若两个实体词之间存在不连接关系,则两个实体词在矩阵中的对应关系为“0”。因此,参照图6,可以确定如表1所示的关于实体词的邻接矩阵。
苹果 手机 游戏 智能 水果 橙子 维C 药品 华为 深圳
苹果 0 1 0 0 1 1 1 0 1 0
手机 1 0 1 1 0 0 0 0 0 0
游戏 0 1 0 0 0 0 0 0 0 0
智能 0 1 0 0 0 0 0 0 0 0
水果 1 0 0 0 0 1 0 0 0 0
橙子 1 0 0 0 1 0 1 0 0 0
维C 1 0 0 0 0 1 0 1 0 0
药品 0 0 0 0 0 0 1 0 0 0
华为 1 0 0 0 0 0 0 0 0 1
深圳 0 0 0 0 0 0 0 0 1 0
表1
继续参照图2,在步骤270中,基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。
在本申请的一个实施例中,所述词向量更新模型可以通过如图7所示的步骤获得。
参见图7,示出了根据本申请的一个实施例的获得词向量更新模型的方法流程图,具体可包括步骤280至290:
步骤280,获取训练实体词集合,所述训练实体词集合中包括多个训练实体词,其中,各个训练实体词具有初始词向量,任意两个训练实体词之间具有连接边关系。
步骤290,基于所述训练数据集合,对预设模型进行无监督训练,得到所述词向量更新模型。
在一个实施例的具体实现中,基于所述训练数据集合,对预设模型进行无监督训练可以通过如图8所示的步骤实现。
参照图8,示出了根据本申请的一个实施例的对预设模型进行无监督训练之前的方法流程图,具体可包括步骤291至293:
步骤291,通过所述任意两个训练实体词之间具有的连接边关系,构建所述训练实体词集合的第二关系网络,其中,所述第二关系网络中的一个节点对应所述训练实体词集合中的一个训练实体词。
步骤292,基于所述第二关系网络中的节点关系,通过随机节点抽取的方式确定所述训练实体词集合中所述训练实体词的邻接矩阵。
在一个实施例的具体实现中,基于所述第二关系网络中的节点关系,通过随机节点抽取的方式确定所述训练实体词集合中所述训练实体词的邻接矩阵可以通过如图9所示的步骤实现。
参照图9,示出了根据本申请的一个实施例的确定所述训练实体词集合中所述训练实体词的邻接矩阵的细节流程图,具体可包括步骤2921至2923:
步骤2921,基于所述第二关系网络中的节点关系,随机提取当前节点的邻接节点。
具体的,所述提取当前节点的邻接节点的个数可以根据实际情况预先设定,例如,可以设定为随机当前节点的10个邻接节点,也可以设定为随机当前节点的50个邻接节点,还可以设定为随机当前节点的50个邻接节点.
步骤2922,通过所述当前节点和邻接节点,生成所述当前节点的邻接矩阵。
步骤2923,将所述当前节点的邻接矩阵作为所述训练实体词集合中与所述当前节点对应的训练实体词的邻接矩阵。
步骤293,基于所述训练实体词的初始词向量以及所述训练实体词的邻接矩阵,对预设模型进行无监督训练。
在一个实施例的具体实现中,基于所述训练实体词的初始词向量,以及所述训练实体词的邻接矩阵,对预设模型进行无监督训练可以是按照如下四步实现:
第一步:通过对所述邻接节点对应的训练实体词的初始词向量进行维度平均处理,得到所述邻接节点的当前词向量。
具体的,例如,所述邻接节点对应的训练实体词为“实体词B”、“实体词C”、“实体词D”、“实体词E”,其对应的初始词向量分别为“[1 4 7 2 3]”、“[2 1 8 4 5]”、“[5 4 1 34]”、“[1 6 1 5 3]”的5维词向量。将“实体词B”、“实体词C”、“实体词D”、“实体词E”的初始词向量进行维度平均处理之后,得到所述邻接节点的当前词向量“[9/4 15/4 17/4 14/415/4]”。
第二步:将所述邻接节点的当前词向量和所述当前节点的初始词向量进行拼接,生成所述当前节点的当前词向量。
具体的,参照所述上述第一步的例子,例如,当前节点的初始词向量为“[2 7 2 64]”,在将所述邻接节点的当前词向量“[9/4 15/4 17/4 14/4 15/4]”和所述当前节点的初始词向量“[2 7 2 6 4]”进行拼接,生成所述当前节点的维度为10维的当前词向量“[9/415/4 17/4 14/4 15/4 2 7 2 6 4]”。
第三步:将所述当前节点的当前词向量作为所述训练实体词集合中与所述当前节点对应的训练实体词的当前词向量。
第四步:基于与所述当前节点对应的训练实体词的当前词向量,以及所述训练实体词的邻接矩阵,对预设模型进行无监督训练。
在第四步中,继续参照所述上述第一步和第二步的例子。
具体的,将所述维度为10维的当前词向量“[9/4 15/4 17/4 14/4 15/4 2 7 2 64]”输入预设模型进行训练(在本申请中,可以将得到的大量的实体词的当前词向量输入预设模型进行特征聚类,以对预设模型进行无监督训练)。
此外,还可以通过所述训练实体词的邻接矩阵,随机抽取与当前节点对应的训练实体词没有连接关系的训练实体词,通过优化该损失函数来对预设模型的参数进行调整,来得到有连接边的节点特征相似,而没有连接边的节点特征相似的目的。
在本申请中,上述实施例中的预设模型可以是包括具有三层全连接层的MLP模型。具体的,全连接层的神经元个数可以分别为:128,256,100。
在本申请的一些实施例所提供的技术方案中,首先通过实体词集合中任意两个实体词之间的连接边关系构建所述实体词集合的第一关系网络,并依据第一关系网络进一步确定所述实体词集合中所述实体词的邻接矩阵,使得词向量更新模型基于实体词集合中实体词的初始词向量和实体词的邻接矩阵生成所述实体词的更新词向量。由于在实体词集合的第一关系网络中包含有实体词之间的连接边关系(即实体实体词之间的连接边关系能够体现出实体词之间关联度或者相似度),且所述词向量更新模型在实体词已有初始词向量的基础上,基于实体词之间的连接边关系而生成的更新词向量具备有实体词之间关联度信息,从而使得更新词向量更具准确性。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的词向量的生成方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的词向量的生成方法的实施例。
图10示出了根据本申请的一个实施例的词向量的生成装置的框图;
参照图10所示,根据本申请的一个实施例的词向量的生成装置1000,包括:获取单元1001、构建单元1002、确定单元1003和生成单元1004。
其中,获取单元1001,被用于获取实体词集合,所述实体词集合中的实体词具有初始词向量;构建单元1002,被用于根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;确定单元1003,被用于根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵;生成单元1004,被用于基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。
在本申请的一些实施例中,基于前述方案,所述装置还包括第一训练单元,被用于在语料库中确定所述实体词的ID词向量,所述ID词向量用于表示所述实体词在语料中的位置;通过Word2vec神经网络模型对所述实体词的ID词向量进行训练,得到所述实体词的初始词向量。
在本申请的一些实施例中,基于前述方案,所述构建单元1002配置为:确定实体词集合中各个实体词具有的用户标签的个数;确定实体词集合中任意两个实体词具有的相同用户标签的个数;基于实体词集合中各个实体词具有的用户标签的个数和任意两个实体词具有的相同用户标签的个数,计算实体词集合中任意两个实体词之间的连接边概率;根据所述连接边概率,确定所述实体词集合中任意两个实体词之间的连接边关系,以构建所述实体词集合的第一关系网络。
在本申请的一些实施例中,基于前述方案,所述构建单元1002配置为:通过以下公式计算所述实体词集合中任意两个实体词的连接边概率:
Figure BDA0002371650550000141
其中,P(a,b)表示实体词集合中实体词a与实体词b之间的连接边概率;Na表示实体词a具有的用户标签的个数;Nb表示实体词b具有的用户标签的个数;Na,b表示实体词集合中实体词a与实体词b具有的相同用户标签的个数。
在本申请的一些实施例中,基于前述方案,所述构建单元1002配置为:在所述实体词集合中任意两个实体词的连接边概率大于或等于预定阈值时,确定所述实体词集合中任意两个实体词之间存在连接关系;在所述实体词集合中任意两个实体词的连接边概率小于预定阈值时,确定所述实体词集合中任意两个实体词之间存在不连接关系。
在本申请的一些实施例中,基于前述方案,所述装置还包括第二训练单元,被用于获取训练实体词集合,所述训练实体词集合中包括多个训练实体词,其中,各个训练实体词具有初始词向量,任意两个训练实体词之间具有连接边关系;基于所述训练数据集合,对预设模型进行无监督训练,得到所述词向量更新模型。
在本申请的一些实施例中,基于前述方案,所述第二训练单元配置为:通过所述任意两个训练实体词之间具有的连接边关系,构建所述训练实体词集合的第二关系网络,其中,所述第二关系网络中的一个节点对应所述训练实体词集合中的一个训练实体词;基于所述第二关系网络中的节点关系,通过随机节点抽取的方式确定所述训练实体词集合中所述训练实体词的邻接矩阵;基于所述训练实体词的初始词向量以及所述训练实体词的邻接矩阵,对预设模型进行无监督训练。
在本申请的一些实施例中,基于前述方案,所述第二训练单元配置为:基于所述第二关系网络中的节点关系,随机提取当前节点的邻接节点;通过所述当前节点和邻接节点,生成所述当前节点的邻接矩阵;将所述当前节点的邻接矩阵作为所述训练实体词集合中与所述当前节点对应的训练实体词的邻接矩阵。
在本申请的一些实施例中,基于前述方案,所述预设模型包括具有三层全连接层的MLP模型。
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图11示出的电子设备的计算机系统1100仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统1100包括中央处理单元(Central Processing Unit,CPU)1101,其可以根据存储在只读存储器(Read-Only Memory,ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(Random Access Memory,RAM)1103中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1103中,还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output,I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种词向量的生成方法,其特征在于,所述方法包括:
获取实体词集合,所述实体词集合中的实体词具有初始词向量;
根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;
根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵;
基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。
2.根据权利要求1所述的方法,其特征在于,所述实体词的初始词向量可以通过如下方式获得:
在语料库中确定所述实体词的ID词向量,所述ID词向量用于表示所述实体词在语料中的位置;
通过Word2vec神经网络模型对所述实体词的ID词向量进行训练,得到所述实体词的初始词向量。
3.根据权利要求1所述的方法,其特征在于,根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络,包括:
确定实体词集合中各个实体词具有的用户标签的个数;
确定实体词集合中任意两个实体词具有的相同用户标签的个数;
基于实体词集合中各个实体词具有的用户标签的个数和任意两个实体词具有的相同用户标签的个数,计算实体词集合中任意两个实体词之间的连接边概率;
根据所述连接边概率,确定所述实体词集合中任意两个实体词之间的连接边关系,以构建所述实体词集合的第一关系网络。
4.根据权利要求3所述的方法,其特征在于,通过以下公式计算所述实体词集合中任意两个实体词的连接边概率:
Figure FDA0002371650540000021
其中,P(a,b)表示实体词集合中实体词a与实体词b之间的连接边概率;Na表示实体词a具有的用户标签的个数;Nb表示实体词b具有的用户标签的个数;Na,b表示实体词集合中实体词a与实体词b具有的相同用户标签的个数。
5.根据权利要求3所述的方法,其特征在于,所述根据所述连接边概率,确定所述实体词集合中任意两个实体词之间的连接边关系,包括:
在所述实体词集合中任意两个实体词的连接边概率大于或等于预定阈值时,确定所述实体词集合中任意两个实体词之间存在连接关系;
在所述实体词集合中任意两个实体词的连接边概率小于预定阈值时,确定所述实体词集合中任意两个实体词之间存在不连接关系。
6.根据权利要求1所述的方法,其特征在于,所述词向量更新模型可以通过如下方式获得:
获取训练实体词集合,所述训练实体词集合中包括多个训练实体词,其中,各个训练实体词具有初始词向量,任意两个训练实体词之间具有连接边关系;
基于所述训练数据集合,对预设模型进行无监督训练,得到所述词向量更新模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述训练数据集合,对预设模型进行无监督训练,包括:
通过所述任意两个训练实体词之间具有的连接边关系,构建所述训练实体词集合的第二关系网络,其中,所述第二关系网络中的一个节点对应所述训练实体词集合中的一个训练实体词;
基于所述第二关系网络中的节点关系,通过随机节点抽取的方式确定所述训练实体词集合中所述训练实体词的邻接矩阵;
基于所述训练实体词的初始词向量以及所述训练实体词的邻接矩阵,对预设模型进行无监督训练。
8.根据权利要求7所述的方法,其特征在于,基于所述第二关系网络中的节点关系,通过随机节点抽取的方式确定所述训练实体词集合中所述训练实体词的邻接矩阵,包括:
基于所述第二关系网络中的节点关系,随机提取当前节点的邻接节点;
通过所述当前节点和邻接节点,生成所述当前节点的邻接矩阵;
将所述当前节点的邻接矩阵作为所述训练实体词集合中与所述当前节点对应的训练实体词的邻接矩阵。
9.根据权利要求6至8任一项所述的方法,其特征在于,所述预设模型包括具有三层全连接层的MLP模型。
10.一种词向量的生成装置,其特征在于,所述装置包括:
获取单元,被用于获取实体词集合,所述实体词集合中的实体词具有初始词向量;
构建单元,被用于根据所述实体词集合中任意两个实体词之间的连接边关系,构建所述实体词集合的第一关系网络;
确定单元,被用于根据所述实体词集合的第一关系网络,确定所述实体词集合中所述实体词的邻接矩阵;
生成单元,被用于基于所述实体词的初始词向量和所述实体词的邻接矩阵,通过词向量更新模型生成所述实体词的更新词向量。
CN202010052395.5A 2020-01-17 2020-01-17 词向量的生成方法、装置 Active CN111274818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010052395.5A CN111274818B (zh) 2020-01-17 2020-01-17 词向量的生成方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010052395.5A CN111274818B (zh) 2020-01-17 2020-01-17 词向量的生成方法、装置

Publications (2)

Publication Number Publication Date
CN111274818A true CN111274818A (zh) 2020-06-12
CN111274818B CN111274818B (zh) 2023-07-14

Family

ID=71001732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010052395.5A Active CN111274818B (zh) 2020-01-17 2020-01-17 词向量的生成方法、装置

Country Status (1)

Country Link
CN (1) CN111274818B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131883A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 语言模型训练方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446528A (zh) * 2018-10-30 2019-03-08 南京中孚信息技术有限公司 新型诈骗手法识别方法及装置
US20190095806A1 (en) * 2017-09-28 2019-03-28 Siemens Aktiengesellschaft SGCNN: Structural Graph Convolutional Neural Network
CN110162783A (zh) * 2019-04-17 2019-08-23 腾讯科技(深圳)有限公司 用于语言处理的循环神经网络中隐状态的生成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095806A1 (en) * 2017-09-28 2019-03-28 Siemens Aktiengesellschaft SGCNN: Structural Graph Convolutional Neural Network
CN109446528A (zh) * 2018-10-30 2019-03-08 南京中孚信息技术有限公司 新型诈骗手法识别方法及装置
CN110162783A (zh) * 2019-04-17 2019-08-23 腾讯科技(深圳)有限公司 用于语言处理的循环神经网络中隐状态的生成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAŁGORZATA SALAWA: "Whom to Learn From? Graph- vs. Text-basedWord Embeddings", PROCEEDINGS OF RECENT ADVANCES IN NATURAL LANGUAGE PROCESSING *
王美荣;: "基于卷积神经网络的文本分类算法", 佳木斯大学学报(自然科学版), no. 03 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131883A (zh) * 2020-09-30 2020-12-25 腾讯科技(深圳)有限公司 语言模型训练方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111274818B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN107679039B (zh) 用于确定语句意图的方法和装置
CN107491547B (zh) 基于人工智能的搜索方法和装置
US9135240B2 (en) Latent semantic analysis for application in a question answer system
CN110334272B (zh) 基于知识图谱的智能问答方法、装置及计算机存储介质
KR20200094627A (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
CN111737476A (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
US10579655B2 (en) Method and apparatus for compressing topic model
WO2021135455A1 (zh) 语义召回方法、装置、计算机设备及存储介质
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
US11321370B2 (en) Method for generating question answering robot and computer device
CN110275962B (zh) 用于输出信息的方法和装置
CN116010684A (zh) 物品推荐方法、装置及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN111753029A (zh) 实体关系抽取方法、装置
CN115269828A (zh) 用于生成评论回复的方法、设备和介质
CN112686035A (zh) 一种未登录词进行向量化的方法和装置
CN111274818B (zh) 词向量的生成方法、装置
CN112307738A (zh) 用于处理文本的方法和装置
CN117473053A (zh) 基于大语言模型的自然语言问答方法、装置、介质及设备
CN111444335B (zh) 中心词的提取方法及装置
CN114238611B (zh) 用于输出信息的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant