CN112905917A - 内链生成方法、模型训练方法、相关装置及电子设备 - Google Patents

内链生成方法、模型训练方法、相关装置及电子设备 Download PDF

Info

Publication number
CN112905917A
CN112905917A CN202110178043.9A CN202110178043A CN112905917A CN 112905917 A CN112905917 A CN 112905917A CN 202110178043 A CN202110178043 A CN 202110178043A CN 112905917 A CN112905917 A CN 112905917A
Authority
CN
China
Prior art keywords
information
description
entity
vector information
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110178043.9A
Other languages
English (en)
Other versions
CN112905917B (zh
Inventor
雷谦
熊壮
张翔翔
姚后清
施鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110178043.9A priority Critical patent/CN112905917B/zh
Publication of CN112905917A publication Critical patent/CN112905917A/zh
Application granted granted Critical
Publication of CN112905917B publication Critical patent/CN112905917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了内链生成方法、模型训练方法、相关装置及电子设备,涉及互联网中的内链技术领域。具体实现方案为:获取第一实体描述页面的第一描述信息中第一实体的备选集合,所述备选集合包括所述第一实体可链接的M个备选实体;获取所述M个备选实体的M个第一向量信息;基于所述M个第一向量信息,生成所述第一描述信息的N个第二向量信息,N为大于或等于M的正整数;采用语言模型,基于所述N个第二向量信息确定所述第一描述信息的与第二向量信息对应的N个混淆度;基于所述N个混淆度,确定所述第一实体的内链结果。根据本申请的技术,解决了内链技术存在的内链维护成本比较高的问题,降低了内链维护的成本。

Description

内链生成方法、模型训练方法、相关装置及电子设备
技术领域
本申请涉及互联网技术领域,尤其涉及互联网中的内链技术领域,具体涉及一种内链生成方法、模型训练方法、相关装置及电子设备。
背景技术
随着互联网技术的高速发展,内链技术得到了广泛应用。内链技术是指将正文描述中提到的其他实体,以跳转链接的方式,关联到其他实体对应的词条,这样在查看相关词条时,可以为用户提供极大的帮助。
目前,在互联网百科领域中,通常是通过人工来维护内链信息,依靠人工来完成内链的添加、删除和修改。
发明内容
本公开提供了一种内链生成方法、模型训练方法、相关装置及电子设备。
根据本公开的第一方面,提供了一种内链生成方法,包括:
获取第一实体描述页面的第一描述信息中第一实体的备选集合,所述备选集合包括所述第一实体可链接的M个备选实体,M为正整数;
获取所述M个备选实体的M个第一向量信息;
基于所述M个第一向量信息,生成所述第一描述信息的N个第二向量信息,N为大于或等于M的正整数;
采用语言模型,基于所述N个第二向量信息确定所述第一描述信息的与第二向量信息对应的N个混淆度;
基于所述N个混淆度,确定所述第一实体的内链结果。
根据本公开的第二方面,提供了一种模型训练方法,包括:
构建训练语料数据,所述训练语料数据包括第二实体描述页面的第二描述信息,以及基于所述第二描述信息中可链接的实体的标识信息生成的所述第二描述信息的K个描述对象的K个第二标识信息,所述K个描述对象包括所述第二描述信息中可链接的实体,K为大于1的正整数;
基于语言模型对所述K个第二标识信息进行向量化,得到所述K个描述对象的K个第三向量信息;并采用所述语言模型,基于所述第二描述信息的向量信息确定所述第二描述信息的混淆度,所述第二描述信息的向量信息基于所述K个第三向量信息生成;
基于所述第二描述信息的混淆度更新所述语言模型的参数。
根据本公开的第三方面,提供了一种内链生成装置,包括:
第一获取模块,用于获取第一实体描述页面的第一描述信息中第一实体的备选集合,所述备选集合包括所述第一实体可链接的M个备选实体,M为正整数;
第二获取模块,用于获取所述M个备选实体的M个第一向量信息;
生成模块,用于基于所述M个第一向量信息,生成所述第一描述信息的N个第二向量信息,N为大于或等于M的正整数;
第一确定模块,用于采用语言模型,基于所述N个第二向量信息确定所述第一描述信息的与第二向量信息对应的N个混淆度;
第二确定模块,用于基于所述N个混淆度,确定所述第一实体的内链结果。
根据本公开的第四方面,提供了一种模型训练装置,包括:
构建模块,用于构建训练语料数据,所述训练语料数据包括第二实体描述页面的第二描述信息,以及基于所述第二描述信息中可链接的实体的标识信息生成的所述第二描述信息的K个描述对象的K个第二标识信息,所述K个描述对象包括所述第二描述信息中可链接的实体,K为大于1的正整数;
向量化模块,用于基于语言模型对所述K个第二标识信息进行向量化,得到所述K个描述对象的K个第三向量信息;
第三确定模块,用于采用所述语言模型,基于所述第二描述信息的向量信息确定所述第二描述信息的混淆度,所述第二描述信息的向量信息基于所述K个第三向量信息生成;
更新模块,用于基于所述第二描述信息的混淆度更新所述语言模型的参数。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面中的任一项方法,或者实现第二方面中的任一项方法。
根据本申请的技术解决了内链技术存在的内链维护成本比较高的问题,降低了内链维护的成本。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的内链生成方法的流程示意图;
图2是根据本申请第二实施例的模型训练方法的流程示意图;
图3是根据本申请第三实施例的内链生成装置的结构示意图;
图4是根据本申请第四实施例的模型训练装置的结构示意图;
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
第一实施例
如图1所示,本申请提供一种内链生成方法,包括如下步骤:
步骤S101:获取第一实体描述页面的第一描述信息中第一实体的备选集合,所述备选集合包括所述第一实体可链接的M个备选实体。
其中,M为正整数。
本实施例中,内链生成方法涉及互联网技术,具体涉及互联网中的内链技术领域,其可以广泛应用于互联网百科类产品中。该方法可以由本申请实施例的内链生成装置执行。而内链生成装置可以配置在任意电子设备中,以执行本申请实施例的内链生成方法,该电子设备可以服务器,也可以为终端,这里不做具体限定。
在互联网百科类产品中,通常收录了很多词条,这些收录的词条可以称之为实体,而并未收录的词条即为普通的词汇。并且,针对收录的词条通常会有相应的介绍,而描述该词条的网页页面可以称之为实体描述页面。
内链生成装置上可以包括第一实体描述页面的相关数据,所述第一实体描述页面即为描述互联网百科类产品中收录的词条的网页页面,比如,第一实体描述页面可以为描述收录的词条“春雨”的网页页面,该收录的词条“春雨”为与电影相关的词条。
所述第一实体描述页面可以包括第一描述信息,该第一描述信息的语言类型可以为中文,也可以为英文,或者其他语言,这里不做具体限定。所述第一描述信息用于对实体的相关内容进行描述。
通常,所述第一实体描述页面可以包括一至多个第一描述信息。所述第一描述信息可以为描述实体的相关内容的句子,比如,针对“春雨”的词条,所述第一实体描述信息可以包括第一描述信息“春雨是某某年上映的电影”,也可以包括第一描述信息“同年与春雨同时上映的电影包括冬雪”。
所述第一描述信息可以被拆分为多个词汇,比如,针对第一描述信息“同年与春雨同时上映的电影包括冬雪”,可以被拆分为词汇“春雨”、“上映”、“电影”和“冬雪”等。其中,这些被拆分的词汇中,可以包括普通词汇,比如普通词汇“电影”和“上映”等,这些词汇并未被收录,即并未包括在收录的知识库中,也可以包括第一实体,所述第一实体指的是收录在知识库中的词汇,比如“冬雪”,在知识库中收录有电影相关的词条“冬雪”。
所述备选实体可以包括所述第一实体可链接的M个备选实体,比如,针对第一实体“冬雪”,收录词条的知识库中包括“冬雪”的多个词条,这些词条均可以称之为所述第一实体可链接的备选实体。
在一可选实施方式中,所述第一实体的备选集合除了包括所述第一实体可链接的备选集合,其还可以包括普通词汇,比如,在一实施方式中,第一描述信息为“冬雪真漂亮啊”,该第一描述信息中的“冬雪”即为普通词汇。
本申请实施例的目的即是从第一描述信息中第一实体的备选集合中,确定所述第一实体所需要跳转的页面,以针对第一实体生成相应的链接信息。而若针对第一描述信息,确定第一实体在第一描述信息中本质上为一个普通词汇,在该种场景下,可以不做任何处理,即针对第一描述信息中第一实体,不会生成相应的链接信息。
在步骤S101的具体实现过程中,获取第一实体描述页面中的句子,采用实体识别技术为句子找到需要连接的第一实体,并通过查询收录的知识库,找到所述第一实体所有的备选实体,以形成备选集合,所述备选集合可以包括所述第一实体所有的备选实体以及与第一实体字面相同的普通词汇。
例如,第一描述信息为“夺冠为某某年上映的电影”,通过实体识别技术确定词汇“夺冠”为实体,且在知识库中包含两个实体,一个为电影,一个为产品品牌,除此之外,夺冠本身也是一个普通词语,那么备选集合就包含三项元素,分别为普通词汇“夺冠”,电影相关的词条“夺冠”,产品品牌相关的词条“夺冠”。
步骤S102:获取所述M个备选实体的M个第一向量信息。
该步骤中,可以通过向量形式来表征第一描述信息中的各个词汇,且针对第一描述信息中的每个普通词汇和实体,均可以有相对应的向量来表征。
也就是说,每个备选实体均可以对应一个第一向量信息,相应的,M个备选实体则对应M个第一向量信息,且通常不同的词汇,或者字面相同的词汇但表征的实体不同,其对应的向量会存在不同。
可以有两种方式来获取所述M个备选实体的M个第一向量信息,第一种方式为,可以从预先存储的向量表达库中查询表达所述M个备选实体中每个备选实体的向量,得到所述M个第一向量信息,其中,向量表达库中可以包括用于表达常用词汇和常用实体的向量。所述向量表达库可以为训练语言模型时得到的表达各常用词汇和常用实体的向量,所述语言模型可以为word2vec或bert等。
第二种方式可以为,将所述M个备选实体输入至预先训练的语言模型进行向量化,即可得到所述M个备选实体的M个第一向量信息。
步骤S103:基于所述M个第一向量信息,生成所述第一描述信息的N个第二向量信息。
其中,N为大于或等于M的正整数。
该步骤中,将所述备选集合中元素的向量带入至所述第一描述信息中,即可以生成第一描述信息的第二向量信息。其中,将所述备选集合中元素的向量带入至所述第一描述信息中指的是,按照该元素在第一描述信息的位置,将所述备选集合中元素的向量带入至第一描述信息中其他词汇的向量信息中。
比如,第一描述信息包括六个词汇,分别用abcdef表示,而备选集合中元素为词汇c,其对应的向量可以用C1表示,其他词汇按照顺序,其对应的向量可以分别用A1、B1、D1、E1和F1表示,相应的,将词汇c的向量C1带入至第一描述信息中其他词汇的向量信息中,得到第一描述信息的第二向量信息。其中,第二向量信息中向量的排列顺序与第一描述信息中词汇的排列顺序相同,可以为A1B1C1D1E1F1。
另外,针对所述备选集合中的每一个元素,均可以生成第一描述信息的一个第二向量信息,相应的,在所述备选集合包括N个元素的情况下,即可以生成第一描述信息的N个第二向量信息。
步骤S104:采用语言模型,基于所述N个第二向量信息确定所述第一描述信息的与第二向量信息对应的N个混淆度。
该步骤中,一个混淆度可以对应一个第二向量信息。
所述语言模型可以为word2vec或bert等,所述语言模型在使用之前需要预先训练,以得到与向量表达相匹配的语言模型。其中,与向量表达相匹配指的是,针对符合语义的句子即正常语句,基于语言模型将句子中词汇进行向量化,并基于句子中词汇的向量得到句子的向量信息之后,该语言模型基于该句子的向量信息可以判定该句子是符合语义的句子。而针对不符合语义的句子即非正常语句,该语言模型基于该句子的向量信息可以判定该句子是不符合语义的句子。
第一描述信息的混淆度可以表征第一描述信息是否为非正常语句,其可以看成是一个评分值的参数,表征的是第一描述信息是否通顺,当混淆度越高时,表征第一描述信息越不通顺,其为非正常语句,而当混淆度越低时,表征第一描述信息越通顺,其为正常语句。
可以将所述N个第二向量信息中每个第二向量信息输入至语言模型进行混淆度计算,得到第一描述信息的N个混淆度,语言模型可以针对每个第二向量信息,确定第一描述信息的一个混淆度。
比如,针对第一描述信息“夺冠为某某年上映的电影”,在词汇“夺冠”为电影相关的实体的情况下,针对第一描述信息相应的第二向量信息,确定第一描述信息的混淆度,而在词汇“夺冠”为产品品牌的情况下,针对第一描述信息相应的第二向量信息,确定第一描述信息的混淆度,在词汇“夺冠”为普通词汇的情况下,针对第一描述信息相应的第二向量信息,确定第一描述信息的混淆度。
其中,基于语言模型如word2vec,确定所述第一描述信息的混淆度可以参照相关技术,这里不做具体介绍。
步骤S105:基于所述N个混淆度,确定所述第一实体的内链结果。
所述内链结果可以包括两种,第一种可以为包括目标链接信息,即基于所述N个混淆度,确定所述第一实体确为一个实体,相应的,可以生成目标链接信息,该目标链接信息即为该实体的链接信息。比如,第一描述信息“夺冠为某某年上映的电影”,基于所述N个混淆度,确定“夺冠”为电影相关的实体,即可以生成该实体的链接信息,相应的,用户在点击第一描述信息中的词汇“夺冠”的情况下,即可以自动跳转至电影相关的实体“夺冠”的网页页面。
第二种可以为不包括链接信息,即基于所述N个混淆度,确定第一描述信息中第一实体为一个普通词汇,在该种情况下,即不会生成该词汇的链接信息。比如,第一描述信息“竞赛夺冠”,在该第一描述信息中,“夺冠”即为一个普通词汇,相应不会生成其的链接信息。
本实施例中,通过获取第一描述信息中第一实体的M个备选实体的第一向量信息,基于所述M个备选实体的第一向量信息,生成第一描述信息的N个第二向量信息,采用语言模型,基于所述N个第二向量信息确定所述第一描述信息的N个混淆度,并基于所述N个混淆度,确定所述第一实体的内链结果。如此,可以自动产出内链,从而无需通过人工来维护内链信息,进而可以降低内链的维护成本。若结合人工审核产出的内链,其内链生成的效果更好。同时,自动生成内链,其内链的召回率可以提高,从而可以召回网页页面的更多内链。
并且,通过将第一描述信息视为具有顺序的词汇和实体的列表,依据备选实体的第一向量信息,生成所述第一描述信息的N个第二向量信息,并采用语言模型,基于所述N个第二向量信息确定所述第一描述信息的N个混淆度,基于所述N个混淆度,确定所述第一实体的内链结果。如此,以词汇和实体联合向量化的方式,可以提高内链生成的高效性和准确性。
另外,内链生成的时效性强,语言模型可以快速更新,根据不断更新的词条,对内链进行相应的更新。
可选的,所述步骤S105具体包括:
确定目标向量信息,所述目标向量信息为所述N个混淆度中最小的混淆度对应的第二向量信息;
在所述目标向量信息与所述M个备选实体中的备选实体对应的情况下,确定包括目标链接信息的所述内链结果,所述目标链接信息为所述M个备选实体中所述目标向量信息对应的备选实体的链接信息。
本实施方式中,确定所述N个第二向量信息中的目标向量信息,所述目标向量信息可以为N个混淆度中最小的混淆度对应的第二向量信息。其中,N个混淆度中最小的混淆度表征其对应的第一描述信息越通顺,相应的,由于第一描述信息在语言模型中以向量形式表征,则由目标向量信息表征的第一描述信息在语义上相对于其他第二向量信息表征的第一描述信息,其是最通顺的。
进一步的,在确定目标向量信息的情况下,可以基于目标向量信息,确定所述备选集合中的元素,以确定所述第一实体是否与所述M个备选实体中的备选实体对应。其中,所述备选集合中的元素可以包括所述M个备选实体,也可以包括与第一实体字面相同的普通词汇。
由于第二向量信息是基于所述备选集合中元素的向量生成,相应的,可以确定目标向量信息与备选集合中的目标元素对应,若目标元素为备选实体,则可以相应生成该目标元素对应的内链结果,该内链结果中可以包括该目标元素的链接信息即目标链接信息。
本实施方式中,通过确定目标向量信息,并确定所述目标向量信息对应的目标元素,在目标元素为备选实体的情况下,可以自动生成目标链接信息,从而可以自动产出内链,无需通过人工来维护内链信息,从而可以降低内链的维护成本。
另外,在目标元素为与第一实体字面相同的普通词汇的情况下,确定不包括链接信息的内链结果,则针对第一实体,可以不产出内链,从而可以将实体回退至普通词汇,进而可以提高内链产出的准确性。
可选的,所述步骤S102具体包括:
获取所述M个备选实体中每个备选实体的第一标识信息;
将所述M个备选实体的第一标识信息输入至所述语言模型进行向量化,得到所述M个备选实体的M个第一向量信息。
本实施方式中,所述第一标识信息可以为针对字面和语义的唯一标识信息,其中,针对字面和语义指的是字面相同的词汇,若语义不同,则其标识也不同,并且字面不同的词汇,则其标识也不同。
比如,词汇“夺冠”,其表征的语义可以包括多个,分别电影相关的实体、产品品牌相关的实体和普通语义的词汇,这三个语义对应的标识信息均可以不同。
又比如,词汇“美丽”和“漂亮”,其分别对应的标识信息也可以不同。
获取第一标识信息的方式可以有多种,比如,可以从标识库中查询备选集合中每一元素的第一标识信息,所述标识库中可以存储有各个词汇的标识信息。又比如,可以采用现有或新的标识化技术,对备选集合中每一元素进行标识化,得到第一标识信息。
将所述M个备选实体的第一标识信息输入至语言模型进行向量化,得到备选集合中每个元素的向量表达。如此,可以针对每个词汇和实体均可以生成相对应的向量表达,提高了词汇和实体向量化的灵活性。
第二实施例
如图2所示,本申请提供一种模型训练方法200,包括:
步骤S201:构建训练语料数据,所述训练语料数据包括第二实体描述页面的第二描述信息,以及基于所述第二描述信息中可链接的实体的标识信息生成的所述第二描述信息的K个描述对象的K个第二标识信息,所述K个描述对象包括所述第二描述信息中可链接的实体,K为大于1的正整数;
步骤S202:基于语言模型对所述K个第二标识信息进行向量化,得到所述K个描述对象的K个第三向量信息;并采用所述语言模型,基于所述第二描述信息的向量信息确定所述第二描述信息的混淆度,所述第二描述信息的向量信息基于所述K个第三向量信息生成;
步骤S203:基于所述第二描述信息的混淆度更新所述语言模型的参数。
本实施例主要描述的是语言模型的训练过程,针对语言模型的训练,在步骤S201中,可以构建训练语料数据,所述训练语料数据可以包括第二实体描述页面的第二描述信息,以及基于所述第二描述信息中可链接的实体的标识信息生成的所述第二描述信息的K个描述对象的第二标识信息。
上述提到的描述对象可以指的是词汇,其中,词汇可以为普通词汇和收录至知识库的词条即实体。
可以收集词条的第二实体描述页面的正文数据,对正文数据中的第二描述信息进行标识化。具体的,可以对第二描述信息进行切词操作,得到多个词汇。
基于已有的内链信息,对词汇进行标识化,若该词汇没有内链,那么采用该词汇对应的标识信息作为描述对象的第二标识信息,如果该词汇具有内链,那么采用对应跳转的实体的标识信息作为描述对象的第二标识信息。通过这种方式,在出现内链的文本中,就包含了实体和其他词汇,而在不包含内链的文本中,只包含词汇。至此,形成了一份包含常用词、常用实体的词表。
在步骤S202和步骤S203中,可以建立模型训练,训练可以采用常用的语言模型框架比如word2vec,采用word2vec的原因可以是,即使是实体,也满足分布式假设,即单词、实体的含义由上下文决定,而word2vec是上下文建模的不二选项。
而不采用其他语言模型诸如bert等预训练模型的原因,主要包括两点:第一,当前中文bert主要为单字级别,对实体兼容度差;第二,对于字面相同的词汇和实体,bert中难以区分,而采用word2vec可以避免以上缺点,并且计算高效。
在对word2vec的训练过程中,可以基于语言模型对所述K个描述对象的K个第二标识信息进行向量化,得到所述K个描述对象的K个第三向量信息。并可以采用无监督的训练方法基于所述K个第三向量信息对语言模型进行训练。
比如,一个句子如果包含5个词汇,分别为abcde,会被分为6个输入,分别为输入bcde,预测词汇a;输入acde,预测词汇b;输入abde,预测词汇c;输入abce,预测词汇d,输入abcd,预测词汇e;最后输入abcde,预测句子结束,基于第二描述信息即该句子的向量信息确定该句子的混淆度。
在训练过程中,会基于混淆度迭代更新每个词汇对应的向量表达,使得预测的准确率提高,即基于混淆度更新语言模型的参数,具体在混淆度比较大时,更新语言模型的参数,使得词汇的向量表达更加准确。
训练结束时,即基于第二描述信息的向量信息确定该句子结束,且混淆度比较小时,可以产出第二描述信息中所有词汇的向量表达,以及一个与向量表达相匹配的语言模型。
本实施例中,通过充分利用已有的内链信息建立语料,基于该语料生成每个词汇的向量表达,并训练得到一个与向量表达匹配的语言模型。之后,基于该语言模型确定实体的每个备选实体对应的句子的混淆度,以生成该实体的链接信息,这样相对于人工产出内链,更加高效准确。
可选的,所述步骤S201具体包括:
获取所述第二实体描述页面的第二描述信息;
对所述第二描述信息进行切词操作,得到所述K个描述对象;
在基于预先存储的内链信息确定所述K个描述对象包括第二实体的情况下,将所述第二实体的标识信息作为所述第二实体对应的描述对象的标识信息,以得到所述K个第二标识信息,所述内链信息包括所述第二实体描述页面中可链接的实体。
本实施方式中,可以充分利用已有的内链信息建立语料,将句子视为具有顺序的词汇和实体的列表,生成该句子的词表,从而可以针对词汇和实体的列表进行同时建模,进而可以提高模型训练的效果。
第三实施例
如图3所示,本申请提供一种内链生成装置300,包括:
第一获取模块301,用于获取第一实体描述页面的第一描述信息中第一实体的备选集合,所述备选集合包括所述第一实体可链接的M个备选实体,M为正整数;
第二获取模块302,用于获取所述M个备选实体的M个第一向量信息;
生成模块303,用于基于所述M个第一向量信息,生成所述第一描述信息的N个第二向量信息,N为大于或等于M的正整数;
第一确定模块304,用于采用语言模型,基于所述N个第二向量信息确定所述第一描述信息的与第二向量信息对应的N个混淆度;
第二确定模块305,用于基于所述N个混淆度,确定所述第一实体的内链结果。
可选的,其中,所述第二确定模块305包括:
第一确定单元,用于确定目标向量信息,所述目标向量信息为所述N个混淆度中最小的混淆度对应的第二向量信息;
第二确定单元,用于在所述目标向量信息与所述M个备选实体中的备选实体对应的情况下,确定包括目标链接信息的所述内链结果,所述目标链接信息为所述M个备选实体中所述目标向量信息对应的备选实体的链接信息。
可选的,其中,所述第二获取模块302包括:
第一获取单元,用于获取所述M个备选实体中每个备选实体的第一标识信息;
向量化单元,用于将所述M个备选实体的第一标识信息输入至所述语言模型进行向量化,得到所述M个第一向量信息。
本申请提供的内链生成装置300能够实现上述内链生成方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
第四实施例
可选的,如图4所示,本申请提供一种模型训练装置400,包括:
构建模块401,用于构建训练语料数据,所述训练语料数据包括第二实体描述页面的第二描述信息,以及基于所述第二描述信息中可链接的实体的标识信息生成的所述第二描述信息的K个描述对象的K个第二标识信息,所述K个描述对象包括所述第二描述信息中可链接的实体,K为大于1的正整数;
向量化模块402,用于基于语言模型对所述K个第二标识信息进行向量化,得到所述K个描述对象的K个第三向量信息;
第三确定模块403,用于采用所述语言模型,基于所述第二描述信息的向量信息确定所述第二描述信息的混淆度,所述第二描述信息的向量信息基于所述K个第三向量信息生成;
更新模块404,用于基于所述第二描述信息的混淆度更新所述语言模型的参数。
可选的,其中,所述构建模块401包括:
第二获取单元,用于获取所述第二实体描述页面的第二描述信息;
切词单元,用于对所述第二描述信息进行切词操作,得到所述K个描述对象;
第三获取单元,用于在基于预先存储的内链信息确定所述K个描述对象包括第二实体的情况下,将所述第二实体的标识信息作为所述第二实体对应的描述对象的标识信息,以得到所述K个第二标识信息,所述内链信息包括所述第二实体描述页面中可链接的实体。
本申请提供的模型训练装置400能够实现上述模型训练方法实施例实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM503中,还可以存储设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调整解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如内链生成方法或模型训练方法。例如,在一些实施例中,内链生成方法或模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM503并由计算单元501执行时,可以执行上文描述的内链生成方法或模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方法(例如,借助于固件)而被配置为执行内链生成方法或模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编辑语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (13)

1.一种内链生成方法,包括:
获取第一实体描述页面的第一描述信息中第一实体的备选集合,所述备选集合包括所述第一实体可链接的M个备选实体,M为正整数;
获取所述M个备选实体的M个第一向量信息;
基于所述M个第一向量信息,生成所述第一描述信息的N个第二向量信息,N为大于或等于M的正整数;
采用语言模型,基于所述N个第二向量信息确定所述第一描述信息的与第二向量信息对应的N个混淆度;
基于所述N个混淆度,确定所述第一实体的内链结果。
2.根据权利要求1所述的方法,其中,所述基于所述N个混淆度,确定所述第一实体的内链结果,包括:
确定目标向量信息,所述目标向量信息为所述N个混淆度中最小的混淆度对应的第二向量信息;
在所述目标向量信息与所述M个备选实体中的备选实体对应的情况下,确定包括目标链接信息的所述内链结果,所述目标链接信息为所述M个备选实体中所述目标向量信息对应的备选实体的链接信息。
3.根据权利要求1所述的方法,其中,所述获取所述M个备选实体的M个第一向量信息,包括:
获取所述M个备选实体中每个备选实体的第一标识信息;
将所述M个备选实体的第一标识信息输入至所述语言模型进行向量化,得到所述M个备选实体的M个第一向量信息。
4.一种模型训练方法,包括:
构建训练语料数据,所述训练语料数据包括第二实体描述页面的第二描述信息,以及基于所述第二描述信息中可链接的实体的标识信息生成的所述第二描述信息的K个描述对象的K个第二标识信息,所述K个描述对象包括所述第二描述信息中可链接的实体,K为大于1的正整数;
基于语言模型对所述K个第二标识信息进行向量化,得到所述K个描述对象的K个第三向量信息;并采用所述语言模型,基于所述第二描述信息的向量信息确定所述第二描述信息的混淆度,所述第二描述信息的向量信息基于所述K个第三向量信息生成;
基于所述第二描述信息的混淆度更新所述语言模型的参数。
5.根据权利要求4所述的方法,其中,所述构建训练语料数据,包括:
获取所述第二实体描述页面的第二描述信息;
对所述第二描述信息进行切词操作,得到所述K个描述对象;
在基于预先存储的内链信息确定所述K个描述对象包括第二实体的情况下,将所述第二实体的标识信息作为所述第二实体对应的描述对象的标识信息,以得到所述K个第二标识信息,所述内链信息包括所述第二实体描述页面中可链接的实体。
6.一种内链生成装置,包括:
第一获取模块,用于获取第一实体描述页面的第一描述信息中第一实体的备选集合,所述备选集合包括所述第一实体可链接的M个备选实体,M为正整数;
第二获取模块,用于获取所述M个备选实体的M个第一向量信息;
生成模块,用于基于所述M个第一向量信息,生成所述第一描述信息的N个第二向量信息,N为大于或等于M的正整数;
第一确定模块,用于采用语言模型,基于所述N个第二向量信息确定所述第一描述信息的与第二向量信息对应的N个混淆度;
第二确定模块,用于基于所述N个混淆度,确定所述第一实体的内链结果。
7.根据权利要求6所述的装置,其中,所述第二确定模块包括:
第一确定单元,用于确定目标向量信息,所述目标向量信息为所述N个混淆度中最小的混淆度对应的第二向量信息;
第二确定单元,用于在所述目标向量信息与所述M个备选实体中的备选实体对应的情况下,确定包括目标链接信息的所述内链结果,所述目标链接信息为所述M个备选实体中所述目标向量信息对应的备选实体的链接信息。
8.根据权利要求6所述的装置,其中,所述第二获取模块包括:
第一获取单元,用于获取所述M个备选实体中每个备选实体的第一标识信息;
向量化单元,用于将所述M个备选实体的第一标识信息输入至所述语言模型进行向量化,得到所述M个备选实体的M个第一向量信息。
9.一种模型训练装置,包括:
构建模块,用于构建训练语料数据,所述训练语料数据包括第二实体描述页面的第二描述信息,以及基于所述第二描述信息中可链接的实体的标识信息生成的所述第二描述信息的K个描述对象的K个第二标识信息,所述K个描述对象包括所述第二描述信息中可链接的实体,K为大于1的正整数;
向量化模块,用于基于语言模型对所述K个第二标识信息进行向量化,得到所述K个描述对象的K个第三向量信息;
第三确定模块,用于采用所述语言模型,基于所述第二描述信息的向量信息确定所述第二描述信息的混淆度,所述第二描述信息的向量信息基于所述K个第三向量信息生成;
更新模块,用于基于所述第二描述信息的混淆度更新所述语言模型的参数。
10.根据权利要求9所述的装置,其中,所述构建模块包括:
第二获取单元,用于获取所述第二实体描述页面的第二描述信息;
切词单元,用于对所述第二描述信息进行切词操作,得到所述K个描述对象;
第三获取单元,用于在基于预先存储的内链信息确定所述K个描述对象包括第二实体的情况下,将所述第二实体的标识信息作为所述第二实体对应的描述对象的标识信息,以得到所述K个第二标识信息,所述内链信息包括所述第二实体描述页面中可链接的实体。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法,或者执行权利要求4-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的方法,或者执行权利要求4-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-3中任一项所述的方法,或者实现根据权利要求4-5中任一项所述的方法。
CN202110178043.9A 2021-02-09 2021-02-09 内链生成方法、模型训练方法、相关装置及电子设备 Active CN112905917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110178043.9A CN112905917B (zh) 2021-02-09 2021-02-09 内链生成方法、模型训练方法、相关装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110178043.9A CN112905917B (zh) 2021-02-09 2021-02-09 内链生成方法、模型训练方法、相关装置及电子设备

Publications (2)

Publication Number Publication Date
CN112905917A true CN112905917A (zh) 2021-06-04
CN112905917B CN112905917B (zh) 2023-07-25

Family

ID=76123096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110178043.9A Active CN112905917B (zh) 2021-02-09 2021-02-09 内链生成方法、模型训练方法、相关装置及电子设备

Country Status (1)

Country Link
CN (1) CN112905917B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910392A (zh) * 2023-09-04 2023-10-20 杭州阿里巴巴海外网络科技有限公司 内链生成方法、数据处理方法、搜索方法及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150057992A1 (en) * 2006-10-10 2015-02-26 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN111144115A (zh) * 2019-12-23 2020-05-12 北京百度网讯科技有限公司 预训练语言模型获取方法、装置、电子设备和存储介质
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111613341A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于语义成分的实体链接方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150057992A1 (en) * 2006-10-10 2015-02-26 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN111144115A (zh) * 2019-12-23 2020-05-12 北京百度网讯科技有限公司 预训练语言模型获取方法、装置、电子设备和存储介质
CN111581973A (zh) * 2020-04-24 2020-08-25 中国科学院空天信息创新研究院 一种实体消歧方法及系统
CN111613341A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 基于语义成分的实体链接方法及装置
CN111428507A (zh) * 2020-06-09 2020-07-17 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUO ZHAO; RUIXIA ZHANG; XINGHUA LI: "Research on Internal Supply Chain Model of LG Coal Mine", 《2019 PROGNOSTICS AND SYSTEM HEALTH MANAGEMENT CONFERENCE (PHM-QINGDAO)》 *
詹飞;朱艳辉;梁文桐;冀相冰;: "基于BERT和TextRank关键词提取的实体链接方法", 湖南工业大学学报, no. 04 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910392A (zh) * 2023-09-04 2023-10-20 杭州阿里巴巴海外网络科技有限公司 内链生成方法、数据处理方法、搜索方法及计算设备
CN116910392B (zh) * 2023-09-04 2024-01-09 杭州阿里巴巴海外网络科技有限公司 内链生成方法、数据处理方法、搜索方法及计算设备

Also Published As

Publication number Publication date
CN112905917B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN112560496A (zh) 语义分析模型的训练方法、装置、电子设备及存储介质
CN112579727B (zh) 文档内容的提取方法、装置、电子设备及存储介质
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN114333982A (zh) 蛋白质表示模型预训练、蛋白质相互作用预测方法和装置
CN113887627A (zh) 噪音样本的识别方法、装置、电子设备以及存储介质
CN113407698B (zh) 意图识别模型的训练与意图识别的方法、装置
CN113836925A (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN112786108A (zh) 分子理解模型的训练方法、装置、设备和介质
CN113408273B (zh) 文本实体识别模型的训练与文本实体识别方法、装置
CN112989797B (zh) 模型训练、文本扩展方法,装置,设备以及存储介质
CN112905917B (zh) 内链生成方法、模型训练方法、相关装置及电子设备
CN112506359A (zh) 输入法中候选长句的提供方法、装置及电子设备
CN115658903B (zh) 文本分类方法、模型训练方法、相关装置及电子设备
CN114141236B (zh) 语言模型更新方法、装置、电子设备及存储介质
CN113807091B (zh) 词语挖掘方法、装置、电子设备和可读存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN112560466B (zh) 链接实体关联方法、装置、电子设备和存储介质
CN115292467A (zh) 信息处理与模型训练方法、装置、设备、介质及程序产品
CN114201953A (zh) 一种关键词提取、模型训练方法、装置、设备及存储介质
CN113641724A (zh) 知识标签挖掘方法、装置、电子设备及存储介质
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置
CN114896993B (zh) 翻译模型的生成方法、装置、电子设备及存储介质
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备
CN113204667B (zh) 音频标注模型的训练与音频标注的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant