CN111738009B - 实体词标签生成方法、装置、计算机设备和可读存储介质 - Google Patents

实体词标签生成方法、装置、计算机设备和可读存储介质 Download PDF

Info

Publication number
CN111738009B
CN111738009B CN201910208175.4A CN201910208175A CN111738009B CN 111738009 B CN111738009 B CN 111738009B CN 201910208175 A CN201910208175 A CN 201910208175A CN 111738009 B CN111738009 B CN 111738009B
Authority
CN
China
Prior art keywords
word
entity
cluster
label
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910208175.4A
Other languages
English (en)
Other versions
CN111738009A (zh
Inventor
吴雪洁
戴明洋
熊金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910208175.4A priority Critical patent/CN111738009B/zh
Publication of CN111738009A publication Critical patent/CN111738009A/zh
Application granted granted Critical
Publication of CN111738009B publication Critical patent/CN111738009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提出一种实体词标签生成方法、装置、计算机设备和可读存储介质,其中,方法包括:将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量;根据第一词向量与各第二词向量间的相似度,确定第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应;将第一词簇对应的标签,确定为第一实体词对应的标签。该方法能够实现自动为实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性。

Description

实体词标签生成方法、装置、计算机设备和可读存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种实体词标签生成方法、装置、计算机设备和可读存储介质。
背景技术
目前,互联网中具有海量数据或者丰富数据,为了避免信息过载以及碎片化,从而更好地发现数据的内在规律,以及更好地理解数据,可以对全领域的实体词进行提炼,概括为更抽象表达的标签。例如,用户日志数据里包含大量的实体词,可以对实体词抽象出兴趣标签,从而可以为用户粒度兴趣的提取提供基础。
现有技术中,通过人工手动的方式,为实体词抽象出标签,然而,人工方式抽象实体词标签,不仅效率较低,而且抽象结果受人的主观知识影响较大,准确性较差。
发明内容
本申请提出一种实体词标签生成方法、装置、计算机设备和可读存储介质,以实现自动为实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性,用于解决现有技术中人工方式抽象实体词标签,不仅效率较低,而且抽象结果受人的主观知识影响较大,准确性较差的技术问题。
本申请第一方面实施例提出了一种实体词标签生成方法,包括:
将待处理的第一实体词进行语义识别,以确定所述第一实体词对应的第一词向量;
根据所述第一词向量与各第二词向量间的相似度,确定所述第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应;
将所述第一词簇对应的标签,确定为所述第一实体词对应的标签。
本申请实施例的实体词标签生成方法,通过将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量,而后,根据第一词向量与各第二词向量间的相似度,确定第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应,最后,将第一词簇对应的标签,确定为第一实体词对应的标签。由此,可以实现自动为实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性。
本申请第二方面实施例提出了一种实体词标签生成装置,包括:
识别模块,用于将待处理的第一实体词进行语义识别,以确定所述第一实体词对应的第一词向量;
第一确定模块,用于根据所述第一词向量与各第二词向量间的相似度,确定所述第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应;
第二确定模块,用于将所述第一词簇对应的标签,确定为所述第一实体词对应的标签。
本申请实施例的实体词标签生成装置,通过将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量,而后,根据第一词向量与各第二词向量间的相似度,确定第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应,最后,将第一词簇对应的标签,确定为第一实体词对应的标签。由此,可以实现自动为实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性。
本申请第三方面实施例提出了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例提出的实体词标签生成方法。
本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面实施例提出的实体词标签生成方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的实体词标签生成方法的流程示意图;
图2为本申请实施例二所提供的实体词标签生成方法的流程示意图;
图3为本申请实施例的聚类效果示意图;
图4为本申请实施例中词簇的标签生成效果示意图;
图5为本申请实施例中词簇的标签生成过程示意图;
图6为本申请实施例三所提供的实体词标签生成方法的流程示意图;
图7为本申请实施例四所提供的实体词标签生成装置的结构示意图;
图8为本申请实施例五所提供的实体词标签生成装置的结构示意图;
图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
本申请主要针对现有技术中人工方式抽象实体词标签,不仅效率较低,而且抽象结果受人的主观知识影响较大,准确性较差的技术问题,提出一种实体词标签生成方法。
本申请实施例的实体词标签生成方法,通过将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量,而后,根据第一词向量与各第二词向量间的相似度,确定第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应,最后,将第一词簇对应的标签,确定为第一实体词对应的标签。由此,可以实现自动为实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性。
下面参考附图描述本申请实施例的实体词标签生成方法、装置、计算机设备和可读存储介质。
图1为本申请实施例一所提供的实体词标签生成方法的流程示意图。
本申请实施例以该实体词标签生成方法被配置于实体词标签生成装置中来举例说明,该实体词标签生成装置可以应用于任一计算机设备中,以使该计算机设备可以执行实体词标签生成功能。
其中,计算机设备可以为个人电脑(PersonalComputer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
本申请实施例中,实体词是指任何有具体含义的词,生成实体词对应的标签,可以在数据匹配时,提升数据匹配的速度和准确性。
作为一种应用场景,通过为各种实体词打标签后,在向用户进行数据推荐时,可以根据用户画像(由各种实体词组成)对应的标签,与待推荐数据对应的标签之间的匹配度,确定目标数据,从而可以向用户推荐目标数据。
如图1所示,该实体词标签生成方法包括以下步骤:
步骤101,将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量。
在自然语言处理中,自然语言文本是由一堆符号顺序拼接而成的不定长序列,很难直接转变为计算机所能理解的数值型数据,因而无法直接进行进一步的计算处理。而词向量由于包含了丰富的信息,使得深度学习能够处理绝大多数自然语言处理应用。因此,本申请实施例中,可以基于相关技术中的相关算法,对第一实体词进行语义识别,确定第一实体词对应的第一词向量,此处不做赘述。
步骤102,根据第一词向量与各第二词向量间的相似度,确定第一实体词的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应。
本申请实施例中,预设的词簇为预先生成的,每个词簇中包含多个实体词,本申请中记为第二实体词,每个第二词向量均是根据对应的第二实体词进行语义识别得到的,即每个第二词向量是根据预设的词簇中的一个第二实体词进行语义识别得到的。
本申请实施例中,相似度可以指余弦相似度、欧式距离相似度、曼哈顿距离相似度等等,对此不作限制。例如,可以基于相关技术中的欧式距离计算公式、曼哈顿距离计算公式、余弦夹角公式,计算第一词向量与各第二词向量间的相似度,此处不做赘述。其中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
可以理解的是,当相似度为余弦相似度时,当余弦相似度接近于1时,表明第一实体词与第二实体词之间的语义越相关,而当余弦相似度接近于0时,表明第一实体词与第二实体词之间的语义越不相关。当相似度为欧式距离相似度时,当欧式距离越大时,表明第一实体词与第二实体词之间的语义越不相关,而当欧式距离越小时,表明第一实体词与第二实体词之间的语义越相关。
为了便于解释说明,本申请实施例中以相似度为余弦相似度进行示例。
本申请实施例中,在确定第一词向量与每个第二词向量之间的相似度后,可以将最大相似度值对应的第二词向量所属的预设的词簇,作为第一实体词的第一词簇。由此,可以将与第一词向量最相似的第二词向量的词簇,作为第一实体词所属的词簇,可以提升词簇的聚类效果。
步骤103,将第一词簇对应的标签,确定为第一实体词对应的标签。
本申请实施例中,可以预先生成各预设的词簇对应的标签,在确定第一实体词的第一词簇后,可以将第一词簇对应的标签,作为第一实体词对应的标签,由此,可以实现根据第一词簇的标签,自动为第一实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性。
本申请实施例的实体词标签生成方法,通过将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量,而后,根据第一词向量与各第二词向量间的相似度,确定第一实体词的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应,最后,将第一词簇对应的标签,确定为第一实体词对应的标签。由此,可以实现自动为实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性。
作为一种可能的实现方式,各预设的词簇对应的标签,是根据相应词簇中的各实体词对应的标签确定的。下面结合图2,对上述过程进行详细说明。
图2为本申请实施例二所提供的实体词标签生成方法的流程示意图。
如图2所示,每个词簇对应的标签的生成过程,可以包括以下步骤:
步骤201,获取多个实体词对,其中,每个实体词对中包括互相对应的实体词及标签。
本申请实施例中,每个实体词对中包括相互对应的实体词及标签,例如,可以标记实体词对为<实体词,标签>。具体地,可以通过对特殊的网站(比如垂类网站)进行数据爬取,获取多个实体词对,或者,还可以通过线上和/或线下采集不同的实体词,并通过人工标注,获取每个实体词对应的标签,从而得到多个实体词对,对此不作限制。由此,通过不同方式获取多个实体词对,可以提升该实体词标签生成方法的灵活性。
步骤202,对每个实体词对中的实体词进行语义识别,确定每个实体词对应的第二词向量。
本申请实施例中,可以通过相关技术中的相关算法,对每个实体词对中的实体词进行语义识别,确定每个实体词对应的第二词向量,此处不作赘述。
步骤203,根据每个实体词对应的第二词向量,将多个实体词对进行分簇处理,以生成多个词簇。
本申请实施例中,在得到每个实体词对应的第二词向量后,可以根据每个实体词对应的第二词向量,将多个实体词对进行分簇处理,得到多个词簇。
作为一种可能的实现方式,可以基于聚类算法,将语义相似的第二词向量对应实体词进行分簇处理,得到多个词簇。比如,可以从多个实体词对中逐一选取一个未被分簇处理的实体词作为候选对象,并计算其他第二词向量与该候选对象对应的第二词向量之间的相似度,利用相似度高于预设阈值的第二词向量对应的实体词,更新候选对象当前对应的词簇,直到多个实体词对中的每个实体词均被分簇处理后,可以得到多个词簇。
作为一种示例,可以通过Kmeans算法,将语义相似的第二词向量对应实体词进行分簇处理,得到多个词簇。例如,参见图3,图3以K=2示例,假设预设的词簇分别为词簇1和词簇2,其中,词簇1和词簇2中的每个结点表示一个实体词,加号表示对应词簇的中心。对于未被分簇处理的实体词A,可以分别计算该实体词A,与词簇1中心的距离以及与词簇2中心的距离,将距离最小值对应的词簇作为实体词A所属的词簇。由图3可知,实体词A与词簇2中心的距离值,小于实体词A与词簇1中心的距离值,因此,可以将词簇2作为实体词A所属的词簇,之后,可以更新词簇2的中心。由此,反复迭代,可以对所有未被分簇处理的实体词进行聚类,得到多个词簇。
需要说明的是,图3仅以聚类算法为Kmeans算法示例,实际应用时,还可以根据其他聚类算法,将语义相似的第二词向量对应实体词进行分簇处理,得到多个词簇,对此不作限制。
步骤204,根据每个词簇中各实体词对应的标签,确定每个实体词簇对应的标签。
可以理解的是,在得到多个词簇后,由于每个词簇中的各实体词之间的语义较为相似,因此,同一词簇中各实体词对应的标签也较为相似。因此,本申请实施例中,可以根据每个词簇中各实体对应的标签,确定每个实体词簇对应的标签。
举例而言,当词簇1中包含5个实体词,其中,4个实体词的标签均为标签A,1个实体词的标签为标签B,则可以将标签A作为该词簇1对应的标签。
作为一种示例,图4为本申请实施例中词簇的标签生成效果示意图。对于词簇3,若实体词A与实体词B对应的标签相同,且置信度较高,则可以根据实体词A和B的标签,确定词簇3的标签。假设实体词A或实体词B的标签为标签1,则生成的词簇3对应的标签为:标签1,此时,可以根据标签1为词簇3中其他的未打标签的实体词,生成对应的标签,即自动为实体词C、D、E、F、G、H生成标签,生成的标签为标签1。由此,可以根据词簇的标签,自动为词簇内的实体词打标签,提升标签的生成效率。
作为一种示例,参见图5,可以预先从知识库中选取多个实体词对,将每个实体词对中的实体词进行语义识别,确定每个实体词对应的词向量,并根据多个词向量,对对应的实体词进行分簇处理(词聚类),生成多个词簇,而后,可以根据每个词簇中各实体词对应的标签,确定每个实体词簇对应的标签(即为每个实体词簇打标签)。
由此,可以不受限于词簇的规模或标签的规模,实现自动且快速地为大规模的实体词打标签,提升标签生成的效率。
本申请实施例的实体词标签生成方法,通过获取多个实体词对,其中,每个实体词对中包括互相对应的实体词及标签;对每个实体词对中的实体词进行语义识别,确定每个实体词对应的第二词向量;根据每个实体词对应的第二词向量,将多个实体词对进行分簇处理,以生成多个词簇;根据每个词簇中各实体词对应的标签,确定每个实体词簇对应的标签。由此,可以实现自动为各词簇打标签,提升标签生成的效率。
作为一种可能的实现方式,为了提升每个实体词簇对应的标签的生成效率,针对步骤204,可以将每个词簇中的各实体词对应的标签进行泛化处理,得到每个实体词簇对应的标签。
本申请实施例中,泛化处理是指从相对低层概念到更高层概念且对词簇中各实体词进行抽象概述的一个分析处理过程,即针对每个词簇,泛化处理是指对该词簇中各实体词对应的标签进行学习、上位的过程,归纳出该词簇对应的标签。
作为另一种可能的实现方式,针对每个词簇,可以根据该词簇中标签相同的实体词个数与该词簇中实体词总个数,确定该词簇对应的标签。下面结合图6,对步骤204进行详细说明。
图6为本申请实施例三所提供的实体词标签生成方法的流程示意图。
如图6所示,当实体词簇为第二词簇时,该第二词簇中包括N个实体词,且N个实体词中有M个实体词对应的标签相同,其中,N和M为整数,且M小于或等于N,在图2所示实施例的基础上,步骤204具体可以包括以下子步骤:
步骤301,判断M/N是否大于或等于阈值,若是,执行步骤302,若否,执行步骤303。
本申请实施例中,阈值为预先设置的,例如可以为70%、80%、90%等等。
步骤302,确定M个实体词对应的标签为第二词簇对应的标签。
本申请实施例中,当M/N大于阈值时,此时,该第二词簇中各实体词的语义较为相似,并且,绝大多数的实体词的标签也相同,因此,可以将标签相同的M个实体词对应的标签,作为第二词簇对应的标签。
步骤303,对其他N-M个实体词对应的标签分别进行消歧处理,以确定其他N-M个实体词对应的标签中包含的参考标签。
本申请实施例中,当M/N小于阈值时,此时,虽然第二词簇中各实体词的语义较为相似,但是,仅有小部分实体词的标签相同,若直接将标签相同的M个实体词对应的标签,作为第二词簇对应的标签,将无法保证后续实体词标签生成的准确性。因此,本申请中,当M/N小于阈值时,可以对其他N-M个实体词对应的标签分别进行消歧处理,得到其他N-M个实体词对应的标签中包含的参考标签。
作为一种可能的实现方式,可以在线或离线获取多个搜索语句,并分别计算其他N-M个实体词对应的标签,与各搜索语句之间的匹配度,根据计算的各匹配度,对其他N-M个实体词对应的标签进行消歧处理,得到其他N-M个实体词对应的标签中包含的参考标签。
举例而言,针对同一搜索语句,对应的搜索结果中包括标签A和标签B,而N-M个实体词对应的标签分别为:标签A、标签B和标签C,则可以认为标签C为与标签A和标签B不同的标签,因此,可以将标签C进行剔除,保留的参考标签为标签A和标签B。
作为另一种可能的实现方式,还可以计算其他N-M个实体词对应的标签间的语义相似度,根据其他N-M个实体词对应的标签间的语义相似度,对其他N-M个实体词对应的标签分别进行消歧处理,得到其他N-M个实体词对应的标签中包含的参考标签。
可以理解的是,语义差别较大标签,可以认为该标签并不准确,因此,可以将该标签进行剔除。因此,本申请中,可以将语义相似度低于设定阈值的标签进行消歧处理,得到其他N-M个实体词对应的标签中包含的参考标签。
步骤304,对参考标签及M个实体词对应的标签进行泛化处理,以确定第二词簇对应的标签。
本申请实施例中,当确定参考标签后,可以对参考标签及M个实体词对应的标签进行泛化处理,即对参考标签和M个实体词对应的标签进行学习、上位,归纳出该第二词簇对应的标签。
本申请实施例的实体词标签生成方法,通过判断M/N是否大于或等于阈值,若是,则确定M个实体词对应的标签为第二词簇对应的标签,若否,则对其他N-M个实体词对应的标签分别进行消歧处理,以确定其他N-M个实体词对应的标签中包含的参考标签,并对参考标签及M个实体词对应的标签进行泛化处理,以确定第二词簇对应的标签。由此,根据M/N确定第二词簇对应的标签,可以提升标签生成结果的准确性。
作为一种可能的实现方式,在确定第一实体词的第一词簇后,可以将第一实体词加入第一词簇中,由此,可以实现不断地扩大词簇的规模,从而可以利用扩大后的词簇,确定更多的实体词对应的标签。
作为一种可能的实现方式,针对步骤102,假设第一词向量与多个第二词向量的相似度相同,且多个第二词向量分别对应多个预设的词簇中的第二实体词,此时,第一实体词与多个词簇匹配,因此,本申请中,为了提升聚类的准确性,可以根据第一词向量与多个预设的词簇中各第二实体词对应的第二词向量间的相似度的均值,确定第一实体词的第一词簇。
具体地,假设第一词向量与L个第二词向量的相似度相同、且L个第二词向量分别对应L个预设的词簇中的第二实体词,其中,L为大于1的正整数。可以分别计算第一词向量与每个预设的词簇中各第二实体词对应的第二词向量间的相似度的均值,将最大均值对应的预设的词簇,作为第一实体词所属的第一词簇。
举例而言,假设预设的词簇A中包括4个第二实体词,第一词向量与4个第二词向量间的相似度分别为s1、s2、s3、s4,则第一词向量与预设的词簇A中各第二实体词对应的第二词向量间的相似度的均值为a1=(s1+s2+s3+s4)/4,假设第一词向量与预设的词簇B中各第二实体词对应的第二词向量间的相似度的均值为a2,且a2大于a1,则可以将预设的词簇B,作为第一实体词所属的第一词簇。
为了实现上述实施例,本申请还提出一种实体词标签生成装置。
图7为本申请实施例四所提供的实体词标签生成装置的结构示意图。
如图7所示,该实体词标签生成装置包括:识别模块101、第一确定模块102,以及第二确定模块103。
其中,识别模块101,用于将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量。
第一确定模块102,用于根据第一词向量与各第二词向量间的相似度,确定第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应。
作为一种可能的实现方式,若第一词向量与L个第二词向量的相似度相同、且L个第二词向量分别对应L个预设的词簇中的第二实体词,其中,L为大于1的正整数,则第一确定模块102,具体用于:根据第一词向量与L个预设的词簇中各第二实体词对应的第二词向量间的相似度的均值,确定第一实体词所属的第一词簇。
第二确定模块103,用于将第一词簇对应的标签,确定为第一实体词对应的标签。
进一步地,在本申请实施例的一种可能的实现方式中,参见图8,在图7所示实施例的基础上,该实体词标签生成装置还可以包括:
获取模块104,用于在将第一词簇对应的标签,确定为第一实体词对应的标签之前,获取多个实体词对,其中,每个实体词对中包括互相对应的实体词及标签。
第三确定模块105,用于对每个实体词对中的实体词进行语义识别,确定每个实体词对应的第二词向量。
处理模块106,用于根据每个实体词对应的第二词向量,将多个实体词对进行分簇处理,以生成多个词簇。
第四确定模块107,用于根据每个词簇中各实体词对应的标签,确定每个实体词簇对应的标签。
作为一种可能的实现方式,第四确定模块107,具体用于:将每个词簇中各实体词对应的标签进行泛化处理,以确定每个实体词簇对应的标签。
作为另一种可能的实现方式,第二词簇中包括N个实体词、且N个实体词中有M个实体词对应的标签相同,其中,N和M为整数,且M小于或等于N,第四确定模块107,具体用于:若M/N大于或等于阈值,则确定M个实体词对应的标签为第二词簇对应的标签;若M/N小于阈值,则对其他N-M个实体词对应的标签分别进行消歧处理,以确定其他N-M个实体词对应的标签中包含的参考标签;对参考标签及M个实体词对应的标签进行泛化处理,以确定第二词簇对应的标签。
作为又一种可能的实现方式,第四确定模块107,具体用于:根据其他N-M个实体词对应的标签,分别与各搜索语句间对应的匹配度,对其他N-M个实体词对应的标签进行消歧处理;或者,根据其他N-M个实体词对应的标签间的语义相似度,对其他N-M个实体词对应的标签分别进行消歧处理。
加入模块108,用于在将第一词簇对应的标签,确定为第一实体词对应的标签之后,将第一实体词加入第一词簇中。
需要说明的是,前述对实体词标签生成方法实施例的解释说明也适用于该实施例的实体词标签生成装置,此处不再赘述。
本申请实施例的实体词标签生成装置,通过将待处理的第一实体词进行语义识别,以确定第一实体词对应的第一词向量,而后,根据第一词向量与各第二词向量间的相似度,确定第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应,最后,将第一词簇对应的标签,确定为第一实体词对应的标签。由此,可以实现自动为实体词打标签,提升标签生成的效率,并且生成的标签不受限于人的主观知识影响,可以提升标签生成的准确性。
为了实现上述实施例,本申请还提出一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本申请前述实施例提出的实体词标签生成方法。
为了实现上述实施例,本申请还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请前述实施例提出的实体词标签生成方法。
图9示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图9显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的实体词标签生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种实体词标签生成方法,其特征在于,所述方法包括以下步骤:
将待处理的第一实体词进行语义识别,以确定所述第一实体词对应的第一词向量;
根据所述第一词向量与各第二词向量间的相似度,确定所述第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应,所述预设的词簇是预先生成的,每个词簇中包含多个实体词;
将所述第一词簇对应的标签,确定为所述第一实体词对应的标签;
所述将所述第一词簇对应的标签,确定为所述第一实体词对应的标签之前,还包括:
获取多个实体词对,其中,每个实体词对中包括互相对应的实体词及标签;
对每个实体词对中的实体词进行语义识别,确定每个实体词对应的第二词向量;
根据每个实体词对应的第二词向量,将多个实体词对进行分簇处理,以生成多个词簇;
根据每个词簇中各实体词对应的标签,确定每个实体词簇对应的标签。
2.如权利要求1所述的方法,其特征在于,所述根据每个词簇中各实体词对应的标签,确定每个实体词簇对应的标签,包括:
将所述每个词簇中各实体词对应的标签进行泛化处理,以确定每个实体词簇对应的标签。
3.如权利要求1所述的方法,其特征在于,第二词簇中包括N个实体词、且所述N个实体词中有M个实体词对应的标签相同,其中,N和M为整数,且M小于或等于N;
所述根据每个词簇中各实体词对应的标签,确定每个实体词簇对应的标签,包括:
若M/N大于或等于阈值,则确定所述M个实体词对应的标签为所述第二词簇对应的标签;
若M/N小于阈值,则对其他N-M个实体词对应的标签分别进行消歧处理,以确定所述其他N-M个实体词对应的标签中包含的参考标签;
对所述参考标签及所述M个实体词对应的标签进行泛化处理,以确定所述第二词簇对应的标签。
4.如权利要求3所述的方法,其特征在于,所述对其他N-M个实体词对应的标签分别进行消歧处理,包括:
根据所述其他N-M个实体词对应的标签,分别与各搜索语句间对应的匹配度,对所述其他N-M个实体词对应的标签进行消歧处理;
或者,
根据所述其他N-M个实体词对应的标签间的语义相似度,对其他N-M个实体词对应的标签分别进行消歧处理。
5.如权利要求1-4任一所述的方法,其特征在于,所述将所述第一词簇对应的标签,确定为所述第一实体词对应的标签之后,还包括:
将所述第一实体词加入所述第一词簇中。
6.如权利要求1-4任一所述的方法,其特征在于,若第一词向量与L个第二词向量的相似度相同、且所述L个第二词向量分别对应L个预设的词簇中的第二实体词,其中,L为大于1的正整数;
则根据所述第一词向量与各第二词向量间的相似度,确定所述第一实体词所属的第一词簇,包括:
根据所述第一词向量与所述L个预设的词簇中各第二实体词对应的第二词向量间的相似度的均值,确定所述第一实体词所属的第一词簇。
7.一种实体词标签生成装置,其特征在于,所述装置包括:
识别模块,用于将待处理的第一实体词进行语义识别,以确定所述第一实体词对应的第一词向量;
第一确定模块,用于根据所述第一词向量与各第二词向量间的相似度,确定所述第一实体词所属的第一词簇,其中,每个第二词向量与预设的词簇中的一个第二实体词对应,所述预设的词簇是预先生成的,每个词簇中包含多个实体词;
第二确定模块,用于将所述第一词簇对应的标签,确定为所述第一实体词对应的标签;
所述装置,还包括:
获取模块,用于在将第一词簇对应的标签,确定为第一实体词对应的标签之前,获取多个实体词对,其中,每个实体词对中包括互相对应的实体词及标签;
第三确定模块,用于对每个实体词对中的实体词进行语义识别,确定每个实体词对应的第二词向量;
处理模块,用于根据每个实体词对应的第二词向量,将多个实体词对进行分簇处理,以生成多个词簇;
第四确定模块,用于根据每个词簇中各实体词对应的标签,确定每个实体词簇对应的标签。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的实体词标签生成方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的实体词标签生成方法。
CN201910208175.4A 2019-03-19 2019-03-19 实体词标签生成方法、装置、计算机设备和可读存储介质 Active CN111738009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910208175.4A CN111738009B (zh) 2019-03-19 2019-03-19 实体词标签生成方法、装置、计算机设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910208175.4A CN111738009B (zh) 2019-03-19 2019-03-19 实体词标签生成方法、装置、计算机设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN111738009A CN111738009A (zh) 2020-10-02
CN111738009B true CN111738009B (zh) 2023-10-20

Family

ID=72646095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910208175.4A Active CN111738009B (zh) 2019-03-19 2019-03-19 实体词标签生成方法、装置、计算机设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN111738009B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822013B (zh) * 2021-03-08 2024-04-05 京东科技控股股份有限公司 用于文本数据的标注方法、装置、计算机设备及存储介质
CN114443850B (zh) * 2022-04-06 2022-07-22 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质
CN115293158B (zh) * 2022-06-30 2024-02-02 撼地数智(重庆)科技有限公司 基于标签辅助的消歧方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056020A (ja) * 2013-09-11 2015-03-23 株式会社東芝 文書分類装置
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN106462807A (zh) * 2014-04-30 2017-02-22 微软技术许可有限责任公司 根据大规模非结构化数据学习多媒体语义
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
CN109101620A (zh) * 2018-08-08 2018-12-28 广州神马移动信息科技有限公司 相似度计算方法、聚类方法、装置、存储介质及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7636730B2 (en) * 2005-04-29 2009-12-22 Battelle Memorial Research Document clustering methods, document cluster label disambiguation methods, document clustering apparatuses, and articles of manufacture
JP2012027845A (ja) * 2010-07-27 2012-02-09 Sony Corp 情報処理装置、関連文提供方法、及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015056020A (ja) * 2013-09-11 2015-03-23 株式会社東芝 文書分類装置
CN106462807A (zh) * 2014-04-30 2017-02-22 微软技术许可有限责任公司 根据大规模非结构化数据学习多媒体语义
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
CN109101620A (zh) * 2018-08-08 2018-12-28 广州神马移动信息科技有限公司 相似度计算方法、聚类方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于词项聚类的文本语义标签抽取研究;李雄等;计算机科学;第417-421+438页 *
陈明编著.《大数据技术概论》.北京:中国铁道出版社,2019,第150页. *

Also Published As

Publication number Publication date
CN111738009A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
US11610384B2 (en) Zero-shot object detection
US11455542B2 (en) Text processing method and device based on ambiguous entity words
US11216504B2 (en) Document recommendation method and device based on semantic tag
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
US10963504B2 (en) Zero-shot event detection using semantic embedding
US11158206B2 (en) Assisting learners based on analytics of in-session cognition
CN109918513B (zh) 图像处理方法、装置、服务器及存储介质
CN109710759B (zh) 文本切分方法、装置、计算机设备和可读存储介质
CN111738009B (zh) 实体词标签生成方法、装置、计算机设备和可读存储介质
JPWO2010119615A1 (ja) 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN110704608A (zh) 文本主题生成方法、装置和计算机设备
CN111949798A (zh) 图谱的构建方法、装置、计算机设备和存储介质
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
CN114741517A (zh) 文本分类模型的训练及文本分类方法、装置、设备和介质
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN117011581A (zh) 图像识别方法、介质、装置和计算设备
CN113806500B (zh) 信息处理方法、装置和计算机设备
US9864930B2 (en) Clustering technique for optimized search over high-dimensional space
US11693925B2 (en) Anomaly detection by ranking from algorithm
CN115169345A (zh) 文本情感分析模型的训练方法、装置、设备及存储介质
US10546247B2 (en) Switching leader-endorser for classifier decision combination
CN111552780B (zh) 医用场景的搜索处理方法、装置、存储介质及电子设备
CN111444319B (zh) 文本匹配方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant