CN111444335A - 中心词的提取方法及装置 - Google Patents

中心词的提取方法及装置 Download PDF

Info

Publication number
CN111444335A
CN111444335A CN201910044850.4A CN201910044850A CN111444335A CN 111444335 A CN111444335 A CN 111444335A CN 201910044850 A CN201910044850 A CN 201910044850A CN 111444335 A CN111444335 A CN 111444335A
Authority
CN
China
Prior art keywords
data
headword
category
extraction
commodity description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910044850.4A
Other languages
English (en)
Other versions
CN111444335B (zh
Inventor
王涛
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910044850.4A priority Critical patent/CN111444335B/zh
Publication of CN111444335A publication Critical patent/CN111444335A/zh
Application granted granted Critical
Publication of CN111444335B publication Critical patent/CN111444335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请实施例提供了一种中心词的提取方法及装置,涉及人工智能领域。其中,所述方法包括:至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。通过本申请实施例,不仅能够有效降低提取商品描述数据的中心词的成本,而且还能够有效地提升商品描述数据的中心词提取的准确率。

Description

中心词的提取方法及装置
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种中心词的提取方法及装置。
背景技术
服务于国际买卖的跨境外贸电商平台,其中所有商品的描述信息多为英文。例如:用户在电商平台搜索的业务场景中,买家输入英文的查询请求内容数据,电商平台通过相关性技术,根据输入的查询请求内容数据检索出最相关的商品。其中,中心词提取模块是相关性技术中最为重要的一个模块,它提取出查询请求内容数据和商品标题的中心词。然后,基于查询请求内容数据和商品标题的中心词进行匹配计算,进而得到相关性分数。中心词提取的准确率决定了相关性的准确率,进而决定了买家在电商平台上购物的用户体验。
在现有技术中,中心词提取模块完全使用人工标注中心词的数据对模块中的深度学习模型进行训练。具体地,对于电商平台中的查询请求内容数据和商品标题各提取一部分,然后人工标注查询请求内容数据和商品标题的中心词,并直接在此基础上进行深度学习模型的训练。然而,人工标注中心词的成本往往很高,通常完成深度学习模型的训练需要花费数万的金额来人工标注数据,从而导致商品描述信息的中心词提取的成本太高。此外,如果后期想要继续提升模型提取中心词的准确率,所需的人工标注中心词的数据量会呈指数级增加,商品描述信息的中心词提取的边际成本会非常之高。
发明内容
本申请的目的在于提出一种中心词的提取方法及装置,用于解决现有技术中存在的如何有效降低提取商品描述数据的中心词的成本的问题。
根据本申请实施例的第一方面,提供了一种中心词的提取方法。所述方法包括:至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
根据本申请实施例的第二方面,提供了一种中心词的提取装置。所述装置包括:第一训练模块,用于至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;第一提取模块,用于通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
通过本申请实施例提供的技术方案,至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;并通过训练后的中心词提取模型,对待提取的商品描述数据进行中心词提取,与现有的其它方式相比,通过商品描述样本的类目标注数据和中心词标注数据对中心词提取模型进行训练,实现类目提取任务与中心词提取任务的多任务学习,不仅能够有效降低提取商品描述数据的中心词的成本,而且还能够有效地提升商品描述数据的中心词提取的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例一中中心词的提取方法的步骤流程图;
图2为本申请实施例二中中心词的提取方法的步骤流程图;
图3为根据本申请实施例二提供的中心词提取模型的训练过程的示意图;
图4为本申请实施例三中中心词的提取装置的结构示意图;
图5为本申请实施例四中中心词的提取装置的结构示意图;
图6为本申请实施例五中中心词的提取装置的结构示意图;
图7为本申请实施例六中电子设备的结构示意图;
图8为本申请实施例七中电子设备的硬件结构。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
参照图1,示出了本申请实施例一的中心词的提取方法的步骤流程图。
具体地,本实施例提供的中心词的提取方法包括以下步骤:
在步骤S101中,至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练。
在本申请实施例中,所述商品描述样本包括用户在电商平台上针对商品的查询请求内容数据,或电商平台的商品标题等。所述中心词标注数据包括针对商品的查询请求内容数据的中心词标注数据,或电商平台的商品标题的中心词标注数据等。在具体的实施方式中,可将现有的中心词提取模型使用的中心词标注数据直接拿来使用,以降低标注中心词数据的成本。所述类目标注数据包括电商平台的商品标题的类目标注数据。另外,在具体的实施方式中,使用商品标题的类目层级也可以达到同样的效果。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在本申请实施例中,所述中心词可理解为电商平台的商品标题或针对商品的查询请求内容数据中与商品最接近的词语,例如,针对商品的查询请求内容数据为“women t-shirt”,那么对应的中心词为“t-shirt”,电商商品的类目可理解为电商平台的商品所属的某个具体的分类,例如,苹果iphone 6s属于手机类目。所述中心词提取模型为多任务学习框架,具体地,为一种深度学习的框架,对深度学习模型添加多个目标同时学习,能有效提升深度学习模型的泛化能力,并最终带来其中主要目标的提升。多任务学习框架的核心是借助相关辅助任务来提升主任务的效果,辅助任务需要与主任务有一定相关度,通过两个任务对深度学习模型的参数同时进行优化,最终达到比只有一个任务时达到更好的效果。多任务学习框架的基本原理是在主任务的标注数据比较少的情况下,大量辅助任务的标注数据可以有效提升主任务模型的泛化性,而在新的数据集上带来效果提升。在电商的特定场景中,商品所属的类目往往与中心词有着非常大的关系,存在着一对多的关系,即一个类目下会存在多个中心词,但一个中心词一般只能属于一个类目,从技术的角度来看,大量的类目标注数据可以有助于提升中心词提取的准确率。此外,在电商平台中,由于电商商品自带类目,那么描述商品的商品标题的类目是必定存在的,因此,可在电商平台中无限制地获取大量的商品标题的类目标注数据,有效地弥补了中心词标注数据的不足,进而大大降低了标注中心词数据的成本。因此,可借助电商商品自带类目来促进中心词任务的效果提升。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在本申请实施例中,所述中心词提取模型包括用于提取商品描述的类目和中心词的共有特征的参数共享层、用于提取商品描述的类目独有特征的类目独有层,及用于提取商品描述的中心词独有特征的中心词独有层,并且所述参数共享层的输出端分别与所述类目独有层和所述中心词独有层的输入端连接。其中,所述参数共享层可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等,所述类目独有层可包括一层全连接的神经网络,所述中心词独有层可为实现余弦函数的功能一层神经网络。在所述中心词提取模型学习训练的过程中,所述中心词提取模型包括两个学习目标,即类目学习目标和中心词学习目标。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练时,基于所述类目标注数据,对所述中心词提取模型中的参数共享层和类目独有层进行训练;基于所述中心词标注数据,对所述中心词提取模型中的所述参数共享层和中心词独有层进行训练。其中,所述类目标注数据具体为商品描述样本的类目标注向量,所述中心词标注数据具体为商品描述样本的中心词标注向量。可以理解的是,任何基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练的实施方式均可适用于此,例如,可基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型中的参数共享层、类目独有层和中心词独有层进行联合训练,本申请实施例对此不做任何限定。
在一些可选实施例中,在基于所述类目标注数据,对所述中心词提取模型中的参数共享层和类目独有层进行训练时,通过所述参数共享层,对所述商品描述样本进行特征提取操作,以获得所述商品描述样本的文本特征数据;通过所述类目独有层,对所述文本特征数据进行映射操作,以获得所述商品描述样本的类目提取数据;基于所述类目提取数据和所述类目标注数据,训练所述参数共享层和所述类目独有层。其中,所述文本特征数据具体为文本特征向量,所述类目提取数据具体为表征提取到的类目的向量。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在基于所述类目提取数据和所述类目标注数据,训练所述参数共享层和所述类目独有层时,通过目标损失函数,确定所述类目提取数据和所述类目标注数据的差异值;基于所述差异值,调整所述参数共享层和所述类目独有层的参数。其中,所述目标损失函数可为交叉熵损失函数、softmax损失函数、L1损失函数、L2损失函数等任意损失函数。在调整所述参数共享层和所述类目独有层的参数时,可采用反向传播算法,或者随机梯度下降算法来调整所述参数共享层和所述类目独有层的参数。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,通过确定所述类目提取数据和所述类目标注数据之间的差异值,对当前获得的类目提取数据进行评估,以作为后续训练所述参数共享层和所述类目独有层的依据。具体地,可将所述差异值反向传输给所述参数共享层和所述类目独有层,从而迭代地训练所述参数共享层和所述类目独有层。所述参数共享层和所述类目独有层的训练是一个迭代的过程,本申请实施例仅对其中的一次训练过程进行了说明,但本领域技术人员应当明了,对所述参数共享层和所述类目独有层的每次训练都可采用该训练方式,直至完成所述参数共享层和所述类目独有层的训练。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在基于所述中心词标注数据,对所述中心词提取模型中的所述参数共享层和中心词独有层进行训练时,通过所述参数共享层,对所述商品描述样本进行特征提取操作,以获得所述商品描述样本的文本特征数据;通过所述中心词独有层,对所述文本特征数据进行处理操作,以获得所述商品描述样本的中心词提取数据;基于所述中心词提取数据和所述中心词标注数据,训练所述参数共享层和所述中心词独有层。其中,所述文本特征数据具体为文本特征向量,所述中心词提取数据具体为表征提取到的中心词的向量。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在通过所述中心词独有层,对所述文本特征数据进行处理操作时,通过所述中心词独有层,基于所述文本特征数据,确定所述商品描述样本中的每个词语分别与所述商品描述样本的相似度;通过所述中心词独有层,基于所述相似度,确定所述商品描述样本的中心词。具体地,所述文本特征数据为文本特征向量,基于文本特征向量,确定表征商品描述样本的语义特征的第一向量和表征商品描述样本中的词语的语义特征的第二向量,再基于所述第一向量和所述第二向量,确定所述商品描述样本中的词语与所述商品描述样本的相似度,然后确定与所述商品描述样本的相似度最大的词语为所述商品描述样本的中心词,并将所述中心词作为中心词提取数据。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在基于所述中心词提取数据和所述中心词标注数据,训练所述参数共享层和所述中心词独有层时,通过目标损失函数,确定所述中心词提取数据和所述中心词标注数据的差异值;基于所述差异值,调整所述参数共享层和所述中心词独有层的参数。其中,所述目标损失函数可为交叉熵损失函数、softmax损失函数、L1损失函数、L2损失函数等任意损失函数。在调整所述参数共享层和所述中心词独有层的参数时,可采用反向传播算法,或者随机梯度下降算法来调整所述参数共享层和所述类目独有层的参数。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,通过确定所述中心词提取数据和所述中心词标注数据之间的差异值,对当前获得的中心词提取数据进行评估,以作为后续训练所述参数共享层和所述中心词独有层的依据。具体地,可将所述差异值反向传输给所述参数共享层和所述中心词独有层,从而迭代地训练所述参数共享层和所述中心词独有层。所述参数共享层和所述中心词独有层的训练是一个迭代的过程,本申请实施例仅对其中的一次训练过程进行了说明,但本领域技术人员应当明了,对所述参数共享层和所述中心词独有层的每次训练都可采用该训练方式,直至完成所述参数共享层和所述中心词独有层的训练。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在步骤S102中,通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
在本申请实施例中,所述待提取的商品描述数据可包括用户在电商平台针对商品的查询请求内容数据,或者电商平台的商品标题。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取,以获得所述待提取的商品描述数据的中心词时,通过所述中心词提取模型中的参数共享层,对所述待提取的商品描述数据进行特征提取操作,以获得所述待提取的商品描述数据的文本特征数据;通过所述中心词提取模型中的中心词独有层,对所述文本特征数据进行处理操作,以获得所述待提取的商品描述数据的中心词。其中,所述文本特征数据可为文本特征向量。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在通过所述中心词提取模型中的参数共享层,对所述待提取的商品描述数据进行特征提取操作时,确定所述待提取的商品描述数据中的词语的语义特征向量;通过所述参数共享层,基于所述语义特征向量,对所述待提取的商品描述数据进行特征提取操作,以获得所述待提取的商品描述数据的文本特征数据。具体地,在确定所述待提取的商品描述数据中的词语的语义特征向量时,对所述商品描述数据进行分词处理,以获得所述商品描述数据的词语序列;通过word2vec模型,对所述商品描述数据的词语序列中的词语分别进行映射操作,以获得所述商品描述数据的词语序列中的每个词语对应的语义特征向量。此外,语义特征向量可以随机初始化,也可以通过大规模语料预训练,并且随着中心词提取模型的训练过程一起学习。之所以使用语义特征向量表征商品描述数据中的词语的语义特征,是因为词语是离散的符号,无法直接作为中心词提取模型的输入。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一些可选实施例中,在通过所述中心词提取模型中的中心词独有层,对所述文本特征数据进行处理操作时,通过所述中心词独有层,基于所述文本特征数据,确定所述待提取的商品描述数据中的每个词语分别与所述待提取的商品描述数据的相似度;通过所述中心词独有层,基于所述相似度,确定所述待提取的商品描述数据的中心词。具体地,所述文本特征数据为文本特征向量,基于文本特征向量,确定表征商品描述数据的语义特征的第三向量和表征商品描述数据中的词语的语义特征的第四向量,再基于所述第三向量和所述第四向量,确定所述商品描述数据中的词语与所述商品描述数据的相似度,然后确定与所述商品描述数据的相似度最大的词语为所述商品描述数据的中心词。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在具体的实施方式中,中心词标注数据采用的是现有中心词提取模型使用的中心词标注数据,类目标注数据采用的是电商平台的商品标题的类目标注数据,借助电商商品所属类目与中心词的关系,在不增加现有的中心词标注数据的情况下,带来了中心词提取准确率绝对值3%的提升。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
通过本申请实施例提供的中心词的提取方法,至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;并通过训练后的中心词提取模型,对待提取的商品描述数据进行中心词提取,与现有的其它方式相比,通过商品描述样本的类目标注数据和中心词标注数据对中心词提取模型进行训练,实现类目提取任务与中心词提取任务的多任务学习,不仅能够有效降低提取商品描述数据的中心词的成本,而且还能够有效地提升商品描述数据的中心词提取的准确率。
本实施例的中心词的提取方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
参照图2,示出了本申请实施例二的中心词的提取方法的步骤流程图。
具体地,本实施例提供的中心词的提取方法包括以下步骤:
在步骤S201中,至少基于商品标题样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练。
在本实施例中,所述商品标题样本的中心词标注数据包括现有的中心词提取模型使用的商品标题样本的中心词标注数据,或者多语言电商商品库的商品标题样本的中心词标注数据。所述商品标题样本的类目标注数据为电商平台的商品标题的类目标注数据,类目标注数据是所有电商平台都包含的,因此这份数据可以无限制获取,有效的弥补了中心词标注数据的不足。在不增加中心词标注数据的情况下,有效地提升了中心词提取的准确率。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在一个具体的例子中,如图3所示,本实施例提供的中心词提取模型包括参数共享层、类目学习层(又称之为类目独有层)和中心词学习层(又称之为中心词独有层)。参数共享层是实现中心词提取模型的关键部分,用于提取商品标题样本的文本特征,类目提取和中心词提取两个任务共享这一层,同时,在训练的过程中,这部分的参数会得到相对充分的学习,相对单个中心词提取任务,参数学习会更加充分,对新数据的泛化能力也会更强。类目学习层,这一层是主要用于学习类目目标,起的是辅助任务的目的,通过参数共享层的学习再加上类目独有层,可以达到提取商品标题样本的类目和中心词的共有特征的目的,同时排除了对中心词提取任务有损害的类目独有特征,在使得帮助中心词提取任务学习的同时,也能使类目学习层得到较好的学习的训练,互不干扰。中心词学习层,这一层是主任务学习层,是中心词提取模型最终的目的,和类目一样设计了独立的模型层,一是避免类目的干扰,二是能提取出中心词独有的特征,帮助中心词更好的学习。学习目标包括类目学习目标和中心词学习目标,类目是电商自带类目,对商品标题进行多分类,中心词学习目标则是对中心词进行学习,学习的目标是使得最重要的词语相似度变大,而不重要的词相似度变小。可以理解的是,以上描述仅为示例性的,本申请实施例对此不做任何限定。
在步骤S202中,通过训练后的所述中心词提取模型,对待提取的商品标题进行中心词提取。
由于该步骤S202与上述步骤S102类似,在此不再赘述。
通过本申请实施例提供的中心词的提取方法,至少基于商品标题样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;并通过训练后的中心词提取模型,对待提取的商品标题进行中心词提取,与现有的其它方式相比,通过商品标题样本的类目标注数据和中心词标注数据对中心词提取模型进行训练,实现类目提取任务与中心词提取任务的多任务学习,不仅能够有效降低提取商品标题的中心词的成本,而且还能够有效地提升商品标题的中心词提取的准确率。
本实施例的中心词的提取方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
参照图4,示出了本申请实施例三中中心词的提取装置的结构示意图。
本实施例的中心词的提取装置包括:第一训练模块301,用于至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;第一提取模块302,用于通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
本实施例的中心词的提取装置用于实现前述多个方法实施例中相应的中心词的提取方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图5,示出了本申请实施例四中中心词的提取装置的结构示意图。
本实施例的中心词的提取装置包括:第一训练模块401,用于至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;第一提取模块402,用于通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
可选地,所述第一训练模块401,包括:第二训练模块4011,用于基于所述类目标注数据,对所述中心词提取模型中的参数共享层和类目独有层进行训练;第三训练模块4015,用于基于所述中心词标注数据,对所述中心词提取模型中的所述参数共享层和中心词独有层进行训练。
可选地,所述第二训练模块4011,包括:第二提取模块4012,用于通过所述参数共享层,对所述商品描述样本进行特征提取操作,以获得所述商品描述样本的文本特征数据;映射模块4013,用于通过所述类目独有层,对所述文本特征数据进行映射操作,以获得所述商品描述样本的类目提取数据;第四训练模块4014,用于基于所述类目提取数据和所述类目标注数据,训练所述参数共享层和所述类目独有层。
可选地,所述第四训练模块4014,具体用于:通过目标损失函数,确定所述类目提取数据和所述类目标注数据的差异值;基于所述差异值,调整所述参数共享层和所述类目独有层的参数。
本实施例的中心词的提取装置用于实现前述多个方法实施例中相应的中心词的提取方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图6,示出了本申请实施例五中中心词的提取装置的结构示意图。
本实施例的中心词的提取装置包括:第一训练模块501,用于至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;第一提取模块502,用于通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
可选地,所述第一训练模块501,包括:第二训练模块5011,用于基于所述类目标注数据,对所述中心词提取模型中的参数共享层和类目独有层进行训练;第三训练模块5012,用于基于所述中心词标注数据,对所述中心词提取模型中的所述参数共享层和中心词独有层进行训练。
可选地,所述第三训练模块5012,包括:第三提取模块5013,用于通过所述参数共享层,对所述商品描述样本进行特征提取操作,以获得所述商品描述样本的文本特征数据;第一处理模块5014,用于通过所述中心词独有层,对所述文本特征数据进行处理操作,以获得所述商品描述样本的中心词提取数据;第五训练模块5015,用于基于所述中心词提取数据和所述中心词标注数据,训练所述参数共享层和所述中心词独有层。
可选地,所述第五训练模块5015,具体用于:通过目标损失函数,确定所述中心词提取数据和所述中心词标注数据的差异值;基于所述差异值,调整所述参数共享层和所述中心词独有层的参数。
可选地,所述第一提取模块502,包括:第四提取模块5021,用于通过所述中心词提取模型中的参数共享层,对所述待提取的商品描述数据进行特征提取操作,以获得所述待提取的商品描述数据的文本特征数据;第二处理模块5022,用于通过所述中心词提取模型中的中心词独有层,对所述文本特征数据进行处理操作,以获得所述待提取的商品描述数据的中心词。
可选地,所述第四提取模块5021,具体用于:确定所述待提取的商品描述数据中的词语的语义特征向量;通过所述参数共享层,基于所述语义特征向量,对所述待提取的商品描述数据进行特征提取操作,以获得所述待提取的商品描述数据的文本特征数据。
可选地,所述第二处理模块5022,具体用于:通过所述中心词独有层,基于所述文本特征数据,确定所述待提取的商品描述数据中的每个词语分别与所述待提取的商品描述数据的相似度;通过所述中心词独有层,基于所述相似度,确定所述待提取的商品描述数据的中心词。
可选地,所述类目标注数据包括电商平台的商品标题的类目标注数据。
本实施例的中心词的提取装置用于实现前述多个方法实施例中相应的中心词的提取方法,并具有相应的方法实施例的有益效果,在此不再赘述。
图7为本申请实施例六中电子设备的结构示意图;该电子设备可以包括:
一个或多个处理器601;
计算机可读介质602,可以配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例一或实施例二所述的中心词的提取方法。
图8为本申请实施例七中电子设备的硬件结构;如图8所示,该电子设备的硬件结构可以包括:处理器701,通信接口702,计算机可读介质703和通信总线704;
其中处理器701、通信接口702、计算机可读介质703通过通信总线704完成相互间的通信;
可选地,通信接口702可以为通信模块的接口,如GSM模块的接口;
其中,处理器701具体可以配置为:至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
处理器701可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
计算机可读介质703可以是,但不限于,随机存取存储介质(Random AccessMemory,RAM),只读存储介质(Read Only Memory,ROM),可编程只读存储介质(Programmable Read-Only Memory,PROM),可擦除只读存储介质(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储介质(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一训练模块、第一提取模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一训练模块还可以被描述为“至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练的模块”。
作为另一方面,本申请还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一或实施例二所描述的中心词的提取方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本公开的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种中心词的提取方法,其特征在于,所述方法包括:
至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;
通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
2.根据权利要求1所述的方法,其特征在于,所述至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练,包括:
基于所述类目标注数据,对所述中心词提取模型中的参数共享层和类目独有层进行训练;
基于所述中心词标注数据,对所述中心词提取模型中的所述参数共享层和中心词独有层进行训练。
3.根据权利要求2所述的方法,其特征在于,所述基于所述类目标注数据,对所述中心词提取模型中的参数共享层和类目独有层进行训练,包括:
通过所述参数共享层,对所述商品描述样本进行特征提取操作,以获得所述商品描述样本的文本特征数据;
通过所述类目独有层,对所述文本特征数据进行映射操作,以获得所述商品描述样本的类目提取数据;
基于所述类目提取数据和所述类目标注数据,训练所述参数共享层和所述类目独有层。
4.根据权利要求3所述的方法,其特征在于,所述基于所述类目提取数据和所述类目标注数据,训练所述参数共享层和所述类目独有层,包括:
通过目标损失函数,确定所述类目提取数据和所述类目标注数据的差异值;
基于所述差异值,调整所述参数共享层和所述类目独有层的参数。
5.根据权利要求2所述的方法,其特征在于,所述基于所述中心词标注数据,对所述中心词提取模型中的所述参数共享层和中心词独有层进行训练,包括:
通过所述参数共享层,对所述商品描述样本进行特征提取操作,以获得所述商品描述样本的文本特征数据;
通过所述中心词独有层,对所述文本特征数据进行处理操作,以获得所述商品描述样本的中心词提取数据;
基于所述中心词提取数据和所述中心词标注数据,训练所述参数共享层和所述中心词独有层。
6.根据权利要求5所述的方法,其特征在于,所述基于所述中心词提取数据和所述中心词标注数据,训练所述参数共享层和所述中心词独有层,包括:
通过目标损失函数,确定所述中心词提取数据和所述中心词标注数据的差异值;
基于所述差异值,调整所述参数共享层和所述中心词独有层的参数。
7.根据权利要求1所述的方法,其特征在于,所述通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取,以获得所述待提取的商品描述数据的中心词,包括:
通过所述中心词提取模型中的参数共享层,对所述待提取的商品描述数据进行特征提取操作,以获得所述待提取的商品描述数据的文本特征数据;
通过所述中心词提取模型中的中心词独有层,对所述文本特征数据进行处理操作,以获得所述待提取的商品描述数据的中心词。
8.根据权利要求7所述的方法,其特征在于,所述通过所述中心词提取模型中的参数共享层,对所述待提取的商品描述数据进行特征提取操作,以获得所述待提取的商品描述数据的文本特征数据,包括:
确定所述待提取的商品描述数据中的词语的语义特征向量;
通过所述参数共享层,基于所述语义特征向量,对所述待提取的商品描述数据进行特征提取操作,以获得所述待提取的商品描述数据的文本特征数据。
9.根据权利要求7所述的方法,其特征在于,所述通过所述中心词提取模型中的中心词独有层,对所述文本特征数据进行处理操作,以获得所述待提取的商品描述数据的中心词,包括:
通过所述中心词独有层,基于所述文本特征数据,确定所述待提取的商品描述数据中的每个词语分别与所述待提取的商品描述数据的相似度;
通过所述中心词独有层,基于所述相似度,确定所述待提取的商品描述数据的中心词。
10.根据权利要求1-9中任意一项权利要求所述的方法,其特征在于,所述类目标注数据包括电商平台的商品标题的类目标注数据。
11.一种中心词的提取装置,其特征在于,所述装置包括:
第一训练模块,用于至少基于商品描述样本的类目标注数据和中心词标注数据,对待训练的中心词提取模型进行训练;
第一提取模块,用于通过训练后的所述中心词提取模型,对待提取的商品描述数据进行中心词提取。
CN201910044850.4A 2019-01-17 2019-01-17 中心词的提取方法及装置 Active CN111444335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910044850.4A CN111444335B (zh) 2019-01-17 2019-01-17 中心词的提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910044850.4A CN111444335B (zh) 2019-01-17 2019-01-17 中心词的提取方法及装置

Publications (2)

Publication Number Publication Date
CN111444335A true CN111444335A (zh) 2020-07-24
CN111444335B CN111444335B (zh) 2023-04-07

Family

ID=71648636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910044850.4A Active CN111444335B (zh) 2019-01-17 2019-01-17 中心词的提取方法及装置

Country Status (1)

Country Link
CN (1) CN111444335B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380849A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置
CN114358821A (zh) * 2021-12-27 2022-04-15 创优数字科技(广东)有限公司 商品细类特征提取方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007114796A1 (en) * 2006-04-05 2007-10-11 Agency For Science, Technology And Research Apparatus and method for analysing a video broadcast
WO2017157198A1 (zh) * 2016-03-17 2017-09-21 阿里巴巴集团控股有限公司 属性获取方法和装置
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN107729453A (zh) * 2017-10-09 2018-02-23 北京京东尚科信息技术有限公司 一种提取中心产品词的方法和装置
CN108470289A (zh) * 2018-03-15 2018-08-31 苏宁易购集团股份有限公司 基于电商购物平台的虚拟物品发放方法及设备
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007114796A1 (en) * 2006-04-05 2007-10-11 Agency For Science, Technology And Research Apparatus and method for analysing a video broadcast
WO2017157198A1 (zh) * 2016-03-17 2017-09-21 阿里巴巴集团控股有限公司 属性获取方法和装置
CN107729453A (zh) * 2017-10-09 2018-02-23 北京京东尚科信息技术有限公司 一种提取中心产品词的方法和装置
CN107704892A (zh) * 2017-11-07 2018-02-16 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN108470289A (zh) * 2018-03-15 2018-08-31 苏宁易购集团股份有限公司 基于电商购物平台的虚拟物品发放方法及设备
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAOTIAN HU等: ""A novel word embedding learning model using the dissociation between nouns and verbs"" *
赵明等: ""植物领域知识图谱构建中本体非分类关系提取方法"" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380849A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 生成兴趣点提取模型和提取兴趣点的方法和装置
CN114358821A (zh) * 2021-12-27 2022-04-15 创优数字科技(广东)有限公司 商品细类特征提取方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111444335B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112164391B (zh) 语句处理方法、装置、电子设备及存储介质
US10127253B2 (en) Searching method, client and server
CN108804530A (zh) 对图像的区域加字幕
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
WO2021135455A1 (zh) 语义召回方法、装置、计算机设备及存储介质
CN112749300B (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
CN113392317A (zh) 一种标签配置方法、装置、设备及存储介质
CN112836502A (zh) 一种金融领域事件隐式因果关系抽取方法
CN111444335B (zh) 中心词的提取方法及装置
CN111460288A (zh) 用于检测新闻事件的方法和装置
CN111078849A (zh) 用于输出信息的方法和装置
CN114090878A (zh) 职位推荐方法、装置、电子设备、可读介质及程序产品
CN111026849B (zh) 数据处理方法和装置
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
US20230367972A1 (en) Method and apparatus for processing model data, electronic device, and computer readable medium
CN112417260B (zh) 本地化推荐方法、装置及存储介质
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
CN114265948A (zh) 图像推送方法和装置
CN114021565A (zh) 命名实体识别模型的训练方法及装置
CN112446738A (zh) 广告数据处理方法、装置、介质以及电子设备
CN111274818A (zh) 词向量的生成方法、装置
CN112860860A (zh) 一种答复问题的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant