CN104111933B

CN104111933B - 获取业务对象标签、建立训练模型的方法及装置

Info

Publication number: CN104111933B
Application number: CN201310134293.8A
Authority: CN
Inventors: 钟灵; 成幸毅; 陈凡; 金凯民
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2013-04-17
Filing date: 2013-04-17
Publication date: 2017-08-04
Anticipated expiration: 2033-04-17
Also published as: CN104111933A

Abstract

本申请公开了获取业务对象标签、建立训练模型的方法及装置，其中，所述获取业务对象标签的方法包括：获取目标业务对象的文字描述信息，对所述文字描述信息进行分词，得到多个描述词语；提取各个描述词语的特征；将各个描述词语的特征以及描述词语在所述目标文字描述信息中的上下文信息输入到预置的训练模型中，根据所述训练模型的输出结果确定各个描述词语是否可作为对应业务对象的标签；其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，该概率与当前描述词语的特征以及该当前描述词语在所述目标文字描述信息中的上下文信息相关。通过本申请，可以使得预测出的结果具有较高的准确度。

Description

获取业务对象标签、建立训练模型的方法及装置

技术领域

本申请涉及文本数据处理技术领域，特别是涉及获取业务对象标签、建立训练模型的方法及装置。

背景技术

随着互联网技术的发展，用户在互联网上可以进行各种各样的业务。为顺利开展各种业务，需要在互联网上展示各种业务对象，这种业务对象往往可以通过图片、文字描述或者视频等来进行展示。例如，电子商务平台中展示的商品对象等。在实际应用中，为了便于对业务对象进行相关性聚类，或者在用户浏览某业务对象时向用户推荐相关的业务对象，往往还需要给各个业务对象添加标签(Tag)，通过这种标签来进一步描述业务对象的主要特点。在具体实现时，这种标签一般是从业务对象的标题等文字信息中提取出来的，例如，给一个商品的标题是：“周末疯狂购新风尚2012春装连衣裙新款大码短袖蕾丝雪纺连衣裙夏”，如果需要给该商品对象添加标签，则可以从该标题中提取一些重要的关键词作为这个商品的标签，例如“连衣裙”、“大码”、“蕾丝”、“雪纺”等。

现有技术中，在计算各个描述词语的熵值时，仅仅根据描述词语在业务对象标题中出现的情形来进行简单计算，得到的准确率比较低，也即，这种方式计算得到的一些标签可能并不能真正代表业务对象的主要特点，进而在使用这种标签进行业务对象的聚类或者相关性推荐时，得到的结果也会不够准确。

发明内容

本申请提供了获取业务对象标签、建立训练模型的方法及装置，可以使得预测出的结果具有较高的准确度。

本申请提供了如下方案：

一种获取业务对象标签的方法，包括：

获取目标业务对象的文字描述信息，对所述文字描述信息进行分词，得到多个描述词语；

提取各个描述词语的特征；

将各个描述词语的特征以及描述词语在所述目标文字描述信息中的上下文信息输入到预置的训练模型中，根据所述训练模型的输出结果确定各个描述词语是否可作为对应业务对象的标签；其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，该概率与当前描述词语的特征以及该当前描述词语在所述目标文字描述信息中的上下文信息相关；其中，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

一种创建训练模型的方法，包括：

获取训练语料，所述语料包括预置条数的文字描述信息，其中，每条文字描述信息对应一个业务对象，每条文字描述信息进行分词后得到至少两个描述词语，该至少两个描述词语中，部分是对应业务对象的标签，部分不是对应业务对象的标签；

提取各个描述词语的特征；

将各个描述词语、描述词语的特征、描述词语在所述文字描述信息中的上下文信息以及各个描述词语是否为对应业务对象的标签的信息输入到预置的算法中进行训练，生成训练模型；其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

一种获取业务对象标签的装置，包括：

分词单元，用于获取目标业务对象的文字描述信息，对所述文字描述信息进行分词，得到多个描述词语；

特征提取单元，用于提取各个描述词语的特征；

预测单元，用于将各个描述词语的特征以及描述词语在所述目标文字描述信息中的上下文信息输入到预置的训练模型中，根据所述训练模型的输出结果确定各个描述词语是否可作为对应业务对象的标签；其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，该概率与当前描述词语的特征以及该当前描述词语在所述目标文字描述信息中的上下文信息相关；其中，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

一种创建训练模型的装置，包括：

语料获取单元，用于获取训练语料，所述语料包括预置条数的文字描述信息，其中，每条文字描述信息对应一个业务对象，每条文字描述信息进行分词后得到至少两个描述词语，该至少两个描述词语中，部分是对应业务对象的标签，部分不是对应业务对象的标签；

特征提取单元，用于提取各个描述词语的特征；

训练单元，用于将各个描述词语、描述词语的特征、描述词语在所述文字描述信息中的上下文信息以及各个描述词语是否为对应业务对象的标签的信息输入到预置的算法中进行训练，生成训练模型；其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

根据本申请提供的具体实施例，本申请达到了以下技术效果：

通过本申请实施例，能够预先建立起用于预测的训练模型，该训练模型在判断一个描述词语是否能够作为对应业务对象的标签时，不仅会考虑该描述词语本身的特征，还会考虑其上下文的其他描述词语的特征，这样可以使得预测出的结果具有较高的准确度。

具体实现时，建立的训练模型可以是CRF模型或者GBDT模型等。在训练模型的过程中，为了获取到训练语料中各个描述词语是否为对应业务对象的标签，可以通过海量用户的搜索点击日志作为数据源进行分析，这样不仅可以提高实现的效率，而且有利于提高训练语料的准确率，进而可以提高训练模型给出的预测结果的准确率。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的获取业务对象标签的方法的流程图；

图2是本申请实施例提供的创建训练模型的方法的流程图；

图3是本申请实施例提供的获取业务对象标签的装置的示意图；

图4是本申请实施例提供的创建训练模型的装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

首先需要说明的是，在实际应用中，人们通常习惯于寻找一个事物在一段时间内的变化规律，并能在特定情况下预测下一变化，比如预测天气等。因此，在本申请实施例中，为了能够更准确的从业务对象的文字描述信息中获取到业务对象的标签，可以首先获取一些训练语料，基于这些训练语料建立训练模型；该训练模型在建立起来之后，如果想要获取某业务对象的标签，则可以首先对该业务对象的文字描述信息进行分词，得到多个描述词语(因为一般情况下是以词语作为业务对象的标签，例如，“牛仔”、“刺绣”等)，并分别获取各个描述词语的特征(例如，各个描述词语的词性等)，然后将描述词语的特征输入到该训练模型中，该训练模型就可以输出各个描述词语能够作为该业务对象的标签的概率。

需要说明的是，在本申请实施例中，输入到训练模型中的信息除了某描述词语本身的特征之外，还需要包括该描述词语在文字描述信息中的上下文信息，例如，上一个描述词语及下一下描述词语的特征等等。也就是说，对于某一段文字描述信息而言，是由多个词语组成的，这些词语除了能够通过自身的特征体现出其重要性之外，往往还能够通过其上下文信息体现出来。例如，如果某个词语是一个形容词(如“牛仔”)，并且其前一个词语是形容词(如“女装”)，其后一个词是也是一个名词(如“衬衫”)，则该当前词语(牛仔)一般能够体现出该文字描述信息的主要内容，因此比较重要，也即，能够作为对应业务对象标签的概率就应该比较高。因此，训练模型可以结合当前描述词语及其上一个词语、下一个词语的特征来共同确定当前描述词语能够作为标签的概率。

为了达到上述目的，在创建训练模型时，就需要利用到描述词语的上下文信息作为特征，为此，可以使用一些已知的算法来建立训练模型。例如，可以建立HMM(隐马尔可夫)模型、CRF(Conditional Random Fields，条件随机场)模型、GBDT(Gradient boostdecision tree)模型，等等。其中，由于HMM模型只能利用中心词的前M个词作为上下文信息，而CRF模型以及GBDT模型都能利用到中心词的前M个词及后N个词作为上下文信息，因此，在较优的实现方式中，可以选择CRF模型或者GBDT模型。当然，无论是CRF模型还是GBDT模型，首先都要获取数据源，并对数据源进行分析处理，获取到用于训练的训练语料，下面首先对此进行介绍。

在本申请实施例中，训练语料中需要包括多条文字描述信息，每条文字描述信息对应一个业务对象，一条文字描述信息中包括多个描述词语，这些描述词语分别具有各自的特征(例如词性等)，并且根据这些描述词语在文字描述信息中的位置，相互之间还具有一些上下文信息，另外，这些描述词语中有些能够作为对应业务对象的标签，有些则不能。以上这些信息都需要作为已知的信息输入到训练算法中进行训练，最终才能够得到符合本申请实施例需要的训练模型。当然，上述已知信息可以是由人工的方式进行标注的，但是，由于训练的过程中一般需要大量的训练语料，例如，一般可能需要数百万条文字描述信息，如果分别手动进行词性、是否为标签的标注，则需要耗费大量的人力物力。由于是对于从文字描述信息中提取业务对象的标签时，如果采用人工的方式来标注，则除了效率比较低之外，还会由于个人的主观因素等原因导致提取的标签可能并不准确。因此，为了提高标注效率以及准确率，在本申请实施例中，可以使用自动获取训练语料的方式。

为了能够自动获取训练语料，可以将网络中海量用户的搜索点击日志作为数据源。其中，所谓的搜索点击日志是指：一般的搜索引擎是按照业务对象的文字描述信息(例如标题词等)做的索引，当用户输入查询串(一般是一串中文或英文字符，例如，“牛仔衬衫”等等)来查询相关的业务对象时，含有该查询串中的部分或全部字符的文字描述信息(一般是标题，为便于描述，下文均以标题为例进行介绍)就会被优先检索出来，并且按照一个排序方法排序后显示给用户，当用户对某个业务对象感兴趣的时候，用户就会点击这个业务对象；用户的关键词查询和点击操作都会被记录到日志中，通常可以把这类日志统称为“搜索点击日志”。由于业务对象的标题可能会比较长，包含的字符数比较多，因此，同一个业务对象可能会被大量的查询串查询出来并且有点击。通过统计一个标题对应的查询串，就能够统计出一定的规律。而在本申请实施例中，重点关注搜索点击日志中的查询串(query)和业务对象标题(title)之间对应关系。

具体在进行分析时，由于无论是查询串还是标题，一般都是由连续的字串组成的，且词与词之间一般没有明显的分隔符，不同的字可以出现在不同词的不同位置。因此，可以首先分别对查询串以及标题进行分词，所谓的分词，就是由机器在中文文本中自动识别词边界，通俗的说就是要由机器在词与词之间自动加上分隔符。例如，“雪纺连衣裙”可分词为“雪纺”、“连衣裙”两个词。这样，可以将查询串分词为w1，w2，w3，...，wk，将业务对象标题分词为t1，t2，t3，...，tn。如果查询串中的某个词wi(为便于描述，称之为“查询词语”)和标题中的某个词tj(为便于描述，称之为“描述词语”)相同，那么tj的命中次数就累加1，这样，就可以统计出每个标题的分词ti被命中的次数hit(ti)。

例如，在搜索点击日志中，查询串“连衣裙”被查询一次，查询串“雪纺连衣裙”被查询两次，查询串“欧美新款”被查询一次，这些查询串对应的查询结果都包括标题为“欧美大牌夏季新款雪纺连衣裙开襟裙”的业务对象，并且都被用户点击了，则该标题中包含的各个描述词语的命中次数统计如表1所示：

表1

描述词语：ti	命中次数：hit(ti)	相关查询串
			连衣裙	3	2次“雪纺连衣裙”

		1次“连衣裙”
			雪纺	2	2次“雪纺”
欧美	1	1次“欧美新款”
			新款	1	1次“欧美新款”

针对每个标题中的描述词语，先去除停用词，例如“正品”、“包邮”、“的”等不能代表业务对象本身特征的泛词等，然后按照命中次数从高到低排序，把前5个(也可以是其他数目)描述词语，作为标题的标签。例如，在前述例子中，“连衣裙”、“雪纺”、“欧美”、“新款”都可能会是对应业务对象的标签，其他的词语“大牌”、“夏季”、“开襟裙”等可能就不是该业务对象的标签。

通过上述方式来获取训练语料中所需的业务对象标签时，由于是通过统计的方式得到的，并且能够利用到查询词、标题词以及用户点击情况之间的对应关系，因此，可以使得最终得出的标签更准确。

按照上述方法，可以统计得到一定数目的标题(例如，700万个)，并且根据统计得到每个标题的标签，可以抽取其中的部分(例如300万个)标题作为训练数据。当然由于在获取标题的标签的过程中，已经对标题进行了分词，因此，同时可以得到各个标题分别包含有哪些描述词语，此外，还可以通过自动标注的方式来标注出各个描述词语的词性。其中，关于标注词性的具体实现方式，可以参见已有技术中的实现，这里不再详述。

总之，针对各个训练用的业务对象标题，在训练语料中至少可以包括以下信息：标题中包括的描述词语、各个描述词语的词性等特征、各个描述词语是否为对应业务对象的标签。接下来就可以结合具体的训练算法，来确定具体需要输入到算法中的信息，并进行具体的训练得到训练模型。

其中，如果是使用CRF算法训练CRF模型，则可以将标题中的描述词语、各个描述词语的词性以及描述词语是否为标签这些信息组织为一个矩阵，其中，矩阵中第一列为各个描述词语，中间列为各个描述词语对应的特征，最后一列表示各个描述词语是否为对应业务对象的标签。例如，某业务对象的标题是“品牌女装2012春装新款女裙蕾丝连衣裙韩版夏季裙子A181”，则对应的矩阵可以为：

其中，第一列是标题中包含的各个描述词语(ti)，第二列是各个描述词语的词性，第三列是各个描述词语是否是对应业务对象的标签，s表示不是标签，t表示是标签。也就是说，针对训练数据中的300万个标题，如果前述统计中得到的某个描述词语是对应业务对象的标签，那么设置t，如果不是则设置为s；同时，对各个描述词语进行词性标注，包括产品词、型号词、名词、形容词等，然后将这些信息按照前述格式写入到矩阵中。需要说明的是，在矩阵中，第一列的各个描述词语是按照各自在标题中的顺序排列的，也就是说，标题中的第一个描述词语会排在第一行，第二个描述词语排在第二行，以此类推，通过这种排序可以体现出各个描述词语在标题中的上下文关系。另外需要说明的是，对于CRF算法而言，训练预料矩阵中的每行到底要转换成什么格式，以及每一行包括多少列，都可以是根据实际需要决定的。例如，以最后一列作为目的列，也就是说如果是用来作词性标注的，那么最后一列是词性，如果是作实体识别，那么最后一列就是实体类别标识。对于本申请实施例而言，由于需要确定一个词语是否可以作为对应业务对象的标签，因此，就应该将是否为标签这一信息放在矩阵的最后一列。

在得到上述矩阵之后，可以将该矩阵作为参数输入到CRF算法中，并确定CRF模板文件。CRF模板文件用于指示出在训练的过程中如何选择上下文特征。在CRF算法中，特征选取的行是相对的，列是绝对的，一般选取相对行前后m行，选取n-1列(假设语料总共有n列)，特征表示方法为：％x[行，列]，行列的初始位置都为0。

例如，某模板文件可以为：

# Unigram

U00：％x[-2，0]

U01：％x[-1，0]

U02：％x[0，0]

U03：％x[1，0]

U04：％x[2，0]

U05：％x[-1，0]/％x[0，0]

U06：％x[-2，0]/％x[1，0]

U10：％x[-2，1]

U11：％x[-1，1]

U12：％x[0，1]

U13：％x[1，1]

U14：％x[2，1]

U15：％x[-2，1]/％x[-1，1]

U16：％x[-2，1]/％x[0，1]

U17：％x[-2，1]/％x[1，1]

U18：％x[-2，1]/％x[2，1]

模板文件中的每一行是一个模板，每个模板都是由％x[row，col]来指定输入数据中的一个片段。Row表示当前片段的相对行偏移，col表示列的绝对位置。其中，Row为负数时，表示向前偏移，为正数时表示向后偏移，为0时表示是当前片段。例如，在前述矩阵中，假设当前片段是“连衣裙”，则U00：％x[-2，0]代表第0列、“连衣裙”所在行往前数第2行的片段，也即“女裙”；又如，U11：％x[1，1]代表第1列、“连衣裙”所在行往后数第1行的片段，也即“n”，以此类推。当然，根据实际需要，CRF模板文件有可以设置为其他的格式，例如，在考虑上下文信息时，需要考虑到当前词语的前三个及后三个词语，则还可以在模板文件中增加相关的模板，等等。

对应各个模板，CRF算法会产生一系列的函数集合，用以反映训练语料的情况，进而就可以生成对应的CRF模型。这样生成的CRF模型自然就可以体现标题中某描述词语本身的特征及其上下文词语的特征，在使用该CRF模型进行预测时，就可以相当于综合考虑了描述词语本身的特征及其上下文词语的特征，最终预测结果的准确度会比较高。需要说明的是，在将训练语料中得到的矩阵及前述模板文件输入到CRF算法之后，CRF算法就可以自动训练得到CRF模型。

在建立以CRF模型之后，就可以使用该CRF模型对某目标业务对象的标题进行预测，从中提取出能够作为该业务标题的标签的描述词语。具体实现时，对于待预测的标题，可以首先进行分词，并对得到的各个描述词语进行词性标注，然后就可以将带有词性信息的各个描述词语输入到CRF模型中，CRF模型就可以输出各个描述词语能够作为标签的概率。需要说明的是，在使用CRF模型进行预测时，需要以标题为单位，将各个描述词语输入到CRF模型中，也即，一次输入到CRF模型中的是从一个标题中分词得到的一串描述词语，由于这一串描述词语中自然包含了各个描述词语之间的上下文关系，因此，CRF模型可以自动从中提取出描述词语之间的上下文关系信息，根据描述词语自身的特征，预测出各个描述词语是否能够作为对应业务对象的标签。

以上介绍了使用CRF模型进行预测的实现方式，下面对GBDT的实现方式进行介绍。

对于GBDT模型而言，其不存在模本文件的概念，因此，要想通过GBDT模型体现上下文词语的特征，则需要在提取各个描述词语自身的特征的同时，还需要提取各个描述词语在标题中的上下文信息，包括前M个描述词语的特征、后N个描述词语的特征。这样，在训练时，就可以将描述词语、描述词语的特征、描述词语在所述文字描述信息中的上下文信息，以及描述词语是否为对应业务对象的标签等信息，一同作为参数输入到GBDT算法中进行训练。也就是说说，在训练GBDT模型时，各个描述词语不需要按照在标题中的顺序成串的输入到GBDT算法中，而是将上下文信息作为描述词语的属性的一部分。例如，对于标题“品牌女装2012春装新款女裙蕾丝连衣裙韩版夏季裙子A181”而言，对于其中的描述词语“女裙”，输入到GBDT算法中的参数可以包括：

该词语为“女裙”；

该词语的词性为“产品类型-简单”；

该词语的前一个词为“新款”；

该前一个词的词性为“产品类型修饰词”；

该词语的后一个词为“蕾丝”；

该后一个词的词性为“产品类型修饰词”；

该词语是对应业务对象的标签。

将上述这些特征输入到GBDT算法之后，会生成用于预测的决策树，也即，最终的GBDT模型由决策树组成。需要说明的是，GBDT模型不像决策树模型那样仅由一棵决策树构成，而是由多棵决策树构成，通常都是上百棵树，而且每棵树规模都较小(即树的深度会比较浅)。GBDT使用多棵决策树正是希望能够在训练精度和泛化能力两个方面都能达到较好的效果。作为一种boosting算法，GBDT自然包含了boosting的思想：将一系列弱分类器组合起来，构成一个强分类器。它不要求每棵树学到太多的东西，每颗树都学一点点知识，然后将这些学到的知识累加起来构成一个强大的模型。关于具体如何生成决策树，属于GBDT算法的内部实现这里不再详述。

在使用GBDT模型预测的时候，对于输入的一个样本实例，同样需要首先进行分词，并将描述词语及其词性、前一个词及其词性、后一个词及其词性输入到GBDT模型中；在GBDT模型内部，首先会赋予一个初值，然后会遍历每一棵决策树，每棵树都会对预测值进行调整修正，最后得到预测的结果，也即，可以得出描述词语能够作为标签的概率。需要说明的是，GBDT模型与CRF模型不同，在进行预测时，只要与描述词语为单位，将提取出的特征、上下文信息输入到GBDT模型中即可，相应的GBDT模型就可以输出该描述词语对应的概率，而不需要以标题为单位，成串地输入描述词语。

当然，在实际应用中，在提取上下文信息时，可以不限于“前一个”、“后一个”，还可以取到“前两个”、“后两个”甚至更多，并且向前与向后的数目可以是不相等的，具体的选取情况均可以根据实际的需求而定。

另外，在使用GBDT模型的情况下，除了可以考虑各个描述词语的词性这一特征之外，还可以多方面考虑其他的特征，以便进一步提高模型预测的准确度。例如，在建立GBDT模型时，除了可以将词性作为当前描述词语及其上下文词语的特征之外，还可以统计出描述词语对应本业务对象所属类目的点击次数T1，以及描述词语对应全部业务对象的点击次数T2；这样，可以将当前描述词语的T1、T2以及T1与T2之间的比值也作为描述词语的特征，另外，在获取上下文信息时，也可以同时获取到上下文词语的T1、T2以及T1与T2之间的比值，可以将这些特征统统作为参数输入到GBDT算法中参与模型的训练。其中，在统计T1及T2时，也可以根据搜索点击日志来统计。例如，假设某标题中含有描述词语“手机”，该标题对应的业务对象为一款手机；假设用户搜索“手机”时，有3次点击了这款手机，有2次点击了某配件类目的业务对象，则：

描述词语“手机”对应本业务对象的点击次数是T1＝3；

描述词语“手机”对应全部业务对象的点击次数是T2＝3+2＝5。

此外，还可以计算出每个描述词语对应的查询词语(Query分词后)的点击数，这种点击数可以分为全网点击数和当前业务对象所在类目下的点击数。这种点击数只与描述词语和查询词语本身有关，跟业务对象没有关系，即使没有点击的业务对象，只要该标题词在全网或者类目下有点击，就可以统计其点击次数。统计出上述特征之后，也可以作为参数输入到GBDT算法中参与模型的训练。具体在统计这种点击数时，同样可以根据搜索点击日志来进行统计。例如，对于查询串“手机诺基亚”，假设用户使用该查询串搜索了1次，其中点击6个手机类目的业务对象，点击了4个配件类目的业务对象，则：

查询词语“手机”在手机类目的点击次数是T1＝6；

查询词语“手机”在全网的点击次数是T2＝10；

查询词语“诺基亚”在手机类目的点击次数是T1＝6；

查询词语“诺基亚”在全网的点击次数是T2＝10。

也就是说，对于一个描述词语而言，如果取其前一个词语及后一个词语作为其上下文信息，则输入到GBDT算法中的特征可以包括：

当前描述词语；

当前描述词语是否属于命中词(也即是否为对应业务对象的标签)；

当前描述词语对应本业务对象的点击次数T01；

当前描述词语对应全部业务对象的点击次数T02；

T01与T02的比例；

当前描述词语在标题中的位置；

当前描述词语的词性；

前一个描述词语对应本业务对象的点击次数T11；

前一个描述词语对应全部业务对象的点击次数T12；

T11与T12的比例；

前一个描述词语在标题中的位置；

前一个描述词语的词性；

后一个描述词语对应本业务对象的点击次数T21；

后一个描述词语对应全部业务对象的点击次数T22；

T21与T22的比例；

后一个描述词语在标题中的位置；

后一个描述词语的词性；

类目ID；

当前描述词语对应全网搜索关键词的点击次数；

当前描述词语对应本业务对象类目下搜索关键点击次数。

对于一个当前描述词语而言，以上特征不仅包括了该当前描述词语自身的一些特征，并且也包括了上下文的其他描述词语的一些特征；并且，如论是当前描述词语自身，还是上下文的其他描述词语，这些特征都不仅可以包括词语的词性，还可以包括词语对应的业务对象点击次数等统计信息；另外，通过“位置”信息还可以体现出来当前描述词语与其上下文其他描述词语之间的位置关系；再者，对于当前描述词语而言，另外还可以包括其对应搜索关键词的点击次数信息；此外，还可以将当前描述词语其对应业务对象所属的类目信息也作为特征之一参与训练。因此，最终训练得到的GBDT模型就相当于可以充分考虑到上述各类特征，最终得到的预测结果也更为准确。

当然，具体在使用GBDT模型进行预测时，也只需要以描述词语为单位，将提取出的特征输入到GBDT模型中，GBDT模型便可以输出该描述词语能够作为对应业务对象标签的概率。其中，在对待预测的描述词语进行特征提取时，同样可以从词性、对应业务对象的点击次数、对应搜索关键词的点击次数等等多方面进行提取，同时还需要提取出其上下文的各个描述词语的上述特征，一起输入到GBDT模型中。总之，在使用GBDT模型进行预测时，输入到GBDT模型中的特征数量，仅比训练时输入到GBDT算法中的特征数量少一个，少的这一个就是需要进行预测的“是否为标签”这一特征。

需要说明的是，对于CRF模型，除了可以考虑描述词语的词性这一特征之外，也可以考虑对应业务对象、搜索关键词的点击次数等特征，这里不再详述。

总之，无论是使用CRF模型还是GBDT模型，都能达到预测一个描述词语是否能够作为对一个业务对象的标签的目的，并且，在预测的过程中，都可以使用到描述词语的上下文信息的特征，预测的结果具有较高的准确度。

综上所述，本申请实施例相当于提供了一种创建训练模型的方法，参见图1，该方法可以包括以下步骤：

S101：获取训练语料，所述语料包括预置条数的文字描述信息，其中，每条文字描述信息对应一个业务对象，每条文字描述信息进行分词后得到至少两个描述词语，该至少两个描述词语中，部分是对应业务对象的标签，部分不是对应业务对象的标签；

如前文所述，无论使用何种算法进行训练，都可以使用用户的搜索点击日志中的数据源进行分析，得到训练语料，尤其是可以根据搜索点击日志中各条文字描述信息，从中判断出哪些描述词语能够作为对应业务对象的标签。具体实现时，首先，针对某条文字描述信息，首先可以从搜索点击日志中获取到以下信息：曾经针对哪些查询串返回过该文字描述信息对应的业务对象，并且用户最终点击了该业务对象，如果这种查询串中相同的查询串，则将作为一个查询串看待，并统计其出现次数T；然后分别对该文字描述信息进行分词得到多个描述词语，并对这些查询串进行分词，得到多个查询词语；这样，就可以统计各个描述词语分别被查询串命中的次数，其中，如果某描述词语与某查询词语相同，则被该查询词语命中一次；当然，这种命中的查询词语可能从多个查询串中都能分词得到，此时，相当于该描述词语被查询串命中多次；另外，如果该查询串的出现次数T为多次，则相当于该描述词语被该查询串命中多次。总之，最终可以统计出各个描述词语被查询串命中的次数，最终根据次数的多少，即可选择出哪些描述词语能够作为业务对象的标签，而哪些不能。

S102：获取各个描述词语的特征，所述描述词语的特征包括描述词语的词性；

其中，如果需要训练CRF模型，则描述词语的特征值需要包括描述词语的词性，关于描述词语的上下文信息，可以使用CRF模板文件来进行设定。而如果需要训练GBDT模型，则不仅需要提取当前描述词语本身的特征，还需要提取其前后的描述词语的特征作为上下文信息，一起输入到GBDT算法中进行训练，这样才能使得最终训练出的模型能够体现描述词语的上下文信息。

S103：将各个描述词语、描述词语的特征、描述词语在所述文字描述信息中的上下文信息以及各个描述词语是否为对应业务对象的标签的信息输入到预置的算法中进行训练，生成训练模型；其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，并且，该概率与当前描述词语的特征以及该当前描述词语在所述目标文字描述信息中的上下文信息相关；其中，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

其中，如果需要训练CRF模型，则相当于是将描述词语、描述词语的特征、以及描述词语是否为对应业务对象的标签这些信息作为参数输入到CRF算法中，同时，使用CRF模板文件设定在训练时需要提取描述词语的哪些上下文特征。当然，对于CRF模型而言，由于CRF模板中仅定义了描述词语相对行坐标以及绝对列坐标，因此，需要将描述词语、描述词语的特征、以及描述词语是否为对应业务对象的标签这些信息组织成一个矩阵，使得一条文字描述信息中包含的各个描述词语能够一次性的输入到CRF算法中，这样，CRF算法才能根据CRF模板文件中的定义，提取到描述词语的上下文特征，进而训练出CRF模型。

如果要训练GBDT模型，则除了需要提取当前描述词语的特征之外，还需要将当前描述词语的上下文信息也提取出来，统统作为参数输入到GBDT算法中。也就是说，GBDT算法中没有“模板”的概念，要想使得最终训练出的GBDT模型能够体现上下文的特征，则需要在输入参数中加入相关的上下文特征。当然，在训练这种模型时，不需要将统同一条文字描述信息包含的多个描述词语一次性的输入到GBDT算法中，而是以描述词语为单位，将提取出的自身特征以及上下文特征输入到GBDT算法中即可。

当然，对于GBDT算法，无论是提取当前描述词语的特征，还是其上下文描述词语的特征，都可以不限于提取词性这一种特征，例如，还可以包括描述词语对应的业务对象(可以分为本业务对象以及全网业务对象)的点击次数等特征。另外，对于当前描述词语而言，还可以提取其对应的搜索关键词的点击次数(包括全网搜索关键词以及当前业务对象对在类目下的搜索关键词)，以及对应的业务对象的类目信息，等等。将这些信息都输入到GBDT算法中进行训练，可以使得得到的GBDT模型更能准确的预测出业务对象的标签。

在建立了上述训练模型的基础上，本申请实施例还提供了一种获取业务对象标签的方法，参见图2，该方法可以包括：

S201：获取目标业务对象的文字描述信息，对所述文字描述信息进行分词，得到多个描述词语；

S202：提取各个描述词语的特征；

在提取描述词语的特征时，可以与训练过程中从训练语料中提取的描述语句特征是相同的(当然，各个描述词语是否为标签除外，这是需要预测的内容)。也就是说，如果训练时，仅提取了描述词语的词性作为描述词语的特征，则在预测时，同样可以只提取描述词语的词性作为描述词语的特征；如果训练时除了提取词性特征之外，还提取了描述词语对应的业务对象的点击次数、对应的搜索关键词的点击次数等信息，则在预测时，也需要提取出这些特征。

S203：将各个描述词语的特征以及描述词语在所述目标文字描述信息中的上下文信息输入到预置的训练模型中，根据所述训练模型的输出结果确定各个描述词语是否可作为对应业务对象的标签；其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，并且，该概率与当前描述词语的特征以及该当前描述词语在所述目标文字描述信息中的上下文信息相关；其中，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

当然，如前文所述，如果训练模型是CRF模型，则需要将待预测文字描述信息中包含的各个描述词语成串的输入到CRF模型中，通过这种“成串”的描述词语之间的前后位置关系，CRF模型可以自动提取出描述词语的上下文特征，并进行预测；如果训练模型是GBDT模型中，则只需要单独以描述词语为单位，将提取出的特征输入到GBDT模型中，当然，对于后者，提取描述词语的特征时，需要包括其上下文描述词语的特征。

需要说明的是，关于建立训练模型的具体过程以及使用训练模型进行预测的具体过程，在前文中均有详细的介绍，因此，相关的内容可以参见前文，这里不再详述。

总之，在本申请实施例中，能够预先建立起用于预测的训练模型，该训练模型在判断一个描述词语是否能够作为对应业务对象的标签时，不仅会考虑该描述词语本身的特征，还会考虑其上下文的特征，使得预测出的结果具有较高的准确度。

与本申请实施例提供的获取业务对象标签的方法相对应，本申请实施例还提供了一种获取业务对象标签的装置，参见图3，该装置可以包括：

分词单元301，用于获取目标业务对象的文字描述信息，对所述文字描述信息进行分词，得到多个描述词语；

特征提取单元302，用于提取各个描述词语的特征；

预测单元303，用于将各个描述词语的特征以及描述词语在所述目标文字描述信息中的上下文信息输入到预置的训练模型中，根据所述训练模型的输出结果确定各个描述词语是否可作为对应业务对象的标签；其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，该概率与当前描述词语的特征以及该当前描述词语在所述目标文字描述信息中的上下文信息相关；其中，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

其中，所使用的训练模型可以是CRF模型，此时，预测单元303具体可以用于：

对于同一条文字描述信息，将分词得到的各个描述词语按照各自在文字描述信息中的位置进行排列得到一描述词语串，以描述词语串为单位，将描述词语串中各个描述词语的特征输入到CRF模型中。

另外，所使用的训练模型也可以是GBDT模型，此时，所述装置还可以包括：

上下文特征提取单元，用于提取各个描述词语分别在所属的文字描述信息中的上下文信息；

所述预测单元303具体可以用于：

以描述词语为单位，将当前描述词语的特征以及所述上下文信息输入到所述GBDT模型中。

在实际应用中，具体在提取当前描述词语的特征或者提取上下文信息中那个描述词语的特征时，提取的特征包括以下特征中的一种或多种：描述词语的词性、描述词语对应本业务对象的用户点击次数T1、描述词语对应的全部业务对象的用户点击次数T2、T1与T2的比值。

另外，当前描述词语的特征还可以包括当前描述词语对应全网搜索关键词的被搜索次数和/或当前描述词语对应本业务对象类目下搜索关键词的被搜索次数。

与本申请实施例提供的创建训练模型的方法相对应，本申请实施例还提供了一种创建训练模型的装置，参见图4，该装置可以包括：

语料获取单元401，用于获取训练语料，所述语料包括预置条数的文字描述信息，其中，每条文字描述信息对应一个业务对象，每条文字描述信息进行分词后得到至少两个描述词语，该至少两个描述词语中，部分是对应业务对象的标签，部分不是对应业务对象的标签；

特征提取单元402，用于获取各个描述词语的特征；

训练单元403，用于将各个描述词语、描述词语的特征、描述词语在所述文字描述信息中的上下文信息以及各个描述词语是否为对应业务对象的标签的信息输入到预置的算法中进行训练，生成训练模型；其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

其中，所述预置算法可以包括CRF算法，相应的，所述训练模型可以包括CRF模型，此时，该装置还可以包括：

矩阵生成单元，用于将所述训练语料组织为矩阵的形式，其中，矩阵中第一列为各个描述词语，中间列为各个描述词语对应的特征，最后一列表示各个描述词语是否为对应业务对象的标签；

模板文件确定单元，用于确定训练过程使用的CRF模板文件，所述CRF模板文件由多个模板组成，每个模板用于指定在针对当前描述词语提取上下文信息时，所提取的信息相对于当前描述词语的行偏移，以及所取的信息所在列的绝对位置；

所述训练单元具体可以用于：

将所述矩阵以及所述CRF模板文件输入到所述CRF算法中，以便所述CRF算法利用所述CRF模板文件从所述矩阵中提取描述词语的特征及其上下文信息，并据此得到训练出CRF模型。

或者，所述预置算法包括GBDT算法，所述训练模型包括GBDT模型，所述装置还可以包括：

上下文信息提取单元，用于提取各个描述词语分别在所属的文字描述信息中的上下文信息；

所述训练单元具体可以用于：

将各个描述词语、描述词语的特征、描述词语在所述文字描述信息中的上下文信息以及各个描述词语是否为对应业务对象的标签的信息作为参数输入到GBDT算法中进行训练。

在实际应用中，在提取当前描述词语的特征或者提取上下文信息中那个描述词语的特征时，提取的特征包括以下特征中的一种或多种：描述词语的词性、描述词语对应本业务对象的用户点击次数T1、描述词语对应的全部业务对象的用户点击次数T2、T1与T2的比值。

另外，当前描述词语的特征还包括当前描述词语对应全网搜索关键词的被搜索次数和/或当前描述词语对应本业务对象类目下搜索关键词的被搜索次数。

为了提高实现效率以及训练语料的准确率，通过以下方式确定训练语料中的各个描述词语是否为对应业务对象的标签：

搜索点击日志获取单元，用于图获取搜索点击日志，所述搜索点击日志用于记录业务对象被点击时，对应的查询串；

目标查询串获取单元，用于针对一业务对象，从所述搜索点击日志中获取该业务对象被点击时对应的目标查询串，以及各个目标查询串出现的次数；

第一分词单元，用于将该业务对象的文字描述信息进行分词，得到多个描述词语；

第二分分词单元，用于将所述查询串进行分词，得到多个查询词语；

命中次数统计单元，用于针对该业务对象的描述词语，统计被查询串命中的次数，其中，如果存在一个与之相同的查询词语，则该描述词语被该查询词语命中一次，根据命中的查询词语所属的查询串以及查询串的出现次数，确定描述词语被查询串命中的次数；

标签确定单元，用于将命中次数符合预置条件的描述词语确定为对应业务对象的标签。

当然，这里所述的确定各个描述词语是否为对应业务对象的标签，相当于是训练过程的数据准确阶段，与后续预测某文字描述信息中哪些描述词语可以作为对应业务对象的标签有所不同，在数据准备阶段，已经有了搜索点击日志作为参考，而后续的预测过程，相当于是在完全没有搜索点击日志作为参考的情况下，通过之前训练得到的训练模型来得到预测结果。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的获取业务对象标签、建立训练模型的方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种获取业务对象标签的方法，其特征在于，包括：

提取各个描述词语的特征；

将各个描述词语的特征以及描述词语在所述目标文字描述信息中的上下文信息输入到预置的训练模型中，根据所述训练模型的输出结果确定各个描述词语是否可作为对应业务对象的标签；

其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，该概率与当前描述词语的特征以及该当前描述词语在所述目标文字描述信息中的上下文信息相关；其中，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

2.根据权利要求1所述的方法，其特征在于，所述训练模型包括CRF模型，所述将各个描述词语的特征以及描述词语在所述目标文字描述信息中的上下文信息输入到预置的训练模型包括：

3.根据权利要求1所述的方法，其特征在于，所述训练模型包括GBDT模型，所述方法还包括：

提取各个描述词语分别在所属的文字描述信息中的上下文信息；

所述将各个描述词语的特征以及描述词语在所述目标文字描述信息中的上下文信息输入到预置的训练模型包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，在提取当前描述词语的特征或者提取上下文信息中那个描述词语的特征时，提取的特征包括以下特征中的一种或多种：描述词语的词性、描述词语对应本业务对象的用户点击次数T1、描述词语对应的全部业务对象的用户点击次数T2、T1与T2的比值。

5.根据权利要求4所述的方法，其特征在于，当前描述词语的特征还包括当前描述词语对应全网搜索关键词的被搜索次数和/或当前描述词语对应本业务对象类目下搜索关键词的被搜索次数。

6.一种创建训练模型的方法，其特征在于，包括：

提取各个描述词语的特征；

将各个描述词语、描述词语的特征、描述词语在所述文字描述信息中的上下文信息以及各个描述词语是否为对应业务对象的标签的信息输入到预置的算法中进行训练，生成训练模型；

其中，所述训练模型用于预测目标文字描述信息中的各个描述词语能够作为对应业务对象的标签的概率，所述上下文信息包括当前描述词语前M个描述词语和后N个描述词语的特征，M、N均为整数。

7.根据权利要求6所述的方法，其特征在于，所述预置算法包括CRF算法，所述训练模型包括CRF模型，所述方法还包括：

将所述训练语料组织为矩阵的形式，其中，矩阵中第一列为各个描述词语，中间列为各个描述词语对应的特征，最后一列表示各个描述词语是否为对应业务对象的标签；

确定训练过程使用的CRF模板文件，所述CRF模板文件由多个模板组成，每个模板用于指定在针对当前描述词语提取上下文信息时，所提取的信息相对于当前描述词语的行偏移，以及所取的信息所在列的绝对位置；

所述将各个描述词语、描述词语的特征、描述词语在所述文字描述信息中的上下文信息以及各个描述词语是否为对应业务对象的标签的信息输入到预置的算法中进行训练，包括：

8.根据权利要求6所述的方法，其特征在于，所述预置算法包括GBDT算法，所述训练模型包括GBDT模型，所述方法还包括：

9.根据权利要求6至8任一项所述的方法，其特征在于，在提取当前描述词语的特征或者提取上下文信息中那个描述词语的特征时，提取的特征包括以下特征中的一种或多种：描述词语的词性、描述词语对应本业务对象的用户点击次数T1、描述词语对应的全部业务对象的用户点击次数T2、T1与T2的比值。

10.根据权利要求9所述的方法，其特征在于，当前描述词语的特征还包括当前描述词语对应全网搜索关键词的被搜索次数和/或当前描述词语对应本业务对象类目下搜索关键词的被搜索次数。

11.根据权利要求6至8任一项所述的方法，其特征在于，通过以下方式确定训练语料中的各个描述词语是否为对应业务对象的标签：

获取搜索点击日志，所述搜索点击日志用于记录业务对象被点击时，对应的查询串；

针对一业务对象，从所述搜索点击日志中获取该业务对象被点击时对应的目标查询串，以及各个目标查询串出现的次数；

将该业务对象的文字描述信息进行分词，得到多个描述词语；

将所述查询串进行分词，得到多个查询词语；

针对该业务对象的描述词语，统计被查询串命中的次数，其中，如果存在一个与之相同的查询词语，则该描述词语被该查询词语命中一次，根据命中的查询词语所属的查询串以及查询串的出现次数，确定描述词语被查询串命中的次数；

将命中次数符合预置条件的描述词语确定为对应业务对象的标签。

12.一种获取业务对象标签的装置，其特征在于，包括：

特征提取单元，用于提取各个描述词语的特征；

13.一种创建训练模型的装置，其特征在于，包括：

特征提取单元，用于提取各个描述词语的特征；