CN112907301B

CN112907301B - 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统

Info

Publication number: CN112907301B
Application number: CN202110332049.7A
Authority: CN
Inventors: 景东; 张大勇; 卓兴良
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-06-14
Anticipated expiration: 2041-03-29
Also published as: CN112907301A

Abstract

一种基于Bi‑LSTM‑CRF模型的内容相关广告投放方法及系统，属于广告投放技术领域，用以解决对于小规模数据集的基于深度学习的命名实体识别模型，由于其不容易自动获取特征，从而导致模型难以取得很好的识别效果，进一步导致广告推荐不能精准投放的问题。本发明的技术要点包括：将训练数据集输入Bi‑LSTM‑CRF模型进行训练，获取最优预测模型；将待预测数据输入最优预测模型，获取预测的商品词；根据所述商品词匹配相关广告，获取匹配度最高的广告信息；将携带广告信息的广告进行投放。本发明在Bi‑LSTM‑CRF算法的基础上结合商品词的特征，通过特征工程方式增强数据，使数据具有更丰富的语义，构建一种适用于文档商品词抽取的系统用于内容相关的广告推荐，提升了广告精准投放效果。

Description

一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统

技术领域

本发明涉及广告投放技术领域，具体涉及一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统。

背景技术

二手社区是供用户发布浏览帖子的网络平台，用户可以发布帖子表达闲置转让的诉求或者浏览帖子查看是否符合自己的购买意愿，而对于二手社区而言，其收益方式主要是广告投放。由于二手社区的广告投放过程中需要进行精准投放，所以从社区内容出发分析用户的购买意图并以此进行广告投放，即内容相关广告。内容相关广告的主要思想是在向用户提供网页内容的同时，投放与该内容相关的广告。在现有技术中，多采用关键词抽取的方法，即通过抽取文档内容中的关键词，然后去匹配广告获得内容相关广告。但是，基于关键词抽取的内容相关广告投放方法准确率不高。

现有的命名实体识别算法主要集中在识别人名、地名以及结构名等方面，其中，相对于其他命名实体识别算法，基于深度学习的命名实体识别算法对于上述识别任务取得了较好的识别效果。但是对于商品命名实体识别任务还有待挖掘研究，因此将基于深度学习的命名实体识别算法应用于内容相关广告投放方法中，但是由于深度学习需要大规模数据集，对于小规模数据集的基于深度学习的命名实体识别模型，其不容易自动获取特征，从而导致该命名实体识别模型难以取得很好的识别效果。

发明内容

鉴于以上问题，本发明提出一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统，用以解决对于小规模数据集的基于深度学习的命名实体识别模型，由于其不容易自动获取特征，从而导致模型难以取得很好的识别效果，进一步导致广告推荐不能精准投放的问题。

根据本发明一方面，提出一种基于Bi-LSTM-CRF模型的内容相关广告投放方法，该方法包括以下步骤：

步骤一、获取包含对商品实体进行标注的训练数据集；

步骤二、将所述训练数据集输入Bi-LSTM-CRF模型进行训练，获取最优预测模型；

步骤三、将包含商品实体的待预测数据输入最优预测模型，获取预测的商品词；

步骤四、根据所述商品词匹配相关广告，获取匹配度最高的广告信息；

步骤五、将携带广告信息的广告进行投放。

进一步地，步骤二中所述Bi-LSTM-CRF模型包括输入特征层、Bi－LSTM中间层、CRF输出层；其中，输入特征层用于将所述训练数据集每个字符分开，以字向量表示训练数据并输入Bi－LSTM中间层；Bi－LSTM中间层用于利用双向LSTM循环神经网络对输入的序列信息进行上下文特征提取，并将两个方向的LSTM特征结果进行拼接，并输入CRF输出层；CRF输出层用于生成最终的标签序列。

进一步地，所述字向量为利用Skip-gram模型预训练得到的特征词向量。

进一步地，步骤二在进行训练的过程中采用最大似然估计的方法寻找最优的标签序列。

进一步地，步骤二所述输入特征层中，将分词特征、词性特征、依存关系特征、字母特征、数字特征中的一种或多种组合与字向量进行拼接作为输入特征输入Bi－LSTM中间层。

进一步地，步骤二中在输入特征层和Bi-LSTM中间层之间加入dropout参数用于正则化，以避免模型过拟合。

进一步地，步骤三中预测的具体过程为通过维特比算法进行解码，获取转移概率最大的标签序列。

进一步地，步骤五中投放广告的方式为采用广告与用户内容相结合的方式。

根据本发明另一方面，提出一种基于Bi-LSTM-CRF模型的内容相关广告投放系统，该系统包括：

预测模型训练单元，用于将获取的包含对商品实体进行标注的训练数据集输入Bi-LSTM-CRF模型进行训练，获取最优预测模型；

商品词预测单元，用于将包含商品实体的待预测数据输入最优预测模型，获取预测的商品词；

广告信息匹配单元，用于根据所述商品词匹配相关广告，获取匹配度最高的广告信息；

广告投放单元，用于将携带广告信息的广告进行投放。

进一步地，所述预测模型训练单元中所述Bi-LSTM-CRF模型包括输入特征层、Bi－LSTM中间层、CRF输出层；其中，输入特征层用于将所述训练数据集每个字符分开，将分词特征、词性特征、依存关系特征、字母特征、数字特征中的一种或多种组合与字向量进行拼接作为输入特征输入Bi－LSTM中间层，所述字向量为利用Skip-gram模型预训练得到的特征词向量；Bi－LSTM中间层用于利用双向LSTM循环神经网络对输入的序列信息进行上下文特征提取，并将两个方向的LSTM特征结果进行拼接，并输入CRF输出层；CRF输出层用于生成最终的标签序列。

本发明的有益技术效果是：

本发明在Bi-LSTM-CRF算法的基础上结合商品词的特征，通过特征工程的方式增强数据，使数据具有更丰富的语义，然后通过不同的特征组合方式与字向量进行拼接输入到模型中，实验表明该算法的召回率比基线模型(即现有的Bi-LSTM-CRF算法)高4.15％，有效提升了系统的商品词命名实体的识别效果，构建了一种适用于文档商品词抽取的系统，用于内容相关的广告推荐，提升了广告精准投放的效果。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。

图1是本发明内容相关广告投放的示意图；

图2是本发明一种基于Bi-LSTM-CRF模型的内容相关广告投放方法的示意性流程图；

图3是本发明中Bi-LSTM-CRF命名实体识别模型框架图；

图4是本发明中不同模型在不同评价标准的实验结果分布条形图。

图5是本发明一种基于Bi-LSTM-CRF模型的内容相关广告投放系统的示意性结构图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标。在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

内容相关广告是指基于网页内容定位的广告，广告载体是展示广告的页面。其主要思想是，通过特定的算法将广告投放到与广告相匹配的网页，这种广告投放方式不仅增加了广告提供者和二手社区所有者的收益，更重要的是不会影响用户体验。内容相关广告的目的是选出与网页内容相关的广告，着重的是网页内容与广告信息的相关的重要性。

在内容相关广告投放过程中，涉及到四种角色：社区所有者、广告提供者、第三方广告商和用户，通过内容相关广告可以让四者实现互惠互利的效果。首先，二手社区拥有者提供用户发布二手帖子的平台，用户可以根据自己的兴趣爱好浏览帖子，社区拥有者通过提升网站内容质量或者独有的特色内容来吸引用户访问，当用户量累积到一定程度后，社区拥有者会开始寻找适当的机会来实现盈利。因为二手社区没有办法销售特定的产品来获利，所以二手社区应该选择在其社区内的帖子页面上进行广告投放，但是过多的无关联广告投放会影响用户使用体验从而导致用户的流失。因此，在获取广告利益的同时又能确保不影响用户的使用体验，内容相关广告正好满足这种需求，它是基于网页内容投放关联度较高的广告；其次，第三方广告商根据二手社区提供的网页主题信息，匹配相关的广告，匹配完成后，第三方广告商会将广告信息返回给二手社区；广告提供者是广告信息的提供者，他将准备好的广告信息注册到第三方广告商的广告库中，通过投放广告，希望能够为自己的网页带来更大的用户访问量，从而增加网页知名度或产品销售量，最终增加自己的收入；最后一个是用户，他们根据自己的兴趣爱好浏览二手社区中的帖子，当用户长时间停留在一个页面上时，说明用户很可能对该帖子的内容感兴趣，而此时该帖子中展现的广告是和帖子内容相关的，所以用户很可能对该广告感兴趣并最终产生购买行为。

内容相关广告投放系统在商品词识别系统训练完成后，将模型利用flask框架进行二次开发，然后将代码通过绿色独角兽gunicorn服务器和nginx反向代理服务器，部署到后端服务器上。该部分代码主要是将商品词识别系统中识别出的商品词通过京东广告联盟接口进行广告匹配，得到匹配度最高的广告信息。最后，将其返回到二手社区展示给用户。关于最终的广告展示模块，可采用广告与用户评论相结合的方式展示广告。具体流程如图1、图2所示。

如图2所示，首先，获取已经对商品实体进行标注的训练数据集；然后，将训练数据集输入Bi-LSTM-CRF模型进行训练，获取最优预测模型；然后，将待预测数据输入最优预测模型，获取预测的商品词；然后，根据预测的商品词匹配相关广告，获取匹配度最高的广告信息；最后，将携带广告信息的广告进行投放。

对于商品词识别系统的训练，提出一种基于Bi－LSTM－CRF深度学习模型用于二手社区帖子内容中的商品命名实体识别工作，模型框架如图3所示。

该模型为基于字符的序列标注模型，主要可分为3层：输入特征层、Bi－LSTM中间层、CRF输出层。首先需要将训练集的每个字符分开，通过预训练的词向量得到每个字的特征词向量表示，作为模型的输入；中间层使用包含前后两个方向的LSTM神经网络层对输入的文本序列进行建模；最后使用CRF层作为模型的输出层生成对应的标签序列。

1)输入特征层：整个训练文本集是以字为单位组成，每个字由字向量(CharEmbedding)表示输入到模型中。其中，字向量为gensim模块利用Skip-gram模型训练得到的特征词向量。

2)Bi－LSTM中间层：利用双向LSTM循环神经网络对输入的序列信息进行上下文特征提取，最终将两个方向的LSTM特征结果进行拼接，输入到CRF层。

3)CRF输出层：CRF层作为整个模型的输出层，生成最终的序列标注结果。

在训练过程中采用最大似然估计的方法寻找最优的标注序列，预测阶段需要使用维特比算法进行解码，获取转移概率最大的标签序列。此外，在输入层和Bi-LSTM层之间，加入了dropout参数，用于正则化，避免模型过拟合。

依据算法模型图，可以设计出该算法训练部分的伪代码，如下所示：

由于深度学习模型需要大规模的数据，如果用小规模的数据训练上述Bi-LSTM-CRF模型，不容易自动获取特征，导致模型难以取得很好的识别效果。为了解决这个问题，提出一种融合多特征的Bi-LSTM-CRF模型，提出几种额外辅助特征，通过特征组合作为模型输入，使模型的输入层具有更丰富的语义，从而间接解决这个问题，同时提升模型的识别效果。

首先，由于传统的Bi-LSTM-CRF模型输入层只考虑了字级别的词向量，可能会丢失词语层面的语义信息，因此本发明根据这一点提出分词特征、词性特征和依存关系特征这三种词级特征作为额外特征。

分词就是将长文本分解为以词为最小单元的过程，词是表达完整含义的最小单位，相比于字符具有更丰富的语义。本发明提出的分词特征是指语料中的词本身，而利用词本身就需要使用汉语分词工具，本发明采用哈工大社会计算与信息检索研究中心开发的pyltp作为本发明中实验的分词工具。通过分词之后，利用“1”表示词头，“3”表示词尾，“2”表示词中，“0”表示单字，通过分词特征可以表示出词的首尾信息，有助于识别命名实体的边界。

词性是依据语言学规则对词的一种分类，将可以表示某一种意义的词划分为一类，通过词性划分，词可以表达更多的语义信息。经过分析语料可以发现商品词多是名词性短语，其组成部分的词性较为固定，所以词性特征是识别商品词命名实体的重要特征。根据pyltp的词性标注集，共有29种不同的词性标注，构建词性词典，并建立相应的one-hot编码，最后利用pytorch自带的字嵌入方法进行向量化，得到用于拼接的词性特征额外向量。

依存句法分析是分析语言单位内成分之间的相关关系从而揭示句法结构。通过分析帖子数据中的商品词特征，发现商品词多是出现在如“出”、“收”、“入”等动词的后面。依据这一点，在一篇帖子中，通过依存句法分析找出帖子中心词，即主语和宾语，作为依存关系特征，用以提升模型的识别效果。该特征也是利用pyltp工具进行依存句法分析后获得。

另外，本发明通过分析网页数据中的商品词，发现一个商品词可能由以下几部分组成：品牌名称、产品系列、产品型号和产品类别词。据统计发现，在真实预料中采用“品牌名称+产品型号”和产品型号单独出现这两种表现形式数量最多，几乎占据商品词命名实体总数的97％。而产品名称除个别外几乎都拥有对应的英文名称，再者，产品型号多是由字母数字组成的字符串表示，例如联想电脑型号“IdeaCentre K305”。基于这一点，本发明提出字母特征和数字特征这两种商品词特征作为额外特征，用以描述该字符是否为字母或数字。

因此，将上述五种额外特征的组合，即分词特征、词性特征、依存关系特征、字母特征和数字特征，与字向量进行拼接作为模型的输入层，再通过双向LSTM层获取前向特征和后向特征，并将其拼接起来用以表示字符，最后通过CRF层学习输出标签之间的转移特征。

为了探究不同的特征组合对于模型的识别效果的影响，可设计融合不同的特征组合。特征组合如下：

1)将分词特征、词性特征、依存关系特征、字母特征和数字特征分别和单一的特征字向量进行拼接作为输入层，输入到模型中，如下表1所示。

表1

2)将词级特征(即分词特征、词性特征和依存关系特征)之间两两组合，分别和单一的特征字向量进行拼接作为输入层；将商品词特征(即字母特征和数字特征)和单一的特征字向量进行拼接作为输入层；输入到模型中，如下表2所示。

表2

3)将词级特征(即分词特征、词性特征和依存关系特征)和单一的特征字向量进行拼接作为输入层；将商品词特征(即字母特征和数字特征)分别与词级特征(即分词特征、词性特征和依存关系特征)中的一种进行组合，并和单一的特征字向量进行拼接作为输入层；输入到模型中，如下表3所示。

表3

4)将词级特征(即分词特征、词性特征和依存关系特征)中的两种特征分别和商品词特征(即字母特征和数字特征)组合，并和单一的特征字向量进行拼接作为输入层，输入到模型中，如下表4所示。

表4

5)将词级特征(即分词特征、词性特征和依存关系特征)和商品词特征(即字母特征和数字特征)组合，并和单一的特征字向量进行拼接作为输入层，输入到模型中，如下表5所示。

表5

具体实施例一

验证本发明方法的有效性。

实验使用从二手社区中获取的帖子数据，通过人工标注，该数据集包含了19449条帖子数据，经过标注共有29859个商品实体；实验由1台2核CPU、8G内存的计算机进行运算，采用pytorch框架实现算法。

将标注后的语料按照8：1：1的比例分成训练集、验证集和测试集，进行模型的训练。为了寻找模型的最佳参数设置，采用参数搜索方法。在该方法中，将词向量维度定为[200,256,300]之间，LSTM层的单元个数定为[64,128]之间，dropout的值在[0.4,0.5,0.6]之间。最终测试得到模型的最佳参数组合如表6所示。

表6模型最佳训练参数设置

预训练的字向量是基于从京东上爬取的商品词列表数据训练得到。爬取的商品词数据共有14882747条，通过word2vec中的skip-gram模型在这批数据上进行训练得到实验用的字向量，该字向量共包含8715个字，每个字对应一个256维的向量值用以表示该字符的特征。

实验采用准确率、召回率和F1值三个评价指标对模型进行性能衡量。准确率可以衡量模型识别出的实体中有多大概率为正确的实体，召回率则是衡量模型对于未登录词的识别效果，F1值则是综合衡量模型实体识别的性能。在设计的模型上进行训练，实验结果如下表7所示。表中，将分词特征简写为Word，词性特征简写成Pos，依存关系特征简写成Parser，字母特征简写成Letter，数字特征简写成Num。

表7

通过表7的实验数据分析可知，模型15比基线模型(即模型3)在准确率上低了0.05％，但是其在召回率上高了4.15％，F1值高了2.31％，识别效果在所有模型中最佳。综合不同模型在融合不同的特征组合之后的影响，实验数据通过制图后如图4所示，从召回率和F1值来看，融合多特征的Bi-LSTM-CRF模型效果较好，相比于基线模型(即模型3)实验结果来看，召回率最高提高了4.15％，F1值最高提高了2.31％，说明本发明结合实体自身的特点，提出的额外特征是有效的，这些特征组合在一定程度上都提高了命名实体的识别质量，融合多特征的Bi-LSTM-CRF算法要比基于单一字符的Bi-LSTM-CRF算法(即模型3)效果更好。

具体实施例二

本实施例提出一种基于Bi-LSTM-CRF模型的内容相关广告投放系统，如图5所示，该系统包括：

预测模型训练单元110，用于将获取的包含对商品实体进行标注的训练数据集输入Bi-LSTM-CRF模型进行训练，获取最优预测模型；

商品词预测单元120，用于将包含商品实体的待预测数据输入最优预测模型，获取预测的商品词；

广告信息匹配单元130，用于根据商品词匹配相关广告，获取匹配度最高的广告信息；

广告投放单元140，用于将携带广告信息的广告进行投放。

进一步地，预测模型训练单元110中Bi-LSTM-CRF模型包括输入特征层1110、Bi－LSTM中间层1120、CRF输出层1130；其中，输入特征层1110用于将训练数据集每个字符分开，将分词特征、词性特征、依存关系特征、字母特征、数字特征中的一种或多种组合与字向量进行拼接作为输入特征输入Bi－LSTM中间层1120，字向量为利用Skip-gram模型预训练得到的特征词向量；Bi－LSTM中间层1120用于利用双向LSTM循环神经网络对输入的序列信息进行上下文特征提取，并将两个方向的LSTM特征结果进行拼接，输入CRF输出层1130；CRF输出层1130用于生成最终的标签序列。

进一步地，预测模型训练单元110中在输入特征层1110和Bi-LSTM中间层1120之间加入dropout参数用于正则化，以避免模型过拟合。

进一步地，预测模型训练单元110在进行训练的过程中采用最大似然估计的方法寻找最优的标签序列。

进一步地，商品词预测单元120中通过维特比算法进行解码，获取转移概率最大的标签序列。

进一步地，广告投放单元140中投放广告的方式为采用广告与用户内容相结合的方式。

本实施例所述一种基于Bi-LSTM-CRF模型的内容相关广告投放系统的功能可以由前述一种基于Bi-LSTM-CRF模型的内容相关广告投放方法说明，因此本实施例未详述部分，可参见以上方法实施例，在此不再赘述。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于Bi-LSTM-CRF模型的内容相关广告投放方法，其特征在于，包括以下步骤：

步骤一、获取包含对商品实体进行标注的训练数据集；

步骤二、将所述训练数据集输入Bi-LSTM-CRF模型进行训练，获取最优预测模型；所述Bi-LSTM-CRF模型包括输入特征层、Bi－LSTM中间层、CRF输出层；其中，输入特征层用于将所述训练数据集每个字符分开，将分词特征、词性特征、依存关系特征、字母特征、数字特征中的一种或多种组合与字向量进行拼接作为输入特征输入Bi－LSTM中间层，所述字向量为利用Skip-gram模型预训练得到的特征词向量；Bi－LSTM中间层用于利用双向LSTM循环神经网络对输入的序列信息进行上下文特征提取，并将两个方向的LSTM特征结果进行拼接，并输入CRF输出层；CRF输出层用于生成最终的标签序列；

步骤五、将携带广告信息的广告进行投放。

2.根据权利要求1所述的一种基于Bi-LSTM-CRF模型的内容相关广告投放方法，其特征在于，步骤二在进行训练的过程中采用最大似然估计的方法寻找最优的标签序列。

3.根据权利要求2所述的一种基于Bi-LSTM-CRF模型的内容相关广告投放方法，其特征在于，步骤二中在输入特征层和Bi-LSTM中间层之间加入dropout参数用于正则化，以避免模型过拟合。

4.根据权利要求1-3中任一项所述的一种基于Bi-LSTM-CRF模型的内容相关广告投放方法，其特征在于，步骤三中预测的具体过程为通过维特比算法进行解码，获取转移概率最大的标签序列。

5.根据权利要求1所述的一种基于Bi-LSTM-CRF模型的内容相关广告投放方法，其特征在于，步骤五中投放广告的方式为采用广告与用户内容相结合的方式。

6.一种基于Bi-LSTM-CRF模型的内容相关广告投放系统，其特征在于，包括：

预测模型训练单元，用于将获取的包含对商品实体进行标注的训练数据集输入Bi-LSTM-CRF模型进行训练，获取最优预测模型；其中，Bi-LSTM-CRF模型包括输入特征层、Bi－LSTM中间层、CRF输出层；其中，输入特征层用于将所述训练数据集每个字符分开，将分词特征、词性特征、依存关系特征、字母特征、数字特征中的一种或多种组合与字向量进行拼接作为输入特征输入Bi－LSTM中间层，所述字向量为利用Skip-gram模型预训练得到的特征词向量；Bi－LSTM中间层用于利用双向LSTM循环神经网络对输入的序列信息进行上下文特征提取，并将两个方向的LSTM特征结果进行拼接，并输入CRF输出层；CRF输出层用于生成最终的标签序列；

广告投放单元，用于将携带广告信息的广告进行投放。