CN113392323B

CN113392323B - 基于多源数据联合学习的商务角色预测方法

Info

Publication number: CN113392323B
Application number: CN202110660624.6A
Authority: CN
Inventors: 袁华; 钱宇; 郑杰; 李善兵; 高勇; 余长江; 蒲首萄
Original assignee: Chongqing Huifa Network Technology Co ltd; University of Electronic Science and Technology of China
Current assignee: Chongqing Huifa Network Technology Co ltd; University of Electronic Science and Technology of China
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2022-04-19
Anticipated expiration: 2041-06-15
Also published as: CN113392323A

Abstract

本发明公开了一种基于多源数据联合学习的商务角色预测方法，包括：数据收集和商业角色标签；数据预处理；学习联合表征的转化过程；预测公司的商业角色；本发明可以自动连接

和

之间的数据关系，获得

和

数据的联合表示，并学习专家标注的数据知识，这样可以大大提高用户在线检索商务伙伴的效率，并提高用户处理来自搜索引擎的大数据的效率，尤其是可以为B2B营销管理引入AI提供有用的参考，如处理大量文本数据并因此获得丰富的信息以供决策。

Description

基于多源数据联合学习的商务角色预测方法

技术领域

本发明涉及大数据技术领域，特别是一种基于多源数据联合学习的商务角色预测方法。

背景技术

互联网的发展使得中小企业可以通过搜索引擎在线寻找到与产品相关的商业伙伴。但是，普通用户很难通过一条搜索引擎数据

判断与其产品相关的公司商务角色(如供应商，零售商或其他)。通常，人们认为其他信息源(例如实际的网页数据

)，可以帮助用户确定与

相关的公司的商务角色。然而，获得并处理该类信息是劳动密集型的工作，费时且昂贵。

随着电子商务的发展，越来越多的企业通过互联网展示自己的产品、品牌和简介，特别是在自己的官方网站或公开的在线市场。因此，互联网影响企业合作关系的一个重要方式是，(企业)用户可以在互联网上公开搜索潜在的合作伙伴。例如，生产者在网上搜索其商品的分销商，装配商在网上搜索其零部件的供应商，等等。通过互联网寻找商业伙伴的方式，增加了企业商业活动的灵活性，使一些重要行业得以持续经营。

虽然一些著名的B2B电子市场，如Alibaba.com，旨在帮助用户快速找到商业伙伴。然而，随着B2B电子市场信息过载问题的日益严重，关系承诺和信任可能会促使企业以自己的方式在网上寻找合作伙伴。为了帮助用户高效地找到合适的商业伙伴，google.com等搜索引擎经常被用来在万维网上系统地搜索用户所需的特定信息。图1是用户通过google.com搜索潜在合作伙伴的一般过程。当用户在搜索引擎的查询栏中输入适当的(通常是产品信息相关的)查询词时，这个搜索过程就开始了。接下来，搜索引擎会返回一组搜索到的数据

对于

中的每一个数据

都包含三个项目，即标题、URL和片段。进一步，用户可以根据这三个项目所呈现的内容，初步判断

是否与自己的搜索意图相关。如果判断结果是Yes，由于

提供的信息非常有限，用户则需要点击URL(即

URL)打开网站上的网页，进一步阅读网页数据

然后对与

相关联的公司是否是她/他想要寻找的合适的合作伙伴做出最终判断。

在这种“先基于

初步识别，再基于

最终确定”的信息检索模式下，用户面临着基于

预判公司业务角色的准确性问题。毕竟

中的信息是有限的，搜索引擎返回的结果也不一定与用户实际寻找的数据相关。尤其是，如果一条不相关的

被判断为相关，那么用户打开网页阅读信息就是浪费时间。相反，如果一个相关的

被判断为不相关，用户将面临失去正确信息的风险。此外，用户还面临着信息检索和决策效率的问题。首先，搜索引擎返回的结果量通常非常大，尤其是当查询词是流行词的时候。换句话说，

是真正的“大数据”。其次，对于用户来说，将

URL连接到其实际页面并阅读其内容也是一项耗时的任务。显然，从

的海量数据中识别出所需的合作伙伴对用户来说是一项艰难的挑战，这便提出了一个有趣的研究问题，即如何才能高效地自动预测与

中数据相关联的公司的商业角色。

传统的基于机器学习的解决方案是将上述预测问题转化为网页的分类问题，因此会有两种不同的解决方案，一是在用户端优化查询词，二是在网页端做SEO。但是，前一种方法的有效使用需要用户既是业务专家又是信息检索专家，这就限制了该方法的通用性。而后一种方法则面临着较高的经济成本。

发明内容

为解决现有技术中存在的问题，本发明的目的是提供一种基于多源数据联合学习的商务角色预测方法，本发明可以自动连接

和

之间的数据关系，获得

和

数据的联合融合表示表征，并学习专家标注的数据知识，这样可以大大提高用户在线检索商务伙伴的效率，并提高用户处理来自搜索引擎的大数据的效率，尤其是可以为B2B营销管理引入AI提供有用的参考，如处理大量文本数据并因此获得丰富的信息以供决策。

为实现上述目的，本发明采用的技术方案是：一种基于多源数据联合学习的商务角色预测方法，包括以下步骤：

步骤1、数据收集和商业角色标签：收集搜索引擎返回的结果到搜索引擎数据集

同时，从搜索引擎数据集

中的URL所指向的页面中抓取网页数据集

并在每个页面上标注其代表的商业角色；

步骤2、数据预处理：文本分词和词语向量化，将搜索引擎数据集

中的每一个数据

和网页数据集

中的每一个数据

转化为向量

和

步骤3、学习联合融合表征的转化过程：学习

和

之间的联合融合表示，通过两个参数化的函数，即编码器E_α(.)和解码器D_β(.)来获取搜索引擎数据集

和网页数据集

的共同信息，通过优化α和β的值，使

的结果收敛于联合融合表征的高维向量H_i，D_β(H_i)以较低的损失收敛于

步骤4、预测公司的商业角色：学习预测模型f_γ(.)来预测与

相关的公司的商业角色，即

其中，α、β和γ分别表示在编码、解码和预测过程中需要学习的参数集。

作为本发明的进一步改进，所述步骤1具体如下：

首先，将每个产品的产品术语输入搜索引擎，模拟用户的查询过程；

然后，抓取搜索引擎返回的所有数据项，并将标题、URL和片段这三个项目连接起来，形成搜索引擎数据集

同时，根据URL，抓取相应网页的页面内容：

最后，通过专家手动登陆网址的原始页面，在线阅读内容，然后在每个页面上标注商业角色。

作为本发明的进一步改进，所述的商业角色包括零售商、生产商和其他。

作为本发明的进一步改进，在步骤2中，采用BERT词嵌入和句子嵌入方法进行词语向量化，具体如下：

的词语向量化：首先将搜索引擎数据集

中的每一个数据

离散为一串长度为L的词语：

然后每个词

被BERT 表征成向量

得到向量化的

即

的词语向量化：使用预训练模型VGG-16将从网页中提取的每张图片表示为一个向量，如果有多张图片，则使用平均法进行数据融合，然后使用BERT 将从网页中提取的文本嵌入为一个句子向量，使用LSTM对从网页中提取的多个句子进行融合，最后，从图像和文本中提取的数据被一个编码器-解码器模型融合，从而

中的所有相关数据被融合成一个整体的向量

作为本发明的进一步改进，所述步骤3中，所述编码器采用BiLSTM模型，所述解码器采用注意力LSTM模型，编码器和解码器的输出被指定为：

作为本发明的进一步改进，步骤3中的编码解码过程即将

的语义翻译成其匹配的页面数据

的过程，在翻译过程中，采取

和

之间的均方误差 MSE来评估学习损失

当函数

被最小化时，得到

和

的联合表示H_i，

的优化目标是获得合适的α和β，使

和

之间的差异尽可能小。

作为本发明的进一步改进，所述步骤4具体如下：

将H_i＝[h₁,h₂,…,h_l,…,h_L]输入注意力LSTM模型：

H′_i＝LSTM(H_i)＝[h′₁,h′₂,…,h′_l,…,h′_L]

通过使用与任务相关的查询向量q，利用注意力机制从联合表示中选择信息，则所有位置上的注意力分布a_l被定义为：

其中，b_c∈b是偏置参数；

将

放入全连接层，并使用softmax函数来获得与

相关的公司属于每个商业角色的概率：

其中，MLP(.)表示全连接层，上述函数的组合形成了f_γ(.)的预测模型。

作为本发明的进一步改进，还包括以下步骤：

步骤5、耦合转化的预测过程：当所有与

相关的公司的角色被预测后，得到两个集合：集合

代表所有与

相关的公司的真实商业角色，而集合

是相应的预测结果，C和

之间的预测损失

由分类交叉熵CCE来衡量：

定义目标函数：

其中，λ₁和λ₂为两个超参数；

所有的参数被概括为(W；b)＝(α,β，γ；b)，其最佳值通过最小化以下目标函数得到：

其中，W为更新的权重，b为偏置参数。

本发明的有益效果是：

1、本发明构建了一个AI模块来代替用户参与的繁琐任务(图1中的灰色区域)；将实际网页与URL链接、阅读网页内容、预测

相关公司的业务角色。这一模块的主要难点在于将每个

的内容和实际网页数据

的内容之间建立语义联系，并进一步利用这种语义联系来判断

和

相关公司的角色。与以往的研究不同，本发明的人工智能模块专门引入了最新的深度学习技术来执行一组自然语言处理(NLP)任务，以提高结果的准确性。

2、本发明为当前B2B营销文献贡献了方法论和研究成果。首先，在人工智能模块中，提出了多源数据联合融合学习(MDJL)模型来训练并获得相关数据之间的共同表示表征。考虑到搜索引擎返回信息的有限性，MDJL通过融合同一公司的搜索引擎数据

和实际页面数据

的方式来丰富决策信息。该方法可用于融合来自不同数据源的任何相关信息(针对同一事物)，进而为B2B营销管理任务提供准确的决策信息。其次，提出了基于深度神经网络的商业伙伴角色预测模型。特别是结合多源数据融合机制，即使是在数据缺失的情况下，训练有素的预测模型甚至可以对一些未知搜索结果

不属于

相关的商务角色做出更为准确的判断。此外，与一些知名的机器学习模型在预测搜索引擎返回的URL所关联的企业商务角色的任务上进行了比较实验。实验结果表明，本发明提出的方法完全优于所比较的其它方法。最后，为在线B2B营销提供了SEO之外的新思路，即企业可利用AI来分析处理大数据的语义以及关联性，并将这些AI 处理后的信息高效率地嵌入到企业的管理决策活动中去。

附图说明

图1为用户通过google.com搜索潜在合作伙伴的一般过程的示意图；

图2为本发明实施例提出的预测方法的AI框架的整体结构图；

图3为本发明实施例中网页内容向量化过程的示意图；

图4为本发明实施例中根据H_i预测公司的商业角色的示意图；

图5为本发明实施例中不同测试数据集下的模型性能比较的柱形图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例

商业合作伙伴在线搜索：

基于互联网技术的便利性，电子商务使得实时营销成为可能，打破了时间和空间的限制。因此，中小企业可以利用搜索引擎工具在网上寻找基于产品的商业合作伙伴(即供应商和零售商)。

在电子商务发展初期，Rauch和Trindade(2003)的研究表明，互联网对国际经济的影响之一是方便企业寻找合作伙伴。然而，在很长一段时间内，除了一些关于B2B商业模式的一般性讨论话题外，并没有探讨关于中小企业如何在网上自主寻找合作伙伴的研究，如采纳模型。

Lu等人(2013)提出了一种混合模糊语义推荐方法，该方法结合了基于项目的协同过滤技术，向个体商业用户推荐相关的商业伙伴，尤其是针对中小企业。Brynjolfsson等学者(2019)利用eBay的数字平台数据进行的研究结果表明，引入新的机器翻译系统后，国际贸易得到了显著增加。他们的研究还表明，在跨国贸易中，不同语言对同一产品的各种描述形成了多源数据，这种多源数据之间的信息融合在商业中十分有用。

文本分类：

考虑到搜索引擎返回的数据和实际网页上的相应数据都是以文本的形式呈现的，因此，自然语言处理(NLP)文献中与本实施例最相关的任务是文本分类。

常规文本分类的一个关键任务是特征表示，它通常基于词袋(BoW)模型。此外，一些更复杂的特征表示也被设计出来了，如词性(POS)标签、名词短语和动词，用于一些特定应用领域的文本分类。考虑到词汇在语料库中的位置顺序对分类有所帮助，研究者们广泛采用了unigrams、bigrams、n-grams或一些设计精巧的模式来进行特征提取。进一步，为了表示术语之间的隐藏关系对文本分类性能的影响，在大多数基于语料库的文本分类研究中，还应用了一些特征选择方法，如词频(TF)、互信息(MI)、潜在语义索引(LSI)、潜在狄利克雷分配(LDA)等，以选择更多的判别特征。伴随着这些特征表示方法，机器学习算法经常使用分类器，如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM) (Aggarwal和Zhai，2012)。然而，当它与文本分类中使用的数据表示不匹配时，这些方法可能存在数据稀疏性问题。

尽管如此，传统的特征表示方法往往忽略了文本中的上下文信息或词序，对于捕捉词的语义信息仍不满意。随着基于海量数据的文本分析任务的发展，研究者已经认识到基于语法和词频而非语义的特征表示法的局限性。Mikolov等 (2013)提出了一种天才般的词表征训练方法--Word2Vec，其基本思想是训练一个前馈神经网络，给定一个特定的词及其前面的上下文来预测下一个词。其结果是将语料库中的词汇映射到K维向量空间中，以获得全新的表示。由于基于Word2Vec的词表征保留了更为丰富的语义信息，因此，在传统机器学习中引入这种表征方法在文本分类中取得了巨大的成功。

已经有学者证明，文本分类的良好特征可以在深度学习算法的浅层进行自动学习。相应地，文本分类任务已经成为深度学习技术应用的丰富领域。例如， Lai等(2015)介绍了一种用于文本分类的循环CNN，不需要人为设计的特征 (without human-designedfeatures)。Liu和Guo(2019)从词嵌入向量中提取了更高级别的短语表征，通过使用BiLSTM框架访问前文和后文表征来提高分类精度。最近，预训练机制，如基于转换器(transformer)的表示，已被证明在学习通用语言表示方面是有用的。NLP科学家开始广泛采用预训练嵌入来获得高质量的特征表示。例如，BERT(Bidirectional EncoderRepresentations from Transformers)是一种最先进的预训练模型，学者们已经研究了如何利用BERT 提高文本分类任务的性能。

多数据源学习：

如上所述，之前NLP文献的研究在文本分类任务上取得了惊人的成果。这些方法通常用于基于特定的语料库(BOW和One-hot等)，或者是通用的、非常大的全局语料库(Word2Vec和BERT等)的学习特征表示。然而，互联网上用来传递信息的数据是多种多样的，比如图片、文字描述、网站链接，甚至是嵌入式语音。可以预期，对于相同的信息检索任务，使用多源数据的性能将比只用单一数据源要好很多。

在经典的NLP研究中，常见的任务一直集中在融合异质数据源上。 Murray(2013)使用多模态这个术语来描述用于组成信息的文本、听觉、语言、空间和视觉资源方面的实践。沿着这一思路，当一个数据集包括多种这样的方式时，它便被定性为多模态。从那时起，使用深度学习方法处理多模态数据已经成为具有交叉数据源的信息检索任务的热门话题，表1中列举了一些相关例子。

表1相关研究举例

以上文献表明，如何从多个相关(同质/异质)数据源中学习有效的联合特征进行网络关联企业分类的问题还没有得到明确的探讨。

基于上述行业背景，本实施例提出一种基于多源数据联合学习的商务角色预测方法，包括：

1、AI框架概述：

该系统的主要工作流程如下：用户输入与产品(生产或销售)相关的查询词，同时搜索引擎返回检索的内容

然后人工智能系统需要预测每个

的相关公司的商业角色。在传统的方法中，这项工作是基于专家手动阅读和理解

URL所对应的

的内容来完成的，所以在模型训练阶段，人工智能系统需要加入领域专家的知识。

整体结构如图2所示。首先，收集搜索引擎返回的结果到

数据集，同时，从

中的URL所指向的页面中抓取数据

然后

和

分别被转化为向量。接下来，学习

和

之间的联合表示，这是由两个参数化的函数E_α(.)和D_β(.)完成的，结果是返回一个联合表征H_i。最后，学习一个预测模型f_γ(.)来预测与

相关的公司的商业角色，即

注意，这里的α、β和γ分别表示人工智能模型在编码、解码和预测过程中需要学习的参数集。

假设与

相关的公司的角色表示为C_i，在下文中，将C_i定义为一个公司在三类合作伙伴(生产商、零售商或其他)中的分布。在第i个公司的商业角色非常明确的情况下，C_i可以定义如下：

2、数据收集和商业角色标签：

本实施例中使用的数据集是通过模拟用户在搜索引擎上检索合作伙伴的行为产生的。最近由Nagpal和Petersen(2020)提出的研究表明，用户使用的查询词可以影响搜索引擎结果的质量。然而，要提出高质量的查询词，用户必须是在线商务和信息检索方面的专家。同时也指出，大多数用户只精通商务。因此，我们从一个流行的在线电子商务网站上为本实验中使用的每种产品提取了2 到3个通用术语，作为搜索产品商业伙伴时的查询词。这是因为，流行的电子商务平台上的产品术语是大多数人可以接受和使用的，而不需要制造业或零售业等商业方面的专业知识。

首先，将每个产品的产品术语输入搜索引擎，模拟用户的查询过程。然后，抓取搜索引擎返回的所有数据项，并将标题、URL和片段这三个项目连接起来，形成

数据集。

同时，根据URL，抓取相应网页的“页面内容”(如网站描述和围绕查询词的短语)。

最后，邀请三位专家手动登录6439个网址的原始页面，在线阅读内容，然后在每个页面上标注“0”、“1”或“2”，分别代表“其他”、“零售商”或“生产商”的商业角色。生成的数据集的信息总结在以下表2中。统计信息显示，

中的词的分布是相对平衡的，而

中的词的分布则有很大不同。

表2生成的数据集的统计信息

3、数据预处理：

很容易知道，生成的

和

中的数据是以文本形式呈现的。为了有效利用深度神经网络方法进行必要的计算，人工智能模块包含两类数据预处理任务：文本分词和词语向量化。

文本分词通常包括在NLP任务的文本分析的初始阶段将输入的文本标记为单词。在本实施例中，只介绍了用于处理文本的英文和中文分割工具。值得一提的是，由于在这项工作中使用了深度神经网络方法，不需要去除所谓的停止词和标点符号。

对于词语向量化，采用BERT词嵌入和句子嵌入方法。首先，

中的

被离散为一串长度为L的词语:

然后，每个词

被BERT表征成向量

得到向量化的

即

它可以直接传递给联合学习模型进行计算。

内容的向量化任务更为复杂，因为AI系统需要“阅读”网页内容，并进一步将其转化为合适的向量表示。通常情况下，专家在阅读网页内容时关注的核心是查询词周围的文字和图片。此外，为了减少噪声数据的影响，如与查询词相关的广告，还抓取了网页上目标文本的结构信息。重要的是，从网页结构的“描述”元素中提取了额外的文本，以帮助理解与该网页相关的公司的商业角色(当手动阅读网页内容时，这一信息被忽略)。

从网页中提取数据并将其处理成向量的流程如图3所示。使用预训练模型 VGG-16将从网页中提取的每张图片表示为一个向量，如果有多张图片，则使用平均法进行数据融合。然后使用BERT将从网页中提取的文本嵌入为一个句子向量。使用LSTM对从网页中提取的多个句子进行融合。最后，从图像和文本中提取的数据被一个编码器-解码器模型融合。通过这种方式，

中的所有相关数据被融合成一个整体的向量

4、学习联合表征—转化过程：

本实施例的方法的目标是使人工智能系统能够根据搜索引擎返回的数据，即

以及

URL指向的网页内容，即

预测与

相关的公司的商业角色。基本上，确定与

相关的公司的商业角色的最佳方式是阅读和理解其对应的

的全部内容。沿着这个思路，如果人工智能系统能够学习

和相应的

的联合信息，那么就可以建立一个推理路径，从阅读

来确定与

相关的公司的商业角色到只使用

数据来进行判断，从而提高效率。为此，本实施例引入了两个参数化的函数，即编码器E_α(.)和解码器D_β(.)来获取两个数据集

和

的共同信息。

直观地说，通过优化α和β的值，使

的结果收敛于高维向量H_i，D_β(H_i) 以较低的损失收敛于

更具体地说，引入BiLSTM作为编码器，LSTM作为解码器(Schusterand Paliwal,1997；Hochreiter and Schmidhuber,1997)。 Bi-LSTM是一种特殊的LSTM，可以从头到尾(正向)和从尾到头(反向)处理任何序列。因此，编码器和解码器的输出被指定为如下。

上面的编码-解码过程也就是将

的语义翻译成其匹配的页面数据

的过程。在这样一个翻译过程中，采取

和

之间的均方误差(MSE)来评估学习损失：

当函数

被最小化时，得到

和

的联合表示H_i。

的优化目标是获得合适的α和β，使

和

之间的差异尽可能小。

5、预测公司的商业角色：

注意到两个重要的现象，首先，与

URL相对应的

中的数据内容通常是杂乱无章的，而且数量众多；其次，专家总能抓住一段文字的语义重点，正确识别其相关公司的商业角色。在图4中提出的预测模型试图模拟专家对一段文本中关键信息的“关注”。

预测与

相关的公司的商业角色的任务是通过将H_i＝[h₁,h₂,…,h_l,…,h_L] (L表示预处理

的文本后得到的总共L个词语)输入注意力LSTM模型开始的：

H′_i＝LSTM(H_i)＝[h′₁,h′₂,…,h′_l,…,h′_L] (6)

通过使用与任务相关的查询向量q，来利用注意力机制从联合表示中选择信息。沿着这个思路，则所有位置上的注意力分布a_l被定义为。

其中，b_c∈b是偏置参数。进一步地，将

放入全连接层，并使用 softmax函数来获得与

相关的公司属于每个商业角色(即零售商、制造商和其他)的概率：

其中，MLP(.)表示全连接层。因此，上述函数的组合形成了f_γ(.)的预测模型，γ代表预测过程中应学习的所有参数。

当所有与

相关的公司的角色被预测后，得到两个集合：集合

代表所有与

相关的公司的真实商业角色(或角色分布)，而集合

是相应的预测结果。C和

之间的预测损失是由分类交叉熵(CCE)来衡量的，它被定义为：

6、耦合转化-预测过程：

从图2中可以看出，本实施例提出的方法是用一个耦合的转化-预测过程来训练的。目标函数被定义为

其中，λ₁和λ₂是两个超参数。

系统中所有的参数被概括为(W；b)＝(α，β，γ；b)，它们的最佳值通过最小化以下目标函数得到：

算法1详述了整个学习算法

下面验证本实施例的基于多源数据联合学习的商务角色预测方法：

1、比较的方法：

本实施例的人工智能模型(MDJL)是为了预测与某一特定

相关的公司的商业角色属于哪一类。它也等同于一个多标签分类器。因此，为了评估所提出的方法的性能，进行一系列的实验，在数据表示和算法层面上将MDJL与各种分类方法进行比较。

在数据表示层面，采取NLP文献中经典的1-、2-和3-gram、one-hot表示和BERT嵌入。

在算法层面，本实施例的方法与4种最先进的文本分类方法进行了比较，以证明其有效性，包括2种传统的文本分类方法，即逻辑回归(LR)和支持向量机(SVM)；以及两种基于深度学习的文本分类方法，它们是CNN和BiLSTM。

2、评测指标：

使用Micro-f1和Macro-f1的指标来评估分类效果。对于多类分类，假设 tp_i、tn_i、fp_i和fn_i分别是Y_i(i＝1,...,k)类的真阳性、真阴性、假阳性和假阴性计数。然后，Micro-precision和Micro-recall被定义为：

并且，Macro-Precision和Macro-Recall被定义为

因此，整体分类的质量通常被评估如下:

在实验中，所有的数据被随机划分为10个不重叠的子集来评估预测模型的性能。最后，报告了10折交叉验证实验后Micro-f1和Macro-f1的平均值。

在实验中，所有的模型都以同样的方式来完成分类任务，所有的实验都采用了10折交叉验证的方法。在训练阶段，

和

的数据都被用作输入来训练模型。在测试阶段，构建测试集

和相应的网页数据

然而，在现实世界的应用中，大多数用户会很乐意根据搜索引擎提供的信息来做决定，因为用户需要花费额外的精力来获取网页数据并阅读其内容。这个观点也说明了人工智能系统需要为用户提供更有效的帮助。因此，当只有

作为测试集时，评估每个模型的性能(用

的数据训练)是本实施例实验的重点。

表3和表4分别显示了不同方法在Microf1和Macro-f1上的表现。从表中可以看出，首先，MDJL模型在Micro-f1和Macro-f1值上都优于对比方法。这说明MDJL在整合多源信息进行模型训练，以及利用部分数据信息进行结果预测方面具有明显的优势。

表3不同表示方法下的性能比较(Micro-f1)

表4不同表示方法下的性能比较(Macro-f1)

此外，如果多类别数据集中每个类别的数据分布不平衡，一般来说， Macro-f1主要受罕见类别表现的影响，因为它给所有类别的权重相同。相反， Micro-f1将被常见类别的表现所主导。通过比较各种方法在Micro-f1和 Macro-f1上的数值变化，发现MDJL的性能是相对稳定。这表明，与传统分类器相比，本实施例的方法在预测稀有类别数据的任务中也有良好的表现。

最后，正如在两个表中看到的信息，在使用BERT词嵌入时，大多数分类器的性能得到了极大的改善，尤其是SVM。毫不奇怪，BERT词嵌入优于一般的词表示。此外，发现MDJL也取得了非常好的分类结果(Micro-f1＝0.647， Macro-f1＝0.620)，即使使用通常的one-hot方法来表示文本数据。

4、以不同数据集作为测试输入的影响：

此外，使用BERT作为统一的数据表示模型，本实施例还测试了使用

作为输入与

作为输入时各方法的性能差异。

从表5和表6可以看出：(1)当测试集数据与训练集数据一致时，所有模型的性能都会提高，这说明当测试数据部分缺失时，预测效率会下降；(2)在使用

和

作为测试数据集的两种情况下，模型的Macro-f1值远低于其Micro-f1值(见图5)，因为通常的机器学习模型更喜欢样本多的类别，因此它们在样本少的类别中表现不佳。然而，MDJL模型的Macro-f1和Micro-f1值之间的差异并不明显，说明它对每个类别都有类似的效果，包括样本少的类别，这是本实施例模型的一个优势。

表5不同测试数据集下的性能比较(Micro-f1)

表6不同测试数据集下的性能比较(Macro-f1)

5、网页内容的影响：

从图1的流程中，可以看出，除非

提供的信息非常精确，否则用户不可避免地要到与

URL相连的网页上阅读更多信息，然后才能对与该网页相关的公司的角色做出最终判断。本实施例的模型(MDJL)试图利用机器学习模型使这个过程智能化，以帮助用户做出更有效的决定。

MDJL模型包含了从网页中提取的三种主要数据(见图3)：任何查询词周围的文本(包括网页的结构信息，用TEXT-I表示)，网站描述文本(用TEXT-II 表示)，以及图片(用IMG表示)。在下面的实验中，研究了这三类信息在帮助识别与网页相关的公司的商业角色中的作用。

在表7中，可以看到，MDJL提取的三种信息都对提高模型的有效性起到了作用。此外，还可以总结出以下几种情况。(1)TEXT-II的效果最明显。一个可能的原因是，工程师们在构建网页时，对网站的描述文字写得比较仔细，重要的是，在其内容被设定后，几乎没有动态变化。(2)加入IMG信息后，MDJL的性能提高不是很明显，原因有二，一是大多数网页根本不提供图片数据，二是有些网页为了追求广告效果，提供了大量不相关的图片。(3)TEXT-I的效果不是很明显也是由于噪音文本的原因。一般来说，从查询词的周围语句中提取的文本不一定有助于判断页面上相关公司的商业角色，这一点在文本较多的页面和广告氛围较浓的页面上尤为明显。此外，当查询词过于流行时，大量的无效文本也会被添加到TEXT-I的数据中。

表7不同网页内容对商业角色预测的影响

这些结果表明，如果想在识别与网页相关的公司的商业角色方面取得更好的效率，就必须进一步改进特征工程的任务，例如从网页上获得更多的代表性文本以及不纯粹用于广告的图像。

在互联网上高效地搜索一系列与产品相关的商业伙伴是B2B营销管理中值得探讨的重要问题。传统的以用户为导向的在线搜索方法受到来自人力资源或营销成本压力的影响，在处理搜索引擎返回的大量数据时，效率很低。

在本实施例中，提出了一种架构，通过在用户的搜索过程中引入人工智能模块来提高用户的信息检索效率和处理能力。在数据处理方面，人工智能模块在搜索引擎数据和实际网页数据之间建立了联系；同时，它基于最新的NLP技术实现了这两类数据的联合学习。在信息检索方面，人工智能模块通过从专家标注的数据中学习注意力信息(结合搜索数据和实际网页数据的联合表示)，实现了对与搜索引擎数据相关的公司商业角色的快速预测。

实验结果表明，本实施例的方法可以帮助用户提高在线搜索商业伙伴这一任务的检索效率和数据处理性能。此外，从B2B业务管理的角度来看，所提出的方法超越了在线信息检索任务中对大量数据的人工处理或昂贵的SEO的依赖。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。