CN113392323B - 基于多源数据联合学习的商务角色预测方法 - Google Patents

基于多源数据联合学习的商务角色预测方法 Download PDF

Info

Publication number
CN113392323B
CN113392323B CN202110660624.6A CN202110660624A CN113392323B CN 113392323 B CN113392323 B CN 113392323B CN 202110660624 A CN202110660624 A CN 202110660624A CN 113392323 B CN113392323 B CN 113392323B
Authority
CN
China
Prior art keywords
data
business
search engine
learning
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110660624.6A
Other languages
English (en)
Other versions
CN113392323A (zh
Inventor
袁华
钱宇
郑杰
李善兵
高勇
余长江
蒲首萄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Huifa Network Technology Co ltd
University of Electronic Science and Technology of China
Original Assignee
Chongqing Huifa Network Technology Co ltd
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Huifa Network Technology Co ltd, University of Electronic Science and Technology of China filed Critical Chongqing Huifa Network Technology Co ltd
Priority to CN202110660624.6A priority Critical patent/CN113392323B/zh
Publication of CN113392323A publication Critical patent/CN113392323A/zh
Application granted granted Critical
Publication of CN113392323B publication Critical patent/CN113392323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多源数据联合学习的商务角色预测方法,包括:数据收集和商业角色标签;数据预处理;学习联合表征的转化过程;预测公司的商业角色;本发明可以自动连接
Figure DDA0003115073210000011
Figure DDA0003115073210000012
之间的数据关系,获得
Figure DDA0003115073210000013
Figure DDA0003115073210000014
数据的联合表示,并学习专家标注的数据知识,这样可以大大提高用户在线检索商务伙伴的效率,并提高用户处理来自搜索引擎的大数据的效率,尤其是可以为B2B营销管理引入AI提供有用的参考,如处理大量文本数据并因此获得丰富的信息以供决策。

Description

基于多源数据联合学习的商务角色预测方法
技术领域
本发明涉及大数据技术领域,特别是一种基于多源数据联合学习的商务角色预测方法。
背景技术
互联网的发展使得中小企业可以通过搜索引擎在线寻找到与产品相关的商业伙伴。但是,普通用户很难通过一条搜索引擎数据
Figure BDA0003115073190000011
判断与其产品相关的公司商务角色(如供应商,零售商或其他)。通常,人们认为其他信息源(例如实际的网页数据
Figure BDA0003115073190000012
),可以帮助用户确定与
Figure BDA0003115073190000013
相关的公司的商务角色。然而,获得并处理该类信息是劳动密集型的工作,费时且昂贵。
随着电子商务的发展,越来越多的企业通过互联网展示自己的产品、品牌和简介,特别是在自己的官方网站或公开的在线市场。因此,互联网影响企业合作关系的一个重要方式是,(企业)用户可以在互联网上公开搜索潜在的合作伙伴。例如,生产者在网上搜索其商品的分销商,装配商在网上搜索其零部件的供应商,等等。通过互联网寻找商业伙伴的方式,增加了企业商业活动的灵活性,使一些重要行业得以持续经营。
虽然一些著名的B2B电子市场,如Alibaba.com,旨在帮助用户快速找到商业伙伴。然而,随着B2B电子市场信息过载问题的日益严重,关系承诺和信任可能会促使企业以自己的方式在网上寻找合作伙伴。为了帮助用户高效地找到合适的商业伙伴,google.com等搜索引擎经常被用来在万维网上系统地搜索用户所需的特定信息。图1是用户通过google.com搜索潜在合作伙伴的一般过程。当用户在搜索引擎的查询栏中输入适当的(通常是产品信息相关的)查询词时,这个搜索过程就开始了。接下来,搜索引擎会返回一组搜索到的数据
Figure BDA0003115073190000021
对于
Figure BDA0003115073190000022
中的每一个数据
Figure BDA0003115073190000023
都包含三个项目,即标题、URL和片段。进一步,用户可以根据这三个项目所呈现的内容,初步判断
Figure BDA0003115073190000024
是否与自己的搜索意图相关。如果判断结果是Yes,由于
Figure BDA0003115073190000025
提供的信息非常有限,用户则需要点击URL(即
Figure BDA0003115073190000026
URL)打开网站上的网页,进一步阅读网页数据
Figure BDA0003115073190000027
然后对与
Figure BDA0003115073190000028
相关联的公司是否是她/他想要寻找的合适的合作伙伴做出最终判断。
在这种“先基于
Figure BDA0003115073190000029
初步识别,再基于
Figure BDA00031150731900000210
最终确定”的信息检索模式下,用户面临着基于
Figure BDA00031150731900000211
预判公司业务角色的准确性问题。毕竟
Figure BDA00031150731900000212
中的信息是有限的,搜索引擎返回的结果也不一定与用户实际寻找的数据相关。尤其是,如果一条不相关的
Figure BDA00031150731900000213
被判断为相关,那么用户打开网页阅读信息就是浪费时间。相反,如果一个相关的
Figure BDA00031150731900000214
被判断为不相关,用户将面临失去正确信息的风险。此外,用户还面临着信息检索和决策效率的问题。首先,搜索引擎返回的结果量通常非常大,尤其是当查询词是流行词的时候。换句话说,
Figure BDA00031150731900000215
是真正的“大数据”。其次,对于用户来说,将
Figure BDA00031150731900000216
URL连接到其实际页面并阅读其内容也是一项耗时的任务。显然,从
Figure BDA00031150731900000217
的海量数据中识别出所需的合作伙伴对用户来说是一项艰难的挑战,这便提出了一个有趣的研究问题,即如何才能高效地自动预测与
Figure BDA00031150731900000218
中数据相关联的公司的商业角色。
传统的基于机器学习的解决方案是将上述预测问题转化为网页的分类问题,因此会有两种不同的解决方案,一是在用户端优化查询词,二是在网页端做SEO。但是,前一种方法的有效使用需要用户既是业务专家又是信息检索专家,这就限制了该方法的通用性。而后一种方法则面临着较高的经济成本。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种基于多源数据联合学习的商务角色预测方法,本发明可以自动连接
Figure BDA0003115073190000031
Figure BDA0003115073190000032
之间的数据关系,获得
Figure BDA0003115073190000033
Figure BDA0003115073190000034
数据的联合融合表示表征,并学习专家标注的数据知识,这样可以大大提高用户在线检索商务伙伴的效率,并提高用户处理来自搜索引擎的大数据的效率,尤其是可以为B2B营销管理引入AI提供有用的参考,如处理大量文本数据并因此获得丰富的信息以供决策。
为实现上述目的,本发明采用的技术方案是:一种基于多源数据联合学习的商务角色预测方法,包括以下步骤:
步骤1、数据收集和商业角色标签:收集搜索引擎返回的结果到搜索引擎数据集
Figure BDA0003115073190000035
同时,从搜索引擎数据集
Figure BDA0003115073190000036
中的URL所指向的页面中抓取网页数据集
Figure BDA0003115073190000037
并在每个页面上标注其代表的商业角色;
步骤2、数据预处理:文本分词和词语向量化,将搜索引擎数据集
Figure BDA0003115073190000038
中的每一个数据
Figure BDA0003115073190000039
和网页数据集
Figure BDA00031150731900000310
中的每一个数据
Figure BDA00031150731900000311
转化为向量
Figure BDA00031150731900000312
Figure BDA00031150731900000313
步骤3、学习联合融合表征的转化过程:学习
Figure BDA00031150731900000314
Figure BDA00031150731900000315
之间的联合融合表示,通过两个参数化的函数,即编码器Eα(.)和解码器Dβ(.)来获取搜索引擎数据集
Figure BDA00031150731900000316
和网页数据集
Figure BDA00031150731900000317
的共同信息,通过优化α和β的值,使
Figure BDA00031150731900000318
的结果收敛于联合融合表征的高维向量Hi,Dβ(Hi)以较低的损失收敛于
Figure BDA00031150731900000319
步骤4、预测公司的商业角色:学习预测模型fγ(.)来预测与
Figure BDA00031150731900000320
相关的公司的商业角色,即
Figure BDA00031150731900000321
其中,α、β和γ分别表示在编码、解码和预测过程中需要学习的参数集。
作为本发明的进一步改进,所述步骤1具体如下:
首先,将每个产品的产品术语输入搜索引擎,模拟用户的查询过程;
然后,抓取搜索引擎返回的所有数据项,并将标题、URL和片段这三个项目连接起来,形成搜索引擎数据集
Figure BDA0003115073190000041
Figure BDA0003115073190000042
同时,根据URL,抓取相应网页的页面内容:
Figure BDA0003115073190000043
最后,通过专家手动登陆网址的原始页面,在线阅读内容,然后在每个页面上标注商业角色。
作为本发明的进一步改进,所述的商业角色包括零售商、生产商和其他。
作为本发明的进一步改进,在步骤2中,采用BERT词嵌入和句子嵌入方法进行词语向量化,具体如下:
Figure BDA0003115073190000044
的词语向量化:首先将搜索引擎数据集
Figure BDA0003115073190000045
中的每一个数据
Figure BDA0003115073190000046
离散为一串长度为L的词语:
Figure BDA0003115073190000047
然后每个词
Figure BDA0003115073190000048
被BERT 表征成向量
Figure BDA0003115073190000049
得到向量化的
Figure BDA00031150731900000410
Figure BDA00031150731900000411
Figure BDA00031150731900000412
的词语向量化:使用预训练模型VGG-16将从网页中提取的每张图片表示为一个向量,如果有多张图片,则使用平均法进行数据融合,然后使用BERT 将从网页中提取的文本嵌入为一个句子向量,使用LSTM对从网页中提取的多个句子进行融合,最后,从图像和文本中提取的数据被一个编码器-解码器模型融合,从而
Figure BDA00031150731900000413
中的所有相关数据被融合成一个整体的向量
Figure BDA00031150731900000414
作为本发明的进一步改进,所述步骤3中,所述编码器采用BiLSTM模型,所述解码器采用注意力LSTM模型,编码器和解码器的输出被指定为:
Figure BDA00031150731900000415
作为本发明的进一步改进,步骤3中的编码解码过程即将
Figure BDA00031150731900000416
的语义翻译成其匹配的页面数据
Figure BDA00031150731900000417
的过程,在翻译过程中,采取
Figure BDA00031150731900000418
Figure BDA00031150731900000419
之间的均方误差 MSE来评估学习损失
Figure BDA00031150731900000420
Figure BDA0003115073190000051
当函数
Figure BDA0003115073190000052
被最小化时,得到
Figure BDA0003115073190000053
Figure BDA0003115073190000054
的联合表示Hi
Figure BDA0003115073190000055
的优化目标是获得合适的α和β,使
Figure BDA0003115073190000056
Figure BDA0003115073190000057
之间的差异尽可能小。
作为本发明的进一步改进,所述步骤4具体如下:
将Hi=[h1,h2,…,hl,…,hL]输入注意力LSTM模型:
H′i=LSTM(Hi)=[h′1,h′2,…,h′l,…,h′L]
通过使用与任务相关的查询向量q,利用注意力机制从联合表示中选择信息,则所有位置上的注意力分布al被定义为:
Figure BDA0003115073190000058
其中,bc∈b是偏置参数;
Figure BDA0003115073190000059
放入全连接层,并使用softmax函数来获得与
Figure BDA00031150731900000510
相关的公司属于每个商业角色的概率:
Figure BDA00031150731900000511
其中,MLP(.)表示全连接层,上述函数的组合形成了fγ(.)的预测模型。
作为本发明的进一步改进,还包括以下步骤:
步骤5、耦合转化的预测过程:当所有与
Figure BDA00031150731900000512
相关的公司的角色被预测后,得到两个集合:集合
Figure BDA00031150731900000513
代表所有与
Figure BDA00031150731900000514
相关的公司的真实商业角色,而集合
Figure BDA00031150731900000515
是相应的预测结果,C和
Figure BDA00031150731900000516
之间的预测损失
Figure BDA00031150731900000517
由分类交叉熵CCE来衡量:
Figure BDA00031150731900000518
定义目标函数:
Figure BDA0003115073190000061
其中,λ1和λ2为两个超参数;
所有的参数被概括为(W;b)=(α,β,γ;b),其最佳值通过最小化以下目标函数得到:
Figure BDA0003115073190000062
其中,W为更新的权重,b为偏置参数。
本发明的有益效果是:
1、本发明构建了一个AI模块来代替用户参与的繁琐任务(图1中的灰色区域);将实际网页与URL链接、阅读网页内容、预测
Figure BDA0003115073190000063
相关公司的业务角色。这一模块的主要难点在于将每个
Figure BDA0003115073190000064
的内容和实际网页数据
Figure BDA0003115073190000065
的内容之间建立语义联系,并进一步利用这种语义联系来判断
Figure BDA0003115073190000066
Figure BDA0003115073190000067
相关公司的角色。与以往的研究不同,本发明的人工智能模块专门引入了最新的深度学习技术来执行一组自然语言处理(NLP)任务,以提高结果的准确性。
2、本发明为当前B2B营销文献贡献了方法论和研究成果。首先,在人工智能模块中,提出了多源数据联合融合学习(MDJL)模型来训练并获得相关数据之间的共同表示表征。考虑到搜索引擎返回信息的有限性,MDJL通过融合同一公司的搜索引擎数据
Figure BDA0003115073190000068
和实际页面数据
Figure BDA0003115073190000069
的方式来丰富决策信息。该方法可用于融合来自不同数据源的任何相关信息(针对同一事物),进而为B2B营销管理任务提供准确的决策信息。其次,提出了基于深度神经网络的商业伙伴角色预测模型。特别是结合多源数据融合机制,即使是在数据缺失的情况下,训练有素的预测模型甚至可以对一些未知搜索结果
Figure BDA00031150731900000610
不属于
Figure BDA00031150731900000611
相关的商务角色做出更为准确的判断。此外,与一些知名的机器学习模型在预测搜索引擎返回的URL所关联的企业商务角色的任务上进行了比较实验。实验结果表明,本发明提出的方法完全优于所比较的其它方法。最后,为在线B2B营销提供了SEO之外的新思路,即企业可利用AI来分析处理大数据的语义以及关联性,并将这些AI 处理后的信息高效率地嵌入到企业的管理决策活动中去。
附图说明
图1为用户通过google.com搜索潜在合作伙伴的一般过程的示意图;
图2为本发明实施例提出的预测方法的AI框架的整体结构图;
图3为本发明实施例中网页内容向量化过程的示意图;
图4为本发明实施例中根据Hi预测公司的商业角色的示意图;
图5为本发明实施例中不同测试数据集下的模型性能比较的柱形图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例
商业合作伙伴在线搜索:
基于互联网技术的便利性,电子商务使得实时营销成为可能,打破了时间和空间的限制。因此,中小企业可以利用搜索引擎工具在网上寻找基于产品的商业合作伙伴(即供应商和零售商)。
在电子商务发展初期,Rauch和Trindade(2003)的研究表明,互联网对国际经济的影响之一是方便企业寻找合作伙伴。然而,在很长一段时间内,除了一些关于B2B商业模式的一般性讨论话题外,并没有探讨关于中小企业如何在网上自主寻找合作伙伴的研究,如采纳模型。
Lu等人(2013)提出了一种混合模糊语义推荐方法,该方法结合了基于项目的协同过滤技术,向个体商业用户推荐相关的商业伙伴,尤其是针对中小企业。Brynjolfsson等学者(2019)利用eBay的数字平台数据进行的研究结果表明,引入新的机器翻译系统后,国际贸易得到了显著增加。他们的研究还表明,在跨国贸易中,不同语言对同一产品的各种描述形成了多源数据,这种多源数据之间的信息融合在商业中十分有用。
文本分类:
考虑到搜索引擎返回的数据和实际网页上的相应数据都是以文本的形式呈现的,因此,自然语言处理(NLP)文献中与本实施例最相关的任务是文本分类。
常规文本分类的一个关键任务是特征表示,它通常基于词袋(BoW)模型。此外,一些更复杂的特征表示也被设计出来了,如词性(POS)标签、名词短语和动词,用于一些特定应用领域的文本分类。考虑到词汇在语料库中的位置顺序对分类有所帮助,研究者们广泛采用了unigrams、bigrams、n-grams或一些设计精巧的模式来进行特征提取。进一步,为了表示术语之间的隐藏关系对文本分类性能的影响,在大多数基于语料库的文本分类研究中,还应用了一些特征选择方法,如词频(TF)、互信息(MI)、潜在语义索引(LSI)、潜在狄利克雷分配(LDA)等,以选择更多的判别特征。伴随着这些特征表示方法,机器学习算法经常使用分类器,如逻辑回归(LR)、朴素贝叶斯(NB)和支持向量机(SVM) (Aggarwal和Zhai,2012)。然而,当它与文本分类中使用的数据表示不匹配时,这些方法可能存在数据稀疏性问题。
尽管如此,传统的特征表示方法往往忽略了文本中的上下文信息或词序,对于捕捉词的语义信息仍不满意。随着基于海量数据的文本分析任务的发展,研究者已经认识到基于语法和词频而非语义的特征表示法的局限性。Mikolov等 (2013)提出了一种天才般的词表征训练方法--Word2Vec,其基本思想是训练一个前馈神经网络,给定一个特定的词及其前面的上下文来预测下一个词。其结果是将语料库中的词汇映射到K维向量空间中,以获得全新的表示。由于基于Word2Vec的词表征保留了更为丰富的语义信息,因此,在传统机器学习中引入这种表征方法在文本分类中取得了巨大的成功。
已经有学者证明,文本分类的良好特征可以在深度学习算法的浅层进行自动学习。相应地,文本分类任务已经成为深度学习技术应用的丰富领域。例如, Lai等(2015)介绍了一种用于文本分类的循环CNN,不需要人为设计的特征 (without human-designedfeatures)。Liu和Guo(2019)从词嵌入向量中提取了更高级别的短语表征,通过使用BiLSTM框架访问前文和后文表征来提高分类精度。最近,预训练机制,如基于转换器(transformer)的表示,已被证明在学习通用语言表示方面是有用的。NLP科学家开始广泛采用预训练嵌入来获得高质量的特征表示。例如,BERT(Bidirectional EncoderRepresentations from Transformers)是一种最先进的预训练模型,学者们已经研究了如何利用BERT 提高文本分类任务的性能。
多数据源学习:
如上所述,之前NLP文献的研究在文本分类任务上取得了惊人的成果。这些方法通常用于基于特定的语料库(BOW和One-hot等),或者是通用的、非常大的全局语料库(Word2Vec和BERT等)的学习特征表示。然而,互联网上用来传递信息的数据是多种多样的,比如图片、文字描述、网站链接,甚至是嵌入式语音。可以预期,对于相同的信息检索任务,使用多源数据的性能将比只用单一数据源要好很多。
在经典的NLP研究中,常见的任务一直集中在融合异质数据源上。 Murray(2013)使用多模态这个术语来描述用于组成信息的文本、听觉、语言、空间和视觉资源方面的实践。沿着这一思路,当一个数据集包括多种这样的方式时,它便被定性为多模态。从那时起,使用深度学习方法处理多模态数据已经成为具有交叉数据源的信息检索任务的热门话题,表1中列举了一些相关例子。
表1相关研究举例
Figure BDA0003115073190000101
以上文献表明,如何从多个相关(同质/异质)数据源中学习有效的联合特征进行网络关联企业分类的问题还没有得到明确的探讨。
基于上述行业背景,本实施例提出一种基于多源数据联合学习的商务角色预测方法,包括:
1、AI框架概述:
该系统的主要工作流程如下:用户输入与产品(生产或销售)相关的查询词,同时搜索引擎返回检索的内容
Figure BDA0003115073190000102
然后人工智能系统需要预测每个
Figure BDA0003115073190000103
的相关公司的商业角色。在传统的方法中,这项工作是基于专家手动阅读和理解
Figure BDA0003115073190000104
URL所对应的
Figure BDA0003115073190000105
的内容来完成的,所以在模型训练阶段,人工智能系统需要加入领域专家的知识。
整体结构如图2所示。首先,收集搜索引擎返回的结果到
Figure BDA0003115073190000106
数据集,同时,从
Figure BDA0003115073190000107
中的URL所指向的页面中抓取数据
Figure BDA0003115073190000108
然后
Figure BDA0003115073190000109
Figure BDA00031150731900001010
分别被转化为向量。接下来,学习
Figure BDA00031150731900001011
Figure BDA00031150731900001012
之间的联合表示,这是由两个参数化的函数Eα(.)和Dβ(.)完成的,结果是返回一个联合表征Hi。最后,学习一个预测模型fγ(.)来预测与
Figure BDA00031150731900001013
相关的公司的商业角色,即
Figure BDA00031150731900001014
注意,这里的α、β和γ分别表示人工智能模型在编码、解码和预测过程中需要学习的参数集。
假设与
Figure BDA00031150731900001015
相关的公司的角色表示为Ci,在下文中,将Ci定义为一个公司在三类合作伙伴(生产商、零售商或其他)中的分布。在第i个公司的商业角色非常明确的情况下,Ci可以定义如下:
Figure BDA0003115073190000111
2、数据收集和商业角色标签:
本实施例中使用的数据集是通过模拟用户在搜索引擎上检索合作伙伴的行为产生的。最近由Nagpal和Petersen(2020)提出的研究表明,用户使用的查询词可以影响搜索引擎结果的质量。然而,要提出高质量的查询词,用户必须是在线商务和信息检索方面的专家。同时也指出,大多数用户只精通商务。因此,我们从一个流行的在线电子商务网站上为本实验中使用的每种产品提取了2 到3个通用术语,作为搜索产品商业伙伴时的查询词。这是因为,流行的电子商务平台上的产品术语是大多数人可以接受和使用的,而不需要制造业或零售业等商业方面的专业知识。
首先,将每个产品的产品术语输入搜索引擎,模拟用户的查询过程。然后,抓取搜索引擎返回的所有数据项,并将标题、URL和片段这三个项目连接起来,形成
Figure BDA0003115073190000112
数据集。
Figure BDA0003115073190000113
同时,根据URL,抓取相应网页的“页面内容”(如网站描述和围绕查询词的短语)。
Figure BDA0003115073190000114
最后,邀请三位专家手动登录6439个网址的原始页面,在线阅读内容,然后在每个页面上标注“0”、“1”或“2”,分别代表“其他”、“零售商”或“生产商”的商业角色。生成的数据集的信息总结在以下表2中。统计信息显示,
Figure BDA0003115073190000121
中的词的分布是相对平衡的,而
Figure BDA0003115073190000122
中的词的分布则有很大不同。
表2生成的数据集的统计信息
Figure BDA0003115073190000123
3、数据预处理:
很容易知道,生成的
Figure BDA0003115073190000124
Figure BDA0003115073190000125
中的数据是以文本形式呈现的。为了有效利用深度神经网络方法进行必要的计算,人工智能模块包含两类数据预处理任务:文本分词和词语向量化。
文本分词通常包括在NLP任务的文本分析的初始阶段将输入的文本标记为单词。在本实施例中,只介绍了用于处理文本的英文和中文分割工具。值得一提的是,由于在这项工作中使用了深度神经网络方法,不需要去除所谓的停止词和标点符号。
对于词语向量化,采用BERT词嵌入和句子嵌入方法。首先,
Figure BDA0003115073190000126
中的
Figure BDA0003115073190000127
被离散为一串长度为L的词语:
Figure BDA0003115073190000128
然后,每个词
Figure BDA0003115073190000129
被BERT表征成向量
Figure BDA00031150731900001210
得到向量化的
Figure BDA00031150731900001211
Figure BDA00031150731900001212
它可以直接传递给联合学习模型进行计算。
Figure BDA00031150731900001213
内容的向量化任务更为复杂,因为AI系统需要“阅读”网页内容,并进一步将其转化为合适的向量表示。通常情况下,专家在阅读网页内容时关注的核心是查询词周围的文字和图片。此外,为了减少噪声数据的影响,如与查询词相关的广告,还抓取了网页上目标文本的结构信息。重要的是,从网页结构的“描述”元素中提取了额外的文本,以帮助理解与该网页相关的公司的商业角色(当手动阅读网页内容时,这一信息被忽略)。
从网页中提取数据并将其处理成向量的流程如图3所示。使用预训练模型 VGG-16将从网页中提取的每张图片表示为一个向量,如果有多张图片,则使用平均法进行数据融合。然后使用BERT将从网页中提取的文本嵌入为一个句子向量。使用LSTM对从网页中提取的多个句子进行融合。最后,从图像和文本中提取的数据被一个编码器-解码器模型融合。通过这种方式,
Figure BDA0003115073190000131
中的所有相关数据被融合成一个整体的向量
Figure BDA0003115073190000132
4、学习联合表征—转化过程:
本实施例的方法的目标是使人工智能系统能够根据搜索引擎返回的数据,即
Figure BDA0003115073190000133
以及
Figure BDA0003115073190000134
URL指向的网页内容,即
Figure BDA0003115073190000135
预测与
Figure BDA0003115073190000136
相关的公司的商业角色。基本上,确定与
Figure BDA0003115073190000137
相关的公司的商业角色的最佳方式是阅读和理解其对应的
Figure BDA0003115073190000138
的全部内容。沿着这个思路,如果人工智能系统能够学习
Figure BDA0003115073190000139
和相应的
Figure BDA00031150731900001310
的联合信息,那么就可以建立一个推理路径,从阅读
Figure BDA00031150731900001311
来确定与
Figure BDA00031150731900001312
相关的公司的商业角色到只使用
Figure BDA00031150731900001313
数据来进行判断,从而提高效率。为此,本实施例引入了两个参数化的函数,即编码器Eα(.)和解码器Dβ(.)来获取两个数据集
Figure BDA00031150731900001314
Figure BDA00031150731900001315
的共同信息。
直观地说,通过优化α和β的值,使
Figure BDA00031150731900001316
的结果收敛于高维向量Hi,Dβ(Hi) 以较低的损失收敛于
Figure BDA00031150731900001317
更具体地说,引入BiLSTM作为编码器,LSTM作为解码器(Schusterand Paliwal,1997;Hochreiter and Schmidhuber,1997)。 Bi-LSTM是一种特殊的LSTM,可以从头到尾(正向)和从尾到头(反向)处理任何序列。因此,编码器和解码器的输出被指定为如下。
Figure BDA0003115073190000141
上面的编码-解码过程也就是将
Figure BDA0003115073190000142
的语义翻译成其匹配的页面数据
Figure BDA00031150731900001420
的过程。在这样一个翻译过程中,采取
Figure BDA0003115073190000143
Figure BDA0003115073190000144
之间的均方误差(MSE)来评估学习损失:
Figure BDA0003115073190000145
当函数
Figure BDA0003115073190000146
被最小化时,得到
Figure BDA0003115073190000147
Figure BDA0003115073190000148
的联合表示Hi
Figure BDA0003115073190000149
的优化目标是获得合适的α和β,使
Figure BDA00031150731900001410
Figure BDA00031150731900001411
之间的差异尽可能小。
5、预测公司的商业角色:
注意到两个重要的现象,首先,与
Figure BDA00031150731900001412
URL相对应的
Figure BDA00031150731900001413
中的数据内容通常是杂乱无章的,而且数量众多;其次,专家总能抓住一段文字的语义重点,正确识别其相关公司的商业角色。在图4中提出的预测模型试图模拟专家对一段文本中关键信息的“关注”。
预测与
Figure BDA00031150731900001414
相关的公司的商业角色的任务是通过将Hi=[h1,h2,…,hl,…,hL] (L表示预处理
Figure BDA00031150731900001415
的文本后得到的总共L个词语)输入注意力LSTM模型开始的:
H′i=LSTM(Hi)=[h′1,h′2,…,h′l,…,h′L] (6)
通过使用与任务相关的查询向量q,来利用注意力机制从联合表示中选择信息。沿着这个思路,则所有位置上的注意力分布al被定义为。
Figure BDA00031150731900001416
其中,bc∈b是偏置参数。进一步地,将
Figure BDA00031150731900001417
放入全连接层,并使用 softmax函数来获得与
Figure BDA00031150731900001418
相关的公司属于每个商业角色(即零售商、制造商和其他)的概率:
Figure BDA00031150731900001419
其中,MLP(.)表示全连接层。因此,上述函数的组合形成了fγ(.)的预测模型,γ代表预测过程中应学习的所有参数。
当所有与
Figure BDA0003115073190000151
相关的公司的角色被预测后,得到两个集合:集合
Figure BDA0003115073190000152
代表所有与
Figure BDA0003115073190000153
相关的公司的真实商业角色(或角色分布),而集合
Figure BDA0003115073190000154
是相应的预测结果。C和
Figure BDA0003115073190000155
之间的预测损失是由分类交叉熵(CCE)来衡量的,它被定义为:
Figure BDA0003115073190000156
6、耦合转化-预测过程:
从图2中可以看出,本实施例提出的方法是用一个耦合的转化-预测过程来训练的。目标函数被定义为
Figure BDA0003115073190000157
其中,λ1和λ2是两个超参数。
系统中所有的参数被概括为(W;b)=(α,β,γ;b),它们的最佳值通过最小化以下目标函数得到:
Figure BDA0003115073190000158
算法1详述了整个学习算法
Figure BDA0003115073190000159
下面验证本实施例的基于多源数据联合学习的商务角色预测方法:
1、比较的方法:
本实施例的人工智能模型(MDJL)是为了预测与某一特定
Figure BDA0003115073190000161
相关的公司的商业角色属于哪一类。它也等同于一个多标签分类器。因此,为了评估所提出的方法的性能,进行一系列的实验,在数据表示和算法层面上将MDJL与各种分类方法进行比较。
在数据表示层面,采取NLP文献中经典的1-、2-和3-gram、one-hot表示和BERT嵌入。
在算法层面,本实施例的方法与4种最先进的文本分类方法进行了比较,以证明其有效性,包括2种传统的文本分类方法,即逻辑回归(LR)和支持向量机(SVM);以及两种基于深度学习的文本分类方法,它们是CNN和BiLSTM。
2、评测指标:
使用Micro-f1和Macro-f1的指标来评估分类效果。对于多类分类,假设 tpi、tni、fpi和fni分别是Yi(i=1,...,k)类的真阳性、真阴性、假阳性和假阴性计数。然后,Micro-precision和Micro-recall被定义为:
Figure BDA0003115073190000162
并且,Macro-Precision和Macro-Recall被定义为
Figure BDA0003115073190000163
因此,整体分类的质量通常被评估如下:
Figure BDA0003115073190000164
在实验中,所有的数据被随机划分为10个不重叠的子集来评估预测模型的性能。最后,报告了10折交叉验证实验后Micro-f1和Macro-f1的平均值。
在实验中,所有的模型都以同样的方式来完成分类任务,所有的实验都采用了10折交叉验证的方法。在训练阶段,
Figure BDA0003115073190000171
Figure BDA0003115073190000172
的数据都被用作输入来训练模型。在测试阶段,构建测试集
Figure BDA0003115073190000173
和相应的网页数据
Figure BDA0003115073190000174
然而,在现实世界的应用中,大多数用户会很乐意根据搜索引擎提供的信息来做决定,因为用户需要花费额外的精力来获取网页数据并阅读其内容。这个观点也说明了人工智能系统需要为用户提供更有效的帮助。因此,当只有
Figure BDA0003115073190000175
作为测试集时,评估每个模型的性能(用
Figure BDA0003115073190000176
的数据训练)是本实施例实验的重点。
表3和表4分别显示了不同方法在Microf1和Macro-f1上的表现。从表中可以看出,首先,MDJL模型在Micro-f1和Macro-f1值上都优于对比方法。这说明MDJL在整合多源信息进行模型训练,以及利用部分数据信息进行结果预测方面具有明显的优势。
表3不同表示方法下的性能比较(Micro-f1)
Figure BDA0003115073190000177
表4不同表示方法下的性能比较(Macro-f1)
Figure BDA0003115073190000178
此外,如果多类别数据集中每个类别的数据分布不平衡,一般来说, Macro-f1主要受罕见类别表现的影响,因为它给所有类别的权重相同。相反, Micro-f1将被常见类别的表现所主导。通过比较各种方法在Micro-f1和 Macro-f1上的数值变化,发现MDJL的性能是相对稳定。这表明,与传统分类器相比,本实施例的方法在预测稀有类别数据的任务中也有良好的表现。
最后,正如在两个表中看到的信息,在使用BERT词嵌入时,大多数分类器的性能得到了极大的改善,尤其是SVM。毫不奇怪,BERT词嵌入优于一般的词表示。此外,发现MDJL也取得了非常好的分类结果(Micro-f1=0.647, Macro-f1=0.620),即使使用通常的one-hot方法来表示文本数据。
4、以不同数据集作为测试输入的影响:
此外,使用BERT作为统一的数据表示模型,本实施例还测试了使用
Figure BDA0003115073190000181
作为输入与
Figure BDA0003115073190000182
作为输入时各方法的性能差异。
从表5和表6可以看出:(1)当测试集数据与训练集数据一致时,所有模型的性能都会提高,这说明当测试数据部分缺失时,预测效率会下降;(2)在使用
Figure BDA0003115073190000183
Figure BDA0003115073190000184
作为测试数据集的两种情况下,模型的Macro-f1值远低于其Micro-f1值(见图5),因为通常的机器学习模型更喜欢样本多的类别,因此它们在样本少的类别中表现不佳。然而,MDJL模型的Macro-f1和Micro-f1值之间的差异并不明显,说明它对每个类别都有类似的效果,包括样本少的类别,这是本实施例模型的一个优势。
表5不同测试数据集下的性能比较(Micro-f1)
Figure BDA0003115073190000185
表6不同测试数据集下的性能比较(Macro-f1)
Figure BDA0003115073190000186
5、网页内容的影响:
从图1的流程中,可以看出,除非
Figure BDA0003115073190000187
提供的信息非常精确,否则用户不可避免地要到与
Figure BDA0003115073190000188
URL相连的网页上阅读更多信息,然后才能对与该网页相关的公司的角色做出最终判断。本实施例的模型(MDJL)试图利用机器学习模型使这个过程智能化,以帮助用户做出更有效的决定。
MDJL模型包含了从网页中提取的三种主要数据(见图3):任何查询词周围的文本(包括网页的结构信息,用TEXT-I表示),网站描述文本(用TEXT-II 表示),以及图片(用IMG表示)。在下面的实验中,研究了这三类信息在帮助识别与网页相关的公司的商业角色中的作用。
在表7中,可以看到,MDJL提取的三种信息都对提高模型的有效性起到了作用。此外,还可以总结出以下几种情况。(1)TEXT-II的效果最明显。一个可能的原因是,工程师们在构建网页时,对网站的描述文字写得比较仔细,重要的是,在其内容被设定后,几乎没有动态变化。(2)加入IMG信息后,MDJL的性能提高不是很明显,原因有二,一是大多数网页根本不提供图片数据,二是有些网页为了追求广告效果,提供了大量不相关的图片。(3)TEXT-I的效果不是很明显也是由于噪音文本的原因。一般来说,从查询词的周围语句中提取的文本不一定有助于判断页面上相关公司的商业角色,这一点在文本较多的页面和广告氛围较浓的页面上尤为明显。此外,当查询词过于流行时,大量的无效文本也会被添加到TEXT-I的数据中。
表7不同网页内容对商业角色预测的影响
Figure BDA0003115073190000191
这些结果表明,如果想在识别与网页相关的公司的商业角色方面取得更好的效率,就必须进一步改进特征工程的任务,例如从网页上获得更多的代表性文本以及不纯粹用于广告的图像。
在互联网上高效地搜索一系列与产品相关的商业伙伴是B2B营销管理中值得探讨的重要问题。传统的以用户为导向的在线搜索方法受到来自人力资源或营销成本压力的影响,在处理搜索引擎返回的大量数据时,效率很低。
在本实施例中,提出了一种架构,通过在用户的搜索过程中引入人工智能模块来提高用户的信息检索效率和处理能力。在数据处理方面,人工智能模块在搜索引擎数据和实际网页数据之间建立了联系;同时,它基于最新的NLP技术实现了这两类数据的联合学习。在信息检索方面,人工智能模块通过从专家标注的数据中学习注意力信息(结合搜索数据和实际网页数据的联合表示),实现了对与搜索引擎数据相关的公司商业角色的快速预测。
实验结果表明,本实施例的方法可以帮助用户提高在线搜索商业伙伴这一任务的检索效率和数据处理性能。此外,从B2B业务管理的角度来看,所提出的方法超越了在线信息检索任务中对大量数据的人工处理或昂贵的SEO的依赖。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (6)

1.一种基于多源数据联合学习的商务角色预测方法,其特征在于,包括以下步骤:
步骤1、数据收集和商业角色标签:收集搜索引擎返回的结果到搜索引擎数据集
Figure FDA0003538578050000011
同时,从搜索引擎数据集
Figure FDA0003538578050000012
中的URL所指向的页面中抓取网页数据集
Figure FDA0003538578050000013
并在每个页面上标注其代表的商业角色;
所述步骤1具体如下:
首先,将每个产品的产品术语输入搜索引擎,模拟用户的查询过程;
然后,抓取搜索引擎返回的所有数据项,并将标题title、URL和片段snippet这三个项目连接起来,形成搜索引擎数据集
Figure FDA0003538578050000014
Figure FDA0003538578050000015
同时,根据URL,抓取相应网页的页面内容:
Figure FDA0003538578050000016
最后,通过专家手动登陆网址的原始页面,在线阅读内容,然后在每个页面上标注商业角色;
步骤2、数据预处理:文本分词和词语向量化,将搜索引擎数据集
Figure FDA0003538578050000017
中的每一个数据
Figure FDA0003538578050000018
和网页数据集
Figure FDA0003538578050000019
中的每一个数据
Figure FDA00035385780500000110
转化为向量
Figure FDA00035385780500000111
Figure FDA00035385780500000112
步骤3、学习联合融合表征的转化过程:学习
Figure FDA00035385780500000113
Figure FDA00035385780500000114
之间的联合融合表示,通过两个参数化的函数,即编码器Eα(.)和解码器Dβ(.)来获取搜索引擎数据集
Figure FDA00035385780500000115
和网页数据集
Figure FDA00035385780500000116
的共同信息,通过优化α和β的值,使
Figure FDA00035385780500000117
的结果收敛于联合融合表征的高维向量Hi,Dβ(Hi)以较低的损失收敛于
Figure FDA00035385780500000118
步骤4、预测公司的商业角色:学习预测模型fγ(.)来预测与
Figure FDA00035385780500000119
相关的公司的商业角色,即
Figure FDA00035385780500000120
其中,α、β和γ分别表示在编码、解码和预测过程中需要学习的参数集;
所述步骤4具体如下:
将Hi=[h1,h2,…,hl,…,hL]输入注意力LSTM模型:
H′i=LSTM(Hi)=[h′1,h′2,…,h′l,…,h′L]
通过使用与任务相关的查询向量q,利用注意力机制从联合表示中选择信息,则所有位置上的注意力分布al被定义为:
Figure FDA0003538578050000021
其中,bc∈b是偏置参数;
Figure FDA0003538578050000022
放入全连接层,并使用softmax函数来获得与
Figure FDA0003538578050000023
相关的公司属于每个商业角色的概率:
Figure FDA0003538578050000024
其中,MLP(.)表示全连接层,上述函数的组合形成了fγ(.)的预测模型。
2.根据权利要求1所述的基于多源数据联合学习的商务角色预测方法,其特征在于,所述的商业角色包括零售商、生产商和其他。
3.根据权利要求1所述的基于多源数据联合学习的商务角色预测方法,其特征在于,在步骤2中,采用BERT词嵌入和句子嵌入方法进行词语向量化,具体如下:
Figure FDA0003538578050000025
的词语向量化:首先将搜索引擎数据集
Figure FDA0003538578050000026
中的每一个数据
Figure FDA0003538578050000027
离散为一串长度为L的词语:
Figure FDA0003538578050000028
然后每个词
Figure FDA0003538578050000029
被BERT表征成向量
Figure FDA00035385780500000210
得到向量化的
Figure FDA00035385780500000211
Figure FDA00035385780500000212
Figure FDA00035385780500000213
的词语向量化:使用预训练模型VGG-16将从网页中提取的每张图片表示为一个向量,如果有多张图片,则使用平均法进行数据融合,然后使用BERT将从网页中提取的文本嵌入为一个句子向量,使用LSTM对从网页中提取的多个句子进行融合,最后,从图像和文本中提取的数据被一个编码器-解码器模型融合,从而
Figure FDA0003538578050000031
中的所有相关数据被融合成一个整体的向量
Figure FDA0003538578050000032
4.根据权利要求3所述的基于多源数据联合学习的商务角色预测方法,其特征在于,所述步骤3中,所述编码器采用BiLSTM模型,所述解码器采用注意力LSTM模型,编码器和解码器的输出被指定为:
Figure FDA0003538578050000033
5.根据权利要求4所述的基于多源数据联合学习的商务角色预测方法,其特征在于,步骤3中的编码解码过程即将
Figure FDA0003538578050000034
的语义翻译成其匹配的页面数据
Figure FDA0003538578050000035
的过程,在翻译过程中,采取
Figure FDA0003538578050000036
Figure FDA0003538578050000037
之间的均方误差MSE来评估学习损失
Figure FDA0003538578050000038
Figure FDA0003538578050000039
当函数
Figure FDA00035385780500000310
被最小化时,得到
Figure FDA00035385780500000311
Figure FDA00035385780500000312
的联合表示Hi
Figure FDA00035385780500000313
的优化目标是获得合适的α和β,使
Figure FDA00035385780500000314
Figure FDA00035385780500000315
之间的差异尽可能小。
6.根据权利要求5所述的基于多源数据联合学习的商务角色预测方法,其特征在于,还包括以下步骤:
步骤5、耦合转化的预测过程:当所有与
Figure FDA00035385780500000322
相关的公司的角色被预测后,得到两个集合:集合
Figure FDA00035385780500000316
代表所有与
Figure FDA00035385780500000317
相关的公司的真实商业角色,而集合
Figure FDA00035385780500000318
是相应的预测结果,C和
Figure FDA00035385780500000319
之间的预测损失
Figure FDA00035385780500000320
由分类交叉熵CCE来衡量:
Figure FDA00035385780500000321
定义目标函数:
Figure FDA0003538578050000041
其中,λ1和λ2为两个超参数;
所有的参数被概括为(W;b)=(α,β,γ;b),其最佳值通过最小化以下目标函数得到:
Figure FDA0003538578050000042
其中,W为更新的权重,b为偏置参数。
CN202110660624.6A 2021-06-15 2021-06-15 基于多源数据联合学习的商务角色预测方法 Active CN113392323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110660624.6A CN113392323B (zh) 2021-06-15 2021-06-15 基于多源数据联合学习的商务角色预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110660624.6A CN113392323B (zh) 2021-06-15 2021-06-15 基于多源数据联合学习的商务角色预测方法

Publications (2)

Publication Number Publication Date
CN113392323A CN113392323A (zh) 2021-09-14
CN113392323B true CN113392323B (zh) 2022-04-19

Family

ID=77621046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110660624.6A Active CN113392323B (zh) 2021-06-15 2021-06-15 基于多源数据联合学习的商务角色预测方法

Country Status (1)

Country Link
CN (1) CN113392323B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456721B (zh) * 2022-09-16 2023-12-12 广东朝阳全网通科技有限公司 一种基于互联网的电子商务商品推送方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462593A (zh) * 2014-12-29 2015-03-25 北京奇虎科技有限公司 一种提供用户个性化资源消息推送的方法和装置
CN106649658A (zh) * 2016-12-13 2017-05-10 重庆邮电大学 针对用户角色无差异对待和数据稀疏的推荐系统及方法
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN111368074A (zh) * 2020-02-24 2020-07-03 西安电子科技大学 一种基于网络结构和文本信息的链路预测方法
CN111881334A (zh) * 2020-07-15 2020-11-03 浙江大胜达包装股份有限公司 一种基于半监督学习的关键词到企业的检索方法
CN112685440A (zh) * 2020-12-31 2021-04-20 王程 标记搜索语义角色的结构化查询信息表达方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9721266B2 (en) * 2008-11-12 2017-08-01 Reachforce Inc. System and method for capturing information for conversion into actionable sales leads
CN106156333B (zh) * 2016-07-06 2017-09-22 合肥工业大学 一种融合社会化信息的改进单类协同过滤方法
CN107239562A (zh) * 2017-06-13 2017-10-10 华东理工大学 基于概率特征关联的舆情分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462593A (zh) * 2014-12-29 2015-03-25 北京奇虎科技有限公司 一种提供用户个性化资源消息推送的方法和装置
CN106649658A (zh) * 2016-12-13 2017-05-10 重庆邮电大学 针对用户角色无差异对待和数据稀疏的推荐系统及方法
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN111368074A (zh) * 2020-02-24 2020-07-03 西安电子科技大学 一种基于网络结构和文本信息的链路预测方法
CN111881334A (zh) * 2020-07-15 2020-11-03 浙江大胜达包装股份有限公司 一种基于半监督学习的关键词到企业的检索方法
CN112685440A (zh) * 2020-12-31 2021-04-20 王程 标记搜索语义角色的结构化查询信息表达方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hierarchical Agglomerative Clustering and LSTM-based Load Prediction for Dynamic Spectrum Allocation;Lei Liu et al.;《2021 IEEE 18th Annual Consumer Communications & Networking Conference》;20210311;1-5 *
基于BiLSTM的汉语框架语义角色识别方法研究;曹学飞;《中国博士学位论文全文数据库 (信息科技辑)》;20201215(第12期);I138-16 *
基于群组发现和区间划分的协同过滤推荐系统的设计与实现;王伟;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20190215(第2期);I138-2637 *

Also Published As

Publication number Publication date
CN113392323A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
Hu et al. Reviewer credibility and sentiment analysis based user profile modelling for online product recommendation
CN111914096A (zh) 基于舆情知识图谱的公共交通乘客满意度评价方法及系统
Zhang et al. Aspect-based sentiment analysis for user reviews
Wang et al. SentiRelated: A cross-domain sentiment classification algorithm for short texts through sentiment related index
CN112991017A (zh) 基于用户评论解析的标签体系精准推荐方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN116860978B (zh) 基于知识图谱和大模型的小学语文个性化学习系统
CN112069320A (zh) 一种基于跨度的细粒度情感分析方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN115329085A (zh) 一种社交机器人分类方法及系统
CN113392323B (zh) 基于多源数据联合学习的商务角色预测方法
Li et al. The user preference identification for product improvement based on online comment patch
Tarride et al. A comparative study of information extraction strategies using an attention-based neural network
Dai et al. Research on image of enterprise after-sales service based on text sentiment analysis
CN117056451A (zh) 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法
CN117093670A (zh) 一种论文智能推荐专家的实现方法
Li et al. Mining implicit intention using attention-based rnn encoder-decoder model
Yu et al. Research on intelligence computing models of fine-grained opinion mining in online reviews
CN115269984A (zh) 一种专业情报推荐方法和系统
CN109885748A (zh) 基于语意特征的优化推荐方法
CN114817454A (zh) 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法
Ponnaboyina et al. Smart recruitment system using deep learning with natural language processing
Omidvar et al. A novel approach to determining the quality of news headlines
Liu et al. Long-and short-term preference model based on graph embedding for sequential recommendation
Mohammadi et al. Query intent detection from the seo perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant