CN114595377A - 词汇推荐方法、装置、终端及可读存储介质 - Google Patents

词汇推荐方法、装置、终端及可读存储介质 Download PDF

Info

Publication number
CN114595377A
CN114595377A CN202011431559.1A CN202011431559A CN114595377A CN 114595377 A CN114595377 A CN 114595377A CN 202011431559 A CN202011431559 A CN 202011431559A CN 114595377 A CN114595377 A CN 114595377A
Authority
CN
China
Prior art keywords
vocabulary
candidate
word
target
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011431559.1A
Other languages
English (en)
Inventor
顾立瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011431559.1A priority Critical patent/CN114595377A/zh
Publication of CN114595377A publication Critical patent/CN114595377A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种词汇推荐方法、装置、终端及可读存储介质,涉及互联网技术领域。该方法包括:获取目标账号的投放词汇,投放词汇为目标账号在投放目标推荐内容时选用的词汇,目标推荐内容用于作为投放词汇的搜索结果进行内容推荐;基于投放词汇,从词汇库中确定与投放词汇具有关联关系的至少一个候选词汇;基于至少一个候选词汇与目标推荐内容的相关度,从至少一个候选词汇中确定推荐词汇;向目标账号发送推荐词汇,推荐词汇为向目标账号推荐的用于投放目标推荐内容时选用的词汇。实现从词汇库中筛选出与目标推荐内容相关性较高的推荐词汇,并将推荐词汇推送给目标账号作为选择投放词汇的参考。

Description

词汇推荐方法、装置、终端及可读存储介质
技术领域
本申请涉及互联网技术领域,特别涉及一种词汇推荐方法、装置、终端及可读存储介质。
背景技术
互联网广告是指通过网站、网页、互联网应用程序等互联网媒介,以文字、图片、音频、视频或者其他形式,直接或者间接地推销商品或者服务的商业广告,是一种新兴的广告媒体形式。随着云技术的发展,在互联网广告产业中也逐渐出现云技术的应用,例如,通过大数据对用户常用搜索词的挖掘,并将挖掘到的搜索词利用在广告推广中,以提高广告的曝光率。
客户可以通过购买与自己业务相关的广告词进行投放,当有用户对广告词进行搜索时,就会显示与客户业务相关的广告内容,例如,客户从供应商处购买的广告词为“小学英语辅导”,则当用户使用供应商的搜索网站进行搜索时,搜索的关键词中包含有“小学英语辅导”,则搜索网站显示的内容中,就会包括客户对应的业务广告内容。在相关技术中,该广告词由客户通过对自身业务进行创意分析得到,供应商再将与该广告词的同类词推荐给客户。
然而,以这样的方法确定的广告词具有局限性,且得出的同类词可能与客户业务的相关性较差。
发明内容
本申请实施例提供了一种词汇推荐方法、装置、终端及可读存储介质,可以提高向目标账号推荐用于投放目标推荐内容时选用词汇的准确率。所述技术方案如下:
一方面,提供了一种词汇推荐方法,所述方法包括:
获取目标账号的投放词汇,所述投放词汇为所述目标账号在投放目标推荐内容时选用的词汇,所述目标推荐内容用于作为所述投放词汇的搜索结果进行内容推荐;
基于所述投放词汇,从词汇库中确定与所述投放词汇具有关联关系的至少一个候选词汇;
基于所述至少一个候选词汇与所述目标推荐内容的相关度,从所述至少一个候选词汇中确定推荐词汇;
向所述目标账号发送所述推荐词汇,所述推荐词汇为向所述目标账号推荐的用于投放所述目标推荐内容时选用的词汇。
另一方面,提供了一种词汇推荐装置,所述装置包括:
获取模块,用于获取目标账号的投放词汇,所述投放词汇为所述目标账号在投放目标推荐内容时选用的词汇,所述目标推荐内容用于作为所述投放词汇的搜索结果进行内容推荐;
确定模块,用于基于所述投放词汇,从词汇库中确定与所述投放词汇具有关联关系的至少一个候选词汇;
所述确定模块,还用于基于所述至少一个候选词汇与所述目标推荐内容的相关度,从所述至少一个候选词汇中确定推荐词汇;
发送模块,用于向所述目标账号发送所述推荐词汇,所述推荐词汇为向所述目标账号推荐的用于投放所述目标推荐内容时选用的词汇。
另一方面,提供一种计算机设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的词汇推荐方法。
另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的词汇推荐方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的词汇推荐方法。
本申请的提供的技术方案至少包括以下有益效果:
基于目标账号的投放词汇,从词汇库中确定与投放词汇具有关联关系的候选词汇,再根据候选词汇与目标推荐内容的相关性确定推荐词汇,并向目标账号发送推荐词汇,实现了基于已有的投放词汇挖掘新的用于投放目标推荐内容时选用的词汇,使推荐的词汇覆盖范围更广,且不失与目标推荐内容的相关性,提高了向目标账号推送推荐词汇的效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的实施环境示意图;
图2是本申请一个示例性实施例提供的词汇推荐方法的流程图;
图3是本申请另一个示例性实施例提供的词汇推荐方法的流程图;
图4是本申请一个示例性实施例提供的训练相关性模型特征示意图;
图5是本申请一个示例性实施例提供的结构化模型结构分支示意图;
图6是本申请一个示例性实施例提供的结构分支信息示意图;
图7是本申请一个示例性实施例提供的机器翻译校验模型示意图;
图8是本申请一个示例性实施例提供的词汇推荐方法亭台系统示意图;
图9是本申请一个示例性实施例提供的词汇库示意图;
图10是本申请一个示例性实施例提供的推荐词汇生成模块示意图;
图11是本申请一个示例性实施例提供的平台系统模块示意图;
图12是本申请一个示例性实施例提供的词汇推荐装置的结构框图;
图13是本申请另一个示例性实施例提供的词汇推荐装置的结构框图;
图14是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。在本申请实施例中,通过大数据实现对词汇库的词汇挖掘与扩充。
人工智能(Artificial Intelligence,简称:AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language Processing,简称:NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。示意性的,用于推荐给目标账号的推荐词汇可利用机器翻译技术,根据目标账号的投放词汇生成相关的候选词汇。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。示意性的,在对候选词汇使用预设校验方法校验时,可利用人工神经网络与机器翻译结合进行候选词汇与投放词汇的相关度计算,在一个示例中,该人工神经网络为循环神经网络(Recurrent Neural Network,RNN)。
结合上述名词解释,对本申请实施例的应用场景进行说明。
在用户使用搜索引擎进行关键词搜索后,网页会对应显示多个与该关键词相关的网页链接,每个网页链接都有对应的推荐内容。互联网广告作为一种新兴的广告媒体形式,其形式多样,且能够直接或者间接地推销商品或者服务的商业广告,将搜索引擎与互联网广告结合,能够得到一种高效的内容推广方式。在一个示例中,用户使用搜索引擎搜索“小学英语辅导”,网页展示根据该关键词对应的多个推荐内容,而广告主们可以通过对“小学英语辅导”这个关键词进行竞价,竞价高者可针对该关键词投放对应的目标推荐内容,例如,目标推荐内容为“XX教育小学英语培训课程”,当用户搜索该关键词时,网页就会显示“XX教育小学英语培训课程”及对应的链接,随后,用户就会有可能对该链接进行点击,从而实现目标推荐内容的推广,增加广告主业务的曝光度。
广告主参与竞拍或购买得到的关键词后,可对其进行对应的目标推荐内容进行投放,该关键词即为投放词汇。一般的,广告主针对自己的业务范畴进行创意分析,确定自己想要竞拍的关键词后,参与关键词竞拍过程,例如,广告主的业务为钢琴辅导业务,则根据创意分析可以推测出合适的关键词为“钢琴家教”、“零基础怎么学钢琴”、“钢琴入门”等,然而,此类关键词中,参与竞价的同行多,对应的竞价也较高。在本申请实施例中,通过从词汇库中获取与目标账号的投放词汇具有关联关系的候选词汇,根据候选词汇与目标推荐内容的相关度确定推荐词汇,将推荐词汇推送给目标账号作为关键词竞拍的参考,以该词汇推荐方法确定的推荐词汇覆盖范围更广,且不失与目标推荐内容的相关性。同时,以该词汇推荐方法确定的推荐词汇还能挖掘到一些竞价较低但也能为目标推荐内容带来流量的关键词。
上述说明以词汇推荐方法应用于互联网广告中为例进行介绍,本申请中的词汇推荐方法可以应用于其他需要进行推荐词汇生成的场景,在此不进行限定。
其次,结合上述应用场景和名词解释,对本申请实施例的实施环境进行说明。示意性的,请参考图1,该事实环境中包括终端101、服务器102和通信网络103。
终端101可以是手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、膝上型便携计算机、台式计算机或生物识别一体机等电子设备。示意性的,终端101中安装有目标应用程序,该目标应用程序可实现广告主可以进行关键词购买或竞拍、推荐词汇生成等功能。示意性的,该目标应用程序可以是传统应用软件,可以是云应用软件,可以实现为宿主应用程序中的小程序,也可以是某个网页平台。
服务器102用于向终端101提供关键词购买服务、关键词竞拍服务、词汇推荐服务等。服务器102中存储有关键词对应的词汇库,示意性的,词汇库中的关键词通过对搜索引擎采集的大数据进行挖掘得到,词汇库中的关键词还对应有关键词信息,例如,关键词类别、词性、长度信息、购买价格、竞拍价格、使用率等。在一个示例中,服务器102接收终端101发送的关键词选择信号,根据该选择信号中携带的关键词标识,从存储器中读取得到对应的关键词及其对应关键词信息,根据该关键词信息,向终端101返回对应购买或竞拍信号,终端101根据上述信号显示对应的界面。在一个示例中,服务器102接收终端101发送的账号标识,根据该账号标识确定其对应的已购买的投放词汇,并根据该投放词汇生成推荐词汇,将推荐词汇推送至终端101,终端101对该推荐词汇进行展示。可选的,服务器102为物理服务器或云服务器。服务器102可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
服务器102可以通过通信网络103与终端101建立通信连接。该网络可以是无线网络,也可以是有线网络。
请参考图2,其示出了本申请一个实施例示出的词汇推荐方法的流程图。该方法可以包括如下步骤:
步骤201,获取目标账号的投放词汇。
在本申请实施例中,该词汇推荐方法可应用于内容推荐软件或平台中,以应用在广告投放平台中为例,目标账号为需要进行广告投放的第一用户所使用的账号,第一用户即广告主。第一用户可使用该目标账号登录上述广告投放平台,通过该广告投放平台进行与自身业务相关的广告内容的投放。示意性的,目标账号可在广告投放平台获取投放词汇,例如,可通过直接购买获取,也可通过竞拍获取,该投放词汇为目标账号在投放目标推荐内容时选用的词汇,目标推荐内容用于作为投放词汇的搜索结果进行内容推荐,投放词汇与目标账号具有对应关系。
目标账号可以通过使用平台虚拟资源兑换得到投放词汇。在一个示例中,目标账号的第一用户在词汇库中选择与自己业务相关的目标词汇,示意性的,词汇库中的词汇与平台虚拟资源数量具有对应关系,响应于目标账号使用对应数量的平台虚拟资源兑换得到目标词汇,则目标词汇作为目标账号的投放词汇,与目标账号具有对应关系。示意性的,该平台虚拟资源可以是虚拟金币或虚拟道具。
目标账号可以通过与其他账号进行竞争得到投放词汇。在一个示例中,由于多个账号对应的业务内容相近,其对应的第一用户选择了相同的目标词汇,则目标账号与其他账号通过竞拍获取目标词汇,当目标账号获得竞拍胜利时,目标账号支付对应的竞拍价格后,该目标词汇作为目标账号的投放词汇,与目标账号具有对应关系。或,当存在多个账号竞拍同一目标词汇时,根据参与竞拍账号各自支付的竞拍价格的高低,对参与竞拍账号对应的目标推荐内容进行排序显示,例如,账号A(推荐内容A,竞拍价格500元)、账号B(推荐内容B,竞拍价格400元)、账号C(推荐内容C,竞拍价格1000元)同时竞拍目标词汇,则当使用搜索引擎搜索目标词汇时,对应显示的内容顺序为推荐内容C、推荐内容A、推荐内容B。
在本申请实施例中,投放词汇可以对应为单个词语,如“英语”,可以对应为多个词语组成的词汇,如“英语辅导”,也可以对应为一个短句,如“孩子英语学不好怎么办”,在此不进行限定。
在本申请实施例中,目标账号在获取投放词汇后,可以选择自己的目标推荐内容与投放词汇建立对应关系,广告平台会针对投放词汇对目标账号的目标推荐内容进行内容推荐。可选的,一个目标推荐内容可对应多个投放词汇。
当广告投放平台获取目标账号已有的投放词汇后,可以针对该投放词汇对目标账号进行词汇推荐,即推荐其他的目标词汇给目标账号作为投放词汇的参考。
步骤202,基于投放词汇,从词汇库中确定与投放词汇具有关联关系的至少一个候选词汇。
在本申请实施例中,广告投放平台的服务器中对应存储有词汇库。示意性的,该词汇库中的词汇是通过对搜索引擎积累的搜索数据进行词汇挖掘得到的,词汇库中包括搜索引擎中的搜索频率达到一定标准的搜索词汇;该词汇库中还包括目标账号输入的词汇。示意性的,词汇库中的词与词之间可能存在关联关系,该关联关系包括语义关联关系、结构关联关系、语法关联关系、索引关联关系等关系中的至少一种。例如,“狐臭”与“臭汗症”具有语义关联关系;“无锡美食”与“惠山美食”具有结构关联关系;“学习钢琴指法”与“对钢琴指法进行学习”具有语法关联关系;“停车场”与“地下停车场”在词汇库中的倒排索引(Inverted Index)相邻,故“停车场”与“地下停车场”具有索引关联关系。
基于目标账号的投放词汇确定至少一个候选词汇的方法包括下述方法中的至少一种:
第一,根据投放词汇的行为特征确定第一候选词汇。该行为特征用于指示投放词汇被搜索时对应的特征。
行为特征包括共现特征,即词汇与词汇之间在一定语境中共同出现的概率高低。例如,目标账号的目标推荐内容为AA教育机构的英语辅导课程,目标账号已有的投放词汇为“英语学不好”,基于该投放词汇的共现特征,即在“英语学不好”对应的语境下,共同出现概率较高的词汇可能是“英语成绩差”,则确定“英语成绩差”为第一候选词汇。行为特征还包括点击特征,即第二用户在对投放词汇进行搜索时,点击的其他链接对应的第一用户所拥有的投放词汇,其中,第二用户为使用搜索引擎进行关键词搜索的用户。例如,目标账号已有的投放词汇为“英语学不好”,第二用户在通过搜索“英语学不好”后,网页展示的多个内容推荐链接中包括当前目标账号的目标推荐内容“AA教育机构的英语辅导课程”,以及其他账号的推荐内容“BB教育机构英语一对一辅导”,其中,其他账号还对应有其他投放词汇“英语辅导”,则将“英语辅导”作为第二候选词汇。行为特征还包括历史特征,即将目标账号在词汇库中曾经选择过但未进行投放的词汇作为第一候选词汇。
第二,根据投放词汇的语法特征确定第二候选词汇。
该语法特征通过机器翻译(Machine Translation,简称MT)技术确定,即对投放词汇进行机器翻译,确定第二候选词汇。例如,目标账号的投放词汇为“学习钢琴指法”,对其进行机器翻译可以得到“Learn piano fingering”、“ピアノの運指を学ぶ”、“对钢琴指法进行学习”等多种结果,将上述机器翻译结果中的至少一种结果确定为第二候选词汇。
第三,根据投放词汇的结构特征确定第三候选词汇。
该结构特征用于指示词汇的组成结构。示意性的,将投放词汇按结构分为至少两个分支,并根据每个分支对应的结构信息生成新的词汇,作为第三候选词汇,在一个示例中,将投放词汇按照<实体,意图,地域>三个分支进行结构划分。例如,目标账号的投放词汇为“惠山区房价多少钱”,其实体对应为房价,意图对应为价格,地域对应为惠山区,根据其各个分支对应的结构信息可以生成的第三候选词汇包括“无锡房价多少钱”、“惠山区有哪些楼盘”等。
第四,根据对词汇库进行布尔检索,得到第四候选词汇。
该布尔检索指利用布尔逻辑运算符连接投放词汇和词汇库中的词汇,然后由计算机进行相应逻辑运算,以确定第四候选词汇。在一个示例中,对词汇库中词汇进行倒排检索,确定与投放词汇具有索引关联关系的第四候选词汇。
示意性的,根据上述第一候选词汇、第二候选词汇、第三候选词汇和第四候选词汇,确定至少一个候选词汇。将上述第一候选词汇、第二候选词汇、第三候选词汇和第四候选词汇均确定为用于相关度确定的候选词汇。第一候选词汇、第二候选词汇、第三候选词汇和第四候选词汇之中可能存在相同的候选词汇,根据上述候选词汇对应的重复率确定出用于相关度确定的至少一个候选词汇。
步骤203,基于至少一个候选词汇与目标推荐内容的相关度,从至少一个候选词汇中确定推荐词汇。
在本申请实施例中,确定出至少一个候选词汇后,需要对上述至少一个候选词汇进行过滤。
可选的,对上述至少一个候选词汇进行业务过滤。示意性的,目标账号还对应有否定词汇,该否定词汇为词汇库中第一用户已否定的词汇;目标账号还对应有目标推荐内容对应的投放地域。针对上述否定词汇和目标推荐内容的投放地域,对上述至少一个候选词汇进行业务过滤。
可选的,基于至少一个候选词汇与目标推荐内容的相关度对上述候选词汇进行过滤。示意性的,基于预设校验方法,确定至少一个候选词汇与目标推荐内容的相关度数据,其中,预设校验方法用于确定以至少一个候选词汇作为搜索请求时,得到的候选搜索结果与目标推荐内容的相关程度。基于相关度数据,从至少一个候选词汇中确定推荐词汇。上述相关度数据包括语义相关度、结构相关度、语法相关度中的至少一种数据组成。其中,语义相关度用于表示词汇与词汇之间在语义上的关联程度,在一个示例中,语义相关度由相关性模型得到,该相关性模型通过对语料库中的语料进行训练得到,其中,语料库通过对互联网中的各个网页中的内容进行爬取得到,即网络爬虫(Web Crawler)。结构相关度用于表示词汇与词汇之间在结构上的关联程度,在一个示例中,结构相关度由结构化模型得到,该结构化模型将词汇库中的词汇按组成结构划分成预设数量的结构分支,并根据不同词汇的相同结构分支对应分支信息来确定词汇与词汇之间的结构相关度。语法相关度用于表示词汇与词汇之间在语法上的关联程度,在一个示例中,语法相关度由机器翻译校验模型得到,该机器翻译校验模型通过基于循环神经网络的机器翻译技术训练得到。
步骤204,向目标账号发送推荐词汇。
在本申请实施例中,推荐词汇为向目标账号推荐的用于投放目标推荐内容时选用的词汇,即将推荐词汇推送给目标账号,目标账号的第一用户将其作为投放词汇竞拍的参考。
在本申请实施例中,响应于候选词汇数量为至少两个时,根据相关度数据对候选词汇进行排序,得到候选词汇序列;基于候选词汇序列,获取预设数量的推荐词汇。
服务器在将推荐词汇发送给目标账号之前,还可以对推荐词汇进行法务审核。在一个示例中,该法务审核包括AKA(Authentication and Key Agreement,认证与密钥协商)审核和竞品过滤,其中,AKA审核用于针对目标账号的鉴权信息以及推荐词汇是否含有违禁词汇,竞品过滤用于过滤推荐词汇中,包括目标账号的目标推荐内容的竞争产品的词汇。
综上所述,本申请实施例提供的词汇推荐方法,基于目标账号的投放词汇,从词汇库中确定与投放词汇具有关联关系的候选词汇,再根据候选词汇与目标推荐内容的相关性确定推荐词汇,并向目标账号发送推荐词汇,实现了基于已有的投放词汇挖掘新的用于投放目标推荐内容时选用的词汇,使推荐的词汇覆盖范围更广,且不失与目标推荐内容的相关性提高了向目标账号推送推荐词汇的效率和准确率。
在本申请实施例的候选词汇的获取过程中,可以根据投放词汇的多个词汇特征进行候选词汇的确定,同时,在对候选词汇的过滤过程中,可以根据多方面的相关度对候选词汇与目标推荐内容的相关度数据进行计算。请参考图3,其示出了本申请一个实施例示出的词汇推荐方法的流程图。该方法应用于服务器中,该方法可以包括如下步骤:
步骤301,获取目标账号的投放词汇。
在本申请实施例中,服务器获取当前终端登录的目标账号对应的账号标识,并从存储器中获取该账号标识对应的投放词汇。
步骤3021,根据投放词汇的行为特征确定第一候选词汇。
该行为特征用于指示投放词汇被搜索时对应的特征。示意性的,行为特征包括共现特征,即词汇与词汇之间在一定语境中共同出现的概率高低;行为特征还包括点击特征,即第二用户在对投放词汇进行搜索时,点击的其他链接对应的第一用户所拥有的投放词汇;行为特征还包括历史特征,即将目标账号在词汇库中曾经选择过但未进行投放的词汇作为候选词汇。服务器确定该投放词汇的行为特征后,在词汇库中搜索得到具有上述行为特征的其他词汇作为第一候选词汇。可选的,上述行为特征包括共现特征、点击特征及历史特征中的至少一个特征。
步骤3022,根据投放词汇的语法特征确定第二候选词汇。
服务器对上述投放词汇进行机器翻译,得到至少一个翻译词汇,将上述翻译词汇确定为第二候选词汇。可选的,该翻译词汇可以与投放词汇为同一语言类型的词汇,也可以为不同语言类型的词汇。
步骤3023,根据投放词汇的结构特征确定第三候选词汇。
该结构特征用于指示词汇的组成结构。服务器将投放词汇按结构分为至少两个分支,并根据每个分支对应的结构信息生成新的词汇,作为第三候选词汇。
步骤3024,对所述词汇库进行布尔检索,得到第四候选词汇。
服务器对词汇库中词汇进行倒排检索,确定与投放词汇具有索引关联关系的第四候选词汇。
步骤303,根据第一候选词汇、第二候选词汇、第三候选词汇和第四候选词汇,确定至少一个候选词汇。
可选的,将上述第一候选词汇、第二候选词汇、第三候选词汇和第四候选词汇均确定为用于相关度确定的候选词汇。
可选的,第一候选词汇、第二候选词汇、第三候选词汇和第四候选词汇之中可能存在相同的候选词汇,根据上述候选词汇对应的重复率确定出用于相关度确定的至少一个候选词汇。
可选的,根据上述行为特征、语法特征、结构特征及布尔检索确定的候选词汇对应有质量等级,在一个示例中,根据语法特征生成的候选词汇对应为第一等级,根据结构特征生成的候选词汇对应为第二等级,根据布尔检索生成的候选词汇对应为第三等级,根据行为特征生成的候选词汇对应为第四等级,其中,第一等级对应的质量最高,第四等级对应的质量最低。示意性的,目标账号可指定推荐词汇对应的质量等级要求,服务器根据该质量等级要求对上述第一候选词汇、第二候选词汇、第三候选词汇和第四候选词汇进行筛选,得到至少一个候选词汇。
步骤3041,对至少一个候选词汇进行相关性校验,确定至少一个候选词汇与投放词汇的语义相关度。
在本申请实施例中,至少一个候选词汇包括目标候选词汇。服务器提取目标候选词汇的第一特征和投放词汇的第二特征;将第一特征和第二特征输入至相关性模型中,得到语义相关度,其中,相关性模型通过对语料库中的语料进行训练得到。
在一个示例中,请参考图4,其示出了用于训练相关性模型410的特征类型,其中包括MT特征420,文本属性类特征430,扩展文本特征440,DNN(Deep Neural Networks,深度神经网络)特征450及其他特征460。文本属性类特征430中通过IDF(Inverse DocumentFrequency,逆文本频率指数)431、词向量432、词性433、专名434、长度435、词项数量436、非词项数量437共同确定,其中,专名特征用于表示目标词汇是否为专有名词,词项数量特征用于表示目标词汇中词项的数量,词项为计算机对词汇进行逻辑分析时的基本单元。扩展文本特征440通过BM25算法441、摘要扩展词项442、PLSA(Probabilitistic LatentSemantic Analysis,概率性潜在语义分析)443、替换点444共同确定。DNN特征450通过单字向量451、phrase2vec(Phrase Embedding Based on Parsing,基于解析的短语嵌入)452、word2vec(Word to Vector,词向量产生模型)453共同确定。其他特征460中还包括行业特征461、离群值462,其中,离群值用于表示目标候选词汇与其他候选词汇的差异程度。
示意性的,相关性模型可采用RF(Random Forest,随机森林)模型、GBDT(GradientBoosting Decison Tree,梯度提升树)训练得到。在一个示例中,相关性模型经过多轮迭代训练,效果如表一所示,为保证推荐词汇的质量,相关性模型回调值在0.25-0.3之间,其目的是优先保证质量,其中,线上测试集为确定投放词汇后,对词汇库中的词汇进行抽样标注得到,线下测试集为在词汇库中的词汇进行随机抽样得到。
表一:
Figure BDA0002820815360000131
步骤3042,对所述至少一个候选词汇进行结构化校验,确定至少一个候选词汇与投放词汇的结构相关度。
在本申请实施例中,服务器将目标候选词汇输入至结构化模型中,输出各个结构分支对应的第一分支信息,该结构化模型包括至少两个所述结构分支;将投放词汇输入至结构化模型中,输出结构分支对应的第二分支信息;对比第一分支信息和第二分支信息,确定目标候选词汇的结构相关度。
该结构化模型用于对目标候选词汇的结构化信息进行抽取。在一个示例中,共有“地域、性别、身体部位、行业、实体、意图”六个结构分支。请参考图5,当输入结构化模型中词汇为“西二旗隆胸手术的费用多少钱”500。地域分支510对应为北京,可选的,地域分支510还可分为一级地域511与二级地域512,一级地域511对应为北京,二级地域512对应为海淀;性别分支520对应为女性;身体部位分支530对应为胸部;行业分支540对应为医疗,可选的,行业分支540还可分为一级行业541与二级行业542,一级行业541对应为医疗,二级行业542对应为整容;实体分支550对应为隆胸手术;意图分支560对应为价格。
服务器将目标候选词汇输入至结构化模型中,抽取对应的结构化信息,即第一分支信息,同时将投放词汇输入至结构化模型中,抽取对应的结构化信息,即第二分支信息。服务器将第一分支信息和第二分支信息进行对比,确定目标候选词汇的结构相关度。示意性的,根据第一分支信息与第二分支信息中相同分支的匹配程度确定该结构相关度。请参考图6,投放词汇610对应为“武汉七岁女生有狐臭怎么治”,目标候选词汇620对应为“武汉7岁小男孩有汗臭症怎么治”,将投放词汇610和目标候选词汇620分别输入结构化模型进行结构化信息提取,得到第一分支信息611和第二分支信息621,对第一分支信息611和第二分支信息621进行匹配判断操作602,确定是否过滤该目标候选词汇603。
步骤3043,对至少一个候选词汇进行机器翻译校验,确定至少一个候选词汇与投放词汇的语法相关度。
在本申请实施例中,服务器将至少一个候选词汇输入至机器翻译校验模型中,输出重组候选词汇;根据目标候选词汇与重组候选词汇的差异程度,确定目标候选词汇的语法相关度。
在一个示例中,请参考图7,其示出了机器翻译校验模型的示意图,候选词汇A对应为“烧烤加盟”701,候选词汇B对应为“烤串代理加盟”702,上述候选词汇A与候选词汇B分别经过编码器703、语义提取704后,进行语义连接705,再次经过编码器703后,将对应的每个词项输入softmax逻辑回归模型706,并进行编码,最后得到一个重组候选词汇“烤串加盟”,对比重组候选词汇与目标候选词汇的差异程度,确定目标候选词汇的语法相关度。即,在校验过程中,通过将所有的候选词汇作为输入,将输出词汇进行切词后得到多个词项,根据对应于时间序列点中生成的字典大小的概率,确定重组候选词汇。
步骤305,根据语义相关度、结构相关度和语法相关度确定至少一个候选词汇的相关度数据。
语义相关度、结构相关度和语法相关度对应有不同的权重,根据其权重进行计算候选词汇的相关度数据计算。在一个示例中,语义相关度对应权重为0.5,结构相关度对应权重为0.3,语义相关度对应权重为0.2。根据各个候选词汇对应的语义相关度、结构相关度和语法相关度计算其对应的相关度数据。
步骤306,基于相关度数据,从至少一个候选词汇中确定推荐词汇。
在本申请实施例中,服务器响应于候选词汇数量为至少两个时,根据相关度数据对候选词汇进行排序,得到候选词汇序列;基于候选词汇序列,获取预设数量的推荐词汇。示意性的,该预设数量可由目标账号确定,也可由服务器预先设置确定。
步骤307,向目标账号发送推荐词汇。
在本申请实施例中,推荐词汇为向目标账号推荐的用于投放目标推荐内容时选用的词汇,即将推荐词汇推送给目标账号,目标账号的第一用户将其作为投放词汇竞拍的参考。
综上所述,本申请实施例提供的词汇推荐方法,基于目标账号的投放词汇的行为特征、语法特征、结构特征等特征,从词汇库中确定候选词汇,再根据候选词汇与目标推荐内容的语义相关度、结构相关度和语法相关度确定推荐词汇,并向目标账号发送推荐词汇,实现了基于已有的投放词汇挖掘新的用于投放目标推荐内容时选用的词汇,使推荐的词汇覆盖范围更广,且不失与目标推荐内容的相关性提高了向目标账号推送推荐词汇的效率和准确率。
请参考图8,其示出了本申请实施例中的词汇推荐方法应用于互联网推广平台系统中,该平台系统包括投放词汇选择模块810、推荐词汇生成模块820、词汇投放模块830,模块之间的数据处理和传输步骤包括:
步骤811,投放词汇选择模块810接收目标账号对词汇库中的目标词汇的选择信号。
步骤812,投放词汇选择模块810响应于确定目标账号具有获取目标词汇的资格,将目标词汇确定为目标账号的投放词汇。
在一个示例中,请参考图9,词汇库900中的关键词901根据词汇特征被分为多个广告单元902,例如,按词汇对应的领域特征进行分类,词汇库900中的词汇被分为“医疗”广告单元、“教育”广告单元、“娱乐”广告单元、“建材”广告单元等。
步骤821,推荐词汇生成模块820从投放词汇选择模块810获取目标账号的投放词汇。
步骤822,推荐词汇生成模块820基于投放词汇从词汇库中确定与投放词汇具有关联关系的至少一个候选词汇。
步骤823,推荐词汇生成模块820基于至少一个候选词汇与目标推荐内容的相关度,从至少一个候选词汇中确定推荐词汇。
步骤824,推荐词汇生成模块820向目标账号对应终端和词汇投放模块830发送推荐词汇。
推荐词汇生成模块820,还用于基于预设校验方法,确定至少一个候选词汇与目标推荐内容的相关度数据,预设校验方法用于确定以至少一个候选词汇作为搜索请求时,得到的候选搜索结果与目标推荐内容的相关程度;基于相关度数据,从至少一个候选词汇中确定所述推荐词汇。
相关度数据包括语义相关度,推荐词汇生成模块820,还用于对至少一个候选词汇进行相关性校验,确定至少一个候选词汇与投放词汇的语义相关度;对至少一个候选词汇进行结构化校验,确定至少一个候选词汇与投放词汇的结构相关度;对至少一个候选词汇进行机器翻译校验,确定至少一个候选词汇与投放词汇的所述语法相关度。
至少一个候选词汇包括目标候选词汇,推荐词汇生成模块820,还用于提取目标候选词汇的第一特征和投放词汇的第二特征;将第一特征和第二特征输入至相关性模型中,得到语义相关度,其中,相关性模型通过对语料库中的语料进行训练得到。
推荐词汇生成模块820,还用于将目标候选词汇输入至结构化模型中,输出各个结构分支对应的第一分支信息,结构化模型包括至少两个结构分支;将投放词汇输入至结构化模型中,输出结构分支对应的第二分支信息;对比第一分支信息和第二分支信息,确定目标候选词汇的结构相关度。
推荐词汇生成模块820,还用于将至少一个候选词汇输入至机器翻译校验模型中,输出重组候选词汇;根据目标候选词汇与重组候选词汇的差异程度,确定目标候选词汇的语法相关度。
推荐词汇生成模块820,还用于响应于候选词汇数量为至少两个时,根据相关度数据对候选词汇进行排序,得到候选词汇序列;基于候选词汇序列,获取预设数量的推荐词汇。
推荐词汇生成模块820,还用于根据投放词汇的行为特征确定第一候选词汇,行为特征用于指示投放词汇被搜索时对应的特征;根据投放词汇的语法特征确定第二候选词汇;根据投放词汇的结构特征确定第三候选词汇,结构特征用于指示词汇的组成结构;对词汇库进行布尔检索,得到第四候选词汇;根据第一候选词汇、第二候选词汇、第三候选词汇和第四候选词汇,确定至少一个候选词汇。
在一个示例中,请参考图10,推荐词汇生成模块1000又分为候选词汇生成单元1010和候选词汇校验单元1020,其中,候选词汇生成单元1010中包括MT生成子单元1011、行为特征挖掘子单元1012、词汇库倒排检索子单元1013、结构化关联子单元1014;候选词汇校验单元1020中包括MT校验子单元1021、相关性校验子单元1022、结构化校验子单元1023、采纳率模型子单元1024,示意性的,采纳率模型子单元1024通过根据候选词汇的历史采纳率对候选词汇进行筛选。
步骤831,词汇投放模块830接收目标账号对至少一个推荐词汇中目标推荐词汇的选择操作。
步骤832,词汇投放模块830响应于确定目标账号具有获取目标推荐词汇的资格,将目标推荐词汇确定为目标账号的投放词汇。
步骤833,词汇投放模块830接收目标账号对投放词汇和目标推荐内容的选择信号。
步骤834,词汇投放模块830建立投放词汇和目标推荐内容的对应关系。
步骤835,词汇投放模块830基于投放词汇将目标推荐内容进行投放。
词汇投放模块830,还用于响应于接收到目标账号对至少一个推荐词汇中的目标推荐词汇的选择操作,显示推荐竞价。
在一个示例中,请参考图11,其示出了上述平台系统1100对应模块示意图。其中,推荐词汇生成模块包括候选词生成模块1110、业务过滤模块1120、相关性模块1130、结构化校验模块1140、法务审核模块1150。其中,候选词生成1110还包括MT生成单元1111、布尔检索生成单元1112、行为数据挖掘单元1113、结构化生成单元1114,业务过滤模块1120包括否定词过滤1121和投放地域过滤1122,相关性模块1130包括传统相关性模型单元1131和MT特征单元1132,结构化校验模块1140包括N个结构分支1141,法务审核模块1150还包括AKA审核1151和竞品过滤1152。该平台系统还对应有推荐出价模块1161、匹配模块1162、落地页优选模块1163及数据优选模块1164,其中,推荐出价模块1161用于对目标账号选择的推荐词汇进行竞价推荐,匹配模块1162用于目标账号设置投放词汇与目标推荐内容的对应关系,落地页优选模块1163用于目标账号对目标推荐内容的页面设置,数据优选模块1164用于对目标账号对应的各个投放词汇进行流量监控,并根据效果追踪生成对应的日志报表,将其提供给目标账号进行投放词汇使用的参考。
综上所述,本申请实施例提供的词汇推荐方法应用于广告投放平台,基于目标账号的投放词汇,从词汇库中确定与投放词汇具有关联关系的候选词汇,再根据候选词汇与目标推荐内容的相关性确定推荐词汇,并向目标账号发送推荐词汇,实现了基于已有的投放词汇挖掘新的用于投放目标推荐内容时选用的词汇,使推荐的词汇覆盖范围更广,且不失与目标推荐内容的相关性,提高了向目标账号推送推荐词汇的效率和准确率。
请参考图12,是本申请一个示例性实施例提供的词汇推荐装置的结构框图,该装置包括:
获取模块1210,用于获取目标账号的投放词汇,所述投放词汇为所述目标账号在投放目标推荐内容时选用的词汇,所述目标推荐内容用于作为所述投放词汇的搜索结果进行内容推荐;
确定模块1220,用于基于所述投放词汇,从词汇库中确定与所述投放词汇具有关联关系的至少一个候选词汇;
所述确定模块1220,还用于基于所述至少一个候选词汇与所述目标推荐内容的相关度,从所述至少一个候选词汇中确定推荐词汇;
发送模块1230,用于向所述目标账号发送所述推荐词汇,所述推荐词汇为向所述目标账号推荐的用于投放所述目标推荐内容时选用的词汇。
在一个可选的实施例中,所述确定模块1220,还用于基于预设校验方法,确定所述至少一个候选词汇与所述目标推荐内容的相关度数据,所述预设校验方法用于确定以所述至少一个候选词汇作为搜索请求时,得到的候选搜索结果与所述目标推荐内容的相关程度;
所述确定模块1220,还用于基于所述相关度数据,从所述至少一个候选词汇中确定所述推荐词汇。
在一个可选的实施例中,所述相关度数据包括语义相关度;
所述确定模块1220,还用于对所述至少一个候选词汇进行相关性校验,确定所述至少一个候选词汇与所述投放词汇的所述语义相关度。
在一个可选的实施例中,请参考图13,所述至少一个候选词汇包括目标候选词汇;
所述确定模块1220,还包括提取单元1221,用于提取所述目标候选词汇的第一特征和所述投放词汇的第二特征;
确定单元1222,用于将所述第一特征和所述第二特征输入至相关性模型中,得到所述语义相关度,其中,所述相关性模型通过对语料库中的语料进行训练得到。
在一个可选的实施例中,所述相关度数据包括结构相关度;
所述确定模块1220,还用于对所述至少一个候选词汇进行结构化校验,确定所述至少一个候选词汇与所述投放词汇的所述结构相关度。
在一个可选的实施例中,所述至少一个候选词汇包括目标候选词汇;
所述确定模块1220,还包括输出单元1223,用于将所述目标候选词汇输入至结构化模型中,输出各个结构分支对应的第一分支信息,所述结构化模型包括至少两个所述结构分支;
所述输出单元1223,还用于将所述投放词汇输入至所述结构化模型中,输出所述结构分支对应的第二分支信息;
所述确定单元1222,还用于对比所述第一分支信息和所述第二分支信息,确定所述目标候选词汇的所述结构相关度。
在一个可选的实施例中,所述相关度数据包括语法相关度;
所述确定模块1220,还用于对所述至少一个候选词汇进行机器翻译校验,确定所述至少一个候选词汇与所述投放词汇的所述语法相关度。
在一个可选的实施例中,所述至少一个候选词汇包括目标候选词汇;
所述输出单元1223,还用于将所述至少一个候选词汇输入至机器翻译校验模型中,输出重组候选词汇;
所述确定单元1222,还用于根据所述目标候选词汇与所述重组候选词汇的差异程度,确定所述目标候选词汇的所述语法相关度。
在一个可选的实施例中,所述确定模块1220,还包括排序单元1224,用于响应于所述候选词汇数量为至少两个时,根据所述相关度数据对所述候选词汇进行排序,得到候选词汇序列;
所述确定单元1222,还用于基于所述候选词汇序列,获取预设数量的所述推荐词汇。
在一个可选的实施例中,所述确定模块1220,还用于根据所述投放词汇的语法特征确定第二候选词汇;
所述确定模块1220,还用于根据所述投放词汇的结构特征确定第三候选词汇,所述结构特征用于指示所述词汇的组成结构;
所述确定模块1220,还用于对所述词汇库进行布尔检索,得到第四候选词汇;
所述确定模块1220,还用于根据所述第一候选词汇、所述第二候选词汇、所述第三候选词汇和所述第四候选词汇,确定所述至少一个候选词汇。
综上所述,本申请实施例提供的词汇推荐装置,基于目标账号的投放词汇,从词汇库中确定与投放词汇具有关联关系的候选词汇,再根据候选词汇与目标推荐内容的相关性确定推荐词汇,并向目标账号发送推荐词汇,实现了基于已有的投放词汇挖掘新的用于投放目标推荐内容时选用的词汇,使推荐的词汇覆盖范围更广,且不失与目标推荐内容的相关性。
需要说明的是:上述实施例提供的词汇推荐装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的词汇推荐装置与词汇推荐方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图14示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲:
服务器1400包括中央处理单元(Central Processing Unit,CPU)1401、包括随机存取存储器(Random Access Memory,RAM)1402和只读存储器(Read Only Memory,ROM)1403的系统存储器1404,以及连接系统存储器1404和中央处理单元1401的系统总线1405。服务器1400还包括用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1406。
大容量存储设备1406通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。大容量存储设备1406及其相关联的计算机可读介质为服务器1400提供非易失性存储。也就是说,大容量存储设备1406可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1406可以统称为存储器。
根据本申请的各种实施例,服务器1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1400可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412,或者说,也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的词汇推荐方法。可选地,该计算机设备可以是终端,也可以是服务器。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的词汇推荐方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的词汇推荐方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种词汇推荐方法,其特征在于,所述方法包括:
获取目标账号的投放词汇,所述投放词汇为所述目标账号在投放目标推荐内容时选用的词汇,所述目标推荐内容用于作为所述投放词汇的搜索结果进行内容推荐;
基于所述投放词汇,从词汇库中确定与所述投放词汇具有关联关系的至少一个候选词汇;
基于所述至少一个候选词汇与所述目标推荐内容的相关度,从所述至少一个候选词汇中确定推荐词汇;
向所述目标账号发送所述推荐词汇,所述推荐词汇为向所述目标账号推荐的用于投放所述目标推荐内容时选用的词汇。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个候选词汇与所述目标推荐内容的相关度,从所述至少一个候选词汇中确定推荐词汇,包括:
基于预设校验方法,确定所述至少一个候选词汇与所述目标推荐内容的相关度数据,所述预设校验方法用于确定以所述至少一个候选词汇作为搜索请求时,得到的候选搜索结果与所述目标推荐内容的相关程度;
基于所述相关度数据,从所述至少一个候选词汇中确定所述推荐词汇。
3.根据权利要求2所述的方法,其特征在于,所述相关度数据包括语义相关度;
所述基于预设校验方法,确定所述至少一个候选词汇与所述目标推荐内容的相关度数据,包括:
对所述至少一个候选词汇进行相关性校验,确定所述至少一个候选词汇与所述投放词汇的所述语义相关度。
4.根据权利要求3所述的方法,其特征在于,所述至少一个候选词汇包括目标候选词汇;
所述对所述至少一个候选词汇进行相关性校验,确定所述至少一个候选词汇与所述投放词汇的所述语义相关度,包括:
提取所述目标候选词汇的第一特征和所述投放词汇的第二特征;
将所述第一特征和所述第二特征输入至相关性模型中,得到所述语义相关度,其中,所述相关性模型通过对语料库中的语料进行训练得到。
5.根据权利要求2所述的方法,其特征在于,所述相关度数据包括结构相关度;
所述基于预设校验方法,确定所述至少一个候选词汇与所述目标推荐内容的相关度数据,包括:
对所述至少一个候选词汇进行结构化校验,确定所述至少一个候选词汇与所述投放词汇的所述结构相关度。
6.根据权利要求5所述的方法,其特征在于,所述至少一个候选词汇包括目标候选词汇;
所述将所述至少一个候选词汇进行结构化校验,确定所述至少一个候选词汇与所述投放词汇的所述结构相关度,包括:
将所述目标候选词汇输入至结构化模型中,输出各个结构分支对应的第一分支信息,所述结构化模型包括至少两个所述结构分支;
将所述投放词汇输入至所述结构化模型中,输出所述结构分支对应的第二分支信息;
对比所述第一分支信息和所述第二分支信息,确定所述目标候选词汇的所述结构相关度。
7.根据权利要求2所述的方法,其特征在于,所述相关度数据包括语法相关度;
所述基于预设校验方法,确定所述至少一个候选词汇与所述目标推荐内容的相关度数据,包括:
对所述至少一个候选词汇进行机器翻译校验,确定所述至少一个候选词汇与所述投放词汇的所述语法相关度。
8.根据权利要求7所述的方法,其特征在于,所述至少一个候选词汇包括目标候选词汇;
所述将所述至少一个候选词汇进行机器翻译校验,确定所述至少一个候选词汇与所述投放词汇的所述语法相关度,包括:
将所述至少一个候选词汇输入至机器翻译校验模型中,输出重组候选词汇;
根据所述目标候选词汇与所述重组候选词汇的差异程度,确定所述目标候选词汇的所述语法相关度。
9.根据权利要求2至8任一所述的方法,其特征在于,所述基于所述相关度数据,从所述至少一个候选词汇中确定所述推荐词汇,包括:
响应于所述候选词汇数量为至少两个时,根据所述相关度数据对所述候选词汇进行排序,得到候选词汇序列;
基于所述候选词汇序列,获取预设数量的所述推荐词汇。
10.根据权利要求1至8任一所述的方法,其特征在于,所述基于所述投放词汇,从词汇库中确定与所述投放词汇具有关联关系的至少一个候选词汇,包括:
根据所述投放词汇的行为特征确定第一候选词汇,所述行为特征用于指示所述投放词汇被搜索时对应的特征;
根据所述投放词汇的语法特征确定第二候选词汇;
根据所述投放词汇的结构特征确定第三候选词汇,所述结构特征用于指示所述词汇的组成结构;
对所述词汇库进行布尔检索,得到第四候选词汇;
根据所述第一候选词汇、所述第二候选词汇、所述第三候选词汇和所述第四候选词汇,确定所述至少一个候选词汇。
11.一种词汇推荐装置,其特征在于,所述装置包括:
获取模块,用于获取目标账号的投放词汇,所述投放词汇为所述目标账号在投放目标推荐内容时选用的词汇,所述目标推荐内容用于作为所述投放词汇的搜索结果进行内容推荐;
确定模块,用于基于所述投放词汇,从词汇库中确定与所述投放词汇具有关联关系的至少一个候选词汇;
所述确定模块,还用于基于所述至少一个候选词汇与所述目标推荐内容的相关度,从所述至少一个候选词汇中确定推荐词汇;
发送模块,用于向所述目标账号发送所述推荐词汇,所述推荐词汇为向所述目标账号推荐的用于投放所述目标推荐内容时选用的词汇。
12.根据权利要求11所述的装置,其特征在于,
所述确定模块,还用于基于预设校验方法,确定所述至少一个候选词汇与所述目标推荐内容的相关度数据,所述预设校验方法用于确定以所述至少一个候选词汇作为搜索请求时,得到的候选搜索结果与所述目标推荐内容的相关程度;
所述确定模块,还用于基于所述相关度数据,从所述至少一个候选词汇中确定所述推荐词汇。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一所述的词汇推荐方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至10任一所述的词汇推荐方法。
CN202011431559.1A 2020-12-07 2020-12-07 词汇推荐方法、装置、终端及可读存储介质 Pending CN114595377A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011431559.1A CN114595377A (zh) 2020-12-07 2020-12-07 词汇推荐方法、装置、终端及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011431559.1A CN114595377A (zh) 2020-12-07 2020-12-07 词汇推荐方法、装置、终端及可读存储介质

Publications (1)

Publication Number Publication Date
CN114595377A true CN114595377A (zh) 2022-06-07

Family

ID=81813097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011431559.1A Pending CN114595377A (zh) 2020-12-07 2020-12-07 词汇推荐方法、装置、终端及可读存储介质

Country Status (1)

Country Link
CN (1) CN114595377A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI831432B (zh) * 2022-10-24 2024-02-01 中國信託商業銀行股份有限公司 行銷文案生成方法及其運算裝置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI831432B (zh) * 2022-10-24 2024-02-01 中國信託商業銀行股份有限公司 行銷文案生成方法及其運算裝置

Similar Documents

Publication Publication Date Title
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
JP7127150B2 (ja) 質問応答インタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体
AU2018383346B2 (en) Domain-specific natural language understanding of customer intent in self-help
US9910930B2 (en) Scalable user intent mining using a multimodal restricted boltzmann machine
CN110612525A (zh) 通过使用交流话语树启用修辞分析
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN110162749A (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
US20130311288A1 (en) Online advertising valuation apparatus and method
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
Xu et al. A personalized information recommendation system for R&D project opportunity finding in big data contexts
CN102349072A (zh) 识别查询方面
US20110258054A1 (en) Automatic Generation of Bid Phrases for Online Advertising
US20210042476A1 (en) Intelligent Routing Services and Systems
CN110727761B (zh) 对象信息获取方法、装置及电子设备
CN112508609A (zh) 人群扩量的预测方法、装置、设备及存储介质
CN111274330A (zh) 一种目标对象确定方法、装置、计算机设备及存储介质
CN112231485A (zh) 文本推荐方法、装置、计算机设备及存储介质
CN110362662A (zh) 数据处理方法、装置以及计算机可读存储介质
Chakraverty et al. Review based emotion profiles for cross domain recommendation
Kang et al. Whose opinion matters? analyzing relationships between bitcoin prices and user groups in online community
Wehnert et al. Applying BERT embeddings to predict legal textual entailment
Fu Natural language processing in urban planning: A research agenda
CN114595377A (zh) 词汇推荐方法、装置、终端及可读存储介质
KR102454261B1 (ko) 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법
Ferreira et al. Open-domain conversational search assistants: the Transformer is all you need

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination