CN102934138B - 广告拷贝质量检测及评分 - Google Patents

广告拷贝质量检测及评分 Download PDF

Info

Publication number
CN102934138B
CN102934138B CN201180029775.6A CN201180029775A CN102934138B CN 102934138 B CN102934138 B CN 102934138B CN 201180029775 A CN201180029775 A CN 201180029775A CN 102934138 B CN102934138 B CN 102934138B
Authority
CN
China
Prior art keywords
advertisement
quality
text
language model
online advertisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180029775.6A
Other languages
English (en)
Other versions
CN102934138A (zh
Inventor
A.Y.辛雅金
叶扬
王逸民
王冠三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN102934138A publication Critical patent/CN102934138A/zh
Application granted granted Critical
Publication of CN102934138B publication Critical patent/CN102934138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0273Determination of fees for advertising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了利用来自语言模型的输出来评估在线广告内的文本质量的方法、系统和计算机可读介质。来自语言模型的输出可以被机器学习算法用来生成对应于一则单独广告的质量分数。所述质量分数可以被用来在线拍卖中滤除具有较差文本质量的广告或者对其进行征税或惩罚。广告质量分数还可以被用来对提交所述广告的广告商进行评级或评分。在一个实施例中,将广告商的质量分数与一则单独广告的质量分数组合,从而产生被用来评估所述广告的最终分数。广告商等级/分数和广告质量分数可以被传送到广告商以作为广告商反馈。

Description

广告拷贝质量检测及评分
背景技术
在线广告交易使得广告商从出版商处购买在线广告空间。出版商(内容和财产所有者)可以在每次点击付费的基础上或者在其他基础上拍卖广告空间,其中出版商对于显示广告所得到的价格取决于观看者对于广告的正面响应。一些广告可能含有语法错误的文本或者其他文本错误,从而阻碍观看者点击广告。
发明内容
提供本概要是为了以简化形式介绍将在下面的详细描述部分中进一步描述的概念的选择。本概要不意图标识出所要求保护的主题内容的关键或本质特征,也不意图被单独用来帮助确定所要求保护的主题内容的范围。
本发明的实施例利用来自语言模型的输出评估在线广告内的文本的质量。来自语言模型的输出可以被机器学习算法用来生成对应于一则单独广告的质量分数。可以在在线拍卖中过滤具有较差质量的文本的广告或者对其征税。广告质量分数还可以被用来对提交所述广告的广告商进行评级或评分。在一个实施例中,将广告商的质量分数与一则单独广告的质量分数组合,从而产生被用来评估所述广告的最终分数。广告商等级/分数和广告质量分数可以被传送到广告商以作为广告商反馈。
附图说明
下面将参照附图详细描述本发明的实施例,其中:
图1是适于实施本发明的实施例的示例性计算环境的方框图;
图2是根据本发明的一个实施例的适于检测广告内的文本质量的计算系统体系结构的图示;
图3是示出了根据本发明的一个实施例的被用来生成最终模型的各个组件的图示,其中所述最终模型生成对应于广告的质量分数;
图4是示出了根据本发明的一个实施例的针对广告生成质量分数的图示;
图5是示出了根据本发明的一个实施例的如何能够使用语言模型内的n元语法的分布来检测较差质量的广告文本的曲线图;
图6示出了根据本发明的一个实施例的文本性广告;
图7是示出了根据本发明的一个实施例的基于在线广告的文本确定所述在线广告的质量的方法的流程图;
图8是示出了根据本发明的一个实施例的基于在线广告的文本确定所述在线广告的质量的方法的流程图;以及
图9是示出了根据本发明的一个实施例的基于在线广告的文本来确定所述在线广告的质量的方法的流程图。
具体实施方式
质量分数可以被用来滤除具有较差文本质量的广告。质量分数还可以被用来对在线拍卖内的广告进行征税或惩罚。与未被征税的广告相比,在线拍卖中的征税可以导致广告商支付更多来展示广告或赢得拍卖。在非拍卖广告情境中,对具有较差文本质量的广告的评级可以低于具有良好文本质量的其他广告,并因此不太可能被显示。在另一个实施例中,在通过广告交易进行显示之前,具有处于一定范围内的质量分数的广告可以被指定进行编辑评论。
广告质量分数还可以被用来对提交广告的广告商进行评级或评分。在一个实施例中,将广告商的质量分数与一则单独广告的质量分数组合,从而产生被用来评估所述广告的最终分数。广告商等级/分数和广告质量分数可以被传送到广告商以作为广告商反馈。
相应地,在一个实施例中,在一个或更多计算机可读介质上具体实现有计算机可执行指令(所述计算机可执行指令是针对具有计算机可执行指令的一个或更多计算机可读介质而具体实现的),当由计算设备执行时,所述计算机可执行指令施行一种基于在线广告的文本确定所述在线广告的质量的方法。所述方法包括:接收包含文本的广告,将所述文本解析成一个或更多n元语法(n-grams),以及至少部分地基于所述一个或更多n元语法在语言模型内的出现频率生成对应于所述广告的质量分数。
在另一个实施例中涉及一种基于在线广告的文本来确定所述在线广告的质量的方法。所述方法包括:接收描述多则在线广告当中的每一则的质量的人类输入。所述方法还包括:利用来自多则广告的文本生成语言模型,其中所述语言模型允许确定n元语法在所述多则广告内的出现频率。所述方法包括:基于语言模型与人类输入的组合生成最终模型。所述方法还包括:利用最终模型计算对应于在线广告的质量分数。所述方法还包括:将质量分数与标识出所述质量分数被指派的在线广告的指示存储在一起。
在一个实施例中,在一个或更多计算机可读介质上具体实现有计算机可执行指令,当由计算设备执行时,所述计算机可执行指令施行一种基于在线广告的文本确定所述在线广告的质量的方法。所述方法包括:接收具有文本性标题和文本性描述的在线广告。所述方法还包括:利用机器学习算法为在线广告指派质量分数,其中所述机器学习算法是利用来自语言模型的输出和人类注释作为基本事实数据来训练的。所述方法还包括:将质量分数与标识出所述质量分数被指派的在线广告的指示存储在一起。
前面简要描述了本发明的实施例的总览,下面将详细描述适用于实施本发明的实施例的示例性操作环境。
示例性操作环境
总体上参照附图并且首先特别参照图1,用于实施本发明的实施例的示例性操作环境被示出并且总体上标记为计算设备100。计算设备100仅仅是适当的计算环境的一个例子,而不意图暗示关于本发明的使用或功能范围的任何限制。计算设备100也不应当被解释成关于所示出的任何组件或组件组合具有任何依赖性或要求。
本发明可以在计算机代码或机器可用指令的一般情境中来描述,其中包括诸如程序组件之类的计算机可执行指令,其由计算机或者诸如个人数据助理或其他手持式设备之类的其他机器来执行。一般来说,包括例程、程序、对象、组件、数据结构等等的程序组件指的是施行特定任务或实施特定抽象数据类型的代码。可以在多种系统配置中实践本发明的实施例,其中包括手持式设备、消费电子装置、通用计算机、专用计算设备等等。还可以在分布式计算环境中实践本发明的实施例,其中各项任务由通过通信网络链接在一起的远程处理设备施行。
继续参照图1,计算设备100包括总线110,其直接或间接地耦合以下设备:存储器112、一个或更多处理器114、一个或更多呈现组件116、输入/输出(I/O)端口118、I/O组件120以及说明性电源122。总线110可以表示一条或更多条总线(比如地址总线、数据总线或其组合)。虽然为了清楚起见用线条示出了图1的各个方框,但是在实际情况中对于各个组件的界定则没有这么明确,比方说所述线条更准确地将是灰色且模糊的。举例来说,可以把诸如显示设备之类的呈现组件视为I/O组件120。此外,处理器具有存储器。本发明的发明人认识到这正是本领域的特性,并且重申图1的图示仅仅是为了说明可以与本发明的一个或更多实施例相结合地使用的示例性计算设备。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等类别之间不做区分,因为所有这些类别都被设想到落在图1的范围内并且指的是“计算机”或“计算设备”。
计算设备100通常包括多种计算机存储介质。作为举例而非限制,计算机存储介质可以包括:随机存取存储器(RAM);只读存储器(ROM);电可擦写可编程只读存储器(EEPROM);闪存或其他存储器技术;紧致盘只读存储器(CDROM)、数字通用盘(DVD)或者其他光学或全息介质;磁盒、磁带、磁盘存储装置或其他磁性存储设备;或者能够被用来编码所期望的信息并且由计算设备100访问的任何其他介质。
存储器112包括采取易失性和/或非易失性存储器的形式的计算机存储介质。存储器112可以是可移除的、不可移除的或者其组合。示例性的存储器包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括一个或更多处理器114,其从诸如总线110、存储器112和/或I/O组件120之类的各种实体读取数据。(多个)呈现组件116为用户或其他设备呈现数据指示。示例性的呈现组件116包括显示设备、扬声器、打印组件、振动组件等等。I/O端口118允许计算设备100通过逻辑方式耦合到包括I/O组件120在内的其他设备,其中一些可以是内建的。说明性的I/O组件120包括麦克风、操纵杆、游戏手柄、碟形卫星信号收发天线、扫描仪、打印机、无线设备等等。
示例性系统体系结构
现在参照图2,其中示出了根据本发明的一个实施例的适于评估广告内的文本的示例性计算系统体系结构200。图2中所示的计算系统体系结构200是一种适当的计算系统体系结构200的一个例子。计算系统体系结构200运行在与参照图1描述的计算设备100类似的一个或更多计算设备上。计算系统体系结构200不应当被解释成关于其中所示出的任何单个模块/组件或者模块/组件的任何组合具有任何依赖性或要求。计算系统体系结构200包括广告数据存储库210、广告接收接口220、广告文本质量评分组件230、广告商评级组件240、广告商反馈组件250、广告递送引擎260以及编辑输入组件270。计算系统体系结构200可以是在线广告交易的一部分或者与之一起使用。在线广告交易帮助出版商向广告商销售广告空间。
广告数据存储库210存储多则在线广告。在线广告可以被显示在网页上或者通过其他电子媒介显示。搜索结果网页是可以在其上显示在线广告的网页的一个例子。可以通过与广告相关联的关键词以及与网页或文档相关联的关键词把在线广告匹配到适当的网页。搜索结果网页上的关键词可以是从搜索查询中的单词提取的,或者与搜索查询中的单词有关。在线广告可以是付费搜索结果。在线广告可以包括图形元素以及文本。
广告接收接口220接收来自广告商的广告。广告接收接口220可以提供图形用户接口,广告借以被上传到广告交易。广告接收接口220可以将广告传送到广告数据存储库210。广告接收接口220可以允许用户把关键词与广告相关联、提交针对广告空间的竞价以及规定针对显示广告的其他标准。
广告文本质量评分组件230基于广告内的文本为广告指派质量分数。可以将质量分数与广告相关联,并且将其存储在广告数据存储库210或单独的数据存储库(未示出)内以供后来使用。后面将更加详细地解释广告文本质量评分组件230的操作。简而言之,其利用机器学习算法评估广告内的文本,并且产生质量分数。所述机器学习算法使用来自语言模型的输出,其中所述语言模型是利用从随机广告样本取得的文本资料库(corpus)建立的。一般来说,所述机器学习算法可以对于包含在训练广告资料库内很少出现的单词或一系列单词的广告给出较低分数。来自语言模型的输出允许机器学习算法确定单词、短语和字符在广告内的出现频率。
广告商评级组件240为已经向广告交易提交了一则或更多则广告的广告商指派质量分数或质量等级。广告商的等级与被指派给由该广告商提交的广告的质量分数有关。在一个实施例中,广告商质量分数是被指派给由该广告商提交的各则广告的平均质量分数。
广告商反馈组件250将广告商反馈传送到广告商。广告商反馈可以是广告商的分数或者被指派给由该广告商提交的各则单独广告的质量分数。广告商反馈组件可以共享与响应于被指派给广告商的广告的质量分数而采取的动作有关的惩罚、征税或其他信息。广告商反馈组件250可以在广告由于低质量分数而被过滤时通知广告商。过滤掉的广告被禁止通过广告交易显示。
广告递送引擎260向可以通过广告交易获得的出版空间递送广告。广告递送引擎260可以使用多种方法来确定在特定情况下将把哪一则广告递送到特定广告空间。举例来说,部分地通过与网页中的广告相关联的关键词测量的广告对于网页的相关性可以确定要递送哪一则广告。由广告商针对在某一空间内显示其广告而提交的竞价价格是另一个因素。此外还可以考虑所述广告在所述空间内的性能或预期性能。在一个实施例中,使用质量分数来估计广告的预期性能。在一些广告交易中,广告商在每次点击付费(CPC)的基础上为显示广告而付费。换句话说,只有当观看者点击其广告时广告商才付费。在这种情况下,在赢得竞价时要考虑到将会点击广告的观看者的预期百分比。换句话说,与愿意为20%点击率支付每次点击5美元的竞价者相比,愿意为相同的20%点击率支付每次点击7美元的广告商将会获胜。一般来说,可以预期具有较低文本质量的广告会接收到来自观看者的较低点击百分比。在这种情况下,质量分数可以是被用来估计特定广告的预期性能的另一个因素。
在评估将要展示哪一则广告时,广告递送引擎260可以从广告数据存储库210或其他数据存储库中调取质量分数。在一个实施例中,其质量分数低于一定阈值的广告被广告递送引擎260排除递送。实际上,其质量分数低于阈值的广告被过滤掉。在一个实施例中,质量分数可以被用来确定在其上递送多则广告的页面上展示某一广告的位置。换句话说,可以为具有高质量分数的广告给出页面顶部的位置,同时为具有低质量分数的广告给出页面底部的较不理想的位置。
编辑输入组件270便于接收描述广告质量的人类输入。人类输入可以被用作由广告文本质量评分组件230所使用的机器学习算法内的训练数据。所述输入还可以被用来调节由于为广告指派的质量等级落在指定范围之内而被指定进行编辑评论的所述广告的质量等级。
在一个实施例中,编辑输入组件270生成向用户显示广告的接口。所述接口允许用户提供对应于广告的总体质量分数。在一个实施例中,质量分数是1、2、3、4或5的等级。所述接口还允许用户选择文本的各个部分并且将该文本部分与特定缺陷相关联。缺陷的例子包括拼写错误、语法错误、多余大写、费解文本、句子残缺、文本截断、语义错误以及其他缺陷。编辑输入组件270收集用户数据并且将所述数据作为训练数据提交给机器学习算法。
现在参照图3,其中示出了说明根据本发明的一个实施例的生成对广告中的文本进行评分的最终模型的图示。最终模型340可以是基于机器学习算法。一般来说,机器学习算法基于被提供给该算法的数据自动学习辨识复杂模式。一旦识别出训练数据中的模式之后,就可以对新的输入进行评估以确定新输入是否与已知模式相匹配。最终模型被训练成辨识广告文本当中的与文本质量相关的模式。基于在广告文本中辨识出的模式生成质量分数。可以被用在本发明的实施例中的机器学习算法的例子包括支持矢量机、神经网络和贝叶斯网络。
广告贮存库310存储包含文本的一组在线广告。广告贮存库310可以类似于前面参照图2描述的广告数据存储库210。来自广告贮存库310中的广告的文本构成文本资料库,其被用来建立提供用在最终模型340中的输出的语言模型320。语言模型320可以被用来确定一则广告的文本内的特定单词、字符或短语在广告贮存库310内的所有广告内的出现频率。语言模型是从已有的广告资料库建立的,并且应用统计阈值来识别落在各个类别中的广告。统计n元语法语言模型借助于概率分布为来自广告资料库的由m个单词构成的序列指派概率。
在n元语法模型中,观测到句子w1,...,wm的概率被近似为:
在这里假设在前面的i-1个单词的上下文历史中观测到第i个单词wi的概率可以通过在前n-1个单词的缩短的上下文历史中观测到该单词的概率来近似。二元语法和三元语法分别表示n=2和n=3的n元语法语言模型。可以从n元语法频率计数计算条件概率:
频繁地出现的短语可以代表良好的广告文本。在资料库内很少出现的项目或者完全没有出现的项目可以表明拼写错误或其他问题。可以使用平滑方法来应对在广告文本资料库中完全没有出现的项目。在一个实施例中,使用拉普拉斯加性平滑来应对没有出现在资料库中的n元语法。在一个实施例中,未知的n元语法被存储在字典中以供后来评估。被多次放置在字典中的n元语法可以被自动添加到资料库。
对于广告贮存库310内的广告的随机选择可以被用来生成训练数据330。收集训练数据330涉及接收来自广告的人类观看者的编辑意见。两种类型的反馈构成训练数据330。训练数据330可以包括由人类观看者为广告提供的总体质量分数以及在文本中找到的各个单独的错误。可以把训练数据330与来自语言模型320的输出相组合,以便建立最终模型340。还可以把试探性规则322合并到最终模型340中以作为后处理步骤或者作为机器学习算法的一部分。试探性规则的一个例子是把具有两个邻接介词(这是在广告拷贝中发现的常见错误)的广告拷贝标记为较差质量。举例来说,“Buy books on at Bookstore(在书店上处买书)”被预期是较差质量,这是因为其包含彼此邻接的两个介词“on”和“at”。
当训练数据330与来自语言模型320的输出相组合时,允许机器学习算法基于广告文本内的项目和短语对包括来自语言模型的频率分数的预测性变量进行不同地加权。举例来说,如果某一项目频繁出现但是常常与接收到较差总体分数的广告相关联,则在广告中包括所述项目将促成较低质量分数。一旦建立了最终模型340之后,新的广告或者广告贮存库310内的已有广告可以利用最终模型接收质量分数。
现在参照图4,其中示出了说明根据本发明的一个实施例的生成对应于广告的质量分数的图示。最初,广告420由广告文本质量组件430接收。广告文本质量组件430生成对应于广告420中的广告文本的质量分数432。如前所述,广告文本质量组件430使用例如最终模型340之类的机器学习算法生成质量分数432。在不同的实施例中,广告文本质量组件430可以把质量分数432传送到不同组件。
在一个实施例中,质量分数432被发送到广告数据存储库410以便与广告420相关联。虽然没有示出,广告420可能先前已被添加到广告数据存储库410,或者可以在将质量分数432发送到广告数据存储库的同时被添加。在一个实施例中,当广告质量分数有歧义或者低于代表假定是较差文本质量的特定阈值时,所述广告被指定接收编辑意见。所述广告被发送到编辑输入组件470。编辑输入组件470接收对特定广告进行评级的人类输入472。在一个实施例中,人类输入472可以被馈送到机器学习算法中以作为附加的训练数据。在另一个实施例中,编辑输入组件470被用来生成经过修订的质量分数474。经过修订的质量分数474可以被发送到广告数据存储库410。
一旦广告和分数432或分数474处于广告数据存储库410中,其就可以被若干其他组件使用。在一个实施例中,广告递送组件460接收带有分数的广告462并且将广告464递送到出版商。广告递送组件460可以类似于前面参照图2描述的广告递送组件260。广告递送组件460可以使用质量分数432来过滤或防止显示其质量分数低于一定阈值分数的广告。在另一个实施例中,广告递送组件460根据所述分数对广告进行惩罚,或者以其他方式使用所述分数来对在特定空间内显示的广告的适当性进行评级。换句话说,广告递送组件460可以基于低质量分数降低广告的相关性或优先级,并且可以提高具有高质量分数的广告的相关性或优先级。在另一个实施例中,广告递送组件460对将要展示的广告464收取额外费用。换句话说,所述广告商与提交了具有更高质量分数的广告的其他广告商相比将需要支付更多费用以便显示广告。所述额外费用的数量可以是基于质量分数。
广告商评级组件440也可以从广告数据存储库410取得带有分数的广告数据442。广告商评级组件440可能不需要广告本身来对广告商进行评级。广告数据可以包括关于广告的描述、提交该广告的广告商以及与特定广告相关联的分数。广告商评级组件440基于与广告商所提交的广告相关联的分数生成广告商等级。在一个实施例中,广告商等级是基于被指派给由该广告商提交的广告的平均质量分数。可以将广告商等级444发送到广告商反馈组件450。广告商反馈组件450可以把广告商等级传送到广告商。虽然没有示出,但是广告商反馈组件450还可以共享被指派给特定广告的各个单独的广告分数,从而广告商可以改进其广告质量或者至少理解其广告为何接收到特定质量等级。
广告商等级444还可以被传送到广告递送组件460。可以把广告商等级444与广告的分数相结合地使用,以便确定对于特定广告应当采取什么动作。举例来说,如果广告具有低质量分数并且广告商等级相当低,则广告递送组件460可以选择完全阻断所述广告。另一方面,如果具有高等级的广告商提交了具有低分数的广告,则广告递送组件可以选择仅仅降低该特定广告的评级分数,而不完全过滤该广告。此外,用以计算征税、惩罚或等级调节的各种公式可以除了广告分数之外还能够合并广告商等级444。
现在参照图5,其中示出了说明根据本发明的实施例的如何能够把语言模型内的n元语法的分布510使用来检测较差质量广告文本的曲线图500。如前所述,来自语言模型的输出可以被用作去到机器学习算法的输入,其中所述机器学习算法被用来生成对应于广告文本的质量分数。语言模型部分地允许确定特定n元语法或n元语法系列的出现频率。n元语法可以是一系列字符、单词或短语。曲线图500示出了被用来建立语言模型的广告文本资料库内的n元语法的分布。
一般来说,具有出现频率高于高频阈值530的n元语法的广告可能过于泛化并且表明较差质量的广告。相反,其出现频率低于低频阈值520的n元语法或一系列n元语法可以表明文本性错误、拼写错误或者可能表明较差质量的不寻常使用。因此,n元语法出现在语言模型内的频率可能与广告的总体质量分数强烈相关。如前所述,来自语言模型的输出可能不是去到计算质量分数的机器学习算法的唯一输入。频率阈值520和530可以由机器学习算法基于训练数据确定。
现在参照图6,其中示出了文本性广告600。文本性广告600是替代广告的一个例子,其中来自搜索查询或网页的关键词被替代到广告文本中。在该例中“digital cameras(数码相机)”是关键词,并且被替代到标题610中一次以及被替代到描述620中两次。声明“digital cameras at for sale!(数码相机处于正在促销!)”的描述部分在句法上很别扭,并且可能生成低质量分数。在一个实施例中,机器学习算法可以访问静态专有名词字典。所述专有名词特别包括名人和地理位置。通过用这些专有名词例如替代广告600中的“digital cameras(数码相机)”将导致甚至更差质量的广告。因此,机器学习算法可以把任何这些具体的人或地点和单词“buy(购买)”与较差质量广告相关联。
现在参照图7,其中示出了说明根据本发明的一个实施例的基于在线广告的文本确定所述在线广告的质量的方法700的流程图。在线广告可以是显示在在线网页或其他其他文档上的广告。在步骤710中,接收包含文本的在线广告。在线广告可以是接收自广告商,所述广告商正把该广告放置到在线广告交易中以便在所参与的出版商的广告空间上进行展示。在另一个实施例中,在线广告是接收自在线广告数据存储库,所述在线广告数据存储库正存储先前由广告交易接收到的广告。
在步骤720中,将在线广告内的文本解析成一个或更多n元语法。n元语法可以是字符、字符组、单词或者单词组。所述n元语法还可以被建立成在单词与标点之间包括空格。具有一个分量的n元语法可以被称作一元语法,具有两个分量的n元语法可以被称作二元语法,并且具有三个分量的n元语法可以被称作三元语法。在一个实施例中,将文本解析成一个或更多三元语法,但是本发明的实施例不限于使用三元语法。
在步骤730中,针对广告生成质量分数。所述质量分数可以是至少部分地基于所述一个或更多n元语法在语言模型内的出现频率。来自语言模型的输出可以是针对机器学习算法的输入,所述机器学习算法最终被用来生成质量分数。来自语言模型的输出可以是针对机器学习算法的几项输入的其中之一。其他输入包括通过由观看者对广告内的文本质量进行评级并且指出各种文本性缺陷而生成的训练数据。其他试探法也可以被输入到机器学习算法。在一个实施例中,所述质量分数是基于所述一个或更多n元语法当中的每一个在语言模型内的出现频率的总和。
正如前面参照图5所解释的那样,很少出现的n元语法可以表明文本性问题并且导致低质量分数。类似地,极为频繁地出现的n元语法可以表明泛化广告,比如“buy digitalcameras(购买数码相机)”。人类训练数据也可以被称作由用户提供的注释或编辑注释。如前所述,可以在广告交易内通过多种方式来利用质量分数。举例来说,可以过滤具有低质量分数的广告。在另一个例子中,降低具有低分数的广告的优先级或拍卖评级,从而更有可能显示具有更高质量分数的其他广告。
现在参照图8,其中示出了根据本发明的一个实施例的基于在线广告的所显示的文本确定所述在线广告的质量的方法800。在一个实施例中,方法800发生在在线广告交易的情境中。在步骤810中,接收描述多则在线广告当中的每一则的质量的人类输入。所述人类输入可以是描述一则单独的在线广告内的文本的总体质量的注释。在另一个实施例中,人类输入是关于具体缺陷的注释,比如一则广告内的文本的特定部分内的拼写或语法错误。在只具有一个或两个单词的广告中,可以把全部文本描述为较差质量。人类输入可以被用作针对机器学习算法的训练数据。
在步骤820中,利用多则广告(即广告资料库)生成语言模型。在一个实施例中,利用由在线广告交易访问的广告数据存储库中的所有广告生成语言模型。语言模型允许确定n元语法在所述多则广告内的出现频率。如前所述,n元语法可以是单词或单词系列。语言模型将允许确定特定单词或单词系列在全部多则广告内的出现频率。如前所述,频繁出现的单词可以表明泛化广告,并且最终导致低质量分数。很少出现的n元语法可以表明文本内的问题。
在步骤830中,基于语言模型与人类输入的组合生成最终模型。最终模型可以使用例如串联矢量机之类的机器学习算法。在步骤840中,利用最终模型计算对应于在线广告的质量分数。在步骤850中,将所述质量分数与标识出该质量分数被指派的该在线广告的指示一起存储。如前所述,可以利用质量分数采取各种动作,其中包括基于质量分数过滤广告以及调节广告的等级。此外,质量分数可以被用来将广告商等级指派给提交所述广告的广告商。在一个实施例中,广告商的等级是被指派给由该广告商提交的广告的平均质量分数。
现在参照图9,其中示出了根据本发明的一个实施例的基于在线广告的文本确定所述在线广告的质量的方法900。在步骤910中,接收具有文本性标题和文本性描述的在线广告。如前所述,可以在在线广告被提交到在线广告交易之后不久接收所述在线广告,或者可以从数据存储库内的一组先前提交的在线广告当中提取所述在线广告。在步骤920中,利用最终模型为在线广告指派质量分数。所述质量分数是基于为标题内的文本和描述内的文本给出不同权重的计算。举例来说,与描述相比,标题更有可能是泛化的。相应地,在生成质量分数时,在标题内频繁出现的n元语法或单词不大可能作为泛化而受到惩罚。在步骤930中,将质量分数与标识出该质量分数被指派的在线广告的指示一起存储。
前面描述的本发明的实施例是说明性而非限制性的。应当理解的是,某些具有实用性的特征和子组合可以在不涉及其他特征和子组合的情况下而被采用。这一点在所附权利要求书的范围内被设想到。

Claims (15)

1.一种基于在线广告的文本确定所述在线广告的质量的方法,所述方法包括:
接收包含文本的广告;
解析所述文本以生成一个或更多n元语法;以及
至少部分地基于来自所述广告的所述一个或更多n元语法与来自语言模型内作为广告资料库的多个广告的n元语法相匹配的频率生成对应于所述广告的质量分数,所述语言模型是使用来自所述作为广告资料库的多个广告中的文本建立的,其中,所述语言模型允许确定n元语法在所述作为广告资料库的多个广告内的出现频率。
2.根据权利要求1所述的方法,其中,所述质量分数是基于所述一个或更多n元语法当中的每一个在语言模型内的出现频率的总和。
3.根据权利要求1所述的方法,其中,所述方法还包括:利用机器学习算法生成质量分数,其中所述机器学习算法使用来自语言模型的输出。
4.根据权利要求1所述的方法,其中,所述方法还包括:利用机器学习算法生成质量分数,其中所述机器学习算法使用来自语言模型的输出以及与特定的n元语法或n元语法序列相关联的人类注释数据。
5.根据权利要求1所述的方法,其中,所述方法还包括:防止显示其质量分数低于一定阈值分数的广告。
6.一种基于在线广告的文本确定该在线广告的质量的方法,所述方法包括:
接收描述多则在线广告当中的每一则的质量的人类输入;
利用来自作为广告资料库的多则广告的文本生成语言模型,其中所述语言模型允许确定n元语法在所述作为广告资料库的多则广告内的出现频率;
基于语言模型与人类输入的组合生成最终模型;
至少部分地基于在在线广告中出现的一个或更多n元语法与最终模型内作为广告资料库的多则广告中出现的n元语法相匹配的频率计算对应于该在线广告的质量分数;以及
将所述质量分数与标识出该质量分数被指派的该在线广告的指示一起存储。
7.根据权利要求6所述的方法,其中,所述人类输入描述广告的总体质量。
8.根据权利要求6所述的方法,其中,所述方法还包括:把针对显示在线广告的收费价格提高一定额外费用,其中对应于每一则在线广告的额外费用是根据对应于所述在线广告的相应质量分数来计算的。
9.根据权利要求8所述的方法,其中,所述额外费用还是基于广告商质量分数,其中所述广告商质量分数是基于被指派给由该广告商提交的广告的广告质量分数来计算的。
10.根据权利要求6所述的方法,其中,所述方法还包括:指定其质量分数处于指定范围内的广告以给出编辑意见。
11.根据权利要求6所述的方法,其中,当从在线广告内的文本导出的n元语法在被用来建立语言模型的所述多则广告内很少出现时,所述质量分数表明较低质量的文本。
12.一种基于在线广告的文本确定所述在线广告的质量的方法,所述方法包括:
接收具有文本性标题和文本性描述的在线广告;
根据多个广告中的文本,生成语言模型,所述语言模型允许确定n元语法在所述在线广告和多个广告之间出现匹配的频率;
利用机器学习算法,至少部分地基于在所述在线广告中出现的一个或更多n元语法与所述语言模型内的所述多个广告中出现的n元语法相匹配的频率,为所述在线广告指派质量分数,其中所述机器学习算法是利用来自所述语言模型的输出来训练的;以及
将所述质量分数与标识出该质量分数被指派的在线广告的指示一起存储。
13.根据权利要求12所述的方法,其中,所述方法还包括:
接收关于多则在线广告当中的每一则的质量的人类输入;以及
基于来自语言模型的输出与人类输入的组合训练所述机器学习算法。
14.根据权利要求13所述的方法,其中,所述人类输入描述归因于在线广告内的文本的一个或更多部分的具体缺陷。
15.根据权利要求12所述的方法,其中,所述方法还包括:根据对应于在线广告的相应质量分数和广告商质量分数提高针对显示所述在线广告的收费价格,其中所述广告商质量分数是基于被指派给由广告商提交的多则广告的广告质量分数来计算的。
CN201180029775.6A 2010-06-17 2011-06-01 广告拷贝质量检测及评分 Active CN102934138B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US12/817,928 2010-06-17
US12/817,928 US9177333B2 (en) 2010-06-17 2010-06-17 Ad copy quality detection and scoring
US12/817928 2010-06-17
PCT/US2011/038737 WO2011159470A2 (en) 2010-06-17 2011-06-01 Ad copy quality detection and scoring

Publications (2)

Publication Number Publication Date
CN102934138A CN102934138A (zh) 2013-02-13
CN102934138B true CN102934138B (zh) 2017-04-19

Family

ID=45329499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180029775.6A Active CN102934138B (zh) 2010-06-17 2011-06-01 广告拷贝质量检测及评分

Country Status (4)

Country Link
US (1) US9177333B2 (zh)
EP (1) EP2583229A4 (zh)
CN (1) CN102934138B (zh)
WO (1) WO2011159470A2 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706738B2 (en) * 2010-08-13 2014-04-22 Demand Media, Inc. Systems, methods and machine readable mediums to select a title for content production
US8682720B1 (en) * 2010-12-30 2014-03-25 Google Inc. Selection and display of online advertisements
US10204362B2 (en) * 2012-02-08 2019-02-12 Ebay Inc. Marketplace listing analysis systems and methods
KR101984823B1 (ko) 2012-04-26 2019-05-31 삼성전자주식회사 웹 페이지에 주석을 부가하는 방법 및 그 디바이스
US9767157B2 (en) 2013-03-15 2017-09-19 Google Inc. Predicting site quality
US20140280239A1 (en) * 2013-03-15 2014-09-18 Sas Institute Inc. Similarity determination between anonymized data items
US11113729B2 (en) * 2015-06-22 2021-09-07 Xandr Inc. Real-time online advertisement type overrides
US20170076318A1 (en) * 2015-09-16 2017-03-16 Microsoft Technology Licensing, Llc Enhanced content quality using content features
US11113714B2 (en) * 2015-12-30 2021-09-07 Verizon Media Inc. Filtering machine for sponsored content
US20170213235A1 (en) * 2016-01-25 2017-07-27 Rise Interactive Media & Analytics, LLC Interactive Data-Driven Graphical User Interfaces for Managing Advertising Performance
FI20165240A (fi) 2016-03-22 2017-09-23 Utopia Analytics Oy Menetelmä, järjestelmä ja väline sisällön moderointiin
US10810627B2 (en) * 2016-08-10 2020-10-20 Facebook, Inc. Informative advertisements on hobby and strong interests feature space
US10937057B2 (en) 2016-10-13 2021-03-02 Rise Interactive Media & Analytics, LLC Interactive data-driven graphical user interface for cross-channel web site performance
CN108234413A (zh) * 2016-12-15 2018-06-29 北京奇虎科技有限公司 广告流量质量的确定方法、装置及广告平台
CN108304365A (zh) 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
US10896239B1 (en) * 2018-03-01 2021-01-19 Facebook, Inc. Adjusting quality scores of external pages based on quality of associated content
US11295237B2 (en) 2018-12-14 2022-04-05 Zeta Global Corp. Smart copy optimization in customer acquisition and customer management platforms
KR102249917B1 (ko) * 2020-06-11 2021-05-10 (주) 알트소프트 콘텐츠 확보가 가능한 정보 제공 서비스 시스템
US20230306408A1 (en) * 2022-03-22 2023-09-28 Bank Of America Corporation Scribble text payment technology

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792846B1 (en) * 2007-07-27 2010-09-07 Sonicwall, Inc. Training procedure for N-gram-based statistical content classification

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295996B2 (en) 2001-11-30 2007-11-13 Skinner Christopher J Automated web ranking bid management account system
US20050021397A1 (en) 2003-07-22 2005-01-27 Cui Yingwei Claire Content-targeted advertising using collected user behavior data
US20050165642A1 (en) * 2002-05-07 2005-07-28 Gabriel-Antoine Brouze Method and system for processing classified advertisements
US8050970B2 (en) 2002-07-25 2011-11-01 Google Inc. Method and system for providing filtered and/or masked advertisements over the internet
US7359851B2 (en) 2004-01-14 2008-04-15 Clairvoyance Corporation Method of identifying the language of a textual passage using short word and/or n-gram comparisons
US8620742B2 (en) * 2004-03-31 2013-12-31 Google Inc. Advertisement approval
US20060069613A1 (en) * 2004-09-29 2006-03-30 Microsoft Corporation System for partial automation of content review of network advertisements
US9558498B2 (en) * 2005-07-29 2017-01-31 Excalibur Ip, Llc System and method for advertisement management
US7827060B2 (en) 2005-12-30 2010-11-02 Google Inc. Using estimated ad qualities for ad filtering, ranking and promotion
US20070156887A1 (en) 2005-12-30 2007-07-05 Daniel Wright Predicting ad quality
US20070255690A1 (en) 2006-04-28 2007-11-01 Chi-Chao Chang System and method for forecasting the performance of advertisements
US7571145B2 (en) * 2006-10-18 2009-08-04 Yahoo! Inc. Social knowledge system content quality
US20080103893A1 (en) 2006-10-30 2008-05-01 Yahoo! Inc. System and method for generating forecasted bids for advertisement keywords
US7552045B2 (en) 2006-12-18 2009-06-23 Nokia Corporation Method, apparatus and computer program product for providing flexible text based language identification
KR100910518B1 (ko) 2007-08-28 2009-07-31 엔에이치엔비즈니스플랫폼 주식회사 품질지수를 보정하고, 보정된 품질지수를 이용하여 광고를제공하는 방법 및 시스템
US20090254414A1 (en) * 2008-04-07 2009-10-08 Michael Schwarz Method and system for managing advertisement quality of sponsored advertisements
US8527339B2 (en) 2008-06-26 2013-09-03 Microsoft Corporation Quality based pricing and ranking for online ads

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7792846B1 (en) * 2007-07-27 2010-09-07 Sonicwall, Inc. Training procedure for N-gram-based statistical content classification

Also Published As

Publication number Publication date
US9177333B2 (en) 2015-11-03
US20110313865A1 (en) 2011-12-22
WO2011159470A2 (en) 2011-12-22
WO2011159470A3 (en) 2012-04-05
EP2583229A2 (en) 2013-04-24
CN102934138A (zh) 2013-02-13
EP2583229A4 (en) 2016-04-27

Similar Documents

Publication Publication Date Title
CN102934138B (zh) 广告拷贝质量检测及评分
AU2009229120B2 (en) Automatic customization and rendering of ads based on detected features in a web page
US8463688B2 (en) Researching exchange-listed products using sentiment
CN112631997B (zh) 数据处理方法、装置、终端及存储介质
WO2016197854A1 (zh) 业务对象信息处理、凭证信息处理方法及装置
Oliveira et al. Some experiments on modeling stock market behavior using investor sentiment analysis and posting volume from Twitter
Airey Identity designed: The definitive guide to visual branding
CN108256098A (zh) 一种确定用户评论情感倾向的方法及装置
CN108269125A (zh) 评论信息质量评估方法及系统、评论信息处理方法及系统
US11126783B2 (en) Output apparatus and non-transitory computer readable medium
US20160335250A1 (en) User warnings for content items projected to underperform
CN102880696A (zh) 广告放置
CN107563820A (zh) 微博表现的评估方法与装置
Winestock et al. An analysis of the smartphone dictionary app market
US11978116B2 (en) Data display method and apparatus, terminal device, and storage medium
Kent Pay per click search engine marketing for dummies
CN108596675A (zh) 广告推送方法及装置
KR20220118703A (ko) 머신러닝 기반 온라인 쇼핑 리뷰 감정 예측 시스템 및 방법
KR102144832B1 (ko) 창작물 통합 관리 서버
CN108256881A (zh) 一种流量过滤方法和装置
KR20200089566A (ko) 광고 장치 및 이를 이용한 광고 타겟팅 방법
Ghaffari Using sentiment analysis on tweets to assess its usefulness for price and pur-chase signal estimation: A case study of an NFT artwork
KR20180108441A (ko) 광고 url이 포함된 견적서 생성 시스템
JP7456145B2 (ja) 提供装置、提供方法、及びプログラム
WO2019058620A1 (ja) 運用支援装置、運用支援方法、運用支援プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1179029

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150608

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150608

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1179029

Country of ref document: HK