CN111859892B - 广告文案模板的抽取方法、装置、设备及计算机存储介质 - Google Patents

广告文案模板的抽取方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN111859892B
CN111859892B CN202010761363.2A CN202010761363A CN111859892B CN 111859892 B CN111859892 B CN 111859892B CN 202010761363 A CN202010761363 A CN 202010761363A CN 111859892 B CN111859892 B CN 111859892B
Authority
CN
China
Prior art keywords
advertisement
document
template
weighted similarity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010761363.2A
Other languages
English (en)
Other versions
CN111859892A (zh
Inventor
彭欣宇
李百川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN202010761363.2A priority Critical patent/CN111859892B/zh
Publication of CN111859892A publication Critical patent/CN111859892A/zh
Application granted granted Critical
Publication of CN111859892B publication Critical patent/CN111859892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0276Advertisement creation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种广告文案模板的抽取方法、装置、设备及计算机存储介质,该方法包括:获取待识别广告中的至少一个广告文案;若所述待识别广告中包含至少两个广告文案,将每一个所述广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案;其中,所述目标词为有上位词的词;计算每两个所述替换后的广告文案的编辑距离加权相似性,并对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板。以达到快速的从广告的多个文案里面抽取出文案模板的目的。

Description

广告文案模板的抽取方法、装置、设备及计算机存储介质
技术领域
本申请涉及移动互联网技术领域,特别涉及一种广告文案模板的抽取方法、装置、设备及计算机存储介质。
背景技术
目前,随着互联网的普及,网络成为了我们生活、工作中不可或缺的一部分,这使得依附于互联网的行业都得到了快速的发展,各种互联网行业的广告也应运而生。随着广告的数量越来越多,因此,需要广告的多个文案里面抽取出文案模板,以确定出广告类型,以便后续针对不同用户进行不同的广告投放。
然而,现有技术中对广告中的文案模板进行抽取的方式,主要借鉴信息抽取的方法,通过对人工对文本进行替换、或者对共同子串进行拼接等,十分的耗时耗力。
因此,亟需一种可以快速的从广告的多个文案里面抽取出文案模板的方法。
发明内容
有鉴于此,本申请提供一种广告文案模板的抽取方法、装置、设备及计算机存储介质,用于快速的从广告的多个文案里面抽取出文案模板。
本申请第一方面提供了一种广告文案模板的抽取方法,包括:
获取待识别广告中的至少一个广告文案;
若所述待识别广告中包含至少两个广告文案,将每一个所述广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案;其中,所述目标词为有上位词的词;
计算每两个所述替换后的广告文案的编辑距离加权相似性,并对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板。
可选的,所述计算每两个所述替换后的广告文案的编辑距离加权相似性,包括:
根据每两个所述替换后的广告文案的字符串的长度,计算得到每两个所述替换后的广告文案的编辑距离加权相似性。
可选的,所述根据每两个所述替换后的广告文案的字符串的长度,计算得到每两个所述替换后的广告文案的编辑距离加权相似性,包括:
利用预设的编辑距离加权相似性计算公式,计算得到每两个所述替换后的广告文案的编辑距离加权相似性;其中,所述预设的编辑距离加权相似性计算公式为:
X=a*Jaro similarity+b*levenshtein ratio;
其中,a、b为预先设置的权重;S1表示两个替换后的广告文案其中一个的字符串的长度,S2表示两个替换后的广告文案中另一个广告文案的字符串长度;m表示两个字符串的匹配的字符数;t表示换位数目调换的一半;levenshtein ratio=(sum-ldist)/sum;sum是指两个字串的长度总和,ldist是类编辑距离。
可选的,所述对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板,包括:
判断所述编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性是否大于阈值;
若判断出,所述编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性大于阈值,将第一文案与第二文案中相同的字串进行拼接,不同的字串用预设符号替换,得到文案模板;其中,所述编辑距离加权相似性最高的两个广告文案中的其中一个广告文案为所述第一文案,另一个广告文案为所述第二文案。
可选的,所述对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板之后,还包括:
将所述文案模板生成正则式,得到正则化形式的文案模板。
可选的,所述若所述待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案之前,还包括:
判断正式的正则化形式的模板中,是否存在有与所述待识别广告中的广告文案相匹配的正则化形式的模板;
若判断出所述正式的正则化形式的模板中,存在有与所述待识别广告中的广告文案相匹配的正则化形式的模板,则输出所述正则化形式的模板对应的文案模板;
若判断出所述正式的正则化形式的模板中,没有与所述待识别广告中的广告文案相匹配的正则化形式的模板,则执行所述若待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案。
可选的,所述广告文案模板的抽取方法,还包括:
若所述待识别广告中只有一个广告文案,则确认所述待识别广告没有文案模板。
本申请第二方面提供了一种广告文案模板的抽取装置,包括:
获取单元,用于获取待识别广告中的至少一个广告文案;
替换单元,用于若所述待识别广告中包含至少两个广告文案,将每一个所述广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案;其中,所述目标词为有上位词的词;
计算单元,用于计算每两个所述替换后的广告文案的编辑距离加权相似性;
抽取单元,用于对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板。
可选的,所述计算单元,包括:
编辑距离加权相似性计算单元,用于根据每两个所述替换后的广告文案的字符串的长度,计算得到每两个所述替换后的广告文案的编辑距离加权相似性。
可选的,所述编辑距离加权相似性计算单元,包括:
编辑距离加权相似性子单元,用于利用预设的编辑距离加权相似性计算公式,计算得到每两个所述替换后的广告文案的编辑距离加权相似性;其中,所述预设的编辑距离加权相似性计算公式为:
X=a*Jaro similarity+b*levenshtein ratio;
其中,a、b为预先设置的权重;S1表示两个替换后的广告文案其中一个的字符串的长度,S2表示两个替换后的广告文案中另一个广告文案的字符串长度;m表示两个字符串的匹配的字符数;t表示换位数目调换的一半;levenshteinratio=(sum-ldist)/sum;sum是指两个字串的长度总和,ldist是类编辑距离。
可选的,所述抽取单元,包括:
第一判断单元,用于判断所述编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性是否大于阈值;
抽取子单元,用于若所述第一判断单元判断出,所述编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性大于阈值,将第一文案与第二文案中相同的字串进行拼接,不同的字串用预设符号替换,得到文案模板;其中,所述编辑距离加权相似性最高的两个广告文案中的其中一个广告文案为所述第一文案,另一个广告文案为所述第二文案。
可选的,所述广告文案模板的抽取装置,还包括:
正则生成单元,用于将所述文案模板生成正则式,得到正则化形式的文案模板。
可选的,所述广告文案模板的抽取装置,还包括:
第二判断单元,用于判断正式的正则化形式的模板中,是否存在有与所述待识别广告中的广告文案相匹配的正则化形式的模板;
输出单元,用于若所述第二判断单元判断出,所述正式的正则化形式的模板中,存在有与所述待识别广告中的广告文案相匹配的正则化形式的模板,则输出所述正则化形式的模板对应的文案模板;
执行单元,用于若所述第二判断单元判断出,所述正式的正则化形式的模板中,没有与所述待识别广告中的广告文案相匹配的正则化形式的模板,则激活所述替换单元执行所述若待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案。
可选的,所述广告文案模板的抽取装置,还包括:
确认单元,用于若所述待识别广告中只有一个广告文案,则确认所述待识别广告没有文案模板。
本申请第三方面提供了一种设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面任意一项所述的方法。
本申请第四方面提供了一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如第一方面任意一项所述的方法。
由以上方案可知,本申请提供的一种广告文案模板的抽取方法、装置、设备及计算机存储介质中,该方法包括:首先,获取待识别广告中的至少一个广告文案;若所述待识别广告中包含至少两个广告文案,将每一个所述广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案;其中,所述目标词为有上位词的词;然后,计算每两个所述替换后的广告文案的编辑距离加权相似性,最终,对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板。以达到快速的从广告的多个文案里面抽取出文案模板的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种广告文案模板的抽取方法的具体流程图;
图2为本申请另一实施例提供的一种广告文案模板的抽取方法的具体流程图;
图3为本申请另一实施例提供的一种广告文案模板的抽取方法的具体流程图;
图4为本申请另一实施例提供的一种广告文案模板的抽取装置的示意图;
图5为本申请另一实施例提供的一种抽取单元的示意图;
图6为本申请另一实施例提供的一种广告文案模板的抽取装置的示意图;
图7为本申请另一实施例提供的一种执行广告文案模板的抽取方法的设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系,而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种广告文案模板的抽取方法,如图1所示,具体包括以下步骤:
S101、获取待识别广告中的至少一个广告文案。
其中,广告文案可以包括但不限于广告标题、副标题、正文等。
具体的,在获取得到待识别广告后,识别得到待识别广告中的每一个广告文案。
S102、若待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与目标词对应的上位词,得到替换后的广告文案。
其中,目标词为有上位词的词。例如,苹果的上位词为水果,广州的上位词为地域,薯片的上位词为零食,电视的上位词为家电等。
需要说明的是,目标词对应的上位词,可以是预先设定的,也就是说上述的电视的上位词可以不是家电,也可以是电子设备等。即目标词可以是人工打上标签的词,即人工进行设定的包含对应关系的词。具体的,可以通过提前预设一个词语的对应关系表,当待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与词语的对应关系表所记载的对应的的词。
现对本步骤进行举例说明,如一个广告中的一个文案为“这个东西,广州卖疯了”,其中,广州具有上位词,或广州在预设的词语的对应关系表中存在对应的词,那么将广州替换成广州的上位词或广州在预设的词语的对应关系表中存在对应的词,例如:地域。那么替换后的广告文案为“这个东西,地域卖疯了”。
当然,在实际的应用过程中,一个广告中的一个文案中,可能存在多个词具有上位词,现以有两个词具有上位词进行举例说明:一个广告中的一个文案为“夏季炎热,冰激凌在深圳卖疯了”,其中,冰激凌具有上位词,或冰激凌在预设的词语的对应关系表中存在对应的词,以及深圳具有上位词,或深圳在预设的词语的对应关系表中存在对应的词,那么将每一个广告文案中的目标词,替换成其对应的上位词,或与词的对应关系表所记载的对应的的词。例如,冰激凌对应的词为甜品,深圳对应的词为地域,那么替换后的广告文案为“夏季炎热,甜品在地域卖疯了”。
可选的,在本申请的另一实施例中,在步骤S102之前的一种实施方式,包括:
若待识别广告中只有一个广告文案,则确认待识别广告没有文案模板。
需要说明的是,一个广告通常会有多个文案,如果只有一个文案时,那么此时就无法进行判断该文案是否存在文案模板,因此在本申请中,若待识别广告中只有一个广告文案,则确认待识别广告没有文案模板。
可选的,在本申请的另一实施例中,在步骤S102之前的一种实施方式,如图2所示,还包括:
S201、判断正式的正则化形式的模板中,是否存在有与待识别广告中的广告文案相匹配的正则化形式的模板。
具体的,判断正式的正则化形式的模板中,是否存在有与待识别广告中的广告文案相匹配的正则化形式的模板,若判断出正式的正则化形式的模板中,存在有与待识别广告中的广告文案相匹配的正则化形式的模板,则执行步骤S202;若判断出正式的正则化形式的模板中,没有与待识别广告中的广告文案相匹配的正则化形式的模板,则执行步骤S203。
S202、输出正则化形式的模板对应的文案模板。
S203、若待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与目标词对应的上位词,得到替换后的广告文案。
需要说明的是,步骤S203的具体实施方式可以参见步骤S102,此处不再赘述。
S103、计算每两个替换后的广告文案的编辑距离加权相似性,并对编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板。
具体的,分别计算每两个替换后的广告文案的编辑距离加权相似性,并对编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板。
可选的,在本申请的另一实施例中,步骤S103中计算每两个替换后的广告文案的编辑距离加权相似性的一种实施方式,包括:
根据每两个替换后的广告文案的字符串的长度,计算得到每两个替换后的广告文案的编辑距离加权相似性。
具体的,分别根据每两个替换后的广告文案的字符串的长度,计算得到每两个替换后的广告文案的编辑距离加权相似性。
可选的,在本申请的另一实施例中,步骤根据每两个替换后的广告文案的字符串之间的长度,计算得到每两个替换后的广告文案的编辑距离加权相似性的一种实施方式,包括:
利用预设的编辑距离加权相似性计算公式,计算得到每两个替换后的广告文案的编辑距离加权相似性。
其中,预设的编辑距离加权相似性计算公式为:
X=a*Jaro similarity+b*levenshtein ratio;
其中,a、b为预先设置的权重;S1表示两个替换后的广告文案其中一个的字符串的长度,S2表示两个替换后的广告文案中另一个广告文案的字符串长度;m表示两个字符串的匹配的字符数;t表示换位数目调换的一半;levenshtein ratio=(sum-ldist)/sum;sum是指两个字串的长度总和,ldist是类编辑距离。
可选的,在本申请的另一实施例中,步骤S103中的对编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板的一种实施方式,如图3所示,包括:
S301、判断编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性是否大于阈值。
具体的,若判断出编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性大于阈值,则执行步骤S202。
S302、将第一文案与第二文案中相同的字串进行拼接,不同的字串用预设符号替换,得到文案模板。
其中,编辑距离加权相似性最高的两个广告文案中的其中一个广告文案为第一文案,另一个广告文案为第二文案。
具体的,可以将第一文案作为基准文案,将第一文案与第二文案中相同的字串进行拼接,不同的字串用预设符号替换,例如K,得到文案模板。
可选的,在本申请的另一实施例中,在步骤S103之后的一种实施方式,还包括:
将文案模板生成正则式,得到正则化形式的文案模板。
需要说明的是,在得到正则形式的文案模板后,可以将正则化形式的文案模板存储至,正式的正则化形式的文案模板集合中,以便下次进行广告文案模板抽取时,对其进行判断。
由以上方案可知,本申请提供了一种广告文案模板的抽取方法,首先获取待识别广告中的至少一个广告文案;若所述待识别广告中包含至少两个广告文案,将每一个所述广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案;其中,所述目标词为有上位词的词;然后,计算每两个替换后的广告文案的编辑距离加权相似性,最终对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板。从而达到快速的从广告的多个文案里面抽取出文案模板的目的。
本申请的另一实施例提供了一种广告文案模板的抽取装置,如图4所示,包括:
获取单元401,用于获取待识别广告中的至少一个广告文案。
替换单元402,用于若待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与目标词对应的上位词,得到替换后的广告文案。
其中,目标词为有上位词的词。
计算单元403,用于计算每两个替换后的广告文案的编辑距离加权相似性。
可选的,在本申请的另一实施例中,计算单元403的一种实施方式,包括:
编辑距离加权相似性计算单元,用于根据每两个替换后的广告文案的字符串的长度,计算得到每两个替换后的广告文案的编辑距离加权相似性。
可选的,在本申请的另一实施例中,编辑距离加权相似性计算单元的一种实施方式,包括:
编辑距离加权相似性计算子单元,用于利用预设的编辑距离加权相似性计算公式,计算得到每两个替换后的广告文案的编辑距离加权相似性;其中,预设的编辑距离加权相似性计算公式为:
X=a*Jaro similarity+b*levenshtein ratio;
其中,a、b为预先设置的权重;S1表示两个替换后的广告文案其中一个的字符串的长度,S2表示两个替换后的广告文案中另一个广告文案的字符串长度;m表示两个字符串的匹配的字符数;t表示换位数目调换的一半;levenshteinratio=(sum-ldist)/sum;sum是指两个字串的长度总和,ldist是类编辑距离。
抽取单元404,用于对编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图1所示,此处不再赘述。
可选的,在本申请的另一实施例中,抽取单元404的一种实施方式,如图5所示,包括:
第一判断单元501,用于判断编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性是否大于阈值。
抽取子单元502,用于若第一判断单元501判断出,编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性大于阈值,将第一文案与第二文案中相同的字串进行拼接,不同的字串用预设符号替换,得到文案模板。
其中,编辑距离加权相似性最高的两个广告文案中的其中一个广告文案为第一文案,另一个广告文案为第二文案。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图3所示,此处不再赘述。
可选的,在本申请的另一实施例中,广告文案模板的抽取装置,还包括:
正则生成单元,用于将所述文案模板生成正则式,得到正则化形式的文案模板。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
可选的,在本申请的另一实施例中,广告文案模板的抽取装置,如图6所示,还包括:
第二判断单元601,用于判断正式的正则化形式的模板中,是否存在有与待识别广告中的广告文案相匹配的正则化形式的模板。
输出单元602,用于若第二判断单元601判断出,正式的正则化形式的模板中,存在有与待识别广告中的广告文案相匹配的正则化形式的模板,则输出正则化形式的模板对应的文案模板。
执行单元603,用于若第二判断单元601判断出,正式的正则化形式的模板中,没有与待识别广告中的广告文案相匹配的正则化形式的模板,则激活替换单元402执行若待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与目标词对应的上位词,得到替换后的广告文案。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,如图2所示,此处不再赘述。
可选的,在本申请的另一实施例中,广告文案模板的抽取装置,还包括:
确认单元,用于若待识别广告中只有一个广告文案,则确认待识别广告没有文案模板。
本申请上述实施例公开的单元的具体工作过程,可参见对应的方法实施例内容,此处不再赘述。
由以上方案可知,本申请提供了一种广告文案模板的抽取装置,首先获取单元401获取待识别广告中的至少一个广告文案;若所述待识别广告中包含至少两个广告文案,替换单元402将每一个所述广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案;其中,所述目标词为有上位词的词;然后,计算单元403计算每两个替换后的广告文案的编辑距离加权相似性,最终抽取单元404对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板。从而达到快速的从广告的多个文案里面抽取出文案模板的目的。
本申请另一实施例提供了一种设备,如图7所示,包括:
一个或多个处理器701。
存储装置702,其上存储有一个或多个程序。
当所述一个或多个程序被所述一个或多个处理器701执行时,使得所述一个或多个处理器701实现如上述实施例中任意一项所述的方法。
本申请另一实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项所述的方法。
在本申请公开的上述实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,直播设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种广告文案模板的抽取方法,其特征在于,包括:
获取待识别广告中的至少一个广告文案;
若所述待识别广告中包含至少两个广告文案,将每一个所述广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案;其中,所述目标词为有上位词的词;
计算每两个所述替换后的广告文案的编辑距离加权相似性,并对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板,包括:判断所述编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性是否大于阈值;若判断出,所述编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性大于阈值,将第一文案与第二文案中相同的字串进行拼接,不同的字串用预设符号替换,得到文案模板;其中,所述编辑距离加权相似性最高的两个广告文案中的其中一个广告文案为所述第一文案,另一个广告文案为所述第二文案。
2.根据权利要求1所述的抽取方法,其特征在于,所述计算每两个所述替换后的广告文案的编辑距离加权相似性,包括:
根据每两个所述替换后的广告文案的字符串的长度,计算得到每两个所述替换后的广告文案的编辑距离加权相似性。
3.根据权利要求2所述的抽取方法,其特征在于,所述根据每两个所述替换后的广告文案的字符串的长度,计算得到每两个所述替换后的广告文案的编辑距离加权相似性,包括:
利用预设的编辑距离加权相似性计算公式,计算得到每两个所述替换后的广告文案的编辑距离加权相似性;其中,所述预设的编辑距离加权相似性计算公式为:
X=a * Jaro similarity + b * levenshtein ratio;
其中,a、b为预先设置的权重;;S1表示两个替换后的广告文案其中一个的字符串的长度,S2表示两个替换后的广告文案中另一个广告文案的字符串长度;m表示两个字符串的匹配的字符数;t表示换位数目调换的一半;levenshtein ratio = (sum - ldist) / sum;sum是指两个字串的长度总和,ldist是类编辑距离。
4.根据权利要求1所述的抽取方法,其特征在于,所述对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板之后,还包括:
将所述文案模板生成正则式,得到正则化形式的文案模板。
5.根据权利要求1所述的抽取方法,其特征在于,所述若所述待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案之前,还包括:
判断正式的正则化形式的模板中,是否存在有与所述待识别广告中的广告文案相匹配的正则化形式的模板;
若判断出所述正式的正则化形式的模板中,存在有与所述待识别广告中的广告文案相匹配的正则化形式的模板,则输出所述正则化形式的模板对应的文案模板;
若判断出所述正式的正则化形式的模板中,没有与所述待识别广告中的广告文案相匹配的正则化形式的模板,则执行所述若所述待识别广告中包含至少两个广告文案,将每一个广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案。
6.根据权利要求1所述的抽取方法,其特征在于,还包括:
若所述待识别广告中只有一个广告文案,则确认所述待识别广告没有文案模板。
7.一种广告文案模板的抽取装置,其特征在于,包括:
获取单元,用于获取待识别广告中的至少一个广告文案;
替换单元,用于若所述待识别广告中包含至少两个广告文案,将每一个所述广告文案中的目标词,替换成与所述目标词对应的上位词,得到替换后的广告文案;其中,所述目标词为有上位词的词;
计算单元,用于计算每两个所述替换后的广告文案的编辑距离加权相似性;
抽取单元,用于对所述编辑距离加权相似性最高的两个广告文案进行模板抽取,得到文案模板;
所述抽取单元,包括:第一判断单元和抽取子单元;
所述第一判断单元,用于判断所述编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性是否大于阈值;
所述抽取子单元,用于若所述第一判断单元判断出,所述编辑距离加权相似性最高的两个广告文案的编辑距离加权相似性大于阈值,将第一文案与第二文案中相同的字串进行拼接,不同的字串用预设符号替换,得到文案模板;其中,所述编辑距离加权相似性最高的两个广告文案中的其中一个广告文案为所述第一文案,另一个广告文案为所述第二文案。
8.一种广告文案模板的抽取设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至6中任一所述的方法。
9.一种计算机存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的方法。
CN202010761363.2A 2020-07-31 2020-07-31 广告文案模板的抽取方法、装置、设备及计算机存储介质 Active CN111859892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010761363.2A CN111859892B (zh) 2020-07-31 2020-07-31 广告文案模板的抽取方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010761363.2A CN111859892B (zh) 2020-07-31 2020-07-31 广告文案模板的抽取方法、装置、设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111859892A CN111859892A (zh) 2020-10-30
CN111859892B true CN111859892B (zh) 2024-04-19

Family

ID=72953799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010761363.2A Active CN111859892B (zh) 2020-07-31 2020-07-31 广告文案模板的抽取方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111859892B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935306A (zh) * 2021-09-14 2022-01-14 有米科技股份有限公司 广告文案模板处理方法及装置
KR102572106B1 (ko) * 2023-05-15 2023-08-29 (주) 애드캐리 마케팅 방법에 활용되는 문서 자동 변환 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010119262A2 (en) * 2009-04-17 2010-10-21 Contextured Limited Apparatus and method for generating advertisements
CN107391479A (zh) * 2017-06-19 2017-11-24 中国信息通信研究院 模块化成果库的构建方法
CN109544201A (zh) * 2018-10-11 2019-03-29 北京奇虎科技有限公司 一种广告文案的生成方法、装置及电子设备
CN110674259A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 意图理解方法和装置
CN111159978A (zh) * 2019-12-30 2020-05-15 北京爱医生智慧医疗科技有限公司 一种字符串的替换处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010119262A2 (en) * 2009-04-17 2010-10-21 Contextured Limited Apparatus and method for generating advertisements
CN107391479A (zh) * 2017-06-19 2017-11-24 中国信息通信研究院 模块化成果库的构建方法
CN109544201A (zh) * 2018-10-11 2019-03-29 北京奇虎科技有限公司 一种广告文案的生成方法、装置及电子设备
CN110674259A (zh) * 2019-09-27 2020-01-10 北京百度网讯科技有限公司 意图理解方法和装置
CN111159978A (zh) * 2019-12-30 2020-05-15 北京爱医生智慧医疗科技有限公司 一种字符串的替换处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于语义的上下位关系抽取方法;陈金栋 等;《计算机应用与软件》;全文 *

Also Published As

Publication number Publication date
CN111859892A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111859892B (zh) 广告文案模板的抽取方法、装置、设备及计算机存储介质
US9092420B2 (en) Apparatus and method for automatically generating grammar for use in processing natural language
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN105739981B (zh) 一种代码补全实现方法、装置和计算设备
JP6335898B2 (ja) 製品認識に基づく情報分類
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
CN104866985B (zh) 快递单号识别方法、装置及系统
CN106372202B (zh) 文本相似度计算方法及装置
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN111160030B (zh) 一种信息抽取方法、装置、及存储介质
US8037053B2 (en) System and method for generating an online summary of a collection of documents
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN109918660A (zh) 一种基于TextRank的关键词提取方法和装置
CN102609500A (zh) 一种问题推送方法和采用该方法的问答系统和搜索引擎
CN109753661A (zh) 一种机器阅读理解方法、装置、设备及存储介质
CN104915359A (zh) 主题标签推荐方法及装置
WO2016041428A1 (zh) 一种英文的输入方法和装置
CN108241612B (zh) 标点符号处理方法和装置
CN110674370A (zh) 域名识别方法及装置、存储介质及电子设备
WO2014107265A1 (en) Method and apparatus for performing bilingual word alignment
US20200387815A1 (en) Building training data and similarity relations for semantic space
CN106599637B (zh) 一种在验证界面输入验证码的方法和装置
CN110598205B (zh) 一种截断文本的拼接方法、装置及计算机存储介质
CN108108267B (zh) 数据的恢复方法和装置
Gross et al. Plagiarism Alignment Detection by Merging Context Seeds.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant