CN111340551A - 广告内容的生成方法、装置、终端及存储介质 - Google Patents

广告内容的生成方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN111340551A
CN111340551A CN202010125359.7A CN202010125359A CN111340551A CN 111340551 A CN111340551 A CN 111340551A CN 202010125359 A CN202010125359 A CN 202010125359A CN 111340551 A CN111340551 A CN 111340551A
Authority
CN
China
Prior art keywords
advertisement content
source
generating
target
advertisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010125359.7A
Other languages
English (en)
Inventor
胡盼盼
胡浩
赵茜
佟博
张超
黄仲强
周玥
张坚琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Bozhilin Robot Co Ltd
Original Assignee
Guangdong Bozhilin Robot Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Bozhilin Robot Co Ltd filed Critical Guangdong Bozhilin Robot Co Ltd
Priority to CN202010125359.7A priority Critical patent/CN111340551A/zh
Publication of CN111340551A publication Critical patent/CN111340551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • G06Q30/0256User search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及自然语言处理技术领域,提供了一种广告内容的生成方法、装置、终端及存储介质。所述广告内容的生成方法包括:获取用户输入的关键词;根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合;其中,所述广告内容数据库存储有若干条源广告内容;从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容;将所述备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容。本申请根据当前选择的源广告内容,生成语义语法满足预设要求的目标广告内容,且新生成的目标广告内容与关键词相似,以满足用户的需求。

Description

广告内容的生成方法、装置、终端及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种广告内容的生成方法、装置、终端及存储介质。
背景技术
在产品营销中,广告内容的需求量极大,在理想状态下,需要紧随着广告内容的不同目的或特性不断更新或者创造广告内容,比如适合不同投放场所的广告内容、适应不同人群的广告内容、适应不同营销阶段的广告内容等,对于某些大平台,其有着天然的平台优势,人工生成的广告内容数量庞大,能够搜集到亿万量级别的广告内容以供用户选择。
然而在某些领域,如房地产领域,广告内容数量较少,仅依靠人工生成广告内容的方式,效率相对低下,在质和量上都需要巨大的人力成本来保证,难以满足用户实际需求。
发明内容
本发明提供一种广告内容的生成方法、装置、终端及存储介质,以解决当前依靠人工生成广告内容的方式,在某些领域人工生成的数量较少,在质和量上难以满足用户需求的问题。
为解决上述问题,本发明采用如下技术方案:
本发明提供一种广告内容的生成方法,包括如下步骤:
获取用户输入的关键词;
根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合;其中,所述广告内容数据库存储有若干条源广告内容;
从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容;
将所述备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容。
在一实施例中,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容的步骤,包括:
基于目标源广告内容各字词的词性确定目标源广告内容的可替换项;
根据词向量算法查询与所述可替换项相似度大于预设值的相近词,将所述相近词替换所述可替换项,生成备选广告内容。
在一实施例中,基于目标源广告内容各字词的词性确定目标源广告内容的可替换项的步骤,包括:
利用自然语言处理工具结巴库对所述目标源广告内容的各字词进行词性标注,基于标注词性筛选得到所述目标源广告内容的可替换项。
在一实施例中,将所述备选广告内容输入语言模型进行语义语法的评估的步骤,包括:
利用配置在语言模型的拉普拉斯平滑算法对备选广告内容进行语义语法的评估,确定备选广告内容的评估值。
在一实施例中,利用配置在语言模型的拉普拉斯平滑算法对备选广告内容进行语义语法的评估的步骤,包括如下公式:
logp(S)=logp(W1)+logp(W2|W1)+logp(W3|W2)+…+logp(Wn|Wn-1);
其中,p(S)为备选广告内容多项概率的累计值,p(W1)表示备选广告内容的词汇W1在语料库中出现的概率,p(Wn|Wn-1)表示备选广告内容的词汇组合Wn|Wn-1在语料库中出现的概率。
在一实施例中,根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合的步骤,包括:
将所述关键词进行向量化处理,得到词向量;
将所述广告内容数据库的源广告内容进行向量化处理,得到句向量;
计算所述词向量与句向量的相似度;
将与所述关键词相似度大于预设值的源广告内容进行集成,得到广告内容集合。
在一实施例中,将所述广告内容数据库的源广告内容进行向量化处理的步骤,包括:
对所述广告内容数据库的源广告内容进行分词处理;
查询各分词对应的向量,得到向量组合;
将所述向量组合进行求和平均得到所述源广告内容的句向量。
在一实施例中,对所述广告内容数据库的源广告内容进行分词处理之前,还包括:
对所述源广告内容进行预处理,去除标点符号及停用词。
在一实施例中,计算所述词向量与句向量的相似度的步骤,包括:
分别计算所述词向量与句向量的模,得到词向量模和句向量模;
计算所述词向量与句向量的点积;
根据所述词向量模、句向量模和点积计算所述词向量与句向量的相似度。
本发明提供的一种广告内容的生成装置,包括:
获取模块,用于获取用户输入的关键词;
查询模块,用于根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合;其中,所述广告内容数据库存储有若干条源广告内容;
生成模块,用于从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容;
评估模块,用于将所述备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容。
本发明还提供了一种终端,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上任一项所述的广告内容的生成方法。
本发明还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的广告内容的生成方法。
相对于现有技术,本发明的技术方案至少具备如下优点:
1.本发明提供的广告内容的生成方法,通过获取用户输入的关键词,根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到包含若干条与关键词相似的源广告内容的广告内容集合;然后从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容,并将备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容,从而根据当前选择的源广告内容,生成语义语法满足预设要求的目标广告内容,且新生成的目标广告内容与关键词相似,以满足用户的需求。
2.本发明基于目标源广告内容各字词的词性确定目标源广告内容的可替换项,根据词向量算法查询与所述可替换项相似度大于预设值的相近词,将相近词对应替换该目标源广告内容的可替换项,从而生成与目标源广告内容相似的备选广告内容。
3.本发明利用配置在语言模型的拉普拉斯平滑算法对备选广告内容进行语义语法的评估,确定备选广告内容的评估值,从而对新生成的备选广告内容进行精确评估,使得到的目标广告内容满足语义语法,可行性和实用性高。
4.本发明将用户输入的关键词进行向量化处理,得到词向量,并将广告内容数据库的源广告内容进行向量化处理,得到句向量,利用词向量和句向量计算源广告内容与关键词的相似度,并将与关键词相似度大于预设值的源广告内容进行集成,得到广告内容集合,从而实现关键词与源广告内容的精确匹配,以查询得到与关键词相似度较高的源广告内容。
附图说明
图1为本发明一个实施例中提供的广告内容的生成方法的流程框图;
图2为本发明一个实施例中提供的根据用户输入的关键词查询得到的源广告内容的示意图;
图3为本发明又一个实施例中提供的根据用户输入的关键词查询得到的源广告内容的示意图;
图4为本发明一个实施例中提供的根据用户选择的源广告内容生成的目标广告内容的示意图;
图5为本发明一个实施例中提供的广告内容的生成装置的模块框图;
图6本发明一个实施例中终端的内部结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S11、S12等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本领域普通技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明所提供的一种广告内容的生成方法,以处理器为执行主体,以解决当前依靠人工生成广告内容的方式,在某些领域人工生成的数量较少,且在质和量上难以满足用户需求的问题。其中一种实施方式中,广告内容的生成方法包括如下步骤:
S11、获取用户输入的关键词;
本发明的处理器可与显示器进行连接,当用户在显示器的搜索栏输入关键词时,处理器可根据用户输入的该关键词查询相匹配的目标广告内容。其中,所述关键词可以是若干个字词,也可以是一段话。当关键词为一段话时,处理器可从该段话中提取出表征该段话主旨的字词作为查询的关键词。
S12、根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合;其中,所述广告内容数据库存储有若干条源广告内容;
广告内容数据库中存储有源广告内容,该源广告内容可以是通过人工生成或计算机生成的已存在的广告内容。具体的,当需要存储房地产领域的广告内容时,可通过网络爬虫工具获取网上与房地产领域相关的广告内容,经过评估筛选后得到源广告内容,并将其存储在广告内容数据库中。
本步骤根据用户输入的关键词在相应的广告内容数据库中查询与关键词相匹配的多条源广告内容,将多条源广告内容进行输出显示。其中,源广告内容中包括至少一个与关键词相同或相近的字词。
S13、从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容;
当用户从显示的多条源广告内容中选取一条作为目标源广告内容时,处理器根据词向量算法生成与该目标源广告内容相匹配的备选广告内容,其中,所述备选广告内容为基于用户选择的目标源广告内容生成的新广告内容。
S14、将所述备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容。
本步骤对生成的备选广告内容进行语义语法的评估,并赋予相应的评估值,将评估值大于预设值的至少一条目标广告内容输出显示,从而生成与关键词相匹配的新广告内容,并使生成的备选广告内容满足语义语法的要求。
本发明提供的广告内容的生成方法,通过获取用户输入的关键词,根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到包含若干条与关键词相似的源广告内容的广告内容集合;然后从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容,并将备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容,从而根据当前选择的源广告内容,生成语义语法满足预设要求的目标广告内容,且新生成的目标广告内容与关键词相似,以满足用户的需求。
为了更好的理解本发明,下面通过一些具体的实施例进行说明:
以查询房地产广告内容为例,如图2所示,用户可在基于本发明建成的房地产广告语智能平台上输入关键词,房地产广告语智能平台根据该关键词从广告内容数据库中查询与关键词相匹配的源广告内容。例如,当用户输入的关键词为“学校”时,可得到如图2所示的界面,界面中包括多条源广告内容,当用户点击界面中的“换一换”的虚拟键时,可展示其他与关键词相匹配的源广告内容。
当然,如图3所示,用户也可以输入多个关键词,比如输入“豪宅”、“安静”,可得到如图3所示的界面,界面上所显示的源广告内容无需重新生成,均是广告内容数据库中已存在的源广告内容,用户可以点击其中的某一条源广告内容,房地产广告语智能平台即可生成更多的与用户选择的目标源广告内容相匹配的备选广告内容,经过评估筛选后得到目标广告内容,并将目标广告内容显示在界面上。如图4所示,图4方框中所显示的目标广告内容都是利用词向量算法生成的广告内容,并且经由房地产广告语智能平台中的语言模型评估,达到一定标准后呈现给用户,在一般的语义语法层面上基本准确,用户可以根据自身的任务需求、审美品味以及专业知识从中选择合适的广告内容。
例如,当用户点击界面中的“树林中的大宅生活——不张扬的大宅风范。”的源广告内容时,展示界面生成“树林中的宅院生活——低奢的大宅风范。”、“树林中的宅院生活——不张扬的大宅气宇。”、“树林中的宅院生活——不张扬的大宅气宇。”、“树林花丛中的宅院生活——不张扬的大宅风范。”及“树林中的宅院生活——低调的大宅风范。”的目标广告内容,从而当目标源广告内容数量较少时,生成与目标源广告内容相匹配的目标广告内容,以为用户提供多种选择。
本发明通过如下具体实施例说明如何基于关键词查询与该关键词相匹配的源广告内容:
在一实施例中,在步骤S12中,所述根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合的步骤,可具体包括:
将所述关键词进行向量化处理,得到词向量;
将所述广告内容数据库的源广告内容进行向量化处理,得到句向量;
计算所述词向量与句向量的相似度;
将与所述关键词相似度大于预设值的源广告内容进行集成,得到广告内容集合。
首先,在根据用户所输入的关键词输出目标源广告内容的过程中,涉及到词汇组合和句子间的匹配问题。本实施例可基于词汇覆盖率、新鲜度以及准确性的考量,应用词向量库将关键词及源广告内容转化为向量的形式,得到关键词的词向量和源广告内容的句向量,然后计算关键词的词向量与源广告内容的句向量的相似度,将与关键词相似度大于预设值的源广告内容进行集成,得到广告内容集合。其中,在计算向量间的相似度过程中,可以基于欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离等方式进行计算。
在一实施例中,将所述广告内容数据库的源广告内容进行向量化处理的步骤,可具体包括:
对所述广告内容数据库的源广告内容进行分词处理;
查询各分词对应的向量,得到向量组合;
将所述向量组合进行求和平均得到源广告内容的句向量。
在本实施例中,以句子“树林中的大宅生活——不张扬的大宅风范。”为例,具体实施流程如下:
可先对所述源广告内容进行预处理,去除标点符号及停用词,即去除用处不大的词汇,得到“树林中大宅生活不张扬大宅风范”。
然后对预处理后的句子进行分词,存入数组中,得到:
[“树林”,“中”,“大宅”,“生活”,“不张扬”,“大宅”,“风范”];
利用词向量库查找各分词对应的向量,得到向量组合:
[e1,e2,e3,e4,e5,e6,e7];
最后对向量组合进行求和平均得到源广告内容的句向量:
e=(e1+e2+e3+e4+e5+e6+e7)/7。
在一实施例中,计算所述词向量与句向量的相似度的步骤,可具体包括:
分别计算所述词向量与句向量的模,得到词向量模和句向量模;
计算所述词向量与句向量的点积;
根据所述词向量模、句向量模和点积计算所述词向量与句向量的相似度。
用户输入的关键词的词向量是查询向量,这里简称为q,需要同广告内容数据库中的所有源广告内容的句向量进行相似度计算,最后列出若干条与关键词相似的源广告内容。其中,在计算向量间的相似度过程中,可以基于欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离等方式进行计算。
其中,关键词与源广告内容的相似度计算可基于词向量与句向量的余弦值,具体的,假设词向量的维度为200,令关键词的词向量q为[q1,q2,q3...q200],令某一源广告内容的句向量e为[e1,e2,e3...e200],则两者的相似度计算步骤如下:
计算q的模|q|为:
Figure BDA0002394235850000091
计算e的模|e|为:
Figure BDA0002394235850000092
计算q与e的点积q*e为:q1*e1+q2*e2+…+q200*e200;
最终根据所述词向量q的模、句向量e的模和点积计算得到词向量与句向量的相似度为:
Figure BDA0002394235850000093
从而能够根据用户输入的关键词计算出与各源广告内容间的相似度,并将相似度大于预设值的目标源广告内容呈现给用户。
在一实施例中,在步骤S13中,所述根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容的步骤,可具体包括:
基于目标源广告内容各字词的词性确定目标源广告内容的可替换项;
根据词向量算法查询与所述可替换项相似度大于预设值的相近词,将所述相近词替换所述可替换项,生成备选广告内容。
现代汉语的词可以分为12类。实词包括:名词、动词、形容词、数词、量词和代词。虚词包括:副词、介词、连词、助词、拟声词和叹词。其中,实词含有表征字词语义的信息,因此可对其进行相近词替换。本申请可根据词性语料库确定目标源广告内容中各个字词的词性,基于该词性将具有语义含义的字词作为可替换项,并根据词向量算法计算相近词与可替换项的相似度,将相似度大于预设值的相近词对应替换目标源广告内容的可替换项,从而生成备选广告内容。替换时,可基于一定概率替换可替换项,即目标源广告内容的各个可替换项可能被替换,也可能保留,从而生成大量的备选广告内容。
其中,计算可替换项与相近词的相似度时,可基于词向量间的余弦值计算,将相似度大于预设值的相近词替换目标源广告内容的可替换项,生成m个备选广告内容。以句子“树林中的大宅生活——不张扬的大宅风范。”为例,具体实施流程如下:
对句子进行预处理,去除标点符号以及停用词并进行分词处理,得到:
[“树林”,“中”,“大宅”,“生活”,“不张扬”,“大宅”,“风范”];
对预处理后的句子进行词性标注,得到:
{“树林”:“n”,“中”:“f”,“大宅”:“n”,“生活”:“vn”,“不张扬”:“a”,“大宅”:“n”,“风范”:“n”}
根据词性筛选出可替换项为:
[“树林”,“大宅”,“生活”,“不张扬”,“风范”];
根据词向量间的相似度,计算每个可替换项与相近词的相似度,得到每个可替换项的k个相近词,这里K的取值可以为5:
{“树林”:[“树木花丛”,“森林”,“树木”,“丛林”,“花草树木”],
“大宅”:[“豪宅”,“宅子”,“大宅子”,“宅院”,“大宅门”],
“生活”:[“生存”,“生涯”,“存在”,“生计”,“光景”],
“不张扬”:[“低调”,“低奢”,“低调奢华”,“谦卑”,“谦逊”],
“风范”:[“气宇”,“风采”,“仪表”,“风度”,“风韵”]}。
基于相近词,可以50%的概率对目标源广告内容中的可替换项进行替换,得到m个新广告内容:
[“花草树木中的大宅生活——不张扬的大宅风度。”,
“树林中的宅院生涯——谦逊的大宅风范。”,
“丛林中的大宅生活——谦卑的豪宅风采。”,
“森林中的豪宅光景——低调的大宅仪表。”,
“树林中的大宅门生活——低奢的宅院风范。”,
“树林中的大宅生活——低调奢华的大宅风采。”,
“树木花丛中的宅院生活——不张扬的大宅风范。”,
“树林中的大宅生涯——低调奢华的大宅风范。”,
“丛林中的宅子生存——不张扬的豪宅风范。”,
“树林中的大宅子生活——低奢的大宅风范。”,
“树林中的宅院存在——不张扬的宅院气宇。”,
“林子中的大宅生活——不张扬的大宅风范。”,
“树林中的宅院生活——低奢的大宅风范。”,
“丛林中的大宅子生计——低奢的豪宅风韵。”,
“树木中的宅院生活——不张扬的大宅子气宇。”,
“花草树木中的大宅生计——不张扬的大宅子风范。”
...]。
在一实施例中,所述基于目标源广告内容各字词的词性确定目标源广告内容的可替换项的步骤,可具体包括:
利用自然语言处理工具结巴库对所述目标源广告内容的各字词进行词性标注,得到标注词性,基于该标注词性筛选得到所述目标源广告内容的可替换项。
在本实施例中,结巴库中保存有所有字词的词性类别,如下所示的可标注的词性类别:
{Ag:形语素,a:形容词,ad:副形词,an:名形语,b:区别词,c:连词,dg:副语素,d:副词,e:叹词,f:方位词,g:语素,h:前接成分,i:成语,j:简称略语,k:后接成分,l:习用语,m:数词,Ng:名语素,n:名词,nr:人名,ns:地名,nt:机构团体,nz:其它专名,o:拟声词,p:介词,q:量词,r:代词,s:处所词,tg:时语素,t:时间词,u:助词,vg:动语素,v:动词,vd:副动词,vn:名动词,w:标点符号,x:非语素字,y:语气词,z:状态词,un:未知词}。
其中属于可替换项的词性类别为:
{Ag:形语素,a:形容词,ad:副形词,an:名形语,b:区别词,dg:副语素,d:副词,i:成语,l:习用语,m:数词,Ng:名语素,n:名词,o:拟声词,p:介词,q:量词,r:代词,s:处所词,tg:时语素,vg:动语素,v:动词,vd:副动词,vn:名动词,x:非语素字,z:状态词}。
本实施例依照自然语言处理工具结巴库对目标源广告内容的各字词进行词性标注,然后基于词性筛选出可替换项,从而方便快捷地确定目标源广告内容的可替换项。
在一实施例中,在步骤S14中,所述将所述备选广告内容输入语言模型进行语义语法的评估的步骤,可具体包括:
利用配置在语言模型的拉普拉斯平滑算法对备选广告内容进行语义语法的评估,确定备选广告内容的评估值。
本申请需要对所生成的目标广告内容进行基于语言模型的评估,用以评估机器所生成的目标广告内容像自然语言的可能性,即用户能够理解目标广告内容含义的可能性。具体地,应用拉普拉斯平滑算法对新生成的备选广告内容加以运算,即假设备选广告内容中一个词的出现需依赖于其前面出现的词,通过计算备选广告内容中每两个词汇组合在中文语料库中的出现情况,综合估算整个备选广告内容的可行性,从而对新生成的备选广告内容进行精确评估,使得到的目标广告内容满足语义语法,可行性和实用性高。
在一实施例中,所述利用配置在语言模型的拉普拉斯平滑算法对备选广告内容进行语义语法的评估的步骤,包括如下公式:
logp(S)=logp(W1)+logp(W2|W1)+logp(W3|W2)+…+logp(Wn|Wn-1);
其中,p(S)为备选广告内容多项概率的累计值,p(W1)表示备选广告内容的词汇W1在语料库中出现的概率,p(W2|W1)表示备选广告内容的词汇组合W2|W1在语料库中出现的概率,p(W3|W2)表示备选广告内容的词汇组合W3|W2在语料库中出现的概率,p(Wn|Wn-1)表示备选广告内容的词汇组合Wn|Wn-1在语料库中出现的概率。
其中,
Figure BDA0002394235850000121
C(WnWn-1)表示(WnWn-1)的词汇组合在语料库中的出现次数,C(Wn-1)表示Wn-1在语料库中的出现次数,V表示语料大小。
下面以句子“花草树木中的大宅生活——不张扬的大宅风度。”为例,展示其可行性的计算过程:
对句子进行分词,得到[“花草树木”,“中”,“的”,“大宅”,“生活”,“——”,“不张扬”,“的”,“大宅”,“风度”,“。”];
基于拉普拉斯平滑算法,可得p(“花草树木中的大宅生活——不张扬的大宅风度。”)=p(S)=p(“花草树木”)*p(“中”|“花草树木”)*p(“的”|“中”)*p(“大宅”|“的”)*p(“生活”|“大宅”)*p(“——”|“生活”)*p(“不张扬”|“——”)*p(“的”|“不张扬”)*p(“大宅”|“的”)*p(“风度”|“大宅”)*p(“。”|“风度”);
对p(S)取对数,可得logp(S)=logp(“花草树木”)+logp(“中”|“花草树木”)+logp(“的”|“中”)+logp(“大宅”|“的”)+logp(“生活”|“大宅”)+logp(“——”|“生活”)+logp(“不张扬”|“——”)+logp(“的”|“不张扬”)+logp(“大宅”|“的”)+logp(“风度”|“大宅”)+logp(“。”|“风度”),从而基于备选广告内容多项概率的累计值确定句子的可行性,当累计值越大时,则可行性越高,对应备选广告内容的评估值也越大。本发明通过计算所有新生成的备选广告内容的可行性,最后选择其中可行性最高的前n条备选广告内容作为目标广告内容,将目标广告内容推荐给用户。
请参考图5,本发明的实施例还提供一种广告内容的生成装置,一种本实施例中,包括获取模块11、查询模块12、生成模块13及评估模块14。其中,
获取模块11,用于获取用户输入的关键词;
本发明的处理器可与显示器进行连接,当用户在显示器的搜索栏输入关键词时,处理器可根据用户输入的该关键词查询相匹配的目标广告内容。其中,所述关键词可以是若干个字词,也可以是一段话。当关键词为一段话时,处理器可从该段话中提取出表征该段话主旨的字词作为查询的关键词。
查询模块12,用于根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合;其中,所述广告内容数据库存储有若干条源广告内容;
广告内容数据库中存储有源广告内容,该源广告内容可以是通过人工生成或计算机生成的已存在的广告内容。具体的,当需要存储房地产领域的广告内容时,可通过网络爬虫工具获取网上与房地产领域相关的广告内容,经过评估筛选后得到源广告内容,并将其存储在广告内容数据库中。
本模块根据用户输入的关键词在相应的广告内容数据库中查询与关键词相匹配的多条源广告内容,将多条源广告内容进行输出显示。其中,源广告内容中包括至少一个与关键词相同或相近的字词。
生成模块13,用于从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容;
当用户从显示的多条源广告内容中选取一条作为目标源广告内容时,处理器根据词向量算法生成与该目标源广告内容相匹配的备选广告内容,其中,所述备选广告内容为基于用户选择的目标源广告内容生成的新广告内容。
评估模块14,用于将所述备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容。
本模块对生成的备选广告内容进行语义语法的评估,并赋予相应的评估值,将评估值大于预设值的至少一条目标广告内容输出显示,从而生成与关键词相匹配的新广告内容,并使生成的备选广告内容满足语义语法的要求。
本发明提供的广告内容的生成装置,通过获取用户输入的关键词,根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到包含若干条与关键词相似的源广告内容的广告内容集合;然后从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容,并将备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容,从而根据当前选择的源广告内容,生成语义语法满足预设要求的目标广告内容,且新生成的目标广告内容与关键词相似,以满足用户的需求。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明提供的一种终端,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如上任一项所述的广告内容的生成方法的步骤。
在一实施例中,所述终端为一种计算机设备,如图6所示。本实施例所述的计算机设备可以是服务器、个人计算机以及网络设备等设备。所述计算机设备包括处理器102、存储器103、输入单元104以及显示单元105等器件。本领域技术人员可以理解,图6示出的设备结构器件并不构成对所有设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器103可用于存储计算机程序101以及各功能模块,处理器102运行存储在存储器103的计算机程序101,从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。
输入单元104用于接收信号的输入,以及接收用户输入的关键字。输入单元104可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元105可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元105可采用液晶显示器、有机发光二极管等形式。处理器102是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器102内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
作为一个实施例,所述计算机设备包括:一个或多个处理器102,存储器103,一个或多个计算机程序101,其中所述一个或多个计算机程序101被存储在存储器103中并被配置为由所述一个或多个处理器102执行,所述一个或多个计算机程序101配置用于执行以上实施例所述的广告内容的生成方法。
在一个实施例中,本发明还提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述广告内容的生成方法。例如,所述存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(RandomAccess Memory,RAM)等。
综合上述实施例可知,本发明最大的有益效果在于:
本发明提供的广告内容的生成方法、装置、终端及存储介质,通过获取用户输入的关键词,根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到包含若干条与关键词相似的源广告内容的广告内容集合;然后从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容,并将备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容,从而根据当前选择的源广告内容,生成语义语法满足预设要求的目标广告内容,且新生成的目标广告内容与关键词相似,以满足用户的需求。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种广告内容的生成方法,其特征在于,包括:
获取用户输入的关键词;
根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合;其中,所述广告内容数据库存储有若干条源广告内容;
从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容;
将所述备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容。
2.根据权利要求1所述的广告内容的生成方法,其特征在于,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容的步骤,包括:
基于目标源广告内容各字词的词性确定目标源广告内容的可替换项;
根据词向量算法查询与所述可替换项相似度大于预设值的相近词,将所述相近词替换所述可替换项,生成备选广告内容。
3.根据权利要求2所述的广告内容的生成方法,其特征在于,基于目标源广告内容各字词的词性确定目标源广告内容的可替换项的步骤,包括:
利用自然语言处理工具结巴库对所述目标源广告内容的各字词进行词性标注,基于标注词性筛选得到所述目标源广告内容的可替换项。
4.根据权利要求1所述的广告内容的生成方法,其特征在于,将所述备选广告内容输入语言模型进行语义语法的评估的步骤,包括:
利用配置在语言模型的拉普拉斯平滑算法对备选广告内容进行语义语法的评估,确定备选广告内容的评估值。
5.根据权利要求4所述的广告内容的生成方法,其特征在于,利用配置在语言模型的拉普拉斯平滑算法对备选广告内容进行语义语法的评估的步骤,包括如下公式:
logp(S)=logp(W1)+logp(W2|W1)+logp(W3|W2)+…+logp(Wn|Wn-1);
其中,p(S)为备选广告内容多项概率的累计值,p(W1)表示备选广告内容的词汇W1在语料库中出现的概率,p(Wn| Wn-1)表示备选广告内容的词汇组合Wn|Wn-1在语料库中出现的概率。
6.根据权利要求1所述的广告内容的生成方法,其特征在于,根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合的步骤,包括:
将所述关键词进行向量化处理,得到词向量;
将所述广告内容数据库的源广告内容进行向量化处理,得到句向量;
计算所述词向量与句向量的相似度;
将与所述关键词相似度大于预设值的源广告内容进行集成,得到广告内容集合。
7.根据权利要求6所述的广告内容的生成方法,其特征在于,将所述广告内容数据库的源广告内容进行向量化处理的步骤,包括:
对所述广告内容数据库的源广告内容进行分词处理;
查询各分词对应的向量,得到向量组合;
将所述向量组合进行求和平均得到所述源广告内容的句向量。
8.根据权利要求7所述的广告内容的生成方法,其特征在于,对所述广告内容数据库的源广告内容进行分词处理之前,还包括:
对所述源广告内容进行预处理,去除标点符号及停用词。
9.根据权利要求6所述的广告内容的生成方法,其特征在于,计算所述词向量与句向量的相似度的步骤,包括:
分别计算所述词向量与句向量的模,得到词向量模和句向量模;
计算所述词向量与句向量的点积;
根据所述词向量模、句向量模和点积计算所述词向量与句向量的相似度。
10.一种广告内容的生成装置,其特征在于,包括:
获取模块,用于获取用户输入的关键词;
查询模块,用于根据所述关键词在广告内容数据库中查询与该关键词相匹配的源广告内容,得到广告内容集合;其中,所述广告内容数据库存储有若干条源广告内容;
生成模块,用于从广告内容集合中选择目标源广告内容,根据词向量算法生成与所述目标源广告内容相匹配的多个备选广告内容;
评估模块,用于将所述备选广告内容输入语言模型进行语义语法的评估,输出评估值大于预设值的目标广告内容。
11.一种终端,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至9中任一项所述的广告内容的生成方法。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至9中任一项所述的广告内容的生成方法。
CN202010125359.7A 2020-02-27 2020-02-27 广告内容的生成方法、装置、终端及存储介质 Pending CN111340551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010125359.7A CN111340551A (zh) 2020-02-27 2020-02-27 广告内容的生成方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010125359.7A CN111340551A (zh) 2020-02-27 2020-02-27 广告内容的生成方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN111340551A true CN111340551A (zh) 2020-06-26

Family

ID=71183816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010125359.7A Pending CN111340551A (zh) 2020-02-27 2020-02-27 广告内容的生成方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN111340551A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052353A (zh) * 2020-07-24 2020-12-08 广州阿凡提电子科技有限公司 广告视频检索方法、智能终端
CN112184318A (zh) * 2020-09-30 2021-01-05 成都力欧互动网络科技有限公司 一种广告发布方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN107688621A (zh) * 2017-08-15 2018-02-13 皑沐(上海)文化传媒有限公司 一种文案的优化方法和系统
CN108280689A (zh) * 2018-01-30 2018-07-13 浙江省公众信息产业有限公司 基于搜索引擎的广告投放方法、装置以及搜索引擎系统
US20180373691A1 (en) * 2017-06-26 2018-12-27 International Business Machines Corporation Identifying linguistic replacements to improve textual message effectiveness
CN110427617A (zh) * 2019-07-22 2019-11-08 阿里巴巴集团控股有限公司 推送信息的生成方法及装置
CN110717329A (zh) * 2019-09-10 2020-01-21 上海开域信息科技有限公司 基于词向量进行近似搜索快速提取广告文本主题的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
US20180373691A1 (en) * 2017-06-26 2018-12-27 International Business Machines Corporation Identifying linguistic replacements to improve textual message effectiveness
CN107688621A (zh) * 2017-08-15 2018-02-13 皑沐(上海)文化传媒有限公司 一种文案的优化方法和系统
CN108280689A (zh) * 2018-01-30 2018-07-13 浙江省公众信息产业有限公司 基于搜索引擎的广告投放方法、装置以及搜索引擎系统
CN110427617A (zh) * 2019-07-22 2019-11-08 阿里巴巴集团控股有限公司 推送信息的生成方法及装置
CN110717329A (zh) * 2019-09-10 2020-01-21 上海开域信息科技有限公司 基于词向量进行近似搜索快速提取广告文本主题的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052353A (zh) * 2020-07-24 2020-12-08 广州阿凡提电子科技有限公司 广告视频检索方法、智能终端
CN112184318A (zh) * 2020-09-30 2021-01-05 成都力欧互动网络科技有限公司 一种广告发布方法及装置

Similar Documents

Publication Publication Date Title
US11989519B2 (en) Applied artificial intelligence technology for using natural language processing and concept expression templates to train a natural language generation system
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN110019658B (zh) 检索项的生成方法及相关装置
CN109446341A (zh) 知识图谱的构建方法及装置
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
US20080097937A1 (en) Distributed method for integrating data mining and text categorization techniques
US20100205198A1 (en) Search query disambiguation
JP5754019B2 (ja) 同義語抽出システム、方法およびプログラム
CN107679036A (zh) 一种错别字监测方法及系统
CN101697109A (zh) 一种获取输入法候选项的方法及系统
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
CN113282689B (zh) 基于领域知识图谱的检索方法、装置
CN109960756A (zh) 新闻事件信息归纳方法
CN104281565B (zh) 语义词典构建方法和装置
US20090112845A1 (en) System and method for language sensitive contextual searching
CN103942328B (zh) 一种视频检索方法及视频装置
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
CN106446018A (zh) 基于人工智能的查询信息处理方法和装置
CN110321561A (zh) 一种关键词提取方法和装置
TWI735380B (zh) 自然語言處理方法與其計算裝置
CN109063184A (zh) 多语言新闻文本聚类方法、存储介质及终端设备
CN110929007A (zh) 一种电力营销知识体系平台及应用方法
CN111340551A (zh) 广告内容的生成方法、装置、终端及存储介质
CN110020436A (zh) 一种本体和句法依存结合的微博情感分析法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200626

WD01 Invention patent application deemed withdrawn after publication