CN112149408B - 标题生成方法、训练方法、装置、电子设备和存储介质 - Google Patents

标题生成方法、训练方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112149408B
CN112149408B CN202010989342.6A CN202010989342A CN112149408B CN 112149408 B CN112149408 B CN 112149408B CN 202010989342 A CN202010989342 A CN 202010989342A CN 112149408 B CN112149408 B CN 112149408B
Authority
CN
China
Prior art keywords
target
title
character
probability
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010989342.6A
Other languages
English (en)
Other versions
CN112149408A (zh
Inventor
郝卓琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202010989342.6A priority Critical patent/CN112149408B/zh
Publication of CN112149408A publication Critical patent/CN112149408A/zh
Application granted granted Critical
Publication of CN112149408B publication Critical patent/CN112149408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种标题生成方法、训练方法、装置、电子设备和存储介质,其中,该方法包括:获取为目标标题设置的关键词句,其中,所述关键词句包括:关键词或关键语句;将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率,其中,各所述预设位置为设置在所述关键词句两侧的各字符位置;根据所述概率,从所述目标字典中选择出目标字符;根据所述目标字符和所述关键词句的位置关系,生成所述目标标题,通过上述方法可以在只输入关键词句的情况下就可以得到目标标题,因此有利于降低用户在投放媒体内容时的投放难度。

Description

标题生成方法、训练方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种标题生成方法、训练方法、装置、电子设备和存储介质。
背景技术
在通过媒体内容投放平台投放媒体内容(如:广告和文章等)之前,需要先获得媒体内容,其中,媒体内容包括媒体内容标题和媒体内容正文,媒体内容投放平台在获得一个完整的媒体内容后,可以将该媒体内容投放给用户端,该媒体内容在用户端展示时,只展示媒体内容标题,用户可以根据媒体内容标题中的内容确定是否打开该媒体内容,以查看该媒体内容中的媒体内容正文。
在现有技术中,用户可以通过自己的用户端选择向其他用户端投放媒体内容,但是这种方式需要用户自己提供媒体内容标题,从而增加了用户在投放媒体内容时的投放难度。
发明内容
有鉴于此,本申请实施例提供了一种标题生成方法、训练方法、装置、电子设备和存储介质,以降低用户投放媒体内容时的投放难度。
第一方面,本申请实施例提供了一种标题生成方法,包括:
获取为目标标题设置的关键词句,其中,所述关键词句包括:关键词或关键语句;
将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率,其中,各所述预设位置为设置在所述关键词句两侧的各字符位置;
根据所述概率,从所述目标字典中选择出目标字符;
根据所述目标字符和所述关键词句的位置关系,生成所述目标标题。
可选地,所述将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率,包括:
对所述关键词句进行切字处理,得到所述关键词句包括的各个字符;
查询所述关键词句包括的各个字符在所述目标字典中对应的第一身份标识ID;
将所述第一ID作为输入参数输入到transformer模型,得到所述目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率。
可选地,根据所述概率,从所述目标字典中选择出目标字符,包括:
根据各所述预设位置在所述目标标题中与所述关键词句由小到大的间距顺序,从所述目标字典中依次确定所述目标字符;
其中,所述目标标题中与所述关键词句间距最小的目标字符依据概率采样,以及所述关键词句中与所述间距最小的目标字符相邻的字符的语义确定,所述目标标题中的其他目标字符依据概率采样,以及与该目标字符相邻的所述目标标题中已确定的字符的语义确定。
可选地,所述概率预测模型是通过使用元素对应的样本标题和该元素作为训练样本进行训练后得到的,其中,所述元素为一元组至N元组包括的元素,一元组包括的元素为所述样本标题包括的各个词语,二元组包括的元素为所述样本标题包括的各个词语中相邻的两个词语构成的语句,三元组包括的元素为所述样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推,N等于所述样本标题包括的词语的数量,一元组至N元组是通过对所述样本标题进行切词处理后,由得到的各个词语构建的。
可选地,所述概率预测模型是通过所述元素包括的各第一字符在所述目标字典中对应的第二ID,以及所述样本标题包括各第二字符在所述目标字典中对应的第三ID进行训练后得到的。
可选地,所述概率预测模型的第一损失值的变化范围位于预设范围内,其中,第二损失值是将所述第二ID作为输入参数输入到所述概率预测模型中得到的输出矩阵与所述第三ID对应的矩阵之间的损失值,当所述第二损失值不位于所述预设范围内时,将所述第二损失值作为输入参数输入到指定的反响转播算法中,使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到所述第一损失值。
第二方面,本申请实施例提供了一种用于标题生成的概率预测模型训练方法,所述概率预测模型用于得到目标字典中的各个字符在目标词语两侧的各预设位置上的概率,所述方法包括:
对于获取到的每个样本标题,对该样本标题进行切词处理,得到该样本标题包括的各个词语,其中,该样本标题中包括的任一标点符号作为一个词语;
使用该样本标题包括的各个词语构建N个元组,其中,N等于该样本标题包括的词语的数量,所述N个元组中的一元组包括的元素为该样本标题包括的各个词语,所述N个元组中的二元组包括的元素为该样本标题包括的各个词语中相邻的两个词语构成的语句,所述N个元组中的三元组包括的元素为该样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推;
对于每个元素,将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练。
可选地,所述将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练,包括:
对该元素和该元素对应的样本标题分别进行切字处理,得到该元素包括的各第一字符和该元素对应的样本标题包括各第二字符;
查询所述第一字符在所述目标字典中对应的第二ID,以及所述第二字符在所述目标字典中对应的第三ID;
使用所述第二ID和所述第三ID对所述概率预测模型进行训练。
可选地,所述使用所述第二ID和所述第三ID对所述概率预测模型进行训练,包括:
将所述第二ID作为输入参数,输入到所述概率预测模型中,得到输出矩阵;
确定所述输出矩阵和所述第三ID对应的矩阵之间的损失值;
将所述损失值作为输入参数,输入到指定的反向传播算法中;
使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到的输出矩阵和所述第三ID对应的矩阵之间的损失值的变化范围位于预设范围内。
第三方面,本申请实施例提供了一种标题生成装置,包括:
获取单元,用于获取为目标标题设置的关键词句,其中,所述关键词句包括:关键词或关键语句;
确定单元,用于将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率,其中,各所述预设位置为设置在所述关键词句两侧的各字符位置;
选择单元,用于根据所述概率,从所述目标字典中选择出目标字符;
生成单元,用于根据所述目标字符和所述关键词句的位置关系,生成所述目标标题。
可选地,所述确定单元用于将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率时,包括:
对所述关键词句进行切字处理,得到所述关键词句包括的各个字符;
查询所述关键词句包括的各个字符在所述目标字典中对应的第一身份标识ID;
将所述第一ID作为输入参数输入到transformer模型,得到所述目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率。
可选地,所述选择单元用于根据所述概率,从所述目标字典中选择出目标字符时,包括:
根据各所述预设位置在所述目标标题中与所述关键词句由小到大的间距顺序,从所述目标字典中依次确定所述目标字符;
其中,所述目标标题中与所述关键词句间距最小的目标字符依据概率采样,以及所述关键词句中与所述间距最小的目标字符相邻的字符的语义确定,所述目标标题中的其他目标字符依据概率采样,以及与该目标字符相邻的所述目标标题中已确定的字符的语义确定。
可选地,所述概率预测模型是通过使用元素对应的样本标题和该元素作为训练样本进行训练后得到的,其中,所述元素为一元组至N元组包括的元素,一元组包括的元素为所述样本标题包括的各个词语,二元组包括的元素为所述样本标题包括的各个词语中相邻的两个词语构成的语句,三元组包括的元素为所述样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推,N等于所述样本标题包括的词语的数量,一元组至N元组是通过对所述样本标题进行切词处理后,由得到的各个词语构建的。
可选地,所述概率预测模型是通过所述元素包括的各第一字符在所述目标字典中对应的第二ID,以及所述样本标题包括各第二字符在所述目标字典中对应的第三ID进行训练后得到的。
可选地,所述概率预测模型的第一损失值的变化范围位于预设范围内,其中,第二损失值是将所述第二ID作为输入参数输入到所述概率预测模型中得到的输出矩阵与所述第三ID对应的矩阵之间的损失值,当所述第二损失值不位于所述预设范围内时,将所述第二损失值作为输入参数输入到指定的反响转播算法中,使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到所述第一损失值。
第四方面,本申请实施例提供了一种用于标题生成的概率预测模型训练装置,所述概率预测模型用于得到目标字典中的各个字符在目标词语两侧的各预设位置上的概率,所述装置包括:
切词单元,用于对于获取到的每个样本标题,对该样本标题进行切词处理,得到该样本标题包括的各个词语,其中,该样本标题中包括的任一标点符号作为一个词语;
构建单元,用于使用该样本标题包括的各个词语构建N个元组,其中,N等于该样本标题包括的词语的数量,所述N个元组中的一元组包括的元素为该样本标题包括的各个词语,所述N个元组中的二元组包括的元素为该样本标题包括的各个词语中相邻的两个词语构成的语句,所述N个元组中的三元组包括的元素为该样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推;
训练单元,用于对于每个元素,将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练。
可选地,所述训练单元用于将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练时,包括:
对该元素和该元素对应的样本标题分别进行切字处理,得到该元素包括的各第一字符和该元素对应的样本标题包括各第二字符;
查询所述第一字符在所述目标字典中对应的第二ID,以及所述第二字符在所述目标字典中对应的第三ID;
使用所述第二ID和所述第三ID对所述概率预测模型进行训练。
可选地,所述训练单元用于使用所述第二ID和所述第三ID对所述概率预测模型进行训练时,包括:
将所述第二ID作为输入参数,输入到所述概率预测模型中,得到输出矩阵;
确定所述输出矩阵和所述第三ID对应的矩阵之间的损失值;
将所述损失值作为输入参数,输入到指定的反向传播算法中;
使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到的输出矩阵和所述第三ID对应的矩阵之间的损失值的变化范围位于预设范围内。
第五方面,本公开实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面或第二方面中所述的方法的步骤。
第六方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面或第二方面中所述的方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
在本申请中,先获取为目标标题设置的关键语句,通过关键语句可以确定出将要生成的目标标题的核心内容,然后将该关键词句输入到概率预测模型中得到目标字典中的各个字符在关键词句两侧的各个预设位置上的概率,然后根据得到的概率从目标字典中选择出目标字符,并根据目标字典和关键词句的位置关系生成目标标题,在上述方法中,在获得目标标题的核心内容后,采用在该关键词句两侧双向续写的方式,确定位于关键词句左右两侧的目标字符,此时确定出来的目标字符可以都位于关键词句的左侧或者右侧,或者关键词句两侧都有目标字符,在生成目标标题后,目标标题中不仅包括关键词句,还包括目标字符,并且目标字符根据目标字典中的各个字符在关键词句两侧的各预设位置上的概率确定的,因此确定出来的目标字符与关键词句的匹配度相对较高,同时各目标字符和关键词句是有先后位置关系的,因此得到的目标标题也相对通顺,通过上述方法可以在只输入关键词句的情况下就可以得到目标标题,因此有利于降低用户在投放媒体内容时的投放难度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种标题生成方法的流程示意图;
图2为本申请实施例一提供的一种字符位置的示意图;
图3为本申请实施例一提供的另一种标题生成方法的流程示意图;
图4为本申请实施例二提供的一种用于标题生成的概率预测模型训练方法的流程示意图;
图5为本申请实施例二提供的另一种用于标题生成的概率预测模型训练方法的流程示意图;
图6为本申请实施例二提供的另一种用于标题生成的概率预测模型训练方法的流程示意图;
图7为本申请实施例三提供的一种标题生成装置的结构示意图;
图8为本申请实施例四提供的一种用于标题生成的概率预测模型训练装置的结构示意图;
图9为本申请实施例五提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,媒体内容投放平台可以安装在用户端上,用户可以通过用户端向其他用户端投放媒体内容,用户在投放媒体内容时,不仅需要提高媒体内容正文,还需要提供媒体内容标题。媒体内容在用户端展示时,只展示媒体内容标题,用户可以根据媒体内容标题中的内容确定是否打开该媒体内容,以查看该媒体内容中的媒体内容正文,因此媒体内容标题是媒体内容中比较关键的一环。当需要用户自己提供媒体内容标题时,对于投放媒体内容的用户而言,设计媒体内容标题是一个相对复杂的工作,从而增加了用户在投放媒体内容时的投放难度。
为了解决上述问题,本申请提供了一种标题生成方法、训练方法、装置、电子设备和存储介质,通过本申请用户在只需要输入关键词句的情况下就可以得到目标标题,因此有利于降低用户在投放媒体内容时的投放难度。
需要说明的是,本申请实施例中的关键词句为将要投放的媒体内容中的核心内容,以媒体内容为宣传一款三国游戏为例,那么设定的关键词句可以为“三国”、“三国游戏”或“三国豪杰”等,并且,生成的标题中也要包括该关键词句,且该关键词句是作为一个整体存在于生成的标题中的,关于具体的关键词句可以根据具体的媒体内容进行设定,在此不做具体限定。
以下是对本申请实施例的详细说明。
实施例一
图1为本申请实施例提供的一种标题生成方法的流程示意图,如图1所示,该标题生成方法包括以下步骤:
步骤101、获取为目标标题设置的关键词句,其中,所述关键词句包括:关键词或关键语句。
步骤102、将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率,其中,各所述预设位置为设置在所述关键词句两侧的各字符位置。
步骤103、根据所述概率,从所述目标字典中选择出目标字符。
步骤104、根据所述目标字符和所述关键词句的位置关系,生成所述目标标题。
具体的,媒体投放用户在投放媒体内容之前需要提供关键词句,该关键词句不仅需要出现在将要生成的目标标题中,并且该关键词句还是该媒体内容的核心内容,以宣传一款三国游戏的媒体内容为例,提供的关键词句可以为“三国手游”、“三国英雄”或者“三国志”等。
在得到上述的关键词句后,为了能够得到包含该关键词句的目标标题,将该关键词句作为输入参数输入到概率预测模型中,得到目标字典中的各个字符在关键词句两侧的各预设位置上的概率,以“三国手游”作为关键词句为例,图2为本申请实施例一提供的一种字符位置的示意图,关键词句和各字符位置(图2中一个方框表示一个字符位置,方框中的数字表示对应字符位置)的位置关系如图2所示,如图2所示,在关键词句两侧分别设定一定数量的字符位置,在将关键词句作为输入参数输入到概率预测模型中后可以到目标字典中的各个字符在图2所示的各字符位置上的概率,由于目标字典中不同字符在不同字符位置上与关键词句的关联程度不同,因此对于同一个字符位置,得到的目标字典中的各个字符的概率是不同的,并且对于不同字符位置,目标字典中的同一字符的概率可能也是不同的,为目标字典中的“我”和“他”这两字符为例,如图2所示时,对于数字7所在的字符位置,“我”的概率可能是0.9,“他”的概率可能为0.8,对于数字6所在的字符位置,“我”的概率可能是0.7,“他”的概率可能为0.8,对于数字5所在的字符位置,“我”的概率可能是0.1,“他”的概率可能为0.3,对于数字4所在的字符位置,“我”的概率可能是0.5,“他”的概率可能为0.9,对于数字3所在的字符位置,“我”的概率可能是0.1,“他”的概率可能为0.8,其他数字所在的字符位置的概率在此不再一一赘述。
在得到目标字典中的各个字符在关键词句两侧的各预设位置上的概率后,根据上述得到的概率,从目标字典中选择出目标字符,然后按照目标字符和关键语句的位置关系生成目标标题,以图2为例,当选择出的目标字符包括数字1-7对应的字符位置上的字符时,根据各目标字符对应的字符位置和关键语句的位置关系生成的目标标题为“XXXXXXX三国手游”,当选择出的目标字符包括数字3-10对应的字符位置上的字符时,根据各目标字符对应的字符位置和关键语句的位置关系生成的目标标题为“XXXXX三国手游XXX”,当选择出的目标字符包括数字8-14对应的字符位置上的字符时,根据各目标字符对应的字符位置和关键语句的位置关系生成的目标标题为“三国手游XXXXXXX”,其中,一个“X”表示一个目标字符。
其中,生成的目标标题的数量至少为一个,举例说明,当关键语句为“三国志”时,生成的目标标题至少可以为以下几种:“这才是三国志,还原经典三国,招募武将,攻城略地,统一三国!”,或者“《三国志》正统新作!ios终于上线!老玩家已玩疯!”,当关键语句为“随便测试测试”时,生成的目标标题至少可以为以下几种:“1.你的脸型也可以这么好看?随便测试测试,就能让你颜值更高”,或者“想知道什么叫做表情包?一键随便测试测试!”。在生成目标标题后可以将所有的目标标题显示到媒体内容投放用户的用户端上,以供用户选择,在用户选择出指定的目标标题后,可以以指定的目标标题作为媒体内容标题进行媒体内容投放。
在上述方法中,在获得目标标题的核心内容后,采用在该关键词句两侧双向续写的方式,确定位于关键词句左右两侧的目标字符,此时确定出来的目标字符可以都位于关键词句的左侧或者右侧,或者关键词句两侧都有目标字符,在生成目标标题后,目标标题中不仅包括关键词句,还包括目标字符,并且目标字符根据目标字典中的各个字符在关键词句两侧的各预设位置上的概率确定的,因此确定出来的目标字符与关键词句的匹配度相对较高,同时各目标字符和关键词句是有先后位置关系的,因此得到的目标标题也相对通顺,通过上述方法可以在只输入关键词句的情况下就可以得到目标标题,因此有利于降低用户在投放媒体内容时的投放难度。
需要再次说明的是,输入参数在输入概率预测模型前可以根据实际需要对输入参数进行转换,例如:在确定出关键词句的整体向量后,将该整体向量作为输入参数输入到概率预测模型中,关于输入参数在输入到概率预测模型之前进行何种处理在此不做具体限定,并且,关于具体使用的概率预测模型在此不做具体限定。
需要注意的是,在将一个媒体内容(包括目标标题)投放给用户之前,需要先对人群进行圈选,然后再将该媒体内容投放给圈选结果中包括的用户,举例说明,投放平台可以根据用户在该平台上的行为信息为该用户设置标签,然后根据为用户设置的标签,将该用户的UID(User Identification,用户身份标识)设置到对应的人群包中,从而可以得到多个人群包,然后投放平台根据媒体内容投放用户设定的媒体内容投放人群,确定出多个目标人群包,然后从多个目标人群包中圈选出符合要求的用户,以作为将要投放目标媒体内容的用户,例如:当平台根据用户在平台上的行为信息确定该用户的年龄为18岁、所在位置为北京,兴趣爱好为骑行时,将该用户的UID设置到18岁对应的人群包、北京对应的人群包和骑行对应的人群包中,当媒体内容投放用户在该平台投放目标媒体内容为自行车,目标媒体内容的投放人群为18岁爱好骑行的北京青年时,确定出来的人群包包括:18岁对应的人群包、北京对应的人群包和骑行对应的人群包,然后对上述三个人群包进行圈选,得到同时存在于上述三个人群包的用户,并将圈选出来的用户作为将要投放目标媒体内容的用户,或者是将整个平台下的用户都作为将要投放目标媒体内容的用户等,具体确定将要投放目标媒体内容的用户的方法在此不做具体限定。
需要再次说明的是,用户在点击用户端上显示的媒体内容标题后,可以在用户端上直接显示媒体内容内容,例如:产品说明,或者也可以在用户端上进行跳转后显示媒体内容内容,例如:产品售卖的页面,关于用户在点击用户端上显示的媒体内容标题后的显示内容在此不做具体限定。
同时,将一个词语或者一个语句设置为关键词句,这样可以使关键词句的设置方式更加自由,有利于降低关键词句的设置难度。
在一个可行的实施方案中,图3为本申请实施例一提供的另一种标题生成方法的流程示意图,如图3所示,在执行步骤102时,可以通过以下步骤实现:
步骤301、对所述关键词句进行切字处理,得到所述关键词句包括的各个字符。
步骤302、查询所述关键词句包括的各个字符在所述目标字典中对应的第一ID(Identification,身份标识)。
步骤303、将所述第一ID作为输入参数输入到transformer模型,得到所述目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率。
具体的,目标字典中包括的各个字符都配置有对应的ID,通过ID可以找到目标字典中对应的字符,为了降低数据处理量,可以先对关键词句进行切字处理,得到关键词句包括的各个字符,然后查询各个字符在目标字典中对应的第一ID,例如:当关键词句为“太美了”时,关键词句包括的字符为“太”、“美”、“了”,分别从目标字典中确定上述字符对应的ID,然后将确定出来的ID输入到transformer模型,以得到目标字典中的各个字符在各预设位置上的概率,在上述方法中使用ID对字符进行替换,并且ID的表示方式比字符的表示方式更加简单,因此有利于降低数据处理量。
在一个可行的实施方案中,在执行步骤103时,根据各所述预设位置在所述目标标题中与所述关键词句由小到大的间距顺序,从所述目标字典中依次确定所述目标字符;其中,所述目标标题中与所述关键词句间距最小的目标字符依据概率采样,以及所述关键词句中与所述间距最小的目标字符相邻的字符的语义确定,所述目标标题中的其他目标字符依据概率采样,以及与该目标字符相邻的所述目标标题中已确定的字符的语义确定。
具体的,为了使生成的目标标题更加通顺,在确定目标字符时,按照距离关键词句由近及远的顺序依次确定,并且在每次确定目标字符时,都是通过目标标题中已确定的字符的语义确定,以图2为例,需要先确定数字7和数字8所在字符位置上的目标字符,其中,在确定数字7所在字符位置上的目标字符时需要根据关键词句中的“三”来进行确定,在确定数字7所在字符位置上的目标字符需要依据概率采样和“三”的语义来进行确定,在确定数字8所在字符位置上的目标字符时需要根据关键词句中的“游”来进行确定,在确定数字8所在字符位置上的目标字符需要依据概率采样和“游”的语义来进行确定;在确定出数字7和数字8所在字符位置上的目标字符后,可以再确定数字6和数字9所在字符位置上的目标字符,其中,在确定数字6所在字符位置上的目标字符时需要根据数字7所在的字符位置上确定出的目标字符来进行确定,并且是依据概率采样和数字7所在的字符位置上确定出的目标字符的语义来进行确定的,在确定数字9所在字符位置上的目标字符时需要根据数字8所在的字符位置上确定出的目标字符来进行确定,并且是依据概率采样和数字8所在的字符位置上确定出的目标字符的语义来进行确定的,以此类推,直至得到所有的目标字符。
需要说明的是,目标字符的数量,以及与关键词句的位置关系是根据概率采样和语义确定的,例如,确定出来的目标字符可能只位于关键词句的右侧,关键词句的左侧不存在任何目标字符,或者右侧没有任何目标字符只有左侧存在目标字符,再或者,关键词句左侧存在三个目标字符,右侧存在四个字符,亦或者是,关键词句的左侧存在五个目标字符,右侧存在两个个字符等情况。
在一个可行的实施方案中,述概率预测模型是通过使用元素对应的样本标题和该元素作为训练样本进行训练后得到的,其中,所述元素为一元组至N元组包括的元素,一元组包括的元素为所述样本标题包括的各个词语,二元组包括的元素为所述样本标题包括的各个词语中相邻的两个词语构成的语句,三元组包括的元素为所述样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推,N等于所述样本标题包括的词语的数量,一元组至N元组是通过对所述样本标题进行切词处理后,由得到的各个词语构建的。
具体的,在使用概率预测模型之前,需要对概率预测模型进行训练,在对概率预测模型进行训练时,需要先构建模型训练样本。在构建一个模型训练样本之前,先设定样本标题,例如:该样本标题可以为“三国手游震撼来袭,武将靠招募”然后对该样本标题进行切词处理,得到该样本包括的各个词语,以上述样本标题为例得到的词语包括:“三国”、“手游”、“震撼来袭”“,”、“武将”、“靠”、“招募”,然后利用上述的到的词语构建N个元组,以上述得到的词语为例,可以得到7个元组,分别是:一元组、二元组、三元组、四元组、五元组、六元组和七元组,其中,一元组包括的元素有:“三国”、“手游”、“震撼来袭”“,”、“武将”、“靠”、“招募”;二元组包括的元素有:“三国手游”、“手游震撼来袭”、“震撼来袭,”、“,武将”、“武将靠”、“靠招募”;三元组包括的元素有:“三国手游震撼来袭”、“手游震撼来袭,”、“震撼来袭,武将”“,武将靠”、“武将靠招募”;四元组包括的元素有:“三国手游震撼来袭,”、“手游震撼来袭,武将”、“震撼来袭,武将靠”、“,武将靠招募”;五元组包括的元素有:“三国手游震撼来袭,武将”、“手游震撼来袭,武将靠”、“震撼来袭,武将靠招募”;六元组包括的元素有:“三国手游震撼来袭,武将靠”、“手游震撼来袭,武将靠招募”;七元组包括的元素有:“三国手游震撼来袭,武将靠招募”,上述每个元素都可以和上述的样本标题构建成一个训练样本,例如:一元组中的“三国”和样本标题“三国手游震撼来袭,武将靠招募”可以构建一个训练样本,七元组中的“三国手游震撼来袭,武将靠招募”和样本标题“三国手游震撼来袭,武将靠招募”也可以构建一个训练样本,然后使用构建出来的训练样本对概率预测模型进行训练,当设定了其他样本标题后,可以将该样本标题下的各元组包括的各元素和该样本标题构建出多个训练样本,并对概率预测模型进行训练。
需要说明的是,在对概率预测模型进行训练时,每个模型训练样本可以使用多次,关于具体的训练方式在此不做具体限定。
在一个可行的实施方案中,所述概率预测模型是通过所述元素包括的各第一字符在所述目标字典中对应的第二ID,以及所述样本标题包括各第二字符在所述目标字典中对应的第三ID进行训练后得到的。
关于第二ID和第三ID的得到方式可参考图3中的相关说明,在此不再详细说明,在得到第二ID和第三ID后,可以使用第三ID和第四ID构建出来的训练样本对概率预测模型进行训练,通过上述方法可以降低数据处理量,加快数据处理速度。
在一个可行的实施方案中,所述概率预测模型的第一损失值的变化范围位于预设范围内,其中,第二损失值是将所述第二ID作为输入参数输入到所述概率预测模型中得到的输出矩阵与所述第三ID对应的矩阵之间的损失值,当所述第二损失值不位于所述预设范围内时,将所述第二损失值作为输入参数输入到指定的反响转播算法中,使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到所述第一损失值。
具体的,在将训练样本输入到概率预测模型后,概率预测模型对训练样本进行处理后可以得到输出矩阵,该矩阵能够表示输出语句,即:输出的标题,为了使输出的标题与设定的样本标题比较接近,需要计算输出矩阵和第三ID对应的矩阵之间的损失值,然后将损失值作为输入参数通过反向传播算法对概率预测模型中的可学习参数进行调整,以上为一次训练过程,在经过多次训练后,可以对可学习参数进行多次调整,并且每次调整后都可以减小输出的语句与样本标题之间的损失值,直至损失值预设范围内,此时则完成了训练,使用训练完成的概率预测模型再次得到的输出语句能够与样本标题基本相同,或者能够表示基本相同的语义,从而在使用训练完成的概率预测模型生成目标标题时,可以使目标标题与预想的标题基本一致。
实施例二
图4为本申请实施例二提供的一种用于标题生成的概率预测模型训练方法的流程示意图,如图4所示,所述概率预测模型用于得到目标字典中的各个字符在目标词语两侧的各预设位置上的概率,该方法还包括以下步骤:
步骤401、对于获取到的每个样本标题,对该样本标题进行切词处理,得到该样本标题包括的各个词语,其中,该样本标题中包括的任一标点符号作为一个词语。
步骤402、使用该样本标题包括的各个词语构建N个元组,其中,N等于该样本标题包括的词语的数量,所述N个元组中的一元组包括的元素为该样本标题包括的各个词语,所述N个元组中的二元组包括的元素为该样本标题包括的各个词语中相邻的两个词语构成的语句,所述N个元组中的三元组包括的元素为该样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推。
步骤403、对于每个元素,将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练。
关于图4所示的详细原理可参考实施例一中关于训练的相关说明,在此不再详细赘述。
需要说明的是,在对概率预测模型进行训练时,每个模型训练样本可以使用多次,关于具体的训练方式在此不做具体限定。
通过上述方法对概率预测模型训练完成后,可以在只输入关键词句的情况下就可以得到目标标题,因此有利于降低用户在投放媒体内容时的投放难度。
在一个可行的实施方案中,图5为本申请实施例二提供的另一种用于标题生成的概率预测模型训练方法的流程示意图,如图5所示,在执行步骤403时,可以通过以下步骤实现:
步骤501、对该元素和该元素对应的样本标题分别进行切字处理,得到该元素包括的各第一字符和该元素对应的样本标题包括各第二字符。
步骤502、查询所述第一字符在所述目标字典中对应的第二ID,以及所述第二字符在所述目标字典中对应的第三ID。
步骤503、使用所述第二ID和所述第三ID对所述概率预测模型进行训练。
关于图5所示的详细原理可参考实施例一中关于训练的相关说明,在此不再详细赘述。
在一个可行的实施方案中,图6为本申请实施例二提供的另一种用于标题生成的概率预测模型训练方法的流程示意图,如图6所示,在执行步骤503时,可以通过以下步骤实现:
步骤601、将所述第二ID作为输入参数,输入到所述概率预测模型中,得到输出矩阵。
步骤602、确定所述输出矩阵和所述第三ID对应的矩阵之间的损失值。
步骤603、将所述损失值作为输入参数,输入到指定的反向传播算法中。
步骤604、使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到的输出矩阵和所述第三ID对应的矩阵之间的损失值的变化范围位于预设范围内。
关于图6所示的详细原理可参考实施例一中关于训练的相关说明,在此不再详细赘述。
实施例三
图7为本申请实施例三提供的一种标题生成装置的结构示意图,如图7所示,该装置包括:
获取单元71,用于获取为目标标题设置的关键词句,其中,所述关键词句包括:关键词或关键语句;
确定单元72,用于将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率,其中,各所述预设位置为设置在所述关键词句两侧的各字符位置;
选择单元73,用于根据所述概率,从所述目标字典中选择出目标字符;
生成单元74,用于根据所述目标字符和所述关键词句的位置关系,生成所述目标标题。
在一个可行的实施方案中,所述确定单元72用于将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率时,包括:
对所述关键词句进行切字处理,得到所述关键词句包括的各个字符;
查询所述关键词句包括的各个字符在所述目标字典中对应的第一身份标识ID;
将所述第一ID作为输入参数输入到transformer模型,得到所述目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率。
在一个可行的实施方案中,所述选择单元73用于根据所述概率,从所述目标字典中选择出目标字符时,包括:
根据各所述预设位置在所述目标标题中与所述关键词句由小到大的间距顺序,从所述目标字典中依次确定所述目标字符;
其中,所述目标标题中与所述关键词句间距最小的目标字符依据概率采样,以及所述关键词句中与所述间距最小的目标字符相邻的字符的语义确定,所述目标标题中的其他目标字符依据概率采样,以及与该目标字符相邻的所述目标标题中已确定的字符的语义确定。
在一个可行的实施方案中,所述概率预测模型是通过使用元素对应的样本标题和该元素作为训练样本进行训练后得到的,其中,所述元素为一元组至N元组包括的元素,一元组包括的元素为所述样本标题包括的各个词语,二元组包括的元素为所述样本标题包括的各个词语中相邻的两个词语构成的语句,三元组包括的元素为所述样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推,N等于所述样本标题包括的词语的数量,一元组至N元组是通过对所述样本标题进行切词处理后,由得到的各个词语构建的。
在一个可行的实施方案中,所述概率预测模型是通过所述元素包括的各第一字符在所述目标字典中对应的第二ID,以及所述样本标题包括各第二字符在所述目标字典中对应的第三ID进行训练后得到的。
在一个可行的实施方案中,所述概率预测模型的第一损失值的变化范围位于预设范围内,其中,第二损失值是将所述第二ID作为输入参数输入到所述概率预测模型中得到的输出矩阵与所述第三ID对应的矩阵之间的损失值,当所述第二损失值不位于所述预设范围内时,将所述第二损失值作为输入参数输入到指定的反响转播算法中,使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到所述第一损失值。
关于实施例三的原理解释可参考实施例一的相关说明,在此不再详细赘述。
实施例四
图8为本申请实施例四提供的一种用于标题生成的概率预测模型训练装置的结构示意图,所述概率预测模型用于得到目标字典中的各个字符在目标词语两侧的各预设位置上的概率,如图8所示,所述装置包括:
切词单元81,用于对于获取到的每个样本标题,对该样本标题进行切词处理,得到该样本标题包括的各个词语,其中,该样本标题中包括的任一标点符号作为一个词语;
构建单元82,用于使用该样本标题包括的各个词语构建N个元组,其中,N等于该样本标题包括的词语的数量,所述N个元组中的一元组包括的元素为该样本标题包括的各个词语,所述N个元组中的二元组包括的元素为该样本标题包括的各个词语中相邻的两个词语构成的语句,所述N个元组中的三元组包括的元素为该样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推;
训练单元83,用于对于每个元素,将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练。
在一个可行的实施方案中,所述训练单元83用于将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练时,包括:
对该元素和该元素对应的样本标题分别进行切字处理,得到该元素包括的各第一字符和该元素对应的样本标题包括各第二字符;
查询所述第一字符在所述目标字典中对应的第二ID,以及所述第二字符在所述目标字典中对应的第三ID;
使用所述第二ID和所述第三ID对所述概率预测模型进行训练。
在一个可行的实施方案中,所述训练单元83用于使用所述第二ID和所述第三ID对所述概率预测模型进行训练时,包括:
将所述第二ID作为输入参数,输入到所述概率预测模型中,得到输出矩阵;
确定所述输出矩阵和所述第三ID对应的矩阵之间的损失值;
将所述损失值作为输入参数,输入到指定的反向传播算法中;
使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到的输出矩阵和所述第三ID对应的矩阵之间的损失值的变化范围位于预设范围内。
关于实施例四的原理说明可参考实施例二的相关解释,在此不做具体限定。
实施例五
图9为本申请实施例五提供的一种电子设备的结构示意图,包括:处理器901、存储介质902和总线903,所述存储介质902存储有所述处理器901可执行的机器可读指令,当电子设备运行上述的标题生成方法或用于标题生成的概率预测模型训练方法时,所述处理器901与所述存储介质902之间通过总线903通信,所述处理器901执行所述机器可读指令,以执行实施例一中或实施例二中任一所述的方法的步骤。
实施例四
本申请实施例四还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例一中或实施例二任一所述的方法的步骤。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种标题生成方法,其特征在于,包括:
获取为目标标题设置的关键词句,其中,所述关键词句包括:关键词或关键语句;
将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率,其中,各所述预设位置为设置在所述关键词句两侧的各字符位置;
根据所述概率,从所述目标字典中选择出目标字符;
根据所述目标字符和所述关键词句的位置关系,生成所述目标标题,其中,所述目标标题包括所述关键词句。
2.如权利要求1所述的方法,其特征在于,所述将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率,包括:
对所述关键词句进行切字处理,得到所述关键词句包括的各个字符;
查询所述关键词句包括的各个字符在所述目标字典中对应的第一身份标识ID;
将所述第一ID作为输入参数输入到transformer模型,得到所述目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率。
3.如权利要求1所述的方法,其特征在于,根据所述概率,从所述目标字典中选择出目标字符,包括:
根据各所述预设位置在所述目标标题中与所述关键词句由小到大的间距顺序,从所述目标字典中依次确定所述目标字符;
其中,所述目标标题中与所述关键词句间距最小的目标字符依据概率采样,以及所述关键词句中与所述间距最小的目标字符相邻的字符的语义确定,所述目标标题中的其他目标字符依据概率采样,以及与该目标字符相邻的所述目标标题中已确定的字符的语义确定。
4.如权利要求1所述的方法,其特征在于,所述概率预测模型是通过使用元素对应的样本标题和该元素作为训练样本进行训练后得到的,其中,所述元素为一元组至N元组包括的元素,一元组包括的元素为所述样本标题包括的各个词语,二元组包括的元素为所述样本标题包括的各个词语中相邻的两个词语构成的语句,三元组包括的元素为所述样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推,N等于所述样本标题包括的词语的数量,一元组至N元组是通过对所述样本标题进行切词处理后,由得到的各个词语构建的。
5.如权利要求4所述的方法,其特征在于,所述概率预测模型是通过所述元素包括的各第一字符在所述目标字典中对应的第二ID,以及所述样本标题包括各第二字符在所述目标字典中对应的第三ID进行训练后得到的。
6.如权利要求5所述的方法,其特征在于,所述概率预测模型的第一损失值的变化范围位于预设范围内,其中,第二损失值是将所述第二ID作为输入参数输入到所述概率预测模型中得到的输出矩阵与所述第三ID对应的矩阵之间的损失值,当所述第二损失值不位于所述预设范围内时,将所述第二损失值作为输入参数输入到指定的反响转播算法中,使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到所述第一损失值。
7.一种用于标题生成的概率预测模型训练方法,其特征在于,所述概率预测模型用于得到目标字典中的各个字符在目标词语两侧的各预设位置上的概率,所述方法包括:
对于获取到的每个样本标题,对该样本标题进行切词处理,得到该样本标题包括的各个词语,其中,该样本标题中包括的任一标点符号作为一个词语;
使用该样本标题包括的各个词语构建N个元组,其中,N等于该样本标题包括的词语的数量,所述N个元组中的一元组包括的元素为该样本标题包括的各个词语,所述N个元组中的二元组包括的元素为该样本标题包括的各个词语中相邻的两个词语构成的语句,所述N个元组中的三元组包括的元素为该样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推;
对于每个元素,将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练。
8.如权利要求7所述的方法,其特征在于,所述将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练,包括:
对该元素和该元素对应的样本标题分别进行切字处理,得到该元素包括的各第一字符和该元素对应的样本标题包括各第二字符;
查询所述第一字符在所述目标字典中对应的第二ID,以及所述第二字符在所述目标字典中对应的第三ID;
使用所述第二ID和所述第三ID对所述概率预测模型进行训练。
9.如权利要求8所述的方法,其特征在于,所述使用所述第二ID和所述第三ID对所述概率预测模型进行训练,包括:
将所述第二ID作为输入参数,输入到所述概率预测模型中,得到输出矩阵;
确定所述输出矩阵和所述第三ID对应的矩阵之间的损失值;
将所述损失值作为输入参数,输入到指定的反向传播算法中;
使用携带有输入参数的反向传播算法对所述概率预测模型中的参数进行调整,直至得到的输出矩阵和所述第三ID对应的矩阵之间的损失值的变化范围位于预设范围内。
10.一种标题生成装置,其特征在于,包括:
获取单元,用于获取为目标标题设置的关键词句,其中,所述关键词句包括:关键词或关键语句;
确定单元,用于将所述关键词句作为概率预测模型的输入参数,利用所述概率预测模型得到目标字典中的各个字符在所述关键词句两侧的各预设位置上的概率,其中,各所述预设位置为设置在所述关键词句两侧的各字符位置;
选择单元,用于根据所述概率,从所述目标字典中选择出目标字符;
生成单元,用于根据所述目标字符和所述关键词句的位置关系,生成所述目标标题,其中,所述目标标题包括所述关键词句。
11.一种用于标题生成的概率预测模型训练装置,其特征在于,所述概率预测模型用于得到目标字典中的各个字符在目标词语两侧的各预设位置上的概率,所述装置包括:
切词单元,用于对于获取到的每个样本标题,对该样本标题进行切词处理,得到该样本标题包括的各个词语,其中,该样本标题中包括的任一标点符号作为一个词语;
构建单元,用于使用该样本标题包括的各个词语构建N个元组,其中,N等于该样本标题包括的词语的数量,所述N个元组中的一元组包括的元素为该样本标题包括的各个词语,所述N个元组中的二元组包括的元素为该样本标题包括的各个词语中相邻的两个词语构成的语句,所述N个元组中的三元组包括的元素为该样本标题包括的各个词语中相邻的三个词语构成的语句,以此类推;
训练单元,用于对于每个元素,将该元素对应的样本标题和该元素作为训练样本对所述概率预测模型进行训练。
12.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至6中任一项或权利要求7至9中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6中任一项或权利要求7至9中任一项所述的方法的步骤。
CN202010989342.6A 2020-09-18 2020-09-18 标题生成方法、训练方法、装置、电子设备和存储介质 Active CN112149408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010989342.6A CN112149408B (zh) 2020-09-18 2020-09-18 标题生成方法、训练方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010989342.6A CN112149408B (zh) 2020-09-18 2020-09-18 标题生成方法、训练方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112149408A CN112149408A (zh) 2020-12-29
CN112149408B true CN112149408B (zh) 2022-11-08

Family

ID=73893948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010989342.6A Active CN112149408B (zh) 2020-09-18 2020-09-18 标题生成方法、训练方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112149408B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933806A (zh) * 2019-04-01 2019-06-25 长沙理工大学 一种复述生成方法、系统、设备及计算机可读存储介质
CN110134931A (zh) * 2019-05-14 2019-08-16 北京字节跳动网络技术有限公司 媒介标题生成方法、装置、电子设备及可读介质
CN110263147A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 推送信息的生成方法及装置
CN111460800A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种事件生成方法、装置、终端设备及存储介质
CN111625645A (zh) * 2020-05-14 2020-09-04 北京字节跳动网络技术有限公司 文本生成模型的训练方法、装置和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140267045A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Adaptive Language Models for Text Predictions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933806A (zh) * 2019-04-01 2019-06-25 长沙理工大学 一种复述生成方法、系统、设备及计算机可读存储介质
CN110134931A (zh) * 2019-05-14 2019-08-16 北京字节跳动网络技术有限公司 媒介标题生成方法、装置、电子设备及可读介质
CN110263147A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 推送信息的生成方法及装置
CN111460800A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种事件生成方法、装置、终端设备及存储介质
CN111625645A (zh) * 2020-05-14 2020-09-04 北京字节跳动网络技术有限公司 文本生成模型的训练方法、装置和电子设备

Also Published As

Publication number Publication date
CN112149408A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
US20190114668A1 (en) Application recommendation method and server
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
CN109783817A (zh) 一种基于深度强化学习的文本语义相似计算模型
CN109241526B (zh) 一种段落分割方法和装置
CN108304526A (zh) 一种数据处理方法、装置及服务器
Cecillon et al. Abusive language detection in online conversations by combining content-and graph-based features
KR20210034679A (ko) 엔티티-속성 관계 식별
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质
CN117909586A (zh) 内容推荐方法、装置、电子设备和存储介质
Veiga et al. Privacy leakage through innocent content sharing in online social networks
CN112149408B (zh) 标题生成方法、训练方法、装置、电子设备和存储介质
CN112149407A (zh) 标题生成方法、训练方法、装置、电子设备和存储介质
CN112883725A (zh) 一种文案生成方法、装置、电子设备、存储介质
CN111859930A (zh) 一种标题生成方法、装置、电子设备和存储介质
CN111597469A (zh) 展示位置的确定方法、确定装置、电子设备及存储介质
CN115630639A (zh) 一种关键词抽取方法、装置、计算机设备及存储介质
Przybyła Detecting bot accounts on twitter by measuring message predictability
CN111859918B (zh) 一种标题生成方法、装置、电子设备和存储介质
CN115630152A (zh) 虚拟人物直播对话的方式、装置、电子设备及存储介质
Kosmopoulos et al. Summarizing Game Reviews: First Contact.
CN113392309A (zh) 一种数据处理方法、装置、设备及存储介质
CN112215005A (zh) 实体识别方法及装置
CN113535886A (zh) 信息处理方法、装置和设备
Alnajjar Computational Analysis and Generation of Slogans
KR102470799B1 (ko) 게임에 대한 표준 콘텐츠를 결정하기

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant