CN113536778A - 标题的生成方法、装置和计算机可读存储介质 - Google Patents
标题的生成方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113536778A CN113536778A CN202010290081.9A CN202010290081A CN113536778A CN 113536778 A CN113536778 A CN 113536778A CN 202010290081 A CN202010290081 A CN 202010290081A CN 113536778 A CN113536778 A CN 113536778A
- Authority
- CN
- China
- Prior art keywords
- title
- attribute
- word
- score
- attribute word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000011218 segmentation Effects 0.000 claims abstract description 131
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012804 iterative process Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 230000006399 behavior Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000005498 polishing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种标题的生成方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:针对同一类型的多个对象的各条原始标题,确定各条原始标题中各个分词对应的属性词,得到各条原始标题对应的属性词序列;针对每个属性词,确定该属性词在其他属性词的相邻预设位置出现的条件概率,作为该属性词对应的条件概率;根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在新标题中对应的分词位置;根据各个属性词在新标题中对应的分词位置和各个属性词对应的分词,生成对象的新标题。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种标题的生成方法、装置和计算机可读存储介质。
背景技术
标题是对一件商品,一篇文章或一段视频等对象的简明概括。标题属于用户看到的最首要信息,其描述的精准性,直接影响用户是否会对对象进行进一步访问和操作。
目前,标题大都采用人工手动输入。
发明内容
发明人发现,采用人工输入标题的方式,标题对对象的描述可能不够准确,或者出现错误描述,或者容易出现标题中重要的词放在不明显的位置等情况。
本公开所要解决的一个技术问题是:提出一种自动生成标题的方式,能够提高标题对对象描述的准确性,合理性。
根据本公开的一些实施例,提供的一种标题的生成方法,包括:针对同一类型的多个对象的各条原始标题,确定各条原始标题中各个分词对应的属性词,得到各条原始标题对应的属性词序列;针对每个属性词,确定该属性词在其他属性词的相邻预设位置出现的条件概率,作为该属性词对应的条件概率;根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在新标题中对应的分词位置;根据各个属性词在新标题中对应的分词位置和各个属性词对应的分词,生成对象的新标题。
在一些实施例中,确定各个属性词在新标题中对应的分词位置包括:根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置。
在一些实施例中,确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置包括:根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;根据标题的得分模型,确定使标题的得分最高的情况下,各个属性词在标题中对应的分词位置,作为各个属性词在新标题中对应的分词位置。
在一些实施例中,确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置包括:根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;根据标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;其中,从标题的第一个分词位置到标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
在一些实施例中,确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置包括:根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题的长度权重、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件,标题中分词的个数越多,标题的长度权重越大;根据标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;其中,从标题的第一个分词位置到标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
在一些实施例中,根据标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到标题结束的分词位置对应的各个属性词包括:根据预设步长和上一周期设置的标题中分词的个数,设置当前周期的标题中分词的个数;将当前周期的标题中分词的个数代入标题的得分模型,确定使标题的得分最高的情况下,从标题的第一个分词位置到标题结束的分词位置对应的各个属性词以及标题的得分值,作为当前周期确定的标题对应的各个属性词以及标题的得分值;选取各个周期确定的标题的得分值的最大值,并确定该最大值对应的标题对应的各个属性词。
在一些实施例中,一个周期包括多次迭代过程;确定使标题的得分最高的情况下,从标题的第一个分词位置到标题结束的分词位置对应的各个属性词以及标题的得分值包括:每次迭代过程中,从各个属性词中选取预设数量的属性词,将当前周期的标题中分词的个数代入标题的得分模型,确定使标题的得分最高的情况下,从标题的第一个分词位置到标题结束的分词位置对应的各个属性词以及标题的得分值,作为本次迭代确定的标题对应的各个属性词以及标题的得分值;选取各次迭代过程确定的标题的得分值的最大值,将该最大值对应的标题对应的各个属性词以及该最大值,分别作为当前周期确定的标题对应的各个属性词以及标题的得分值。
在一些实施例中,标题的得分模型中标题的得分为位置得分与长度得分的差值;位置得分采用以下方法确定:针对每个属性词,确定该属性词在标题中对应的分词位置的预设权重与该属性词在该属性词的后一个属性词相邻前一位置出现的条件概率的乘积;将各个属性词对应的乘积相加;长度得分为标题的长度与标题的长度权重的乘积。
在一些实施例中,标题的得分模型采用以下公式表示:
wordpi,wordqj∈{0,1}
其中,W表示标题的得分,max_p表示标题中分词的个数,p表示标题中按预设顺序的第p个分词位置,0≤p≤max_p,p为整数,q表示标题中按预设顺序的第q个分词位置,1≤q=(p+1)≤max_p,q为整数,max_w表示属性词的个数,i表示属性词的编号,0≤i≤max_w,i为整数,j表示属性词的编号,0≤j≤max_w,j为整数,weightp表示第p个分词位置的权重,wordpi取0表示第i个属性词未放置到第p个分词位置,wordpi取1表示第i个属性词放置到第p个分词位置,wordqj取0表示第j个属性词未放置到第q个分词位置,wordqj取1表示第j个属性词放置到第q个分词位置,Fi,j(wordp,wordq)表示在第q个分词位置放置第j个属性词的条件下,在p个分词位置放置第i个属性词的条件概率,weightlength表示标题的长度权重。
在一些实施例中,还包括:获取用户对类型的一个或多个对象的历史访问信息;历史访问信息包括:用户历史访问的各对象的原始标题;根据用户历史访问的各对象的原始标题中各个分词对应的属性词,确定用户偏好的属性词序列;根据用户偏好的属性词序列对新标题进行调整;将调整后的标题显示给用户。
在一些实施例中,根据用户历史访问的各对象对应的原始标题中各个分词对应的属性词,确定用户偏好的属性词序列包括:将用户历史访问的各对象对应的原始标题中各个分词对应的属性词作为候选属性词,根据各个候选属性词出现的概率,确定用户偏好的属性词序列。
在一些实施例中,还包括:根据用户历史访问的类型的一个或多个对象的信息预测用户下一时刻访问的对象;根据用户下一时刻访问的对象的原始标题中各个分词对应的属性词,确定用户偏好的属性词序列;根据用户偏好的属性词序列对新标题进行调整;将调整后的标题显示给用户。
在一些实施例中,根据用户偏好的属性词序列对新标题进行调整包括:将用户偏好的属性词序列与新标题对应的属性词序列进行比对;在用户偏好的属性词序列与新标题对应的属性词序列的属性词相同且属性词的位置不同的情况下,将新标题中各个分词,按照用户偏好的属性词序列中各个属性词的位置进行调整;在用户偏好的属性词序列包括与新标题对应的属性词序列中不同的属性词的情况下,在满足标题的最大分词数的约束条件下,根据预设选取顺序,从用户偏好的属性词序列选取属性词,将选取的属性词对应的分词添加到新标题之中,或者用选取的属性词对应的分词替换新标题中分词位置排序在后的分词。
在一些实施例中,还包括:根据用户输入的搜索关键词和各个新标题的匹配结果,生成搜索结果并进行显示。
根据本公开的另一些实施例,提供的一种标题的生成装置,包括:属性词确定模块,用于针对同一类型的多个对象的各条原始标题,确定各条原始标题中各个分词对应的属性词,得到各条原始标题对应的属性词序列;概率确定模块,用于针对每个属性词,确定该属性词在其他属性词的相邻预设位置出现的条件概率,作为该属性词对应的条件概率;位置确定模块,用于根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在新标题中对应的分词位置;标题生成模块,用于根据各个属性词在新标题中对应的分词位置和各个属性词对应的分词,生成对象的新标题。
在一些实施例中,位置确定模块用于根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置。
在一些实施例中,位置确定模块用于根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;根据标题的得分模型,确定使标题的得分最高的情况下,各个属性词在标题中对应的分词位置,作为各个属性词在新标题中对应的分词位置。
在一些实施例中,位置确定模块用于根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;根据标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;其中,从标题的第一个分词位置到标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
在一些实施例中,位置确定模块用于根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题的长度权重、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件,标题中分词的个数越多,标题的长度权重越大;根据标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;其中,从标题的第一个分词位置到标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
在一些实施例中,位置确定模块用于根据预设步长和上一周期设置的标题中分词的个数,设置当前周期的标题中分词的个数;将当前周期的标题中分词的个数代入标题的得分模型,确定使标题的得分最高的情况下,从标题的第一个分词位置到标题结束的分词位置对应的各个属性词以及标题的得分值,作为当前周期确定的标题对应的各个属性词以及标题的得分值;选取各个周期确定的标题的得分值的最大值,并确定该最大值对应的标题对应的各个属性词。
在一些实施例中,一个周期包括多次迭代过程;位置确定模块用于每次迭代过程中,从各个属性词中选取预设数量的属性词,将当前周期的标题中分词的个数代入标题的得分模型,确定使标题的得分最高的情况下,从标题的第一个分词位置到标题结束的分词位置对应的各个属性词以及标题的得分值,作为本次迭代确定的标题对应的各个属性词以及标题的得分值;选取各次迭代过程确定的标题的得分值的最大值,将该最大值对应的标题对应的各个属性词以及该最大值,分别作为当前周期确定的标题对应的各个属性词以及标题的得分值。
在一些实施例中,标题的得分模型中标题的得分为位置得分与长度得分的差值;位置得分采用以下方法确定:针对每个属性词,确定该属性词在标题中对应的分词位置的预设权重与该属性词在该属性词的后一个属性词相邻前一位置出现的条件概率的乘积;将各个属性词对应的乘积相加;长度得分为标题的长度与标题的长度权重的乘积。
在一些实施例中,标题的得分模型采用以下公式表示:
wordpi,wordqj∈{0,1}
其中,W表示标题的得分,max_p表示标题中分词的个数,p表示标题中按预设顺序的第p个分词位置,0≤p≤max_p,p为整数,q表示标题中按预设顺序的第q个分词位置,1≤q=(p+1)≤max_p,q为整数,max_w表示属性词的个数,i表示属性词的编号,0≤i≤max_w,i为整数,j表示属性词的编号,0≤j≤max_w,j为整数,weightp表示第p个分词位置的权重,wordpi取0表示第i个属性词未放置到第p个分词位置,wordpi取1表示第i个属性词放置到第p个分词位置,wordqj取0表示第j个属性词未放置到第q个分词位置,wordqj取1表示第j个属性词放置到第q个分词位置,Fi,j(wordp,wordq)表示在第q个分词位置放置第j个属性词的条件下,在p个分词位置放置第i个属性词的条件概率,weightlength表示标题的长度权重。
在一些实施例中,还包括:第一标题调整模块,用于获取用户对类型的一个或多个对象的历史访问信息;历史访问信息包括:用户历史访问的各对象的原始标题;根据用户历史访问的各对象的原始标题中各个分词对应的属性词,确定用户偏好的属性词序列;根据用户偏好的属性词序列对新标题进行调整;将调整后的标题显示给用户。
在一些实施例中,第一标题调整模块用于将用户历史访问的各对象对应的原始标题中各个分词对应的属性词作为候选属性词,根据各个候选属性词出现的概率,确定用户偏好的属性词序列。
在一些实施例中,还包括:第二标题调整模块,用于根据用户历史访问的类型的一个或多个对象的信息预测用户下一时刻访问的对象;根据用户下一时刻访问的对象的原始标题中各个分词对应的属性词,确定用户偏好的属性词序列;根据用户偏好的属性词序列对新标题进行调整;将调整后的标题显示给用户。
在一些实施例中,第一标题调整模块或第二标题调整模块用于将用户偏好的属性词序列与新标题对应的属性词序列进行比对;在用户偏好的属性词序列与新标题对应的属性词序列的属性词相同且属性词的位置不同的情况下,将新标题中各个分词,按照用户偏好的属性词序列中各个属性词的位置进行调整;在用户偏好的属性词序列包括与新标题对应的属性词序列中不同的属性词的情况下,在满足标题的最大分词数的约束条件下,根据预设选取顺序,从用户偏好的属性词序列选取属性词,将选取的属性词对应的分词添加到新标题之中,或者用选取的属性词对应的分词替换新标题中分词位置排序在后的分词。
在一些实施例中,还包括:搜索模块,用于根据用户输入的搜索关键词和各个新标题的匹配结果,生成搜索结果并进行显示。
根据本公开的又一些实施例,提供的一种标题的生成装置,包括:处理器;以及耦接至处理器的存储器,用于存储指令,指令被处理器执行时,使处理器执行如前述任意实施例的标题的生成方法。
根据本公开的再一些实施例,提供的一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例标题的生成方法的步骤。
本公开针对同一类型的对象,确定原始标题对应的属性序列,进一步根据属性序列确定属性词对应的条件概率,根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在新标题中对应的分词位置,从而确定新标题。属性词对应的条件概率不仅能够反映该属性词出现的频率还能够反映其位置信息,标题中每个分词位置的预设权重体现分词位置的重要程度。因此,本公开的方案从属性词出现概率和出现位置多个方面考虑,生成新标题,提高标题对对象描述的准确性,合理性,进一步,提高标题相关对象的访问量。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的标题的生成方法的流程示意图。
图2示出本公开的另一些实施例的标题的生成方法的流程示意图。
图3示出本公开的一些实施例的标题的生成装置的结构示意图。
图4示出本公开的另一些实施例的标题的生成装置的结构示意图。
图5示出本公开的又一些实施例的标题的生成装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提供一种标题的生成方法,下面结合图1进行描述。
图1为本公开标题的生成方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S108。
在步骤S102中,针对同一类型的多个对象的各条原始标题,确定各条原始标题中各个分词对应的属性词,得到各条原始标题对应的属性词序列。
对象的类型的划分可以根据实际需求进行设置。可以对各条原始标题进行分词,之后确定各个分词对应的属性词。可以采用现有技术进行分词,例如采用分词词典等。还可以预先设置分词与属性词的对应关系,或者通过命名实体识别等现有方法,确定各个分词对应的属性词,从而确定各条原始标题对应的属性词序列。例如,原始标题为“A品牌B系列原装进口半年隐形眼镜400度炫棕色透明隐形眼镜半年抛2片装”,进行分词后的结果为“A品牌,B系列,原装进口,半年,隐形眼镜,400度,炫棕色,透明隐形眼镜,半年抛,2片装”,对应的属性序列为“中文品牌,系列,是否进口,周期,产品词,度数,颜色,产品词,周期,片数”。
在一些实施例中,针对同一类型的多个对象可以选取部分对象的原始标题执行后续的步骤。例如,选取访问量高于访问阈值的对象,访问量例如包括:浏览量、点击量或购买量等。这些对象对用户的吸引程度更高,基于这些对象的原始标题进行处理,生成的标题更加准确和合理。
采用属性词而不是直接采用分词,可以将相同属性但是不同表达方式的分词用属性词表示,后续生成的标题中则不会出现同样意思的词反复出现的问题。原始标题的分词结果和属性词序列可以存储到数据存储装置后续应用,或者供其它装置共享。
在步骤S104中,针对每个属性词,确定该属性词在其他属性词的相邻预设位置出现的条件概率,作为该属性词对应的条件概率。
例如,针对每个属性词,确定该属性词在其他属性词的相邻前一个位置(例如按照标题从左向右的阅读顺序)出现的条件概率,或者,针对每个属性词,确定该属性词在其他属性词的相邻后一个位置出现的条件概率。例如,可以将前后连续出现的任意两个词组成属性词对,得到所有的属性词对,相同的属性词对作为一个属性词对。每个属性词对,两个属性词的前后位置是固定的。两个属性词对中属性词相同,但是属性词的位置不同,则两个属性词对不同。例如,(片数,度数)表示两个属性词同时出现,且“片数”在“度数”前面出现,(度数,片数)则“度数”在“片数”前面出现。
可以计算各个属性词对的次数,构建次数矩阵。矩阵中的第i行第j列表示属性词wordi和属性词wordj同时出现,且wordi在wordj前面的情况下的次数,例如次数矩阵中,第1行第2列的值为236,表示“系列”与“产品词”相邻且“系列”在前面的次数是236。根据属性词对的频率矩阵,可以计算属性词对对应的条件概率。
属性词对对应的条件概率即属性词对中前一个属性词在后一个属性词的前一个位置出现的条件概率,也可以作为前一个属性词对应的条件概率。也可以将后一个属性词在前一个属性词的后一个位置出现的条件概率,作为属性词对对应的条件概率,也是后一个属性词对应的条件概率。
以属性词对对应的条件概率为属性词对中前一个属性词在后一个属性词的前一个位置出现的条件概率为例,可以采用以下方法确定属性词对对应的条件概率。例如,将前一个属性词称为第一属性词,后一个属性词称为第二属性词。根据属性词对出现的概率和第二属性词出现的概率比值,确定第一属性词在第二属性词前一个位置出现的条件概率。可以采用以下公式表示。
公式(1)中P(word1,word2)表示属性词对出现的概率,P(word2)表示和第二属性词出现的概率。P(word1,word2)可以为属性词对(word1,word2)出现的次数与所有属性词对出现的总次数的比值。P(word2)可以为word2出现的次数与所有属性词出现的总次数的比值。
根据上述方法可以确定属性词对对应的条件概率,也就是可以针对每个属性词,确定该属性词在其他属性词的前一位置出现的条件概率。采用类似的方法,也可以确定该属性词在其他属性词的后一位置出现的条件概率。后续实施例中主要以该属性词在其他属性词的前一位置出现的条件概率,作为该属性词对应的条件概率为例进行描述。
在步骤S106中,根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在新标题中对应的分词位置。
在一些实施例中,根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置。
标题中每个分词位置的预设权重反映该分词位置的分词对用户行为的影响程度。例如,用户在很大概率上最先注意到第一个词,则第一个分词位置的预设权重可以设置为最大。
进一步,例如,根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;根据标题的得分模型,确定使标题的得分最高的情况下,各个属性词在标题中对应的分词位置,作为各个属性词在新标题中对应的分词位置。
属性词的数量可能较多,但是终端中可以显示的标题的字数是有限的,例如,太长的标题后面的词可能会以省略号代替。并且标题字数过多可能会造成用户识别困难,难以得到主要信息。因此,在一些实施例中,可以将标题的分词个数作为确定标题得分的一项参考因素,从而使最终确定的标题能够有更加合适的长度。当然,也可以预设需要的标题中分词的个数,直接生成相应长度的标题。
例如,根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;根据标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;其中,从标题的第一个分词位置到标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
为了尽量缩短标题的长度,还可以设置标题的长度权重作为确定标题得分的一项参考因素,从而使最终确定的标题能够更简洁精炼。例如,根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题的长度权重、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件,根据标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;其中,从标题的第一个分词位置到标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
在一些实施例中,标题的得分模型中标题的得分为位置得分与长度得分的差值;位置得分采用以下方法确定:针对每个属性词,确定该属性词在标题中对应的分词位置的预设权重与该属性词在该属性词的后一个属性词相邻前一位置出现的条件概率的乘积;将各个属性词对应的乘积相加;长度得分为标题的长度与标题的长度权重的乘积。该实施例是以相邻预设位置为相邻前一位置为例,也可以是相邻后一位置等,进行相应置换即可。
标题的得分模型可以用以下公式表示。
wordpi,wordqj∈{0,1} (3)
公式(2)~(4)中,W表示标题的得分,max_p表示标题中分词的个数,p表示标题中按预设顺序(例如,从左到右的阅读顺序)的第p个分词位置,0≤p≤max_p,p为整数,q表示标题中按预设顺序的第q个分词位置,1≤q=(p+1)≤max_p,q为整数,max_w表示属性词的个数,i表示属性词的编号,0≤i≤max_w,i为整数,j表示属性词的编号,0≤j≤max_w,j为整数,weightp表示第p个分词位置的权重,wordpi取0表示第i个属性词未放置到第p个分词位置,wordpi取1表示第i个属性词放置到第p个分词位置,wordqj取0表示第j个属性词未放置到第q个分词位置,wordqj取1表示第j个属性词放置到第q个分词位置,Fi,j(wordp,wordq)表示在第q个分词位置放置第j个属性词的条件下,在p个分词位置放置第i个属性词的条件概率,weightlength表示标题的长度权重。
上述公式中,Fi,j(wordp,wordq)可以参考公式(1)进行计算。q=(p+1)表示p为q的前一位置,也就是以属性词对应的条件概率为该属性词在另一属性词的前一位置出现的条件概率为例。基于类似的方法,如果属性词对应的条件概率为该属性词在另一属性词的后一位置出现的条件概率,则可以调整条件概率的计算和标题的得分模型,在此不再赘述。基于上述公式,可以应用解决混合整数线性规划的人工智能算法,例如元启发式搜索技术等方式计算wordpi和wordqj取0或者取1,从而最终确定各个属性词对应的分词位置。基于上述公式,在不考虑标题的长度权重的情况下,可以将公式(2)中这一项删除。在不考虑标题中分词的个数的情况下,可以将max_p改为max_w即可。
标题中分词的个数可以采用循环迭代的方式确定。在一些实施例中,可以执行以下步骤确定新标题对应的各个属性词。(1)根据预设步长和上一周期设置的标题中分词的个数,设置当前周期的标题中分词的个数。例如,上一周期设置的标题中分词的个数为13个,预设步长为1,可以将当前周期的标题中分词的个数设置为12。采用周期性递减的方式设置标题中分词的个数。(2)将当前周期的标题中分词的个数代入标题的得分模型,例如公式(2)中max_p设置为12。(3)确定使标题的得分最高的情况下,从标题的第一个分词位置到标题结束的分词位置对应的各个属性词以及标题的得分值,作为当前周期确定的标题对应的各个属性词以及标题的得分值。(4)重复上述步骤(1)~(3),直至将标题中分词的个数调整为预设个数,例如5。(5)选取各个周期确定的标题的得分值的最大值,并确定该最大值对应的标题对应的各个属性词。
为了提高计算效率,减少错误词语对最后生成的标题的影响,可以每次选取部分属性词,采用多次迭代的方式即一个周期包括多次迭代过程,确定新标题对应的各个属性词。在上述一个周期中,可以执行以下步骤。例如,(1)在当前周期的本次迭代过程中,从各个属性词中选取预设数量(例如20个)的属性词,并将当前周期的标题中分词的个数代入标题的得分模型。(2)根据选取的属性词,确定使标题的得分最高的情况下,从标题的第一个分词位置到标题结束的分词位置对应的各个属性词以及标题的得分值,作为本次迭代确定的新标题对应的各个属性词以及新标题的得分值;(3)重复上述过程,直至达到预设迭代次数。(4)选取各次迭代过程确定的标题的得分值的最大值,将该最大值对应的标题对应的各个属性词以及该最大值,分别作为当前周期确定的标题对应的各个属性词以及标题的得分值。
在步骤S108中,根据各个属性词在新标题中对应的分词位置和各个属性词对应的分词,生成对象的新标题。
确定了新标题中的各个分词位置对应的属性词,将属性词转换为分词,这可以得到新标题。例如,按照阅读顺序新标题中各个分词位置依次对应的属性词最终确定为中文品牌,产品词,系列,周期,片数,度数,颜色,则最终标题为“A品牌隐形眼镜B系列半年抛2片装400度炫棕色”。相对于原始标题“A品牌B系列原装进口半年隐形眼镜400度炫棕色透明隐形眼镜半年抛2片装”,新标题减少了相同含义的分词的重复并改变了分词的位置,更加准确和合理。
上述实施例的方法针对同一类型的对象,确定原始标题对应的属性序列,进一步根据属性序列确定属性词对应的条件概率,根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在新标题中对应的分词位置,从而确定新标题。属性词对应的条件概率不仅能够反映该属性词出现的频率还能够反映其位置信息,标题中每个分词位置的预设权重体现分词位置的重要程度。因此,上述实施例的方案从属性词出现概率和出现位置多个方面考虑,生成新标题,提高标题对对象描述的准确性,合理性,进一步,提高标题相关对象的访问量。
目前的标题针对不同的用户都是相同的,本公开还提供一种根据不同的用户的偏好生成个性化的标题显示给不同用户的方法。下面结合图2描述本公开标题的生成方法的另一些实施例。
图2为本公开标题的生成方法一些实施例的流程图。如图2所示,在步骤S108之后还包括:步骤S202~S208。
在步骤S202中,获取用户对该类型的一个或多个对象的历史访问信息。
历史访问信息例如包括:用户历史访问的各对象的原始标题。访问行为例如包括:浏览点击,购买等不同的访问行为。历史访问信息还可以包括:访问的类型。
在步骤S204中,根据用户历史访问的各对象的原始标题中各个分词对应的属性词,确定用户偏好的属性词序列。
可以采用与前述实施例相同或相似的方法,将用户历史访问的各对象的原始标题进行分词,进而确定各个分词对应的属性词。在一些实施例中,将用户历史访问的各对象对应的原始标题中各个分词对应的属性词作为候选属性词,根据各个候选属性词出现的概率,确定用户偏好的属性词序列。例如,计算各个候选属性词出现的次数与所有候选属性词出现的总次数的比值,确定各个候选属性词出现的概率,选取概率大于概率阈值的属性词,并按照概率由大到小的顺序对选取的各个属性词进行排序,生成属性词序列。
在计算候选属性词出现的概率时,还可以考虑候选属性词对应的访问行为,例如,不同的访问行为对应不同的权重,购买行为相对于浏览行为的权重更大。针对同一候选属性词,分别计算不同访问行为对应的出现概率,再根据不同访问行为对应不同的权重进行加权,得到该候选属性词的最终概率值。
或者,可以使用TF-IDF(term frequency–inverse document frequency,词频-逆文本频率),关键词提取算法,或者其他语言模型等从侯选属性词中提取关键的属性词,生成属性词序列。
在步骤S206中,根据用户偏好的属性词序列对新标题进行调整。
在一些实施例中,将用户偏好的属性词序列与新标题对应的属性词序列进行比对,在用户偏好的属性词序列与新标题对应的属性词序列的属性词相同且属性词的位置不同的情况下,将新标题中各个分词,按照用户偏好的属性词序列中各个属性词的位置进行调整。例如,新标题为“A品牌B系列隐形眼镜炫棕色400度2片装”,用户偏好的属性词序列为(中文品牌,系列,产品词,度数,片数,颜色),则将新标题调整为“A品牌B系列隐形眼镜400度2片装炫棕色”。
在用户偏好的属性词序列包括与新标题对应的属性词序列中不同的属性词的情况下,在满足标题的最大分词数的约束条件下,根据预设选取顺序,从用户偏好的属性词序列选取属性词,将选取的属性词对应的分词添加到新标题之中,或者用选取的属性词对应的分词替换新标题中分词位置排序在后的分词。例如,可以预设按照排序的顺序从用户偏好的属性词序列中选取属性词的个数,如果将选取的属性词添加到新标题之后不超过最大分词数,则可以直接添加,如果超出,可以减少添加的数量或者替换新标题中分词位置排序在后的分词。
在步骤S208中,将调整后的标题显示给用户。
上述方法可以周期性执行,即每隔预设周期可以根据用户的历史访问行为动态调整用户能够看到的标题。上述实施例的方法实现了用户个性化标题的动态生成,使不同用户看到同一对象的不同标题,也可以使同一用户在不同时间段看到同一对象的不同标题。
在一些实施例中,可以采用不同的方法确定用于偏好的属性序列。例如,根据用户历史访问的类型的一个或多个对象的信息预测用户下一时刻访问的对象;根据用户下一时刻访问的对象的原始标题中各个分词对应的属性词,确定用户偏好的属性词序列;根据用户偏好的属性词序列对新标题进行调整;将调整后的标题显示给用户。对象的信息例如包括:对象的原始标题,对象的规格、属性等信息。可以采用现有的预测模型,例如GBDT(Gradient Boosting Decision Tree,梯度提升树)等模型,预测用户下一时刻访问的对象。可以直接将用户下一时刻访问的对象的原始标题中各个分词对应的属性词,作为用户偏好的属性词序列。之后根据用户偏好的属性词序列对新标题进行调整的方法可以参考前述实施例。
本公开的标题的生成方法适用于多种对象,例如,商品,新闻,视频、音乐等。例如,原新闻标题:7架飞机9月25日从北京大兴国际机场首航!5种交通方式去机场!机场停车费每天封顶80元!针对第一个用户生成的个性化新闻短标题:9月25日大兴国际机场首航!机场停车费每天封顶80元!针对第二个用户生成的个性化新闻短标题:9月25日大兴国际机场首航!5种交通方式去机场!生成的标题可以用于多场景,例如搜索场景,对象列表显示场景等。例如,根据用户输入的搜索关键词和各个新标题的匹配结果,生成搜索结果并进行显示。
上述实施例中的各种数据可以存储到数据存储装置,供各个模块进行调用,例如,用户信息,对象标识,原始标题数据,新标题数据,个性化标题数据,原始标题分词数据,属性词数据。还可以预设关键词,例如,热点词,广告词等,如果新标题中没有这些预设关键词,可以将预设关键词添加到新标题中。
本公开的方法提供了一种新的标题生成方法,生成的新标题减少了标题的长度,可以适用于终端展示空间有限的场景。减少新标题中词语的重复和混乱,并且考虑标题中分词的位置,提高了新标题对对象描述的准确性和合理性,向用户传递对象的有效信息。本公开的方法还可以根据用户的偏好个性化调整用户看到的标题,动态展示不同的标题,提升了用户的体验,加速了用户的转化。
本公开还提供一种标题的生成装置,下面结合图3进行描述。
图3为本公开标题的生成装置的一些实施例的结构图。如图3所示,该实施例的装置30包括:属性词确定模块310,概率确定模块320,位置确定模块330,标题生成模块340。
属性词确定模块310用于针对同一类型的多个对象的各条原始标题,确定各条原始标题中各个分词对应的属性词,得到各条原始标题对应的属性词序列。
概率确定模块320用于针对每个属性词,确定该属性词在其他属性词的相邻预设位置出现的条件概率,作为该属性词对应的条件概率。
位置确定模块330用于根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在新标题中对应的分词位置。
在一些实施例中,位置确定模块330用于根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置。
在一些实施例中,位置确定模块330用于根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;根据标题的得分模型,确定使标题的得分最高的情况下,各个属性词在标题中对应的分词位置,作为各个属性词在新标题中对应的分词位置。
在一些实施例中,位置确定模块330用于根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;根据标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;其中,从标题的第一个分词位置到标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
在一些实施例中,位置确定模块330用于根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题的长度权重、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件,标题中分词的个数越多,标题的长度权重越大;根据标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;其中,从标题的第一个分词位置到标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
在一些实施例中,位置确定模块330用于根据预设步长和上一周期设置的标题中分词的个数,设置当前周期的标题中分词的个数;将当前周期的标题中分词的个数代入标题的得分模型,确定使标题的得分最高的情况下,从标题的第一个分词位置到标题结束的分词位置对应的各个属性词以及标题的得分值,作为当前周期确定的标题对应的各个属性词以及标题的得分值;选取各个周期确定的标题的得分值的最大值,并确定该最大值对应的标题对应的各个属性词。
在一些实施例中,一个周期包括多次迭代过程;位置确定模块330用于每次迭代过程中,从各个属性词中选取预设数量的属性词,将当前周期的标题中分词的个数代入标题的得分模型,确定使标题的得分最高的情况下,从标题的第一个分词位置到标题结束的分词位置对应的各个属性词以及标题的得分值,作为本次迭代确定的标题对应的各个属性词以及标题的得分值;选取各次迭代过程确定的标题的得分值的最大值,将该最大值对应的标题对应的各个属性词以及该最大值,分别作为当前周期确定的标题对应的各个属性词以及标题的得分值。
在一些实施例中,标题的得分模型中标题的得分为位置得分与长度得分的差值;位置得分采用以下方法确定:针对每个属性词,确定该属性词在标题中对应的分词位置的预设权重与该属性词在该属性词的后一个属性词相邻前一位置出现的条件概率的乘积;将各个属性词对应的乘积相加;长度得分为标题的长度与标题的长度权重的乘积。
在一些实施例中,标题的得分模型采用以下公式表示:
wordpi,wordqj∈{0,1}
其中,W表示标题的得分,max_p表示标题中分词的个数,p表示标题中按预设顺序的第p个分词位置,0≤p≤max_p,p为整数,q表示标题中按预设顺序的第q个分词位置,1≤q=(p+1)≤max_p,q为整数,max_w表示属性词的个数,i表示属性词的编号,0≤i≤max_w,i为整数,j表示属性词的编号,0≤j≤max_w,j为整数,weightp表示第p个分词位置的权重,wordpi取0表示第i个属性词未放置到第p个分词位置,wordpi取1表示第i个属性词放置到第p个分词位置,wordqj取0表示第j个属性词未放置到第q个分词位置,wordqj取1表示第j个属性词放置到第q个分词位置,Fi,j(wordp,wordq)表示在第q个分词位置放置第j个属性词的条件下,在p个分词位置放置第i个属性词的条件概率,weightlength表示标题的长度权重。
标题生成模块340用于根据各个属性词在新标题中对应的分词位置和各个属性词对应的分词,生成对象的新标题。
在一些实施例中,还包括:第一标题调整模块350,用于获取用户对类型的一个或多个对象的历史访问信息;历史访问信息包括:用户历史访问的各对象的原始标题;根据用户历史访问的各对象的原始标题中各个分词对应的属性词,确定用户偏好的属性词序列;根据用户偏好的属性词序列对新标题进行调整;将调整后的标题显示给用户。
在一些实施例中,第一标题调整模块350用于将用户历史访问的各对象对应的原始标题中各个分词对应的属性词作为候选属性词,根据各个候选属性词出现的概率,确定用户偏好的属性词序列。
在一些实施例中,还包括:第二标题调整模块360,用于根据用户历史访问的类型的一个或多个对象的信息预测用户下一时刻访问的对象;根据用户下一时刻访问的对象的原始标题中各个分词对应的属性词,确定用户偏好的属性词序列;根据用户偏好的属性词序列对新标题进行调整;将调整后的标题显示给用户。
在一些实施例中,第一标题调整模块350或第二标题调整模块360用于将用户偏好的属性词序列与新标题对应的属性词序列进行比对;在用户偏好的属性词序列与新标题对应的属性词序列的属性词相同且属性词的位置不同的情况下,将新标题中各个分词,按照用户偏好的属性词序列中各个属性词的位置进行调整;在用户偏好的属性词序列包括与新标题对应的属性词序列中不同的属性词的情况下,在满足标题的最大分词数的约束条件下,根据预设选取顺序,从用户偏好的属性词序列选取属性词,将选取的属性词对应的分词添加到新标题之中,或者用选取的属性词对应的分词替换新标题中分词位置排序在后的分词。
在一些实施例中,还包括:搜索模块370,用于根据用户输入的搜索关键词和各个新标题的匹配结果,生成搜索结果并进行显示。
本公开的实施例中的标题的生成装置可各由各种计算设备或计算机系统来实现,下面结合图4以及图5进行描述。
图4为本公开标题的生成装置的一些实施例的结构图。如图4所示,该实施例的装置40包括:存储器410以及耦接至该存储器410的处理器420,处理器420被配置为基于存储在存储器410中的指令,执行本公开中任意一些实施例中的标题的生成方法。
其中,存储器410例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图5为本公开标题的生成装置的另一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及处理器520,分别与存储器410以及处理器420类似。还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530,540,550以及存储器510和处理器520之间例如可以通过总线560连接。其中,输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口550为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (16)
1.一种标题的生成方法,包括:
针对同一类型的多个对象的各条原始标题,确定所述各条原始标题中各个分词对应的属性词,得到各条原始标题对应的属性词序列;
针对每个属性词,确定该属性词在其他属性词的相邻预设位置出现的条件概率,作为该属性词对应的条件概率;
根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在新标题中对应的分词位置;
根据各个属性词在新标题中对应的分词位置和各个属性词对应的分词,生成所述对象的新标题。
2.根据权利要求1所述的标题的生成方法,其中,
所述确定各个属性词在新标题中对应的分词位置包括:
根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;
根据各个标题的得分,确定各个属性词在新标题中对应的分词位置。
3.根据权利要求2所述的标题的生成方法,其中,
所述确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置包括:
根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置,与标题的得分的关系,构建标题的得分模型,其中,所述标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;
根据所述标题的得分模型,确定使标题的得分最高的情况下,各个属性词在标题中对应的分词位置,作为各个属性词在新标题中对应的分词位置。
4.根据权利要求2所述的标题的生成方法,其中,
所述确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置包括:
根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,所述标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件;
根据所述标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到所述标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;
其中,从标题的第一个分词位置到所述标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
5.根据权利要求2所述的标题的生成方法,其中,
所述确定各个属性词在标题中对应的不同分词位置的情况下,标题的得分;根据各个标题的得分,确定各个属性词在新标题中对应的分词位置包括:
根据各个属性词对应的条件概率、标题中每个分词位置的预设权重、各个属性词在标题中对应的分词位置、标题的长度权重、标题中分词的个数,与标题的得分的关系,构建标题的得分模型,其中,所述标题的得分模型还包括:一个属性词在一个标题中最多出现一次的约束条件,所述标题中分词的个数越多,所述标题的长度权重越大;
根据所述标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到所述标题结束的分词位置对应的各个属性词,从而确定新标题对应的各个属性词;
其中,从标题的第一个分词位置到所述标题结束的分词位置的分词位置的数量与确定的标题中分词的个数相等。
6.根据权利要求4或5所述的标题的生成方法,其中,
所述根据所述标题的得分模型,确定使标题的得分最高的情况下,标题中分词的个数,以及从标题的第一个分词位置到所述标题结束的分词位置对应的各个属性词包括:
根据预设步长和上一周期设置的标题中分词的个数,设置当前周期的标题中分词的个数;
将当前周期的标题中分词的个数代入所述标题的得分模型,确定使标题的得分最高的情况下,从标题的第一个分词位置到所述标题结束的分词位置对应的各个属性词以及标题的得分值,作为当前周期确定的标题对应的各个属性词以及标题的得分值;
选取各个周期确定的标题的得分值的最大值,并确定该最大值对应的标题对应的各个属性词。
7.根据权利要求6所述的标题的生成方法,其中,
一个周期包括多次迭代过程;
所述确定使标题的得分最高的情况下,从标题的第一个分词位置到所述标题结束的分词位置对应的各个属性词以及标题的得分值包括:
每次迭代过程中,从各个属性词中选取预设数量的属性词,将当前周期的标题中分词的个数代入所述标题的得分模型,确定使标题的得分最高的情况下,从标题的第一个分词位置到所述标题结束的分词位置对应的各个属性词以及标题的得分值,作为本次迭代确定的标题对应的各个属性词以及标题的得分值;
选取各次迭代过程确定的标题的得分值的最大值,将该最大值对应的标题对应的各个属性词以及该最大值,分别作为当前周期确定的标题对应的各个属性词以及标题的得分值。
8.根据权利要求5所述的标题的生成方法,其中,
所述标题的得分模型中标题的得分为位置得分与长度得分的差值;
所述位置得分采用以下方法确定:针对每个属性词,确定该属性词在标题中对应的分词位置的预设权重与该属性词在该属性词的后一个属性词相邻前一位置出现的条件概率的乘积;将各个属性词对应的乘积相加;
所述长度得分为标题的长度与标题的长度权重的乘积。
9.根据权利要求1所述的标题的生成方法,还包括:
获取用户对所述类型的一个或多个对象的历史访问信息;所述历史访问信息包括:所述用户历史访问的各对象的原始标题;
根据所述用户历史访问的各对象的原始标题中各个分词对应的属性词,确定所述用户偏好的属性词序列;
根据所述用户偏好的属性词序列对所述新标题进行调整;
将调整后的标题显示给所述用户。
10.根据权利要求9所述的标题的生成方法,其中,
所述根据所述用户历史访问的各对象对应的原始标题中各个分词对应的属性词,确定所述用户偏好的属性词序列包括:
将所述用户历史访问的各对象对应的原始标题中各个分词对应的属性词作为候选属性词,根据各个候选属性词出现的概率,确定所述用户偏好的属性词序列。
11.根据权利要求1所述的标题的生成方法,还包括:
根据用户历史访问的所述类型的一个或多个对象的信息预测所述用户下一时刻访问的对象;
根据所述用户下一时刻访问的对象的原始标题中各个分词对应的属性词,确定所述用户偏好的属性词序列;
根据所述用户偏好的属性词序列对所述新标题进行调整;
将调整后的标题显示给所述用户。
12.根据权利要求9或11所述的标题的生成方法,其中,
所述根据所述用户偏好的属性词序列对所述新标题进行调整包括:
将用户偏好的属性词序列与新标题对应的属性词序列进行比对;
在用户偏好的属性词序列与新标题对应的属性词序列的属性词相同且属性词的位置不同的情况下,将所述新标题中各个分词,按照用户偏好的属性词序列中各个属性词的位置进行调整;
在用户偏好的属性词序列包括与新标题对应的属性词序列中不同的属性词的情况下,在满足标题的最大分词数的约束条件下,根据预设选取顺序,从所述用户偏好的属性词序列选取属性词,将选取的属性词对应的分词添加到所述新标题之中,或者用选取的属性词对应的分词替换所述新标题中分词位置排序在后的分词。
13.根据权利要求1所述的标题的生成方法,还包括:
根据用户输入的搜索关键词和各个新标题的匹配结果,生成搜索结果并进行显示。
14.一种标题的生成装置,包括:
属性词确定模块,用于针对同一类型的多个对象的各条原始标题,确定所述各条原始标题中各个分词对应的属性词,得到各条原始标题对应的属性词序列;
概率确定模块,用于针对每个属性词,确定该属性词在其他属性词的相邻预设位置出现的条件概率,作为该属性词对应的条件概率;
位置确定模块,用于根据各个属性词对应的条件概率以及标题中每个分词位置的预设权重,确定各个属性词在新标题中对应的分词位置;
标题生成模块,用于根据各个属性词在新标题中对应的分词位置和各个属性词对应的分词,生成所述对象的新标题。
15.一种标题的生成装置,包括:
处理器;以及
耦接至所述处理器的存储器,用于存储指令,所述指令被所述处理器执行时,使所述处理器执行如权利要求1-13任一项所述的标题的生成方法。
16.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-13所述标题的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290081.9A CN113536778A (zh) | 2020-04-14 | 2020-04-14 | 标题的生成方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290081.9A CN113536778A (zh) | 2020-04-14 | 2020-04-14 | 标题的生成方法、装置和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536778A true CN113536778A (zh) | 2021-10-22 |
Family
ID=78087973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010290081.9A Pending CN113536778A (zh) | 2020-04-14 | 2020-04-14 | 标题的生成方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536778A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114363714A (zh) * | 2021-12-31 | 2022-04-15 | 阿里巴巴(中国)有限公司 | 标题生成方法、设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259476A (ja) * | 1998-03-12 | 1999-09-24 | Sharp Corp | 文書処理装置 |
JP2001052032A (ja) * | 1999-05-28 | 2001-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体 |
KR100818742B1 (ko) * | 2007-08-09 | 2008-04-02 | 이종경 | 색인 단어의 문서 내 위치 정보에 대한 관련성을 이용한문서 검색 방법 |
US20080319974A1 (en) * | 2007-06-21 | 2008-12-25 | Microsoft Corporation | Mining geographic knowledge using a location aware topic model |
CN102622411A (zh) * | 2012-02-17 | 2012-08-01 | 清华大学 | 一种结构化摘要的生成方法 |
CN103064951A (zh) * | 2012-12-31 | 2013-04-24 | 南京烽火星空通信发展有限公司 | 一种舆情信息的地域识别方法和装置 |
CN103678564A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
WO2014114175A1 (zh) * | 2013-01-24 | 2014-07-31 | 北京京东世纪贸易有限公司 | 一种提供搜索引擎标签的方法和装置 |
US20140351266A1 (en) * | 2013-05-21 | 2014-11-27 | Temnos, Inc. | Method, apparatus, and computer-readable medium for generating headlines |
CN105913072A (zh) * | 2016-03-31 | 2016-08-31 | 乐视控股(北京)有限公司 | 视频分类模型的训练方法和视频分类方法 |
CN106708813A (zh) * | 2015-07-14 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种标题处理方法及设备 |
US20180232438A1 (en) * | 2015-10-16 | 2018-08-16 | Alibaba Group Holding Limited | Title display method and apparatus |
CN110147483A (zh) * | 2017-09-12 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 一种标题重建方法及装置 |
WO2019218514A1 (zh) * | 2018-05-14 | 2019-11-21 | 平安科技(深圳)有限公司 | 网页目标信息的提取方法、装置及存储介质 |
CN110807083A (zh) * | 2018-08-02 | 2020-02-18 | 北京京东尚科信息技术有限公司 | 关键词评估方法和装置 |
-
2020
- 2020-04-14 CN CN202010290081.9A patent/CN113536778A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259476A (ja) * | 1998-03-12 | 1999-09-24 | Sharp Corp | 文書処理装置 |
JP2001052032A (ja) * | 1999-05-28 | 2001-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体 |
US20080319974A1 (en) * | 2007-06-21 | 2008-12-25 | Microsoft Corporation | Mining geographic knowledge using a location aware topic model |
KR100818742B1 (ko) * | 2007-08-09 | 2008-04-02 | 이종경 | 색인 단어의 문서 내 위치 정보에 대한 관련성을 이용한문서 검색 방법 |
CN102622411A (zh) * | 2012-02-17 | 2012-08-01 | 清华大学 | 一种结构化摘要的生成方法 |
CN103064951A (zh) * | 2012-12-31 | 2013-04-24 | 南京烽火星空通信发展有限公司 | 一种舆情信息的地域识别方法和装置 |
WO2014114175A1 (zh) * | 2013-01-24 | 2014-07-31 | 北京京东世纪贸易有限公司 | 一种提供搜索引擎标签的方法和装置 |
US20140351266A1 (en) * | 2013-05-21 | 2014-11-27 | Temnos, Inc. | Method, apparatus, and computer-readable medium for generating headlines |
CN103678564A (zh) * | 2013-12-09 | 2014-03-26 | 国家计算机网络与信息安全管理中心 | 一种基于数据挖掘的互联网产品调研系统 |
CN106708813A (zh) * | 2015-07-14 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种标题处理方法及设备 |
US20180232438A1 (en) * | 2015-10-16 | 2018-08-16 | Alibaba Group Holding Limited | Title display method and apparatus |
CN105913072A (zh) * | 2016-03-31 | 2016-08-31 | 乐视控股(北京)有限公司 | 视频分类模型的训练方法和视频分类方法 |
WO2017166512A1 (zh) * | 2016-03-31 | 2017-10-05 | 乐视控股(北京)有限公司 | 视频分类模型的训练方法和视频分类方法 |
CN110147483A (zh) * | 2017-09-12 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 一种标题重建方法及装置 |
WO2019218514A1 (zh) * | 2018-05-14 | 2019-11-21 | 平安科技(深圳)有限公司 | 网页目标信息的提取方法、装置及存储介质 |
CN110807083A (zh) * | 2018-08-02 | 2020-02-18 | 北京京东尚科信息技术有限公司 | 关键词评估方法和装置 |
Non-Patent Citations (5)
Title |
---|
刘向红: "科技论文标题的英译", 湖南工程学院学报(自然科学版), no. 02, 30 December 1999 (1999-12-30), pages 52 - 57 * |
徐明明;杨文璐;夏斌;谢宏;: "基于改进RAKE算法的商品关键词提取方法", 现代计算机(专业版), no. 21, 25 July 2018 (2018-07-25), pages 9 - 13 * |
栗春亮;朱艳辉;徐叶强;: "中文产品评论中属性词抽取方法研究", 计算机工程, no. 12, 20 June 2011 (2011-06-20), pages 26 - 32 * |
栗春亮;朱艳辉;徐叶强;: "中文产品评论中属性词抽取方法研究", 计算机工程, no. 12, 31 December 2011 (2011-12-31), pages 26 - 32 * |
谭文斌;: "基于产品属性的评论语句聚类分析算法", 贵州科学, no. 06, 15 December 2017 (2017-12-15), pages 82 - 85 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114363714A (zh) * | 2021-12-31 | 2022-04-15 | 阿里巴巴(中国)有限公司 | 标题生成方法、设备及存储介质 |
CN114363714B (zh) * | 2021-12-31 | 2024-01-05 | 阿里巴巴(中国)有限公司 | 标题生成方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2018383346B2 (en) | Domain-specific natural language understanding of customer intent in self-help | |
US11397772B2 (en) | Information search method, apparatus, and system | |
EP3617952A1 (en) | Information search method, apparatus and system | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN107357793B (zh) | 信息推荐方法和装置 | |
CN111984689A (zh) | 信息检索的方法、装置、设备以及存储介质 | |
CN112749344A (zh) | 信息推荐方法、装置、电子设备、存储介质及程序产品 | |
CN112733042A (zh) | 推荐信息的生成方法、相关装置及计算机程序产品 | |
CN111581923A (zh) | 文案生成方法、装置、设备和计算机可读存储介质 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN102609424B (zh) | 评价信息抽取方法和设备 | |
CN111078842A (zh) | 查询结果的确定方法、装置、服务器及存储介质 | |
CN103309869A (zh) | 数据对象的展示关键词推荐方法及系统 | |
CN114154013A (zh) | 视频推荐方法、装置、设备及存储介质 | |
CN113761114A (zh) | 短语生成方法、装置和计算机可读存储介质 | |
CN113032676A (zh) | 基于微反馈的推荐方法和系统 | |
CN113836404B (zh) | 对象推荐方法、装置、电子设备及计算机可读存储介质 | |
CN112989174A (zh) | 信息推荐方法及装置、介质和设备 | |
CN114610914A (zh) | 一种信息处理方法、装置及电子设备 | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
CN111915414B (zh) | 向目标用户展示目标对象序列的方法和装置 | |
CN117420998A (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
CN113536778A (zh) | 标题的生成方法、装置和计算机可读存储介质 | |
CN116823410A (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
CN115455152A (zh) | 写作素材的推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |