CN113988057A - 基于概念抽取的标题生成方法、装置、设备及介质 - Google Patents

基于概念抽取的标题生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN113988057A
CN113988057A CN202111286964.3A CN202111286964A CN113988057A CN 113988057 A CN113988057 A CN 113988057A CN 202111286964 A CN202111286964 A CN 202111286964A CN 113988057 A CN113988057 A CN 113988057A
Authority
CN
China
Prior art keywords
title
concept
label
concept label
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111286964.3A
Other languages
English (en)
Inventor
张智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202111286964.3A priority Critical patent/CN113988057A/zh
Publication of CN113988057A publication Critical patent/CN113988057A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及互联网技术领域,具体公开了一种基于概念抽取的标题生成方法、装置、设备及介质,该方法包括:对目标文本进行关键词提取,得到若干个关键词;从概念标签库中获取与关键词对应的概念标签;根据概念标签获取对应的标题模板,并根据概念标签对标题模板进行填充,得到拼接标题;基于预先训练的标题生成模型对拼接标题进行处理,得到目标标题。目标文本的关键词对应的概念标签包含有更丰富的语义,通过概念标签去填充标题模板得到拼接标题,即得到包含有目标文本关键信息的标题框架。然后根据标题生成模型对拼接标题进行目标标题的生成,最终得到流畅易读、语义丰富且准确的目标标题。

Description

基于概念抽取的标题生成方法、装置、设备及介质
技术领域
本申请涉及标题生成技术领域,具体而言,涉及一种基于概念抽取的标题生成方法、装置、设备及介质。
背景技术
标题是标明文章、作品等内容的简短语句,可以使读者了解到文章的主要内容和主旨。目前比较常用的自动标题生成方法包括抽取式方法和生成式方法。其中,抽取式方法是指从文本中抽取出多个重要的句子组合成一份标题。生成式方法通常采用端到端生成式架构,先利用编码器将文本信息映射到高维向量,再利用解码器从高维向量中解码生成标题。
但抽取式方法及生成式方法并未像人类一样真正的理解文本中的语义,生成的标题的准确性较差。且通过自动标题生成方法获取到的文本的标题,由于信息的来源仅局限于文本自身,存在信息单一的问题,导致获取到的标题语义丰富性低。
发明内容
为解决上述技术问题,本申请的实施例提供了一种基于概念抽取的标题生成方法、装置、设备及介质,以保证生成的标题更准确。
第一方面,本申请提供一种基于概念抽取的标题生成方法,包括:对目标文本进行关键词提取,得到若干个关键词;从概念标签库中获取与所述关键词对应的概念标签;根据所述概念标签获取对应的标题模板,并根据所述概念标签对所述标题模板进行填充,得到拼接标题;基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题。
根据本发明优选实施例,所述从概念标签库中获取与所述关键词对应的概念标签,包括:从所述概念标签库中查找与所述关键词相匹配的概念标签;若查找到,则将所述概念标签作为所述关键词对应的概念标签;若未查找到,则获取所述关键词上下文中的关联关键词;从所述概念标签库中查找与所述关联关键词相匹配的概念标签,得到候选概念标签;计算所述目标文本与所述候选概念标签之间的匹配度;选取匹配度大于匹配度阈值的候选概念标签作为所述关键词对应的概念标签。
根据本发明优选实施例,所述根据所述概念标签获取对应的标题模板之前,还包括:计算所述概念标签相对于所述目标文本的匹配度,以及获取所述概念标签相对于所述概念标签库的排序分数;根据所述匹配度和所述排序分数对多个所述概念标签进行打分,得到质量分数;基于所述质量分数对所述概念标签进行筛选,以根据筛选后的所述概念标签获取对应的标题模板。
根据本发明优选实施例,所述概念标签库是对历史文本的原始标题进行概念标签提取后获得的,所述获取所述概念标签相对于所述概念标签库的排序分数,包括:根据所述历史文本的被点击次数、被点击时间、被阅读时长中的至少一者,对所述概念标签库中的概念标签进行排序,得到排序后的概念标签库;根据排序后的概念标签库获取所述概念标签的排序分数。
根据本发明优选实施例,所述标题生成模型的训练过程包括:获取历史文本所包含的原始标题;对所述原始标题进行字词删除操作,得到训练样本;将所述训练样本作为神经网络的输入,将所述原始标题作为神经网络的目标输出,以训练所述神经网络得到标题生成模型。
根据本发明优选实施例,所述获取历史文本所包含的原始标题,包括:提取所述历史文本包含的概念标签,得到文本概念标签集合;提取所述历史文本标题包含的概念标签,得到标题概念标签集合;计算所述文本概念标签集合以及所述标题概念标签集合之间的重合度;选取重合度大于重合度阈值的历史文本标题作为原始标题。
根据本发明优选实施例,所述基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题,包括:将所述拼接标题输入所述标题生成模型,得到对应的候选标题;计算所述候选标题的通顺度以及所述候选标题与所述目标文本之间的匹配度;根据所述通顺度和所述匹配度对所述候选标题进行打分,得到标题分数;根据所述标题分数选择对应的候选标题作为所述目标标题。
第二方面,本申请提供一种标题生成装置,包括:关键词获取模块,用于对目标文本进行关键词提取,得到若干个关键词;概念标签获取模块,用于从概念标签库中获取与所述关键词对应的概念标签;拼接标题获取模块,用于根据所述概念标签获取对应的标题模板,并根据所述概念标签对所述标题模板进行填充,得到拼接标题;目标标题获取模块,用于基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题。
第三方面,本申请提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现上述标题生成方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现上述标题生成方法的步骤。
本申请实施例公开的基于概念抽取的标题生成方法、装置、设备及介质,通过对目标文本进行关键词提取,得到若干个关键词;从概念标签库中获取与关键词对应的概念标签;根据概念标签获取对应的标题模板,并根据概念标签对标题模板进行填充,得到拼接标题;基于预先训练的标题生成模型对拼接标题进行处理,得到目标标题。目标文本的关键词对应的概念标签包含有更丰富的语义,通过概念标签去填充标题模板得到拼接标题,拼接标题是包含有目标文本关键信息的标题框架。然后根据标题生成模型对拼接标题进行目标标题的生成,最终得到流畅易读、语义丰富且准确的目标标题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请实施例提供的标题生成方法的流程图;
图2是本申请实施例提供的标题生成装置的示意性框图;
图3是本申请实施例提供的计算机设备的示意性框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1为本申请实施例提供的基于概念抽取的标题生成方法的一个流程示意图。如图1所示,该方法包括步骤S110至步骤S140。
步骤S110、对目标文本进行关键词提取,得到若干个关键词。
其中,所述目标文本是指书面语言的表现形式,可以为一句话,一个段落,或者一篇文章。
在一些实施方式中,对目标文本进行关键词提取,得到若干个关键词,包括:对目标文本进行分词预处理以及去停用词预处理,得到词汇集合;调用预先配置的词典对词汇集合进行识别,得到候选词集合;计算候选词集合中每个候选词对应的保留概率,以根据保留概率对候选词集合中的候选词进行筛选,以得到若干个关键词。
因为目标文本包含有各种噪声信息,如语气词、人称、感叹词等停用词以及无意义词。将目标文本与停用词库进行匹配,以过滤目标文本中与停用词库匹配成功的词,从而实现对目标文本进行去噪的效果,进而得到标准文本。其中,停用词库包括:语气词、人称、感叹词等停用词以及无意义词。
然后对标准文本进行分词预处理,预设的分词方式包括但不限于:通过第三方分词工具或者分词算法等。其中,常见的第三方分词工具包括但不限于:Stanford NLP分词器、ICTClAS分词系统、ansj分词工具和HanLP中文分词工具等。分词算法包括但不限于:最大正向匹配(Maximum Matching,简称MM)算法、逆向最大匹配(Reverse DirectionMaximum Matching Method,简称RMM)算法、双向最大匹配(Bi-directiona lMatchingmethod,简称BM)算法、隐马尔科夫模型(Hidden Markov Model,简称HMM)和N-gram模型等。
通过去停用词预处理以及分词预处理,得到词汇集合,然后根据词典对词汇集合进行识别得到候选词集合。词典是预先建立的,词典中包含有候选关键词,可以针对不同的应用场景,建立对应的词典。计算候选词集合中每个候选词的保留概率,以选取保留概率大于概率阈值的候选词作为关键词。可以理解的是,一个候选词的保留概率越大,则该候选词相对于目标文本越重要。
对候选词的保留概率的计算可以是采用词频逆文本频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)算法计算,也可以是采用TextRank算法计算,本申请实施例在此不做限定。
例如,采用词频逆文本频率算法计算词汇的保留概率。计算候选词在对应目标文本中的词汇数量,并计算目标文本的分词总量;将词汇数量除以分词总量,得到候选词在目标文本中的词频。然后获取建立词典的对应的生成文件,并计算生成文件的文件总量;从生成文件中获取包含有候选词的目标文件,并计算目标文件的目标数量;计算文件总量与目标数量的比值,并计算比值的对数值,得到目标词汇的逆文档频率。计算词频与逆文档频率的乘积,得到该候选词的保留概率。
根据保留概率选取对应的候选词作为关键词,需要说明的是,在本申请的技术方案中,对获取的关键词的数量并不进行限定,可以根据不同系统中的需要,任意设定获取的关键词的数量。
步骤S120、从概念标签库中获取与所述关键词对应的概念标签。
概念标签是对拥有相同属性的标签的分类,例如面包、米粉、火锅等标签对应的概念标签为食品,五分裤、背带裤、背心、外套等标签对应的概念标签为服装。通过对文本打上对应的概念标签,以丰富对文章主题的刻画。
概念标签库可以是通过对历史文本进行概念标签挖掘得到的。历史文本是指包含有标题的文本,服务器可以对接收的这类文本进行存储,以得到历史文本。可选地,可以对服务器接收到的文本进行筛选,例如统计每个文本被用户浏览的次数,选取浏览次数大于阈值的文本作为历史文本,以保证概念标签挖掘的质量。
示例性地,服务器存储有标题模板,基于标题模板对历史文本进行概念标签的挖掘。例如,标题模板可以为“十大...”,历史文本的标题为“十大旅游圣地”,则对该历史文本的标题挖掘到的概念标签为“旅游圣地”。通过周期性对历史文本进行概念标签挖掘,以更新概念标签库。
进一步地,还可以根据概念标签库已经存在的概念标签,对历史文本进行标题挖掘得到新的标题模板。例如,已经存在的概念标签为“旅游圣地”,历史文本的原始标题为“哪些旅游圣地性价比更高”,由此可以得到新的标题模板为“哪些...性价比更高”。
通过不断对概念标签及标题模板进行挖掘,可以保证概念标签库和标题模板的实时性,并不断扩充概念标签和标题模板的数量,以为后续对目标文本进行概念标签提取和标题生成提供有力的支持。
将关键词与概念标签库进行匹配,以得到对应的概念标签。
在一些实施方式中,所述从概念标签库中获取与所述关键词对应的概念标签,包括:从所述概念标签库中查找与所述关键词相匹配的概念标签;若查找到,则将所述概念标签作为所述关键词对应的概念标签;若未查找到,则获取所述关键词上下文中的关联关键词;从所述概念标签库中查找与所述关联关键词相匹配的概念标签,得到候选概念标签;计算所述目标文本与所述候选概念标签之间的匹配度;选取匹配度大于匹配度阈值的候选概念标签作为所述关键词对应的概念标签。
示例性地,可以通过计算关键词与概念标签库中的概念标签之间的相似度,根据相似度判断该概念标签与该关键词是否相匹配。例如,对每个关键词进行向量化处理,得到第一词向量,对概念标签库中的概念标签进行向量化处理,得到第二词向量。然后,通过词语相似度计算公式对第一词向量和第二词向量进行相似度计算。其中,词语相似度计算公式包括但不限于余弦相似度、欧式距离、曼哈顿距离、皮尔逊相关系数等。当相似度大于相似度阈值时,则该概念标签与该关键词相匹配,当相似度小于相似度阈值时,则该概念标签与该关键词不匹配。
示例性地,还可以是服务器存储有概念标签与关键词之间的映射表,通过查询映射表可以获得该关键词相匹配的概念标签。其中,一个关键词可以对应多个概念标签,一个概念标签也可以对应多个关键词。
当概念标签库中不存在与该关键词匹配的概念标签时,则获取该关键词的上下文中的词汇,以将上下文中的词汇作为关联关键词。因为该关键词与其上下文包括的词汇之间具有较强的关联性,从而可以基于上下文的关联关键词,找到对应的候选概念标签。因为候选概念标签可以为多个,且为了保证候选概念标签的准确性,需要计算候选概念标签与目标文本之间的匹配度,以选取最能体现目标文本主题的候选概念标签作为该关键词对应的概念标签。
候选概念标签与目标文本之间的匹配度,是用于衡量该候选概念标签与目标文本之间的匹配程度的度量值。匹配度的取值范围可以是[0,1],匹配度越大,表明该候选概念标签与目标文本之间的匹配程度越高,反之匹配度越小,表明该概念标签与目标文本之间的匹配程度越低。
示例性地,可以通过分别将候选概念标签和目标文本向量化,根据计算候选概念标签的文本向量和目标文本的文本向量之间的关系判断其匹配度。当然,匹配度还可以通过现有技术中的其他参数加以确定,在此不再赘述。
例如,可以基于Word2Vec模型对得到的候选概念标签和目标文本进行嵌入处理,得到候选概念标签的文本向量以及目标文本的文本向量。Word2Vec是一群常见的用来产生词向量的相关模型,通过学习词文本用向量的形式表征词的语义信息;模型将词与词之间的关系可视化,相似/相近的词组在Word2Vec的可视化图案中距离非常近。其中,候选概念标签的文本向量和目标文本的文本向量之间的匹配度的计算方法包括但不限于余弦相似度、Jaccard相似度、皮尔逊相关系数等。
在一些实施方式中,根据所述概念标签获取对应的标题模板之前,还包括:计算所述概念标签相对于所述目标文本的匹配度,以及获取所述概念标签相对于所述概念标签库的排序分数;根据所述匹配度和所述排序分数对多个所述概念标签进行打分,得到质量分数;基于所述质量分数对所述概念标签进行筛选,以根据筛选后的所述概念标签获取对应的标题模板。
概念标签与目标文本之间的匹配度,是用于衡量该概念标签与目标文本之间的匹配程度的度量值。概念标签与目标文本之间的匹配度的计算方法,可以参见上述候选概念标签与目标文本之间的匹配度的计算方法,在此不做赘述。
概念标签相对于概念标签库的排序分数,是用于表征该概念标签的重要程度。
在一些实施方式中,所述概念标签库是对历史文本的原始标题进行概念标签提取后获得的,所述获取所述概念标签相对于所述概念标签库的排序分数,包括:根据所述历史文本的被点击次数、被点击时间、被阅读时长中的至少一者,对所述概念标签库中的概念标签进行排序,得到排序后的概念标签库;根据排序后的概念标签库获取所述概念标签的排序分数。
用户的历史文本对应的数据可以反应对应用户在浏览文章时的偏好。历史文本的被点击次数代表预设时间内用户点击该历史文本的次数,历史文本的被点击时间代表用户点击该历史文本时对应的时间戳,历史文本的被阅读时长代表用户点击进入该文本后停留的时间总和。当历史文本的被点击次数越多、被点击时间越靠近当前时间、被阅读时长越长,则代表该历史文本对应的概念标签越重要。
示例性地,获取概念标签库中每个概念标签对应的历史文本,根据历史文本的被点击次数、被点击时间、被阅读时长中的至少一者对概念标签进行打分,得到排序分数。其中,历史文本的被点击次数越多、被点击时间越靠近当前时间、被阅读时长越长,则对应的概念标签的排序分数越高。根据排序分数对概念标签库中的概念标签进行排序,得到排序后的概念标签库。
综合考虑概念标签与目标文本的匹配度和概念标签的排序分数,对概念标签进行综合打分,得到质量分数。得到每个概念标签的打分结果后,基于打分结果对概念标签进行过滤,得到过滤后的概念标签。然后,根据筛选后的概念标签获取对应的标题模板。
步骤S130、根据所述概念标签获取对应的标题模板,并根据所述概念标签对所述标题模板进行填充,得到拼接标题。
服务器中存储有多个标题模板,每个标题模板包括至少一个待填充内容的填充位。根据概念标签的类型,将概念标签填充进对应标题模板的填充位,以得到拼接标题。
例如,概念标签的类型可以包括车辆外观形容词、车辆价位分类、车辆油耗分类、车辆品牌分类、地名、季节、性价比评价等。可以理解的是,标题模板对应的填充位的待填充内容的类型和概念标签的类型一致,且一个概念标签以及填充位的待填充内容可以对应多个不同类型。
示例性地,第一标题模板为:“十大{车辆油耗分类}的{车辆品牌分类}”。第二标题模板为:“新季{商品名称}仅售{商品价格}元”。
在标题模板中,包括模板内容和至少一个待填充内容的填充位,其中模板内容是需要进行保留的,而待填充内容的填充位是需要根据概念标签进行填充的。在后续生成的标题中,包括保留的模板内容和采用概念标签填充的待填充内容。例如,在第一标题模中,模板内容为“十大{车辆油耗分类}的{车辆种类}”,而待填充内容包括车辆油耗分类和车辆品牌分类;在第二标题模板中,模板内容为“新季{商品名称}仅售{商品价格}元”,待填充内容包括商品名称和商品价格。
根据目标文本的概念标签的类型选择标题模板,并对标题模板进行概念标签的填充,得到拼接标题。
例如,概念标签包括“低油耗”、“越野车”以及“6万”,其中,“低油耗”的类型为车辆油耗分类,“越野车”的类型为车辆种类以及商品名称,6万的类型为商品价格。因此,根据“低油耗”和“越野车”可以匹配得到的标题模板为“十大{车辆油耗分类}的{车辆种类}”,根据“越野车”和“6万”可以匹配得到的标题模板为“新季{商品名称}仅售{商品价格}元”。然后将概念标签填充至对应的标题模板中,得到的拼接标题包括“十大低油耗的越野车”和“新季越野车仅售6万元”。
直接生成的拼接标题可能会存在语句不通顺、不易阅读的问题,因此,将得到的拼接标题输入预先训练的标题生成模型,以输出准确易读的目标标题。
步骤S140、基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题。
拼接标题中包含有目标文本对应的关键概念词汇,因为是通过直接对标题模板进行词汇填充得到的,因此生成的标题可能语法不准确,语句不通顺。通过标题生成模型对拼接标题进行处理,以输出更准确通顺的目标标题。
在一些实施方式中,所述标题生成模型的训练方法包括:获取历史文本所包含的原始标题;对所述原始标题进行字词删除操作,得到训练样本;将所述训练样本作为神经网络的输入,将所述原始标题作为神经网络的目标输出,以训练所述神经网络得到标题生成模型。
在一些实施方式中,获取历史文本所包含的原始标题,包括:提取所述历史文本包含的概念标签,得到文本概念标签集合;提取所述历史文本标题包含的概念标签,得到标题概念标签集合;计算所述文本概念标签集合以及所述标题概念标签集合之间的重合度;选取重合度大于重合度阈值的历史文本的标题作为原始标题。
为了保证标题生成模型的训练效果,因此选取质量较高的原始标题作为训练的数据。
通过对历史文本的标题以及正文进行概念标签的提取,分别得到文本概念标签集合和标题概念标签集合。计算文本概念标签集合和标题概念标签集合之间的重合度,重合度越高,则表明该标题越能体现该历史文本的主题,因此该标题的质量越高。其中,重合度指的是文本概念标签集合和标题概念标签集合中存在一致的概念标签的数量和两者概念标签的总量的比值。
选取重合度大于重合度阈值的历史文本的标题作为原始标题。
示例性地,对原始标题进行字词删除操作,得到训练样本。字词删除操作主要删除原始标题包含的连接词、语气词、助词等词汇,需要注意的是,在进行字词删除操作时,需要保证该标题对应的标题模板的完整性。例如原始标题为“如何在地震时保护自己”,其对应的标题模板为“如何...”,对其进行字词删除后得到的训练样本为“如何地震保护自己”。
对于每个训练样本,在输入到预训练的神经网络后,神经网络输出一个标题,根据输出的标题与该训练样本对应的原始标题计算模型损失,根据模型损失调整神经网络的网络参数。当模型收敛,或者训练次数达到预设门限时,停止训练,得到训练好的标题生成模型。
需要说明的是,本申请对标题生成模型的具体结构不做限定,可以采用任何一种实施在现有技术中的神经网络的结构。
在一些实施方式中,基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题,包括:将所述拼接标题输入所述标题生成模型,得到对应的候选标题;计算所述候选标题的通顺度以及所述候选标题与所述目标文本之间的匹配度;根据所述通顺度和所述匹配度对所述候选标题进行打分,得到标题分数;根据所述标题分数选择对应的候选标题作为所述目标标题。
基于标题生成模型可以获得至少一个候选标题,对每个候选标题进行评分,以选择评分结果最高的候选标题作为目标标题。
其中,通顺度指的是候选标题的每个字连接起来是能通顺的,匹配度包括相关度和准确度,相关度指的是目标文本与标题之间的关联程度,准确度指的是标题对于目标文本的概况的正确程度。
示例性地,具体可以是调用训练好的通顺度评分模型,将候选标题输入通顺度评分模型进行处理,得到一个针对该候选标题的通顺度,通顺度以概率表示,其范围为0~1。相似地,可以通过相关度评分模型获得候选标题与目标文本的相关度,具体可以是将候选标题和目标文本输入到相关度评分模型进行处理,得到候选标题和目标文本的相关度。同样地,可以通过准确度评分模型获得候选标题的准确度,具体地,将候选标题和目标文本输入到准确度评分模型进行处理,得到候选标题相对于目标文本的准确度。可以理解的是,可以根据不同的需求选择通顺度评分模型、相关度评分模型和准确度评分模型中的任意一个及其组合对候选标题进行打分,以得到相对应的评分结果。也可以是调用这三个模型分别对候选标题进行打分,得到三个评分结果,在这种情况下,更利于提高候选标题的生成质量。
通过对候选标题打分,得到对应的标题分数,然后选取标题分数最高的候选标题作为目标标题。
本申请实施例公开的基于概念抽取的标题生成方法、装置、设备及介质,通过对目标文本进行关键词提取,得到若干个关键词;从概念标签库中获取与关键词对应的概念标签;根据概念标签获取对应的标题模板,并根据概念标签对标题模板进行填充,得到拼接标题;基于预先训练的标题生成模型对拼接标题进行处理,得到目标标题。目标文本的关键词对应的概念标签包含有更丰富的语义,通过概念标签去填充标题模板得到拼接标题,拼接标题是包含有目标文本关键信息的标题框架。然后根据标题生成模型对拼接标题进行目标标题的生成,最终得到流畅易读、语义丰富且准确的目标标题。
请参阅图2,图2是本申请一实施例提供的一种标题生成装置的示意框图,该标题生成装置可以配置于服务器或计算机设备中,用于执行前述的标题生成方法。
如图2所示,该装置200包括:关键词获取模块210、概念标签获取模块220、拼接标题获取模块230以及目标标题获取模块240。
关键词获取模块210,用于对目标文本进行关键词提取,得到若干个关键词;
概念标签获取模块220,用于从概念标签库中获取与所述关键词对应的概念标签;
拼接标题获取模块230,用于根据所述概念标签获取对应的标题模板,并根据所述概念标签对所述标题模板进行填充,得到拼接标题;
目标标题获取模块240,用于基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
示例性地,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器或终端。
如图3所示,该计算机设备300包括通过系统总线320连接的处理器310、存储器330和网络接口340,其中,存储器330可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统350和计算机程序360。该计算机程序360包括程序指令,该程序指令被执行时,可使得处理器310执行任意一种标题生成方法。
处理器310用于提供计算和控制能力,支撑整个计算机设备300的运行。
内存储器330为非易失性存储介质中的计算机程序360的运行提供环境,该计算机程序360被处理器310执行时,可使得处理器310执行任意一种标题生成方法。
该网络接口340用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备300的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备300的限定,具体地计算机设备300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器310可以是中央处理单元(Centra lProcessing Unit,CPU),该处理器310还可以是其他通用处理器、数字信号处理器(Digita lSignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器310可以是微处理器或者该处理器310也可以是任何常规的处理器等。
其中,在一些实施方式中,所述处理器310用于运行存储在存储器中的计算机程序360,以实现如下步骤:
对目标文本进行关键词提取,得到若干个关键词;
从概念标签库中获取与所述关键词对应的概念标签;
根据所述概念标签获取对应的标题模板,并根据所述概念标签对所述标题模板进行填充,得到拼接标题;
基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题。
在一些实施方式中,所述从概念标签库中获取与所述关键词对应的概念标签,包括:
从所述概念标签库中查找与所述关键词相匹配的概念标签;
若查找到,则将所述概念标签作为所述关键词对应的概念标签;
若未查找到,则获取所述关键词上下文中的关联关键词;
从所述概念标签库中查找与所述关联关键词相匹配的概念标签,得到候选概念标签;
计算所述目标文本与所述候选概念标签之间的匹配度;
选取匹配度大于匹配度阈值的候选概念标签作为所述关键词对应的概念标签。
在一些实施方式中,所述根据所述概念标签获取对应的标题模板之前,还包括:
计算所述概念标签相对于所述目标文本的匹配度,以及获取所述概念标签相对于所述概念标签库的排序分数;
根据所述匹配度和所述排序分数对多个所述概念标签进行打分,得到质量分数;
基于所述质量分数对所述概念标签进行筛选,以根据筛选后的所述概念标签获取对应的标题模板。
在一些实施方式中,所述概念标签库是对历史文本的原始标题进行概念标签提取后获得的,所述获取所述概念标签相对于所述概念标签库的排序分数,包括:
根据所述历史文本的被点击次数、被点击时间、被阅读时长中的至少一者,对所述概念标签库中的概念标签进行排序,得到排序后的概念标签库;
根据排序后的概念标签库获取所述概念标签的排序分数。
在一些实施方式中,所述标题生成模型的训练过程包括:
获取历史文本所包含的原始标题;
对所述原始标题进行字词删除操作,得到训练样本;
将所述训练样本作为神经网络的输入,将所述原始标题作为神经网络的目标输出,以训练所述神经网络得到标题生成模型。
在一些实施方式中,所述获取历史文本所包含的原始标题,包括:
提取所述历史文本包含的概念标签,得到文本概念标签集合;
提取所述历史文本标题包含的概念标签,得到标题概念标签集合;
计算所述文本概念标签集合以及所述标题概念标签集合之间的重合度;
选取重合度大于重合度阈值的历史文本的标题作为原始标题。
在一些实施方式中,所述基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题,包括:
将所述拼接标题输入所述标题生成模型,得到对应的候选标题;
计算所述候选标题的通顺度以及所述候选标题与所述目标文本之间的匹配度;
根据所述通顺度和所述匹配度对所述候选标题进行打分,得到标题分数;
根据所述标题分数选择对应的候选标题作为所述目标标题。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现本申请实施例提供的任一种标题生成方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于概念抽取的标题生成方法,其特征在于,包括:
对目标文本进行关键词提取,得到若干个关键词;
从概念标签库中获取与所述关键词对应的概念标签;
根据所述概念标签获取对应的标题模板,并根据所述概念标签对所述标题模板进行填充,得到拼接标题;
基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题。
2.根据权利要求1所述的方法,其特征在于,所述从概念标签库中获取与所述关键词对应的概念标签,包括:
从所述概念标签库中查找与所述关键词相匹配的概念标签;
若查找到,则将所述概念标签作为所述关键词对应的概念标签;
若未查找到,则获取所述关键词上下文中的关联关键词;
从所述概念标签库中查找与所述关联关键词相匹配的概念标签,得到候选概念标签;
计算所述目标文本与所述候选概念标签之间的匹配度;
选取匹配度大于匹配度阈值的候选概念标签作为所述关键词对应的概念标签。
3.根据权利要求1所述的方法,其特征在于,所述根据所述概念标签获取对应的标题模板之前,还包括:
计算所述概念标签相对于所述目标文本的匹配度,以及获取所述概念标签相对于所述概念标签库的排序分数;
根据所述匹配度和所述排序分数对多个所述概念标签进行打分,得到质量分数;
基于所述质量分数对所述概念标签进行筛选,以根据筛选后的所述概念标签获取对应的标题模板。
4.根据权利要求3所述的方法,其特征在于,所述概念标签库是对历史文本的原始标题进行概念标签提取后获得的,所述获取所述概念标签相对于所述概念标签库的排序分数,包括:
根据所述历史文本的被点击次数、被点击时间、被阅读时长中的至少一者,对所述概念标签库中的概念标签进行排序,得到排序后的概念标签库;
根据排序后的概念标签库获取所述概念标签的排序分数。
5.根据权利要求1所述的方法,其特征在于,所述标题生成模型的训练过程包括:
获取历史文本包含的原始标题;
对所述原始标题进行字词删除操作,得到训练样本;
将所述训练样本作为神经网络的输入,将所述原始标题作为神经网络的目标输出,以训练所述神经网络得到标题生成模型。
6.根据权利要求5所述的方法,其特征在于,所述获取历史文本所包含的原始标题,包括:
提取所述历史文本包含的概念标签,得到文本概念标签集合;
提取所述历史文本标题包含的概念标签,得到标题概念标签集合;
计算所述文本概念标签集合以及所述标题概念标签集合之间的重合度;
选取重合度大于重合度阈值的历史文本的标题作为原始标题。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题,包括:
将所述拼接标题输入所述标题生成模型,得到对应的候选标题;
计算所述候选标题的通顺度以及所述候选标题与所述目标文本之间的匹配度;
根据所述通顺度和所述匹配度对所述候选标题进行打分,得到标题分数;
根据所述标题分数选择对应的候选标题作为所述目标标题。
8.一种标题生成装置,其特征在于,包括:
关键词获取模块,用于对目标文本进行关键词提取,得到若干个关键词;
概念标签获取模块,用于从概念标签库中获取与所述关键词对应的概念标签;
拼接标题获取模块,用于根据所述概念标签获取对应的标题模板,并根据所述概念标签对所述标题模板进行填充,得到拼接标题;
目标标题获取模块,用于基于预先训练的标题生成模型对所述拼接标题进行处理,得到目标标题。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要求1至7中任一项所述的标题生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的标题生成方法。
CN202111286964.3A 2021-10-29 2021-10-29 基于概念抽取的标题生成方法、装置、设备及介质 Pending CN113988057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111286964.3A CN113988057A (zh) 2021-10-29 2021-10-29 基于概念抽取的标题生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111286964.3A CN113988057A (zh) 2021-10-29 2021-10-29 基于概念抽取的标题生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113988057A true CN113988057A (zh) 2022-01-28

Family

ID=79745662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111286964.3A Pending CN113988057A (zh) 2021-10-29 2021-10-29 基于概念抽取的标题生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113988057A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460159A (zh) * 2020-04-02 2020-07-28 河北工程大学 安防大数据的模块化本体构建方法、装置及终端设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460159A (zh) * 2020-04-02 2020-07-28 河北工程大学 安防大数据的模块化本体构建方法、装置及终端设备

Similar Documents

Publication Publication Date Title
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN109145153B (zh) 意图类别的识别方法和装置
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
US9767144B2 (en) Search system with query refinement
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
US20130060769A1 (en) System and method for identifying social media interactions
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN102262765B (zh) 一种发布商品信息的方法及装置
US20130159277A1 (en) Target based indexing of micro-blog content
CN106708929B (zh) 视频节目的搜索方法和装置
US20190340503A1 (en) Search system for providing free-text problem-solution searching
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN111737560B (zh) 内容搜索方法、领域预测模型训练方法、装置及存储介质
CN107767273B (zh) 基于社交数据的资产配置方法、电子装置及介质
WO2016114790A1 (en) Reading difficulty level based resource recommendation
WO2015084404A1 (en) Matching of an input document to documents in a document collection
Han et al. Text summarization using framenet-based semantic graph model
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
CN112711666B (zh) 期货标签抽取方法及装置
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination