CN111898369A - 文章标题生成方法、模型的训练方法、装置和电子设备 - Google Patents
文章标题生成方法、模型的训练方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111898369A CN111898369A CN202010827068.2A CN202010827068A CN111898369A CN 111898369 A CN111898369 A CN 111898369A CN 202010827068 A CN202010827068 A CN 202010827068A CN 111898369 A CN111898369 A CN 111898369A
- Authority
- CN
- China
- Prior art keywords
- title
- article
- training
- model
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000013145 classification model Methods 0.000 claims abstract description 80
- 239000013598 vector Substances 0.000 claims description 57
- 230000011218 segmentation Effects 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 28
- 238000002372 labelling Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000003058 natural language processing Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000012545 processing Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004630 mental health Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000002153 concerted effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文章标题生成方法、模型的训练方法、装置和电子设备,属于计算机技术领域,涉及人工智能和自然语言处理技术。本申请通过标题生成模型自动生成文章的标题,可以提高生成标题的效率。同时,由于训练标题生成模型时使用的训练样本数据包括既包括指定领域的文章标题,也包括非指定领域的文章标题,因此标题生成模型既可以学习到指定领域的文章标题的专业性特点,同时也兼容非指定领域的文章标题的通俗性,更容易得到普通用户的关注。训练标题生成模型时采用分类模型进行辅助训练,可以使训练得到的标题生成模型能够输出指定领域的文章标题。
Description
技术领域
本申请涉及文本处理技术领域,具体涉及一种文章标题生成方法、模型的训练方法、装置和电子设备。
背景技术
随着互联网专业资讯平台的发展,很多用户会在各种在线专业资讯平台阅读专业科普文章。在线专业资讯平台上公布的科普文章通常是相关行业内的专家团队创作的专业科普文章,具有较强的专业性和权威性。
由于相关行业内的专家不一定了解互联网的资讯传播方式,因此行业专家为其科普文章拟定的标题往往偏于专业化和学术化,容易被普通用户忽略。为了使这些科普文章能够吸引更多普通用户的关注,从而更广泛地提高普通用户的相关专业知识,更有效地进行科普,在行业专家拟出初始文章标题后,会由精通互联网的资讯传播方式的编辑人员对初始文章标题进行编辑。在编辑人员与行业专家多次沟通后,才最终确定用户在专业资讯平台上看到的科普文章标题。
上述科普文章标题的生成方式存在标题生成时间长,生成效率低下的问题。如何有效提高标题生成的效率,是一个亟待解决的问题。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种文章标题生成方法、模型的训练方法、装置和电子设备,可以有效提高标题生成的效率。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种文章标题生成方法,包括:
从获取的文章中提取关键词;
对所述关键词进行编码,得到所述关键词的词向量编码;
将所述关键词的词向量编码输入已训练的标题生成模型,得到所述文章的标题;所述标题生成模型是采用训练样本数据并以分类模型进行辅助训练得到的,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,所述分类模型用于确定所述标题生成模型输出的拟定标题的领域为指定领域的概率,且标题生成模型和分类模型的联合损失收敛至预设的目标条件时获得已训练的标题生成模型。
在一种可选的实施例中,所述标题生成模型为生成性预训练GPT模型或BERT语言模型。
在一种可选的实施例中,所述从获取的文章中提取关键词,包括:
对获取的文章进行分词,并确定各个分词在所述文章中的权重参数;
将各个分词的权重参数由大到小排序,选取排序在前的N个分词作为关键词。
第二方面,本申请实施例提供一种标题生成模型的训练方法,采用训练样本数据并以分类模型作为辅助对标题生成模型进行多次训练,获得第一方面的标题生成模型,其中,所述训练包括如下步骤:
获得训练样本数据,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,每个训练样本数据均标注有文章标题的领域为指定领域的概率,其中,指定领域的文章标题标注的概率高于第一概率阈值,非指定领域的文章标题标注的概率低于第二概率阈值,所述第一概率阈值高于所述第二概率阈值;
分别从训练样本数据的各个文章标题的分词中选取关键分词,并根据选取的关键分词生成包括各个文章标题中关键分词的训练语料;
将训练语料中每个文章标题中关键分词的词向量编码输入待训练的标题生成模型,得到训练语料中每个文章标题中关键分词对应的拟定标题,并确定所述待训练的标题生成模型针对训练样本数据的第一损失值;
分别将训练语料中每个文章标题中关键分词对应的拟定标题输入分类模型,得到每个文章标题中关键分词对应的拟定标题的分类结果,所述分类结果为标识拟定标题的领域是指定领域的概率,根据各个拟定标题的分类结果与文章标题标注的概率,确定第二损失值;
根据第一损失值和第二损失值,确定标题生成模型和分类模型的联合损失值;
确定所述联合损失值是否收敛至预设的目标值,如果是,则结束训练得到已训练的标题生成模型,否则根据确定的联合损失值对待训练的标题生成模型的参数进行调整并进行再次训练。
第三方面,本申请实施例提供一种文章标题生成装置,包括:
关键词获取单元,用于从获取的文章中提取关键词;
词向量转换单元,用于对所述关键词进行编码,得到所述关键词的词向量编码;
标题生成单元,用于将所述关键词的词向量编码输入已训练的标题生成模型,得到所述文章的标题;所述标题生成模型是采用训练样本数据并以分类模型进行辅助训练得到的,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,所述分类模型用于确定所述标题生成模型输出的拟定标题的领域为指定领域的概率,且标题生成模型和分类模型的联合损失收敛至预设的目标条件时获得已训练的标题生成模型。
第四方面,本申请实施例提供一种标题生成模型的训练装置,采用训练样本数据并以分类模型作为辅助对标题生成模型进行多次训练,所述训练装置包括:
训练数据获取单元,用于获得训练样本数据,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,每个训练样本数据均标注有文章标题的领域为指定领域的概率,其中,指定领域的文章标题标注的概率高于第一概率阈值,非指定领域的文章标题标注的概率低于第二概率阈值,所述第一概率阈值高于所述第二概率阈值;分别从训练样本数据的各个文章标题的分词中选取关键分词,并根据选取的关键分词生成包括各个文章标题中关键分词的训练语料;
模型训练单元,用于将训练语料中每个文章标题中关键分词的词向量编码输入待训练的标题生成模型,得到训练语料中每个文章标题中关键分词对应的拟定标题,并确定所述待训练的标题生成模型针对训练样本数据的第一损失值;分别将训练语料中每个文章标题中关键分词对应的拟定标题输入分类模型,得到每个文章标题中关键分词对应的拟定标题的分类结果,所述分类结果为标识拟定标题的领域是指定领域的概率,根据各个拟定标题的分类结果与文章标题标注的概率,确定第二损失值;根据第一损失值和第二损失值,确定标题生成模型和分类模型的联合损失值;确定所述联合损失值是否收敛至预设的目标值,如果是,则结束训练得到已训练的标题生成模型,否则根据确定的联合损失值对待训练的标题生成模型的参数进行调整并进行再次训练。
在一种可选的实施例中,所述训练数据获取单元,具体用于:
对训练样本数据中的标题样本及标题样本对应的正文进行分词;
根据标题样本的各个分词在标题样本及标题样本对应的正文中的词频,确定标题样本的各个分词对应的权重参数;
将标题样本的各个分词中,权重参数最大的分词作为关键分词。
在一种可选的实施例中,所述模型训练单元,具体用于:
将第一损失值和第二损失值的加权和,作为标题生成模型和分类模型的联合损失值。
在一种可选的实施例中,所述模型训练单元,具体用于:
根据联合损失值对所述待训练的标题生成模型和所述分类模型的参数进行调整,直至联合损失值收敛至预设的目标值为止,将得到的标题生成模型作为已训练的标题生成模型。
在一种可选的实施例中,所述训练数据获取单元,还用于:
将训练样本数据输入待训练的分类模型,得到待训练的分类模型输出的训练样本数据的分类结果,用于标识训练样本数据对应于指定领域的概率;
根据训练样本数据的分类结果与文章标题标注的概率,确定第三损失值;
根据第三损失值对待训练的分类模型的参数进行调整,直至第三损失值收敛至预设的期望值为止,得到已训练的分类模型。
第五方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面或第二方面任一项所述的方法。
第六方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面或第二方面任一项所述的方法。
本申请实施例的文章标题生成方法、模型的训练方法、装置和电子设备,从获取的文章中提取关键词后,将关键词的词向量编码输入已训练的标题生成模型,标题生成模型可以输出文章的标题。通过标题生成模型自动生成文章的标题,可以缩短生成标题的时间,显著提高生成标题的效率,并且,标题生成模型根据从文章中提取的关键词生成的文章标题,可以准确地体现文章的主题思想,与文章具有较高的契合度。同时,由于训练标题生成模型时使用的训练样本数据包括既包括指定领域的文章标题,也包括非指定领域的文章标题,因此标题生成模型既可以学习到指定领域的文章标题的专业性特点,同时也兼容非指定领域的文章标题的通俗性,更容易得到普通用户的关注。训练标题生成模型时采用分类模型进行辅助训练,可以使训练得到的标题生成模型能够输出指定领域的文章标题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文章标题生成方法的一种应用场景的示意图;
图2为本申请实施例提供的一种文章标题生成方法的流程图;
图3为本申请实施例提供的一种文章标题生成方法的操作界面的示意图;
图4为本申请实施例提供的另一种文章标题生成方法的操作界面的示意图;
图5为本申请实施例提供的一种标题生成模型的训练方法的流程图;
图6为本申请实施例提供的一种标题生成模型的结构示意图;
图7为本申请实施例提供的一种标题生成模型的内部结构示意图;
图8本申请实施例提供的一种分类模型的结构示意图;
图9为图5中步骤S502的一种具体实现方式的流程图;
图10为本申请实施例提供的一种文章标题生成装置的结构示意图;
图11为本申请实施例提供的一种标题生成模型的训练装置的结构示意图;
图12为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)词向量(Word embedding)编码:也可以称为词向量特征,用于描述自然语言文本所包括的词语的语义特征,通常是指对自然语言表示的词语进行向量转换得到的机器能够理解的稠密向量(Dense Vector)或矩阵形式,词向量是自然语言文本中的词语在机器中数值化的体现。也可以理解为,从每个单词、词语或短语的一维空间到具有更低维度的连续向量空间的数学嵌入。
(2)标题生成模型:用于根据文章中的关键词生成文章标题的模型,可以采用GPT(Generative Pre-Training,生成性预训练)模型或BERT(Bidirectional EncoderRepresentations from Transformers,Transformer的双向编码器表示)语言模型实现。
(3)GPT模型:一种基于Transformer(变换器)模型的可迁移到多种NLP(naturallanguage processing,自然语言处理)任务的通用语言模型,可以用于自然语言处理中的文本生成任务,根据输入的词序列生成一句话或一段话。其中,Transformer模型是一种基于注意力机制的语言模型。
(4)BERT语言模型:另一种基于Transformer模型的自然语言处理模型,具有编码器-解码器的架构,可以用于文本生成、命名实体识别、自然语言推理、文本分类等多种自然语言处理任务。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的自然语言处理技术和机器学习(Machine Learning,ML)而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在标题生成的过程中,采用基于机器学习或深度学习的标题生成模型对指定领域的文章标题和非指定领域的文章标题进行学习,从而可以根据输入的文章中的关键词的词向量编码生成所需要的文章标题。
自然语言处理技术,是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本生成、文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
文本生成技术是自然语言处理技术中的一个重要分支,在文章摘抄、生成文章摘要、生成网络小说段落等多种应用场景中具有广泛应用。本申请实施例为了解决现有技术中人工生成某一专业领域的文章标题不仅困难,且效率低下的问题,提供了一种文章标题生成方法、模型的训练方法、装置和电子设备,属于文本生成技术。
本申请实施例提供的文章标题生成方法和标题生成模型的训练方法的一种应用场景可以参见图1所示,该应用场景中包括全网资讯服务器100、多个终端设备(如终端设备301、302、303等)、专业科普服务器400和文章处理服务器500。文章处理服务器500和通过网络200与多个终端设备、全网资讯服务器100和专业科普服务器400进行通信连接,该网络200可以是但不限于局域网、城域网或广域网等。终端设备301~303可以是便携设备(例如:手机、平板电脑、笔记本电脑等),也可以是智能屏或个人电脑(PC,Personal Computer)等。专业科普服务器400可以是在线专业资讯平台的服务器,可以发表指定专业领域的文章。例如,该指定专业领域可以是医疗领域,专业科普服务器400可以是医疗资讯平台的服务器。全网资讯服务器100可以是非专业资讯平台的服务器,可以发表非指定专业领域的文章。如新闻资讯平台的服务器或社交资讯平台的服务器等。文章处理服务器500可以是能够为终端设备提供文章标题生成服务的设备,如可以为终端设备发送的文章拟定标题。文章处理服务器500、全网资讯服务器100和专业科普服务器400均可以是任何能够提供互联网服务的设备,如云端服务器等,也可以包括一台或多台服务器。其中,文章处理服务器500和专业科普服务器400也可以是同一台服务器,或者属于同一服务器群组,文章处理服务器500为终端设备发送的文章拟定标题后,可以将文章传输至专业科普服务器400进行发表。
下面以终端设备301为例进行说明,在一些实施例中,终端设备301上安装有文章发表客户端,用户在终端设备301上编辑好专业科普文章后,需要为文章拟定标题,然后再将文章发送至专业科普服务器400进行发表。在现有技术中,如果用户需要给目标文章生成标题,需要经过文章标题的编辑人员与用户反复沟通,才可以确定最终的文章标题。由于该方式效率低下且过程繁琐,本申请实施例提供了一种文章标题生成方法。
在本申请实施例中,用户在终端设备301上编辑好专业科普文章后,可以通过终端设备301上的文章发表客户端将编辑的文章发送至文章处理服务器500。文章处理服务器500接收到终端设备发送的文章后,从文章中提取关键词,将关键词的词向量编码输入已训练的标题生成模型,即可得到文章的标题。相较于人工生成文章标题的方式,通过标题生成模型自动生成文章的标题,可以缩短生成标题的时间,显著提高生成标题的效率。其中,标题生成模型可以是采用训练样本数据并以分类模型进行辅助训练得到的,分类模型用于确定标题生成模型输出的拟定标题的领域为指定领域的概率。文章处理服务器500可以获取训练样本数据,并采用训练样本数据对标题生成模型进行训练。训练样本数据包括来源于专业科普服务器400的指定领域的文章标题和来源于全网资讯服务器100的非指定领域的文章标题,由于训练标题生成模型时使用的训练样本数据包括既包括指定领域的文章标题,也包括非指定领域的文章标题,因此标题生成模型既可以学习到指定领域的文章标题的专业性特点,同时也兼容非指定领域的文章标题的通俗性,更容易得到普通用户的关注。训练标题生成模型时采用分类模型进行辅助训练,可以使训练得到的标题生成模型能够输出所需要的指定领域的文章标题。
文章处理服务器500为接收到的文章拟定文章标题后,可以将文章标题发送至终端设备301,同时,可以根据用户通过终端设备301发送的文章发表指令,将文章和标题发送至专业科普服务器400,通过专业科普服务器400将文章发表在在线专业资讯平台上。上述用户或其他用户登录该在线专业资讯平台后,可以看到该文章的文章标题并根据兴趣进行阅览。例如,其他用户可以通过终端设备302或终端设备303登录该在线专业资讯平台,并阅览该文章。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际的处理过程中或者装置执行时,可按照实施例或者附图所示的方法顺序执行或者并行执行。
图2示出了本申请实施例提供的一种文章标题生成方法,该方法可以由服务器执行,例如,由图1中所示的文章处理服务器500执行,也可以由终端设备(如图1中的终端设备301)或其他电子设备执行。示例性地,下文以服务器作为执行主体,说明文章标题生成方法的具体实现过程。如图2所示,该文章标题生成方法包括如下步骤:
步骤S201,从获取的文章中提取关键词。
用户在终端设备上编辑好文章后,终端设备可以将未添加标题的文章上传至服务器。服务器接收到终端设备通过网络发送的文章后,从文章中提取关键词。
示例性地,服务器可以先对接收到的文章进行分词处理,得到多个分词,例如,可以采用Jieba分词方法或其它通用分词方法对文章进行分词处理,得到文章所包括的多个分词,其中一些分词可以由单个字组成,另一些词语可以由多个字组成。然后,服务器可以采用TF-IDF算法确定各个分词在文章中的权重参数,将各个分词的权重参数由大到小排序,选取排序在前的N个分词作为关键词。其中,N为设定的整数,例如,N可以是3、4、5或其它整数。TF-IDF算法的具体实现过程,将在下文中详细介绍。
步骤S202,对关键词进行编码,得到关键词的词向量编码。
可选地,服务器可以采用Word2vec模型对提取的关键词进行编码,将关键词表示为词向量编码,也可以采用独热码(One-Hot Encoding)编码方式对提取的关键词进行编码,将关键词表示为词向量编码。
步骤S203,将关键词的词向量编码输入已训练的标题生成模型,得到文章的标题。
在一种可选的实施例中,将关键词的词向量编码输入已训练的标题生成模型中,可以直接将标题生成模型输出的标题作为文章的标题。
在另一种可选的实施例中,将关键词的词向量编码输入已训练的标题生成模型后,可以得到标题生成模型输出的多个待选标题及每个待选标题对应的置信度。置信度用于表征对应的待选标题符合标题语句结构和语法的程度,可以根据每个待选标题对应的置信度,从多个待选标题中选择置信度最高的标题作为文章的标题。
上述标题生成模型是采用训练样本数据并以分类模型进行辅助训练得到的,训练样本数据包括指定领域的文章标题和非指定领域的文章标题,分类模型用于确定标题生成模型输出的拟定标题的领域为指定领域的概率,且标题生成模型和分类模型的联合损失收敛至预设的目标条件时获得已训练的标题生成模型。
示例性地,指定领域的文章标题可以是医疗领域的文章标题,相对应地,非指定领域的文章标题可以是除医疗领域之外的其它领域的文章标题,如热点新闻的文章标题等。指定领域的文章标题也可以是金融领域的文章标题,相对应地,非指定领域的文章标题可以是除金融领域之外的其它领域的文章标题。
标题生成模型的训练过程可以由执行上述文章标题生成方法的服务器执行,也可以由其它设备或其它服务器执行。
服务器确定文章的标题后,可以将标题返回至终端设备,由终端设备将生成的标题展示给用户。
示例性地,如图3所示,用户的终端设备上安装有XX医疗平台的客户端,用户在终端设备上通过该客户端编辑文章时,可以先不拟定标题,文章标题栏显示空白,用户编辑好一篇关于儿童心理健康的文章后,可以点击界面中展示的“添加标题”按键。终端设备接收到用户触发的拟定标题的操作,可以提取文章中的关键词,根据关键词通过已训练的标题生成模型为文章生成标题。或者,终端设备可以根据用户触发的拟定标题的操作,将文章发送至服务器,由服务器通过已训练的标题生成模型为文章生成标题,并返回至终端设备。终端设备确定文章标题后,将文章标题“共同努力,呵护儿童心理健康”显示在如图4所示的界面中的标题区域。用户在确定文章和标题无误后,可以点击界面中的“发表文章”按键,将文章发表至XX医疗平台上。
其中,训练标题生成模型所使用的训练样本数据可以包括来自医疗科普服务器的医疗领域的文章标题和来自全网资讯服务器的非医疗领域的文章标题。在训练过程中采用分类模型进行辅助训练,分类模型用于确定标题生成模型输出的拟定标题的领域为医疗领域的概率。标题生成模型和分类模型的联合损失收敛至预设的目标条件时获得已训练的标题生成模型。通过上述训练过程得到的标题生成模型可以自动生成上述文章标题,同时可以保证该标题为医疗类标题,符合医疗领域的特点,同时,该标题还具有网络文章标题的通俗性,可以吸引普通用户的关注,提高文章的点击率,增加文章的受众,提高科普效果。
需要说明的是,图2所示的文章标题生成方法也可以由终端设备执行,用户在终端设备上编辑好文章后,终端设备可以根据用户的标题生成指令采用已训练的标题生成模型为该文章拟定标题,然后将文章与标题一同发送至专业资讯平台的服务器发表。终端设备也可以对标题生成模型进行训练。
本申请实施例的文章标题生成方法、模型的训练方法、装置和电子设备,从获取的文章中提取关键词后,将关键词的词向量编码输入已训练的标题生成模型,标题生成模型可以输出文章的标题。通过标题生成模型自动生成文章的标题,可以缩短生成标题的时间,显著提高生成标题的效率,并且,标题生成模型根据从文章中提取的关键词生成的文章标题,可以准确地体现文章的主题思想,与文章具有较高的契合度。同时,由于训练标题生成模型时使用的训练样本数据包括既包括指定领域的文章标题,也包括非指定领域的文章标题,因此标题生成模型既可以学习到指定领域的文章标题的专业性特点,同时也兼容非指定领域的文章标题的通俗性,更容易得到普通用户的关注。训练标题生成模型时采用分类模型进行辅助训练,可以使训练得到的标题生成模型能够输出所需要的指定领域的文章标题。
进一步地,本申请实施例还提供了一种标题生成模型的训练方法,用于训练上述文章标题生成方法中所使用的标题生成模型。图5示出了本申请实施例提供的一种标题生成模型的训练方法,该标题生成模型的训练方法可以由服务器执行,也可以由终端设备执行。本实施例以服务器执行该训练方法为例进行说明。
如图5所示,该标题生成模型的训练方法,采用训练样本数据并以分类模型作为辅助对标题生成模型进行多次训练,具体包括如下步骤:
步骤S501,获得训练样本数据。
可以预先获取训练数据集,对模型进行训练时,从训练数据集中抽取训练样本数据。训练数据集中的训练样本数据可以包括指定领域的文章标题和非指定领域的文章标题,每个训练样本数据均标注有分类标签,该分类标签为文章标题的领域为指定领域的概率。指定领域的文章标题作为第一类样本,其标注的概率高于第一概率阈值,非指定领域的文章标题作为第二类样本,其标注的概率低于第二概率阈值,其中,第一概率阈值高于第二概率阈值。在本实施例中,以指定领域为医疗领域为例进行说明。
示例性地,服务器获得的训练样本数据中,指定领域的文章标题可以是来源于图1中的专业科普服务器400,也可以来源于其他网络平台的服务器。专业科普服务器可以是某个高质量、权威的医疗科普平台的医疗科普服务器。例如,服务器可以从医疗科普服务器获取专业医生创作的有关儿童依恋的医疗科普文章的文章标题“依恋关系对儿童心理健康发展的影响”,该标题较为学术化和专业化。考虑到普通互联网用户一方面想要看到权威的文章内容,另一方面也希望点击看起来更“接地气”的文章标题来阅读其文章内容。因此,本申请实施例还可以从其他网络平台获取训练样本数据,如同样是有关儿童依恋的文章标题“儿童心理不健康的十种表现,父母要注意了”,该标题由于更通俗化,因为获得的点击和阅读量更高。本申请实施例同样获取此类文章标题作为训练样本。
服务器获得的训练样本数据中,非指定领域的文章标题可以是来源于图1中的全网资讯服务器100,例如可以来源于某兼顾文章流行度和权威性的优质全网自媒体平台的服务器。可选地,非指定领域的文章标题可以是全网资讯服务器中符合如下部分或全部条件的文章标题:满足阈值粉丝数量大于10万的较高粉丝数的权威账号发表的文章标题,阅读量大于5万的较高流行度的公众号文章的标题。例如,该训练样本选自某知名媒体,粉丝数至少数百万;该文章的阅读数为6.5万,阅读数满足大于设定阈值5万,故通过在全网资讯服务器100的文章中筛选出数十万此类兼顾资讯权威度和高流行度的优质文章标题,用于后续微调出更能表征此类优质标题行文方式的预训练语言模型。
每个训练样本数据均标注有文章标题的领域为医疗领域的概率。在一些实施例中,医疗领域的文章标题标注的概率可以是第一概率阈值以上的数值,非医疗领域的文章标题标注的概率可以是第二概率阈值以下的数值,示例性地,第一概率阈值可以是0.8,第二概率阈值可以是0.2。在另一些实施例中,医疗领域的文章标题标注的概率可以是1,非医疗领域的文章标题标注的概率可以是0,从而将获取的训练样本数据分为两大类,医疗领域的文章标题为第一类样本,非医疗领域的文章标题为第二类样本。
步骤S502,分别从训练样本数据的各个文章标题的分词中选取关键分词,并根据选取的关键分词生成包括各个文章标题中关键分词的训练语料。
由于本申请实施例的标题生成模型只学习标题的行文方式,且一般训练样本数据的文章正文主题可能较为分散,直接提取正文关键词不够聚焦,故本实施例可以从文章标题中提取关键分词。
同时,由于标题属于短文本,用于关键词提取的TF-IDF算法只在标题中使用往往并不适用。因此,在一些实施例中,可以根据标题样本的各个分词在文章标题及文章标题对应的正文中的词频,确定文章标题的各个分词对应的权重参数,取得分最大的词作为关键分词,用于后续训练标题生成模型之用。
可选地,训练语料可以由各个文章标题中关键分词和所对应的各个文章标题构成。
步骤S503,将训练语料中每个文章标题中关键分词的词向量编码输入待训练的标题生成模型,得到训练语料中每个文章标题中关键分词对应的拟定标题,并确定待训练的标题生成模型针对训练样本数据的第一损失值。
待训练的标题生成模型可以是GPT模型或BERT模型,其具体的模型结构可以如图6所示,包括输入层、隐藏层和输出层。输入层的输入为关键分词的词向量编码,经过隐藏层处理后,输出层输出关键分词对应的拟定标题。其中,隐藏层包括一个或多个Transformer模型结构。Transformer模型结构可以如图7所示,包括加膜多头注意力层(Mask Multi-Head Attention)和前馈网络层(Feed Forward),模型使用某个词语的上文中的词语预测该词语,加膜多头注意力层用于对该词语的下文中的词语进行遮挡,防止下文信息泄露。加膜多头注意力层和前馈网络层之后均连接有数据归一化层,用于对数据进行归一化处理,然后再输入到下一层网络。对每个网络层输出的数据进行归一化处理,有利于加快模型的训练速度并提高模型的训练效果。
可以通过将训练语料中每个文章标题中关键分词做word2vec词向量表示,获得训练语料中每个文章标题中关键分词的词向量编码。将训练语料中每个文章标题中关键分词的词向量编码输入待训练的标题生成模型,得到训练语料中每个文章标题中关键分词对应的拟定标题,并确定待训练的标题生成模型针对训练样本数据的第一损失值。
示例性地,假设训练语料U=[u1,u2,...,un],其中U可以是由文章标题中的关键分词和文章标题构成的句子。待训练的标题生成模型针对该训练语料U的第一损失值L1(U)可以通过如下似然函数计算:
其中,ui为U中的第i个词语,也是当前需要预测的词语,ui-k至ui-1为ui的上文中与ui相邻的k个词语,θ为根据ui之前的k个词语预测ui出现的概率,P()为根据U中各个词语出现的概率,预测U出现的概率。
步骤S504,分别将训练语料中每个文章标题中关键分词对应的拟定标题输入分类模型,得到每个文章标题中关键分词对应的拟定标题的分类结果。
其中,分类结果为标识拟定标题的领域是指定领域的概率,根据各个拟定标题的分类结果与文章标题标注的概率,确定第二损失值。
可选的,分类模型可以采用TextCNN模型,分类模型的结构如图8所示,包括词向量层、卷积层、池化层和全连接层。词向量层用于对输入的拟定标题中的词语进行编码,得到由词语的词向量组成的词向量序列或词向量矩阵,并输入至卷积层。卷积层用于对输入的词向量序列或词向量矩阵进行特征提取,得到特征向量,并输入池化层,卷积层可以使用2*2的卷积核。池化层用于对输入的特征向量进行降维处理,并将降维后的特征向量输入全连接层。全连接层用于对输入的特征向量进行拼接,并根据拼接后的特征向量输出拟定标题属于指定领域的概率。
其中,全连接层可以采用分类器,如Softmax分类器。Softmax分类器既可以用于多分类,也可以用于二分类。本申请实施例采用Softmax分类器进行二分类,输出关键分词对应的拟定标题的领域为医疗领域的概率。
在一些实施例中,可以采用交叉熵(Cross Entropy loss)函数确定第二损失值L,公式如下:
其中,N为本轮训练输入模型中的训练样本数据的数量,yi为分类模型输出的第i个拟定标题的领域是医疗领域的概率,qi训练样本数据中的第i个文章标题标注的概率。
步骤S505,根据第一损失值和第二损失值,确定标题生成模型和分类模型的联合损失值。
可选地,可以将第一损失值和第二损失值的加权和,作为标题生成模型和分类模型的联合损失值Lmultitask,采用如下公式计算:
Lmultitask=λL1(U)+(1-λ)L
其中,λ为第一损失值对应的权重值,λ可以是预先设定的小于1的数值。
步骤S506,确定联合损失值是否收敛至预设的目标值;如果否,执行步骤S507;如果是,执行步骤S508。
步骤S507,根据确定的联合损失值对待训练的标题生成模型的参数进行调整。
如果联合损失值未收敛,则对模型参数进行调整,调整模型参数后,返回执行步骤S501,继续下一轮的训练过程。
步骤S508,结束训练得到已训练的标题生成模型。
如果联合损失值收敛,则将当前得到的标题生成模型作为已训练的标题生成模型。
在一种实施例中,在上述步骤S507中,调整模型参数时,可以将标题生成模型和分类模型的参数同时进行调整,即根据联合损失值对待训练的标题生成模型和分类模型的参数进行调整,直至联合损失值收敛至预设的目标值为止,将得到的标题生成模型作为已训练的标题生成模型。
在另一种实施例中,可以预先对分类模型进行训练,然后使用训练好的分类模型作为辅助训练模型对标题生成模型进行训练。即在获得标注好的训练样本数据后,先训练分类模型。将训练样本数据输入待训练的分类模型,得到待训练的分类模型输出的训练样本数据的分类结果,该分类结果用于标识训练样本数据对应于指定领域的概率。根据训练样本数据的分类结果与文章标题标注的概率,确定第三损失值。根据第三损失值对待训练的分类模型的参数进行调整,直至第三损失值收敛至预设的期望值为止,得到已训练的分类模型。其中,第三损失值的确定方法与上述第二损失值的确定方法相同,在此不再赘述。
使用已训练的分类模型作为辅助训练模型对标题生成模型进行训练时,上述步骤S507中,调整模型参数时,可以只调整标题生成模型的参数,直至联合损失值收敛至预设的目标值为止,将得到的标题生成模型作为已训练的标题生成模型。
本申请实施例的标题生成模型的训练方法,标题生成模型根据从文章中提取的关键词生成的文章标题,可以准确地体现文章的主题思想,与文章具有较高的契合度。同时,由于训练标题生成模型时使用的训练样本数据包括既包括指定领域的文章标题,也包括非指定领域的文章标题,因此标题生成模型既可以学习到指定领域的文章标题的专业性特点,同时也兼容非指定领域的文章标题的通俗性,更容易得到普通用户的关注。训练标题生成模型时采用分类模型进行辅助训练,可以使训练得到的标题生成模型能够输出所需要的指定领域的文章标题。
在一种可选的实施例中,上述步骤502中,可以采用图9所示的方法,从训练样本数据的各个文章标题的分词中选取关键分词,具体包括如下步骤:
步骤S5021,对训练样本数据中的标题样本及标题样本对应的正文进行分词。
训练样本数据中的每个文章标题均可以作为一个标题样本,每个文章标题对应的正文作为该标题样本对应的正文。对于任意一个标题样本,可以采用Jieba分词方法或其它分词方法对该标题样本及其对应的正文进行分词。
步骤S5022,根据标题样本的各个分词在标题样本及标题样本对应的正文中的词频,确定标题样本的各个分词对应的权重参数。
在一些实施例中,对任意一个标题样本及该标题样本对应的正文进行分词后,可以采用TF-IDF算法计算标题样本中各个分词的权重参数,在该实施例中,将标题样本及其对应的正文作为一个域,来确定标题样本中各个分词的权重参数,具体如下:
对于每个分词,TF-IDF算法得出的权重参数为TF*IDF。
其中,TF代表该分词的词频(Term Frequency),即该分词在该标题样本及其对应的正文中出现的频率。同一个分词在长文件里可能会比短文件有更高的词数,而不管该分词重要与否。在一份给定的文档里,词频指的是某个分词在该文档中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。例如,对于第j个标题样本中的第i个分词,其TF值tfij可以通过如下公式确定:
其中,nij为第i个分词在第j个标题样本及该标题样本对应的正文中出现的次数;∑knk,j是第j个标题样本及该标题样本对应的正文中所有分词出现的次数的总和,k为第j个标题样本及该标题样本对应的正文中所有分词的总数。
IDF代表该分词对应的逆向文件频率(Inverse Document Frequency),是一个分词的重要性的度量参数。一个分词的IDF,可以由训练数据集中标题样本的总数量除以包含该分词的标题样本的数量,再将得到的商取对数得到。
具体地,可以通过下述公式确定第j个标题样本中第i个分词的IDF值idfij:
其中,|D|是训练数据集中标题样本的总数量;
|{j:ti∈dj}|表示标题样本或其对应的正文中包含第i个分词的标题样本的数量。
IDF的主要思想是:如果包含该分词的文档越少,其对应的IDF值就越大,说明该分词的类别区分能力越高;相反,包含该分词的文档越多,其对应的IDF值就越小,说明该分词的类别区分能力越低。例如,对于分词t,在获取的训练数据集中,如果指定领域的文档中包含分词t的文档的数量为m,而非指定领域的文档中包含分词t的文档的数量为h,显然在训练数据集中,包含分词t的文档总数n=m+h,当m增大时,n也增大,按照上述IDF计算公式得到的IDF的值会越小,就说明该分词t的类别区分能力不强。但实际上,如果一个分词在指定领域的文档中频繁出现,则说明该分词能够很好地代表指定领域的文本的特征,此时,可以获取更多的训练样本数据,以尽量减小m增大造成的影响,使该分词具有较高的权重,并选来作为指定领域的特征词以区别于非指定领域的文档。
在确定第j个标题样本中的第i个分词的TF值tfij和IDF值idfij之后,该分词的权重参数TF-IDF可以表示为:TF-IDF=tfij*idfij。
上述介绍的TF-IDF算法也可以用于步骤S201中,计算获取的文章中各个分词的权重参数。
在另一些实施例中,对任意一个标题样本及该标题样本对应的正文进行分词后,在计算标题样本中各个分词的权重参数时,TF-IDF值的计算采用基于不同域不同权重的TF-IDF算法。
例如,对于任意一个标题样本中的每个分词,可以通过上述计算TF-IDF值的算法分别在标题和正文两个域计算TF-IDF值。假设一个分词在标题中的TF-IDF值为tf_1*idf_1,该分词在正文中的TF-IDF值为tf_2*idf_2,对该分词在标题中的TF-IDF值tf_1*idf_1和该分词在正文中的TF-IDF值tf_2*idf_2进行加权求和,得到该分词的权重参数。
其中,该分词在标题中的tf_1*idf_1对应的系数为field_weight_1,该分词在正文中的tf_2*idf_2对应的系数为field_weight_2。分词的权重参数Score可以表示为:
Score=field_weight_1*tf_1*idf_1+field_weight_2*tf_2*idf_2
其中,该分词在标题中的tf_1*idf_1对应的系数ield_weight_1大于该分词在正文中的tf_2*idf_2对应的系数field_weight_2。可选地,该分词在标题中的tf_1*idf_1对应的系数ield_weight_1可以是该分词在正文中的tf_2*idf_2对应的系数field_weight_2的5倍,以使在确定该分词的权重参数时,更多地参考该分词在标题中的重要度。
步骤S5023,将标题样本的各个分词中,权重参数最大的分词作为关键分词。
在一些实施例中,取得分最大的词作为关键分词,用于后续训练标题生成模型之用。不用更多关键词约束的原因是可以使该语言模型具有较少的上下文限制,从而得到更丰富多样的语言表达方式。
在一种可选的实施例中,进行模型训练时,待训练的标题生成模型可以是预先经过其它训练的GPT模型,通过上述训练过程,对GPT模型进行学习训练语料的文章标题的行文方式的微调。使用已训练的参数作为模型训练的起点,不仅可以节约大量训练时间,而且有助于模型性能的提高。
与图2所示的文章标题生成方法基于同一发明构思,本申请实施例中还提供了一种文章标题生成装置,该文章标题生成装置可以布设在服务器500终端设备中。由于该装置是本申请文章标题生成方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。
图10示出了本申请实施例提供的一种文章标题生成装置的结构示意图,如图10所示,该文章标题生成装置包括关键词获取单元1001、词向量转换单元1002和标题生成单元1003。
其中,关键词获取单元1001,用于从获取的文章中提取关键词;
词向量转换单元1002,用于对关键词进行编码,得到关键词的词向量编码;
标题生成单元1003,用于将关键词的词向量编码输入已训练的标题生成模型,得到文章的标题;标题生成模型是采用训练样本数据并以分类模型进行辅助训练得到的,训练样本数据包括指定领域的文章标题和非指定领域的文章标题,分类模型用于确定标题生成模型输出的拟定标题的领域为指定领域的概率,且标题生成模型和分类模型的联合损失收敛至预设的目标条件时获得已训练的标题生成模型。
与图5所示的标题生成模型的训练方法基于同一发明构思,本申请实施例中还提供了一种标题生成模型的训练装置,同样,该标题生成模型的训练装置可以布设在服务器或终端设备中。由于该装置是本申请标题生成模型的训练方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。
图11示出了本申请实施例提供的一种标题生成模型的训练装置的结构示意图,该文章标题生成装置采用训练样本数据并以分类模型作为辅助对标题生成模型进行多次训练,如图11所示,该文章标题生成装置包括训练数据获取单元1101和模型训练单元1102。
其中,训练数据获取单元1101,用于获得训练样本数据,训练样本数据包括指定领域的文章标题和非指定领域的文章标题,每个训练样本数据均标注有文章标题的领域为指定领域的概率,其中,指定领域的文章标题标注的概率高于第一概率阈值,非指定领域的文章标题标注的概率低于第二概率阈值,第一概率阈值高于第二概率阈值;分别从训练样本数据的各个文章标题的分词中选取关键分词,并根据选取的关键分词生成包括各个文章标题中关键分词的训练语料;
模型训练单元1102,用于将训练语料中每个文章标题中关键分词的词向量编码输入待训练的标题生成模型,得到训练语料中每个文章标题中关键分词对应的拟定标题,并确定待训练的标题生成模型针对训练样本数据的第一损失值;分别将训练语料中每个文章标题中关键分词对应的拟定标题输入分类模型,得到每个文章标题中关键分词对应的拟定标题的分类结果,分类结果为标识拟定标题的领域是指定领域的概率,根据各个拟定标题的分类结果与文章标题标注的概率,确定第二损失值;根据第一损失值和第二损失值,确定标题生成模型和分类模型的联合损失值;确定联合损失值是否收敛至预设的目标值,如果是,则结束训练得到已训练的标题生成模型,否则根据确定的联合损失值对待训练的标题生成模型的参数进行调整并进行再次训练。
在一种可选的实施例中,训练数据获取单元1101,具体用于:
对训练样本数据中的标题样本及标题样本对应的正文进行分词;
根据标题样本的各个分词在标题样本及标题样本对应的正文中的词频,确定标题样本的各个分词对应的权重参数;
将标题样本的各个分词中,权重参数最大的分词作为关键分词。
在一种可选的实施例中,模型训练单元1102,具体用于:
将第一损失值和第二损失值的加权和,作为标题生成模型和分类模型的联合损失值。
在一种可选的实施例中,模型训练单元1102,具体用于:
根据联合损失值对待训练的标题生成模型和分类模型的参数进行调整,直至联合损失值收敛至预设的目标值为止,将得到的标题生成模型作为已训练的标题生成模型。
在一种可选的实施例中,模型训练单元1102,还用于:
将训练样本数据输入待训练的分类模型,得到待训练的分类模型输出的训练样本数据的分类结果,用于标识训练样本数据对应于指定领域的概率;
根据训练样本数据的分类结果与文章标题标注的概率,确定第三损失值;
根据第三损失值对待训练的分类模型的参数进行调整,直至第三损失值收敛至预设的期望值为止,得到已训练的分类模型。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以用于生成文章标题,或者用于对标题生成模型进行训练。在一种实施例中,该电子设备可以是服务器,如图1所示的文章处理服务器500,也可以是终端设备或其他电子设备。在该实施例中,电子设备的结构可以如图12所示,包括存储器121,通讯模块123以及一个或多个处理器122。
存储器121,用于存储处理器122执行的计算机程序。存储器121可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器121可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器121也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器121是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器121可以是上述存储器的组合。
处理器122,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器122,用于调用存储器121中存储的计算机程序时实现上述文章标题生成方法或标题生成模型的训练方法。
通讯模块123用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器121、通讯模块123和处理器122之间的具体连接介质。本公开实施例在图12中以存储器121和处理器122之间通过总线124连接,总线124在图12中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线124可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器121中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的文章标题生成方法2或标题生成模型的训练方法。处理器122用于执行上述的文章标题生成方法2或标题生成模型的训练方法。
本申请实施例还提供了一种计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请任一实施例所记载的文章标题生成方法或标题生成模型的训练方法。
在一些可能的实施方式中,本申请提供的文章标题生成方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文章标题生成方法的步骤,例如,所述计算机设备可以执行如图2所示的步骤S201~S203的文章标题生成方法的流程。
在一些可能的实施方式中,本申请提供的标题生成模型的训练方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的标题生成模型的训练方法的步骤,例如,所述计算机设备可以执行如图5所示的步骤S501~S508的标题生成模型的训练方法的流程。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种文章标题生成方法,其特征在于,包括:
从获取的文章中提取关键词;
对所述关键词进行编码,得到所述关键词的词向量编码;
将所述关键词的词向量编码输入已训练的标题生成模型,得到所述文章的标题;所述标题生成模型是采用训练样本数据并以分类模型进行辅助训练得到的,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,所述分类模型用于确定所述标题生成模型输出的拟定标题的领域为指定领域的概率,且标题生成模型和分类模型的联合损失收敛至预设的目标条件时获得已训练的标题生成模型。
2.一种标题生成模型的训练方法,其特征在于,采用训练样本数据并以分类模型作为辅助对标题生成模型进行多次训练,获得权利要求1中的标题生成模型,其中,所述训练包括如下步骤:
获得训练样本数据,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,每个训练样本数据均标注有文章标题的领域为指定领域的概率,其中,指定领域的文章标题标注的概率高于第一概率阈值,非指定领域的文章标题标注的概率低于第二概率阈值,所述第一概率阈值高于所述第二概率阈值;
分别从训练样本数据的各个文章标题的分词中选取关键分词,并根据选取的关键分词生成包括各个文章标题中关键分词的训练语料;
将训练语料中每个文章标题中关键分词的词向量编码输入待训练的标题生成模型,得到训练语料中每个文章标题中关键分词对应的拟定标题,并确定所述待训练的标题生成模型针对训练样本数据的第一损失值;
分别将训练语料中每个文章标题中关键分词对应的拟定标题输入分类模型,得到每个文章标题中关键分词对应的拟定标题的分类结果,所述分类结果为标识拟定标题的领域是指定领域的概率,根据各个拟定标题的分类结果与文章标题标注的概率,确定第二损失值;
根据第一损失值和第二损失值,确定标题生成模型和分类模型的联合损失值;
确定所述联合损失值是否收敛至预设的目标值,如果是,则结束训练得到已训练的标题生成模型,否则根据确定的联合损失值对待训练的标题生成模型的参数进行调整并进行再次训练。
3.根据权利要求2所述的训练方法,其特征在于,所述从训练样本数据的各个文章标题的分词中选取关键分词,包括:
对训练样本数据中的标题样本及标题样本对应的正文进行分词;
根据标题样本的各个分词在标题样本及标题样本对应的正文中的词频,确定标题样本的各个分词对应的权重参数;
将标题样本的各个分词中,权重参数最大的分词作为关键分词。
4.根据权利要求2所述的训练方法,其特征在于,所述根据第一损失值和第二损失值,确定标题生成模型和分类模型的联合损失值,包括:
将第一损失值和第二损失值的加权和,作为标题生成模型和分类模型的联合损失值。
5.根据权利要求4所述的训练方法,其特征在于,所述根据确定的联合损失值对待训练的标题生成模型的参数进行调整并进行再次训练,包括:
根据联合损失值对所述待训练的标题生成模型和所述分类模型的参数进行调整,直至联合损失值收敛至预设的目标值为止,将得到的标题生成模型作为已训练的标题生成模型。
6.根据权利要求4所述的训练方法,其特征在于,所述从训练样本数据的分词中选取关键分词之前,所述方法还包括:
将训练样本数据输入待训练的分类模型,得到待训练的分类模型输出的训练样本数据的分类结果,用于标识训练样本数据对应于指定领域的概率;
根据训练样本数据的分类结果与文章标题标注的概率,确定第三损失值;
根据第三损失值对待训练的分类模型的参数进行调整,直至第三损失值收敛至预设的期望值为止,得到已训练的分类模型。
7.一种文章标题生成装置,其特征在于,包括:
关键词获取单元,用于从获取的文章中提取关键词;
词向量转换单元,用于对所述关键词进行编码,得到所述关键词的词向量编码;
标题生成单元,用于将所述关键词的词向量编码输入已训练的标题生成模型,得到所述文章的标题;所述标题生成模型是采用训练样本数据并以分类模型进行辅助训练得到的,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,所述分类模型用于确定所述标题生成模型输出的拟定标题的领域为指定领域的概率,且标题生成模型和分类模型的联合损失收敛至预设的目标条件时获得已训练的标题生成模型。
8.一种标题生成模型的训练装置,其特征在于,采用训练样本数据并以分类模型作为辅助对标题生成模型进行多次训练,所述训练装置包括:
训练数据获取单元,用于获得训练样本数据,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,每个训练样本数据均标注有文章标题的领域为指定领域的概率,其中,指定领域的文章标题标注的概率高于第一概率阈值,非指定领域的文章标题标注的概率低于第二概率阈值,所述第一概率阈值高于所述第二概率阈值;分别从训练样本数据的各个文章标题的分词中选取关键分词,并根据选取的关键分词生成包括各个文章标题中关键分词的训练语料;
模型训练单元,用于将训练语料中每个文章标题中关键分词的词向量编码输入待训练的标题生成模型,得到训练语料中每个文章标题中关键分词对应的拟定标题,并确定所述待训练的标题生成模型针对训练样本数据的第一损失值;分别将训练语料中每个文章标题中关键分词对应的拟定标题输入分类模型,得到每个文章标题中关键分词对应的拟定标题的分类结果,所述分类结果为标识拟定标题的领域是指定领域的概率,根据各个拟定标题的分类结果与文章标题标注的概率,确定第二损失值;根据第一损失值和第二损失值,确定标题生成模型和分类模型的联合损失值;确定所述联合损失值是否收敛至预设的目标值,如果是,则结束训练得到已训练的标题生成模型,否则根据确定的联合损失值对待训练的标题生成模型的参数进行调整并进行再次训练。
9.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1或权利要求2~6中任一项所述的方法。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现权利要求1或权利要求2~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827068.2A CN111898369B (zh) | 2020-08-17 | 2020-08-17 | 文章标题生成方法、模型的训练方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010827068.2A CN111898369B (zh) | 2020-08-17 | 2020-08-17 | 文章标题生成方法、模型的训练方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898369A true CN111898369A (zh) | 2020-11-06 |
CN111898369B CN111898369B (zh) | 2024-03-08 |
Family
ID=73229642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010827068.2A Active CN111898369B (zh) | 2020-08-17 | 2020-08-17 | 文章标题生成方法、模型的训练方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898369B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711942A (zh) * | 2021-03-29 | 2021-04-27 | 贝壳找房(北京)科技有限公司 | 房源标题生成模型的训练方法、生成方法、装置以及设备 |
CN113468289A (zh) * | 2021-07-23 | 2021-10-01 | 京东城市(北京)数字科技有限公司 | 事件检测模型的训练方法及装置 |
CN114862493A (zh) * | 2022-04-07 | 2022-08-05 | 北京中科深智科技有限公司 | 一种基于轻量微调的生成个性化商品描述的生成模型 |
WO2022206091A1 (zh) * | 2021-03-30 | 2022-10-06 | 京东科技控股股份有限公司 | 用于生成数据的方法和装置 |
CN115438654A (zh) * | 2022-11-07 | 2022-12-06 | 华东交通大学 | 文章标题生成方法、装置、存储介质及电子设备 |
CN117807963A (zh) * | 2024-03-01 | 2024-04-02 | 之江实验室 | 一种指定领域的文本生成方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002008950A2 (en) * | 2000-07-25 | 2002-01-31 | Firespout, Inc. | Automatic summarization of a document |
US20170011310A1 (en) * | 2010-09-29 | 2017-01-12 | Excalibur Ip, Llc | Training a search query intent classifier using wiki article titles and a search click log |
CN106933808A (zh) * | 2017-03-20 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章标题生成方法、装置、设备及介质 |
CN107832299A (zh) * | 2017-11-17 | 2018-03-23 | 北京百度网讯科技有限公司 | 基于人工智能的标题的改写处理方法、装置及可读介质 |
US20180218241A1 (en) * | 2015-05-08 | 2018-08-02 | Guangzhou Ucweb Computer Technology Co., Ltd. | Webpage classification method and apparatus, calculation device and machine readable storage medium |
CN110717327A (zh) * | 2019-09-29 | 2020-01-21 | 北京百度网讯科技有限公司 | 标题生成方法、装置、电子设备和存储介质 |
CN110795930A (zh) * | 2019-10-24 | 2020-02-14 | 网娱互动科技(北京)股份有限公司 | 一种文章标题优化方法、系统、介质及设备 |
CN110968666A (zh) * | 2019-11-22 | 2020-04-07 | 掌阅科技股份有限公司 | 基于相似度的标题生成模型的训练方法及计算设备 |
CN111353019A (zh) * | 2020-02-25 | 2020-06-30 | 上海昌投网络科技有限公司 | 一种微信公众号公号主题分类方法及装置 |
CN111460801A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 标题生成方法、装置及电子设备 |
US20200251100A1 (en) * | 2019-02-01 | 2020-08-06 | International Business Machines Corporation | Cross-domain multi-task learning for text classification |
-
2020
- 2020-08-17 CN CN202010827068.2A patent/CN111898369B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002008950A2 (en) * | 2000-07-25 | 2002-01-31 | Firespout, Inc. | Automatic summarization of a document |
US20170011310A1 (en) * | 2010-09-29 | 2017-01-12 | Excalibur Ip, Llc | Training a search query intent classifier using wiki article titles and a search click log |
US20180218241A1 (en) * | 2015-05-08 | 2018-08-02 | Guangzhou Ucweb Computer Technology Co., Ltd. | Webpage classification method and apparatus, calculation device and machine readable storage medium |
CN106933808A (zh) * | 2017-03-20 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章标题生成方法、装置、设备及介质 |
CN107832299A (zh) * | 2017-11-17 | 2018-03-23 | 北京百度网讯科技有限公司 | 基于人工智能的标题的改写处理方法、装置及可读介质 |
US20200251100A1 (en) * | 2019-02-01 | 2020-08-06 | International Business Machines Corporation | Cross-domain multi-task learning for text classification |
CN110717327A (zh) * | 2019-09-29 | 2020-01-21 | 北京百度网讯科技有限公司 | 标题生成方法、装置、电子设备和存储介质 |
CN110795930A (zh) * | 2019-10-24 | 2020-02-14 | 网娱互动科技(北京)股份有限公司 | 一种文章标题优化方法、系统、介质及设备 |
CN110968666A (zh) * | 2019-11-22 | 2020-04-07 | 掌阅科技股份有限公司 | 基于相似度的标题生成模型的训练方法及计算设备 |
CN111353019A (zh) * | 2020-02-25 | 2020-06-30 | 上海昌投网络科技有限公司 | 一种微信公众号公号主题分类方法及装置 |
CN111460801A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 标题生成方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
徐菲菲 等: "文本词向量与预训练语言模型研究", 《上海电力大学学报》, vol. 36, no. 4, pages 320 - 328 * |
李舟军;范宇;吴贤杰;: "面向自然语言处理的预训练技术研究综述", 计算机科学, no. 03 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711942A (zh) * | 2021-03-29 | 2021-04-27 | 贝壳找房(北京)科技有限公司 | 房源标题生成模型的训练方法、生成方法、装置以及设备 |
WO2022206091A1 (zh) * | 2021-03-30 | 2022-10-06 | 京东科技控股股份有限公司 | 用于生成数据的方法和装置 |
CN113468289A (zh) * | 2021-07-23 | 2021-10-01 | 京东城市(北京)数字科技有限公司 | 事件检测模型的训练方法及装置 |
CN114862493A (zh) * | 2022-04-07 | 2022-08-05 | 北京中科深智科技有限公司 | 一种基于轻量微调的生成个性化商品描述的生成模型 |
CN115438654A (zh) * | 2022-11-07 | 2022-12-06 | 华东交通大学 | 文章标题生成方法、装置、存储介质及电子设备 |
CN117807963A (zh) * | 2024-03-01 | 2024-04-02 | 之江实验室 | 一种指定领域的文本生成方法及装置 |
CN117807963B (zh) * | 2024-03-01 | 2024-04-30 | 之江实验室 | 一种指定领域的文本生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111898369B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN111898369B (zh) | 文章标题生成方法、模型的训练方法、装置和电子设备 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111291549B (zh) | 文本处理方法、装置、存储介质和电子设备 | |
TW201917602A (zh) | 文本語義編碼方法及裝置 | |
US10628529B2 (en) | Device and method for natural language processing | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN111401077A (zh) | 语言模型的处理方法、装置和计算机设备 | |
Kumar et al. | A review on chatbot design and implementation techniques | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
WO2019133506A1 (en) | Intelligent routing services and systems | |
CN111026840B (zh) | 文本处理方法、装置、服务器和存储介质 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111723295A (zh) | 一种内容分发方法、装置和存储介质 | |
Song et al. | Text sentiment analysis based on convolutional neural network and bidirectional LSTM model | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN110781666B (zh) | 基于生成式对抗网络的自然语言处理文本建模 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
CN113094473A (zh) | 关键词的权重计算方法、装置、计算机设备及存储介质 | |
Uttarwar et al. | Artificial intelligence based system for preliminary rounds of recruitment process | |
Ling | Coronavirus public sentiment analysis with BERT deep learning | |
Parmentier et al. | Learning reddit user reputation using graphical attention networks | |
Wang et al. | CA-CD: context-aware clickbait detection using new Chinese clickbait dataset with transfer learning method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |