CN116432654A - 一种基于内容上下文的自动续写生成方法 - Google Patents
一种基于内容上下文的自动续写生成方法 Download PDFInfo
- Publication number
- CN116432654A CN116432654A CN202310570040.9A CN202310570040A CN116432654A CN 116432654 A CN116432654 A CN 116432654A CN 202310570040 A CN202310570040 A CN 202310570040A CN 116432654 A CN116432654 A CN 116432654A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- training
- bert
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 238000004519 manufacturing process Methods 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 claims abstract description 4
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 claims description 3
- 101000779415 Homo sapiens Alanine aminotransferase 2 Proteins 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 239000002699 waste material Substances 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 244000144886 lesser spear grass Species 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自动续写生成技术领域,具体是一种基于内容上下文的自动续写生成方法,包括以下步骤:S1、准备带有命令实体识别训练数据;S11、微调BERT中文预训练模型;S12、测试命名实体识别效果;S13、使用输出结果标注无标样本数据;S2、微调T5中文预训练模型;S3、评估生产文本质量。本发明的有益效果通过理解用户上下文,基于用户提供的信息,拓展相关背景信息,从而生成与用户提供文本内容存在背景知识和逻辑相关的续写内容,让生成内容更加符合用户的创作意图和场景,基于对上下文的理解,有针对性地生成文本内容,解决语言模型生成内容不可控的问题,可以生成符合用户意图和创作场景的内容,使得续写引擎为用户真正带来价值,提高创作生产效率。
Description
技术领域
本发明涉及自动续写生成技术领域,具体是一种基于内容上下文的自动续写生成方法。
背景技术
智能续写是自然语言生成技术(NLG)在文本创作场景下的一个具体应用。它是由语言模型,根据用户提供的起始文本,为用户批量生成从语言表达上符合人类书写方式,并且与起始文本存在内容逻辑相关性的语句或文段,自动帮助用户完成文章语句的撰写。
随着大规模预训练语言模型的问世,智能续写在小说,剧本等创作场景都展示出了令人惊喜的表现,可以续写出很多用户意想不到的内容,帮助完成文本编辑的同时,也能给用户提供丰富的灵感。而续写意料之外的内容的另一面,是无法写出用户期望的内容,这使得在一些有明确信息点需要传递的场景下,如公文、合同、简历等写作场景,续写的表现往往不尽人意。
基于现有预训练语言模型的续写能力,生成的结果,在内容上不可控,无法生成用户预期的信息内容,也由于缺少对用户使用场景的理解,导致无法形成有效的落地应用的缺点,因此亟需研发一种基于内容上下文的自动续写生成方法。
发明内容
本发明的目的在于提供一种基于内容上下文的自动续写生成方法,以解决上述背景技术中提出的在内容上不可控,无法生成用户预期的信息内容,也由于缺少对用户使用场景的理解的问题。
本发明的技术方案是:包括以下步骤:
S1、准备带有命令实体识别训练数据;
S11、微调BERT中文预训练模型;
S12、测试命名实体识别效果;
S13、使用输出结果标注无标样本数据;
S2、微调T5中文预训练模型;
S3、评估生产文本质量。
进一步地,所述S11中,BERT模型在中文预训练中包括以下步骤:
a.准备标注过实体信息的训练语料;
b.使用BERT中文预训练模型对训练语料针对命名实体识别任务进行微调;
c.测试命名实体识别任务精度。
进一步地,所述S2中,T5模型在中文预训练中包括以下步骤:
a.将标注过实体信息的训练语料的格式转化为:实体信息:语料;
b.将步骤a中准备的语料送入T5模型进行可控文本生成任务进行微调;
c.评估生成文本的可用性。
进一步地,所述S3中采用RFKL范式的场景应用,RFKL范式是知识+语言模型的算法范式,通过知识的方式控制文本的内容的生成,将RFKL范式应用到具体场景下,通过构建海量的场景化的深度知识网络,通过识别被续写文本中的知识,进而推理出与之关联性高的其他知识,在此基础上,进行逻辑上合理,表达上通顺的续写内容生成。
进一步地,所述S11中,BERT模型实际上是学习到输入序列的特征表示,然后再把学习到的特征表示应用到不同的downstream任务,关于为什么要使用双向的结构,单向的结构限制了pre-trained representations的能力,单方向的left-to-right结构或者right-to-left结构,抑或是简单将left-to-right特征和right-to-left简单拼接的ELMo结构都是不够的,这是因为预训练得到的BERT模型要用于处理不同的任务,因此需要知道序列中某个word左边的信息,还需要知道这个word右边的信息,并把这两个方向的信息整合起来。
进一步地,所述S2中,T5将GLUE中所有任务的数据集在微调时连接起来,将所有任务视为一个任务,并且在SuperGLUE中加入了数据集,T5模型使用SQuAD数据集时是将问题和上下文喂入,并逐个生成答案,机器翻译任务中仅对英语数据进行预训练,采用数据集,基于该算法技术训练的续写模型,数据全部来自于真实的场景数据,包括真实简历、真实JD和真实种草文案,训练所用数据集,除了保留完整的生成用训练文本以外,还纳入了大量针对文本内容、应用场景的分类标签,确保模型在学习文本生成的同时,对文本的应用细分场景也有所学习。
进一步地,7.所述S2中,对预训练模型中的多种模型架构(Transformer)进行了比对,最主要的模型架构可以分成下面三种:
第一种,Encoder-Decoder型,即Seq2Seq常用模型,分成Encoder和Decoder两部分,对于Encoder部分,输入可以看到全体,之后结果输给Decoder,而Decoder因为输出方式只能看到之前的。此架构代表是MASS、BART等;
第二种,相当于上面的Decoder部分,当前时间步只能看到之前时间步信息,典型代表是GPT2、CTRL;
第三种,PrefixLM(LanguageModel)型,可看作是上面Encoder和Decoder的融合体,一部分如Encoder一样能看到全体信息,一部分如Decoder一样只能看到过去信息,UniLM便是此结构。
进一步地,8.所述S2中,对预训练目标的大范围探索,总共从四方面来进行比较:
第一个方面,高层次方法对比,总共三种方式,其中发现Bert-style最好;
语言模型式,就是GPT-2那种方式,从左到右预测;
BERT-style式,就是像BERT一样将一部分给破坏掉,然后还原出来;
Deshuffling式,就是将文本打乱,然后还原出来;
第二方面,对文本一部分进行破坏时的策略,也分三种方法,效果最好的是ReplaceSpan法,类似做法如SpanBERT也证明了有效性。
Mask法,如现在大多模型的做法,将被破坏token换成特殊符如[M];
replacespan法,可以把它当作是把上面Mask法中相邻[M]都合成了一个特殊符,每一小段替换一个特殊符,提高计算效率;
Drop法,没有替换操作,直接随机丢弃一些字符;
第三方面,到底该对文本百分之多少进行破坏呢,挑了4个值,10%,15%,25%,50%,最后发现BERT的15%就很ok了;
第四方面,因为ReplaceSpan需要决定对大概多长的小段进行破坏,于是对不同长度进行探索,2,3,5,10这四个值,最后发现3结果最好。
进一步地,所述S11中,BERT模型通过查询字向量表将文本中的每个字转换为一维向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示,此外,模型输入除了字向量,还包含另外两个部分:文本向量和位置向量,文本向量:该向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合。
进一步地,位置向量:由于出现在文本不同位置的字/词所携带的语义信息存在差异,因此,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分,最后,BERT模型将字向量、文本向量和位置向量的加和作为模型输入,特别地,在目前的BERT模型中,文章作者还将英文词汇作进一步切割,划分为更细粒度的语义单位;此外,对于中文,目前作者尚未对输入文本进行分词,而是直接将单字作为构成文本的基本单位。
本发明通过改进在此提供一种基于内容上下文的自动续写生成方法,与现有技术相比,具有如下改进及优点:
(1)本发明旨在为用户提供一种可通过理解用户上下文,同时可基于用户提供的信息,拓展相关背景信息,从而生成与用户提供文本内容存在背景知识和逻辑相关的续写内容,让生成内容更加符合用户的创作意图和场景。
(2)基于对上下文的理解,有针对性地生成文本内容,解决语言模型生成内容不可控的问题;基于对上下文的信息,拓展相关的知识背景,解决用户创作时缺少背景信息和灵感的问题,本发明所用方法,可以生成符合用户意图和创作场景的内容,使得续写引擎为用户真正带来价值,提高创作生产效率。
(3)本发明将RFKL范式应用到具体场景下,通过构建海量的场景化的深度知识网络,通过识别被续写文本中的知识,进而推理出与之关联性高的其他知识,在此基础上,进行逻辑上合理,表达上通顺的续写内容生成,解决了目前市面上续写引擎生成内容难以适用的问题。
(4)本发明训练所用数据集,除了保留完整的生成用训练文本以外,还纳入了大量针对文本内容、应用场景的分类标签,确保模型在学习文本生成的同时,对文本的应用细分场景也有所学习,通过给模型建立丰富的背景知识,进一步精确续写内容的生成范围。
附图说明
下面结合附图和实施例对本发明作进一步解释:
图1是本发明的流程图;
图2是本发明的预训练模型中的多种模型架构流程图。
具体实施方式
下面将结合附图1-2对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过改进在此提供一种基于内容上下文的自动续写生成方法,如图1-2所示,包括以下步骤:
S1、准备带有命令实体识别训练数据;
S11、微调BERT中文预训练模型,BERT模型在中文预训练中包括以下步骤:
a.准备标注过实体信息的训练语料;
b.使用BERT中文预训练模型对训练语料针对命名实体识别任务进行微调;
c.测试命名实体识别任务精度;
S12、测试命名实体识别效果;
S13、使用输出结果标注无标样本数据;
S2、微调T5中文预训练模型,T5模型在中文预训练中包括以下步骤:
a.将标注过实体信息的训练语料的格式转化为:实体信息:语料;
b.将步骤a中准备的语料送入T5模型进行可控文本生成任务进行微调;
c.评估生成文本的可用性;
S3、评估生产文本质量。
进一步地,S3中采用RFKL范式的场景应用,RFKL范式是知识+语言模型的算法范式,通过知识的方式控制文本的内容的生成,将RFKL范式应用到具体场景下,通过构建海量的场景化的深度知识网络,通过识别被续写文本中的知识,进而推理出与之关联性高的其他知识,在此基础上,进行逻辑上合理,表达上通顺的续写内容生成,解决了目前市面上续写引擎生成内容难以适用的问题。
进一步地,S2中,T5将GLUE中所有任务的数据集在微调时连接起来,将所有任务视为一个任务,并且在SuperGLUE中加入了数据集,T5模型使用SQuAD数据集时是将问题和上下文喂入,并逐个生成答案,机器翻译任务中仅对英语数据进行预训练,采用数据集,基于该算法技术训练的续写模型,数据全部来自于真实的场景数据,包括真实简历、真实JD和真实种草文案,训练所用数据集,除了保留完整的生成用训练文本以外,还纳入了大量针对文本内容、应用场景的分类标签,确保模型在学习文本生成的同时,对文本的应用细分场景也有所学习,通过给模型建立丰富的背景知识,进一步精确续写内容的生成范围。
进一步地,S2中,对预训练模型中的多种模型架构(Transformer)进行了比对,最主要的模型架构可以分成下面三种:
第一种,Encoder-Decoder型,即Seq2Seq常用模型,分成Encoder和Decoder两部分,对于Encoder部分,输入可以看到全体,之后结果输给Decoder,而Decoder因为输出方式只能看到之前的。此架构代表是MASS、BART等;
第二种,相当于上面的Decoder部分,当前时间步只能看到之前时间步信息,典型代表是GPT2、CTRL;
第三种,PrefixLM(LanguageModel)型,可看作是上面Encoder和Decoder的融合体,一部分如Encoder一样能看到全体信息,一部分如Decoder一样只能看到过去信息,UniLM便是此结构。
进一步地,在说明书附图2中,对预训练目标的大范围探索,总共从四方面来进行比较:
第一个方面,高层次方法对比,总共三种方式,其中发现Bert-style最好;
语言模型式,就是GPT-2那种方式,从左到右预测;
BERT-style式,就是像BERT一样将一部分给破坏掉,然后还原出来;
Deshuffling式,就是将文本打乱,然后还原出来;
第二方面,对文本一部分进行破坏时的策略,也分三种方法,效果最好的是ReplaceSpan法,类似做法如SpanBERT也证明了有效性。
Mask法,如现在大多模型的做法,将被破坏token换成特殊符如[M];
replacespan法,可以把它当作是把上面Mask法中相邻[M]都合成了一个特殊符,每一小段替换一个特殊符,提高计算效率;
Drop法,没有替换操作,直接随机丢弃一些字符;
第三方面,到底该对文本百分之多少进行破坏呢,挑了4个值,10%,15%,25%,50%,最后发现BERT的15%就很ok了;
第四方面,因为ReplaceSpan需要决定对大概多长的小段进行破坏,于是对不同长度进行探索,2,3,5,10这四个值,最后发现3结果最好。
进一步地,S11中,BERT模型通过查询字向量表将文本中的每个字转换为一维向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示,此外,模型输入除了字向量,还包含另外两个部分:文本向量和位置向量,文本向量:该向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合,位置向量:由于出现在文本不同位置的字/词所携带的语义信息存在差异,因此,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分,最后,BERT模型将字向量、文本向量和位置向量的加和作为模型输入,特别地,在目前的BERT模型中,文章作者还将英文词汇作进一步切割,划分为更细粒度的语义单位;此外,对于中文,目前作者尚未对输入文本进行分词,而是直接将单字作为构成文本的基本单位。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于内容上下文的自动续写生成方法,其特征在于:包括以下步骤:
S1、准备带有命令实体识别训练数据;
S11、微调BERT中文预训练模型;
S12、测试命名实体识别效果;
S13、使用输出结果标注无标样本数据;
S2、微调T5中文预训练模型;
S3、评估生产文本质量。
2.根据权利要求1所述的一种基于内容上下文的自动续写生成方法,其特征在于:所述S11中,BERT模型在中文预训练中包括以下步骤:
a.准备标注过实体信息的训练语料;
b.使用BERT中文预训练模型对训练语料针对命名实体识别任务进行微调;
c.测试命名实体识别任务精度。
3.根据权利要求1所述的一种基于内容上下文的自动续写生成方法,其特征在于:所述S2中,T5模型在中文预训练中包括以下步骤:
a.将标注过实体信息的训练语料的格式转化为:实体信息:语料;
b.将步骤a中准备的语料送入T5模型进行可控文本生成任务进行微调;
c.评估生成文本的可用性。
4.根据权利要求1所述的一种基于内容上下文的自动续写生成方法,其特征在于:所述S3中采用RFKL范式的场景应用,RFKL范式是知识+语言模型的算法范式,通过知识的方式控制文本的内容的生成,将RFKL范式应用到具体场景下,通过构建海量的场景化的深度知识网络,通过识别被续写文本中的知识,进而推理出与之关联性高的其他知识,在此基础上,进行逻辑上合理,表达上通顺的续写内容生成。
5.根据权利要求1所述的一种基于内容上下文的自动续写生成方法,其特征在于:所述S11中,BERT模型实际上是学习到输入序列的特征表示,然后再把学习到的特征表示应用到不同的downstream任务,关于为什么要使用双向的结构,单向的结构限制了pre-trainedrepresentations的能力,单方向的left-to-right结构或者right-to-left结构,抑或是简单将left-to-right特征和right-to-left简单拼接的ELMo结构都是不够的,这是因为预训练得到的BERT模型要用于处理不同的任务,因此需要知道序列中某个word左边的信息,还需要知道这个word右边的信息,并把这两个方向的信息整合起来。
6.根据权利要求1所述的一种基于内容上下文的自动续写生成方法,其特征在于:所述S2中,T5将GLUE中所有任务的数据集在微调时连接起来,将所有任务视为一个任务,并且在SuperGLUE中加入了数据集,T5模型使用SQuAD数据集时是将问题和上下文喂入,并逐个生成答案,机器翻译任务中仅对英语数据进行预训练,采用数据集,基于该算法技术训练的续写模型,数据全部来自于真实的场景数据,包括真实简历、真实JD和真实种草文案,训练所用数据集,除了保留完整的生成用训练文本以外,还纳入了大量针对文本内容、应用场景的分类标签,确保模型在学习文本生成的同时,对文本的应用细分场景也有所学习。
7.根据权利要求1所述的一种基于内容上下文的自动续写生成方法,其特征在于:所述S2中,对预训练模型中的多种模型架构(Transformer)进行了比对,最主要的模型架构可以分成下面三种:
第一种,Encoder-Decoder型,即Seq2Seq常用模型,分成Encoder和Decoder两部分,对于Encoder部分,输入可以看到全体,之后结果输给Decoder,而Decoder因为输出方式只能看到之前的。此架构代表是MASS、BART等;
第二种,相当于上面的Decoder部分,当前时间步只能看到之前时间步信息,典型代表是GPT2、CTRL;
第三种,PrefixLM(LanguageModel)型,可看作是上面Encoder和Decoder的融合体,一部分如Encoder一样能看到全体信息,一部分如Decoder一样只能看到过去信息,UniLM便是此结构。
8.根据权利要求1所述的一种基于内容上下文的自动续写生成方法,其特征在于:所述S2中,对预训练目标的大范围探索,总共从四方面来进行比较:
第一个方面,高层次方法对比,总共三种方式,其中发现Bert-style最好;
语言模型式,就是GPT-2那种方式,从左到右预测;
BERT-style式,就是像BERT一样将一部分给破坏掉,然后还原出来;
Deshuffling式,就是将文本打乱,然后还原出来;
第二方面,对文本一部分进行破坏时的策略,也分三种方法,效果最好的是ReplaceSpan法,类似做法如SpanBERT也证明了有效性。
Mask法,如现在大多模型的做法,将被破坏token换成特殊符如[M];
replacespan法,可以把它当作是把上面Mask法中相邻[M]都合成了一个特殊符,每一小段替换一个特殊符,提高计算效率;
Drop法,没有替换操作,直接随机丢弃一些字符;
第三方面,到底该对文本百分之多少进行破坏呢,挑了4个值,10%,15%,25%,50%,最后发现BERT的15%就很ok了;
第四方面,因为ReplaceSpan需要决定对大概多长的小段进行破坏,于是对不同长度进行探索,2,3,5,10这四个值,最后发现3结果最好。
9.根据权利要求1所述的一种基于内容上下文的自动续写生成方法,其特征在于:所述S11中,BERT模型通过查询字向量表将文本中的每个字转换为一维向量,作为模型输入;模型输出则是输入各字对应的融合全文语义信息后的向量表示,此外,模型输入除了字向量,还包含另外两个部分:文本向量和位置向量,文本向量:该向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合。
10.根据权利要求9所述的一种基于内容上下文的自动续写生成方法,其特征在于:位置向量:由于出现在文本不同位置的字/词所携带的语义信息存在差异,因此,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分,最后,BERT模型将字向量、文本向量和位置向量的加和作为模型输入,特别地,在目前的BERT模型中,文章作者还将英文词汇作进一步切割,划分为更细粒度的语义单位;此外,对于中文,目前作者尚未对输入文本进行分词,而是直接将单字作为构成文本的基本单位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310570040.9A CN116432654A (zh) | 2023-05-19 | 2023-05-19 | 一种基于内容上下文的自动续写生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310570040.9A CN116432654A (zh) | 2023-05-19 | 2023-05-19 | 一种基于内容上下文的自动续写生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116432654A true CN116432654A (zh) | 2023-07-14 |
Family
ID=87083461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310570040.9A Pending CN116432654A (zh) | 2023-05-19 | 2023-05-19 | 一种基于内容上下文的自动续写生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432654A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131845A (zh) * | 2023-09-01 | 2023-11-28 | 四川大学 | 一种基于预训练语言模型和白化风格化的简历重构方法 |
CN117521628A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于人工智能的剧本创作方法、装置、设备及芯片 |
-
2023
- 2023-05-19 CN CN202310570040.9A patent/CN116432654A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131845A (zh) * | 2023-09-01 | 2023-11-28 | 四川大学 | 一种基于预训练语言模型和白化风格化的简历重构方法 |
CN117131845B (zh) * | 2023-09-01 | 2024-04-12 | 四川大学 | 一种基于预训练语言模型和白化风格化的简历重构方法 |
CN117521628A (zh) * | 2023-11-20 | 2024-02-06 | 中诚华隆计算机技术有限公司 | 基于人工智能的剧本创作方法、装置、设备及芯片 |
CN117521628B (zh) * | 2023-11-20 | 2024-05-28 | 中诚华隆计算机技术有限公司 | 基于人工智能的剧本创作方法、装置、设备及芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832275B (zh) | 文本的创作方法、装置、设备以及存储介质 | |
CN111177366B (zh) | 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统 | |
CN116432654A (zh) | 一种基于内容上下文的自动续写生成方法 | |
WO2018000272A1 (zh) | 一种语料生成装置和方法 | |
CN101458681A (zh) | 语音翻译方法和语音翻译装置 | |
CN112307773B (zh) | 机器阅读理解系统的自定义问题数据自动生成方法 | |
CN110765264A (zh) | 一种增强语义相关性的文本摘要生成方法 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
Wei et al. | Poet-based poetry generation: Controlling personal style with recurrent neural networks | |
CN111428104A (zh) | 基于观点型阅读理解的癫痫病辅助医疗智能问答方法 | |
CN114444481B (zh) | 一种新闻评论的情感分析与生成方法 | |
CN115293168A (zh) | 基于预训练模型语义理解的多语言缩写消歧义算法 | |
CN113609840B (zh) | 一种汉语法律判决摘要生成方法及系统 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN116092472A (zh) | 一种语音合成方法和合成系统 | |
WO2021135091A1 (zh) | 一种基于深度学习的目标软文的生成方法及装置 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 | |
CN115309886A (zh) | 基于多模态信息输入的人工智能文本创作方法 | |
CN116129868A (zh) | 一种结构化画本的生成方法和生成系统 | |
CN115858736A (zh) | 一种基于情感提示微调的情感文本生成方法 | |
CN113743095A (zh) | 基于词格和相对位置嵌入的中文问题生成统一预训练方法 | |
CN112668344A (zh) | 基于混合专家模型的复杂度可控的多样化问题生成方法 | |
CN112487196A (zh) | 一种训练关系抽取模型并抽取嵌套命名实体关系的方法 | |
CN110955768A (zh) | 一种基于句法分析的问答系统答案生成方法 | |
CN116737935B (zh) | 基于提示学习的藏文文本分类方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20230714 |