CN116151267A - 文本生成方法及装置、电子设备、计算机可读存储介质 - Google Patents
文本生成方法及装置、电子设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN116151267A CN116151267A CN202211537316.5A CN202211537316A CN116151267A CN 116151267 A CN116151267 A CN 116151267A CN 202211537316 A CN202211537316 A CN 202211537316A CN 116151267 A CN116151267 A CN 116151267A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- changed
- words
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 22
- 238000009826 distribution Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 230000000873 masking effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 22
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种文本生成方法及装置、电子设备、计算机可读存储介质,所述文本生成方法包括:获取初始文本;确定所述初始文本中每个词的权重,所述每个词的权重用于表征相应词对所述初始文本语义的影响程度;根据各个词的权重从各个词中筛选出预设数量的待变更词;根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据;使用每个目标预测词的语义特征数据替换所述初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。本公开实施例能够提高所生成的新文本的质量及新文本语义的泛化程度,进而,能够提高使用初始文本及新文本训练得到的模型的泛化能力和性能。
Description
技术领域
本公开涉及数据处理技术领域,特别涉及一种文本生成方法及装置、电子设备、计算机可读存储介质。
背景技术
在训练文本处理模型的过程中,用作训练样本的文本的量会对模型的训练效果产生很大影响。而某些应用场景下或者某些领域中,例如一些专业知识领域,能够用作训练样本的文本的数量相对较少。为了获得充足的训练样本,常规的操作方法是在已有文本的基础上,通过同义词替换、随机插入、随机删除等操作方式生成新文本,进而将新文本和已有文本共同作为训练样本,以达到增加训练样本数量的目的。
然而,常规的生成新文本的方式,容易引入噪声,以及使得得到的新文本的语义发生改变,从而对训练样本造成污染,反而会恶化模型的训练效果。
发明内容
本公开提供一种文本生成方法及装置、电子设备、计算机可读存储介质。
第一方面,本公开提供了一种文本生成方法,该文本生成方法包括:
获取初始文本;
确定所述初始文本中每个词的权重,所述每个词的权重用于表征相应词对所述初始文本语义的影响程度;
根据各个词的权重从各个词中筛选出预设数量的待变更词;
根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据;
使用每个目标预测词的语义特征数据替换所述初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。
第二方面,本公开提供了一种文本生成装置,该文本生成装置包括:
获取模块,用于获取初始文本;
确定模块,用于确定所述初始文本中每个词的权重,所述每个词的权重用于表征相应词对所述初始文本语义的影响程度;
筛选模块,用于根据各个词的权重从各个词中筛选出预设数量的待变更词;
所述获取模块,还用于根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据;
替换模块,用于使用每个目标预测词的语义特征数据替换所述初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。
第三方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的文本生成方法。
第四方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器执行时实现上述的文本生成方法。
第五方面,本公开提供了一种计算机程序或计算机程序产品,该计算机程序产品包括计算机程序,计算机程序存储在计算机可读存储介质中,所述计算机程序在被处理器执行时实现上述的文本生成方法。
本公开所提供的实施例中,初始文本是用于生成新文本的基础文本,采用本公开实施例的方法,在获取初始文本后,确定初始文本中每个词的权重,以及根据每个词的权重从各个词中筛选出预设数量的待变更词。其中,每个词的权重用于表征相应词对初始文本语义的影响程度。可见,本公开实施例不再随机从初始文本中选择词进行变更,而是根据每个词对文本语义的影响程度选择待变更词,这样对于传统随机选择词进行变更,带来的引入噪声以及改变文本语义的弊端,通过结合词对文本语义的影响程度确定待变更词,有利于使变更后的文本的语义相对于初始文本的语义保持不变,且不会引入噪声,进而能够提高所生成的新文本的质量。进一步的,本公开实施例根据初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据,并使用每个目标预测词的语义特征数据替换初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。即,与传统的使用同义词的词语对初始文本中的待变更词进行替换不同,本公开实施例采用语义特征数据执行替换处理,由于具体的词语表征语义的泛化性较差,而语义特征数据从相对泛化的程度表征词的语义,基于此,采用本公开实施例的实现方式,在提高新文本质量的基础上,还能够进一步提高新文本语义的泛化程度,进而,能够提高使用初始文本及新文本训练得到的模型的泛化能力和性能。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本公开的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
图1为本公开实施例提供的一种实现方式的文本生成方法的流程图;
图2为本公开实施例提供的一种文本生成装置的框图;
图3为本公开实施例提供的一种电子设备的框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
本公开实施例涉及自然语言处理(Nature Language processing,NLP)领域的数据增强技术,也可以称为文本增强技术或者文本生成技术,该技术的一个目的在于在用于训练文本处理模型的文本样本有限的情况下,通过文本增强增加用于训练的文本的量。本公开实施例所述的文本处理模型可以用于执行以下处理操作之一:文本识别、文本分类、文本提取、文本匹配等。
常规的文本增强方式包括:针对初始文本,通过同义词替换、随机插入词语、随机删除词语等方式得到新的文本;或者,向初始文本的语义特征数据中注入噪声得到新的文本,初始文本的语义特征数据例如为初始文本中各词的词向量或者各句的句向量。然而,以上文本增强方式均容易引入噪声,并且容易使得新文本相对于初始文本语义发生改变,从而对训练样本造成污染,反而会恶化模型的训练效果。
有鉴于此,本公开实施例提供了一种文本生成方法,在变更初始文本中的词之前,本方法确定初始文本中每个词的权重,进而,根据各个词的权重从各个词中筛选出预设数量的待变更词,在经过一系列处理后,使用待变更词对应的目标预测词的语义特征数据替换初始文本的语义特征中的相应待变更词的语义特征数据。由于每个词的权重表征相应词对初始文本语义的影响程度,所以,采用本公开实施例的实现方式,在筛选待变更词的过程中结合了各个待变更词对初始文本语义的影响,有利于使变更后的文本的语义相对于初始文本的语义保持不变,能够提高所生成的新文本的质量。此外,采用语义特征数据执行替换处理,能够提高新文本语义的泛化程度,进而,能够提高使用初始文本及新文本训练得到的模型的泛化能力和性能。
根据本公开实施例的文本生成方法可以由电子设备执行,所述电子设备可以为车载设备、用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。该电子设备可以用作终端设备或者服务器。
图1为本公开实施例提供的一种文本生成方法的流程图。参照图1,该方法包括:
在步骤S11中,获取初始文本。
其中,初始文本可以是用于训练文本处理模型的语料文献、材料、文章等,该初始文本可以是通过合规的方式获得的。
一些实现方式中,在文本处理模型用于执行文本分类操作的场景中,用于训练该文本分类模型的训练样本例如是文本集,该文本集可以包括至少两个类型的文本,初始文本可以是该文本集中一个类型的文本。示例性的,文本集所包含的文本的类型可以根据实际实施场景灵活设置,例如,一个文本集可以包括科学文献、新闻、故事三个文本类型的文本。示例中,初始文本的文本类型例如可以是科学文献。
另一些实现方式中,在文本处理模型用于执行非文本分类的场景中,初始文本可以是用于训练该文本处理模型的全部训练样本。
在步骤S12中,确定所述初始文本中每个词的权重,所述每个词的权重用于表征相应词对所述初始文本语义的影响程度。
其中,每个词的权重可以与相应词的词频有关,一个词的权重越大,可以认为该词对初始文本语义的影响越大,一个词的权重越小,可以认为该词对初始文本语义的影响越小。
以文本处理模型用于执行文本分类为例,初始文本中例如共包括N个词,电子设备可以采用如下算法确定初始文本中每个词的权重:
其中,mi是指初始文本中第i个词的权重,Ai是指初始文本中第i个词在初始文本所属的类型A中出现的总次数,Ti是指初始文本中第i个词在相应文本集中出现的总次数,e是指自然常数,i的取值是1至N中的任一值。
可以理解的是,上述算法仅是对获取词权重的一种示意性描述,对本公开实施例不构成限制。在实际实现过程中,本公开实施例可以根据初始文本应用场景的不同,使用不同的算法获得初始文本中各个词的权重,此处不再详述。
在步骤S13中,根据各个词的权重从各个词中筛选出预设数量的待变更词。
其中,待变更词的数量与初始文本所包含词的总数量的关系,对文本增强的效果会产生一定影响,若待变更词的数量太大,在数据增强过程中容易引入噪声,且容易使增强后的文本语义发生改变;若待变更词的数量太小,达不到丰富数据的目的,可能会导致文本处理模型训练过程中过拟合。基于此,本公开的一些实现方式中,该待变更词的预设数量可以大于初始文本所包含词的总数量的5%,且小于初始文本所包含词的总数量的10%。
一些实现方式中,电子设备可以将每个词的权重与各个词的权重之和的比值确定为相应词的被选概率,进而,根据各个词的被选概率从各个词中抽样,将抽样得到的词作为预设数量的待变更词。其中,每个词的被选概率用于表征相应词被选为待变更词的可能性,一个词的被选概率的值越大,可以表示相应词被选为待变更词的可能性越大,一个词的被选概率的值越小,可以表示相应词被选为待变更词的可能性越小。
示例性的,在得到各个词的被选概率之后,可以按照各个词的概率分布,按照待变更词的预设数量的比例从不同概率分布的词群中进行抽样,以得到预设数量的待变更词。
例如,结合步骤S12得到的权重,初始文本中第i个词的被选概率Pi例如可以表示为:其中,/>待变更词的预设数量例如设置为t。初始文本中P大于70%的词例如占词总数的40%,P小于70%且大于50%的词例如占词总数的30%,P小于50%且大于20%的词例如占词总数的20%,P小于20%的词例如占词总数的10%。取t为10,那么,可以从P大于70%的词群中抽样4个词,从P小于70%且大于50%的词群中抽样3个词,从P小于50%且大于20%的词群中抽样2个词,从P小于20%的词群中抽样1个词,进而,将抽样得到的10个词作为待变更词。
由于每个词的权重表征相应词对初始文本语义的影响程度,所以,根据权重获得每个词的被选概率,进而,按照被选概率的概率分布从属于不同概率分布的词群中按比例抽样得到预设数量的待变更词,从而能够根据对初始文本语义的影响程度选择相匹配数量的待变更词,有利于使变更后的文本的语义相对于初始文本的语义保持不变,且不会引入噪声,进而能够提高所生成的新文本的质量。
在步骤S14中,根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据。
其中,初始文本的语义特征可以是初始文本的句向量。目标预测词是指预测得到的用于替换初始文本中相应待替换词的词,目标预测词的语义与相应待替换词的语义相同或相近。目标预测词的语义特征数据可以是目标预测词的词向量。
一些实现方式中,电子设备可以获取初始文本的语义特征,进而,基于初始文本的语义特征预测每个待变更词的至少两个预测词数据,每个预测词数据包括预测词向量以及所述预测词向量对应的置信度,预测词向量对应的置信度用于表征所述预测词向量与相应待变更词语义的接近程度。进而,对应每个待变更词,根据相应待变更词的至少两个预测词数据生成所述待变更词对应的目标预测词的词向量,目标预测词的词向量即为该目标预测词的语义特征数据。
示例性的,电子设备可以在初始文本中对各个待变更词进行掩码,得到掩码文本,进而,将掩码文本输入到预训练的双向编码器表示(Bidirectional EncoderRepresentations from Transformers,Bert)模型,该Bert模型可以获取掩码文本的文本语义特征(例如文本向量)及所述掩码文本中各个词的语义特征数据(例如词向量),进而,根据掩码文本的文本语义特征及掩码文本中各个词的语义特征数据预测得到相应待变更词的至少两个预测词数据。例如,对应每个待变更词,该Bert模型可以预测得到至少两个预测词、每个预测词的词向量以及每个预测词的词向量对应的置信度,如表1所示。
表1
预测词 | 词向量 | 置信度 |
预测词1 | w1 | λ1 |
预测词2 | w2 | λ2 |
… | … | … |
其中,W是指相应待变更词对应的目标预测词的语义特征数据,wj是指相应待变更词对应的至少两个预测词向量中的第j个预测词向量,λj是指所述第j个预测词向量的置信度。一些实现方式中,n可以是指按照置信度的大小从所述至少两个预测词向量中确定的预设数量的预测词向量的个数。另一些实现方式中,为了获得相应待变更词较为接近的新词的词向量,n可以小于至少两个预测词向量的总数,且n可以是指按照置信度从大到小取的部分预测词的数量,示例性的,5≤n≤10。
为了提高每个待变更词对应的预测词的准确性,一些实现方式中,当待变更词的数量与初始文本所包含词的总数的比值小于第一阈值时,将初始文本中包含的待变更词均设为掩码,第一阈值例如可以是0.3。另一些实现方式中,当待变更词的数量与初始文本所包含词的总数的比值大于第二阈值时,每次将初始文本中预设个数的待变更词设为掩码,第二阈值大于第一阈值,第二阈值例如可以是0.4,预设个数可以是与初始文本所包含词的总数的比值小于或者等于第一阈值的数值。
采用本实现方式,若待变更词的数量相对较多的场景下,可以每次设置初始文本中一定数量的待变更词为掩码,从而能够提高每个待变更词的预测词的准确性,进而,提高成的新文本的质量。
在步骤S15中,使用每个目标预测词的语义特征数据替换所述初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。
一些实现方式中,电子设备可以从语义维度获得新的文本。根据前述描述,初始文本的文本向量用于表征初始文本的语义特征,各个词的词向量用于表征词的语义特征数据。基于此,电子设备在将初始文本转换为文本向量,进而,可以使用每个目标预测词的词向量替换初始文本的文本向量中相应的待变更词的词向量,将替换后的文本向量作为新文本的语义特征。由于目标预测词的词向量是根据待变更词的多个预测词向量得到的,所以能够表征相应目标预测词的语义特征数据。
进一步的,电子设备可以根据新文本的语义特征转换得到相应新文本,以及将初始文本和所得到的新文本作为训练样本,以训练待训练的文本处理模型。
采用本实现方式,不再以预测到的具体的词作为目标预测词进行替换,而是根据多个预测到的词的向量获得目标预测词的语义特征数据来替换初始文本向量中的待变更词向量,使得得到的新文本能够包含更广泛的语义,进而,能够提高使用初始文本及新文本训练得到的模型的泛化能力和性能。
可见,采用本公开实施例所提供的文本生成方法,在获取初始文本后,确定初始文本中每个词的权重,以及根据每个词的权重从各个词中筛选出预设数量的待变更词。由于每个词的权重用于表征相应词对初始文本语义的影响程度,本公开实施例不再随机从初始文本中选择词进行变更,而是根据每个词对文本语义的影响程度选择待变更词,这样对于传统随机选择词进行变更,带来的引入噪声以及改变文本语义的弊端,有利于使变更后的文本的语义相对于初始文本的语义保持不变,且不会引入噪声,进而能够提高所生成的新文本的质量。进一步的,本公开实施例获取各个待变更词对应的目标预测词的语义特征数据,并使用每个目标预测词的语义特征数据替换初始文本语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。由于具体的词语表征语义的泛化性较差,而语义特征数据从相对泛化的程度表征词的语义,基于此,采用本公开实施例的实现方式,在提高新文本质量的基础上,还能够进一步提高新文本语义的泛化程度,进而,能够提高使用初始文本及新文本训练得到的模型的泛化能力和性能。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了文本生成装置、电子设备、计算机可读存储介质,上述均可用来实现本公开提供的任一种文本生成方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图2为本公开实施例提供的一种文本生成装置的框图。
参照图2,本公开实施例提供了一种文本生成装置,该文本生成装置包括:获取模块21、确定模块22、筛选模块23和替换模块24。其中,各个模块在运行时,可以实现上述方法实现方式中的部分或全部功能。
具体实现方式详见上述图1示意的方法实现方式,此处不再赘述。
可以理解的是,以上各个模块的划分仅仅是一种逻辑功能的划分,实际实现时,各以上各个模块可以集成到硬件实现,例如上述实现方式中的获取模块21、确定模块22、筛选模块23和替换模块24的功能可以集成到处理器实现,为实现上述功能,处理器与其他硬件设备可以通过I/O接口传输相关数据。
参照图3,图3是本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器301;至少一个存储器302,以及一个或多个I/O接口303,连接在处理器301与存储器302之间;其中,存储器302存储有可被至少一个处理器301执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器301执行,以使至少一个处理器301能够执行上述的文本生成方法。
本公开实施例还提供了一种计算机可读存储介质,计算机可读存储介质可以是易失性或非易失性计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器301执行时:
获取初始文本;确定所述初始文本中每个词的权重,所述每个词的权重用于表征相应词对所述初始文本语义的影响程度;根据各个词的权重从各个词中筛选出预设数量的待变更词;根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据获取各个待变更词对应的新词的语义特征数据;使用每个目标预测词的语义特征数据替换所述初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。
在一些实施例中,所述处理器301还用于实现:将每个词的权重与所述各个词的权重之和的比值确定为相应词的被选概率,每个词的被选概率用于表征相应词被选为待变更词的可能性;确定所述各个词的被选概率的概率分布;按照所述概率分布从所述各个词中抽样,将抽样得到的词作为所述预设数量的待变更词。
在一些实施例中,所述处理器301还用于实现:对应每个待变更词,预测得到至少两个预测词数据,每个预测词数据包括预测词向量以及所述预测词向量对应的置信度,所述预测词向量对应的置信度用于表征所述预测词向量与相应待变更词的语义的接近程度;根据相应待变更词的至少两个预测词数据生成所述待变更词对应的目标预测词的语义特征数据。
在一些实施例中,所述处理器301还用于实现:对应相应待变更词,将所述初始文本中的相应待变更词进行掩码处理,得到掩码文本;获取所述掩码文本的文本语义特征及所述掩码文本中各个词的语义特征数据;根据所述掩码文本的文本语义特征及所述掩码文本中各个词的语义特征数据预测得到相应待变更词的至少两个预测词数据。
在一些实施例中,所述处理器301还用于实现:当所述待变更词的数量与所述初始文本所包含词的总数的比值小于第一阈值时,将所述初始文本中包含所述待变更词均设为掩码;所述处理器301还用于当所述待变更词的数量与所述初始文本所包含词的总数的比值大于第二阈值时,每次将所述初始文本中预设个数的待变更词设为掩码;所述第二阈值大于所述第一阈值,所述预设个数是指与所述初始文本所包含词的总数的比值小于或者等于所述第一阈值的数值。
在一些实施例中,所述处理器301还用于实现:对应每个待变更词,采用以下算法根据相应待变更词的至少两个预测词数据生成所述待变更词对应的目标预测词的语义特征数据:其中,W是指相应待变更词对应的目标预测词的语义特征数据,wj是指相应待变更词对应的至少两个预测词向量中的第j个预测词向量,λj是指所述第j个预测词向量的置信度,n是指按照置信度的大小从所述至少两个预测词向量中确定的预设数量的预测词向量的个数,n小于或者等于所述至少两个预测词向量的总数。
在一些实施例中,所述处理器301还用于实现:当所述文本处理模型用于执行文本分类的情况下,所述初始文本是文本集中一种类型的文本,所述文本集包括至少两种类型的文本,采用如下算法确定所述初始文本中每个词的权重:
其中,mi是指所述初始文本中第i个词的权重,Ai是指所述初始文本中第i个词在所述初始文本所属的类型A中出现的总次数,Ti是指所述初始文本中第i个词在所述文本集中出现的总次数,e是指自然常数,N是指所述初始文本包含的词的总数,i的取值是1至N中的任一值。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述文本生成方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。
Claims (11)
1.一种文本生成方法,其特征在于,包括:
获取初始文本;
确定所述初始文本中每个词的权重,所述每个词的权重用于表征相应词对所述初始文本语义的影响程度;
根据各个词的权重从各个词中筛选出预设数量的待变更词;
根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据;
使用每个目标预测词的语义特征数据替换所述初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。
2.根据权利要求1所述的文本生成方法,其特征在于,所述根据各个词的权重从各个词中筛选出预设数量的待变更词,包括:
将每个词的权重与所述各个词的权重之和的比值确定为相应词的被选概率,每个词的被选概率用于表征相应词被选为待变更词的可能性;
确定所述各个词的被选概率的概率分布;
按照所述概率分布从所述各个词中抽样,将抽样得到的词作为所述预设数量的待变更词。
3.根据权利要求1所述的文本生成方法,其特征在于,所述根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据,包括:
对应每个待变更词,预测得到至少两个预测词数据,每个预测词数据包括预测词向量以及所述预测词向量对应的置信度,所述预测词向量对应的置信度用于表征所述预测词向量与相应待变更词的语义的接近程度;
根据相应待变更词的至少两个预测词数据生成所述待变更词对应的目标预测词的语义特征数据。
4.根据权利要求3所述的文本生成方法,其特征在于,所述对应每个待变更词,预测得到至少两个预测词数据,包括:
对应相应待变更词,将所述初始文本中的相应待变更词进行掩码处理,得到掩码文本;
获取所述掩码文本的文本语义特征及所述掩码文本中各个词的语义特征数据;
根据所述掩码文本的文本语义特征及所述掩码文本中各个词的语义特征数据预测得到相应待变更词的至少两个预测词数据。
5.根据权利要求3所述的文本生成方法,其特征在于,所述对应相应待变更词,将所述初始文本中的相应待变更词进行掩码处理,得到掩码文本,还包括:
当所述待变更词的数量与所述初始文本所包含词的总数的比值小于第一阈值时,将所述初始文本中包含所述待变更词均设为掩码;或者,
当所述待变更词的数量与所述初始文本所包含词的总数的比值大于第二阈值时,每次将所述初始文本中预设个数的待变更词设为掩码,所述预设个数的待变更词中包含相应待变更词;
所述第二阈值大于所述第一阈值,所述预设个数是指与所述初始文本所包含词的总数的比值小于或者等于所述第一阈值的数值。
7.根据权利要求1所述的文本生成方法,其特征在于,所述初始文本和所述新文本用于训练文本处理模型,所述文本处理模型用于执行以下处理操作的至少一种:文本识别、文本分类、文本提取、文本匹配。
9.一种文本生成装置,其特征在于,包括:
获取模块,用于获取初始文本;
确定模块,用于确定所述初始文本中每个词的权重,所述每个词的权重用于表征相应词对所述初始文本语义的影响程度;
筛选模块,用于根据各个词的权重从各个词中筛选出预设数量的待变更词;
所述获取模块,还用于根据所述初始文本的语义特征,获取各个待变更词对应的目标预测词的语义特征数据;
替换模块,用于使用每个目标预测词的语义特征数据替换所述初始文本的语义特征中相应待变更词的语义特征数据,将替换后的语义特征作为新文本的语义特征。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,所述一个或多个计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8中任一项所述的文本生成方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-8中任一项所述的文本生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211537316.5A CN116151267A (zh) | 2022-12-02 | 2022-12-02 | 文本生成方法及装置、电子设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211537316.5A CN116151267A (zh) | 2022-12-02 | 2022-12-02 | 文本生成方法及装置、电子设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116151267A true CN116151267A (zh) | 2023-05-23 |
Family
ID=86360885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211537316.5A Pending CN116151267A (zh) | 2022-12-02 | 2022-12-02 | 文本生成方法及装置、电子设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116151267A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556817A (zh) * | 2024-01-10 | 2024-02-13 | 国开启科量子技术(安徽)有限公司 | 基于量子电路的文本检测方法、装置、设备及介质 |
-
2022
- 2022-12-02 CN CN202211537316.5A patent/CN116151267A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556817A (zh) * | 2024-01-10 | 2024-02-13 | 国开启科量子技术(安徽)有限公司 | 基于量子电路的文本检测方法、装置、设备及介质 |
CN117556817B (zh) * | 2024-01-10 | 2024-05-24 | 国开启科量子技术(安徽)有限公司 | 基于量子电路的大模型生成文本检测方法、装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11593556B2 (en) | Methods and systems for generating domain-specific text summarizations | |
Gu et al. | Insertion-based decoding with automatically inferred generation order | |
US11468234B2 (en) | Identifying linguistic replacements to improve textual message effectiveness | |
US11875125B2 (en) | System and method for designing artificial intelligence (AI) based hierarchical multi-conversation system | |
CN113743117B (zh) | 用于实体标注的方法和装置 | |
CN110046637B (zh) | 一种合同段落标注模型的训练方法、装置及设备 | |
CN114861630B (zh) | 信息获取及相关模型的训练方法、装置、电子设备和介质 | |
US20220083745A1 (en) | Method, apparatus and electronic device for determining word representation vector | |
CN114817538B (zh) | 文本分类模型的训练方法、文本分类方法及相关设备 | |
CN116151267A (zh) | 文本生成方法及装置、电子设备、计算机可读存储介质 | |
CN116151266A (zh) | 新词发现方法及装置、电子设备、存储介质 | |
CN116153299A (zh) | 训练样本的处理方法、语音质检方法及装置 | |
CN115062135A (zh) | 一种专利筛选方法与电子设备 | |
Rudd et al. | Training transformers for information security tasks: A case study on malicious url prediction | |
CN117493866A (zh) | 文本预训练模型的生成方法、文本预测方法及相关设备 | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
CN116226383A (zh) | 数据增强方法及装置、目标文本分类模型的训练方法 | |
CN117951286A (zh) | 文本摘要生成方法及装置、电子设备、介质 | |
CN116662523B (zh) | 一种基于gpt模型的生化知识问答方法、系统及存储介质 | |
CN116992033B (zh) | 文本分类的阈值确定方法、分类方法及相关装置 | |
CN116150365A (zh) | 文本处理方法及装置、电子设备、计算机可读存储介质 | |
NZ785406A (en) | System and method for designing artificial intelligence (ai) based hierarchical multi-conversation system | |
CN117951561A (zh) | 文本分类模型训练方法、文本分类方法及相应装置 | |
CN117493558A (zh) | 文本分类方法及装置、电子设备、计算机可读存储介质 | |
CN116258146A (zh) | 语义单元的预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |