CN114817469B - 文本增强方法、文本增强模型的训练方法及装置 - Google Patents
文本增强方法、文本增强模型的训练方法及装置 Download PDFInfo
- Publication number
- CN114817469B CN114817469B CN202210452492.2A CN202210452492A CN114817469B CN 114817469 B CN114817469 B CN 114817469B CN 202210452492 A CN202210452492 A CN 202210452492A CN 114817469 B CN114817469 B CN 114817469B
- Authority
- CN
- China
- Prior art keywords
- text
- enhancement
- target
- processed
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 118
- 238000012549 training Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 171
- 238000001514 detection method Methods 0.000 claims description 163
- 230000011218 segmentation Effects 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 32
- 239000013598 vector Substances 0.000 claims description 26
- 238000003860 storage Methods 0.000 claims description 21
- 230000002123 temporal effect Effects 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 19
- 239000002344 surface layer Substances 0.000 description 17
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000012805 post-processing Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种文本增强方法、文本增强模型的训练方法及装置。其中,文本增强方法包括:获取待处理文本和待处理文本的目标增强类型;将待处理文本和目标增强类型输入文本增强模型中进行文本增强处理,得到增强文本;其中,增强文本符合目标增强类型对应的社会方言的语言特征;文本增强处理包括根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式;以及根据目标增强类型和至少一种目标增强方式,对待处理文本进行文本增强处理。通过本申请实施例,提升了文本增强效果,实现了对特定类型的社会方言进行有针对性的文本增强。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本增强方法、文本增强模型的训练方法及装置。
背景技术
文本增强是自然语言处理技术的典型之一,当前的文本增强方式,通常是基于文本的表层,随机的进行字词等的插入、删除或替换,形成的增强文本往往会存在不符合语法的问题。并且,由于用户的职业、社会地位、受教育程度等的不同,往往语言表述上也存在差异,由该差异形成的语言分层,可称为社会方言。社会方言可以包括企业家方言、作家方言、教师方言、学生方言等。当采用现有的文本增强方式对某种类型的社会方言进行文本增强时,很显然的,容易出现不符合该种类型的语言表述方式的问题,即存在文本增强效果低的问题。因此,如何有针对性的对特定类型的社会方言进行增强,是当前自然语言处理领域中需要解决的技术问题。
发明内容
本申请实施例的目的是提供一种文本增强方法、文本增强模型的训练方法及装置,以实现对特定类型的社会方言进行有针对性的文本增强,提升文本增强效果。
为了实现上述技术方案,本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种文本增强方法,包括:
获取待处理文本和所述待处理文本的目标增强类型;
将所述待处理文本和所述目标增强类型输入文本增强模型中进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征;
其中,所述文本增强处理包括:根据所述待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理。
可以看出,本申请实施例中,通过获取待处理文本和待处理文的目标增强类型,并基于文本增强模型根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式,以及根据目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本,该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
第二方面,本申请实施例提供了一种文本增强模型的训练方法,包括:
获取待训练的样本集;所述样本集中的每个样本标注有标签,所述标签包括所述样本所属的社会方言的类型信息和所述样本的句型信息;
将所述样本集输入待训练模型中进行迭代训练处理,得到文本增强模型;其中,所述文本增强模型用于根据待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;并根据所述待处理文本的目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征。
可以看出,本申请实施例中,基于获取的样本集进行模型训练处理得到文本增强模型,该文本增强模型能够根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式;并根据待处理文本的目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本;该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
第三方面,本申请实施例提供了一种文本增强装置,包括:
获取模块,用于获取待处理文本和所述待处理文本的目标增强类型;
增强模块,用于将所述待处理文本和所述目标增强类型输入文本增强模型中进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征;
其中,所述文本增强处理包括:根据所述待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理。
第四方面,本申请实施例提供了一种文本增强模型的训练装置,包括:
获取模块,用于获取待训练的样本集;所述样本集中的每个样本标注有标签,所述标签包括所述样本所属的社会方言的类型信息和所述样本的句型信息;
训练模块,用于将所述样本集输入待训练模型中进行迭代训练处理,得到文本增强模型;所述文本增强模型用于根据待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;并根据所述待处理文本的目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征。
第五方面,本申请实施例提供了一种电子设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行上述第一方面中所述的文本增强方法中的步骤,或者所述可执行指令包括用于执行上述第二方面中所述的文本增强模型的训练方法中的步骤。
第六方面,本申请实施例提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行上述第一方面中所述的文本增强方法中的步骤,或者所述可执行指令使得计算机执行上述第二方面中所述的文本增强模型的训练方法中的步骤。
附图说明
为了更清楚地说明本申请一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本增强方法的第一种流程示意图;
图2为本申请实施例提供的一种文本增强模型的结构示意图;
图3为本申请实施例提供的一种文本增强方法的第二种流程示意图;
图4为本申请实施例提供的一种文本增强模型的训练方法的流程示意图;
图5为本申请实施例提供的一种文本增强装置的模块组成示意图;
图6为本申请实施例提供的一种文本增强模型的训练装置的模块组成示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请一个或多个实施例中的技术方案,下面将结合本申请一个或多个实施例中的附图,对本申请一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
本申请一个或多个实施例提供了一种文本增强方法、文本增强模型的训练方法及装置,本申请的主要发明构思为:考虑到现有的文本增强过程中,通常是基于文本的表层(即只关注文本中包括哪些字词,而不关注字词之间的搭配方式、文本的句式特征、表述逻辑等),随机的进行字词等的插入、删除或替换,形成的增强文本往往会存在不符合语法的问题。并且,在采用现有的文本增强方式对基于语言表述差异所形成的社会方言进行文本增强时,容易出现不符合社会方言的语言表述方式的问题,即存在文本增强效果低的问题。也就是说,如何有针对性的对社会方言进行增强,在当前自然语言处理领域中并未得到有效的解决。基于此,本申请实施例中引入目标增强类型和文本特征,通过获取待处理文本和待处理文本的目标增强类型,并基于文本增强模型根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式,以及根据目标增强类型和目标增强方式对待处理文本进行文本增强处理得到增强文本,该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
具体的,图1为本申请一个或多个实施例提供的文本增强方法的流程示意图,图1中的方法能够由文本增强装置执行,该文本增强装置可以设置于终端设备中,也可以设置于服务端中。其中,终端设备可以是手机、平板电脑、台式计算机、便携式笔记本等;服务端可以是独立的服务器,也可以是由多个服务器组成的服务器集群。如图1所示,该方法包括以下步骤:
步骤S102,获取待处理文本和待处理文本的目标增强类型;
其中,待处理文本的目标增强类型是待处理文本关于社会方言的目标增强类型。具体而言,可以预先设定多种类型的社会方言,以及预先设定每种类型的社会方言对应的增强类型。例如,社会方言包括教师方言、企业家方言、作家方言、学生方言等,教师方言对应的增强类型为教师方言增强类型、企业家方言对应的增强类型为企业家方言增强类型、作家方言对应的增强类型为作家方言增强类型、学生方言对应的增强类型为学生方言增强类型。用户可以从该预设的多个增强类型中选择目标增强类型,以对待处理文本进行文本增强处理后,得到符合目标增强类型所对应的社会方言的语言特征的增强文本。
在一种实施方式中,用户的终端设备中安装有文本增强处理相关的客户端,该客户端具有文本编辑模块、提交模块并提供关于社会方言的增强类型列表,用户可以操作其客户端在文本编辑模块中编辑待处理文本,并从增强类型列表中选择待处理文本关于社会方言的目标增强类型,然后操作提交模块。客户端响应于用户的提交操作,将获取到待处理文本和待处理文本的目标增强类型发送给文本增强装置。相应的,步骤S102可以包括:接收客户端发送的待处理文本和待处理文本的目标增强类型。
在另一种实施方式中,文本增强装置还可以设置于上述客户端中;或者,文本增强装置具有文本编辑模块、提交模块并提供社会方言的增强类型列表,用户可以操作文本增强装置在文本编辑模块中编辑待处理文本,并从增强类型列表中选择待处理文本关于社会方言的目标增强类型,然后操作提交模块。相应的,步骤S102可以包括:获取用户提交的待处理文本和待处理文本的目标增强类型。
需要指出处的是,待处理文本和待处理文本的目标增强类型的获取方式不限为上述方式,其可以在实际应用中根据需要自行设定。
步骤S104,将待处理文本和目标增强类型输入文本增强模型中进行文本增强处理,得到增强文本;其中,增强文本符合目标增强类型对应的社会方言的语言特征;文本增强处理包括:根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式;根据目标增强类型和至少一种目标增强方式,对待处理文本进行文本增强处理;
其中,文本特征包括待处理文本的分词结果和句型向量,分词结果可以是通过文本增强模型对待处理文本进行分词处理得到的,句型向量可以是通过文本增强模型根据分词结果生成的,具体可参见后文的相关描述。本申请实施例中,对于不同的文本特征,提供不同的、有针对性的增强方式。由此,根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。
可以理解的是,由于文本增强模型进行文本增强处理得到的增强文本符合目标增强类型对应的社会方言的语言特征,因此可以认为该增强文本是目标增强类型对应的社会方言,即本申请实现了对特定类型的社会方言进行有针对性的文本增强。文本增强模型是预先进行模型训练所得,对于文本增强模型的训练过程可参见后文的相关描述。
本申请实施例中,通过获取待处理文本和待处理文本的目标增强类型,并基于文本增强模型根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式,以及根据目标增强类型和目标增强方式对待处理文本进行文本增强处理得到增强文本,该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
为了有效的确定目标增强方式,本申请一个或多个实施例中,基于文本增强模型对待处理文本进行实体检测处理和句型检测处理。具体的,步骤S104中根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式,可以包括以下步骤A2和步骤A4:
步骤A2,根据待处理文本的文本特征进行实体检测处理和句型检测处理,得到文本特征的检测结果;
本申请实施例中,可以预先设定表征实体的各字词,其可以包括整个名词类,例如人、动物、时间、货币、车。
为了深入到待处理文本的内部结构,而不只是关注于待处理文本的表层,本申请实施例中,将待处理文本和目标增强类型输入文本增强模型之后,首先基于文本增强模型对待处理文本进行预处理。也就是说,步骤A2之前,方法还包括以下步骤A1:
步骤A1,对待处理文本进行分词处理得到分词结果,根据分词结果生成待处理文本的句型向量。
优选的,分词结果中的各字词是按照其在待处理文本中的位置顺序排列。作为示例,待处理文本为“我是今天报的数据”,得到的分词结果包括:我|是|今天|报|的|数据。
需要指出的是,当待处理文本中包括标点符号、特殊字符等时,分词结果中也包括该标点符号、特殊字符等。其中,特殊字符例如*、#、@等。
进一步的,根据分词结果生成待处理文本的句型向量,可以包括:对分词结果中的每个字词进行转换处理,得到每个字词的向量;按照分词结果中的每个字词在待处理文本中的位置,对转换的到的各向量进行顺序拼接处理,得到待处理文本的句子向量;对句子向量进行编码处理,得到句型向量。
与上述步骤A1对应的,上述步骤A2可以包括以下步骤A2-2和步骤A2-4:
步骤A2-2,根据分词结果进行实体检测处理,得到待处理文本的用词特征的第一检测结果;其中,实体检测处理用于检测分词结果对应的预设实体中是否存在允许进行实体范围变化的第一目标实体;
具体而言,预先设定表征实体的各字词,本申请中将其称为预设实体。以及,预先根据各预设实体在不同类型的社会方言中的关联关系,生成树结构的实体库。也就是说,实体库中包括各预设实体,以及各预设实体在不同类型的社会方言中的关联实体。关联实体包括上位实体、下位实体和同级实体中的一个或多个。相应的,步骤A2-2可以包括:检测预设实体库中是否含有分词结果中的字词,若检测结果为预设实体库中不含有分词结果中的字词,则生成表征待处理文本未含有实体的第一检测结果;若检测结果为预设实体库中含有分词结果中的部分或全部字词,则将该部分或全部字词确定为第三候选实体;针对每个第三候选实体,检测实体库中是否含有第三候选实体的关联实体,若是,则将相应的第三候选实体确定为允许进行实体范围变化的第一目标实体,即确定分词结果对应的预设实体中存在允许进行实体范围变化的第一目标实体,并生成表征分词结果中存在允许进行实体范围变化的第一目标实体的第一检测结果。
序接上述示例,检测到分词结果中包括预设实体“我、今天、数据”,并且在预设实体库中检测到实体“我”具有同级实体“你、她、他”等,实体“今天”具有上位实体“时间、日期”等,实体“数据”具有“订单数据、交易数据”等下为概念;因此,将分词结果包括的预设实体“我、今天、数据”确定为第一目标实体。
步骤A2-4,根据句型向量进行句型检测处理,得到待处理文本的句型特征的第二检测结果;其中,句型检测处理包括以下至少一种:第一句型检测处理,用于检测待处理文本是否为强调句型;第二句型检测处理,用于检测待处理文本是否为含有动词的句型;第三句型检测处理,用于检测待处理文本是否为倒装句型;第四型检测处理,用于检测待处理文本是否为单句句型。
其中,单句句型表征待处理文本中不含有标点符号。考虑到不同句型的用词特征、字词的搭配方式、表述逻辑等均不同,为了提升文本增强效果,本申请实施例中的文本增强模型在训练过程中学习至少一种预设句型的句型特征,并针对不同的句型采用不同的文本增强方式。为了提升每种预设句型的检测准确性,本申请一个或多个实施例中,基于文本增强模型对待处理文本依次进行各预设句型的检测。具体的,上述步骤A2-4可以包括以下步骤A2-4-2至步骤A2-4-8中的至少一个步骤:
步骤A2-4-2,根据句型向量进行第一句型检测处理,得到待处理文本的句型特征的第一子检测结果;
作为示例,预设强调句型为含有“是…的”的句型,待处理文本为“我是今天报的数据”,基于文本增强模型,根据句型向量进行第一句型检测处理,得到待处理文本是强调句型的第一子检测结果。
步骤A2-4-4,根据句型向量进行第二句型检测处理,得到待处理文本的句型特征的第二子检测结果;
作为示例,待处理文本为前述的“我是今天报的数据”,基于文本增强模型,根据句型向量进行第二句型检测处理可检测到待处理文本中包括具有动词词性的“报”字,则生成表征待处理文本是含有动词的句型的第二子检测结果。
步骤A2-4-6,根据句型向量进行第三句型检测处理,得到待处理文本的句型特征的第三子检测结果;
步骤A2-4-8,对待处理文本进行第四句型检测处理,得到待处理文本的句型特征的第四子检测结果;
也就是说,第二检测结果包括第一子检测结果、第二子检测结果、第三子检测结果以及第四子检测结果中的至少一个。
需要指出的是,当步骤A2-4包括上述步骤A2-4-2至步骤A2-4-8中的多个或全部步骤时,所包括的步骤的执行顺序不限为上述执行顺序,各步骤之间可以彼此互换执行顺序。特别的,步骤A2-4-8中可以根据句型向量进行第四句型检测处理,也可以直接对待处理文本进行第四句型检测处理。当步骤A2-4包括步骤A2-4-8并且步骤A2-4-8中直接对待处理文本进行第四句型检测处理时,步骤A2-4-8还可以在步骤A1之前执行。
由此,基于文本增强模型依次对待处理文本是否为各预设句型进行句型检测处理,保障了检测结果的准确性。
进一步的,为了提升检测效率,本申请一个或多个实施例中,还可以基于文本增强模型同时对待处理文本是否为各预设句型进行检测处理。具体的,上述步骤A2可以包括以下步骤A2-6至步骤A2-10:
步骤A2-6,根据分词结果进行实体检测处理,得到待处理文本的用词特征的第一检测结果;其中,实体检测处理用于检测分词结果对应的预设实体中是否存在允许进行实体范围变化的第一目标实体;
步骤A2-6与前述步骤A2-2的实现方式相同,可参见前述相关描述,重复之处这里不再赘述。
步骤A2-8,根据句型向量进行句型检测处理,得到待处理文本的预测概率集合;其中,预测概率集合中包括待处理文本属于各预设句型的概率;
具体的,基于文本增强模型,根据句型向量进行句型检测处理,以预测待处理文本属于每个预设句型的概率,得到预测概率集合。其中,预设句型包括强调句型、含有动词的句型、倒装句型、单句句型中的至少一个句型;
步骤A2-10,将预测概率集合中大于预设概率阈值的至少一个目标概率所对应的预设句型,确定为待处理文本的句型特征的第二检测结果。
作为示例,预设句型包括强调句型、含有动词的句型、倒装句型、单句句型;预设概率阈值为0.7;待处理文本为“我是今天报的数据”,得到的预测概率集合包括:0.85(对应强调句型)、0.95(对应含有动词的句型)、0.1(对应倒装句型)、0.9(对应单句句型),则目标概率为0.85、0.95、0.9,得到表征待处理文本是强调句型、含有动词的句型、单句句型的第二检测结果。
由此,基于文本增强模型同时对待处理文本是否属于各预设句型进行检测,在保障了检测质量的基础上,提升了检测效率。在实际应用中,可以根据需要选择上述依次检测或同时检测的方式对待处理文本进行句型检测。
步骤A4,根据检测结果确定与待处理文本相匹配的至少一种目标增强方式。
具体的,根据第一检测结果和第二检测结果确定与待处理文本相匹配的至少一种目标增强方式。更加具体的,确定各检测结果的类型,若第一检测结果表征分词结果中存在允许进行实体范围变化的第一目标实体,则将实体范围增强方式确定为与待处理文本相匹配的目标增强方式;若第二检测结果表征待处理文本为预设强调句型,则将实体数量增强方式确定为与待处理文本相匹配的目标增强方式;若第二检测结果表征待处理文本为含有动词的句型,则将时态增强方式确定为与待处理文本相匹配的目标增强方式;若第二检测结果表征待处理文本为倒装句型,则将语序增强方式确定为与待处理文本相匹配的目标增强方式;若第二检测结果表征待处理文本为单句句型,则将标点增强方式确定为与待处理文本相匹配的目标增强方式。
其中,实体范围增强方式用于对第一目标实体进行替换;实体数量增强方式用于增加实体和/或减少实体;时态增强方式用于对动词进行时态变换;语序增强方式用于进行语序变换;标点增强方式用于添加标点符号。
可以理解的是,根据各检测结果的类型,可以将上述增强方式中的任意一个或多个确定为与待处理文本相匹配的目标增强方式。例如,检测结果包括第一检测结果和第二检测结果,并且第二检测结果包括前述第一子检测结果、第二子检测结果、第三子检测结果和第四子检测结果;当第一检测结果表征分词结果中存在允许进行实体范围变化的第一目标实体、第一子检测结果表征待处理文本不是预设强调句型、第二子检测结果表征待处理文本为含有动词的句型、第三子检测结果表征待处理文本不是倒装句型、第四子检测结果表征待处理文本不是单句句型时,将实体范围增强方式和时态增强方式确定为与待处理文本相匹配的目标增强方式。
由此,基于文本增强模型对待处理文本进行分词处理并生成句型向量,从而根据分词结果进行实体检测并根据句型向量进行句型检测,以及根据各检测结果确定目标增强方式;由此,深入到待处理文本的内部结构,而不只是停留于文本的表层,保障了确定的目标增强方式更适合待处理文本,有利于提升文本增强效果和文本增强效率。
在确定了与待处理文本相匹配的目标增强方式之后,即可基于文本增强模型根据目标增强类型和目标增强方式,对待处理文本进行文本增强处理。具体的,当目标增强方式包括实体范围增强方式时,步骤S104中根据目标增强类型和至少一种目标增强方式,对待处理文本进行文本增强处理,可以包括以下步骤B2和步骤B4:
步骤B2,根据目标增强类型,获取每个第一目标实体对应的至少一个第一候选实体;
当目标增强方式包括实体范围增强方式时,可以进行实体范围变大、实体范围变小、实体范围不变但含义改变等增强方式。具体的,基于文本增强模型,根据目标增强类型,从预设实体库中获取每个第一目标实体对应的至少一个第一候选实体。其中,第一候选实体包括以下至少一个:目标实体的上位实体、目标实体的下位实体、与目标实体同级但含义不同的同级实体。
步骤B4,将待处理文本中的每个第一目标实体分别替换为对应的第一候选实体。
具体的,当第一目标实体的数量为一个(如实体C1)时,若第一候选实体的数量为一个(例如C2),则将待处理文本中的第一目标实体替换为第一候选实体,得到目标增强类型的社会方言(即将C1替换为C2后的社会方言);若第一候选实体的数量为多个(例如C2和C3),则分别将待处理文本中的第一目标实体替换为每个第一候选实体,得到目标增强类型的社会方言(即将C1替换为C2后的社会方言、将C1替换为C3后的社会方言)。当第一目标实体的数量为多个时,针对每个第一目标实体按照前述方式进行增强处理,得到多个目标增强类型的社会方言。
作为示例,待处理文本为“我是今天报的数据”,针对第一目标实体“我”进行上位实体替换,得到的增强文本可以包括“我们是今天包的数据”等;针对第一目标实体“今天”进行同级实体但不同含义的实体替换,得到的增强文本可以包括“我是昨天报的数据”等;针对第一目标实体“数据”进行下位实体替换,得到的增强文本可以包括“我是今天报的订单数据”等。
需要指出的是,现有的文本增强方式中,通常是基于分词结果进行随机替换,而不考虑语义、语法等,因此增强后的文本质量较差。本申请实施例中的实体检测处理虽然也是基于分词结果进行,但是由于是基于预设实体库进行,而该预设实体库中包括了每个实体的符合各类型的社会方言的语言特征的关联实体,因此,进行实体增强处理得到的增强文本是符合目标增强类型的社会方言的语言特征的,极大的提升了文本增强质量。
进一步的,当目标增强方式包括实体数量增强方式时,S104中根据目标增强类型和至少一种目标增强方式,对待处理文本进行文本增强处理,可以包括以下步骤B6:
步骤B6,确定待处理文本所要强调的第二目标实体;若根据目标增强类型,获取到第二目标实体对应的至少一个第二候选实体,则按照目标增强类型对应的语言特征在待处理文本中增加第二候选实体;和/或,根据目标增强类型对应的语言特征确定待处理文本是否含有待删除的第三目标实体,若是,则将第三目标实体从待处理文本中删除。
当目标增强方式包括实体数量增强方式时,可以进行增加实体数量的增强方式,和/或减少实体数量的增强方式。具体的,根据预设强调句型的句型特征,确定待处理文本所要强调的第二目标实体;确定根据目标增强类型,从预设实体库中是否获取到用于对第二目标实体进行强调的第二候选实体,若否,则不进行增加实体数量的文本增强,进入后续其他处理;若是,则按照目标增强类型对应的社会方言的语言特征,确定第二候选实体的增加位置,根据确定的增加位置在待处理文本中增加第二候选实体,得到对应的增强文本。和/或,根据目标增强类型对应的语言特征确定待处理文本是否含有待删除的第三目标实体,若是,则将第三目标实体从待处理文本中删除,得到对应的增强文本。
作为示例,预设强调句型为“是…的”,可以将“是”字与“的”字之间的实体确定为要强调的第二目标实体。对于前述示例的待处理文本“我是今天报的数据”,则可以确定“今天”是第二目标实体。确定根据目标增强类型,从预设实体库中找到用于对其进行强调的第二候选实体“时间”,则进行增加实体数量的增强方式后,得到的增强文本可以包括“我报了数据,报的时间是今天”。以及,根据目标增强类型对应的语言特征确定待处理文本含有待删除的第三目标实体“数据”,则进行减少实体数量的增强方式后,得到的增强文本可以包括“我是今天报的”。
进一步的,当目标增强方式包括时态增强方式时,S104中根据目标增强类型和至少一种目标增强方式,对待处理文本进行文本增强处理,可以包括以下步骤B8和步骤B10:
步骤B8,根据目标增强类型,获取待处理文本中的动词对应的目标字词;其中,目标字词用于对待处理文本中的动词进行时态变换;
步骤B10,按照目标增强类型对应的语言特征,在待处理文本中增加目标字词;或者,按照目标增强类型对应的语言特征,将待处理文本中的动词替换为目标字词。
当待处理文本是含有动词的句型时,可以采用时态增强方式进行增强处理。其中,时态增强方式可以包括进行过去时增强、完成时增强、主动态增强中的一个或多个。具体的,从预设实体库中获取待处理文本中的动词在目标增强类型下所对应的目标字词,并按照目标增强类型对应的语言特征,在待处理文本中增加目标字词,得到目标增强类型的社会方言。例如,待处理文本中的动词C1,在增强类型1下对应的字词是D1和D2,在增强类型2下对应的字词是D2和D4,在增强类型3下对应的字词是D3和D5;目标增强方式为增强方式2,则获取到的目标字词为D2和D4。
作为示例,待处理文本是“我是今天报的数据”,目标增强类型对应的语言特征,进行过去时增强得到的增强文本可以包括“我报了数据,报的时间是今天”,进行完成时增强的到的增强文本可以包括“我已经报了数据,报的时间是今天”,进行完成时增强的到的增强文本可以包括“我把数据报了,报的时间是今天”。
进一步的,当目标增强方式包括语序增强方式时,S104中根据目标增强类型和至少一种目标增强方式,对待处理文本进行文本增强处理,可以包括以下步骤B12和步骤B14:
步骤B12,对待处理文本进行语序变换处理得到多个候选文本;
步骤B14,按照目标增强类型对应的语言特征计算各候选文本的混淆度,将最小混淆度对应的候选文本确定为增强文本。
当待处理文本为倒转句式时,可以采用语序增强方式进行增强处理。具体的,对待处理文本中各字词的位置进行随机调换,得到多个候选文本;按照目标增强类型对应的语言特征,根据预设的混淆度计算方式计算各候选文本的混淆度;比对计算得到的各混淆度,得到最小混淆度;将最小混淆度对应的候选文本确定为增强文本。其中,混淆度计算方式可以在实际应用中根据需要自行设定,对此本申请不做具体限定。
进一步的,当目标增强方式包括标点增强方式时,S104中根据目标增强类型和至少一种目标增强方式,对待处理文本进行文本增强处理,可以包括以下步骤B16和步骤B18:
步骤B16,根据目标增强类型对应的语言特征,确定待处理文本包括的多个字词中待添加标点的目标相邻字词及待添加的标点符号的标点类型;
步骤B18,在目标相邻字词之间添加标点类型对应的标点符号。
当待处理文本是单句时,可以采用标点增强方式进行增强处理。由于不同类型的社会方言,往往是在不同的字词之间添加标点符号。基于此,本申请实施例中,根据目标增强类型对应的语言特征,确定待处理文本包括的多个字词中待添加标点的目标相邻字词及待添加的标点符号的标点类型;并在目标相邻字词之间添加标点类型对应的标点符号,得到对应的增强文本。其中,添加的标点符号的数量可以是一个也可以是多个。
例如,待处理文本为“我是今天报的数据”,根据目标增强类型对应的语言特征,得到的增强文本可以包括“我,是今天报的数据”、“我是今天报的,数据”等。
以上是根据不同的目标增强方式进行增强处理的具体过程,实现了特定类型的社会方言的实体增强以及不同句型的句型增强。并且,当需要特定数量的目标类型的社会方言时,由于实体增强和句型增强可以同时进行,因此,相较于单一的增强方式而言,极大的降低了增强耗时,提升了增强效率。当需要指出的是,上述各示例中,仅仅是得到的目标增强类型的社会方言的一部分,而不是全部。
由上述描述可以看出,本申请实施例中,当目标增强方式存在多个时,可以分别采用单一的增强方式对待处理文本进行增强处理。即根据目标增强类型和每个目标增强方式,分别对待处理文本进行文本增强处理,得到目标增强类型的社会方言。
为了增加目标增强类型的社会方言的多样性,本申请一个或多个实施例中,当目标增强方式存在多个时,可以分别采用组合的增强方式对待处理文本进行增强处理。即对目标增强方式进行两两组合,得到至少一个增强方式组合;根据目标增强类型和每个增强方式组合,分别对待处理文本进行文本增强处理,得到目标增强类型的社会方言。其中,增强方式组合中的一种增强方式用于对另一种增强方式的增强处理结果进行增强处理。作为示例,增强方式组合为实体范围增强-时态增强,则根据实体范围增强方式对待处理文本D1进行增强处理后得到D2和D3,然后采用时态增强方式分别对D2和D3进行增强处理,得到增强文本D4、D5、D6、D7和D8。进一步的,当目标增强方式存在多个时,还可以首先采用单一的增强方式对待处理文本进行增强处理,然后在采用增强方式组合的方式对待处理文本进行增强处理。
进一步的,考虑到在实际应用中,可能因各种原因导致增强处理得到的增强文本中,存在低质量的增强文本。为了避免该现象的发生,本申请一个或多个实施例中,步骤S104中根据目标增强类型和至少一种目标增强方式,对待处理文本进行文本增强处理,得到至少一个候选文本;并在得到至少一个候选文本之后,还包括:对该至少一个候选文本进行后处理,得到增强文本。
其中,对候选文本进行后处理,得到增强文本,可以包括:若检测到候选文本中存在不符合目标增强类型对应的语言特征的第一目标候选文本,则删除第一目标候选文本;若在删除第一目标候选文本后的剩余候选文本中、或者在得到的至少一个候选文本中,检测出重复的第二目标候选文本,则对第二目标候选文本进行去重处理,得到增强文本。
由此,通过对增强处理得到的候选文本进行后处理,极大的保障了得到的增强文本的质量。
进一步的,为了增加增强文本的多样性,本申请一个或多个实施例中,还可以对得到的增强文本进行进一步优化处理。具体的,步骤S104中根据目标增强类型和至少一种目标增强方式,对待处理文本进行文本增强处理之后,还可以包括:
若根据目标增强类型,确定文本增强处理得到的文本中存在符合优化条件的待优化文本,则对待优化文本进行优化处理;将文本增强处理得到的文本和优化处理得到的文本,确定为增强文本。其中,优化处理包括字词省略处理和/或字词重复处理。
字词省略处理,即删除一个或多个字词;字词重复处理,即对一个或多个字词,进行重复叠加,例如对得到的社会方言“我,是今天报的数据”进行字词重复处理,得到社会方言“我我,是今天报的数据”。
进一步的,为了便于理解本申请实施例中的文本增强模型,现对文本增强模块的结构进行描述。具体的,文本增强模型可以包括:实体检测模块、句型检测模块和增强模块;
其中,实体检测模块,用于根据待处理文本的文本特征对待处理文本进行实体检测处理;句型检测模块,用于根据待处理文本的文本特征对待处理文本进行句型检测处理;增强模块,用于根据实体检测模块和句型检测模块的检测结果,确定与待处理文本相匹配的至少一种目标增强方式,根据目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本;
进一步的,如图2所示,文本增强模型还可以包括:预处理模块和后处理模块;
其中,预处理模块,用于对待处理文本进行分词处理得到分词结果,并根据分词结果生成待处理文本的句型向量;相应的,实体检测模块,具体用于根据分词结果进行实体检测处理;句型检测模块,具体用于根据句型向量进行句型检测处理;
后处理模块,用于对增强模块得到的候选文本进行后处理,得到增强文本。
文本增强模型包括的各模块的数据处理的具体过程,可参见前文的相关描述,重复之处这里不再赘述;各模块的具体结构可以在实际应用中根据需要自行设定。
在一个具体的实施例中,以目标增强方式包括前述各增强方式,且采用单一增强方式分别对待处理文本进行增强处理为例进行说明,其文本增强的流程示意图如图3所示。图3中各步骤的具体实现方式可参见前文的相关描述,重复之处这里不再赘述。
本申请一个或多个实施例中,通过获取待处理文本和待处理文本的目标增强类型,并基于文本增强模型根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式,以及根据目标增强类型和目标增强方式对待处理文本进行文本增强处理得到增强文本,该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
对应上述描述的文本增强方法,基于相同的技术构思,本申请一个或多个实施例还提供了一种文本增强模型的训练方法。图4为本申请一个或多个实施例提供的一种文本增强模型的训练方法的流程示意图,图4中的方法能够由文本增强模型的训练装置执行,该目标检测装置可以设置于终端设备中,也可以设置于服务端中。其中,终端设备可以是手机、平板电脑、台式计算机、便携式笔记本等;服务端可以是独立的服务器,也可以是由多个服务器组成的服务器集群。如图4所示,该方法包括以下步骤:
步骤S202,获取待训练的样本集;样本集中的每个样本标注有标签,标签包括样本所属的社会方言的类型信息、样本的句型信息和样本中的实体;
步骤S204,将样本集输入待训练模型中进行迭代训练处理,得到文本增强模型;其中,文本增强模型用于根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式;并根据待处理文本的目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本;增强文本符合目标增强类型对应的社会方言的语言特征。
其中,对待训练模型进行迭代训练的过程,可参考现有的模型训练方式,对此本申请中不做具体限定。
本申请实施例中,基于获取的样本集进行模型训练处理得到文本增强模型,该文本增强模型能够根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式;并根据待处理文本的目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本;该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
对应上述描述的文本增强方法,基于相同的技术构思,本申请一个或多个实施例还提供一种文本增强装置。图5为本申请一个或多个实施例提供的一种文本增强装置的模块组成示意图,如图5所示,该装置包括:
获取模块301,用于获取待处理文本和所述待处理文本的目标增强类型;
增强模块302,用于将所述待处理文本和所述目标增强类型输入文本增强模型中进行文本增强处理,得到增强文本;其中,所述增强文本符合所述目标增强类型对应的社会方言的语言特征;所述文本增强处理包括:根据所述待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理。
本申请实施例提供的文本增强装置,通过获取待处理文本和待处理文的目标增强类型,并基于文本增强模型根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式,以及根据目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本,该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
需要说明的是,本申请中关于文本增强装置的实施例与本申请中关于文本增强方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的文本增强方法的实施,重复之处不再赘述。
进一步的,对应上述描述的文本增强模型的训练方法,基于相同的技术构思,本申请一个或多个实施例还提供了一种文本增强模型的训练装置。图6为本申请一个或多个实施例提供的文本增强模型的训练装置的模块组成示意图,如图6所示,该装置包括:
获取模块401,用于获取待训练的样本集;所述样本集中的每个样本标注有标签,所述标签包括样本所属的社会方言的类型信息、样本的句型信息和样本中的实体;
训练模块402,用于将所述样本集输入待训练模型中进行迭代训练处理,得到文本增强模型;所述文本增强模型用于根据待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;并根据所述待处理文本的目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征。
本申请实施例提供的文本增强模型的训练装置,基于获取的样本集进行模型训练处理得到文本增强模型,该文本增强模型能够根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式;并根据待处理文本的目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本;该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
需要说明的是,本申请中关于文本增强模型的训练装置的实施例与本申请中关于文本增强模型的训练方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的文本增强模型的训练方法的实施,重复之处不再赘述。
进一步地,对应上述描述的文本增强方法,基于相同的技术构思,本申请一个或多个实施例还提供一种电子设备,该电子设备可用于执行上述的文本增强方法,图7为本申请一个或多个实施例提供的一种电子设备的结构示意图。
如图7所示,电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括电子设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在电子设备上执行存储器502中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506等。
在一个具体的实施例中,电子设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对电子设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待处理文本和所述待处理文本的目标增强类型;
将所述待处理文本和所述目标增强类型输入文本增强模型中进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征;
其中,所述文本增强处理包括:根据所述待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理。
本申请一个或多个实施例提供的电子设备,通过获取待处理文本和待处理文的目标增强类型,并基于文本增强模型根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式,以及根据目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本,该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
另外,在另一个具体的实施例中,上述电子设备中的存储器还可以执行一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待训练的样本集;所述样本集中的每个样本标注有标签,所述标签包括样本所属的社会方言的类型信息、样本的句型信息和样本中的实体;
将所述样本集输入待训练模型中进行迭代训练处理,得到文本增强模型;其中,所述文本增强模型用于根据待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;并根据所述待处理文本的目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征。
本申请一个或多个实施例提供的电子设备,基于获取的样本集进行模型训练处理得到文本增强模型,该文本增强模型能够根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式;并根据待处理文本的目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本;该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
需要说明的是,本申请中关于电子设备的实施例与本申请中关于文本增强方法及文本增强模型的训练方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的文本增强方法及文本增强模型的训练方法的实施,重复之处不再赘述。
进一步地,对应上述描述的文本增强方法,基于相同的技术构思,本申请一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令,一个具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取待处理文本和所述待处理文本的目标增强类型;
将所述待处理文本和所述目标增强类型输入文本增强模型中进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征;
其中,所述文本增强处理包括:根据所述待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理。
本申请一个或多个实施例提供的存储介质存储的计算机可执行指令在被处理器执行时,通过获取待处理文本和待处理文的目标增强类型,并基于文本增强模型根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式,以及根据目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本,该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
另外,在另一种具体的实施例中,上述存储介质存储的计算机可执行指令在被处理器执行时,还能实现以下流程:
获取待训练的样本集;所述样本集中的每个样本标注有标签,所述标签包括样本所属的社会方言的类型信息、样本的句型信息和样本中的实体;
将所述样本集输入待训练模型中进行迭代训练处理,得到文本增强模型;其中,所述文本增强模型用于根据待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;并根据所述待处理文本的目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征。
本申请一个或多个实施例提供的存储介质存储的计算机可执行指令在被处理器执行时,基于获取的样本集进行模型训练处理得到文本增强模型,该文本增强模型能够根据待处理文本的文本特征,确定与待处理文本相匹配的至少一种目标增强方式;并根据待处理文本的目标增强类型和目标增强方式对待处理文本进行文本增强处理,得到增强文本;该增强文本符合目标增强类型对应的社会方言的语言特征。由于是根据待处理文本的文本特征确定目标增强方式,深入到文本内部而不是局限于文本表层,因此所确定的目标增强方式能够更适合待处理文本,有利于提升文本增强效果。再者,根据目标增强类型和确定的目标增强方式,对待处理文本进行文本增强处理,避免了无目的的随机替换或插入,保障了得到的增强文本符合目标增强类型对应的社会方言的语言特征,不仅实现了对特定类型的社会方言的有针对性的文本增强,而且能够提升特定类型的社会方言的增强效率,还能够实现特定类型的社会方言语料库的有效扩充。
需要说明的是,本申请中关于存储介质的实施例与本申请中关于文本增强方法及目标检测方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的文本增强方法及目标检测方法的实施,重复之处不再赘述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。
Claims (16)
1.一种文本增强方法,其特征在于,包括:
获取待处理文本和所述待处理文本的目标增强类型;
将所述待处理文本和所述目标增强类型输入文本增强模型中进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征;
其中,所述文本增强处理包括:根据所述待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理;
所述文本增强模型包括实体检测模块、句型检测模块和增强模块;所述实体检测模块,用于根据所述待处理文本的文本特征对所述待处理文本进行实体检测处理;所述句型检测模块,用于根据所述待处理文本的文本特征对所述待处理文本进行句型检测处理;所述增强模块,用于根据所述实体检测模块和所述句型检测模块的检测结果,确定与所述待处理文本相匹配的至少一种目标增强方式,根据所述目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式,包括:
根据所述待处理文本的文本特征进行实体检测处理和句型检测处理,得到文本特征的检测结果;
根据所述检测结果确定与所述待处理文本相匹配的至少一种目标增强方式。
3.根据权利要求2所述的方法,其特征在于,所述待处理文本的文本特征包括分词结果和句型向量,所述分词结果是通过所述文本增强模型对所述待处理文本进行分词处理得到的,所述句型向量是通过所述文本增强模型根据所述分词结果生成的;
所述根据所述待处理文本的文本特征进行实体检测处理和句型检测处理,得到文本特征的检测结果,包括:
根据所述分词结果进行实体检测处理,得到所述待处理文本的用词特征的第一检测结果;所述实体检测处理用于检测所述分词结果对应的预设实体中是否存在允许进行实体范围变化的第一目标实体;
根据所述句型向量进行句型检测处理,得到所述待处理文本的句型特征的第二检测结果;
其中,所述句型检测处理包括以下至少一种:第一句型检测处理,用于检测所述待处理文本是否为强调句型;第二句型检测处理,用于检测所述待处理文本是否为含有动词的句型;第三句型检测处理,用于检测所述待处理文本是否为倒装句型;第四型检测处理,用于检测所述待处理文本是否为单句句型。
4.根据权利要求2所述的方法,其特征在于,所述待处理文本的文本特征包括分词结果和句型向量,所述分词结果是通过所述文本增强模型对所述待处理文本进行分词处理得到的,所述句型向量是通过所述文本增强模型根据所述分词结果生成的;
所述根据所述待处理文本的文本特征进行实体检测处理和句型检测处理,得到文本特征的检测结果,包括:
根据所述分词结果进行实体检测处理,得到所述待处理文本的用词特征的第一检测结果;所述实体检测处理用于检测所述分词结果对应的预设实体中是否存在允许进行实体范围变化的第一目标实体;
根据所述句型向量进行句型检测处理,得到所述待处理文本的预测概率集合;所述预测概率集合中包括所述待处理文本属于各预设句型的概率,所述预设句型包括强调句型、含有动词的句型、倒装句型、单句句型中的至少一个句型;
将所述预测概率集合中大于预设概率阈值的至少一个目标概率所对应的预设句型,确定为所述待处理文本的句型特征的第二检测结果。
5.根据权利要求3或4所述的方法,其特征在于,所述根据所述检测结果确定与所述待处理文本相匹配的至少一种目标增强方式,包括:
若所述第一检测结果表征所述分词结果中存在允许进行实体范围变化的第一目标实体,则将实体范围增强方式确定为与所述待处理文本相匹配的目标增强方式;
若所述第二检测结果表征所述待处理文本为所述强调句型,则将实体数量增强方式确定为与所述待处理文本相匹配的目标增强方式;
若所述第二检测结果表征所述待处理文本为所述含有动词的句型,则将时态增强方式确定为与所述待处理文本相匹配的目标增强方式;
若所述第二检测结果表征所述待处理文本为所述倒装句型,则将语序增强方式确定为与所述待处理文本相匹配的目标增强方式;
若所述第二检测结果表征所述待处理文本为所述单句句型,则将标点增强方式确定为与所述待处理文本相匹配的目标增强方式。
6.根据权利要求5所述的方法,其特征在于,所述目标增强方式包括实体范围增强方式,所述实体范围增强方式用于对所述第一目标实体进行替换;所述根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理,包括:
根据所述目标增强类型,获取每个所述第一目标实体对应的至少一个第一候选实体;所述第一候选实体包括以下至少一个:所述目标实体的上位实体、所述目标实体的下位实体、与所述目标实体同级但含义不同的同级实体;
将每个所述第一目标实体分别替换为对应的所述第一候选实体。
7.根据权利要求5所述的方法,其特征在于,所述目标增强方式包括实体数量增强方式,所述实体数量增强方式用于增加实体和/或减少实体;所述根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理,包括:
确定所述待处理文本所要强调的第二目标实体;若根据所述目标增强类型,获取到所述第二目标实体对应的至少一个第二候选实体,则按照所述目标增强类型对应的语言特征在所述待处理文本中增加所述第二候选实体;所述第二候选实体用于对所述第二目标实体进行强调;和/或,
根据所述目标增强类型对应的语言特征确定所述待处理文本是否含有待删除的第三目标实体,若是,则将所述第三目标实体从所述待处理文本中删除。
8.根据权利要求5所述的方法,其特征在于,所述目标增强方式包括时态增强方式,所述时态增强方式用于对动词进行时态变换;所述根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理,包括:
根据所述目标增强类型,获取所述待处理文本中的动词对应的目标字词;所述目标字词用于对所述动词进行时态变换;
按照所述目标增强类型对应的语言特征,在所述待处理文本中增加所述目标字词;或者,按照所述目标增强类型对应的语言特征,将所述待处理文本中的动词替换为所述目标字词。
9.根据权利要求5所述的方法,其特征在于,所述目标增强方式包括语序增强方式,所述语序增强方式用于进行语序变换;所述根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理,包括:
对所述待处理文本进行语序变换处理得到多个候选文本;
按照所述目标增强类型对应的语言特征计算各所述候选文本的混淆度,将最小混淆度对应的候选文本确定为所述增强文本。
10.根据权利要求5所述的方法,其特征在于,所述目标增强方式包括标点增强方式,所述标点增强方式用于添加标点符号;所述根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理,包括:
根据所述目标增强类型对应的语言特征,确定所述待处理文本包括的多个字词中待添加标点的目标相邻字词及待添加的标点符号的标点类型;
在所述目标相邻字词之间添加所述标点类型对应的标点符号。
11.根据权利要求1所述的方法,其特征在于,所述目标增强方式存在多个,所述根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理,包括:
根据所述目标增强类型和每个所述目标增强方式,分别对所述待处理文本进行文本增强处理;和/或,
对所述目标增强方式进行两两组合,得到至少一个增强方式组合;根据所述目标增强类型和每个所述增强方式组合,分别对所述待处理文本进行文本增强处理;所述增强方式组合中的一种增强方式用于对另一种增强方式的增强处理结果进行增强处理。
12.一种文本增强模型的训练方法,其特征在于,包括:
获取待训练的样本集;所述样本集中的每个样本标注有标签,所述标签包括样本所属的社会方言的类型信息、样本的句型信息和样本中的实体;
将所述样本集输入待训练模型中进行迭代训练处理,得到文本增强模型;其中,所述文本增强模型用于根据待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;并根据所述待处理文本的目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征;
所述文本增强模型包括实体检测模块、句型检测模块和增强模块;所述实体检测模块,用于根据所述待处理文本的文本特征对所述待处理文本进行实体检测处理;所述句型检测模块,用于根据所述待处理文本的文本特征对所述待处理文本进行句型检测处理;所述增强模块,用于根据所述实体检测模块和所述句型检测模块的检测结果,确定与所述待处理文本相匹配的至少一种目标增强方式,根据所述目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本。
13.一种文本增强装置,其特征在于,包括:
获取模块,用于获取待处理文本和所述待处理文本的目标增强类型;
增强模块,用于将所述待处理文本和所述目标增强类型输入文本增强模型中进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征;
其中,所述文本增强处理包括:根据所述待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;根据所述目标增强类型和所述至少一种目标增强方式,对所述待处理文本进行文本增强处理;
所述文本增强模型包括实体检测模块、句型检测模块和增强模块;所述实体检测模块,用于根据所述待处理文本的文本特征对所述待处理文本进行实体检测处理;所述句型检测模块,用于根据所述待处理文本的文本特征对所述待处理文本进行句型检测处理;所述增强模块,用于根据所述实体检测模块和所述句型检测模块的检测结果,确定与所述待处理文本相匹配的至少一种目标增强方式,根据所述目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本。
14.一种文本增强模型的训练装置,其特征在于,包括:
获取模块,用于获取待训练的样本集;所述样本集中的每个样本标注有标签,所述标签包括所述样本所属的社会方言的类型信息和所述样本的句型信息;
训练模块,用于将所述样本集输入待训练模型中进行迭代训练处理,得到文本增强模型;所述文本增强模型用于根据待处理文本的文本特征,确定与所述待处理文本相匹配的至少一种目标增强方式;并根据所述待处理文本的目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本;所述增强文本符合所述目标增强类型对应的社会方言的语言特征;
所述文本增强模型包括实体检测模块、句型检测模块和增强模块;所述实体检测模块,用于根据所述待处理文本的文本特征对所述待处理文本进行实体检测处理;所述句型检测模块,用于根据所述待处理文本的文本特征对所述待处理文本进行句型检测处理;所述增强模块,用于根据所述实体检测模块和所述句型检测模块的检测结果,确定与所述待处理文本相匹配的至少一种目标增强方式,根据所述目标增强类型和所述目标增强方式对所述待处理文本进行文本增强处理,得到增强文本。
15.一种电子设备,其特征在于,包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如权利要求1-11任一项所述的方法中的步骤,或者所述可执行指令包括用于执行如权利要求12所述的方法中的步骤。
16.一种存储介质,其特征在于,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如权利要求1-11任一项所述的方法,或者所述可执行指令使得计算机执行如权利要求12所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210452492.2A CN114817469B (zh) | 2022-04-27 | 2022-04-27 | 文本增强方法、文本增强模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210452492.2A CN114817469B (zh) | 2022-04-27 | 2022-04-27 | 文本增强方法、文本增强模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114817469A CN114817469A (zh) | 2022-07-29 |
CN114817469B true CN114817469B (zh) | 2023-08-08 |
Family
ID=82509826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210452492.2A Active CN114817469B (zh) | 2022-04-27 | 2022-04-27 | 文本增强方法、文本增强模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817469B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717017A (zh) * | 2019-10-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 一种处理语料的方法 |
CN111859951A (zh) * | 2020-06-19 | 2020-10-30 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN111859982A (zh) * | 2020-06-19 | 2020-10-30 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN111859987A (zh) * | 2020-07-28 | 2020-10-30 | 网易(杭州)网络有限公司 | 文本处理方法、目标任务模型的训练方法和装置 |
CN112464667A (zh) * | 2020-11-18 | 2021-03-09 | 北京华彬立成科技有限公司 | 文本的实体识别方法、装置、电子设备和存储介质 |
CN113010676A (zh) * | 2021-03-15 | 2021-06-22 | 北京语言大学 | 一种文本知识提取方法、装置及自然语言推断系统 |
CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
CN113255319A (zh) * | 2021-07-02 | 2021-08-13 | 深圳市北科瑞声科技股份有限公司 | 模型训练方法、文本分段方法、摘要抽取方法及装置 |
CN113449514A (zh) * | 2021-06-21 | 2021-09-28 | 浙江康旭科技有限公司 | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 |
-
2022
- 2022-04-27 CN CN202210452492.2A patent/CN114817469B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717017A (zh) * | 2019-10-17 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 一种处理语料的方法 |
CN111859951A (zh) * | 2020-06-19 | 2020-10-30 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN111859982A (zh) * | 2020-06-19 | 2020-10-30 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN111859987A (zh) * | 2020-07-28 | 2020-10-30 | 网易(杭州)网络有限公司 | 文本处理方法、目标任务模型的训练方法和装置 |
CN112464667A (zh) * | 2020-11-18 | 2021-03-09 | 北京华彬立成科技有限公司 | 文本的实体识别方法、装置、电子设备和存储介质 |
CN113010676A (zh) * | 2021-03-15 | 2021-06-22 | 北京语言大学 | 一种文本知识提取方法、装置及自然语言推断系统 |
CN113449514A (zh) * | 2021-06-21 | 2021-09-28 | 浙江康旭科技有限公司 | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 |
CN113255328A (zh) * | 2021-06-28 | 2021-08-13 | 北京京东方技术开发有限公司 | 语言模型的训练方法及应用方法 |
CN113255319A (zh) * | 2021-07-02 | 2021-08-13 | 深圳市北科瑞声科技股份有限公司 | 模型训练方法、文本分段方法、摘要抽取方法及装置 |
Non-Patent Citations (1)
Title |
---|
面向文本聚类的实体―动作关联模型研究;刘作国;陈笑蓉;;中文信息学报(第05期);27-35 * |
Also Published As
Publication number | Publication date |
---|---|
CN114817469A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309283B (zh) | 一种智能问答的答案确定方法及装置 | |
US20190258961A1 (en) | Implicit bridging of machine learning tasks | |
CN117235226A (zh) | 一种基于大语言模型的问题应答方法及装置 | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110457449B (zh) | 在线训练模型的方法、装置、设备及存储介质 | |
CN111507726B (zh) | 一种报文生成方法、装置及设备 | |
CN114880472A (zh) | 数据处理方法、装置及设备 | |
CN117392694A (zh) | 数据处理方法、装置及设备 | |
CN114817469B (zh) | 文本增强方法、文本增强模型的训练方法及装置 | |
CN116522939A (zh) | 数据处理方法、装置及设备 | |
CN116757208A (zh) | 数据处理方法、装置及设备 | |
CN111783453B (zh) | 文本的情感信息处理方法及装置 | |
JP2022121386A (ja) | テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム | |
CN112926334A (zh) | 确定词表示向量的方法、装置及电子设备 | |
CN111539520A (zh) | 增强深度学习模型鲁棒性的方法及装置 | |
CN113343716B (zh) | 一种多语种翻译方法、装置、存储介质及设备 | |
CN115423485B (zh) | 数据处理方法、装置及设备 | |
CN116501852B (zh) | 一种可控对话模型训练方法、装置、存储介质及电子设备 | |
CN117369783B (zh) | 一种安全代码生成模型的训练方法及装置 | |
CN118193757B (zh) | 一种任务执行方法、装置、存储介质及电子设备 | |
US20220351085A1 (en) | Method and apparatus for presenting candidate character string, and method and apparatus for training discriminative model | |
CN117494663A (zh) | 文本处理方法及装置 | |
CN116186607A (zh) | 一种模型的处理方法、装置及设备 | |
CN117910542A (zh) | 用户转化预测模型训练方法及装置 | |
CN118210980A (zh) | 一种基于基层治理的资源匹配方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |