CN111008528A - 文本处理方法、装置、电子设备及可读存储介质 - Google Patents
文本处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN111008528A CN111008528A CN201911237688.4A CN201911237688A CN111008528A CN 111008528 A CN111008528 A CN 111008528A CN 201911237688 A CN201911237688 A CN 201911237688A CN 111008528 A CN111008528 A CN 111008528A
- Authority
- CN
- China
- Prior art keywords
- text data
- language model
- word segmentation
- specified task
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 112
- 230000011218 segmentation Effects 0.000 claims abstract description 80
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 23
- 238000007405 data analysis Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 23
- 241000209094 Oryza Species 0.000 description 6
- 235000007164 Oryza sativa Nutrition 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 235000009566 rice Nutrition 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种文本处理方法、装置、电子设备及可读存储介质,涉及计算机数据处理技术领域。方法包括:将获得的第一文本数据输入与第一指定任务对应的目标分词器;通过目标分词器对第一文本数据进行预处理,得到第二文本数据,第二文本数据包括与第一指定任务对应的标签;根据去除标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,第一语言模型为经过训练的语言模型;基于第一指定任务将未去除标签的第二文本数据输入第二语言模型,得到与第一指定任务对应的处理结果。本方案能够简化文本数据分析处理的操作步骤,从而提高分析处理的效率。
Description
技术领域
本发明涉及计算机数据处理技术领域,具体而言,涉及一种文本处理方法、装置、电子设备及可读存储介质。
背景技术
随着信息技术的不断发展,对于文本分析处理的需求越来越大。其中,文本分析处理包括基于文本的文字内容,对文本进行分类、预测文本语句的下一语句等。在对文本分析处理的发展过程中,逐渐由人工进行分析处理转向机器自动分析处理。目前,在机器自动分析处理过程中,在分析处理过程中,需要用户根据相应的任务多次编写相应的程序代码,从而使得文本分析的操作复杂、处理效率低。
发明内容
本申请提供一种文本处理方法、装置、电子设备及可读存储介质,能够改善对文本数据进行分析的操作复杂、处理效率低的问题。
为了实现上述目的,本申请实施例所提供的技术方案如下所示:
第一方面,本申请实施例提供一种文本处理方法,所述方法包括:
将获得的第一文本数据输入与第一指定任务对应的目标分词器;
通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,所述第二文本数据包括与所述第一指定任务对应的标签;
根据去除所述标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,所述第一语言模型为经过训练的语言模型;
基于所述第一指定任务将未去除所述标签的所述第二文本数据输入所述第二语言模型,得到与所述第一指定任务对应的处理结果。
在上述的实施方式中,通过自动选择目标分词器,以及对利用需要进行分析处理的文本数据训练语言模型,使得训练后的语言模型更贴切指定任务,简化文本数据分析处理的操作步骤,从而提高分析处理的效率。然后利用训练后的语言模型对文本数据进行分析处理,有利于提高对文本数据分析处理的准确性及可靠性。
结合第一方面,在一些可选的实施方式中,将获得的第一文本数据输入与第一指定任务对应的目标分词器,包括:
基于所述第一指定任务的内容,确定所述第一指定任务的目标类别;
基于存储的类别与分词器的对应关系,确定与所述目标类别对应的分词器为所述目标分词器。
在上述的实施方式中,通过任务的类别与分词器的对应关系,可以方便设备自动基于指定任务选择相应的分词器,从而有利于简化文本数据的操作流程。
结合第一方面,在一些可选的实施方式中,通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,包括:
根据所述目标分词器的分词策略,对所述第一文本数据进行分词处理,以得到所述第二文本数据,其中,所述分词策略对应的分词处理包括下述方式中的至少一种:
滤除所述文本数据中的指定字符;
将所述文本数据中的语句划分为字或词;
基于预设编码规则对所述文本数据中的字或词编码。
在上述的实施方式中,通过对文本数据进行预处理,然后利用预处理后的文本数据进行后续的分析处理,有助于提高文本数据分析处理的准确度,降低第一文本数据中的干扰字符对文本分析处理的影响。
结合第一方面,在一些可选的实施方式中,在将获得的第一文本数据输入与指定任务对应的目标分词器之前,所述方法还包括:
获取训练数据集,所述训练数据集包括多个文本数据及与每个文本数据对应的第二指定任务;
通过所述多个文本数据及与每个文本数据对应的第二指定任务,训练语言模型,得到所述第一语言模型。
在本实施例中,通过对语言模型进行训练,再利用训练后的模型对预处理后的文本数据进行训练,从而有利于提高语言模型与指定任务的契合度,以提高对文本数据分析处理的准确度。
结合第一方面,在一些可选的实施方式中,当所述第一指定任务的内容包括用于根据所述第二文本数据预测下一句语句时,所述处理结果包括与所述第二文本数据中的语句对应的下一句语句;
当所述第一指定任务的内容包括用于对所述第二文本数据进行分类时,所述处理结果包括表征所述第二文本数据的分类结果;
当所述第一指定任务的内容包括判断所述第二文本数据中的语句是否异常时,所述处理结果包括表征所述第二文本数据语句是否异常的结果。
在上述的实施方式中,指定任务的内容可以预测语句、文本分类、异常语句的判别等,有利于对各类任务进行分析处理,并提高对任务处理的效率。
结合第一方面,在一些可选的实施方式中,所述语言模型包括基于循环神经网络的语言模型、基于卷积神经网络的语言模型、Transfomer模型、Bert模型中的至少一种。
第二方面,本申请实施例还提供一种文本处理装置,所述装置包括:
输入单元,用于将获得的第一文本数据输入与第一指定任务对应的目标分词器;
预处理单元,用于通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,所述第二文本数据包括与所述第一指定任务对应的标签;
训练单元,用于根据去除所述标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,所述第一语言模型为经过训练的语言模型;
模型处理单元,用于基于所述第一指定任务将未去除所述标签的所述第二文本数据输入所述第二语言模型,得到与所述第一指定任务对应的处理结果。
结合第二方面,在一些可选的实施方式中,所述输入单元还用于:
基于所述第一指定任务的内容,确定所述第一指定任务的目标类别;
基于存储的类别与分词器的对应关系,确定与所述目标类别对应的分词器为所述目标分词器。
第三方面,本申请实施例还提供一种电子设备,所述电子设备包括相互耦合的存储器、处理器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构示意图。
图2为本申请实施例提供的文本处理方法的流程示意图。
图3为图2所示的步骤S210的子步骤的流程示意图。
图4为本申请实施例提供的文本处理装置的功能框图。
图标:10-电子设备;11-处理模块;12-存储模块;100-文本处理装置;110-输入单元;120-预处理单元;130-训练单元;140-模型处理单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1和图2,本申请提供一种电子设备10,可以用于自动对文本数据进行分析处理,以提高对文本数据分析处理的效率。其中,电子设备10可以包括相互耦合的存储模块12、处理模块11,存储模块12内存储有计算机程序,当计算机程序被处理模块11执行时,可以使得电子设备10执行下述的文本处理方法。
在本实施例中,电子设备10可以是但不限于服务器、个人电脑(PersonalComputer,PC)、平板电脑、移动上网设备(Mobile Internet Device,MID)等。
请再次参照图1,在本实施例中,电子设备10可以包括处理模块11、存储模块12以及文本处理装置100,处理模块11、存储模块12以及文本处理装置100各个元件之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
处理模块11可以是一种集成电路芯片,具有信号的处理能力。上述处理模块11可以是通用处理器。例如,该处理器可以是中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
存储模块12可以是,但不限于,随机存取存储器,只读存储器,可编程只读存储器,可擦除可编程只读存储器,电可擦除可编程只读存储器等。在本实施例中,存储模块12可以用于存储语言模型、文本数据等。当然,存储模块12还可以用于存储程序,处理模块11在接收到执行指令后,执行该程序。
文本处理装置100包括至少一个可以软件或固件(firmware)的形式存储于存储模块12中或固化在电子设备10操作系统(Operating System,OS)中的软件功能模块。处理模块11用于执行存储模块12中存储的可执行模块,例如文本处理装置100所包括的软件功能模块及计算机程序等。
可以理解的是,图1所示的结构仅为电子设备10的一种结构示意图,电子设备10还可以包括比图1所示更多的组件。例如,电子设备10还可以包括通信模块,通信模块可以通过网络建立电子设备10与其他设备的通信连接,以进行数据交互。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参照图2,本申请实施例还提供一种文本处理方法,可以引用于上述的电子设备10中,由电子设备10执行文本处理方法中的各步骤。其中,文本处理方法可以包括步骤S210至步骤S240。
步骤S210,将获得的第一文本数据输入与第一指定任务对应的目标分词器;
步骤S220,通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,所述第二文本数据包括与所述第一指定任务对应的标签;
步骤S230,根据去除所述标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,所述第一语言模型为经过训练的语言模型;
步骤S240,基于所述第一指定任务将未去除所述标签的所述第二文本数据输入所述第二语言模型,得到与所述第一指定任务对应的处理结果。
在上述的实施方式中,通过自动选择目标分词器,以及对利用需要进行分析处理的文本数据训练语言模型,使得训练后的语言模型更贴切指定任务,简化文本数据分析处理的操作步骤,从而提高分析处理的效率。然后利用训练后的语言模型对文本数据进行分析处理,有利于提高对文本数据分析处理的准确性及可靠性。
下面将对图2中所示的文本处理方法中的各步骤进行详细阐述:
步骤S210,将获得的第一文本数据输入与第一指定任务对应的目标分词器。
在本实施例中,当用户存在对文本数据进行分析的需求时,需要设计相应的分析项目以作为分析的最终任务,该最终任务即为第一指定任务。用户可以将需要进行分析处理的文本数据传输至电子设备10,以使电子设备10获取到需要进行分析处理的文本数据,并以最终任务为目标进行后续的分析处理。可理解地,电子设备10所获取到的文本数据便为第一文本数据,或可以称为待处理文本数据。
文本数据的内容包括但不限于与文字类型对应的字、词、句、数字、特殊符号等字符,可以根据实际情况而确定。其文字类型包括但不限于汉字、英文等,特殊符号可以是但不限于“%”、“#”等符号。可理解地,文本数据的内容可以为一篇文章、一段文字,一句话等,可以根据实际情况而设置。
另外,第一指定任务可以根据实际情况进行设置。例如,第一指定任务包括但不限于:根据第二文本数据中的语句预测下一句语句;对第二文本数据进行分类;判断第二文本数据中的语句是否异常;遮盖语言;双向语言任务等。其中,遮盖语言可理解为滤除文本中指定的字、词、句。双向语言任务用于当文中出现未知词语或出现漏字、漏词时,通过结合未知词语或出现漏字、漏词的上下文的文字内容,预测现未知词语或漏字、漏词对应的文字。
电子设备10可以存储多类分词器,分词器用于通过相应的分词策略对文本数据中的字、词、句等进行划分。在获取到第一文本数据后,电子设备10可以自动选择与第一指定任务的类型对应的分词器,并将第一文本数据输入该分词器中。可理解地,在对文本数据进行分词处理的过程中,不同的指定任务需要通过不同的分词器以相应分词策略进行分词处理。
请参照图3,作为一种可选的实施方式,步骤S210可以包括子步骤S211及子步骤S212。
子步骤S211,基于所述第一指定任务的内容,确定所述第一指定任务的目标类别;
子步骤S212,基于存储的类别与分词器的对应关系,确定与所述目标类别对应的分词器为所述目标分词器。
在本实施例中,指定任务的内容对应有相应的类别。不同的指定任务的内容可以对应不同的类别。电子设备10可以基于第一指定任务的内容,来确定第一指定任务的类别。其中,指定任务的内容与类别的对应关系可以根据实际情况进行设置。
例如,若指定任务为根据文本数据中的语句预测下一句语句,其类别为第一类别,对应的分词器为第一分词器。若指定任务为对第二文本数据进行分类,其类别为第二类别,对应的分词器为第二分词器。在对第一文本数据进行处理过程中,当电子设备10确定第一文本数据的第一指定任务为根据文本数据中的语句预测下一句语句时,电子设备10便可以确定第一指定任务的类别为第一类别,对应的分词器为第一分词器。该第一类别即为第一指定任务的内容对应的目标类别,该第一分词器便为与第一指定任务对应的目标分词器。在确定了与第一文本数据对应的分词器后,电子设备10便将第一文本数据输入第一分词器中,以使第一分词器进行相应的分词处理。
可理解地,不同的分词器对文本数据进行分词处理的分词策略存在差异。
例如,第一文本数据为“今天中午我吃了米饭”,若划分用“/”符号分割字词,假设第一分词器的分词策略为对每个字进行划分,也就是将字作为划分的最小单元,则得到的处理后结果可以为“今\天\中\午\我\吃\了\米\饭”。假设第二分词器的分词策略为对每个词及孤立的字进行划分,也就是将词语或孤立的字作为划分的最小单元,则得到的处理后的结果可以为“今天/中午/我/吃/了/米饭”。其中,在词语的分词处理的过程中,电子设备10可以基于存储的词典(或词库)来对语句中的文字进行判断,以确定语句中的词,然后将确定的词标记为最小划分单元,并将语句中除去词的剩余的字逐个进行划分。其中,词典中包括大量的词语,具体的词语可以根据实际情况进行设置,为本领域技术人员所熟知,这里不再赘述。
当然,分词策略还可以为其他策略,可以根据实际情况进行设置。例如分词策略为将一个短句作为划分的最小单元,则得到的处理后的结果为“今天中午我吃了米饭”,这里对分词策略不再赘述。
在本实施例中,电子设备10存储的第一语言模型可以为由电子设备10训练语言模型得到,或者,由电子设备10从其他设备(如服务器)获取到的经过训练的语言模型。
其中,所述语言模型包括但不限于:基于循环神经网络的语言模型、基于卷积神经网络的语言模型、Transfomer模型、Bert模型中的至少一种。
可理解地,基于循环神经网络的语言模型、基于卷积神经网络的语言模型、Transfomer模型、Bert模型等语言模型的功能作用为本领域技术人员所熟知,这里不再赘述。
作为一种可选的实施方式,在步骤S210之前,方法还可以包括对语音模型进行训练的步骤。例如,方法还可以包括:获取训练数据集,所述训练数据集包括多个文本数据及与每个文本数据对应的第二指定任务;通过所述多个文本数据及与每个文本数据对应的第二指定任务,训练语言模型,得到所述第一语言模型。
可理解地,在训练过程中,电子设备10可以获取到用于训练语言模型的数据集。例如,电子设备10可以通过网络爬虫的方式获取到多个文本数据,然后为多个文本数据设置相应的指定任务。或者,开发人员可以将预先获取到的多个文本数据输入电子设备10,以使电子设备10获取到用于语音模型的文本数据。其中,数据集中的每个文本数据的内容及与每个文本数据对应的第二指定任务均可以根据实际情况进行设置。
在利用文本数据、指定任务训练语音模型的过程之前,可以对文本数据进行预处理。例如,将文本数据中的语句进行分词处理,滤除文本数据中的干扰字符,以降低文本数据中干扰字符对模型训练的影响。
其中,滤除文本数据中的干扰字符的方式可以为:基于存储的干扰字符表中的字符,将文本数据中的字符为干扰字符表中的字符进行滤除。其中,干扰字符表中的字符包括但不限于上述指定的字、词、特殊字符等,可以根据实际情况进行设置。例如,干扰字符表中存在字符“#”,若文本数据的字符中也存在字符“#”,那么在对文本数据进行分词处理的过程中,便会滤除文本数据中的字符“#”。
在利用文本数据、指定任务训练语音模型的过程,便会建立文本数据中的字词与任务的对应关系。在后续识别第二文本数据的过程中,训练后的语言模型便可以基于存储的对应关系,来对第二文本数据进行分析处理。
步骤S220,通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,所述第二文本数据包括与所述第一指定任务对应的标签。
在本实施例中,分词器可以对文本数据进行相应的预处理或分词处理,以便于利用处理后的文本数据进行后续的分析处理。不同的分词器所对应的分词策略可以不同。另外,进行预处理后得到的文本数据具有相应的标签,该标签可以用于作为第二语言模型在分析处理第二文本数据过程中,调整输出结果或任务的依据。该标签可以为文字或字符,或数字,可以根据实际情况进行设置。例如,该标签可以是用于表示文本数据内容的类型的数字。文本数据内容的类型可以根据实际情况进行设置。例如,第一标签表示文本数据内容的类型为新闻,第二标签表示文本数据内容的类型为诗歌等。
作为一种可选的实施方式,步骤S220可以包括:根据所述目标分词器的分词策略,对所述第一文本数据进行分词处理,以得到所述第二文本数据,其中,所述分词策略对应的分词处理包括下述方式中的至少一种:
滤除所述文本数据中的指定字符;
将所述文本数据中的语句划分为字或词;
基于预设编码规则对所述文本数据中的字或词编码。
在本实施例中,指定字符可以根据实际情况进行设置。例如,若文本数据的文字类型为中文,指定字符包括但不限于“的”、“然而”、“#”等不是文本数据中的关键信息的字词。
在对文本数据中的语句进行分词处理的过程中,其分词策略可以根据实际情况进行设置。例如,分词策略可以为将每个短句作为划分的最小单元,或者基于词典将词语或孤立的字作为划分最小单元,或者将每个字作为划分的最小单元。其划分得到的结果可以参照上述举例中的对“今天中午我吃了米饭”的划分,这里不再赘述。
在本实施例中,预设编码规则可以根据实际情况进行设置。例如,可以将字、词随机编码成相应的数字。不同的字、词所编码得到的数字不相同,相同的字词编码后的数字相同,从而得到文本数据的字词编码表。可理解地,字词编码表中包括字与字编码后的数字,词与词编码后的数字,以及编码前后字与字对应的数字的映射关系、词与词对应的数字的映射关系。通过对文本数据中的字或词进行编码,可以方便电子设备10将文本数据中的内容转换为电子设备10“可理解”的内容,以便于后续的分析处理。
当然,预设编码规则可以为基于预设字词编码表,将文本数据中的字词编码为预设字词编码表中的数字。其中,预设字词编码表中可以包括字与字编码后的数字,词与词编码后的数字,以及编码前后字与字对应的数字的映射关系、词与词对应的数字的映射关系。其中,不同的字、词对应的编码数字不相同。基于该预设字词编码表,便可以将文本数据中的内容转换为相应的字词编码表,实现文本数据的词嵌入。
可理解地,词嵌入指将一个维数为所有词的数量的高维空间嵌入到一个维数较低的连续向量空间中,每个单词或词组被映射为实数域上的向量,在底层输入中,使用词嵌入来表示词组的方式可以提升自然语言处理(Natural Language Processing,NLP)中语言模型分析文本语法、文本情感的效果。
步骤S230,根据去除所述标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,所述第一语言模型为经过训练的语言模型。
在本实施例中,在利用第二文本数据训练第一语言模型的过程中,需要去除第二文本数据中的标签,以避免标签影响训练后的语言模型。利用去除标签后的第二文本数据对第一语言模型进行训练,可以使得训练后得到的第二语言模型更契合或贴切当前需要进行分析处理的文本数据(第一文本数据或第二文本数据)。在利用第二语言模型对第二文本数据进行分析处理的过程中,便能提高输出结果的准确性及可靠性。
作为一种可选的实施方式,电子设备10可以存储多类经过训练语言模型。例如,存储的语言模型可以包括基于卷积神经网络的语言模型、Transfomer模型、Bert模型等。
在利用第二文本数据训练第一语音模型之前,方法还可以包括从多个语言模型中选择与第一指定任务对应的语言模型以作为第一语言模型。其中,语言模型与指定任务的类别之间可以预先建立有对应关系。电子设备10自动选择第一语言模型的方式与利用分词器和指定任务的类别的对应关系选择目标分词器相类似,这里不再赘述。
步骤S240,基于所述第一指定任务将未去除所述标签的所述第二文本数据输入所述第二语言模型,得到与所述第一指定任务对应的处理结果。
在本实施例中,电子设备10可以利用第二语言模型对未取滤除标签的第二文本数据进行分析处理,第二文本数据基于前期的训练,便能基于标签调节相应的处理流程并自动输出相应的处理结果。
在本实施例中,第一指定任务可以根据实际情况进行设置,第二语言模型对第二文本数据进行分析处理后,得到的处理结果与第一指定任务相对应。例如当第一指定任务的内容包括用于根据第二文本数据预测下一句语句时,处理结果包括与第二文本数据中的语句对应的下一句语句。当第一指定任务的内容包括用于对第二文本数据进行分类时,处理结果包括表征第二文本数据的分类结果。当第一指定任务的内容包括判断第二文本数据中的语句是否异常时,处理结果包括表征第二文本数据语句是否异常的结果。
可理解地,第二文本数据的分类结果与第二文本数据的内容相对应。其类别包括但不限于新闻、诗歌、小说、论文等类型。
另外,电子设备10判断第二文本中的语句是否异常的原理可以根据实际情况进行设置。例如,对于一个语句,基于语句的语法初步判断语句是否正常,若语法错误,则认为语句异常。另外,在语法正常时,判断字词间的逻辑关系是否正常,其逻辑关系可以基于训练数据集得到。
例如,若语句为“今天中午我吃了米饭”,第二语言模型便可以识别出语法及逻辑均正确,为正常的语句。若语句为“今天中午我喝了米饭”,第二语言模型便可以识别出该语句中的语法正确,但逻辑存在异常,即为异常的语句。
在本实施例中,电子设备10可以将第二语言模型输出的处理结果可以以相应的格式进行保存,以便于后续从电子设备10读取该处理结果。其格式包括但不限于TXT格式、JSON格式等。
基于上述设计,在文本数据的处理过程中,电子设备10可以将文本数据的输入、分词处理、词嵌入、语言模型的网络结构及指定任务统一规范化及流程化,并提供相应的语言模型的选择功能,有助于对不同的指定任务进行相应的分析处理。电子设备10可以自动根据指定任务选择相应的分词器、语言模型等,从而无需开发人员针对不同的任务、语言模型单独开发相应的代码,简化文本分析处理的操作流程,提高处理效率。在本实施例中,开发人员所开发的程序代码可以适用于多个指定任务及多个语言模型,使得程序代码可以复用,从而有利于简化研发操作流程,降低开发、运维成本。
请参照图4,本申请实施例还提供一种文本处理装置100,可以应用于上述的电子设备10中,用于执行或实现文本处理方法中的各步骤。其中,文本处理装置100可以包括输入单元110、预处理单元120、训练单元130及模型处理单元140。
输入单元110,用于将获得的第一文本数据输入与第一指定任务对应的目标分词器。
预处理单元120,用于通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,所述第二文本数据包括与所述第一指定任务对应的标签。
训练单元130,用于根据去除所述标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,所述第一语言模型为经过训练的语言模型。
模型处理单元140,用于基于所述第一指定任务将未去除所述标签的所述第二文本数据输入所述第二语言模型,得到与所述第一指定任务对应的处理结果。
可选地,输入单元110还用于:基于所述第一指定任务的内容,确定所述第一指定任务的目标类别;基于存储的类别与分词器的对应关系,确定与所述目标类别对应的分词器为所述目标分词器。
可选地,预处理单元120还可以用于:根据所述目标分词器的分词策略,对所述第一文本数据进行分词处理,以得到所述第二文本数据,其中,所述分词策略对应的分词处理包括下述方式中的至少一种:滤除所述文本数据中的指定字符;将所述文本数据中的语句划分为字或词;基于预设编码规则对所述文本数据中的字或词编码。
可选地,文本处理装置100还可以包括数据获取单元。在输入单元110将获得的第一文本数据输入与指定任务对应的目标分词器之前,数据获取单元用于:获取训练数据集,所述训练数据集包括多个文本数据及与每个文本数据对应的第二指定任务;训练单元130还可以用于:通过所述多个文本数据及与每个文本数据对应的第二指定任务,训练语言模型,得到所述第一语言模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备10、文本处理装置100的具体工作过程,可以参考前述方法中的各步骤对应过程,在此不再过多赘述。
本申请实施例还提供一种计算机可读存储介质。可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如上述实施例中所述的文本处理方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
综上所述,本申请提供一种文本处理方法、装置、电子设备及可读存储介质。方法包括:将获得的第一文本数据输入与第一指定任务对应的目标分词器;通过目标分词器对第一文本数据进行预处理,得到第二文本数据,第二文本数据包括与第一指定任务对应的标签;根据去除标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,第一语言模型为经过训练的语言模型;基于第一指定任务将未去除标签的第二文本数据输入第二语言模型,得到与第一指定任务对应的处理结果。在本方案中,通过自动选择目标分词器,以及对利用需要进行分析处理的文本数据训练语言模型,使得训练后的语言模型更贴切指定任务,简化文本数据分析处理的操作步骤,从而提高分析处理的效率。然后利用训练后的语言模型对文本数据进行分析处理,有利于提高对文本数据分析处理的准确性及可靠性。
在本申请所提供的实施例中,应该理解到,所揭露的装置、系统和方法,也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本处理方法,其特征在于,所述方法包括:
将获得的第一文本数据输入与第一指定任务对应的目标分词器;
通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,所述第二文本数据包括与所述第一指定任务对应的标签;
根据去除所述标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,所述第一语言模型为经过训练的语言模型;
基于所述第一指定任务将未去除所述标签的所述第二文本数据输入所述第二语言模型,得到与所述第一指定任务对应的处理结果。
2.根据权利要求1所述的方法,其特征在于,将获得的第一文本数据输入与第一指定任务对应的目标分词器,包括:
基于所述第一指定任务的内容,确定所述第一指定任务的目标类别;
基于存储的类别与分词器的对应关系,确定与所述目标类别对应的分词器为所述目标分词器。
3.根据权利要求1所述的方法,其特征在于,通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,包括:
根据所述目标分词器的分词策略,对所述第一文本数据进行分词处理,以得到所述第二文本数据,其中,所述分词策略对应的分词处理包括下述方式中的至少一种:
滤除所述文本数据中的指定字符;
将所述文本数据中的语句划分为字或词;
基于预设编码规则对所述文本数据中的字或词编码。
4.根据权利要求1所述的方法,其特征在于,在将获得的第一文本数据输入与指定任务对应的目标分词器之前,所述方法还包括:
获取训练数据集,所述训练数据集包括多个文本数据及与每个文本数据对应的第二指定任务;
通过所述多个文本数据及与每个文本数据对应的第二指定任务,训练语言模型,得到所述第一语言模型。
5.根据权利要求1所述的方法,其特征在于,当所述第一指定任务的内容包括用于根据所述第二文本数据预测下一句语句时,所述处理结果包括与所述第二文本数据中的语句对应的下一句语句;
当所述第一指定任务的内容包括用于对所述第二文本数据进行分类时,所述处理结果包括表征所述第二文本数据的分类结果;
当所述第一指定任务的内容包括判断所述第二文本数据中的语句是否异常时,所述处理结果包括表征所述第二文本数据语句是否异常的结果。
6.根据权利要求1所述的方法,其特征在于,所述语言模型包括基于循环神经网络的语言模型、基于卷积神经网络的语言模型、Transfomer模型、Bert模型中的至少一种。
7.一种文本处理装置,其特征在于,所述装置包括:
输入单元,用于将获得的第一文本数据输入与第一指定任务对应的目标分词器;
预处理单元,用于通过所述目标分词器对所述第一文本数据进行预处理,得到第二文本数据,所述第二文本数据包括与所述第一指定任务对应的标签;
训练单元,用于根据去除所述标签后的得到第二文本数据对第一语言模型进行训练,得到训练后的第二语言模型,所述第一语言模型为经过训练的语言模型;
模型处理单元,用于基于所述第一指定任务将未去除所述标签的所述第二文本数据输入所述第二语言模型,得到与所述第一指定任务对应的处理结果。
8.根据权利要求7所述的装置,其特征在于,所述输入单元还用于:
基于所述第一指定任务的内容,确定所述第一指定任务的目标类别;
基于存储的类别与分词器的对应关系,确定与所述目标类别对应的分词器为所述目标分词器。
9.一种电子设备,其特征在于,所述电子设备包括相互耦合的存储器、处理器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行如权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-6中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911237688.4A CN111008528A (zh) | 2019-12-05 | 2019-12-05 | 文本处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911237688.4A CN111008528A (zh) | 2019-12-05 | 2019-12-05 | 文本处理方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111008528A true CN111008528A (zh) | 2020-04-14 |
Family
ID=70114783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911237688.4A Pending CN111008528A (zh) | 2019-12-05 | 2019-12-05 | 文本处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111008528A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364131A (zh) * | 2020-11-10 | 2021-02-12 | 中国平安人寿保险股份有限公司 | 一种语料处理方法及其相关装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110161073A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of disambiguating and selecting dictionary definitions for one or more target words |
CN105243055A (zh) * | 2015-09-28 | 2016-01-13 | 北京橙鑫数据科技有限公司 | 基于多语言的分词方法和装置 |
US20170286397A1 (en) * | 2016-03-30 | 2017-10-05 | International Business Machines Corporation | Predictive Embeddings |
CN109271493A (zh) * | 2018-11-26 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种语言文本处理方法、装置和存储介质 |
CN109635116A (zh) * | 2018-12-17 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本词向量模型的训练方法、电子设备及计算机存储介质 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN110263158A (zh) * | 2019-05-24 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种数据的处理方法、装置及设备 |
CN110347799A (zh) * | 2019-07-12 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 语言模型训练方法、装置和计算机设备 |
CN110347830A (zh) * | 2019-06-28 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 舆情预警的实现方法和装置 |
-
2019
- 2019-12-05 CN CN201911237688.4A patent/CN111008528A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110161073A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of disambiguating and selecting dictionary definitions for one or more target words |
CN105243055A (zh) * | 2015-09-28 | 2016-01-13 | 北京橙鑫数据科技有限公司 | 基于多语言的分词方法和装置 |
US20170286397A1 (en) * | 2016-03-30 | 2017-10-05 | International Business Machines Corporation | Predictive Embeddings |
CN109271493A (zh) * | 2018-11-26 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种语言文本处理方法、装置和存储介质 |
CN109635116A (zh) * | 2018-12-17 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 文本词向量模型的训练方法、电子设备及计算机存储介质 |
CN109800435A (zh) * | 2019-01-29 | 2019-05-24 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
CN110263158A (zh) * | 2019-05-24 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种数据的处理方法、装置及设备 |
CN110347830A (zh) * | 2019-06-28 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 舆情预警的实现方法和装置 |
CN110347799A (zh) * | 2019-07-12 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 语言模型训练方法、装置和计算机设备 |
Non-Patent Citations (1)
Title |
---|
陶林润德;: "机器学习方法在文本分类中的应用", 中国战略新兴产业, no. 40 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364131A (zh) * | 2020-11-10 | 2021-02-12 | 中国平安人寿保险股份有限公司 | 一种语料处理方法及其相关装置 |
CN112364131B (zh) * | 2020-11-10 | 2024-05-17 | 中国平安人寿保险股份有限公司 | 一种语料处理方法及其相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111226222B (zh) | 使用人工神经网络的基于深度上下文的语法错误校正 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN108875059B (zh) | 用于生成文档标签的方法、装置、电子设备和存储介质 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN115035538A (zh) | 文本识别模型的训练方法、文本识别方法及装置 | |
CN116629275B (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN105426356A (zh) | 一种目标信息识别方法和装置 | |
CN111832382A (zh) | 基于视觉和文本内容的光学字符识别错误校正 | |
CN113312899B (zh) | 文本分类方法、装置和电子设备 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN112989043B (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
CN117033633A (zh) | 一种文本分类方法、系统、介质及设备 | |
CN111475651A (zh) | 文本分类方法、计算设备及计算机存储介质 | |
CN111008528A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
KR101295642B1 (ko) | 음성인식결과 문장에 대한 문형분류장치 및 방법 | |
CN112926341A (zh) | 文本数据处理方法、装置 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN117033796A (zh) | 基于用户表达偏好的智能回复方法、装置、设备及介质 | |
CN113836297B (zh) | 文本情感分析模型的训练方法及装置 | |
CN115718889A (zh) | 针对公司简介的行业分类方法及装置 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN111475811B (zh) | 一种Android应用程序动态生成控件中用户输入隐私检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230905 Address after: Room 311501, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing Applicant after: BEIJING KNOWNSEC INFORMATION TECHNOLOGY Co.,Ltd. Address before: Room 311506, Unit 1, Building 5, Courtyard 1, Futong East Street, Chaoyang District, Beijing, 100000 Applicant before: Beijing know smart Information Technology Co.,Ltd. |