CN111859947A - 一种文本处理装置、方法、电子设备及存储介质 - Google Patents
一种文本处理装置、方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111859947A CN111859947A CN201910335408.7A CN201910335408A CN111859947A CN 111859947 A CN111859947 A CN 111859947A CN 201910335408 A CN201910335408 A CN 201910335408A CN 111859947 A CN111859947 A CN 111859947A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- training
- vector
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims description 67
- 239000013598 vector Substances 0.000 claims abstract description 474
- 238000012549 training Methods 0.000 claims description 250
- 239000011159 matrix material Substances 0.000 claims description 144
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 abstract description 14
- 238000012360 testing method Methods 0.000 description 32
- 230000006870 function Effects 0.000 description 22
- 230000014509 gene expression Effects 0.000 description 16
- 241000282461 Canis lupus Species 0.000 description 11
- 241000282693 Cercopithecidae Species 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008485 antagonism Effects 0.000 description 6
- 210000004209 hair Anatomy 0.000 description 6
- 230000003042 antagnostic effect Effects 0.000 description 5
- 241000282575 Gorilla Species 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 241000282405 Pongo abelii Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010835 comparative analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002268 wool Anatomy 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种文本处理装置、方法、电子设备及存储介质,其中,该文本处理装置包括:文本获取模块,用于获取待识别文本;第一确定模块,用于确定所述待识别文本分别在不同属性标签下的文本特征向量,其中,所述文本特征向量由不同元素位置上的特征值构成,不同文本特征向量的元素个数不同,且不同文本特征向量的特征值序列不同;第二确定模块,用于基于所述文本特征向量,确定所述待识别文本对应的属性标签。本申请通过确定所述待识别文本在不同属性标签下的文本特征向量,来确定待识别文本的属性标签,提高了确定的文本属性标签的准确度。
Description
技术领域
本申请涉及互联网技术领域,具体而言,涉及一种文本处理装置、方法、电子设备及存储介质。
背景技术
文本作为一种信息的载体,容纳了海量的各种类型的信息,文本分类作为处理和组织大量文本数据的关键技术,可以较大程度上解决信息杂乱的问题,方便用户准确定位信息,提高信息检索的效率。
在进行文本分类时,如果依靠人力进行人本识别和分类,将会消耗大量人力成本,因此,越多越多的自然语言处理研究和实践人员开始高度关注基于机器学习和深度学习的文本处理方法,在训练机器学习模型时一般通过对样本库中的文本进行处理,提取文本的特征以及该文本对应的类别,分别输入机器学习模型中进行训练,使得训练好的模型能够对输入的待识别文本的类别进行识别,但是有些类别相关性较大,在通过训练好的模型对这类文本进行识别时,容易造成文本识别不准确的问题。
发明内容
有鉴于此,本申请的目的在于提供一种文本处理装置、方法、电子设备及存储介质,提高文本分类的准确度。
第一方面,本申请实施例提供了一种文本处理装置,包括:
文本获取模块,用于获取待识别文本;
第一确定模块,用于确定所述待识别文本分别在不同属性标签下的文本特征向量,其中,所述文本特征向量由不同元素位置上的特征值构成,不同文本特征向量的元素个数相同,且不同文本特征向量的特征值序列不同;
第二确定模块,用于基于所述文本特征向量,确定所述待识别文本对应的属性标签。
在一些实施方式中,所述第一确定模块,具体用于:
将所述待识别文本分别输入预先训练的文本识别模型中的与每种属性标签对应的编码器中进行分词编码处理,得到与每种属性标签对应的词特征矩阵;
将得到的与每种属性标签对应的词特征矩阵分别输入与该种属性标签对应的注意力模型中,得到所述待识别文本分别在每种属性标签下的文本特征向量。
在一些实施方式中,所述第一确定模块,具体用于:
将所述待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
在多个所述词向量中,确定所述待识别文本中的与每种属性标签相关的专属词向量以及与每种属性标签不相关的非专属词向量;
基于所述专属词向量以及非专属词向量对多个所述词向量进行编码处理,得到所述待识别文本与每种属性标签对应的词特征矩阵,所述词特征矩阵中包括与多个所述词向量分别对应的词特征向量。
在一些实施方式中,所述第一确定模块,具体用于:
将所述待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
在多个所述词向量中,确定所述待识别文本中的与每种属性标签相关的专属词向量、与多个属性标签相关的共享词向量、以及与每种属性标签不相关的非专属词向量;
基于所述专属词向量、所述共享词向量和所述非专属词向量对多个所述词向量进行编码处理,得到所述待识别文本与每种属性标签对应的词特征矩阵,所述词特征矩阵中包括与多个所述词向量分别对应的词特征向量。
在一些实施方式中,所述第一确定模块,具体用于:
将所述词特征矩阵输入对应的注意力模型中,依次确定所述词特征矩阵中每个词特征向量与该注意力模型对应的标准特征向量之间的相似度,得到所述词特征矩阵中每个词特征向量对应的权重;
基于所述词特征矩阵以及所述词特征矩阵中每个词特征向量对应的权重,生成所述待识别文本分别在每种属性标签下的文本特征向量。
在一些实施方式中,所述第二确定模块,具体用于:
将每个所述文本特征向量输入文本识别模型中的多分类器中,得到所述待识别文本属于每种属性标签的概率值;
基于所述待识别文本属于每种属性标签的概率值,确定所述待识别文本对应的属性标签。
在一些实施方式中,所述文本处理装置还包括模型训练模块;
所述第一确定模块,具体用于基于所述待识别文本和训练的文本识别模型,确定所述待识别文本在不同属性标签下的文本特征向量;
所述模型训练模块,具体用于按照以下方式训练所述文本识别模型:
构建文本识别模型的多个编码器、与每个编码器分别对应的注意力模型和二分类判别器,以及多分类器;
获取预先构建的训练样本库,所述训练样本库包括多个训练文本以及每个训练文本对应的属性标签;
依次将每个训练样本输入各个编码器中进行编码;将编码后得到的训练词特征矩阵输入与该编码器对应的注意力模型和所述二分类判别器中,得到第一训练专属文本向量;将各个第一训练专属文本向量作为多分类器的输入变量,将各个第一训练专属文本向量分别对应的属性标签作为所述文本识别模型的输出变量,训练得到所述文本识别模型的模型参数信息。
在一些实施方式中,所述模型训练模块还用于:
构建文本识别模型的生成式对抗网络模型;
所述模型训练模块具体用于:
将编码后的训练词特征矩阵输入所述生成式对抗网络模型得到训练共享文本向量,以及将编码后的训练词特征矩阵输入和该编码器对应的注意力模型得到第二训练专属文本向量;
基于所述训练共享文本向量,确定与多个编码器相关的训练共享词向量,以及基于所述第二训练专属文本向量,确定和所述编码器相关的训练专属词向量和与该编码器不相关的训练非专属词向量;
基于所述训练专属词向量、所述训练共享词向量和所述训练非专属词向量对多个所述词向量进行编码处理。
第二方面,本申请实施例提供了一种文本处理方法,包括:
获取待识别文本;
确定所述待识别文本分别在不同属性标签下的文本特征向量,其中,所述文本特征向量由不同元素位置上的特征值构成,不同文本特征向量的元素个数相同,且不同文本特征向量的特征值序列不同;
基于所述文本特征向量,确定所述待识别文本对应的属性标签。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第二方面所述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第二方面所述方法的步骤。
本申请实施例提供的文本处理装置、方法、电子设备及存储介质,该文本处理装置通过文本获取模块获取待识别文本,然后由第一确定模块确定待识别文本分别在不同属性标签下的文本特征向量,且文本特征向量由不同元素位置上的特征值构成,不同文本特征向量的元素个数相同,且不同文本特征向量的特征值序列不同,然后再由第二确定模块基于文本特征向量,确定待识别文本对应的属性标签。
可见,本申请实施例提供的文本处理装置,通过确定待识别文本与不同属性标签对应的文本特征向量,每个文本特征向量由不同元素位置上的特征值构成,且在不同属性标签下,文本特征向量的特征值序列不同,通过调节待识别文本在不同属性标签下的文本特征向量中的特征值,获得待识别文本对应的多个文本特征向量,比如针对属性标签1和属性标签2,本申请可以分别确定待识别文本对应于属性标签1和属性标签2的文本特征向量,并使得对应于属性标签1的文本特征向量和对应于属性标签2的文本特征向量中的特征值序列不同,然后基于待识别文本在属性标签1下的文本特征向量和在属性标签2下的文本特征向量,共同确定待识别文本对应的属性标签,相比分别针对每种属性标签来确定待识别文本是否匹配该属性标签的方式,本申请由于同时考虑了当前待识别文本在不同属性标签下的文本特征向量来进行属性标签的识别,可以在识别过程中进行对比分析,从而确定出的属性标签更准确。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种文本处理方法的流程图;
图2示出了本申请实施例提供的一种确定文本特征向量的方法流程图;
图3示出了本申请实施例提供的第一种得到与每种属性标签对应的词特征矩阵的方法流程图;
图4示出了本申请实施例提供的第二种得到与每种属性标签对应的词特征矩阵的方法流程图;
图5示出了本申请实施例提供的一种通过每种属性标签对应的词特征矩阵确定文本特征向量的方法流程图;
图6示出了本申请实施例提供的一种确定属性标签的方法流程图;
图7示出了本申请实施例提供的一种文本识别模型的训练方法流程图;
图8示出了本申请实施例提供的第一种文本识别模型的模型架构图;
图9示出了本申请实施例提供的第二种文本识别模型的模型架构图;
图10示出了本申请实施例提供的第二种文本识别模型训练过程中的专属词向量和共享词向量的可视化图;
图11示出了本申请实施例提供的一种文本处理装置结构示意图;
图12示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“文本处理”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕文本进行描述,但是应该理解,这仅是一个示例性实施例。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
参照图1所示,为本申请实施例提供的一种文本处理方法的流程示意图,具体执行过程包括以下方法步骤S101~S103:
S101,获取待识别文本。
这里的待识别文本是需要进行分类的文本,可以确定该待识别文本的属性标签属于预设属性标签库中的一种,本申请是对待识别文本的具体属性标签进行确定。
S102,确定待识别文本分别在不同属性标签下的文本特征向量,其中,文本特征向量由不同元素位置上的特征值构成,不同文本特征向量的元素个数相同,且不同文本特征向量的特征值序列不同。
这里的属性标签库可以包括某个领域中各种文本对应的类别,比如在描写某个动物园的哺乳动物类的文本中,属性标签库可以包括“狼”、“狗”、“猴子”、“猩猩”等,这些属性标签有些是具有相关性的,比如“狼”和“狗”,“猴子”和“猩猩”,这些具有相关性的属性标签对应的动物具有很多相似性特征,在得到待识别文本后,为了能够对该待识别文本进行有效识别,准确地确定出该待识别文本对应的属性标签,本申请通过确定出待识别文本在不同属性标签下的文本特征向量,比如若待识别文本属于“狼”、“狗”、“猴子”、“猩猩”中的一种,在接收到该待识别文本后,需要确定出待识别文本分别在“狼”、“狗”、“猴子”、“猩猩”下对应的文本特征向量,即4个文本特征向量。
因为这4个文本特征向量的元素个数相同,这里的元素个数也可以是向量维度,即这4个文本特征向量的维度相同,但是在不同属性标签下的文本特征向量的特征值序列不同,即上述有4种属性标签,就有4个不同的文本特征向量,这样,因为同时考虑了当前待识别文本在这四种属性标签下的文本特征向量来进行属性标签的识别,可以在识别过程中进行对比分析,从而确定出的属性标签更准确。
具体地,如图2所示,为本申请实施例提供的确定待识别文本分别在不同属性标签下的文本特征向量的一种方式,具体包括以下步骤S201~S202:
S201,将待识别文本分别输入预先训练的文本识别模型中的与每种属性标签对应的编码器中进行分词编码处理,得到与每种属性标签对应的词特征矩阵。
比如预设属性标签库可以包括上述提到的4中属性标签,即“狼”、“狗”、“猴子”和“猩猩”,则这里的文本识别模型中会包括4中编码器,每种编码器对应一种属性标签,比如包括编码器1、编码器2、编码器3和编码器4,其分别对应“狼”、“狗”、“猴子”和“猩猩”这四种属性标签。
即文本识别模型接收到待识别文本后,会通过编码器1、编码器2、编码器3和编码器4分别对该待识别文本进行编码,分别得到与四种属性标签“狼”、“狗”、“猴子”和“猩猩”对应的词特征矩阵。
本申请实施例中的文本识别模型可以包括多种,针对不同的文本识别模型,编码器进行分词编码处理的方式可能不同,下面以两种文本识别模型为例,具体的模型训练过程将在本文后续进行说明,这里先介绍训练完成的第一种文本识别模型中的编码器具体的分词编码处理过程:
如图3所示,是其中一种文本识别模型中的编码器对待识别文本进行分词编码处理,得到与每种属性标签对应的词特征矩阵的过程,具体包括以下步骤S301~S303:
S301,将待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
S302,在多个词向量中,确定待识别文本中的与每种属性标签相关的专属词向量以及与每种属性标签不相关的非专属词向量;
S303,基于专属词向量以及非专属词向量对多个词向量进行编码处理,得到待识别文本与每种属性标签对应的词特征矩阵,词特征矩阵中包括与多个词向量分别对应的词特征向量。
为了减少文本识别模型的处理量,这里的待识别文本可以指经过初步处理后的待识别文本,比如可以是去除了标点符号(比如逗号、句号、问好、括号等)和一些明显的常用词(比如虚词、连词等)后的待识别文本。
将处理后的待识别文本进行分词处理,比如可以通过分词字典先对待识别文本进行分词,然后将每个词通过编码器将分好的词转换为机器可识别的词向量,比如,这里编码器可以通过word2vec模型将每个词转换为具有目标维度的词向量,比如,待识别文本分词处理后包括M个词,如果目标维度为N,则待识别文本可以先转换为M个N维的词向量,即N行M列的矩阵,比如将待识别文本输入至第k个编码器中,通过ek来表示第k个编码器通过对待识别文本进行分词处理,并将M个词分别转换为词向量B1~BM后的矩阵,针对第m个词,其对应的词向量可以为Bm=(b1m b2m ... b(N-1)m bNm)T,其中m∈(0,M),通过各个词向量得到以下矩阵(1):
针对同一个待识别文本,不同的编码器进行分词处理后,得到的各个词向量相同,因而得到的由词向量组成的矩阵也就相同,然后再通过步骤S302和步骤S303,每个编码器得到与该编码器对应属性标签的词特征向量,因为训练后的文本识别模型中的每个编码器均能够确定出词向量中哪些是与该编码器对应的属性标签相关的专属词向量和与该属性标签不相关的非专属词向量,比如,针对第k个编码器,若其对应的属性标签为狗,该编码器通过确定出的待识别文本中的与“狗”相关的专属词向量以及与“狗”不相关的非专属词向量,来对该编码器生成的矩阵进行编码,得到词特征矩阵Ek,该词特征矩阵Ek包括与每个B1~BM对应的词特征向量B1'~BM',针对第m个词向量,其对应的词特征向量可以为Bm'=(em(b1m,θk1m) em(b2m,θk2m) ... em(b(N-1)m,θk(N-1)m) em(bNmθkNm))T,其中m∈(0,M),em是对第m个词向量的编码函数,比如编码后的词特征矩阵Ek为可以通过以下矩阵(2)表示:
其中,em(b1m,θk1m)~em(bNm,θkNm)表示的是对第m个词向量中的每个维度上的元素进行的编码处理后得到的词特征向量,这样就得到第k个编码器对待识别文本进行分词编码处理后,得到的词特征矩阵。
这里以一个具体例子为例进行说明,以第1个编码器为例,比如待识别文本为“我见过一只长毛狗”,经过第1个编码器分词处理,可以得到“我;见过;一只;长毛;狗”则可以将该文本转换为5个词向量,若n等于4,即得到4行5列的矩阵。
比如“我”对应的词向量为B1=(2 1 3 4)T;“见过”对应的词向量为(4 1 1 2)T;“一只”对应的词向量为(0 2 3 3)T;“长毛”对应的词向量为(1 3 5 6)T;“狗”对应的词向量为(0 2 6 5)T,则上述矩阵(1)具体可以表达成如下矩阵(3):
其中,针对该矩阵(3)中的每个词向量,确定待识别文本中的每种属性标签相关的专属词向量以及每种属性标签不相关的非专属词向量,即训练完成的文本识别模型中的每个编码器均能够确定出词向量中哪些是与该编码器对应的属性标签相关的专属词向量,针对属性标签是“狗”的第1个编码器,假如“狗”对应的词向量(0 2 6 5)T以及“长毛”对应的词向量(1 3 5 6)T与该属性标签“狗”相关,则“狗”对应的词向量和“长毛”对应的词向量即为这里的专属词向量,而假如“我”对应的词向量为(2 1 3 4)T、“见过”对应的词向量为(41 1 2)T和“一只”对应的词向量为(0 2 3 3)T与属性标签“狗”的没有相关性,即为非专属词向量。
这样,第1个编码器根据专属词向量以及非专属词向量对矩阵(3)中的多个词向量进行编码处理,即可以得到待识别文本与属性标签“狗”对应的词特征矩阵,比如,对第1个词“我”至第5个词“狗”进行的编码处理时:假如,em(b1m,θk1m)~em(bNm,θkNm)的编码处理过程表示的是b1m·θk1m~bNm·θkNm,如果θ111~θ141为(0.2 0.1 0.3 0.4)T;θ112~θ142为(0.4 0.10.1 0.2)T;θ113~θ143为(0 0.2 0.3 0.3)T;θ114~θ144为(0.1 0.3 0.5 0.6)T;θ115~θ145为(00.2 0.6 0.5)T,则对上述矩阵(3)进行编码后,得到以下词特征矩阵Ek(4):
按照上述方式,同时也得到该待识别文本与其他属性标签对应的词特征矩阵,每个词特征矩阵中均包括多个词向量分别对应的词特征矩阵。这里编码的目的可以是增大专属词向量和非专属词向量的差异性,使得编码后的词特征矩阵在参与后期基于该词特征矩阵生成的文本特征向量在参与标签识别时,分类效果更好。
如图4所示,是其中第二种文本识别模型中的编码器对待识别文本进行分词编码处理,得到与每种属性标签对应的词特征矩阵的过程,具体包括以下步骤S401~S403:
S401,将待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
S402,在多个词向量中,确定待识别文本中的与每种属性标签相关的专属词向量、与多个属性标签相关的共享词向量、以及与每种属性标签不相关的非专属词向量;
S403,基于专属词向量、共享词向量和非专属词向量对多个词向量进行编码处理,得到待识别文本与每种属性标签对应的词特征矩阵,词特征矩阵中包括与多个词向量分别对应的词特征向量。
这里,第二种文本识别模型中的第k编码器对待识别文本进行分词处理,得到多个词向量的过程与第一种文本识别模型中的编码器的分词处理过程相同,即均可以得到由待识别文本中的词向量组成的矩阵(1),具体过程在此不再赘述。
在得到矩阵(1)后,针对该矩阵中的每个词向量,这里的第k个编码器也能够确定待识别文本中的与该第k个编码器对应的属性标签相关的专属词向量、与多个属性标签相关的共享词向量、以及与该第k个编码器对的属性标签不相关的非专属词向量,即训练完成的文本识别模型中的每个编码器均能够确定出词向量中哪些是与该编码器对应的属性标签相关的专属词向量,共享词向量以及非专属词向量。
然后,第k个编码器可以基于与该编码器对应的属性标签相关的专属词向量,共享词向量以及非专属词向量对矩阵(1)进行编码,得到词特征矩阵Ek',该词特征矩阵Ek'包括与每个B1~BM对应的词特征向量B1”~BM”,针对第m个词,其对应的词特征向量可以为Bm”=(em'(b1m,θk1m') em'(b2m,θk2m') ... em'(b(N-1)m,θk(N-1)m') em'(bNmθkNm'))T,其中m∈(0,M),em'是对第m个词向量的编码函数,得到词特征矩阵(5):
其中,em'(b1m,θk1m')~em'(bNm,θkNm')表示的是对第m个词向量进行的编码处理后得到的词特征向量,这样就得到第k个编码器对待识别文本进行分词编码处理后,得到的词特征矩阵。
这里同样以上述具体例子为例进行说明,针对属性标签是“狗”的第1个编码器,假如“狗”对应的词向量该属性标签“狗”相关,则“狗”对应的词向量即为这里的专属词向量,假如“长毛”对应的词向量为与多个属性标签相关,比如除了和属性标签“狗”相关,还与属性标签“狼”、“猴子”、“猩猩”相关,则“长毛”对应的词向量即为共享词向量,而“我”对应的词向量为与多个属性标签均相关、“见过”对应的词向量为和“一只”对应的词向量为与属性标签“狗”的没有相关性,即为非专属词向量。
这样,第1个编码器根据专属词向量、共享词向量和非专属词向量对矩阵(3)中的多个词向量进行编码处理,即可以得到待识别文本与属性标签“狗”对应的词特征矩阵比如,对第1个词“我”至第5个词“狗”进行的编码处理时:假如,em'(b1m,θk1m')~em'(bNm,θkNm')的编码处理过程表示的是b1m·θk1m'~bNm·θkNm',如果θ111'~θ141'为(0.3 0.2 0.4 0.5)T;θ112'~θ142'为(0.5 0.2 0.2 0.3)T;θ113'~θ143'为(0.1 0.3 0.4 0.4)T;θ114'~θ144'为(0.20.4 0.6 0.7)T;θ115'~θ145'为(0.1 0.3 0.7 0.6)T,则对上述矩阵(3)进行编码后,得到以下词特征矩阵E1'(6):
按照上述方式,同时也得到该待识别文本与其他属性标签对应的词特征矩阵,每个词特征矩阵中均包括多个词向量分别对应的词特征矩阵。这里编码的目的可以增大专属词向量和共享词向量的差异性,以及专属词向量和非专属词向量的差异性,从而使得编码后的词特征矩阵在参与后期基于该词特征矩阵生成的文本特征向量在参与标签识别时,分类效果更好。
S202,将得到的与每种属性标签对应的词特征矩阵分别输入与该种属性标签对应的注意力模型中,得到待识别文本分别在每种属性标签下的文本特征向量。
不论是第一种文本识别模型,还是第二种文本识别模型,在编码器得到与每种属性标签对应的词特征矩阵后,将每种词特征矩阵输入该种属性标签对应的注意力模型中,此时注意力模型会对词特征矩阵进行进一步处理,得到待识别文本在每种属性标签下的文本特征向量,见图5所示,具体过程包括以下步骤S501~S502:
S501,将词特征矩阵输入对应的注意力模型中,依次确定词特征矩阵中每个词特征向量与该注意力模型对应的标准特征向量之间的相似度,得到词特征矩阵中每个词特征向量对应的权重。
本申请实施例中的每个编码器均对应一个注意力模型,编码器和对应的注意力模型均对应一种属性标签,这里的标准特征向量是在识别文本模型中的注意力模型在训练完成后,形成并存储的与该注意力模型对应的属性标签相关的特征向量,通过计算词特征矩阵中每个词特征向量与该标准特征向量之间的相似度,即可确定词特征矩阵中每个词特征向量对应的权重。
这里需要注意的是,针对上述提到的第一种文本识别模型和第二种文本识别模型,因为在训练过程中,编码器输入到对应的注意力模型中的词特征矩阵并不相同,因而与同一种属性标签对应的注意力模型中存储的标准特征向量并不相同,每个注意力模型基于词特征矩阵和标准特征矩阵计算待识别文本在该注意力模型对应的属性标签下的文本特征向量的过程是相同的,基于此,本申请实施例可以以第一种文本识别模型或第二种文本识别模型中任一编码器得到的词特征矩阵为例,阐述该词特征矩阵输入与该任一编码器对应的注意力模型后,如何得到该词特征矩阵中每个词特征向量对应的权重,比如以上述得到的词特征矩阵(2)为例,进行说明:
词特征矩阵(2)若为第一种文本识别模型中的第k个编码器输出的词特征矩阵,该词特征矩阵包括M个词特征向量,即每个词向量对应的词特征向量,如果第k个编码器对应的注意力模型的标准特征向量为ak标准=(a1 a2 ... aN-1 aN)T,则分别计算B1'~BM'与ak标准的相似度,这里可以通过计算余弦值来表示相似度,假如得到的B1'~BM'与ak标准相似度分别是sk1~skM,即得到第k个编码器输出的词特征向量中每个词特征向量的权重,即sk1~skM。
S502,基于词特征矩阵以及词特征矩阵中每个词特征向量对应的权重,生成待识别文本分别在每种属性标签下的文本特征向量。
按照上述例子,得到第k个编码器输出的词特征向量中每个词特征向量的权重后,可以根据每个词特征向量的权重、以及每个词特征向量中各个元素位置上的特征值,得到待识别文本在第k个编码器对应的属性标签下的文本特征向量,具体按照以下方式依次计算该文本特征向量中各个元素位置上的特征值,如下:
假设待识别文本在第k个编码器对应的属性标签下的文本特征向量为:Ak=(A1 A2... AN-1 AN)T,这里该文本特征向量包括N个特征值,这里每个元素位置上的特征值可以通过对各个词特征向量中对应元素上的特征值进行加权求和得到,针对文本特征向量中任意元素位置上的特征值An,其中n∈(0,N),这里特征值An可以通过以下公式(1)进行计算:
其中,n表示矩阵(2)中的第n行,bnm表示第m个词向量中第n个位置元素上的特征值,θknm表示第k个编码器对第n行第m个词特征矩阵进行的编码处理,skm表示第m个词特征向量的权重,比如第k个编码器对应的属性标签下的文本特征向量中的第一个位置元素上的特征值即第一个位置元素上的特征值是将词特征矩阵(1)中所有词特征向量中的第一个位置元素上的特征值分别与每个词特征矩阵的权重的和。
比如,以上文词特征矩阵(4)为例,将词特征矩阵与第1个编码器对应的注意力模型的标准特征向量经过相似度计算,得到sk1~sk5分别为0.1、0.1、0.2、0.2和0.4,“我”、“见过”、“一只”、“长毛”、“狗”这次词对应的词特征向量的权重即分别为0.1、0.1、0.2、0.2和0.4,则与第1个编码器对应的属性标签下的文本特征向量中的第一个元素位置上的值第二个元素位置上的值第三个元素位置上的值第四个元素位置上的值即得到第1个编码器对应的属性标签下的文本特征向量Ak=1=(0.22 0.28 2.22 2.10)T,同理,按照相同的方式,也可以求出其他编码器对应的属性便签下的文本特征向量。
S103,基于文本特征向量,确定待识别文本对应的属性标签。
当待识别文本在不同属性标签下的文本特征向量均确定后,可以根据文本识别模型中的多分类器确定该待识别文本对应的属性标签,如图6所示,具体包括以下步骤S601~S602:
S601,将每个文本特征向量输入文本识别模型中的多分类器中,得到待识别文本属于每种属性标签的概率值;
S602,基于待识别文本属于每种属性标签的概率值,确定待识别文本对应的属性标签。
将待识别文本在不同属性标签下的文本特征向量输入至预先训练的文本识别模型中的多分类器中,多分类器通过预先训练好的概率计算公式,即可以计算出待识别文本属于每种属性标签的概率值,然后选择概率值最大的属性标签作为待识别文本的属性标签,比如通过计算确定待识别文本属于“狗”的属性标签为0.2,属于“狼”的属性标签为0.6,属于“猴子”的属性标签为0.1,属于“猩猩”的属性标签为0.1,则说明待识别文本的属性标签为“狼”,即该待识别文本是一篇描述狼的文本。
本申请实施例中的文本处理方法不仅仅识别文本是描述哪种类别的用途,还可以基于对文本进行分类,用于在责任判定时判断是谁的责任,比如在出行服务行业中,由于种种原因,服务提供方和服务请求方常常发生责任纠纷,比如在智能出行领域,乘客和司机之间的责任划分,也可以通过本申请提出的方式进行确定,这样属性标签即只有两种,一种是乘客责任,另一种即是司机责任,具体过程与上述方式相同,在此不再赘述。
按照上文描述的确定待识别文本在不同属性标签下的文本特征向量是基于待识别文本和训练的文本识别模型,先确定待识别文本在不同属性标签下的文本特征向量,然后再根据文本识别模型中的多分类器,确定出待识别文本的属性标签,下面将对文本识别模型的训练过程进行描述,先对第一种文本识别模型的训练进行说明,如图7所示,按照以下方式训练第一种文本识别模型,具体包括以下步骤S701~S703:
S701,构建文本识别模型的多个编码器、与每个编码器分别对应的注意力模型和二分类判别器,以及多分类器。
S702,获取预先构建的训练样本库,训练样本库包括多个训练文本以及每个训练文本对应的属性标签。
这里的训练样本库可以通过d=(d1,d2,...,dG)表示,属性标签可以通过yk=(y1,y2,...,yK)表示,比如训练样本库中可以包括10000个训练文本,即G=10000,若预先属性标签库中包括10种属性标签,则这里的K=10,为了使得提高训练效果,一般会使得训练样本库中,每种属性标签的训练文本个数接近。
S703,依次将每个训练样本输入各个编码器中进行编码;将编码后得到的训练词特征矩阵输入与该编码器对应的注意力模型和二分类判别器中,得到第一训练专属文本向量;将各个第一训练专属文本向量作为多分类器的输入变量,将各个第一训练专属文本向量分别对应的属性标签作为文本识别模型的输出变量,训练得到文本识别模型的模型参数信息。
这里,第一种文本识别模型中,将每个训练样本输入各个编码器中进行首次编码,然后将首次编码得到的训练词特征矩阵输入与该编码器对应的注意力模型中,得到第一训练专属文本向量,并将该第一训练专属文本向量输入与注意力模型对应的二分类判别器中,确定和编码器相关的训练专属词向量和与该编码器不相关的训练非专属词向量,然后编码器会再基于训练专属词向量和训练非专属词向量对多个所述词向量进行再次编码处理,通过编码器、与每个编码器分别对应的注意力模型和二分类判别器,以及多分类器之间多次训练,最终得到文本识别模型的模型参数信息,从而与编码器对应的注意力模型也就得到上文提到的标准特征向量。
如图8所示,为文本识别模型的模型架构图,针对训练样本库中的每件训练文本,将该件训练文本输至各个编码器中,进行分词编码,得到k个训练词特征矩阵,如以下表达式(2):
ek=Encoderk(d;θek) (2);
这里表达式(2)中的Encoderk表示第k个编码器,d表示训练样本库中的训练文本,θek表示第k个编码器的训练参数,ek表示第k个编码器输出的训练词特征矩阵。
第k个编码器将训练词特征矩阵ek输入第k个注意力模型,确定第一训练专属文本向量,该过程可以通过以下表达式(3)表示:
ak=Attnk(ek;θak) (3);
这里表达式(3)中的Attnk表示第k个注意力模型,ek表示第k个编码器输出的训练词特征矩阵,θak表示第k个注意力模型的训练参数,ak表示第k个注意力模型输出的第一训练专属文本向量。
然后将该第k个注意力模型输出的第一训练专属文本向量输入至第k个二分类判别器,每个二分类判别器均用于基于接收到的第一训练专属文本向量来判断该训练文本是否属于该二分类判别器对应的属性标签,比如,第k二分类判别器对应第k种属性标签,当第k个二分类判别器接收到第一训练专属文本向量时,可以通过以下表达式(4)来待识别文本对应的属性标签是否为第k种属性标签:
然后通过以下损失函数公式(5)来表示第k个二分类判别器的第一损失函数:
然后训练文本对应的所有第一训练专属文本向量作为多分类器的输入变量,将各个第一训练专属文本向量分别对应的属性标签作为文本识别模型的输出变量,通过以下表达式(6)确定训练文本属于每种属性标签的概率:
其中,Pmul(k|d)表示多分类器判断训练文本属于第k种属性标签的概率,ui表示第i个第一训练专属文本向量对应的连接权值向量,其中i从1到K,uk表示第k个第一训练专属文本向量对应的连接权值向量,其中k为1到K中的任意一个值。
多分类器对应的第二损失函数可以通过以下公式(7)表示:
基于上述第一损失函数和第二损失函数,能够确定第一种文本识别模型在训练过程中的总损失函数通过以下公式(8)表示:
其中,α和β均为预设的超参数。
本申请中,编码器和注意力模型均使用到循环神经网络(Recurrent NeuralNetwork,RNN),通过多次循环训练,调节模型训练参数和连接权值向量,使得第一种文本识别模型在训练过程中的总损失函数的函数值达到最小,且不再变化时,完成训练。
需要注意的是,因为编码器和注意力模型均使用到循环神经网络,故在文本识别模型训练过程中,需要经过多次更新训练参数以及连接权值向量,直至文本识别模型的损失函数的函数值最小时,才能够得到训练好的编码器、注意力模型和多分类器,训练好的编码器、注意力模型和多分类器才能实现上文提到的第一种文本识别模型对待识别文本的处理过程,文本识别模型在训练完成后,每个注意力模型能够得到其对应的标准特征向量,并基于该标准特征向量在进行文本处理时,能够基于标准特征向量确定待识别文本对应的词特征矩阵中各个词特征向量的权重,在此不再赘述。
以上S701~S703的训练过程,即是上文提到的第一种文本识别模型的训练过程,上述训练完成的第一种文本识别模型可以确定待识别在不同属性标签下的文本特征向量,并基于确定的文本特征向量,确定待识别文本的属性标签,具体过程在上文已进行详细介绍,具体过程在此不再赘述。
下面针对第二种文本识别模型的训练过程进行说明,第二种文本识别模型在训练过程中,还包括构建文本识别模型的生成式对抗网络模型,如图9所示,可以看到图9对应的文本识别模型的模型架构比图8对应的文本识别模型的模型架构多了对抗性注意力模型和判别器,这里对抗性注意力模型和判别器构成生成式对抗网络模型,其功能是接收到编码器输入的词特征矩阵后,识别出待识别文本中的共享词向量,然后使得编码器将共享词向量与专属词向量进行区分,方便多分类器进行属性标签确定。
具体地,针对第二种文本识别模型的训练过程,将每个训练样本输入各个编码器中进行编码,具体包括以下步骤:
(1)将编码后的训练词特征矩阵输入生成式对抗网络模型得到训练共享文本向量,以及将编码后的训练词特征矩阵输入和该编码器对应的注意力模型得到第二训练专属文本向量;
(2)基于训练共享文本向量,确定与多个编码器相关的训练共享词向量,以及基于第二训练专属文本向量,确定和编码器相关的训练专属词向量和与该编码器不相关的训练非专属词向量;
(3)基于训练专属词向量、训练共享词向量和训练非专属词向量对多个词向量进行编码处理。
在第二种文本识别模型的训练过程中,每个编码器每次在对词向量进行编码后,将编码好的训练词特征矩阵同时输入对应的注意力模型以及对抗性注意力模型,一方面每个注意力模型通过调节接收到的训练词特征矩阵中各个训练词特征向量的权重,在基于训练词特征矩阵以及各个训练词特征向量的权重生成第二训练专属文本向量后,输入其对应的二分类判别器进行判断,多次调节各个训练词特征向量的权重,从而选择出专属词向量,再基于专属词向量影响对应的编码器的编码;另一方面对抗性注意力模型接收到训练词特征矩阵后,通过调节接收到的训练词特征矩阵中的训练词特征向量的权重,在基于训练词特征矩阵以及各个训练词特征向量的权重生成训练共享文本向量后,将训练共享文本向量输入至判别器进行判断,根据该方式确定与多个属性标签相关的训练共享词向量,然后基于确定的训练共享词向量进一步影响各个编码器的编码。
同样,第二种文本识别模型在训练过程中,编码器基于训练专属词向量、训练共享词向量和训练非专属词向量对多个词向量进行编码处理后,仍然会通过编码器、与每个编码器分别对应的注意力模型和二分类判别器,以及生成式对抗网络模型和多分类器之间多次训练,最终得到文本识别模型的模型参数信息,从而与编码器对应的注意力模型也就得到上文提到的标准特征向量。
在此过程中,同样是将各个第二训练专属文本向量作为多分类器的输入变量,将各个第二训练专属文本向量分别对应的属性标签作为文本识别模型的输出变量,训练得到文本识别模型的模型参数信息。
为了对各个注意力模型和对抗性注意力模型的训练结果进行可视化,如图10所示,假如k=10,即有10个注意力模型,其中前10行中的class1~class10表示的是第1个注意力模型到第10个注意力模型展示的是接收的对应编码器输入的训练词特征矩阵中各个训练词特征向量的权重,后10行的share行表示的是对抗性注意力模型得到的各个编码器输入的训练词特征矩阵中的各个训练词特征向量的权重,由图10可以看出,每个注意力模型根据其对应的属性标签对接收到的训练词特征矩阵中各个训练词特征向量分配的权重并不相同,也表明了注意力模型在训练过程中能够通过训练学习得到专属词向量,对抗性注意力模型能够通过训练学习得到共享词向量。
第二种文本识别模型在训练过程中,生成式对抗网络模型涉及到的表达式如下,包括表达式(9)~表达式(11):
aadv(k)=Attnadv(ek,θadv) (9);
其中,aadv(k)是确定出的第k个编码器对应的训练共享文本向量,θadv表示对抗性注意力模型的模型参数,Attnadv表示对抗性注意力模型,表达式(9)表示对抗性注意力模型接收第k个编码器输入训练词特征矩阵后,输出训练共享文本向量。
表达式(10)中,PD(j|k)表达判别器确定的第k个编码器对应的训练共享文本向量属于属性标签j的概率;vi表示第i个编码器对应的训练共享文本向量对应的连接权值向量,其中i从1到K;vj表示第j个编码器对应的训练共享文本向量对应的连接权值向量,j为1到K中的任意一个值。
另外,第二种文本识别模型在训练过程中,还引入了第四损失函数,其表达式(12)如下:
其中,第四损失函数的引入,目的是体现训练共享文本向量和训练专属文本向量之间的差异。
第二种文本识别模型在训练过程中,其总损失函数通过以下表达式(13)进行表示:
这里γ和δ均为预设的超参数。
在第二种文本识别模型的训练过程中,同样,编码器、注意力模型和对抗性注意力模型均使用到循环神经网络,也通过多次循环训练,调节模型训练参数和连接权值向量,使得第二种文本识别模型在训练过程中的总损失函数的函数值达到最小,且不再变化时,完成训练。
在一种实施方式中,当训练完成得到训练完成的文本识别模型后,文本处理方法还包括:
(1)获取预先构建的测试样本库,测试样本库包括多个测试文本以及每个测试文本对应的真实属性标签;
(2)依次将测试样本库中的每个测试文本输入文本识别模型,得到测试样本库中的每个测试文本对应的测试属性标签;
(3)基于真实属性标签和测试属性标签,确定文本识别模型的准确度;
(4)若准确度小于设定准确度,更新文本识别模型中的模型训练参数和/或训练样本库,重新训练文本识别模型,直至当前文本识别模型的准确度不小于设定准确度。
这里当每次文本识别模型训练结束后,通过大量的测试文本对文本识别模型进行测试,检查文本识别模型的准确度,比如设定准确度为75%,若文本识别模型的准确度低于75%,则可以重新更新文本识别模型中的模型训练参数或者训练样本库重新进行训练,或者可以同时更新文本识别模型中的模型训练参数和训练样本库重新进行训练,直至训练完成的文本识别模型的准确度不低于75%后,得到最终的文本识别模型。
基于同一发明构思,本申请实施例中还提供了与文本处理方法对应的文本处理装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
本申请实施例还提供了一种文本处理装置1100,如图11所示,包括:
文本获取模块1101,用于获取待识别文本;
第一确定模块1102,用于确定待识别文本分别在不同属性标签下的文本特征向量,其中,文本特征向量由不同元素位置上的特征值构成,不同文本特征向量的元素个数相同,且不同文本特征向量的特征值序列不同;
第二确定模块1103,用于基于文本特征向量,确定待识别文本对应的属性标签。
在一种实施方式中,第一确定模块1102,具体用于:
将待识别文本分别输入预先训练的文本识别模型中的与每种属性标签对应的编码器中进行分词编码处理,得到与每种属性标签对应的词特征矩阵;
将得到的与每种属性标签对应的词特征矩阵分别输入与该种属性标签对应的注意力模型中,得到待识别文本分别在每种属性标签下的文本特征向量。
在一种实施方式中,第一确定模块1102,具体用于:
将待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
在多个词向量中,确定待识别文本中的与每种属性标签相关的专属词向量以及与每种属性标签不相关的非专属词向量;
基于专属词向量以及非专属词向量对多个词向量进行编码处理,得到待识别文本与每种属性标签对应的词特征矩阵,词特征矩阵中包括与多个词向量分别对应的词特征向量。
在一种实施方式中,第一确定模块1102,具体用于:
将待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
在多个词向量中,确定待识别文本中的与每种属性标签相关的专属词向量、与多个属性标签相关的共享词向量、以及与每种属性标签不相关的非专属词向量;
基于专属词向量、共享词向量和非专属词向量对多个词向量进行编码处理,得到待识别文本与每种属性标签对应的词特征矩阵,词特征矩阵中包括与多个词向量分别对应的词特征向量。
在一种实施方式中,第一确定模块1102,具体用于:
将词特征矩阵输入对应的注意力模型中,依次确定词特征矩阵中每个词特征向量与该注意力模型对应的标准特征向量之间的相似度,得到词特征矩阵中每个词特征向量对应的权重;
按照预设维度、词特征向量以及每个词特征向量与标准特征向量之间的相似度,生成待识别文本分别在每种属性标签下的文本特征向量。
在一种实施方式中,第二确定模块1103,具体用于:
将每个文本特征向量输入所述文本识别模型中的多分类器中,得到待识别文本属于每种属性标签的概率值;
基于待识别文本属于每种属性标签的概率值,确定待识别文本对应的属性标签。
在一种实施方式中,文本处理装置还包括模型训练模块1104;
第一确定模块1102,具体用于基于待识别文本和训练的文本识别模型,确定待识别文本分别在不同属性标签下的文本特征向量;
模型训练模块1104,具体用于按照以下方式训练所述文本识别模型:
构建文本识别模型的多个编码器、与每个编码器分别对应的注意力模型和二分类判别器,以及多分类器;
获取预先构建的训练样本库,训练样本库包括多个训练文本以及每个训练文本对应的属性标签;
依次将每个训练样本输入各个编码器中进行编码;将编码后得到的训练词特征矩阵输入与该编码器对应的注意力模型和二分类判别器中,得到第一训练专属文本向量;将各个第一训练专属文本向量作为多分类器的输入变量,将各个第一训练专属文本向量分别对应的属性标签作为文本识别模型的输出变量,训练得到所述文本识别模型的模型参数信息。
在一种实施方式中,模型训练模块1104还用于:
构建文本识别模型的生成式对抗网络模型;
模型训练模块1104具体用于:
将编码后的训练词特征矩阵输入生成式对抗网络模型得到训练共享文本向量,以及将编码后的训练词特征矩阵输入和该编码器对应的注意力模型得到第二训练专属文本向量;
基于训练共享文本向量,确定与多个编码器相关的训练共享词向量,以及基于第二训练专属文本向量,确定和编码器相关的训练专属词向量和与该编码器不相关的训练非专属词向量;
基于训练专属词向量、训练共享词向量和训练非专属词向量对多个所述词向量进行编码处理。
在一种实施方式中,文本处理装置还包括模型测试模块1105,用于:
获取预先构建的测试样本库,测试样本库包括多个测试文本以及每个测试文本对应的真实属性标签;
依次将测试样本库中的每个测试文本输入文本识别模型,得到测试样本库中的每个测试文本对应的测试属性标签;
基于真实属性标签和所述测试属性标签,确定文本识别模型的准确度;
若准确度小于设定准确度,更新文本识别模型中的模型训练参数和/或训练样本库,重新训练文本识别模型,直至文本识别模型的准确度不小于设定准确度。
本申请实施例还提供了一种电子设备1200,如图12所示,包括:处理器1201、存储介质1202和总线1203,存储介质1202存储有处理器1201可执行的机器可读指令(比如,图11中的文本处理装置中文本获取模块1101、第一确定模块1102和第二确定模块1103对应的执行指令等),当电子设备1200运行时,处理器1201与存储介质1202之间通过总线1203通信,机器可读指令被处理器1201执行时执行如下处理:
获取待识别文本;
确定待识别文本分别在不同属性标签下的文本特征向量,其中,文本特征向量由不同元素位置上的特征值构成,不同文本特征向量的元素个数相同,且不同文本特征向量的特征值序列不同;
基于文本特征向量,确定待识别文本对应的属性标签。
一种可能的实施方式中,处理器1201执行的指令中,具体包括:
将待识别文本分别输入预先训练的文本识别模型中的与每种属性标签对应的编码器中进行分词编码处理,得到与每种属性标签对应的词特征矩阵;
将得到的与每种属性标签对应的词特征矩阵分别输入与该种属性标签对应的注意力模型中,得到待识别文本分别在每种属性标签下的文本特征向量。
一种可能的实施方式中,处理器1201执行的指令中,具体包括:
将待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
在多个词向量中,确定待识别文本中的与每种属性标签相关的专属词向量以及与每种属性标签不相关的非专属词向量;
基于专属词向量以及非专属词向量对多个词向量进行编码处理,得到待识别文本与每种属性标签对应的词特征矩阵,词特征矩阵中包括与多个词向量分别对应的词特征向量。
一种可能的实施方式中,处理器1201执行的指令中,具体包括:
将待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
在多个词向量中,确定待识别文本中的与每种属性标签相关的专属词向量、与多个属性标签相关的共享词向量、以及与每种属性标签不相关的非专属词向量;
基于专属词向量、共享词向量和所述非专属词向量对多个所述词向量进行编码处理,得到待识别文本与每种属性标签对应的词特征矩阵,词特征矩阵中包括与多个词向量分别对应的词特征向量。
一种可能的实施方式中,处理器1201执行的指令中,具体包括:
将词特征矩阵输入对应的注意力模型中,依次确定词特征矩阵中每个词特征向量与该注意力模型对应的标准特征向量之间的相似度,得到词特征矩阵中每个词特征向量对应的权重;
基于词特征矩阵以及词特征矩阵中每个词特征向量对应的权重,生成待识别文本分别在每种属性标签下的文本特征向量。
一种可能的实施方式中,处理器1201执行的指令中,具体包括:
将每个文本特征向量输入文本识别模型中的多分类器中,得到待识别文本属于每种属性标签的概率值;
基于待识别文本属于每种属性标签的概率值,确定待识别文本对应的属性标签。
一种可能的实施方式中,处理器1201执行的指令中,具体包括:
基于待识别文本和训练的文本识别模型,确定待识别文本分别在不同属性标签下的文本特征向量;其中,按照以下方式训练文本识别模型:
构建文本识别模型的多个编码器、与每个编码器分别对应的注意力模型和二分类判别器,以及多分类器;
获取预先构建的训练样本库,训练样本库包括多个训练文本以及每个训练文本对应的属性标签;
依次将每个训练样本输入各个编码器中进行编码;将编码后得到的训练词特征矩阵输入与该编码器对应的注意力模型和所述二分类判别器中,得到第一训练专属文本向量;将各个第一训练专属文本向量作为多分类器的输入变量,将各个第一训练专属文本向量分别对应的属性标签作为文本识别模型的输出变量,训练得到文本识别模型的模型参数信息。
一种可能的实施方式中,处理器1201执行的指令中,还包括:
构建文本识别模型的生成式对抗网络模型;
将每个训练样本输入各个编码器中进行编码,包括:
将编码后的训练词特征矩阵输入生成式对抗网络模型得到训练共享文本向量,以及将编码后的训练词特征矩阵输入和该编码器对应的注意力模型得到第二训练专属文本向量;
基于训练共享文本向量,确定与多个编码器相关的训练共享词向量,以及基于第二训练专属文本向量确定和该编码器相关的训练专属词向量和与该编码器不相关的训练非专属词向量;
基于训练专属词向量、训练共享词向量和所述训练非专属词向量对多个词向量进行编码处理。
一种可能的实施方式中,处理器1201执行的指令中,还包括:
获取预先构建的测试样本库,测试样本库包括多个测试文本以及每个测试文本对应的真实属性标签;
依次将测试样本库中的每个测试文本输入文本识别模型,得到测试样本库中的每个测试文本对应的测试属性标签;
基于真实属性标签和所述测试属性标签,确定文本识别模型的准确度;
若准确度小于设定准确度,更新文本识别模型中的模型训练参数和/或训练样本库,重新训练文本识别模型,直至文本识别模型的准确度不小于设定准确度。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行文本处理方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述文本处理方法,从而解决现有技术文本识别精度低,从而导致分类不准确的问题,进而达到提高文本分类的准确度。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (11)
1.一种文本处理装置,其特征在于,包括:
文本获取模块,用于获取待识别文本;
第一确定模块,用于确定所述待识别文本分别在不同属性标签下的文本特征向量,其中,所述文本特征向量由不同元素位置上的特征值构成,不同文本特征向量的元素个数相同,且不同文本特征向量的特征值序列不同;
第二确定模块,用于基于所述文本特征向量,确定所述待识别文本对应的属性标签。
2.根据权利要求1所述的文本处理装置,其特征在于,所述第一确定模块,具体用于:
将所述待识别文本分别输入预先训练的文本识别模型中的与每种属性标签对应的编码器中进行分词编码处理,得到与每种属性标签对应的词特征矩阵;
将得到的与每种属性标签对应的词特征矩阵分别输入与该种属性标签对应的注意力模型中,得到所述待识别文本分别在每种属性标签下的文本特征向量。
3.根据权利要求2所述的文本处理装置,其特征在于,所述第一确定模块,具体用于:
将所述待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
在多个所述词向量中,确定所述待识别文本中的与每种属性标签相关的专属词向量以及与每种属性标签不相关的非专属词向量;
基于所述专属词向量以及非专属词向量对多个所述词向量进行编码处理,得到所述待识别文本与每种属性标签对应的词特征矩阵,所述词特征矩阵中包括与多个所述词向量分别对应的词特征向量。
4.根据权利要求2所述的文本处理装置,其特征在于,所述第一确定模块,具体用于:
将所述待识别文本分别输入与每种属性标签对应的编码器中进行分词处理,得到多个词向量;
在多个所述词向量中,确定所述待识别文本中的与每种属性标签相关的专属词向量、与多个属性标签相关的共享词向量、以及与每种属性标签不相关的非专属词向量;
基于所述专属词向量、所述共享词向量和所述非专属词向量对多个所述词向量进行编码处理,得到所述待识别文本与每种属性标签对应的词特征矩阵,所述词特征矩阵中包括与多个所述词向量分别对应的词特征向量。
5.根据权利要求3或4所述的文本处理装置,其特征在于,所述第一确定模块,具体用于:
将所述词特征矩阵输入对应的注意力模型中,依次确定所述词特征矩阵中每个词特征向量与该注意力模型对应的标准特征向量之间的相似度,得到所述词特征矩阵中每个词特征向量对应的权重;
基于所述词特征矩阵以及所述词特征矩阵中每个词特征向量对应的权重,生成所述待识别文本分别在每种属性标签下的文本特征向量。
6.根据权利要求1所述的文本处理装置,其特征在于,所述第二确定模块,具体用于:
将每个所述文本特征向量输入文本识别模型中的多分类器中,得到所述待识别文本属于每种属性标签的概率值;
基于所述待识别文本属于每种属性标签的概率值,确定所述待识别文本对应的属性标签。
7.根据权利要求1所述的文本处理装置,其特征在于,所述文本处理装置还包括模型训练模块;
所述第一确定模块,具体用于基于所述待识别文本和训练的文本识别模型,确定所述待识别文本分别在不同属性标签下的文本特征向量;
所述模型训练模块,具体用于按照以下方式训练所述文本识别模型:
构建文本识别模型的多个编码器、与每个编码器分别对应的注意力模型和二分类判别器,以及多分类器;
获取预先构建的训练样本库,所述训练样本库包括多个训练文本以及每个训练文本对应的属性标签;
依次将每个训练样本输入各个编码器中进行编码;将编码后得到的训练词特征矩阵输入与该编码器对应的注意力模型和所述二分类判别器中,得到第一训练专属文本向量;将各个第一训练专属文本向量作为多分类器的输入变量,将各个第一训练专属文本向量分别对应的属性标签作为所述文本识别模型的输出变量,训练得到所述文本识别模型的模型参数信息。
8.根据权利要求7所述的文本处理装置,其特征在于,所述模型训练模块还用于:
构建文本识别模型的生成式对抗网络模型;
所述模型训练模块具体用于:
将编码后的训练词特征矩阵输入所述生成式对抗网络模型得到训练共享文本向量,以及将编码后的训练词特征矩阵输入和该编码器对应的注意力模型得到第二训练专属文本向量;
基于所述训练共享文本向量,确定与多个编码器相关的训练共享词向量,以及基于所述第二训练专属文本向量,确定和所述编码器相关的训练专属词向量和与该编码器不相关的训练非专属词向量;
基于所述训练专属词向量、所述训练共享词向量和所述训练非专属词向量对多个所述词向量进行编码处理。
9.一种文本处理方法,其特征在于,包括:
获取待识别文本;
确定所述待识别文本分别在不同属性标签下的文本特征向量,其中,所述文本特征向量由不同元素位置上的特征值构成,不同文本特征向量的元素个数相同,且不同文本特征向量的特征值序列不同;
基于所述文本特征向量,确定所述待识别文本对应的属性标签。
10.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求9所述方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求9所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910335408.7A CN111859947B (zh) | 2019-04-24 | 2019-04-24 | 一种文本处理装置、方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910335408.7A CN111859947B (zh) | 2019-04-24 | 2019-04-24 | 一种文本处理装置、方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859947A true CN111859947A (zh) | 2020-10-30 |
CN111859947B CN111859947B (zh) | 2024-05-10 |
Family
ID=72952170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910335408.7A Active CN111859947B (zh) | 2019-04-24 | 2019-04-24 | 一种文本处理装置、方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859947B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657092A (zh) * | 2021-06-30 | 2021-11-16 | 北京声智科技有限公司 | 识别标签的方法、装置、设备以及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100284625A1 (en) * | 2009-05-07 | 2010-11-11 | Microsoft Corporation | Computing Visual and Textual Summaries for Tagged Image Collections |
CN109325148A (zh) * | 2018-08-03 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
-
2019
- 2019-04-24 CN CN201910335408.7A patent/CN111859947B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100284625A1 (en) * | 2009-05-07 | 2010-11-11 | Microsoft Corporation | Computing Visual and Textual Summaries for Tagged Image Collections |
CN109325148A (zh) * | 2018-08-03 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
Non-Patent Citations (1)
Title |
---|
谢金宝;侯永进;康守强;李佰蔚;张霄;: "基于语义理解注意力神经网络的多元特征融合中文文本分类", 电子与信息学报, no. 05 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657092A (zh) * | 2021-06-30 | 2021-11-16 | 北京声智科技有限公司 | 识别标签的方法、装置、设备以及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111859947B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034368B (zh) | 一种基于dnn的复杂设备多重故障诊断方法 | |
CN110245229A (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN111368920A (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN115098620A (zh) | 一种注意力相似度迁移的跨模态哈希检索方法 | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
CN114049926A (zh) | 一种电子病历文本分类方法 | |
CN115146607B (zh) | 评论信息情感偏好识别模型训练方法、识别方法及设备 | |
CN111538841B (zh) | 基于知识互蒸馏的评论情感分析方法、装置及系统 | |
CN114239612A (zh) | 一种多模态神经机器翻译方法、计算机设备及存储介质 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN111611395B (zh) | 一种实体关系的识别方法及装置 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN111708865B (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 | |
CN111859947B (zh) | 一种文本处理装置、方法、电子设备及存储介质 | |
Audhkhasi et al. | Data-dependent evaluator modeling and its application to emotional valence classification from speech. | |
CN112597299A (zh) | 文本的实体分类方法、装置、终端设备和存储介质 | |
CN117036781A (zh) | 一种基于树综合多样性深度森林的图像分类方法 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 | |
CN114579763A (zh) | 一种针对中文文本分类任务的字符级对抗样本生成方法 | |
CN112182211B (zh) | 文本分类方法及装置 | |
CN112035607B (zh) | 基于mg-lstm的引文差异匹配方法、装置及存储介质 | |
Gabdrakhmanova et al. | The modeling of forecasting new situations in the dynamics of the economic system on the example of several financial indicators | |
Li et al. | Variance tolerance factors for interpreting all neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |