CN111209377A - 基于深度学习的文本处理方法、装置、设备及介质 - Google Patents
基于深度学习的文本处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111209377A CN111209377A CN202010328375.6A CN202010328375A CN111209377A CN 111209377 A CN111209377 A CN 111209377A CN 202010328375 A CN202010328375 A CN 202010328375A CN 111209377 A CN111209377 A CN 111209377A
- Authority
- CN
- China
- Prior art keywords
- sample
- text
- processing
- processing result
- characteristic value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 36
- 238000003672 processing method Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 565
- 238000013136 deep learning model Methods 0.000 claims abstract description 185
- 238000000034 method Methods 0.000 claims abstract description 81
- 230000004044 response Effects 0.000 claims abstract description 32
- 238000013507 mapping Methods 0.000 claims description 89
- 230000015654 memory Effects 0.000 claims description 30
- 230000001174 ascending effect Effects 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 14
- 230000000875 corresponding effect Effects 0.000 claims 20
- 230000002596 correlated effect Effects 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 9
- 238000013145 classification model Methods 0.000 description 67
- 230000008569 process Effects 0.000 description 33
- 238000012549 training Methods 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 13
- 238000012986 modification Methods 0.000 description 12
- 230000004048 modification Effects 0.000 description 12
- 238000013473 artificial intelligence Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种基于深度学习的文本处理方法、装置、设备及介质,涉及自然语言处理领域。方法包括:获取样本集合和由样本集合训练的深度学习模型;选取样本集合中的目标样本文本和目标样本文本对应的样本处理结果;调用深度学习模型,对目标样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为目标样本文本对应的预测处理结果;响应于预测处理结果与样本处理结果不同,对多个处理结果的概率进行统计处理,获取目标样本文本的处理结果分布特征;响应于处理结果分布特征满足目标条件,对样本集合中的样本处理结果进行修正处理,得到修正后的样本集合,提高了样本集合的准确性。
Description
技术领域
本申请涉及自然语言处理领域,特别涉及一种基于深度学习的文本处理方法、装置、设备及介质。
背景技术
随着人工智能技术和自然语言处理技术的发展,目前越来越多地应用模型对文本进行处理,例如文本分类模型、文本翻译模型等。
相关技术中,通常会先获取样本集合,该样本集合中包括多条样本文本和该多条样本文本对应的样本处理结果,根据样本集合对模型进行训练。其中,模型的训练效果取决于样本集合中样本处理结果是否准确,如果样本集合中的部分样本处理结果不准确,可能会影响模型的准确度。
发明内容
本申请实施例提供了一种基于深度学习的文本处理、装置、设备及介质,可以提高样本集合的准确性。所述技术方案如下:
一方面,提供了一种基于深度学习的文本处理方法,所述方法包括:
获取样本集合和由所述样本集合训练的深度学习模型,所述样本集合中包括多条样本文本和所述多条样本文本对应的样本处理结果;
选取所述样本集合中的目标样本文本和所述目标样本文本对应的样本处理结果;
调用所述深度学习模型,对所述目标样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为所述目标样本文本对应的预测处理结果;
响应于所述预测处理结果与所述样本处理结果不同,对所述多个处理结果的概率进行统计处理,获取所述目标样本文本的处理结果分布特征,所述处理结果分布特征用于指示所述深度学习模型处理所述目标样本文本得到的处理结果的不确定性程度;
响应于所述处理结果分布特征满足目标条件,对所述样本集合中的所述样本处理结果进行修正处理,得到修正后的样本集合。
另一方面,提供了一种基于深度学习的文本处理装置,所述装置包括:
获取模块,用于获取样本集合和由所述样本集合训练的深度学习模型,所述样本集合中包括多条样本文本和所述多条样本文本对应的样本处理结果;
选取模块,用于选取所述样本集合中的目标样本文本和所述目标样本文本对应的样本处理结果;
第一处理模块,用于调用所述深度学习模型,对所述目标样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为所述目标样本文本对应的预测处理结果;
第二处理模块,用于响应于所述预测处理结果与所述样本处理结果不同,对所述多个处理结果的概率进行统计处理,获取所述目标样本文本的处理结果分布特征,所述处理结果分布特征用于指示所述深度学习模型处理所述目标样本文本得到的处理结果的不确定性程度;
修正模块,用于响应于所述处理结果分布特征满足目标条件,对所述样本集合中的所述样本处理结果进行修正处理,得到修正后的样本集合。
可选地,所述修正模块,用于响应于所述处理结果分布特征满足所述目标条件,将所述样本集合中的所述样本处理结果替换为所述预测处理结果,得到所述修正后的样本集合,或者,将所述样本集合中的所述目标样本文本和所述样本处理结果删除,得到所述修正后的样本集合。
可选地,所述修正模块,包括:
统计处理单元,用于对所述处理结果分布特征进行统计处理,得到所述预测处理结果的准确度;
修正处理单元,用于响应于所述预测处理结果的准确度大于预设准确度,对所述样本集合中的所述样本处理结果进行修正处理,得到所述修正后的样本集合。
可选地,所述处理结果分布特征为所述目标样本文本的困惑度,所述困惑度与所述预测处理结果的准确度呈正相关关系;或者,
所述处理结果分布特征为所述目标样本文本的信息熵,所述信息熵与所述预测处理结果的准确度呈负相关关系。
可选地,所述装置还包括:
编码模块,用于对第一文本中的每个汉字字符进行编码,得到所述每个汉字字符对应的汉字特征值;
映射关系获取模块,用于获取包括多个预设特征值以及对应的拼音字符的映射关系,所述多个预设特征值按照顺序排列;
查询模块,用于根据每个汉字特征值与所述多个预设特征值之间的大小关系以及所述多个预设特征值的顺序,查询所述每个汉字特征值对应的拼音字符;
转换模块,用于将所述每个汉字字符分别转换为所述每个汉字特征值对应的拼音字符,得到第二文本;
所述第一处理模块,用于调用所述深度学习模型,对所述第二文本进行处理,得到处理结果。
可选地,所述查询模块,用于对于每个汉字特征值,进行如下查询处理:
确定所述多个预设特征值中位于中间位置的第一预设特征值;
响应于所述第一预设特征值与所述汉字特征值相同,将所述第一预设特征值对应的拼音字符,作为所述汉字特征值对应的拼音字符;
响应于所述第一预设特征值小于所述汉字特征值,根据所述多个预设特征值的顺序确定大于所述第一预设特征值的第二预设特征值,直至确定的预设特征值与所述汉字特征值相同,将所述确定的预设特征值对应的拼音字符作为所述汉字特征值对应的拼音字符;
响应于所述第一预设特征值大于所述汉字特征值,根据所述多个预设特征值的顺序确定小于所述第一预设特征值的第三预设特征值,直至确定的预设特征值与所述汉字特征值相同,将所述确定的预设特征值对应的拼音字符作为所述汉字特征值对应的拼音字符。
可选地,所述查询模块,还用于若所述多个预设特征值按照降序排列,从位于所述第一预设特征值之前的预设特征值中,确定所述第二预设特征值;
所述查询模块,还用于若所述多个预设特征值按照升序排列,从位于所述第一预设特征值之后的预设特征值中,确定所述第二预设特征值。
可选地,所述查询模块,还用于若所述多个预设特征值按照降序排列,将所述第一预设特征值的上一预设特征值确定为所述第二预设特征值;或者;
所述查询模块,还用于若所述多个预设特征值按照降序排列,将位于所述多个预设特征值中的第一个预设特征值与所述第一预设特征值的中间位置的预设特征值,确定为所述第二预设特征值。
可选地,所述查询模块,还用于若所述多个预设特征值按照升序排列,将所述第一预设特征值的下一预设特征值确定为所述第二预设特征值;或者;
所述查询模块,还用于若所述多个预设特征值按照升序排列,将位于所述多个预设特征值中的最后一个预设特征值与所述第一预设特征值的中间位置的预设特征值,确定为所述第二预设特征值。
可选地,所述映射关系获取模块,还用于根据当前应用程序所属的应用组,从所述应用组对应的共享文件中获取所述映射关系,所述应用组中包括至少一个应用程序。
可选地,所述第一处理模块,包括:
获取单元,用于根据当前应用程序所属的应用组,从所述应用组对应的共享文件中获取所述深度学习模型的模型文件;
处理单元,用于通过调用所述模型文件运行所述深度学习模型,对所述第二文本进行处理,得到所述处理结果。
再一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如上述方面所述的基于深度学习的文本处理方法中所执行的操作。
再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以实现如上述方面所述的基于深度学习的文本处理方法中所执行的操作。
本申请实施例提供的基于深度学习的文本处理方法、装置、设备及介质,在根据样本集合训练深度学习模型之后,会选取样本集合中的目标样本文本和目标样本文本对应的样本处理结果,通过该深度学习模型对该样本集合进行检查。如果预测处理结果与样本处理结果不同,则说明预测处理结果和样本处理结果中有一个处理结果是错误的,由于处理结果分布特征可以指示深度学习模型处理目标样本文本得到的处理结果的不确定性程度,因此,可以根据该处理结果分布特征确定预测处理结果的准确性,从而在处理结果分布特征满足目标条件时,对样本集合中的样本处理结果进行修正处理,不仅可以实现了样本集合的修正,还保证了该样本集合中的样本处理结果更加准确,提高了样本集合的准确性,后续在根据修正后的样本集合训练其他模型时,还可以提高所训练模型的准确性。
并且,本申请实施例会先将每个汉字字符进行编码,得到每个汉字字符对应的汉字特征值,将映射关系中的多个预设特征值按照顺序排列,这样,可以根据每个汉字特征值与映射关系中多个预设特征值之间的大小关系以及多个预设特征值的顺序,查询汉字特征值对应的拼音字符,由于考虑了汉字特征值与映射关系中的预设特征值之间的大小关系,可以根据该多个预设特征值的排列顺序,更快地查询到汉字特征值对应的拼音字符,加快了查询速度,加快了获取第二文本的速度,从而加快了文本处理速度,提高了文本处理效率。
并且,本申请实施例可以将映射关系存储在应用组的共享文件中,应用程序可以根据该应用组的应用组标识,从共享文件中获取该映射关系,以使至少一个应用程序共享该映射关系,减小了计算机设备占用的内存。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种基于深度学习的文本处理方法的流程图;
图3是本申请实施例提供的另一种基于深度学习的文本处理方法的流程图;
图4是本申请实施例提供的另一种基于深度学习的文本处理方法的流程图;
图5是本申请实施例提供的一种基于深度学习模型的文本处理方法的流程图;
图6是本申请实施例提供的一种基于文本分类模型的文本分类方法的流程图;
图7是本申请实施例提供的一种文本分类模型训练方法的流程图;
图8是本申请实施例提供的一种样本分类方法的流程图;
图9是本申请实施例提供的一种终端调用文本分类模型对文本进行分类的流程示意图;
图10是本申请实施例提供的一种文本预处理方法的流程图;
图11是本申请实施例提供的一种调用文本分类模型对文本进行处理的流程示意图;
图12是本申请实施例提供的一种通过文本分类模型获取分类结果的流程示意图;
图13是本申请实施例提供的一种通过二分法获取汉字字符和其他字符对应的标识的流程示意图;
图14是本申请实施例提供的一种基于深度学习的文本处理装置的结构示意图;
图15是本申请实施例提供的另一种基于深度学习的文本处理装置的结构示意图;
图16是本申请实施例提供的一种终端的结构框图;
图17是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一预设特征值称为第二预设特征值,且类似地,可将第二预设特征值称为第一预设特征值。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或者两个以上,多个包括两个或者两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个,举例来说,多个预设特征值包括3个预设特征值,而每个是指这3个预设特征值中的每一个预设特征值,任一是指这3个预设特征值中的任意一个,可以是第一个,也可以是第二个,还可以是第三个。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案采用人工智能的自然语言处理技术来对深度学习模型进行训练以及对文本进行处理,通过如下实施例对本申请实施例提供的方法进行详细说明。
本申请实施例提供的基于深度学习的文本处理方法可以应用在计算机设备中。
在一种可能实现方式中,该计算机设备可以为手机、电脑、平板电脑等终端。在另一种可能实现方式中,该计算机设备可以是服务器,该服务器可以是一台服务器,也可以是若干台服务器组成的服务器集群,或者是一个云计算服务中心。
在另一种可能实现方式中,该计算机设备可以包括终端和服务器,图1是本申请实施例提供的一种实施环境的示意图,参见图1,该实施环境包括:终端101和服务器102。
在一种可能实现方式中,终端101上可以安装有目标应用,该目标应用可以是具有文本处理功能的应用,或者是与文本处理功能相关的应用。该服务器102可以是为该目标应用提供服务的服务器。
可选地,终端101从服务器102中获取样本集合和由该样本集合训练的深度学习模型,该样本集合中包括多条样本文本和该多条样本文本对应的样本处理结果。终端101选取样本集合中的目标样本文本和目标样本文本对应的样本处理结果,通过深度学习模型,对目标样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为该目标样本文本对应的预测处理结果,响应于预测处理结果与样本处理结果不同,对该多个处理结果的概率进行统计处理,获取目标样本文本的处理结果分布特征,其中,处理结果分布特征用于指示深度学习模型处理目标样本文本得到的处理结果的不确定性程度;终端101响应于处理结果分布特征满足目标条件,对样本集合中的样本处理结果进行修正处理,得到修正后的样本集合。之后,终端101可以将修正后的样本集合返回至服务器102中,服务器102即可根据修正后的样本集合进行其他处理,例如根据修正后的样本集合训练其他深度学习模型。
本申请实施例提供的基于深度学习的文本处理方法,可以应用于对样本进行修正的场景下。
例如,多个模型共享样本集合的场景下。
在该场景下,可以根据样本集合,训练深度学习模型,该样本集合中包括多条样本文本和该多条样本文本对应的样本处理结果,采用本申请实施例提供的基于深度学习的文本处理方法,可以在根据样本集合,对深度学习模型训练之后,通过训练后的深度学习模型,修正样本集合中不准确的样本处理结果,使得样本集合更加准确,后续在根据修正后的样本集合训练其他模型时,还可以提高所训练模型的准确性。
本申请实施例还可以应用于其他对样本进行修正的场景下,本申请实施例对此不做限定。
图2是本申请实施例提供的一种基于深度学习的文本处理方法的流程图,本申请实施例的执行主体为计算机设备,该计算机设备可以为图1所示的终端101,也可以为图1所示的服务器102。参见图2,该方法包括以下内容。
201、获取样本集合和由该样本集合训练的深度学习模型,该样本集合中包括多条样本文本和该多条样本文本对应的样本处理结果。
其中,深度学习模型为用于对文本进行处理的模型,其中,对文本进行处理可以是对文本进行分类处理、对文本进行修正处理,根据文本生成对应的解答文本等。可选地,该深度学习模型可以是文本分类模型、文本修正模型、文本生成模型、文本翻译模型等。
可选地,深度学习模型可以是CNN(Convolutional Neural Networks,卷积神经网络)模型、RNN(Recurrent Neural Network,循环神经网络)模型、LSTM (Long Short-TermMemory,长短期记忆)模型、ULMFiT(Universal Language Model Fine-tuning for TextClassification,通用语言模型微调)模型等。
其中,样本集合为用于对深度学习模型进行训练的集合,该样本集合中包括多条样本文本和该多条样本文本对应的样本处理结果。其中,对不同类型的深度学习模型进行训练,可以获取不同类型的样本集合。
例如,深度学习模型可以为文本翻译模型,该样本集合中包括多条样本文本和该多条样本文本对应的样本翻译文本,其中,样本文本采用第一语言表示,该样本文本对应的样本翻译文本采用第二语言表示,且第一语言与第二语言不同。或者,深度学习模型还可以是阅读理解模型,该样本集合中包括多条样本和该多条样本文本对应的解答文本。其中,该多条样本文本中包括的内容可以为存在疑问的内容,解答文本为对样本文本的内容中存在的疑问进行解答的文本,例如,样本文本包括的内容为“在吗”,该样本文本对应的解答文本包括的内容为“在的,请问您有什么需要帮助的”。
又如,深度学习模型可以为文本分类模型,样本集合中包括多种不同类型的样本文本和每条样本文本对应的样本分类结果。或者,深度学习模型为文本修正模型,则样本集合中包括多条样本文本和该多条样本文本对应的修正后的样本文本,且该多条样本文本中包括存在错误的样本文本,另外还可以包括不存在错误的样本文本。
202、选取该样本集合中的目标样本文本和该目标样本文本对应的样本处理结果。
其中,目标样本文本可以是样本集合中的任一样本文本。
203、调用该深度学习模型,对该目标样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为该目标样本文本对应的预测处理结果。
其中,该深度学习模型为通过样本集合训练后的深度学习模型。
204、响应于该预测处理结果与该样本处理结果不同,对该多个处理结果的概率进行统计处理,获取该目标样本文本的处理结果分布特征,该处理结果分布特征用于指示该深度学习模型处理该目标样本文本得到的处理结果的不确定性程度。
考虑到样本集合中的样本处理结果可能是通过人为标注得到的,可能存在误操作、误判断等问题,因此样本集合中样本文本对应的样本处理结果可能不是完全正确的。因此,深度学习模型对样本文本进行处理后得到的预测处理结果与样本文本原来的样本处理结果可能不同。
若预测处理结果与样本处理结果不同,则说明预测处理结果与样本处理结果中有一个处理结果是错误的。由于该深度学习模型对文本进行处理后,会得到多个处理结果的概率,因此,可以基于多个结果的概率确定处理结果分布特征,也就是确定深度学习模型处理该目标样本文本得到的处理结果的不确定性程度,从而确定预测处理结果的准确性。
205、响应于该处理结果分布特征满足目标条件,对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合。
其中,处理结果分布特征满足目标条件指示预测处理结果和样本处理结果中,预测处理结果是准确的,从而在处理结果分布特征满足目标条件时,可以对样本集合中的该样本处理结果进行修正处理。
本申请实施例提供的基于深度学习的文本处理方法,在根据样本集合训练深度学习模型之后,会选取样本集合中的目标样本文本和目标样本文本对应的样本处理结果,通过该深度学习模型对该样本集合进行检查。如果预测处理结果与样本处理结果不同,则说明预测处理结果和样本处理结果中有一个处理结果是错误的,由于处理结果分布特征可以指示深度学习模型处理目标样本文本得到的处理结果的不确定性程度,因此,可以根据该处理结果分布特征确定预测处理结果的准确性,从而在处理结果分布特征满足目标条件时,对样本集合中的样本处理结果进行修正处理,不仅可以实现了样本集合的修正,还保证了该样本集合中的样本处理结果更加准确,提高了样本集合的准确性,后续在根据修正后的样本集合训练其他模型时,还可以提高所训练模型的准确性。
可选地,该响应于该处理结果分布特征满足目标条件,对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合,包括:
响应于该处理结果分布特征满足该目标条件,将该样本集合中的该样本处理结果替换为该预测处理结果,得到该修正后的样本集合,或者,将该样本集合中的该目标样本文本和该样本处理结果删除,得到该修正后的样本集合。
可选地,该响应于该处理结果分布特征满足目标条件,对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合,包括:
对该处理结果分布特征进行统计处理,得到该预测处理结果的准确度;
响应于该预测处理结果的准确度大于预设准确度,对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合。
可选地,该处理结果分布特征为该目标样本文本的困惑度,该困惑度与该预测处理结果的准确度呈正相关关系;或者,
该处理结果分布特征为该目标样本文本的信息熵,该信息熵与该预测处理结果的准确度呈负相关关系。
可选地,该获取样本集合和由该样本集合训练的深度学习模型之后,该方法还包括:
对第一文本中的每个汉字字符进行编码,得到该每个汉字字符对应的汉字特征值;
获取包括多个预设特征值以及对应的拼音字符的映射关系,该多个预设特征值按照顺序排列;
根据每个汉字特征值与该多个预设特征值之间的大小关系以及该多个预设特征值的顺序,查询该每个汉字特征值对应的拼音字符;
将该每个汉字字符分别转换为该每个汉字特征值对应的拼音字符,得到第二文本;
调用该深度学习模型,对该第二文本进行处理,得到处理结果。
可选地,该根据每个汉字特征值与该多个预设特征值之间的大小关系以及该多个预设特征值的顺序,查询该每个汉字特征值对应的拼音字符,包括:
对于每个汉字特征值,进行如下查询处理:
确定该多个预设特征值中位于中间位置的第一预设特征值;
响应于该第一预设特征值与该汉字特征值相同,将该第一预设特征值对应的拼音字符,作为该汉字特征值对应的拼音字符;
响应于该第一预设特征值小于该汉字特征值,根据该多个预设特征值的顺序确定大于该第一预设特征值的第二预设特征值,直至确定的预设特征值与该汉字特征值相同,将该确定的预设特征值对应的拼音字符作为该汉字特征值对应的拼音字符;
响应于该第一预设特征值大于该汉字特征值,根据该多个预设特征值的顺序确定小于该第一预设特征值的第三预设特征值,直至确定的预设特征值与该汉字特征值相同,将该确定的预设特征值对应的拼音字符作为该汉字特征值对应的拼音字符。
可选地,该根据该多个预设特征值的顺序确定大于该第一预设特征值的第二预设特征值,包括:
若该多个预设特征值按照降序排列,从位于该第一预设特征值之前的预设特征值中,确定第二预设特征值;
若该多个预设特征值按照升序排列,从位于该第一预设特征值之后的预设特征值中,确定第二预设特征值。
可选地,该若该多个预设特征值按照降序排列,从位于该第一预设特征值之前的预设特征值中,确定第二预设特征值,包括:
若该多个预设特征值按照降序排列,将该第一预设特征值的上一预设特征值确定为该第二预设特征值;或者;
若该多个预设特征值按照降序排列,将位于该多个预设特征值中的第一个预设特征值与该第一预设特征值的中间位置的预设特征值,确定为该第二预设特征值。
可选地,该若该多个预设特征值按照升序排列,从位于该第一预设特征值之后的预设特征值中,确定第二预设特征值,包括:
若该多个预设特征值按照升序排列,将该第一预设特征值的下一预设特征值确定为该第二预设特征值;或者;
若该多个预设特征值按照升序排列,将位于该多个预设特征值中的最后一个预设特征值与该第一预设特征值的中间位置的预设特征值,确定为该第二预设特征值。
可选地,该获取包括多个预设特征值以及对应的拼音字符的映射关系,包括:
根据当前应用程序所属的应用组,从该应用组对应的共享文件中获取该映射关系,该应用组中包括至少一个应用程序。
可选地,该调用深度学习模型,对该第二文本进行处理,得到该处理结果,包括:
根据当前应用程序所属的应用组,从该应用组对应的共享文件中获取该深度学习模型的模型文件;
通过调用该模型文件运行该深度学习模型,对该第二文本进行处理,得到该处理结果。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图3是本申请实施例提供的一种基于深度学习的文本处理方法的流程图,本申请实施例的执行主体为计算机设备,该计算机设备可以为图1所示的终端101,也可以为图1所示的服务器102。参见图3,该方法包括以下内容。
301、根据样本集合,训练深度学习模型,样本集合中包括多条样本文本和该多条样本文本对应的样本处理结果。
其中,样本集合为用于对深度学习模型进行训练的集合。可选地,样本处理结果可以是人为对样本文本进行处理后的处理结果。例如,在文本分类场景下,样本处理结果可以是人为确定的样本文本的分类结果。
可选地,计算机设备根据样本集合,训练深度学习模型,可以包括:将样本集合中的任一样本文本输入至深度学习模型中,通过该深度学习模型对该样本文本进行处理,得到该样本文本对应的预测处理结果;根据预测处理结果与该样本文本对应的样本处理结果之间的误差,调整该深度学习模型的模型参数,以使该误差收敛。
可选地,通过该深度学习模型对该样本文本进行处理,得到该样本文本对应的预测处理结果,可以包括:通过该深度学习模型对该样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为该样本文本对应的预测处理结果。
例如,深度学习模型为广告识别模型,深度学习模型对样本文本进行处理后,得到多个分类结果的概率,其中,分类结果为“白文本”的概率为10%,分类结果为“广告文本”的概率为90%,则将“广告文本”作为样本文本对应的预测处理结果。其中,“广告文本”是指该文本为包括广告信息的文本;“白文本”是指该文本为正常文本,不涉及广告等信息的文本。
另外,在根据样本集合,训练深度学习模型时,可以直接将样本文本输入至深度学习模型中,也可以先对样本文本进行预处理,将预处理后的样本文本输入至深度学习模型中。
可选地,深度学习模型为用于对目标类型字符进行处理的模型,若样本文本中包括的字符也是目标类型字符,则可以直接将样本文本输入至深度学习模型中,训练该深度学习模型。例如,深度学习模型为用于对拼音字符进行处理的模型,而样本文本中包括的字符也是拼音字符,则可以直接将样本文本输入至深度学习模型中。或者,若样本文本中包括非目标类型字符,则需要对样本文本进行预处理,将样本文本中的非目标类型字符转换为目标类型字符,之后,将预处理后的样本文本输入至深度学习模型中,训练该深度学习模型。例如,深度学习模型为用于对拼音字符进行处理的模型,而多条样本集合中的样本文本中包括汉字字符,则需要将样本文本中的汉字字符转换为拼音字符,得到预处理后的样本文本,输入至深度学习模型中。
可选地,在根据样本集合训练深度学习模型时,可以按照样本集合中的多条样本文本的排列顺序,依次从样本集合中获取样本文本和样本处理结果,来训练该深度学习模型。
可选地,深度学习模型为用于对文本进行分类的模型,样本集合中的多条样本文本可以包括多条目标类型样本文本和多条非目标类型样本文本,根据样本集合中的多条样本文本,对深度学习模型进行训练,以使深度学习模型可以识别文本的不同类型。
例如,深度学习模型为用于识别广告的深度学习模型,在训练深度学习模型时,可以获取多个样本文本和该多个样本文本对应的样本分类,该多个样本文本中包括广告样本文本和非广告样本文本,广告样本文本对应的样本分类为广告文本,非广告样本文本对应的样本分类为白文本,根据多个样本文本和该多个样本文本对应的样本分类,训练该深度学习模型。
目前,广告的发送者为了避免广告被深度学习模型识别出来,可能会在广告文本中添加一些符号,将语句隔开,造成语句不连贯的问题,如果先根据广告文本以及广告文本对应的分类结果对深度学习模型进行训练,深度学习模型可能会不能很好地理解广告文本内容的语义,从而影响深度学习模型的训练速度和输出结果的准确性。本申请实施例先根据白文本对深度学习模型进行训练,可以提高深度学习模型的语义理解能力,之后,再根据广告文本和广告文本对应的分类结果,对深度学习模型进行训练,能够提高深度学习模型对广告的识别能力。
另外,在根据样本集合训练深度学习模型时,可以先构建好深度学习模型,根据样本集合,对该构建好的深度学习模型进行训练。如图4所示,也可以是先对语言模型进行训练,在语言模型训练完成后,在该语言模型之后添加预测层。
例如,如图4所示,上述步骤301包括以下步骤。
3011、根据多条非目标类样本文本对语言模型进行训练,该语言模型为用于根据前至少一个词语确定下一个词语的模型。
3012、根据目标类型样本文本对该语言模型进行训练。
3013、该语言模型训练完成之后,在该语言模型之后添加预测层,构建深度学习模型,在构建深度学习模型之后,根据样本集合,对该深度学习模型进行训练。
其中,语言模型可以根据样本文本中的前至少一个词语,确定该样本文本中的下一个词语的概率,从而获取该样本文本中该语句的概率,该语句的概率为该语句中的每一个词语组成该语句的概率。由于本申请实施例通过非目标类样本文本和目标类样本文本对语言模型进行训练,因此,训练后的语言模型可以确定样本文本中的语句为目标类语句的概率,或者非目标语句的概率,预测层可以根据样本文本中的语句为目标类语句的概率,或者为非目标类语句的概率,对文本进行处理,如对该语句进行分类等。
由于在训练语言模型的时候,不需要对样本文本进行标注,只需要在添加预测层之后,使用样本文本以及样本文本的分类结果进行训练,因此,在样本文本的数量较少时,该种训练方式的训练效果会较好。
302、获取样本集合和由样本集合训练的深度学习模型。
其中,上述步骤302可以在执行步骤301之后的任一时刻执行,例如,在执行步骤301之后,立刻执行步骤302,或者是在其他时刻执行该步骤302。
303、选取样本集合中的目标样本文本和目标样本文本对应的样本处理结果。
其中,目标样本文本可以是样本集合中的任一样本文本,也可以是从样本集合中筛选出的符合目标条件的样本文本。
在计算机设备根据样本集合,训练深度学习模型之后,深度学习模型的准确性可以得到一定的保证,此时,可以通过深度学习模型来验证样本集合中的样本文本对应的样本处理结果是否准确。
可选地,根据深度学习模型来验证样本集合中的样本文本对应的样本处理结果是否准确时,可以对样本集合进行抽查。例如,计算机设备选取样本集合中的目标样本文本和目标样本文本对应的样本处理结果,可以包括:从样本集合中随机选取目标样本文本和该目标样本文本对应的样本处理结果。
可选地,根据深度学习模型来验证样本集合中的样本文本对应的样本处理结果是否准确时,可以对样本集合中的每个样本处理结果进行验证。例如,计算机设备从样本集合中,选取样本集合中的目标样本文本和目标样本文本对应的样本处理结果,可以包括:按照多个样本文本的排列顺序,每次从样本集合中获取一条样本文本和该样本文本对应的样本处理结果,作为目标样本文本和目标样本文本对应的样本处理结果。
304、调用该深度学习模型,对该目标样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为预测处理结果。
其中,预测处理结果是深度学习模型对输入文本进行处理后,得到的该输入文本对应的处理结果。例如,若该深度学习模型为文本分类模型,则预测处理结果为输入文本的文本类型;若该深度学习模型为文本修正模型,则预测处理结果为输入文本的修正文本。
其中,计算机设备通过深度学习模型,对目标样本文本进行处理后,可以得到多个处理结果的概率,由于处理结果的概率越高,该处理结果的准确性越好,因此,计算机设备会选取概率最高的处理结果作为目标样本文本对应的预测处理结果。
例如,该深度学习模型为文本分类模型,该文本分类模型用于将文本分为第一类、第二类和第三类,该文本分类模型对目标样本文本进行处理后,会得到第一类的概率15%、第二类的概率35%和第三类的概率50%,则深度学习模型输出的预测处理结果为第三类。
又如,该深度学习模型为文本生成模型,该文本生成模型对目标样本文本进行处理,根据目标样本文本,生成该目标样本文本的解答文本,其中,文本生成模型维护有一个词汇表,在文本生成模型对目标样本文本进行处理时,该文本生成模型可以根据目标样本文本和已经生成的至少一个词语,生成下一个词语。其中,在文本生成模型生成下一个词语时,该文本生成模型会确定该词汇表中每个词语的概率,选取概率最高的词语作为生成的下一个词语。
其中,步骤303中的深度学习模型是经过训练后得到的,因此,在步骤303中,计算机设备通过深度学习模型,对该目标样本文本进行处理,得到该目标样本文本对应的预测处理结果,是指:将样本集合中的目标样本文本重新输入至深度学习模型中,通过该深度学习模型对该目标样本文本进行处理,得到的处理结果即为目标样本文本对应的预测处理结果。
可选地,若目标样本文本中包括汉字字符,计算机设备在对目标样本文本处理之前,先对目标样本文本进行预处理,之后,将预处理后的目标样本文本输入至深度学习模型中,通过深度学习模型,对该预处理后的目标样本文本进行处理,得到预处理后的目标样本文本对应的样本处理结果。可选地,对目标样本文本进行预处理可以包括:将目标样本文本中的每个汉字字符转换为拼音字符。
需要说明的是,本申请实施例仅是以深度学习模型,对目标样本文本进行处理后,得到多个处理结果的概率,选取概率最高的处理结果作为预测处理结果为例对预测处理结果的获取方式进行示例性说明,而在另一实施例中,深度学习模型在对目标样本文本进行处理后,得到预测处理结果,可以包括:深度学习模型在对目标样本文本进行处理后,仅得到一个处理结果,将该处理结果作为预测处理结果。
305、响应于预测处理结果与样本处理结果不同,对多个处理结果的概率进行统计处理,获取目标样本文本的处理结果分布特征,该处理结果分布特征用于指示深度学习模型处理目标样本文本得到的处理结果的不确定性程度。
如果预测处理结果与样本处理结果不同,说明预测处理结果和样本处理结果中有一个处理结果不准确,可能是预测处理结果不准确,也可能是样本处理结果不准确。因此,可以确定预测处理结果与样本处理结果中,哪个处理结果是准确的,那么另一个处理结果就是不准确的。
由于通过深度学习模型,对目标样本文本进行处理后,会得到多个处理结果的概率,且预测处理结果为该概率最高的处理结果。因此,可以根据多个处理结果的概率,获取目标样本文本的处理结果分布特征,来确定深度学习模型处理目标样本文本得到的处理结果的不确定性程度。
其中,该多个处理结果的概率越接近,深度学习模型处理目标样本文本的不确定性程度越高,预测处理结果的准确度越低;该多个处理结果的概率相差越大,深度学习模型处理目标样本文本的不确定性程度越低,预测处理结果的准确度越高。
例如,在广告分类的场景下,对一文本进行分类处理后,预测处理结果为“广告文本”,其他处理结果为“白文本”,若预测处理结果的概率为99%,其他处理结果的概率为1%,则深度学习模型能够确定文本为“广告文本”,深度学习模型处理目标样本文本得到的处理结果的不确定性程度较小,预测处理结果的准确性较高;若预测处理结果的概率为51%,其他处理结果的概率为49%,则深度学习模型不是很确定文本为“广告文本”,深度学习模型处理目标样本文本得到的处理结果的不确定性程度较大,预测处理结果的准确性较差。
可选地,该目标样本文本的处理结果分布特征为该目标样本文本的困惑度,该困惑度与预测处理结果的准确度呈正相关关系;或者,该目标样本文本的处理结果分布特征为该目标样本文本的信息熵,该信息熵与预测处理结果的准确度呈负相关关系。
其中,若目标样本文本的处理结果分布特征为该目标样本文本的困惑度,对多个处理结果的概率进行统计处理,获取目标样本文本的处理结果分布特征,包括:根据困惑度公式,对多个处理结果的概率进行统计处理,获取目标样本文本的困惑度。若目标样本文本的处理结果分布特征为该目标样本文本的信息熵,对多个处理结果的概率进行统计处理,获取目标样本文本的处理结果分布特征,包括:根据信息熵公式,对多个处理结果的概率进行统计处理,获取目标样本文本的信息熵。
306、对该处理结果分布特征进行统计处理,得到该预测处理结果的准确度。
由于预测处理结果的概率与其他处理结果的概率相差越大,预测处理结果的准确度越高;预测处理结果的概率与其他处理结果的概率相差越小,预测处理结果的准确度越低。因此,可以对处理结果分布特征进行统计处理,得到该预测处理结果的准确度。
307、响应于该预测处理结果的准确度大于预设准确度,对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合。
其中,预设准确度可以用于衡量预测处理结果是否准确,若该预测处理结果的准确度大于预设准确度,则该预测处理结果准确;若该预测处理结果的准确度不大于预设准确度,则该预测处理结果不准确。
可选地,可以根据预测处理结果的准确度确定预测处理结果是否准确,若预测处理结果准确,则认为样本处理结果不准确,若该预测处理结果不准确,则认为该样本处理结果准确。
其中,对样本集合中的样本处理结果进行修正,可以包括多种方式,只需保证修正后的样本集合更加准确即可。
可选地,响应于该预测处理结果与该样本处理结果不同,且预测处理结果的准确度大于预设准确度,对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合,可以包括:响应于该预测处理结果与样本处理结果不同,可以将该样本集合中的该样本处理结果替换为该预测处理结果,得到修正后的样本集合,或者,可以将该样本集合中的该目标样本文本和该样本处理结果删除,得到修正后的样本集合。
需要说明的是,本申请实施例仅是以对该处理结果分布特征进行统计处理,得到该预测处理结果的准确度,预测处理结果的准确度大于预设准确度为例对处理结果分布特征满足目标条件为例进行示例性说明。而在另一实施例中,还可以将目标样本文本的处理结果分布特征、样本处理结果和预测处理结果输入至分类模型中,通过分类模型根据目标样本文本的处理结果分布特征,确定样本处理结果和预测处理结果中准确的处理结果。
可选地,在通过分类模型根据目标样本文本的处理结果分布特征,确定样本处理结果和预测处理结果中准确的处理结果之前,该方法还包括:获取样本文本的处理结果分布特征、样本处理结果、预测处理结果和样本分类结果,其中,该样本分类结果指示预测处理结果和样本处理结果中准确的处理结果;根据样本文本的处理结果分布特征、样本处理结果、预测处理结果和样本分类结果对分类模型进行训练。后续,可以通过训练后的分类模型,对任一样本文本的处理结果分布特征、该任一样本对应的样本处理结果和预测处理结果进行处理,确定样本处理结果和预测处理结果中准确的处理结果。
需要说明的是,本申请实施例在预测处理结果与样本处理结果不同时,仅是以预测处理结果的准确度大于预设准确度为例,来对确定预测处理结果和样本处理结果中准确的处理结果的方法进行示例性说明。而在另一实施例中,由于深度学习模型是已经根据样本集合训练后的模型,因此,可以认为深度学习模型输出的预测处理结果是准确的,样本处理结果是不准确的。因此,在预测处理结果与样本处理结果不同时,可以直接对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合。
可选地,响应于该预测处理结果与该样本处理结果不同,对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合,可以包括:响应于该预测处理结果与样本处理结果不同,可以将该样本集合中的该样本处理结果替换为该预测处理结果,或者,可以将该样本集合中的该目标样本文本和该样本处理结果删除。
本申请实施例提供的基于深度学习的文本处理方法,在根据样本集合训练深度学习模型之后,会选取样本集合中的目标样本文本和目标样本文本对应的样本处理结果,通过该深度学习模型对该样本集合进行检查。如果预测处理结果与样本处理结果不同,则说明预测处理结果和样本处理结果中有一个处理结果是错误的,由于处理结果分布特征可以指示深度学习模型处理目标样本文本得到的处理结果的不确定性程度,因此,可以根据该处理结果分布特征确定预测处理结果的准确性,从而在处理结果分布特征满足目标条件时,对样本集合中的样本处理结果进行修正处理,不仅可以实现了样本集合的修正,还保证了该样本集合中的样本处理结果更加准确,提高了样本集合的准确性,后续在根据修正后的样本集合训练其他模型时,还可以提高所训练模型的准确性。
在对深度学习模型进行训练后,可以通过训练后的深度学习模型,对文本进行处理,以下实施例对基于深度学习模型对文本进行处理的过程进行示例性说明。图5是本申请实施例提供的一种基于深度学习模型的文本处理方法的流程图,本申请实施例的执行主体为计算机设备,该计算机设备可以为图1所示的终端101,也可以为图1所示的服务器102。参见图5,该方法包括以下步骤。
501、对第一文本中的每个汉字字符进行编码,得到该每个汉字字符对应的汉字特征值。
考虑到我们使用的汉字字符有4万个以上,如果使用深度学习模型对包括汉字字符的文本进行处理的话,需要预先使用包括汉字字符的样本集合对深度学习模型进行训练,为了保证深度学习模型的训练效果,该样本集合需要覆盖全部的汉字字符,从而对样本集合的要求较高,且样本集合中包括的样本文本的数量也会比较庞大,会减缓深度学习模型的训练速度。
考虑到汉字字符包括简体字和繁体字,且简体字和对应的繁体字的拼音是相同的,所代表的含义也是相同的,因此,在获取到第一文本之后,可以将汉字字符转换为拼音字符,对包括拼音字符的第二文本进行处理。
并且,若使用深度学习模型对第二文本进行处理的话,需要预先根据包括拼音字符的样本集合,对该深度学习模型进行训练,由于拼音字符的数量远小于汉字字符的数量,因此,在根据包括拼音字符的样本集合,对该深度学习模型进行训练时,会减小样本集合中样本文本的数量,从而提高了深度学习模型的训练速度。
本申请实施例中,不同的汉字字符对应不同的汉字特征值,汉字特征值用于确定唯一对应的汉字字符。汉字特征值为数值形式,不同的汉字特征值的大小不同。可选地,汉字特征值可以是汉字字符的二进制编码,也可以是四进制编码、八进制编码等,本申请实施例对汉字特征值的形式不做限定。
其中,第一文本可以是计算机设备中的任一文本,计算机设备可以通过深度学习模型对第一文本进行处理。第一文本中可以包括至少一个汉字字符,因此可以对第一文本中的每个汉字字符进行编码,得到该每个汉字字符对应的汉字特征值。其中,编码方式可以由计算机设备预先设置。
可选地,第一文本还可以包括至少一个其他字符,如英文字母、阿拉伯数字、运算符号、表情符号等。在将每个汉字字符转换为汉字特征值时,可以保留至少一个其他字符。
另外,有些文本中会交叉出现汉字字符和非汉字字符,非汉字字符的出现可能会导致深度学习模型不能很好地理解该文本的语义。例如,在识别广告的场景下,如果文本中包括“加我联系方式”,深度学习模型可以将该文本确认为广告文本,如果文本中包括“+我联系方式”,深度学习模型可能无法将该文本确认为广告文本。
可选地,为了提高深度学习模型的处理效果,本申请实施例在对深度学习模型进行训练时,还可以考虑文本中的非汉字字符,这样,在通过训练后的深度学习模型对输入的文本进行处理时,如果该文本中包括其他字符,也不会对处理结果造成影响。
502、获取包括多个预设特征值以及对应的拼音字符的映射关系,该多个预设特征值按照顺序排列。
其中,按照顺序排列的多个预设特征值可以是按照升序排列,也可以按照降序排列。
其中,该映射关系可以包括按照顺序排列的多个预设特征值和该多个预设特征值对应的拼音字符,可选地,建立该映射关系可以包括:将汉字字符进行编码,得到该汉字字符的汉字特征值,获取该汉字字符对应的拼音字符,建立该拼音字符与汉字特征值之间的映射关系。
例如,将“我”进行编码,得到汉字特征值“00100010”,获取“我”对应的拼音字符“wo”,建立“00100010”与“wo”的映射关系。又如,该映射关系可以如表1所示。
表1
汉字特征值 | 拼音字符 |
00100010 | wo |
00100011 | ni |
00100100 | hao |
00100101 | ta |
可选地,若深度学习模型无法识别汉字字符和非汉字字符,因此,在将第一文本输入至深度学习模型时,可以将文本中的字符转换为标识,其中,不同的标识指示不同的字符,表示不同的含义。
可选地,该映射关系中包括按照顺序排列的多个预设特征值以及该多个预设特征值对应的拼音字符。其中,该映射关系中的拼音字符可以是拼音本身,也可以是拼音字符的标识,如表2所示。
表2
汉字特征值 | 标识 |
00100010 | 001 |
00100011 | 002 |
00100100 | 003 |
00100101 | 004 |
可选地,拼音字符的标识为拼音字符在为深度学习模型维护的词汇表中的序号,该词汇表中包括全量的拼音字符以及每个拼音字符对应的拼音标识。这样,在将包括拼音标识的第二文本输入至深度学习模型时,可以根据该词汇表,确定第二文本中每个拼音标识对应的拼音字符。
另外,在一种可能实现方式中,目标样本文本还可以包括至少一个其他字符,如英文字母、阿拉伯数字、运算符号、表情符号等。并且,在将每个汉字字符转换为汉字特征值时,保留了至少一个其他字符。可选地,在将目标样本文本中的汉字字符转换为标识时,还可以将至少一个其他字符转换为对应的标识。
可选地,将目标样本文本中的至少一个其他字符转换为对应的标识,可以包括:获取映射关系,该映射关系包括至少一个其他字符以及每个其他字符对应的标识,其中,不同的标识指示不同的其他字符,表示不同的含义。其中,该映射关系可以如表3所示。
表3
预设特征值 | 标识 |
+ | 401 |
* | 402 |
& | 403 |
@ | 404 |
可选地,该映射关系可以包括按照顺序排列的多个预设特征值和该多个预设特征值对应的标识,其中,多个预设特征值对应的标识为多个其他字符对应的标识,多个预设特征值为多个其他字符对应的字符特征值,如表4所示。可选地,建立该映射关系可以包括:将其他字符进行编码,得到该其他字符的字符特征值,获取该其他字符对应的标识,建立该标识与字符特征值之间的映射关系。另外根据该映射关系,获取其他字符对应的标识的过程,与根据映射关系,获取汉字字符对应的拼音字符的过程类似,在此不再一一赘述。
表4
其他字符 | 标识 |
10000001 | 401 |
10000010 | 402 |
10000011 | 403 |
10000100 | 404 |
可选地,该词汇表还可以包括至少一个其他字符以及每个其他字符对应的标识,该其他字符可以包括:英文字母、阿拉伯数字、标点符号、运算符号或者表情符号等中的至少一项。在将包括其他字符的目标样本文本输入至深度学习模型时,可以根据该词汇表,确定标识指示的其他字符。
可选地,本申请实施例中的映射关系可以包括汉字字符对应的映射关系和其他字符对应的映射关系,可选地,本申请实施例中的映射关系可以包括第一映射关系和第二映射关系,其中,第一映射关系可以包括按照顺序排列的多个预设特征值和该多个预设特征值对应的拼音字符,第二映射关系可以包括至少一个其他字符以及每个其他字符对应的标识。
可选地,计算机设备上可以安装有多个应用程序,该多个应用程序可以有至少一个应用程序可以获取该映射关系。在一种可能实现方式中,获取映射关系,可以包括:根据当前应用程序所属的应用组,从该应用组对应的共享文件中获取该映射关系,该应用组中包括至少一个应用程序。其中,属于同一应用组的每个应用程序配置有一个应用组标识,可选地,当前应用程序可以向文件管理系统发送应用组标识,文件管理系统根据该应用组标识确定应用程序的身份后,允许该当前应用程序从共享文件中获取映射关系。
可选地,该映射关系可以存储在映射文件中,可以通过从共享文件中获取映射文件,获取该映射关系。
503、对于每个汉字特征值,确定该多个预设特征值中位于中间位置的第一预设特征值。
其中,查询汉字特征值对应的拼音字符时,可以根据二分法来进行查询。该二分法是指将多个预设特征值一分为二,从第一部分的多个预设特征值中查询该汉字特征值对应的拼音字符,或者从第二部分的多个预设特征值中查询该汉字特征值对应的拼音字符,查询范围从整个映射关系变为映射关系的一半,减少了查询的工作量,加快了查询速度。
在获取到第一预设特征值后,第一预设特征值与汉字特征值的关系可以是如下三种中的任一种:第一预设特征值与汉字特征值相同、第一预设特征值小于该汉字特征值和该第一预设特征值大于该汉字特征值。步骤504、步骤505和步骤506分别对该三种情况下,如何确定汉字特征值对应的拼音字符进行说明。
504、响应于该第一预设特征值与该汉字特征值相同,将该第一预设特征值对应的拼音字符,作为该汉字特征值对应的拼音字符。
其中,第一预设特征值与汉字特征值相同,则第一预设特征值对应的拼音字符,即为汉字特征值对应的拼音字符,由于汉字特征值是对汉字字符进行编码得到的,因此,该第一预设特征值对应的拼音字符即为该汉字字符对应的拼音字符。
505、响应于该第一预设特征值小于该汉字特征值,根据该多个预设特征值的顺序确定大于该第一预设特征值的第二预设特征值,直至确定的预设特征值与该汉字特征值相同,将该确定的预设特征值对应的拼音字符作为该汉字特征值对应的拼音字符。
如果第一预设特征值小于汉字特征值的话,则需要从该多个预设特征值中确定大于第一预设特征值的第二预设特征值。由于多个预设特征值是按照顺序排列的,因此,确定大于第一预设特征值时,可以按照多个预设特征值的排列顺序,确定大于第一预设特征值的多个预设特征值,从大于第一预设特征值的多个预设特征值中选取第二预设特征值,无需遍历映射关系中全部的预设特征值。
可选地,根据该多个预设特征值的顺序确定大于该第一预设特征值的第二预设特征值,可以包括:若该多个预设特征值按照降序排列,从位于该第一预设特征值之前的预设特征值中,确定第二预设特征值;若该多个预设特征值按照升序排列,从位于该第一预设特征值之后的预设特征值中,确定第二预设特征值。
可选地,在根据多个预设特征值的顺序确定大于该第一预设特征值的第二预设特征值时,可以对大于第一预设特征值的多个预设特征值进行遍历,也可以继续采用二分法来确定第二预设特征值。在一种可能实现方式中,若该多个预设特征值按照降序排列,从位于该第一预设特征值之前的预设特征值中,确定第二预设特征值,可以包括:若该多个预设特征值按照降序排列,将该第一预设特征值的上一预设特征值确定为该第二预设特征值;或者;若该多个预设特征值按照降序排列,将位于该多个预设特征值中的第一个预设特征值与该第一预设特征值的中间位置的预设特征值,确定为该第二预设特征值。
在另一种可能实现方式中,若该多个预设特征值按照升序排列,从位于该第一预设特征值之后的预设特征值中,确定第二预设特征值,可以包括:若该多个预设特征值按照升序排列,将该第一预设特征值的下一预设特征值确定为该第二预设特征值;或者;若该多个预设特征值按照升序排列,将位于该多个预设特征值中的最后一个预设特征值与该第一预设特征值的中间位置的预设特征值,确定为该第二预设特征值。
506、响应于该第一预设特征值大于该汉字特征值,根据该多个预设特征值的顺序确定小于该第一预设特征值的第三预设特征值,直至确定的预设特征值与该汉字特征值相同,将该确定的预设特征值对应的拼音字符作为该汉字特征值对应的拼音字符。
如果第一预设特征值大于汉字特征值的话,则需要从该多个预设特征值中确定小于第一预设特征值的第三预设特征值。由于多个预设特征值是按照顺序排列的,因此,确定小于第一预设特征值时,可以按照多个预设特征值的排列顺序,确定小于第一预设特征值的多个预设特征值,从小于第一预设特征值的多个预设特征值中选取第三预设特征值,无需遍历映射关系中全部的预设特征值。
可选地,根据该多个预设特征值的顺序确定小于该第一预设特征值的第三预设特征值,可以包括:若该多个预设特征值按照降序排列,从位于该第一预设特征值之后的预设特征值中,确定第三预设特征值;若该多个预设特征值按照升序排列,从位于该第一预设特征值之前的预设特征值中,确定第三预设特征值。
可选地,在根据多个预设特征值的顺序确定小于该第一预设特征值的第三预设特征值时,可以对小于第一预设特征值的多个预设特征值进行遍历,也可以继续采用二分法来确定第三预设特征值。在一种可能实现方式中,若该多个预设特征值按照降序排列,从位于该第一预设特征值之后的预设特征值中,确定第三预设特征值,可以包括:若该多个预设特征值按照降序排列,将该第一预设特征值的下一预设特征值确定为该第三预设特征值;或者;若该多个预设特征值按照降序排列,将位于该多个预设特征值中的最后一个预设特征值与该第一预设特征值的中间位置的预设特征值,确定为该第三预设特征值。
在另一种可能实现方式中,若该多个预设特征值按照升序排列,从位于该第一预设特征值之前的预设特征值中,确定第三预设特征值,可以包括:若该多个预设特征值按照升序排列,将该第一预设特征值的上一预设特征值确定为该第三预设特征值;或者;若该多个预设特征值按照升序排列,将位于该多个预设特征值中的第一个预设特征值与该第一预设特征值的中间位置的预设特征值,确定为该第三预设特征值。
可选地,该映射关系可以包括多个结构体,每个结构体包括一个预设特征值和该预设特征值对应的拼音字符,且该多个结构体按照对应的预设特征值排序。其中,在确定多个预设特征值中位于中间位置的第一预设特征值时,可以根据该多个结构体的排列顺序,快速查询到第一预设特征值。在确定其他预设特征值时,也可以根据该多个结构体之间的排列顺序,进行确定。
需要说明的是,本申请实施例仅是以步骤503至步骤506为例,对计算机设备根据每个汉字特征值与该多个预设特征值之间的大小关系以及该多个预设特征值的顺序,查询该每个汉字特征值对应的拼音字符进行示例性说明。可选地,计算机设备可以在多个预设特征值中任意选择一个第四预设特征值,根据第四预设特征值与汉字特征值之间的大小关系和多个预设特征值的顺序,查询汉字特征值对应的拼音字符。
在另一实施例中,相邻预设特征值之间的差值可以是固定值,可选地,计算机设备还可以在多个预设特征值中任意选择一个第五预设特征值,若第五预设特征值与汉字特征值相同,将第一预设特征值对应的拼音字符,作为汉字特征值对应的拼音字符;若第五预设特征值与汉字特征值不同,根据多个预设特征值的顺序以及第五预设特征值与汉字特征值之间的差值,确定与第五预设特征值的序号差等于该差值的第六预设特征值,直至确定的预设特征值与汉字特征值相同,将确定的预设特征值对应的拼音字符作为汉字特征值对应的拼音字符。
其中,第五预设特征值可以是映射关系中的第一个预设特征值、最后一个预设特征值、位于中间位置的预设特征值、或者是没有任何特殊性,随意选取的一个预设特征值。
507、将该每个汉字字符分别转换为该每个汉字特征值对应的拼音字符,得到第二文本。
可选地,拼音字符可以是拼音形式的字符,例如“wo”、“ni”、“ta”等。可选地,该拼音字符还可以是拼音标识,该拼音标识可以确定唯一的拼音字符,可选地,该拼音标识可以为数值形式。
其中,计算机设备在将每个汉字字符转换为拼音字符时,会保持汉字字符与对应的拼音字符的位置一致。
508、调用深度学习模型,对第二文本进行处理,得到处理结果。
可选地,调用深度学习模型,对第二文本进行处理,得到处理结果可以包括:调用深度学习模型,对第二文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为第二文本的处理结果。
可选地,计算机设备上安装有多个应用程序,该多个应用程序属于至少一个应用组,属于同一应用组的每个应用程序,可以该应用组对应的共享文件中获取文件。
可选地,深度学习模型可以以模型文件的形式存储在计算机设备上。在一种可能实现方式中,该通过深度学习模型,对该第二文本进行处理,得到该处理结果,可以包括:根据当前应用程序所属的应用组,从该应用组对应的共享文件中获取该深度学习模型的模型文件;通过调用该模型文件运行该深度学习模型,对该第二文本进行处理,得到该处理结果。
其中,应用程序与内存进行交互均是通过虚拟内存地址进行交互的,而不能直接访问文件的物理内存地址,可选地,计算机设备通过调用该模型文件运行该深度学习模型,对该第二文本进行处理,得到该处理结果,可以包括:将模型文件读取到缓存中,通过缓存加载机器学习框架(tflite),该机器学习框架用于运行深度学习模型,将第二文本输入至机器学习框架,通过该机器学习框架运行该深度学习模型,对该第二文本进行处理,得到处理结果。
因此,将模型文件读取到缓存中可以包括:调用read(读取)函数,根据模型文件的物理内存地址,将模型文件复制到缓存中。通过该机器学习框架运行该深度学习模型,可以包括:该机器学习框架通过读取位于缓存中的模型文件,运行该深度学习模型。
其中,机器学习框架运行深度学习模型时,会占用较大的内存,将模型文件读取到缓存中,也会占用较大的内存,如果该计算机设备为终端的话,若运行深度学习模型所占用的内存超过预设内存阈值,终端会中断运行该深度学习模型。
可选地,为了避免在终端上运行深度学习模型时,受到终端硬件的影响,可以通过mmap(一个文件或者其它对象映射进内存)将模型文件的虚拟内存地址映射至内核地址,这样,机器学习框架可以直接根据内核地址,读取模型文件的内容,无需将模型文件读取到缓存中,节约了内存空间,减小了终端中断运行深度学习模型的概率。
需要说明的是,上述基于深度学习模型对文本进行处理的过程,与深度学习模型在训练过程中,对样本文本进行处理的过程类似,在此不再一一赘述。
本申请实施例提供的基于深度学习模型的文本处理方法,先将每个汉字字符进行编码,得到每个汉字字符对应的汉字特征值,将映射关系中的多个预设特征值按照顺序排列,这样,可以根据每个汉字特征值与映射关系中多个预设特征值之间的大小关系以及多个预设特征值的顺序,查询汉字特征值对应的拼音字符,由于考虑了汉字特征值与映射关系中的预设特征值之间的大小关系,可以根据该多个预设特征值的排列顺序,更快地查询到汉字特征值对应的拼音字符,加快了查询速度,加快了获取第二文本的速度,从而加快了文本处理速度,提高了文本处理效率。
并且,本申请实施例可以将映射关系存储在应用组的共享文件中,应用程序可以根据该应用组的应用组标识,从共享文件中获取该映射关系,以使至少一个应用程序共享该映射关系,减小了计算机设备占用的内存。
另外,本申请实施例中,可以直接将汉字字符转换为拼音字符,作为模型的输入,巧妙地捕捉了全量汉字信息。并且,由于拼音字符的数量远小于汉字字符的数量,从而极大地减少了模型的大小和计算要求,使得终端可以部署较多层数的深度学习模型,提高终端上部署的模型的准确率;另外,由于拼音字符可以覆盖全量汉字字符,因此本申请实施例提供的方法也提升了模型对生僻字的识别能力,最终提升了模型对的处理效果。
以下实施例以深度学习模型为文本分类模型,对上述实施例中的方案进行示例性说明。
图6示出了一种基于文本分类模型的文本分类方法的流程图。如图6所示,该方法包括以下步骤。
601、获取样本集合,该样本集合包括多条样本文本以及该多条样本文本对应的样本分类结果。
602、将样本集合中的多条样本文本转换为对应的样本拼音文本,根据多条样本拼音文本和多个样本分类结果,对文本分类模型进行训练。
本申请实施例去除了相关技术中的分词步骤,直接将汉字字符转换为拼音字符,作为模型的输入,巧妙地捕捉了全量汉字信息。并且,由于拼音字符的数量远小于汉字字符的数量,从而极大地减少了文本分类模型的大小和计算要求,使得终端可以部署较多层数的文本分类模型;另外,由于拼音字符可以覆盖全量汉字字符,因此本申请实施例提供的方法也提升了文本分类模型对生僻字的识别能力,最终提升了文本分类模型的分类效果。
以下对根据多条样本拼音文本,对文本分类模型进行训练的训练步骤进行阐述。
例如,在对广告进行识别的场景下,广告文本采用大量生僻字替换常用汉字,以逃过文本分类模型的情况下,如果使用汉字字符对文本分类模型进行训练,该文本分类模型会生成一个囊括全量汉字字符的向量矩阵来达到识别这些生僻字的目的,而这个向量矩阵可能将占高达百兆的存储,会导致难以在终端上进行部署,或者,部署在服务器,也会对服务器的运行造成一定影响。
为了解决上述问题,在本申请实施例中,维护了一个包括约4万个汉字字符的词汇表,该词汇表囊括了全量的汉字字符。将该全量的汉字字符映射为拼音字符,得到一个将汉字字符转换成拼音字符的映射文件。其中,不带声调的拼音字符总量只在400个左右,通过将汉字字符映射为拼音字符,我们只需在文本预处理中,将每个汉字字符转换为拼音字符,作为token(词条)输入给文本分类模型,这样文本分类模型生成的向量矩阵只包含400个token,但这400个token则几乎可以覆盖全量汉字字符。
除了上述400个token,本申请实施例还添加了300个其他字符token,最终文本分类模型的token数量为700,与直接使用汉字字符相比,token数量减少了50倍以上,同时又几乎可以处理任何生僻字。
另外,在对文本分类模型进行训练后,还可以将训练后的文本分类模型进行量化处理。例如,将文本分类模型中的模型参数从单精度32位量化为单精度16位,或者单精度8位。通过将文本分类模型进行量化处理,可以减小文本分类模型的大小。由于减小了文本分类模型的大小,因此,还可以将文本分类模型部署在终端上。
例如,如图7所示,第一文本分类模型可以获取文本701,将文本701转换为拼音文本702,根据该拼音文本702对第一文本分类模型703进行训练,将训练后的第一文本分类模型703进行量化处理,得到第二文本分类模型704。
通过上述的去除分词操作、转拼音保留700个token,再加上模型混合量化技术的应用,一方面解决了相关技术中文本分类模型无法准确处理生僻字的问题,另一方面成功地将文本分类模型大小限制在2兆以内,使得其在移动端存储占用上不会存在瓶颈。
603、选取样本集合中的目标样本文本和该目标样本文本对应的样本分类结果,通过文本分类模型,对目标样本文本进行分类处理,得到目标样本文本对应的预测分类结果,根据预测分类结果对样本分类结果进行修正。
在使用样本集合对文本分类模型进行训练之后,可以再次将样本集合中的样本文本输入至文本分类模型中,若文本分类模型输出的分类结果与样本分类结果不一致,则需要确定样本集合中的样本分类结果是否标注错误。
本申请实施例提供了一个基于困惑度、信息熵、样本分类结果、预测分类结果和样本长度来分析样本集合误差的方案,将样本集合中误差较大的样本文本和样本分类结果进行删除,以提高样本集合的准确性。如图8所示,先获取样本的分类结果分布特征801、样本分类结果802和预测分类结果803,将样本的分类结果分布特征801、样本分类结果802和预测分类结果803输入至分类模型804中,获取分类模型804输出的目标分类结果805,该目标分类结果805可以指示样本分类结果正确或者错误,若目标分类结果805指示样本分类结果正确,则该样本为正确的样本,保留该样本文本以及样本识别结果。若目标分类结果805指示样本分类结果错误,则该样本为错误的样本,删除该样本文本以及样本分类结果。
604、对文本分类模型中的模型参数进行水印处理。
可选地,该文本分类模型的大小较小,可以部署在终端上,而用户在终端上对模型的使用是不可控的,为保护知识产权,防止文本分类模型被窃取盗用,还可以对文本分类模型进行水印处理,以使开发人员能够在白盒及黑盒条件下判断一个文本分类模型是否为该开发人员开发的模型。同时,还可以利用已经嵌入模型的水印,对市场中的文本分类应用进行定时监控,确保能够及时发现知识产权受到侵犯的情况。
605、对文本分类模型进行加密,将加密后的文本分类模型部署在终端上。
606、通过终端部署的文本分类模型,对输入的文本进行分类。
其中,终端上的引擎可供终端上的应用程序或者插件使用,以下以应用程序或插件调用引擎为例对终端调用文本分类模型,对文本进行分类的过程进行说明,如图9所示。
(1)由于文本分类模型和其他字符映射文件在使用过程中可能会进行更新。因此,服务器可以在文本分类模型或者其他字符映射文件更新后,将更新后的文件下发至终端,终端可以将更新后的文件,存储到共享文件中,这样,分类引擎可以直接从共享文件中获取。
(2)应用程序或者插件,将文本输入至分类引擎中,要求该分类引擎对该文本进行分类。
(3)分类引擎会读取存储在共享文本中的3个文件(汉字映射文件、其他字符映射文件、模型文件)。
(4)分类引擎根据汉字映射文件和其他字符映射文件,对文本进行预处理,通过调用模型文本运行文本分类模型,对预处理后的文本进行分类处理,得到分类结果,并根据分类结果确定该文本的类型。
(5)分类引擎将分类结果输出给到插件或应用程序。
其中,该预处理流程可以包括:根据正则表达式对输入的文本进行拆分,按照拆分规则,将文本中的汉字字符或者其他字符转换为标识,将转换后的标识组成一个标识数组。
如图10所示,对输入的文本1001进行拆分,得到文本中的多个字符,如果该字符是汉字字符,则采用第一预设编码方式,获取该汉字字符的汉字特征值1,根据该汉字特征值1查询汉字映射文件1002,得到该汉字字符对应的标识1004;如果该字符是链接字符的,则采用第二预设编码方式,获取该链接字符的字符特征值2,根据该字符特征值2查询其他字符映射文件1003,得到该链接字符对应的标识1004;依次类推,可以对不同类型的字符,采用不同的编码方式,在相应的映射文件中,查询对应的标识,在文本中的每个字符查询均查询到对应的标识1004之后,将多个标识1004组成标识数组1005。
其中,如图11所示,调用文本分类模型对文本进行处理的过程可以包括以下步骤。
1101、读取文本分类模型的模型文件到缓存中。
1102、通过缓存加载机器学习框架。
1103、将预处理得到的标识数组传入到机器学习框架中。
1104、通过机器学习框架对模型文件进行解析,以运行该模型文件对应的文本分类模型。
1105、输出分类结果。
其中,输出分类结果可以是按照类型的固定顺序输出一个概率数组。
其中,如图12所示,通过文本分类模型获取分类结果的过程可以包括以下步骤。
1201、文本分类模型对输入的文本进行处理,预测分类结果,得到多个概率。
1202、在得到多个概率之后,可以按照多个分类结果概率大小进行排序,确定多个概率中的最大值概率。
1203、根据该最大值概率确定文本的分类结果。
其中,多个分类结果可以分别是类别1、类别2和类别3,文本的分类结果为类别1、类别2和类别3中概率最大的类别。
需要说明的是,本申请实施例将汉字映射文件、其他字符映射文件、模型文件等识别引擎需要的文件存放到共享文件中,并通过服务器接口拉取服务器中配置的相应文件,从而达到动态更新文件的能力。
其中,其他字符映射文件、模型文件可以是更新周期较短的文本,且模型的训练、识别依赖于其他字符映射文件,因此,该其他字符映射文件和模型文件需要动态更新。可选地,可以将其他字符映射文件和模型文件合并为一个文件进行下发,这样可以保证字符映射文件和模型文件的同步更新。合成的文件可以如表5所示。
表5
控制信息 | 其他字符文件长度 | 其他字符文件内容 | 模型文件长度 | 模型文件内容 |
(1)控制信息:用于存储标识本文件的信息,如,该文本的版本号等。
(2)其他字符映射文件长度:用于指示其他字符文件在合成的文件中的位置,根据该字符映射文件长度,可以方便地读取该其他字符映射文件的内容。
(3)其他字符映射文件内容。
(4)模型文件长度:与其他字符映射文件同理。
(5)模型文件内容。
为了使用较少的内存快速查找到字符对应的ID(identification,标识),本申请将字符对应的特征值和标识存储在一个结构体中,将多个结构体按照对应的特征值进行排序,之后,还可以将每个结构体进行加密,将加密后的每个结构体保存在该文件中。
其中,每个结构体可以如表6所示。
表6
字段名 | 字段值 | 类型 |
特征值 | 字符对应的特征值 | Int(整数类型) |
标识 | 字符对应的标识 | Int(整数类型) |
每个结构体可以存储在映射文件中,在映射文件中多个结构体按照对应的特征值进行排序,如表7所示。
表7
文件内容 |
已加密的结构体1 |
已加密的结构体2 |
…… |
已加密的结构体3 |
另外,需要说明的是,在对文本进行预处理,将文本中的汉字字符和其他字符转换成标识时,会获取映射文件,根据映射文件将汉字字符和其他字符转换成标识。可选地,可以通过二分法来获取汉字字符和其他字符对应的标识,如图13所示,该方法包括以下步骤。
1301、确定映射关系的起始位置和结束位置。
1302、读取起始位置和结束位置的中间位置对应的预设特征值。
1303、将中间位置对应的预设特征值与汉字特征值进行比较,若中间位置对应的预设特征值等于汉字特征值,则执行步骤1304;若中间位置对应的预设特征值大于汉字特征值,则执行步骤1305;若中间位置对应的预设特征值小于汉字特征值,则执行步骤1306。
1304、返回该预设特征值对应的标识。
1305、将结束位置更新为上述中间位置之前的位置,根据起始位置和更新的结束位置重新确定更新的中间位置。
1306、将起始位置更新为上述中间位置之后的位置,根据更新的起始位置和结束位置重新确定更新的中间位置。
图14是本申请实施例提供的一种基于深度学习的文本处理装置的结构示意图,如图14所示,该装置包括以下模块。
获取模块1401,用于获取样本集合和由该样本集合训练的深度学习模型,该样本集合中包括多条样本文本和该多条样本文本对应的样本处理结果;
选取模块1402,用于选取该样本集合中的目标样本文本和该目标样本文本对应的样本处理结果;
第一处理模块1403,用于调用该深度学习模型,对该目标样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为该目标样本文本对应的预测处理结果;
第二处理模块1404,用于响应于该预测处理结果与该样本处理结果不同,对该多个处理结果的概率进行统计处理,获取该目标样本文本的处理结果分布特征,该处理结果分布特征用于指示该深度学习模型处理该目标样本文本得到的处理结果的不确定性程度;
修正模块1405,用于响应于该处理结果分布特征满足目标条件,对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合。
如图15所示,可选地,该修正模块1405,用于响应于该处理结果分布特征满足该目标条件,将该样本集合中的该样本处理结果替换为该预测处理结果,得到该修正后的样本集合,或者,将该样本集合中的该目标样本文本和该样本处理结果删除,得到该修正后的样本集合。
可选地,该修正模块1405,包括:统计处理单元1415,用于对该处理结果分布特征进行统计处理,得到该预测处理结果的准确度;
修正处理单元1425,用于响应于该预测处理结果的准确度大于预设准确度,对该样本集合中的该样本处理结果进行修正处理,得到修正后的样本集合。
可选地,该目标样本文本的处理结果分布特征为该目标样本文本的困惑度,该困惑度与该准确度呈正相关关系;或者,该目标样本文本的处理结果分布特征为该目标样本文本的信息熵,该信息熵与该准确度呈负相关关系。
可选地,该装置还包括:编码模块1406,用于对第一文本中的每个汉字字符进行编码,得到该每个汉字字符对应的汉字特征值;
映射关系获取模块1407,用于获取包括多个预设特征值以及对应的拼音字符的映射关系,该多个预设特征值按照顺序排列;
查询模块1408,用于根据每个汉字特征值与该多个预设特征值之间的大小关系以及该多个预设特征值的顺序,查询该每个汉字特征值对应的拼音字符;
转换模块1409,用于将该每个汉字字符分别转换为该每个汉字特征值对应的拼音字符,得到第二文本;
该第一处理模块1403,用于通过深度学习模型,对该第二文本进行处理,得到处理结果。
可选地,该查询模块1408,用于对于每个汉字特征值,进行如下查询处理;
确定该多个预设特征值中位于中间位置的第一预设特征值;
响应于该第一预设特征值与该汉字特征值相同,将该第一预设特征值对应的拼音字符,作为该汉字特征值对应的拼音字符;
响应于该第一预设特征值小于该汉字特征值,根据该多个预设特征值的顺序确定大于该第一预设特征值的第二预设特征值,直至确定的预设特征值与该汉字特征值相同,将该确定的预设特征值对应的拼音字符作为该汉字特征值对应的拼音字符;
响应于该第一预设特征值大于该汉字特征值,根据该多个预设特征值的顺序确定小于该第一预设特征值的第三预设特征值,直至确定的预设特征值与该汉字特征值相同,将该确定的预设特征值对应的拼音字符作为该汉字特征值对应的拼音字符。
可选地,该查询模块1408,还用于若该多个预设特征值按照降序排列,从位于该第一预设特征值之前的预设特征值中,确定第二预设特征值;
该查询模块1408,还用于若该多个预设特征值按照升序排列,从位于该第一预设特征值之后的预设特征值中,确定第二预设特征值。
可选地,该查询模块1408,还用于若该多个预设特征值按照降序排列,将该第一预设特征值的上一预设特征值确定为该第二预设特征值;或者;
该查询模块1408,还用于若该多个预设特征值按照降序排列,将位于该多个预设特征值中的第一个预设特征值与该第一预设特征值的中间位置的预设特征值,确定为该第二预设特征值。
可选地,该查询模块1408,还用于若该多个预设特征值按照升序排列,将该第一预设特征值的下一预设特征值确定为该第二预设特征值;或者;
该查询模块1408,还用于若该多个预设特征值按照升序排列,将位于该多个预设特征值中的最后一个预设特征值与该第一预设特征值的中间位置的预设特征值,确定为该第二预设特征值。
可选地,该映射关系获取模块1407,还用于根据当前应用程序所属的应用组,从该应用组对应的共享文件中获取该映射关系,该应用组中包括至少一个应用程序。
可选地,该第一处理模块1403,包括:获取单元1413,用于根据当前应用程序所属的应用组,从该应用组对应的共享文件中获取该深度学习模型的模型文件;
处理单元1423,用于通过调用该模型文件运行该深度学习模型,对该第二文本进行处理,得到该处理结果。
需要说明的是:上述实施例提供的基于深度学习的文本处理装置在对文本进行处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于深度学习的文本处理装置与基于深度学习的文本处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图16是本申请实施例提供的一种终端的结构框图。该终端1600用于执行上述实施例中终端或智能设备执行的步骤,可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1600包括有:处理器1601和存储器1602。
处理器1601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1601所执行以实现本申请中方法实施例提供的基于深度学习的文本处理方法。
在一些实施例中,终端1600还可选包括有:外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地,外围设备包括:射频电路1604、触摸显示屏1605、摄像头组件1606、音频电路1607、定位组件1608和电源1609中的至少一种。
外围设备接口1603可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中,处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上;在一些其他实施例中,处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现,本申请实施例对此不加以限定。
射频电路1604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1605是触摸显示屏时,显示屏1605还具有采集在显示屏1605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1601进行处理。此时,显示屏1605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1605可以为一个,设置终端1600的前面板;在另一些实施例中,显示屏1605可以为至少两个,分别设置在终端1600的不同表面或呈折叠设计;在再一些实施例中,显示屏1605可以是柔性显示屏,设置在终端1600的弯曲表面上或折叠面上。甚至,显示屏1605还可以设置成非矩形的不规则图形,也即异形屏。显示屏1605可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1606用于采集图像或视频。可选地,摄像头组件1606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1601进行处理,或者输入至射频电路1604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1601或射频电路1604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1607还可以包括耳机插孔。
定位组件1608用于定位终端1600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1609用于为终端1600中的各个组件进行供电。电源1609可以是交流电、直流电、一次性电池或可充电电池。当电源1609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1600还包括有一个或多个传感器1610。该一个或多个传感器1610包括但不限于:加速度传感器1611、陀螺仪传感器1612、压力传感器1613、指纹传感器1614、光学传感器1414以及接近传感器1414。
加速度传感器1611可以检测以终端1600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1611可以用于检测重力加速度在三个坐标轴上的分量。处理器1601可以根据加速度传感器1611采集的重力加速度信号,控制触摸显示屏1605以横向视图或纵向视图进行用户界面的显示。加速度传感器1611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1612可以检测终端1600的机体方向及转动角度,陀螺仪传感器1612可以与加速度传感器1611协同采集用户对终端1600的3D动作。处理器1601根据陀螺仪传感器1612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1613可以设置在终端1600的侧边框和/或触摸显示屏1605的下层。当压力传感器1613设置在终端1600的侧边框时,可以检测用户对终端1600的握持信号,由处理器1601根据压力传感器1613采集的握持信号进行左右手识别或快捷操作。当压力传感器1613设置在触摸显示屏1605的下层时,由处理器1601根据用户对触摸显示屏1605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1614用于采集用户的指纹,由处理器1601根据指纹传感器1614采集到的指纹识别用户的身份,或者,由指纹传感器1614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1614可以被设置终端1600的正面、背面或侧面。当终端1600上设置有物理按键或厂商Logo时,指纹传感器1614可以与物理按键或厂商标志集成在一起。
光学传感器1615用于采集环境光强度。在一个实施例中,处理器1601可以根据光学传感器1615采集的环境光强度,控制触摸显示屏1605的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1605的显示亮度;当环境光强度较低时,调低触摸显示屏1605的显示亮度。在另一个实施例中,处理器1601还可以根据光学传感器1615采集的环境光强度,动态调整摄像头组件1606的拍摄参数。
接近传感器1616,也称距离传感器,通常设置在终端1600的前面板。接近传感器1616用于采集用户与终端1600的正面之间的距离。在一个实施例中,当接近传感器1616检测到用户与终端1600的正面之间的距离逐渐变小时,由处理器1601控制触摸显示屏1605从亮屏状态切换为息屏状态;当接近传感器1616检测到用户与终端1600的正面之间的距离逐渐变大时,由处理器1601控制触摸显示屏1605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图16中示出的结构并不构成对终端1600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图17是本申请实施例提供的一种服务器的结构示意图,该服务器1700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)1701和一个或一个以上的存储器1702,其中,存储器1702中存储有至少一条指令,至少一条指令由处理器1701加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器1700可以用于执行上述基于深度学习的文本处理方法中服务器所执行的步骤。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令,该至少一条指令由处理器加载并执行以实现上述实施例的基于深度学习的文本处理方法中所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条指令,该至少一条指令由处理器加载并执行以实现上述实施例的基于深度学习的文本处理方法中所执行的操作。
本申请实施例还提供了一种计算机程序,该计算机程序中存储有至少一条指令,该至少一条指令由处理器加载并执行,以实现上述实施例的基于深度学习的文本处理方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上该仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种基于深度学习的文本处理方法,其特征在于,所述方法包括:
获取样本集合和由所述样本集合训练的深度学习模型,所述样本集合中包括多条样本文本和所述多条样本文本对应的样本处理结果;
选取所述样本集合中的目标样本文本和所述目标样本文本对应的样本处理结果;
调用所述深度学习模型,对所述目标样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为所述目标样本文本对应的预测处理结果;
响应于所述预测处理结果与所述样本处理结果不同,对所述多个处理结果的概率进行统计处理,获取所述目标样本文本的处理结果分布特征,所述处理结果分布特征用于指示所述深度学习模型处理所述目标样本文本得到的处理结果的不确定性程度;
响应于所述处理结果分布特征满足目标条件,对所述样本集合中的所述样本处理结果进行修正处理,得到修正后的样本集合。
2.根据权利要求1所述的方法,其特征在于,所述响应于所述处理结果分布特征满足目标条件,对所述样本集合中的所述样本处理结果进行修正处理,得到修正后的样本集合,包括:
响应于所述处理结果分布特征满足所述目标条件,将所述样本集合中的所述样本处理结果替换为所述预测处理结果,得到所述修正后的样本集合,或者,将所述样本集合中的所述目标样本文本和所述样本处理结果删除,得到所述修正后的样本集合。
3.根据权利要求1所述的方法,其特征在于,所述响应于所述处理结果分布特征满足目标条件,对所述样本集合中的所述样本处理结果进行修正处理,得到修正后的样本集合,包括:
对所述处理结果分布特征进行统计处理,得到所述预测处理结果的准确度;
响应于所述预测处理结果的准确度大于预设准确度,对所述样本集合中的所述样本处理结果进行修正处理,得到所述修正后的样本集合。
4.根据权利要求3所述的方法,其特征在于,所述处理结果分布特征为所述目标样本文本的困惑度,所述困惑度与所述预测处理结果的准确度呈正相关关系;或者,
所述处理结果分布特征为所述目标样本文本的信息熵,所述信息熵与所述预测处理结果的准确度呈负相关关系。
5.根据权利要求1所述的方法,其特征在于,所述获取样本集合和由所述样本集合训练的深度学习模型之后,所述方法还包括:
对第一文本中的每个汉字字符进行编码,得到所述每个汉字字符对应的汉字特征值;
获取包括多个预设特征值以及对应的拼音字符的映射关系,所述多个预设特征值按照顺序排列;
根据每个汉字特征值与所述多个预设特征值之间的大小关系以及所述多个预设特征值的顺序,查询所述每个汉字特征值对应的拼音字符;
将所述每个汉字字符分别转换为所述每个汉字特征值对应的拼音字符,得到第二文本;
调用所述深度学习模型,对所述第二文本进行处理,得到处理结果。
6.根据权利要求5所述的方法,其特征在于,所述根据每个汉字特征值与所述多个预设特征值之间的大小关系以及所述多个预设特征值的顺序,查询所述每个汉字特征值对应的拼音字符,包括:
对于每个汉字特征值,进行如下查询处理:
确定所述多个预设特征值中位于中间位置的第一预设特征值;
响应于所述第一预设特征值与所述汉字特征值相同,将所述第一预设特征值对应的拼音字符,作为所述汉字特征值对应的拼音字符;
响应于所述第一预设特征值小于所述汉字特征值,根据所述多个预设特征值的顺序确定大于所述第一预设特征值的第二预设特征值,直至确定的预设特征值与所述汉字特征值相同,将所述确定的预设特征值对应的拼音字符作为所述汉字特征值对应的拼音字符;
响应于所述第一预设特征值大于所述汉字特征值,根据所述多个预设特征值的顺序确定小于所述第一预设特征值的第三预设特征值,直至确定的预设特征值与所述汉字特征值相同,将所述确定的预设特征值对应的拼音字符作为所述汉字特征值对应的拼音字符。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个预设特征值的顺序确定大于所述第一预设特征值的第二预设特征值,包括:
若所述多个预设特征值按照降序排列,从位于所述第一预设特征值之前的预设特征值中,确定所述第二预设特征值;
若所述多个预设特征值按照升序排列,从位于所述第一预设特征值之后的预设特征值中,确定所述第二预设特征值。
8.根据权利要求7所述的方法,其特征在于,所述若所述多个预设特征值按照降序排列,从位于所述第一预设特征值之前的预设特征值中,确定所述第二预设特征值,包括:
若所述多个预设特征值按照降序排列,将所述第一预设特征值的上一预设特征值确定为所述第二预设特征值;或者;
若所述多个预设特征值按照降序排列,将位于所述多个预设特征值中的第一个预设特征值与所述第一预设特征值的中间位置的预设特征值,确定为所述第二预设特征值。
9.根据权利要求7所述的方法,其特征在于,所述若所述多个预设特征值按照升序排列,从位于所述第一预设特征值之后的预设特征值中,确定所述第二预设特征值,包括:
若所述多个预设特征值按照升序排列,将所述第一预设特征值的下一预设特征值确定为所述第二预设特征值;或者;
若所述多个预设特征值按照升序排列,将位于所述多个预设特征值中的最后一个预设特征值与所述第一预设特征值的中间位置的预设特征值,确定为所述第二预设特征值。
10.根据权利要求5所述的方法,其特征在于,所述获取包括多个预设特征值以及对应的拼音字符的映射关系,包括:
根据当前应用程序所属的应用组,从所述应用组对应的共享文件中获取所述映射关系,所述应用组中包括至少一个应用程序。
11.根据权利要求5所述的方法,其特征在于,所述调用深度学习模型,对所述第二文本进行处理,得到所述处理结果,包括:
根据当前应用程序所属的应用组,从所述应用组对应的共享文件中获取所述深度学习模型的模型文件;
通过调用所述模型文件运行所述深度学习模型,对所述第二文本进行处理,得到所述处理结果。
12.一种基于深度学习的文本处理装置,其特征在于,所述装置包括:
获取模块,用于获取样本集合和由所述样本集合训练的深度学习模型,所述样本集合中包括多条样本文本和所述多条样本文本对应的样本处理结果;
选取模块,用于选取所述样本集合中的目标样本文本和所述目标样本文本对应的样本处理结果;
第一处理模块,用于调用所述深度学习模型,对所述目标样本文本进行处理,得到多个处理结果的概率,选取概率最高的处理结果作为所述目标样本文本对应的预测处理结果;
第二处理模块,用于响应于所述预测处理结果与所述样本处理结果不同,对所述多个处理结果的概率进行统计处理,获取所述目标样本文本的处理结果分布特征,所述处理结果分布特征用于指示所述深度学习模型处理所述目标样本文本得到的处理结果的不确定性程度;
修正模块,用于响应于所述处理结果分布特征满足目标条件,对所述样本集合中的所述样本处理结果进行修正处理,得到修正后的样本集合。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如权利要求1至11任一项所述的基于深度学习的文本处理方法中所执行的操作。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至11任一项所述的基于深度学习的文本处理方法中所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010328375.6A CN111209377B (zh) | 2020-04-23 | 2020-04-23 | 基于深度学习的文本处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010328375.6A CN111209377B (zh) | 2020-04-23 | 2020-04-23 | 基于深度学习的文本处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111209377A true CN111209377A (zh) | 2020-05-29 |
CN111209377B CN111209377B (zh) | 2020-08-04 |
Family
ID=70787317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010328375.6A Active CN111209377B (zh) | 2020-04-23 | 2020-04-23 | 基于深度学习的文本处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209377B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597809A (zh) * | 2020-06-09 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 训练样本获取方法、模型训练方法、装置以及设备 |
CN112132733A (zh) * | 2020-09-22 | 2020-12-25 | 厦门大学嘉庚学院 | 基于混沌的智能模型黑盒水印触发集自动标注算法 |
CN112767916A (zh) * | 2021-02-05 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 智能语音设备的语音交互方法、装置、设备、介质及产品 |
CN114417987A (zh) * | 2022-01-11 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法、数据识别方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239761A1 (en) * | 2013-07-12 | 2016-08-18 | Microsoft Technology Licensing, Llc | Feature completion in computer-human interactive learning |
CN106291712A (zh) * | 2015-06-29 | 2017-01-04 | 中国石油化工股份有限公司 | 一种针对钻后数据的数据处理方法 |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN109447125A (zh) * | 2018-09-28 | 2019-03-08 | 北京达佳互联信息技术有限公司 | 分类模型的处理方法、装置、电子设备及存储介质 |
CN109544150A (zh) * | 2018-10-09 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 一种分类模型生成方法及装置、计算设备及存储介质 |
US20200004921A1 (en) * | 2019-08-30 | 2020-01-02 | Bikram Baidya | Random forest model for prediction of chip layout attributes |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
-
2020
- 2020-04-23 CN CN202010328375.6A patent/CN111209377B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160239761A1 (en) * | 2013-07-12 | 2016-08-18 | Microsoft Technology Licensing, Llc | Feature completion in computer-human interactive learning |
CN106291712A (zh) * | 2015-06-29 | 2017-01-04 | 中国石油化工股份有限公司 | 一种针对钻后数据的数据处理方法 |
CN107301225A (zh) * | 2017-06-20 | 2017-10-27 | 挖财网络技术有限公司 | 短文本分类方法及装置 |
CN109447125A (zh) * | 2018-09-28 | 2019-03-08 | 北京达佳互联信息技术有限公司 | 分类模型的处理方法、装置、电子设备及存储介质 |
CN109544150A (zh) * | 2018-10-09 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 一种分类模型生成方法及装置、计算设备及存储介质 |
US20200004921A1 (en) * | 2019-08-30 | 2020-01-02 | Bikram Baidya | Random forest model for prediction of chip layout attributes |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597809A (zh) * | 2020-06-09 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 训练样本获取方法、模型训练方法、装置以及设备 |
CN111597809B (zh) * | 2020-06-09 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 训练样本获取方法、模型训练方法、装置以及设备 |
CN112132733A (zh) * | 2020-09-22 | 2020-12-25 | 厦门大学嘉庚学院 | 基于混沌的智能模型黑盒水印触发集自动标注算法 |
CN112132733B (zh) * | 2020-09-22 | 2022-06-03 | 厦门大学嘉庚学院 | 基于混沌的智能模型黑盒水印触发集自动标注算法 |
CN112767916A (zh) * | 2021-02-05 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 智能语音设备的语音交互方法、装置、设备、介质及产品 |
CN112767916B (zh) * | 2021-02-05 | 2024-03-01 | 百度在线网络技术(北京)有限公司 | 智能语音设备的语音交互方法、装置、设备、介质及产品 |
CN114417987A (zh) * | 2022-01-11 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法、数据识别方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111209377B (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111209377B (zh) | 基于深度学习的文本处理方法、装置、设备及介质 | |
CN110750992B (zh) | 命名实体识别方法、装置、电子设备及介质 | |
CN109189879B (zh) | 电子书籍显示方法及装置 | |
CN110162604B (zh) | 语句生成方法、装置、设备及存储介质 | |
CN111104980B (zh) | 确定分类结果的方法、装置、设备及存储介质 | |
CN111507094B (zh) | 基于深度学习的文本处理模型训练方法、装置及设备 | |
CN111339737B (zh) | 实体链接方法、装置、设备及存储介质 | |
CN112036492B (zh) | 样本集处理方法、装置、设备及存储介质 | |
CN110942046B (zh) | 图像检索方法、装置、设备及存储介质 | |
CN113822322B (zh) | 图像处理模型训练方法及文本处理模型训练方法 | |
CN111738365B (zh) | 图像分类模型训练方法、装置、计算机设备及存储介质 | |
CN110555102A (zh) | 媒体标题识别方法、装置及存储介质 | |
CN112053360B (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN114328815A (zh) | 文本映射模型的处理方法、装置、计算机设备及存储介质 | |
CN114281936A (zh) | 分类方法、装置、计算机设备及存储介质 | |
CN110728167A (zh) | 文本检测方法、装置及计算机可读存储介质 | |
CN113761195A (zh) | 文本分类方法、装置、计算机设备及计算机可读存储介质 | |
CN110377914B (zh) | 字符识别方法、装置及存储介质 | |
CN112287070A (zh) | 词语的上下位关系确定方法、装置、计算机设备及介质 | |
CN113032560B (zh) | 语句分类模型训练方法、语句处理方法及设备 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN114925667A (zh) | 内容分类方法、装置、设备及计算机可读存储介质 | |
CN111104566B (zh) | 特征索引编码方法、装置、电子设备及存储介质 | |
CN110096707B (zh) | 生成自然语言的方法、装置、设备及可读存储介质 | |
CN113486260A (zh) | 互动信息的生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |