CN113569043A - 一种文本类别确定方法和相关装置 - Google Patents
一种文本类别确定方法和相关装置 Download PDFInfo
- Publication number
- CN113569043A CN113569043A CN202110112234.5A CN202110112234A CN113569043A CN 113569043 A CN113569043 A CN 113569043A CN 202110112234 A CN202110112234 A CN 202110112234A CN 113569043 A CN113569043 A CN 113569043A
- Authority
- CN
- China
- Prior art keywords
- text
- category
- target
- classification model
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000013145 classification model Methods 0.000 claims abstract description 119
- 230000006870 function Effects 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims description 81
- 238000000605 extraction Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 5
- 230000001976 improved effect Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 70
- 238000005516 engineering process Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种文本类别确定方法,所述方法包括:获取包括来自N个文本领域的文本样本的第一样本集中的目标样本,目标样本标注有实际文本类别;根据目标样本确定出初始类别分类模型的输入数据,通过初始类别分类模型输出对应目标样本的N个类别识别结果,初始类别分类模型包括与N个文本领域一一对应的N个类别识别模块;确定目标样本分别与N个文本领域间的关联概率;根据关联概率、类别识别结果和实际文本类别确定分别对应N个类别识别模块的损失函数;根据损失函数对初始类别分类模型进行训练,从而使最终得到的类别分类模型在学习到各个领域本身的特点之外,还能够融合不同领域之间的相关知识,一定程度上提高了文本分类的准确度。
Description
技术领域
本申请涉及数据处理领域,特别是涉及一种文本类别确定方法和相关装置。
背景技术
随着互联网技术的发展,大量用户通过互联网进行学习、工作、社交。在使用互联网的过程中,用户会收发、查看大量的文本内容,这些文本内容所包含的信息良莠不齐,加之互联网的传播速度快,如果不对有问题的文本内容进行识别、管控,将会对互联网造成不利影响。
如何精准的识别文本类别是维护互联网安全的重要手段之一。然而,文本内容有着不同的来源,例如用户搜索时输入的关键词,网页中的文章、公众号文章等,目前的相关技术主要采用通用的分类模型来对所有来源的文本进行类别识别。
由于不同来源的文本间存在很大的领域差异,通用分类模型难以注意到这些差异,导致针对不同来源的文本分类识别效果差异很大。
发明内容
为了解决上述技术问题,本申请提供了一种文本类别确定方法,使得类别分类模型在训练时学习到各个领域本身的特点之外,还能够融合不同领域之间的相关知识,提高了文本分类的准确度。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种文本类别确定方法,其特征在于,所述方法包括:
获取包括来自N个文本领域的文本样本的第一样本集,目标样本为所述第一样本集中的任意一个文本样本,所述目标样本标注有对应的实际文本类别,N≥2;
根据所述目标样本确定出初始类别分类模型的输入数据,通过所述初始类别分类模型输出对应所述目标样本的N个类别识别结果,所述初始类别分类模型包括与所述N个文本领域一一对应的N个类别识别模块,其中一个所述类别识别模块输出一个所述类别识别结果;
确定所述目标样本分别与所述N个文本领域间的关联概率;
根据所述关联概率、所述类别识别结果和所述实际文本类别确定分别对应N个类别识别模块的损失函数;
根据所述损失函数对所述初始类别分类模型进行训练,得到类别分类模型,所述类别分类模型用于确定待识别文本的文本类别。
第二方面,本申请实施例提供了一种文本类别确定装置,所述装置包括第一获取单元、第一确定单元、第二确定单元、第三确定单元和训练单元:
所述第一获取单元,用于获取包括来自N个文本领域的文本样本的第一样本集,目标样本为所述第一样本集中的任意一个文本样本,所述目标样本标注有对应的实际文本类别,N≥2;
所述第一确定单元,用于根据所述目标样本确定出初始类别分类模型的输入数据,通过所述初始类别分类模型输出对应所述目标样本的N个类别识别结果,所述初始类别分类模型包括与所述N个文本领域一一对应的N个类别识别模块,其中一个所述类别识别模块输出一个所述类别识别结果;
所述第二确定单元,用于确定所述目标样本分别与所述N个文本领域间的关联概率;
所述第三确定单元,用于根据所述关联概率、所述类别识别结果和所述实际文本类别确定分别对应N个类别识别模块的损失函数;
所述训练单元,用于根据所述损失函数对所述初始类别分类模型进行训练,得到类别分类模型,所述类别分类模型用于确定待识别文本的文本类别。
第三方面,本申请实施例提供了一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面中所述的文本类别确定方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行第一方面中所述的文本类别确定方法。
由上述技术方案可以看出,通过获取包括来自N个文本领域的文本样本的第一样本集,可以将文本样本所来自的文本领域标注为其实际文本类别,并通过该第一样本集训练初始类别分类模型以得到类别分类模型。初始类别分类模型中包括与N个文本领域一一对应的N个类别识别模块,不同的类别识别模块专用于识别所对应文本领域的文本。虽然来自同一个文本领域的文本在表达上具有相似性,但是也会与其他文本领域的表达方式具有一定的关联性,故为了提高类别分类模型对N个文本领域中文本的类别识别精度,需要通过训练使得各个类别识别模块能够学习到其他文本领域中适用于本文本领域的知识。针对根据第一样本集中的目标样本确定的输入数据,可以通过该初始类别分类模型中N个类别识别模块分别输出对应目标样本的N个类别识别结果,即对应不同文本领域的类别识别模块都会对来自一个文本领域的目标样本做出类别识别结果。为了能够让类别识别模块合理的学习到其他文本领域中的有效知识,可以确定出该目标样本分别与N个文本领域间的关联概率,该关联概率可以体现出目标样本在表达形式上分别与N个文本领域的关联程度,根据该关联概率、类别识别结果和实际文本类别确定分别或对应N个类别识别模块的损失函数,通过该损失函数可以使模型能够基于目标样本与各个文本领域之间的关联程度,适度学习其他文本领域的有效知识。以此训练得到的类别分类模型,能够基于各个文本领域自身的文本特点以及不同文本领域之间的相关特点,较为精确的对来自不同文本领域的待识别文本的文本类别进行判断,提高了分类的合理性和准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实际应用场景中文本类别确定方法的示意图;
图2为本申请实施例提供的一种文本类别确定方法的流程图;
图3为本申请实施例提供的一种文本类别确定方法的示意图;
图4为本申请实施例提供的一种文本类别确定方法的示意图;
图5为本申请实施例提供的一种实际应用场景中文本类别确定方法的流程图;
图6为本申请实施例提供的一种实际应用场景中文本类别确定方法的示意图;
图7为本申请实施例提供的一种文本类别确定装置的结构框图;
图8为本申请实施例提供的一种计算机设备的结构图;
图9为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
为了能够对多个文本领域的文本内容进行识别分类,在相关技术中通常会利用到一个多任务模型来处理来自多个文本领域的文本内容,该多任务模型中针对于每一个文本领域都设置有一个对应的识别模块。然而,在训练该多任务模型的过程中,仅会将每一个文本样本输入该样本所述领域对应的识别模块中进行训练,这就会导致其他识别模块学习不到该文本样本所对应文本领域的文本特点,从而难以提高分类模型的准确度。
为了解决上述技术问题,本申请提供了一种文本类别确定方法,在对模型进行训练时,处理设备可以将来自某一文本领域的目标样本同时输入到多个类别识别模块中,并且采用该目标样本与多个文本领域间的关联概率对模型学习不同领域间相关知识的过程进行约束,从而使最终得到的类别分类模型在学习到各个领域本身的特点之外,还能够融合不同领域之间的相关知识,一定程度上提高了文本分类的准确度。
可以理解的是,该方法可以应用于处理设备上,该处理设备为具有文本类别确定功能的处理设备,例如可以是具有文本类别确定功能的终端设备或服务器。该方法由终端设备或服务器独立执行,也可以应用于终端设备和服务器通信的网络场景,通过终端设备和服务器配合运行。其中,终端设备可以为手机、台式计算机、个人数字助理(PersonalDigital Assistant,简称PDA)、平板电脑等设备。服务器可以理解为是应用服务器,也可以为Web服务器,在实际部署时,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
此外,本申请还涉及人工智能技术(Artificial Intelligence,AI)。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,本申请技术方案主要涉及其中的机器学习技术、自然语言处理技术和计算机视觉技术。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
例如,在本申请实施例中,处理设备可以通过计算机视觉技术识别样本文本的文本内容,然后通过自然语言处理技术理解该文本内容对应的语义,通过该语义来对该文本内容进行分类处理。此外,处理设备还可以利用机器学习技术,通过损失函数对初始类别分类模型进行较为复杂的重复训练,从而得到一个较为精确的类别分类模型。
为了便于理解本申请的技术方案,接下来将结合附图,对本申请实施例提供的一种实际应用场景中文本类别确定方法进行介绍。
参见图1,图1为本申请实施例提供的一种实际应用场景中文本类别确定方法的示意图,在该实际应用场景中,处理设备为服务器101,该服务器101中存在一个初始类别分类模型,该初始类别分类模型能够用于训练得到针对多个文本领域的类别分类模型。
其中,如图1所示,在该初始类别分类模型中包括3个类别识别模块,类别识别模块1、类别识别模块2和类别识别模块3分别用于确定文本领域1、文本领域2和文本领域3的文本的文本类别。基于此,为了使该初始类别分类模型能够学习到不同文本领域之间的相关知识,服务器101可以使每一个类别识别模块都学习到其它类别识别模块所对应文本领域的相关特点。
首先,服务器101可以获取包括来自文本领域1、文本领域2和文本领域3这三个文本领域的文本样本的第一样本集,从中任意选择一个文本样本作为目标样本,该目标样本标注有对应的实际文本类别。为了使模型能够较为准确的理解文本样本,服务器101可以先根据该目标样本确定出初始类别分类模型的输入数据,例如该输入数据可以为经过特征提取处理后的目标样本。
在该实际应用场景中,目标样本所属的文本领域可以为文本领域1,为了使对应文本领域2和文本领域3的类别识别模块也能够学习到该文本领域1的相关信息,服务器101在训练过程中,除了将该输入数据输入到类别识别模块1以外,还可以输入到类别识别模块2和类别识别模块3中,使3个类别识别模块都能够输出一个对应的类别识别结果。其中,除了类别识别结果1能够体现出文本领域1自身的特点之外,通过类别识别结果2和类别识别结果3,能够分别体现出文本领域2和文本领域3与文本领域1之间的相关知识。
此时,为了进一步提高训练的精确度,服务器101还可以确定该目标样本分别与三个文本领域间的关联概率,该关联概率能够体现出该目标样本与三个文本领域之间的关联程度。在通常情况下,目标样本与一个文本领域的关联程度越高,可以说明该文本领域能够学习目标样本所来自文本领域的相关知识就越多,服务器101可以根据该关联概率、3个类别识别结果和该实际文本类别,确定分别对应3个类别识别模块的损失函数。例如,针对类别识别模块2,通过类别识别结果2和实际文本类别之间的差异,在一定程度上能够体现出文本领域1中有利于对文本领域的文本进行分类的相关知识;通过目标样本与文本领域2之间的关联概率,能够对类别识别模块2针对该相关知识的学习进行合理约束。
从而,在根据该损失函数对初始类别分类模型进行训练时,能够在学习不同文本领域之间相关知识的同时,对学习的程度进行管控,使最终训练得到的类别分类模型中的各个类别识别模块能够较为合理的融合不同文本领域的有效知识,提高了模型对待识别文本进行文本类别分类的准确度。
接下来,将结合附图,对本申请实施例提供的一种文本类别确定方法进行介绍。
参见图2,图2为本申请实施例提供的一种文本类别确定方法的流程图,该方法包括:
S201:获取包括来自N个文本领域的文本样本的第一样本集。
为了使模型能够通过学习多个文本领域的特点来提高对文本分类的精确度,处理设备在进行模型训练时,首先可以获取来自多个文本领域的文本样本的样本集,例如可以为包括来自网页、文章和查询信息的文本等。例如,在本申请实施例中,处理设备可以获取包括来自N个文本领域的文本样本的第一样本集,这些文本样本都具有明确的文本领域来源,其中N≥2。
处理设备可以基于该第一样本集对初始类别分类模型进行训练,为了便于说明,以第一样本集中的一个文本样本:目标样本为例进行方案的描述。
处理设备基于该目标样本确定此次模型训练的模型输入。其中,该目标样本标注有对应的实际文本类别,该实际文本类别用于标识该目标样本在待训练模型所针对的分类场景中的实际文本类别。例如,当待训练模型为用于判断文本是否为色情文本的模型时,该实际文本类别可以标注该目标样本是否为包括色情内容的文本。
S202:根据目标样本确定出初始类别分类模型的输入数据,通过初始类别分类模型输出对应目标样本的N个类别识别结果。
其中,该初始类别分类模型为上述用于进行文本类别判断的待训练模型,该初始类别分类模型中包括N个类别识别模块,N个类别识别模块与N个文本领域一一对应,即一个类别识别模块用于对一个文本领域的文本进行文本类别识别。
相关技术中,在对具有相似结构的模型进行训练时,处理设备仅仅会将文本样本输入到与其文本领域对应的类别识别模块中,这就会导致在训练过程中只有类别识别模块能够学习到该文本领域的特点,其他文本领域对应的类别识别模块则无法进行学习。而在实际情况中,由于不同文本领域的文本之间可能在表达等方面具有一定的相似性,例如在文本特点、表达形式上可能有具有关联的部分,因此,通过学习其他文本领域的相关知识,有助于类别识别模块更准确的对自身文本领域的文本进行分类。
基于此,在本申请实施例中,处理设备在训练过程中可以根据同一目标样本对多个类别识别模块进行输入,从而实现不同文本领域之间的相互学习。首先,为了使模型能够基于该目标样本进行训练,处理设备可以先根据目标样本确定出初始类别分类模型的输入数据,即将该目标样本转换为使初始类别分类模型能够较为高效训练的数据格式,例如可以将目标样本对应的词向量数据作为该输入数据。
为了使初始类别分类模型中的每一个类别识别模块都能够学习到自身文本领域外的其他文本领域的相关知识,处理设备除了将该输入数据输入到该目标样本所属文本领域对应的类别识别模块外,还进一步将该输入数据输入到其他N-1个类别识别模块中,从而可以通过该初始类别识别模块输出对应该目标样本的N个类别识别结果,其中一个类别识别模块能够输出一个类别识别结果,该类别识别结果能够体现出该类别识别模块对输入数据的识别情况。例如,类别识别模块可以以输出0或1的方式来表达该输入数据的类别,在识别是否为异常文本时,若输出为0则代表不是异常文本,输出为1则可以代表是异常文本。
S203:确定目标样本分别与N个文本领域间的关联概率。
可以理解的是,并不是所有文本领域中与自身文本领域相关的知识都需要类别识别模块进行全盘接纳和学习。例如,当某一文本领域与类别识别模块对应的文本领域之间文本风格差异过大时,若过度学习该文本领域的相关知识,可能会使该类别识别模块融合到较多无效知识,反而会导致对自身文本领域的文本分类准确度下降。因此,对类别识别模块的学习程度进行合理把控是提高分类准确度的关键。
通常情况下,当两个文本领域的文本特点较为接近时,类别识别模块所能够学习的相关知识大概率也会更多,该文本特点为除文本内容的语义外,与文本自身表达形式相关的特点,例如可以包括文本风格、文本格式等信息。例如,由于网页上的文本有很多也是以文章的形式体现的,因此,来源与网页的文本和来源与文章的文本之间行文风格可能较为相似,而来自查询信息的文本大多为一些独立的字段,例如查询关键词、查询关键句等,这类文本的行文风格就会与来自文章的文本之间差距较大。因此,文章领域和网页领域之间的相关知识可能较多,而文章领域和查询领域之间的相关知识较少。
基于此,在本申请实施例中,处理设备可以基于文本领域之间的关联程度,对类别识别模块的学习过程进行约束。首先,处理设备可以确定该目标样本分别与N个文本领域之间的关联概率,该关联概率可以体现出目标文本在表达形式上与其他文本领域的关联程度,目标文本针对一个文本领域的关联概率越大,说明该目标样本与该文本领域之间在表达形式上关联程度越高,即对应该文本领域的类别识别模块能够从目标样本所属文本领域中学习到的相关知识也就越多。处理设备可以基于该关联概率,调节类别识别模块学习其他文本领域知识的程度。
S204:根据关联概率、类别识别结果和实际文本类别确定分别对应的N个类别识别模块的损失函数。
其中,通过类别识别结果和实际文本类别,处理设备可以对各个类别识别模块进行调参,即使该类别识别模块输出的类别识别结果能够接近于该实际文本类别。在该调参过程中,由于实际文本类别为目标样本所对应的实际类别,而目标样本来自不同的文本领域,因此,该类别识别模块为了使输出的类别识别结果接近该实际文本类别,会从该文本领域中学习与自身文本领域相关的知识,从而能够使自身在能够对某一文本领域的文本进行识别的基础上,还能够对针对该目标样本输出较为接近实际文本类别的结果。
通过该关联概率,处理设备能够确定出该类别识别模块在学习其他文本领域的相关知识时,较为合理的学习程度。例如,当目标样本对应某一文本领域的关联概率为10%时,说明该目标样本对应的文本领域与该文本领域之间的特征相似程度可能只有10%。此时,在该文本领域对应的类别识别模块基于输出的类别识别结果与实际文本类别进行调参,对相关知识学习的过程中,学习其中的10%较为有利于提高自身的类别识别准确度,即只需使输出的类别识别结果有10%能够贴合实际文本类别即可,这种学习程度较为符合两个文本领域之间的实际情况。若学习超过10%的部分,虽然可能会使输出的类别识别结果更加贴合实际文本类别,但是由于文本领域之间相差过大,反而可能会使该类别识别模块过度融合一些无效信息,导致模型准确度下降,无法对自身所对应文本领域的文本进行精确识别。
基于此,通过该关联概率、类别识别结果和实际文本类别,处理设备可以确定出针对每一个类别识别模块的损失函数,针对N个类别识别模块即能够得出N个损失函数。其中,每一个损失函数可以用于对对应的类别识别模块进行学习训练。通过该损失函数,每一个类别识别模块都能够较为合理的对其他文本领域中有利于自身对该目标样本进行分类的相关知识进行学习。
S205:根据损失函数对初始类别分类模型进行训练,得到类别分类模型,类别分类模型用于确定待识别文本的文本类别。
通过上述过程,在输入目标样本后,处理设备可以得到分别对应N个类别识别模块的N个损失函数,处理设备可以通过该损失函数,对该初始类别分类模型中的类别识别模块进行训练,使每一个类别识别模块能够学习到该目标样本所对应文本领域的相关知识。基于此,通过不断的将第一样本集中的文本样本作为目标文本对该初始类别分类模型进行训练,处理设备可以使该初始类别分类模型中的N个类别识别模块都充分且合理的学习到不用文本领域间的相关知识,进而得到类别分类模型。由于该类别分类模型中已经具有能够对多个文本领域的文本进行准确分类的类别识别模块,因此,该类别分类模型可以用于确定待识别文本的文本类别。
由上述技术方案可以看出,针对根据第一样本集中的目标样本确定的输入数据,可以通过该初始类别分类模型中N个类别识别模块分别输出对应目标样本的N个类别识别结果,即对应不同文本领域的类别识别模块都会对来自一个文本领域的目标样本做出类别识别结果。为了能够让类别识别模块合理的学习到其他文本领域中的有效知识,可以确定出该目标样本分别与N个文本领域间的关联概率,该关联概率可以体现出目标文本在表达形式上与其他文本领域的关联程度,根据该关联概率、类别识别结果和实际文本类别确定分别或对应N个类别识别模块的损失函数,通过该损失函数可以使模型能够基于目标样本与各个文本领域之间的关联程度,适度学习其他文本领域的有效知识。以此训练得到的类别分类模型,能够基于各个文本领域自身的文本特点以及不同文本领域之间的相关特点,较为精确的对来自不同文本领域的待识别文本的文本类别进行判断,一定程度上提高了分类的合理性和准确度。
上已述及,通过关联概率能够体现出目标样本在表达形式上与其他文本领域的关联程度,因此,处理设备可以通过对不同文本领域的表达形式进行学习来确定该关联概率。在一种可能的实现方式中,为了能够较为精确的对不同文本领域的表达形式进行识别,处理设备可以训练得到一个领域分类器,通过该领域分类器确定目标样本分别与N个文本领域间的关联程度。
为了能够训练得到该领域分类器,处理设备首先可以获取包括来自N个文本领域的文本样本的第二样本集,该第二样本集中的N个文本领域与第一样本集中的N个文本领域相同,从而能够使确定出的关联概率能够用于对初始类别分类模型进行训练。该第二样本集中的文本样本标注有对应的实际文本领域,该实际文本领域即为该文本样本实际上所属的文本领域。
处理设备可以获取一个初始领域分类器,该初始领域分类器能够基于输入的文本样本得到一定的所述文本领域的分类结果。处理设备可以根据该第二样本集中的文本样本确定出初始领域分类器的输入数据,通过该初始领域分类器输出对应的预测文本领域,并通过该预测文本领域与该实际文本领域的差异训练该初始领域分类器,得到领域分类器。
其中,通过预测文本领域与实际文本领域的差异,初始领域分类器能够学习到不同文本领域之间在表达形式上所存在的差异,即能够学习到各个文本领域的表达形式特点。从而,训练得到的领域分类器能够基于输入文本的表达形式,分析其与不同领域的表达形式之间的匹配程度,进而能够确定出针对N个文本领域的关联概率。
例如,如图3所示,图3展示了一种对初始领域分类器进行训练的流程图,该训练过程包括:
S301:获取来自多个文本领域的文本样本。
其中,这些文本样本都标注有明确的实际文本领域。
S302:确定文本样本对应的词向量。
为了使输入的数据能够用于较为高效进行模型训练,处理设备首先可以对该文本样本进行数据格式的转变。在本申请实施例中,处理设备可以确定文本样本对应的词向量,将该词向量作为模型输入进行模型训练。
S303:根据文本样本对应的实际文本领域设定训练标签,训练初始领域分类器。
例如,处理设备可以将来自网页的文本样本A的训练标签设定为1,来自文章的文本样本B的训练标签设定为2,来自查询信息的文本样本C的训练标签设定为3,则输入模型的训练数据可以为<文本样本A词向量,1>、<文本样本B词向量,2>和<文本样本C词向量,3>。
S304:保存训练得到的领域分类器。
其中,如图4所示,图4展示了一种领域分类器的示意图。处理设备可以将“我吃晚饭了”这段文本输入给该领域分类器,该领域分类器会对该文本进行切词处理,即将该文本分为一个个的词,例如分为“我”、“吃”、“晚饭”等。领域分类器可以通过由word2vec词向量模型,将该词语转化为对应的词向量,如词向量“我E1”、“吃E1”等,然后将该词向量输入到transformer模型中进行特征提取,例如提取与该文本表达形式有关的特征。领域分类器可以将提取出的特征输入到全连接层中进行判断,从而输出该文本对应于各个文本领域的关联概率。
训练得到的领域分类器可以保留,若之后需要再次训练类别分类模型时可以直接使用保留的领域分类器,不必每次都需要训练出相应的领域分类器。
其中,在进行特征提取时,除了可以用到transformer模型外,也可以采用其他具有类似功能的模型进行替代,例如可以采用长短期记忆模型(Long Short-Term Memory,LSTM)、文本分类卷积神经网络模型(Textcnn)以及基于变形的双向编码器模型(Bidirectional Encoder Representations from Transformers,简称Bert)等。这些模型都具有一定的特征提取功能,同样可以应用于下述语义特征提取的技术内容中。
可以理解的是,由于第一样本集和第二样本集都是针对于上述N个文本领域的文本样本集合,因此,在一种可能的实现方式中,为了降低训练成本,减轻获取训练样本的负担,处理设备可以将第二样本集中的文本样本标注上所需的标签,即文本样本的实际文本类别,从而可以直接得到第一样本集,即第一样本集和第二样本集中包括相同的文本样本,只是训练时采用的标签不同而已。这种样本集合的确定方式,使得在对初始类别分类模型和初始领域分类器训练过程中无需额外获取文本样本,一组样本集即可满足两个模型的训练,降低了训练时的样本获取成本。
上已述及,处理设备可以确定出针对N个类别识别模块确定出N个损失函数进行训练学习。为了便于理解本申请实施例提供的技术方案,接下来,将上述N个类别识别模块中的任意一个作为目标识别模块为例进行说明,该目标识别模块对应于N个文本领域中的目标领域,即该目标识别模块在经过训练学习后,可以用于对来自该目标领域的待识别文本进行类别识别。
在具体的训练过程中,处理设备可以先确定目标识别模块的类别识别结果和该实际文本类别间的差异参数,基于该差异参数,处理设备可以对该目标识别模块中的相关参数进行调节,从而使该目标识别模块输出的类别识别结果接近与实际文本类别。例如,目标识别模块可以输出0~1之间的数值来表示目标样本的文本类别,数值越接近于1,则该目标样本为异常文本的概率越大,而该目标样本的实际文本类别为异常文本时,该差异参数可以为目标识别模块输出的数值与1之间的差值,在训练过程中,对该目标识别模块进行调参的目的在于使该差值尽可能的接近于0。
可以理解的是,由于类别识别模块对应于目标领域,文本样本也具有对应的文本领域,而该实际类别结果是在该文本样本对应文本领域中的类别,因此,若目标识别模块想要输出该实际类别结果,就需要引入该文本样本所对应文本领域中的相关知识来对该文本样本进行分类。由此可见,在通过调参使输出的类别识别结果接近于实际文本类别的过程中,可以使该目标识别模块对文本样本对应文本领域的相关知识进行学习。
为了合理控制目标识别模块对目标样本所属文本领域的相关知识的学习,处理设备还需要在该目标识别模块对应的损失函数中引入该目标样本对应该目标领域的关联概率。在该损失函数中,该关联概率可以相当于该差异参数的权重,起到了学习比例上的限制,从而使目标识别模块在基于该损失函数进行训练的过程中,根据损失函数学习到目标样本所属文本领域中适度的部分知识,能够避免该目标识别模块对目标样本所属文本领域上过拟合,从而导致对目标领域的待识别文本的识别精度降低。例如,在上述举例中,差异参数可以表现为输出数值与1之间的差别,例如,当输出的识别结果为0.3时,该差异参数初始可以为(1-0.3)。若目标样本与目标领域之间的关联概率为10%,则该目标识别模块在调参训练的过程中,只需要学习到两个文本领域之间10%左右的相关知识即可。此时,损失函数可以表示为10%*(1-识别结果),这样在使损失函数接近于0的调参训练过程中,只需要调节原来十分之一的部分即可完成对目标识别模块的训练,该过程中目标识别模块也只需要学习到10%的相关知识,实现了对学习内容的适度控制。
例如,如下列公式所示,该公式为一种用于对目标识别模块进行训练的损失函数。
LM_S=DPM_S*Cross-entropy(pS,yM)
其中,目标领域通过S表示,目标样本所属文本领域通过M表示。S与M可以表示同一个文本领域,也可以表示不同的文本领域。
LM_S为在输入来自文本领域M的目标样本进行训练时,文本领域S的目标识别模块的损失函数,DPM_s表示该目标样本对应于文本领域S的关联概率,ps为该目标识别模块对目标样本的类别识别结果,yM为该目标样本的实际文本类别,Cross-entropy(pS,yM)为差异参数。由此可见,通过DPM_S,在利用LM_S对目标识别模块进行训练时,可以限制其从文本领域M中学习相关知识的程度。
除了能够通过损失函数对类别识别模块进行训练外,为了进一步提高模型精度,处理设备还可以对该初始类别分类模型中的其他组成部分进行训练。
可以理解的是,在多种情况下,类别识别模块在对文本类别进行分类时是通过理解文本的语义来做到的。例如,当类别识别模块用于判断文本是否为娱乐新闻时,可以通过对文本的语义进行理解,判断其是否涉及娱乐圈中的明星、事件等。上已述及,不同的文本领域中可能具有一些共通的相关知识,这些相关知识有助于类别识别模块对文本进行分类,由此可见,这些相关知识在一定程度上有助于对文本的语义特征进行理解。
基于此,为了能够使类别识别模块能够对输入数据的语义特点进行更加深入的理解,在一种可能的实现方式中,,初始类别分类模型还可以包括针对该N个文本领域共享的特征提取模块,该特征提取模块用于提取该目标样本对应的语义特征向量作为N个类别识别模块的输入数据,该语义特征向量能够较为突出的体现出该目标样本的语义特点,例如,该特征提取模块可以为双层transformer模型。其中,由于该特征提取模块是针对N个文本领域共享的,因此该模块可以获取来自于N个文本领域的输入数据进行特征提取。在对N个文本领域的输入数据进行特征提取的过程中,可以使该特征提取模块学习到多个不同文本领域之间的相关知识,实现一定程度上的特征融合,从而使提取出的语义特征向量能够融合不同文本领域之间的语义特点,进而使类别识别模块能够更加精确的进行文本类别识别。
上已述及,通过损失函数,可以使各个类别识别模块学习到多个不同文本领域中有利于自身进行文本分类的相关知识,由此可见,该损失函数具有使模型学习不同文本领域特点的功能。同时,由于在本申请实施例中,类别识别模块中的文本分类是基于文本的语义来进行的,因此如果能够提高特征提取模块所输出的语义特征向量的准确度,在一定程度上也就能够对类别识别模块进行更加精确的训练。
由上述内容可知,不同文本领域中具有部分相关的知识特点,这部分知识特点有助于对各个文本领域中的文本进行更加准确地分析。基于此,在一种可能的实现方式中,处理设备还可以利用该损失函数,对该特征提取模块进行训练,从而使特征提取模块能够基于不同文本领域之间的相关知识,综合性的对输入文本的语义特征进行提取。
例如,在确定出目标识别模块的损失函数后,处理设备可以基于该目标识别模块的损失函数,对该初始类别分类模型中的目标识别模块和特征提取模块进行训练。在对特征提取模块进行训练的过程中,通过差异参数,处理设备同样可以对该特征提取模块中的相关参数进行调节,使该差异参数趋近于目标数值。在参数调节的过程中,该特征提取模块能够确定出目标样本在不同文本领域中语义理解的差异性和相关性,这部分差异性和相关性能够体现出不同文本领域中与语义相关的知识;通过该关联概率,处理设备同样可以基于目标样本与不同文本领域之间的关联概率,对特征提取模块针对该部分相关知识的学习进行约束,从而使训练得到的特征提取模块能够在对输入数据自身进行语义特征提取的过程中,关注到多个不同文本领域中与该输入数据语义相关的信息,在一定程度上能够提高特征提取模块的精确度。
可以理解的是,由于处理设备能够确定出针对N个类别识别模块的N个损失函数,而每一个损失函数都具有使模型学习两个不同文本领域间相关知识的能力。由于该特征提取模块是针对于N个文本领域共享的特征提取模块,因此,在利用损失函数对其进行训练时,可以基于不同的训练目的,采用不同的损失函数训练方式进行训练。例如,处理设备既可以通过每个单独的损失函数对其进行训练,也可以将N个损失函数整合为一个统一的损失函数,对其进行训练,此处不做限制,上述不同的训练方式均可以使该特征提取模块在一定程度上学习到不同文本领域间的相关知识。
在训练得到类别分类模型后,处理设备可以利用该模型来确定待识别文本的文本类别。在一种可能的实现方式中,处理设备可以获取来自第一领域的待识别文本。为了使该类别分类模型能够对该文本进行有效分类,该第一领域可以为上述N个文本领域中的任意一个文本领域。
类似于对模型的训练过程,为了使该类别分类模型能够对该待识别文本进行分析,处理设备首先可以根据待识别文本确定该类别分类模型的输入数据。上已述及,通过模型训练,处理设备可以使得到的类别分类模型中的每一个类别识别模块都能够充分学习到其他不同文本领域中有利于自身进行文本分类的相关知识,因此训练得到的每一个类别识别模块都能够对自身对应文本领域的文本内容进行较为精确的分类。基于此,在本申请实施例中,处理设备可以通过类别分类模型中与第一领域对应的类别识别模块,确定该待识别文本的类别识别结果。例如,若待识别文本为来自于网页的文本,则可以通过该网页文本领域对应的类别识别模块,结合将该待识别文本对应的输入数据确定该待识别文本对应的类别识别结果。可以理解的是,该类别识别模块自身可能并不能输出最终的识别结果,而只是用于确定类别的模型中较为关键的模型部分。例如,该类别识别模块可以为类别分类模型中的隐含层,该类别识别模块可以输出对应于各个文本类别的概率,该类别分类模型的输出层可以根据该概率输出最终的类别识别结果。
在实际情况中,该类别分类模型以多种形式进行应用。例如,处理设备可以利用该类别分类模型对某一软件中涉及的文本内容进行分类,该软件可以为任意一款具有文本内容或者与文本内容相关的软件。
可以理解的是,由于在模型训练的过程中所采用的训练样本为来自上述N个文本领域的文本样本,因此训练得到的类别分类模型所学习到的相关知识大部分为该N个文本领域中的相关知识,即该类别分类模型较为适用于对该N个文本领域中的待识别文本进行分类。基于此,为了提高应用过程中该类别分类模型的精确度,处理设备可以根据目标软件所涉及的文本来源确定上述N个文本领域,该目标软件可以为任意一款能够涉及到文本内容的软件。
例如,在一种可能的实现情况中,该目标软件可以为一款社交软件,该社交软件中所涉及的文本来源可能包括聊天来源、博客来源、文章来源、网页来源等。为了能够对该社交软件所涉及的待识别文本进行精确分类,处理设备可以获取上述多个文本来源的第一样本集对初始类别分类模型进行训练。
进一步的,基于不同的分类场景,处理设备在进行模型训练时所设定的识别结果也可以包括多种。其中,为了使模型输出的结果具有区分度,该类别识别结果包括对至少两个文本类别的识别结果,从而才能够使类别分类模型具有分类作用,例如两个文本类别可以为“色情内容”和“非色情内容”。在其他分类场景中,该类别识别结果也可以包括对三个或三个以上文本类别的识别结果,例如可以为“官方发布内容”、“玩家发布内容”、“客服发布内容”、“系统自动回复内容”等,从而能够对待识别文本进行更加细致和精确的分类,使得到的识别结果能够更加便利的被应用。
为了便于理解本申请提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种文本类别确定方法进行介绍。
参见图5,图5为本申请实施例提供的一种实际应用场景中文本类别确定方法的流程图,在该实际应用场景中,处理设备为能够进行模型训练的服务器,N个文本领域包括网页来源(Hypertext Markup Language,简称HTML)的文本、查询信息(Query)来源的文本和公众号文章(Media Public,简称MP)这三个来源的文本,即N=3。该方法包括:
S501:获取来自三个文本领域的文本样本。
S502:读入词向量模型以及领域分类器。
如图6所示,图6为本申请实施例提供的一种实际应用场景中对初始文本类别分类模型进行训练的示意图。XM、XS、XQ分别表示来自MP、HTML和Query的文本样本,通过词向量模型的转化分别可以得到输入数据词向量EM、ES、EQ。服务器可以将该词向量输入到领域分类器模型中,针对于其中的每一个词向量输入,该领域分类器都可以确定出针对三个文本领域的关联概率λM、λS、λQ。
S503:训练初始类别分类模型。
在该实际应用场景中,类别识别模块可以为全连接层网络格式,服务器可以将每一个词向量分别输入到全连接层MP、全连接层HTML和全连接层Query中,得到对应的类别识别结果,该全连接层相当于上文中的类别识别模块。服务器可以根据该类别识别结果、文本样本的实际文本类别和关联概率,生成对应每一个全连接层的损失函数。以样本XM为例,该文本样本输入全连接层HTML后得到的类别识别结果可以为ps,实际文本类别为yM,则该文本样本针对该全连接层HTML的损失函数为:
LM_S=DPM_s*Cross-entropy(pS,yM)
其中,DPM_S为该样本XM输入领域分类器后所得到的λS。
模型整体的损失函数可以表示为:
Lall=LM_M+LM_S+LM_Q+LS_M+LS_S+LS_Q+LQ_M+LQ_S+LQ_Q
此外,针对于输入自身文本领域对应的全连接层的文本样本,其文本概率也可以设置为1,以XM为例,该样本针对于全连接层MP的损失函数可以为:
LM_M=Cross-entropy(pM,yM)
即忽略关联概率带来的影响。
基于上述损失函数,服务器可以对初始类别分类模型中的双层transformer层以及全连接层进行迭代训练,得到类别分类模型。其中,类别识别模块除了可以为全连接层网络结构外,也可以为其他更加复杂的网络结构,只需满足具有对文本类别进行识别的功能即可。
S504:保存训练得到的类别分类模型。
基于上述实施例提供的文本类别确定方法,本申请实施例还提供了一种文本类别确定装置,参见图7,图7为本申请实施例提供的一种文本类别确定装置700的结构框图,该装置700包括第一获取单元701、第一确定单元702、第二确定单元703、第三确定单元704和训练单元705:
第一获取单元701,用于获取包括来自N个文本领域的文本样本的第一样本集,目标样本为所述第一样本集中的任意一个文本样本,所述目标样本标注有对应的实际文本类别,N≥2;
第一确定单元702,用于根据所述目标样本确定出初始类别分类模型的输入数据,通过所述初始类别分类模型输出对应所述目标样本的N个类别识别结果,所述初始类别分类模型包括与所述N个文本领域一一对应的N个类别识别模块,其中一个所述类别识别模块输出一个所述类别识别结果;
第二确定单元703,用于确定所述目标样本分别与所述N个文本领域间的关联概率;
第三确定单元704,用于根据所述关联概率、所述类别识别结果和所述实际文本类别确定分别对应N个类别识别模块的损失函数;
训练单元705,用于根据所述损失函数对所述初始类别分类模型进行训练,得到类别分类模型,所述类别分类模型用于确定待识别文本的文本类别。
在一种可能的实现方式中,第二确定单元703具体用于:
通过领域分类器确定所述目标样本分别与所述N个文本领域间的关联概率;
所述领域分类器通过如下方式训练:
获取包括来自所述N个文本领域的文本样本的第二样本集,所述第二样本集中的文本样本标注有对应的实际文本领域;
根据所述第二样本集中的文本样本确定出初始领域分类器的输入数据,通过所述初始领域分类器输出对应的预测文本领域,并通过所述预测文本领域与所述实际文本领域的差异训练所述初始领域分类器,得到领域分类器。
在一种可能的实现方式中,目标识别模块为所述N个类别识别模块中的任意一个,所述目标识别模块对应所述N个文本领域中的目标领域,针对所述目标识别模块,第三确定单元704具体用于:
确定所述目标识别模块的类别识别结果和所述实际文本类别间的差异参数;
根据所述目标样本对应所述目标领域的关联概率以及所述差异参数,确定对应所述目标识别模块的损失函数。
在一种可能的实现方式中,所述初始类别分类模型还包括针对所述N个文本领域共享的特征提取模块,所述特征提取模块用于提取所述目标样本对应的语义特征向量作为所述N个类别识别模块的输入数据,训练单元705具体用于:
根据所述目标识别模块的损失函数,对所述初始类别分类模型中的所述目标识别模块和所述特征提取模块进行训练。
在一种可能的实现方式中,装置700还包括第二获取单元和第四确定单元:
第二获取单元,用于获取来自第一领域的所述待识别文本,所述第一领域为所述N个文本领域中的任意一个文本领域;
第四确定单元,用于根据所述待识别文本确定所述类别分类模型的输入数据,通过所述类别分类模型中与所述第一领域对应的类别识别模块确定所述待识别文本的类别识别结果。
在一种可能的实现方式中,所述第一样本集和所述第二样本集为同一个样本集。
在一种可能的实现方式中,所述N个文本领域是根据目标软件所涉及的文本来源确定的。
在一种可能的实现方式中,所述类别识别结果包括对至少两个文本类别的识别结果。
本申请实施例还提供了一种计算机设备,下面结合附图对该设备进行介绍。请参见图8所示,本申请实施例提供了一种设备,该设备还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端设备为手机为例:
图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8,手机包括:射频(Radio Frequency,简称RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(wireless fidelity,简称WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解,图8中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对手机的各个构成部件进行具体的介绍:
RF电路810可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器880处理;另外,将设计上行的数据发送给基站。通常,RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器820可用于存储软件程序以及模块,处理器880通过运行存储在存储器820的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器820可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元830可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元830可包括触控面板831以及其他输入设备832。触控面板831,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板831可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器880,并能接收处理器880发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831,输入单元830还可以包括其他输入设备832。具体地,其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元840可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元840可包括显示面板841,可选的,可以采用液晶显示器(Liquid CrystalDisplay,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板841。进一步的,触控面板831可覆盖显示面板841,当触控面板831检测到在其上或附近的触摸操作后,传送给处理器880以确定触摸事件的类型,随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图8中,触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器850,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板841的亮度,接近传感器可在手机移动到耳边时,关闭显示面板841和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路860、扬声器861,传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号,传输到扬声器861,由扬声器861转换为声音信号输出;另一方面,传声器862将收集的声音信号转换为电信号,由音频电路860接收后转换为音频数据,再将音频数据输出处理器880处理后,经RF电路810以发送给比如另一手机,或者将音频数据输出至存储器820以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块870,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器880是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器820内的软件程序和/或模块,以及调用存储在存储器820内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器880可包括一个或多个处理单元;优选的,处理器880可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器880中。
手机还包括给各个部件供电的电源890(比如电池),优选的,电源可以通过电源管理系统与处理器880逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器880还具有以下功能:
获取包括来自N个文本领域的文本样本的第一样本集,目标样本为所述第一样本集中的任意一个文本样本,所述目标样本标注有对应的实际文本类别,N≥2;
根据所述目标样本确定出初始类别分类模型的输入数据,通过所述初始类别分类模型输出对应所述目标样本的N个类别识别结果,所述初始类别分类模型包括与所述N个文本领域一一对应的N个类别识别模块,其中一个所述类别识别模块输出一个所述类别识别结果;
确定所述目标样本分别与所述N个文本领域间的关联概率;
根据所述关联概率、所述类别识别结果和所述实际文本类别确定分别对应N个类别识别模块的损失函数;
根据所述损失函数对所述初始类别分类模型进行训练,得到类别分类模型,所述类别分类模型用于确定待识别文本的文本类别。
本申请实施例还提供一种服务器,请参见图9所示,图9为本申请实施例提供的服务器900的结构图,服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器900上执行存储介质930中的一系列指令操作。
服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,和/或,一个或一个以上操作系统941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图9所示的服务器结构。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的文本类别确定方法中的任意一种实施方式。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (15)
1.一种文本类别确定方法,其特征在于,所述方法包括:
获取包括来自N个文本领域的文本样本的第一样本集,目标样本为所述第一样本集中的任意一个文本样本,所述目标样本标注有对应的实际文本类别,N≥2;
根据所述目标样本确定出初始类别分类模型的输入数据,通过所述初始类别分类模型输出对应所述目标样本的N个类别识别结果,所述初始类别分类模型包括与所述N个文本领域一一对应的N个类别识别模块,其中一个所述类别识别模块输出一个所述类别识别结果;
确定所述目标样本分别与所述N个文本领域间的关联概率;
根据所述关联概率、所述类别识别结果和所述实际文本类别确定分别对应N个类别识别模块的损失函数;
根据所述损失函数对所述初始类别分类模型进行训练,得到类别分类模型,所述类别分类模型用于确定待识别文本的文本类别。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标样本分别与所述N个文本领域间的关联概率,包括:
通过领域分类器确定所述目标样本分别与所述N个文本领域间的关联概率;
所述领域分类器通过如下方式训练:
获取包括来自所述N个文本领域的文本样本的第二样本集,所述第二样本集中的文本样本标注有对应的实际文本领域;
根据所述第二样本集中的文本样本确定出初始领域分类器的输入数据,通过所述初始领域分类器输出对应的预测文本领域,并通过所述预测文本领域与所述实际文本领域的差异训练所述初始领域分类器,得到领域分类器。
3.根据权利要求1所述的方法,其特征在于,目标识别模块为所述N个类别识别模块中的任意一个,所述目标识别模块对应所述N个文本领域中的目标领域,针对所述目标识别模块,所述根据所述关联概率、所述类别识别结果和所述实际文本类别确定分别对应N个类别识别模块的损失函数,包括:
确定所述目标识别模块的类别识别结果和所述实际文本类别间的差异参数;
根据所述目标样本对应所述目标领域的关联概率以及所述差异参数,确定对应所述目标识别模块的损失函数。
4.根据权利要求3所述的方法,其特征在于,所述初始类别分类模型还包括针对所述N个文本领域共享的特征提取模块,所述特征提取模块用于提取所述目标样本对应的语义特征向量作为所述N个类别识别模块的输入数据,所述根据所述损失函数对所述初始类别分类模型进行训练,包括:
根据所述目标识别模块的损失函数,对所述初始类别分类模型中的所述目标识别模块和所述特征提取模块进行训练。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:
获取来自第一领域的所述待识别文本,所述第一领域为所述N个文本领域中的任意一个文本领域;
根据所述待识别文本确定所述类别分类模型的输入数据,通过所述类别分类模型中与所述第一领域对应的类别识别模块确定所述待识别文本的类别识别结果。
6.根据权利要求1-4任意一项所述的方法,其特征在于,所述第一样本集和所述第二样本集为同一个样本集。
7.根据权利要求1-4任意一项所述的方法,其特征在于,所述N个文本领域是根据目标软件所涉及的文本来源确定的。
8.根据权利要求1-4任意一项所述的方法,其特征在于,所述类别识别结果包括对至少两个文本类别的识别结果。
9.一种文本类别确定装置,其特征在于,所述装置包括第一获取单元、第一确定单元、第二确定单元、第三确定单元和训练单元:
所述第一获取单元,用于获取包括来自N个文本领域的文本样本的第一样本集,目标样本为所述第一样本集中的任意一个文本样本,所述目标样本标注有对应的实际文本类别,N≥2;
所述第一确定单元,用于根据所述目标样本确定出初始类别分类模型的输入数据,通过所述初始类别分类模型输出对应所述目标样本的N个类别识别结果,所述初始类别分类模型包括与所述N个文本领域一一对应的N个类别识别模块,其中一个所述类别识别模块输出一个所述类别识别结果;
所述第二确定单元,用于确定所述目标样本分别与所述N个文本领域间的关联概率;
所述第三确定单元,用于根据所述关联概率、所述类别识别结果和所述实际文本类别确定分别对应N个类别识别模块的损失函数;
所述训练单元,用于根据所述损失函数对所述初始类别分类模型进行训练,得到类别分类模型,所述类别分类模型用于确定待识别文本的文本类别。
10.根据权利要求9所述的装置,其特征在于,所述第二确定单元具体用于:
通过领域分类器确定所述目标样本分别与所述N个文本领域间的关联概率;
所述领域分类器通过如下方式训练:
获取包括来自所述N个文本领域的文本样本的第二样本集,所述第二样本集中的文本样本标注有对应的实际文本领域;
根据所述第二样本集中的文本样本确定出初始领域分类器的输入数据,通过所述初始领域分类器输出对应的预测文本领域,并通过所述预测文本领域与所述实际文本领域的差异训练所述初始领域分类器,得到领域分类器。
11.根据权利要求9所述的装置,其特征在于,目标识别模块为所述N个类别识别模块中的任意一个,所述目标识别模块对应所述N个文本领域中的目标领域,针对所述目标识别模块,所述第三确定单元具体用于:
确定所述目标识别模块的类别识别结果和所述实际文本类别间的差异参数;
根据所述目标样本对应所述目标领域的关联概率以及所述差异参数,确定对应所述目标识别模块的损失函数。
12.根据权利要求11所述的装置,其特征在于,所述初始类别分类模型还包括针对所述N个文本领域共享的特征提取模块,所述特征提取模块用于提取所述目标样本对应的语义特征向量作为所述N个类别识别模块的输入数据,所述训练单元具体用于:
根据所述目标识别模块的损失函数,对所述初始类别分类模型中的所述目标识别模块和所述特征提取模块进行训练。
13.根据权利要求9-12任意一项所述的装置,其特征在于,所述装置还包括第二获取单元和第四确定单元:
所述第二获取单元,用于获取来自第一领域的所述待识别文本,所述第一领域为所述N个文本领域中的任意一个文本领域;
所述第四确定单元,用于根据所述待识别文本确定所述类别分类模型的输入数据,通过所述类别分类模型中与所述第一领域对应的类别识别模块确定所述待识别文本的类别识别结果。
14.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-8中任意一项所述的文本类别确定方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8中任意一项所述的文本类别确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110112234.5A CN113569043A (zh) | 2021-01-27 | 2021-01-27 | 一种文本类别确定方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110112234.5A CN113569043A (zh) | 2021-01-27 | 2021-01-27 | 一种文本类别确定方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113569043A true CN113569043A (zh) | 2021-10-29 |
Family
ID=78161030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110112234.5A Pending CN113569043A (zh) | 2021-01-27 | 2021-01-27 | 一种文本类别确定方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569043A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579740A (zh) * | 2022-01-20 | 2022-06-03 | 马上消费金融股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
US10423827B1 (en) * | 2017-07-05 | 2019-09-24 | Amazon Technologies, Inc. | Image text recognition |
CN110555209A (zh) * | 2018-05-30 | 2019-12-10 | 北京三星通信技术研究有限公司 | 训练词向量模型的方法及装置 |
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
CN112214605A (zh) * | 2020-11-05 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和相关装置 |
-
2021
- 2021-01-27 CN CN202110112234.5A patent/CN113569043A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423827B1 (en) * | 2017-07-05 | 2019-09-24 | Amazon Technologies, Inc. | Image text recognition |
US20190034823A1 (en) * | 2017-07-27 | 2019-01-31 | Getgo, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
CN110555209A (zh) * | 2018-05-30 | 2019-12-10 | 北京三星通信技术研究有限公司 | 训练词向量模型的方法及装置 |
CN111767409A (zh) * | 2020-06-14 | 2020-10-13 | 南开大学 | 一种基于多头自注意力机制的实体关系抽取方法 |
CN112214605A (zh) * | 2020-11-05 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和相关装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114579740A (zh) * | 2022-01-20 | 2022-06-03 | 马上消费金融股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
CN114579740B (zh) * | 2022-01-20 | 2023-12-05 | 马上消费金融股份有限公司 | 文本分类方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599557B (zh) | 图像描述生成方法、模型训练方法、设备和存储介质 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
WO2020147369A1 (zh) | 自然语言处理方法、训练方法及数据处理设备 | |
CN111914113A (zh) | 一种图像检索的方法以及相关装置 | |
CN110852109A (zh) | 语料生成方法、语料生成装置、和存储介质 | |
CN113821589B (zh) | 一种文本标签的确定方法及装置、计算机设备和存储介质 | |
CN111368525A (zh) | 信息搜索方法、装置、设备及存储介质 | |
CN112214605A (zh) | 一种文本分类方法和相关装置 | |
CN111597804B (zh) | 一种实体识别模型训练的方法以及相关装置 | |
CN113723378B (zh) | 一种模型训练的方法、装置、计算机设备和存储介质 | |
CN114328906A (zh) | 一种多级类目的确定方法、模型训练的方法以及相关装置 | |
CN112749252A (zh) | 一种基于人工智能的文本匹配方法和相关装置 | |
CN111738000B (zh) | 一种短语推荐的方法以及相关装置 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN116933149A (zh) | 一种对象意图预测方法、装置、电子设备和存储介质 | |
CN113269279B (zh) | 一种多媒体内容分类方法和相关装置 | |
CN112862021B (zh) | 一种内容标注方法和相关装置 | |
CN116975295B (zh) | 一种文本分类方法、装置及相关产品 | |
CN113822038A (zh) | 一种摘要生成方法和相关装置 | |
CN112488157A (zh) | 一种对话状态追踪方法、装置、电子设备及存储介质 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN113821609A (zh) | 一种答案文本的获取方法及装置、计算机设备和存储介质 | |
CN117011649B (zh) | 一种模型训练方法和相关装置 | |
CN113704447B (zh) | 一种文本信息的识别方法以及相关装置 | |
CN111475732B (zh) | 一种信息处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40056467 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |