CN113312898A

CN113312898A - 语料处理方法、设备、存储介质及装置

Info

Publication number: CN113312898A
Application number: CN202010123364.4A
Authority: CN
Inventors: 邱岳
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2021-08-27
Anticipated expiration: 2040-02-26
Also published as: CN113312898B

Abstract

本发明公开了一种语料处理方法、设备、存储介质及装置，该方法通过获取目标领域的目标语料，计算所述目标语料在所述目标领域的目标显著程度，根据所述目标显著程度对所述目标语料进行层次划分，获得各层次对应的语料集，基于层次化划分对语料进行筛选和重要性排序，快速构建完备且准确的训练语料集；根据所述目标显著程度对各层次设置对应的目标层次权重，根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型，高质量的训练语料包含大量且准确的语义信息，基于层次划分的语料集对模型进行训练，提升训练预测和模型理解能力。

Description

语料处理方法、设备、存储介质及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语料处理方法、设备、存储介质及装置。

背景技术

对于全新领域的语料收集，目前的各类数据收集手段一方面用时较长，成为模型训练整体流程中的瓶颈；另一方面存在较多的人工筛选标注部分，在准确度方面有较大的提升空间；同时无法适用于多语言场景。以上问题导致人工审阅方法无法迅速收集较高质量的语料训练集，从而可能导致模型整体开发周期长，效果不佳。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语料处理方法、设备、存储介质及装置，旨在解决现有技术中收集的语料训练集质量不高，导致模型开发质量差的技术问题。

为实现上述目的，本发明提供一种语料处理方法，所述语料处理方法包括以下步骤：

获取目标领域的目标语料；

计算所述目标语料在所述目标领域的目标显著程度；

根据所述目标显著程度对所述目标语料进行层次划分，获得各层次对应的语料集；

根据所述目标显著程度对各层次设置对应的目标层次权重；

根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型。

优选地，所述计算所述目标语料在所述目标领域的目标显著程度，具体包括：

计算所述目标语料在目标分类中的词频；

计算所述目标语料在所述目标领域所有网页文本信息中的逆文档频率；

根据所述词频和所述逆文档频率，计算所述目标语料在所述目标领域的目标显著程度。

优选地，所述根据所述目标显著程度对所述目标语料进行层次划分，获得各层次对应的语料集，包括：

设置各层次对应的显著程度范围；

判断所述目标显著程度所属的显著程度范围；

将所述目标语料划分至所属的显著程度范围对应的层次，获得各层次对应的语料集。

优选地，所述层次包括黑词层次、间接黑词层次和白词层次，所述目标层次权重包括黑词层次权重、间接黑词层次权重和白词层次权重，所述语料集包括黑词语料集、间接黑词语料集和白词语料集；

根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型，包括：

根据所述黑词层次权重、所述间接黑词层次权重和所述白词层次权重的大小，设置所述黑词语料集对应的第一训练比例、所述间接黑词语料集对应的第二训练比例以及所述白词语料集对应的第三训练比例；

根据所述第一训练比例的黑词语料集、所述第二训练比例的间接黑词语料集和所述第三训练比例的白词语料集，对待训练模型进行训练，获得目标模型。

优选地，所述根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型之后，所述语料处理方法还包括：

获取待识别数据，通过所述目标模型对所述待识别数据进行识别，获得所述待识别数据的目标层次；

对所述待识别数据进行数据清洗，获得待识别语料；

将所述待识别语料与所述语料集进行匹配；

若匹配失败，则计算所述待识别语料在所述目标领域的待识别显著程度；

根据所述待识别显著程度，将所述待识别语料更新至所述语料集。

优选地，所述获取目标领域的目标语料，包括：

获取目标领域的网页文本信息；

对所述网页文本信息中的非法信息进行过滤，获得清洗数据；

对所述清洗数据中的无关信息进行过滤，获得目标语料。

优选地，所述获取目标领域的网页文本信息，包括：

获取目标关键词，根据所述目标关键词进行迭代搜索，获得关键词列表；

根据所述关键词列表进行关联搜索，获得与所述关键词列表的关联文本；

根据所述关联文本在目标领域进行搜索，获得网页列表；

对所述网页列表对应的网页内容进行解析，获得所述目标领域的网页文本信息。

此外，为实现上述目的，本发明还提出一种语料处理设备，所述语料处理设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语料处理程序，所述语料处理程序配置为实现如上文所述的语料处理方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有语料处理程序，所述语料处理程序被处理器执行时实现如上文所述的语料处理方法的步骤。

此外，为实现上述目的，本发明还提出一种语料处理装置，所述语料处理装置包括：

获取模块，用于获取目标领域的目标语料；

计算模块，用于计算所述目标语料在所述目标领域的目标显著程度；

层次划分模块，用于根据所述目标显著程度对所述目标语料进行层次划分，获得各层次对应的语料集；

设置模块，用于根据所述目标显著程度对各层次设置对应的目标层次权重；

训练模块，用于根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型。

本发明中，通过获取目标领域的目标语料，计算所述目标语料在所述目标领域的目标显著程度，根据所述目标显著程度对所述目标语料进行层次划分，获得各层次对应的语料集，基于层次化划分对语料进行筛选和重要性排序，快速构建完备且准确的训练语料集；根据所述目标显著程度对各层次设置对应的目标层次权重，根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型，高质量的训练语料包含大量且准确的语义信息，基于层次划分的语料集对模型进行训练，提升训练预测和模型理解能力。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的语料处理设备的结构示意图；

图2为本发明语料处理方法第一实施例的流程示意图；

图3为本发明语料处理方法第二实施例的流程示意图；

图4为本发明语料处理方法第三实施例的流程示意图；

图5为基于语料集的检测分类任务流程示意图；

图6为本发明语料处理装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的语料处理设备结构示意图。

如图1所示，该语料处理设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的存储器(Non-volatileMemory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对语料处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语料处理程序。

在图1所示的语料处理设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接用户设备；所述语料处理设备通过处理器1001调用存储器1005中存储的语料处理程序，并执行本发明实施例提供的语料处理方法。

所述语料处理设备通过处理器1001调用存储器1005中存储的语料处理程序，并执行以下操作：

获取目标领域的目标语料；

计算所述目标语料在所述目标领域的目标显著程度；

根据所述目标显著程度对各层次设置对应的目标层次权重；

进一步地，所述语料处理设备通过处理器1001调用存储器1005中存储的语料处理程序，还执行以下操作：

计算所述目标语料在目标分类中的词频；

设置各层次对应的显著程度范围；

判断所述目标显著程度所属的显著程度范围；

进一步地，所述层次包括黑词层次、间接黑词层次和白词层次，所述目标层次权重包括黑词层次权重、间接黑词层次权重和白词层次权重，所述语料集包括黑词语料集、间接黑词语料集和白词语料集；

所述语料处理设备通过处理器1001调用存储器1005中存储的语料处理程序，还执行以下操作：

对所述待识别数据进行数据清洗，获得待识别语料；

将所述待识别语料与所述语料集进行匹配；

获取目标领域的网页文本信息；

对所述清洗数据中的无关信息进行过滤，获得目标语料。

根据所述关联文本在目标领域进行搜索，获得网页列表；

本实施例中，通过获取目标领域的目标语料，计算所述目标语料在所述目标领域的目标显著程度，根据所述目标显著程度对所述目标语料进行层次划分，获得各层次对应的语料集，基于层次化划分对语料进行筛选和重要性排序，快速构建完备且准确的训练语料集；根据所述目标显著程度对各层次设置对应的目标层次权重，根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型，高质量的训练语料包含大量且准确的语义信息，基于层次划分的语料集对模型进行训练，提升训练预测和模型理解能力。

基于上述硬件结构，提出本发明语料处理方法的实施例。

参照图2，图2为本发明语料处理方法第一实施例的流程示意图，提出本发明语料处理方法第一实施例。

在第一实施例中，所述语料处理方法包括以下步骤：

步骤S10：获取目标领域的目标语料。

应理解的是，本实施例的执行主体是所述语料处理设备，所述语料处理设备可以是个人电脑或者服务器等电子设备，本实施例对此不加以限制。根据具体任务中的特定目标领域方向，即所述目标领域，基于各搜索引擎的搜索功能对文本进行大量积累，从关键词角度，各搜索引擎具有的关键词查找和搜索联想功能进行迭代搜索可以得到覆盖面较广的关键词列表，构成该领域分析语料的主要脉络。同时，基于所述关键词列表作为搜索起始点，使用搜索引擎具有的搜索关联功能可以得到所述目标领域的大量相关文本结果。从网页文本角度，搜索引擎可以提供某领域排名靠前的网页列表。通过对该类网页和其子网页的网页内容进行批量爬取并进行解析，可以获得大量包含较多所述目标领域信息的网页文本内容，从而完成文本信息的积累。

进一步地，在本实施例中，所述步骤S10，包括：

获取目标领域的网页文本信息；对所述网页文本信息中的非法信息进行过滤，获得清洗数据；对所述清洗数据中的无关信息进行过滤，获得目标语料。

可理解的是，通过获取目标领域的目标关键词，所述目标关键词为具体任务相关的关键词，具体为，对所述具体任务进行关键词提取，获得所述目标关键词。基于所述目标关键词进行搜索和搜索联想，获得关键词列表。根据所述关键词列表，进行搜索和搜索联想，获得与所述关键词列表相关的关联文本。基于所述关联文本和与所述关联文本的子网页的网页内容，通过网络蜘蛛进行网页爬取，获得包含所述目标领域的相关信息的大量网页，构成网页列表。对所述网页列表中的网页文本内容进行解析，获得所述目标领域的网页文本信息。在本实施例中，所述获取目标领域的网页文本信息，包括：获取目标关键词，根据所述目标关键词进行迭代搜索，获得关键词列表；根据所述关键词列表进行关联搜索，获得与所述关键词列表的关联文本；根据所述关联文本在目标领域进行搜索，获得网页列表；对所述网页列表对应的网页内容进行解析，获得所述目标领域的网页文本信息。

需要说明的是，原始的所述网页文本信息中含有大量的无关搜索信息和非法字符，直接使用会对构建效果产生干扰，因此需要进行数据的清洗。一方面，需要基于规则对文本中如乱码和非本语言字符等非法部分进行过滤和筛选。基于规则具体为根据程序语言和语法规则对所述网页文本信息中的非法信息进行过滤，获得所述清洗数据。所述非法信息包括乱码和非本语言字符，比如，标注网页的标签等信息。另一方面，需要对结构化信息及日常口语词等与语义无关信息进行过滤。即所述无关信息包括结构化信息及日常口语词等与语义无关信息。所述结构化信息如网页域名中常见的www和com等信息。

步骤S20：计算所述目标语料在所述目标领域的目标显著程度。

在具体实现中，计算所述目标语料的目标显著程度，可采用基于词频的统计方法，在使用语义提取得到目标语料后，通过综合所述目标语料在所述目标领域中的特别程度和在所有分类中的普遍程度两方面来标定所述目标语料中的重要程度。采用了类似词频-逆文档频率(term frequency–inverse document frequency，TF-IDF)词频统计的思想，TF-IDF是文本权重计算和关键词提取的一种常见重要方法。其中，词频体现某词在某分类中的出现频率，逆文档频率为该词在所有文档中出现的频率，通过两者的乘积体现某词在某类中的权重，即所述目标显著程度。

步骤S30：根据所述目标显著程度对所述目标语料进行层次划分，获得各层次对应的语料集。

应理解的是，基于文本类信息的特点，部分语料相较于其他文本具有很高的区分度和显著程度，这一点在关键词检测及语义理解等任务中尤为明显，因此需要对所述目标语料在目标领域的显著程度进行层次化区分。层次可根据具体任务进行设定，层次包括黑词层次、间接黑词层次和白词层次，所述黑词层次对应的语料集中的语料为表示负向意义的词语，比如，所述目标领域为黄赌毒，所述黑词层次对应的语料集包括赌场和海落英等词语；所述间接黑词层次对应的语料集中的语料为表示与所述黑词有一定程度的关联性，但是也不是明显的黑词，比如，进入赌场通常需要开会员，并进行注册，则所述间接黑词层次对应的语料集包括开会员和注册等语料；所述白词层次对应的语料集中的语料为与所述黑词无关联的词语，比如吃饭等日常用语。

可理解的是，可对各层次设置对应的显著程度范围，根据所述目标显著程度判断各目标语料所属的层次，从而将各目标语料划分至对应的层次，获得各层次对应的所述语料集。

步骤S40：根据所述目标显著程度对各层次设置对应的目标层次权重。

需要说明的是，所述目标显著程度越大，表明对应的目标语料具有更好的区分能力，则可对所述目标显著程度大的层次设置较大的权重。层次包括黑词层次、间接黑词层次和白词层次，其中，黑词层次对应的语料集中的语料的目标显著程度较大，具有更好的区分能力，则设置黑词层次较大的权重。

步骤S50：根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型。

在具体实现中，所述目标层次权重与训练比例一致，所述目标层次权重越大，对应设置较多的训练比例。比如，黑词层次、间接黑词层次和白词层次对应的目标层次权重分别为60％、20％和20％，则设置60％比例的黑词层次对应的语料集作为训练语料，设置20％比例的间接黑词层次对应的语料集作为训练语料，设置20％比例的间接黑词层次对应的语料集作为训练语料。根据设置的训练语料对所述待训练模型进行训练，获得目标模型。所述待训练模型包括文本卷积神经网络(TEXT-Convolutional Neural Networks，简称TEXT-CNN)模型、词频逆文档频率-极端梯度提升(term frequency inverse document frequency-extreme gradient boosting，简称TFIDF-XGB)模型或基于改进的双向编码器表征(Bidirectional Encoder Representations from Transformers，简称BERT)模型等。通过进行分层的语料集，结合对应的目标层次权重对所述待训练模型进行训练，使得训练效果更好，获得的所述目标模型具有更好的区分能力。

参照图3，图3为本发明语料处理方法第二实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明语料处理方法的第二实施例。

在第二实施例中，所述步骤S20，包括：

步骤S201：计算所述目标语料在目标分类中的词频。

应理解的是，所述目标分类为需要进行识别的类型，可以是各层次中的一种层次，所述层次包括黑词层次、间接黑词层次和白词层次，则所述目标分类可以是黑词分类、间接黑词分类或白词分类。计算所述目标语料在黑词分类中的词频，即计算所述目标语料在预设文章中的出现次数，并获取所述预设文章中的总词数，计算所述出现词语与所述总次数之间的比值，获得所述目标语料的词频。所述预设文章可以是任意一个所述网页文本信息。

步骤S202：计算所述目标语料在所述目标领域所有网页文本信息中的逆文档频率。

可理解的是，获取所述目标领域所有网页文本信息的文档总数量，获取包含所述目标语料的目标文档数，根据所述文档总数量和所述目标文档数，计算所述目标语料的逆文档频率。具体为：逆文档频率＝log[文档总数量/(目标文档数+1)]。

步骤S203：根据所述词频和所述逆文档频率，计算所述目标语料在所述目标领域的目标显著程度。

需要说明的是，计算所述词频和所述逆文档频率的乘积，所述乘积能够体现所述目标语料在所述目标分类中的权重，将所述乘积作为所述目标语料在所述目标领域的目标显著程度。

进一步地，在本实施例中，所述步骤S30，包括：

设置各层次对应的显著程度范围；

判断所述目标显著程度所属的显著程度范围；

应理解的是，可进行大数据分析，获得大量的样本语料集及对应的样本显著程度范围，对所述样本语料集及对应的样本显著程度范围进行分析，设置各层次对应的显著程度范围。判断各目标语料的目标显著程度属于何种显著程度范围，将所述目标语料划分至所属的显著程度范围对应的层次，获得各层次对应的语料集。比如，黑词层次、间接黑词层次和白词层次对应的显著程度范围分别为大于等于60％且小于100％、大于等于40％且小于60％和大于0且小于40％，目标语料A的目标显著程度为50％，则将所述目标语料A划分至所述间接黑词层次。

在本实施例中，所述步骤S50，包括：

根据所述第一训练比例的黑词语料集、所述第二训练比例的间接黑词语料集和所述第三训练比例的白词语料集，对预设模型进行训练，获得目标模型。

需要说明的是，权重越大，说明对应的目标语料对模型的训练更有帮助，则设置更高的训练比例，比如，所述目标模型是为了识别出黑词，计算获得的所述黑词层次权重大于所述间接黑词层次权重，则设置的所述第一训练比例大于所述第二训练比例。根据所述第一训练比例的黑词语料集、所述第二训练比例的间接黑词语料集和所述第三训练比例的白词语料集，对预设模型进行训练，获得目标模型，从而使得所述目标模型具有更好的识别能力。

在具体实现中，由于整体语料基于搜索引擎采集自网页内容，可能存在大量与关键信息关联性不强或结构化的内容，因此对成分显著程度进行分析标定，可以得到关键部分；通过模型对该部分的关注，可以显著提高学习成果和模型效果。在文本检测和分类等任务中，往往存在强相关词汇和隐含信息词汇。在关键词匹配过程中，将所有文本一视同仁会提升误判的可能，因此需要将文本进行层次化，这样既能挖掘潜在的信息，也不致导致过多的误判。

在本实施例中，通过计算目标语料的词频和逆文档频率，从而计算所述目标语料的目标显著程度，能够对整体语料进行快速的层次划分，从而获得显著和非显著的语料分类，基于层次分类的语料集对待训练模型进行训练，从而获得提高目标模型的识别能力。

参照图4，图4为本发明语料处理方法第三实施例的流程示意图，基于上述第一实施例或第二实施例，提出本发明语料处理方法的第三实施例；在本实例中，基于第一实施例进行说明。

在本实施例中，所述步骤S50之后，还包括：

步骤S60：获取待识别数据，通过所述目标模型对所述待识别数据进行识别，获得所述待识别数据的目标层次。

应理解的是，后续使用过程中，对新出现或未覆盖到的语义群可通过上述步骤进行持续的更新和补充，最终形成较为完备的语料库，用于所述目标领域的自然语言处理任务。所述待识别数据为需要进行区分的数据，可通过训练获得的所述目标模型对所述待识别数据进行识别，获得所述待识别数据的目标层次，从而识别出所述待识别数据是属于哪个层次。所述目标层次包括黑词层次、间接黑词层次和白词层次。

需要说明的是，根据各所述语料集构建语料库；根据所述语料库和所述目标模型构建综合模型；获取待识别数据，通过所述综合模型对所述待识别数据进行识别，获得所述待识别数据的目标层次。可对所述待识别数据进行关键词提取，获得待识别语料，通过所述语料库对识别待识别语料进行识别，获得所述待识别语料对应的目标层次；还可使用由所述语料库和所述目标模型构建的所述综合模型，识别所述待识别数据。

例如，如图5所示，图5为基于语料集的检测分类任务流程示意图，基于本实施例中的所述语料处理的流程步骤，完成的一个(色情/赌博/白样本)检测分类任务流程简介。其中，右边的流程，就是基于所述语料处理的流程步骤，构建了高质量语料，基于本实施例中所述语料处理的流程步骤，训练出了预测模型，即所述目标模型，构建了关键词库。图5中的综合模型包括预测模型训练和关键词库构建。只需要将所述待识别数据输入所述目标模型，就会经过模型的预测，以及关键词库的过滤，最终得到所述待识别数据所对应的分类情况输出。域名为所述目标关键词，所述高质量语料即为经过层次划分的各语料集，所述输入原始文本即为所述目标领域的网页文本信息，读取文本内容，文本预处理，即对所述网页文本信息进行中的非法信息进行过滤，获得清洗数据，对所述清洗数据中的无关信息进行过滤，获得目标语料，通过所述综合模型对所述目标语料进行识别，获得对应的分类情况输出。

可理解的是，各语料集构成所述目标领域的语料库。在具体任务中，语料库可以投入到模型的训练和关键词库的构建中。对于模型的训练，可以对整体语料库进行针对性调整后，如分类任务需混合白样本进行均衡，感情理解任务需要打上标签标定正负倾向等，投入模型进行训练学习，并对显著语料进行重点关注；对于关键词库的构建，可以基于层次化构建后不同部分的分类显著程度，标定不同语料的权值，以此快速构建关键词库，用于文本的检测、分类和聚类等任务。

步骤S70：对所述待识别数据进行数据清洗，获得待识别语料。

在具体实现中，基于规则对所述待识别数据中如乱码和非本语言字符等非法部分进行过滤和筛选，获得所述待识别语料。基于规则具体为根据程序语言和语法规则对所述网页文本信息中的非法信息进行过滤，获得所述清洗数据。所述非法信息包括乱码和非本语言字符，比如，标注网页的标签等信息。另一方面，需要对结构化信息及日常口语词等与语义无关信息进行过滤。即所述无关信息包括结构化信息及日常口语词等与语义无关信息。所述结构化信息如网页域名中常见的www和com等信息。

步骤S80：将所述待识别语料与所述语料集进行匹配。

需要说明的是，将所述待识别语料分别与各语料集进行匹配，若匹配成功，说明所述待识别语料已经存在于所述语料集中，各语料集构成所述目标领域的语料库。

步骤S90：若匹配失败，则计算所述待识别语料在所述目标领域的待识别显著程度。

在具体实现中，若匹配失败，说明所述待识别语料不存在于所述语料集中，则将所述待识别语料更新添加至对应的语料集中，以持续更新和补充所述目标语料的各语料集，形成较完备的语料库。

步骤S100：根据所述待识别显著程度，将所述待识别语料更新至所述语料集。

应理解的是，判断所述待识别显著程度属于何种层次对应的显著程度范围，将所述待识别语料更新至所属的显著程度范围对应的语料集中，以实现对所述目标领域的语料库的更新和补充。

本实施例中，将所述待识别语料更新至所属的显著程度范围对应的语料集中，以实现对所述目标领域的语料库的更新和补充，最终形成较为完备的语料库，用于所述目标领域的自然语言处理任务，提高自然语言处理任务的质量。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有语料处理程序，所述语料处理程序被处理器执行时实现如下步骤：

获取目标领域的目标语料；

计算所述目标语料在所述目标领域的目标显著程度；

根据所述目标显著程度对各层次设置对应的目标层次权重；

进一步地，所述语料处理程序被处理器执行时还实现如下操作：

计算所述目标语料在目标分类中的词频；

设置各层次对应的显著程度范围；

判断所述目标显著程度所属的显著程度范围；

所述语料处理程序被处理器执行时还实现如下操作：

对所述待识别数据进行数据清洗，获得待识别语料；

将所述待识别语料与所述语料集进行匹配；

获取目标领域的网页文本信息；

对所述清洗数据中的无关信息进行过滤，获得目标语料。

根据所述关联文本在目标领域进行搜索，获得网页列表；

此外，参照图6，本发明实施例还提出一种语料处理装置，所述语料处理装置包括：

获取模块10，用于获取目标领域的目标语料。

应理解的是，根据具体任务中的特定目标领域方向，即所述目标领域，基于各搜索引擎的搜索功能对文本进行大量积累，从关键词角度，各搜索引擎具有的关键词查找和搜索联想功能进行迭代搜索可以得到覆盖面较广的关键词列表，构成该领域分析语料的主要脉络。同时，基于所述关键词列表作为搜索起始点，使用搜索引擎具有的搜索关联功能可以得到所述目标领域的大量相关文本结果。从网页文本角度，搜索引擎可以提供某领域排名靠前的网页列表。通过对该类网页和其子网页的网页内容进行批量爬取并进行解析，可以获得大量包含较多所述目标领域信息的网页文本内容，从而完成文本信息的积累。

进一步地，在本实施例中，所述获取模块10，还用于获取目标领域的网页文本信息；对所述网页文本信息中的非法信息进行过滤，获得清洗数据；对所述清洗数据中的无关信息进行过滤，获得目标语料。

计算模块20，用于计算所述目标语料在所述目标领域的目标显著程度。

层次划分模块30，用于根据所述目标显著程度对所述目标语料进行层次划分，获得各层次对应的语料集。

设置模块40，用于根据所述目标显著程度对各层次设置对应的目标层次权重。

训练模块50，用于根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型。

本发明所述语料处理装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image，ROM)/随机存取存储器(Random AccessMemory，RAM)、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语料处理方法，其特征在于，所述语料处理方法包括以下步骤：

获取目标领域的目标语料；

计算所述目标语料在所述目标领域的目标显著程度；

根据所述目标显著程度对各层次设置对应的目标层次权重；

2.如权利要求1所述的语料处理方法，其特征在于，所述计算所述目标语料在所述目标领域的目标显著程度，具体包括：

计算所述目标语料在目标分类中的词频；

3.如权利要求1所述的语料处理方法，其特征在于，所述根据所述目标显著程度对所述目标语料进行层次划分，获得各层次对应的语料集，包括：

设置各层次对应的显著程度范围；

判断所述目标显著程度所属的显著程度范围；

4.如权利要求1所述的语料处理方法，其特征在于，所述层次包括黑词层次、间接黑词层次和白词层次，所述目标层次权重包括黑词层次权重、间接黑词层次权重和白词层次权重，所述语料集包括黑词语料集、间接黑词语料集和白词语料集；

5.如权利要求1所述的语料处理方法，其特征在于，所述根据所述语料集和对应的所述目标层次权重对待训练模型进行训练，获得目标模型之后，所述语料处理方法还包括：

对所述待识别数据进行数据清洗，获得待识别语料；

将所述待识别语料与所述语料集进行匹配；

6.如权利要求1-5中任一项所述的语料处理方法，其特征在于，所述获取目标领域的目标语料，包括：

获取目标领域的网页文本信息；

对所述清洗数据中的无关信息进行过滤，获得目标语料。

7.如权利要求6所述的语料处理方法，其特征在于，所述获取目标领域的网页文本信息，包括：

根据所述关联文本在目标领域进行搜索，获得网页列表；

8.一种语料处理设备，其特征在于，所述语料处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语料处理程序，所述语料处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的语料处理方法的步骤。

9.一种存储介质，其特征在于，所述存储介质上存储有语料处理程序，所述语料处理程序被处理器执行时实现如权利要求1至7中任一项所述的语料处理方法的步骤。

10.一种语料处理装置，其特征在于，所述语料处理装置包括：

获取模块，用于获取目标领域的目标语料；