CN110263170A

CN110263170A - 一种文本类别的自动标注方法及系统

Info

Publication number: CN110263170A
Application number: CN201910544064.0A
Authority: CN
Inventors: 赵全军; 高岩; 王志辉; 伊克拉木·伊力哈木; 陈宏江; 冀玉鑫
Original assignee: SINOSOFT CO Ltd
Current assignee: SINOSOFT CO Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-20

Abstract

本发明公开了一种文本类别的自动标注方法，该方法包括采集各个语种的文本以建立多语种文本类别数据库；基于多语种文本类别数据库获得相关词数据，对相关词数据进行训练生成多语种文本分类模型；检索多语种文本类别数据库，判断待标注文本是否与多语种文本类别数据库中的数据匹配，若是，则将该待标注文本作为候选文本；基于多语种文本分类模型识别候选文本的类别，将候选文本的类别作为待标注文本的类别并标注到待标注文本上；其中，相关词数据是通过对多语种文本类别数据库中的数据按语种和类别进行标注得到的。本发明还公开了一种文本类别的自动标注系统。通过本发明的这种自动标注方法可以快速处理大量的文本数据。

Description

一种文本类别的自动标注方法及系统

技术领域

本发明属于涉及文本处理技术领域，尤其涉及一种文本类别的自动标注方法及系统。

背景技术

对于互联网的大量文本数据来说，经常有广告、垃圾邮件等内容干扰我们的生活，需要准确快速地处理互联网的这些大量文本数据。

现有技术中的一种判断文本类别的方法是将传统主题模型的主题根据功能分成“类别主题”和“普通主题”；构造伪文本集，并以伪文本集作为模型的训练集对SSCF进行训练。训练结束后计算两类主题各自的词分布，并根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题，进而判断该短文本是否为无关文本，若有关，得到其所属类别。

然而该现有技术方法存在的技术问题是：

该方法采用滑动窗口扫描短文本，处理的速度比较慢；该方法只能处理英文的单词，不能处理中文的文本分类；该方法只能根据类别相关单词进行文本过滤，不能根据IP地址和手机号等进行文本分析。

发明内容

有鉴于此，本发明实施例提供一种文本类别的自动标注方法及系统，用以准确地判断文本的类别并自动进行标注。

第一方面，本发明实施例提供了一种文本类别的自动标注方法，该方法包括以下步骤：

采集各个语种的文本以建立多语种文本类别数据库；

基于所述多语种文本类别数据库获得相关词数据，对所述相关词数据进行训练生成多语种文本分类模型；

检索所述多语种文本类别数据库，判断待标注文本是否与所述多语种文本类别数据库中的数据匹配，若是，则将该待标注文本作为候选文本；

基于所述多语种文本分类模型识别所述候选文本的类别，将所述候选文本的类别作为待标注文本的类别并标注到所述待标注文本上；

其中，所述相关词数据是通过对所述多语种文本类别数据库中的数据按语种和类别进行标注得到的。

第二方面，本发明实施例提供了一种文本类别的自动标注系统，该系统包括采集模块、训练模块、匹配模块和判断模块；

所述采集模块用于采集各个语种的文本以建立多语种文本类别数据库；

所述训练模块基于所述多语种文本类别数据库获得相关词数据，对所述相关词数据进行训练生成多语种文本分类模型；

所述匹配模块检索所述多语种文本类别数据库，判断待标注文本是否与所述多语种文本类别数据库中的数据匹配，若是，则将该待标注文本作为候选文本；

所述判断模块基于所述多语种文本分类模型识别所述候选文本的类别，将所述候选文本的类别作为待标注文本的类别并标注到所述待标注文本上；

其中，所述相关词数据是通过对所述多语种文本类别数据库中的数据按语种或类别进行标注得到的。

本发明通过先建立多语种文本类别数据库，然后基于该数据库生成多语种文本分类模型并检索待标注文本是否与所述多语种文本类别数据库中的数据匹配，最后利用多语种文本分类模型对匹配的候选文进行判断以确定出待标注文本的类别并自动进行标注。通过本发明的这种自动标注方法可以快速处理大量的文本数据，处理效率也得到了明显提高。

附图说明

图1为本发明实施例提供的一种文本类别的自动标注方法的流程示意图；

图2为本发明实施例提供的一种文本类别的自动标注系统的结构示意图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

实施例一

下面介绍本发明实施例提供的一种文本类别的自动标注方法的具体实施方式，参见图1，该方法包括；

S100：采集各个语种的文本以建立多语种文本类别数据库；

采集各个语种的文本，标注出各文本的语种和类别(所述类别例如为“体育”、“娱乐”或“垃圾邮件”“正常邮件”等)以建立多语种文本类别数据库；

其中，所述多语种文本类别数据库包括但不限于如下数据库：相关文本匹配规则库、相关文本模板库、相关关键词组合库、相关来源IP地址库、相关来源域名库和各种词库：相关地名库、相关数据IP地址库、相关数据域名库、相关手机号库、相关事件名称库、相关人名库、相关关键词库、相关商品名称库、相关公司组织机构名称库、相关专有名词库、相关时间日期库、相关数字库、相关货币名称库、相关标准度量单位库、相关书报刊名库、相关音乐作品名库、相关影视作品名库等与类别相关的词库。

S200:基于所述多语种文本类别数据库获得相关词数据，对所述相关词数据进行训练生成多语种文本分类模型；

具体的，将多语种文本类别数据库的数据按语种和类别进行标注从而得到所述相关词数据，对所述相关词数据进行训练生成该多语种文本分类模型；

本实施例中，可以利用朴素贝叶斯算法、随机森林算法、线性判别分析(LDA)算法、Bagging算法(套袋算法)或Knn算法(k-NearestNeighbor，K最近邻分类算法)等算法中的一种或多种分别对所述相关词数据进行训练以生成所述多语种文本分类模型。

其中，本实施例中，在生成多语种文本分类模型时还包括获取多语种文本类别数据库的数据在该多语种文本分类模型中的权重；在后续识别时，根据权重计算待标注文本所属的类别；即：基于所述多语种文本分类模型，计算多语种文本类别数据库的各个数据(例如：数据IP地址、相关地名、相关手机号、相关事件名称、相关人名、相关关键词、相关商品名称、相关公司组织机构名称、相关专有名词、相关时间日期、相关数字、相关货币名称、相关标准度量单位、相关书刊名、相关音乐作品名、相关影视作品等数据)在多语种文本分类模型中的权重，计算上述这些数据的权重以用于多语种文本分类模型在后续判别待标注文本的类别。

S300：检索所述多语种文本类别数据库，判断待标注文本是否与所述多语种文本类别数据库中的数据匹配，若是，则将该待标注文本作为候选文本；

具体的，可以利用正则表达式文本匹配算法检索所述多语种文本类别数据库，判断待标注文本中是否与所述多语种文本类别数据库中的数据匹配，若待标注文本中包含一个或多个数据，则按照文本的语种和类别将该待标注文本作为候选文本。

所述多语种文本类别数据库中的数据包括词数据(例如：数据IP地址、相关地名、相关手机号、相关事件名称、相关人名、相关关键词、相关文本模板、相关商品名称、相关公司组织机构名称、相关专有名词、相关时间日期、相关数字、相关货币名称、相关标准度量单位、相关书刊名、相关音乐作品名、相关影视作品等数据)、规则(例如：包含关键词1和关键词2并且不包含关键词3等)或模板(例如：文档开头是某段话和/或文档结尾是另一段话等)。

其中，上述正则表达式(Regular Expression，在代码中常简写为regex、regexp或RE)，又称规则表达式。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串(包括普通字符(例如，a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。

S400：基于所述多语种文本分类模型识别所述候选文本的类别，将所述候选文本的类别作为待标注文本的类别并标注到所述待标注文本上。

具体的，可以基于多语种文本分类模型并使用朴素贝叶斯算法、随机森林算法、线性判别分析(LDA)算法、Bagging算法或Knn算法判断所述候选文本的类别，将所述候选文本的类别作为待标注文本的类别。

利用实施例的文本类别的自动标注方法使用该方法，可以准确、快速有效地对待标注文本进行自动标注，实现了待标注文本的分类功能。

优选的，所述文本类别的自动标注方法还可以基于多语种文本分类模型并使用朴素贝叶斯算法、随机森林算法、线性判别分析(LDA)算法、Bagging算法、Knn算法中的多种算法分别来判断候选文本的类别以得到多个分类结果，对该多个分类结果根据下面公式(1)进行投票，将投票得分最高的分类结果作为待标注文本的类别。

Class＝max{C₁*S₁，C₂*S₂，......，C_n*S_n}(1)

其中，C_n是第n个模型判断的类别名称，S_n是第n个模型判断为C_n类别的权重计算的得分,Class是待标注文本的类别。

下面将以一个例子进行说明。

假设，朴素贝叶斯算法模型判断的类别是：A，其权重得分是0.9；

随机森林算法模型判断的类别是：C，其权重得分是0.8；

线性判别分析(LDA)算法模型判断的类别是B，其权重得分是0.9；

Bagging算法模型判断的类别是A，其权重得分是0.8；

Knn算法模型判断的类别是D，其权重得分是0.7，

则投票结果即是{1.7A,0.9B,0.8C,0.7D},那么待标注文本的类别是A(其权重得分为0.8+0.9＝1.7最高)，通过这种投票方法，可以使得待标注文本的类别更加准确。

实施例二

一种文本类别的自动标注系统，该系统包括采集模块、训练模块、匹配模块和判断模块；

进一步的，所述匹配模块利用正则表达式文本匹配算法检索待标注文本是否与所述多语种文本类别数据库中的数据匹配，若待标注文本中包含一个或多个匹配的数据，则按照文本的语种和类别将该待标注文本作为候选文本。

进一步的，所述多语种文本类别数据库中的数据包括词数据、规则、模板中的一种或多种。

进一步的，在生成多语种文本分类模型前还包括：获取多语种文本类别数据库的数据在该多语种文本分类模型中的权重。

进一步的，所述基于所述多语种文本分类模型识别所述候选文本的类别包括：基于多语种文本分类模型并使用多种分类方法来判断候选文本的类别以得到多个分类结果，对该多个分类结果进行投票，将投票最高的分类结果作为待标注文本的类别。

本实施例中的文本类别的自动标注系统的工作过程与上述实施例基本一致，在此不再赘述。

本发明的有益效果：

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本类别的自动标注方法，其特征在于，该方法包括以下步骤：

采集各个语种的文本以建立多语种文本类别数据库；

2.根据权利要求1所述的方法，其特征在于，利用正则表达式文本匹配算法检索所述多语种文本类别数据库，判断待标注文本是否与所述多语种文本类别数据库中的数据匹配，若待标注文本中包含一个或多个匹配的数据，则按照文本的语种和类别将该待标注文本作为候选文本。

3.根据权利要求2所述的方法，其特征在于，所述多语种文本类别数据库中的数据包括词数据、规则、模板中的一种或多种。

4.根据权利要求1所述的方法，其特征在于，在生成多语种文本分类模型前还包括：获取多语种文本类别数据库的数据在该多语种文本分类模型中的权重。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述基于所述多语种文本分类模型识别所述候选文本的类别包括：基于多语种文本分类模型并使用多种分类方法来判断候选文本的类别以得到多个分类结果，对该多个分类结果进行投票，将投票最高的分类结果作为待标注文本的类别。

6.一种文本类别的自动标注系统，其特征在于，该系统包括采集模块、训练模块、匹配模块和判断模块；

7.根据权利要求6所述的系统，其特征在于，所述匹配模块利用正则表达式文本匹配算法检索待标注文本是否与所述多语种文本类别数据库中的数据匹配，若待标注文本中包含一个或多个匹配的数据，则按照文本的语种和类别将该待标注文本作为候选文本。

8.根据权利要求7所述的系统，其特征在于，所述多语种文本类别数据库中的数据包括词数据、规则、模板中的一种或多种。

9.根据权利要求6所述的系统，其特征在于，在生成多语种文本分类模型前还包括：获取多语种文本类别数据库的数据在该多语种文本分类模型中的权重。

10.根据权利要求6-9中任一项所述的系统，其特征在于，所述基于所述多语种文本分类模型识别所述候选文本的类别包括：基于多语种文本分类模型并使用多种分类方法来判断候选文本的类别以得到多个分类结果，对该多个分类结果进行投票，将投票最高的分类结果作为待标注文本的类别。