CN109766441A

CN109766441A - 文本分类方法、装置及系统

Info

Publication number: CN109766441A
Application number: CN201811631620.XA
Authority: CN
Inventors: 李斌; 曹臻; 徐方华
Original assignee: Beijing Qianxin Technology Co Ltd
Current assignee: Beijing Qianxin Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-17
Anticipated expiration: 2038-12-28
Also published as: CN109766441B

Abstract

本公开提供了一种文本分类方法，该方法包括：识别待分类文本，得到待分类文本包括的至少一个关键词；匹配至少一个关键词与敏感词库，得到匹配结果；以及根据所述匹配结果，对待分类文本进行分类。其中，敏感词库包括具有多个不同等级的多个敏感词，每个敏感词的等级根据已分类文本中包括敏感词的数量确定。本公开还提供了一种文本分类装置以及一种文本分类系统。

Description

文本分类方法、装置及系统

技术领域

本公开涉及互联网技术领域，更具体地，涉及一种文本分类方法、装置及系统。

背景技术

随着互联网技术的普及和快速发展，赌博、网络诈骗、淫秽色情、违禁产品等在网络上泛滥，甚至成为互联网经济最具盈利能力的内容。但这无疑会对社会经济的正常发展以及现实社会的稳定构成极大威胁。

为了更好的避免该些违规网页及违规内容的出现，例如可以先对文本进行识别分类，确定待展示的网页或内容是否包括违规文本，进而确定是否对该网页或内容进行展示。

在实现本公开构思的过程中，发明人发现现有技术中至少存在如下问题：当前主流的识别违规文本的方法是将文本中的全部内容与敏感词库中的全量敏感词进行匹配，只要匹配到文本中包括有敏感词库中的敏感词，就将该文本归类为违规文本。但是，考虑到敏感词库中大量敏感词在不同文本中的词性和含义可能不同，且该敏感词在语料库中的分布规律也不尽相同。因此仅根据文本中是否包括敏感词来判断文本是否为违规文本，往往会导致较高的误报率，影响部分内容的正常展示。

发明内容

有鉴于此，本公开提供了一种提高文本分类准确率的文本分类方法、装置及系统。

本公开的一个方面提供了一种文本分类方法，包括：识别待分类文本，得到待分类文本包括的至少一个关键词；匹配至少一个关键词与敏感词库，得到匹配结果；以及根据匹配结果，对待分类文本进行分类。其中，敏感词库包括具有多个不同等级的多个敏感词，每个敏感词的等级根据已分类文本中包括该敏感词的数量确定。

可选地，根据已分类文本中的违规文本包括的第一敏感词的第一数量以及已分类文本中的非违规文本包括的第一敏感词的第二数量，来确定第一敏感词的等级。

可选地，上述根据匹配结果，对待分类文本进行分类包括：如果匹配结果表征至少一个关键词中包括多个不同等级中的第一等级的敏感词，则将待分类文本分类为违规文本；并且/或者，如果匹配结果表征至少一个关键词中不包括多个敏感词，则将待分类文本分类为非违规文本；并且/或者，如果匹配结果表征至少一个关键词中不包括多个不同等级中的第一等级的敏感词、但包括除第一等级外的其他等级的敏感词，则以待分类文本作为输入，经由第一深度学习模型对待分类文本进行分类。

可选地，上述根据匹配结果，对待分类文本进行分类包括：根据匹配结果，分配待分类文本属于违规文本的参考权重；以及根据参考权重，对待分类文本进行分类。

可选地，如果匹配结果表征至少一个关键词不包括多个不同等级中的第一等级的敏感词、且包括有除第一等级外的其他等级的敏感词，则根据匹配结果，分配待分类文本属于违规文本的参考权重。

可选地，上述根据参考权重及至少一个关键词，对待分类文本进行分类包括：将参考权重及待分类文本转换为向量；以第一向量作为输入，经由第二深度学习模型对待分类文本进行分类，其中，第一向量由参考权重转换得到的向量与待分类文本转换得到的向量合并得到。

可选地，上述方法还包括：实时监控对待分类文本进行分类得到的分类结果；以及根据分类结果，调整至少一个敏感词的等级、第一深度学习模型的参数和/或第二深度学习模型的参数。

可选地，上述多个不同等级包括第一等级和第二等级：如果第三数量满足第一条件，且第一数量与第三数量的比值满足第二条件，确定敏感词为第一等级的敏感词；如果第三数量满足第一条件，且第一数量与第三数量的比值不满足第二条件，确定敏感词为第二等级的敏感词，其中，第三数量为第一数量和第二数量的和。

本公开的另一方面提供了一种文本分类装置，该装置包括文本识别模块、匹配模块以及文本分类模块。其中，文本识别模块用于识别待分类文本，得到待分类文本包括的至少一个关键词；匹配模块用于匹配至少一个关键词与敏感词库，得到匹配结果；文本分类模块用于根据匹配结果，对待分类文本进行分类。其中，敏感词库包括具有多个不同等级的多个敏感词，每个敏感词的等级根据已分类文本中包括该敏感词的数量确定。

可选地，上述分类文本模块具体用于：如果匹配结果表征至少一个关键词中包括多个不同等级中的第一等级的敏感词，则将待分类文本分类为违规文本；并且/或者，如果匹配结果表征至少一个关键词中不包括多个敏感词，则待分类文本分类为非违规文本；并且/或者，如果匹配结果表征至少一个关键词中不包括多个不同等级中的第一等级的敏感词、但包括除第一等级外的其他等级的敏感词，则以待分类文本作为输入，经由第一深度学习模型对待分类文本进行分类。

可选地，上述文本分类模块可以包括权重分配子模块及分类子模块。其中，权重分配子模块用于根据匹配结果，分配待分类文本属于违规文本的参考权重；分类子模块用于根据参考权重，对待分类文本进行分类。

可选地，如果匹配结果表征至少一个关键词不包括多个不同等级中的第一等级的敏感词、且包括有除第一等级外的其他等级的敏感词，上述权重分配子模块根据匹配结果，分配待分类文本属于违规文本的参考权重。

可选地，上述分类子模块包括转换单元和分类单元。其中，转换单元用于将参考权重及待分类文本转换为向量；分类单元用于以第一向量作为输入，经由第二深度学习模型对待分类文本进行分类。其中，第一向量由参考权重转换得到的向量与待分类文本转换得到的向量合并得到。

可选地，上述文本分类装置还包括监控模块和调整模块。其中，监控模块用于实时监控对待分类文本进行分类得到的分类结果；调整模块用于根据分类结果，调整至少一个敏感词的等级、第一深度学习模型的参数和/或第二深度学习模型的参数。

可选地，上述多个不同等级包括第一等级和第二等级。其中，如果第三数量满足第一条件，且第一数量与第三数量的比值满足第二条件，确定敏感词为第一等级的敏感词；如果第三数量满足第一条件，且第一数量与第三数量的比值不满足第二条件，确定敏感词为第二等级的敏感词。其中，第三数量为第一数量和第二数量的和。

本公开的另一方面还提供了一种文本分类系统，该系统包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上所述的文本分类方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的文本分类方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的文本分类方法。

根据本公开的实施例，由于敏感词库的敏感词被分为多个不同等级，则将待分类文本与该多个不同等级的多个敏感词进行匹配，并根据匹配结果来对待分类文本进行分类。因此与现有的文本分类方法相比，能够在一定程度上考虑敏感词的含义及分布规律，并因此可以在一定程度上提高待分类文本的分类精准度。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的文本分类方法、装置及系统的应用场景；

图2示意性示出了根据本公开第一实施例的文本分类方法的流程图；

图3示意性示出了根据本公开实施例的确定敏感词等级的流程图；

图4示意性示出了根据本公开第二实施例的文本分类方法的流程图；

图5A示意性示出了根据匹配结果对待分类文本进行分类的流程图；

图5B示意性示出了根据参考权重对待文本分类进行分类的流程图；

图6示意性示出了根据本公开第三实施例的文本分类方法的流程图；

图7示意性示出了根据本公开实施例的文本分类装置的结构框图；以及

图8示意性示出了根据本公开实施例的适于实现文本分类方法的文本分类系统的结构框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种用于提高分类准确率的文本分类方法、装置及系统。其中，文本分类方法包括：识别待分类文本，得到待分类文本包括的至少一个关键词；匹配至少一个关键词与敏感词库，得到匹配结果；以及根据所述匹配结果，对待分类文本进行分类。其中，敏感词库包括具有多个不同等级的多个敏感词，每个敏感词的等级根据已分类文本中包括该敏感词的数量确定。

图1示意性示出了根据本公开实施例的文本分类方法、装置及系统的应用场景100。需要注意的是，图1所示仅为可以应用本公开实施例的应用场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，本公开实施例的应用场景100包括服务器110、网络120和终端设备131、132、133。网络120用以在终端设备131、132、133和服务器110之间提供通信链路的介质。网络120可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备131、132、133通过网络120与服务器110交互，以接收或发送消息等。终端设备131、132、133上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。具体例如可以安装有用于对文本进行分类的应用，以对服务器110发送的文本140进行分类，确定是否为违规文本。

终端设备131、132、133可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器110可以是提供各种服务的服务器，例如对用户利用终端设备131、132、133所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求数据进行响应，并将与请求数据匹配的文本140反馈给终端设备，供终端设备进行分类并显示。

根据本公开的实施例，服务器110例如还具有处理功能，以响应于接收的用户请求数据，判断与该请求数据匹配的文本140是否为违规文本，在文本140不是违规文本的情况下，将文本140反馈给终端设备131、132、133；而在文本140是违规文本的情况下，则向终端设备131、132、133反馈该判断结果，但不反馈文本140。

需要说明的是，本公开实施例所提供的文本分类方法一般可以由终端设备131、132、133或服务器110执行。相应地，本公开实施例所提供的文本分类装置一般可以设置于终端设备131、132、133或服务器110中。本公开实施例所提供的文本分类方法也可以由不同于终端设备131、132、133和服务器110，且能够与终端设备131、132、133和/或服务器110通信的服务器或服务器集群执行。相应地，本公开实施例所提供的文本分类装置也可以设置于不同于终端设备131、132、133和服务器110，且能够与终端设备1，31、132、133和/或服务器110通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络、服务器和文本的数目及类型仅仅是示意性的。根据实现需要，可以具有任意数目及类型的终端设备、网络、服务器和文本。

图2示意性示出了根据本公开第一实施例的文本分类方法的流程图。

如图2所示，该文本分类方法包括操作S210～操作S230。

在操作S210，识别待分类文本，得到待分类文本包括的至少一个关键词。

其中，待分类文本例如可以是构成网页内容的文本，或者参考图1中的终端设备131、132、133中安装的客户端应用的待展示页面的文本，或者聊天应用中待展示的聊天内容等。可以理解的是，上述待分类文本仅作为示例以利于理解本公开，本公开不作限定。只要该待分类文本为响应于用户的操作，需要展示的文本即可。

其中，上述操作S210具体可以是：先对待分类文本进行识别，然后从待分类文本中把与该文本所表达的意义最相关的一些词或短语抽取出来，并将抽取出的词或短语作为能够代表待分类文本的关键词。

根据本公开的实施例，上述操作S210具体例如可以基于词性、词频、逆文本频率(TF-IDF)等对待分类文本中的词语进行抽取，得到至少一个关键词。或者，该操作S210例如还可以通过预训练好的机器学习模型来抽取得到该至少一个关键词，具体例如可以通过机器学习的分类或标注方法将待分类文本中的所有词语进行分类或标注，则根据分类结果及标注结果即可得到所述的关键词。

根据本公开的实施例，为了提高关键词抽取效率，在抽取关键词之前，例如还可以对待分类文本进行预处理，例如通过分词处理，将该待分类文本分为多个子文本，以并行地自该多个子文本中抽取关键词。再者，为了避免一些介词等无用词的出现，在抽取待分类文本中的词语之前，例如还可以通过过滤停用词(stop word)的方法将该些无用词过滤掉，以提高关键词抽取效率及准确性。

在操作S220，匹配至少一个关键词与敏感词库，得到匹配结果。

其中，敏感词库包括具有多个不同等级的多个敏感词，每个敏感词的等级根据已分类文本中包括敏感词的数量确定。具体地，敏感词例如可以根据其具体含义进行等级分类，等级越高，则说明该敏感词违规程度越高。例如，“赌博”与“赌注”两个词，“赌博”的等级要高一些(例如第二等级)，“赌注”的等级要低一些(例如第三等级)。该敏感词的等级数量具体例如可以是预先设定的。

根据本公开的实施例，例如可以根据敏感词在语料库中的分布规律来确定该敏感词的等级。例如，当某个敏感词在语料库中出现的次数较多时，则可以确定该敏感词为较高的等级。而若某个敏感词在语料库中出现的次数较少时，则可以确定该敏感词为较低的等级。

根据本公开的实施例，上述操作S220具体可以是，将至少一个关键词与敏感词库中的多个敏感词进行匹配对比，得到匹配结果。具体还可以是分别将每个关键词与敏感词库中的每个敏感词依次匹配对比，以逐关键词的确定该关键词是否属于敏感词，以及其所属敏感词的等级。最后整合每个关键词的匹配结果，即可得到与敏感词库的匹配结果。

在操作S230，根据匹配结果，对所述待分类文本进行分类。

根据本公开的实施例，该操作S230例如可以包括：在匹配结果表征至少一个关键词中包括敏感词的数量较多，且包括的敏感词的等级高，则将待分类文本分类为违规程度高的文本。若至少一个关键词包括的敏感词的数量较少，且包括的敏感词的等级低，则将待分类文本分类为违规程度较低的文本。若至少一个关键词中没有敏感词，则将待分类文本确定为非违规文本。其中，待分类文本的违规程度的高低例如可以按等级分为一个等级、两个等级或多个等级，本公开对此不作限定，具体等级数量可根据实际需求进行设定。

综上可知，本公开实施例的文本分类方法，由于敏感词库中的敏感词分有多个不同等级，则在进行匹配时，不仅可以确定关键词是否为敏感词，还可以确定其为敏感词时的敏感等级。则根据该匹配结果对文本进行分类，相较于现有技术中仅根据是否属于敏感词的匹配结果进行分类的技术方案，可以在一定程度上提高待分类文本的分类准确性，从而可以降低文本类型的误报率，保证合法信息的有效展示。

具体地，在现有技术中，当待分类文本中出现关键词“赌博”时，由于敏感词库中存在该词，则会直接断定该待分类文本属于违规文本。但公安系统或其他系统发布的禁止赌博的新闻虽然包括有该关键词，但并不属于违规文本，因此必然会存在误报的情况。而本公开实施例的文本分类方法，由于可以为该敏感词“赌博”没置较低的等级，因此不会直接将该新闻确定为违规文本，并因此可以在一定程度上避免误报的情况发生。

图3示意性示出了根据本公开实施例的确定敏感词等级的流程图。

根据本公开的实施例，每个敏感词的等级，具体例如可以根据已分类文本中的违规文本包括该敏感词的第一数量以及已分类文本中的非违规文本包括该敏感词的第二数量确定。例如当第一数量大于第二数量时，可以确定该敏感词为高等级词，当第一数量小于第二数量时，可以确定该敏感词为低等级词。

根据本公开实施例，该敏感词的等级具体还可以考虑已分类文本中出现的总次数。相应地，如图3所示，每个敏感词等级的确定例如可以通过操作S310～操作S350来确定。其中，所述的多个不同等级具体例如可以包括第一等级和第二等级。

具体地，先通过操作S310统计已分类文本中的违规文本包括的第一敏感词的第一数量M₁，以及已分类文本中的非违规文本包括的第一敏感词的第二数量M₂。然后在操作S320中判断第一数量M₁和第二数量M₂求和得到的第三数量M₃是否满足第一条件。其中，该第一条件具体例如可以是大于第一阈值F，即(M₁+M₂)＞F，其中M₁、M₂、F均为非负整数。若该操作S320的判断结果为满足第一条件，则继续执行操作S330，判断第一数量M₁与第三数量M₃的比值是否满足第二条件。其中，该第二条件具体例如可以是大于第二阈值T，即M₁/M₃＞T，其中，0≤T≤1。若操作S330的判断结果为满足第二条件，则执行操作S340，将该第一敏感词归类为第一等级的敏感词。若操作S330的判断结果为不满足第二条件，则执行操作S350，将该第一敏感词归类为第二等级的敏感词。

根据本公开的实施例，考虑到第一数量M₁和第二数量M₂的和不满足第一条件是由于语料库中该第一敏感词出现的次数少，而直接根据判断是否满足第二条件得到的结果可能不准确。因此，在操作S320的判断结果为不满足第一条件的情况下，可以响应于操作方根据词性、含义等因素执行的操作来确定该第一敏感词的等级，以此来提高敏感词库中多个敏感词等级的准确性。或者，还可以响应于操作方对敏感词分级结果进行校验后的操作，若所述操作表征存在分类错误的情况，则可以通过调节上述的F值和T值来优化分级条件，提高分级精度。

需要说明的是，上述的第一敏感词为敏感词库中多个敏感词中的任意一个，且该多个敏感词中的每一个均可通过参考图3的流程来确定所属等级，其中的F与T的具体取值可以根据实际需求或根据操作方的经验设定，或者该F与T可以经由训练深度学习模型得到，或者该F与T为预训练好的深度学习模型的参数。

图4示意性示出了根据本公开第二实施例的文本分类方法的流程图。

如图4所示，本公开实施例的文本分类方法除了参考图2描述的操作S210～操作S220外，还可以包括操作S431～操作S435。具体可以是参考图2描述的操作S230包括操作S431～操作S435。

在操作S431，判断待分类文本的至少一个关键词中是否包括敏感词。该操作具体是根据操作S220得到的匹配结果来进行判断，由于匹配结果包括每个关键词是否属于敏感词的结果，以及属于敏感词的等级。因此，根据匹配结果即可直接完成操作S431的判断。

如果操作S431的判断结果为待分类文本的至少一个关键词中不包括敏感词，则执行操作S432，将待分类文本分类为非违规文本。具体即为：如果匹配结果表征至少一个关键词中不包括敏感词库中的多个敏感词时，则将待分类文本分类为非违规文本。

如果操作S431的判断结果为待分类文本的至少一个关键词中包括敏感词时，则执行操作S433，即继续判断待分类文本的至少一个关键词中是否包括第一等级的敏感词。

如果操作S433的判断结果为至少一个关键词中包括第一等级的敏感词，则执行操作S434，将待分类文本分类为违规文本。考虑到第一等级的敏感词(例如“威尼斯人赌场”)为敏感程度最高的词，因此，只要待分类文本中包括该第一等级的敏感词，就可将待分类文本归类为违规文本。即如果匹配结果表征待分类文本的至少一个关键词中包括多个不同等级中的第一等级的敏感词，则将待分类文本分类为违规文本。

如果操作S433的判断结果为至少一个关键词中不包括第一等级的敏感词，则执行操作S435，以待分类文本作为输入，经由第一深度学习模型对待分类文本进行分类。考虑到若待分类文本中虽然具有敏感词，但不包括第一等级的敏感词时，由于敏感词(例如“赌博”)的敏感程度较低，则无法准确确定待分类文本的分类，因此可进一步的通过深度学习模型(具体例如可以是卷积神经网络模型)来进行待分类文本的分类。具体即为，如果匹配结果表征至少一个关键词中不包括多个不同等级中的第一等级的敏感词、但包括除第一等级外的其他等级的敏感词，则以待分类文本作为输入，经由第一深度学习模型对待分类文本进行分类。其中，该第一深度学习模型为以大量的文本作为样本数据训练得到的模型，该模型的初始参数例如可以由根据实际需求或者操作方的经验进行设定。且具体应该是将待分类文本转换为向量后作为第一深度学习模型的输入。

综上可知，通过本公开实施例的文本分类方法，在对多个待分类文本进行分类时，可以在采用深度学习模型之前，先根据多个待分类文本中每个文本包括的至少一个关键词与敏感词库的匹配结果，将毫无意义地确定的违规文本和非违规文本挑选出来，仅将无法准确确定的、文本类别不明显的待分类文本输入深度学习模型进行分类。因此相较于现有技术中直接采用深度学习模型进行分类的技术方案，可以在一定程度上减少深度学习模型需要处理的数据量。相较于现有技术中仅根据匹配结果直接确定分类的技术方案，可以在一定程度上提高分类准确性。因此，本公开实施例的文本分类方法，不仅具有文本分类准确率高的有益效果，还具有分类效率高的有益效果。

图5A示意性示出了根据匹配结果对待分类文本进行分类的流程图；图5B示意性示出了根据参考权重对待文本分类进行分类的流程图。

如图5A所示，参考图2中的操作S230具体例如可以包括操作S531和操作S532。

在操作S531，根据匹配结果，分配待分类文本属于违规文本的参考权重。

根据本公开的实施例，上述操作S531具体可以是，在匹配结果表征至少一个关键词中包括高等级的敏感词的情况下，可以为待分类文本分配较高的参考权重(例如0.7～1)，以表征属于违规文本的概率较大。在匹配结果表征至少一个关键词中不包括高等级的敏感词而仅包括较低等级的敏感词的情况下，可以为待分类文本分配较小的参考权重(例如0.3～0.7)，以表征属于违规文本的概率较小。在匹配结果表征至少一个关键词中不包括敏感词的情况下，则可以为待分类文本分配极低的参考权重(例如0～0.1)，以表征属于违规文本的概率极小。

根据本公开的实施例，考虑到待分类文本中包括第一等级的敏感词时，可以基本毫无疑义的确定为违规文本，且待分类文本中不包括敏感词时，可以明确地确定为非违规文本。因此，为了提高待分类文本的分类效率，可以仅在匹配结果表征至少一个关键词不包括多个不同等级中的第一等级的敏感词、且包括有除第一等级外的其他等级的敏感词的情况下，根据匹配结果，为待分类文本分配属于违规文本的参考权重，从而为待分类文本的分类提供一定的参考价值。

在操作S532，根据参考权重，对待分类文本进行分类。

其中，该操作S532例如可以通过机器学习等智能化的方法，根据参考权重，对待分类文本进行分类。从而在一定程度上提高分类效率，保证该分类结果的准确率。

根据本公开的实施例，如图5B所示，该操作S532具体例如可以包括操作S5321～操作S5322。

在操作S5321，将参考权重及待分类文本转换为向量；在操作S5322，以第一向量作为输入，经由第二深度学习模型(例如卷积神经网络模型)对待分类文本进行分类。具体地，操作S5321为转换参考权重及待分类文本，以分别得到参考权重的向量表示和待分类文本的向量表示。然后在操作S5322中，先将参考权重转换得到的向量与待分类文本转换得到的向量合并为一个向量(具体例如可以是将参考权重转换得到的向量拼接至待分类文本转换得到的向量的末端)，作为所述第一向量。再将该第一向量输入第二深度学习模型中，通过该第二深度学习模型的处理，得到待分类文本的分类结果。

可以理解的是，该第二深度学习模型是预先以大量的文本及该文本属于违规文本的参考权重作为样本数据训练得到的模型。该模型的初始参数例如可以根据实际需求或者操作方的经验进行设定。因此，考虑到该第二深度学习模型的输入不仅包括待分类文本，还包括根据与敏感词库匹配得到的匹配结果分配的参考权重。相较于仅以待分类文本作为输入的技术方案，可以在一定程度上提高待分类文本的分类结果的准确率，并因此降低误报率。

图6示意性示出了根据本公开第三实施例的文本分类方法的流程图。

如图6所示，本公开实施例的文本分类方法除了参考图2描述的操作S210～操作S230外，还可以包括操作S610～操作S620。其中，该操作S610～操作S620例如可以是在操作S230之后执行。

在操作S610，实时监控对待分类文本进行分类得到的分类结果；在操作S620，根据分类结果，调整至少一个敏感词的等级、第一深度学习模型的参数和/或第二深度学习模型的参数。

根据本公开的实施例，操作S610具体例如可以是：根据包括多个不同等级的敏感词的敏感词库，在线上进行待分类文本分类时实时监控得到的分类结果。

根据本公开的实施例，操作S620具体例如可以是，先将分类结果展示给操作方。然后响应于操作方对该分类结果所做的分类不正确的标注，调整上述敏感词库中敏感词分级的条件(例如可以调节F值和T值)，或直接调节该分类结果表征的文本中包括的敏感词的等级，从而调整至少一个敏感词的等级。或者，以该匹配结果及操作方的标注作为参考，以该分类结果表征的文本作为样本数据输入第一深度学习模型，以进一步调节第一深度学习模型的参数。或者，以匹配结果及操作方的标注作为参考，提高或降低为该分类结果表征的文本的参考权重，并将调整后的参考权重及该分类结果表征的文本作为样本数据输入第二深度学习模型，以进一步调节该第二深度学习模型的参数。

需要说明的是，上述第一深度学习模型和第二深度学习模型例如可以均为卷积神经网络模型，该两个模型在训练时采用的样本不同，训练后输出的结果为相同类型的结果，即均为待分类文本的分类结果。其中，采用样本的区别在于，第二深度学习模型的训练样本不仅包括文本，还包括该文本属于违规文本的预测权重。

根据本公开的实施例，上述操作S620例如还可以在操作S610中监控得到多个待分类文本的分类结果的情况下执行。则操作S620还可以对该分类结果中的错误率进行统计，并统计得到错误的分类结果表征的文本中包括的敏感词。考虑到可能是由于统计得到的该些敏感词的等级划分不准确，才导致文本分类不正确的。因此操作S620可直接对统计到的该些敏感词的等级做适应性调整，例如将错误率高的高等级敏感词划分为低等级敏感词等。

综上可知，本公开实施例在匹配结果不正确时，可根据匹配结果，对敏感词的等级、第一深度学习模型的参数和/或第二深度学习模型的参数进行及时地调整。因此可以进一步提高敏感词等级划分的准确性，提高深度学习模型的精准度，并因此有利于提高后续待分类文本的分类准确率，降低误报率。

图7示意性示出了根据本公开实施例的文本分类装置的结构框图。

如图7所示，本公开实施例的文本分类装置700包括文本识别模块710、匹配模块720以及文本分类模块730。

其中，文本识别模块710用于识别待分类文本，得到待分类文本包括的至少一个关键词。根据本公开的实施例，该文本识别模块710例如可以用于执行参考图2描述的操作S210，在此不再赘述。

其中，匹配模块720用于匹配至少一个关键词与敏感词库，得到匹配结果。其中，敏感词库包括具有多个不同等级的多个敏感词，每个敏感词的等级根据已分类文本中包括该敏感词的数量确定。根据本公开的实施例，该匹配模块720例如可以用于执行参考图2描述的操作S220，在此不再赘述。

其中，文本分类模块730用于根据匹配结果，对待分类文本进行分类。根据本公开的实施例，该文本分类模块730例如可以用于执行参考图2描述的操作S230，在此不再赘述。

根据本公开的实施例，上述每个敏感词的等级，例如可以根据已分类文本中的违规文本包括的第一敏感词的第一数量以及已分类文本中的非违规文本包括的第一敏感词的第二数量来确定。其中，第一敏感词为多个敏感词中的任意一个敏感词。

根据本公开的实施例，上述多个不同等级包括第一等级和第二等级。其中，在第三数量满足第一条件，且第一数量与第三数量的比值满足第二条件时，确定第一感词为第一等级的敏感词；在第三数量满足第一条件，且第一数量与第三数量的比值不满足第二条件时，确定第一敏感词为第二等级的敏感词。其中，第三数量为第一数量和第二数量的和。

根据本公开的实施例，上述的文本分类模块730具体例如可以用于执行以下操作：如果匹配结果表征至少一个关键词中包括多个不同等级中的第一等级的敏感词，则将待分类文本分类为违规文本。并且/或者，如果匹配结果表征至少一个关键词中不包括多个敏感词，则将待分类文本分类为非违规文本。并且/或者，如果匹配结果表征至少一个关键词中不包括多个不同等级中的第一等级的敏感词、但包括除第一等级外的其他等级的敏感词，则以待分类文本作为输入，经由第一深度学习模型对待分类文本进行分类。根据本公开的实施例，该文本分类模块730具体例如可以用于执行参考图4描述的操作S431～操作S435，在此不再赘述。

根据本公开的实施例，如图7所示，上述文本分类模块730例如可以包括权重分配子模块731和分类子模块732。其中，权重分配子模块731用于根据匹配结果，分配待分类文本属于违规文本的参考权重。分类子模块732用于根据参考权重，对待分类文本进行分类。根据本公开的实施例，该权重分配子模块731和分类子模块732例如可以分别用于执行参考图5A描述的操作S531～操作S532，在此不再赘述。

根据本公开的实施例，上述权重分配子模块731例如可以仅在匹配结果表征至少一个关键词不包括多个不同等级中的第一等级的敏感词、且包括有除第一等级外的其他等级的敏感词的情况下，根据匹配结果，分配待分类文本属于违规文本的参考权重。

根据本公开的实施例，如图7所示，上述分类子模块732例如可以包括转换单元7321和分类单元7322。其中，转换单元7321用于将参考权重及待分类文本转换为向量；分类单元7322用于以第一向量作为输入，经由第二深度学习模型对待分类文本进行分类。其中，第一向量由参考权重转换得到的向量与待分类文本转换得到的向量合并得到。根据本公开的实施例，转换单元7321和分类单元7322例如可以分别用于执行参考图5B描述的操作S5321～操作S5322，在此不再赘述。

根据本公开的实施例，如图7所示，上述文本分类装置700例如还可以包括监控模块740和调整模块750。其中，监控模块740用于实时监控对待分类文本进行分类得到的分类结果。调整模块750用于根据分类结果，调整至少一个敏感词的等级、第一深度学习模型的参数和/或第二深度学习模型的参数。根据本公开的实施例，监控模块740和调整模块750例如可以分别用于执行参考图6描述的操作S610～操作S620，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，文本识别模块710、匹配模块720、文本分类模块730、监控模块740、调整模块750、权重分配子模块731、分类子模块732、转换单元7321以及分类单元7322中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，文本识别模块710、匹配模块720、文本分类模块730、监控模块740、调整模块750、权重分配子模块731、分类子模块732、转换单元7321以及分类单元7322中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，文本识别模块710、匹配模块720、文本分类模块730、监控模块740、调整模块750、权重分配子模块731、分类子模块732、转换单元7321以及分类单元7322中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图8示意性示出了根据本公开实施例的适于实现文本分类方法的文本分类系统的结构框图。图8示出的文本分类系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，文本分类系统800包括处理器810和计算机可读存储介质820。该文本分类系统800可以执行根据本公开实施例的方法。

具体地，处理器810例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器810还可以包括用于缓存用途的板载存储器。处理器810可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质820，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质820可以包括计算机程序821，该计算机程序821可以包括代码/计算机可执行指令，其在由处理器810执行时使得处理器810执行根据本公开实施例的方法或其任何变形。

计算机程序821可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序821中的代码可以包括一个或多个程序模块，例如包括821A、模块821B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器810执行时，使得处理器810可以执行根据本公开实施例的方法或其任何变形。

根据本发明的实施例，文本识别模块710、匹配模块720、文本分类模块730、监控模块740、调整模块750、权重分配子模块731、分类子模块732、转换单元7321以及分类单元7322中的至少一个可以实现为参考图8描述的计算机程序模块，其在被处理器810执行时，可以实现上面描述的相应操作。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种文本分类方法，包括：

识别待分类文本，得到所述待分类文本包括的至少一个关键词；

匹配所述至少一个关键词与敏感词库，得到匹配结果；以及

根据所述匹配结果，对所述待分类文本进行分类，

其中，所述敏感词库包括具有多个不同等级的多个敏感词，每个敏感词的等级根据已分类文本中包括该敏感词的数量确定。

2.根据权利要求1所述的方法，其中，根据已分类文本中的违规文本包括的第一敏感词的第一数量以及已分类文本中的非违规文本包括的第一敏感词的第二数量，来确定第一敏感词的等级。

3.根据权利要求2所述的方法，其中，根据所述匹配结果，对所述待分类文本进行分类包括：

如果所述匹配结果表征所述至少一个关键词中包括所述多个不同等级中的第一等级的敏感词，则将所述待分类文本分类为违规文本；并且/或者

如果所述匹配结果表征所述至少一个关键词中不包括所述多个敏感词，则将所述待分类文本分类为非违规文本；并且/或者

如果所述匹配结果表征所述至少一个关键词中不包括所述多个不同等级中的第一等级的敏感词、但包括除所述第一等级外的其他等级的敏感词，则以所述待分类文本作为输入，经由第一深度学习模型对所述待分类文本进行分类。

4.根据权利要求2所述的方法，其中，根据所述匹配结果，对所述待分类文本进行分类包括：

根据所述匹配结果，分配所述待分类文本属于违规文本的参考权重；以及

根据所述参考权重，对所述待分类文本进行分类。

5.根据权利要求4所述的方法，其中，如果所述匹配结果表征所述至少一个关键词不包括所述多个不同等级中的第一等级的敏感词、且包括有除所述第一等级外的其他等级的敏感词，则根据所述匹配结果，分配所述待分类文本属于违规文本的参考权重。

6.根据权利要求4所述的方法，其中，根据所述参考权重，对所述待分类文本进行分类包括：

将所述参考权重及所述待分类文本转换为向量；

以第一向量作为输入，经由第二深度学习模型对所述待分类文本进行分类，

其中，所述第一向量由所述参考权重转换得到的向量与所述待分类文本转换得到的向量合并得到。

7.根据权利要求3或6所述的方法，还包括：

实时监控对所述待分类文本进行分类得到的分类结果；以及

根据所述分类结果，调整至少一个敏感词的等级、所述第一深度学习模型的参数和/或所述第二深度学习模型的参数。

8.根据权利要求2所述的方法，其中，所述多个不同等级包括第一等级和第二等级：

如果第三数量满足第一条件，且所述第一数量与第三数量的比值满足第二条件，确定所述第一敏感词为所述第一等级的敏感词；

如果第三数量满足第一条件，且所述第一数量与第三数量的比值不满足第二条件时，确定所述第一敏感词为所述第二等级的敏感词，

其中，所述第三数量为所述第一数量和所述第二数量的和。

9.一种文本分类装置，包括：

文本识别模块，用于识别待分类文本，得到所述待分类文本包括的至少一个关键词；

匹配模块，用于匹配所述至少一个关键词与敏感词库，得到匹配结果；以及

文本分类模块，用于根据所述匹配结果，对所述待分类文本进行分类，

10.一种文本分类系统，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～8任意一项所述的方法。