CN106445908A - 文本识别方法和装置 - Google Patents
文本识别方法和装置 Download PDFInfo
- Publication number
- CN106445908A CN106445908A CN201510484785.9A CN201510484785A CN106445908A CN 106445908 A CN106445908 A CN 106445908A CN 201510484785 A CN201510484785 A CN 201510484785A CN 106445908 A CN106445908 A CN 106445908A
- Authority
- CN
- China
- Prior art keywords
- text
- identified
- model
- module
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000000463 material Substances 0.000 claims description 133
- 238000012360 testing method Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 24
- 238000004321 preservation Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000013070 change management Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Abstract
本发明提出一种文本识别方法和装置,该文本识别方法包括:获得待识别的文本;通过一级模型和二级模型对所述待识别的文本进行文本识别;所述一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型;所述二级模型为利用所述语料库中的语料生成的文本识别模型;输出所述待识别的文本的识别结果。本发明通过一级模型和二级模型对待识别的文本进行文本识别,可以提升垃圾文本识别的准确率,并可以有效防止在垃圾文本内容不断更新变化情况下出现的准确率波动。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种文本识别方法和装置。
背景技术
文本分类是指对文本集按照一定的分类体系或标准进行自动分类标记。文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程。
现有的垃圾文本识别方案的主要思路是根据已知垃圾文本内容作为文本分类算法的输入进行机器学习训练形成模型,在模型中通过对已知垃圾文本内容进行特征项提取总结形成规律,然后评估未知的文本内容是否符合模型中垃圾消息特征信息以此来判定是否为垃圾内容。
现有的垃圾文本识别方案采用一个通用的识别模型,基于大量的垃圾文本作为输入来训练模型,具有个性化程度低、识别准确率波动大、以及识别准确率偏低等缺点。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种文本识别方法。该方法通过一级模型和二级模型对待识别的文本进行文本识别,可以提升垃圾文本识别的准确率,并可以有效防止在垃圾文本内容不断更新变化情况下出现的准确率波动。
本发明的第二个目的在于提出一种文本识别装置。
为了实现上述目的,本发明第一方面实施例的文本识别方法,包括:获得待识别的文本;通过一级模型和二级模型对所述待识别的文本进行文本识别;所述一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型;所述二级模型为利用所述语料库中的语料生成的文本识别模型;输出所述待识别的文本的识别结果。
本发明实施例的文本识别方法,通过一级模型和二级模型对待识别的文本进行文本识别,其中,一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型,从而可以有效防止在垃圾文本内容不断更新变化情况下出现的准确率波动,二级模型为利用语料库中的语料生成的文本识别模型,通过一级模型和二级模型对待识别的文本进行文本识别,可以提升垃圾文本识别的准确率。
为了实现上述目的,本发明第二方面实施例的文本识别装置,包括:获得模块,用于获得待识别的文本;识别模块,用于通过一级模型和二级模型对所述获得模块获得的待识别的文本进行文本识别;所述一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型;所述二级模型为利用所述语料库中的语料生成的文本识别模型;输出模块,用于输出所述识别模块对所述待识别的文本的识别结果。
本发明实施例的文本识别装置,识别模块通过一级模型和二级模型对待识别的文本进行文本识别,其中,一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型,从而可以有效防止在垃圾文本内容不断更新变化情况下出现的准确率波动,二级模型为利用语料库中的语料生成的文本识别模型,通过一级模型和二级模型对待识别的文本进行文本识别,可以提升垃圾文本识别的准确率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明文本识别方法一个实施例的流程图;
图2为本发明文本识别方法中构建一级模型一个实施例的流程图;
图3为本发明文本识别方法中构建二级模型一个实施例的流程图;
图4为本发明文本识别装置一个实施例的结构示意图;
图5为本发明文本识别装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明文本识别方法一个实施例的流程图,如图1所示,该文本识别方法可以包括:
步骤101,获得待识别的文本。
具体地,可以通过构建TaskFlow式任务组织管理框架实现对风控任务的自定义与个性化管理,通过定义个性化风控任务管理树来实现文本识别的任务驱动。在文本识别的任务被触发之后,获得待识别的文本。
需要说明的是,本实施例中的文本识别包括垃圾文本识别,即识别待识别的文本中哪些文本为垃圾文本,其中,垃圾文本可以为包括敏感信息的文本,上述敏感信息可以包括国家管制的敏感信息,例如:“藏独”、“台独”、“法轮功”和/或淫秽色情等方面的信息,还可以包括所实现的业务希望屏蔽的一些信息,例如:在即时聊天业务中,希望屏蔽的广告方面的信息和/或诈骗类的信息等等。
步骤102,通过一级模型和二级模型对上述待识别的文本进行文本识别。
其中,一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型;二级模型为利用上述语料库中的语料生成的文本识别模型。其中,上述单位时间可以为至少1天(例如:1天或2天),或1星期等等,本实施例对上述单位时间的长短不作限定,举例来说,上述单位时间可以为1天。
本实施例的一种实现方式中,通过一级模型和二级模型对上述待识别的文本进行文本识别可以为:通过一级模型对上述待识别的文本进行识别,输出上述待识别的文本中已识别的文本的识别结果;通过二级模型对上述待识别的文本中未识别的文本进行识别,获得上述未识别的文本的识别结果。
本实施例的另一种实现方式中,通过一级模型和二级模型对上述待识别的文本进行文本识别可以为:通过二级模型对上述待识别的文本进行识别,输出上述待识别的文本中已识别的文本的识别结果;通过一级模型对上述待识别的文本中未识别的文本进行识别,获得上述未识别的文本的识别结果。
以垃圾文本识别为例,本实施例中,在对待识别的文本进行垃圾文本识别时,可以先利用一级模型进行识别,输出上述待识别的文本中已识别为垃圾文本的文本的识别结果;对于一级模型未能识别的文本,再由二级模型进行识别;从而可以在最新广告骚扰性质的垃圾文本较多时,获得比较快速的识别结果,节省垃圾文本的识别时间,提高垃圾文本识别的效率。
当然,也可以先利用二级模型进行识别,输出上述待识别的文本中已识别为垃圾文本的文本的识别结果;对于二级模型未能识别的文本,再由一级模型进行识别。
步骤103,输出上述待识别的文本的识别结果。
进一步地,步骤102之前,还可以从语料库最新单位时间内的语料中选择第一预定比例的语料作为训练语料,对上述训练语料进行训练生成一级模型;从语料库最新单位时间内的语料中选择第二预定比例的语料作为测试语料,将上述测试语料提交给生成的一级模型进行文本识别,获得生成的一级模型的文本识别的准确率;如果生成的一级模型的准确率大于或等于预设的第一阈值,则保存生成的一级模型,并将保存的一级模型的准确率进行对比,输出准确率最高的一级模型。
其中,第一预定比例和第二预定比例的大小可以在具体实现时自行设置,本实施例对第一预定比例和第二预定比例的大小不作限定,举例来说,第一预定比例可以为70%,第二预定比例可以为30%;
上述第一阈值的大小也可以在具体实现时自行设置,本实施例对第一阈值的大小不作限定,举例来说,第一阈值可以为80%。
具体地,保存生成的一级模型可以为:将生成的一级模型保存在缓冲池中;则将保存的一级模型的准确率进行对比可以为:将缓冲池中保存的一级模型的准确率进行对比。其中,上述缓冲池的容量可动态调整,默认可以设置为7天,也就是说,可以设置上述缓冲池保存7天内生成的一级模型。
进一步地,步骤102之前,还可以对上述语料库中的语料进行分类,从分类后的语料中选择第三预定比例的语料作为训练语料,对上述训练语料进行训练生成二级模型;从分类后的语料中选择第四预定比例的语料作为测试语料,分别将每个类别的测试语料提交给生成的二级模型进行文本识别,获得生成的二级模型对每个类别的测试语料的识别准确率;将生成的二级模型对每个类别的测试语料的识别准确率与预定的第二阈值进行比较;舍弃识别准确率小于上述第二阈值的类别的训练语料,从识别准确率大于或等于第二阈值的类别的语料中重新选取第三预定比例的训练语料,训练生成二级模型。
其中,第三预定比例和第四预定比例的大小可以在具体实现时自行设置,本实施例对第三预定比例和第四预定比例的大小不作限定,举例来说,第三预定比例可以为70%,第四预定比例可以为30%;
上述第二阈值的大小也可以在具体实现时自行设置,本实施例对第二阈值的大小不作限定,举例来说,第二阈值可以为80%。
上述文本识别方法中,通过一级模型和二级模型对待识别的文本进行文本识别,其中,一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型,从而可以有效防止在垃圾文本内容不断更新变化情况下出现的准确率波动,二级模型为利用语料库中的语料生成的文本识别模型,通过一级模型和二级模型对待识别的文本进行垃圾文本识别,可以提升垃圾文本识别的准确率。
下面以垃圾文本识别为例进行说明,本发明图1所示实施例提供的文本识别方法,采用构建一级模型和二级模型的策略有针对性地化解不断更新的垃圾内容带来的困扰,其中一级模型可以为一个轻量的、以单位时间(例如:1天)动态变化的快速响应的垃圾文本识别模型,用来解决以往无法及时跟进最新广告骚扰性质的垃圾内容而导致判定率下降的问题;同时会将每天生成一级模型时采集到的训练语料作为全量模型的训练语料的一组输入,且附加其它渠道获取的历史垃圾文本、专业垃圾文本语料共同构建包括丰富、立体、全面的垃圾文本识别模型来作为二级模型;在垃圾文本识别过程中,将一级模型和二级模型组合起来形成立体化垃圾的防控体系,其中一级模型侧重于解决高频,快速变化的垃圾内容识别问题,作为第一道防火墙来杜绝广告性质类的垃圾内容,而包含全量垃圾特征的二级模型则负责解决垃圾内容覆盖领域广,垃圾信息特征较为冷僻的垃圾文本识别,二者组合起来共同提升垃圾文本识别的准确率。
本发明的核心原理在于如何有效地构建一级模型和二级模型,涵盖模型训练、质量评判和语料选择等方面的工作。
1、语料采集
本发明从历史垃圾内容语料库、用户举报垃圾等渠道定时进行语料采集与归纳,形成一个完整的语料库,在初始语料基础之上以时间维度组织构成一个时间序列的语料集合。
2、语料选择
在语料筛选过程中,按照不同比例选择训练语料与测试语料进行多批次语料选择最终累积足够量的模型训练语料,采用交叉验证的原则,随机抽取训练语料和测试语料的比例,对训练语料进行严格筛选并淘汰不符合质量要求的语料。
3、模型构建
对于采集到的丰富的语料,可以选择将相关记录运用“语料集字典”进行管理,形成一个统一的语料库,每次进行模型训练时,通过从语料库中按照预定比例选取语料,形成所需的训练语料集和测试语料集,同时构建垃圾类型语料与当前训练语料集之间的关系后展开相应的语料训练从而生成垃圾文本识别模型,并将当前模型元数据信息纳入到“模型字典”中进行统一管理控制。
4、准确率度量
利用测试语料集对生成的模型进行测试,并记录每个模型的相关测试结果指标数据。模型测试结果指标数据主要从准确率、召回率、虚报率和F值度量等方面进行度量。
5、一级模型构建策略
图2为本发明文本识别方法中构建一级模型一个实施例的流程图,如图2所示,可以包括:
步骤201,从语料库最新单位时间内的语料中选择第一预定比例的语料作为训练语料,对上述训练语料进行训练生成一级模型。
其中,上述单位时间可以为至少1天(例如:1天或2天),或1星期等等,本实施例对上述单位时间的长短不作限定,举例来说,上述单位时间可以为1天。
语料库最新单位时间内的语料可以包括语料库中时间序列上最新的单位时间内的语料,这部分语料的主要来源于用户举报,语料质量可保障。
步骤202,从语料库最新单位时间内的语料中选择第二预定比例的语料作为测试语料,将上述测试语料提交给生成的一级模型进行垃圾文本识别,获得生成的一级模型对垃圾文本识别的准确率。
其中,第一预定比例和第二预定比例的大小可以在具体实现时自行设置,本实施例对第一预定比例和第二预定比例的大小不作限定,举例来说,第一预定比例可以为70%,第二预定比例可以为30%。
本实施例对步骤201与步骤202的执行顺序不作限定,步骤201与步骤202可以并行执行,也可以先后执行。
步骤203,判断生成的一级模型的准确率是否大于或等于预设的第一阈值。如果是,则执行步骤204;如果否,即生成的一级模型的准确率小于预设的第一阈值,则执行步骤205。
其中,上述第一阈值的大小也可以在具体实现时自行设置,本实施例对第一阈值的大小不作限定,举例来说,第一阈值可以为80%。
步骤204,保存生成的一级模型,并将保存的一级模型的准确率进行对比,输出准确率最高的一级模型。
具体地,保存生成的一级模型可以为:将生成的一级模型保存在缓冲池中;则将保存的一级模型的准确率进行对比可以为:将缓冲池中保存的一级模型的准确率进行对比;更具体地,可以将缓冲池中最新生成的一级模型与缓冲池中其他的一级模型的准确率进行横向对比,通过加权平均算法对各个一级模型进行动态评分;则输出准确率最高的一级模型可以为:输出动态评分中得分最高的一级模型并动态更新至在线运行状态。
其中,上述缓冲池的容量可动态调整,默认可以设置为7天,也就是说,可以设置上述缓冲池保存7天内生成的一级模型。
步骤205,舍弃生成的一级模型。
本实施例中,一级模型作为轻量模型,主要解决对最新热点垃圾内容的判定问题,其更新策略特点是紧跟当前热点垃圾内容变化而更新。
6、二级模型构建策略
图3为本发明文本识别方法中构建二级模型一个实施例的流程图,如图3所示,可以包括:
步骤301,对上述语料库中的语料进行分类。
具体地,可以按照不同渠道来源对语料库中的语料进行分类。
步骤302,从分类后的语料中选择第三预定比例的语料作为训练语料,对上述训练语料进行训练生成二级模型。
步骤303,从分类后的语料中选择第四预定比例的语料作为测试语料,分别将每个类别的测试语料提交给生成的二级模型进行垃圾文本识别,获得生成的二级模型对每个类别的测试语料的识别准确率。
其中,第三预定比例和第四预定比例的大小可以在具体实现时自行设置,本实施例对第三预定比例和第四预定比例的大小不作限定,举例来说,第三预定比例可以为70%,第四预定比例可以为30%。
步骤304,将生成的二级模型对每个类别的测试语料的识别准确率与预定的第二阈值进行比较。
其中,上述第二阈值的大小也可以在具体实现时自行设置,本实施例对第二阈值的大小不作限定,举例来说,第二阈值可以为80%。
步骤305,舍弃识别准确率小于上述第二阈值的类别的训练语料,从识别准确率大于或等于第二阈值的类别的语料中重新选取第三预定比例的训练语料,训练生成二级模型。
二级模型的构建围绕多渠道收集与管理垃圾样本语料,通过科学、多轮次、不同组合的模型训练,力求构建一个具备大而全的高质量的垃圾信息特征库,支持根据业务个性化诉求与自身特征灵活选择模型更新频率(建议三到六个月为一个更新周期)进行二级模型更新。
按照图2和图3所示实施例的流程训练获得一级模型和二级模型之后,就可以按照本发明图1所示实施例的流程,对待识别的文本进行垃圾文本识别,在此不再赘述。
图4为本发明文本识别装置一个实施例的结构示意图,本实施例中的文本识别装置可以作为文本识别服务器,或者文本识别服务器的一部分,实现本发明图1所示实施例的流程,如图4所示,该文本识别装置可以包括:获得模块41、识别模块42和输出模块43;
其中,获得模块41,用于获得待识别的文本;具体地,可以通过构建TaskFlow式任务组织管理框架实现对风控任务的自定义与个性化管理,通过定义个性化风控任务管理树来实现文本识别的任务驱动。在文本识别的任务被触发之后,获得模块41获得待识别的文本
识别模块42,用于通过一级模型和二级模型对获得模块41获得的待识别的文本进行文本识别;其中,一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型;二级模型为利用上述语料库中的语料生成的文本识别模型;其中,上述单位时间可以为至少1天(例如:1天或2天),或1星期等等,本实施例对上述单位时间的长短不作限定,举例来说,上述单位时间可以为1天。
需要说明的是,本实施例中的文本识别包括垃圾文本识别,即识别待识别的文本中哪些文本为垃圾文本,其中,垃圾文本可以为包括敏感信息的文本,上述敏感信息可以包括国家管制的敏感信息,例如:“藏独”、“台独”、“法轮功”和/或淫秽色情等方面的信息,还可以包括所实现的业务希望屏蔽的一些信息,例如:在即时聊天业务中,希望屏蔽的广告方面的信息和/或诈骗类的信息等等。
本实施例的一种实现方式中,识别模块42,具体用于通过一级模型对上述待识别的文本进行识别,输出上述待识别的文本中已识别的文本的识别结果;通过二级模型对上述待识别的文本中未识别的文本进行识别,获得上述未识别的文本的识别结果。
本实施例的另一种实现方式中,识别模块42,具体用于通过二级模型对上述待识别的文本进行识别,输出上述待识别的文本中已识别的文本的识别结果;通过一级模型对上述待识别的文本中未识别的文本进行识别,获得上述未识别的文本的识别结果。
以垃圾文本识别为例,,本实施例中,在对待识别的文本进行垃圾文本识别时,识别模块42可以先利用一级模型进行识别,输出上述待识别的文本中已识别为垃圾文本的文本的识别结果;对于一级模型未能识别的文本,识别模块42再利用二级模型进行识别;从而可以在最新广告骚扰性质的垃圾文本较多时,获得比较快速的识别结果,节省垃圾文本的识别时间,提高垃圾文本识别的效率。
当然,识别模块42也可以先利用二级模型进行识别,输出上述待识别的文本中已识别为垃圾文本的文本的识别结果;对于二级模型未能识别的文本,再利用一级模型进行识别。
输出模块43,用于输出识别模块42对上述待识别的文本的识别结果。
上述文本识别装置中,识别模块42通过一级模型和二级模型对待识别的文本进行文本识别,其中,一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型,从而可以有效防止在垃圾文本内容不断更新变化情况下出现的准确率波动,二级模型为利用语料库中的语料生成的文本识别模型,通过一级模型和二级模型对待识别的文本进行垃圾文本识别,可以提升垃圾文本识别的准确率。
图5为本发明文本识别装置另一个实施例的结构示意图,与图4所示的文本识别装置相比,不同之处在于,图5所示的文本识别装置还可以包括:选择模块44、训练模块45、准确率获得模块46、保存模块47和对比模块48;
其中,选择模块44,从语料库最新单位时间内的语料中选择第一预定比例的语料作为训练语料;以及从语料库最新单位时间内的语料中选择第二预定比例的语料作为测试语料;其中,第一预定比例和第二预定比例的大小可以在具体实现时自行设置,本实施例对第一预定比例和第二预定比例的大小不作限定,举例来说,第一预定比例可以为70%,第二预定比例可以为30%。
训练模块45,用于对选择模块44选择的训练语料进行训练生成一级模型。
准确率获得模块46,用于将选择模块44选择的测试语料提交给训练模块45生成的一级模型进行文本识别,获得生成的一级模型的文本识别的准确率。
保存模块47,用于当准确率获得模块46获得的上述生成的一级模型的准确率大于或等于预设的第一阈值时,保存训练模块45生成的一级模型;其中,上述第一阈值的大小也可以在具体实现时自行设置,本实施例对第一阈值的大小不作限定,举例来说,第一阈值可以为80%。
具体地,保存训练模块45生成的一级模型可以为:保存模块47将生成的一级模型保存在缓冲池中。其中,上述缓冲池的容量可动态调整,默认可以设置为7天,也就是说,可以设置上述缓冲池保存7天内生成的一级模型。
对比模块48,用于将保存模块47保存的一级模型的准确率进行对比,输出准确率最高的一级模型。具体地,对比模块48可以将缓冲池中保存的一级模型的准确率进行对比,更具体地,对比模块48可以将缓冲池中最新生成的一级模型与缓冲池中其他的一级模型的准确率进行横向对比,通过加权平均算法对各个一级模型进行动态评分;则输出准确率最高的一级模型可以为:输出动态评分中得分最高的一级模型并动态更新至在线运行状态。
进一步地,上述文本识别装置还可以包括:分类模块49和舍弃模块410;
其中,分类模块49,用于对上述语料库中的语料进行分类;
选择模块44,还用于从分类后的语料中选择第三预定比例的语料作为训练语料;以及从分类后的语料中选择第四预定比例的语料作为测试语料;其中,第三预定比例和第四预定比例的大小可以在具体实现时自行设置,本实施例对第三预定比例和第四预定比例的大小不作限定,举例来说,第三预定比例可以为70%,第四预定比例可以为30%;
训练模块45,还用于对选择模块44选择的训练语料进行训练生成二级模型;
准确率获得模块46,还用于分别将每个类别的测试语料提交给生成的二级模型进行文本识别,获得生成的二级模型对每个类别的测试语料的识别准确率;
对比模块48,还用于将生成的二级模型对每个类别的测试语料的识别准确率与预定的第二阈值进行比较;上述第二阈值的大小也可以在具体实现时自行设置,本实施例对第二阈值的大小不作限定,举例来说,第二阈值可以为80%。
舍弃模块410,用于舍弃识别准确率小于上述第二阈值的类别的训练语料;则,选择模块44,还用于从识别准确率大于或等于上述第二阈值的类别的语料中重新选取第三预定比例的训练语料,由训练模块45训练生成二级模型。
上述文本识别装置可以有效防止在垃圾文本内容不断更新变化情况下出现的准确率波动,并可以提升垃圾文本识别的准确率。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种文本识别方法,其特征在于,包括:
获得待识别的文本;
通过一级模型和二级模型对所述待识别的文本进行文本识别;所述一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型;所述二级模型为利用所述语料库中的语料生成的文本识别模型;
输出所述待识别的文本的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述通过一级模型和二级模型对所述待识别的文本进行文本识别包括:
通过所述一级模型对所述待识别的文本进行识别,输出所述待识别的文本中已识别的文本的识别结果;
通过所述二级模型对所述待识别的文本中未识别的文本进行识别,获得所述未识别的文本的识别结果。
3.根据权利要求1所述的方法,其特征在于,所述通过一级模型和二级模型对所述待识别的文本进行文本识别包括:
通过所述二级模型对所述待识别的文本进行识别,输出所述待识别的文本中已识别的文本的识别结果;
通过所述一级模型对所述待识别的文本中未识别的文本进行识别,获得所述未识别的文本的识别结果。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述通过一级模型和二级模型对所述待识别的文本进行文本识别之前,还包括:
从语料库最新单位时间内的语料中选择第一预定比例的语料作为训练语料,对所述训练语料进行训练生成一级模型;
从语料库最新单位时间内的语料中选择第二预定比例的语料作为测试语料,将所述测试语料提交给生成的一级模型进行文本识别,获得生成的一级模型的文本识别的准确率;
如果所述生成的一级模型的准确率大于或等于预设的第一阈值,则保存所述生成的一级模型,并将保存的一级模型的准确率进行对比,输出准确率最高的一级模型。
5.根据权利要求4所述的方法,其特征在于,所述通过一级模型和二级模型对所述待识别的文本进行文本识别之前,还包括:
对所述语料库中的语料进行分类;
从分类后的语料中选择第三预定比例的语料作为训练语料,对所述训练语料进行训练生成二级模型;
从分类后的语料中选择第四预定比例的语料作为测试语料,分别将每个类别的测试语料提交给生成的二级模型进行文本识别,获得生成的二级模型对每个类别的测试语料的识别准确率;
将生成的二级模型对每个类别的测试语料的识别准确率与预定的第二阈值进行比较;
舍弃识别准确率小于所述第二阈值的类别的训练语料,从识别准确率大于或等于所述第二阈值的类别的语料中重新选取所述第三预定比例的训练语料,训练生成二级模型。
6.一种文本识别装置,其特征在于,包括:
获得模块,用于获得待识别的文本;
识别模块,用于通过一级模型和二级模型对所述获得模块获得的待识别的文本进行文本识别;所述一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型;所述二级模型为利用所述语料库中的语料生成的文本识别模型;
输出模块,用于输出所述识别模块对所述待识别的文本的识别结果。
7.根据权利要求6所述的装置,其特征在于,
所述识别模块,具体用于通过所述一级模型对所述待识别的文本进行识别,输出所述待识别的文本中已识别的文本的识别结果;通过所述二级模型对所述待识别的文本中未识别的文本进行识别,获得所述未识别的文本的识别结果。
8.根据权利要求6所述的装置,其特征在于,
所述识别模块,具体用于通过所述二级模型对所述待识别的文本进行识别,输出所述待识别的文本中已识别的文本的识别结果;通过所述一级模型对所述待识别的文本中未识别的文本进行识别,获得所述未识别的文本的识别结果。
9.根据权利要求6-8任意一项所述的装置,其特征在于,还包括:
选择模块,从语料库最新单位时间内的语料中选择第一预定比例的语料作为训练语料;以及从语料库最新单位时间内的语料中选择第二预定比例的语料作为测试语料;
训练模块,用于对所述选择模块选择的训练语料进行训练生成一级模型;
准确率获得模块,用于将所述选择模块选择的测试语料提交给所述训练模块生成的一级模型进行文本识别,获得生成的一级模型的文本识别的准确率;
保存模块,用于当所述准确率获得模块获得的所述生成的一级模型的准确率大于或等于预设的第一阈值时,保存所述训练模块生成的一级模型;
对比模块,用于将所述保存模块保存的一级模型的准确率进行对比,输出准确率最高的一级模型。
10.根据权利要求9所述的装置,其特征在于,还包括:分类模块和舍弃模块;
所述分类模块,用于对所述语料库中的语料进行分类;
所述选择模块,还用于从分类后的语料中选择第三预定比例的语料作为训练语料;以及从分类后的语料中选择第四预定比例的语料作为测试语料;
所述训练模块,还用于对所述选择模块选择的训练语料进行训练生成二级模型;
所述准确率获得模块,还用于分别将每个类别的测试语料提交给生成的二级模型进行文本识别,获得生成的二级模型对每个类别的测试语料的识别准确率;
所述对比模块,还用于将生成的二级模型对每个类别的测试语料的识别准确率与预定的第二阈值进行比较;
所述舍弃模块,用于舍弃识别准确率小于所述第二阈值的类别的训练语料;
所述选择模块,还用于从识别准确率大于或等于所述第二阈值的类别的语料中重新选取所述第三预定比例的训练语料,由所述训练模块训练生成二级模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510484785.9A CN106445908B (zh) | 2015-08-07 | 2015-08-07 | 文本识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510484785.9A CN106445908B (zh) | 2015-08-07 | 2015-08-07 | 文本识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106445908A true CN106445908A (zh) | 2017-02-22 |
CN106445908B CN106445908B (zh) | 2019-11-15 |
Family
ID=58092387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510484785.9A Active CN106445908B (zh) | 2015-08-07 | 2015-08-07 | 文本识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106445908B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334567A (zh) * | 2018-01-16 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 垃圾文本判别方法、装置及服务器 |
WO2018153316A1 (zh) * | 2017-02-27 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 获取文本提取模型的方法及装置 |
CN108596181A (zh) * | 2018-04-16 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 文本识别方法、系统、机器设备和计算可读存储介质 |
CN108847222A (zh) * | 2018-06-19 | 2018-11-20 | Oppo广东移动通信有限公司 | 语音识别模型生成方法、装置、存储介质及电子设备 |
CN108897732A (zh) * | 2018-06-08 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 语句类型识别方法和装置、存储介质及电子装置 |
CN110491394A (zh) * | 2019-09-12 | 2019-11-22 | 北京百度网讯科技有限公司 | 唤醒语料的获取方法和装置 |
CN110929530A (zh) * | 2018-09-17 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 一种多语言垃圾文本的识别方法、装置和计算设备 |
CN113761170A (zh) * | 2020-09-15 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 更新语料库的方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN103294664A (zh) * | 2013-07-04 | 2013-09-11 | 清华大学 | 开放领域新词发现的方法及系统 |
CN103324745A (zh) * | 2013-07-04 | 2013-09-25 | 微梦创科网络科技(中国)有限公司 | 基于贝叶斯模型的文本垃圾识别方法和系统 |
CN103576882A (zh) * | 2012-07-27 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 非正常文本识别方法及其系统 |
CN103942191A (zh) * | 2014-04-25 | 2014-07-23 | 中国科学院自动化研究所 | 一种基于内容的恐怖文本识别方法 |
CN104008105A (zh) * | 2013-02-25 | 2014-08-27 | 腾讯科技(北京)有限公司 | 一种识别垃圾文本的方法和装置 |
US20140379743A1 (en) * | 2006-10-20 | 2014-12-25 | Google Inc. | Finding and disambiguating references to entities on web pages |
-
2015
- 2015-08-07 CN CN201510484785.9A patent/CN106445908B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379743A1 (en) * | 2006-10-20 | 2014-12-25 | Google Inc. | Finding and disambiguating references to entities on web pages |
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN103576882A (zh) * | 2012-07-27 | 2014-02-12 | 深圳市世纪光速信息技术有限公司 | 非正常文本识别方法及其系统 |
CN104008105A (zh) * | 2013-02-25 | 2014-08-27 | 腾讯科技(北京)有限公司 | 一种识别垃圾文本的方法和装置 |
CN103294664A (zh) * | 2013-07-04 | 2013-09-11 | 清华大学 | 开放领域新词发现的方法及系统 |
CN103324745A (zh) * | 2013-07-04 | 2013-09-25 | 微梦创科网络科技(中国)有限公司 | 基于贝叶斯模型的文本垃圾识别方法和系统 |
CN103942191A (zh) * | 2014-04-25 | 2014-07-23 | 中国科学院自动化研究所 | 一种基于内容的恐怖文本识别方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018153316A1 (zh) * | 2017-02-27 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 获取文本提取模型的方法及装置 |
CN108334567A (zh) * | 2018-01-16 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 垃圾文本判别方法、装置及服务器 |
CN108596181A (zh) * | 2018-04-16 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 文本识别方法、系统、机器设备和计算可读存储介质 |
CN108596181B (zh) * | 2018-04-16 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 文本识别方法、系统、机器设备和计算可读存储介质 |
CN108897732A (zh) * | 2018-06-08 | 2018-11-27 | 腾讯科技(深圳)有限公司 | 语句类型识别方法和装置、存储介质及电子装置 |
CN108897732B (zh) * | 2018-06-08 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 语句类型识别方法和装置、存储介质及电子装置 |
CN108847222A (zh) * | 2018-06-19 | 2018-11-20 | Oppo广东移动通信有限公司 | 语音识别模型生成方法、装置、存储介质及电子设备 |
CN110929530A (zh) * | 2018-09-17 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 一种多语言垃圾文本的识别方法、装置和计算设备 |
CN110929530B (zh) * | 2018-09-17 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 一种多语言垃圾文本的识别方法、装置和计算设备 |
CN110491394A (zh) * | 2019-09-12 | 2019-11-22 | 北京百度网讯科技有限公司 | 唤醒语料的获取方法和装置 |
CN110491394B (zh) * | 2019-09-12 | 2022-06-17 | 北京百度网讯科技有限公司 | 唤醒语料的获取方法和装置 |
CN113761170A (zh) * | 2020-09-15 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 更新语料库的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106445908B (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106445908A (zh) | 文本识别方法和装置 | |
CN106909654B (zh) | 一种基于新闻文本信息的多级分类系统及方法 | |
CN109857862B (zh) | 基于智能决策的文本分类方法、装置、服务器及介质 | |
CN105069072B (zh) | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 | |
CN104978328A (zh) | 一种获取层级分类器以及文本分类的方法及装置 | |
CN106651057A (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN109189767A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
Utari et al. | Implementation of data mining for drop-out prediction using random forest method | |
CN110610193A (zh) | 标注数据的处理方法及装置 | |
CN101604322A (zh) | 一种决策级文本自动分类融合方法 | |
CN104615730A (zh) | 一种多标签分类方法及装置 | |
CN109960727A (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN107748898A (zh) | 文件分类方法、装置、计算设备及计算机存储介质 | |
CN108733791A (zh) | 网络事件检测方法 | |
CN110109902A (zh) | 一种基于集成学习方法的电商平台推荐系统 | |
CN104809104A (zh) | 一种微博文本情绪识别方法及系统 | |
CN103324758A (zh) | 一种新闻分类方法和系统 | |
CN108241867A (zh) | 一种分类方法及装置 | |
CN106844330A (zh) | 文章情感的分析方法和装置 | |
CN103309857A (zh) | 一种分类语料确定方法和设备 | |
CN107784387A (zh) | 一种微博事件信息传播的连续动态预测方法 | |
CN106529726A (zh) | 一种基于股票预测走势进行分类和推荐的方法 | |
CN103345525B (zh) | 文本分类方法、装置及处理器 | |
CN105868272A (zh) | 多媒体文件分类方法及装置 | |
CN109858541A (zh) | 一种基于数据集成的特异数据自适应检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240402 Address after: # 01-21, Lai Zan Da Building 1, 51 Belarusian Road, Singapore Patentee after: Alibaba Singapore Holdings Ltd. Country or region after: Singapore Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands Patentee before: ALIBABA GROUP HOLDING Ltd. Country or region before: Cayman Islands |
|
TR01 | Transfer of patent right |