CN110019790A - 文本识别、文本监控、数据对象识别、数据处理方法 - Google Patents

文本识别、文本监控、数据对象识别、数据处理方法 Download PDF

Info

Publication number
CN110019790A
CN110019790A CN201710927247.1A CN201710927247A CN110019790A CN 110019790 A CN110019790 A CN 110019790A CN 201710927247 A CN201710927247 A CN 201710927247A CN 110019790 A CN110019790 A CN 110019790A
Authority
CN
China
Prior art keywords
text
attribute
data
samples
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710927247.1A
Other languages
English (en)
Other versions
CN110019790B (zh
Inventor
王慧琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710927247.1A priority Critical patent/CN110019790B/zh
Publication of CN110019790A publication Critical patent/CN110019790A/zh
Application granted granted Critical
Publication of CN110019790B publication Critical patent/CN110019790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本识别方法。所述方法包括:采用文本样本之间的属性比较数据对文本样本进行标记,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合,依据第一识别数据集合识别目标文本,获得文本属性值,使得可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他文本在某种属性上的程度。在解决识别文本是否违规的问题时,相比于以二分类方式识别文本是否违规,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。

Description

文本识别、文本监控、数据对象识别、数据处理方法
技术领域
本申请涉及文本识别技术领域,具体涉及文本识别方法、文本监控方法、数据对象识别方法、数据处理方法、计算机设备和计算机可读存储介质。
背景技术
社区化、内容化是互联网时代的趋势。同时,随着越来越多的人能够产生内容,并发布到互联网上,其中的安全风险也越来越显著。互联网的扁平化,瞬间将风险扩大到无数用户。即时快速的风险拦截是互联网时代社区化,内容化的必须配置。
现有的筛选垃圾文本或垃圾邮件的算法,基本都是通过对内容样本添加0或1标签来标注是否垃圾内容,基于这种二分法的方式得到判断垃圾内容的分类器。
在实际应用场景下,不同的场景、业务或公司,通常判断垃圾内容的标准是各不相同的,甚至在不同的时间段,有可能也会对管理垃圾内容的手段和力度进行局部调整。在这种情况下,只要判断标准不同,就需要对所有的内容样本重新标注一遍,在重新得到分类器。如果只是标准的局部微调,会导致资源的浪费,也影响分类器的适配能力和响应时间。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的文本识别方法、文本监控方法、数据对象识别方法、数据处理方法、计算机设备、计算机可读存储介质。
依据本申请的一个方面,提供了一种文本识别方法,包括:
接收至少一个客户端提交的文本样本的属性比较数据,所述属性比较数据为文本样本之间属性差异的描述信息;
对所述文本样本之间属性差异的描述信息进行数值化;
基于多个文本样本以及数值化的属性比较数据,创建识别文本属性值的第一识别数据集合;
将所述第一识别数据集合下发到客户端,以供所述客户端依据所述第一识别数据集合识别目标文本,获得文本属性值。
依据本申请的另一个方面,提供了一种文本监控方法,包括:
拦截用户在目标应用程序中处理的目标文本;
依据第一识别数据集合识别目标文本,获得文本属性值,所述第一识别数据集合用于识别文本的文本属性值,所述第一识别数据集合基于多个文本样本以及对应标记的属性比较数据创建;
根据所述文本属性值判定所述目标文本属于所述文本属性下的风险分类;
对所述目标文本添加风险分类标签,并对所述目标文本进行风险处理或风险提示。
可选地,所述第一识别数据集合的生成方法包括:
采用文本样本之间的属性比较数据对文本样本进行标记;
基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合。
依据本申请的另一个方面,提供了一种文本识别方法,包括:
采用文本样本之间的属性比较数据对文本样本进行标记;
基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合;所述第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,以及第一判定条件;
在第一业务场景下,采用第一识别数据集合识别文本的文本属性值,并结合所述第一判定条件判定文本的文本属性分类;
接收针对第二业务场景下识别文本属性分类的第二判定条件,将所述第一识别数据集合修正为适用于第二业务场景的第三识别数据集合;
在第二业务场景下,采用第三识别数据集合识别文本的文本属性值,并结合所述第二判定条件判定文本的文本属性分类。
依据本申请的另一个方面,提供了一种文本识别方法,包括:
采用文本样本之间的属性比较数据对文本样本进行标记,所述属性比较数据表征文本样本之间文本属性值的比较结果;
根据文本样本在多个文本维度下的维度特征生成所述文本样本的文本向量;
基于多个文本样本的文本向量和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本向量识别文本属性值的第一识别函数;
依据用于识别文本属性分类的第二识别函数识别所述目标文本;确定所述目标文本归属于非风险分类;
依据所述第一识别函数识别目标文本,获得文本属性值。
依据本申请的另一个方面,提供了一种文本识别方法,包括:
采用文本样本之间的属性比较数据对文本样本进行标记;
基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合;
依据所述第一识别数据集合识别目标文本,获得文本属性值。
可选地,针对所述文本样本标记的属性比较数据包括:所述文本样本相比于至少一个其他文本样本的属性比较数据。
可选地,在所述创建识别文本属性值的第一识别数据集合之前,所述方法还包括:
为所述文本样本生成对应的文本特征;
所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合包括:
基于多个文本样本以及对应标记的属性比较数据,创建基于文本特征识别文本属性值的第一识别数据集合。
可选地,所述为所述文本样本生成对应的文本特征包括:
构建与预先收集的有序字符对应的多个文本维度;
确定所述文本样本在所述多个文本维度下的维度特征;
根据有序的多个维度特征生成所述文本样本的文本向量,并以所述文本向量作为所述文本特征。
可选地,所述多个文本样本中部分文本样本具有标记的属性比较数据;
在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,所述方法还包括:
依据用于识别文本属性分类的第二识别数据集合识别所述文本样本,得到所述文本样本的文本属性分类;
从所述多个文本样本中,抽取归属于第一文本属性分类的文本样本作为所述部分文本样本。
可选地,所述多个文本样本中部分文本样本具有标记的属性比较数据;
在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,所述方法还包括:
对所述多个文本样本划分至多个分类;
从各分类对应的文本样本中抽取至少一个文本样本作为所述部分文本样本。
可选地,所述第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,所述文本属性值与文本特征在所述识别函数中成线性关系,所述属性比较数据表征文本样本之间文本属性值的大小;
所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合包括:
基于多个文本样本的文本特征和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本特征识别文本属性值的识别函数。
可选地,所述属性比较数据为文本样本之间属性差异的描述信息,在所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合之前,所述方法还包括:
对所述文本样本之间属性差异的描述信息进行数值化。
可选地,在所述依据所述第一识别数据集合识别目标文本,获得文本属性值之前,所述方法还包括:
依据用于识别文本属性分类的第二识别数据集合识别所述目标文本;确定所述目标文本归属于第一文本属性分类。
可选地,所述方法还包括:
若确定所述目标文本归属于第二文本属性分类,则对所述目标文本添加对应第二文本属性分类的文本属性值。
可选地,所述方法还包括:
判定所述文本属性值满足设定范围,则对所述目标文本添加归属于第一文本属性分类的分类标签。
可选地,在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,所述方法还包括:
从至少一个数据处理平台获取针对文本样本的评价数据,并以所述评价数据对应生成文本样本之间的属性比较数据。
依据本申请的另一个方面,提供了一种数据对象识别方法,包括:
采用数据对象样本之间的属性比较数据,对数据对象样本进行标记;
基于多个数据对象样本以及对应标记的属性比较数据,创建识别数据对象属性值的第一识别数据集合;
依据所述第一识别数据集合识别目标数据对象,获得数据对象属性值。
依据本申请的另一个方面,提供了一种数据处理方法,其特征在于,包括:
获取样本数据的属性比较数据,其中,所述属性比较数据包括所述样本数据之间属性差异的描述信息;
获取所述属性比较数据对应的线性数据;
利用所述线性数据,创建用于识别属性值的识别数据集合,其中,所述识别数据集合包括至少一个识别模型。
可选地,所述创建识别数据集合包括:
获取样本特征值与所述属性比较数据之间的第一函数;
获取所述属性比较数据与属性值之间的第二函数;
生成所述样本特征值与所述属性值的第三函数。
可选地,所述样本数据包括文本样本数据。
可选地,所述样本数据包括图像样本数据。
可选地,所述样本数据包括音视频样本数据。
可选地,所述对所述属性比较数据进行数值化,获取所述属性比较数据对应的线性数据包括:
查找所述描述信息对应的预设数据;
以所述预设数据作为所述属性比较数据对应的线性数据。
可选地,所述识别数据集合包括根据基于特征数据识别对象属性值的识别函数;
所述对象属性值与对象特征在所述识别函数中成线性关系;
所述利用所述线性数据创建识别属性值的识别数据集合包括:
基于多个样本数据的特征数据和对应标记的属性比较数据,以及属性比较数据与属性值之间的表征关系,确定基于特征数据识别属性值的识别函数。
可选地,所述获取样本数据的属性比较数据包括:
接收客户端针对样本数据提交的属性比较数据;
在所述利用所述线性数据,创建用于识别属性值的识别数据集合之后,所述方法还包括:
将所述识别数据集合下发到客户端。
依据本申请的另一个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述一个或多个的方法。
依据本申请的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述一个或多个的方法。
依据本申请实施例,通过采用文本样本之间的属性比较数据对文本样本进行标记,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合,依据所述第一识别数据集合识别目标文本,获得文本属性值,使得可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多文本在某种属性上的程度。在解决识别文本是否违规的问题时,相比于以二分类的方式识别文本是否违规,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。另外,还解决了现有的内容分类器得到的结果无法线性的描述违规内容的严重程度的问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文可选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出可选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请实施例一的一种文本识别方法实施例的流程图;
图2示出了根据本申请实施例二的一种文本监控方法实施例的流程图;
图3示出了根据本申请实施例三的一种文本识别方法实施例的流程图;
图4示出了根据本申请实施例四的一种文本识别方法实施例的流程图;
图5示出了根据本申请实施例五的一种文本识别方法方法实施例的流程图;
图6示出了根据本申请实施例六的一种文本识别方法方法实施例的流程图;
图7示出了根据本申请的第一识别数据集合的训练过程的示意图;
图8示出了识别违规文本的示例的示意图;
图9示出了根据本申请实施例七的一种数据对象识别方法实施例的流程图;
图10示出了根据本申请实施例八的一种数据处理方法实施例的流程图;
图11示出了根据本申请实施例九的一种文本识别装置实施例的结构框图;
图12示出了根据本申请实施例十的一种文本监控装置实施例的结构框图;
图13示出了根据本申请实施例十一的一种文本识别装置实施例的结构框图;
图14示出了根据本申请实施例十二的一种文本识别装置实施例的结构框图;
图15示出了根据本申请实施例十三的一种文本识别装置实施例的结构框图;
图16示出了根据本申请实施例十四的一种数据对象识别装置实施例的结构框图;
图17示出了根据本申请实施例十五的一种数据处理装置实施例的结构框图;
图18示出了可被用于实现本公开中所述的各个实施例的示例性系统。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本领域技术人员更好地理解本申请,以下对本申请涉及的概念进行说明:
文本是计算机中的一种数据存在形式。例如,电商交易系统中,商品信息、商品描述、商品评价等可以保存为文本数据,或者,门户网站中多种类型的文章可以保存为文本数据。如果一个文本的某个属性没有符合相关规定,例如涉及安全、宗教等(包括关键词),网站维护方就可以将该文本认定为是违规文本。
文本样本是指预先选取的多个文本,具体可以从已有的全部文本中选取全部文本作为样本,或者随机选取部分文本作为样本,或者按照一定规则选取文本作为样本,本申请实施例对此不做限制。
文本的数据类型包括但不限于:字符、字符串;文本的存储格式包括但不限于:TXT,WORD。
文本的属性是指表征文本的某个维度。例如,文本的大小、创建时间、创建人、文本重要性等(即优先级,例如用户设置的优先级)。再例如,文本是否违规、文本的违规程度等。文本的属性根据实际的应用环境可以赋予不同的内容。
相应的,文本属性值也即是文本在对应的文本属性上的表征程度。以属性为违规程度为例,在0-100的数值区间内,数值越大表示违规程度越严重,某个文本的违规程度为60,表示比较严重的违规(可以通过与黑样本文本相似度来计算)。可以理解的是,也可以采用文字或符号来表示文本属性值,例如文本的违规程度为十级(例如,1级-10级对应之前的0-100的数值区间)。
进一步的,根据本申请一个实施例,引入“属性比较数据”,反映了文本之间在至少一种文本属性上的比较结果。具体可以采用文字、符号、数字等各种方式表征,也可以结合多种表征方式。具体可以根据文本样本的属性或是基于文本内容的判断,为文本样本标记属性比较数据,例如可以根据在文本识别程序中识别为违规文本的次数,对文本进行比较,得到文本的属性比较数据。
下面以违规程度为例,描述属性数据,及属性数据之间的比较。例如属性比较数据以大于、小于、等于三种符号表征不同的比较关系,以A、B、C、D四个文本为例,文本之间的属性比较数据包括:
“A>B”表征文本A比文本B违规程度更重,
“C<D”表征文本C比文本D违规程度更轻,
“A=C”表征文本A和文本C之间的违规程度相同。
属性比较数据也可以以不同预设数值表征不同的比较关系,例如0、0.5、1,其中,0.5表示两个文本的属性数据相同,0表示第一文本的属性数据小于第二文本的属性数据,1表示第一文本的属性数据大于第二文本的属性数据。以上述文本为例,“A、B、1”表征文本A比文本B违规程度更重,“C、D、0”表征文本C比文本D违规程度更轻,“A、C、0.5”表征文本A和文本C之间的违规程度相同。
在本申请的一种可选实施例中,针对所述文本样本标记的属性比较数据包括:所述文本样本相比于至少一个其他文本样本的属性比较数据。针对一个文本标记的属性比较数据可以是一个文本与其他文本两两文本之间的属性比较数据,也可以是一个文本与两个以上的文本之间的属性比较数据,具体采用何种比较方式可以根据实际应用环境和需求选取。
文本属性分类是指基于文本属性划定的分类,比如,针对违规这个属性,可以划分为文本违规和文本并不违规两种分类。文本属性分类可以基于文本属性值得到,一种可选的方式是将文本属性值与设定阈值进行比较,根据比较结果确定文本属性分类,例如文本违规程度大于50则违规,未超出50则不违规。
识别数据集合可以包括一个或多个识别模型(例如,上面的分类),可以是任意适用于本申请的分类器。
为了创建一个可以识别文本属性值的第一识别数据集合,需要采用有监督的学习方式,根据针对文本样本标记的属性比较数据,得到能识别文本属性值的模型。
现有的解决方案针对不同场景不同标准,以及相同场景标准微调等情况,存在需要重新对文本样本进行标注,重新创建识别数据集合的问题。相比于根据仅标记文本样本是否违规所得到的分类器(例如离散值分类器,结果为0或1),本申请实施例可以拟合出基于文本识别文本属性值的模型,以根据输入的文本计算文本的文本属性值,实现了线性描述文本属性上的表征程度。
根据本申请一个实施例,提供多个文本样本标记有属性比较数据,根据文本样本以及属性比较数据之间的关系,通过机器学习算法,创建基于文本获得文本属性值的识别数据集合,记为识别数据集合(为了区别描述,下面也称为第一识别数据集合),进一步基于该识别数据集合识别其他待识别的文本的文本属性值,使得针对不同场景不同标准,或者相同场景标准微调等情况时,可以调整判断阈值利用文本属性值重新判断文本是否违规,而无需对所有的文本样本重新标记一遍,再重新得到分类器。
本申请实施例可以应用在屏蔽违规评论、反垃圾邮件等的文本识别过程中。
另外需说明的是,本申请实施例中各个步骤可以在客户端和/或服务器上执行,各个步骤可以都由客户端执行、也可以都由服务器执行、或者可以部分在客户端上执行,部分在服务器上执行。
本申请实施例中的第一识别数据集合可以预先在服务器上实现,从而通过该服务器来实施本申请实施例中的文本识别方法,其他业务需要进行文本识别时通过访问该服务器来获取文本识别的服务。
本申请实施例提供的一种文本识别方法,具体可以应用于以下四种场景中:
在场景一中,客户端为服务端提供作为生成第一识别数据集合的计算基础的数据,服务端接收数据并创建第一识别数据集合后下发到客户端,客户端依据第一识别数据集合识别目标文本的文本属性值。
在场景二中,拦截目标应用程序中的目标文本,利用第一识别数据集合,识别出文本属性值,并根据文本属性值对目标文本进行风险分类,最后进行风险处理和风险提示。
在场景三中,识别数据集合可以包括在不同的业务场景针对文本属性分类的判定条件,针对不同的业务场景以不同的判定条件修正识别数据集合,满足各种场景下需要调整文本识别的标准的需要。
在场景四中,第一识别函数用于识别文本属性值,为第一识别数据集合的一种具体形式,第二识别函数用于识别文本属性分类,为第二识别数据集合的一种具体形式。先对文本进行分类识别,再进一步对归属于非风险分类的目标文本进行属性值识别,以减少用第一识别数据集合进行识别所消耗的计算资源。
在以上四种场景中,具体的文本识别过程可以参见实施例五和实施例六中的描述,下面先针对四种场景进行详细说明。
参照图1,示出了根据本申请实施例一的一种文本识别方法实施例的流程图,该方法具体可以包括以下步骤:
步骤101,接收至少一个客户端提交的文本样本的属性比较数据。
在本申请实施例中,属性比较数据为文本样本之间属性差异的描述信息。客户端针对文本样本,向服务端提交属性比较数据。
步骤102,对所述文本样本之间属性差异的描述信息进行数值化。
在本申请实施例中,描述信息的具体形式可以不做限定,且可以具有多种形式,非数值化的属性比较数据难以直接用于机器学习过程,所以要对描述信息进行数值化处理,得到数值化的属性比较数据。
例如,客户端提交的文本样本之间属性差异的描述信息可以包括“文本A的违规程度大于文本B”、“文本C=文本B”等,可以将不同形式的描述信息数值化,“文本A的违规程度大于文本B”可以用数值1来表示,“文本C=文本B”可以用数值0.5来表示。
步骤103,基于多个文本样本以及数值化的属性比较数据,创建第一识别数据集合。
步骤104,将所述第一识别数据集合下发到客户端,以供所述客户端依据所述第一识别数据集合识别目标文本,获得文本属性值。
在本申请实施例中,服务端创建第一识别数据集合后,再下发至客户端,以供客户端依据第一识别数据集合识别目标文本,获得文本属性值。
依据本申请实施例,可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多文本在某种属性上的程度。
在解决识别文本是否违规的问题时,相比于以二分类的方式识别文本是否违规,本实施例中,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。另外,还解决了现有的内容分类器得到的结果无法线性的描述违规内容的严重程度的问题。
参照图2,示出了根据本申请实施例二的一种文本监控方法实施例的流程图,该方法具体可以包括以下步骤:
步骤201,拦截用户在目标应用程序中处理的目标文本。
在本申请实施例中,目标应用程序包括需要进行风险识别的任意适用的应用,本申请实施例对此不做限制。针对用户在目标应用程序中处理的目标文本,进行拦截,例如,用户通过目标应用程序上传网络的文本、或者通过目标应用程序从网络中下载的文本等,除上传、下载外,具体可以包括任意适用的处理,本申请实施例对此不做限制。
步骤202,依据所述第一识别数据集合识别目标文本,获得文本属性值。
在本申请实施例中,第一识别数据集合用于识别文本的文本属性值,第一识别数据集合基于多个文本样本以及对应标记的属性比较数据创建。
步骤203,根据所述文本属性值判定所述目标文本属于所述文本属性下的风险分类。
在本申请实施例中,文本属性值是用来描述文本的风险程度的,根据文本属性值对文本的风险进行判断,例如,文本属性值的数值大小表征文本的风险程度,数值越大风险越大,可以设定一个阈值,如果文本属性值超过该阈值,则目标文本属于所述文本属性下的风险分类,如果文本属性值未超过该阈值,则目标文本不属于所述文本属性下的风险分类,具体可以采用任意适用的方式判断目标文本是否属于所述文本属性下的风险分类,本申请实施例对此不作限制。
步骤204,对所述目标文本添加风险分类标签,并对所述目标文本进行风险处理或风险提示。
在本申请实施例中,如果判定目标文本属于所述文本属性下的风险分类,就对目标文本添加风险分类标签,并进行风险处理或风险提示,例如,风险处理可以包括删除文本、屏蔽文本、将文本来源加入黑名单等,风险提示可以包括向后台管理者提示目标文本的风险、在目标文本的对应位置标记风险、向用户提示目标文本的风险等,具体可以包括任意适用的方式,本申请实施例对此不限制。
在本申请的一种可选实施例中,所述第一识别数据集合的生成方法可以包括:采用文本样本之间的属性比较数据对文本样本进行标记,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合。
依据本申请实施例,通过拦截用户在目标应用程序中处理的目标文本,依据第一识别数据集合识别目标文本,获得文本属性值,根据所述文本属性值判定所述目标文本属于所述文本属性下的风险分类,对所述目标文本添加风险分类标签,并对所述目标文本进行风险处理或风险提示,使得可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多文本在某种属性上的程度。在文本属性值表征文本的风险程度时,实现由文本属性值判断文本是否具有风险,提高了监控文本风险的灵活性。
参照图3,示出了根据本申请实施例三的一种文本识别方法实施例的流程图,该方法具体可以包括以下步骤:
步骤301,采用文本样本之间的属性比较数据对文本样本进行标记。
步骤302,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合。
在本申请实施例中,第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,以及第一判定条件。
步骤303,在第一业务场景下,采用第一识别数据集合识别文本的文本属性值,并结合所述第一判定条件判定文本的文本属性分类。
在本申请实施例中,在第一业务场景下,根据第一判定条件可以识别文本的文本属性分类,如果文本属性值满足第一判定条件,则目标文本属于对应的文本属性分类。例如,第一识别数据集合包括判定文本违规的第一设定阈值,如果文本属性值超过第一设定阈值,则目标文本违规。
例如,在时事新闻评论的业务场景下,第一判定条件为若文本属性值大于0.6,则判定文本属于违规文本,可以执行屏蔽操作,否则判定文本属于非违规文本。
步骤304,接收针对第二业务场景下识别文本属性分类的第二判定条件,将所述第一识别数据集合修正为适用于第二业务场景的第三识别数据集合。
在本申请实施例中,第二判定条件用于第二业务场景下识别文本属性分类,判定文本属性分类的条件不同于第一业务场景,第一判定条件改为第二判定条件。那么在第二业务场景下,将第一识别数据集合包括的第一判定条件替换为第二判定条件,得到适用于第二业务场景的第三识别数据集合。
例如,在体育新闻评论的业务场景下,第二判定条件为若文本属性值大于0.8,则判定文本属于违规文本,可以执行屏蔽操作,否则判定文本属于非违规文本。将原第一识别数据集合中的第一判定条件替换为第二判定条件,得到第三识别数据集合。
步骤305,在第二业务场景下,采用第三识别数据集合识别文本的文本属性值,并结合所述第二判定条件判定文本的文本属性分类。
在本申请实施例中,在第二业务场景下,采用第三识别数据集合识别文本的文本属性值,并且根据第二判定条件判定文本的文本属性分类。
依据本申请实施例,通过采用文本样本之间的属性比较数据对文本样本进行标记,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合,在第一业务场景下,采用第一识别数据集合识别文本的文本属性值,并结合所述第一判定条件判定文本的文本属性分类,接收针对第二业务场景下识别文本属性分类的第二判定条件,将所述第一识别数据集合修正为适用于第二业务场景的第三识别数据集合,在第二业务场景下,采用第三识别数据集合识别文本的文本属性值,并结合所述第二判定条件判定文本的文本属性分类,使得可以在场景不同,判定文本属性分类的判断标准不同时,通过调整判定条件,就可以满足各种场景下需要调整文本识别的标准的需要,提高了文本识别针对不同业务场景的适配能力和响应时间,避免重新生成分类器的资源消耗。
参照图4,示出了根据本申请实施例四的一种文本识别方法实施例的流程图,该方法具体可以包括以下步骤:
步骤401,采用文本样本之间的属性比较数据对文本样本进行标记。
在本申请实施例中,所述属性比较数据表征文本样本之间文本属性值的比较结果。
步骤402,根据文本样本在多个文本维度下的维度特征生成所述文本样本的文本向量。
步骤403,基于多个文本样本的文本向量和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本向量识别文本属性值的第一识别函数。
步骤404,依据用于识别文本属性分类的第二识别函数识别所述目标文本;确定所述目标文本归属于非风险分类。
步骤405,依据所述第一识别函数识别目标文本,获得文本属性值。
依据本申请实施例,通过采用文本样本之间的属性比较数据对文本样本进行标记,根据文本样本在多个文本维度下的维度特征生成所述文本样本的文本向量,基于多个文本样本的文本向量和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本向量识别文本属性值的第一识别函数,依据用于识别文本属性分类的第二识别函数识别所述目标文本,确定所述目标文本归属于非风险分类,依据所述第一识别函数识别目标文本,获得文本属性值,在解决识别文本是否违规的问题时,相比于以二分类的方式识别文本是否违规,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。另外,还解决了现有的内容分类器得到的结果无法线性的描述违规内容的严重程度的问题。并且可以先对文本进行分类识别,再进一步对归属于非风险分类的目标文本进行属性值识别,以减少用第一识别数据集合进行识别所消耗的计算资源。
参照图5,示出了根据本申请实施例五的一种文本识别方法实施例的流程图,该方法具体可以包括以下步骤:
步骤501,采用文本样本之间的属性比较数据对文本样本进行标记。
在本申请实施例中,文本样本之间的属性比较数据可以针对任意可比较的属性,例如,违规程度、重要程度等,本申请实施例对此不作限制。在采用属性比较数据对文本样本进行标记时,可以对所有文本样本进行标记,也可以仅对部分文本样本进行标记。根据不同的需要,抽取部分文本样本进行标记,可以减少标记的工作量,也可以提高识别文本属性值的准确度。
对文本样本进行标记的一种实现方式为,对样本集中的样本进行两两配对,配对可以采取随机的方式进行,也可以按照一定的规则进行,具体可以采用任意适用的方式配对,本申请实施例对此不作限制。两两配对之后,从中选取全部或者部分样本对进行标记。具体可以采用任意适用的方式对文本样本进行标记,本申请实施例对此不作限制。
步骤502,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合。
在本申请实施例中,在创建识别文本属性值的第一识别数据集合时,需要多个文本样本以及对应标记的属性比较数据。其中,具体可以是根据多个文本样本本身、或者从文本样本中提取的其他相关信息,以及对应标记的属性比较数据,来创建第一识别数据集合,以使得第一识别数据集合可以根据文本之间的相关性,为每个文本确定一个文本属性值。
在本申请实施例中,创建第一识别数据集合时可以应用机器学习算法,可以根据多个文本样本对应的属性比较数据,用直线或者二次方程等函数拟合出文本属性值和文本本身之间的关系、或者文本属性值和文本的其他相关信息之间的关系。例如,给定一个函数表示文本样本和文本属性值之间的关系,以属性比较数据确定各个文本样本的文本属性值的大小关系,然后通过回归分析的算法,来评估原函数的模型,求出一个最符合这些已知的文本样本的文本属性值的大小关系的识别函数,也就是第一识别数据集合。由于给定文本样本之间的属性比较数据,运用学习算法算出了文本属性值和文本之间的关系,也就是第一识别数据集合,第一识别数据集合可以是神经网络模型或者分类器。第一识别数据集合可以识别出文本和多个文本样本之间的关系,得到对应的文本属性值。
步骤503,依据所述第一识别数据集合识别目标文本,获得文本属性值。
在本申请实施例中,第一识别数据集合被创建后,可以用来识别除文本样本之外的其他更多的文本。识别目标文本时,第一识别数据集合可以根据目标文本本身、或者从目标文本提取的其他相关信息,获得目标文本的文本属性值。例如,对于上述得到的识别函数,就可以用来评估其他文本的文本属性值,输入目标文本就会根据这个识别函数输出文本属性值。用术语来讲,这是一个回归问题。
依据本申请实施例,通过采用文本样本之间的属性比较数据对文本样本进行标记,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合,依据所述第一识别数据集合识别目标文本,获得文本属性值,使得可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多文本在某种属性上的程度。在解决识别文本是否违规的问题时,相比于以二分类的方式识别文本是否违规,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。另外,还解决了现有的内容分类器得到的结果无法线性的描述违规内容的严重程度的问题。
在本申请的一种可选实施例中,在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,还可以包括:从至少一个数据处理平台获取针对文本样本的评价数据,并以所述评价数据对应生成文本样本之间的属性比较数据。
数据处理平台可以对文本样本进行处理,得到文本样本的评价数据,例如包含有商品信息、商品描述、商品评价等文本数据的电商交易系统,或者包含有多种类型文章的门户网站系统等。在这些平台上,文本可以得到对应所需属性比较数据对应的属性的评价数据,例如,电商交易系统中可以针对商品评论文本产生对应的评价数据,用来表示商品评论文本的恶意程度,具体可以由后台管理者或者其他用户对用户的商品评论文本进行打分或投票,得到评价数据,例如,商品评论文本得到的“赞”数和“踩”数。从至少一个数据处理平台获取针对文本样本的评价数据后,根据评价数据进行比较得到文本样本之间的属性比较数据,例如,根据商品评论文本得到的“赞”数和“踩”数,比较商品评论文本之间的“赞”数和“踩”数,得到属性比较数据。
参照图6,示出了根据本申请实施例六的一种文本识别方法实施例的流程图,该方法具体可以包括以下步骤:
步骤601,依据用于识别文本属性分类的第二识别数据集合识别所述文本样本,得到所述文本样本的文本属性分类。
在本申请实施例中,第二识别数据集合用于识别文本的文本属性分类,具体就是将文本按照某种属性进行分类,可以分成两类或更多,本申请实施例对此不作限制。例如,按照文本是否违规进行分类,文本属性分类可以包括违规和正常两类。相比较而言,第一识别数据集合可以识别文本在某种属性上的程度,得到的结果是文本的文本属性值,并不对文本直接进行分类。
在本申请实施例中,针对所有文本样本,先依据第二识别数据集合,就可以识别得到每个文本样本的文本属性分类。
第二识别数据集合的创建方式可以是:根据文本和对应标记的文本属性分类的标签,应用学习算法得到文本属性分类和文本本身或者其他相关信息之间的关系,得到对应的用于识别文本属性分类的第二识别数据集合。第二识别数据集合可以包括分类器等形式。第二识别数据集合可以估算出文本是各个文本属性分类的概率,然后确定文本的文本属性分类。
例如,当第二识别数据集合是用于识别文本是否违规的,那么一种得到第二识别数据集合的实现方式为:用0、1标签对文本样本进行标记,收集足够多个文本样本进行标记,形成样本集;根据标记的样本集训练分类器,以识别文本的文本属性分类。
步骤602,从所述多个文本样本中,抽取归属于第一文本属性分类的文本样本作为所述部分文本样本。
在本申请实施例中,选用样本的一种方式可以是从多个文本样本中,抽取归属于第一文本属性分类的全部或者部分文本样本,作为部分文本样本进行标记。在实际应用中,文本的文本属性分类可能很不平均,导致如果针对所有文本进行标记,最后各个文本属性分类的文本得到的文本属性值也会呈现相应的不平均,影响识别的准确度。例如,在所有文本样本中,如果违规的文本只占1%,其他都是正常的文本,那么最终第一识别数据集合识别得到的文本属性值的数值区间中违规文本也可能只占大约1%的数值区间,对于判断文本是否违规来说,这样标记文本样本会导致准确度不够。所以需要抽取其中违规的文本样本作为部分文本样本进行标记。
在本申请的一种可选实施例中,多个文本样本中部分文本样本具有标记的属性比较数据,选用样本的方式还可以是:在采用文本样本之间的属性比较数据对文本样本进行标记之前,还可以包括:
步骤603,对所述多个文本样本划分至多个分类。
在本申请实施例中,步骤603和步骤604可以代替步骤601和步骤602执行,也可以是在执行步骤601和步骤602之后,再执行步骤603和步骤604对文本样本进一步选取,来实现从所有文本样本中抽取出部分文本样本。先将所有文本样本或者步骤602抽取的部分文本样本划分至多个分类,例如,按照文本样本的内容类型,将多个文本样本分为游戏类、书籍类、商品类等,或者按照其他各种现有的分类器对文本样本进行分类,具体可以按照任意适用的方式划分分类,本申请实施例对此不作限制。
步骤604,从各分类对应的文本样本中抽取至少一个文本样本作为所述部分文本样本。
在本申请实施例中,从文本样本的各个分类中,抽取至少一个文本样本作为部分文本样本,例如,每个分类中抽取相同比例的样本,或者各个分类中抽取不同比例的样本,具体可以从各个分类中抽取任意数量的文本样本,本申请实施例对此不作限制。一方面可以使样本分布再不同的分类中,避免选取的样本集中在某一个或者几个分类,提高根据样本创建的第一识别数据集合识别文本的准确度,另一个方面可以减少标记的工作量。
步骤605,采用文本样本之间的属性比较数据对文本样本进行标记。
在本申请实施例中,采用文本样本之间的属性比较数据对抽取的部分文本样本进行标记。一种实现方式可以为,对抽取的部分文本样本进行两两配对,配对可以采取随机的方式进行,也可以按照一定的规则进行,具体可以采用任意适用的方式配对,本申请实施例对此不作限制。两两配对之后,从中选取全部或者部分样本对进行标记。具体可以采用任意适用的方式对文本样本进行标记,本申请实施例对此不作限制。
步骤606,为所述文本样本生成对应的文本特征。
在本申请实施例中,文本样本的文本特征用于表征文本。在机器处理文本时,要想让机器识别文本,就需要将文本抽象表示成可被机器理解的形式,所以要把文本进行特征化。文本样本的文本特征可以包括id特征(标识)、tf-idf特征(term frequency–inversedocument frequency,词频-逆向文件频率)、word2vec特征(word to vector,词语转向量)、cnn特征(Convolutional Neural Network,卷积神经网络)等中至少一种。文本特征还可以包括文本样本对应的使用行为特征,即是历史上对于文本的操作有关的特征,例如,为各个词语设定的分数、文本被发送、转发等操作的频率或次数。文本样本的文本特征还可以是多种文本特征组合在一起组成的更长的文本特征。
其中,id特征是文本的标识特征,可以表示为文本中多个字符在字典序中的标识;tf-idf特征表征字符在文本中出现的频次和重要性,基于字符的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降;word2vec特征是指将词表征为实数值向量的特征;cnn特征是指基于卷积神经网络训练得到的特征,对于一个卷积核将其与给定的文本做卷积就可以提取到该卷积特征。一种得到文本的cnn特征的实现方式可以是:输入层是一个表示句子的矩阵,每一行是id特征或者tf-idf特征或者word2vec词向量。接着是由若干个滤波器组成的卷积层,然后是最大池化层(Poolinglayers),最后是softmax分类器(归一化指数函数分类器),经卷积运算得到文本的cnn特征。
其中,文本特征可以包括字符、数值、向量等至少一种形式。
若文本特征为id特征,并采用向量形式时,为所述文本样本生成对应的文本特征的一种实现方式可以包括:
子步骤S1,构建与预先收集的有序字符对应的多个文本维度;
子步骤S2,确定所述文本样本在所述多个文本维度下的维度特征;
子步骤S3,根据有序的多个维度特征生成所述文本样本的文本向量,并以所述文本向量作为所述文本特征。
文本是由字符组成,所以预先收集各个文本中可能包含的多个字符,进行排序,构建对应的多个文本维度,然后确定各个文本样本在多个文本维度下的维度特征,也就是针对各个字符进行标记,然后根据有序的多个维度特征生成所有文本样本的文本向量,作为文本特征。
当采用向量表示文本特征时,id特征的每个维度对应的维度特征为文本中的字符在构建的各个文本维度下相应字符的有或无。具体实现方式可以是:对于样本集中每个样本,取v(x)表示对应于样本x的文本向量。对所有的汉字进行字典排序,设全部汉字数为D个,就取字典长度为D,则每一个文本都可以转化为一个D维的向量,文本中有出现的字则该维度为1,否则为0。那么样本x的文本特征可以为v(x)=(0,0,……1,0)的D维向量。
若文本特征采用tf-idf特征,并采用向量形式时,则在创建向量的过程中,针对上述根据字符创建的多个维度,每个维度对应的维度特征为字符在文本中的tf-idf值。
若文本特征为word2vec特征或cnn特征时,并采用向量形式时,则既可以采用上述根据字符创建的多个维度,也可以根据实际需求创建维度。
步骤607,基于多个文本样本以及对应标记的属性比较数据,创建基于文本特征识别文本属性值的第一识别数据集合。
在本申请的一种可选实施例中,所述步骤607的一种实现方式可以包括,基于多个文本样本的文本特征和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本特征识别文本属性值的识别函数。
第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,文本属性值与文本特征可以在所述识别函数中成线性关系,或者其他任意适用的函数关系,本申请实施例对此不作限制。属性比较数据可以表征文本样本之间文本属性值的大小。例如,设f(v(x))为文本样本x的文本属性值,那么属性比较数据可以表征为f(v(x1))和f(v(x2))的差,或者f(v(x1))和f(v(x2))的商,或者其他任意适用的形式,当然还可以为f(v(x1))和f(v(x2))设置相应的参数,本申请实施例对此不作限制。
因此,根据文本特征和属性比较数据之间的对应关系,以及属性比较数据和文本属性值之间的关系,可以确定出文本特征和文本属性值之间的函数关系,也就是基于文本特征识别文本属性值的识别函数。
例如,在一种实现方式中,文本向量x的文本特征为v(x),f(v(x))表示文本特征v(x)的文本属性值,定义表征所有文本样本的F(V(x))为线性映射,F(V(x))=W*V(x)+b,其中W和b为需要训练的神经网络参数,设文本特征和属性比较数据之间的对应关系Oij=F(v(xi))-F(v(xj)),通过logistic函数(逻辑函数),将Oij映射到[0,1]区间,即Pij=eOij/(1+eOij)。定义损失函数为:Cij=-PijOij+log(1+eOij),初始化神经网络参数后,就可以通过神经网络训练确定Cij最小时的参数W和b。确定参数W和b,也就得到了基于文本特征识别文本属性值的识别函数F(V(x))=W*V(x)+b。
当文本特征采用cnn特征时,确定基于文本特征识别文本属性值的识别函数的一种实现方式可以是利用反向传播和正向传播的方式交替,迭代训练模型,得到识别函数。
在正向传播过程中,输入信息通过输入层经隐含层,逐层处理并传向输出层。如果在输出层得不到期望的输出值,则取输出与期望的误差的平方和作为目标函数,转入反向传播,逐层求出目标函数对各神经元权值的偏导数,构成目标函数对权值向量的梯量,作为修改权值的依据,网络的学习在权值修改过程中完成。误差达到所期望值时,网络学习结束。
其中,利用链式求导法则对隐含层的节点进行求导,得到Oi=g3(W3F(V(x))+b3)=g3(W3(g2(W2(V(x))+b2))+b3);再反向传播误差,取minCij最小时的W和b,可以使用最速下降法(Gradient descent,又称梯度下降法),要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索来求得参数W和b。得到的W和b,可以确定基于文本特征识别文本属性值的识别函数Oi。
在本申请的一种可选实施例中,在创建基于文本特征识别文本属性值的第一识别数据集合之前,还包括对所述文本样本之间属性差异的描述信息进行数值化。
在本申请实施例中,属性比较数据为文本样本之间属性差异的描述信息,具体可以任意适用的形式描述文本样本之间的属性差异,本申请实施例对此不作限制。对所述文本样本之间属性差异的描述信息进行数值化,具体是用数值来表示文本样本之间的属性比较数据。
例如,表征文本A比文本B违规程度更重的属性比较数据“A>B”数值化后,可以用数值1来表示,表征文本C比文本B违规程度更轻的属性比较数据“C<D”数值化后,可以用数值0来表示,表征文本A和文本C之间的违规程度相同的属性比较数据“A=C”数值化后,可以用数值0.5来表示。
在本申请实施例中的文本识别方法应用与违规文本的识别时,设f(v(x))为文本样本x的违规程度,即文本属性值,那么f(v(x1))-f(v(x2))就可以表示文本样本x1和x2的违规程度的比较。以其中一种实现方式为例,设Oij=F(v(xi))-F(v(xj))表示所有文本样本之间的违规程度的比较,通过logistic函数,将Oij映射到[0,1]区间,即Pij=eOij/(1+eOij),那么对文本样本之间的三种属性比较数据进行数值化,可以得到当F(V(Xi))>F(V(Xj))时,Pij=1;当F(V(Xi))=F(V(Xj))时,Pij=0.5;当F(V(Xi))<F(V(Xj))时,Pij=0,其中Pij的值就是将文本样本之间属性差异的描述信息进行数值化后的表示。
步骤608,依据用于识别文本属性分类的第二识别数据集合识别所述目标文本;确定所述目标文本归属于第一文本属性分类。
在本申请实施例中,针对所有待识别的目标文本,可以先依据第二识别数据集合对目标文本的文本属性分类进行识别,确定目标文本归属于第一文本属性分类,再进行进一步的识别,以减少用第一识别数据集合进行识别所消耗的计算资源。
步骤609,依据所述第一识别数据集合识别目标文本,获得文本属性值。
在本申请实施例中,对归属于第一文本属性分类的目标文本进行识别,获得其文本属性值。
在本申请的一种可选实施例中,还可以包括:若确定所述目标文本归属于第二文本属性分类,则对所述目标文本添加对应第二文本属性分类的文本属性值。例如,第一文本属性分类为违规分类,第二文本属性分类为正常分类,针对第一文本属性分类添加的文本属性值是描述违规程度的,针对第二文本属性分类添加的文本属性值是描述正常程度的。
步骤610,判定所述文本属性值满足设定范围,则对所述目标文本添加归属于第一文本属性分类的分类标签。
在本申请实施例中,针对目标文本,判断目标文本的文本属性值是否在设定范围内,如果判断文本属性值满足设定范围,就对目标文本添加归属于第一文本属性分类的分类标签,具体可以采用任意适用的设定范围,本申请实施例对此不作限制。
依据本申请实施例,通过依据用于识别文本属性分类的第二识别数据集合识别所述文本样本,得到所述文本样本的文本属性分类,从所述多个文本样本中,抽取归属于第一文本属性分类的文本样本作为所述部分文本样本,采用文本样本之间的属性比较数据对文本样本进行标记,提高了对文本样本进行标记的效率,如果最后仅对归属第一文本属性分类的目标文本进行识别,这样标记可以提高识别文本属性值的准确性。
进一步,通过为所述文本样本生成对应的文本特征,基于多个文本样本以及对应标记的属性比较数据,创建基于文本特征识别文本属性值的第一识别数据集合,使得可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多文本在某种属性上的程度。另外,还解决了现有的内容分类器得到的结果无法线性的描述违规内容的严重程度的问题。
进一步,通过依据用于识别文本属性分类的第二识别数据集合识别所述目标文本;确定所述目标文本归属于第一文本属性分类,依据所述第一识别数据集合识别目标文本,获得文本属性值,判定所述文本属性值满足设定范围,则对所述目标文本添加归属于第一文本属性分类的分类标签,使得在解决识别文本是否违规的问题时,相比于以二分类的方式识别文本是否违规,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。而且,仅对疑似违规的文本进行识别,减少了识别文本属性值的计算量,减少了资源的浪费。
为使本领域技术人员更好地理解本申请,以下通过具体的示例对本申请的一种实现方式进行说明。
如图7所示的第一识别数据集合的训练过程的示意图。
步骤1、黑白样本收集:用0、1标签对文本样本进行标记,0代表正常对应白样本,1代表违规对应黑样本,收集足够多个文本样本进行标记,形成样本集;
步骤2、黑样本两两配对标注严重程度比较:对步骤1中黑样本进行两两配对,并标注没对黑样本之间的违规的严重程度比较,例如,属性比较数据“A>B”表征文本A比文本B违规程度更重,“C<D”表征文本C比文本B违规程度更轻,“A=C”表征文本A和文本C之间的违规程度相同。
步骤3、所有样本向量化:采用cnn特征对文本样本进行向量化。
步骤4、神经网络随机初始化:神经网络的各个参数进行随机初始化。
步骤5、正向传播:利用链式求导法则对隐含层的节点进行求导:公式1:Oi=g3(W3F(V(x))+b3)=g3(W3(g2(W2(V(x))+b2))+b3),输出误差。
步骤6、反向传播:将误差反向传播,对每个文本样本,重新计算误差Cij。
步骤7、迭代n轮,得到优化后的神经网络模型W和b:利用正向传播和反向传播的交替的方式,训练模型参数,可以使用最速下降法,迭代n轮,得到优化后的神经网络模型W和b,对于得到的W和b,再使用公式Oi=g3(W3F(V(x))+b3)=g3(W3(g2(W2(V(x))+b2))+b3)得到基于文本特征识别文本属性值的识别函数。
以下通过具体的示例对本申请的预先创建第一识别数据集合后,识别目标文本的过程进行说明。
如图8所示的识别违规文本的示例的示意图。
步骤1、实时数据:接收目标文本的实时数据。
步骤2、所有文本向量化:将实时数据中的所有文本向量化。
步骤3、[0、1]分类器:根据用于识别文本是否违规的分类器,判断目标文本是否违规,如果输出0,表示文本正常,如果输出1,表示文本疑似违规,需要进一步识别。
步骤4、神经网络模型:将疑似违规的目标文本输入到本申请的神经网络模型,即第一识别数据集合,得到表征目标文本违规程度的违规分值,即文本属性值。
步骤5、违规分值阈值计算:违规分值越大违规程度越高,设置一个阈值,如果文本属性值大于阈值,则文本违规,如果文本属性值小于阈值,则文本正常。
参照图9,示出了根据本申请实施例七的一种数据对象识别方法实施例的流程图,该方法具体可以包括以下步骤:
步骤701,采用数据对象样本之间的属性比较数据,对数据对象样本进行标记。
在本申请实施例中,任意可以进行属性比较的数据对象都可以进行标记,具体可以是视频、文字、图片、音频等多种形式的数据对象,本申请实施例对此不作限制。
步骤702,基于多个数据对象样本以及对应标记的属性比较数据,创建识别数据对象属性值的第一识别数据集合。
步骤703,依据所述第一识别数据集合识别目标数据对象,获得数据对象属性值。
依据本申请实施例,通过采用数据对象样本之间的属性比较数据,对数据对象样本进行标记,基于多个数据对象样本以及对应标记的属性比较数据,创建识别数据对象属性值的第一识别数据集合,依据所述第一识别数据集合识别目标数据对象,获得数据对象属性值,使得可以根据数据对象样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多数据对象在某种属性上的程度。在解决识别数据对象是否违规的问题时,相比于以二分类的方式识别数据对象是否违规,识别出数据对象属性值,可以在判断标准发生变化时,无需对所有的数据对象样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用数据对象属性值重新判断数据对象是否违规,提高了数据对象识别的适配能力和响应时间,减少了资源的浪费。另外,还解决了现有的数据对象分类器得到的结果无法线性的描述违规数据对象的严重程度的问题。
参照图10,示出了根据本申请实施例八的一种数据处理方法实施例的流程图,该方法具体可以包括以下步骤:
步骤801,获取样本数据的属性比较数据。
在本申请实施例中,样本数据包括文本、音视频、图像等、或者其他任意适用的数据形式,本申请实施例对此不做限制。样本数据的属性比较数据包括所述样本数据之间属性差异的描述信息。
步骤802,获取所述属性比较数据对应的线性数据。
在本申请实施例中,线性数据为属性比较数据数值化后得到的数据,可以线性地表征出样本数据之间属性的差异。线性数据具体可以是对属性比较数据进行数值化后得到,还可以是对属性比较数据进行数值化后得到的数据,做进一步处理,将得到的超出从0到1范围的数据,做线性处理得到从0到1范围内的数据,作为线性数据,例如,属性比较数据数值化处理后,得到的数据的范围是从0到10000的数据,对数据进一步进行处理,得到从0到1范围内的数据。
步骤803,利用所述线性数据,创建用于识别属性值的识别数据集合。
在本申请实施例中,属性值也即是数据在对应的数据属性上的表征程度。此步骤的具体实现方式可以参见前述实施例中,基于属性比较数据,创建识别文本属性值的第一识别数据集合的相关描述,此处不另赘述。识别数据集合用于识别属性值,包括至少一个识别模型。
依据本申请实施例,通过获取样本数据的属性比较数据,获取所述属性比较数据对应的线性数据,利用所述线性数据,创建用于识别属性值的识别数据集合。可以根据样本数据之间的属性比较,创建出识别数据集合,可以识别其他更多数据在某种属性上的程度。
在本申请实施例中,可选地,所述创建识别数据集合的一种实现方式可以包括:获取样本特征值与所述属性比较数据之间的第一函数,获取所述属性比较数据与属性值之间的第二函数,生成所述样本特征值与所述属性值的第三函数。
样本特征值用于表征样本,对应到样本数据为文本样本时的文本特征,具体可以参见前述实施例六中的描述,此处不另赘述。
第一函数为样本特征值与所述属性比较数据之间的对应关系,具体可以参见前述实施例六中,对于文本特征和属性比较数据之间的对应关系的描述,此处不另赘述。获取第一函数可以是从预先设定的函数关系中获取,也可以是接收输入的函数关系,本申请实施例对此不做限制。
第二函数为属性比较数据与属性值之间的对应关系,具体可以参见前述实施例六中,对于属性比较数据与文本属性值之间的对应关系的描述,此处不另赘述。获取第二函数可以是从预先设定的函数关系中获取,也可以是接收输入的函数关系,本申请实施例对此不做限制。
第三函数为样本特征值与属性值之间的对应关系,具体可以参见前述实施例六中,对于生成文本特征与文本属性值之间的对应关系的描述,此处不另赘述。
在本申请实施例中,可选地,样本数据可以包括文本类型的文本样本数据。
在本申请实施例中,可选地,样本数据可以包括图像类型的图像样本数据。例如,网络图片等,或者其他任意适用的图像类型的数据,本申请实施例对此不做限制。
在本申请实施例中,可选地,样本数据可以包括音视频类型的音视频样本数据。例如,网络上的音视频节目、直播数据等,或者其他任意适用的音视频类型的数据,本申请实施例对此不做限制。
在本申请实施例中,可选地,属性比较数据包括所述样本数据之间属性差异的描述信息,对所述属性比较数据进行数值化,获取所述属性比较数据对应的线性数据的一种实现方式可以包括:查找所述描述信息对应的预设数据,以所述预设数据作为所述属性比较数据对应的线性数据。
预设数据为线性的数据,例如,从0到1的数字分值。不同的描述信息可以对应于不同的预设数据,也可以存在有多个不同的描述信息对应相同的预设数据的情况,本申请实施例对此不做限制。根据描述信息查找预设数据,作为属性比较数据对应的线性数据。
在本申请实施例中,可选地,所述识别数据集合包括根据基于特征数据识别对象属性值的识别函数,对象属性值与对象特征在所述识别函数中成线性关系。
利用所述线性数据创建识别属性值的识别数据集合的一种实现方式可以包括:基于多个样本数据的特征数据和对应标记的属性比较数据,以及属性比较数据与属性值之间的表征关系,确定基于特征数据识别属性值的识别函数。
在本申请实施例中,可选地,所述获取样本数据的属性比较数据包括:接收客户端针对样本数据提交的属性比较数据。在所述利用所述线性数据,创建用于识别属性值的识别数据集合之后,所述方法还包括:将所述识别数据集合下发到客户端。在本申请实施例中,创建识别数据集合后,再下发至客户端,以供客户端依据识别数据集合识别其他目标数据,获得目标数据的属性值。
参照图11,示出了根据本申请实施例九的一种文本识别装置实施例的结构框图,该装置具体可以包括:
比较数据接收模块901,用于接收至少一个客户端针对文本样本提交的属性比较数据,所述属性比较数据为文本样本之间属性差异的描述信息;
数值化模块902,用于对所述文本样本之间属性差异的描述信息进行数值化;
集合创建模块903,用于基于多个文本样本以及数值化的属性比较数据,创建识别文本属性值的第一识别数据集合;
集合下发模块904,用于将所述第一识别数据集合下发到客户端,以供所述客户端依据所述第一识别数据集合识别目标文本,获得文本属性值。
依据本申请实施例,通过接收至少一个客户端针对文本样本提交的属性比较数据,对所述文本样本之间属性差异的描述信息进行数值化,基于多个文本样本以及数值化的属性比较数据,创建识别文本属性值的第一识别数据集合,将所述第一识别数据集合下发到客户端,以供所述客户端依据所述第一识别数据集合识别目标文本,获得文本属性值,使得可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多文本在某种属性上的程度。在解决识别文本是否违规的问题时,相比于以二分类的方式识别文本是否违规,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。另外,还解决了现有的内容分类器得到的结果无法线性的描述违规内容的严重程度的问题。
参照图12,示出了根据本申请实施例十的一种文本监控装置实施例的结构框图,该装置具体可以包括:
目标文本拦截模块1001,用于拦截用户在目标应用程序中处理的目标文本;
属性值获得模块1002,用于依据第一识别数据集合识别目标文本,获得文本属性值,所述第一识别数据集合用于识别文本的文本属性值,所述第一识别数据集合基于多个文本样本以及对应标记的属性比较数据创建;
风险类别判定模块1003,用于根据所述文本属性值判定所述目标文本属于所述文本属性下的风险分类;
风险处理模块1004,用于对所述目标文本添加风险分类标签,并对所述目标文本进行风险处理或风险提示。
在本申请的一种可选实施例中,所述装置还包括:
样本标记模块,用于采用文本样本之间的属性比较数据对文本样本进行标记;
集合创建模块,用于基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合。
依据本申请实施例,通过拦截用户在目标应用程序中处理的目标文本,依据第一识别数据集合识别目标文本,获得文本属性值,根据所述文本属性值判定所述目标文本属于所述文本属性下的风险分类,对所述目标文本添加风险分类标签,并对所述目标文本进行风险处理或风险提示,使得可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多文本在某种属性上的程度。在文本属性值表征文本的风险程度时,实现由文本属性值判断文本是否具有风险,提高了监控文本风险的灵活性。
参照图13,示出了根据本申请实施例十一的一种文本识别装置实施例的结构框图,该装置具体可以包括:
样本标记模块1101,用于采用文本样本之间的属性比较数据对文本样本进行标记;
集合创建模块1102,用于基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合;所述第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,以及第一判定条件;
第一分类判定模块1103,用于在第一业务场景下,采用第一识别数据集合识别文本的文本属性值,并结合所述第一判定条件判定文本的文本属性分类;
集合修正模块1104,用于接收针对第二业务场景下识别文本属性分类的第二判定条件,将所述第一识别数据集合修正为适用于第二业务场景的第三识别数据集合;
第二分类判定模块1105,用于在第二业务场景下,采用第三识别数据集合识别文本的文本属性值,并结合所述第二判定条件判定文本的文本属性分类。
依据本申请实施例,通过采用文本样本之间的属性比较数据对文本样本进行标记,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合,在第一业务场景下,采用第一识别数据集合识别文本的文本属性值,并结合所述第一判定条件判定文本的文本属性分类,接收针对第二业务场景下识别文本属性分类的第二判定条件,将所述第一识别数据集合修正为适用于第二业务场景的第三识别数据集合,在第二业务场景下,采用第三识别数据集合识别文本的文本属性值,并结合所述第二判定条件判定文本的文本属性分类,使得可以在场景不同,判定文本属性分类的判断标准不同时,通过调整判定条件,就可以满足各种场景下需要调整文本识别的标准的需要,提高了文本识别针对不同业务场景的适配能力和响应时间,避免重新生成分类器的资源消耗。
参照图14,示出了根据本申请实施例十二的一种文本识别装置实施例的结构框图,该装置具体可以包括:
样本标记模块1201,用于采用文本样本之间的属性比较数据对文本样本进行标记,所述属性比较数据表征文本样本之间文本属性值的比较结果;
向量生成模块1202,用于根据文本样本在多个文本维度下的维度特征生成所述文本样本的文本向量;
函数确定模块1203,用于基于多个文本样本的文本向量和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本向量识别文本属性值的第一识别函数;
分类确定模块1204,用于依据用于识别文本属性分类的第二识别函数识别所述目标文本;确定所述目标文本归属于非风险分类;
属性值获得模块1205,用于依据所述第一识别函数识别目标文本,获得文本属性值。
依据本申请实施例,通过采用文本样本之间的属性比较数据对文本样本进行标记,根据文本样本在多个文本维度下的维度特征生成所述文本样本的文本向量,基于多个文本样本的文本向量和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本向量识别文本属性值的第一识别函数,依据用于识别文本属性分类的第二识别函数识别所述目标文本,确定所述目标文本归属于非风险分类,依据所述第一识别函数识别目标文本,获得文本属性值,在解决识别文本是否违规的问题时,相比于以二分类的方式识别文本是否违规,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。另外,还解决了现有的内容分类器得到的结果无法线性的描述违规内容的严重程度的问题。并且可以先对文本进行分类识别,再进一步对归属于非风险分类的目标文本进行属性值识别,以减少用第一识别数据集合进行识别所消耗的计算资源。
参照图15,示出了根据本申请实施例十三的一种文本识别装置实施例的结构框图,该装置具体可以包括:
样本标记模块1301,用于采用文本样本之间的属性比较数据对文本样本进行标记;
第一集合创建模块1302,用于基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合;
属性值获得模块1303,用于依据所述第一识别数据集合识别目标文本,获得文本属性值。
在本申请的一种可选实施例中,针对所述文本样本标记的属性比较数据包括:所述文本样本相比于至少一个其他文本样本的属性比较数据。
在本申请的一种可选实施例中,所述装置还包括:
文本特征生成模块,用于在所述创建识别文本属性值的第一识别数据集合之前,为所述文本样本生成对应的文本特征;
所述第一集合创建模块,具体用于基于多个文本样本以及对应标记的属性比较数据,创建基于文本特征识别文本属性值的第一识别数据集合。
在本申请的一种可选实施例中,所述文本特征生成模块包括:
维度构建子模块,用于构建与预先收集的有序字符对应的多个文本维度;
维度特征确定子模块,用于确定所述文本样本在所述多个文本维度下的维度特征;
文本向量生成子模块,用于根据有序的多个维度特征生成所述文本样本的文本向量,并以所述文本向量作为所述文本特征。
在本申请的一种可选实施例中,所述多个文本样本中部分文本样本具有标记的属性比较数据;所述装置还包括:
文本属性分类识别模块,用于在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,依据用于识别文本属性分类的第二识别数据集合识别所述文本样本,得到所述文本样本的文本属性分类;
第一样本抽取模块,用于从所述多个文本样本中,抽取归属于第一文本属性分类的文本样本作为所述部分文本样本。
在本申请的一种可选实施例中,所述多个文本样本中部分文本样本具有标记的属性比较数据;所述装置还包括:
分类划分模块,用于在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,对所述多个文本样本划分至多个分类;
第二样本抽取模块,用于从各分类对应的文本样本中抽取至少一个文本样本作为所述部分文本样本。
在本申请的一种可选实施例中,所述第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,所述文本属性值与文本特征在所述识别函数中成线性关系,所述属性比较数据表征文本样本之间文本属性值的大小;
所述第一集合创建模块,具体用于基于多个文本样本的文本特征和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本特征识别文本属性值的识别函数。
在本申请的一种可选实施例中,所述属性比较数据为文本样本之间属性差异的描述信息,所述装置还包括:
数值化模块,用于在所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合之前,对所述文本样本之间属性差异的描述信息进行数值化。
在本申请的一种可选实施例中,所述装置还包括:
分类确定模块,用于在所述依据所述第一识别数据集合识别目标文本,获得文本属性值之前,依据用于识别文本属性分类的第二识别数据集合识别所述目标文本;确定所述目标文本归属于第一文本属性分类。
在本申请的一种可选实施例中,所述装置还包括:
属性值添加模块,用于若确定所述目标文本归属于第二文本属性分类,则对所述目标文本添加对应第二文本属性分类的文本属性值。
在本申请的一种可选实施例中,所述装置还包括:
分类标签添加模块,用于判定所述文本属性值满足设定范围,则对所述目标文本添加归属于第一文本属性分类的分类标签。
在本申请的一种可选实施例中,所述装置还包括:
评价数据获取模块,用于在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,从至少一个数据处理平台获取针对文本样本的评价数据,并以所述评价数据对应生成文本样本之间的属性比较数据。
依据本申请实施例,通过采用文本样本之间的属性比较数据对文本样本进行标记,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合,依据所述第一识别数据集合识别目标文本,获得文本属性值,使得可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多文本在某种属性上的程度。在解决识别文本是否违规的问题时,相比于以二分类的方式识别文本是否违规,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。另外,还解决了现有的内容分类器得到的结果无法线性的描述违规内容的严重程度的问题。
参照图16,示出了根据本申请实施例十四的一种数据对象识别装置实施例的结构框图,该装置具体可以包括:
样本标记模块1401,用于采用数据对象样本之间的属性比较数据,对数据对象样本进行标记;
第一集合创建模块1402,用于基于多个数据对象样本以及对应标记的属性比较数据,创建识别数据对象属性值的第一识别数据集合;
属性值获得模块1403,用于依据所述第一识别数据集合识别目标数据对象,获得数据对象属性值。
依据本申请实施例,通过采用文本样本之间的属性比较数据对文本样本进行标记,基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合,依据所述第一识别数据集合识别目标文本,获得文本属性值,使得可以根据文本样本之间的属性比较,创建出第一识别数据集合,可以识别其他更多文本在某种属性上的程度。在解决识别文本是否违规的问题时,相比于以二分类的方式识别文本是否违规,识别出文本属性值,可以在判断标准发生变化时,无需对所有的文本样本重新标记一遍,再重新得到分类器,仅需要调整判断阈值就可以利用文本属性值重新判断文本是否违规,提高了文本识别的适配能力和响应时间,减少了资源的浪费。另外,还解决了现有的内容分类器得到的结果无法线性的描述违规内容的严重程度的问题。
参照图17,示出了根据本申请实施例十五的一种数据处理装置实施例的结构框图,该装置具体可以包括:
数据获取模块1501,用于获取样本数据的属性比较数据,其中,所述属性比较数据包括所述样本数据之间属性差异的描述信息;
线性数据获取模块1502,用于获取所述属性比较数据对应的线性数据;
集合创建模块1503,用于利用所述线性数据,创建用于识别属性值的识别数据集合,其中,所述识别数据集合包括至少一个识别模型。
在本申请实施例中,可选地,所述集合创建模块包括:
第一函数获取子模块,用于获取样本特征值与所述属性比较数据之间的第一函数;
第二函数获取子模块,用于获取所述属性比较数据与属性值之间的第二函数;
第三函数生成子模块,用于生成所述样本特征值与所述属性值的第三函数。
在本申请实施例中,可选地,所述样本数据包括文本样本数据。
在本申请实施例中,可选地,所述样本数据包括图像样本数据。
在本申请实施例中,可选地,所述样本数据包括音视频样本数据。
在本申请实施例中,可选地,所述属性比较数据包括所述样本数据之间属性差异的描述信息,所述线性数据获得模块包括:
信息查找子模块,用于查找所述描述信息对应的预设数据;
数据对应子模块,用于以所述预设数据作为所述属性比较数据对应的线性数据。
在本申请实施例中,可选地,所述识别数据集合包括根据基于特征数据识别对象属性值的识别函数,所述对象属性值与对象特征在所述识别函数中成线性关系;
所述集合创建模块,具体用于基于多个样本数据的特征数据和对应标记的属性比较数据,以及属性比较数据与属性值之间的表征关系,确定基于特征数据识别属性值的识别函数。
在本申请实施例中,可选地,所述数据获取模块,具体用于接收客户端针对样本数据提交的属性比较数据;
所述装置还包括:
集合下发模块,用于在所述利用所述线性数据,创建用于识别属性值的识别数据集合之后,将所述识别数据集合下发到客户端。
依据本申请实施例,通过接收客户端针对样本数据提交的属性比较数据,对所述属性比较数据进行数值化,获得属性比较数据对应的线性数据,利用所述线性数据,创建识别属性值的识别数据集合,将所述识别数据集合下发到客户端,可以根据样本数据之间的属性比较,创建出识别数据集合,可以识别其他更多数据在某种属性上的程度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的系统。图18示意性地示出了可被用于实现本公开中所述的各个实施例的示例性系统(或装置)1600。
对于一个实施例,图18示出了示例性系统1600,该系统具有一个或多个处理器1602、被耦合到(一个或多个)处理器1602中的至少一个的系统控制模块(芯片组)1604、被耦合到系统控制模块1604的系统存储器1606、被耦合到系统控制模块1604的非易失性存储器(NVM)/存储设备1608、被耦合到系统控制模块1604的一个或多个输入/输出设备1610,以及被耦合到系统控制模块1606的网络接口1612。
处理器1602可包括一个或多个单核或多核处理器,处理器1602可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,系统1600能够作为本申请实施例中所述的浏览器。
在一些实施例中,系统1600可包括具有指令的一个或多个计算机可读介质(例如,系统存储器1606或NVM/存储设备1608)以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器1602。
对于一个实施例,系统控制模块1604可包括任意适当的接口控制器,以向(一个或多个)处理器1602中的至少一个和/或与系统控制模块1604通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块1604可包括存储器控制器模块,以向系统存储器1606提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器1606可被用于例如为系统1600加载和存储数据和/或指令。对于一个实施例,系统存储器1606可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器1606可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块1604可包括一个或多个输入/输出控制器,以向NVM/存储设备1608及(一个或多个)输入/输出设备1610提供接口。
例如,NVM/存储设备1608可被用于存储数据和/或指令。NVM/存储设备408可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备1608可包括在物理上作为系统1600被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备1608可通过网络经由(一个或多个)输入/输出设备1610进行访问。
(一个或多个)输入/输出设备1610可为系统1600提供接口以与任意其他适当的设备通信,输入/输出设备1610可以包括通信组件、音频组件、传感器组件等。网络接口1612可为系统1600提供接口以通过一个或多个网络通信,系统1600可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1602中的至少一个可与系统控制模块1604的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1602中的至少一个可与系统控制模块1604的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器1602中的至少一个可与系统控制模块1604的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1602中的至少一个可与系统控制模块1604的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统1600可以但不限于是:浏览器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统1600可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统1600包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
其中,如果显示器包括触摸面板,显示屏可以被实现为触屏显示器,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
在一个示例中提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如本申请实施例的方法。
在一个示例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如本申请实施例的一个或多个的方法。
本申请实施例公开了一种文本识别方法和装置,示例1包括一种文本识别方法,包括:
接收至少一个客户端针对文本样本提交的属性比较数据,所述属性比较数据为文本样本之间属性差异的描述信息;
对所述文本样本之间属性差异的描述信息进行数值化;
基于多个文本样本以及数值化的属性比较数据,创建识别文本属性值的第一识别数据集合;
将所述第一识别数据集合下发到客户端,以供所述客户端依据所述第一识别数据集合识别目标文本,获得文本属性值。
示例2包括一种文本监控方法,包括:
拦截用户在目标应用程序中上传、下载或传输的目标文本;
依据第一识别数据集合识别目标文本,获得文本属性值,所述第一识别数据集合用于识别文本的文本属性值,所述第一识别数据集合基于多个文本样本以及对应标记的属性比较数据创建;
根据所述文本属性值判定所述目标文本属于所述文本属性下的风险分类;
对所述目标文本添加风险分类标签,并对所述目标文本进行风险处理或风险提示。
示例3包括示例2所述的方法,其中,所述第一识别数据集合的生成方法包括:
采用文本样本之间的属性比较数据对文本样本进行标记;
基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合。
示例4包括一种文本识别方法,包括:
采用文本样本之间的属性比较数据对文本样本进行标记;
基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合;所述第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,以及第一判定条件;
在第一业务场景下,采用第一识别数据集合识别文本的文本属性值,并结合所述第一判定条件判定文本的文本属性分类;
接收针对第二业务场景下识别文本属性分类的第二判定条件,将所述第一识别数据集合修正为适用于第二业务场景的第三识别数据集合;
在第二业务场景下,采用第三识别数据集合识别文本的文本属性值,并结合所述第二判定条件判定文本的文本属性分类。
示例5包括一种文本识别方法,其中,包括:
采用文本样本之间的属性比较数据对文本样本进行标记,所述属性比较数据表征文本样本之间文本属性值的比较结果;
根据文本样本在多个文本维度下的维度特征生成所述文本样本的文本向量;
基于多个文本样本的文本向量和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本向量识别文本属性值的第一识别函数;
依据用于识别文本属性分类的第二识别函数识别所述目标文本;确定所述目标文本归属于非风险分类;
依据所述第一识别函数识别目标文本,获得文本属性值。
示例6包括一种文本识别方法,包括:
采用文本样本之间的属性比较数据对文本样本进行标记;
基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合;
依据所述第一识别数据集合识别目标文本,获得文本属性值。
示例7可包括示例6所述的方法,其中,针对所述文本样本标记的属性比较数据包括:所述文本样本相比于至少一个其他文本样本的属性比较数据。
示例8可包括示例6和/或示例7所述的方法,其中,在所述创建识别文本属性值的第一识别数据集合之前,所述方法还包括:
为所述文本样本生成对应的文本特征;
所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合包括:
基于多个文本样本以及对应标记的属性比较数据,创建基于文本特征识别文本属性值的第一识别数据集合。
示例9可包括示例6-示例8一个或多个所述的方法,其中,所述为所述文本样本生成对应的文本特征包括:
构建与预先收集的有序字符对应的多个文本维度;
确定所述文本样本在所述多个文本维度下的维度特征;
根据有序的多个维度特征生成所述文本样本的文本向量,并以所述文本向量作为所述文本特征。
示例10可包括示例6-示例9一个或多个所述的方法,其中,所述多个文本样本中部分文本样本具有标记的属性比较数据;
在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,所述方法还包括:
依据用于识别文本属性分类的第二识别数据集合识别所述文本样本,得到所述文本样本的文本属性分类;
从所述多个文本样本中,抽取归属于第一文本属性分类的文本样本作为所述部分文本样本。
示例11可包括示例6-示例10一个或多个所述的方法,其中,所述多个文本样本中部分文本样本具有标记的属性比较数据;
在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,所述方法还包括:
对所述多个文本样本划分至多个分类;
从各分类对应的文本样本中抽取至少一个文本样本作为所述部分文本样本。
示例12可包括示例6-示例11一个或多个所述的方法,其中,所述第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,所述文本属性值与文本特征在所述识别函数中成线性关系,所述属性比较数据表征文本样本之间文本属性值的大小;
所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合包括:
基于多个文本样本的文本特征和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本特征识别文本属性值的识别函数。
示例13可包括示例6-示例12一个或多个所述的方法,其中,所述属性比较数据为文本样本之间属性差异的描述信息,在所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合之前,所述方法还包括:
对所述文本样本之间属性差异的描述信息进行数值化。
示例14可包括示例6-示例13一个或多个所述的方法,其中,在所述依据所述第一识别数据集合识别目标文本,获得文本属性值之前,所述方法还包括:
依据用于识别文本属性分类的第二识别数据集合识别所述目标文本;确定所述目标文本归属于第一文本属性分类。
示例15可包括示例6-示例14一个或多个所述的方法,其中,所述方法还包括:
若确定所述目标文本归属于第二文本属性分类,则对所述目标文本添加对应第二文本属性分类的文本属性值。
示例16可包括示例6-示例5一个或多个所述的方法,其中,所述方法还包括:
判定所述文本属性值满足设定范围,则对所述目标文本添加归属于第一文本属性分类的分类标签。
示例17可包括示例6-示例16一个或多个所述的方法,其中,在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,所述方法还包括:
从至少一个数据处理平台获取针对文本样本的评价数据,并以所述评价数据对应生成文本样本之间的属性比较数据。
示例18包括一种数据对象识别方法,包括:
采用数据对象样本之间的属性比较数据,对数据对象样本进行标记;
基于多个数据对象样本以及对应标记的属性比较数据,创建识别数据对象属性值的第一识别数据集合;
依据所述第一识别数据集合识别目标数据对象,获得数据对象属性值。
示例19包括一种数据处理方法,包括:
获取样本数据的属性比较数据,其中,所述属性比较数据包括所述样本数据之间属性差异的描述信息;
获取所述属性比较数据对应的线性数据;
利用所述线性数据,创建用于识别属性值的识别数据集合,其中,所述识别数据集合包括至少一个识别模型。
示例20可包括示例19所述的数据处理方法,其中:所述创建识别数据集合包括:
获取样本特征值与所述属性比较数据之间的第一函数;
获取所述属性比较数据与属性值之间的第二函数;
生成所述样本特征值与所述属性值的第三函数。
示例21可包括示例19或20所述的数据处理方法,其中,所述样本数据包括文本样本数据。
示例22可包括示例19-21所述的一种或多种数据处理方法,其中,所述样本数据包括图像样本数据。
示例23可包括示例19-22所述的一种或多种数据处理方法,其中,所述样本数据包括音视频样本数据。
示例24可包括示例19-23所述的一种或多种数据处理方法,其中,所述属性比较数据包括所述样本数据之间属性差异的描述信息,所述对所述属性比较数据进行数值化,获取所述属性比较数据对应的线性数据包括:
查找所述描述信息包括的关键信息;
以所述关键信息对应的预设数据作为所述属性比较数据对应的线性数据。
示例25可包括示例19-24所述的一种或多种数据处理方法,其中,所述识别数据集合包括根据基于特征数据识别对象属性值的识别函数,所述对象属性值与对象特征在所述识别函数中成线性关系,所述属性比较数据表征样本数据之间属性值的大小;
所述利用所述线性数据创建识别属性值的识别数据集合包括:
基于多个样本数据的特征数据和对应标记的属性比较数据,以及属性比较数据与属性值之间的表征关系,确定基于特征数据识别属性值的识别函数。
示例26可包括示例19-25所述的一种或多种数据处理方法,其中,所述获取样本数据的属性比较数据包括:
接收客户端针对样本数据提交的属性比较数据;
在所述利用所述线性数据,创建用于识别属性值的识别数据集合之后,所述方法还包括:
将所述识别数据集合下发到客户端。
示例27、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-26一个或多个的方法。
示例28、一个计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-26一个或多个的方法。
虽然某些实施例是以说明和描述为目的的,各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现,不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此,显然本文描述的实施例仅由权利要求和它们的等同物来限定。

Claims (28)

1.一种文本识别方法,其特征在于,包括:
接收至少一个客户端提交的文本样本的属性比较数据,所述属性比较数据为文本样本之间属性差异的描述信息;
对所述文本样本之间属性差异的描述信息进行数值化;
基于多个文本样本以及数值化的属性比较数据,创建识别文本属性值的第一识别数据集合;
将所述第一识别数据集合下发到客户端,以供所述客户端依据所述第一识别数据集合识别目标文本,获得文本属性值。
2.一种文本监控方法,其特征在于,包括:
拦截用户在目标应用程序中处理的目标文本;
依据第一识别数据集合识别目标文本,获得文本属性值,所述第一识别数据集合用于识别文本的文本属性值,所述第一识别数据集合基于多个文本样本以及对应标记的属性比较数据创建;
根据所述文本属性值判定所述目标文本属于所述文本属性下的风险分类;
对所述目标文本添加风险分类标签,并对所述目标文本进行风险处理或风险提示。
3.根据权利要求2所述的方法,其特征在于,所述第一识别数据集合的生成方法包括:
采用文本样本之间的属性比较数据对文本样本进行标记;
基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合。
4.一种文本识别方法,其特征在于,包括:
采用文本样本之间的属性比较数据对文本样本进行标记;
基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合;所述第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,以及第一判定条件;
在第一业务场景下,采用第一识别数据集合识别文本的文本属性值,并结合所述第一判定条件判定文本的文本属性分类;
接收针对第二业务场景下识别文本属性分类的第二判定条件,将所述第一识别数据集合修正为适用于第二业务场景的第三识别数据集合;
在第二业务场景下,采用第三识别数据集合识别文本的文本属性值,并结合所述第二判定条件判定文本的文本属性分类。
5.一种文本识别方法,其特征在于,包括:
采用文本样本之间的属性比较数据对文本样本进行标记,所述属性比较数据表征文本样本之间文本属性值的比较结果;
根据文本样本在多个文本维度下的维度特征生成所述文本样本的文本向量;
基于多个文本样本的文本向量和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本向量识别文本属性值的第一识别函数;
依据用于识别文本属性分类的第二识别函数识别所述目标文本;确定所述目标文本归属于非风险分类;
依据所述第一识别函数识别目标文本,获得文本属性值。
6.一种文本识别方法,其特征在于,包括:
采用文本样本之间的属性比较数据对文本样本进行标记;
基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合;
依据所述第一识别数据集合识别目标文本,获得文本属性值。
7.根据权利要求6所述的方法,其特征在于,针对所述文本样本标记的属性比较数据包括:所述文本样本相比于至少一个其他文本样本的属性比较数据。
8.根据权利要求6所述的方法,其特征在于,在所述创建识别文本属性值的第一识别数据集合之前,所述方法还包括:
为所述文本样本生成对应的文本特征;
所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合包括:
基于多个文本样本以及对应标记的属性比较数据,创建基于文本特征识别文本属性值的第一识别数据集合。
9.根据权利要求8所述的方法,其特征在于,所述为所述文本样本生成对应的文本特征包括:
构建与预先收集的有序字符对应的多个文本维度;
确定所述文本样本在所述多个文本维度下的维度特征;
根据有序的多个维度特征生成所述文本样本的文本向量,并以所述文本向量作为所述文本特征。
10.根据权利要求6所述的方法,其特征在于,所述多个文本样本中部分文本样本具有标记的属性比较数据;
在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,所述方法还包括:
依据用于识别文本属性分类的第二识别数据集合识别所述文本样本,得到所述文本样本的文本属性分类;
从所述多个文本样本中,抽取归属于第一文本属性分类的文本样本作为所述部分文本样本。
11.根据权利要求6或10所述的方法,其特征在于,所述多个文本样本中部分文本样本具有标记的属性比较数据;
在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,所述方法还包括:
对所述多个文本样本划分至多个分类;
从各分类对应的文本样本中抽取至少一个文本样本作为所述部分文本样本。
12.根据权利要求6所述的方法,其特征在于,所述第一识别数据集合包括根据基于文本特征识别文本属性值的识别函数,所述文本属性值与文本特征在所述识别函数中成线性关系,所述属性比较数据表征文本样本之间文本属性值的大小;
所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合包括:
基于多个文本样本的文本特征和对应标记的属性比较数据,以及属性比较数据与文本属性值之间的表征关系,确定基于文本特征识别文本属性值的识别函数。
13.根据权利要求6或12所述的方法,其特征在于,所述属性比较数据为文本样本之间属性差异的描述信息,在所述基于多个文本样本以及对应标记的属性比较数据,创建识别文本属性值的第一识别数据集合之前,所述方法还包括:
对所述文本样本之间属性差异的描述信息进行数值化。
14.根据权利要求6所述的方法,其特征在于,在所述依据所述第一识别数据集合识别目标文本,获得文本属性值之前,所述方法还包括:
依据用于识别文本属性分类的第二识别数据集合识别所述目标文本;确定所述目标文本归属于第一文本属性分类。
15.根据权利要求14所述的方法,其特征在于,所述方法还包括:
若确定所述目标文本归属于第二文本属性分类,则对所述目标文本添加对应第二文本属性分类的文本属性值。
16.根据权利要求6所述的方法,其特征在于,所述方法还包括:
判定所述文本属性值满足设定范围,则对所述目标文本添加归属于第一文本属性分类的分类标签。
17.根据权利要求6所述的方法,其特征在于,在所述采用文本样本之间的属性比较数据对文本样本进行标记之前,所述方法还包括:
从至少一个数据处理平台获取针对文本样本的评价数据,并以所述评价数据对应生成文本样本之间的属性比较数据。
18.一种数据对象识别方法,包括:
采用数据对象样本之间的属性比较数据,对数据对象样本进行标记;
基于多个数据对象样本以及对应标记的属性比较数据,创建识别数据对象属性值的第一识别数据集合;
依据所述第一识别数据集合识别目标数据对象,获得数据对象属性值。
19.一种数据处理方法,其特征在于,包括:
获取样本数据的属性比较数据,其中,所述属性比较数据包括所述样本数据之间属性差异的描述信息;
获取所述属性比较数据对应的线性数据;
利用所述线性数据,创建用于识别属性值的识别数据集合,其中,所述识别数据集合包括至少一个识别模型。
20.根据权利要求19所述的数据处理方法,其特征在于:所述创建识别数据集合包括:
获取样本特征值与所述属性比较数据之间的第一函数;
获取所述属性比较数据与属性值之间的第二函数;
生成所述样本特征值与所述属性值的第三函数。
21.根据权利要求19所述的数据处理方法,其特征在于,其中,所述样本数据包括文本样本数据。
22.根据权利要求19所述的数据处理方法,其特征在于,其中,所述样本数据包括图像样本数据。
23.根据权利要求19所述的数据处理方法,其特征在于,其中,所述样本数据包括音视频样本数据。
24.根据权利要求19所述的数据处理方法,其特征在于,所述对所述属性比较数据进行数值化,获取所述属性比较数据对应的线性数据包括:
查找所述描述信息对应的预设数据;
以所述预设数据作为所述属性比较数据对应的线性数据。
25.根据权利要求19所述的数据处理方法,其特征在于:
所述识别数据集合包括根据基于特征数据识别对象属性值的识别函数;
所述对象属性值与对象特征在所述识别函数中成线性关系;
所述利用所述线性数据创建识别属性值的识别数据集合包括:
基于多个样本数据的特征数据和对应标记的属性比较数据,以及属性比较数据与属性值之间的表征关系,确定基于特征数据识别属性值的识别函数。
26.根据权利要求19所述的数据处理方法,其特征在于,所述获取样本数据的属性比较数据包括:
接收客户端针对样本数据提交的属性比较数据;
在所述利用所述线性数据,创建用于识别属性值的识别数据集合之后,所述方法还包括:
将所述识别数据集合下发到客户端。
27.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-26一个或多个的方法。
28.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-26一个或多个的方法。
CN201710927247.1A 2017-10-09 2017-10-09 文本识别、文本监控、数据对象识别、数据处理方法 Active CN110019790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710927247.1A CN110019790B (zh) 2017-10-09 2017-10-09 文本识别、文本监控、数据对象识别、数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710927247.1A CN110019790B (zh) 2017-10-09 2017-10-09 文本识别、文本监控、数据对象识别、数据处理方法

Publications (2)

Publication Number Publication Date
CN110019790A true CN110019790A (zh) 2019-07-16
CN110019790B CN110019790B (zh) 2023-08-22

Family

ID=67186414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710927247.1A Active CN110019790B (zh) 2017-10-09 2017-10-09 文本识别、文本监控、数据对象识别、数据处理方法

Country Status (1)

Country Link
CN (1) CN110019790B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516066A (zh) * 2019-07-23 2019-11-29 同盾控股有限公司 一种文本内容安全防护方法和装置
CN110598157A (zh) * 2019-09-20 2019-12-20 北京字节跳动网络技术有限公司 目标信息识别方法、装置、设备及存储介质
CN111414496A (zh) * 2020-03-27 2020-07-14 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
CN112069311A (zh) * 2020-08-04 2020-12-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质
CN112580674A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种图片识别方法、计算机设备、存储介质
CN112733521A (zh) * 2021-01-16 2021-04-30 江苏网进科技股份有限公司 一种用于确认法律案件相似关系的方法
CN113282928A (zh) * 2021-06-11 2021-08-20 杭州安恒信息技术股份有限公司 恶意文件的处理方法、装置、系统、电子装置和存储介质
CN111177373B (zh) * 2019-12-12 2023-07-14 北京明略软件系统有限公司 一种获取训练数据的方法和装置、模型训练方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107192B1 (en) * 1999-03-31 2006-09-12 International Business Machines Corporation Method for computing models based on attributes selected by entropy
CN102033965A (zh) * 2011-01-17 2011-04-27 安徽海汇金融投资集团有限公司 一种基于分类模型的数据分类方法及系统
CN103262118A (zh) * 2010-12-08 2013-08-21 Nec软件有限公司 属性值估计装置、属性值估计方法、程序和记录介质
CN103606097A (zh) * 2013-11-21 2014-02-26 复旦大学 一种基于可信度评价的产品信息推荐方法及系统
CN106021622A (zh) * 2016-07-18 2016-10-12 周云 一种基于大数据的信息定量分析系统
US20160321426A1 (en) * 2015-04-28 2016-11-03 International Business Machines Corporation Generating predictive models based on text analysis of medical study data
CN106529110A (zh) * 2015-09-09 2017-03-22 阿里巴巴集团控股有限公司 一种用户数据分类的方法和设备
CN106776868A (zh) * 2016-11-29 2017-05-31 浙江工业大学 一种基于多元线性回归模型的餐馆评分预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107192B1 (en) * 1999-03-31 2006-09-12 International Business Machines Corporation Method for computing models based on attributes selected by entropy
CN103262118A (zh) * 2010-12-08 2013-08-21 Nec软件有限公司 属性值估计装置、属性值估计方法、程序和记录介质
CN102033965A (zh) * 2011-01-17 2011-04-27 安徽海汇金融投资集团有限公司 一种基于分类模型的数据分类方法及系统
CN103606097A (zh) * 2013-11-21 2014-02-26 复旦大学 一种基于可信度评价的产品信息推荐方法及系统
US20160321426A1 (en) * 2015-04-28 2016-11-03 International Business Machines Corporation Generating predictive models based on text analysis of medical study data
CN106529110A (zh) * 2015-09-09 2017-03-22 阿里巴巴集团控股有限公司 一种用户数据分类的方法和设备
CN106021622A (zh) * 2016-07-18 2016-10-12 周云 一种基于大数据的信息定量分析系统
CN106776868A (zh) * 2016-11-29 2017-05-31 浙江工业大学 一种基于多元线性回归模型的餐馆评分预测方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516066A (zh) * 2019-07-23 2019-11-29 同盾控股有限公司 一种文本内容安全防护方法和装置
CN110598157A (zh) * 2019-09-20 2019-12-20 北京字节跳动网络技术有限公司 目标信息识别方法、装置、设备及存储介质
CN110598157B (zh) * 2019-09-20 2023-01-03 北京字节跳动网络技术有限公司 目标信息识别方法、装置、设备及存储介质
CN112580674A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种图片识别方法、计算机设备、存储介质
CN111177373B (zh) * 2019-12-12 2023-07-14 北京明略软件系统有限公司 一种获取训练数据的方法和装置、模型训练方法和装置
CN111414496A (zh) * 2020-03-27 2020-07-14 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
CN111414496B (zh) * 2020-03-27 2023-04-07 腾讯科技(深圳)有限公司 基于人工智能的多媒体文件的检测方法和装置
CN112069311A (zh) * 2020-08-04 2020-12-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质
CN112069311B (zh) * 2020-08-04 2024-06-11 北京声智科技有限公司 一种文本提取方法、装置、设备及介质
CN112733521A (zh) * 2021-01-16 2021-04-30 江苏网进科技股份有限公司 一种用于确认法律案件相似关系的方法
CN112733521B (zh) * 2021-01-16 2023-07-04 江苏网进科技股份有限公司 一种用于确认法律案件相似关系的方法
CN113282928A (zh) * 2021-06-11 2021-08-20 杭州安恒信息技术股份有限公司 恶意文件的处理方法、装置、系统、电子装置和存储介质

Also Published As

Publication number Publication date
CN110019790B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN110019790A (zh) 文本识别、文本监控、数据对象识别、数据处理方法
US20230013306A1 (en) Sensitive Data Classification
CN105210064B (zh) 使用深度网络将资源分类
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
US11074412B1 (en) Machine learning classification system
CN103365997B (zh) 一种基于集成学习的观点挖掘方法
CN107436875A (zh) 文本分类方法及装置
CN106611052A (zh) 文本标签的确定方法及装置
WO2021073390A1 (zh) 数据筛选方法、装置、设备及计算机可读存储介质
US20210390644A1 (en) Intellectual property recommending method and system
US11030532B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable storage medium
US11586838B2 (en) End-to-end fuzzy entity matching
US20230336532A1 (en) Privacy Preserving Document Analysis
CN111382248A (zh) 一种问题回复方法、装置、存储介质及终端设备
CN109948730A (zh) 一种数据分类方法、装置、电子设备及存储介质
CN107169061A (zh) 一种融合双信息源的文本多标签分类方法
CN110276382A (zh) 基于谱聚类的人群分类方法、装置及介质
US20180189298A1 (en) Random Index Pattern Matching Based Email Relations Finder System
CN113505273B (zh) 基于重复数据筛选的数据排序方法、装置、设备及介质
CN112269875B (zh) 文本分类方法、装置、电子设备及存储介质
US11403339B2 (en) Techniques for identifying color profiles for textual queries
CN111339396A (zh) 提取网页内容的方法、装置和计算机存储介质
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质
La et al. Transfer learning with reasonable boosting strategy
CN113641823B (zh) 文本分类模型训练、文本分类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant