CN114461806A - 广告识别模型的训练方法及装置、广告屏蔽方法 - Google Patents

广告识别模型的训练方法及装置、广告屏蔽方法 Download PDF

Info

Publication number
CN114461806A
CN114461806A CN202210187421.4A CN202210187421A CN114461806A CN 114461806 A CN114461806 A CN 114461806A CN 202210187421 A CN202210187421 A CN 202210187421A CN 114461806 A CN114461806 A CN 114461806A
Authority
CN
China
Prior art keywords
character
text data
font
advertisement
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210187421.4A
Other languages
English (en)
Inventor
戚舒梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongdun Technology Co ltd
Original Assignee
Tongdun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongdun Technology Co ltd filed Critical Tongdun Technology Co ltd
Priority to CN202210187421.4A priority Critical patent/CN114461806A/zh
Publication of CN114461806A publication Critical patent/CN114461806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本公开是关于一种广告识别模型的训练方法及装置、广告屏蔽方法,涉及机器学习技术领域,该方法包括:对原始文本数据进行数据预处理,得到标准文本数据,并计算标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征;对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,并根据所述句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别;根据第一预测类别以及所述原始文本数据所具有的真实标签类别构建目标损失函数,并利用目标损失函数对待训练的字符识别模型中包括的参数进行调整,得到广告识别模型。本公开提高了广告识别模型的精确度。

Description

广告识别模型的训练方法及装置、广告屏蔽方法
技术领域
本公开实施例涉及机器学习技术领域,具体而言,涉及一种广告识别模型的训练方法、广告识别模型的训练装置、广告屏蔽方法、计算机可读存储介质以及电子设备。
背景技术
随着直播行业的崛起,在直播过程中产生的各类弹幕以及评论充斥直播网络;同时,由于弹幕内容以及评论内容参差不齐,因此直播领域的文本安全防控需求与日俱增。因此,通过机器学习模型对弹幕内容以及评论内容的风险进行识别,对直播行业内容安全生态存在重大意义。
但是,当采用机器学习模型对弹幕内容以及评论内容对应的文本进行识别,由于文本可能不属于规范表达(例如采用同音字、拼音或者变形字等等),容易导致机器学习模型无法正确的对文本进行分类或者识别,导致机器学习模型的精确度较低。
因此,需要提供一种新的广告识别模型的训练方法及装置。
需要说明的是,在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种广告识别模型的训练方法、广告识别模型的训练装置、广告屏蔽方法、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的机器学习模型的精确度较低的问题。
根据本公开的一个方面,提供一种广告识别模型的训练方法,包括:
对原始文本数据进行数据预处理,得到标准文本数据,并计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征;
对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,并根据所述句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别;
根据第一预测类别以及所述原始文本数据所具有的真实标签类别构建目标损失函数,并利用目标损失函数对待训练的字符识别模型中包括的参数进行调整,得到广告识别模型。
在本公开的一种示例性实施例中,对原始文本数据进行数据预处理,得到标准文本数据,包括:
将所述原始文本数据中包括的具有第一符号格式的待转换符号转换为具有第二符号格式的标准符号;和/或
将所述原始文本数据中包括的具有第一文字格式的待转换文字转换为具有第二文字格式的标准文字;和/或
将所述原始文本数据中包括的具有第一字母形式的待转换字母转换为具有第二字符格式的标准字母;和/或
对所述原始文本数据中包括的具有诱导语义的图像进行文字替换,并对原始文本数据中包括的不具有语义的符号以及无效字符进行过滤;和/或
基于预设的变异词表对所述原始文本数据中包括的变异词组进行替换,得到标准词组,并根据所述标准符号和/或标准文字和/或标准字母和/或标准词组,生成所述标准文本数据。
在本公开的一种示例性实施例中,所述预设的变异词表是通过如下方式构建的:
基于预设的变异词转换规则,对预设的标准词库中包括的原始词组进行转换,得到各原始词组的变异词组;其中,所述预设的变异词转换规则包括音标转换规则、音近转换规则、形近转换规则以及同义转换规则中的一种或多种;
建立各所述原始词组以及变异词组之间的映射关系,并基于所述原始词组、变异词组以及映射关系,建立所述变异词表。
在本公开的一种示例性实施例中,计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征,包括:
对所述标准文本数据中包括的每一个字符进行字嵌入处理,得到各所述字符的第一字符特征;
对各所述字符所具有的拼音进行转换,得到该字符的拼音序列,并对所述拼音序列进行卷积以及池化处理,得到该字符的第一拼音特征;
将各所述字符所具有的当前字体转换为预设字体,并对该字符的预设字体所具有的字符图像进行向量化,得到该字符的第一字形特征。
在本公开的一种示例性实施例中,所述预设字体包括第一预设字体、第二预设字体以及第三预设字体;
其中,将各所述字符所具有的当前字体转换为预设字体,并对该字符的预设字体所具有的字符图像进行向量化,得到该字符的第一字形特征,包括:
将各所述字符所具有的当前字体转换为第一预设字体、第二预设字体以及第三预设字体;
对所述第一预设字体所具有的第一字符图像、第二预设字体所具有的第二字符图像以及第三预设字体所具有的第三字符图像进行拼接,得到拼接字符图像;
对所述拼接字符图像进行全连接处理,得到该字符的第一字形特征。
在本公开的一种示例性实施例中,对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,包括:
对所述标准文本数据中包括的每一个字符的第一字符特征、第一拼音特征以及第一字形特征进行融合,得到各所述字符的子融合特征;
对各所述子融合特征进行全连接处理,得到各所述字符的子融合嵌入,并对各所述字符的子融合嵌入进行组合,得到所述标准文本数据的句子融合向量。
根据本公开的一个方面,提供一种广告屏蔽方法,包括:
获取待识别文本数据,并对所述待识别文本数据进行预处理,得到目标文本数据;
将所述目标文本数据输入至广告识别模型中,得到所述待识别文本数据的预测结果;其中,所述广告识别模型是通过上述任意一示例实施例所述的广告识别模型的训练方法对待训练的字符识别模型进行训练得到的;
根据所述预测结果判断所述待识别文本数据是否属于广告数据,并在确定所述待识别文本数据属于广告数据时,对所述待识别文本数据进行屏蔽。
根据本公开的一个方面,提供一种广告识别模型的训练装置,包括:
第一计算模块,用于对原始文本数据进行数据预处理,得到标准文本数据,并计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征;
第一特征拼接模块,用于对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,并根据所述句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别;
模型训练模块,用于根据第一预测类别以及所述原始文本数据所具有的真实标签类别构建目标损失函数,并利用目标损失函数对待训练的字符识别模型中包括的参数进行调整,得到广告识别模型。
在本公开的一种示例性实施例中,对原始文本数据进行数据预处理,得到标准文本数据,包括:
将所述原始文本数据中包括的具有第一符号格式的待转换符号转换为具有第二符号格式的标准符号;和/或
将所述原始文本数据中包括的具有第一文字格式的待转换文字转换为具有第二文字格式的标准文字;和/或
将所述原始文本数据中包括的具有第一字母形式的待转换字母转换为具有第二字符格式的标准字母;和/或
对所述原始文本数据中包括的具有诱导语义的图像进行文字替换,并对原始文本数据中包括的不具有语义的符号以及无效字符进行过滤;和/或
基于预设的变异词表对所述原始文本数据中包括的变异词组进行替换,得到标准词组,并根据所述标准符号和/或标准文字和/或标准字母和/或标准词组,生成所述标准文本数据。
在本公开的一种示例性实施例中,所述预设的变异词表是通过如下方式建立的:
词组转换模块,可以用于基于预设的变异词转换规则,对预设的标准词库中包括的原始词组进行转换,得到各原始词组的变异词组;其中,所述预设的变异词转换规则包括音标转换规则、音近转换规则、形近转换规则以及同义转换规则中的一种或多种;
变异词表建立模块,可以用于建立各所述原始词组以及变异词组之间的映射关系,并基于所述原始词组、变异词组以及映射关系,建立所述变异词表。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一示例实施例所述的广告识别模型的训练方法,以及上述任意一示例实施例所述的广告屏蔽方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一示例实施例所述的广告识别模型的训练方法,以及上述任意一示例实施例所述的广告屏蔽方法。
本公开实施例提供的一种广告识别模型的训练方法,一方面,由于在对待训练的字符识别模型进行训练的过程中,考虑到了文本数据的字符特征、拼音特征以及字形特征,进而可以解决现有技术中由于文本可能不属于规范表达,容易导致机器学习模型无法正确的对文本进行分类或者识别,导致机器学习模型的精确度较低的问题,提高了广告识别模型的精确度;另一方面,通过在标准文本数据的第一字符特征的基础上,增加该标准文本数据的第一拼音特征以及第一字形特征,进而增强了待训练的字符识别模型对标准文本数据的中文语料表征能力,进而进一步的提高了广告识别模型的精确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出根据本公开示例实施例的一种广告识别模型的训练方法的流程图。
图2示意性示出根据本公开示例实施例的一种待训练的字符识别模型的结构示例图。
图3示意性示出根据本公开示例实施例的一种变异词表的构建方法的流程图。
图4示意性示出根据本公开示例实施例的一种计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征的方法流程图。
图5示意性示出根据本公开示例实施例的一种基于TextCNN的类别预测模型的示意图。
图6示意性示出根据本公开示例实施例的一种广告屏蔽方法的流程图。
图7示意性示出根据本公开示例实施例的一种广告屏蔽方法的应用场景示例图。
图8示意性示出根据本公开示例实施例的另一种广告识别模型的训练方法的流程图。
图9示意性示出根据本公开示例实施例的一种对原始文本数据进行预处理的场景示例图。
图10示意性示出根据本公开示例实施例的一种广告识别模型的训练装置的框图。
图11示意性示出根据本公开示例实施例的一种广告屏蔽装置的框图。
图12示意性示出根据本公开示例实施例的一种用于实现上述广告识别模型的训练方法以及广告屏蔽方法的电子设备。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
文本广告检测技术,是当前在内容安全领域最为常见的风险防控技术之一,其是指通过对文本进行分析处理以识别文本是否为广告或者带有广告信息。
广告由于往往充斥着商业利益,为黑灰产重点投入生成的风险。直播行业的弹幕内容实时产生,开放评论内容多而杂乱,不断变化的网络用语、特殊符号、表情等给传统通用的文本模型带来极大的挑战。同时,黑灰产变异快,通过一些符号变异、形近字替换、音近字替换、跳词乱序等手段,可以轻松绕过关键词和规则引擎;在模型迭代存在周期性的情况下,线上难以保持稳定的防控能力。
另外,通用文本模型基于字词,忽略了中文字形和拼音带有的语义信息;汉字起源为意音文字,其字形本身蕴含了一部分语义。比如,“江河湖泊”都有偏旁三点水,这表明它们都与水有关;同时,拼音也能区别词义,比如,“乐”字有两个读音:yuè与lè,前者表示“音乐”,是一个名词;后者表示“高兴”,是一个形容词;然而,对于一个多音字,单单输入一个“乐”,模型是无法得知它应该是代表“音乐”还是“快乐”,这时候就需要额外的读音信息进行去偏;并且,在直播领域的常见变异即为字形和拼音变异,例如联系方式的变异:扣扣→抠抠、加微信→伽维心等等。
基于此,本示例实施方式中首先提供了一种广告识别模型的训练方法,该方法可以运行于服务器、服务器集群或云服务器等;当然,本领域技术人员也可以根据需求在其他平台运行本公开的方法,本示例性实施例中对此不做特殊限定。参考图1所示,该广告识别模型的训练方法可以包括以下步骤:
步骤S110.对原始文本数据进行数据预处理,得到标准文本数据,并计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征;
步骤S120.对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,并根据所述句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别;
步骤S130.根据第一预测类别以及所述原始文本数据所具有的真实标签类别构建目标损失函数,并利用目标损失函数对待训练的字符识别模型中包括的参数进行调整,得到广告识别模型。
上述广告识别模型的训练方法中,一方面,由于在对待训练的字符识别模型进行训练的过程中,考虑到了文本数据的字符特征、拼音特征以及字形特征,进而可以解决现有技术中由于文本可能不属于规范表达,容易导致机器学习模型无法正确的对文本进行分类或者识别,导致机器学习模型的精确度较低的问题,提高了广告识别模型的精确度;另一方面,通过在标准文本数据的第一字符特征的基础上,增加该标准文本数据的第一拼音特征以及第一字形特征,进而增强了待训练的字符识别模型对标准文本数据的中文语料表征能力,进而进一步的提高了广告识别模型的精确度。
以下,将结合附图对本公开示例实施例广告识别模型的训练方法进行详细的解释以及说明。
首先,对本公开示例实施例的发明目的以及应用场景进行举例说明。具体的,本公开示例实施例所提供的广告识别模型的训练方法,通过结合基础的文本预处理技术,针对直播弹幕场景下大量充斥的变异广告文本,能够训练得到性能较优的检测模型,准确识别广告风险,而且在黑产变异迅速的情况下,模型也能检测和覆盖到新的广告变异风险,具备较强的泛化能力。同时,本公开示例实施例所提供的广告识别模型的训练方法,可以用于解决直播场景下黑灰产持续产出变异文本,绕过关键词、规则引擎和AI模型防控机制的问题。在文本识别任务中,本公开示例实施例通过利用通用模型可以快速预处理基础变异,提取文本字词层面的语义信息,对字形变异、音近变异的场景,通过深度学习网络提取字形特征和拼音特征,综合地建立汉字、字形、读音与上下文之间的联系,加强模型表征,进一步提升模型泛化能力,覆盖线上新出现的变异风险,加强风险对抗能力。
其次,对本公开示例实施例所涉及到的待训练的字符识别模型进行解释以及说明。具体的,参考图2所示,该待训练的字符识别模型可以包括输入层201、字嵌入层202、拼音转换层203、第一卷积池化层204、字符图像转换层205、字符图像拼接层206、第一全连接层207、拼接融合层208、第二全连接层209、softmax层210以及输出层211;其中,输入层分别与字嵌入层、拼音转换层以及字符图像转换层连接;拼音转换层与第一卷积池化层连接,字符图像转换层、字符图像拼接层以及第一全连接层依次连接,字嵌入层、第一卷积池化层以及第一全连接层分别与拼接融合层连接,拼接融合层、第二全连接层、softmax层以及输出层依次连接。
具体的,字嵌入层用于对标准文本数据中包括的每一个字符进行字嵌入处理,得到各所述字符的第一字符特征;拼音转换成用于对各字符所具有的拼音进行转换,得到该字符的拼音序列,第一卷积池化层用于对拼音序列进行卷积以及池化处理,得到该字符的第一拼音特征;字符图像转换层用于将各字符所具有的当前字体转换为第一预设字体、第二预设字体以及第三预设字体;字符图像拼接层用于对第一预设字体所具有的第一字符图像、第二预设字体所具有的第二字符图像以及第三预设字体所具有的第三字符图像进行拼接,得到拼接字符图像;第一全连接层用于对拼接字符图像进行全连接处理,得到该字符的第一字形特征;拼接融合层用于对标准文本数据中包括的每一个字符的第一字符特征、第一拼音特征以及第一字形特征进行融合,得到各所述字符的子融合特征;第二全连接层用于对各子融合特征进行全连接处理,得到各字符的子融合嵌入,并对各字符的子融合嵌入进行组合,得到标准文本数据的句子融合向量,最后通过softmax层映射至对应的类别并经由输出层输出,得到第一预测类别。
进一步的,在本公开提供的一种广告识别模型的训练方法中:
在步骤S110中,对原始文本数据进行数据预处理,得到标准文本数据,并计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征。
在本示例实施例中,首先,需要获取原始文本数据;其中,该原始文本数据可以来自于历史直播过程中的弹幕内容以及评论内容等等,该弹幕内容以及评论内容可以包括广告文本数据和非广告文本数据,每条文本有对应的标签,表示是否为广告;当然,可以来自于其他以弹窗形式出现的广告窗口,本示例对此不做特殊限制。其次,当获取到原始文本数据以后,即可对该原始文本数据进行预处理,进而得到标准文本数据。其中,原始文本数据预处理的过程可以通过如下方式实现:将所述原始文本数据中包括的具有第一符号格式的待转换符号转换为具有第二符号格式的标准符号;和/或将所述原始文本数据中包括的具有第一文字格式的待转换文字转换为具有第二文字格式的标准文字;和/或将所述原始文本数据中包括的具有第一字母形式的待转换字母转换为具有第二字符格式的标准字母;和/或对所述原始文本数据中包括的具有诱导语义的图像进行文字替换,并对原始文本数据中包括的不具有语义的符号以及无效字符进行过滤;和/或基于预设的变异词表对所述原始文本数据中包括的变异词组进行替换,得到标准词组,并根据所述标准符号和/或标准文字和/或标准字母和/或标准词组,生成所述标准文本数据。
举例来说,本公开示例实施例所记载的预处理,可以通过深入分析直播过程中产生的原始文本数据,进而对原始文本数据中包括的变异文本进行清洗,进而得到标准文本数据。其中,清洗过程可以包括:全角转半角、繁体转简体、大小写处理、特殊符号处理、表情处理、夹杂噪声处理和常见诱导词的变异强化。
例如,首先,将原始文本数据中包括的具有第一符号格式的待转换符号转换为具有第二符号格式的标准符号,是指对特殊符号进行处理,在具体的处理过程中,对没有语义的中文数字英文标点之外的符号,这部分直接做去除处理,减少语义噪声;
其次,将原始文本数据中包括的具有第一文字格式的待转换文字转换为具有第二文字格式的标准文字,以及将具有第一字母形式的待转换字母转换为具有第二字符格式的标准字母,是指采用全角转半角、繁体转简体、大小写处理等处理方式对需要转换的文字或者字母进行转换其目的是为了使得标准文本数据中包括文字以及字母可以具有统一的格式,使得不同格式的字在处理后可以映射到相同的字索引,减少语义偏差;
进一步的,对所述原始文本数据中包括的具有诱导语义的图像进行文字替换,并对原始文本数据中包括的不具有语义的符号以及无效字符进行过滤,以及,基于预设的变异词表对所述原始文本数据中包括的变异词组进行替换,得到标准词组,可以通过如下方式实现:首先,表情处理分为两块,针对有诱导语义的表情,保留并替换为中文;例如,“+微
Figure BDA0003524175520000111
”可以替换为“+微心”;对于另一部分无语义的符号以及表情,可以直接做去除处理;其次,夹杂噪声和诱导词的变异主要出现在商业广告、联系方式引流场景,黑灰产常是通过不断变化敏感词,以绕过关键词和规则引擎;其中,夹杂噪声变异指在电话号码、QQ号、微信号等联系方式诱导字段上添加噪声以企图绕过关键词和规则引擎,例如qq75689%&*284;夹杂噪声处理将连续数字、字母和数字字母组合之间的无效字符去除,得到完整的字符串;最后,诱导词变异处理首先需要收集常见的变异词表,例如威信、维信、伟信等都是微信的变异,整理对应的词表进行替换处理;最后,再根据得到的标准符号和/或标准文字和/或标准字母和/或标准词组,生成标准文本数据。
其中,图3示意性示出根据本公开示例实施例的一种变异词表的构建方法的流程图。具体的,参考图3所示,该变异词表的生成过程可以包括以下步骤:
步骤S310,基于预设的变异词转换规则,对预设的标准词库中包括的原始词组进行转换,得到各原始词组的变异词组;其中,所述预设的变异词转换规则包括音标转换规则、音近转换规则、形近转换规则以及同义转换规则中的一种或多种;
步骤S320,建立各所述原始词组以及变异词组之间的映射关系,并基于所述原始词组、变异词组以及映射关系,建立所述变异词表。
以下,将对步骤S310以及步骤S320进行解释以及说明。首先,上述音标转换规则可以用于将词中的至少一个字,转换为所述字对应的音标。作为本申请的一种可选的实施方式,在词为中文的情况下,所述音标可以为用英文字母表示的汉语拼音,或者,用拉丁字母表示的国际音标。例如,词“销量”可以转换为“xiao量”,或者“销liang”,或者“xiaoliang”。在词为英语的情况下,所述音标可以为用拉丁字母表示的国际音标。在词为日语的情况下,所述音标可以为用英文字母表示的罗马音。其次,上述音近转换规则可以用于将词中的至少一个字,转换为与所述字在发音上相近的至少一个其他字。作为本申请的一种示例,词“豆腐”可以转换为“豆付”,词“好笑”可以转换为“好啸”,词“知道”可以转换为“造”,词“发明”可以转换为“farming”,词“you”可以转换为“U”;然后,上述形近转换规则可以用于将词中的至少一个字,转换为与所述字在形状上相近的至少一个其他字。作为本申请的一种示例,词“贷款”可以转换为“貸歀”,词“吃饭”可以转换为“口乞饭”,词“人人”可以转换为“从”;进一步的,上述同义转换规则可以用于将词中的至少一个字,转换为与所述字在语义上相近的至少一个其他字。例如,词“颜色”可以转换为“color”,词“中文”可以转换为“汉语”,词“地铁”可以转换为“捷运”;更进一步的,在所述词为中文的情况下,所述同义转换规则还可以用于对词中的至少一个字进行繁体字与简体字之间的相互转换。例如,词“昼夜”可以转换为“晝夜”,词“书画”可以转换为“書畫”。
进一步的,当得到标准文本数据以后,即可计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征。具体的,参考图4所示,可以包括以下步骤:
步骤S410,对所述标准文本数据中包括的每一个字符进行字嵌入处理,得到各所述字符的第一字符特征;
步骤S420,对各所述字符所具有的拼音进行转换,得到该字符的拼音序列,并对所述拼音序列进行卷积以及池化处理,得到该字符的第一拼音特征;
步骤S430,将各所述字符所具有的当前字体转换为预设字体,并对该字符的预设字体所具有的字符图像进行向量化,得到该字符的第一字形特征;其中,所述预设字体包括第一预设字体、第二预设字体以及第三预设字体。
具体的,将各所述字符所具有的当前字体转换为预设字体,并对该字符的预设字体所具有的字符图像进行向量化,得到该字符的第一字形特征,可以通过如下方式实现:首先,将各所述字符所具有的当前字体转换为第一预设字体、第二预设字体以及第三预设字体;其次,对所述第一预设字体所具有的第一字符图像、第二预设字体所具有的第二字符图像以及第三预设字体所具有的第三字符图像进行拼接,得到拼接字符图像;然后,对所述拼接字符图像进行全连接处理,得到该字符的第一字形特征。
以下,将对步骤S410-步骤S430进行解释以及说明。首先,提取文本的第一字符特征,即文字,可以通过embedding(字嵌入层)实现,也可以通过其他的方式实现,本示例对此不做特殊限制;其次是第一字形特征,第一字形特征可以使用不同字体的汉字图像得到,具体可以包括仿宋、行楷和隶书等等,也可以包括其他字体,本示例对此不做特殊限制;同时,在第一字形特征生成的过程中,可以将每个字的字形的每个图像大小设置为24*24(像素值范围0~255),然后再将各字体的图像进行向量化,拼接后送入全连接网络层,就得到了字的字形嵌入(第一字形特征),该第一字形特征的维度为24*24*3;最后,是提取第一拼音特征;在第一拼音特征的提取过程中,可以采用开源Python包pypinyin将每个汉字的拼音转化为罗马化字的字符序列,包含音调;例如汉字“猫”,其拼音字符序列为“mao1”;在获取汉字的拼音序列后,再对该序列使用宽度为2的CNN做卷积和最大池化,得到最终的拼音序列特征(第一拼音特征)。
此处需要补充说明的是,在生成第一字形特征的过程中,可以根据实际需要选取对应数量的不同字体;本示例实施例中选取三种不同的字体所生成的第一字形特征,既可以避免由于字体选取过少导致的精确度不够的问题,还可以避免由于字体选取过多导致的计算量过大进而使得模型的训练速度较低的问题。
在步骤S120中,对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,并根据所述句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别。
在本示例实施例中,首先,对第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量。具体的,可以通过如下方式实现:首先,对所述标准文本数据中包括的每一个字符的第一字符特征、第一拼音特征以及第一字形特征进行融合,得到各所述字符的子融合特征;其次,对各所述子融合特征进行全连接处理,得到各所述字符的子融合嵌入,并对各所述字符的子融合嵌入进行组合,得到所述标准文本数据的句子融合向量。也即,在具体的融合过程中,可以将汉字的字嵌入(第一字符特征)、字形嵌入(第一字形特征)与拼音特征(第一拼音特征)拼接融合在一起,然后经过一个全连接网络层,就得到了标准文本数据中包括的每一个汉字对应的融合嵌入;然后,再将文本中包括的每一个汉字的融合嵌入组合在一起,就得到了该标准文本数据的句子融合向量。
其次,当得到句子融合向量以后,即可根据句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别。其中,当待训练的字符识别模型为TextCNN时,其具体的预测过程可以如图5所示;当然,该待训练的字符识别模型也可以为Bi-LSTM模型,本示例对此不做特殊限制。
具体的,参考图5示出的一种基于TextCNN的类别预测模型的示意图,可以将标准文本数据501分别经由多个不同的通道502,并采用多个尺寸不同的卷积核503对进行处理,得到第一字符特征、第一拼音特征以及第一字形特征,最终经过拼接以及映射,得到最终的第一预测类别504。
在步骤S130中,根据第一预测类别以及所述原始文本数据所具有的真实标签类别构建目标损失函数,并利用目标损失函数对待训练的字符识别模型中包括的参数进行调整,得到广告识别模型。
具体的,当得到第一预测类别504以后,即可构建目标损失函数并进行模型训练,进而得到具体的广告识别模型。其中,在目标损失函数的构建过程中,可以通过最小化分类损失函数实现,在具体的训练过程中不断优化这部分损失函数,使得网络能够只检测文本是否归属为广告。
本公开示例实施例还提供了一种广告屏蔽方法,该方法可以运行于服务器、服务器集群或云服务器等;当然,本领域技术人员也可以根据需求在其他平台运行本公开的方法,本示例性实施例中对此不做特殊限定。参考图6所示,该广告屏蔽方法可以包括以下步骤:
步骤S610,获取待识别文本数据,并对所述待识别文本数据进行预处理,得到目标文本数据;
步骤S620,将所述目标文本数据输入至广告识别模型中,得到所述待识别文本数据的预测结果;其中,所述广告识别模型是通过上述任意一所述的广告识别模型的训练方法对待训练的字符识别模型进行训练得到的;
步骤S630,根据所述预测结果判断所述待识别文本数据是否属于广告数据,并在确定所述待识别文本数据属于广告数据时,对所述待识别文本数据进行屏蔽。
以下,将对步骤S610-步骤S630进行解释以及说明。具体的,参考图7所示,服务器710可以获取第一用户和/或第二用户在直播过程中通过第一终端设备720和/或第二终端设备730发送的待识别文本数据;其中,该第一终端设备以及第二终端设备例如可以是手机或者平板电脑等等;然后对该待识别文本数据进行预处理,得到目标文本数据;其中,数据预处理的过程与前述所述的预处理过程一致,此处不再赘述;然后,再将该目标文本数据输入至广告识别模型得到对应的预测结果;如果预测结果为该待识别文本数据属于广告类别的概率大于预设概率阈值,则对其进行屏蔽,也即,如果该待识别数据的发送方为第一终端设备,则不再除开第一终端设备以外的其他终端设备上显示;如果该待识别文本数据属于广告类别的概率小于等于预设概率阈值,则对其进行正常显示。
在图6所示出的广告屏蔽方法中,一方面,由于在广告识别模型在训练的过程中,考虑到了文本数据的字符特征、拼音特征以及字形特征,进而可以解决现有技术中由于文本可能不属于规范表达,容易导致机器学习模型无法正确的对文本进行分类或者识别,导致机器学习模型的精确度较低的问题,提高了广告识别模型的精确度,进而提高了广告识别的精确度;另一方面,在确定待识别文本数据为广告数据时,可以直接对其进行屏蔽,进而可以提高用户体验。
以下,结合具体的示例实施例以及图8对本公开示例实施例的广告识别模型的训练方法进行进一步的解释以及说明。具体的假定现在有一个直播平台存在弹幕内容广告识别的需求,积累了10万条真实文本,其中广告文本数量50000,非广告文本数量50000,已经标注好对应的标签。语料中存在漏杀变异文本,其中一条漏杀文本示例为【g新號蹴送200充壹千宋壹千拉进裙+Q扣756&*%^...506...*080】,其原文为【新号就送200充一千送一千拉进群+qq756506080】。参考图8所示,该广告识别模型的训练方法可以包括以下步骤:
步骤S801,利用文本预处理清洗文本:分别进行全角转半角、繁体转简体、大小写转换、特殊符号处理、表情处理、夹杂噪声处理和常见诱导词的变异强化,预处理后的文本为【新号就送200充一千送一千拉进群+qq756506080】;其中,预处理后的文本具体可以参考图9所示;
步骤S802,提取字、拼音、字形特征:首先将文本按字转为索引,组合起来为文本的字向量;其次获取拼音特征,先使用pypinying将文本转为拼音序列【g xin hao jiu song200chong yi qian song yi qian la jin qun+qq 756506080】,具体可以参考图9所示;再将各个拼音转为索引,得到文本的拼音向量;然后获取字形特征,将文本逐字转为仿宋、行楷和隶书的图形向量,三者拼接得到字形特征,按字拼接得到文本的字形向量;
步骤S803:融合特征:将上述得到的字、字形、拼音向量拼接起来,得到融合的文本向量。
步骤S804:模型训练:利用预处理后的文本和标签进行模型训练,得到广告识别模型。模型输入为一个批次的文本向量,输出为一个批次的识别标签。
本公开示例实施例所提供的广告识别模型的训练方法,一方面,该方法的预处理模块覆盖直播领域绝大多数的变异类型,清洗后的样本可以作为模型高质量样本输入;另一方面,该方法基于通用的文本分类结构,在文本基础字词特征上,引入字形和拼音的特征,增强了模型对中文语料的表征能力;再一方面,该方法基于直播弹幕场景中变异类型,通过特有的预处理,拼音和字形嵌入建模,使得模型能够应对黑灰产的快速变异,适用广告防控高召回应用场景;进一步的,该方法使用的文本预处理、字形与拼音特征提取没有引入复杂的网络,在训练时间和开发成本可控的情况下,带来巨大的防控增益。
本公开还公开了一种广告识别模型的训练装置。参考图10所示,该广告识别模型的训练装置可以包括第一计算模块1010、第一特征拼接模块1020以及模型训练模块1030。其中:
第一计算模块1010,可以用于对原始文本数据进行数据预处理,得到标准文本数据,并计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征;
第一特征拼接模块1020,可以用于对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,并根据所述句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别;
模型训练模块1030,可以用于根据第一预测类别以及所述原始文本数据所具有的真实标签类别构建目标损失函数,并利用目标损失函数对待训练的字符识别模型中包括的参数进行调整,得到广告识别模型。
上述广告识别模型的训练装置中,一方面,由于在对待训练的字符识别模型进行训练的过程中,考虑到了文本数据的字符特征、拼音特征以及字形特征,进而可以解决现有技术中由于文本可能不属于规范表达,容易导致机器学习模型无法正确的对文本进行分类或者识别,导致机器学习模型的精确度较低的问题,提高了广告识别模型的精确度;另一方面,通过在标准文本数据的第一字符特征的基础上,增加该标准文本数据的第一拼音特征以及第一字形特征,进而增强了待训练的字符识别模型对标准文本数据的中文语料表征能力,进而进一步的提高了广告识别模型的精确度。
在本公开的一种示例性实施例中,对原始文本数据进行数据预处理,得到标准文本数据,包括:
将所述原始文本数据中包括的具有第一符号格式的待转换符号转换为具有第二符号格式的标准符号;和/或
将所述原始文本数据中包括的具有第一文字格式的待转换文字转换为具有第二文字格式的标准文字;和/或
将所述原始文本数据中包括的具有第一字母形式的待转换字母转换为具有第二字符格式的标准字母;和/或
对所述原始文本数据中包括的具有诱导语义的图像进行文字替换,并对原始文本数据中包括的不具有语义的符号以及无效字符进行过滤;和/或
基于预设的变异词表对所述原始文本数据中包括的变异词组进行替换,得到标准词组,并根据所述标准符号和/或标准文字和/或标准字母和/或标准词组,生成所述标准文本数据。
在本公开的一种示例性实施例中,所述预设的变异词表是通过如下方式建立的:
词组转换模块,可以用于基于预设的变异词转换规则,对预设的标准词库中包括的原始词组进行转换,得到各原始词组的变异词组;其中,所述预设的变异词转换规则包括音标转换规则、音近转换规则、形近转换规则以及同义转换规则中的一种或多种;
变异词表建立模块,可以用于建立各所述原始词组以及变异词组之间的映射关系,并基于所述原始词组、变异词组以及映射关系,建立所述变异词表。
在本公开的一种示例性实施例中,计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征,包括:
对所述标准文本数据中包括的每一个字符进行字嵌入处理,得到各所述字符的第一字符特征;
对各所述字符所具有的拼音进行转换,得到该字符的拼音序列,并对所述拼音序列进行卷积以及池化处理,得到该字符的第一拼音特征;
将各所述字符所具有的当前字体转换为预设字体,并对该字符的预设字体所具有的字符图像进行向量化,得到该字符的第一字形特征。
在本公开的一种示例性实施例中,所述预设字体包括第一预设字体、第二预设字体以及第三预设字体;
其中,将各所述字符所具有的当前字体转换为预设字体,并对该字符的预设字体所具有的字符图像进行向量化,得到该字符的第一字形特征,包括:
将各所述字符所具有的当前字体转换为第一预设字体、第二预设字体以及第三预设字体;
对所述第一预设字体所具有的第一字符图像、第二预设字体所具有的第二字符图像以及第三预设字体所具有的第三字符图像进行拼接,得到拼接字符图像;
对所述拼接字符图像进行全连接处理,得到该字符的第一字形特征。
在本公开的一种示例性实施例中,对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,包括:
对所述标准文本数据中包括的每一个字符的第一字符特征、第一拼音特征以及第一字形特征进行融合,得到各所述字符的子融合特征;
对各所述子融合特征进行全连接处理,得到各所述字符的子融合嵌入,并对各所述字符的子融合嵌入进行组合,得到所述标准文本数据的句子融合向量。
本公开还提供了一种广告屏蔽装置。参考图11所示,该广告屏蔽装置可以包括数据预处理模块1110、预测结果生成模块1120以及广告屏蔽模块1130。其中:
数据预处理模块1110,可以用于获取待识别文本数据,并对所述待识别文本数据进行预处理,得到目标文本数据;
预测结果生成模块1120,可以用于将所述目标文本数据输入至广告识别模型中,得到所述待识别文本数据的预测结果;其中,所述广告识别模型是通过上述任意一示例实施例所述的广告识别模型的训练方法对待训练的字符识别模型进行训练得到的;
广告屏蔽模块1130,可以用于根据所述预测结果判断所述待识别文本数据是否属于广告数据,并在确定所述待识别文本数据属于广告数据时,对所述待识别文本数据进行屏蔽。
本公开示例实施例提供的广告屏蔽装置,一方面,由于在广告识别模型在训练的过程中,考虑到了文本数据的字符特征、拼音特征以及字形特征,进而可以解决现有技术中由于文本可能不属于规范表达,容易导致机器学习模型无法正确的对文本进行分类或者识别,导致机器学习模型的精确度较低的问题,提高了广告识别模型的精确度,进而提高了广告识别的精确度;另一方面,在确定待识别文本数据为广告数据时,可以直接对其进行屏蔽,进而可以提高用户体验。
上述广告识别模型的训练装置以及广告屏蔽装置中各模块的具体细节已经在对应的广告识别模型的训练方法以及广告屏蔽方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图12来描述根据本公开的这种实施方式的电子设备1200。图12显示的电子设备1200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于:上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230以及显示单元1240。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1210执行,使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1210可以执行如图1中所示的步骤S110:对原始文本数据进行数据预处理,得到标准文本数据,并计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征;步骤S120:对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,并根据所述句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别;步骤S130:根据第一预测类别以及所述原始文本数据所具有的真实标签类别构建目标损失函数,并利用目标损失函数对待训练的字符识别模型中包括的参数进行调整,得到广告识别模型。
又例如,所述处理单元1210可以执行如图6中所示的步骤S610:获取待识别文本数据,并对所述待识别文本数据进行预处理,得到目标文本数据;步骤S620:将所述目标文本数据输入至广告识别模型中,得到所述待识别文本数据的预测结果;其中,所述广告识别模型是通过上述任意一示例实施例所述的广告识别模型的训练方法对待训练的字符识别模型进行训练得到的;步骤S630:根据所述预测结果判断所述待识别文本数据是否属于广告数据,并在确定所述待识别文本数据属于广告数据时,对所述待识别文本数据进行屏蔽。
存储单元1220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)12201和/或高速缓存存储单元12202,还可以进一步包括只读存储单元(ROM)12203。
存储单元1220还可以包括具有一组(至少一个)程序模块12205的程序/实用工具12204,这样的程序模块12205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1200也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1200交互的设备通信,和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且,电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
根据本公开的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种广告识别模型的训练方法,其特征在于,包括:
对原始文本数据进行数据预处理,得到标准文本数据,并计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征;
对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,并根据所述句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别;
根据第一预测类别以及所述原始文本数据所具有的真实标签类别构建目标损失函数,并利用目标损失函数对待训练的字符识别模型中包括的参数进行调整,得到广告识别模型。
2.根据权利要求1所述的广告识别模型的训练方法,其特征在于,对原始文本数据进行数据预处理,得到标准文本数据,包括:
将所述原始文本数据中包括的具有第一符号格式的待转换符号转换为具有第二符号格式的标准符号;和/或
将所述原始文本数据中包括的具有第一文字格式的待转换文字转换为具有第二文字格式的标准文字;和/或
将所述原始文本数据中包括的具有第一字母形式的待转换字母转换为具有第二字符格式的标准字母;和/或
对所述原始文本数据中包括的具有诱导语义的图像进行文字替换,并对原始文本数据中包括的不具有语义的符号以及无效字符进行过滤;和/或
基于预设的变异词表对所述原始文本数据中包括的变异词组进行替换,得到标准词组,并根据所述标准符号和/或标准文字和/或标准字母和/或标准词组,生成所述标准文本数据。
3.根据权利要求2所述的广告识别模型的训练方法,其特征在于,所述变异词表是通过如下方式构建的:
基于预设的变异词转换规则,对预设的标准词库中包括的原始词组进行转换,得到各原始词组的变异词组;其中,所述预设的变异词转换规则包括音标转换规则、音近转换规则、形近转换规则以及同义转换规则中的一种或多种;
建立各所述原始词组以及变异词组之间的映射关系,并基于所述原始词组、变异词组以及映射关系,建立所述变异词表。
4.根据权利要求1所述的广告识别模型的训练方法,其特征在于,计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征,包括:
对所述标准文本数据中包括的每一个字符进行字嵌入处理,得到各所述字符的第一字符特征;
对各所述字符所具有的拼音进行转换,得到该字符的拼音序列,并对所述拼音序列进行卷积以及池化处理,得到该字符的第一拼音特征;
将各所述字符所具有的当前字体转换为预设字体,并对该字符的预设字体所具有的字符图像进行向量化,得到该字符的第一字形特征。
5.根据权利要求4所述的广告识别模型的训练方法,其特征在于,所述预设字体包括第一预设字体、第二预设字体以及第三预设字体;
其中,将各所述字符所具有的当前字体转换为预设字体,并对该字符的预设字体所具有的字符图像进行向量化,得到该字符的第一字形特征,包括:
将各所述字符所具有的当前字体转换为第一预设字体、第二预设字体以及第三预设字体;
对所述第一预设字体所具有的第一字符图像、第二预设字体所具有的第二字符图像以及第三预设字体所具有的第三字符图像进行拼接,得到拼接字符图像;
对所述拼接字符图像进行全连接处理,得到该字符的第一字形特征。
6.根据权利要求1所述的广告识别模型的训练方法,其特征在于,对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,包括:
对所述标准文本数据中包括的每一个字符的第一字符特征、第一拼音特征以及第一字形特征进行融合,得到各所述字符的子融合特征;
对各所述子融合特征进行全连接处理,得到各所述字符的子融合嵌入,并对各所述字符的子融合嵌入进行组合,得到所述标准文本数据的句子融合向量。
7.一种广告屏蔽方法,其特征在于,包括:
获取待识别文本数据,并对所述待识别文本数据进行预处理,得到目标文本数据;
将所述目标文本数据输入至广告识别模型中,得到所述待识别文本数据的预测结果;其中,所述广告识别模型是通过权利要求1-6任一项所述的广告识别模型的训练方法对待训练的字符识别模型进行训练得到的;
根据所述预测结果判断所述待识别文本数据是否属于广告数据,并在确定所述待识别文本数据属于广告数据时,对所述待识别文本数据进行屏蔽。
8.一种广告识别模型的训练装置,其特征在于,包括:
第一计算模块,用于对原始文本数据进行数据预处理,得到标准文本数据,并计算所述标准文本数据中包括的所有字符的第一字符特征、各字符所具有的第一拼音特征以及各字符所具有的第一字形特征;
第一特征拼接模块,用于对所述第一字符特征、第一拼音特征以及第一字形特征进行拼接,得到句子融合向量,并根据所述句子融合向量对所述原始文本数据所属的类别进行映射,得到第一预测类别;
模型训练模块,用于根据第一预测类别以及所述原始文本数据所具有的真实标签类别构建目标损失函数,并利用目标损失函数对待训练的字符识别模型中包括的参数进行调整,得到广告识别模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的广告识别模型的训练方法,以及权利要求7所述的广告屏蔽方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任一项所述的广告识别模型的训练方法,以及权利要求7所述的广告屏蔽方法。
CN202210187421.4A 2022-02-28 2022-02-28 广告识别模型的训练方法及装置、广告屏蔽方法 Pending CN114461806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210187421.4A CN114461806A (zh) 2022-02-28 2022-02-28 广告识别模型的训练方法及装置、广告屏蔽方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210187421.4A CN114461806A (zh) 2022-02-28 2022-02-28 广告识别模型的训练方法及装置、广告屏蔽方法

Publications (1)

Publication Number Publication Date
CN114461806A true CN114461806A (zh) 2022-05-10

Family

ID=81415884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210187421.4A Pending CN114461806A (zh) 2022-02-28 2022-02-28 广告识别模型的训练方法及装置、广告屏蔽方法

Country Status (1)

Country Link
CN (1) CN114461806A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821566A (zh) * 2022-05-13 2022-07-29 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和存储介质
CN116524394A (zh) * 2023-03-30 2023-08-01 北京百度网讯科技有限公司 视频检测方法、装置、设备以及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161983A1 (en) * 2013-12-06 2015-06-11 Fathy Yassa Method and apparatus for an exemplary automatic speech recognition system
CN109408824A (zh) * 2018-11-05 2019-03-01 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109670041A (zh) * 2018-11-29 2019-04-23 天格科技(杭州)有限公司 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN109857868A (zh) * 2019-01-25 2019-06-07 北京奇艺世纪科技有限公司 模型生成方法、文本分类方法、装置及计算机可读存储介质
CN112084337A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法及设备
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
CN113761883A (zh) * 2021-05-17 2021-12-07 腾讯科技(深圳)有限公司 一种文本信息识别方法、装置、电子设备及存储介质
US11216620B1 (en) * 2020-07-17 2022-01-04 Alipay (Hangzhou) Information Technology Co., Ltd. Methods and apparatuses for training service model and determining text classification category
CN113946661A (zh) * 2021-12-21 2022-01-18 南京云问网络技术有限公司 一种融合字形的多视角情感分析方法
CN113988061A (zh) * 2021-10-22 2022-01-28 平安国际智慧城市科技股份有限公司 基于深度学习的敏感词检测方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161983A1 (en) * 2013-12-06 2015-06-11 Fathy Yassa Method and apparatus for an exemplary automatic speech recognition system
CN109408824A (zh) * 2018-11-05 2019-03-01 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109670041A (zh) * 2018-11-29 2019-04-23 天格科技(杭州)有限公司 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN109857868A (zh) * 2019-01-25 2019-06-07 北京奇艺世纪科技有限公司 模型生成方法、文本分类方法、装置及计算机可读存储介质
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN113590812A (zh) * 2020-04-30 2021-11-02 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备
US11216620B1 (en) * 2020-07-17 2022-01-04 Alipay (Hangzhou) Information Technology Co., Ltd. Methods and apparatuses for training service model and determining text classification category
CN112084337A (zh) * 2020-09-17 2020-12-15 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法及设备
CN113761883A (zh) * 2021-05-17 2021-12-07 腾讯科技(深圳)有限公司 一种文本信息识别方法、装置、电子设备及存储介质
CN113988061A (zh) * 2021-10-22 2022-01-28 平安国际智慧城市科技股份有限公司 基于深度学习的敏感词检测方法、装置、设备及存储介质
CN113946661A (zh) * 2021-12-21 2022-01-18 南京云问网络技术有限公司 一种融合字形的多视角情感分析方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821566A (zh) * 2022-05-13 2022-07-29 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和存储介质
CN116524394A (zh) * 2023-03-30 2023-08-01 北京百度网讯科技有限公司 视频检测方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
US12056458B2 (en) Translation method and apparatus based on multimodal machine learning, device, and storage medium
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
KR102542914B1 (ko) 다중언어 번역 장치 및 다중언어 번역 방법
Arshad et al. Aiding intra-text representations with visual context for multimodal named entity recognition
Sommerschield et al. Machine learning for ancient languages: A survey
CN107729313A (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN1742273A (zh) 多模态语音-语音语言翻译和显示
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN114461806A (zh) 广告识别模型的训练方法及装置、广告屏蔽方法
CN110147549A (zh) 用于执行文本纠错的方法和系统
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
KR102193228B1 (ko) 딥러닝 기반 비재무정보 평가 장치 및 그 방법
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN111414561A (zh) 用于呈现信息的方法和装置
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
Siddique et al. Deep learning-based bangla sign language detection with an edge device
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CA3140455A1 (en) Information extraction method, apparatus, and system
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN112784573A (zh) 文本情感内容分析方法、装置、设备及存储介质
CN117436438A (zh) 情感分析方法、大语言模型的训练方法及装置
CN113918710A (zh) 文本数据处理方法、装置、电子设备和可读存储介质
CN111666405B (zh) 用于识别文本蕴含关系的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination