CN113761930A - 广告文本检测方法和装置 - Google Patents

广告文本检测方法和装置 Download PDF

Info

Publication number
CN113761930A
CN113761930A CN202010604391.3A CN202010604391A CN113761930A CN 113761930 A CN113761930 A CN 113761930A CN 202010604391 A CN202010604391 A CN 202010604391A CN 113761930 A CN113761930 A CN 113761930A
Authority
CN
China
Prior art keywords
advertisement text
feature information
semantic feature
semantic
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010604391.3A
Other languages
English (en)
Inventor
李银锋
黄明星
赖晨东
周彬
李晓敏
郭聪
姜磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010604391.3A priority Critical patent/CN113761930A/zh
Publication of CN113761930A publication Critical patent/CN113761930A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种广告文本检测方法和装置,该方法包括:接收来自终端设备的广告文本;基于该广告文本,获取该广告文本的原始语义信息;基于该原始语义信息,获取该广告文本的语义特征信息;根据该语义特征信息,确定该检测结果,该检测结果用于指示该广告文本未包含异常词语或包含异常词语;向该终端设备发送该检测结果。本申请实施例无需人为检测,广告文本检测效率高且准确率高。

Description

广告文本检测方法和装置
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种广告文本检测方法和装置。
背景技术
近些年,互联网的快速发展极大的方便了人们的生活,比如用户可以通过互联网购买物品。而通过互联网销售的物品一般附带有广告文本,有些广告文本中包括不符合相关规定的异常词语,异常词语比如可为‘不含甲醛’、‘零利润’等,这些包含异常词语的广告对用户购买物品时具有一定的误导性,因此,对广告文本进行检测,以确定广告文本中是否包含异常词语具有重要的意义。
目前对广告文本进行检测的方法为对广告进行人工检测。在实现本申请过程中,发明人发现现有技术中至少存在如下问题:对广告文本进行检测的方法的效率不高。
发明内容
本申请实施例提供一种广告文本检测方法和装置,用以解决广告文本检测效率不高的技术问题。
第一方面,本申请实施例提供一种广告文本检测方法,包括:接收来自终端设备的广告文本;基于所述广告文本,获取所述广告文本的原始语义信息;基于所述原始语义信息,获取所述广告文本的语义特征信息;根据所述语义特征信息,确定所述检测结果,所述检测结果用于指示所述广告文本未包含异常词语或包含异常词语;向所述终端设备发送所述检测结果。
本方案中,服务器接收来自终端设备的广告文本,提取广告文本的原始语义信息,以得到广告文本的语义特征信息,根据广告文本的语义特征信息确定广告文本的检测结果,检测结果用于指示广告文本未包含异常词语或包含异常词语;服务器将广告文本的检测结果发送至终端设备,以使终端设备显示广告文本的检测结果,用户可根据终端设备显示的检测结果获知广告文本是否包含异常词语,无需人为检测,提高了广告文本的检测效率。同时本方案中通过提取广告文本的语义特征信息,获取广告文本的检测结果,检测准确度高。
在一种可能的实施方式中,所述基于所述原始语义信息,获取所述广告文本的语义特征信息,包括:执行第一操作,所述第一操作包括:基于第i信息,提取所述广告文本的第i初始语义特征信息,融合所述第i信息和第i初始语义特征信息,以得到第i中间语义特征信息;初始时,i=1,第1信息为所述原始语义信息;执行第二操作,所述第二操作包括:将i加1,以及将所述第i中间语义特征信息作为第i+1信息;重复所述第一操作和所述第二操作,直至得到第M中间语义特征信息;M为大于或等于1的整数;基于所述第M中间语义特征信息,得到所述广告文本的语义特征信息。
本方案给出了基于所述原始语义信息,获取所述广告文本的语义特征信息的具体实现。在M=1时,基于所述原始语义信息,获取所述广告文本的语义特征信息的效率较高。在M大于1时,基于所述原始语义信息,提取的所述广告文本的语义特征信息的准确率较高。
在一种可能的实施方式中,所述第i信息包括第一矩阵,所述第i初始语义特征信息包括至少一个第二矩阵,所述融合所述第i信息和第i初始语义特征信息,以得到第i中间语义特征信息,包括:将所述第一矩阵和所述至少一个第二矩阵相加或拼接,得到第三矩阵;激活所述第三矩阵,得到第i中间矩阵,所述第i中间语义特征信息包括所述第i中间矩阵。
本方案中,将第一矩阵和至少一个第二矩阵相加,可以降低第i中间矩阵分量的数目,从而降低计算复杂度,节省服务器的内存资源和计算资源。将第一矩阵和至少一个第二矩阵拼接,可以提高获取第i中间语义特征信息的效率。
在一种可能的实施方式中,所述基于所述第M中间语义特征信息,得到所述广告文本的语义特征信息,包括:将所述第M中间语义特征信息作为所述广告文本的语义特征信息。本方案获取广告文本的语义特征信息的效率高。
在一种可能的实施方式中,所述基于所述第M中间语义特征信息,得到所述广告文本的语义特征信息,包括:根据M个中间语义特征信息和所述M个中间语义特征信息各自的权重,得到所述广告文本的语义特征信息。本方案获取的广告文本的语义特征信息的准确度高。
在一种可能的实施方式中,所述根据所述语义特征信息,确定所述广告文本的检测结果,包括:根据所述语义特征信息,获取所述广告文本的语义标签,所述语义标签用于指示所述广告文本包含异常词语和/或未包含异常词语的概率;根据所述语义标签,确定所述广告文本的检测结果。本方案给出了根据所述语义特征信息,获取所述广告文本的检测结果的具体实现。
在一种可能的实施方式中,根据所述语义特征信息,获取所述广告文本的语义标签,包括:对所述语义特征信息进行处理;所述处理包括池化处理;根据所述语义特征信息的处理结果,获取所述广告文本的语义标签。本方案可以降低获取所述广告文本的语义标签的计算复杂度。
在一种可能的实施方式中,所述池化处理为平均池化处理。本方案中,平均池化处理可以降低广告文本的一些语义信息的丢失,提高了广告文本的检测结果的准确度。
在一种可能的实施方式中,所述检测结果是基于神经网络模型得到的,所述神经网络模型包括M个第一子神经网络模型和N个第二子神经网络模型,M和N均为正整数,所述基于所述原始语义信息,获取所述广告文本的语义特征信息,根据所述语义特征信息,确定所述检测结果,包括:基于所述广告文本的原始语义信息,采用所述第一类子神经网络模型,获取所述广告文本的语义特征信息;基于所述广告文本的语义特征信息,采用第二类子神经网络模型,确定所述检测结果。本方案给出了得到所述广告文本的检测结果的具体实现。
在一种可能的实施方式中,所述第一类子神经网络模型对应的神经网络为双向循环神经网络RNN或者双向长短时记忆循环神经网络BLSTM;所述第二类子神经网络模型对应的神经网络为卷积神经网络CNN。本方案得到所述广告文本的检测结果的准确度高。
第二方面,本申请实施例提供一种广告文本检测装置,包括:收发模块,用于接收来自终端设备的广告文本;处理模块,用于基于所述广告文本,获取所述广告文本的原始语义信息;所述处理模块,还用于基于所述原始语义信息获取所述广告文本的语义特征信息;所述处理模块,还用于根据所述语义特征信息,确定所述检测结果,所述检测结果用于指示所述广告文本未包含异常词语或包含异常词语;所述收发模块,还用于向所述终端设备发送所述检测结果。
在一种可能的实施方式中,所述处理模块具体用于:获取所述广告文本的原始语义信息,所述原始语义信息是基于所述广告文本被分词后的词语得到的;基于所述原始语义信息,获取所述广告文本的语义特征信息;根据所述语义特征信息,确定所述检测结果。
在一种可能的实施方式中,所述处理模块具体用于:执行第一操作,所述第一操作包括:基于第i信息,提取所述广告文本的第i初始语义特征信息,融合所述第i信息和第i初始语义特征信息,以得到第i中间语义特征信息;初始时,i=1,第1信息为所述原始语义信息;执行第二操作,所述第二操作包括:将i加1,以及将所述第i中间语义特征信息作为第i+1信息;重复所述第一操作和所述第二操作,直至得到第M中间语义特征信息;M为大于或等于1的整数;基于所述第M中间语义特征信息,得到所述广告文本的语义特征信息。
在一种可能的实施方式中,所述第i信息包括第一矩阵,所述第i初始语义特征信息包括至少一个第二矩阵,所述融合所述第i信息和第i初始语义特征信息,以得到第i中间语义特征信息,包括:将所述第一矩阵和所述至少一个第二矩阵相加或拼接,得到第三矩阵;激活所述第三矩阵,得到第i中间矩阵,所述第i中间语义特征信息包括所述第i中间矩阵。
在一种可能的实施方式中,所述基于所述第M中间语义特征信息,得到所述广告文本的语义特征信息,包括:将所述第M中间语义特征信息作为所述广告文本的语义特征信息。
在一种可能的实施方式中,所述基于所述第M中间语义特征信息,得到所述广告文本的语义特征信息,包括:根据M个中间语义特征信息和所述M个中间语义特征信息各自的权重,得到所述广告文本的语义特征信息。
在一种可能的实施方式中,所述根据所述语义特征信息,确定所述广告文本的检测结果,包括:根据所述语义特征信息,获取所述广告文本的语义标签,所述语义标签用于指示所述广告文本包含异常词语和/或未包含异常词语的概率;根据所述语义标签,确定所述广告文本的检测结果。
在一种可能的实施方式中,根据所述语义特征信息,获取所述广告文本的语义标签,包括:对所述语义特征信息进行处理;所述处理包括池化处理;根据所述语义特征信息的处理结果,获取所述广告文本的语义标签
在一种可能的实施方式中,所述池化处理为平均池化处理。
在一种可能的实施方式中,所述检测结果是基于神经网络模型得到的,所述神经网络模型包括M个第一子神经网络模型和N个第二子神经网络模型,M和N均为正整数,所述处理模块具体用于:基于所述广告文本的原始语义信息,采用所述第一类子神经网络模型,获取所述广告文本的语义特征信息;基于所述广告文本的语义特征信息,采用第二类子神经网络模型,确定所述检测结果。
在一种可能的实施方式中,所述第一类子神经网络模型对应的神经网络为双向循环神经网络RNN或者双向长短时记忆循环神经网络BLSTM;所述第二类子神经网络模型对应的神经网络为卷积神经网络CNN。
第三方面,本申请实施例提供一种电子设备,包括:存储器,处理器;存储器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:执行所述可执行指令,以实现第一方面以及第一方面任一种可能的实施方式中所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面以及第一方面任一种可能的实施方式中所述的方法。
本申请中,服务器接收来自终端设备的广告文本,提取广告文本的原始语义信息,以得到广告文本的语义特征信息,根据广告文本的语义特征信息确定广告文本的检测结果,检测结果用于指示广告文本未包含异常词语或包含异常词语;服务器将广告文本的检测结果发送至终端设备,以使终端设备显示广告文本的检测结果,用户可根据终端设备显示的检测结果获知广告文本是否包含异常词语,无需人为检测,提高了广告文本的检测效率。同时本方案中通过提取广告文本的语义特征信息,获取广告文本的检测结果,检测准确度高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的系统架构图;
图2为本申请实施例提供的广告文本检测方法的流程图一;
图3为本申请实施例提供的目标神经网络模型对应的神经网络的示意图;
图4为本申请实施例提供的广告文本检测方法的流程图二;
图5为本申请实施例提供的根据第i信息获取第i中间语义特征信息的过程示意图;
图6为本申请实施例提供的基于原始语义信息和目标神经网络模型得到广告文本的语义标签的过程示意图一;
图7为本申请实施例提供的基于原始语义信息和目标神经网络模型得到广告文本的语义标签的过程示意图二;
图8为本申请实施例提供的广告文本检测装置的结构示意图
图9为本申请实施例提供的一种电子设备的示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
互联网的快速发展极大的方便了人们的生活,比如用户可以通过互联网购买物品。而通过互联网销售的物品一般附带有广告文本,有些广告文本中包含异常词语,其中,异常词语是指违反与广告相关的法律法规的词语,比如“不含甲醛”、“零利润”等误导性词语均为异常词语。包含异常词语的广告对用户购买物品时具有一定的误导性,因此,对广告文本进行检测,以确定广告文本中是否包含异常词语具有重要的意义。目前对广告文本进行检测的方法为对广告进行人工检测。但是人工检测广告文本的效率不高。
为了提高广告文本的检测效率,发明人发现了可以采用机器实现的广告文本检测方法,提高了广告文本的检测效率。
图1为本申请实施例提供的系统架构图,参见图1,该系统架构包括服务器和终端设备。
终端设备接收用户输入的待检测的广告文本,将该广告文本发送至服务器。服务器接收到该广告文本后,对该广告文本进行检测,得到广告文本的检测结果,并将广告文本的检测结果发送至终端设备,终端设备显示广告文本的检测结果,检测结果用于指示广告文本未包含异常词语或包含异常词语。用户可根据终端设备显示的检测结果获知广告文本是否包含异常词语,无需人为检测,提高了广告文本的检测效率。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的广告文本检测方法的流程图一,参见图2,本实施例的方法,包括:
步骤S201、终端设备向服务器发送广告文本。
步骤S202、服务器检测广告文本,以得到广告文本的检测结果,检测结果用于指示广告文本未包含异常词语或包含异常词语。
一种方式中,服务器检测广告文本,以得到广告文本的检测结果包括:采用目标神经网络模型检测广告文本,以得到广告文本的检测结果。其中,采用目标神经网络模型检测广告文本,以得到广告文本的检测结果,可包括:基于广告文本,利用目标神经网络模型,得到广告文本的语义标签,广告文本的语义标签指示广告文本包含异常词语的概率和/或广告文本未包含异常词语的概率;根据该语义标签得到广告文本的检测结果。其中,该语义标签可为一个数值,还可为包括两个分量的向量。在该语义标签为包一个数值时,语义标签可指示广告文本包含异常词语的概率或者广告文本未包含异常词语的概率。在该语义标签为包括两个分量的向量时,第一个分量可指示广告文本包含异常词语的概率,第二个分量可指示广告文本未包含异常词语的概率。
其中,该目标神经网络模型依次包括M个第一子神经网络模型和N个第二子神经网络模型,M和N均为正整数。
第一子神经网络模型对应的神经网络可为但不限于如下的任一种方式:双向循环神经网络(bidirections recurrent neural networks,简称BRNN)、双向长短时记忆神经网络(bidirections long short term memory network,BLSTM)、循环神经网络(recurrent neural networks,简称RNN)、长短时记忆神经网络(Long Short Term MemoryNetwork,LSTM)。
第二子神经网络模型对应的神经网络可为但不限于卷积神经网络(convolutional neural networks,简称CNN)。可以理解的是,本申请实施例中的卷积神经网络可以不包括卷积层,比如包括池化层和全连接层。
示例性地,参见图3,该目标神经网络模型所对应的神经网络包括3个BLSTM,一个CNN,该CNN包括池化层和全连接层。
另一种方式中,服务器检测广告文本,以得到广告文本的检测结果包括:确定广告文本中是否包括预设异常词语集中的词语;若是,则得到广告文本包含异常词语的检测结果,若否,则得到广告文本未包含异常词语的检测结果。
步骤S203、服务器向终端设备发送该检测结果。
服务器得到广告文件的检测结果后,向终端设备发送该检测结果。
步骤S204、终端设备显示该检测结果。
本实施例中,终端设备接收用户输入的待检测的广告文本,将该广告文本发送至服务器。服务器接收到该广告文本后,对该广告文本进行检测,得到广告文本的检测结果,检测结果用于指示广告文本未包含异常词语或包含异常词语。服务器将广告文本的检测结果发送至终端设备,终端设备显示广告文本的检测结果,因此用户可根据终端设备显示的检测结果获知广告文本是否包含异常词语,无需人为检测,提高了广告文本的检测效率。
下面采用具体的实施例对图2所示的实施例中的“检测广告文本,以得到广告文本的检测结果”的一种实现方案进行详细说明。图4为本申请实施例提供的广告文本检测方法的流程图二,本实施例的执行主体为服务器。参见图4,本实施例的方法,包括:
步骤S401、服务器基于广告文本,获取广告文本的原始语义信息。
服务器基于广告文本,获取广告文本的原始语义信息包括但不限于如下的几种方案:
第一种方案中:服务器基于广告文本,获取广告文本的原始语义信息,包括如下的a1~a2:
a1、对广告文本进行分词,得到K个词语。
对广告文本进行分词包括:删除广告文本中的标点符号、特殊字符,得到预处理后的广告文本;根据分词工具和预设的词语集对预处理后的广告文本进行分词,以使广告文本中包括的第一词语不被分词,第一词语为该预设的词语集中的词语且第一词语还可以继续分成至少两个词。其中,分词工具可为结巴分词工具(jieba.load_userdict),预设的词语集中包括的词语比如可为“马上涨价”、“0利润”、“促进细胞代谢”等。
在广告文本分词的过程中,考虑了预设的词语集,可以避免一些明显异常的词语被分成多个词语后该多个词语被检测为异常词语的几率降低,从而提高了检测广告文本的准确性。比如“0利润”被分词后可能得到“0”和“利润”两个词,该两个词被检测异常词语的几率低于“0利润”被检测为异常词语的几率。
a2、根据K个词语,获取词序列矩阵,广告文本的原始语义信息包括该词序列矩阵。
一种方式中,根据K个词语,获取词序列矩阵,包括:根据预设词向量集,获取K个词语各自的词向量,K个词语各自的词向量组成词序列矩阵,每个词向量为词序列矩阵的一行。可以理解的是,词语的词向量在词序列矩阵的顺序与该词语在广告文本中的顺序相同,即广告文本中的第k个词位于词序列矩阵的第k行,其中k=1,2……,K。
其中,根据预设词向量集,获取K个词语各自的词向量,包括:对于K个词语中任一词语,若预设词向量集中包括该词语的词向量,则将预设词向量集中的该词语的词向量作为该词的词向量,若预设词向量集中不包括该词语的词向量,则采用第一预设词向量作为该词语的词向量。可选地,第一预设词向量为“end”字符的词向量。
预设词向量集可为采用开源的语料训练得到的词向量组成的集合,预设词向量集可包含542多万个词,每个词向量包括的分量的数目为300。其中,开源的语料是指从多个应用场景搜集到的语料。
该种方式中,词序列矩阵的大小为“K×L”的矩阵,L为每个词向量包括的分量的数目,比如L=300。
另一种方式中,根据K个词语,获取词序列矩阵,包括:
(1)在K大于或等于S时,从K个词语中选取S个词语,根据预设词向量集,获取S个词语各自的词向量,S个词语各自的词向量组成词序列矩阵,每个词向量为训练词序列矩阵的一行。其中,可以从K个词语中随机选取S个词语,还可以选取K个词语中的前S个词语,还可以选取K个词语中的后S个词语。
“根据预设词向量集,获取S个词语各自的词向量”的方法参照“根据预设词向量集,获取K个词语各自的词向量”的方法。
(2)在K小于S时,根据预设词向量集,获取K个词语各自的词向量;K个词语各自的词向量和K-S个第二预设词向量组成词序列矩阵,每个词向量为训练词序列矩阵的一行。可选地,第二预设词向量可为“nan”字符的词向量。
该种方式中,词序列矩阵的大小为“S×L”的矩阵,L为每个词向量包括的分量的数目,比如L=300。
第二种方案中,服务器基于广告文本,获取广告文本的原始语义信息,包括:对广告文本进行分词,得到K个词语;该K个词语即为广告文本的原始语义信息。其中,对广告文本进行分词,得到K个词语的方法参照上述a1中的阐述。
步骤S402、服务器基于原始语义信息,获取广告文本的语义特征信息。
服务器基于原始语义信息,获取广告文本的语义特征信息包括但不限于如下的几种方案:
第一种方案中,基于原始语义信息,获取广告文本的语义特征信息,包括如下的b1~b4:
b1、执行第一操作,第一操作包括:基于第i信息,提取广告文本的第i初始语义特征信息,融合第i信息和第i初始语义特征信息,以得到第i中间语义特征信息;初始时,i=1,第1信息为步骤S301中得到的原始语义信息。
b2、执行第二操作,第二操作包括:将i加1,将第i中间语义特征信息作为第i+1信息。
b3、重复执行第一操作和第二操作,直至得到第M中间语义特征信息;M为大于或等于1的整数。
对于b1~b3:一种具体的实现中,第一操作可以是基于图2所示的实施例中的目标神经网络模型中包括的第i个第一类子神经网络模型实现的,即第一操作包括:基于第i信息,采用第i个第一类子神经网络模型提取广告文本的第i初始语义特征信息,融合第i信息和第i初始语义特征信息,以得到第i中间语义特征信息。其中,在i的最大取值为M时,目标神经网络模型中包括M个第一类子神经网络模型,每个第一类子神经网络模型对应一个第一类神经网络,第一类神经网络可为但不限于如下的任一个:BRNN、RNN、BLSTM、LSTM。此时,对应的第一操作的过程示意图可如图5所示。
可以理解的是,在第一操作是基于图2所示的实施例中的目标神经网络模型中包括的第i个第一类子神经网络模型实现时,第i信息、第i初始语义特征信息、第i中间语义特征信息、广告文本的语义特征信息均是矩阵形式。
在i=1时,第1信息为步骤S301中得到的原始语义信息(即步骤S301中得到的词序列矩阵),该原始语义信息为目标神经网络模型包括的第1个第一类子神经网络模型的输入,第1中间语义特征信息为第1个第一类子神经网络模型的输出,第1初始语义特征信息为原始语义信息输入至第1个第一类子神经网络模型后得到的中间信息。在i=2时,第1中间语义特征信息为第一操作中的第2信息,第1中间语义特征信息目标神经网络模型包括的第2个第一类子神经网络模型的输入,第2中间语义特征信息为第2个第一类子神经网络模型的输出,第2初始语义特征信息为第2信息输入至第1个第一类子神经网络模型后得到的中间信息。依次类推,直至i=M,得到第M中间语义特征信息。即在M≥2时,第i个第一类子神经网络模型的输出为第i+1个第一类子神经网络模型的输入。其中,1≤M≤10,比如,M可为1或2或3或4或5或6。
可以理解的是,在M=1时,不包括b2和b3步骤,此时“基于原始语义信息,获取广告文本的语义特征信息”也可表述为:“基于原始语义信息,提取广告文本的初始语义特征信息,融合原始语义信息和初始语义特征信息,以得到中间语义特征信息”。
下面对融合第i信息和第i初始语义特征信息,以得到第i中间语义特征信息进行说明:
一种可能的实现方式中,第i信息包括第一矩阵,第i初始语义特征信息包括至少一个第二矩阵,融合第i信息和第i初始语义特征信息,得到第i中间语义特征信息,包括:将第一矩阵和至少一个第二矩阵相加,得到第三矩阵;激活第三矩阵,得到第i中间矩阵,第i中间语义特征信息包括第i中间矩阵。
其中,矩阵相加的含义为:将矩阵相同位置的元素相加。
该种方案中第i中间矩阵的尺寸与第一矩阵和第二矩阵的尺寸相同,计算复杂度小,节约了服务器的内存资源和计算资源。
另一种可能的实现方式中,第i信息包括第一矩阵,第i初始语义特征信息包括至少一个第二矩阵,融合第i信息和第i初始语义特征信息,得到第i中间语义特征信息,包括:将第一矩阵和至少一个第二矩阵拼接,得到第三矩阵;激活第三矩阵,得到第i中间矩阵,第i中间语义特征信息包括第i中间矩阵。
其中,矩阵A和矩阵B拼接的含义为:将矩阵B的第j列与矩阵A的第j列拼接,j=1,……,J。J为矩阵A或矩阵B的列数。
该种方案融合第i信息和第i初始语义特征信息的效率高。
b4、基于第M中间语义特征信息,得到广告文本的语义特征信息。
可选地,将第M中间语义特征信息作为广告文本的语义特征信息。该可选的方式获取广告文本的语义特征信息的效率高。
可选地,根据M个中间语义特征信息和M个中间语义特征信息各自的权重,得到广告文本的语义特征信息。该可选的方式获取的广告文本的语义特征信息比较全面,进而广告文件的检测结果的准确率高。
服务器基于原始语义信息获取广告文本的语义特征信息的第一种方案对应与步骤S401中获取原始语义信息的第一种方案。
第二种方案中,基于原始语义信息,获取广告文本的语义特征信息,包括:根据广告文本分词后的K个词语,确定K个词语中是否存在属于预设异常词语集中的词语;若是,则广告文本的语义特征信息为广告文本中存在属于预设异常词语集中的词语,若是,则广告文本的语义特征信息为广告文本中不存在属于预设异常词语集中的词语。
服务器基于原始语义信息获取广告文本的语义特征信息的第二种方案对应与步骤S401中获取原始语义信息的第二种方案。
步骤S403、服务器基于广告文本的语义特征信息,确定广告文本的检测结果。
服务器基于广告文本的语义特征信息,获取广告文本的检测结果包括但不限于如下的几种方案:
第一种方案中,服务器根据广告文本的语义特征信息,获取广告文本的检测结果,包括如下的c1和c2:
c1、服务器根据广告文本的语义特征信息,获取广告文本的语义标签,语义标签用于指示广告文本包含异常词语和/或未包含异常词语的概率。
在一种具体的实现中,服务器根据广告文本的语义特征信息,获取广告文本的语义标签,可基于图2所示的实施例中的目标神经网络模型中的N个第二类子神经网络模型实现,每个第二类子神经网络模型对应一个第二类子神经网络,第二类子神经网络可为但不限于CNN。在第二类子神经网络模型所对应的神经网络为CNN时,CNN可包括卷积层、池化层和全连接层,或者CNN可包括池化层和全连接层。
可选地,根据广告文本的语义特征信息,获取广告文本的语义标签,包括:对广告文本的语义特征信息进行处理,根据广告文本的语义特征信息的处理结果,获取广告文本的语义标签。对广告文本的语义特征信息进行的处理包括池化处理。其中,在第二类子神经网络模型所对应的神经网络包括池化层和全连接层时,对广告文本的语义特征信息进行处理包括对广告文本的语义特征信息进行池化处理,池化处理后的结果输入全连接层后输出广告文本的语义标签。在第二类子神经网络模型所对应的神经网络包括卷积层、池化层和全连接层时,对广告文本的语义特征信息进行卷积处理再进行池化处理,池化处理后的结果输入全连接层后输出广告文本的语义标签。
池化处理可为最大值池化处理或者平均池化处理。如上所述,广告文本的语义特征信息可为矩阵的形式;其中,在对矩阵池化处理时,平均池化处理是指求取矩阵的各列平均值,最大值池化处理是指提取矩阵的每列的最大值。因此,在池化处理为平均池化处理时,可以抑制广告文本的语义信息的丢失,进而提高广告文本的检测结果的准确率。
对于语义标签,一种方式中,语义标签可为一个0~1之间的一个数值,用于指示广告文本包含异常词语或未包含异常词语的概率,比如语义标签用于指示广告文本包含异常词语的概率,服务器根据广告文本的语义特征信息获取的广告文本的语义标签为0.3,则广告文本包含异常词语的概率为0.3。另一种方式中,语义标签可为包含两个分量的向量,第一个分量用于指示广告文本包含异常词语的概率,第二个分量用于指示广告文本未包含异常词语概率。示例性地,服务器根据广告文本的语义特征信息获取的广告文本的语义标签为(0.2,0.8),则广告文本包含异常词语的概率为0.2,未包含异常词语概率为0.8。
c2、根据广告文本的语义标签,确定广告文本的检测结果。
若语义标签指示的广告文本包含异常词语的概率大于第一预设值或语义标签指示的广告文本未包含异常词语的概率小于第一预设值,则确定广告文本的检测结果为广告文本包含异常词语。第一预设值可为0.5。
若语义标签指示的广告文本包含异常词语的概率小于第一预设值或语义标签指示的广告文本未包含异常词语的概率大于第一预设值,则确定广告文本的检测结果为广告文本未包含异常词语。
示例性的,语义标签用于指示广告文本包含异常词语的概率,服务器根据广告文本的语义特征信息获取的广告文本的语义标签为0.3,则广告文本包含异常词语的概率为0.3,第一预设值为0.5,0.3小于0.5,则确定广告文本的检测结果为广告文本未包含异常词语。
可以理解的是,服务器基于广告文本的语义特征信息获取广告文本的检测结果的第一种方案对应与步骤S402中获取广告文本的语义特征信息的第一种方案。
第二种方案中,服务器根据广告文本的语义特征信息,获取广告文本的检测结果,包括:若广告文本的语义特征信息为广告文本中存在属于预设异常词语集中的词语,则确定检测结果为广告文本包含异常词语;若广告文本的语义特征信息为广告文本中不存在属于预设异常词语集中的词语,则确定检测结果为广告文本未包含异常词语。
可以理解的是,服务器基于广告文本的语义特征信息获取广告文本的检测结果的第二种方案对应与步骤S402中获取广告文本的语义特征信息的第二种方案。
本实施例给出了服务器检测广告文本,以得到广告文本的检测结果的具体实现,本实施例获取广告文本的检测结果的效率高且准确。
下面以几个具体的示例说明服务器基于上述各实施例中的广告文本的原始语义信息和目标神经网络模型得到广告文本的语义标签的过程。
示例一:M=1、N=1,广告文本的原始语义信息—词序列矩阵E的大小为S×300,矩阵E输入目标神经网络模型中的BLSTM子神经网络模型,经BLSTM算法得到初始语义信息—矩阵Cf和Cb,Cf是经前向LSTM算法得到的,Cb是经后向LSTM算法得到的,将E、Cf和Cb相加,得到矩阵V,激活矩阵V后得到BLSTM子神经网络模型的输出矩阵Y,Y为广告文本的语义特征信息。
可根据如下的公式一得到矩阵V:
V(wx)=Cf(wx)+E(wx)+Cb(wx) 公式一;
其中,wx表示S个词中第x个单词,Cf(wx)表示S个词中第x个单词的原始词向量经前向LSTM算法后得到的向量,Cb(wx)表示S个词中第x个单词的词向量经后向LSTM算法后得到的向量。E(wx)为S个词中第x个单词的原始词向量,即广告文本的词序列矩阵E中的第x个单词的词向量。
可根据如下的公式二激活矩阵V:
Y=tanh(W1 V+b1) 公式二;
其中,tanh为激活函数,W1为权重矩阵,b1为偏置向量。
矩阵Y作为CNN子神经网络模型的输入,经池化层进行平均池化后得到向量X。将X输入全连接层,全连接层的输出即为广告文本的语义标签。其中,平均池化即为计算矩阵Y每一列的平均值,Y的每一列的平均值组成向量X。
全连接层的计算公式如下:
Figure BDA0002560416380000151
其中,
Figure BDA0002560416380000152
为语义标签,输出函数f采用sigmoid函数,W2为全连接层权重矩阵,b2为全连接层偏置向量。
该示例对应的服务器基于原始语义信息和目标神经网络模型得到广告文本的语义标签的过程示意图可如图6所示。
本实施例给出了M=1、N=1时,服务器基于原始语义信息和目标神经网络模型得到广告文本的语义标签的一种具体实现。
示例二:M=3、N=1,广告文本的原始语义信息—词序列矩阵E的大小为S×300,矩阵E输入目标神经网络模型中的第1个BLSTM子神经网络模型,经BLSTM算法得到第1初始语义信息,第1初始语义信息矩阵包括Cf1和Cb1,Cf1是经前向LSTM算法得到的,Cb1是经后向LSTM算法得到的,将E、Cf1和Cb1相加,得到矩阵V1,激活矩阵V1后得到BLSTM子神经网络模型的输出矩阵Y1,Y1为第1中间语义特征信息,也为第2信息。
将Y1作为第2信息,矩阵Y1输入目标神经网络模型中的第2个BLSTM子神经网络模型,经BLSTM算法得到第2初始语义信息,第2初始语义信息矩阵包括Cf2和Cb2,Cf2是经前向LSTM算法得到的,Cb2是经后向LSTM算法得到的,将Y1、Cf2和Cb2相加,得到矩阵V2,激活矩阵V2后得到BLSTM子神经网络模型的输出矩阵Y2,Y2为第2中间语义特征信息。
将Y2作为第3信息,矩阵Y2输入目标神经网络模型中的第3个BLSTM子神经网络模型,经BLSTM算法得到第3初始语义信息,第3初始语义信息矩阵包括Cf3和Cb3,Cf3是经前向LSTM算法得到的,Cb3是经后向LSTM算法得到的,将Y2、Cf3和Cb3相加,得到矩阵V3,激活矩阵V3后得到BLSTM子神经网络模型的输出矩阵Y3,Y3为第3中间语义特征信息。
取Y=a1×Y1+a2×Y2+a3×Y3,a1、a2、a3分别为第1中间语义特征信息、第2中间语义特征信息和第3中间语义特征信息的权重。
矩阵Y作为CNN子神经网络模型的输入,经池化层进行平均池化后得到向量X。将X输入全连接层,全连接层的输出即为广告文本的语义标签。其中,平均池化即为计算矩阵Y每一列的平均值,Y的每一列的平均值组成向量X。
该示例对应的服务器基于原始语义信息和目标神经网络模型得到广告文本的语义标签的过程示意图可如图7所示。
本实施例给出了M=3、N=1时,服务器基于原始语义信息和目标神经网络模型得到广告文本的语义标签的一种具体实现。
可以理解的是,上述各实施例中的目标神经网络模型是根据大量的训练样本训练好的,训练样本包括训练广告文本的原始语义信息和语义标签,训练过程中训练广告文本的原始语义信息作为训练过程中的中间神经网络模型的输入,训练广告文本的语义标签作为期望输出,采用目标神经网络模型对应的神经网络算法最终得到目标神经网络模型。其中,训练广告文本的原始语义信息包括的训练词序列矩阵的获取方法可如下:
d1、对训练广告文本进行分词,得到R个词语。分词方法同对上述a1中所述的分词方法。
d2、根据R个词语,获取训练词序列矩阵,训练广告文本的原始语义信息包括训练词序列矩阵。
一种方式中,根据R个词语,获取词序列矩阵,包括:根据预设词向量集,获取R个词语各自的词向量,R个词语各自的词向量组成训练词序列矩阵,每个词向量为词序列矩阵的一行。可以理解的是,词语的词向量在训练词序列矩阵的顺序与该词语在训练广告文本中的顺序相同,即训练广告文本中的第r个词位于训练词序列矩阵的第r行,其中r=1,2……,R。此处的预设词向量集同a1中所述的预设词向量集。
其中,根据预设词向量集,获取R个词语各自的词向量,包括:对于R个词语中任一词语,若预设词向量集中包括该词语的词向量,则将预设词向量集中的该词语的词向量作为该词的词向量,若预设词向量集中不包括该词语的词向量,则随机初始化一个初始向量作为该词语的词向量,该初始向量包括的分量的数目与预设词向量集中包括的词向量的数目相同。
另一种方式中,根据R个词语,获取训练词序列矩阵,包括:
(1)在R大于或等于S时,从R个词语中选取S个词语,根据预设词向量集,获取S个词语各自的词向量,S个词语各自的词向量组成训练词序列矩阵,每个词向量为训练词序列矩阵的一行。其中,可以从R个词语中随机选取S个词语,还可以选取R个词语中的前S个词语,还可以选取R个词语中的后S个词语。其中,“根据预设词向量集,获取S个词语各自的词向量”的方法参照“根据预设词向量集,获取R个词语各自的词向量”的方法。
(2)在R小于S时,根据预设词向量集,获取R个词语各自的词向量;R个词语各自的词向量和R-S个第二预设词向量组成训练词序列矩阵,每个词向量为训练词序列矩阵的一行。可选地,第二预设词向量可为“nan”字符的词向量。
本实施例给出了目标神经网络模型的获取方法。
以上对本申请的广告文本检测方法进行了说明,下面对本申请涉及的广告文本检测装置进行说明。
图8为本申请实施例提供的广告文本检测装置的结构示意图,参见图8,本实施例的装置包括:收发模块801和处理模块802。
收发模块801,用于接收来自终端设备的广告文本;处理模块802,还用于基于所述广告文本,获取所述广告文本的原始语义信息;所述处理模块802,还用于基于所述原始语义信息获取所述广告文本的语义特征信息;所述处理模块802,还用于根据所述语义特征信息,确定所述检测结果,所述检测结果用于指示所述广告文本未包含异常词语或包含异常词语;所述收发模块801,还用于向所述终端设备发送所述检测结果。
在一种可能的实施方式中,所述处理模块801具体用于:执行第一操作,所述第一操作包括:基于第i信息,提取所述广告文本的第i初始语义特征信息,融合所述第i信息和第i初始语义特征信息,以得到第i中间语义特征信息;初始时,i=1,第1信息为所述原始语义信息;执行第二操作,所述第二操作包括:将i加1,以及将所述第i中间语义特征信息作为第i+1信息;重复所述第一操作和所述第二操作,直至得到第M中间语义特征信息;M为大于或等于1的整数;基于所述第M中间语义特征信息,得到所述广告文本的语义特征信息。
在一种可能的实施方式中,所述第i信息包括第一矩阵,所述第i初始语义特征信息包括至少一个第二矩阵,所述处理模块801具体用于:将所述第一矩阵和所述至少一个第二矩阵相加或拼接,得到第三矩阵;激活所述第三矩阵,得到第i中间矩阵,所述第i中间语义特征信息包括所述第i中间矩阵。
在一种可能的实施方式中,所述处理模块801具体用于:将所述第M中间语义特征信息作为所述广告文本的语义特征信息。
在一种可能的实施方式中,所述处理模块801具体用于:根据M个中间语义特征信息和所述M个中间语义特征信息各自的权重,得到所述广告文本的语义特征信息。
在一种可能的实施方式中,所述处理模块801具体用于:根据所述语义特征信息,获取所述广告文本的语义标签,所述语义标签用于指示所述广告文本包含异常词语和/或未包含异常词语的概率;根据所述语义标签,确定所述广告文本的检测结果。
在一种可能的实施方式中,所述处理模块801具体用于:对所述语义特征信息进行处理;所述处理包括池化处理;根据所述语义特征信息的处理结果,获取所述广告文本的语义标签
在一种可能的实施方式中,所述池化处理为平均池化处理。
在一种可能的实施方式中,所述检测结果是基于神经网络模型得到的,所述神经网络模型包括M个第一子神经网络模型和N个第二子神经网络模型,M和N均为正整数,所述处理模块801具体用于:基于所述广告文本的原始语义信息,采用所述第一类子神经网络模型,获取所述广告文本的语义特征信息;基于所述广告文本的语义特征信息,采用第二类子神经网络模型,确定所述检测结果。
在一种可能的实施方式中,所述第一类子神经网络模型对应的神经网络为双向循环神经网络RNN或者双向长短时记忆循环神经网络BLSTM;所述第二类子神经网络模型对应的神经网络为卷积神经网络CNN。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图9为本申请实施例提供的一种电子设备的示意图。如图9所示,电子设备900可用于实现上述方法实施例中描述的方法,具体参见上述方法实施例中的说明。其中,电子设备900可为服务器或终端设备。
所述电子设备900可以包括一个或多个处理器901,所述处理器901也可以称为处理单元,控制执行上述方法实施例中的方法。所述处理器901可以是通用处理器或者专用处理器等。例如可以是基带处理器、或中央处理器。基带处理器可以用于对通信协议以及通信数据进行处理,中央处理器可以用于对通信装置进行控制,执行软件程序,处理软件程序的数据。
可选的,处理器901也可以存有指令903或者数据(例如中间数据)。其中,所述指令903可以被所述处理器运行,使得所述电子设备900执行上述方法实施例中描述的方法。
可选的,所述电子设备900中可以包括一个或多个存储器902,其上可以存有指令904,所述指令可在所述处理器上被运行,使得所述电子设备900执行上述方法实施例中描述的方法。
可选的,所述存储器中也可以是存储有数据。所述处理器901和存储器902可以单独设置,也可以集成在一起。
可选的,所述电子设备900还可以包括收发器905和/或天线906。所述收发器905可以称为收发单元、收发机、收发电路、或者收发器等,用于实现通信装置的收发功能。
本申请中描述的处理器901和收发器905可实现在集成电路(integratedcircuit,IC)、模拟IC、射频集成电路(radio frequency integrated circuit,RFIC)、混合信号IC、专用集成电路(application specific integrated circuit,ASIC)、印刷电路板(printed circuit board,PCB)、电子设备等上。该处理器和收发器也可以用各种1C工艺技术来制造,例如互补金属氧化物半导体(complementary metal oxide semiconductor,CMOS)、N型金属氧化物半导体(nMetal-oxide-semiconductor,NMOS)、P型金属氧化物半导体(positive channel metal oxide semiconductor,PMOS)、双极结型晶体管(BipolarJunction Transistor,BJT)、双极CMOS(BiCMOS)、硅锗(SiGe)、砷化镓(GaAs)等。
应理解,本申请实施例中提及的处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
本申请实施例还提供一种计算机存储介质,包括:计算机可执行指令,当所述程序或指令在计算机上运行时,上述任一方法实施例中服务器或终端设备所对应的方法被执行。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (11)

1.一种广告文本检测方法,其特征在于,包括:
接收来自终端设备的广告文本;
基于所述广告文本,获取所述广告文本的原始语义信息;
基于所述原始语义信息,获取所述广告文本的语义特征信息;
根据所述语义特征信息,确定所述检测结果,所述检测结果用于指示所述广告文本未包含异常词语或包含异常词语;
向所述终端设备发送所述检测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述原始语义信息,获取所述广告文本的语义特征信息,包括:
执行第一操作,所述第一操作包括:基于第i信息,提取所述广告文本的第i初始语义特征信息,融合所述第i信息和第i初始语义特征信息,以得到第i中间语义特征信息;初始时,i=1,第1信息为所述原始语义信息;
执行第二操作,所述第二操作包括:将i加1,以及将所述第i中间语义特征信息作为第i+1信息;
重复所述第一操作和所述第二操作,直至得到第M中间语义特征信息;M为正整数;
基于所述第M中间语义特征信息,得到所述广告文本的语义特征信息。
3.根据权利要求2所述的方法,其特征在于,所述第i信息包括第一矩阵,所述第i初始语义特征信息包括至少一个第二矩阵,所述融合所述第i信息和第i初始语义特征信息,以得到第i中间语义特征信息,包括:
将所述第一矩阵和所述至少一个第二矩阵相加或拼接,得到第三矩阵;
激活所述第三矩阵,得到第i中间矩阵,所述第i中间语义特征信息包括所述第i中间矩阵。
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述第M中间语义特征信息,得到所述广告文本的语义特征信息,包括:
根据M个中间语义特征信息和所述M个中间语义特征信息各自的权重,得到所述广告文本的语义特征信息。
5.根据权利要求1~3任一项所述的方法,其特征在于,所述根据所述语义特征信息,确定所述广告文本的检测结果,包括:
根据所述语义特征信息,获取所述广告文本的语义标签,所述语义标签用于指示所述广告文本包含异常词语和/或未包含异常词语的概率;
根据所述语义标签,确定所述广告文本的检测结果。
6.根据权利要求5所述的方法,其特征在于,根据所述语义特征信息,获取所述广告文本的语义标签,包括:
对所述语义特征信息进行处理;所述处理包括池化处理;
根据所述语义特征信息的处理结果,获取所述广告文本的语义标签。
7.根据权利要求1~3任一项所述的方法,其特征在于,所述检测结果是基于神经网络模型得到的,所述神经网络模型包括M个第一子神经网络模型和N个第二子神经网络模型,M和N均为正整数,所述基于所述原始语义信息,获取所述广告文本的语义特征信息,根据所述语义特征信息,确定所述检测结果,包括:
基于所述广告文本的原始语义信息,采用所述第一类子神经网络模型,获取所述广告文本的语义特征信息;
基于所述广告文本的语义特征信息,采用第二类子神经网络模型,确定所述检测结果。
8.根据权利要求7所述的方法,其特征在于,所述第一类子神经网络模型对应的神经网络为双向循环神经网络RNN或者双向长短时记忆循环神经网络BLSTM;
所述第二类子神经网络模型对应的神经网络为卷积神经网络CNN。
9.一种广告文本检测装置,其特征在于,包括:
收发模块,用于接收来自终端设备的广告文本;
处理模块,用于基于所述广告文本,获取所述广告文本的原始语义信息;
所述处理模块,还用于基于所述原始语义信息获取所述广告文本的语义特征信息;
所述处理模块,还用于根据所述语义特征信息,确定所述检测结果,所述检测结果用于指示所述广告文本未包含异常词语或包含异常词语;
所述收发模块,还用于向所述终端设备发送所述检测结果。
10.一种电子设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:执行所述可执行指令,以实现权利要求1至8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现权利要求1至8任一项所述的方法。
CN202010604391.3A 2020-06-29 2020-06-29 广告文本检测方法和装置 Pending CN113761930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010604391.3A CN113761930A (zh) 2020-06-29 2020-06-29 广告文本检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010604391.3A CN113761930A (zh) 2020-06-29 2020-06-29 广告文本检测方法和装置

Publications (1)

Publication Number Publication Date
CN113761930A true CN113761930A (zh) 2021-12-07

Family

ID=78785448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010604391.3A Pending CN113761930A (zh) 2020-06-29 2020-06-29 广告文本检测方法和装置

Country Status (1)

Country Link
CN (1) CN113761930A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160239865A1 (en) * 2013-10-28 2016-08-18 Tencent Technology (Shenzhen) Company Limited Method and device for advertisement classification
GB201803954D0 (en) * 2018-03-12 2018-04-25 Factmata Ltd Hate speech detection system for online media content
CN109471915A (zh) * 2018-10-09 2019-03-15 科大讯飞股份有限公司 一种文本评价方法、装置、设备以及可读存储介质
CN109948158A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于环境元嵌入和深度学习的情感倾向性分析方法
CN110069781A (zh) * 2019-04-24 2019-07-30 北京奇艺世纪科技有限公司 一种实体标签的识别方法及相关设备
CN110765757A (zh) * 2019-10-16 2020-02-07 腾讯云计算(北京)有限责任公司 文本识别方法、计算机可读存储介质和计算机设备
CN110858217A (zh) * 2018-08-23 2020-03-03 北大方正集团有限公司 微博敏感话题的检测方法、装置及可读存储介质
CN111241825A (zh) * 2020-01-08 2020-06-05 广东博智林机器人有限公司 广告词违禁检测模型的训练方法、检测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160239865A1 (en) * 2013-10-28 2016-08-18 Tencent Technology (Shenzhen) Company Limited Method and device for advertisement classification
GB201803954D0 (en) * 2018-03-12 2018-04-25 Factmata Ltd Hate speech detection system for online media content
CN110858217A (zh) * 2018-08-23 2020-03-03 北大方正集团有限公司 微博敏感话题的检测方法、装置及可读存储介质
CN109471915A (zh) * 2018-10-09 2019-03-15 科大讯飞股份有限公司 一种文本评价方法、装置、设备以及可读存储介质
CN109948158A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于环境元嵌入和深度学习的情感倾向性分析方法
CN110069781A (zh) * 2019-04-24 2019-07-30 北京奇艺世纪科技有限公司 一种实体标签的识别方法及相关设备
CN110765757A (zh) * 2019-10-16 2020-02-07 腾讯云计算(北京)有限责任公司 文本识别方法、计算机可读存储介质和计算机设备
CN111241825A (zh) * 2020-01-08 2020-06-05 广东博智林机器人有限公司 广告词违禁检测模型的训练方法、检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ASAD ABDI 等: "Deep learning-based sentiment classification of evaluation text based on Multi-feature fusion", 《ELAEVIER》, vol. 56, no. 4, 31 July 2019 (2019-07-31), pages 1245 - 1259, XP085685922, DOI: 10.1016/j.ipm.2019.02.018 *
王倩倩: "基于机器学习的社交网络信息过滤及推荐系统实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2019, no. 09, 15 September 2019 (2019-09-15) *

Similar Documents

Publication Publication Date Title
US11816440B2 (en) Method and apparatus for determining user intent
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
US10699191B2 (en) Generating larger neural networks
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN113128494A (zh) 识别图像中文本的方法、装置和系统
US20190057084A1 (en) Method and device for identifying information
CN107291775B (zh) 错误样本的修复语料生成方法和装置
US11238050B2 (en) Method and apparatus for determining response for user input data, and medium
CN111291158B (zh) 一种信息查询方法、装置、电子设备及存储介质
CN112632257A (zh) 基于语义匹配的问题处理方法、装置、终端和存储介质
CN107291774B (zh) 错误样本识别方法和装置
CN112784066A (zh) 基于知识图谱的信息反馈方法、装置、终端和存储介质
CN110717019A (zh) 问答处理方法、问答系统、电子设备及介质
CN112396079A (zh) 号码识别模型训练方法、号码识别方法及装置
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN112183513B (zh) 一种图像中文字的识别方法、装置、电子设备及存储介质
CN113761930A (zh) 广告文本检测方法和装置
CN115730217A (zh) 模型的训练方法、物料的召回方法及装置
CN114970666A (zh) 一种口语处理方法、装置、电子设备及存储介质
CN112597764A (zh) 文本分类方法及装置、存储介质、电子装置
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN115186667B (zh) 基于人工智能的命名实体识别方法及装置
CN113779975B (zh) 一种语义识别方法、装置、设备及介质
CN113032572B (zh) 基于文本匹配模型的文本分类方法、装置及相关设备
CN112579746A (zh) 获取文本对应的行为信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination