CN107491436A - 一种标题党识别方法和装置、服务器、存储介质 - Google Patents
一种标题党识别方法和装置、服务器、存储介质 Download PDFInfo
- Publication number
- CN107491436A CN107491436A CN201710720242.1A CN201710720242A CN107491436A CN 107491436 A CN107491436 A CN 107491436A CN 201710720242 A CN201710720242 A CN 201710720242A CN 107491436 A CN107491436 A CN 107491436A
- Authority
- CN
- China
- Prior art keywords
- title
- training
- mark
- decision
- party
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明实施例公开了一种标题党识别方法和装置、服务器、存储介质。其中,标题党识别方法包括:提取标题的文本统计特征和语义特征,利用预先训练好的决策模型,将提取到的文本统计特征和语义特征作为决策模型的输入,输出标题的决策分值,并将决策分值与第一预设阈值进行比较,根据比较结果确定标题是否为标题党。本发明实施例通过多层次、多粒度、多角度的提取标题的文本统计特征和语义特征,并利用决策模型对文本统计特征和语义特征进行决策评分,最终确定标题是否为标题党,解决了现有标题党识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高、召回高的特点。
Description
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种标题党识别方法和装置、服务器、存储介质。
背景技术
随着互联网的发展,互联网平台涌现出了很多的在线新闻媒体(内容生产商,包括专业媒体、自媒体等),该类新闻媒体其收入与读者对它们所产生内容的点击量成正比。因此,为了获取高点击量、竞争优势、影响力以及高利润,该类新闻媒体往往会在所生产内容的标题上做文章,生产出与内容完全不符的标题,以吸引读者的注意力,这种标题为具有点击诱饵的标题(clickbaits),即俗称的标题党。
现有的标题党识别方法主要是基于统计的方法,例如通过统计标题中表示强烈情感的词语个数、停用词个数、副词个数、代词个数、标题长度以及标题句法树高度等特征,来确定标题是否属于标题党。但是,现有的基于统计的标题党识别方法存在误伤大、泛化能力差、识别准确率不高等问题,实际应用的效果并不理想。
发明内容
本发明实施例提供一种标题党识别方法和装置、服务器、存储介质,以解决现有的标题党识别方法中误伤大、泛化能力差、识别准确率不高的问题。
第一方面,本发明实施例提供了一种标题党识别方法,该方法包括:
提取标题的文本统计特征和语义特征;
利用预先训练好的决策模型,将所述文本统计特征和语义特征作为决策模型的输入,输出所述标题的决策分值;
将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。
第二方面,本发明实施例还提供了一种标题党识别装置,该装置包括:
特征提取模块,用于提取标题的文本统计特征和语义特征;
决策评分模块,用于利用预先训练好的决策模型,将所述文本统计特征和语义特征作为决策模型的输入,输出所述标题的决策分值;
分值比较模块,用于将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的标题党识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的标题党识别方法。
本发明实施例通过多层次、多粒度、多角度的提取标题的文本统计特征和语义特征,利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,进行决策评分,并将决策分值与设定阈值进行比较以确定标题是否为标题党,解决了现有标题党识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高、召回高的特点。
附图说明
图1是本发明实施例一中的标题党识别方法的流程图;
图2是本发明实施例二中的标题党识别方法的流程图;
图3是本发明实施例三中的标题党识别装置的结构示意图;
图4是本发明实施例四中的服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的标题党识别方法的流程图,本实施例可适用于需要对标题党进行识别的情况,该方法可以由标题党识别装置来执行,该装置可以采用软件和/或硬件的方式实现。如图1所示,该方法具体包括:
步骤110、提取标题的文本统计特征和语义特征。
标题党是具有点击诱饵的一类标题,该类标题通常使用一些夸张、与现实存在较大差距的短语或短句等具有显著特点的文本特征来吸引读者的注意力,此外,该类标题也具有其独特的语义特征。因此,可以利用标题的文本特征、语义特征或二者相结合来判断标题是否是标题党。
本实施例中,为了准确判断标题是否是标题党,将标题中的文本统计特征和语义特征同时提取出来,以判断所提取出的文本统计特征和语义特征是否具有标题党所固有的特点,从而确定标题是否是标题党。
本实施例中,标题的文本统计特征优选可以是标点符号个数、停用词个数、地域词个数、引诱词个数、代词个数或引诱片段个数中的至少一个。其中,停用词是指检索中的虚词和非检索用词,主要分为两类,一类是使用十分广泛的单词,具体可以是“我”、“的”等,另一类是出现频率很高,但无实际意义的语气助词、副词、介词或连词等,具体可以是“在”、“和”、“接着”等;引诱词是指标题中具有点击诱饵作用的词语,具体可以是“惊呆了”、“崩溃了”等;引诱片段是指标题中用标点符号隔开的,并且具有点击诱饵作用的短句,具体可以是“这文章据说没几个人可以看懂”、“99%的人都不知道”等。
本实施例中,标题的文本统计特征中的标点符号个数、停用词个数、地域词个数、引诱词个数和代词个数优选可以利用统计的方法从标题中提取出来;标题的文本统计特征中的引诱片段个数以及标题的语义特征优选可以利用神经网络算法从标题中提取出来。
步骤120、利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,输出标题的决策分值。
本实施例中,在得到标题中的文本统计特征和语义特征之后,可以利用上述特征确定目标标题是否是标题党。具体的,优选可以采用基于迭代的决策树算法训练决策模型,以确定决策模型对应的各个参数值。在确定各个参数值之后,即可将文本统计特征和语义特征输入到该决策模型中,经决策模型处理后最终输出与标题相对应的决策分值。
本实施例中,如果目标标题属于标题党,则最终通过决策模型输出的决策分值会相对较高,如果目标标题不属于标题党,则最终输出的决策分值会相对较低。该决策分值是由决策模型综合考虑文本统计特征和语义特征后得到的,其准确性较高,利用该决策分值即可确定目标标题是否是标题党。
步骤130、将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。
示例性的,当决策模型输出的决策分值大于等于第一预设阈值时,则确定与该决策分值相对应的标题是标题党,当决策模型输出的决策分值小于第一预设阈值时,则确定与该决策分值相对应的标题不是标题党。其中,第一预设阈值可以根据实际需要进行设定,本发明实施例对此不做任何限定。
本发明实施例提供的标题党识别方法,通过多层次、多粒度、多角度的提取标题的文本统计特征和语义特征,利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,进行决策评分,并将决策分值与设定阈值进行比较以确定标题是否为标题党,解决了现有标题党识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高、召回高的特点。
优选的,决策模型可以是GBDT模型。
其中,GBDT(Gradient Boosting Decision Tree,梯度提升决策树)模型由GBDT算法训练得到,该算法是一种基于迭代的决策树算法,由多棵决策树构成,利用由该算法训练得到的决策模型进行预测时,把所有决策树的预测结果叠加作为最终的预测结果。
进一步的,GBDT模型的训练过程包括:
获取带有标注的训练数据,标注表示训练数据是否为标题党数据;
获取标注训练数据的文本统计特征和语义特征;
根据标注训练数据中的文本统计特征和语义特征训练得到GBDT模型。
其中,带有标注的训练数据优选可以从各类新闻客户端中获取到,具体的,可以从新闻客户端用户的评论中获取到相应的标题是否是标题党,如果相应标题是标题党,优选可将标题标注为是,也可以标注为相对较高分值;如果相应标题不是标题党,优选可将标题标注为否,也可以标注为相对较低的分值。将从标注训练数据中提取出的文本统计特征和语义特征作为输入,利用GBDT算法对上述特征数据进行训练,得到GBDT模型。
实施例二
本实施例在实施例一的基础上,提供了步骤110的优选实施方式,实施例一中的文本统计特征,包括标点符号个数、停用词个数、地域词个数、引诱词个数、代词个数或引诱片段个数中的至少一个,本实施例中仅以文本统计特征中的引诱片段个数为例进行说明。图2是本发明实施例二提供的标题党识别方法的流程图,如图2所示,该方法包括:
步骤210、根据标题中的标点符号对标题进行分割,得到至少一个分割短句。
标题中通常都包含标点符号,本实施例中,利用标题中的标点符号,可将标题分割成至少一个短句。示例性的,标题为“99%的人都不知道,看完我和我的小伙伴都惊呆了”,其中,该标题中包含一个逗号,利用该逗号可将标题分割成两个短句,即“99%的人都不知道”和“看完我和我的小伙伴都惊呆了”。
步骤220、利用预先训练好的第一神经网络模型,计算每一个分割短句与引诱片段表中每个引诱片段的相似度分值,其中,引诱片段表中包含预先根据历史数据统计得到的多个引诱片段。
本实施例中,引诱片段表包含多个引诱片段,该引诱片段表优选可以通过统计历史数据获得。具体的,获取历史数据中的各类标题党,统计各类标题党中使用频率较高的句子片段,并生成引诱片段词表。示例性的,该引用片段词表可以包括“没几个人可以看懂”或“99%的人都不知道”等。
本实施例中,将每个由标点符号确定的分割短句与引诱片段表中每个引诱片段分别作为第一神经网络模型的输入,经过神经网络模型处理后,分别得到与每个分割短句和每个引诱片段相对应的向量,利用上述两类向量,即可确定每个分割短句与引诱片段表中每个引诱片段的相似度分值。
本实施例中,计算相似度分值的方法优选可采用余弦相似度计算方法,利用该方法计算每个分割短句向量和每个引诱片段向量的夹角余弦值,进而确定两类向量的相似度分值。
步骤230、比较相似度分值与第二预设阈值,根据比较结果确定每一个分割短句是否为引诱片段,并统计标题中引诱片段个数。
本实施例中,将由余弦相似度方法计算得到的相似度分值与第二预设阈值进行比较,例如,如果相似度分值大于第二预设阈值,则确定与该相似度分值相对应的分割短句是引诱片段,如果相似度分值小于第二预设阈值,则确定与该相似度分值相对应的分割短句不是引诱片段,最终确定标题中引诱片段的个数。
步骤240、利用预先训练好的第二神经网络模型,计算标题的语义分值作为语义特征,其中,语义分值表示标题是否为标题党的二分类计算得分。
本实施例中,为了提取标题整体的高级语义特征,优选可以利用预先训练好的第二神经网络对标题进行二分类计算,得到标题对应的二分类语义分值以反映标题的语义特征。
步骤250、利用预先训练好的决策模型,将引诱片段个数和语义特征作为决策模型的输入,输出标题的决策分值。
步骤260、将决策分值与第一预设阈值进行比较,根据比较结果确定标题是否为标题党。
本发明实施例提供的标题党识别方法,通过多层次、多粒度、多角度的提取标题的文本统计特征和语义特征,利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,进行决策评分,并将决策分值与设定阈值进行比较以确定标题是否为标题党,解决了现有标题党识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高、召回高的特点。
优选的,第一神经网络模型可以是RNN模型,其中,RNN模型的训练过程包括:
从搜索引擎的用户点击日志中,将用户有点击搜索结果作为正样本,将用户无点击搜索结果作为负样本;
将一个正样本和一个负样本组成样本对,得到多个样本对;
将多个样本对作为训练数据进行训练,并得到RNN模型参数。
其中,RNN(recurrent neural network,循环神经网络)可以用于抽取句子在抽象空间中的表示,为了训练RNN网络的参数,让其学习到句子之间的相似度,RNN模型的训练样本可以从搜索引擎的用户点击日志中获取,用户点击日志记载了所有给用户展现过的条目,包括用户点击的搜索结果和用户无点击的搜索结果。本实施例中,优选可以利用pair-wise样本选择机制进行样本选择,具体的,将用户有点击的搜索结果作为正样本,将用户无点击搜索结果作为负样本。
其中,优选可以利用SGD(Stochastic Gradient Descent,随机梯度下降)训练算法对多个样本对进行训练,最终得到RNN模型参数。
优选的,第二神经网络模型可以是CNN(Convolutional Neural Network,卷积神经网络)模型,其中,CNN模型的训练过程包括:
获取带有标注的训练数据,标注表示训练数据是否为标题党数据;
根据标注训练数据对CNN模型进行训练。
其中,带有标注的训练数据优选可以从各类新闻客户端中获取到,具体的,可以从新闻客户端用户的评论中获取到相应的标题是否是标题党,如果相应标题是标题党,优选可将标题标注为是,也可以标注为相对较高分值;如果相应标题不是标题党,优选可将标题标注为否,也可以标注为相对较低的分值。
本发明实施例利用RNN模型提取标题的引诱片段个数,利用CNN模型提取标题的语义特征,进一步提高了标题党识别的准确率。
实施例三
图3是本发明实施例三中的标题党识别装置的结构示意图。如图3所示,标题党识别装置包括:
特征提取模块310,用于提取标题的文本统计特征和语义特征,其中,文本统计特征,优选可以包括标点符号个数、停用词个数、地域词个数、引诱词个数、代词个数或引诱片段个数中的至少一个。
决策评分模块320,用于利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,输出标题的决策分值。
分值比较模块330,用于将决策分值与第一预设阈值进行比较,根据比较结果确定标题是否为标题党。
本发明实施例提供的标题党识别装置,通过多层次、多粒度、多角度的提取标题的文本统计特征和语义特征,利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,进行决策评分,并将决策分值与设定阈值进行比较以确定标题是否为标题党,解决了现有标题党识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高、召回高的特点。
进一步的,特征提取模块310,包括:
分割子模块,用于根据标题中的标点符号对标题进行分割,得到至少一个分割短句;
相似度分值计算子模块,用于利用预先训练好的第一神经网络模型,计算每一个分割短句与引诱片段表中每个引诱片段的相似度分值,其中,引诱片段表中包含预先根据历史数据统计得到的多个引诱片段;
相似度分值比较子模块,用于比较相似度分值与第二预设阈值,根据比较结果确定各个分割短句是否为引诱片段,并统计标题中引诱片段个数。
进一步的,特征提取模块310,还包括:
语义分值计算子模块,用于利用预先训练好的第二神经网络模型,计算标题的语义分值作为语义特征;
其中,语义分值表示标题是否为标题党的二分类计算得分。
优选的,标题党识别装置,还包括:第一神经网络模型训练模块,用于训练RNN模型。
进一步的,第一神经网络模型训练模块包括:
样本采集子模块,用于从搜索引擎的用户点击日志中,将用户有点击搜索结果作为正样本,将用户无点击搜索结果作为负样本;
构建样本对子模块,用于将一个正样本和一个负样本组成样本对,得到多个样本对;
RNN模型训练子模块,用于将多个样本对作为训练数据进行训练,并得到RNN模型参数。
优选的,标题党识别装置,还包括:第二神经网络模型训练模块,用于训练CNN模型。
进一步的,第二神经网络模型训练模块包括:
第一标注训练数据子模块,用于获取带有标注的训练数据,标注表示训练数据是否为标题党数据;
CNN模型训练子模块,用于根据标注训练数据对CNN模型进行训练。
优选的,标题党识别装置,还包括:决策模型训练模块,用于训练GBDT模型。
进一步的,决策模型训练模块包括:
第二标注训练数据子模块,用于获取带有标注的训练数据,标注表示训练数据是否为标题党数据;
标注训练数据特征提取子模块,用于获取标注训练数据的文本统计特征和语义特征;
GBDT模型训练子模块,用于根据标注训练数据中的文本统计特征和语义特征训练得到GBDT模型。
本发明实施例所提供的标题党识别装置可执行本发明任意实施例所提供的标题党识别方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例性服务器设备412的框图。图4显示的服务器412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,服务器412以通用计算设备的形式表现。服务器412的组件可以包括但不限于:一个或者多个处理器416,系统存储器428,连接不同系统组件(包括系统存储器428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)430和/或高速缓存存储器432。服务器412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储装置434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
服务器412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信,还可与一个或者多个使得用户能与该计算机设备412交互的设备通信,和/或与使得该服务器412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,计算机设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与计算机设备412的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储装置等。
处理器416通过运行存储在系统存储器428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的标题党识别方法,包括:
提取标题的文本统计特征和语义特征;
利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,输出标题的决策分值;
将决策分值与第一预设阈值进行比较,根据比较结果确定标题是否为标题党。
实施例五
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的标题党识别方法,包括:
提取标题的文本统计特征和语义特征;
利用预先训练好的决策模型,将文本统计特征和语义特征作为决策模型的输入,输出标题的决策分值;
将决策分值与第一预设阈值进行比较,根据比较结果确定标题是否为标题党。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (16)
1.一种标题党识别方法,其特征在于,包括:
提取标题的文本统计特征和语义特征;
利用预先训练好的决策模型,将所述文本统计特征和语义特征作为决策模型的输入,输出所述标题的决策分值;
将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。
2.根据权利要求1所述的方法,其特征在于,所述文本统计特征包括:
标点符号个数、停用词个数、地域词个数、引诱词个数、代词个数或引诱片段个数中的至少一个。
3.根据权利要求2所述的方法,其特征在于,提取标题的文本统计特征中的所述引诱片段个数,包括:
根据所述标题中的标点符号对所述标题进行分割,得到至少一个分割短句;
利用预先训练好的第一神经网络模型,计算每一个分割短句与引诱片段表中每个引诱片段的相似度分值,其中,所述引诱片段表中包含预先根据历史数据统计得到的多个引诱片段;
比较所述相似度分值与第二预设阈值,根据比较结果确定每一个分割短句是否为引诱片段,并统计所述标题中引诱片段个数。
4.根据权利要求3所述的方法,其特征在于,所述第一神经网络模型为RNN模型,所述RNN模型的训练过程包括:
从搜索引擎的用户点击日志中,将用户有点击搜索结果作为正样本,将用户无点击搜索结果作为负样本;
将一个所述正样本和一个所述负样本组成样本对,得到多个样本对;
将所述多个样本对作为训练数据进行训练,并得到所述RNN模型参数。
5.根据权利要求1所述的方法,其特征在于,所述提取标题的语义特征包括:
利用预先训练好的第二神经网络模型,计算所述标题的语义分值作为所述语义特征,其中,所述语义分值表示所述标题是否为标题党的二分类计算得分。
6.根据权利要求5所述的方法,其特征在于,所述第二神经网络模型为CNN模型,所述CNN模型的训练过程包括:
获取带有标注的训练数据,所述标注表示训练数据是否为标题党数据;
根据所述标注训练数据对CNN模型进行训练。
7.根据权利要求1所述的方法,其特征在于,所述决策模型为GBDT模型,所述GBDT模型的训练过程包括:
获取带有标注的训练数据,所述标注表示训练数据是否为标题党数据;
获取所述标注训练数据的文本统计特征和语义特征;
根据所述标注训练数据中的文本统计特征和语义特征训练得到GBDT模型。
8.一种标题党识别装置,其特征在于,包括:
特征提取模块,用于提取标题的文本统计特征和语义特征;
决策评分模块,用于利用预先训练好的决策模型,将所述文本统计特征和语义特征作为决策模型的输入,输出所述标题的决策分值;
分值比较模块,用于将所述决策分值与第一预设阈值进行比较,根据比较结果确定所述标题是否为标题党。
9.根据权利要求8所述的装置,其特征在于,所述文本统计特征,包括:
标点符号个数、停用词个数、地域词个数、引诱词个数、代词个数或引诱片段个数中的至少一个。
10.根据权利要求9所述的装置,其特征在于,所述特征提取模块,包括:
分割子模块,用于根据所述标题中的标点符号对所述标题进行分割,得到至少一个分割短句;
相似度分值计算子模块,用于利用预先训练好的第一神经网络模型,计算每一个所述分割短句与引诱片段表中每个引诱片段的相似度分值,其中,所述引诱片段表中包含预先根据历史数据统计得到的多个引诱片段;
相似度分值比较子模块,用于比较所述相似度分值与第二预设阈值,根据比较结果确定各个所述分割短句是否为引诱片段,并统计所述标题中所述引诱片段个数。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第一神经网络模型训练模块,用于训练RNN模型;
所述第一神经网络模型训练模块包括:
样本采集子模块,用于从搜索引擎的用户点击日志中,将用户有点击搜索结果作为正样本,将用户无点击搜索结果作为负样本;
构建样本对子模块,用于将一个所述正样本和一个所述负样本组成样本对,得到多个样本对;
RNN模型训练子模块,用于将所述多个样本对作为训练数据进行训练,并得到所述RNN模型参数。
12.根据权利要求8所述的装置,其特征在于,所述特征提取模块,还包括:
语义分值计算子模块,用于利用预先训练好的第二神经网络模型,计算所述标题的语义分值作为所述语义特征;
其中,所述语义分值表示所述标题是否为标题党的二分类计算得分。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第二神经网络模型训练模块,用于训练CNN模型;
所述第二神经网络模型训练模块包括:
第一标注训练数据子模块,用于获取带有标注的训练数据,所述标注表示训练数据是否为标题党数据;
CNN模型训练子模块,用于根据所述标注训练数据对CNN模型进行训练。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
决策模型训练模块,用于训练GBDT模型;
所述决策模型训练模块包括:
第二标注训练数据子模块,用于获取带有标注的训练数据,所述标注表示训练数据是否为标题党数据;
标注训练数据特征提取子模块,用于获取所述标注训练数据的文本统计特征和语义特征;
GBDT模型训练子模块,用于根据所述标注训练数据中的文本统计特征和语义特征训练得到GBDT模型。
15.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的标题党识别方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的标题党识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710720242.1A CN107491436A (zh) | 2017-08-21 | 2017-08-21 | 一种标题党识别方法和装置、服务器、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710720242.1A CN107491436A (zh) | 2017-08-21 | 2017-08-21 | 一种标题党识别方法和装置、服务器、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107491436A true CN107491436A (zh) | 2017-12-19 |
Family
ID=60645528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710720242.1A Pending CN107491436A (zh) | 2017-08-21 | 2017-08-21 | 一种标题党识别方法和装置、服务器、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107491436A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304379A (zh) * | 2018-01-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
CN108429920A (zh) * | 2018-02-06 | 2018-08-21 | 北京奇虎科技有限公司 | 一种处理标题党视频的方法和装置 |
CN108491389A (zh) * | 2018-03-23 | 2018-09-04 | 杭州朗和科技有限公司 | 点击诱饵标题语料识别模型训练方法和装置 |
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN109299477A (zh) * | 2018-11-30 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 用于生成文本标题的方法和装置 |
CN109376229A (zh) * | 2018-12-04 | 2019-02-22 | 国网江西省电力有限公司信息通信分公司 | 一种基于卷积神经网络的点击诱饵检测方法 |
CN109492108A (zh) * | 2018-11-22 | 2019-03-19 | 上海唯识律简信息科技有限公司 | 基于深度学习的多级融合文档分类方法和系统 |
CN109614625A (zh) * | 2018-12-17 | 2019-04-12 | 北京百度网讯科技有限公司 | 标题正文相关度的确定方法、装置、设备及存储介质 |
CN109635111A (zh) * | 2018-12-04 | 2019-04-16 | 国网江西省电力有限公司信息通信分公司 | 一种基于网络迁移的新闻点击诱饵检测方法 |
CN110084136A (zh) * | 2019-04-04 | 2019-08-02 | 北京工业大学 | 基于超像素crf模型的上下文优化室内场景语义标注方法 |
CN110210022A (zh) * | 2019-05-22 | 2019-09-06 | 北京百度网讯科技有限公司 | 标题识别方法及装置 |
CN110322877A (zh) * | 2019-05-06 | 2019-10-11 | 百度在线网络技术(北京)有限公司 | 语音解析方法和装置、计算机可读介质 |
CN111726653A (zh) * | 2020-06-28 | 2020-09-29 | 北京百度网讯科技有限公司 | 视频管理方法及设备、电子设备和介质 |
CN112800321A (zh) * | 2021-01-05 | 2021-05-14 | 百威投资(中国)有限公司 | 基于关键词检索的歧义帖子识别方法和计算机设备 |
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662987A (zh) * | 2012-03-14 | 2012-09-12 | 华侨大学 | 一种基于百度百科的网络文本语义的分类方法 |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN104915399A (zh) * | 2015-05-29 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 基于新闻标题的推荐数据处理方法及系统 |
US20170005943A1 (en) * | 2015-06-30 | 2017-01-05 | Hewlett-Packard Development Company, L.P. | Maximum transmission unit installation for switches in a software-defined network |
CN106528694A (zh) * | 2016-10-31 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义判定处理方法和装置 |
-
2017
- 2017-08-21 CN CN201710720242.1A patent/CN107491436A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662987A (zh) * | 2012-03-14 | 2012-09-12 | 华侨大学 | 一种基于百度百科的网络文本语义的分类方法 |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN104915399A (zh) * | 2015-05-29 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 基于新闻标题的推荐数据处理方法及系统 |
US20170005943A1 (en) * | 2015-06-30 | 2017-01-05 | Hewlett-Packard Development Company, L.P. | Maximum transmission unit installation for switches in a software-defined network |
CN106528694A (zh) * | 2016-10-31 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义判定处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
ABHIJNAN CHAKRABORTY 等: "Stop Clickbait: Detecting and Preventing Clickbaits in Online News Media", 《2016 IEEE/ACM INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORKS ANALYSIS AND MINING (ASONAM)》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304379B (zh) * | 2018-01-15 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
CN108304379A (zh) * | 2018-01-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
CN108429920A (zh) * | 2018-02-06 | 2018-08-21 | 北京奇虎科技有限公司 | 一种处理标题党视频的方法和装置 |
CN108491389B (zh) * | 2018-03-23 | 2021-10-08 | 杭州朗和科技有限公司 | 点击诱饵标题语料识别模型训练方法和装置 |
CN108491389A (zh) * | 2018-03-23 | 2018-09-04 | 杭州朗和科技有限公司 | 点击诱饵标题语料识别模型训练方法和装置 |
CN108875059A (zh) * | 2018-06-29 | 2018-11-23 | 北京百度网讯科技有限公司 | 用于生成文档标签的方法、装置、电子设备和存储介质 |
CN109492108A (zh) * | 2018-11-22 | 2019-03-19 | 上海唯识律简信息科技有限公司 | 基于深度学习的多级融合文档分类方法和系统 |
CN109492108B (zh) * | 2018-11-22 | 2020-12-15 | 上海唯识律简信息科技有限公司 | 基于深度学习的多级融合文档分类方法和系统 |
CN109299477A (zh) * | 2018-11-30 | 2019-02-01 | 北京字节跳动网络技术有限公司 | 用于生成文本标题的方法和装置 |
CN109635111A (zh) * | 2018-12-04 | 2019-04-16 | 国网江西省电力有限公司信息通信分公司 | 一种基于网络迁移的新闻点击诱饵检测方法 |
CN109376229A (zh) * | 2018-12-04 | 2019-02-22 | 国网江西省电力有限公司信息通信分公司 | 一种基于卷积神经网络的点击诱饵检测方法 |
CN109614625A (zh) * | 2018-12-17 | 2019-04-12 | 北京百度网讯科技有限公司 | 标题正文相关度的确定方法、装置、设备及存储介质 |
CN109614625B (zh) * | 2018-12-17 | 2022-06-17 | 北京百度网讯科技有限公司 | 标题正文相关度的确定方法、装置、设备及存储介质 |
CN110084136A (zh) * | 2019-04-04 | 2019-08-02 | 北京工业大学 | 基于超像素crf模型的上下文优化室内场景语义标注方法 |
CN110322877A (zh) * | 2019-05-06 | 2019-10-11 | 百度在线网络技术(北京)有限公司 | 语音解析方法和装置、计算机可读介质 |
CN110210022A (zh) * | 2019-05-22 | 2019-09-06 | 北京百度网讯科技有限公司 | 标题识别方法及装置 |
CN110210022B (zh) * | 2019-05-22 | 2022-12-27 | 北京百度网讯科技有限公司 | 标题识别方法及装置 |
CN111726653A (zh) * | 2020-06-28 | 2020-09-29 | 北京百度网讯科技有限公司 | 视频管理方法及设备、电子设备和介质 |
CN111726653B (zh) * | 2020-06-28 | 2023-07-14 | 北京百度网讯科技有限公司 | 视频管理方法及设备、电子设备和介质 |
CN112800321A (zh) * | 2021-01-05 | 2021-05-14 | 百威投资(中国)有限公司 | 基于关键词检索的歧义帖子识别方法和计算机设备 |
CN112800321B (zh) * | 2021-01-05 | 2023-01-20 | 百威投资(中国)有限公司 | 基于关键词检索的歧义帖子识别方法和计算机设备 |
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN112966103B (zh) * | 2021-02-05 | 2022-04-19 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491436A (zh) | 一种标题党识别方法和装置、服务器、存储介质 | |
US20220147715A1 (en) | Text processing method, model training method, and apparatus | |
WO2020042925A1 (zh) | 人机对话方法、装置、电子设备及计算机可读介质 | |
US20190188326A1 (en) | Domain specific natural language understanding of customer intent in self-help | |
WO2020024951A1 (zh) | 多义词词义学习以及搜索结果显示 | |
CN108073568A (zh) | 关键词提取方法和装置 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN110222182B (zh) | 一种语句分类方法及相关设备 | |
CN111274365B (zh) | 基于语义理解的智能问诊方法、装置、存储介质及服务器 | |
JP7403605B2 (ja) | マルチターゲット画像テキストマッチングモデルのトレーニング方法、画像テキスト検索方法と装置 | |
US20220318275A1 (en) | Search method, electronic device and storage medium | |
CN111414746B (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
CN110705247B (zh) | 基于χ2-C的文本相似度计算方法 | |
WO2017091985A1 (zh) | 停用词识别方法与装置 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
KR20200096402A (ko) | 커뮤니티 질의 응답 데이터의 검증 방법, 장치, 컴퓨터 기기 및 저장 매체 | |
US11275994B2 (en) | Unstructured key definitions for optimal performance | |
CN110825868A (zh) | 一种基于话题热度的文本推送方法、终端设备及存储介质 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
US20220198358A1 (en) | Method for generating user interest profile, electronic device and storage medium | |
KR20220109363A (ko) | 이미지 검색 방법, 장치 및 시스템 | |
Song | Sentiment analysis of Japanese text and vocabulary learning based on natural language processing and SVM | |
CN113569118B (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN114782719A (zh) | 一种特征提取模型的训练方法、对象检索方法以及装置 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171219 |