CN110210022B - 标题识别方法及装置 - Google Patents

标题识别方法及装置 Download PDF

Info

Publication number
CN110210022B
CN110210022B CN201910430550.XA CN201910430550A CN110210022B CN 110210022 B CN110210022 B CN 110210022B CN 201910430550 A CN201910430550 A CN 201910430550A CN 110210022 B CN110210022 B CN 110210022B
Authority
CN
China
Prior art keywords
title
score
identified
category
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910430550.XA
Other languages
English (en)
Other versions
CN110210022A (zh
Inventor
徐梦笛
杨宇鸿
付志宏
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910430550.XA priority Critical patent/CN110210022B/zh
Publication of CN110210022A publication Critical patent/CN110210022A/zh
Application granted granted Critical
Publication of CN110210022B publication Critical patent/CN110210022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种标题识别方法及装置,其中,该方法包括:将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果,并根据待识别标题在各个标题类别上的样本特征词匹配结果,计算待识别标题在各个标题类别的评分,以及根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,以及根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,然后,结合标题在文本特征维度以及语义维度上的评分,准确确定出了标题是否为目标标题。由此,解决了现有标题识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高的特点。

Description

标题识别方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种标题识别方法及装置。
背景技术
随着互联网的发展,互联网平台涌现出了很多的在线新闻媒体(内容生产商,包括专业媒体、自媒体等),该类新闻媒体其收入与读者对它们所产生内容的点击量成正比。因此,为了获取高点击量、竞争优势、影响力以及高利润,该类新闻媒体往往会在所生产内容的标题上做文章,生产出与内容完全不符的标题,以吸引读者的注意力,这种标题为具有点击诱饵的标题(clickbaits),即俗称的标题党。
引诱性极强的标题短期内能吸引用户点击,但过度的运用此类手段,不但不能引起读者的好奇心,反而降低了平台的整体文章质量,造成使用者黏性下降、优质内容发布者流失,恶性循环,直至毁掉内容发布平台品牌形象。因此,如何准确识别出标题党对内容发布平台是十分重要的。
相关技术中,识别标题党的方法,通常是基本为人工分析、观察后设定的特征词典(特征词典包括感情色彩浓重的引诱词、夸张词、引诱片段等)进行对标题过滤。如果候选标题中包含词典中的任何一个特征词典,则该候选标题会被认为是过度引诱性标题。然而,在实现本申请的过程中发明人发现上述标题党的识别方法存在误伤大、泛化能力差、识别准确率不高等问题,实际应用的效果并不理想。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种标题识别方法。
本申请的第二个目的在于提出一种标题识别装置。
本申请的第三个目的在于提出一种电子设备。
本申请的第四个目的在于提出一种计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种标题识别方法,包括:将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果;针对各个标题类别,根据待识别标题在当前标题类别上的样本特征词匹配结果,确定待识别标题在所述当前标题类别上匹配到的目标样本特征词,根据所述目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分,其中,所述影响因子用于指示所述目标样本特征词在所述当前标题类别上对确定目标标题的影响程度;根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分;根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分;根据所述第一评分和所述第二评分,确定待识别标题是否为目标标题。
本申请实施例提供的标题识别方法,将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果,并根据待识别标题在各个标题类别上的样本特征词匹配结果,计算待识别标题在各个标题类别的评分,以及根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,以及根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,然后,结合标题在文本特征维度以及语义维度上的评分,准确确定出了标题是否为目标标题。由此,解决了现有标题识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高的特点。
在本申请的一个实施例中,所述根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,包括:
获取待识别标题在各个标题类别上的概率值;
根据待识别标题在各个标题类别上的概率值和评分,确定待识别标题在文本特征维度上的第一评分。
在本申请的一个实施例中,所述获取待识别标题在各个标题类别上的概率值,包括:根据与待识别标题对应的待发布内容,确定待识别标题在各个标题类别上的概率值。
在本申请的一个实施例中,所述根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,包括:
将待识别标题的语义特征信息输入到预先训练的语义分析模型,以通过所述语义分析模型,确定待识别标题在语义特征维度上的第二评分。
在本申请的一个实施例中,在所述根据所述目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分之前,还包括:
根据所述当前标题类别的样本特征词表,获取所述目标样本特征词的影响因子。
在本申请的一个实施例中,所述根据所述第一评分和所述第二评分,确定待识别标题是否为目标标题,包括:
判断所述第一评分是否超过第一评分阈值,并判断所述第二评分是否超过第二评分阈值;
如果所述第一评分超过第一评分阈值,和/或所述第二评分超过第二评分阈值,则确定待识别标题为目标标题。
为达上述目的,本申请第二方面实施例提出了一种标题识别装置,包括:匹配模块,用于将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果;处理模块,用于针对各个标题类别,根据待识别标题在当前标题类别上的样本特征词匹配结果,确定待识别标题在所述当前标题类别上匹配到的目标样本特征词,根据所述目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分,其中,所述影响因子用于指示所述目标样本特征词在所述当前标题类别上对确定目标标题的影响程度;第一确定模块,用于根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分;第二确定模块,用于根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分;第三确定模块,用于根据所述第一评分和所述第二评分,确定待识别标题是否为目标标题。
在本申请的一个实施例中,所述第一确定模块,包括:
获取单元,用于获取待识别标题在各个标题类别上的概率值;
确定单元,用于根据待识别标题在各个标题类别上的概率值和评分,确定待识别标题在文本特征维度上的第一评分。
在本申请的一个实施例中,所述获取单元,具体用于:
根据与待识别标题对应的待发布内容,确定待识别标题在各个标题类别上的概率值。
在本申请的一个实施例中,所述第二确定模块,具体用于:
将待识别标题的语义特征信息输入到预先训练的语义分析模型,以通过所述语义分析模型,确定待识别标题在语义特征维度上的第二评分。
在本申请的一个实施例中,还包括:
获取模块,用于根据所述当前标题类别的样本特征词表,获取所述目标样本特征词的影响因子。
在本申请的一个实施例中,所述第三确定模块,具体用于:
判断所述第一评分是否超过第一评分阈值,并判断所述第二评分是否超过第二评分阈值;
如果所述第一评分超过第一评分阈值,和/或所述第二评分超过第二评分阈值,则确定待识别标题为目标标题。
本申请实施例提供的标题识别装置,将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果,并根据待识别标题在各个标题类别上的样本特征词匹配结果,计算待识别标题在各个标题类别的评分,以及根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,以及根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,然后,结合标题在文本特征维度以及语义维度上的评分,准确确定出了标题是否为目标标题。由此,解决了现有标题识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高的特点。
为达上述目的,本申请第三方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的标题识别方法。
为了实现上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,当所述存储介质中的指令被处理器执行时,实现如上所述的标题识别方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种标题识别方法的流程示意图;
图2为本申请实施例提供的一种标题识别装置的结构示意图;
图3为本申请实施例提供的另一种标题识别装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的标题识别方法及装置。
图1为本申请实施例提供的一种标题识别方法的流程示意图。
如图1所示,该标题识别方法可以包括:
步骤101,将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果。
其中,需要说明的是,本申请实施例的标题识别方法应用在标题识别装置中,该标题识别装置可以设置在具有标题识别需求的平台中,该平台可以配置在电子设备中,该电子设备可以为终端设备,也可以为服务器,该实施例对电子设备不作限定。
其中,本实施例以该标题识别方法应用在具体文章管理功能的内容发布平台(下述将内容发布平台,简称为平台)为例进行描述。
在本实施例中,目标标题是指具有点击诱饵的标题,该类标题通常使用一些夸张、与现实存在较大差距的短语或短句等具有显著特点的文本特征来吸引读者的注意力。也就是说,本实施例中的目标标题是指标题党。
需要说明的是,本实施例以目标标题为标题党为例进行描述。
其中,本实施例中的标题类别是按照标题对应的文章内容所属于的类型,对标题进行分类的。可以理解的是,标题类别是平台中预先设置的。
标题类别可以包括但不限于新闻标题、娱乐标题、小说标题、星座风水标题等。
其中,标题类别对应的样本特征词表是基于对大量属于同一标题类别的标题党进行词语分析而得到的。也就是说,标题类别对应的样本特征词表中包括了标题党在标题类别下使用的特征词。
当然,为了方便确定对应特征词的影响因子,标题类别对应的样本特征词表中还可以包括对应特征词在该标题类别下对判断标题为标题党的影响程度。
本实施例中的特征词可以由一个或者多个无序词语组合而成。
例如,标题类别为娱乐类别,娱乐类别对应的样本特征词表可以包括宇宙最帅、绝世美女、宇宙最美等样本特征词。
具体地,对标题进行分词处理,以确定待识别标题中的各个词语,并将待识别标题的各词语与各个标题类别的样本特征词表进行匹配,以确定待识别标题与各个标题类别对应的样本特征词匹配结果。
步骤102,针对各个标题类别,根据待识别标题在当前标题类别上的样本特征词匹配结果,确定待识别标题在当前标题类别上匹配到的目标样本特征词,根据目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分。
其中,影响因子用于指示目标样本特征词在当前标题类别上对确定目标标题的影响程度。
具体地,针对各个标题类别,获取待识别标题在当前标题类别上的样本特征词匹配结果,如果样本特征词匹配结果为空,则待识别标题与当前标题类别的样本特征词表不匹配,也就是说,可以确定该待识别标题中不包含该当前标题类别样本特征词表中的任何样本特征词。
如果样本特征词匹配结果为非空,则根据样本特征词匹配结果,即可确定待识别标题在当前标题类别上匹配到的目标样本特征词。
例如,标题为宇宙最美的明星原来是他,假设明星标题类别对应的样本特征词表中包括宇宙最美、小伙伴等样本特征词,通过将待识别标题的词语与明星标题类别的样本特征词标题进行匹配,根据匹配结果,可确定待识别标题中包括“宇宙最美”,即,“宇宙最美”,为待识别标题与明星标题类别对应的样本特征词匹配结果,根据匹配结果,即可得到匹配到的目标样本特征词为“宇宙最美”,也就是说,待识别标题中命中明星标题类别样本特征词中的目标样本特征词为“宇宙最美”,即,针对明星标题类别,待识别标题中包括“宇宙最美”的样本特征词。
在本实施例中,在根据目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分之前,还可以根据当前标题类别的样本特征词表,获取目标样本特征词的影响因子。也就是说,本实施中可直接通过对应样本特征词表保存样本特征词和以及样本特征词对应的影响因子。
可以理解的是,当然,也可以通过其他方式保存样本特征词的影响因子,作为一种可能的实现方式,可预先保存标题类别、样本特征词和影响因子的对应关系,以通过该对应关系,获取与当前标题类别和目标样本特征词对应的影响因子。
具体地,假设当前标题类别为第j个标题类别,在获取待识别标题在当前标题类别上匹配到的目标样本特征词后,根据目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分,具体公式如下:
Figure RE-GDA0002119754390000061
where I{i∈title}=1if title contains i,0otherwise
其中,cj(title)表示待识别标题在第j个标题类别上的评分,其中,j∈{1,...,M}M表示平台中标题类别的总数量。
I{i∈title}表示待识别标题title中是否包含样本特征词i,其中,nj表示第j个标题类别上样本特征词表中的样本特征词总数量,在待识别标题总包包含样本特征词i时,I{i∈title}的取值为1,在待识别标题中不包含样本特征词时,I{i∈title}的取值为0。
confji代表样本特征词i在第j个标题类别上导致“过度引诱”判定的影响因子。
步骤103,根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分。
在本实施例中,根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,具体可通过下述方式实现:
作为一种可能的实现方式,可获取待识别标题在各个标题类别上的概率值,根据待识别标题在各个标题类别上的概率值和评分,确定待识别标题在文本特征维度上的第一评分。
在本实施例中,获取待识别标题在各个标题类别上的概率值的具体实现过程可以为:根据与标题对应的待发布内容,确定待识别标题在各个标题类别上的概率值。
具体地,可获取与标题对应的待发布内容,并通过预设的分类模型对待发布内容进行分析,以确定待识别标题在各个标题类别上的可能性。
作为另一种可能的实现方式,根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分的具体实现过程可以为:根据待识别标题在各个标题类别上的评分,确定出评分最高的目标标题类别,并将待识别标题在目标标题类别上的评分,作为待识别标题在文本特征维度上的第一评分。
步骤104,根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分。
可以理解的是,在实际应用中,有时标题中每个词语均不属于样本特征词表中的词语,但是,对应标题的整体含义确属于引诱性标题。因此,为了提高准确识别出待识别标题是否为目标标题,在本实施例中,可对待识别标题进行语义分析,以得到该待识别标题的语义特征信息,并将待识别标题的语义特征信息输入到预先训练的语义分析模型,以通过语义分析模型,确定待识别标题在语义特征维度上的第二评分。
其中,语义分析模型是基于对属于目标标题(例如标题党)的大量样本标题的语义特征数据进行训练得到的。
作为一种示例性,可通过深度语义分析模型对标题进行语义分析,以得到待识别标题的语义特征信息。
为了进一步准确确定待识别标题在语义特征维度上的评分,作为一种示例性的实施方式,可对待识别标题中的所有词语进行语义分析,以得到待识别标题整体的第一语义特征信息,并对待识别标题中,除了目标样本特征词后的其他词语进行语义分析,以得到待识别标题去除目标样本特征词后的第二语义特征信息,然后,结合第一语义特征信息和第二语义特征信息,确定待识别标题在语义特征维度上的评分。
作为一种示例性的实施方式,将第一语义特征信息和第二特征语义特征信息,输入到预先训练的标题分析模型,确定待识别标题在语义特征维度上的评分。
步骤105,根据第一评分和第二评分,确定待识别标题是否为目标标题。
在本实施例中,根据第一评分和第二评分,确定待识别标题是否为目标标题,具体实现过程可以为:判断第一评分是否超过第一评分阈值,并判断第二评分是否超过第二评分阈值;如果第一评分超过第一评分阈值,和/或第二评分超过第二评分阈值,则确定待识别标题为目标标题。
其中,可以理解的是,如果第一评分和第二评分均没有超过其各自对应的评分阈值,则确定该待识别标题不是目标标题。
其中,第一评分阈值是根据标题在文本特征维度上的评分,可以确定标题为目标标题的评分临界值。
其中,第二评分阈值是根据标题在语义特征维度上的评分,可以确定标题为标题的评分临界值。
可以理解是,在确定待识别标题为标题党之后,还可以与待发布内容所对应的用户发送提示信息,以提示用户待发布内容的标题为标题党,修改待发布内容的标题。
本申请实施例的标题识别方法,将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果,并根据待识别标题在各个标题类别上的样本特征词匹配结果,计算待识别标题在各个标题类别的评分,以及根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,以及根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,然后,结合标题在文本特征维度以及语义维度上的评分,准确确定出了标题是否为目标标题。由此,解决了现有标题识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高的特点。
图2为本申请实施例提供的一种标题识别装置的结构示意图。
图2所示,该标题识别装置包括匹配模块110、处理模块120、第一确定模块130、第二确定模块140和第三确定模块150,其中:
匹配模块110,用于将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果。
处理模块120,用于针对各个标题类别,根据待识别标题在当前标题类别上的样本特征词匹配结果,确定待识别标题在当前标题类别上匹配到的目标样本特征词,根据目标样本特征词的影响因子,计算待识别标题在当前标题类别上的评分,其中,影响因子用于指示目标样本特征词在当前标题类别上对确定目标标题的影响程度。
第一确定模块130,用于根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分。
第二确定模块140,用于根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分。
第三确定模块150,用于根据第一评分和第二评分,确定待识别标题是否为目标标题。
在本申请的一个实施例中,在图2所示的装置实施例的基础上,如图3所示,该第一确定模块130,包括:
获取单元131,用于获取待识别标题在各个标题类别上的概率值。
确定单元132,用于根据待识别标题在各个标题类别上的概率值和评分,确定待识别标题在文本特征维度上的第一评分。
在本申请的一个实施例中,获取单元131,具体用于:根据与标题对应的待发布内容,确定待识别标题在各个标题类别上的概率值。
在本申请的一个实施例中,第二确定模块140,具体用于:将标题的语义特征信息输入到预先训练的语义分析模型,以通过语义分析模型,确定待识别标题在语义特征维度上的第二评分。
在本申请的一个实施例中,如图3所示,该装置还可以包括:
获取模块160,用于根据当前标题类别的样本特征词表,获取目标样本特征词的影响因子。
在本申请的一个实施例中,上述第三确定模块140,具体用于:判断第一评分是否超过第一评分阈值,并判断第二评分是否超过第二评分阈值。如果第一评分超过第一评分阈值,和/或第二评分超过第二评分阈值,则确定待识别标题为目标标题。
其中,需要说明的是,前述对标题识别方法实施例的解释说明也适用于该实施例的标题识别装置,此处不再赘述。
本申请实施例提供的标题识别装置,将待识别标题的各个词语与各个标题类别的样本特征词表进行匹配,以得到待识别标题在各个标题类别上的样本特征词匹配结果,并根据待识别标题在各个标题类别上的样本特征词匹配结果,计算待识别标题在各个标题类别的评分,以及根据待识别标题在各个标题类别上的评分,确定待识别标题在文本特征维度上的第一评分,以及根据待识别标题的语义特征信息,确定待识别标题在语义特征维度上的第二评分,然后,结合标题在文本特征维度以及语义维度上的评分,准确确定出了标题是否为目标标题。由此,解决了现有标题识别方法中误伤大、泛化能力差以及识别准确率不高的问题,具有准确率高的特点。
图4为本申请实施例提供的一种电子设备的结构示意图。该电子设备包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行程序时实现上述实施例中提供的标题识别方法。
进一步地,电子设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行程序时实现上述实施例的标题识别方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上的标题识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种标题识别方法,其特征在于,包括:
将待识别标题中的各个词语与各个标题类别的样本特征词表进行匹配,以得到所述待识别标题在各个标题类别上的样本特征词匹配结果;
针对各个标题类别,根据所述待识别标题在当前标题类别上的样本特征词匹配结果,确定所述待识别标题在所述当前标题类别上匹配到的目标样本特征词,根据所述目标样本特征词的影响因子,计算所述待识别标题在当前标题类别上的评分,其中,所述影响因子用于指示所述目标样本特征词在所述当前标题类别上对确定目标标题的影响程度;
根据与标题对应的待发布内容,确定所述待识别标题在各个标题类别上的概率值;根据所述待识别标题在各个标题类别上的概率值和评分,确定所述待识别标题在文本特征维度上的第一评分;
根据所述待识别标题的语义特征信息,确定所述待识别标题在语义特征维度上的第二评分;
根据所述第一评分和所述第二评分,确定所述待识别标题是否为目标标题。
2.如权利要求1所述的方法,其特征在于,所述根据所述待识别标题的语义特征信息,确定所述待识别标题在语义特征维度上的第二评分,包括:
将所述待识别标题的语义特征信息输入到预先训练的语义分析模型,以通过所述语义分析模型,确定所述待识别标题在语义特征维度上的第二评分。
3.如权利要求1所述的方法,其特征在于,在所述根据所述目标样本特征词的影响因子,计算所述待识别标题在当前标题类别上的评分之前,还包括:
根据所述当前标题类别的样本特征词表,获取所述目标样本特征词的影响因子。
4.如权利要求1-3任一项所述的方法,其特征在于,所述根据所述第一评分和所述第二评分,确定所述待识别标题是否为目标标题,包括:
判断所述第一评分是否超过第一评分阈值,并判断所述第二评分是否超过第二评分阈值;
如果所述第一评分超过第一评分阈值,和/或所述第二评分超过第二评分阈值,则确定所述待识别标题为目标标题。
5.一种标题识别装置,其特征在于,包括:
匹配模块,用于将待识别标题中的各个词语与各个标题类别的样本特征词表进行匹配,以得到所述待识别标题在各个标题类别上的样本特征词匹配结果;
处理模块,用于针对各个标题类别,根据所述待识别标题在当前标题类别上的样本特征词匹配结果,确定所述待识别标题在所述当前标题类别上匹配到的目标样本特征词,根据所述目标样本特征词的影响因子,计算所述待识别标题在当前标题类别上的评分,其中,所述影响因子用于指示所述目标样本特征词在所述当前标题类别上对确定目标标题的影响程度;
第一确定模块,用于根据所述待识别标题在各个标题类别上的评分,确定所述待识别标题在文本特征维度上的第一评分;
第二确定模块,用于根据所述待识别标题的语义特征信息,确定所述待识别标题在语义特征维度上的第二评分;
第三确定模块,用于根据所述第一评分和所述第二评分,确定所述待识别标题是否为目标标题;
所述第一确定模块,包括:
获取单元,用于根据与所述待识别标题对应的待发布内容,确定所述待识别标题在各个标题类别上的概率值;
确定单元,用于根据所述待识别标题在各个标题类别上的概率值和评分,确定所述待识别标题在文本特征维度上的第一评分。
6.如权利要求5所述的装置,其特征在于,所述第二确定模块,具体用于:
将所述待识别标题的语义特征信息输入到预先训练的语义分析模型,以通过所述语义分析模型,确定所述待识别标题在语义特征维度上的第二评分。
7.如权利要求5所述的装置,其特征在于,还包括:
获取模块,用于根据所述当前标题类别的样本特征词表,获取所述目标样本特征词的影响因子。
8.如权利要求5-7任一项所述的装置,其特征在于,所述第三确定模块,具体用于:
判断所述第一评分是否超过第一评分阈值,并判断所述第二评分是否超过第二评分阈值;
如果所述第一评分超过第一评分阈值,和/或所述第二评分超过第二评分阈值,则确定所述待识别标题为目标标题。
9.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一所述的标题识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的标题识别方法。
CN201910430550.XA 2019-05-22 2019-05-22 标题识别方法及装置 Active CN110210022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910430550.XA CN110210022B (zh) 2019-05-22 2019-05-22 标题识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910430550.XA CN110210022B (zh) 2019-05-22 2019-05-22 标题识别方法及装置

Publications (2)

Publication Number Publication Date
CN110210022A CN110210022A (zh) 2019-09-06
CN110210022B true CN110210022B (zh) 2022-12-27

Family

ID=67788099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910430550.XA Active CN110210022B (zh) 2019-05-22 2019-05-22 标题识别方法及装置

Country Status (1)

Country Link
CN (1) CN110210022B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674414A (zh) * 2019-09-20 2020-01-10 北京字节跳动网络技术有限公司 目标信息识别方法、装置、设备及存储介质
CN111639160A (zh) * 2020-05-29 2020-09-08 达闼机器人有限公司 领域识别的方法、交互的方法、电子设备及存储介质
CN112966103B (zh) * 2021-02-05 2022-04-19 成都信息工程大学 一种基于多任务学习的混合注意力机制文本标题匹配方法
CN113239200B (zh) * 2021-05-20 2022-07-12 东北农业大学 内容识别分类方法、装置、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491436A (zh) * 2017-08-21 2017-12-19 北京百度网讯科技有限公司 一种标题党识别方法和装置、服务器、存储介质
CN108304379A (zh) * 2018-01-15 2018-07-20 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN108491389A (zh) * 2018-03-23 2018-09-04 杭州朗和科技有限公司 点击诱饵标题语料识别模型训练方法和装置
WO2019043381A1 (en) * 2017-08-29 2019-03-07 Factmata Limited CONTENT RATING
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074500B2 (en) * 2017-06-20 2021-07-27 Battelle Memorial Institute Prediction of social media postings as trusted news or as types of suspicious news

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491436A (zh) * 2017-08-21 2017-12-19 北京百度网讯科技有限公司 一种标题党识别方法和装置、服务器、存储介质
WO2019043381A1 (en) * 2017-08-29 2019-03-07 Factmata Limited CONTENT RATING
CN108304379A (zh) * 2018-01-15 2018-07-20 腾讯科技(深圳)有限公司 一种文章识别方法、装置及存储介质
CN108491389A (zh) * 2018-03-23 2018-09-04 杭州朗和科技有限公司 点击诱饵标题语料识别模型训练方法和装置
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Clickbait Detection;Suhaib R. Khater etc.;《ICSIE"18》;20180302;全文 *
Stop Clickbait: Detecting and preventing clickbaits in online news media;Abhijnan Chakraborty etc.;《2016 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM)》;20161124;全文 *
Thai Clickbait Detection Algorithms Using Natural Language Processing with Machine Learning Techniques;Praphan Klairit;《2018 International Conference on Engineering, Applied Sciences, and Technology (ICEAST)》;20180816;全文 *
基于改进型VSM-HowNet融合相似度算法研究;肖尚 等;《吉林大学学报(信息科学版)》;20181115;全文 *
识别网络新闻标题党;张晓春;《文学教育(上)》;20180205;全文 *

Also Published As

Publication number Publication date
CN110210022A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210022B (zh) 标题识别方法及装置
CN110543592B (zh) 信息搜索方法、装置以及计算机设备
CN110188350B (zh) 文本一致性计算方法及装置
CN108829893A (zh) 确定视频标签的方法、装置、存储介质和终端设备
CN108897723B (zh) 场景对话文本识别方法、装置以及终端
CN109508373B (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
CN110705286A (zh) 一种基于评论信息的数据处理方法及装置
CN108090211B (zh) 热点新闻推送方法和装置
CN107767273B (zh) 基于社交数据的资产配置方法、电子装置及介质
CN106776566B (zh) 情感词汇的识别方法及装置
CN108287916B (zh) 一种资源推荐方法
WO2015021937A1 (zh) 用户推荐方法和装置
CN107436916B (zh) 智能提示答案的方法及装置
CN112434194A (zh) 基于知识图谱的相似用户识别方法、装置、设备及介质
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN110738046A (zh) 观点抽取方法及装置
CN108255803B (zh) 文档情感的判断方法和装置
CN112463949A (zh) 数据召回方法与系统、交互方法及交互系统
CN108536671B (zh) 文本数据的情感指数识别方法和系统
CN109710840B (zh) 文章内容深度的评估方法及装置
CN111782789A (zh) 智能问答方法与系统
CN115617998A (zh) 一种基于智能营销场景的文本分类方法及装置
CN106570116B (zh) 基于人工智能的搜索结果的聚合方法及装置
CN113177061B (zh) 一种搜索方法、装置和电子设备
CN110162614B (zh) 问题信息提取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant