CN108460150A - 新闻标题的处理方法及装置 - Google Patents

新闻标题的处理方法及装置 Download PDF

Info

Publication number
CN108460150A
CN108460150A CN201810247228.9A CN201810247228A CN108460150A CN 108460150 A CN108460150 A CN 108460150A CN 201810247228 A CN201810247228 A CN 201810247228A CN 108460150 A CN108460150 A CN 108460150A
Authority
CN
China
Prior art keywords
news
original header
title
result
headline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810247228.9A
Other languages
English (en)
Inventor
邬小鹏
余晓龙
张华泉
王浩
张向征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201810247228.9A priority Critical patent/CN108460150A/zh
Publication of CN108460150A publication Critical patent/CN108460150A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种新闻标题的处理方法及装置。该方法包括:获取新闻资源,并从新闻资源中提取新闻的原始标题;对新闻的原始标题进行词法分析,得到词法分析结果;根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果;基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。本发明实施例利用词法句法分析对新闻标题进行压缩式摘要,使新闻标题中的主干内容被提取的同时尽可能保留了原新闻标题中的重点信息,能够得到更准确、更严谨的新闻标题。

Description

新闻标题的处理方法及装置
技术领域
本发明涉及互联网应用技术领域,特别是一种新闻标题的处理方法及装 置。
背景技术
在当今信息量巨大的互联网中,网络用户在使用搜索引擎进行新闻搜索 时,一般基于新闻标题的内容与描述筛选其需要的内容,进而产生点击行为, 因此新闻标题对相应新闻信息的概括性、准确性以及关键信息覆盖能力,很大 程度上决定了用户对该搜索引擎的使用体验。
目前的搜索引擎产品中,尤其是新闻类搜索,大多直接使用新闻的原始标 题作为搜索展现结果的标题,然而新闻原始标题为了博人眼球、增加点击量, 往往会充斥大量冗余信息,甚至过多强调某个侧面以偏概全,导致标题不严谨、 不准确,还可能会对用户产生错误引导。这样的标题在新闻主动推送产品中, 会直接导致用户无法快速获取新闻关键信息,影响用户的体验,降低用户对于 推送内容的信息获取欲望,以及降低对推送产品的粘性。
因此,针对新闻的原始标题,去除冗余信息,以得到更准确、更严谨的新 闻标题成为亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地 解决上述问题的新闻标题的处理方法及装置。
依据本发明的一方面,提供了一种新闻标题的处理方法,包括:
获取新闻资源,并从新闻资源中提取新闻的原始标题;
对新闻的原始标题进行词法分析,得到词法分析结果;
根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分 析,得到句法分析结果;
基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句 子主干内容,作为新闻候选标题。
可选地,所述获取新闻资源,并从新闻资源中提取新闻的原始标题,包括:
获取网络爬虫抓取的关于新闻资源的抓取日志;
从抓取日志中提取新闻的原始标题。
可选地,所述从抓取日志中提取新闻的原始标题,包括:
对于抓取日志中关于新闻资源的各条记录,提取该条记录的指定字段的字 段值作为新闻的原始标题。
可选地,所述对新闻的原始标题进行词法分析,得到词法分析结果,包括:
对新闻的原始标题进行分词处理,得到多个分词;
对所述多个分词中的各分词分别进行词性标注和实体类别标注,将词性标 注结果和实体类别标注结果作为词法分析结果。
可选地,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:
基于字符串匹配的分词方法;
基于语义理解的分词方法;
基于统计的分词方法。
可选地,对所述多个分词中的各分词进行实体类别标注,包括:
采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注 实体类别。
可选地,所述实体类别包括下列任意之一:
人名、地名、机构名、品牌名、软件名。
可选地,根据所述词法分析结果,采用句法分析算法对新闻的原始标题进 行句法分析,得到句法分析结果,包括:
基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法 分析,识别各分词的依存节点下标和依存类型。
可选地,所述基于各分词的词性标注和实体类别标注,对新闻的原始标题 进行依存句法分析,识别各分词的依存节点下标和依存类型,包括:
通过各分词的词性标注和实体类别标注,对新闻的原始标题的语法成分进 行识别;
分析识别出的各语法成分之间的依存关系,得到各分词的依存节点下标和 依存类型。
可选地,基于所述词法分析结果和所述句法分析结果,提取新闻的原始标 题中的句子主干内容,包括:
根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生 成句法树,进而通过对句法树的筛选与剪枝,生成新闻的原始标题的句子主干 内容。
可选地,所述根据各分词的词性标注、实体类别标注、依存节点下标以及 依存类型,生成句法树,进而通过对句法树的筛选与剪枝,生成新闻的原始标 题的句子主干内容,包括:
选取依存类型中核心关系对应的head主节点为主干谓语;
若主节点分词后词性为名词词性,则对所有特定类比的浅层依存的名词进 行归并更新谓语;
若主节点分词后词性为动词词性,则设定主节点为谓语动词;
对于否定词定语进行识别并归并入谓语。
可选地,所述方法还包括:
识别主谓关系节点,对于主语周边节点进行归并,对并列关系节点依照主 语规则保持名词词性部分,其余进行节点剪枝,并设置主语节点。
可选地,所述方法还包括:
根据宾语类型,若为名词对宾语进行识别,并列关系节点全部去除,并设 置宾语节点。
可选地,在基于所述词法分析结果和所述句法分析结果,提取新闻的原始 标题中的句子主干内容,作为新闻候选标题之后,所述方法还包括:
利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进行评 估,进而根据评估结果确定新闻摘要标题。
可选地,利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量 进行评估,包括:
采用神经机器翻译模型对新闻的原始标题进行压缩式处理,得到新闻衡量 标题;
对所述新闻衡量标题和所述新闻候选标题,使用语言模型进行句子在该语 言模型下的质量得分计算;
将计算得到的质量得分结果,作为对所述新闻候选标题的质量进行评估的 评估结果。
可选地,所述根据评估结果确定新闻摘要标题,包括:
在所述新闻衡量标题和所述新闻候选标题中,根据计算得到的质量得分结 果,确定质量得分最高的标题作为待选标题;
若该候选标题对应的质量得分大于质量分数阈值,则判断该待选标题是否 满足预设审核条件,若是,则将该待选标题确定为新闻摘要标题。
可选地,所述该待选标题是否满足预设审核条件包括下列至少之一:
该待选标题是否是主谓结构语法;
该待选标题是否是主谓结构语法,且谓语动词含动词成分;
该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈值;
该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。
可选地,在根据评估结果确定新闻摘要标题之后,所述方法还包括:
将所述新闻摘要标题提供给实时热点产品模块,从而由实时热点产品模块 将所述新闻摘要标题作为实时热点进行展示。
依据本发明的另一方面,还提供了一种新闻标题的处理装置,包括:
原始标题提取模块,适于获取新闻资源,并从新闻资源中提取新闻的原始 标题;
词法分析模块,适于对新闻的原始标题进行词法分析,得到词法分析结果;
句法分析模块,适于根据所述词法分析结果,采用句法分析算法对新闻的 原始标题进行句法分析,得到句法分析结果;
句子主干提取模块,适于基于所述词法分析结果和所述句法分析结果,提 取新闻的原始标题中的句子主干内容,作为新闻候选标题。
可选地,所述原始标题提取模块还适于:
获取网络爬虫抓取的关于新闻资源的抓取日志;
从抓取日志中提取新闻的原始标题。
可选地,所述原始标题提取模块还适于:
对于抓取日志中关于新闻资源的各条记录,提取该条记录的指定字段的字 段值作为新闻的原始标题。
可选地,所述词法分析模块还适于:
对新闻的原始标题进行分词处理,得到多个分词;
对所述多个分词中的各分词分别进行词性标注和实体类别标注,将词性标 注结果和实体类别标注结果作为词法分析结果。
可选地,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:
基于字符串匹配的分词方法;
基于语义理解的分词方法;
基于统计的分词方法。
可选地,所述词法分析模块还适于:
采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注 实体类别。
可选地,所述实体类别包括下列任意之一:
人名、地名、机构名、品牌名、软件名。
可选地,所述句法分析模块还适于:
基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法 分析,识别各分词的依存节点下标和依存类型。
可选地,所述句法分析模块还适于:
通过各分词的词性标注和实体类别标注,对新闻的原始标题的语法成分进 行识别;
分析识别出的各语法成分之间的依存关系,得到各分词的依存节点下标和 依存类型。
可选地,所述句子主干提取模块还适于:
根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生 成句法树,进而通过对句法树的筛选与剪枝,生成新闻的原始标题的句子主干 内容。
可选地,所述句子主干提取模块还适于:
选取依存类型中核心关系对应的head主节点为主干谓语;
若主节点分词后词性为名词词性,则对所有特定类比的浅层依存的名词进 行归并更新谓语;
若主节点分词后词性为动词词性,则设定主节点为谓语动词;
对于否定词定语进行识别并归并入谓语。
可选地,所述句子主干提取模块还适于:
识别主谓关系节点,对于主语周边节点进行归并,对并列关系节点依照主 语规则保持名词词性部分,其余进行节点剪枝,并设置主语节点。
可选地,所述句子主干提取模块还适于:
根据宾语类型,若为名词对宾语进行识别,并列关系节点全部去除,并设 置宾语节点。
可选地,所述装置还包括:
标题质量评估模块,适于在所述句子主干提取模块基于所述词法分析结果 和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选 标题之后,利用新闻标题的摘要质量评估策略,对所述新闻候选标题的质量进 行评估,进而根据评估结果确定新闻摘要标题。
可选地,所述标题质量评估模块还适于:
采用神经机器翻译模型对新闻的原始标题进行压缩式处理,得到新闻衡量 标题;
对所述新闻衡量标题和所述新闻候选标题,使用语言模型进行句子在该语 言模型下的质量得分计算;
将计算得到的质量得分结果,作为对所述新闻候选标题的质量进行评估的 评估结果。
可选地,所述标题质量评估模块还适于:
在所述新闻衡量标题和所述新闻候选标题中,根据计算得到的质量得分结 果,确定质量得分最高的标题作为待选标题;
若该候选标题对应的质量得分大于质量分数阈值,则判断该待选标题是否 满足预设审核条件,若是,则将该待选标题确定为新闻摘要标题。
可选地,所述该待选标题是否满足预设审核条件包括下列至少之一:
该待选标题是否是主谓结构语法;
该待选标题是否是主谓结构语法,且谓语动词含动词成分;
该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈值;
该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。
可选地,所述装置还包括:
提供模块,适于在所述标题质量评估模块根据评估结果确定新闻摘要标题 之后,将所述新闻摘要标题提供给实时热点产品模块,从而由实时热点产品模 块将所述新闻摘要标题作为实时热点进行展示。
依据本发明的又一方面,还提供了一种计算机存储介质,所述计算机存储 介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导 致所述计算设备执行根据上述的新闻标题的处理方法。
依据本发明的再一方面,还提供了一种计算设备,包括:处理器;以及存 储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时, 导致所述计算设备执行根据上述的新闻标题的处理方法。
本发明实施例提供了一种新闻标题的处理方法,首先获取新闻资源,并从 新闻资源中提取新闻的原始标题;随后,对新闻的原始标题进行词法分析,得 到词法分析结果;进而,根据词法分析结果,采用句法分析算法对新闻的原始 标题进行句法分析,得到句法分析结果;之后,基于词法分析结果和句法分析 结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。可以看到, 本发明实施例利用词法句法分析对新闻标题进行压缩式摘要,使新闻标题中的 主干内容被提取的同时尽可能保留了原新闻标题中的重点信息,能够得到更准 确、更严谨的新闻标题。
进一步,本发明实施例引入摘要质量评估策略,对新闻候选标题的质量进 行评估,对于摘要质量较好的结果进行自动审核,以降低人工运营审核的成本, 并大幅降低了人工审核造成的摘要推送延迟。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、 特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会 更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领 域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并 不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的 部件。在附图中:
图1示意了根据本发明一实施例的新闻标题的处理方法流程图;
图2A示意了根据本发明一实施例的对新闻的原始标题进行词法分析的方 法流程图;
图2B示意了根据本发明一实施例的对新闻的原始标题进行句法分析的方 法流程图;
图3示意了根据本发明一实施例的提取新闻的原始标题中的句子主干内容 的方法流程图;
图4示意了根据本发明一实施例的对新闻候选标题的质量进行评估的方法 流程图;
图5示意了根据本发明一实施例的根据评估结果确定新闻摘要标题的方法 流程图;
图6A示意了根据本发明一实施例的在搜索结果页上展示新闻摘要标题;
图6B示意了根据本发明一实施例的在搜索页面上展示新闻摘要标题;
图7示意了根据本发明一实施例的新闻标题的摘要方法流程图;
图8示意了根据本发明一实施例的新闻标题的处理装置的结构图;以及
图9示意了根据本发明另一实施例的新闻标题的处理装置的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了 本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被 这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本 公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在相关技术中,句子压缩使用到的主要方法有:句子中词语删除、句子中 词语替换、重排或插入。其中句子中词语删除方法由于其复杂程度较低而成为 主流方法,采用的技术主要包括噪声信道模型、结构化辨别模型、树到树的转 换、整数线性规划等。就总体效果而言,目前主流方法技术对句子中删除的词 语量有限,压缩效果并不明显,如下例:
原句:But they are still continuing to search the area try and see ifthere were,in fact,any further shooting incidents.
压缩后的句子:They are continuing to search the area to see if therewere any further incidents.
在上述提及的相关技术中,基于句子中词语删除、句子中词语替换、重排 或插入的方式,一方面很难捕获全部标题中的内容与信息,另一方面,基于此 技术方案改写后的标题普遍偏长。因而,无论从准确率以及改写后的标题长度 都难以满足用户对于产品的需求与体验。另外,由于相关技术方案的效果与现 状,需要对摘要后的结果进行人工审核,审核通过后进行推送上线以满足用户 产品的高准确需求。因此,该技术方案依然摆脱不了较大的人工运营成本开销, 以及人工流程造成的摘要结果的覆盖面低以及时效性差。
为了解决上述技术问题,本发明实施例提供了一种新闻标题的处理方法。 如图1所示,该方法可以包括以下步骤S102至步骤S108。
步骤S102,获取新闻资源,并从新闻资源中提取新闻的原始标题。
步骤S104,对新闻的原始标题进行词法分析,得到词法分析结果。
步骤S106,根据词法分析结果,采用句法分析算法对新闻的原始标题进行 句法分析,得到句法分析结果。
步骤S108,基于词法分析结果和句法分析结果,提取新闻的原始标题中的 句子主干内容,作为新闻候选标题。
本发明实施例提供了一种新闻标题的处理方法,首先获取新闻资源,并从 新闻资源中提取新闻的原始标题;随后,对新闻的原始标题进行词法分析,得 到词法分析结果;进而,根据词法分析结果,采用句法分析算法对新闻的原始 标题进行句法分析,得到句法分析结果;之后,基于词法分析结果和句法分析 结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。可以看到, 本发明实施例利用词法句法分析对新闻标题进行压缩式摘要,使新闻标题中的 主干内容被提取的同时尽可能保留了原新闻标题中的重点信息,能够得到更准 确、更严谨的新闻标题。
上文步骤S102中获取新闻资源,并从新闻资源中提取新闻的原始标题, 本发明实施例提供了一种可选的方案,即,可以获取网络爬虫抓取的关于新闻 资源的抓取日志,进而从抓取日志中提取新闻的原始标题。
这里的网络爬虫(Web Crawlers)是一种按照一定的规则,自动地抓取万 维网信息的程序或者脚本。网络爬虫在下载互联网资源时,例如从一家门户网 站的首页出发,先下载门户网站首页的这个网页,然后通过分析这个网页,可 以找到页面里的所有超链接,也就等于知道了这家门户网站首页所直接链接的 全部网页,诸如邮件、财经、新闻等。接下来访问、下载并分析这家门户网站 的邮件等网页,又能找到其他相连的网页。让计算机不停地做下去,就能下载 整个的互联网。当然,也要记载哪个网页下载过了,以免重复。在网络爬虫中, 使用一个称为“哈希表”(Hash Table)的列表而不是一个记事本记录网页是 否下载过的信息。
在上面的从抓取日志中提取新闻的原始标题的方案中,还可以具体是对于 抓取日志中关于新闻资源的各条记录,提取该条记录的指定字段的字段值作为 新闻的原始标题。举例来说,网络爬虫的抓取日志中关于新闻资源的记录格式 为url_id+\t+url_title+\t+crawl_time,则提取url_title的字段值作为新闻 的原始标题。需要说明的是,此处列举仅是示意性的,并不对本发明实施例进 行限制。
进一步地,上文步骤S104中对新闻的原始标题进行词法分析,得到词法 分析结果,本发明实施例提供了一种可选的方案,图2A示意了根据本发明一 实施例的对新闻的原始标题进行词法分析的方法流程图。如图2A所示,该方 法可以包括以下步骤S202至步骤S204。
步骤S202,对新闻的原始标题进行分词处理,得到多个分词。
步骤S204,对多个分词中的各分词分别进行词性标注和实体类别标注,将 词性标注结果和实体类别标注结果作为词法分析结果。
在步骤S202中,对新闻的原始标题进行分词处理的方法可以包括基于字 符串匹配的分词方法,基于语义理解的分词方法或者基于统计的分词方法等 等,本发明实施例对此不做限制。
基于字符串匹配的分词方法,又叫做机械分词方法,它是按照一定的策略 将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中 找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹 配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可 以分为最大(最长)匹配和最小(最短)匹配。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小);
4)双向最大匹配法(进行由左到右、由右到左两次扫描)。
在实际分词过程中,还可以将上述各种方法相互组合,例如,可以将正向 最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成 词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配 的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使 用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。 但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分 词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的 准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析 字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可以将原 字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。另一种方法 是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并 且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的 准确率。
基于语义理解的分词方法,是通过让计算机模拟人对句子的理解,达到识 别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信 息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义 子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子 等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过 程,这种分词方法需要使用大量的语言知识和信息。
基于统计的分词方法,从形式上看,词是稳定的字的组合,因此在上下文 中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻 共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各 个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息, 计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧 密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。 这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无 词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些 共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、 “我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应 用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分 词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既 发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识 别生词、自动消除歧义的优点。
另外一类是基于统计机器学习的方法。首先给出大量已经分词的文本,利 用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本 的切分。汉语中各个字单独作词语的能力是不同的,此外有的字常常作为前缀 出现,有的字却常常作为后缀,结合两个字相临时是否成词的信息,这样就得 到了许多与分词有关的知识,这种方法就是充分利用汉语组词的规律来分词。
上文步骤S204中对多个分词中的各分词进行词性标注,具体标注的词性 类别可以是名词、动词、形容词、副词、连词、叹词或数量词等等,本发明实 施例对此不做限制。
步骤S204中在对多个分词中的各分词进行实体类别标注,本发明实施例 提供了一种可选的方案,即,可以采用序列标注模型,对多个分词中的各分词 的实体词进行识别,标注实体类别。这里的实体类别可以是人名、地名、机构 名、品牌名或软件名等等,本发明实施例不限于此。
在实际应用中,序列标注模型可以是HMM(Hidden Markov Model,隐 马尔可夫模型),MEMM(Maximum Entropy Markov Model,最大熵隐马尔 科夫模型)以及CRF(Conditional Random Field Algorithm,条件随机场模型) 等等。与一般分类问题不同的是,序列标注模型输出的是一个标签序列。通常 而言,标签之间是相互联系的,构成标签之间的结构信息。利用这些结构信息, 序列标注模型在序列标注问题上往往可以达到比传统分类方法更高的性能。
上文步骤S106中根据词法分析结果,采用句法分析算法对新闻的原始标 题进行句法分析,得到句法分析结果,具体可以是基于各分词的词性标注和实 体类别标注,对新闻的原始标题进行依存句法分析,识别各分词的依存节点下 标和依存类型。
这里提及的依存类型可以如表1举例所示,需要说明的是,表1中示意的 依存类型以及例子仅是示意性的,并不对本发明实施例进行限制。
表1
依存类型 Tag(标签) Description(描述信息) 例子
主谓关系 SBV subject-verb 我送她一束花(我<--送)
动宾关系 VOB 直接宾语,verb-object 我送她一束花(送-->花)
间宾关系 IOB 间接宾语,indirect-object 我送她一束花(送-->她)
前置宾语 FOB 前置宾语,fronting-object 他什么书都读(书<--读)
定中关系 ATT attribute 红苹果(红<--苹果)
状中结构 ADV adverbial 非常美丽(非常<--美丽)
动补结构 CMP complement 做完了作业(做-->完)
并列关系 COO coordinate 大山和大海(大山-->大海)
介宾关系 POB preposition-object 在贸易区内(在-->内)
独立结构 IS independent structure 两个单句在结构上彼此独立
核心关系 HED head 指整个句子的核心
兼语 DBL double 他请我吃饭(请-->我)
进一步地,基于各分词的词性标注和实体类别标注,对新闻的原始标题进 行依存句法分析,识别各分词的依存节点下标和依存类型,本发明实施例提供 了一种可选的方案,图2B示意了根据本发明一实施例的对新闻的原始标题进 行句法分析的方法流程图。如图2B所示,该方法可以包括以下步骤S212至步 骤S214。
步骤S212,通过各分词的词性标注和实体类别标注,对新闻的原始标题的 语法成分进行识别。
步骤S214,分析识别出的各语法成分之间的依存关系,得到各分词的依存 节点下标和依存类型。
基于上面的依存句法分析,上文步骤S108中基于词法分析结果和句法分 析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题时,具体 可以是根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型, 生成句法树,进而通过对句法树的筛选与剪枝,生成新闻的原始标题的句子主 干内容。
图3示意了根据本发明一实施例的提取新闻的原始标题中的句子主干内容 的方法流程图。如图3所示,该方法可以包括以下步骤S302至步骤S306。
步骤S302,选取依存类型中核心关系对应的head主节点为主干谓语。
步骤S304,若主节点分词后词性为名词词性,则对所有特定类比的浅层依 存的名词进行归并更新谓语;若主节点分词后词性为动词词性,则设定主节点 为谓语动词。
步骤S306,对于否定词定语进行识别并归并入谓语。
在本发明的可选实施例中,还可以识别主谓关系节点,对于主语周边节点 进行归并,对并列关系节点依照主语规则保持名词词性部分,其余进行节点剪 枝,并设置主语节点。此外,还可以根据宾语类型,若为名词对宾语进行识别, 并列关系节点全部去除,并设置宾语节点。
本发明实施例利用词法句法分析对新闻标题进行压缩式摘要,使新闻标题 中的主干内容被提取的同时尽可能保留了原新闻标题中的重点信息,能够得到 更准确、更严谨的新闻标题。
在本发明的可选实施例中,上文步骤S108在基于词法分析结果和句法分 析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题之后,还 可以利用新闻标题的摘要质量评估策略,对新闻候选标题的质量进行评估,进 而根据评估结果确定新闻摘要标题。
图4示意了根据本发明一实施例的对新闻候选标题的质量进行评估的方法 流程图。如图4所示,该方法可以包括以下步骤S402至步骤S406。
步骤S402,采用神经机器翻译模型对新闻的原始标题进行压缩式处理,得 到新闻衡量标题。
在该步骤中,可以预先对神经机器翻译模型进行训练,例如可以使用历史 上线审核后的数据对以及人工标注的数据集合使用Seq2Seq结合Attention机 制训练神经机器翻译模型。
步骤S404,对新闻衡量标题和新闻候选标题,使用语言模型进行句子在该 语言模型下的质量得分计算。
步骤S406,将计算得到的质量得分结果,作为对新闻候选标题的质量进行 评估的评估结果。
在根据步骤S402至步骤S406将计算得到的质量得分结果,作为对新闻候 选标题的质量进行评估的评估结果之后,可以进一步根据评估结果确定新闻摘 要标题。
图5示意了根据本发明一实施例的根据评估结果确定新闻摘要标题的方法 流程图。如图5所示,该方法可以包括以下步骤S502至步骤S504。
步骤S502,在新闻衡量标题和新闻候选标题中,根据计算得到的质量得分 结果,确定质量得分最高的标题作为待选标题。
步骤S504,若该候选标题对应的质量得分大于质量分数阈值,则判断该待 选标题是否满足预设审核条件,若是,则将该待选标题确定为新闻摘要标题。
这里,该待选标题是否满足预设审核条件可以包括下列至少之一:
该待选标题是否是主谓结构语法;
该待选标题是否是主谓结构语法,且谓语动词含动词成分;
该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈值;
该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。
在实际应用中,可以仅仅是满足预设审核条件之一,则将该待选标题确定 为新闻摘要标题;也可以是满足预设审核条件中任意两个或两个以上的组合, 则将该待选标题确定为新闻摘要标题;还可以是满足全部预设审核条件,则将 该待选标题确定为新闻摘要标题。例如,可以首先判断该待选标题是否是主谓 结构语法,若是,则继续判断谓语动词是否含动词成分。若谓语动词含动词成 分,则继续判断该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈 值。若该待选标题与新闻的原始标题的编辑距离小于编辑距离阈值,则继续判 断该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。若该待选 标题与新闻的原始标题的语义距离小于语义距离阈值,则将该待选标题确定为 新闻摘要标题。
在本发明的可选实施例中,在根据评估结果确定新闻摘要标题之后,还可 以将新闻摘要标题提供给实时热点产品模块,从而由实时热点产品模块将新闻 摘要标题作为实时热点进行展示。在实际应用中,实时热点产品模块可以将新 闻摘要标题作为实时热点展示在搜索结果页中,可以提升用户的搜索体验,提 高搜索引擎生成的搜索结果项的点击率。如图6A所示,在搜索词“乡村振兴” 对应的搜索结果页上,以实时热点形式展示新闻摘要标题。如图6B所示,在 搜索页面上以实时热点形式展示新闻摘要标题。
以上介绍了图1所示实施例的各个环节的多种实现方式,下面将通过具体 实施例来详细介绍本发明的新闻标题的摘要方法的实现过程。
图7示意了根据本发明一实施例的新闻标题的摘要方法流程图。如图7所 示,该方法可以包括以下步骤S702至步骤S708。
步骤S702,对互联网上的新闻资源进行抓取,提取出新闻对应的原始标题。
步骤S704,对新闻原始标题使用分词技术、词法分析技术、句法分析技术、 实体识别技术,对新闻原始标题中的句子主干内容进行抽取。
步骤S706,使用神经机器翻译模型生成相应改写候选结果。
步骤S708,使用语言模型以及语义特征评估改写质量,并对其中高质量改 写结果进行自动审核。
本发明实施例利用句法分析对新闻原始标题进行压缩式摘要,使新闻原始 标题中的主干内容被提取的同时尽可能保留了原新闻中的重点信息,与此同时 引入改写摘要质量分模型,对改写摘要效果进行评估,对于摘要质量较好的结 果进行自动审核,以降低人工运营审核的成本,并大幅降低了人工审核造成的 摘要推送延迟。
下面将通过具体例子,即新闻的原始标题为“某地某区突降大雪压垮菜市 场已救出13人”来详细介绍各部分的具体实施过程。
(1)模型预训练与已有模型获取
使用历史上线审核后的数据对以及人工标注的数据集合使用Seq2Seq结合Attention机制训练神经机器翻译模型,模型训练工具为360现有神经机器翻译 工具包。
训练数据为平行语料格式如下:
Ori:银行客户经理违规放贷160万其中138万未能收回
Sum:银行客户经理违规放贷
获取360已有语言模型作为改写质量分评估。
(2)标题获取以及对标题进行词法分析过程
从网络爬虫中的抓取日志中获取新闻原始标题。
格式如下:url_id+\t+url_title+\t+crawl_time。
词法分析作为自然语言处理技术中的基本步骤,其产出的词性标注、依存 关系以及实体标签类型,是后续句子主干提取、压缩式摘要等技术所依赖的基 础特征。调用现有360分词模块后产出:
例:某地某区突降大雪压垮菜市场已救出13人
分词后:某地/ns某区/ns突/d降/v大雪/n压垮/v菜市场/n已/d救出/v 13人/mq
其中/前为粗粒度分词后的结果,/后分词后的词性标注。
基于分词后的结果,对其中的专名与实体词采用基于序列标注的识别。
待标注的原始数据格式如表2第一列所示,使用序列标注模型产出的标注 结果如表2第二、三列所示。在表2中,B表示开始的字节,E表示最后的字 节,LOC表示地点。需要说明的是,此处列举仅是示意性的,并不对本发明 实施例进行限制。
表2
B LOC
E LOC
B LOC
E LOC
0
0
0
0
0
0
0
0
0
0
0
0
13 0
0
对上述表2中的结果与分词后结果进行归并。
分词与实体识别后:
某地/ns/LOC某区/ns/LOC突/d/降/v/大雪/n/压垮/v/菜市场/n/已/d/ 救出/v/13人/mq/
其中/分割后第一列为粗粒度分词后的结果,第二列分词后的词性标注,第 三列实体类别标注。
基于分词与识别后的结果,调用360基础句法分析模块完成句法分析。最 终词法分析结果为:
某地/ns/LOC/2/ATT
某区/ns/LOC/4/SBV
突/d//4/ADV
降/v//0/HEAD
大雪/n//4/VOB
压垮/v//4/COO
菜市场/n//6/VOB
已/d//9/ADV
救出/v//6/COO
13人/mq//9/VOB
其中/分割后第一列为粗粒度分词后的结果,第二列分词后的词性标注,第 三列实体类别标注,第四列为依存句法分析中的依存节点下标,第五列为依存 类型。
(3)句子主干内容的提取
根据上文(2)产出的词法分析特征,生成句法树,通过对句法树的筛选 与剪枝生成句子主干。具体规则与算法如下:
选取依存句法head节点为主干谓语;
若主节点分词后词性为名词词性:
对所有特定类比的浅层依存的名词进行归并更新谓语;
若主节点分词后词性为动词词性:
设定主节点为谓语动词;
对于否定词定语进行识别并归并入谓语;
识别其主谓逻辑关系节点:
对于主语周边节点进行归并,对并列关系节点依照主语规则保持名词词性 部分其余进行节点剪枝,并设置主语节点;
根据宾语此行,若为名词对宾语进行识别,并列关系节点全部去除,并设 置宾语节点。
原句:某地某区突降大雪压垮菜市场已救出13人
句子主干:某地某区降大雪压垮菜市场
(4)使用神经机器翻译模型进行改写泛化
对于每一个新闻原始标题,在分词后使用预训练好的神经机器翻译模型进 行压缩式摘要,生成候选,并将句子主干同时加入候选集合。神经机器翻译对 于句子文章可以进行端到端的压缩摘要。
输入样例:某地某区突降大雪压垮菜市场已救出13人
产出候选集合:
原句子主干:某地某区降大雪压垮菜市场
神经机器翻译结果:某地大雪压垮菜市场
(5)基于语言模型的标题改写审核
对每个标题产出的候选使用语言模型进行句子在该模型下的得分计算,命 名quality_score。
(6)基于规则对高质量标题进行筛选进行自动上线
初始化下列参数:
quality_threshold,
jaccard_semantic_gap_threshold,
ed_semantic_gap_threshold;
对于每一个原始标题下的改选候选:
final_candidate=将所有候选按质量分进行排序后质量分最高的结果。
对于final_candidate,if其质量分大于quality_threshold:
if其满足主谓结构语法,且谓语动词汉动词成分:
且与原标题的编辑距离与jaccard语义距离均小于对应 semantic_gap_threshold:
则该final_candidate为对应标题的自动审核压缩摘要结果。
本发明实施例大幅降低了传统标题改写中需要的大量人力投入,并解决了 由于运营人员主观标准不一致造成的改写效果不一致的问题。在得到新闻摘要 标题后,还可以提供给360搜索实时热点产品,该产品可以展现在搜索首页、 搜索结果页右侧、浏览器首页或者360导航等。产品使用该方法对原新闻标题 改写并自动上线后,相比原人工编辑的方法产品点击率有明显提升。
需要说明的是,实际应用中,上述所有可选实施方式可以采用结合的方式 任意组合,形成本发明的可选实施例,在此不再一一赘述。
基于上文各个实施例提供的新闻标题的处理方法,基于同一发明构思,本 发明实施例还提供了一种新闻标题的处理装置。
图8示意了根据本发明一实施例的新闻标题的处理装置的结构图。如图8 所示,该装置可以包括原始标题提取模块810、词法分析模块820、句法分析 模块830以及句子主干提取模块840。
现介绍本发明实施例的新闻标题的处理装置的各组成或器件的功能以及 各部分间的连接关系:
原始标题提取模块810,适于获取新闻资源,并从新闻资源中提取新闻的 原始标题;
词法分析模块820,与原始标题提取模块810相耦合,适于对新闻的原始 标题进行词法分析,得到词法分析结果;
句法分析模块830,与词法分析模块820相耦合,适于根据所述词法分析 结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果;
句子主干提取模块840,与句法分析模块830相耦合,适于基于所述词法 分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为 新闻候选标题。
在本发明的可选实施例中,所述原始标题提取模块810还适于:
获取网络爬虫抓取的关于新闻资源的抓取日志;
从抓取日志中提取新闻的原始标题。
在本发明的可选实施例中,所述原始标题提取模块810还适于:
对于抓取日志中关于新闻资源的各条记录,提取该条记录的指定字段的字 段值作为新闻的原始标题。
在本发明的可选实施例中,所述词法分析模块820还适于:
对新闻的原始标题进行分词处理,得到多个分词;
对所述多个分词中的各分词分别进行词性标注和实体类别标注,将词性标 注结果和实体类别标注结果作为词法分析结果。
在本发明的可选实施例中,所述对新闻的原始标题进行分词处理的方法包 括下列至少之一:
基于字符串匹配的分词方法;
基于语义理解的分词方法;
基于统计的分词方法。
在本发明的可选实施例中,所述词法分析模块820还适于:
采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注 实体类别。
在本发明的可选实施例中,所述实体类别包括下列任意之一:
人名、地名、机构名、品牌名、软件名。
在本发明的可选实施例中,所述句法分析模块830还适于:
基于各分词的词性标注和实体类别标注,对新闻的原始标题进行依存句法 分析,识别各分词的依存节点下标和依存类型。
在本发明的可选实施例中,所述句法分析模块830还适于:
通过各分词的词性标注和实体类别标注,对新闻的原始标题的语法成分进 行识别;
分析识别出的各语法成分之间的依存关系,得到各分词的依存节点下标和 依存类型。
在本发明的可选实施例中,所述句子主干提取模块840还适于:
根据各分词的词性标注、实体类别标注、依存节点下标以及依存类型,生 成句法树,进而通过对句法树的筛选与剪枝,生成新闻的原始标题的句子主干 内容。
在本发明的可选实施例中,所述句子主干提取模块840还适于:
选取依存类型中核心关系对应的head主节点为主干谓语;
若主节点分词后词性为名词词性,则对所有特定类比的浅层依存的名词进 行归并更新谓语;
若主节点分词后词性为动词词性,则设定主节点为谓语动词;
对于否定词定语进行识别并归并入谓语。
在本发明的可选实施例中,所述句子主干提取模块840还适于:
识别主谓关系节点,对于主语周边节点进行归并,对并列关系节点依照主 语规则保持名词词性部分,其余进行节点剪枝,并设置主语节点。
在本发明的可选实施例中,所述句子主干提取模块840还适于:
根据宾语类型,若为名词对宾语进行识别,并列关系节点全部去除,并设 置宾语节点。
在本发明的可选实施例中,如图9所示,上文图8展示的装置还可以包括:
标题质量评估模块910,适于在所述句子主干提取模块840基于所述词法 分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为 新闻候选标题之后,利用新闻标题的摘要质量评估策略,对所述新闻候选标题 的质量进行评估,进而根据评估结果确定新闻摘要标题。
在本发明的可选实施例中,所述标题质量评估模块910还适于:
采用神经机器翻译模型对新闻的原始标题进行压缩式处理,得到新闻衡量 标题;
对所述新闻衡量标题和所述新闻候选标题,使用语言模型进行句子在该语 言模型下的质量得分计算;
将计算得到的质量得分结果,作为对所述新闻候选标题的质量进行评估的 评估结果。
在本发明的可选实施例中,所述标题质量评估模块910还适于:
在所述新闻衡量标题和所述新闻候选标题中,根据计算得到的质量得分结 果,确定质量得分最高的标题作为待选标题;
若该候选标题对应的质量得分大于质量分数阈值,则判断该待选标题是否 满足预设审核条件,若是,则将该待选标题确定为新闻摘要标题。
在本发明的可选实施例中,所述该待选标题是否满足预设审核条件包括下 列至少之一:
该待选标题是否是主谓结构语法;
该待选标题是否是主谓结构语法,且谓语动词含动词成分;
该待选标题与新闻的原始标题的编辑距离是否小于编辑距离阈值;
该待选标题与新闻的原始标题的语义距离是否小于语义距离阈值。
在本发明的可选实施例中,如图9所示,上文图8展示的装置还可以包括:
提供模块920,适于在所述标题质量评估模块910根据评估结果确定新闻 摘要标题之后,将所述新闻摘要标题提供给实时热点产品模块,从而由实时热 点产品模块将所述新闻摘要标题作为实时热点进行展示。
基于同一发明构思,本发明实施例还提供了一种计算机存储介质,所述计 算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运 行时,导致所述计算设备执行根据上述的新闻标题的处理方法。
基于同一发明构思,本发明实施例还提供了一种计算设备,包括:处理器; 以及存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运 行时,导致所述计算设备执行根据上述的新闻标题的处理方法。
根据上述任意一个可选实施例或多个可选实施例的组合,本发明实施例能 够达到如下有益效果:
本发明实施例提供了一种新闻标题的处理方法,首先获取新闻资源,并从 新闻资源中提取新闻的原始标题;随后,对新闻的原始标题进行词法分析,得 到词法分析结果;进而,根据词法分析结果,采用句法分析算法对新闻的原始 标题进行句法分析,得到句法分析结果;之后,基于词法分析结果和句法分析 结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。可以看到, 本发明实施例利用词法句法分析对新闻标题进行压缩式摘要,使新闻标题中的 主干内容被提取的同时尽可能保留了原新闻标题中的重点信息,能够得到更准 确、更严谨的新闻标题。
进一步,本发明实施例引入摘要质量评估策略,对新闻候选标题的质量进 行评估,对于摘要质量较好的结果进行自动审核,以降低人工运营审核的成本, 并大幅降低了人工审核造成的摘要推送延迟。
所属领域的技术人员可以清楚地了解到,上述描述的系统、装置和单元的 具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不 另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以 两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理 单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或 者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实 现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质 中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分 可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中, 其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网 络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步 骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机 存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬 件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程 序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的 处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步 骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记 载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而 这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。

Claims (10)

1.一种新闻标题的处理方法,包括:
获取新闻资源,并从新闻资源中提取新闻的原始标题;
对新闻的原始标题进行词法分析,得到词法分析结果;
根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果;
基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。
2.根据权利要求1所述的方法,其中,所述获取新闻资源,并从新闻资源中提取新闻的原始标题,包括:
获取网络爬虫抓取的关于新闻资源的抓取日志;
从抓取日志中提取新闻的原始标题。
3.根据权利要求1或2所述的方法,其中,所述从抓取日志中提取新闻的原始标题,包括:
对于抓取日志中关于新闻资源的各条记录,提取该条记录的指定字段的字段值作为新闻的原始标题。
4.根据权利要求1-3中任一项所述的方法,其中,所述对新闻的原始标题进行词法分析,得到词法分析结果,包括:
对新闻的原始标题进行分词处理,得到多个分词;
对所述多个分词中的各分词分别进行词性标注和实体类别标注,将词性标注结果和实体类别标注结果作为词法分析结果。
5.根据权利要求1-4中任一项所述的方法,其中,所述对新闻的原始标题进行分词处理的方法包括下列至少之一:
基于字符串匹配的分词方法;
基于语义理解的分词方法;
基于统计的分词方法。
6.根据权利要求1-5中任一项所述的方法,其中,对所述多个分词中的各分词进行实体类别标注,包括:
采用序列标注模型,对所述多个分词中的各分词的实体词进行识别,标注实体类别。
7.根据权利要求1-6中任一项所述的方法,其中,所述实体类别包括下列任意之一:
人名、地名、机构名、品牌名、软件名。
8.一种新闻标题的处理装置,包括:
原始标题提取模块,适于获取新闻资源,并从新闻资源中提取新闻的原始标题;
词法分析模块,适于对新闻的原始标题进行词法分析,得到词法分析结果;
句法分析模块,适于根据所述词法分析结果,采用句法分析算法对新闻的原始标题进行句法分析,得到句法分析结果;
句子主干提取模块,适于基于所述词法分析结果和所述句法分析结果,提取新闻的原始标题中的句子主干内容,作为新闻候选标题。
9.一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行根据权利要求1-7中任一项所述的新闻标题的处理方法。
10.一种计算设备,包括:
处理器;以及
存储有计算机程序代码的存储器;
当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行根据权利要求1-7中任一项所述的新闻标题的处理方法。
CN201810247228.9A 2018-03-23 2018-03-23 新闻标题的处理方法及装置 Pending CN108460150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810247228.9A CN108460150A (zh) 2018-03-23 2018-03-23 新闻标题的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810247228.9A CN108460150A (zh) 2018-03-23 2018-03-23 新闻标题的处理方法及装置

Publications (1)

Publication Number Publication Date
CN108460150A true CN108460150A (zh) 2018-08-28

Family

ID=63237273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810247228.9A Pending CN108460150A (zh) 2018-03-23 2018-03-23 新闻标题的处理方法及装置

Country Status (1)

Country Link
CN (1) CN108460150A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109348289A (zh) * 2018-11-15 2019-02-15 北京奇艺世纪科技有限公司 新闻节目的标题提取方法及装置
CN110287491A (zh) * 2019-06-25 2019-09-27 北京百度网讯科技有限公司 事件名生成方法及装置
CN110413899A (zh) * 2019-07-03 2019-11-05 平安科技(深圳)有限公司 服务器存储新闻的存储资源优化方法及系统
CN110442871A (zh) * 2019-08-06 2019-11-12 北京百度网讯科技有限公司 文本信息处理方法、装置及设备
CN110516227A (zh) * 2019-03-28 2019-11-29 苏州八叉树智能科技有限公司 标题文本生成方法、装置、电子设备及计算机可读介质
CN112395860A (zh) * 2020-11-27 2021-02-23 山东省计算中心(国家超级计算济南中心) 一种大规模并行政策数据知识抽取方法及系统
CN112711695A (zh) * 2020-12-29 2021-04-27 网易传媒科技(北京)有限公司 基于内容的搜索建议生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1208455A1 (en) * 1999-02-19 2002-05-29 The Trustees of Columbia University in the City of New York Cut and paste document summarization system and method
CN105608070A (zh) * 2015-12-21 2016-05-25 中国科学院信息工程研究所 一种面向新闻标题的人物关系抽取方法
CN105787078A (zh) * 2016-03-02 2016-07-20 合网络技术(北京)有限公司 多媒体标题显示方法及装置
CN107608983A (zh) * 2016-07-11 2018-01-19 阿里巴巴集团控股有限公司 标题信息优化方法、装置、设备及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1208455A1 (en) * 1999-02-19 2002-05-29 The Trustees of Columbia University in the City of New York Cut and paste document summarization system and method
CN105608070A (zh) * 2015-12-21 2016-05-25 中国科学院信息工程研究所 一种面向新闻标题的人物关系抽取方法
CN105787078A (zh) * 2016-03-02 2016-07-20 合网络技术(北京)有限公司 多媒体标题显示方法及装置
CN107608983A (zh) * 2016-07-11 2018-01-19 阿里巴巴集团控股有限公司 标题信息优化方法、装置、设备及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KATJA FILIPPOVA 等: "Dependency Tree Based Sentence Compression", 《PROCEEDINGS OF THE FIFTH INTERNATIONAL NATURAL LANGUAGE GENERATION CONFERENCE》 *
TED BRISCOE 等: "The second release of the RASP system", 《PROCEEDINGS OF THE COLING/ACL ON INTERACTIVE PRESENTATION SESSIONS》 *
李涛 等: "《事件挖掘的理论算法及应用》", 31 March 2016, 厦门大学出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109348289A (zh) * 2018-11-15 2019-02-15 北京奇艺世纪科技有限公司 新闻节目的标题提取方法及装置
CN109348289B (zh) * 2018-11-15 2021-08-24 北京奇艺世纪科技有限公司 新闻节目的标题提取方法及装置
CN110516227A (zh) * 2019-03-28 2019-11-29 苏州八叉树智能科技有限公司 标题文本生成方法、装置、电子设备及计算机可读介质
CN110287491A (zh) * 2019-06-25 2019-09-27 北京百度网讯科技有限公司 事件名生成方法及装置
CN110287491B (zh) * 2019-06-25 2024-01-12 北京百度网讯科技有限公司 事件名生成方法及装置
CN110413899A (zh) * 2019-07-03 2019-11-05 平安科技(深圳)有限公司 服务器存储新闻的存储资源优化方法及系统
CN110413899B (zh) * 2019-07-03 2024-03-08 平安科技(深圳)有限公司 服务器存储新闻的存储资源优化方法及系统
CN110442871A (zh) * 2019-08-06 2019-11-12 北京百度网讯科技有限公司 文本信息处理方法、装置及设备
CN112395860A (zh) * 2020-11-27 2021-02-23 山东省计算中心(国家超级计算济南中心) 一种大规模并行政策数据知识抽取方法及系统
CN112711695A (zh) * 2020-12-29 2021-04-27 网易传媒科技(北京)有限公司 基于内容的搜索建议生成方法及装置

Similar Documents

Publication Publication Date Title
CN108460150A (zh) 新闻标题的处理方法及装置
CN110825876B (zh) 电影评论观点情感倾向性分析方法
CN108491512A (zh) 新闻标题的摘要方法及装置
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN104252533B (zh) 搜索方法和搜索装置
CN108363700A (zh) 新闻标题的质量评估方法及装置
CN105975558B (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
US7461056B2 (en) Text mining apparatus and associated methods
CN108470026A (zh) 新闻标题的句子主干内容提取方法及装置
JP4129987B2 (ja) テキスト・ドキュメントから表出されたオピニオンの分析方法、システム及びプログラム
CN108399265A (zh) 基于搜索的实时热点新闻提供方法及装置
Klebanov et al. Different texts, same metaphors: Unigrams and beyond
US10839155B2 (en) Text analysis of morphemes by syntax dependency relationship with determination rules
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN106156365A (zh) 一种知识图谱的生成方法及装置
Kim et al. Interpreting semantic relations in noun compounds via verb semantics
Ferschke et al. FlawFinder: A Modular System for Predicting Quality Flaws in Wikipedia.
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN110134934A (zh) 文本情感分析方法和装置
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Harwath et al. Topic identification based extrinsic evaluation of summarization techniques applied to conversational speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180828

RJ01 Rejection of invention patent application after publication