CN110688453B

CN110688453B - 基于资讯分类的场景应用方法、系统、介质及设备

Info

Publication number: CN110688453B
Application number: CN201910786293.3A
Authority: CN
Inventors: 王旭阳; 孙沛基; 朱悦; 刘晋元; 潘永春
Original assignee: Shanghai Science And Technology Development Co ltd; Shanghai R&d Public Service Platform Management Center
Current assignee: Shanghai Science And Technology Development Co ltd; Shanghai R&d Public Service Platform Management Center
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2023-09-08
Anticipated expiration: 2039-08-23
Also published as: CN110688453A; WO2021035976A1

Abstract

本发明提供一种基于资讯分类的场景应用方法、系统、介质及设备，所述基于资讯分类的场景应用方法包括：将资讯数据进行格式化预处理；对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库；对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送。本发明可实现将批量爬取的资讯进行灵活准确地分类投放。

Description

基于资讯分类的场景应用方法、系统、介质及设备

技术领域

本发明属于资讯数据应用领域，涉及一种资讯数据的场景应用方法，特别是涉及一种基于资讯分类的场景应用方法、系统、介质及设备。

背景技术

随着互联网的迅速发展，各种渠道的资讯数据纷繁复杂，且有些渠道所传播的消息准确性不能保证，由此会给资讯获取者带来误导作用，如何有效地提取并利用这些信息成为一个巨大的挑战，即便利用网络爬虫，也不能将网络爬取的资讯数据准确地通过权威性渠道进行推送。

以科技资讯为例，科技资讯是科技大数据资源的重要组成部分，且科技资讯有较多分类，不同领域、不同背景的用户往往具有不同的检索目的和需求，用户作为信息获取者不能准确获知自己需要的资讯内容。

因此，如何在对网页及公众号新闻源等不同资讯源的资讯数据进行批量爬取后，针对特定用户群体和应用场景进行分类投放，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于资讯分类的场景应用方法、系统、介质及设备，用于解决现有技术无法将爬取的资讯数据针对特定用户群体和应用场景进行分类投放与推送的问题。

为实现上述目的及其他相关目的，本发明一方面提供一种基于资讯分类的场景应用方法，所述基于资讯分类的场景应用方法包括：将资讯数据进行格式化预处理，以生成符合格式的资讯文本；对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；所述资讯源属性处理结果包括资讯源特征结果和资讯应用场景的相关性结果；根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库；对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送；所述针对性推送包括隐藏操作、更新操作、新增操作和/或关联入库操作。

于本发明的一实施例中，所述将资讯数据进行格式化预处理，以生成符合格式的资讯文本的步骤包括：对所述资讯数据进行降噪处理，以得到净化后的资讯文本；所述降噪处理包括符号降噪和文本降噪；利用词嵌入技术对所述资讯文本进行分词标注处理，以通过标注能区分出特定短语；所述特定短语包括：时间短语、姓名短语和/或机构短语；通过语法机对带有特定短语标注的所述资讯文本进行语法解构；利用格式机将所述语法解构的资讯文本按照预设格式进行存储，所述预设格式由格式器确定，所述格式器用于对所述资讯文本的字段进行规范格式的转换和缺省值的补充。

于本发明的一实施例中，所述对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果的步骤包括：分析所述资讯文本的资讯源，以确定所述资讯源的类别；所述资讯源的类别包括：综合媒体、公共平台、管理单位、研究机构和/或行业媒体；将所述资讯文本按照资讯源分入其中一个资讯源的类别中，以得到资讯源特征结果。

于本发明的一实施例中，所述对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果的步骤还包括：通过权重计算，校准所述资讯源的类别对于不同的应用场景的重要性，以确定资讯应用场景的相关性结果，所述资讯应用场景的相关性结果是指每一个所述应用场景在不同的资讯源的类别中产生的依赖度比值；所述应用场景的类别包括：成果类、讣告类、聘用类、企业产业类、诚信和道德问题类、榜单类、荣誉类、宏观统计报告类、会议类、媒体热点类和/或政策类。

于本发明的一实施例中，所述根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库的步骤包括：抽取所述资讯文本中的名词和/或动词短语作为应用场景特征词；统计所述应用场景特征词所在的文档数量；所述文档数量是指所有的所述资讯文本构成的文档总数；筛选出所述文档数量在预设范围内的若干个所述应用场景特征词；通过若干个所述应用场景特征词之间的依赖系数计算并结合所述资讯文本的语义向量，将所述应用场景特征词分入匹配的应用场景的类别中，构成应用场景特征词库。

于本发明的一实施例中，所述对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送的步骤包括：计算所述资讯文本中每一段落的目标词汇的词频指数，以将所述词频指数结合预设规则确定每一段落的核心词汇；所述预设规则包括将所述词频指数进行降序排列后，提取顺序在前的若干位所述词频指数对应的目标词汇，所述目标词汇指按照文章类别选取的词汇，包括科技词汇；在所述应用场景特征词库中对所述核心词汇进行语义匹配，以筛选出匹配结果大于预设值的核心词汇所在的资讯文本；将所述资讯文本结合所述资讯源的类别生成资讯源三元组群，并结合所述应用场景特征词库生成特征词三元组群；结合所述资讯源三元组群和所述特征词三元组群，确定所述特征词三元组群中的核心词汇所属的应用场景的类别；选取排序之后前三位的所述核心词汇，并查找每一个所述核心词汇对应的应用场景的类别，以确定该应用场景的类别依赖度最高的资讯源；将所述资讯文本推送至所确定的依赖度最高的资讯源，并进行针对性操作。

于本发明的一实施例中，所述针对性操作包括：针对讣告类的专家进行隐藏操作、对聘用类的任职机构进行更新、荣誉奖项类的新增操作和/或名单类的批量关联入库操作。

本发明另一方面提供一种基于资讯分类的场景应用系统，所述基于资讯分类的场景应用系统包括：预处理模块，用于将资讯数据进行格式化预处理，以生成符合格式的资讯文本；资讯源属性处理模块，用于对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；所述资讯源属性处理结果包括资讯源特征结果和资讯应用场景的相关性结果；应用场景属性处理模块，用于根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库；应用模块，用于对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送；所述针对性推送包括隐藏操作、更新操作、新增操作和/或关联入库操作。

本发明又一方面提供一种介质，其上存储有计算机程序，该程序被处理器执行时实现所述基于资讯分类的场景应用方法。

本发明最后一方面提供一种设备，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述设备执行所述基于资讯分类的场景应用方法。

如上所述，本发明所述的基于资讯分类的场景应用方法、系统、介质及设备，具有以下有益效果：

本发明提供了一种基于科技资讯的分类方法与场景应用，综合地考量了科技资讯收集、分类与场景应用的全流程控制；结合资讯源与全文特征分词来完善特征分类，有利于减少词库建设过程及判断误差；利用已收集资讯的使用案例设计自动分类，节省了后期人工分类应用成本，且具有高度实用价值、场景契合性。

附图说明

图1显示为本发明的基于资讯分类的场景应用方法于一实施例中的原理流程图。

图2显示为本发明的基于资讯分类的场景应用方法于一实施例中的预处理流程图。

图3显示为本发明的基于资讯分类的场景应用方法于一实施例中的权重比例示意图。

图4显示为本发明的基于资讯分类的场景应用系统于一实施例中的结构原理图。

元件标号说明

4 基于资讯分类的场景应用系统

41 预处理模块

42 资讯源属性处理模块

43 应用场景属性处理模块

44 应用模块

S11～S14 基于资讯分类的场景应用方法步骤

S111～S114 资讯数据的预处理步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明所述基于资讯分类的场景应用方法、系统、介质及设备的技术原理如下：将资讯数据进行格式化预处理；对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库；对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送。

实施例一

本实施例提供一种基于资讯分类的场景应用方法，所述基于资讯分类的场景应用方法包括：

将资讯数据进行格式化预处理，以生成符合格式的资讯文本；

对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；所述资讯源属性处理结果包括资讯源特征结果和资讯应用场景的相关性结果；

根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库；

对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送；所述针对性推送包括隐藏操作、更新操作、新增操作和/或关联入库操作。

以下将结合图示对本实施例所提供的基于资讯分类的场景应用方法进行详细描述。

本发明的一实施例是基于火车浏览器对100多家新闻网和自媒体近1年的上万爬取数据上，通过自然语言处理的分词手段，对所涉领域、核心内容、相关专家进行特征提取；再根据特征词频、向量权重排定相关度；最后通过对数据源、数据内容的综合判定将资讯划入不同应用场景。

请参阅图1，显示为本发明的基于资讯分类的场景应用方法于一实施例中的原理流程图。如图1所示，所述基于资讯分类的场景应用方法具体包括以下几个步骤：

S11，将资讯数据进行格式化预处理，以生成符合格式的资讯文本。

具体地，通过分词技术对资讯数据进行预处理，以生成分词模型，并通过对资讯数据进行降噪、分词、语法优化、格式统一来优化分词模型的准确性，最终建立词向量模型。进一步地，在分词过程中，对资讯数据按照语句进行切分后进行分词并包含词性标注，以句为单位利用词嵌入技术建立词向量模型。需要说明的是，所述分词技术包括：字符串匹配的分词方法、词义分词法和/或统计分词法。

请参阅图2，显示为本发明的基于资讯分类的场景应用方法于一实施例中的预处理流程图。如图2所示，所述S11包括：

S111，对所述资讯数据进行降噪处理，以得到净化后的资讯文本；所述降噪处理包括符号降噪和文本降噪。

于本实施例的一实际应用中，所述降噪处理包括：

(1)把全角符号变为半角符号，例如全角空格变半角空格。

(2)把特殊符号替换为常用符号，比如"①⑨⑧⑤年"替换为"1985年"。

(3)简化符号的使用，例如：对tab符号替换为空格，对大括号和中括号统一替换为小括号，对顿号替换为逗号等，以将所有符号变为逗号和句号来实现资讯文本最大程度的简化。

(4)根据汉字常用词典和教育部高等院校名录，对错别字订正，例如"气水"改为"汽水"。

(5)简繁体转换，例如"國家"改为"国家"等。

(6)用词统一化，例如"圣巴巴拉分校"改为"圣芭芭拉分校"等。

S112，利用词嵌入技术对所述资讯文本进行分词标注处理，以通过标注能区分出特定短语；所述特定短语包括：时间短语、姓名短语和/或机构短语。

于本实施例的一实际应用中，所述分词标注处理包括：

(1)将表示时间的词作为一个词块。以此作为区别于主流分词系统的一个特征点，例如将"1998年12月"仅作为一个词块。

(2)将表示组织/机构/奖项的词作为一个词块。例如"第三世界科学院"不会被分割成"第三/世界/科学院"或"第三世界/科学院"。

(3)对分词结果进行词性标注，其中名词特别区分出时间短语、姓名、机构等。

S113，通过语法机对带有特定短语标注的所述资讯文本进行语法解构。

具体地，所述语法机用于中文语法解构，将复杂的结构降解为简单的结构，例如，对资讯文本中的一句文字内容进行词性标注后，以如下形式呈现：{time：1987年}，{time：1990年}，{order：先后}，{event：获}，{univ：该校}，{title：硕士}，{title：博士学位}。

进一步地，所述语法机的工作过程为：

由所述资讯文本中的{order：先后}触发"顺序语法机"。通过所述"顺序语法机"确定时间的先后，将{time：1987年}作为一个分支，将{time：1990年}作为另一分支。需要说明的是，假定句中至少有两个时间词且这两个时间不相同，假定语句中的其他成分含有与时间数目相对应的实体词时触发"顺序语法机"；若不满足以上假定条件，则"顺序语法机"报语法错误。

由所述资讯文本中的{univ：该校}触发"指代语法机"。通过向前搜索最近一次提到的univ标记，以找到“该校”所指代的具体地学校名称。需要说明的是，所述"指代语法机"向前步进不超过10句，至全篇起始则终止；若不满足上述条件,则所述"指代语法机"报语法错误。

在本实施例中，经过语法机处理后的结果显示如下：

分支1：{time：1987年}{order：先}{event：获}{univ：吉林大学}{title：硕士}；

分支2：{time：1990年}{order：后}{event：获}{univ：吉林大学}{title：博士学位}。

需要说明的是，所述资讯文本的语句经语法机处理成上述分支1或分支2的格式后，再交给所述格式机进行最终处理。

S114，利用格式机将所述语法解构的资讯文本按照预设格式进行存储，所述预设格式由格式器确定，所述格式器用于对所述资讯文本的字段进行规范格式的转换和缺省值的补充。

具体地，格式机将语句中的成分按照符合科技资讯应用场景分类要求的字段格式进行统一化，规范化的存储工作。所述格式机利用触发器为语句匹配需要的格式器，然后调用相应的格式器对字段进行规范化的转换和缺省值的补充。

进一步地，所述格式机的处理过程为：

(1)根据词性标注确定触发方式，例如，语句中有"univ"和"title"的标注，且"吉林大学"和"硕士/博士"分别能在学校字典和学历字典中能找到，因此，所述"吉林大学"和"硕士/博士"的语句内容将触发"教育经历格式器"。

(2)生成字段头，包括生成"入学年份"，"毕业年份"，"学校"，"专业"，"学历"，"毕业论文/毕业设计"。

(3)格式规范化，包括时间的表达格式统一和名称的统一，例如将“1987年”规范为“1987-00-00”，将“吉林大学”保持默认形式，仍为“吉林大学”，将“博士学位”规范为“博士”。

(4)对所述资讯文本中的缺省值统一用"-"填充。

(5)将格式规范化后的数据进行组装，以生成符合格式的资讯特征词临时文本作为预处理结果，并进行存储。

S12，对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；所述资讯源属性处理结果包括资讯源特征结果和资讯应用场景的相关性结果。

在本实施例中，分析所述资讯文本的资讯源，以确定所述资讯源的类别；所述资讯源的类别包括：综合媒体、公共平台、管理单位、研究机构和/或行业媒体；将所述资讯文本按照资讯源分入其中一个资讯源的类别中，以得到资讯源特征结果。

于本实施例的一实际应用中，将爬取资讯根据数据源特征初步分为，综合媒体、公共平台、管理单位、研究机构和其他。其中，综合媒体如科学网、科技日报等多样性和资讯总量比较突出，成果信息占比较大；微信公众平台行业信息杂，资讯类型分布广，动态更新快；管理单位政策要闻最多，会议和热点其次，权威性和公众认可度较高，频率低；高校机构90％来自科技成果信息，能得到高校发展政策、成果和人才流动情况的一手数据，机构特征显著。

进一步地，以新智元为例，新智元作为一微信公众号平台，其主要业务是策划人工智能相关的会议，与国内AI企业有合作关系，“新智元”微信公众号是其产业链的一环，各个类别数量比较均等，没有出现明显的侧重；成果、聘用、企业、行业热点、榜单、会议、宏观统计等类别均衡，质量稳定。

在本实施例中，通过权重计算，校准所述资讯源的类别对于不同的应用场景的重要性，以确定资讯应用场景的相关性结果，所述资讯应用场景的相关性结果是指每一个所述应用场景在不同的资讯源的类别中产生的依赖度比值；所述应用场景的类别包括：成果类、讣告类、聘用类、企业产业类、诚信和道德问题类、榜单类、荣誉类、宏观统计报告类、会议类、媒体热点类和/或政策类。

于本实施例的一实际应用中，由于不同资讯源的信息总量差异悬殊，为准确权衡不同资讯源的资讯质量，以资讯的特定应用场景类别占该资讯源提供信息总量的权重为基础，资讯源与资讯源之间互相形成参照，以此反应该资讯源的权威性。

请参阅图3，显示为本发明的基于资讯分类的场景应用方法于一实施例中的权重比例示意图。如图3所示，A表示资讯源类别中的综合媒体，B表示资讯源类别中的公众平台，C表示资讯源类别中的管理单位，D表示资讯源类别中的高校网站，E表示资讯源类别中的其他，例如，在其他资讯源E中包括行业媒体；a表示应用场景类别中的成果类，b表示应用场景类别中的讣告类，c表示应用场景类别中的聘用类，d表示应用场景类别中的企业相关类，e表示应用场景类别中的荣誉奖项头衔类，f表示应用场景类别中的名单类，g表示应用场景类别中的会议类，h表示应用场景类别中的领域新闻人物热点类，i表示应用场景类别中的政策类，j表示应用场景类别中的诚信及道德问题类，k表示应用场景类别中的宏观统计报告类。

于本实施例的一实际应用中，以成果类资讯中各源的占比为例，设：A_a表示B_a表示/>C_a表示D_a表示/>E_a表示如图3所示，最终结果判断为：

根据上述计算结果的比较，说明随着近年来资讯分享型自媒体的发展，微信公众平台的可依赖性反超了综合媒体。

S13，根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库。

具体地，根据不同资讯可使用的场景，可初步分为以下类别：a.成果类，b.讣告类，c.聘用类，d.企业相关类，e.荣誉奖项头衔类，f.名单类，g.会议类，h.领域新闻人物热点类，i.政策类，j.诚信及道德问题类，k.宏观统计报告类。需要说明的是，所述应用场景的类别还可赋以特定含义的标号以便识别或检索，例如：A-成果类、D-讣告类、EM-聘用类、ET-企业相关、H-荣誉奖项头衔、L-名单、M-会议、N-领域新闻人物热点、P-政策、PO-诚信及道德问题、ST-宏观统计报告。

具体地，所述应用场景的类别描述如下：

(1)成果类：包含人物简介、国内与国外机构和课题组的合作情况，资讯中的专家简介可能包含尚未掌握的荣誉、以及少见的领域细分，可以补入专家简介，成果本身可用于界定最新研究内容和研究方向。

(2)讣告类：可据此对专家可利用、联络状态进行“隐藏”更新。

(3)聘用类：有国内和海外人才在高校机构、全球高科技企业流动的信息，用于更新专家最新所在机构和合作动态。

(4)企业产业相关类：作为对产业宏观情况、企业基本信息、企业重要人才的内容补充。

(5)荣誉奖项类：比如增选的院士头衔、以及各个学科领域的奖项。一般该类资讯提供完整的颁奖机构、获奖人信息，可供更新专家内容，同时初步评估奖项权威性。

(6)名单、榜单类：排名对象范围包括高校、成果、学科、企业、学者等。既有国内外机构评选指标，又有大量归一化名单内容可供批量获取。

(7)会议类：包括政府会议及科技界论坛会议、成果挑战赛。通过内地主办的学术大会，可以获得外国教授与国内的合作情况。而通过国际性会议，可获得参赛人员及机构背景资料，同时像人工智能会议也是重要的领域分类参照和最新成果数据。

(8)媒体热点：媒体热点包含的内容更广。通常是产学研有关的新技术、成果转化的介绍和展望、热门科技企业最新成果、学者、企业高层、科研团队、名师的详细介绍。

(9)政策类：主要包括各地政府关于人才、基础设施建设的最新指示，对国家科技政策及形势的解读，各机构单位设立的学科/产业新标准，大型项目的启动、国际合作协议以及国外重大政策调整等。可供政策研究人员作为背景资料或比较材料使用。

(10)诚信和道德问题：常见内容包括论文撤稿和各领域的学术丑闻，也有对新兴学科和技术的伦理反思等，一方面是对专家评估聘用的重要考量，同时也是对国际研究争议热点的跟踪。

(11)宏观统计报告：主要为国际权威机构和国内行业媒体的数据。所涉水平包括人才、行业(趋势/现状)、文献计量、高校研究指数、专利、学科领域等。

在本实施例中，所述S13包括：

S131，抽取所述资讯文本中的名词和/或动词短语作为应用场景特征词。

具体地，根据上述11个资讯源的类别，根据分词所做的词性标注，抽取分词后的资讯中词性为n开头的名词和名词短语或词性为v的动词短语。需要说明的是，若词性标注中设置以下对应关系：n-名词、nt-机构团体、nz-其他专有名词，在抽取时还可抽取词性标注为nt或nz开头的词语。

S132，统计所述应用场景特征词所在的文档数量；所述文档数量是指所有的所述资讯文本构成的文档总数。

具体地，计算应用场景特征词的DF值，所述DF值表示出现该应用场景特征词的文档数量。所述DF或df是指文档频数，DF计算为特征提取技术，由于其具有相对于文本库规模的线性计算复杂度，能够容易的被用于大规模文档统计。

S133，筛选出所述文档数量在预设范围内的若干个所述应用场景特征词。

于本实施例的一实际应用中，根据应用场景特征词的DF值大于5且小于文档总数20％的标准筛选应用场景特征词。需要说明的是，所述大于5且小于文档总数20％为所述预设范围的一实施例，其余可用来限定和筛选应用场景特征词的数值范围也在本发明的范围内。

S134，通过若干个所述应用场景特征词之间的依赖系数计算并结合所述资讯文本的语义向量，将所述应用场景特征词分入匹配的应用场景的类别中，构成应用场景特征词库。

具体地，将筛选出的应用场景特征词按照应用场景的分类形成特征提取词表，以此划分出11个提取词集。

需要说明的是，在同一类别中不存在所有资讯共有的词。同类中的资讯之间只是“家族相似”，故需要使用多个词在全篇的语义向量上进行匹配；词与词之间是非独立完成检索的，同类不同词存在依赖系数以更精确的归类。

具体地，将所述应用场景的类别与特征词以表格形式编辑，构成11个提取词集，根据匹配和学习结果，特征词提取词集举例如下，请参见表1提取词集分类表。由表1可知，“发表”作为一特征词，被分入应用场景类别的成果类。

表1：提取词集分类表

S14，对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送；所述针对性推送包括隐藏操作、更新操作、新增操作和/或关联入库操作。

具体地，对格式化处理资讯文本中的目标词汇进行词频指数计算，以确定每一个目标词汇在资讯文本中出现的次数，从而表征该目标词汇在资讯文本中的权重。

在本实施例中，所述S14包括：

S141，计算所述资讯文本中每一段落的目标词汇的词频指数，以将所述词频指数结合预设规则确定每一段落的核心词汇；所述预设规则包括将所述词频指数进行降序排列后，提取顺序在前的若干位所述词频指数对应的目标词汇，所述目标词汇指按照文章类别选取的词汇，包括科技词汇。

于本实施例的一实际应用中，将每篇科技资讯文本视作一个文档，抽取科技资讯全文数据中的科技词汇，计算科技词汇表中所有单词的idf值，并抽取每个段落中的科技词汇，获取tf-idf值倒序前若干位的核心词汇。所述idf值为科技词汇在文中出现的词频数，计算公式如下：

其中，w表示科技词汇，idf(w)表示科技词汇w在文中出现的词频数，|D|是文档数，df(w)表示包含科技词汇w的文档数量。

具体地，以一篇科技资讯文本的一个段落为例，获取语句数量L，将倒序排序中前L位作为该段落的核心词汇。需要说明的是，根据段落语句数提取核心词汇数，一句会提取多个核心词汇，而整段多句核心词汇之间有重复关系，所以，取词频排序靠前的作为最终整段的核心词汇。

S142，在所述应用场景特征词库中对所述核心词汇进行语义匹配，以筛选出匹配结果大于预设值的核心词汇所在的资讯文本。

具体地，计算核心词汇与提取特征词库中的语义相似度，抽出含有语义相似度大于0.5的核心词汇所在的文章。需要说明的是，0.5为所述预设值的一种实施例，其他可用来进行语义匹配的预设值均包含在本发明的范围内。

S143，将所述资讯文本结合所述资讯源的类别生成资讯源三元组群，并结合所述应用场景特征词库生成特征词三元组群。

具体地，从资讯爬去结果中抽取含有资讯条目名称的三元组，所述含有资讯条目名称的三元组主要包括两种类型：一是基于资讯源分类的is-a关系三元组，即<资讯名称，isA，资讯源分类名称>，其中isA表征该资讯文本的资讯源；二是基于特征词的<资讯名称，特征词分类名称，属性值>。将筛选出的资讯条目名称与资讯源分类、特征词集结合，形成<资讯条目，isA，分类名称>三元组群和<资讯条目，特征词，属性值>三元组群。

进一步地，根据对已爬取数据源的分类，对数据源的应用场景针对性进行匹配度计算，并将结果作为资讯源分类的is-a关系三元组<资讯名称，isA，资讯源分类名称>。

更进一步地，筛选已知应用场景实例中，出现频率最高，相关性最好的语义向量，形成特征分类词集，形成基于特征词的关系三元组<资讯名称，特征词分类名称，属性值>。

S144，结合所述资讯源三元组群和所述特征词三元组群，确定所述特征词三元组群中的核心词汇所属的应用场景的类别。

具体地，由所述资讯源三元组群和所述特征词三元组群中的属性分类特征确定某一篇资讯文本所属的应用场景类别。

S145，选取排序之后前三位的所述核心词汇，并查找每一个所述核心词汇对应的应用场景的类别，以确定该应用场景的类别依赖度最高的资讯源。

于本实施例的一实际应用中，由于全篇资讯文本具有按词频排序的核心词汇，需对照初始万篇文献及实际数据库11个资讯的应用场景类别，调用应用场景特征词库，以对应出该资讯文本的应用场景类别；再与资讯源的类别进行一对多的交叉计算，根据重叠最大的场景统一最终结果，以确定该应用场景的类别依赖度最高的资讯源。

S146，将所述资讯文本推送至所确定的依赖度最高的资讯源，并进行针对性操作。

具体地，根据资讯中特征词权重及资讯源类型加权排序，对前三位特征词所属应用场景进行针对性推送。

需要说明的是，所述对前三位特征词所属应用场景进行针对性推送为本发明的其中一实施方式，也可选取其余数量的特征词所属应用场景进行针对性推送。

在本实施例中，所述针对性操作包括：针对讣告类的专家进行隐藏操作、对聘用类的任职机构进行更新、荣誉奖项类的新增操作和/或名单类的批量关联入库操作，例如将名单类的资讯文本按照部分分词结果可直接作为增量数据录入数据库。

本实施例提供一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述基于资讯分类的场景应用方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的计算机可读存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。

本实施例所述基于资讯分类的场景应用方法可实现在对网页及公众号新闻源等不同资讯源的资讯数据进行批量爬取后，针对特定用户群体和应用场景进行分类投放以及灵活操作。

实施例二

本实施例提供一种基于资讯分类的场景应用系统，所述基于资讯分类的场景应用系统包括：

预处理模块，用于将资讯数据进行格式化预处理，以生成符合格式的资讯文本；

资讯源属性处理模块，用于对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；所述资讯源属性处理结果包括资讯源特征结果和资讯应用场景的相关性结果；

应用场景属性处理模块，用于根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库；

应用模块，用于对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送；所述针对性推送包括隐藏操作、更新操作、新增操作和/或关联入库操作。

以下将结合图示对本实施例所提供的基于资讯分类的场景应用系统进行详细描述。需要说明的是，应理解以下系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现，也可以全部以硬件的形式实现，还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如：x模块可以为单独设立的处理元件，也可以集成在下述系统的某一个芯片中实现。此外，x模块也可以以程序代码的形式存储于下述系统的存储器中，由下述系统的某一个处理元件调用并执行以下x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以下各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

以下这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，一个或多个数字信号处理器(Digital Singnal Processor，简称DSP)，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。当以下某个模块通过处理元件调用程序代码的形式实现时，该处理元件可以是通用处理器，如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起，以片上系统(System-on-a-chip，简称SOC)的形式实现。

请参阅图4，显示为本发明的基于资讯分类的场景应用系统于一实施例中的结构原理图。如图4所示，所述基于资讯分类的场景应用系统4包括：预处理模块41、资讯源处理模块42、应用场景属性处理模块43和应用模块44。

所述预处理模块41用于将资讯数据进行格式化预处理，以生成符合格式的资讯文本。

在本实施例中，所述预处理模块41具体用于对所述资讯数据进行降噪处理，以得到净化后的资讯文本；所述降噪处理包括符号降噪和文本降噪；利用词嵌入技术对所述资讯文本进行分词标注处理，以通过标注能区分出特定短语；所述特定短语包括：时间短语、姓名短语和/或机构短语；通过语法机对带有特定短语标注的所述资讯文本进行语法解构；利用格式机将所述语法解构的资讯文本按照预设格式进行存储，所述预设格式由格式器确定，所述格式器用于对所述资讯文本的字段进行规范格式的转换和缺省值的补充。

所述资讯源属性处理模块42用于对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；所述资讯源属性处理结果包括资讯源特征结果和资讯应用场景的相关性结果。

在本实施例中，所述资讯源属性处理模块42具体用于分析所述资讯文本的资讯源，以确定所述资讯源的类别；所述资讯源的类别包括：综合媒体、公共平台、管理单位、研究机构和/或行业媒体；将所述资讯文本按照资讯源分入其中一个资讯源的类别中，以得到资讯源特征结果。通过权重计算，校准所述资讯源的类别对于不同的应用场景的重要性，以确定资讯应用场景的相关性结果，所述资讯应用场景的相关性结果是指每一个所述应用场景在不同的资讯源的类别中产生的依赖度比值；所述应用场景的类别包括：成果类、讣告类、聘用类、企业产业类、诚信和道德问题类、榜单类、荣誉类、宏观统计报告类、会议类、媒体热点类和/或政策类。

所述应用场景属性处理模块43用于根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库。

在本实施例中，所述应用场景属性处理模块43具体用于抽取所述资讯文本中的名词和/或动词短语作为应用场景特征词；统计所述应用场景特征词所在的文档数量；所述文档数量是指所有的所述资讯文本构成的文档总数；筛选出所述文档数量在预设范围内的若干个所述应用场景特征词；通过若干个所述应用场景特征词之间的依赖系数计算并结合所述资讯文本的语义向量，将所述应用场景特征词分入匹配的应用场景的类别中，构成应用场景特征词库。

所述应用模块44用于对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送；所述针对性推送包括隐藏操作、更新操作、新增操作和/或关联入库操作。

在本实施例中，所述应用模块44具体用于计算所述资讯文本中每一段落的目标词汇的词频指数，以将所述词频指数结合预设规则确定每一段落的核心词汇；所述预设规则包括将所述词频指数进行降序排列后，提取顺序在前的若干位所述词频指数对应的目标词汇，所述目标词汇指按照文章类别选取的词汇，包括科技词汇；在所述应用场景特征词库中对所述核心词汇进行语义匹配，以筛选出匹配结果大于预设值的核心词汇所在的资讯文本；将所述资讯文本结合所述资讯源的类别生成资讯源三元组群，并结合所述应用场景特征词库生成特征词三元组群；结合所述资讯源三元组群和所述特征词三元组群，确定所述特征词三元组群中的核心词汇所属的应用场景的类别；选取排序之后前三位的所述核心词汇，并查找每一个所述核心词汇对应的应用场景的类别，以确定该应用场景的类别依赖度最高的资讯源；将所述资讯文本推送至所确定的依赖度最高的资讯源，并进行针对性操作。其中，所述针对性操作包括：针对讣告类的专家进行隐藏操作、对聘用类的任职机构进行更新、荣誉奖项类的新增操作和/或名单类的批量关联入库操作。

本实施例所述基于资讯分类的场景应用系统可实现在对网页及公众号新闻源等不同资讯源的资讯数据进行批量爬取后，针对特定用户群体和应用场景进行分类投放以及灵活操作。

实施例三

本实施例提供一种设备，包括：处理器、存储器、收发器、通信接口或/和系统总线；存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于和其他设备进行通信，处理器和收发器用于运行计算机程序，使所述设备执行所述基于资讯分类的场景应用方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(扫描应用程序licationSpecific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明所述的基于资讯分类的场景应用方法保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本发明还提供一种基于资讯分类的场景应用系统，所述基于资讯分类的场景应用系统可以实现本发明所述的基于资讯分类的场景应用方法，但本发明所述的基于资讯分类的场景应用方法的实现装置包括但不限于本实施例列举的基于资讯分类的场景应用系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明所述基于资讯分类的场景应用方法、系统、介质及设备综合地考量了科技资讯收集、分类与场景应用的全流程控制；特征分类结合资讯源与全文特征分词来完善，有利于减少词库建设过程及判断误差；利用已收集资讯的使用案例设计自动分类，节省了后期人工分类应用成本，且具有高度实用价值、场景契合性。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于资讯分类的场景应用方法，其特征在于，所述基于资讯分类的场景应用方法包括：

对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；所述资讯源属性处理结果包括资讯源特征结果和资讯应用场景的相关性结果；分析所述资讯文本的资讯源，以确定所述资讯源的类别；所述资讯源的类别包括：综合媒体、公共平台、管理单位、研究机构和/或行业媒体；将所述资讯文本按照资讯源分入其中一个资讯源的类别中，以得到资讯源特征结果；通过权重计算，校准所述资讯源的类别对于不同的应用场景的重要性，以确定资讯应用场景的相关性结果，所述资讯应用场景的相关性结果是指每一个所述应用场景在不同的资讯源的类别中产生的依赖度比值；

对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送；所述针对性推送包括隐藏操作、更新操作、新增操作和/或关联入库操作；

其中，对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送的步骤包括：计算所述资讯文本中每一段落的目标词汇的词频指数，以将所述词频指数结合预设规则确定每一段落的核心词汇；所述预设规则包括将所述词频指数进行降序排列后，提取顺序在前的若干位所述词频指数对应的目标词汇，所述目标词汇指按照文章类别选取的词汇，包括科技词汇；在所述应用场景特征词库中对所述核心词汇进行语义匹配，以筛选出匹配结果大于预设值的核心词汇所在的资讯文本；将所述资讯文本结合所述资讯源的类别生成资讯源三元组群，并结合所述应用场景特征词库生成特征词三元组群；结合所述资讯源三元组群和所述特征词三元组群，确定所述特征词三元组群中的核心词汇所属的应用场景的类别；选取排序之后前三位的所述核心词汇，并查找每一个所述核心词汇对应的应用场景的类别，以确定该应用场景的类别依赖度最高的资讯源；将所述资讯文本推送至所确定的依赖度最高的资讯源，并进行针对性操作。

2.根据权利要求1所述的基于资讯分类的场景应用方法，其特征在于，所述将资讯数据进行格式化预处理，以生成符合格式的资讯文本的步骤包括：

对所述资讯数据进行降噪处理，以得到净化后的资讯文本；所述降噪处理包括符号降噪和文本降噪；

利用词嵌入技术对所述资讯文本进行分词标注处理，以通过标注能区分出特定短语；所述特定短语包括：时间短语、姓名短语和/或机构短语；

通过语法机对带有特定短语标注的所述资讯文本进行语法解构；

利用格式机将所述语法解构的资讯文本按照预设格式进行存储，所述预设格式由格式器确定，所述格式器用于对所述资讯文本的字段进行规范格式的转换和缺省值的补充。

3.根据权利要求1所述的基于资讯分类的场景应用方法，其特征在于：

所述应用场景的类别包括：成果类、讣告类、聘用类、企业产业类、诚信和道德问题类、榜单类、荣誉类、宏观统计报告类、会议类、媒体热点类和/或政策类。

4.根据权利要求1所述的基于资讯分类的场景应用方法，其特征在于，所述根据所述资讯应用场景对所述资讯源属性处理结果进行应用场景属性处理，以提取所述资讯文本的应用场景特征词后，生成不同的应用场景特征词库的步骤包括：

抽取所述资讯文本中的名词和/或动词短语作为应用场景特征词；

统计所述应用场景特征词所在的文档数量；所述文档数量是指所有的所述资讯文本构成的文档总数；

筛选出所述文档数量在预设范围内的若干个所述应用场景特征词；

通过若干个所述应用场景特征词之间的依赖系数计算并结合所述资讯文本的语义向量，将所述应用场景特征词分入匹配的应用场景的类别中，构成应用场景特征词库。

5.根据权利要求1所述的基于资讯分类的场景应用方法，其特征在于，

所述针对性操作包括：针对讣告类的专家进行隐藏操作、对聘用类的任职机构进行更新、荣誉奖项类的新增操作和/或名单类的批量关联入库操作。

6.一种基于资讯分类的场景应用系统，其特征在于，所述基于资讯分类的场景应用系统包括：

资讯源属性处理模块，用于对所述资讯文本按照资讯源进行资讯源属性处理，以生成资讯源属性处理结果；所述资讯源属性处理结果包括资讯源特征结果和资讯应用场景的相关性结果；分析所述资讯文本的资讯源，以确定所述资讯源的类别；所述资讯源的类别包括：综合媒体、公共平台、管理单位、研究机构和/或行业媒体；将所述资讯文本按照资讯源分入其中一个资讯源的类别中，以得到资讯源特征结果；通过权重计算，校准所述资讯源的类别对于不同的应用场景的重要性，以确定资讯应用场景的相关性结果，所述资讯应用场景的相关性结果是指每一个所述应用场景在不同的资讯源的类别中产生的依赖度比值；

应用模块，用于对资讯文本进行词频指数计算，以便将计算结果结合所述资讯源属性处理结果和所述应用场景特征词库进行资讯的针对性推送；所述针对性推送包括隐藏操作、更新操作、新增操作和/或关联入库操作；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5中任一项所述基于资讯分类的场景应用方法。

8.一种基于资讯分类的场景应用设备，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述基于资讯分类的场景应用设备执行如权利要求1至5中任一项所述基于资讯分类的场景应用方法。