CN110442704A

CN110442704A - 一种企业新闻筛选方法及系统

Info

Publication number: CN110442704A
Application number: CN201910742657.8A
Authority: CN
Inventors: 刘德彬; 陈玮; 孙世通
Original assignee: Chongqing Yu Yu Da Data Technology Co Ltd
Current assignee: Chongqing Yu Yu Da Data Technology Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-11-12

Abstract

本发明提供了一种企业新闻筛选方法，包括：获取企业目标全称；拆分所述目标企业全称，获取目标企业简称；根据所述目标企业全称和所述目标企业简称，自动在互联网中搜取目标企业的电子名片和目标企业的关联新闻，将目标企业的关联新闻作为待筛选文本；获取用户输入的关键词；添加筛选条件至目标词组，所述目标词组包括关键词和关联词；利用具有筛选条件的目标词组对所述待筛选文本进行筛选，得到目标文本；对目标文本进行去重。本发明提供的一种企业新闻筛选方法及系统，能够从大量的新闻中搜取并筛选出用户所需要的信息，提高了效率，并且能够获取到企业相关人员的电子名片，帮助用户快速了解企业的相关信息。

Description

一种企业新闻筛选方法及系统

技术领域

本发明属于数据处理技术领域，具体涉及一种企业新闻筛选方法及系统。

背景技术

新闻，也叫消息，是通过报纸、电台、广播、电视台等媒体途径所传播信息的一种称谓，是传播信息的一种文体。在大数据时代，各种各样的新闻文本不断增多。当用户需要了解一家企业的时候，可以从企业的新闻中了解到企业的基本情况，基于企业新闻文本获得对自身有用的信息。但是大量的企业新闻又会使得用户阅读起来极其的烦躁，使得用户失去耐心，或者当用户需要联系企业相关管理或技术人员时，很难获取到企业相关人员的联系信息。采用企业新闻筛选的方法既可以从海量的信息中获取有用的新闻，又能够搜取到企业的相关电子名片，可以帮助用户快速的收集信息及做出决策。

发明内容

针对上述现有技术的不足，本发明提供了一种企业新闻筛选方法及系统，能够从大量的新闻中搜取并筛选出用户所需要的信息，提高了效率，并且能够获取到企业相关人员的电子名片，帮助用户快速了解企业的相关信息。

本发明采用如下技术方案：

一种企业新闻筛选方法，包括：获取企业目标全称；拆分所述目标企业全称，获取目标企业简称；根据所述目标企业全称和所述目标企业简称，自动在互联网中搜取目标企业的电子名片和目标企业的关联新闻，将目标企业的关联新闻作为待筛选文本；获取用户输入的关键词，所述关键词为用户所想要了解的企业信息的关键词；添加筛选条件至目标词组，所述目标词组包括关键词和关联词，其中，所述关键词为用户所输入的关键词，所述关联词为与所述关键词具有关联关系的词；利用具有筛选条件的目标词组对所述待筛选文本进行筛选，得到目标文本；对目标文本进行去重。

进一步地，所述搜取目标企业的电子名片和目标企业的关联新闻中，采用网络爬虫技术搜取所述电子名片和所述关联新闻。

进一步地，所述关键词的数量为多个，所述与每个关键词相关联的关联词的数量为多个。

进一步地，添加筛选条件至目标词组包括：利用所述筛选条件关联所述关键词和所述关联词。

进一步地，所述筛选条件包括第一条件和第二条件，添加筛选条件至目标词组包括：利用所述第一条件关联所述第一关键词和第一关键词的每个关联词，得到多个词组元素；利用所述第二条件关联多个所述词组元素，得到具有筛选条件的第一目标词组；重复循环步骤，得到所有关键词组成的具有筛选条件的目标词组。

进一步地，所述利用具有筛选条件的目标词组对所述待筛选文本进行筛选，得到目标文本，包括：利用具有筛选条件的第一目标词组对所述待筛选文本进行筛选，得到初选的文本；根据用户输入的关键词的顺序，逐一利用所述关键词组成的具有筛选条件的目标词组，对前一具有筛选条件目标词组筛选后的文本进行筛选，直到所有的具有筛选条件的目标词组筛选完毕，得到目标文本；若最终的目标文本为零个，则逐一去掉最后一个具有筛选条件的目标词组，直到得到至少一个目标文本的数量。

进一步地，所述对目标文本进行去重，包括：从所述目标文本中取出任意一条信息，作为原始样本；从剩余的所述目标文本中取任意一条信息，作为对比样本；以标点符号为分隔符，将所述原始样本和所述对比样本的内容分解为多个句子；将分解后的所述原始样本的内容，与分解后的所述对比样本的内容进行遍历比对，得出相同句子数量和不同句子数量；根据所述相同句子数量与所述不同句子数量的比值，得出目标文本相似度，当相似度超过阈值，则对原始样本和对比样本进行择一删除；重复步骤，得到去重后的目标文本。

一种企业新闻筛选系统，其特征在于，所述系统包括：企业名称输入模块，企业名称拆分模块，关联新闻获取模块，关键词输入模块，筛选条件添加模块，筛选模块，去重模块；企业名称输入模块，用于获取目标企业全称；企业名称拆分模块，用于将获取的目标企业的全称拆分成目标企业简称；关联新闻获取模块，用于根据所述目标企业全称和所述目标企业简称，自动在互联网中搜取目标企业的关联新闻作为待筛选文本；关键词输入模块，用于用户输入关键词；筛选条件添加模块，用于添加筛选条件至目标词组，所述目标词组包括关键词和关联词，其中，所述关键词为用户所输入的关键词，所述关联词为与所述关键词具有关联关系的词；筛选模块，用于利用具有筛选条件的目标词组对所述待筛选文本进行筛选，得到目标文本。去重模块，用于对目标文本去重。

进一步地，所述关键词输入模块还包括关联词获取单元，用于根据用户输入的关键词，获取与关键词相关联的关联词。

进一步地，所述关联新闻获取模块为网络爬虫模块。

本发明的有益效果为：根据企业全称和企业简称可以更加全面的搜取到与企业相关联的新闻，避免存在遗漏；根据用户输入的关键词对搜取到的新闻进行进一步的筛选，可以快速的找出用户所需要的新闻信息；其中，在使用用户输入的关键词中还对关键词进行关联关联词的获取，并利用关联的关联词与关键词一起形成的带有筛选条件的目标词组对新闻信息进行筛选，避免用户输入的关键词太过单一，筛选过程中遗漏掉重要的相关信息，能够更加全面的获取用户所需要的信息；因互联网上重复信息过多，在筛选之后，还可以对目标文本进行去重步骤，避免重复阅读，浪费用户的时间。

附图说明

图1为本发明一种企业新闻筛选方法的流程示意图。

图2为本发明一种企业新闻筛选系统的结构示意图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。

实施例一

本实施例提供了一种企业新闻筛选方法，请参见图1，图1为本实施例提供的一种企业新闻筛选方法的流程示意图，该方法的具体步骤如下：

S1、获取企业目标全称。通过将用户输入的需要查询的目标企业名称与企业名单词库内的词条进行匹配，给出相应候选企业全称，例如，若用户输入的是目标企业的简称，则会给出相应的候选企业全称，供用户选择。

S2、拆分目标企业全称，获取目标企业简称。

在接收到目标企业全称后，将按照一定的规则对目标企业全称进行拆分，从而获得目标企业简称，例如，若目标企业全称为“重庆誉存大数据科技有限公司”，则“有限”和“公司”这两个常见词汇将首先被筛选掉，再去掉地名“重庆”，也就是说，最后得到的目标企业的简称为“誉存大数据科技”。

S3、根据目标企业全称和目标企业简称，自动在互联网中搜取目标企业的电子名片和目标企业的关联新闻，将目标企业的关联新闻作为待筛选文本。

使用目标企业全称和目标企业简称在互联网环境中采用网络爬虫技术对目标企业情况进行搜索，具体地，例如，对于某一条新闻，若该新闻标题、摘要和正文中出现有目标企业全称或简称，则该条新闻将被获取。同时使用目标企业全称和目标企业简称来获取与目标企业相关联的关联新闻，可以使得所搜索的关联新闻更加充分、全面。此外，需要说明的是，通过统计目标企业在互联网上的关联新闻的总量及关联新闻的来源，可以评估该目标企业的媒体曝光率和影响力。此外，根据目标企业的全称和目标企业的简称还可以进一步搜索目标企业的电子名片，为有需要联系目标企业相关联人员的用户提供联系方式，避免用户为获取联系方式通过其他渠道再次搜索，节约了时间和精力。

S4、获取用户输入的关键词，关键词为用户所想要了解的企业信息的关键词。该关键词的数量为多个。

S5、添加筛选条件至目标词组，目标词组包括关键词和关联词，其中，关键词为用户所输入的关键词，关联词为与关键词具有关联关系的词。

用户输入的每个关键词都包括多个关联词，关联词为人们日常生活中常同时使用的词或具有一定关联关系的词，或者为英汉相互翻译的词。具体地，例如用户输入“年终奖”，则获取的关联词为“五险一金”、“休假”、“娱乐活动”等。

筛选条件的种类如下表一所示，但不仅限于下表一所示的种类，可以根据需求选择具体的筛选条件。

添加筛选条件至目标词组包括利用筛选条件关联关键词和关联词。筛选条件包括第一筛选条件和第二筛选条件，具体步骤为：

S51、利用第一条件关联第一关键词和第一关键词的每个关联词，得到多个词组元素。不同的关联词通过哪个第一条件与关键词进行关联，可以根据需求设置，其中，第一条件为表一中的多个筛选条件，多个第一条件可以为同一筛选条件，也可以为不同的筛选条件，第一条件的种类具体可以根据需求设置。具体地，例如(五险一金and年终奖)、(休假and年终奖)、(娱乐活动and年终奖)三个词组元素。

S52、利用第二条件关联多个词组元素，得到具有筛选条件的第一目标词组。第二条件可以与第一条件相同，也可以不同，具体地，例如(五险一金and年终奖)or(休假and年终奖)or(娱乐活动and年终奖)。

S53、重复循环步骤，得到所有关键词组成的具有筛选条件的目标词组。

S6、利用具有筛选条件的目标词组对待筛选文本进行筛选，得到目标文本。具体步骤为：

S61、利用具有筛选条件的第一目标词组对待筛选文本进行筛选，得到初选的文本；

S62、根据用户输入的关键词的顺序，逐一利用关键词组成的具有筛选条件的目标词组，对前一具有筛选条件目标词组筛选后的文本进行筛选，直到所有的具有筛选条件的目标词组筛选完毕，得到目标文本；若最终的目标文本为零个，则逐一去掉最后一个具有筛选条件的目标词组，直到得到至少一个目标文本的数量。

S7、对目标文本进行去重。具体步骤为：

S71、从目标文本中取出任意一条信息，作为原始样本；从剩余的目标文本中取任意一条信息，作为对比样本；

S72、以标点符号为分隔符，将原始样本和对比样本的内容分解为多个句子；

S73、将分解后的原始样本的内容，与分解后的对比样本的内容进行遍历比对，得出相同句子数量和不同句子数量；

S74、根据相同句子数量与不同句子数量的比值，得出目标文本相似度，当相似度超过阈值，则对原始样本和对比样本进行择一删除；相似度阈值可以自由进行设置。

S75、重复步骤，得到去重后的目标文本。

实施例二

本实施例提供了一种企业新闻筛选系统，用于实现实施例一的企业新闻筛选方法，请参见图2，图2为本实施例提供的一种企业新闻筛选系统的结构示意图。

一种企业新闻筛选系统，其特征在于，系统包括：企业名称输入模块1，企业名称拆分模块2，关联新闻获取模块3，关键词输入模块4，筛选条件添加模块5，筛选模块6，去重模块7；

企业名称输入模块1，用于获取目标企业全称；

企业名称拆分模块2，用于将获取的目标企业的全称拆分成目标企业简称；

关联新闻获取模块3，用于根据目标企业全称和目标企业简称，自动在互联网中搜取目标企业的关联新闻作为待筛选文本；关联新闻获取模块为网络爬虫模块。

关键词输入模块4，用于用户输入关键词；关键词输入模块还包括关联词获取单元，用于根据用户输入的关键词，获取与关键词相关联的关联词。

筛选条件添加模块5，用于添加筛选条件至目标词组，目标词组包括关键词和关联词，其中，关键词为用户所输入的关键词，关联词为与关键词具有关联关系的词；

筛选模块6，用于利用具有筛选条件的目标词组对待筛选文本进行筛选，得到目标文本；

去重模块7，用于对目标文本去重。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种企业新闻筛选方法，其特征在于，包括：

获取企业目标全称；

拆分所述目标企业全称，获取目标企业简称；

根据所述目标企业全称和所述目标企业简称，自动在互联网中搜取目标企业的电子名片和目标企业的关联新闻，将目标企业的关联新闻作为待筛选文本；

获取用户输入的关键词，所述关键词为用户所想要了解的企业信息的关键词；

添加筛选条件至目标词组，所述目标词组包括关键词和关联词，其中，所述关键词为用户所输入的关键词，所述关联词为与所述关键词具有关联关系的词；

利用具有筛选条件的目标词组对所述待筛选文本进行筛选，得到目标文本；

对目标文本进行去重。

2.根据权利要求1所述的一种企业新闻筛选方法，其特征在于，所述搜取目标企业的电子名片和目标企业的关联新闻中，采用网络爬虫技术搜取所述电子名片和所述关联新闻。

3.根据权利要求2所述的一种企业新闻筛选方法，其特征在于，所述关键词的数量为多个，所述与每个关键词相关联的关联词的数量为多个。

4.根据权利要求3所述的一种企业新闻筛选方法，其特征在于，添加筛选条件至目标词组包括：利用所述筛选条件关联所述关键词和所述关联词。

5.根据权利要求4所述的一种企业新闻筛选方法，其特征在于，所述筛选条件包括第一条件和第二条件，添加筛选条件至目标词组包括：

利用所述第一条件关联所述第一关键词和第一关键词的每个关联词，得到多个词组元素；

利用所述第二条件关联多个所述词组元素，得到具有筛选条件的第一目标词组；

重复循环步骤，得到所有关键词组成的具有筛选条件的目标词组。

6.根据权利要求5所述的一种企业新闻筛选方法，其特征在于，所述利用具有筛选条件的目标词组对所述待筛选文本进行筛选，得到目标文本，包括：

利用具有筛选条件的第一目标词组对所述待筛选文本进行筛选，得到初选的文本；

根据用户输入的关键词的顺序，逐一利用所述关键词组成的具有筛选条件的目标词组，对前一具有筛选条件目标词组筛选后的文本进行筛选，直到所有的具有筛选条件的目标词组筛选完毕，得到目标文本；若最终的目标文本为零个，则逐一去掉最后一个具有筛选条件的目标词组，直到得到至少一个目标文本的数量。

7.根据权利要求6所述的一种企业新闻筛选方法，其特征在于，所述对目标文本进行去重，包括：

从所述目标文本中取出任意一条信息，作为原始样本；从剩余的所述目标文本中取任意一条信息，作为对比样本；

以标点符号为分隔符，将所述原始样本和所述对比样本的内容分解为多个句子；

将分解后的所述原始样本的内容，与分解后的所述对比样本的内容进行遍历比对，得出相同句子数量和不同句子数量；

根据所述相同句子数量与所述不同句子数量的比值，得出目标文本相似度，当相似度超过阈值，则对原始样本和对比样本进行择一删除；

重复步骤，得到去重后的目标文本。

8.一种企业新闻筛选系统，其特征在于，所述系统包括：企业名称输入模块，企业名称拆分模块，关联新闻获取模块，关键词输入模块，筛选条件添加模块，筛选模块，去重模块；

企业名称输入模块，用于获取目标企业全称；

企业名称拆分模块，用于将获取的目标企业的全称拆分成目标企业简称；

关联新闻获取模块，用于根据所述目标企业全称和所述目标企业简称，自动在互联网中搜取目标企业的关联新闻作为待筛选文本；

关键词输入模块，用于用户输入关键词；

筛选条件添加模块，用于添加筛选条件至目标词组，所述目标词组包括关键词和关联词，其中，所述关键词为用户所输入的关键词，所述关联词为与所述关键词具有关联关系的词；

筛选模块，用于利用具有筛选条件的目标词组对所述待筛选文本进行筛选，得到目标文本。

去重模块，用于对目标文本去重。

9.根据权利要求8所述的一种企业新闻筛选系统，其特征在于，所述关键词输入模块还包括关联词获取单元，用于根据用户输入的关键词，获取与关键词相关联的关联词。

10.根据权利要求8所述的一种新闻筛选系统，其特征在于，所述关联新闻获取模块为网络爬虫模块。