CN110442704A - 一种企业新闻筛选方法及系统 - Google Patents

一种企业新闻筛选方法及系统 Download PDF

Info

Publication number
CN110442704A
CN110442704A CN201910742657.8A CN201910742657A CN110442704A CN 110442704 A CN110442704 A CN 110442704A CN 201910742657 A CN201910742657 A CN 201910742657A CN 110442704 A CN110442704 A CN 110442704A
Authority
CN
China
Prior art keywords
target
keyword
screening
enterprise
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910742657.8A
Other languages
English (en)
Inventor
刘德彬
陈玮
孙世通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Yu Yu Da Data Technology Co Ltd
Original Assignee
Chongqing Yu Yu Da Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Yu Yu Da Data Technology Co Ltd filed Critical Chongqing Yu Yu Da Data Technology Co Ltd
Priority to CN201910742657.8A priority Critical patent/CN110442704A/zh
Publication of CN110442704A publication Critical patent/CN110442704A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种企业新闻筛选方法,包括:获取企业目标全称;拆分所述目标企业全称,获取目标企业简称;根据所述目标企业全称和所述目标企业简称,自动在互联网中搜取目标企业的电子名片和目标企业的关联新闻,将目标企业的关联新闻作为待筛选文本;获取用户输入的关键词;添加筛选条件至目标词组,所述目标词组包括关键词和关联词;利用具有筛选条件的目标词组对所述待筛选文本进行筛选,得到目标文本;对目标文本进行去重。本发明提供的一种企业新闻筛选方法及系统,能够从大量的新闻中搜取并筛选出用户所需要的信息,提高了效率,并且能够获取到企业相关人员的电子名片,帮助用户快速了解企业的相关信息。

Description

一种企业新闻筛选方法及系统
技术领域
本发明属于数据处理技术领域,具体涉及一种企业新闻筛选方法及系统。
背景技术
新闻,也叫消息,是通过报纸、电台、广播、电视台等媒体途径所传播信息的一种称谓,是传播信息的一种文体。在大数据时代,各种各样的新闻文本不断增多。当用户需要了解一家企业的时候,可以从企业的新闻中了解到企业的基本情况,基于企业新闻文本获得对自身有用的信息。但是大量的企业新闻又会使得用户阅读起来极其的烦躁,使得用户失去耐心,或者当用户需要联系企业相关管理或技术人员时,很难获取到企业相关人员的联系信息。采用企业新闻筛选的方法既可以从海量的信息中获取有用的新闻,又能够搜取到企业的相关电子名片,可以帮助用户快速的收集信息及做出决策。
发明内容
针对上述现有技术的不足,本发明提供了一种企业新闻筛选方法及系统,能够从大量的新闻中搜取并筛选出用户所需要的信息,提高了效率,并且能够获取到企业相关人员的电子名片,帮助用户快速了解企业的相关信息。
本发明采用如下技术方案:
一种企业新闻筛选方法,包括:获取企业目标全称;拆分所述目标企业全称,获取目标企业简称;根据所述目标企业全称和所述目标企业简称,自动在互联网中搜取目标企业的电子名片和目标企业的关联新闻,将目标企业的关联新闻作为待筛选文本;获取用户输入的关键词,所述关键词为用户所想要了解的企业信息的关键词;添加筛选条件至目标词组,所述目标词组包括关键词和关联词,其中,所述关键词为用户所输入的关键词,所述关联词为与所述关键词具有关联关系的词;利用具有筛选条件的目标词组对所述待筛选文本进行筛选,得到目标文本;对目标文本进行去重。
进一步地,所述搜取目标企业的电子名片和目标企业的关联新闻中,采用网络爬虫技术搜取所述电子名片和所述关联新闻。
进一步地,所述关键词的数量为多个,所述与每个关键词相关联的关联词的数量为多个。
进一步地,添加筛选条件至目标词组包括:利用所述筛选条件关联所述关键词和所述关联词。
进一步地,所述筛选条件包括第一条件和第二条件,添加筛选条件至目标词组包括:利用所述第一条件关联所述第一关键词和第一关键词的每个关联词,得到多个词组元素;利用所述第二条件关联多个所述词组元素,得到具有筛选条件的第一目标词组;重复循环步骤,得到所有关键词组成的具有筛选条件的目标词组。
进一步地,所述利用具有筛选条件的目标词组对所述待筛选文本进行筛选,得到目标文本,包括:利用具有筛选条件的第一目标词组对所述待筛选文本进行筛选,得到初选的文本;根据用户输入的关键词的顺序,逐一利用所述关键词组成的具有筛选条件的目标词组,对前一具有筛选条件目标词组筛选后的文本进行筛选,直到所有的具有筛选条件的目标词组筛选完毕,得到目标文本;若最终的目标文本为零个,则逐一去掉最后一个具有筛选条件的目标词组,直到得到至少一个目标文本的数量。
进一步地,所述对目标文本进行去重,包括:从所述目标文本中取出任意一条信息,作为原始样本;从剩余的所述目标文本中取任意一条信息,作为对比样本;以标点符号为分隔符,将所述原始样本和所述对比样本的内容分解为多个句子;将分解后的所述原始样本的内容,与分解后的所述对比样本的内容进行遍历比对,得出相同句子数量和不同句子数量;根据所述相同句子数量与所述不同句子数量的比值,得出目标文本相似度,当相似度超过阈值,则对原始样本和对比样本进行择一删除;重复步骤,得到去重后的目标文本。
一种企业新闻筛选系统,其特征在于,所述系统包括:企业名称输入模块,企业名称拆分模块,关联新闻获取模块,关键词输入模块,筛选条件添加模块,筛选模块,去重模块;企业名称输入模块,用于获取目标企业全称;企业名称拆分模块,用于将获取的目标企业的全称拆分成目标企业简称;关联新闻获取模块,用于根据所述目标企业全称和所述目标企业简称,自动在互联网中搜取目标企业的关联新闻作为待筛选文本;关键词输入模块,用于用户输入关键词;筛选条件添加模块,用于添加筛选条件至目标词组,所述目标词组包括关键词和关联词,其中,所述关键词为用户所输入的关键词,所述关联词为与所述关键词具有关联关系的词;筛选模块,用于利用具有筛选条件的目标词组对所述待筛选文本进行筛选,得到目标文本。去重模块,用于对目标文本去重。
进一步地,所述关键词输入模块还包括关联词获取单元,用于根据用户输入的关键词,获取与关键词相关联的关联词。
进一步地,所述关联新闻获取模块为网络爬虫模块。
本发明的有益效果为:根据企业全称和企业简称可以更加全面的搜取到与企业相关联的新闻,避免存在遗漏;根据用户输入的关键词对搜取到的新闻进行进一步的筛选,可以快速的找出用户所需要的新闻信息;其中,在使用用户输入的关键词中还对关键词进行关联关联词的获取,并利用关联的关联词与关键词一起形成的带有筛选条件的目标词组对新闻信息进行筛选,避免用户输入的关键词太过单一,筛选过程中遗漏掉重要的相关信息,能够更加全面的获取用户所需要的信息;因互联网上重复信息过多,在筛选之后,还可以对目标文本进行去重步骤,避免重复阅读,浪费用户的时间。
附图说明
图1为本发明一种企业新闻筛选方法的流程示意图。
图2为本发明一种企业新闻筛选系统的结构示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
实施例一
本实施例提供了一种企业新闻筛选方法,请参见图1,图1为本实施例提供的一种企业新闻筛选方法的流程示意图,该方法的具体步骤如下:
S1、获取企业目标全称。通过将用户输入的需要查询的目标企业名称与企业名单词库内的词条进行匹配,给出相应候选企业全称,例如,若用户输入的是目标企业的简称,则会给出相应的候选企业全称,供用户选择。
S2、拆分目标企业全称,获取目标企业简称。
在接收到目标企业全称后,将按照一定的规则对目标企业全称进行拆分,从而获得目标企业简称,例如,若目标企业全称为“重庆誉存大数据科技有限公司”,则“有限”和“公司”这两个常见词汇将首先被筛选掉,再去掉地名“重庆”,也就是说,最后得到的目标企业的简称为“誉存大数据科技”。
S3、根据目标企业全称和目标企业简称,自动在互联网中搜取目标企业的电子名片和目标企业的关联新闻,将目标企业的关联新闻作为待筛选文本。
使用目标企业全称和目标企业简称在互联网环境中采用网络爬虫技术对目标企业情况进行搜索,具体地,例如,对于某一条新闻,若该新闻标题、摘要和正文中出现有目标企业全称或简称,则该条新闻将被获取。同时使用目标企业全称和目标企业简称来获取与目标企业相关联的关联新闻,可以使得所搜索的关联新闻更加充分、全面。此外,需要说明的是,通过统计目标企业在互联网上的关联新闻的总量及关联新闻的来源,可以评估该目标企业的媒体曝光率和影响力。此外,根据目标企业的全称和目标企业的简称还可以进一步搜索目标企业的电子名片,为有需要联系目标企业相关联人员的用户提供联系方式,避免用户为获取联系方式通过其他渠道再次搜索,节约了时间和精力。
S4、获取用户输入的关键词,关键词为用户所想要了解的企业信息的关键词。该关键词的数量为多个。
S5、添加筛选条件至目标词组,目标词组包括关键词和关联词,其中,关键词为用户所输入的关键词,关联词为与关键词具有关联关系的词。
用户输入的每个关键词都包括多个关联词,关联词为人们日常生活中常同时使用的词或具有一定关联关系的词,或者为英汉相互翻译的词。具体地,例如用户输入“年终奖”,则获取的关联词为“五险一金”、“休假”、“娱乐活动”等。
筛选条件的种类如下表一所示,但不仅限于下表一所示的种类,可以根据需求选择具体的筛选条件。
添加筛选条件至目标词组包括利用筛选条件关联关键词和关联词。筛选条件包括第一筛选条件和第二筛选条件,具体步骤为:
S51、利用第一条件关联第一关键词和第一关键词的每个关联词,得到多个词组元素。不同的关联词通过哪个第一条件与关键词进行关联,可以根据需求设置,其中,第一条件为表一中的多个筛选条件,多个第一条件可以为同一筛选条件,也可以为不同的筛选条件,第一条件的种类具体可以根据需求设置。具体地,例如(五险一金and年终奖)、(休假and年终奖)、(娱乐活动and年终奖)三个词组元素。
S52、利用第二条件关联多个词组元素,得到具有筛选条件的第一目标词组。第二条件可以与第一条件相同,也可以不同,具体地,例如(五险一金and年终奖)or(休假and年终奖)or(娱乐活动and年终奖)。
S53、重复循环步骤,得到所有关键词组成的具有筛选条件的目标词组。
S6、利用具有筛选条件的目标词组对待筛选文本进行筛选,得到目标文本。具体步骤为:
S61、利用具有筛选条件的第一目标词组对待筛选文本进行筛选,得到初选的文本;
S62、根据用户输入的关键词的顺序,逐一利用关键词组成的具有筛选条件的目标词组,对前一具有筛选条件目标词组筛选后的文本进行筛选,直到所有的具有筛选条件的目标词组筛选完毕,得到目标文本;若最终的目标文本为零个,则逐一去掉最后一个具有筛选条件的目标词组,直到得到至少一个目标文本的数量。
S7、对目标文本进行去重。具体步骤为:
S71、从目标文本中取出任意一条信息,作为原始样本;从剩余的目标文本中取任意一条信息,作为对比样本;
S72、以标点符号为分隔符,将原始样本和对比样本的内容分解为多个句子;
S73、将分解后的原始样本的内容,与分解后的对比样本的内容进行遍历比对,得出相同句子数量和不同句子数量;
S74、根据相同句子数量与不同句子数量的比值,得出目标文本相似度,当相似度超过阈值,则对原始样本和对比样本进行择一删除;相似度阈值可以自由进行设置。
S75、重复步骤,得到去重后的目标文本。
实施例二
本实施例提供了一种企业新闻筛选系统,用于实现实施例一的企业新闻筛选方法,请参见图2,图2为本实施例提供的一种企业新闻筛选系统的结构示意图。
一种企业新闻筛选系统,其特征在于,系统包括:企业名称输入模块1,企业名称拆分模块2,关联新闻获取模块3,关键词输入模块4,筛选条件添加模块5,筛选模块6,去重模块7;
企业名称输入模块1,用于获取目标企业全称;
企业名称拆分模块2,用于将获取的目标企业的全称拆分成目标企业简称;
关联新闻获取模块3,用于根据目标企业全称和目标企业简称,自动在互联网中搜取目标企业的关联新闻作为待筛选文本;关联新闻获取模块为网络爬虫模块。
关键词输入模块4,用于用户输入关键词;关键词输入模块还包括关联词获取单元,用于根据用户输入的关键词,获取与关键词相关联的关联词。
筛选条件添加模块5,用于添加筛选条件至目标词组,目标词组包括关键词和关联词,其中,关键词为用户所输入的关键词,关联词为与关键词具有关联关系的词;
筛选模块6,用于利用具有筛选条件的目标词组对待筛选文本进行筛选,得到目标文本;
去重模块7,用于对目标文本去重。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种企业新闻筛选方法,其特征在于,包括:
获取企业目标全称;
拆分所述目标企业全称,获取目标企业简称;
根据所述目标企业全称和所述目标企业简称,自动在互联网中搜取目标企业的电子名片和目标企业的关联新闻,将目标企业的关联新闻作为待筛选文本;
获取用户输入的关键词,所述关键词为用户所想要了解的企业信息的关键词;
添加筛选条件至目标词组,所述目标词组包括关键词和关联词,其中,所述关键词为用户所输入的关键词,所述关联词为与所述关键词具有关联关系的词;
利用具有筛选条件的目标词组对所述待筛选文本进行筛选,得到目标文本;
对目标文本进行去重。
2.根据权利要求1所述的一种企业新闻筛选方法,其特征在于,所述搜取目标企业的电子名片和目标企业的关联新闻中,采用网络爬虫技术搜取所述电子名片和所述关联新闻。
3.根据权利要求2所述的一种企业新闻筛选方法,其特征在于,所述关键词的数量为多个,所述与每个关键词相关联的关联词的数量为多个。
4.根据权利要求3所述的一种企业新闻筛选方法,其特征在于,添加筛选条件至目标词组包括:利用所述筛选条件关联所述关键词和所述关联词。
5.根据权利要求4所述的一种企业新闻筛选方法,其特征在于,所述筛选条件包括第一条件和第二条件,添加筛选条件至目标词组包括:
利用所述第一条件关联所述第一关键词和第一关键词的每个关联词,得到多个词组元素;
利用所述第二条件关联多个所述词组元素,得到具有筛选条件的第一目标词组;
重复循环步骤,得到所有关键词组成的具有筛选条件的目标词组。
6.根据权利要求5所述的一种企业新闻筛选方法,其特征在于,所述利用具有筛选条件的目标词组对所述待筛选文本进行筛选,得到目标文本,包括:
利用具有筛选条件的第一目标词组对所述待筛选文本进行筛选,得到初选的文本;
根据用户输入的关键词的顺序,逐一利用所述关键词组成的具有筛选条件的目标词组,对前一具有筛选条件目标词组筛选后的文本进行筛选,直到所有的具有筛选条件的目标词组筛选完毕,得到目标文本;若最终的目标文本为零个,则逐一去掉最后一个具有筛选条件的目标词组,直到得到至少一个目标文本的数量。
7.根据权利要求6所述的一种企业新闻筛选方法,其特征在于,所述对目标文本进行去重,包括:
从所述目标文本中取出任意一条信息,作为原始样本;从剩余的所述目标文本中取任意一条信息,作为对比样本;
以标点符号为分隔符,将所述原始样本和所述对比样本的内容分解为多个句子;
将分解后的所述原始样本的内容,与分解后的所述对比样本的内容进行遍历比对,得出相同句子数量和不同句子数量;
根据所述相同句子数量与所述不同句子数量的比值,得出目标文本相似度,当相似度超过阈值,则对原始样本和对比样本进行择一删除;
重复步骤,得到去重后的目标文本。
8.一种企业新闻筛选系统,其特征在于,所述系统包括:企业名称输入模块,企业名称拆分模块,关联新闻获取模块,关键词输入模块,筛选条件添加模块,筛选模块,去重模块;
企业名称输入模块,用于获取目标企业全称;
企业名称拆分模块,用于将获取的目标企业的全称拆分成目标企业简称;
关联新闻获取模块,用于根据所述目标企业全称和所述目标企业简称,自动在互联网中搜取目标企业的关联新闻作为待筛选文本;
关键词输入模块,用于用户输入关键词;
筛选条件添加模块,用于添加筛选条件至目标词组,所述目标词组包括关键词和关联词,其中,所述关键词为用户所输入的关键词,所述关联词为与所述关键词具有关联关系的词;
筛选模块,用于利用具有筛选条件的目标词组对所述待筛选文本进行筛选,得到目标文本。
去重模块,用于对目标文本去重。
9.根据权利要求8所述的一种企业新闻筛选系统,其特征在于,所述关键词输入模块还包括关联词获取单元,用于根据用户输入的关键词,获取与关键词相关联的关联词。
10.根据权利要求8所述的一种新闻筛选系统,其特征在于,所述关联新闻获取模块为网络爬虫模块。
CN201910742657.8A 2019-08-13 2019-08-13 一种企业新闻筛选方法及系统 Pending CN110442704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910742657.8A CN110442704A (zh) 2019-08-13 2019-08-13 一种企业新闻筛选方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910742657.8A CN110442704A (zh) 2019-08-13 2019-08-13 一种企业新闻筛选方法及系统

Publications (1)

Publication Number Publication Date
CN110442704A true CN110442704A (zh) 2019-11-12

Family

ID=68434824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910742657.8A Pending CN110442704A (zh) 2019-08-13 2019-08-13 一种企业新闻筛选方法及系统

Country Status (1)

Country Link
CN (1) CN110442704A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046144A (zh) * 2019-12-17 2020-04-21 深圳前海环融联易信息科技服务有限公司 一种智能匹配方法、装置、计算机设备及存储介质
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
TWI727624B (zh) * 2020-01-21 2021-05-11 兆豐國際商業銀行股份有限公司 新聞篩選裝置以及新聞篩選方法
CN116340639A (zh) * 2023-03-31 2023-06-27 北京百度网讯科技有限公司 新闻召回方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索系统及其使用方法
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
CN105446989A (zh) * 2014-07-04 2016-03-30 阿里巴巴集团控股有限公司 搜索方法及装置、显示装置
CN105975491A (zh) * 2016-04-26 2016-09-28 重庆誉存企业信用管理有限公司 企业新闻分析方法及系统
CN106465099A (zh) * 2013-10-21 2017-02-22 谷歌技术控股有限责任公司 在保护数据隐私的同时至计算设备的上下文数据的改进传递
CN107544982A (zh) * 2016-06-24 2018-01-05 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN109407916A (zh) * 2018-08-27 2019-03-01 华为技术有限公司 数据搜索的方法、终端、用户图像显示界面以及存储介质
CN109582792A (zh) * 2018-11-16 2019-04-05 北京奇虎科技有限公司 一种文本分类的方法及装置
CN109933733A (zh) * 2019-03-18 2019-06-25 智慧芽信息科技(苏州)有限公司 页面的展示方法和装置
CN110019669A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101535945A (zh) * 2006-04-25 2009-09-16 英孚威尔公司 全文查询和搜索系统及其使用方法
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和系统
CN106465099A (zh) * 2013-10-21 2017-02-22 谷歌技术控股有限责任公司 在保护数据隐私的同时至计算设备的上下文数据的改进传递
CN105446989A (zh) * 2014-07-04 2016-03-30 阿里巴巴集团控股有限公司 搜索方法及装置、显示装置
CN105975491A (zh) * 2016-04-26 2016-09-28 重庆誉存企业信用管理有限公司 企业新闻分析方法及系统
CN107544982A (zh) * 2016-06-24 2018-01-05 中兴通讯股份有限公司 文本信息处理方法、装置及终端
CN110019669A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN109407916A (zh) * 2018-08-27 2019-03-01 华为技术有限公司 数据搜索的方法、终端、用户图像显示界面以及存储介质
CN109582792A (zh) * 2018-11-16 2019-04-05 北京奇虎科技有限公司 一种文本分类的方法及装置
CN109933733A (zh) * 2019-03-18 2019-06-25 智慧芽信息科技(苏州)有限公司 页面的展示方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046144A (zh) * 2019-12-17 2020-04-21 深圳前海环融联易信息科技服务有限公司 一种智能匹配方法、装置、计算机设备及存储介质
TWI727624B (zh) * 2020-01-21 2021-05-11 兆豐國際商業銀行股份有限公司 新聞篩選裝置以及新聞篩選方法
CN112434158A (zh) * 2020-11-13 2021-03-02 北京创业光荣信息科技有限责任公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN112434158B (zh) * 2020-11-13 2024-05-28 海创汇科技创业发展股份有限公司 一种企业标签的获取方法、获取装置、存储介质和计算机设备
CN116340639A (zh) * 2023-03-31 2023-06-27 北京百度网讯科技有限公司 新闻召回方法、装置、设备及存储介质
CN116340639B (zh) * 2023-03-31 2023-12-12 北京百度网讯科技有限公司 新闻召回方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110442704A (zh) 一种企业新闻筛选方法及系统
Al-Twairesh et al. AraSenTi: Large-scale Twitter-specific Arabic sentiment lexicons
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
Toraman et al. Impact of tokenization on language models: An analysis for turkish
Topkara et al. Natural language watermarking
Klebanov et al. Different texts, same metaphors: Unigrams and beyond
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
US20010014852A1 (en) Document semantic analysis/selection with knowledge creativity capability
Weiler et al. Event identification and tracking in social media streaming data
Heino et al. Named entity linking in a complex domain: Case second world war history
Kurniawan et al. Indonesian Lexicon-Based Sentiment Analysis of Online Religious Lectures Review
Starko et al. VESUM: A Large Morphological Dictionary of Ukrainian As a Dynamic Tool.
Švec et al. General framework for mining, processing and storing large amounts of electronic texts for language modeling purposes
Das et al. Developing bengali wordnet affect for analyzing emotion
Sadman et al. Understanding the pandemic through mining covid news using natural language processing
Osipov et al. Technologies for semantic analysis of scientific publications
Ihnaini et al. Lexicon-based sentiment analysis of arabic tweets: A survey
Khalil et al. Extracting Arabic composite names using genitive principles of Arabic grammar
Ell et al. Deriving human-readable labels from SPARQL queries
Amien et al. Location-based Twitter Filtering for the Creation of Low-Resource Language Datasets in Indonesian Local Languages
Hazem et al. Qalign: a new method for bilingual lexicon extraction from comparable corpora
Hajjar et al. An improved structured and progressive electronic dictionary for the Arabic language: iSPEDAL
Gerguis et al. WikiTrends: Unstructured Wikipedia-Based Text Analytics Framework
Awdeh et al. A Silver Standard Arabic Corpus for Segmentation and Validation.
Demartini et al. An architecture for finding entities on the web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112