CN111782907B - 新闻分类方法、装置及电子设备 - Google Patents
新闻分类方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111782907B CN111782907B CN202010637790.XA CN202010637790A CN111782907B CN 111782907 B CN111782907 B CN 111782907B CN 202010637790 A CN202010637790 A CN 202010637790A CN 111782907 B CN111782907 B CN 111782907B
- Authority
- CN
- China
- Prior art keywords
- news
- event
- information
- entity
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000008451 emotion Effects 0.000 claims abstract description 40
- 238000013507 mapping Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 11
- 230000014509 gene expression Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003631 expected effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种新闻分类方法、装置及电子设备,涉及大数据的技术领域。该新闻分类方法包括:通过采集新闻,形成新闻文本语料库;确定预设新闻事件,并从所述新闻文本语料库中筛选与所述预设新闻事件匹配的新闻文本信息;对所述新闻文本信息进行信息抽取,获得新闻事件信息;对所述新闻事件信息进行实体映射,获得实体新闻事件;通过对所述实体新闻事件进行情感分析获得情感信息,并将所述实体新闻事件和所述情感信息保存至新闻事件语料库。缓解了现有技术中新闻事件抽取的有效信息相对较少的技术问题。
Description
技术领域
本发明涉及大数据技术领域,尤其是涉及一种新闻分类方法、装置及电子设备。
背景技术
随着互联网的快速发展,从网上获取到的新闻等信息也在飞速增长,如何从这些信息中有效的获取有价值的事件就成为了亟待解决的问题。事件抽取技术就是在这样的需求中产生的,事件抽取技术可以从大量用自然语言表达的文本中提取人们感兴趣的事件,什么地点,什么时间,发生了哪些事等。
目前的事件抽取技术中,所获得的信息量比较多,而其中的有效信息相对较少,难以达到新闻推送的预期效果。
发明内容
本发明的目的在于提供一种新闻分类方法、装置及电子设备,以缓解现有技术中新闻事件抽取的有效信息相对较少的技术问题。
第一方面,本发明实施例提供一种新闻分类方法,包括:
通过采集新闻,形成新闻文本语料库;
确定预设新闻事件,并从所述新闻文本语料库中筛选与所述预设新闻事件匹配的新闻文本信息;
对所述新闻文本信息进行信息抽取,获得新闻事件信息;
对所述新闻事件信息进行实体映射,获得实体新闻事件;
通过对所述实体新闻事件进行情感分析获得情感信息,并将所述实体新闻事件和所述情感信息保存至新闻事件语料库。
在一种可能的实施方式中,所述通过采集新闻,形成新闻文本语料库的步骤,包括:
从若干新闻网站采集新闻,将获取到的新闻相关信息和新闻文本信息保存至新闻文本语料库;
其中,所述新闻相关信息包括标题、作者、时间、标签、概要、新闻来源、新闻所在url、新闻内容、新闻内容的网页格式中的一种或多种。
在一种可能的实施方式中,所述确定预设新闻事件,并从所述新闻文本语料库中筛选与所述预设新闻事件匹配的新闻文本信息的步骤,包括:
获取预设新闻事件的事件触发表达式,并为所述事件触发表达式生成逆波兰表达式元素;
将所述新闻文本语料库中的新闻文本信息进行语句拆分,并与所述事件触发表达式进行匹配,获得与所述预设新闻事件匹配的新闻文本信息。
在一种可能的实施方式中,在所述将所述新闻文本语料库中的新闻文本信息进行语句拆分,并与所述事件触发表达式进行匹配,获得与所述预设新闻事件匹配的新闻文本信息的步骤之后,还包括:
对与所述预设新闻事件匹配的新闻文本信息进行去重。
在一种可能的实施方式中,所述对与所述预设新闻事件匹配的新闻文本信息进行去重的步骤,包括:
基于新闻事件语料库中预设时间段内的语句,对与所述预设新闻事件匹配的新闻文本信息,利用Simhash算法进行去重。
在一种可能的实施方式中,所述对所述新闻事件信息进行实体映射,获得实体新闻事件的步骤,包括:
利用同义词库对所述新闻事件信息进行实体简全称映射,获得实体新闻事件;
或,
通过对所述新闻事件信息进行余弦距离计算查找同义词,并获得实体新闻事件。
在一种可能的实施方式中,在所述通过对所述实体新闻事件进行情感分析获得情感信息,并将所述实体新闻事件和所述情感信息保存至新闻事件语料库的步骤之后,还包括:
将所述实体新闻事件推送至与所述情感信息相关联的目标群体。
第二方面,本发明实施例还提供一种新闻分类装置,包括:
采集模块,用于通过采集新闻,形成新闻文本语料库;
确定模块,用于确定预设新闻事件,并从所述新闻文本语料库中筛选与所述预设新闻事件匹配的新闻文本信息;
抽取模块,用于对所述新闻文本信息进行信息抽取,获得新闻事件信息;
映射模块,用于对所述新闻事件信息进行实体映射,获得实体新闻事件;
分析模块,用于通过对所述实体新闻事件进行情感分析获得情感信息,并将所述实体新闻事件和所述情感信息保存至新闻事件语料库。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的方法。
本发明实施例提供的新闻分类方法中,首先通过采集新闻形成新闻文本语料库,以备后续进行新闻的筛选和抽取。在确定预设新闻事件之后,从新闻文本语料库中筛选与预设新闻事件匹配的新闻文本信息,然后通过信息抽取获得新闻事件信息,再进行实体映射获得实体新闻事件,最后通过对实体新闻事件进行情感分析获得情感信息,并将实体新闻事件和情感信息保存至新闻事件语料库。本发明实施例提供的新闻分类方法,通过对与预设新闻事件匹配的新闻文本信息,进行信息抽取、实体映射、情感分析等操作处理,所获得的实体新闻事件滤除掉了更多的无效信息,而具有更多的有效信息,从而缓解了现有技术中新闻事件抽取的有效信息相对较少的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的新闻分类方法的流程图;
图2为本发明实施例提供的新闻分类方法的另一流程图;
图3为本发明实施例中步骤S202的详细流程图;
图4为本发明实施例提供的新闻分类装置的示意图;
图5为本发明实施例提供的电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着互联网的快速发展,从网上获取到的新闻等信息也在飞速增长,如何从这些信息中有效的获取有价值的事件就成为了亟待解决的问题。事件抽取技术就是在这样的需求中产生的,事件抽取技术可以从大量用自然语言表达的文本中提取人们感兴趣的事件,什么地点,什么时间,发生了哪些事等。
目前的事件抽取技术中,所获得的信息量比较多,而其中的有效信息相对较少,难以达到新闻推送的预期效果。
针对以上问题,本发明实施例提供一种新闻分类方法。如图1所示,该新闻分类方法包括以下步骤:
S101:通过采集新闻,形成新闻文本语料库。
S102:确定预设新闻事件,并从新闻文本语料库中筛选与预设新闻事件匹配的新闻文本信息。
S103:对新闻文本信息进行信息抽取,获得新闻事件信息。
S104:对新闻事件信息进行实体映射,获得实体新闻事件。
S105:通过对实体新闻事件进行情感分析获得情感信息,并将实体新闻事件和情感信息保存至新闻事件语料库。
本发明实施例提供的新闻分类方法,通过对与预设新闻事件匹配的新闻文本信息,进行信息抽取、实体映射、情感分析等操作处理,所获得的实体新闻事件滤除掉了更多的无效信息,而具有更多的有效信息,从而缓解了现有技术中新闻事件抽取的有效信息相对较少的技术问题。
如图2所示,本发明实施例还提供了上述新闻分类方法另一实施方式,包括以下步骤:
S201:通过采集新闻,形成新闻文本语料库。
具体的,可以从若干新闻网站不间断的采集新闻,将获取到的新闻相关信息和新闻文本信息保存至新闻文本语料库。
其中,新闻相关信息包括标题、作者、时间、标签、概要、新闻来源、新闻所在统一资源定位符(Uniform Resource Locator,简称URL)、新闻内容、新闻内容的网页格式中的一种或多种。
S202:确定预设新闻事件,并从新闻文本语料库中筛选与预设新闻事件匹配的新闻文本信息。
如图3所示,具体可以对新闻文本语料库中的每一条新闻文本信息进行如下处理:
S2021:获取预设新闻事件的事件触发表达式,并为事件触发表达式生成逆波兰表达式元素。
例如,一篇新闻《疫情冲击全球航空业国内航司2月亏损超209亿》中的宏观经济事件作为预设新闻事件,该预设新闻事件的事件触发表达式为:(裁员+罢工)/不会裁员。再生成该事件触发表达式的逆波兰表达式元素:[裁员,罢工,+,不会裁员,/]),供后续步骤进行匹配使用。
在其他实施方式中,也可能具有多个预设新闻事件,而且每个预设新闻事件都有相应的事件触发表达式及逆波兰表达式元素。
S2022:将新闻文本语料库中的新闻文本信息进行语句拆分,并与事件触发表达式进行匹配,获得与预设新闻事件匹配的新闻文本信息。
具体的,将新闻标题和新闻文本先进行段落拆分,再按标点符号进行语句拆分,每个句子的文本长度可以设置在10至300字之间。
然后可以对每个句子进行事件触发表达式的匹配操作,若有匹配成功的,则将该新闻的句子标记为对应类型的预设新闻事件,且将该句子所在的新闻信息保留下来供后续处理。比如上一步骤例举的宏观经济事件,如果新闻标题匹配成功,则可以不再详细对新闻的句子进行匹配;若新闻标题的匹配没有成功或者该新闻没有标题,则还要匹配每个句子是否符合宏观经济事件。
例如,最后得到的句子为:甲航空已停飞约三分之二的航班,乙航空公司考虑未来两个月削减75%运力,丙航空则宣布裁员九成。
S2023:对与预设新闻事件匹配的新闻文本信息进行去重。
因为会有相同内容的一篇新闻来自不同的网站,因此有必要对上一步骤留下来的句子进行去重,且有一张单独的去重表。具体的,可以基于新闻事件语料库中预设时间段内的语句,对与预设新闻事件匹配的新闻文本信息,利用部分敏感哈希算法进行去重。
例如,基于新闻事件语料库中最近30日内的新闻语句,对上一步骤中留下来的句子进行去重处理。去重算法可使用simhash算法进一步过滤新闻句子。
S203:对新闻文本信息进行信息抽取,获得新闻事件信息。
具体的,使用信息抽取模型对上一步保留下来的新闻文本信息进行信息抽取,只有能抽取出某一个或者多个信息的新闻事件才能继续被保留到下一步,且对抽取出的新闻事件信息进行记录。
例如,抽取出的信息为:主体机构有甲航空公司,且位于句子中的位置索引是42-46字符。
S204:对新闻事件信息进行实体映射,获得实体新闻事件。
具体的实体映射方式可分为两种。通常首先采用第一种实体映射方式,利用同义词库对新闻事件信息进行实体简全称映射,以获得完全匹配的实体新闻事件。如果没有完全匹配的实体新闻事件,可以再采用第二种实体映射方式,通过对新闻事件信息进行余弦距离计算查找同义词,获得实体新闻事件。
S205:通过对实体新闻事件进行情感分析获得情感信息,并将实体新闻事件和情感信息保存至新闻事件语料库。
在一种可能的实施方式中,可以利用外部接口对实体新闻事件进行情感分析,并将获得的情感信息和该实体新闻事件一起保存至新闻事件语料库。
在一种可能的实施方式中,在上述步骤S205之后,还可以包括以下步骤:
S206:将实体新闻事件推送至与情感信息相关联的目标群体。
例如,通过应用内信息、第三方信息等信息推送的方式,将实体新闻事件推送至目标群体用户的终端。
本发明实施例提供的新闻分类方法,通过对与预设新闻事件匹配的新闻文本信息,进行信息抽取、实体映射、情感分析等操作处理,所获得的实体新闻事件滤除掉了更多的无效信息,而具有更多的有效信息,并且将实体新闻事件直接推送至目标群体。因此,从而缓解了现有技术中新闻事件抽取的有效信息相对较少的技术问题,并提高了新闻事件推送的准确性和速率。
如图4所示,本发明实施例还提供一种新闻分类装置,包括:
采集模块401,用于通过采集新闻,形成新闻文本语料库;
确定模块402,用于确定预设新闻事件,并从新闻文本语料库中筛选与预设新闻事件匹配的新闻文本信息;
抽取模块403,用于对新闻文本信息进行信息抽取,获得新闻事件信息;
映射模块404,用于对新闻事件信息进行实体映射,获得实体新闻事件;
分析模块405,用于通过对实体新闻事件进行情感分析获得情感信息,并将实体新闻事件和情感信息保存至新闻事件语料库。
本发明实施例提供的新闻分类装置,与上述实施例提供的新闻分类方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例提供的一种电子设备,如图5所示,电子设备500包括存储器501、处理器502,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
如图5所示,电子设备还包括:总线503和通信接口504,处理器502、通信接口504和存储器501通过总线503连接;处理器502用于执行存储器501中存储的可执行模块,例如计算机程序。
其中,存储器501可能包含高速随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口504(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线503可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器501用于存储程序,所述处理器502在接收到执行指令后,执行所述程序,前述本申请任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器502中,或者由处理器502实现。
处理器502可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器502中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器502可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501,处理器502读取存储器501中的信息,结合其硬件完成上述方法的步骤。
对应于上述方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述方法的步骤。
本申请实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所公开的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
又例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,再例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请公开的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种新闻分类方法,其特征在于,包括:
通过采集新闻,形成新闻文本语料库;
确定预设新闻事件,并从所述新闻文本语料库中筛选与所述预设新闻事件匹配的新闻文本信息;
对所述新闻文本信息进行信息抽取,获得新闻事件信息;
对所述新闻事件信息进行实体映射,获得实体新闻事件;
通过对所述实体新闻事件进行情感分析获得情感信息,并将所述实体新闻事件和所述情感信息保存至新闻事件语料库;
所述确定预设新闻事件,并从所述新闻文本语料库中筛选与所述预设新闻事件匹配的新闻文本信息的步骤,包括:
获取预设新闻事件的事件触发表达式,并为所述事件触发表达式生成逆波兰表达式元素;
将所述新闻文本语料库中的新闻文本信息进行语句拆分,并与所述事件触发表达式进行匹配,获得与所述预设新闻事件匹配的新闻文本信息;
所述对所述新闻事件信息进行实体映射,获得实体新闻事件的步骤,包括:
利用同义词库对所述新闻事件信息进行实体简全称映射,获得实体新闻事件。
2.根据权利要求1所述的方法,其特征在于,所述通过采集新闻,形成新闻文本语料库的步骤,包括:
从若干新闻网站采集新闻,将获取到的新闻相关信息和新闻文本信息保存至新闻文本语料库;
其中,所述新闻相关信息包括标题、作者、时间、标签、概要、新闻来源、新闻所在url、新闻内容、新闻内容的网页格式中的一种或多种。
3.根据权利要求1所述的方法,其特征在于,在所述将所述新闻文本语料库中的新闻文本信息进行语句拆分,并与所述事件触发表达式进行匹配,获得与所述预设新闻事件匹配的新闻文本信息的步骤之后,还包括:
对与所述预设新闻事件匹配的新闻文本信息进行去重。
4.根据权利要求3所述的方法,其特征在于,所述对与所述预设新闻事件匹配的新闻文本信息进行去重的步骤,包括:
基于新闻事件语料库中预设时间段内的语句,对与所述预设新闻事件匹配的新闻文本信息,利用Simhash算法进行去重。
5.根据权利要求1所述的方法,其特征在于,在所述通过对所述实体新闻事件进行情感分析获得情感信息,并将所述实体新闻事件和所述情感信息保存至新闻事件语料库的步骤之后,还包括:
将所述实体新闻事件推送至与所述情感信息相关联的目标群体。
6.一种新闻分类装置,其特征在于,包括:
采集模块,用于通过采集新闻,形成新闻文本语料库;
确定模块,用于确定预设新闻事件,并从所述新闻文本语料库中筛选与所述预设新闻事件匹配的新闻文本信息;
抽取模块,用于对所述新闻文本信息进行信息抽取,获得新闻事件信息;
映射模块,用于对所述新闻事件信息进行实体映射,获得实体新闻事件;
分析模块,用于通过对所述实体新闻事件进行情感分析获得情感信息,并将所述实体新闻事件和所述情感信息保存至新闻事件语料库;
所述确定模块,还用于:获取预设新闻事件的事件触发表达式,并为所述事件触发表达式生成逆波兰表达式元素;将所述新闻文本语料库中的新闻文本信息进行语句拆分,并与所述事件触发表达式进行匹配,获得与所述预设新闻事件匹配的新闻文本信息;
所述映射模块,还用于:利用同义词库对所述新闻事件信息进行实体简全称映射,获得实体新闻事件。
7.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010637790.XA CN111782907B (zh) | 2020-07-01 | 2020-07-01 | 新闻分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010637790.XA CN111782907B (zh) | 2020-07-01 | 2020-07-01 | 新闻分类方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782907A CN111782907A (zh) | 2020-10-16 |
CN111782907B true CN111782907B (zh) | 2024-03-01 |
Family
ID=72759615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010637790.XA Active CN111782907B (zh) | 2020-07-01 | 2020-07-01 | 新闻分类方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782907B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766652B (zh) * | 2020-12-31 | 2024-04-19 | 北京知因智慧科技有限公司 | 一种企业事件分布图的生成方法、装置及可读存储介质 |
CN112967144B (zh) * | 2021-03-09 | 2024-01-23 | 华泰证券股份有限公司 | 一种金融信用风险事件抽取方法、可读存储介质及设备 |
CN116028627B (zh) * | 2023-02-13 | 2023-06-13 | 特斯联科技集团有限公司 | 新闻分类方法及装置、电子设备、计算机可读存储介质 |
CN116304065B (zh) * | 2023-05-23 | 2023-09-29 | 美云智数科技有限公司 | 舆情文本分类方法、装置、电子设备及存储介质 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101290620A (zh) * | 2007-04-18 | 2008-10-22 | 中国传媒大学 | 一种基于数字对象的媒体资产处理方法及系统 |
US7702739B1 (en) * | 2002-10-01 | 2010-04-20 | Bao Tran | Efficient transactional messaging between loosely coupled client and server over multiple intermittent networks with policy based routing |
CN103324665A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博的热点信息提取的方法和装置 |
WO2014100459A2 (en) * | 2012-12-21 | 2014-06-26 | Lex Machina, Inc. | Systems and methods for using non-textual information in analyzing patent matters |
CN104537128A (zh) * | 2015-01-30 | 2015-04-22 | 广联达软件股份有限公司 | 一种网页信息提取方法及装置 |
US9043197B1 (en) * | 2006-07-14 | 2015-05-26 | Google Inc. | Extracting information from unstructured text using generalized extraction patterns |
CN104765733A (zh) * | 2014-01-02 | 2015-07-08 | 华为技术有限公司 | 一种社交网络事件分析的方法和装置 |
CN106202563A (zh) * | 2016-08-02 | 2016-12-07 | 西南石油大学 | 一种实时关联事件新闻推荐方法及系统 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN108287706A (zh) * | 2017-05-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN108932229A (zh) * | 2018-06-13 | 2018-12-04 | 北京信息科技大学 | 一种金融新闻倾向性分析方法 |
CN109299277A (zh) * | 2018-11-20 | 2019-02-01 | 中山大学 | 舆情分析方法、服务器及计算机可读存储介质 |
CN109408806A (zh) * | 2018-09-11 | 2019-03-01 | 中国电子科技集团公司第二十八研究所 | 一种基于英文语法规则的事件提取方法 |
CN109472470A (zh) * | 2018-10-23 | 2019-03-15 | 重庆誉存大数据科技有限公司 | 结合深度学习和逻辑规则的企业新闻数据风险分类方法 |
CN109635285A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 企业全称与简称匹配方法、装置、计算机设备和存储介质 |
CN109684631A (zh) * | 2018-12-12 | 2019-04-26 | 北京神州泰岳软件股份有限公司 | 命名实体抽取方法、装置及介质 |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN109858040A (zh) * | 2019-03-05 | 2019-06-07 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置和计算机设备 |
CN111259223A (zh) * | 2020-02-17 | 2020-06-09 | 北京国新汇金股份有限公司 | 基于情感分析模型的新闻推荐和文本分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050222989A1 (en) * | 2003-09-30 | 2005-10-06 | Taher Haveliwala | Results based personalization of advertisements in a search engine |
US8601489B2 (en) * | 2009-12-17 | 2013-12-03 | Bmc Software, Inc. | Automated computer systems event processing |
US8239349B2 (en) * | 2010-10-07 | 2012-08-07 | Hewlett-Packard Development Company, L.P. | Extracting data |
US10140272B2 (en) * | 2015-09-25 | 2018-11-27 | International Business Machines Corporation | Dynamic context aware abbreviation detection and annotation |
-
2020
- 2020-07-01 CN CN202010637790.XA patent/CN111782907B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7702739B1 (en) * | 2002-10-01 | 2010-04-20 | Bao Tran | Efficient transactional messaging between loosely coupled client and server over multiple intermittent networks with policy based routing |
US9043197B1 (en) * | 2006-07-14 | 2015-05-26 | Google Inc. | Extracting information from unstructured text using generalized extraction patterns |
CN101290620A (zh) * | 2007-04-18 | 2008-10-22 | 中国传媒大学 | 一种基于数字对象的媒体资产处理方法及系统 |
WO2014100459A2 (en) * | 2012-12-21 | 2014-06-26 | Lex Machina, Inc. | Systems and methods for using non-textual information in analyzing patent matters |
CN103324665A (zh) * | 2013-05-14 | 2013-09-25 | 亿赞普(北京)科技有限公司 | 一种基于微博的热点信息提取的方法和装置 |
CN104765733A (zh) * | 2014-01-02 | 2015-07-08 | 华为技术有限公司 | 一种社交网络事件分析的方法和装置 |
CN104537128A (zh) * | 2015-01-30 | 2015-04-22 | 广联达软件股份有限公司 | 一种网页信息提取方法及装置 |
CN106202563A (zh) * | 2016-08-02 | 2016-12-07 | 西南石油大学 | 一种实时关联事件新闻推荐方法及系统 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN106874378A (zh) * | 2017-01-05 | 2017-06-20 | 北京工商大学 | 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法 |
CN108287706A (zh) * | 2017-05-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 数据处理方法及装置 |
CN108446355A (zh) * | 2018-03-12 | 2018-08-24 | 深圳证券信息有限公司 | 投融资事件要素抽取方法、装置及设备 |
CN108932229A (zh) * | 2018-06-13 | 2018-12-04 | 北京信息科技大学 | 一种金融新闻倾向性分析方法 |
CN109408806A (zh) * | 2018-09-11 | 2019-03-01 | 中国电子科技集团公司第二十八研究所 | 一种基于英文语法规则的事件提取方法 |
CN109472470A (zh) * | 2018-10-23 | 2019-03-15 | 重庆誉存大数据科技有限公司 | 结合深度学习和逻辑规则的企业新闻数据风险分类方法 |
CN109299277A (zh) * | 2018-11-20 | 2019-02-01 | 中山大学 | 舆情分析方法、服务器及计算机可读存储介质 |
CN109635285A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 企业全称与简称匹配方法、装置、计算机设备和存储介质 |
CN109684631A (zh) * | 2018-12-12 | 2019-04-26 | 北京神州泰岳软件股份有限公司 | 命名实体抽取方法、装置及介质 |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN109858040A (zh) * | 2019-03-05 | 2019-06-07 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置和计算机设备 |
CN111259223A (zh) * | 2020-02-17 | 2020-06-09 | 北京国新汇金股份有限公司 | 基于情感分析模型的新闻推荐和文本分类方法 |
Non-Patent Citations (4)
Title |
---|
joze bucar.Annotated news corpora and a lexicon for sentiment analysis in Slovene.《Language Resources and Evaluation》.2018,第52卷895–919. * |
基于社交网络文本框架语义分析的药品不良事件提取;李朝翻;《中国优秀硕士学位论文全文数据库 信息科技》;I143-56 * |
李胜.并购重组类公告的信息抽取系统研究与实现.《中国优秀硕士学位论文全文数据库 信息科技》.2020,I138-2224. * |
郑国伟.基于LSTM的金融新闻倾向性.《计算机工程与设计》.2016,第39卷(第11期),3463-3467. * |
Also Published As
Publication number | Publication date |
---|---|
CN111782907A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111782907B (zh) | 新闻分类方法、装置及电子设备 | |
Urvoy et al. | Tracking web spam with html style similarities | |
CN107633062B (zh) | 敏感词查找方法、装置及电子设备 | |
CN111241389A (zh) | 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN102915361B (zh) | 一种基于文字分布特征的网页正文提取方法 | |
US10810245B2 (en) | Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations | |
CN111597297A (zh) | 物品召回方法、系统、电子设备及可读存储介质 | |
CN111625748A (zh) | 网站的导航栏信息提取方法、装置、电子设备及存储介质 | |
CN111125298A (zh) | 重建ntfs文件目录树的方法、设备及存储介质 | |
CN107169011B (zh) | 基于人工智能的网页原创性识别方法、装置及存储介质 | |
CN112232075A (zh) | 基于时间格式和网页元素特征的文章发布时间识别方法 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN113721923B (zh) | 一种网页代码优化方法、装置、电子设备及存储介质 | |
US8862586B2 (en) | Document analysis system | |
JP2010224984A (ja) | 特許明細書評価・作成作業支援装置、方法及びプログラム | |
Wang et al. | A novel web page text information extraction method | |
CN105608137A (zh) | 一种提取身份标识的方法和装置 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN112163158A (zh) | 一种基于搜索历史、浏览足迹的搜索推荐方法 | |
CN111160445A (zh) | 投标文件相似度计算方法及装置 | |
CN104408097A (zh) | 一种基于字符段热更新的混合索引方法及系统 | |
CN110674286A (zh) | 一种文本摘要抽取方法、装置及存储设备 | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
CN112148869B (zh) | 文本参考信息生成方法、装置、电子设备及存储介质 | |
CN112818279A (zh) | 网页相似度的确定方法及确定装置、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |