CN111324735A - 一种时政要闻自动分类方法及其终端 - Google Patents
一种时政要闻自动分类方法及其终端 Download PDFInfo
- Publication number
- CN111324735A CN111324735A CN202010105089.3A CN202010105089A CN111324735A CN 111324735 A CN111324735 A CN 111324735A CN 202010105089 A CN202010105089 A CN 202010105089A CN 111324735 A CN111324735 A CN 111324735A
- Authority
- CN
- China
- Prior art keywords
- text content
- information
- classified
- unit
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000000686 essence Substances 0.000 claims abstract description 16
- 230000035943 smell Effects 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种时政要闻自动分类方法及其终端,方法包括:获取现有时政要闻文本内容,提取文本内容中的特征信息;接收待分类的文本内容;判断接收的文本内容与特征信息是否相匹配;若匹配成功,将待分类的文本归类于时政要闻。本发明的一种时政要闻自动分类方法及其终端,可以在众多的杂乱无章的文章中将时政要闻筛选出来,不需经过人工处理,智能化识别文本信息,实现时政要闻的自动化分类筛选,省时省力。
Description
技术领域
本发明涉及新闻分类技术领域,尤其涉及一种时政要闻自动分类方法及其终端。
背景技术
随着社会的发展,时代的进步,各行各业都在不断高速的发展,媒体业同样如此。
现在针对各类新闻都有其相对应的平台播放,例如:都市频道、影视频道、娱乐频道、农业频道、时政要闻频道等;现在新闻类型各种情况都有,需要将各类新闻类型分配到对应的频道。
目前无专门对时政要闻文本进行智能化分类系统,基本上是通过人工方式处理时政要闻类的新闻稿,这种方式费时费力,且人为分类主观性较大,效率低,不能形成大批量、大范围的实时新闻同步能力。
发明内容
有鉴于此,本发明的一种时政要闻自动分类方法及其终端,可以在众多的杂乱无章的文章中将时政要闻筛选出来,省时省力。
一种时政要闻自动分类方法,所述方法包括:
获取现有时政要闻文本内容,提取文本内容中的特征信息;
接收待分类的文本内容;
判断接收的文本内容与特征信息是否相匹配;
若匹配成功,将待分类的文本归类于时政要闻。
优选地,若所述接收的文本内容与特征信息是不相匹配,则将待分类的文本归类于非时政要闻。
优选地,若接收的文本内容与特征信息匹配成功,则还包括对与特征信息匹配的文本内容进行标注。
优选地,所述特征信息为领导人信息、地区信息以及职务信息中的一种或多种。
一种时政要闻自动分类终端,所述终端包括获取提取单元、接收单元、判断单元以及第一归类单元,所述获取提取单元、接收单元、判断单元以及第一归类单元依次连接,其中:
获取提取单元,用于获取现有时政要闻文本内容,提取文本内容中的特征信息;
接收单元,用于接收待分类的文本内容;
判断单元,用于判断接收的文本内容与特征信息是否相匹配;
第一归类单元,判断单元判断出匹配成功,将待分类的文本归类于时政要闻。
优选地,还包括第二归类单元,所述第二归类单元与判断单元连接,所述判断单元判断出接收的文本内容与特征信息不相匹配时,所述第二归类单元将待分类的文本归类为非时政要闻。
优选地,还包括标注单元,所述标注单元设置于判断单元与第一判断单元之间,所述标注单元分别与判断单元、第一判断单元连接;所述判断单元判断出接收的文本内容与特征信息匹配成功时,所述标注单元对与特征信息匹配的文本内容进行标注。
优选地,所述特征信息为领导人信息、地区信息以及职务信息中的一种或多种。
本发明的有益效果在于:本发明的一种时政要闻自动分类方法及其终端,可以在众多的杂乱无章的文章中将时政要闻筛选出来,不需经过人工处理,智能化识别文本信息,实现时政要闻的自动化分类筛选,省时省力。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种时政要闻自动分类方法实施例1的流程图;
图2为一种时政要闻自动分类方法实施例2的流程图;
图3为一种时政要闻自动分类终端实施例1的框图示意图;
图4为一种时政要闻自动分类终端实施例2的框图示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参看图1,一种时政要闻自动分类方法实施例1的流程图,一种时政要闻自动分类方法,方法包括:
S11,获取现有时政要闻文本内容,提取文本内容中的特征信息;获取现有确定的相关的时政要闻文本内容,对时政要闻文本提取文本内容中的特征信息;其中,现有确定的相关的时政要闻为专业的人员对有限多的文本进行时政要闻分析并分类,将确定的时政要闻作为现有时政要闻文本内容样本,提取文本内容中的相关特征信息;特征信息包括领导人信息、地区信息、职务信息、时间信息等信息中的一种或多种,例如:领导人信息为“普京”、地区信息“俄罗斯”、职务信息“总统”、时间信息“2019”。为了保证提取的特征信息足够多,一般可以需要尽可能多的获取现有时政要闻。
S12,接收待分类的文本内容;接收投稿人或者记者撰写的文本内容,对文本内容标记为待分类的文本内容。一般地,待分类的文本内容如果是时政要闻,其必然包括领导人信息、地区信息、职务信息、时间信息等信息;如果是其它类型的相关新闻,一般都不会有领导人信息以及职务等信息。
S13,判断接收的文本内容与特征信息是否相匹配;将接收的文本内容与时政要闻提取的特征信息进行匹配;一般地,通过接收的待分类的文本内容全文与特征信息进行匹配;可以设定匹配多少项,才对接收待分类的文本内容划分为时政要闻;例如:待分类的文本内容中有领导人信息以及职务信息与特征信息2项相匹配,预设2项及2项以上满足匹配,则可将待分配的文本内容分类为时政要闻;如果预设3项及3项以上满足匹配,则将待分配的文本内容分类为非时政要闻。
S14,若匹配成功,将待分类的文本归类于时政要闻。当待分类的文本内容与特征信息匹配成功时,即可以将待分类的文本归类于时政要闻。例如:待分类的文本中涉及到某国领导人,以及该领导人的职务,该国地区位置信息等,且与特征信息中包含的信息匹配了,则说明匹配成功了,可以将该待分类的文本归类于时政要闻。
本时政要闻自动分类方法可以在众多的杂乱无章的文章中将时政要闻筛选出来,不需经过人工处理,智能化识别文本信息,实现时政要闻的自动化分类筛选,省时省力。
请参看图2,一种时政要闻自动分类方法实施例2的流程图,一种时政要闻自动分类方法及其终端,方法包括:
S21,获取现有时政要闻文本内容,提取文本内容中的特征信息;获取现有确定的相关的时政要闻文本内容,对时政要闻文本提取文本内容中的特征信息;其中,现有确定的相关的时政要闻为专业的人员对有限多的文本进行时政要闻分析并分类,将确定的时政要闻作为现有时政要闻文本内容样本,提取文本内容中的相关特征信息;特征信息包括领导人信息、地区信息、职务信息、时间信息等信息中的一种或多种,例如:领导人信息为“普京”、地区信息“俄罗斯”、职务信息“总统”、时间信息“2019”。为了保证提取的特征信息足够多,一般可以需要尽可能多的获取现有时政要闻。
S22,接收待分类的文本内容;接收待分类的文本内容;接收投稿人或者记者撰写的文本内容,对文本内容标记为待分类的文本内容。一般地,待分类的文本内容如果是时政要闻,其必然包括领导人信息、地区信息、职务信息、时间信息等信息;如果是其它类型的相关新闻,一般都不会有领导人信息以及职务等信息。
S23,判断接收的文本内容与特征信息是否相匹配;将接收的文本内容与时政要闻提取的特征信息进行匹配;一般地,通过接收的待分类的文本内容全文与特征信息进行匹配;可以设定匹配多少项,才对接收待分类的文本内容划分为时政要闻;例如:待分类的文本内容中有领导人信息以及职务信息与特征信息2项相匹配,预设2项及2项以上满足匹配,则可将待分配的文本内容分类为时政要闻;如果预设3项及3项以上满足匹配,则将待分配的文本内容分类为非时政要闻。
S24,对与特征信息匹配的文本内容进行标注;如果待分配的文本内容与特征信息匹配成功时,则可以将与特征信息匹配的文本内容进行标注,对与特征信息匹配的文本内容进行标注,可以提高辨识度,提高用户可视度,便于检验或者可读。
S25,若匹配不成功,将待分类的文本归类于非时政要闻;如果待分类的文本内容与特征信息匹配不成功时,即可以将待分类的文本归类于非时政要闻。例如:待分类的文本中不涉及到领导人姓名,且不涉及职务,地区等信息;则将该待分类的文本归类为非时政要闻。
S26,若匹配成功,将待分类的文本归类于时政要闻;当待分类的文本内容与特征信息匹配成功时,即可以将待分类的文本归类于时政要闻。例如:待分类的文本中涉及到某国领导人,以及该领导人的职务,该国地区位置信息等,且与特征信息中包含的信息匹配了,则说明匹配成功了,可以将该待分类的文本归类于时政要闻。
请参看图3,图3为一种时政要闻自动分类终端实施例1的框图示意图;一种时政要闻自动分类终端,终端300包括:获取提取单元31、接收单元32、判断单元33以及第一归类单元34,获取提取单元31、接收单元32、判断单元33以及第一归类单元34依次连接,其中;
获取提取单元31,用于获取现有时政要闻文本内容,提取文本内容中的特征信息;获取现有确定的相关的时政要闻文本内容,对时政要闻文本提取文本内容中的特征信息;其中,现有确定的相关的时政要闻为专业的人员对有限多的文本进行时政要闻分析并分类,将确定的时政要闻作为现有时政要闻文本内容样本,提取文本内容中的相关特征信息;特征信息包括领导人信息、地区信息、职务信息、时间信息等信息中的一种或多种,例如:领导人信息为“普京”、地区信息“俄罗斯”、职务信息“总统”、时间信息“2019”。为了保证提取的特征信息足够多,一般可以需要尽可能多的获取现有时政要闻。
接收单元32,用于接收待分类的文本内容;接收投稿人或者记者撰写的文本内容,对文本内容标记为待分类的文本内容。一般地,待分类的文本内容如果是时政要闻,其必然包括领导人信息、地区信息、职务信息、时间信息等信息;如果是其它类型的相关新闻,一般都不会有领导人信息以及职务等信息。
判断单元33,用于判断接收的文本内容与特征信息是否相匹配;将接收的文本内容与时政要闻提取的特征信息进行匹配;一般地,通过接收的待分类的文本内容全文与特征信息进行匹配;可以设定匹配多少项,才对接收待分类的文本内容划分为时政要闻;例如:待分类的文本内容中有领导人信息以及职务信息与特征信息2项相匹配,预设2项及2项以上满足匹配,则可将待分配的文本内容分类为时政要闻;如果预设3项及3项以上满足匹配,则将待分配的文本内容分类为非时政要闻。
第一归类单元34,用于若匹配成功,将待分类的文本归类于时政要闻。当待分类的文本内容与特征信息匹配成功时,即可以将待分类的文本归类于时政要闻。例如:待分类的文本中涉及到某国领导人,以及该领导人的职务,该国地区位置信息等,且与特征信息中包含的信息匹配了,则说明匹配成功了,可以将该待分类的文本归类于时政要闻。
请参看图4,图4为一种时政要闻自动分类终端实施例2的框图示意图;一种时政要闻自动分类终端,终端400包括:获取提取单元41、接收单元42、判断单元43、标注单元44、第一归类单元45以及第二归类单元46;获取提取单元41、接收单元42以及判断单元43依次连接,标注单元44、第二归类单元46分别与判断单元43连接,第一归类单元45与标注单元44连接,其中:
获取提取单元41,用于接收待分类的文本内容;接收待分类的文本内容;接收投稿人或者记者撰写的文本内容,对文本内容标记为待分类的文本内容。一般地,待分类的文本内容如果是时政要闻,其必然包括领导人信息、地区信息、职务信息、时间信息等信息;如果是其它类型的相关新闻,一般都不会有领导人信息以及职务等信息。
接收单元42,接收待分类的文本内容;接收待分类的文本内容;接收投稿人或者记者撰写的文本内容,对文本内容标记为待分类的文本内容。一般地,待分类的文本内容如果是时政要闻,其必然包括领导人信息、地区信息、职务信息、时间信息等信息;如果是其它类型的相关新闻,一般都不会有领导人信息以及职务等信息。
判断单元43,用于用于判断接收的文本内容与特征信息是否相匹配;将接收的文本内容与时政要闻提取的特征信息进行匹配;一般地,通过接收的待分类的文本内容全文与特征信息进行匹配;可以设定匹配多少项,才对接收待分类的文本内容划分为时政要闻;例如:待分类的文本内容中有领导人信息以及职务信息与特征信息2项相匹配,预设2项及2项以上满足匹配,则可将待分配的文本内容分类为时政要闻;如果预设3项及3项以上满足匹配,则将待分配的文本内容分类为非时政要闻。
标注单元44,用于对与特征信息匹配的文本内容进行标注;如果待分配的文本内容与特征信息匹配成功时,则可以将与特征信息匹配的文本内容进行标注,对与特征信息匹配的文本内容进行标注,可以提高辨识度,提高用户可视度,便于检验或者可读。
第一归类单元45,用于若匹配成功,将待分类的文本归类于时政要闻;当待分类的文本内容与特征信息匹配成功时,即可以将待分类的文本归类于时政要闻。例如:待分类的文本中涉及到某国领导人,以及该领导人的职务,该国地区位置信息等,且与特征信息中包含的信息匹配了,则说明匹配成功了,可以将该待分类的文本归类于时政要闻。
第二归类单元46,用于若匹配不成功,将待分类的文本归类于非时政要闻;如果待分类的文本内容与特征信息匹配不成功时,即可以将待分类的文本归类于非时政要闻。例如:待分类的文本中不涉及到领导人姓名,且不涉及职务,地区等信息;则将该待分类的文本归类为非时政要闻。
以上所描述的实施例仅仅是示意性的,本发明实施例可以根据实际需要进行顺序调整、合并和删减。
实施例对本方案进行了详细的介绍,本文中应用了具体个例对本发明的结构原理及实施方式进行了阐述,以上实施例只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种时政要闻自动分类方法,其特征在于,所述方法包括:
获取现有时政要闻文本内容,提取文本内容中的特征信息;
接收待分类的文本内容;
判断接收的文本内容与特征信息是否相匹配;
若匹配成功,将待分类的文本归类于时政要闻。
2.根据权利要求1所述的时政要闻自动分类方法,其特征在于,若所述接收的文本内容与特征信息是不相匹配,则将待分类的文本归类于非时政要闻。
3.根据权利要求1所述的时政要闻自动分类方法,其特征在于,若接收的文本内容与特征信息匹配成功,则还包括对与特征信息匹配的文本内容进行标注。
4.根据权利要求1-3任一所述的时政要闻自动分类方法,其特征在于,所述特征信息为领导人信息、地区信息以及职务信息中的一种或多种。
5.一种时政要闻自动分类终端,其特征在于,所述终端包括获取提取单元、接收单元、判断单元以及第一归类单元,所述获取提取单元、接收单元、判断单元以及第一归类单元依次连接,其中:
获取提取单元,用于获取现有时政要闻文本内容,提取文本内容中的特征信息;
接收单元,用于接收待分类的文本内容;
判断单元,用于判断接收的文本内容与特征信息是否相匹配;
第一归类单元,判断单元判断出匹配成功,将待分类的文本归类于时政要闻。
6.根据权利要求5所述的时政要闻自动分类终端,其特征在于,还包括第二归类单元,所述第二归类单元与判断单元连接,所述判断单元判断出接收的文本内容与特征信息不相匹配时,所述第二归类单元将待分类的文本归类为非时政要闻。
7.根据权利要求5所述的时政要闻自动分类终端,其特征在于,还包括标注单元,所述标注单元设置于判断单元与第一判断单元之间,所述标注单元分别与判断单元、第一判断单元连接;所述判断单元判断出接收的文本内容与特征信息匹配成功时,所述标注单元对与特征信息匹配的文本内容进行标注。
8.根据权利要求5所述的时政要闻自动分类终端,其特征在于,所述特征信息为领导人信息、地区信息以及职务信息中的一种或多种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105089.3A CN111324735A (zh) | 2020-02-20 | 2020-02-20 | 一种时政要闻自动分类方法及其终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105089.3A CN111324735A (zh) | 2020-02-20 | 2020-02-20 | 一种时政要闻自动分类方法及其终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111324735A true CN111324735A (zh) | 2020-06-23 |
Family
ID=71171147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010105089.3A Pending CN111324735A (zh) | 2020-02-20 | 2020-02-20 | 一种时政要闻自动分类方法及其终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111324735A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160171083A1 (en) * | 2014-07-03 | 2016-06-16 | Palantir Technologies Inc. | System and method for news events detection and visualization |
CN105760526A (zh) * | 2016-03-01 | 2016-07-13 | 网易(杭州)网络有限公司 | 一种新闻分类的方法和装置 |
CN106383887A (zh) * | 2016-09-22 | 2017-02-08 | 深圳市博安达信息技术股份有限公司 | 一种环保新闻数据采集和推荐展示的方法及系统 |
CN107766371A (zh) * | 2016-08-19 | 2018-03-06 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN108090201A (zh) * | 2017-12-20 | 2018-05-29 | 珠海市君天电子科技有限公司 | 一种文章内容分类的方法、装置及电子设备 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
-
2020
- 2020-02-20 CN CN202010105089.3A patent/CN111324735A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160171083A1 (en) * | 2014-07-03 | 2016-06-16 | Palantir Technologies Inc. | System and method for news events detection and visualization |
CN105760526A (zh) * | 2016-03-01 | 2016-07-13 | 网易(杭州)网络有限公司 | 一种新闻分类的方法和装置 |
CN107766371A (zh) * | 2016-08-19 | 2018-03-06 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN106383887A (zh) * | 2016-09-22 | 2017-02-08 | 深圳市博安达信息技术股份有限公司 | 一种环保新闻数据采集和推荐展示的方法及系统 |
CN108090201A (zh) * | 2017-12-20 | 2018-05-29 | 珠海市君天电子科技有限公司 | 一种文章内容分类的方法、装置及电子设备 |
CN108334610A (zh) * | 2018-02-06 | 2018-07-27 | 北京神州泰岳软件股份有限公司 | 一种新闻文本分类方法、装置及服务器 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038178B (zh) | 舆情分析方法和装置 | |
US7243101B2 (en) | Program, image managing apparatus and image managing method | |
EP1548633A3 (en) | Automatic document separation | |
ATE519166T1 (de) | Automatische übertragung von daten aus einem übernommenen system | |
CN109241780B (zh) | 一种图像隐藏信息的检测方法、装置及设备 | |
CN109756760A (zh) | 视频标签的生成方法、装置及服务器 | |
CN104133875A (zh) | 一种基于人脸的视频标注方法和视频检索方法 | |
CN101770470A (zh) | 一种文件类型识别分析方法及系统 | |
CN102457817B (zh) | 一种手机报中新闻内容的抽取方法及系统 | |
CN103390163A (zh) | 一种信函地址自动采集方法 | |
CN107679227A (zh) | 视频索引标签设置方法、装置及服务器 | |
CN107944030A (zh) | 一种图书自动分类装置 | |
JP2005086387A5 (zh) | ||
CN106484789A (zh) | 图片信息的储存管理系统及其方法 | |
CN105930313A (zh) | 处理通知信息的方法和装置 | |
CN111324735A (zh) | 一种时政要闻自动分类方法及其终端 | |
CN111125124A (zh) | 一种基于大数据平台的语料标注的方法及装置 | |
US20050132361A1 (en) | Application display apparatus and application display system | |
CN110728240A (zh) | 一种对电子卷宗的标题自动识别的方法及装置 | |
CN109698900B (zh) | 一种数据处理方法、装置及监控系统 | |
CN111666525B (zh) | 一种信息拦截系统及方法 | |
US20220129795A1 (en) | Systems and methods for cognitive information mining | |
CN114706948A (zh) | 新闻处理方法、装置、存储介质以及电子设备 | |
CN110287699B (zh) | 应用程序的特征提取方法和装置 | |
CN111276126A (zh) | 一种时政要闻语音合成的方法及其终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200623 |