CN113010669A - 一种新闻分类方法和系统 - Google Patents
一种新闻分类方法和系统 Download PDFInfo
- Publication number
- CN113010669A CN113010669A CN202011547928.3A CN202011547928A CN113010669A CN 113010669 A CN113010669 A CN 113010669A CN 202011547928 A CN202011547928 A CN 202011547928A CN 113010669 A CN113010669 A CN 113010669A
- Authority
- CN
- China
- Prior art keywords
- classification
- news
- classified
- keywords
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种新闻分类方法和系统,其中,新闻分类方法包括:根据新闻的分类需求,定义新闻的分类目录,其中,所述分类目录包括新闻类别;根据所述分类目录,设置与所述分类目录中每一新闻类别对应的分类关键词;获取待分类新闻,提取所述待分类新闻的多种分类特征;分别根据每种所述分类特征与所述分类关键词之间的相似度,划分所述待分类新闻的新闻类别。本发明的技术方案能够解决现有技术中新闻分类准确率低的问题。
Description
技术领域
本发明涉及文本分类技术领域,具体为一种新闻分类方法和系统。
背景技术
文本分类是指按照预先设定的主题类别,使用计算机将一篇或多篇文章归于预先设定的某一类或几类文档集合的过程。文本分类是文本挖掘的重要内容和方式。
现有的新闻分类方式是按照一定的分类体系或分类标准进行分类的;其中,新闻的种类包括时政新闻、娱乐新闻和体育新闻等。新闻的分类方法很多,通常能够根据新闻文本的某些关键词判断该新闻所属的类别。具体地,目前各大企业用户通常会将新闻分为特定的种类,然后使用相应的计算机软件提取新闻中的关键词,然后将该关键词与各个新闻种类对应的关键词进行匹配,若匹配成功,则将该新闻划分到该种类之下。
上述新闻分类方式仅仅是通过匹配关键词的方式进行新闻分类的,然而相同词义的关键词,其形式可能存在较大差别,因此仅仅通过匹配关键词的方式其匹配成功率较低,这样就导致新闻分类的准确性较差。
发明内容
本发明提供一种新闻分类方法和系统,旨在解决现有技术关键词匹配成功率较低,新闻分类的准确性较差的问题。
为解决上述问题,本发明提供了一种新闻分类方法,包括:
根据新闻的分类需求,定义新闻的分类目录,其中,分类目录包括新闻类别;
根据分类目录,设置与分类目录中每一新闻类别对应的分类关键词;
获取待分类新闻,提取待分类新闻的多种分类特征;
分别根据每种分类特征与分类关键词之间的相似度,划分待分类新闻的新闻类别。
优选地,上述根据分类目录,设置与分类目录中每一新闻类别对应的分类关键词的步骤包括:
分别为分类目录中每一层级的新闻类别设置对应的核心词典,其中,核心词典包括核心分类关键词;
使用核心分类关键词检索新闻,从新闻中提取与核心分类关键词对应的关键词,作为扩充分类关键词;
使用扩充分类关键词,分别为分类目录中每一层级的新闻类别设置扩充词典;
融合核心词典中的核心分类关键词与扩充词典中的扩充分类关键词,形成分别与每一新闻类别对应的分类关键词。
优选地,上述分别根据每种分类特征与分类关键词之间的相似度,划分待分类新闻的新闻类别的步骤,包括:
计算待分类新闻中的特征关键词与分类关键词之间的关键词相似度;
计算待分类新闻中的实体信息与分类关键词之间的实体相似度;
计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度;
分别根据待分类新闻的关键词相似度、实体相似度和向量相似度的相似度权重,确定待分类新闻所属的新闻类别。
优选地,上述计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度的步骤,包括:
查找待分类新闻中与特征向量中分类关键词的词义相同的词语,作为特征关键词;
根据特征关键词在待分类新闻中出现的频率,计算特征关键词的分类权重;
使用分类权重,生成待分类新闻的文本向量;
计算文本向量与特征向量之间的向量内积,得到向量相似度。
优选地,在计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度的步骤之前,上述方法还包括:
根据分类关键词所属的词典类型,分别为每一分类关键词设置分类权重;
按照分类权重对每一分类关键词进行排序,得到与每一新闻类别对应的特征向量。
根据本发明的第二方面,本发明还提供了一种新闻分类系统,包括:
目录定义模块,用于根据新闻的分类需求,定义新闻的分类目录,其中,分类目录包括新闻类别;
关键词设置模块,用于根据分类目录,设置与分类目录中每一新闻类别对应的分类关键词;
特征提取模块,用于获取待分类新闻,提取待分类新闻的多种分类特征;
类别划分模块,用于分别根据每种分类特征与分类关键词之间的相似度,划分待分类新闻的新闻类别。
优选地,上述关键词设置模块,包括:
第一词典设置子模块,用于分别为分类目录中每一层级的新闻类别设置对应的核心词典,其中,核心词典包括核心分类关键词;
关键词提取子模块,用于使用核心分类关键词检索新闻,从新闻中提取与核心分类关键词对应的关键词,作为扩充分类关键词;
第二词典设置子模块,用于使用扩充分类关键词,分别为分类目录中每一层级的新闻类别设置扩充词典;
关键词融合子模块,用于融合核心词典中的核心分类关键词与扩充词典中的扩充分类关键词,形成分别与每一新闻类别对应的分类关键词。
优选地,上述类别划分模块,包括:
关键词相似度计算子模块,用于计算待分类新闻中的特征关键词与分类关键词之间的关键词相似度;
实体相似度计算子模块,用于计算待分类新闻中的实体信息与分类关键词之间的实体相似度;
向量相似度计算子模块,用计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度;
类别确定子模块,用于分别根据待分类新闻的关键词相似度、实体相似度和向量相似度的相似度权重,确定待分类新闻所属的新闻类别。
优选地,上述向量相似度计算子模块,包括:
词语查找子模块,用于查找待分类新闻中与特征向量中分类关键词的词义相同的词语,作为特征关键词;
权重计算子模块,用于根据特征关键词在待分类新闻中出现的频率,计算特征关键词的分类权重;
向量生成子模块,用于使用分类权重,生成待分类新闻的文本向量;
内积计算子模块,用于计算文本向量与特征向量之间的向量内积,得到向量相似度。
优选地,上述新闻分类系统还包括:
分类权重设置模块,用于根据分类关键词所属的词典类型,分别为每一分类关键词设置分类权重;
关键词排序模块,用于按照分类权重对每一分类关键词进行排序,得到与每一新闻类别对应的特征向量。
本发明技术方案提供的新闻分类方案,通过根据新闻的分类需求,定义新闻的分类目录,分类目录包括新闻类别,这样就能够按照该新闻类别对待分类新闻进行分类;然后设置与每一新闻类别对应的分类关键词,因为该分类关键词与新闻类别对应,因此根据待分类新闻的多种分类特征中每种分类特征与分类关键词之间的相似度就能够确定待分类新闻所属的新闻类别。因为,本申请技术方案中使用待分类新闻的多种分类特征与新闻类别的分类关键词进行相似度的匹配,因此相对于背景技术中提到的只匹配关键词的方式,分类误差较小,匹配成功率较高,新闻分类的准确度较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1是本发明实施例提供的第一种新闻分类方法的流程示意图;
图2是图1所示实施例提供的一种分类关键词设置方法的流程示意图;
图3是本发明实施例提供的一种新闻类别划分方法的流程示意图;
图4是图1所示实施例提供的第二种新闻分类方法的流程示意图;
图5是图3所示实施例提供的一种向量相似度计算方法的流程示意图;
图6是本发明实施例提供的第一种新闻分类系统的结构示意图;
图7是图6所示实施例提供的一种关键词设置模块的结构示意图;
图8是图6所示实施例提供的一种类别划分模块的结构示意图;
图9是图8所示实施例提供的一种向量相似度计算子模块的结构示意图;
图10是本发明实施例提供的第二种新闻分类系统的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;“连接”可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本申请下述实施例提供的新闻分类方案,需要解决的技术问题如下:
目前的新闻分类方式大多通过匹配关键词的方式,进行单一划分,然而因为存在着相同词义不同形式的关键词,这样导致其形式可能存在较大差别,仅仅通过匹配关键词的方式会导致新闻分类的准确性较差。
为解决上述问题,参见图1,图1为本发明实施例提供的一种新闻分类方法的流程示意图。如图1所示,该新闻分类方法包括:
S110:根据新闻的分类需求,定义新闻的分类目录,其中,分类目录包括新闻类别。通常分类需求为用户设置,这样根据该分类需求,就能够确定新闻的分类目录。其中,分类目录是多层级的,具体地,示例一个二级分类目录,该分类体系由两级构成。第一级,该层级下又包含两个子类:政治和经济。同样,在第一级,该层级下又包含一个子类:政治。具体如下:
(一级分类)
|-政治(二级分类)
|-经济(二级分类)
|-政治
S120:根据分类目录,设置与分类目录中每一新闻类别对应的分类关键词。
作为一种优选的实施例,如图2所示,该根据分类目录,设置与分类目录中每一新闻类别对应的分类关键词的方法,包括以下步骤:
S121:分别为分类目录中每一层级的新闻类别设置对应的核心词典,其中,核心词典包括核心分类关键词。核心词典分别与每一层级的新闻类别对应,可以根据设定好的分类目录指定对应的核心词典,该核心词典包括根据分类需求定义的核心分类关键词,用于概括该层级目录。这样,因为本申请实施例中,每一层级分别定义核心分类关键词,相对于只为最终分类标签定义关键词,更能够体现分类目录中的层级关系。
S122:使用核心分类关键词检索新闻,从新闻中提取与核心分类关键词对应的关键词,作为扩充分类关键词。具体可使用每一层级的核心分类关键词,在互联网中进行相关新闻的检索,然后爬取相似的新闻,使用textRank 算法对爬取到的新闻提取关键词,作为扩充分类关键词。
S123:使用扩充分类关键词,分别为分类目录中每一层级的新闻类别设置扩充词典。其中,该扩充词典包括同一层级的上述扩充分类关键词。
S124:融合核心词典中的核心分类关键词与扩充词典中的扩充分类关键词,形成分别与每一新闻类别对应的分类关键词。
具体地可为核心词典和扩充词典中的分类关键词分配不同的权重,其中,因为扩充词典的不确定性较高,所以扩充分类关键词相对于核心分类关键词具有较低的权重。扩充关键词能够进一步丰富用户定义的核心词典,能够进一步提升新闻的分类准确度。融合后的分类目录如下:
(关键词:)
|-政治(政治会务)
|-经济(经济金融)
S130:获取待分类新闻,提取待分类新闻的多种分类特征;其中,本申请实施例中可提取待分类新闻的特征关键词、实体信息和文本向量。
S140:分别根据每种分类特征与分类关键词之间的相似度,划分待分类新闻的新闻类别。
作为一种优选的实施例,如图3所示,该根据多种分类特征分别与分类关键词的相似度,划分待分类新闻的新闻类别的步骤包括:
S141:计算待分类新闻中的特征关键词与分类关键词之间的关键词相似度。特征关键词是通过textRank算法,提取待分类新闻中的出现频率topN个关键词得到的,其中,N大于1,且为正整数。
S142:计算待分类新闻中的实体信息与分类关键词之间的实体相似度。该实体信息是通过实体提取技术,从待分类新闻中提取到的人、地和组织等实体信息。
S143:计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度。
其中,如图4所示,新闻类别对应的特征向量的获取方法如下:
S210:根据分类关键词所属的词典类型,分别为每一分类关键词设置分类权重。
S220:按照分类权重对每一分类关键词进行排序,得到与每一新闻类别对应的特征向量。
本申请实施例提供的技术方案中,对于上述步骤形成的分类词典(包括每一新闻类别对应的所有分类关键词),将每一新闻类别分别进行向量化,形成特征向量。其处理过程为:将所有类别的关键词构建一个统一的词袋,该词袋为所有分类关键词去重后的集合;为该词袋中的每一个分类关键词分配对应的权重。例如:核心分类关键词设置权重为10,扩充分类关键词的权设置为5,这样对核心分类关键词和扩充分类关键词设置权重后的分类词典形式如下:{word_user1:10,word_user2:10,word_add:5,word_add:5}。
作为一种优选的实施例,如图5所示,该计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度的步骤包括:
S1431:查找待分类新闻中与特征向量中分类关键词的词义相同的词语,作为特征关键词。
S1432:根据特征关键词在待分类新闻中出现的频率,计算特征关键词的分类权重。
S1433:使用分类权重,生成待分类新闻的文本向量。
S1434:计算文本向量与特征向量之间的向量内积,得到向量相似度。
本申请实施例提供的技术方案,能够对待分类新闻中的出现频率topN个关键词进行统计,形成词袋,使用该词频,将待分类新闻的文本转化为文本向量,在向量转化的过程中,需要与上述特征向量的权重对齐,具体方法如下:计算某个词的词频率,该词频率为词频/所有关键词出现的总次数,统计该词频率是否大于或等于预设阈值,若是则设置权重为10;若否,则设置权重为5。
其中,上述文本向量与特征向量之间的向量内积的计算方法如下:A·B= |A|×|B|×cosθ;其中,A和B分别表示文本向量和特征向量这两个向量,θ表示两个向量之间的夹角,其中,|A|和|B|分别是向量A和B的模,θ是向量A和向量B的夹角。
S144:分别根据待分类新闻的关键词相似度、实体相似度和向量相似度的相似度权重,确定待分类新闻所属的新闻类别。其中,通过融合实体相似度、关键词相似度和向量相似度,能够得到最终的新闻分类得分,其中三个相似度的相似度权重如下:向量相似度>关键词相似度>实体相似度。超过设定阈值的新闻将其划入相应类别,低于设定阈值的新闻划入其他类。
本申请实施例提供的技术方案,通过计算待分类新闻中的特征关键词与分类关键词之间的关键词相似度,然后计算待分类新闻中的实体信息与分类关键词之间的实体相似度,并计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度,就能够确定待分类新闻所属的新闻类别,实现新闻的划分。因为本申请实施例是通过对多个分类特征划分新闻类别的,因此类别划分的准确率更高。
本发明技术方案提供的新闻分类方法,通过根据新闻的分类需求,定义新闻的分类目录,分类目录包括新闻类别,这样就能够按照该新闻类别对待分类新闻进行分类;然后设置与每一新闻类别对应的分类关键词,因为该分类关键词与新闻类别对应,因此根据待分类新闻的多种分类特征中每种分类特征与分类关键词之间的相似度就能够确定待分类新闻所属的新闻类别。因为,本申请技术方案中使用待分类新闻的多种分类特征与新闻类别的分类关键词进行相似度的匹配,因此相对于背景技术中提到的只匹配关键词的方式,误差较小,匹配成功率较高,新闻分类的准确度较高。
另外,基于上述方法实施例的同一构思,本发明实施例还提供了新闻分类系统,用于实现本发明的上述方法,由于该系统实施例解决问题的原理与上述方法相似,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参见图6,图6为本发明实施例提供的第一种新闻分类系统的结构示意图。如图6所示,该新闻分类系统包括:
目录定义模块110,用于根据新闻的分类需求,定义新闻的分类目录,其中,分类目录包括新闻类别;
关键词设置模块120,用于根据分类目录,设置与分类目录中每一新闻类别对应的分类关键词;
特征提取模块130,用于获取待分类新闻,提取待分类新闻的多种分类特征;
类别划分模块140,用于分别根据每种分类特征与分类关键词之间的相似度,划分待分类新闻的新闻类别。
本发明技术方案提供的新闻分类系统,通过根据新闻的分类需求,定义新闻的分类目录,分类目录包括新闻类别,这样就能够按照该新闻类别对待分类新闻进行分类;然后设置与每一新闻类别对应的分类关键词,因为该分类关键词与新闻类别对应,因此根据待分类新闻的多种分类特征中每种分类特征与分类关键词之间的相似度就能够确定待分类新闻所属的新闻类别。因为,本申请技术方案中使用待分类新闻的多种分类特征与新闻类别的分类关键词进行相似度的匹配,因此相对于背景技术中提到的只匹配关键词的方式,误差较小,匹配成功率较高,新闻分类的准确度较高。
作为一种优选的实施例,如图7所示,该关键词设置模块120,包括:
第一词典设置子模块121,用于分别为分类目录中每一层级的新闻类别设置对应的核心词典,其中,核心词典包括核心分类关键词;
关键词提取子模块122,用于使用核心分类关键词检索新闻,从新闻中提取与核心分类关键词对应的关键词,作为扩充分类关键词;
第二词典设置子模块123,用于使用扩充分类关键词,分别为分类目录中每一层级的新闻类别设置扩充词典;
关键词融合子模块124,用于融合核心词典中的核心分类关键词与扩充词典中的扩充分类关键词,形成分别与每一新闻类别对应的分类关键词。
作为一种优选的实施例,如图8所示,该类别划分模块140,包括:
关键词相似度计算子模块141,用于计算待分类新闻中的特征关键词与分类关键词之间的关键词相似度;
实体相似度计算子模块142,用于计算待分类新闻中的实体信息与分类关键词之间的实体相似度;
向量相似度计算子模块143,用计算待分类新闻的文本向量与新闻类别对应的特征向量之间的向量相似度;
类别确定子模块144,用于分别根据待分类新闻的关键词相似度、实体相似度和向量相似度的相似度权重,确定待分类新闻所属的新闻类别。
作为一种优选的实施例,如图9所示,该向量相似度计算子模块143,包括:
词语查找子模块1431,用于查找待分类新闻中与特征向量中分类关键词的词义相同的词语,作为特征关键词;
权重计算子模块1432,用于根据特征关键词在待分类新闻中出现的频率,计算特征关键词的分类权重;
向量生成子模块1433,用于使用分类权重,生成待分类新闻的文本向量;
内积计算子模块1434,用于计算文本向量与特征向量之间的向量内积,得到向量相似度。
作为一种优选的实施例,如图10所示,上述新闻分类系统还包括:
分类权重设置模块150,用于根据分类关键词所属的词典类型,分别为每一分类关键词设置分类权重;
关键词排序模块160,用于按照分类权重对每一分类关键词进行排序,得到与每一新闻类别对应的特征向量。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种新闻分类方法,其特征在于,包括:
根据新闻的分类需求,定义新闻的分类目录,其中,所述分类目录包括新闻类别;
根据所述分类目录,设置与所述分类目录中每一新闻类别对应的分类关键词;
获取待分类新闻,提取所述待分类新闻的多种分类特征;
分别根据每种所述分类特征与所述分类关键词之间的相似度,划分所述待分类新闻的新闻类别。
2.根据权利要求1所述的新闻分类方法,其特征在于,所述根据分类目录,设置与所述分类目录中每一新闻类别对应的分类关键词的步骤,包括:
分别为所述分类目录中每一层级的新闻类别设置对应的核心词典,其中,所述核心词典包括核心分类关键词;
使用所述核心分类关键词检索新闻,从所述新闻中提取与所述核心分类关键词对应的关键词,作为扩充分类关键词;
使用所述扩充分类关键词,分别为所述分类目录中每一层级的新闻类别设置扩充词典;
融合所述核心词典中的核心分类关键词与所述扩充词典中的扩充分类关键词,形成分别与每一新闻类别对应的所述分类关键词。
3.根据权利要求1所述的新闻分类方法,其特征在于,所述分别根据每种分类特征与所述分类关键词之间的相似度,划分所述待分类新闻的新闻类别的步骤,包括:
计算所述待分类新闻中的特征关键词与所述分类关键词之间的关键词相似度;
计算所述待分类新闻中的实体信息与所述分类关键词之间的实体相似度;
计算所述待分类新闻的文本向量与所述新闻类别对应的特征向量之间的向量相似度;
分别根据所述待分类新闻的关键词相似度、实体相似度和向量相似度的相似度权重,确定所述待分类新闻所属的新闻类别。
4.根据权利要求3所述的新闻分类方法,其特征在于,所述计算待分类新闻的文本向量与所述新闻类别对应的特征向量之间的向量相似度的步骤,包括:
查找所述待分类新闻中与所述特征向量中分类关键词的词义相同的词语,作为所述特征关键词;
根据所述特征关键词在所述待分类新闻中出现的频率,计算所述特征关键词的分类权重;
使用所述分类权重,生成所述待分类新闻的文本向量;
计算所述文本向量与所述特征向量之间的向量内积,得到所述向量相似度。
5.根据权利要求3所述的新闻分类方法,其特征在于,所述计算待分类新闻的文本向量与所述新闻类别对应的特征向量之间的向量相似度的步骤之前,所述方法还包括:
根据所述分类关键词所属的词典类型,分别为每一所述分类关键词设置分类权重;
按照所述分类权重对每一所述分类关键词进行排序,得到与每一新闻类别对应的所述特征向量。
6.一种新闻分类系统,其特征在于,包括:
目录定义模块,用于根据新闻的分类需求,定义新闻的分类目录,其中,所述分类目录包括新闻类别;
关键词设置模块,用于根据所述分类目录,设置与所述分类目录中每一新闻类别对应的分类关键词;
特征提取模块,用于获取待分类新闻,提取所述待分类新闻的多种分类特征;
类别划分模块,用于分别根据每种所述分类特征与所述分类关键词之间的相似度,划分所述待分类新闻的新闻类别。
7.根据权利要求6所述的新闻分类系统,其特征在于,所述关键词设置模块,包括:
第一词典设置子模块,用于分别为所述分类目录中每一层级的新闻类别设置对应的核心词典,其中,所述核心词典包括核心分类关键词;
关键词提取子模块,用于使用所述核心分类关键词检索新闻,从所述新闻中提取与所述核心分类关键词对应的关键词,作为扩充分类关键词;
第二词典设置子模块,用于使用所述扩充分类关键词,分别为所述分类目录中每一层级的新闻类别设置扩充词典;
关键词融合子模块,用于融合所述核心词典中的核心分类关键词与所述扩充词典中的扩充分类关键词,形成分别与每一新闻类别对应的所述分类关键词。
8.根据权利要求6所述的新闻分类系统,其特征在于,所述类别划分模块,包括:
关键词相似度计算子模块,用于计算所述待分类新闻中的特征关键词与所述分类关键词之间的关键词相似度;
实体相似度计算子模块,用于计算所述待分类新闻中的实体信息与所述分类关键词之间的实体相似度;
向量相似度计算子模块,用计算所述待分类新闻的文本向量与所述新闻类别对应的特征向量之间的向量相似度;
类别确定子模块,用于分别根据所述待分类新闻的关键词相似度、实体相似度和向量相似度的相似度权重,确定所述待分类新闻所属的新闻类别。
9.根据权利要求8所述的新闻分类系统,其特征在于,所述向量相似度计算子模块,包括:
词语查找子模块,用于查找所述待分类新闻中与所述特征向量中分类关键词的词义相同的词语,作为所述特征关键词;
权重计算子模块,用于根据所述特征关键词在所述待分类新闻中出现的频率,计算所述特征关键词的分类权重;
向量生成子模块,用于使用所述分类权重,生成所述待分类新闻的文本向量;
内积计算子模块,用于计算所述文本向量与所述特征向量之间的向量内积,得到所述向量相似度。
10.根据权利要求8所述的新闻分类系统,其特征在于,还包括:
分类权重设置模块,用于根据所述分类关键词所属的词典类型,分别为每一所述分类关键词设置分类权重;
关键词排序模块,用于按照所述分类权重对每一所述分类关键词进行排序,得到与每一新闻类别对应的所述特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011547928.3A CN113010669B (zh) | 2020-12-24 | 2020-12-24 | 一种新闻分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011547928.3A CN113010669B (zh) | 2020-12-24 | 2020-12-24 | 一种新闻分类方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010669A true CN113010669A (zh) | 2021-06-22 |
CN113010669B CN113010669B (zh) | 2022-06-21 |
Family
ID=76383685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011547928.3A Active CN113010669B (zh) | 2020-12-24 | 2020-12-24 | 一种新闻分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010669B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541578A (zh) * | 2023-05-16 | 2023-08-04 | 三峡科技有限责任公司 | 资产数字化多维度管理方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145940A1 (en) * | 2008-12-09 | 2010-06-10 | International Business Machines Corporation | Systems and methods for analyzing electronic text |
US20100169243A1 (en) * | 2008-12-27 | 2010-07-01 | Kibboko, Inc. | Method and system for hybrid text classification |
CN103853722A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种基于检索串的关键词扩展方法、装置和系统 |
CN105243130A (zh) * | 2015-09-29 | 2016-01-13 | 中国电子科技集团公司第三十二研究所 | 面向数据挖掘的文本处理系统及方法 |
CN107704500A (zh) * | 2017-08-28 | 2018-02-16 | 昆明理工大学 | 一种基于语义分析与多重余弦定理的新闻分类方法 |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
CN108021667A (zh) * | 2017-12-05 | 2018-05-11 | 新华网股份有限公司 | 一种文本分类方法和装置 |
CN108228555A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 基于栏目主题的文章处理方法和装置 |
CN108280206A (zh) * | 2018-01-30 | 2018-07-13 | 尹忠博 | 一种基于语义增强的短文本分类方法 |
US20190095432A1 (en) * | 2017-09-26 | 2019-03-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for building text classification model, and text classification method and apparatus |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN111339290A (zh) * | 2018-11-30 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 一种文本分类方法和系统 |
CN111666373A (zh) * | 2020-05-07 | 2020-09-15 | 华东师范大学 | 一种基于Transformer的中文新闻分类方法 |
CN111753079A (zh) * | 2019-03-11 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 文本分类方法、装置、电子设备以及计算机可读存储介质 |
-
2020
- 2020-12-24 CN CN202011547928.3A patent/CN113010669B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145940A1 (en) * | 2008-12-09 | 2010-06-10 | International Business Machines Corporation | Systems and methods for analyzing electronic text |
US20100169243A1 (en) * | 2008-12-27 | 2010-07-01 | Kibboko, Inc. | Method and system for hybrid text classification |
CN103853722A (zh) * | 2012-11-29 | 2014-06-11 | 腾讯科技(深圳)有限公司 | 一种基于检索串的关键词扩展方法、装置和系统 |
CN105243130A (zh) * | 2015-09-29 | 2016-01-13 | 中国电子科技集团公司第三十二研究所 | 面向数据挖掘的文本处理系统及方法 |
CN108228555A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 基于栏目主题的文章处理方法和装置 |
CN107704500A (zh) * | 2017-08-28 | 2018-02-16 | 昆明理工大学 | 一种基于语义分析与多重余弦定理的新闻分类方法 |
US20190095432A1 (en) * | 2017-09-26 | 2019-03-28 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for building text classification model, and text classification method and apparatus |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
CN108021667A (zh) * | 2017-12-05 | 2018-05-11 | 新华网股份有限公司 | 一种文本分类方法和装置 |
CN108280206A (zh) * | 2018-01-30 | 2018-07-13 | 尹忠博 | 一种基于语义增强的短文本分类方法 |
CN111339290A (zh) * | 2018-11-30 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 一种文本分类方法和系统 |
CN111753079A (zh) * | 2019-03-11 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 文本分类方法、装置、电子设备以及计算机可读存储介质 |
CN110516073A (zh) * | 2019-08-30 | 2019-11-29 | 北京百度网讯科技有限公司 | 一种文本分类方法、装置、设备和介质 |
CN111666373A (zh) * | 2020-05-07 | 2020-09-15 | 华东师范大学 | 一种基于Transformer的中文新闻分类方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541578A (zh) * | 2023-05-16 | 2023-08-04 | 三峡科技有限责任公司 | 资产数字化多维度管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113010669B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
US9122747B2 (en) | Method, computer system, and computer program for searching document data using search keyword | |
TWI512507B (zh) | A method and apparatus for providing multi-granularity word segmentation results | |
US20040236566A1 (en) | System and method for identifying special word usage in a document | |
KR20190038243A (ko) | 맥락을 이용하여 문서를 검색하는 시스템 및 방법 | |
CN111400493A (zh) | 基于槽位相似度的文本匹配方法、装置、设备及存储介质 | |
CN111325033B (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
KR20180129001A (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
CN113010669B (zh) | 一种新闻分类方法和系统 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN112307364B (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN111858860B (zh) | 搜索信息处理方法及系统、服务器、计算机可读介质 | |
CN111752922A (zh) | 一种建立知识数据库、实现知识查询的方法及装置 | |
CN111401056A (zh) | 一种从多类文本中提取关键词的方法 | |
Rukmi et al. | Using k-means++ algorithm for researchers clustering | |
JPH06282587A (ja) | 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
US20220327403A1 (en) | Method, apparatus, and computer-readable medium for postal address indentification | |
CN114741550A (zh) | 图像搜索方法、装置、电子设备和计算机可读存储介质 | |
CN114661892A (zh) | 稿件摘要生成方法和装置、设备及存储介质 | |
CN114281942A (zh) | 问答处理方法、相关设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A News Classification Method and System Effective date of registration: 20230606 Granted publication date: 20220621 Pledgee: Bank of Beijing Co.,Ltd. Jinan Branch Pledgor: HUA RONG INFORMATION INDUSTRY Co.,Ltd. Registration number: Y2023980043039 |