CN116644339B - 一种信息归类方法及系统 - Google Patents
一种信息归类方法及系统 Download PDFInfo
- Publication number
- CN116644339B CN116644339B CN202310930285.8A CN202310930285A CN116644339B CN 116644339 B CN116644339 B CN 116644339B CN 202310930285 A CN202310930285 A CN 202310930285A CN 116644339 B CN116644339 B CN 116644339B
- Authority
- CN
- China
- Prior art keywords
- classification
- push
- analysis
- text
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 198
- 239000013598 vector Substances 0.000 claims abstract description 71
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- 230000003993 interaction Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims description 56
- 238000005192 partition Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000011218 segmentation Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 6
- 238000003915 air pollution Methods 0.000 description 3
- 238000010224 classification analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000003911 water pollution Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息归类的方法及系统,尤其涉及信息处理技术领域,包括:信息采集模块,用以对推送信息进行采集;分析模块,用以对推送信息中的推送文字和推送图像进行分析,以得到文字特征向量和文字分类影响率;推送分类模块,用以根据文字特征向量计算推送信息的文字分类权重,还用以根据计算的文字分类权重对推送信息的推送分类进行判断,还用以根据文字分类影响率对文字分类权重进行调整;用户交互模块,用以获取用户对推送分类的反馈结果;优化模块,用以对文字分类权重的计算结果进行优化,还用以对推送信息的文字特征向量进行优化。本发明实现了对推送信息的分类,提高了推送信息分类效率和准确度。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种信息归类方法及系统。
背景技术
在信息时代的飞速发展下,人们可以通过互联网获取到各种各样的信息,各种推送信息的内容也越来越复杂,经常出现推送信息的分类不与内容相符,或者根本没有对推送信息的分类的情况,造成了用户无法准确的获取到自己想要的推送信息。本发明依据上述问题,根据对推送信息的内容识别,设计分类算法,来实现对推送信息的准确分类,保证用户获取到自己需要的分类的推送信息。
中国专利公开号:CN109947932A公开了一种推送信息分类方法及系统,用于提高推送信息分类的效率和准确性,该方法包括获取推送信息对应的文本信息;将所述文本信息进行分词处理,获得所述文本信息对应的词组序列;对所述词组序列中的每个词组进行向量编码后,输入到深度神经网络模型;根据所述深度神经网络模型的输出结果,确定所述推送信息为垃圾信息,并确定所述推送信息在垃圾信息中的类型。该发明仅实现了对推送信息是否为垃圾信息的分类,未能实现对推送信息的准确分类。本发明通过对推送信息中的推送文字和推送图像进行分析,设计分类算法从而实现了对推送信息的准确分类,解决了现有技术中存在推送分类效率低,不准确的问题。
发明内容
为此,本发明提供一种信息归类方法及系统,用以克服现有技术中推送分类效率低,不准确的问题。
为实现上述目的,本发明提供一种信息归类系统,包括:
信息采集模块,用以对推送信息进行采集;
分析模块,用以对推送信息中的推送文字和推送图像进行分析,以得到文字特征向量和文字分类影响率;所述分析模块设有文字预处理单元,用以对推送信息中的推送文字进行断句、去词和断词预处理,以得到推送文字中的分析词组;所述分析模块还设有关键词分析单元,用以对所述分析词组进行关键词分析,以得到推送文字在各预设分类下的文字特征向量;所述分析模块还设有图像预处理单元,用以根据图像灰度值对推送信息中的推送图像进行分区预处理;所述分析模块还设有特征分析单元,用以对预处理后的推送图像进行特征分析,以得到图像特征向量,并以此设置文字分类影响率;
推送分类模块,用以根据文字特征向量计算推送信息的文字分类权重,推送分类模块还用以根据计算的文字分类权重对推送信息的推送分类进行判断,推送分类模块还用以根据文字分类影响率对文字分类权重进行调整;
用户交互模块,用以获取用户对推送分类的反馈结果;
优化模块,用以在用户反馈结果为简单反馈时,对文字分类权重的计算结果进行优化,还用以在用户反馈结果为复杂反馈时,对推送信息的文字特征向量进行优化;所述优化模块设有分析优化单元,用以根据所述复杂反馈对推送文字的分析方法进行优化;所述优化模块还设有分类优化单元,用以根据简单反馈对文字分类权重的计算结果进行优化。
进一步地,所述文字预处理单元在对推送信息中的推送文字进行断句预处理时,根据推送文字中的标点符号对推送文字进行断句预处理,以获得多组长句;
所述文字预处理单元在对各组长句进行去词预处理时,根据无用关键词对各组长句进行去词预处理,去除各组长句中与无用关键词相同的文字,以形成多组短句;
所述文字预处理单元在对各组短句进行断词预处理时,设置断词间隔k,k∈N+且k≥2,从第j个文字开始进行断词预处理,其中j的取值范围为1≤j≤k-1,以获得多组分析词组。
进一步地,所述关键词分析单元针对不同的预设分类设有相应的预设分析关键词,通过分析出预设分析关键词在推送文字中的各维度信息对预设分析关键词的词直径和信息熵进行计算以获取推送文字在各预设分类下的文字特征向量;
所述关键词分析单元设有信息熵的计算公式如下:
E=-(N1/(N1+N2)×log(N1/(N1+N2))+N2/(N1+N2)×log(N2/(N1+N2)))
其中,E表示预设分析关键词的信息熵,N1表示正分类推送文字数量,N2表示负分类推送文字数量;
所述关键词分析单元还设有词直径的计算公式如下:
R=R2-R1
其中,R表示预设分析关键词的词直径,R1表示预设分析关键词首次出现位置编号,R2表示预设分析关键词末次出现位置编号。
进一步地,所述图像预处理单元在对推送图像进行分区预处理时,所述图像预处理单元根据灰度阈值对推送图像进行区域划分,将灰度平均值小于灰度阈值的区域作为图形区域,以形成若干图形区域,所述图像预处理单元在设置灰度阈值时,建立平面直角坐标系作为推送图像坐标系,灰度阈值计算公式如下:
G1={f(x,y)|f(x,y)>T},G2={f(x,y)|f(x,y)≤T};
T=(u1+u2)/2;
重复计算过程,直至T≤ΔT;
其中,G1表示灰度大于灰度阈值的像素集合,G2表示灰度小于等于灰度阈值的像素集合,f()表示像素灰度值,x表示像素横坐标,y表示像素纵坐标,T表示灰度阈值,u1表示所有灰度大于灰度阈值的像素的平均灰度值,u2表示u1表示所有灰度小于等于灰度阈值的像素的平均灰度值,ΔT表示迭代截止参数。
进一步地,所述特征分析单元在对区域划分后的推送图像进行特征分析时,统计每个图形区域的灰度梯度作为该图形区域的图像特征向量,并分别将各图形区域的图像特征向量与各预设分类的预设图像分类特征向量进行比对,并根据比对结果设置各预设分类的文字分类影响率。
进一步地,所述推送分类模块在计算推送信息针对各预设分类的文字分类权重时,根据所述文字特征向量对文字分类权重进行计算,设定文字分类权重计算公式如下:
Q1=[E+(A+B)/(N1+N2)×(A/(A+B)×log(A/(A+B))+B/(A+B)×log(B/(A+B))+(C+D)/(N1+N2)×(C/(C+D)×log(C/(C+D))+D/(C+D)×log(D/(C+D))]×[L/(R+L)]
C=L1-A
D=L1-B
其中,Q1表示文字分类权重,A表示预设分析关键词正分类推送文字中的出现频率,B表示预设分析关键词负分类推送文字中的出现频率,C表示正分类推送文字中非预设分析关键词得频率,D表示负分类推送文字中非预设分析关键词得频率,L表示预设分析关键词的长度,L1表示短句总长度,R表示词直径。
进一步地,所述推送分类模块在对推送信息的推送分类进行判断时,根据所述文字分类权重对推送分类进行判断,所述推送分类模块设有分类阈值,所述推送分类模块将预设分析关键词在推送文字中的文字分类权重大于分类阈值的文字分类权重从大到小依次排列,将文字分类权重最大的预设分析关键词对应的预设分类设置为推送主题,将剩余文字分类权重对应的预设关键词设置为推送标签;所述推送分类模块在对各预设分类下推送信息的文字分类权重进行调整时,根据所述文字分类影响率对文字分类权重进行调整,以使调整后的文字分类权重随文字分类影响率的增加而增大。
进一步地,所述分析优化单元在对推送文字的分析方法进行优化时,根据所述复杂反馈对推送文字的分析方法进行优化,其中:
当复杂反馈为用户针对推送标签不准确的反馈时,所述分析优化单元将不准确的推送标签对应的预设分析关键词设置为临时无用关键词,并重新对推送文字进行关键词分析,以重新确定推送信息的推送分类;
当复杂反馈为用户针对该推送主题反馈的应设置标签时,所述分析优化单元将应设置的推送标签设置为预设分析关键词,并重新对推送文字进行关键词分析,以重新确定推送信息的推送分类。
进一步地,所述分类优化单元在对文字分类权重进行优化时,根据所述简单反馈对信息熵的计算结果进行优化,以优化文字分类权重,所述分类优化单元设有损失函数如下:
H=log(1+e-d×E)
其中H为损失值,d为用户反馈的推送主题的准确度,d∈{d1,d2,d3,d4,d5};
所述分类优化单元设有优化函数如下:
E1=E-α×(∂H(E)/∂E)
其中E1表示优化后的信息熵,α表示机器学习率,α的取值范围为0<α<1。
另一方面,本发明还提供一种信息归类方法,包括:
步骤S1,采集推送信息;
步骤S2,对推送信息中的推送文字进行预处理和预设关键词分析以得到文字特征向量;
步骤S3,对推送信息中的推送图像进行分区预处理和图像特征提取以计算出文字分类影响率;
步骤S4,根据文字特征向量计算文字分类权重,并根据文字分类影响率对文字分类权重进行调整;
步骤S5,对文字分类权重进行分析以得到推送分类;
步骤S6,获取用户对推送分类的反馈结果;
步骤S7,根据反馈结果对推送文字的分析过程和文字分类权重的计算过程进行优化。
与现有技术相比,本发明的有益效果在于,通过所述文字预处理单元对推送文字进行断句预处理时,根据标点符号对推送文字进行断句预处理,以在不破坏句意的情况下获得多组长句,从而提高文字的处理效率,提高文字特征向量的提取的准确率,所述文字预处理单元对各组长句进行去词预处理时根据设置的无用关键词去除长句中的修饰语,以获得多组短句,从而使短句更加精简,提高对短句的分析效率,所述文字预处理单元对各组短句进行断词预处理时,通过设置断词间隔和断词开始位置对各组短句进行断词预处理,以获得多组分析词组,使词组的覆盖的内容更加准确,从而提高对分析词组的关键词分析效率,保证了对推送文字分析的准确性,通过所述关键词分析单元针对不同的预设分类设置相应的预设分析关键词,以对分析词组进行关键词分析,从而提取出文字特征向量,提高对分析词组的分析效率,提高文字特征向量的准确率,通过所述图像预处理单元设置灰度阈值的迭代计算,可以计算出每张图片的自适应灰度阈值,优化灰度阈值的取值,从而提高对亮度不均匀的图像的处理效率,通过所述特征分析单元将分析出的图像特征向量与各预设分类下的预设图像分类特征向量进行比对,判断出推送图像对推送分类的影响率,以优化文字分类权重,从而提高推送分类分析的准确率,通过所述推送分类模块分析文字特征向量,以计算出文字分类权重,从而提高了推送分类的分析效率,通过文字分类影响率对文字分类权重进行调整,以得到调整后的文字分类权重,从而提高文字分类权重的准确度,进而提高分析出的推送分类的准确性,通过对文字分类权重的大小排序,以分析出各预设分类的权重关系,从而确定出推送分类,提高推送分类的分析效率,通过所述推送分类模块分析文字特征向量,以计算出文字分类权重,从而提高了推送分类的分析效率,通过文字分类影响率对文字分类权重进行调整,以得到调整后的文字分类权重,从而提高文字分类权重的准确度,进而提高分析出的推送分类的准确性,通过对文字分类权重的大小排序,以分析出各预设分类的权重关系,从而确定出推送分类,提高推送分类的分析效率,通过所述用户交互模块对用户反馈结果的获取,以对用户反馈结果进行分析,从而对推送分类的分析方法进行优化,保证了推送分类的准确性,通过所述优化模块每次在对推送文字的分析方法进行优化时,增加预设关键词,以使关键词分析更加准确,还会使后续的推送文字分析更加准确,从而达到优化学习的目的,通过所述优化模块在对文字分类权重的计算结果进行优化时,根据计算出的推送主题损失值,以对信息熵的计算结果进行优化,从而使后续对文字特征向量的分析更加准确,达到优化学习的目的,增加了系统对后续推送分类分析的准确率。
附图说明
图1为本实施例信息归类系统的结构框图;
图2为本实施例分析模块的结构框图;
图3为本实施例优化模块的结构框图;
图4为本实施例信息归类方法的流程框图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本实施例信息归类系统,包括:
信息采集模块,用以对推送信息进行采集,所述推送信息包括推送文字和推送图像,所述推送信息的来源包括政府公告、企业公告和个人撰写推文等,所述推送信息的采集方式包括访问政府官网采集、访问企业官网采集和访问个人社交媒体采集等;
分析模块,用以对推送信息中的推送文字和推送图像进行分析,以得到文字特征向量和文字分类影响率,分析模块与所述信息采集模块连接;本实施例中文字分类影响率表示推送图像对文字特征向量的影响;
推送分类模块,用以根据文字特征向量计算推送信息的文字分类权重,推送分类模块还用以根据计算的文字分类权重对推送信息的推送分类进行判断,推送分类模块还用以根据文字分类影响率对文字分类权重进行调整,所述推送分类为多维度分类,推送分类包括多个推送主题和多个推送标签,推送分类模块与所述分析模块连接;本实施例中不对推送主题和推送标签进行具体限定,本领域技术人员可自由设置,如推送主题包括环境、农业、工业等,当推送主题为环境时,推送标签可以是空气污染、水污染、植被污染等;
用户交互模块,用以获取用户对推送分类的反馈结果,所述反馈结果包括简单反馈和复杂反馈,所述简单反馈为单一反馈信息,用户只对推送主题的准确度进行反馈,简单反馈包括非常准确、准确、较为准确、不太准确和不准确等,所述复杂反馈为带有具体反馈内容的反馈信息,具体反馈内容包括用户针对推送标签不准确的反馈和用户针对该推送主题反馈的应设置标签,如当推送主题为环境且推送标签为空气污染时,用户在反馈推送标签不准确的同时,还反馈了应设置标签为水污染,用户反馈模块与所述分类整合模块连接;
优化模块,用以在用户反馈结果为简单反馈时,对文字分类权重的计算方法进行优化,还用以在用户反馈结果为复杂反馈时,对推送信息的文字特征向量进行优化,优化模块与所述用户交互模块连接。
请参阅图2所示,所述分析模块包括:
文字预处理单元,用以对推送信息中的推送文字进行断句、去词和断词预处理,以得到推送文字中的分析词组;
关键词分析单元,用以对所述分析词组进行关键词分析,以得到推送文字在各预设分类下的文字特征向量,关键词分析单元与所述文字预处理单元连接;所述文字特征向量为多维度特征向量,文字特征向量包括预设分析关键词在正分类推送文字中的出现频率、预设分析关键词在负分类推送文字中的出现频率、短句总长度、首次出现位置、预设分析关键词的长度、词直径和信息熵,所述关键词包括预设分析关键词和无用关键词,所述无用关键词包括预设无用关键词和临时无用关键词;
图像预处理单元,用以根据图像灰度值对推送信息中的推送图像进行分区预处理;
特征分析单元,用以对预处理后的推送图像进行特征分析,以得到图像特征向量,并将其与预设图像分类特征向量进行比对,根据比对结果判断文字分类影响率,所述图像特征向量和所述预设图像分类特征向量为多维度特征向量,所述图像特征向量包括形状特征和灰度特征,所述预设图像分类特征包括形状特征、灰度特征、主题和分类,特征分析单元与所述图像预处理单元连接。
具体而言,本实施例中所述文字预处理单元在对推送信息中的推送文字进行断句预处理时,根据推送文字中的标点符号对推送文字进行断句预处理,以获得多组长句。本实施例中通过断句预处理可以提高文字的处理效率,使计算信息熵更加准确。可以理解的是,本实施例不对断句的方法作具体限定,如在根据推送文字中的标点符号进行断句时,可根据推送文字中的句号进行断句,或根据推送文字中的逗号进行断句等,本领域技术人员可自由设置,如还可以设置预设断句长度,根据预设断句长度对推送文字进行断句预处理,本领域技术人员还可以设置其他断句方式,只需满足对推送文字断句预处理的需求即可。
具体而言,本实施例中所述文字预处理单元在对各组长句进行去词预处理时,根据无用关键词对各组长句进行去词预处理,去除各组长句中与无用关键词相同的文字,以形成多组短句。可以理解的是,本实施例不对无用关键词的设置作具体限定,如现有长句“小红采摘了一朵非常漂亮的花”已设置无用关键词“了”“一朵”“非常”、“漂亮的”,对该长句进行去词处理可得到短句“小红采摘花”,增加无用关键词可以去除长句中的修饰语,得到由主谓宾语构成的短句,使短句更加精炼,本领域技术人员可自由设置,只需满足对长句的去词预处理即可。
具体而言,本实施例中所述文字预处理单元在对各组短句进行断词预处理时,设置断词间隔k,k∈N+且k≥2,从第j个文字开始进行断词预处理,其中j的取值范围为1≤j≤k-1,以获得多组分析词组。可以理解的是,本实施例不对断词间隔和断词开始位置作具体限定,最佳实施方式为断词间隔k=2,断词开始位置j=1,本领域技术人员可自由设置,只需满足对短句的断词预处理即可。
具体而言,本实施例中所述文字预处理单元对推送文字进行断句预处理时,根据标点符号对推送文字进行断句预处理,以在不破坏句意的情况下获得多组长句,从而提高文字的处理效率,提高文字特征向量的提取的准确率,所述文字预处理单元对各组长句进行去词预处理时根据设置的无用关键词去除长句中的修饰语,以获得多组短句,从而使短句更加精简,提高对短句的分析效率,所述文字预处理单元对各组短句进行断词预处理时,通过设置断词间隔和断词开始位置对各组短句进行断词预处理,以获得多组分析词组,使词组的覆盖的内容更加准确,从而提高对分析词组的关键词分析效率,保证了对推送文字分析的准确性。
具体而言,本实施例中所述关键词分析单元针对不同的预设分类设有相应的预设分析关键词,并根据各预设分析关键词分析推送文字在各预设分类下的文字特征向量,在针对不同的预设分类对预处理后的推送文字进行文字特征向量分析时,获取预设分析关键词在正分类推送文字中的出现频率、预设分析关键词在负分类推送文字中的出现频率、短句总长度、首次出现位置和预设分析关键词的长度,并计算预设分析关键词的词直径和信息熵,以获取推送文字在各预设分类下的文字特征向量;
所述关键词分析单元设有信息熵的计算公式如下:
E=-(N1/(N1+N2)×log(N1/(N1+N2))+N2/(N1+N2)×log(N2/(N1+N2)))
其中,E表示预设分析关键词的信息熵,N1表示正分类推送文字数量,N2表示负分类推送文字数量;
所述关键词分析单元还设有词直径的计算公式如下:
R=R2-R1
其中,R表示预设分析关键词的词直径,R1表示预设分析关键词的首次出现位置编号,R2表示预设分析关键词的末次出现位置编号。
具体而言,本实施例中所述关键词分析单元在对所述分析词组进行关键词分析时,所述关键词分析单元针对不同的预设分类设有相应的预设分析关键词,如预设分类为环境分类下设有空气污染、水污染和植被污染等预设分析关键词,本实施例不对预设分类和该预设分类下的预设关键词作具体限定,本领域技术人员可自由设置,如设置预设分类为工业,设置工业分类下的预设关键词包括钢铁产量、汽车制造量和石油产量等,只需满足对分析词组的关键词分析即可。
具体而言,本实施例中所述关键词分析单元通过针对不同的预设分类设置相应的预设分析关键词,以对分析词组进行关键词分析,从而提取出文字特征向量,提高对分析词组的分析效率,提高文字特征向量的准确率。
具体而言,本实施例中所述图像预处理单元在对推送图像进行分区预处理时,所述图像预处理单元根据灰度阈值对推送图像进行区域划分,将灰度平均值小于灰度阈值的区域作为图形区域,以形成若干图形区域,所述图像预处理单元在设置灰度阈值时,以推送图像的外切圆圆心为坐标原点建立平面直角坐标系作为推送图像坐标系,用像素坐标表示推送图像中像素点的位置,像素横坐标从左向右依次增大,像素纵坐标从下向上依次增大,所述图像预处理单元设有灰度阈值计算公式如下:
G1={f(x,y)|f(x,y)>T},G2={f(x,y)|f(x,y)≤T};
T=(u1+u2)/2;
重复计算过程,直至T≤ΔT;
其中,G1表示灰度大于灰度阈值的像素集合,G2表示灰度小于等于灰度阈值的像素集合,f()表示像素灰度值,x表示像素横坐标,y表示像素纵坐标,T表示灰度阈值,u1表示所有灰度大于灰度阈值的像素的平均灰度值,u2表示u1表示所有灰度小于等于灰度阈值的像素的平均灰度值,ΔT表示迭代截止参数。可以理解的是,本实施例中不对迭代截止参数ΔT的大小作具体限定,本领域技术人员可自由设置,如可将其设置为ΔT=125,只需满足对推送图像的分区预处理即可。
具体而言,本实施例中所述图像预处理单元通过设置灰度阈值的迭代计算,可以计算出每张图片的自适应灰度阈值,优化灰度阈值的取值,从而提高对亮度不均匀的图像的处理效率。
具体而言,本实施例中所述特征分析单元在对区域划分后的推送图像进行特征分析时,统计每个图形区域的灰度梯度作为该图形区域的图像特征向量,并分别将各图形区域的图像特征向量与各预设分类的预设图像分类特征向量进行比对,并根据比对结果设置各预设分类的文字分类影响率,其中:
当P1/P2≥η时,所述特征分析单元将预设图像分类特征向量对应预设分类的文字分类影响率设置为P;
当P1/P2<η时,所述特征分析单元不对文字分类影响率进行设置;
P1表示图形区域的图像特征向量,P2表示预设图像分类特征向量,η表示图像特征分析阈值,η的取值范围为0.5≤P<1,P表示文字分类影响率的取值,P的取值范围为1<P≤1.5。本实施例中图像特征分析阈值和文字分类影响率的最佳取值分别为:η=0.8,P=1.2。
具体而言,本实施例中所述特征分析单元将分析出的图像特征向量与各预设分类下的预设图像分类特征向量进行比对,判断出推送图像对推送分类的影响率,以优化文字分类权重,从而提高推送分类分析的准确率。
具体而言,本实施例中所述推送分类模块在计算推送信息针对各预设分类的文字分类权重时,根据所述文字特征向量对文字分类权重进行计算,设定文字分类权重计算公式如下:
Q1=[E+(A+B)/(N1+N2)×(A/(A+B)×log(A/(A+B))+B/(A+B)×log(B/(A+B))+(C+D)/(N1+N2)×(C/(C+D)×log(C/(C+D))+D/(C+D)×log(D/(C+D))]×[L/(R+L)]
C=L1-A
D=L1-B
其中,Q1表示文字分类权重,A表示预设分析关键词正分类推送文字中的出现频率,B表示预设分析关键词负分类推送文字中的出现频率,C表示正分类推送文字中非预设分析关键词得频率,D表示负分类推送文字中非预设分析关键词得频率,L表示预设分析关键词的长度,L1表示短句总长度,R表示词直径。可以理解的是,本实施例不对文字分类权重的计算方式作具体限定,本领域技术人员可自由设置,只需满足对文字分类权重的计算需求即可。
具体而言,本实施例中所述推送分类模块在对各预设分类下推送信息的文字分类权重进行调整时,根据所述文字分类影响率对文字分类权重进行调整,调整后的文字分类权重为Q,设定Q=Q1×P。
可以理解的是,本实施例中不对文字分类影响率对文字分类权重的影响计算方式作具体限定,本领域技术人员可自由设置,还可设置其他系数对调整后的文字分类权重进行计算,如Q=Q1×(P/η),只需满足对文字分类权重的调整即可。
具体而言,本实施例中所述推送分类模块在对推送信息的推送分类进行判断时,根据所述文字分类权重对推送分类进行判断,所述推送分类模块设有分类阈值,所述推送分类模块将预设分析关键词在推送文字中的文字分类权重大于分类阈值的文字分类权重从大到小依次排列,将文字分类权重最大的预设分析关键词对应的预设分类设置为推送主题,将剩余文字分类权重对应的预设关键词设置为推送标签。
具体而言,本实施例中所述推送分类模块通过分析文字特征向量,以计算出文字分类权重,从而提高了推送分类的分析效率,通过文字分类影响率对文字分类权重进行调整,以得到调整后的文字分类权重,从而提高文字分类权重的准确度,进而提高分析出的推送分类的准确性,通过对文字分类权重的大小排序,以分析出各预设分类的权重关系,从而确定出推送分类,提高推送分类的分析效率。
具体而言,本实施例中所述用户交互模块在获取用户对推送分类的准确度反馈时,根据反馈结果对推送主题的准确度进行判断,其中:
当反馈结果为非常准确时,所述用户交互模块判定推送主题的准确度为d1;
当反馈结果为准确时,所述用户交互模块判定推送主题的准确度为d2;
当反馈结果为较为准确时,所述用户交互模块判定推送主题的准确度为d3;
当反馈结果为不太准确时,所述用户交互模块判定推送主题的准确度为d4;
当反馈结果为不准确时,所述用户交互模块判定推送主题的准确度为d5。
可以理解的是,本实施例中不对反馈结果和推送主题的准确度的取值作具体限定,本领域技术人员可自由设置,推送主题的准确度的范围为:0<d5<d4<d3<d2<d1≤1,推送主题的准确度最佳取值为:d1=1,d2=0.8,d3=0.6,d4=0.4,d5=0.2。
具体而言,本实施例中不对用户交互模块的交互方式作具体限定,可将交互方式设置为用户自行勾选或输入,其中用户可在阅读完推送信息选择对本篇推送进行反馈,可设置有预设推送分类准确度包括非常准确、准确、较为准确、不太准确和不准确的反馈选项,用户可自行对预设推送分类准确度进行勾选,当用户勾选较为准确、不太准确和不准确的预设推送分类准确度时,可提供用户两种反馈情况,用户可自行选择其中至多两种进行反馈,一种反馈情况为用户针对推送标签不准确的反馈,其中列出了本篇推送分类中的推送标签,用户可自行勾选各推送标签,另一种反馈情况为用户针对该推送主题反馈的应设置标签,其中提供给用户多个输入栏,用户可自行输入应设置的标签,如针对环境分类输入“水土流失”、“沙尘暴”和“土地沙漠化”等。可以理解的是,本实施例不对用户设置反馈的方式作具体限定,本领域技术人员可自由设置,如可在推送信息阅读完成后设置弹窗提示用户进行反馈,只需满足对用户反馈结果的获取即可。
具体而言,本实施例中所述用户交互模块通过对用户反馈结果的获取,以对用户反馈结果进行分析,从而对推送分类的分析方法进行优化,保证了推送分类的准确性。
请参阅图3所示,所述优化模块包括:
分析优化单元,用以根据所述复杂反馈对推送文字的分析方法进行优化;
分类优化单元,用以根据简单反馈对文字分类权重的计算方法进行优化。
具体而言,本实施例中所述分析优化单元在对推送文字的分析方法进行优化时,根据所述复杂反馈对推送文字的分析方法进行优化,其中:
当复杂反馈为用户针对推送标签不准确的反馈时,所述分析优化单元将不准确的推送标签对应的预设分析关键词设置为临时无用关键词,并重新对推送文字进行关键词分析,以重新确定推送信息的推送分类;
当复杂反馈为用户针对该推送主题反馈的应设置标签时,所述分析优化单元将应设置的推送标签设置为预设分析关键词,并重新对推送文字进行关键词分析,以重新确定推送信息的推送分类。
具体而言,本实施例中所述分类优化单元在对文字分类权重的计算结果进行优化时,根据所述简单反馈对信息熵的计算结果进行优化,以优化文字分类权重,所述分类优化单元设有损失函数如下:
H=log(1+e-d×E)
其中H为损失值,d为用户反馈的推送主题的准确度,d∈{d1,d2,d3,d4,d5};
所述分类优化单元设有优化函数如下:
E1=E-α×(∂H(E)/∂E)
其中E1表示优化后的信息熵,α表示机器学习率,α的取值范围为0<α<1。
具体而言,本实施例中所述优化模块在用户反馈结果为简单反馈时,根据所述推送主题准确度,计算出推送主题损失值,并将计算出的推送主题损失值代入优化函数计算出优化后的信息熵,以改变文字特征向量,从而对文字分类权重的计算结果进行优化,使计算出的文字分类权重更加准确,提高推送分类的准确率;所述优化模块在用户反馈结果为复杂反馈时,根据复杂反馈中不同的反馈内容对推送文字的分析方法进行优化,其中,当复杂反馈为用户针对推送标签不准确的反馈时,所述分析优化单元将不准确的推送标签对应的预设分析关键词设置为临时无用关键词,以影响对推送文字的预处理结果,从而改变了对推送文字的预设关键词分析结果,对推送文字的分析方法进行了优化,当复杂反馈为用户针对该推送主题反馈的应设置标签时,所述分析优化单元将应设置的推送标签设置为预设分析关键词,以影响对推送文字的预设关键词分析结果,从而优化了推送文字的分析方法,所述优化模块每次在对推送文字的分析方法进行优化时,会增加预设关键词,以使关键词分析更加准确,还会使后续的推送文字分析更加准确,从而达到优化学习的目的,所述优化模块在对文字分类权重的计算结果进行优化时,会根据计算出的推送主题损失值,以对信息熵的计算结果进行优化,从而使后续对文字特征向量的分析更加准确,达到优化学习的目的,增加了系统对后续推送分类分析的准确率。
请参阅图4所示,其为本实施例信息归类方法,包括:
步骤S1,采集推送信息;
步骤S2,对推送信息中的推送文字进行预处理和预设关键词分析以得到文字特征向量;
步骤S3,对推送信息中的推送图像进行分区预处理和图像特征提取以计算出文字分类影响率;
步骤S4,根据文字特征向量计算文字分类权重,并根据文字分类影响率对文字分类权重进行调整;
步骤S5,对文字分类权重进行分析以得到推送分类;
步骤S6,获取用户对推送分类的反馈结果;
步骤S7,根据反馈结果对推送文字的分析过程和文字分类权重的计算过程进行优化。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种信息归类系统,其特征在于,包括:
信息采集模块,用以对推送信息进行采集;
分析模块,用以对推送信息中的推送文字和推送图像进行分析,以得到文字特征向量和文字分类影响率;所述分析模块设有文字预处理单元,用以对推送信息中的推送文字进行断句、去词和断词预处理,以得到推送文字中的分析词组;所述分析模块还设有关键词分析单元,用以对所述分析词组进行关键词分析,以得到推送文字在各预设分类下的文字特征向量;所述分析模块还设有图像预处理单元,用以根据图像灰度值对推送信息中的推送图像进行分区预处理;所述分析模块还设有特征分析单元,用以对预处理后的推送图像进行特征分析,以得到图像特征向量,并以此设置文字分类影响率;
推送分类模块,用以根据文字特征向量计算推送信息的文字分类权重,推送分类模块还用以根据计算的文字分类权重对推送信息的推送分类进行判断,推送分类模块还用以根据文字分类影响率对文字分类权重进行调整;
用户交互模块,用以获取用户对推送分类的反馈结果;
优化模块,用以在用户反馈结果为简单反馈时,对文字分类权重的计算结果进行优化,还用以在用户反馈结果为复杂反馈时,对推送信息的文字特征向量进行优化;所述优化模块设有分析优化单元,用以根据所述复杂反馈对推送文字的分析方法进行优化;所述优化模块还设有分类优化单元,用以根据简单反馈对文字分类权重的计算结果进行优化。
2.根据权利要求1所述的一种信息归类系统,其特征在于,所述文字预处理单元在对推送信息中的推送文字进行断句预处理时,根据推送文字中的标点符号对推送文字进行断句预处理,以获得多组长句;
所述文字预处理单元在对各组长句进行去词预处理时,根据无用关键词对各组长句进行去词预处理,去除各组长句中与无用关键词相同的文字,以形成多组短句;
所述文字预处理单元在对各组短句进行断词预处理时,设置断词间隔k,k∈N+且k≥2,从第j个文字开始进行断词预处理,其中j的取值范围为1≤j≤k-1,以获得多组分析词组。
3.根据权利要求1所述的一种信息归类系统,其特征在于,所述关键词分析单元针对不同的预设分类设有相应的预设分析关键词,通过分析出预设分析关键词在推送文字中的各维度信息对预设分析关键词的词直径和信息熵进行计算以获取推送文字在各预设分类下的文字特征向量;
所述关键词分析单元设有信息熵的计算公式如下:
E=-(N1/(N1+N2)×log(N1/(N1+N2))+N2/(N1+N2)×log(N2/(N1+N2)))
其中,E表示预设分析关键词的信息熵,N1表示正分类推送文字数量,N2表示负分类推送文字数量;
所述关键词分析单元还设有词直径的计算公式如下:
R=R2-R1
其中,R表示预设分析关键词的词直径,R1表示预设分析关键词首次出现位置编号,R2表示预设分析关键词末次出现位置编号。
4.根据权利要求1所述的一种信息归类系统,其特征在于,所述图像预处理单元在对推送图像进行分区预处理时,所述图像预处理单元根据灰度阈值对推送图像进行区域划分,将灰度平均值小于灰度阈值的区域作为图形区域,以形成若干图形区域,所述图像预处理单元在设置灰度阈值时,建立平面直角坐标系作为推送图像坐标系,灰度阈值计算公式如下:
G1={f(x,y)|f(x,y)>T},G2={f(x,y)|f(x,y)≤T};
T=(u1+u2)/2;
重复计算过程,直至T≤ΔT;
其中,G1表示灰度大于灰度阈值的像素集合,G2表示灰度小于等于灰度阈值的像素集合,f()表示像素灰度值,x表示像素横坐标,y表示像素纵坐标,T表示灰度阈值,u1表示所有灰度大于灰度阈值的像素的平均灰度值,u2表示u1表示所有灰度小于等于灰度阈值的像素的平均灰度值,ΔT表示迭代截止参数。
5.根据权利要求4所述的一种信息归类系统,其特征在于,所述特征分析单元在对区域划分后的推送图像进行特征分析时,统计每个图形区域的灰度梯度作为该图形区域的图像特征向量,并分别将各图形区域的图像特征向量与各预设分类的预设图像分类特征向量进行比对,并根据比对结果设置各预设分类的文字分类影响率。
6.根据权利要求3所述的一种信息归类系统,其特征在于,所述推送分类模块在计算推送信息针对各预设分类的文字分类权重时,根据所述文字特征向量对文字分类权重进行计算,设定文字分类权重计算公式如下:
Q1=[E+(A+B)/(N1+N2)×(A/(A+B)×log(A/(A+B))+B/(A+B)×log(B/(A+B))+(C+D)/(N1+N2)×(C/(C+D)×log(C/(C+D))+D/(C+D)×log(D/(C+D))]×[L/(R+L)]
C=L1-A
D=L1-B
其中,Q1表示文字分类权重,A表示预设分析关键词正分类推送文字中的出现频率,B表示预设分析关键词负分类推送文字中的出现频率,C表示正分类推送文字中非预设分析关键词得频率,D表示负分类推送文字中非预设分析关键词得频率,L表示预设分析关键词的长度,L1表示短句总长度,R表示词直径。
7.根据权利要求6所述的一种信息归类系统,其特征在于,所述推送分类模块在对推送信息的推送分类进行判断时,根据所述文字分类权重对推送分类进行判断,所述推送分类模块设有分类阈值,所述推送分类模块将预设分析关键词在推送文字中的文字分类权重大于分类阈值的文字分类权重从大到小依次排列,将文字分类权重最大的预设分析关键词对应的预设分类设置为推送主题,将剩余文字分类权重对应的预设关键词设置为推送标签;
所述推送分类模块在对各预设分类下推送信息的文字分类权重进行调整时,根据所述文字分类影响率对文字分类权重进行调整,以使调整后的文字分类权重随文字分类影响率的增加而增大。
8.根据权利要求1所述的一种信息归类系统,其特征在于,所述分析优化单元在对推送文字的分析方法进行优化时,根据所述复杂反馈对推送文字的分析方法进行优化,其中:
当复杂反馈为用户针对推送标签不准确的反馈时,所述分析优化单元将不准确的推送标签对应的预设分析关键词设置为临时无用关键词,并重新对推送文字进行关键词分析,以重新确定推送信息的推送分类;
当复杂反馈为用户针对推送主题反馈的应设置标签时,所述分析优化单元将应设置的推送标签设置为预设分析关键词,并重新对推送文字进行关键词分析,以重新确定推送信息的推送分类。
9.根据权利要求8所述的一种信息归类系统,其特征在于,所述分类优化单元在对文字分类权重进行优化时,根据所述简单反馈对信息熵的计算结果进行优化,以优化文字分类权重,所述分类优化单元设有损失函数如下:
H=log(1+e-d×E)
其中H为损失值,d为用户反馈的推送主题的准确度,d∈{d1,d2,d3,d4,d5};
所述分类优化单元设有优化函数如下:
E1=E-α×(∂H(E)/∂E)
其中E1表示优化后的信息熵,α表示机器学习率,α的取值范围为0<α<1。
10.一种应用于如权利要求1-9任一项所述的信息归类系统的归类方法,其特征在于,包括:
步骤S1,采集推送信息;
步骤S2,对推送信息中的推送文字进行预处理和预设关键词分析以得到文字特征向量;
步骤S3,对推送信息中的推送图像进行分区预处理和图像特征提取以计算出文字分类影响率;
步骤S4,根据文字特征向量计算文字分类权重,并根据文字分类影响率对文字分类权重进行调整;
步骤S5,对文字分类权重进行分析以得到推送分类;
步骤S6,获取用户对推送分类的反馈结果;
步骤S7,根据反馈结果对推送文字的分析过程和文字分类权重的计算过程进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310930285.8A CN116644339B (zh) | 2023-07-27 | 2023-07-27 | 一种信息归类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310930285.8A CN116644339B (zh) | 2023-07-27 | 2023-07-27 | 一种信息归类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116644339A CN116644339A (zh) | 2023-08-25 |
CN116644339B true CN116644339B (zh) | 2023-10-10 |
Family
ID=87619851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310930285.8A Active CN116644339B (zh) | 2023-07-27 | 2023-07-27 | 一种信息归类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644339B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116894152B (zh) * | 2023-09-11 | 2023-12-12 | 山东唐和智能科技有限公司 | 一种多源数据调研与实时分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170071390A (ko) * | 2015-12-15 | 2017-06-23 | 한양대학교 산학협력단 | Web 발신 문자 자동 분류 방법 및 시스템 |
CN109947932A (zh) * | 2017-10-27 | 2019-06-28 | 中移(苏州)软件技术有限公司 | 一种推送信息分类方法及系统 |
CN111897963A (zh) * | 2020-08-06 | 2020-11-06 | 沈鑫 | 一种基于文本信息和机器学习的商品分类方法 |
CN113449099A (zh) * | 2020-03-25 | 2021-09-28 | 瑞典爱立信有限公司 | 文本分类方法和文本分类设备 |
CN113822067A (zh) * | 2021-08-17 | 2021-12-21 | 深圳市东信时代信息技术有限公司 | 关键信息提取方法、装置、计算机设备及存储介质 |
CN116541486A (zh) * | 2023-05-08 | 2023-08-04 | 广州商学院 | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
-
2023
- 2023-07-27 CN CN202310930285.8A patent/CN116644339B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170071390A (ko) * | 2015-12-15 | 2017-06-23 | 한양대학교 산학협력단 | Web 발신 문자 자동 분류 방법 및 시스템 |
CN109947932A (zh) * | 2017-10-27 | 2019-06-28 | 中移(苏州)软件技术有限公司 | 一种推送信息分类方法及系统 |
CN113449099A (zh) * | 2020-03-25 | 2021-09-28 | 瑞典爱立信有限公司 | 文本分类方法和文本分类设备 |
CN111897963A (zh) * | 2020-08-06 | 2020-11-06 | 沈鑫 | 一种基于文本信息和机器学习的商品分类方法 |
CN113822067A (zh) * | 2021-08-17 | 2021-12-21 | 深圳市东信时代信息技术有限公司 | 关键信息提取方法、装置、计算机设备及存储介质 |
CN116541486A (zh) * | 2023-05-08 | 2023-08-04 | 广州商学院 | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116644339A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108984530B (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
US7415445B2 (en) | Feature selection for two-class classification systems | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN109002473B (zh) | 一种基于词向量与词性的情感分析方法 | |
CN109670041A (zh) | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 | |
CN108388554B (zh) | 基于协同过滤注意力机制的文本情感识别系统 | |
CN116644339B (zh) | 一种信息归类方法及系统 | |
CN106909946A (zh) | 一种多模态融合的商品分类系统 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN110956038B (zh) | 图文内容重复判断方法及装置 | |
CN110866102A (zh) | 检索处理方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN109873755B (zh) | 一种基于变体词识别技术的垃圾短信分类引擎 | |
CN116756346A (zh) | 一种信息检索方法及装置 | |
CN115878847A (zh) | 基于自然语言的视频引导方法、系统、设备及存储介质 | |
CN111860507B (zh) | 基于对抗学习的化合物图像分子结构式提取方法 | |
CN114741471A (zh) | 一种基于文本挖掘与多视角融合的个性化混合推荐方法 | |
CN112905771A (zh) | 基于词性和位置的特征关键词提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |