CN114202443A - 政策分类方法、装置、设备及存储介质 - Google Patents
政策分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114202443A CN114202443A CN202111525621.8A CN202111525621A CN114202443A CN 114202443 A CN114202443 A CN 114202443A CN 202111525621 A CN202111525621 A CN 202111525621A CN 114202443 A CN114202443 A CN 114202443A
- Authority
- CN
- China
- Prior art keywords
- policy
- text
- idf
- keyword
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013145 classification model Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 230000009849 deactivation Effects 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001902 propagating effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 210000002268 wool Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种政策分类方法、装置、设备及存储介质,其中方法包括:获取待分类政策的文本内容,并对文本内容进行分词,得到多个关键词;根据TF‑IDF算法计算每个关键词的TF‑IDF值,并根据每个关键词的TF‑IDF值构建文本内容的特征向量;将特征向量输入至预先训练好的政策分类模型中,输出得到待分类政策所属的类型,政策的类型预先设置,政策分类模型利用类别预先分好的政策的文本内容训练得到。通过上述方式,本发明能够自动根据政策的文本内容将政策按照预设的类型进行分类,专业人员快速了解政策的影响力度,从而对当前房价涨幅的一个预测。
Description
技术领域
本申请涉及政策文本分类技术领域,特别是涉及一种政策分类方法、装置、设备及存储介质。
背景技术
文本分类识别是人工智能的重要领域,对于人类来说这是一种天生的能力。人可以从一篇住房政策长文中了解到相关信息,并对住房政策作出分类,对房价利好或是利空或是无影响作出判断;传统的住房政策分类需要面对复杂、冗长的政策内容,需靠经验丰富的专业人员对住房政策进行分析,根据特定内容,特定词汇对政策进行分类,工作需要耗费专业人员的大量时间,造成高投入,低产出的问题;同时因为无法及时知道新住房政策对市场的影响,从而造成了严重的滞后,使企业无法占到先机,同时让客户满意度大大降低。
发明内容
本申请提供一种政策分类方法、装置、设备及存储介质,以解决现有的政策需要相关人员耗费大量时间进行阅读了解的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种政策分类方法,包括:获取待分类政策的文本内容,并对文本内容进行分词,得到多个关键词;根据TF-IDF算法计算每个关键词的TF-IDF值,并根据每个关键词的TF-IDF值构建文本内容的特征向量;将特征向量输入至预先训练好的政策分类模型中,输出得到待分类政策所属的类型,政策的类型预先设置,政策分类模型利用类别预先分好的政策的文本内容训练得到。
作为本申请的进一步改进,获取待分类政策的文本内容,并对文本内容进行分词,得到多个关键词,包括:获取待分类政策的文本内容,以及预先配置好的停用词库;对文本内容进行分词处理,并利用停用词库过滤掉文本内容中的停用词,得到分词后的多个关键词。
作为本申请的进一步改进,根据TF-IDF算法计算每个关键词的TF-IDF值,并根据每个关键词的TF-IDF值构建文本内容的特征向量,包括:获取属性信息和预设语料库,属性信息包括关键词在文本内容中的出现次数,关键词的总数目;根据属性信息和预设语料库计算每个关键词的词频和逆文档频率;根据词频和逆文档频率计算得到每个关键词的TF-IDF值。
作为本申请的进一步改进,词频的计算公式为:TF=关键词在文本内容中的出现次数/关键词的总数目;逆文档频率的计算公式为:IDF=log(预设语料库中文本总数/(预设语料库中包含关键词的文本数目+1));TF-IDF值的计算公式为:TF-IDF=TF*IDF。
作为本申请的进一步改进,当所述政策为住房政策时,政策的类型包括预先设置的宽松型、松动型、中性型、收紧型和严控型。
作为本申请的进一步改进,方法还包括预先训练政策分类模型,训练步骤包括:获取预先准备好的政策的训练文本集和测试文本集;根据预先配置好的停用词库对训练文本进行分词和过滤停用词处理,得到样本关键词;将样本关键词输入至TF-IDF训练器中进行计算得到每个样本关键词的样本TF-IDF值,并构建样本关键词的样本特征向量;将样本特征向量输入至待训练的政策分类模型中,得到样本分类结果;根据样本分类结果和训练文本的真实分类结果反向传播更新政策分类模型;利用测试文本集对更新后的政策分类模型进行测试,且当政策分类模型的预测准确率未达到预设阈值时,利用训练文本集继续对政策分类模型进行训练,直至政策分类模型的预测准确率达到预设阈值时为止。
作为本申请的进一步改进,训练文本集基于过采样的方式采样得到。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种政策分类装置,包括:分词模块,用于获取待分类政策的文本内容,并对文本内容进行分词,得到多个关键词;构建模块,用于根据TF-IDF算法计算每个关键词的TF-IDF值,并根据每个关键词的TF-IDF值构建文本内容的特征向量;分类模块,用于将特征向量输入至预先训练好的政策分类模型中,输出得到待分类政策所属的类型,政策的类型预先设置,政策分类模型利用类别预先分好的政策的文本内容训练得到。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种计算机设备,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如上述中任一项所述的政策分类方法的步骤。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述政策分类方法的程序指令。
本申请的有益效果是:本申请的住房政策分类方法通过定期获取住房政策的文本内容后,对文本内容进行分词处理,从而获取到其中的关键词,再利用TF-IDF算法计算关键词的TF-IDF值,并以此来构建文本内容的特征向量,最后将特征向量输入值住房政策分类模型中进行预测,得到住房政策所属的类型,可以快速自动识别出新的住房政策对于当前房价是否利好,能提供专业人员快速了解政策的影响力度,从而对当前房价涨幅的一个预测;能够免除专业人员耗费大量的时间对住房政策进行阅读,并且筛选关键信息,才能对住房政策进行分类,对房产信息的及时反馈造成了滞后;因此该系统可以大大减少时间成本,并且能够快速预测到市场房价的涨幅情况,降低了滞后性,帮助企业快速感知到政策所造成市场影响,帮助企业改善服务质量,提高客户满意度。
附图说明
图1是本发明第一实施例的政策分类方法的流程示意图;
图2是本发明第二实施例的政策分类方法的流程示意图;
图3是本发明实施例的政策分类装置的功能模块示意图;
图4是本发明实施例的计算机设备的结构示意图;
图5是本发明实施例的存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的政策分类方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:获取待分类政策的文本内容,并对文本内容进行分词,得到多个关键词。
本实施例中,以住房政策对政策分类来进行说明。需要理解的是,该政策分类方法同样适用于其他领域的政策分类,本发明不做限制。
具体地,本实施例中,通过爬虫工具定期从指定的网站爬取相关的政策文本内容,再对该文本内容进行分词处理,从而从政策的文本内容中得到多个关键词。需要理解的是,在做文本挖掘的时候,首先要做的预处理就是分词,本实施例中,主要是针对于中文分词,中文分词根据实现原理和特点,主要分为以下两个类别:1、基于词典分词算法,也称字符串匹配分词算法,该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词,常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等,基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。2、基于统计的机器学习算法,这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法,以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果,常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性,而随着深度学习的兴起,基于神经网络的分词器也具有较好效果,例如使用双向LSTM+CRF实现分词器,其本质上是序列标注,所以有通用性,命名实体识别等都可以使用该模型。
步骤S102:根据TF-IDF算法计算每个关键词的TF-IDF值,并根据每个关键词的TF-IDF值构建文本内容的特征向量。
具体地,TF-IDF即Term Frequency-Inverse Document Frequency,TF-IDF算法是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
进一步的,在一些实施例中,步骤S102具体包括:
1、获取属性信息和预设语料库,属性信息包括关键词在文本内容中的出现次数,关键词的总数目;
2、根据属性信息和预设语料库计算每个关键词的词频和逆文档频率;
3、根据词频和逆文档频率计算得到每个关键词的TF-IDF值。
需要说明的是,在一个文本中,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。逆文档频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
进一步的,词频的计算公式为:TF=关键词在文本内容中的出现次数/关键词的总数目;
逆文档频率的计算公式为:IDF=log(预设语料库中文本总数/(预设语料库中包含关键词的文本数目+1));
TF-IDF值的计算公式为:TF-IDF=TF*IDF。
需要理解的是,考虑到文本内容有长短之分,为了便于不同文本的比较,利用关键词在文本内容中的出现次数与关键词的总数目对词频进行标准化,在另一些实施例中,还可通过关键词在文本内容中的出现次数和该文本内容中出现次数最多的关键词以对词频进行标准化。而逆文档频率的计算则需要一个语料库,用以模拟语音的使用环境,如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0,分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词),log表示对得到的值取对数。
步骤S103:将特征向量输入至预先训练好的政策分类模型中,输出得到待分类政策所属的类型,政策的类型预先设置,政策分类模型利用类别预先分好的政策的文本内容训练得到。
需要说明的是,当政策为住房政策时,政策的类型包括预先设置的宽松型、松动型、中性型、收紧型和严控型。需要理解的是,针对于其他领域的政策,其可结合该领域的相关特性来相应的设置多个类型,按照各个类型来对政策进行分类。
具体地,在得到文本内容的特征向量后,将该特征向量输入至训练好的政策分类模型中进行预测,得到该政策所对应的类型。
进一步的,该政策分类模型基于SGD算法实现,本实施例中,还包括预先训练政策分类模型,训练步骤包括:
1、获取预先准备好的政策的训练文本集和测试文本集;
2、根据预先配置好的停用词库对训练文本进行分词和过滤停用词处理,得到样本关键词;
3、将样本关键词输入至TF-IDF训练器中进行计算得到每个样本关键词的样本TF-IDF值,并构建样本关键词的样本特征向量;
4、将样本特征向量输入至待训练的政策分类模型中,得到样本分类结果;
5、根据样本分类结果和训练文本的真实分类结果反向传播更新政策分类模型;
6、利用测试文本集对更新后的政策分类模型进行测试,且当政策分类模型的预测准确率未达到预设阈值时,利用训练文本集继续对政策分类模型进行训练,直至政策分类模型的预测准确率达到预设阈值时为止。
需要说明的是,本实施例中通过样本特征向量对SGD算法模型进行训练,在训练过程中不断的更新模型的参数值,以对政策分类模型进行训练,并在训练完成之后,通过测试文本集对政策分类模型进行测试,直至政策分类模型的准确率不再提升或者是训练次数达到预设次数时为止。
进一步的,在一些实施例中,所述训练文本集基于过采样的方式采样得到,从而让不同类别的政策数量级平衡,保证对政策分类模型具备较好的预测效果。
本发明第一实施例的政策分类方法通过定期获取政策的文本内容后,对文本内容进行分词处理,从而获取到其中的关键词,再利用TF-IDF算法计算关键词的TF-IDF值,并以此来构建文本内容的特征向量,最后将特征向量输入值政策分类模型中进行预测,得到政策所属的类型,可以快速自动识别出新的政策对于当前房价是否利好,能提供专业人员快速了解政策的影响力度,从而对当前房价涨幅的一个预测;能够免除专业人员耗费大量的时间对政策进行阅读,并且筛选关键信息,才能对政策进行分类,对房产信息的及时反馈造成了滞后;因此该系统可以大大减少时间成本,并且能够快速预测到市场房价的涨幅情况,降低了滞后性,帮助企业快速感知到政策所造成市场影响,帮助企业改善服务质量,提高客户满意度。
图2是本发明第二实施例的政策分类方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图2所示的流程顺序为限。如图2所示,该方法包括步骤:
步骤S201:获取待分类政策的文本内容,并对文本内容进行分词,得到多个关键词。
在本实施例中,图2中的步骤S201和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S202:获取待分类政策的文本内容,以及预先配置好的停用词库。
进一步的,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词),对于一个给定的目的,任何一类的词语都可以被选作停用词,通常意义上,停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on'等,但是对于搜索引擎来说,当所要搜索的短语包含功能词,特别是像'The Who'、'The The'或'Take The'等复合名词时,停用词的使用就会导致问题,另一类词包括词汇词,比如'want'等,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。因此,本实施例中,停用词库主要针对于中文文本,例如可以是“啊”、“呢”、“的”、“是”等无实际意义的词,还包括标点符号和特殊符号,如“、”、“,”、“%”等,进一步的,在一些实施例中,停用词还可根据用户的实际需求自定义停用词,例如可以是“百事可乐”、“京东”、“淘宝”等。
步骤S203:对文本内容进行分词处理,并利用停用词库过滤掉文本内容中的停用词,得到分词后的多个关键词。
具体地,在对文本内容进行分词后,将其中的停用词过滤掉,只需要保留文本内容中的关键词,再利用关键词来预测政策所属的类型,通过过滤掉停用词可以大大降低这些停用词对后续模型预测结果的影响,提高了模型预测结果的准确性。通常地,在过滤点停用词后,剩余的词即可作为关键词。
步骤S204:根据TF-IDF算法计算每个关键词的TF-IDF值,并根据每个关键词的TF-IDF值构建文本内容的特征向量。
在本实施例中,图2中的步骤S204和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S205:将特征向量输入至预先训练好的政策分类模型中,输出得到待分类政策所属的类型,政策的类型预先设置,政策分类模型利用类别预先分好的政策的文本内容训练得到。
在本实施例中,图2中的步骤S205和图1中的步骤S103类似,为简约起见,在此不再赘述。
本发明第二实施例的政策分类方法在第一实施例的基础上,通过预先配置好的停用词库,将待分类政策的文本内容中的停用词过滤掉,仅保留具有意义的关键词,从而减少需要进行处理的关键词的数量,提升关键词的处理效率。
图3是本发明实施例的政策分类装置的功能模块示意图。如图3所示,该政策分类装置30包括分词模块31、构建模块32和分类模块33。
分词模块31,用于获取待分类政策的文本内容,并对文本内容进行分词,得到多个关键词;
构建模块32,用于根据TF-IDF算法计算每个关键词的TF-IDF值,并根据每个关键词的TF-IDF值构建文本内容的特征向量;
分类模块33,用于将特征向量输入至预先训练好的政策分类模型中,输出得到待分类政策所属的类型,政策的类型预先设置,政策分类模型利用类别预先分好的政策的文本内容训练得到。
可选地,分词模块31执行获取待分类政策的文本内容,并对文本内容进行分词,得到多个关键词的操作,包括:获取待分类政策的文本内容,以及预先配置好的停用词库;对文本内容进行分词处理,并利用停用词库过滤掉文本内容中的停用词,得到分词后的多个关键词。
可选地,构建模块32执行根据TF-IDF算法计算每个关键词的TF-IDF值,并根据每个关键词的TF-IDF值构建文本内容的特征向量的操作,包括:获取属性信息和预设语料库,属性信息包括关键词在文本内容中的出现次数,关键词的总数目;根据属性信息和预设语料库计算每个关键词的词频和逆文档频率;根据词频和逆文档频率计算得到每个关键词的TF-IDF值。
可选地,词频的计算公式为:TF=关键词在文本内容中的出现次数/关键词的总数目;逆文档频率的计算公式为:IDF=log(预设语料库中文本总数/(预设语料库中包含关键词的文本数目+1));TF-IDF值的计算公式为:TF-IDF=TF*IDF。
可选地,政策的类型包括预先设置的宽松型、松动型、中性型、收紧型和严控型。
可选地,该政策分类装置30还包括训练模块,用于预先训练政策分类模型,训练模块训练政策分类模型的操作包括:获取预先准备好的政策的训练文本集和测试文本集;根据预先配置好的停用词库对训练文本进行分词和过滤停用词处理,得到样本关键词;将样本关键词输入至TF-IDF训练器中进行计算得到每个样本关键词的样本TF-IDF值,并构建样本关键词的样本特征向量;将样本特征向量输入至待训练的政策分类模型中,得到样本分类结果;根据样本分类结果和训练文本的真实分类结果反向传播更新政策分类模型;利用测试文本集对更新后的政策分类模型进行测试,且当政策分类模型的预测准确率未达到预设阈值时,利用训练文本集继续对政策分类模型进行训练,直至政策分类模型的预测准确率达到预设阈值时为止。
可选地,训练文本集基于过采样的方式采样得到。
关于上述实施例政策分类装置中各模块实现技术方案的其他细节,可参见上述实施例中的政策分类方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参阅图4,图4为本发明实施例的计算机设备的结构示意图。如图4所示,该计算机设备40包括处理器41及和处理器41耦接的存储器42,存储器42中存储有程序指令,程序指令被处理器41执行时,使得处理器41执行上述任一实施例所述的政策分类方法的步骤。
其中,处理器41还可以称为CPU(Central Processing Unit,中央处理单元)。处理器41可能是一种集成电路芯片,具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图5,图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序指令51,其中,该程序指令51可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等计算机设备设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的计算机设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种政策分类方法,其特征在于,包括:
获取待分类政策的文本内容,并对所述文本内容进行分词,得到多个关键词;
根据TF-IDF算法计算每个关键词的TF-IDF值,并根据所述每个关键词的TF-IDF值构建所述文本内容的特征向量;
将所述特征向量输入至预先训练好的政策分类模型中,输出得到所述待分类政策所属的类型,所述政策的类型预先设置,所述政策分类模型利用类别预先分好的政策的文本内容训练得到。
2.根据权利要求1所述的政策分类方法,其特征在于,所述获取待分类政策的文本内容,并对所述文本内容进行分词,得到多个关键词,包括:
获取所述待分类政策的文本内容,以及预先配置好的停用词库;
对所述文本内容进行分词处理,并利用所述停用词库过滤掉所述文本内容中的停用词,得到分词后的多个关键词。
3.根据权利要求1所述的政策分类方法,其特征在于,所述根据TF-IDF算法计算每个关键词的TF-IDF值,并根据所述每个关键词的TF-IDF值构建所述文本内容的特征向量,包括:
获取属性信息和预设语料库,所述属性信息包括所述关键词在所述文本内容中的出现次数,所述关键词的总数目;
根据所述属性信息和所述预设语料库计算每个关键词的词频和逆文档频率;
根据所述词频和所述逆文档频率计算得到每个关键词的所述TF-IDF值。
4.根据权利要求3所述的政策分类方法,其特征在于,所述词频的计算公式为:TF=关键词在所述文本内容中的出现次数/所述关键词的总数目;
所述逆文档频率的计算公式为:IDF=log(所述预设语料库中文本总数/(所述预设语料库中包含所述关键词的文本数目+1));
所述TF-IDF值的计算公式为:TF-IDF=TF*IDF。
5.根据权利要求1所述的政策分类方法,其特征在于,当所述政策为住房政策时,所述政策的类型包括预先设置的宽松型、松动型、中性型、收紧型和严控型。
6.根据权利要求1所述的政策分类方法,其特征在于,所述方法还包括预先训练政策分类模型,训练步骤包括:
获取预先准备好的政策的训练文本集和测试文本集;
根据预先配置好的停用词库对所述训练文本进行分词和过滤停用词处理,得到样本关键词;
将所述样本关键词输入至TF-IDF训练器中进行计算得到每个样本关键词的样本TF-IDF值,并构建所述样本关键词的样本特征向量;
将所述样本特征向量输入至待训练的政策分类模型中,得到样本分类结果;
根据所述样本分类结果和所述训练文本的真实分类结果反向传播更新所述政策分类模型;
利用所述测试文本集对更新后的政策分类模型进行测试,且当所述政策分类模型的预测准确率未达到预设阈值时,利用所述训练文本集继续对所述政策分类模型进行训练,直至所述政策分类模型的预测准确率达到预设阈值时为止。
7.根据权利要求6所述的政策分类方法,其特征在于,所述训练文本集基于过采样的方式采样得到。
8.一种政策分类装置,其特征在于,包括:
分词模块,用于获取待分类政策的文本内容,并对所述文本内容进行分词,得到多个关键词;
构建模块,用于根据TF-IDF算法计算每个关键词的TF-IDF值,并根据所述每个关键词的TF-IDF值构建所述文本内容的特征向量;
分类模块,用于将所述特征向量输入至预先训练好的政策分类模型中,输出得到所述待分类政策所属的类型,所述政策的类型预先设置,所述政策分类模型利用类别预先分好的政策的文本内容训练得到。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如权利要求1-7中任一项权利要求所述的政策分类方法的步骤。
10.一种存储介质,其特征在于,存储有能够实现如权利要求1-7中任一项所述的政策分类方法的程序指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111525621.8A CN114202443A (zh) | 2021-12-14 | 2021-12-14 | 政策分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111525621.8A CN114202443A (zh) | 2021-12-14 | 2021-12-14 | 政策分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114202443A true CN114202443A (zh) | 2022-03-18 |
Family
ID=80653538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111525621.8A Pending CN114202443A (zh) | 2021-12-14 | 2021-12-14 | 政策分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114202443A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858470A (zh) * | 2022-12-26 | 2023-03-28 | 深圳市中政汇智管理咨询有限公司 | 政策法规文件的匹配方法、系统、服务器及存储介质 |
CN117408652A (zh) * | 2023-12-15 | 2024-01-16 | 江西驱动交通科技有限公司 | 一种档案数据分析管理方法及系统 |
-
2021
- 2021-12-14 CN CN202111525621.8A patent/CN114202443A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858470A (zh) * | 2022-12-26 | 2023-03-28 | 深圳市中政汇智管理咨询有限公司 | 政策法规文件的匹配方法、系统、服务器及存储介质 |
CN115858470B (zh) * | 2022-12-26 | 2023-09-22 | 深圳市中政汇智管理咨询有限公司 | 政策法规文件的匹配方法、系统、服务器及存储介质 |
CN117408652A (zh) * | 2023-12-15 | 2024-01-16 | 江西驱动交通科技有限公司 | 一种档案数据分析管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN108121700B (zh) | 一种关键词提取方法、装置及电子设备 | |
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN108875059B (zh) | 用于生成文档标签的方法、装置、电子设备和存储介质 | |
WO2016162879A1 (en) | Text mining system and tool | |
CN108491389B (zh) | 点击诱饵标题语料识别模型训练方法和装置 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN103971677A (zh) | 一种声学语言模型训练方法和装置 | |
CN111177186B (zh) | 基于问题检索的单句意图识别方法、装置和系统 | |
WO2020232898A1 (zh) | 文本分类方法、装置、电子设备及计算机非易失性可读存储介质 | |
CN110990532A (zh) | 一种处理文本的方法和装置 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN114202443A (zh) | 政策分类方法、装置、设备及存储介质 | |
CN113660541B (zh) | 新闻视频的摘要生成方法及装置 | |
CN114547315A (zh) | 一种案件分类预测方法、装置、计算机设备及存储介质 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN117216275A (zh) | 一种文本处理方法、装置、设备以及存储介质 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN110888983A (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
KR102357023B1 (ko) | 대화 분절 문장의 복원을 위한 장치 및 방법 | |
CN113792546A (zh) | 语料库的构建方法、装置、设备以及存储介质 | |
KR20210146832A (ko) | 토픽 키워드의 추출 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |