CN113537609A - 一种基于文本智能挖掘的政策热点预测方法 - Google Patents
一种基于文本智能挖掘的政策热点预测方法 Download PDFInfo
- Publication number
- CN113537609A CN113537609A CN202110843654.0A CN202110843654A CN113537609A CN 113537609 A CN113537609 A CN 113537609A CN 202110843654 A CN202110843654 A CN 202110843654A CN 113537609 A CN113537609 A CN 113537609A
- Authority
- CN
- China
- Prior art keywords
- text
- policy
- prediction
- word
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000005065 mining Methods 0.000 title claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000011161 development Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本智能挖掘的政策热点预测方法,包括步骤一:选择原始文本,拆分文本内容,基于TF‑IDF算法抽取关键词;步骤二:基于知识图谱的识别政策文本实体;步骤三:利用对比类推的思想进行差异性与空白点预测;步骤四:利用灰色预测模型得到未来政策文本的关键词词频的预测值;步骤五:基于关键词词集构建网络图,利用K‑means方法进行主题聚类,基于主题之间的相似性矩阵,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重。本发明借助内容分析与对比类推思想,纵向分析历史数据,横向对比国际政策,充分利用了政策文本,提取、构建关键词网络,在此基础上聚类并预测,可获得相对准确的预测结果。
Description
技术领域
本发明属于大数据技术领域,具体为一种基于文本智能挖掘的政策热点预测方法。
背景技术
互联网规模的扩大和大数据存储、计算成本的不断降低使得当代信息数据的来源广泛。大数据凭借其庞大的体量、多样性、高速性和价值性使得数据驱动决策日益重要。现今,大数据处理与分析已成为许多行业研究中不可或缺的部分。现代信息社会大数据中,文本数据占比最大,对文本数据信息的处理有着广泛的应用场景,基于文本数据的趋势预测、情感分析等对于商业、新闻媒体与政府等主体有着重要价值。目前,许多前沿研究基于文本大数据挖掘来分析社交媒体舆论信息,这种借助知识图谱、神经网络的量化建模分析方法获取的预测结果有着较高的准确性。文本挖掘技术(Text Mining),即自然语言处理(Natural Language Processing),是一系列计算工具及统计技术的总称。文本挖掘技术处理文本速度快、效率高。2009年内以来,文本挖掘技术进入持续发展阶段,挖掘深层知识模式是未来的重要方向。一般的文本挖掘的基本步骤包括:
1)文本预处理。包括文本的选取、分词、去除停用词、提取词干等。
2)词向量、句矩阵的构建。
3)构建模型进行训练。
文本挖掘技术可划分为有监督的学习和无监督的机器学习两大类,无监督的机器学习方式可用于处理未知的、未整理的文本,更适合处理大数据样本。
文本挖掘技术为现代行业研究提供了可靠的工具,例如,金融行业可通过上市银行年报文本挖掘,探讨商业银行金融科技发展的趋势(唐也然,2021)。宏观来说,国家政策影响着各行各业的发展,对政策热点的分析与预测有助于各行各业的战略规划。因此,立足政策热点,理解、把握新趋势、新动态是全行业获得进步的重中之重。借助文本挖掘技术,智能探索政策热点,是大数据时代政策分析的重要方法。
然而,目前对于政策发展趋势的预测,大部分研究者选择使用单一的研究方法。例如仅对现有政策和数据进行分析,或仅对不同政策条款进行对比类推。这两种方法难以充分利用现代大数据技术提供的丰富信息与便利条件,使得结果具有局限性。此外,一些基于文本数据分析方法的研究将重心放在关键词的词频统计和关键词网络结构上,停留于分析评价层面而无法对政策发展趋势进行有效的量化预测。
本文提出将内容分析法和对比类推法结合、基于文本挖掘技术的的政策热点预测方法,这保证了该预测方法是在大量客观数据的基础上展开,也将未来的政策热点对标政策实施效果显著的方案,利用量化分析的优势,准确识别不同类型变量之间的差异,进一步通过变量控制分析产生差异的原因。
发明内容
本发明的目的在于解决背景技术中的问题,提供一种基于文本智能挖掘的政策热点预测方法。
本发明采用的技术方案如下:
一种基于文本智能挖掘的政策热点预测方法,包括以下步骤:
步骤一:选择原始文本,拆分文本内容,基于TF-IDF算法抽取关键词,TF-IDF算法的具体计算步骤如下:
c,计算词频:
词频(TF)=某个词在文本中的出现次数
由于不同的政策文本长短不同,为了进行不同样本之间的比较,需要对所述词频进行标准化处理:
词频(TF)=某个词在文本中的出现次数/文本的总词数;
d,计算逆文档频率:
在这个过程中,需要建立一个语料库,用来模拟语言的使用环境;
逆文档频率(IDF)=log(语料库的文档总数/包含该词的文档数+1);
步骤二:基于知识图谱的识别政策文本实体;
步骤三:利用对比类推的思想进行差异性与空白点预测;
步骤四:利用灰色预测模型得到未来政策文本的关键词词频的预测值;
步骤五:基于关键词词集构建网络图,利用K-means方法进行主题聚类,基于主题之间的相似性矩阵,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重,最终可视化获得预测结果。
优选的,所述步骤二的知识图谱的构建过程是从原始数据出发,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程,所述构建过程需要若干个循环,所述循环包括信息抽取、知识融合以及知识加工三个阶段。
优选的,所述步骤二中的识别政策文本实体采用Bi-Lstm+Crf模型。
优选的,所述步骤二中的政策文本进行实体关系抽取,所述实体关系抽取基于端到端神经网络的关系抽取模型,该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模。
优选的,所述步骤四中的灰色预测模型是通过计算各因素之间的关联度,鉴别系统各因素之间发展趋势的相异程度,对原始数据做累加生成、累减或者均值生成近似的指数规律在进行建模的方法,具体根据原始数据生成如下序列:
原始序列:
x0=(x0(1),x0(2),...,x0(n))
1次累加序列(1-AGO):
x1=(x1(1),x1(1)+x1(2),...,x1(1)+x1(2)+…+x1(n))
1次累减序列(1-IAGO):
均值生成序列:
z1=(z1(2),z1(3),...,z1(n))。
优选的,所述步骤五中K-means方法中的K值即为共词网络图中的最大节点数量。
优选的,所述步骤五中的主题聚类计算主题之间的相似度量值,根据相似值的计算结果,把主题划分为新生主题、融合主题、演化主题、同一主题和消亡主题5个类别。
优选的,所述新生主题、融合主题、演化主题、同一主题和消亡主题的划分条件具体为:
新生主题和消亡主体的相似值均小于0.6;
融合主体的相似值大于等于0.6且小于0.7;
演化主体的相似值大于等于0.7且小于0.9;
同一主体的相似值大于0.9。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,采用文本挖掘方法,利用TF-IDF算法、知识图谱、差异性与空白点预测、灰色预测模型、主题聚类与权重调整方法,获取政策热点预测,借助内容分析与对比类推思想,纵向分析历史数据,横向对比国际政策,充分利用了政策文本。
2、本发明中,提取、构建关键词网络,在此基础上聚类并预测,可获得相对准确的预测结果。
附图说明
图1为本发明的流程框图;
图2为本发明中知识图谱的构建的流程图;
图3为本发明中Bi-Lstm+Crf模型的流程图;
图4为本发明中政策文本的流程框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1-4,一种基于文本智能挖掘的政策热点预测方法,包括以下步骤:
步骤一:选择原始文本,拆分文本内容,选择年度政府工作报告进行内容的细分与编码,根据报告的结构基本上可以分为以下单元:工作回顾、发展目标与下一阶段工作部署、第三部分、第四部分等,针对文本内容,可以分为政治、经济、民生、国防和教育等主题,最后,以年为单位,基本完成拆分文本条目单元的工作流程,接下来,对报告内容进行分词处理,以形成规模化的条目单元拆分,使用TF-IDF算法对政策文本的关键词进行抽取;
针对原始文本中的“的”“是”“了”等常见用词,用TF可以统计此类意义不大的停用词并把它们过滤,结果只需要考虑剩下的有实际意义的词。在针对出现频次相同的关键词排序上,使用IDF就可以对常见的词以较小的权重,它的大小与一个词的常见程度成反比。
根据以上操作,可以得到TF(词频)和IDF(逆文档频率),将这两个词相乘,就可以得到一个词的TF-IDF值,具体地,如果某个关键词在其所在政策文本中的TF-IDF值越大,那么根据该算法判断,该关键词在这篇政策文本中的重要性就越高,因此,通过计算政策文本中各个关键词的TF-IDF值,由大到小排序,必要时人工介入设定阈值,就完成了针对政策文本的关键词抽取,TF-IDF算法的具体计算步骤如下:
计算词频:
词频(TF)=某个词在文本中的出现次数
由于不同的政策文本长短不同,为了进行不同样本之间的比较,需要对所述词频进行标准化处理:
词频(TF)=某个词在文本中的出现次数/文本的总词数;
计算逆文档频率:
在这个过程中,需要建立一个语料库,用来模拟语言的使用环境;
逆文档频率(IDF)=log(语料库的文档总数/包含该词的文档数+1);
根据计算公式可以看出,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。
步骤二:基于知识图谱的识别政策文本实体;
知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程,这个构建过程需要不断循环更新,每一轮循环包含3个阶段:信息抽取、知识融合以及知识加工利用知识图谱技术实现针对政策文本的人名、地名、机构名等重要实体的识别,对于实体学习,一个关键的标准是能否准确把属于同一事物或概念的实体的不同表达方式进行归一化表示,以及区分同一表述方式在不同语境中指代的不同实体,实体识别在自然语言处理中属于系列标注问题,有很多不同的模型在处理这类问题时,都有不错的表现。常见的模型主要由词嵌入、特征提取、分类器、条件随机场四部分构成,常见的模型的区别主要是在特征提取这部分的结构,其中效果最好也是使用最多的是Bi-Lstm+Crf模型;
接着,对政策文本中的各类实体进行关系抽取。通过建立两个或多个实体间的某种联系,描述不同政策文本中存在的事物之间的关联关系,本文使用基于端到端神经网络的关系抽取模型,该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模,保证了模型的准确性和鲁棒性;
步骤三:利用对比类推的思想进行差异性与空白点预测;
利用对比类推的思想,将待分析样本的政策单元中每类结构包含的主题强度与标杆政策相对比,就可以看出对不同类别的政策单元利用方面,样本政策单元与标杆政策单元存在某种程度的差异,将这种结果形成表格,就可以直观地观察到样本政策单元存在的空白点,政策单元的差异性代表着不同政策文本对于已应用的政策举措在关注度上存在差异;空白点则代表了不同政策文本对某一主题类别的政策单元的应用情况存在不同。
根据该步骤的差异性和空白点对比结果,可以基本确定政策热点的存在范围,为进一步的分析奠定基础。
利用第一部分计算的关键词词频TF-IDF得分,可以得到一个具有较强规律性的数列矩阵,因此,可以通过构建灰微分方程并进行最小二乘法估计,得到未来政策文本的关键词词频的预测值。
步骤四:利用灰色预测模型得到未来政策文本的关键词词频的预测值;
灰色预测是通过计算各因素之间的关联度,鉴别系统各因素之间发展趋势的相异程度,其核心体系是灰色模型(Grey Model,GM),即对原始数据做累加生成(或者累减、均值等方法)生成近似的指数规律在进行建模的方法。具体地,利用原始数据可生成如下序列:
原始序列:
x0=(x0(1),x0(2),...,x0(n))
1次累加序列(1-AGO):
x1=(x1(1),x1(1)+x1(2),...,x1(1)+x1(2)+…+x1(n))
1次累减序列(1-IAGO):
均值生成序列:
z1=(z1(2),z1(3),...,z1(n))。
步骤五:基于关键词词集构建网络图,利用K-means方法进行主题聚类,基于主题之间的相似性矩阵,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重,最终可视化获得预测结果;
首先,将每个政策文本单元的关键词词集按照时间切片后形成共词网络图,为后续聚类分析确定聚类条目的数量,接着,利用第一部分计算得出的TF-IDF值构建一个数值矩阵,进而利用K-means算法对文本关键词进行聚类,K值即为共词网络图中的最大节点数量。根据聚类结果,即可得到不同时间段中的聚类主题;接着计算主题之间的相似度量值,根据相似值的计算结果,可以把主题划分为新生主题、融合主题、演化主题、同一主题和消亡主题5个类别;
具体地,几类主题的划分条件如下:
新生主题和消亡主体的相似值均小于0.6;
融合主体的相似值大于等于0.6且小于0.7;
演化主体的相似值大于等于0.7且小于0.9;
同一主体的相似值大于0.9;
根据主题之间的相似性矩阵,即可得到热门政策主题的初步预测结果。接着,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中,对初步预测结果的各项主题进行利好/利空的判断,以调控预测结果的权重,具体如下:
1)政策风险/利好:对现时政策文件中与该主题相关的利好、利空状态进行识别,机器正负面识别(利好:1分,利空:-1分);
2)媒体正面/负面:对媒体发布内容中与该主题相关的信息进行正负面判断(正面:1分,负面:-1分,中性:0分);
3)专家看好/看空:对专家智库发布内容中与该主题相关的信息进行正负面判断(正面:1分,负面:-1分,中性:0分);
4)舆论看好/看空:对全网舆论发布内容中与该主题相关的信息进行正负面判断(正面:1分,负面:-1分,中性:0分);
对上述四类因子得分进行赋权,即可得到针对初步预测主题的舆论态势总得分,该得分作为参数加入原模型中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于文本智能挖掘的政策热点预测方法,其特征在于:包括以下步骤:
步骤一:选择原始文本,拆分文本内容,基于TF-IDF算法抽取关键词,TF-IDF算法的具体计算步骤如下:
a,计算词频:
词频(TF)=某个词在文本中的出现次数
由于不同的政策文本长短不同,为了进行不同样本之间的比较,需要对所述词频进行标准化处理:
词频(TF)=某个词在文本中的出现次数/文本的总词数;
b,计算逆文档频率:
在这个过程中,需要建立一个语料库,用来模拟语言的使用环境;
逆文档频率(IDF)=log(语料库的文档总数/包含该词的文档数+1);
步骤二:基于知识图谱的识别政策文本实体;
步骤三:利用对比类推的思想进行差异性与空白点预测;
步骤四:利用灰色预测模型得到未来政策文本的关键词词频的预测值;
步骤五:基于关键词词集构建网络图,利用K-means方法进行主题聚类,基于主题之间的相似性矩阵,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重,最终可视化获得预测结果。
2.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤二的知识图谱的构建过程是从原始数据出发,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程,所述构建过程需要若干个循环,所述循环包括信息抽取、知识融合以及知识加工三个阶段。
3.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤二中的识别政策文本实体采用Bi-Lstm+Crf模型。
4.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤二中的政策文本进行实体关系抽取,所述实体关系抽取基于端到端神经网络的关系抽取模型,该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模。
6.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤五中K-means方法中的K值即为共词网络图中的最大节点数量。
7.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤五中的主题聚类计算主题之间的相似度量值,根据相似值的计算结果,把主题划分为新生主题、融合主题、演化主题、同一主题和消亡主题5个类别。
8.如权利要求7所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述新生主题、融合主题、演化主题、同一主题和消亡主题的划分条件具体为:
新生主题和消亡主体的相似值均小于0.6;
融合主体的相似值大于等于0.6且小于0.7;
演化主体的相似值大于等于0.7且小于0.9;
同一主体的相似值大于0.9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110843654.0A CN113537609A (zh) | 2021-07-26 | 2021-07-26 | 一种基于文本智能挖掘的政策热点预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110843654.0A CN113537609A (zh) | 2021-07-26 | 2021-07-26 | 一种基于文本智能挖掘的政策热点预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113537609A true CN113537609A (zh) | 2021-10-22 |
Family
ID=78088944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110843654.0A Pending CN113537609A (zh) | 2021-07-26 | 2021-07-26 | 一种基于文本智能挖掘的政策热点预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537609A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807645A (zh) * | 2021-07-26 | 2021-12-17 | 北京清博智能科技有限公司 | 一种基于开源情报的产业链风险推演方法 |
CN114757452A (zh) * | 2022-06-14 | 2022-07-15 | 湖南工商大学 | 基于文本挖掘的生产安全事故隐患预警方法及系统 |
US20230196017A1 (en) * | 2021-12-22 | 2023-06-22 | Bank Of America Corporation | Classication of documents |
CN116798633A (zh) * | 2023-08-22 | 2023-09-22 | 北京大学人民医院 | 创伤数据安全风险评估系统构建方法和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493265A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于深度学习的政策解读方法及政策解读系统 |
US20190228364A1 (en) * | 2018-01-23 | 2019-07-25 | Vector Analytics, Inc. | System and method for assessing an organization's innovation strategy against potential or future industry scenarios, competitive scenarios, and technology scenarios |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN111339286A (zh) * | 2020-02-14 | 2020-06-26 | 重庆邮电大学 | 一种基于主题可视化的探索机构研究状况的方法 |
-
2021
- 2021-07-26 CN CN202110843654.0A patent/CN113537609A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190228364A1 (en) * | 2018-01-23 | 2019-07-25 | Vector Analytics, Inc. | System and method for assessing an organization's innovation strategy against potential or future industry scenarios, competitive scenarios, and technology scenarios |
CN109493265A (zh) * | 2018-11-05 | 2019-03-19 | 北京奥法科技有限公司 | 一种基于深度学习的政策解读方法及政策解读系统 |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN111339286A (zh) * | 2020-02-14 | 2020-06-26 | 重庆邮电大学 | 一种基于主题可视化的探索机构研究状况的方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807645A (zh) * | 2021-07-26 | 2021-12-17 | 北京清博智能科技有限公司 | 一种基于开源情报的产业链风险推演方法 |
US20230196017A1 (en) * | 2021-12-22 | 2023-06-22 | Bank Of America Corporation | Classication of documents |
US11977841B2 (en) * | 2021-12-22 | 2024-05-07 | Bank Of America Corporation | Classification of documents |
CN114757452A (zh) * | 2022-06-14 | 2022-07-15 | 湖南工商大学 | 基于文本挖掘的生产安全事故隐患预警方法及系统 |
CN114757452B (zh) * | 2022-06-14 | 2022-09-09 | 湖南工商大学 | 基于文本挖掘的生产安全事故隐患预警方法及系统 |
CN116798633A (zh) * | 2023-08-22 | 2023-09-22 | 北京大学人民医院 | 创伤数据安全风险评估系统构建方法和电子设备 |
CN116798633B (zh) * | 2023-08-22 | 2023-11-21 | 北京大学人民医院 | 创伤数据安全风险评估系统构建方法和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113537609A (zh) | 一种基于文本智能挖掘的政策热点预测方法 | |
Jain et al. | Data mining techniques: a survey paper | |
Santra et al. | Genetic algorithm and confusion matrix for document clustering | |
CN114647741B (zh) | 工艺自动决策和推理方法、装置、计算机设备及存储介质 | |
CN110188192B (zh) | 一种多任务网络构建与多尺度的罪名法条联合预测方法 | |
CN112035658B (zh) | 基于深度学习的企业舆情监测方法 | |
CN107688870A (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN112734154B (zh) | 一种基于模糊数相似度的多因素舆情风险评估方法 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN115630732A (zh) | 一种面向城市运营的企业迁移大数据监测预警方法及装置 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
CN116263849A (zh) | 注塑工艺参数处理方法、装置及计算设备 | |
Zhao et al. | Fuzzy sentiment membership determining for sentiment classification | |
Zekić-Sušac et al. | Deep learning in modeling energy cost of buildings in the public sector | |
CN110728140A (zh) | 基于情感分析与主题特征的突发事件舆情演化分析方法 | |
CN117114105A (zh) | 基于科研大数据信息的目标对象推荐方法和系统 | |
Yi-bin et al. | Improvement of ID3 algorithm based on simplified information entropy and coordination degree | |
CN111767404A (zh) | 一种事件挖掘方法和装置 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
Luo et al. | L1-regularized logistic regression for event-driven stock market prediction | |
CN106816871B (zh) | 一种电力系统状态相似性分析方法 | |
Handayani et al. | Sentiment Analysis Of Electric Cars Using Recurrent Neural Network Method In Indonesian Tweets | |
CN114612914A (zh) | 一种多标签不平衡数据分类的机器学习方法及系统 | |
CN113987536A (zh) | 数据表中字段安全等级确定方法、装置、电子设备及介质 | |
Kim et al. | Predicting the patterns of technology convergence in defense technologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211022 |
|
RJ01 | Rejection of invention patent application after publication |