CN112199926A - 基于文本挖掘和自然语言处理的地质报告文本可视化方法 - Google Patents
基于文本挖掘和自然语言处理的地质报告文本可视化方法 Download PDFInfo
- Publication number
- CN112199926A CN112199926A CN202011111355.XA CN202011111355A CN112199926A CN 112199926 A CN112199926 A CN 112199926A CN 202011111355 A CN202011111355 A CN 202011111355A CN 112199926 A CN112199926 A CN 112199926A
- Authority
- CN
- China
- Prior art keywords
- text
- geological
- word
- result
- geological report
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title claims abstract description 15
- 238000003058 natural language processing Methods 0.000 title claims abstract description 15
- 238000007794 visualization technique Methods 0.000 title claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012800 visualization Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000011218 segmentation Effects 0.000 claims description 46
- 238000010586 diagram Methods 0.000 claims description 10
- 238000011160 research Methods 0.000 claims description 10
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009412 basement excavation Methods 0.000 claims description 3
- 235000019580 granularity Nutrition 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 8
- 229910052742 iron Inorganic materials 0.000 description 4
- 239000004575 stone Substances 0.000 description 4
- 229910052500 inorganic mineral Inorganic materials 0.000 description 3
- 239000011707 mineral Substances 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法;包括首先,利用自然语言处理技术对地质报告进行数据预处理;其次,基于构建的停用词词库对文本中的停用词进行剔除;然后,统计相邻两个词之间共同出现的次数,并生成共现矩阵;最后,进行了词频统计、改进的TF‑IDF关键词提取等,并分别进行了词频统计可视化、关键词词云可视化、中心性分析可视化、多尺度关键词分析可视化等。本发明提出的地质报告文本可视化流程能充分发现和挖掘地质文本隐含的信息,能迅速从可视化结果中获取关键信息,使繁杂的文本信息能以非常直观的形式进行展示。本发明所提出的可视化流程对工程报告类文本具有较高的适用性和参考价值。
Description
技术领域
本发明涉及数据挖掘和自然语言处理领域,尤其涉及一种基于文本挖掘和自然语言处理的地质报告文本可视化方法。
背景技术
大数据时代背景下,数据的利用价值越来越受到研究者们的青睐。然而,海量的数据纷繁复杂,处理起来难度极大。如何在海量数据里面挖掘出更具有研究价值和意义的信息,是数据研究者们一直在攻克的难题。地质大数据作为大数据的典型代表,是互联网时代背景下大数据相关理论、技术及方法在地质领域中的应用与实践。地质研究属于数据密集型科学,当前的研究工作已经从定性转变到定量,从数据稀少型转变到数据密集型。面对海量的地质调查数据资料,需要进一步树立大数据思维、定量思维及获取“地质资源”和形成核心“地质数据知识”的新思维方式,以数据密集型工作方法为基础,进而实现地质数据高效便捷的集成与融合。地质大数据代表的是以地质调查、矿产勘查及科研工作中形成的各类成果,通常是以文本、音频、图表等多种数据形式存储,主要的数据来源包括全国地质资料馆和各级地质图书馆、全国矿产资源评价资料、中国地质调查数据库和相关地学文献数据库。当前,在地质调查过程中积累了大量的地质报告,每份报告都包含不同的地质主题,如区调、岩石、矿物或水文,这些报告的内容通常以不同的格式存储,如.doc、.pdf、.jpg、.tiff和空间数据文件。此外,这些报告由大量的结构化数据和非结构化数据组成。结构化数据通常使用关系数据库或空间数据库存储和管理;然而,大量地质调查报告、工作记录等非结构化数据还未得到充分利用与挖掘。非结构化数据包含多种类型和碎片化的信息,比结构化数据包含更丰富的信息,具有更大的潜在价值。如何挖掘地质报告非结构化文本隐含信息,使之直观地可视化展示成了重要的研究课题。
地质报告文本信息的挖掘中,数据预处理是最重要的前提。其中,分词是预处理的关键。中文地质报告的分词有一定的难度,主要由于地质报告中命名实体众多,且不具备一定的规则。地质报告分词首先需要一份良好的分词词典,但目前符合要求的词典非常少。词典确定后,地质文本句子中可能含有很多词典中的词语,它们可能相互重叠,输出哪一个由规则决定。常用的规则有正向最长匹配、逆向最长匹配和双向最长匹配,它们都是基于完全切分过程。完全切分指的是,找出一段文本中的所有单词。正向最长匹配简单意义上来解释,就是越长的单词表达的意义越丰富,也即单词越长优先级越高。具体来说,就是在以某个下标为起点递增查词的过程中,优先输出更长的单词,这种规则被称为最长匹配算法。该下标的扫描顺序如果从前往后,则称为正向最长匹配,反之称为逆向最长匹配。而通常情况下,上述两种方法并不能完全解决问题,所以前人在融合两种匹配方法的特点后,提出了双向最长匹配。其规则如下:(1)同时执行正向和逆向最长匹配,若两者的词数不同,则返回词数更少的那一个;(2)否则,返回两者中单字更少的那一个。当单字也相同时,优先返回逆向最长匹配的结果。
从地质报告文本中进行信息抽取是重要的研究方向和热点。信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。信息抽取当中一个重要的研究为关键词提取。顾名思义,关键词即提取文本中重要的单词,而不限于词语的新鲜程度。由简入繁的方法分别为词频、TF-IDF和TextRank。关键词通常在文章中反复出现,通过统计文章中每种词语的词频并排序,可以初步获取部分关键词,词频统计的流程一般是分词、停用词过滤、按词频取前n个。TF-IDF是信息检索中衡量一个词语重要程度的统计指标,被广泛用于Lucene、Solr、Elasticsearch等搜索引擎。
综上,目前围绕地质报告文本的处理主要从信息抽取方面入手,从而进行下一步的工作,较少有研究者专门研究地质报告文本内容的可视化展示。本发明在前人研究的基础上,提出了一种基于文本挖掘和自然语言处理技术的地质报告文本可视化方法流程。该流程对工程报告类文本的可视化具有较高的适用性和参考价值。
发明内容
为了解决目前地质报告文本信息表达方法不具备视觉上的直观感受,文本信息处理和挖掘繁琐等技术问题,本发明提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,该方法分别从地质报告关键词提取、中心性分析等进行了可视化展示,对工程报告类文本的可视化具有较高的适用性和参考价值。
本发明提供的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,具体包括如下步骤:
S101:获取研究区域的地质报告,并对所述地质报告进行预处理,得到预处理后的地质报告文本;
S102:将所述预处理后的地质报告文本,分别加入地质文本词典和停用词词典后进行分词,得到分词处理后的地质报告文本;
S103:将所述分词处理后的地质报告文本,分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取,得到词频统计结果和TF-IDF关键词提取结果;其中,TF-IDF关键词提取结果作为第一关键词提取结果;
S104:将所述分词处理后的地质报告文本,利用改进的TF-IDF关键词提取技术进行关键词信息提取,得到第二关键词提取结果;
S105:考虑到相邻词语间的相关性,统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数,并将统计结果转化为共现矩阵;
S106:将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化,并利用所述共现矩阵实现语义相似性的度量,实现了地质文本信息的充分挖掘。
进一步地,步骤S101中,预处理包括:
S201:实现地质报告文本格式的转换,将地质报告.pdf格式转化为.txt格式,并去除地质报告中的图件和表格内容;
S202:将文本内容进行剔除噪声的处理,包括公式的剔除和无关符号的剔除;所述无关符号包括:~,%和<;
S203:将处理好的文本内容按行存储在.txt文本中,得到预处理后的地质报告文本。
进一步地,步骤S102具体包括:对所述预处理后的地质报告文本,加入预先设计好的地质文本词典,通过不引用和引用停用词词典分别实现粗粒度地质报告文本的分词和精细化地质报告文本的分词,并将粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果均以.txt格式输出。
进一步地,步骤S103具体包括:针对S102中粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果:首先进行词频统计,通过统计每个词语在地质报告文本中出现的次数,获取地质报告文本关键词信息;然后,将获得的精细化地质报告文本的分词结果中的每个词的词频数除以地质报告文本总词数,得到标准化的词频;同时,考虑到同一地区可能有多份相关内容的地质矿床报告文档,引入了逆文档频率,通过TF-IDF的关键词计算,排除地质文本内容长短和多份相关内容文档的影响,得到第一关键词提取结果。
进一步地,步骤S104中,利用改进的TF-TDF技术进行关键词信息提取具体为:针对地质报告文本中专有名词词长的影响,对TF-IDF关键词提取技术进行了改进,即对S103中-第一关键词提取结果进行词长统计,并与TF-IDF的结果相加,得到第二关键词提取结果。
进一步地,步骤S106具体包括:首先所述词频统计结果以柱状条形图和词云形式展示,所述第一关键词提取结果和所述第一关键词提取结果分别以柱状条形图进行可视化展示;其次,利用S105中获得的共现矩阵实现语义相似性的度量,分析地质文本词语的中心性,并根据不同的粒度进行了关键词分析,实现了地质文本的信息充分挖掘。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种基于文本挖掘和自然语言处理的地质报告文本可视化方法的流程图;
图2(a)是本发明实施例中未去停用词的地质报告文本分词后的词频统计可视化结果示意图;
图2(b)是本发明实施例中去停用词后的地质报告文本分词后的词频统计可视化结果示意图;
图3是本发明实施例中去停用词后的地质报告文本分词后的词云展示示意图;
图4(a)是本发明实施例中去停用词后的第一关键词提取可视化结果示意图;
图4(b)是本发明实施例中去停用词后的第二关键词提取可视化结果示意图;
图5是本发明实施例中关键词中心性分析可视化结果示意图;
图6是本发明实施例中多尺度关键词分析可视化结果示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法。
请参考图1,图1是本发明实施例中一种基于文本挖掘和自然语言处理的地质报告文本可视化方法的流程图,具体包括如下步骤:
S101:获取研究区域的地质报告,并对所述地质报告进行预处理,得到预处理后的地质报告文本;
S102:将所述预处理后的地质报告文本,分别加入地质文本词典和停用词词典后进行更加精细的分词,得到分词处理后的地质报告文本;
S103:将所述分词处理后的地质报告文本,分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取,得到词频统计结果和TF-IDF关键词提取结果;其中,TF-IDF关键词提取结果作为第一关键词提取结果;
S104:将所述分词处理后的地质报告文本,利用改进的TF-IDF关键词提取技术进行关键词信息提取,得到第二关键词提取结果;
S105:考虑到相邻词语间的相关性,统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数,并将统计结果转化为共现矩阵;
S106:将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化,并利用所述共现矩阵实现语义相似性的度量,实现了地质文本信息的充分挖掘。
步骤S101中,预处理包括:
S201:实现地质报告文本格式的转换,将地质报告.pdf格式转化为.txt格式,并去除地质报告中的图件和表格内容;
S202:将文本内容进行剔除噪声的处理,包括一些公式的剔除,无关符号的剔除,如:~,%,<等;
S203:将处理好的文本内容按行存储在.txt文本中,得到预处理后的地质报告文本。
步骤S102具体包括:对所述预处理后的地质报告文本,加入预先设计好的地质文本词典,通过不引用和引用停用词词典分别实现粗粒度地质报告文本的分词和精细化地质报告文本的分词,并将粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果均以.txt格式输出;所述预先设计好的地质文本词典包含通用词典内容以及地质专业术语内容;所述停用词词典内容包含如:的,了,我,你,···等词语。
步骤S103具体包括:针对S102中粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果:
首先进行词频统计,通过统计每个词语在地质报告文本中出现的次数,获取地质报告文本关键词信息;词频统计公式如公式(1)所示:
ni=Word(wi) (1)
上式中,Word为统计函数,wi为第i个词语的表示,ni为词语wi在地质报告文本中出现的次数;
然后,将获得的精细化地质报告文本的分词结果中的每个词的词频数除以地质报告文本总词数,得到标准化的词频(TF);其公式如公式(2)所示:
上式中,f(wi)为词语wi在地质报告文本中出现的次数,len(total(words))表示地质报告文本总词数;
同时,考虑到同一地区可能有多份相关内容的地质矿床报告文档,引入了逆文档频率(IDF)(如公式(3)所示),通过TF-IDF的关键词计算(如公式(4)所示),能够排除地质文本内容长短和多份相关内容文档的影响,得到第一关键词提取结果:
TF-IDF=TF*IDF (4)
上式中,log表示对得到的值取对数,len(doc)为地质报告文档总数,len(doc(wi))为包含词语wi的文档数目。如果一个词越常见,那么分母就越大,IDF就越小,越接近于0。分母之所以要加1,是为了避免分母为0,即所有文档都不包含该词。
步骤S104中,利用改进的TF-TDF技术进行关键词信息提取具体为:针对地质报告文本中专有名词词长的影响,对TF-IDF关键词提取技术进行了改进,即对S103中第一关键词提取结果的关键词进行词长统计,并与TF-IDF的结果相加,得到第二关键词提取结果;改进后的关键词提取技术公式如公式(5):
其中,Score(wi)为最终的地质报告文本关键词提取的得分,len(wi)表示第i个词语wi的词长,max(len(words))表示地质报告文本最长的词语长度。
步骤S105中,共现矩阵的计算规则如下,即计算每个词语在给定词语的特定大小窗口范围内出现的次数,例如,给定的地质文本分词后的语料库如下:鞍山市/黑石砬子/铁矿床,黑石砬子/铁矿床/补充/勘探。窗口大小设置为1,则得到如下共现矩阵:
鞍山市 | 黑石砬子 | 铁矿床 | 补充 | 勘探 | |
鞍山市 | 0 | 1 | 0 | 0 | 0 |
黑石砬子 | 0 | 0 | 2 | 0 | 0 |
铁矿床 | 0 | 0 | 0 | 1 | 0 |
补充 | 0 | 0 | 0 | 0 | 1 |
勘探 | 0 | 0 | 0 | 0 | 0 |
则共现矩阵为:
步骤S106具体包括:首先所述词频统计结果以柱状条形图和词云形式展示,其结果如图2(a)、图2(b)和图3所示,所述第一关键词提取结果和第二关键词提取结果分别以柱状条形图进行可视化展示,如图4(a)和图4(b)所示,可以发现改进后的TF-IDF关键词提取更能突出一些地质类专业词汇。
其次,利用S105中获得的共现矩阵实现语义相似性的度量,主要分析了地质文本词语的中心性,如图5所示,采用了紧密度中心性概念,假设节点x和y之间的距离用d(x,y)表示,距离可以定义为节点x和y的最短路径长度,在非带权网络中的计算式如公式(6):
其中,N表示节点数。在本发明中,采用了带权中心性分析,权重为两两词语之间共现的次数。
最后,在不同的粒度下进行了关键词分析,如图6所示。最终,实现了地质文本的信息充分挖掘和可视化展示流程。
本发明的有益效果是:本发明提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,该方法分别从地质报告关键词提取、中心性分析等进行了可视化展示,对工程报告类文本的可视化具有较高的适用性和参考价值。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:包括以下步骤:
S101:获取研究区域的地质报告,并对所述地质报告进行预处理,得到预处理后的地质报告文本;
S102:将所述预处理后的地质报告文本,分别加入地质文本词典和停用词词典后进行分词,得到分词处理后的地质报告文本;
S103:将所述分词处理后的地质报告文本,分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取,得到词频统计结果和TF-IDF关键词提取结果;其中,TF-IDF关键词提取结果作为第一关键词提取结果;
S104:将所述分词处理后的地质报告文本,利用改进的TF-IDF关键词提取技术进行关键词信息提取,得到第二关键词提取结果;
S105:考虑到相邻词语间的相关性,统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数,并将统计结果转化为共现矩阵;
S106:将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化,并利用所述共现矩阵实现语义相似性的度量,实现了地质文本信息的充分挖掘。
2.如权利要求1所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:步骤S101中,预处理包括:
S201:实现地质报告文本格式的转换,将地质报告.pdf格式转化为.txt格式,并去除地质报告中的图件和表格内容;
S202:将文本内容进行剔除噪声的处理,包括公式的剔除和无关符号的剔除;所述无关符号包括:~,%和<;
S203:将处理好的文本内容按行存储在.txt文本中,得到预处理后的地质报告文本。
3.如权利要求2所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:步骤S102具体包括:对所述预处理后的地质报告文本,加入预先设计好的地质文本词典,通过不引用和引用停用词词典分别实现粗粒度地质报告文本的分词和精细化地质报告文本的分词,并将粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果均以.txt格式输出。
4.如权利要求3所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:步骤S103具体包括:针对S102中粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果:首先进行词频统计,通过统计每个词语在地质报告文本中出现的次数,获取地质报告文本关键词信息;然后,将获得的精细化地质报告文本的分词结果中的每个词的词频数除以地质报告文本总词数,得到标准化的词频;同时,考虑到同一地区可能有多份相关内容的地质矿床报告文档,引入了逆文档频率,通过TF-IDF的关键词计算,排除地质文本内容长短和多份相关内容文档的影响,得到第一关键词提取结果。
5.如权利要求4所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:步骤S104中,利用改进的TF-TDF技术进行关键词信息提取具体为:针对地质报告文本中专有名词词长的影响,对TF-IDF关键词提取技术进行了改进,即对S103中-第一关键词提取结果进行词长统计,并与TF-IDF的结果相加,得到第二关键词提取结果。
6.如权利要求5所述的一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:步骤S106具体包括:首先所述词频统计结果以柱状条形图和词云形式展示,所述第一关键词提取结果和所述第一关键词提取结果分别以柱状条形图进行可视化展示;其次,利用S105中获得的共现矩阵实现语义相似性的度量,分析地质文本词语的中心性,并根据不同的粒度进行了关键词分析,实现了地质文本的信息充分挖掘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011111355.XA CN112199926B (zh) | 2020-10-16 | 基于文本挖掘和自然语言处理的地质报告文本可视化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011111355.XA CN112199926B (zh) | 2020-10-16 | 基于文本挖掘和自然语言处理的地质报告文本可视化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199926A true CN112199926A (zh) | 2021-01-08 |
CN112199926B CN112199926B (zh) | 2024-05-10 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732934A (zh) * | 2021-01-11 | 2021-04-30 | 国网山东省电力公司电力科学研究院 | 电网设备分词词典和故障案例库构建方法 |
CN113468317A (zh) * | 2021-06-26 | 2021-10-01 | 北京网聘咨询有限公司 | 一种简历筛选方法、系统、设备和存储介质 |
CN114581556A (zh) * | 2022-03-10 | 2022-06-03 | 青海省地质调查院 | 一种区域地质调查中的数字填图方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050278325A1 (en) * | 2004-06-14 | 2005-12-15 | Rada Mihalcea | Graph-based ranking algorithms for text processing |
KR101505546B1 (ko) * | 2014-04-11 | 2015-03-26 | 고려대학교 산학협력단 | 텍스트 마이닝을 이용한 키워드 도출 방법 |
US20160350283A1 (en) * | 2015-06-01 | 2016-12-01 | Information Extraction Systems, Inc. | Apparatus, system and method for application-specific and customizable semantic similarity measurement |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
US20170177590A1 (en) * | 2015-12-18 | 2017-06-22 | Qbeats Inc. | Natural classification of content using unsupervised learning |
CN107862070A (zh) * | 2017-11-22 | 2018-03-30 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109902302A (zh) * | 2019-03-01 | 2019-06-18 | 郑敏杰 | 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 |
CN110059319A (zh) * | 2019-04-22 | 2019-07-26 | 上海化学工业区公共管廊有限公司 | 一种基于关键词共现的管廊故障分析方法 |
US20190258939A1 (en) * | 2018-02-22 | 2019-08-22 | Salesforce.Com, Inc. | Question Answering From Minimal Context Over Documents |
US20190349321A1 (en) * | 2018-05-10 | 2019-11-14 | Royal Bank Of Canada | Machine natural language processing for summarization and sentiment analysis |
CN110457681A (zh) * | 2019-07-11 | 2019-11-15 | 中国地质大学(武汉) | 一种基于深度学习的无监督地质实体提取方法 |
CN110795932A (zh) * | 2019-09-30 | 2020-02-14 | 中国地质大学(武汉) | 基于地质本体的地质报告文本信息提取方法 |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050278325A1 (en) * | 2004-06-14 | 2005-12-15 | Rada Mihalcea | Graph-based ranking algorithms for text processing |
KR101505546B1 (ko) * | 2014-04-11 | 2015-03-26 | 고려대학교 산학협력단 | 텍스트 마이닝을 이용한 키워드 도출 방법 |
US20160350283A1 (en) * | 2015-06-01 | 2016-12-01 | Information Extraction Systems, Inc. | Apparatus, system and method for application-specific and customizable semantic similarity measurement |
WO2017084267A1 (zh) * | 2015-11-18 | 2017-05-26 | 乐视控股(北京)有限公司 | 一种关键词提取方法和装置 |
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
US20170177590A1 (en) * | 2015-12-18 | 2017-06-22 | Qbeats Inc. | Natural classification of content using unsupervised learning |
CN107862070A (zh) * | 2017-11-22 | 2018-03-30 | 华南理工大学 | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 |
US20190258939A1 (en) * | 2018-02-22 | 2019-08-22 | Salesforce.Com, Inc. | Question Answering From Minimal Context Over Documents |
US20190349321A1 (en) * | 2018-05-10 | 2019-11-14 | Royal Bank Of Canada | Machine natural language processing for summarization and sentiment analysis |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109902302A (zh) * | 2019-03-01 | 2019-06-18 | 郑敏杰 | 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质 |
CN110059319A (zh) * | 2019-04-22 | 2019-07-26 | 上海化学工业区公共管廊有限公司 | 一种基于关键词共现的管廊故障分析方法 |
CN110457681A (zh) * | 2019-07-11 | 2019-11-15 | 中国地质大学(武汉) | 一种基于深度学习的无监督地质实体提取方法 |
CN110795932A (zh) * | 2019-09-30 | 2020-02-14 | 中国地质大学(武汉) | 基于地质本体的地质报告文本信息提取方法 |
CN111709235A (zh) * | 2020-05-28 | 2020-09-25 | 上海发电设备成套设计研究院有限责任公司 | 一种基于自然语言处理的文本数据统计分析系统及方法 |
Non-Patent Citations (14)
Title |
---|
HOUEN LI, ZHICHENG LI, ZHUYI RAO: "Text mining strategy of power customer service work order based on natural language processing technology", AUTOMATION AND SYSTEMS (ICICAS), 31 December 2019 (2019-12-31) * |
吕皓;周晓纪;: "基于主题模型的技术预见文本分析", 情报探索 * |
吕皓;周晓纪;: "基于主题模型的技术预见文本分析", 情报探索, no. 10, 31 October 2018 (2018-10-31), pages 56 - 63 * |
吴亮;: "一种改进的最大匹配分词算法研究", 现代商贸工业, no. 09, pages 303 - 304 * |
姚梦辉, 刘军旗, 封瑞雪, 陈根深, 赵剑雄: "地质灾害信息存储技术及检索方法", 计算机系统应用, no. 06, 28 May 2018 (2018-05-28), pages 211 - 215 * |
姚梦辉;刘军旗;封瑞雪;陈根深;赵剑雄;: "地质灾害信息存储技术及检索方法", 计算机系统应用 * |
朱巧;: "基于词频统计的文本可视化实现", 软件, no. 11, 15 November 2016 (2016-11-15) * |
李静;刘海砚;杨瑞杰;郭文月;杨明远;: "基于论文中高频关键词的GIS领域研究热点的可视化分析", 测绘工程, no. 08, 25 August 2017 (2017-08-25) * |
池云仙;赵书良;罗燕;高琳;赵骏鹏;李超;: "基于词频统计规律的文本数据预处理方法", 计算机科学, no. 10, 15 October 2017 (2017-10-15) * |
王斌;韩健;岳鹏;张立海;王胜海;: "大数据环境下全国地质钻孔信息服务系统建设框架", 中国矿业, no. 05, 15 May 2018 (2018-05-15) * |
陈俊宇;郑列;: "基于R语言的商品评论情感可视化分析", 湖北工业大学学报, no. 01, 15 February 2020 (2020-02-15) * |
陈健;李宏伟;周德秀;: "基于关键词聚类技术的主题地图构建研究――以地理信息可视化领域为例", 测绘与空间地理信息 * |
陈健;李宏伟;周德秀;: "基于关键词聚类技术的主题地图构建研究――以地理信息可视化领域为例", 测绘与空间地理信息, no. 05, 25 October 2010 (2010-10-25), pages 115 - 120 * |
高楠;李利娟;李伟;祝建明;: "融合语义特征的关键词提取方法", 计算机科学, no. 03, pages 110 - 115 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732934A (zh) * | 2021-01-11 | 2021-04-30 | 国网山东省电力公司电力科学研究院 | 电网设备分词词典和故障案例库构建方法 |
CN112732934B (zh) * | 2021-01-11 | 2022-05-27 | 国网山东省电力公司电力科学研究院 | 电网设备分词词典和故障案例库构建方法 |
CN113468317A (zh) * | 2021-06-26 | 2021-10-01 | 北京网聘咨询有限公司 | 一种简历筛选方法、系统、设备和存储介质 |
CN113468317B (zh) * | 2021-06-26 | 2024-03-08 | 北京网聘信息技术有限公司 | 一种简历筛选方法、系统、设备和存储介质 |
CN114581556A (zh) * | 2022-03-10 | 2022-06-03 | 青海省地质调查院 | 一种区域地质调查中的数字填图方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Information extraction and knowledge graph construction from geoscience literature | |
CN102662952B (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
Rousseau et al. | Main core retention on graph-of-words for single-document keyword extraction | |
CN103207905B (zh) | 一种基于目标文本的计算文本相似度的方法 | |
EP3614275A1 (en) | Indexing using machine learning techniques | |
CN103593418B (zh) | 一种面向大数据的分布式主题发现方法及系统 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
JP2009093653A (ja) | ユーザ入力に応じた検索空間の絞り込み | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
CN101149739A (zh) | 一种面向互联网的有意义串的挖掘方法和系统 | |
Wang et al. | Visual analytics and information extraction of geological content for text-based mineral exploration reports | |
CN111143547A (zh) | 一种基于知识图谱的大数据显示方法 | |
Ma et al. | Text visualization for geological hazard documents via text mining and natural language processing | |
JP5324677B2 (ja) | 類似文書検索支援装置及び類似文書検索支援プログラム | |
CN111651675B (zh) | 一种基于ucl的用户兴趣主题挖掘方法及装置 | |
CN112199926B (zh) | 基于文本挖掘和自然语言处理的地质报告文本可视化方法 | |
CN112199926A (zh) | 基于文本挖掘和自然语言处理的地质报告文本可视化方法 | |
Sailaja et al. | An overview of pre-processing text clustering methods | |
CN110930189A (zh) | 基于用户行为的个性化营销方法 | |
CN111709239A (zh) | 一种基于专家逻辑结构树的地学数据发现方法 | |
Ye et al. | Research on web page classification method based on query log | |
Taher et al. | Information Retrieval Scheme Via Similarity Technique | |
Zhang et al. | A New Machine-Learning Extracting Approach to Construct a Knowledge Base: A Case Study on Global Stromatolites over Geological Time | |
Razzaqe et al. | Text mining in unstructured text: techniques, methods and analysis | |
Supiadin et al. | Evaluating LDA and LSA for Topic Modeling in the Indonesian Natural Disaster |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |