CN106599041A - 基于大数据平台的文本处理及检索系统 - Google Patents
基于大数据平台的文本处理及检索系统 Download PDFInfo
- Publication number
- CN106599041A CN106599041A CN201610976155.8A CN201610976155A CN106599041A CN 106599041 A CN106599041 A CN 106599041A CN 201610976155 A CN201610976155 A CN 201610976155A CN 106599041 A CN106599041 A CN 106599041A
- Authority
- CN
- China
- Prior art keywords
- text
- module
- word
- processing
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000007405 data analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据平台的文本处理及检索系统,其包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分;基于Hadoop的文本处理部分包括文本抽取模块等;基于Hadoop分布式检索功能部分包括语义标注模块、基于分布式内存共享检索模块。本发明能够对不同格式、不同编码的文本数据进行文本处理;对文本进行内容抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要、文本聚类、自动分类的更全面的文本处理操作,充分挖掘文本数据所包含的信息和价值;文本处理结果可以通过服务接口的形式发布出去,提高了系统的交互性和扩展性;采用基于分布式内存共享的全文检索技术,提高文本处理后全文检索的效率。
Description
技术领域
本发明涉及一种计算机信息处理系统,特别是涉及一种基于大数据平台的文本处理及检索系统。
背景技术
数据的爆炸性增长是信息时代最典型的特征。国际互联网数据中心(InternetData Center,IDC)的研究报告指出,2011年全球已有1.8ZB(即1.8万亿GB)数据创建产生。这相当于每位美国人每分钟写3条Tweet(“推特”上的留言),并且还是不停地写2.7万年。Google数据中心的服务器规模以达数百万台,每天处理的数据量超过100PB。这样的大数据中包括大量结构化和非结构化数据,尤其是以文本等为代表的非结构化数据,处理海量数据的两个关键问题就是海量数据的存储和计算问题,传统的文本处理系统在这两个方面都不能满足海量网络文本处理的需求。如何从海量数据中分析和挖掘潜在的价值已经成为大数据研究的重点。
基于大数据平台的文本处理及检索系统围绕着基于Hadoop(海杜普,Hadoop是一个由Apache基金会所开发的分布式系统基础架构)平台下的网络文本处理展开,研究的内容包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分构建。其中基于Hadoop一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,主要有创建索引、实体识别、提取关键词、文本自动摘要、文本聚类和自动分类等操作过程,而这些过程的实现均需要进行文本处理。为了解决效率和安全的问题,同时考虑到现有的软件、硬件资源情况,决定将系统的文本处理部分移植到Hadoop分布式计算机平台中。Hadoop平台可将处理程序分发到不同的计算节点实现分布式处理,然后将化理的结果统一地在Hadoop分布式文件系统——HDFS中进行管理。所以基于大数据平台文本处理系统需要解决文本抽取、文本分词、创建索引、实体识别、提取关键词、自动摘要、文本聚类和自动分类等多方面的问题。基于Hadoop分布式检索功能部分构建介绍基于Hadoop平台下检索相关的技术。首先实现了对Lucene(全文搜索引擎)功能的扩展,使Lucene能支持对HDFS文件系统的读写。其次,实现了二个MapReduce(一种编程模型,用于大规模数据集的并行运算)类,一个完成分布式的分词功能,另一个完成建立倒排索引功能。
现有的发明专利中,“面向数据挖掘的文本处理系统及方法”专利(中国专利申请号201510638674.9、2015.09.29),描述了文本处理的方法,仅针对文本类数据的数据挖掘,包括索引建立、实体识别、关键词提取、自动摘要和自动分类等操作过程,而这些过程的实现均需要进行文本处理,虽然其文本处理方法比较详细,但是其仅仅涉及了文本处理方法,并未将文本处理方法跟大数据相结合,具有一定的局限性。“一种基于语义的大数据分析系统”专利(中国专利公开号为:CN104281697A、2015.01.14),介绍了一种基于语义的大数据分析系统,包括数据采集入库部件、实时数据流处理部件、实时数据流处理部件、存储体系部件和底层支持部件。该发明实现基于web的大数据分析,其底层支持部件中涉及的文本处理和检索相关的事务可以进一步提升。“一种基于语义的大数据分析商业智能服务系统”专利(中国专利公开号为:CN104182389A、2014.12.03),介绍了一种基于语义的大数据分析商业智能服务系统,实现了对互联网富含的商业信息地精准分析,可以方便快捷的为中小型企业提供商业智能服务,但是其在文本分词、词性标注、实体识别等方面,限制了对文本处理的能力。
发明内容
本发明所要解决的技术问题是提供一种基于大数据平台的文本处理及检索系统,其能够提供丰富的文本处理技术,包括文本抽取、文本分词、创建索引、实体识别、提取关键词、自动摘要、文本聚类和自动分类;基于大数据分析技术,充分分析和挖掘文本的内在信息和体现的重要价值;将文本处理技术和大数据分析技术进行结合,有效的提高文本处理的效率和准确度;提供基于分布式内容共享的全文检索技术,提高本文的检索效率。
本发明是通过下述技术方案来解决上述技术问题的:一种基于大数据平台的文本处理及检索系统,其特征在于,其包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分;
所述基于Hadoop的文本处理部分包括:
文本抽取模块,接收外部文本文件;
文本分词模块,接收来自文本抽取模块的文本内容;
索引建立模块,根据文本分词模块所提供的分词结果建立文本内容的索引文件,为服务接口模块提供索引文件;
实体识别模块,针对来自文本分词模块的分词结果,识别出文本内容中的实体词,并输出给服务接口模块;
关键词提取模块,接收文本分词模块的分词结构,提取文本内容中的关键词,并输出给服务接口模块;
自动摘要模块,根据文本分词模块所得到的分词结果以及上下文结构,进行自动的摘要生成,并将生成的文本内容摘要输出给服务接口模块;
文本聚类模块,根据自动聚类功能是通过在文档的处理过程中,自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;
自动分类模块,根据文本分词模块所输出的分词结构,按照预先定义的主体类别给文本内容确定一个类别,并将该分类结构输出给服务接口模块;
服务接口模块,分别接受来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果,并将这些结构分别以服务的形式发布出去,来提供其他系统调用相应的文本处理结果;
所述基于Hadoop分布式检索功能部分包括:
语义标注模块,对文本添加语义标注,利用标注信息和文本之间的关系,进行辅助检索;
基于分布式内存共享检索模块,将文本处理的结果存储到大数据平台中,并加载到内容中。
优选地,所述文件抽取模块接收外部文件时,首先判断其文件是否破损,若是则不再进行后续文本处理,否则再识别其文件格式,根据识别出的文件格式进行相应的文本抽取操作,为文本分词模块输出所抽取的文本内容。
优选地,所述文件分词模块接收文件抽取模块的文本内容后,先进行编码转换,转换成统一的编码格式后再进行繁简转换,然后经过文本分词模块进行分词和词性标注,并将带词性标注的分词结果分别传递给索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块。
优选地,所述文本聚类模块中的特征向量是由文档中出现的概念、关键词以及它出现的频率构成。
优选地,所述基于大数据平台的文本处理及检索系统采用如下工作流程:
步骤一,获取待处理的文本;
步骤二,表示从所述的文本结构、扩展名及内部标志位进行破损文件识别;
步骤三,识别结果判断文本是否损坏,若为破损文本,则执行步骤十三结束本次文本处理流程并提示用户文件已破损;否则,继续往下执行步骤四以下流程;
步骤四,对文本分词前进行预处理;
步骤五,对基于Lucene和Hadoop模式对文本内容进行文本分词操作,将所述的文本内容按词进行切分并进行词性标注;
步骤六,根据分词结果,对所述的文本内容建立索引并生成索引文件以提供给步骤十二进行结果输出;
步骤七,通过识别和分析步骤五的分词结果,自动抽取出时间和PLO的实体词信息;
步骤八,根据不同词性赋予不同的权重、同时考虑词的位置权重来提取出一定数量的关键词;
步骤九,中对文本内容和分词结果进行切分、排序,获取所述文本的句子序列和句子的词序列表达,然后计算词和句子的权重并对所述文本内容的所有句子按权重值高低降序排列,再经过以余弦距离为度量的相似性判断进行去重和整合,最后根据要求的长度范围输出所述文本内容的摘要结果;
步骤十,根据预先定义的分类体系以及经过训练得到的分类模型,对于文本分词结果进行特征向量表示,然后利用合适的分类算法将所述的文本与分类模型进行距离计算以求出其分类类别,最后将所述文本的分类类别;
步骤十一,将多个文档进行按照在文档的处理过程中,根据自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;
步骤十二,主要是将文本处理结果进行输出,并供其他系统进行调用;
步骤十三,表示结束本次流程。
本发明的积极进步效果在于:本发明能够对不同格式、不同编码的文本数据进行文本处理;对文本进行内容抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要、文本聚类、自动分类的更全面的文本处理操作,充分挖掘文本数据所包含的信息和价值;文本处理结果可以通过服务接口的形式发布出去,提高了系统的交互性和扩展性;采用基于分布式内存共享的全文检索技术,提高文本处理后全文检索的效率。
附图说明
图1为基于大数据平台的文本处理及检索系统框图。
图2为文本处理流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明实施例所提供的基于大数据平台的文本处理及检索系统101包括文本抽取模块102、文本分词模块103、索引建立模块104,、实体识别模块105,、关键词提取模块106、自动摘要模块107、文本聚类模块108、自动分类模块109、服务接口模块110、语义标注模块111和基于分布式内存共享检索模块112;
文本抽取模块102接收外部文本文件,首先判断其文件是否破损,若是则不再进行后续文本处理,否则再识别其文件格式,根据识别出的文件格式进行相应的文本抽取操作,为文本分词模块103输出所抽取的文本内容;
文本分词模块103接收来自文本抽取模块102的文本内容后,先进行编码转换,转换成统一的编码格式后再进行繁简转换,然后经过文本分词模块103进行分词和词性标注,并将带词性标注的分词结果分别传递给索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块109;
索引建立模块104根据文本分词模块103所提供的分词结果建立文本内容的索引文件,为服务接口模块110提供索引文件;
实体识别模块105针对来自文本分词模块103的分词结果,识别出文本内容中的实体词,并输出给服务接口模块110;
关键词提取模块106接收文本分词模块103的分词结构,提取文本内容中的关键词,并输出给服务接口模块110;
自动摘要模块107根据文本分词模块103所得到的分词结果以及上下文结构,进行自动的摘要生成,并将生成的文本内容摘要输出给服务接口模块110;
文本聚类模块108根据自动聚类功能是通过在文档的处理过程中,自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;
自动分类模块109根据文本分词模块所输出的分词结构,按照预先定义的主体类别给文本内容确定一个类别,并将该分类结构输出给服务接口模块110;
服务接口模块110分别接受来自索引建立模块104、实体识别模块105、关键词提取模块106、自动摘要模块107、自动分类模块109的输出结果,并将这些结构分别以服务的形式发布出去,来提供其他系统调用相应的文本处理结果;
语义标注模块111对文本添加语义标注,利用标注信息和文本之间的关系,进行辅助检索,提供检索效率;
基于分布式内存共享检索模块112将文本处理的结果存储到大数据平台中,并加载到内容中,在检索的时候提高检索的效率。
图2为本发明实施例提供的文本处理流程,即本发明基于大数据平台的文本处理及检索系统采用如下工作流程:
步骤201为获取待处理的文本;所述文本主要是单篇文本,其存储格式可以是Office、PDF、TXT、XML、HTML中的任何文档格式;当有多篇文档时,所述文本处理系统可以通过循环执行该文本处理流程以获取文本处理结果;
步骤202表示从所述的文本结构、扩展名及内部标志位等方面进行破损文件识别;
步骤203识别结果判断文本是否损坏,若为破损文本,则执行步骤213结束本次文本处理流程并提示用户文件已破损;否则,继续往下执行步骤204以下文本处理流程;
步骤204是对文本分词前进行预处理,包括格式识别、文本抽取、编码转换和繁简转换;其中格式识别主要包括根据文本扩展名和标识符等来识别文本格式,即判断所述文本为TXT、Word、PPT、Excel或PDF中的文档格式;文本抽取进行相应的文本抽取操作,抽取出所述文本中的文本内容,以供后续的文本处理操作所使用;编码转换将所抽取的文本内容进行编码转换;繁简转换将文本内容进行繁简转换,中文繁体字统一转换为中文简体字;
步骤205对基于Lucene和Hadoop模式对文本内容进行文本分词操作,将所述的文本内容按词进行切分并进行词性标注;
步骤206根据分词结果,对所述的文本内容建立索引并生成索引文件以提供给步骤212进行结果输出;
步骤207通过识别和分析步骤205的分词结果,自动抽取出时间和PLO(人名、地名和机构名)的实体词信息;
步骤208根据不同词性赋予不同的权重、同时考虑词的位置权重等综合评价标准来提取出一定数量的关键词;
步骤209中对文本内容和分词结果进行切分、排序,获取所述文本的句子序列和句子的词序列表达,然后计算词和句子的权重并对所述文本内容的所有句子按权重值高低降序排列,再经过以余弦距离为度量的相似性判断进行去重和整合,最后根据要求的长度范围输出所述文本内容的摘要结果;
步骤210中根据预先定义的分类体系以及经过训练得到的分类模型,对于文本分词结果进行特征向量表示,然后利用合适的分类算法将所述的文本与分类模型进行距离计算以求出其分类类别,最后将所述文本的分类类别;
步骤211将多个文档进行按照在文档的处理过程中,根据自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;
步骤212主要是将文本处理结果进行输出,并可以供其他系统进行调用;
步骤213表示结束本次文本处理流程。
综上所述,本发明能够对不同格式、不同编码的文本数据进行文本处理;对文本进行内容抽取、文本分词、索引建立、实体识别、关键词提取、自动摘要、文本聚类、自动分类的更全面的文本处理操作,充分挖掘文本数据所包含的信息和价值;文本处理结果可以通过服务接口的形式发布出去,提高了系统的交互性和扩展性;采用基于分布式内存共享的全文检索技术,提高文本处理后全文检索的效率。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于大数据平台的文本处理及检索系统,其特征在于,所述基于大数据平台的文本处理及检索系统包括基于Hadoop的文本处理部分和基于Hadoop分布式检索功能部分;
所述基于Hadoop的文本处理部分包括:
文本抽取模块,接收外部文本文件;
文本分词模块,接收来自文本抽取模块的文本内容;
索引建立模块,根据文本分词模块所提供的分词结果建立文本内容的索引文件,为服务接口模块提供索引文件;
实体识别模块,针对来自文本分词模块的分词结果,识别出文本内容中的实体词,并输出给服务接口模块;
关键词提取模块,接收文本分词模块的分词结构,提取文本内容中的关键词,并输出给服务接口模块;
自动摘要模块,根据文本分词模块所得到的分词结果以及上下文结构,进行自动的摘要生成,并将生成的文本内容摘要输出给服务接口模块;
文本聚类模块,根据自动聚类功能是通过在文档的处理过程中,自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;
自动分类模块,根据文本分词模块所输出的分词结构,按照预先定义的主体类别给文本内容确定一个类别,并将该分类结构输出给服务接口模块;
服务接口模块,分别接受来自索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块的输出结果,并将这些结构分别以服务的形式发布出去,来提供其他系统调用相应的文本处理结果;
所述基于Hadoop分布式检索功能部分包括:
语义标注模块,对文本添加语义标注,利用标注信息和文本之间的关系,进行辅助检索;
基于分布式内存共享检索模块,将文本处理的结果存储到大数据平台中,并加载到内容中。
2.根据权利要求1所述的基于大数据平台的文本处理及检索系统,其特征在于,所述文件抽取模块接收外部文件时,首先判断其文件是否破损,若是则不再进行后续文本处理,否则再识别其文件格式,根据识别出的文件格式进行相应的文本抽取操作,为文本分词模块输出所抽取的文本内容。
3.根据权利要求1所述的基于大数据平台的文本处理及检索系统,其特征在于,所述文件分词模块接收文件抽取模块的文本内容后,先进行编码转换,转换成统一的编码格式后再进行繁简转换,然后经过文本分词模块进行分词和词性标注,并将带词性标注的分词结果分别传递给索引建立模块、实体识别模块、关键词提取模块、自动摘要模块、自动分类模块。
4.根据权利要求1所述的基于大数据平台的文本处理及检索系统,其特征在于,所述文本聚类模块中的特征向量是由文档中出现的概念、关键词以及它出现的频率构成。
5.根据权利要求1所述的基于大数据平台的文本处理及检索系统,其特征在于,所述基于大数据平台的文本处理及检索系统采用如下工作流程:
步骤一,获取待处理的文本;
步骤二,表示从所述的文本结构、扩展名及内部标志位进行破损文件识别;
步骤三,识别结果判断文本是否损坏,若为破损文本,则执行步骤十三结束本次文本处理流程并提示用户文件已破损;否则,继续往下执行步骤四以下流程;
步骤四,对文本分词前进行预处理;
步骤五,对基于Lucene和Hadoop模式对文本内容进行文本分词操作,将所述的文本内容按词进行切分并进行词性标注;
步骤六,根据分词结果,对所述的文本内容建立索引并生成索引文件以提供给步骤十二进行结果输出;
步骤七,通过识别和分析步骤五的分词结果,自动抽取出时间和PLO的实体词信息;
步骤八,根据不同词性赋予不同的权重、同时考虑词的位置权重来提取出一定数量的关键词;
步骤九,中对文本内容和分词结果进行切分、排序,获取所述文本的句子序列和句子的词序列表达,然后计算词和句子的权重并对所述文本内容的所有句子按权重值高低降序排列,再经过以余弦距离为度量的相似性判断进行去重和整合,最后根据要求的长度范围输出所述文本内容的摘要结果;
步骤十,根据预先定义的分类体系以及经过训练得到的分类模型,对于文本分词结果进行特征向量表示,然后利用合适的分类算法将所述的文本与分类模型进行距离计算以求出其分类类别,最后将所述文本的分类类别;
步骤十一,将多个文档进行按照在文档的处理过程中,根据自动生成文档的特征向量,根据特征向量,将相似的文档聚合归类;
步骤十二,主要是将文本处理结果进行输出,并供其他系统进行调用;
步骤十三,表示结束本次流程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610976155.8A CN106599041A (zh) | 2016-11-07 | 2016-11-07 | 基于大数据平台的文本处理及检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610976155.8A CN106599041A (zh) | 2016-11-07 | 2016-11-07 | 基于大数据平台的文本处理及检索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106599041A true CN106599041A (zh) | 2017-04-26 |
Family
ID=58589728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610976155.8A Pending CN106599041A (zh) | 2016-11-07 | 2016-11-07 | 基于大数据平台的文本处理及检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599041A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590270A (zh) * | 2017-09-26 | 2018-01-16 | 南京哈卢信息科技有限公司 | 一种快速数据分析而生文本格式的方法 |
CN107908642A (zh) * | 2017-09-29 | 2018-04-13 | 江苏华通晟云科技有限公司 | 基于分布式平台的行业文本实体提取方法 |
CN108491324A (zh) * | 2018-03-12 | 2018-09-04 | 威创集团股份有限公司 | 一种软件中的目标词汇搜索方法及装置 |
CN109032780A (zh) * | 2018-07-10 | 2018-12-18 | 广州极天信息技术股份有限公司 | 一种语义网服务接口装置 |
CN109492100A (zh) * | 2018-10-31 | 2019-03-19 | 武汉雨滴科技有限公司 | 一种非结构信息处理与资源管理系统 |
CN110069623A (zh) * | 2017-12-06 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置、存储介质和计算机设备 |
CN110096478A (zh) * | 2019-05-09 | 2019-08-06 | 中国联合网络通信集团有限公司 | 文档索引生成方法及设备 |
CN110750696A (zh) * | 2019-10-29 | 2020-02-04 | 贵州电网有限责任公司 | 一种文档聚类检索系统 |
US10586071B2 (en) | 2017-11-24 | 2020-03-10 | International Business Machines Corporation | Safeguarding confidential information during a screen share session |
CN111274792A (zh) * | 2020-01-20 | 2020-06-12 | 中国银联股份有限公司 | 一种用于生成文本的摘要的方法及系统 |
CN111400369A (zh) * | 2020-03-06 | 2020-07-10 | 湖南城市学院 | 一种基于大数据分析的政策信息服务系统及方法 |
CN111797225A (zh) * | 2020-06-16 | 2020-10-20 | 北京北大软件工程股份有限公司 | 一种文本摘要生成方法和装置 |
CN112052646A (zh) * | 2020-08-27 | 2020-12-08 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN112307205A (zh) * | 2020-10-22 | 2021-02-02 | 首都师范大学 | 基于自动摘要的文本分类方法、系统及计算机存储介质 |
CN112884440A (zh) * | 2021-03-02 | 2021-06-01 | 岭东核电有限公司 | 核电试验中的试验工序执行方法、装置和计算机设备 |
CN113377896A (zh) * | 2021-05-19 | 2021-09-10 | 朗新科技集团股份有限公司 | 全文快速检索方法、装置、电子设备及存储介质 |
CN113822016A (zh) * | 2020-06-19 | 2021-12-21 | 阿里巴巴集团控股有限公司 | 文本数据处理方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073692A (zh) * | 2010-12-16 | 2011-05-25 | 北京农业信息技术研究中心 | 基于农业领域本体库的语义检索系统和方法 |
CN104317846A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种语义分析与标注方法及系统 |
CN105243130A (zh) * | 2015-09-29 | 2016-01-13 | 中国电子科技集团公司第三十二研究所 | 面向数据挖掘的文本处理系统及方法 |
-
2016
- 2016-11-07 CN CN201610976155.8A patent/CN106599041A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073692A (zh) * | 2010-12-16 | 2011-05-25 | 北京农业信息技术研究中心 | 基于农业领域本体库的语义检索系统和方法 |
CN104317846A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种语义分析与标注方法及系统 |
CN105243130A (zh) * | 2015-09-29 | 2016-01-13 | 中国电子科技集团公司第三十二研究所 | 面向数据挖掘的文本处理系统及方法 |
Non-Patent Citations (1)
Title |
---|
刘福岩主编: "第6.6节分布式共享存储器", 《计算机操作系统》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590270A (zh) * | 2017-09-26 | 2018-01-16 | 南京哈卢信息科技有限公司 | 一种快速数据分析而生文本格式的方法 |
CN107908642A (zh) * | 2017-09-29 | 2018-04-13 | 江苏华通晟云科技有限公司 | 基于分布式平台的行业文本实体提取方法 |
CN107908642B (zh) * | 2017-09-29 | 2021-11-12 | 江苏华通晟云科技有限公司 | 基于分布式平台的行业文本实体提取方法 |
US10586071B2 (en) | 2017-11-24 | 2020-03-10 | International Business Machines Corporation | Safeguarding confidential information during a screen share session |
US11455423B2 (en) | 2017-11-24 | 2022-09-27 | International Business Machines Corporation | Safeguarding confidential information during a screen share session |
US10956609B2 (en) | 2017-11-24 | 2021-03-23 | International Business Machines Corporation | Safeguarding confidential information during a screen share session |
CN110069623B (zh) * | 2017-12-06 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置、存储介质和计算机设备 |
CN110069623A (zh) * | 2017-12-06 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置、存储介质和计算机设备 |
CN108491324B (zh) * | 2018-03-12 | 2022-03-22 | 威创集团股份有限公司 | 一种软件中的目标词汇搜索方法及装置 |
CN108491324A (zh) * | 2018-03-12 | 2018-09-04 | 威创集团股份有限公司 | 一种软件中的目标词汇搜索方法及装置 |
CN109032780A (zh) * | 2018-07-10 | 2018-12-18 | 广州极天信息技术股份有限公司 | 一种语义网服务接口装置 |
CN109492100A (zh) * | 2018-10-31 | 2019-03-19 | 武汉雨滴科技有限公司 | 一种非结构信息处理与资源管理系统 |
CN109492100B (zh) * | 2018-10-31 | 2021-07-30 | 武汉雨滴科技有限公司 | 一种非结构信息处理与资源管理系统 |
CN110096478B (zh) * | 2019-05-09 | 2021-06-29 | 中国联合网络通信集团有限公司 | 文档索引生成方法及设备 |
CN110096478A (zh) * | 2019-05-09 | 2019-08-06 | 中国联合网络通信集团有限公司 | 文档索引生成方法及设备 |
CN110750696A (zh) * | 2019-10-29 | 2020-02-04 | 贵州电网有限责任公司 | 一种文档聚类检索系统 |
CN111274792A (zh) * | 2020-01-20 | 2020-06-12 | 中国银联股份有限公司 | 一种用于生成文本的摘要的方法及系统 |
CN111274792B (zh) * | 2020-01-20 | 2023-06-27 | 中国银联股份有限公司 | 一种用于生成文本的摘要的方法及系统 |
CN111400369A (zh) * | 2020-03-06 | 2020-07-10 | 湖南城市学院 | 一种基于大数据分析的政策信息服务系统及方法 |
CN111797225B (zh) * | 2020-06-16 | 2023-08-22 | 北京北大软件工程股份有限公司 | 一种文本摘要生成方法和装置 |
CN111797225A (zh) * | 2020-06-16 | 2020-10-20 | 北京北大软件工程股份有限公司 | 一种文本摘要生成方法和装置 |
CN113822016A (zh) * | 2020-06-19 | 2021-12-21 | 阿里巴巴集团控股有限公司 | 文本数据处理方法、装置、电子设备及可读存储介质 |
CN113822016B (zh) * | 2020-06-19 | 2024-03-22 | 阿里巴巴集团控股有限公司 | 文本数据处理方法、装置、电子设备及可读存储介质 |
CN112052646A (zh) * | 2020-08-27 | 2020-12-08 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN112052646B (zh) * | 2020-08-27 | 2024-03-29 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN112307205A (zh) * | 2020-10-22 | 2021-02-02 | 首都师范大学 | 基于自动摘要的文本分类方法、系统及计算机存储介质 |
CN112884440A (zh) * | 2021-03-02 | 2021-06-01 | 岭东核电有限公司 | 核电试验中的试验工序执行方法、装置和计算机设备 |
CN112884440B (zh) * | 2021-03-02 | 2024-05-24 | 岭东核电有限公司 | 核电试验中的试验工序执行方法、装置和计算机设备 |
CN113377896A (zh) * | 2021-05-19 | 2021-09-10 | 朗新科技集团股份有限公司 | 全文快速检索方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599041A (zh) | 基于大数据平台的文本处理及检索系统 | |
CN112199511B (zh) | 跨语言多来源垂直领域知识图谱构建方法 | |
WO2022022045A1 (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
CN109493977B (zh) | 文本数据处理方法、装置、电子设备及计算机可读介质 | |
CN101079024B (zh) | 一种专业词表动态生成系统和方法 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN105243130A (zh) | 面向数据挖掘的文本处理系统及方法 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和系统 | |
CN115809345A (zh) | 一种基于知识图谱的多源数据差异溯源检索方法 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN102955853B (zh) | 一种跨语言文摘的生成方法及装置 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
Weerasinghe et al. | Feature vector difference based neural network and logistic regression models for authorship verification | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及系统 | |
Hassan et al. | Automatic document topic identification using wikipedia hierarchical ontology | |
CN110019820A (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
CN115713085A (zh) | 文献主题内容分析方法及装置 | |
CN114298041A (zh) | 网络安全命名实体的识别方法及识别装置 | |
CN113449038A (zh) | 一种基于自编码器的矿山智能问答系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170426 |