CN112613317A - 一种文本数据清洗方法及装置 - Google Patents
一种文本数据清洗方法及装置 Download PDFInfo
- Publication number
- CN112613317A CN112613317A CN202011621579.5A CN202011621579A CN112613317A CN 112613317 A CN112613317 A CN 112613317A CN 202011621579 A CN202011621579 A CN 202011621579A CN 112613317 A CN112613317 A CN 112613317A
- Authority
- CN
- China
- Prior art keywords
- word
- event stream
- organization name
- cleaning
- cleaned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000008520 organization Effects 0.000 claims abstract description 102
- 230000007246 mechanism Effects 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 230000014759 maintenance of location Effects 0.000 claims description 9
- 238000005406 washing Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本数据清洗方法及装置,该方法包括:获取预设数量个待清洗机构名。对目标机构名进行分词操作,获得目标机构名的各个词;目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,将各个事件按照词的先后顺序进行排序,获得事件流。按照匹配规则表对事件流进行清洗,获得保留下来的事件流,进而确定保留下来的机构名。通过该方法,将待清洗机构名进行分词和词性标注,将其封装成事件流,并结合CEP模式对待清洗机构名清洗,解决了待清洗机构名噪声多的问题。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本数据清洗方法及装置。
背景技术
随着大数据发展,企业对文本数据处理的需要日益旺盛。从海量的文本数据中提取得到的机构名实体识别结果可用于构建信贷关系图谱、识别机构间风险传递等。
目前,通常采用角色标注、监督学习等手段实现从海量的文本数据中提取出机构名实体识别结果,但是获得的机构名实体识别结果中通常还含有大量的噪声信息,噪声信息的存在会给后续应用带来不好的影响。
因此,进一步对机构名实体识别结果这类文本数据进行清洗以得到准确的机构名是十分重要的。
发明内容
为了解决上述技术问题,本申请提供了一种文本数据清洗方法及装置,用于对初步得到的机构名实体识别结果进行进一步清洗以得到准确的机构名。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种文本数据清洗方法,该方法包括:
获取预设数量个待清洗机构名;
对目标机构名进行分词操作,获得所述目标机构名的各个词;所述目标机构名为所述待清洗机构名中的任意一个;
根据所述词性设定模式和所述自定义词库对所述目标机构名的各个词进行词性标注,获得所述目标机构名的各个词所对应的词性模式;
将所述目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个所述事件按照所述词的先后顺序进行排序,获得事件流;一个所述词性模式对应一个所述事件;
按照匹配规则表对所述事件流进行清洗,获得保留下来的事件流;
基于所述保留下来的事件流确定保留下来的机构名。
可选的,在所述获取预设数量个待清洗机构名之前,所述方法还包括:
设置所述匹配规则表;所述匹配规则表用于配置清洗规则对应的模式串和保留规则对应的模式串。
可选的,所述按照匹配规则表对所述事件流进行清洗,获得保留下来的事件流,包括:
按照匹配规则表判断所述事件流是否符合所述清洗规则对应的模式串;
对符合所述清洗规则对应的模式串的事件流进行清洗;
对不符合所述清洗规则对应的模式串的事件流进行保留;
获得保留下来的事件流。
可选的,在所述获取预设数量个待清洗机构名之前,所述方法还包括:
设置自定义词库;所述自定义词库包括实体后缀词。
本申请实施例还提供了一种文本数据清洗装置,该装置包括:
第一获取单元,用于获取预设数量个待清洗机构名;
分词单元,用于对目标机构名进行分词操作,获得所述目标机构名的各个词;所述目标机构名为所述待清洗机构名中的任意一个;
词性标注单元,用于根据所述词性设定模式和所述自定义词库对所述目标机构名的各个词进行词性标注,获得所述目标机构名的各个词所对应的词性模式;
第二获取单元,用于将所述目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个所述事件按照所述词的先后顺序进行排序,获得事件流;一个所述词性模式对应一个所述事件;
清洗单元,用于按照匹配规则表对所述事件流进行清洗,获得保留下来的事件流;
确定单元,用于基于所述保留下来的事件流确定保留下来的机构名。
可选的,所述装置还包括:
第一设置单元,用于在所述获取预设数量个待清洗机构名之前,设置所述匹配规则表;所述匹配规则表用于配置清洗规则对应的模式串和保留规则对应的模式串。
可选的,所述清洗单元包括:
判断子单元,用于按照匹配规则表判断所述事件流是否符合所述清洗规则对应的模式串;
清洗子单元,用于对符合所述清洗规则对应的模式串的事件流进行清洗;
保留子单元,用于对不符合所述清洗规则对应的模式串的事件流进行保留;
获取子单元,用于获得保留下来的事件流。
可选的,所述装置还包括:
第二设置单元,用于在所述获取预设数量个待清洗机构名之前,设置自定义词库;所述自定义词库包括实体后缀词。
通过上述技术方案可知,本申请具有以下有益效果:
本申请实施例提供了一种文本数据清洗方法及装置,该方法包括:获取预设数量个待清洗机构名。对目标机构名进行分词操作,获得目标机构名的各个词;目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个事件按照词的先后顺序进行排序,获得事件流;一个词性模式对应一个事件。按照匹配规则表对事件流进行清洗,获得保留下来的事件流。基于保留下来的事件流确定保留下来的机构名。通过该方法,将待清洗机构名进一步分词和二次词性标注,并按词性出现的先后顺序封装成事件流,并结合CEP模式实现对待清洗机构名的进一步清洗,解决了当前机构名实体识别结果噪声多、精度低的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本数据清洗方法的流程图;
图2为本申请实施例提供的一种文本数据清洗装置的示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为了便于理解和解释本申请实施例提供的技术方案,下面先对本申请实施例的背景技术进行说明。
随着大数据及自然语言处理相关技术的发展,企业对文本数据处理的需要越来越旺盛。在海量的文本信息中,通常蕴含了大量的人名、机构名等实体信息,从这些文本中提取这些实体信息具有重要价值。比如商业银行,可以从大量的档案、文本及行外的Web页面中,获取相关的机构实体信息,用于构建信贷关系图谱、识别机构间风险传递等信息。
当前机构名实体识别领域,通常采用角色标注、监督学习等手段实现从海量文本中识别其中的机构名实体信息,但是这些机构名实体识别结果中通常还包括大量的噪声信息,比如“3家集团”、“北京的公司”、“几家保险公司”、“一些公司”等。这些错误的机构名识别结果给后续应用带来影响,需要对获得的机构名识别结果进行进一步的清洗和精炼。
鉴于此,本申请实施例提供了一种文本数据清洗方法及装置,该方法包括:获取预设数量个待清洗机构名。对目标机构名进行分词操作,获得目标机构名的各个词;目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个事件按照词的先后顺序进行排序,获得事件流;一个词性模式对应一个事件。按照匹配规则表对事件流进行清洗,获得保留下来的事件流。基于保留下来的事件流确定保留下来的机构名。
参见图1,图1为本申请实施例提供的一种文本数据清洗方法的流程图。如图1所示,该方法可以包括S101-S106:
S101:获取预设数量个待清洗机构名。
获取预设数量个待清洗机构名。
需要说明的是,待清洗机构名即为获得的机构名实体识别结果。其中,实体识别结果也称为专名识别,是指识别文本数据中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。则机构名实体识别结果为其中一种。
机构名实体识别结果是从海量的文本数据中初步提取得到的。接下来要做的即为对待清洗机构名这类文本数据进行进一步的清洗。
可以理解的是,预设数量根据实际情况进行选取,这里对预设数量不做限定。
具体实施时,在获取预设数量个待清洗机构名之前,还包括:
设置匹配规则表;匹配规则表用于配置清洗规则对应的模式串和保留规则对应的模式串。具体的,根据匹配规则表中的清洗规则对应的模式串和保留规则对应的模式串可以确定待清洗机构名是否需要被清洗。
如表1所示,表1为待清洗机构名匹配规则表。
表1待清洗机构名匹配规则表
另外,在获取预设数量个待清洗机构名之前,方法还包括:
设置自定义词库;自定义词库包括实体后缀词。
具体实施时,在系统中设置自定义词库。比如将“公司”、“集团”等实体后缀词设置在该词库中。即自定义词库中设置的是后续分词组件中无法识别词性的词及其对应词性。
作为一种示例,任一个待清洗机构名设置一个停止标识,停止标识用于区分前后两个待清洗机构名。
S102:对目标机构名进行分词操作,获得目标机构名的各个词;目标机构名为待清洗机构名中的任意一个。
对目标机构名进行分词操作,获得目标机构名的各个词。其中,目标机构名为待清洗机构名中的任意一个。也就是说,对每个待清洗机构名均进行分词操作,获取每个待清洗机构名的各个词。
具体实施时,通过分词组件对待清洗机构名进行分词。需要说明的是,分词组件为能够将待清洗机构名按照词性进行分词的组件。可以理解的是,可根据实际情况进行分词组件的选取。
S103:根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。
获取目标机构名的各个词之后,根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。其中,词性标注为根据句子的上下文信息给句子中的每个词确定一个最为合适的词性标记。
具体实施时,词性设定模式可以从二次标注词性表中获取。如表2所示,表2为待清洗机构名二次标注词性表。其中,P、T、N、M分别代表地名、停词、数词和量词。F代表实体后缀词,按照自定义词库进行匹配,即自定义词库中的词所对应的模式均为F。
需要说明的是,P、T、N、M可通过分词组件,如hanlp,进行识别。
表2待清洗机构名二次标注词性表
S104:将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个事件按照词的先后顺序进行排序,获得事件流;一个词性模式对应一个事件。
在对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式之后,将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个事件按照词的先后顺序进行排序,获得事件流;一个词性模式对应一个事件。
具体的,将目标机构名的各个词所对应的词性模式转换成Flink的复杂事件处理CEP中的各个事件。其中,Flink为一种流处理框架,以数据并行和流水线方式执行任意流数据程序。复杂事件处理(Complex Event Processing,CEP)为一种基于动态环境中事件流的分析技术,事件这里指有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分析得到更复杂的复合事件。
需要说明的是,该事件流对应目标机构名,即任一个待清洗机构名。作为一种示例,事件流可以对应多个待清洗机构名,任一个待清洗机构名设置一个停止标识,停止标识用于区分前后两个待清洗机构名。
可以理解的是,将目标机构名的各个词所对应的词性模式生成Flink CEP事件,结合Flink复杂事件处理机制,可实现后续步骤中对无效、异常机构信息的清洗过滤,从而实现命名实体结果识别结果的精练。
另外,采用Flink复杂事件处理进行事件的匹配,支持流批一体处理,还支持分布式。
S105:按照匹配规则表对事件流进行清洗,获得保留下来的事件流。
生成事件流之后,结合Flink复杂事件处理机制,按照匹配规则表对事件流进行清洗,获得保留下来的事件流。
具体实施时,按照匹配规则表对事件流进行清洗,获得保留下来的事件流,包括:
按照匹配规则表判断事件流是否符合清洗规则对应的模式串;
对符合清洗规则对应的模式串的事件流进行清洗;
对不符合清洗规则对应的模式串的事件流进行保留;
获得保留下来的事件流。
需要说明的是,当事件流符合清洗规则对应的模式串时,对该事件流进行清洗,则该事件流所对应的待清洗机构名被过滤掉。当事件流符合保留规则对应的模式串,即不符合清洗规则对应的模式串时,对该事件流进行保留,则该事件流所对应的待清洗机构名被保留。具体的,清洗规则对应的模式串和保留规则对应的模式串参见表1。例如,若待清洗机构名为“一个公司”,该待清洗机构名所对应的事件流为NMF。则符合表1中的第三条清洗规则对应的模式串(NM:出现数量词组合),则需要清洗掉该事件流。
S106:基于保留下来的事件流确定保留下来的机构名。
当所有的预设数量个待清洗机构名对应的事件流均根据匹配规则表进行匹配处理后,基于保留下来的事件流确定保留下来的机构名。
通过本申请实施例提供的一种文本数据清洗方法,获取预设数量个待清洗机构名。对目标机构名进行分词操作,获得目标机构名的各个词;目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个事件按照词的先后顺序进行排序,获得事件流;一个词性模式对应一个事件。按照匹配规则表对事件流进行清洗,获得保留下来的事件流。基于保留下来的事件流确定保留下来的机构名。通过该方法,将待清洗机构名进一步分词和二次词性标注,并按词性出现的先后顺序封装成事件流,并结合CEP模式实现对待清洗机构名的进一步清洗,解决了当前机构名实体识别结果噪声多、精度低的问题。同时,引入Flink复杂事件处理机制,将清洗过程转换成复杂事件处理过程,满足了流处理和批处理。
本发明对机构名实体识别结果进行二次角色标注,能够对初步筛选的实时机构名进行二次清洗。
参见图2,图2为本申请实施例提供的一种文本数据清洗装置的示意图。所述装置可以包括:
第一获取单元201,用于获取预设数量个待清洗机构名;
分词单元202,用于对目标机构名进行分词操作,获得所述目标机构名的各个词;所述目标机构名为所述待清洗机构名中的任意一个;
词性标注单元203,用于根据所述词性设定模式和所述自定义词库对所述目标机构名的各个词进行词性标注,获得所述目标机构名的各个词所对应的词性模式;
第二获取单元204,用于将所述目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个所述事件按照所述词的先后顺序进行排序,获得事件流;一个所述词性模式对应一个所述事件;
清洗单元205,用于按照匹配规则表对所述事件流进行清洗,获得保留下来的事件流;
确定单元206,用于基于所述保留下来的事件流确定保留下来的机构名。
可选的,在本申请实施例的一些实施方式中,所述装置还包括:
第一设置单元,用于在所述获取预设数量个待清洗机构名之前,设置所述匹配规则表;所述匹配规则表用于配置清洗规则对应的模式串和保留规则对应的模式串。
可选的,在本申请实施例的一些实施方式中,所述清洗单元205包括:
判断子单元,用于按照匹配规则表判断所述事件流是否符合所述清洗规则对应的模式串;
清洗子单元,用于对符合所述清洗规则对应的模式串的事件流进行清洗;
保留子单元,用于对不符合所述清洗规则对应的模式串的事件流进行保留;
获取子单元,用于获得保留下来的事件流。
可选的,在本申请实施例的一些实施方式中,所述装置还包括:
第二设置单元,用于在所述获取预设数量个待清洗机构名之前,设置自定义词库;所述自定义词库包括实体后缀词。
通过本申请实施例提供的一种文本数据清洗装置,获取预设数量个待清洗机构名。对目标机构名进行分词操作,获得目标机构名的各个词;目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个事件按照词的先后顺序进行排序,获得事件流;一个词性模式对应一个事件。按照匹配规则表对事件流进行清洗,获得保留下来的事件流。基于保留下来的事件流确定保留下来的机构名。通过该装置,将待清洗机构名进一步分词和二次词性标注,并按词性出现的先后顺序封装成事件流,并结合CEP模式实现对待清洗机构名的进一步清洗,解决了当前机构名实体识别结果噪声多、精度低的问题。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见系统部分说明即可。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种文本数据清洗方法,其特征在于,所述方法包括:
获取预设数量个待清洗机构名;
对目标机构名进行分词操作,获得所述目标机构名的各个词;所述目标机构名为所述待清洗机构名中的任意一个;
根据所述词性设定模式和所述自定义词库对所述目标机构名的各个词进行词性标注,获得所述目标机构名的各个词所对应的词性模式;
将所述目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个所述事件按照所述词的先后顺序进行排序,获得事件流;一个所述词性模式对应一个所述事件;
按照匹配规则表对所述事件流进行清洗,获得保留下来的事件流;
基于所述保留下来的事件流确定保留下来的机构名。
2.根据权利要求1所述的方法,其特征在于,在所述获取预设数量个待清洗机构名之前,所述方法还包括:
设置所述匹配规则表;所述匹配规则表用于配置清洗规则对应的模式串和保留规则对应的模式串。
3.根据权利要求2所述的方法,其特征在于,所述按照匹配规则表对所述事件流进行清洗,获得保留下来的事件流,包括:
按照匹配规则表判断所述事件流是否符合所述清洗规则对应的模式串;
对符合所述清洗规则对应的模式串的事件流进行清洗;
对不符合所述清洗规则对应的模式串的事件流进行保留;
获得保留下来的事件流。
4.根据权利要求1所述的方法,其特征在于,在所述获取预设数量个待清洗机构名之前,所述方法还包括:
设置自定义词库;所述自定义词库包括实体后缀词。
5.一种文本数据清洗装置,其特征在于,所述装置包括:
第一获取单元,用于获取预设数量个待清洗机构名;
分词单元,用于对目标机构名进行分词操作,获得所述目标机构名的各个词;所述目标机构名为所述待清洗机构名中的任意一个;
词性标注单元,用于根据所述词性设定模式和所述自定义词库对所述目标机构名的各个词进行词性标注,获得所述目标机构名的各个词所对应的词性模式;
第二获取单元,用于将所述目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,并将各个所述事件按照所述词的先后顺序进行排序,获得事件流;一个所述词性模式对应一个所述事件;
清洗单元,用于按照匹配规则表对所述事件流进行清洗,获得保留下来的事件流;
确定单元,用于基于所述保留下来的事件流确定保留下来的机构名。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第一设置单元,用于在所述获取预设数量个待清洗机构名之前,设置所述匹配规则表;所述匹配规则表用于配置清洗规则对应的模式串和保留规则对应的模式串。
7.根据权利要求6所述的装置,其特征在于,所述清洗单元包括:
判断子单元,用于按照匹配规则表判断所述事件流是否符合所述清洗规则对应的模式串;
清洗子单元,用于对符合所述清洗规则对应的模式串的事件流进行清洗;
保留子单元,用于对不符合所述清洗规则对应的模式串的事件流进行保留;
获取子单元,用于获得保留下来的事件流。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二设置单元,用于在所述获取预设数量个待清洗机构名之前,设置自定义词库;所述自定义词库包括实体后缀词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011621579.5A CN112613317B (zh) | 2020-12-30 | 2020-12-30 | 一种文本数据清洗方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011621579.5A CN112613317B (zh) | 2020-12-30 | 2020-12-30 | 一种文本数据清洗方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112613317A true CN112613317A (zh) | 2021-04-06 |
CN112613317B CN112613317B (zh) | 2023-12-08 |
Family
ID=75249681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011621579.5A Active CN112613317B (zh) | 2020-12-30 | 2020-12-30 | 一种文本数据清洗方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613317B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001084302A2 (en) * | 2000-05-02 | 2001-11-08 | Sun Microsystems, Inc. | Event service method and system |
EP1306768A1 (en) * | 2001-10-26 | 2003-05-02 | Sensoria Technology Limited | Method and system for adaptive learning and pattern recognition |
CN101685466A (zh) * | 2009-07-22 | 2010-03-31 | 中兴通讯股份有限公司 | 事件处理方法和设备 |
CN102096658A (zh) * | 2011-02-21 | 2011-06-15 | 北京航空航天大学 | 一种基于树形复杂事件处理过程中算子内部处理系统 |
US20120054211A1 (en) * | 2010-08-31 | 2012-03-01 | The Directv Group, Inc. | Method and system for searching for content in a user device |
CN104573054A (zh) * | 2015-01-21 | 2015-04-29 | 杭州朗和科技有限公司 | 一种信息推送方法和设备 |
CN105930494A (zh) * | 2016-05-06 | 2016-09-07 | 华南农业大学 | 一种基于多模式匹配模型的复杂事件检测方法 |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
-
2020
- 2020-12-30 CN CN202011621579.5A patent/CN112613317B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001084302A2 (en) * | 2000-05-02 | 2001-11-08 | Sun Microsystems, Inc. | Event service method and system |
EP1306768A1 (en) * | 2001-10-26 | 2003-05-02 | Sensoria Technology Limited | Method and system for adaptive learning and pattern recognition |
CN101685466A (zh) * | 2009-07-22 | 2010-03-31 | 中兴通讯股份有限公司 | 事件处理方法和设备 |
US20120054211A1 (en) * | 2010-08-31 | 2012-03-01 | The Directv Group, Inc. | Method and system for searching for content in a user device |
CN102096658A (zh) * | 2011-02-21 | 2011-06-15 | 北京航空航天大学 | 一种基于树形复杂事件处理过程中算子内部处理系统 |
CN104573054A (zh) * | 2015-01-21 | 2015-04-29 | 杭州朗和科技有限公司 | 一种信息推送方法和设备 |
CN105930494A (zh) * | 2016-05-06 | 2016-09-07 | 华南农业大学 | 一种基于多模式匹配模型的复杂事件检测方法 |
CN106202561A (zh) * | 2016-07-29 | 2016-12-07 | 北京联创众升科技有限公司 | 基于文本大数据的数字化应急管理案例库构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112613317B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9430742B2 (en) | Method and apparatus for extracting entity names and their relations | |
CN107193796B (zh) | 一种舆情事件检测方法及装置 | |
CN113297379A (zh) | 一种文本数据多标签分类方法及装置 | |
Hasan et al. | Combined support vector machine and pattern matching for arabic islamic hadith question classification system | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
Sadeghian et al. | Semantic edge labeling over legal citation graphs | |
US11741318B2 (en) | Open information extraction from low resource languages | |
CN111177401A (zh) | 一种电网自由文本知识抽取方法 | |
Khenglawt et al. | Language resource building and English-to-mizo neural machine translation encountering tonal words | |
EP3835994A1 (en) | System and method for identification and profiling adverse events | |
Dahou et al. | Named entity recognition for Algerian Arabic dialect in social media | |
CN112613317B (zh) | 一种文本数据清洗方法及装置 | |
CN114996400A (zh) | 裁判文书处理方法、装置、电子设备及存储介质 | |
CN111400606B (zh) | 一种基于全局和局部信息抽取的多标签分类方法 | |
Kumar et al. | Ontology-based full-text searching using named entity recognition | |
CN113806311A (zh) | 基于深度学习的文件分类方法、装置、电子设备及介质 | |
Orellana et al. | Evaluating named entities recognition (NER) tools vs algorithms adapted to the extraction of locations | |
Vo et al. | Recognizing and splitting conditional sentences for automation of business processes management | |
Wei et al. | Automatic structuring of it problem ticket data for enhanced problem resolution | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
Mo et al. | Myanmar named entity corpus and its use in syllable-based neural named entity recognition. | |
Kienreich et al. | Plagiarism detection in large sets of press agency news articles | |
Emebo et al. | Promirar: Tool for identifying and managing implicit requirements in SRS documents | |
Dutta et al. | Parts of speech (POS) tagging for Dogri language | |
Jasmonts et al. | New Information Extracting and Analysis Methodology for the Terminology Research Purposes: The Field of Biology. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |