CN107704539A - 大规模文本信息批量结构化的方法及装置 - Google Patents

大规模文本信息批量结构化的方法及装置 Download PDF

Info

Publication number
CN107704539A
CN107704539A CN201710868572.5A CN201710868572A CN107704539A CN 107704539 A CN107704539 A CN 107704539A CN 201710868572 A CN201710868572 A CN 201710868572A CN 107704539 A CN107704539 A CN 107704539A
Authority
CN
China
Prior art keywords
text message
rule
information
module
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710868572.5A
Other languages
English (en)
Other versions
CN107704539B (zh
Inventor
汪东升
蔡尚铭
徐涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710868572.5A priority Critical patent/CN107704539B/zh
Publication of CN107704539A publication Critical patent/CN107704539A/zh
Application granted granted Critical
Publication of CN107704539B publication Critical patent/CN107704539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Abstract

本发明公开一种大规模文本信息批量结构化的方法及装置,能在短时间内批量处理大量文本信息。方法包括:根据不同文本信息的目标信息项建立不同的切分和抽取规则,以配置文件形式提供规则输入接口;根据对应的切分规则和抽取规则,以流水线处理方式,依次对单个文本信息完成自动化信息抽取操作;按照目标信息项的数据类型格式和长度建立数据库关系表,将经过自动化信息抽取后的文本信息转化为结构化记录,保存到数据库关系表中,对于未能成功抽取出关键信息的文本信息,使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项,根据候选信息项及对应的文本信息和规则内容对已有规则进行修正。

Description

大规模文本信息批量结构化的方法及装置
技术领域
本发明涉及计算机领域,具体涉及一种大规模文本信息批量结构化的方法及装置。
背景技术
近年来,随着大数据时代的到来,数据的快速增长了成了许多行业共同面临的机遇与挑战。“机遇”的部分在于,通过分析大量数据,数据拥有者能够挖掘出很多频繁模式,获取到很多潜在的信息,并可以根据这些信息预测出相关行业未来的趋势和发展,从而做出相应的决策,获取大量收益;而“挑战”的部分在于,虽然通过网络,任何人都可以很方便地获取大量的数据,甚至某些专业人员也可以通过爬虫的方式更快捷且高效地抓取网络上的数据,但如何能够在拥有如此海量数据的情况下高效地管理和利用这些数据,也成了一个难题。
针对上述问题,目前市面上有很多的解决方案能够去处理结构化的数据,例如通过聚类分析或是频繁模式挖掘等,而结构化的数据格式也是让计算机能实现批量结构化的关键。在管理方面,使用数据库的方式来管理现有数据也成为了主流。目前市面上较为流行的是关系型的数据库,例如MySQL和Oracle等,其能满足数据管理和查询等各类数据相关操作的需求。
但是,对于非结构化的文本信息,目前并没有较好的方法能够去对其进行处理。通常,各行各业都是使用大量人力资源的方式来对已有的非结构化文本信息进行数据清洗和预处理,进而提取出关键信息,即将大规模文本信息转化为结构化的数据库记录后再进行后续操作。然而这种方式不仅效率十分低下,同时也浪费了大量的人力资源成本,增大了开销。此外,这种方式也具有很大的局限性,必须针对每一类不同的文本信息聘请大量的相应人员来进行分析和提取,且不具备可重用性,在数据源源不断地到来的情况之下,并不是一个很好的方法,不能满足当今大数据时代的需求。
发明内容
针对现有技术存在的不足和缺陷,本发明提供一种大规模文本信息批量结构化的方法及装置。
一方面,本发明实施例提出一种大规模文本信息批量结构化的方法,包括:
根据不同文本信息的目标信息项建立不同的切分和抽取规则,以配置文件形式提供规则输入接口;
根据对应的切分规则和抽取规则,以流水线处理方式,依次对单个文本信息完成包括数据加载、片段切分、信息抽取和信息汇聚的自动化信息抽取操作;
按照目标信息项的数据类型格式和长度建立数据库关系表,将经过自动化信息抽取后的文本信息转化为结构化记录,保存到数据库关系表中,对于未能成功抽取出关键信息的文本信息,使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项,根据所述候选信息项及对应的文本信息和规则内容对已有规则进行修正。
另一方面,本发明实施例提出一种大规模文本信息批量结构化的装置,包括:
数据加载模块,用于将文本信息加载到内存中;
切分模块,用于读取切分规则库,逐条解析执行,将文本信息按照规则定义切分成片段,组成字符串数组并输出,其中,所述切分规则库,存储着对应文本信息的切分规则,切分模块根据这些规则将文本切分成若干独立的文字片段;
抽取模块,用于读取抽取规则库,在对应的文字片段中逐条执行规则内容,抽取各项关系表字段,其中,所述抽取规则库,存储着对应文本信息的数据库关系表中各字段的抽取规则,抽取模块根据这些规则从文字片段中抽取字段信息;
汇聚模块,用于汇集抽取的字段信息,同时读取关系表元数据,按照字段类型拼装记录并保存至数据库关系表中,其中,所述关系表元数据,包括对应文本信息的数据库关系表的结构和字段类型,用于后台创建数据库关系表;
规则学习/配置模块,用于当抽取模块抽取字段信息发生错误时,将错误信息以及对应的文本信息和规则内容写入log日志,并调用统计机器学习算法推测候选信息项,根据所述错误信息以及对应的文本信息和规则内容、候选信息项对已有规则进行修正。
优选地,该装置基于流水线处理机制,在信息抽取流程中各模块具有严格定义的输入输出接口,相互独立透明。
优选地,所述数据加载模块,用于根据所读入的文件的后缀以及该文件的文件头自动判别文件类型,然后读取出正确的文本内容。
优选地,所述规则学习/配置模块中所使用的统计机器学习方法,会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系,分析原始文本信息,进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选信息项。
优选地,所述切分规则库中所保存的切分规则由一系列信息拼接而成,包括:规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项。
优选地,所述抽取规则具有多类抽取方式,包括:正则表达式匹配、多行直接抽取、按每行嵌套抽取以及先切分再嵌套抽取共4种抽取的方式。
本发明至少有如下有益效果:
(1)基于流水线处理机制,能够在短时间内批量处理大量文本信息,只需针对不同类型的文本信息制定出相应的切分规则和抽取规则,进而建立元数据信息,便能够以一种流水线处理的方式不断地将所输入的文本信息文件结构化并存储到数据库关系表中,不仅提高了文本信息的处理速度,提炼了文本信息的核心内容,减少了所需存储空间,还降低了文本信息的管理成本;
(2)能够批量地将文本信息结构化并存储到数据库关系表中,因而其也支持快速查询,批量修改,以及各种统计方面的工作,符合大数据处理的需求;
(3)能够在人为制定的切分规则和抽取规则不够完善的情形下,通过统计机器学习的方法,完善抽取规则,同时也会将没能抽取出关键信息的片段写入日志,用于分析和校正切分规则,使得本发明具有一定的容错性和健壮性;
(4)适用于任意具有较为明确的书写规范的文本信息,只需制定相应的切分规则、抽取规则和元数据信息,便可投入使用,极大地节省了整理文本信息的成本和时间开销;
(5)能够处理多类格式的文件,包括txt、word、excel及pdf等,不需要在处理数据之前做额外的预处理工作,具有一定的便捷性;
(6)能够在多类主流的操作系统之上运行,其中包括Linux、MacOS以及Windows,具有一定的可移植性。
附图说明
图1为本发明大规模文本信息批量结构化的方法一实施例的流程示意图;
图2为本发明大规模文本信息批量结构化的装置一实施例的结构示意图;
图3为本发明大规模文本信息批量结构化的方法另一实施例的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参看图1,本实施例公开一种大规模文本信息批量结构化的方法,包括:
S1、根据不同文本信息的目标信息项建立不同的切分和抽取规则,以配置文件形式提供规则输入接口;
本步骤中,针对不同文本信息所需抽取的信息不同,可以制定完全不同的规则来达到目的。
S2、根据对应的切分规则和抽取规则,以流水线处理方式,依次对单个文本信息完成包括数据加载、片段切分、信息抽取和信息汇聚的自动化信息抽取操作;
本实施例中,所加载的文本信息文件可以为txt、word、excel以及pdf等文件格式。
S3、按照目标信息项的数据类型格式和长度建立数据库关系表,将经过自动化信息抽取后的文本信息转化为结构化记录,保存到数据库关系表中,对于未能成功抽取出关键信息的文本信息,使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项,根据所述候选信息项及对应的文本信息和规则内容对已有规则进行修正。
本步骤中,对于每个目标信息项需要给定数据类型和其长度,用以创建数据库关系表;而每个成功被处理的文件,都会化作一条数据库记录,被插入到上述数据库关系表中,最终将大规模文本信息转化为一张数据信息十分精炼的表格;若未能成功抽取出某文件关键信息项,则该文件视为未能成功处理。对于未能成功抽取出关键信息的文本信息,会根据数据库关系表中已有的信息以及系统日志中的内容,并使用统计机器学习的方法,分析抽取出错的信息项与其定位词或抽取规则之间的位置及词性联系,根据已成功抽取的结构化数据记录,尝试给出可能的结果,并推测正确的定位词用以完善抽取规则。
本发明实施例提供的大规模文本信息批量结构化的方法,基于流水线处理机制,能够在短时间内批量处理大量文本信息,只需针对不同类型的文本信息制定出相应的切分规则和抽取规则,进而建立元数据信息,便能够以一种流水线处理的方式不断地将所输入的文本信息文件结构化并存储到数据库关系表中,不仅提高了文本信息的处理速度,提炼了文本信息的核心内容,减少了所需存储空间,还降低了文本信息的管理成本,同时能够在人为制定的切分规则和抽取规则不够完善的情形下,通过统计机器学习的方法,完善已有规则。
参看图2,本实施例公开一种大规模文本信息批量结构化的装置,包括:
数据加载模块1,用于将文本信息(比如txt、word、excel及pdf等文件中的文本信息)加载到内存中;
切分模块2,用于读取切分规则库,逐条解析执行,将文本信息按照规则定义切分成片段,组成字符串数组并输出,其中,所述切分规则库,存储着对应文本信息的切分规则,切分模块根据这些规则将文本切分成若干独立的文字片段;
抽取模块3,用于读取抽取规则库,在对应的文字片段中逐条执行规则内容,抽取各项关系表字段,其中,所述抽取规则库,存储着对应文本信息的数据库关系表中各字段的抽取规则,抽取模块根据这些规则从文字片段中抽取字段信息;
汇聚模块4,用于汇集抽取的字段信息,同时读取关系表元数据,按照字段类型拼装记录并保存至数据库关系表中,其中,所述关系表元数据,包括对应文本信息的数据库关系表的结构和字段类型,用于后台创建数据库关系表;
规则学习/配置模块5,用于当抽取模块抽取字段信息发生错误时,将错误信息以及对应的文本信息和规则内容写入log日志,并调用统计机器学习算法推测候选信息项,根据所述错误信息以及对应的文本信息和规则内容、候选信息项对已有规则进行修正。
本发明实施例提供的大规模文本信息批量结构化的装置,基于流水线处理机制,能够在短时间内批量处理大量文本信息,只需针对不同类型的文本信息制定出相应的切分规则和抽取规则,进而建立元数据信息,便能够以一种流水线处理的方式不断地将所输入的文本信息文件结构化并存储到数据库关系表中,不仅提高了文本信息的处理速度,提炼了文本信息的核心内容,减少了所需存储空间,还降低了文本信息的管理成本,同时能够在人为制定的切分规则和抽取规则不够完善的情形下,通过统计机器学习的方法,完善已有规则。
最后,通过一个更为具体的例子,来说明本发明一个较佳实施例的实现过程,参见图3,该方法的实现步骤如下所示:
步骤301:根据所需处理的大规模文本信息的目标信息项设计切分规则库和抽取规则库。
步骤302:根据所需处理的大规模文本信息的目标信息项的数据类型格式和长度建立数据库关系表。
步骤303:调用数据加载模块将各种格式文件内的文本信息加载到内存中,以流水线的形式依次将数据发送到下一模块处理。
步骤304:调用切分模块,读取切分规则库,逐条解析执行,依次将传入文本信息按照规则定义切分成片段,组成字符串数组并输出。
本步骤中,会根据切分规则中的信息,包括:规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项,载入正确的控制信息用以处理对应的文本信息,该过程具有通用性。
步骤305:调用抽取模块,读取抽取规则库,依次对传入的对应文字片段逐条执行规则内容,抽取各项关系表字段。
本步骤中,具有多类抽取方式,包括:正则表达式匹配、多行直接抽取、按每行嵌套抽取以及先切分再嵌套抽取共4种抽取的方法。
步骤306:判定对单个文件,是否成功抽取了所有目标信息,若是,则转至步骤307,若不是,则转至步骤308。
步骤307:调用汇聚模块,汇集抽取的字段信息,同时读取关系表元数据,按照字段类型拼装记录并保存至数据库关系表中。
步骤308:调用规则学习/配置模块,将错误信息以及对应的文本信息和规则内容写入log日志,并调用机器学习算法推测候选信息项,以供规则设计人员根据以上所有信息对已有规则进行修正。
本步骤中,所使用的统计机器学习方法,会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系,分析原始文本信息,进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选值;若未能成功给出候选值,则表明需要修改的是切分规则而非抽取规则。
步骤309:结束。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (7)

1.一种大规模文本信息批量结构化的方法,其特征在于,包括:
根据不同文本信息的目标信息项建立不同的切分和抽取规则,以配置文件形式提供规则输入接口;
根据对应的切分规则和抽取规则,以流水线处理方式,依次对单个文本信息完成包括数据加载、片段切分、信息抽取和信息汇聚的自动化信息抽取操作;
按照目标信息项的数据类型格式和长度建立数据库关系表,将经过自动化信息抽取后的文本信息转化为结构化记录,保存到数据库关系表中,对于未能成功抽取出关键信息的文本信息,使用统计机器学习的方法从已成功抽取的结构化记录数据中推测出候选信息项,根据所述候选信息项及对应的文本信息和规则内容对已有规则进行修正。
2.一种大规模文本信息批量结构化的装置,其特征在于,包括:
数据加载模块,用于将文本信息加载到内存中;
切分模块,用于读取切分规则库,逐条解析执行,将文本信息按照规则定义切分成片段,组成字符串数组并输出,其中,所述切分规则库,存储着对应文本信息的切分规则,切分模块根据这些规则将文本切分成若干独立的文字片段;
抽取模块,用于读取抽取规则库,在对应的文字片段中逐条执行规则内容,抽取各项关系表字段,其中,所述抽取规则库,存储着对应文本信息的数据库关系表中各字段的抽取规则,抽取模块根据这些规则从文字片段中抽取字段信息;
汇聚模块,用于汇集抽取的字段信息,同时读取关系表元数据,按照字段类型拼装记录并保存至数据库关系表中,其中,所述关系表元数据,包括对应文本信息的数据库关系表的结构和字段类型,用于后台创建数据库关系表;
规则学习/配置模块,用于当抽取模块抽取字段信息发生错误时,将错误信息以及对应的文本信息和规则内容写入log日志,并调用统计机器学习算法推测候选信息项,根据所述错误信息以及对应的文本信息和规则内容、候选信息项对已有规则进行修正。
3.根据权利要求2所述的装置,其特征在于,该装置基于流水线处理机制,在信息抽取流程中各模块具有严格定义的输入输出接口,相互独立透明。
4.根据权利要求2所述的装置,其特征在于,所述数据加载模块,用于根据所读入的文件的后缀以及该文件的文件头自动判别文件类型,然后读取出正确的文本内容。
5.根据权利要求2所述的装置,其特征在于,所述规则学习/配置模块中所使用的统计机器学习方法,会根据目标抽取项与该项抽取规则中的定位关键词之间的位置及词性关系,分析原始文本信息,进而通过数据库中已成功抽取的大量目标项的信息推测出未能成功抽取的目标项的候选信息项。
6.根据权利要求2所述的装置,其特征在于,所述切分规则库中所保存的切分规则由一系列信息拼接而成,包括:规则号、起点类型、起点位置、终点位置、终点类型以及动作这6项。
7.根据权利要求2所述的装置,其特征在于,所述抽取规则具有多类抽取方式,包括:正则表达式匹配、多行直接抽取、按每行嵌套抽取以及先切分再嵌套抽取共4种抽取的方式。
CN201710868572.5A 2017-09-22 2017-09-22 大规模文本信息批量结构化的方法及装置 Active CN107704539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710868572.5A CN107704539B (zh) 2017-09-22 2017-09-22 大规模文本信息批量结构化的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710868572.5A CN107704539B (zh) 2017-09-22 2017-09-22 大规模文本信息批量结构化的方法及装置

Publications (2)

Publication Number Publication Date
CN107704539A true CN107704539A (zh) 2018-02-16
CN107704539B CN107704539B (zh) 2020-10-23

Family

ID=61174365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710868572.5A Active CN107704539B (zh) 2017-09-22 2017-09-22 大规模文本信息批量结构化的方法及装置

Country Status (1)

Country Link
CN (1) CN107704539B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460005A (zh) * 2018-03-12 2018-08-28 中国银行股份有限公司 数据文本生成装置和方法
CN108460435A (zh) * 2018-03-02 2018-08-28 欧阳军 一种信息处理装置、系统及方法
CN108763565A (zh) * 2018-06-04 2018-11-06 广东京信软件科技有限公司 一种基于深度学习的数据自动关联匹配的构建方法
CN109145125A (zh) * 2018-08-20 2019-01-04 长城计算机软件与系统有限公司 一种动态抽取信息的方法和系统、存储介质
CN109344151A (zh) * 2018-08-08 2019-02-15 航天信息股份有限公司 批量注册和修改用户信息的方法
CN110362596A (zh) * 2019-07-04 2019-10-22 上海润吧信息技术有限公司 一种文本抽取信息结构化数据处理的控制方法及装置
CN110825841A (zh) * 2019-11-13 2020-02-21 同济大学建筑设计研究院(集团)有限公司 数据库的构建方法、质量检测方法、装置、设备和介质
CN111143329A (zh) * 2019-12-27 2020-05-12 中国银联股份有限公司 一种数据处理方法及装置
CN112445784A (zh) * 2020-12-16 2021-03-05 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN110175853B (zh) * 2019-04-24 2021-08-06 上海非码网络科技有限公司 社交群客诉信息整理方法及社交群客诉信息整理系统
CN115168714A (zh) * 2022-07-07 2022-10-11 中国测绘科学研究院 一种Web API数据抽取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1410918A (zh) * 2002-05-31 2003-04-16 浙江大学 基于信息抽取技术的搜索引擎
US20100223214A1 (en) * 2009-02-27 2010-09-02 Kirpal Alok S Automatic extraction using machine learning based robust structural extractors
CN103838796A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页结构化信息抽取方法
CN106844636A (zh) * 2017-01-21 2017-06-13 亚信蓝涛(江苏)数据科技有限公司 一种基于深度学习的非结构化数据处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1410918A (zh) * 2002-05-31 2003-04-16 浙江大学 基于信息抽取技术的搜索引擎
US20100223214A1 (en) * 2009-02-27 2010-09-02 Kirpal Alok S Automatic extraction using machine learning based robust structural extractors
CN103838796A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页结构化信息抽取方法
CN106844636A (zh) * 2017-01-21 2017-06-13 亚信蓝涛(江苏)数据科技有限公司 一种基于深度学习的非结构化数据处理方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460435A (zh) * 2018-03-02 2018-08-28 欧阳军 一种信息处理装置、系统及方法
CN108460005A (zh) * 2018-03-12 2018-08-28 中国银行股份有限公司 数据文本生成装置和方法
CN108763565A (zh) * 2018-06-04 2018-11-06 广东京信软件科技有限公司 一种基于深度学习的数据自动关联匹配的构建方法
CN108763565B (zh) * 2018-06-04 2022-06-14 广东京信软件科技有限公司 一种基于深度学习的数据自动关联匹配的构建方法
CN109344151A (zh) * 2018-08-08 2019-02-15 航天信息股份有限公司 批量注册和修改用户信息的方法
CN109145125A (zh) * 2018-08-20 2019-01-04 长城计算机软件与系统有限公司 一种动态抽取信息的方法和系统、存储介质
CN110175853B (zh) * 2019-04-24 2021-08-06 上海非码网络科技有限公司 社交群客诉信息整理方法及社交群客诉信息整理系统
CN110362596A (zh) * 2019-07-04 2019-10-22 上海润吧信息技术有限公司 一种文本抽取信息结构化数据处理的控制方法及装置
CN110825841A (zh) * 2019-11-13 2020-02-21 同济大学建筑设计研究院(集团)有限公司 数据库的构建方法、质量检测方法、装置、设备和介质
CN111143329A (zh) * 2019-12-27 2020-05-12 中国银联股份有限公司 一种数据处理方法及装置
CN111143329B (zh) * 2019-12-27 2024-02-13 中国银联股份有限公司 一种数据处理方法及装置
CN112445784A (zh) * 2020-12-16 2021-03-05 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN112445784B (zh) * 2020-12-16 2023-02-21 上海芯翌智能科技有限公司 一种文本结构化的方法、设备及系统
CN115168714A (zh) * 2022-07-07 2022-10-11 中国测绘科学研究院 一种Web API数据抽取方法及装置
CN115168714B (zh) * 2022-07-07 2023-11-10 中国测绘科学研究院 一种Web API数据抽取方法及装置

Also Published As

Publication number Publication date
CN107704539B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN107704539A (zh) 大规模文本信息批量结构化的方法及装置
US20210216880A1 (en) Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on textcnn
CN109034993A (zh) 对账方法、设备、系统及计算机可读存储介质
US11790174B2 (en) Entity recognition method and apparatus
CN111177186B (zh) 基于问题检索的单句意图识别方法、装置和系统
CN110209643A (zh) 一种数据处理方法及装置
CN108733644A (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN112528030A (zh) 一种用于文本分类的半监督学习方法和系统
CN109800338A (zh) 口语化时间标准化控制方法、装置、计算机设备及存储介质
CN110362596A (zh) 一种文本抽取信息结构化数据处理的控制方法及装置
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN104933077B (zh) 基于规则的多文件信息分析方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN101021851A (zh) 文本检索装置、检索方法、记录文本检索程序的记录介质
CN117436440A (zh) 一种日志识别方法、系统、终端设备及存储介质
CN105608137A (zh) 一种提取身份标识的方法和装置
CN102103604B (zh) 检索词核心权重确定方法和装置
CN110263345A (zh) 关键词提取方法、装置及存储介质
CN113051869B (zh) 一种结合语义识别实现标识文本差异内容的方法及系统
CN114818718A (zh) 合同文本识别方法及装置
CN114385694A (zh) 一种数据加工处理方法、装置、计算机设备及存储介质
US20210081424A1 (en) Joiner for distributed databases
CN110807449A (zh) 一种科技项目申报线上服务终端
CN117688927B (zh) 病历章节重配置方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant