CN107977345A - 一种通用文本信息抽取方法以及系统 - Google Patents

一种通用文本信息抽取方法以及系统 Download PDF

Info

Publication number
CN107977345A
CN107977345A CN201711121932.1A CN201711121932A CN107977345A CN 107977345 A CN107977345 A CN 107977345A CN 201711121932 A CN201711121932 A CN 201711121932A CN 107977345 A CN107977345 A CN 107977345A
Authority
CN
China
Prior art keywords
language material
extraction
text
training
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711121932.1A
Other languages
English (en)
Inventor
倪时龙
苏江文
宋立华
王秋琳
陈颖华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Fujian Yirong Information Technology Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Fujian Yirong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Fujian Yirong Information Technology Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201711121932.1A priority Critical patent/CN107977345A/zh
Publication of CN107977345A publication Critical patent/CN107977345A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种通用文本信息抽取方法,编写限定个数的正则表达式对原始语料进行抽取;从抽取的语料中切割出限定比例的语料作为训练语料;将训练语料通过自动模式归纳方法构建抽取模型;通过该抽取模型进行抽取;本发明还提供一种通用文本信息抽取系统,适用于不同要求级别的业务场景中,也利于培养相应要求的工程师,形成文本关键信息抽取的“流水线”作业。

Description

一种通用文本信息抽取方法以及系统
技术领域
本发明涉及一种通用文本信息抽取方法以及系统。
背景技术
随着大数据技术的不断发展,原本难以利用的、海量、异构的“非结构化文档”,如各类web网页、办公文档等逐渐得到了重视,对非结构化文档的分析挖掘的需求不断增长,然而,现有的主流大数据技术主要解决海量数据的存储和计算问题,针对非结构化数据的挖掘和分析仍未能得到广泛利用、未形成稳定的技术路线。
现有的文本中关键信息的抽取,所谓“文本关键信息抽取”,是指根据具体业务的需求,从无结构的“非结构化文档”中自动抽取出结构化的信息。比较主流的有以下两类方案:
1、基于正则表达式提取:
正则表达式是对字符串规则的一种描述方法,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式包含一系列特定的语法,提供强大的文本信息提取能力。例如,提取电子邮件的正则表达式为:/^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$/,其中的\w代表任意字符,{2,3}代表出现两次或三次,该正则表达式可以识别出xxxx@xxxx.xxx格式的电子邮件地址。正则表达式表达灵活,可以匹配几乎任何模式的文字。应用正则表达式的前提是,对拟提取的信息的“模式”或“规则”要非常明确。
正则表达式是信息处理领域的通用基础技术,主流的编程语言均可支持正则表达式执行,所以,可以将待抽取关键信息的规则编写为正则表达式,用编程语言实现从读取文本、执行正则表达式、保存匹配结果到数据库等步骤,实现文本关键信息提取,如图1所示。
由于基于正则表达式方法的文本抽取有上述特点,所以,该方法通常用于有相对固定格式的文件,如专利抽取、合同抽取、简历抽取等;不适用于模版多变的文本(如没有固定模版的“合同”),也不适用于没有明显规则的文本中的关键信息提取,如一段文本中的特定实体,而公开专利201410681853.6“一种HTML文档信息抽取表达式的方法及系统”就是采用这种技术路线。
2、基于模式自动归纳的方法:
如图2所示,“模式自动归纳”是一种“监督学习”方法。所谓监督学习,是“机器学习”技术的一个分支,是指事先提供一定规模的标注好的文本(称为语料),在语料中标注了待抽取文本在文档上下文的各种特征(出现的典型词、词性、语法结构,等),而后由机器学习算法进行自动归纳,识别出其中存在的复杂模式,而后用于后续更多的文本的抽取中。所以,“模式归纳”的本质是利用统计学思路描述语言模型的技术,能够度量一段文本中某个句子或短语是否和“目标对象”有较大的匹配性(概率),所以能够用以定位、抽取文本中指定的“关键信息”,比较常用的算法包括“条件随机场”(CRF)、N元模型(N-Gram)等。
由于能够自动化地通过算法对模式进行归纳(形成“抽取模型”),所以,基于“模式归纳”的方法具有适应性强的优点,其不需要由专家编写规则,所以对于没有明显模式(人工很难观察到特定规则)的关键信息的抽取具有较强的抽取能力;其缺点是:
需要一定数量的、已经标注好的语料作为导入,这部分语料的标注工作需要人工编写。待抽取的关键信息越缺乏模式、要求抽的结果越精确,需要导入的语料就越多。
机器学习类的算法缺点是不够稳定,其执行过程是“黑盒”(不像规则判断能够回溯),准确率不由算法决定,而主要取决于用以训练的标注语料是否和目标测试语料比较一致,所以该方法构建出的“抽取模型”常常难以判断是否能够满足业务对于抽取准确性的要求。
综上所述,现有两种文本关键信息抽取的技术路线各有优缺点和适用范围:
基于规则的方法抽取效果稳定,且不需要实现进行人工标注,但是限定性太强,匹配的范围比较小,对于没有固定模版的文本抽取不适用;
模式自动归纳方法匹配范围较大,但需要事先准备较多的人工标注语料,且抽取效果不稳定、准确性难以预估,对于对抽取准确性有比较严格要求的场景不太适用。
发明内容
本发明要解决的技术问题,在于提供一种通用文本信息抽取方法以及系统,适用于不同要求级别的业务场景中,也利于培养相应要求的工程师,形成文本关键信息抽取的“流水线”作业。
本发明之一是这样实现的:一种通用文本信息抽取方法,包括如下步骤:
步骤1、编写限定个数的正则表达式对原始语料进行抽取;
步骤2、从抽取的语料中切割出限定比例的语料作为训练语料;
步骤3、将训练语料通过自动模式归纳方法构建抽取模型;
步骤4、通过该抽取模型进行抽取。
进一步地,所述步骤1进一步具体为:编写限定个数的正则表达式对原始语料进行抽取,抽取得到文本语料以及字段语料。
进一步地,所述步骤2进一步具体为:从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料,并获取训练文本语料所对应字段语料作为训练字段语料。
进一步地,所述步骤3进一步具体为:将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中,构建抽取模型。
进一步地,所述自动模式归纳方法为CRF算法。
进一步地,所述步骤3与步骤4之间还包括一步骤a、将步骤2中剩余的语料作为验证语料,通过抽取模型对验证语料进行抽取,将抽取结果进行准确性判断,若准确性未达到限定要求,则建立多于之前个数的正则表达式进行语料抽取,进入步骤2。
本发明之二是这样实现的:一种通用文本信息抽取系统,包括如下模块:
语料抽取模块,编写限定个数的正则表达式对原始语料进行抽取;
切割模块,从抽取的语料中切割出限定比例的语料作为训练语料;
建模模块,将训练语料通过自动模式归纳方法构建抽取模型;
信息抽取模块,通过该抽取模型进行抽取。
进一步地,所述语料抽取模块进一步具体为:编写限定个数的正则表达式对原始语料进行抽取,抽取得到文本语料以及字段语料。
进一步地,所述切割模块进一步具体为:从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料,并获取训练文本语料所对应字段语料作为训练字段语料。
进一步地,所述建模模块进一步具体为:将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中,构建抽取模型。
进一步地,所述自动模式归纳方法为CRF算法。
进一步地,所述建模模块与信息抽取模块之间还包括一检验模块,将切割模块中剩余的语料作为验证语料,通过抽取模型对验证语料进行抽取,将抽取结果进行准确性判断,若准确性未达到限定要求,则建立多于之前个数的正则表达式进行语料抽取,进入切割模块。
本发明具有如下优点:本发明一种通用文本信息抽取方法以及系统,相对于纯粹基于正则表达式的方法,本发明最终是采用模式自动归纳模型进行信息抽取的,所以能够有效扩大抽取模型的适用范围,减少对待抽取文本“模式”的依赖。在实际中,少量的规则是易于观察、其正则表达式是易于编写的,但越想“全面匹配”,则规则复杂度越高、越难编写。本发明方法仅需编写少量规则就可以驱动,显著降低难度;而相对于纯粹模式自动归纳方法(或类似的机器学习算法),本发明利用少量正则表达式快速识别出一定量的标注语料,可以避免传统的人工标注投入。
本发明提出的整体过程,满足业务需求的、最优化的文本关键信息抽取过程。一方面,过程确保了模型优化可以通过增量迭代的方式实现,整体过程不浪费人工投入(编制的规则总是可以在下一次迭代中被使用);另一方面,引入了最终模型“准确性”的自动化判断过程,保证总是可以迭代至满足业务需求的抽取准确度,从而,可以适用于不同要求级别的业务场景中,也利于培养相应要求的工程师,形成文本关键信息抽取的“流水线”作业。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为现有技术基于正则表达式提取流程图。
图2为现有技术基于模式归纳的抽取流程图。
图3为本发明方法流程图。
图4为本发明具体实施例的流程图。
图5为本发明具体实施例的基于CRF算法的自动模式归纳流程图。
具体实施方式
如图3所示,本发明通用文本信息抽取方法,包括如下步骤:
步骤1、编写限定个数的正则表达式对原始语料进行抽取,抽取得到文本语料以及字段语料;
步骤2、从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料,并获取训练文本语料所对应字段语料作为训练字段语料;
步骤3、将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中,构建抽取模型,所述自动模式归纳方法为CRF算法;
步骤a、将步骤2中剩余的语料作为验证语料,通过抽取模型对验证语料进行抽取,将抽取结果进行准确性判断,若准确性未达到限定要求,则建立多于之前个数的正则表达式进行语料抽取,进入步骤2;
步骤4、通过该抽取模型进行抽取。
本发明通用文本信息抽取系统,包括如下模块:
语料抽取模块,编写限定个数的正则表达式对原始语料进行抽取,抽取得到文本语料以及字段语料;
切割模块,从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料,并获取训练文本语料所对应字段语料作为训练字段语料;
建模模块,将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中,构建抽取模型,所述自动模式归纳方法为CRF算法;
检验模块,将切割模块中剩余的语料作为验证语料,通过抽取模型对验证语料进行抽取,将抽取结果进行准确性判断,若准确性未达到限定要求,则建立多于之前个数的正则表达式进行语料抽取,进入切割模块;
信息抽取模块,通过该抽取模型进行抽取。
如图4所示,本发明技术方案针对现有文本关键信息抽取的缺点,提出一种创新的方法,能够充分利用现有技术方法的优点,同时很大程度上规避其缺点,从而具有广泛适用性。本发明的主要原理是:
步骤1:利用“正则表达式抽取”准确性高、匹配范围小的特点,编写少量的规则,实现从大量的语料中匹配出少量但准确的抽取对象,并作为后续过程的导入。
步骤2:将步骤1中获得的抽取结果,切割出一定比例(80%),作为导入到“自动模式归纳”方法的训练语料,替代“人工标注”过程。
步骤3:利用步骤2结果的训练语料,结合开源的“自动模式归纳”类算法,构建“抽取模型”。
步骤4:利用步骤3的结果,对步骤2切割出的、剩余的语料(20%)进行自动化抽取,并对抽取结果进行自动判断;如果模型自动判断的准确性尚未达到业务要求,则前往步骤1,编写更多的正则表达式,形成更多的“标注语料”,作为模型训练导入;如果模型自动判断的准确性已经达到业务要求,则停止该过程,并将该模型作为文本抽取最终模型部署应用。
完整过程图示如下:
相对于现有技术方案,本发明在文本关键信息抽取问题上取得以下提升:
用基于少量规则的“规则判断”,替代“人工标注”获得初始标准语料,大大降低了初期人工投入。
对“模式自动归纳”模型的抽取结果进行自动化回测,确保模型的准确性符合业务需求。
用“自动归纳模型”作为最终文本抽取的执行器,确保模型的适用性得到保障(不限制于待抽取信息是否具有严格的模版,所以抽取范围远高于纯粹基于“正则表达式”的方法)。
整个过程是可增量迭代的。如果“模式自动归纳”训练得到的模型的抽取效果不理想(准确性达不到要求),仅需要进行增加编写少量正则表达式,执行同样的过程循环,即可有效提升模型抽取效果,前期编写的规则不会被废弃。
综上所述,本发明给出的上述过程,总体确保了较少的人工投入也能获得符合业务准确度要求的文本关键信息抽取模型,从而具备较强的适用性。
以下给出本发明的具体实施方法:
采用Python作为主要的编程语言。Python是数据分析领域常用的编程语言,具备强大的文本操作能力,且语言内置了正则表达式执行模块;
采用CRF(条件随机场)算法,作为“模型自动归纳”的算法。条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型特点的算法,是一种无向图模型,目前在中文分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果,也是文本抽取领域最常用的算法。
本发明采用开源的“python-crfsuite”开发包提供的CRF算法实现。特别的,在训练文本关键信息抽取CRF模型时,将文本中正则表达式匹配结果的前后30个字都导入到CRF算法中进行自动训练,得到算法模型(在发明验证的过程中,通过多种场景验证,最终确定采用30个字),如图5所示。
基于开源的PythonWeb框架Flask,结合Web界面技术(HTML/CSS/JS)开发了整体支撑系统。系统可以采用主流的浏览器访问。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (12)

1.一种通用文本信息抽取方法,其特征在于:包括如下步骤:
步骤1、编写限定个数的正则表达式对原始语料进行抽取;
步骤2、从抽取的语料中切割出限定比例的语料作为训练语料;
步骤3、将训练语料通过自动模式归纳方法构建抽取模型;
步骤4、通过该抽取模型进行抽取。
2.如权利要求1所述的一种通用文本信息抽取方法,其特征在于:所述步骤1进一步具体为:编写限定个数的正则表达式对原始语料进行抽取,抽取得到文本语料以及字段语料。
3.如权利要求2所述的一种通用文本信息抽取方法,其特征在于:所述步骤2进一步具体为:从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料,并获取训练文本语料所对应字段语料作为训练字段语料。
4.如权利要求1所述的一种通用文本信息抽取方法,其特征在于:所述步骤3进一步具体为:将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中,构建抽取模型。
5.如权利要求1所述的一种通用文本信息抽取方法,其特征在于:所述自动模式归纳方法为CRF算法。
6.如权利要求1所述的一种通用文本信息抽取方法,其特征在于:所述步骤3与步骤4之间还包括一步骤a、将步骤2中剩余的语料作为验证语料,通过抽取模型对验证语料进行抽取,将抽取结果进行准确性判断,若准确性未达到限定要求,则建立多于之前个数的正则表达式进行语料抽取,进入步骤2。
7.一种通用文本信息抽取系统,其特征在于:包括如下模块:
语料抽取模块,编写限定个数的正则表达式对原始语料进行抽取;
切割模块,从抽取的语料中切割出限定比例的语料作为训练语料;
建模模块,将训练语料通过自动模式归纳方法构建抽取模型;
信息抽取模块,通过该抽取模型进行抽取。
8.如权利要求7所述的一种通用文本信息抽取系统,其特征在于:所述语料抽取模块进一步具体为:编写限定个数的正则表达式对原始语料进行抽取,抽取得到文本语料以及字段语料。
9.如权利要求8所述的一种通用文本信息抽取系统,其特征在于:所述切割模块进一步具体为:从抽取得到的文本语料中切割出限定比例的文本语料作为训练文本语料,并获取训练文本语料所对应字段语料作为训练字段语料。
10.如权利要求1所述的一种通用文本信息抽取系统,其特征在于:所述建模模块进一步具体为:将训练文本语料、训练字段语料以及每个训练字段语料对应的前后限定个数的字段均导入至自动模式归纳方法中,构建抽取模型。
11.如权利要求1所述的一种通用文本信息抽取系统,其特征在于:所述自动模式归纳方法为CRF算法。
12.如权利要求1所述的一种通用文本信息抽取系统,其特征在于:所述建模模块与信息抽取模块之间还包括一检验模块,将切割模块中剩余的语料作为验证语料,通过抽取模型对验证语料进行抽取,将抽取结果进行准确性判断,若准确性未达到限定要求,则建立多于之前个数的正则表达式进行语料抽取,进入切割模块。
CN201711121932.1A 2017-11-14 2017-11-14 一种通用文本信息抽取方法以及系统 Pending CN107977345A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711121932.1A CN107977345A (zh) 2017-11-14 2017-11-14 一种通用文本信息抽取方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711121932.1A CN107977345A (zh) 2017-11-14 2017-11-14 一种通用文本信息抽取方法以及系统

Publications (1)

Publication Number Publication Date
CN107977345A true CN107977345A (zh) 2018-05-01

Family

ID=62013543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711121932.1A Pending CN107977345A (zh) 2017-11-14 2017-11-14 一种通用文本信息抽取方法以及系统

Country Status (1)

Country Link
CN (1) CN107977345A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582772A (zh) * 2018-11-27 2019-04-05 平安科技(深圳)有限公司 合同信息提取方法、装置、计算机设备和存储介质
CN110196925A (zh) * 2019-04-19 2019-09-03 北京戴纳实验科技有限公司 一种用于实验室工程设计的信息检索系统
CN110991637A (zh) * 2019-11-27 2020-04-10 国网能源研究院有限公司 一种公司形象提升系统的社交网络数据提取方法及系统
CN111104798A (zh) * 2018-10-27 2020-05-05 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
CN113505201A (zh) * 2021-07-29 2021-10-15 宁波薄言信息技术有限公司 一种基于SegaBert预训练模型的合同抽取方法
CN113536768A (zh) * 2021-07-14 2021-10-22 福建亿榕信息技术有限公司 一种基于正则表达式建立文本抽取模型的方法及设备
US11823478B2 (en) 2022-04-06 2023-11-21 Oracle International Corporation Pseudo labelling for key-value extraction from documents
US11989964B2 (en) 2021-11-11 2024-05-21 Oracle International Corporation Techniques for graph data structure augmentation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101180589B1 (ko) * 2011-03-31 2012-09-06 포항공과대학교 산학협력단 한국어 개방형 정보 추출 방법 및 이를 수행하는 프로그램을 기록한 기록매체
CN106776866A (zh) * 2016-11-29 2017-05-31 首都师范大学 一种对高校网站上的会议稿进行知识抽取的方法
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN107247739A (zh) * 2017-05-10 2017-10-13 浙江大学 一种基于因子图的金融公报文本知识提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101180589B1 (ko) * 2011-03-31 2012-09-06 포항공과대학교 산학협력단 한국어 개방형 정보 추출 방법 및 이를 수행하는 프로그램을 기록한 기록매체
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN106776866A (zh) * 2016-11-29 2017-05-31 首都师范大学 一种对高校网站上的会议稿进行知识抽取的方法
CN107247739A (zh) * 2017-05-10 2017-10-13 浙江大学 一种基于因子图的金融公报文本知识提取方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104798A (zh) * 2018-10-27 2020-05-05 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
CN111104798B (zh) * 2018-10-27 2023-04-21 北京智慧正安科技有限公司 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质
CN109582772A (zh) * 2018-11-27 2019-04-05 平安科技(深圳)有限公司 合同信息提取方法、装置、计算机设备和存储介质
CN110196925A (zh) * 2019-04-19 2019-09-03 北京戴纳实验科技有限公司 一种用于实验室工程设计的信息检索系统
CN110196925B (zh) * 2019-04-19 2020-03-20 北京戴纳实验科技有限公司 一种用于实验室工程设计的信息检索系统
CN110991637A (zh) * 2019-11-27 2020-04-10 国网能源研究院有限公司 一种公司形象提升系统的社交网络数据提取方法及系统
CN110991637B (zh) * 2019-11-27 2023-06-16 国网能源研究院有限公司 一种公司形象提升系统的社交网络数据提取方法及系统
CN113536768A (zh) * 2021-07-14 2021-10-22 福建亿榕信息技术有限公司 一种基于正则表达式建立文本抽取模型的方法及设备
CN113505201A (zh) * 2021-07-29 2021-10-15 宁波薄言信息技术有限公司 一种基于SegaBert预训练模型的合同抽取方法
US11989964B2 (en) 2021-11-11 2024-05-21 Oracle International Corporation Techniques for graph data structure augmentation
US11823478B2 (en) 2022-04-06 2023-11-21 Oracle International Corporation Pseudo labelling for key-value extraction from documents

Similar Documents

Publication Publication Date Title
CN107977345A (zh) 一种通用文本信息抽取方法以及系统
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN108763353B (zh) 基于规则和远程监督的百度百科关系三元组抽取方法
KR101813683B1 (ko) 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN110321432A (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN110532563A (zh) 文本中关键段落的检测方法及装置
Sanyal et al. Resume parser with natural language processing
CN109902271A (zh) 基于迁移学习的文本数据标注方法、装置、终端及介质
CN107451118A (zh) 基于弱监督深度学习的句子级情感分类方法
CN110704890A (zh) 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法
Rashid et al. Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining
CN110851593B (zh) 一种基于位置与语义的复值词向量构建方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN108388554A (zh) 基于协同过滤注意力机制的文本情感识别系统
CN111742322A (zh) 用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN110705306B (zh) 一种作文文题一致性的测评方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination