CN114692628A - 样本生成方法、模型训练方法、文本抽取方法和装置 - Google Patents

样本生成方法、模型训练方法、文本抽取方法和装置 Download PDF

Info

Publication number
CN114692628A
CN114692628A CN202210387281.5A CN202210387281A CN114692628A CN 114692628 A CN114692628 A CN 114692628A CN 202210387281 A CN202210387281 A CN 202210387281A CN 114692628 A CN114692628 A CN 114692628A
Authority
CN
China
Prior art keywords
target
determining
text
sample
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210387281.5A
Other languages
English (en)
Inventor
宋濠志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210387281.5A priority Critical patent/CN114692628A/zh
Publication of CN114692628A publication Critical patent/CN114692628A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种样本生成方法、模型训练方法、文本抽取方法和装置,涉及数据处理领域,尤其涉及人工智能、自然语言处理和知识图谱领域。具体实现方案为:确定目标场景语料样本,目标场景语料样本中包括待填充的目标词槽;根据目标词槽的填充条件,确定目标词槽值;以及通过组合目标词槽值和目标场景语料样本,生成训练样本。采用本公开提供的技术方案,可以在训练模型的过程中,减少人工标注的训练样本的数量,从而提高生成训练样本的效率,减少人力成本。

Description

样本生成方法、模型训练方法、文本抽取方法和装置
技术领域
本公开涉及数据处理技术领域,尤其涉及人工智能、自然语言处理、知识图谱领域,更具体地,本公开提供了一种训练样本的生成方法、深度学习模型的训练方法、文本抽取方法、装置、电子设备、存储介质以及计算机程序产品。
背景技术
知识抽取在数据处理中具有重要作用。知识抽取的目的之一是从待处理文本中抽取一些目标文本。例如从裁判文书中抽取赔偿信息、原告人、被告人、赔付金额等信息,例如从基金公告中抽取公告编号、增持数量、公司名称等信息。
发明内容
本公开提供了一种训练样本的生成方法、深度学习模型的训练方法、文本抽取方法、装置、电子设备、存储介质以及计算机程序产品。
根据本公开的一方面,提供了一种训练样本的生成方法,包括:确定目标场景语料样本,所述目标场景语料样本中包括待填充的目标词槽;根据所述目标词槽的填充条件,确定目标词槽值;以及通过组合所述目标词槽值和所述目标场景语料样本,生成训练样本。
根据本公开的另一方面,提供了一种深度学习模型的训练方法,包括:获取训练样本;以及利用所述训练样本训练深度学习模型;其中,所述训练样本是通过上述训练样本的生成方法生成的。
根据本公开的另一方面,提供了一种文本抽取方法,包括:根据目标触发词,确定待处理文本中的多个候选段落;利用第一深度学习模型处理所述多个候选段落,得到多个目标段落;以及利用第二深度学习模型处理所述多个目标段落,得到所述多个目标段落中的多个目标文本;其中,所述第一深度学习模型和所述第二深度学习模型中的至少一个是利用上述深度学习模型的训练方法训练得到的。
根据本公开的另一方面,提供了一种训练样本的生成装置,包括第一确定模块、第二确定模块和组合模块。第一确定模块用于确定目标场景语料样本,所述目标场景语料样本中包括待填充的目标词槽。第二确定模块用于根据所述目标词槽的填充条件,确定目标词槽值。组合模块用于通过组合所述目标词槽值和所述目标场景语料样本,生成训练样本。
根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括第二获取模块和训练模块。第二获取模块用于获取训练样本。训练模块用于利用所述训练样本训练深度学习模型。所述训练样本是通过上述训练样本的生成装置生成的。
根据本公开的另一方面,提供了一种文本抽取装置,包括候选段落确定模块、第一处理模块和第二处理模块。候选段落确定模块用于根据目标触发词,确定待处理文本中的多个候选段落。第一处理模块用于利用第一深度学习模型处理所述多个候选段落,得到多个目标段落。第二处理模块用于利用第二深度学习模型处理所述多个目标段落,得到所述多个目标段落中的多个目标文本。所述第一深度学习模型和所述第二深度学习模型中的至少一个是利用上述深度学习模型的训练装置训练得到的。
根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的方法。
根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的方法。
根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的训练样本的生成方法、深度学习模型的训练方法、文本抽取方法和装置的应用场景示意图;
图2是根据本公开实施例的训练样本的生成方法的示意流程图;
图3是根据本公开实施例的训练样本的生成方法的示意原理图;
图4是根据本公开另一实施例的训练样本的生成方法的示意流程图;
图5是根据本公开实施例的深度学习模型的训练方法的示意流程图;
图6是根据本公开实施例的深度学习模型的训练方法的示意原理图;
图7是根据本公开实施例的文本抽取方法的示意流程图;
图8是根据本公开实施例的文本抽取方法的示意原理图;
图9是根据本公开实施例的训练样本的生成装置的示意结构框图;
图10是根据本公开实施例的深度学习模型的训练装置的示意结构框图;
图11是根据本公开实施例的文本抽取装置的示意结构框图;以及
图12是用来实施本公开实施例的训练样本的生成方法、深度学习模型的训练方法、文本抽取方法的电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
知识抽取在数据处理中具有重要作用。知识抽取的目的之一是从待处理文本中抽取一些目标文本,待处理文本中可以包括纯文本的段落,也可以包括表格信息,抽取的目标文本可以包括要素的实体、要素的属性、要素的属性值中的至少一个。
例如,在法律领域,可以从裁判文书中抽取赔偿信息、原告人、被告人、赔付金额等要素信息。要素实体可以是“赔偿信息”,要素的属性可以包括“原告人”、“被告人”和“赔偿金额”,要素的属性值可以包括“原告人的具体姓名(例如张三)”、“被告人的具体姓名”和“赔偿金额的具体数值(例如1000)”。通过从裁判文书中提取出要素信息,可以降低人力成本,提高业务效率。
例如,在金融领域,可以从基金公告中抽取公告编号、增持数量、公司名称等要素信息。利用抽取到的要素信息可以辅助完成财报校对,为评估企业风险做出参考。
例如,在医疗领域,可以从问诊单中抽取患者姓名、患者年龄、发病原因、病情现象等要素信息。利用抽取到的要素信息可以快速定位病患,结合知识图谱提供诊断和治疗方案。
图1是根据本公开实施例的训练样本的生成方法、深度学习模型的训练方法、文本抽取方法和装置的应用场景示意图。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如从待处理文本中抽取的目标文本等)反馈给终端设备。
需要说明的是,本公开实施例所提供的训练样本的生成方法、深度学习模型的训练方法、文本抽取方法一般可以由服务器105执行。相应地,本公开实施例所提供的训练样本的生成装置、深度学习模型的训练装置、文本抽取装置一般可以设置于服务器105中。本公开实施例所提供的训练样本的生成方法、深度学习模型的训练方法、文本抽取方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的训练样本的生成装置、深度学习模型的训练装置、文本抽取装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据本公开实施例的训练样本的生成方法的示意流程图。
如图2所示,该训练样本的生成方法200可以包括操作S210至操作S230。
在操作S210,确定目标场景语料样本,目标场景语料样本中包括待填充的目标词槽。
在操作S220,根据目标词槽的填充条件,确定目标词槽值。
在操作S230,通过组合目标词槽值和目标场景语料样本,生成训练样本。
目标场景可以包括法律领域、金融领域、医疗领域、互联网领域等行业领域。目标场景所表示的行业领域可以与待处理文本所处行业领域相同或相近,例如,待处理文本是法律领域中的裁判文书,需要从裁判文书中抽取被告人、原告人、裁决金额等,则目标场景所表示的行业领域可以是法律领域,尤其可以是法律领域中与裁判文书有关的分支领域。
目标场景语料样本可以表示在待处理文本所处行业领域中出现的一些文本,一些文本可以是一句话或者一段话。目标场景语料样本中包括固定文本,同时还包括一部分处于空缺状态的单词,处于空缺状态的单词即为待填充的目标词槽(slot)。
例如,在互联网领域中,目标场景语料样本可以是“{ORG}坐落于{LOC},是一家世界500强企业”,其中,“坐落于”和“是一家世界500强企业”是目标场景语料样本中的固定文本,“{ORG}”和“{LOC}”分别表示待填充的目标词槽。“{ORG}”和“{LOC}”在下文做具体说明,此处不再赘述。
例如,在法律领域中,目标场景语料样本来看可以是“{ORG}赔偿张某{EXP}”,其中,“赔偿张某”是目标场景语料样本中的固定文本,“{ORG}”和“{EXP}”分别表示待填充的目标词槽。{ORG}”和“{EXP}”在下文做具体说明,此处不再赘述。
在一种示例中,可以采用人工对各个行业领域内的文本信息进行总结,得到候选场景语料样本,然后将候选场景语料样本存储在第一知识库中。当需要使用目标场景语料样本时,可以根据所需的目标场景从第一知识库中选择候选场景语料样本,作为目标场景语料样本。
例如,在互联网领域中的公司介绍中出现以下内容:“XX互联网有限公司总部坐落于XX城市的XX大楼”,则与该内容对应的目标场景语料样本可以是“{ORG}坐落于{LOC}”。例如,在法律领域的裁判文书中出现以下内容:“XX互联网有限公司赔偿张某医疗费3000元”,则与该内容对应的目标场景语料样本可以是“{ORG}赔偿张某{EXP}”。
目标词槽是一个抽象内容,每个目标词槽对应一个填充条件,填充条件限定了与该目标词槽相对应的多个目标词槽值共同的属性信息。属性信息可以包括目标词槽值的词性、类型、字符长度中的至少一个,词性可以包括名称、动词、形容词、量词等,类型可以包括人物类型、组织机构类型、地址类型、金额类型等。
目标词槽值是一个具体内容,目标词槽值可以是与要填充的词槽相关的属性信息的属性值。
由于填充条件限定了与该目标词槽相对应的多个目标词槽值共同的属性信息,因此可以根据属性信息确定目标词槽值。
在一种示例中,可以根据属性信息中的词性和类型确定目标词槽值。例如,可以确定候选词,然后在确定候选词的词性与目标词槽对应的预定词性相同,且候选词的类型与目标词槽对应的预定类型相同的情况下,将候选词确定为目标词槽值。
在一些实施例中,可以预先在第二知识库中存储多个候选词,并且每个候选词的属性信息是已知的,例如候选词的词性和类型的已知的。当需要确定目标词槽值时,根据目标词槽的属性信息,从第二知识库中通过随机选择的方式或者其他方式选择候选词作为目标词槽值。第二知识库与第一知识库可以是两个独立的知识库,也可以是同一个知识库。
例如,在一个示例中,目标词槽是{ORG},该目标词槽的填充条件包括:待填充的目标词槽值的词性是名词并且类型是组织机构类型,多个候选词中符合该属性信息的目标词槽值可以包括“第一公司”、“第二公司”、“某互联网有限公司”、“某知识产权代理有限公司”等。
例如,在另一示例中,目标词槽是{LOC},该目标词槽的填充条件包括:待填充的目标词槽值的词性是名词并且类型是地址类型,多个候选词中符合该属性信息的目标词槽值可以包括“第一城市的某个街道”、“第二城市的某个区”、“第三城市的某个区的某座大楼”等。
例如,目标词槽是{EXP},该目标词槽的填充条件包括:待填充的目标词槽值的词性是名称并且类型包括金额类型,多个候选词中符合该属性信息的目标词槽值可以包括“医疗费10000元”、“精神损害抚慰金5000元”、“误工费1000元”等。
本实施例通过词性和类型确定目标词槽值,可以提高目标词槽值的准确性,进而避免生成的训练样本与所需的训练样本差异过大。
应当理解,在其他示例中,也可以不根据属性信息中的词性和类型确定目标词槽值,而是根据属性信息中的其他信息来确定目标词槽值。例如,可以仅根据属性信息中的词性确定目标词槽值,或者根据属性信息中的词性和字符长度确定目标词槽值。本公开实施例对确定目标词槽值的方式不做限定。
示例性的,可以在目标场景语料样本中的待填充的目标词槽所在的位置,添加目标词槽值。
例如,目标场景语料样本可以是“{ORG}坐落于{LOC},是一家世界500强企业”,符合“{ORG}”的目标词槽值包括“第一公司”和“某互联网有限公司”,符合“{LOC}”的目标词槽值包括“第一城市的某个街道”。则生成的一个训练样本可以包括“第一公司坐落于第一城市的某个街道,是一家世界500强企业”和“某互联网有限公司坐落于第一城市的某个街道,是一家世界500强企业”。
本公开实施例提供的技术方案通过目标场景语料样本和目标词槽值自动生成训练样本,因此可以减少训练模型过程中人工标注的训练样本的数量,从而提高生成训练样本的效率,减少人力成本。
根据本公开另一实施例,确定目标场景语料样本的操作可以包括以下操作:确定预定样本的依存句法分析结果和候选场景语料样本的依存句法分析结果之间的相似度,然后在确定相似度大于等于相似度阈值的情况下,将候选场景语料样本确定为目标场景语料样本。
依存句法分析结果可以是一个有向图G=(V,A),V表示节点,句子(本实施例中句子可以是预定样本和候选场景语料样本)中的每个单词对应一个节点。A表示有向边(Arc),表示单词之间有依存关系,有向边可以具有一个标签(label)来表示具体的依存关系。通过有向边连接的两个单词中,一个单词是核心词(也称为支配词),另一个单词是修饰词(也称为从属词),有向边的方向可以由核心词指向修饰词。
在一种示例中,预定样本可以是人工标注的用于训练深度学习模型的样本,可以标注预定样本的标签,还可以标注预定样本中包含的词槽值。例如,互联网领域中的一个公司介绍中包含以下内容:“XX互联网有限公司总部位于XX城市的XX大楼,是一家世界500强企业”,可以将“XX互联网有限公司总部”标注为词槽值。
在另一种示例中,可以对预定样本中包含的词槽值所对应的词槽进行标注,然后利用词槽替代词槽值,得到预定样本。例如,与词槽值“XX互联网有限公司总部”对应的词槽可以是“{ORG}”,利用词槽替代词槽值之后,预定样本是“{ORG}位于XX城市的XX大楼,是一家世界500强企业”。
在一种示例中,可以从第一知识库中选择候选场景语料样本,例如通过采用ANN(Approximate Nearest Neighbor)检索的方式从第一知识库中召回一部分候选场景语料样本,得到候选列表。
然后可以计算预定样本的依存句法分析结果和候选场景语料样本的依存句法分析结果之间的相似度。若相似度小于相似度阈值,则可以将候选场景语料样本从候选列表中删除;若相似度大于等于相似度阈值,则可以将候选场景语料样本确定为目标场景语料样本。
本公开实施例通过预定样本的依存句法分析结果和候选场景语料样本的依存句法分析结果之间的相似度,确定是否将候选场景语料样本确定为目标场景语料样本,从而避免预定样本和目标场景预料样本的句子结构差异过大,从而确保由目标场景预料样本生成的训练样本的准确性。
根据本公开另一实施例,上述训练样本的生成方法还可以包括以下操作:构建针对预定样本、目标场景语料样本和训练样本中至少一中样本的语法树,然后展示语法树。采用上述技术方案,可以使用户直观了解训练样本的句子结构。
根据本公开另一实施例,在多个训练样本中,由人工标注的训练样本的数量与采用上述训练样本的生成方法所生成的训练样本的数量之间的比值可以是1∶5,当然,该比值可以根据实际需求进行调整。例如,人工标注100个训练样本,采用上述训练样本的生成方法生成500个训练样本。采用上述比例的训练样本可以提高深度学习模型的精度。
图3是根据本公开实施例的训练样本的生成方法的示意原理图。
如图3所示,本实施例中,可以从第一知识库310选择候选场景语料样本320,然后计算候选场景语料样本320的依存句法分析结果与预定样本330的依存句法分析结果之间的相似度340。然后确定相似度340是否大于等于相似度阈值。若否,则可以结束,例如删除候选场景语料样本320。若是,则可以将候选场景语料样本320确定为目标场景语料样本350。还可以根据目标场景语料样本350中的待填充词槽的词性和类型,从第二知识库360中选择目标词槽值370,然后将目标词槽值370和目标场景语料样本350组合,得到训练样本380。
图4是根据本公开另一实施例的训练样本的生成方法的示意流程图。
根据本公开另一实施例,训练样本的生成方法400还可以包括操作S440至操作S470。
以下以训练样本和待处理文本均是金融领域中的基金公告为例,对本公开实施例提供的技术方案进行详细说明。应当理解,训练样本和待处理文本还可以应用于其他行业领域。
在操作S440,获取段落正样本,段落正样本包括段落和与段落满足关联关系的第一标注信息。
在操作S450,将预定标注信息集合中除第一标注信息之外的标注信息,确定为第二标注信息。
在操作S460,根据段落和第二标注信息,确定段落负样本。
在操作S470,将段落负样本确定为训练样本。
例如,待处理文本包括多个段落,可以通过人工标注或者其他方式对基金公告中的每个段落标注第一标注信息,得到段落正样本。
例如标注信息集合为{公告编号、增持数量、公司名称}。某个段落M中的文本包括“公告编号为2021-001”或者“2021-001”,可以看出段落M中存在与“公告编号”有关的信息,则可以将“公告编号_段落M”构建为段落正样本,其中“公告编号”表示与段落M满足关联关系的第一标注信息。
例如,段落M中不存在与“增持数量”和“公司名称”有关的信息,因此可以将“增持数量”和“公司名称”分别确定为第二标注信息。然后可以将“增持数量_段落M”构建为段落负样本,将“公司名称_段落M”构建为段落负样本。
在一些实施例中,可以将段落正样本和段落负样本中的至少一个确定为训练样本,然后利用训练样本对深度学习模型进行训练。
本公开实施例提供的技术方案可以通过段落正样本构建段落负样本,从而提高训练样本的数量,减少人工标注的训练样本的数量。
需要说明的是,操作S440至操作S470和操作S210至操作S230为两个并列方案,本公开实施例对操作S440至操作S470和操作S210至S230的执行顺序不做限定。例如,可先执行操作S210至操作S230,然后执行操作S440至操作S470。也可以先执行操作S440至操作S470,然后执行操作S210至操作S230。也可以同时执行操作S440至操作S470和操作S210至操作S230。也可以仅执行操作S440至操作S470,不执行操作S210至操作S230。
根据本公开另一实施例,关联关系指示了:段落的文本中包括属性值且第一标注信息是与属性值对应的属性名。
例如,段落中的文本包括“XX互联网有限公司”,则与该段落由关联关系的第一标注信息可以是“组织机构”。例如,段落中的文本包括“4月1日”,则与该段落由关联关系的第一标注信息可以是“时间”。
例如,段落中可以包含属性名和属性值,例如段落中的文本包含“被告人张某”,其中“被告人”是属性名,“张某”是属性值。
例如,段落中可以不包含属性名且包含属性值,例如段落中的文本包含“XX互联网有限公司”,其中“XX互联网有限公司”属性值,并且段落的文本不包含属性名“组织机构”。
本公开实施例提供的技术方案中,由于关联关系指示了段落的文本中包括属性值,且第一标注信息是与属性值对应的属性名。因此适用于段落中不包含属性名的情况,适用范围更广。
图5是根据本公开实施例的深度学习模型的训练方法的示意流程图。
如图5所示,该深度学习模型的训练方法500可以包括操作S510~操作S520。
在操作S510,获取训练样本。在一些实施例中,训练样本可以是通过上述训练样本的生成方法生成的。
在操作S520,利用训练样本训练深度学习模型。
本公开实施例提供的技术方案采用上述训练样本的生成方法生成的训练样本来训练深度学习模型,因此可以减少训练深度学习模型过程中人工标注的训练样本的数量,从而提高生成训练样本的效率,进而提高深度学习模型的训练效率。
例如,上述深度学习模型的训练方法可以用于训练分类模型。
例如,上述深度学习模型的训练方法可以用于训练序列标注模型。在训练时,可以标注文本(例如词槽值)在训练样本中的起始位置和结束位置。得到训练好的序列标注模型之后,将目标段落输入序列标注模型,序列标注模型可以识别待抽取的目标文本(例如目标词槽值)在目标段落中的起始位置和结束位置,并根据起始位置和结束位置抽取目标文本。
例如,待处理文本是裁判文书时,可以先使用分类模型从待处理文本中确定多个目标段落,然后使用训练序列标注模型从多个目标段落中提取目标文本,提取的目标文本可以包括裁决金额的具体数值、被告人的具体姓名等。
图6是根据本公开实施例的深度学习模型的训练方法的示意原理图。
如图6所示,本实施例600中,可以从待处理文本610中确定多个段落。例如,待处理文本610中包括多个段落,多个段落分别是段落A、段落B和段落C。
然后可以通过人工标注或者其他方式对多个段落进行标注,得到多个第一训练样本620。在一些实施例中,第一训练样本620可以是上文描述的段落正样本,也可以是上文描述的预定样本。
然后可以基于多个第一训练样本620,进行样本增强处理,得到多个第二训练样本630。在一种示例中,可以采用上文描述的操作S210至操作S230来实现样本增强。在另一种示例中,可以采用上文描述的操作S440至操作S470来实现样本增强。在另一种示例中,可以采用上文描述的操作S210至操作S230和操作S440至操作S470来实现样本增强。
然后可以将多个第一训练样本620和多个第二训练样本630中的至少一部分样本,确定为训练样本640并训练深度学习模型,例如训练分类模型650和序列标注模型660。
图7是根据本公开实施例的文本抽取方法的示意流程图。
如图7所示,该文本抽取方法700可以包括操作S710~操作S730。
在操作S710,根据目标触发词,确定待处理文本中的多个候选段落。
待处理文本可以是基金公告、裁判文书等篇章内容,待处理文本中包括多个原始段落。然后可以根据目标触发词,从多个原始段落中筛选出多个候选段落。例如,目标触发词是“裁定金额”,可以将包含文本“裁定金额”的原始段落确定为候选段落。
在一些实施例中,考虑到多个待处理文本可以具有不同的格式,例如待处理文本的格式可以是PDF、Word、HTML(HyperText Markup Language,超文本标记语言)、网页等格式,可以将待处理文本的格式统一为预定格式,预定格式可以是HTML。
在操作S720,利用第一深度学习模型处理多个候选段落,得到多个目标段落。
例如,第一深度学习模型可以是利用上述深度学习模型的训练方法训练得到的。
在一种示例中,第一深度学习模型可以是分类模型,例如PaddlePaddle(飞桨)分类模型。
分类模型的输入是句子集合S=(S0,......,Sn-1),其中,S0表示第1个句子,以此类推,Sn-1表示第n个句子,句子集合可以涉及至少一个候选段落。分类模型的输出包括针对每个句子的预测类别集合T,得到针对句子集合的预测类别集合T{T0,......,Tn-1},其中,T0表示第1个句子的预测类别集合,以此类推,Tn-1表示第n个句子的预测类别集合。
此外,可以设置概率阈值,概率阈值可以是0.7。例如,经过分类模型处理后得到:第1个句子属于与第一个目标触发词相对应的预测类别的概率是0.9,第1个句子属于与第二个目标触发词相对应的预测类别的概率是0.8,第1个句子属于与其他目标触发词相对应的预测类别的概率均小于0.7,则第1个句子的预测类别集合包括第一个目标触发词和第二个目标触发词。
例如,某个段落包括多个句子,经过分类模型的处理之后,每个句子对应一个预测类别集合T。在该段落中,至少一个句子的预测类别集合T包含与目标触发词相对应的预测类别,则可以将该段落召回,并将该段落确定为目标段落。
在操作S730,利用第二深度学习模型处理多个目标段落,得到多个目标段落中的多个目标文本。
例如,第二深度学习模型可以是利用上述深度学习模型的训练方法训练得到的。
在一种示例中,第二深度学习模型可以是序列标注模型,例如PaddlePaddle序列标注模型。
例如,可以利用序列标注模型对目标段落进行内容提取,提取的目标文本可以包括属性值。例如待处理文本是裁判文书时,提取的目标文本可以包括裁决金额的具体数值、被告人的具体姓名等属性值。
本公开实施例提供的技术方案采用上述深度学习模型的训练方法训练得到的深度模型来抽取目标文本,即使人工标注少量训练样本,也具有较好的抽取效果。
根据本公开另一实施例,本公开实施例提供的文本抽取方法还可以包括以下操作:在得到多个目标段落中的多个目标文本之后,在确定多个目标文本中的至少一个目标文本与预定关键词相同的情况下,根据与预定关键词对应的清洗规则,对至少一个目标文本进行清洗。
例如,可以预先配置词典,词典中包括多个预定关键词,每个预定关节词对应有清洗规则。
在一种示例中,一种清洗规则为将预定关键词替换为另一目标词。例如,预定关键词是“到期日期”,对应的清洗规则可以是将“到期日期”替换为“截止日期”。
在另一种示例中,一种清洗规则为将目标文本中的预定关键词删除。例如,预定关键词是“不详”,对应的清洗规则可以是将“不详”删除。
本公开实施例可以对抽取出的目标文本进行清洗,从而使清洗后的目标文本更加规范。
需要说明的是,在一些实施例中,待处理文本中除了包括段落之外,还可以包括表格信息。
本公开实施例提供的文本抽取方法还可以对表格信息中的目标文本进行抽取,相应地,上述文本抽取方法还包括以下操作:确定待处理文本中包括的表格信息,然后根据目标触发词,确定表格信息中的表头信息,然后确定与表头信息相对应的表值信息。
例如,可以识别表格信息在待处理文本中的位置,然后可以识别表格信息中的文本。例如,可以在抽取表头信息和表值信息之前,预先确定要抽取的属性和属性值。以待处理文本是裁判文书为例,预先确定的要抽取的属性可以包括“被告人”“裁决人”“裁决金额”,然后可以将这些属性设置为目标触发词,然后将表格信息中与目标触发词相同的文本确定为表头信息。
此外,表头信息对应特定类型的表值信息,例如,表头信息a是“被告人”,该表头信息a对应的类型是人名或者公司名,因此可以将表头信息a附近的人名或者公司名确定为与表头信息a对应的表值信息。例如,表头信息b是“裁决金额”,该表头信息a对应的类型是数字(例如大写数字或者小写数字),因此可以将表头信息b附近的数字确定为与表头信息b对应的表值信息。
本公开实施例提供的技术方案还可以从待处理文本中的表格信息中抽取表头信息和表值信息,并将抽取到的表头信息和表值信息作为目标文本,适用范围更广。
根据本公开另一实施例,上述根据目标触发词,确定待处理文本中的多个候选段落的操作,可以包括以下操作:确定待处理文本中的多个原始段落,针对多个原始段落中的每个原始段落,确定每个原始段落中的多个分词。然后确定多个原始段落中的每个分词和多个段落之间的倒排索引。还根据目标触发词,基于预定匹配规则和文本相似度中的至少一个,确定每个分词的评价值。然后根据每个分词的评价值和倒排索引,确定候选段落。
例如,将待处理文本中包含的每个段落,确定为一个原始段落。
例如,将原始段落拆分为句子,然后对句子进行分词操作,从而得到每个原始段落包括的多个分词。
例如,可以将原始段落存储在存储介质中,还可以建立倒排索引。倒排索引指示了分词和该分词所处段落的映射关系,例如,在第1个原始段落、第3个原始段落和第4个原始段落中均出现了分词“被告人”,则分词“被告人”与一个原始段落集合具有映射关系,分词“被告人”是一个索引,原始段落集合中包括第1、3、4个原始段落。
例如,通过目标触发词与分词做检索召回,例如,可以通过预定匹配规则和文本相似度中的至少一个来确定分词的评价值,然后根据评价值做检索召回。
预定匹配规则可以包括完全匹配、模糊匹配和前缀匹配中的至少一个,完全匹配表示分词包括目标触发词的全部文本,模糊匹配表示分词包括目标触发词的一部分文本,前缀匹配表示分词包括目标触发词的前几个文本。
在确定评价值的过程中,可以确定预定匹配规则的第一评价值和文本相似度的第二评价值,然后可以将第一评价值和第二评价值的加权和作为评价值。
例如,将评价值高于评价值阈值的分词确定为目标分词,然后根据倒排索引,将与目标分词具有映射关系的原始段落确定为候选段落。
本公开实施例提供的技术方案基于预定匹配规则和文本相似度中的至少一个,确定每个分词的评价值,并且根据评价值对原始段落进行粗召回,因此能够确保召回的准确率。
图8是根据本公开实施例的文本抽取方法的示意原理图。
如图8所示,本实施例800中,待处理文本810包括原始段落(例如段落A和段落B)和表格信息,待处理文本810可以有多个,多个待处理文本810的格式可以不同,例如多个待处理文本810的格式可以是PDF、Word、HTML、网页等格式。对于待处理文本810是基金公告的情况,从待处理文本810中抽取的目标文本可以包括公告编号、增持数量、公司名称等。
首先,可以对待处理文本810进行预处理。例如,可以将待处理文本810的格式统一为预定格式,预定格式可以是HTML。
然后,可以对预处理后的待处理文本810进行解析,得到待处理文本810中的多个原始段落和多个表格信息。还可以将多个原始段落和表格信息存储至存储介质820中,同时为多个原始段落构建倒排索引。例如,将每个原始段落拆分为句子,对每个句子进行分词处理,然后根据分词和该分词所处的段落建立倒排索引。
然后,可以利用表格抽取模块830识别表格信息中的表格位置和内容,从而确定表格信息中的表头信息和表值信息。
然后,可以利用文本抽取模块840从原始段落中抽取目标文本。文本抽取模块840从原始段落中抽取目标文本的过程可以包括粗召回阶段、精召回阶段和抽取阶段。
在粗召回阶段,可以通过目标触发词与分词做检索召回。例如,根据目标触发词,基于预定匹配规则和文本相似度中的至少一个,确定每个分词的评价值。然后根据每个分词的评价值和倒排索引,确定候选段落。
在精召回阶段,可以利用分类模型处理候选段落,得到目标文本。例如,将多个候选段落输入分类模型,分类模型输出预测结果,然后根据预测结果来确定候选段落是否为目标段落。
在抽取阶段,可以利用序列标注模型处理目标段落,得到目标文本。例如,将目标段落输入序列标注模型,然后序列标注模型输出需要抽取的目标文本。例如,当待处理文本810是金融公告时,需要抽取的目标文本可以包括公告编号、增持数量、公司名称等属性的属性值。例如,当待处理文本810的裁判文书时,需要抽取的目标文本可以包括裁决金额、被告人等属性的属性值。
然后,可以利用清洗模块850对目标文本进行清洗,得到清洗后的目标文本。可以利用词典和清洗规则实现清洗模块850,例如,可以预先配置词典,词典中包括多个预定关键词,每个预定关节词对应一种清洗规则,清洗规则例如可以是将目标文本中的“到期日期”替换为“截止日期”。
图9是根据本公开实施例的训练样本的生成装置的示意结构框图。
如图9所示,该训练样本的生成装置900可以包括第一确定模块910、第二确定模块920和组合模块930。
第一确定模块910用于确定目标场景语料样本,目标场景语料样本中包括待填充的目标词槽。
第二确定模块920用于根据目标词槽的填充条件,确定目标词槽值。
组合模块930用于通过组合目标词槽值和目标场景语料样本,生成训练样本。
根据本公开另一实施例,第一确定模块包括第二确定子模块和第一确定子模块。第一确定子模块用于确定预定样本的依存句法分析结果和候选场景语料样本的依存句法分析结果之间的相似度。第二确定子模块用于在确定相似度大于等于相似度阈值的情况下,将候选场景语料样本确定为目标场景语料样本。
根据本公开另一实施例,第二确定模块包括第三确定子模块和第四确定子模块。第三确定子模块用于确定候选词。第四确定子模块用于在确定候选词的词性与目标词槽对应的预定词性相同,且候选词的类型与目标词槽对应的预定类型相同的情况下,将候选词确定为目标词槽值。
根据本公开另一实施例,上述训练样本的生成装置还包括第一获取模块、标注信息确定模块、负样本确定模块和第三确定模块。第一获取模块用于获取段落正样本,段落正样本包括段落和与段落满足关联关系的第一标注信息。标注信息确定模块用于将预定标注信息集合中除第一标注信息之外的标注信息,确定为第二标注信息。负样本确定模块用于根据段落和第二标注信息,确定段落负样本。第三确定模块用于将段落负样本确定为训练样本。
根据本公开另一实施例,关联关系指示了:段落的文本中包括属性值且第一标注信息是与属性值对应的属性名。
图10是根据本公开实施例的深度学习模型的训练装置的示意结构框图。
如图10所示,该深度学习模型的训练装置1000可以包括第二获取模块1010和训练模块1020。
第二获取模块1010用于获取训练样本。
训练模块1020用于利用训练样本训练深度学习模型。在一些实施例中,训练样本可以是通过上述训练样本的生成装置生成的。
图11是根据本公开实施例的文本抽取装置的示意结构框图。
如图11所示,该文本抽取装置1100可以包括候选段落确定模块1110、第一处理模块1120和第二处理模块1130。
候选段落确定模块1110用于根据目标触发词,确定待处理文本中的多个候选段落。
第一处理模块1120用于利用第一深度学习模型处理多个候选段落,得到多个目标段落。
第二处理模块1130用于利用第二深度学习模型处理多个目标段落,得到多个目标段落中的多个目标文本。第一深度学习模型和第二深度学习模型中的至少一个是利用上述深度学习模型的训练装置训练得到的。
根据本公开另一实施例,文本抽取装置还包括清洗模块,用于在确定多个目标文本中的至少一个目标文本与预定关键词相同的情况下,根据与预定关键词对应的清洗规则,对至少一个目标文本进行清洗。
根据本公开另一实施例,文本抽取装置还包括表格确定模块、表头确定模块和表值确定模块。表格确定模块用于确定待处理文本中包括的表格信息。表头确定模块用于根据目标触发词,确定表格信息中的表头信息。表值确定模块用于确定与表头信息相对应的表值信息。
根据本公开另一实施例,候选段落确定模块包括原始段落确定子模块、分词确定子模块、倒排索引确定子模块、评价值确定子模块以及候选段落确定子模块。原始段落确定子模块用于确定待处理文本中的多个原始段落。分词确定子模块用于针对多个原始段落中的每个原始段落,确定每个原始段落中的多个分词。倒排索引确定子模块用于确定多个原始段落中的每个分词和多个段落之间的倒排索引。评价值确定子模块用于根据目标触发词,基于预定匹配规则和文本相似度中的至少一个,确定每个分词的评价值。候选段落确定子模块用于根据每个分词的评价值和倒排索引,确定候选段落。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
根据本公开的实施例,本公开还提供了一种电子设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述训练样本的生成方法、深度学习模型的训练方法、文本抽取方法中的至少一个。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述训练样本的生成方法、深度学习模型的训练方法、文本抽取方法中的至少一个。
根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述训练样本的生成方法、深度学习模型的训练方法、文本抽取方法中的至少一个。
图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图12所示,设备1200包括计算单元1201,其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序,来执行各种适当的动作和处理。在RAM 1203中,还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。
设备1200中的多个部件连接至I/O接口1205,包括:输入单元1206,例如键盘、鼠标等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如上述训练样本的生成方法、深度学习模型的训练方法、文本抽取方法中的至少一个。例如,在一些实施例中,上述训练样本的生成方法、深度学习模型的训练方法、文本抽取方法中的至少一个可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM1203并由计算单元1201执行时,可以执行上文描述的上述训练样本的生成方法、深度学习模型的训练方法、文本抽取方法中的至少一个的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述训练样本的生成方法、深度学习模型的训练方法、文本抽取方法中的至少一个。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (23)

1.一种训练样本的生成方法,包括:
确定目标场景语料样本,所述目标场景语料样本中包括待填充的目标词槽;
根据所述目标词槽的填充条件,确定目标词槽值;以及
通过组合所述目标词槽值和所述目标场景语料样本,生成训练样本。
2.根据权利要求1所述的方法,其中,所述确定目标场景语料样本包括:
确定预定样本的依存句法分析结果和候选场景语料样本的依存句法分析结果之间的相似度;以及
在确定相似度大于等于相似度阈值的情况下,将所述候选场景语料样本确定为所述目标场景语料样本。
3.根据权利要求1所述的方法,其中,所述根据所述目标词槽的填充条件,确定目标词槽值包括:
确定候选词;以及
在确定所述候选词的词性与所述目标词槽对应的预定词性相同,且所述候选词的类型与所述目标词槽对应的预定类型相同的情况下,将所述候选词确定为所述目标词槽值。
4.根据权利要求1至3中任意一项所述的方法,还包括:
获取段落正样本,所述段落正样本包括段落和与所述段落满足关联关系的第一标注信息;
将预定标注信息集合中除所述第一标注信息之外的标注信息,确定为第二标注信息;
根据所述段落和所述第二标注信息,确定段落负样本;以及
将所述段落负样本确定为训练样本。
5.根据权利要求4所述的方法,其中,所述关联关系指示了:所述段落的文本中包括属性值且所述第一标注信息是与所述属性值对应的属性名。
6.一种深度学习模型的训练方法,包括:
获取训练样本;以及
利用所述训练样本训练深度学习模型;
其中,所述训练样本是通过权利要求1至5中任意一项所述的方法生成的。
7.一种文本抽取方法,包括:
根据目标触发词,确定待处理文本中的多个候选段落;
利用第一深度学习模型处理所述多个候选段落,得到多个目标段落;以及
利用第二深度学习模型处理所述多个目标段落,得到所述多个目标段落中的多个目标文本;
其中,所述第一深度学习模型和所述第二深度学习模型中的至少一个是利用权利要求6所述的方法训练得到的。
8.根据权利要求7所述的方法,还包括:在得到所述多个目标段落中的多个目标文本之后,
在确定所述多个目标文本中的至少一个目标文本与预定关键词相同的情况下,根据与所述预定关键词对应的清洗规则,对所述至少一个目标文本进行清洗。
9.根据权利要求7所述的方法,还包括:
确定所述待处理文本中包括的表格信息;
根据所述目标触发词,确定所述表格信息中的表头信息;以及
确定与所述表头信息相对应的表值信息。
10.根据权利要求7至9中任意一项所述的方法,其中,所述根据目标触发词,确定待处理文本中的多个候选段落包括:
确定所述待处理文本中的多个原始段落;
针对所述多个原始段落中的每个原始段落,确定所述每个原始段落中的多个分词;
确定所述多个原始段落中的每个分词和所述多个段落之间的倒排索引;
根据所述目标触发词,基于预定匹配规则和文本相似度中的至少一个,确定所述每个分词的评价值;以及
根据所述每个分词的评价值和所述倒排索引,确定所述候选段落。
11.一种训练样本的生成装置,包括:
第一确定模块,用于确定目标场景语料样本,所述目标场景语料样本中包括待填充的目标词槽;
第二确定模块,用于根据所述目标词槽的填充条件,确定目标词槽值;以及
组合模块,用于通过组合所述目标词槽值和所述目标场景语料样本,生成训练样本。
12.根据权利要求11所述的装置,其中,所述第一确定模块包括:
第一确定子模块,用于确定预定样本的依存句法分析结果和候选场景语料样本的依存句法分析结果之间的相似度;以及
第二确定子模块,用于在确定相似度大于等于相似度阈值的情况下,将所述候选场景语料样本确定为所述目标场景语料样本。
13.根据权利要求11所述的装置,其中,所述第二确定模块包括:
第三确定子模块,用于确定候选词;以及
第四确定子模块,用于在确定所述候选词的词性与所述目标词槽对应的预定词性相同,且所述候选词的类型与所述目标词槽对应的预定类型相同的情况下,将所述候选词确定为所述目标词槽值。
14.根据权利要求11至13中任意一项所述的装置,还包括:
第一获取模块,用于获取段落正样本,所述段落正样本包括段落和与所述段落满足关联关系的第一标注信息;
标注信息确定模块,用于将预定标注信息集合中除所述第一标注信息之外的标注信息,确定为第二标注信息;
负样本确定模块,用于根据所述段落和所述第二标注信息,确定段落负样本;以及
第三确定模块,用于将所述段落负样本确定为训练样本。
15.根据权利要求14所述的装置,其中,所述关联关系指示了:所述段落的文本中包括属性值且所述第一标注信息是与所述属性值对应的属性名。
16.一种深度学习模型的训练装置,包括:
第二获取模块,用于获取训练样本;以及
训练模块,用于利用所述训练样本训练深度学习模型;
其中,所述训练样本是通过权利要求11至15中任意一项所述的装置生成的。
17.一种文本抽取装置,包括:
候选段落确定模块,用于根据目标触发词,确定待处理文本中的多个候选段落;
第一处理模块,用于利用第一深度学习模型处理所述多个候选段落,得到多个目标段落;以及
第二处理模块,用于利用第二深度学习模型处理所述多个目标段落,得到所述多个目标段落中的多个目标文本;
其中,所述第一深度学习模型和所述第二深度学习模型中的至少一个是利用权利要求16所述的装置训练得到的。
18.根据权利要求17所述的装置,还包括:
清洗模块,用于在确定所述多个目标文本中的至少一个目标文本与预定关键词相同的情况下,根据与所述预定关键词对应的清洗规则,对所述至少一个目标文本进行清洗。
19.根据权利要求17所述的装置,还包括:
表格确定模块,用于确定所述待处理文本中包括的表格信息;
表头确定模块,用于根据所述目标触发词,确定所述表格信息中的表头信息;以及
表值确定模块,用于确定与所述表头信息相对应的表值信息。
20.根据权利要求17至19中任意一项所述的装置,其中,所述候选段落确定模块包括:
原始段落确定子模块,用于确定所述待处理文本中的多个原始段落;
分词确定子模块,用于针对所述多个原始段落中的每个原始段落,确定所述每个原始段落中的多个分词;
倒排索引确定子模块,用于确定所述多个原始段落中的每个分词和所述多个段落之间的倒排索引;
评价值确定子模块,用于根据所述目标触发词,基于预定匹配规则和文本相似度中的至少一个,确定所述每个分词的评价值;以及
候选段落确定子模块,用于根据所述每个分词的评价值和所述倒排索引,确定所述候选段落。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的方法。
CN202210387281.5A 2022-04-13 2022-04-13 样本生成方法、模型训练方法、文本抽取方法和装置 Pending CN114692628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210387281.5A CN114692628A (zh) 2022-04-13 2022-04-13 样本生成方法、模型训练方法、文本抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210387281.5A CN114692628A (zh) 2022-04-13 2022-04-13 样本生成方法、模型训练方法、文本抽取方法和装置

Publications (1)

Publication Number Publication Date
CN114692628A true CN114692628A (zh) 2022-07-01

Family

ID=82142482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210387281.5A Pending CN114692628A (zh) 2022-04-13 2022-04-13 样本生成方法、模型训练方法、文本抽取方法和装置

Country Status (1)

Country Link
CN (1) CN114692628A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146623A (zh) * 2022-07-26 2022-10-04 北京有竹居网络技术有限公司 文本词替换方法、装置、存储介质及电子设备
CN115934937A (zh) * 2022-11-29 2023-04-07 北京百度网讯科技有限公司 文本分类模型的训练方法、文本分类方法及装置
CN117057329A (zh) * 2023-10-13 2023-11-14 赞塔(杭州)科技有限公司 表格数据处理方法及装置、计算设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146623A (zh) * 2022-07-26 2022-10-04 北京有竹居网络技术有限公司 文本词替换方法、装置、存储介质及电子设备
CN115934937A (zh) * 2022-11-29 2023-04-07 北京百度网讯科技有限公司 文本分类模型的训练方法、文本分类方法及装置
CN115934937B (zh) * 2022-11-29 2024-01-23 北京百度网讯科技有限公司 文本分类模型的训练方法、文本分类方法及装置
CN117057329A (zh) * 2023-10-13 2023-11-14 赞塔(杭州)科技有限公司 表格数据处理方法及装置、计算设备
CN117057329B (zh) * 2023-10-13 2024-01-26 赞塔(杭州)科技有限公司 表格数据处理方法及装置、计算设备

Similar Documents

Publication Publication Date Title
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
US8938384B2 (en) Language identification for documents containing multiple languages
CN114692628A (zh) 样本生成方法、模型训练方法、文本抽取方法和装置
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
CN108319586B (zh) 一种信息提取规则的生成和语义解析方法及装置
CN108536868B (zh) 社交网络上短文本数据的数据处理方法及装置
CN111143505A (zh) 文档处理方法、装置、介质及电子设备
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
JP7254925B2 (ja) 改良されたデータマッチングのためのデータレコードの字訳
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN111259160A (zh) 知识图谱构建方法、装置、设备及存储介质
US20190303437A1 (en) Status reporting with natural language processing risk assessment
CN114579104A (zh) 数据分析场景的生成方法、装置、设备及存储介质
CN114595661A (zh) 用于评审投标文件的方法、设备和介质
CN113806660A (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
JP5400496B2 (ja) 決算書の分析結果に基づく記事を作成するシステム
CN113836316A (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN110008807A (zh) 一种合同内容识别模型的训练方法、装置及设备
CN114036921A (zh) 一种政策信息匹配方法和装置
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
JP5963310B2 (ja) 情報処理装置、情報処理方法、及び、情報処理プログラム
CN107038183B (zh) 网页标注方法及装置
CN111144122A (zh) 评价处理方法、装置和计算机系统及介质
CN115600592A (zh) 文本内容的关键信息提取方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination