CN111506696A - 基于少量训练样本的信息抽取方法及装置 - Google Patents
基于少量训练样本的信息抽取方法及装置 Download PDFInfo
- Publication number
- CN111506696A CN111506696A CN202010138072.8A CN202010138072A CN111506696A CN 111506696 A CN111506696 A CN 111506696A CN 202010138072 A CN202010138072 A CN 202010138072A CN 111506696 A CN111506696 A CN 111506696A
- Authority
- CN
- China
- Prior art keywords
- training
- extracted
- information
- text
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于少量训练样本的信息抽取方法及装置,涉及数据处理技术领域,为解决现有技术中不能得到待提取文本的有效目标文本信息的问题而发明。该方法主要包括:获取训练样本,所述训练样本是已标注的待抽取关键信息的文本;根据BERT语言模型,提取所述训练样本中每个句子的样本特征向量;根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型;根据所述文本预测模型,抽取待抽取文本的抽取信息。本发明主要应用于信息抽取的过程中。
Description
技术领域
本发明涉及一种数据处理技术领域,特别是涉及一种基于少量训练样本的信息抽取方法及装置。
背景技术
信息抽取是将非结构化的文本包含的信息进行结构化处理,输出固定格式的信息点,从而帮助用户对海量内容进行分类、提取和重构。信息抽取的标签通常包括实体、关系、事件,如抽取时间、地点、关键人物等。信息抽取具有重要意义,由于其能从大量文本中抽取出用户感兴趣的信息框架和内容,可用于信息检索、信息整合等,在情感分析、文本挖掘等方面有丰富的应用场景。
现有技术中,采用获取通用文本提取模型,然后获取少量训练样本,再将训练样本数据通用文本提取模型中进行训练得到通用文本提取模型对训练样本提取得到的训练标准字段,再根据训练标准字段和目标标准字段对通用文本提取模块的参数进行调整,知道满足收敛条件,得到目标文本提取模型,最后将待提取文本输入模板文本提取模型中个,通过目标文本提取模型从待提取文本中得到目标文本信息。
采用上述方法,由于训练样本较少,目标文本信息与训练标注字段可能不一致,导致不能得到待提取文本的有效目标文本信息。
发明内容
有鉴于此,本发明提供一种基于少量训练样本的信息抽取方法及装置,主要目的在于解决现有技术中不能得到待提取文本的有效目标文本信息的问题。
依据本发明一个方面,提供了一种基于少量训练样本的信息抽取方法,包括:
获取训练样本,所述训练样本是已标注的待抽取关键信息的文本;
根据BERT语言模型,提取所述训练样本中每个句子的样本特征向量;
根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型;
根据所述文本预测模型,抽取待抽取文本的抽取信息。
依据本发明另一个方面,提供了一种基于少量训练样本的信息抽取装置,包括:
获取模块,用于获取训练样本,所述训练样本是已标注的待抽取关键信息的文本;
提取模块,用于根据BERT语言模型,提取所述训练样本中每个句子的样本特征量;
训练模块,用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,生成文本预测模型;
抽取模块,用于根据所述文本预测模型,抽取待抽取文本的抽取信息。
根据本发明的又一方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述基于少量训练样本的信息抽取方法对应的操作。
根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于少量训练样本的信息抽取方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种基于少量训练样本的信息抽取方法及装置,首先获取训练样本,然后根据BERT语言模型提取训练样本中每个句子的样本特征量,再根据训练样本、待抽取关键信息和样本特征向量,训练初始模型,得到文本预测模型,最后根据文本预测模型抽取待抽取文本的抽取信息。与现有技术相比,本发明实施例通过基于大规模训练语料的BERT语言模型提取样本特征向量,即使少量的训练样本也能够获取学习到比较全面的待抽取关键信息的特征向量,使得训练后的文本预测模型能够抽取所述待抽取关键信息类似的抽取信息,以获取有效的抽取信息。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种基于少量训练样本的信息抽取方法流程图;
图2示出了本发明实施例提供的另一种基于少量训练样本的信息抽取方法流程图;
图3示出了本发明实施例提供的一种基于少量训练样本的信息抽取装置组成框图;
图4示出了本发明实施例提供的另一种基于少量训练样本的信息抽取装置组成框图;
图5示出了本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例仅需要做少量的标注,即可快速训练所需的文本预测模型,故可以适用多种类型,如合同文本、简历和保险等类型。本发明实施例提供了一种基于少量训练样本的信息抽取方法,如图1所示,该方法包括:
101、获取训练样本。
训练样本是已标注的待抽取关键信息的文本,在本发明实施例中采用少量的训练样本,也可实现对待抽取文本中相似信息的有效抽取。示例性的,需要批量抽取“免租期信息”,则设置“免租期”标签,某训练样本中的“免租期”为2018年1月1日到2018年6月1日,则标注出“2018年1月1日到2018年6月1日”为“免租期”标签,也就是待抽取关键信息。训练样本中包括多篇文档,如标注“免租期”标签的30篇文档。
用户可以通过在线标注工作,对初始文本进行标注,以生成训练样本。用于通过在线标注工具进行标注,随时在线更新和完善标注内容,满足个性化需求,灵活化抽取需求,以保证抽取信息能够适用多种类型文档的信息抽取需求。
训练样本以及标注的待抽取关键信息,共同作为模型训练的基础。在标注过程中,可以根据实际需求设置多个标签,如甲方、乙方、租赁时间、租赁地址和免租期等多个标签,在本发明实施例中对标签的个数不做限定。
102、根据BERT语言模型,提取所述训练样本中每个句子的样本特征向量。
BERT语言模型包括大规模预训练语料,能够弥补训练样本的数量少的问题。BERT语言模型能够作为文本语义特征提取器,以学习中文字词的向量表示。BERT语言模型中的训练语料包括中文wiki、新闻文本、小说等一系列自然语言文本。根据BERT语言模型,提取的训练样本中的每个句子的样本特征向量,是对应句子的向量表示,表示该句子的词语级、句子级和包含上下文的映射结果。
103、根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型。
在训练过程中,将训练样本以及其对应的样本特征向量输入初始模型,经初始模型预测的训练句子与待抽取关键信息所在的句子进行比较,如果两者相同则说明已完成初始模型模型的训练,如果两者不同则说明需要更改初始模型的模型参数继续训练初始模型。当训练结束后,获取初始模型及其模型参数共同构成文本预测模型。
104、根据所述文本预测模型,抽取待抽取文本的抽取信息。
抽取信息与训练样本中的待抽取关键信息的样本特征向量相对应,如果待抽取信息的样本特征向量对应的是“免租期”,那么抽取信息是待抽取文本中与“免租期”相关的文本。
本发明提供了一种基于少量训练样本的信息抽取方法,首先获取训练样本,然后根据BERT语言模型提取训练样本中每个句子的样本特征量,再根据训练样本、待抽取关键信息和样本特征向量,训练文本预测模型,最后根据文本预测模型抽取待抽取文本的抽取信息。与现有技术相比,本发明实施例通过基于大规模训练语料的BERT语言模型提取样本特征向量,即使少量的训练样本也能够获取学习到比较全面的待抽取关键信息的特征向量,使得训练后的文本预测模型能够抽取所述待抽取关键信息类似的抽取信息,以获取有效的抽取信息。
本发明实施例提供了另一种基于少量训练样本的信息抽取方法,如图2所示,该方法包括:
201、获取训练样本。
训练样本是已标注的待抽取关键信息的文本,在本发明实施例中采用少量的训练样本,也可实现对待抽取文本中相似信息的有效抽取。训练样本以及标注的待抽取关键信息,共同作为模型训练的基础。待抽取关键信息的标签类型包括词句标签和段落标签。如某一类租赁合同文本,用户可根据需要设定甲方、乙方、租赁时间、租赁地址、免租期等多个标签。标签类型包括词句标签和段落标签,词句标签是指标注较短信息的标签,如甲方、乙方,标注段落标签是指标注较长信息的标签,如违约条款。
202、根据BERT语言模型,提取所述训练样本中每个句子的样本特征向量。
BERT语言模型包括大规模预训练语料,能够弥补训练样本的数量少的问题。BERT语言模型能够作为文本语义特征提取器,以学习中文字词的向量表示。在前期,创新性地预训练了大规模训练语料并进行实际语句的文字迁移,作为文本语义特征提取器,突破了当前要求大训练样本的技术瓶颈。BERT语言模型中的训练语料包括中文wiki、新闻文本、小说等一系列自然语言文本。根据BERT语言模型,提取的训练样本中的每个句子的样本特征向量,是对应句子的向量表示,表示该句子的词语级、句子级和包含上下文的映射结果。
其中,“词语级、句子级和包含上下文的映射结果”是指向量表示所涵盖的三种数据特征,在同一向量表示中分别采用三种向量分量标识句子特征。示例性的,样本文本为“在完成首次交易后,甲方张三和乙方李四在上海签署协议”,用户标记“张三、李四”,那么特征向量可能为“【0,甲方,乙方】”,其中0表示标注文本为词语级文本,甲方表示“张三”标记的上下文映射结果即标注文本的上位特征,乙方表示“李四”标记的上下文映射结果即标注文本的上位特征。
203、根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型。
初始模型包括潜在语义索引LSI初始模型和条件随机场CRF初始模型。文本预测模型包括LSI预测模型和CRF预测模型。待抽取关键信息的标签类型包括词句标签和段落标签。两种不同的文本预测模型与待抽取关键信息的标签类型是一一对应的,在此基础上训练初始模型具体包括:判断所述待抽取关键信息的标签类型;如果所述标注标签是词句标签,则确定所述文本预测模型是所述LSI模型;如果所述标注标签是段落标签,则确定所述文本预测模型是所述CRF模型;根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练所述LSI初始模型得到所述LSI预测模型,和/或训练所述CRF初始模型得到所述CRF预测模型。
所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练所述LSI初始模型得到所述LSI预测模型,包括:采用所述LSI初始模型,计算特征相似度,所述特征相似度是所述训练样本中每个句子的所述样本特征向量与所述待抽取关键信息所在句子的所述样本特征向量之间的相似度;查找所述特征相似度中相似度最高的所述训练样本中的训练句子;如果所述训练句子中包含所述待抽取关键信息,则结束训练所述LSI初始模型得到所述LSI预测模型;如果所述训练句子中不包含所述待抽取关键信息,则更新LSI参数,重新计算所述特征相似度。
LSI初始模型用于训练待抽取关键信息词汇的语义,以抽取待抽取文本中与抽取关键信息的语义相关的词汇。LSI初始模型的基本思想是文本中的词语词之间不是孤立的,存在着某种潜在的语义关系,通过对训练样本的统计分析,自动挖掘潜在的语义关系,并把这些关系表示成计算机可以理解的模型,在挖掘语义关系过程中同样可以训练同义和多义想象。在训练LSI初始模型的过程中,需要设置低秩逼近的最小误差、主题数等LSI参数,如果训练句子中不包含待抽取关键信息,则按照预置规则更新LSI参数,再根据更新后的LSI参数重新计算特征相识度。LSI参数更新的预置规则包括将最小误差和主题数按照固定步长增加或减小两种更新趋势,每次更新按照一种更新趋势修改一种LSI参数,然后根据更新LSI参数计算得到的特征相似度,如果特征相似度增加,则说明该LSI参数的更新趋势有利于训练LSI初始模型过程的收敛,如果还需要更新LSI参数,则按照该更新趋势继续再次更新LSI参数。在本发明实施例中通过BERT语言模型获取的样本特征向量,以克服训练样本较少的问题。
所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练所述CRF初始模型得到CRF预测模型,包括:将所述训练样本中的各个分句对应的样本特征向量进行拼接;以所述拼接结果和所述待抽取关键信息对应的样本特征向量为输入,训练所述CRF初始模型得到CRF预测模型。训练CRF初始模型,也就是训练CRF初始模型的的模型参数参数,以得到CRF预测模型。将训练样本中的各个分句进行序列标注,在训练过程中通过序列标注区分各个分句的样本特征向量。在将训练样本中的各个分局对应的样本特征向量进行拼接后,拼接结果中也携带序列标注。下载编程软件中的CRF工具包,以训练CRF初始模型。
如果所述标签类型包括所述词句标签和所述段落标签,则根据所述训练样本、所述待抽取关键信息和所述样本特征向量,并行训练所述LSI初始模型和CRF初始模型。按照标注标签的类型,将LSI初始模型和CRF初始模型并行训练,根据训练LSI初始模型和训练CRF初始模型的具体方法,采用并行方式,同时启动两种训练方法,从而大大降低待训练的模型参数量级,保证在10-20量级的标注数据上也可以实现90%的准确率,以实现少样本、高精度、速度快的训练效果。
204、根据所述文本预测模型,抽取待抽取文本的抽取信息。
由于文本预测模型中包括LSI预测模型和CRF预测模型,所以在抽取待抽取文本的抽取信息时,也采用两种模型分别进行抽取信息的抽取,具体包括:采用所述LSI预测模型,抽取所述待抽取文本的LSI信息;采用所述CRF预测模型,抽取所述待抽取文本的CRF信息;合并所述LSI信息和所述CRF信息,生成所述抽取信息。根据标注类型采用不同的算法模型,能够保证最高精准度,同时便于用户进行标签管理。
205、以表格形式展示所述抽取信息。
抽取信息以表格形式展示,直观清晰,以便于用户查看。
本发明提供了一种基于少量训练样本的信息抽取方法,首先获取训练样本,然后根据BERT语言模型提取训练样本中每个句子的样本特征量,再根据训练样本、待抽取关键信息和样本特征向量,训练文本预测模型,最后根据文本预测模型抽取待抽取文本的抽取信息。与现有技术相比,本发明实施例通过基于大规模训练语料的BERT语言模型提取样本特征向量,即使少量的训练样本也能够获取学习到比较全面的待抽取关键信息的特征向量,使得训练后的文本预测模型能够抽取所述待抽取关键信息类似的抽取信息,以获取有效的抽取信息。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种基于少量训练样本的信息抽取装置,如图3所示,该装置包括:
获取模块31,用于获取训练样本,所述训练样本是已标注的待抽取关键信息的文本;
提取模块32,用于根据BERT语言模型,提取所述训练样本中每个句子的样本特征量;
训练模块33,用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型;
抽取模块34,用于根据所述文本预测模型,抽取待抽取文本的抽取信息。
本发明提供了一种基于少量训练样本的信息抽取装置,首先获取训练样本,然后根据BERT语言模型提取训练样本中每个句子的样本特征量,再根据训练样本、待抽取关键信息和样本特征向量,训练文本预测模型,最后根据文本预测模型抽取待抽取文本的抽取信息。与现有技术相比,本发明实施例通过基于大规模训练语料的BERT语言模型提取样本特征向量,即使少量的训练样本也能够获取学习到比较全面的待抽取关键信息的特征向量,使得训练后的文本预测模型能够抽取所述待抽取关键信息类似的抽取信息,以获取有效的抽取信息。
进一步的,作为对上述图2所示方法的实现,本发明实施例提供了另一种基于少量训练样本的信息抽取装置,如图4所示,该装置包括:
获取模块41,用于获取训练样本,所述训练样本是已标注的待抽取关键信息的文本;
提取模块42,用于根据BERT语言模型,提取所述训练样本中每个句子的样本特征量;
训练模块43,用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型;
抽取模块44,用于根据所述文本预测模型,抽取待抽取文本的抽取信息。
进一步地,所述待抽取关键信息的标签类型包括词句标签和段落标签;所述初始模型包括潜在语义索引LSI初始模型和条件随机场CRF初始模型,所述文本预测模型包括LSI预测模型和CRF预测模型;
所述训练模块43,包括:
判断单元431,用于判断所述待抽取关键信息的标签类型;
确定单元432,用于如果所述标注标签是词句标签,则确定所述文本预测模型是所述LSI模型;
确定单元432,用于如果所述标注标签是段落标签,则确定所述文本预测模型是所述CRF模型;
训练单元433,用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练所述LSI初始模型得到所述LSI预测模型,和/或训练所述CRF初始模型得到CRF预测模型。
进一步地,所述训练单元433,包括:
计算子单元4331,用于采用所述LSI初始模型,计算特征相似度,所述特征相似度是所述训练样本中每个句子的所述样本特征向量与所述待抽取关键信息所在句子的所述样本特征向量之间的相似度;
查找子单元4332,用于查找所述特征相似度中相似度最高的所述训练样本中的训练句子;
结束子单元4333,用于如果所述训练句子中包含所述待抽取关键信息,则结束训练所述LSI初始模型得到所述LSI预测模型;
更新子单元4334,用于如果所述训练句子不包含所述待抽取关键信息,则更新LSI参数,重新计算所述特征相似度。
进一步地,所述训练单元423,包括:
拼接子单元4335,用于将所述训练样本中的各个分句对应的样本特征向量进行拼接;
训练子单元4336,用于以所述拼接结果和所述待抽取关键信息对应的样本特征向量为输入,训练所述CRF初始模型得到所述CRF预测模型。
进一步地,所述训练单元423,用于:
如果所述标签类型包括所述词句标签和所述段落标签,则根据所述训练样本、所述待抽取关键信息和所述样本特征向量,并行训练所述LSI初始模型和CRF初始模型。
进一步地,所述抽取模块44,包括:
抽取单元441,用于采用所述LSI预测模型,抽取所述待抽取文本的LSI信息;
所述抽取单元441,还用于采用所述CRF预测模型,抽取所述待抽取文本的CRF信息;
合并单元442,用于合并所述LSI信息和所述CRF信息,生成所述抽取信息。
进一步地,所述方法还包括:
展示模块45,用于所述根据所述文本预测模型,抽取待抽取文本的抽取信息之后,以表格形式展示所述抽取信息。
本发明提供了一种基于少量训练样本的信息抽取装置,首先获取训练样本,然后根据BERT语言模型提取训练样本中每个句子的样本特征量,再根据训练样本、待抽取关键信息和样本特征向量,训练文本预测模型,最后根据文本预测模型抽取待抽取文本的抽取信息。与现有技术相比,本发明实施例通过基于大规模训练语料的BERT语言模型提取样本特征向量,即使少量的训练样本也能够获取学习到比较全面的待抽取关键信息的特征向量,使得训练后的文本预测模型能够抽取所述待抽取关键信息类似的抽取信息,以获取有效的抽取信息。
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于少量训练样本的信息抽取方法。
图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述基于少量训练样本的信息抽取方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
获取训练样本,所述训练样本是已标注的待抽取关键信息的文本;
根据BERT语言模型,提取所述训练样本中每个句子的样本特征向量;
根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型;
根据所述文本预测模型,抽取待抽取文本的抽取信息。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种基于少量训练样本的信息抽取方法,其特征在于,包括:
获取训练样本,所述训练样本是已标注的待抽取关键信息的文本;
根据BERT语言模型,提取所述训练样本中每个句子的样本特征向量;
根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型;
根据所述文本预测模型,抽取待抽取文本的抽取信息。
2.如权利要求1所述的方法,其特征在于,所述待抽取关键信息的标签类型包括词句标签和段落标签;所述初始模型包括潜在语义索引LSI初始模型和条件随机场CRF初始模型;所述文本预测模块包括LSI预测模型和CRF预测模型;
所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型,包括:
判断所述待抽取关键信息的标签类型;
如果所述标注标签是词句标签,则确定所述文本预测模型是所述LSI模型;
如果所述标注标签是段落标签,则确定所述文本预测模型是所述CRF模型;
根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练所述LSI初始模型得到所述LSI预测模型,和/或训练所述CRF初始模型得到所述CRF预测模型。
3.如权利要求2所述的方法,其特征在于,所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练所述LSI初始模型得到所述LSI预测模型,包括:
采用所述LSI初始模型,计算特征相似度,所述特征相似度是所述训练样本中每个句子的所述样本特征向量与所述待抽取关键信息所在句子的所述样本特征向量之间的相似度;
查找所述特征相似度中相似度最高的所述训练样本中的训练句子;
如果所述训练句子中包含所述待抽取关键信息,则结束训练所述LSI初始模型得到所述LSI预测模型;
如果所述训练句子中不包含所述待抽取关键信息,则更新LSI参数,重新计算所述特征相似度。
4.如权利要求2所述的方法,其特征在于,所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练所述CRF初始模型得到所述CRF预测模型,包括:
将所述训练样本中的各个分句对应的样本特征向量进行拼接;
以所述拼接结果和所述待抽取关键信息对应的样本特征向量为输入,训练所述CRF初始模型得到所述CRF预测模型。
5.如权利要2所述的方法,其特征在于,所述根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练所述LSI初始模型得到所述LSI预测模型,和/或训练所述CRF初始模型得到所述CRF预测模型,包括:
如果所述标签类型包括所述词句标签和所述段落标签,则根据所述训练样本、所述待抽取关键信息和所述样本特征向量,并行训练所述LSI初始模型和CRF初始模型。
6.如权利要求2所述的方法,其特征在于,所述根据所述文本预测模型,抽取待抽取文本的抽取信息,包括:
采用所述LSI预测模型,抽取所述待抽取文本的LSI信息;
采用所述CRF预测模型,抽取所述待抽取文本的CRF信息;
合并所述LSI信息和所述CRF信息,生成所述抽取信息。
7.如权利要求1-6任一项所述的方法,其特征在于,所述根据所述文本预测模型,抽取待抽取文本的抽取信息之后,所述方法还包括:
以表格形式展示所述抽取信息。
8.一种基于少量训练样本的信息抽取装置,其特征在于,包括:
获取模块,用于获取训练样本,所述训练样本是已标注的待抽取关键信息的文本;
提取模块,用于根据BERT语言模型,提取所述训练样本中每个句子的样本特征量;
训练模块,用于根据所述训练样本、所述待抽取关键信息和所述样本特征向量,训练初始模型,得到文本预测模型;
抽取模块,用于根据所述文本预测模型,抽取待抽取文本的抽取信息。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的基于少量训练样本的信息抽取方法对应的操作。
10.一种计算机设备,其特征在于,包括:处理器、存储器、通信接口和通信总线、所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于少量训练样本的信息抽取方法对应的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010138072.8A CN111506696A (zh) | 2020-03-03 | 2020-03-03 | 基于少量训练样本的信息抽取方法及装置 |
PCT/CN2020/121886 WO2021174864A1 (zh) | 2020-03-03 | 2020-10-19 | 基于少量训练样本的信息抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010138072.8A CN111506696A (zh) | 2020-03-03 | 2020-03-03 | 基于少量训练样本的信息抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111506696A true CN111506696A (zh) | 2020-08-07 |
Family
ID=71877420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010138072.8A Pending CN111506696A (zh) | 2020-03-03 | 2020-03-03 | 基于少量训练样本的信息抽取方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111506696A (zh) |
WO (1) | WO2021174864A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668316A (zh) * | 2020-11-17 | 2021-04-16 | 国家计算机网络与信息安全管理中心 | word文档关键信息抽取方法 |
WO2021174864A1 (zh) * | 2020-03-03 | 2021-09-10 | 平安科技(深圳)有限公司 | 基于少量训练样本的信息抽取方法及装置 |
CN115600602A (zh) * | 2022-12-13 | 2023-01-13 | 中南大学(Cn) | 一种长文本的关键要素抽取方法、系统及终端设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806565B (zh) * | 2021-11-18 | 2022-03-25 | 中科雨辰科技有限公司 | 一种文本标注的数据处理系统 |
CN114417974B (zh) * | 2021-12-22 | 2023-06-20 | 北京百度网讯科技有限公司 | 模型训练方法、信息处理方法、装置、电子设备和介质 |
CN114357144B (zh) * | 2022-03-09 | 2022-08-09 | 北京大学 | 基于小样本的医疗数值抽取和理解方法及装置 |
CN114970955B (zh) * | 2022-04-15 | 2023-12-15 | 黑龙江省网络空间研究中心 | 基于多模态预训练模型的短视频热度预测方法及装置 |
CN114841274B (zh) * | 2022-05-12 | 2023-02-07 | 百度在线网络技术(北京)有限公司 | 语言模型的训练方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270604A1 (en) * | 2010-04-28 | 2011-11-03 | Nec Laboratories America, Inc. | Systems and methods for semi-supervised relationship extraction |
CN109145089A (zh) * | 2018-08-30 | 2019-01-04 | 中国科学院遥感与数字地球研究所 | 一种基于自然语言处理的层次化专题属性抽取方法 |
CN109241521A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件系统有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN110781276A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083836B (zh) * | 2019-04-24 | 2021-07-06 | 哈尔滨工业大学 | 一种文本预测结果的关键证据抽取方法 |
CN110532563B (zh) * | 2019-09-02 | 2023-06-20 | 苏州美能华智能科技有限公司 | 文本中关键段落的检测方法及装置 |
CN110851596B (zh) * | 2019-10-11 | 2023-06-27 | 平安科技(深圳)有限公司 | 文本分类方法、装置及计算机可读存储介质 |
CN111506696A (zh) * | 2020-03-03 | 2020-08-07 | 平安科技(深圳)有限公司 | 基于少量训练样本的信息抽取方法及装置 |
-
2020
- 2020-03-03 CN CN202010138072.8A patent/CN111506696A/zh active Pending
- 2020-10-19 WO PCT/CN2020/121886 patent/WO2021174864A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270604A1 (en) * | 2010-04-28 | 2011-11-03 | Nec Laboratories America, Inc. | Systems and methods for semi-supervised relationship extraction |
CN109241521A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于引用关系的科技文献高关注度句子提取方法 |
CN109145089A (zh) * | 2018-08-30 | 2019-01-04 | 中国科学院遥感与数字地球研究所 | 一种基于自然语言处理的层次化专题属性抽取方法 |
CN109871451A (zh) * | 2019-01-25 | 2019-06-11 | 中译语通科技股份有限公司 | 一种融入动态词向量的关系抽取方法和系统 |
CN110008472A (zh) * | 2019-03-29 | 2019-07-12 | 北京明略软件系统有限公司 | 一种实体抽取的方法、装置、设备和计算机可读存储介质 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN110781276A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021174864A1 (zh) * | 2020-03-03 | 2021-09-10 | 平安科技(深圳)有限公司 | 基于少量训练样本的信息抽取方法及装置 |
CN112668316A (zh) * | 2020-11-17 | 2021-04-16 | 国家计算机网络与信息安全管理中心 | word文档关键信息抽取方法 |
CN115600602A (zh) * | 2022-12-13 | 2023-01-13 | 中南大学(Cn) | 一种长文本的关键要素抽取方法、系统及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2021174864A1 (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506696A (zh) | 基于少量训练样本的信息抽取方法及装置 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN110020424B (zh) | 合同信息的提取方法、装置和文本信息的提取方法 | |
CN104503998B (zh) | 针对用户查询句的类型识别方法及装置 | |
CN106934069B (zh) | 数据检索方法及系统 | |
CN110705206B (zh) | 一种文本信息的处理方法及相关装置 | |
CN110737758A (zh) | 用于生成模型的方法和装置 | |
CN110598203A (zh) | 一种结合词典的军事想定文书实体信息抽取方法及装置 | |
CN111814465A (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN112035675A (zh) | 医疗文本标注方法、装置、设备及存储介质 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN114595686B (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
US9881000B1 (en) | Avoiding sentiment model overfitting in a machine language model | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN113282762A (zh) | 知识图谱构建方法、装置、电子设备和存储介质 | |
CN112257462A (zh) | 一种基于神经机器翻译技术的超文本标记语言翻译方法 | |
CN111401044A (zh) | 一种标题生成方法、装置、终端设备及存储介质 | |
US20230274084A1 (en) | Facilitating generation of fillable document templates | |
CN113420542B (zh) | 对话生成方法、装置、电子设备及存储介质 | |
CN112668281B (zh) | 基于模板的语料自动化扩充方法、装置、设备及介质 | |
CN112597299A (zh) | 文本的实体分类方法、装置、终端设备和存储介质 | |
CN111597302A (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN115510247A (zh) | 一种电碳政策知识图谱构建方法、装置、设备及存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114139530A (zh) | 同义词提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |