CN108984683A - 结构化数据的提取方法、系统、设备及存储介质 - Google Patents

结构化数据的提取方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN108984683A
CN108984683A CN201810717120.1A CN201810717120A CN108984683A CN 108984683 A CN108984683 A CN 108984683A CN 201810717120 A CN201810717120 A CN 201810717120A CN 108984683 A CN108984683 A CN 108984683A
Authority
CN
China
Prior art keywords
line
identification
submodel
model
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810717120.1A
Other languages
English (en)
Other versions
CN108984683B (zh
Inventor
戴岱
高原
贾巍
肖欣延
吴甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810717120.1A priority Critical patent/CN108984683B/zh
Publication of CN108984683A publication Critical patent/CN108984683A/zh
Application granted granted Critical
Publication of CN108984683B publication Critical patent/CN108984683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种结构化数据的提取方法、系统、设备及存储介质。所述方法包括:通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据;通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整;通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。本发明实施例可以根据用户的定制数据更新识别模型,降低规则定制难度以及规则修改难度,减少文本抽取和结构化的实现成本。

Description

结构化数据的提取方法、系统、设备及存储介质
技术领域
本发明实施例涉及数据解析技术,尤其涉及一种结构化数据的提取方法、系统、设备及存储介质。
背景技术
互联网中存在巨量非结构化文本数据,其中,非结构化文本数据是指不方便用数据库的二维逻辑表来表现的数据,这种数据往往蕴含着大量的信息和知识,但由于不好提取而很难被利用。如果能有效的整理成为结构化数据,典型是形成{属性名,属性值}这种的属性对结构化数据,则对各领域技术人员来说将是非常方便查找的,有巨大的利用价值。
例如,非结构化文本为“本庭由XX市XX区XX法院副庭长用户A担任审判长,与审判员用户B、人民陪审员用户C组成合议庭,由审判员用户B主审本案,由本院书记员用户 D担任法庭记录”。可以将该非结构化文本转换为结构化数据,具体如表1所示,由此可见,结构化数据可以便于快速查看和理解、进行精确的语义检索、且更容易被智能设备利用(如辅助诊断、辅助断案),从而能够极大提高数据的利用价值。
表1结构化数据
序号 姓名 角色 是否为主审
1 用户A 审判长
2 用户B 审判员
3 用户C 人民陪审员
4 用户D 书记员
现有技术从无结构化文本数据中提取结构化数据的方式,通常使用开放信息抽取技术 (OpenIE),主要通过命名实体识别技术和依存分析技术来分析句子中的实体和语法结构,再通过语法或上下文的一些启发性规则(这些规则通常是人工设定的)进行抽取和结构化;面向专业领域时(如医疗等),由于缺少适配且精度较高的命名实体识别和依存分析工具,往往只能通过人工或使用一些简单的上下文规则进行抽取。
因此,现有技术要解决的技术问题是:
1)通用领域能够抽取和结构化的数据范围比较局限(受限于通用实体识别,通常只能识别人名、地名、机构名等),并且抽取的准确率较低(受限于依存分析和规则),通常不支持定制化或定制比较困难(需要专业的人员来挖掘和制定抽取规则)。
2)无法解决或需要依赖大量人力来解决专业领域的深度定制需求。
综上,现有技术需要提供能够进行专业领域结构化数据识别的解决方案,并且尽量减少人力的投入。
发明内容
本发明实施例提供一种结构化数据的提取方法、系统、设备及存储介质,可以降低规则定制难度以及规则修改难度,减少文本抽取和结构化的实现成本。
第一方面,本发明实施例提供了一种结构化数据的提取方法,包括:
通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据;
通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整;
通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
第二方面,本发明实施例还提供了一种结构化数据的提取系统,包括:
线上识别子系统,用于基于线上识别模型对输入文本进行识别,以输出结构化数据;
线下标注子系统,用于通过定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面实施例中所述的结构化数据的提取方法。
第四方面,本发明实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面实施例中所述的结构化数据的提取方法。
本发明实施例通过将结构化数据的提取系统设置为线上识别子系统和线下标注子系统两部分,并通过线下标注子系统根据接收到用户的定制数据调整线下识别模型,进而在线上识别子系统中更新与线下识别模型对应的线上识别模型,解决了现有技术中抽取规则难以定制以及难以修改的问题,实现根据用户的定制数据自动实时更新识别模型,降低规则定制难度以及规则修改难度,减少文本抽取和结构化的实现成本以及人力成本,提高文本抽取和结构化的效率,同时及时更新识别模型,提高文本抽取和结构化的准确性,满足用户与时俱进、个性化、多样化的需求。
附图说明
图1是本发明实施例一中提供的一种结构化数据的提取方法的流程图;
图2是本发明实施例二中提供的一种结构化数据的提取方法的流程图;
图3a是本发明实施例三中提供的一种结构化数据的提取方法的流程图;
图3b是本发明实施例三中提供的一种实体识别子系统的结构示意图;
图3c是本发明实施例三中提供的一种识别模型的网络结构的示意图;
图3d是本发明实施例三中提供的一种定制实体识别模型训练的示意图;
图4a是本发明实施例四中提供的一种结构化数据的提取方法的流程图;
图4b是本发明实施例四中提供的一种关系识别子系统的结构示意图;
图4c是本发明实施例四中提供的一种识别模型的网络结构的示意图;
图4d是本发明实施例四中提供的一种定制关系识别模型训练的示意图;
图5a是本发明实施例五中提供的一种结构化数据的提取方法的流程图;
图5b是本发明实施例五中提供的一种属性识别子系统的结构示意图;
图5c是本发明实施例五中提供的一种识别模型的网络结构的示意图;
图6a是本发明实施例六中提供的一种结构化数据的提取系统的结构示意图;
图6b是本发明实施例六中提供的一种结构化数据的提取系统的功能框图;
图7是本发明实施例七中提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种结构化数据的提取方法的流程图,本发明实施例可适用于将输入文本转换为结构化数据的情况。该方法可以由本发明实施例提供的结构化数据的提取系统执行,该结构化数据的提取系统可采用软件和/或硬件的方式实现,并可集成于为用户提供文本结构化服务的服务端中。如图1所示,该方法具体包括:
S110,通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据。
在本实施例中,结构化数据的提取系统可分为线上识别子系统和线下标注子系统,线上识别子系统可以是提供数据结构化的服务端,用于面向用户,并按照线下标注子系统根据用户输入的定制条件生成的线上识别模型来识别输入文本,文本识别输出的识别结果可以按照设定格式转化为用户需求的结构化数据。其中,输入文本可以是用户提供的非结构化文本(包括无结构化文本和半结构化文本)、也可以是其他线上识别子系统输出的识别结果。
具体的,对输入文本进行识别可以是指识别文本中的实体、关系(如实体关系、依存关系等)和属性值,相应的,可以对应设置多个线上识别模型分别用于识别输入文本中的实体、关系和属性值。可以理解的是,识别子模型可以是独立的识别模型,例如,只用于识别输入文本中的实体的识别模型;识别子模型还可以是联合识别子模型,例如实体关系联合识别的识别模型。
可选的,线上识别模型包括至少两个识别子模型,则通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据包括:通过线上识别子系统中的至少两个识别子模型分别对输入文本进行识别,以输出识别结果;通过线上识别子系统中的融合干预模块,对至少两个识别结果根据预设干预规则进行筛选过滤,并进行选择或融合。
具体的,可以选择通过多种方式对输入文本进行识别,每种方式对应设置一个识别子模型,例如,识别子模型可以包括基于规则的识别子模型和基于模型(如神经网络模型)的识别子模型。将根据多种方式获取的识别数据进行筛选过滤,具体可以根据预设干预规则实现,例如,可以根据文本识别的置信度投票决定识别结果,如滤除置信度低于设定阈值的识别结果;或者可以滤除重复的识别结果。
由此,通过至少两个识别子模型识别输入文本,并将全部识别子模型输出识别结果进行筛选,可以筛除错误的识别结果,实现提高识别结果的准确性。
S120,通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整。
在本实施例中,线下标注子系统可以是根据获取的用户的定制数据更新调整线上识别子系统中模型的服务端,具体是根据用户的定制数据进行训练,以获取用户的定制模型,从而将定制模型提供给线上识别子系统,以实现线上识别子系统按照用户需求的定制模型对输入文本进行识别,即线下标注子系统相当于线上识别子系统的“后台”。
其中,定制接口可以是指线下标注子系统与用户的交互接口,线下标注子系统通过定制接口获取用户的定制数据。定制数据可以是指需要由用户提供或选择的识别类别、规则、识别范围、识别方式等,而且定制数据与线下标注子系统对应,典型的随着线下标注子系统的功能改变而相应改变,例如线下标注子系统是用于标注实体的子系统,定制数据可以是实体所属的领域、实体的类别、识别实体所应用的词典和规则等。
S130,通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
在本实施例中,线下识别模型可以与线上识别模型对应,甚至相同,线下识别模型的含义可以参考线上识别模型的含义。通常是在后台对线下识别模型进行训练或更新后,将模型参数拷贝至线上识别模型中,保持两个模型同步。可以理解的是,线上识别模型可以包括至少两个识别子模型,对应的,线下识别模型可以包括与线上识别模型中至少两个识别子模型一一对应的至少两个识别子模型,由此,各线上识别子模型可以随着各线下识别子模型更新为当前用户需要的定制模型,从而,线上识别子系统通过各线上识别子模型实现按照用户的定制数据完成输入文本向结构化数据的转换。线下模型的调整,与采用线上模型对文本的转换过程是同步进行的,不限定其执行的先后顺序。
本发明实施例通过将结构化数据的提取系统设置为线上识别子系统和线下标注子系统两部分,并通过线下标注子系统根据接收到用户的定制数据调整线下识别模型,进而在线上识别子系统中更新与线下识别模型对应的线上识别模型,解决了现有技术中抽取规则难以定制以及难以修改的问题,实现根据用户的定制数据自动实时更新识别模型,降低规则定制难度以及规则修改难度,减少文本抽取和结构化的实现成本以及人力成本,提高文本抽取和结构化的效率,同时及时更新识别模型,提高文本抽取和结构化的准确性,满足用户与时俱进、个性化、多样化的需求。
实施例二
图2为本发明实施例二提供的一种结构化数据的提取方法的流程图,本实施例以上述实施例为基础作出了进一步具体化,将步骤:通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整,具体化为:通过线下标注子系统中与识别子模型对应的至少两个模型调整模块的接口,获取用户的定制数据,分别对所述识别子模型进行调整。如图2所示,该方法具体包括:
S210,通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据。
具体的,线上识别子系统可以包括实体识别子系统、关系识别子系统和属性识别子系统,分别用于识别文本中的实体、关系和属性值。
可选的,线上识别模型的识别子模型可以包括规则识别子模型和深度学习识别子模型等类别。每种类别的子模型并不限于为一个,也可以是多个。
其中,规则识别子模型中所应用的规则与线上识别子系统对应,例如,线上识别子系统为实体识别子系统,则相应的,规则识别子模型可以是实体词典或者上下文规则等用于实体识别的规则。规则识别子模型可以根据用户定制的规则实现简单快速文本识别。
深度学习识别子模型可以是采用端对端(End-to-End)的卷积神经网络模型,其中,端对端卷积神经网络模型是指模型的输入为原始数据,同时模型的输出为最终输出结果。深度学习识别子模型可以准确识别文本,同时自身可以通过不断训练提高识别效果。
可以理解的是,采用端对端卷积神经网络模型使模型从原始输入到最终输出,可以缩减人工预处理和后续处理,给模型更多可以根据数据自动调节的空间,增加模型的整体契合度,从而提高模型输出结果的准确率。
此外,规则识别子模型可以通过设定规则对文本进行标注,为深度学习识别子模型提供标注数据,从而,深度学习识别子模型可以根据该标注数据以及人工标注的数据进行训练,可以减少人工标注数据的样本数量。
S220,通过线下标注子系统中与识别子模型对应的至少两个模型调整模块的接口,获取用户的定制数据,分别对所述识别子模型进行调整。
在本实施例中,线上识别子系统、线上识别模型、线下标注子系统以及线下识别模型的含义可参考前述实施例的介绍。
具体的,模型调整模块可以是用于根据用户的定制数据更新对应识别子模型的模块,其中,模型调整模块可以根据与之对应的识别子模型的功能,相应按照不同方式调整识别子模型,典型的,若识别子模型为规则识别子模型,模型调整模块可以按照定制数据调整规则识别子模型中用到的规则、识别内容的类型等;若识别子模型为深度学习识别子模型,模型调整模块可以按照定制数据训练深度学习识别子模型,通过不断调整训练样本和训练方式来调整深度学习识别子模型,甚至可以改选用训练好的通用模型迁移到定制领域的实现调整深度学习识别子模型的目的。
由于在训练模型时,训练样本对模型的影响较大,通过主动学习策略挑选训练样本,并将识别效果不好的样本提供给用户进行人工标注之后重新作为训练样本对模型进行训练,可以提高识别的准确率,以及识别效果;同时可以通过继承已有的通用识别模型,执行快速修改和调整操作,使通用识别模型成为定制识别模型,无需专业的开发人员,降低定制和修改识别模型的难度,同时实现仅通过标注少量文本来矫正模型的识别效果,提高定制和修改识别模型的效率。
S230,通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
本发明实施例通过设置多个模型调整模块分别对应调整各线下识别子模型,可以按照各线下识别子模型的识别内容对各线下识别子模型进行针对性调整,从而实现按照调整后的线下识别模型实时更新线上识别模型,提高调整线上识别模型的灵活性,同时保证线上识别模型的时效性。
在上述实施例的基础上,可选的,识别子模型中包括至少一个深度学习识别子模型,对应的模型调整模块为深度学习训练模块。
具体的,深度学习训练模块可以是用于根据带有标注数据的样本来训练识别子模型的模块,其中,模型调整模块与识别子模型对应,相应的,深度学习训练模块也与深度学习识别子模型对应,若深度学习识别子模型是独立的识别模型,深度学习训练模块根据与深度学习识别子模型的识别内容对应的标注数据训练识别模型;若深度学习识别子模型是联合识别模型,深度学习训练模块需要根据联合标注数据训练识别模型,其中,联合标注数据不依赖于各独立深度学习识别子模型的输出结果,同时其标注方式也与各独立深度学习识别子模型对应的样本中标注数据的标注方式不同。
可选的,在根据用户的定制数据,对深度学习识别子模型进行调整之前还包括:通过其他识别子模型对非结构化文本进行结构化语义标注,形成训练样本,提供给深度学习识别子模型。
具体的,其他识别子模型可以包括规则识别子模型、远监督识别子模型等模型。将由识别子模型自动生成的标注样本作为训练样本,提供给深度学习识别子模型,可以减少预先配置用于训练模型的人工标注样本,从而提高训练学习识别子模型的效率,避免长期人力依赖,降低了人工成本,提高开发效率。
可以理解的是,在完成深度学习识别子模型的初次训练后,后期需要不断更新准确的标注样本来持续训练该深度学习识别子模型,以提高识别效果,可选的,在根据用户的定制数据,对深度学习识别子模型进行调整之前还包括:通过深度学习识别子模型对非结构化文本进行标注,以筛选出对深度学习识别子模型构成参数影响的非结构化文本;将筛选出的非结构化文本通过样本选择模块提供给用户,获取用户进行结构化语义标注的非结构化文本,提供给深度学习识别子模型。
具体的,对深度学习识别子模型构成参数影响的非结构化文本可以是指该非结构化文本的识别效果不好或者不准确,具体可以通过置信度评价非结构化文本,例如对深度学习识别子模型构成参数影响的非结构化文本是指置信度较低(如低于预设阈值)所对应的非结构化文本。而置信度可以通过深度学习识别子模型对非结构化文本进行标注的方式获取,根据各非结构化文本的置信度进行排序,根据排序结果筛选出对深度学习识别子模型构成参数影响的非结构化文本,可以将筛选的非结构化文本提供给用户进行人工标注,并将人工标注的样本作为更新的训练样本提供给深度学习识别子模型。由此,设置样本选择模块通过主动学习技术,精选出需要人工标注的样本,实现减少需要人工标注的样本数量,提高人工标注效率。
实施例三
图3a为本发明实施例三提供的一种结构化数据的提取方法的流程图,本实施例以本发明实施例二为基础作出了进一步具体化,将线上识别子系统具体化为实体识别子系统,同时,识别子模型具体包括词典规则识别子模型和实体深度学习子模型,输入文本具体为非结构化文本。如图3a所示,该方法具体包括:
S310,通过实体识别子系统,基于线上识别模型对非结构化文本进行识别,以输出结构化数据。
在本实施例中,实体识别子系统可以是用于识别实体,其中,实体可以是指人名、机构名、地名以及其他所有以名称为标识的实体,还可以是指时间、数字、货币、地址等。
S320,通过线下标注子系统中与线下识别模型包括的至少两个识别子模型对应的至少两个模型调整模块的接口,获取用户的定制数据,分别对所述识别子模型进行调整,其中,所述识别子模型包括词典规则识别子模型和实体深度学习子模型。
在本实施例中,词典规则识别子模型可以是指采用由专业技术人员构造的存储有实体的词典和规则模板进行匹配识别。需要说明的是,前述实施例中的深度学习识别子模型根据实体识别子系统对应调整为实体深度学习子模型。
S330,通过所述线下标注子系统,根据所述线下识别模型更新所述实体识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
在一个具体的应用场景中,如图3b所示,结构化数据的提取系统包括实体识别子系统 341和用于更新实体识别子系统341中线上识别模型的线下标注子系统348。
其中,实体识别子系统341通过识别模块342对非结构化文本346进行实体识别,并将识别模块342输出的识别结果输入结果融合及干预模块345中进行筛选,其中,识别模块342 包括基于规则的实体识别模块343和基于模型的实体识别模块344。
具体的,基于规则的实体识别模块343采用词典规则识别子模型完成实体识别,典型的,根据用户提供的实体词典或定制的上下文规则完成实体识别,可使用的规则包括正则表达式、前后词、词性的约束等。基于规则的实体识别模块343可以通过简单的配置,快速创建一个初步可用的实体识别子系统,同时可以为初期的深度学习识别子模型提供的标注样本。
基于模型的实体识别模块344采用深度学习识别子模型完成实体识别,其中,根据用户提供的人工标注的标注样本和基于规则的实体识别模块343输出的标注样本,训练一个基于深度学习的实体识别模型。例如可以训练一个端到端的双向长短期记忆网络(LongShort-Term Memory,LSTM)-卷积神经网络(Convolutional Neural Network,CNN)-条件随机场(Conditional Random Field,CRF)模型作为实体深度学习子模型,该模型的具体网络结构如图3c所示,该模型主要由CNN模块、双向LSTM模块和CRF模块组成,其中,CNN 模块主要由字符向量表、卷积层和池化层组成;双向LSTM包括前向LSTM和后向LSTM。具体实现过程可以是:CNN模块通过查询词向量表将输入的语句转换为相应的词向量序列,然后对于语句中的每一个嵌入词,通过查询字符向量表获得嵌入词中每个嵌入字符的字符向量,由字符向量组成嵌入词的字符向量矩阵。基于卷积层和池化层分别对字符向量矩阵进行卷积和池化,获得每个嵌入词的字符级特征。每个嵌入词的字符向量和词向量进行拼接,拼接后的词向量输入双向LSTM模块进行实体识别。最后将双向LSTM模块输出的识别结果输入到CRF模块解码出一个最优的标记序列。
结果融合及干预模块345可以同时考虑基于规则的实体识别模块343和基于模型的实体识别模块344输出的识别结果,并根据识别结果的置信度来投票决定实体结果347。
另一方面,线下标注子系统348用于根据用户确定的实体类别、词典、规则等定制内容调整线下识别模型,并对应更新实体识别子系统341中的线上识别模型,从而达到实现输出定制的结构化数据的目的。具体的,实体类别可以按照领域区分,如通用领域、专业领域(如金融领域、医疗领域)等,不同领域中实体类别不同(包括但不限于人名、地名、公司名等),此外,用户还可以设置是否复用多个实体类别。甚至,用户可以通过线下标注子系统348控制是否发起模型训练操作,将提供的带有标注数据的样本输入到模型中进行训练,使标注数据生效到模型中。
具体的,线下标注子系统348包括词典与规则配置模块349、实体标注模块350、样本选择模块351和模型调整模块352。
词典与规则配置模块349可以根据用户需要增加或减少需要识别的实体类别,接收用户上传的实体词的词典,以及指定实体识别的规则(包括但不限于正则表达式、前后词、词性等)。
实体标注模块350可以接收用户上传包含实体标注数据的文本数据,以及在未标注的文本数据中进行实体标注。具体的,用户可以通过鼠标在文本数据中划定实体的范围,并指定该实体所属的实体类别。
线下标注子系统348通过词典与规则配置模块349和实体标注模块350接收并应用用户的定制数据,为用户提供定制化服务。
样本选择模块351通常与实体标注模块350同时使用,在完成初版实体深度学习子模型的训练后,样本选择模块通过主动学习技术,选择未标注样本中识别置信度较低的样本,提供给用户进行人工标注,可以大幅减少需要标注的样本数量,提高人工标注效率。
模型调整模块352可以提供模型训练功能,根据用户人工标注的样本和规则识别子模型自动标注的样本,训练实体深度学习子模型。同时,模型调整模块352可以利用未标注的样本进行半监督学习来提高识别效果,也可以有选择性的将已经训练好的应用于通用领域的通用识别模型迁移到用户定制的特定领域。
图3d提供了一个定制实体识别模型训练的应用场景的示意图。具体的,用户可以提供未标注的样本361,或者通过实体标注模块350提供人工标注的样本362。未标注的样本361 可以经过基于规则的识别模块343进行标注,成为规则标注的样本363,采用规则标注的样本363进行训练,将训练完成的模型对规则标注的样本363进行识别,获取规则标注的样本 363中各样本的置信度,样本选择模块351根据规则标注的样本363中各样本的置信度,从未标注的样本361中选择与置信度低于设定阈值的规则标注的样本363所对应的未标注样本提供给用户,由用户通过实体标注模块350使之成为人工标注的样本362。将人工标注的样本362和规则标注的样本363输入到模型调整模块352中训练实体深度学习子模型,并将训练完成的实体深度学习子模型作为定制实体识别模型365。同时,定制实体识别模型365输出的标注样本同样需要经过样本选择模块351进行筛选,实现不断主动调整优化训练样本,从而实现不断调整更新定制实体识别模型365。此外,模型调整模块352可以根据用户需要将已经训练好的通用领域的通用实体识别模型364迁移到用户定制的特定领域,通过继承已有模型,执行快速修改和调整操作,使通用实体模型364成为定制实体识别模型365,提供给实体识别子系统341,从而调整实体识别子系统341中对应的线上定制实体识别模型。
实施例四
图4a为本发明实施例四提供的一种结构化数据的提取方法的流程图,本实施例以本发明实施例二为基础作出了进一步具体化,将线上识别子系统具体化为关系识别子系统,同时,识别子模型具体包括关系规则识别子模型、关系深度学习子模型和实体关系联合深度学习子模型,输入文本具体为非结构化文本和/或实体识别结果。如图4a所示,该方法具体包括:
S410,通过关系识别子系统,基于线上识别模型对非结构化文本和/或实体识别结果进行识别,以输出结构化数据。
具体的,关系识别子系统可以是用于识别文本中实体之间的关系,并以三元组形式输出。例如,文本是“用户M(男性)和用户N(女性)的女儿用户L为这部动画电影的主角配音”,可以识别出人名实体“用户M”和人名实体“用户L”之间的关系是父女关系,其输出为(用户M,女儿,用户L)。由此,关系识别需要部分依赖实体识别的结果,以便达到更好的效果,可选的,输入文本可以包括非结构化文本、实体识别结果。
S420,通过线下标注子系统中与线下识别模型包括的至少两个识别子模型对应的至少两个模型调整模块的接口,获取用户的定制数据,分别对所述识别子模型进行调整,其中,所述识别子模型包括关系规则识别子模型、关系深度学习子模型和实体关系联合深度学习子模型。
在本实施例中,实体关系联合深度学习子模型用于同时识别实体和关系,但该模型不需要将实体识别的结果作为输入。
S430,通过所述线下标注子系统,根据所述线下识别模型更新所述关系识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
可选的,根据用户的定制数据,对深度学习识别子模型进行调整之前还包括:从知识库获取实体关系三元组,采用所述实体关系三元组对非结构化文本进行结构化语义标注,作为训练样本提供给所述关系深度学习子模型和实体关系联合深度学习子模型。
具体的,在关系识别技术中,可以采取远监督标注方法对文本中实体之间的关系进行标注,具体是在输入文本中自动标注命中知识库中所存储的实体关系三元组的数据。其中,知识库可以是由用户按照实体关系三元组的格式输入的实体关系三元组形成的数据库。该方法获取的标注样本可以简单快速获取大量的标注数据来训练关系识别模型,但是会带来很多噪声。
在一个具体的应用场景中,如图4b所示,结构化数据的提取系统包括关系识别子系统 441和用于更新关系识别子系统441中识别模型的线下标注子系统442。
其中,关系识别子系统441通过识别模块443对非结构化文本444和/或实体识别结果 445进行关系识别,并将识别模块443输出的识别结果输入结果融合及干预模块446中进行筛选,其中,识别模块443包括基于规则的关系识别模块447、基于模型的关系识别模块448 和实体关系联合识别模块449。
具体的,基于规则的关系识别模块447采用规则识别子模型完成关系识别,典型的,根据用户提供的依存关系规则和上下文规则进行关系抽取。基于规则的关系识别模块447同样可以为初期的关系深度学习子模型供的标注样本。
基于模型的关系识别模块448采用关系深度学习子模型实现关系抽取,其中,根据用户提供的人工标注的标注样本、基于规则的关系识别模块447输出的标注样本以及基于知识库的远监督模块453输出的标注样本,训练一个基于深度学习的关系识别模型。例如可以训练一个端到端的分段(Piecewise)卷积神经网络模型作为关系深度学习子模型,该模型的具体网络结构如图4c所示,该网络结构具体包括卷积层、池化层和分类器层。嵌入词是以向量形式表示,包括单词向量和位置向量,将单词向量和位置向量进行拼接输入到卷积层中进行卷积操作,得到特征图谱。在池化层通过两个实体位置将特征图谱分为三段进行池化,获取两个实体之间的结构化信息,最后,通过softmax分类器进行分类。
实体关系联合识别模块449采用实体关系联合深度学习子模型实现关系抽取,同时对文本中的实体和实体之间的关系进行识别,而且识别结果会对先前的实体和实体之间的关系的识别结果进行补充,其中,实体关系联合识别模块449无需将实体识别结果作为输入也可以实现关系识别。具体的,实体关系联合识别模块449的网络结构与上述实施例三提供的实体深度学习子模型的网络结构(如图3c所示)相同,训练样本中标注数据的标注方式不同,实体关系联合识别模块449的样本需要同时标注实体和实体之间的关系。
结果融合及干预模块446可以同时考虑基于规则的关系识别模块447和基于模型的关系识别模块448输出的识别结果,并根据识别结果的置信度来投票决定关系三元组450。
另一方面,线下标注子系统442用于根据用户确定的关系类别、关系对应的实体类型、关系识别的依存分析规则和上下文规则、构成知识库的实体关系三元组等定制内容调整线下识别模型,并对应更新关系识别子系统441中的线上识别模型,从而达到实现输出定制的结构化数据的目的。而且,与实体类别相同,关系类别可以按照领域区分,用户可以设置是否复用多个关系类别。此外,用户还可以输入训练模型指令,将更新后的训练样本训练模型,以调整模型。
具体的,线下标注子系统442包括关系及规则定制模块451、关系标注模块452、基于知识库的远监督模块453、样本选择模块454和模型调整模块455。
关系及规则定制模块451可以根据用户需要增加或减少需要识别的关系类别、关系类型对应的实体类别,以及指定关系识别的依存分析规则和上下文规则。
关系标注模块452可以接收用户上传包含实体关系三元组标注数据的文本数据,以及在未标注的文本数据中进行实体关系三元组标注。具体的,用户可以通过鼠标在文本数据中点选两个实体,并指定这两个实体对应的关系类别。
线下标注子系统442通过关系及规则定制模块451和关系标注模块452接收并应用用户的定制数据,为用户提供定制化服务。
基于知识库的远监督模块453根据已储存的知识库,采用远监督标注技术对非结构化文本和/或实体识别结果进行标注。
样本选择模块454的具体内容可以参考前述实施例的介绍。
模型调整模块455可以提供模型训练功能,根据用户人工标注的样本、规则识别子模型自动标注的样本和采用远监督技术标注的样本,分别训练关系深度学习子模型和实体关系联合深度学习子模型。由于在采用远监督技术进行标注时会引来噪声,可以通过在训练过程中引入实体间的上下文的相似度信息,实体配对约束规则和距离约束规则,实现对远监督标注的数据进行降噪。
图4d提供了一个定制关系识别模型训练的应用场景的示意图。具体的,用户可以提供未标注的样本461;或者用户可以通过关系标注模块462提供人工标注的样本463;或者用户还可以提供实体关系三元组464,以形成知识库,并通过基于知识库的远监督模块453获取远监督标注的样本465。未标注的样本461可以经过基于规则的关系识别模块447进行标注,成为规则标注的样本466。样本选择模块454可以对远监督标注的样本465和规则标注的样本466进行筛选,并将筛除的标注样本对应的未标注样本提供给用户进行人工标注。将人工标注的样本463、规则标注的样本466和远监督标注的样本465输入到模型调整模块455中分别训练关系深度学习子模型和实体关系联合深度学习子模型,并将训练完成的关系深度学习子模型作为定制关系识别模型467,训练完成的实体关系联合深度学习子模型作为定制联合识别模型468。同时,定制关系识别模型467和定制联合识别模型468输出的标注样本同样需要经过样本选择模块454进行筛选,实现不断主动调整训练样本,从而不断调整定制关系识别模型467和定制联合识别模型468,并提供给关系识别子系统441,从而调整关系识别子系统441中对应的线上定制关系识别模型和定制联合识别模型。
实施例五
图5a为本发明实施例五提供的一种结构化数据的提取方法的流程图,本实施例以本发明实施例二为基础作出了进一步具体化,将线上识别子系统具体化为属性识别子系统,同时,识别子模型具体包括属性规则识别子模型、属性深度学习子模型,输入文本具体为非结构化文本、实体识别结果和/或关系识别结果。如图5a所示,该方法具体包括:
S510,通过属性识别子系统,基于线上识别模型对非结构化文本、实体识别结果和/或关系识别结果进行识别,以输出结构化数据。
在本实施例中,属性识别子系统用于完成非结构化文本向结构化文本(属性对)的转换,可以采用实体识别子系统和关系识别子系统输出的识别结果作为输入。由此,输入文本可以包括非结构化文本、实体识别结果、关系识别结果。
可选的,通过属性识别子系统,基于线上识别模型的识别子模型对输入文本进行识别,以输出结构化数据之前还包括:通过属性识别子系统的文档预处理模块对非结构化文本进行预处理;通过属性识别子系统的属性值定位模块,对非结构文本中的属性值进行初步定位。
具体的,预处理可以是将文本划分为多个分句,分析各分句之间的关系,将联系紧密的分句合并,分析简写词语、指代关系和句法依存关系等操作。定位属性值可以是指出现属性值出现的分句的位置、或者属性值出现的段落的位置,或者按照定制的匹配规则确定属性值出现的位置。
S520,通过线下标注子系统中与识别子模型对应的至少两个模型调整模块的接口,获取用户的定制数据,分别对所述识别子模型进行调整,其中,所述识别子模型包括属性规则识别子模型、属性深度学习子模型。
S530,通过所述线下标注子系统,根据所述线下识别模型更新所述属性识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
在一个具体的应用场景中,如图5b所示,结构化数据的提取系统包括属性识别子系统 541和用于更新属性识别子系统541中识别模型545的线下标注子系统542。
其中,属性识别子系统541可以接收实体识别子系统输出的实体识别结果、关系识别子系统输出的关系识别结果和非结构化文本共同作为输入进行处理,或者也可以独立运行,仅接收非结构化文本作为输入进行处理。识别过程具体为:通过文档预处理模块543对非结构化文本549和/或实体、关系识别结果550进行预处理,再通过属性值定位模块544确定属性值在非结构化文本中出现的位置,然后分别调用基于规则的属性抽取模块546和基于模型的属性抽取模块547进行属性抽取,最后通过结果融合及干预模块548对所有抽取结果进行排序融合,按照配置要求转换结果的格式,形成结构化文本551。
具体的,文档预处理模块543用于将文本划分成多个短句,以通过属性值定位模块544 对属性值所在短句的位置进行查找。属性值定位模块544可以通过获取用户定制的属性名、属性类别和匹配规则等,来判断属性值的位置。
基于规则的属性抽取模块546采用规则识别子模型完成属性抽取,典型的,根据用户提供的属性类型及抽取规则(包括但不限于正则表达式、枚举词典、实体类别等),抽取属性对应的属性值,同时在抽取过程中会考虑距离、实体关系、依存关系等信息,综合计算得到属性抽取结果对应的置信度。规则抽取模块同时会为模型提供训练数据。基于规则的属性抽取模块546同样可以为初期的属性深度学习子模型提供的标注样本。
基于模型的属性抽取模块547采用属性深度学习子模型完成属性抽取,其中,根据用户提供的人工标注的标注样本和基于规则的属性抽取模块546输出的标注样本,训练一个基于深度学习的属性抽取模型。例如可以训练一个端到端的属性深度学习子模型,该模型的具体网络结构如图5c所示,该模型主要由双向LSTM模块、注意力(Attention)模块和指针网络 (Pointer Net)模块组成,用于确定属性值开始位置和结束位置。具体是,双向LSTM编码器将双向LSTM对字符级特征进行识别的输出结果生成编码序列,该编码序列通过Attention 模型(软注意力)以及Attention模式下的池化(注意力池化)操作,获取状态矩阵,输入到答案指针中,生成答案的开始下标和终止下标,即属性值的开始位置和终止位置。
结果融合及干预模块548可以同时考虑基于规则的属性抽取模块和基于模型的属性抽取模块输出的抽取结果,并根据识别结果的置信度来决定属性抽取结果,同时根据定制数据对属性值进行归一化或者格式转换,形成结构化文本551。
另一方面,线下标注子系统542的具体内容可以参照实施例三中实体识别子系统对应的线下标注子系统的介绍。此外,对于通用领域的简单属性来说,线下标注子系统542只需要提供通用属性抽取模型,同时用户只需要在针对可能的抽取错误进行干预,或标注属性的相关内容,重新训练属性抽取模型。
具体的,线下标注子系统542包括属性及规则定制模块552、属性标注模块553、样本选择模块554和模型调整模块555。
属性及规则定制模块552可以获取用户定制的待抽取属性的别名、类型、单多值、是否嵌套、抽取范围、抽取规则、后处理规则等数据。此外,线下标注子系统542会根据用户的配置提供更多的相关规则,帮助用户在规则方面进行扩展,扩展规则包括计算规则描述的相似表达,从知识库中扩展相关表达等。
属性标注模块553可以接收用户上传包含实体标注数据的文本数据、在未标注的文本数据中进行属性标注、以及结构化结果。具体的,用户可以通过鼠标在文本数据中划定属性值的范围,并指定该属性对应的属性名称。
线下标注子系统542通过属性及规则定制模块552和属性标注模块553接收并应用用户的定制数据,为用户提供定制化服务。
样本选择模块554、模型调整模块555可参考前述实施例的介绍;定制属性抽取模型的训练流程可参考前述实施例三中对定制实体识别模型的训练流程的介绍。
实施例六
图6a是本发明实施例六提供的结构化数据的提取系统的示意图。实施例六是实现本发明上述实施例提供的结构化数据的提取方法的相应系统。
线上识别子系统610,用于基于线上识别模型对输入文本进行识别,以输出结构化数据;
线下标注子系统620,用于通过定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
本发明实施例通过将结构化数据的提取系统设置为线上识别子系统和线下标注子系统两部分,并通过线下标注子系统根据接收到用户的定制数据调整线下识别模型,进而在线上识别子系统中更新与线下识别模型对应的线上识别模型,解决了现有技术中抽取规则难以定制以及难以修改的问题,实现根据用户的定制数据自动实时更新识别模型,降低规则定制难度以及规则修改难度,减少文本抽取和结构化的实现成本以及人力成本,提高文本抽取和结构化的效率,同时及时更新识别模型,提高文本抽取和结构化的准确性,满足用户与时俱进、个性化、多样化的需求。
在一个具体的例子中,线上识别子系统和线下标注子系统的功能具体如图6b所示,线上识别子系统主要提供实体识别、关系抽取、属性抽取及结构化等服务,线下标注子系统根据用户的定制数据将调整后的实体识别任务模型、关系识别任务模型和属性抽取结构化任务模型分别对应提供给线上识别子系统,由线上识别子系统根据调整后的任务模型实现非结构化文本(无结构文本和结构化文本)转换为结构化文本。其中,线下标注子系统根据用户通过定制及标注平台提供的定制数据以及标注文本,在各通用模型的基础上进行模型训练,形成用户定制的任务模型。其中,在训练过程中需要采用融合规则、迁移学习半监督学习等模型学习策略不断调整和更新任务模型,提高任务模型的识别效果。
进一步的,所述线上识别模型包括至少两个识别子模型,则线上识别子系统包括:识别模块,用于通过至少两个识别子模型分别对输入文本进行识别,以输出识别结果;结果融合及干预模块,用于对至少两个识别结果根据预设干预规则进行筛选过滤,并进行选择或融合。
进一步的,所述线下标注子系统包括:至少两个模型调整模块;所述模型调整模块,用于通过接口获取用户的定制数据,分别对所述识别子模型进行调整,其中,所述模型调整模块与识别子模型对应。
进一步的,所述识别子模型中包括至少一个深度学习识别子模型,对应的模型调整模块为深度学习训练模块,则所述线下标注子系统还包括:标注模块,用于通过其他识别子模型对非结构化文本进行结构化语义标注,形成训练样本,提供给所述深度学习训练模块。
进一步的,所述识别子模型中包括至少一个深度学习识别子模型,对应的模型调整模块为深度学习训练模块,则所述线下标注子系统还包括:样本选择模块,用于对非结构化文本进行标注,以筛选出对所述深度学习识别子模型构成参数影响的非结构化文本;将筛选出的非结构化文本提供给用户,获取用户进行结构化语义标注的非结构化文本,提供给所述深度学习识别子模型。
进一步的,所述线上识别模型的识别子模型包括:规则识别子模型和深度学习识别子模型。从而,所述识别模块包括:基于规则的识别模块和基于模型的识别模块;所述基于规则的识别模块用于根据规则识别子模型对输入文本进行识别;所述基于模型的识别模块采用深度学习识别子模块对输入文本进行识别。
进一步的,所述线上识别子系统为实体识别子系统,所述识别子模型包括词典规则识别子模型和实体深度学习子模型,所述输入文本为非结构化文本。
进一步的,所述线上识别子系统为关系识别子系统,所述识别子模型包括关系规则识别子模型、关系深度学习子模型和实体关系联合深度学习子模型,所述输入文本为非结构化文本和/或实体识别结果。
进一步的,所述系统还包括:远监督模块,用于从知识库获取实体关系三元组,采用所述实体关系三元组对非结构化文本进行结构化语义标注,作为训练样本提供给所述关系深度学习子模型和实体关系联合深度学习子模型。
进一步的,所述线上识别子系统为属性识别子系统,所述识别子模型包括属性规则识别子模型、属性深度学习子模型,所述输入文本为非结构化文本、实体识别结果和/或关系识别结果。
进一步的,所述属性识别子系统还包括:文档预处理模块,用于对非结构化文本进行预处理;属性值定位模块,用于对非结构文本中的属性值进行初步定位。
上述结构化数据的提取系统可执行本发明任意实施例所提供的结构化数据的提取方法,具备执行的方法相应的功能模块和有益效果。
实施例七
图7为本发明实施例七提供的一种设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性设备701的框图。图7显示的设备701仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,设备701以通用计算设备的形式表现。设备701的组件可以包括但不限于:一个或者多个处理器或者处理单元702,系统存储器703,连接不同系统组件(包括系统存储器703和处理单元702)的总线704。设备701可以是区块链网络节点,或者是作为账户服务端。
总线704表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA) 总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连 (Peripheral Component Interconnect,PCI)总线。
设备701典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备701访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器703可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)705和/或高速缓存存储器706。设备701可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统 707可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-OnlyMemory, CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质) 读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线 704相连。存储器703可以包括至少一个程序产品,该程序产品具有一组(例如至少一个) 程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块708的程序/实用工具709,可以存储在例如存储器703 中,这样的程序模块708包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块708通常执行本发明所描述的实施例中的功能和/或方法。
设备701也可以与一个或多个外部设备710(例如键盘、指向设备、显示器711等)通信,还可与一个或者多个使得用户能与该设备701交互的设备通信,和/或与使得该设备701能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口712进行。并且,设备701还可以通过网络适配器713与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(WideArea Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器713通过总线704与设备701的其它模块通信。应当明白,尽管图7中未示出,可以结合设备701使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Inexpensive Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元702通过运行存储在系统存储器703中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种结构化数据的提取方法。
也即,所述处理单元执行所述程序时实现:通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据;通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整;通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
实施例八
本发明实施例八提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的结构化数据的提取方法:
也即,该程序被处理器执行时实现:通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据;通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整;通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory, ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (24)

1.一种结构化数据的提取方法,其特征在于,包括:
通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据;
通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整;
通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
2.根据权利要求1所述的方法,其特征在于,所述线上识别模型包括至少两个识别子模型,则通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据包括:
通过所述线上识别子系统中的至少两个识别子模型分别对输入文本进行识别,以输出识别结果;
通过所述线上识别子系统中的融合干预模块,对至少两个识别结果根据预设干预规则进行筛选过滤,并进行选择或融合。
3.根据权利要求1所述的方法,其特征在于,通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整包括:
通过线下标注子系统中与识别子模型对应的至少两个模型调整模块的接口,获取用户的定制数据,分别对所述识别子模型进行调整。
4.根据权利要求3所述的方法,其特征在于,所述识别子模型中包括至少一个深度学习识别子模型,对应的模型调整模块为深度学习训练模块,则根据用户的定制数据,对深度学习识别子模型进行调整之前还包括:
通过其他识别子模型对非结构化文本进行结构化语义标注,形成训练样本,提供给所述深度学习识别子模型。
5.根据权利要求3所述的方法,其特征在于,所述识别子模型中包括至少一个深度学习识别子模型,对应的模型调整模块为深度学习训练模块,则根据用户的定制数据,对深度学习识别子模型进行调整之前还包括:
通过所述深度学习识别子模型对非结构化文本进行标注,以筛选出对所述深度学习识别子模型构成参数影响的非结构化文本;
将筛选出的非结构化文本通过样本选择模块提供给用户,获取用户进行结构化语义标注的非结构化文本,提供给所述深度学习识别子模型。
6.根据权利要求3所述的方法,其特征在于,所述线上识别模型的识别子模型包括:规则识别子模型和深度学习识别子模型。
7.根据权利要求3-6任一所述的方法,其特征在于,所述线上识别子系统为实体识别子系统,所述识别子模型包括词典规则识别子模型和实体深度学习子模型,所述输入文本为非结构化文本。
8.根据权利要求3-6任一所述的方法,其特征在于,所述线上识别子系统为关系识别子系统,所述识别子模型包括关系规则识别子模型、关系深度学习子模型和实体关系联合深度学习子模型,所述输入文本为非结构化文本和/或实体识别结果。
9.根据权利要求8所述的方法,其特征在于,根据用户的定制数据,对深度学习识别子模型进行调整之前还包括:
从知识库获取实体关系三元组,采用所述实体关系三元组对非结构化文本进行结构化语义标注,作为训练样本提供给所述关系深度学习子模型和实体关系联合深度学习子模型。
10.根据权利要求3-6任一所述的方法,其特征在于,所述线上识别子系统为属性识别子系统,所述识别子模型包括属性规则识别子模型、属性深度学习子模型,所述输入文本为非结构化文本、实体识别结果和/或关系识别结果。
11.根据权利要求10所述的方法,其特征在于,通过属性识别子系统,基于线上识别模型的识别子模型对输入文本进行识别,以输出结构化数据之前还包括:
通过属性识别子系统的文档预处理模块对非结构化文本进行预处理;
通过属性识别子系统的属性值定位模块,对非结构文本中的属性值进行初步定位。
12.一种结构化数据的提取系统,其特征在于,包括:
线上识别子系统,用于基于线上识别模型对输入文本进行识别,以输出结构化数据;
线下标注子系统,用于通过定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。
13.根据权利要求12所述的系统,其特征在于,所述线上识别模型包括至少两个识别子模型,则线上识别子系统包括:
识别模块,用于通过至少两个识别子模型分别对输入文本进行识别,以输出识别结果;
结果融合及干预模块,用于对至少两个识别结果根据预设干预规则进行筛选过滤,并进行选择或融合。
14.根据权利要求12所述的系统,其特征在于,所述线下标注子系统包括:至少两个模型调整模块;
所述模型调整模块,用于通过接口获取用户的定制数据,分别对所述识别子模型进行调整,其中,所述模型调整模块与识别子模型对应。
15.根据权利要求14所述的系统,其特征在于,所述识别子模型中包括至少一个深度学习识别子模型,对应的模型调整模块为深度学习训练模块,则所述线下标注子系统还包括:
标注模块,用于通过其他识别子模型对非结构化文本进行结构化语义标注,形成训练样本,提供给所述深度学习训练模块。
16.根据权利要求14所述的系统,其特征在于,所述识别子模型中包括至少一个深度学习识别子模型,对应的模型调整模块为深度学习训练模块,则所述线下标注子系统还包括:
样本选择模块,用于对非结构化文本进行标注,以筛选出对所述深度学习识别子模型构成参数影响的非结构化文本;将筛选出的非结构化文本提供给用户,获取用户进行结构化语义标注的非结构化文本,提供给所述深度学习识别子模型。
17.根据权利要求14所述的系统,其特征在于,所述线上识别模型的识别子模型包括:规则识别子模型和深度学习识别子模型。
18.根据权利要求14-17任一所述的系统,其特征在于,所述线上识别子系统为实体识别子系统,所述识别子模型包括词典规则识别子模型和实体深度学习子模型,所述输入文本为非结构化文本。
19.根据权利要求14-17任一所述的系统,其特征在于,所述线上识别子系统为关系识别子系统,所述识别子模型包括关系规则识别子模型、关系深度学习子模型和实体关系联合深度学习子模型,所述输入文本为非结构化文本和/或实体识别结果。
20.根据权利要求19所述的系统,其特征在于,所述系统还包括:
基于知识库的远监督模块,用于从知识库获取实体关系三元组,采用所述实体关系三元组对非结构化文本进行结构化语义标注,作为训练样本提供给所述关系深度学习子模型和实体关系联合深度学习子模型。
21.根据权利要求14-17任一所述的系统,其特征在于,所述线上识别子系统为属性识别子系统,所述识别子模型包括属性规则识别子模型、属性深度学习子模型,所述输入文本为非结构化文本、实体识别结果和/或关系识别结果。
22.根据权利要求21所述的系统,其特征在于,所述属性识别子系统还包括:
文档预处理模块,用于对非结构化文本进行预处理;
属性值定位模块,用于对非结构文本中的属性值进行初步定位。
23.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的结构化数据的提取方法。
24.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一所述的结构化数据的提取方法。
CN201810717120.1A 2018-06-29 2018-06-29 结构化数据的提取方法、系统、设备及存储介质 Active CN108984683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810717120.1A CN108984683B (zh) 2018-06-29 2018-06-29 结构化数据的提取方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810717120.1A CN108984683B (zh) 2018-06-29 2018-06-29 结构化数据的提取方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108984683A true CN108984683A (zh) 2018-12-11
CN108984683B CN108984683B (zh) 2021-06-25

Family

ID=64536596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810717120.1A Active CN108984683B (zh) 2018-06-29 2018-06-29 结构化数据的提取方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108984683B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726398A (zh) * 2018-12-27 2019-05-07 北京奇安信科技有限公司 一种实体识别及属性判断方法、系统、设备及介质
CN109885827A (zh) * 2019-01-08 2019-06-14 北京捷通华声科技股份有限公司 一种基于深度学习的命名实体的识别方法和系统
CN109902104A (zh) * 2019-02-11 2019-06-18 北京百度网讯科技有限公司 用于管理知识库的方法、装置、设备和介质
CN110135427A (zh) * 2019-04-11 2019-08-16 北京百度网讯科技有限公司 用于识别图像中的字符的方法、装置、设备和介质
CN110222087A (zh) * 2019-05-15 2019-09-10 平安科技(深圳)有限公司 特征提取方法、装置及计算机可读存储介质
CN110543630A (zh) * 2019-08-21 2019-12-06 北京仝睿科技有限公司 文本结构化表示的生成方法、装置及计算机存储介质
CN111144120A (zh) * 2019-12-27 2020-05-12 北京知道创宇信息技术股份有限公司 一种训练语句的获取方法、装置、存储介质及电子设备
CN111259624A (zh) * 2020-01-15 2020-06-09 北京百度网讯科技有限公司 知识图谱中三元组数据标注方法和装置
CN111382621A (zh) * 2018-12-28 2020-07-07 北大方正集团有限公司 参数调整方法和装置
CN111444717A (zh) * 2018-12-28 2020-07-24 天津幸福生命科技有限公司 医学实体信息的抽取方法、装置、存储介质及电子设备
CN111695518A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 结构化文档信息标注的方法、装置及电子设备
CN111746548A (zh) * 2019-03-26 2020-10-09 通用汽车环球科技运作有限责任公司 用于自主驾驶中的感测的推理系统
CN112199960A (zh) * 2020-11-12 2021-01-08 北京三维天地科技股份有限公司 一种标准知识元粒度解析系统
CN112328812A (zh) * 2021-01-05 2021-02-05 成都数联铭品科技有限公司 基于自调参数的领域知识抽取方法与系统、电子设备
CN112329465A (zh) * 2019-07-18 2021-02-05 株式会社理光 一种命名实体识别方法、装置及计算机可读存储介质
WO2021036181A1 (zh) * 2019-08-26 2021-03-04 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备
CN112445789A (zh) * 2019-08-16 2021-03-05 北京大数医达科技有限公司 用于将目标文本转化成结构化数据的方法和装置
CN112669928A (zh) * 2021-01-06 2021-04-16 腾讯科技(深圳)有限公司 结构化信息构建方法、装置、计算机设备及存储介质
CN113032469A (zh) * 2019-12-24 2021-06-25 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN113051921A (zh) * 2021-03-17 2021-06-29 北京智慧星光信息技术有限公司 互联网文本实体识别方法、系统、电子设备及存储介质
CN114510928A (zh) * 2022-01-12 2022-05-17 中国科学院软件研究所 一种基于统一结构生成的通用信息抽取方法及系统
CN114897478A (zh) * 2022-06-06 2022-08-12 壹沓科技(上海)有限公司 一种数据处理方法、装置、设备和存储介质
CN115438198A (zh) * 2022-11-07 2022-12-06 四川大学 一种基于知识库的可解释性医疗数据结构化方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360368A (zh) * 2011-10-09 2012-02-22 山东大学 基于抽取模板可视化定制的Web数据抽取方法
CN104462348A (zh) * 2014-12-05 2015-03-25 无锡城市云计算中心有限公司 一种数据抽取的方法及装置
US9037611B2 (en) * 2012-09-13 2015-05-19 Microsoft Technology Licensing, Llc Generation of a user interface based on a relational data model
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN106156286A (zh) * 2016-06-24 2016-11-23 广东工业大学 面向专业文献知识实体的类型抽取系统及方法
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN107766940A (zh) * 2017-11-20 2018-03-06 北京百度网讯科技有限公司 用于生成模型的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360368A (zh) * 2011-10-09 2012-02-22 山东大学 基于抽取模板可视化定制的Web数据抽取方法
US9037611B2 (en) * 2012-09-13 2015-05-19 Microsoft Technology Licensing, Llc Generation of a user interface based on a relational data model
CN104462348A (zh) * 2014-12-05 2015-03-25 无锡城市云计算中心有限公司 一种数据抽取的方法及装置
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN106156286A (zh) * 2016-06-24 2016-11-23 广东工业大学 面向专业文献知识实体的类型抽取系统及方法
CN106951438A (zh) * 2017-02-13 2017-07-14 北京航空航天大学 一种面向开放域的事件抽取系统及方法
CN107766940A (zh) * 2017-11-20 2018-03-06 北京百度网讯科技有限公司 用于生成模型的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘丽佳: "领域实体属性关系抽取方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *
李昕: "新闻事件识别系统的研究与实现", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726398A (zh) * 2018-12-27 2019-05-07 北京奇安信科技有限公司 一种实体识别及属性判断方法、系统、设备及介质
CN109726398B (zh) * 2018-12-27 2023-07-07 奇安信科技集团股份有限公司 一种实体识别及属性判断方法、系统、设备及介质
CN111382621A (zh) * 2018-12-28 2020-07-07 北大方正集团有限公司 参数调整方法和装置
CN111444717A (zh) * 2018-12-28 2020-07-24 天津幸福生命科技有限公司 医学实体信息的抽取方法、装置、存储介质及电子设备
CN109885827B (zh) * 2019-01-08 2023-10-27 北京捷通华声科技股份有限公司 一种基于深度学习的命名实体的识别方法和系统
CN109885827A (zh) * 2019-01-08 2019-06-14 北京捷通华声科技股份有限公司 一种基于深度学习的命名实体的识别方法和系统
US11900269B2 (en) 2019-02-11 2024-02-13 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for managing knowledge base, device and medium
CN109902104A (zh) * 2019-02-11 2019-06-18 北京百度网讯科技有限公司 用于管理知识库的方法、装置、设备和介质
CN111746548A (zh) * 2019-03-26 2020-10-09 通用汽车环球科技运作有限责任公司 用于自主驾驶中的感测的推理系统
CN110135427A (zh) * 2019-04-11 2019-08-16 北京百度网讯科技有限公司 用于识别图像中的字符的方法、装置、设备和介质
CN110135427B (zh) * 2019-04-11 2021-07-27 北京百度网讯科技有限公司 用于识别图像中的字符的方法、装置、设备和介质
CN110222087B (zh) * 2019-05-15 2023-10-17 平安科技(深圳)有限公司 特征提取方法、装置及计算机可读存储介质
CN110222087A (zh) * 2019-05-15 2019-09-10 平安科技(深圳)有限公司 特征提取方法、装置及计算机可读存储介质
CN112329465A (zh) * 2019-07-18 2021-02-05 株式会社理光 一种命名实体识别方法、装置及计算机可读存储介质
CN112445789A (zh) * 2019-08-16 2021-03-05 北京大数医达科技有限公司 用于将目标文本转化成结构化数据的方法和装置
CN110543630A (zh) * 2019-08-21 2019-12-06 北京仝睿科技有限公司 文本结构化表示的生成方法、装置及计算机存储介质
WO2021036181A1 (zh) * 2019-08-26 2021-03-04 北京国双科技有限公司 一种数据抽取方法、装置、存储介质及设备
CN113032469B (zh) * 2019-12-24 2024-02-20 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN113032469A (zh) * 2019-12-24 2021-06-25 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN111144120A (zh) * 2019-12-27 2020-05-12 北京知道创宇信息技术股份有限公司 一种训练语句的获取方法、装置、存储介质及电子设备
CN111259624B (zh) * 2020-01-15 2023-03-31 北京百度网讯科技有限公司 知识图谱中三元组数据标注方法和装置
CN111259624A (zh) * 2020-01-15 2020-06-09 北京百度网讯科技有限公司 知识图谱中三元组数据标注方法和装置
CN111695518B (zh) * 2020-06-12 2023-09-29 北京百度网讯科技有限公司 结构化文档信息标注的方法、装置及电子设备
US11687704B2 (en) 2020-06-12 2023-06-27 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus and electronic device for annotating information of structured document
CN111695518A (zh) * 2020-06-12 2020-09-22 北京百度网讯科技有限公司 结构化文档信息标注的方法、装置及电子设备
CN112199960A (zh) * 2020-11-12 2021-01-08 北京三维天地科技股份有限公司 一种标准知识元粒度解析系统
CN112328812A (zh) * 2021-01-05 2021-02-05 成都数联铭品科技有限公司 基于自调参数的领域知识抽取方法与系统、电子设备
CN112669928A (zh) * 2021-01-06 2021-04-16 腾讯科技(深圳)有限公司 结构化信息构建方法、装置、计算机设备及存储介质
CN113051921A (zh) * 2021-03-17 2021-06-29 北京智慧星光信息技术有限公司 互联网文本实体识别方法、系统、电子设备及存储介质
CN113051921B (zh) * 2021-03-17 2024-02-20 北京智慧星光信息技术有限公司 互联网文本实体识别方法、系统、电子设备及存储介质
CN114510928A (zh) * 2022-01-12 2022-05-17 中国科学院软件研究所 一种基于统一结构生成的通用信息抽取方法及系统
CN114510928B (zh) * 2022-01-12 2022-09-23 中国科学院软件研究所 一种基于统一结构生成的通用信息抽取方法及系统
CN114897478B (zh) * 2022-06-06 2023-12-22 壹沓科技(上海)有限公司 一种数据处理方法、装置、设备和存储介质
CN114897478A (zh) * 2022-06-06 2022-08-12 壹沓科技(上海)有限公司 一种数据处理方法、装置、设备和存储介质
CN115438198A (zh) * 2022-11-07 2022-12-06 四川大学 一种基于知识库的可解释性医疗数据结构化方法和系统

Also Published As

Publication number Publication date
CN108984683B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN108984683A (zh) 结构化数据的提取方法、系统、设备及存储介质
CN109766540B (zh) 通用文本信息提取方法、装置、计算机设备和存储介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN106534548B (zh) 语音纠错方法和装置
WO2021189971A1 (zh) 基于知识图谱表征学习的医疗方案推荐系统及方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN108959418A (zh) 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN109472026A (zh) 一种同时针对多个命名实体的精准情感信息提取方法
CN111933127A (zh) 一种具备自学习能力的意图识别方法及意图识别系统
WO2021139257A1 (zh) 标注数据的选择方法、装置、计算机设备和存储介质
CN109949799B (zh) 一种语义解析方法及系统
CN109213856A (zh) 一种语义识别方法及系统
CN110442725A (zh) 实体关系抽取方法及装置
CN108829810A (zh) 面向健康舆情的文本分类方法
CN109213851A (zh) 对话系统中口语理解的跨语言迁移方法
CN110532387A (zh) 一种基于开放性问答文本的抑郁症辅助检测方法
CN107301163A (zh) 包含公式的文本语义解析方法及装置
CN110489747A (zh) 一种图像处理方法、装置、存储介质及电子设备
CN111914555A (zh) 基于Transformer结构的自动化关系抽取系统
CN109753976B (zh) 语料标注装置和方法
CN113836281A (zh) 一种基于自动问答的实体关系联合抽取方法
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN113889092A (zh) 语音识别结果的后处理模型的训练方法、处理方法及装置
TWI659411B (zh) 一種多語言混合語音識別方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant