CN113343645A - 信息提取模型的建立方法及装置、存储介质及电子设备 - Google Patents

信息提取模型的建立方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113343645A
CN113343645A CN202010140219.7A CN202010140219A CN113343645A CN 113343645 A CN113343645 A CN 113343645A CN 202010140219 A CN202010140219 A CN 202010140219A CN 113343645 A CN113343645 A CN 113343645A
Authority
CN
China
Prior art keywords
information
text
training
information extraction
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010140219.7A
Other languages
English (en)
Inventor
刘婷婷
黄明星
赖晨东
李银锋
周彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010140219.7A priority Critical patent/CN113343645A/zh
Publication of CN113343645A publication Critical patent/CN113343645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种信息提取模型的建立方法及装置、计算机可读存储介质及电子设备;涉及机器学习技术领域。所述信息提取模型的建立方法包括:采集训练数据,其中,所述训练数据为多组包含所要提取的目标信息的文本,每个所述文本对应一个或多个目标信息;获取预训练模型,通过所述预训练模型获取各所述文本中所述目标信息的预测位置信息;获取所述目标信息在所述文本中的真实位置信息,并基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,得到所述信息提取模型。本公开可以实现对于目标信息的完整提取,进而可以依据提取到的信息采取更有针对性的业务处理措施。

Description

信息提取模型的建立方法及装置、存储介质及电子设备
技术领域
本公开涉及机器学习技术领域,具体而言,涉及一种信息提取模型的建立方法、信息提取模型的建立装置、电子设备以及计算机可读存储介质。
背景技术
网络通信的不断发展使得信息量也呈现爆炸式的增长,如何实现在信息洪流中提取有效的信息对于各种业务处理质量和处理效率都有着重要意义。例如,在电商平台中,通过对大量商品反馈信息中的质量信息进行提取,可以发现商品的质量问题,进而针对性地采取相应的改善措施。
现有的信息提取方法可以通过以下两种方式实现上述商品质量信息的提取:一种是通过人工收集质量关键词;另一种为使用信息检索与统计方法提取质量关键词,并通过文本匹配的方式使用提取到的关键词来表征商品的质量信息。
然而,人工收集的方式需要耗费大量的人力成本,且效率较低,而基于关键词提取的方法是基于词粒度进行提取的,因此可能会出现信息表征缺失的情况。
因此,需要提供一种信息提取模型的建立方法,通过使用该方法建立的信息提取模型可以实现对于目标信息的完整提取,进而可以依据提取到的信息采取更有针对性的业务处理措施。
上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例提供一种信息提取模型的建立方法及装置、电子设备以及计算机可读存储介质,可以实现对于目标信息的完整提取,进而可以依据提取到的信息采取更有针对性的业务处理措施。
根据本公开的第一方面,提供一种信息提取模型的建立方法,包括:
采集训练数据集,其中,所述训练数据集包含多组文本,每个所述文本对应一个或多个目标信息;
获取预训练模型,通过所述预训练模型获取各所述文本中所述目标信息的预测位置信息;
获取所述目标信息在所述文本中的真实位置信息,并基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,得到所述信息提取模型。
在本公开的一种示例性实施例中,所述预训练模型为BERT模型;
所述基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,包括:
将多组所述训练数据集按照预设比例分为训练样本集合及测试样本集合;
计算所述训练样本集合中所述目标信息的所述真实位置信息及所述预测位置信息的交叉熵损失;
基于所述交叉熵损失对所述BERT模型进行微调训练得到所述信息提取模型;
基于所述测试样本集合获取所述信息提取模型的性能参数,并在所述性能参数不满足预设条件时,对所述信息提取模型进行调整。
在本公开的一种示例性实施例中,所述位置信息包括起始位置和终止位置;
所述计算所述训练样本集合中所述目标信息的所述真实位置信息及所述预测位置信息的交叉熵损失,包括:
判断所述文本中各位置为所述目标信息的起始位置和终止位置的概率,并选取概率最大的对应所述位置为所述预测起始位置和所述预测终止位置;
分别计算所述预测起始位置和所述目标信息的真实起始位置、所述预测终止位置与所述目标信息的真实终止位置对应的所述交叉熵损失。
在本公开的一种示例性实施例中,所述基于所述交叉熵损失对所述BERT模型进行微调训练得到所述信息提取模型,包括:
基于所述交叉熵损失对所述BERT模型进行微调训练,使得计算得到的所述交叉熵损失之和最小化,得到所述信息提取模型。
在本公开的一种示例性实施例中,所述对所述信息提取模型进行调整,包括;
对所述信息提取模型的超参数进行调整,直至所述性能参数满足所述预设条件。
在本公开的一种示例性实施例中,在所述采集训练数据之后,所述方法还包括:
去除所述训练数据中的特殊字符;
当所述训练数据中有所述文本的长度大于所述预训练模型的最大文本长度时,对所述文本进行切分;
对经文本切分得到的的训练数据进行数据格式转化。
在本公开的一种示例性实施例中,所述对所述文本进行切分,包括:
将所述文本切分为长度相同且存在交叠的多个短文本,并将得到的所述短文本作为新的训练数据。
在本公开的一种示例性实施例中,所述对经文本切分得到的训练数据进行数据格式转化,包括:
将所述训练数据转化为json数据格式。
根据本公开的第二方面,提供一种信息提取方法,用于通过上述方法建立的信息提取模型提取目标信息,包括:
获取含有所要提取的目标信息的文本,并对所述文本进行预处理得到输入数据;
通过上述方法建立的所述信息提取模型对所述输入数据进行处理,提取出所述目标信息,其中,每个所述输入数据对应一个或多个所述目标信息。
在本公开的一种示例性实施例中,所述对所述文本进行预处理得到输入数据,包括:
去除所述文本中的特殊字符;
当所述文本的长度大于所述信息提取模型的最大文本长度时,对所述文本进行切分;
对切分得到的文本进行数据格式转化。
根据本公开的第三方面,提供一种信息提取模型的建立装置,包括:
数据采集模块,用于采集训练数据集,其中,所述训练数据集包含多组文本,每个所述文本对应一个或多个目标信息;
信息获取模块,用于获取预训练模型,通过所述预训练模型获取各所述文本中所述目标信息的预测位置信息;
装置获取模块,用于获取所述目标信息在所述文本中的真实位置信息,并基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,得到所述信息提取模型。
根据本公开的第四方面,提供一种信息提取装置,包括:
预处理模块,用于获取含有所要提取的目标信息的文本,并对所述文本进行预处理得到输入数据;
提取模块,用于通过上述方法建立的所述信息提取模型对所述输入数据进行处理,提取出所述目标信息,其中,每个所述输入数据对应一个或多个所述目标信息。
根据本公开的第五方面,提供一种电子设备,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述方法。
根据本公开的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开示例实施方式所提供的信息提取模型的建立方法中,首先,采集训练数据,该训练数据为多组包含所要提取的目标信息的文本,且每个文本对应一个或多个目标信息;之后,获取预训练模型,并通过该预训练模型获取各文本中目标信息的预测位置信息;最后,获取目标信息在上述文本中的真实位置信息,并基于真实位置信息及预测位置信息对预训练模型进行微调训练,得到信息提取模型。一方面,在本公开示例实施方式所提供的信息提取模型的建立方法中,通过目标信息在文本中的预测位置信息及真实位置信息来对获取的预训练模型进行微调训练,从而得到信息提取模型,通过该方法得到的信息提取模型在对信息进行提取时,相比于基于关键词的提取方法,提取出的目标信息更加完整及准确。另一方面,由于该方法得到的信息提取模型是基于位置对目标信息进行提取的,因此不受词粒度的限制,适用的语境更加广泛及多样化。同时,由于可以提取到更加全面广泛的目标信息,有助于进行更具针对性的业务处理措施。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的一种信息提取模型的建立方法及装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一个实施例的信息提取模型的建立方法的过程的流程图;
图4示意性示出了根据本公开的一个实施例的信息提取方法的过程的流程图;
图5示意性示出了本公开的一个实施例应用场景中信息提取模型的建立及利用方法的过程的示意图;
图6示意性示出了本公开的一个实施例应用场景中的json数据的数据格式示意图;
图7示意性示出了根据本公开的一个实施例的信息提取模型的建立装置的框图;
图8示意性示出了根据本公开的一个实施例的信息提取装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种信息提取模型的建立方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的信息提取模型的建立方法可以由终端设备101、102、103执行,相应地,信息提取模型的建立装置可以设置于终端设备101、102、103中。本公开实施例所提供的信息提取模型的建立方法也可以由服务器105执行,相应地,信息提取模型的建立装置可以设置于服务器105中。本公开实施例所提供的信息提取模型的建立方法还可以由终端设备101、102、103与服务器105共同执行,相应地,信息提取模型的建立装置可以设置于终端设备101、102、103与服务器105中,本示例性实施例中对此不做特殊限定。
例如,在本示例实施方式中,可以在设置于终端设备101、102、103中的应用平台采集训练数据,该训练数据为多组包含所要提取的目标信息的文本,且每个文本对应一个或多个目标信息;接着,通过网络104获取预训练模型,并通过预训练模型获取各文本中目标信息的预测位置信息;之后,获取目标信息在文本中的真实位置信息,并基于获取到的真实位置信息及预测位置信息对所述预训练模型进行微调训练,得到信息提取模型。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
网络通信的不断发展使得信息量也呈现爆炸式的增长,如何实现在信息洪流中提取有效的信息对于各种业务处理质量和处理效率都有着重要意义。例如,在电商平台中,通过对大量商品反馈信息中的质量信息进行提取,可以发现商品的质量问题,进而针对性地采取相应的改善措施。
为了实现上述过程,发明人尝试性地提出了以下两种方法:
第一种是通过人工收集关键词完成提取过程,但该方法需要耗费大量的人力成本,且效率较低。
第二种为使用信息检索与统计方法,例如,TF-IDF(term frequencyinversedocument frequency,一种用于信息检索与数据挖掘的常用加权技术)、TextRank(一种用于文本的基于图的排序算法)等方式提取关键词,并通过文本匹配的方式使用提取到的关键词来表征信息。但该方法由于是基于词粒度进行提取的,因此可能会出现信息表征存在缺失的情况。以上述在电商平台中对商品质量反馈信息中的质量信息进行提取为例,假设商品质量反馈信息为“摄像头附近按压有异响”、“屏幕很不清晰”,由于分词后仅能使用“异响”和“不清晰”来表征质量信息,因此会导致提取到的质量信息缺失商品主语和质量问题细节。并且,在一些语境中,例如,当商品质量反馈信息为“宣传资料上显示有自动烘干功能,而实际没有”时,基于词粒度无法表征商品质量问题。因此,该方法无法实现完整全面地对目标信息进行提取。
为了解决上述方法中存在的问题,在本示例实施方式中,发明人提出了一种新的技术方案,以下对本公开实施例的技术方案进行详细阐述:
本示例实施方式首先提供了信息提取模型的建立方法,该信息提取模型的建立方法如图3所示,具体包括以下步骤:
步骤S310:采集训练数据,其中,所述训练数据包含多组文本,每个所述文本对应一个或多个所述目标信息;
步骤S320:获取预训练模型,通过所述预训练模型获取各所述文本中所述目标信息的预测位置信息;
步骤S330:获取所述目标信息在所述文本中的真实位置信息,并基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,得到所述信息提取模型。
在公开示例实施方式所提供的信息提取模型的建立方法中,一方面,在本公开示例实施方式所提供的信息提取模型的建立方法中,通过目标信息在文本中的预测位置信息及真实位置信息来对获取的预训练模型进行微调训练,从而得到信息提取模型,通过该方法得到的信息提取模型在对信息进行提取时,相比于基于关键词的提取方法,提取出的目标信息更加完整及准确。另一方面,由于该方法得到的信息提取模型是基于位置对目标信息进行提取的,因此不受词粒度的限制,适用的语境更加广泛及多样化。同时,由于可以提取到更加全面广泛的目标信息,有助于进行更具针对性的业务处理措施。
下面,在另一实施例中,对上述步骤进行更加详细的说明。
在步骤S310中,采集训练数据集,其中,所述训练数据集包含多组文本,每个所述文本对应一个或多个目标信息。
依据本示例实施方式所提供的信息提取模型的建立方法得到的信息提取模型用于对需要的信息进行提取。上述训练数据用于建立该信息提取模型,为包含有所要提取的信息的多组文本,且一个文本中可能包含有一至多个需要提取的信息,所需提取的信息即为上述目标信息。
采集上述训练数据的过程可以在设置于终端设备的应用平台中进行。该终端设备可以为计算机、也可以为智能手机,还可以为平板电脑;应用平台可以为电商平台,也可以为工商平台,还可以为其他可以获取包含目标信息的文本的平台。采集过程可以通过人工方式完成,也可以通过机器进行,本示例实施方式对此不做特殊限定。
以应用平台为电商平台为例,所要提取的目标信息可以为商品的质量信息,文本可以为包含商品质量信息的评论、投诉或其他反馈信息,在进行信息提取模型的建立时,可以在电商平台的评论区及投诉渠道中采集多组包含商品质量信息的多组文本作为训练数据,以便用于后续的训练过程。
需要说明的是,上述场景只是一种示例性说明,并不对本示例实施方式的保护范畴起限定作用。
在本示例实施方式中,需要对采集得到的训练数据进行数据准备过程。举例而言,该数据准备过程可以包括:提取文本中的目标信息,该提取过程可以人工进行,也可以采取其他方式;对该目标信息进行标记,标记方式可以为设置标签,也可以为可以起到这一作用的其他方式;将对应于一个或多个目标信息标签的各文本作为最终的训练数据。
以应用平台为电商平台,所要提取的目标信息为商品质量信息为例,上述过程可以为:获取商品质量反馈文本,例如,可以为“上周买了一台电脑,回来用了3次就死机了,而且使用过程中鼠标也不能动了”;针对质量反馈文本,人工提取其中的质量相关描述作为质量标签,即,“死机”、“鼠标也不能动了”;最终,将对应于一个或多个质量标签的多组质量反馈文本作为后续训练数据。
需要说明的是,上述场景只是一种示例性说明,并不对本示例实施方式的保护范畴起限定作用。
在步骤S320中,获取预训练模型,通过所述预训练模型获取各所述文本中所述目标信息的预测位置信息。
在本示例实施方式中,在采集得到训练数据后,需要获取预训练模型,并通过采集到的训练数据对该预训练模型进行微调训练,从而得到信息提取模型。举例而言,该预训练模型可以为BERT模型,该BERT模型是一个语言表征模型,通过自动调整该模型的模型结构中最后一个全连接层的参数,得到信息提取模型,该经过微调得到的信息提取模型更加关注作为训练数据的多组文本中目标信息出现的位置,也即微调后得到的信息提取模型可以学习到目标信息在文本中的位置信息,从而具备提取目标信息的能力。
下面,以预训练模型为BERT模型为例,对上述训练过程的具体实现进行进一步的说明,其主要流程如下:将多组训练数据按照预设比例分为训练样本集合及测试样本集合;基于训练样本集合对BERT模型进行训练,得到上述信息提取模型;基于测试样本集合对训练得到的信息提取模型进行评估,获取该信息提取模型的性能参数,并在性能参数不满足预设条件时,对信息提取模型进行调整,直至得到符合要求的信息提取模型。
在本示例实施方式中,将多组训练数据按照预设比例分为训练样本集合及测试样本集合,可以按照9:1的比例进行训练样本集合及测试样本集合的划分,也可以按照其他比例划分,原则上训练样本集合的比例应大于测试样本集合。
在本示例实施方式中,对预训练模型进行训练主要利用训练样本集合中目标信息在文本中的位置信息来进行。该位置信息目标信息在文本中的预测位置信息及真实位置信息。该步骤S320主要用于通过预训练模型获取预测位置信息,该预测位置信息包括预测起始位置及预测终止位置。该过程具体而言,可以为:将训练样本集合中的各文本输入预训练模型,预训练模型会自动判断文本中的各位置为目标信息的起始位置和终止位置的概率;选取概率最大的对应位置作为目标信息的预测起始位置和预测终止位置。
需要说明的是,上述场景只是一种示例性说明,并不对本示例实施方式的保护范畴起限定作用。
在本示例实施方式中,在将训练样本集合中的各文本输入预训练模型之前,还可以对经过步骤S310中的数据准备过程后的训练数据进行预处理,举例而言,预处理过程可以包括如下过程:去除特殊字符;文本切分;数据格式转化。
其中,去除特殊字符主要用于去除文本及目标信息中非中文的特殊字符;文本切分主要用于当训练数据中有文本的长度大于预训练模型的最大文本长度时,对文本进行切分,使其可以被预训练模型处理,该切分过程将长文本切分为长度相同且存在交叠的多个短文本,这样的切分方法可以最大限度地保证切分得到的短文本的语义连贯性,此外,也可以采取其他的切分方式,本示例实施方式对此不做限定;数据格式转化用于依据每个样本包含的文本及其目标信息,构建用于模型训练输入的数据格式,以BERT模型为例,可以将数据转化为json数据格式。
需要说明的是,上述场景只是一种示例性说明,并不对本示例实施方式的保护范畴起限定作用。
在步骤S330中,获取所述目标信息在所述文本中的真实位置信息,并基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,得到所述信息提取模型。
在本示例实施方式中,上述训练过程在通过预训练模型获取目标信息在文本中的预测位置信息后,还需要获取其在文本中的真实位置信息,其中真实位置信息也包括真实起始位置及真实终止位置,并基于预测位置信息及真实位置信息对上述预训练模型进行微调训练。该微调训练的实现过程可以如下:计算训练样本集合中目标信息的真实位置信息及预测位置信息的交叉熵损失;基于计算得到的交叉熵损失对BERT模型进行微调训练得到所述信息提取模型。
上述微调训练的过程,举例而言,可以为:分别计算预测起始位置和目标信息的真实起始位置、预测终止位置与目标信息的真实终止位置对应的所述交叉熵损失,计算公式为:
Figure BDA0002398833950000122
其中,yi为第i个词是真实起始位置的概率,
Figure BDA0002398833950000123
为第i词是预测起始位置的概率,i=1,2,…,n,n为词的总数,L为模型整体损失函数,即所有样本损失函数加和,终止位置的交叉熵损失也通过上述方法计算得出;通过反向传播使得计算得到的交叉熵损失之和最小化,该反向传播过程即为预训练模型基于训练样本集合中的训练数据进行参数微调的过程,通过该过程获取到的信息提取模型具有信息提取的功能。
需要说明的是,上述场景只是一种示例性说明,并不对本示例实施方式的保护范畴起限定作用。
在本示例实施方式中,在通过上述过程得到信息提取模型之后,可以基于上述测试样本集合评估该信息提取模型的效能,并对该信息提取模型进行调整。该调整可以针对超参数进行,直至性能参数满足所述预设条件。其中,上述超参数可以为学习速率,也可以为文本序列最大长度,还可以为批量大小,本示例实施方式对此不做特殊限定。
上述信息提取模型的效能可以通过F1-score来衡量,该参数可以用于综合衡量精准度和召回率的指标,可以通过以下公式计算得到:
Figure BDA0002398833950000121
其中,precision为精准度,表示测试集中被预测为正例的样本中,实际为正例的比例;recall为召回率,表示测试集中实际为正例的样本中,被预测为正例的比例。TP(TruePositive)表示一个样本是正例,且被预测为正例;FP(False Positive)表示样本是负例,被预测为正例;TN(True Negative)表示负类被预测成负例;FN(False Negative)表示正例被预测为负例。
当计算得到的F1-score参数不满足业务要求时,可以通过网格搜索或随机搜索方法,对上述超参数进行调整,提高模型泛化性能,直到满足要求,最终输出优化后的信息提取模型。
需要说明的是,上述场景只是一种示例性说明,并不对本示例实施方式的保护范畴起限定作用,例如,采用F1-score来衡量是考虑到对于精准度和召回率的平衡要求,也可以采取其他评判标准,这也属于本示例实施方式的保护范畴。
在通过上述S310至S330的步骤获取信息提取模型后,本示例实施方式还提供了一种信息提取方法,以实现通过上述信息提取模型对输入数据进行处理,得到上述目标信息,进而采取相应的业务处理措施。具体流程如图4所示,包括以下流程:
步骤S410:获取含有所要提取的目标信息的文本,并对所述文本进行预处理得到输入数据;
步骤S420:通过上述方法建立的所述信息提取模型对所述输入数据进行处理,提取出所述目标信息,其中,每个所述输入数据对应一个或多个所述目标信息。
下面,在另一实施例中,对上述步骤进行更加详细的说明。
在步骤S410中,获取含有所要提取的目标信息的文本,并对所述文本进行预处理得到输入数据。
在本示例实施方式中,上述文本中包含有所要提取的目标信息,且一个文本中可能包含有一至多个目标信息,获取该文本的过程可以在设置于终端设备的应用平台中进行。该终端设备可以为计算机、也可以为智能手机,还可以为平板电脑;应用平台可以为电商平台,也可以为工商平台,还可以为其他可以获取包含目标信息的文本的平台。
在获取上述文本后,对获取到的文本进行预处理可以得到输入数据,用于输入利用上述方法获取的信息提取模型。该预处理过程可以包括如下过程:去除特殊字符;文本切分;数据格式转化。
其中,去除特殊字符主要用于去除文本及目标信息中非中文的特殊字符;文本切分主要用于当训练数据中有文本的长度大于预训练模型的最大文本长度时,对文本进行切分,使其可以被预训练模型处理,该切分过程将长文本切分为长度相同且存在交叠的多个短文本,这样的切分方法可以最大限度地保证切分得到的短文本的语义连贯性,此外,也可以采取其他的切分方式,本示例实施方式对此不做限定;数据格式转化用于依据每个样本包含的文本及其目标信息,构建用于模型训练输入的数据格式,以BERT模型为例,可以将数据转化为json数据格式。
需要说明的是,上述场景只是一种示例性说明,并不对本示例实施方式的保护范畴起限定作用。
在步骤S420中,通过上述方法建立的所述信息提取模型对所述输入数据进行处理,提取出所述目标信息,其中,每个所述输入数据对应一个或多个所述目标信息。
通过信息提取模型提取出目标信息的过程,与步骤S320中通过预训练模型获取目标信息在文本中的预测位置的过程相同,在此不再赘述。
下面结合图5至图6所示的具体场景,对本示例实施方式所提供的方法进行进一步的说明。
该具体应用场景为电商平台,在该场景中,为了提升电商平台中商家的服务和售后水平,通过上述方法获取信息提取模型,并利用得到的该信息提取模型从用户评论、投诉等文本中提取出与质量相关的信息,以辅助商家发现其商品质量问题,进而有针对性的采取改善措施,具体流程如图5所示,包括以下步骤:
在步骤S510中,采集质量信息反馈文本。
在本具体应用场景中,可以从电商平台的评论、客户投诉及工商渠道中采集质量信息反馈文本作为样本。例如:获取客户的评论信息:“上周买了一台电脑,回来用了3次就死机了,而且使用过程中鼠标也不能动了”。
在步骤S520中,提取质量信息反馈文本中的质量相关描述,得到质量标签。
在本具体应用场景中,针对采集到的多条质量反馈文本,人工提取其中的质量相关描述作为质量标签,以上述“上周买了一台电脑,回来用了3次就死机了,而且使用过程中鼠标也不能动了”的评论信息为例,人工提取“死机”及“鼠标也不能动了”这类描述质量问题的信息作为质量标签。最终,对于每条质量反馈文本,都对应一个或多个质量标签,作为后续预训练模型的训练数据。
在步骤S530中,对文本及质量标签进行数据预处理。
在本具体应用场景中,数据预处理包括去除特殊字符、文本切分和数据格式转化。其中,去除特殊字符主要用于去除文本及目标信息中非中文的特殊字符;文本切分主要针对较长的反馈文本,每次切分按照一定长度,并且两次切分之间保留一定文本交叠,使得一个长文本切分成多个存在文本交叠的短文本,每条短文本及其包含的质量标签作为一条新的样本,这样的切分方法可以最大限度地保证切分得到的短文本的语义连贯性。数据格式转化依据每个样本的文本及其质量标签构建用于模型训练输入的数据格式,在本方案中转化成如图6所示的json数据格式。
在步骤S540中,获取作为训练集的质量反馈文本。
在本具体应用场景中,将上述采集的质量反馈文本按照9:1的比例划分为训练集和样本集,训练集用于训练,测试集用于评估效能,在该步骤中获取作为训练集的质量反馈文本。
在步骤S541中,获取BERT模型作为预训练模型。
在本具体应用场景中,BERT模型结构为语言表征模型,调整BERT模型结构中最后一个全连接层的参数,可以使微调后的模型更加关注文本中质量相关问题出现的位置,也即微调后的模型可以学习到质量问题描述在文本的位置信息,从而具备抽取文本质量描述的能力。
在步骤S542中,对BERT模型进行微调训练。
在本具体应用场景中,对BERT模型进行微调训练的过程如下:针对每条训练数据,自动判断文本中每个词作为质量问题描述的起始位置概率和终止位置的概率;分别选取概率最大的位置作为预测的起始位置和终止位置;并分别计算预测的起始位置和终止位置与真实起始位置和终止位置的交叉熵损失L_start和L_end,公式如下:
Figure BDA0002398833950000161
其中,yi为第i个词是真实起始位置的概率,
Figure BDA0002398833950000163
为第i词是预测起始位置的概率,i=1,2,…,n,n为词的总数,L为模型整体损失函数,即所有样本损失函数加和。
L_end的计算方式与上述L_start的计算方式相同。利用反向传播使得二者损失和最小化,该反向传播过程为模型基于新的训练目标,进行参数微调的过程,该过程中学习到的参数可以支持该模型具备预测文本质量描述的能力,最后,将微调后的模型作为信息提取模型。
在步骤S550中,获取作为测试集的质量反馈文本。
在步骤S551中,对BERT模型进行模型评估及优化。
在本具体应用场景中,该步骤基于作为测试集的质量反馈文本对BERT模型进行模型评估及优化。考虑到对于精准度和召回率的平衡要求,采用F1-score参数作为装置效能的衡量标准,其计算公式如下:
Figure BDA0002398833950000162
其中,precision为精准度,表示测试集中被预测为正例的样本中,实际为正例的比例;recall为召回率,表示测试集中实际为正例的样本中,被预测为正例的比例。TP(TruePositive)表示一个样本是正例,且被预测为正例;FP(False Positive)表示样本是负例,被预测为正例;TN(True Negative)表示负类被预测成负例;FN(False Negative)表示正例被预测为负例。
当计算得到的F1-score参数不满足业务要求时,可以通过网格搜索或随机搜索方法,对装置的超参数进行调整,提高模型泛化性能,直到满足业务要求。其中,超参数可以为学习速率,文本序列最大长度或为批量大小等参数。
在步骤S552中,判断F1-score参数是否满足业务需求。
在本具体应用场景中,当判断得到F1-score参数不满足业务要求时,跳转至步骤S551,并依据步骤S551中的优化方法对装置的超参数进行调整。当判断得到F1-score参数满足业务要求时,则输出优化后的信息提取模型。
在步骤S560中,通过得到信息提取模型提取商品的质量信息。
在本具体应用场景中,该步骤对需要进行商品质量信息提取的质量反馈文本进行预处理,预处理过程与步骤S530中的预处理过程相同,在此不再赘述。预处理过程完成后,将处理后的文本输入信息提取模型,提取出商品的质量信息,并依据提取出的商品质量信息有针对性地采取业务改善措施。
在本具体应用场景中,一方面,通过质量描述信息在文本中的预测位置信息及真实位置信息来对获取的预训练模型进行微调训练,从而得到信息提取模型,通过该方法得到的信息提取模型在对信息进行提取时,相比于基于关键词的提取方法,提取出的质量信息更加完整及准确。另一方面,由于该方法得到的信息提取模型是基于位置对质量信息进行提取的,因此不受词粒度的限制,适用的语境更加广泛及多样化。同时,由于可以提取到更加全面广泛的质量信息,有助于进行更具针对性的业务处理措施。
应当注意,上述应用场景只是一种示例性说明,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步地,本示例实施方式提供了一种信息提取模型的建立装置。参考图7所示,该信息提取模型的建立装置700可以包括数据采集模块710、信息获取模块720、装置获取模块730。其中:
数据采集模块710可以采集训练数据集,其中,所述训练数据集包含多组文本,每个所述文本对应一个或多个目标信息;
信息获取模块720可以用于获取预训练模型,通过所述预训练模型获取各所述文本中所述目标信息的预测位置信息;
装置获取模块730可以用于获取所述目标信息在所述文本中的真实位置信息,并基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,得到所述信息提取模型。
上述信息提取模型的建立装置中各模块或单元的具体细节已经在对应的信息提取模型的建立方法中进行了详细的描述,因此此处不再赘述。
对应地,针对上述信息提取方法,本示例实施方式还提供了一种信息提取装置。参考图8所示,该信息提取装置800可以包括预处理模块810和提取模块820。其中:
预处理模块810可以用于获取含有所要提取的目标信息的文本,并对所述文本进行预处理得到输入数据;
提取模块820可以用于通过上述方法建立的信息提取模型对所述输入数据进行处理,提取出所述目标信息,其中,每个所述输入数据对应一个或多个所述目标信息。
上述信息提取装置中各模块或单元的具体细节已经在对应的信息提取方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述方法。例如,所述电子设备可以实现如图3~图6所示的各个步骤等。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种信息提取模型的建立方法,其特征在于,包括:
采集训练数据集,其中,所述训练数据集包含多组文本,每个所述文本对应一个或多个目标信息;
获取预训练模型,通过所述预训练模型获取各所述文本中所述目标信息的预测位置信息;
获取所述目标信息在所述文本中的真实位置信息,并基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,得到所述信息提取模型。
2.根据权利要求1所述的信息提取模型的建立方法,其特征在于,所述预训练模型为BERT模型;
所述基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,包括:
将多组所述训练数据集按照预设比例分为训练样本集合及测试样本集合;
计算所述训练样本集合中所述目标信息的所述真实位置信息及所述预测位置信息的交叉熵损失;
基于所述交叉熵损失对所述BERT模型进行微调训练得到所述信息提取模型;
基于所述测试样本集合获取所述信息提取模型的性能参数,并在所述性能参数不满足预设条件时,对所述信息提取模型进行调整。
3.根据权利要求2所述的信息提取模型的建立方法,其特征在于,所述位置信息包括起始位置和终止位置;
所述计算所述训练样本集合中所述目标信息的所述真实位置信息及所述预测位置信息的交叉熵损失,包括:
判断所述文本中各位置为所述目标信息的起始位置和终止位置的概率,并选取概率最大的对应所述位置为所述预测起始位置和所述预测终止位置;
分别计算所述预测起始位置和所述目标信息的真实起始位置、所述预测终止位置与所述目标信息的真实终止位置对应的所述交叉熵损失。
4.根据权利要求3所述的信息提取模型的建立方法,其特征在于,所述基于所述交叉熵损失对所述BERT模型进行微调训练得到所述信息提取模型,包括:
基于所述交叉熵损失对所述BERT模型进行微调训练,使得计算得到的所述交叉熵损失之和最小化,得到所述信息提取模型。
5.根据权利要求2所述的信息提取模型的建立方法,其特征在于,所述对所述信息提取模型进行调整,包括;
对所述信息提取模型的超参数进行调整,直至所述性能参数满足所述预设条件。
6.根据权利要求1所述的信息提取模型的建立方法,其特征在于,在所述采集训练数据之后,所述方法还包括:
去除所述训练数据中的特殊字符;
当所述训练数据中有所述文本的长度大于所述预训练模型的最大文本长度时,对所述文本进行切分;
对经文本切分得到的训练数据进行数据格式转化。
7.根据权利要求6所述的信息提取模型的建立方法,其特征在于,所述对所述文本进行切分,包括:
将所述文本切分为长度相同且存在交叠的多个短文本,并将得到的所述短文本作为新的训练数据。
8.根据权利要求6所述的信息提取模型的建立方法,其特征在于,所述对经文本切分得到的训练数据进行数据格式转化,包括:
将所述训练数据转化为json数据格式。
9.一种信息提取方法,其特征在于,用于通过权利要求1至8任一项所述的方法建立的所述信息提取模型提取所述目标信息,包括:
获取含有所要提取的目标信息的文本,并对所述文本进行预处理得到输入数据;
通过权利要求1至8任一项所述的方法建立的所述信息提取模型对所述输入数据进行处理,提取出所述目标信息,其中,每个所述输入数据对应一个或多个所述目标信息。
10.根据权利要求9所述的信息提取方法,其特征在于,所述对所述文本进行预处理得到输入数据,包括:
去除所述文本中的特殊字符;
当所述文本的长度大于所述信息提取模型的最大文本长度时,对所述文本进行切分;
对切分得到的文本进行数据格式转化。
11.一种信息提取模型的建立装置,其特征在于,包括:
数据采集模块,用于采集训练数据集,其中,所述训练数据集包含多组文本,每个所述文本对应一个或多个目标信息;
信息获取模块,用于获取预训练模型,通过所述预训练模型获取各所述文本中所述目标信息的预测位置信息;
装置获取模块,用于获取所述目标信息在所述文本中的真实位置信息,并基于所述真实位置信息及所述预测位置信息对所述预训练模型进行微调训练,得到所述信息提取模型。
12.一种信息提取装置,其特征在于,包括:
预处理模块,用于获取含有所要提取的目标信息的文本,并对所述文本进行预处理得到输入数据;
提取模块,用于通过权利要求1至8任一项所述的方法建立的所述信息提取模型对所述输入数据进行处理,提取出所述目标信息,其中,每个所述输入数据对应一个或多个所述目标信息。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。
14.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-10任一项所述的方法。
CN202010140219.7A 2020-03-03 2020-03-03 信息提取模型的建立方法及装置、存储介质及电子设备 Pending CN113343645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010140219.7A CN113343645A (zh) 2020-03-03 2020-03-03 信息提取模型的建立方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010140219.7A CN113343645A (zh) 2020-03-03 2020-03-03 信息提取模型的建立方法及装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN113343645A true CN113343645A (zh) 2021-09-03

Family

ID=77467352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010140219.7A Pending CN113343645A (zh) 2020-03-03 2020-03-03 信息提取模型的建立方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113343645A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN109697228A (zh) * 2018-12-13 2019-04-30 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及存储介质
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法
CN110517121A (zh) * 2019-09-23 2019-11-29 重庆邮电大学 基于评论文本情感分析的商品推荐方法及商品推荐装置
CN110619123A (zh) * 2019-09-19 2019-12-27 电子科技大学 一种机器阅读理解方法
CN110781276A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 文本抽取方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109697228A (zh) * 2018-12-13 2019-04-30 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备及存储介质
CN109635947A (zh) * 2018-12-14 2019-04-16 安徽省泰岳祥升软件有限公司 基于答案采样的机器阅读理解模型训练方法及装置
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法
CN110781276A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 文本抽取方法、装置、设备及存储介质
CN110619123A (zh) * 2019-09-19 2019-12-27 电子科技大学 一种机器阅读理解方法
CN110517121A (zh) * 2019-09-23 2019-11-29 重庆邮电大学 基于评论文本情感分析的商品推荐方法及商品推荐装置

Similar Documents

Publication Publication Date Title
CN109522483B (zh) 用于推送信息的方法和装置
CN107105031A (zh) 信息推送方法和装置
US20190179966A1 (en) Method and apparatus for identifying demand
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN113301442A (zh) 确定直播资源的方法、设备、介质及程序产品
EP4134900A2 (en) Method and apparatus for recommending content, method and apparatus for training ranking model, device, and storage medium
CN113360711B (zh) 视频理解任务的模型训练和执行方法、装置、设备及介质
CN111371767A (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
US20230186607A1 (en) Multi-task identification method, training method, electronic device, and storage medium
CN113204695B (zh) 网站识别方法和装置
CN113392920A (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN111199454B (zh) 实时用户转化评估方法、装置及电子设备
EP4116889A2 (en) Method and apparatus of processing event data, electronic device, and medium
CN114141236B (zh) 语言模型更新方法、装置、电子设备及存储介质
US20230041339A1 (en) Method, device, and computer program product for user behavior prediction
CN113343645A (zh) 信息提取模型的建立方法及装置、存储介质及电子设备
CN114240250A (zh) 一种职业评测的智能管理方法及系统
JP2023554210A (ja) インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN114169418A (zh) 标签推荐模型训练方法及装置、标签获取方法及装置
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备
CN114117248A (zh) 数据处理方法、装置及电子设备
CN113360761A (zh) 信息流推荐方法、装置、电子设备和计算机可读存储介质
CN113076932A (zh) 训练音频语种识别模型的方法、视频检测方法及其装置
EP4109353A2 (en) Method and apparatus of generating pre-training model, electronic device, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination