CN112069329A - 文本语料的处理方法、装置、设备及存储介质 - Google Patents

文本语料的处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112069329A
CN112069329A CN202010951127.7A CN202010951127A CN112069329A CN 112069329 A CN112069329 A CN 112069329A CN 202010951127 A CN202010951127 A CN 202010951127A CN 112069329 A CN112069329 A CN 112069329A
Authority
CN
China
Prior art keywords
training sample
entity
sample set
text
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010951127.7A
Other languages
English (en)
Other versions
CN112069329B (zh
Inventor
王子丰
文瑞
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010951127.7A priority Critical patent/CN112069329B/zh
Publication of CN112069329A publication Critical patent/CN112069329A/zh
Application granted granted Critical
Publication of CN112069329B publication Critical patent/CN112069329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本语料的处理方法、装置、设备及存储介质,属于人工智能技术领域。所述方法包括:采用设定召回参数获取初始的训练样本集,所述初始的训练样本集中包括至少一个训练样本;基于初始的训练样本集中目标训练样本的影响函数,确定目标训练样本的重要性指标;根据初始的训练样本集中各个训练样本的重要性指标,从初始的训练样本集中选取重要性指标满足条件的训练样本,得到关系抽取模型的采样后的训练样本集,采样后的训练样本集用于对关系抽取模型进行训练。本申请中,能够快速准确地从初始的训练样本集中获取采样后的训练样本集,保证采样后的训练样本集的可信度,提高训练出的关系抽取模型的准确性。

Description

文本语料的处理方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本语料的处理方法、装置、设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。目前,深度学习模型在人工智能领域的运用越来越广泛,关系抽取模型在医疗领域中对于知识图谱的构建也越来越重要,因此,用于训练关系抽取模型的样本数据的选取也逐渐变得重要。
在相关技术中,由医疗领域的工作人员依据经验编写针对医疗领域的特征规则的校验方案。在获取用于训练关系抽取模型的样本数据之后,依据预先编写好的特征规则的校验方案,对上述样本数据进行筛选,去除样本数据中不可信的样本个体,保留可信的样本个体作为训练关系抽取模型的实际训练样本,并依据该实际训练样本训练得到关系抽取模型,进而依据该关系抽取模型对所获取的医疗领域的待识别文本进行关系抽取,以此来实现对医疗领域的知识图谱的更新。
然而,在上述相关技术中,在特征规则的编写以及实际训练样本的筛选两个方面严重依赖于人工操作,这难免存在局限性,容易导致所获取的实际训练样本的准确性不佳,进而导致训练出的关系抽取模型的准确性低。
发明内容
本申请实施例提供了一种文本语料的处理方法、装置、设备及存储介质,能够快速准确地从初始的训练样本集中获取采样后的训练样本集,保证采样后的训练样本集的可信度,提高关系抽取模型的训练效率和准确性。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种文本语料的处理方法,所述方法包括:
采用设定召回参数获取初始的训练样本集,所述初始的训练样本集中包括至少一个训练样本;其中,所述设定召回参数是用于从文本语料库中召回所述训练样本的参数,所述文本语料库中包括用于构建知识图谱的文本语料;
基于所述初始的训练样本集中目标训练样本的影响函数,确定所述目标训练样本的重要性指标;其中,所述目标训练样本的重要性指标用于度量所述目标训练样本在关系抽取模型的训练过程中的重要程度,所述关系抽取模型是用于从语料样本中抽取实体间关系以构建知识图谱的模型;
根据所述初始的训练样本集中各个训练样本的重要性指标,从所述初始的训练样本集中选取所述重要性指标满足条件的训练样本,得到所述关系抽取模型的采样后的训练样本集,所述采样后的训练样本集用于对所述关系抽取模型进行训练。
根据本申请实施例的一个方面,提供了一种文本语料的处理装置,所述装置包括:
初始获取模块,用于采用设定召回参数获取初始的训练样本集,所述初始的训练样本集中包括至少一个训练样本;其中,所述设定召回参数是用于从文本语料库中召回所述训练样本的参数,所述文本语料库中包括用于构建知识图谱的文本语料;
指标获取模块,用于基于所述初始的训练样本集中目标训练样本的影响函数,确定所述目标训练样本的重要性指标;其中,所述目标训练样本的重要性指标用于度量所述目标训练样本在关系抽取模型的训练过程中的重要程度,所述关系抽取模型是用于从语料样本中抽取实体间关系以构建知识图谱的模型;
样本采样模块,用于根据所述初始的训练样本集中各个训练样本的重要性指标,从所述初始的训练样本集中选取所述重要性指标满足条件的训练样本,得到所述关系抽取模型的采样后的训练样本集,所述采样后的训练样本集用于对所述关系抽取模型进行训练。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述文本语料的处理方法。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述文本语料的处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本语料的处理方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过初始的训练样本集中各个训练样本的影响函数确定各个训练样本的重要性指标,且重要性指标用于度量训练样本在关系抽取模型训练过程中的重要程度,进一步地,根据重要性指标从初始的训练样本集中抽取获得采样后的训练样本集,此时,在采样后的训练样本集中仅仅包括重要性指标满足条件的训练样本,也就是说,计算机设备能够自动对初始的训练样本集进行质量评估,并从初始的训练样本集中确定对关系抽取模型的训练影响大的训练样本(也即高质量的训练样本),进而得到用于关系抽取模型训练的采样后的训练样本集,实现了针对初始的训练样本集的自动筛选,可移植性和延展性高,避免人工筛选造成的人力资源消耗,能够快速准确地从初始的训练样本集中获取采样后的训练样本集,保证采样后的训练样本集的可信度,提高关系抽取模型的训练效率,提高训练出的关系抽取模型的准确性。
另外,与相关技术中的通过深度学习的样本抽取模型从初始的训练样本集中抽取采样后的训练样本集相比,相关技术中通常需要一个额外的干净数据集评估样本抽取模型的好坏,成本较高,在样本筛选时,需要对单个样本用额外的模型多做一次前向过程,计算量较大,本申请直接对初始的训练样本集进行抽取,获得采样后的训练样本集之后,即可对关系抽取模型进行训练,不需要再增加一个额外的干净数据集评估样本抽取模型的好坏,计算量小,操作成本低。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示例性示出了文本语料的处理方式的示意图;
图2是本申请一个实施例提供的文本语料的处理方法的流程图;
图3示例性示出了本申请训练得到的关系抽取模型与相关技术中训练得到的关系抽取模型之间的区别的示意图;
图4示例性示出了一种关系抽取模型在医疗领域的使用方式的示意图;
图5是本申请一个实施例提供的文本语料的处理装置的框图;
图6是本申请另一个实施例提供的文本语料的处理装置的框图;
图7是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,利用机器学习技术,采用采样后的训练样本集进行模型训练,得到用于从语料样本中抽取实体间关系以构建知识图谱的关系抽取模型。其中,上述采样后的训练样本集是从初始的训练样本集中选取的,知识图谱是指用于记录各个知识实体之间的关联关系的可视化图谱。可选地,计算机设备在获取初始的训练样本集之后,可以依据影响函数确定初始的训练样本集中的每一个训练样本的重要性指标,该重要性指标用于度量单个训练样本在关系抽取模型的训练过程中的重要程度,进一步地,计算机设备基于每一个训练样本的重要程度,从初始的训练样本集中获取重要性指标满足条件的训练样本。
示例性地,结合参考图1,对本申请中文本语料的处理过程进行概述性介绍。首先,计算机设备在获取初始的训练样本集合11,该初始的训练样本集合11中包括初始的第一训练样本集、初始的第二训练样本集、初始的第三训练样本集……初始的第i训练样本集。在关系抽取模型的第t次训练时,从初始的训练样本集合中抽取获得采样后的训练样本集合12,该采样后的训练样本集合12中包括采样后的第一训练样本集、采样后的第二训练样本集、采样后的第三训练样本集……采样后的第i训练样本集。进一步地,计算机设备根据采样后的训练样本集合12对关系抽取模型13进行训练。其中,以初始的第一训练样本集为例,采样后的第一训练样本集的获取步骤为:将初始的第一训练样本集中的各个训练样本通过卷积神经网络(Convolutional Neural Networks,CNN)获得实体向量,并由实体向量计算得到对应的采样概率值14。另外,以初始的第一训练样本集中的目标训练样本为例,该目标训练样本的采样概率14的获取步骤为:目标训练样本的影响函数15,结合测试样本集16得到目标训练样本针对单个测试样本的影响参数17,进而将目标训练样本针对单个测试样本的影响参数17累加求和得到目标训练样本的影响参数18,由目标训练样本的影响参数18计算得到目标训练样本的采样概率。之后,关系抽取模型的第t+1次训练时,重复上述步骤。需要说明的一点是,同一初始的训练样本集中的训练样本是通过同一设定召回参数获取的,不同初始的训练样本集中的训练样本是通过不同的设定召回参数获取的。
为了便于说明,在下述方法实施例中,仅以各步骤的执行主体为计算机设备为例进行介绍说明,所述计算机设备可以是任何具备计算和存储能力的电子设备,如上文介绍的终端或服务器。例如,该计算机设备可以是服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。再例如,该计算机设备也可以是终端,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。需要说明的一点是,在本申请实施例中,各步骤的执行主体可以是同一计算机设备,也可以由多个不同的计算机设备交互配合执行,此处不作限定。
下面,将结合几个实施例对本申请技术方案进行详细的介绍说明。
请参考图2,其示出了本申请一个实施例提供的文本语料的处理方法的流程图。该方法可以包括以下几个步骤(201~203):
步骤201,采用设定召回参数获取初始的训练样本集。
设定召回参数是指用于召回训练样本的参数。其中,初始的训练样本集中包括至少一个训练样本。可选地,上述设定召回参数中可以包括训练样本的一个或多个特征参数,该特征参数用于指示训练样本的特征。在一种可能的实施方式中,计算机设备在获取设定召回参数之后,可以基于该设定召回参数获取初始的训练样本集,此时,该初始的训练样本集中的每一个训练样本具有相同的特征。由于不同的设定召回参数所获取的初始的训练样本集精度不同,在本申请中,从同一设定召回参数对应的训练样本中提取对关系抽取模型训练过程影响大的训练样本,避免不同精度的训练样本对样本评估的影响,保证训练样本抽取的准确性。
在本申请实施例中,计算机设备可以采用设定召回参数从文本语料库中获取上述初始的训练样本集,即上述设定召回参数是用于从文本语料库中召回训练样本的参数,上述初始的训练样本集中的训练样本可以为句子。其中,文本语料库是指包括至少一个句子的文本库。可选地,计算机设备可以从网络环境中获取多源文本语料(文章、句子等),如利用爬虫技术从网络环境中爬取多源文本语料,进一步地,计算机设备可以根据该多源文本语料生成上述文本语料库。
可选地,为了保证文本语料库中的文本的可靠性,计算机设备可以对文本语料库进行更新。在一种可能的实施方式中,计算机设备可以按照一定的时间间隔从网络环境中不断获取多源文本语料,并在文本语料库中存储将该多源文本语料,以此实现对文本语料库的更新。其中,上述时间间隔可以是0.1s、1s、10s或1天等,本申请实施例对此不作限定。当然,计算机设备在存储上述多源文本语料时,也可以对之前存储的多源文本语料进行删除,以实现对文本语料库的更新。可选地,计算机设备在存储多源文本语料时,依据存储时间对多源文本语料进行标注,同时,对于之前存储的多源语料文本,删除存储时间过早的多源文本语料,如在存储新的多源文本语料的同时,删除一年前存储的多源文本语料。
需要说明的一点是,由于模型训练所需要的训练样本的数量较多,工作人员可以设置有多个设定召回参数,进而计算机设备在获取该多个设定召回参数之后,依据该多个设定召回参数从上述文本语料库中获取多个初始的训练样本集,此时,不同的初始的训练样本集中的训练样本的特征不同。可选地,在本申请实施例中,计算机设备可以通过上述多个设定召回参数从一个或多个文本语料库中获取上述多个初始的训练样本集。其中,不同的文本语料库对应的设定召回参数可以相同,也可以不同;一个文本语料库可以对应一个设定召回参数,也可以对应多个设定召回参数,本申请实施例对此不作限定。
步骤202,基于初始的训练样本集中目标训练样本的影响函数,确定目标训练样本的重要性指标。
目标训练样本的影响函数用于度量第一模型和第二模型之间的模型参数的差别。其中,第一模型是指通过上述初始的训练样本集训练得到的关系抽取模型,第二模型是指通过上述初始的训练样本集中除目标训练样本之外的其它训练样本训练得到的关系抽取模型。可选地,计算机设备可以根据上述影响函数,确定是否使用上述目标训练样本进行关系抽取模型的训练。示例性地,假设某个训练样本为z,初始的训练样本集为S1,初始的训练样本集中的训练样本的数量为m,则第一模型参数a1为:
Figure BDA0002676958510000081
其中,l1(z)为某个训练样本z在第一模型上的损失函数值,第二模型参数a2为:
Figure BDA0002676958510000082
其中,l2(z)为某个训练样本z在第二模型上的损失函数值,S2表示初始的训练样本集中除上述某个训练样本z之外的其它训练样本组成的训练样本集。此时,第一模型参数a1与a2之间的差值即可用某个训练样本为z的影响函数f(z)来近似表示:
Figure BDA0002676958510000083
由上述公式可知,某个训练样本为z的影响函数f(z)能够反映该训练样本z在关系抽取模型的训练过程中的损失函数的变化。若l1(z)大于l2(z),则确定去掉某个训练样本z使得模型的训练效果变好,这就说明该训练样本z在模型训练过程中不重要;若l1(z)小于l2(z),则确定去掉某个训练样本z使得模型的训练效果变差,这就说明该训练样本z在模型训练过程中重要。因此,在本申请中,计算机设备能够依据目标训练样本的影响函数,来确定目标训练样本在关系抽取模型的训练过程中的影响程度,也即重要性。
在本申请实施例中,计算机设备在获取上述初始的训练样本集之后,可以基于该初始的训练样本集中目标训练样本的影响函数,确定目标训练样本的重要性指标。其中,目标训练样本的重要性指标用于度量目标训练样本在关系抽取模型的训练过程中的重要程度,关系抽取模型是用于从语料样本中抽取实体间关系以构建知识图谱的模型,该语料样本可以是文章或句子,实体可以是文本语料中的关键词。可选地,若目标训练样本在关系抽取模型的训练过程中具有重要影响,则该目标训练样本的重要性指标满足条件,此时,计算机设备可以在关系抽取模型的训练过程中保留该目标训练样本;若目标训练样本在关系抽取模型的训练过程中不具有重要影响,则该目标训练样本的重要性指标不满足条件,此时,计算机设备在关系抽取模型的训练过程中剔除该目标训练样本。
在本申请实施例中,计算机设备可以依据测试样本集,通过上述目标训练样本的影响函数来确定目标训练样本的重要性指标。其中,测试样本集中包括至少一个测试样本。可选地,测试样本集是指用于训练上述关系抽取模型的准确样本集,即测试样本集中的每一个测试样本在关系抽取模型的训练过程中均重要。可选地,上述步骤202包括以下几个步骤:
1、获取关系抽取模型的测试样本集。
可选地,测试样本集可以是由工作人员挑选的样本集。在一种可能的实施方式中,工作人员依据上述设定召回参数,从上述文本语料库中筛选获取与关系抽取模型的训练过程强相关的语料(如文章、句子),来组成该关系抽取模型的测试样本集。需要说明的一点是,该测试样本集与上述初始的训练样本集之间具有对应关系,即某个设定召回参数对应的测试样本集与该设定召回参数对应的初始的训练样本集之间具有对应关系。
在本申请实施例中,工作人员在筛选获取上述测试样本集之后,可以将该测试样本集输入至计算机设备,对应的,计算机设备存储该关系抽取模型的测试样本集,进而在进行关系模型训练时,计算机设备可以直接从自身存储器中获取该关系抽取模型的测试样本集。
需要说明的一点是,工作人员在筛选获取上述测试样本集之后,可以继续依据上述设定召回参数从文本语料库中获取文本语料,并依据该文本语料对上述测试样本集进行完善更新,本申请实施例对此不作限定。
2、基于测试样本集和目标训练样本的影响函数,确定目标训练样本的影响参数。
在本申请实施例中,计算机设备在获取上述测试样本集之后,基于该测试样本集和上述目标训练样本的影响函数,确定目标训练样本的影响参数。其中,目标训练样本的影响参数用于度量目标训练样本对关系抽取模型在测试样本集上预测误差的影响程度。可选地,计算机设备可以在关系抽取模型针对测试样本集的预测误差的基础上,结合目标训练样本的影响函数,确定目标训练样本对关系抽取模型在测试样本集上预测误差的影响程度,即确定目标训练样本的影响参数。
在一种可能的实施方式中,计算机设备在获取上述测试样本集之后,获取第一损失函数值和第二损失函数值。其中,第一损失函数值是指关系抽取模型在目标训练样本上的损失函数值,可选地,计算机设备可以将目标训练样本输入至上述关系抽取模型,进而在得到关系抽取模型所输出的针对该目标训练样本的实际值之后,根据该实际值,以及目标训练样本对应的预测值,获取第一损失函数值,即该第一损失函数值用于指示关系抽取模型针对目标训练样本的预测误差;第二损失函数值是指关系抽取模型在测试样本上的损失函数值,可选地,计算机设备可以将测试样本输入至上述关系抽取模型,进而在得到关系抽取模型所输出的针对该测试样本的实际值之后,根据该实际值,以及测试样本对应的预测值,获取第二失函数值,即该第二损失函数值用于指示关系抽取模型针对测试样本的预测误差。
之后,计算机设备在获取上述第一损失函数值和上述第二损失函数值之后,基于上述目标训练样本的影响函数、第一损失函数值和第二损失函数值,确定目标训练样本针对单个测试样本的影响参数,并将该目标训练样本针对各个测试样本的影响参数累加,得到目标训练样本的影响参数。
3、根据目标训练样本的影响参数,确定目标训练样本的重要性指标。
在本申请实施例中,计算机设备在获取上述目标训练样本的影响参数之后,根据该目标训练样本的影响参数,确定目标训练样本的重要性指标。
可选地,上述重要性指标包括采样概率值。在一种可能的实施方式中,计算机设备在获取上述目标训练样本的影响参数之后,根据该目标训练样本的影响参数,计算该目标训练样本的影响参数对应的采样概率值,该采样概率值是一个取值在[0,1]之间的概率值。示例性地,计算机设备可以将上述目标训练样本的影响参数代入神经网络的激活函数,以得到取值为[0,1]的概率值,并将该概率值作为目标训练样本的影响参数对应的采样概率值。
示例性地,假设目标训练样本的影响函数为f(x):
Figure BDA0002676958510000111
其中,H是关系抽取模型的训练误差函数的海森矩阵,
Figure BDA0002676958510000112
是训练误差函数关于关系抽取模型的模型参数的梯度,a是关系抽取模型的模型参数,l(z)是目标训练样本z在关系抽取模型上的损失函数值,z是目标训练样本,训练误差函数L(z)为:
Figure BDA0002676958510000113
其中,zi是初始的训练样本集中的任一训练样本,m是初始的训练样本集中训练样本的数量。
进一步地,假设测试样本集为St,上述目标训练样本z针对单个测试样本zt的影响参数g(z,zt)为:
Figure BDA0002676958510000114
其中,
Figure BDA0002676958510000115
是训练误差函数的梯度,l(zt)是单个测试样本zt在关系抽取模型上的损失函数值。
进一步地,目标训练样本的影响参数G(z)为:
Figure BDA0002676958510000116
其中,zti是测试样本集中的任一测试样本。
进一步地,将目标训练样本的影响参数G(z)代入神经网络的激活函数,得到目标训练样本z的影响参数G(z)对应的采样概率值Pz为:
Figure BDA0002676958510000117
其中,α是一个超参数,取值可以为1。
步骤203,根据初始的训练样本集中各个训练样本的重要性指标,从初始的训练样本集中选取重要性指标满足条件的训练样本,得到关系抽取模型的采样后的训练样本集。
采样后的训练样本集用于对关系抽取模型进行训练。在本申请实施例中,计算机设备可以重复上述步骤202,以获取初始的训练样本集中各个训练样本的重要性指标,并根据该各个训练样本的重要性指标,从初始的训练样本集中选取重要性指标满足条件的训练样本,得到关系抽取模型的采样后的训练样本集。
可选地,计算机设备在获取上述各个训练样本的重要性指标之后,以重要性指标是否满足条件为基准,获取采样后的训练样本集。若某个训练样本的重要性指标满足条件,则确定该训练样本在关系抽取模型的训练过程中具有重要影响,将该训练样本保留作为采样后的训练样本;若某个训练样本的重要性指标不满足条件,则确定该训练样本在关系抽取模型的训练过程中不具有重要影响,剔除该训练样本。
需要说明的一点是,上述条件可以是由工作人员根据实际情况,结合工作经验进行设置的。
在一种可能的实施方式中,上述条件为重要性指标大于阈值。可选地,计算机设备在获取上述各个训练样本的重要性指标时,以上述阈值为基准,从初始的训练样本集中选取重要性指标大于阈值的训练样本,进而得到关系抽取模型的采样后的训练样本集。
在另一种可能的实施方式中,上述条件为采样后的训练样本集中所包含的训练样本的数量。可选地,计算机设备在获取上述各个训练样本的重要性指标时,按照重要性指标由大到小的顺序对各个训练样本进行排序,得到训练样本序列,进一步地,以采样后的训练样本集中所包含的训练样本的数量为基准,选取序列中前n个训练样本,进而得到关系抽取模型的采样后的训练样本集。其中,n为正整数。
在本申请实施例中,计算机设备在获取上述采样后的训练样本集之后,根据该采样后的训练样本集对关系抽取模型进行训练。需要说明的一点是,关系抽取模型的训练需要经过多次迭代训练才能够完成,在每次训练之前,计算机设备需要根据本次所训练的关系抽取模型,重新获取上述初始的训练样本集中各个训练样本的重要性指标,并根据该重要性指标选择本次训练所需要的采样后的训练样本集。
综上所述,本申请实施例提供的技术方案中,通过初始的训练样本集中各个训练样本的影响函数确定各个训练样本的重要性指标,且重要性指标用于度量训练样本在关系抽取模型训练过程中的重要程度,进一步地,根据重要性指标从初始的训练样本集中抽取获得采样后的训练样本集,此时,采样后的训练样本集中仅仅包括重要性指标满足条件的训练样本,也就是说,计算机设备能够自动对初始的训练样本集进行质量评估,并从初始的训练样本集中确定对关系抽取模型的训练影响大的训练样本(也即高质量的训练样本),进而得到用于关系抽取模型训练的采样后的训练样本集,实现了针对初始的训练样本集的自动筛选,可移植性和延展性高,避免人工筛选造成的人力资源消耗,能够快速准确地从初始的训练样本集中获取采样后的训练样本集,保证采样后的训练样本集的可信度,提高关系抽取模型的训练效率,提高训练出的关系抽取模型的准确性。
另外,与相关技术中的通过深度学习的样本抽取模型从初始的训练样本集中抽取采样后的训练样本集相比,相关技术中通常需要一个额外的干净数据集评估样本抽取模型的好坏,成本较高,在样本筛选时,需要对单个样本用额外的模型多做一次前向过程,计算量较大,本申请直接对初始的训练样本集进行抽取,获得采样后的训练样本集之后,即可对关系抽取模型进行训练,不需要再增加一个额外的干净数据集评估样本抽取模型的好坏,计算量小,操作成本低。
上文主要介绍了采样后的训练样本集的获取方式,下面对初始的训练样本集的获取方式进行介绍。
在示例性实施例中,上述步骤201包括以下几个步骤:
1、获取设定召回参数。
设定召回参数是指用于召回训练样本的参数。可选地,该设定召回参数可以是工作人员根据实际情况所设置的参数。
在一种可能的实施方式,工作人员可以根据上述文本语料库中的多源文本语料的具体内容,设置上述设定召回参数。其中,不同的多源文本语料对应的设定召回参数可以不同,同一多源文本语料可以对应一个或多个设定召回参数。
在另一种可能的实施方式中,工作人员可以根据所需要构建的知识图谱,设置上述设定召回参数。其中,不同的知识图谱对应的设定召回参数可以不同,同一知识图谱可以对应一个或多个设定召回参数。
在本申请实施例中,工作人员在设置好上述设定召回参数之后,向计算机设备输入该设定召回参数,对应的,计算机设备存储该设定召回参数,进一步地,在关系模型的训练过程中,计算机设备可以直接从自身存储器中获取上述设定召回参数。
可选地,上述设定召回参数包括第一实体、第二实体、第一实体的类型、第二实体的类型和实体关系。其中,第一实体用于指示第一关键系;第二实体用于指示第二关键词;第一实体类型用于指示第一关键词的类型;第二实体类型用于指示第二关键词的类型;实体关系用于指示第一实体与第二实体之间的关系,即实体类型用于指示第一关键词与第二关键词之间的关系。
需要说明的一点是,上述关于设定召回参数所包括的内容的介绍只是示例性和解释性的,在实际运用中,工作人员可以根据实际情况对设定召回参数进行设置,如设定召回参数中包括第一实体或第二实体。
2、从文本语料库中选取与第一实体的类型和第二实体的类型相匹配的文本语料,得到一次筛选后的文本语料。
在本申请实施例中,计算机设备在获取上述设定召回参数之后,根据该设定召回参数中的第一实体类型和第二实体类型,从上述文本语料库中选取与第一实体的类型和第二实体的类型相匹配的文本语料,得到一次筛选后的文本语料。此时,该一次筛选后的文本语料中包括第一实体类型对应的分词和第二实体类型对应的分词。
可选地,计算机设备可以利用自然语言处理技术对文本语料库中的文本语料进行分词处理,得到每一个句子对应的分词,并标注每个分词的分词类型。进一步地,根据每个分词的分词类型,以第一实体类型和第二实体类型为基准,选择既包括第一实体类型对应的分词又包括第二实体类型对应的分词的句子,作为一次筛选后的文本语料。当然,在实际运用中,计算机设备也可以通过命名实体识别(Named Entity Recognition,NER)模型获取文本语料中的各个句子所包含的实体对应的实体类型,进而根据该实体类型,以上述第一实体类型和第二实体类型为基准,得到一次筛选后的文本语料,本申请实施例对此不作限定。
3、从一次筛选后的文本语料中选取与第一实体和第二实体相匹配的文本语料,得到二次筛选后的文本语料。
在本申请实施例中,计算机设备在获取上述一次筛选后的文本语料之后,根据上述设定召回参数中的第一实体和第二实体,从一次筛选后的文本语料中获取与第一实体和第二实体相匹配的文本语料,得到二次筛选后的文本语料。此时,该二次筛选后的文本语料中包括以下任意一项:第一实体的关键词和第二实体的关键词、第一实体的关键词和第二实体的关键词的近义词、第一实体的关键词的近义词和第二实体的关键词、第一实体的关键词的近义词和第二实体的关键词的近义词。
4、从二次筛选后的文本语料中选取合规的文本语料,得到初始的训练样本集。
在本申请实施例中,计算机设备在获取上述二次筛选后的文本语料之后,从该二次筛选后的文本语料中选取合规的文本语料,得到初始的训练样本集。可选地,合规的文本语料包括以下至少一项:字符数满足第一要求的文本语料、字符内容满足第二要求文本语料、结构满足第三要求的文本语料。
在一种可能的实施方式中,计算机设备在获取上述二次筛选后的文本语料之后,从该二次筛选后的文本语料中,选取字符数小于第一门限值的文本语料;进一步地,从字符数小于门限值的文本语料中,选取字符内容在文本语料库中出现频率大于第二门限值的文本语料;之后,从出现频率大于第二门限值的文本语料中,去除结构重复的文本语料,将剩余的文本语料确定为上述初始的训练样本集。
另外,基于本申请所提供的技术方案获取的采样后的训练样本集训练得到的关系抽取模型,以及相关技术方案获取的训练样本训练得到关系抽取模型,二者之间的对比如表1:
表1不同训练样本抽取方式对关系抽取模型训练的影响
Figure BDA0002676958510000151
Figure BDA0002676958510000161
如图3所示,PCNN+REIF的优越性,显著的超过了其他基准模型,本申请所提供的方法相比基准模型有接近20%的提升。
示例性地,结合参考图4,以医疗领域为例,对完成训练后的关系抽取模型的作用进行介绍,步骤如下:
步骤401,获取医疗领域的待识别文本。
医疗领域的待识别文本是指记载有医疗内容的文本。可选地,该医疗领域的待识别文本可以是医疗病例、医疗资讯、医学论文,等等,本申请实施例对此不作限定。其中,上述医疗领域的待识别文本中包括多于一个医疗实体词,该医疗实体词是指与医疗领域相关联的实体词,例如,该医疗实体词可以是疾病实体词、药品实体词、治疗效果实体词等。
在本申请实施例中,计算机设备在对医疗领域的知识图谱进行构建或更新之前,可以获取医疗领域的待识别文本。在一种可能的实施方式中,计算机设备可以利用爬虫技术从网络环境中实时获取医疗领域的待识别文本。在另一种可能的实施方式中,上述文本语料库中包括医疗语料样本,计算机设备可以从上述文本语料库中获取医疗语料样本,并将该医疗语料样本作为上述医疗领域的待识别文本。
步骤402,通过关系抽取模型对待识别文本进行关系抽取,得到待识别文本的关系抽取结果。
在本申请实施例中,计算机设备在获取上述医疗领域的待识别文本之后,将该待识别文本输入至关系抽取模型,通过关系抽取模型对该待识别文本进行关系抽取,得到待识别文本的关系抽取结果。其中,该关系抽取结果包括待识别文本中包含的第一实体、第二实体和实体关系,该实体关系用于指示第一实体和第二实体之间的关系。可选地,上述第一实体是指待识别文本中的第一医疗实体词,上述第二实体是指待识别文本中的第二医疗实体词,上述实体关系用于指示第一医疗实体词与第二医疗实体词之间的关系。例如,第一实体为感冒,第二实体为感冒药,实体关系为治疗。
步骤403,基于关系抽取结果,对医疗领域的知识图谱进行更新。
医疗领域的知识图谱是指用于记录各个医疗实体词之间的关联关系的可视化图谱。在本申请实施例中,计算机设备在获取上述关系抽取结果之后,基于该关系抽取结果对医疗领域的知识图谱进行更新,得到更新后的知识图谱。其中,上述针对医疗领域的知识图谱的更新可以包括但不限于以下至少一项:增加新的医疗实体词、增加新的医疗实体词与已有的医疗实体词之间的关联关系、增加新的医疗实体词之间的关联关系、增加已有的医疗实体词之间的新的关联关系、删除已有的医疗实体词、删除已有的医疗实体词之间的关联关系等。
可选地,在本申请实施例中,上述关系抽取结果包括待识别文本中包含的第一实体、第二实体和实体关系。计算机设备在获取该关系抽取结果之后,若上述医疗领域的知识图谱中不存在上述第一实体,则在该医疗领域的知识图谱中添加上述第一实体,以及添加第一实体和第二实体之间的实体关系;若上述医疗领域的知识图谱中不存在上述第二实体,则在该医疗领域的知识图谱中添加上述第二实体,以及添加第一实体和第二实体之间的实体关系;若上述医疗领域的知识图谱中不存在上述第一实体和上述第二实体,则在该医疗领域的知识图谱中添加上述第一实体和上述第二实体,以及添加第一实体和第二实体之间的实体关系;若上述医疗领域的知识图谱中存在上述第一实体和上述第二实体,但不存在上述实体关系,则在该医疗领域的知识图谱中添加第一实体与第二实体之间的实体关系。
当然,在实际运用中,为了保证医疗领域的知识图谱的实时性和准确性,计算机设备可以按照一定的时间间隔获取医疗领域的待识别文本,并依据该医疗领域的待识别文本对医疗领域的知识图谱进行更新。其中,上述时间间隔可以为1s、1h、1天、1月,等等,本申请实施例对此不作限定。
需要说明的一点是,上述是以医疗领域为例对关系抽取模型的使用方式的介绍,在实际运用中,关系抽取模型还可以运用于其它领域的知识图谱的构建,如电商、金融、军工、电力、司法、教育、公安、石油等领域。可选地,不同领域对应的文本语料库可以相同,也可以不同;不同领域的知识图谱对应的关系抽取模型可以相同,也可以不同。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图5,其示出了本申请一个实施例提供的文本语料的处理装置的框图。该装置具有实现上述文本语料的处理方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置500可以包括:初始获取模块510、指标获取模块520和样本采样模块530。
初始获取模块510,用于采用设定召回参数获取初始的训练样本集,所述初始的训练样本集中包括至少一个训练样本;其中,所述设定召回参数是用于从文本语料库中召回所述训练样本的参数,所述文本语料库中包括用于构建知识图谱的文本语料。
指标获取模块520,用于基于所述初始的训练样本集中目标训练样本的影响函数,确定所述目标训练样本的重要性指标;其中,所述目标训练样本的重要性指标用于度量所述目标训练样本在关系抽取模型的训练过程中的重要程度,所述关系抽取模型是用于从语料样本中抽取实体间关系以构建知识图谱的模型。
样本采样模块530,用于根据所述初始的训练样本集中各个训练样本的重要性指标,从所述初始的训练样本集中选取所述重要性指标满足条件的训练样本,得到所述关系抽取模型的采样后的训练样本集,所述采样后的训练样本集用于对所述关系抽取模型进行训练。
在示例性实施例中,如图6所示,所述指标获取模块520,包括:测试获取单元521、参数确定单元522和指标确定单元523。
测试获取单元521,用于获取所述关系抽取模型的测试样本集,所述测试样本集中包括至少一个测试样本。
参数确定单元522,用于基于所述测试样本集和所述目标训练样本的影响函数,确定所述目标训练样本的影响参数;其中,所述目标训练样本的影响参数用于度量所述目标训练样本对所述关系抽取模型在所述测试样本集上预测误差的影响程度。
指标确定单元523,用于根据所述目标训练样本的影响参数,确定所述目标训练样本的重要性指标。
在示例性实施例中,所述参数确定单元522,用于获取第一损失函数值和第二损失函数值;其中,所述第一损失函数值是指所述关系抽取模型在所述目标训练样本上的损失函数值,所述第二损失函数值是指所述关系抽取模型在所述测试样本上的损失函数值;基于所述目标训练样本的影响函数、所述第一损失函数值和所述第二损失函数,确定所述目标训练样本针对单个所述测试样本的影响参数;将所述目标训练样本针对各个所述测试样本的影响参数累加,得到所述目标训练样本的影响参数。
在示例性实施例中,所述指标确定单元523,用于计算所述目标训练样本的影响参数对应的采样概率值,所述采样概率值是一个取值在[0,1]之间的概率值;其中,所述重要性指标包括所述采样概率值。
在示例性实施例中,所述指标获取模块520,用于从所述初始的训练样本集中选取所述重要性指标大于阈值的训练样本,得到所述关系抽取模型的采样后的训练样本集;或者,按照所述重要性指标由大到小的顺序对各个所述训练样本进行排序,得到训练样本序列;选取所述序列中前n个训练样本得到所述关系抽取模型的采样后的训练样本集,所述n为正整数。
在示例性实施例中,如图6所示,所述初始获取模块510,包括:参数确定单元531、第一筛选单元532、第二筛选单元533和初始获取单元534。
参数确定单元531,用于获取所述设定召回参数,所述设定召回参数包括第一实体、第二实体、所述第一实体的类型、所述第二实体的类型和实体关系,所述实体关系用于指示所述第一实体与所述第二实体之间的关系。
第一筛选单元532,用于从所述文本语料库中选取与所述第一实体的类型和所述第二实体的类型相匹配的文本语料,得到一次筛选后的文本语料。
第二筛选单元533,用于从所述一次筛选后的文本语料中选取与所述第一实体和所述第二实体相匹配的文本语料,得到二次筛选后的文本语料。
初始获取单元534,用于从所述二次筛选后的文本语料中选取合规的文本语料,得到所述初始的训练样本集。
在示例性实施例中,所述二次筛选后的文本语料中包括:所述第一实体的关键词和所述第二实体的关键词;或者,所述第一实体的关键词和所述第二实体的关键词的近义词;或者,所述第一实体的关键词的近义词和所述第二实体的关键词;或者,所述第一实体的关键词的近义词和所述第二实体的关键词的近义词。
在示例性实施例中,所述初始获取单元534,用于从所述二次筛选后的文本语料中,选取字符数小于第一门限值的文本语料;从所述字符数小于门限值的文本语料中,选取字符内容在所述文本语料库中出现频率大于第二门限值的文本语料;从所述出现频率大于第二门限值的文本语料中,去除结构重复的文本语料,将剩余的文本语料确定为所述初始的训练样本集。
在示例性实施例中,如图6所示,所述装置500还包括:文本获取模块540、结果获取模型550和图谱更新模块560。
文本获取模块540,用于获取医疗领域的待识别文本。
结果获取模型550,用于通过所述关系抽取模型对所述待识别文本进行关系抽取,得到所述待识别文本的关系抽取结果,所述关系抽取结果包括所述待识别文本中包含的第一实体、第二实体和实体关系,所述实体关系用于指示所述第一实体和所述第二实体之间的关系。
图谱更新模块560,用于基于所述关系抽取结果,对所述医疗领域的知识图谱进行更新。
在示例性实施例中,所述图谱更新模块560,用于若所述医疗领域的知识图谱中不存在所述第一实体,则在所述医疗领域的知识图谱中添加所述第一实体,以及添加所述第一实体和所述第二实体之间的所述实体关系;若所述医疗领域的知识图谱中不存在所述第二实体,则在所述医疗领域的知识图谱中添加所述第二实体,以及添加所述第一实体和所述第二实体之间的所述实体关系;若所述医疗领域的知识图谱中不存在所述第一实体和所述第二实体,则在所述医疗领域的知识图谱中添加所述第一实体和所述第二实体,以及添加所述第一实体和所述第二实体之间的所述实体关系。
综上所述,本申请实施例提供的技术方案中,通过初始的训练样本集中各个训练样本的影响函数确定各个训练样本的重要性指标,且重要性指标用于度量训练样本在关系抽取模型训练过程中的重要程度,进一步地,根据重要性指标从初始的训练样本集中抽取获得采样后的训练样本集,此时,在采样后的训练样本集中仅仅包括重要性指标满足条件的训练样本,也就是说,计算机设备能够自动对初始的训练样本集进行质量评估,并从初始的训练样本集中确定对关系抽取模型的训练影响大的训练样本(也即高质量的训练样本),进而得到用于关系抽取模型训练的采样后的训练样本集,实现了针对初始的训练样本集的自动筛选,可移植性和延展性高,避免人工筛选造成的人力资源消耗,能够快速准确地从初始的训练样本集中获取采样后的训练样本集,保证采样后的训练样本集的可信度,提高关系抽取模型的训练效率,提高训练出的关系抽取模型的准确性。
另外,与相关技术中的通过深度学习的样本抽取模型从初始的训练样本集中抽取采样后的训练样本集相比,相关技术中通常需要一个额外的干净数据集评估样本抽取模型的好坏,成本较高,在样本筛选时,需要对单个样本用额外的模型多做一次前向过程,计算量较大,本申请直接对初始的训练样本集进行抽取,获得采样后的训练样本集之后,即可对关系抽取模型进行训练,不需要再增加一个额外的干净数据集评估样本抽取模型的好坏,计算量小,操作成本低。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图7,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实现上述文本语料的处理方法或文本语料的处理模型的训练方法的功能。具体来讲:
计算机设备700包括中央处理单元(Central Processing Unit,CPU)701、包括随机存取存储器(Random Access Memory,RAM)702和只读存储器(Read Only Memory,ROM)703的系统存储器704,以及连接系统存储器704和中央处理单元701的系统总线705。计算机设备700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)706,和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。
基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为计算机设备700提供非易失性存储。也就是说,大容量存储设备707可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。
根据本申请的各种实施例,计算机设备700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备700可以通过连接在系统总线705上的网络接口单元711连接到网络712,或者说,也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述文本语料的处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述文本语料的处理方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本语料的处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种文本语料的处理方法,其特征在于,所述方法包括:
采用设定召回参数获取初始的训练样本集,所述初始的训练样本集中包括至少一个训练样本;其中,所述设定召回参数是用于从文本语料库中召回所述训练样本的参数,所述文本语料库中包括用于构建知识图谱的文本语料;
基于所述初始的训练样本集中目标训练样本的影响函数,确定所述目标训练样本的重要性指标;其中,所述目标训练样本的重要性指标用于度量所述目标训练样本在关系抽取模型的训练过程中的重要程度,所述关系抽取模型是用于从语料样本中抽取实体间关系以构建知识图谱的模型;
根据所述初始的训练样本集中各个训练样本的重要性指标,从所述初始的训练样本集中选取所述重要性指标满足条件的训练样本,得到所述关系抽取模型的采样后的训练样本集,所述采样后的训练样本集用于对所述关系抽取模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述基于所述初始的训练样本集中目标训练样本的影响函数,确定所述目标训练样本的重要性指标,包括:
获取所述关系抽取模型的测试样本集,所述测试样本集中包括至少一个测试样本;
基于所述测试样本集和所述目标训练样本的影响函数,确定所述目标训练样本的影响参数;其中,所述目标训练样本的影响参数用于度量所述目标训练样本对所述关系抽取模型在所述测试样本集上预测误差的影响程度;
根据所述目标训练样本的影响参数,确定所述目标训练样本的重要性指标。
3.根据权利要求2所述的方法,其特征在于,所述基于所述测试样本集和所述目标训练样本的影响函数,确定所述目标训练样本的影响参数,包括:
获取第一损失函数值和第二损失函数值;其中,所述第一损失函数值是指所述关系抽取模型在所述目标训练样本上的损失函数值,所述第二损失函数值是指所述关系抽取模型在所述测试样本上的损失函数值;
基于所述目标训练样本的影响函数、所述第一损失函数值和所述第二损失函数,确定所述目标训练样本针对单个所述测试样本的影响参数;
将所述目标训练样本针对各个所述测试样本的影响参数累加,得到所述目标训练样本的影响参数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述目标训练样本的影响参数,确定所述目标训练样本的重要性指标,包括:
计算所述目标训练样本的影响参数对应的采样概率值,所述采样概率值是一个取值在[0,1]之间的概率值;
其中,所述重要性指标包括所述采样概率值。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述初始的训练样本集中各个训练样本的重要性指标,从所述初始的训练样本集中选取所述重要性指标满足条件的训练样本,得到所述关系抽取模型的采样后的训练样本集,包括:
从所述初始的训练样本集中选取所述重要性指标大于阈值的训练样本,得到所述关系抽取模型的采样后的训练样本集;
或者,
按照所述重要性指标由大到小的顺序对各个所述训练样本进行排序,得到训练样本序列;选取所述序列中前n个训练样本得到所述关系抽取模型的采样后的训练样本集,所述n为正整数。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述采用设定召回参数获取初始的训练样本集,包括:
获取所述设定召回参数,所述设定召回参数包括第一实体、第二实体、所述第一实体的类型、所述第二实体的类型和实体关系,所述实体关系用于指示所述第一实体与所述第二实体之间的关系;
从所述文本语料库中选取与所述第一实体的类型和所述第二实体的类型相匹配的文本语料,得到一次筛选后的文本语料;
从所述一次筛选后的文本语料中选取与所述第一实体和所述第二实体相匹配的文本语料,得到二次筛选后的文本语料;
从所述二次筛选后的文本语料中选取合规的文本语料,得到所述初始的训练样本集。
7.根据权利要求6所述的方法,其特征在于,所述二次筛选后的文本语料中包括:
所述第一实体的关键词和所述第二实体的关键词;
或者,所述第一实体的关键词和所述第二实体的关键词的近义词;
或者,所述第一实体的关键词的近义词和所述第二实体的关键词;
或者,所述第一实体的关键词的近义词和所述第二实体的关键词的近义词。
8.根据权利要求6所述的方法,其特征在于,所述从所述二次筛选后的文本语料中选取合规的文本语料,得到所述初始的训练样本集,包括:
从所述二次筛选后的文本语料中,选取字符数小于第一门限值的文本语料;
从所述字符数小于门限值的文本语料中,选取字符内容在所述文本语料库中出现频率大于第二门限值的文本语料;
从所述出现频率大于第二门限值的文本语料中,去除结构重复的文本语料,将剩余的文本语料确定为所述初始的训练样本集。
9.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
获取医疗领域的待识别文本;
通过所述关系抽取模型对所述待识别文本进行关系抽取,得到所述待识别文本的关系抽取结果,所述关系抽取结果包括所述待识别文本中包含的第一实体、第二实体和实体关系,所述实体关系用于指示所述第一实体和所述第二实体之间的关系;
基于所述关系抽取结果,对所述医疗领域的知识图谱进行更新。
10.根据权利要求9所述的方法,其特征在于,所述基于所述关系抽取结果,对所述医疗领域的知识图谱进行更新,包括:
若所述医疗领域的知识图谱中不存在所述第一实体,则在所述医疗领域的知识图谱中添加所述第一实体,以及添加所述第一实体和所述第二实体之间的所述实体关系;
若所述医疗领域的知识图谱中不存在所述第二实体,则在所述医疗领域的知识图谱中添加所述第二实体,以及添加所述第一实体和所述第二实体之间的所述实体关系;
若所述医疗领域的知识图谱中不存在所述第一实体和所述第二实体,则在所述医疗领域的知识图谱中添加所述第一实体和所述第二实体,以及添加所述第一实体和所述第二实体之间的所述实体关系。
11.一种文本语料的处理装置,其特征在于,所述装置包括:
初始获取模块,用于采用设定召回参数获取初始的训练样本集,所述初始的训练样本集中包括至少一个训练样本;其中,所述设定召回参数是用于从文本语料库中召回所述训练样本的参数,所述文本语料库中包括用于构建知识图谱的文本语料;
指标获取模块,用于基于所述初始的训练样本集中目标训练样本的影响函数,确定所述目标训练样本的重要性指标;其中,所述目标训练样本的重要性指标用于度量所述目标训练样本在关系抽取模型的训练过程中的重要程度,所述关系抽取模型是用于从语料样本中抽取实体间关系以构建知识图谱的模型;
样本采样模块,用于根据所述初始的训练样本集中各个训练样本的重要性指标,从所述初始的训练样本集中选取所述重要性指标满足条件的训练样本,得到所述关系抽取模型的采样后的训练样本集,所述采样后的训练样本集用于对所述关系抽取模型进行训练。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一项所述的文本语料的处理方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一项所述的文本语料的处理方法。
CN202010951127.7A 2020-09-11 2020-09-11 文本语料的处理方法、装置、设备及存储介质 Active CN112069329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010951127.7A CN112069329B (zh) 2020-09-11 2020-09-11 文本语料的处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010951127.7A CN112069329B (zh) 2020-09-11 2020-09-11 文本语料的处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112069329A true CN112069329A (zh) 2020-12-11
CN112069329B CN112069329B (zh) 2024-03-15

Family

ID=73696149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010951127.7A Active CN112069329B (zh) 2020-09-11 2020-09-11 文本语料的处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112069329B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966712A (zh) * 2021-02-01 2021-06-15 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质
CN113051374A (zh) * 2021-06-02 2021-06-29 北京沃丰时代数据科技有限公司 一种文本匹配优化方法及装置
CN116737607A (zh) * 2023-08-16 2023-09-12 之江实验室 样本数据缓存方法、系统、计算机设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
CN108845988A (zh) * 2018-06-07 2018-11-20 苏州大学 一种实体识别方法、装置、设备及计算机可读存储介质
US20180365322A1 (en) * 2017-06-20 2018-12-20 Accenture Global Solutions Limited Automatic extraction of a training corpus for a data classifier based on machine learning algorithms
WO2019014607A1 (en) * 2017-07-14 2019-01-17 Alibaba Group Holding Limited METHOD AND APPARATUS FOR SCREEN SCREENING, AND METHOD AND APPARATUS FOR SEARCHING SERVICE OBJECT DATA
CN109960808A (zh) * 2019-03-26 2019-07-02 广东工业大学 一种文本识别方法、装置、设备及计算机可读存储介质
CN110457677A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 实体关系识别方法及装置、存储介质、计算机设备
CN110598105A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 一种基于概率采样的推荐方法、装置、设备及介质
US20200097597A1 (en) * 2018-09-24 2020-03-26 International Business Machines Corporation On-demand relation extraction from text
CN111191791A (zh) * 2019-12-02 2020-05-22 腾讯云计算(北京)有限责任公司 机器学习模型的应用方法、训练方法、装置、设备及介质
CN111401042A (zh) * 2020-03-26 2020-07-10 支付宝(杭州)信息技术有限公司 一种训练文本关键内容提取模型的方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
US20180365322A1 (en) * 2017-06-20 2018-12-20 Accenture Global Solutions Limited Automatic extraction of a training corpus for a data classifier based on machine learning algorithms
WO2019014607A1 (en) * 2017-07-14 2019-01-17 Alibaba Group Holding Limited METHOD AND APPARATUS FOR SCREEN SCREENING, AND METHOD AND APPARATUS FOR SEARCHING SERVICE OBJECT DATA
CN108845988A (zh) * 2018-06-07 2018-11-20 苏州大学 一种实体识别方法、装置、设备及计算机可读存储介质
US20200097597A1 (en) * 2018-09-24 2020-03-26 International Business Machines Corporation On-demand relation extraction from text
CN109960808A (zh) * 2019-03-26 2019-07-02 广东工业大学 一种文本识别方法、装置、设备及计算机可读存储介质
CN110457677A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 实体关系识别方法及装置、存储介质、计算机设备
CN110598105A (zh) * 2019-09-10 2019-12-20 腾讯科技(深圳)有限公司 一种基于概率采样的推荐方法、装置、设备及介质
CN111191791A (zh) * 2019-12-02 2020-05-22 腾讯云计算(北京)有限责任公司 机器学习模型的应用方法、训练方法、装置、设备及介质
CN111401042A (zh) * 2020-03-26 2020-07-10 支付宝(杭州)信息技术有限公司 一种训练文本关键内容提取模型的方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PANG WEI KOH 等: "Understanding Black-box Predictions via Influence Functions", ARXIV, pages 1 - 12 *
刘凯;符海东;邹玉薇;顾进广;: "基于卷积神经网络的中文医疗弱监督关系抽取", 计算机科学, no. 10, pages 249 - 253 *
黄勋;游宏梁;于洋;: "关系抽取技术研究综述", 现代图书情报技术, no. 11, pages 30 - 39 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966712A (zh) * 2021-02-01 2021-06-15 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质
CN113051374A (zh) * 2021-06-02 2021-06-29 北京沃丰时代数据科技有限公司 一种文本匹配优化方法及装置
CN116737607A (zh) * 2023-08-16 2023-09-12 之江实验室 样本数据缓存方法、系统、计算机设备和存储介质
CN116737607B (zh) * 2023-08-16 2023-11-21 之江实验室 样本数据缓存方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112069329B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN107230174B (zh) 一种基于网络的在线互动学习系统和方法
CN109472033B (zh) 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN110188272B (zh) 一种基于用户背景的社区问答网站标签推荐方法
CN111738001B (zh) 同义词识别模型的训练方法、同义词确定方法及设备
CN112069329B (zh) 文本语料的处理方法、装置、设备及存储介质
CN109739995B (zh) 一种信息处理方法及装置
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
CN112287037B (zh) 一种多实体混合知识图谱构建方法、装置及存储介质
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
CN110019736A (zh) 基于语言模型的问答匹配方法、系统、设备及存储介质
CN111782826A (zh) 知识图谱的信息处理方法、装置、设备及存储介质
CN113505204A (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN111858962B (zh) 数据处理方法、装置及计算机可读存储介质
CN115860006A (zh) 一种基于语义句法的方面级情感预测方法及装置
CN114429212A (zh) 智能学习知识能力跟踪方法、电子设备及存储介质
Geetha et al. Prediction of the academic performance of slow learners using efficient machine learning algorithm
CN114416929A (zh) 实体召回模型的样本生成方法、装置、设备及存储介质
CN111783473B (zh) 医疗问答中最佳答案的识别方法、装置和计算机设备
Costa et al. Automatic classification of computational thinking skills in elementary school math questions
CN113569018A (zh) 问答对挖掘方法及装置
CN113571196A (zh) 构建医疗训练样本的方法及装置、医疗文本的检索方法
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
CN111930908A (zh) 基于人工智能的答案识别方法及装置、介质、电子设备
Moon et al. Rich representations for analyzing learning trajectories: Systematic review on sequential data analytics in game-based learning research
CN111931034A (zh) 数据搜索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant