CN115526177A - 对象关联模型的训练 - Google Patents
对象关联模型的训练 Download PDFInfo
- Publication number
- CN115526177A CN115526177A CN202110711428.7A CN202110711428A CN115526177A CN 115526177 A CN115526177 A CN 115526177A CN 202110711428 A CN202110711428 A CN 202110711428A CN 115526177 A CN115526177 A CN 115526177A
- Authority
- CN
- China
- Prior art keywords
- text
- score
- association
- semantic object
- target semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 191
- 230000006870 function Effects 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Machine Translation (AREA)
Abstract
根据本公开的实现,提供了对象关联模型的训练的方案。根据该方案,获取目标语义对象和自然语言的第一文本序列,该第一文本序列包括多个文本单元。确定目标语义对象在第一文本序列中被提及的第一置信度得分。确定在第一文本序列中的第一文本单元被忽略的情况下目标语义对象在第一文本序列中被提及的第二置信度得分;以及至少基于第一置信度得分与第二置信度得分之间的第一置信度差异、第一文本序列和目标语义对象来训练对象关联模型。对象关联模型被配置为确定目标语义对象是否与多个文本单元之一相关联。由此,可以减少标注训练数据集的成本和难度,并且提高标注准确度和效率。
Description
背景技术
在诸如语义解析、智能问答等的人机交互任务中,如何将人类的自然语言中的文本单元与机器所保存和识别的语义对象(例如,实体、处理操作等)进行关联是一项十分重要的环节。为保证快速准确地确定文本单元与语义对象的关联关系,通常可以训练相应的机器学习模型,称为对象关联模型。模型训练过程需要准备大量的训练数据集,然而,对数据集进行标注的工作需要耗费可观的人力成本,并且标注工作难度较大,故训练出的模型无法满足产品需求。因此,期望能够提供仅依赖少量人力成本的模型训练方案。
发明内容
根据本公开的实现,提出了一种用于训练对象关联模型的方案。在该方案中,获取目标语义对象和自然语言的文本序列,文本序列包括多个文本单元。确定目标语义对象在文本序列中被提及的第一置信度得分。确定在文本序列中除第一文本单元被忽略的情况下目标语义对象在文本序列中被提及的第二置信度得分;以及至少基于第一置信度得分与第二置信度得分之间的第一置信度差异、文本序列和目标语义对象来训练对象关联模型,对象关联模型被配置为确定目标语义对象是否与多个文本单元之一相关联。由此,可以显著减少标注训练数据集的成本和难度,并且提高标注准确度和效率。
提供发明内容部分是为了简化的形式来介绍对对象的选择,其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1示出了能够实施本公开的多个实现的计算设备的框图;
图2A示出了根据本公开的一些实现的用于在模型训练过程中确定第二关联得分的示意性系统;
图2B示出了根据本公开的一些实现的用于在模型训练过程中确定第一关联得分的示意性系统;
图3示出了根据本公开的一些实现的用于训练对象关联模型的过程的流程图;以及
图4示出了根据本公开的一些实现的用于训练对象关联模型的示例过程的流程图。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实现来论述本公开。应当理解,论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本公开的范围的任何限制。
如本文所使用的,术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些术语在本文中可互换地使用。
“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出,其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层,从而增加网络的深度。神经网络的各个层按顺序相连,从而前一层的输出被提供作为后一层的输入,其中输入层接收神经网络的输入,而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元),每个节点处理来自上一层的输入。
通常,机器学习大致可以包括三个阶段,即训练阶段、测试阶段和使用阶段(也称为推理阶段)。在训练阶段,给定的模型可以使用大量的训练数据进行训练,不断迭代,直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练,模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。经训练的模型的参数值被确定。在测试阶段,将测试输入应用到训练后的模型,测试模型是否能够提供正确的输出,从而确定模型的性能。在使用阶段,模型可以被用于基于训练得到的参数值,对实际的输入进行处理,确定对应的输出。
图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解,图1所示出的计算设备100仅仅是示例性的,而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示,计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理设备110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。
在一些实现中,计算设备100可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端,包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。
处理设备110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备100的并行处理能力。处理设备110可以包括中央处理单元(CPU)、图形处理单元(GPU)、微处理器、控制器、和/或微控制器等。
计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储设备130可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如内存、闪存驱动、磁盘或者任何其他介质,其能够用于存储信息和/或数据并且可以在计算设备100内被访问。
计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出,可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。
通信单元140实现通过通信介质与另外的计算设备进行通信。附加地,计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。
输入设备150可以是一个或多个各种输入设备,例如鼠标、键盘、数据导入设备等。输出设备160可以是一个或多个输出设备,例如显示器、数据导出设备等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备100交互的设备进行通信,或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
在一些实现中,除了被集成在单个设备上之外,计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中,这些部件可以被远程布置,并且可以一起工作以实现本公开所描述的功能。在一些实现中,云计算提供计算、软件、数据访问和存储服务,它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中,云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如,云计算提供商通过广域网提供应用,并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务,即使它们表现为针对用户的单一访问点。因此,可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地,它们可以从常规服务器被提供,或者它们可以直接或以其他方式被安装在客户端设备上。
计算设备100可以用于实施本公开的多个实现中的模型训练。存储器120可以包括一个或多个模块,其具有一个或多个程序指令,这些模块可以由处理单元110访问和运行,以实现本文所描述的各种实现的功能。例如,存储器120可以包括模型训练模块122,用于执行对对象关联模型的训练操作。计算设备100可以用于实施本公开的多个实现中的模型训练。如图1所示,计算设备100可以通过输入设备150接收用于模型训练的数据集170。计算设备100,例如计算设备100中的模型训练模块122,可以自动地利用训练数据集170来训练对象关联模型,直至模型参数收敛。计算设备100还可以提供经过训练得到的模型参数180。
尽管在图1的示例中,计算设备100从输入设备150接收训练数据集170并且由输出设备160提供模型参数180,但这仅是示意性的而无意限制本公开的范围。计算设备100还可以经由通信单元140从其他设备(未示出)接收训练数据集170,和/或经由通信单元140对外提供模型参数180。
在本文中,对象关联模型被训练用于确定自然语言中的各个文本单元与机器可识别的语义对象之间的关联性,以便为后续的诸如语义解析的处理任务提供准确的数据。语义对象有时也称为逻辑概念、语义认知、语义概念等。文本单元与语义对象之间的关联也称为文本单元到语义对象的落地(grounding)。
在模型训练过程中,模型训练模块122能够通过输入设备150接收用于训练对象关联模型的训练数据集170。训练数据集170可以是由用户标注并且由用户输入,或者从诸如公共数据集的其他途径获取或接收到。模型训练模块122被配置为基于训练数据集170进行模型训练,并且在模型参数收敛时或者在模型训练的迭代次数高于阈值次数时将当时的模型参数作为输出180。输出180可以可选地经由输出设备160输出,以用于后续模型的测试和应用。本公开的实施例在此方面不受限制。
应当理解,图1示出的计算设备的部件和布置仅是示例,适于用于实现本公开所描述的示例实现的计算设备可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。图1中示出的输入训练数据集和对模型参数的输出也仅是示例。
为了进行语义解析操作,传统的语义解析方式可以是基于规则的启发式算法,此方式需要人工配置高质量词典,还需要依赖人工编写规则,因此存在解析处理不够灵活、人力资源成本过高的问题。除此之外,传统的语义解析方式还可以如上所述通过准备训练数据集来进行模型训练,然而,数据集标记的难度较大,同样存在人力资源成本较高的问题。
如以上提及的,在进行语义解析、智能问答等操作时,通常需要确定人类的自然语言中的文本单元与机器中保存的、机器可识别的语义对象之间的关联关系。本文中,自然语言中的文本单元可以是指用户输入的自然语言文本中的文本单元,例如,单词(诸如英文等的拉丁类语言)或者词语(诸如中文等的东方语言)。语义对象可以取决于具体的关联任务。例如,在数据表相关的查询任务中,期望确定自然语言的查询语句中的文本单元是否对应于所存储的数据表中的各个元素。在这种任务中,语义对象通常可以包括存储在计算设备110中的结构化数据表中的元素,诸如表头(header)、单元数据(cell value)、聚合函数、符号等,以及针对这些元素要执行的处理操作,例如加和、求平均、筛选等。又例如,在知识库相关的任务中,期望确定自然语句中的文本单元是否对应于知识库中的实体。在这种情况下,语义对象可以包括计算设备110维护的知识库中的实体。
作为示例,在基于结构化数据表中的信息来为用户的提问确定答案的场景中,用户输入问题的文本序列是“How Many total games were at braly stadium(braly球馆中发生的比赛的总数是多少)”,而结构化表格中存在的语义对象是“sum(加法符号)”、“venue(场地)”等。因此,至少需要确定文本单元“total”与语义对象“sum”关联,以及文本单元“stadium”与语义对象“venue”关联。
应当理解,以上仅给出了关于文本单元到语义对象的关联的一些示例。在其他任务中,还可以根据需要定义任何其他语义对象。本公开的实现在此方面不受限制。
传统的对象关联模型的训练方案通常是通过人工方式来判定作为训练数据的文本序列中的哪个文本单元与哪个语义对象相关联,并对关联结果进行标记。由于作为训练数据集的文本序列和语义对象均远远复杂于上文中的示例,因此通过人工方式进行训练数据标注所需要的人力成本十分可观,并且可能出现数据标注错误的情况。
根据本公开的实现,提出了一种用于训练对象关联模型的方案。在该方案中,获取目标语义对象和自然语言的文本序列,文本序列包括多个文本单元。确定目标语义对象在文本序列中被提及的第一置信度得分。确定在文本序列中的第一文本单元被忽略的情况下目标语义对象在文本序列中被提及的第二置信度得分;以及至少基于第一置信度得分与第二置信度得分之间的第一置信度差异、文本序列和目标语义对象来训练对象关联模型,对象关联模型被配置为确定目标语义对象是否与多个文本单元之一相关联。根据上述方案,仅需要标注某个语义对象在相应文本序列中是否被提及来作为监督信息进行模型信息,这显著减少了标注训练数据集的成本和难度,提升标注准确度和效率。此外,基于这样的监督信息来进行模型训练,也能够提升经训练的对象关联模型的性能。
下文将参考附图来更详细描述本公开的一些示例实现。
如以上简述的,为了缓解传统的强监督的模型训练方式所产生的数据集标注工作量大的问题,本公开通过引入弱监督机制来实现针对对象关联模型的训练。为了引入弱监督机制,需要预先训练一个对象预测模型,用于预测特定语义对象在文本序列中是否被提及。已知用于训练的文本序列x={x1,x2,…,xN}以及语义对象集合C={c1,c2,…,cK}。其中N表示文本序列中的文本单元的数目,K表示语义对象集合中的语义对象的数目。已知x和C,对象预测模型的目的是识别语义对象集合中的语义对象ck是否在文本序列x中被提及。
为了训练对象预测模型,在一些实现中,可以通过从下游任务数据中自动获取或者通过人工方式标注针对语义对象集合中的语义对象ck的监督信息lk。应理解,由于该监督信息仅涉及某个语义对象在文本序列中是否被提及,因此显著降低了标注的难度。此外,在一些下游任务中能够自动获得监督信息,这极大地缩短了模型训练过程中准备训练数据的成本,降低了人工标注的成本以及人工标注引入的可能的错误,使监督信息更准确。
在一些实现中,可以从SQL数据库查询的任务中自动获取标注信息。以文本-SQL为例,如果SQL中的数据库相关联的语义对象在被认为在用户输入的问题文本序列中被提及时,监督信息lk=1;如果SQL中的数据库中的语义对象在被认为在问题文本中未被提及时,监督信息lk=0。可以从问题文本序列转换的SQL查询语句中确定哪些语义对象被提及,哪些语义对象未被提及,从而获得对应的监督信息。如下表1示出了基于SQL查询语句来自动获取标注信息的多个示例。
表1
在表1中,当问题文本序列为“Show name1,country2,age3 for all singers4ordered by age3 from the oldest3 to the youngest.”时,可以从针对SQL数据库的历史查询信息中自动获取对应的SQL查询语句“SELECT name1,country2,age3 FROM singer4ORDER BY age3 DESC”(注意,表1中问题文本序列和SQL查询语句中的数字1、2、3、4等下标仅用于示出文本单元及其在SQL数据库中对应的语义对象,而非文本序列和SQL查询语句的内容)。由于SQL查询语句包括语义对象“name”、“country”、“age”、“singer”,这意味着这些语义对象均在该问题文本序列中被提及。相应地,可以自动确定针对这些语义对象的监督信息lk=1。而对于SQL数据库中可能存在的其他语义对象,例如其他表、列名称等,由于这些语义对象在前述问题文本序列中没有被提及,故可以自动确定针对这些语义对象的监督信息lk=0。
类似地,在表1中,当另一问题文本序列为“Where1 is the youngest2 teacher3from?”时,可以从针对SQL数据库的历史查询信息中自动获取对应的SQL查询语句“SELECThometown1 FROM teacher3 ORDER BY age2 ASC LIMIT 1”。由于SQL查询语句包括语义对象“hometown”、“age”、“teacher”,这意味着这些语义对象均在该问题文本序列中被提及。相应地,可以自动确定针对这些语义对象的监督信息lk=1。而对于SQL数据库中可能存在的其他语义对象,由于这些语义对象在前述问题文本序列中没有被提及,故可以自动确定针对这些语义对象的监督信息lk=0。
类似地,在表1中,基于另一问题文本序列为“For each semester1,what is thename2 and id3 of the one with the most students registered4?”以及对应的SQL查询语句“SELECT semester name2,semester id3FROM semesters1 JOIN student enrolment4ON semesters.semester id=student enrolment.semester id GROUP BY semester id3ORDER BY COUNT(*)DESC LIMIT 1”,也可以类似地确定针对语义对象“semesters”、“semester name”、“semester id”以及“student enrolment”均在前述问题文本序列中被提及,故可以自动确定对应的监督信息lk=1,并且还可以确定针对其他语义对象的监督信息lk=0。
通过上述方式,可以自动地采集到文本序列、语义对象以及针对语义对象的监督信息。
一旦收集了足够的文本序列和语义对象以及相应的监督信息,对象预测模型就可以被训练用于对每个语义对象的特征表示执行诸如二分类(被提及或者未被提及)的操作。具体地,对象预测模型可以输出每个语义对象在输入的文本序列中被提及的置信度得分。文本序列和语义对象集合可以均被顺次输入至预训练语言模型(PLM),以得到每个文本单元的文本特征表示和每个语义对象的对象特征表示。
假设用<q1,q2,...,qN>表示文本序列x={x1,x2,…,xN}的文本特征表示,用<e1,e2,...,eK>表示语义对象集合C={c1,c2,…,cK}的对象特征表示,那么预训练语言模型对特征表示的提取可以被表示为:
在特征表示基础上,对象预测模型对某个语义对象在文本序列中被提及的概率的确定可以被表示如下:
pk=Sigmoid(Wlek), (1)
其中pk表示语义对象ck在文本序列中被提及的概率(在本文中称为置信度得分),Wl是对象预测模型的模型参数,其参数值通过训练过程来学习,并且ek是语义对象ck的对象特征表示。由于文本序列和语义对象一起被输入到预训练语言模型中,所输出的对象特征表示能够表征语义对象相对于文本序列的特性,因此基于该对象特征表示,可以确定语义对象在文本序列中是否被提及。
由于监督信息充分,对象预测模型的训练过程简单,标注数据集的成本较低,当训练好性能优良的对象预测模型后,可以继续对对象关联模型进行训练。在对象预测模型的基础上,可以实现对对象关联模型的训练。本公开的实现提出了通过删除机制,逐个用于训练对象关联模型的文本序列中的文本单元,并观察在删除前和删除后由对象预测模型给出的置信度得分的差异,来完成对对象关联模型的训练。由此,仅在提供语义对象在文本序列中是否被提及的弱监督信息基础上,而无需文本序列中各个文本单元与各个语义对象之间的具体关联情况,就可以完成对对象预测模型的训练。
图2A和图2B示出了利用对象预测模型以弱监督的方式训练对象关联模型的部分过程。图2A示出了根据本公开的一些实现的用于在模型训练过程中确定关联得分的示意性系统200。如图2A所示,作为训练数据的序列210被输入到对象关联模型220中。序列210包含开始符“[CLS]”、文本序列211、分隔符“[SEP]”和语义对象212。文本序列211包含若干文本单元,例如文本单元“How”、“many”、“total”、“games”、“were”、“at”、“braly”、“stadium”。语义对象212可以是包含多个语义对象的语义对象集合。为了清楚地描述实施例,图2A中仅示出了具有一个语义对象“Venue”的情况。在其他示例中,取决于所关心的语义对象集合,还可以存在多个语义对象,不同语义对象之间可以用分隔符“[SEP]”进行分离。应当理解,这里给出的输入序列仅是示例,并不旨在限制本公开的范围。
在训练对象关联模型220时,仍假设用于训练的文本序列被表示为x={x1,x2,…,xN},语义对象集合被表示为C={c1,c2,…,cK},对象关联模型220的任务是要找到文本序列中的每个文本单元与语义对象集合中的每个语义对象的关联关系,因此关联的过程中会生成N×K的矩阵作为模型输出。该矩阵中的每个元素指示一个文本单元与一个语义对象之间的关联得分。由于图2A中仅存在一个语义对象,即K=1,那么对象关联模型240可以输出N个关联得分(由于文本序列211包括8个文本单元,在该示例中N等于8)。应理解,在图2A中,关联得分G1、…、G8分别是文本序列211中的相应文本单元“How”、“many”、“total”、“games”、“were”、“at”、“braly”、“stadium”与语义对象“Venue”212的关联得分。
如图2A所示,对象关联模型220包含预训练语言模型230和关联模型240。当序列210被输入到对象关联模型220时,对象关联模型220中的预训练语言模型230可以被配置为提取文本序列211中的多个文本单元“How”、“many”、“total”、“games”、“were”、“at”、“braly”、“stadium”各自的文本特征表示和语义对象“Venue”212的对象特征表示。应理解,预训练语言模型230具有自监督学习功能,因此,预训练语言模型230和关联模型240可以确定文本序列21中的每个文本单元与语义对象212的关联得分。关联得分例如可以被表示如下:
其中We、Wq均是可学习的参数,d是语义对象ck的对象特征表示ek的维数。进一步地,在一些示例中,关联得分例如可以被归一化为如下:
为了更好的监督关联得分,本公开还利用上文中训练好的对象预测模型250来提供弱监督信息。如图2A所示,对象预测模型250从预训练语言模型230中获取由文本序列211中的多个文本单元“How”、“many”、“total”、“games”、“were”、“at”、“braly”、“stadium”的多个文本特征表示和语义对象“Venue”212的对象特征表示。基于对象特征表示,对象预测模型250可以确定语义对象212在文本序列211中被提及的置信度得分P1。对象预测模型250中的处理例如以上式(1)所示。由于文本序列211和语义对象212一起被输入到预训练语言模型230中,所输出的对象特征表示能够表征语义对象212相对于文本序列211的特性,因此基于该对象特征表示,可以确定语义对象212在文本序列211中是否被提及。
接下来,文本序列211中的文本单元将会被逐一地忽略(即,删除),从而构成新文本序列。由于新文本序列与原始文本序列211的差异仅为被忽略的文本单元,因此,通过对语义对象212在新文本序列中被提及的概率与文本序列211在新文本序列中被提及的概率的比较,通常可以确定概率变化较大的新文本序列中所忽略的文本单元最有可能与语义对象212关联。
图2B示出了在模型训练过程中删除某个文本单元后的示例。如图2B所示,作为训练数据的序列210’被输入到对象关联模型220中。序列210’包含开始符“[CLS]”、新文本序列211’、分隔符“[SEP]”和语义对象212。应理解,新文本序列211’中忽略了原来存在于文本序列211中的“stadium”,换言之,通过删除文本序列211中的文本单元“stadium”,可以获得新文本序列211’。在一些实现中,可以用预定文本符号(例如“[UNK]”)213替换“stadium”,从而形成新文本序列211’。此时,如图2B所示,新文本序列211’中的文本单元包含“How”、“many”、“total”、“games”、“were”、“at”、“braly”、“[UNK]”。应理解,上述编码方式仅是示例,并不旨在限制本公开的范围。本公开可以采用其他编码方式来实现上述操作。
为了预测语义对象212是否在新文本序列211’中被提及,预训练语言模型230提取文本序列211’中的多个文本单元“How”、“many”、“total”、“games”、“were”、“at”、“braly”、“[UNK]”的文本特征表示和语义对象“Venue”212的对象特征表示。基于此时提取的对象特征表示,对象预测模型250可以确定语义对象“Venue”212在文本序列211’中被提及的置信度得分P2。对象预测模型250中的处理例如以上式(1)所示。由于文本单元“stadium”被忽略,预训练语言模型230不会关注该文本单元的特征,使得提取出的语义对象“Venue”的对象特征表示能够反映出在忽略文本单元“stadium”的情况下语义对象“Venue”相对于文本序列211’的特性。
由此,通过计算P1与P2的差,可以确定在文本单元“stadium”被忽略的情况下的置信度差异Δ8。类似地,还可以确定针对文本序列211中的其他文本单元的置信度差异Δ1、……、Δ7,如图2B所示。置信度差异Δ1、……、Δ8所组成的置信度差异序列可以用于监督对象关联模型220的训练。
在一些实现中,如果存在多个语义对象,针对每个语义对象,均可以通过类似方式确定置信度差异序列。一般性地,针对文本序列x={x1,x2,…,xN}和语义对象集合C={c1,c2,…,cK},可以确定置信度差异序列
针对每个文本单元确定的置信度差异可以被用于确定该文本单元与语义对象相关联的可能性,也称为关联得分。例如,针对某个文本单元,如果置信度差异越大,那么意味着在该文本单元被忽略的情况下,语义对象在文本序列中被提及的概率发生显著降低,那么意味着该文本单元与语义对象相关联的可能性较高。在图2B中示出的示例中,由于文本单元“stadium”与语义对象“Venue”相关联,因此,语义对象“Venue”在具有文本单元“stadium”的文本序列211中被提及的概率应当显著地大于语义对象“Venue”在忽略文本单元“stadium”的新文本序列211’中被提及的概率。在一些实现中,针对一个文本单元和语义对象确定的置信度差异越大,该文本单元与该语义对象相关联的可能性越高,即关联得分越大。反之,关联得分越小。
在一些实现中,在训练对象关联模型220时,对于文本序列210,也可以获得额外的弱监督信息,用于指示语义对象集合中的每个语义对象在文本序列210中是否被提及。例如,如果语义对象ck在文本序列中被提及,监督信息可以被表示为lk=1;如果语义对象ck在文本序列中未被提及,监督信息可以被表示为lk=0。与训练对象预测模型250所使用的监督信息类似,可以通过从下游任务数据中自动获取或者通过人工方式标注的方式来获得上述监督信息。监督信息可以被用于进一步修改由对象预测模型给出的置信度差异,进而修改文本单元与语义对象的关联得分。
基于额外监督信息的基础上,置信度差异例如可以被表示如下:
其中Δn,k表示针对文本单元xn和语义对象ck确定的置信度差异,lk是针对语义对象集合中的语义对象ck的附加监督信息(例如,lk=0或1);pk表示在语义对象ck在完整文本序列中被提及的置信度得分,表示语义对象ck在删除了文本单元xn后的文本序列中被提及的置信度得分。
根据式(4),如果lk=0,即监督信息指示语义对象ck在文本序列中未被提及,那么Δn,k被确定为0。在上式(4)中,通过max函数,还可以提出可能的错误结果,而仅保留在pk大于的情况下的置信度差异,因为理论上删除某个文本单元后由对象预测模型250给出的置信度得分会降低。
在一些实现中,上式(4)中经由监督信息lk调整后的置信度差异Δn,k可以被确定为针对文本单元xn的关联得分,该关联得分是由对象预测模型250辅助确定出来的。在一些实现中,基于置信度差异确定的关联得分可以作为权重信息来影响对对象关联模型220的训练。因此,可以利用由置信度差异的关联得分和由对象关联模型220确定的关联得分,一起来构建对象关联模型220的训练目标函数。训练目标函数例如可以基于两类关联得分的组合得分,这可以被表示如下:
其中Δn,k表示针对文本单元xn和语义对象ck确定的置信度差异(也即,由对象预测模型250给出的文本单元xn与语义对象ck的关联得分),αn,k表示由对象关联模型220确定的文本单元xn与语义对象ck的关联得分。
在上式(5)中,Δn,k可以被认为是施加到由对象关联模型220直接确定的关联得分αn,k的权重。对象关联模型220的训练目标是使Δn,k和αn,k的加权和增加,例如使上式(5)最大化或者增加到收敛目标。在训练过程中,可以按照上述训练目标函数来迭代地训练对象关联模型220,例如,如果在一次迭代中基于训练目标函数确定的组合得分减小,则需要“惩罚性”地调整训练目标函数中的参数,直至基于训练目标函数确定的组合得分被最大化,从而实现了对象关联模型220的训练过程。
应当理解,图2A和图2B中给出的文本序列和语义对象仅是为了解释说明的目的而提供的具体示例,任何其他文本序列和语义对象都是可行的。在对象关联模型的训练过程中,为了达到收敛目标,会采集一定数量的文本序列作为训练数据,针对特定语义对象集合进行训练。这些是本领域技术人员熟知的,在此不再赘述。
根据本公开的实现,可以在标注语义对象在文本训练中是否存在的弱监督信息基础上,训练出对象预测模型用于辅助对期望的对象关联模型进行训练,这样避免在直接训练对象关联模型所需要的关于各个文本单元与各个语义对象之间的关联性的精确监督信息。由此,可以降低对于训练数据的标注成本,并提升训练出的对象关联模型的性能。
图3示出了根据本公开的一些实现的用于训练对象关联模型的过程300的流程图。过程300可以被实现在计算设备100处,例如在模型训练模块122处,以基于弱监督的训练数据集170确定模型参数180。为便于讨论,将参考图2A和图2B来进行描述过程300。
在框310,计算设备100可以获取目标语义对象和自然语言的第一文本序列。第一文本序列包括多个文本单元。
在图2A中,示例的第一文本序列211可以包括文本单元“How”、“many”、“total”、“games”、“were”、“at”、“braly”、“stadium”,并且示例的语义对象212可以包括“Venue”。应理解,图2A中描述的文本单元和语义对象均是示例性的,文本单元可以是来自任意人类语言的单词(诸如英文等的拉丁类语言)或者词语(诸如中文等的东方语言)。语义对象212可以是任何与自然语言关联的机器可识别的数据,其也可以是计算设备110维护的知识库中的实体,还可以是存储在计算设备110中的结构化表格中的元素,诸如表头(header)、单元数据(cell value)、聚合函数、符号等。
在框320,计算设备100可以利用对象预测模型确定目标语义对象在第一文本序列中被提及的第一置信度得分。
在一些示例实现中,为了确定第一置信度得分,计算设备100可以利用预训练语言模型(PLM)230来提取文本单元“How”、“many”、“total”、“games”、“were”、“at”、“braly”、“stadium”的多个文本特征表示和语义对象的对象特征表示,PLM被包括在对象关联模型220中。进而,计算设备100可以利用对象预测模型240,基于对象特征表示来确定第一置信度得分。
在框330,计算设备100可以确定在第一文本序列中的第一文本单元被忽略的情况下目标语义对象在第一文本序列中被提及的第二置信度得分。
例如,在图2B的示例中,为了确定针对文本单元“stadium”的第二置信度得分,可以将文本单元“stadium”替换为预定文本符号“[UNK]”,并且将多个文本单元除文本单元“stadium”之外的其他文本单元“How”、“many”、“total”、“games”、“were”、“at”、“braly”、该预定文本符号“[UNK]”和语义对象212输入到预训练语言模型230,以提取相应的特征表示。此时提取的语义对象212的对象特征表示被输入到对象预测模型210,以确定目标语义对象在忽略了文本单元“stadium”的文本序列211’中被提及的第二置信度得分。
在框340,计算设备100可以至少基于第一置信度得分与第二置信度得分之间的第一置信度差异、第一文本序列和目标语义对象来训练对象关联模型。对象关联模型被配置为确定目标语义对象是否与第一文本序列中的多个文本单元之一相关联。
在一些示例实现中,计算设备100可以利用已训练的对象预测模型来分别确定第一置信度得分和第二置信度得分,并且计算设备100还可以获取针对对象预测模型的训练数据,并且基于训练数据来训练对象预测模型。作为示例,训练数据包括第二文本序列、语义对象以及针对语义对象的监督信息,并且针对语义对象的监督信息用于指示语义对象在第二文本序列中是否被提及。用于训练对象预测模型的文本序列、语义对象和监督信息,可以与用于训练对象关联模型的文本序列、语义对象和监督信息相同,或者不相同。
为了更详细的示出对象关联模型的训练过程,现参照图4讨论对象关联模型的示例训练方式。图4示出了根据本公开的一些实现的用于训练对象关联模型的示例过程400的流程图。过程400可以被实现在计算设备100处,例如在模型训练模块122处,以基于弱监督的训练数据集170确定模型参数180。为便于讨论,将参考图2A和图2B来进行描述过程400。
在框410,计算设备100基于第一置信度差异,确定针对第一文本单元(例如“stadium”)的第一关联得分。第一关联得分指示目标语义对象(例如,语义对象212“Venue”)与文本单元(例如“stadium”)相关联的可能性。
在一些示例实现中,为了确定第一关联得分,计算设备100可以先获取针对目标语义对象的监督信息。针对目标语义对象的监督信息用于指示目标语义对象在第一文本序列中是否被提及,例如,可以是通过从下游任务数据中获取或者通过人工方式标注的针对语义对象集合中的语义对象ck的附加监督数据lk,lk可以被标注为0或1,以指示语义对象未被提及或被提及。计算设备100可以进行判定。如果针对目标语义对象的监督信息指示语义对象在第一文本序列中被提及,则可以基于第一置信度差异来计算第一关联得分。此外,如果针对目标语义对象的监督信息指示语义对象在第一文本序列中未被提及,则可以确定第一关联得分以指示该语义对象与该第一文本单元不相关联。例如,通过上式(4)来确定基于置信度差异的关联得分。
在框420,计算设备100利用对象关联模型,基于第一文本序列(例如,包括全部文本单元“How”、“many”、“total”、“games”、“were”、“at”、“braly”、“stadium”的文本序列211)和目标语义对象(例如“Venue”)来确定针对第一文本单元的第二关联得分。该第二关联得分用于指示目标语义对象与第一文本单元相关联的可能性。
在框430,计算设备100基于第一关联得分和第二关联得分来构建针对对象关联模型的训练目标函数,该训练目标函数基于第一关联得分和第二关联得分的组合得分的增加。在框440,计算设备100基于训练目标函数来更新对象关联模型的参数值。
应理解,计算设备100需要迭代地确定目标语义对象与每个文本单元的关联结果。作为示例,计算设备100可以进一步被配置为确定在第一文本序列中另一文本单元(例如,在图2A中文本序列211中的文本单元“braly”)被忽略的情况下目标语义对象在更新后的第一文本序列中被提及的第三置信度得分,并且还基于第一置信度得分与第三置信度得分之间的第二置信度差异来训练对象关联模型。
在一些示例实现中,计算设备100可以以与第一文本单元类似的方式确定针对第二文本单元用于训练的关联得分。具体地,计算设备100可以基于第二置信度差异,确定针对另一文本单元(例如“braly”)的第三关联得分,第三关联得分指示目标语义对象与另一文本单元相关联的可能性。计算设备100可以利用对象关联模型,基于包括所有文本单元的第一文本序列和语义对象来确定针对另一文本单元的第四关联得分,该第四关联得分指示目标语义对象与另一文本单元相关联的可能性。计算设备100可以基于第三关联得分和第四关联得分来继续构建针对对象关联模型220的训练目标函数,该训练目标函数被配置为基于第三关联得分和第四关联得分的组合得分的增加。此外,计算设备100可以基于训练目标函数来更新对象关联模型220的参数值。
以下列出了本公开的一些示例实现方式。
在一个方面,本公开提供了一种计算机实现的方法。该方法包括:获取目标语义对象和自然语言的第一文本序列,所述第一文本序列包括多个文本单元;确定所述目标语义对象在所述第一文本序列中被提及的第一置信度得分;确定在所述第一文本序列中的第一文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第二置信度得分;以及至少基于所述第一置信度得分与所述第二置信度得分之间的第一置信度差异、所述第一文本序列和所述目标语义对象来训练对象关联模型,所述对象关联模型被配置为确定所述目标语义对象是否与所述多个文本单元之一相关联。
在一些示例实现中,利用已训练的对象预测模型来分别确定所述第一置信度得分和所述第二置信度得分,所述方法还包括:获取针对所述对象预测模型的训练数据,所述训练数据包括第二文本序列、语义对象以及针对所述语义对象的监督信息,针对所述语义对象的所述监督信息指示所述语义对象在所述第二文本序列中是否被提及;以及基于所述训练数据来训练所述对象预测模型。
在一些示例实现中,训练所述对象关联模型包括:基于所述第一置信度差异,确定针对所述第一文本单元的第一关联得分,所述第一关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第一文本单元的第二关联得分,所述第二关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;基于所述第一关联得分和所述第二关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第一关联得分和所述第二关联得分的组合得分的增加;以及基于所述训练目标函数来更新所述对象关联模型的参数值。
在一些示例实现中,确定所述第一关联得分包括:获取针对所述目标语义对象的监督信息,针对所述目标语义对象的监督信息指示所述目标语义对象在所述第一文本序列中是否被提及;如果针对所述目标语义对象的监督信息指示所述目标语义对象在所述第一文本序列中被提及,基于所述第一置信度差异来计算所述第一关联得分;以及如果针对所述目标语义对象的监督信息指示所述目标语义对象在所述第一文本序列中未被提及,确定所述第一关联得分以指示所述目标语义对象与所述第一文本单元不相关联。
在一些示例实现中,训练所述对象关联模型包括:确定在所述第一文本序列中的第二文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第三置信度得分;以及还基于所述第一置信度得分与所述第三置信度得分之间的第二置信度差异来训练所述对象关联模型。
在一些示例实现中,还基于所述第二置信度差异来训练所述对象关联模型包括:基于所述第二置信度差异,确定针对所述第二文本单元的第三关联得分,所述第三关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第二文本单元的第四关联得分,所述第四关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;基于所述第三关联得分和所述第四关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第三关联得分和所述第四关联得分的组合得分的增加;以及基于所述训练目标函数来更新所述对象关联模型的参数值。
在一些示例实现中,确定所述第二置信度得分包括:将所述第一文本单元替换为预定文本符号;以及基于将所述多个文本单元除所述第一文本单元之外的其他文本单元、所述预定文本符号和所述目标语义对象来确定所述第二置信度得分。
在一些示例实现中,确定所述第一置信度得分包括:利用预训练语言模型(PLM)来提取所述多个文本单元的多个文本特征表示和所述目标语义对象的第一对象特征表示,所述PLM被包括在所述对象关联模型中;以及基于所述第一对象特征表示来确定所述第一置信度得分,并且其中确定所述第二置信度得分包括:利用所述PLM来提取所述多个文本单元中除所述第一文本单元之外的其他文本单元的文本特征表示和所述目标语义对象的第二对象特征表示;以及基于所述第二对象特征表示来确定所述第二置信度得分。
在另一方面,本公开提供了一种电子设备。该电子设备包括:处理器;以及存储器,耦合至处理器并且包含存储于其上的指令,指令在由处理器执行时使设备执行以下动作,所述动作包括:获取目标语义对象和自然语言的文本序列,所述第一文本序列包括多个文本单元;确定所述目标语义对象在所述第一文本序列中被提及的第一置信度得分;确定在所述第一文本序列中的第一文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第二置信度得分;以及至少基于所述第一置信度得分与所述第二置信度得分之间的第一置信度差异、所述第一文本序列和所述目标语义对象来训练对象关联模型,所述对象关联模型被配置为确定所述目标语义对象是否与所述多个文本单元之一相关联。
在一些示例实现中,利用已训练的对象预测模型来分别确定所述第一置信度得分和所述第二置信度得分,所述动作还包括:获取针对所述对象预测模型的训练数据,所述训练数据包括第二文本序列、语义对象以及针对所述语义对象的监督信息,针对所述语义对象的所述监督信息指示所述语义对象在所述第二文本序列中是否被提及;以及基于所述训练数据来训练所述对象预测模型。
在一些示例实现中,训练所述对象关联模型包括:基于所述第一置信度差异,确定针对所述第一文本单元的第一关联得分,所述第一关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第一文本单元的第二关联得分,所述第二关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;基于所述第一关联得分和所述第二关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第一关联得分和所述第二关联得分的组合得分的增加;以及基于所述训练目标函数来更新所述对象关联模型的参数值。
在一些示例实现中,确定所述第一关联得分包括:获取针对所述目标语义对象的监督信息,针对所述目标语义对象的监督信息指示所述目标语义对象在所述第一文本序列中是否被提及;如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中被提及,基于所述第一置信度差异来计算所述第一关联得分;以及如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中未被提及,确定所述第一关联得分以指示所述目标语义对象与所述第一文本单元不相关联。
在一些示例实现中,训练所述对象关联模型包括:确定在所述第一文本序列中的第二文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第三置信度得分;以及还基于所述第一置信度得分与所述第三置信度得分之间的第二置信度差异来训练所述对象关联模型。
在一些示例实现中,还基于所述第二置信度差异来训练所述对象关联模型包括:基于所述第二置信度差异,确定针对所述第二文本单元的第三关联得分,所述第三关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第二文本单元的第四关联得分,所述第四关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;基于所述第三关联得分和所述第四关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第三关联得分和所述第四关联得分的组合得分的增加;以及基于所述训练目标函数来更新所述对象关联模型的参数值。
在一些示例实现中,确定所述第二置信度得分包括:将所述第一文本单元替换为预定文本符号;以及基于将所述多个文本单元除所述第一文本单元之外的其他文本单元、所述预定文本符号和所述目标语义对象来确定所述第二置信度得分。
在一些示例实现中,确定所述第一置信度得分包括:利用预训练语言模型(PLM)来提取所述多个文本单元的多个文本特征表示和所述目标语义对象的对象特征表示,所述PLM被包括在所述对象关联模型中;以及基于所述第一对象特征表示来确定所述第一置信度得分,并且其中确定所述第二置信度得分包括:利用所述PLM来提取所述多个文本单元中除所述第一文本单元之外的其他文本单元的文本特征表示和所述目标语义对象的第二对象特征表示;以及基于所述第二对象特征表示来确定所述第二置信度得分。
在又一方面,本公开提供了一种计算机程序产品,计算机程序产品被有形地存储在计算机存储介质中并且包括计算机可执行指令,计算机可执行指令在由设备执行时使设备执行以下动作,所述动作包括:获取目标语义对象和自然语言的第一文本序列,所述第一文本序列包括多个文本单元;确定所述目标语义对象在所述第一文本序列中被提及的第一置信度得分;确定在所述第一文本序列中的第一文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第二置信度得分;以及至少基于所述第一置信度得分与所述第二置信度得分之间的第一置信度差异、所述第一文本序列和所述目标语义对象来训练对象关联模型,所述对象关联模型被配置为确定所述目标语义对象是否与所述多个文本单元之一相关联。
在一些示例实现中,利用已训练的对象预测模型来分别确定所述第一置信度得分和所述第二置信度得分,所述动作还包括:获取针对所述对象预测模型的训练数据,所述训练数据包括第二文本序列、语义对象以及针对所述语义对象的监督信息,针对所述语义对象的所述监督信息指示所述语义对象在所述第二文本序列中是否被提及;以及基于所述训练数据来训练所述对象预测模型。
在一些示例实现中,训练所述对象关联模型包括:基于所述第一置信度差异,确定针对所述第一文本单元的第一关联得分,所述第一关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第一文本单元的第二关联得分,所述第二关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;基于所述第一关联得分和所述第二关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第一关联得分和所述第二关联得分的组合得分的增加;以及基于所述训练目标函数来更新所述对象关联模型的参数值。
在一些示例实现中,确定所述第一关联得分包括:获取针对所述目标语义对象的监督信息,针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中是否被提及;如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中被提及,基于所述第一置信度差异来计算所述第一关联得分;以及如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中未被提及,确定所述第一关联得分以指示所述目标语义对象与所述第一文本单元不相关联。
在一些示例实现中,训练所述对象关联模型包括:确定在所述第一文本序列中的第二文本单元被忽略的情况下所述目标语义对象在所述文本序列中被提及的第三置信度得分;以及还基于所述第一置信度得分与所述第三置信度得分之间的第二置信度差异来训练所述对象关联模型。
在一些示例实现中,还基于所述第二置信度差异来训练所述对象关联模型包括:基于所述第二置信度差异,确定针对所述第二文本单元的第三关联得分,所述第三关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;利用所述对象关联模型,基于所述文本序列和所述目标语义对象来确定针对所述第二文本单元的第四关联得分,所述第四关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;基于所述第三关联得分和所述第四关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第三关联得分和所述第四关联得分的组合得分的增加;以及基于所述训练目标函数来更新所述对象关联模型的参数值。
在一些示例实现中,确定所述第二置信度得分包括:将所述第一文本单元替换为预定文本符号;以及基于将所述多个文本单元除所述第一文本单元之外的其他文本单元、所述预定文本符号和所述目标语义对象来确定所述第二置信度得分。
在一些示例实现中,确定所述第一置信度得分包括:利用预训练语言模型(PLM)来提取所述多个文本单元的多个文本特征表示和所述目标语义对象的第一对象特征表示,所述PLM被包括在所述对象关联模型中;以及基于所述第一对象特征表示来确定所述第一置信度得分,并且其中确定所述第二置信度得分包括:利用所述PLM来提取所述多个文本单元中除所述第一文本单元之外的其他文本单元的文本特征表示和所述目标语义对象的第二对象特征表示;以及基于所述第二对象特征表示来确定所述第二置信度得分。
在又一方面,本公开提供了一种计算机可读介质,其上存储有计算机可执行指令,计算机可执行指令在由设备执行时使设备执行上述方面的方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示例类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (20)
1.一种计算机实现的方法,包括:
获取目标语义对象和自然语言的第一文本序列,所述第一文本序列包括多个文本单元;
确定所述目标语义对象在所述第一文本序列中被提及的第一置信度得分;
确定在所述第一文本序列中的第一文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第二置信度得分;以及
至少基于所述第一置信度得分与所述第二置信度得分之间的第一置信度差异、所述第一文本序列和所述目标语义对象来训练对象关联模型,所述对象关联模型被配置为确定所述目标语义对象是否与所述多个文本单元之一相关联。
2.根据权利要求1所述的方法,其中利用已训练的对象预测模型来分别确定所述第一置信度得分和所述第二置信度得分,所述方法还包括:
获取针对所述对象预测模型的训练数据,所述训练数据包括第二文本序列、语义对象以及针对所述语义对象的监督信息,针对所述语义对象的所述监督信息指示所述语义对象在所述第二文本序列中是否被提及;以及
基于所述训练数据来训练所述对象预测模型。
3.根据权利要求1所述的方法,其中训练所述对象关联模型包括:
基于所述第一置信度差异,确定针对所述第一文本单元的第一关联得分,所述第一关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;
利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第一文本单元的第二关联得分,所述第二关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;
基于所述第一关联得分和所述第二关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第一关联得分和所述第二关联得分的组合得分的增加;以及
基于所述训练目标函数来更新所述对象关联模型的参数值。
4.根据权利要求3所述的方法,其中确定所述第一关联得分包括:
获取针对所述目标语义对象的所述监督信息,针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中是否被提及;
如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中被提及,基于所述第一置信度差异来计算所述第一关联得分;以及
如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中未被提及,确定所述第一关联得分以指示所述目标语义对象与所述第一文本单元不相关联。
5.根据权利要求1所述的方法,其中训练所述对象关联模型包括:
确定在所述第一文本序列中的第二文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第三置信度得分;以及
还基于所述第一置信度得分与所述第三置信度得分之间的第二置信度差异来训练所述对象关联模型。
6.根据权利要求5所述的方法,其中还基于所述第二置信度差异来训练所述对象关联模型包括:
基于所述第二置信度差异,确定针对所述第二文本单元的第三关联得分,所述第三关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;
利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第二文本单元的第四关联得分,所述第四关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;
基于所述第三关联得分和所述第四关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第三关联得分和所述第四关联得分的组合得分的增加;以及
基于所述训练目标函数来更新所述对象关联模型的参数值。
7.根据权利要求1所述的方法,其中确定所述第二置信度得分包括:
将所述第一文本单元替换为预定文本符号;以及
基于将所述多个文本单元除所述第一文本单元之外的其他文本单元、所述预定文本符号和所述目标语义对象来确定所述第二置信度得分。
8.根据权利要求1所述的方法,其中确定所述第一置信度得分包括:
利用预训练语言模型(PLM)来提取所述多个文本单元的多个文本特征表示和所述目标语义对象的第一对象特征表示,所述PLM被包括在所述对象关联模型中;以及
基于所述第一对象特征表示来确定所述第一置信度得分,并且
其中确定所述第二置信度得分包括:
利用所述PLM来提取所述多个文本单元中除所述第一文本单元之外的其他文本单元的文本特征表示和所述目标语义对象的第二对象特征表示;以及
基于所述第二对象特征表示来确定所述第二置信度得分。
9.一种电子设备,包括:
处理器;以及
存储器,耦合至所述处理器并且包含存储于其上的指令,所述指令在由所述处理器执行时使所述设备执行以下动作,所述动作包括:
获取目标语义对象和自然语言的文本序列,所述第一文本序列包括多个文本单元;
确定所述目标语义对象在所述第一文本序列中被提及的第一置信度得分;
确定在所述第一文本序列中的第一文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第二置信度得分;以及
至少基于所述第一置信度得分与所述第二置信度得分之间的第一置信度差异、所述第一文本序列和所述目标语义对象来训练对象关联模型,所述对象关联模型被配置为确定所述目标语义对象是否与所述多个文本单元之一相关联。
10.根据权利要求9所述的设备,其中利用已训练的对象预测模型来分别确定所述第一置信度得分和所述第二置信度得分,所述动作还包括:
获取针对所述对象预测模型的训练数据,所述训练数据包括第二文本序列、语义对象以及针对所述语义对象的监督信息,针对所述语义对象的所述监督信息指示所述语义对象在所述第二文本序列中是否被提及;以及
基于所述训练数据来训练所述对象预测模型。
11.根据权利要求9所述的设备,其中训练所述对象关联模型包括:
基于所述第一置信度差异,确定针对所述第一文本单元的第一关联得分,所述第一关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;
利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第一文本单元的第二关联得分,所述第二关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;
基于所述第一关联得分和所述第二关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第一关联得分和所述第二关联得分的组合得分的增加;以及
基于所述训练目标函数来更新所述对象关联模型的参数值。
12.根据权利要求11所述的设备,其中确定所述第一关联得分包括:
获取针对所述目标语义对象的监督信息,针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中是否被提及;
如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中被提及,基于所述第一置信度差异来计算所述第一关联得分;以及
如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中未被提及,确定所述第一关联得分以指示所述目标语义对象与所述第一文本单元不相关联。
13.根据权利要求9所述的设备,其中训练所述对象关联模型包括:
确定在所述第一文本序列中的第二文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第三置信度得分;以及
还基于所述第一置信度得分与所述第三置信度得分之间的第二置信度差异来训练所述对象关联模型。
14.根据权利要求13所述的设备,其中还基于所述第二置信度差异来训练所述对象关联模型包括:
基于所述第二置信度差异,确定针对所述第二文本单元的第三关联得分,所述第三关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;
利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第二文本单元的第四关联得分,所述第四关联得分指示所述目标语义对象与所述第二文本单元相关联的可能性;
基于所述第三关联得分和所述第四关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第三关联得分和所述第四关联得分的组合得分的增加;以及
基于所述训练目标函数来更新所述对象关联模型的参数值。
15.根据权利要求9所述的设备,其中确定所述第二置信度得分包括:
将所述第一文本单元替换为预定文本符号;以及
基于将所述多个文本单元除所述第一文本单元之外的其他文本单元、所述预定文本符号和所述目标语义对象来确定所述第二置信度得分。
16.根据权利要求9所述的设备,其中确定所述第一置信度得分包括:
利用预训练语言模型(PLM)来提取所述多个文本单元的多个文本特征表示和所述目标语义对象的第一对象特征表示,所述PLM被包括在所述对象关联模型中;以及
基于所述第一对象特征表示来确定所述第一置信度得分,并且
其中确定所述第二置信度得分包括:
利用所述PLM来提取所述多个文本单元中除所述第一文本单元之外的其他文本单元的文本特征表示和所述目标语义对象的第二对象特征表示;以及
基于所述第二对象特征表示来确定所述第二置信度得分。
17.一种计算机程序产品,所述计算机程序产品被有形地存储在计算机存储介质中并且包括计算机可执行指令,计算机可执行指令在由设备执行时使设备执行以下动作,所述动作包括:
获取目标语义对象和自然语言的第一文本序列,所述第一文本序列包括多个文本单元;
确定所述目标语义对象在所述第一文本序列中被提及的第一置信度得分;
确定在所述第一文本序列中的第一文本单元被忽略的情况下所述目标语义对象在所述第一文本序列中被提及的第二置信度得分;以及
至少基于所述第一置信度得分与所述第二置信度得分之间的第一置信度差异、所述第一文本序列和所述目标语义对象来训练对象关联模型,所述对象关联模型被配置为确定所述目标语义对象是否与所述多个文本单元之一相关联。
18.根据权利要求17所述的计算机程序产品,其中利用已训练的对象预测模型来分别确定所述第一置信度得分和所述第二置信度得分,所述动作还包括:
获取针对所述对象预测模型的训练数据,所述训练数据包括第二文本序列、语义对象以及针对所述语义对象的监督信息,针对所述语义对象的所述监督信息指示所述语义对象在所述第二文本序列中是否被提及;以及
基于所述训练数据来训练所述对象预测模型。
19.根据权利要求17所述的计算机程序产品,其中训练所述对象关联模型包括:
基于所述第一置信度差异,确定针对所述第一文本单元的第一关联得分,所述第一关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;
利用所述对象关联模型,基于所述第一文本序列和所述目标语义对象来确定针对所述第一文本单元的第二关联得分,所述第二关联得分指示所述目标语义对象与所述第一文本单元相关联的可能性;
基于所述第一关联得分和所述第二关联得分来构建针对所述对象关联模型的训练目标函数,所述训练目标函数基于所述第一关联得分和所述第二关联得分的组合得分的增加;以及
基于所述训练目标函数来更新所述对象关联模型的参数值。
20.根据权利要求19所述的计算机程序产品,其中确定所述第一关联得分包括:
获取针对所述目标语义对象的监督信息,针对所述目标语义对象所述监督信息指示所述目标语义对象在所述第一文本序列中是否被提及;
如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中被提及,基于所述第一置信度差异来计算所述第一关联得分;以及
如果针对所述目标语义对象的所述监督信息指示所述目标语义对象在所述第一文本序列中未被提及,确定所述第一关联得分以指示所述目标语义对象与所述第一文本单元不相关联。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711428.7A CN115526177A (zh) | 2021-06-25 | 2021-06-25 | 对象关联模型的训练 |
PCT/US2022/030453 WO2022271369A1 (en) | 2021-06-25 | 2022-05-23 | Training of an object linking model |
US18/565,067 US20240265207A1 (en) | 2021-06-25 | 2022-05-23 | Training of an object linking model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110711428.7A CN115526177A (zh) | 2021-06-25 | 2021-06-25 | 对象关联模型的训练 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115526177A true CN115526177A (zh) | 2022-12-27 |
Family
ID=82019275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110711428.7A Pending CN115526177A (zh) | 2021-06-25 | 2021-06-25 | 对象关联模型的训练 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240265207A1 (zh) |
CN (1) | CN115526177A (zh) |
WO (1) | WO2022271369A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501915B (zh) * | 2023-06-29 | 2023-10-20 | 长江三峡集团实业发展(北京)有限公司 | 一种能量管理端语音页面检索方法及系统 |
-
2021
- 2021-06-25 CN CN202110711428.7A patent/CN115526177A/zh active Pending
-
2022
- 2022-05-23 WO PCT/US2022/030453 patent/WO2022271369A1/en active Application Filing
- 2022-05-23 US US18/565,067 patent/US20240265207A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022271369A1 (en) | 2022-12-29 |
US20240265207A1 (en) | 2024-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN110609902B (zh) | 一种基于融合知识图谱的文本处理方法及装置 | |
CN107210035B (zh) | 语言理解系统和方法的生成 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN111506714A (zh) | 基于知识图嵌入的问题回答 | |
US12032906B2 (en) | Method, apparatus and device for quality control and storage medium | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
WO2023124005A1 (zh) | 地图兴趣点查询方法、装置、设备、存储介质及程序产品 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
WO2023207096A1 (zh) | 一种实体链接方法、装置、设备及非易失性可读存储介质 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN109145083B (zh) | 一种基于深度学习的候选答案选取方法 | |
CN109858024B (zh) | 一种基于word2vec的房源词向量训练方法及装置 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN116795973A (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
WO2023273598A1 (zh) | 文本搜索方法、装置、可读介质及电子设备 | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
US11645523B2 (en) | Generating explanatory paths for predicted column annotations | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN112214595A (zh) | 类别确定方法、装置、设备及介质 | |
CN112861474B (zh) | 一种信息标注方法、装置、设备及计算机可读存储介质 | |
CN111125550A (zh) | 兴趣点分类方法、装置、设备及存储介质 | |
US20240265207A1 (en) | Training of an object linking model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |