CN116529577A

CN116529577A - 基于自训练的用于文本中的说话者识别的提取方法

Info

Publication number: CN116529577A
Application number: CN202280007745.3A
Authority: CN
Inventors: 于典; 俞栋
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-08-11
Filing date: 2022-08-04
Publication date: 2023-08-01
Also published as: US12001795B2; US20230053148A1; US20240211689A1; WO2023018594A1

Abstract

提供了一种用于识别基于文本的作品中的说话者的方法、计算机程序和计算机系统。提取对应于一个或多个说话者的标记实例和未标记实例。基于所述标记实例来推断提取的未标记实例的伪标签。基于推断的伪标签来标记所述未标记实例中的一个或多个未标记实例。

Description

基于自训练的用于文本中的说话者识别的提取方法

相关申请的交叉引用

本申请要求于2021年8月11日提交的申请号为17/399,574的美国专利的优先权，其全部内容通过引用整体并入本文中。

技术领域

本公开通常涉及计算领域，并且更具体地涉及自然语言处理。

背景技术

文本中的说话者识别旨在识别书籍等文本中每句话语的说话者。每句话语可以对应于单个说话者、多个说话者或未命名的说话者(例如，名词短语)。该任务可以分为诸如引文识别、命名实体识别、指代消除、候选说话者识别和基于特征的分类等多个子任务。

发明内容

实施例涉及一种用于识别基于文本的作品中的说话者的方法、系统和计算机可读介质。根据一个方面，提供了一种用于识别基于文本的作品中的说话者的方法。该方法可以包括提取对应于一个或多个说话者的标记实例和未标记实例。基于该标记实例来推断提取的未标记实例的伪标签。基于推断的伪标签来标记该未标记实例中的一个或多个未标记实例。

根据另一个方面，提供了一种用于识别基于文本的作品中的说话者的计算机系统。该计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或者多个计算机可读有形存储设备、以及存储在一个或多个存储设备中的至少一个存储设备上的程序指令，该程序指令由该一个或多个处理器中的至少一个处理器经由该一个或多个存储器中的至少一个存储器执行，从而使得该计算机系统能够执行一种方法。该方法可以包括提取对应于一个或多个说话者的标记实例和未标记实例。基于该标记实例来推断提取的未标记实例的伪标签。基于推断的伪标签来标记该未标记实例中的一个或多个未标记实例。

根据又一个方面，提供了一种用于识别基于文本的作品中的说话者的计算机可读介质。该计算机可读介质可以包括一个或多个计算机可读存储设备和存储在一个或多个有形存储设备中的至少一个上的程序指令，该程序指令可由处理器执行。该程序指令可由用于执行方法的处理器执行，该方法可相应地包括：提取对应于一个或多个说话者的标记实例和未标记实例。基于该标记实例来推断提取的未标记实例的伪标签。基于推断的伪标签来标记该未标记实例中的一个或多个标记实例。

附图说明

根据以下将结合附图阅读的说明性实施例的详细描述，这些和其他目的、特征和优点将更加明显。附图的各种特征不是按比例绘制，因为示出的附图是为了清晰，以便于本领域技术人员结合详细描能够理解本申请。在附图中：

图1示出了根据至少一个实施例的联网计算机环境；

图2A是根据至少一个实施例的提取说话者识别模型的框架；

图2B是根据至少一个实施例的用于训练提取说话者识别模型的自训练框架；

图3是示出根据至少一个实施例的用于识别基于文本的作品中的说话者的程序所执行的步骤的操作流程图；

图4是根据至少一个实施例的图1中所示的计算机和服务器的内部和外部组件的框图；

图5是根据至少一个实施例的包括图1中所示的计算机系统的说明性云计算环境的框图；以及

图6是根据至少一个实施例的图5的说明性云计算环境的功能层的框图。

具体实施方式

本文公开了所要求保护的结构和方法的详细实施例；然而，可以理解的是，所公开的实施例仅仅是对可以以各种形式实施的所要求保护的结构和方法的说明。然而，这些结构和方法可以以许多不同的形式体现，并且不应被解释为限于本文所述的示例性实施例。相反，提供这些示例性实施例使得本公开将是彻底和完整的，并且将把范围完全传达给本领域技术人员。在说明书中，可以省略众所周知的特征和技术的细节，以避免不必要地混淆所呈现的实施例。

实施例通常涉及计算领域，并且更具体地涉及自然语言处理。以下描述的示例性实施例提供了一种系统、方法和计算机程序，用于识别基于文本的作品中的说话者。因此，一些实施例具有改进计算领域的能力，其允许计算机通过基于从已知和未知作品的语料库中开发可能的伪标签，根据文本作品的内容来确定说话者。

如前所述，文本中的说话者识别旨在识别诸如书籍之类的文本中的每句话语的说话者。每句话语可以对应于单个说话者、多个说话者或未命名的说话者(例如，名词短语)。该任务可以分为诸如引文识别、命名实体识别、指代消除、候选说话者识别和基于特征的分类等多个子任务。

然而，每个模块本身都是不完美的，不可避免的传播错误会严重影响最终的性能。该任务可以被认为是一个跨度提取任务，并将其公式化为一个标准的机器阅读理解(Machine Reading Comprehension，MRC)问题，以利用更多的上下文信息。通过重新制定该任务，该方法不依赖于任何预先训练的其他任务模型(例如，命名实体识别和指代消除)，也不依赖于预定义的字符列表，但在所有中文公共说话者识别数据集上都实现了最先进的性能。此外，该方法可以很容易地适应其他语言，而不需要转移由人类为单一语言精心创建或选择的几十个特征。

此外，这种途径有几个限制。首先，每个模块本身都是不完美的，不可避免的传播错误会严重影响最终的性能。例如，最先进的指代消除模型在F1中的性能约为80.3％。其次，这种经典的途径假设一个说话者只能是一个单一的实体，但事实并非总是如此，因为当同时存在多个说话者以及未命名的说话者(例如，“一个年轻女孩”)时就会发生这种情况。再次，特征通常是由人类精心创建和选择的，这可能会使这些特征难以用于其他语言。例如，先前的研究设计了各种特定语言的特征，如与话语距离、性别匹配、话语中的说话者姓名、言语动词等。最后，先前的说话者识别方法严重依赖于人工注释数据，考虑到昂贵且耗时的人工注释过程，该人工注释数据通常是小规模的，并且可能限制具有数百万参数的预训练语言模型(例如，BERT)在小规模说话者识别数据集上的性能。

因此，将说话者识别转换为提取机器阅读理解任务可能是有益的，该任务旨在从给定的文档中提取跨度来回答给定的问题。通过以这种方式重新制定任务，可以跳过中间步骤，如命名实体识别和指代消除，以避免引入错误。此外，可能不需要设计任何特定语言的特征，因此可以很容易地将这种方法应用于其他语言。由于跨度可能不限于实体，因此模型可以识别不同类型或形式的说话者。为了克服小规模人工注释数据造成的限制，受经典自训练范式的启发，可以基于大规模未标记的书籍生成大量伪标签数据，并将其用作额外的训练数据，这也可能有助于高级预训练语言模型在该任务上取得更好的结果。提取方法不需要给定的候选说话者列表，但在两个数据集上都比以前最先进的方法取得了更好的结果。精确匹配(Exact Match，EM)可以用作评估指标：只有当模型预测与真实数据答案完全匹配时，该模型预测才是正确的。由于提供了候选列表，先前的方法使用准确性作为评估度量。由于这些数据集中的每个实例都必须有一个基本事实说话者，因此这里的精确匹配可以被视为准确性。

本文参考根据各种实施例的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各方面。应当理解，流程图图示和/或框图的每个块以及流程图图示中的块和/或方框图中的块的组合可以通过计算机可读程序指令来实现。

以下描述的示例性实施例提供了一种识别基于文本的作品中的说话者的系统、方法和计算机程序。参考图1，示出了用于识别基于文本的作品中的说话者的说话者识别系统100(以下称为“系统”)的联网计算机环境的功能框图。可以理解的是，图1仅提供了一种实施方式的图示，并不意味着对可以实现不同实施例的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。

系统100可以包括计算机102和服务器计算机114。计算机102可以通过通信网络110(以下称为“网络”)与服务器计算机114进行通信。计算机102可以包括处理器104和软件程序108，软件程序108存储在数据存储设备106上并且能够与用户接口以及与服务器计算机114通信。如以下将参考图4所讨论的，计算机102可以分别包括内部组件800A和外部组件900A，并且服务器计算机114可以分别包括内部组件800B和外部组件900B。计算机102可以是诸如移动设备、电话、个人数字助理、上网本、笔记本电脑、平板电脑、台式电脑，或者能够运行程序、访问网络和访问数据库的任何类型的计算设备。

如下面参考图5和图6所讨论的，服务器计算机114还可以在云计算服务模型(例如，软件即服务(Software as a Service，SaaS)、平台即服务(Platform as a Service，PaaS)、或基础设施即服务(Infrastructure as a Service，laaS))中运行。服务器计算机114也可以位于云计算部署模型(例如，私有云、社区云、公共云、或混合云)中。

可以用于识别基于文本的作品中的说话者的服务器计算机114能够运行可以与数据库112交互的说话者识别程序116(以下称为“程序”)。下面将参照图3更详细地解释说话者识别程序方法。在一个实施例中，计算机102可以作为包括用户接口的输入设备运行，而程序116可以主要在服务器计算机114上运行。在可替代实施例中，程序116可以主要在一个或多个计算机102上运行，而服务器计算机114可以用于处理和存储程序116所使用的数据。应该注意的是，程序116可以是独立的程序，或者可以集成到更大的说话者识别程序中。

然而，应该注意的是，在一些情况下，对程序116的处理可以以任何比例在计算机102和服务器计算机114之间共享。在另一个实施例中，程序116可以在一个以上的计算机、服务器计算机或计算机和服务器计算机的某种组合上运行，例如，通过网络110与单个服务器计算机114通信的多个计算机102。在另一个实施例中，例如，程序116可以在通过网络110与多个客户端计算机通信的多个服务器计算机114上运行。或者，该程序可以在网络服务器上运行，该网络服务器通过网络与服务器和多个客户端计算机通信。

网络110可以包括有线连接、无线连接、光纤连接或它们的一些组合。通常，网络110可以是将支持计算机102和服务器计算机114之间的通信的连接和协议的任何组合。网络110可以包括各种类型的网络，例如，局域网(LAN)、诸如因特网的广域网(WAN)、诸如公共交换电话网(PSTN)的电信网络、无线网络、公共交换网络、卫星网络、蜂窝网络(例如，第五代(Fifth Generation，5G)网络、长期演进(Long-Term Evolution，LTE)网络、，第三代(Third Generation，3G)网络、码分多址(Code Division Multiple Access，CDMA)网络等)、公共陆地移动网络(Public Land Mobile Network，PLMN)、城域网(MetropolitanArea Network，MAN)、专用网络、自组织(Ad Hoc)网络、内联网、基于光纤的网络等，和/或这些或其他类型的网络的组合。

提供图1中所示的设备和网络的数量和布置作为示例。在实践中，相对于图1中所示的设备和/或网络，可以存在额外的设备和(或)网络、更少的设备和/或网络、不同的设备和/或网络、或不同布置的设备和/或网络。此外，图1中示出的两个或多个设备可以在单个设备内实现，或者图1中示出的单个设备可以实现为多个分布式设备。附加地或替代地，系统100的一组设备(例如，一个或多个设备)可以执行被描述为由系统100的另一组设备执行的一个或多个功能。

参考图2A，示出了提取说话者识别模型200A的框架。由于所有现有的说话者识别数据集中的实例都提供了真实数据分段的话语，因此所提供的包含话语的上下文可以被视为给定的文档，话语本身被视为问题，并且出现在文档中的真实数据说话者可以被视作为提取答案跨度。对于话语标签不可用时的实际应用，可以通过添加额外的训练实例来调整该方法。例如，给定一段可能包含话语的文本(即，包括引号)，如果确实存在话语，则可以对说话者进行注释，否则，将引号和标记中的内容标记为提取答案跨度。

提取的MRC模型可以建立在RoBERTa-wwm-ext-large和预先训练的中文语言模型上，该预先训练的中文语言模型广泛用于许多中文自然语言理解任务。可以理解，所公开的方法可以容易地用于其他近期发布的预训练语言模型。

为了构造输入序列，可以将特殊类令牌(Special Class Token，CLS)、可以包含话语或给定话语的给定文本片段q中的令牌、特殊分隔符令牌(Special Separator Token，SEP)以及覆盖该文本片段q的给定文本d中的令牌连接起来。引入两个向量p_start和p_end来表示d中的每个令牌的估计概率，分别作为d中出现的答案跨度a的开始或结束令牌。设置a_start和a_end分别表示a的开始偏移量和结束偏移量。

提取的MRC模型可以通过最小化∑_t∈VL(t,θ)来利用参数θ进行优化，其中，V表示说话者识别实例组，并且L被定义为：

L(t,θ)＝-logp_start,θ(a_start|t)-logp_end,θ(a_end|t)

参考图2B，示出了用于训练提取说话者识别模型200A的自训练框架200B。为了实现端到端的训练，已知的作品可以用说话者(如果存在的话)进行注释。否则，引号和其他标记内的内容可能会被注释。可以将附加的作品注释为开发集，并且可以将进一步的实例收集为未标记的作品。在(1)处，可以根据未标记的作品生成未标记的提取说话者识别实例。在(2)处，可将标记数据用于训练教师模型。所得到的教师模型可以用于推断未标记实例的伪标签。在(3)处，可以使用伪标记数据和标记数据的组合来训练学生模型。学生模型可以被视为一种新的教师模型，并且这个过程可以重复。

参考图3，描绘了示出由识别基于文本的作品中的说话者的程序执行的方法300的步骤的操作流程图。

在步骤302，方法300可以包括提取对应于一个或多个说话者的标记实例和未标记实例。

在步骤304，方法300可以包括基于所述标记实例来推断提取的未标记实例的伪标签。

在步骤306，方法300可以包括基于推断的伪标签来标记所述未标记实例中的一个或多个未标记实例。

可以理解的是，图3仅提供了一种实施方式的图示，并不暗示关于如何实现不同实施方式的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。

图4是根据一个说明性实施例的图1中所示的计算机的内部和外部组件的框图400。可以理解的是，图4仅提供了一种实施方式的图示，并不意味着对可以实现不同实施例的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。

计算机102(图1)和服务器计算机114(图1)可以包括图5中所示的内部组件800A、800B和外部组件900A、900B的相应组。每一组内部组件800包括一个或多个处理器820、一个或多个计算机可读RAM 822、和位于一条或多条总线826上一个或多个计算机可读ROM 824、一个或多个操作系统828以及一个或多个计算机可读有形存储设备830。

处理器820以硬件、固件或硬件和软件的组合来实现。处理器820是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其他类型的处理组件。在一些实施方式中，处理器820包括能够被编程以执行功能的一个或多个处理器。总线826包括允许在内部组件800A、800B之间通信的组件。

一个或多个操作系统828、软件程序108(图1)、以及服务器计算机114(图1)上的说话者识别程序116(图1)存储在相应的计算机可读有形存储设备830中的一个或多个上，以经由相应的RAM 822(其通常包括高速缓冲存储器)中的一个或多个RAM由相应的处理器820中的一个或多个处理器执行。在图4所示的实施例中，每个计算机可读有形存储设备830是内部硬盘驱动器的磁盘存储设备。可替换地，每个计算机可读有形存储设备830是半导体存储设备，例如，ROM 824、EPROM、闪存、光盘、磁光盘、固态盘、光盘(Compact Disc，CD)、数字多功能盘(DVD)、软盘、盒式磁带、磁带等，和/或可以存储计算机程序和数字信息的另一种类型的非暂时性计算机可读有形存储设备。

每一组内部组件800A、800B还包括R/W驱动器或接口832，用于读取和写入诸如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储设备之类的一个或多个便携式计算机可读有形存储设备936。诸如软件程序108(图1)和说话者识别程序116(图1)的软件程序可以存储在相应的便携式计算机可读有形存储设备936中的一个或多个上、经由相应的R/W驱动器或接口832读取并加载到相应的硬盘驱动器830中。

每一组内部组件800A、800B还包括网络适配器或接口836，例如，TCP/IP适配器卡，无线Wi-Fi接口卡，或3G、4G或5G无线接口卡或其他有线或无线通信链路。软件程序108(图1)和服务器计算机114(图1)上的说话者识别程序116(图1)可以经由网络(例如，因特网、局域网或其他广域网)和相应的网络适配器或接口836从外部计算机下载到计算机102(图1)和服务器计算机114。软件程序108和服务器计算机114上的说话者识别程序116从网络适配器或接口836被加载到相应的硬盘驱动器830中。该网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。

每一组外部组件900A、900B可以包括计算机显示器920、键盘930和计算机鼠标934。外部组件900A、900B还可以包括触摸屏、虚拟键盘、触摸板、指向设备和其他人机接口设备。每一组内部组件800A、800B还包括设备驱动器840，以与计算机显示屏920、键盘930和计算机鼠标934接口。设备驱动器840、R/W驱动器或接口832、以及网络适配器或接口836包括硬件和软件(存储在存储设备830和/或ROM 824中)。

应当预先理解，尽管本公开包括关于云计算的详细描述，但是本文所述教导的实现不限于云计算环境。相反，一些实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务交付模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、内存、存储器、应用程序、虚拟机和服务)的共享池的方便的、按需网络访问，这些可配置计算资源可以以最小的管理工作量或与服务提供商的交互来快速地供应和释放。该云模型可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

其特点如下：

按需自助服务：云消费者可以根据需要自动单方面提供计算能力(例如，服务器时间和网络存储)，而无需与服务提供商进行人工交互。

广泛的网络访问：通过网络提供功能，并通过标准机制进行访问，以促进异构瘦客户端或厚客户端平台(例如，移动电话、笔记本电脑和PDA)的使用。

资源池：供应商的计算资源被池化，以使用多租户模型为多个消费者提供服务，根据需求动态分配以及重新分配不同的物理和虚拟资源。存在位置独立性的感觉，消费者通常对所提供资源的确切位置没有控制权或认知，但可以在更高的抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：可以快速、弹性地提供功能，在某些情况下是自动的，以快速向外扩展，并通过快速释放以快速向内扩展。对消费者来说，可用于提供的功能往往是无限的，可以随时以任何数量购买。

测量服务：通过利用适用于服务类型(例如，存储、处理、带宽和活动用户帐户)的某种抽象级别的测量能力，云系统自动控制和优化资源使用。可以检测、控制和报告资源使用情况，从而为所使用服务的供应商和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的功能是使用供应商在云基础设施上运行的应用程序。应用程序可以通过诸如网络浏览器(例如，基于网络的电子邮件)之类的瘦客户端接口从各种客户端设备访问。消费者不管理或控制底层云基础设施(包括网络、服务器、操作系统、存储器，甚至单个应用程序功能)，但有限的用户特定应用程序配置设置可能除外。

平台即服务(PaaS)：提供给消费者的功能是将消费者创建或获得的应用程序部署到云基础设施上，这些应用程序使用提供商支持的编程语言和工具创建。消费者不管理或控制底层云基础设施(包括网络、服务器、操作系统或存储器)，但可以控制部署的应用程序以及可能的应用程序托管环境配置。

基础设施即服务(laaS)：提供给消费者的功能是提供处理、存储、网络和其他基本计算资源，消费者可以在这些资源中部署和运行任意软件(其中可以包括操作系统和应用程序)。消费者不管理或控制底层云基础设施，但可以控制操作系统、存储器、部署的应用程序，并可能有限地控制所选的网络组件(例如，主机防火墙)。

部署模型如下：

私有云：云基础设施仅为一个组织运行。它可以由该组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础设施由多个组织共享，并支持具有共同关注点(例如，任务、安全要求、政策和合规性注意事项)的特定社区。它可以由该组织或第三方管理，并且可以存在于场所内或场所外。

公共云：云基础设施向公众或大型行业集团开放，由销售云服务的组织所有。

混合云：云基础设施是由两个或多个云(私有云、社区云或公共云)组成的，这些云仍然是唯一的实体，但通过标准化或专有技术绑定在一起，从而实现数据和应用程序的可移植性(例如，用于云之间负载平衡的云爆发)。

云计算环境是面向服务的，并且重点关注无状态、低耦合、模块化和语义互操作性。云计算的核心是一个包括互连节点网络的基础设施。

参考图5，示出了说明性的云计算环境500。如图所示，云计算环境500包括一个或多个云计算节点10，云消费者使用的本地计算设备(例如，个人数字助理(PersonalDigital Assistant，PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C、和/或汽车计算机系统54N)可以与该一个或更多个云计算节点10通信。云计算节点10可以相互通信。它们可以物理地或虚拟地分组在一个或多个网络中，例如，上文所述的私有云、社区云、公共云或混合云、或其组合。这使得云计算环境500能够提供基础设施、平台和/或软件作为云消费者无需在本地计算设备上维护资源的服务。应当理解，图5中所示的计算设备54A-N的类型仅用于说明，并且云计算节点10和云计算环境500可以通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

参考图6，示出了由云计算环境500(图5)提供的一组功能抽象层600。应当预先理解，图6中所示的组件、层和功能仅用于说明，并且实施例不限于此。如图所示，提供了以下层和相应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61、基于精简指令集计算机(Reduced Instruction Set Computer，RISC)体系结构的服务器62、服务器63、刀片服务器64、存储设备65、以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，可以从该抽象层提供虚拟实体的以下示例：虚拟服务器71、虚拟存储器72、包括虚拟专用网络的虚拟网络73、虚拟应用程序和操作系统74、以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供计算资源和用于在云计算环境内执行任务的其他资源的动态采购。计量和定价82在云计算环境中使用资源时提供成本跟踪，并为这些资源的消耗提供计费或开具发票。在一个示例中，这些资源可以包括应用软件许可。安全性为云消费者和任务提供身份验证，并为数据和其他资源提供保护。用户访问入口83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(Service LevelAgreement，SLA)计划和实行85预先安排云计算资源并取得云计算资源，根据SLA预期云计算资源的未来需求。

工作负载层90提供了可以利用云计算环境的功能的示例。可以从工作负载层提供的工作负载和功能的示例包括：映射和导航91、软件开发和生命周期管理92、虚拟课堂教育交付93、数据分析处理94、交易处理95、以及说话者识别96。说话者识别96可以识别基于文本的作品中的说话者。

一些实施例可以涉及处于任何可能的集成技术细节级别的系统、方法和/或计算机可读介质。计算机可读介质可以包括其上具有用于使处理器执行操作的计算机可读程序指令的计算机可读非暂时性存储介质(或媒介)。

计算机可读存储介质可以是有形设备，其可以保留并存储指令以供指令执行设备使用。计算机可读存储介质可以是但不限于例如电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或上述的任何适当组合。计算机可读存储介质的更具体示例的非详尽列表包括以下内容：便携式计算机软盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、可擦除可编程只读存储器(ErasableProgrammable ROM，EPROM，或闪存)、静态随机存取存储器(Static RAM，SRAM)、便携式光盘只读存储器(Compact Disc ROM，CD-ROM)、数字通用盘(Digital Versatile Disk，DVD)，记忆棒、软盘、机械编码设备(例如，穿孔卡或其上记录有指令的凹槽中的凸起结构)、以及上述的任何适当组合。本文所用的计算机可读存储介质本身不应被解释为瞬态信号，例如，无线电波或其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或通过导线传输的电信号。

本文所述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如，因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。该网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指示以存储在相应计算/处理装置内的计算机可读存储介质中。

用于执行操作的计算机可读程序代码/指令可以是汇编指令、指令集体系结构(Instruction-Set-Architecture，ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言(包括诸如Smalltalk、C++等的面向对象的编程语言，以及如何“C”编程语言或类似编程语言的过程编程语言)的任何组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包，部分在使用者的计算机上，部分在远程计算机上执行，或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，包括诸如可编程逻辑电路、现场可编程门阵列(FPGA)、或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令，以个性化电子电路，从而执行各个方面或操作。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以生产机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令，创建用于实现在流程图和/或一个或多个框图块中指定的功能/动作的装置。这些计算机可读程序指令也可以存储在计算机可读存储介质中，该计算机可读存储介质可以指导计算机、可编程数据处理设备和/或其他设备以特定方式工作，使得具有存储在其中的指令的计算机可读存储介质包括具有指令的制造品，该指令实现在流程图和/或一个或多个框图块中指定的功能/动作的各个方面。

计算机可读程序指令也可以加载到计算机、其他可编程数据处理设备或其他设备上，以使得在计算机、其他可编程设备或其他装置上执行一系列操作步骤，从而产生计算机实现的过程，使得在计算机、其它可编程设备、或其他设备上执行的指令实现在流程图和/或一个或多个框图块中指定的功能/动作。

图中的流程图和框图示出了根据各种实施例的系统、方法和计算机可读介质的可能实现方式的体系结构、功能和操作。在这方面，流程图或框图中的每个块可以表示指令的模块、段或部分，其包括用于实现指定逻辑功能的一个或多个可执行指令。该方法、计算机系统和计算机可读介质可以包括与图中所示的块相比更多的块、更少的块、不同的块或不同排列的块。在一些可替代的实施方式中，块中注明的功能可以按图中注明的顺序出现。例如，事实上，连续显示的两个块可以同时或基本上同时执行，或者这些块有时可以按照相反的顺序执行，这取决于所涉及的功能。还将注意到，框图和/或流程图的每个块以及框图和/或流程图中的块的组合可以由基于专用硬件的系统来实现，该系统执行指定的功能或动作，或者执行专用硬件和计算机指令的组合。

显而易见的是，本文所描述的系统和/或方法可以以不同形式的硬件、固件、或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码并不限制这些实现。因此，本文在没有参考特定软件代码的情况下描述了系统和/或方法的操作和行为。应当理解，软件和硬件可以被设计为基于本文的描述来实现系统和/或方法。

除非明确说明，否则此处使用的任何元素、行为或指令都不应被解释为关键或必要的。此外，如本文所使用的，冠词“一个”旨在包括一个或多个项目，并且可以与“一个或更多”互换使用。此外，如本文所使用的，术语“集”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关项目和不相关项目的组合等)，并且可以与“一个或多个”互换使用。如果旨在表示一个项目，则使用术语“一个”或类似的语言。此外，如本文所用，术语“具有”、“有”、“含有”等旨在表示开放式术语。此外，除非另有明确规定，否则“基于”一词旨在表示“至少部分基于”。

已经出于说明的目的给出了对各个方面和实施例的描述，但并不旨在穷举或限制于所公开的实施例。即使特征的组合在权利要求中陈述和/或在说明书中公开，这些组合并不旨在限制可能实现的公开。事实上，这些特征中的许多特征可以以权利要求中未具体列举和/或说明书中未公开的方式组合。尽管下面列出的每个从属权利要求可能仅直接依赖于一个权利要求，但可能实现的公开包括每个从属权利要求与权利要求集中的每个其他权利要求的组合。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域的普通技术人员来说将是显而易见的。本文选择使用的术语是为了最好地解释实施例的原理、实际应用或对市场上发现的技术的技术性改进，或者使本领域普通技术人员能够理解本文所公开的实施例。

Claims

1.一种用于识别基于文本的作品中的说话者的方法，所述方法由处理器执行，包括：

提取对应于一个或多个说话者的标记实例和未标记实例；

基于所述标记实例来推断提取的未标记实例的伪标签；以及

基于推断的伪标签来标记所述未标记实例中的一个或多个未标记实例。

2.根据权利要求1所述的方法，还包括：基于所述标记实例来训练第一模型。

3.根据权利要求2所述的方法，还包括：基于所述推断的伪标签和所述标记实例来训练第二模型。

4.根据权利要求3所述的方法，还包括：用所述第二模型来替换所述第一模型。

5.根据权利要求1所述的方法，其中，所述标记实例和所述未标记实例对应于说话者或引文。

6.根据权利要求1所述的方法，其中，所述标记实例和所述未标记实例对应于类令牌、包含话语的第一段文本中的令牌、分隔符令牌以及覆盖所述第一段文本的第二段文本中的令牌。

7.根据权利要求6所述的方法，其中，两个向量对应于每个令牌的估计概率，所述令牌是出现在所述第二段文本中的答案跨度的开始令牌或结束令牌。

8.一种用于识别基于文本的作品中的说话者的计算机系统，所述计算机系统包括：

一个或多个计算机可读非暂时性存储介质，被配置为存储计算机程序代码；以及

一个或多个计算机处理器，被配置为访问所述计算机程序代码并按照所述计算机程代码所指示的进行操作，所述计算机程代码包括：

提取代码，被配置为使得所述一个或多个计算机处理器提取对应于一个或多个说话者的标记实例和未标记实例；

推断代码，被配置为使得所述一个或多个计算机处理器基于所述标记实例来推断提取的未标记实例的伪标签；以及

标记代码，被配置为使得所述一个或多个计算机处理器基于推断的伪标签来标记所述未标记实例中的一个或多个未标记实例。

9.根据权利要求8所述的计算机系统，还包括训练代码，被配置为使得所述一个或多个计算机处理器基于所述标记实例来训练第一模型。

10.根据权利要求9所述的计算机系统，还包括训练代码，被配置为使得所述一个或多个计算机处理器基于所述推断的伪标签和所述标记实例来训练第二模型。

11.根据权利要求10所述的计算机系统，还包括替换代码，被配置为使得所述一个或多个计算机处理器用所述第二模型来替换所述第一模型。

12.根据权利要求8所述的计算机系统，其中，所述标记实例和所述未标记实例对应于说话者或引文。

13.根据权利要求8所述的计算机系统，其中，所述标记实例和所述未标记实例对应于类令牌、包含话语的第一段文本中的令牌、分隔符令牌以及覆盖所述第一段文本的第二段文本中的令牌。

14.根据权利要求13所述的计算机系统，其中，两个向量对应于每个令牌的估计概率，所述令牌是出现在所述第二段文本中的答案跨度的开始令牌或结束令牌。

15.一种非暂时性计算机可读介质，其上存储有用于识别基于文本的作品中的说话者的计算机程序，所述计算机程序被配置为使得一个或多个计算机处理器执行以下操作：

提取对应于一个或多个说话者的标记实例和未标记实例；

基于所述标记实例来推断提取的未标记实例的伪标签；以及

16.根据权利要求15所述的计算机可读介质，其中，所述计算机程序还被配置为使得一个或多个计算机处理器基于所述标记实例来训练第一模型。

17.根据权利要求16所述的计算机可读介质，其中，所述计算机程序还被配置为使得一个或多个计算机处理器基于所述推断的伪标签和所述标记实例来训练第二模型。

18.根据权利要求17所述的计算机可读介质，其中，所述计算机程序还被配置为使得一个或多个计算机处理器用所述第二模型来替换所述第一模型。

19.根据权利要求15所述的计算机可读介质，其中，所述标记实例和所述未标记实例对应于说话者或引文。

20.根据权利要求15所述的计算机可读介质，其中，所述标记实例和所述未标记实例对应于类令牌、包含话语的第一段文本中的令牌、分隔符令牌以及覆盖所述第一段文本的第二段文本中的令牌。