CN115698981A - 基于nlp模型增强的语料库的定向部分重新丰富 - Google Patents

基于nlp模型增强的语料库的定向部分重新丰富 Download PDF

Info

Publication number
CN115698981A
CN115698981A CN202180037590.3A CN202180037590A CN115698981A CN 115698981 A CN115698981 A CN 115698981A CN 202180037590 A CN202180037590 A CN 202180037590A CN 115698981 A CN115698981 A CN 115698981A
Authority
CN
China
Prior art keywords
corpus
nlp
request
computer
affected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180037590.3A
Other languages
English (en)
Inventor
S·卡列尔
B·布尔
P·L·费尔特
D·S·曼斯朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN115698981A publication Critical patent/CN115698981A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • G06F16/2386Bulk updating operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Stored Programmes (AREA)

Abstract

一种计算机实现的方法包括确定至少一个自然语言处理(NLP)请求与至少一个表面形式相关联,该NLP请求针对语料库,数据库包括与语料库相关联的预先存在的注释。执行与至少一个表面形式相关的索引查询以生成索引查询结果,该索引查询结果包括受NLP请求影响的语料库的部分的标识。基于索引查询结果确定与数据库相关的NLP请求的范围,该范围包括受NLP请求影响的预先存在的注释的受影响的候选注释的标识。根据范围和部分对语料库执行NLP服务,从而导致更新。向与语料库相关联的数据库提交更新。

Description

基于NLP模型增强的语料库的定向部分重新丰富
技术领域
本发明总体上涉及计算机系统,更具体地,涉及基于计算机系统上的自然语言处理模型增强的语料库的定向部分重新丰富。
背景技术
自然语言处理(NLP)涉及计算机和人类(自然)语言之间的交互,尤其涉及如何对计算机编程以处理和分析大量自然语言数据。这种自然语言数据有时被称为语料库。在语言学中,语料库或文本语料库是由大的和结构化的文本集合组成的语言资源。NLP处理可以发生在大语料库上,导致与该语料库相关联的许多注释。
发明内容
本发明的实施例针对基于计算机系统上的自然语言处理模型增强的语料库的定向部分重新丰富。一种非限制性示例计算机实现的方法包括确定至少一个自然语言处理(NLP)请求与至少一个表面形式相关联,NLP请求针对语料库,数据库包括与语料库相关联的预先存在的注释。该方法包括执行与至少一个表面形式相关的索引查询以生成索引查询结果,该索引查询结果包括受NLP请求影响的语料库的部分的标识。该方法包括基于索引查询结果确定与数据库相关的NLP请求的范围,该范围包括受NLP请求影响的预先存在的注释的受影响的候选注释的标识。此外,该方法包括使NLP服务根据范围和部分在语料库上执行,从而导致更新,以及将更新提交给与语料库相关联的数据库。
除了以上或以下描述的一个或多个特征之外,或作为备选,另外的实施例可以包括在向数据库提交更新之前显示更新的预览。
除了以上或以下描述的一个或多个特征之外,或作为备选,另外的实施例可以包括其中该语料库包括该至少一个表面形式。
除了以上或以下描述的一个或多个特征之外,或作为备选,另外的实施例可以包括其中受NLP请求影响的语料库的部分包括来自语料库中的多个文档的至少一个或多个文档的标识。
除了以上或以下描述的一个或多个特征之外,或者作为备选,另外的实施例可以包括其中受NLP请求影响的语料库的部分包括语料库中的文档中的至少一个或多个段落的标识。
除了上文或下文描述的特征中的一个或多个之外,或作为备选,其它实施例可包括其中该更新包括新注释。
除了上文或下文描述的特征中的一个或多个之外,或作为备选,其它实施例可包括其中该更新包括新注释和对受影响的候选注释的修改。
除了以上或以下描述的特征中的一个或多个之外,或作为备选,另外的实施例可以包括使NLP服务根据该范围和该部分在语料库上被执行发生在与使NLP服务在语料库的整体上被执行相比更短的时间量中。
除了以上或以下描述的特征中的一个或多个之外,或作为备选,另外的实施例可以包括其中执行索引查询和确定范围启用单方面供应计算能力以用于向与语料库相关联的数据库提交更新。
本发明的其它实施例在计算机系统和计算机程序产品中实现上述方法的特征。
通过本发明的技术实现附加技术特征和益处。本发明的实施例和方面在此详细描述,并且被认为是所要求保护的主题的一部分。为了更好地理解,参考详细描述和附图。
附图说明
在说明书结束时的权利要求书中特别指出并清楚地要求了本文所述的专有权的细节。从以下结合附图的详细描述中,本发明的实施例的前述和其他特征和优点是显而易见的,在附图中:
图1是结合本发明的一个或多个实施例使用的示例计算机系统的框图;
图2是根据本发明的一个或多个实施例的用于基于自然语言处理模型增强的语料库的定向部分重新丰富的系统的框图;
图3是根据本发明的一个或多个实施例的基于自然语言处理模型增强的语料库的定向部分重新丰富的过程的流程图;
图4是根据本发明的一个或多个实施例的用于语料库的定向部分重新丰富的计算机实现的方法的流程图;
图5描绘了根据本发明的一个或多个实施例的云计算环境;以及
图6描绘了根据本发明的一个或多个实施例的抽象模型层。
具体实施方式
本发明的一个或多个实施例提供了一种用于基于对NLP模型的一个或多个增强来的语料库的定向部分重新丰富的系统和方法。在一个或多个实施例中,当NLP模型增强可以被追溯到语料库的文本中的表面形式时,重新丰富可以发生在目标段落集合上而不是整个语料库上。词的表面形式是出现在语料库的文本中的词的形式。重新丰富整个语料库以利用对NLP模型的增强是昂贵的计算机计算过程,如果语料库包括许多文档(例如,数百、数千或数百万文档),则其可能需要大量时间,例如,数天。代替处理整个语料库,一个或多个实施例促进基于NLP编辑的语料库的定向丰富,该NLP编辑可被追溯到语料库内的表面形式,例如,从字典添加/移除表面形式和/或对构建在其它注释(属性)之上的注释进行修改。当采用定向丰富技术时,一个或多个实施例提供了在不实际应用重新丰富的数据的情况下,在语料库上预览暗盒(cartridge)增强的影响的选项,直到领域专家(例如,操作者)对NLP编辑满意并且期望重新丰富语料库。暗盒是NLP流水线的可部署资产的整个集合的集合项。暗盒可包括和/或指代要使用的服务、这些服务的配置、字典、过滤器等。
现在转到图1,根据本发明的一个或多个实施例一般地示出了计算机系统100。计算机系统100可以是包括和/或采用任何数量和组合的利用各种通信技术的计算设备和网络的电子计算机框架,如本文所述。计算机系统100可以容易地缩放、扩展和模块化,具有独立于其它而改变到不同服务或重新配置某些特征的能力。计算机系统100可以是例如服务器、台式计算机、膝上型计算机、平板计算机或智能电话。在一些示例中,计算机系统100可以是云计算节点。计算机系统100可以在由计算机系统执行的诸如程序模块等计算机系统可执行指令的一般上下文中描述。一般而言,程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件,逻辑、数据结构等。计算机系统100可以在分布式云计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可位于包括存储器存储设备的本地和远程计算机系统存储介质中。
如图1所示,计算机系统100具有一个或多个中央处理单元(CPU)101a、101b、101c等(统称或统称为处理器101)。处理器101可以是单核处理器、多核处理器、计算集群或任何数量的其它配置。处理器101(也称为处理电路)经由系统总线102耦合到系统存储器103和各种其它组件。系统存储器103可以包括只读存储器(ROM)104和随机存取存储器(RAM)105。ROM 104耦合到系统总线102,并且可以包括基本输入/输出系统(BIOS)或其后继者,如统一可扩展固件接口(UEFI),其控制计算机系统100的某些基本功能。RAM是耦合到系统总线102以供处理器101使用的读写存储器。系统存储器103在操作期间为所述指令的操作提供临时存储空间。系统存储器103可以包括随机存取存储器(RAM),只读存储器、闪存或任何其它合适的存储器系统。
计算机系统100包括耦合到系统总线102的输入/输出(I/O)适配器106和通信适配器107。I/O适配器106可以是与硬盘108和/或任何其它类似组件通信的小型计算机系统接口(SCSI)适配器。I/O适配器106和硬盘108在此统称为大容量存储装置110。
用于在计算机系统100上执行的软件111可以存储在大容量存储装置110中。大容量存储装置110是可由处理器101读取的有形存储介质的示例,其中软件111被存储为由处理器101执行的指令,以使计算机系统100进行操作,如以下参考各个附图所描述的。在此更详细地讨论计算机程序产品的示例和这种指令的执行。通信适配器107将系统总线102与网络112互连,网络112可以是外部网络,使得计算机系统100能够与其它这种系统通信。在一个实施例中,系统存储器103的一部分和大容量存储装置110共同存储操作系统,该操作系统可以是协调图1所示的各种组件的功能的任何适当的操作系统。
另外的输入/输出设备被示出为经由显示适配器115和接口适配器116连接到系统总线102。在一个实施例中,适配器106、107、115和116可以连接到经由中间总线桥(未示出)连接到系统总线102的一个或多个I/O总线。显示器119(例如,屏幕或显示监视器)通过显示适配器115连接到系统总线102,显示适配器115可以包括用于改善图形密集型应用的性能的图形控制器和视频控制器。键盘121、鼠标122、扬声器123等可以经由接口适配器116互连到系统总线102,接口适配器116可以包括例如将多个设备适配器集成到单个集成电路中的超级I/O芯片。用于连接诸如硬盘控制器,网络适配器和图形适配器之类的外围设备的合适的I/O总线通常包括诸如外围组件互连(PCI)和外围组件互连快速(PCIe)之类的通用协议。因此,如图1中配置的,计算机系统100包括处理器101形式的处理能力,包括系统存储器103和大容量存储装置110的存储能力,诸如键盘121和鼠标122的输入装置,以及包括扬声器123和显示器119的输出能力。
在一些实施例中,通信适配器107可以使用任何合适的接口或协议发送数据,例如互联网小型计算机系统接口等。网络112可以是蜂窝网络、无线电网络、广域网(WAN)、局域网(LAN)或互联网等。外部计算设备可以通过网络112连接到计算机系统100。在一些示例中,外部计算设备可以是外部网络服务器或云计算节点。
应当理解,图1的框图并不旨在指示计算机系统100包括图1所示的所有组件。相反,计算机系统100可以包括图1中未示出的任何适当的更少或附加的组件(例如,附加的存储器组件、嵌入式控制器、模块、附加的网络接口等)。此外,本文关于计算机系统100描述的实施例可以用任何适当的逻辑来实现,其中,在各种实施例中,本文所指的逻辑可以包括任何适当的硬件(例如,处理器、嵌入式控制器或专用集成电路等)、软件(例如,应用等)、固件或硬件、软件和固件的任何适当的组合。
图2是根据本发明的一个或多个实施例的用于基于自然语言处理模型增强的语料库的定向部分重新丰富的系统200的框图。图3是根据本发明的一个或多个实施例的基于自然语言处理模型增强的语料库的定向部分重新丰富的过程300的流程图。重新丰富整个语料库以利用对NLP模型的增强在时间和计算资源方面是昂贵的命题。给定可以追溯到文本中的表面形式的NLP模型增强,根据一个或多个实施例,可以在目标段落集而不是整个语料库上发生重新丰富。图2描绘了耦合到计算机系统220的一个或多个计算机系统202。计算机系统100的元件可以被使用和/或集成到计算机系统202和计算机系统220中。
下面将参考图2和图3描述图3中的过程300。在框302,计算机系统202上的软件应用204被配置为接收一个或多个自然语言处理(NLP)请求230。软件应用204可以实现为在一个或多个处理器101上执行的软件111。可以使用软件应用204和/或从计算机系统220接收NLP请求230。NLP请求230包括被追溯到语料库208的文本中的表面形式的NLP模型增强。NLP模型增强包括与语料库208中的文本的一个或多个表面形式相关联的更新。词的表面形式是出现在语料库208的文本中的词的形式。在一个或多个实施例中,可被追溯到语料库内的特定表面形式的NLP模型增强可在进行编辑和/或将编辑发送到软件应用204时在认知工具平台内(例如,经由软件应用204和/或软件应用204的客户端应用222)标识。客户端应用222可使用经配置以在一个或多个处理器101上执行的软件111来实施,如图1中所论述。此外,软件应用204可通过NLP请求230的创建者作出的指示符或选择来确定表面形式追溯到语料库208中的文本,且这些指示符/选择包括在NLP请求230中。示例NLP模型增强可包括从字典添加和/或移除表面形式、从属性集添加和/或移除构件块概念等。此外,NLP模型增强包括可链接回(即,标识为)语料库208内的表面形式的任何编辑。
在框304,计算机系统202上的软件应用204被配置为基于来自NLP请求230的先前/修改的表面形式更新来执行索引240中的索引语料库查询,以便索引整个语料库208中的文本(例如,词)。文本、术语、单等可以互换使用。语料库208中的所有文本先前已在索引240中被索引,并且索引语料库查询在索引240中搜索经索引的文本。索引240是语料库208中的所有文本/词(即,表面形式)连同其在语料库208中的相关联位置的列表。例如,对于语料库208中的每个文本/词,索引240可包括页码、段落、文档名称、行位置、文本/词(表面形式)的提及数量等。索引240是数据库索引或其它搜索索引(即,Lucene或弹性搜索索引)。在用于索引240的此搜索类型应用中,由NLP流水线(或暗盒)提取的所有相关实体已被索引以允许搜索应用(包括软件应用204)进行快速查找。索引语料库查询返回查询结果242,并且这些查询结果242被保存在存储器206中。存储器206可以实现为大容量存储装置110或任何其它可读存储介质。查询结果242包括在语料库208中找到NLP模型增强的文本/单词的哪些表面形式以及确切地在何处(例如,包括页码、段落、文档名称、行位置等)找到这些表面形式。如上所述,语料库208可包括数百、数千和/或数百万文档,也称为“大数据”。查询结果242标识表面形式,并且具体地标识它们在语料库208中位于何处。在一个或多个实施例中,索引240可以是使用Lucene类型语料库查询来搜索的Lucene类型索引。Lucene是反向全文索引。这意味着它采用所有文档,将它们分割成单词,然后为每个单词构建索引。由于索引是精确的字符串匹配,所以查询可以非常快。
在框306,计算机系统202上的软件应用204被配置为使用查询结果242来从语料库208中提取文本/词的相关范围244,如由被链接到表面形式改变的NLP增强的上游/堆栈使用所确定的。上游/堆栈指的是利用索引240的应用(例如,软件应用204和/或由软件应用204调用的应用)。可能有一个NLP过程,它只寻找两个事物(即术语),疾病和药物。索引240将包括疾病和药物注释以及相关联的语料库文档。例如,使用针对NLP模型增强的文本/词的查询结果242,软件应用204分析元数据/注释数据库210,以确定元数据/注释数据库210中预先存在的哪些候选注释受被链接到语料库208中的表面形式改变的NLP模型增强的文本/词影响。受影响的候选注释后退到语料库208中的表面形式和NLP请求230。此外,使用NLP模型增强的文本/词的查询结果242,软件应用204确定注释器250中预先存在的哪些候选注释器受被链接到语料库208中的表面形式改变的NLP模型增强的文本/词影响。受影响的候选注释器可以包括最初在元数据/注释数据库210中创建受影响的候选注释的注释器,并且受影响的候选注释器使用NLP请求230中的文本的表面形式。另外,受影响的候选注释器可与语料库208中不直接和/或以与NLP请求230中的文本的表面形式直接相关的其它文本(和/或概念)的其它段落、文档和/或页面相关联,并且因此其它文本(和/或概念)可能未在较早的查询结果242中被标识,而是间接依赖于NLP请求230中的文本的表面形式。因此,范围244可以包括:(1)存在于元数据/注释数据库210中的受影响的候选注释的标识(其中受影响的候选注释可以直接和/或间接地与NLP请求230/查询结果242中的文本的表面形式相关联);(2)注释器250中的识别受影响的候选注释器的标识(其中受影响的候选注释器可以直接和/或间接地与NLP请求230/查询结果242中的文本的表面形式相关联);(3)查询结果242的标识和/或查询结果242的信息的标识;以及需要被重新处理或重新丰富语料库208中哪些段落和文档的精确位置的标识(对于NLP请求230/查询结果242中的文本的表面形式)。换言之,所标识的候选注释和所标识的候选注释器受NLP模型增强所做出的改变的影响。
在框308,计算机系统202上的软件应用204经配置以将NLP模型增强的文本/词的所提取范围244路由到NLP服务212中所需的NLP服务。在一个或多个计算机系统202上可以有各种类型的NLP服务212。一些NLP服务212可以具有不同的好处或折衷。NLP服务可以使用注释器250解析文本以找到存储在元数据/注释数据库210中的含义。在框310,计算机系统202上的软件应用204被配置为使NLP服务212(仅)对语料库208中与范围244相关的部分执行。范围244详述了语料库208的哪些特定部分或文档需要被再处理而不必再处理整个语料库208、再处理需要发生的部分/文档中的位置、元数据/注释数据库210中受影响的特定受影响候选注释,以及受影响的注释器250中受影响候选注释器。因此,208的整体不需要再处理。
在框312,计算机系统202上的软件应用204被配置为接收来自用于范围244的NLP服务212的输出,并使用该输出来执行语料库协调过程以生成语料库更新246,导致语料库更新246临时存储在存储器206中。语料库更新246包括要在元数据/注释数据库210中做出的新的和/或更新的注释以及这些新的和/或更新的注释如何改变现有的元数据/注释210。在框314,在将改变应用于元数据/注释数据库210之前,更新246可由操作者在显示屏(例如,显示器119)上预览。在操作者使用软件应用204批准之后和/或如果跳过预览,则在框316处,计算机系统202上的软件应用204被配置为(仅)向范围244的元数据/注释数据库210应用/提交更新246。如果操作者不批准更新246,则操作者可以修改NLP增强(例如,使用软件应用204),并且流程返回到框302。
本文所论述的技术和系统提供各种技术益处。根据一个或多个实施例,当准备好用对应于增强的NLP模型的更新246来重新丰富元数据/注释数据库210时,NLP服务对被标识为受NLP模型增强影响的文档/段落进行重新处理,并且用模型更新来重新丰富那些文档/段落。语料库208中的那些文档/段落上的任何先前注释(在元数据/注释数据库210中)可被截断和/或用由增强NLP模型产生的更新246中的注释替换。如果在元数据/注释数据库210中存在段落或文档级规则,则可以重新丰富那些更宽的范围,而不仅仅是句子/段落,或者可以选择重新丰富文档。当在重新丰富之前预览与语料库208相关联的NLP模型增强的结果时,重新丰富的段落被存储在存储器206中或者被持久保存在元数据/注释数据库210之外,以用于预览在利用增强的模型语料库来丰富208的情况下将在元数据/注释数据库210中发生的改变。如果增强产生不期望的结果,则操作者可以利用该预览能力作为改进其增强的手段。它们可以快速地这样做,而不必等待和/或需要重新丰富整个语料库。
图4是根据一个或多个实施例的用于基于自然语言处理模型增强的语料库208目标部分重新丰富的计算机实现的方法400的流程图。在框402,计算机系统202上的软件应用204被配置为确定至少一个自然语言处理(NLP)请求230与至少一个表面形式相关联,NLP请求230针对语料库208,数据库包括与语料库208相关联的预先存在的注释(例如,元数据/注释数据库210)。在框404,计算机系统202上的软件应用204被配置为执行与至少一个表面形式相关的索引查询以生成索引查询结果242,索引查询结果242包括受NLP请求230影响的语料库208的部分的标识。在框406处,计算机系统202上的软件应用204被配置为基于索引查询结果242来确定与数据库(例如,元数据/注释数据库210)相关的NLP请求230的范围244,范围244包括受NLP请求230影响的先前存在的注释(例如,在元数据/注释数据库210中)的受影响的候选注释的标识。在框408,计算机系统202上的软件应用204被配置为使NLP服务(例如,NLP服务212之一)根据范围244和部分(例如,在索引查询结果242中标识的)在语料库208上执行,从而导致更新246。在框410,计算机系统202上的软件应用204被配置为向与语料库208相关联的数据库(例如,元数据/注释数据库210)提交更新246。
计算机系统202上的软件应用204被配置为在向数据库提交更新之前可视地显示更新的预览246。语料库208包括至少一个表面形式。受NLP请求影响的语料库208的部分包括语料库208中的多个文档中的至少一个或多个文档的标识(例如,位置的标识)。受NLP请求影响的语料库208的部分包括语料库208中的文档中的至少一个或多个段落的标识(例如,位置的标识)。更新246包括根据NLP请求230的新注释。更新246包括根据NLP请求230的新注释和对受影响的候选注释的修改。使NLP服务(例如,NLP服务212)根据范围244在语料库208上执行,并且与使NLP服务在语料库208的整体上执行相比,这些部分在较短的时间量内发生。执行索引查询和确定范围使得能够向与语料库相关联的数据库提交更新的单边供应计算能力。
应当理解,尽管本公开包括关于云计算的详细描述,但是本文所引用的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务递送可配置计算资源(例如、网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问的服务递送模型,该可配置计算资源可以以最小的管理努力或与服务提供商的交互来快速地供应和释放。该云模型可以包括至少五个特征,至少三个服务模型和至少四个部署模型。
特点如下:
按需自助服务:云消费者可以根据需要自动地单方面地提供计算能力,例如服务器时间和网络存储,而不需要与服务提供商进行人工交互。
广泛网络访问:能力在网络上是可用的,并且通过促进异构瘦或厚客户端平台(例如,移动电话、膝上型计算机和PDA)使用的标准机制来访问。
资源池化:汇集提供者的计算资源以使用多租户模型服务多个消费者,其中根据需求动态分配和重新分配不同的物理和虚拟资源。存在位置独立的意义,因为消费者通常不具有对所提供的资源的确切位置的控制或知识,而是能够指定更高级抽象(例如,国家、州或数据中心)的位置。
快速弹性:在一些情况下,可以自动地快速和弹性地提供能力,以快速缩小和快速释放以快速缩小。对于消费者,可用于供应的能力通常表现为无限的,并且可以在任何时间以任何数量购买。
计量服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户帐户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所使用的服务的提供者和消费者提供透明度。
服务模型如下:
软件作为服务(SAAS):提供给消费者的能力是使用运行在云基础设施上的提供者的应用。可以通过诸如web浏览器(例如,基于web的电子邮件)的瘦客户端接口从各种客户端设备访问应用。消费者不管理或控制底层云基础架构,包括网络、服务器、操作系统、存储器或甚至单独的应用能力,可能的例外是有限的用户特定的应用配置设置。
服务平台(PaaS):提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上,所述应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储装置的底层云基础设施,但具有对所部署的应用和可能的应用托管环境配置的控制。
服务基础设施(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述任意软件可包括操作系统和应用。消费者不管理或控制底层云基础设施,但具有对操作系统、存储器、部署的应用的控制,以及对所选联网组件(例如,主机防火墙)的可能有限的控制。
部署模型如下:
私人云:云基础设施仅针对一个组织操作。它可以由组织或第三方管理,并且可以存在于内部部署或外部部署。
社区云:云基础设施由若干组织共享并支持具有共享关注(例如,任务、安全要求、策略和合规考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于内部部署或外部部署。
公共云:云基础设施可用于普通公众或大型工业团体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多个云(私有、社区或公共)的组合,这些云保持为唯一的实体,但通过实现数据和应用可移植性(例如,用于云之间的负载平衡的云突发)的标准化或专有技术绑定在一起。
云计算环境是以无状态、低耦合、模块化和语义互操作性为焦点的面向服务。云计算的核心是包括互连节点的网络的基础设施。
现在参考图5,描绘了说明性云计算环境50。如图所示,云计算环境50包括一个或多个云计算节点10、云消费者所使用的本地计算设备(例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N)可以与这些云计算节点10通信。节点10可以彼此通信。它们可以在一个或多个网络中被物理地或虚拟地分组(未示出),所述一个或多个网络诸如如上所述的私有云、社区云、公共云或混合云、或它们的组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要维护本地计算设备上的资源的服务。应理解,图5所示的计算设备54A-N的类型仅旨在是说明性的,并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如,使用web浏览器)与任何类型的计算机化设备通信。
现在参考图6,示出了由云计算环境50(图5)提供的一组功能抽象层。应当预先理解,图6中所示的组件、层和功能仅用于说明,本发明的实施例不限于此。如图所示,提供了以下各层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主框架61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储装置65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟私有网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供下面描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态获取。计量和定价82提供了在云计算环境内利用资源时的成本跟踪,以及对这些资源的消耗进行计费或开票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其它资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理,使得满足所需的服务级别。服务级协定(SLA)规划和履行85提供云计算资源的预先安排和采购,根据SLA预期云计算资源的未来需求。
工作负载层90提供可利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:映射和导航91;软件开发和生命周期管理92;虚拟教室教育递送93;数据分析处理94;交易处理95;以及在工作负载和功能中实现的软件应用96(例如,软件应用204)。此外,软件应用可以与资源供应81一起运行和/或与资源供应81集成。
在此参考相关附图描述本发明的各种实施例。在不脱离本发明的范围的情况下,可以设计本发明的替代实施例。在以下描述和附图中阐述了元件之间的各种连接和位置关系(例如,上方,下方,相邻等)。除非另外指明,否则这些连接和/或位置关系可以是直接的或间接的,并且本发明不旨在限制这方面。因此,实体的耦合可以指直接或间接耦合,并且实体之间的位置关系可以是直接或间接位置关系。此外,本文所述的各种任务和过程步骤可并入具有本文未详细描述的额外步骤或功能性的更全面程序或过程中。
本文所描述的方法中的一个或多个可用以下技术中的任一者或其组合来实施,所述技术中的每一个均为所属领域中众所周知的:具有用于对数据信号实现逻辑功能的逻辑门的分立逻辑电路,具有适当组合逻辑门的专用集成电路(ASIC)、可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
为了简洁起见,与制造和使用本发明的各方面相关的常规技术可以或可以不在此详细描述。特别地,实现本文描述的各种技术特征的计算系统和特定计算机程序的各个方面是公知的。因此,为了简洁起见,本文仅简要提及许多常规实施方案细节,或在不提供众所周知的系统和/或过程细节的情况下将其完全省略。
在一些实施例中,各种功能或动作可以发生在给定位置和/或与一个或多个装置或系统的操作有关。在一些实施例中,可以在第一设备或位置处执行给定功能或动作的一部分,并且可以在一个或多个附加设备或位置处执行该功能或动作的剩余部分。
本文使用的术语仅用于描述特定实施例的目的,而不旨在是限制性的。如本文所用,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另外明确指出。还应当理解,当在本说明书中使用时,术语“包括”和/或“包括”指定所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其它特征、整数、步骤、操作、元件组件和/或其组合的存在或添加。
以下权利要求中的所有装置或步骤加功能元件的对应结构,材料,动作和等效物旨在包括用于与如具体要求保护的其他要求保护的元件组合地执行该功能的任何结构、材料或动作。已经出于说明和描述的目的呈现了本公开,但是本公开不旨在是穷尽的或限于所公开的形式。在不脱离本公开的范围的情况下,许多修改和变化对于本领域普通技术人员将是显而易见的。选择和描述实施例是为了最好地解释本公开的原理和实际应用,并且使本领域的其他普通技术人员能够理解具有适合于预期的特定用途的各种修改的各种实施例的公开。
本文描述的图是说明性的。在不脱离本公开的范围的情况下,可以对其中描述的图或步骤(或操作)有许多变化。例如,可以以不同的顺序执行动作,或者可以添加,删除或修改动作。此外,术语“耦合”描述了在两个元件之间具有信号路径,并不意味着元件之间的直接连接,其间没有插入元件/连接。所有这些变化被认为是本公开的一部分。
以下定义和缩写用于解释权利要求和说明书。如本文所用,术语“包括”、“包括”、“含有”、“具有”、“具有”、“含有”或“含有”或其任何其它变化形式旨在涵盖非排他性的包括。例如,包括一系列要素的组合物、混合物、工艺、方法、制品或装置不必仅限于那些要素,而是可包括未明确列出的或此类组合物、混合物、工艺、方法、制品或装置固有的其它要素。
另外,术语“示范性”在本文中用于意指“充当实例,示例或说明”。本文描述为“示例性”的任何实施例或设计不必被解释为比其它实施例或设计更优选或有利。术语“至少一个”和“一个或多个”应理解为包括大于或等于1的任何整数,即1、2、3、4等。术语“多个”应理解为包括大于或等于2的任何整数,即2、3、4、5等。术语“连接”可包括间接“连接”和直接“连接”。
术语“约”、“基本上”、“近似”及其变体旨在包括与基于在提交本申请时可用的设备的特定量的测量相关联的误差程度。例如,“约”可包括给定值的±8%或5%或2%的范围。
本发明可以是处于任何可能的集成技术细节水平的系统,方法和/或计算机程序产品。计算机程序产品可以包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或介质)。
计算机可读存储介质可以是可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:一种便携式计算机磁盘、硬盘,随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码的设备,诸如其上记录有指令的槽中的穿孔卡片或凸起结构、以及前述的任何适当组合。在此使用的计算机可读存储介质不能被解释为瞬时信号本身,例如无线电波或其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令,指令集体系结构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、用于集成电路的配置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码,所述编程语言包括诸如Smalltalk、C++等的面向对象的编程语言,以及诸如“C”编程语言或类似编程语言的过程编程语言。计算机可读程序指令可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立的软件包、部分在用户的计算机上执行、部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN)、或者连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,包括例如可编程逻辑电路,现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
本文参考根据本发明实施例的方法,装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各方面。应当理解,流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机,专用计算机或其他可编程数据处理设备的处理器以产生机器,使得经由计算机或其他可编程数据处理设备的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,该计算机可读存储介质可以指示计算机,可编程数据处理装置和/或其他设备以特定方式起作用,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现在流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机,其他可编程数据处理装置或其他设备上,以使得在计算机,其他可编程装置或其他设备上执行一系列操作步骤,从而产生计算机实现的过程,使得在计算机,其他可编程装置或其他设备上执行的指令实现在流程图和/或框图的一个或多个框中指定的功能/动作。
图中的流程图和框图示出了根据本发明各种实施例的系统,方法和计算机程序产品的可能实现的体系结构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定逻辑功能的一个或多个可执行指令。在一些可替换的实现方式中,方框中指出的功能可以不按照图中指出的顺序发生。例如,根据所涉及的功能,连续示出的两个框实际上可以基本上同时执行、或者这些框有时可以以相反的顺序执行。还将注意到,框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。
已经出于说明的目的给出了对本发明的各种实施例的描述,但是这些描述并不旨在是穷尽的或限于所公开的实施例。在不脱离所描述的实施例的范围的情况下,许多修改和变型对于本领域的普通技术人员将是显而易见的。选择本文中使用的术语以最佳地解释实施例的原理,实际应用或对市场中存在的技术的技术改进,或使所属领域的技术人员能够理解本文中所描述的实施例。

Claims (20)

1.一种计算机实现的方法,包括:
确定至少一个自然语言处理(NLP)请求与至少一个表面形式相关联,所述NLP请求针对语料库,数据库包括与所述语料库相关联的预先存在的注释;
执行与所述至少一个表面形式相关的索引查询以生成索引查询结果,所述索引查询结果包括受所述NLP请求影响的所述语料库的部分的标识;
基于所述索引查询结果确定与所述数据库相关的所述NLP请求的范围,所述范围包括受所述NLP请求影响的所述预先存在的注释的受影响的候选注释的标识;
根据所述范围和所述部分使NLP服务在所述语料库上被执行,从而导致更新;以及
向与所述语料库相关联的所述数据库提交所述更新。
2.根据权利要求1所述的计算机实现的方法,还包括:在向所述数据库提交所述更新之前显示所述更新的预览。
3.根据权利要求1所述的计算机实现的方法,其中所述语料库包括所述至少一个表面形式。
4.根据权利要求1所述的计算机实现的方法,其中受所述NLP请求影响的所述语料库的所述部分包括来自所述语料库中的多个文档的至少一个或多个文档的标识。
5.根据权利要求1所述的计算机实现的方法,其中受所述NLP请求影响的所述语料库的所述部分包括所述语料库中的文档中的至少一个或多个段落的标识。
6.根据权利要求1所述的计算机实现的方法,其中所述更新包括新注释。
7.根据权利要求1所述的计算机实现的方法,其中所述更新包括新注释和对所述受影响的候选注释的修改。
8.根据权利要求1所述的计算机实现的方法,其中使所述NLP服务根据所述范围和所述部分在所述语料库上被执行发生在与使所述NLP服务在所述语料库的整体上被执行相比更短的时间量中。
9.根据权利要求1所述的计算机实现的方法,其中执行所述索引查询和确定所述范围启用单方面供应计算能力以用于向与所述语料库相关联的数据库提交所述更新。
10.一种系统,包括:
存储器,具有计算机可读指令;以及
一个或多个处理器,用于执行所述计算机可读指令,所述计算机可读指令控制所述一个或多个处理器执行操作,所述操作包括:
确定至少一个自然语言处理(NLP)请求与至少一个表面形式相关联,所述NLP请求针对语料库,数据库包括与所述语料库相关联的预先存在的注释;
执行与所述至少一个表面形式相关的索引查询以生成索引查询结果,所述索引查询结果包括受所述NLP请求影响的所述语料库的部分的标识;
基于所述索引查询结果确定与所述数据库相关的所述NLP请求的范围,所述范围包括受所述NLP请求影响的所述预先存在的注释的候选受影响的注释的标识;
根据所述范围和所述部分使NLP服务在所述语料库上被执行,从而导致更新;以及
向与所述语料库相关联的所述数据库提交所述更新。
11.根据权利要求10所述的系统,还包括:在向所述数据库提交所述更新之前显示所述更新的预览。
12.根据权利要求10所述的系统,其中所述语料库包括所述至少一个表面形式。
13.根据权利要求10所述的系统,其中受所述NLP请求影响的所述语料库的所述部分包括来自所述语料库中的多个文档的至少一个或多个文档的标识。
14.根据权利要求10所述的系统,其中受所述NLP请求影响的所述语料库的所述部分包括所述语料库中的文档中的至少一个或多个段落的标识。
15.根据权利要求10所述的系统,其中所述更新包括新注释、对所述受影响的候选注释的修改、或两者。
16.根据权利要求10所述的系统,其中使所述NLP服务根据所述范围和所述部分在所述语料库上被执行发生在与使所述NLP服务在所述语料库的整体上被执行相比更短的时间量中。
17.一种计算机程序产品,包括计算机可读存储介质,所述计算机可读存储介质包括有程序指令,所述程序指令由处理器可执行以使所述处理器执行操作,所述操作包括:
确定至少一个自然语言处理(NLP)请求与至少一个表面形式相关联,所述NLP请求针对语料库,数据库包括与所述语料库相关联的预先存在的注释;
执行与所述至少一个表面形式相关的索引查询以生成索引查询结果,所述索引查询结果包括受所述NLP请求影响的所述语料库的部分的标识;
基于所述索引查询结果确定与所述数据库相关的所述NLP请求的范围,所述范围包括受所述NLP请求影响的所述预先存在的注释的候选受影响的注释的标识;
根据所述范围和所述部分使NLP服务在所述语料库上被执行,从而导致更新;以及
向与所述语料库相关联的所述数据库提交所述更新。
18.根据权利要求17所述的计算机程序产品,还包括:在向所述数据库提交所述更新之前显示所述更新的预览。
19.根据权利要求17所述的计算机程序产品,其中所述语料库包括所述至少一个表面形式。
20.根据权利要求17所述的计算机程序产品,其中受所述NLP请求影响的所述语料库的所述部分包括来自所述语料库中的多个文档的至少一个或多个文档的标识。
CN202180037590.3A 2020-06-18 2021-06-09 基于nlp模型增强的语料库的定向部分重新丰富 Pending CN115698981A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/904,924 2020-06-18
US16/904,924 US11537660B2 (en) 2020-06-18 2020-06-18 Targeted partial re-enrichment of a corpus based on NLP model enhancements
PCT/CN2021/099122 WO2021254227A1 (en) 2020-06-18 2021-06-09 Targeted partial re-enrichment of a corpus based on nlp model enhancements

Publications (1)

Publication Number Publication Date
CN115698981A true CN115698981A (zh) 2023-02-03

Family

ID=79023533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180037590.3A Pending CN115698981A (zh) 2020-06-18 2021-06-09 基于nlp模型增强的语料库的定向部分重新丰富

Country Status (9)

Country Link
US (1) US11537660B2 (zh)
JP (1) JP2023529819A (zh)
KR (1) KR20230003109A (zh)
CN (1) CN115698981A (zh)
AU (1) AU2021294112B2 (zh)
CA (1) CA3180879A1 (zh)
GB (1) GB2611682A (zh)
IL (1) IL297896A (zh)
WO (1) WO2021254227A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11250205B2 (en) * 2020-07-10 2022-02-15 International Business Machines Corporation Performance characteristics of cartridge artifacts over text pattern constructs

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US9298816B2 (en) * 2011-07-22 2016-03-29 Open Text S.A. Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
US9245008B2 (en) 2013-03-12 2016-01-26 International Business Machines Corporation Detecting and executing data re-ingestion to improve accuracy in a NLP system
US10073835B2 (en) 2013-12-03 2018-09-11 International Business Machines Corporation Detecting literary elements in literature and their importance through semantic analysis and literary correlation
CN103823857B (zh) 2014-02-21 2017-02-01 浙江大学 基于自然语言处理的空间信息检索方法
US10120861B2 (en) 2016-08-17 2018-11-06 Oath Inc. Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
KR101813683B1 (ko) 2016-08-17 2017-12-29 창원대학교 산학협력단 커널 rdr을 이용한 태깅 말뭉치 오류 자동수정방법
CN107301173B (zh) 2017-06-22 2019-10-25 北京理工大学 一种基于拼接再混合方式的多源神经网络自动译后编辑系统及方法
EP3753025A1 (en) 2018-02-16 2020-12-23 Google LLC Automated extraction of structured labels from medical text using deep convolutional networks and use thereof to train a computer vision model
KR102098461B1 (ko) 2018-02-23 2020-04-07 창원대학교 산학협력단 퍼지 범주 표현을 이용한 확률 레이블 부착 알고리즘을 사용한 분류 방법
US20190286664A1 (en) * 2018-03-15 2019-09-19 Northern Lake Innovations, LLC Electronic content search system
CN109684448B (zh) 2018-12-17 2021-01-12 北京北大软件工程股份有限公司 一种智能问答方法
CN109783775B (zh) 2019-01-18 2023-07-28 广东小天才科技有限公司 一种标记用户语料的内容的方法及系统
CN110458207A (zh) 2019-07-24 2019-11-15 厦门快商通科技股份有限公司 一种语料意图预测方法、语料标注方法及电子设备

Also Published As

Publication number Publication date
AU2021294112B2 (en) 2023-05-11
US11537660B2 (en) 2022-12-27
GB202300444D0 (en) 2023-03-01
WO2021254227A1 (en) 2021-12-23
US20210397654A1 (en) 2021-12-23
AU2021294112A1 (en) 2022-11-10
IL297896A (en) 2023-01-01
GB2611682A (en) 2023-04-12
JP2023529819A (ja) 2023-07-12
CA3180879A1 (en) 2021-12-23
KR20230003109A (ko) 2023-01-05

Similar Documents

Publication Publication Date Title
US10318622B2 (en) Weighted annotation evaluation
US11455337B2 (en) Preventing biased queries by using a dictionary of cause and effect terms
US20210064507A1 (en) Detecting and predicting application performance
JP2022077022A (ja) 機械翻訳システム、ChatOpsシステム、コンテキストアウェア言語機械識別のための方法、および機械翻訳システムのためのコンピュータプログラム製品(コンテキストアウェア機械言語識別)
US9760638B2 (en) Converging tool terminology
AU2021294112B2 (en) Targeted partial re-enrichment of a corpus based on NLP model enhancements
US20180107635A1 (en) Atom-based sensible synchronization for information indexing
US20190303501A1 (en) Self-adaptive web crawling and text extraction
US11481212B2 (en) Automatic identification of reference data
US11163942B1 (en) Supporting document and cross-document post-processing configurations and runtime execution within a single cartridge
US11461540B2 (en) Cross-document propagation of entity metadata
US11520985B2 (en) Named entity recognition
US20170220584A1 (en) Identifying Linguistically Related Content for Corpus Expansion Management
US11755822B2 (en) Promised natural language processing annotations
US11373037B2 (en) Inferring relation types between temporal elements and entity elements
CN114556326B (zh) 用于生成自然语言表达变体的方法和系统
US20230409806A1 (en) Permutation invariance for representing linearized tabular data
US11556591B2 (en) Tenant-isolated custom annotations for search within a public corpus
US11853750B2 (en) Subject matter expert identification and code analysis based on a probabilistic filter
US11663181B2 (en) Database replication using heterogenous encoding
US11443101B2 (en) Flexible pseudo-parsing of dense semi-structured text
US20210082581A1 (en) Determining novelty of a clinical trial against an existing trial corpus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination