CN114207604A

CN114207604A - 使用针对性问题回答来提取科学测量背景的系统和方法

Info

Publication number: CN114207604A
Application number: CN202080048748.2A
Authority: CN
Inventors: 科里·A·哈珀; 杰西卡·罗斯·考克斯; 安东尼·杰森·塞里; 罗纳德·E·丹尼尔
Original assignee: Elsevier Ltd
Current assignee: Elsevier Ltd
Priority date: 2019-07-05
Filing date: 2020-07-02
Publication date: 2022-03-18
Also published as: US20210004540A1; WO2021007088A1; US11687734B2

Abstract

一种用于执行对文件结果集的搜索的方法包括：在计算装置处接收电子文件；识别所述文件中的数值；从所述文件提取所述数值和在所述数值周围的文本部分以获得提取文本；创建所述提取文本的向量表示；产生与所述提取文本相关联的系列问题；基于所述提取文本的所述向量表示产生对所述系列问题的回答；基于对所述多个问题的所述回答，确定与所述数值相关联的背景；和将所述数值和与所述数值相关联的所述背景存储于数据库中。

Description

使用针对性问题回答来提取科学测量背景的系统和方法

相关申请案的交叉引用

本申请案要求2019年7月5日提交的美国临时申请案第62/870,951号的优先权，所述美国临时申请案的全部内容由此以引用的方式并入。

发明领域

本说明书大体涉及信息检索，且更具体地，涉及使用针对性问题回答来提取科学测量背景的系统和方法。

背景技术

常在例如期刊文章的科学文献中报告测量值和数据点。这些测量可能与正在测量的多种实体或性质有关。某些数据库可以收集或汇总科学文献中的文章。然而，这些数据库通常是手工编策的且通常不包括与测量值相关联的用以快速理解其含义或值的背景信息。用户可能希望能够存取在科学文献中找到的与某一主题有关的测量值的数据库。因此，需要一种提取科学测量背景的方法。

发明内容

在一个实施例中，一种方法包括：接收电子文件；识别所述文件中的数值；从所述文件提取所述数值和在所述数值周围的文本部分以获得提取文本；创建所述提取文本的向量表示；产生与所述提取文本相关联的系列问题；基于所述提取文本的所述向量表示产生对所述系列问题的回答；基于对所述多个问题的所述回答，确定与所述数值相关联的背景；和将所述数值和与所述数值相关联的所述背景存储于数据库中。

在一个实施例中，一种系统包括：处理装置；和非暂时性处理器可读存储介质，所述非暂时性处理器可读存储介质包括存储在其上的一个或多个编程指令。所述指令在被执行时致使所述处理装置：接收电子文件；识别所述文件中的数值；从所述文件提取所述数值和在所述数值周围的文本部分以获得提取文本；创建所述提取文本的向量表示；产生与所述提取文本相关联的系列问题；基于所述提取文本的所述向量表示产生对所述系列问题的回答；基于对所述多个问题的所述回答确定与所述数值相关联的背景；和存储所述数值和与所述数值相关联的所述背景。

本发明技术的这些和其它特征以及特性，以及相关结构元件的操作方法和功能，以及部件的组合和制造的经济性，在参考附图来考虑以下描述和所附权利要求书后将变得更加明显，所有附图组成本说明书的部分，在附图中，相似参考标号指定各个图中的对应部件。然而，应明确理解，图式仅出于说明和描述目的且不意欲作为限制本发明的定义。如说明书中和权利要求书中所使用，除非背景清楚地规定，否则单数形式“一”和“所述”包括复数指示物。

附图简单说明

图式中阐述的实施例本质上是说明性和示范性的，且不意欲限制权利要求书所定义的主题。当结合以下图式阅读时，可理解说明性实施例的以下详细描述，在图式中用类似参考标号指示类似且在图式中：

图1示意地描绘根据本文中展示和描述的一个或多个实施例的供系统用于使用针对性问题回答来提取科学测量背景的说明性计算网络；

图2示意地描绘根据本文中展示和描述的一个或多个实施例的来自图1的服务器计算装置，其另外说明可在使用针对性问题回答来提取科学测量背景时使用的硬件和软件；

图3描绘根据本文中展示和描述的一个或多个实施例的使用针对性问题回答来提取科学测量背景的说明性方法的流程图；

图4描绘根据本文中展示和描述的一个或多个实施例的测量的说明性的示范性背景；和

图5描绘根据本文中展示和描述的一个或多个实施例的多轮问题回答的实例。

具体实施方式

一般参考各图，本文中描述的实施例针对于使用针对性问题回答来提取科学测量背景的系统和方法。例如期刊文章、教科书等科学文献常常包括与文献相关联的各种实体的多种测量值。举例来说，期刊文章可论述研究结果并且可包括与所述研究相关联的某些测量数量或测量值。期刊文章可包含对测量值的论述(例如，测量值表示什么、如何获得这些测量值等等)。通过阅读期刊文章和围绕测量值的背景，读者可获知有关测量值的信息。然而，可能需要系统自动从期刊文章提取测量值并且确定可呈现给用户的测量值的背景。用户接着可快速获知期刊文章中包含的测量值且不必阅读期刊文章本身。此外，通过从多种期刊文章或其它科学文献中包含的测量值提取背景，可创建汇总来自海量科学文献大型语料库的测量值的数据库。对获知与特定测量值相关联的特定主题感兴趣的用户接着可搜索所述数据库。

在本文公开的实施例中，系统可扫描期刊文章或其它科学文献以检出其中包含的数值或数量。这些数值可表示科学测量。所述系统接着可提取在检出的每个数值周围的文本部分(例如，句子、段落等等)。接着可将提取文本编码或映射到向量表示，并且可使用多轮问题回答分析文本的向量表示以获知每个数值的背景。所述系统接着可输出包含在文件中检出的每个数值和与每个值相关联的背景的列表。

所述系统可另外对语料库中的多篇文章或其它文件执行这些功能。对于语料库中的每个文件，所述系统可输出包含其中包含的数值和与所述数值相关联的背景的列表。此列表接着可汇总到数据库中，所述数据库包含在整个语料库的文件中与以数字表示的数量和那些以数字表示的数量的背景相关联的数据。用户接着可搜索所述数据库。

现在参考图式，图1描绘根据本文中展示和描述的实施例的说明性计算网络，其说明用于执行本文中描述的功能系统的组件。如图1中所说明，计算机网络10可包括广域网(例如因特网)、局域网(LAN)、移动通信网络、公共电话网(PSTN)和/或其它网络，并且可被配置为电子连接用户计算装置12a、服务器计算装置12b和管理员计算装置12c。

用户计算装置12a可用以促进本文中描述的测量值数据库的搜索，显示和接收来自图形用户界面的用以执行这类搜索的输入，并且显示这类搜索的结果集。也可利用用户计算装置12a执行其它用户功能。

管理员计算装置12c可对服务器计算装置12b执行管理功能等等。在服务器计算装置12b需要监督、更新或校正的情况下，管理员计算装置12c可被配置为提供所要的监督、更新和/或校正。管理员计算装置12c以及耦合到计算机网络10的任何其它计算装置可用以将一个或多个文件(例如，电子文件)输入到文件数据库中。

服务器计算装置12b可接收来自用户计算装置12a的搜索查询并且可执行对测量值数据库的搜索以使用本文公开的技术识别与所述查询有关的测量值和/或文件的结果集。在执行搜索并且识别结果集之后，服务器计算装置12b可将结果集传输给用户计算装置12a以使得用户计算装置12a可显示所述结果集。将在下文详细地阐述服务器计算装置12b的组件和功能性。

应理解，虽然用户计算装置12a和管理员计算装置12c描绘为个人计算机且服务器计算装置12b描绘为服务器，但这些是非限制性实例。更具体地，在一些实施例中，任何类型的计算装置(例如，移动计算装置、个人计算机、服务器等等)可用于这些组件中的任一个。另外，虽然这些计算装置中间每一个在图1中说明为硬件的单个片段，但这也仅仅是实例。更具体地，用户计算装置12a、服务器计算装置12b和管理员计算装置12c中的每一个可表示多个计算机、服务器、数据库等等。

图2描绘关于来自图1的服务器计算装置12b的额外细节。虽然在一些实施例中，服务器计算装置12b可配置为具有必要的硬件、软件和/或固件的通用计算机，但在一些实施例中，所述服务器计算装置12b可配置为明确地为执行本文中描述的功能性而设计的专用计算机。

还如图2中所说明，服务器计算装置12b可包括处理器30、输入/输出硬件32、网络接口硬件34、数据存储组件36(可存储文件数据库38a、测量数据库38b和域信息数据库38c)和非暂时性存储器组件40。存储器组件40可配置为易失性和/或非易失性计算机可读介质，且因而可包括随机存取存储器(包括SRAM、DRAM和/或其它类型的随机存取存储器)、快闪存储器、寄存器、光盘(CD)、数字多功能盘(DVD)和/或其它类型的存储组件。另外，存储器组件40可被配置为存储操作逻辑42、搜索逻辑44、测量提取逻辑46、自然语言处理逻辑48、问题产生逻辑50、问题回答逻辑52、背景提取逻辑54和数据汇总逻辑56(作为实例，其各自可体现为计算机程序、固件或硬件)。本地接口60也包括在图2中并且可实施为促进服务器计算装置12b的组件当中的通信的总线或其它接口。

处理器30可包括被配置为(例如从数据存储组件36和/或存储器组件40)接收和执行指令的任何处理组件。输入/输出硬件32可包括监视器、键盘、鼠标、打印机、照相机、麦克风、扬声器、触控屏和/或其它用于接收、发送和/或呈现数据的装置。网络接口硬件34可包括任何有线或无线连网硬件，例如调制解调器、LAN端口、无线保真(Wi-Fi)卡、WiMax卡、移动通信硬件和/或其它用于与其它网络和/或装置通信的硬件。

应理解，数据存储组件36可在服务器计算装置12b本地和/或远离服务器计算装置12b，并且可被配置为存储一个或多个数据片以供服务器计算装置12b和/或其它组件存取。如图2中所说明，数据存储组件36可存储文件数据库38a、测量数据库38b和域信息数据库38c。在实施例中，文件数据库38a包括将使用本文中的技术分析的文件(例如，电子文件)语料库。在所说明的实施例中，文件数据库38a包括科学文献(例如，期刊文章、教科书等等)。然而，应理解，在一些实例中，文件数据库38a可包含其它类型的文件(例如，专利、地质勘查、工程白皮书、法人档案等等)。在实施例中，文件数据库38a中的文件的文本包括将使用本文中描述的技术进行分析的一个或多个数值(例如，测量值)。在一些实例中，文件数据库38a可包括与某一科学领域(例如，癌症研究、材料科学、环境科学等等)相关联的文件。在其它实例中，文件数据库38a可包括与多个科学领域相关联的文件。将通过服务器计算装置12b进行分析的文件可添加到文件数据库38a以供分析。

测量数据库38b可包括文件数据库38a中的文件中包含的测量和相关联背景的数据库。服务器计算装置12b可使用本文中描述的技术产生测量数据库38b。下文论述测量数据库38b的额外细节。

域信息数据库38c可包括与一个或多个域或主题区域相关联的数据或信息，所述一个或多个域或主题区域与文件数据库38a中的文件相关联。下文论述域信息数据库38c的额外细节。其它数据可存储在数据存储组件36中以提供对本文中描述的功能性的支持。

存储器组件40中包括操作逻辑42、搜索逻辑44、测量提取逻辑46、自然语言处理逻辑48、问题产生逻辑50、问题回答逻辑52、背景提取逻辑54和数据汇总逻辑56。操作逻辑42可包括用于管理服务器计算装置12b的组件的操作系统和/或其它软件。类似地，搜索逻辑44可驻留于存储器组件40中并且可被配置为基于从用户计算装置12a接收的查询，搜索测量数据库38b。下文进一步详细地论述搜索逻辑44。

测量提取逻辑46可从文件数据库38a中的文件提取数值。特定来说，测量提取逻辑46可分析文件数据库38a中的文件的文本并且识别文件中包含的所有数值(例如，测量值)。测量提取逻辑46接着可提取这些数值以及文件中在所述数值周围的特定量的文本。所提取测量周围的文本可用以确定测量的背景，如本文中所论述。

在一个实例中，测量提取逻辑46可提取包含数值的句子。在另一实例中，测量提取逻辑46可提取包含数值的段落。在其它实例中，测量提取逻辑46可提取文件中在数值周围的其它量的文本。在所提取测量周围的文本可用以确定测量的背景，如本文中所论述。

在一些实例中，测量提取逻辑46可提取数值和与来自文件的测量相关联的关联单位(例如，10mm、300kg)。在其它实例中，测量提取逻辑46可提取与测量相关联的额外信息或元数据，包括值、单位、公差、标准偏差，以及标示近似值或标示值是均值还是中值抑或是其它统计测量的旗标。在其它实例中，测量提取逻辑46可提取与测量相关联的其它特征。在一些实例中，域信息数据库38c可包含大量已知度量单位(例如，国家信息标准组织编录的度量单位)的列表。在这些实例中，测量提取逻辑46可通过在域信息数据库38c中识别包含在文件中的度量单位个例(例如，通过执行模式匹配)来识别文件数据库38a中的文件中的度量单位。在一些实例中，域信息数据库38c可包括可帮助将测量提取逻辑46执行的提取跳到特定用例的目标背景、性质和实体类型。

在测量提取逻辑46从文件提取测量值和周围文本之后，自然语言处理逻辑48可将提取的测量值和周围文本输入到自然语言处理算法中。因此，自然语言处理逻辑48可将提取的测量值和文本映射或编码成数值向量表示。自然语言处理算法可为深度神经网络，所述深度神经网络已在大数据集上得以训练以理解通常以人类使用语言的方式存在的模式。在一个实例中，自然语言处理逻辑48可利用来自转换器的双向编码器表示(BERT)算法编码提取的文本。然而，应理解，在其它实例中，自然语言处理逻辑48可利用其它自然语言处理算法。

一旦自然语言处理逻辑48将提取文本编码成向量表示，便可对文本的向量表示执行数学操作或其它操作。特定来说，如本文中所描述，问题回答逻辑52可利用问题回答(QA)技术从提取文本获知测量的背景。QA技术或QA模型包括提问与文本部分相关联的问题并且接收基于所述文本部分的回答。QA模型可在通用数据集上训练以仅基于文本结构和语言来回答关于文本部分的问题。也就是说，QA模型不需要具有关于文本的主题的任何专门知识。可供自然语言处理逻辑48使用的QA模型的一个实例是在斯坦福问题回答数据集(SQuAD)上训练的提取模型，其从维基百科(Wikipedia)引出问题并且可用以训练QA模型。其它实例可包括在SQuAD或其它数据集上训练的产生或提取模型，以及其它基于规则或机器学习的QA方法。

问题回答逻辑52可使用QA模型提出问题并且接收与测量提取逻辑46提取的文本的向量表示有关的回答。在一些实例中，问题回答逻辑52使用SQuAD。然而，应理解，在其它实例中，问题回答逻辑52可利用任何其它QA模型或任何QA模型组合。

问题产生逻辑50可产生关于提取文本的问题，向问题回答逻辑52提出所述问题。问题回答逻辑52接着可利用QA模型(例如，在SQuAD上训练的模型)返回对提出的问题的回答。特定来说，问题产生逻辑50可产生系列问题以确定测量提取逻辑46提取的测量的背景。因此，问题产生逻辑50和问题回答逻辑52可利用多轮问题回答，其中在一系列轮次中提问系列问题，且可使用发给每个问题的输出作为后续问题的文本的部分，如本文中所描述。在一些实例中，问题回答逻辑52可依据特定模板产生问题，如下文结合图5进行论述。

在一个实例中，服务器计算装置12b确定与包括四个值的测量相关联的背景。如图4中所示，这四个值包括数量、测量的实体、测量的性质和限定词。数量识别测量的特定值和从文件提取的测量的关联单位(例如，10mm)。测量的性质识别测量什么性质(例如，长度)。测量的实体识别具有所述性质的所测量值的实体(例如，经测量为10mm的病变)。最后，限定词识别在什么条件下进行测量(例如，对40岁的男性患者进行测量)。在其它实例中，所提取测量的背景可包括不同的或额外的值。

返回参考图2，在所说明的实例中，问题产生逻辑50产生系列问题，向问题回答逻辑52提出所述系列问题以确定图4中描述的背景值。图5示出对句子“在我喝了一些咖啡之后，咖啡杯的剩余容量为175ml”的实例多轮问题序列。最开始，测量提取逻辑46从文件识别“175ml”并且提取那些句子。因此，如图5中所示，此测量的数量是175ml。接下来，在第一轮中，问题产生逻辑50产生问题“什么是175ml？”。问题回答逻辑52接着返回“容量”，其变成测量的性质。在第二轮中，问题产生逻辑50产生问题“什么具有175ml的容量？”。问题回答逻辑52接着返回“咖啡杯”，其变成测量的实体。在第三轮中，问题产生逻辑50产生问题“咖啡杯在什么条件下具有175ml的容量？”。问题回答逻辑52接着返回“在我喝了一些咖啡之后”，其变成限定词。在图5的实例中，问题回答逻辑52依据特定模板产生将在三个轮次期间提问的三个问题。第一个问题合并有检出的测量，且第二个问题和第三个问题各自合并有对来自前一轮次的问题的回答。然而，在其它实例中，可使用不同模板。

如上文所论述，并且在图5的实例中示出，问题产生逻辑50和问题回答逻辑52能够使用多轮QA确定关于测量提取逻辑46提取的测量的信息或背景。多轮QA从所提取测量的数值开始并且提问系列问题以确定测量的背景(例如，测量的性质、测量的实体和限定词)。问题回答逻辑52提供的每个回答可供问题产生逻辑50用于表述下一个问题。因而，在系列问题由问题产生逻辑50提问并且被问题回答逻辑52回答了之后，确定测量的背景。背景提取逻辑54接着可基于问题回答逻辑52产生的回答，提取测量的背景。在所说明的实例中，如图4中所示，背景提取逻辑54提取与测量相关联的数量、测量的实体、测量的性质和限定词。然而，在其它实例中，背景提取逻辑54可提取与测量有关的其它背景信息。在背景提取逻辑54提取测量的背景之后，测量、相关联的背景和对从中提取测量的文件的引用可存储在测量数据库38b中。

应注意，供问题回答逻辑52使用的QA模型可不具有与文件数据库38a中的文件有关的任何主题或域知识。也就是说，虽然文件数据库38a中的文件可来自科学文献，但供问题回答逻辑52使用的QA模型通常不在科学文献上训练。替代地，QA模型仅训练为理解语言结构并且基于文本部分的向量表示中隐含的语义回答问题。举例来说，SQuAD从维基百科引出问题并且可用以训练QA模型。

此外，在一些实例中，问题产生逻辑50可在不使用任何主题知识的情况下产生问题。举例来说，图5中示出的问题不利用任何特定科学知识，而是依据仅基于所提取测量值和对问题的后续回答的模板。替代地，在一些实例中，问题产生逻辑50可当产生将向问题回答逻辑52提出的一个或多个问题时，利用主题或域知识。在这些实例中，问题产生逻辑50可存取域信息数据库38c并且基于其中包含的信息产生一个或多个问题。举例来说，一系列QA轮次可展现97℃的测量值是水沸点。问题产生逻辑50接着可存取域信息数据库38c并且确定水的标准沸点是100℃。因此，问题产生逻辑50可基于此差异产生一个或多个额外问题。举例来说，问题产生逻辑50可向问题回答逻辑52提问在何处测量的沸点是97℃。作为响应，问题回答逻辑52可回答所述测量在特定海拔下进行的。

在另一实例中，问题产生逻辑50可存取域信息数据库38c以在产生问题时选择使用不同术语。一些域可利用某一程度上可互换的不同术语。因而，特定文件的作者可使用不同于问题产生逻辑50正常理解的词语来描述测量。因此，问题产生逻辑50可使用不同术语产生多种问题表述以引出恰当的响应。举例来说，测量可与癌瘤有关。域信息数据库38c可已知癌瘤是一种癌症类型。因此，问题产生逻辑50可产生一个询问癌瘤性质的问题并且可产生另一询问相同的癌症性质或其它相关术语的问题。因而，基于域信息数据库38c中的信息产生多种问题表述可使得问题回答逻辑52更有可能返回所要响应。背景提取逻辑54接着可使用概率技术基于问题回答逻辑52返回的对问题产生逻辑50提出的一个或多个问题的每一种表述的回答来确定测量的恰当背景。

返回参考图2，数据汇总逻辑56可汇总背景提取逻辑54提取的数据。数据汇总逻辑56可汇总与从文件数据库38a中的单个文件提取的多个测量以及从多个文件提取的测量有关的数据。数据汇总逻辑56可通过从测量数据库38b存取所提取测量和相关内容来执行数据汇总。在一些实例中，数据汇总逻辑56可单独地汇总来自不同域或主题的数据。举例来说，数据汇总逻辑56可汇总与癌症研究有关的所有测量并且可单独地汇总与材料科学有关的所有测量。

数据汇总逻辑56接着可在用户界面中呈现汇总的数据，用户计算装置12a可访问所述用户界面。数据汇总逻辑56创建的用户界面可允许用户存取所有文件上的所提取测量和相关内容的概要。在一个实例中，数据汇总逻辑56可产生针对每个测量的测量和相关联背景的表以及通到从中提取每个测量的文件的链接。因此，用户可使用用户界面查看不同测量，并且当用户找到感兴趣的特定测量时，用户可点击通到文件的链接。接着可为用户提供适当文件的引文或可直接展示文件的副本。在一些实例中，数据汇总逻辑56可筛选或以其它方式帮助在文件数据库38a中的文件语料库中搜索与初始文件包含类似测量的额外文件，或推荐来自文件数据库38a的相关文件。

在一个实例中，用户可利用用户界面搜索测量数据库38b。因而，当从用户计算装置12a接收到搜索请求时，搜索逻辑44可基于搜索请求执行测量数据库38b的搜索。在一些实例中，搜索请求可包括与测量相关联的一个或多个数量、测量的实体、测量的性质和/或限定词。举例来说，用户可搜索大小在5cm和8cm之间的肺癌肿瘤。搜索逻辑44接着可在测量数据库38b中搜索具有5cm和8cm之间的数量、大小的测量的性质和肺癌肿瘤的测量的实体的任何测量。搜索逻辑44接着可向用户呈现搜索结果。用户接着可审查各种测量和相关联的背景，并且如果发现感兴趣的任何测量，那么用户可点击链接以访问从中提取感兴趣的测量的文件(例如，期刊文章)。因而，用户可基于测量数据快速搜索科学文献，这可增强这类科学文献的实用性。举例来说，治疗长有某一大小或其它性质的肿瘤的癌症患者的医生或研究人员可在测量数据库38b中搜索具有类似性质的测量。因而，医生或研究人员可找到论述其它类似案例的期刊文章，所述类似案例可论述可对患者有用的治疗选项。

数据汇总逻辑56可在多种形式或用户界面中呈现汇总的测量。在一个实例中，数据汇总逻辑56可以知识图表形式呈现汇总的测量。在另一实例中，如果许多测量与地理方位有关，那么可以地图形式呈现汇总的数据，在相关联测量的地图上展示方位。在其它实例中，可以不同类型的图表或统计图表(例如，气泡图)形式呈现汇总的数据。在一些实例中，这类图表或统计图表可基于特定实体类型或性质类型的测量值的统计特性(例如，均值或中值)，概述数据汇总逻辑56所汇总的数据上的数值。

在一些实例中，数据汇总逻辑56可呈现允许用户在汇总的数据与相关联的文件之间来回移动的用户界面。举例来说，可向用户呈现测量列表以及其相关联的背景和通到从中提取测量的文件的链接。用户可点击特定文件并且可向用户呈现所述文件。用户接着可看到点击用户界面中的特定按钮或方位以返回到测量列表并继续浏览的选项。

应理解，图2中说明的组件仅为说明性的且并不意欲限制本公开的范围。更具体地，虽然图2中的组件说明为驻留在服务器计算装置12b内，但这是非限制性实例。在一些实施例中，一个或多个组件可驻留在服务器计算装置12b外部。类似地，虽然图2针对于服务器计算装置12b，但例如用户计算装置12a和管理员计算装置12c的其它组件可包括类似的硬件、软件和/或固件。

如上所述，关于图2描述的各个组件可用以执行使用针对性问题回答来提取科学测量背景的一个或多个过程和/或提供用于使用针对性问题回答来提取科学测量背景的功能性。关于图3描述各种过程的说明性实例。虽然与图3的框相关联的步骤将描述为单独的任务，但在其它实施例中，可组合或忽略所述框。另外，虽然与图3的框相关联的步骤将描述为以特定次序执行，但在其它实施例中，所述步骤可以不同的次序执行。

在步骤300处，服务器计算装置12b接收将分析的电子文件。所述文件可包括期刊文章或其它科学文献。所述文件可存储在文件数据库38a中。

在步骤302处，测量提取逻辑46识别文件中的数值。所述数值可与科学测量相关联。测量提取逻辑46也可识别与科学测量相关联的测量单位。测量提取逻辑46也可识别与科学测量相关联的公差或标准偏差。测量提取逻辑46也可识别与科学测量相关联的其它元数据(例如，测量是平均值还是近似值)。

在步骤304处，测量提取逻辑46从文件提取数值和在数值周围的文本部分以获得提取文本。从文件提取的文本部分可包括包含数值的句子、或包含数值的段落、或在数值周围的其它某一数量的文本。

在步骤306处，自然语言处理逻辑48创建提取文本的向量表示。自然语言处理逻辑48可使用例如BERT的自然语言处理算法创建提取文本的向量表示。

在步骤308处，问题产生逻辑50产生与提取文本相关联的问题。在一些实例中，问题产生逻辑50识别提取文本的主题，并且至少部分地基于所述主题来产生问题。在其它实例中，问题产生逻辑50可基于产生机器学习模型，所述产生机器学习模型基于文本或基于关于主题的文本和知识来创建问题。

在步骤310处，问题回答逻辑52基于提取文本产生对问题的回答。问题回答逻辑52可基于问题回答模型产生对问题的回答。在一个实例中，问题回答逻辑52利用部分地基于SQuAD的问题回答模型。

在步骤312处，背景提取逻辑54确定是否可基于问题回答逻辑52已回答的问题来确定数值的背景。数值的背景可包括所测量的实体的性质、被测量性质的实体以及进行科学测量时所处的条件。

如果背景提取逻辑54能够确定数值的背景(在步骤312处为是)，那么在步骤314处，背景提取逻辑54基于问题回答逻辑52产生的回答来确定与所述数值相关联的背景。如果背景提取逻辑54不能确定数值的背景(在步骤312处为否)，那么控件返回到步骤308且问题产生逻辑50产生额外问题。问题产生逻辑50产生的额外问题可基于问题回答逻辑52产生的对前一问题的回答。

在步骤316处，背景提取逻辑54将数值和与所述数值相关联的背景存储于测量数据库38b中。数值和背景可存储在数据结构中，所述数据结构包括：数量，所述数量用于保存数值；测量的实体，所述测量的实体用于保存被测量性质的实体；测量的性质，所述测量的性质用于保存被测量的实体的性质；和限定词，所述限定词用于保存进行所述测量时所处的条件，如图4中所示。

可针对文件中的每个以数字表示的数量并且针对文件数据库38a中的每个文件执行图3的方法。在针对一个或多个文件执行图3的方法之后，数据汇总逻辑56可汇总所提取的数值和相关联的背景以创建汇总的数据集。接着可将汇总的数据集呈现给用户。

应理解，本文中描述的实施例针对于用于使用针对性问题回答来提取科学测量背景的系统和方法。可分析科学文献的一个或多个文件并且可识别文件中的数值。数值可与数值周围的某一量的文本一起从文件提取。可使用自然语言处理算法将提取文本编码成向量表示。接着可对文本的向量表示执行多轮问题回答，借以提问系列问题并且使用问题回答模型回答所述问题。可基于多轮问题回答的结果来确定数值的包括所测量数量、测量的性质、测量的实体以及测量所述数量时所处的条件的背景。来自多个文件的数据可经汇总并在用户界面中呈现给用户，用户可搜索所述用户界面。所述用户界面可呈现测量和相关联背景的列表以及通到从中提取测量的文件的链接。

虽然本文已说明和描述特定实施例，但应理解，可在不脱离所要求的主题的精神和范围的情况下做出各种其它变化和修改。此外，虽然本文已描述所要求的主题的各个方面，但不需要组合使用这些方面。因而，所附权利要求书意欲涵盖落在所要求的主题的范围内的所有这些变化和修改。

Claims

1.一种方法，包括：

在计算装置处接收电子文件；

识别所述文件中的数值；

从所述文件提取所述数值和在所述数值周围的文本部分以获得提取文本；

创建所述提取文本的向量表示；

产生与所述提取文本相关联的系列问题；

基于所述提取文本的所述向量表示产生对所述系列问题的回答；

基于对所述系列问题的所述回答确定与所述数值相关联的背景；和

将所述数值和与所述数值相关联的所述背景存储于数据库中。

2.如权利要求1所述的方法，其中所述数值与科学测量相关联。

3.如权利要求2所述的方法，其中与所述科学测量相关联的所述背景包括所测量的实体的性质、被测量性质的所述实体以及进行所述科学测量时所处的条件。

4.如权利要求3所述的方法，还包括：

将所述数值和与所述数值相关联的所述背景存储于数据结构中，所述数据结构包括：数量，所述数量用于保存所述数值；测量的实体，所述测量的实体用于保存被测量性质的实体；测量的性质，所述测量的性质用于保存被测量的所述实体的性质；和限定词，所述限定词用于保存进行所述科学测量时所处的条件。

5.如权利要求2所述的方法，还包括：

识别与所述数值相关联的测量单位。

6.如权利要求2所述的方法，还包括：

识别与所述数值相关联的公差。

7.如权利要求2所述的方法，还包括：

识别与所述数值相关联的标准偏差。

8.如权利要求1所述的方法，还包括：

使用自然语言处理算法创建所述提取文本的向量表示。

9.如权利要求8所述的方法，其中所述自然语言处理算法包括来自转换器的双向编码器表示。

10.如权利要求1所述的方法，其中基于对前一问题的回答产生所述系列问题中的至少一个问题。

11.如权利要求1所述的方法，还包括：

基于问题回答模型产生对所述系列问题的回答。

12.如权利要求11所述的方法，其中所述问题回答模型至少部分地基于斯坦福问题回答数据集。

13.如权利要求1所述的方法，还包括：

识别所述提取文本的主题；和

至少部分地基于所述主题产生所述系列问题中的至少一个问题。

14.如权利要求1所述的方法，还包括：

将所述数值和与所述数值相关联的所述背景与从所述文件提取的至少一个其它数值和与所述至少一个其它数值相关联的背景汇总在一起来创建汇总的数据集；和

将所述汇总的数据集呈现给用户。

15.一种系统，包括：

处理装置；和

非暂时性处理器可读存储介质，所述非暂时性处理器可读存储介质包括存储在其上的一个或多个编程指令，所述编程指令在被执行时致使所述处理装置：

接收电子文件；

识别所述文件中的数值；

创建所述提取文本的向量表示；

产生与所述提取文本相关联的系列问题；

16.如权利要求15所述的系统，其中所述指令在被执行时致使所述处理装置：

使用自然语言处理算法创建所述提取文本的向量表示。

17.如权利要求15所述的系统，其中所述指令在被执行时致使所述处理装置：

基于对前一问题的回答产生所述系列问题中的至少一个问题。

18.如权利要求15所述的系统，其中所述指令在被执行时致使所述处理装置：

基于问题回答模型产生对所述系列问题的回答。

19.如权利要求15所述的系统，其中所述指令在被执行时致使所述处理装置：

识别所述提取文本的主题；和

20.如权利要求15所述的系统，其中所述指令在被执行时致使所述处理装置：

将所述汇总的数据集呈现给用户。