CN111386686A - 用于回答与文档相关的查询的机器阅读理解系统 - Google Patents

用于回答与文档相关的查询的机器阅读理解系统 Download PDF

Info

Publication number
CN111386686A
CN111386686A CN201880072527.1A CN201880072527A CN111386686A CN 111386686 A CN111386686 A CN 111386686A CN 201880072527 A CN201880072527 A CN 201880072527A CN 111386686 A CN111386686 A CN 111386686A
Authority
CN
China
Prior art keywords
score
answer
query
processing
portions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880072527.1A
Other languages
English (en)
Other versions
CN111386686B (zh
Inventor
M·亚达达
A·J·麦克纳马拉
K·萨勒曼
林锡辉
庄恩慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN111386686A publication Critical patent/CN111386686A/zh
Application granted granted Critical
Publication of CN111386686B publication Critical patent/CN111386686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种机器阅读理解系统(MRCS)可以分析包括多页的较大文档以预测对查询的答案。例如,文档可以具有两页、五页、数十页或数百页。MRCS将文档划分为多个部分,其中每个部分包括文档的一部分。每个部分由一个或多个处理电路分离地处理以确定针对该部分的得分。得分指示该部分与查询的相关程度和/或该部分提供对查询的可能答案的概率。一旦所有部分已经被分析,则这些部分按其得分被排名,并且排名的部分的子集被再次处理以确定对查询的预测答案。

Description

用于回答与文档相关的查询的机器阅读理解系统
背景技术
使机器在接近人类的水平理解自然语言是人工智能的主要目标。实际上,大多数人类知识都是以自然语言文本收集的。因此,对非结构化的真实世界文本的机器理解引起了科学家、工程师和学者的极大关注。这至少部分是由于以下事实:很多自然语言处理任务(诸如信息提取、关系提取、文本摘要或机器翻译)隐式或显式取决于机器对自然语言的理解和推理能力。
在某些情况下,机器阅读理解系统(MRCS)分析文档以预测对查询的答案。很多MRCS分析或处理包含有限页数(例如,一页或两页)的较小文档。这样的文档的一个示例是新闻文章。MRCS可能难以处理包含多页或很多页(例如,数十到数百页)的文档。首先,训练MRCS处理更大文档可能会花费大量时间和数据。其次,一旦对MRCS进行了训练,分析较大文档可能需要大量处理能力和大量时间。
关于这些和其他一般考虑,已经描述了实施例。而且,尽管已经讨论了相对具体的问题,但是应当理解,实施例不应当限于解决在背景技术中确定的具体问题。
发明内容
本文中描述的实施例提供了一种机器阅读理解系统,该机器阅读理解系统可以分析较大文档(例如,两页、五页、十页、二十页、五十页或一百页)以预测对查询的答案。在一个方面,一种系统包括第一处理电路、第二处理电路、第三处理电路和一个或多个存储设备。(多个)存储设备存储指令,该指令在由第一处理电路、第二处理电路和第三处理电路执行时引起机器阅读理解系统执行一种方法。该方法包括响应于接收的查询而将文档划分为多个部分(section),该多个部分各自包括该文档的一部分,由第一处理电路分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第一得分,并且由第二处理电路分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第二得分。对于每个部分,组合第一得分和第二得分以产生最终得分。由第三处理电路分离地处理经处理的部分的子集中的每个部分以确定指示该部分提供对查询的答案的第三得分。经处理的部分的子集中的每个部分基于最终得分的排名被包括在经处理的部分的子集中。然后基于每个第三得分确定对接收的查询的预测答案。
在另一方面,一种方法包括:响应于接收的查询而将文档划分为多个部分,该多个部分各自包括该文档的一部分;分离地处理每个部分以确定指示该部分提供所接收的答案查询的第一得分,并且分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第二得分。对于每个部分,组合第一得分和第二得分以产生最终得分。分离地处理经处理的部分的子集中的每个部分以确定指示该部分提供对查询的答案的第三得分,其中经处理的部分的子集中的每个部分基于最终得分的排名被包括在经处理的部分的子集中。然后,基于每个第三得分确定对接收的查询的预测答案。
在另一方面,一种方法包括:响应于接收的查询而将文档划分为多个部分,该多个部分各自包括该文档的一部分,由第一处理电路分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第一得分,并且由第二处理电路分离地处理每个部分以确定指示该部分提供对接收的查询的答案的第二得分。对于每个部分,组合第一得分和第二得分以产生最终得分。分离地处理部分的子集中的每个部分以确定部分是否提供对查询的答案,其中部分的子集中的每个部分基于最终得分的排名被包括在部分的子集中。子集中的每个部分的处理包括将部分分为句子,将每个句子分为单词,由第三处理电路对部分中的每个句子和接收的查询编码,由第四处理电路处理经编码的句子以确定该部分中与经编码的查询相关的一个或多个句子,对于相关的一个或多个句子中的每个相关的句子,将相关的句子与经编码的查询比较以产生第三得分。然后,基于每个第三得分选择对接收的查询的预测答案。
在一个示例实施例中,每个部分由第一处理电路、第二处理电路和第三处理电路分离地处理。第一处理电路包括神经网络,第二处理电路包括信息检索(IR)系统,并且第三处理电路包括嵌入式IR系统。对于文档中的每个部分,第一处理电路、第二处理电路和第三处理电路分别将查询与部分标题比较并且产生得分,并且将查询与部分描述比较并且产生另一得分。对于每个部分,组合得分以提供该部分的最终得分。一旦所有部分被分析,则按其最终得分对这些部分排名,并且通过附加的处理电路再次处理经排名的部分的子集以确定对查询的预测答案。
提供本概述以便以简化的形式介绍一些概念,这些概念将在下面的“具体实施方式”中进一步描述。本概述既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
通过以下详细描述并且结合附图,将容易理解本公开,其中相同的附图标记表示相同的结构元件,并且在附图中:
图1示出了可以包括机器阅读理解系统的示例系统;
图2是描绘操作机器阅读理解系统以预测对查询的答案的方法的流程图;
图3示出了示例文档和文档中的部分;
图4是描绘处理文档中的部分的示例方法的流程图;
图5是示出处理经处理的部分的子集以预测对查询的答案的示例方法的流程图;
图6是示出确定对查询的答案的示例方法的流程图;
图7是描绘可以用于实践本公开的各方面的电子设备的示例物理组件的框图;
图8A至8B是示出可以用于实践本公开的各方面的移动计算设备的简化框图;以及
图9是描绘可以在其中实践本公开的各方面的分布式计算系统的框图。
提供本概述以便以简化的形式介绍一些概念,这些概念将在下面的“具体实施方式”中进一步描述。本概述既不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
具体实施方式
现在将详细参考附图中示出的代表性实施例。应当理解,以下描述并非旨在将实施例限制为一个优选实施例。相反,其意图是覆盖可以被包括在由所附权利要求书限定的所描述的实施例的精神和范围内的替代、修改和等同方案。
以下公开内容涉及一种可以分析文档以预测对查询的答案的机器阅读理解系统(MRCS)。在一个实施例中,文档可以是包括多个或很多页的大型文档。例如,文档可以具有数十到数百页。这样的文档的示例包括但不限于书籍和用户手册。
在特定实施例中,MRCS将文档划分为多个部分。每个部分由一个或多个处理电路分离地处理以确定针对该部分的得分。得分指示该部分与查询的相关程度和/或该部分提供对查询的可能答案的概率。一旦所有部分被分析,则按其得分对这些部分排名,并且再次处理经排名的部分的子集以预测对查询的答案。在一个实施例中,经排名的部分的子集包括具有前M个得分的(多个)部分,其中M是等于或大于1的数字。例如,经排名的部分的子集可以包括与前五个得分相关联的部分。然后,可以将预测答案提供给计算设备。
例如,在代表性实施例中,每个部分由三个处理电路分离地处理。第一处理电路包括神经网络,第二处理电路包括信息检索(IR)系统,并且第三处理电路包括嵌入式IR系统。对于文档中的每个部分,第一处理电路、第二处理电路和第三处理电路分别将查询与部分标题比较并且产生得分,并且将查询与部分描述比较并且产生另一得分。然后,组合得分以提供该部分的最终得分。一旦所有部分被分析,则按其最终得分对这些部分排名,并且再次处理经排名的部分的子集以预测对查询的答案。其他实施例可以使用任何合适数目的处理电路来分析各部分(例如,一个处理电路或两个或更多个处理电路)。
下面参考图1-9讨论这些和其他实施例。然而,本领域技术人员将容易理解,本文中针对这些附图给出的详细描述仅用于说明目的,而不应当被解释为限制性的。
图1示出了可以包括机器阅读理解系统的示例系统。系统100允许用户102通过客户端计算设备104提交与文档相关联的查询。客户端计算设备104可以包括或被连接到接收查询的输入设备106。查询可以被提交作为书面查询(例如,文本)或作为口头查询(例如,音频),该口头查询被转换为文本(例如,使用语音到文本应用(STT)108)。输入设备106可以是任何合适类型的输入设备或被配置为接收查询的设备。在非限制性示例中,输入设备106可以是键盘(实际的或虚拟的)和/或麦克风。
客户端计算设备104被配置为通过一个或多个网络(由网络112表示)访问一个或多个服务器计算设备(由服务器计算设备110表示)以与存储在一个或多个存储设备(由存储设备116表示)上的机器阅读理解系统(MRCS)114交互。在一个或多个实施例中,网络112示出了任何合适类型的(多个)网络,例如,用户102可以通过其与其他用户和与其他计算系统通信的内部网和/或分布式计算网络(例如,互联网)。
在一些实现中,MRCS 114可以包括可以存储在存储设备116中并且由服务器计算设备110执行的计算机可执行程序或指令。如稍后将更详细描述的,MRCS 114(经由服务器计算设备110中的一个或多个处理系统或神经网络)处理查询和文档以预测对查询的答案。对答案的预测可以引起答案通过在客户端计算设备104中或被连接到客户端计算设备104的输出设备118被提供给用户102。在非限制性示例中,输出设备118是显示器,该显示器显示预测答案和/或“说出”预测答案的说话者(例如,使用文本到语音应用(TTS)108)。
在一个或多个实施例中,客户端计算设备104是具有输入设备106和输出设备118两者的个人或手持式计算设备。例如,客户端计算设备104可以是以下中的一项:移动设备电话;智能电话;平板电脑;平板手机;智能手表;可穿戴计算机;个人计算机;台式计算机;笔记本电脑;游戏设备/计算机(例如,Xbox);电视;等等。示例客户端计算设备的这个列表仅出于示例目的,而不应当被视为限制性的。可以利用提供MRCS和/或与MRCS交互的任何合适的客户端计算设备。
应当理解,图1出于说明本发明的方法和系统的目的而进行描述,而非旨在将本公开限制为特定步骤顺序或者特定硬件或软件组件组合。
图2是描绘操作机器阅读理解系统以预测对查询的答案的方法的流程图。最初,在框200处接收与文档相关的查询。可以使用任何合适类型的文档,包括但不限于相对较大文档,诸如书(例如,教科书)或用户手册。响应于接收的查询,将与查询相关联的文档划分或分为多个部分,该多个部分各自包括该文档的一部分(框202)。这些部分可以是章节、一个或多个段落、或包括多个句子的部分。在一个实施例中,这些部分是不重叠的部分,尽管这不是必需的。
分离地处理每个部分以确定指示该部分提供对查询的答案的得分(框204)。在一个实施例中,得分是该部分提供对查询的答案的概率。基于所确定的得分(例如,概率),然后分离地处理这些部分的子集以预测对查询的答案(框206)。在一个实例中,部分的子集包括一组前M个部分(例如,具有前M个概率的(多个)部分),其中变量M是等于或超过1的数字。例如,部分的子集可以包括与前五个得分相关联的部分。
此后,在框208处,将对查询的预测答案提供给计算设备。该计算设备可以是任何合适的计算设备,诸如客户端计算设备(例如,图1中的客户端计算设备104)。响应于对预测答案的接收,预测答案可以经由输出设备被呈现(或被引起被呈现)给用户。例如,可以在显示器上显示预测答案以在视觉上将预测答案呈现给用户,或者可以将预测答案提供给一个或多个扬声器以在听觉上将预测答案呈现给用户。
图3示出了示例文档和文档中的部分。如前所述,文档可以是包括多个页的大型文档。例如,文档可以具有两页、五页、十页、二十页、五十页或一百页或更多页。在所示的实施例中,文档300包括列出文档300中的章节标题304的目录302。每个章节包括章节标题304和与章节标题304相关联的章节描述306。每个章节描述306可以记录在文档300的一个或多个页308中。在该示例中,部分310包括部分标题(例如,章节标题304)和相关联的部分描述(例如,章节描述306)。在其他实施例中,文档可以包括与图3所示的部分不同格式的部分。例如,每个部分可能没有部分标题。附加地或备选地,部分描述可以包括一个或多个段落、或句子范围,其中段落或句子范围不与章节(例如,书中的章节)相关联。
图4是描绘处理文档中的各部分的方法的流程图。该过程可以在图2所示的方法的框204中使用。最初,如框400所示,查询和部分标题由第一处理电路分离地处理以确定第一得分。第一处理电路可以对查询和部分标题编码,并且将经编码的查询和经编码的部分标题比较以确定部分标题与查询的相关程度。较低得分表明部分标题与查询无关,而较高得分表明部分标题与查询更相关。
接下来,如框402所示,由第一处理电路分离地处理查询和部分描述以确定第二得分。第一处理电路可以对查询和部分描述编码,并且将经编码的查询和经编码的部分描述比较以确定部分描述与查询的相关程度。像第一得分一样,第二得分指示部分描述与查询的相关程度。在一个实施例中,第一处理电路包括神经网络,诸如递归神经网络。
此后,由第二处理电路分离地处理查询和部分标题以确定第三得分(框404)。第二处理电路还分离地处理查询和部分描述以确定第四得分(框406)。在一个实施例中,第二处理电路分析查询和部分标题以确定部分标题与查询的相似程度,并且产生表示相似度的第三得分。类似地,第二处理电路分析查询和部分标题以确定部分标题与查询的相似程度,并且产生表示相似度的第四得分。例如,第三得分和第四得分可以分别是分别指示查询与部分标题和部分描述的匹配程度的匹配得分。在一个实施例中,第二处理电路包括信息检索(IR)系统。可以使用任何合适的IR处理。IR过程的一个示例是BM25概率系统。
接下来,如框408所示,由第三处理电路分离地处理查询和部分标题以确定第五得分。另外,由第三处理电路分离地处理查询和部分描述以确定第六得分(框410)。在一个实施例中,第三处理电路包括嵌入式IR系统,但是可以使用任何合适的IR系统或神经网络。第五得分指示部分标题与查询的相关或匹配程度,第六得分指示部分描述与查询的相关或匹配程度。
在一个方面,嵌入式IR系统将查询和部分标题中的每个单词分析为单独的单词,并且比较查询和部分标题中的单词嵌入之间的余弦相似度。例如,对于查询中的每个单词,嵌入式IR系统基于单词嵌入之间的余弦相似度来确定部分标题中最相似的单词,并且基于查询和部分标题中最相似的单词来产生第五得分。嵌入式IR系统在查询与部分描述之间执行相同的分析以产生第六得分。
在框412处,组合六个得分以产生该部分的最终得分。在一个实施例中,将六个得分级联以产生表示该部分的最终得分的向量。然后,在框414处确定是否需要处理另一部分。如果是这样,则该方法返回到框400,并且框400、402、404、406、408、410、412和414重复,直到所有部分被处理。
如果在框414处确定不需要处理另一部分(例如,所有部分都被处理),则该方法继续到框416,在框416处,对所有最终得分排名。在一个实施例中,通过确定所有最终得分上的概率分布来对最终得分排名。可以使用任何合适的技术来确定最终得分上的概率分布。例如,在一个方面,使用softmax过程来产生概率分布。softmax过程可以是神经网络的一层,诸如最后一层。
尽管图4所示的方法结合分析文档中的部分的三个处理电路进行描述,但是其他实施例不限于该实现。可以使用任何合适数目的处理电路。例如,一个、两个或四个处理电路可以分析文档中的各部分。因此,在框412处组合的得分的数目取决于所执行的处理操作的数目。附加地或备选地,在其他实施例中可以使用不同类型的处理电路。在一些实施例中,可以修改图4中描绘的框的顺序。例如,框400可以在框402之后发生,和/或框404可以在框406之后执行。
图5是示出处理经处理的部分的子集以预测对查询的答案的方法的流程图。所示出的过程可以在图2所示的方法中的框206和208中使用。最初,如框500所示,选择部分的子集以进行进一步处理。在一个实施例中,选择最终得分落入经排名的最终得分中的前M个内的(多个)部分,其中M是等于或大于1的数字。在确定所有最终得分上的概率分布的实施例中,在框500处选择与前M个概率相关联的(多个)部分。例如,在框500处可以选择与前三个最终得分或前三个概率相关联的部分。
然后,由第四处理电路处理所选择的部分和查询以确定查询的一个或多个可能答案(框502)。在一个实施例中,第四处理电路包括用于读取理解的神经网络,该神经网络对查询编码,对部分标题编码,对部分描述编码,并且将经编码的查询与经编码的部分标题和经编码的部分描述比较。第四处理电路产生查询的一个或多个可能答案以及每个可能答案的得分或概率,该得分或概率指示该可能答案是对查询的答案的正确性或概率。适合于用作第四处理电路的示例神经网络包括但不限于R-NET、BiDAF、ReasoNet、Coattention和Dynamic Coattention。
然后,在框504处确定是否需要处理另一选择部分。如果是这样,则该方法返回到框502。如果确定不需要处理另一选择部分,则该方法继续到框506,在框506处,从可能的答案中确定预测答案并且将预测答案提供给计算设备。在一个方面,预测答案是由第四处理电路计算的得分或概率最高的可能答案。
图6是示出确定对查询的答案的示例方法的流程图。代表性过程可以在图5所示的方法中的框502、504和506中使用。最初,在框600处,将部分标记化或分为句子。在一个实施例中,该部分是所选择的M个部分中具有最终得分排名最高的部分(例如,参见图5中的框500)。
然后,在框602处,将该部分中的每个句子标记化或分为单词。然后,使用第五处理电路对查询和每个句子编码(框604)。在一个方面,第五处理电路包括神经网络,诸如递归神经网络。接下来,如框606所示,对于该部分中的每个经编码的句子,将该句子与相关性得分级联以产生级联值。在一个实施例中,相关性得分是逆句频率(ISF)得分,但是其他实施例可以使用不同类型的相关性得分。例如,用于计算ISF得分的示例等式如下:
Figure BDA0002482712460000101
其中dij是文档d的第i句子中的第j标记,qk是查询q中的第k标记,并且当x=y时,I(x=y)为1,否则为0。
然后,使用第六处理电路处理级联值以确定与查询相关的一个或多个句子(框608)。在一些方面,第六处理电路是神经网络,诸如递归神经网络,该神经网络处理句子(例如,对于每个句子具有隐藏状态)并且处理句子中的单词以确定一个或多个句子是否与查询相关。
在一个实施例中,第六处理电路将经编码的查询与每个经编码的句子比较,并且为每个句子产生正的句子相关性得分或负的句子相关性得分。例如,可以使用点积将经编码的查询与经编码的句子的每个隐藏状态的输出比较以产生句子相关性得分。句子相关性得分指示句子与查询的相关程度,其中负的句子相关性得分指示句子与查询不相关,而正的句子相关性得分指示句子与查询相关(正的句子相关性得分越高,句子与查询越相关)。
接下来,如框610所示,选择最大正句子相关性得分作为第七得分。对于每个相关的句子(例如,具有正的句子相关性得分的句子),将与相关的句子相邻的(多个)经编码的句子与经编码的查询比较以确定是否有任何相邻句子与正的句子相关性得分相关联(框612)。继续将相邻的经编码的句子与经编码的查询比较,直到获取负的句子相关性得分。例如,将该部分中具有正的句子相关性得分的初始经编码的句子之前的经编码的句子与经编码的查询比较,并且如果在前的经编码的句子具有正的句子相关性得分,则比较下一在前的句子。重复这个过程,直到获取负的句子相关性得分。当获取负的句子相关性得分时,将初始经编码的句子之后的句子与经编码的查询比较,并且如果后续经编码的句子具有正的句子相关性得分,则比较下一后续句子。也重复这个过程,直到获取负的句子相关性得分。当比较操作完成时,将第七得分和正的句子相关性得分相加以产生该部分的总的正得分。
然后,在框614处,确定是否需要处理M个所选择的部分中的另一部分。如果是这样,则该方法返回到框600,并且框600、602、604、606、608、610、612和614重复。如果在框614处确定不需要处理另一部分,则该方法前进到框616,在框616处,选择与最高的总的正得分相关联的答案作为对查询的预测答案。
实施例不限于图6所示的顺序和/或框。可以省略、重新布置框,或者向图6所示的过程中添加新的框。例如,在其他实施例中可以省略框612。
图7-9和相关联的描述提供了对可以在其中实践本公开的各方面的各种操作环境的讨论。然而,关于图7-9所示出和讨论的设备和系统是出于示例和说明的目的,而不是限制可以用于实践本文中描述的本公开的各方面的大量电子设备配置。
图7是示出可以用于实践本公开的各方面的电子设备700的物理组件(例如,硬件)的框图。下面描述的组件可以适合于上述计算设备,包括图1中的客户端计算设备104和/或服务器计算设备110。
在基本配置中,电子设备700可以包括至少一个处理单元702和系统存储器704。根据电子设备的配置和类型,系统存储器704可以包括但不限于:易失性存储装置(例如,随机存取存储器)、非易失性存储装置(例如,只读存储器)、闪存、或这样的存储器的任何组合。系统存储器704可以包括多个程序模块和数据文件,诸如操作系统706、适合于解析所接收的输入、确定所接收的输入的主题、确定与输入相关联的动作等等的一个或多个程序模块708、以及MRCS 710。当在处理单元702上执行时,MRCS 710中的指令可以执行过程和/或引起过程被执行,包括但不限于本文中描述的各方面。
操作系统706例如可以适合于控制电子设备700的操作。此外,本公开的实施例可以结合图形库、其他操作系统或任何其他应用程序来实践,并且不限于任何特定的应用或系统。该基本配置在图7中通过虚线712内的组件示出。
电子设备700可以具有附加特征或功能。例如,电子设备700还可以包括其他数据存储设备(可移除和/或不可移除),诸如例如磁盘、光盘或磁带。这样的其他的存储装置在图7中通过可移除存储设备714和不可移除存储设备716示出。
电子设备700还可以具有一个或多个输入设备718,诸如键盘、触控板、鼠标、笔、声音或语音输入设备、触摸、力和/或滑动输入设备等。也可以包括(多个)输出设备720,诸如显示器、扬声器、打印机等。前述设备是示例,并且可以使用其他设备。电子设备700可以包括一个或多个通信设备722,以允许与其他电子设备724通信。合适的通信设备722的示例包括但不限于射频(RF)发射器、接收器和/或收发器电路;通用串行总线(USB)、并行和/或串行端口。
本文中使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性的可移除和不可移除介质,诸如计算机可读指令、数据结构或程序模块。
系统存储器704、可移除存储设备714和不可移除存储设备716都是计算机存储介质示例(例如,存储器或存储设备)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储技术、CD-ROM、数字多功能磁盘(DVD)或其他光学存储、磁盒、磁带、磁盘存储或其他磁性存储设备、或者可以用于存储信息并且可以由电子设备700访问的任何其他制品。任何这样的计算机存储介质可以是电子设备700的一部分。计算机存储介质不包括载波或其他传播或调制数据信号。
通信介质可以由计算机可读指令、数据结构、程序模块、或者诸如载波或其他传输机制等调制数据信号中的其他数据来体现,并且包括任何信息传递介质。术语“调制数据信号”可以描述其一个或多个特性以使得能够将信息编码在信号中的方式来设置或改变的信号。作为示例而非限制,通信介质可以包括诸如有线网络或直接有线连接等有线介质、以及诸如声学、射频(RF)、红外和其他无线介质等无线介质。
此外,本发明的实施例可以在电路中实践,包括分立电子元件、包含逻辑门的封装或集成电子芯片、利用微处理器的电路,或者在包含电子元件或微处理器的单个芯片上实践。例如,本公开的实施例可以经由片上系统(SOC)来实践,其中图7所示的每个或很多组件可以集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能,所有这些都作为单个集成电路集成(或“烧制”)到芯片基底上。
当经由SOC操作时,本文中描述的功能可以经由与电子设备700的其他组件集成在单个集成电路(芯片)上的专用逻辑来操作。本公开的实施例还可以使用能够执行诸如例如AND、OR和NOT等逻辑运算的其他技术来实践,包括但不限于机械、光学、流体和量子技术。此外,本公开的实施例可以在通用计算机或任何其他电路或系统中实践。
图8A和8B示出了可以用于实践本公开的实施例的移动电子设备800,例如,移动电话、智能电话、可穿戴计算机(诸如智能手表)、平板计算机、膝上型计算机等。参考图8A,示出了用于实现这些方面的移动电子设备800的一个方面。
在基本配置中,移动电子设备800是具有输入元件和输出元件的手持式计算机。移动电子设备800通常包括显示器802和允许用户向移动电子设备800中输入信息的一个或多个输入按钮804。移动电子设备800的显示器802还可以用作输入设备(例如,接受触摸和/或力输入的显示器)。
如果包括,则可选的侧输入元件806允许另外的用户输入。侧输入元件806可以是旋转开关、按钮或任何其他类型的手动输入元件。在替代方面,移动电子设备800可以包含更多或更少的输入元素。例如,在一些实施例中,显示器802可以不是触摸屏。在又一替代实施例中,移动电子设备800是便携式电话系统,诸如蜂窝电话。移动电子设备800还可以包括可选的键盘808。可选的键盘808可以是物理键盘或在触摸屏显示器上生成的“软”键盘。
在各种实施例中,输出元件包括用于示出图用户界面(GUI)的显示器802、视觉指示器810(例如,发光二极管)和/或音频换能器812(例如,扬声器)。在一些方面,移动电子设备800包括用于向用户提供触觉反馈的振动换能器。在又一方面,移动电子设备800包括用于向外部设备发送信号或从外部设备接收信号的输入和/或输出端口,诸如音频输入(例如,麦克风插孔)、音频输出(例如,耳机插孔)和视频输出(例如,HDMI端口)。
图8B是示出移动电子设备800的一个方面的架构的框图。也就是说,移动电子设备800可以包括系统(例如,架构)814以实现某些方面。在一个实施例中,系统814被实现为能够运行一个或多个应用(例如,浏览器、电子邮件、日历、联系人管理器、消息传递客户端、游戏和媒体客户端/播放器、内容选择和共享应用等)的“智能电话”。在一些方面,系统814被集成为电子设备,诸如集成的个人数字助理(PDA)和无线电话。
可以将一个或多个应用(APPS)816加载到存储器818中并且在操作系统820上或与操作系统820相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息传递程序等。
系统814还包括存储器818内的非易失性存储区域822。非易失性存储区域822可以用于存储在系统814断电时不应当丢失的持久信息。
应用程序816可以在非易失性存储区域822中使用和存储信息,诸如文档、电子邮件、附件或由电子邮件应用使用的其他消息等。同步应用(未示出)也驻留在系统814上,并且被编程为与驻留在主计算机上的相应同步应用交互以使存储在非易失性存储区域822中的信息与存储在主计算机中的相应信息保持同步。
系统814具有电源824,电源824可以实现为一个或多个电池。电源824还可以包括外部电源,诸如补充或重新充电电池的AC适配器或电源对接支架。
系统814还可以包括执行发射和接收射频通信的功能的无线电接口层826。无线电接口层826经由通信运营商或服务提供商促进系统814与“外部世界”之间的无线连接。去往和来自无线电接口层826的传输在操作系820的控制下进行。换言之,由无线电接口层826接收的通信可以经由操作系统820传播到应用程序816,反之亦然。
视觉指示器810可以用于提供视觉通知,和/或音频接口828可以用于经由音频换能器(例如,图8A所示的音频换能器812)产生可听通知。在所示的实施例中,视觉指示器810是发光二极管(LED),并且音频换能器812可以是扬声器。这些设备可以直接耦合到电源824,使得它们在被激活时保持开启持续由通知机制指示的持续时间,即使处理器830和其他组件可能关闭以节省电池电量。LED可以被编程为无限期地保持开启,直到用户采取行动来指示设备的通电状态。
音频接口828用于向用户提供可听信号并从用户接收可听信号(例如,如上所述的语音输入)。例如,除了耦合到音频换能器812之外,音频接口828还可以耦合到麦克风以接收可听输入,诸如以便于电话交谈。系统814还可以包括视频接口832,该视频接口832使得外围设备834(例如,车载相机)的操作能够记录静止图像、视频流等。
实现系统814的移动电子设备800可以具有附加特征或功能。例如,移动电子设备800还可以包括附加数据存储设备(可移除和/或不可移除),诸如磁盘、光盘或磁带。这种附加存储在图8B中由非易失性存储区域822示出。
如上所述,由移动电子设备800生成或捕获并且经由系统814存储的数据/信息可以本地存储在移动电子设备800上,或者数据可以存储在任何数目的存储介质上,这些介质可以由设备经由无线电接口层826或经由移动电子设备800和与移动电子设备800相关联的单独电子设备(例如,诸如互联网等分布式计算网络中的服务器计算设备(例如,图1中的服务器计算设备110))之间的有线连接来访问。应当理解,这样的数据/信息可以经由无线电接口层826或经由分布式计算网络经由移动电子设备800来访问。类似地,根据公知的数据/信息传送和存储装置,包括电子邮件和协作数据/信息共享系统,这样的数据/信息可以在电子设备之间容易地传送以用于存储和使用。
应当理解,图8A和图8A为了说明本方法和系统的目的而描述,并且不旨在将本公开限制于特定的步骤序列或者硬件或软件组件的特定组合。
图9是示出可以在其中实践本公开的各方面的分布式系统的框图。系统900允许用户通过通用计算设备902(例如,台式计算机)、平板计算设备904和/或移动计算设备906发送和接收包括一个或多个附件的电子通信。通用计算设备902、平板计算设备904和移动计算设备906均可以包括与图7中的电子设备700相关联的组件,或者可以连接到这些组件。
通用计算设备902、平板计算设备904和移动计算设备906均被配置为访问一个或多个网络(由网络908表示)以与存储在一个或多个存储设备(由存储设备910表示)中并且在一个或多个服务器计算设备(由服务器计算设备912表示)上执行的一个或多个程序(例如,图1中的MRCS 114)交互。在一些方面,服务器计算设备912可以访问和/或接收从诸如目录服务914、(多个)web门户916、邮箱服务918、即时消息传递商店和/或服务920、和/或社交联网商店或服务922等其他源传输的各种类型的服务、通信、文档和信息。在某些情况下,这些来源可以提供鲁棒的报告、分析、数据编译和/或存储服务等,而其他服务可以提供搜索引擎,或者提供对数据和信息、图像、视频、文档处理等的其他访问。
应当理解,图9为了说明本方法和系统的目的而描述,并且不旨在将本公开限制于特定的步骤序列或者硬件或软件组件的特定组合。
例如,以上参考根据本公开的各方面的方法、系统和计算机程序产品的框图和/或操作图示描述了本公开的实施例。框中记录的功能/动作可以不按任何流程图所示的顺序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能/动作。
本申请中提供的一个或多个方面的描述和说明不旨在以任何方式限制或限制本公开的范围。本申请中提供的方面、示例和细节被认为足以传达占有并且使得其他人能够制作和使用所要求保护的最佳模式。所要求保护的公开内容不应当被解释为限于本申请中提供的任何方面、示例或细节。无论是组合地还是单独地示出和描述,旨在选择性地包括或省略各种特征(结构和方法)以产生具有特定特征集的实施例。已经提供了本申请的描述和说明,本领域技术人员可以设想落入本申请中实施的总体发明构思的更广泛方面的精神内的变型、修改和替换方面,这些变型、修改和替换方面没有偏离所要求保护的公开内容的更广泛的范围。

Claims (15)

1.一种机器阅读理解系统,包括:
第一处理电路;
第二处理电路;
第三处理电路;以及
一个或多个存储设备,用于存储指令,所述指令在由所述第一处理电路、所述第二处理电路和所述第三处理电路执行时,引起所述机器阅读理解系统执行方法,所述方法包括:
响应于接收的查询而将文档划分为多个部分,所述多个部分各自包括所述文档的一部分;
由所述第一处理电路分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的第一得分;
由所述第二处理电路分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的第二得分;
对于每个部分,组合所述第一得分和所述第二得分以产生最终得分;
由所述第三处理电路分离地处理经处理的部分的子集中的每个部分以确定指示所述部分提供对所述查询的答案的第三得分,其中所述经处理的部分的所述子集中的每个部分基于对所述最终得分的排名被包括在所述经处理的部分的所述子集中;以及
基于每个第三得分确定对所述接收的查询的预测答案。
2.根据权利要求1所述的机器阅读理解系统,其中:
所述第一处理电路包括第一神经网络;
所述第二处理电路包括信息检索系统或嵌入式信息检索系统中的一项;以及
所述第三处理电路包括第二神经网络。
3.根据权利要求1所述的机器阅读理解系统,其中所述方法还包括将所述预测答案提供给计算设备。
4.根据权利要求1所述的机器阅读理解系统,其中对于每个部分组合所述第一得分和所述第二得分的操作包括对于每个部分将所述第一得分和所述第二得分级联以产生向量。
5.一种方法,包括:
响应于接收的查询而将文档划分为多个部分,所述多个部分各自包括所述文档的一部分;
分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的第一得分;
分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的第二得分;
对于每个部分,组合所述第一得分和所述第二得分以产生最终得分;
分离地处理经处理的部分的子集中的每个部分以确定指示所述部分提供对所述查询的答案的第三得分,其中所述经处理的部分的所述子集中的每个部分基于对所述最终得分的排名被包括在所述经处理的部分的所述子集中;以及
基于每个第三得分确定对所述接收的查询的预测答案。
6.根据权利要求5所述的方法,其中对于每个部分组合所述第一得分和所述第二得分的操作包括对于每个部分将所述第一得分和所述第二得分级联以产生向量。
7.根据权利要求5所述的方法,还包括:
在组合所述第一得分和所述第二得分之前,分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的第四得分,
其中对于每个部分组合所述第一得分和所述第二得分的操作包括对于每个部分组合所述第一得分、所述第二得分和所述第四得分以产生所述最终得分。
8.根据权利要求7所述的方法,其中对于每个部分组合所述第一得分、所述第二得分和所述第四得分的操作包括对于每个部分级联所述第一得分、所述第二得分和所述第四得分以产生向量。
9.根据权利要求7所述的方法,其中:
分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的所述第一得分的操作包括由神经网络分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的所述第一得分;
分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的所述第二得分的操作包括由信息检索系统分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的所述第二得分;以及
分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的所述第四得分的操作包括由嵌入式信息检索系统分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的所述第四得分。
10.根据权利要求5所述的方法,其中分离地处理所述经处理的部分的所述子集中的每个部分以确定指示所述部分提供对所述查询的答案的所述第三得分的操作包括由神经网络分离地处理所述经处理的部分的子集中的每个部分以确定指示所述部分提供对所述查询的答案的所述第三得分。
11.一种方法,包括:
响应于接收的查询而将文档划分为多个部分,所述多个部分各自包括所述文档的一部分;
由第一处理电路分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的第一得分;
由第二处理电路分离地处理每个部分以确定指示所述部分提供对所述接收的查询的答案的第二得分;
对于每个部分,组合所述第一得分和所述第二得分以产生最终得分;
分离地处理部分的子集中的每个部分以确定部分是否提供对所述查询的答案,其中部分的所述子集中的每个部分基于对所述最终得分的排名被包括在部分的所述子集中,并且对每个部分的所述处理包括:
将部分分为句子;
将每个句子分为单词;
由第三处理电路对所述部分中的每个句子和所述接收的查询编码;
由第四处理电路处理经编码的句子以确定所述部分中与经编码的所述查询相关的一个或多个句子;
对于相关的所述一个或多个句子中的每个相关的句子,将相关的句子与所述经编码的查询比较以产生第三得分;以及
基于每个第三得分选择对所述接收的查询的预测答案。
12.根据权利要求11所述的方法,还包括:
在由所述第四处理电路处理所述经编码的句子以确定所述部分中与所述经编码的查询相关的一个或多个句子之前,将每个经编码的句子与相关性得分级联以产生级联值;并且
其中由所述第四处理电路处理所述经编码的句子以确定所述部分中与所述经编码的查询相关的一个或多个句子的操作包括由所述第四处理电路处理每个级联值以确定所述部分中与所述经编码的查询相关的一个或多个句子。
13.根据权利要求11所述的方法,还包括:
在选择所述预测答案之前,对于每个相关的句子,比较与所述相关的句子相邻的一个或多个句子;
基于所述比较确定针对所述部分的第四得分。
14.根据权利要求13所述的方法,其中基于每个第三得分选择对所述接收的查询的所述预测答案的操作包括基于每个第三得分和第四得分选择对所述接收的查询的所述预测答案。
15.根据权利要求11所述的方法,其中所述第一处理电路包括第一神经网络,所述第二处理电路包括信息检索系统或嵌入式信息检索系统中的一项,所述第三处理电路包括第二神经网络,并且所述第四处理电路包括第三神经网络。
CN201880072527.1A 2017-11-09 2018-11-02 用于回答与文档相关的查询的机器阅读理解系统 Active CN111386686B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/808,540 2017-11-09
US15/808,540 US11409749B2 (en) 2017-11-09 2017-11-09 Machine reading comprehension system for answering queries related to a document
PCT/US2018/058815 WO2019094256A1 (en) 2017-11-09 2018-11-02 Machine reading comprehension system for answering queries related to a document

Publications (2)

Publication Number Publication Date
CN111386686A true CN111386686A (zh) 2020-07-07
CN111386686B CN111386686B (zh) 2022-10-18

Family

ID=64402273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880072527.1A Active CN111386686B (zh) 2017-11-09 2018-11-02 用于回答与文档相关的查询的机器阅读理解系统

Country Status (4)

Country Link
US (3) US11409749B2 (zh)
EP (1) EP3707874A1 (zh)
CN (1) CN111386686B (zh)
WO (1) WO2019094256A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930895A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 基于mrc的文档数据检索方法、装置、设备及存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162604B (zh) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
US11151325B2 (en) * 2019-03-22 2021-10-19 Servicenow, Inc. Determining semantic similarity of texts based on sub-sections thereof
CN110516085B (zh) * 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN110619123B (zh) * 2019-09-19 2021-01-26 电子科技大学 一种机器阅读理解方法
CN110750998B (zh) * 2019-10-14 2023-10-31 腾讯科技(深圳)有限公司 一种文本输出方法、装置、计算机设备和存储介质
CN111104503A (zh) * 2019-12-24 2020-05-05 华中科技大学 一种建筑工程质量验收规范问答系统及其构建方法
CN111159359B (zh) * 2019-12-31 2023-04-21 达闼机器人股份有限公司 文档检索方法、装置及计算机可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1265209A (zh) * 1997-07-22 2000-08-30 微软公司 使用自然语言处理技术用于处理文本输入的系统
CN101089841A (zh) * 2006-06-14 2007-12-19 联想(北京)有限公司 基于知识编码的精确搜索方法和系统
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
US20100235164A1 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
CN103124980A (zh) * 2010-09-24 2013-05-29 国际商业机器公司 包括从多个文档段收集答案的提供问题答案
US20140079297A1 (en) * 2012-09-17 2014-03-20 Saied Tadayon Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities
US20140279763A1 (en) * 2013-03-18 2014-09-18 Educational Testing Service System and Method for Automated Scoring of a Summary-Writing Task
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
US20160110360A1 (en) * 2012-06-01 2016-04-21 Google Inc. Providing numerical answers to queries
US20160358094A1 (en) * 2015-06-02 2016-12-08 International Business Machines Corporation Utilizing Word Embeddings for Term Matching in Question Answering Systems
CN107257970A (zh) * 2014-12-18 2017-10-17 纽昂斯通讯公司 从结构化和非结构化数据源进行的问题回答

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5119465A (en) * 1989-06-19 1992-06-02 Digital Equipment Corporation System for selectively converting plurality of source data structures through corresponding source intermediate structures, and target intermediate structures into selected target structure
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications
US9280603B2 (en) * 2002-09-17 2016-03-08 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US20080177994A1 (en) * 2003-01-12 2008-07-24 Yaron Mayer System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
GB2405227A (en) * 2003-08-16 2005-02-23 Ibm Authenticating publication date of a document
WO2007105202A2 (en) * 2006-03-10 2007-09-20 Avraham Shpigel Automatic reusable definitions identification (rdi) method
US20080160490A1 (en) * 2006-12-29 2008-07-03 Google Inc. Seeking Answers to Questions
US7725499B1 (en) * 2007-02-01 2010-05-25 Star Ag Semantic architecture for managing information through structured storage and retrieval
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US20140142920A1 (en) 2008-08-13 2014-05-22 International Business Machines Corporation Method and apparatus for Utilizing Structural Information in Semi-Structured Documents to Generate Candidates for Question Answering Systems
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
US9424351B2 (en) * 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US20130110839A1 (en) * 2011-10-31 2013-05-02 Evan R. Kirshenbaum Constructing an analysis of a document
JP5825676B2 (ja) * 2012-02-23 2015-12-02 国立研究開発法人情報通信研究機構 ノン・ファクトイド型質問応答システム及びコンピュータプログラム
US9461876B2 (en) * 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
WO2014093935A1 (en) * 2012-12-16 2014-06-19 Cloud 9 Llc Vital text analytics system for the enhancement of requirements engineering documents and other documents
US20140181097A1 (en) * 2012-12-20 2014-06-26 Microsoft Corporation Providing organized content
US9058374B2 (en) * 2013-09-26 2015-06-16 International Business Machines Corporation Concept driven automatic section identification
GB201319856D0 (en) * 2013-11-11 2013-12-25 Univ Manchester Transforming natural language specifications of software requirements into analysis models
FR3016981A1 (fr) * 2014-01-28 2015-07-31 Deadia Procede d'analyse semantique d'un texte
US9542496B2 (en) 2014-06-04 2017-01-10 International Business Machines Corporation Effective ingesting data used for answering questions in a question and answer (QA) system
US9940367B1 (en) * 2014-08-13 2018-04-10 Google Llc Scoring candidate answer passages
US20160232441A1 (en) 2015-02-05 2016-08-11 International Business Machines Corporation Scoring type coercion for question answering
US10074200B1 (en) * 2015-04-22 2018-09-11 Amazon Technologies, Inc. Generation of imagery from descriptive text
US10282424B2 (en) * 2015-05-19 2019-05-07 Researchgate Gmbh Linking documents using citations
US10762283B2 (en) * 2015-11-20 2020-09-01 Adobe Inc. Multimedia document summarization
KR20180132713A (ko) * 2016-03-21 2018-12-12 휴먼 롱제비티 인코포레이티드 게놈, 메타볼로믹, 및 미생물 검색 엔진
US10489393B1 (en) * 2016-03-30 2019-11-26 Amazon Technologies, Inc. Quasi-semantic question answering
US11093813B2 (en) * 2016-10-20 2021-08-17 Google Llc Answer to question neural networks
US20180260474A1 (en) * 2017-03-13 2018-09-13 Arizona Board Of Regents On Behalf Of The University Of Arizona Methods for extracting and assessing information from literature documents
CN107480162B (zh) * 2017-06-15 2021-09-21 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置、设备及计算机可读存储介质
US20210004485A1 (en) * 2019-07-01 2021-01-07 International Business Machines Corporation Cognitive Iterative Minimization of Personally Identifiable Information in Electronic Documents

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1265209A (zh) * 1997-07-22 2000-08-30 微软公司 使用自然语言处理技术用于处理文本输入的系统
CN101089841A (zh) * 2006-06-14 2007-12-19 联想(北京)有限公司 基于知识编码的精确搜索方法和系统
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
US20100235164A1 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
CN102439595A (zh) * 2009-03-13 2012-05-02 发明机器公司 基于文本文档和用户问题的语义标记的问答系统和方法
CN103124980A (zh) * 2010-09-24 2013-05-29 国际商业机器公司 包括从多个文档段收集答案的提供问题答案
US20160110360A1 (en) * 2012-06-01 2016-04-21 Google Inc. Providing numerical answers to queries
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
US20140079297A1 (en) * 2012-09-17 2014-03-20 Saied Tadayon Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities
US20140279763A1 (en) * 2013-03-18 2014-09-18 Educational Testing Service System and Method for Automated Scoring of a Summary-Writing Task
CN107257970A (zh) * 2014-12-18 2017-10-17 纽昂斯通讯公司 从结构化和非结构化数据源进行的问题回答
US20160358094A1 (en) * 2015-06-02 2016-12-08 International Business Machines Corporation Utilizing Word Embeddings for Term Matching in Question Answering Systems

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930895A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 基于mrc的文档数据检索方法、装置、设备及存储介质
CN111930895B (zh) * 2020-08-14 2023-11-07 中国工商银行股份有限公司 基于mrc的文档数据检索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP3707874A1 (en) 2020-09-16
US20190138613A1 (en) 2019-05-09
US20220335051A1 (en) 2022-10-20
US20240248902A1 (en) 2024-07-25
US11899675B2 (en) 2024-02-13
CN111386686B (zh) 2022-10-18
WO2019094256A1 (en) 2019-05-16
US11409749B2 (en) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111386686B (zh) 用于回答与文档相关的查询的机器阅读理解系统
US20210134173A1 (en) Neural models for key phrase detection and question generation
US10572598B2 (en) Method and system for ranking and summarizing natural language passages
CN110168575B (zh) 用于信息检索评分的动态张量注意力
US11593613B2 (en) Conversational relevance modeling using convolutional neural network
US11157490B2 (en) Conversational virtual assistant
CN107251060B (zh) 针对序列标签器的预训练和/或迁移学习
US20180365321A1 (en) Method and system for highlighting answer phrases
CN111954864B (zh) 自动化演示控制
CN111247778A (zh) 使用web智能的对话式/多回合的问题理解
WO2018093558A1 (en) Query rewriting and interactive inquiry framework
US20140350931A1 (en) Language model trained using predicted queries from statistical machine translation
US11829374B2 (en) Document body vectorization and noise-contrastive training
WO2022072003A1 (en) Dynamic cache management in beam search
US11935010B2 (en) Intelligent subject line suggestions and reformulation
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
US11914600B2 (en) Multiple semantic hypotheses for search query intent understanding
US20190057401A1 (en) Identifying market-agnostic and market-specific search queries
WO2022119702A1 (en) Document body vectorization and noise-contrastive training
US11900926B2 (en) Dynamic expansion of acronyms in audio content
WO2022099566A1 (en) Knowledge injection model for generative commonsense reasoning
WO2019005352A1 (en) GROUPING RESEARCH RESULTS IN AN ENTERPRISE RESEARCH SYSTEM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant