CN104516942A - 概念驱动的自动分节标识 - Google Patents

概念驱动的自动分节标识 Download PDF

Info

Publication number
CN104516942A
CN104516942A CN201410483039.3A CN201410483039A CN104516942A CN 104516942 A CN104516942 A CN 104516942A CN 201410483039 A CN201410483039 A CN 201410483039A CN 104516942 A CN104516942 A CN 104516942A
Authority
CN
China
Prior art keywords
text
merogenesis
concept
document
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410483039.3A
Other languages
English (en)
Other versions
CN104516942B (zh
Inventor
P·E·布兰南
S·R·卡里尔
S·R·麦卡蒂尔
D·J·麦克洛斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104516942A publication Critical patent/CN104516942A/zh
Application granted granted Critical
Publication of CN104516942B publication Critical patent/CN104516942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Quality & Reliability (AREA)

Abstract

本发明的各实施例涉及概念驱动的自动分节标识。提供了用于生成用于电子文档的分节元数据的机制。这些机制接收文档并且分析文档以标识在文档的文本内容内存在的概念。机制使在文本内容内的概念相互相关以基于定义有关概念或者概念模式的一个或者多个规则的应用来标识概念组。机制基于在文本内容内的概念的相关性来确定在文本内容内的文本分节。基于该确定的结果,机制生成用于文档的分节元数据并且与文档关联地存储分节元数据以用于由文档处理系统使用。

Description

概念驱动的自动分节标识
技术领域
本申请总体上涉及一种改进的数据处理装置和方法,并且更具体地涉及用于概念驱动的自动分节标识的机制。
背景技术
随着计算网络(比如因特网)的使用增加,人们当前被来自各种结构化和非结构化来源的可用于他们的信息量淹没和压倒。然而,信息差距在用户试图拼凑他们可以在搜寻关于各种主题的信息期间发现他们认为相关的信息时大量存在。为了辅助这样的搜索,新近研究已经涉及生成问题和答案(QA)系统,该QA系统可以取得输入问题、分析它并且返回指示对输入问题的最可能答案的结果。QA系统提供用于搜索内容源(例如,电子文档)的大型集合的自动化机制,并且关于输入问题分析他们以确定对问题的答案和关于答案如何准确用于回答输入问题的置信度测量。
一种这样的QA系统是从纽约阿芒克的国际商业机器公司(IBM)可获得的WatsonTM系统。WatsonTM系统是高级自然语言处理、信息检索、知识表示和推理以及机器学习技术向开域问题回答领域的应用。WatsonTM系统在IBM的用于假设生成、大量证据收集、分析和打分的DeepQATM技术上被构建。DeepQATM取得输入问题、分析它、将问题分解成组成部分、基于分解的问题和答案来源的主要搜索的结果生成一个或者多个假设、基于从证据来源检索证据来执行假设和证据打分、执行一个或者多个假设的合成并且基于训练的模型执行最终合并和排行以与置信度测量一起输出对输入问题的答案。
各种美国专利申请公开文本描述了各种类型的问题和答案系统。美国专利申请公开文号2011/0125734公开了一种用于基于数据语料库生成问题和答案对的机制。该系统始于问题集合并且然后分析内容集合以提取对那些问题的答案。美国专利申请公开号2011/0066587公开了一种用于将分析的信息的报告转换成问题汇集并且确定用于问题汇集的答案是否从信息集合被回答或者反驳的机制。结果数据被并入到更新的信息模型。
由QA系统或者其它电子文档处理系统生成的结果的质量经常依赖于用于从文档提取信息的能力。为了辅助这样的电子处理,元数据经常与可以由这些电子文档处理系统解析和处理的电子文档关联。然而,与电子文档本身的内容一样,由电子文档处理系统生成的结果的质量也受在这一元数据中提供的信息的数量和质量限制。
发明内容
在一个例示性实施例中,提供了一种在包括处理器和存储器的数据处理系统中的用于生成用于电子文档的分节元数据的方法。该方法包括由数据处理系统接收用于处理的电子文档并且由数据处理系统分析电子文档以标识在电子文档的文本内容内存在的概念。该方法还包括由数据处理系统使在文本内容内的概念相互相关以基于定义有关概念或者概念模式的一个或者多个规则的应用来标识在文本内容内的概念组。此外,该方法包括由数据处理系统基于在文本内容内的概念的相关性来确定在文本内容内的至少一个文本分节。另外,该方法包括由数据处理系统基于该确定的结果生成用于电子文档的分节元数据以由此标识在电子文档中的至少一个分节。该方法还包括由数据处理系统与电子文档关联地存储分节元数据以用于由文档处理系统使用。
在其它例示性实施例中,提供了一种包括计算机可用或者可读介质的计算机程序产品,该计算机可用或者可读介质具有计算机可读程序。计算机可读程序当在数据处理系统或者计算设备上被执行时,使数据处理系统或者计算设备执行以上关于方法例示性实施例概述的操作中的各种操作和组合。
在又一例示性实施例中,提供了一种系统/装置。该系统/装置可以包括一个或者多个处理器和耦合到一个或者多个处理器的存储器。存储器可以包括指令,这些指令在由一个或者多个处理器执行时,使一个或者多个处理器执行以上关于方法例示性实施例概述的操作中的各种操作和组合。
本发明的这些和其它特征以及优点将在本发明的示例实施例的以下具体描述中被描述或者按照以下具体描述将变得为本领域普通技术人员所清楚。
附图说明
将通过参照在结合附图阅读时的例示性实施例的以下具体描述来最好地理解本发明及其优选使用方式和更多目的及优点,其中:
图1描绘了计算机网络中的问题和答案(QA)系统的一个例示性实施例的示意图;
图2描绘了图1的QA系统的一个实施例的示意图;
图3描绘了根据一个例示性实施例的问题和答案系统分析流水线的示例框图;
图4是图示了可以基于结构标注将文本的一部分分离成分节的方式的示例示图;
图5是图示了根据一个例示性实施例的使用概念标注以标识文档的分节的示例示图;
图6是图示了使用一个例示性实施例的机制被标识的所得文本分节的示例示图;
图7是根据一个例示性实施例的分节文本/标题相关性机制的示例框图;以及
图8是概述了根据一个例示性实施例的用于生成用于文档的分节标题/分节文本元数据的示例操作的示例流程图。
具体实施方式
文本中的分节标识是在现代非结构化信息处理中的重要考虑。任务(比如信息检索和提取、文本推荐以及问题回答)都可以从子文档文本段落的语义分类的更深入认知中大量受益。可以通过利用从标识相互具有仿射性(affinity)的不同语义内容部分而获得的信息来极大增强这样的语义分类。标识这样的仿射性可以包括提供用于提供有意义的有关文本(尤其是自然语言文本)的邻接部分的高度地准确标识的机制。在一个例示性实施例中,标识这样的仿射性可以包括使分节文本与分节标题和/或预定义的语义类别/主题内容相关。在一些例示性实施例中,可以在用于对有关实体进行聚类的个别概念之间确定仿射性。另外,可以在概念聚类集合之间确定仿射性以辅助区分无关文本段落。
应当领会到,术语“概念”如它在本说明书中所用是指可以在描述具体话题的文本中更多经常或者更少经常出现的预定义语义类别。语义概念可以例如是从在医疗情境中的患者或者药物到在保险索赔文档中的汽车零件和损坏描述等的任何概念。类别或者话题的任何潜在语义定义被视为在术语“概念”的范围内。
例示性实施例提供了如下机制,这些机制结合预定义知识库利用这些概念的统计分析,由此利用这里被称为“概念密度”和“概念仿射性”的方面以便将文档准确地分割成不同分节或者有关部分。术语“概念密度”是指概念类型在文本内容部分内的出现频率。术语“概念仿射性”是指某个概念类型和潜在文本分节或者邻接部分接近地有关的程度。
例示性实施例可以用来优化涉及信息提取并且将从文本内容(尤其是自然语言文本内容)的命名的实体识别和知识提取任务关联的任何系统的操作。这样的系统可以包括文本搜索系统和问题回答系统以及任何其它类型的如下系统,这些系统对文本内容执行操作并且这些系统的操作可以通过将文本内容分割成概念上有关的内容的组(即概念组)被改进。
出于以下描述的目的,将假设系统是问题和答案(QA)系统,比如从纽约阿芒克的国际商业机器公司(IBM)可获得的WatsonTMQA系统,然而,应当领会到,例示性实施例并不限于此,并且对文本内容操作的任何系统可以与例示性实施例的机制一起被使用而未脱离例示性实施例的精神和范围。此外,应当注意,尽管以下描述将主要聚焦于相互关联邻接文本部分以及关联邻接文本部分与分节头部,但是例示性实施例并不限于此并且事实上可以标识有关文本部分而无论分节头部存在或者不存在。例如,当在文本内容中没有明显分节标题时,仍然可以由于如下文描述的概念组仿射性差异而用例示性实施例检测主题/话题的改变。例如,描述药物和各种癌症类型的文本部分将包含特定语义概念,而关于动物园的文本将包含对动物和自然栖息地的引用等,这些引用是与描述药物和癌症类型的文本部分不同的语义概念。这样的概念分组的改变由例示性实施例的机制标识并且用来标识有关文本部分,无论这些文本部分是否具有关联分节头部。在一些情况下,可以基于在文本部分中标识的概念推断分节头部。
通过将有关概念一起分组成概念组,例示性实施例的机制可以即使在相同邻接文本部分内仍然在与这些概念组关联的文本部分之间区分以便将文本部分拆分成无任何结构线索的分离分节。可以使用现有知识库来识别在文本内容内的这些概念分组或者聚类,并且可以在用于内容部分(例如,文档等)的输出元数据中向各种所得文本分节指派标签。此外,作为在内容部分内标识的概念的分组或者聚类的结果,这也标识内容部分的不是分组/聚类的部分并且因此无关的那些片段,这可以类似地有助于辅助比如文本搜索系统、QA系统或者其它信息提取系统的文本内容处理。
在一个例示性实施例中,例示性实施例的机制可以用来基于标识相关特征在其中出现的分节来提高用于在问题和答案(QA)系统中的答案文本的相关度分数。例如,在对患者具体数据操作的QA系统中,在患者的医疗记录中的“患者病史(History of PresentIllness)”分节中的医疗状况X的论述应当比在患者的主要地涉及描述医疗程序的记录或者另一医疗文档的分节中的该医疗状况的论述被更高地打分。
一种用于标识在内容(例如,文档或者其它文本部分)中的文本分节的方式是标识在正被处理的内容中的分节标题并且将在内容中的文本与标识的分节标题关联。可以用许多方式完成分节标题的标识,这些方式包括将分节标题标识为跟随有行间断的包含单个字词或者小于预定字词阈值数目的少量字词的句子。向这一句子追加的冒号字符或者其它特殊字符被视为用于指示字词或者短语是分节标题的附加证据。紧接地跟随标识的分节标题的文本段落然后被理解为有关文本正文。用于标识分节头部和对应文本的其它更复杂的尝试可以使用基于已知分节标题关键词和格式化字符的统计方法或者模式规则。
然而,主要挑战存在于确定与特定分节标题关联的文本(即有关分节文本)的边界。一种方式是将有关分节文本标识为紧接在分节头部之后出现并且继续直至遇到段落的末尾或者直至在内容的文本中遇到下一分节头部的文本。这样的方式经常误表示分节内容的主题内容,因为可能有在分节头部之间出现的单个文本段落或者部分内的若干主题具体内容集合。另外,在其中假设有关文本紧接在分节头部之后并且继续直至遇到新分节头部的方式中,困难可能当在文档中没有其它分节头部时出现。因此,后续文本段落或者部分可能不具有指向最新近分节头部的显式语义链接。另外,在一些情况下,分节可能以单行、字符等作为结束,这使该文本部分在它不旨在于是分节头部时表现为另一分节头部。
这里描述的例示性实施例提供了一种对以上问题的解决方案,该解决方案操作以仅如果存在指向特定分节头部(或者分节标题)的语义链接才链接在该分节头部之后的文本。例如,在医疗领域中,逻辑观测标识符名称和代码(LOINC)用来标识在患者的医疗历史记录文档中的特定分节。这些可以对保证准确自动化分析患者的病例或者确定适当治疗是关键的。确定将应用于分节的最适当LOINC代码可能在没有来自文档的结构或者格式中的分节定界符的明显指示时有困难。在这样的情况下,必须对于与特定分节类型有关的命名的实体分析文本本身的内容。存在其中这些命名的实体可以被视为指示特定分节或者LOINC代码的许多方式。这一点的示例是这些命名的实体或者这样的实体的排序的聚类在文本中出现的顺序。
例示性实施例利用基于概念相互语义交互的概念仿射性。这样的概念仿射性可以是在文本内容中的标识的概念与提出的分节标题或者语义类别/主题内容之间的仿射性、在用于对有关实体进行聚类的个别概念之间的仿射性、在概念聚类集合之间的仿射性以由此区分有关和无关文本部分等。在一些情况下,在内容部分的结构元素的情境内标识概念仿射性,其中内容部分可以是以文档、文本部分、网页、扫描输入文档等(下文统一地被简称为“文档”)的形式。
例示性实施例利用如下观念(notion),该观念为文档分节(包括标题)往往包含关于被交互和强有关概念集合描述的话题的讨论。例如,“药理(medication)”分节将几乎确定地包含提及类型“药物(Drug)”的概念,并且当在标题“药理”之后的分节中给出类型“药物”的提及时,很可能的是也将在组成该分节的句子中提及类型“剂量(Dosage)”、“途径(route)”、“频率(Frequency)”和“不良药物反应(AdverseDrugReaction)”的概念。无论分节标题是否存在,链接的概念或者话题组经常指示在文档中的分节。例示性实施例利用这样的特征以对文档的部分进行打分以便确定分节边界并且如果对应分节标题存在则将这些分节与这样的分节标题关联或者在一些例示性实施例中与提出的分节标题关联。
利用例示性实施例的机制,在处理文档时,基于话题/概念分组和打分方法标识文档的所有潜在分节。可以应用潜在分节的标识和打分方法以用于在每个粒度水平(例如,字词、句子、段落等)确定分节的相互仿射性和分节与现有或者提出(推断)的分节头部(基于语义内容概念分组或者聚类的结果被生成)的仿射性。计算每个分节与实际或者推断的分节头部的仿射性和分节的相互仿射性。重叠分节是可能的,并且最终分节指派和选择是基于选择最高打分的分节标题/分节文本以及以非重叠方式覆盖文档的分节文本/分节文本对。
因此,例示性实施例的机制并未依赖于结构定界符(比如段落间断、特殊字符等)以相互链接文本分节或者链接文本分节与实际或者推断的对应分节头部。恰好相反,例示性实施例的机制分析内容文本以基于本体论、语义网络和其它知识库标识在分节文本内的概念和任何实际或者推断的分节头部并且然后使分节文本相互相关和使分节文本与推断或者以其它方式的分节标题相关以便生成元数据(例如,标注),这些元数据相互链接文本分节和/或链接文本分节与对应实际或者推断的分节头部、一般语义类别等。相关性基于概念组或者聚类的有关度,该有关度给出语义仿射性的强指示符。例示性实施例的打分机制提供一种可以量化和使用这样的仿射性作为用于选择分节指派的基础的方式,这些分节指派用于标注文档以用于与分析机制(比如自然语言处理(NLP)系统、问题和答案(QA)系统等)一起使用。
下文将参照附图更具体描述本发明的例示性实施例的以上方面和优点。应当领会到,附图仅旨在于例示本发明的示例性实施例。本发明可以涵盖未在图中被显式地示出的方面、实施例和对描绘的示例性实施例的修改,但是将按照例示性实施例的本说明书而容易为本领域普通技术人员所清楚。
所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在任何一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可用的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置、器件或者任意以上的组合。计算机可读存储介质的更具体的示例(非穷举的列表)包括:具有存储能力的电子设备、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、基于光纤的设备、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
在一些例示性实施例中,计算机可读介质为非瞬态计算机可读介质。非瞬态计算机可读介质是任何如下介质,该介质不是无实体的信号或者传播波,即本身为纯信号或者传播波。非瞬态计算机可读介质可以利用信号和传播波,但是本身不是信号或者传播波。因此,例如,以如比如任何方式利用信号以维持它们的状态的各种形式的存储器设备和其它类型的系统、设备或者装置可以在本说明书的范围内被视为非瞬态计算机可读介质。
在另一方面,计算机可读的信号介质可以包括在基带中或者作为载波的一部分传播的数据信号,其中体现了计算机可读程序代码。这种传播的信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以传达、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。类似地,计算机可读存储介质是计算机可读信号介质以外的任何计算机可读介质。
计算机可读介质上包含的计算机代码可以使用任何适当的介质传输,包括——但不限于——无线、有线、光缆、射频(RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如JavaTM、SmalltalkTM、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明示例实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
因此,可以在许多不同类型的数据处理环境中利用例示性实施例。例示性实施例的机制尤其良好适合用于辅助处理包括文本的内容部分,比如文档、网页、文档部分、段落等。这样,例示性实施例的机制可以辅助自然语言处理(NLP)系统、问题和答案(QA)系统或者基于文本分节与分节标题的相关性处理文本内容的任何其它系统的文档处理。出于以下描述的目的并且仅作为非限制示例,将关于利用在信息语料库中的标注的文档以生成用于输入问题的候选答案的问题和答案(QA)系统描述例示性实施例。应当领会到,这仅为示例并且并未旨在于陈述或者暗示关于例示性实施例的机制可以与之一起利用或者集成的文本内容处理系统类型的任何限制。执行用于信息提取、实体识别等的操作的其它类型的文本内容处理系统可以与例示性实施例的机制一起使用而未脱离例示性实施例的精神和范围。
鉴于上文,图1-图3涉及描述可以用来实施例示性实施例的机制的示例问题/答案、问题和答案或者问题回答(QA)系统、方法和计算机程序产品。如下文将更具体讨论的那样,例示性实施例可以被集成于这些QA机制中并且可以关于标注文档或者文档部分来扩充和扩展这些QA机制的功能以便辅助QA系统处理这些文档或者文档部分。具体而言,例示性实施例的机制生成用于使文本分节与分节标题相关的标注,这些标注然后可以被QA系统用来标识对输入问题的候选答案。
由于这里提供的用于例示例示性实施例的机制的示例涉及QA系统实现方式,所以重要的是在描述例示性实施例的机制如何被集成于QA系统中并且扩充这样的QA系统之前先有对如何可以实施在这样的QA系统中的问题和答案创建的理解。应当领会到,在图1-图3中描述的QA机制仅为示例而并未旨在于陈述或者暗示关于可以用来实施例示性实施例的QA机制的类型的任何限制。可以在本发明的各种实施例中实施对在图1-图3中所示的示例QA系统的许多修改而未脱离本发明的精神和范围。
QA机制通过从数据或者信息语料库(也被称为内容语料库)访问信息、分析它并且然后基于这一数据的分析生成答案结果来操作。从数据语料库访问信息通常包括:数据库查询和搜索,该数据库查询回答关于什么信息在结构化记录汇集中的问题,该搜索响应于对于非结构化数据(文本、标记语言等)汇集的查询来递送文档链接汇集。常规问题回答系统能够基于数据语料库和输入问题生成答案、验证对用于数据语料库的问题汇集的答案、使用数据语料库来纠正在数字文本中的错误并且从潜在答案(即候选答案)的池选择对问题的答案。
内容创建者(比如文章作者、电子文档创建者、网页作者、文档数据库创建者等)可以在编写他们的内容之前确定用于在这样的内容中描述的产品、解决方案和服务的使用情况。因而,内容创建者可以知道内容旨在于回答在由内容解决的特定话题中的什么问题。在数据语料库的每个文档中比如按照与问题关联的作用、信息类型、任务等对问题进行分类可以允许QA系统更快速和高效地标识包含与具体查询有关的内容的文档。内容也可以回答内容创建者未设想的可以对内容用户有用的其它问题。问题和答案可以被内容创建者验证以被包含于用于给定的文档的内容中。这些能力贡献于QA系统的提高的准确性、系统性能、机器学习和置信度。内容创建者、自动化工具等可以标注或者以其它方式生成用于提供信息的元数据,该信息可被QA系统用来标识内容的这些问题和答案属性。
对这样的内容操作,QA系统使用多个密集分析机制来生成用于输入问题的答案,这些分析机制评估内容以标识用于输入问题的最可能答案、即候选答案。例示性实施例利用QA系统已经完成的工作以减少用于后续处理与QA系统已经处理的问题相似的问题的计算时间和资源成本。
图1描绘了在计算机网络102中的问题和答案创建(QA)系统100的一个例示性实施例的示意图。在通过完全引用而结合于此的美国专利申请公开号2011/0125734中描述了可以结合这里描述的原理使用的问题和答案生成的一个示例。QA系统100可以在连接到计算机网络102的一个或者多个计算设备104(包括一个或者多个处理器和一个或者多个存储器并且潜在地包括在本领域中一般已知的任何其它计算设备单元,包括总线、存储设备、通信接口等)上被实施。网络102可以包括经由一个或者多个有线和/或无线数据通信链路相互通信和与其它设备或者部件通信的多个计算设备104,其中每个通信链路可以包括有线、路由器、交换机、发射器、接收器等中的一项或者多项。QA系统100和网络102可以经由一个或者多个QA系统用户的相应计算设备110-112为他们实现问题/答案(QA)生成功能。QA系统100的其它实施例可以与除了这里描绘的部件、系统、子系统和/或设备之外的部件、系统、子系统和/或设备一起使用。
QA系统100可以被配置为实施从各种来源接收输入的QA系统流水线108。例如,QA系统100可以从网络102、电子文档语料库106、QA系统用户或者其它数据和其它可能输入来源接收输入。在一个实施例中,可以通过网络102路由向QA系统100的输入中的一些或者所有输入。在网络102上的各种计算设备104可以包括用于内容创建者和QA系统用户的接入点。计算设备104中的一些计算设备可以包括用于数据库的设备,该数据库存储数据语料库106(仅出于例示性目的而在图1中被示出为分离实体)。也可以在一个或者多个其它网络附着存储设备上、在一个或者多个数据库中或者未在图1中明示的其它计算设备提供数据语料库106的部分。网络102可以在各种实施例中包括本地网络连接和远程连接,从而使得QA系统100可以在任何大小(包括本地和全局,例如,因特网)的环境中操作。
在一个实施例中,内容创建者创建在数据语料库106的文档中的内容以用于作为数据语料库的部分与QA系统100一起使用。文档可以包括用于在QA系统100中使用的任何文件、文本、文章或者数据源。QA系统用户可以经由与网络102的网络连接或者因特网连接访问QA系统100并且可以向QA系统100输入可以由在数据语料库106中的内容回答的问题。在一个实施例中,可以使用自然语言来形成问题。QA系统100可以解释问题并且向QA系统用户(例如,QA系统用户110)提供包含对问题的一个或者多个答案的响应。在一些实施例中,QA系统100可以在候选答案的排行的列表中向用户提供响应。
QA系统100实施包括用于处理输入问题、数据语料库106并且基于语料库数据106的处理来生成用于输入问题的答案的多个级的QA系统流水线108。下文将关于图3更具体地描述QA系统流水线108。
在一些例示性实施例中,QA系统100可以是用下文描述的例示性实施例的机制扩充的从纽约阿芒克的国际商业机器公司(IBM)可获得的WatsonTM QA系统。WatsonTM QA系统可以接收输入问题,它然后解析该输入问题以提取问题的主要特征,这些主要特征然后转而用来制定应用于数据语料库的查询。基于查询应用于数据语料库,通过在数据语料库中寻找数据语料库的如下部分来生成假设或者对输入问题的候选答案的集合,这些部分具有用于包含对输入问题的有价值响应的一些可能性。
WatsonTM QA系统然后使用多种推理算法对输入问题的语言和数据语料库的在应用查询期间发现的部分中的每个部分中使用的语言执行深入分析。可以有应用的数百或者甚至数千个推理算法,这些推理算法中的每个推理算法执行不同分析,例如,比较并且生成分数。例如一,些推理算法可以着眼于匹配在输入问题的语言内的词项和同义词与数据语料库的发现的部分。其它推理算法可以着眼于在语言中的时间或者空间特征,而其它推理算法可以评估数据语料库的部分的来源并且评估它的真实性。
从各种推理算法获得的分数基于该推理算法的具体聚焦领域指示潜在响应被输入问题推断的程度。每个所得分数然后按照统计模型被加权。统计模型捕获推理算法在WatsonTM QA系统的训练时段期间建立在用于特定域的两个相似段落之间的推断时表现多么好。统计模型然后可以用来概括WatsonTM QA系统关于潜在响应(即候选答案)被问题推断的置信度而具有的置信度水平。可以对于候选答案中的每个候选答案重复这一过程直至WatsonTM QA系统标识明显比其它候选答案显著地更强的候选答案并且因此生成用于输入问题的最终答案或者排行的答案集合。可以例如从IBM公司网站IBMRedbooks等获得关于WatsonTM QA系统的更多信息。例如,可以在Yuan等人的“Watson and Healthcare,”IBM developerWorks,2011和Rob High的“The Era of Cognitive Systems:An Inside Look at IBMWatson and How it Works”IBM Redbooks,2012中发现关于WatsonTMQA系统的信息。
图2是其中可以实施例示性实施例的方面的示例数据处理系统的框图。数据处理系统200是实施用于本发明的例示性实施例的过程的计算机可用代码或者指令可以位于其中的计算机(比如图1中的服务器104或者客户端110)的示例。在一个例示性实施例中,图2代表服务器计算设备(比如服务器104),该服务器计算设备实施被扩充为包括下文描述的例示性实施例的附加机制的QA系统100和QA系统流水线108。
在描绘的示例中,数据处理系统200运用集线器架构,该集线器架构包括北桥和存储器控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理单元206、主存储器208和图形处理器210连接到NB/MCH 202。图形处理器210可以通过加速图形端口(AGP)连接到NB/MCH 202。
在描绘的示例中,局域网(LAN)适配器212连接到SB/ICH 204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、硬盘驱动(HDD)226、CD-ROM驱动230、通用串行总线(USB)端口和其它通信端口232以及PCI/PCIe设备234通过总线238和总线240连接到SB/ICH 204。PCI/PCIe设备可以例如包括以太网适配器、附件卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器而PCIe未使用。ROM 224可以例如是快闪基本输入/输出系统(BIOS)。
HDD 226和CD-ROM驱动230通过总线240连接到SB/ICH 204。HDD 226和CD-ROM驱动230可以例如使用集成驱动电子装置(IDE)或者串行高级技术附着(SATA)接口。超I/O(SIO)设备236可以连接到SB/ICH 204。
操作系统在处理单元206上运行。操作系统协调在图2中的数据处理系统200内的各种部件并且提供这些部件的控制。作为客户端,操作系统可以是可商购的操作系统,比如Windows面向对象编程语言(比如JavaTM编程系统)可以结合操作系统运行并且提供从在数据处理系统200上执行的JavaTM程序或者应用对操作系统的调用。
作为服务器,数据处理系统200可以例如是运行高级交互执行体操作系统或者操作系统的eServerTM System计算机系统。数据处理系统200可以是包括处理单元206中的多个处理器的对称多处理器(SMP)系统。备选地,可以运用单处理器系统。
用于操作系统、面向对象的编程系统和应用或者程序的指令位于存储设备(比如HDD 226)上并且可以被加载到主存储器208中以用于由处理单元206执行。应当领会到,尽管这里使用面向对象的编程系统作为示例,但是数据处理系统200可以运用任何编程语言、包括说明性、面向对象、过程或者适合用于特定实现方式的任何其它类型的编程语言。用于本发明的例示性实施例的过程可以例如使用可以位于存储器(如比如主存储器208、ROM 224)中或者一个或者多个外围设备226和230中的计算机可用程序代码由处理单元206执行。
总线系统(比如如在图2中所示的总线238或者总线240)可以由一个或者多个总线组成。当然,总线系统可以使用提供在附着到结构或者架构的不同部件或者设备之间的数据传送的任何类型的通信结构或者架构来实施。通信单元(比如图2的调制解调器222或者网络适配器212)可以包括用来发射和接收数据的一个或者多个设备。存储器可以例如是主存储器208、ROM 224或者比如在图2中的NB/MCH 202中发现的高速缓存。
本领域普通技术人员将领会到,在图1和图2中描绘的硬件可以取决于实现方式而变化。除了在图1和图2中描绘的硬件之外或者取代该硬件还可以使用其它内部硬件或者外围设备,比如闪存、等效非易失性存储器或者光盘驱动等。例示性实施例的过程也可以应用于除了先前提到的SMP系统之外的多处理器数据处理系统而未脱离本发明的精神和范围。
另外,数据处理系统200可以采用包括客户端计算设备、服务器计算设备、平板计算机、膝上型计算机、电话或者其它通信设备、个人数字助理(PDA)等的多个不同数据处理系统中的任何数据处理系统的形式。在一些例示性示例中,数据处理系统200可以例如是配置有闪存以提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器的便携计算设备。实质上,数据处理系统200可以是无架构限制的任何已知或者以后开发的数据处理系统。
图3图示了根据一个例示性实施例的用于处理输入问题的QA系统流水线。图3的QA系统流水线可以例如被实施为图1中的QA系统100的QA系统流水线108。应当领会到在图3中所示的QA系统流水线的级可以被实施为配置有逻辑的一个或者多个软件引擎、部件等,该逻辑用于实施归于该特定级的功能。可以使用这样的软件引擎、部件等中的一项或者多项来实施每级。软件引擎、部件等可以在一个或者多个数据处理系统或者设备的一个或者多个处理器上被执行并且可以在数据处理系统中的一个或者多个数据处理系统上利用在一个或者多个数据存储设备、存储器等中存储的数据或者对该数据操作。可以例如在这些级中的一个或者多个级中扩充图3的QA系统流水线以实施下文描述的例示性实施例的改进的机制,可以提供附加级以实施改进的机制,或者可以提供从流水线300分离的逻辑以用于与流水线300对接并且实施例示性实施例的改进的功能和操作。
如在图3中所示,QA系统流水线300包括多个级310-380,QA系统通过这些级操作以分析输入问题并且生成最终响应。在初始问题输入级310中,QA系统接收在自然语言格式中呈现的输入问题。也就是说,用户可以经由用户接口输入用户希望获得答案的输入问题,例如,“谁在是华盛顿的最近顾问?(Who are Washington’s closestadvisors?)”响应于接收输入问题,QA系统流水线500的下一级(即问题和话题分析级320)使用自然语言处理(NLP)技术来解析输入问题以从输入问题提取主要特征、根据类型(例如,姓名、日期或者多个其它定义的话题中的任何话题)对主要特征进行分类。例如,在以上示例问题中,词项“谁(who)”可以与用于“人(persons)”的话题关联,该话题指示正在寻求人的身份,“华盛顿(Washington)”可以被标识为问题与之关联的人的恰当姓名,“最近(closest)”可以被标识为指示邻近或者关系的字词,并且“顾问(advisors)”可以指示名词或者其它语言话题。
标识的主要特征然后可以在问题分解级330期间用来将问题分解成可以应用于数据/信息语料库345以便生成一个或者多个假设的一个或者多个查询。可以用任何已知或者以后开发的查询语言(比如结构查询语言(SQL)等)生成查询。查询可以应用于一个或者多个数据库,该一个或者多个数据库存储关于组成数据/信息语料库345的电子文本、文档、文章、网站等的信息。也就是说,这些各种来源本身、来源汇集等可以代表在语料库345内的不同语料库347。可以有取决于特定实现方式基于各种标准为不同文档汇集定义的不同语料库347。例如,可以为不同话题、主题内容类别、信息来源等建立不同语料库。作为一个示例,第一语料库可以与保健文档关联,而第二语料库可以与金融文档管理。备选地,一个语料库可以是由美国能源部公布的文档,而另一语料库可以是IBM Redbooks文档。具有某个相似属性的内容的任何汇集可以被视为在语料库345内的语料库347。
查询可以应用于一个或者多个数据库,该一个或者多个数据库存储关于组成数据/信息语料库(例如,图1中的数据语料库106)的电子文本、文档、文章、网站等的信息。查询在假设生成级340应用于数据/信息语料库以生成结果,这些结果标识可以评估的用于回答输入问题的潜在假设。也就是说,应用查询产生提取数据/信息语料库的与特定查询的标准匹配的部分。语料库的这些部分然后可以在假设生成340期间被分析和用来生成用于回答输入问题的假设。这些假设这里也被称为用于输入问题的“候选答案(candidateanswers)”。对于任何输入问题,在这一级340,可以有可能需要被评估的数百个假设或者候选答案。
QA系统流水线300在级350中然后执行输入问题的语言和每个假设或者“候选答案”的语言的深入分析和比较并且执行证据打分以评估特定假设是用于输入问题的正确答案的可能性。如以上提到的那样,这可以涉及到使用多个推理算法,每个推理算法执行输入问题的语言和/或语料库的内容的分离类型的分析,该分析提供支持或者不支持假设的证据。每个推理算法基于它执行的分析来生成分数,该分数指示通过应用查询而提取的数据/信息语料库的个别部分的相关度测量以及对应假设的正确性的测量,即假设的置信度测量。
在合成级360中,可以将由各种推理算法生成的大量相关度分数合成为用于各种假设的置信度分数。这一过程可以涉及到将权值应用于各种分数,其中已经如下文描述的那样通过训练由QA系统运用的统计模型来确定和/或动态地更新了权值。可以根据通过训练QA系统而生成的统计模型处理加权的分数,该统计模型标识可以用来组合这些分数以生成用于个别假设或者候选答案的置信度分数或者测量的方式。这一置信度分数或者测量概括QA系统关于候选答案被输入问题推断(即候选答案是用于输入问题的正确答案)的证据而具有的置信度水平。
所得置信度分数或者测量被最终置信度合并和排行级370处理,该最终置信度合并和排行级370可以比较置信度分数和测量、比较它们与预定阈值或者对置信度分数执行任何其它分析以确定哪些假设/候选答案最可能是对输入问题的答案。可以根据这些比较对假设/候选答案进行排行以生成假设/候选答案(下文简称为“候选答案”)的排行的列表。根据候选答案的排行的列表,在级380可以生成并且向原有输入问题的提交者输出最终答案和置信度分数或者候选答案和置信度分数的最终集合。
如在图3中所示并且如以上描述的那样,假设生成级340涉及到将一个或者多个查询应用于可以包括文本文档或者文档部分和关联元数据的数据(或者信息)语料库。根据例示性实施例的机制,这一元数据可以包括用于文档的包括结构和概念标注的标注。标注辅助假设生成级340通过提供可以用来标识在文档或者文档部分中的文本分节与分节标题的关联的附加信息来生成对输入问题的候选答案。文本分节与分节标题的关联可以在与文档关联的元数据中被代码化,并且这样的关联可以类似地在例如通过基于在其中发现候选答案的分节修改用于在文档内的段落或者用于作为整体的文档的分数来生成候选答案时被假设生成级340使用。
也就是说,根据例示性实施例,提供用于创建用于在分析文本内容的部分(例如,文档、文档部分、网页等)、将结构和概念标注的模式应用于内容部分以标识这样的模式是否存在、基于模式的应用对内容部分进行打分以便得出在分节文本之间和在文本分节与分节标题之间的相关性以及使用外部情境作为输入以用于执行分节去歧义和增强时使用的结构和概念标注的分节文本/标题相关性机制390。下文将更具体描述分节文本/标题相关性机制390执行的这些操作中的每个操作。
用结构和概念标注二者标注将被分节的内容部分,这里为了简化称之为文档。尽管这一例示了具有结构标注的文档,但是同样应当领会到,例示性实施例并不需要这样的结构标注并且可以使用先前定义的知识资源完全基于在文档本身的内容内的概念的标识来操作。在提供结构标注的情况下,除了概念标识和标注之外还可以使用这些结构标注以标识文本分节、在文本部分之间的仿射性、文本与概念的仿射性和文本分节与实际或者推断的分节标题的仿射性。
在描绘的示例中,结构标注类型可以包括比如段落间断、跟随有冒号的文本或者其它类型的如下标注这样的结构标注类型,这些标注表示内容的部分的结构、格式或者其它形式标识。这些结构标注通过应用结构或者格式化规则在内容部分中由分节文本/标题相关性机制390标识,这些规则被程序员显式地编码或者使用标准机器学习技术从采样信息语料库被学习。这样的结构标注在本领域中一般是已知的并且可以被自动地或者人工地录入到文档或者文档的元数据中,例如,字处理器等经常在用户在创建文档时使用某些键击时向文档编码中插入结构标注,或者用于生成网页的标记语言或者工具经常插入用于表示文档的结构方面的标签和其它结构元数据。因此,结构标注可以已经在文档内或者作为与文档关联的元数据的部分存在,并且可以未必被分节文本/标题相关性机制390本身插入或者添加,但是这在一些例示性实施例中也有可能。
在另一方面,概念标注(例如,命名的实体、语义和词汇关系等)基于一个或者多个输入本体论,即,知识被形式表示为在域内的概念集合和在概念对之间的关系以由此对域进行建模。这些本体论可以包括依赖于或者独立于关键字域的本体论,比如基础解剖模型(FMA)(描述医疗域的域词汇表并且具体为人体的所有部分和功能系统的本体论)、WordNet等、衍生的语义网络(链接的有关词项、事实和概念的网络)和/或基于有代表性的文档语料库对这些本体论和语义网络的人工或者计算的扩展。
例如,衍生的语义网络可以包括将特定文本部分与在本体论中的特定概念关联,例如,通过识别“费利克斯(Felix)”是概念“猫(cat)”的实例,也可以推断费利克斯具有用于捕鼠的四条腿、尾巴等,即使文本本身可能未论述这些事实。对于在文档或者文档语料库中的整个文本正文执行这样的关联可以产生使用下层本体论作为在文本中的实例之间的结构链接而构建的语义网络。
在另一示例中,衍生的语义网络可以包括通过解析自然语义文本来学习尚未在现有知识资源中存储的新事实。例如,在文本“费利克斯猫在战斗中并且仅有三条腿(Felix the cat was in a fight and hasonly three legs)”中,可以推断若干新事实,这些新事实包括(1)猫可能在战斗中,以及(2)猫可能具有三条腿而不是仅四条腿。这一信息可以被存储为衍生的语义网络的部分。可以从解析文本和确定在词项、事实、概念等之间的关系构建其它类型的语义网络。
因此,在处理文档语料库时,可以标识词项的模式,这些模式指示在这些词项之间的关系,并且这一信息可以用来扩充已经建立的本体论和语义网络(例如,词项“头痛(headache)”和“头部疼痛(pain in the head)”经常在语料库中的文档中被可互换地或者一起使用并且因此可以在语义网络中被链接)。
例如,在“医疗(Medical)”域内,用于医疗域的本体论可以将概念(比如“疾病(Disease)”、“药物(Drug)”和“治疗(Treatment)”等)链接在一起作为有关概念。在用于医疗域的语义网络中,可以将词项“头痛”、“头部疼痛”和“头疼(cephalgia)”链接在一起,从而使得它们都映射到相同概念并且因此被视为语义上等效,即同义词。相似地,荷尔蒙实例(比如“T3”和“T4”)可以二者在用于医疗域的本体论/语义网络中被识别为甲状腺荷尔蒙,但是它们不是相同实体,而是基于它们在本体论中的联结而被识别为接近地有关。应当领会到,尽管同义词的示例将贯穿本说明书用作在通过使用语义网络和本体论而可识别的词项之间的联结的示例,但是例示性实施例不限于此,并且任何语义关系可以由语义网络和本体论代表。
因此,本体论、语义网络和用于具体或者通用域的其它知识库可以用来用概念标注来标注文档。例如,用于域的语义网络可以用来识别在文档中的词项并且使那些词项与概念有关,该概念然后可以与域具体本体论一起用来标识对应有关概念集合并且由此标识文档的与这些有关概念对应的其它部分。
作为一个示例,文档可以在文档的一个部分中包括词项“头疼”而在另一部分中包括词项“醋氨酚(acetaminophen)”。语义网络和本体论可以将词项“头痛”识别为“症状(symptom)”或者“生病(illness)”或者其它相似概念而将词项“醋氨酚”识别为“药物”。另外,文档也可以在文档的另一部分内包括词项“头部疼痛”,语义网络可以将该词项标识为与词项“头痛”语义上有关,例如,“头痛”的同义词。因此,以这一方式,文档的部分可以相互概念上有关为涉及相似概念(头痛和头部疼痛)以及本体上有关概念(头痛/头部疼痛与药物醋氨酚)。以这一方式,可以标识在文档内的概念模式,并且由此可以标识具有有关概念的有关文本分节。另外,组合这一点与结构标注,结构和概念标注的模式可以用来标识有关文本的分节及其关联概念分组/聚类以及实际和/或推断的分节标题和结构模式。
也就是说,根据例示性实施例,可以使用结构和/或概念标注作为用于定义多维模式的基础,这些多维模式用于标识在文档内的候选分节和/或候选实际或者推断的分节标题。在一个例示性实施例中,这些模式包括结构标注,这些结构标注标识在分节标题中预计的格式化或者其它结构元素(例如,分节间断、单行、特殊字符等)以及在分节标题内的概念标注之间的关系。这些分节标题模式可以由用户从用户已知的域分节定义被显式地指定、使用机器学习技术从采样语料库被学习或者可以使用用户指定的技术和自动学习技术的组合来被定义。这样的分节标题模式的示例包括:
<单行><分节间断空白>(<分节或者字段候选><冒号——或者其它分节结束标点>)
<单行><单实体>(例如,<人名><空白>)+<分节间断空白>
<单行><分节间断空白><分节或者字段候选><冒号><包含<概念A>、<概念B>、<概念C>中的至少一个的段落>
<单行><冒号>?<包含概念E的段落><包含概念F的段落><分节间断空白>
模式可以应用于在文档中的文本以标识文本的部分,这些部分很可能是实际分节标题。自然语言处理(NLP)技术还可以与这些模式一起用来确定文本部分是否与指定的模式匹配,例如,NLP可以用来识别人的姓名并且然后使作为人的姓名的该词项与模式相关,该模式指定“<人名>”作为模式的部分。
如果文本部分被标识为与指定的模式匹配,则文本部分可以被标识为候选分节标题,并且文本部分或者文本部分的副本的适当指针或者标识符可以存储于候选分节标题数据结构中以用于如下文描述的进一步处理。这一候选分节标题数据结构可以包括用于在文档内的多个文本部分的条目,这些文本部分可以被视为候选分节标题。
可以定义用于标识在文档中的文本部分的相似模式,这些文本部分是相互对应和/或与相似的实际或者推断的分节标题对应的文本分节,这些模式以框架(用来对逻辑或者知识进行编码的人工智能情境,例如,语义框架,其中从文本提取并且在适当知识库中存储自然语言三元组这一形式的逻辑事实)、属性、值对三元组(即(属性、值对))和结构标注等的形式包括在概念标注之间的关系。多个模式可以被定义和应用于文档的文本以标识哪些模式被文档的文本的内容匹配。例如,模式或者指定模式的规则可以是如下类型:<单行><冒号>?<包含概念E的段落><包含概念F的段落><分节间断空白>模式可以指定结构格式以及有关概念和这样的有关概念在文档的部分的文本内容内的预计排序。例如,如果已知概念F通常在语料库的文档中在概念E之后出现,则如在以上示例中阐述的那样标识模式的规则将很可靠地标识文档的部分,这些部分在它们中具有有关概念E和F。
可以基于匹配程度打分方法对匹配规则/模式进行打分。对匹配进行打分可以使用任何数目的用于比较预计结果与实际结果的自然语言处理(NLP)或者数学技术来完成。在本体论的情境中,有用于“语义相似性(semantic similarity)”的若干算法,这些算法可以用来返回概念匹配分数集合。运用的方法的一些示例可以包括直接文本匹配、比较在文本中的概念的关联n图与人工地指定的模式等。
打分可以关于为兴趣域建立的模式/规则中的每个模式/规则来完成。因此,例如,如果正被处理的语料库的域是医疗域或者更具体域(比如本体论域等),则分节文本/标题相关性机制390可以对于语料库的该域从规则/模式存储装置检索对应规则/模式集合。这些规则/模式然后可以应用于在语料库中的文档以标识与某些概念对应的候选分节标题和文本部分以及与有关概念对应并且具有结构模式的文本部分,这些结构模式代表分节标题和/或与关联于分节标题的分节对应的文本部分。因此,与候选实际或者推断的分节标题一起标识以句子和段落这一形式的提出的分节文本。
提出的分节文本然后通过在本体论和其它结构化知识资源中定义的概念仿射性而与它的潜在对应分节标题有关。例如,本体论可以用分节文本规则/模式标识包括“疾病”和“治疗”的概念分组,该分节文本规则/模式指定概念“疾病”通常在单个文本分节内跟随有概念“治疗”。在将这一规则/模式应用于文档并且进一步应用语义网络或者其它知识库和NLP技术时,可以标识词项“心脏病(heart disease)”和“支架(stent)”存在于其中的文本部分而将词项“心脏病”标识为经由语义网络连结到概念“疾病”并且“支架”经由语义网络连结到概念“治疗”。如果这些术语在由规则/模式指定的模式中出现,则可以选择包围这些词项的文本部分以用于包含于相同文本分节中。使这些概念与标识的实际或者推断的分节标题相关然后可以将分节标题链接到分节文本。因此,例如,如果通过应用“心脏病:”或者“诊断(Diagnosis):”类型的分节标题规则/模式等来发现分节标题并且分节标题规则/模式包括概念“疾病”或者“治疗”或者二者,则可以在分节文本与分节标题之间产生相关性。在分节文本中的概念与在分节标题或者分节标题规则/模式中的概念匹配的程度可以被计算和用来生成用于关系的可量化分数。
应当领会到,可以对于标题、对于在文本内的概念模式或者更通用地分离地建立规则/模式,从而使得相同规则/模式可以应用于在文本内的标题和概念模式二者。在一些例示性实施例中,用于分节标题标识的规则/模式可以显著地不同于用于标识在文本内容本身内的有关概念的规则/模式。例如,尽管用于标识在文档中的分节标题的规则/模式可以采用如以上先前描述的形式,但是用于标识在文本内容本身内的有关概念的规则/模式可以是如下类型:按照指定的顺序包含<药物><癌症(Cancer)><患者(Patient)>和<死亡率(Mortality)>概念的句子,该类型指示分节是关于指定的药物对患者死亡率的影响并且由此涉及“患者死亡率(Patient Mortality)”分节。
提出的分节可以重叠,并且单个实际或者推断的分节标题可以具有相似地重叠的若干提出的分节。因此,在文档中的相同文本部分可以在多个提出的文本分节中存在而这些提出的文本分节相互重叠。作为示例,文本部分B可以在包括文本A、文本B和文本C的提出的文本分节中。相似地,相同文本部分B也可以在包括文本A和文本B的提出的文本分节或者包括文本A、文本B、文本C和文本D的提出的文本分节中,从而使得可以在使这样的提出的文本分节与标识的分节标题相关时生成和考虑与相同或者不同分节文本规则/模式匹配的多个重叠的提出的文本分节。
作为示例,考虑以下文本(在括号中的数字指示句子编号而并非实际上是文本本身的部分):
(1)约翰已经被诊断为糖尿病II型。(2)他因此必须仔细地监视他的糖摄入。(3)约翰的医疗历史和高胆固醇证实他的生活习惯已经造成疾病的发作。(4)他的家族史指示除非遵循严格饮食和锻炼计划否则他将遭受严重体重问题。(5)他的60岁父亲也已经被诊断为糖尿病以及临床肥胖而健康衰弱。(6)约翰具有对小麦和奶制品的严重过敏症,这将限制他在饮食方面的选项。((1)John hasbeen diagnosed with diabetes,type II.(2)He must therefore carefullymonitor his intake of sugar.(3)John’s medical history and highcholesterol demonstrates that his lifestyle habits have contributed to theonset of the disease.(4)His family history indicates that he will sufferfrom severe weight problems unless a strict diet and exercise plan arefollowed.(5)His 60 year old father has also been diagnosed withdiabetes,and is clinically obese with failing health.(6)John has severeallergies to wheat and dairy,which will limit his options in terms ofdiet.)
如果可能标题集合包括话题(比如“过敏症(Allergies)”、“家族史(Family History)”和“患者细节(Patient Details)”),则各种相邻句子集合可以在以上示例中被视为有关文本的有效分节。分节的每个原子成分如果它例如是句子或者段落则按照它自己的性质被视为可能分节,并且考虑所有可能组合。
例如,在以上示例中的以下句子编号可以是有效“患者细节”分节:句子1、1-2、2、1-3、2-3、3、1-4、2-4、3-4、4、1-5、2-5、3-5、4-5、5、1-6、2-6、3-6、4-6、5-6、6。对于“家族史”:句子4、4-5、5对于“过敏症”:句子6。
在这一情况下,存在为“患者细节”建议的若干重叠分节,并且这些分节中的许多分节也与用于“家族史”的建议的分节重叠。在将打分机制应用于建议的分节之后,例示性实施例的机制可以发现用于“家族史”的提出的分节(4-5)比为“患者细节”提出的其它重叠分节中的任何分节打分高得多。相似地,句子6可以具有用于“过敏症”的比其它重叠的提出的分节中的任何分节高得多的分数。因此,虽然存在重叠的若干提出的分节,但是可以返回非重叠分节的最高打分组作为输出,例如,用于患者细节的分节1-3、用于家族史的分节4-5和用于过敏症的分节6。备选地,可以返回重叠和别的所有可能分节集合以用于由用户进一步处理。
除了描述在文档中的分节边界的元数据之外,也可以提供关联图形,该关联图形用来自下层语义网络的细节显示在提出的分节之间的语义链接。语义链接的这样的显示可以用于用户的调试目的,因为该显示指示哪儿可能有在语义概念之间的错误链接,并且作为结果,可以适当地调整规则/模式以实现希望的结果。
可以对于与在文档中的最近在前分节的有关度对每个提出的文本分节进行打分,或者如果没有实际分节标题在文档中存在,则可以借助在系统中的下层语义知识关于可能分节标题类型的特定列表或者关于主题内容的任何其它类别分组对文本分节进行打分。例如,可以比较在分节文本中标识的概念与在最近在前分节标题中指定的概念以确定匹配程度。基于在候选分节标题中存在或者不存在已知为语义关联并且在分节文本中存在的概念对用于在分节文本与候选分节标题之间的关系的分数进行加权或者修改。
备选地,如果没有实际分节标题存在,则在文本分节内发现的概念可以用来推断分节标题。例如,即使在文档中没有显式分节标题,包含对狗、马和猫的引用的文本部分仍然可以借助语义知识库被确定为指示类别“动物(Animals)”,并且可以对于与这一推断的分节标题的有关度对包括发现的所有其它概念的作为整体的文本部分进行打分。因此,在文本内的基于现有知识资源被标识的概念可以用来生成推断的标题并且然后可以关于这些推断的标题对内容的文本进行打分以确定文本部分与推断的标题的有关程度。
相似地,可以利用加权规则以在预计概念从文本分节遗漏时对用于关系的分数进行加权。也就是说,如可以在本体论、语义网络等中指定的在概念之间的学习的关系可以被标识并且即使未被显式地包含于用于分节标题或者分节文本的规则/模式中,仍然可以用来标识预计与在候选分节标题/文本中存在的概念关联的概念。如果这样的概念存在,则分数可以对于在分节标题与提出的分节文本之间的关系被增加或者可以被更多加权。如果概念遗漏,则分数可以未被增加或者可以甚至被减少或者被更少加权。
例如,考虑在与标题“药理”关联的文档的部分中出现的以下两个句子:
患者经历头部疼痛并且送服扑热息痛(The patient experiencedpains in the head and paracetamol was administered)。ptnt遭受头痛并且被给予醋氨酚(The ptnt suffered from headaches and was givenacetaminophen)。
通过参考医疗本体论,可以发现药物扑热息痛和药物醋氨酚是相同药物并且“头痛”和“头部疼痛”是指代相同医疗病患或者疾患的同义词。资源(如比如Wordnet)可以概述词项的相对等效性,比如在词项“给予(given)”与“送服(administered)”以及“遭受(suffered)”与“经历(experienced)”之间的关系。通过本体论的命名的实体资源、语义网络或者其它知识库以及使用模糊匹配算法以识别等效形式和延伸为识别等效概念来提供用于等效实体的不同文本表面形式,比如“患者(patient)”和“ptnt”。因此,使用这些机制并且应用适当分节文本规则/模式,尽管有文本的表观差异,但是有在这两个句子之间的清楚肯定匹配,从而使得这些句子可以被视为相同文本分节的部分。另外,可以在分节文本与分节标题“药理”之间产生相似相关性,因为示出了疾患模式和/或标识药理的药物/治疗。
因此,可以基于在提出的分节文本的概念与在候选分节标题和/或对应候选分节标题规则/模式中存在的概念之间的匹配程度生成用于在分节文本与最近在前分节标题之间的每个关系的加权分数。这些分数然后可以用来选择提出的分节文本和对应候选分节标题的关联以比如在与文档关联的元数据中代表作为整体的文档。可以从多个重叠的提出的分节文本和对应候选分节标题之中选择在提出的分节文本与对应候选分节标题之间的这样的关系以便最小化在与文档关联的元数据中的文本分节和分节标题(例如,在用于文档的元数据中的分节标题和分节文本标注)的所得表示中的重叠。
例如,可以遍历打分的文本分节(包括重叠文本分节)以选择非重叠文本分节的最佳打分集合,这些非重叠文本分节提供整个文档的最佳覆盖。也就是说,关于最大化在分节文本与对应实际或者推断的分节标题之间的关系的分数、最小化分节文本的重叠数量和最大化文档的整个文本内容的覆盖数量评估标准。在一个例示性实施例中,需要文档的完整覆盖,然而,在其它例示性实施例中,可以放宽这一要求,从而使得可以利用文档的整个内容的最大覆盖或者阈值覆盖数量。
所得分节文本集合、对应实际或者推断的分节标题及其关系被输出作为这一过程的结果。这些结果可以用来生成在文档中或者与文档关联地存储的元数据标注。这些元数据标注然后可以被文档处理系统(比如NLP系统、QA系统等)用来扩充文档的处理。例如,在QA系统中,在文档中或者与文档关联的分节标题/分节文本关系元数据标注可以用来基于在文档中在其中发现候选答案的分节修改与候选答案关联的分数。
在用于选择在文档中的最小程度地或者非重叠文本分节以用于包含于分节文本/分节头部关联元数据标注中的操作中,目标是提高基于整个标题/分节情境的分数并且如果竞争或者歧义地提出的文本分节出现则化解它们。在更简单情况下,通过取得经过文档的路径来确定非重叠分节的最佳打分集合,该路径具有用于经过文档的完全非重叠覆盖路径的最大分数求和。尽管这是优选的,但是经常要求文本分节的最终选择在确定用于分节的加权的提高因子或者增加时考虑以下各项:
(1)提出的文本分节相对于其它提出的文本分节的定位,例如,其中某些分节通常跟随有其它分节——利用分节序列的学习的条件概率,例如,摘要经常跟随有引言等;
(2)在提出的分节之间的语义距离,例如,药理和治疗接近地有关而治疗和症状更少接近地有关;
(3)基于最高排行相邻分节相对于当前提出的分节的概率的提高因子;以及
(4)如果竞争(相似地打分)的提出的分节充分地无关(例如,分节对于标题“症状”和“药理”被相似地打分),则系统将根据相邻提出的分节的对应候选分节标题和主题内容或者概念的有关度修改分数。
在用于选择文本分节和对应关联分节标题以代表文档的过程期间,为了帮助化解冲突和歧义,可以使用来自外部情境的信息。例如,在比如在图3的描绘的示例中结合QA系统使用分节文本/标题相关性机制390的情况下,来自问题本身的数据和任何候选答案数据可以用来进一步使相似打分冲突去歧义。例如,在用于分析乳房癌症患者病例的系统中,完整患者历史可以被输入作为来自语料库的文档,并且这一患者历史和其它数据可以包括谈及肺癌的参考文献。然而,选择过程将由于在问题中或者在指定的参数中供应的情境数据而偏向乳房癌症。
因此,例示性实施例提供用于基于结构和概念标注、本体论、语义网络和其它知识库标识分节头部和分节文本的机制。例示性实施例还提供用于建立在标识或者推断的分节头部与对应分节文本之间的关系的机制。另外,例示性实施例还提供用于选择分节标题和对应分节文本以代表文档的机制,即使在其中分节文本重叠的情形中,仍然有冲突或者歧义,其中提出的分节文本是在文档内的如由原作者既定的实际分节。例示性实施例生成用于标注文档以标识选择的分节标题和对应分节的标注元数据,这些分节标题和对应分节最大化分节分数、最小化分节文本重叠并且最大化文档覆盖。
图4是图示了根据一个例示性实施例的可以基于结构标注将文本部分划分成分节的方式的示例示图。如在图4中所示,文本部分包括分节标题(比如“目的(PURPOSE):”、“患者和方法(PATIENTSAND METHODS):”、“结果(RESULTS):”等。可以基于结构规则/模式(例如,在跟随有冒号的所有大写字母中的词项等)标识这样的分节标题。可以定义这样的规则/模式以例如用于标识分节标题。另外,可以例如用指定的结构标注建立对应分节文本规则/模式,这些结构标注指示分节文本在冒号之后出现并且以段落间断为终结。
使用这样的规则/模式,可以标识如在图4中所示的各种分节标题410-450和对应分节文本460-495。分节文本460-495可以基于在内容中的结构标注(例如,段落间断等)与最近在前分节标题410-450关联。基于结构标注的这样的关联可以如以上先前描述并且关于图5和图6进一步例示的那样使用例示性实施例的机制与概念标注一起用作一个因子。
图5是图示了根据一个例示性实施例的使用概念标注以标识文档的分节的示例示图。在图5中所示的示例对应于图4中所示的“结果”和“结论(CONCLUSION)”分节490-495但是没有分节标题。图5图示了例示性实施例的机制如何可以使用基于概念标注的规则/模式以标识文本分节和在文本分节之间的关系。
在图5中所描绘的示例中,用于患者记录的规则/模式集合可以如以上先前描述的那样应用于文本以标识概念、概念组、有关概念/概念组、结构特征、实际/推断的标题等。在这一示例中,存在示出的可以通过应用规则/模式来标识的六个基本概念:患者属性(Patient Attributes)、患者组(Patient Groups)、强化(Intensification)、结论(Conclusions)、患者结果(Patient Outcomes)和药物剂量(DrugDosages)。这些概念由在图5的文本中的各种虚线下划线代表,由此代表具有相同概念的语义实体组。这些不同概念类型在文本内的分布及其如通过在文本内的概念的统计分析而获得的关联特性(比如逆文档频率(IDF)(指示字词对于在汇集或者语料库中的文档如何重要的数值统计量)和概念密度)如以上先前描述的那样允许标识不同分节。
可以利用文本的这样的特性和统计分析以尤其在跨越语料库被应用时学习各种类型的事实,以便预测和加权在未见/将来的文档文本中的最可能分节。例如,在描绘的示例中,在最终分节中有比任何其它文本分节多得多的结论概念。因此,可以学习到文档的最终分节很可能具有比文档的其它分节更多的结论概念,并且因此在分析将来文本时,如果文本的部分具有在它中标识的相对更大量结论概念,则它可以被视为文档的最终分节。
另外,在描绘的示例中,通过概念标识和统计分析,例示性实施例可以确定存在对于所有三个文本段落(尤其在中间段落与其它段落之间)公共的若干概念类型,由此产生中间段落的分节成员歧义。给定的概念集合可以建议任何数目的不同分节标题。这里的中间段落表现为在在前与在后段落二者之间共享公共概念。
为了化解这一歧义,例示性实施例可以从若干观点分析文本数据。例如,例示性实施例可以确定在文本中的词项/概念的逆文档频率(IDF)并且标识仅第三分节包含“患者属性”,从而使它作为用于该文本片段的关键概念。另外,例示性实施例可以分析文本数据以标识在文本的多个段落中的公共概念。在这一情况下,概念“患者组”和“患者结果”在前两个段落中但是并未在第三段落中出现,因此指示第一和第二段落可以被分组成连贯分节。更进一步地,例示性实施例可以分析在文本数据部分中标识的各种概念的概念密度。在这一情况下,例示性实施例可以确定有在第一段落中的更多“患者结果”和“患者组”以及在最终段落中的多得多的“结论”。可以个别地或者组合执行这些和其它类型的文本/概念分析以从文本部分提取概念/概念分组信息以便标识在文本内的有关分节并且标识可以用来生成用于与在相同或者不同语料库的相同或者其它文档中的将来文本部分一起使用的规则/模式的事实。通过执行相似文档的语料库的统计分析,例示性实施例可以学习以将这些事实与特定实际或者推断的分节标题关联。
应当注意,在图5中,在描绘的文本部分中仍然有定义文本段落的不同结构元素,这些结构元素可以如先前描述的那样在确定给定的分节的限制时是有用线索,并且可以与标识的概念、概念分组等结合用来标识有关文本分节。然而,这对于现实数据(尤其在文档可以来自非人类著作的来源,比如使用光学字符识别的手写医生备注扫描)时并非总是这种情况。在这样的情况下,人类读者可能不容易确定在手写文档中的分节的边界,更不用说对文本的数字化形式的自动化过程。然而,如在图5中示范的那样,无论是否有在文档中存在的结构标注或者分节标题,例示性实施例都可以通过应用规则/模式标识在文档的内容内的概念、概念模式、概念分组等以及对这些概念、模式、分组等执行统计分析来标识在文档内的文本分节。
如在图5中所示,例示性实施例可以在与特定分节标题关联的段落之间区分,即使乍一眼看来,它们未表现为共享相似语义内容,从而使这成为非平凡任务。利用统计分析,例示性实施例学习以对这些段落适当地分组。
应当领会到,可以在各种粒度运用例示性实施例。例如,也可以在句子水平而不是段落水平上执行以上操作。因此,例示性实施例可以基于存在或者不存在指示特定实际或者推断的分节标题的概念将句子分组在一起。即使在给定的时间点在下层知识库中没有与发现的概念公共地关联的句子标题,但是仍然可以将表现为包含相似概念集合的句子一起分组为邻接分节而无标注的标题。此外,可以将这样的未标注的部分与在前或者在后肯定地标识的分节分组,如果系统的用户希望,则利用相同比较方式以与更适当的标注的分节链接。另外,在一些例示性实施例中,可能想要链接文本与原作者未既定的标题,并且可以发现用于使用例示性实施例的机制在字词水平在句子部分之间区分的能力有用并且因此可以实施该能力。
图6是图示了使用一个例示性实施例的机制来标识的所得文本分节的示例示图。在图6中,与指示在图5中所示的各种概念的虚线对应的包围分节的相似虚线用来表示关联于与概念对应的各种推断的分节标题的文本分节。因此,例如,分节610与概念/推断的分节标题“强化”关联,分节620与概念/推断的分节标题“患者结果”关联,分节630与概念/推断的分节标题“患者组”关联,分节640与概念/推断的分节标题“药物剂量”关联,并且分节650与概念/推断的分节标题“结论”关联。
图7是根据一个例示性实施例的分节文本/标题相关性机制(比如图3中的分节文本/标题相关性机制390)的示例框图。可以在硬件、软件或者硬件与软件的任何组合中实施在图7中所示的单元。在一个例示性实施例中,图7中的单元可以被实施为在一个或者多个数据处理系统的一个或者多个处理器上执行的软件指令。
如在图7中所示,分节文本/标题相关性机制包括控制器710、通信接口720、知识资源接口730、标注引擎740、分节标题/文本模式引擎750、分节标题/文本打分引擎760、分节标题/文本选择引擎770和文档元数据生成引擎780。控制器710控制分节文本/标题相关性机制700的总体操作并且编排其它单元720-780的操作。通信接口720提供数据通信途径,可以通过该数据通信途径发送和接收数据。特别地,可以从文档语料库705的语料库接收与将被例示性实施例的机制分节的文档对应的数据,并且由分节文本/标题相关性机制700生成的与接收的文档关联的对应分节元数据标注可以与文档关联地或者作为文档的部分而被存储于语料库705中。
控制器710可以执行接收的文档、与文档关联的元数据或者在转发文档的请求或者其它通信中接收的信息的初始分析以标识与文档关联的域。甚至可以与从其接收文档的语料库705关联地指定域。在任何情况下,可以将域标识作为一种选择在分析文档时利用哪个知识资源790以根据例示性实施例执行分节的方式。也就是说,可以有为各种具体和/或通用域开发的许多不同知识资源790、例如,第一“医疗”域、第二“会计”域、第三“法律”域等。知识资源790本身可以是概念、语义网络等的本体论。可以经由知识资源接口730访问知识资源790。
标注引擎740将知识资源应用于接收的文档文本的内容以标识在文档内的内容(比如结构特征、概念特征等)并且将这些内容与在知识资源中的对应元素(例如,在本体论内的概念、具有语义相关性的词项等)关联。标注引擎740可以用概念类型、语义类型、结构元素等的对应标注来标注在文档中的发现的特征。这些标注可以被分节标题/文本模式引擎750用来应用分节标题和分节文本规则/模式,这些分节标题和分节文本规则/模式也可以从知识资源790被获得并且包括规则/模式,这些规则/模式参考结构和/或概念标注和这样的标注的序列,这些标注和序列定义分节头部和/或分节文本。
分节标题/文本模式引擎750应用这些规则/模式(其中规则可以实行或者以其它方式包括模式)以由此标识在文档中的候选分节标题和在文档中的提出的分节文本。分节标题/文本打分引擎760可以对在提出的分节文本与最近在前候选分节标题之间的关系进行打分。分节标题/文本选择引擎770然后可以选择候选分节标题及其对应分节文本以便最大化选择的候选分节标题和对应分节文本的关系或者链接的分数而最小化选择的分节标题/文本的重叠并且最大化这些分节标题/文本的文档内容覆盖。所得的选择的分节标题和对应分节文本然后被文档元数据生成引擎780用来生成在语料库705中的文档中存储或者与该文档关联地存储的分节标注元数据。
图8是概述了根据一个例示性实施例的用于生成用于文档的分节标题/分节文本元数据的示例操作的示例流程图。在图8中概述的操作可以例如分别由图3和图7中的分节文本/标题相关性机制390和/或700实施。该操作例示了由分节文本/标题相关性机制执行的功能的高级标识,其中每个功能包括如以上先前描述的多个子功能。本领域普通技术人员将认识到,可以有用于按照在图8中提供的示例实施例示性实施例的机制的许多不同方式而未脱离本发明的精神实质和范围。
如在图8中所示,该操作通过接收将根据例示性实施例的操作而被分节的文档来开始(步骤810)。然后检索知识资源以辅助对文档进行分节(步骤820)。如以上指出的那样,这些知识资源可以包括对接收的文档或者从其接收文档的语料库的特定域通用或者具体的本体论、语义网络或者其它类型的知识库。
基于在知识资源中包含的信息用结构和概念标注来标注文档(步骤830)。检索结构和/或概念规则/模式(步骤840)。这些规则/模式也可以在性质上对接收的文档或者从其接收文档的语料库的域是通用或者具体的。这些规则/模式应用于文档文本以标识候选分节标题和提出的分节文本(步骤850)。将提出的分节文本与在文档中的最近在前分节标题关联并且基于加权匹配算法对提出的分节文本进行打分(步骤860)。基于打分和文档覆盖/重叠标准选择对应分节标题和分节文本(步骤870)。选择的分节标题和对应分节文本用来生成与文档关联地存储的分节标注元数据以用于文档处理系统以后使用(步骤880)。该操作然后终止。
应当领会到,可以迭代地执行在图8中概述的操作,从而使得可以实施循环以反复地执行图8中的操作直至实现希望的结果水平,例如,实现在文本内的标识的分节的希望的重叠/非重叠水平。另外,尽管图8参照使用在文档内的结构标注,但是如先前讨论的那样,例示性实施例即使在不存在任何这样的结构标注时操作并且可以完全基于在文本的内容内的标识的概念操作。也就是说,尽管例示性实施例可以利用在文本中的结构特征,但是这些可能并非总是可用。在这样的情况下,在并非所有分节在文档本身中明显地不同时,例示性实施例可以完全依赖于语义内容,即标注的概念。因此,在图8中的操作的输入可以包括建议的分节的重叠集合,并且用于选择最佳覆盖文档的最佳集合的过程可能需要打分和重新排行的若干迭代。图8为了附图简化而示出了单个迭代,但是未旨在于陈述或者暗示必须仅使用单个迭代。
另外,如前所述,应当领会到,例示性实施例可以采用全硬件实施例、全软件实施例或者包含硬件与软件单元的实施例这样的形式。在一个示例实施例中,在包括但不限于固件、常驻软件、微代码等的软件或者程序代码中实施例示性实施例的机制。
适合于存储和/或执行程序代码的数据处理系统将包括通过系统总线直接或者间接耦合到存储器单元的至少一个处理器。存储器单元可以包括在实际执行程序代码期间运用的本地存储器、大容量存储装置和高速缓存存储器,这些高速缓存存储器提供至少一些程序代码的暂时存储以便减少必须在执行期间从大容量存储装置取回代码的次数。
输入/输出或者I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接或者通过居间I/O控制器耦合到系统。网络适配器也可以耦合到系统以使数据处理系统能够变成通过居间专用或者公共网络耦合到其它数据处理系统或者远程打印机或者存储设备。调制解调器、线缆调制解调器和以太网卡仅为当前可用网络适配器类型的少数类型。
本发明的描述已经出于示例和描述的目的而加以呈现、但是并非旨在于穷举本发明或者使本发明限于公开的形式。许多修改和变化将为本领域普通技术人员所清楚。选择和描述实施例以便最佳地说明本发明的原理、实际应用并且使本领域其他普通技术人员能够针对具有如与设想的特定使用相适合的各种修改的各种实施例来理解本发明。

Claims (12)

1.一种在包括处理器和存储器的数据处理系统中的用于生成用于电子文档的分节元数据的方法,所述方法包括:
由所述数据处理系统接收用于处理的电子文档;
由所述数据处理系统分析所述电子文档以标识在所述电子文档的文本内容内存在的概念;
由所述数据处理系统使在所述文本内容内的概念相互相关以基于定义有关概念或者概念模式的一个或者多个规则的应用来标识在所述文本内容内的概念组;
由所述数据处理系统基于在所述文本内容内的概念的相关性来确定在所述文本内容内的至少一个文本分节;
由所述数据处理系统基于所述确定的结果生成用于所述电子文档的分节元数据以由此标识在所述电子文档中的所述至少一个分节;以及
由所述数据处理系统与所述电子文档关联地存储所述分节元数据以用于由文档处理系统使用。
2.根据权利要求1所述的方法,其中确定在所述文本内容内的至少一个文本分节还包括利用指定多个概念或者概念组的知识库并且确定在所述知识库中的每个概念或者概念组与所述文本内容的部分之间的仿射性测量。
3.根据权利要求1所述的方法,其中确定在所述文本内容内的至少一个文本分节还包括确定在所述文本内容中的候选文本分节中的概念到在所述文本内容中的分节头部之间的仿射性测量。
4.根据权利要求1所述的方法,其中确定在所述文本内容内的至少一个文本分节还包括:
标识在所述电子文档内的候选分节标题和提出的文本分节;
基于在所述提出的文本分节内的一个或者多个概念元素确定所述提出的文本分节是否具有与所述候选分节标题的阈值仿射性测量;以及
响应于所述提出的文本分节具有与所述候选分节标题的至少所述阈值仿射性测量来将所述提出的文本分节选择为与所述候选分节标题关联的实际文本分节。
5.根据权利要求4所述的方法,其中所述候选分节标题是从与所述提出的文本分节关联的概念或者概念组推断的推断的分节标题。
6.根据权利要求1所述的方法,其中基于在所述文本内容内的概念的相关性确定在所述文本内容内的至少一个文本分节包括执行在所述文本内容内的所述概念的统计分析,其中所述统计分析包括以下中的至少一种:概念密度分析、逆文档频率分析或者在所述文本内容内的多个提出的文本分节之中的概念共性分析。
7.根据权利要求1所述的方法,其中所述文本内容不具有关联结构标注,并且其中基于在所述文本内容内的概念的相关性确定在所述文本内容内的至少一个文本分节被执行而未考虑所述文本内容关联的结构标注。
8.根据权利要求1所述的方法,其中基于在所述文本内容内的概念的相关性确定在所述文本内容内的至少一个文本分节还包括也基于与所述文本内容关联的结构标注确定在所述文本内容内的所述至少一个文本分节。
9.根据权利要求1所述的方法,其中所述文档处理系统是自然语言处理系统,并且其中所述方法还包括基于与所述电子文档关联的所述分节元数据对所述电子文档执行自然语言处理。
10.根据权利要求1所述的方法,其中所述文档处理系统是问题和答案系统,并且其中所述电子文档是由所述问题和答案系统摄取的文档语料库的部分,并且其中所述方法还包括使用与所述电子文档关联的所述分节元数据对输入问题执行问题回答操作,其中所述分节元数据被所述问题和答案系统用来修改与从所述电子文档获得的候选答案关联的分数。
11.一种包括计算机可读存储介质的计算机程序产品,所述计算机可读存储介质具有在其中存储的计算机可读程序,其中所述计算机可读程序当在数据处理系统上被执行时,使所述数据处理系统实施根据权利要求1至10中的任一权利要求所述的方法。
12.一种装置,包括:
处理器;以及
耦合到所述处理器的存储器,其中所述存储器包括指令,所述指令在被所述处理器执行时,使所述处理器:
接收用于处理的电子文档;
分析所述电子文档以标识在所述电子文档的文本内容内存在的概念;
使在所述文本内容内的概念相互相关以基于定义有关概念或者概念模式的一个或者多个规则的应用来标识在所述文本内容内的概念组;
基于在所述文本内容内的概念的相关性来确定在所述文本内容内的至少一个文本分节;
基于所述确定的结果生成用于所述电子文档的分节元数据以由此标识在所述电子文档中的所述至少一个分节;以及
与所述电子文档关联地存储所述分节元数据以用于由文档处理系统使用。
CN201410483039.3A 2013-09-26 2014-09-19 概念驱动的自动分节标识 Active CN104516942B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/037,506 US9058374B2 (en) 2013-09-26 2013-09-26 Concept driven automatic section identification
US14/037,506 2013-09-26

Publications (2)

Publication Number Publication Date
CN104516942A true CN104516942A (zh) 2015-04-15
CN104516942B CN104516942B (zh) 2018-04-17

Family

ID=52691938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410483039.3A Active CN104516942B (zh) 2013-09-26 2014-09-19 概念驱动的自动分节标识

Country Status (3)

Country Link
US (1) US9058374B2 (zh)
KR (1) KR101599145B1 (zh)
CN (1) CN104516942B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229609A (zh) * 2016-03-25 2017-10-03 佳能株式会社 用于分割文本的方法和设备
CN110297911A (zh) * 2018-03-21 2019-10-01 国际商业机器公司 物联网(iot)计算环境中认知数据管护的方法和系统
CN111539193A (zh) * 2019-02-07 2020-08-14 国际商业机器公司 基于本体的文档分析和注释生成

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9594542B2 (en) * 2013-06-20 2017-03-14 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on training by third-party developers
US9519461B2 (en) 2013-06-20 2016-12-13 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on third-party developers
US10474961B2 (en) 2013-06-20 2019-11-12 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on prompting for additional user input
US9633317B2 (en) 2013-06-20 2017-04-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on a natural language intent interpreter
US9461945B2 (en) * 2013-10-18 2016-10-04 Jeffrey P. Phillips Automated messaging response
US10685052B2 (en) * 2013-12-13 2020-06-16 Danmarks Tekniske Universitet Method of and system for information retrieval
US20150169676A1 (en) * 2013-12-18 2015-06-18 International Business Machines Corporation Generating a Table of Contents for Unformatted Text
US10540347B2 (en) * 2014-10-27 2020-01-21 Nuance Communications, Inc. Contextual search disambiguation
US10891699B2 (en) * 2015-02-09 2021-01-12 Legalogic Ltd. System and method in support of digital document analysis
US9760564B2 (en) * 2015-07-09 2017-09-12 International Business Machines Corporation Extracting veiled meaning in natural language content
US9372684B1 (en) * 2015-09-18 2016-06-21 ReactiveCore LLC System and method for providing supplemental functionalities to a computer program via an ontology instance
US9864598B2 (en) 2015-09-18 2018-01-09 ReactiveCore LLC System and method for providing supplemental functionalities to a computer program
US11157260B2 (en) 2015-09-18 2021-10-26 ReactiveCore LLC Efficient information storage and retrieval using subgraphs
JP6776551B2 (ja) * 2016-03-01 2020-10-28 セイコーエプソン株式会社 電子機器および電子機器における表示方法
US20170270250A1 (en) * 2016-03-21 2017-09-21 International Business Machines Corporation Building a patient's medical history from disparate information sources
US20170371956A1 (en) * 2016-06-23 2017-12-28 International Business Machines Corporation System and method for precise domain question and answer generation for use as ground truth
US20170371955A1 (en) * 2016-06-23 2017-12-28 International Business Machines Corporation System and method for precise domain question and answer generation for use as ground truth
US10606952B2 (en) * 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
US10331659B2 (en) 2016-09-06 2019-06-25 International Business Machines Corporation Automatic detection and cleansing of erroneous concepts in an aggregated knowledge base
US20180068222A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation System and Method of Advising Human Verification of Machine-Annotated Ground Truth - Low Entropy Focus
US10558754B2 (en) 2016-09-15 2020-02-11 Infosys Limited Method and system for automating training of named entity recognition in natural language processing
US20180152539A1 (en) * 2016-11-30 2018-05-31 International Business Machines Corporation Proactive communication channel controller in a collaborative environment
US10628525B2 (en) 2017-05-17 2020-04-21 International Business Machines Corporation Natural language processing of formatted documents
US10223639B2 (en) 2017-06-22 2019-03-05 International Business Machines Corporation Relation extraction using co-training with distant supervision
US10229195B2 (en) 2017-06-22 2019-03-12 International Business Machines Corporation Relation extraction using co-training with distant supervision
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
WO2019077405A1 (en) 2017-10-17 2019-04-25 Handycontract, LLC METHOD, DEVICE AND SYSTEM FOR IDENTIFYING DATA ELEMENTS IN DATA STRUCTURES
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
US10803100B2 (en) * 2017-11-30 2020-10-13 International Business Machines Corporation Tagging named entities with source document topic information for deep question answering
US10810897B2 (en) * 2017-12-13 2020-10-20 International Business Machines Corporation Question generation for learning session
US10885270B2 (en) 2018-04-27 2021-01-05 International Business Machines Corporation Machine learned document loss recovery
US11295867B2 (en) * 2018-06-05 2022-04-05 Koninklljke Philips N.V. Generating and applying subject event timelines
US11663482B2 (en) 2018-07-06 2023-05-30 Google Llc User-specific text record-based format prediction
US11874864B2 (en) * 2018-11-29 2024-01-16 Koninklijke Philips N.V. Method and system for creating a domain-specific training corpus from generic domain corpora
US11074262B2 (en) * 2018-11-30 2021-07-27 International Business Machines Corporation Automated document filtration and prioritization for document searching and access
US11061913B2 (en) * 2018-11-30 2021-07-13 International Business Machines Corporation Automated document filtration and priority scoring for document searching and access
US10949607B2 (en) 2018-12-10 2021-03-16 International Business Machines Corporation Automated document filtration with normalized annotation for document searching and access
US11068490B2 (en) 2019-01-04 2021-07-20 International Business Machines Corporation Automated document filtration with machine learning of annotations for document searching and access
US10977292B2 (en) * 2019-01-15 2021-04-13 International Business Machines Corporation Processing documents in content repositories to generate personalized treatment guidelines
US11721441B2 (en) 2019-01-15 2023-08-08 Merative Us L.P. Determining drug effectiveness ranking for a patient using machine learning
CA3168336A1 (en) * 2019-02-18 2020-08-27 David Nahamoo Intelligent document system
US11468346B2 (en) 2019-03-29 2022-10-11 Konica Minolta Business Solutions U.S.A., Inc. Identifying sequence headings in a document
US11494555B2 (en) * 2019-03-29 2022-11-08 Konica Minolta Business Solutions U.S.A., Inc. Identifying section headings in a document
US11915614B2 (en) 2019-09-05 2024-02-27 Obrizum Group Ltd. Tracking concepts and presenting content in a learning system
KR20220059526A (ko) 2019-09-16 2022-05-10 도큐가미, 인크. 문서 간 지능형 저작 및 처리 보조기
EP3792923A1 (en) * 2019-09-16 2021-03-17 Siemens Healthcare GmbH Method and device for exchanging information regarding the clinical implications of genomic variations
US11354894B2 (en) * 2019-10-16 2022-06-07 Disney Enterprises, Inc. Automated content validation and inferential content annotation
US11321956B1 (en) 2019-12-03 2022-05-03 Ciitizen, Llc Sectionizing documents based on visual and language models
LU101705B1 (en) * 2020-03-26 2021-09-27 Microsoft Technology Licensing Llc Document control item
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
US11663215B2 (en) 2020-08-12 2023-05-30 International Business Machines Corporation Selectively targeting content section for cognitive analytics and search
CN112307772B (zh) * 2020-11-05 2022-03-25 广东工业大学 一种基于语义本体的广彩瓷知识库的构建方法
WO2023028292A1 (en) * 2021-08-26 2023-03-02 Kpmg Llp System and method for implementing a document quality analysis and review tool

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101681348A (zh) * 2007-02-15 2010-03-24 塞科普公司 用于文档分析的基于语义的方法和装置
US20110113325A1 (en) * 2009-11-10 2011-05-12 Debra Richardson Systems, Methods and Computer Readable Media For Creating and Updating Electronic Documents
US20110320189A1 (en) * 2006-02-27 2011-12-29 Dictaphone Corporation Systems and methods for filtering dictated and non-dictated sections of documents
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN103026356A (zh) * 2010-06-18 2013-04-03 微软公司 语义内容搜索

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3881392T2 (de) 1988-09-12 1993-10-21 Oce Nederland Bv System und Verfahren für automatische Segmentierung.
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
US6970881B1 (en) * 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
AUPR701701A0 (en) 2001-08-14 2001-09-06 Mcdonald, Nathan Document analysis system and method
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6985908B2 (en) 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
US7818308B2 (en) 2003-10-01 2010-10-19 Nuance Communications, Inc. System and method for document section segmentation
US20070260564A1 (en) 2003-11-21 2007-11-08 Koninklike Philips Electronics N.V. Text Segmentation and Topic Annotation for Document Structuring
EP1687739A2 (en) 2003-11-21 2006-08-09 Philips Intellectual Property & Standards GmbH Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US20060149800A1 (en) * 2004-12-30 2006-07-06 Daniel Egnor Authoritative document identification
US8037051B2 (en) 2006-11-08 2011-10-11 Intertrust Technologies Corporation Matching and recommending relevant videos and media to individual search engine results
US8290967B2 (en) 2007-04-19 2012-10-16 Barnesandnoble.Com Llc Indexing and search query processing
US7937338B2 (en) 2008-04-30 2011-05-03 International Business Machines Corporation System and method for identifying document structure and associated metainformation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8280838B2 (en) 2009-09-17 2012-10-02 International Business Machines Corporation Evidence evaluation system and method based on question answering
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US8738617B2 (en) 2010-09-28 2014-05-27 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
EP2622599B1 (en) 2010-09-28 2019-10-23 International Business Machines Corporation Evidence diffusion among candidate answers during question answering
US8601030B2 (en) 2011-09-09 2013-12-03 International Business Machines Corporation Method for a natural language question-answering system to complement decision-support in a real-time command center

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320189A1 (en) * 2006-02-27 2011-12-29 Dictaphone Corporation Systems and methods for filtering dictated and non-dictated sections of documents
CN101681348A (zh) * 2007-02-15 2010-03-24 塞科普公司 用于文档分析的基于语义的方法和装置
US20110113325A1 (en) * 2009-11-10 2011-05-12 Debra Richardson Systems, Methods and Computer Readable Media For Creating and Updating Electronic Documents
CN103026356A (zh) * 2010-06-18 2013-04-03 微软公司 语义内容搜索
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229609A (zh) * 2016-03-25 2017-10-03 佳能株式会社 用于分割文本的方法和设备
CN110297911A (zh) * 2018-03-21 2019-10-01 国际商业机器公司 物联网(iot)计算环境中认知数据管护的方法和系统
CN110297911B (zh) * 2018-03-21 2023-06-30 国际商业机器公司 物联网(iot)计算环境中认知数据管护的方法和系统
CN111539193A (zh) * 2019-02-07 2020-08-14 国际商业机器公司 基于本体的文档分析和注释生成

Also Published As

Publication number Publication date
KR20150034599A (ko) 2015-04-03
KR101599145B1 (ko) 2016-03-02
US9058374B2 (en) 2015-06-16
CN104516942B (zh) 2018-04-17
US20150088888A1 (en) 2015-03-26

Similar Documents

Publication Publication Date Title
CN104516942B (zh) 概念驱动的自动分节标识
Shi et al. Semantic health knowledge graph: semantic integration of heterogeneous medical knowledge and services
Du et al. Neural attention with character embeddings for hay fever detection from twitter
CN104699730A (zh) 用于识别候选答案之间的关系的方法和系统
EP3859745A1 (en) System and method for identifying drug-drug interactions
CN104699741A (zh) 分析自然语言问题来确定缺失信息以便提高回答的准确性
US20210375488A1 (en) System and methods for automatic medical knowledge curation
Shen et al. Enhancing ontology-driven diagnostic reasoning with a symptom-dependency-aware Naïve Bayes classifier
Trigueros et al. Explainable ICD multi-label classification of EHRs in Spanish with convolutional attention
Chen et al. Automated medical chart review for breast cancer outcomes research: a novel natural language processing extraction system
Sivarajkumar et al. Clinical Information Retrieval: A Literature Review
Harber et al. Feasibility and utility of lexical analysis for occupational health text
Wang et al. Enabling scientific reproducibility through FAIR data management: An ontology-driven deep learning approach in the NeuroBridge Project
Kapoor et al. Infrastructure tools to support an effective Radiation Oncology Learning Health System
Liang et al. Lab indicators standardization method for the regional healthcare platform: a case study on heart failure
Zhen et al. Frequent words and syntactic context integrated biomedical discontinuous named entity recognition method
Hematialam Knowledge Extraction and Analysis of Medical Text with Particular Emphasis on Medical Guidelines
Nagar Code Search Using Code2Seq
Ernst Biomedical knowledge base construction from text and its applications in knowledge-based systems
Borole et al. BERT-Based Clinical Name Entity Reorganization Model for Health Diagnosis
Fócil-Arias et al. Medical events extraction to analyze clinical records with conditional random fields
Olivares Alarcos Semantic distances between medical entities
Dai et al. Grantextractor: A winning system for extracting grant support information from biomedical literature
Corbucci et al. Semantic Enrichment of Explanations of AI Models for Healthcare
Zhu Descriptive knowledge graph for explaining entity relationships

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant