CN110892399B - 自动生成主题内容摘要的系统和方法 - Google Patents

自动生成主题内容摘要的系统和方法 Download PDF

Info

Publication number
CN110892399B
CN110892399B CN201880045817.7A CN201880045817A CN110892399B CN 110892399 B CN110892399 B CN 110892399B CN 201880045817 A CN201880045817 A CN 201880045817A CN 110892399 B CN110892399 B CN 110892399B
Authority
CN
China
Prior art keywords
concept
segments
section
ordered list
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880045817.7A
Other languages
English (en)
Other versions
CN110892399A (zh
Inventor
马吕斯·多恩巴尔
斯里尼瓦桑·萨提亚·萨米尔·库马尔·希武库拉
贾德森·邓纳姆
瑞克·米斯拉
米歇尔·格雷戈里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Elsevier Ltd
Original Assignee
Elsevier Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Elsevier Ltd filed Critical Elsevier Ltd
Publication of CN110892399A publication Critical patent/CN110892399A/zh
Application granted granted Critical
Publication of CN110892399B publication Critical patent/CN110892399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种自动生成主题内容摘要的方法包括接收对于概念的分类和文本语料库。所述方法进一步包括:基于所述分类从所述文本语料库生成具有对应于所述概念的术语注释的有注释的数据集;将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;确定针对所述术语注释的特征;和从所述定制生成的文件对象提取片段,其中所述片段中的每一个对应于所述定制生成的文件对象的一章节。所述方法进一步包括:基于所述特征对所述片段评分,使得所述片段中的每一个对应于评分;当符合一个或多个片段过滤条件时,过滤来自所述片段的一个或多个片段;基于所述评分将所述片段排名成针对所述概念的有序列表;和将所述有序列表提供到用户计算装置。

Description

自动生成主题内容摘要的系统和方法
相关申请的交叉引用
本申请主张2017年6月16日年提交的美国临时申请第62/520,991号的权益,所述申请的内容在此被以引用的方式全部并入。
技术领域
本说明书大体涉及自动生成主题内容摘要的系统和方法,并且更具体地说,提取对应于内容摘要的文本语料库内的概念的片段和定义的系统和方法。
背景技术
随着电子内容的数量和密度增大,研究员、作家、教授、学生等面临着搜索、剖析和识别与其所关注的相应领域有关的质量主要参考的增大挑战。当前,许多人利用可公开获得的可搜索内容(诸如,维基百科)来获得针对概念的另外信息。然而,这些来源不满足对于针对概念的权威信息的需求。即,许多研究员、作家、教授、律师、学生等寻找途径来在其通常工作流内获得另外信息,诸如,来自书本、期刊文章、案例法和/或其它参考数据库的另外信息。另外,不仅需要能够获取这些更主要和权威类型的文献,而且还需要可用来进一步确定特定来源是否与其所关注的特定概念或领域有关的内容摘要。
发明内容
在一个实施例中,一种自动生成主题内容摘要的方法包括:在计算装置处接收对于概念的分类;和在所述计算装置处接收未结构化的文本语料库。所述方法进一步包括:基于所述分类从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释;将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;针对所述一个或多个术语注释中的每一个确定一个或多个特征;和从所述定制生成的文件对象提取针对所述概念的多个片段,其中所述多个片段中的每一个对应于所述定制生成的文件对象的一章节。所述方法进一步包括基于所述一个或多个特征对所述多个片段中的每一个评分,使得针对所述概念的所述多个片段中的每一个对应于综合评分,其中所述一个或多个特征包括以下中的至少一个:所述概念在所述章节中第一次出现的相对偏移、所述概念在所述章节中最后一次出现的相对偏移、所述概念在所述章节中总出现次数、所述章节中的语言符号的记数或在所述概念与所述章节的标题之间的相似度等级。所述方法进一步包括:当符合一个或多个片段过滤条件时,从所述多个片段滤出一个或多个片段;基于所述综合评分,将所述多个片段排名成针对所述概念的有序片段列表,其中所述有序片段列表中的第一片段是排名第一的片段并且比所述有序片段列表中的第二片段与所述概念更加相关;和将所述有序片段列表提供到用户计算装置。
在另一实施例中,一种自动生成主题内容摘要的方法包括:在计算装置处接收对于概念的分类;和在所述计算装置处接收未结构化的文本语料库。所述方法进一步包括:基于所述分类从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释;将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象,其中所述定制生成的文件对象定义所述有注释的数据集内的一个或多个句子;识别针对所述概念的一个或多个潜在定义句子;和针对所述一个或多个潜在定义句子中的每一个确定一个或多个特征。所述方法进一步包括:基于所述一个或多个特征对所述一个或多个潜在定义句子评分,使得所述一个或多个潜在定义句子中的每一个包括综合评分,其中所述一个或多个特征包括以下中的至少一个:标题权重、动词权重、句子权重或相似度权重,其中:所述标题权重与包括所述一个或多个潜在定义句子中的一个的章节的标题与所述概念的相似度相关联,所述动词权重与表示定义的动词的存在相关联,所述句子权重与所述一个或多个潜在定义句子在所述章节的段落内的位置相关联,并且所述相似度权重与藉由比较所述一个或多个潜在定义句子中的一个与所述概念的标准定义来定义的相似度评分相关联。所述方法进一步包括:当符合一个或多个定义过滤条件时,滤出所述一个或多个潜在定义句子中的一个或多个;基于所述综合评分,将所述一个或多个潜在定义句子排名成针对所述概念的有序定义列表,其中所述有序定义列表中的第一定义比所述有序定义列表中的第二定义与所述概念更加相关;和将所述有序定义列表提供到用户计算装置。
在又一个实施例中,一种用于自动生成主题内容摘要的系统包括处理器和耦合到所述处理器的非暂时性处理器可读存储器。所述非暂时性处理器可读存储器包括存储于其上的机器可读指令集,其在由所述处理器执行时使所述处理器:接收对于概念的分类;接收未结构化的文本语料库,其中所述未结构化的文本语料库包括来自一个或多个参考源的文本;和基于所述分类,从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释。所述处理器进一步将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;针对所述一个或多个术语注释中的每一个确定一个或多个特征;和从所述定制生成的文件对象提取针对所述概念的多个片段,其中所述多个片段中的每一个对应于所述定制生成的文件对象的一章节。所述处理器进一步基于所述一个或多个特征对所述多个片段中的每一个评分,使得针对所述概念的所述多个片段中的每一个对应于综合评分,其中所述一个或多个特征包括以下中的至少一个:所述概念在所述章节中第一次出现的相对偏移、所述概念在所述章节中最后一次出现的相对偏移、所述概念在所述章节中总出现次数、所述章节中的语言符号的记数或在所述概念与所述章节的标题之间的相似度等级;当符合一个或多个片段过滤条件时,从所述多个片段滤出一个或多个片段;基于所述综合评分,将所述多个片段排名成针对所述概念的有序片段列表,其中所述有序片段列表中的第一片段是排名第一的片段并且比所述有序片段列表中的第二片段与所述概念更加相关;和存储针对所述概念的所述有序片段列表。
结合图,鉴于以下详细描述,将更充分地理解由本文中描述的实施例提供的这些和额外特征。
附图说明
图中阐述的实施例在本质上是说明性和示范性的,且并不希望限制由权利要求书定义的标的。当结合以下图阅读时,可理解说明性实施例的以下详细描述,其中相似结构用相似参考数字表示,且其中:
图1示意性描绘根据本文中展示和描述的一个或多个实施例的自动生成主题内容摘要的实例计算网络;
图2示意性描绘根据本文中展示和描述的一个或多个实施例的自动生成主题内容摘要的实例计算装置;
图3描绘根据本文中展示和描述的一个或多个实施例的提取用于主题的内容摘要的片段的实例方法的流程图;
图4描绘根据本文中展示和描述的一个或多个实施例的提取用于主题的内容摘要的定义的实例方法的流程图;且
图5示意性描绘根据本文中展示和描述的一个或多个实施例的用于主题的内容摘要的动态生成的网页。
具体实施方式
本公开的实施例涉及基于计算机的系统和方法,其扫描全部文本文献、从文本提取关于特定概念的相关和目标化的数条文本信息和识别针对特定概念的最相关的数条文本信息。
本公开的实施例包括用于消耗未结构化的文本的系统和方法。举例来说,所述系统和方法消耗呈XML文本的形式的全部书本章。如本文中将更详细地描述,所述系统生成有注释的数据,作为关于未结构化的文本的输出。举例来说,所述系统和方法可利用识别未结构化的文本中的指明的实体(例如,地名词典或指明的实体辨识器)的一个或多个注释算法。有注释的数据含有表示在文本中发现的各种术语以及标记在未结构化的文本的章节内的概念的开始和结尾偏移的术语注释的元数据。在一些实施例中,另一模块(例如,智能内容模块)接收有注释的数据和概念的分类,作为输入,且剖析数据以建立定制生成的文件对象。所述定制生成的文件对象按结构布局来布置有注释的数据。在建立定制生成的文件对象时,将原始文本数据记录到用于片段和定义提取的逻辑单元内。如本文中使用,“片段”指论述概念的文献的一部分。片段可包括关于概念的信息,使得用户可定位关于概念的有关论述。
对所述片段和定义评分、过滤和排名以识别用于特定概念的最相关片段和定义。举例来说,对片段的评分可基于概念的第一次出现、概念在具体章节中出现的数目和具体章节的大小。可执行过滤以确保所述片段优选地位于章节的开头,以及确认片段中的文本量是适当的(即,不过小或过大)。然后可执行排名以从特定概念识别最相关的片段。用于排名的一些因素可包括章节和/或章标题与特定概念之间的相似度。
举例来说,对于科学领域,本文中描述的系统识别具体概念在文本中的提到,并汇总具有特定且唯一参数集的数据。所述系统还具有量化含有提到的概念的文本的能力。即,量化概念的提到的本质,例如,含有所述概念的句子是概念的定义。另外,可识别的其它类型的信息包括关于概念的方面的信息,诸如,背景、方法和/或实验结果。
此外,显示用于阅读的材料的页面的用户计算装置可包括到主题有关信息的链接,作为在侧边栏中的背景阅读,与内容自身成直线,或甚至作为可通过选择显示的材料内的概念而导航到的单独页面。应理解,这给用户或信息的读者提供相关背景的可访问摘要或关于所关注的具体概念的另外信息。
通过本文中的系统和方法的描述,应理解,内容摘要的生成,明确地说,从未结构化的文本语料库提取针对一个或多个特定概念的有序片段列表和有序定义列表提高针对特定概念的搜索结果的质量。因为利用应用各种规则和过滤条件的评分、过滤和排名步骤,所以提高了搜索结果(即,片段和定义)的质量。即,评分、过滤和排名步骤减少了到片段和定义可提取自的相关材料集的材料的量。此外,分别将片段和定义对照其它片段和定义优先化(亦即,排名)。此外,因为相对于搜索文件的全部语料库的常规搜索,响应于特定概念的查询而搜索有序片段列表和/或有序定义列表以生成内容摘要所必要的处理功率较少且内存较少,所以减少了进行搜索需要的电脑资源的量。另外,当公布新的参考源时,本文中描述的系统和方法可从新的参考源生成多个片段和潜在定义,并分别更新所述有序片段列表和有序定义列表,以维持相关和当前信息。
现在在下文描述自动生成具有针对概念的片段和/或定义的内容摘要的各种实施例。
现在参看所述图,图1描绘根据本文中展示和描述的一个或多个实施例的示范性网络100,其图示用于自动生成针对概念的内容摘要的系统的组件。如在图1中图示,网络100可包括诸如因特网的广域网、局域网(LAN)、移动通信网络、公共服务电话网络(PSTN)和/或其它网络,且可被配置成电连接用户计算装置102、用于生成内容摘要的计算装置103和管理员计算装置104。
用户计算装置102可包括显示器102a、处理单元102b和输入装置102c,其中的每一个可通信耦合在一起和/或耦合到网络100。用户计算装置102可用来起始对一个或多个概念的电子搜索。更具体地说,为了执行电子搜索,用户计算装置102可将对关于概念的较多信息的请求或查询(诸如,超文本传送协议(HTTP)请求)发送到计算装置103(或其它计算装置)。计算装置103响应地可提供针对所述概念的内容摘要,并在用户计算装置102的显示器102a上呈现具有查询的结果的动态生成的接口,例如,网页。
另外,图1中包括的是管理员计算装置104。在用于生成内容摘要的计算装置103需要监管、更新或校正的情况下,管理员计算装置104可被配置成提供所要的监管、更新和/或校正。
应理解,虽然将用户计算装置102和管理员计算装置104描绘为个人计算机且将用于生成内容摘要的计算装置103描绘为服务器,但这些只是实例。更具体地说,在一些实施例中,可将任一类型的计算装置(例如,移动计算装置、个人计算机、服务器等等)用于这些组件中的任一个。另外,虽然将这些计算装置中的每一个在图1中图示为单件硬件,但这也是实例。更具体地说,用户计算装置102、用于生成内容摘要的计算装置103和管理员计算装置104中的每一个可表示多个计算机、服务器、数据库等等。
图2描绘来自图1的用于生成内容摘要的计算装置103,同时进一步图示从用于一个或多个概念的未结构化的文本语料库提取用于内容摘要的片段和定义、对其评分、过滤、排名的系统。根据本文中展示和描述的实施例,用于生成内容摘要的计算装置103可利用硬件、软件和/或固件。虽然在一些实施例中,计算装置103可被配置为具有必要硬件、软件和/或固件的通用计算机,但在一些实施例中,计算装置103可被配置为被具体设计成用于执行本文中描述的功能性的专用计算机。
还如在图2中图示,计算装置103可包括处理器230、输入/输出硬件232、网络接口硬件234、数据存储组件236(其存储含有概念列表的分类238a、文本语料库238b、有序的片段列表238c和有序的定义列表238d)和存储器组件240。存储器组件240可为机器可读存储器(其还可被称作非暂时性处理器可读存储器)。存储器组件240可被配置为易失性和/或非易失性存储器,且因而,可包括随机存储存储器(包括SRAM、DRAM和/或其它类型的随机存取存储器)、闪存、寄存器、压缩光碟(CD)、数字通用光碟(DVD)和/或其它类型的存储组件。另外,存储器组件240可被配置成存储操作逻辑242、注释逻辑244a、片段逻辑244b、定义逻辑244c和机器学习逻辑244d(作为实例,其中的每一个可体现为计算机程序、固件或硬件)。逻辑接口246也包括在图2中,且可实施为总线或其它接口以有助于在计算装置103的组件间的通信。
处理器230可包括被配置成接收并执行编程指令(诸如,来自数据存储组件236和/或存储器组件240)的任一(何)处理组件。所述指令可呈存储于数据存储组件236和/或存储器组件240中的机器可读指令集的形式。输入/输出硬件232可包括监视器、键盘、鼠标、打印机、相机、麦克风、扬声器,和/或用于接收、发送和/或呈现数据的其它装置。所述网络接口硬件234可包括任何有线或无线网络连接硬件,诸如,调制解调器、LAN端口、Wi-Fi卡、WiMax卡、移动通信硬件和/或用于与其它网络和/或装置通信的其它硬件。
应理解,数据存储组件236可驻留于计算装置103局部和/或远离计算装置103,且可被配置成存储一条或多条数据,用于由计算装置103和/或其它组件存取。如在图2中图示,数据存储组件236存储含有概念列表的分类238a。对于分类238a内的每一个概念,可定义优选的标签和其变体形式(即,替代标签)中的一个或多者。可将唯一共同概念ID指派到所述概念的优选标签和替代标签。举例来说,下表1描绘用于概念“1,1,1-三氯乙烷”的优选标签(即,“prefLabel”)和若干替代标签(即,“altLabel”)
概念ID 类型 概念
200018451 prefLabel 1,1,1-三氯乙烷
200018451 altLabel 1,1,1-TCA
200018451 altLabel 1,1,1,-三氯乙烷
200018451 altLabel CH3CCL3
200018451 altLabel 氯森
200018451 altLabel 坚克林
200018451 altLabel 三氯乙烷
200018451 altLabel 溶剂111
如在上表1中所描绘,在同一文件或各种文件内,可以多种方式来提及概念“1,1,1-三氯乙烷”。所述系统和方法可将这些变体中的每一个视为指同一概念。即,可将“1,1,1-三氯乙烷”视为优选标签(即,针对所述概念的优选名),而可将其它变体(例如,“1,1,1-TCA”、“1,1,1,-三氯乙烷”、“CH3CCL3”、“氯森”、“坚克林”、“三氯乙烷”或“溶剂111”)用来表达同一概念。
如本文中使用,术语“概念”可指所述概念的优选或替代形式。
相似地,可将文本语料库238b存储于数据存储组件236中。文本语料库238b可为未结构化的文本语料库238b。未结构化的文本语料库238b的非限制性实例可为如在电子文件数据存储库中存在的全部文本文献,诸如,呈XML或其它格式的书本、书本章、期刊文章、法律文件、出版物摘要、项目概述、标书、专利等等。数据存储组件236还可包括有序片段列表238c和有序定义列表238d。如本文中更详细地描述,有序片段列表238c和有序定义列表238d可为自动生成内容摘要的系统和方法的输出结果。这些可包括按最相关至最不相关排序的用于特定概念的片段和定义的列表,使得当本文中描述的系统和方法响应于例如概念的查询而生成动态网页时,可例如针对用于在动态网页上呈现的内容摘要的信息而存取有序片段列表238c和有序定义列表238d。
包括于存储器组件240中的是操作逻辑242、注释逻辑244a、片段逻辑244b、定义逻辑244c和机器学习逻辑244d。操作逻辑242可包括操作系统和/或用于管理计算装置103的组件的其它软件。注释逻辑244a可被配置成有助于从文本语料库238b生成有注释的数据。举例来说,注释逻辑244a可实施识别未结构化的文本中的指名的实体的一个或多个注释算法,其消耗未结构化的文本作为输入,应用针对例如具体科学领域配置的工作流,并且生成有注释的数据的输出。所述有注释的数据可含有关于在文本语料库238b中发现的各种术语(例如,书本章)的元数据。另外,注释逻辑在执行时从未结构化的文本语料库238b生成例如概念注释、术语注释、词性标签(POS标签)、词语、词目、语言符号、句子、章节等。如本文中使用,“概念注释”指在未结构化的文本语料库238b内识别的概念。相似地,“术语注释”提供所述概念在章节、段落或其被加注释的任一其它元素中的开始和末尾偏移,而与所述概念是否作为优选标签、替代标签、首字母缩略词出现无关。注释逻辑244a可进一步用POS标签来对术语加注释。POS标签识别对应于词语在句子内的用途的词性(例如,名词、名词复数、动词、形容词、副词等)。未结构化的文本语料库238b可被进一步加注释以识别词语、句子和章节。另外,可对词目(即,在未结构化的文本语料库238b内的词语的引用形式或词头)加注释。此外,未结构化的文本语料库238b可用语言符号或以其它词语位置标记来注释,所述标记可对应于词语、字符、空格、n元语法(即,预定字符数)等。
片段逻辑244b也可存储于存储器组件240内。片段逻辑244b可被配置成从有注释的数据提取多个片段,对其评分、过滤和排名,以用于生成内容摘要,如在本文中更详细地描述。相似地,定义逻辑244c可被配置成识别潜在定义句子,并且然后,对来自有注释的数据的潜在定义句子评分、过滤和排名,以用于生成内容摘要,如在本文中更详细地描述。另外,机器学习逻辑244d可存储于存储器组件240中,且被配置成通过实施机器学习的规则针对特定概念从有注释的数据和/或未结构化的文本语料库238b提取定义。举例来说,机器学习逻辑244d可包括卷积神经网络(CNN)、随机森林、长短期记忆(LSTM)、多层感知器(MLP)前馈人工神经网络等。即,取决于已训练机器学习系统的方式,机器学习逻辑244d可接收结构化或未结构化的文本作为输入。响应地,机器学习系统可针对概念识别具有表示定义或片段与候选定义和片段的相关性的概率评分的定义和/或片段。
还应理解,图2中图示的组件仅仅是示范性,且并不希望限制本公开的范围。更具体地说,虽然将图2中的组件图示为驻留于计算装置103内,但这仅仅是实例。在一些实施例中,所述组件中的一个或多个可驻留于计算装置103外部。相似地,虽然图2是针对计算装置103,但诸如用户计算装置102和管理员计算装置104的其它组件可包括相似硬件、软件和/或固件。
现将描述用于从未结构化的文本语料库238b生成具有用于特定概念的片段和定义的内容摘要的实施例。
参看图3,描绘根据本文中描述的一个或多个实施例的提取用于主题的内容摘要的片段的实例方法的流程图。在一些实施例中,用于概念的内容摘要的片段的提取可开始于未结构化的文本语料库。在其他实施例中,结构化的文本语料库可被接收且可进一步包括有注释的数据,从所述有注释的数据,可直接进行提取、评分、过滤及排名步骤。在图3中描绘的流程图中,片段的提取包括含有概念列表和未结构化的文本语料库的分类的输入。在步骤302,计算装置可从数据存储组件或存储器组件接收或检索含有概念列表的分类。在一些实施例中,从数据存储组件或存储器组件接收或检索的分类可具体针对待生成内容摘要的文本语料库内的文献的领域。举例来说,当文献领域涉及科学和/或具体地说涉及物理学时,可选择针对与物理学有关的领域的具有概念列表的分类。然而,在一些实施例中,在文本语料库内的文献的领域可为未知的,且因此,可接收或检索涉及许多领域(例如,科学、数学、历史、法律等)的分类或多个分类。所述系统可通过识别未结构化的文本语料库内的关键词来确定文献的领域,包括例如,来自标题、章节标头、摘要或组成表示特定领域的未结构化的文本语料库的参考源的其它部分。在一些实施例中,文献(例如,未结构化的文本语料库)可通过独立系统和方法基于领域来预分类成群组,并且一个或多个预定分类可与所述文献相关联。
另外,在步骤304,计算装置可从数据存储组件或存储器组件接收或检索未结构化的文本语料库。如上提及,系统可在步骤306利用执行注释逻辑244a。注释逻辑在执行时接收未结构化的文本语料库并生成有注释的数据集。在一些实施例中,针对关于各种识别的术语、概念、POS标签、词语、词目、语言符号、句子、章节、段落等的元数据挖掘未结构化的文本语料库。在一些实施例中,通过含有概念列表的分类来导引未结构化的文本语料库的注释。即,在生成有注释的数据集时,分类内的每一概念被挖掘且注释。有注释的概念在本文中被称作术语注释。即,有注释的数据集包括对应于所述概念的一个或多个术语注释。术语注释提供所述概念在章节、段落、句子或其被加注释的任一其它元素中的开始和末尾偏移,不管所述概念是否作为优选标签、替代标签、首字母缩略词出现。
在步骤308,计算装置剖析有注释的数据集以构建具有结构化的布局的定制生成的文件对象。所述定制生成的文件对象按结构化的布局来定义有注释的数据。在一些实施例中,所述结构化的布局可包括重新排序到逻辑单元内用于片段和定义提取的原始未结构化的文本数据。举例来说,输入未结构化的文本可被分析和变换成表示以下各个的定制生成的文件对象:(a)按逻辑次序(即,阅读次序)的文本元素的序列;(b)段落或文本元素相对于文件全部(例如,在文件内和/或在文本语料库内)的功能和概念作用,例如,‘表’、‘参考’、‘标题’、‘章节标题’、‘摘要’、‘章节文本’等;和(c)保持在文件中的文字元件之间的阶层关系。虽然其它布局可包括来自原始未结构化的文本数据的文本,但定制生成的文件对象给来自逻辑单元中的原始未结构化的文本数据的文本的部分提供对应的元数据。所述逻辑单元和对应的元数据允许系统高效地识别、定位、评分、过滤、排名和提取针对特定概念的文本的部分(例如,片段和定义)。
在步骤310,计算装置确定术语注释中的每一个的一个或多个特征。对于在章节内的每一术语注释,可识别一个或多个特征的集合,所述一个或多个特征表示所述章节对于所述概念有多相关和是否将那个片段视为针对所述概念的良好片段。在一些实施例中,使用在本文中被称作“桶”的记数法来确定一个或多个特征。“桶”定义多个桶依序且大体相等地跨越一个章节的章节的一部分。举例来说,选择用于一个章节的n数目个桶。假定每一个桶含有那个章节的按顺序全部文本的(100/x)%。即,如果x=5,那么桶1跨越章节中的文本的(100/5)%或前20%。然后,桶2跨越文本的下一个20%,等等。将桶用作另一度量来表示在所述章节内的特征的位置的相关性。桶可用来正规化在第一章节中发现的概念的位置与在第二章节中发现的同一概念的位置的关系。举例来说,第一章节(例如,在未结构化的文本语料库内的期刊文章)可为1页长度,且第二章节(例如,在未结构化的文本语料库内的另一期刊文章)可为2页长度。通过将第一和第二章节中的每个分成相应的n(例如,x=5)数目个桶,用于第一和第二中的每一个的第一桶指其中的文本的前20%。在一些实施例中,有利地,由于针对一个概念的更相关章节将开始在章节中的早些时候而非稍后或在章节的末尾附近论述所述概念,因此概念出现于章节的较早部分,而非较晚部分。因而,当有利地使用于概念的片段出现于文本的章节中的早些时候时,当第一与第二章节具有不同长度时,使用桶提供与在第一和第二章节内的概念的位置的相当关系。相反地,如果只使用与文本的章节的开头的相对偏移来识别概念在具有不同的文本总长度的两个或更多个章节内的位置,那么这比较将不可能。在一些实施例中,概念的桶位置与概念在文本的章节内的相对偏移可用来确定从特定概念的位置生成的片段是否更相关,然后是概念的另一出现和从它生成的后续片段。
在一些实施例中,针对所述一个或多个术语注释捕获的所述一个或多个特征可包括确定概念在章节中的第一次出现的相对偏移、概念在章节中的最后一次出现的相对偏移、概念在章节中的出现数目、所述章节中的语言符号的数目的记数、概念的第一次出现引起的桶的ID、在章节中的概念出现的分布、章标题相关于概念的相似度、章节标题相关于概念的相似度、从分片段过程排除的一个或多个章节的列表等等。这一个或多个特征中的每一个给系统和方法提供关于所述概念与正被视为片段的章节的关系的基本信息。举例来说,如果作为一个或多个术语注释的概念的出现在第一章节中比在第二章节中出现得早,那么可将第一章节视为比第二章节作为片段更相关。同样地,如果第一章节的标题与所述概念相似且第二章节不包括与所述概念相似的标题,那么对于所述特定概念,第一章节作为片段可更相关。
可跨从由系统接收的未结构化的文本语料库引起的文本的一个或多个章节针对特定概念确定所述一个或多个特征。即,可在定制生成的文件对象的结构化的布局中将各种章节、段落、章等分段,且可在各段内识别对应于特定概念的术语注释。在步骤312,可将章节、段落、章等提取为用于特定概念的多个片段中的一个。然而,在这阶段,所述多个片段仅仅包括如由术语注释表示的概念的叙述和针对所述术语注释中的每个识别的一个或多个特征。为了确定多个片段中的一个是否比所述多个片段中的另一个更相关,可对其评分、过滤和排名。
在一些实施例中,在步骤314,可将针对特定概念和特定章节确定的一个或多个特征中的每一个汇兑到综合评分。对于所述多个片段中的每一个,可输入有关一个或多个特征,以生成综合比率和然后单因素(即,总比率或综合比率)以便对多个片段中的最优片段排名。举例来说,可通过以下实例方程来确定综合比率。
occurrence_ratio=(1+count_occurence/MAX(section_token_count,n))方程式1
方程式1基于章节中的概念的出现数除以在所述章节内的语言符号数或预定值n中的最大者来确定出现比率。在一些实施例中,预定值可为产生针对概念的出现比率的有效计算的实验确定的最小语言符号数。举例来说,预定值可为但不限于10、20、30、40、50、60、70、80、90、100或被确定产生针对概念的出现比率的计算的另一值。根据方程式1,最大函数将始终至少为,预定值n不应大于所述章节内的n个总语言符号。相似地,还可在方程式2中确定概念的第一次出现的比率。
first_occurrence_ratio=(1+MIN((first_occurrence–1),n)/100)方程式2
此处,第一出现比率利用概念在章节内的第一次出现的相对偏移来确定可随后用来确定多个片段中的特定片段的总比率的比率。然后可通过方程式3将概念的第一次出现和概念在章节中的出现数以及章节的大小作为因数来确定total_ratio(在本文中还被称作综合值)。
total_ratio=first_occurrence_ratio+occurrence_ratio方程式3
然而,对多个片段评分的以上方法只是一个实例。可利用其它比率、值和方程式来使评分方法适合于文献的文本或领域的特定集合。举例来说,不受限制,用于评分的其它方程式可基于概念在定义未结构化的文本语料库的章节的部分的各种桶内的出现,和/或跨定义未结构化的文本语料库的章节的部分的桶的概念的散布。
虽然所述多个片段可各包括可比较且用于排名的评分,但存在可改善针对特定概念的片段的选择的质量和相关性的一些额外过滤条件。在步骤316,可基于一个或多个过滤条件过滤多个片段中的片段中的一个或多个。举例来说,对于待被视为用于特定概念的良好、品质且相关片段的章节,所述概念可优选地出现于章节的开头附近,且所述章节中的文本的量可优选地不过小或过大。即,片段过大可不将值提供到用户,这是由于它们可能不能够搜集片段可添加到其对概念的理解或知晓的内容的简洁摘要。相似地,片段过小可不将任何新或额外信息提供到用户,和/或片段过小可不表示含有关于概念的更多信息的来源。
另外,可针对特定原因或目的而排除章节。即,过滤条件中的一些可包括确定特定片段是否对应于来自识别为被排除的章节的章节的一个章节。在一些实施例中,如果特定片段对应于一个章节(例如,具有“还参见”、“词汇”、“另外阅读”、“致谢”等的标题的章节),那么可抛弃这些片段,因为通常理解,这些章节不提供关于概念的相关另外信息。可基于试探法确定识别为可能不提供关于概念的相关另外信息的具体章节标题。此类章节可提到概念,但可不提供关于概念的有用或额外信息,因为其通常满足不同目的。因而,在将多个片段排名前,过滤过程可选择和或滤出章节中满足过滤条件中的一个或多个的片段。
在一些实施例中,片段不过短或过长可为优选的。为了解决这个考虑问题,可确定下阈值(即,过短长度)和上阈值(即,过长长度)的预定值。然后可将章节语言符号计数值与这些预定值比较,并且如果章节语言符号值小于下阈值或大于上阈值,那么可抛弃对应于那个章节语言符号计数的片段。此外,针对概念的片段出现在所述章节的前10%、20%、30%、40%、50%或60%内可为有利的。为了有助于确定,可利用以上论述的桶记数法。即,来自包括具有low_bucket(即,看到概念的第一次出现的桶的ID)的概念的多个片段的片段小于或等于预定截止值(例如,first_bucket_with_concept_occurrence),然后可不滤出所述片段。应再次理解,这些只是可实施以滤出来自多个片段的片段中的一个或多个的潜在过滤条件的许多实例中几个。此外,虽然在本文中的评分与排名步骤之间描述了过滤的步骤,但过滤可发生在评分和/或排名步骤中的每一个前或后。
在步骤318,多个片段可由计算装置排名成有序片段列表,其中所述列表中的顶部表示用于特定概念的最优片段。在一些实施例中,排名可基于在评分步骤期间确定的综合评分来确定。在一些实施例中,排名可包括驱动针对概念的最优片段的选择的额外因素。如上所述,总评分或综合评分可关于章节的大小来捕捉概念的位置。即,综合评分并非简单的比率。相反地,综合评分考虑助推因素(例如,以使章节的各种长度的比率和概念出现的不同位置正规化)。举例来说,评分越高,那么那个章节变为所述概念的最优片段的可能性越高。在一些实施例中,评分可不包括助推因素,但当包括助推因素以使章节的各种长度的比率正规化时,可达成在不同种类和情境下的片段的较细分群。
在一些实施例中,排名可考虑或更重地加权章节和/或章标题与概念的内容的相似度。用于在任一等级下的章节划分的标题(包括标头和题目)与考虑中的个别概念越相似,那么含有所述概念的章节针对那个概念很相关越有可能,并且因此,其可变为最优片段中的一个越有可能。举例来说,对多个片段排名可基于确定具有针对所述概念的片段的章节的标题与所述概念之间的相似度,使得当将第一章节的第一标题确定为与所述概念相似时,在第一章节内的第一片段排名比第二章节的第二片段高,其中将第二章节的第二标题判定为不与所述概念相似。
在一些实施例中,就章节标题相似度来说,对具有“引言”和“定义”的标题的章节给予较高权重,即使概念与标题不相似。假定这些标题固有地表示当在章节内提到所述概念跟在标题下时,所述章节是关于概念的。因而,可针对本文中描述的排名过程考虑表达考虑中的特定概念与引向具体文本部分的一串标题中的标题内容的相似度的任何特征。
排名的步骤可进一步设法提供多样的参考源,且由此消除来自同一来源的多个片段。即,为了内容散布和产品效用,可有利地选择来自每个参考内容源的单个排名第一的片段,并且抛弃其它的。结果,可从多种内容源收集选定片段,并且同时,还确保所述片段提供关于概念的多种信息。相似地,可消除在针对概念的多个片段内的重复或近乎重复的片段。即,抛弃重复或近乎重复的两个中的一个。将文本相似度度量应用到章和/或章节标题的过程可确定潜在重复。
在步骤318的排名的结果是针对特定概念的有序片段列表。所述有序片段列表将最优片段定义为列表中的第一片段,并且然后,基于如上所述的用于评分、过滤和排名的一个或多个过程来定义针对主题的一系列另外相关片段。在步骤320,所述有序片段列表可然后存储于数据存储组件或存储器组件中,用于稍后使用。来自未结构化的文本语料库(其可含有数十、数百或数千个参考源)的针对特定概念的多个片段的提取、评分、过滤和将其排名成针对特定概念的有序片段列表改善针对特定概念的额外且有用信息的总体搜索和将其提供给用户。即,通过识别来自许多参考源的片段并将其存储于提要状有序列表中,计算系统可在需要时按需要相对于搜索文件的全部语料库的常规搜索的较少计算能力的方式提供对概念的查询的定制响应。
研究员、作家、教授、学生等面临的最大挑战中的一个是发现、阅读和确定来源是否提供与其感兴趣的特定概念有关的额外信息需要的增加的时间量。本文中的描述的系统和方法生成具有片段和定义(其从未结构化的文本语料库针对特定概念提取、预整理和识别)的内容摘要,不仅给用户提供对关于概念的查询的更高效且更高质量响应,而且还允许计算系统动态更新相关片段的有序列表。举例来说,随着新的文章、书本、论文、专利、案例法等被出版,系统可通过从新的来源提取片段、将其评分、过滤和排名来分析内容。可比较这些新片段并将其添加到针对特定主题的预先存在的有序片段列表。针对概念的片段和定义的连续或周期性更新改善针对特定概念的内容摘要的总相关性和即时性,否则这将是不可得的。
此外,可从未结构化的文本语料库生成针对多个概念的有序片段列表。举例来说,可生成包括针对多个概念的有序片段列表的改进且相关数据集,这由此减小存储容量且减少响应于特定概念的查询订出针对特定概念的内容摘要所需要的计算资源。即,通过减少计算装置需要响应于概念的查询从未结构化的文本语料库的内容到定义针对多个概念的相关信息的预定义的有序片段列表的集合搜索的材料,可减少计算资源和对查询的响应时间,和/或可改善查询的结果的相关性。
作为实例,有序片段列表的使用可包括在步骤322,计算装置接收对概念的查询。计算装置可然后在数据存储组件或存储器组件中搜索针对查询的概念的有序片段列表,并返回来自有序片段列表的预定义数目的最优片段,作为内容摘要的部分。在一些实施例中,用户计算装置可接收对应于特定概念的查询。所述用户计算装置可然后存取存储于所述用户计算装置或另一计算装置上的有序片段列表。所述用户计算装置可搜索有序片段列表并选择对应于查询的概念的预定数目的片段。在一些实施例中,所述用户计算装置可接收查询,并通过网络将查询传输到另一计算装置用于搜索有序片段列表。
在一些实施例中,用于生成内容摘要的计算装置、用户计算装置和/或另一计算装置可生成动态网页,所述动态网页包括具有来自有序片段列表的预定义数目的最优片段的内容摘要。预定义数目的片段可为来自有序片段列表的1、2、3、4、5、6、7、8、9、10或更多个片段。在一些实施例中,在步骤324,来自有序片段列表的预定义数目的最优片段可呈现于显示器上,其中所述显示器是膝上型电脑、移动装置或任一其它计算装置。
在一些实施例中,用于生成内容摘要的计算装置可将多个有序片段列表提供给用户计算装置,使得所述用户计算装置可进行特定概念的查询,并针对特定概念确定预定义数目的片段。在一些实施例中,给用户计算机提供有序片段列表可包括给用户计算装置提供对有序片段列表的存取。在任一情境中,通过在有序片段列表中搜索针对特定概念的预定义数目的片段的集合,减少了用于响应搜索查询的计算资源和时间,这是由于有序片段列表是针对与特定概念的相关性预结构化的。
在一些实施例中,查询可从用户在有注释的文件内选择超链接引起,其中所述超链接使计算装置在用户正浏览的内容的侧边或邻近图形窗内将预定义数目的片段对用户呈现。举例来说,内容摘要可允许用户容易且简易地存取与感兴趣的主题有关的额外信息。
在一些实施例中,除了预定义数目的片段外或替代预定义数目的片段,内容摘要可包括概念的定义。为了易于提供针对特定概念的定义,可实施与提取多个片段相似的方法以提取针对特定概念的一个或多个潜在定义。参看图4,描绘根据本文中描述的一个或多个实施例的提取用于主题的内容摘要的定义的实例流程图。步骤402、404、406和408指接收并生成用于未结构化的文本语料库的有注释的数据,这与如参照图3和步骤302、304、306和308描绘和描述的接收并生成用于未结构化的文本语料库的有注释的数据相似。因而,为了简洁起见,本文中将不进一步描述步骤402、404、406和408。
转到步骤410,所述计算装置接收有注释的数据作为定制生成的文件对象,且识别针对所述概念的一个或多个潜在定义句子。在确定一个或多个定义句子时,所述过程可聚焦于在句子层面而非在确定片段时的章节或段落层面的文本。由于从未结构化的文本语料库生成有注释的数据集的步骤包括在步骤306和406识别句子词目、词语和POS标签,因此可不需要额外剖析或注释步骤。
在一些实施例中,识别一个或多个潜在定义句子可包括使所述句子中的每个通过函数或验证步骤以确定所述句子是否是潜在定义句子。举例来说,验证句子的步骤可包括不按特定次序的以下。首先,可进行关于句子是否包括概念的叙述的确定(作为优选标签还是替代标签)。如果句子不包括特定概念的注释,那么所述句子不被视为潜在定义句子且抛弃所述句子。如果句子确实包括特定概念的注释,那么可提取在所述概念前和后的文本、词目和POS标签。其次,基于提取的文本、词目和POS标签,可进行关于句子结构是否对应于一个或多个预定义的模式的确定。举例来说,表示定义句子的句子结构模式可包括以下:{形容词或限定词}概念{动词}。如果句子结构不对应于预定义的模式,那么可从一个或多个潜在定义句子排除所述句子。在一些实施例中,动词模式“是一个”、“是”、“被定义为”等可表示所述句子是潜在定义句子。第三,可进行关于所述句子是否含有一个或多个预定义的动词或词目(其可表示不良或差质量定义)的确定。举例来说,开始于词语“这”、“这些”、“那”、“多数”、“许多”、“在……内”、“在……下”、“其它”、“在……内部”、“包括”、“每个”、“在……外”、“在……下面”、“另一”等的定义可表示不良或差质量定义。相似地,在文本中任何处含有以下词语的定义可表示不良或差质量定义:“这”、“这些”、“那些”等。
在一些实施例中,还评估POS标签模式以确定潜在定义句子是否可为不良或差质量。举例来说,当在概念前的POS标签模式包括未定义为概念的部分的形容词时,那么可抛弃具有诸如{形容词}{概念}的模式的潜在定义句子。替代地,在概念后的POS标签模式还可表示不良或差质量定义句子。举例来说,诸如以下的POS标签模式:(i)动词副词形容词,(ii)动词形容词(如果它后面不跟有名词),(iii)动词到动词,(iv)动词限定词,(v)动词形容词或副词介词,(vi)副词介词名句,等等。此外,在概念后的后概念动词文本模式还可表示不良或差质量定义。举例来说,包括诸如“还”、“然后”、“因此”、“现在”、“可”、“保持”、“可以”、“提供”、“将”、“是(was、were)”、“不”等的词语的后概念动词文本模式。
以上模式可用旗标表示不良或差质量定义句子的最明显情况,但用过滤步骤期间应用的定义过滤条件,可滤出其它句子。在步骤412,可确定一个或多个潜在定义句子中的每一个的一个或多个特征。针对所述潜在定义句子中的每一个捕获的一个或多个特征可包括:表示句子在段落或章节中的ID的句子ID、段落或章节中的句子的总计数、段落的第一句将具有值1且段落的最后一个句子将具有靠近0的较低值的正规化的权重、句子中的字符数的计数、表示章节标题与概念的内容的相似度的标题权重、表示章标题与概念的内容的相似度的章权重、对应于基于跟在句子中的概念后的动词群组指派的权重的动词权重、表示为比较潜在定义句子与标准定义有多相似的评分的相似度权重和表示基于POS的定义的质量和潜在定义句子的基于文本的模式的过滤器类型评分。返回参考动词权重,某些动词群组可表示良好定义,使得可被指派较高权重,并且下一个较好群组可被指派比先前高的权重。在此类实施例中,未定义为表示良好定义的动词群组可被指派权重0。
其它特征可包括表示基于本文中更详细地描述的基于相依性剖析的旗标的定义的质量的相依关系质量值、关于概念在句子中是否叙述为优选标签的布尔表示、关于是否按首字母缩略词形式叙述概念的布尔表示和表示概念是否是概念扩展(即,所述概念是否跟有以括号表示的首字母缩略词、替代形式或额外信息)的值。这些特征和其它特征中的每一个可用于潜在定义句子的评分、过滤和排名。
虽然本文中的过程是特定参考从常规的书本、期刊文章等提取定义来描述的,但也可从词典提取定义。这些书本也可通过注释引擎来处理以识别用于概念的术语注释。此外,由于假定词典包括质量定义,因此可不必要应用以上描述的识别和验证步骤。因而,当在来自常规的书本、期刊文章等的潜在定义句子的排名处理期间未出现良好定义时,可使用词典。
在步骤414,可通过将来自一个或多个特征的值汇总成单个综合评分来对潜在定义句子评分。举例来说,可基于方程式4来确定综合评分(例如,total_score_ref_definition):
total_score_ref_definition=title_weight+section_weight+verb_weight+sentence_weight+similarity_weight方程式4
然而,在一些实施例中,在确定综合评分中可包括额外特征或替代特征。
由于一个或多个潜在定义句子的初始识别可包括许多选项,因此进一步的过滤可为必要的。在步骤416,可基于过滤条件滤出一个或多个潜在定义句子中的一个或多个。在一些实施例中,在排名过程前,过滤是必要的,以去除潜在定义句子的特定实例,而在其它实施例中,过滤可发生于评分或排名过程前或后。步骤416,过滤,可包括将一个或若干个过滤条件应用于潜在定义句子。举例来说,一些过滤条件可包括确定来自一个或多个特征的过滤器类型值是否表示定义句子或不良或差质量。在一些实施例中,过滤可基于检查根元素(例如,标记的动词)与句子中的其它词语的相依性关系的规则来应用相依性剖析过程。举例来说,如果根与主体具有被动标称主体关系,那么可将所述句子表示为不良或差质量定义句子。在一些实施例中,句子中的词语的定位可有重要关系。举例来说,存在造不良或差质量定义句子的词语的集合,如果词语的集合与根词语有关(诸如,在短语“老化太复杂了,以致不能……”中)。此处,“太”关于“复杂”的存在表示不良品质定义句子。
在一些实施例中,如通过相依性剖析确定的部分整体关系可表示不良或差质量定义,且因此在步骤416滤出。举例来说,相依性关系可用来检查部分整体关系“的部分”和“的组分”。通过实例,可滤出包括诸如“骨头是……的部分”或“牙骨质是非常重要的组分”的短语的潜在定义句子。另外,在一些实施例中,可滤出诸如根和使用负关系连接的某一其它语言符号的具体关系,作为不良或差质量定义句子。并且,如果句子包括根的形式,那么“实例”或“结果”也可表示不良或差质量定义句子,且可滤出。
过滤的步骤也可包括确定潜在定义句子的长度过长还是过短。虽然诸如“疟疾是一种疾病”的短定义事实上是定义,但其并未添加许多有价值的信息,且因此可滤出。举例来说,通过利用句子长度的特征,可从一个或多个潜在定义句子去除具有比预定长度小的长度的句子。另外,在一些实施例中,可有利地去除源领域内具有比针对概念的所有定义句子的平均长度的预定百分比长度小的长度的句子。举例来说,如果句子长度小于针对概念的所有定义句子的平均长度的60%,那么可从一个或多个潜在定义句子去除所述句子。这可以是确保针对定义句子的恰当长度的另一方法。
应理解,前面提到的技术和规则仅仅是可用来确定针对概念的不良或差质量或良好质量定义句子的几个技术和规则。一般来说,可使用过滤条件来识别假阳性定义。在步骤416,在将一个或多个潜在定义句子排名前,可从所述一个或多个潜在定义句子滤出假阳性定义。
在步骤418,潜在定义句子经排名到针对特定概念的有序定义列表内。将一个或多个潜在定义句子排名可基于在评分步骤期间从一个或多个特征确定的综合评分。在一些实施例中,排名的步骤可包括额外加权和过滤措施以改进有序定义列表。举例来说,排名的步骤可将较高权重(即,较高排名或优先级)指派到包括概念的优选标签(如与替代标签相反)的潜在定义句子。相似地,在潜在定义句子中的概念的非首字母缩略词叙述可排名得比包括所述概念但呈首字母缩略词形式的叙述高。即,因为可假定首字母缩略词的使用可并非对章节、段落、章等内的概念的第一或主要参考。
虽然以上论述的过滤器类型值用来识别和去除不良和差质量定义句子,但过滤器类型值还可表示具有良好或优选句子结构的定义句子。因而,表示为具有针对定义的良好或优选句子结构的那些定义句子可被指派比不具有良好或优选句子结构的表示的定义句子高的排名。
此外,排名过程可对概念(其后紧跟例如在括号中的元数据)指派比不包括在括号中的元数据的概念高的优先级。在一些实施例中,在定义句子中使用的动词的类型可表示比具有替代动词的其它定义句子强的定义。因而,所述排名过程可对利用具体动词或动词模式(诸如,“是一个”、“被定义为”等)的定义句子指派比不包括具体动词或动词模式的定义句子高的排名。
应理解,步骤418的排名过程可包括额外或替代排名参数。然而,排名过程的结果是针对概念的有序定义列表的制定。在步骤420,有序定义列表可存储于数据存储组件或存储器组件中供稍后使用。在一些实施例中,单个概念可具有基于所述概念出现的上下文的多个定义。因此,通过提供针对概念的定义,用户可易于确定接下来的信息(例如,多个片段)是否关于其正寻找额外信息的概念的特定定义。如上所述,可从未结构化的文本语料库提取有序定义列表,将其评分、过滤和排名。来自未结构化的文本语料库(其可含有数十、数百或数千个主要参考源)的概念的有序定义列表的编译和存储可增强计算装置可响应概念的查询的效率和速度。即,替代搜索许多源的内容,计算资源可聚焦于搜索多个有序定义列表且返回与查询的概念有关的定义。结果,改善计算装置的功能性。
举例来说,在步骤422,所述计算装置可接收对概念的查询。所述计算装置可然后在步骤424在数据存储组件或存储器组件中搜索针对查询的概念的有序定义列表,并选择最优定义。另外,可选择来自针对特定概念的有序片段列表的预定义数目的最优片段,以生成针对查询的概念的内容摘要。
在一些实施例中,用于生成内容摘要的计算装置可将多个有序定义列表提供到用户计算装置,使得所述用户计算装置可进行特定概念的查询,并确定来自多个有序定义列表的针对特定概念的定义。在一些实施例中,给用户计算机提供有序定义列表可包括提供用户计算装置对所述多个有序定义列表的存取。在任一情境中,通过在所述多个有序定义列表中搜索针对特定概念的定义,减少了计算资源和用于响应搜索查询的时间,这是由于所述多个有序定义列表是针对与特定概念的相关性预结构化。
在一些实施例中,所述计算装置可生成动态网页,其包括具有针对查询的概念的最优定义和/或基于查询的概念选自有序片段列表的预定义的片段列表的内容摘要。在步骤426,动态网页或其他类型的生成的接口(诸如,电子文件内的侧边)可呈现于显示器上。所述显示器可为膝上型电脑、移动装置或任一其它计算装置的显示器。如以下更详细地论述,动态生成的网页或其它接口可给用户提供来自针对感兴趣的查询的概念的主要参考源的独特内容。
参看图5,描绘根据本文中描述的一个或多个实施例的用于主题的内容摘要的动态生成的网页。虽然动态生成的网页的布局和内容可变化,但图5提供一个实例。显示器102a可呈现网页窗500。举例来说,动态生成的网页可为单独的URL,其可在当前浏览窗、新标签或新窗口内打开。网页窗500可经格式化以显示概念510、针对概念510的定义520和预定数目个片段530。定义520可包括到源文件的链接,使得用户可导览到源文件以获得另外信息,或检索引用信息。预定数目个片段530可按排名的次序呈现,其中最相关的在顶部且下一个相关的在下面。预定数目个片段530还可包括到源文件的链接,使得用户可导览到源文件以获得另外信息。在一些实施例中,引用信息可提供有定义和预定数目个片段中的每一个,从而允许用户易于引用从其对特定概念的查询获得的信息。
内容摘要,例如,在动态生成的网页内呈现的内容摘要,给用户提供对来自呈信息的片段的形式的主要资源的针对特定概念的相关信息和/或对参考源的全部文本内的片段的引用的存取。目前,某些基于因特网的可搜索内容引擎和接口依赖于来源的混合产生呈文章的形式的原始内容,且不提供对含有针对概念的额外相关信息的主要参考源的特定章节的存取。取而代之,内容摘要提供呈从主要参考提取的片段和定义的形式的内容。对于用户(诸如,研究员、作家、教授、律师、学生等),当进行研究和/或准备原始出版物时,对主要参考的依赖是优选的。因而,当寻找关于特定概念的额外信息或背景研究时,呈现直接来自主要参考而非次级文章的信息的内容摘要可更有利。
除了优化识别与特定概念有关的片段和定义需要的存储要求和计算资源之外,在具有针对概念的相关且简明内容的动态生成的网页内按分层内容格式呈现内容(例如,利用圬工砖布局)增加了网页在搜索引擎结果内的排名。许多搜索引擎基于对网页的可存取速度和内容的质量来确定网页的排名。本文中描述的实施例生成具有针对特定概念的相关且简明内容的可易于存取的个别网页,其针对搜索引擎优化。通常,搜索引擎对网页或文本源内的内容评分以确定其排名。即,文章或书本可含有关于许多概念的论述,且总体上,可不被视为针对由搜索引擎运行的特定概念查询的高质量搜索结果。然而,当相关部分是从较大内容提取且按简明格式呈现时,其与典型搜索引擎的相关性增加。换句话说,可不识别含有针对特定概念的相关内容的网页、文章、书本、出版物等,因为在所述网页、文章、书本、出版物等内关于所述概念的内容或信息的格式化未按典型搜索引擎将视其相关的方式来呈现。通过从参考的文本语料库提取相关片段和定义且生成例如具有相关片段和定义的针对特定概念的动态生成的网页,由搜索引擎进行的网页的排名增加。此外,来自多种来源的针对概念的简明内容改善搜索引擎基于搜索查询识别相关信息源的能力。因此,搜索引擎结果的质量得到改善。
应理解,本文中展示和描述的系统和方法可用来生成针对一个或多个主题或概念的内容摘要。所述系统和方法接收科学、历史、法律或其它文献领域的未结构化的文本语料库。可对未结构化的文本语料库加注释,由此识别针对一个或多个概念的术语注释和元数据。可剖析有注释的数据以生成结构化的文件,用于特定概念的进一步提取、评分、过滤和排名。还应理解,虽然本文中对系统和方法的参考是针对确定针对特定概念的定义和片段,但许多概念可从未结构化的文本语料库提取,其中每一未结构化的文本语料库具有针对概念的自动生成的内容摘要的对应的定义和片段。
本文中使用的术语只是为了描述特定方面的目的,并且并不希望为限制性。如本文中所使用,单数形式“一(a和an)”和“所述”希望包括复数形式,包括“至少一个”,除非上下文另有清晰表示。“或”意味着“和/或”。如本文中所使用,术语“和/或”包括相关联的列出项中的一个或多个中的任何或所有组合。应进一步理解,术语“包括(comprises和/或comprising,或includes和/或including)”当在本说明书中使用时,指定所陈述特征、区域、整体、步骤、操作、元件和/或组件的存在,但不排除一个或多个其它特征、区域、整体、步骤、操作、元件、组件和/或其群组的存在或添加。术语“或其组合”意味着包括前述要素中的至少一个的组合。
注意,术语“大体上”和“约”可在本文中用来表示固有的不确定性程度,其可归因于任何定量比较、值、测量或其它表示。这些术语还在本文中用来表示定量表示可从所陈述参考变化而不导致讨论中的主体的基本功能的改变的程度。
虽然已在本文中说明和描述了特定实施例,但应理解,在不脱离所主张标的的精神和范围的情况下,可进行各种其它改变和修改。此外,虽然本文中已描述所主张标的的各种方面,但此类方面不需要按组合利用。因此希望所附权利要求书涵盖在所主张标的的范围内的所有此类改变和修改。

Claims (10)

1.一种自动生成主题内容摘要的方法,所述方法包括:
在计算装置处接收对于概念的分类;
在所述计算装置处接收未结构化的文本语料库;
基于所述分类从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释;
将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;
针对所述一个或多个术语注释中的每一个确定一个或多个特征;
从所述定制生成的文件对象提取针对所述概念的多个片段,其中所述多个片段中的每一个对应于所述定制生成的文件对象的一章节;
基于所述一个或多个特征对所述多个片段中的每一个评分,使得针对所述概念的所述多个片段中的每一个对应于综合评分,其中所述一个或多个特征包括以下中的至少一个:所述概念在所述章节中第一次出现的相对偏移、所述概念在所述章节中最后一次出现的相对偏移、所述概念在所述章节中总出现次数、所述章节中的语言符号的记数或在所述概念与所述章节的标题之间的相似度等级;
当符合一个或多个片段过滤条件时,从所述多个片段滤出一个或多个片段;
基于所述综合评分,将所述多个片段排名成针对所述概念的有序片段列表,其中所述有序片段列表中的第一片段是排名第一的片段并且比所述有序片段列表中的第二片段与所述概念更加相关;以及
将所述有序片段列表提供到用户计算装置。
2.根据权利要求1所述的方法,进一步包括:
从所述用户计算装置接收所述概念的查询;以及
显示来自所述有序片段列表的针对所述概念的预定义数目的片段。
3.根据权利要求2所述的方法,其中针对所述概念的所述预定义数目的片段显示于动态生成的网页内。
4.根据权利要求1所述的方法,其中所述未结构化的文本语料库包括来自一个或多个参考源的文本,且所述方法进一步包括:
从所述一个或多个参考源选择来自针对所述概念的所述有序片段列表的所述排名第一的片段;以及
抛弃来自所述一个或多个参考源中的每一个的针对所述概念的所述有序片段列表中的所有其它片段。
5.根据权利要求1所述的方法,其中对所述多个片段排名进一步基于确定具有针对所述概念的片段的所述章节的所述标题与所述概念之间的相似度,使得当将第一章节的第一标题确定为与所述概念相似时,在所述第一章节内的第一片段排名比第二章节的第二片段高,其中将所述第二章节的第二标题判定为不与所述概念相似。
6.根据权利要求1所述的方法,其中所述未结构化的文本语料库包括以下中的至少一个的一个或多个章节、段落或章:期刊文章、文件或书本。
7.根据权利要求1所述的方法,其中在所述分类内定义的所述概念包括优选标签和至少一个替代标签,其中所述优选标签和所述至少一个替代标签对应于在所述分类内的唯一共同概念ID。
8.根据权利要求1所述的方法,其中所述一个或多个片段过滤条件包括以下中的至少一个:所述章节内的语言符号的所述记数低于下阈值,所述章节内的语言符号的所述记数大于上阈值,或将所述章节识别为排除的章节。
9.一种自动生成主题内容摘要的方法,所述方法包括:
在计算装置处接收对于概念的分类;
在所述计算装置处接收未结构化的文本语料库;
基于所述分类从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释;
将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象,其中所述定制生成的文件对象定义所述有注释的数据集内的一个或多个句子;
识别针对所述概念的一个或多个潜在定义句子;
针对所述一个或多个潜在定义句子中的每一个确定一个或多个特征;
基于所述一个或多个特征对所述一个或多个潜在定义句子评分,使得所述一个或多个潜在定义句子中的每一个包括综合评分,其中所述一个或多个特征包括以下中的至少一个:标题权重、动词权重、句子权重或相似度权重,其中:
所述标题权重与包括所述一个或多个潜在定义句子中的一个的章节的标题与所述概念的相似度相关联,
所述动词权重与表示定义的动词的存在相关联,
所述句子权重与所述一个或多个潜在定义句子在所述章节的段落内的位置相关联,并且
所述相似度权重与藉由比较所述一个或多个潜在定义句子中的一个与所述概念的标准定义来定义的相似度评分相关联;
当符合一个或多个定义过滤条件时,滤出所述一个或多个潜在定义句子中的一个或多个;
基于所述综合评分,将所述一个或多个潜在定义句子排名成针对所述概念的有序定义列表,其中所述有序定义列表中的第一定义比所述有序定义列表中的第二定义与所述概念更加相关;以及
将所述有序定义列表提供到用户计算装置。
10.一种自动生成主题内容摘要的系统,其包括:
处理器;以及
耦合到所述处理器的非暂时性处理器可读存储器,所述非暂时性处理器可读存储器包括存储于其上的机器可读指令集,所述机器可读指令集在由所述处理器执行时使所述处理器:
接收对于概念的分类;
接收未结构化的文本语料库,其中所述未结构化的文本语料库包括来自一个或多个参考源的文本;
基于所述分类从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释;
将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;
针对所述一个或多个术语注释中的每一个确定一个或多个特征;
从所述定制生成的文件对象提取针对所述概念的多个片段,其中所述多个片段中的每一个对应于所述定制生成的文件对象的一章节;
基于所述一个或多个特征对所述多个片段中的每一个评分,使得针对所述概念的所述多个片段中的每一个对应于综合评分,其中所述一个或多个特征包括以下中的至少一个:所述概念在所述章节中第一次出现的相对偏移、所述概念在所述章节中最后一次出现的相对偏移、所述概念在所述章节中总出现次数、所述章节中的语言符号的记数或在所述概念与所述章节的标题之间的相似度等级;
当符合一个或多个片段过滤条件时,从所述多个片段滤出一个或多个片段;
基于所述综合评分,将所述多个片段排名成针对所述概念的有序片段列表,其中所述有序片段列表中的第一片段是排名第一的片段并且比所述有序片段列表中的第二片段与所述概念更加相关;以及
存储针对所述概念的所述有序片段列表。
CN201880045817.7A 2017-06-16 2018-06-15 自动生成主题内容摘要的系统和方法 Active CN110892399B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762520991P 2017-06-16 2017-06-16
US62/520,991 2017-06-16
PCT/US2018/037829 WO2018232290A1 (en) 2017-06-16 2018-06-15 Systems and methods for automatically generating content summaries for topics

Publications (2)

Publication Number Publication Date
CN110892399A CN110892399A (zh) 2020-03-17
CN110892399B true CN110892399B (zh) 2023-05-09

Family

ID=64658167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880045817.7A Active CN110892399B (zh) 2017-06-16 2018-06-15 自动生成主题内容摘要的系统和方法

Country Status (3)

Country Link
US (1) US11550835B2 (zh)
CN (1) CN110892399B (zh)
WO (1) WO2018232290A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544306B2 (en) 2015-09-22 2023-01-03 Northern Light Group, Llc System and method for concept-based search summaries
US11886477B2 (en) 2015-09-22 2024-01-30 Northern Light Group, Llc System and method for quote-based search summaries
US11226946B2 (en) 2016-04-13 2022-01-18 Northern Light Group, Llc Systems and methods for automatically determining a performance index
CA3060811A1 (en) * 2018-10-31 2020-04-30 Royal Bank Of Canada System and method for cross-domain transferable neural coherence model
US11288456B2 (en) * 2018-12-11 2022-03-29 American Express Travel Related Services Company, Inc. Identifying data of interest using machine learning
US11017179B2 (en) 2018-12-28 2021-05-25 Open Text Sa Ulc Real-time in-context smart summarizer
US11790170B2 (en) * 2019-01-10 2023-10-17 Chevron U.S.A. Inc. Converting unstructured technical reports to structured technical reports using machine learning
US11003840B2 (en) 2019-06-27 2021-05-11 Open Text Corporation System and method for in-context document composition using subject metadata queries
US11080317B2 (en) * 2019-07-09 2021-08-03 International Business Machines Corporation Context-aware sentence compression
FR3102276A1 (fr) * 2019-10-17 2021-04-23 Amadeus Procedes et systemes pour résumer des document multiples en utilisant une approche d’apprentissage automatique
US11620351B2 (en) * 2019-11-07 2023-04-04 Open Text Holdings, Inc. Content management methods for providing automated generation of content summaries
US11423114B2 (en) 2019-11-07 2022-08-23 Open Text Holdings, Inc. Content management systems for providing automated generation of content suggestions
US11256735B2 (en) 2019-11-07 2022-02-22 Open Text Holdings, Inc. Content management systems providing automated generation of content summaries
US11216521B2 (en) 2019-11-07 2022-01-04 Open Text Holdings, Inc. Content management methods for providing automated generation of content suggestions
US11061951B2 (en) * 2019-11-21 2021-07-13 International Business Machines Corporation Unsupervised attention based scientific document summarization
US11436267B2 (en) * 2020-01-08 2022-09-06 International Business Machines Corporation Contextually sensitive document summarization based on long short-term memory networks
US11475222B2 (en) * 2020-02-21 2022-10-18 International Business Machines Corporation Automatically extending a domain taxonomy to the level of granularity present in glossaries in documents
CN111460083B (zh) * 2020-03-31 2023-07-25 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
US11531708B2 (en) 2020-06-09 2022-12-20 International Business Machines Corporation System and method for question answering with derived glossary clusters
CN111680152B (zh) * 2020-06-10 2023-04-18 创新奇智(成都)科技有限公司 目标文本的摘要提取方法及装置、电子设备、存储介质
CN112052308A (zh) * 2020-08-21 2020-12-08 腾讯科技(深圳)有限公司 一种摘要文本提取方法、装置、存储介质和电子设备
US20220114328A1 (en) * 2020-10-09 2022-04-14 LiquidText, Inc. Dynamic project views of a virtual workspace to facilitate active reading
CN112487293B (zh) * 2020-11-30 2024-07-26 增长引擎(北京)信息技术有限公司 一种安全事故案例结构化信息抽取方法、装置及介质
US11880653B2 (en) * 2020-12-11 2024-01-23 International Business Machines Corporation Providing customized term explanation
CN112818077B (zh) * 2020-12-31 2023-05-30 科大讯飞股份有限公司 文本处理方法、装置、设备及存储介质
US11928180B2 (en) * 2021-03-18 2024-03-12 International Business Machines Corporation Automatic ground truth selection
CN113420142A (zh) * 2021-05-08 2021-09-21 广东恒宇信息科技有限公司 一种个性化自动文摘算法
US12045243B2 (en) * 2021-12-04 2024-07-23 International Business Machines Corporation Ranking entity search results based on information density
CN114722836B (zh) * 2022-05-12 2022-09-02 北京中科闻歌科技股份有限公司 摘要生成方法、装置、设备及介质
CN114741499B (zh) * 2022-06-08 2022-09-06 杭州费尔斯通科技有限公司 一种基于句子语义模型的文本摘要生成方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
WO2016142846A1 (en) * 2015-03-09 2016-09-15 Koninklijke Philips N.V. Systems and methods for semantic search and extraction of related concepts from clinical documents
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
HK1220319A2 (zh) * 2016-07-29 2017-04-28 李應樵 基於結構化網絡知識的自動中文本體庫建構方法、系統及計算機可讀介質

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689536B1 (en) * 2003-12-18 2010-03-30 Google Inc. Methods and systems for detecting and extracting information
NO20052215L (no) 2005-05-06 2006-11-07 Fast Search & Transfer Asa Fremgangsmate til bestemmelse av kontekstuell sammendragsinformasjon over dokumenter
US8706730B2 (en) 2005-12-29 2014-04-22 International Business Machines Corporation System and method for extraction of factoids from textual repositories
WO2008055034A2 (en) 2006-10-30 2008-05-08 Noblis, Inc. Method and system for personal information extraction and modeling with fully generalized extraction contexts
US20080195567A1 (en) 2007-02-13 2008-08-14 International Business Machines Corporation Information mining using domain specific conceptual structures
US20110184960A1 (en) 2009-11-24 2011-07-28 Scrible, Inc. Methods and systems for content recommendation based on electronic document annotation
US9367608B1 (en) * 2009-01-07 2016-06-14 Guangsheng Zhang System and methods for searching objects and providing answers to queries using association data
US8375033B2 (en) 2009-10-19 2013-02-12 Avraham Shpigel Information retrieval through identification of prominent notions
US8150859B2 (en) * 2010-02-05 2012-04-03 Microsoft Corporation Semantic table of contents for search results
US8954425B2 (en) 2010-06-08 2015-02-10 Microsoft Corporation Snippet extraction and ranking
US8874553B2 (en) * 2012-08-30 2014-10-28 Wal-Mart Stores, Inc. Establishing “is a” relationships for a taxonomy
WO2014081727A1 (en) 2012-11-20 2014-05-30 Denninghoff Karl L Search and navigation to specific document content
WO2014093935A1 (en) 2012-12-16 2014-06-19 Cloud 9 Llc Vital text analytics system for the enhancement of requirements engineering documents and other documents
US9501569B2 (en) * 2013-04-23 2016-11-22 Microsoft Technology Licensing, Llc Automatic taxonomy construction from keywords
US9864738B2 (en) * 2014-09-02 2018-01-09 Google Llc Methods and apparatus related to automatically rewriting strings of text
CA2983159A1 (en) * 2015-04-21 2016-10-27 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for generating concepts from a document corpus
US10372742B2 (en) * 2015-09-01 2019-08-06 Electronics And Telecommunications Research Institute Apparatus and method for tagging topic to content
US9946703B2 (en) * 2016-08-18 2018-04-17 Microsoft Technology Licensing, Llc Title extraction using natural language processing
US10614141B2 (en) * 2017-03-15 2020-04-07 Facebook, Inc. Vital author snippets on online social networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
WO2016142846A1 (en) * 2015-03-09 2016-09-15 Koninklijke Philips N.V. Systems and methods for semantic search and extraction of related concepts from clinical documents
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法
HK1220319A2 (zh) * 2016-07-29 2017-04-28 李應樵 基於結構化網絡知識的自動中文本體庫建構方法、系統及計算機可讀介質

Also Published As

Publication number Publication date
US20180365323A1 (en) 2018-12-20
WO2018232290A1 (en) 2018-12-20
CN110892399A (zh) 2020-03-17
US11550835B2 (en) 2023-01-10

Similar Documents

Publication Publication Date Title
CN110892399B (zh) 自动生成主题内容摘要的系统和方法
US11720572B2 (en) Method and system for content recommendation
US8751218B2 (en) Indexing content at semantic level
US8005858B1 (en) Method and apparatus to link to a related document
US8156053B2 (en) Automated tagging of documents
US20110161309A1 (en) Method Of Sorting The Result Set Of A Search Engine
US20150120738A1 (en) System and method for document classification based on semantic analysis of the document
Verberne et al. Evaluation and analysis of term scoring methods for term extraction
US20150112664A1 (en) System and method for generating a tractable semantic network for a concept
US20090182723A1 (en) Ranking search results using author extraction
US8856119B2 (en) Holistic disambiguation for entity name spotting
Spasić et al. FlexiTerm: a flexible term recognition method
WO2010107327A1 (en) Natural language processing method and system
US20110282858A1 (en) Hierarchical Content Classification Into Deep Taxonomies
Singh et al. A novel unsupervised corpus-based stemming technique using lexicon and corpus statistics
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
WO2009017464A1 (en) Relation extraction system
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Litvak et al. Degext: a language-independent keyphrase extractor
Singh et al. An efficient corpus-based stemmer
US20190155912A1 (en) Multi-dimensional query based extraction of polarity-aware content
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
Al-Lahham Index term selection heuristics for Arabic text retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant