CN105765566A - 标题的自动生成 - Google Patents
标题的自动生成 Download PDFInfo
- Publication number
- CN105765566A CN105765566A CN201480045648.9A CN201480045648A CN105765566A CN 105765566 A CN105765566 A CN 105765566A CN 201480045648 A CN201480045648 A CN 201480045648A CN 105765566 A CN105765566 A CN 105765566A
- Authority
- CN
- China
- Prior art keywords
- grammatical pattern
- pattern
- news
- equivalent
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
从文档的语料库学习等同语法模式的多个集合。接收一个或多个输入文档的集合。针对与等同语法模式的多个集合中的一个等同语法模式的集合相匹配的一个或多个表达处理所述一个或多个输入文档的集合。从所述等同语法模式的集合中为标题选择语法模式。所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件。使用所述语法模式生成标题。
Description
相关申请的交叉引用
本申请要求于2013年6月27日提交的题为“AutomaticGenerationofHeadlines”的美国临时申请No.61/840417以及于2013年10月22日提交的题为“AutomaticGenerationofHeadlines”的美国专利申请No.14/060562的权益;上述每份申请的全部内容通过引用结合于此。
背景技术
本公开涉及自动生成标题。
为了为新闻文章生成标题,一些当前的方法包括手动生成标题或自动从文章中识别并选择句子作为题目。然而,这些方法经常无法进行扩展以覆盖从web所爬行得到的新闻。这有时可能是由于需要大量的人工介入或者该方法是基于具有一致的内容和格式的文章的模型集合,其中从web所爬行得到的文章经常具有变化的内容和格式。
一些现有解决方案试图使用文章的主要段落作为那些文章的标题。然而,这些解决方案经常并不切合实际,原因在于重要的信息可能跨文章中的若干句子进行分布,或者所选择的句子可能比所期望或可允许的标题尺寸更长。为了减小句子的尺寸,一些解决方案已经尝试对句子中的单词进行重新排序。然而,它们所使用的重新排序的技术所产生的标题容易包含有不正确的语法。选择一个或多个句子并且随后将它们减小为目标标题尺寸的其它方法依赖于手动的监管和/或注解,并且因此通常无法进行扩展且一般仅能够应用于单个文档而并不是两个或更多新闻文章的集合。
此外,由于保持数据库为最新所需的人力工作的水平,经常难以利用最新标题保持对知识数据库的更新。例如,在一些现有系统中,如果发生了明显的事件,则知识数据库必须利用有关该事件的信息进行手动更新。
发明内容
根据本公开中所描述的主题的一个新颖方面,一种系统从文档的语料库学习等同语法模式的多个集合。所述系统接收一个或多个输入文档的集合。所述系统针对与所述等同语法模式的多个集合中的等同语法模式集合相匹配的一个或多个表达处理所述一个或多个输入文档的集合。所述系统从所述等同语法模式的集合中为标题选择语法模式,所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件。所述系统使用所述语法模式生成所述标题。
一般地,根据本公开中所描述的主题的另一个新颖方面可以以包括从文档的语料库学习等同语法模式的多个集合的方法来实现;接收一个或多个输入文档的集合;针对与所述等同语法模式的多个集合中的一个等同语法模式的集合相匹配的一个或多个表达处理所述一个或多个输入文档的集合;从所述等同语法模式的集合中为标题选择语法模式,所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件;并且使用所述语法模式生成所述标题。
这些方面中的一个或多个的其它实施方式包括相对应的系统、装置,以及在计算机存储设备上进行编码的被配置成执行所述方法的动作的计算机程序。
这些和其它实施方式可选地均可以包括以下特征中的一个或多个。例如,所述操作可以进一步包括将所述等同语法模式的多个集合映射至知识图中的相对应的项目;从与所述等同语法模式的集合相匹配的所述一个或多个表达确定一个或多个实体;确定所述知识图中与所述一个或多个表达所描述的所述一个或多个实体相对应的一个或多个条目;更新所述知识图中的所述一个或多个条目以使用所述标题反映主要事件;对来自所述一个或多个表达的一个或多个实体进行处理;生成所述标题包括用所述一个或多个实体填充所述语法模式;接收相关文档的多个集合;针对所述相关文档的多个集合中的每一个,确定涉及相对应信息的表达;基于所述表达确定等同语法模式的多个集合;将所述等同语法模式的多个集合存储在数据存储中;使用概率模型确定附加的隐藏语法模式以包括在所述等同语法模式的多个集合中的一个或多个之中;确定从所述一个或多个输入文档所处理的表达的数目满足预定证据阈值;并且基于满足所述证据阈值而确定所述等同语法模式的集合与所述一个或多个输入文档的集合相关。例如,所述特征可以包括,所述一个或多个输入文档的集合包括相关新闻文章的新闻集合。
这里所描述的技术在许多方面是有利的。例如,该技术能够学习等同表达的模型并且使用它来理解一个或多个新闻文档中所报告的主要事件是什么,并且能够进行扩展从而处理web大小的数据,在系统的一次运行之中对数以百万计的新闻文章进行处理。此外,该技术能够基于描述自动学习的事件的等同表达而针对并未在原始文档中出现的一个或数个文档生成标题。在一些情况下,这可以提供生成并不受到版权影响的标题的好处(因为它们并未使用与所公开的作品相同的词语)。该技术还能够自动确定所学习模式之间的关联性以及知识库中的关系,并且在对有关各种实体的最新新闻进行处理时更新那些关系。作为结果,使用该技术能够使保持知识库更新的过程完全自动化,因此并不需要人为注解。
然而,应当理解的是,该特征和优势的列举并不是无所不包的,并且许多另外的特征和优势得以被构想到并落入本公开的范围之内。此外,应当理解的是,本公开中所使用的语言原则上已经出于可靠性和指示性的目的进行了选择,而并不对这里所公开的主题的范围加以限制。
附图说明
在附图的图中通过示例而非限制的方式对本公开进行图示,其中同样的附图标记被用来指代相似的要素。
图1是图示用于自动生成标题并且保持最新知识图的示例系统的框图。
图2是图示示例新闻系统的框图。
图3是用于自动生成标题的示例方法的流程图。
图4是用于基于来自新闻文档的实体和事件而将等同语法模式聚类为多个集合的示例方法的流程图。
图5A至B是有关基于等同语法模式的集群为新闻文档生成标题的示例方法的流程图。
图6是用于基于等同语法模式的集群自动更新知识图的示例方法的流程图;
图7是描绘示例模式确定处理的示例方法。
图8描绘了示例的概率模型。
图9是图示用于生成相关抽象标题的示例方法的框图。
图10是包括样本相关抽象标题的示例图形用户界面。
具体实施方式
新闻事件经常被以不同方式进行报道,例如由各个新闻机构从多个视角进行报道,而不是从单一视角被报道。不同新闻机构可以以不同方式对给定事件进行解释,并且各个国家或地区根据其如何受到影响而可能侧重于该事件的不同方面,或者以不同方式对那些方面进行描述。此外,通常在该事实之后撰写有关事件的观点和深度分析。各种内容和风格可以是机会以及挑战。例如,不同新闻源对给定事件进行描述的方式能够提供对于概括有用的冗余性,因为主要新闻源所报道的信息内容经常最能够表示该事件的中心部分。然而,考虑到这些不同文章的多样性和主观性,会难以以客观方式明确表达出发生了什么。
作为非限制性示例,表1示出了在报道两个示例名人—杰出篮球球员JamesJones和著名女演员JillAnderson—之间的婚礼的新闻中所观察到的不同标题。
如能够从以上示例标题中所看到的,存在广泛的各种方式来报道相同的事件,包括不同观点、侧重方面、以及带有观点的评论。当在基于新闻的信息检索或推荐系统中向用户呈现该事件时,不同的事件描述可以是更为适宜的。例如,用户可能仅对客观的信息性概述感兴趣,而无需对报道者的部分进行任何解释。
考虑到相关文档(例如,具有来自表1的标题的新闻文章)的集合,这里所描述的技术包括一种系统,该系统能够从该集合生成描述主要(例如,最为重要/突显/相关的)事件的紧凑、信息性和/或无偏见的题目(例如,标题)。该技术是具有完全开放域能力的并且能够扩展至web规模的数据。通过学习跨越单个新闻故事或新闻集合的界限来概括事件,该技术能够产生客观传达相关信息的紧凑且有效的标题。例如,该技术能够跨越涉及相同事件的同义表达进行概括,并且是以抽象的方式进行,从而产生具有新颖性、客观性、和普遍性的标题。所生成的标题在一些情况下甚至在新闻集合中的任何文档中都未被提及/包括。
在一些实施方式中,该技术能够从web规模的新闻语料库处理语法模式并且使用Noisy-OR模型将那些模式生成为事件描述。在推理时,该技术能够利用在新的/之前未见过的新闻集合中所观察到的模式查询该模型,识别出以最佳方式捕捉到该集合的主旨的事件,并且检索出最为适宜的模式以生成标题。该技术之所以是有利的是因为其能够产生如用ROUGE(用于评估概述的标准软件包)所评估的与人类所生成的标题作用相当的标题,而并不需要人为评估和/或介入。
这里所描述的技术还可以被用来为单一的新闻文档生成标题。例如,输入(例如,新闻集合)可以仅包括一篇文档并且输出可以是描述该输入中所报道的最为突显的事件的标题。该技术还能够针对新闻中所提到的实体(例如,位置、公司或名人)的用户所选择的子集而生成标题。该技术能够有利地利用通过其所执行的标题处理以用当前事件和信息保持知识库为最新。
图1是用于自动生成标题并且保持最新知识图的示例系统100的框图。所图示的系统100包括客户端设备106a…106n(也被单独和/或共同称作106)、新闻服务器128a…128n(也被单独和/或共同称作128)、新闻系统116、和服务器132,它们经由网络102互相通信地耦合以便互相进行交互。例如,客户端设备106a…106n可以经由信号线路104a…104n分别耦合至网络102,并且如线条110a…110n所图示的能够由用户112a…112n(也被单独和/或共同称作112)进行访问。新闻服务器128a…128n可以经由信号线路126a…126n分别耦合至网络102,并且新闻系统116可以经由信号线路114耦合至网络102。服务器132可以经由信号线路134耦合至网络102。在附图标记中使用命名方式“a”和“n”指示系统100可以包括任何数目的具有该命名方式的那些元件。
应当理解的是,图1中所图示的系统100表示用于生成标题并且保持最新知识图的示例系统,并且各种不同的系统环境和配置得以被预见到并且处于本公开的范围之内。例如,各种功能可以从服务器移动至客户端或反之亦然,并且一些实施方式可以包括附加的或更少的计算设备、服务、和/或网络,并且可以在客户端或服务器侧实现各种功能。另外,该系统的各种实体可以被整合到单个计算设备或系统或附加的计算设备或系统等之中。
网络102可以包括任何数目和/或类型的网络,并且可以表示单个网络或多个不同网络。例如,网络102可以包括但并不局限于一个或多个局域网(LAN)、广域网(WAN)(例如,互联网)、虚拟私有网络(VPN)、移动(蜂窝)网络、无线广域网(WWAN)、网络、通信网络,它们的各种组合,等等。
客户端设备106a…106n(也被单独和/或共同称作106)是具有数据处理和通信能力的计算设备。在一些实施方式中,客户端设备106可以包括处理器(例如,虚拟、物理等)、存储器、电源、通信单元,和/或其它软件和/或硬件组件,其它软件和/或硬件组件例如包括显示器、图形处理器、无线收发器、键盘、相机、传感器、固件、操作系统、驱动器、各种物理连接接口(例如,USB、HDMI等)。客户端设备106a…106n可以使用无线和/或有线连接经由网络102互相耦合和通信以及耦合至系统100中的其它实体并且与之进行通信。
客户端设备106的示例可以包括但并不局限于移动电话、平板电脑、膝上型计算机、桌面型计算机、上网本、服务器装置、服务器、虚拟机、电视机、机顶盒、媒体流设备、便携式媒体播放器、导航设备、个人数字助理等。虽然图1中描绘了两个或更多的客户端设备106,但是系统可以包括任何数目的客户端设备106。此外,客户端设备106a…106n可以是相同或不同类型的计算设备。
在所描绘的实施方式中,客户端设备106a…106n分别包含客户端应用的实例108a…108n(也被单独和/或共同称作108)。客户端应用108可以能够存储在存储器(未示出)中并且能够由客户端设备106的处理器(未示出)来执行。客户端应用108可以包括浏览器应用(例如,web浏览器、专用app等),所述浏览器应用能够检索、存储、和/或处理系统100中的一个或多个实体(例如,新闻服务器128和/或新闻系统116)所托管的信息并且将该信息呈现在客户端设备106上的显示设备(未示出)上。
新闻服务器128a…128n(也被单独和/或共同称作128)和服务器132均可以包括一个或多个具有数据处理、存储、和通信能力的计算设备。例如,新闻服务器128和/或服务器132可以包括一个或多个硬件服务器、服务器阵列、存储设备、虚拟设备和/或系统等。在一些实施方式中,新闻服务器128a…128n和/或服务器132可以包括一个或多个虚拟服务器,它们在主机服务器环境中进行操作并且经由抽象层(例如,虚拟机管理器)访问例如包括处理器、存储器、存储、网络接口等的主机服务器的物理硬件。
在所描绘的实施方式中,新闻服务器128a…128n包括发布引擎130a…130n(也被单独和/或共同称作130),所述发布引擎130a…130n能够进行操作以提供各种计算功能、服务、和/或资源,并且向网络102中的其它实体发送数据和从其接收数据。例如,发布引擎130可以实现新闻源,所述新闻源经由网络102提供、发布、和/或聚合(syndicate)有关各种不同主题的新闻。来自这些新闻源的内容(例如,新闻)可以由网络中例如包括搜索引擎118的一个或多个组件进行聚集。
新闻可以包括如由所建立的新闻源、博客、微博、社交媒体流、网站发布和/或更新、各种格式(例如,HTML、RSS、XML、JSON等)的新闻馈送等所提供的新的信息。在一些实例中,发布引擎130提供有关正在发生的(例如,实时的)事件的文档,正在发生的事件包括例如地区新闻、国家新闻、体育、政治、世界新闻、娱乐、研究、技术、本地事件和新闻等,并且用户112可以访问新闻门户来消费内容。文档可以包括例如包括文本、照片、视频等的任何类型的数字内容。新闻服务器128能够在网络102上被访问和识别,并且系统100的其它实体可以从新闻服务器128请求并接收信息。在一些实施方式中,新闻可以由用户在社交网络、微博、或者用户可以在其上互相广播信息的其它以社交方式启用的计算平台上所提交的内容(例如,发布)所实现。
新闻系统116是能够聚集新闻并处理新闻集合,自动学习等同语法模式,并且使用该语法模式自动生成标题并更新知识图的计算系统。另外,应当理解的是,以其它可应用的方式,新闻系统116所生成的标题、所执行的训练和所执行的知识图管理可以实时(例如,在用户请求时)完成,可以在新闻集合被搜索引擎118所聚集时针对它们进行处理,可以以规律的时间间隔(例如,(数)分钟、(数)小时、(数)天、每天结束时等)进行处理。在一些实例中,新闻系统116可以为用户提供搜索相关新闻文档并且接收包含相关标题以及有关用户所感兴趣的新闻对象的新闻集合的新闻概要的能力。在所描绘的实施方式中,新闻系统116包括搜索引擎118、标题生成引擎120、知识图管理引擎122、知识图124a、和新闻门户125。
搜索引擎118可以出于可搜索性和可检索性而从各种新闻源聚集新闻文档,和/或将新闻文档存储在数据存储中以供后续进行访问和/或检索。在一些实施方式中,搜索引擎118可以为存储在经由网络102进行互连的各种实体上的文档而对那些实体进行爬行,上述文档例如包括web内容(例如,HTML、便携式文档、音频和视频内容、图像)、结构化数据(例如,XML、JSON)、对象(例如,可执行的)等。搜索引擎118可以对文档(和/或针对其的增量更新)进行聚集、为了最优可搜索性而对所聚集的数据进行处理、并且将经聚集/处理的数据提供至系统100的其它组件和/或存储在数据存储(例如,图2A中的数据存储210)中作为聚集数据214以由系统100的其它组件进行访问和/或检索,上述组件例如包括标题生成引擎120和/或其构成组件、知识图管理引擎122、和/或新闻门户125。搜索引擎118可以耦合至这些组件、数据存储210、和/或知识图124a…124n(也被单独和/或共同称作124)以发送和/或接收数据。
在一些实施方式中,搜索引擎118可以经由网络102与新闻服务器128的发布引擎130进行交互以聚集新闻文档,将该新闻文档处理为相关集合,并且将经聚集的新闻文档集合存储和/或提供至新闻系统116的其它组件。例如,搜索引擎118可以基于时间紧密度和/或余弦相似性(例如,使用矢量空间模型和权重)对经聚集的文档进行分组而从它们生成新闻集合。在一些实例中,新闻集合可以包括单个文档。在另外的实例中,新闻集合可以包括任何数目的文档(例如,2+、5+、50+等)。
标题生成引擎120(例如,如图2所示的模式引擎220和/或训练引擎222)可以接收(例如,从数据存储210、搜索引擎118等)相关新闻文档的集合,并且针对事件和实体的等同语法模式的集群而对它们中的每一个进行处理。标题生成引擎120(例如,如图2所示的推理引擎224)可以基于等同语法模式的集群而针对新闻文档的集合自动生成标题。
知识图管理引擎122可以基于等同语法模式的集群对知识图124a…124n自动进行更新。知识图124可以包括用于存储所组织信息并且对其提供访问的数据库。在一些实施方式中,知识图124可以将实体相对于它们在世界中的位置以及它们的关系进行组织。知识图可以实现如百科全书或其它知识源的知识语料库。知识图可以包括一个或多个计算设备和非暂时性存储介质以供处理数据、存储数据、并且提供对数据的访问。在一些实施方式中,知识图可以与新闻系统116进行整合或者可以包括在例如包括服务器132的不同于新闻系统116的计算设备或系统之中。知识图的非限制性示例包括Freebase、Wikipedia等。如这里其它地方所进一步讨论的,这里所描述的技术之所以是有利的是因为其能够减少保持知识图为最新所需的人为工作。
利用新闻门户125,用户可以对使用标题生成引擎120所生成的标题所概括的各种新闻集合进行访问、接收有关其的警告、分享、赞同等。在一些实施方式中,新闻门户125可以在不同于新闻系统116的计算系统(例如,服务器)中进行托管。应当理解的是,虽然该技术利用新闻为场境进行描述,但是其能够应用于包括例如社交媒体(例如,社交网络、微博、博客等)的任何内容平台,并且能够被这些计算设备用来概括内容发布、热门活动等。
在一些实施方式中,新闻门户125包括能够执行以确定与一个或多个对象相关联的一个或多个新闻集合和/或相对应的文档,并且生成并提供包括(多个)新闻集合和/或(多个)文档的新闻概括。在一些实施方式中,新闻概括可以响应于搜索查询而生成并且可以基于查询的参数被生成。示例参数可以包括描述一个或多个对象、时间帧、所要包括的文档和/或集合的数目、归类准则等。例如,搜索查询可以包括对象(例如,人、事情、事件、主题等)的名称。在一些实例中,查询参数可以包括能够处理并与所存储数据进行匹配的文本、图像、音频、视频、和/或任何其它数据结构。
新闻门户125可以基于新闻集合和/或它们的组成文档的相关性而针对给定对象确定所要包括的信息。例如,搜索引擎118可以针对新闻集合生成相关性排名并且将该排名与数据存储210中的相对应新闻相关联进行存储。在概括中,新闻门户125可以包括新闻系统116针对新闻集合所生成的标题连同每个新闻集合和/或新闻概括中所包括的文档的一般性描述。描绘出能够由新闻门户125所生成的示例概括的用户界面在图10中进行描绘,并且在这里的其它地方更为详细地进行讨论。新闻集合的一般性描述可以基于组成该新闻集合的文档而生成。新闻门户125可以基于时间、相关性、事件类型、用户定义准则等将项目进行归类以包括在新闻概括中。例如,新闻概括可以是与所查询的一个或多个对象相关联的最为相关的事件按照年代排序的新闻概括。
新闻门户125所提供的新闻概括可以由新闻门户125进行处理以包括呈现信息,并且客户端应用108可以使用该呈现信息来形成用户界面的外观和感觉并且随后经由该用户界面向用户112呈现信息。例如,新闻概括可以使用标记语言(例如,HTML、XML等)、样式表(例如,CSS、XSL等)、图形、和/或脚本(例如,JavaScript、ActionScript等)进行格式化,并且客户端应用108可以对界面指令进行解释并且呈现交互式Web用户界面(WUI)以用于基于其在用户设备106上进行显示。在一些实施方式中,客户端应用108可以独立地确定用户界面的格式化以及外观和感觉。例如,客户端应用108可以接收包括新闻概括的结构化数据集(例如,JSON、XML等),并且可以在客户端侧确定用户界面的格式和/或外观和感觉。使用客户端应用108所呈现的用户界面,用户能够输入选择各种用户动作的命令。例如,使用这些界面,用户能够传送搜索请求、隐含地请求针对搜索的建议、观看搜索建议并与之进行交互、观看新闻概括及其组成要素并与之进行交互,等等。
新闻门户125可以耦合至网络102以将新闻概括发送至例如包括客户端设备106的请求它们的计算设备。新闻门户125还可以耦合至标题生成引擎120的其它组件以发送和/或接收数据。
在一些实施方式中,新闻门户125可以基于针对报道关于给定实体的新闻的新闻集合所生成的标题而针对该实体生成搜索建议。例如,新闻门户125可以接收建议请求、从该请求确定搜索参数、并且生成并提供搜索建议。在一些实施方式中,该请求可以是客户端应用108(例如,web浏览器)向新闻系统116所传送的异步请求,并且作为响应,新闻门户125可以生成包括建议的结构数据集(例如,JSON、XML等),并且将该数据集传送回客户端设备106以用于(接近)实时地进行呈现。
新闻门户125可以基于由推理引擎224所处理的标题(例如,标题数据)而确定建议。在一些实施方式中,基于搜索引擎118所进行的连续聚集、训练引擎222所进行的训练、推理引擎224所进行的标题生成、和/或知识图管理引擎122所进行的知识管理,标题数据包括有关给定实体的最新的标题和/或事件,并且新闻门户125可以基于该标题生成建议并且响应于请求提供它们。
新闻门户125可以耦合至网络102以向系统100中例如客户端设备106的其它实体提供搜索建议。新闻门户125还可以耦合至数据存储210(例如,直接地、网络、API等)以检索、存储、或者以其它方式操控例如包括实体相关数据、标题数据等的数据。
由于用户经常搜索关于正在发生或刚刚发生的重要事件的信息,并且新闻系统116能够提供关于那些事件和/或相关实体的最为当前、有用、相关、流行、可靠等的信息的准确描述,而无论其是否以搜索建议、新闻概况、或者由新闻系统116(例如,经由电子消息警告、社交网络更新等)提供给用户的其它内容的形式。
以下至少关于图2对新闻系统116的附加功能进行更为详细地描述。
图2是示例新闻系统116的框图。如所描绘的,新闻系统116可以包括处理器202、存储器204、通信单元208、数据存储210、和知识图124,它们可以由通信总线206通信地耦合。图2中所描绘的新闻系统116是作为示例而提供,并且应当理解的是,其可以采用其它形式并且包括另外或较少的组件而并不背离本公开的范围。例如,新闻系统116的各种组件可以驻留在相同或不同的计算设备上并且可以进行耦合以用于使用各种通信协议和/或技术进行通信,所述各种通信协议和/或技术例如包括通信总线、软件通信机制、计算机网络等。
处理器202可以通过执行各种输入/输出、逻辑、和/或数学运算来执行软件指令。处理器202可以具有各种计算架构以处理数据信号,该数据信号例如包括复杂指令集计算机(CISC)架构、精简指令集计算机(RISC)架构,和/或实现指令集的组合的架构。处理器202可以是物理的和/或虚拟的,并且可以包括单个处理单元或多个处理单元和/或核心。在一些实施方式中,处理器202可以能够生成电子显示信号并且将其提供给显示设备(未示出)、支持图像的显示、捕捉并传送图像、执行包括各种类型的特征提取和采样的复杂任务,等等。在一些实施方式中,处理器202可以经由总线206耦合至存储器204以从那里访问数据和指令并且将数据存储于其中。总线206可以将处理器202耦合至例如包括存储器204、通信单元208、和数据存储210的新闻系统106的其它组件。
存储器204可以将数据存储至新闻系统116的其它组件并且提供对其的访问。如这里其它地方所讨论的,存储器204可以包括在单个计算设备或多个计算设备之中。在一些实施方式中,存储器204可以存储可以由处理器202所执行的指令和/或数据。例如,如所描绘的,存储器204可以存储搜索引擎118、标题生成引擎120、知识图管理引擎122、和新闻门户125。存储器204还能够存储例如包括操作系统、硬件驱动器、其它软件应用、数据库等的其它指令和数据。存储器204可以耦合至总线206以用于与处理器202和新闻系统116的其它组件进行通信。
存储器204包括一个或多个非暂时性计算机可用(例如,可读、可写等)介质,其可以是能够包含、存储、通信、传播或传输指令、数据、计算机程序、软件、代码、例程等以用于由处理器202处理或者结合其进行处理的任何有形装置或设备。在一些实施方式中,存储器204可以包括一个或多个易失性存储器和非易失性存储器。例如,存储器204可以包括但并不局限于动态随机存取存储器(DRAM)设备、静态随机访问存储器(SRAM)设备、嵌入式存储器设备、离散存储器设备(例如,PROM、FPROM、ROM)、硬盘驱动器、光盘驱动器(CD、DVD、蓝光TM等)中的一种或多种。应当理解的是,存储器204可以是单个设备或者可以包括多种类型的设备和配置。
总线206可以包括用于在计算设备的组件之间或者在计算设备之间转移数据的通信总线,包括网络102或者其部分的网络总线系统、处理器网、各种连接器、它们的组合,等等。在一些实施方式中,在新闻系统116上进行操作的搜索引擎118、标题生成引擎120、和知识图管理引擎122可以经由与总线206相关联实现的软件通信机制进行协作和通信。该软件通信机制可以包括和/或有助于例如处理间通信、本地函数或过程调用、远程过程调用、对象代理(例如,CORBA)、软件模块之间的直接套接字通信(例如,TCP/IP套接字)、UDP广播和接收、HTTP连接等。另外,任何或全部的通信可以是安全的(例如,SSH、HTTPS等)。
通信单元208可以包括用于与网络102以及系统100的其它实体和/或组件进行有线和/或无线连接的一个或多个接口设备,上述实体和/或组件例如包括客户端设备106、新闻服务器128等。例如,通信单元208可以包括但并不局限于CAT类型的接口;用于使用WiFiTM、蜂窝通信等发送和接收信号的无线收发器;USB接口;它们的各种组合;等等。通信单元208可以经由信号线路114耦合至网络102并且可以经由总线206耦合至新闻系统116的其它组件。在一些实施方式中,通信单元208可以将处理器202链接至网络102,网络102可以进而耦合至其它处理系统。通信单元208可以使用各种标准通信协议而提供去往网络102和系统100的其它实体的其它连接,上述标准通信协议例如包括这里的其它地方所讨论的那些。
数据存储210是用于存储数据并提供对所述数据的访问的信息源。在一些实施方式中,数据存储210可以经由总线206耦合至新闻系统116的组件202、204、208、118、120、122、124、和/或125以接收数据并提供对所述数据的访问。在一些实施方式中,数据存储210可以存储从系统100的其它实体106、128、和132所接收到的数据,并且提供对这些实体的数据访问。数据存储210所存储的数据类型的示例可以包括但并不局限于训练数据212(例如,所学习的语法模式、(多个)概率模型、实体集群等)、聚集数据214(例如,搜索引擎118所聚集并处理的文档)、新闻集合数据、文档数据、事件数据、实体数据、用户数据等。
数据存储210可以包括一个或多个非暂时性计算机可读介质以用于存储数据。在一些实施方式中,数据存储210可以与存储器204进行整合或者可以与之有所不同。在一些实施方式中,数据存储210可以包括能够由新闻系统116进行操作的数据库管理系统(DBMS)。例如,该DBMS可以包括结构化查询语言(SQL)DBMS、NoSQLDBMS、它们的各种组合,等等。在一些实例中,DBMS可以在由行和列所组成的多维表格中存储数据,并且使用程序操作对数据行进行操纵,即插入、查询、更新和/或删除。
如图2中所描绘的,标题生成引擎120可以包括模式引擎220、训练引擎222、和推理引擎224。组件118、120、220、222、224、122、和/或125可以通过总线206和/或处理器202互相通信地耦合和/或通信地耦合至新闻系统116的其它组件204、208、210、和/或124。在一些实施方式中,组件118、120、220、222、224、122、和/或125中的一个或多个是能够由处理器202所执行以提供它们的功能的指令集合。在其它实施方式中,组件118、120、220、222、224、122、和/或125中的一个或多个存储在新闻搜索系统116的存储器204中并且能够由处理器202进行访问并执行以提供它们的功能。在任何上述实施方式中,这些组件204、208、210、和/或124可适于与处理器202以及新闻系统116的其它组件协同操作和通信。
模式引擎220包括能够由处理器202所执行以确定一个或多个新闻集合的语法模式的软件和/或逻辑。在一些实施方式中,模式引擎220可以通过对新闻集合中的每个文档的句子进行图表表示来对新闻集合进行预处理、确定由新闻集合中的每个文档所提到的实体、并且针对那些实体中的每一个确定实体相关信息。模式引擎220也可以确定新闻集合中相关的实体(例如,基于阈值、概率、启发方法等);确定涉及到与新闻集合中的那些实体相关联的实体类型的语法模式;并且随后将等同语法模式聚类在一起。例如,由模式引擎220从相同新闻集合并且针对相同实体集合所处理的模式能够被分组在一起以供在标题生成和/或知识图管理期间使用。
在一些实施方式中,模式引擎220可以针对一个或多个新闻集合确定等同语法模式以供在如这里进一步讨论的训练/学习、标题生成、和/或知识图管理期间使用。例如,模式引擎220可以针对给定新闻集合识别连接k个实体(例如,k≥1)的等同语法模式,其中模式表达由该新闻集合所描述的事件,并且能够被用于如以下进一步详细讨论的标题生成。训练引擎222、推理引擎224、和/或知识图管理引擎122可以耦合至模式引擎220以提供新闻集合数据和/或接收语法模式数据(例如,等同语法模式的集群)。在一些实例中,模式引擎220可以将其所生成的语法模型存储在数据存储210中以用于由其或者系统116的其它实体所访问和/或检索,上述其它实体例如包括训练引擎222、推理引擎224、和/或知识图管理引擎122。
为了从给定新闻集合中的一个或多个文档识别模式,模式引擎220可以对包括元数据、文档主体、嵌入式内容等的文档的一个或多个部分进行处理。在一些实施方式中,模式引擎220可以仅考虑题目和文档主体的第一个句子。这能够通过将每个新闻集合的处理限制为该集合所报道的最为相关的(多个)事件而提高性能,而上述最为相关的事件经常在这两个内容区域中进行报道。例如,不同于题目,第一个句子通常并非广泛使用双关语或其它修辞,因为它们趋向于符合文法规则和具有信息性而并非为了引人注目。应当理解的是,在各种实施方式中,模式引擎220并不局限于使用题目和第一个句子,并且可以根据应用和需求而利用(多个)文档中所包括的任何内容。
在一些实施方式中,模式可以从一个或多个新闻集合N1,...,N|N|的库进行确定。每个新闻集合N={ni}可以是相关新闻的无序集合,其中每一个新闻能够被看作句子的有序序列,例如n=[s0,...s|n|]。在训练期间,该库可以包括若干新闻集合以提供能够被用于在标题生成和/或知识图管理期间进行匹配的基础模式的扩展集合。
模式引擎220可以使用以下算法来从一个或多个新闻集合的库并且使用控制模式识别过程的参数Ψ的集合来识别等同语法模式的一个或多个集群:
在上述COLLECTIONTOPATTERNS算法中,子例程PREPROCESSDATA能够对每个新闻集合中所包括的每个文档进行预处理。在一些实施方式中,该预处理可以基于知识图(例如,知识图124)而使用包括断词和句子边界检测、词性标注、依赖性解析、指代消解、和实体链接的NLP流水线来执行。在一些实例中,模式引擎220可以利用唯一标签、该实体在该文档中每次被提及的列表、以及来自一个或多个知识图的针对该实体的类标签的列表而对集合中的每个文档中所提到的每个实体进行标记。例如,使用知识图数据集,模式引擎220能够利用应用于每个实体的知识图类型(例如,分类标签)对该实体进行注释。作为另外的示例,针对实体BarackObama(美国第44任总统),模式引擎220能够利用Freebase类标签对其实体进行注释,该标签例如应用包括US总统;政治家;政治任命者;美国国会议员;调查实体;等等。作为结果,针对每个文档中所提到的每个实体,能够通过预处理产生唯一标识符、提及列表、和类标签列表,它们能够被存储和/或高速缓存以便后续引用和/或处理(例如,在数据存储210、存储器204等之中)。
对该数据进行处理还针对每个新闻集合中的(多个)文档中的每个句子提供表示句子结构的数据集,例如如图7中所例示的项目(1)。在该示例中,在句子中被提及的三个不同实体已经被识别,例如e1、e2、和e3,并且使用在每个实体的预处理期间所确定的实体类型(例如,类标签)进行标记。例如,在类型(类标签)的知识图列表中,e1是人,e2是女演员和名人,且e3是州和位置。
接下来,GETRELEVANTENTITIES子例程能够收集每个新闻集合N内相关的实体E的集合(例如,最为经常基于阈值而被提及的是最为中心的(例如,基于位置/地方等))。针对实体E的集合,该算法随后例如能够通过生成具有E的非空子集而并没有重复的实体的集合COMBINATIONS(E)来确定唯一实体组合。在每个集合中所要考虑的实体的数目以及所要考虑的实体子集的最大大小是嵌入在之中的元参数。在其中目标是生成简短题目(例如,10个单词以下)的实施方式中,该系统在一些情况下可以仅考虑E中多达某个数目(例如,3个)要素的组合。作为另外的示例,集合COMBINATIONS(E)可以描述由(多个)新闻集合中的句子描述各个实体E的唯一方式。
接下来,该算法可以确定提及相关实体的句子的节点、确定提及该实体的语法模式、在必要情况下对该语法模式进行变换而使得它们在文法上是正确的、并且将提到相同类型的等同语法模式聚类在一起。这些被聚类的语法模式能够反映涉及到该类型的事件。特别地,例如,子例程EXTRACTPATTERNS随后能够针对来自每个新闻集合N中的文档n的相关实体Ei的每个子集而对事件模式进行处理。
在一些实施方式中,EXTRACTPATTERNS(n,Ei)可以使用以下算法而从文档n处理并返回等同语法模式的集合,其在图7中以图形方式被例示为项目(2-4):
在以上算法中,子例程GETMENTIONNODES能够首先针对句子s使用子例程DEPPARSE识别提及Ei中的实体的节点Mi的集合,其返回依赖性解析T。如果T并不包含Ei中的每个目标实体的恰好一次提及,则该句子被忽略。否则,子例程GETMINIMUMSPANNINGTREE能够针对节点集合Pi计算最小生成树(MST)。Pi是能够在其周围构建模式的节点的集合,并且最小生成树反映了连接Mi中的所有节点的依赖性树中的最短路径,如图7中的项目(2)所图示。
接下来,该算法可以使用APPLYHEURISTICS子例程来确定是否应用启发式算法。在一些情况下,系统针对节点集合Pi所能够计算的MST可能并不构成原始句子s的文法或有用的推断。例如,图7中以项目(2)所描绘的实体配对<e1;e2>的MST并未提供事件的良好描述,因为其既不充分也并不流畅。出于该原因,该系统能够应用提供有意义节点的最小集合的后处理的启发式变换的集合。该变换可以提供的是,子句的根以及所提取的模式之中的主题出现二者,并且实体之间的连接词并不被丢弃,如图7中的项目(3)所示。
该算法随后使用子例程COMBINEENTITYTYPES将来自节点集合Pi的的实体类型进行组合,这能够根据针对参与的实体ei的实体类型指派的每种可能组合而生成不同模式P,如图7中的项目(4)所示。模式引擎220所生成的包括模式和/或实体相关信息(例如,包括ID和类标签的实体信息,描述实体相关事件的等同语法模式的集群,等等)的数据可以被存储在数据存储210中或者被提供至系统116的其它组件,系统116的其它组件例如包括训练引擎222、推理引擎224、和/或知识图管理引擎122从而使用。
作为进一步的图示,图9是用于生成等同语法模式的集群的实例处理900的图形表示形式。在该附图中,关于两个示例的著名人物JillPopular和JoeCelebrity之间的婚姻的新闻文章的集合902由模式引擎220基于上下文(例如,它们在文章中的位置、它们被引用的次数、将实体指向关于那些实体的其它相关信息的超级链接、来自搜索引擎118的针对那些实体的搜索数据,等等)进行处理以生成由所述文章所讨论的实体912的相关性列表904连同所述实体的突显性、相关性、中心性等(简单地称作相关性)的量化测量910。连同将新闻集合中的这些实体链接在一起的单词(例如,题目、第一个句子、第一个段落等)一起使用该相关性列表910,模式引擎220能够生成反映该新闻集合的主要事件的等同语法模式906的集合。针对这些模式,模式引擎220能够量化出所述模式与新闻集合有多么相关并且列出所述模式与之相对应的实体。作为比较,模式引擎220还可以确定哪些模式较不相关/不相关并且可以基于相关性评分而排除它们。模式引擎220所处理的实体列表、相关性评分、和/或表达能够在如这里其它地方进一步描述的训练、标题生成、和/或知识图管理期间被使用。
训练引擎222包括能够由处理器202所执行以通过处理多个新闻集合而自动学习包含相对应信息的等同语法模式的软件和/或逻辑。相对应信息可以包括提到与相同或相似上下文相关的相同实体(例如,事件)的表达。通过处理相关文档(例如,关于当前事件的新闻文章)的集合,训练引擎222可以学习到表达相同实体类型和/或事件的可替选方式。这是有利的,因为其允许训练引擎222考虑使用各个内容产生者的不同单词和/或同义词来描述相同的实体类型和/或事件。在一些实施方式中,训练引擎222可以使用概率模型而从由模式引擎220所确定的等同语法模式的集群自动辨认附加的隐藏模式。这是有利的,因为其允许从并未明确包括在从中推导出模式的新闻集合中的模式而自动生成标题。
作为示例而非限制,通过处理涉及到体育和婚姻的一个或多个新闻集合,训练引擎222与模式引擎220进行协作能够学习到以下语法模式,它们全部都表达了运动员加入球队的相同事件:
[运动员]加入[球队]([player]joins[sportsteam])
[球队]签约[运动员]([sportsteam]signs[player])
[运动员]完成转会至[球队]([player]completesmoveto[sportsteam])
或者以下模式全部是婚礼事件的等同表达:
[人物]与[人物]举行婚礼([person]wed[person])
[人物]已经与[人物]结婚([person]hasmarried[person])
[人物]与[人物]缔结婚约([person]tiedtheknotwith[person])
应当理解的是,以上的非限制性示例在一些情况下描绘了模式的表面形式,并且可以生成包括与所述模式相关联的信息的、与所述模式相关联的附加元数据。例如,该元数据可以包括描述模式的单词之间的语法依赖性的数据(例如,指示符、标签等)。在一些实施方式中,该元数据可以存储在数据存储210中作为训练212以供后续参考、学习等。
训练引擎222可以使用在某个时间帧(例如,同一天、几天、一周、一个月等)期间所发布的新闻和/或具有公共词汇(例如,提到相同实体、实体类型等)的新闻以供训练。这能够有利地提高给定新闻集合中的文档以及其中所包括的表达与该新闻中所描述的相同实体和/或事件相关的概率,并且因此提高了推理引擎224所生成的标题的准确性。
在一些实施方式中,训练引擎222与模式引擎220进行协作能够使用上下文相似性而针对新闻集合中的文档所描述的实体确定上下文,并且基于上下文相似性对实体进行自动聚类。在一些情况下,如果单词、短语、和/或成语可互换使用和/或通过表达而具有相同或相似含义(例如,同义词、已知变体等),则训练引擎222和/或模式引擎220能够计算反映那些表达的上下文之间的相似性水平的量度,并且能够基于那些量度的强度(例如,是否已经满足了预定相似性阈值)对由那些表达所引用的实体进行分组。这有利地允许训练引擎222按照类型(例如,明星运动员、离婚者、生意失败等)自动地对实体进行分组。
在一些实例中,训练引擎222可以使用在新闻集合中所组织的新闻文档的预定语料库来初始化,以产生覆盖最为常见/流行的实体类型和/或事件的等同语法模式的可靠基础,并且一旦训练数据/模型212已经被生成并且被存储在数据存储210中,其就能够被模式引擎220和/或训练引擎222用来如这里进一步详细描述的为新闻集合生成标题。例如,在一些情况下,大量新闻集合可以由训练引擎222进行处理以学习能够由推理引擎224产生可靠标题推理的有意义的集群。作为另外的示例,训练引擎所处理的文档语料库可以包括跨度为一年或多年(例如,1-10+)的新闻文章。
在一些实施方式中,训练引擎222能够使用被称作Noisy-OR网络的概率模型来学习等同语法模式,但是除此之外或可替换地,训练引擎222和/或推理引擎224可以使用其它模型,包括产生指示两个不同表达有多可能出现在来自相同时期的两则新闻(可能描述相同事件)之中的量度的那些模型。例如,在一些实施方式中,训练引擎222可以使用隐含狄利克雷分布(LDA)对模式进行聚类。
在其中使用Noisy-Or贝叶斯网络的实施方式中,训练引擎222能够使得训练以语法模式的共同出现为基础。模式引擎220所识别的每个模式能够作为所观察到的变量而被添加,并且能够使用隐含变量来表示生成模式的隐藏事件。附加噪声变量可以被训练引擎222链接至一个或多个终端节点,这允许所链接的终端由语言背景(噪声)而不是实际事件所生成。
作为另外的示例,模式引擎220所识别的模式可以被训练引擎222用来通过估计每个(所观察到的)模式激活一个或多个(隐藏)事件的概率而学习Noisy-OR模型。图8描绘了两个示例水平:处于顶部的隐藏事件变量,以及处于底部的所观察到的模式变量。在该图中,附加的噪声变量链接至每个终端节点,这允许所有终端都由语言背景(噪声)而不是实际事件所生成。隐含事件和所观察到的模式之间的关联能够通过Noisy-OR门进行建模。
在该模型中,给定所观察到的模式隐藏事件ei的条件概率被计算为:
其中πi是活动事件的集合(即,πi=Uj{pj}|pj=1),并且qij=P(ei=1|pi=1)是所观察到的模式pi能够单独激活事件e的估计概率。项qi0是所谓的该模型的“噪声”项,并且能够考虑到所观察到的事件ei可能由从未被观察到的一些模式激活的事实。
被模式引擎220从相同新闻集合N和实体子集Ei所处理的所有模式能够在中进行分组(例如,参见上文)。在一些情况下,这些分组表示能够被用来自举引导模型参数θij=-log(1-qij)的优化的等同模式的粗糙集群。训练引擎222能够通过接收随机选择的群组集合(例如,100000)并且通过多次预期最大值(EM)迭代(例如,40)优化该模型的权重而发起训练过程。
训练引擎222可以将训练引擎222、模式引擎220等所处理和/或生成的数据作为训练数据212存储在数据存储210中以供模式引擎220和/或推理引擎224使用,或者可以直接将这样的数据提供至这些组件。
推理引擎224包括能够由处理器202所执行以基于由新闻集合和/或(多个)文档所报道的主要事件为给定新闻集合或其中所包含的(多个)文档生成标题的软件和/或逻辑。作为非限制性示例,推理引擎224能够针对等同语法模式而对包含一个或多个文档的输入集合进行处理(例如,使用模式引擎220),并且将那些模式与训练期间所学习到的相对应模式进行匹配。使用匹配的模式,干扰引擎224随后能够选择以最佳方式表示由输入集合所反映的事件的模式并且通过利用来自新闻集合的相对应中心实体填充该模式而生成标题。推理引擎224可以进行耦合以与模式引擎220进行交互来确定输入集合的(多个)语法模式。
在一些实施方式中,使用由模式引擎220所处理的模式,推理引擎224能够估计隐藏事件变量的事后概率。因此,从被激活的隐藏事件,能够估计每个模式的可能性,即使它们并未出现在集合之中。具有最大概率的单个模式可以被选择并且被用来生成新的标题。已经概述了,与直接在新闻集合中所观察到的短语相比,所检索到的模式更可能是客观且信息性的。使用该概率方法,推理引擎224能够可靠地估计事件(例如,被表示为如关于训练所描述的等同表达的集合)是文档集合(例如,新闻集合)中最为重要的事件。
在一些实施方式中,推理引擎224可以通过选择在输入文档中最为支持的表达/模式而针对一个或多个文档的输入集合(例如,之前的新闻集合)生成给定标题。例如,如果若干等同语法模式与来自一个或多个文档的给定集合的模式相匹配,则这些匹配能够通过提供由这些模式所反映的事件是该集合所报道的主要事件的更具证据性的支持而互相加强。例如,如果在相同的输入集合内,推理引擎224能够将[X已经与Y结婚]、[X与Y举行婚礼]、和[X与Y结婚]进行匹配,则与出现次数较少的其它事件相比,推理引擎224具有这是所报道的主要事件的更多证据。
作为另外的示例,假设推理引擎224将由模式引擎220从(多个)输入文档所处理的模式匹配至所学习的模式[X已经与Y结婚]、[X与Y举行婚礼]、和[X与Y结婚]。另外,假设这些表达与另一个等同的所学习的表达[X与Y缔结婚约]相关联。则推理引擎224能够使用表达[X与Y缔结婚约]来生成标题,即使所生成的标题的文本可以或者可以尚未这样呈现在(多个)输入文档之中。
在一些实施方式中,为了生成捕捉到由一个或多个文档的新闻集合N所报道的主要事件的标题,推理引擎224可以选择与N特别相关的单个事件模式p*并且利用N中所观察到的实体的实际名称替代p*中的实体类型/占位符。为了识别p*,该系统可以假设由N所实现的最具描述性的事件描述了其中N中的相关实体E的一些子集被涉及的重要情形。
推理引擎224可以与模式引擎220进行协作以确定一个或多个文档的新闻集合中所包括的模式。例如,给定实体集合E和句子n,推理引擎224可以利用EXTRACTPATTERNS(n,E)算法来收集涉及到那些实体的模式。推理引擎224随后可以对所识别模式的频率进行规范化并且确定网络中所观察到变量上的概率分布。为了跨事件进行概括,推理引擎224可以跨隐含事件节点和模式节点进行遍历。
在一些实施方式中,推理引擎224可以使用在这里被称作INFERENCE(n,E)的算法来确定最为相关的事件集合以包括在标题之中,该算法可以包括以下处理。
给定在新闻集合中所提到的实体集合E,该系统可以考虑每个实体子集该子集可以包括任何数目的实体。在一些实施方式中,为了效率可以使用相对低数目(例如,3、4等)的实体以保持所生成的标题相对简短,并且限制数据稀疏的问题。针对每个Ei,推理引擎224能够执行INFERENCE(n,Ei),其计算涉及Ei中的实体的模式上的分布ωi。
接下来,推理引擎224能够再次使用针对中的每个子集所提取的所有模式调用INFERENCE。这计算涉及该集合中所提到的实体的所有容许子集的所有模式上的分布ω。
接下来,推理引擎224能够选择近似更好的整体分布ω*=argmaxicos(ω,ωi)的特定于实体的分布。在一些实例中,推理引擎224能够假设相对应的实体集合Ei是该集合中最为中心的实体并且因此任何标题都应当结合它们全部,尽管其它变化也是可能的。该系统可以选择ω*中具有最高权重的模式p*作为更好地捕捉新闻集合中所报道的主要事件的模型,如以下等式所反映的:
然而,应当理解的是,其它权重数值也可以提供可靠的近似。
推理引擎224随后能够通过利用从中提取模式的文档中的实体替代占位符而从p*产生标题。虽然在一些情况下,关于实体类型的信息足以供推理引擎224可靠地确定用于给定标题的正确实体顺序(例如,对于实体集合{ea=“Mr.Brown”;eb=“LosAngeles”}而言的“[人物]在[地点]结婚”),但是在其它情况下,正确排序可能是含糊的(例如,对于{ea=“Mr.A”;eb=“Mr.B”}而言的“[人物]杀死了[人物]”)并且难以推断。推理引擎224可以通过使模式引擎220在针对实体集合{ea;eb}提取模式时追踪实体的字母表排序而应对这些情形,这能够允许推理引擎224产生正确的排序,尽管也可以使用其它排序机制。例如,从关于“B先生”杀死了“A先生”的新闻集合中,模式引擎220能够基于ea=“A先生”<eb=“B先生”的假设而产生包括“[人物:2]杀死了[人物:1]”或“[人物:1]被[人物:2]杀死”的模式,但是并不局限于此。然后,在进行推理时,推理引擎224能够查询具有这样的模式的模型并且仅激活其指派任务与所观察到的实体相兼容的事件。这是有利的,因为其能够进行直接且无歧义的实体替换。
推理引擎可以将其所生成的标题存储在数据存储210中,或者可以将标题提供至包括新闻门户125和/或知识图管理引擎122的系统116的其它实体。
知识图管理引擎122包括能够由处理器202所执行以确定新闻中所报道的主要事件并且使用该事件更新知识图的软件和/或逻辑。知识图管理引擎122能够通过与系统116的其它实体协作对所发布的新闻进行自动处理而将知识图的内容保持为最新。例如,该技术能够利用标题生成引擎120和/或其组成组件以自动确定关于新闻中所包括的相关事件的更新并且使用该更新对知识图中的相对应条目进行修正。在一些情况下,知识图管理引擎122可以将用来生成更新的属性提供回(多个)文档来为该更新提供可信性和/或可追踪性。
作为示例,当名人死亡时,知识图可能需要进行更新而指示该名人现在已经死亡以及死亡的日期和地点。作为另外的示例,如果系统从新闻确定某人刚刚结婚,则该系统能够更新知识图以改变关于谁是这个人的配偶以及他们的婚姻的起始日期的信息。类似地,如果新闻报道关于一个人更换了他/她的工作或者一家公司收购了另一家公司,则这些是能够在知识图中进行更新的关联。无论是经由聚集的博客、社交网络、微博、新闻网络、互联网门户、网站、新闻发布、还是任何其它电子信息来源等,实际上新闻中可能提及的任何事情都需要针对知识库的内容进行改变,包括政治事件、名人事件、体育事件、流行文化事件、金融事件等。
针对由模式引擎220和/或训练引擎222所确定的等同模式的每个集群,知识图管理引擎122能够利用基于新聚集的文档和/或文档集合中所找到的匹配模式的更新对知识图中相对应的条目进行更新/注解。在一些实施方式中,该注解可以自动完成(例如,通过将过去新闻中所观察到的模式与针对知识图之中的过往编辑相匹配)等。在一些实施方式中,该系统可以自动尝试将模式的集群与知识图中的关系进行关联,并且具有手动监护步骤,其中对这些关联进行人为验证。例如,知识图管理引擎122可以通过为人类用户提供关于所观察到的集群的信息和/或向人类用户提供哪些项目应当进行更新的建议以供确认而对人工辅助加以利用。
针对所发布的每个所观察到的新闻或新闻集合(过往新闻或实时新闻),该系统可以确定哪些模式在实体之间被提到,并且使用被训练引擎222存储在数据存储210中的映射来发现知识库中的哪些关系应当被更新。例如,如果知识图管理引擎122与标题生成引擎120进行协作处理含有例如包括[X与Y结婚]、[X与Y举行婚礼]和[X与Y缔结婚约]的表达的新闻集合,并且知识图管理引擎122能够确定X和Y在知识库中具有夫妻关系(他们是彼此的配偶),则知识图管理引擎122能够自动学习到,当其在未来看到这三种模式时,要在知识库中更新的关系是夫妻。例如,如果知识图管理引擎122处理提到了[X与Y结婚]的新闻文档,并且能够确定该模式与知识库中的夫妻关系相关联,则知识图管理引擎122能够更新该知识库而指示Y是X的配偶并且X是Y的配偶。
这里的其它地方对搜索引擎118、标题生成引擎120及其组成组件、知识图管理引擎122和新闻门户125的附加结构、动作、和/或功能进一步进行讨论。
图3是用于自动生成标题的示例方法300的流程图。方法300可以通过从文档语料库自动学习302等同语法模式的集合作为开始。例如,训练引擎222可以针对多个新闻集合所报道的各种主题和/或事件学习等同语法模式,并且将那些模式作为训练数据212存储在数据存储210中以便在标题生成期间引用和/或匹配。
接下来,方法300可以接收304输入文档的集合(例如,新闻文章的新闻集合)。输入文档的集合(例如,新闻集合)可以包括一个或多个文档。所述文档可以包括具有任何格式和内容(例如,文本、图形、嵌入式媒体等)的电子文件。例如,文档可以包括来自实现由搜索引擎118所聚集的新闻文章的网页的内容。在多于一个文档的情况下,所述文档可以是相关的(例如,基于该文档的内容,描述相同或相似的事件、实体,来自相同或相似的时间段,等等)。
接下来,方法300可以针对匹配等同语法模式的一个或多个集合的(多个)表达而对输入文档的集合进行处理306。例如,推理引擎224与模式引擎220进行协作可以确定用于输入文档的集合(例如,新闻集合)的模式的集群,并且推理引擎224可以将那些模式与训练引擎222所学习的等同语法模式的集合进行比较以识别出匹配的模式。
方法300随后可以从用于标题的语法模式的(多个)匹配集合中选择308语法模式。所选择的模式可以是与从所输入文档的集合所处理的相对应模式相匹配的模式,或者可以是由训练引擎222所学习的等同模式。所选择的模式可以描述所输入文档集合的中心事件(例如,新闻集合所报道的新闻)。接下来,方法300可以使用所选择的语法模式生成310标题。例如,推理引擎224可以利用从所输入文档的集合中进行处理的相对应实体替代该语法模式中的实体类型。
图4是用于基于从所输入文档的集合进行处理的实体和事件对等同语法模式进行聚类的示例方法400的流程图。方法400可以通过接收402相关文档的集合(例如,相关新闻文章的新闻集合)作为开始。在一些实施方式中,相关文档的集合可以反映描述用户当前或将会感兴趣接收与之相关的信息的各种不同事件的新闻集合的语料库。
针对每个集合,方法400可以识别404被提及最多的实体(例如,出现最为频繁的实体),并且可以确定406包括被提及最多的实体以及与那些实体相对应的事件的语法模式的一个或多个集群。例如,训练引擎222与模式引擎220进行协作可以确定并优化分别描述一个或多个实体类型和涉及到该实体类型的事件的语法表达(例如,等同语法表达),并且将它们存储408在数据存储210中。作为另外的示例,训练引擎222能够将文档集合描述给定事件的不同方式推断为等同语法模式的集合,在存在充分证据的情况下使用概率模型确定一个或多个附加的相对应同义语法模式,并且将它们作为集合进行存储以用于由推理引擎224在标题生成期间进行引用。方法400随后可以确定410所有文档是否都已经被处理,并且如果它们已经被处理,则可以进行重复、继续至其它操作或者结束。如果还没有对所有集合进行处理,则方法400可以返回至框404并且处理下一个集合。
图5A是用于基于等同语法模式而针对新闻文档的集合生成标题的示例方法500的流程图。方法500可以通过接收502文档的集合作为开始。例如,所述文档的集合可以是对由搜索引擎118所聚集的当前事件进行报道并且应当针对其生成标题以客观表征当前事件的相关新闻文章的集合。接下来,方法400可以对来自该集合中的文档的表达进行处理504,对来自所述表达的实体进行处理506,并且将所述表达匹配506至等同语法模式的一个或多个预定集群。例如,假设新闻集合包括描述特定事件的五篇相关新闻文章,推理引擎224与模式引擎220进行协作可以对来自所述文章的题目和/或文本中有关该事件的措辞不同的表达的集合进行处理,并且将所述表达匹配至描述该事件的等同语法模式的一个或多个集群。
方法500可以通过在存在多于一个的情况下确定510哪个匹配集群是相关的(例如,最为相关),或者在仅存在一个的情况下确定该匹配集群是否相关或足够相关而继续进行。图5B中描绘了用于作出该确定的一种示例方法550。在框552,方法550可以从匹配集群中选择552集群来使用并且确定554该集群的匹配证据是否满足预定阈值。例如,如果从文档集合处理的多个(例如,2、3、4等)措辞不同的表达式分别满足来自所选择集群的等同语法模式的预定阈值,则方法550可以继续进行至框556。这是有利的,因为其能够确定所选择的集群是否描述了由文档集合所报道的主要事件。如果554中的阈值并未被满足,则方法550可以返回框552以选择不同集群来使用,可以处理来自文档的附加表达并且重复该匹配序列,可以终止,等等。
在框556,方法550可以确定556与所选择的集群相对应的事件为描述了所述文档集合的主要事件,并且随后确定558是否存在任何描述应用于所述文档集合的隐藏事件的隐藏语法模式,例如这里的其它地方关于训练模块222如所描述的。
返回图5A,方法500可以通过从最为相关的集群中选择512利用其生成标题的语法模式而继续,并且可以进行至通过利用从处理自文档集合的表达进行处理的实体填充语法表达而生成514标题。
图6是用于基于等同语法模式的集合自动更新知识图的示例方法600的流程图。方法600可以通过如这里的其它地方更为详细描述的确定602等同语法模式的集群作为开始。方法600随后可以将模式的每个集合映射604至知识图中的相对应项目。例如,该知识图可以一致地描述用于分享相似性的实体的各个项目(例如,事件)。例如,对于知识图中所描述的人而言,该知识图可以包括对于人而言是唯一的信息基础集合。例如,该知识图可以包括关于在某人的有生之年中所发生的重要事件的信息。作为另外的示例,该知识库可以包括孩子的出生、出生日期和地点、性别等。对于死亡而言,姓名以及与死者的关系(如果不是其本人)、死亡情形等。对于婚姻而言,这个人所结婚的对象、之前婚姻的次数、关于婚礼的细节等。知识图管理引擎122可以将这些项目映射至描述这些事件的等同语法模式的相对应集合/集群。
接下来,方法600可以确定606输入文档的集合,并且如这里其它地方所讨论的,针对匹配等同语法模式的一个或多个集合的表达而处理608所述输入文档的集合。方法600随后可以通过从等同语法模式的匹配集合中选择610语法模式继续,所选择的模式反映了输入文档的中心事件。在一些实例中,所选择的模式可以是如这里其它地方所描述的隐藏同义模式。
方法600可以进行至确定612知识图中与从输入文档所处理的表达所描述的(多个)实体相对应的一个或多个条目,并且可以更新614所述一个或多个条目以使用所选择的语法模式来反映该事件。例如,对于婚姻的项目(例如,关系),知识图管理引擎122可以利用由知识图124所暴露的API来更新与两个名人相对应的条目的婚姻区段,以包括如由新闻(例如,关于订婚或婚礼的新闻文章集合)所报道的最近声明的订婚或者两个名人之间正式结婚。
图7是描绘示例模式确定处理的示例方法。该模式确定处理可以包括如这里其它地方所讨论的注释依赖性解析。在(1)中,针对实体配对e1、e2处理MST。在(2)中,节点被启发式地添加至MST以在(3)中实施文法。在(4)中,重新组合实体类型以生成最终的模式。
图8描绘了示例的概率模型。在该模型中,通过Noisy-OR门对隐含事件变量和所观察的模式变量之间的关联进行建模。如这里其它地方所讨论的,事件被假设以最低限度是独立的,在给定事件的情况下所述模式是有条件地独立的。
图10是描绘由新闻系统116所生成的示例标题的示例用户界面900的图形表示。用户界面900包括与对关于示例名人JillPopular的新闻文章的搜索相匹配的结果904的集合。结果904包括关于JillPopular与JoeCelebrity的婚姻的新闻集合,其具有由新闻系统116所生成的示例题目“JillPopular与JoeCelebrity结婚”。在该示例中,该题目是新闻集合906中所包括的文档的客观、简明的表示,尽管应当理解的是,新闻系统116所生成的标题可以利用旨在服务于不同目的的不同特性所生成。
在以上描述中,出于示例的目的陈述了很多具体细节以便提供对于本公开的全面理解。然而,应当理解的是,这里所描述的技术能够在没有这些具体细节的情况下进行实践。另外,以框图形式详细地示出了各种系统、设备、和结构以免模糊本描述。例如,各种实施方式被描述为具有特定的硬件、软件、和用户接口。然而,本公开应用于能够接收数据和命令的任何类型的计算设备并且应用于提供服务的任何外围设备。
在一些实例中,各种实施方式可以依据对计算机存储器内的数据比特所进行的运算的算法和符号表示而呈现。算法在这里以及总体上被认为是导致所期望结果的运算的自一致集合。运算是需要对物理量进行物理操控的那些运算。通常,虽然并非必然如此,但是这些量采用能够被存储、转移、合并、比较以及以其它方式进行操控的电或磁性信号的形式。已经多次证明,原则上出于普遍使用的原因,将这些信号称作比特、值、要素、符号、字符、项、数字等是便利的。
然而应当牢记的是,所有这些和类似术语要与适当物理量相关联并且仅是应用于这些量的便利符号。除非特别说明或以其它方式由以下讨论而是显而易见的,所要意识到的是,贯穿本公开利用包括“处理”、“计算”、“确定”、“显示”等的术语所进行的讨论是指计算机系统或类似电子计算设备的动作和处理,其对在计算机系统的寄存器和存储器内表示为物理(例如,电)量的数据进行操控并将其转换为在计算机系统的存储器或寄存器或者其它这样的信息存储、传输或显示设备内类似表示为物理量的其它数据。
这里所描述的各种实施方式可以涉及一种用于执行这里的操作的装置。该装置可以针对所要求的用途而被特殊构造,或者其可以包括被计算机中所存储的计算机程序有选择地激活或重新配置的通用计算机。这样的计算机程序可以存储在计算机可读存储介质中,所述计算机可读存储介质包括但并不局限于任何类型的盘,包括软盘、光盘、CD-ROM,以及磁盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁性或光学卡,闪存(包括具有非易失性存储器或适于存储电子指令的任何类型的媒体的USB钥匙),它们均耦合至计算机系统总线。
这里所描述的技术能够采用完全硬件实施方式、完全软件实施方式,或者包含硬件和软件要素二者的实施方式的形式。例如,该技术可以以软件来实现,其包括但并不局限于固件、驻留软件、微代码等。此外,该技术可以采取能够从提供程序代码以便由计算机或任何指令执行系统使用或结合其使用的计算机可用或计算机可读介质进行访问的计算机程序产品的形式。出于该描述的目的,计算机可用或计算机可读介质可以是任何的非暂时性存储装置,其能够包含、存储、通信、传播、或传输程序以用于由指令执行系统、装置、或设备使用或者结合它们使用。
适于存储和/或执行程序代码的数据处理系统包括通过系统总线直接或间接耦合至存储器元件的至少一个处理器。所述存储器元件可以包括在程序代码的实际执行期间所采用的本地存储器、大容量存储,以及提供至少一些程序代码的临时存储以便减少执行期间必须从大容量存储获取代码的次数的高速缓存存储器。输入/输出或I/O设备(包括但并不局限于键盘、显示器、指示设备等)能够直接或通过中间的I/O控制器耦合至该系统。
网络适配器也可以耦合至该系统以使得该数据处理系统通过中间的私有和/或公共网络耦合至其它数据处理系统、存储设备、远程打印机等。无线(例如,WiFiTM)收发器、以太网适配器、和调制解调器仅是网络适配器的几个示例。私有和公共网络可以具有任何数目的配置和/或拓扑。数据可以使用包括例如各种互联网层、传输层、或应用层协议的各种不同的通信协议经由网络在这些设备之间进行传送。例如,数据可以使用传输控制协议/互联网协议(TCP/IP)、用户数据报协议(UDP)、传输控制协议(TCP)、超文本传输协议(HTTP)、安全超文本传输协议(HTTPS)、通过HTTP的动态自适应流传输(DASH)、实时流传输协议(RTSP)、实时传输协议(RTP)和实时传输控制协议(TRCP)、互联网协议语音传输(VOIP)、文件传输协议(FTP)、Web套接字(WS)、无线接入协议(WAP)、各种消息协议(SMS、MMS、XMS、IMAP、SMTP、POP、WebDAV等),或者其它已知协议。
最后,这里所呈现的结构、算法、和/或接口并非固有地涉及任何特定计算机或其它装置。可以使用具有根据这里的教导的程序的各种通用系统,或者可以证明构建更为专用的装置以执行所需方法模块是便利的。各种这些系统所要求的结构将从以上的描述得以显现。此外,本公开并未参考任何特定编程语言进行描述。将要意识到的是,可以使用各种编程语言来实现如这里所描述的本公开的教导。
以上描述已经出于说明和描述的目的而被呈现。其并非旨在是无所不包的或者将本公开限制为所公开的确切形式。鉴于上述教导可能进行许多修改和变化。本公开的范围并非旨在由该具体实施方式所限定,而是由本申请的权利要求来限定。如本领域技术人员将会理解的,本公开可以以其它特定形式来实现而并不背离其精神或实质性特征。同样,模块、例程、特征、属性、方法和其它方面的特定命名和划分并不是强制或重要的,并且实现本公开或者其特征的机制可以具有不同的名称、划分和/或格式。
此外,本公开的模块、例程、特征、属性、方法和其它方面能够被实现为软件、硬件、固件、或者上述的任何组合。而且,无论本公开中其示例为模块的组件在何处被实现为软件,该组件都能够被实施为独立程序、更大程序的一部分、多个分立程序、静态或动态链接的库、内核可加载模块、设备驱动器,和/或以目前和/或未来所知的每种和任何其它方式来实现。此外,本公开绝非被局限于任何特定编程语言的实施方式,或者用于任何特定的操作系统或环境。因此,本公开旨在是对以下权利要求所陈述的主题的范围的说明而非限制。
Claims (21)
1.一种计算机实施的方法,包括:
从文档的语料库学习等同语法模式的多个集合;
接收一个或多个输入文档的集合;
针对与所述等同语法模式的多个集合中的一个等同语法模式的集合相匹配的一个或多个表达来处理所述一个或多个输入文档的集合;
从所述等同语法模式的集合中为标题选择语法模式,所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件;以及
使用所述语法模式生成所述标题。
2.根据权利要求1所述的计算机实现的方法,进一步包括:
将所述等同语法模式的多个集合映射至知识图中的相对应的项目;
从与所述等同语法模式的集合相匹配的所述一个或多个表达中确定一个或多个实体;
确定所述知识图中与所述一个或多个表达所描述的所述一个或多个实体相对应的一个或多个条目;以及
更新所述知识图中的所述一个或多个条目以使用所述标题反映所述主要事件。
3.根据权利要求1所述的计算机实现的方法,其中,所述一个或多个输入文档的集合包括相关新闻文章的新闻集合。
4.根据权利要求1所述的计算机实现的方法,进一步包括:
对来自所述一个或多个表达的一个或多个实体进行处理,其中,生成所述标题包括用所述一个或多个实体填充所述语法模式。
5.根据权利要求1所述的计算机实现的方法,其中,学习所述等同语法模式的多个集合进一步包括:
接收相关文档的多个集合;
针对所述相关文档的多个集合中的每一个,确定涉及相对应的信息的表达;
基于所述表达确定等同语法模式的多个集合;以及
将所述等同语法模式的多个集合存储在数据存储中。
6.根据权利要求5所述的计算机实现的方法,进一步包括:
使用概率模型确定附加的隐藏语法模式以包括在所述等同语法模式的多个集合中的一个或多个之中。
7.根据权利要求1所述的计算机实现的方法,其中,处理所述一个或多个输入文档的集合包括:
确定从所述一个或多个输入文档所处理的表达的数目满足预定证据阈值;以及
基于满足所述证据阈值而确定所述等同语法模式的集合与所述一个或多个输入文档的集合相关。
8.一种包括计算机可用介质的计算机程序产品,所述计算机可用介质包括计算机可读程序,其中,所述计算机可读程序在计算机上执行时使得所述计算机:
从文档的语料库学习等同语法模式的多个集合;
接收一个或多个输入文档的集合;
针对与所述等同语法模式的多个集合中的一个等同语法模式的集合相匹配的一个或多个表达来处理所述一个或多个输入文档的集合;
从所述等同语法模式的集合中为标题选择语法模式,所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件;以及
使用所述语法模式生成所述标题。
9.根据权利要求8所述的计算机程序产品,其中,所述计算机可读程序在所述计算机上执行时,进一步使得该计算机:
将所述等同语法模式的多个集合映射至知识图中的相对应的项目;
从与所述等同语法模式的集合相匹配的所述一个或多个表达确定一个或多个实体;
确定所述知识图中与所述一个或多个表达所描述的所述一个或多个实体相对应的一个或多个条目;以及
更新所述知识图中的所述一个或多个条目以使用所述标题反映所述主要事件。
10.根据权利要求8所述的计算机程序产品,其中,所述一个或多个输入文档的集合包括相关新闻文章的新闻集合。
11.根据权利要求8所述的计算机程序产品,其中,所述计算机可读程序在所述计算机上执行时,进一步使得所述计算机:
对来自所述一个或多个表达的所述一个或多个实体进行处理,其中,生成所述标题包括用所述一个或多个实体填充所述语法模式。
12.根据权利要求8所述的计算机程序产品,其中,学习所述等同语法模式的多个集合进一步包括:
接收相关文档的多个集合;
针对所述相关文档的多个集合中的每一个,确定涉及相对应的信息的表达;
基于所述表达确定等同语法模式的多个集合;以及
将所述等同语法模式的多个集合存储在数据存储中。
13.根据权利要求12所述的计算机程序产品,其中,所述计算机可读程序在所述计算机上执行时,进一步使得所述计算机:
使用概率模型确定附加的隐藏语法模式以包括在所述等同语法模式的多个集合中的一个或多个之中。
14.根据权利要求8所述的计算机程序产品,其中,处理所述一个或多个输入文档的集合包括:
确定从所述一个或多个输入文档所处理的表达的数目满足预定证据阈值;以及
基于满足所述证据阈值而确定所述等同语法模式的集合与所述一个或多个输入文档的集合相关。
15.一种系统,包括:
处理器;
存储指令的存储器,所述指令在由所述处理器执行时,使得所述系统:
从文档的语料库学习等同语法模式的多个集合;
接收一个或多个输入文档的集合;
针对与所述等同语法模式的多个集合中的一个等同语法模式的集合相匹配的一个或多个表达来处理所述一个或多个输入文档的集合;
从所述等同语法模式的集合中为标题选择语法模式,所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件;以及
使用所述语法模式生成所述标题。
16.根据权利要求15所述的系统,其中,所述指令在被执行时,进一步使得所述系统:
将所述等同语法模式的多个集合映射至知识图中的相对应的项目;
从与所述等同语法模式的集合相匹配的所述一个或多个表达确定一个或多个实体;
确定所述知识图中与所述一个或多个表达所描述的所述一个或多个实体相对应的一个或多个条目;以及
更新所述知识图中的所述一个或多个条目以使用所述标题反映所述主要事件。
17.根据权利要求15所述的系统,其中,所述一个或多个输入文档的集合包括相关新闻文章的新闻集合。
18.根据权利要求15所述的系统,其中,所述指令在被执行时,进一步使得所述系统:
对来自所述一个或多个表达的一个或多个实体进行处理,其中,生成所述标题包括用所述一个或多个实体填充所述语法模式。
19.根据权利要求15所述的系统,其中,学习所述等同语法模式的多个集合进一步包括:
接收相关文档的多个集合;
针对所述相关文档的多个集合中的每一个,确定涉及相对应的信息的表达;
基于所述表达确定等同语法模式的多个集合;以及
将所述等同语法模式的多个集合存储在数据存储中。
20.根据权利要求19所述的系统,其中,所述指令在被执行时,进一步使得所述系统:
使用概率模型确定附加的隐藏语法模式以包括在所述等同语法模式的多个集合中的一个或多个之中。
21.根据权利要求15所述的系统,其中,处理所述一个或多个输入文档的集合包括:
确定从所述一个或多个输入文档所处理的表达的数目满足预定证据阈值;以及
基于满足所述证据阈值而确定所述等同语法模式的集合与所述一个或多个输入文档的集合相关。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361840417P | 2013-06-27 | 2013-06-27 | |
US61/840,417 | 2013-06-27 | ||
US14/060,562 | 2013-10-22 | ||
US14/060,562 US9619450B2 (en) | 2013-06-27 | 2013-10-22 | Automatic generation of headlines |
PCT/US2014/020436 WO2014209435A2 (en) | 2013-06-27 | 2014-03-04 | Automatic generation of headlines |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105765566A true CN105765566A (zh) | 2016-07-13 |
CN105765566B CN105765566B (zh) | 2019-04-16 |
Family
ID=52116664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480045648.9A Active CN105765566B (zh) | 2013-06-27 | 2014-03-04 | 一种自动生成标题的方法及系统 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9619450B2 (zh) |
EP (1) | EP3014480A2 (zh) |
KR (2) | KR102082886B1 (zh) |
CN (1) | CN105765566B (zh) |
AU (1) | AU2014299290A1 (zh) |
CA (1) | CA2916856C (zh) |
WO (1) | WO2014209435A2 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610927A (zh) * | 2016-12-19 | 2017-05-03 | 厦门二五八网络科技集团股份有限公司 | 一种基于翻译模板的互联网文章的建构方法与系统 |
CN106933808A (zh) * | 2017-03-20 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章标题生成方法、装置、设备及介质 |
CN107203509A (zh) * | 2017-04-20 | 2017-09-26 | 北京拓尔思信息技术股份有限公司 | 标题生成方法和装置 |
CN110245204A (zh) * | 2019-06-12 | 2019-09-17 | 桂林电子科技大学 | 一种基于定位及知识图谱的智能推荐方法 |
CN110532344A (zh) * | 2019-08-06 | 2019-12-03 | 北京如优教育科技有限公司 | 基于深度神经网络模型的自动选题系统 |
CN110795929A (zh) * | 2018-07-17 | 2020-02-14 | 富士施乐株式会社 | 生成用于概括对话文件的标题的系统和方法 |
CN111149100A (zh) * | 2017-09-28 | 2020-05-12 | 甲骨文国际公司 | 基于命名实体的解析和识别确定跨文档的修辞相互关系 |
CN111460801A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 标题生成方法、装置及电子设备 |
US11782985B2 (en) | 2018-05-09 | 2023-10-10 | Oracle International Corporation | Constructing imaginary discourse trees to improve answering convergent questions |
US11809825B2 (en) | 2017-09-28 | 2023-11-07 | Oracle International Corporation | Management of a focused information sharing dialogue based on discourse trees |
US11880652B2 (en) | 2019-11-14 | 2024-01-23 | Oracle International Corporation | Detecting hypocrisy in text |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10224025B2 (en) * | 2012-12-14 | 2019-03-05 | Robert Bosch Gmbh | System and method for event summarization using observer social media messages |
US9881077B1 (en) * | 2013-08-08 | 2018-01-30 | Google Llc | Relevance determination and summary generation for news objects |
CN104754629B (zh) * | 2013-12-31 | 2020-01-07 | 中兴通讯股份有限公司 | 一种基站设备自愈的实现方法及装置 |
US20150254213A1 (en) * | 2014-02-12 | 2015-09-10 | Kevin D. McGushion | System and Method for Distilling Articles and Associating Images |
US10607253B1 (en) * | 2014-10-31 | 2020-03-31 | Outbrain Inc. | Content title user engagement optimization |
JP6456162B2 (ja) * | 2015-01-27 | 2019-01-23 | 株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ | 匿名化処理装置、匿名化処理方法及びプログラム |
EP3251060A1 (en) * | 2015-01-30 | 2017-12-06 | Longsand Limited | Selecting an entity from a knowledge graph when a level of connectivity between its neighbors is above a certain level |
CN104679848B (zh) * | 2015-02-13 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法和装置 |
US10102291B1 (en) | 2015-07-06 | 2018-10-16 | Google Llc | Computerized systems and methods for building knowledge bases using context clouds |
US10198491B1 (en) | 2015-07-06 | 2019-02-05 | Google Llc | Computerized systems and methods for extracting and storing information regarding entities |
US10296527B2 (en) * | 2015-12-08 | 2019-05-21 | Internatioanl Business Machines Corporation | Determining an object referenced within informal online communications |
WO2017100970A1 (en) | 2015-12-14 | 2017-06-22 | Microsoft Technology Licensing, Llc | Facilitating discovery of information items using dynamic knowledge graph |
US10838992B2 (en) * | 2016-08-17 | 2020-11-17 | International Business Machines Corporation | Content selection for usage within a policy |
US10423614B2 (en) | 2016-11-08 | 2019-09-24 | International Business Machines Corporation | Determining the significance of an event in the context of a natural language query |
US10459960B2 (en) | 2016-11-08 | 2019-10-29 | International Business Machines Corporation | Clustering a set of natural language queries based on significant events |
US10762146B2 (en) | 2017-07-26 | 2020-09-01 | Google Llc | Content selection and presentation of electronic content |
JP6979899B2 (ja) * | 2017-09-20 | 2021-12-15 | ヤフー株式会社 | 生成装置、学習装置、生成方法、学習方法、生成プログラム、及び学習プログラム |
CN110377891B (zh) * | 2019-06-19 | 2023-01-06 | 北京百度网讯科技有限公司 | 事件分析文章的生成方法、装置、设备及计算机可读存储介质 |
JP7212642B2 (ja) * | 2020-03-19 | 2023-01-25 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
US20220318521A1 (en) * | 2021-03-31 | 2022-10-06 | Storyroom Inc. | System and method of headline generation using natural language modeling |
US11947898B2 (en) * | 2021-03-31 | 2024-04-02 | Storyroom Inc. | System and method of content brief generation using machine learning |
US11816177B2 (en) * | 2021-07-21 | 2023-11-14 | Yext, Inc. | Streaming static web page generation |
CN113569027B (zh) * | 2021-07-27 | 2024-02-13 | 北京百度网讯科技有限公司 | 一种文档标题处理方法、装置及电子设备 |
US20240104055A1 (en) * | 2022-09-22 | 2024-03-28 | Microsoft Technology Licensing, Llc | Method and system of intelligently generating a title for a group of documents |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079031A (zh) * | 2006-06-15 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种网页主题提取系统和方法 |
US20110251984A1 (en) * | 2010-04-09 | 2011-10-13 | Microsoft Corporation | Web-scale entity relationship extraction |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
US8429179B1 (en) * | 2009-12-16 | 2013-04-23 | Board Of Regents, The University Of Texas System | Method and system for ontology driven data collection and processing |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8423348B2 (en) * | 2006-03-08 | 2013-04-16 | Trigent Software Ltd. | Pattern generation |
EP1983444A1 (en) * | 2007-04-16 | 2008-10-22 | The European Community, represented by the European Commission | A method for the extraction of relation patterns from articles |
US10698886B2 (en) | 2007-08-14 | 2020-06-30 | John Nicholas And Kristin Gross Trust U/A/D | Temporal based online search and advertising |
WO2013170344A1 (en) * | 2012-05-15 | 2013-11-21 | Whyz Technologies Limited | Method and system relating to sentiment analysis of electronic content |
-
2013
- 2013-10-22 US US14/060,562 patent/US9619450B2/en active Active
-
2014
- 2014-03-04 KR KR1020167002279A patent/KR102082886B1/ko active IP Right Grant
- 2014-03-04 KR KR1020207005313A patent/KR102094659B1/ko active IP Right Grant
- 2014-03-04 AU AU2014299290A patent/AU2014299290A1/en not_active Abandoned
- 2014-03-04 CA CA2916856A patent/CA2916856C/en active Active
- 2014-03-04 EP EP14712898.7A patent/EP3014480A2/en not_active Withdrawn
- 2014-03-04 CN CN201480045648.9A patent/CN105765566B/zh active Active
- 2014-03-04 WO PCT/US2014/020436 patent/WO2014209435A2/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079031A (zh) * | 2006-06-15 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种网页主题提取系统和方法 |
US8429179B1 (en) * | 2009-12-16 | 2013-04-23 | Board Of Regents, The University Of Texas System | Method and system for ontology driven data collection and processing |
US20110251984A1 (en) * | 2010-04-09 | 2011-10-13 | Microsoft Corporation | Web-scale entity relationship extraction |
CN102298576A (zh) * | 2010-06-25 | 2011-12-28 | 株式会社理光 | 文档关键词生成方法和装置 |
Non-Patent Citations (1)
Title |
---|
REGINA BARZILAY ETC: "Learning to Paraphrase:An Unsupervised Approach Using Multiple-Sequence Alignment", 《ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106610927A (zh) * | 2016-12-19 | 2017-05-03 | 厦门二五八网络科技集团股份有限公司 | 一种基于翻译模板的互联网文章的建构方法与系统 |
CN106933808A (zh) * | 2017-03-20 | 2017-07-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的文章标题生成方法、装置、设备及介质 |
CN107203509A (zh) * | 2017-04-20 | 2017-09-26 | 北京拓尔思信息技术股份有限公司 | 标题生成方法和装置 |
CN107203509B (zh) * | 2017-04-20 | 2023-06-20 | 北京拓尔思信息技术股份有限公司 | 标题生成方法和装置 |
CN111149100B (zh) * | 2017-09-28 | 2023-08-29 | 甲骨文国际公司 | 基于命名实体的解析和识别确定跨文档的修辞相互关系 |
US11809825B2 (en) | 2017-09-28 | 2023-11-07 | Oracle International Corporation | Management of a focused information sharing dialogue based on discourse trees |
CN111149100A (zh) * | 2017-09-28 | 2020-05-12 | 甲骨文国际公司 | 基于命名实体的解析和识别确定跨文档的修辞相互关系 |
US11797773B2 (en) | 2017-09-28 | 2023-10-24 | Oracle International Corporation | Navigating electronic documents using domain discourse trees |
US11782985B2 (en) | 2018-05-09 | 2023-10-10 | Oracle International Corporation | Constructing imaginary discourse trees to improve answering convergent questions |
CN110795929A (zh) * | 2018-07-17 | 2020-02-14 | 富士施乐株式会社 | 生成用于概括对话文件的标题的系统和方法 |
CN110245204A (zh) * | 2019-06-12 | 2019-09-17 | 桂林电子科技大学 | 一种基于定位及知识图谱的智能推荐方法 |
CN110532344A (zh) * | 2019-08-06 | 2019-12-03 | 北京如优教育科技有限公司 | 基于深度神经网络模型的自动选题系统 |
US11880652B2 (en) | 2019-11-14 | 2024-01-23 | Oracle International Corporation | Detecting hypocrisy in text |
CN111460801B (zh) * | 2020-03-30 | 2023-08-18 | 北京百度网讯科技有限公司 | 标题生成方法、装置及电子设备 |
CN111460801A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 标题生成方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2014209435A3 (en) | 2015-03-12 |
WO2014209435A2 (en) | 2014-12-31 |
EP3014480A2 (en) | 2016-05-04 |
KR102094659B1 (ko) | 2020-03-27 |
US20150006512A1 (en) | 2015-01-01 |
CA2916856C (en) | 2022-06-21 |
KR20200022540A (ko) | 2020-03-03 |
AU2014299290A1 (en) | 2016-01-07 |
KR20160025007A (ko) | 2016-03-07 |
US9619450B2 (en) | 2017-04-11 |
CA2916856A1 (en) | 2014-12-31 |
CN105765566B (zh) | 2019-04-16 |
KR102082886B1 (ko) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105765566B (zh) | 一种自动生成标题的方法及系统 | |
Roy et al. | Analysis of community question‐answering issues via machine learning and deep learning: State‐of‐the‐art review | |
US11947529B2 (en) | Generating and analyzing a data model to identify relevant data catalog data derived from graph-based data arrangements to perform an action | |
Zhang et al. | Topic analysis and forecasting for science, technology and innovation: Methodology with a case study focusing on big data research | |
Collier | Uncovering text mining: A survey of current work on web-based epidemic intelligence | |
Small et al. | Review of information extraction technologies and applications | |
US9317594B2 (en) | Social community identification for automatic document classification | |
Kumar et al. | Data harmonization for heterogeneous datasets: a systematic literature review | |
Risse et al. | The ARCOMEM architecture for social-and semantic-driven web archiving | |
US20230359817A1 (en) | Identifying utilization of intellectual property | |
Ballatore et al. | Linking geographic vocabularies through WordNet | |
Ibrahim et al. | Design and application of a multi-variant expert system using apache hadoop framework | |
Wang et al. | Tdjee: A document-level joint model for financial event extraction | |
Arafat et al. | Analyzing public emotion and predicting stock market using social media | |
Hernandez-Mendoza et al. | Credibility analysis on Twitter considering topic detection | |
Kumar et al. | Optimal query expansion based on hybrid group mean enhanced chimp optimization using iterative deep learning | |
Thakkar | Twitter sentiment analysis using hybrid naive Bayes | |
Garifo et al. | The Geranium Platform: A KG-Based System for Academic Publications | |
Rao et al. | A method for classifying information in education policy texts based on an improved attention mechanism model | |
Yuan | [Retracted] Multidimensional Sensor Data Fusion Processing System Based on Big Data | |
Devarakonda et al. | Machine learning and social media to mine and disseminate big scientific data | |
Li | Information Technology and Applications: Proceedings of the 2014 International Conference on Information technology and Applications (ITA 2014), Xian, China, 8-9 August 2014 | |
Anjomshoaa et al. | Self-monitoring in social networks | |
QUESADA | D2. 1 Text Mining Technical Specifications | |
Pan | Automated machine learning models to assist in COVID-19 surveillance, diagnosis, and intervention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |